CN103778329A

CN103778329A - 一种构造数据补足值的方法

Info

Publication number: CN103778329A
Application number: CN201410013757.4A
Authority: CN
Inventors: 陈鹏; 吴磊; 罗辛; 夏云霓
Original assignee: CHENGDU GKHB INFORMATION TECHNOLOGY Co Ltd; Chongqing University
Current assignee: Chongqing Zhongke Yuncong Technology Co Ltd
Priority date: 2014-01-13
Filing date: 2014-01-13
Publication date: 2014-05-07
Anticipated expiration: 2034-01-13
Also published as: CN103778329B

Abstract

本发明公开了一种构造数据补足值的方法，应用于一电子设备中，所述方法包括：所述电子设备获得用户-项目行为数据；基于所述用户-项目行为数据，计算项目邻居关键度；将所述项目的邻居集划分为固定最近邻居集和采样邻居集；构造最近邻采样聚合；基于所述固定最近邻居集和所述最近邻采样聚合对应的邻居关键度，以及所述用户-项目行为数据，构造对于缺失所述用户-项目行为数据的补足值，解决了现有技术中现有基于K近邻的协同过滤模型存在准确度无法提高的技术问题，实现了在进行缺失行为值的补足时准确度和覆盖率都有较大提升的技术效果。

Description

一种构造数据补足值的方法

技术领域

本发明涉及信息技术领域，尤其涉及一种构造数据补足值的方法。

背景技术

大数据时代，互联网信息规模呈爆炸性增长，并带来互联网信息超载的问题，过量信息同时呈现，使得用户很难从中筛选出对个人有效的部分，信息利用率反而降低。处理互联网信息超载问题，就需要采用大数据处理分析技术，对海量的互联网数据信息进行分析，找出用户与数据之间的关联，实现大数据环境中面向用户的主动信息推送，从而解决信息超载问题。

基于K近邻的协同过滤模型是一类经典的大数据处理分析模型，用以处理大数据环境中，在大型网络应用，如门户网站、电子商务信息系统、博客等等，中的用户-项目关联分析问题。其中项目指用户可能使用的任何互联网信息资源，如新闻、日志、商品、电影等等。该模型的处理对象是用户-项目行为矩阵。在用户-行为项目矩阵中，每一行对应于一个用户，每一列对应于一个项目，每一个矩阵元素则是根据其对应用户在其对应项目上的自然历史行为，如点击、浏览、购买、评论等，进行量化得出。

通常情况下，由于互联网信息的海量特征，在一个大型网络应用中，一个用户不可能使用所有的项目，而只可能使用项目全集的一个很小的子集；一个项目也不可能被所有的用户使用，其对应的用户集合只可能是用户全集的一个很小的子集。换而言之，用户-项目行为矩阵往往是极端稀疏的，其中包含有大量的缺失值。从另一方面出发，如果能够通过数学模型，对缺失的用户-项目行为数据进行适当的补足，则能够为用户提供对未使用项目的可靠关联，从而达到大数据环境中面向用户的主动信息推送的应用目的。这也是基于K近邻的协同过滤模型的基本工作思想。

基于K近邻的协同过滤模型，其工作流程是首先分析用户或项目间的近邻关系，然后结合相似度较高的用户或项目的已知行为，对其最近邻的缺失行为数据进行补足，最终达到信息推送的目的。基于K近邻的协同过滤模型具备很高的准确度和良好的可解释性，因而得到广泛应用。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

在现有技术中，由于现有基于K近邻的协同过滤模型中的近邻居集来源单一，所以现有基于K近邻的协同过滤模型存在准确度无法提高的技术问题。

发明内容

本申请实施例通过提供一种构造数据补足值的方法，解决了现有技术中现有基于K近邻的协同过滤模型存在准确度无法提高的技术问题，实现了在进行缺失行为值的补足时准确度和覆盖率都有较大提升的技术效果。

为解决上述技术问题，本申请实施例提供了一种构造数据补足值的方法，应用于一电子设备中，所述方法包括：

所述电子设备获得用户-项目行为数据；

基于所述用户-项目行为数据，计算项目邻居关键度；

将所述项目的邻居集划分为固定最近邻居集和采样邻居集；

构造最近邻采样聚合；

基于所述固定最近邻居集和所述最近邻采样聚合对应的邻居关键度，以及所述用户-项目行为数据，构造对于缺失所述用户-项目行为数据的补足值。

其中，所述邻居关键度具体包括两部分，第一部分为：当前项目和邻居项目的行为相似度，第二部分为：当前项目和邻居项目的行为重叠度。

其中，所述构造最近邻采样聚合具体包括：

首先基于所述邻居关键度和最近邻规模阈值，将每个项目的邻居进行排序；

然后计算所述固定最近邻居集和所述采样邻居集的规模；

最后基于项目最近邻采样聚合规模阈值，利用带重置的样本拒绝采样技术，构造最近邻采样聚合。

其中，所述基于所述固定最近邻居集和所述最近邻采样聚合对应的邻居关键度，以及所述用户-项目行为数据，构造对于缺失所述用户-项目行为数据的补足值具体依据如下公式（1）实施。

Figure 2014100137574100002DEST_PATH_IMAGE001

（1）

其中，

表示用户u已知行为的项目集合与项目i的固定最近邻居集和采样邻居集的交集。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了该方法首先根据各项目邻居的关键度高低和最近邻规模阈值，将每个项目的邻居集划分为固定最近邻居集和采样邻居集；然后结合采样概率、采样集规模阈值和聚合规模阈值，以采样邻居集为基础，构造最近邻采样聚合；最后结合固定最近邻居集和项目最近邻采样聚合对应的邻居关键度，以及用户-项目行为矩阵中的已知用户-项目行为数据，构造对于缺失用户-项目行为数据的补足值的技术方案，所以，有效解决了现有基于K近邻的协同过滤模型存在准确度无法提高的技术问题，进而实现了在进行缺失行为值的补足时准确度和覆盖率都有较大提升的技术效果。

附图说明

图1为本申请实施例中构造数据补足值的方法的流程图；

图2为本申请实施例中邻居采样示意图；

图3为本申请实施例中基于K近邻的协同过滤模型和应用本申请实施例的模型在缺失行为值补足准确度上的对比图；

图4为本申请实施例中基于K近邻的协同过滤模型和应用本申请实施例的模型在缺失行为值补足覆盖率上的对比图。

具体实施方式

本申请实施中的技术方案为解决上述技术问题。总体思路如下：

首先根据各项目邻居的关键度高低和最近邻规模阈值，将每个项目的邻居集划分为固定最近邻居集和采样邻居集；然后结合采样概率、采样集规模阈值和聚合规模阈值，以采样邻居集为基础，构造最近邻采样聚合；最后结合固定最近邻居集和项目最近邻采样聚合对应的邻居关键度，以及用户-项目行为矩阵中的已知用户-项目行为数据，构造对于缺失用户-项目行为数据的补足值的技术方案，所以，有效解决了现有基于K近邻的协同过滤模型存在准确度无法提高的技术问题，进而实现了在进行缺失行为值的补足时准确度和覆盖率都有较大提升的技术效果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例一

在实施例一中，提供了一种构造数据补足值的方法，应用在一电子设备中，其中，所述电子设备可以是台式电脑，可以是移动电脑，也可以是智能手机，在本申请实施例中，在此就不再一一举例了。请参考图1，本申请实施例中的构造数据补足值的具体包括：

S10，所述电子设备获得用户-项目行为数据。

在具体应用中，电子设备为一电脑，电脑中的处理器从服务器中获得用户-项目行为数据，获得的方式可以是有线传输的方式也可以是无线传输的方式。

在步骤S10之后，本申请实施例的方法便进入步骤S20，即：基于所述用户-项目行为数据，计算项目邻居关键度。

其中，在本申请实施例中，所述邻居关键度具体包括两部分，第一部分为：当前项目和邻居项目的行为相似度，第二部分为：当前项目和邻居项目的行为重叠度。

在实际应用中，基于给定的用户-项目行为矩阵R中的已知行为数据，计算每一个项目所对应的邻居关键度。邻居关键度包括两个主要部分，第一部分是当前项目i和邻居项目j的行为相似度，由皮尔森相关系数（Pearson Correlation Coefficient）度量；第二部分是当前项目和邻居项目的行为重叠度，使用Sigmoid函数对相似度支持度进行权重变换度量。其中，相似度支持度指对于两个项目i、j，将对i、j具备已知行为数据的用户集合标记为U(i)、U(j)，则i、j间的相似度支持度是U(i)、U(j)交集的势，以下公式（2）表示。

Figure 2014100137574100002DEST_PATH_IMAGE003

（2）

在使用Sigmoid函数对相似度支持度进行权重变换时，首先将当前已知的相似度支持度进行线性变换，变换过程定义为公式（3）。

（3）

其中表示当前项目i和邻居项目j之间的相似度支持度，和分别表示当前已知的相似度支持度中的最大值和最小值，α表示映射区间长度，表示变换后的相似度支持度。经过上述变换过程后，已知的相似度支持度将会被映射至[0, α]区间内。区间长度α可通过十字交叉检验确定，或置为已知经验值。经过线性变换后，再使用Sigmoid函数对变换后的相似度支持度进行权重变换为公式（4）。

（4）

获取行为重叠度后，再将其与行为相似度相乘，得到当前项目i和邻居项目j间的邻居关键度为公式（5）。

（5）

在步骤S20之后，本申请实施例的方法便进入步骤S30，即：将所述项目的邻居集划分为固定最近邻居集和采样邻居集。

在步骤S30之后，本申请实施例的方法便进入步骤S40，即：构造最近邻采样聚合。

其中，在本申请实施例中，所述构造最近邻采样聚合具体包括：

然后计算所述固定最近邻居集和所述采样邻居集的规模；

在实际应用中，首先基于步骤S20计算的邻居关键度和最近邻规模阈值K，将每个项目的邻居按照邻居关键度由高到低的顺序进行排序。然后将每个项目的最近K邻居集划分为固定最近邻居集和采样邻居集，并计算固定最近邻居集和采样邻居集的规模。固定最近邻居集、采样邻居集的规模和最近邻规模阈值K的关系表述为公式(6).

(6)

其中表示采样邻居集在项目最近K邻居集中所占的比例，FK和PK分别表示在当前最近邻规模阈值K约束下，固定最近邻居集和采样邻居集所包含的项目邻居数量。

请参考图2，图2为邻居采样示意图。获得采样邻居集规模后，基于项目最近邻采样聚合规模阈值N，使用带重置的样本拒绝采样技术，构造项目最近邻采样聚合。对于项目最近邻采样聚合中的每一个采样邻居集，其构造规则为：

第一步：以项目邻居集中，所有不属于固定最近邻居集的邻居作为采样基本集；

第二步：从采样基本集中随机抽取一个项目，以固定概率pn接受该项目，pn结合项目邻居数量M以及FK和PK确定，其计算方式为公式（7）。

（7）

第三步：重复第二步直到当前采样邻居集的规模等于PK为止。

在步骤S40之后，本申请实施例的方法便进入步骤S50，即：基于所述固定最近邻居集和所述最近邻采样聚合对应的邻居关键度，以及所述用户-项目行为数据，构造对于缺失所述用户-项目行为数据的补足值。

其中，在本申请实施例中，所述基于所述固定最近邻居集和所述最近邻采样聚合对应的邻居关键度，以及所述用户-项目行为数据，构造对于缺失所述用户-项目行为数据的补足值具体依据公式（1）实施。

下面举例对本方法做具体的介绍：

为了对方法的正确性和精确性进行验证，在PC机上（配置：INTEL i5-760，2.8G处理器，8G内存）运行了仿真实验进行实例分析。在实例分析钟，采用的用户-项目行为矩阵来源于MovieLens网站收集的用户行为（数据来源：http://www.grouplens.org/node/73），该该数据集包含了根据6040名用户对3900个项目的浏览、评分和评论进行加权平均后量化的，超过100万条的行为信息，其用户-项目行为矩阵稠密度为4.25%，用户行为量化值分布在区间[0, 5]内，值越高代表用户与相应项目的关联越强。实例分析使用平均绝对误差MAE作为缺失行为值补足准确度的评价指标，MAE越低，缺失行为值补足准确度越高；使用覆盖率Coverage作为补足覆盖范围的评价指标，Coverage越高，补足覆盖范围越广。

图3和图4分别给出实例分析中基于K近邻的协同过滤模型和应用本申请实施例的模型在缺失行为值补足准确度和覆盖率上的对比。其中红色线条表示基于K近邻的协同过滤模型，黑色线条表示应用本专利方法后的模型。由图2、图3可见，应用本专利方法后，缺失行为值补足的准确度和覆盖率都有明显提升。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种构造数据补足值的方法，应用于一电子设备中，其特征在于，所述方法包括：

所述电子设备获得用户-项目行为数据；

基于所述用户-项目行为数据，计算项目邻居关键度；

将所述项目的邻居集划分为固定最近邻居集和采样邻居集；

构造最近邻采样聚合；

2.如权利要求1所述的方法，其特征在于，所述邻居关键度具体包括两部分，第一部分为：当前项目和邻居项目的行为相似度，第二部分为：当前项目和邻居项目的行为重叠度。

3.如权利要求1所述的方法，其特征在于，所述构造最近邻采样聚合具体包括：

基于所述邻居关键度和最近邻规模阈值，将每个项目的邻居进行排序；

计算所述固定最近邻居集和所述采样邻居集的规模；

基于项目最近邻采样聚合规模阈值，利用带重置的样本拒绝采样技术，构造最近邻采样聚合。

4.如权利要求1所述的方法，其特征在于，所述基于所述固定最近邻居集和所述最近邻采样聚合对应的邻居关键度，以及所述用户-项目行为数据，构造对于缺失所述用户-项目行为数据的补足值具体依据如下公式实施：

其中，

Figure 2014100137574100001DEST_PATH_IMAGE002