CN107256238B

CN107256238B - 一种多约束条件下的个性化信息推荐方法及信息推荐系统

Info

Publication number: CN107256238B
Application number: CN201710368933.XA
Authority: CN
Inventors: 王泳; 杨志明
Original assignee: Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd
Current assignee: Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority date: 2017-05-23
Filing date: 2017-05-23
Publication date: 2019-12-17
Anticipated expiration: 2037-05-23
Also published as: CN107256238A

Abstract

本发明提供了一种多约束条件下的个性化信息推荐方法及信息推荐系统，该方法及系统在指明多个物品必须被选定的条件下，实现向客户快速推荐相关联物品的功能；如果用户或物品信息不足，可以使用聚类方法解决数据稀疏问题，使用统计方法推荐相关物品；如果用户或物品信息充足，可以使用关联规则方法并结合统计方法实现相关联物品的推荐。本发明通过约束条件的使用和聚类算法的使用，对数据集合进行数据补全和数据压缩，解决数据稀疏“冷启动”问题，在此基础上，结合基于物品的推荐算法和关联数据挖掘算法解决因信息不足导致的推荐结果不准确的问题；通过对算法的并行化运算过程的改造，解决数据计算量大的技术问题。

Description

一种多约束条件下的个性化信息推荐方法及信息推荐系统

技术领域

本发明属于用户信息推荐技术领域，具体涉及一种多约束条件下的个性化信息推荐方法及信息推荐系统。

背景技术

个性化推荐根据用户兴趣和行为特点，向用户推荐所需的信息或商品，帮助用户在海量信息中快速发现真正所需的商品，提高用户黏性，促进信息点击和商品销售。目前应用比较普遍的个性化推荐算法有以下几种：

1.基于人口统计学的推荐(同类人喜欢什么就推荐什么)

基于人口统计学的推荐机制是一种最易于实现的推荐方法，它只是简单的根据系统用户的基本信息发现用户的相关程度，然后将相似用户喜爱的其他物品推荐给当前用户。

这个方法的缺点和问题在于，这种基于用户的基本信息对用户进行分类的方法过于粗糙，尤其是对品味要求较高的领域，比如图书，电影和音乐等领域，无法得到很好的推荐效果。另外一个局限是，这个方法可能涉及到一些与信息发现问题本身无关却比较敏感的信息，比如用户的年龄等，这些用户信息不是很好获取。

2.基于内容的推荐(用户喜欢什么，就推荐相同类型的)

基于内容的推荐的核心思想是根据推荐物品或内容的元数据，发现物品或者内容的相关性，然后基于用户以往的喜好记录，推荐给用户相似的物品。

这个方法的缺点和问题在于，抽取的特征既要保证准确性又要具有一定的实际意义，否则很难保证推荐结果的相关性。

3.基于关联规则的推荐(用户喜欢A，A和B有紧密联系，就推荐B)

基于关联规则的推荐系统的首要目标是挖掘出关联规则，也就是那些同时被很多用户购买的物品集合，这些集合内的物品可以相互进行推荐。目前关联规则挖掘算法主要从Apriori和FP-Growth两个算法发展演变而来。

这个方法的缺点和问题在于，计算量较大，由于采用用户数据，不可避免的存在冷启动和稀疏性问题，存在热门项目容易被过度推荐的问题。

4.基于协同过滤的推荐

协同过滤是基于一个“物以类聚，人以群分”的假设，喜欢相同物品的用户更有可能具有相同的兴趣。协同过滤被视为利用集体智慧的典范，不需要对项目进行特殊处理，而是通过用户建立物品与物品之间的联系。

目前，协同过滤推荐系统被分化为两种类型：基于用户(User-based)的推荐和基于物品(Item-based)的推荐。

4.1.基于用户的推荐

参考图1所示，基于用户的协同过滤推荐的基本原理是，根据所有用户对物品或者信息的偏好(评分)，发现与当前用户口味和偏好相似的“邻居”用户群，在一般的应用中是采用计算K最近邻的算法；然后，基于这K个邻居的历史偏好信息，为当前用户进行推荐。

但是，这种推荐系统的缺点在于：在一般的网络系统中，用户的增长速度都远远大于物品的增长速度，因此其计算量的增长巨大，系统性能容易成为瓶颈。因此在业界中单纯的使用基于用户的协同过滤系统较少。

4.2.基于物品的推荐

参考图2所示，基于物品的协同过滤和基于用户的协同过滤相似，它使用所有用户对物品或者信息的偏好(评分)，发现物品和物品之间的相似度，然后根据用户的历史偏好信息，将类似的物品推荐给用户。基于物品的协同过滤可以看作是关联规则推荐的一种退化，但由于协同过滤更多考虑了用户的实际评分，并且只是计算相似度而非寻找频繁集，因此可以认为基于物品的协同过滤准确率较高，并且覆盖率更高。

同基于用户的推荐相比，基于物品的推荐应用更为广泛，扩展性和算法性能更好。由于项目的增长速度一般较为平缓，因此性能变化不大。缺点就是无法提供个性化的推荐结果。

基于协同过滤的推荐机制是现今应用最为广泛的推荐机制，然而它也存在以下几个问题：

1、方法的核心是基于历史数据，所以对新物品和新用户都有“冷启动”的问题。

2、推荐的效果依赖于用户历史偏好数据的多少和准确性。

3、在协同过滤实现过程中，用户历史偏好大部分是用稀疏矩阵进行存储的，而稀疏矩阵上的计算有些明显的问题，包括可能存在少部分人的错误偏好会对推荐的准确度有很大的影响等等。

4、对于一些特殊品味的用户不能给予很好的推荐。

5、由于以历史数据为基础，抓取和建模用户的偏好后，很难修改或者根据用户的使用演变，从而导致这个方法不够灵活。

发明内容

本发明的目的在于，为了解决现有的推荐方法中因用户或物品信息不足，导致推荐结果不准确、数据稀疏“冷启动”、数据计算量较大的技术问题，提出了一种多约束条件下的个性化信息推荐方法及信息推荐系统，以实现在多个物品已经被明确指定的约束条件下，再根据物品之间的潜在联系进行其他物品的推荐。本发明结合了统计学原理、关联数据挖掘算法、聚类算法、基于物品的推荐算法、大数据列式存储等多项技术。

为了实现上述目的，本发明提供一种多约束条件下的个性化信息推荐方法，包括：

步骤1)利用数据库中存储的所有物品信息构建元数据，对各种物品对应的元数据进行编码；

步骤2)根据元数据的编码数据对用户关联的物品数据进行数字编码为“1”，对用户未关联的物品数据进行数字编码为“0”，形成用户数据；

步骤3)以预设的若干种约束物品能够关联到同一用户为约束条件检索所有用户数据，如果能够检索出满足该约束条件的用户数据，则将所有满足约束条件的用户数据组成数据集，并执行步骤5)，否则执行步骤4)；

步骤4)将所有约束物品进行分组，在用户数据中根据分组分别进行聚类分析，寻找聚类结果最好的分组作为检索条件，以该检索条件进行物品的统计推荐，获得对应的推荐结果；

步骤5)对步骤3)中的数据集进行关联分析，如果仅获得一个满足支持度和置信度设定条件的物品组合，则将该物品组合作为推荐结果，否则，如果获得至少两个满足支持度和置信度设定条件的物品组合，则利用协同过滤推荐算法对不同组的物品组合进行打分评估，挑选评分最高的物品组合作为推荐结果，否则，如果没有获得满足支持度和置信度设定条件的物品组合，则根据步骤3)中的约束条件进行物品的统计推荐，获得对应的推荐结果。

作为上述技术方案的进一步改进，所述统计推荐的步骤包括：根据用户数据的列式存储结构，分别检索出各种物品对应在用户数据中数字编码为“1”的总数，然后根据总数大小对物品排序，选择排序靠前的物品进行推荐。

作为上述技术方案的进一步改进，所述步骤4)中聚类分析的步骤包括：

步骤101)分别在每一分组数据中任意选择k个数据对象作为该分组的初始聚类中心；

步骤102)根据每个聚类中数据对象的均值作为中心对象，根据以下公式计算每个数据对象与中心对象的距离，并根据最小距离重新对相应数据对象进行划分，所述的公式表示为：

其中，是数据对象i的坐标，是中心对象m的坐标；

步骤103)根据以下公式重新计算每个聚类中数据对象的均值：

其中，||C_i||表示第i个聚类中数据对象的总数；

步骤104)计算标准测度函数，当满足下列函数收敛时，则算法终止，否则继续执行步骤102)，

其中，是第i个聚类的聚类中心对象。作为上述技术方案的进一步改进，所述步骤5)中关联分析的步骤为：

步骤201)通过扫描数据集累计除约束物品外的每种物品对应在用户数据中数字编码为“1”的计数，并收集满足设定支持度条件的物品作为待选物品，组成数据集合L1；

步骤202)使用数据集合L1寻找包含两项待选物品组合的数据集合L2，以此类推，直至无法找到包含k项待选物品组合的数据集合；

步骤203)从包含k-1项待选物品组合的数据集合中递归计算出置信度最高的关联规则，输出具有最大支持度和置信度的关联物品组合。

作为上述技术方案的进一步改进，所述支持度的计算公式表示为：

其中，X表示物品，D表示数据集中包含的物品种类组成的物品集合，称D中包含X的交易的个数与D中总的交易个数之比为X在D中的支持度，记作Support(X)。

作为上述技术方案的进一步改进，所述置信度的计算公式表示为：

其中，X→Y表示X对Y的关联规则，X和Y均表示物品，定义关联规则的置信度为物品X∪Y的支持度与X的支持度之比。

本发明还提供了一种多约束条件下的信息推荐系统，所述的系统包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

本发明的一种多约束条件下的个性化信息推荐方法及信息推荐系统优点在于：

本发明通过约束条件的使用和聚类算法的使用，对数据集合进行数据补全和数据压缩，解决数据稀疏“冷启动”问题，在此基础上，结合基于物品的推荐算法和关联数据挖掘算法解决因信息不足导致的推荐结果不准确的问题；通过对算法的并行化运算过程的改造，解决数据计算量大的技术问题。

附图说明

图1为协同过滤技术中基于用户的推荐的操作原理示意图；

图2为协同过滤技术中基于物品的推荐的操作原理示意图；

图3为本发明中提供的多约束条件下的个性化信息推荐方法的结构框图；

图4为本发明中构建元数据的操作示意图；

图5为本发明中用户数据编码的操作示意图；

图6为本发明中多约束条件下的列式条件检索示意图；

图7为本发明中约束条件部分满足下的并行条件聚类示意图；

图8为本发明中约束条件部分满足下的统计排序示意图；

图9为本发明中约束条件全部满足下的关联分析示意图；

图10为本发明中约束条件全部满足下的统计排序示意图；

具体实施方式

下面结合附图和实施例对本发明所述的一种多约束条件下的个性化信息推荐方法及信息推荐系统进行详细说明。

参照图3所示的结构框图，本发明提供的一种多约束条件下的个性化信息推荐方法具体包括以下步骤：

步骤2)根据元数据的编码数据对用户关联的物品数据进行数字编码为“1”，对用户未关联的物品数据进行数字编码为“0”，形成用户数据(源数据编码)；

基于上述个性化信息推荐方法，所述步骤4)中的聚类算法基本步骤包括：

步骤(1)分别在每一分组数据中任意选择k个数据对象作为该分组的初始聚类中心；

步骤(2)根据每个聚类中数据对象的均值作为中心对象，根据下式计算每个数据对象与这些中心对象的距离；并根据最小距离重新对相应数据对象进行划分；所述的公式表示为：

其中，是数据对象i的坐标，是中心对象m的坐标；

步骤(3)根据下式重新计算每个聚类中数据对象的均值(中心对象)：

其中，||C_i||表示第i个聚类中数据对象的总数；

步骤(4)计算标准测度函数，当满足下列函数收敛时，则算法终止；如果条件不满足，则回到步骤(2)。

其中，是第i个聚类的聚类中心对象。

关联分析算法的基本步骤包括：

(1)首先，通过扫描数据集累计除约束物品外的每个物品的计数，并收集满足最小支持度设定条件的物品作为待选物品组成数据集合L1；

(2)然后，使用数据集合L1寻找包含2项待选物品组合的数据集合L2；

(3)然后，使用数据集合L2寻找包含3项待选物品组合的数据集合L3；

(4)以此类推，直到不能再找到包含k项待选物品组合的数据集合；从包含k-1项待选物品组合的数据集合开始递归计算置信度最高的关联规则，输出具有最大支持度和置信度的关联物品。

假定X是一个物品，D是数据集中包含的物品种类组成的物品集合，称D中包含X的交易的个数与D中总的交易个数之比为X在D中的支持度，记作Support(X)，即支持度的计算公式表示为：

支持度很低的规则可能只是偶然出现，通过设定支持度的判定阈值，能够删除那些不令人感兴趣的规则。

对形如X→Y的关联规则(X和Y都是物品)，定义规则的置信度为物品集合D中既包含X也包含Y的交易个数与D中包含X的交易个数之比，或者说是物品X∪Y的支持度与X的支持度之比，即置信度的计算公式记作：

本发明还提供了一种多约束条件下的信息推荐系统，该系统包括多项技术的组合应用，最终构成一套拥有多个模块的推荐系统。本系统主要包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，具体包括由计算机程序及上述硬件形成的4个模块，详细介绍如下：

1.数据预处理模块

该模块主要实现两项功能，一是构建元数据，这里元数据指的是数据库中对所要记录的物品信息资源的结构化的描述信息。其作用为：描述信息资源或数据本身的特征和属性，规定了数据库所收录物品的名称和物品的属性。对元数据进行编码就是将数据库中以文字描述的物品名称和属性转化为计算机可以识别的信息，方便后续算法调用的码字或编号(图4中以物品总数100为例进行元数据编码)，方便计算机后续对用户数据进行识别和在数据库中进行物品检索和统计。

二是根据元数据编码对用户数据进行数字编码，方便计算机后续识别和在数据库中进行项目检索和统计。

用户数据是指用户与物品之间的关联关系数据，关联关系数据可表示为购买商品的数据。经过数字编码后的用户数据就是一串用“0”和“1”编码的行向量，购买过的商品编码为“1”，没有购买过的商品编码为“0”(如图5所示)。

2.多约束检索模块

该模块主要实现多约束条件检索，如图6所示，以A1、A3、A55、A78、A99为已知约束物品为例，用户数据以列式存储方式进行存储，通过并行运算的方式分别检索出A1＝1,A3＝1,A55＝1,A78＝1,A99＝1的不同数据集，然后通过数据集的交运算，汇总出满足A1＝1且A3＝1且A55＝1且A78＝1且A99＝1的用户数据组成数据集。

3.部分约束条件推荐模块

该模块主要实现在多约束检索模块中没有检索出满足全部约束条件时的物品推荐。该模块主要实现两项功能，一是基于约束条件的聚类分析，将所有约束物品进行分组，通过并行运算的方式在用户数据中根据分组分别聚类，寻找聚类结果最好，即类和类之间距离比较远，类内元素之间距离比较近的聚类结果，包含约束物品最多的聚类结果作为新的检索条件，如图7所示，以A1、A3、A55、A78、A99为已知约束物品，通过分组聚类后选择A1、A3、A55、A99为最优分组。

二是根据新的检索条件进行物品的统计推荐(统计排序1)，结合用户数据的列式存储结构，分别检索出各项物品对应在用户数据中数字编码为“1”的总数，然后根据总数大小对物品排序，选择排序靠前的物品优先进行推荐，如图8所示，以A1、A3、A55、A99为新约束物品为例，ni为物品统计得出的数量。

4.全约束条件推荐模块

该模块主要实现在多约束检索模块中满足全部约束条件时的物品推荐。该模块主要实现两项功能，一是关联分析，将多约束检索模块中生成的数据集进行关联分析如图9所示，以A1、A3、A55、A78、A99为已知约束物品，如果仅获得一个满足支持度和置信度设定条件的物品组合，则将该物品组合作为推荐结果，否则，当在相同支持度和置信度条件下，关联分析所能得出的物品组合可能会有多组，例如图8中示出的A2、A7、A33、A48、A84是一组推荐物品，A6、A18、A34、A43、A88是另一组推荐物品，在这种情况下，则使用基于物品的协同过滤推荐算法对不同组的推荐物品组合进行打分评估，挑选评分靠前的组合进行推荐。

二是当关联分析时，如果没有获得满足支持度或置信度设定条件的物品组合时，可以降低支持度或置信度的取值，但如果达到预先设定的最小阈值还没有找到满足支持度或置信度的物品组合时，则根据多约束检索模块中的约束条件进行物品的统计推荐(统计排序2)，结合用户数据的列式存储结构，分别检索出各项物品对应在用户数据中数字编码为“1”的总数，然后根据总数大小对物品排序，选择排序靠前的物品优先进行推荐，如图9所示，以A1、A3、A55、A78、A99为已知约束物品为例，ni为物品统计得出的数量。

本发明结合了统计学原理、关联数据挖掘算法、聚类算法、基于物品的推荐算法、大数据列式存储等多项技术实现了多约束条件下的快速个性化推荐。所述系统以模块组合的方式进行耦合，其中关联数据挖掘算法、聚类算法并无特别指代，依据不同应用领域的数据特征可以被同类算法优化取代。基于物品的协同过滤推荐算法也主要是在计算不同物品间的距离和关系时根据不同评价指标的使用效果来互相取代，例如可选择欧几里德距离评价、皮尔逊相关度评价、加权排序推荐、互信息排序推荐等算法。

总之，本发明可以在指明多个物品必须被选定的条件下，实现向客户快速推荐相关联物品的功能。如果用户或物品信息不足，可以使用聚类方法解决数据稀疏问题，使用统计方法推荐相关物品；如果用户或物品信息充足，可以使用关联规则方法并结合统计方法实现相关联物品的推荐。在所有物品的检索统计过程中，使用大数据列式存储技术，以物品作为关键词进行检索，而不是以用户数据作为关键词进行检索，针对大数据量场景下，采用列式检索方式使计算速度可以达到100万条/秒的效果，提高了计算速度。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种多约束条件下的个性化信息推荐方法，其特征在于，包括：

步骤5)对步骤3)中的数据集进行关联分析，如果仅获得一个满足支持度和置信度设定条件的物品组合，则将该物品组合作为推荐结果，否则，如果获得至少两个满足支持度和置信度设定条件的物品组合，则利用协同过滤推荐算法对不同组的物品组合进行打分评估，挑选评分最高的物品组合作为推荐结果，否则，如果没有获得满足支持度和置信度设定条件的物品组合，则根据步骤3)中的约束条件进行物品的统计推荐，获得对应的推荐结果；

所述步骤5)中关联分析的步骤为：

2.根据权利要求1所述的多约束条件下的个性化信息推荐方法，其特征在于，所述统计推荐的步骤包括：根据用户数据的列式存储结构，分别检索出各种物品对应在用户数据中数字编码为“1”的总数，然后根据总数大小对物品排序，选择排序靠前的物品进行推荐。

3.根据权利要求1所述的多约束条件下的个性化信息推荐方法，其特征在于，所述步骤4)中聚类分析的步骤包括：

其中，是数据对象i的坐标，是中心对象m的坐标；

步骤103)根据以下公式重新计算每个聚类中数据对象的均值：

其中，||C_i||表示第i个聚类中数据对象的总数；

其中，是第i个聚类的聚类中心对象。

4.根据权利要求3所述的多约束条件下的个性化信息推荐方法，其特征在于，所述支持度的计算公式表示为：

5.根据权利要求4所述的多约束条件下的个性化信息推荐方法，其特征在于，所述置信度的计算公式表示为：

6.一种多约束条件下的信息推荐系统，所述的系统包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

所述步骤5)中关联分析的步骤为：