CN114186121A

CN114186121A - 一种基于服务记录的混合型推荐算法系统

Info

Publication number: CN114186121A
Application number: CN202110143969.4A
Authority: CN
Inventors: 顾守华; 王飞
Original assignee: Shoudainiao Information Technology Suzhou Co ltd
Current assignee: Shoudainiao Information Technology Suzhou Co ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-03-15

Abstract

本发明公开了一种基于服务记录的混合型推荐算法系统，包括以下步骤：1)服务记录数据预处理；2)基于服务记录的协同过滤推荐；3)基于服务记录内容的推荐；4)基于服务记录内关联规则的推荐；5)基于服务记录的加权混合模型推荐。通过上述方式，本发明通过对服务记录包含的用户信息、服务信息及服务建议信息的分析研究，将协同过滤、基于内容和关联规则的推荐三种算法模型进行加权融合，弥补各自的不足，为用户推荐最优的服务，创造价值。

Description

一种基于服务记录的混合型推荐算法系统

技术领域

本发明涉及互联网计算技术领域，特别是涉及一种基于服务记录的混合型推荐算法系统，该系统加权组合协同过滤推荐、基于内容的推荐和基于关联规则的推荐三种不同的算法框架，给用户推荐最优服务的同时，生成其他优质服务选项供用户选择。

背景技术

随着互联网+的发展和SQL数据库管理的广泛应用，运营商在提供互联网服务的同时，也积累了大量的数据。面对这些潜在的价值，如何在保证用户隐私的前提下处理利用好这些数据信息在互联网竞争激烈的当下显得尤为重要。服务记录是用户基本信息、服务信息及建议信息的集合，怎么利用好这些数据为人们服务，创造出新的价值是值得考虑的问题。

推荐系统是一种对信息进行过滤的系统，用来分析预测用户对某项目(item)的“评分”或“偏好”。推荐系统中的推荐算法主要包括协同过滤推荐、基于内容推荐及基于相互关联性规则的推荐等。协同过滤推荐算法(Collaborative FilteringRecommendations，简称CF)，其主要的功能是进行预测和推荐。CF技术通过对用户以往历史行为数据进行的分析，挖掘计算出用户的偏好，并通过得出的偏好进行用户的划分，进而给使用的用户推荐与其偏好相似的物品。协同过滤分为基于用户(user-based)的协同过滤和基于项目(item-based)的协同过滤两种，通俗来讲即为：人以类聚，物以群分。CF技术能够对机器难以进行自动内容分析的信息进行过滤，能够通过共享其他人的经验，避免信息分析的不精确和不完全，但是其存在可扩展和稀疏性问题，如果是新添加的服务，只有当此服务被某些用户喜欢过(或推荐过)，它才可能被推荐给其他用户，否则永远不会被推荐。

基于内容的推荐(Content-based Recommendation，简称CB)是信息处理和过滤技术的进一步发展和延续，它是基于项目的内容和信息，而不需要再依赖用户对某个项目的评价，更多是利用用机器学习的方法从描述内容特征的案例中获取用户的兴趣信息。在基于服务记录内容的推荐系统中，item可以通过分析各个相关服务特征的属性来进行定义，系统基于评估目标对象的特点，学习目标用户的兴趣，考察用户信息资料和待预测项目之间相匹配程度。CB技术没有冷启动和稀疏问题，有较好的可解释性，能够推荐新的刚添加的服务，但其要求服务记录内容要有良好的结构性，无法明确获得用户的判断情况。

基于关联规则的推荐(Association Rules-based Recommendation,简称RB)是根据历史记录数据统计出不同规则出现的关系，类似X事件发生后，关联事件Y也会有一定概率发生，是通过历史记录数据统计出来的这个概率，关联规则的主要作用是在一个较大数据集中寻找出项之间的关联。关联规则可给每一位用户提供良好的搭配和推荐，其中第一步的关联规则发现最为关键且耗时，是该算法的一大瓶颈，但可以通过离线方式完成。

由于各种推荐算法皆有各自不擅长领域，所以在实际中，组合推荐(HybridRecommendation)是一种很好的方式。本发明提出的基于用户服务记录的加权混合推荐算法也归类为组合推荐，其将协同过滤、基于内容和关联规则的三种推荐算法进行加权组合，从而避免或弥补各自推荐技术的弱点，扬长避短。

发明内容

本发明的目的在于提供一种基于服务记录的混合型推荐算法系统，通过对服务记录包含的用户信息、服务信息及服务建议信息的分析研究，将协同过滤、基于内容和关联规则的推荐三种算法模型进行加权融合，弥补各自的不足，为用户推荐最优的服务，创造价值。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于服务记录的混合型推荐算法系统，包括以下步骤：

1)服务记录数据预处理：该部分数据直接从数据库读取，包含用户的信息、服务的详细记录、建议和历史推荐服务等，并将其中的语音数据转为文字，图片信息通过Yolo算法进行识别储存，然后依次进行数据的减噪和归一化，得到标准、干净、连续的记录数据；

2)基于服务记录的协同过滤推荐：主要工作是基于相似度计算，基于记录中相似度，找到评分最高的若干个物品推荐给用户；

3)基于服务记录内容的推荐：根据用户之前有过的item，为用户推荐相似的item；

4)基于服务记录内关联规则的推荐：主要工作是找到最大频繁项，然后在频繁项集中通过可信度的筛选获得其关联规则；

5)基于服务记录的加权混合模型推荐：将上述2)、3)和4)三种算法的推荐结果进行组合，扬长避短，结合多个推荐系统算法的推荐结果，通过加权方式来获得每个推荐候选服务的加权得分，最终进行排序，获得推荐列表。

进一步的是，所述步骤1)服务记录数据预处理步骤如下：

14)去除唯一属性：是指服务记录数据信息中的一些id属性，这些属性并不能反映用户的特征信息，所以直接删除即可；

15)处理缺失值：将数据信息中的缺失值进行补全，采用均值插补法，当一条信息属性的距离作为一种可以度量的值时，使用该信息属性的有效值的平均值来处理和插补缺失的值；当信息属性的距离是一种不可度量的值，使用这个属性的有效值的众数来替代插补缺失的值；

16)数据标准化、正则化：数据的标准化采用z-score标准化，这种模型主要适用于一些属性的最大值和最小值未知的情况，或有超出范围的分类离群数据，其基于一些原始数据的平均值和标准差。

进一步的是，所述步骤2)基于服务记录的协同过滤推荐步骤如下：

24)用户和服务的相似度计算；在二维偏好矩阵中，通过计算用户之间的相似度，将某个用户对所有服务的偏好作为一个向量，或者通过计算服务项目之间的相似度，将所有用户对某个服务的偏好作为一个向量；计算用户之间的相似度使用了Tanimoto系数进行计算结果相似度：

其中，T表示用户/服务的相似度；x和y表示不同的用户或服务信息；

25)相似邻居计算：以当前所取的点为中心，距离为K的区域中的所有点作为当前点的邻居，计算得到相邻用户和相邻服务，即通过对相似度的邻居计算来限制邻居的远近；

26)计算推荐:基于相邻用户和相邻服务信息为用户进行推荐。

进一步的是，所述步骤23)计算推荐基于相邻用户和相邻服务信息为用户进行推荐，其推荐步骤如下：

233)基于用户的协同过滤推荐:以每个用户对所有服务项目的偏好为向量，计算各个用户之间的相似度；

234)基于item的协同过滤推荐:将所有用户对某个item服务的偏好作为一个向量,计算item之间的相似度，从而得到它的相似服务后，然后根据用户历史的偏好预测当前用户还没有表示偏好的服务，计算得到一个排序的服务列表作为推荐。

进一步的是，所述步骤3)基于服务记录内容的推荐步骤如下：

31)物品/项目表示:采用基于图排序的关键词提取算法TextRank,先将一些给定的文本T进行分割，然后进行分词和词性的标注处理，接着构建关键词图，随后就可以根据TextRank公式，对各节点的权重进行迭代，迭代公式如下:

其中，d表示阻尼系数，用于平滑，通常取值为0.60-0.85；V_i表示某个网页，V_j表示链接到V_i的网页；In(V_i)表示网页V_i的所有入链的集合；

最后对节点权重进行排序，得到文本关键词，进而抽取代表属性；

32)用户偏好学习：对于内容推荐，使用Rocchio算法来获取用户的偏好特征：

其中，I_r和I_nr分别表示用户喜欢与不喜欢的item集合，ω表示某item的特征向量，α与β分别为正负反馈的权重；

33)生成推荐列表：可预测每个候选物品的概率值，其对应的预测概率值越高表明该物品与用户连接越密切，因此可从候选物品中选出概率值最大的N个物品进行排序推荐：所述概率值用余弦相似度表示，公式为：

其中，

表示某个user的偏好特征，

为某个候选item的属性特征。

进一步的是，所述步骤4)基于服务记录内关联规则的推荐步骤如下：

41)根据设定的支持度阈值，通过迭代检索出所有满足条件的频繁项集：详细如下：411)扫描整个记录数据库D，计算候选项的支持度，得到所有出现过的数据，作为频繁1项集的集合；

412)k＝2开始循环，挖掘频繁k项集；

413)如果当前的频繁k项集只有一个，则循环结束，否则回到412)。

42)根据给定的最小置信度阈值，在所有频繁集中找出符合条件的关联规则；其最小支持度:

其中，s表示支持度support；X和Y表示不相交的子集，N表示项集数；

最小置信度：

其中，c表示置信度confidence，X和Y同上；

同时强规则需要满足最小支持度和最小置信度两个阈值条件；

43)根据规则为用户生成推荐。

进一步的是，所述步骤5)加权混合模型推荐系统步骤如下：

51)具体某个用户u对标的服务i的加权得分计算如下：

其中，β_k表示第k个加权权重；rec_k表示第k个推荐得分；

54)由上面每种算法的加权得分进行加权结合，得到最终评分，生成推荐列表；

55)生成最终推荐列表。

进一步的是，所述步骤12)服务记录中居多的是无序属性，当一个信息的属性被定义为无序属性时，使用Value difference Metric距离，属性u上的两个离散值a与b之间的距离为：

其中，m_u,a表示属性u上值为a的样本数，m_u,a,i表示在第i个样本簇中在一个属性u上取值为a的样本数，k为样本簇数；

当一条信息的属性被定义为有序属性时，采用闵可夫斯基距离，如给定样本x_i＝(x_i1,x_i2,L,x_in)和x_j＝(x_j1,x_j2,L,x_jn)，则闵可夫斯基距离为：

其中，x_i和x_j为给定样本；p是变参数。

进一步的是，所述步骤13)数据标准化、正则化得到的新数据＝(原数据-均值)/标准差，即：

x^*＝(x-μ)/σ (3)

其中，

其中，

表示第j个集合中的第i个样本；

数据正则化的一个过程是针对单个样本的，其将每一个样本都缩放到一个单位范数；若一个数据集

则样本首先需要计算Lp范数：

正则化结果为：每个样本属性值除以其Lp范数：

其中，

表示第i个样本中的第d个属性值；

进一步的是，所述步骤412)k＝2开始循环，挖掘频繁k项集，详细如下：

4121)连接步：由k-1项的2个只有一项不同的频繁集连接后生成候选k项集；

4122)剪枝步：舍弃掉该候选集不在频繁k-1项集中的子集；

4123)扫描D，计算候选项集的支持度，与最小支持度比较，得到频繁k项集。

本发明的一种基于服务记录的混合型推荐算法系统具有以下优点：

(1)区别于传统服务记录单一展示，本发明将服务记录的内容细化分析进行服务展示，提升用户体验和推荐服务的质量；

(2)克服单一推荐算法的不足，加权组合三种推荐算法，使得推荐的服务更加贴切；

(3)组合生成最优推荐的同时，将其他三个算法模型的最优推荐加入备选列表供用户选择，满足个性化需求，更加全面。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种基于服务记录的混合型推荐算法系统的流程图；

图2是本发明基于用户(左)和基于产品(右)的协同过滤算法示意图；

图3是本发明基于内容的推荐算法模型图；

图4是本发明FP-Growth算法结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明的具体实施方式进行详细说明。这些优选实施方式的示例在附图中进行了例示。附图中所示和根据附图描述的本发明的实施方式仅仅是示例性的，并且本发明并不限于这些实施方式。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

以及，在本发明的描述中，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

请参阅图1至图4，本发明实施例包括：

本发明是基于服务记录的混合型推荐算法，该方法可以总结为如下5个步骤：

步骤1的服务记录数据预处理，具体为：

1.1去除唯一属性

这里是指服务记录数据信息中的一些id属性，这些属性并不能反映用户的特征信息，所以直接删除即可。

1.2处理缺失值

这里将数据信息中的缺失值进行补全，采用均值插补法，当一条信息属性的距离作为一种可以度量的值时，使用该信息属性的有效值的平均值来处理和插补缺失的值；当信息属性的距离是一种不可度量的值，使用这个属性的有效值的众数来替代插补缺失的值。

服务记录中居多的是无序属性，当一个信息的属性被定义为无序属性时，使用Value difference Metric(简称VDM)距离，属性u上的两个离散值a与b之间的距离为：

其中，m_u,a表示属性u上值为a的样本数，m_u,a,i表示在第i个样本簇中在一个属性u上取值为a的样本数，k为样本簇数。

其中，x_i和x_j为给定样本；p是变参数。

1.3数据标准化、正则化

数据的标准化采用z-score标准化，这种模型主要适用于一些属性的最大值和最小值未知的情况，或有超出范围的分类离群数据，其基于一些原始数据的平均值和标准差。数据标准化、正则化得到的新数据＝(原数据-均值)/标准差，即：

x^*＝(x-μ)/σ (3)

其中，

其中，

表示第j个集合中的第i个样本；

数据正则化的一个过程是针对单个样本的，其将每一个样本都缩放到一个单位范数。若一个数据集

则样本首先需要计算Lp范数：

正则化结果为：每个样本属性值除以其Lp范数：

其中，

表示第i个样本中的第d个属性值；

步骤2的基于服务记录的协同过滤推荐，具体为：

2.1用户和服务的相似度计算

在二维偏好矩阵(用户-服务)中，通过计算用户之间的相似度，该方法将某个用户对所有服务的偏好作为一个向量，或者通过计算服务项目之间的相似度，将所有用户对某个服务的偏好作为一个向量。因为记录信息主要是文档数据，这里使用了Tanimoto系数进行计算结果相似度：

2.2相似邻居计算

以当前所取的点为中心，距离为K的区域中的所有点作为当前点的邻居，计算得到相邻用户和相邻服务，即通过对相似度的邻居计算来限制邻居的远近。

2.3计算推荐

基于上述的相邻用户和相邻服务信息为用户进行推荐。

2.3.1基于用户的协同过滤推荐

以每个用户对所有服务项目的偏好为向量，计算各个用户之间的相似度。在我们找到K邻居后，根据该邻居的相似度权重及其对服务项目的偏好，对当前使用者偏好中不能涉及的项目进行预测，并通过计算出排序后的项目列表名单来进行推荐。

2.3.2基于item的协同过滤推荐

将所以用户对某个item服务的偏好作为一个向量,计算item之间的相似度，从而得到它的相似服务后，然后根据用户历史的偏好预测当前用户还没有表示偏好的服务，计算得到一个排序的服务列表作为推荐。

步骤3的基于服务记录内容的推荐，具体为：

3.1物品(项目)表示

采用基于图排序的关键词提取算法TextRank,先将一些给定的文本T进行分割，然后进行分词和词性的标注处理，接着构建关键词图，随后就可以根据TextRank公式，对各节点的权重进行迭代，迭代公式如下:

其中，d表示阻尼系数，用于平滑，通常取值为0.60-0.85；V_i表示某个网页，V_j表示链接到V_i的网页；In(V_i)表示网页V_i的所有入链的集合。

最后对节点权重进行排序，得到文本关键词，进而抽取代表属性。

3.2用户偏好学习

对于内容推荐，使用Rocchio算法来获取用户的偏好特征：

其中，I_r和I_nr分别表示用户喜欢与不喜欢的item集合，ω表示某item的特征向量，α与β分别为正负反馈的权重。

3.3生成推荐列表

可预测每个候选物品的概率值，其对应的预测概率值越高表明该物品与用户连接越密切，因此可从候选物品中选出概率值最大的N个物品进行排序推荐。这里概率值用余弦相似度表示，公式为：

其中，

表示某个user的偏好特征，

为某个候选item的属性特征。

步骤4的基于服务记录内关联规则的推荐，具体为：

4.1根据设定的支持度阈值，通过迭代检索出所有满足条件的频繁项集，详细如下：

(1)扫描整个记录数据库D，计算候选项的支持度，得到所有出现过的数据，作为频繁1项集的集合；

(2)k＝2开始循环，挖掘频繁k项集：

(2.1)连接步：由k-1项的2个只有一项不同的频繁集连接后生成候选k项集；

(2.2)剪枝步：舍弃掉该候选集不在频繁k-1项集中的子集；

(2.3)扫描D，计算候选项集的支持度，与最小支持度比较，得到频繁k项集；

(3)如果当前的频繁k项集只有一个，则循环结束，否则回到(2)步。

4.2根据给定的最小置信度阈值，在所有频繁集中找出符合条件的关联规则。

其最小支持度(support):

最小置信度(confidence)：

其中，c表示置信度confidence，X和Y同上；

同时强规则需要满足最小支持度和最小置信度两个阈值条件。

4.3根据规则为用户生成推荐

步骤5的加权混合模型推荐系统，具体为：

5.1具体某个用户u对标的服务i的加权得分计算如下：

其中，β_k表示第k个加权权重；rec_k表示第k个推荐得分；

5.2由上面每种算法的加权得分进行加权结合，得到最终评分，生成推荐列表

基于用户的协同过滤的权重为20％，基于item的协同过滤的权重为20％，基于内容的推荐技术的权重为30％，基于关联规则的推荐技术的权重为30％。相比使用单个算法，这里综合多方面，为用户推荐更个性化的服务，推荐实例如下：

其中,R_UB1是指基于用户的协同过滤的推荐结果1，R_IB1是指基于item的协同过滤的推荐结果1,R_CB1是指基于服务记录内容的推荐结果1，R_RB1是指基于服务记录内关联规则的推荐结果1；2类推。

5.3生成最终推荐列表

混合推荐排序中的最优设为用户默认最优推荐，候选列表中的推荐服务混合模型推荐2个(第二、第三)，协同过滤方法2个(前二)，基于内容的推荐2个(前二)，基于关联规则的推荐2个(前二)，即默认推荐1个，候选列表(用户点开可选)8个，如有重复，合并，优先性加一。

此外，需要说明的是，在本说明书中，“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。