CN108829819B

CN108829819B - 个性化文本推荐方法及系统、服务器、可读存储介质

Info

Publication number: CN108829819B
Application number: CN201810599672.7A
Authority: CN
Inventors: 江小林; 尚世栋; 丁洁; 朱频频
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2021-05-07
Anticipated expiration: 2038-06-12
Also published as: CN108829819A

Abstract

一种个性化文本推荐方法及系统、服务器、可读存储介质，所述方法包括：获取用户的浏览记录；对用户的浏览记录进行分析，构建用户‑物品矩阵，通过不同用户的浏览记录，采用协同过滤方式计算出针对每个用户的第一候选列表；按照预设多个维度对所述浏览记录进行统计，生成用户偏好特征集；将获取的文本与所述用户偏好特征集进行相关性计算，分别按照相应维度进行过滤并合并，得到第二候选列表；将所述第一候选列表和第二候选列表进行进行融合，计算得到相应用户的文本推荐列表并输出。所述方案可以提高文本推荐内容的覆盖度及精准度。

Description

个性化文本推荐方法及系统、服务器、可读存储介质

技术领域

本发明实施例涉及文本推荐技术领域，尤其涉及个性化文本推荐方法及系统、服务器、可读存储介质。

背景技术

目前主流的个性化文本推荐方法，大致可分为两种：一种是协同过滤推荐方式，一种是基于内容的推荐方式。其中，协同过滤方式是根据某个用户的特性进行推荐；基于内容的推荐方式则是根据文本的关键词等信息计算相似度，推荐一些相似的内容。

然而，协同过滤推荐方式通常只考虑用户历史行为，在用户很少的情况下难以做出精准地推荐；而基于内容的推荐方式则存在推荐内容单一的问题。基于此，如何兼顾文本推荐的覆盖度及精准度成为亟待解决的问题。

发明内容

本发明实施例提供一种个性化文本推荐方法及系统、服务器、计算机可读存储介质，以提高文本推荐的覆盖度及精准度。

本发明实施例提供了一种个性化文本推荐方法，包括：获取用户的浏览记录；对用户的浏览记录进行分析，构建用户-物品矩阵，通过不同用户的浏览记录，采用协同过滤方式计算出针对每个用户的第一候选列表；按照预设多个维度对所述用户的浏览记录进行统计，生成用户偏好特征集；将获取的文本与所述用户偏好特征集进行相关性计算，分别按照相应维度进行过滤并合并，得到第二候选列表；将所述第一候选列表和第二候选列表进行融合，计算得到相应用户的文本推荐列表并输出。

可选地，预设的多个维度包括：标题和标签。

可选地，将获取的文本与所述用户偏好特征集进行相关性计算，分别按照相应维度进行过滤并合并，得到第二候选列表，包括：将获取的文本与所述用户偏好特征集中的标题和标签分别进行语义相似度计算，并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表。

可选地，预设的多个维度包括：标题、标签和类别。

可选地，按照预设多个维度对所述用户的浏览记录进行统计，生成用户偏好特征集，包括以下任意一种：

分别统计所述用户在不同标题、类别和标签下的浏览记录数目；根据统计结果生成所述用户偏好特征集；

统计所述用户在各个类别下的浏览记录数目，并统计在相应类别下的浏览记录的标题，根据用户浏览记录统计标签及其对应权重；根据统计结果生成所述用户偏好特征集；

统计所述用户对各个标题的浏览记录，统计所述用户在各个类别下的浏览记录数目，并统计在相应类别下的标签及其权重；根据统计结果生成所述用户偏好特征集；

统计所述用户在相应类别下的标题，统计所述用户在相应类别下的标签及其权重；根据统计结果生成所述用户偏好特征集。

可选地，所述将获取的文本与所述用户偏好特征集进行相关性计算，分别按照相应维度进行过滤并合并，得到第二候选列表，包括以下任意一种：

对所述文本与所述用户偏好特征集中的标题及标签分别进行语义相似度计算，并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤，将过滤结果分别采用所述用户偏好特征集中的类别进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表；

按照所述用户偏好特征集中的类别对所获取的文本的类别进行过滤，并对用户偏好特征集中相应类别下所述文本的标题进行语义相似度计算；对获取的文本与所述用户偏好特征集中的标签进行语义相似度计算；并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表；

对获取的文本与所述用户偏好特征集中的标题进行语义相似度计算；按照所述用户偏好特征集中的类别对所获取的文本的类别进行过滤，并对用户偏好特征集中相应类别下所述文本的标签进行语义相似度计算；分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表；

按照所述用户偏好特征集中的类别对所获取的文本的类别进行过滤，并对用户偏好特征集中相应类别下所述文本的标题及标签分别进行语义相似度计算，并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表。

可选地，将所述第一候选列表和第二候选列表进行进行融合，计算得到文本推荐列表，包括：将所述第一候选列表和第二候选列表通过线性加权方式进行融合，并选取权重值最大的预设N个文本作为推荐文本。

可选地，采用协同过滤方式计算出针对每个用户的第一候选列表，包括：采用UserKNN、ItemKNN、Slim或LDA协同过滤算法计算出针对每个用户的第一候选列表。

本发明实施例提供了一种个性化文本推荐系统，包括：获取单元，适于获取用户的浏览记录；第一过滤单元，适于对所述获取单元获取的用户的浏览记录进行分析，构建用户-物品矩阵，通过不同用户的浏览记录，采用协同过滤方式计算出针对每个用户的第一候选列表；用户偏好生成单元，适于按照预设多个维度对所述用户的浏览记录进行统计，生成用户偏好特征集；第二过滤单元，适于将获取的文本与所述用户偏好生成单元所生成的所述用户偏好特征集进行相关性计算，分别按照相应维度进行过滤并合并，得到第二候选列表；融合单元，适于将所述第一过滤单元过滤得到的所述第一候选列表和第二过滤单元过滤得到的所述第二候选列表进行融合，计算得到相应用户的文本推荐列表；输出单元，适于将所述融合单元得到的文本推荐列表输出。

可选地，预设的多个维度包括：标题和标签。

可选地，预设的多个维度包括：标题、标签和类别。

可选地，所述用户偏好生成单元包括以下其中一种：

第一生成装置，适于分别统计所述用户在不同标题、类别和标签下的浏览记录数目；根据统计结果生成所述用户偏好特征集；

第二生成装置，适于统计所述用户在各个类别下的浏览记录数目，并统计在相应类别下的浏览记录的标题，根据用户浏览记录统计标签及其对应权重；根据统计结果生成所述用户偏好特征集；

第三生成装置，适于统计所述用户对各个标题的浏览记录，统计所述用户在各个类别下的浏览记录数目，并统计在相应类别下的标签及其权重；根据统计结果生成所述用户偏好特征集；

第四生成装置，适于统计所述用户在相应类别下的标题，统计所述用户在相应类别下的标签及其权重；根据统计结果生成所述用户偏好特征集。

可选地，所述第二过滤单元包括以下任意一种：

第一过滤装置，适于对所述文本与所述用户偏好特征集中的标题及标签分别进行语义相似度计算，并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤，将过滤结果分别采用所述用户偏好特征集中的类别进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表；

第二过滤装置，适于按照所述用户偏好特征集中的类别对所获取的文本的类别进行过滤，并对用户偏好特征集中相应类别下所述文本的标题进行语义相似度计算；对获取的文本与所述用户偏好特征集中的标签进行语义相似度计算；并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表；

第三过滤装置，适于对获取的文本与所述用户偏好特征集中的标题进行语义相似度计算；按照所述用户偏好特征集中的类别对所获取的文本的类别进行过滤，并对用户偏好特征集中相应类别下所述文本的标签进行语义相似度计算；分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表；

第四过滤装置，适于按照所述用户偏好特征集中的类别对所获取的文本的类别进行过滤，并对用户偏好特征集中相应类别下所述文本的标题及标签分别进行语义相似度计算，并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表。

可选地，所述融合单元，适于将所述第一候选列表和第二候选列表通过线性加权方式进行融合，并选取权重值最大的预设N个文本作为推荐文本。

可选地，所述第一过滤单元，适于采用UserKNN、ItemKNN、Slim或LDA协同过滤算法计算出针对每个用户的第一候选列表。

本发明实施例还提供了一种服务器，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行任一本发明实施例所述个性化文本推荐方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行任一本发明实施例所述个性化文本推荐方法的步骤。

采用本发明实施例中的个性化文本推荐方案，一方面，通过对用户的浏览记录进行分析，构建用户-物品矩阵，通过不同用户的浏览记录，采用协同过滤方式进行过滤，可以提高推荐文本内容的覆盖度；另一方面，通过基于文本内容是推荐可以满足在用户很少的情况下的推荐，且在基于文本内容的推荐过程中，由于根据所述浏览记录生成了生成了用户偏好的用户偏好特征集，且具有多个维度，从而可以提高第二候选列表的精准度，因而，基于对以上协同过滤方式计算得到的第一候选列表和基于多个维度进行相关性计算得到的第二候选列表进行融合所得到的相应用户的文本推荐列表，其文本内容对于相应用户具有更高的覆盖度及精准度，故满足用户的个性化需求。

在相关性计算过程中，通过对标题相似度阈值及标签相似度阈值的限定，提高了第二候选列表的精准度，且通过计算标签的语义相似度进行文本过滤，可以克服标签字符串完全匹配的局限性，提高所述第二候选列表的召回率。

在相关性计算过程中，首先对所获取的文本的类别根据生成的用户偏好特征集进行限定，在对用户偏好特征集中相应类别下的文本进行标题或标签的语义相似度计算，可以大大减少数据的运算量，提高文本推荐效率，节约系统处理资源。

通过线性加权方式将所述第一候选列表和第二候选列表有机融合，可以达到所推荐的覆盖度和精准度的合理平衡，更好地满足用户的个性化推荐需求。

附图说明

图1为本发明实施例中一种个性化文本推荐方法的流程图；

图2为本发明实施例中一种个性化文本推荐系统的结构示意图。

具体实施方式

如前所述，现有的个性化文本推荐方法存在着推荐内容单一及覆盖度较低的问题，为了提高文本推荐的覆盖度及精准度，本发明实施例提供了相应的个性化文本推荐方法及系统、服务器和计算机可读介质，一方面，基于用户的浏览记录，采用协同过滤方式对文本进行过滤；另一方面，按照预设多个维度对所述浏览记录进行统计，生成用户偏好特征集，并将获取的文本与所述用户偏好特征集进行相关性计算，分别按照相应维度进行过滤并合并，得到第二候选列表。之后，将所述第一候选列表和第二候选列表进行融合，计算得到相应用户的文本推荐列表。

其中，基于用户的浏览记录采用协同过滤方式对文本进行过滤，可以提高推荐文本内容的覆盖度；根据所述浏览记录生成了生成了用户偏好特征集，且具有多个维度，故将文本与所述用户偏好特征集在相应维度进行相关性计算，可以提高第二候选列表的精准度。因而，基于对以上协同过滤方式计算得到的第一候选列表和基于多个维度进行相关性计算得到的第二候选列表进行融合所得到的相应用户的文本推荐列表，其文本内容对于相应用户具有更高的覆盖度及精准度，故满足用户的个性化需求。

为使本领域技术人员更好地理解和实现本发明实施例，以下参照附图，通过具体实施例及应用场景进行详细说明。

参照图1所示的个性化文本推荐方法的流程图，本发明一实施例中的个性化文本推荐方法，可以包括如下步骤：

S11，获取用户的浏览记录。

用户浏览了某篇文档，会产生历史记录。对于数据库中文档，若浏览则可以标记为“1”，未浏览标记为“0”。

S12，对用户的浏览记录进行分析，构建用户-物品(User-Item，U-I)矩阵，通过不同用户的浏览记录，采用协同过滤方式计算出针对每个用户的第一候选列表。

当用户A需要个性化推荐时，可以先找到和他有相似兴趣的其它用户，然后把那些用户喜欢的、而用户A没有听说过的物品(文本)推荐给A，这种方法称为基于用户的协同过滤算法。协同过滤一个重要的优点是领域无关，不涉及领域知识就可以完成模型的训练。协同过滤算法主要包括两步：

1.找到和目标用户兴趣相似的用户集合——计算两个用户的兴趣相似度；

2.找到这个集合中的用户喜欢的，且目标用户没有听说过的物品(文本)推荐给目标用户——找出物品(文本)推荐。

以下通过一个具体的示例说明协同过滤算法的计算过程。

首先，对用户的浏览记录进行分析，可以构建如表1所示的U-I矩阵，第一列表示用户标识(Userid)，第一行表示文档标识(itemid)，通过所形成构建的U-I矩阵可以获知各用户是否浏览了相应的文档，其中“1”表示已浏览，“0”未浏览。

表1 U-I矩阵

userid/itemid	1	2	3	4	5
						1	1	1	0	0	0
2	0	1	1	0	1
						3	1	0	0	1	1
4	0	1	1	0	0
						5	1	0	1	1	0
6	1	1	0	0	1

根据U-I矩阵，可以得出用户向量，对应相应用户对所有文本的是否浏览过进行标记得到的一个序列集合。例如，表1所示的U-I矩阵对应的用户向量如下：

user(1)＝(1,1,0,0,0)；

user(2)＝(0,1,1,0,1)；

user(3)＝(1,0,0,1,1)；

user(4)＝(0,1,1,0,0)；

user(5)＝(1,0,1,1,0)；

user(6)＝(1,1,0,0,1)。

接着，可以计算用户两两之间的兴趣相似度，表1所示的U-I矩阵对应的两两用户之间的兴趣相似度值的计算过程及结果如表2所示：

表2用户之间的兴趣相似度值

基于用户之间的相似度，采用协同过滤方式计算，可以得到各用户对应的文本内容的偏好数值。在本发明一实施例中，采用基于用户的K最邻进结点(User-based K-Nearest Neighbors，UserKNN)算法进行协同过滤，继续采用如上示例进行说明，如表3所示，得到的各用户所对应的文本内容偏好值。按照从大到小的顺序将各用户对应的文本内容偏好值进行排序，即得到各用户对应的第一候选列表。例如，对于userid为1的用户1，推荐的顺序是item5/item3/item4；对于userid为2的用户2，推荐的顺序是item1/item4；对于userid为3的用户3，推荐的顺序是item2/item3；对于userid为4的用户4，推荐的顺序是item1/item5/item4；对于userid为5的用户5，推荐的顺序是item2/item5；对于userid为6的用户6，推荐的顺序是item3/item4。

表3采用UserKNN算法计算得到的用户对文本内容的偏好值

在具体实施中，为了便于计算，可以使用归一化公式将上述偏好数值统一到0-1之间，其中归一化公式：(max-x)/(max-min)，其中max、min分别为所述用户所对应的文本内容偏好值的最大值和最小值，x为待归一化的具体偏好值。

以上仅为说明如何根据获取到的用户的浏览记录，基于用户的历史行为，采用协同过滤算法得到第一候选列表的一个简单示例。采用同样方式，可以对数据库中大量的用户及大量的文本数据进行协同过滤运算。

在具体实施中，除了采用UserKNN协同过滤算法，还可以采用其他的协同过滤算法进行过滤。例如可以采用基于物品的K最邻进结点(item-based K-Nearest Neighbors，ItemKNN)算法、稀疏线性方法(Sparse Linear Methods，SLIM)、基于潜在狄利克雷分配(Latent Dirichlet Allocation，LDA)主题模型等协同过滤算法，基于用户的历史行为进行协同过滤，不再一一示例说明，可以根据具体需要选择适当的协同过滤算法。

S13，按照预设多个维度对所述用户的浏览记录进行统计，生成用户偏好特征集。

在本发明实施例中，用户偏好特征集为一些能够反映用户偏好的特征数据所形成的集合，也可形象地称为“用户画像”。在以下描述中，“用户偏好特征集”均可用“用户画像”这一表述替换，表达相同含义。

在本发明一实施例中，用户画像包括标题和标签两个维度。在本发明另一实施例中，用户画像包括标题、标签和类别三个维度。可以理解的是，在具体实施中，用户画像还可以包含其他维度，或者选择其他维度。

S14，将获取的文本与所述用户偏好特征集进行相关性计算，分别按照相应维度进行过滤并合并，得到第二候选列表。

S15，将所述第一候选列表和第二候选列表进行进行融合，计算得到相应用户的文本推荐列表并输出。

在具体实施中，在步骤S13中，根据所选择具体维度的不同、维度数量的差异，以及维度之间的关系，可以根据需要，分别按照各个不同维度统计用户偏好，统计得到相应的用户画像，也可以对各个维度进行组合，按照一定的顺序统计用户偏好。相应地，在步骤S14中，选择与步骤S13中完全一致的顺序对所获取的文本进行统计，并将相应的数据进行相关性计算，最后将分别得到的候选列表按照预设规则进行合并，得到第二候选列表。

为使本领域技术人员更好地理解和实现上述方案，以下通过多个具体实施例并通过一个示例进行详细说明。

在本发明一实施例中，步骤S13中用户画像包括标题和标签两个维度。其中，标题内容通常是文本的核心或重点表达，故标题能表示文本。则步骤S13在生成用户画像过程中，分别从标题和标签两个维度对用户的浏览记录进行统计，包括：统计用户浏览文本的所有标题，获取用户浏览记录的所有的标题内容，根据用户浏览记录统计标签及其对应权重。相应地，在步骤S14中，可以将获取的文本与所述用户画像中的标题和标签进行语义相似度计算，并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表。

在本发明另一实施例中，步骤S13中用户画像包括标题、标签和类别三个维度。通过获取用户的浏览记录为所有item的id，根据id，可以统计所有的分类集合为A，可以统计所有的标签集合为B(每个标签有其权重，重叠的标签进行累加)，可以统计所有的标题集合为C。此三个集合则代表了用户的兴趣偏好，也就是用户画像。

在具体实施中，根据所统计的顺序及组合不同，可以有多种实施方式，以以下四种方案进行举例说明，可以理解的是，在具体实施中，并不限于以下四种组合方式。

一、步骤S13中，分别统计所述用户在不同标题、类别和标签下的浏览记录数目；根据统计结果生成用户画像。相应地，步骤S14中，可以对所述文本与所述用户画像中的标题及标签分别进行语义相似度计算，并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤，将过滤结果分别采用所述用户画像中的类别进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表。

二、步骤S13中，统计所述用户在各个类别下的浏览记录数目，并统计在相应类别下的浏览记录的标题，根据用户浏览记录统计标签及其对应权重；根据统计结果生成用户画像。其中，对于一个文本而言，标题内容能表示该文本，通过处理标题内容如分词之后计算相似度，能计算两篇文档之间的相关性。相应地，步骤S14中，按照所述用户画像中的类别对所获取的文本的类别进行过滤，并对用户画像中相应类别下所述文本的标题进行语义相似度计算；对获取的文本与所述用户画像中的标签进行语义相似度计算；并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表。

三、步骤S13中，统计所述用户对各个标题的浏览记录，统计所述用户在各个类别下的浏览记录数目，并统计在相应类别下的标签及其权重；根据统计结果生成所述用户画像。相应地，步骤S14中，对获取的文本与所述用户画像中的标题进行语义相似度计算；按照所述用户画像中的类别对所获取的文本的类别进行过滤，并对用户画像中相应类别下所述文本的标签进行语义相似度计算；分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表。

四、步骤S13中，统计所述用户在相应类别下的标题，统计所述用户在相应类别下的标签及其权重；根据统计结果生成用户画像。相应地，步骤S14中，按照所述用户画像中的类别对所获取的文本的类别进行过滤，并对用户画像中相应类别下所述文本的标题及标签分别进行语义相似度计算，并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表。

其中，采用方式二至四在进行相似度计算前，首先选取用户偏好的类别对数据进行过滤，可以大大降低运算量，提高文本推荐效率，节约系统处理资源。

并且，在相关性计算过程中，通过对标题相似度阈值及标签相似度阈值的限定，可以提高第二候选列表的精准度，且通过计算标签的语义相似度进行文本过滤，可以克服标签字符串完全匹配的局限性，提高所述第二候选列表的召回率。

为使本领域技术人员更好地理解，以下通过其中标签这个维度的相似度计算过程进行说明，其他维度的计算类似于这一过程，不再赘述。

首先，获取到的用户Q的历史浏览记录如下，每条浏览记录均由标题及文本链接两部分组成：

今冬流感病毒已查清3月或有新流感来袭

http://jiankang.163.com/18/0124/13/D8TV6F0300388045.html

便秘为啥老不好？食疗方法来帮你

http://jiankang.163.com/18/0124/14/D8U2FDPM00388050.html

老人如何预防骨折？注意5个生活细节

http://jiankang.163.com/18/0124/14/D8U2KNBU0038804V.html

5个快速祛痘方法跟痘痘说“拜拜”

http://jiankang.163.com/18/0124/14/D8U29J7G00388050.html

脸上很爱出油怎么办控油妙招来帮你

http://jiankang.163.com/18/0125/14/D90LLCIG00388045.html

警惕！急性会厌炎让你“一炎封喉”

http://jiankang.163.com/18/0129/10/D9AHBJ4U0038804H.html

老外做不到的"亚洲蹲"你就肯定能做到？

http://jiankang.163.com/18/0130/20/D9E5LABR0038804G.html

学习成绩娘胎里定？什么影响着胎儿智力？

http://jiankang.163.com/18/0201/11/D9IBC24F0038804H.html

孕妇为什么一定要查甲状腺功能？

http://jiankang.163.com/18/0205/10/D9SIEQ1K0038804H.html

明星爱打的美白针效果究竟怎么样？

http://jiankang.163.com/18/0205/13/D9SQB09S00388165.html

丈夫把妻子落在加油站妻子忘了丈夫电话号码

http://auto.163.com/18/0128/10/D97TOJ01000884MM.html

前驱平台打造？宝马或推出M2Gran Coupe

http://auto.163.com/18/0206/10/D9V4KMH70008856R.html

插电混合动力沃尔沃S90三座版7月上市

http://auto.163.com/18/0131/10/D9FJF7FD0008856R.html

二挡7000转超他四款性能三厢车推荐

http://auto.163.com/18/0203/00/D9M93CUS0008857F.html

搭载48V混动系统启辰T90新车型谍照

http://auto.163.com/18/0205/10/D9SH0N4R0008856R.html

售价或不低于幻影劳斯莱斯SUV奢华有面儿

http://auto.163.com/18/0125/11/D908P8900008856R.html

续航360km北汽新能源EX360最快3月上市

http://auto.163.com/18/0202/00/D9JMKG8H0008856R.html

续航360km北汽新能源EX360最快3月上市

http://auto.163.com/18/0202/00/D9JMKG8H0008856R.html

比揽胜还大的美式硬汉林肯全新领航员今日上市

http://auto.163.com/18/0125/00/D8V3EO870008856R.html

现代ix35的姊妹车起亚全新智跑将4月上市

http://auto.163.com/18/0207/00/DA0IK4170008856R.html

擦亮眼睛这不是X4吉利轿跑SUV玩出国际范儿

http://auto.163.com/18/0131/00/D9EHR2B60008856R.html

广汽讴歌RDX/CDX混动版将北京车展亮相

http://auto.163.com/18/0202/10/D9KR5KBB0008856R.html

8万块还想有自动启停新福特Ka+官图发布

http://auto.163.com/18/0207/00/DA0JON7T0008856R.html

大指挥官谍照不是所有Jeep都有这样的内饰

http://auto.163.com/18/0207/11/DA1PHPRR0008856R.html

定位类似全新ix35起亚全新SUV命名智跑

http://auto.163.com/18/0130/10/D9D2EH890008856R.html

迎击大众丰田新款缤智将换1.5T发动机

http://auto.163.com/18/0129/11/D9AJLCR90008856R.html

2017年13万销量雷克萨斯"佛系"而为却稳中有进

http://auto.163.com/18/0126/14/D935VRJ0000884MR.html

1.3T+6MT长安欧尚X70A仍不见自动挡版本

http://auto.163.com/18/0205/10/D9SHRRB40008856R.html

看不出变化新款凯迪拉克CT6路试谍照曝光

http://auto.163.com/18/0125/01/D8V6AA010008856R.html

单节28分+29分钟新高50分麦科勒姆创队史比肩哈登

http://sports.163.com/18/0201/11/D9IC0CBO0005877U.html

字母哥凶残灌筐送胯下之辱完美COS卡特死亡飞扣

http://sports.163.com/18/0207/11/DA1O8JNQ0005877U.html

朱广沪赞同足球田径混合选材网友:那哈维就完了

http://sports.163.com/18/0207/10/DA1KK0JV00058780.html

火箭九人轮换仍没格林的份救火侠为何莫名失宠？

http://sports.163.com/18/0125/11/D90BTUDN0005877U.html

西媒:内少愿降薪回西甲皇马买到他才会放C罗走

http://sports.163.com/18/0125/10/D9086U0U00058781.html

活久见！小卡纳瓦罗3秒眼开酒瓶盖这动作真学不了

http://sports.163.com/18/0131/13/D9FUPVNR00058780.html

曝多特反攻中超！欲3000万欧购权健神锋替美羊羊

http://sports.163.com/18/0129/14/D9ATCFAJ00058781.html

5战伤8人5将直接退场常规赛收官阶段伤病潮迅猛

http://sports.163.com/18/0124/22/D8UTF66D0005877V.html

这球定生死！布雷迪失误掉球爱国者断送赢球希望

http://sports.163.com/18/0205/11/D9SKJUQI00058782.html

维斯垃圾时间送恩比德死亡注视大帝一脸委屈…

http://sports.163.com/18/0129/10/D9AHKUFJ0005877U.html

CBA第11周最佳:阿联称雄国产榜辫子哥再压众外援

http://sports.163.com/18/0129/10/D9AHOGER0005877V.html

37分平生涯之最+锁定常规赛冠军胡金秋MVP在望？

http://sports.163.com/18/0206/22/DA0BOP6K0005877V.html

热鸟:很惊讶德罗巴曾来中超我不想恒大一家独大

http://sports.163.com/18/0205/10/D9SG54ER00058780.html

世界俱乐部排名:恒大跌至亚洲第85年来排名新低

http://sports.163.com/18/0206/20/DA04SHLG00058780.html

热鸟:很惊讶德罗巴曾来中超我不想恒大一家独大

http://sports.163.com/18/0205/10/D9SG54ER00058780.html

对上述浏览记录进行统计，可以计算得到各浏览记录是标签及其权重，得到所述用户画像中的标签数据如下，其中第一列为标签id，第二列为用户id，第三列为标签名，第四列为标签权重值，第五列为维度类型，各列之间用“，”分开，依序如下：

171147,311,流行性感冒,0.843623,2

171148,311,传染病,0.818883,2

171149,311,流行病学,0.782846,2

171150,311,问题疫苗,0.82829,2

171151,311,流感症状,0.853101,2

171152,311,板蓝根,0.920943,2

171153,311,蔬菜,0.834363,2

171154,311,健康,0.81018,2

171155,311,便秘的症状,0.86304,2

171156,311,蜂蜜,0.81575,2

171157,311,养生,0.800364,2

171158,311,骨折,0.855326,2

171159,311,运动,0.820438,2

171160,311,青春痘,0.783206,2

171161,311,祛痘,0.941731,2

171162,311,美容,0.800961,2

171163,311,牛奶,0.764676,2

171164,311,护肤,0.806723,2

171165,311,急性胰腺炎,0.840011,2

171167,311,高血脂,0.92657,2

171168,311,油脂,0.921324,2

171169,311,油性皮肤,0.818615,2

171170,311,急性会厌炎,0.952043,2

171171,311,跟腱,0.809203,2

171172,311,亚洲蹲,0.951852,2

171173,311,甲状腺,0.823682,2

171174,311,孕妇,0.907054,2

171175,311,孕产,0.804967,2

171176,311,胎儿,0.833039,2

171177,311,怀孕,0.815623,2

171178,311,育儿,0.81539,2

171179,311,药品,0.803514,2

171180,311,氨甲环酸,0.791522,2

171181,311,美白针,0.946837,2

171182,311,黑色素,0.785417,2

171183,311,科普,0.796115,2

171186,311,加油站,0.843007,2

171187,311,社会万象,0.731059,2

171188,311,宝马2系,0.878373,2

171189,311,宝马,0.85774,2

171190,311,跑车,0.721115,2

171191,311,德国汽车,0.866822,2

171192,311,coupe,0.842886,2

171193,311,宝马m2,0.745861,2

171194,311,沃尔沃,0.847717,2

171195,311,混合动力,0.841772,2

171196,311,新车,0.808717,2

171197,311,s90,0.801619,2

171198,311,s3,0.8175,2

171199,311,rs3,0.801517,2

171200,311,本田,0.801784,2

171201,311,奥迪,0.862098,2

171202,311,suv,0.882204,2

171203,311,劳斯莱斯suv,0.879121,2

171204,311,越野车,0.710949,2

171205,311,劳斯莱斯汽车标志,0.854976,2

171206,311,豪华车,0.847845,2

171207,311,劳斯莱斯,0.937306,2

171208,311,新能源技术,0.84758,2

171209,311,能源,0.858682,2

171210,311,电池组,0.79693,2

171211,311,北汽新能源汽车,0.855422,2

171212,311,新能源,0.85354,2

171213,311,林肯,0.937402,2

171214,311,福特,0.710949,2

171215,311,全新suv,0.845086,2

171216,311,全尺寸suv,0.700567,2

171217,311,林肯领航员,0.864726,2

171218,311,网易,0.798928,2

171219,311,起亚,0.846742,2

171220,311,汽车展览,0.854371,2

171221,311,汽车内饰,0.822828,2

171222,311,吉利suv,0.861278,2

171223,311,吉利汽车,0.800797,2

171225,311,赛车,0.721115,2

171226,311,广汽集团,0.808569,2

171227,311,cdx,0.932824,2

171228,311,rdx,0.897126,2

171229,311,混动汽车,0.871167,2

171230,311,网易汽车,0.842402,2

171231,311,jeep,0.785835,2

171232,311,起亚智跑,0.866457,2

171233,311,国产车,0.79702,2

171234,311,日本汽车,0.731059,2

171235,311,汽车产业,0.852548,2

171236,311,丰田,0.84398,2

171237,311,缤智,0.735498,2

171238,311,雷克萨斯保修保养,0.863591,2

171239,311,rx,0.770541,2

171240,311,雷克萨斯suv车型,0.852884,2

171241,311,雷克萨斯,0.936372,2

171242,311,自动挡,0.8387,2

171243,311,长安,0.833246,2

171244,311,欧尚,0.844521,2

171245,311,ct6,0.925713,2

171246,311,凯迪拉克,0.721115,2

171247,311,c.j.迈克勒姆,0.84123,2

171248,311,哈登,0.934892,2

171249,311,篮球,0.822892,2

171250,311,nba,0.887239,2

171251,311,扬尼斯·阿德托昆博,0.934021,2

171252,311,詹姆斯·厄尔·卡特,0.849061,2

171253,311,足球,0.972423,2

171254,311,朱广沪,0.941272,2

171255,311,田径,0.977368,2

171256,311,足球青训,0.859022,2

171257,311,格林,0.937853,2

171258,311,火箭,0.853833,2

171259,311,西甲,0.930653,2

171260,311,皇马转会,0.849941,2

171261,311,皇马,0.92942,2

171262,311,内马尔·达席尔瓦,0.835671,2

171263,311,美羊羊,0.842842,2

171264,311,神锋,0.880229,2

171265,311,权健足球,0.840925,2

171266,311,中超,0.816379,2

171267,311,多特,0.927626,2

171268,311,德甲,0.797046,2

171269,311,国际足球,0.814163,2

171270,311,莫德斯特,0.808206,2

171271,311,权健,0.848888,2

171272,311,于德豪,0.807608,2

171273,311,cba,0.731059,2

171274,311,布雷迪,0.936991,2

171275,311,爱国者,0.939924,2

171276,311,老鹰,0.797261,2

171277,311,雷霆,0.767978,2

171278,311,维斯布鲁克,0.835196,2

171279,311,cba排名,0.845195,2

171280,311,cba广东,0.841772,2

171281,311,cba新疆,0.859495,2

171282,311,阿联,0.866935,2

171283,311,cba积分榜,0.834694,2

171285,311,中国篮球,0.846374,2

171287,311,拳击,0.731059,2

171288,311,格里芬,0.927673,2

171289,311,巴恩斯,0.93588,2

171290,311,里弗斯,0.846803,2

171291,311,胡金秋,0.940146,2

171292,311,中国国家队,0.847057,2

171293,311,热鸟,0.867249,2

171295,311,克雷格,0.799232,2

171298,311,恒大,0.926965,2

171299,311,恒大足球,0.845237,2

在步骤S15中，可以根据需要选择第一候选列表和第二候选列表的融合方式。在本发明一实施例中，将所述第一候选列表和第二候选列表通过线性加权方式进行融合，并选取权重值最大的预设N个文本作为推荐文本。其中，第一候选列表和第二候选列表的推荐数之和可以大于或等于N，也可以小于N，如果小于N，则可以将所有的第一候选列表和第二候选列表中推荐的文本作为推荐文本进行输出。

例如，假设：

推荐列表1 recommendList1：item集合1 weight集合1；

推荐列表2 recommendList2：item集合2 weight集合2。

若推荐列表1和推荐列表2有item重合，则依次遍历item集合1和item 2，计算：A*weight1+B*weight2，并按值大小取值最大的N个文本：TopN，其中，A和B均为0-1之间的常数，可根据需要动态变化，weight1表示所述item在推荐列表1中对应的权重值，weight2表示所述item在推荐列表2中对应的权重值。

针对前述用户Q，基于上述历史浏览记录及当前数据库中的所有文本，采用本发明实施例中的个性化文本推荐方法进行计算后，可以得到如下的个性化推荐结果：

维斯单节21分对飙杜兰特雷霆首节领先勇士12分

http://sports.163.com/18/0207/12/DA1S0MIB0005877U.html

亚冠队又遇难题！中超和亚冠外援必须相同合理吗？

http://sports.163.com/18/0125/11/D90AQKG500058780.html

跑步比赛后身体易被攻击5技巧避免生病

http://sports.163.com/18/0202/13/D9L5CSBR00058783.html

5人制亚洲杯:中国队5-3缅甸获首胜无缘小组出线

http://sports.163.com/18/0206/22/DA0E8FCO00058780.html

没人相信208斤的她能跑全马结果……

http://sports.163.com/18/0125/12/D90E13G000058783.html

参照图2所示的个性化文本推荐系统的结构示意图，本发明实施例还提供了相应的个性化文本推荐系20，包括获取单元21、第一过滤单元22、用户偏好生成单元23、第二过滤单元24、融合单元25和输出单元26，其中：

获取单元21，适于获取用户的浏览记录；

第一过滤单元22，适于对所述获取单元21获取的用户的浏览记录进行分析，构建用户-物品矩阵，通过不同用户的浏览记录，采用协同过滤方式计算出针对每个用户的第一候选列表；

用户偏好生成单元23，适于按照预设多个维度对所述用户的浏览记录进行统计，生成用户偏好特征集；

第二过滤单元24，适于将获取的文本与所述用户偏好生成单元23所生成的所述用户偏好特征集进行相关性计算，分别按照相应维度进行过滤并合并，得到第二候选列表；

融合单元25，适于将所述第一过滤单元22过滤得到的所述第一候选列表和第二过滤单元24过滤得到的所述第二候选列表进行融合，计算得到相应用户的文本推荐列表；

输出单元26，适于将所述融合单元25得到的文本推荐列表输出。

所述用户偏好生成单元23也可称为用户画像生成单元。

在本发明一实施例中，所述用户偏好生成单元23所预设的维度包括：标题和标签。

在本发明另一实施例中，所述用户偏好生成单元23所预设的维度包括：标题、标签和类别。

在具体实施中，用户可以根据需要选取适当的维度进行统计。

在具体实施中，所述用户偏好生成单元23可以包括以下任意一种：

第一生成装置(图中未示出)，适于分别统计所述用户在不同标题、类别和标签下的浏览记录数目；根据统计结果生成所述用户偏好特征集；

第二生成装置(图中未示出)，适于统计所述用户在各个类别下的浏览记录数目，并统计在相应类别下的标题，根据用户浏览记录统计标签及其对应权重；根据统计结果生成所述用户偏好特征集；

第三生成装置(图中未示出)，适于统计所述用户对各个标题的浏览记录，统计所述用户在各个类别下的浏览记录数目，并统计在相应类别下的标签及其权重；根据统计结果生成所述用户偏好特征集；

第四生成装置(图中未示出)，适于统计所述用户在相应类别下的标题，统计所述用户在相应类别下的标签及其权重；根据统计结果生成所述用户偏好特征集。

可以理解的是，在具体实施中，用户偏好生成单元23中也可以包括上述两个或两个以上的生成装置，用户可以根据需要选择其中任意一种生成装置进行用户偏好特征集的生成。其中各生成装置可以根据具体维度的不同分别包含相应的生成模块，例如标签生成模块、标题生成模块、类别生成模块等。

在具体实施中，所述第二过滤单元24可以包括以下任意一种：

第一过滤装置(图中未示出)，适于对所述文本与所述用户偏好特征集中的标题及标签分别进行语义相似度计算，并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤，将过滤结果分别采用所述用户画像中的类别进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表；

第二过滤装置(图中未示出)，适于按照所述用户偏好特征集中的类别对所获取的文本的类别进行过滤，并对用户偏好特征集中相应类别下所述文本的标题进行语义相似度计算；对获取的文本与所述用户偏好特征集中的标签进行语义相似度计算；并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表；

第三过滤装置(图中未示出)，适于按照所述用户偏好特征集中的类别对所获取的文本的类别进行过滤，并对用户偏好特征集中相应类别下所述文本的标签进行语义相似度计算；对获取的文本与所述用户偏好特征集中的标题进行语义相似度计算；并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表；

第四过滤装置(图中未示出)，适于按照所述用户偏好特征集中的类别对所获取的文本的类别进行过滤，并对用户偏好特征集中相应类别下所述文本的标题及标签分别进行语义相似度计算，并分别根据预设的标题相似度阈值和标签相似度阈值进行过滤并合并，选取相似度最高的M个文本作为所述第二候选列表。

可以理解的是，在具体实施中，第二过滤单元24中也可以包括上述两个或两个以上的过滤装置，用户可以根据需要选择其中任意一种过滤装置实现第二候选列表的生成。其中各过滤装置可以根据具体维度的不同分别包含相应的过滤模块，例如标签过滤模块、标题过滤模块、类别过滤模块等。

需要说明的是，第二过滤单元24中过滤装置的选取与用户偏好生成单元23中生成装置的选取具有对应性。在具体实施中，为减少配置复杂度，可以内置联动关系，当系统用户选取了其中一种单元中的装置时，即可自动选取另一单元中的对应装置。例如，系统用户#1选取了用户偏好生成单元23中的第三生成装置，系统即自动为系统用户#1选取第二过滤单元24中的第二过滤装置。然而，第二过滤单元24中过滤装置的选取与用户偏好生成单元23中生成装置的选取的对应性并非唯一的。以上实施例中的对应选取并不用于限定本发明。

在本发明一实施例中，所述融合单元25，适于将所述第一候选列表和第二候选列表通过线性加权方式进行融合，并选取权重值最大的预设N个文本作为推荐文本。

在具体实施中，所述第一过滤单元22，适于采用UserKNN、ItemKNN、Slim或LDA等协同过滤算法计算出针对每个用户的第一候选列表。

为了更好地实现本发明实施例中的个性化文本推荐方案，本发明实施例还提供了一种服务器，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时可以执行上述个性化文本推荐方法任一实施例的步骤，不再赘述。

为了更好地实现本发明实施例中的个性化文本推荐方案，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述个性化文本推荐方法任一实施例的步骤，不再赘述。所述计算机存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种个性化文本推荐方法，其特征在于，包括：

获取用户的浏览记录；

对用户的浏览记录进行分析，构建用户-物品矩阵，通过不同用户的浏览记录，采用协同过滤方式计算出针对每个用户的第一候选列表,所述协同过滤方法包括UserKNN、ItemKNN、Slim或LDA协同过滤算法；

按照预设多个维度对所述浏览记录进行统计，生成用户偏好特征集，所述预设多个维度包括标题、标签和类别；

将获取的文本与所述用户偏好特征集中的多个维度分别进行语义相似度计算，并分别按照相应维度的相似度阈值进行过滤并合并，得到第二候选列表；

将所述第一候选列表和第二候选列表进行融合，计算得到相应用户的文本推荐列表并输出。

2.根据权利要求1所述的个性化文本推荐方法，其特征在于，按照预设多个维度对所述浏览记录进行统计，生成用户偏好特征集，包括以下任意一种：

3.根据权利要求1所述的个性化文本推荐方法，其特征在于，将获取的文本与所述用户偏好特征集进行相关性计算，分别按照相应维度进行过滤并合并，得到第二候选列表，包括以下任意一种：

4.根据权利要求1所述的个性化文本推荐方法，其特征在于，将所述第一候选列表和第二候选列表进行融合，计算得到文本推荐列表，包括：

将所述第一候选列表和第二候选列表通过线性加权方式进行融合，并选取权重值最大的预设N个文本作为推荐文本。

5.一种个性化文本推荐系统，其特征在于，包括：

获取单元，适于获取用户的浏览记录；

第一过滤单元，适于对所述获取单元获取的用户的浏览记录进行分析，构建用户-物品矩阵，通过不同用户的浏览记录，采用协同过滤方式计算出针对每个用户的第一候选列表；

用户偏好生成单元，适于按照预设多个维度对所述浏览记录进行统计，生成用户偏好特征集；

第二过滤单元，适于将获取的文本与所述用户特征生成单元所生成的所述用户偏好特征集进行相关性计算，分别按照相应维度进行过滤并合并，得到第二候选列表；

融合单元，适于将所述第一过滤单元过滤得到的所述第一候选列表和第二过滤单元过滤得到的所述第二候选列表进行融合，计算得到相应用户的文本推荐列表；

输出单元，适于将所述融合单元得到的文本推荐列表输出。

6.根据权利要求5所述的个性化文本推荐系统，其特征在于，所述用户特征生成单元包括以下其中一种：

7.根据权利要求5所述的个性化文本推荐系统，其特征在于，所述第二过滤单元包括以下任意一种：

8.根据权利要求5所述的个性化文本推荐系统，其特征在于，所述融合单元，适于将所述第一候选列表和第二候选列表通过线性加权方式进行融合，并选取权重值最大的预设N个文本作为推荐文本。

9.一种服务器，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1-4任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至4任一项所述方法的步骤。