CN109885773A

CN109885773A - 一种文章个性化推荐方法、系统、介质及设备

Info

Publication number: CN109885773A
Application number: CN201910148959.2A
Authority: CN
Inventors: 崔东林; 刘展
Original assignee: Guangzhou Jijin Education Technology Co Ltd
Current assignee: Guangzhou Jijin Education Technology Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-06-14
Anticipated expiration: 2039-02-28
Also published as: CN109885773B

Abstract

本发明涉及一种文章个性化推荐方法、系统、介质及设备，其中的方法包括：提取文本库中所有文章的关键词；根据关键词确定用于表征用户行为的用户向量中的各个元素；其中，所有用户的用户向量中的各个元素对应的关键词的顺序相同；根据用户访问文本库的访问记录确定用户的用户向量中的各个元素的元素值；根据不同用户的用户向量之间的相互关系进行文章推荐。本发明利用文本库中所有文章的关键词和用户在访问文本库时的访问记录来确定用户向量来表征用户行为，通过用户行为的相似性来寻找与目标用户有相同喜好的邻居，然后根据目标用户的邻居的喜好向目标用户推荐可能感兴趣的资源，提高了推荐的准确性。

Description

一种文章个性化推荐方法、系统、介质及设备

技术领域

本发明涉及文本信息处理领域，具体涉及一种文章个性化推荐方法、系统、介质及设备。

背景技术

随着移动互联网的发展和智能手机的广泛普及，越来越多的人选择在智能手机端或者平板设备上阅读，网络中的资源数量增长非常迅猛，比如微博，微信公众号等，在海量资源用户面前，用户很难从中找到自己真正感兴趣的内容，或者要耗费大量的时间和精力才能找到自己所需要的资源。个性化推荐系统就是在这种背景下诞生的。个性化推荐系统是通过建立用户与信息产品之间的二元关系，利用已有的选择过程或相似性关系，挖掘每个用户潜在感兴趣的对象，进而进行个性化推荐。高效的推荐系统可以挖掘用户潜在的消费倾向，为众多的用户个性化服务。个性化推荐系统目前已被广泛应用于电子商务、广告推送、电影推荐等包含海量信息并需要提供个性化服务的应用领域。

目前对于文章的个性化推荐系统在推荐文章时，侧重于根据用户阅读的单一文章中关键词的词频来确定文章的特征，从而为用户推荐特征相似的文章，从而这种推荐方式无法反映出用户的真实兴趣，推荐的准确性较差。

发明内容

针对上述技术问题，本发明提供一种文章个性化推荐方法、系统、介质及设备。

本发明解决上述技术问题的技术方案如下：一种文章个性化推荐方法，包括：

提取文本库中所有文章的关键词；

根据所述关键词确定用于表征用户行为的用户向量中的各个元素；其中，所有用户的用户向量中的各个元素对应的关键词的顺序相同；

根据用户访问文本库的访问记录确定所述用户的用户向量中的各个元素的元素值；

根据不同用户的用户向量之间的相互关系进行文章推荐。

本发明的有益效果是：利用文本库中所有文章的关键词和用户在访问文本库时的访问记录来确定表征用户行为的用户向量，根据用户向量之间的相互关系来寻找与目标用户存在一定关系的邻居，然后根据目标用户的邻居阅读的文章向目标用户进行文章推荐，提高了推荐的准确性。

为实现上述发明目的，本发明还提供一种文章个性化推荐系统，包括：

提取模块，用于提取文本库中所有文章的关键词；

第一确定模块，用于根据所述关键词确定用户向量中的各个元素；其中，所有用户的用户向量中的各个元素对应的关键词的顺序相同；

第二确定模块，用于根据用户访问文本库的访问记录确定所述用户的用户向量中的各个元素的元素值；

推荐模块，用于根据不同用户的用户向量进行文章推荐。

本发明还提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使所述计算机执行上述方法。

本发明还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

附图说明

图1为本发明实施例提供的一种文章个性化推荐方法的流程图；

图2为本发明实施例提供的一种文章个性化推荐方法中步骤13的具体流程图；

图3为本发明实施例提供的另一种文章个性化推荐方法的流程图；

图4为本发明实施例提供的一种文章个性化推荐系统的结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种文章个性化推荐方法的流程图，如图1 所示，该方法包括：

11、提取文本库中所有文章的关键词；

具体的，提取关键词的方法，包括但不限于：首先对文本库中的文章进行分词和词性标注，比如某篇文章中有一句“我爱北京天安门”分词后为“我 \爱\北京\天安门”,同时进行词性标注，剔除其中不作关键词动词“爱”是，然后使用tfidf算法计算整篇文章的词库中各个词语的tfidf值并取其中 tfidf值较大的前几个词语作为文章的关键词，如表1所示。

表1：文章数据

其中，tfidf(term frequency–inverse document frequency)是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。它由两部分两乘而来，即词频tf和逆向文件频率idf。tfidf的计算公式是：

tfidf_ij＝tf_ij×idf_i

词频(term frequency，tf)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。)对于在某一特定文件里的词语t_i，它的重要性可表示为：

其中，n_i,j是词语t_i在文件d_j中的出现次数，而分母则是在文件d_j中所有字词的出现次数之和。

逆向文件频率(inverse document frequency，idf)是一个词语普遍重要性的度量。某一特定词语的idf，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到：

其中

|D|：语料库中的文件总数

{j:t_i∈d_j}：包含词语t_i的文件数目(即n_i,j≠0的文件数目)如果词语不在数据中，就导致分母为零，因此一般情况下使用1+|{j:t_i∈d_j}|。

按照上述方法，把整个文本库中所有文章的关键词提取出来，去除重复的词，即可得到最终的关键词。

该步骤可使用jieba分词实现，它能很好支持中文分词、关键词提取、词性标注等功能。对于整个文本库，文本的数量和关键词的数量都是事先确定好的，所以逆向文件频率idf是事先确定，很显然这个文本库越大，越能反映这个词的权重，在github开源项目有现成统计好的数据可以用，其中jieba分词也集成该部分数据。词频tf的值可看似一个概率，取值在[0,1]，取值越大越能反映该词T在这个文本D中影响较大，关键词的提取也是利用了该特性，是根据tfidf的值从大到小排列，取值越大越能反映该词T的关键性。

12、根据所述关键词确定用于表征用户行为的用户向量中的各个元素；其中，所有用户的用户向量中的各个元素对应的关键词的顺序相同；

具体的，如表2所示的文章-关键词推荐矩阵，其中，D1、D2、…D3代表了不同的文章，T1、T2、…T5代表了所有文章出现的关键词。如果关键词 T1在文章D1中并没那么重要或者没有出现，那它的对应的值就是0，即词频为0，根据公式可知它的tfidf值也为0。对于一篇文章，所出现的所有关键词加和等于1。

表2：文章-关键词矩阵

13、根据用户访问文本库的访问记录确定所述用户的用户向量中的各个元素的元素值；

具体的，用户在APP或者网站阅读文本库中的文章时会产生访问记录，例如对某篇文章进行点击、收藏、评论等，因此访问记录能够反映出用户对文章的喜好，而通过文章中的关键词能够进一步确定用户与关键词的关系，即通过访问记录确定用户向量中的各个元素的元素值，从而得到表征每个用户的用户行为的用户向量。

14、根据不同用户的用户向量之间的相互关系进行文章推荐。

具体的，通过用户行为之间的相似性可以寻找与目标用户有相同喜好的邻居，而由于用户向量能够反映用户的访问文本库时的用户行为，因此，可利用根据用户向量之间的相互关系来寻找与目标用户存在一定关系的邻居，然后根据目标用户的邻居阅读的文章向目标用户的进行文章推荐，从而提高了推荐的准确性。

可选地，在该实施例中，如图2所示，步骤13具体包括：

131、获取用户访问所述文本库中时的用户行为数据；

具体的，把用户在APP或者网站阅读文本库中的文章时的操作链路的记录数据作清洗提取，作为埋点数据，即用户行为数据。如表3所示。

表3：埋点数据

132、根据所述用户行为数据分别计算每个关键词的权重占比值，其中，所述权重占比值为当前关键词的统计权重除以所有关键词的统计权重之和，所述当前关键词的统计权重为所述用户的所有用户行为数据的行为权重之和，其中，每一个用户行为数据对应一个行为权重；

具体的，用户在阅读文章时发生的事件可能有点击、收藏、评论、转发等，不同的事件能够反映出用户对文章的兴趣度也不一样，所以不同用户对某些关键词的兴趣度也不一样。该步骤中，对于用户行为数据中的事件可以设置相应的行为权重，来反映用户的兴趣度，如表4所示。

表4行为权重

通过用户行为数据汇总用户文章阅读历史，其中，可能有重复的阅读同一篇文章的记录，次数越多，关键词的统计权重越高，即当前关键词的统计权重为用户的所有用户行为数据的行为权重之和，其中，每一个用户行为数据对应一个行为权重，当前关键词的权重占比值为当前关键词的统计权重除以所有关键词的统计权重之和，例如，以关键词“北京”为例，包含该关键词的文章有“北京旅游攻略”和“全国冰球甲级联赛今起开战”，张三对文章“北京旅游攻略”进行了一次点击和一次收藏，该文章的文章关键词为(北京天安门颐和园)，对文章“全国冰球甲级联赛今起开战”进行了一次评论，点击的行为权重为1，评论的行为权重为2，收藏的行为权重为4，那么其中关键词“北京”的统计权重即为1+2+4＝7，按照相同的方法得到其他关键词的统计权重，所有关键词的统计权重之和为26，则关键词“北京”的权重占比值为7/26，其他关键词的计算过程类似，完整的计算过程如表5所示。

表5关键词统计权重及权重占比值计算

133、利用tfidf算法确定每个所述关键词的idf值；

134、根据所述关键词的权重占比值和所述关键词的idf值确定所述关键词的tfidf值，根据所述tfidf值确定用户向量中各关键词对应元素的元素值。

具体的，该步骤中，将权重占比值与idf值相乘得到用户向量中各个元素的值。所有用户的用户向量即可构成一个用户tfidf向量矩阵。

该实施例中，在计算权重占比值时参考了用户在阅读过程中产生的用户行为数据，通过为不同的用户行为数据设置不同的行为权重，从而使得构建的用户向量能够真实反映出用户的兴趣，提高了推荐的准确性。

可选地，在该实施例中，步骤14具体包括：

141、计算各个所述用户向量之间的相似度；

142、按照与当前用户的用户向量之间的相似度从大到小的顺序，为当前用户推荐其他用户阅读的文章。

具体的，计算相似度可以采用多种方式实现，包括但不限于：余弦相似度。

余弦相似度是通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为0到1之间。

两个向量间的余弦值可以通过使用欧几里得点积公式求出

a·b＝||a||·||b||·cosθ

给定两个属性向量，A和B其余弦相似性θ由点积和向量长度给出，如下所示：

这里的A_i和B_i分别代表向A量和B的各分量。

在计算得到各个用户向量之间的相似度后，即可按照与用户的用户向量之间的相似度从大到小的顺序，为用户推荐其他用户阅读的文章，这样，可以将与用户的兴趣最接近的用户阅读的文章优先推荐给用户。

或者，可选地，在该实施例中，步骤S14具体包括：

143、利用聚类算法或分类算法对所有用户的用户向量进行处理，实现用户分组；

144、为当前用户推荐同组其他用户阅读的文章。

具体的，为了进一步提高推荐的计算效率，这里可通过分类算法(如KNN 算法)去计算类似的用户，也可以通过聚类算法(如Kmeans算法)实现用户聚类，从而达到用户分组的目的，然后为用户推荐同组其他用户阅读的文章，从而实现比如“喜欢这篇文章的用户还看了...”的功能。

另外，在推荐之前，还可以按照前述方法计算各个用户向量之间的相似度，然后按照与用户的用户向量之间的相似度从大到小的顺序，为用户推荐同组其他用户阅读的文章，这样，可以将同组中与用户的兴趣最接近的用户阅读的文章优先推荐给用户，进一步提高推荐的准确性。

可选地，在该实施例中，如图3所示，该方法包括：

31、提取文本库中所有文章的关键词；

32、利用tfidf算法计算每个所述关键词的tf值和idf值；

33、根据每个所述关键词的所述tf值和所述idf值构建每篇文章的词列表向量，其中，不同文章的所述词列表向量中的各个元素对应的关键词的顺序相同；

34、根据所述词列表向量为用户推荐文章。

具体的，通过前述的tfidf算法可得每篇文章中各个关键词的tfidf值，然后可得到每篇文章的词列表向量，该向量表示这篇文章里的关键词在整个文本库关键词列表中tfidf值，举例说，整个文章库有关键词A、B、C、D、 E，分别对应tfidf值为:0.3、0.5、0.1、0.3、0.7。某篇文章它的关键词是B、D，那么它的词列表向量为[0、0.5、0、0.3、0]。整个文本库就组成了供计算的文章tfidf向量矩阵。

通过比较词列表向量之间的相似性，能够基于用户阅读的文章来为用户推荐相似的文章，实现“你可能也喜欢...”的推荐功能。

可选地，在该实施例中，步骤34，具体包括：

341、计算各个所述词列表向量之间的相似度；

342、按照与当前用户阅读的文章的词列表向量之间的相似度从大到小的顺序，为当前用户推荐其他文章。

具体的，可按照前述余弦相似度的计算方法计算词列表向量之间的相似度，然后即可按照与用户阅读的文章的词列表向量之间的相似度从大到小的顺序，为当前用户推荐其他文章。

或者，可选地，在该实施例中，步骤34，具体包括：

343、利用聚类算法或分类算法对所述词列表向量进行处理，实现文章分组；

344、为当前用户推荐与其阅读的文章同组的其他文章。

具体的，为了进一步提高推荐的准确性，这里可通过分类算法(如KNN 算法)去计算类似的文章，也可以通过聚类算法(如Kmeans算法)实现文章聚类，从而达到文章分组的目的，然后为用户推荐与其阅读的文章同组的其他文章。

另外，在推荐之前，还可以计算各个词列表向量之间的相似度，然后按照与用户阅读的文章的词列表向量之间的相似度从大到小的顺序，为用户推荐与其阅读的文章同组的其他文章，这样，可以将同组中与用户阅读的文章最相似的文章优先推荐给用户，进一步提高推荐的准确性。

本发明实施例还提供一种文章个性化推荐系统，该系统中各个模块的功能原理已在前述内容中进行了阐述，以下不再赘述。

如图4所示，该系统包括：

提取模块，用于提取文本库中所有文章的关键词；

第一确定模块，用于根据所述关键词确定用于表征用户行为的用户向量中的各个元素；其中，所有用户的用户向量中的各个元素对应的关键词的顺序相同；

推荐模块，用于根据不同用户的用户向量之间的相互关系进行文章推荐。

可选地，在该实施例中，所述第二确定模块，具体包括：

获取单元，用于获取用户访问所述文本库中时的用户行为数据；

第一计算单元，用于根据所述用户行为数据分别计算每个关键词的权重占比值，其中，所述权重占比值为当前关键词的统计权重除以所有关键词的统计权重之和，所述当前关键词的统计权重为所述用户的所有用户行为数据的行为权重之和，其中，每一个用户行为数据对应一个行为权重；

第一确定单元，用于利用tfidf算法确定每个所述关键词的idf值；

第二确定单元，用于根据所述关键词的权重占比值和所述关键词的idf 值确定所述关键词的tfidf值，根据所述tfidf值确定用户向量中各关键词对应元素的元素值。

可选地，在该实施例中，所述推荐模块，具体包括：

处理单元，用于利用聚类算法或分类算法对所有用户的用户向量进行处理，实现用户分组；

第一推荐单元，用于为当前用户推荐同组其他用户阅读的文章；

或者，

第二计算单元，用于计算各个所述用户向量之间的相似度；

第二推荐单元，用于按照与当前用户的用户向量之间的相似度从大到小的顺序，为当前用户推荐其他用户阅读的文章。

本发明还提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使所述计算机执行上述方法实施例中的方法步骤；或者存储上述系统实施例的各个软件模块对应的指令。

本发明还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法实施例中的方法步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文章个性化推荐方法，其特征在于，包括：

提取文本库中所有文章的关键词；

根据不同用户的用户向量之间的相互关系进行文章推荐。

2.根据权利要求1所述的方法，其特征在于，所述根据用户访问文本库的访问记录确定所述用户的用户向量中的各个元素的元素值包括：

获取用户访问所述文本库中时的用户行为数据；

根据所述用户行为数据分别计算每个关键词的权重占比值，其中，所述权重占比值为当前关键词的统计权重除以所有关键词的统计权重之和，所述当前关键词的统计权重为所述用户的所有用户行为数据的行为权重之和，其中，每一个用户行为数据对应一个行为权重；

利用tfidf算法确定每个所述关键词的idf值；

根据所述关键词的权重占比值和所述关键词的idf值确定所述关键词的tfidf值，根据所述tfidf值确定用户向量中各关键词对应元素的元素值。

3.根据权利要求1所述的方法，其特征在于，所述根据所述用户向量为用户推荐文章，具体包括：

利用聚类算法或分类算法对所有用户的用户向量进行处理，实现用户分组；

为当前用户推荐同组其他用户阅读的文章；

或者，

计算各个所述用户向量之间的相似度；

按照与当前用户的用户向量之间的相似度从大到小的顺序，为当前用户推荐其他用户阅读的文章。

4.根据权利要求1-3任一项所述的方法，其特征在于，在提取文本库中所有文章的关键词之后，还包括：

利用tfidf算法计算每个所述关键词的tf值和idf值；

根据每个所述关键词的所述tf值和所述idf值构建每篇文章的词列表向量，其中，不同文章的所述词列表向量中的各个元素对应的关键词的顺序相同；

根据所述词列表向量为用户推荐文章。

5.根据权利要求4所述的方法，其特征在于，所述根据所述词列表向量为用户推荐文章，具体包括：

利用聚类算法或分类算法对所述词列表向量进行处理，实现文章分组；

为当前用户推荐与其阅读的文章同组的其他文章；

或者，

计算各个所述词列表向量之间的相似度；

按照与当前用户阅读的文章的词列表向量之间的相似度从大到小的顺序，为当前用户推荐其他文章。

6.一种文章个性化推荐系统，其特征在于，包括：

提取模块，用于提取文本库中所有文章的关键词；

7.根据权利要求6所述的系统，其特征在于，所述第二确定模块，具体包括：

第二确定单元，用于根据所述关键词的权重占比值和所述关键词的idf值确定所述关键词的tfidf值，根据所述tfidf值确定用户向量中各关键词对应元素的元素值。

8.根据权利要求6所述的系统，其特征在于，所述推荐模块，具体包括：

或者，

第二计算单元，用于计算各个所述用户向量之间的相似度；

9.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机上运行时，使所述计算机执行根据权利要求1-5任一项所述的方法。

10.一种计算机设备，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述的方法。