CN110727784B

CN110727784B - 基于内容的文章推荐方法及系统

Info

Publication number: CN110727784B
Application number: CN201910837668.4A
Authority: CN
Inventors: 王苏; 蔡伟杰; 陈媛媛
Original assignee: Shanghai Yishi Information Technology Co ltd
Current assignee: Shanghai Yishi Information Technology Co ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2023-11-10
Anticipated expiration: 2039-09-05
Also published as: CN110727784A

Abstract

本发明提供了一种基于内容的文章推荐方法及系统，包括：对文章的内容进行分词，去除无用词组，设置剩余词组的权重，将剩余的权重最高的多个词组作为所述文章的标签词组，得到文章标签向量；根据历史记录判断所述文章的标签词组之间的相关性，若相关性低于预设的阈值，则所述文章不予推荐；将用户所有有效阅读的文章的标签词组进行整合，根据时间设定标签词组的权重，阅读时间越接近的文章的标签词组的权重越高，阅读时间越长的文章的标签词组的权重越高，得到对应用户的用户标签向量；根据用户标签向量，推荐标签词组与用户标签向量命中率符合要求的文章给用户。本发明可以很好的结合文章本身的内容，过滤低质量的文章。

Description

基于内容的文章推荐方法及系统

技术领域

本发明涉及数据处理技术领域，具体地，涉及一种基于内容的摒弃指定内容的文章推荐方法及系统。

背景技术

推荐算法是计算机专业中的一种算法，通过一些数学算法，推测出用户可能喜欢的东西，从而推荐给用户。

基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展，它是建立在项目的内容信息上做出推荐的，而不需要依据用户对项目的评价意见，更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。专利CN108460039A公开了用于在目标服务中提供推荐内容的方法和装置。可以在目标服务中获得用户输入的消息。可以基于用户输入的消息来从目标服务的多个历史内容中提供推荐内容。

现有技术推荐的文章中主要基于关键词，缺乏对文章本身的评价意见，这就造成了很多粗制滥造的、低劣低俗的文章作者利用智能推荐算法的漏洞，恶意刷关键字，推送自身文章，为了堵住这一漏洞，急需一种对文章自身内容评价的一种机制。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于内容的文章推荐方法及系统。

根据本发明提供的一种基于内容的文章推荐方法，包括：

文章内容打标步骤：对文章的内容进行分词，去除无用词组，设置剩余词组的权重，将剩余的权重最高的多个词组作为所述文章的标签词组，得到文章标签向量；

关键词检测步骤：根据历史记录判断所述文章的标签词组之间的相关性，若相关性低于预设的阈值，则所述文章不予推荐；

用户打标步骤：将用户所有有效阅读的文章的标签词组进行整合，根据时间设定标签词组的权重，阅读时间越接近的文章的标签词组的权重越高，阅读时间越长的文章的标签词组的权重越高，得到对应用户的用户标签向量；

文章推荐步骤：根据用户标签向量，推荐标签词组与用户标签向量命中率符合要求的文章给用户。

优选地，所述文章内容打标步骤包括：

所述文章标签向量W包括：W＝[w₁,w₂,w₃,......]，w_i为第i个标签词组，标签词组的位置越靠前则权重越高。

优选地，还包括设置有标签词组的黑名单，对于标签词组在所述黑名单内的文章不予推荐。

优选地，所述关键词检测步骤中相关性的计算方式包括：

标签词组A的特征向量A＝[a₁,a₂,a₃......]，a_i为存有标签词组A的第i篇文章；

标签词组B的特征向量B＝[b₁,b₂,b₃......]，b_i为存有标签词组B的第i篇文章；

计算标签词组A和标签词组B的相关性，其中n是同时含有标签词组A和B的文章数量，A_size是含有标签词组A文章数量，B_size是含有标签词组B文章数量。

优选地，所述用户打标步骤中，有效阅读的文章为阅读时间超过预设时间的文章。

优选地，所述用户打标步骤包括：

用户标签向量U包括：U＝[u₁,u₂,u₃,......]，u_i为第i个用户标签，越靠前的用户标签权重越高。

优选地，所述文章推荐步骤包括：

文章标签向量中的标签词组与用户标签向量中的标签词组的命中率hit为文章的标签词组与用户标签的相同数量，W_size为文章标签向量W的大小，U_size为用户标签向量U的大小。

优选地，所述无用词组包括助词。

根据本发明提供的一种基于内容的文章推荐系统，包括：

文章内容打标模块：对文章的内容进行中文分词，去除无用词组，设置剩余词组的权重，将剩余的权重最高的多个词组作为所述文章的标签词组，得到文章标签向量；

关键词检测模块：根据历史记录判断所述文章的标签词组之间的相关性，若相关性低于预设的阈值，则所述文章不予推荐；

用户打标模块：将用户所有有效阅读的文章的标签词组进行整合，根据时间设定标签词组的权重，阅读时间越接近的文章的标签词组的权重越高，阅读时间越长的文章的标签词组的权重越高，得到对应用户的用户标签向量；

文章推荐模块：根据用户标签向量，推荐标签词组与用户标签向量命中率符合要求的文章给用户。

优选地，用户通过登入App获取推荐的文章。

与现有技术相比，本发明具有如下的有益效果：

1、根据标签词组之间的相关性来决定是否推荐这类文章，而标签的权重又与时间相关，可以很好的结合文章本身的内容，过滤低质量的文章；

2、通过黑名单可以过滤违法违规、或者自定义标签的文章。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为文章内容打标步骤流程图；

图2为关键词检测步骤流程图；

图3为用户打标步骤流程图；

图4为文章推荐步骤流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明主要应用在基于内容推荐算法的app应用上。在文章推荐过程中，有些文章会传播低俗，违反国家法律法规，挑战社会道德的文章，这些文章必须坚决予以抵制，如果仅凭人工审核的方式进行审核不仅速度慢，而且审核结果波动很大。所以需要一个有效机制予以抵制。

另一方面，有很多作者不把心思放在提高文章质量的前提下，而把心思放在如何刷关键字，刷推荐量上。这些文章很多都是东拼西凑，逻辑不通，低质量的。因此针对这些作者的文章要从技术手段进行检测。

本发明提供的一种基于内容的文章推荐方法，包括：

1、文章内容标签打标：如图1所示，内容审核打标服务开启，从数据库中取出文章的原始内容，对文章内容进行中文分词，去掉助词等无用词组，根据文章分词结果，合理设计词组权重，将权重高的前N个词组划分为这篇文章的标签词组，将划分好的这些标签词组结果存储在数据库中。

对于设计词组权重，本发明给出如下几种参考方式：

1.1布尔权重

W_k，i表示特征词在文档中的权值，在特征词出现在文档中时＝1，没有出现则＝0。

1.2词频权重

词频权重(Term Frequency)是以特征词在文档中出现的次数作为权重的计算值，在一定程度上能区分出不同的特征词对文档的重要程度。其计算公式如下：

W_k，i＝TF_k，i

1.3IDF权重

IDF权重(Inverse Document Frequency)又称反文档频率，也就是文档频率的倒数。文档频率(DF)是指出现一个特征词的文档数。IDF权重计算公式如下：

其中，N表示文档总数，N(t_k)表示含特征词t_k的文档数。IDF的值越大，说明包含该特征词的文档越少，那么这个特征词分布得就相对集中，则这个特征词有可能包含更多的类别信息；相反，如果IDF的值比较小，则说明这个特征词在文档集中分布得相对均匀，对文档的分类没有多大贡献，该词不适合作为分类的特征。

其他还有如TF-IDF权重等方法，本发明对此不作限制。

本系统采用的第三方分词器是在HanLP基础上改进使用的。

W＝[w₁,w₂,w₃,......]，其中W为文章标签向量，w_n为第n个标签词组，越靠近前面的标签词组权重越高。

2、本地标签词组黑名单：本地会保留一个标签词组黑名单，这些标签词组会涉及违法国家法规条例的词组，如BTC,ETH,垃圾数字货币等国家不允许交易的词条，也不允许宗教类的理财文章，也不允许堕胎、代孕等有悖伦理道德的推荐文章。同时还要保存作者黑名单，对于出现过问题的作者，他的所有文章半年内不允许推荐。

3、检测刷关键字流程：如图2所示，首先从数据库中读取文章，从文章中提出无意义的助词等词组，为文章划分标签词组。根据历史文章记录，查看这些标签词组的相关性，如果这些标签的相关性很低，就认为这篇文章是刷关键字的文章，不予推荐，将这个不予推荐的属性存入数据库中。

两个词组相关性性计算：标签词组A的特征向量A＝[a₁,a₂,a₃......]，a_i为存有标签词组A的第i篇文章；标签词组B的特征向量B＝[b₁,b₂,b₃......]，b_i为存有标签词组B的第i篇文章；计算标签词组A和标签词组B的相关性，其中n是同时含有标签词组A和B的文章数量，A_size是含有标签词组A文章数量，B_size是含有标签词组B文章数量。

举例来说，若含有标签词组A的文章数量为20，含有标签词组B的文章数量为40，同时含有标签词组A和标签词组的文章数量为10，那么A和B的相关性为20/60＝1/3，即两者的相关性约为33％。

4、用户肖像打标：如图3所示，用户在app端查看文章，从app端的反馈，用户每篇文章阅读时间大于20秒的时间为有效阅读，根据用户有效阅读情况，将所有有效阅读文章内容标签整合排序，根据时间为文章内容设置标签，越近的时间标签权重越高，阅读时间越长的文章标签权重越高，为用户划分标签，并将标签结果存储在数据库中。举例来说，用户今天阅读了一篇标签词组为股票、上证指数的文章，昨天阅读了一篇标签词组为军事、武器的文章，那么股票、上证指数的权重就会高于军事、武器的权重。

U＝[u₁,u₂,u₃,......]，其中U为用户肖像标签向量，u_i为第i个标签，越靠近前面的标签权重越高。

5、推荐文章：如图4所示，用户登录app时，根据用户标签词组，从数据库中查找相似标签的文章，根据标签命中率高的文章排序返回推荐给用户。根据用户查看文章效果，推荐给用户新的文章。

hit代表W向量和U向量中相同的标签个数，W_size为W向量的大小，U_size为向量U的大小。

本发明根据文章内容划分标签，将标签结果存储入数据库中。查看本地词组黑名单，如果含有黑名单词组的标签不予推荐。计算含有标签向量中，任意两个标签的相关性，如果每组标签的相关性都很小，则认为这些标签相关性很低，是东拼西凑出来的文章，不予推荐。根据用户在app端的有效阅读，给用户肖像划分标签。当用户登录app端时，根据用户肖像标签在数据库中查找命中率高的文章，将这些文章根据命中率排序分页封装好后推荐给该用户的app端。

在上述一种基于内容的文章推荐方法的基础上，本发明还提供的一种基于内容的文章推荐系统，包括：

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于内容的文章推荐方法，其特征在于，包括：

文章推荐步骤：根据用户标签向量，推荐标签词组与用户标签向量命中率符合要求的文章给用户；

所述文章内容打标步骤包括：

所述文章标签向量W包括：W＝[w_1,w₂,w₃,......]，w_i为第i个标签词组，标签词组的位置越靠前则权重越高；

所述关键词检测步骤中相关性的计算方式包括：

计算标签词组A和标签词组B的相关性，其中n是同时含有标签词组A和B的文章数量，A_size是含有标签词组A文章数量，B_size是含有标签词组B文章数量；

所述用户打标步骤中，有效阅读的文章为阅读时间超过预设时间的文章；

所述用户打标步骤包括：

用户标签向量U包括：U＝[u₁,u₂,u₃,......]，u_i为第i个用户标签，越靠前的用户标签权重越高；

所述文章推荐步骤包括：

2.根据权利要求1所述的基于内容的文章推荐方法，其特征在于，还包括设置有标签词组的黑名单，对于标签词组在所述黑名单内的文章不予推荐。

3.根据权利要求1所述的基于内容的文章推荐方法，其特征在于，所述无用词组包括助词。

4.一种基于内容的文章推荐系统，其特征在于，包括：

文章推荐模块：根据用户标签向量，推荐标签词组与用户标签向量命中率符合要求的文章给用户；

所述关键词检测模块中相关性的计算方式包括：

所述文章内容打标模块包括：

所述文章标签向量W包括：W＝[w_1,w_2,w_3,......]，w_i为第i个标签词组，标签词组的位置越靠前则权重越高；

所述用户打标模块中，有效阅读的文章为阅读时间超过预设时间的文章；

所述用户打标模块包括：

所述文章推荐模块包括：

5.根据权利要求4所述的基于内容的文章推荐系统，其特征在于，用户通过登入App获取推荐的文章。