CN110727784B - 基于内容的文章推荐方法及系统 - Google Patents

基于内容的文章推荐方法及系统 Download PDF

Info

Publication number
CN110727784B
CN110727784B CN201910837668.4A CN201910837668A CN110727784B CN 110727784 B CN110727784 B CN 110727784B CN 201910837668 A CN201910837668 A CN 201910837668A CN 110727784 B CN110727784 B CN 110727784B
Authority
CN
China
Prior art keywords
tag
article
user
phrases
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910837668.4A
Other languages
English (en)
Other versions
CN110727784A (zh
Inventor
王苏
蔡伟杰
陈媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yishi Information Technology Co ltd
Original Assignee
Shanghai Yishi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yishi Information Technology Co ltd filed Critical Shanghai Yishi Information Technology Co ltd
Priority to CN201910837668.4A priority Critical patent/CN110727784B/zh
Publication of CN110727784A publication Critical patent/CN110727784A/zh
Application granted granted Critical
Publication of CN110727784B publication Critical patent/CN110727784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于内容的文章推荐方法及系统,包括:对文章的内容进行分词,去除无用词组,设置剩余词组的权重,将剩余的权重最高的多个词组作为所述文章的标签词组,得到文章标签向量;根据历史记录判断所述文章的标签词组之间的相关性,若相关性低于预设的阈值,则所述文章不予推荐;将用户所有有效阅读的文章的标签词组进行整合,根据时间设定标签词组的权重,阅读时间越接近的文章的标签词组的权重越高,阅读时间越长的文章的标签词组的权重越高,得到对应用户的用户标签向量;根据用户标签向量,推荐标签词组与用户标签向量命中率符合要求的文章给用户。本发明可以很好的结合文章本身的内容,过滤低质量的文章。

Description

基于内容的文章推荐方法及系统
技术领域
本发明涉及数据处理技术领域,具体地,涉及一种基于内容的摒弃指定内容的文章推荐方法及系统。
背景技术
推荐算法是计算机专业中的一种算法,通过一些数学算法,推测出用户可能喜欢的东西,从而推荐给用户。
基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上做出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。专利CN108460039A公开了用于在目标服务中提供推荐内容的方法和装置。可以在目标服务中获得用户输入的消息。可以基于用户输入的消息来从目标服务的多个历史内容中提供推荐内容。
现有技术推荐的文章中主要基于关键词,缺乏对文章本身的评价意见,这就造成了很多粗制滥造的、低劣低俗的文章作者利用智能推荐算法的漏洞,恶意刷关键字,推送自身文章,为了堵住这一漏洞,急需一种对文章自身内容评价的一种机制。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于内容的文章推荐方法及系统。
根据本发明提供的一种基于内容的文章推荐方法,包括:
文章内容打标步骤:对文章的内容进行分词,去除无用词组,设置剩余词组的权重,将剩余的权重最高的多个词组作为所述文章的标签词组,得到文章标签向量;
关键词检测步骤:根据历史记录判断所述文章的标签词组之间的相关性,若相关性低于预设的阈值,则所述文章不予推荐;
用户打标步骤:将用户所有有效阅读的文章的标签词组进行整合,根据时间设定标签词组的权重,阅读时间越接近的文章的标签词组的权重越高,阅读时间越长的文章的标签词组的权重越高,得到对应用户的用户标签向量;
文章推荐步骤:根据用户标签向量,推荐标签词组与用户标签向量命中率符合要求的文章给用户。
优选地,所述文章内容打标步骤包括:
所述文章标签向量W包括:W=[w1,w2,w3,......],wi为第i个标签词组,标签词组的位置越靠前则权重越高。
优选地,还包括设置有标签词组的黑名单,对于标签词组在所述黑名单内的文章不予推荐。
优选地,所述关键词检测步骤中相关性的计算方式包括:
标签词组A的特征向量A=[a1,a2,a3......],ai为存有标签词组A的第i篇文章;
标签词组B的特征向量B=[b1,b2,b3......],bi为存有标签词组B的第i篇文章;
计算标签词组A和标签词组B的相关性,其中n是同时含有标签词组A和B的文章数量,Asize是含有标签词组A文章数量,Bsize是含有标签词组B文章数量。
优选地,所述用户打标步骤中,有效阅读的文章为阅读时间超过预设时间的文章。
优选地,所述用户打标步骤包括:
用户标签向量U包括:U=[u1,u2,u3,......],ui为第i个用户标签,越靠前的用户标签权重越高。
优选地,所述文章推荐步骤包括:
文章标签向量中的标签词组与用户标签向量中的标签词组的命中率hit为文章的标签词组与用户标签的相同数量,Wsize为文章标签向量W的大小,Usize为用户标签向量U的大小。
优选地,所述无用词组包括助词。
根据本发明提供的一种基于内容的文章推荐系统,包括:
文章内容打标模块:对文章的内容进行中文分词,去除无用词组,设置剩余词组的权重,将剩余的权重最高的多个词组作为所述文章的标签词组,得到文章标签向量;
关键词检测模块:根据历史记录判断所述文章的标签词组之间的相关性,若相关性低于预设的阈值,则所述文章不予推荐;
用户打标模块:将用户所有有效阅读的文章的标签词组进行整合,根据时间设定标签词组的权重,阅读时间越接近的文章的标签词组的权重越高,阅读时间越长的文章的标签词组的权重越高,得到对应用户的用户标签向量;
文章推荐模块:根据用户标签向量,推荐标签词组与用户标签向量命中率符合要求的文章给用户。
优选地,用户通过登入App获取推荐的文章。
与现有技术相比,本发明具有如下的有益效果:
1、根据标签词组之间的相关性来决定是否推荐这类文章,而标签的权重又与时间相关,可以很好的结合文章本身的内容,过滤低质量的文章;
2、通过黑名单可以过滤违法违规、或者自定义标签的文章。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为文章内容打标步骤流程图;
图2为关键词检测步骤流程图;
图3为用户打标步骤流程图;
图4为文章推荐步骤流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明主要应用在基于内容推荐算法的app应用上。在文章推荐过程中,有些文章会传播低俗,违反国家法律法规,挑战社会道德的文章,这些文章必须坚决予以抵制,如果仅凭人工审核的方式进行审核不仅速度慢,而且审核结果波动很大。所以需要一个有效机制予以抵制。
另一方面,有很多作者不把心思放在提高文章质量的前提下,而把心思放在如何刷关键字,刷推荐量上。这些文章很多都是东拼西凑,逻辑不通,低质量的。因此针对这些作者的文章要从技术手段进行检测。
本发明提供的一种基于内容的文章推荐方法,包括:
1、文章内容标签打标:如图1所示,内容审核打标服务开启,从数据库中取出文章的原始内容,对文章内容进行中文分词,去掉助词等无用词组,根据文章分词结果,合理设计词组权重,将权重高的前N个词组划分为这篇文章的标签词组,将划分好的这些标签词组结果存储在数据库中。
对于设计词组权重,本发明给出如下几种参考方式:
1.1布尔权重
Wk,i表示特征词在文档中的权值,在特征词出现在文档中时=1,没有出现则=0。
1.2词频权重
词频权重(Term Frequency)是以特征词在文档中出现的次数作为权重的计算值,在一定程度上能区分出不同的特征词对文档的重要程度。其计算公式如下:
Wk,i=TFk,i
1.3IDF权重
IDF权重(Inverse Document Frequency)又称反文档频率,也就是文档频率的倒数。文档频率(DF)是指出现一个特征词的文档数。IDF权重计算公式如下:
其中,N表示文档总数,N(tk)表示含特征词tk的文档数。IDF的值越大,说明包含该特征词的文档越少,那么这个特征词分布得就相对集中,则这个特征词有可能包含更多的类别信息;相反,如果IDF的值比较小,则说明这个特征词在文档集中分布得相对均匀,对文档的分类没有多大贡献,该词不适合作为分类的特征。
其他还有如TF-IDF权重等方法,本发明对此不作限制。
本系统采用的第三方分词器是在HanLP基础上改进使用的。
W=[w1,w2,w3,......],其中W为文章标签向量,wn为第n个标签词组,越靠近前面的标签词组权重越高。
2、本地标签词组黑名单:本地会保留一个标签词组黑名单,这些标签词组会涉及违法国家法规条例的词组,如BTC,ETH,垃圾数字货币等国家不允许交易的词条,也不允许宗教类的理财文章,也不允许堕胎、代孕等有悖伦理道德的推荐文章。同时还要保存作者黑名单,对于出现过问题的作者,他的所有文章半年内不允许推荐。
3、检测刷关键字流程:如图2所示,首先从数据库中读取文章,从文章中提出无意义的助词等词组,为文章划分标签词组。根据历史文章记录,查看这些标签词组的相关性,如果这些标签的相关性很低,就认为这篇文章是刷关键字的文章,不予推荐,将这个不予推荐的属性存入数据库中。
两个词组相关性性计算:标签词组A的特征向量A=[a1,a2,a3......],ai为存有标签词组A的第i篇文章;标签词组B的特征向量B=[b1,b2,b3......],bi为存有标签词组B的第i篇文章;计算标签词组A和标签词组B的相关性,其中n是同时含有标签词组A和B的文章数量,Asize是含有标签词组A文章数量,Bsize是含有标签词组B文章数量。
举例来说,若含有标签词组A的文章数量为20,含有标签词组B的文章数量为40,同时含有标签词组A和标签词组的文章数量为10,那么A和B的相关性为20/60=1/3,即两者的相关性约为33%。
4、用户肖像打标:如图3所示,用户在app端查看文章,从app端的反馈,用户每篇文章阅读时间大于20秒的时间为有效阅读,根据用户有效阅读情况,将所有有效阅读文章内容标签整合排序,根据时间为文章内容设置标签,越近的时间标签权重越高,阅读时间越长的文章标签权重越高,为用户划分标签,并将标签结果存储在数据库中。举例来说,用户今天阅读了一篇标签词组为股票、上证指数的文章,昨天阅读了一篇标签词组为军事、武器的文章,那么股票、上证指数的权重就会高于军事、武器的权重。
U=[u1,u2,u3,......],其中U为用户肖像标签向量,ui为第i个标签,越靠近前面的标签权重越高。
5、推荐文章:如图4所示,用户登录app时,根据用户标签词组,从数据库中查找相似标签的文章,根据标签命中率高的文章排序返回推荐给用户。根据用户查看文章效果,推荐给用户新的文章。
hit代表W向量和U向量中相同的标签个数,Wsize为W向量的大小,Usize为向量U的大小。
本发明根据文章内容划分标签,将标签结果存储入数据库中。查看本地词组黑名单,如果含有黑名单词组的标签不予推荐。计算含有标签向量中,任意两个标签的相关性,如果每组标签的相关性都很小,则认为这些标签相关性很低,是东拼西凑出来的文章,不予推荐。根据用户在app端的有效阅读,给用户肖像划分标签。当用户登录app端时,根据用户肖像标签在数据库中查找命中率高的文章,将这些文章根据命中率排序分页封装好后推荐给该用户的app端。
在上述一种基于内容的文章推荐方法的基础上,本发明还提供的一种基于内容的文章推荐系统,包括:
文章内容打标模块:对文章的内容进行中文分词,去除无用词组,设置剩余词组的权重,将剩余的权重最高的多个词组作为所述文章的标签词组,得到文章标签向量;
关键词检测模块:根据历史记录判断所述文章的标签词组之间的相关性,若相关性低于预设的阈值,则所述文章不予推荐;
用户打标模块:将用户所有有效阅读的文章的标签词组进行整合,根据时间设定标签词组的权重,阅读时间越接近的文章的标签词组的权重越高,阅读时间越长的文章的标签词组的权重越高,得到对应用户的用户标签向量;
文章推荐模块:根据用户标签向量,推荐标签词组与用户标签向量命中率符合要求的文章给用户。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (5)

1.一种基于内容的文章推荐方法,其特征在于,包括:
文章内容打标步骤:对文章的内容进行分词,去除无用词组,设置剩余词组的权重,将剩余的权重最高的多个词组作为所述文章的标签词组,得到文章标签向量;
关键词检测步骤:根据历史记录判断所述文章的标签词组之间的相关性,若相关性低于预设的阈值,则所述文章不予推荐;
用户打标步骤:将用户所有有效阅读的文章的标签词组进行整合,根据时间设定标签词组的权重,阅读时间越接近的文章的标签词组的权重越高,阅读时间越长的文章的标签词组的权重越高,得到对应用户的用户标签向量;
文章推荐步骤:根据用户标签向量,推荐标签词组与用户标签向量命中率符合要求的文章给用户;
所述文章内容打标步骤包括:
所述文章标签向量W包括:W=[w1,w2,w3,......],wi为第i个标签词组,标签词组的位置越靠前则权重越高;
所述关键词检测步骤中相关性的计算方式包括:
标签词组A的特征向量A=[a1,a2,a3......],ai为存有标签词组A的第i篇文章;
标签词组B的特征向量B=[b1,b2,b3......],bi为存有标签词组B的第i篇文章;
计算标签词组A和标签词组B的相关性,其中n是同时含有标签词组A和B的文章数量,Asize是含有标签词组A文章数量,Bsize是含有标签词组B文章数量;
所述用户打标步骤中,有效阅读的文章为阅读时间超过预设时间的文章;
所述用户打标步骤包括:
用户标签向量U包括:U=[u1,u2,u3,......],ui为第i个用户标签,越靠前的用户标签权重越高;
所述文章推荐步骤包括:
文章标签向量中的标签词组与用户标签向量中的标签词组的命中率hit为文章的标签词组与用户标签的相同数量,Wsize为文章标签向量W的大小,Usize为用户标签向量U的大小。
2.根据权利要求1所述的基于内容的文章推荐方法,其特征在于,还包括设置有标签词组的黑名单,对于标签词组在所述黑名单内的文章不予推荐。
3.根据权利要求1所述的基于内容的文章推荐方法,其特征在于,所述无用词组包括助词。
4.一种基于内容的文章推荐系统,其特征在于,包括:
文章内容打标模块:对文章的内容进行中文分词,去除无用词组,设置剩余词组的权重,将剩余的权重最高的多个词组作为所述文章的标签词组,得到文章标签向量;
关键词检测模块:根据历史记录判断所述文章的标签词组之间的相关性,若相关性低于预设的阈值,则所述文章不予推荐;
用户打标模块:将用户所有有效阅读的文章的标签词组进行整合,根据时间设定标签词组的权重,阅读时间越接近的文章的标签词组的权重越高,阅读时间越长的文章的标签词组的权重越高,得到对应用户的用户标签向量;
文章推荐模块:根据用户标签向量,推荐标签词组与用户标签向量命中率符合要求的文章给用户;
所述关键词检测模块中相关性的计算方式包括:
标签词组A的特征向量A=[a1,a2,a3......],ai为存有标签词组A的第i篇文章;
标签词组B的特征向量B=[b1,b2,b3......],bi为存有标签词组B的第i篇文章;
计算标签词组A和标签词组B的相关性,其中n是同时含有标签词组A和B的文章数量,Asize是含有标签词组A文章数量,Bsize是含有标签词组B文章数量;
所述文章内容打标模块包括:
所述文章标签向量W包括:W=[w1,w2,w3,......],wi为第i个标签词组,标签词组的位置越靠前则权重越高;
所述用户打标模块中,有效阅读的文章为阅读时间超过预设时间的文章;
所述用户打标模块包括:
用户标签向量U包括:U=[u1,u2,u3,......],ui为第i个用户标签,越靠前的用户标签权重越高;
所述文章推荐模块包括:
文章标签向量中的标签词组与用户标签向量中的标签词组的命中率hit为文章的标签词组与用户标签的相同数量,Wsize为文章标签向量W的大小,Usize为用户标签向量U的大小。
5.根据权利要求4所述的基于内容的文章推荐系统,其特征在于,用户通过登入App获取推荐的文章。
CN201910837668.4A 2019-09-05 2019-09-05 基于内容的文章推荐方法及系统 Active CN110727784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910837668.4A CN110727784B (zh) 2019-09-05 2019-09-05 基于内容的文章推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910837668.4A CN110727784B (zh) 2019-09-05 2019-09-05 基于内容的文章推荐方法及系统

Publications (2)

Publication Number Publication Date
CN110727784A CN110727784A (zh) 2020-01-24
CN110727784B true CN110727784B (zh) 2023-11-10

Family

ID=69217843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910837668.4A Active CN110727784B (zh) 2019-09-05 2019-09-05 基于内容的文章推荐方法及系统

Country Status (1)

Country Link
CN (1) CN110727784B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328881B (zh) * 2020-11-05 2024-04-02 中国平安人寿保险股份有限公司 文章推荐方法、装置、终端设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN103235818A (zh) * 2013-04-27 2013-08-07 北京百度网讯科技有限公司 一种基于网页情感倾向性的信息推送方法和装置
CN103678620A (zh) * 2013-12-18 2014-03-26 国家电网公司 一种基于用户历史行为特征的知识文档推荐方法
CN105740468A (zh) * 2016-03-07 2016-07-06 达而观信息科技(上海)有限公司 一种结合内容发布方信息的个性化推荐方法及系统
CN106951494A (zh) * 2017-03-14 2017-07-14 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN108256119A (zh) * 2018-02-14 2018-07-06 北京方正阿帕比技术有限公司 一种资源推荐模型的构建方法及基于该模型的资源推荐方法
CN108846097A (zh) * 2018-06-15 2018-11-20 北京搜狐新媒体信息技术有限公司 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN109948121A (zh) * 2017-12-20 2019-06-28 北京京东尚科信息技术有限公司 文章相似度挖掘方法、系统、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2634020A1 (en) * 2008-05-30 2009-11-30 Biao Wang System and method for multi-level online learning
CN103729360A (zh) * 2012-10-12 2014-04-16 腾讯科技(深圳)有限公司 一种兴趣标签推荐方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN103235818A (zh) * 2013-04-27 2013-08-07 北京百度网讯科技有限公司 一种基于网页情感倾向性的信息推送方法和装置
CN103678620A (zh) * 2013-12-18 2014-03-26 国家电网公司 一种基于用户历史行为特征的知识文档推荐方法
CN105740468A (zh) * 2016-03-07 2016-07-06 达而观信息科技(上海)有限公司 一种结合内容发布方信息的个性化推荐方法及系统
CN106951494A (zh) * 2017-03-14 2017-07-14 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN109948121A (zh) * 2017-12-20 2019-06-28 北京京东尚科信息技术有限公司 文章相似度挖掘方法、系统、设备及存储介质
CN108256119A (zh) * 2018-02-14 2018-07-06 北京方正阿帕比技术有限公司 一种资源推荐模型的构建方法及基于该模型的资源推荐方法
CN108846097A (zh) * 2018-06-15 2018-11-20 北京搜狐新媒体信息技术有限公司 用户的兴趣标签表示方法、文章推荐方法、及装置、设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘展 ; .TFIDF算法在文章推荐系统的应用.电脑知识与技术.2019,(07),全文. *
李政泽 ; 韩毅 ; 周斌 ; 贾焰 ; .微博用户分类的特征词权重优化及推荐策略.信息网络安全.2012,(08),全文. *

Also Published As

Publication number Publication date
CN110727784A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN106445998B (zh) 一种基于敏感词的文本内容审核方法及系统
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
CN102098332B (zh) 一种内容审核方法和装置
CN111581355B (zh) 威胁情报的主题检测方法、装置和计算机存储介质
US20170185680A1 (en) Chinese website classification method and system based on characteristic analysis of website homepage
CN110334178A (zh) 数据检索方法、装置、设备及可读存储介质
US20100254613A1 (en) System and method for duplicate text recognition
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN105975459A (zh) 一种词项的权重标注方法和装置
CN110032721A (zh) 一种裁判文书推送方法及装置
US10929453B2 (en) Verifying textual claims with a document corpus
CN110727784B (zh) 基于内容的文章推荐方法及系统
Tomar et al. Web page classification using modified naïve bayesian approach
Wagner Privacy Policies Across the Ages: Content and Readability of Privacy Policies 1996--2021
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
Anees et al. Performance analysis of multiple classifiers using different term weighting schemes for sentiment analysis
Sheshadri et al. No (privacy) news is good news: An analysis of New York Times and Guardian Privacy News from 2010–2016
CN110851709B (zh) 资讯推送方法、装置、计算机设备和存储介质
Mullick et al. A graphical framework to detect and categorize diverse opinions from online news
Bateni et al. Content Analysis of Privacy Policies Before and After GDPR
Attenberg et al. Cleaning search results using term distance features
CN107729509A (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN109933775A (zh) Ugc内容处理方法及装置
Noekhah et al. A comprehensive study on opinion mining features and their applications
CN112528021A (zh) 一种模型训练方法、模型训练装置及智能设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant