CN110727784A - 基于内容的文章推荐方法及系统 - Google Patents
基于内容的文章推荐方法及系统 Download PDFInfo
- Publication number
- CN110727784A CN110727784A CN201910837668.4A CN201910837668A CN110727784A CN 110727784 A CN110727784 A CN 110727784A CN 201910837668 A CN201910837668 A CN 201910837668A CN 110727784 A CN110727784 A CN 110727784A
- Authority
- CN
- China
- Prior art keywords
- article
- label
- phrases
- user
- articles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000001514 detection method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于内容的文章推荐方法及系统,包括:对文章的内容进行分词,去除无用词组,设置剩余词组的权重,将剩余的权重最高的多个词组作为所述文章的标签词组,得到文章标签向量;根据历史记录判断所述文章的标签词组之间的相关性,若相关性低于预设的阈值,则所述文章不予推荐;将用户所有有效阅读的文章的标签词组进行整合,根据时间设定标签词组的权重,阅读时间越接近的文章的标签词组的权重越高,阅读时间越长的文章的标签词组的权重越高,得到对应用户的用户标签向量;根据用户标签向量,推荐标签词组与用户标签向量命中率符合要求的文章给用户。本发明可以很好的结合文章本身的内容,过滤低质量的文章。
Description
技术领域
本发明涉及数据处理技术领域,具体地,涉及一种基于内容的摒弃指定内容的文章推荐方法及系统。
背景技术
推荐算法是计算机专业中的一种算法,通过一些数学算法,推测出用户可能喜欢的东西,从而推荐给用户。
基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上做出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。专利CN108460039A公开了用于在目标服务中提供推荐内容的方法和装置。可以在目标服务中获得用户输入的消息。可以基于用户输入的消息来从目标服务的多个历史内容中提供推荐内容。
现有技术推荐的文章中主要基于关键词,缺乏对文章本身的评价意见,这就造成了很多粗制滥造的、低劣低俗的文章作者利用智能推荐算法的漏洞,恶意刷关键字,推送自身文章,为了堵住这一漏洞,急需一种对文章自身内容评价的一种机制。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于内容的文章推荐方法及系统。
根据本发明提供的一种基于内容的文章推荐方法,包括:
文章内容打标步骤:对文章的内容进行分词,去除无用词组,设置剩余词组的权重,将剩余的权重最高的多个词组作为所述文章的标签词组,得到文章标签向量;
关键词检测步骤:根据历史记录判断所述文章的标签词组之间的相关性,若相关性低于预设的阈值,则所述文章不予推荐;
用户打标步骤:将用户所有有效阅读的文章的标签词组进行整合,根据时间设定标签词组的权重,阅读时间越接近的文章的标签词组的权重越高,阅读时间越长的文章的标签词组的权重越高,得到对应用户的用户标签向量;
文章推荐步骤:根据用户标签向量,推荐标签词组与用户标签向量命中率符合要求的文章给用户。
优选地,所述文章内容打标步骤包括:
所述文章标签向量W包括:W=[w1,w2,w3,......],wi为第i个标签词组,标签词组的位置越靠前则权重越高。
优选地,还包括设置有标签词组的黑名单,对于标签词组在所述黑名单内的文章不予推荐。
优选地,所述关键词检测步骤中相关性的计算方式包括:
标签词组A的特征向量A=[a1,a2,a3......],ai为存有标签词组A的第i篇文章;
标签词组B的特征向量B=[b1,b2,b3......],bi为存有标签词组B的第i篇文章;
优选地,所述用户打标步骤中,有效阅读的文章为阅读时间超过预设时间的文章。
优选地,所述用户打标步骤包括:
用户标签向量U包括:U=[u1,u2,u3,......],ui为第i个用户标签,越靠前的用户标签权重越高。
优选地,所述文章推荐步骤包括:
文章标签向量中的标签词组与用户标签向量中的标签词组的命中率hit为文章的标签词组与用户标签的相同数量,Wsize为文章标签向量W的大小,Usize为用户标签向量U的大小。
优选地,所述无用词组包括助词。
根据本发明提供的一种基于内容的文章推荐系统,包括:
文章内容打标模块:对文章的内容进行中文分词,去除无用词组,设置剩余词组的权重,将剩余的权重最高的多个词组作为所述文章的标签词组,得到文章标签向量;
关键词检测模块:根据历史记录判断所述文章的标签词组之间的相关性,若相关性低于预设的阈值,则所述文章不予推荐;
用户打标模块:将用户所有有效阅读的文章的标签词组进行整合,根据时间设定标签词组的权重,阅读时间越接近的文章的标签词组的权重越高,阅读时间越长的文章的标签词组的权重越高,得到对应用户的用户标签向量;
文章推荐模块:根据用户标签向量,推荐标签词组与用户标签向量命中率符合要求的文章给用户。
优选地,用户通过登入App获取推荐的文章。
与现有技术相比,本发明具有如下的有益效果:
1、根据标签词组之间的相关性来决定是否推荐这类文章,而标签的权重又与时间相关,可以很好的结合文章本身的内容,过滤低质量的文章;
2、通过黑名单可以过滤违法违规、或者自定义标签的文章。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为文章内容打标步骤流程图;
图2为关键词检测步骤流程图;
图3为用户打标步骤流程图;
图4为文章推荐步骤流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明主要应用在基于内容推荐算法的app应用上。在文章推荐过程中,有些文章会传播低俗,违反国家法律法规,挑战社会道德的文章,这些文章必须坚决予以抵制,如果仅凭人工审核的方式进行审核不仅速度慢,而且审核结果波动很大。所以需要一个有效机制予以抵制。
另一方面,有很多作者不把心思放在提高文章质量的前提下,而把心思放在如何刷关键字,刷推荐量上。这些文章很多都是东拼西凑,逻辑不通,低质量的。因此针对这些作者的文章要从技术手段进行检测。
本发明提供的一种基于内容的文章推荐方法,包括:
1、文章内容标签打标:如图1所示,内容审核打标服务开启,从数据库中取出文章的原始内容,对文章内容进行中文分词,去掉助词等无用词组,根据文章分词结果,合理设计词组权重,将权重高的前N个词组划分为这篇文章的标签词组,将划分好的这些标签词组结果存储在数据库中。
对于设计词组权重,本发明给出如下几种参考方式:
1.1布尔权重
Wk,i表示特征词在文档中的权值,在特征词出现在文档中时=1,没有出现则=0。
1.2词频权重
词频权重(Term Frequency)是以特征词在文档中出现的次数作为权重的计算值,在一定程度上能区分出不同的特征词对文档的重要程度。其计算公式如下:
Wk,i=TFk,i
1.3IDF权重
IDF权重(Inverse Document Frequency)又称反文档频率,也就是文档频率的倒数。文档频率(DF)是指出现一个特征词的文档数。IDF权重计算公式如下:
其中,N表示文档总数,N(tk)表示含特征词tk的文档数。IDF的值越大,说明包含该特征词的文档越少,那么这个特征词分布得就相对集中,则这个特征词有可能包含更多的类别信息;相反,如果IDF的值比较小,则说明这个特征词在文档集中分布得相对均匀,对文档的分类没有多大贡献,该词不适合作为分类的特征。
其他还有如TF-IDF权重等方法,本发明对此不作限制。
本系统采用的第三方分词器是在HanLP基础上改进使用的。
W=[w1,w2,w3,......],其中W为文章标签向量,wn为第n个标签词组,越靠近前面的标签词组权重越高。
2、本地标签词组黑名单:本地会保留一个标签词组黑名单,这些标签词组会涉及违法国家法规条例的词组,如BTC,ETH,垃圾数字货币等国家不允许交易的词条,也不允许宗教类的理财文章,也不允许堕胎、代孕等有悖伦理道德的推荐文章。同时还要保存作者黑名单,对于出现过问题的作者,他的所有文章半年内不允许推荐。
3、检测刷关键字流程:如图2所示,首先从数据库中读取文章,从文章中提出无意义的助词等词组,为文章划分标签词组。根据历史文章记录,查看这些标签词组的相关性,如果这些标签的相关性很低,就认为这篇文章是刷关键字的文章,不予推荐,将这个不予推荐的属性存入数据库中。
两个词组相关性性计算:标签词组A的特征向量A=[a1,a2,a3......],ai为存有标签词组A的第i篇文章;标签词组B的特征向量B=[b1,b2,b3......],bi为存有标签词组B的第i篇文章;计算标签词组A和标签词组B的相关性,其中n是同时含有标签词组A和B的文章数量,Asize是含有标签词组A文章数量,Bsize是含有标签词组B文章数量。
举例来说,若含有标签词组A的文章数量为20,含有标签词组B的文章数量为40,同时含有标签词组A和标签词组的文章数量为10,那么A和B的相关性为20/60=1/3,即两者的相关性约为33%。
4、用户肖像打标:如图3所示,用户在app端查看文章,从app端的反馈,用户每篇文章阅读时间大于20秒的时间为有效阅读,根据用户有效阅读情况,将所有有效阅读文章内容标签整合排序,根据时间为文章内容设置标签,越近的时间标签权重越高,阅读时间越长的文章标签权重越高,为用户划分标签,并将标签结果存储在数据库中。举例来说,用户今天阅读了一篇标签词组为股票、上证指数的文章,昨天阅读了一篇标签词组为军事、武器的文章,那么股票、上证指数的权重就会高于军事、武器的权重。
U=[u1,u2,u3,......],其中U为用户肖像标签向量,ui为第i个标签,越靠近前面的标签权重越高。
5、推荐文章:如图4所示,用户登录app时,根据用户标签词组,从数据库中查找相似标签的文章,根据标签命中率高的文章排序返回推荐给用户。根据用户查看文章效果,推荐给用户新的文章。
本发明根据文章内容划分标签,将标签结果存储入数据库中。查看本地词组黑名单,如果含有黑名单词组的标签不予推荐。计算含有标签向量中,任意两个标签的相关性,如果每组标签的相关性都很小,则认为这些标签相关性很低,是东拼西凑出来的文章,不予推荐。根据用户在app端的有效阅读,给用户肖像划分标签。当用户登录app端时,根据用户肖像标签在数据库中查找命中率高的文章,将这些文章根据命中率排序分页封装好后推荐给该用户的app端。
在上述一种基于内容的文章推荐方法的基础上,本发明还提供的一种基于内容的文章推荐系统,包括:
文章内容打标模块:对文章的内容进行中文分词,去除无用词组,设置剩余词组的权重,将剩余的权重最高的多个词组作为所述文章的标签词组,得到文章标签向量;
关键词检测模块:根据历史记录判断所述文章的标签词组之间的相关性,若相关性低于预设的阈值,则所述文章不予推荐;
用户打标模块:将用户所有有效阅读的文章的标签词组进行整合,根据时间设定标签词组的权重,阅读时间越接近的文章的标签词组的权重越高,阅读时间越长的文章的标签词组的权重越高,得到对应用户的用户标签向量;
文章推荐模块:根据用户标签向量,推荐标签词组与用户标签向量命中率符合要求的文章给用户。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于内容的文章推荐方法,其特征在于,包括:
文章内容打标步骤:对文章的内容进行分词,去除无用词组,设置剩余词组的权重,将剩余的权重最高的多个词组作为所述文章的标签词组,得到文章标签向量;
关键词检测步骤:根据历史记录判断所述文章的标签词组之间的相关性,若相关性低于预设的阈值,则所述文章不予推荐;
用户打标步骤:将用户所有有效阅读的文章的标签词组进行整合,根据时间设定标签词组的权重,阅读时间越接近的文章的标签词组的权重越高,阅读时间越长的文章的标签词组的权重越高,得到对应用户的用户标签向量;
文章推荐步骤:根据用户标签向量,推荐标签词组与用户标签向量命中率符合要求的文章给用户。
2.根据权利要求1所述的基于内容的文章推荐方法,其特征在于,所述文章内容打标步骤包括:
所述文章标签向量W包括:W=[w1,w2,w3,......],wi为第i个标签词组,标签词组的位置越靠前则权重越高。
3.根据权利要求1所述的基于内容的文章推荐方法,其特征在于,还包括设置有标签词组的黑名单,对于标签词组在所述黑名单内的文章不予推荐。
5.根据权利要求1所述的基于内容的文章推荐方法,其特征在于,所述用户打标步骤中,有效阅读的文章为阅读时间超过预设时间的文章。
6.根据权利要求1所述的基于内容的文章推荐方法,其特征在于,所述用户打标步骤包括:
用户标签向量U包括:U=[u1,u2,u3,......],ui为第i个用户标签,越靠前的用户标签权重越高。
7.根据权利要求1所述的基于内容的文章推荐方法,其特征在于,所述文章推荐步骤包括:
文章标签向量中的标签词组与用户标签向量中的标签词组的命中率hit为文章的标签词组与用户标签的相同数量,Wsize为文章标签向量W的大小,Usize为用户标签向量U的大小。
8.根据权利要求1所述的基于内容的文章推荐方法,其特征在于,所述无用词组包括助词。
9.一种基于内容的文章推荐系统,其特征在于,包括:
文章内容打标模块:对文章的内容进行中文分词,去除无用词组,设置剩余词组的权重,将剩余的权重最高的多个词组作为所述文章的标签词组,得到文章标签向量;
关键词检测模块:根据历史记录判断所述文章的标签词组之间的相关性,若相关性低于预设的阈值,则所述文章不予推荐;
用户打标模块:将用户所有有效阅读的文章的标签词组进行整合,根据时间设定标签词组的权重,阅读时间越接近的文章的标签词组的权重越高,阅读时间越长的文章的标签词组的权重越高,得到对应用户的用户标签向量;
文章推荐模块:根据用户标签向量,推荐标签词组与用户标签向量命中率符合要求的文章给用户。
10.根据权利要求9所述的基于内容的文章推荐系统,其特征在于,用户通过登入App获取推荐的文章。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910837668.4A CN110727784B (zh) | 2019-09-05 | 2019-09-05 | 基于内容的文章推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910837668.4A CN110727784B (zh) | 2019-09-05 | 2019-09-05 | 基于内容的文章推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110727784A true CN110727784A (zh) | 2020-01-24 |
CN110727784B CN110727784B (zh) | 2023-11-10 |
Family
ID=69217843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910837668.4A Active CN110727784B (zh) | 2019-09-05 | 2019-09-05 | 基于内容的文章推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110727784B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328881A (zh) * | 2020-11-05 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 文章推荐方法、装置、终端设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090300547A1 (en) * | 2008-05-30 | 2009-12-03 | Kibboko, Inc. | Recommender system for on-line articles and documents |
WO2010120101A2 (ko) * | 2009-04-13 | 2010-10-21 | (주)미디어레 | 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치 |
CN103235818A (zh) * | 2013-04-27 | 2013-08-07 | 北京百度网讯科技有限公司 | 一种基于网页情感倾向性的信息推送方法和装置 |
CN103678620A (zh) * | 2013-12-18 | 2014-03-26 | 国家电网公司 | 一种基于用户历史行为特征的知识文档推荐方法 |
US20150186503A1 (en) * | 2012-10-12 | 2015-07-02 | Tencent Technology (Shenzhen) Company Limited | Method, system, and computer readable medium for interest tag recommendation |
CN105740468A (zh) * | 2016-03-07 | 2016-07-06 | 达而观信息科技(上海)有限公司 | 一种结合内容发布方信息的个性化推荐方法及系统 |
CN106951494A (zh) * | 2017-03-14 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及装置 |
CN108256119A (zh) * | 2018-02-14 | 2018-07-06 | 北京方正阿帕比技术有限公司 | 一种资源推荐模型的构建方法及基于该模型的资源推荐方法 |
CN108846097A (zh) * | 2018-06-15 | 2018-11-20 | 北京搜狐新媒体信息技术有限公司 | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 |
CN109948121A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 文章相似度挖掘方法、系统、设备及存储介质 |
-
2019
- 2019-09-05 CN CN201910837668.4A patent/CN110727784B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090300547A1 (en) * | 2008-05-30 | 2009-12-03 | Kibboko, Inc. | Recommender system for on-line articles and documents |
WO2010120101A2 (ko) * | 2009-04-13 | 2010-10-21 | (주)미디어레 | 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치 |
US20150186503A1 (en) * | 2012-10-12 | 2015-07-02 | Tencent Technology (Shenzhen) Company Limited | Method, system, and computer readable medium for interest tag recommendation |
CN103235818A (zh) * | 2013-04-27 | 2013-08-07 | 北京百度网讯科技有限公司 | 一种基于网页情感倾向性的信息推送方法和装置 |
CN103678620A (zh) * | 2013-12-18 | 2014-03-26 | 国家电网公司 | 一种基于用户历史行为特征的知识文档推荐方法 |
CN105740468A (zh) * | 2016-03-07 | 2016-07-06 | 达而观信息科技(上海)有限公司 | 一种结合内容发布方信息的个性化推荐方法及系统 |
CN106951494A (zh) * | 2017-03-14 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及装置 |
CN109948121A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 文章相似度挖掘方法、系统、设备及存储介质 |
CN108256119A (zh) * | 2018-02-14 | 2018-07-06 | 北京方正阿帕比技术有限公司 | 一种资源推荐模型的构建方法及基于该模型的资源推荐方法 |
CN108846097A (zh) * | 2018-06-15 | 2018-11-20 | 北京搜狐新媒体信息技术有限公司 | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 |
Non-Patent Citations (2)
Title |
---|
刘展;: "TFIDF算法在文章推荐系统的应用" * |
李政泽;韩毅;周斌;贾焰;: "微博用户分类的特征词权重优化及推荐策略" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328881A (zh) * | 2020-11-05 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 文章推荐方法、装置、终端设备及存储介质 |
CN112328881B (zh) * | 2020-11-05 | 2024-04-02 | 中国平安人寿保险股份有限公司 | 文章推荐方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110727784B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107436922B (zh) | 文本标签生成方法和装置 | |
US8989450B1 (en) | Scoring items | |
US7831597B2 (en) | Text summarization method and apparatus using a multidimensional subspace | |
CN111581355B (zh) | 威胁情报的主题检测方法、装置和计算机存储介质 | |
US8150822B2 (en) | On-line iterative multistage search engine with text categorization and supervised learning | |
CN108009135B (zh) | 生成文档摘要的方法和装置 | |
KR20060047636A (ko) | 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템 | |
CN108763348B (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN111368038B (zh) | 一种关键词的提取方法、装置、计算机设备和存储介质 | |
JP2009134714A (ja) | プライバシーポリシーを強化するためにコンピュータが実行する方法 | |
CN103810264A (zh) | 基于特征选择的网页文本分类方法 | |
CN109255022B (zh) | 一种用于网络文章的摘要自动提取方法 | |
CN110990676A (zh) | 一种社交媒体热点主题提取方法与系统 | |
CN102945246A (zh) | 网络信息数据的处理方法及装置 | |
Shetty et al. | Auto text summarization with categorization and sentiment analysis | |
CN110032622A (zh) | 关键词确定方法、装置、设备及计算机可读存储介质 | |
CN110032721A (zh) | 一种裁判文书推送方法及装置 | |
CN109657043B (zh) | 自动生成文章的方法、装置、设备及存储介质 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN110727784A (zh) | 基于内容的文章推荐方法及系统 | |
CN110222179B (zh) | 一种通讯录文本分类方法、装置及电子设备 | |
CN112528021B (zh) | 一种模型训练方法、模型训练装置及智能设备 | |
Garg | Automatic text summarization of video lectures using subtitles | |
Guo | Social network rumor recognition based on enhanced naive bayes | |
Asirvatham et al. | Web page categorization based on document structure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |