CN105243087A - It资讯聚合阅读个性化推荐方法 - Google Patents

It资讯聚合阅读个性化推荐方法 Download PDF

Info

Publication number
CN105243087A
CN105243087A CN201510570839.3A CN201510570839A CN105243087A CN 105243087 A CN105243087 A CN 105243087A CN 201510570839 A CN201510570839 A CN 201510570839A CN 105243087 A CN105243087 A CN 105243087A
Authority
CN
China
Prior art keywords
article
score
information
weight
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510570839.3A
Other languages
English (en)
Other versions
CN105243087B (zh
Inventor
彭志宇
陈是维
李海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Insigma Hengtian Software Ltd
Original Assignee
Insigma Hengtian Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Insigma Hengtian Software Ltd filed Critical Insigma Hengtian Software Ltd
Priority to CN201510570839.3A priority Critical patent/CN105243087B/zh
Publication of CN105243087A publication Critical patent/CN105243087A/zh
Application granted granted Critical
Publication of CN105243087B publication Critical patent/CN105243087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种IT资讯聚合阅读个性化推荐方法,通过网络爬虫定向爬取IT相关的资讯,通过SVM算法对爬取数据进行分类,通过对用户行为的分析,结合文章本身的属性对用户进行个性化推荐。在海量数据中提取出关于IT的资讯,并对其进行精准分类,解决了互联网信息杂乱的缺点;通过分析用户行为,针对用户进行个性化文章推荐,大大节省了用户的时间,快速了解到自己想要的资讯。

Description

IT资讯聚合阅读个性化推荐方法
技术领域
本发明提供了一种基于文本挖掘的IT资讯聚合阅读个性化推荐方法,涉及网络爬虫,文本分类,文本挖掘以及文章推荐等核心技术与算法,高效地进行资讯梳理和个性化推荐。
背景介绍
随着互联网技术的发展,海量信息时代已经来临,各类信息充斥于互联网,然而每个人感兴趣的信息只是其中很少的一部分,寻找感兴趣的资讯变得越来越困难。
另一方面,互联网资讯类网站众多,很多信息都是重复的,一个热点事件爆发,各家网站争相报道讨论,如果靠个人去区分一条资讯的好坏将会浪费很多时间。
互联网的发展,大数据的兴起,越来越多的人去关注IT资讯,同时关于IT的资讯也大量增多,辨别与关注这些信息中的实时热点话题越来越困难。
发明内容
本发明的目的在于针对如今互联网信息的繁杂,提供一种基于网络爬虫、文本挖掘和推荐算法的IT资讯聚合阅读个性化推荐方法。
本发明的目的是通过以下技术方案来实现的:一种基于文本挖掘的IT资讯聚合阅读个性化推荐方法,通过网络爬虫定向爬取IT相关的资讯,通过SVM算法对爬取数据进行分类。通过对用户行为的分析,结合文章本身的属性对用户进行个性化推荐。具体包括以下步骤:
(1)采用网络爬虫的方式定向爬取IT相关资讯,根据当前热点网站,本发明选取了“虎嗅”、“站长网”等十余个相关网站去爬取相关资讯,然后对爬取数据进行数据清洗、文章分词得到预处理后的文章,存储到数据库。
(2)文章分类,在分类前,先由人工确定具体类别以及该类别对应的关键字,分类阶段采用SVM算法对文章进行分类。分类过程分为以下两个阶段。
模型训练阶段:人工在数据库文章表中挑选各类别对应的训练集,读取数据库中文章的内容信息,根据内容信息创建语料库,进行卡方检验,在卡方检验中设定阈值ε,挑选结果值大于阈值ε的特征词,ε可取3.8。根据选好的特征词创建文章VSM模型,将VSM模型转换为SVM模型所需的输入参数,调用SVM模型进行训练,所述SVM模型可选用来源于台湾大学林智仁教授的开发的R语言包e1071。通过训练得到训练成功的SVM模型,将模型保存为本地文件。
文章分类阶段:读取未分类文章,经过分词,去停止词操作后将文章转化为VSM模型,然后调用已经训练好的SVM模型进行训练,并将预测结果存入数据库中。
(3)文章分类质量打分,在文章分类结束之后,对分类质量进行打分,分类质量在一定程度上影响推荐结果。分类质量打分需要考虑以下两个因素:文章来源网站SITE_WEIGHT,文章标题关键字在其所对应类别关键字列表中出现的次数NUM。根据文章来源网站不同,SITE_WEIGHT取值在1到3之间,次数NUM对应的权重NUM_WEIGHT为3,基于以上各因素,文章分类质量得分G计算公式如下:G=SITE_WEIGHT+3*NUM。
(4)相似文章检测,由于对于一个热点新闻,很多文章都是相似的,识别方法如下:根据步骤1的文章分词结果,计算文章的simhash值,将更新的文章两两进行海明距离D计算,同时和前一天文章的集合进行海明距离D计算,D=‐1表示题目相同,0≤D≤2表示simHash值意义下的相似文章,3≤D表示一般文章。当D<3时,认为两篇文章相似,推荐时是不会被同时推荐。
(5)文章热度打分,根据文章创作时间、阅读次数、点赞次数三个因素,同时考虑全体用户对于该文章所属类别及标签的偏好,对文章进行热度打分,反映这篇文章在当前阶段的受欢迎情况。具体各因素及权重如下:
文章热度得分H=TIME*0.3+READ*0.2+APPRAISE*0.2+SITE*0.1
+CATEGORY*0.1+TAG*0.1
(6)个性化文章推荐,分析用户的行为,用户的阅读点赞记录,分析用户对于某类网站,某类文章以及某些标签的偏好,同时结合文章本身的创作时间,文章被阅读次数,文章被点赞次数信息按权重给推荐文章进行综合打分。具体各因素及权重如下:
文章推荐得分SCORE=TIME*0.3+READ*0.2+APPRAISE*0.2+SSITE*0.1
+SCATEGORY*0.1+STAG*0.1
根据推荐的得分对文章进行排序,对得分大于1的文章进行推荐。
(7)各类主题的个性化推荐,步骤2对爬取的文章进行了分类,当用户选取某一类文章时,在推荐时,类别所占比重增大,具体比重如下:
文章推荐得分Score=H*0.3+G*0.4+SSITE*0.15+STAG*0.15,根据推荐的得分对文章进行排序,对得分大于1的文章进行推荐。
本发明的有益结果如下:
(1)在海量数据中提取出关于IT的资讯,并对其进行精准分类,解决了互联网信息杂乱的缺点;
(2)通过分析用户行为,针对用户进行个性化文章推荐,大大节省了用户的时间,快速了解到自己想要的资讯。
附图说明
图1是爬虫采集原始文章示意图;
图2是文章分类过程示意图;
图3是文章分类质量打分示意图;
图4是相似文章检测示意图;
图5是文章推荐过程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
本发明一种IT资讯聚合阅读个性化推荐方法,包括以下步骤:
(1)如图1所示,以WebMagic爬虫为基础,二次开发网络爬虫程序,爬虫程序根据任务分布式部署到多台服务器上,定向爬取“虎嗅”、“站长网”、“51CTO”等十几个知名网站的文章,同时增加深度控制以免爬取到不相关数据。爬虫程序定时运行,将采集的文章通过网络存入数据库中,然后由ETL程序去处理原始文章,经过文章去重、文章分词操作得到预处理后的文章,存储到数据库。
(2)文章分类:如图2所示,在分类前,先由人工确定具体类别以及该类别对应的关键字。分类阶段采用了SVM算法对文章进行分类。分类过程分为以下两个阶段。
模型训练阶段:人工在数据库文章表中挑选各类别对应的训练集,读取数据库中文章的内容信息到训练程序中,根据内容信息创建语料库,进行卡方检验,挑选结果值大于3.8的为符合条件的特征词。根据选好的特征词创建文章VSM模型,将VSM模型转换为SVM模型所需的输入参数,调用SVM模型进行训练,本SVM模型来源于台湾大学林智仁教授的R语言包e1071。通过训练得到训练成功的SVM模型,将模型保存为本地文件。
文章分类阶段:读取未分类文章,经过分词,去停止词操作后将文章转化为VSM模型,然后调用已经训练好的SVM模型进行训练,并将预测结果存入数据库中。
(3)文章分类质量打分:如图3所示,在文章分类结束之后,对分类质量进行打分,分类质量在一定程度上影响推荐结果。分类质量打分需要考虑以下两个因素:文章来源网站SITE_WEIGHT,文章标题关键字在其所对应类别关键字列表中出现的次数NUM。根据文章来源网站不同,SITE_WEIGHT取值在1到3之间,次数NUM对应的权重NUM_WEIGHT为3,基于以上各因素,文章分类质量得分G计算公式如下:G=SITE_WEIGHT+3*NUM。
(4)文章相似性检测,如图4所示,根据步骤1的文章分词结果,计算文章的simhash值,将两小时内更新的文章两两进行海明距离D计算,同时和前一天文章的集合进行海明距离D计算,D=‐1表示题目相同,0≤D≤2表示simHash值意义下的相似文章,3≤D表示一般文章。当D<3时,认为两篇文章相似,推荐时是不会被同时推荐。
(5)文章热度打分,根据文章创作时间、阅读次数、点赞次数三个因素,同时考虑全体用户对于该文章所属类别及标签的偏好,对文章进行热度打分,反映这篇文章在当前阶段的受欢迎情况。具体各因素及权重如下:
文章热度得分H=TIME*0.3+READ*0.2+APPRAISE*0.2+SITE*0.1+CATEGORY*0.1+TAG*0.1
(6)个性化文章推荐:如图5所示,分析用户的行为,用户的阅读点赞记录,分析用户对于某类网站,某类文章以及某些标签的偏好,同时结合文章本身的创作时间,文章被阅读次数,文章被点赞次数信息按权重给推荐文章进行综合打分。具体各因素及权重如下:
文章推荐得分SCORE=TIME*0.3+READ*0.2+APPRAISE*0.2+SSITE*0.1+SCATEGORY*0.1+STAG*0.1
根据推荐的得分对文章进行排序,对得分大于1的文章进行推荐。
(7)各类主题的个性化推荐,步骤2对爬取的文章进行了分类,当用户选取某一类文章时,在推荐时,类别所占比重增大,具体比重如下:
文章推荐得分Score=H*0.3+G*0.4+SSITE*0.15+STAG*0.15,根据推荐的得分对文章进行排序,对得分大于1的文章进行推荐。

Claims (1)

1.一种IT资讯聚合阅读个性化推荐方法,其特征在于,包括以下步骤:
(1)采用网络爬虫的方式定向爬取IT相关资讯,然后对爬取数据进行数据清洗、文章分词得到预处理后的文章,存储到数据库;
(2)文章分类:先由人工确定具体类别以及该类别对应的关键字,然后采用SVM算法对文章进行分类;包括以下两个阶段:
模型训练阶段:人工在数据库文章表中挑选各类别对应的训练集,读取数据库中文章的内容信息,根据内容信息创建语料库,通过卡方检验挑选特征词;根据选好的特征词创建文章VSM模型,将VSM模型转换为SVM模型所需的输入参数,调用SVM模型进行训练,通过训练得到训练成功的SVM模型,将模型保存为本地文件;
文章分类阶段:读取未分类文章,经过分词、去停止词操作后将文章转化为VSM模型,然后调用已经训练好的SVM模型进行训练,并将预测结果存入数据库中;
(3)文章分类质量打分:分类质量打分考虑以下两个因素:文章来源网站SITE_WEIGHT、文章标题关键字在其所对应类别关键字列表中出现的次数NUM;根据文章来源网站不同,SITE_WEIGHT取值在1到3之间,次数NUM对应的权重NUM_WEIGHT为3,基于以上各因素,文章分类质量得分G计算公式如下:G=SITE_WEIGHT+3*NUM;
(4)相似文章检测:根据步骤1的文章分词结果,计算文章的simhash值,将更新的文章两两进行海明距离D计算,同时和前一天文章的集合进行海明距离D计算,D=‐1表示题目相同,0≤D≤2表示simHash值意义下的相似文章,3≤D表示一般文章;当D<3时,认为两篇文章相似,推荐时不会被同时推荐;
(5)文章热度打分:根据文章创作时间、阅读次数、点赞次数三个因素,同时考虑全体用户对于该文章所属类别及标签的偏好,对文章进行热度打分,反映这篇文章在当前阶段的受欢迎情况;具体各因素及权重如下:
文章热度得分H=TIME*0.3+READ*0.2+APPRAISE*0.2+SITE*0.1+CATEGORY*0.1+TAG*0.1
(6)个性化文章推荐:分析用户的行为,用户的阅读点赞记录,分析用户对于某类网站,某类文章以及某些标签的偏好,同时结合文章本身的创作时间,文章被阅读次数,文章被点赞次数信息按权重给推荐文章进行综合打分;具体各因素及权重如下:
文章推荐得分SCORE=TIME*0.3+READ*0.2+APPRAISE*0.2+SSITE*0.1+SCATEGORY*0.1+STAG*0.1
根据推荐的得分对文章进行排序,对得分大于1的文章进行推荐;
(7)各类主题的个性化推荐:步骤2对爬取的文章进行了分类,当用户选取某一类文章时,在推荐时,类别所占比重增大,具体比重如下:
文章推荐得分Score=H*0.3+G*0.4+SSITE*0.15+STAG*0.15,根据推荐的得分对文章进行排序,对得分大于1的文章进行推荐。
CN201510570839.3A 2015-09-09 2015-09-09 It资讯聚合阅读个性化推荐方法 Active CN105243087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510570839.3A CN105243087B (zh) 2015-09-09 2015-09-09 It资讯聚合阅读个性化推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510570839.3A CN105243087B (zh) 2015-09-09 2015-09-09 It资讯聚合阅读个性化推荐方法

Publications (2)

Publication Number Publication Date
CN105243087A true CN105243087A (zh) 2016-01-13
CN105243087B CN105243087B (zh) 2018-08-31

Family

ID=55040736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510570839.3A Active CN105243087B (zh) 2015-09-09 2015-09-09 It资讯聚合阅读个性化推荐方法

Country Status (1)

Country Link
CN (1) CN105243087B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503050A (zh) * 2016-09-23 2017-03-15 厦门市杜若科技有限公司 一种基于大数据进行阅读文章推荐的方法与系统
CN107273534A (zh) * 2017-06-29 2017-10-20 武汉楚鼎信息技术有限公司 一种基于资讯内容提取的数据加工方法、系统
CN107491432A (zh) * 2017-06-20 2017-12-19 北京百度网讯科技有限公司 基于人工智能的低质量文章识别方法及装置、设备及介质
CN107798147A (zh) * 2017-12-05 2018-03-13 李贺满 一种新闻客户端及其消息推送方法
CN107870912A (zh) * 2016-09-22 2018-04-03 广州市动景计算机科技有限公司 文章质量评分方法、设备、客户端、服务器及可编程设备
CN108509417A (zh) * 2018-03-20 2018-09-07 腾讯科技(深圳)有限公司 标题生成方法及设备、存储介质、服务器
CN108733669A (zh) * 2017-04-14 2018-11-02 优路(北京)信息科技有限公司 一种基于词向量的个性化媒体内容推荐系统及方法
CN110309387A (zh) * 2018-03-07 2019-10-08 苏州猫耳网络科技有限公司 一种大数据资讯聚合阅读推荐方法
CN110413789A (zh) * 2019-07-31 2019-11-05 广西师范大学 一种基于svm的习题自动分类方法
CN110825961A (zh) * 2019-10-17 2020-02-21 武汉天喻教育科技有限公司 一种互联网应用中用户的内容推荐方法
CN110955816A (zh) * 2019-11-08 2020-04-03 广州坚和网络科技有限公司 基于内容标签的聚合主题内容的方法
CN111125561A (zh) * 2019-11-28 2020-05-08 泰康保险集团股份有限公司 一种网络热度的展示方法及装置
CN111723295A (zh) * 2020-06-30 2020-09-29 腾讯科技(深圳)有限公司 一种内容分发方法、装置和存储介质
CN112699949A (zh) * 2021-01-05 2021-04-23 百威投资(中国)有限公司 一种基于社交平台数据的潜在用户识别方法及装置
CN113779387A (zh) * 2021-08-25 2021-12-10 上海大智慧信息科技有限公司 基于知识图谱的行业推荐方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4706143B2 (ja) * 2001-08-02 2011-06-22 ソニー株式会社 情報提供方法および装置
CN101170426A (zh) * 2006-10-25 2008-04-30 马永利 基于用户行为(习惯)分析的个性化内容发布方案
CN101079063A (zh) * 2007-06-25 2007-11-28 腾讯科技(深圳)有限公司 一种基于场景信息推送广告的方法、系统及设备
CN101477556B (zh) * 2009-01-22 2010-09-15 苏州智讯科技有限公司 一种从互联网海量信息中发现热点的方法
CN101655856A (zh) * 2009-09-15 2010-02-24 西安交通大学 一种获取用户特定知识元兴趣度的方法
CN102523511A (zh) * 2011-11-09 2012-06-27 中国传媒大学 一种网络节目聚合及节目推荐系统和方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10956473B2 (en) 2016-09-22 2021-03-23 Guangzhou Ucweb Computer Technology Co., Ltd. Article quality scoring method and device, client, server, and programmable device
CN107870912A (zh) * 2016-09-22 2018-04-03 广州市动景计算机科技有限公司 文章质量评分方法、设备、客户端、服务器及可编程设备
CN106503050A (zh) * 2016-09-23 2017-03-15 厦门市杜若科技有限公司 一种基于大数据进行阅读文章推荐的方法与系统
CN108733669A (zh) * 2017-04-14 2018-11-02 优路(北京)信息科技有限公司 一种基于词向量的个性化媒体内容推荐系统及方法
CN107491432A (zh) * 2017-06-20 2017-12-19 北京百度网讯科技有限公司 基于人工智能的低质量文章识别方法及装置、设备及介质
US11645554B2 (en) 2017-06-20 2023-05-09 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium
CN107273534A (zh) * 2017-06-29 2017-10-20 武汉楚鼎信息技术有限公司 一种基于资讯内容提取的数据加工方法、系统
CN107798147A (zh) * 2017-12-05 2018-03-13 李贺满 一种新闻客户端及其消息推送方法
CN107798147B (zh) * 2017-12-05 2021-05-25 深圳市敏思跃动科技有限公司 一种新闻客户端及其消息推送方法
CN110309387A (zh) * 2018-03-07 2019-10-08 苏州猫耳网络科技有限公司 一种大数据资讯聚合阅读推荐方法
CN108509417A (zh) * 2018-03-20 2018-09-07 腾讯科技(深圳)有限公司 标题生成方法及设备、存储介质、服务器
CN110413789A (zh) * 2019-07-31 2019-11-05 广西师范大学 一种基于svm的习题自动分类方法
CN110825961A (zh) * 2019-10-17 2020-02-21 武汉天喻教育科技有限公司 一种互联网应用中用户的内容推荐方法
CN110955816A (zh) * 2019-11-08 2020-04-03 广州坚和网络科技有限公司 基于内容标签的聚合主题内容的方法
CN110955816B (zh) * 2019-11-08 2022-11-08 广州坚和网络科技有限公司 基于内容标签的聚合主题内容的方法
CN111125561A (zh) * 2019-11-28 2020-05-08 泰康保险集团股份有限公司 一种网络热度的展示方法及装置
CN111723295A (zh) * 2020-06-30 2020-09-29 腾讯科技(深圳)有限公司 一种内容分发方法、装置和存储介质
CN111723295B (zh) * 2020-06-30 2023-10-17 腾讯科技(深圳)有限公司 一种内容分发方法、装置和存储介质
CN112699949A (zh) * 2021-01-05 2021-04-23 百威投资(中国)有限公司 一种基于社交平台数据的潜在用户识别方法及装置
CN113779387A (zh) * 2021-08-25 2021-12-10 上海大智慧信息科技有限公司 基于知识图谱的行业推荐方法及系统

Also Published As

Publication number Publication date
CN105243087B (zh) 2018-08-31

Similar Documents

Publication Publication Date Title
CN105243087A (zh) It资讯聚合阅读个性化推荐方法
CN105893609B (zh) 一种基于加权混合的移动app推荐方法
Venugopalan et al. Exploring sentiment analysis on twitter data
CN102193936B (zh) 一种数据分类的方法及装置
CN105095187A (zh) 一种搜索意图识别方法及装置
JP5454357B2 (ja) 情報処理装置および方法、並びに、プログラム
CN103810162B (zh) 推荐网络信息的方法和系统
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN103744981A (zh) 一种基于网站内容用于网站自动分类分析的系统
CN102033949B (zh) 基于修正的k近邻文本分类方法
CN103177090A (zh) 一种基于大数据的话题检测方法及装置
CN101641697A (zh) 对网页的相关搜索查询及其应用
CN104392006B (zh) 一种事件查询处理方法及装置
CN103399891A (zh) 网络内容自动推荐方法、装置和系统
CN110287409B (zh) 一种网页类型识别方法及装置
CN110555154B (zh) 一种面向主题的信息检索方法
CN106156372A (zh) 一种互联网网站的分类方法及装置
Liu et al. Predicting the popularity of online news based on multivariate analysis
CN102999615A (zh) 基于径向基函数神经网络的多样化图像标注和检索方法
CN103713894A (zh) 一种用于确定用户的访问需求信息的方法与设备
WO2017087548A1 (en) Identifying social business characteristic user
Rao et al. A machine learning approach to classify news articles based on location
CN112862567A (zh) 一种在线展会的展品推荐方法与系统
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
Tai et al. Content-based recommendation using machine learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant