CN110309387A - 一种大数据资讯聚合阅读推荐方法 - Google Patents
一种大数据资讯聚合阅读推荐方法 Download PDFInfo
- Publication number
- CN110309387A CN110309387A CN201810184135.6A CN201810184135A CN110309387A CN 110309387 A CN110309387 A CN 110309387A CN 201810184135 A CN201810184135 A CN 201810184135A CN 110309387 A CN110309387 A CN 110309387A
- Authority
- CN
- China
- Prior art keywords
- article
- data
- words
- big data
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000000284 extract Substances 0.000 claims description 21
- 238000004140 cleaning Methods 0.000 claims description 14
- 241000270322 Lepidosauria Species 0.000 claims description 6
- 230000007115 recruitment Effects 0.000 claims description 6
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000003442 weekly effect Effects 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims 1
- 241000894007 species Species 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种大数据资讯聚合阅读推荐方法,基于大数据手段,汇总一些相关网站的相关类别信息,把这些相关类别的信息存储到环境数据库中,然后再在微信订阅号中进行显示以及推送;利用本发明的方法,科学有效地筛选出相关有价值的、符合大众心理的文章,进一步地筛选出关键词以及重点段落,节省了读者了解信息的时间,提高了信息利用率。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种大数据资讯聚合阅读推荐方法。
背景技术
随着云时代的来临,大数据相关资讯也吸引了越来越多的关注,人们对大数据资讯也越来越关心,但是伴随互联网的发展,各网站报道大数据相关的文章也越来越多,造成大数据相关信息的爆炸。当今的社会随着生活节奏的加快,人们无法投入很多的时间阅读大数据资讯,更无法对相关资讯进行仔细地阅读。因此往往无法抓住资讯重点。本发明提供一种大数据资讯聚合阅读推荐方法,汇总其他网站的特定类别的信息,把这些相关类别的信息存储到环境的数据库中,然后再在微信订阅号中进行显示以及推送。
发明内容
本发明的目的在于针对当今大数据资讯爆炸的时代,提供一种大数据相关资讯聚合阅读推荐方法,汇聚各网站大数据资讯相关文章,提取文章中关键词,找出各类新颖的文章,并推送相关文章给读者。其包括如下步骤:
步骤1:采用爬虫工具每天定时向相关网站获取资讯。
步骤2:对相关数据进行清理,整理格式后存储到数据库中。
步骤3:再将各网站对应表中的数据存入统一数据表中,存入之前使用simhash(相似哈希)算法(特征字的距离参数为3)进行去重操作。
步骤4:使用jieba(结巴)中文分词对入库的数据进行分词操作,获取得到的分词使用自建的停用词词表将无用词剔除。
步骤5.提取关键词。
步骤6.提取文章中的重点段落。
步骤7.查找相关文章列举最相似的五篇文章。
步骤8.将筛选后的文章置于网站上,每周将网站中点击量最多的七篇文章推送至微信公众号。
进一步的,所述步骤1采用爬虫工具每天定时向“数据猿”、“雷锋网”等相关网站获取资讯,优选的,爬取文章时间为2:00、6:00、10:00、14:00、 18:00、22:00。
进一步的,所述步骤2的对相关数据进行清理,其清理相关数据如下:1.清理网站中存在的广告信息2.清理网站中存在的招聘信息3.清理网站中存在的公告信息4.清理文章中各网站的标识。
进一步的,所述步骤2的清理方法如下:1.首先判断文章字数,如果文章字数过少,小于50字是网站的广告等之类无用信息,进行删除清理2.字数小于100 以内的文章进行关键词匹配,如果出现招聘、公告等之类的词语时,则为无用文章,进行统一清理3.根据各网站所特有的标识,如“雷锋网报道”等这些标识性词语进行屏蔽。
进一步的,所述步骤3的存储方式以各网站名字作为表名,爬取的数据存入对应的数据表中。
进一步的,所述步骤3依次读取数据库中各网站的数据,将读取的数据依次与已入库的数据做比较,查看是否存在重复的数据,重复的数据就不入库;若无重复数据直接入库。
进一步的,所述步骤5提取关键词中,首先对分词在百度文库中获取权重,获得权重步骤如下:1.首先获取百度文库该类所有文章的总数量n 2.利用各分词在百度文库中查找存在该词的文库数量m 3.计算权重w=m/n,获得的权重添加到TF-IDF(term frequency–inverse document frequency词频-逆向文件频率)算法中改善。
进一步的,所述步骤5提取关键词中,百度文库搜索得到的词占到总库中该类文章的50%以上,则该词没有意义置成停用词,动态维护停用词词表。
进一步的,所述步骤5提取关键词中,最后根据文章篇幅提取关键词(小于 300字提取两个关键词,小于600字提取三个关键词,大于600字提取5个关键词)。
进一步的,所述步骤6提取文章重点段落的方法,首先统计各段落存在关键词的次数,提取前三个出现次数最多的段落,再比较这三个段落中出现关键词的种类,种类越多,选择该段落为文章的重点段落。
进一步的,所述步骤7筛选出五篇相似文章的步骤:
步骤1.在存储的数据中利用KNN(k-NearestNeighborK最近邻)算法计算与爬取文章的距离
步骤2.比较距离的大小,并进行降序排序
步骤3.筛选出距离最小的五篇文章,距离最小的文章为与爬取的文章最为相似。
进一步的,所述步骤8将步骤7中筛选出的相似五篇文章以链接形式附于微信公众号中文章的末尾。
本发明的有益效果在于,本发明提供一种大数据资讯聚合阅读推荐方法,汇总一些相关网站的相关类别的信息,把这些相关类别的信息存储到本发明的数据库中,然后再在微信订阅号中进行显示以及推送;利用本发明的方法,可以科学有效地筛选出相关有价值的、符合大众心理的文章,且能进一步地筛选出关键词以及关键段落,节省了用户搜寻有意信息的时间,节省了读者了解信息的时间,提高了信息利用率。
附图说明
图1为本发明方法执行流程图
具体实施方式
具体实施案例1:
如图1所示,本发明一种大数据资讯聚合阅读推荐方法,包括如下步骤:
步骤1:采用爬虫工具每天定时向相关网站获取资讯。
步骤2:对相关数据进行清理,整理格式后存储到数据库中。
步骤3:再将各网站对应表中的数据存入最终统一数据表中,存入之前使用simhash(相似哈希)算法(特征字的距离参数为3)进行去重操作。
步骤4:使用jieba(结巴)中文分词对入库的数据进行分词操作,获取得到的分词使用自建的停用词词表将无用词剔除。
步骤5.提取关键词。
步骤6.提取文章中的重点段落
步骤7.查找相关文章列举最相似的五篇文章
步骤8.将筛选后的文章置于微信公众号中,并对每周点击量最多的七篇文章进行推送。
所述步骤1采用爬虫工具每天定时向“数据猿”、“雷锋网”等相关网站获取资讯,优选的,爬取文章时间为2:00、6:00、10:00、14:00、18:00、 22:00。
所述步骤2的对相关数据进行清理,其清理相关数据如下:1.清理网站中存在的广告信息2.清理网站中存在的招聘信息3.清理网站中存在的公告信息4.清理文章中各网站的标识。
所述步骤2的清理方法如下:1.首先判断文章字数,如果文章字数过少,小于50字可是网站的广告等之类无用信息,进行删除清理2.字数小于100以内的文章进行关键词匹配,如果出现招聘、公告等之类的词语时,为无用文章,进行统一清理3.根据各网站所特有的标识,如“雷锋网报道”等这些标识性词语进行屏蔽。
所述步骤3的存储方式以各网站名字作为表名,爬取的数据存入对应的数据表中。
所述步骤3依次读取数据库中各网站的数据,将读取的数据依次与已入库的数据做比较,查看是否存在重复的数据,重复的数据就不入库;若无重复数据直接入库。
所述步骤5提取关键词中,首先对分词在百度文库中获取权重,获得权重步骤如下:1.首先获取百度文库该类所有文章的总数量n 2.利用各分词在百度文库中查找存在该词的文库数量m 3.计算权重w=m/n,获得的权重添加到TF-IDF(term frequency–inversedocument frequency词频-逆向文件频率) 算法中改善。
所述步骤5提取关键词中,在百度文库中搜索相关分词,所述搜索得到的词占到总库中该类文章的50%以上,则该词没有意义,设置成停用词,动态维护停用词词表。
所述步骤5提取关键词中,最后根据文章篇幅提取关键词(小于300字提取两个关键词,小于600字提取三个关键词,大于600字提取5个关键词)。
所述步骤6提取文章重点段落的方法,首先统计各段落存在关键词的次数,提取前三个出现次数最多的段落,再比较这三个段落中出现关键词的种类,种类越多,选择该段落为文章的重点段落。
所述步骤7筛选出五篇相似文章的步骤:
步骤1.在存储的数据中利用KNN(k-NearestNeighbor K最近邻)算法计算与爬取文章的距离
步骤2.比较距离的大小,并进行降序排序
步骤3.筛选出距离最小的五篇文章,距离最小的文章为与爬取的文章最为相似。
所述步骤8将步骤7中筛选出的相似五篇文章以链接形式附于微信公众号中文章的末尾。
所述步骤1定时爬取“数据猿”、“雷锋网”等相关网站前100条数据,之后会跟本发明中已存的数据库中的数据作比较,重复的不会入库。所述步骤4 进行分词操作过程中,设置停用词的目的是在分词时,可以先把没有实际意义的词如“的”字去掉,这样后面会减少计算量,所述步骤6提取文章重点段落的目的是方便读者在阅读文章时可以快速浏览文章,直接标注重点段落,读者阅读时可以直接看重点段落就了解文章,节省了阅读时间。
本发明的有益效果在于,本发明提供一种大数据资讯聚合阅读推荐方法,汇总其他网站的一些类别信息,把这些相关类别的信息存储到环境的数据库中,然后在微信订阅号中进行显示以及推送;利用本发明的方法,可以科学有效地筛选出相关有价值的、符合大众心理的文章,可以使得更加精准、更加具有针对性的文章在微信平台上推送,节省了用户搜寻有意信息的时间,标注的重点段落和关键词节省了用户的阅读时间,提高了信息的利用率。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种大数据资讯聚合阅读推荐方法,其包括如下步骤:
步骤1:采用爬虫工具每天定时向相关网站获取资讯。
步骤2:对相关数据进行清理,整理格式后存储到数据库中。
步骤3:再将各网站对应表中的数据存入最终统一数据表中,存入之前使用simhash(相似哈希)算法(特征字的距离参数为3)进行去重操作。
步骤4:使用jieba(结巴)中文分词对入库的数据进行分词操作,获取得到的分词使用自建的停用词词表将无用词剔除。
步骤5.提取关键词。
步骤6.提取文章中的重点段落。
步骤7.查找相关文章列举最相似的五篇文章。
步骤8.将筛选后的文章置于微信公众号中,并对每周点击量最多的七篇文章进行推送。
2.如权利要求1所述的一种大数据资讯聚合阅读推荐方法,其特征在于:所述步骤1采用爬虫工具每天定时向“数据猿”、“雷锋网”等相关网站获取资讯,优选的,爬取文章时间为2:00、6:00、10:00、14:00、18:00、22:00。
3.如权利要求1所述的一种大数据资讯聚合阅读推荐方法,其特征在于:所述步骤2的对相关数据进行清理,其清理相关数据如下:1.清理网站存在的广告信息2.清理网站存在的招聘信息3.清理网站存在的公告信息4.清理文章中各网站的标识。
4.如权利要求1所述的一种大数据资讯聚合阅读推荐方法,其特征在于:所述步骤2的清理方法如下:1.首先判断文章字数,如果文章字数过少,小于50字是网站的广告等之类无用信息,进行删除清理2.字数小于100以内的文章进行关键词匹配,如果出现招聘、公告等之类的词语时,文章为无用文章进行统一清理3.根据各网站所特有的标识,如“雷锋网报道”等这些标识性词语进行屏蔽。
5.如权利要求1所述的一种大数据资讯聚合阅读推荐方法,其特征在于:所述步骤3的存储方式以各网站名字作为表名,爬取的数据存入对应的数据表中,依次读取数据库中各网站的数据,将读取的数据依次与已入库的数据做比较,查看是否存在重复的数据,重复的数据就不入库;若无重复数据直接入库。
6.如权利要求1所述的一种大数据资讯聚合阅读推荐方法,其特征在于:所述步骤5提取关键词中对分词在百度文库中获取权重的步骤如下:1.首先获取百度文库该类所有文章的总数量n 2.利用各分词在百度文库中查找存在该词的文库数量m 3.计算权重w=m/n,获得的权重添加到TF-IDF(term frequency–inverse document frequency词频-逆向文件频率)算法中改善。
7.如权利要求1所述的一种大数据资讯聚合阅读推荐方法,其特征在于:所述步骤5提取关键词中,百度文库搜索得到的词占到总库中该类文章的50%以上,则该词没有意义置成停用词,动态维护停用词词表,最后根据文章篇幅提取关键词(小于300字提取两个关键词,小于600字提取三个关键词,大于600字提取5个关键词)。
8.如权利要求1所述的一种大数据资讯聚合阅读推荐方法,其特征在于:所述步骤6提取文章重点段落的方法在于,首先统计各段落存在关键词的次数,提取前三个出现次数最多的段落,再比较这三个段落中出现关键词的种类,种类最多的,则选择该段落为文章的重点段落。
9.如权利要求1所述的一种大数据资讯聚合阅读推荐方法,其特征在于:所述步骤7筛选出五篇相似文章的步骤:
步骤1.在存储的数据中利用KNN(k-NearestNeighborK最近邻)算法计算与爬取文章的距离
步骤2.比较距离的大小,并进行降序排序
步骤3.筛选出距离最小的五篇文章,距离最小的文章为与爬取的文章最为相似。
10.如权利要求1所述的一种大数据资讯聚合阅读推荐方法,其特征在于:所述步骤8将步骤7中筛选出的相似五篇文章以链接形式附于微信公众号中文章的末尾。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810184135.6A CN110309387A (zh) | 2018-03-07 | 2018-03-07 | 一种大数据资讯聚合阅读推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810184135.6A CN110309387A (zh) | 2018-03-07 | 2018-03-07 | 一种大数据资讯聚合阅读推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110309387A true CN110309387A (zh) | 2019-10-08 |
Family
ID=68073640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810184135.6A Pending CN110309387A (zh) | 2018-03-07 | 2018-03-07 | 一种大数据资讯聚合阅读推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309387A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400457A (zh) * | 2020-04-15 | 2020-07-10 | Oppo广东移动通信有限公司 | 一种文本查询方法、装置及终端设备 |
CN111581513A (zh) * | 2020-05-07 | 2020-08-25 | 安徽龙讯信息科技有限公司 | 一种网站智能信息聚合系统 |
CN117708434A (zh) * | 2024-01-09 | 2024-03-15 | 青岛睿哲信息技术有限公司 | 一种基于关键词的用户推荐浏览内容生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010120101A2 (ko) * | 2009-04-13 | 2010-10-21 | (주)미디어레 | 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치 |
CN104361042A (zh) * | 2014-10-29 | 2015-02-18 | 中国建设银行股份有限公司 | 一种信息检索方法及装置 |
CN105243087A (zh) * | 2015-09-09 | 2016-01-13 | 浙江网新恒天软件有限公司 | It资讯聚合阅读个性化推荐方法 |
CN105808648A (zh) * | 2016-02-25 | 2016-07-27 | 焦点科技股份有限公司 | 一种基于r语言程序的个性化推荐方法 |
US20160217142A1 (en) * | 2013-09-29 | 2016-07-28 | Peking University Founder Group Co., Ltd. | Method and system of acquiring semantic information, keyword expansion and keyword search thereof |
-
2018
- 2018-03-07 CN CN201810184135.6A patent/CN110309387A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010120101A2 (ko) * | 2009-04-13 | 2010-10-21 | (주)미디어레 | 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치 |
US20160217142A1 (en) * | 2013-09-29 | 2016-07-28 | Peking University Founder Group Co., Ltd. | Method and system of acquiring semantic information, keyword expansion and keyword search thereof |
CN104361042A (zh) * | 2014-10-29 | 2015-02-18 | 中国建设银行股份有限公司 | 一种信息检索方法及装置 |
CN105243087A (zh) * | 2015-09-09 | 2016-01-13 | 浙江网新恒天软件有限公司 | It资讯聚合阅读个性化推荐方法 |
CN105808648A (zh) * | 2016-02-25 | 2016-07-27 | 焦点科技股份有限公司 | 一种基于r语言程序的个性化推荐方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400457A (zh) * | 2020-04-15 | 2020-07-10 | Oppo广东移动通信有限公司 | 一种文本查询方法、装置及终端设备 |
CN111581513A (zh) * | 2020-05-07 | 2020-08-25 | 安徽龙讯信息科技有限公司 | 一种网站智能信息聚合系统 |
CN111581513B (zh) * | 2020-05-07 | 2022-05-31 | 安徽龙讯信息科技有限公司 | 一种网站智能信息聚合系统 |
CN117708434A (zh) * | 2024-01-09 | 2024-03-15 | 青岛睿哲信息技术有限公司 | 一种基于关键词的用户推荐浏览内容生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN102279851B (zh) | 一种智能导航方法、装置和系统 | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN102982153B (zh) | 一种信息检索方法及其装置 | |
US9317613B2 (en) | Large scale entity-specific resource classification | |
CN106339502A (zh) | 一种基于用户行为数据分片聚类的建模推荐方法 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN103020293B (zh) | 一种移动应用的本体库的构建方法及系统 | |
CN109271477A (zh) | 一种借助互联网构建分类语料库的方法及系统 | |
CN109960763A (zh) | 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN105824959A (zh) | 舆情监控方法及系统 | |
CN103049542A (zh) | 一种面向领域的网络信息搜索方法 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
CN103514181B (zh) | 一种搜索方法和装置 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
CN101751458A (zh) | 一种网络舆情监控系统及方法 | |
CN103064880B (zh) | 一种基于搜索信息向用户提供网站选择的方法、装置和系统 | |
CN105378730A (zh) | 社交媒体分析与输出 | |
CN110309387A (zh) | 一种大数据资讯聚合阅读推荐方法 | |
CN109710825A (zh) | 一种基于机器学习的网页有害信息识别方法 | |
CN110569273A (zh) | 一种基于相关性排序的专利检索系统及方法 | |
CN108536664A (zh) | 商品领域的知识融合方法 | |
CN108446333B (zh) | 一种大数据文本挖掘处理系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191008 |