CN111222028B - 一种数据智能爬取方法 - Google Patents

一种数据智能爬取方法 Download PDF

Info

Publication number
CN111222028B
CN111222028B CN202010028320.3A CN202010028320A CN111222028B CN 111222028 B CN111222028 B CN 111222028B CN 202010028320 A CN202010028320 A CN 202010028320A CN 111222028 B CN111222028 B CN 111222028B
Authority
CN
China
Prior art keywords
article
data
articles
data source
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010028320.3A
Other languages
English (en)
Other versions
CN111222028A (zh
Inventor
罗博文
钟莉
黄云
董晓尚
张豪
沈停
杨建�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Daily
Original Assignee
Sichuan Daily
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Daily filed Critical Sichuan Daily
Priority to CN202010028320.3A priority Critical patent/CN111222028B/zh
Publication of CN111222028A publication Critical patent/CN111222028A/zh
Application granted granted Critical
Publication of CN111222028B publication Critical patent/CN111222028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据智能爬取方法,本发明包括数据整合阶段、数据筛选阶段和数据推送阶段,数据整合阶段为获取数据并对数据进行标签分类的阶段,即在各个目标数据源中获取文章,并对获取的文章进行标签标注,得到标签信息,便于后续根据标签信息对文章进行筛选;数据筛选阶段则是根据用户输入的文章筛选请求,在内容数据库中筛选出符合要求的文章,而数据推送阶段,则是将数据筛选阶段得到的文章推送至筛选请求发送端,实现文章的快速筛选推送。通过上述设计,使得文章数据的筛选非常的快速便捷,不需要用户一一登录各种在线平台,阅读每篇文章,才能达到文章统计收集的功能,不仅大大的提高了文章收集的效率,还减少了工作人员的工作量。

Description

一种数据智能爬取方法
技术领域
本发明涉及数据爬取技术领域,具体涉及一种数据智能爬取方法。
背景技术
随着社会的不断发展,当前社会已经进入大数据时代,信息的种类、来源也越来越多样化。报纸作为人类信息获取的重要来源之一,其信息的收集也变得越来越重要。
目前,对于文章数据的收集,报社的工作人员需要自行登陆各个网站、网页、客户端等在线平台,一一阅读每个在线平台发布的文章,筛选出自己所需的文章,然后进行下载并统计。这种传统的数据收集方法不仅效率慢,还大大的增加了工作人员的工作量,已经不能满足报社文章数据进行快速统计、更新的需求。
发明内容
为了解决现有的报社文章数据收集采用人工所导致的效率慢、工作量大的问题,本发明的目的在于提供一种能够自动爬取各个在线平台所发布的文章,并按照输入的需求对文章进行筛选,快速得到对应的文章,并进行推送,达到文章快速收集功能的数据智能爬取方法。
本发明所采用的技术方案为:
一种数据智能爬取方法,包括数据整合阶段、数据筛选阶段和数据推送阶段;
所述数据整合阶段包括以下步骤:
S101.确定多个目标数据源,并得到每个目标数据源对应的数据源信息,然后将所述目标数据源存储至数据源数据库;
S102.访问所述数据源数据库中的所有目标数据源,获取目标数据源中的全部文章,并提取每篇文章中的多个字段,得到字段组,然后将文章存储至内容数据库;
S103.访问所述内容数据库中的每篇文章,根据所述数据源信息和每篇文章对应的字段组对文章进行标签标注,得到每篇文章对应的标签信息;
所述数据筛选阶段包括以下步骤:
S201.接收文章筛选请求,其中,所述文章筛选请求包括查找关键词组;
S202.将所述查找关键词组与所述标签信息进行数据匹配,匹配完成后,得到目标标签信息以及目标标签信息对应的文章,将目标标签信息对应的文章定义为目标文章;
S203.将查找关键词组分别与每篇目标文章的全文进行数据匹配,匹配完成后,将符合预设要求的目标文章作为推送文章;
所述数据推送阶段包括以下步骤:
S301.将所述推送文章发送至文章筛选请求发送端,完成文章的筛选推送。
优化的,所述数据源信息包括数据源名称、数据源地址、数据源来源地理位置、数据源所属机构、数据源所属种类和数据源类型。
优化的,所述步骤S102中的字段组包括:当前文章的标题字段、正文字段、发布时间字段、作者字段、发布机构字段和地理位置字段。
优化的,在提取所述地理位置字段时,具体包括以下步骤:
S102a.提取文章全文出现的地名,并统计每个地名出现的频率;
S103b.计算每个地名对应的权重,根据每个地名出现的频率,计算得到每个地名的总权重;
S103c.选择总权重最大的地名作为所述地理位置字段。
优化的,所述步骤S103中对文章进行标签标注的规则为:针对每篇文章,当前文章所属目标数据源对应的数据源信息中的每一个信息以及当前文章所对应字段组中的每一个字段均为当前文章的标签信息。
优化的,在所述步骤S102中,获取目标数据源中的全部文章后,还需进行文章相似度的对比,具体步骤如下:
S102a.选取内容数据库中的任意一篇文章,作为对比文章,利用simhash算法,将对比文章分别与内容数据库中的剩余文章进行相似度计算,计算完毕后,得到若干相似文章;
S102b.分别计算对比文章和每个相似文章的权重值,保留权重值最大的文章,并将其余的文章从内容数据库中删除;
S102c.选取下一篇文章,重复步骤S102a~S102b,直到将内容数据库中文章选取完毕为止。
优化的,根据权利要求1所述的一种数据智能爬取方法,其特征在于:所述步骤S201中的查找关键词组包括规定关键词、规定地理位置和规定发布时间段。
优化的,所述步骤S202中将所述查找关键词组与所述标签信息进行数据匹配具体包括以下步骤:
S202a.将所述规定关键词、所述规定地理位置和所述规定发布时间段分别与所述标签信息进行数据匹配,分别得到含有规定关键词的标签信息、含有规定地理位置的标签信息和含有规定发布时间段的标签信息,其中,所述目标标签信息包括含有规定关键词的标签信息、含有规定地理位置的标签信息和含有规定发布时间段的标签信息;
S202b.根据所述目标标签信息,得到所述目标文章。
优化的,所述步骤S203中的预设要求具体为:
判断每篇目标文章中是否包含所述规定关键词和所述规定地理位置,判断每篇文章的发布时间是否在所述规定发布时间段内。
优化的,在所述步骤S301前,还需对得到的推送文章进行准确性校验。
本发明的有益效果为:
(1)本发明提供了一种数据智能爬取方法,本发明包括数据整合阶段、数据筛选阶段和数据推送阶段,其中,数据整合阶段为获取数据并对数据进行标签分类的阶段,即在各个目标数据源中获取文章,并对获取的文章进行标签标注,得到标签信息,便于后续根据标签信息对文章进行筛选。
数据筛选阶段则是根据用户输入的文章筛选请求,在内容数据库中筛选出符合要求的文章,具体包括两次筛选,第一次为:根据用户输入的查找关键词组与每个文章对应的标签信息进行匹配,得到目标文章,第二次则是在第一次筛选得到的目标文章中,分别将每篇目标文章的全文与查找关键词组进行数据匹配,进而达到二次筛选的目的,经过两次筛选后的得到的文章则作为推送文章。
而数据推送阶段,则是将推送文章推送至文章筛选请求发送端,实现文章的快速筛选推送。
通过上述设计,使得文章数据的筛选非常的快速便捷,不需要用户一一登录各种在线平台,阅读每篇文章,才能达到文章统计收集的功能,不仅大大的提高了文章收集的效率,还减少了工作人员的工作量。
(2)本发明在确定目标数据源时,会得到相应的数据源信息,同时还会提取每个目标数据源中的文章的多个字段,组成字段组,而标签标注则是根据数据源信息和字段组实现的,即当前文章所属目标数据源对应的数据源信息中的每一个信息以及当前文章所对应字段组中的每一个字段均为当前文章的标签信息,而数据源信息包括数据源名称、数据源来源地理位置、数据源所属机构等,字段组包括标题字段、正文字段、发布时间字段、作者字段、发布机构字段和地理位置字段。
通过上述设计,使得每篇文章具有多个标签,在进行文章筛选时,用户可根据标签进行筛选,即在文章筛选请求中输入作者、标题等关键词,进而可通过关键词与标签信息的匹配,实现文章快速且准确的筛选,不仅提高了用户筛选的便捷性,也提高了筛选的效率。
(3)本发明还会对获取的文章进行相似度对比,得到若干相似文章,然后计算若干相似文章的权重值和对比文章的权重值,通过权重值进行相似文章与对比文章的保留与删除,即在对比文章和若干相似文章中,只保留权重值最大的,而删除其余的。通过上述设计,可减少内容数据库中的相似文章,避免在筛选时出现相似文章,提高文章筛选的精确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的数据智能爬取方法的的步骤流程示意图。
具体实施方式
下面结合具体实施例对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。
实施例一
如图1所示,本实施例所提供的数据智能爬取方法,数据整合阶段、数据筛选阶段和数据推送阶段。
下面对数据整合阶段进行具体的介绍:
所述数据整合阶段包括以下步骤:
S101.确定多个目标数据源,并得到每个目标数据源对应的数据源信息,然后将所述目标数据源存储至数据源数据库。
所述步骤S101则是确定文章的来源,即在哪些网站、网页、客户端等在线平台上获取文章。
即在本实施例中,目标数据源可以但不仅限于为网站、网页、客户端、微博等。
而只要确实了目标数据源,则可得到每个目标数据源对应的数据源信息,以便根据数据源信息对文章进行标签标注。
在本实施例中,数据源信息具体包括以下:
所述数据源信息包括数据源名称、数据源地址、数据源来源地理位置、数据源所属机构、数据源所属种类和数据源类型。
下面对数据源信息中的每个信息进行具体的解释:
如某个目标数据源为一个网页,那么在此网页上就会得到这个网页的名称,其对应为数据源名称。
又如,此网页会有地址链接,那么此地址链接则对应数据源地址,又如,此网页为一个教育局网页,那么根据此网页的教育局所属地,即可得到该教育局的地理位置,此地理位置则对应数据源来源地理位置。
再如,此网页为一个教育局网页,那么可得出此网页属于教育厅或教育部,即可得出数据源所属机构,再如,此网页为一个教育局网页,可得出此网页为教育板块,即可得出数据源所属种类为教育板块,而数据源类型即是目标数据源为网页、网站还是客户端等在线平台。
通过上述设计,即可得出文章获取来源的详细信息,便于后续对文章进行标签标注。
得到目标数据源和数据源信息后,即可进行步骤S102。
S102.访问所述数据源数据库中的所有目标数据源,获取目标数据源中的全部文章,并提取每篇文章中的多个字段,得到字段组,然后将文章存储至内容数据库。
步骤S102则是爬取每个目标数据源中的所有文章,在本实施例中,采用网络爬虫的方式进行文章的爬取。
网络爬虫为一种现有技术,可自动抓取万维网的程序或脚本,已被广泛应用于数据爬取技术领域。
同时,在爬取到目标数据源中的所有文章后,还会在每篇文章的全文中提取多个字段,组成字段组,便于后续对文章进行标签标注。
在本实施例中,提取字段也采用网络爬虫技术。
在本实施例中,字段组具体包括以下字段:
所述步骤S102中的字段组包括:当前文章的标题字段、正文字段、发布时间字段、作者字段、发布机构字段和地理位置字段。
在所述步骤S102中,标题字段则是当前文章的标题,正文字段则为当前文章的内容,当然,可将内容分为多个正文字段,而发布时间字段则是当前文章的发布时间,发布机构字段则是当前文章由哪个机构进行发布的,如人民日报、教育部、外交部等。
在本实施例中,字段组还可包括头图和摘选字段,其中,摘要字段为每篇文章的内容概括,可通过是现有的第三方接口进行文章摘要的提取,为一种现有技术。
而地理位置字段则是当前文章所讲内容的主要地点。如当前文章为一篇报道贪污腐败的文章,那么地理位置字段则是该文章中贪污腐败事件所处的具体的省市县地理位置。
在本实施例中,在提取文章的地理位置字段时,具体包括以下步骤:
在提取所述地理位置字段时,具体包括以下步骤:
S102a.提取文章全文出现的地名,并统计每个地名出现的频率。
S103b.计算每个地名对应的权重,根据每个地名出现的频率,计算得到每个地名的总权重。
S103c.选择总权重最大的地名作为所述地理位置字段。
在本实施例中,要得到一篇文章的地理位置字段,首先需要将文章进行分词,在本实施例中,采用python语言的一个开源的中文分词算法,对文章进行分句。
在本实施例中,python语言的一个开源的中文文词算法为一种现有技术。
当对整篇文章进行分词后,即可统计经过分句后,每个分句中所出现的地名,并统计每个地名出现的频率。如一篇文章中出现成都市的次数为4次,那么成都市的频率就为4。
在本实施例中,每个地名对应的权重由用户预设得出,即用户统计所有地名,存入内容数据库中,然后按照需求设置每个地名的权重,如,当需要了解一个国家人均GDP排名前十的城市,那么即可根据 GDP的排名设置权重,第一名的权重最大。当然,本实施例中,每个地名的权重设置可由用户自己设置。
得到每个地名的权重后,即可根据每个地名的频率,得出每个地名的总权重。如一个地名的频率为4,那么此地名的总权重即为:此地名的单个权重乘以4。
计算出每个地名的总权重后,选择总权重最大的地名作为当前文章的地理位置字段。
通过上述设计,即可得到每篇文章的地理位置字段。
在本实施例中,为了保证文章的不重复性,还设置有相似度对比步骤,具体如下:
在所述步骤S102中,获取目标数据源中的全部文章后,还需进行文章相似度的对比,具体步骤如下:
S102a.选取内容数据库中的任意一篇文章,作为对比文章,利用simhash算法,将对比文章分别与内容数据库中的剩余文章进行相似度计算,计算完毕后,得到若干相似文章。
S102b.分别计算对比文章和每个相似文章的权重值,保留权重值最大的文章,并将其余的文章从内容数据库中删除。
S102c.选取下一篇文章,重复步骤S102a~S102b,直到将内容数据库中文章选取完毕为止。
首先,选择内容数据库中的任意一篇文章,作为对比文章,与内容数据库中的剩余文章进行相似度对比,在本实施例中,采用的具体算法为:simhash算法。
simhash算法为一种现有算法,具体为是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等),从而通过距离的大小来判断两篇文章的相似度。
通过上述算法,即可得出对比文章与剩余文章其中一个的相似度。同时,将对比文章分别与内容数据库中的剩余文章进行相似度对比,即可得到对比文章与每个剩余文章的相似度。
在本实施例中,若对比文章与任意一篇剩余文章的相似度达到 90%以上,则将此剩余文章作为相似文章。
通过相似度对比后,即可得到若干个相似文章,然后再通过计算每个相似文章的权重和对比文章的权重,得出每个相似文章的权重值和对比文章的权重值,保留权重值最大的文章,并将其余的文章从内容数据库中删除,即可完成相似文章的剔除。
即若对比文章的权重值大于每个相似文章的权重值,那么保留对比文章,若有相似文章中的最大权重值大于对比文章的权重值,那么即保留此最大权重值对应的相似文章,然后将其余文章进行删除。
删除完成后,即可进行步骤S102c,完成整个内容数据库中相似文章的剔除。
在本实施例中,相似文章的权重由文章的发表机构字段决定,越官方的发表机构,其对应的相似文章权重值越大。当然,这个权重也可由用户自己定义。
综上,通过步骤S101和步骤S102即可得到标签标注的两个标准,即数据源信息和字段组,然后即可进行步骤S103,对每篇文章进行标签标注,具体如下:
S103.访问所述内容数据库中的每篇文章,根据所述数据源信息和每篇文章对应的字段组对文章进行标签标注,得到每篇文章对应的标签信息。
步骤S103则是对内容数据库中的每篇文章进行标签标注,得到每篇文章对应的标签信息,进而在用户输入文章筛选请求后,根据标签信息进行初次筛选。
在本实施例中,每篇文章进行标签标注具体如下:
所述步骤S103中对文章进行标签标注的规则为:针对每篇文章,当前文章所属目标数据源对应的数据源信息中的每一个信息以及当前文章所对应字段组中的每一个字段均为当前文章的标签信息。
即可根据当前文章,判断出其所属的目标数据源,即该文章是从哪个目标数据源中获取的,然后得到此目标数据源对应的数据源信息,那么数据源信息中的每一个信息则可作为该文章的标签信息。如该文章从教育局网页上获取的,那么数据源所属机构为该文章的标签信息,且数据源所属机构为教育局。
同理,也可将数据源信息中的其它信息作为标签信息。
同时,字段组中的每一个字段也可以作为文章的标签信息,具体为:首先得到当前文章对应的字段组,然后将字段组中的每一个字段作为当前文章的标签信息。如标题字段为一篇文章的标题,当标题字段作为文章的标签信息时,该标签信息具体为标题信息。
同理,字段组中的其它字段也可作为标签信息。
完成对内容数据库中每篇文章的标签标注后,即可得到每篇文章对应的标签信息。
在本实施例,一篇文章可能对应有多个标签,因为每篇文章对应的数据源信息中的每个信息以及字段组的每个字段均可以作为标签信息,所以,一篇文章的标签信息包括了其对应数据源信息中的信息和字段组中的字段信息。这样设计的好处为:用户可根据标签进行查找,提高查找的便捷性。
标签标注完成后,即可进行数据筛选阶段:
所述数据筛选阶段包括以下步骤:
S201.接收文章筛选请求,其中,所述文章筛选请求包括查找关键词组。
所述步骤S201则是用户输入查找需求的过程,即用户输入查找条件,生产对应的文章筛选请求,而文章筛选请求中则包含了用户的查找条件,即查找关键词组。
在本实施例中,查找关键词组具体为:
所述步骤S201中的查找关键词组包括规定关键词、规定地理位置和规定发布时间段。
在本实施例中,规定关键词则为需要查找文章的关键词,如标题的关键词、内容的关键词等;规定地理位置则是需要查找文章中所报道事件所处的具体省市县;所述规定发布时间段则是需要查找的文章在哪个时间段发布的。
通过查找关键词组中的规定关键词、规定地理位置和规定发布时间段,即可与每篇文章的标签信息进行数据匹配,对内容数据库中的文章进行初次筛选。具体如步骤S202。
S202.将所述查找关键词组与所述标签信息进行数据匹配,匹配完成后,得到目标标签信息以及目标标签信息对应的文章,将目标标签信息对应的文章定义为目标文章。
步骤S202则是对内容数据库中的文章进行初步筛选,具体为:
所述步骤S202中将所述查找关键词组与所述标签信息进行数据匹配具体包括以下步骤:
S202a.将所述规定关键词、所述规定地理位置和所述规定发布时间段分别与所述标签信息进行数据匹配,分别得到含有规定关键词的标签信息、含有规定地理位置的标签信息和含有规定发布时间段的标签信息,其中,所述目标标签信息包括含有规定关键词的标签信息、含有规定地理位置的标签信息和含有规定发布时间段的标签信息。
S202b.根据所述目标标签信息,得到所述目标文章。
在本实施例中,查找关键词组与标签信息进行数据匹配,则是达到初步筛选的过程,其具体过程为:将规定关键词、规定地理位置和规定发布时间段分别与文章的标签信息进行匹配。
若将规定关键词与标签信息进行数据匹配,则是判断标签信息中是否含有规定关键词。如规定关键词为“反腐”,那么就判断标签信息中是否含有“反腐”,将含有“反腐”的标签信息对应的文章提取出来,作为目标文章。
同理,当将规定地理位置与标签信息进行数据匹配时,则是判断标签信息中是否含有规定地址位置。如规定地理位置为“沈阳”,则判断标签信息中是否含有“沈阳”,将含有“沈阳”的标签信息对应的文章提取出来,作为目标文章。
同理,当将规定发布时间段与标签信息进行数据匹配时,则是判断标签信息中是都含有规定发布时间段。若规定发布时间段为“2019 年12月3日至2019年12月15日”,则判断标签信息中是否含有“2019 年12月3日至2019年12月15日”这一时间段内的日期,将含有此时间段内的日期的标签信息对应的文章提取出来,作为目标文章。
通过上述设计,即可将包含查找关键词组的标签信息筛选出来,得到目标文章。
在本实施例,在对规定关键词进行数据匹配时,可在含有标题字段的标签信息中查找。同理,在进行规定地理位置数据匹配时,可在含有地理位置字段的标签信息中查找;在进行规定发布时间段数据匹配时,可在含有发布时间字段的标签信息中查找。即将查找关键词组与文章的所属标签信息进行数据匹配。
前述就已说明一个文章对应有多个标签信息,而只根据标签信息进行筛选,得到的文章数量非常大,检索精度不够,可能含有用户不需要的文章,所以,本实施例中还会对经过标签信息筛选后的目标文件进行二次筛选,具体如步骤S203:
S203.将查找关键词组分别与每篇目标文章的全文进行数据匹配,匹配完成后,将符合预设要求的目标文章作为推送文章。
在本实施例中,所述步骤S203中的预设要求具体为:
判断每篇目标文章中是否包含所述规定关键词和所述规定地理位置,判断每篇文章的发布时间是否在所述规定发布时间段内。
即步骤S203为对目标文章进行筛选,提高筛选精度,保证筛选出的文章能够符合用户需求。
在通过步骤S202得到目标文章后,即可对每一个目标文章的全文与查找关键词组进行数据匹配,即判断每篇目标文章中是否包含所述规定关键词和所述规定地理位置,判断每篇文章的发布时间是否在所述规定发布时间段内内。
只有同一篇文章满足上述3个条件后,才能作为推送文章,发送给文章筛选请求发送端。通过上述设计,可大大的提高文章的筛选精度。
在本实施例中,判断每篇目标文章中是否包含规定地理位置,具体为规定地理位置是否与该篇文章的地理位置字段相同。
同理,判断每篇目标文章中是否包含所述规定关键词,即是判断规定关键词是否与标题字段相同。
通过步骤S202和步骤S203即可得出最终的推送文章。
在本实施例,为了进一步的提高筛选文章的准确性,在进行推送前还需进行以下步骤:
在所述步骤S301前,还需对得到的推送文章进行准确性校验。
即对步骤S203得到的推送文章进行准确性校验,判断筛选出的推送文章是否符合查找筛选请求,将不符合的进行剔除。
在本实施例中,举例采用人工对推送文章进行校验。
校验完成后,即可进行步骤S301,完成此次筛选。
所述数据推送阶段包括以下步骤:
S301.将所述推送文章发送至文章筛选请求发送端,完成文章的筛选推送。
综上,采用本发明所提供的数据智能爬取方法,具有如下技术效果:
(1)本发明提供了一种数据智能爬取方法,本发明使得文章数据的筛选非常的快速便捷,不需要用户一一登录各种在线平台,阅读每篇文章,才能达到文章统计收集的功能,不仅大大的提高了文章收集的效率,还减少了工作人员的工作量。
(2)本发明在确定目标数据源时,会得到相应的数据源信息,同时还会提取每个目标数据源中的文章的多个字段,组成字段组,而标签标注则是根据数据源信息和字段组实现的,即当前文章所属目标数据源对应的数据源信息中的每一个信息以及当前文章所对应字段组中的每一个字段均为当前文章的标签信息,而数据源信息包括数据源名称、数据源来源地理位置、数据源所属机构等,字段组包括标题字段、正文字段、发布时间字段、作者字段、发布机构字段和地理位置字段。
通过上述设计,使得每篇文章具有多个标签,在进行文章筛选时,用户可根据标签进行筛选,即在文章筛选请求中输入作者、标题等关键词,进而可通过关键词与标签信息的匹配,实现文章快速且准确的筛选,不仅提高了用户筛选的便捷性,也提高了筛选的效率。
(3)本发明还会对获取的文章进行相似度对比,得到若干相似文章,然后计算若干相似文章的权重值和对比文章的权重值,通过权重值进行相似文章与对比文章的保留与删除,即在对比文章和若干相似文章中,只保留权重值最大的,而删除其余的。通过上述设计,可减少内容数据库中的相似文章,避免在筛选时出现相似文章,提高文章筛选的精确性。
本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是落入本发明权利要求界定范围内的技术方案,均落在本发明的保护范围之内。

Claims (9)

1.一种数据智能爬取方法,其特征在于,包括数据整合阶段、数据筛选阶段和数据推送阶段;
所述数据整合阶段包括以下步骤:
S101.确定多个目标数据源,并得到每个目标数据源对应的数据源信息,然后将所述目标数据源存储至数据源数据库;
S102.访问所述数据源数据库中的所有目标数据源,获取目标数据源中的全部文章,并提取每篇文章中的多个字段,得到字段组,然后将文章存储至内容数据库;
S103.访问所述内容数据库中的每篇文章,根据所述数据源信息和每篇文章对应的字段组对文章进行标签标注,得到每篇文章对应的标签信息;
所述数据筛选阶段包括以下步骤:
S201.接收文章筛选请求,其中,所述文章筛选请求包括查找关键词组;
S202.将所述查找关键词组与所述标签信息进行数据匹配,匹配完成后,得到目标标签信息以及目标标签信息对应的文章,将目标标签信息对应的文章定义为目标文章;
S203.将查找关键词组分别与每篇目标文章的全文进行数据匹配,匹配完成后,将符合预设要求的目标文章作为推送文章;
所述数据推送阶段包括以下步骤:
S301.将所述推送文章发送至文章筛选请求发送端,完成文章的筛选推送;
在所述步骤S102中,获取目标数据源中的全部文章后,还需进行文章相似度的对比,具体步骤如下:
S102a.选取内容数据库中的任意一篇文章,作为对比文章,利用simhash算法,将对比文章分别与内容数据库中的剩余文章进行相似度计算,计算完毕后,得到若干相似文章;
S102b.分别计算对比文章和每个相似文章的权重值,保留权重值最大的文章,并将其余的文章从内容数据库中删除;
S102c.选取下一篇文章,重复步骤S102a~S102b,直到将内容数据库中文章选取完毕为止。
2.根据权利要求1所述的一种数据智能爬取方法,其特征在于:所述数据源信息包括数据源名称、数据源地址、数据源来源地理位置、数据源所属机构、数据源所属种类和数据源类型。
3.根据权利要求2所述的一种数据智能爬取方法,其特征在于,所述步骤S102中的字段组包括:当前文章的标题字段、正文字段、发布时间字段、作者字段、发布机构字段和地理位置字段。
4.根据权利要求3所述的一种数据智能爬取方法,其特征在于,在提取所述地理位置字段时,具体包括以下步骤:
S102a.提取文章全文出现的地名,并统计每个地名出现的频率;
S103b.计算每个地名对应的权重,根据每个地名出现的频率,计算得到每个地名的总权重;
S103c.选择总权重最大的地名作为所述地理位置字段。
5.根据权利要求3所述的一种数据智能爬取方法,其特征在于,所述步骤S103中对文章进行标签标注的规则为:针对每篇文章,当前文章所属目标数据源对应的数据源信息中的每一个信息以及当前文章所对应字段组中的每一个字段均为当前文章的标签信息。
6.根据权利要求1所述的一种数据智能爬取方法,其特征在于:所述步骤S201中的查找关键词组包括规定关键词、规定地理位置和规定发布时间段。
7.根据权利要求6所述的一种数据智能爬取方法,其特征在于,所述步骤S202中将所述查找关键词组与所述标签信息进行数据匹配具体包括以下步骤:
S202a.将所述规定关键词、所述规定地理位置和所述规定发布时间段分别与所述标签信息进行数据匹配,分别得到含有规定关键词的标签信息、含有规定地理位置的标签信息和含有规定发布时间段的标签信息,其中,所述目标标签信息包括含有规定关键词的标签信息、含有规定地理位置的标签信息和含有规定发布时间段的标签信息;
S202b.根据所述目标标签信息,得到所述目标文章。
8.根据权利要求6所述的一种数据智能爬取方法,其特征在于,所述步骤S203中的预设要求具体为:
判断每篇目标文章中是否包含所述规定关键词和所述规定地理位置,判断每篇文章的发布时间是否在所述规定发布时间段内。
9.根据权利要求1所述的一种数据智能爬取方法,其特征在于:在所述步骤S301前,还需对得到的推送文章进行准确性校验。
CN202010028320.3A 2020-01-10 2020-01-10 一种数据智能爬取方法 Active CN111222028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010028320.3A CN111222028B (zh) 2020-01-10 2020-01-10 一种数据智能爬取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010028320.3A CN111222028B (zh) 2020-01-10 2020-01-10 一种数据智能爬取方法

Publications (2)

Publication Number Publication Date
CN111222028A CN111222028A (zh) 2020-06-02
CN111222028B true CN111222028B (zh) 2023-05-12

Family

ID=70828329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010028320.3A Active CN111222028B (zh) 2020-01-10 2020-01-10 一种数据智能爬取方法

Country Status (1)

Country Link
CN (1) CN111222028B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199571A (zh) * 2020-10-29 2021-01-08 广州市西美信息科技有限公司 一种人工智能信息处理系统、方法及可读存储介质
CN112800083B (zh) * 2021-02-24 2022-03-18 山东省住房和城乡建设发展研究院 一种面向政府决策的政务大数据分析方法及设备
CN113055481B (zh) * 2021-03-17 2022-04-19 杭州遥望网络科技有限公司 一种消息推送方法、装置、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404699A (zh) * 2015-12-29 2016-03-16 广州神马移动信息科技有限公司 一种搜索财经文章的方法、装置及服务器
CN106776808A (zh) * 2016-11-23 2017-05-31 百度在线网络技术(北京)有限公司 基于人工智能的资讯数据提供方法及装置
CN109190095A (zh) * 2018-04-13 2019-01-11 北京爱群游网络信息技术有限公司 一种文章的生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4052883B2 (ja) * 2002-06-24 2008-02-27 沖電気工業株式会社 情報処理システムおよび方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404699A (zh) * 2015-12-29 2016-03-16 广州神马移动信息科技有限公司 一种搜索财经文章的方法、装置及服务器
CN106776808A (zh) * 2016-11-23 2017-05-31 百度在线网络技术(北京)有限公司 基于人工智能的资讯数据提供方法及装置
CN109190095A (zh) * 2018-04-13 2019-01-11 北京爱群游网络信息技术有限公司 一种文章的生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A scalable Web GPS monitoring system based on AJAX push pattern;Lei Shen,Chongjun Yang,Fuqing Zhang,Yingchao Ren,Lei Wu,Lin Zhu;《2009 17th International Conference on Geoinformatics》;20091023;全文 *
针对特定领域的网络检索系统的设计与实现;代鑫;《中国优秀硕士学位论文全文数据库》;20101015;全文 *

Also Published As

Publication number Publication date
CN111222028A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN109754233B (zh) 一种智能推荐职位信息的方法和系统
CN110334178B (zh) 数据检索方法、装置、设备及可读存储介质
CN111222028B (zh) 一种数据智能爬取方法
CN103699625B (zh) 基于关键词进行检索的方法及装置
KR101173561B1 (ko) 질문 형태 및 도메인 인식 장치 및 그 방법
CN106776567B (zh) 一种互联网大数据分析提取方法及系统
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN111144723A (zh) 人岗匹配推荐方法及系统、存储介质
CN111125343A (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
WO2021019831A1 (ja) 管理システム及び管理方法
CN111105209A (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN111078839A (zh) 一种用于裁判文书的结构化处理方法及处理装置
CN104133913B (zh) 一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法
US10504145B2 (en) Automated classification of network-accessible content based on events
CN115879901B (zh) 一种智能人事自助服务平台
CN109918420B (zh) 一种竞争对手推荐方法、服务器
CN114528448B (zh) 一种全球外贸客户客户画像精准分析系统
CN113468206B (zh) 数据维护方法、装置、服务器、介质及产品
CN113254623B (zh) 数据处理方法、装置、服务器、介质及产品
CN111680122B (zh) 空间数据主动推荐方法、装置、存储介质及计算机设备
CN113807088A (zh) 职位匹配系统
CN112989811A (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
Vysotska et al. Set-theoretic models and unified methods of information resources processing in e-business systems
CN113536133B (zh) 基于单一舆情事件的互联网数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant