CN109325161A - 舆情数据抓取方法、装置、设备及存储介质 - Google Patents

舆情数据抓取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109325161A
CN109325161A CN201811058168.2A CN201811058168A CN109325161A CN 109325161 A CN109325161 A CN 109325161A CN 201811058168 A CN201811058168 A CN 201811058168A CN 109325161 A CN109325161 A CN 109325161A
Authority
CN
China
Prior art keywords
data
page
public sentiment
url
grabber
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811058168.2A
Other languages
English (en)
Inventor
张文选
苏加卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuba Co Ltd
Original Assignee
Wuba Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuba Co Ltd filed Critical Wuba Co Ltd
Priority to CN201811058168.2A priority Critical patent/CN109325161A/zh
Publication of CN109325161A publication Critical patent/CN109325161A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种舆情数据抓取方法、装置、设备及存储介质,所述方法包括:获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。本发明所述方案,可以基于用户调用配置参数设置接口自助配置的配置参数,完成舆情数据的抓取,进而实现舆情监控,提高了监控效率。

Description

舆情数据抓取方法、装置、设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种舆情数据抓取方法、装置、设备及存储介质。
背景技术
舆情监控是整合互联网信息采集技术及信息智能处理技术通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。
现有的舆情数据获取方式一般都是使用Python脚本等方式进行舆情数据抓取。然而,这种方式至少存在如下问题:
由于大多数舆情系统是技术人员自主导的,定制化比较强,非专业技术人员使用难度较大。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种解决上述问题的舆情数据抓取方法、装置、设备及存储介质。
依据本发明实施例的一个方面,提供一种舆情数据抓取方法,包括:
获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。
可选地,所述抓取舆情数据后,还包括:
检测相同的舆情数据是否达到设定阈值,并在检测结果为是时,形成预警事件,并发出预警提示。
可选地,所述根据所述数据抓取入口地址和过滤的关键词,获取页面数据,包括:
将所述数据抓取入口地址和过滤的关键词拼接为统一定位资源符URL;
根据所述URL,获取对应的页面数据。
可选地,所述根据所述URL,获取对应的页面数据,包括:
采用无头浏览器访问所述URL,获取对应的页面数据;
或者,采用超文本标记语言文件HTML解析器,解析所述URL,获取对应的页面数据。
可选地,所述数据抓取规则信息包括:在页面数据中需要抓取的列表页的页数、在列表页中提取的详情页URL的提取规则、采集的字段名及所述字段名对应的标签、以及标签内容的解析方式。
可选地,所述基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据,包括:
按照需要抓取的列表页的页数,在所述页面数据中抓取列表页;
根据所述提取规则,在抓取的列表页中提取出详情页的URL;
根据提取的详情页的URL,抓取详情数据;
根据采集的字段名、所述字段名对应的标签以及标签内容的解析方式,在所述详情数据中抓取舆情数据。
可选地,所述抓取舆情数据后,还包括:将抓取的舆情数据通过预先训练的分类模型进行分类,并存储分类结果。
依据本发明实施例的另一个方面,提供一种舆情数据抓取装置,包括:
配置获取模块,用于获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
第一数据获取模块,用于在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
第二数据获取模块,用于基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。
可选地,本实施例所述装置,还包括:
预警模块,用于检测相同的舆情数据是否达到设定阈值,并在检测结果为是时,形成预警事件,并发出预警提示。
可选地,所述第一数据获取模块,具体用于将所述数据抓取入口地址和过滤的关键词拼接为URL,根据所述URL,获取对应的页面数据。
可选地,所述第一数据获取模块,具体用于采用无头浏览器访问所述URL,获取对应的页面数据;或者,采用超文本标记语言文件HTML解析器,解析所述URL,获取对应的页面数据。
可选地,所述数据抓取规则信息包括:在页面数据中需要抓取的列表页的页数、在列表页中提取的详情页URL的提取规则、采集的字段名及所述字段名对应的标签、以及标签内容的解析方式。
可选地,所述第二数据获取模块,具体用于按照需要抓取的列表页的页数,在所述页面数据中抓取列表页;根据所述提取规则,在抓取的列表页中提取出详情页的URL;根据提取的详情页的URL,抓取详情数据;根据采集的字段名、所述字段名对应的标签以及标签内容的解析方式,在所述详情数据中抓取舆情数据。
可选地,本实施例所述装置,还包括:
分类模块,用于将抓取的舆情数据通过预先训练的分类模型进行分类,并存储分类结果。
依据本发明的第三个方面,提供一种计算设备,所述计算设备包括:存储器、处理器及通信总线;所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的舆情数据抓取程序,以实现如下方法步骤:
获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。
依据本发明的第四个方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现如下方法步骤:
获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。
本发明实施例有益效果如下:
本发明实施例所述方案,用户可以通过配置参数设置接口灵活的设置数据抓取的配置参数,当启动抓取任务时,直接根据设置的配置参数,进行数据抓取。即,本发明实施例基于用户自助配置即可完成舆情监控功能,无需技术人员参与。对于用户而言,整个过程中,只需根据需求在选择和/或设置配置参数即可实现舆情数据的抓取,相比于现有技术中配置过程需要开发软件的介入,定制化配置参数的方案,本发明提供的舆情数据抓取方案,抓取数据任务可以通过简单的配置即可实现,开发更加便捷。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明第一实施例提供的一种舆情数据抓取方法的流程图;
图2为本发明第二实施例提供的一种舆情数据抓取方法的流程图;
图3为本发明第三实施例提供的一种舆情数据抓取方法的流程图;
图4为本发明第四实施例提供的一种舆情数据抓取方法的流程图;
图5为本发明第六实施例提供的一种舆情数据抓取装置的结构框图;
图6为本发明第六实施例提供的一种舆情数据抓取装置的又一结构框图;
图7为本发明第六实施例提供的一种自舆情数据抓取装置的再一结构框图;
图8为本发明第七实施例提供的一种计算设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本发明第一实施例中,提供一种舆情数据抓取方法,本发明实施例中,用户可自助配置抓取任务的配置参数,完成舆情监控功能,无需技术人员参与。
如图1所示,本发明实施例所述方法包括如下步骤:
步骤S101,获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
在本发明的一个具体实施例中,所述配置参数设置接口为配置平台面向用户的接口。其中,配置平台的实现方案目前有很多种实现方案,本发明实施例的侧重点不在于如何实现配置平台,而是将配置平台的概念引入舆情监控中,实现用户自助的配置数据抓取的配置参数。
本发明实施例中,所述配置平台,一方面为用户提供配置参数选择和/或设置接口,另一方面在用户触发选择操作后,调取预存在数据库中与选择项对应的各参数,供用户选择;以及在用户触发了设置操作后,为用户提供参数输入界面。本发明实施例中,在用户选择和/或设置配置参数后,该配置参数被保存到Mysql数据库,供后续数据抓取任务的调用。
本发明实施例中,不同的人员可以登录配置平台进行配置参数的设置。各使用人员进行权限隔离,也就是说,每个使用人员配置的配置参数是相互隔离的,互相不能浏览。以上配置过程无需技术人员支持,使用人员经过简单的培训即可。
步骤S102,在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
本发明实施例中,使用人员还可以定义配置数据抓取的时间间隔。即,根据该时间间隔启动数据抓取任务进行数据抓取操作。
本发明实施例中,数据抓取入口地址是数据采集的URL。
本发明实施例中,根据所述数据抓取入口地址和过滤的关键词,获取页面数据,具体包括:
将所述数据抓取入口地址和过滤的关键词拼接为URL;例如,数据抓取入口地址为www.xxx.com.cn,过滤的关键词为“舆情分析”,则拼接的URL为:www.xxx.com.cn/舆情分 析/
根据拼接的URL,获取对应的页面数据。
在本发明的一个具体实施例中,采用了混合获取数据方式,具体的,本实施例中,为了实现对不同结构的网站数据抓取,采用两种获取数据方式。具体的,对于异步加载数据,由于存在接口之间交互复杂,接口加密等问题,采用无头浏览器进行页面数据获取,无需处理页面接口之间的交互问题。而对于简单的页面,可以通过Jsoup方式直接获取页面数据。简单的讲,本实施例中,采用两种获取数据方式,分别为:方式1,采用无头浏览器访问所述URL,获取对应的页面数据;方式2,采用超文本标记语言文件HTML解析器(如Jsoup),解析所述URL,获取对应的页面数据。
当然上述获取数据方式只是列举并非穷举,本领域技术人员可以根据需求灵活的设定获取页面数据的方式。
在本发明的一个可选实施例中,配置平台中也可以为用户提供获取数据方式的设置入口。
步骤S103,基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。
本发明实施例中,所述的页面数据至少包括列表页(列表页是显示多个内容分类的页面),按照所述数据抓取规则信息,在列表页中获取详情页数据,并在详情页数据中抓取舆情数据。
本发明实施例所述方案,用户可以灵活的设
置数据抓取的配置参数,当启动抓取任务时,直接根据设置的配置参数,进行数据抓取。也就是说,使用人员按照说明进行简单的配置,就可以完成舆情的监控。配置方式简单。即,本发明实施例基于用户自助配置即可完成舆情监控功能,无需技术人员参与,是一种完全的自助化舆情平台实现方案。
并且本实施例所述方案,兼容了多种获取数据的方式,增加了数据获取范围,从而提高了数据抓取效率。
在本发明第二实施例中,提供一种舆情数据抓取方法,相比于第一实施例,本实施例将着重阐述抓取舆情数据的具体实现过程,与第一实施例相同的部分可以参见第一实施例,本实施例不再赘述。
如图2所示,本实施例所述的舆情数据抓取方法包括如下步骤:
步骤S201,获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
本发明实施例中,所述数据抓取规则信息包括:在页面数据中需要抓取的列表页的页数、在列表页中提取的详情页URL的提取规则、采集的字段名及所述字段名对应的标签、以及标签内容的解析方式。
当然本实施例并不唯一限定抓取规则信息的组成,本领域技术人员可以根据需求在上述信息的基础上进行增加或删减。
本实施例中,采集的字段名为在详情页中采集的字段名;字段名对应的标签具体为字段名在详情页中对应的标签。
本发明实施例中,标签内容的解析方式包括但不限于:Xpath和正则表达式。本实施例中,当通过设定的标签内容解析方式解析不了数据时,可以使用通用的文本解析服务进行解析。具体的,需要提取的新闻文章标题,内容,发布时间等信息是可以通过配置的Xpath路径在抓取到的网页内容中提取出来的。但是在某些情况下网页内容比较复杂,比如文章内容中存在大量的HTML标签,不能使用Xpath解析时,可以使用以下两种方式解析:
1、按照网页结构和经常使用的前端开发方式处理。比如要抓取的标题,会在网页内容中出现<title>标题</title>。而要抓取的文章内容实际在网页内容中会存在大量的HTML标签,需要把网页内容中的body标签下的的HTML标签过滤掉,即为要抓取的新闻文章内容。这种文本解析方式即为通用的文本解析服务。但是这种通用的文本解析并不是很准确的,可能会把要抓取的网页内容里的和新闻无关的文字也一并解析出来。
2、在抓取到网页内容后,文本解析服务对网页内容重新渲染,并将网页内容保存为图片,利用机器学习的方式提取图片上的文字部分,例如文件标题的字体大于网页其他文字的特征,即可提取标题。而文章内容会出现大段的连续性的文字的等特征提取。这样可以过滤掉广告和HTML标签。
步骤S202,在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
步骤S203,按照需要抓取的列表页的页数,在所述页面数据中抓取列表页;
步骤S204,根据详情页URL的提取规则,在抓取的列表页中提取出详情页的URL;
步骤S205,根据提取的详情页的URL,抓取详情数据;
步骤S206,根据采集的字段名、所述字段名对应的标签以及标签内容的解析方式,在所述详情数据中抓取舆情数据。
具体的,本实施例中,根据设置的字段名在详情页数据中确定要采集的字段,根据设置的字段名对应的标签,在详情页数据HTML结构标签中确定字段名对应的标签。并根据设置的标签内容的解析方式,对字段名对应的标签内容进行解析。
本发明实施例所述方案,用户可以灵活的设置数据抓取的配置参数,当启动抓取任务时,直接根据设置的配置参数,进行数据抓取。可见,本发明实施例基于用户自助配置即可完成舆情监控功能,无需技术人员参与,是一种完全的自助化舆情平台实现方案。
另外,本实施例所述方案配置了多种标签解析方式,抓取网站种类更加丰富,避免了现有技术中只能抓取简单的新闻类网站,限制了抓取的范围,造成了舆情数据的类型单一的问题。
在本发明第三实施例中,提供一种舆情数据抓取方法,相比于第一、二实施例,本实施例将着重阐述抓取舆情数据后的预警过程。与第一、二实施例相同的部分可以参见第一、二实施例,本实施例不再赘述。
如图3所示,本实施例所述的舆情数据抓取方法包括如下步骤:
步骤S301,获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
步骤S302,在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
步骤S303,基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。
步骤S304,检测相同的舆情数据是否达到设定阈值,并在检测结果为是时,形成预警事件,并发出预警提示。
本发明实施例中,可以设置文本处理模块,在抓取到舆情数据后,可以将舆情数据推送到文本处理模块,该文本处理模块对舆情数据进行处理,其中,一种处理方式为:检测相同舆情数据是否达到设定的阈值,当达到设定的阈值时就形成一个事件,并对相关人员提示预警,以提醒相关人员进行处理。
本发明实施例所述方法,用户可以灵活的设置数据抓取的配置参数,当启动抓取任务时,直接根据设置的配置参数,进行数据抓取。可见,本发明实施例基于用户自助配置即可完成舆情监控功能,无需技术人员参与,是一种完全的自助化舆情平台实现方案。
同时,本实施例所述方法,还对舆情数据进行分析,并针对分析结果产生预警事件,便于相关人员对舆情数据进行处理,提高了监控效率。
在本发明第四实施例中,提供一种舆情数据抓取方法,相比于第一、二实施例,本实施例将着重阐述抓取舆情数据后的分类处理过程。与第一、二实施例相同的部分可以参见第一、二实施例,本实施例不再赘述。
如图4所示,本实施例所述的舆情数据抓取方法包括如下步骤:
步骤S401,获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
步骤S402,在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
步骤S403,基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。
步骤S404,将抓取的舆情数据通过预先训练的分类模型进行分类,并存储分类结果。
本发明实施例中,可以设置文本处理模块,在抓取到舆情数据后,可以将舆情数据推送到文本处理模块,该文本处理模块对舆情数据进行处理,其中,一种处理方式为:通过人工智能机器学习算法,将舆情分类,根据分类结果给出正负面影响的分析结果,以便相关人员筛选。
具体的,本实施例中,人工智能机器学习算法包括但不限于深度学习神经网络算法。即,本实施例基于该算法,利用样本数据对分类器进行训练,并将抓取到的舆情数据输入到训练好的分类器中,由分类器其自动输出分类结果。
本发明实施例所述方法,用户可以灵活的设置数据抓取的配置参数,当启动抓取任务时,直接根据设置的配置参数,进行数据抓取。可见,本发明实施例基于用户自助配置即可完成舆情监控功能,无需技术人员参与,是一种完全的自助化舆情平台实现方案。
同时,本实施例所述方法,还对舆情数据进行分类处理,便于相关人员筛选舆情数据,提高了监控效率。
在本发明第五实施例中,提供一种舆情数据抓取方法,用以更全面、详细的阐述本发明的实施过程。本实施例所述方法,基于用户自助配置即可完成舆情监控功能,无需技术人员参与,是一种完全的自助化平台实现方案。具体的,本实施例所述方法实现过程如下:
1,本实施例所述方法,为用户提供配置平台,用户通过该配置平台输入配置项,系统采集用户输入的配置项并将其存入Mysql数据库,供后续调用。
本实施例中,需要用户配置的项有:采集的URL(即数据抓取入口地址)、过滤的关键词、要抓取的列表页的页数、在列表页内容中提取的详情页URL的规则、需要采集的字段名以及其在页面数据中对应的标签、以及标签内容的解析方式。本实施例中,对应标签内容的解析采用两种方式:xpath以及正则表达式。如果配置方式的解析不了数据,可使用通用的文本解析服务。
2,数据抓取任务会在设定的时间节点运行,当数据抓取任务运行后,读取Mysql数据库里配置信息。
具体的,数据抓取任务根据配置信息中的监控的关键词和对应的页面入口地址,通过指定的规则拼接出完整URL,基于该URL进行数据获取。
为了实现对不同结构的网站数据抓取,本发明实施例采用了混合获取数据方式。具体的,采用两种方式。对于异步加载数据,由于存在接口之间交互复杂,接口加密等问题,可以配置采用无头浏览器进行数据抓取,无需处理页面接口之间的交互问题。对于简单的页面,通过Jsoup方式直接获取页面内容数据。
在具体实现时,数据抓取任务先通过无头浏览器获取拼接处的URL链接,如失败则采用Jsoup方式再获取一次,将获取到的页面内容数据进行解析,提取出详情页URL,存入相对应的URL消息队列。
本发明实施例中,还可以集成代理IP池,当有访问URL的需求时,先将访问URL请求发送到代理IP池,由代理IP池选定代理IP访问URL,获取URL对应的内容。
3,每个部署实例上都有线程池线程监控着自己所对应的URL消息队列,如果队列中有数据,则根据URL抓取详情数据。每个抓取任务通过配置来判断使用的解析方式,获取数据HTML结构,然后再通过Xpath或正则表达式进行数据抽取,也可以使用通用的文本解析服务获取数据,例如获取新闻类数据。
4,本发明实施例中,抓取完成的URL及对应的内容被推送到文本相似度检测模块。当后续再进行URL数据抓取时,先通过文本相似度检测模块进行去重处理,防止下次对URL重复抓取或者抓取相同内容的页面。
5,将舆情数据推送到文本处理模块,以对抓取到的相关舆情进行处理,具体处理包括:
(1)当有相同的舆情数据达到一次的值时,就形成了一个事件,对相关人员提示预警,进行处理。
(2)文本处理模块通过人工智能机器学习算法,将舆情分类,给出正负面影响的分析结果,以便相关人员筛选。
可见,本发明实施例所述方案,统一集成了代理IP池,Jsoup工具,无头浏览器等抓取策略。也集成了动态任务分配,文本相似度检测,相同URL过滤等基础工具,以防止重复抓取。
需要说明的是,本发明实施例所述的方案,可以在分布式架构上实施,即通过分布式架构下的多台服务器来执行。具体实现时,要根据各服务器的资源负载情况,进行动态的任务分配,以最大效率的进行舆情数据的抓取。并且,分布式架构更容易扩展,抓取数据量增长可直接通过增加及其来解决,避免了采集延迟。
在本发明第六实施例中,提供一种舆情数据抓取装置,如图5所示,包括:
配置获取模块510,用于获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
第一数据获取模块520,用于在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
第二数据获取模块530,用于基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。
本发明实施例中,第一数据获取模块520,具体用于将所述数据抓取入口地址和过滤的关键词拼接为URL,根据所述URL,获取对应的页面数据。
在本发明的一个可选实施例中,第一数据获取模块520根据所述URL,获取对应的页面数据,具体包括:采用无头浏览器访问所述URL,获取对应的页面数据;或者,采用超文本标记语言文件HTML解析器,解析所述URL,获取对应的页面数据。
在本发明的一个可选实施例中,所述数据抓取规则信息包括:在页面数据中需要抓取的列表页的页数、在列表页中提取的详情页URL的提取规则、采集的字段名及所述字段名对应的标签、以及标签内容的解析方式。
基于上述数据抓取规则,本实施例中,第二数据获取模块530,具体用于按照需要抓取的列表页的页数,在所述页面数据中抓取列表页;根据所述提取规则,在抓取的列表页中提取出详情页的URL;根据提取的详情页的URL,抓取详情数据;根据采集的字段名、所述字段名对应的标签以及标签内容的解析方式,在所述详情数据中抓取舆情数据。
在本发明的一个可选实施例中,本实施例所述装置如图6所示,还包括:
预警模块540,用于检测相同的舆情数据是否达到设定阈值,并在检测结果为是时,形成预警事件,并发出预警提示。
在本发明的一个可选实施例中,本实施例所述装置如图7所示,还包括:
分类模块550,用于将抓取的舆情数据通过预先训练的分类模型进行分类,并存储分类结果。
需要说明的是,本实施例是与第一至第四方法实施例对应的装置实施例,本实施例中各模块功能的实施细节可以参见第一至第四实施例,本实施例不再重复阐述。
总之,本发明实施例所述方案,用户可以灵活的设置数据抓取的配置参数,当启动抓取任务时,直接根据设置的配置参数,进行数据抓取。也就是说,使用人员按照说明进行简单的配置,就可以完成舆情的监控。配置方式简单。即,本发明实施例基于用户自助配置即可完成舆情监控功能,无需技术人员参与,是一种完全的自助化舆情平台实现方案。并且本实施例所述方案,兼容了多种获取数据的方式,增加了数据获取范围,从而提高了数据抓取效率。
在本发明第七实施例中,提供一种计算设备,如图8所示,所述计算设备包括:存储器610、处理器620及通信总线630;所述通信总线630用于实现处理器620和存储器610之间的连接通信;
具体的,本发明实施例中,处理器620可以是通用处理器,例如中央处理器(Central Processing Unit,CPU),还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(英文:Application Specific Integrated Circuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。其中,存储器610用于存储所述处理器620的可执行指令;
存储器610,用于存储程序代码,并将该程序代码传输给处理器620。存储器610可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器610也可以包括非易失性存储器(Non-Volatile Memory),例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);存储器610还可以包括上述种类的存储器的组合。
具体的,本发明实施例中,处理器620用于执行存储器610中存储的舆情数据抓取程序,以实现如下方法步骤:
步骤1,获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
步骤2,在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
步骤3,基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。
本实施例中各步骤的实施过程可参见第一至第四实施例,本实施例不再赘述。
在本发明第七实施例中,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现如下方法步骤:
步骤1,获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
步骤2,在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
步骤3,基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。
本实施例中各步骤的实施过程可参见第一至第四实施例,本实施例不再赘述。
其中,计算机存储介质可以是RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域已知的任何其他形式的存储介质。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
总之,以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种舆情数据抓取方法,其特征在于,包括:
获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。
2.如权利要求1所述的方法,其特征在于,所述抓取舆情数据后,还包括:
检测相同的舆情数据是否达到设定阈值,并在检测结果为是时,形成预警事件,并发出预警提示。
3.如权利要求1所述的方法,其特征在于,所述根据所述数据抓取入口地址和过滤的关键词,获取页面数据,包括:
将所述数据抓取入口地址和过滤的关键词拼接为统一定位资源符URL;
根据所述URL,获取对应的页面数据。
4.如权利要求3所述的方法,其特征在于,所述根据所述URL,获取对应的页面数据,包括:
采用无头浏览器访问所述URL,获取对应的页面数据;
或者,采用超文本标记语言文件HTML解析器,解析所述URL,获取对应的页面数据。
5.如权利要求1至4中任一项所述的方法,其特征在于,所述数据抓取规则信息包括:在页面数据中需要抓取的列表页的页数、在列表页中提取的详情页URL的提取规则、采集的字段名及所述字段名对应的标签、以及标签内容的解析方式。
6.如权利要求5所述的方法,其特征在于,所述基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据,包括:
按照需要抓取的列表页的页数,在所述页面数据中抓取列表页;
根据所述提取规则,在抓取的列表页中提取出详情页的URL;
根据提取的详情页的URL,抓取详情数据;
根据采集的字段名、所述字段名对应的标签以及标签内容的解析方式,在所述详情数据中抓取舆情数据。
7.如权利要求1所述的方法,其特征在于,所述抓取舆情数据后,还包括:将抓取的舆情数据通过预先训练的分类模型进行分类,并存储分类结果。
8.一种舆情数据抓取装置,其特征在于,包括:
配置获取模块,用于获取用户通过配置参数设置接口设置的数据抓取任务的配置参数;所述配置参数包括:数据抓取入口地址、过滤的关键词、以及数据抓取规则信息;
第一数据获取模块,用于在启动数据抓取任务后,根据所述数据抓取入口地址和过滤的关键词,获取页面数据;
第二数据获取模块,用于基于所述页面数据,按照所述数据抓取规则信息,抓取舆情数据。
9.如权利要求8所述的装置,其特征在于,还包括:
预警模块,用于检测相同的舆情数据是否达到设定阈值,并在检测结果为是时,形成预警事件,并发出预警提示。
10.如权利要求8所述的装置,其特征在于,所述第一数据获取模块,具体用于将所述数据抓取入口地址和过滤的关键词拼接为URL,根据所述URL,获取对应的页面数据。
11.如权利要求10所述的装置,其特征在于,所述第一数据获取模块,具体用于采用无头浏览器访问所述URL,获取对应的页面数据;或者,采用超文本标记语言文件HTML解析器,解析所述URL,获取对应的页面数据。
12.如权利要求8至11中任意一项所述的装置,其特征在于,所述数据抓取规则信息包括:在页面数据中需要抓取的列表页的页数、在列表页中提取的详情页URL的提取规则、采集的字段名及所述字段名对应的标签、以及标签内容的解析方式。
13.如权利要求12所述的装置,其特征在于,所述第二数据获取模块,具体用于按照需要抓取的列表页的页数,在所述页面数据中抓取列表页;根据所述提取规则,在抓取的列表页中提取出详情页的URL;根据提取的详情页的URL,抓取详情数据;根据采集的字段名、所述字段名对应的标签以及标签内容的解析方式,在所述详情数据中抓取舆情数据。
14.如权利要求8所述的装置,其特征在于,还包括:
分类模块,用于将抓取的舆情数据通过预先训练的分类模型进行分类,并存储分类结果。
15.一种计算设备,其特征在于,所述计算设备包括:存储器、处理器及通信总线;所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的舆情数据抓取程序,以实现如权利要求1至7中任一项所述的舆情数据抓取方法的步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现如权利要求1至7中任一项所述的舆情数据抓取方法的步骤。
CN201811058168.2A 2018-09-11 2018-09-11 舆情数据抓取方法、装置、设备及存储介质 Pending CN109325161A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811058168.2A CN109325161A (zh) 2018-09-11 2018-09-11 舆情数据抓取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811058168.2A CN109325161A (zh) 2018-09-11 2018-09-11 舆情数据抓取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN109325161A true CN109325161A (zh) 2019-02-12

Family

ID=65265026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811058168.2A Pending CN109325161A (zh) 2018-09-11 2018-09-11 舆情数据抓取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109325161A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020062A (zh) * 2019-04-12 2019-07-16 北京邮电大学 一种可定制的网络爬虫方法及系统
CN110489657A (zh) * 2019-07-05 2019-11-22 五八有限公司 一种信息过滤方法、装置、终端设备及存储介质
CN110704713A (zh) * 2019-09-26 2020-01-17 国家计算机网络与信息安全管理中心 一种基于多数据源的论文数据爬取方法及系统
CN110909228A (zh) * 2019-11-21 2020-03-24 上海建工集团股份有限公司 一种基于网络爬虫机制的数据抽取方法
CN111046264A (zh) * 2019-11-29 2020-04-21 江西省天轴通讯有限公司 舆情线索处理方法、系统、可读存储介质及计算机设备
CN112100535A (zh) * 2020-09-16 2020-12-18 南京智数云信息科技有限公司 一种基于dfa算法进行网络舆情分析系统及其方法
CN112434205A (zh) * 2020-11-30 2021-03-02 北京秒针人工智能科技有限公司 基于数据站点的数据集成抓取方法、系统及计算机设备
CN113051499A (zh) * 2021-03-23 2021-06-29 北京智慧星光信息技术有限公司 数据采集量的监测方法、系统、电子设备及存储介质
CN117278599A (zh) * 2023-11-21 2023-12-22 深圳万物安全科技有限公司 北向接口提供方法、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN105447184A (zh) * 2015-12-15 2016-03-30 北京百分点信息科技有限公司 信息抓取方法及装置
CN107330613A (zh) * 2017-06-29 2017-11-07 平安万家医疗投资管理有限责任公司 一种舆情监控方法、设备及计算机可读存储介质
CN107644269A (zh) * 2017-09-11 2018-01-30 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN105447184A (zh) * 2015-12-15 2016-03-30 北京百分点信息科技有限公司 信息抓取方法及装置
CN107330613A (zh) * 2017-06-29 2017-11-07 平安万家医疗投资管理有限责任公司 一种舆情监控方法、设备及计算机可读存储介质
CN107644269A (zh) * 2017-09-11 2018-01-30 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020062A (zh) * 2019-04-12 2019-07-16 北京邮电大学 一种可定制的网络爬虫方法及系统
CN110489657A (zh) * 2019-07-05 2019-11-22 五八有限公司 一种信息过滤方法、装置、终端设备及存储介质
CN110704713A (zh) * 2019-09-26 2020-01-17 国家计算机网络与信息安全管理中心 一种基于多数据源的论文数据爬取方法及系统
CN110909228A (zh) * 2019-11-21 2020-03-24 上海建工集团股份有限公司 一种基于网络爬虫机制的数据抽取方法
CN111046264A (zh) * 2019-11-29 2020-04-21 江西省天轴通讯有限公司 舆情线索处理方法、系统、可读存储介质及计算机设备
CN112100535A (zh) * 2020-09-16 2020-12-18 南京智数云信息科技有限公司 一种基于dfa算法进行网络舆情分析系统及其方法
CN112434205A (zh) * 2020-11-30 2021-03-02 北京秒针人工智能科技有限公司 基于数据站点的数据集成抓取方法、系统及计算机设备
CN113051499A (zh) * 2021-03-23 2021-06-29 北京智慧星光信息技术有限公司 数据采集量的监测方法、系统、电子设备及存储介质
CN113051499B (zh) * 2021-03-23 2023-11-21 北京智慧星光信息技术有限公司 数据采集量的监测方法、系统、电子设备及存储介质
CN117278599A (zh) * 2023-11-21 2023-12-22 深圳万物安全科技有限公司 北向接口提供方法、设备及可读存储介质
CN117278599B (zh) * 2023-11-21 2024-03-08 深圳万物安全科技有限公司 北向接口提供方法、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109325161A (zh) 舆情数据抓取方法、装置、设备及存储介质
CN104021172B (zh) 广告过滤方法及广告过滤装置
CN102200980B (zh) 一种提供网络资源的方法及系统
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
US8739024B2 (en) Method and apparatus for processing world wide web page
CN105302815B (zh) 网页的统一资源定位符url的过滤方法和装置
JP2011530118A (ja) 検索クエリーに応答したディスカッションスレッドへの投稿の提供
DE112016006832T5 (de) Indexer für natürliche Sprache für virtuelle Assistenten
CN105376217B (zh) 一种恶意跳转及恶意嵌套类不良网站的自动判定方法
CN102750352A (zh) 浏览器中分类收藏历史访问记录的方法及装置
CN108710670A (zh) 一种日志分析方法、装置、电子设备及可读存储介质
CN107220297A (zh) 面向软件项目的多源异构数据自动收集方法及系统
CN107239701A (zh) 识别恶意网站的方法及装置
CN103491101A (zh) 钓鱼网站检测方法、装置及客户端
US10785236B2 (en) Generation of malware traffic signatures using natural language processing by a neural network
CN104281629A (zh) 从网页中提取图片的方法、装置及客户端设备
CN111125485A (zh) 基于Scrapy的网站URL爬取方法
US11308091B2 (en) Information collection system, information collection method, and recording medium
JP5040718B2 (ja) スパム・イベント検出装置及び方法並びにプログラム
CN108287831B (zh) 一种url分类方法和系统、数据处理方法和系统
CN105245394A (zh) 一种基于分层方式分析网络访问日志的方法和设备
CN110764994A (zh) 页面元素封装方法、装置、电子设备及存储介质
US20090248673A1 (en) Method of sorting web pages, search terminal and client terminal
CN107784054B (zh) 一种页面发布方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination