CN112818200A - 基于静态网站的数据爬取及事件分析方法及系统 - Google Patents

基于静态网站的数据爬取及事件分析方法及系统 Download PDF

Info

Publication number
CN112818200A
CN112818200A CN202110121681.7A CN202110121681A CN112818200A CN 112818200 A CN112818200 A CN 112818200A CN 202110121681 A CN202110121681 A CN 202110121681A CN 112818200 A CN112818200 A CN 112818200A
Authority
CN
China
Prior art keywords
data
crawling
event
static
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110121681.7A
Other languages
English (en)
Inventor
蔡婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202110121681.7A priority Critical patent/CN112818200A/zh
Publication of CN112818200A publication Critical patent/CN112818200A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本申请提供了一种基于静态网站的数据爬取及事件分析方法及系统,设定爬取的静态网站的类型,并选定所述类型的静态网站;根据所述静态网站,通过静态网页爬虫技术,爬取静态数据;对爬取数据进行预处理,按照标签进行整理,得到爬取数据库;根据所述爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。本申请可基于静态网站自动分析页面,通过若干点击和少量的输入即可完成对一个网页的解析,生成爬虫规则,极大地提升了用户获取数据的效率,通过爬取数据处理,大大减少了爬取数据的庞杂性,使数据可用性以及调取性大大增加。解决了现有的数据获取方法效率低以及数据可用性低的问题。

Description

基于静态网站的数据爬取及事件分析方法及系统
技术领域
本申请属于网站数据处理技术领域,具体地,涉及一种基于静态网站的数据爬取及事件分析方法及系统。
背景技术
互联网新闻以其传播速度快、多媒体、全球性和互动性的特点逐渐取代了报纸、广播等传统新闻传播媒介,成为了人们获取最新资讯的一种重要方式。由于互联网信息呈现爆炸式的增长,各个企业网站平台的数据规模越来越庞大,导致难以用常规的软件框架来对这些海量数据进行有效的处理。为了应对互联网中爆发式增长的海量数据,大数据处理技术应运而生,并在近年来得到了快速的发展。爬虫作为获取数据的一大利器之一,静态网站由于数据存储的格式以及爬取的相对简单,成为了数据获取的很重要的途径。而对于某些业务中,是需要其相关同行的数据,而数据本身,由于互联网的发展,以及深入人们生活的方方面面,数据变得越来越宝贵。
然而,随着互联网数据的海量增加以及复杂性,各式各样提供便利的网页反而对开发者使用这些源数据造成了很大的限制。数据爬取过程效率越来越低,速度越来越慢,同时造成了爬取数据过于庞杂,当需要对某一特定事件进行分析时,后期数据处理存在很大的难度。
因此,亟需一种数据爬取及事件分析方法与一体,来提高获取数据的效率。
发明内容
本发明提出了一种基于静态网站的数据爬取及事件分析方法及系统,旨在解决现有的数据获取方法效率低以及数据可用性低的问题。
根据本申请实施例的第一个方面,提供了一种基于静态网站的数据爬取及事件分析方法,具体包括以下步骤:
设定爬取的静态网站的类型,并选定类型的静态网站;
根据静态网站,通过静态网页爬虫技术,爬取静态数据;
对爬取数据进行预处理,按照标签进行整理,得到爬取数据库;
根据爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。
在本申请一些实施方式中,根据静态网站,通过静态网页爬虫技术,爬取静态数据,具体通过网页分割技术以及搜索算法爬取静态数据。
在本申请一些实施方式中,特定事件检测具体包括:通过分词、特征提取、特征降维以及文本聚类从爬取数据库中检测出特定事件的数据。
在本申请一些实施方式中,根据静态网站,通过静态网页爬虫技术,爬取静态数据,具体包括:
基于网页分割和搜索算法生成爬虫规则;
根据爬虫规则,从静态网站爬取静态数据。
在本申请一些实施方式中,基于网页分割和搜索算法生成爬虫规则,具体包括:
使用爬虫技术爬取网页地址对应网页页面的源码;
根据网页页面的源码,使用广度优先搜索算法,找到页面中所有的项;
根据项,使用网页分割算法将页面中所有结构相同的项合并成一个分块;
使用图像处理技术,将分块进行标记,选择分块并定义输入参数信息,生成服务信息和爬虫规则信息;爬虫规则信息包括对应服务调用的地址和查询参数。
在本申请一些实施方式中,对爬取数据进行预处理,按照标签进行整理,得到爬取数据库之后,还包括:
对爬取数据进行有害信息监测和标记。
在本申请一些实施方式中,根据爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集,具体包括:
根据爬取数据库,确定需要分析的特定事件,得到初始的特定事件数据;
根据特定事件数据,进行数据预处理,并存储于文档数据库;
根据文档数据库,对特定事件进行排序,形成新闻文档;
使用带时间窗口的Single-Pass算法,对新闻文档进行聚类分析,形成事件集。
根据本申请实施例的第二个方面,提供了一种基于静态网站的数据爬取及事件分析系统,具体包括:
静态网站选定模块:用于设定爬取的静态网站的类型,并选定类型的静态网站;
爬取模块:用于根据静态网站,通过静态网页爬虫技术,爬取静态数据;
数据库模块:用于对爬取数据进行预处理,按照标签进行整理,得到爬取数据库;
事件集模块:用于根据爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。
根据本申请实施例的第三个方面,提供了一种基于静态网站的数据爬取及事件设备,包括:
存储器:用于存储可执行指令;以及
处理器:用于与存储器连接以执行可执行指令从而完成基于静态网站的数据爬取及事件方法。
根据本申请实施例的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现基于静态网站的数据爬取及事件方法。
采用本申请实施例中的基于静态网站的数据爬取及事件分析方法及系统,设定爬取的静态网站的类型,并选定所述类型的静态网站;根据所述静态网站,通过静态网页爬虫技术,爬取静态数据;对爬取数据进行预处理,按照标签进行整理,得到爬取数据库;根据所述爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。本申请可基于静态网站自动分析页面,通过若干点击和少量的输入即可完成对一个网页的解析,生成爬虫规则,极大地提升了用户获取数据的效率,通过爬取数据处理,大大减少了爬取数据的庞杂性,使数据可用性以及调取性大大增加。解决了现有的数据获取方法效率低以及数据可用性低的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1中示出了根据本申请实施例的一种基于静态网站的数据爬取及事件分析方法的步骤流程图;
图2中示出了根据本申请实施例的基于静态网站的数据爬取及事件分析系统的结构示意图;
图3中示出了根据本申请实施例的基于静态网站的数据爬取及事件分析设备的结构示意图。
具体实施方式
在实现本申请的过程中,发明人发现随着互联网数据的海量增加以及复杂性,各式各样提供便利的网页反而对开发者使用这些源数据造成了很大的限制。数据爬取过程效率越来越低,速度越来越慢,同时造成了爬取数据过于庞杂,当需要对某一特定事件进行分析时,后期数据处理存在很大的难度。
基于此,本申请实施例中的基于静态网站的数据爬取及事件分析方法及系统,设定爬取的静态网站的类型,并选定所述类型的静态网站;根据所述静态网站,通过静态网页爬虫技术,爬取静态数据;对爬取数据进行预处理,按照标签进行整理,得到爬取数据库;根据所述爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。本申请可基于静态网站自动分析页面,通过若干点击和少量的输入即可完成对一个网页的解析,生成爬虫规则,极大地提升了用户获取数据的效率。通过爬取数据处理,大大减少了爬取数据的庞杂性,使数据可用性以及调取性大大增加。解决了现有的数据获取方法效率低以及数据可用性低的问题。
本专利还实现了在海量新闻数据的环境下如何快速有效地进行特定事件检测,系统能够从大量网站数据中高效地检测得到特定事件和话题信息,并将这些事件集合信息通过Web页面友好地展示给用户。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1
图1中示出了根据本申请实施例的基于静态网站的数据爬取及事件分析方法的步骤流程图。
如图1所示,本申请的基于静态网站的数据爬取及事件分析方法,具体包括以下步骤:
S101:设定爬取的静态网站的类型,并选定类型的静态网站。
根据用户实际需要,数据类型,设定需要爬取网站的类型,根据设定的网站类型进行静态网站的选择。
S102:根据静态网站,通过静态网页爬虫技术,爬取静态数据。
在本申请一些实施方式中,具体通过网页分割技术以及搜索算法爬取静态数据。
具体的,
首先,基于网页分割和搜索算法生成爬虫规则。
Web页面块分割技术是对现有网页文档进行分析和处理,具体将整个Web页面分割成包含信息数据的多个块的技术,从而实现广告去除、主要信息提取等功能,主要包括基于节点熵的页面分块技术,基于视觉特征的页面分块技术,基于内容距离的网页分块技术等,Web网页分割技术已被广泛应用于互联网行业的各个领域。
本申请针对静态网页,基于网页分割和搜索算法生成爬虫规则,具体包括:
1)使用爬虫技术爬取网页地址对应网页页面的源码;
2)根据网页页面的源码,使用广度优先搜索算法,找到页面中所有可能存在的项。
其中,广度优先搜索算法为:生成页面的DOM结构树,创建遍历顺序列表,将html节点放入列表,顺序遍历列表,将每个节点的子节点放入列表最后,直到所有节点遍历完毕。
3)根据项,使用网页分割算法将页面中所有结构相同的项合并成一个分块;
其中,网页分割算法为:将所有节点的标签路径计算出来,并和自己的兄弟节点的标签路径比较,如果相同,则两个为同一个块。算法会将所有标签路径相同的节点合并为同一个块。
4)使用图像处理技术,将分块进行标记,选择分块并定义输入参数信息,生成服务信息和爬虫规则信息;爬虫规则信息包括对应服务调用的地址和查询参数。
5)然后根据爬虫规则,从静态网站爬取静态数据。
优选地,在进行分块标记之前,还包括使用加权排序算法,筛选出最大的多个分块,然后进行标记。
其中,加权排序算法为:按照每个块内列表项数目从大到小排序,取前15个块;按照每个块内长度从大到小排序,取前15个块;两个列表取交集,并取前10个块作为最后选择到的最大的分块。
通过以上S102的数据爬取过程,可自动分析页面,通过若干点击和少量的输入即可完成对一个网页的解析,生成爬虫规则,极大地提升了用户获取数据的效率。
S103:对爬取数据进行预处理,按照标签进行整理,得到爬取数据库。
数据预处理包括:广告词过滤、有害信息删除以及安全隐患信息标注等等数据处理;
然后根据预先设定的文本标签,将与处理后的数据与文本标签进行一一对应入库,形成预处理后的爬取数据库。
通过以上S103的爬取数据处理,大大减少了爬取数据的庞杂性,使数据可用性以及调取性大大增加。
S104:根据爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。
特定事件检测具体包括:通过分词、特征提取、特征降维以及文本聚类从爬取数据库中检测出特定事件的数据。
进一步的,根据爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集,具体包括:
根据爬取数据库,确定需要分析的特定事件,得到初始的特定事件数据;
根据特定事件数据,进行数据预处理,并存储于文档数据库;
根据文档数据库,对特定事件进行排序,形成新闻文档;
使用带时间窗口的Single-Pass算法,对新闻文档进行聚类分析,形成事件集。
在爬取数据同时,可同时针对某一特定事件进行分析和展示。
随着大数据时代的来临,传统的关系型数据库已经难以应对海量数据的存储以及高并发的数据访问问题,为了解决这些问题,人们提出了NoSQL(非关系型)数据库。其中,Couchbase是一个面向文档的开源的分布式NoSQL数据库,它具有灵活的数据模型、弹性易扩展、高可用性等特点,十分适合用于存储大量的新闻文档数据。
具体说明的:
首先,在爬取数据库中,确定需要分析的特定事件,得到初始的特定事件数据。
然后,进行特定事件数据的预处理。
包括:首先使用正则表达式过滤事件数据正文中的噪声,然后从事件数据集中检测出重复文本并将其去除,接着使用FNLP的命名实体识别模块提取事件数据正文的命名实体,并使用TextRank4ZH自动生成事件数据正文的摘要,最后将清洗后的特定事件数据以及数据正文的命名实体和摘要信息存储到Couchbase数据库中。
接着,根据清洗后的事件数据,使用Single-Pass算法进行事件检测,整个检测流程在Spark下进行处理。
具体的,从Couchbase中查询出特定事件类别和发布时间的事件数据,并对特定事件按其发布时间升序排序;然后使用FNLP中的分词模块对事件数据正文进行分词,并根据中英文停用词表去掉分词结果中的停用词;
其次,使用TF-IDF将每一篇特定事件文档的正文转化为高维特征向量,并使用PCA主成分分析对特征向量进行降维;
最后,使用带时间窗口的Single-Pass算法对新闻文档进行聚类分析,得到特定事件,并使用Single-Pass算法对事件进行追踪,从而形成特定事件集合。
最终,通过以上步骤将某一特定事件和事件信息存储到Couchbase数据库中。
通过以上S104的过程实现了在海量新闻数据的环境下如何快速有效地进行特定事件检测,系统能够从大量网站数据中高效地检测得到特定事件和话题信息,并将这些事件集合信息通过Web页面友好地展示给用户。
另一实施方式中,在步骤S103对爬取数据进行预处理,按照标签进行数据库整理之后,还包括:对爬取数据进行有害信息监测。
具体的,有害信息监测包括有害信息搜索、自动分词、关键字处理以及模糊匹配等步骤。
有害信息搜索包括关键字筛选、标签字段筛选、元数据字段筛选和时间筛选中的一个或多个组合步骤,从而实现精确搜索。
本申请通过有害信息监测,可以在海量爬取数据中,搜索到敏感词,主动进行收录和标记,为网络安全做好防范和基础。
本申请实施例中的基于静态网站的数据爬取及事件分析方法,设定爬取的静态网站的类型,并选定所述类型的静态网站;根据所述静态网站,通过静态网页爬虫技术,爬取静态数据;对爬取数据进行预处理,按照标签进行整理,得到爬取数据库;根据所述爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。本申请可基于静态网站自动分析页面,通过若干点击和少量的输入即可完成对一个网页的解析,生成爬虫规则,极大地提升了用户获取数据的效率。通过爬取数据处理,大大减少了爬取数据的庞杂性,使数据可用性以及调取性大大增加。解决了现有的数据获取方法效率低以及数据可用性低的问题。
本申请还实现了在海量新闻数据的环境下快速有效地进行特定事件检测,系统能够从大量网站数据中高效地检测得到特定事件和话题信息,并将这些事件集合信息通过Web页面友好地展示给用户。
实施例2
本实施例提供了一种基于静态网站的数据爬取及事件分析系统,对于本实施例的基于静态网站的数据爬取及事件分析系统中未披露的细节,请参照其它实施例中的基于静态网站的数据爬取及事件分析方法的实施内容。
图2中示出了根据本申请实施例的基于静态网站的数据爬取及事件分析系统的结构示意图。
如图2所示,本申请的基于静态网站的数据爬取及事件分析系统,包括静态网站选定模块10、爬取模块20、数据库模块30以及事件集模块40。
具体的,
静态网站选定模块10:用于设定爬取的静态网站的类型,并选定类型的静态网站。
爬取模块20:用于根据静态网站,通过静态网页爬虫技术,爬取静态数据。
具体的,首先,基于网页分割和搜索算法生成爬虫规则。
Web页面块分割技术是对现有网页文档进行分析和处理,具体将整个Web页面分割成包含信息数据的多个块的技术,从而实现广告去除、主要信息提取等功能,主要包括基于节点熵的页面分块技术,基于视觉特征的页面分块技术,基于内容距离的网页分块技术等,Web网页分割技术已被广泛应用于互联网行业的各个领域。
本申请针对静态网页,基于网页分割和搜索算法生成爬虫规则,具体包括:
1)使用爬虫技术爬取网页地址对应网页页面的源码;
2)根据网页页面的源码,使用广度优先搜索算法,找到页面中所有可能存在的项。
其中,广度优先搜索算法为:生成页面的DOM结构树,创建遍历顺序列表,将html节点放入列表,顺序遍历列表,将每个节点的子节点放入列表最后,直到所有节点遍历完毕。
3)根据项,使用网页分割算法将页面中所有结构相同的项合并成一个分块;
其中,网页分割算法为:将所有节点的标签路径计算出来,并和自己的兄弟节点的标签路径比较,如果相同,则两个为同一个块。算法会将所有标签路径相同的节点合并为同一个块。
4)使用图像处理技术,将分块进行标记,选择分块并定义输入参数信息,生成服务信息和爬虫规则信息;爬虫规则信息包括对应服务调用的地址和查询参数。
5)然后根据爬虫规则,从静态网站爬取静态数据。
优选地,在进行分块标记之前,还包括使用加权排序算法,筛选出最大的多个分块,然后进行标记。
其中,加权排序算法为:按照每个块内列表项数目从大到小排序,取前15个块;按照每个块内长度从大到小排序,取前15个块;两个列表取交集,并取前10个块作为最后选择到的最大的分块。
通过爬取模块20的数据爬取,可自动分析页面,通过若干点击和少量的输入即可完成对一个网页的解析,生成爬虫规则,极大地提升了用户获取数据的效率。
数据库模块30:用于对爬取数据进行预处理,按照标签进行整理,得到爬取数据库。
数据预处理包括:广告词过滤、有害信息删除以及安全隐患信息标注等等数据处理;
然后根据预先设定的文本标签,将与处理后的数据与文本标签进行一一对应入库,形成预处理后的爬取数据库。
通过数据库模块30的爬取数据处理,大大减少了爬取数据的庞杂性,使数据可用性以及调取性大大增加。
事件集模块40:用于根据爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。
特定事件检测具体包括:通过分词、特征提取、特征降维以及文本聚类从爬取数据库中检测出特定事件的数据。
进一步的,根据爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集,具体包括:
根据爬取数据库,确定需要分析的特定事件,得到初始的特定事件数据;
根据特定事件数据,进行数据预处理,并存储于文档数据库;
根据文档数据库,对特定事件进行排序,形成新闻文档;
使用带时间窗口的Single-Pass算法,对新闻文档进行聚类分析,形成事件集。
在爬取数据同时,可同时针对某一特定事件进行分析和展示。
随着大数据时代的来临,传统的关系型数据库已经难以应对海量数据的存储以及高并发的数据访问问题,为了解决这些问题,人们提出了NoSQL(非关系型)数据库。其中,Couchbase是一个面向文档的开源的分布式NoSQL数据库,它具有灵活的数据模型、弹性易扩展、高可用性等特点,十分适合用于存储大量的新闻文档数据。
具体说明的:
首先,在爬取数据库中,确定需要分析的特定事件,得到初始的特定事件数据。
然后,进行特定事件数据的预处理。
包括:首先使用正则表达式过滤事件数据正文中的噪声,然后从事件数据集中检测出重复文本并将其去除,接着使用FNLP的命名实体识别模块提取事件数据正文的命名实体,并使用TextRank4ZH自动生成事件数据正文的摘要,最后将清洗后的特定事件数据以及数据正文的命名实体和摘要信息存储到Couchbase数据库中。
接着,根据清洗后的事件数据,使用Single-Pass算法进行事件检测,整个检测流程在Spark下进行处理。
具体的,从Couchbase中查询出特定事件类别和发布时间的事件数据,并对特定事件按其发布时间升序排序;然后使用FNLP中的分词模块对事件数据正文进行分词,并根据中英文停用词表去掉分词结果中的停用词;
其次,使用TF-IDF将每一篇特定事件文档的正文转化为高维特征向量,并使用PCA主成分分析对特征向量进行降维;
最后,使用带时间窗口的Single-Pass算法对新闻文档进行聚类分析,得到特定事件,并使用Single-Pass算法对事件进行追踪,从而形成特定事件集合。
最终,通过以上步骤将某一特定事件和事件信息存储到Couchbase数据库中。
通过事件集模块40实现了在海量新闻数据的环境下如何快速有效地进行特定事件检测,系统能够从大量网站数据中高效地检测得到特定事件和话题信息,并将这些事件集合信息通过Web页面友好地展示给用户。
本申请实施例中的基于静态网站的数据爬取及事件分析系统,静态网站选定模块10设定爬取的静态网站的类型,并选定所述类型的静态网站;爬取模块20根据所述静态网站,通过静态网页爬虫技术,爬取静态数据;数据库模块30对爬取数据进行预处理,按照标签进行整理,得到爬取数据库;事件集模块40根据所述爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。本申请可基于静态网站自动分析页面,通过若干点击和少量的输入即可完成对一个网页的解析,生成爬虫规则,极大地提升了用户获取数据的效率。通过爬取数据处理,大大减少了爬取数据的庞杂性,使数据可用性以及调取性大大增加。解决了现有的数据获取方法效率低以及数据可用性低的问题。
本申请还实现了在海量新闻数据的环境下快速有效地进行特定事件检测,系统能够从大量网站数据中高效地检测得到特定事件和话题信息,并将这些事件集合信息通过Web页面友好地展示给用户。
实施例3
本实施例提供了一种基于静态网站的数据爬取及事件分析设备,对于本实施例的基于静态网站的数据爬取及事件分析设备中未披露的细节,请参照其它实施例中的基于静态网站的数据爬取及事件分析方法或系统具体的实施内容。
图3中示出了根据本申请实施例的基于静态网站的数据爬取及事件分析设备400的结构示意图。
如图3所示,数据爬取及事件分析设备400,包括:
存储器402:用于存储可执行指令;以及
处理器401:用于与存储器402连接以执行可执行指令从而完成基于模板生成PDF的电子签章方法。
本领域技术人员可以理解,所述示意图3仅仅是数据爬取及事件分析设备400的示例,并不构成对数据爬取及事件分析设备400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如数据爬取及事件分析设备400还可以包括输入输出设备、网络接入设备、总线等。
所称处理器401(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器401也可以是任何常规的处理器等,处理器401是数据爬取及事件分析设备400的控制中心,利用各种接口和线路连接整个数据爬取及事件分析设备400的各个部分。
存储器402可用于存储所述计算机可读指令,处理器401通过运行或执行存储在存储器402内的计算机可读指令或模块,以及调用存储在存储器402内的数据,实现数据爬取及事件分析设备400的各种功能。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据数据爬取及事件分析设备400计算机设备30的使用所创建的数据等。此外,存储器402可以包括硬盘、内存、插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)或其他非易失性/易失性存储器件。
所述数据爬取及事件分析设备400集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现其他实施例中的基于静态网站的数据爬取及事件分析方法。
采用本申请实施例中的基于静态网站的数据爬取及事件分析设备及存储介质,设定爬取的静态网站的类型,并选定所述类型的静态网站;根据所述静态网站,通过静态网页爬虫技术,爬取静态数据;对爬取数据进行预处理,按照标签进行整理,得到爬取数据库;根据所述爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。本申请可基于静态网站自动分析页面,通过若干点击和少量的输入即可完成对一个网页的解析,生成爬虫规则,极大地提升了用户获取数据的效率。通过爬取数据处理,大大减少了爬取数据的庞杂性,使数据可用性以及调取性大大增加。解决了现有的数据获取方法效率低以及数据可用性低的问题。
本申请还实现了在海量新闻数据的环境下快速有效地进行特定事件检测,系统能够从大量网站数据中高效地检测得到特定事件和话题信息,并将这些事件集合信息通过Web页面友好地展示给用户。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种基于静态网站的数据爬取及事件分析方法,其特征在于,具体包括以下步骤:
设定爬取的静态网站的类型,并选定所述类型的静态网站;
根据所述静态网站,通过静态网页爬虫技术,爬取静态数据;
对爬取数据进行预处理,按照标签进行整理,得到爬取数据库;
根据所述爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。
2.根据权利要求1所述的数据爬取及事件分析方法,其特征在于,所述根据所述静态网站,通过静态网页爬虫技术,爬取静态数据,具体通过网页分割技术以及搜索算法爬取静态数据。
3.根据权利要求1或2所述的数据爬取及事件分析方法,其特征在于,所述特定事件检测具体包括:通过分词、特征提取、特征降维以及文本聚类从所述爬取数据库中检测出所述特定事件的数据。
4.根据权利要求1所述的数据爬取及事件分析方法,其特征在于,所述根据所述静态网站,通过静态网页爬虫技术,爬取静态数据,具体包括:
基于网页分割和搜索算法生成爬虫规则;
根据所述爬虫规则,从所述静态网站爬取静态数据。
5.根据权利要求1所述的数据爬取及事件分析方法,其特征在于,所述基于网页分割和搜索算法生成爬虫规则,具体包括:
使用爬虫技术爬取网页地址对应网页页面的源码;
根据所述网页页面的源码,使用广度优先搜索算法,找到页面中所有的项;
根据所述项,使用网页分割算法将页面中所有结构相同的项合并成一个分块;
使用图像处理技术,将分块进行标记,选择分块并定义输入参数信息,生成服务信息和爬虫规则信息;所述爬虫规则信息包括对应服务调用的地址和查询参数。
6.根据权利要求1所述的数据爬取及事件分析方法,其特征在于,所述对爬取数据进行预处理,按照标签进行整理,得到爬取数据库之后,还包括:
对爬取数据进行有害信息监测和标记。
7.根据权利要求1所述的数据爬取及事件分析方法,其特征在于,所述根据所述爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集,具体包括:
根据所述爬取数据库,确定需要分析的特定事件,得到初始的特定事件数据;
根据所述特定事件数据,进行数据预处理,并存储于文档数据库;
根据所述文档数据库,对所述特定事件进行排序,形成新闻文档;
使用带时间窗口的Single-Pass算法,对所述新闻文档进行聚类分析,形成事件集。
8.一种基于静态网站的数据爬取及事件分析系统,其特征在于,具体包括:
静态网站选定模块:用于设定爬取的静态网站的类型,并选定所述类型的静态网站;
爬取模块:用于根据所述静态网站,通过静态网页爬虫技术,爬取静态数据;
数据库模块:用于对爬取数据进行预处理,按照标签进行整理,得到爬取数据库;
事件集模块:用于根据所述爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。
9.一种基于静态网站的数据爬取及事件分析设备,其特征在于,包括:
存储器:用于存储可执行指令;以及
处理器:用于与所述存储器连接以执行所述可执行指令从而完成权利要求1-7中任一项所述的基于静态网站的数据爬取及事件分析方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;计算机程序被处理器执行以实现如权利要求1-7任一项所述的基于静态网站的数据爬取及事件分析方法。
CN202110121681.7A 2021-01-28 2021-01-28 基于静态网站的数据爬取及事件分析方法及系统 Pending CN112818200A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110121681.7A CN112818200A (zh) 2021-01-28 2021-01-28 基于静态网站的数据爬取及事件分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110121681.7A CN112818200A (zh) 2021-01-28 2021-01-28 基于静态网站的数据爬取及事件分析方法及系统

Publications (1)

Publication Number Publication Date
CN112818200A true CN112818200A (zh) 2021-05-18

Family

ID=75859931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110121681.7A Pending CN112818200A (zh) 2021-01-28 2021-01-28 基于静态网站的数据爬取及事件分析方法及系统

Country Status (1)

Country Link
CN (1) CN112818200A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390249A (zh) * 2023-12-12 2024-01-12 中国测绘科学研究院 一种基于网络大数据的主题公园运行监测方法及系统
CN117454881A (zh) * 2023-12-19 2024-01-26 戎行技术有限公司 一种基于静态页面的网站动态标签解析方法
CN117473200A (zh) * 2023-12-26 2024-01-30 天津戎行集团有限公司 一种用于网站信息数据的综合采集分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572977A (zh) * 2014-12-31 2015-04-29 北京农业信息技术研究中心 一种农产品质量安全事件在线检测方法
CN110147439A (zh) * 2018-07-18 2019-08-20 中山大学 一种基于大数据处理技术的新闻事件检测方法及系统
CN110222251A (zh) * 2019-05-27 2019-09-10 浙江大学 一种基于网页分割和搜索算法的服务包装方法
CN110516138A (zh) * 2019-08-31 2019-11-29 武汉理工大学 一种基于多源自更新威胁情报库的食品安全事件预警系统
CN111178586A (zh) * 2019-12-06 2020-05-19 浙江工业大学 网络爱国舆情事件跟踪、预测和疏导方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572977A (zh) * 2014-12-31 2015-04-29 北京农业信息技术研究中心 一种农产品质量安全事件在线检测方法
CN110147439A (zh) * 2018-07-18 2019-08-20 中山大学 一种基于大数据处理技术的新闻事件检测方法及系统
CN110222251A (zh) * 2019-05-27 2019-09-10 浙江大学 一种基于网页分割和搜索算法的服务包装方法
CN110516138A (zh) * 2019-08-31 2019-11-29 武汉理工大学 一种基于多源自更新威胁情报库的食品安全事件预警系统
CN111178586A (zh) * 2019-12-06 2020-05-19 浙江工业大学 网络爱国舆情事件跟踪、预测和疏导方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390249A (zh) * 2023-12-12 2024-01-12 中国测绘科学研究院 一种基于网络大数据的主题公园运行监测方法及系统
CN117390249B (zh) * 2023-12-12 2024-03-12 中国测绘科学研究院 一种基于网络大数据的主题公园运行监测方法及系统
CN117454881A (zh) * 2023-12-19 2024-01-26 戎行技术有限公司 一种基于静态页面的网站动态标签解析方法
CN117454881B (zh) * 2023-12-19 2024-03-08 戎行技术有限公司 一种基于静态页面的网站动态标签解析方法
CN117473200A (zh) * 2023-12-26 2024-01-30 天津戎行集团有限公司 一种用于网站信息数据的综合采集分析方法
CN117473200B (zh) * 2023-12-26 2024-03-08 天津戎行集团有限公司 一种用于网站信息数据的综合采集分析方法

Similar Documents

Publication Publication Date Title
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
US8503769B2 (en) Matching text to images
US11550856B2 (en) Artificial intelligence for product data extraction
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN102446255B (zh) 一种检测页面篡改的方法及装置
CN107506472B (zh) 一种学生浏览网页分类方法
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN106326386B (zh) 搜索结果的展示方法和装置
CN109815386B (zh) 一种基于用户画像的构建方法、装置及存储介质
CN108520007B (zh) 万维网网页信息提取方法、存储介质及计算机设备
CN111797239A (zh) 应用程序的分类方法、装置及终端设备
Cardoso et al. An efficient language-independent method to extract content from news webpages
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN112818206A (zh) 一种数据分类方法、装置、终端及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN108595453B (zh) Url标识映射获取方法及装置
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210518