CN110334259A

CN110334259A - 网页数据采集方法、装置及计算机可读存储介质

Info

Publication number: CN110334259A
Application number: CN201910327071.5A
Authority: CN
Inventors: 吴宇航; 熊小兵; 易宇豪
Original assignee: New Share Technology Services (shenzhen) Ltd
Current assignee: New Share Technology Services (shenzhen) Ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2019-10-15

Abstract

本发明公开了一种网页数据采集方法、装置以及计算机可读存储介质，包括以下步骤：获取预设的目标网址以及数据采集模板；根据所述数据采集模板获取所述目标网址的访问数据信息，所述访问数据信息包括数据内容、数据发布时间、数据来源以及标题；存储所述访问数据信息。因本发明能够根据目标网址的超文本标记语言信息生成对应的数据采集模板，然后按照预设采集规则通过数据采集模板采集目标网址的访问数据信息，从而解决了在有大量舆情信息数据的情况下人工收集舆情信息的方式效率较低的问题。

Description

网页数据采集方法、装置及计算机可读存储介质

技术领域

本发明涉及网络搜索领域，尤其涉及一种网页数据采集方法、装置以及计算机可读存储介质。

背景技术

随着互联网技术的高速发展，各大网站中的舆情信息量日趋增大，在给人们的生活带来方便的同时，也给网络舆情管理工作带来了一定压力。

舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。传统的舆情收集方式通过人工浏览复制保存，在已有舆情信息未收集完成时新的舆情信息已大量出现，在大量舆情信息数据的情况下人工收集舆情信息的方式效率较低。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种网页数据采集方法、装置以及计算机可读存储介质，旨在解决在有大量舆情信息数据的情况下人工收集舆情信息的方式效率较低的问题。

为了达到上述目的，本发明提供一种网页数据采集方法，所述网页数据采集方法包括以下步骤：

获取预设的目标网址以及数据采集模板；

根据所述数据采集模板获取所述目标网址的访问数据信息，所述访问数据信息包括数据内容、数据发布时间、数据来源以及标题；

存储所述访问数据信息。

优选地，所述获取预设的目标网址以及数据采集模板的步骤之前，包括：

获取所述目标网址的超文本标记语言标签信息，所述超文本标记语言标签信息包括所述目标网址的目标网页的所有超文本标记语言标签以及排列方式；

根据所述超文本标记语言标签信息生成所述数据采集模板。

优选地，所述存储所述访问数据信息的步骤之后，还包括：

删除冗余数据信息，并存储删除冗余数据信息后的所述访问数据信息，其中，所述冗余数据信息为所述源数据中不符合所述预设采集规则的数据信息。

优选地，所述根据所述数据采集模板获取所述目标网址的访问数据信息的步骤包括：

根据所述数据采集模板获取所述目标网址的源数据；

根据预设采集规则获取所述源数据中的所述访问数据信息。

优选地，所述根据预设采集规则获取所述源数据中的所述访问数据信息的步骤包括：

解析所述源数据，并获取所述源数据中的链接地址；

判断所述链接地址的超文本标记语言标签信息是否匹配所述数据采集模板的超文本标记语言标签信息；

在判定所述链接地址的超文本标记语言标签信息匹配所述采集模板的超文本标记语言标签信息时，将所述链接地址存放入链接队列中；

在所述链接地址位于队列头时，根据所述数据采集模板获取所述链接地址的访问数据信息。

优选地，所述判断所述链接地址的超文本标记语言标签信息是否匹配所述数据采集模板的超文本标记语言标签信息的步骤之后，所述根据预设采集规则获取所述源数据中的所述访问数据信息的步骤还包括：

在判定所述链接地址的超文本标记语言标签信息不匹配所述数据采集模板的超文本标记语言标签信息时，获取所述链接地址的超文本标记语言标签信息；

根据所述链接地址的超文本标记语言标签信息生成对应的数据采集模板；

根据所述链接地址对应的数据采集模板获取所述链接地址的访问数据信息。

优选地，所述存储所述访问数据信息的步骤之后，还包括：

获取预设关键字；

根据所述预设关键字匹配所述访问数据信息，并存储匹配到的数据信息；

在所述访问数据信息匹配完毕后，输出所述存储的数据信息。

此外，为实现上述目的，本发明还提供一种网页数据采集装置，所述网页数据采集装置包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的网页数据采集程序，所述网页数据采集程序被所述处理器执行时实现如上所述的网页数据采集方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有网页数据采集程序，所述网页数据采集程序被处理器执行时实现如上所述的网页数据采集方法的步骤。

本发明提供的网页数据采集方法、装置以及计算机可读存储介质，首先，获取预设的目标网址以及数据采集模板，然后，根据所述数据采集模板获取所述目标网址的访问数据信息，所述访问数据信息包括数据内容、数据发布时间、数据来源以及标题，最后，存储所述访问数据信息。因本发明能够根据目标网址的超文本标记语言信息生成对应的数据采集模板，然后按照预设采集规则通过数据采集模板采集目标网址的访问数据信息，从而解决了在有大量舆情信息数据的情况下人工收集舆情信息的方式效率较低的问题。

附图说明

附图说明用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例方案涉及的网页数据采集装置的硬件结构示意图；

图2为本发明网页数据采集方法第一实施例的流程示意图；

图3为本发明网页数据采集方法第二实施例的流程示意图；

图4为本发明网页数据采集方法第三实施例的流程示意图；

图5为本发明网页数据采集方法第四实施例的流程示意图；

图6为本发明网页数据采集方法第五实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

由于现有的舆情收集方式通过人工浏览复制保存，在已有舆情信息未收集完成时新的舆情信息已大量出现，在大量舆情信息数据的情况下人工收集舆情信息的方式效率较低。

本发明提供一种解决方案，首先，获取预设的目标网址以及数据采集模板；然后，根据所述数据采集模板获取所述目标网址的访问数据信息，所述访问数据信息包括数据内容、数据发布时间、数据来源以及标题；最后，存储所述访问数据信息。因本发明能够根据目标网址的超文本标记语言信息生成对应的数据采集模板，然后按照预设采集规则通过数据采集模板采集目标网址的访问数据信息，从而解决了在有大量舆情信息数据的情况下人工收集舆情信息的方式效率较低的问题。

如图1所示，图1是本发明实施例方案涉及装置的硬件结构示意图。

参照图1，该装置可以包括：处理器1001，例如CPU，存储器1002，通信总线1003，网络接口1004。其中，通信总线1003用于实现该装置中各组成部件之间的连接通信。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1002可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1002可选的还可以是独立于前述处理器1001的存储装置。如图1所示，作为一种计算机存储介质的存储器1002中可以包括操作系统、网络通信模块以及网页数据采集程序。

本领域技术人员可以理解，图1中示出的装置结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在图1所示的装置所涉及的硬件中，网络接口1004可以用于访问目标网址，然后下载所述目标网址的超文本标记语言信息以及所述目标网址的源数据；而处理器1001可以用于调用存储器1002中存储的网页数据采集程序，并执行以下操作：

获取预设的目标网址以及数据采集模板；

存储所述访问数据信息。

进一步地，处理器1001可以用于调用存储器1002中存储的网页数据采集程序，还执行以下操作：

根据所述超文本标记语言标签信息生成所述数据采集模板。

根据所述数据采集模板获取所述目标网址的源数据；

根据预设采集规则获取所述源数据中的所述访问数据信息。

解析所述源数据，并获取所述源数据中的链接地址；

获取预设关键字；

参照图2，图2为本发明网页数据采集方法的第一实施例，所述网页数据采集方法包括：

步骤S10、获取预设的目标网址以及数据采集模板；

本发明提供的网页数据采集方法主要用于获取目标网址的舆情数据并分析该舆情数据。本发明提供的网页数据采集方法涉及的终端包括但不限于手机、平板电脑和电脑等，所述终端上预先加载有相关的应用系统。

本发明提供的技术方案，所述目标网址由工作人员预设至数据库中，所述数据采集模板根据所述目标网址的网页的超文本标记语言标签信息生成。由于随着互联网技术的高速发展，各大网站中的舆情信息量日趋增大，在已有舆情信息未收集完成时新的舆情信息已大量出现，大量网络舆情产生使得原有的人工收集舆情信息的方式效率较低。因此通过网络爬虫技术爬取目标网址的数据内容将大大节省舆情的收集时间。在启动爬虫程序前，首先通过工作人员将目标网址以及数据采集模板的标识持久化至数据库(Mybatis)中所述爬虫对应的参数配置表中。在启动爬虫程序后，该爬虫程序首先在数据库中读取参数配置表，获取到要爬取的目标网址以及爬取该目标网址时使用的数据采集模板的标识，然后根据该数据采集模板的标识获取对应的数据采集模板。例如，工作人员在参数配置表的URL字段下配置的目标网址为“https://www.zhihu.com/”，在TEMPIET字段下配置的数据采集模板的标识为“202f467e-7ece-4dad-ba33-1f9343de36ac”，则启动爬虫后，该爬虫程序从参数配置表中的URL字段下读取到目标网址为“https://www.zhihu.com/”，读取到TEMPIET字段下的数据采集模板的标识为“202f467e-7ece-4dad-ba33-1f9343de36ac”，然后根据该数据采集模板的标识获取对应的采集模板。可以理解的是，举例中的数据采集模板的标识根据UUID(通用唯一识别码)生成，该数据采集模板的标识的生成使用的技术不作限定。

步骤S20、根据所述数据采集模板获取所述目标网址的访问数据信息；

本实施例提供的技术方案中，所述访问数据信息包括数据内容、数据发布时间、数据来源以及标题。所述数据采集模板包含所述目标网址的网页的完整HTML标签(超文本标记语言标签)信息，但不包括HTML标签中的文本信息。即所述数据采集模板包括所述目标网址的网页的HTML标签以及该HTML标签的排列方式。爬虫程序在获取到目标网址以及数据采集模板后，根据所述数据采集模板中的HTML标签获取所述目标网址与所述数据采集模板对应的HTML标签中的文本内容，直到数据采集模板中最后的HTML标签也获取到所述目标网址与所述数据采集模板对应的HTML标签中的文本内容。例如，A网址的网页中的HTML标签有<title>房价政策</title>就目前来看，深圳平均的小产权房贷利率在5.5％左右，一些地区的房贷利率还要更高，这意味着投资理财的收益必须稳定在5.5％以上。但这一过程中也需要考虑另一种成本，如果投资理财的收益仅仅在5.5％左右，那么从时间以及精力投入的角度分析这样做并不明智，国人有句老话叫做无债一身轻，在投资理财收益不稳定以及今后要维持相当长一段时间的背景下，一次性付清全款还是要更为明智一些。则数据采集模板为<title></title>，爬虫程序爬取的数据则为HTML标签中的文本内容。

步骤S30、存储所述访问数据信息。

本实施例提供的技术方案中，获取到的访问数据信息通过kafka(高吞吐量的分布式发布订阅消息系统)的方式生产一条消息记录，然后持久化存储至数据库中。

在其他实施例中，所述步骤S30之后，还包括：

步骤S60、删除冗余数据信息，并存储删除冗余数据信息后的所述访问数据信息。

所述冗余数据信息为所述源数据中不符合所述预设采集规则的数据信息，所述预设采集规则由工作人员定义，可以定义为只采集目标网址的网页中的文本标题以及文章内容，也可以将所述预设采集规则定义为采集文本标题、文章内容、发布时间以及文章来源。对于不符合预设采集规则外的数据则直接删除，并存储删除冗余数据信息后的所述访问数据信息。这样有助于提高内存空间有效数据的占有率，达到减少成本的效果。

因本发明能够根据目标网址的超文本标记语言信息生成对应的数据采集模板，然后按照预设采集规则通过数据采集模板采集目标网址的访问数据信息，从而在有大量舆情信息数据的情况下大大提高了收集舆情信息的效率。

进一步的，参照图3，图3为本发明网页数据采集方法的第二实施例，基于上述实施例，所述步骤S10之前，还包括：

步骤S40、获取所述目标网址的超文本标记语言标签信息；

步骤S50、根据所述超文本标记语言标签信息生成所述数据采集模板。

本实施例提供的技术方案中，所述超文本标记语言标签信息包括所述目标网址的目标网页的所有超文本标记语言标签以及排列方式。由于爬虫程序启动后即读取目标网址以及数据采集模板标识，因此在爬虫程序执行该目标网址的内容获取任务前，首先要生成目标网址的网页的数据采集模板。通过WebMagic Downloader组件负责下载URL页面，然后获取URL页面中HTML标签以及HTML标签排列顺序，再根据HTML标签以及HTML标签排列顺序生成所述数据采集模板。再通过UUID技术生成该数据采集模板的唯一标识。

在爬取目标网址的内容前根据目标网址的网页的超文本标记语言信息生成数据采集模板，从而避免因数据采集模板不匹配所述目标网页的超文本标记语言信息而无法爬取目标网址的数据的问题。

进一步的，参照图4，图4为本发明网页数据采集方法的第三实施例，在上述图2所示的实施例基础上，所述步骤S20，包括：

步骤S21、根据所述数据采集模板获取所述目标网址的源数据；

步骤S22、根据预设采集规则获取所述源数据中的所述访问数据信息。

本实施例提供的技术方案中，所述源数据为从目标网址下载的未经处理的数据。所述预设采集规则为获取预设HTML标签中的内容，例如所述预设采集规则为获取标签、<title></title>标签中的文本内容，则在源数据中获取预设HTML标签中的文本内容。由于目标网址中包含大量数据，包括与舆情信息有关的和与舆情信息无关的数据。故需要过滤掉目标网址中与舆情信息无关的数据。爬虫程序根据所述数据采集模板获取所述目标网址的源数据，然后获取预设采集规中预设的HTML标签，再在该源数据中获取预设的HTML标签对应的文本内容。

根据预设采集规则过滤掉源数据中与舆情信息无关的数据，从而在进行数据分析消化时提高数据分析的效率。

进一步的，参照图5，图5为本发明网页数据采集方法的第四实施例，在上述图4所示的实施例基础上，所述步骤S21，包括：

步骤S211、解析所述源数据，并获取所述源数据中的链接地址；

步骤S212、判断所述链接地址的超文本标记语言标签信息是否匹配所述数据采集模板的超文本标记语言标签信息；

步骤S213、在判定所述链接地址的超文本标记语言标签信息匹配所述采集模板的超文本标记语言标签信息时，将所述链接地址存放入链接队列中；

步骤S214、在所述链接地址位于队列头时，根据所述数据采集模板获取所述链接地址的访问数据信息。

本实施例提供的技术方案中，所述链接队列具有先进先出的特点，用于在获取到多个链接地址时缓存该多个链接地址以防止数据丢失。通常情况下，同一网站的网页布局相同，但也有个别链接地址不使用网站首页的布局。由于目标网址中还包含有一个或多个链接地址，因此在根据数据采集模板获取到目标网址的源数据时，通过PageProcessor组件负责页面解析，提取源数据中的链接地址。在提取到源数据中的链接地址时，判断所述链接地址的超文本标记语言标签信息是否匹配所述数据采集模板的超文本标记语言标签信息，即判断链接地址的网页布局是否与数据采集模板中的布局一致，在判定所述链接地址的超文本标记语言标签信息匹配所述采集模板的超文本标记语言标签信息时，将所述链接地址存放入链接队列中，并在所述链接地址位于队列头时，根据所述数据采集模板获取所述链接地址的访问数据信息。

在其他实施例中，在上述图5所示的实施例基础上，所述步骤S21，还包括：

步骤S215、在判定所述链接地址的超文本标记语言标签信息不匹配所述数据采集模板的超文本标记语言标签信息时，获取所述链接地址的超文本标记语言标签信息；

步骤S216、根据所述链接地址的超文本标记语言标签信息生成对应的数据采集模板；

步骤S217、根据所述链接地址对应的数据采集模板获取所述链接地址的访问数据信息。

本实施例提供的技术方案中，当源数据中的链接地址的超文本标记语言标签信息不匹配所述数据采集模板的超文本标记语言标签信息时，先持久化至数据库中，在页面解析完毕后，分别获取所述链接地址的超文本标记语言标签信息，再根据所述链接地址的超文本标记语言标签信息生成对应的数据采集模板，最后根据所述链接地址对应的数据采集模板获取所述链接地址符合预设采集规则的访问数据信息。

对目标网址的网页进行页面解析获取源数据中的链接地址，获取与目标网址的数据采集模板匹配的链接地址的访问数据信息，然后生成与目标网址的数据采集模板不匹配的链接地址对应的数据采集模板并获取访问数据信息，从而全方位立体化地采集目标网址的舆情数据信息，避免数据遗漏而导致舆情数据分析不准确。

进一步的，参照图6，图6为本发明网页数据采集方法的第五实施例，在上述图2所示的实施例基础上，所述步骤S30之后，还包括：

步骤S60、获取预设关键字；

步骤S70、根据所述预设关键字匹配所述访问数据信息，并存储匹配到的数据信息；

步骤S80、在所述访问数据信息匹配完毕后，输出所述存储的数据信息。

本实施例提供的技术方案中，所述预设关键字可以包括焦虑、紧张、愤怒、沮丧、悲伤、痛苦、愤怒、勤奋、刻苦、追求以及拼搏等。在获取到目标网址的源数据并对该源数据按预设采集规则进行预处理后得到舆情数据信息后，还需要对该舆情数据信息进行分析处理，才能可视化输出分析后的舆情数据信息。在对舆情数据信息进行分析时，获取预设关键字对舆情数据信息进行模糊匹配，即舆情数据信息中有一句出现该预设关键字时，将该句存储到数据库的中间表中，在所述访问数据信息匹配完毕后，由Python或R语言自带一些分析数据的算法进行数据分析，将分析结果以词云图、语义网格图、数据中间表方式进行可视化输出。所述舆情数据信息中与预设关键字不匹配的语句则丢弃。

对采集到的舆情数据信息进行关键字模糊匹配，并对模糊匹配后的舆情数据信息通过数据分析算法分析，最后将分析结果以词云图、语义网格图、数据中间表方式可视化输出，从而使得舆情数据信息更加直观。

为实现上述目的，本发明还提供一种网页数据采集装置，所述网页数据采集装置包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的网页数据采集程序，所述网页数据采集程序被所述处理器执行时实现如上所述的网页数据采集方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有网页数据采集程序，所述网页数据采集程序被处理器执行时实现如上所述的网页数据采集方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是电视机，手机，计算机，装置，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网页数据采集方法，其特征在于，所述网页数据采集方法包括以下步骤：

获取预设的目标网址以及数据采集模板；

存储所述访问数据信息。

2.如权利要求1所述的网页数据采集方法，其特征在于，所述获取预设的目标网址以及数据采集模板的步骤之前，包括：

根据所述超文本标记语言标签信息生成所述数据采集模板。

3.如权利要求1所述的网页数据采集方法，其特征在于，所述存储所述访问数据信息的步骤之后，还包括：

4.如权利要求1所述的网页数据采集方法，其特征在于，所述根据所述数据采集模板获取所述目标网址的访问数据信息的步骤包括：

根据所述数据采集模板获取所述目标网址的源数据；

根据预设采集规则获取所述源数据中的所述访问数据信息。

5.如权利要求4所述的网页数据采集方法，其特征在于，所述根据预设采集规则获取所述源数据中的所述访问数据信息的步骤包括：

解析所述源数据，并获取所述源数据中的链接地址；

6.如权利要求5所述的网页数据采集方法，其特征在于，所述判断所述链接地址的超文本标记语言标签信息是否匹配所述数据采集模板的超文本标记语言标签信息的步骤之后，所述根据预设采集规则获取所述源数据中的所述访问数据信息的步骤还包括：

7.如权利要求1所述的网页数据采集方法，其特征在于，所述存储所述访问数据信息的步骤之后，还包括：

获取预设关键字；

8.一种网页数据采集装置，其特征在于，所述网页数据采集装置包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的网页数据采集程序，所述网页数据采集程序被所述处理器执行时实现如权利要求1至7中任一项所述的网页数据采集方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有网页数据采集程序，所述网页数据采集程序被处理器执行时实现如权利要求1至7中任一项所述的网页数据采集方法的步骤。