CN109657125A

CN109657125A - 基于网络爬虫的数据处理方法、装置、设备及存储介质

Info

Publication number: CN109657125A
Application number: CN201811531363.2A
Authority: CN
Inventors: 刘瑞
Original assignee: Ping An Urban Construction Technology Shenzhen Co Ltd
Current assignee: Ping An Urban Construction Technology Shenzhen Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-04-19

Abstract

本发明属于大数据技术领域，公开了一种基于网络爬虫的数据处理方法、装置、设备及存储介质。该方法包括：获取待处理网络数据，利用预先构建的数据结构分析模型对待处理网络数据进行分析，确定待处理网络数据的数据结构；利用预设的自动编译工具，根据数据结构，在预先部署的日志收集系统的日志收集配置文件中配置日志收集系统工作所需的数据采集主题，并重启日志收集系统；利用自动编译工具，根据数据采集主题，在预先部署的分布式发布订阅消息系统的消息发布配置文件中配置分布式发布订阅消息系统工作所需的数据发布主题，并重启分布式发布订阅消息系统。通过上述方式，大大减少了大数据采集过程中技术人员的工作量，并提升了大数据采集效率。

Description

基于网络爬虫的数据处理方法、装置、设备及存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种基于网络爬虫的数据处理方法、装置、设备及存储介质。

背景技术

随着大数据时代的到来，企业对数据的关注度越来越高，比如通过数据分析用户行为、自己产品的不足之处、竞争对手的信息等。目前，常用的大数据采集方式为借助日志收集系统，如flume(一个高可用、高可靠、分布式的海量日志采集、聚合和传输的日志收集系统)，辅以分布式发布订阅消息系统，如kafka(一种高吞吐量的分布式发布订阅消息系统)的大数据采集方式，这种方式在保证数据采集可靠性的同时，可以有效的保证数据的获取速度。

但是，上述大数据采集方式，在实际应用中，需要在待获取数据的应用服务器上分别部署flume和kafka，并且需要根据待采集的数据的数据结构，由技术人员手动配置flume和kafka的配置文件。因而，这种大数据采集方式不仅增加了技术人员的工作量，同时也降低了对数据采集效率。

所以，亟需提供一种能够减少技术人员工作量，并且可以提高大数据采集效率的数据处理方法。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种基于网络爬虫的数据处理方法、装置、设备及存储介质，旨在减少大数据采集过程中技术人员的工作量，并提高数据大采集效率。

为实现上述目的，本发明提供了一种基于网络爬虫的数据处理方法，所述方法包括以下步骤:

获取待处理网络数据，利用预先构建的数据结构分析模型对所述待处理网络数据进行分析，确定所述待处理网络数据的数据结构；

利用预设的自动编译工具，根据所述数据结构，在预先部署的日志收集系统的日志收集配置文件中配置所述日志收集系统工作所需的数据采集主题，并重启所述日志收集系统，以使所述日志收集系统根据所述数据采集主题识别所述待处理网络数据；

利用所述自动编译工具，根据所述数据采集主题，在预先部署的分布式发布订阅消息系统的消息发布配置文件中配置所述分布式发布订阅消息系统工作所需的数据发布主题，并重启所述分布式发布订阅消息系统，以使所述分布式发布订阅消息系统根据所述数据发布主题创建消息队列，并将所述日志收集系统识别到的所述待处理网络数据添加到所述消息队列。

优选地，所述获取待处理网络数据，包括：

在接收到用户触发的数据采集指令时，从所述数据采集指令中提取待处理网络数据的网络地址；

根据所述网络地址对网络爬虫进行配置，利用所述网络爬虫从所述网络地址对应的网页中获取所述待处理网络数据。

优选地，所述获取待处理网络数据之后，所述方法还包括：

将所述待处理网络数据添加到预先构建的待处理数据缓冲池；

所述利用预先构建的数据结构分析模型对所述待处理网络数据进行分析，确定所述网络数据的数据结构，包括：

从所述待处理数据缓冲池中读取所述待处理网络数据，利用预先构建的数据结构分析模型对所述待处理网络数据进行分析，确定所述待处理网络数据的数据结构。

优选地，所述根据所述数据结构，在预先部署的日志收集系统的日志收集配置文件中配置所述日志收集系统工作所需的数据采集主题之前，所述方法还包括：

获取所述日志收集配置文件中的初始数据采集主题；

判断所述初始数据采集主题是否与所述数据结构匹配；

其中，所述根据所述数据结构，在预先部署的日志收集系统的日志收集配置文件中配置所述日志收集系统工作所需的数据采集主题，包括：

若所述初始数据采集主题与所述数据结构不匹配，则根据所述数据结构在所述日志收集配置文件中配置所述日志收集系统工作所需的数据采集主题。

优选地，所述根据所述数据采集主题，在预先部署的分布式发布订阅消息系统的消息发布配置文件中配置所述分布式发布订阅消息系统工作所需的数据发布主题之前，所述方法还包括：

获取所述消息发布配置文件中的初始数据发布主题；

判断所述初始数据发布主题是否与所述数据采集主题匹配；

其中，所述根据所述数据采集主题，在预先部署的分布式发布订阅消息系统的消息发布配置文件中配置所述分布式发布订阅消息系统工作所需的数据发布主题，包括：

若所述初始数据发布主题与所述数据采集主题不匹配，则根据所述数据采集主题在所述消息发布配置文件中配置所述分布式发布订阅消息系统工作所需的数据发布主题。

优选地，所述重启所述分布式发布订阅消息系统之后，所述方法还包括：

从所述消息队列中按序读取所述待处理网络数据，并根据读取顺序为各待处理网络数据设置状态字段，按序组合各待处理网络数据得到待解析文件；

根据预设的映射关系表，确定所述待解析文件中各状态字段对应的解析模式，所述映射关系表为各状态字段与各解析模式之间的对应关系；

根据各状态字段对应的解析模式对各状态字段对应的待处理网络数据进行解析，得到各待处理网络数据对应的解析数据；

按序组合各解析数据得到解析文件，将所述解析文件存储到预先构建的数据库。

优选地，所述将所述解析文件存储到预先构建的数据库之后，所述方法还包括：

接收用户提供的用户需求，根据所述用户需求从所述数据库中查找符合所述用户需求的解析文件；

利用预先构建的需求分析模型，对所述解析文件中的解析数据进行分析，得到符合所述用户需求的分析结果；

根据所述分析结果，为所述用户推荐合适的调整方案。

此外，为实现上述目的，本发明还提出一种基于网络爬虫的数据处理装置，所述装置包括：

数据结构确定模块，用于获取待处理网络数据，利用预先构建的数据结构分析模型对所述待处理网络数据进行分析，确定所述待处理网络数据的数据结构；

数据采集主题配置模块，用于利用预设的自动编译工具，根据所述数据结构，在预先部署的日志收集系统的日志收集配置文件中配置所述日志收集系统工作所需的数据采集主题，并重启所述日志收集系统，以使所述日志收集系统根据所述数据采集主题识别所述待处理网络数据；

数据发布主题配置模块，用于利用所述自动编译工具，根据所述数据采集主题，在预先部署的分布式发布订阅消息系统的消息发布配置文件中配置所述分布式发布订阅消息系统工作所需的数据发布主题，并重启所述分布式发布订阅消息系统，以使所述分布式发布订阅消息系统根据所述数据发布主题创建消息队列，并将所述日志收集系统识别到的所述待处理网络数据添加到所述消息队列。

此外，为实现上述目的，本发明还提出一种基于网络爬虫的数据处理设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于网络爬虫的数据处理程序，所述基于网络爬虫的数据处理程序配置为实现如上文所述的基于网络爬虫的数据处理方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于网络爬虫的数据处理程序，所述基于网络爬虫的数据处理程序被处理器执行时实现如上文所述的基于网络爬虫的数据处理方法的步骤。

本发明通过采用大数据处理技术，预先构建数据结构分析模型，并利用构建的数据结构分析模型对待处理网络数据进行分析处理，从而可以快速、精准的确定待处理网络数据的数据结构，保证了后续配置信息的准确性；通过利用预先编译的自动编译工具根据确定的数据结构配置日志收集系统工作所需的数据采集主题，并对日志收集系统进行重启；利用自动编译工具根据为日志收集系统配置的数据采集主题，配置分布式发布订阅消息系统工作所需的数据发布主题，并对分布式发布订阅消息系统进行重启，实现了数据采集主题和数据发布主题的自动化配置，从而大大减少了大数据采集过程中技术人员的工作量，显著提升了大数据采集效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的基于网络爬虫的数据处理设备的结构示意图；

图2为本发明基于网络爬虫的数据处理方法第一实施例的流程示意图；

图3为本发明基于网络爬虫的数据处理方法第二实施例的流程示意图；

图4为本发明基于网络爬虫的数据处理装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于网络爬虫的数据处理设备结构示意图。

如图1所示，该基于网络爬虫的数据处理设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对基于网络爬虫的数据处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于网络爬虫的数据处理程序。

在图1所示的基于网络爬虫的数据处理设备中，网络接口1004主要用于建立与各大数据平台、网页的通信连接；用户接口1003主要用于与用户进行数据交互；本发明基于网络爬虫的数据处理设备中的处理器1001、存储器1005可以设置在基于网络爬虫的数据处理设备中，所述基于网络爬虫的数据处理设备通过处理器1001调用存储器1005中存储的基于网络爬虫的数据处理程序，并执行本发明实施例提供的基于网络爬虫的数据处理方法。

本发明实施例提供了一种基于网络爬虫的数据处理方法，参照图2，图2为本发明一种基于网络爬虫的数据处理方法第一实施例的流程示意图。

本实施例中，所述基于网络爬虫的数据处理方法包括以下步骤：

步骤S10，获取待处理网络数据，利用预先构建的数据结构分析模型对所述待处理网络数据进行分析，确定所述待处理网络数据的数据结构。

具体的说，本实施例中的执行主体为预先构建的用户进行数据处理的爬虫解析系统。在实际应用中，该系统可以部署在物理服务器(占用实际物理空间的服务器)上，也可以不是在虚拟云服务器上，还可以根据实际使用场景，将部分功能部署在物理服务器上，将部分功能不是在虚拟云服务器上，具体的设置方式，本领域的技术人员可以根据需要设置，此处不做限制。

此外，值得一提的是，在本实施例中，获取待处理网络数据的操作，可以基于网络爬虫技术实现，具体的实现过程大致如下：

比如，在接收到用户触发的数据采集指令时，先从所述数据采集指令中提取待处理网络数据的网络地址；然后，再根据所述网络地址对网络爬虫进行配置，这样便可以利用所述网络爬虫从所述网络地址对应的网页中获取所述待处理网络数据。

关于获取待处理网络数据的网络爬虫，可以是通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等众多网络爬虫中的任意一种或几种，在具体应用中，本领域的技术人员可以根据需要选取，本发明对此不做任何限制。

此外，应当理解的是，上述所说的网络地址，具体可以是待处理网络数据所在的网页的统一资源定位符(Uniform Resource Locator，URL)，也可以任意大数据平台中，所述待处理网络数据的数据库存储地址，此处不再一一列举，对此也不做任何限制。

需要说明的是，以上给出的仅为一种利用网络爬虫获取待采集的网络数据的具体实现流程，在实际应用中，本领域的技术人员可以根据需要进行设置，此处不做限制。

此外，值得一提的是，为了保证每次获取到的待处理数据都可以得到相应的处理，避免遗漏或者由于数据结构分析模型处理延迟导致错过对其他待处理数据的处理。在获取到待处理网络数据之后，可以先将所述待处理网络数据添加到预先构建的待处理数据缓冲池中。

相应地，利用预先构建的数据结构分析模型对所述待处理网络数据进行分析，确定所述待处理网络数据的数据结构的操作，则变为：从所述待处理数据缓冲池中读取所述待处理网络数据，利用预先构建的数据结构分析模型对所述待处理网络数据进行分析，确定所述待处理网络数据的数据结构。

关于上述所说的预先构建的数据结构分析模型，具体可以将各大数据平台存储的各种数据结构的数据作为训练数据，采用卷积神经网络技术训练获得。

具体的训练过程可以是先根据训练数据构建训练模型，然后基于卷积神经网络技术对所述训练模型进行训练，直到输入某一网络数据，能够快速、准确的输出该网络数据对应的数据结构便可完成数据结构分析模型的构建。

此外，在构建数据结构分析模型的过程中，为了尽可能的加快训练速度，缩短训练周期，还可以将训练模型中通常为5×5的卷积核，拆分成至少两个3×3的卷积核，这样既可以加深训练深度，又可以缩短训练周期，在保证数据结构分析模型精确度的同时，也提升了训练速度。

需要说明的是，以上给出的仅为一种具的训练方式，对本发明的技术方案并不构成限定，在具体实现中，本领域的技术人员可以根据需要进行设置，此处不做限制。

此外，值得一提的是，本实施了中所说的数据结构，可以是指待处理网络数据的实际数据类型，比如是整型、字符串、浮点型、货币型等，此处不再一一列举，对此也不做任何限制。

进一步地，为了能够更好的标识待处理网络数据，除了可以确定待处理网络数据的数据结构，还可以利用相应的大数据模型识别待处理网络数据的字段名称等。

步骤S20，利用预设的自动编译工具，根据所述数据结构，在预先部署的日志收集系统的日志收集配置文件中配置所述日志收集系统工作所需的数据采集主题，并重启所述日志收集系统，以使所述日志收集系统根据所述数据采集主题识别所述待处理网络数据。

具体的说，在实际应用中，本实施例中所说的自动编译工具可以是技术人员预先编译好的一个shell(一个命令行解释器)脚本，该shell脚本只要接收数据结构分析模型性提供的数据结构就启动执行，预先规定的配置操作。

关于该shell脚本的编译方式，大致可以如下所述：

比如，先打开文本编辑器，新建一个文件，如命名为test.sh(扩展名“sh”代表的则是shell，并不影响最终编译出的脚本文件的执行)；然后，在test.sh文件的第一行设置一个约定的标记，比如“#！”，用来告知系统这个test.sh脚本文件需要什么解释器来执行，即具体使用哪一种shell；接着，采用shell能够识别的echo指令，按照预设规则编译配置逻辑即可。

由于shell脚本的编译方式已经较为普及，本领域的技术人员可以根据shell的相关文档进行编译，具体的实现方式，此处不再赘述，也不做任何限制。

值得一提的是，本实施例中所说的日志收集系统具体是指flume。在实际应用中，flume可以与本实施例中所说的爬虫解析系统部署在相同的服务器上，也可以单独部署在与部署爬虫解析系统的服务器通信连接的其他服务器上，具体的部署方式，本领域的技术人员可以根据需要进行设置，此处不做限制。

相应地，所述日志收集配置文件即为flume.config，所述数据采集主题则为用来标识flume当前采集的待处理网络数据的数据结构信息，为了方便区分这里将数据采集主题命名为flume_topic。

应当理解的是，此处之所以在配置完flume_topic之后，会对flume进行重启操作，是为了保证flume在根据flume_topic从待处理数据缓冲池中识别待处理网络数据时，读取到的待处理网络数据为与配置所述flume_topic时依据的数据结构匹配的待处理数据。如果在实际应用中，采用的日志收集系统不需要重启即可刷新配置的flume_topic，并按照新配置的flume_topic识别待处理网络数据，则此处也可以不进行重启。

此外，值得一提的是，在实际应用中，为了减少对爬虫解析系统资源的占用，还可以在shell文件中设置相应的判断逻辑，比如在根据所述数据结构，在预先部署的日志收集系统的日志收集配置文件中配置所述日志收集系统工作所需的数据采集主题的执行语句之前，依次设置获取所述日志收集配置文件中的初始数据采集主题和判断所述初始数据采集主题是否与所述数据结构匹配的执行语句。

相应地，自动编译工具在接收到数据结构分析模块确定的数据结构之后，在执行根据所述数据结构，在预先部署的日志收集系统的日志收集配置文件中配置所述日志收集系统工作所需的数据采集主题之前，先执行获取所述日志收集配置文件中的初始数据采集主题和判断所述初始数据采集主题是否与所述数据结构匹配的操作。在判定所述初始数据采集主题与所述数据结构不匹配时，才执行根据所述数据结构在所述日志收集配置文件中配置所述日志收集系统工作所需的数据采集主题的操作；否则，直接执行根据所述初始数据采集主题进行配置数据发布主题的操作。

需要说明的是，以上给出的仅为一种数据采集主题的具体配置逻辑，对本发明的技术方案并不构成任何限定，在具体实现中，本领域的技术人员可以根据需要进行设置，此处不做限制。

步骤S30，利用所述自动编译工具，根据所述数据采集主题，在预先部署的分布式发布订阅消息系统的消息发布配置文件中配置所述分布式发布订阅消息系统工作所需的数据发布主题，并重启所述分布式发布订阅消息系统，以使所述分布式发布订阅消息系统根据所述数据发布主题创建消息队列，并将所述日志收集系统识别到的所述待处理网络数据添加到所述消息队列。

具体的说，本实施例中所说的分布式发布订阅消息系统实质为与flume配合使用的kafka。

同样，在实际应用中，kafka可以与本实施例中所说的爬虫解析系统部署在相同的服务器上，也可以单独部署在与部署爬虫解析系统的服务器通信连接的其他服务器上，还可以与flume部署在同一个服务器上，具体的部署方式，本领域的技术人员可以根据需要进行设置，此处不做限制。

相应地，所述消息发布配置文件即为kafka.config，所述数据发布主题则为与flume_topic匹配，用来作为创建消息队列时所需的依赖，为了方便区分这里将数据采集主题命名为kafka_topic。

应当理解的是，此处之所以在配置完kafka_topic之后，会对kafka进行重启操作，是为了保证kafka在根据kafka_topic创建消息队列时，创建的消息队列为与当前kafka_topic匹配的消息队列。如果在实际应用中，采用的分布式发布订阅消息系统不需要重启即可刷新配置的kafka_topic，并按照新配置的kafka_topic创建消息队列，则此处也可以不进行重启。

此外，为了进一步减少对爬虫解析系统资源的占用，还可以在shell文件中设置的根据所述数据采集主题，在预先部署的分布式发布订阅消息系统的消息发布配置文件中配置所述分布式发布订阅消息系统工作所需的数据发布主题的执行语句之前，设置获取所述消息发布配置文件中的初始数据发布主题和判断所述初始数据发布主题是否与所述数据采集主题匹配的操作。

相应地，自动编译工具在根据所述数据采集主题，在预先部署的分布式发布订阅消息系统的消息发布配置文件中配置所述分布式发布订阅消息系统工作所需的数据发布主题之前，先执行获取所述消息发布配置文件中的初始数据发布主题和判断所述初始数据发布主题是否与所述数据采集主题匹配的操作。在判定所述初始数据发布主题与所述数据采集主题不匹配时，才执行根据所述数据采集主题在所述消息发布配置文件中配置所述分布式发布订阅消息系统工作所需的数据发布主题的操作；否则，直接跳过数据发布主题的配置操作。

需要说明的是，以上给出的仅为一种数据发布主题的具体配置逻辑，对本发明的技术方案并不构成任何限定，在具体实现中，本领域的技术人员可以根据需要进行设置，此处不做限制。

通过上述描述不难发现，本实施例提供的基于网络爬虫的数据处理方法，通过采用大数据处理技术，预先构建数据结构分析模型，并利用构建的数据结构分析模型对待处理网络数据进行分析处理，从而可以快速、精准的确定待处理网络数据的数据结构，保证了后续配置信息的准确性。

此外，本实施例提供的基于网络爬虫的数据处理方法，通过利用预先编译的自动编译工具根据确定的数据结构配置日志收集系统工作所需的数据采集主题，并对日志收集系统进行重启；利用自动编译工具根据为日志收集系统配置的数据采集主题，配置分布式发布订阅消息系统工作所需的数据发布主题，并对分布式发布订阅消息系统进行重启，实现了数据采集主题和数据发布主题的自动化配置，在减少大数据采集过程中技术人员的工作量的同时，也显著提升了大数据采集效率。

参考图3，图3为本发明一种基于网络爬虫的数据处理方法第二实施例的流程示意图。

基于上述第一实施例，本实施例基于网络爬虫的数据处理方法在所述步骤S30之后，还包括：

步骤S40，对所述待处理数据进行解析，得到解析文件，并将所述解析文件存储到预先构建的数据库。

具体的说，关于步骤S40中所说的对所述待处理数据进行解析，得到解析文件，并将所述解析文件存储到预先构建的数据库的操作，在实际应用中，大致可以通过如下步骤实现：

首先，从所述消息队列中按序读取所述待处理网络数据，并根据读取顺序为各待处理网络数据设置状态字段，按序组合各待处理网络数据得到待解析文件。

具体的说，本实施例中所说的状态字段为技术人员根据本领域中当前技术领域可能存在的数据结构的类型来设置，即可以为不同数据结构类型的待处理网络数据分别设置用于标识其唯一性的状态字段。

关于状态字段的命名，本领域的技术人员可以根据需要进行定义，本案对此不作限制。

比如说，消息队列中依次存放有待处理网络数据A、待处理网络数据B和待处理网络数据C，三种数据结构不相同的待处理网络数据。则在读取到待处理网络数据A时，可以为其设置状态字段1；读取到待处理网络数据B时，可以为其设置状态字段2；读取到待处理网络数据C时，可以为其设置状态字段3。最后，按照待处理数据的读取顺序，按照预设规则进行组合即可得到待解析文件。

组合的方式，可以如下：

状态字段1：待处理网络数据A；

状态字段2：待处理网络数据B；

状态字段3：待处理网络数据C。

需要说明的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体实现中，本领域的技术人员可以根据需要进行设置，此处不做限制。

然后，根据预设的映射关系表，确定所述待解析文件中各状态字段对应的解析模式，所述映射关系表为各状态字段与各解析模式之间的对应关系。

具体的说，本实施例中采用的解析方式是“责任链”和“工厂模式”相结合的方式。

所谓“责任链”和“工厂模式”相结合的解析方式，具体是指：

所谓“责任链”，是指状态字段采用链式存储结构进行存储，即预先根据待处理网络数据可能存在的状态字段创建存储区块，所述存储区块用于存储每个状态字段对应的解析模式的标识信息。

而“工厂模式”，则是将上述各个状态字段对应的解析模式统一管理，存储在一个预先构建的解析模式池中。

当根据提取的状态字段，从“责任链”上确定对应的存储区块，并获取到存储区块中存储的解析模式的标识信息后，便可以根据获取到的标识信息从解析模式池中查找对应的解析模式，然后将该状态字段对应的待处理网络数据交给该状态字段对应的解析模式进行解析出来即可。

接着，根据各状态字段对应的解析模式对各状态字段对应的待处理网络数据进行解析，得到各待处理网络数据对应的解析数据。

最后，按序组合各解析数据得到解析文件，将所述解析文件存储到预先构建的数据库。

通过上述描述不难发现，本实施例中提供的基于网络爬虫的数据处理方法，通过为不同的待处理数据设置不同的状态字段，然后采用“责任链”和“工厂模式”相结合的模式来确定用于处理不同状态字段对应的待处理数据的的解析模式，从而实现了对待解析文件中多个待处理网络数据的独立解析，解决了多个待处理网络数据之间相互干扰、影响的问题，进而大大提升了解析速度。

此外，值得一提的是，由于在实际应用中，企业对数据的需求并非单纯的进行采集、解析、存储，通常还会根据存储的数据进行一系列的分析，以获得诸如消费者行购物喜好信息、企业自己的产品的不足之处、竞争对手的信息等。

因而，在将所述解析文件存储到预先构建的数据库之后，若接收到用户(如企业管理人员)提供的用户需求，则可以根据所述用户需求从所述数据库中查找符合所述用户需求的解析文件；然后，利用预先构建的需求分析模型，对所述解析文件中的解析数据进行分析，得到符合所述用户需求的分析结果；最后，根据所述分析结果，为所述用户推荐合适的调整方案。

关于，根据所述分析结果，为所述用户推荐合适的调整方案的操作，可以大致如下：

比如，在用户需求为“20岁到30岁的女性用户在购买护肤品时参考的因素”，若经分析所得的分析结果为：年龄在20岁～25岁的女性用户在购买护肤品时看中产品价格和代言明星、年龄在26岁～30岁的女性用户在购买护肤品时看中产品效果和产品品牌，则为所述用户推荐的调整方案可以是：在为年龄在20岁～25岁的女性用户推荐适用的护肤品时，主选平价且由当红明星代言的护肤产品；在为年龄在26岁～30岁的女性用户推荐适用的护肤品时，主选驰名品牌及具有抗衰老的护肤产品。

需要说明的是，以上仅为举例说明，对本发明的技术方案并不构成限定，在具体实现中，本领域的技术人员可以根据需要进行设置，此处不做限制。

此外，应当理解的是，上述所说的分析模型的构建方式与第一实施例中提到的数据结构分析模型的构建方式大致相同，具体的构建流程此处不再赘述，在具体实现中，本领域的技术人员可以根据需要选取合适的数据作为训练数据来，及训练方式来构建分析模型，此处不做限制。

通过上述描述不难发现，本实施例中提供的基于网络爬虫的数据处理方法，通过采用大数据处理技术预先构建需求分析模型，然后利用预先构建的需求分析模型对符合用户需求的解析文件中的解析数据进行分析，可以快速、准确的得出用户所需的信息，比如消费者行购物喜好信息、企业自己的产品的不足之处、竞争对手的信息等。

并且，根据分析所得的分析结果来为用户推荐调整方案，不仅可以达到辅助用户调整自己业务的目的，还可以减少传统人力分析、制定调整方案过程中需要投入的大量人力物力，以及因为人为因素导致的误差。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于网络爬虫的数据处理程序，所述基于网络爬虫的数据处理程序被处理器执行时实现如上文所述的基于网络爬虫的数据处理方法的步骤。

参照图4，图4为本发明基于网络爬虫的数据处理装置第一实施例的结构框图。

如图4所示，本发明实施例提出的基于网络爬虫的数据处理装置包括：数据结构确定模块4001、数据采集主题配置模块4002和数据发布主题配置模块4003。

具体的说，所述数据结构确定模块4001，用于获取待处理网络数据，利用预先构建的数据结构分析模型对所述待处理网络数据进行分析，确定所述待处理网络数据的数据结构。

所述数据采集主题配置模块4002，用于利用预设的自动编译工具，根据所述数据结构，在预先部署的日志收集系统的日志收集配置文件中配置所述日志收集系统工作所需的数据采集主题，并重启所述日志收集系统，以使所述日志收集系统根据所述数据采集主题识别所述待处理网络数据。

所述数据发布主题配置模块4003，用于利用所述自动编译工具，根据所述数据采集主题，在预先部署的分布式发布订阅消息系统的消息发布配置文件中配置所述分布式发布订阅消息系统工作所需的数据发布主题，并重启所述分布式发布订阅消息系统，以使所述分布式发布订阅消息系统根据所述数据发布主题创建消息队列，并将所述日志收集系统识别到的所述待处理网络数据添加到所述消息队列。

需要说明的是，本实施例中获取待处理网络数据的操作，具体是基于网络爬虫技术实现的，具体的实现过程大致如下：

相应地，所述数据结构确定模块4001在利用预先构建的数据结构分析模型对所述待处理网络数据进行分析，确定所述待处理网络数据的数据结构的时候，只需按照待处理数据缓冲池中存储的待处理网络数据的顺序依次从所述待处理数据缓冲池中读取所述待处理网络数据，然后在利用预先构建的数据结构分析模型对所述待处理网络数据进行分析，确定所述待处理网络数据的数据结构即可。

进一步地，为了减少对爬虫解析系统资源的占用，所述基于网络爬虫的数据处理装置还可以包括：初始数据采集主题获取模块和初始数据采集主题判断模块。

其中，所述初始数据采集主题获取模块，用于获取所述日志收集配置文件中的初始数据采集主题；所述初始数据采集主题判断模块判断所述初始数据采集主题是否与所述数据结构匹配。

相应地，所述初始数据采集主题判断模块判断在判定所述初始数据采集主题与所述数据结构不匹配时，才通知所述数据采集主题配置模块4002根据所述数据结构在所述日志收集配置文件中配置所述日志收集系统工作所需的数据采集主题；否则，直接通知所述数据发布主题配置模块4003根据所述初始数据采集主题进行配置数据发布主题的操作。

此外，为了进一步减少对爬虫解析系统资源的占用，所述基于网络爬虫的数据处理装置还可以包括：初始数据发布主题获取模块和初始数据发布主题判断模块。

其中，所述初始数据发布主题获取模块，用于获取所述消息发布配置文件中的初始数据发布主题；所述初始数据发布主题判断模块，用于判断所述初始数据发布主题是否与所述数据采集主题匹配。

相应地，所述初始数据发布主题判断模块在判定所述初始数据发布主题与所述数据采集主题不匹配时，才通知所述数据发布主题配置模块4003根据所述数据采集主题在所述消息发布配置文件中配置所述分布式发布订阅消息系统工作所需的数据发布主题；否则，无需进行数据发布主题的配置操作。

需要说明的是，以上给出的仅为一种数据采集主题和数据发布主题的具体配置逻辑，对本发明的技术方案并不构成任何限定，在具体实现中，本领域的技术人员可以根据需要进行设置，此处不做限制。

通过上述描述不难发现，本实施例提供的基于网络爬虫的数据处理装置，通过采用大数据处理技术，预先构建数据结构分析模型，并利用构建的数据结构分析模型对待处理网络数据进行分析处理，从而可以快速、精准的确定待处理网络数据的数据结构，保证了后续配置信息的准确性。

此外，本实施例提供的基于网络爬虫的数据处理装置，通过利用预先编译的自动编译工具根据确定的数据结构配置日志收集系统工作所需的数据采集主题，并对日志收集系统进行重启；利用自动编译工具根据为日志收集系统配置的数据采集主题，配置分布式发布订阅消息系统工作所需的数据发布主题，并对分布式发布订阅消息系统进行重启，实现了数据采集主题和数据发布主题的自动化配置，在减少大数据采集过程中技术人员的工作量的同时，也显著提升了大数据采集效率。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的基于网络爬虫的数据处理方法，此处不再赘述。

基于上述基于网络爬虫的数据处理装置的第一实施例，提出本发明基于网络爬虫的数据处理装置第二实施例。

在本实施例中，所述基于网络爬虫的数据处理装置还包括待解析文件生成模块、解析模式确定模块、解析模块和解析文件生成模块。

其中，所述待解析文件生成模块，用于从所述消息队列中按序读取所述待处理网络数据，并根据读取顺序为各待处理网络数据设置状态字段，按序组合各待处理网络数据得到待解析文件。

所述解析模式确定模块，用于根据预设的映射关系表，确定所述待解析文件中各状态字段对应的解析模式，所述映射关系表为各状态字段与各解析模式之间的对应关系；

所述解析模块，用于根据各状态字段对应的解析模式对各状态字段对应的待处理网络数据进行解析，得到各待处理网络数据对应的解析数据；

所述解析文件生成模块，用于按序组合各解析数据得到解析文件，将所述解析文件存储到预先构建的数据库。

通过上述描述不难发现，本实施例中提供的基于网络爬虫的数据处理装置，通过为不同的待处理数据设置不同的状态字段，然后采用“责任链”和“工厂模式”相结合的模式来确定用于处理不同状态字段对应的待处理数据的的解析模式，从而实现了对待解析文件中多个待处理网络数据的独立解析，解决了多个待处理网络数据之间相互干扰、影响的问题，进而大大提升了解析速度。

因而，所述基于网络爬虫的数据处理装置还可以包括目标解析文件查找模块、需求分析模块和调整方案推荐模块。

其中，所述目标解析文件查找模块，用于在接收到用户(如企业管理人员)提供的用户需求时，根据所述用户需求从所述数据库中查找符合所述用户需求的解析文件。

所述需求分析模块，用于利用预先构建的需求分析模型，对所述解析文件中的解析数据进行分析，得到符合所述用户需求的分析结果。

所述调整方案推荐模块，用于根据所述分析结果，为所述用户推荐合适的调整方案。

此外，应当理解的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于网络爬虫的数据处理方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述获取待处理网络数据，包括：

3.如权利要求1或2所述的方法，其特征在于，所述获取待处理网络数据之后，所述方法还包括：

4.如权利要求1或2所述的方法，其特征在于，所述根据所述数据结构，在预先部署的日志收集系统的日志收集配置文件中配置所述日志收集系统工作所需的数据采集主题之前，所述方法还包括：

获取所述日志收集配置文件中的初始数据采集主题；

判断所述初始数据采集主题是否与所述数据结构匹配；

5.如权利要求1或2所述的方法，其特征在于，所述根据所述数据采集主题，在预先部署的分布式发布订阅消息系统的消息发布配置文件中配置所述分布式发布订阅消息系统工作所需的数据发布主题之前，所述方法还包括：

获取所述消息发布配置文件中的初始数据发布主题；

判断所述初始数据发布主题是否与所述数据采集主题匹配；

6.如权利要求1或2所述的方法，其特征在于，所述重启所述分布式发布订阅消息系统之后，所述方法还包括：

7.如权利要求6所述的方法，其特征在于，所述将所述解析文件存储到预先构建的数据库之后，所述方法还包括：

根据所述分析结果，为所述用户推荐合适的调整方案。

8.一种基于网络爬虫的数据处理装置，其特征在于，所述装置包括：

9.一种基于网络爬虫的数据处理设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于网络爬虫的数据处理程序，所述基于网络爬虫的数据处理程序配置为实现如权利要求1至7中任一项所述的基于网络爬虫的数据处理方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有基于网络爬虫的数据处理程序，所述基于网络爬虫的数据处理程序被处理器执行时实现如权利要求1至7任一项所述的基于网络爬虫的数据处理方法的步骤。