CN110069690B

CN110069690B - 一种主题网络爬虫方法、装置及介质

Info

Publication number: CN110069690B
Application number: CN201910334543.XA
Authority: CN
Inventors: 杨承鑫
Original assignee: Chengdu Yingchao Technology Co ltd
Current assignee: Chengdu Yingchao Technology Co ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2021-12-07
Anticipated expiration: 2039-04-24
Also published as: CN110069690A

Abstract

本发明涉及一种主题网络爬虫方法、装置及介质，所述方法包括：采集给定网站中的产品信息，对所述产品信息按照主题进行分类标注，得到训练样本；利用训练样本对遗传算法+BP神经网络模型进行训练，得到训练好的模型；输入要采集的目标网站url、采集的主题、采集阈值，对目标网站进行数据采集，采用超链接广度优先遍历策略，获取与主题同级的页面；对获取到的页面进行数据清洗，将清洗完成后的数据输入训练好的模型中，得到优解，并对优解对应的页面进行采集、存储，并输出关键字段。本发明采用遗传算法+BP神经网络模型以达到减少前期盲目搜索，防止收敛到局部最优的目的，解决了传统主题爬虫中出现的精度低，覆盖面低，数据不完整，主题关联度不强的问题。

Description

一种主题网络爬虫方法、装置及介质

技术领域

本发明涉及数据挖掘和搜索引擎技术领域，特别涉及一种主题网络爬虫方法、装置及介质。

背景技术

随着互联网的信息量飞速增长以及人们对搜索引擎的要求越来越高，传统主题爬虫的局限性，如精度低，覆盖面低，数据获取不完整，主题关联性低等缺点限制了主题爬虫的发展。为了追求更好的爬虫效果，提高主题关联性，提高准确性以及爬虫的效率，忽略掉与主题无关的网页，只针对于关联性强的网页进行数据采集是本领域技术人员亟需解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供了一种主题网络爬虫方法、装置及介质，用于解决传统主题爬虫中出现的精度低，覆盖面低，数据不完整，主题关联性不强等问题。

第一方面，本申请提供了一种主题网络爬虫方法，所述方法包括：

采集给定网站中的产品信息，对所述产品信息按照主题进行分类标注，得到训练样本；

利用训练样本对遗传算法+BP神经网络模型进行训练，得到训练好的模型；

输入要采集的目标网站url、采集的主题、采集阈值，对目标网站进行数据采集，采用超链接广度优先遍历策略，获取与主题同级的页面；

对获取到的页面进行数据清洗，将清洗完成后的数据输入训练好的模型中，得到优解，并对优解对应的页面进行采集、存储，并输出关键字段。

第二方面，提供一种主题网络爬虫系统，所述系统包括：

样本采集模块，用于采集给定网站中的产品信息，对所述产品信息按照主题进行分类标注，得到训练样本；

模型训练模块，用于利用训练样本对遗传算法+BP神经网络模型进行训练，得到训练好的模型；

目标采集模块，用于输入要采集的目标网站url、采集的主题、采集阈值，对目标网站进行数据采集，采用超链接广度优先遍历策略，获取与主题同级的页面；

目标输出模块，对获取到的页面进行数据清洗，将清洗完成后的数据输入训练好的模型中，得到优解，并对优解对应的页面进行采集、存储，并输出关键字段。

第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行上述第一方面所述的方法。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明实施例提供了一种主题网络爬虫方法、装置及介质，所述方法包括：采集给定网站中的产品信息，对所述产品信息按照主题进行分类标注，得到训练样本；利用训练样本对遗传算法+BP神经网络模型进行训练，得到训练好的模型；输入要采集的目标网站url、采集的主题、采集阈值，对目标网站进行数据采集，采用超链接广度优先遍历策略，获取与主题同级的页面；对获取到的页面进行数据清洗，将清洗完成后的数据输入训练好的模型中，得到优解，并对优解对应的页面进行采集、存储，并输出关键字段。本发明采用遗传算法+BP神经网络模型以达到减少前期盲目搜索，防止收敛到局部最优的目的，解决了传统主题爬虫中出现的精度低，覆盖面低，数据不完整，主题关联度不强的问题。进行测试识别中，多批次测试正确率达90％；加入了持续优化机制，在每一批次进行识别后，将错误数据修整好加入训练集，进行重新训练，提高了正确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的主题网络爬虫方法流程示意图；

图2为本发明实施例一提供的遗传算法+BP神经网络模型训练方法流程示意图；

图3为本发明实施例一提供的遗传算法流程示意图；

图4为本发明实施例一提供的数据清洗流程示意图；

图5为本发明实施例二提供的装置结构示意图；

图6为本发明实施例三提供的计算机介质的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了解决现有技术中传统主题爬虫的局限性，如精度低，覆盖面低，数据获取不完整，主题关联性低等缺点限制了主题爬虫的发展，本发明实施例提供了一种主题网络爬虫方法、装置及介质，所述方法包括：采集给定网站中的产品信息，对所述产品信息按照主题进行分类标注，得到训练样本；利用训练样本对遗传算法+BP神经网络模型进行训练，得到训练好的模型；输入要采集的目标网站url、采集的主题、采集阈值，对目标网站进行数据采集，采用超链接广度优先遍历策略，获取与主题同级的页面；对获取到的页面进行数据清洗，将清洗完成后的数据输入训练好的模型中，得到优解，并对优解对应的页面进行采集、存储，并输出关键字段。本发明采用遗传算法+BP神经网络模型以达到减少前期盲目搜索，防止收敛到局部最优的目的，解决了传统主题爬虫中出现的精度低，覆盖面低，数据不完整，主题关联度低等问题。进行测试识别中，多批次测试正确率达90％；加入了持续优化机制，在每一批次进行识别后，将错误数据修整好加入训练集，进行重新训练，提高正确率。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例一

本实施例提供一种主题网络爬虫方法，如图1至图3所示，所述方法包括：

S1:训练集的准备：采集给定网站中的产品信息，对所述产品信息按照主题进行分类标注，得到训练样本。

本步骤中，采集带有明确主题分类网站中主题数据的网页源码，整合多个网站中的主题数据，建立主题体系，使用爬虫爬取网页源码；

从网页源码中解析并筛选出主题特征，并在主题栏中标注所属主题，得到训练样本，所述主题特征包括：产品名称、描述内容、产品类目信息、产品详情和相关推荐产品。

S2:利用训练样本对遗传算法+BP神经网络模型进行训练，得到训练好的模型，以达到减少前期盲目搜索，防止BP神经网络收敛速度慢或收敛到局部最优的目的。

遗传算法是模拟物竞天择的生物进化过程，本质是对染色体模式所进行的一系列的运算，通过选择算子将训练样本的优良模式遗传到下一代，利用交叉算子进行模式重组，利用变异算子进行模式突变，达到遗传目的，得到对应主题的最优解。

本步骤中利用遗传算法和BP神经网络模型的主要思路为：构建BP神经网络模型，将训练样本中的数据归一化处理后加入BP神经网络模型生成预测数据，并将预测数据与预设的期望数据之间的误差作为适应度函数；同时读取训练样本，将训练样本作为种群，初始化种群后，对种群进行实数编码，循环进行选择、交叉、变异、择优、采用适应度函数计算适应程度(最好和平均适应度)等操作，并且淘汰最差个体，迭代求解最佳初始阀值和权值，直到达到进化次数(或者最优值长期不提升，则会提前结束)，得到最优的初始权值和阈值以及进化代数、平均适应度等相关数据。将得到的最佳初始权值和阈值作为BP神经网络模型的参数，并利用训练数据来训练BP神经网络模型，使用测试数据测试神经网络模型，计算预测数据正确率。

上述思路的主要实现过程为：

(1)将训练样本按照设定的比例分为训练集与测试集，这里可以将训练集与测试集以19：1进行等分类均分；

(2)设置遗传算法的相关参数，所述相关参数包括种群规模设置为100、迭代次数设置为50、交叉概率设置为0.3和变异概率设置为0.01；

(3)构建结构为2-3-1的BP神经网络模型，输入层数为2，神经网络层数为3，输出层数为1；

(4)将训练集中的数据归一化处理后加入BP神经网络模型生成预测数据，并将预测数据与预设的期望数据之间的误差作为适应度函数；

(5)将训练集作为种群，初始化种群，对种群进行实数编码，随机生成第一代染色体，根据个体采用适应度函数分别计算每一条的适应程度，根据个体得到的初始权重，预测出个体期望输出的绝对误差值E作为个体适应度值F，计算公式为：

其中，n为输出节点数，y_i为i节点的期望输出，o_i为i节点实际输出，k为实验系数0.1；

对所有个体按照特征适应度大小进行排序，得出概率分配表，将概率值分配给每个个体，基于概率用赌盘选择法产生下一代个体，个体的选择概率为：

其中，f_i为个体适应度值F的倒数，N为种群个体数目，通过均匀杂交、交叉染色体，生成大量染色体，以较低概率进行变异操作，复制其染色体，得到最优初始权值和阈值；

(6)将得到的最优初始权值和阈值作为BP神经网络模型的参数，得到最优BP神经网络模型；

(7)将测试集输入最优BP神经网络模型中进行测试，计算测试误差，当满足终止条件后，停止训练，得到训练好的模型。

(8)模型生成测试中，若有部分主题精度倾斜，权重过高的情况，将其降低权重，对训练集数据进行过采样，即增加小类样本数的个数，达到样本均衡，各类主题均衡的目的，生成最终模型，并记录相关参数。

S3:输入要采集的目标网站url、采集的主题、采集阈值，对目标网站进行数据采集，采用超链接广度优先遍历策略，获取与主题同级的页面。

本步骤中，输入要采集的网站url、采集的主题、以及采集的数量，使用广度优先遍历策略遍历出所有与起始页面相关联的url，建立新的url列表，判断新列表相较于之前列表有无新增的url，如果有，针对于新的url列表进行页面源码的获取与解析，直到不再新增url为止；

其中，广度优先遍历策略为：从某个顶级url V出发，访问该url所链接页面上的所有超链接V1，V2..VN；再从链接的url V1，V2...VN出发，再访问他们各自的所有的超链接；重复上述步骤，直到所有的超链接都被访问。

S4:对获取到的页面进行数据清洗，将清洗完成后的数据输入训练好的模型中，得到优解，并对优解对应的页面进行采集、存储，并输出关键字段。

本步骤中，对获取到的页面进行数据清洗，如图4所示，其具体过程为：获取采集到的页面源码，读取源码title标签中的内容，并将所述内容与url关联保存，同时删除网页头部、尾部、网站本身导航栏的内容，保留需要的主体内容，对主体内容进行数据解析，获得需要的名称、类目、详情、描述和相关推荐信息。

基于同一发明构思，本申请提供了实施例一对应的装置，详见实施例二。

实施例二

相应于实施例一，本实施例提供了一种主题网络爬虫装置，如图5所示，所述装置包括：样本采集模块，用于采集给定网站中的产品信息，对所述产品信息按照主题进行分类标注，得到训练样本；

由于本实施例所介绍的装置为实施本申请实施例一中一种主题网络爬虫方法所采用的装置，故而基于本申请实施例一中所介绍的方法，本领域所属技术人员能够了解本实施例的装置的具体实施方式以及其各种变化形式，所以在此对于该装置如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备，都属于本申请所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的存储介质，详见实施例三。

实施例三

如图6所示，本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：

在具体实施过程中，该计算机程序被处理器执行时，可以实现实施例一中任一实施方式。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

本发明实施例提供的一种主题网络爬虫方法、装置及计算机设备能带来的有益效果至少是：本发明采用遗传算法+BP神经网络模型以达到减少前期盲目搜索，防止收敛到局部最优的目的，解决了传统主题爬虫中出现的精度低，覆盖面低，数据不完整，主题关联度低等问题。进行测试识别中，多批次测试正确率达90％；加入了持续优化机制，在每一批次进行识别后，将错误数据修整好加入训练集，进行重新训练，提高正确率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种主题网络爬虫方法，其特征在于，所述方法包括：

对获取到的页面进行数据清洗，将清洗完成后的数据输入训练好的模型中，得到优解，并对优解对应的页面进行采集、存储，并输出关键字段；

其中，所述利用训练样本对遗传算法+BP神经网络模型进行训练，得到训练好的模型，包括：在将测试集输入BP神经网络模型中进行测试、进行模型生成测试的过程中，若出现部分主题精度倾斜、权重过高的情况，将其降低权重，对训练集数据进行过采样，增加小类样本数的个数，进行训练，当满足终止条件后，停止训练，生成最终模型，并记录相关参数；

而且，所述利用训练样本对遗传算法+BP神经网络模型进行训练，得到训练好的模型，具体为：

将训练样本按照设定的比例分为训练集与测试集；

设置遗传算法的相关参数，所述相关参数包括种群规模、迭代次数、交叉概率和变异概率；

构建结构为2-3-1的BP神经网络模型，输入层数为2，神经网络层数为3，输出层数为1；

将训练集中的数据归一化处理后加入BP神经网络模型生成预测数据，并将预测数据与预设的期望数据之间的误差作为适应度函数；

将训练集作为种群，初始化种群，对种群进行实数编码，随机生成第一代染色体，根据个体采用适应度函数分别计算每一条的适应程度，根据个体得到的初始权重，预测出个体期望输出的绝对误差值E作为个体适应度值F，计算公式为：

将得到的最优初始权值和阈值作为BP神经网络模型的参数；

将测试集输入BP神经网络模型中进行测试，计算测试误差，当满足终止条件后，停止训练，得到训练好的模型。

2.根据权利要求1所述的方法，其特征在于，所述采集给定网站中的产品信息，对所述产品信息按照主题进行分类标注，得到训练样本，具体为：

采集带有明确主题分类网站中主题数据的网页源码，整合多个网站中的主题数据，建立主题体系，使用爬虫爬取网页源码；

3.根据权利要求1所述的方法，其特征在于，还包括：模型生成测试中，若存在部分主题精度倾斜，权重过高的情况，则降低其权重，并对训练集数据进行过采样，达到样本均衡，各类主题均衡的目的，生成最终模型。

4.根据权利要求1所述的方法，其特征在于，所述输入要采集的目标网站url、采集的主题、采集阈值，对目标网站进行数据采集，采用超链接广度优先遍历策略，获取与主题同级的页面，具体为：输入要采集的网站url、采集的主题、以及采集的数量，使用广度优先遍历策略遍历出所有与起始页面相关联的url，建立新的url列表，并判断新列表相较于之前列表有无新增的url，如果有，则针对于新的url列表进行页面源码的获取与解析，直到不再新增url为止；

5.根据权利要求1所述的方法，其特征在于，所述对获取到的页面进行数据清洗，具体为：获取采集到的页面源码，读取源码title标签中的内容，并将所述内容与url关联保存，同时删除网页头部、尾部以及网站本身导航栏的内容，保留需要的主体内容，并对主体内容进行数据解析，获得需要的名称、类目、详情、描述和相关推荐信息。

6.一种主题网络爬虫系统，其特征在于，所述系统包括：

模型训练模块，用于利用训练样本对遗传算法+BP神经网络模型进行训练，得到训练好的模型；包括：在将测试集输入BP神经网络模型中进行测试、进行模型生成测试的过程中，若出现部分主题精度倾斜、权重过高的情况，将其降低权重，对训练集数据进行过采样，增加小类样本数的个数，进行训练，当满足终止条件后，停止训练，生成最终模型，并记录相关参数；

将训练样本按照设定的比例分为训练集与测试集；

将训练集作为种群，初始化种群，对种群进行实数编码，随机生成第一代染色体，根据个体采用适应度函数分别计算每一条的适应程度，根据个体得到的初始权重，预测出个体期望输出的绝对误差值E作为个体适应度值F，计算

将得到的最优初始权值和阈值作为BP神经网络模型的参数；

将测试集输入BP神经网络模型中进行测试，计算测试误差，当满足终止条件后，停止训练，得到训练好的模型；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行如权利要求1-5任意一项所述的方法。