CN110069690B - 一种主题网络爬虫方法、装置及介质 - Google Patents

一种主题网络爬虫方法、装置及介质 Download PDF

Info

Publication number
CN110069690B
CN110069690B CN201910334543.XA CN201910334543A CN110069690B CN 110069690 B CN110069690 B CN 110069690B CN 201910334543 A CN201910334543 A CN 201910334543A CN 110069690 B CN110069690 B CN 110069690B
Authority
CN
China
Prior art keywords
data
training
neural network
theme
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910334543.XA
Other languages
English (en)
Other versions
CN110069690A (zh
Inventor
杨承鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Yingchao Technology Co ltd
Original Assignee
Chengdu Yingchao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Yingchao Technology Co ltd filed Critical Chengdu Yingchao Technology Co ltd
Priority to CN201910334543.XA priority Critical patent/CN110069690B/zh
Publication of CN110069690A publication Critical patent/CN110069690A/zh
Application granted granted Critical
Publication of CN110069690B publication Critical patent/CN110069690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种主题网络爬虫方法、装置及介质,所述方法包括:采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本;利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型;输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面;对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段。本发明采用遗传算法+BP神经网络模型以达到减少前期盲目搜索,防止收敛到局部最优的目的,解决了传统主题爬虫中出现的精度低,覆盖面低,数据不完整,主题关联度不强的问题。

Description

一种主题网络爬虫方法、装置及介质
技术领域
本发明涉及数据挖掘和搜索引擎技术领域,特别涉及一种主题网络爬虫方法、装置及介质。
背景技术
随着互联网的信息量飞速增长以及人们对搜索引擎的要求越来越高,传统主题爬虫的局限性,如精度低,覆盖面低,数据获取不完整,主题关联性低等缺点限制了主题爬虫的发展。为了追求更好的爬虫效果,提高主题关联性,提高准确性以及爬虫的效率,忽略掉与主题无关的网页,只针对于关联性强的网页进行数据采集是本领域技术人员亟需解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供了一种主题网络爬虫方法、装置及介质,用于解决传统主题爬虫中出现的精度低,覆盖面低,数据不完整,主题关联性不强等问题。
第一方面,本申请提供了一种主题网络爬虫方法,所述方法包括:
采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本;
利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型;
输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面;
对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段。
第二方面,提供一种主题网络爬虫系统,所述系统包括:
样本采集模块,用于采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本;
模型训练模块,用于利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型;
目标采集模块,用于输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面;
目标输出模块,对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段。
第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述第一方面所述的方法。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明实施例提供了一种主题网络爬虫方法、装置及介质,所述方法包括:采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本;利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型;输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面;对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段。本发明采用遗传算法+BP神经网络模型以达到减少前期盲目搜索,防止收敛到局部最优的目的,解决了传统主题爬虫中出现的精度低,覆盖面低,数据不完整,主题关联度不强的问题。进行测试识别中,多批次测试正确率达90%;加入了持续优化机制,在每一批次进行识别后,将错误数据修整好加入训练集,进行重新训练,提高了正确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的主题网络爬虫方法流程示意图;
图2为本发明实施例一提供的遗传算法+BP神经网络模型训练方法流程示意图;
图3为本发明实施例一提供的遗传算法流程示意图;
图4为本发明实施例一提供的数据清洗流程示意图;
图5为本发明实施例二提供的装置结构示意图;
图6为本发明实施例三提供的计算机介质的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
为了解决现有技术中传统主题爬虫的局限性,如精度低,覆盖面低,数据获取不完整,主题关联性低等缺点限制了主题爬虫的发展,本发明实施例提供了一种主题网络爬虫方法、装置及介质,所述方法包括:采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本;利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型;输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面;对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段。本发明采用遗传算法+BP神经网络模型以达到减少前期盲目搜索,防止收敛到局部最优的目的,解决了传统主题爬虫中出现的精度低,覆盖面低,数据不完整,主题关联度低等问题。进行测试识别中,多批次测试正确率达90%;加入了持续优化机制,在每一批次进行识别后,将错误数据修整好加入训练集,进行重新训练,提高正确率。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例一
本实施例提供一种主题网络爬虫方法,如图1至图3所示,所述方法包括:
S1:训练集的准备:采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本。
本步骤中,采集带有明确主题分类网站中主题数据的网页源码,整合多个网站中的主题数据,建立主题体系,使用爬虫爬取网页源码;
从网页源码中解析并筛选出主题特征,并在主题栏中标注所属主题,得到训练样本,所述主题特征包括:产品名称、描述内容、产品类目信息、产品详情和相关推荐产品。
S2:利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型,以达到减少前期盲目搜索,防止BP神经网络收敛速度慢或收敛到局部最优的目的。
遗传算法是模拟物竞天择的生物进化过程,本质是对染色体模式所进行的一系列的运算,通过选择算子将训练样本的优良模式遗传到下一代,利用交叉算子进行模式重组,利用变异算子进行模式突变,达到遗传目的,得到对应主题的最优解。
本步骤中利用遗传算法和BP神经网络模型的主要思路为:构建BP神经网络模型,将训练样本中的数据归一化处理后加入BP神经网络模型生成预测数据,并将预测数据与预设的期望数据之间的误差作为适应度函数;同时读取训练样本,将训练样本作为种群,初始化种群后,对种群进行实数编码,循环进行选择、交叉、变异、择优、采用适应度函数计算适应程度(最好和平均适应度)等操作,并且淘汰最差个体,迭代求解最佳初始阀值和权值,直到达到进化次数(或者最优值长期不提升,则会提前结束),得到最优的初始权值和阈值以及进化代数、平均适应度等相关数据。将得到的最佳初始权值和阈值作为BP神经网络模型的参数,并利用训练数据来训练BP神经网络模型,使用测试数据测试神经网络模型,计算预测数据正确率。
上述思路的主要实现过程为:
(1)将训练样本按照设定的比例分为训练集与测试集,这里可以将训练集与测试集以19:1进行等分类均分;
(2)设置遗传算法的相关参数,所述相关参数包括种群规模设置为100、迭代次数设置为50、交叉概率设置为0.3和变异概率设置为0.01;
(3)构建结构为2-3-1的BP神经网络模型,输入层数为2,神经网络层数为3,输出层数为1;
(4)将训练集中的数据归一化处理后加入BP神经网络模型生成预测数据,并将预测数据与预设的期望数据之间的误差作为适应度函数;
(5)将训练集作为种群,初始化种群,对种群进行实数编码,随机生成第一代染色体,根据个体采用适应度函数分别计算每一条的适应程度,根据个体得到的初始权重,预测出个体期望输出的绝对误差值E作为个体适应度值F,计算公式为:
Figure BDA0002038748950000051
其中,n为输出节点数,yi为i节点的期望输出,oi为i节点实际输出,k为实验系数0.1;
对所有个体按照特征适应度大小进行排序,得出概率分配表,将概率值分配给每个个体,基于概率用赌盘选择法产生下一代个体,个体的选择概率为:
Figure BDA0002038748950000052
其中,fi为个体适应度值F的倒数,N为种群个体数目,通过均匀杂交、交叉染色体,生成大量染色体,以较低概率进行变异操作,复制其染色体,得到最优初始权值和阈值;
(6)将得到的最优初始权值和阈值作为BP神经网络模型的参数,得到最优BP神经网络模型;
(7)将测试集输入最优BP神经网络模型中进行测试,计算测试误差,当满足终止条件后,停止训练,得到训练好的模型。
(8)模型生成测试中,若有部分主题精度倾斜,权重过高的情况,将其降低权重,对训练集数据进行过采样,即增加小类样本数的个数,达到样本均衡,各类主题均衡的目的,生成最终模型,并记录相关参数。
S3:输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面。
本步骤中,输入要采集的网站url、采集的主题、以及采集的数量,使用广度优先遍历策略遍历出所有与起始页面相关联的url,建立新的url列表,判断新列表相较于之前列表有无新增的url,如果有,针对于新的url列表进行页面源码的获取与解析,直到不再新增url为止;
其中,广度优先遍历策略为:从某个顶级url V出发,访问该url所链接页面上的所有超链接V1,V2..VN;再从链接的url V1,V2...VN出发,再访问他们各自的所有的超链接;重复上述步骤,直到所有的超链接都被访问。
S4:对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段。
本步骤中,对获取到的页面进行数据清洗,如图4所示,其具体过程为:获取采集到的页面源码,读取源码title标签中的内容,并将所述内容与url关联保存,同时删除网页头部、尾部、网站本身导航栏的内容,保留需要的主体内容,对主体内容进行数据解析,获得需要的名称、类目、详情、描述和相关推荐信息。
基于同一发明构思,本申请提供了实施例一对应的装置,详见实施例二。
实施例二
相应于实施例一,本实施例提供了一种主题网络爬虫装置,如图5所示,所述装置包括:样本采集模块,用于采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本;
模型训练模块,用于利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型;
目标采集模块,用于输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面;
目标输出模块,对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段。
由于本实施例所介绍的装置为实施本申请实施例一中一种主题网络爬虫方法所采用的装置,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的装置的具体实施方式以及其各种变化形式,所以在此对于该装置如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。
基于同一发明构思,本申请提供了实施例一对应的存储介质,详见实施例三。
实施例三
如图6所示,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本;
利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型;
输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面;
对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段。
在具体实施过程中,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
本发明实施例提供的一种主题网络爬虫方法、装置及计算机设备能带来的有益效果至少是:本发明采用遗传算法+BP神经网络模型以达到减少前期盲目搜索,防止收敛到局部最优的目的,解决了传统主题爬虫中出现的精度低,覆盖面低,数据不完整,主题关联度低等问题。进行测试识别中,多批次测试正确率达90%;加入了持续优化机制,在每一批次进行识别后,将错误数据修整好加入训练集,进行重新训练,提高正确率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种主题网络爬虫方法,其特征在于,所述方法包括:
采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本;
利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型;
输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面;
对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段;
其中,所述利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型,包括:在将测试集输入BP神经网络模型中进行测试、进行模型生成测试的过程中,若出现部分主题精度倾斜、权重过高的情况,将其降低权重,对训练集数据进行过采样,增加小类样本数的个数,进行训练,当满足终止条件后,停止训练,生成最终模型,并记录相关参数;
而且,所述利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型,具体为:
将训练样本按照设定的比例分为训练集与测试集;
设置遗传算法的相关参数,所述相关参数包括种群规模、迭代次数、交叉概率和变异概率;
构建结构为2-3-1的BP神经网络模型,输入层数为2,神经网络层数为3,输出层数为1;
将训练集中的数据归一化处理后加入BP神经网络模型生成预测数据,并将预测数据与预设的期望数据之间的误差作为适应度函数;
将训练集作为种群,初始化种群,对种群进行实数编码,随机生成第一代染色体,根据个体采用适应度函数分别计算每一条的适应程度,根据个体得到的初始权重,预测出个体期望输出的绝对误差值E作为个体适应度值F,计算公式为:
Figure FDA0003305340390000021
其中,n为输出节点数,yi为i节点的期望输出,oi为i节点实际输出,k为实验系数0.1;
对所有个体按照特征适应度大小进行排序,得出概率分配表,将概率值分配给每个个体,基于概率用赌盘选择法产生下一代个体,个体的选择概率为:
Figure FDA0003305340390000022
其中,fi为个体适应度值F的倒数,N为种群个体数目,通过均匀杂交、交叉染色体,生成大量染色体,以较低概率进行变异操作,复制其染色体,得到最优初始权值和阈值;
将得到的最优初始权值和阈值作为BP神经网络模型的参数;
将测试集输入BP神经网络模型中进行测试,计算测试误差,当满足终止条件后,停止训练,得到训练好的模型。
2.根据权利要求1所述的方法,其特征在于,所述采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本,具体为:
采集带有明确主题分类网站中主题数据的网页源码,整合多个网站中的主题数据,建立主题体系,使用爬虫爬取网页源码;
从网页源码中解析并筛选出主题特征,并在主题栏中标注所属主题,得到训练样本,所述主题特征包括:产品名称、描述内容、产品类目信息、产品详情和相关推荐产品。
3.根据权利要求1所述的方法,其特征在于,还包括:模型生成测试中,若存在部分主题精度倾斜,权重过高的情况,则降低其权重,并对训练集数据进行过采样,达到样本均衡,各类主题均衡的目的,生成最终模型。
4.根据权利要求1所述的方法,其特征在于,所述输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面,具体为:输入要采集的网站url、采集的主题、以及采集的数量,使用广度优先遍历策略遍历出所有与起始页面相关联的url,建立新的url列表,并判断新列表相较于之前列表有无新增的url,如果有,则针对于新的url列表进行页面源码的获取与解析,直到不再新增url为止;
其中,广度优先遍历策略为:从某个顶级url V出发,访问该url所链接页面上的所有超链接V1,V2..VN;再从链接的url V1,V2...VN出发,再访问他们各自的所有的超链接;重复上述步骤,直到所有的超链接都被访问。
5.根据权利要求1所述的方法,其特征在于,所述对获取到的页面进行数据清洗,具体为:获取采集到的页面源码,读取源码title标签中的内容,并将所述内容与url关联保存,同时删除网页头部、尾部以及网站本身导航栏的内容,保留需要的主体内容,并对主体内容进行数据解析,获得需要的名称、类目、详情、描述和相关推荐信息。
6.一种主题网络爬虫系统,其特征在于,所述系统包括:
样本采集模块,用于采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本;
模型训练模块,用于利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型;包括:在将测试集输入BP神经网络模型中进行测试、进行模型生成测试的过程中,若出现部分主题精度倾斜、权重过高的情况,将其降低权重,对训练集数据进行过采样,增加小类样本数的个数,进行训练,当满足终止条件后,停止训练,生成最终模型,并记录相关参数;
而且,所述利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型,具体为:
将训练样本按照设定的比例分为训练集与测试集;
设置遗传算法的相关参数,所述相关参数包括种群规模、迭代次数、交叉概率和变异概率;
构建结构为2-3-1的BP神经网络模型,输入层数为2,神经网络层数为3,输出层数为1;
将训练集中的数据归一化处理后加入BP神经网络模型生成预测数据,并将预测数据与预设的期望数据之间的误差作为适应度函数;
将训练集作为种群,初始化种群,对种群进行实数编码,随机生成第一代染色体,根据个体采用适应度函数分别计算每一条的适应程度,根据个体得到的初始权重,预测出个体期望输出的绝对误差值E作为个体适应度值F,计算
Figure FDA0003305340390000041
其中,n为输出节点数,yi为i节点的期望输出,oi为i节点实际输出,k为实验系数0.1;
对所有个体按照特征适应度大小进行排序,得出概率分配表,将概率值分配给每个个体,基于概率用赌盘选择法产生下一代个体,个体的选择概率为:
Figure FDA0003305340390000042
其中,fi为个体适应度值F的倒数,N为种群个体数目,通过均匀杂交、交叉染色体,生成大量染色体,以较低概率进行变异操作,复制其染色体,得到最优初始权值和阈值;
将得到的最优初始权值和阈值作为BP神经网络模型的参数;
将测试集输入BP神经网络模型中进行测试,计算测试误差,当满足终止条件后,停止训练,得到训练好的模型;
目标采集模块,用于输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面;
目标输出模块,对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行如权利要求1-5任意一项所述的方法。
CN201910334543.XA 2019-04-24 2019-04-24 一种主题网络爬虫方法、装置及介质 Active CN110069690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910334543.XA CN110069690B (zh) 2019-04-24 2019-04-24 一种主题网络爬虫方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910334543.XA CN110069690B (zh) 2019-04-24 2019-04-24 一种主题网络爬虫方法、装置及介质

Publications (2)

Publication Number Publication Date
CN110069690A CN110069690A (zh) 2019-07-30
CN110069690B true CN110069690B (zh) 2021-12-07

Family

ID=67368656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910334543.XA Active CN110069690B (zh) 2019-04-24 2019-04-24 一种主题网络爬虫方法、装置及介质

Country Status (1)

Country Link
CN (1) CN110069690B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688454A (zh) * 2019-09-09 2020-01-14 深圳壹账通智能科技有限公司 咨询对话处理的方法、装置、设备及存储介质
CN113743436A (zh) * 2020-06-29 2021-12-03 北京沃东天骏信息技术有限公司 一种用于生成用户画像的特征选取方法和装置
CN111881336A (zh) * 2020-07-28 2020-11-03 上海应用技术大学 主题网络爬虫方法及系统
CN111898766B (zh) * 2020-07-31 2023-02-24 平安科技(深圳)有限公司 基于自动机器学习的以太坊燃料限制预测方法及装置
CN117237741B (zh) * 2023-11-08 2024-02-13 烟台持久钟表有限公司 一种校园危险行为检测方法、系统、装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330009A (zh) * 2017-06-14 2017-11-07 腾讯科技(深圳)有限公司 主题词分类模型创建方法、创建装置及存储介质
CN108959413A (zh) * 2018-06-07 2018-12-07 吉林大学 一种主题网页爬取方法及主题爬虫系统
CN109284385A (zh) * 2018-10-15 2019-01-29 平安科技(深圳)有限公司 基于机器学习的文本分类方法及终端设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9870629B2 (en) * 2008-06-20 2018-01-16 New Bis Safe Luxco S.À R.L Methods, apparatus and systems for data visualization and related applications
WO2014149827A1 (en) * 2013-03-15 2014-09-25 REMTCS Inc. Artificial neural network interface and methods of training the same for various use cases
US20140278951A1 (en) * 2013-03-15 2014-09-18 Avaya Inc. System and method for identifying and engaging collaboration opportunities
US20180284735A1 (en) * 2016-05-09 2018-10-04 StrongForce IoT Portfolio 2016, LLC Methods and systems for industrial internet of things data collection in a network sensitive upstream oil and gas environment
CN107870957A (zh) * 2016-09-28 2018-04-03 郑州大学 一种基于信息增益和bp神经网络的热门微博预测方法
CN106815652A (zh) * 2016-12-16 2017-06-09 国家电网公司 一种基于大数据相关性分析的配电网供电可靠性预测方法
CN106765959A (zh) * 2016-12-27 2017-05-31 武汉虹信技术服务有限责任公司 基于遗传算法和深度bp神经网络算法的暖通空调节能控制方法
CN106960002A (zh) * 2017-02-13 2017-07-18 上海大学 一种基于特征模型的跨领域信息抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330009A (zh) * 2017-06-14 2017-11-07 腾讯科技(深圳)有限公司 主题词分类模型创建方法、创建装置及存储介质
CN108959413A (zh) * 2018-06-07 2018-12-07 吉林大学 一种主题网页爬取方法及主题爬虫系统
CN109284385A (zh) * 2018-10-15 2019-01-29 平安科技(深圳)有限公司 基于机器学习的文本分类方法及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于数据挖掘技术的大气环境预测研究";赵猛;《中国优秀硕士学位论文全文数据库 工程科技I辑》;20180115(第01期);B027-1235,第iii,15,22-23,37-38页 *

Also Published As

Publication number Publication date
CN110069690A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN110069690B (zh) 一种主题网络爬虫方法、装置及介质
CN111078994B (zh) 基于画像的医学科普文章推荐方法及系统
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN111444247A (zh) 一种基于kpi指标的根因定位方法、装置及存储介质
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108182175B (zh) 一种文本质量指标获取方法及装置
CN109189990B (zh) 一种搜索词的生成方法、装置及电子设备
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN109325146B (zh) 一种视频推荐方法、装置、存储介质和服务器
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN112749284A (zh) 知识图谱构建方法、装置、设备及存储介质
CN110909125B (zh) 推文级社会媒体谣言检测方法
CN105893622A (zh) 一种聚合搜索方法及聚合搜索系统
CN108388508A (zh) 一种基于用户会话和层次聚类算法的测试用例选择方法
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN107463935A (zh) 应用分类方法和应用分类装置
CN115391570A (zh) 一种基于方面的情感知识图谱构建方法及装置
CN106874368B (zh) 一种rtb竞价广告位价值分析方法及系统
Maâtouk et al. Evolutionary biclustering algorithms: an experimental study on microarray data
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
CN114297351A (zh) 语句问答方法、装置、设备、存储介质及计算机程序产品
CN115147020B (zh) 装修数据处理方法、装置、设备及存储介质
CN116483337A (zh) 一种基于提示学习和数据增强的api补全方法
CN116089713A (zh) 推荐模型训练方法、推荐方法、装置及计算机设备
CN115934905A (zh) 文档问答方法、装置、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 3406, 34 / F, building 2, No. 666, middle section of Tianfu Avenue, high tech Zone, Chengdu, Sichuan 610041

Applicant after: Chengdu Yingchao Technology Co., Ltd

Address before: 610041 No. 2201, unit 1, building 1, No. 138, Tianfu Second Street, high tech Zone, Chengdu, Sichuan

Applicant before: Chengdu Yingchao Technology Co., Ltd

GR01 Patent grant
GR01 Patent grant