CN116910393A

CN116910393A - 一种基于递归神经网络的大批量新闻数据采集方法

Info

Publication number: CN116910393A
Application number: CN202311176669.1A
Authority: CN
Inventors: 赵志庆; 侯玉柱; 陈佐相; 董席峰; 张雨铭威; 张昊
Original assignee: Rongxing Technology Co ltd
Current assignee: Rongxing Technology Co ltd
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-10-20
Anticipated expiration: 2043-09-13
Also published as: CN116910393B

Abstract

本发明涉及大批量数据采集领域，具体涉及一种基于递归神经网络的大批量新闻数据采集方法，包括：S1、建立新闻数据采集链接库；S2、根据所述新闻数据采集链接库基于抽取算法建立新闻数据采集模型；S3、利用所述新闻数据采集模型得到大批量新闻数据采集结果，在先期神经网络训练后，再根据不匹配的训练集单独训练筛选模型，当前后两个模型输出达成率相匹配时，利用循环模型作为批量采集基础，当模型输出率不稳定时，获取两个模型的输出结果重叠部分作为最终结果，保证结果输出的稳定性同时，又实现了模型输出结果的复验。

Description

一种基于递归神经网络的大批量新闻数据采集方法

技术领域

本发明涉及大批量数据采集领域，具体涉及一种基于递归神经网络的大批量新闻数据采集方法。

背景技术

随着计算机行业飞速发展，信息数据已覆盖现实中各大领域，形成了维度广、结构复杂的数据来源，从大量无用信息中抽取有用内容造成数据采集人员的工作量越来越大，工作效率降低。因前端页面编写技术不断提升，单一抽取算法局限性慢慢显露。页面动态加载内容增多，静态页面结构复杂，人工编写规则以及自动发现新的页面模板并维护将是一个庞大的工作量消耗人力物力，机器学习也局限于页面结构相似的训练数据，当页面结构相差度较大需重新进行数据训练。

发明内容

针对现有技术的不足，本发明提供了一种基于递归神经网络的大批量新闻数据采集方法，通过建立网站底层链接的多特征点DOM树，为后续筛选分类模型提供输出准确性与便捷性保证。

为实现上述目的，本发明提供了一种基于递归神经网络的大批量新闻数据采集方法，包括：

S1、建立新闻数据采集链接库；

S2、根据所述新闻数据采集链接库基于抽取算法建立新闻数据采集模型；

S3、利用所述新闻数据采集模型得到大批量新闻数据采集结果。

优选的，所述建立新闻数据采集链接库包括：

S1-1、获取新闻数据网站的存活性结果；

S1-2、根据所述新闻数据网站的存活性结果建立新闻数据网站链接库；

S1-3、利用所述新闻数据网站链接库作为新闻数据采集链接库。

进一步的，所述获取新闻数据网站的存活性结果包括：

对所述新闻数据网站发送链接请求；

判断所述新闻数据网站是否对链接请求存在回应，若是，则分别对所述新闻数据网站的链接请求与链接响应进行解析处理得到新闻数据网站的请求链接源代码与响应链接源代码，否则，放弃处理；

利用所述新闻数据网站的请求链接源代码与响应链接源代码作为新闻数据网站的存活性结果。

进一步的，根据所述新闻数据网站的存活性结果建立新闻数据网站链接库包括：

S1-2-1、判断所述新闻数据网站的存活性结果对应请求链接源代码与响应链接源代码是否存在噪声数据，若是，则对所述请求链接源代码与响应链接源代码进行去噪处理得到更新的请求链接源代码与响应链接源代码，并执行S1-2-2，否则，直接执行S1-2-2；

S1-2-2、利用所述请求链接源代码与响应链接源代码建立对应请求链接源代码DOM树与响应链接源代码DOM树；

S1-2-3、利用所述请求链接源代码与对应响应链接源代码建立请求-响应映射；

S1-2-4、利用所述请求链接源代码DOM树、响应链接源代码DOM树与请求-响应映射作为新闻数据网站链接库。

优选的，根据所述新闻数据采集链接库基于抽取算法建立新闻数据采集模型包括：

S2-1、利用所述新闻数据采集链接库的请求链接源代码DOM树与响应链接源代码DOM树作为训练集；

S2-2、利用所述训练集中请求链接源代码DOM树为输入，所述训练集中响应链接源代码DOM树为输出，基于递归神经网络进行训练得到初始新闻数据采集模型；

S2-3、判断所述初始新闻数据采集模型与新闻数据采集链接库的请求-响应映射是否完全对应，若是，则利用所述初始新闻数据采集模型作为新闻数据采集模型，否则，返回S2-1。

优选的，利用所述新闻数据采集模型得到大批量新闻数据采集结果包括：

S3-1、利用所述新闻数据采集模型得到新闻数据采集初始结果；

S3-2、根据所述新闻数据采集初始结果对新闻数据采集模型进行更新处理得到迭代新闻数据采集模型；

S3-3、利用所述迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果；

S3-4、利用所述批量化输出结果得到大批量新闻数据采集结果。

进一步的，利用所述新闻数据采集模型得到新闻数据采集初始结果包括：

S3-1-1、获取待采集新闻数据网站；

S3-1-2、利用所述待采集新闻数据网站基于新闻数据采集模型得到新闻数据采集初始结果；

S3-1-3、判断所述新闻数据采集初始结果是否存在对应历史新闻数据采集初始结果，若是，则执行S3-1-4，否则，S3-1-5；

S3-1-4、判断所述新闻数据采集初始结果与对应历史新闻数据采集初始结果、所述新闻数据采集初始结果对应待采集新闻数据网站与历史新闻数据采集初始结果对应历史采集新闻数据网站是否均为对应，若是，则保留新闻数据采集初始结果，否则，利用所述待采集新闻数据网站与新闻数据采集初始结果共同作为新闻数据采集初始结果；

S3-1-5、判断所述新闻数据采集初始结果与待采集新闻数据网站是否对应，若是，则保留所述新闻数据采集初始结果，否则，利用所述待采集新闻数据网站与新闻数据采集初始结果的请求链接源代码与响应链接源代码作为补充训练集，并返回S2-1。

进一步的，根据所述新闻数据采集初始结果对新闻数据采集模型进行更新处理得到迭代新闻数据采集模型包括：

S3-2-1、利用所述新闻数据采集初始结果对应补充训练集作为迭代训练集；

S3-2-2、利用所述迭代训练集为输入，所述迭代训练集对应新闻数据采集初始结果为输出，基于递归神经网络进行训练得到迭代新闻数据采集模型。

进一步的，利用所述迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果包括：

S3-3-1、判断所述迭代新闻数据采集模型与新闻数据采集模型的输出达成率是否满足浮动阈值，若是，则执行S3-3-2，否则，返回S3-2-1；

S3-3-2、判断所述迭代新闻数据采集模型对应请求链接源代码DOM树、响应链接源代码DOM树与新闻数据采集模型对应请求链接源代码DOM树、响应链接源代码DOM树是否一致，若是，则保留当前迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果，否则，利用所述迭代新闻数据采集模型与新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果；

其中，输出达成率为模型输入与输出的匹配率，浮动阈值为5%。

进一步的，利用所述迭代新闻数据采集模型与新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果包括：

基于所述迭代新闻数据采集模型获取第一输出结果；

基于所述新闻数据采集模型获取第二输出结果；

获取所述第一输出结果与第二输出结果重叠的输出结果建立批量化输出结果。

与最接近的现有技术相比，本发明具有的有益效果：

建立需采集网站数据的请求响应对应关系，并为后续迭代循环模型的建立提供前置基础，考虑到新闻数据网站的多样性与不确定性，因此在先期神经网络训练后，再根据不匹配的训练集单独训练筛选模型，当前后两个模型输出达成率相匹配时，利用循环模型作为批量采集基础，当模型输出率不稳定时，获取两个模型的输出结果重叠部分作为最终结果，保证结果输出的稳定性同时，又实现了模型输出结果的复验。

附图说明

图1是本发明提供的一种基于递归神经网络的大批量新闻数据采集方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：本发明提供了一种基于递归神经网络的大批量新闻数据采集方法，如图1所示，包括：

S1、建立新闻数据采集链接库；

S1具体包括：

S1-1、获取新闻数据网站的存活性结果；

S1-1具体包括：

S1-1-1、对所述新闻数据网站发送链接请求；

S1-1-2、判断所述新闻数据网站是否对链接请求存在回应，若是，则分别对所述新闻数据网站的链接请求与链接响应进行解析处理得到新闻数据网站的请求链接源代码与响应链接源代码，否则，放弃处理；

S1-1-3、利用所述新闻数据网站的请求链接源代码与响应链接源代码作为新闻数据网站的存活性结果。

S1-2具体包括：

S2具体包括：

S3具体包括：

S3-1具体包括：

S3-1-1、获取待采集新闻数据网站；

S3-2具体包括：

S3-3具体包括：

S3-3-2具体包括：

S3-3-2-1、基于所述迭代新闻数据采集模型获取第一输出结果；

S3-3-2-2、基于所述新闻数据采集模型获取第二输出结果；

S3-3-2-3、获取所述第一输出结果与第二输出结果重叠的输出结果建立批量化输出结果。

本实施例中，一种基于递归神经网络的大批量新闻数据采集方法，在实际应用中为保证预处理后的源代码转换DOM树的数据稳定性，可选择性加入高斯平滑算法，可以降低相邻结点间的特征值突变性，对计算所得的文本特征值进行处理。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于递归神经网络的大批量新闻数据采集方法，其特征在于，包括：

S1、建立新闻数据采集链接库；

S1-1、获取新闻数据网站的存活性结果；

S1-3、利用所述新闻数据网站链接库作为新闻数据采集链接库；

S2-3、判断所述初始新闻数据采集模型与新闻数据采集链接库的请求-响应映射是否完全对应，若是，则利用所述初始新闻数据采集模型作为新闻数据采集模型，否则，返回S2-1

S3、利用所述新闻数据采集模型得到大批量新闻数据采集结果；

2.如权利要求1所述的一种基于递归神经网络的大批量新闻数据采集方法，其特征在于，所述获取新闻数据网站的存活性结果包括：

对所述新闻数据网站发送链接请求；

3.如权利要求2所述的一种基于递归神经网络的大批量新闻数据采集方法，其特征在于，根据所述新闻数据网站的存活性结果建立新闻数据网站链接库包括：

4.如权利要求1所述的一种基于递归神经网络的大批量新闻数据采集方法，其特征在于，利用所述新闻数据采集模型得到新闻数据采集初始结果包括：

S3-1-1、获取待采集新闻数据网站；

5.如权利要求4所述的一种基于递归神经网络的大批量新闻数据采集方法，其特征在于，根据所述新闻数据采集初始结果对新闻数据采集模型进行更新处理得到迭代新闻数据采集模型包括：

6.如权利要求4所述的一种基于递归神经网络的大批量新闻数据采集方法，其特征在于，利用所述迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果包括：

7.如权利要求6所述的一种基于递归神经网络的大批量新闻数据采集方法，其特征在于，利用所述迭代新闻数据采集模型与新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果包括：

基于所述迭代新闻数据采集模型获取第一输出结果；

基于所述新闻数据采集模型获取第二输出结果；