CN116910393A - 一种基于递归神经网络的大批量新闻数据采集方法 - Google Patents
一种基于递归神经网络的大批量新闻数据采集方法 Download PDFInfo
- Publication number
- CN116910393A CN116910393A CN202311176669.1A CN202311176669A CN116910393A CN 116910393 A CN116910393 A CN 116910393A CN 202311176669 A CN202311176669 A CN 202311176669A CN 116910393 A CN116910393 A CN 116910393A
- Authority
- CN
- China
- Prior art keywords
- news data
- data acquisition
- source code
- result
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000004044 response Effects 0.000 claims description 55
- 238000013480 data collection Methods 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 abstract description 3
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及大批量数据采集领域,具体涉及一种基于递归神经网络的大批量新闻数据采集方法,包括:S1、建立新闻数据采集链接库;S2、根据所述新闻数据采集链接库基于抽取算法建立新闻数据采集模型;S3、利用所述新闻数据采集模型得到大批量新闻数据采集结果,在先期神经网络训练后,再根据不匹配的训练集单独训练筛选模型,当前后两个模型输出达成率相匹配时,利用循环模型作为批量采集基础,当模型输出率不稳定时,获取两个模型的输出结果重叠部分作为最终结果,保证结果输出的稳定性同时,又实现了模型输出结果的复验。
Description
技术领域
本发明涉及大批量数据采集领域,具体涉及一种基于递归神经网络的大批量新闻数据采集方法。
背景技术
随着计算机行业飞速发展,信息数据已覆盖现实中各大领域,形成了维度广、结构复杂的数据来源,从大量无用信息中抽取有用内容造成数据采集人员的工作量越来越大,工作效率降低。因前端页面编写技术不断提升,单一抽取算法局限性慢慢显露。页面动态加载内容增多,静态页面结构复杂,人工编写规则以及自动发现新的页面模板并维护将是一个庞大的工作量消耗人力物力,机器学习也局限于页面结构相似的训练数据,当页面结构相差度较大需重新进行数据训练。
发明内容
针对现有技术的不足,本发明提供了一种基于递归神经网络的大批量新闻数据采集方法,通过建立网站底层链接的多特征点DOM树,为后续筛选分类模型提供输出准确性与便捷性保证。
为实现上述目的,本发明提供了一种基于递归神经网络的大批量新闻数据采集方法,包括:
S1、建立新闻数据采集链接库;
S2、根据所述新闻数据采集链接库基于抽取算法建立新闻数据采集模型;
S3、利用所述新闻数据采集模型得到大批量新闻数据采集结果。
优选的,所述建立新闻数据采集链接库包括:
S1-1、获取新闻数据网站的存活性结果;
S1-2、根据所述新闻数据网站的存活性结果建立新闻数据网站链接库;
S1-3、利用所述新闻数据网站链接库作为新闻数据采集链接库。
进一步的,所述获取新闻数据网站的存活性结果包括:
对所述新闻数据网站发送链接请求;
判断所述新闻数据网站是否对链接请求存在回应,若是,则分别对所述新闻数据网站的链接请求与链接响应进行解析处理得到新闻数据网站的请求链接源代码与响应链接源代码,否则,放弃处理;
利用所述新闻数据网站的请求链接源代码与响应链接源代码作为新闻数据网站的存活性结果。
进一步的,根据所述新闻数据网站的存活性结果建立新闻数据网站链接库包括:
S1-2-1、判断所述新闻数据网站的存活性结果对应请求链接源代码与响应链接源代码是否存在噪声数据,若是,则对所述请求链接源代码与响应链接源代码进行去噪处理得到更新的请求链接源代码与响应链接源代码,并执行S1-2-2,否则,直接执行S1-2-2;
S1-2-2、利用所述请求链接源代码与响应链接源代码建立对应请求链接源代码DOM树与响应链接源代码DOM树;
S1-2-3、利用所述请求链接源代码与对应响应链接源代码建立请求-响应映射;
S1-2-4、利用所述请求链接源代码DOM树、响应链接源代码DOM树与请求-响应映射作为新闻数据网站链接库。
优选的,根据所述新闻数据采集链接库基于抽取算法建立新闻数据采集模型包括:
S2-1、利用所述新闻数据采集链接库的请求链接源代码DOM树与响应链接源代码DOM树作为训练集;
S2-2、利用所述训练集中请求链接源代码DOM树为输入,所述训练集中响应链接源代码DOM树为输出,基于递归神经网络进行训练得到初始新闻数据采集模型;
S2-3、判断所述初始新闻数据采集模型与新闻数据采集链接库的请求-响应映射是否完全对应,若是,则利用所述初始新闻数据采集模型作为新闻数据采集模型,否则,返回S2-1。
优选的,利用所述新闻数据采集模型得到大批量新闻数据采集结果包括:
S3-1、利用所述新闻数据采集模型得到新闻数据采集初始结果;
S3-2、根据所述新闻数据采集初始结果对新闻数据采集模型进行更新处理得到迭代新闻数据采集模型;
S3-3、利用所述迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果;
S3-4、利用所述批量化输出结果得到大批量新闻数据采集结果。
进一步的,利用所述新闻数据采集模型得到新闻数据采集初始结果包括:
S3-1-1、获取待采集新闻数据网站;
S3-1-2、利用所述待采集新闻数据网站基于新闻数据采集模型得到新闻数据采集初始结果;
S3-1-3、判断所述新闻数据采集初始结果是否存在对应历史新闻数据采集初始结果,若是,则执行S3-1-4,否则,S3-1-5;
S3-1-4、判断所述新闻数据采集初始结果与对应历史新闻数据采集初始结果、所述新闻数据采集初始结果对应待采集新闻数据网站与历史新闻数据采集初始结果对应历史采集新闻数据网站是否均为对应,若是,则保留新闻数据采集初始结果,否则,利用所述待采集新闻数据网站与新闻数据采集初始结果共同作为新闻数据采集初始结果;
S3-1-5、判断所述新闻数据采集初始结果与待采集新闻数据网站是否对应,若是,则保留所述新闻数据采集初始结果,否则,利用所述待采集新闻数据网站与新闻数据采集初始结果的请求链接源代码与响应链接源代码作为补充训练集,并返回S2-1。
进一步的,根据所述新闻数据采集初始结果对新闻数据采集模型进行更新处理得到迭代新闻数据采集模型包括:
S3-2-1、利用所述新闻数据采集初始结果对应补充训练集作为迭代训练集;
S3-2-2、利用所述迭代训练集为输入,所述迭代训练集对应新闻数据采集初始结果为输出,基于递归神经网络进行训练得到迭代新闻数据采集模型。
进一步的,利用所述迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果包括:
S3-3-1、判断所述迭代新闻数据采集模型与新闻数据采集模型的输出达成率是否满足浮动阈值,若是,则执行S3-3-2,否则,返回S3-2-1;
S3-3-2、判断所述迭代新闻数据采集模型对应请求链接源代码DOM树、响应链接源代码DOM树与新闻数据采集模型对应请求链接源代码DOM树、响应链接源代码DOM树是否一致,若是,则保留当前迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果,否则,利用所述迭代新闻数据采集模型与新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果;
其中,输出达成率为模型输入与输出的匹配率,浮动阈值为5%。
进一步的,利用所述迭代新闻数据采集模型与新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果包括:
基于所述迭代新闻数据采集模型获取第一输出结果;
基于所述新闻数据采集模型获取第二输出结果;
获取所述第一输出结果与第二输出结果重叠的输出结果建立批量化输出结果。
与最接近的现有技术相比,本发明具有的有益效果:
建立需采集网站数据的请求响应对应关系,并为后续迭代循环模型的建立提供前置基础,考虑到新闻数据网站的多样性与不确定性,因此在先期神经网络训练后,再根据不匹配的训练集单独训练筛选模型,当前后两个模型输出达成率相匹配时,利用循环模型作为批量采集基础,当模型输出率不稳定时,获取两个模型的输出结果重叠部分作为最终结果,保证结果输出的稳定性同时,又实现了模型输出结果的复验。
附图说明
图1是本发明提供的一种基于递归神经网络的大批量新闻数据采集方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:本发明提供了一种基于递归神经网络的大批量新闻数据采集方法,如图1所示,包括:
S1、建立新闻数据采集链接库;
S2、根据所述新闻数据采集链接库基于抽取算法建立新闻数据采集模型;
S3、利用所述新闻数据采集模型得到大批量新闻数据采集结果。
S1具体包括:
S1-1、获取新闻数据网站的存活性结果;
S1-2、根据所述新闻数据网站的存活性结果建立新闻数据网站链接库;
S1-3、利用所述新闻数据网站链接库作为新闻数据采集链接库。
S1-1具体包括:
S1-1-1、对所述新闻数据网站发送链接请求;
S1-1-2、判断所述新闻数据网站是否对链接请求存在回应,若是,则分别对所述新闻数据网站的链接请求与链接响应进行解析处理得到新闻数据网站的请求链接源代码与响应链接源代码,否则,放弃处理;
S1-1-3、利用所述新闻数据网站的请求链接源代码与响应链接源代码作为新闻数据网站的存活性结果。
S1-2具体包括:
S1-2-1、判断所述新闻数据网站的存活性结果对应请求链接源代码与响应链接源代码是否存在噪声数据,若是,则对所述请求链接源代码与响应链接源代码进行去噪处理得到更新的请求链接源代码与响应链接源代码,并执行S1-2-2,否则,直接执行S1-2-2;
S1-2-2、利用所述请求链接源代码与响应链接源代码建立对应请求链接源代码DOM树与响应链接源代码DOM树;
S1-2-3、利用所述请求链接源代码与对应响应链接源代码建立请求-响应映射;
S1-2-4、利用所述请求链接源代码DOM树、响应链接源代码DOM树与请求-响应映射作为新闻数据网站链接库。
S2具体包括:
S2-1、利用所述新闻数据采集链接库的请求链接源代码DOM树与响应链接源代码DOM树作为训练集;
S2-2、利用所述训练集中请求链接源代码DOM树为输入,所述训练集中响应链接源代码DOM树为输出,基于递归神经网络进行训练得到初始新闻数据采集模型;
S2-3、判断所述初始新闻数据采集模型与新闻数据采集链接库的请求-响应映射是否完全对应,若是,则利用所述初始新闻数据采集模型作为新闻数据采集模型,否则,返回S2-1。
S3具体包括:
S3-1、利用所述新闻数据采集模型得到新闻数据采集初始结果;
S3-2、根据所述新闻数据采集初始结果对新闻数据采集模型进行更新处理得到迭代新闻数据采集模型;
S3-3、利用所述迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果;
S3-4、利用所述批量化输出结果得到大批量新闻数据采集结果。
S3-1具体包括:
S3-1-1、获取待采集新闻数据网站;
S3-1-2、利用所述待采集新闻数据网站基于新闻数据采集模型得到新闻数据采集初始结果;
S3-1-3、判断所述新闻数据采集初始结果是否存在对应历史新闻数据采集初始结果,若是,则执行S3-1-4,否则,S3-1-5;
S3-1-4、判断所述新闻数据采集初始结果与对应历史新闻数据采集初始结果、所述新闻数据采集初始结果对应待采集新闻数据网站与历史新闻数据采集初始结果对应历史采集新闻数据网站是否均为对应,若是,则保留新闻数据采集初始结果,否则,利用所述待采集新闻数据网站与新闻数据采集初始结果共同作为新闻数据采集初始结果;
S3-1-5、判断所述新闻数据采集初始结果与待采集新闻数据网站是否对应,若是,则保留所述新闻数据采集初始结果,否则,利用所述待采集新闻数据网站与新闻数据采集初始结果的请求链接源代码与响应链接源代码作为补充训练集,并返回S2-1。
S3-2具体包括:
S3-2-1、利用所述新闻数据采集初始结果对应补充训练集作为迭代训练集;
S3-2-2、利用所述迭代训练集为输入,所述迭代训练集对应新闻数据采集初始结果为输出,基于递归神经网络进行训练得到迭代新闻数据采集模型。
S3-3具体包括:
S3-3-1、判断所述迭代新闻数据采集模型与新闻数据采集模型的输出达成率是否满足浮动阈值,若是,则执行S3-3-2,否则,返回S3-2-1;
S3-3-2、判断所述迭代新闻数据采集模型对应请求链接源代码DOM树、响应链接源代码DOM树与新闻数据采集模型对应请求链接源代码DOM树、响应链接源代码DOM树是否一致,若是,则保留当前迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果,否则,利用所述迭代新闻数据采集模型与新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果;
其中,输出达成率为模型输入与输出的匹配率,浮动阈值为5%。
S3-3-2具体包括:
S3-3-2-1、基于所述迭代新闻数据采集模型获取第一输出结果;
S3-3-2-2、基于所述新闻数据采集模型获取第二输出结果;
S3-3-2-3、获取所述第一输出结果与第二输出结果重叠的输出结果建立批量化输出结果。
本实施例中,一种基于递归神经网络的大批量新闻数据采集方法,在实际应用中为保证预处理后的源代码转换DOM树的数据稳定性,可选择性加入高斯平滑算法,可以降低相邻结点间的特征值突变性,对计算所得的文本特征值进行处理。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (7)
1.一种基于递归神经网络的大批量新闻数据采集方法,其特征在于,包括:
S1、建立新闻数据采集链接库;
S1-1、获取新闻数据网站的存活性结果;
S1-2、根据所述新闻数据网站的存活性结果建立新闻数据网站链接库;
S1-3、利用所述新闻数据网站链接库作为新闻数据采集链接库;
S2、根据所述新闻数据采集链接库基于抽取算法建立新闻数据采集模型;
S2-1、利用所述新闻数据采集链接库的请求链接源代码DOM树与响应链接源代码DOM树作为训练集;
S2-2、利用所述训练集中请求链接源代码DOM树为输入,所述训练集中响应链接源代码DOM树为输出,基于递归神经网络进行训练得到初始新闻数据采集模型;
S2-3、判断所述初始新闻数据采集模型与新闻数据采集链接库的请求-响应映射是否完全对应,若是,则利用所述初始新闻数据采集模型作为新闻数据采集模型,否则,返回S2-1
S3、利用所述新闻数据采集模型得到大批量新闻数据采集结果;
S3-1、利用所述新闻数据采集模型得到新闻数据采集初始结果;
S3-2、根据所述新闻数据采集初始结果对新闻数据采集模型进行更新处理得到迭代新闻数据采集模型;
S3-3、利用所述迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果;
S3-4、利用所述批量化输出结果得到大批量新闻数据采集结果。
2.如权利要求1所述的一种基于递归神经网络的大批量新闻数据采集方法,其特征在于,所述获取新闻数据网站的存活性结果包括:
对所述新闻数据网站发送链接请求;
判断所述新闻数据网站是否对链接请求存在回应,若是,则分别对所述新闻数据网站的链接请求与链接响应进行解析处理得到新闻数据网站的请求链接源代码与响应链接源代码,否则,放弃处理;
利用所述新闻数据网站的请求链接源代码与响应链接源代码作为新闻数据网站的存活性结果。
3.如权利要求2所述的一种基于递归神经网络的大批量新闻数据采集方法,其特征在于,根据所述新闻数据网站的存活性结果建立新闻数据网站链接库包括:
S1-2-1、判断所述新闻数据网站的存活性结果对应请求链接源代码与响应链接源代码是否存在噪声数据,若是,则对所述请求链接源代码与响应链接源代码进行去噪处理得到更新的请求链接源代码与响应链接源代码,并执行S1-2-2,否则,直接执行S1-2-2;
S1-2-2、利用所述请求链接源代码与响应链接源代码建立对应请求链接源代码DOM树与响应链接源代码DOM树;
S1-2-3、利用所述请求链接源代码与对应响应链接源代码建立请求-响应映射;
S1-2-4、利用所述请求链接源代码DOM树、响应链接源代码DOM树与请求-响应映射作为新闻数据网站链接库。
4.如权利要求1所述的一种基于递归神经网络的大批量新闻数据采集方法,其特征在于,利用所述新闻数据采集模型得到新闻数据采集初始结果包括:
S3-1-1、获取待采集新闻数据网站;
S3-1-2、利用所述待采集新闻数据网站基于新闻数据采集模型得到新闻数据采集初始结果;
S3-1-3、判断所述新闻数据采集初始结果是否存在对应历史新闻数据采集初始结果,若是,则执行S3-1-4,否则,S3-1-5;
S3-1-4、判断所述新闻数据采集初始结果与对应历史新闻数据采集初始结果、所述新闻数据采集初始结果对应待采集新闻数据网站与历史新闻数据采集初始结果对应历史采集新闻数据网站是否均为对应,若是,则保留新闻数据采集初始结果,否则,利用所述待采集新闻数据网站与新闻数据采集初始结果共同作为新闻数据采集初始结果;
S3-1-5、判断所述新闻数据采集初始结果与待采集新闻数据网站是否对应,若是,则保留所述新闻数据采集初始结果,否则,利用所述待采集新闻数据网站与新闻数据采集初始结果的请求链接源代码与响应链接源代码作为补充训练集,并返回S2-1。
5.如权利要求4所述的一种基于递归神经网络的大批量新闻数据采集方法,其特征在于,根据所述新闻数据采集初始结果对新闻数据采集模型进行更新处理得到迭代新闻数据采集模型包括:
S3-2-1、利用所述新闻数据采集初始结果对应补充训练集作为迭代训练集;
S3-2-2、利用所述迭代训练集为输入,所述迭代训练集对应新闻数据采集初始结果为输出,基于递归神经网络进行训练得到迭代新闻数据采集模型。
6.如权利要求4所述的一种基于递归神经网络的大批量新闻数据采集方法,其特征在于,利用所述迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果包括:
S3-3-1、判断所述迭代新闻数据采集模型与新闻数据采集模型的输出达成率是否满足浮动阈值,若是,则执行S3-3-2,否则,返回S3-2-1;
S3-3-2、判断所述迭代新闻数据采集模型对应请求链接源代码DOM树、响应链接源代码DOM树与新闻数据采集模型对应请求链接源代码DOM树、响应链接源代码DOM树是否一致,若是,则保留当前迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果,否则,利用所述迭代新闻数据采集模型与新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果;
其中,输出达成率为模型输入与输出的匹配率,浮动阈值为5%。
7.如权利要求6所述的一种基于递归神经网络的大批量新闻数据采集方法,其特征在于,利用所述迭代新闻数据采集模型与新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果包括:
基于所述迭代新闻数据采集模型获取第一输出结果;
基于所述新闻数据采集模型获取第二输出结果;
获取所述第一输出结果与第二输出结果重叠的输出结果建立批量化输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176669.1A CN116910393B (zh) | 2023-09-13 | 2023-09-13 | 一种基于递归神经网络的大批量新闻数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176669.1A CN116910393B (zh) | 2023-09-13 | 2023-09-13 | 一种基于递归神经网络的大批量新闻数据采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116910393A true CN116910393A (zh) | 2023-10-20 |
CN116910393B CN116910393B (zh) | 2023-12-12 |
Family
ID=88351546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311176669.1A Active CN116910393B (zh) | 2023-09-13 | 2023-09-13 | 一种基于递归神经网络的大批量新闻数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910393B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710826A (zh) * | 2018-11-29 | 2019-05-03 | 淮河水利委员会水文局(信息中心) | 一种互联网信息人工智能采集方法及其系统 |
CN111405033A (zh) * | 2020-03-13 | 2020-07-10 | 深圳前海环融联易信息科技服务有限公司 | 数据采集方法、装置、计算机设备及存储介质 |
US20200242508A1 (en) * | 2019-01-30 | 2020-07-30 | Open Text Sa Ulc | Machine learning model publishing systems and methods |
CN112910925A (zh) * | 2021-03-08 | 2021-06-04 | 鹏城实验室 | 域名检测方法、模型训练方法及装置、设备、存储介质 |
CN113407803A (zh) * | 2021-06-21 | 2021-09-17 | 浪潮卓数大数据产业发展有限公司 | 一种一步式采集互联网数据的方法 |
CN113742551A (zh) * | 2021-09-07 | 2021-12-03 | 贵州电子商务云运营有限责任公司 | 一种基于scrapy和puppeteer的动态数据抓取方法 |
WO2022001564A1 (zh) * | 2020-06-30 | 2022-01-06 | 中兴通讯股份有限公司 | 操作集合的获取、执行方法及装置、存储介质和终端设备 |
CN114564638A (zh) * | 2022-01-28 | 2022-05-31 | 广东横琴数说故事信息科技有限公司 | 一种基于深度图神经网络的新闻收集及自动化提取方法 |
CN115033634A (zh) * | 2022-07-08 | 2022-09-09 | 建信金融科技有限责任公司 | 数据采集方法、装置、电子设备和介质 |
-
2023
- 2023-09-13 CN CN202311176669.1A patent/CN116910393B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710826A (zh) * | 2018-11-29 | 2019-05-03 | 淮河水利委员会水文局(信息中心) | 一种互联网信息人工智能采集方法及其系统 |
US20200242508A1 (en) * | 2019-01-30 | 2020-07-30 | Open Text Sa Ulc | Machine learning model publishing systems and methods |
CN111405033A (zh) * | 2020-03-13 | 2020-07-10 | 深圳前海环融联易信息科技服务有限公司 | 数据采集方法、装置、计算机设备及存储介质 |
WO2022001564A1 (zh) * | 2020-06-30 | 2022-01-06 | 中兴通讯股份有限公司 | 操作集合的获取、执行方法及装置、存储介质和终端设备 |
CN112910925A (zh) * | 2021-03-08 | 2021-06-04 | 鹏城实验室 | 域名检测方法、模型训练方法及装置、设备、存储介质 |
CN113407803A (zh) * | 2021-06-21 | 2021-09-17 | 浪潮卓数大数据产业发展有限公司 | 一种一步式采集互联网数据的方法 |
CN113742551A (zh) * | 2021-09-07 | 2021-12-03 | 贵州电子商务云运营有限责任公司 | 一种基于scrapy和puppeteer的动态数据抓取方法 |
CN114564638A (zh) * | 2022-01-28 | 2022-05-31 | 广东横琴数说故事信息科技有限公司 | 一种基于深度图神经网络的新闻收集及自动化提取方法 |
CN115033634A (zh) * | 2022-07-08 | 2022-09-09 | 建信金融科技有限责任公司 | 数据采集方法、装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116910393B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106909901B (zh) | 从图像中检测物体的方法及装置 | |
US10102039B2 (en) | Converting a hybrid flow | |
KR101617696B1 (ko) | 데이터 정규표현식의 마이닝 방법 및 장치 | |
CN105956016A (zh) | 关联信息可视化处理系统 | |
CN105243167A (zh) | 一种数据处理方法及装置 | |
CN113806429B (zh) | 基于大数据流处理框架的画布式日志分析方法 | |
CN107704235A (zh) | 图形化建模中数据流程图的解析方法、系统及存储介质 | |
CN105573836B (zh) | 数据处理方法及装置 | |
CN115098679A (zh) | 文本分类标注样本的异常检测方法、装置、设备及介质 | |
CN113434685A (zh) | 一种资讯分类处理的方法及系统 | |
CN114817243A (zh) | 数据库联合索引的建立方法、装置、设备及存储介质 | |
CN116311492A (zh) | 一种基于深度相机和轮廓提取的手势识别方法及系统 | |
CN115185818A (zh) | 一种基于二进制集合的程序依赖簇检测方法 | |
CN117093260B (zh) | 一种基于决策树分类算法的融合模型网站结构解析方法 | |
CN116910393B (zh) | 一种基于递归神经网络的大批量新闻数据采集方法 | |
CN112783508B (zh) | 文件的编译方法、装置、设备以及存储介质 | |
CN117056592A (zh) | 基于医疗大数据的个性化诊疗推荐系统及方法 | |
CN111680572B (zh) | 一种电网运行场景动态判定方法及系统 | |
CN112507191B (zh) | 用于智慧城市的海量水利数据采集优化方法、装置及系统 | |
CN113001538B (zh) | 一种命令解析方法及系统 | |
CN111796513A (zh) | 一种数据处理方法及装置 | |
CN104112136A (zh) | 一种图像底层视觉特征的提取方法 | |
CN115762683B (zh) | 燃料电池设计数据的处理方法、装置以及电子设备 | |
CN111459576B (zh) | 一种数据分析处理系统和模型运行方法 | |
CN113591484B (zh) | 一种基于语义分析的专家系统规则库建立方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |