CN109710826A

CN109710826A - 一种互联网信息人工智能采集方法及其系统

Info

Publication number: CN109710826A
Application number: CN201811446277.1A
Authority: CN
Inventors: 李凤生; 郏建; 邱梦凌; 徐超; 曾光; 陈鹤
Original assignee: Huaihe River Hydrological Bureau Of Water Conservancy Council (information Center)
Current assignee: Huaihe River Hydrological Bureau Of Water Conservancy Council (information Center)
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-05-03

Abstract

本发明公开了一种互联网信息人工智能采集方法，包括以下步骤：建立网页采集模型、获取网络信息、数据分析、数据处理、结果输出以及网页采集模型再学习；采集方法通过网页采集模型对互联网数据进行检索分析，然后结合人机交互显示，通过深层神经网络的特征模式学习，利用深层神经网络对解析后的数据与特征数据做比对，更新检索和分析方式，每进行一次学习，网页采集模型都会提高数据的检索精准度，经过一定时间的学习能够达到人眼与人脑的配合水平；还提供了一种基于网页采集模型的互联网信息人工智能采集系统，包括网页采集模型模块、数据分析处理模块、数据存储模块、人机交互模块。

Description

一种互联网信息人工智能采集方法及其系统

技术领域

本发明涉及网络信息采集技术领域，特别涉及一种通过网页采集模型来实现的互联网信息采集的方法以及系统。

背景技术

随着互联网的高速发展以及大数据平台的出现，网络信息的庞大数量难以形容，而从网络数据中搜索和查询想要的数据更是麻烦，现有的搜索模式一般都是通过搜索搜索引擎或者专业的数据库中检索，但由于数据的更新速度快，每次都需要重新检索，重新排查，不仅浪费时间，而且效率低下。

另外，对于一些数据采集系统，一般都是通过不断的检索不断的数据分析和去噪才能得出所需要的数据，每次重新检索都需要将之前的工作重复，非常的浪费资源。

发明内容

为了解决现有的互联网数据采集繁琐，浪费资源的问题，本发明提供一种能够快速高效的人工智能采集方法和系统。

为了实现上述目的，本发明提供的技术方案是：一种互联网信息人工智能采集方法，包括以下步骤：

建立网页采集模型，建立基于爬虫或者搜索引擎检索获取网络数据的模型；

获取网络信息，利用网页采集模型对大数据平台的文章、新闻、帖子进行数据采集；

数据处理，对采集的数据进行数据处理，包括图片处理，文字翻译，去噪，去重；

数据分析，将处理后的数据按结构分割成数据单元，将数据单元进行自由组合形成数据单元组，再将数据单元组进行语义匹配，输出匹配度指数，提取匹配度指数最高的数据单元组；

网页采集模型再学习，将数据分析后的结果存储并循环交替给深度神经网络，作为网页采集模型的学习样本，并且阶段性的进行阶段审阅迭代修改模型；

结果输出，将数据分析后的结果分模块展现在人机交互界面中。

在上述技术方案中，所述深度神经网络通过获取多组内容混排特征数据，将所述特征数据输入到深度神经网络模型中进行训练，每组数据通过网络输出预测结果并以训练数据更新深度神经网络模型参数，使用更新后的深度神经网络进行下一组训练，直到深度神经网络模型参数收敛。

在上述技术方案中，进一步的，所述特征数据包括网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者。

作为优选的一种技术方案，所述图片处理通过OCR图片识别模块进行图片处理。

另外，本发明提供一种互联网信息人工智能采集系统，包括：网页采集模块，用于采集互联网或大数据平台的数据，提取所需文章、新闻、帖子或者微博数据，并通过深度神经网络进行再学习；

数据处理分析模块，用于分析网页采集模型采集的数据，包括图片处理，文字翻译，关键字提取，去噪，去重，匹配度指数与相似度分析；

数据存储模块，用于存储网页采集模型采集的数据以及数据分析模块的数据；

人机交互模块，用于将分析处理后的数据分模块展现在人机交互界面中，同时可通过人机交互界面修改所需采集的内容。

在该系统中，优选的，所述图片处理通过OCR图片识别模块进行图片处理。

进一步的，在该系统中，所述人机交互模块分为信息模块、报告模块、过滤模块、任务模块、统计模块。

本发明相对于现有技术的有益效果是：该采集方法基于网页采集模型对互联网数据进行检索分析，然后结合人机交互显示，通过深层神经网络的特征模式学习，利用深层神经网络对解析后的数据与特征数据做比对，更新检索和分析方式，每进行一次学习，网页采集模型都会提高数据的检索精准度，经过一定时间的学习能够达到人眼与人脑的配合水平；同样的，该采集系统通过网页采集模型的学习，能够达到无需人工干预的效果。

附图说明

图1是本发明的方法流程图；

图2是本发明的方法的详细流程图；

图3是本发明的系统结构图；

图4是本发明的系统详细结构图；

图5是本系统的整体框架图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1和图2所示，一种互联网信息人工智能采集方法，包括以下步骤：

S10：建立网页采集模型；建立通过爬虫或者搜索引擎检索获取网络数据的模型，该模块用于采集互联网或大数据平台的数据，提取所需文章、新闻、帖子或者微博数据，并通过深度神经网络进行再学习；

S20：获取网络数据；通过网页采集模型对大数据平台的文章、新闻、帖子进行数据采集，具体包括采集网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者，等等数据，并将数据进行缓存，如图2所示，任务处理引擎按计划任务将待执行的采集任务获取后，任务处理引擎将任务下达至采集下载引擎下载采集网络信息，然后忘了页面解析引擎处理解析网络数据，即接下来的步骤S30。

S30：数据处理；对采集的数据进行数据处理，结果处理引擎将采集的数据包括图片处理，通过OCR图片识别模块对图片进行处理，提取图片中的文字或者图案；文字翻译，通过翻译模块对网站中的非中文文字翻译成中文，然后将文字关键字提取出来与用户设置的关键字进行对比；再进行去噪，将相关度低的信息删除，再将内容相同或者近似度高的文章、新闻等删除即去重。

S40：数据分析，将处理后的数据按结构分割成数据单元，数据单元包括文字的标题以及文章的内容，每个标题或者内容都是一个数据单元，然后将这些数据单元进行自由组合形成数据单元组，再将数据单元组进行语义匹配，利用分词技术将数据单元组中的两个或者多个数据单元进行匹配，计算出词频、情感、正负面等相关技术指标，然后将上述指标进行加权平均最终得出匹配度指数，提取匹配度指数最高的数据单元组；

S50：结果输出，将分析处理后的数据，即匹配度指数最高的数据单元组中的数据(文章的标题、文章的内容)分模块展现在人机交互界面中，例如文章模块、新闻模块、微博模块、帖子模块用这些模块将检索信息分别放置在对应的模块中，方便用户查阅；

S60：网页采集模型再学习，网页采集引擎特征优化、样本在学习，将数据分析后的结果以及人机交互中修改的采集数据存储并循环交替给深度神经网络，作为网页采集模型的学习样本，并且阶段性的进行阶段审阅迭代修改模型。深度神经网络通过获取多组内容混排特征数据，特征数据包括网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者，然后将所述特征数据输入到深度神经网络模型中进行训练，每组数据通过网络输出预测结果并以训练数据更新深度神经网络模型参数，使用更新后的深度神经网络进行下一组训练，直到深度神经网络模型参数收敛，网页采集模型再学习完成。

通过深层神经网络的特征模式学习，利用深层神经网络对解析后的数据与特征数据做比对，更新检索和分析方式，每进行一次学习，网页采集模型都会对数据的检索更加的精准，经过一定时间的学习能够达到人眼与人脑的配合水平。

另外，如图3和图4所示，本发明提供还一种互联网信息人工智能采集系统，包括：网页采集模块，该模块通过爬虫或者搜索引擎检索获取网络数据的模型，该模块用于采集互联网或大数据平台的数据，提取所需文章、新闻、帖子或者微博数据，并通过深度神经网络进行再学习。

具体的再学习是网页采集模块将数据分析模块分析后的结果以及人机交互中修改的采集数据存储并循环交替给深度神经网络，作为网页采集模型的学习样本，并且阶段性的进行阶段审阅迭代修改模型。深度神经网络通过获取多组内容混排特征数据，特征数据包括网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者，然后将所述特征数据输入到深度神经网络模型中进行训练，每组数据通过网络输出预测结果并以训练数据更新深度神经网络模型参数，使用更新后的深度神经网络进行下一组训练，直到深度神经网络模型参数收敛，网页采集模块在学习完成。

数据采集对象包括新闻、论坛、博客、贴吧、网页、微博等，进行监测任务配置时，能够同时配置多个所述关键词，多个所述关键词之间用#号隔开，过滤词用于过滤搜索结果，此项是一个可选项。

另外，该系统还包括数据分析模块，即图4中的采集分析引擎，用于图片和文字处理，通过在任务引擎获取任务后，将采集的数据进行分析，有多种分析方式，对于图片通过OCR图片识别模块对图片进行处理，提取图片中的文字或者图案；对于文字，包括对文字翻译，通过翻译模块对网站中的非中文文字翻译成中文，然后将文字关键字提取出来与用户设置的关键字进行对比；再进行去噪，将相关度低的信息删除，再将内容相同或者近似度高的文章、新闻等删除即去重，这其中就保护相似度分析，即将两篇或者多篇文章、新闻进行比对，最后给出相似度。

该系统还包括数据存储模块，存储网页采集模型采集的数据以及数据分析模块的数据；

该系统还包括人机交互模块，将分析处理后的数据分模块展现在人机交互界面中，同时可通过人机交互界面修改所需采集的内容。人机交互模块分为文章模块、新闻模块、微博模块、帖子模块、文章模块、新闻模块、微博模块、帖子模块，用这些模块将检索信息分别放置在对应的模块中，方便用户查阅；另外，人机交互中还增加设置模块，同时可通过设置模块修即引擎配置中心改所需采集的内容，具体的包括关键字管理、网址管理、链接管理、标题管理、过滤词管理、作者设置等等，用户可以根据设置网址来只查询和检索该网站的文章或者新闻，也可以只检索该作者的相关文章等等。

如图5所示，用户通过管理配置中心可访问分布式采集服务器，分布式采集服务器与互联网、视觉识别引擎服务器、数据存储服务器都通过网络通讯，这样可实现多用户同时访问各个服务器，增加了服务器的承载能力，从而提高了用户的体验感。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于互联网信息人工智能采集方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的互联网信息人工智能采集方法，其特征在于：所述深度神经网络通过获取多组内容混排特征数据，将所述特征数据输入到深度神经网络模型中进行训练，每组数据通过网络输出预测结果并以训练数据更新深度神经网络模型参数，使用更新后的深度神经网络进行下一组训练，直到深度神经网络模型参数收敛。

3.根据权利要求2所述的互联网信息人工智能采集方法，其特征在于：所述特征数据包括网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者。

4.根据权利要求1所述的互联网信息人工智能采集方法，其特征在于：所述图片处理通过OCR图片识别模块进行图片处理。

5.一种基于网页采集模型的互联网信息人工智能采集系统，其特征在于，包括：网页采集模块，用于采集互联网或大数据平台的数据，提取所需文章、新闻、帖子或者微博数据，并通过深度神经网络进行再学习；

6.根据权利要求5所述的互联网信息人工智能采集系统，其特征在于：所述图片处理通过OCR图片识别模块进行图片处理。

7.根据权利要求5所述的互联网信息人工智能采集系统，其特征在于：所述人机交互模块分为信息模块、报告模块、过滤模块、任务模块、统计模块。