CN109710826A - 一种互联网信息人工智能采集方法及其系统 - Google Patents

一种互联网信息人工智能采集方法及其系统 Download PDF

Info

Publication number
CN109710826A
CN109710826A CN201811446277.1A CN201811446277A CN109710826A CN 109710826 A CN109710826 A CN 109710826A CN 201811446277 A CN201811446277 A CN 201811446277A CN 109710826 A CN109710826 A CN 109710826A
Authority
CN
China
Prior art keywords
data
module
model
article
artificial intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811446277.1A
Other languages
English (en)
Inventor
李凤生
郏建
邱梦凌
徐超
曾光
陈鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaihe River Hydrological Bureau Of Water Conservancy Council (information Center)
Original Assignee
Huaihe River Hydrological Bureau Of Water Conservancy Council (information Center)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaihe River Hydrological Bureau Of Water Conservancy Council (information Center) filed Critical Huaihe River Hydrological Bureau Of Water Conservancy Council (information Center)
Priority to CN201811446277.1A priority Critical patent/CN109710826A/zh
Publication of CN109710826A publication Critical patent/CN109710826A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种互联网信息人工智能采集方法,包括以下步骤:建立网页采集模型、获取网络信息、数据分析、数据处理、结果输出以及网页采集模型再学习;采集方法通过网页采集模型对互联网数据进行检索分析,然后结合人机交互显示,通过深层神经网络的特征模式学习,利用深层神经网络对解析后的数据与特征数据做比对,更新检索和分析方式,每进行一次学习,网页采集模型都会提高数据的检索精准度,经过一定时间的学习能够达到人眼与人脑的配合水平;还提供了一种基于网页采集模型的互联网信息人工智能采集系统,包括网页采集模型模块、数据分析处理模块、数据存储模块、人机交互模块。

Description

一种互联网信息人工智能采集方法及其系统
技术领域
本发明涉及网络信息采集技术领域,特别涉及一种通过网页采集模型来实现的互联网信息采集的方法以及系统。
背景技术
随着互联网的高速发展以及大数据平台的出现,网络信息的庞大数量难以形容,而从网络数据中搜索和查询想要的数据更是麻烦,现有的搜索模式一般都是通过搜索搜索引擎或者专业的数据库中检索,但由于数据的更新速度快,每次都需要重新检索,重新排查,不仅浪费时间,而且效率低下。
另外,对于一些数据采集系统,一般都是通过不断的检索不断的数据分析和去噪才能得出所需要的数据,每次重新检索都需要将之前的工作重复,非常的浪费资源。
发明内容
为了解决现有的互联网数据采集繁琐,浪费资源的问题,本发明提供一种能够快速高效的人工智能采集方法和系统。
为了实现上述目的,本发明提供的技术方案是:一种互联网信息人工智能采集方法,包括以下步骤:
建立网页采集模型,建立基于爬虫或者搜索引擎检索获取网络数据的模型;
获取网络信息,利用网页采集模型对大数据平台的文章、新闻、帖子进行数据采集;
数据处理,对采集的数据进行数据处理,包括图片处理,文字翻译,去噪,去重;
数据分析,将处理后的数据按结构分割成数据单元,将数据单元进行自由组合形成数据单元组,再将数据单元组进行语义匹配,输出匹配度指数,提取匹配度指数最高的数据单元组;
网页采集模型再学习,将数据分析后的结果存储并循环交替给深度神经网络,作为网页采集模型的学习样本,并且阶段性的进行阶段审阅迭代修改模型;
结果输出,将数据分析后的结果分模块展现在人机交互界面中。
在上述技术方案中,所述深度神经网络通过获取多组内容混排特征数据,将所述特征数据输入到深度神经网络模型中进行训练,每组数据通过网络输出预测结果并以训练数据更新深度神经网络模型参数,使用更新后的深度神经网络进行下一组训练,直到深度神经网络模型参数收敛。
在上述技术方案中,进一步的,所述特征数据包括网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者。
作为优选的一种技术方案,所述图片处理通过OCR图片识别模块进行图片处理。
另外,本发明提供一种互联网信息人工智能采集系统,包括:网页采集模块,用于采集互联网或大数据平台的数据,提取所需文章、新闻、帖子或者微博数据,并通过深度神经网络进行再学习;
数据处理分析模块,用于分析网页采集模型采集的数据,包括图片处理,文字翻译,关键字提取,去噪,去重,匹配度指数与相似度分析;
数据存储模块,用于存储网页采集模型采集的数据以及数据分析模块的数据;
人机交互模块,用于将分析处理后的数据分模块展现在人机交互界面中,同时可通过人机交互界面修改所需采集的内容。
在该系统中,优选的,所述图片处理通过OCR图片识别模块进行图片处理。
进一步的,在该系统中,所述人机交互模块分为信息模块、报告模块、过滤模块、任务模块、统计模块。
本发明相对于现有技术的有益效果是:该采集方法基于网页采集模型对互联网数据进行检索分析,然后结合人机交互显示,通过深层神经网络的特征模式学习,利用深层神经网络对解析后的数据与特征数据做比对,更新检索和分析方式,每进行一次学习,网页采集模型都会提高数据的检索精准度,经过一定时间的学习能够达到人眼与人脑的配合水平;同样的,该采集系统通过网页采集模型的学习,能够达到无需人工干预的效果。
附图说明
图1是本发明的方法流程图;
图2是本发明的方法的详细流程图;
图3是本发明的系统结构图;
图4是本发明的系统详细结构图;
图5是本系统的整体框架图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1和图2所示,一种互联网信息人工智能采集方法,包括以下步骤:
S10:建立网页采集模型;建立通过爬虫或者搜索引擎检索获取网络数据的模型,该模块用于采集互联网或大数据平台的数据,提取所需文章、新闻、帖子或者微博数据,并通过深度神经网络进行再学习;
S20:获取网络数据;通过网页采集模型对大数据平台的文章、新闻、帖子进行数据采集,具体包括采集网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者,等等数据,并将数据进行缓存,如图2所示,任务处理引擎按计划任务将待执行的采集任务获取后,任务处理引擎将任务下达至采集下载引擎下载采集网络信息,然后忘了页面解析引擎处理解析网络数据,即接下来的步骤S30。
S30:数据处理;对采集的数据进行数据处理,结果处理引擎将采集的数据包括图片处理,通过OCR图片识别模块对图片进行处理,提取图片中的文字或者图案;文字翻译,通过翻译模块对网站中的非中文文字翻译成中文,然后将文字关键字提取出来与用户设置的关键字进行对比;再进行去噪,将相关度低的信息删除,再将内容相同或者近似度高的文章、新闻等删除即去重。
S40:数据分析,将处理后的数据按结构分割成数据单元,数据单元包括文字的标题以及文章的内容,每个标题或者内容都是一个数据单元,然后将这些数据单元进行自由组合形成数据单元组,再将数据单元组进行语义匹配,利用分词技术将数据单元组中的两个或者多个数据单元进行匹配,计算出词频、情感、正负面等相关技术指标,然后将上述指标进行加权平均最终得出匹配度指数,提取匹配度指数最高的数据单元组;
S50:结果输出,将分析处理后的数据,即匹配度指数最高的数据单元组中的数据(文章的标题、文章的内容)分模块展现在人机交互界面中,例如文章模块、新闻模块、微博模块、帖子模块用这些模块将检索信息分别放置在对应的模块中,方便用户查阅;
S60:网页采集模型再学习,网页采集引擎特征优化、样本在学习,将数据分析后的结果以及人机交互中修改的采集数据存储并循环交替给深度神经网络,作为网页采集模型的学习样本,并且阶段性的进行阶段审阅迭代修改模型。深度神经网络通过获取多组内容混排特征数据,特征数据包括网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者,然后将所述特征数据输入到深度神经网络模型中进行训练,每组数据通过网络输出预测结果并以训练数据更新深度神经网络模型参数,使用更新后的深度神经网络进行下一组训练,直到深度神经网络模型参数收敛,网页采集模型再学习完成。
通过深层神经网络的特征模式学习,利用深层神经网络对解析后的数据与特征数据做比对,更新检索和分析方式,每进行一次学习,网页采集模型都会对数据的检索更加的精准,经过一定时间的学习能够达到人眼与人脑的配合水平。
另外,如图3和图4所示,本发明提供还一种互联网信息人工智能采集系统,包括:网页采集模块,该模块通过爬虫或者搜索引擎检索获取网络数据的模型,该模块用于采集互联网或大数据平台的数据,提取所需文章、新闻、帖子或者微博数据,并通过深度神经网络进行再学习。
具体的再学习是网页采集模块将数据分析模块分析后的结果以及人机交互中修改的采集数据存储并循环交替给深度神经网络,作为网页采集模型的学习样本,并且阶段性的进行阶段审阅迭代修改模型。深度神经网络通过获取多组内容混排特征数据,特征数据包括网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者,然后将所述特征数据输入到深度神经网络模型中进行训练,每组数据通过网络输出预测结果并以训练数据更新深度神经网络模型参数,使用更新后的深度神经网络进行下一组训练,直到深度神经网络模型参数收敛,网页采集模块在学习完成。
数据采集对象包括新闻、论坛、博客、贴吧、网页、微博等,进行监测任务配置时,能够同时配置多个所述关键词,多个所述关键词之间用#号隔开,过滤词用于过滤搜索结果,此项是一个可选项。
另外,该系统还包括数据分析模块,即图4中的采集分析引擎,用于图片和文字处理,通过在任务引擎获取任务后,将采集的数据进行分析,有多种分析方式,对于图片通过OCR图片识别模块对图片进行处理,提取图片中的文字或者图案;对于文字,包括对文字翻译,通过翻译模块对网站中的非中文文字翻译成中文,然后将文字关键字提取出来与用户设置的关键字进行对比;再进行去噪,将相关度低的信息删除,再将内容相同或者近似度高的文章、新闻等删除即去重,这其中就保护相似度分析,即将两篇或者多篇文章、新闻进行比对,最后给出相似度。
该系统还包括数据存储模块,存储网页采集模型采集的数据以及数据分析模块的数据;
该系统还包括人机交互模块,将分析处理后的数据分模块展现在人机交互界面中,同时可通过人机交互界面修改所需采集的内容。人机交互模块分为文章模块、新闻模块、微博模块、帖子模块、文章模块、新闻模块、微博模块、帖子模块,用这些模块将检索信息分别放置在对应的模块中,方便用户查阅;另外,人机交互中还增加设置模块,同时可通过设置模块修即引擎配置中心改所需采集的内容,具体的包括关键字管理、网址管理、链接管理、标题管理、过滤词管理、作者设置等等,用户可以根据设置网址来只查询和检索该网站的文章或者新闻,也可以只检索该作者的相关文章等等。
如图5所示,用户通过管理配置中心可访问分布式采集服务器,分布式采集服务器与互联网、视觉识别引擎服务器、数据存储服务器都通过网络通讯,这样可实现多用户同时访问各个服务器,增加了服务器的承载能力,从而提高了用户的体验感。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

Claims (7)

1.一种基于互联网信息人工智能采集方法,其特征在于,包括以下步骤:
建立网页采集模型,建立基于爬虫或者搜索引擎检索获取网络数据的模型;
获取网络信息,利用网页采集模型对大数据平台的文章、新闻、帖子进行数据采集;
数据处理,对采集的数据进行数据处理,包括图片处理,文字翻译,去噪,去重;
数据分析,将处理后的数据按结构分割成数据单元,将数据单元进行自由组合形成数据单元组,再将数据单元组进行语义匹配,输出匹配度指数,提取匹配度指数最高的数据单元组;
网页采集模型再学习,将数据分析后的结果存储并循环交替给深度神经网络,作为网页采集模型的学习样本,并且阶段性的进行阶段审阅迭代修改模型;
结果输出,将数据分析后的结果分模块展现在人机交互界面中。
2.根据权利要求1所述的互联网信息人工智能采集方法,其特征在于:所述深度神经网络通过获取多组内容混排特征数据,将所述特征数据输入到深度神经网络模型中进行训练,每组数据通过网络输出预测结果并以训练数据更新深度神经网络模型参数,使用更新后的深度神经网络进行下一组训练,直到深度神经网络模型参数收敛。
3.根据权利要求2所述的互联网信息人工智能采集方法,其特征在于:所述特征数据包括网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者。
4.根据权利要求1所述的互联网信息人工智能采集方法,其特征在于:所述图片处理通过OCR图片识别模块进行图片处理。
5.一种基于网页采集模型的互联网信息人工智能采集系统,其特征在于,包括:网页采集模块,用于采集互联网或大数据平台的数据,提取所需文章、新闻、帖子或者微博数据,并通过深度神经网络进行再学习;
数据处理分析模块,用于分析网页采集模型采集的数据,包括图片处理,文字翻译,关键字提取,去噪,去重,匹配度指数与相似度分析;
数据存储模块,用于存储网页采集模型采集的数据以及数据分析模块的数据;
人机交互模块,用于将分析处理后的数据分模块展现在人机交互界面中,同时可通过人机交互界面修改所需采集的内容。
6.根据权利要求5所述的互联网信息人工智能采集系统,其特征在于:所述图片处理通过OCR图片识别模块进行图片处理。
7.根据权利要求5所述的互联网信息人工智能采集系统,其特征在于:所述人机交互模块分为信息模块、报告模块、过滤模块、任务模块、统计模块。
CN201811446277.1A 2018-11-29 2018-11-29 一种互联网信息人工智能采集方法及其系统 Pending CN109710826A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811446277.1A CN109710826A (zh) 2018-11-29 2018-11-29 一种互联网信息人工智能采集方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811446277.1A CN109710826A (zh) 2018-11-29 2018-11-29 一种互联网信息人工智能采集方法及其系统

Publications (1)

Publication Number Publication Date
CN109710826A true CN109710826A (zh) 2019-05-03

Family

ID=66255321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811446277.1A Pending CN109710826A (zh) 2018-11-29 2018-11-29 一种互联网信息人工智能采集方法及其系统

Country Status (1)

Country Link
CN (1) CN109710826A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674396A (zh) * 2019-08-28 2020-01-10 北京三快在线科技有限公司 文本信息处理方法、装置、电子设备及可读存储介质
CN111581199A (zh) * 2020-05-08 2020-08-25 广东电网有限责任公司 一种智能数据分析系统及方法
CN113076459A (zh) * 2021-04-27 2021-07-06 无锡星凝互动科技有限公司 一种基于ai咨询神经网络搭建方法及系统
CN113220963A (zh) * 2020-11-09 2021-08-06 深圳信息职业技术学院 一种基于互联网大数据的机器智能学习方法
CN116910393A (zh) * 2023-09-13 2023-10-20 戎行技术有限公司 一种基于递归神经网络的大批量新闻数据采集方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153372A1 (en) * 2008-12-17 2010-06-17 Sea Woo Kim 3d visualization system for web survey
CN103248513A (zh) * 2012-06-19 2013-08-14 谷尼国际软件(北京)有限公司 基于Office办公套件的网络信息数据采集方法及系统
CN105893583A (zh) * 2016-04-01 2016-08-24 北京鼎泰智源科技有限公司 基于人工智能的数据采集方法及系统
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153372A1 (en) * 2008-12-17 2010-06-17 Sea Woo Kim 3d visualization system for web survey
CN103248513A (zh) * 2012-06-19 2013-08-14 谷尼国际软件(北京)有限公司 基于Office办公套件的网络信息数据采集方法及系统
CN105893583A (zh) * 2016-04-01 2016-08-24 北京鼎泰智源科技有限公司 基于人工智能的数据采集方法及系统
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高加旺等: "基于相似度曲线的新闻网页分类模型研究", 《信息技术》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674396A (zh) * 2019-08-28 2020-01-10 北京三快在线科技有限公司 文本信息处理方法、装置、电子设备及可读存储介质
CN111581199A (zh) * 2020-05-08 2020-08-25 广东电网有限责任公司 一种智能数据分析系统及方法
CN111581199B (zh) * 2020-05-08 2024-01-30 广东电网有限责任公司 一种智能数据分析系统及方法
CN113220963A (zh) * 2020-11-09 2021-08-06 深圳信息职业技术学院 一种基于互联网大数据的机器智能学习方法
CN113076459A (zh) * 2021-04-27 2021-07-06 无锡星凝互动科技有限公司 一种基于ai咨询神经网络搭建方法及系统
CN116910393A (zh) * 2023-09-13 2023-10-20 戎行技术有限公司 一种基于递归神经网络的大批量新闻数据采集方法
CN116910393B (zh) * 2023-09-13 2023-12-12 戎行技术有限公司 一种基于递归神经网络的大批量新闻数据采集方法

Similar Documents

Publication Publication Date Title
CN109710826A (zh) 一种互联网信息人工智能采集方法及其系统
KR101605430B1 (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
CN110968684B (zh) 一种信息处理方法、装置、设备及存储介质
CN104281702B (zh) 基于电力关键词分词的数据检索方法及装置
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
CN105893583A (zh) 基于人工智能的数据采集方法及系统
CN107145503A (zh) 基于word2vec的远监督非分类关系提取方法及系统
CN107704558A (zh) 一种用户意见抽取方法及系统
CN103823824A (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN101261629A (zh) 基于自动分类技术的特定信息搜索方法
CN103577558A (zh) 一种优化问答对的搜索排名的装置和方法
CN107506472B (zh) 一种学生浏览网页分类方法
CN112749284A (zh) 知识图谱构建方法、装置、设备及存储介质
CN110019703A (zh) 数据标记方法及装置、智能问答方法及系统
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN108647199A (zh) 一种地名新词的发现方法
CN115796181A (zh) 一种针对化工领域的文本关系抽取方法
CN106021442A (zh) 一种网络新闻概要提取方法
CN111475625A (zh) 基于知识图谱的新闻稿件生成方法及系统
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN111028952B (zh) 一种中文医学蕴含知识图谱构建方法及装置
CN103942274B (zh) 一种基于lda的生物医疗图像的标注系统及方法
CN103714120B (zh) 一种从用户url访问记录中提取用户兴趣话题的系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190503