CN105574086A

CN105574086A - 对互联网非结构化数据字段的人工智能萃取方法

Info

Publication number: CN105574086A
Application number: CN201510910408.7A
Authority: CN
Inventors: 张宝洪; 张作职
Original assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Current assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-05-11

Abstract

一种对互联网非结构化数据字段的人工智能萃取方法，通过创建知识库，合理地引入了人工智能；可组合正则、DOM、JSON等多种数据萃取方式获取字段数据、对页面数据进行分组；并且能够对提取数据的进行后加工，从而能灵活的满足字段的定制需求。本发明能够提升对页面数据提取的精准度，并且可以灵活应对多种复杂的数据，包括电商网站、微博、旅游、政府部门、企业等的网站的数据，可支持Ajax嵌入页，可支持网页特征改版监控。

Description

对互联网非结构化数据字段的人工智能萃取方法

技术领域

本发明涉及互联网信息采集的技术领域，具体说是一种对互联网非结构化数据字段的人工智能萃取方法。

背景技术

随着电子商务日益普及，消费者在商品交易前的货比三家、交易后的商品评价以及与商铺的交互等网购行为，对商品交易相关的产品信息、客户评价、电子商铺等关联讯息的获取需求日益旺盛。电子商务网站功能日趋完善，新的电商网站也不断涌现，电商类似的旅游网站以及其他提供各种各样的信息的网站，拥有海量的数据，这些数据的准确获取，需将网页中非结构化的数据转为结构化数据，以便于程序自动处理，完整准确地获取数据并转化为可利用的信息。

但是现有的智能算法无法快速响应以下情况：电商网站的页面频繁改版，且种类多样；政府、企业类网站，其网站设计各不相同，页面也不一致；包含Ajax的页面；需要灵活增删字段的情况。

发明内容

本发明要解决的技术问题是提供一种对互联网非结构化数据字段的人工智能萃取方法。

本发明为解决公知技术中存在的技术问题所采取的技术方案是:

本发明的对互联网非结构化数据字段的人工智能萃取方法，包括以下步骤：

A、创建知识库；

B、接收并解析萃取请求；

C、与知识库中的知识进行匹配并提取对应的知识内容；

D、从页面源码中萃取出简单字段数据；

E、根据知识定义的分组规则，对页面源码中数据进行分组，即拆分出多组数据；然后对每组数据分别萃取出字段数据；

F、萃取字段数据，即对网页数据拆分获取有用数据；根据定义字段萃取流程，调用相应的萃取方式，取得字段结果；

G、对字段结果的相应数据进行归一化和组合；

H、按照字段映射关系生成存储数据并存储。

本发明还可以采用以下技术措施：

步骤E中，分组规则为正则分组、DOM分组和JSON分组中的任一种规则。

步骤F中，根据需求选择单页面数据或多页面数据进行萃取。

进行数据萃取时选择正则解析、DOM解析和JSON解析中的任一种萃取方式。

进行数据萃取时选择正则解析、DOM解析和JSON解析中多种萃取方式的组合。

步骤H中，存储数据存储至Mysql服务器和Hbase服务器。

本发明具有的优点和积极效果是:

本发明的对互联网非结构化数据字段的人工智能萃取方法中，通过创建知识库，合理地引入了人工智能；可组合多种的数据萃取方式获取字段数据、对页面数据进行分组；并且能够对提取数据的进行后加工，从而能灵活的满足字段的定制需求。本发明能够提升对页面数据提取的精准度，并且可以灵活应对多种复杂的数据，包括电商网站、微博、旅游、政府部门、企业等的网站的数据，可支持Ajax嵌入页，可支持网页特征改版监控。

附图说明

图1是本发明的对互联网非结构化数据字段的人工智能萃取方法所依据的系统信息架构；

图2是本发明的对互联网非结构化数据字段的人工智能萃取方法的流程图。

具体实施方式

以下通过具体实施例对本发明进行详细说明。

如图1和图2所示，本发明的对互联网非结构化数据字段的人工智能萃取方法，包括以下步骤：

A、创建知识库；

B、接收并解析萃取请求；

C、与知识库中的知识进行匹配并提取对应的知识内容；找到相应的知识时则进行后续步骤，如未找到相应的知识则返回FALSE

D、从页面源码中萃取出简单字段数据，此步骤中一个页面对应只生成一组数据；

E、根据知识定义的分组规则，对页面源码中数据进行分组（分组规则包括正则分组、DOM分组和JSON分组），即拆分出多组数据；然后对每组数据分别萃取出字段数据，此步骤中一个页面可生成多组数据；

G、对字段结果的相应数据进行归一化和组合；

H、按照字段映射关系生成存储数据并通过存储插件进行存储。

本系统底层平台采用了ICE网络通信引擎（InternetCommunicationsEngine,Ice）和Gearman是分发任务的程序框架，对任务请求进行处理；应用正则/DOM/XML/JSON技术等开发相应的数据萃取插件，添加了分组策略解析多组近似数据（如商品评论），内嵌了JS引擎，方便系统的扩展。从系统架构上看，本发明的对互联网非结构化数据字段的人工智能萃取方法中需要涵盖萃取引擎、存储引擎、知识库和运营平台几大部分，其中知识库通过运营平台构建，而运营平台向萃取引擎请求萃取结果，同时萃取引擎将萃取处理后的数据通过存储引擎存储至Mysql和Hbase服务器。

步骤F中，根据需求选择单页面数据或多页面数据进行萃取。

根据输入数据的类别：HTML、JSON、XML、Ajax以及字段提取的需求，定义字段萃取流程，即选取不同的萃取方式或几种萃取方式组合：正则解析、JSON解析、DOM解析。

作为萃取结果的存储数据存储至Mysql服务器和Hbase服务器。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例公开如上，然而，并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰，成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种对互联网非结构化数据字段的人工智能萃取方法，包括以下步骤：

A、创建知识库；

B、接收并解析萃取请求；

C、与知识库中的知识进行比对，用匹配的知识提取对应的内容；

D、从页面源码中萃取出简单字段数据；

G、对字段结果的相应数据进行归一化和组合；

H、按照字段映射关系生成存储数据并存储。

2.根据权利要求1所述的对互联网非结构化数据字段的人工智能萃取方法，其特征在于：步骤E中，分组规则为正则分组、DOM分组和JSON分组中的任一种规则。

3.根据权利要求1或2所述的对互联网非结构化数据字段的人工智能萃取方法，其特征在于：步骤F中，根据需求选择单页面数据或多页面数据进行萃取。

4.根据权利要求3所述的对互联网非结构化数据字段的人工智能萃取方法，其特征在于：进行数据萃取时选择正则解析、DOM解析和JSON解析中的任一种萃取方式。

5.根据权利要求3所述的对互联网非结构化数据字段的人工智能萃取方法，其特征在于：进行数据萃取时选择正则解析、DOM解析和JSON解析中多种萃取方式的组合。

6.根据权利要求1所述的对互联网非结构化数据字段的人工智能萃取方法，其特征在于：步骤H中，存储数据存储至Mysql服务器和Hbase服务器。