CN105574086A - 对互联网非结构化数据字段的人工智能萃取方法 - Google Patents
对互联网非结构化数据字段的人工智能萃取方法 Download PDFInfo
- Publication number
- CN105574086A CN105574086A CN201510910408.7A CN201510910408A CN105574086A CN 105574086 A CN105574086 A CN 105574086A CN 201510910408 A CN201510910408 A CN 201510910408A CN 105574086 A CN105574086 A CN 105574086A
- Authority
- CN
- China
- Prior art keywords
- data
- field
- artificial intelligence
- extraction
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种对互联网非结构化数据字段的人工智能萃取方法,通过创建知识库,合理地引入了人工智能;可组合正则、DOM、JSON等多种数据萃取方式获取字段数据、对页面数据进行分组;并且能够对提取数据的进行后加工,从而能灵活的满足字段的定制需求。本发明能够提升对页面数据提取的精准度,并且可以灵活应对多种复杂的数据,包括电商网站、微博、旅游、政府部门、企业等的网站的数据,可支持Ajax嵌入页,可支持网页特征改版监控。
Description
技术领域
本发明涉及互联网信息采集的技术领域,具体说是一种对互联网非结构化数据字段的人工智能萃取方法。
背景技术
随着电子商务日益普及,消费者在商品交易前的货比三家、交易后的商品评价以及与商铺的交互等网购行为,对商品交易相关的产品信息、客户评价、电子商铺等关联讯息的获取需求日益旺盛。电子商务网站功能日趋完善,新的电商网站也不断涌现,电商类似的旅游网站以及其他提供各种各样的信息的网站,拥有海量的数据,这些数据的准确获取,需将网页中非结构化的数据转为结构化数据,以便于程序自动处理,完整准确地获取数据并转化为可利用的信息。
但是现有的智能算法无法快速响应以下情况:电商网站的页面频繁改版,且种类多样;政府、企业类网站,其网站设计各不相同,页面也不一致;包含Ajax的页面;需要灵活增删字段的情况。
发明内容
本发明要解决的技术问题是提供一种对互联网非结构化数据字段的人工智能萃取方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的对互联网非结构化数据字段的人工智能萃取方法,包括以下步骤:
A、创建知识库;
B、接收并解析萃取请求;
C、与知识库中的知识进行匹配并提取对应的知识内容;
D、从页面源码中萃取出简单字段数据;
E、根据知识定义的分组规则,对页面源码中数据进行分组,即拆分出多组数据;然后对每组数据分别萃取出字段数据;
F、萃取字段数据,即对网页数据拆分获取有用数据;根据定义字段萃取流程,调用相应的萃取方式,取得字段结果;
G、对字段结果的相应数据进行归一化和组合;
H、按照字段映射关系生成存储数据并存储。
本发明还可以采用以下技术措施:
步骤E中,分组规则为正则分组、DOM分组和JSON分组中的任一种规则。
步骤F中,根据需求选择单页面数据或多页面数据进行萃取。
进行数据萃取时选择正则解析、DOM解析和JSON解析中的任一种萃取方式。
进行数据萃取时选择正则解析、DOM解析和JSON解析中多种萃取方式的组合。
步骤H中,存储数据存储至Mysql服务器和Hbase服务器。
本发明具有的优点和积极效果是:
本发明的对互联网非结构化数据字段的人工智能萃取方法中,通过创建知识库,合理地引入了人工智能;可组合多种的数据萃取方式获取字段数据、对页面数据进行分组;并且能够对提取数据的进行后加工,从而能灵活的满足字段的定制需求。本发明能够提升对页面数据提取的精准度,并且可以灵活应对多种复杂的数据,包括电商网站、微博、旅游、政府部门、企业等的网站的数据,可支持Ajax嵌入页,可支持网页特征改版监控。
附图说明
图1是本发明的对互联网非结构化数据字段的人工智能萃取方法所依据的系统信息架构;
图2是本发明的对互联网非结构化数据字段的人工智能萃取方法的流程图。
具体实施方式
以下通过具体实施例对本发明进行详细说明。
如图1和图2所示,本发明的对互联网非结构化数据字段的人工智能萃取方法,包括以下步骤:
A、创建知识库;
B、接收并解析萃取请求;
C、与知识库中的知识进行匹配并提取对应的知识内容;找到相应的知识时则进行后续步骤,如未找到相应的知识则返回FALSE
D、从页面源码中萃取出简单字段数据,此步骤中一个页面对应只生成一组数据;
E、根据知识定义的分组规则,对页面源码中数据进行分组(分组规则包括正则分组、DOM分组和JSON分组),即拆分出多组数据;然后对每组数据分别萃取出字段数据,此步骤中一个页面可生成多组数据;
F、萃取字段数据,即对网页数据拆分获取有用数据;根据定义字段萃取流程,调用相应的萃取方式,取得字段结果;
G、对字段结果的相应数据进行归一化和组合;
H、按照字段映射关系生成存储数据并通过存储插件进行存储。
本系统底层平台采用了ICE网络通信引擎(InternetCommunicationsEngine,Ice)和Gearman是分发任务的程序框架,对任务请求进行处理;应用正则/DOM/XML/JSON技术等开发相应的数据萃取插件,添加了分组策略解析多组近似数据(如商品评论),内嵌了JS引擎,方便系统的扩展。从系统架构上看,本发明的对互联网非结构化数据字段的人工智能萃取方法中需要涵盖萃取引擎、存储引擎、知识库和运营平台几大部分,其中知识库通过运营平台构建,而运营平台向萃取引擎请求萃取结果,同时萃取引擎将萃取处理后的数据通过存储引擎存储至Mysql和Hbase服务器。
步骤F中,根据需求选择单页面数据或多页面数据进行萃取。
根据输入数据的类别:HTML、JSON、XML、Ajax以及字段提取的需求,定义字段萃取流程,即选取不同的萃取方式或几种萃取方式组合:正则解析、JSON解析、DOM解析。
作为萃取结果的存储数据存储至Mysql服务器和Hbase服务器。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。
Claims (6)
1.一种对互联网非结构化数据字段的人工智能萃取方法,包括以下步骤:
A、创建知识库;
B、接收并解析萃取请求;
C、与知识库中的知识进行比对,用匹配的知识提取对应的内容;
D、从页面源码中萃取出简单字段数据;
E、根据知识定义的分组规则,对页面源码中数据进行分组,即拆分出多组数据;然后对每组数据分别萃取出字段数据;
F、萃取字段数据,即对网页数据拆分获取有用数据;根据定义字段萃取流程,调用相应的萃取方式,取得字段结果;
G、对字段结果的相应数据进行归一化和组合;
H、按照字段映射关系生成存储数据并存储。
2.根据权利要求1所述的对互联网非结构化数据字段的人工智能萃取方法,其特征在于:步骤E中,分组规则为正则分组、DOM分组和JSON分组中的任一种规则。
3.根据权利要求1或2所述的对互联网非结构化数据字段的人工智能萃取方法,其特征在于:步骤F中,根据需求选择单页面数据或多页面数据进行萃取。
4.根据权利要求3所述的对互联网非结构化数据字段的人工智能萃取方法,其特征在于:进行数据萃取时选择正则解析、DOM解析和JSON解析中的任一种萃取方式。
5.根据权利要求3所述的对互联网非结构化数据字段的人工智能萃取方法,其特征在于:进行数据萃取时选择正则解析、DOM解析和JSON解析中多种萃取方式的组合。
6.根据权利要求1所述的对互联网非结构化数据字段的人工智能萃取方法,其特征在于:步骤H中,存储数据存储至Mysql服务器和Hbase服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510910408.7A CN105574086A (zh) | 2015-12-10 | 2015-12-10 | 对互联网非结构化数据字段的人工智能萃取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510910408.7A CN105574086A (zh) | 2015-12-10 | 2015-12-10 | 对互联网非结构化数据字段的人工智能萃取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105574086A true CN105574086A (zh) | 2016-05-11 |
Family
ID=55884217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510910408.7A Withdrawn CN105574086A (zh) | 2015-12-10 | 2015-12-10 | 对互联网非结构化数据字段的人工智能萃取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105574086A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561802A (zh) * | 2008-04-18 | 2009-10-21 | 上海复旦光华信息科技股份有限公司 | 网页结构化数据提取方法与系统 |
CN102073734A (zh) * | 2011-01-20 | 2011-05-25 | 南京烽火星空通信发展有限公司 | 搜索引擎提供结构化查询的方法 |
US20130060785A1 (en) * | 2005-03-30 | 2013-03-07 | Primal Fusion Inc. | Knowledge representation systems and methods incorporating customization |
CN104142980A (zh) * | 2014-07-15 | 2014-11-12 | 中电科华云信息技术有限公司 | 基于大数据的元数据模型管理系统和管理方法 |
CN104484411A (zh) * | 2014-12-16 | 2015-04-01 | 中国科学院自动化研究所 | 一种基于词典的语义知识库的构建方法 |
-
2015
- 2015-12-10 CN CN201510910408.7A patent/CN105574086A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130060785A1 (en) * | 2005-03-30 | 2013-03-07 | Primal Fusion Inc. | Knowledge representation systems and methods incorporating customization |
CN101561802A (zh) * | 2008-04-18 | 2009-10-21 | 上海复旦光华信息科技股份有限公司 | 网页结构化数据提取方法与系统 |
CN102073734A (zh) * | 2011-01-20 | 2011-05-25 | 南京烽火星空通信发展有限公司 | 搜索引擎提供结构化查询的方法 |
CN104142980A (zh) * | 2014-07-15 | 2014-11-12 | 中电科华云信息技术有限公司 | 基于大数据的元数据模型管理系统和管理方法 |
CN104484411A (zh) * | 2014-12-16 | 2015-04-01 | 中国科学院自动化研究所 | 一种基于词典的语义知识库的构建方法 |
Non-Patent Citations (2)
Title |
---|
李荣彬等: "工业和产品设计中对非结构化技带信息的知识挖掘", 《机电工程技术》 * |
舒鹏: "非结构化数据提取方法研究", 《万方数据》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10902079B2 (en) | Presentation of information on multiple devices | |
US10909158B2 (en) | Method and apparatus for generating information | |
EP3563240B1 (en) | Systems and methods for harvesting data associated with fraudulent content in a networked environment | |
US11232392B2 (en) | Method for processing orders and electronic device | |
CN105354202B (zh) | 数据推送方法及装置 | |
CN110827112B (zh) | 深度学习的商品推荐方法、装置、计算机设备及存储介质 | |
CN111695840B (zh) | 一种实现流程控制的方法和装置 | |
CN110704418A (zh) | 区块链信息查询方法、装置和设备 | |
CN104778164A (zh) | 检测重复url的方法及装置 | |
CN110012049B (zh) | 信息推送方法. 系统. 服务器及计算机可读存储介质 | |
CN110400201A (zh) | 信息展示方法、装置、电子设备以及介质 | |
CN112825182A (zh) | 一种确定推荐商品的方法和装置 | |
CN113220657A (zh) | 数据处理方法、装置及计算机设备 | |
CN110060121A (zh) | 基于特征排序的商品推荐方法、装置和存储介质 | |
CN105760387B (zh) | 提供业务对象库存信息的方法及装置 | |
CN110895591A (zh) | 一种定位自提点的方法和装置 | |
CN107977876B (zh) | 用于处理订单信息的方法及装置 | |
CN112818026A (zh) | 数据整合方法和装置 | |
CN113935401A (zh) | 物品信息的处理方法、装置、服务器及存储介质 | |
US10915593B2 (en) | Web page creation from encoded QR code data | |
US20200394398A1 (en) | Converting unlabeled data into labeled data | |
CN102902998A (zh) | 一种产品查询方法 | |
CN105574086A (zh) | 对互联网非结构化数据字段的人工智能萃取方法 | |
CN110874771A (zh) | 一种商品搭配的方法和装置 | |
CN112861684A (zh) | 一种物品展示方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Applicant after: Tianjin mass information technology Limited by Share Ltd Address before: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Applicant before: Tianjin Hylanda Information Technology Co.,Ltd. |
|
COR | Change of bibliographic data | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20160511 |
|
WW01 | Invention patent application withdrawn after publication |