CN103838796A - 一种网页结构化信息抽取方法 - Google Patents

一种网页结构化信息抽取方法 Download PDF

Info

Publication number
CN103838796A
CN103838796A CN201210491471.8A CN201210491471A CN103838796A CN 103838796 A CN103838796 A CN 103838796A CN 201210491471 A CN201210491471 A CN 201210491471A CN 103838796 A CN103838796 A CN 103838796A
Authority
CN
China
Prior art keywords
information
extraction
extracted
code
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210491471.8A
Other languages
English (en)
Inventor
侯辛酉
夏铭泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd filed Critical DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201210491471.8A priority Critical patent/CN103838796A/zh
Publication of CN103838796A publication Critical patent/CN103838796A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明设计一种网页结构化信息抽取方法,网页信息抽取的主要任务就是对网页库中的非结构化信息进行提取,以结构化数据的方式存储在数据库中。主要包括网页分析、制定抽取规则、元数据抽取和信息整合四个方面。首先需要对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点。然后,根据待抽取元数据在网页中对应的代码特点制定相应的抽取规则,抽取规则的制定要保证对待抽取数据匹配的唯一性。根据制定的抽取规则,所有待抽取的字段信息都会准确地从网页文本中抽取出来,并作为结构化数据存储到数据库中。最后对抽取后的结构化数据进行整合处理,确保数据库中信息的一致性和完整性。

Description

一种网页结构化信息抽取方法
技术领域
本发明涉及信息抽取方法,特别是一种网页结构化信息抽取方法。
背景技术
信息抽取(Information Extraction,IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起,这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较,例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理,例如用数据挖掘方法发现和解释数据模型。信息抽取技术对于从大量的文档中抽取需要的特定信息来说是非常有用的,它并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,由系统设计时定下的领域范围而定。IE系统中的关键组成部分就是一系列的抽取规则或模式,其作用是确定需要抽取的信息。
因特网提供了一个巨大的信息源,这种信息源往往是半结构化的,虽然中间夹杂着结构化和自由文本。互联网上同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,那将是有益的。网上文本信息的大量增加导致这方面的研究得到高度重视。Web信息抽取(Web Information Extraction,WebIE)是将Web作为信息源的一类信息抽取,就是从半结构化的Web文档中提取数据,属于Web内容挖掘的范畴。目前Web上的网页大部分是以超文本标记语言描述的,主要目的是为了显示,让人通过浏览器浏览,但缺乏对数据本身的描述,不含清晰的语义信息,模式也不太明确。这使得应用程序无法直接解析并利用Web上海量的信息,造成资源极大的浪费。Web信息抽取正是研究如何将分散在Internet上的半结构化的HTML页面中的隐含的信息点提取出来,并以更为结构化、语义更为清晰的形式表示,为用户在Web中查询数据、应用程序直接利用Web中的数据提供便利。
发明内容
网页信息抽取的主要任务就是将分散在Internet上的半结构化的HTML页面中的隐含的信息点提取出来,并以更为结构化、语义更为清晰的形式表示。
为了实现上述目的,本发明的技术方案如下:一种网页结构化信息抽取方法,包括以下步骤:
A、网页分析
对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点;
B、制定抽取规则:
该抽取规则包括采样、识别需要抽取的信息代码片段、建立匹配模式、构建信息抽取程序和匹配模式和抽取程序验证五个部分;
B1、采样:
针对一个站点,下载20个典型的输出页面的源代码作为分析和验证的样本;
B2、识别需要抽取的信息代码片段:
选取任意一个下载的源代码作为构建匹配模式的样本,通过可视化的HTML编辑器手工选择需要抽取的信息,然后切换到源代码编辑模式,这是就能够看到需要抽取的信息对应的HTML源代码片断,将这些代码片断标记下来;
B3、建立匹配模式:
对于每一个已标记的信息片断,采用正则表达式为它建立一个通用的匹配模式串;该模式匹配要求只能构匹配被标记的代码片段,同时要有一定的通用性,能够适应该代码片段内部的文本和细微布局的变化,同时对每一个匹配模式串加上标识符,便于后续对匹配的信息进行识别和抽取;
B4、构建信息抽取程序:
在匹配模式串的基础上,通过模式串的标记识别对应匹配成功的代码片断,识别特殊的属性字段,过滤掉HTML中无用的标记,获得纯文本信息;
B5、匹配模式和抽取程序验证:
使用其剩下的下载样本来验证匹配模式串和抽取程序的正确性;如果发现对于剩下的样本不正确,则回溯到B2,重新构建;
C、元数据抽取:
根据网页的HTML代码的特点对元数据进行抽取;根据制定的抽取规则,所有待抽取的字段信息都会准确地从网页文本中抽取出来,并作为结构化数据存储到数据库中;
D、信息整合
对抽取后的结构化数据进行整合处理,确保数据库中信息的一致性和完整性;选取标识属性,作为区分不同信息的依据。
与现有技术相比,本发明具有以下有益效果:
1、本发明提供了强大的信息抽取功能,通过对匹配模式串和模式串片断增加标记,可以十分方便地获得匹配成功的代码或者其中的一部分;
2、本发明制定的抽取规则能够将网页库中的非结构化信息进行正确的提取,以结构化数据的方式存储在数据库中,为索引模块和信息检索模块提供数据来源。
附图说明
本发明共有附图1张,其中:
图1是网页信息抽取流程图;
具体实施方式
网页信息抽取的主要任务就是对网页库中的非结构化信息进行提取,以结构化数据的方式存储在数据库中,其具体流程如图1所示。图1中每个部分的具体实施方式如下:
A、网页分析
对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点。
B、制定抽取规则
B1、采样
针对一个站点,下载20个典型的输出页面的源代码作为分析和验证的样本。
B2、识别需要抽取的信息代码片段
选取任意一个下载的源代码作为构建匹配模式的样本,通过可视化的HTML编辑器手工选择需要抽取的信息,然后切换到源代码编辑模式,这是就能够看到需要抽取的信息对应的HTML源代码片断,将这些代码片断标记下来。
B3、建立匹配模式
对于每一个已标记的信息片断,采用正则表达式为它建立一个通用的匹配模式串。该模式匹配要求只能构匹配被标记的代码片段,同时要有一定的通用性,能够适应该代码片段内部的文本和细微布局的变化,同时对每一个匹配模式串加上标识符,便于后续对匹配的信息进行识别和抽取。
B4、构建信息抽取程序
在匹配模式串的基础上,通过模式串的标记识别对应匹配成功的代码片断,识别特殊的属性字段,过滤掉HTML中无用的标记,获得纯文本信息。
B5、匹配模式和抽取程序验证
使用其剩下的下载样本来验证匹配模式串和抽取程序的正确性。如果发现对于剩下的样本不正确,则回溯到B2,重新构建。
C、元数据抽取
根据网页的HTML代码的特点对元数据进行抽取。根据制定的抽取规则,所有待抽取的字段信息都会准确地从网页文本中抽取出来,并作为结构化数据存储到数据库中。
D、信息整合对抽取后的结构化数据进行整合处理,确保数据库中信息的一致性和完整性。选取标识属性,作为区分不同信息的依据。

Claims (1)

1.一种网页结构化信息抽取方法,其特征在于:包括以下步骤:
A、网页分析
对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点;
B、制定抽取规则:
该抽取规则包括采样、识别需要抽取的信息代码片段、建立匹配模式、构建信息抽取程序和匹配模式和抽取程序验证五个部分;
B1、采样:
针对一个站点,下载20个典型的输出页面的源代码作为分析和验证的样本;
B2、识别需要抽取的信息代码片段:
选取任意一个下载的源代码作为构建匹配模式的样本,通过可视化的HTML编辑器手工选择需要抽取的信息,然后切换到源代码编辑模式,这是就能够看到需要抽取的信息对应的HTML源代码片断,将这些代码片断标记下来;
B3、建立匹配模式:
对于每一个已标记的信息片断,采用正则表达式为它建立一个通用的匹配模式串;该模式匹配要求只能构匹配被标记的代码片段,同时要有一定的通用性,能够适应该代码片段内部的文本和细微布局的变化,同时对每一个匹配模式串加上标识符,便于后续对匹配的信息进行识别和抽取;
B4、构建信息抽取程序:
在匹配模式串的基础上,通过模式串的标记识别对应匹配成功的代码片断,识别特殊的属性字段,过滤掉HTML中无用的标记,获得纯文本信息;
B5、匹配模式和抽取程序验证:
使用其剩下的下载样本来验证匹配模式串和抽取程序的正确性;如果发现对于剩下的样本不正确,则回溯到B2,重新构建;
C、元数据抽取:
根据网页的HTML代码的特点对元数据进行抽取;根据制定的抽取规则,所有待抽取的字段信息都会准确地从网页文本中抽取出来,并作为结构化数据存储到数据库中;
D、信息整合
对抽取后的结构化数据进行整合处理,确保数据库中信息的一致性和完整性;选取标识属性,作为区分不同信息的依据。
CN201210491471.8A 2012-11-27 2012-11-27 一种网页结构化信息抽取方法 Pending CN103838796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210491471.8A CN103838796A (zh) 2012-11-27 2012-11-27 一种网页结构化信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210491471.8A CN103838796A (zh) 2012-11-27 2012-11-27 一种网页结构化信息抽取方法

Publications (1)

Publication Number Publication Date
CN103838796A true CN103838796A (zh) 2014-06-04

Family

ID=50802305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210491471.8A Pending CN103838796A (zh) 2012-11-27 2012-11-27 一种网页结构化信息抽取方法

Country Status (1)

Country Link
CN (1) CN103838796A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111997A (zh) * 2014-07-08 2014-10-22 广州爱拼信息科技有限公司 基于浏览器客户端的信息显示方法、装置和系统
CN104778246A (zh) * 2015-04-10 2015-07-15 浪潮集团有限公司 一种网页信息获取方法和装置
CN105630916A (zh) * 2015-12-21 2016-06-01 浙江工业大学 一种大数据环境下非结构化表格文档数据抽取与组织方法
CN106777128A (zh) * 2016-12-16 2017-05-31 成都青软青之软件有限公司 一种检验项目的数据采集系统及数据采集方法
CN106845092A (zh) * 2017-01-03 2017-06-13 青岛海信医疗设备股份有限公司 一种系统对接方法及装置
CN107122403A (zh) * 2017-03-22 2017-09-01 安徽大学 一种网页学术报告信息抽取方法和系统
CN107704539A (zh) * 2017-09-22 2018-02-16 清华大学 大规模文本信息批量结构化的方法及装置
WO2019000303A1 (zh) * 2017-06-29 2019-01-03 麦格创科技(深圳)有限公司 网页的智能采集方法及系统
CN112287254A (zh) * 2020-11-23 2021-01-29 武汉虹旭信息技术有限责任公司 网页结构化信息提取方法、装置、电子设备及存储介质
CN110175853B (zh) * 2019-04-24 2021-08-06 上海非码网络科技有限公司 社交群客诉信息整理方法及社交群客诉信息整理系统
CN113553258A (zh) * 2021-07-15 2021-10-26 北京锐安科技有限公司 测试数据生成方法、提取策略测试方法及相关装置
CN115460433A (zh) * 2021-06-08 2022-12-09 京东方科技集团股份有限公司 一种视频处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101600A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
CN101290624A (zh) * 2008-06-11 2008-10-22 华东师范大学 一种新闻网页元数据自动抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101600A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
CN101290624A (zh) * 2008-06-11 2008-10-22 华东师范大学 一种新闻网页元数据自动抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王治江: "面向领域的垂直搜索系统研究与实现", 《中国硕士学位论文全文数据库•信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111997B (zh) * 2014-07-08 2017-03-15 广州爱拼信息科技有限公司 基于浏览器客户端的信息显示方法、装置和系统
CN104111997A (zh) * 2014-07-08 2014-10-22 广州爱拼信息科技有限公司 基于浏览器客户端的信息显示方法、装置和系统
CN104778246A (zh) * 2015-04-10 2015-07-15 浪潮集团有限公司 一种网页信息获取方法和装置
CN105630916B (zh) * 2015-12-21 2018-11-06 浙江工业大学 一种大数据环境下非结构化表格文档数据抽取与组织方法
CN105630916A (zh) * 2015-12-21 2016-06-01 浙江工业大学 一种大数据环境下非结构化表格文档数据抽取与组织方法
CN106777128A (zh) * 2016-12-16 2017-05-31 成都青软青之软件有限公司 一种检验项目的数据采集系统及数据采集方法
CN106845092A (zh) * 2017-01-03 2017-06-13 青岛海信医疗设备股份有限公司 一种系统对接方法及装置
CN107122403A (zh) * 2017-03-22 2017-09-01 安徽大学 一种网页学术报告信息抽取方法和系统
WO2019000303A1 (zh) * 2017-06-29 2019-01-03 麦格创科技(深圳)有限公司 网页的智能采集方法及系统
CN107704539A (zh) * 2017-09-22 2018-02-16 清华大学 大规模文本信息批量结构化的方法及装置
CN107704539B (zh) * 2017-09-22 2020-10-23 清华大学 大规模文本信息批量结构化的方法及装置
CN110175853B (zh) * 2019-04-24 2021-08-06 上海非码网络科技有限公司 社交群客诉信息整理方法及社交群客诉信息整理系统
CN112287254A (zh) * 2020-11-23 2021-01-29 武汉虹旭信息技术有限责任公司 网页结构化信息提取方法、装置、电子设备及存储介质
CN112287254B (zh) * 2020-11-23 2023-10-27 武汉虹旭信息技术有限责任公司 网页结构化信息提取方法、装置、电子设备及存储介质
CN115460433A (zh) * 2021-06-08 2022-12-09 京东方科技集团股份有限公司 一种视频处理方法、装置、电子设备及存储介质
CN115460433B (zh) * 2021-06-08 2024-05-28 京东方科技集团股份有限公司 一种视频处理方法、装置、电子设备及存储介质
CN113553258A (zh) * 2021-07-15 2021-10-26 北京锐安科技有限公司 测试数据生成方法、提取策略测试方法及相关装置

Similar Documents

Publication Publication Date Title
CN103838796A (zh) 一种网页结构化信息抽取方法
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN104572849A (zh) 基于文本语义挖掘的标准化自动建档方法
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN103778238B (zh) 一种从维基百科半结构化数据自动构建分类树的方法
KR101801257B1 (ko) 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN112749284A (zh) 知识图谱构建方法、装置、设备及存储介质
CN103559234A (zh) RESTful Web服务的自动化语义标注系统和方法
CN104317948A (zh) 页面数据抓取方法和系统
US11263062B2 (en) API mashup exploration and recommendation
CN105095091B (zh) 一种基于倒排索引技术的软件缺陷代码文件定位方法
CN103927397A (zh) 一种基于区块树的Web页面链接块的识别方法
CN103345532A (zh) 一种网页信息抽取方法及装置
KR102055407B1 (ko) 정책정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램
CN103970898A (zh) 一种基于多级规则库的信息提取方法及装置
CN102654873A (zh) 基于中文分词的旅游信息抽取与聚合方法
CN104142985A (zh) 一种半自动化的垂直爬虫生成工具及方法
CN111813443B (zh) 一种用JavaFX进行代码样例自动填充的方法和工具
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
CN105893574B (zh) 一种数据处理方法及电子设备
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
Mehta et al. DOM tree based approach for web content extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140604

RJ01 Rejection of invention patent application after publication