CN105824966A - 基于结构相似网页集的信息抽取方法 - Google Patents
基于结构相似网页集的信息抽取方法 Download PDFInfo
- Publication number
- CN105824966A CN105824966A CN201610204047.9A CN201610204047A CN105824966A CN 105824966 A CN105824966 A CN 105824966A CN 201610204047 A CN201610204047 A CN 201610204047A CN 105824966 A CN105824966 A CN 105824966A
- Authority
- CN
- China
- Prior art keywords
- label
- information extraction
- stage
- web page
- webpages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及了一种基于结构相似网页集的信息抽取方法,分为去噪阶段,匹配阶段以及信息抽取阶段。去噪阶段负责将相似网页集中的网页规范,使得相似网页集中的网页完全符合W3C的XHTML标准。在进入匹配阶段后,从网页集中随机选择两个网页,比较两个网页DOM树中不匹配的部分;会出现三种不匹配状态,分别对三种不匹配状态加以处理,生成一个包装器。在信息抽取阶段,用包装器抽取相似网页集中的数据,生成一个XML文件,保存着从相似网页集中得到的数据。本发明的优点是:基于相似网页的信息抽取可以根据相似网页结构相似性的特点自动生成包装器,不需要人工参与以及先验知识的指导,适用于数据比较密集型的网页,能够很好地从相似网页集中生成数据。
Description
技术领域
本发明涉及数据抽取技术,具体是一种不需要先验知识,能够自动从结构相似网页集中生成包装器并抽取数据的方法。
背景技术
随着互联网的快速发展,特别是进入Web2.0时代,网络中的存储的数据逐渐向服务器端转移,保存在后台数据库中,而网页大多以模板或者列表的形式展示这些数据,比如各大门户网站的新闻,博客,又或者搜索引擎(例如谷歌,百度)某个关键词的搜索结果等。这些数据一般存在于结构比较相似的网页集中,如何从这些结构相似的网页集中获取这些结构化程度高,质量比较好的信息已经成为信息抽取领域研究的热点性问题。
传统的方法中一般采用半自动化的方法生成包装器,然后抽取数据。所谓的半自动化,指的是通过人工的方式分析网页的结构,通过标注的方式告知应用程序哪些是需要抽取的信息。这种方式的缺点是,需要大量的人工参与以及先验知识的指导。
万维网的飞速发展,人工指导的信息抽取已严重限制了Web信息抽取的效率。由此,自动化抽取信息抽取工具开始出现。其中比较有代表性的一种是基于视觉特征的VIPS(vision-basedpagesegmentation)算法。算法首先要找出页面中所有类似〈table〉〈p〉〈hr〉〈ul〉等分隔符,把页面分成了各个视觉信息块。在分割区域时充分利用了字体大小、背景颜色、空白区域等视觉特征,并总结出以下几条规则:
(a)类似〈hr〉等标签通常用于分隔不同的主题,因此如果一个区域内包含〈hr〉标签,那么倾向于分割这个区域;
(b)如果一个区域的背景色与其内部子区域的背景色不同,则分割这个区域;
(c)如果一个区域内大部分节点都是文本类型,则不再分割这个区域。
这能在一定程度上满足复杂页面对算法的要求,但由于视觉特征的复杂性和网页设计的多样性且存在许多不符合规范的页面,这种基于视觉的信息抽取技术在实施过程中依然存在许多的问题,比如页面元素之间距离的计算以及对不符合规范的页面以及色彩差异不大的页面处理效果不佳。因此,对于密集数据型网页迫切需要一种自动化工具能够自动化抽取网页中的高质量的数据。
发明内容
本发明的目的是克服现有技术的不足,提出一种基于结构相似网页集的信息抽取方法,能够基于DOM树结构进行信息抽取,该方法通过比较结构相似的两个网页匹配与不匹配,自动化生成一个信息抽取包装器,进而抽取结构相似网页集中所包含的的数据。本发明不仅在信息抽取的召回率和准确率都有不错的表现,在效率上也有很大的提升。
为了实现上述目的,本发明包括以下三个阶段:
(1)去噪阶段,负责将相似网页集中的网页规范,经过去噪处理,使得相似网页集中的网页完全符合XHTML规范;
(2)匹配阶段,随机从相似网页集中选取两个网页,分别对网页中的每一行加以标记,逐行比较两个网页DOM树中不匹配的部分,分别对三种不匹配情况加以处理,最终生成一个包装器,所述三种不匹配情况是指:字符串不匹配情况、作为可选项的标签不匹配情况、作为迭代项的标签不匹配情况;
(3)信息抽取阶段,用匹配阶段生成的包装器抽取相似网页集中每个网页的数据,最终生成一个XML文件,该文件中保存着从相似网页集中得到的数据。
具体的,经过去噪阶段,网页中每一个标签都是闭合的,所有标签的标签名和属性名称都要小写;所有的属性必须要双引号包裹起来。
在匹配阶段,根据每一行是否匹配,会出现三种不匹配情况:
所述字符串不匹配是指标签匹配但是标签包裹的文本不一致,这种情况下认为文本是需要抽取的数据;对这种情况,需要对该标签加以标记,代表需要抽取该标签中包裹的文本;
所述作为可选项的标签不匹配是指,标签不匹配中,有一种状况是某一个标签可能存在,也可能不存在,在正则表达式中用“?”号表示可能存在;
所述作为迭代项的标签不匹配是指,当网页中存在迭代时,对于迭代块在正则表达式中用“+”号表示。
在信息抽取阶段,在所述XML文件中,对于字符串不匹配的地方都是一个属性标签,属性名以字母的形式表现出来,并且具有嵌套结构,整个XML文档结构是以一颗树的形式存在,层层嵌套。
本发明的优点是:
1.基于结构相似的两个网页的DOM比较,所得到的包装器是自动生成的,不需要人工的参与,节省了大量的人力成本。
2.在生成自动化信息抽取包装器的过程中不需要先验知识的指导,能够广泛应用于各个领域。
3.以前的信息抽取方式都是针对一个页面生成包装器,本发明需要两个相似的页面比较得出包装器,抽取结果更加准确。
附图说明
图1是信息抽取流程图。
图2显示了不匹配时的三种状态。
具体实施方式
本发明通过相似网页的DOM不匹配的元素动态生成包装器,再根据包装器抽取相似网页中的来源于动态数据源的数据,最终将抽取结果保存在一个XML文件中。
如图1所示,本发明的技术方案包括三个步骤:去噪阶段,匹配阶段以及信息抽取阶段。去噪阶段主要是将不遵循W3C规范化的HTML网页转换成严格按照W3C规范的XHTML网页,经过去噪阶段的处理,相似网页集中的网页均被转化为规范的网页。
匹配阶段主要用于生成包装器。在该阶段中从经过去噪处理的相似网页集中随机选取两个网页,经过匹配后生成包装器。匹配的过程中主要存在三种不匹配情况:字符串不匹配,作为可选项的标签不匹配,作为迭代项的标签不匹配。字符串不匹配指的是在标签匹配的情况下,标签中的文本不一致,对于这种情况,我们认为不一致的文本就是我们要抽取的信息;作为可选项的标签不匹配指的是当标签不匹配的情况下,可能出现此标签是可能存在也可能不存在的,即正则表达式中的“?”符号;作为迭代项的标签不匹配指的是这个标签及其包裹的内容本身是一个迭代块,在HTML文本中可以连续出现一次或多次。经过匹配阶段后,会生成一个包装器。
以下结合附图和实施例对本发明做进一步说明。
1)去噪阶段
由于浏览器的宽容性,开发者在编写HTML代码的时候并没有严格按照XHTML的规范,所以生成抽取规则的第一步则是将HTML文档规划化以便生成DOM树。在该阶段处理完成后,一般规范后的网页满足以下特点:(1).严格遵循XHTML规范;(2).标签是闭合的。在该阶段的处理过程中,可以借助一些一些开源的工具,如Jtidy工具。
2)匹配阶段
在匹配阶段,从已经经过规范化处理的相似网页集中随机选择两个网页。其中一个作为Wrapper(包装器),另外一个作为Sample(样本)。举例,如图2所示的两个网页源代码。在经过去噪阶段的处理后,网页代码中的每一行都被打上标识号。在逐行比较的过程中,会遇到以下三种不匹配情况:
一.字符串不匹配。在从上至下解析网页的过程中,在比较至03行的时候,会遇到第一种不匹配的情况—字符串匹配。当遇到字符串不匹配时,一般认为该字符串即为我们要抽取的信息,对于该字符串用特殊的标记标识。
二、作为可选项的标签不匹配。该种情形的出现出现在Wrapper中的第五行<Table>标签和Sample中的第五行<IMG>标签;当出现这种标签不匹配情况的时候,首先把<Table>标签及其包裹内容当作可选项,则发现<Table>标签的下一个标签</Html>与<IMG>仍然不匹配,则此时如果假设<IMG>标签为一个可选项标签,此时却发现<IMG>标签的下一个<Table>标签与<Wrapper>中的<Table>标签匹配,出现这种情形则说明<IMG>标签为一个可选项标签。
三、作为迭代项的标签不匹配。当解析到Wrapper中的第14行的<Table>标签时,会与Sample的第15行<TR>标签不匹配,这种情况下存在着图中我们用矩形勾选出的迭代块。此迭代块在包装器中用“+”号包裹。
在标签不匹配的时候,可能是此标签可能是可选项时的情况,也可能是作为迭代块情况。一般,我们总是先考虑是否可以作为迭代块标签,如果发现不是迭代块标签,再考虑是否可以作为可选项标签处理。匹配后所生成的包装器如下:
3)信息抽取阶段
在信息抽取阶段,主要是利用第二阶段生成的包装器,抽取相似网页集中的数据。信息抽取阶段最终生成一个XML文件,该文件中保存着从相似网页集中得到的数据。
在所述XML文件中,对于字符串不匹配的地方都是一个属性标签,属性名以字母的形式表现出来,并且具有嵌套结构,整个XML文档结构是以一颗树的形式存在,层层嵌套。
下面一个表格是一些实验数据:
由表中数据可以看出,该发明在信息抽取的性能方面以及信息抽取结果上,都有很不错的表现。
Claims (4)
1.基于结构相似网页集的信息抽取方法,其特征是,包括以下三个阶段:
(1)去噪阶段,负责将相似网页集中的网页规范,经过去噪处理,使得相似网页集中的网页完全符合XHTML规范;
(2)匹配阶段,随机从相似网页集中选取两个网页,分别对网页中的每一行加以标记,逐行比较两个网页DOM树中不匹配的部分,分别对三种不匹配情况加以处理,最终生成一个包装器,所述三种不匹配情况是指:字符串不匹配情况、作为可选项的标签不匹配情况、作为迭代项的标签不匹配情况;
(3)信息抽取阶段,用匹配阶段生成的包装器抽取相似网页集中每个网页的数据,最终生成一个XML文件,该文件中保存着从相似网页集中得到的数据。
2.根据权利要求1所述的基于结构相似网页集的信息抽取方法,其特征在于:经过去噪阶段,网页中每一个标签都是闭合的,所有标签的标签名和属性名称都要小写;所有的属性必须要双引号包裹起来。
3.根据权利要求1所述的基于结构相似网页集的信息抽取方法,其特征于:在匹配阶段,根据每一行是否匹配,会出现三种不匹配情况:
所述字符串不匹配是指标签匹配但是标签包裹的文本不一致,这种情况下认为文本是需要抽取的数据;对这种情况,需要对该标签加以标记,代表需要抽取该标签中包裹的文本;
所述作为可选项的标签不匹配是指,标签不匹配中,有一种状况是某一个标签可能存在,也可能不存在,在正则表达式中用“?”号表示可能存在;
所述作为迭代项的标签不匹配是指,当网页中存在迭代时,对于迭代块在正则表达式中用“+”号表示。
4.根据权利要求1所述的基于结构相似网页集的信息抽取方法,其特征在于:在信息抽取阶段,在所述XML文件中,对于字符串不匹配的地方都是一个属性标签,属性名以字母的形式表现出来,并且具有嵌套结构,整个XML文件结构是一颗树的形式存在,层层嵌套。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610204047.9A CN105824966A (zh) | 2016-04-01 | 2016-04-01 | 基于结构相似网页集的信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610204047.9A CN105824966A (zh) | 2016-04-01 | 2016-04-01 | 基于结构相似网页集的信息抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105824966A true CN105824966A (zh) | 2016-08-03 |
Family
ID=56525671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610204047.9A Pending CN105824966A (zh) | 2016-04-01 | 2016-04-01 | 基于结构相似网页集的信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105824966A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664511A (zh) * | 2017-03-31 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 获取网页信息方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110307479A1 (en) * | 2010-06-10 | 2011-12-15 | Microsoft Corporation | Automatic Extraction of Structured Web Content |
CN104572934A (zh) * | 2014-12-29 | 2015-04-29 | 西安交通大学 | 一种基于dom的网页关键内容抽取方法 |
CN104834717A (zh) * | 2015-05-11 | 2015-08-12 | 浪潮集团有限公司 | 一种基于网页聚类的Web信息自动抽取方法 |
-
2016
- 2016-04-01 CN CN201610204047.9A patent/CN105824966A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110307479A1 (en) * | 2010-06-10 | 2011-12-15 | Microsoft Corporation | Automatic Extraction of Structured Web Content |
CN104572934A (zh) * | 2014-12-29 | 2015-04-29 | 西安交通大学 | 一种基于dom的网页关键内容抽取方法 |
CN104834717A (zh) * | 2015-05-11 | 2015-08-12 | 浪潮集团有限公司 | 一种基于网页聚类的Web信息自动抽取方法 |
Non-Patent Citations (1)
Title |
---|
VALTER CRESCENZI等: ""ROADRUNNER:Towards Automatic Data Extraction from Large Web Sites"", 《PROCEEDINGS OF THE 27TH VLDB CONFERENCE》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664511A (zh) * | 2017-03-31 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 获取网页信息方法和装置 |
CN108664511B (zh) * | 2017-03-31 | 2021-07-13 | 北京京东尚科信息技术有限公司 | 获取网页信息方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1679625B1 (en) | Method and apparatus for structuring documents based on layout, content and collection | |
US6912555B2 (en) | Method for content mining of semi-structured documents | |
US9619448B2 (en) | Automated document revision markup and change control | |
Sleiman et al. | Trinity: on using trinary trees for unsupervised web data extraction | |
US7958444B2 (en) | Visualizing document annotations in the context of the source document | |
CN109543126B (zh) | 基于块文字占比的网页正文信息提取方法 | |
Sleiman et al. | Tex: An efficient and effective unsupervised web information extractor | |
US20090125529A1 (en) | Extracting information based on document structure and characteristics of attributes | |
CN101727498A (zh) | 一种基于web结构的网页信息自动提取方法 | |
CN107590219A (zh) | 网页人物主题相关信息提取方法 | |
WO2020000717A1 (zh) | 网页分类方法、装置及计算机可读存储介质 | |
Meuschke et al. | Improving academic plagiarism detection for STEM documents by analyzing mathematical content and citations | |
CN107577788B (zh) | 一种自动结构化数据的电商网站主题爬虫方法 | |
CN109344355B (zh) | 针对网页变化的自动回归检测与块匹配自适应方法和装置 | |
CN113254751B (zh) | 一种复杂网页结构化信息精确提取方法、设备及存储介质 | |
Cardoso et al. | An efficient language-independent method to extract content from news webpages | |
CN109657114B (zh) | 一种抽取网页半结构化数据的方法 | |
CN103440315A (zh) | 一种基于主题的Web页面清洗方法 | |
CN106372232B (zh) | 基于人工智能的信息挖掘方法和装置 | |
Ferrés et al. | PDFdigest: an adaptable layout-aware PDF-to-XML textual content extractor for scientific articles | |
Papavassiliou et al. | The ilsp/arc submission to the wmt 2016 bilingual document alignment shared task | |
CN106897287B (zh) | 网页发布时间抽取方法和用于网页发布时间抽取的装置 | |
CN105824966A (zh) | 基于结构相似网页集的信息抽取方法 | |
Souza et al. | ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF | |
US10606875B2 (en) | Search support apparatus and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160803 |