CN105677638A

CN105677638A - Web信息抽取方法

Info

Publication number: CN105677638A
Application number: CN201610005979.0A
Authority: CN
Inventors: 沈琦; 刘泽伟; 李婧; 陈博; 王宇
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2016-01-05
Filing date: 2016-01-05
Publication date: 2016-06-15
Anticipated expiration: 2036-01-05
Also published as: CN105677638B

Abstract

Web信息抽取方法属于互联网技术领域。如何才能从冗杂的Web页面中抽取出需要的信息已经成为多数研究者希望解决的问题。Web信息抽取方法：基于特征比较法建立抽取规则的过程中计算结点相似度，具体步骤选择数据项特征，构建数据项特征，计算相似度；深度遍历整个DOM树完成后，就计算出了所有结点的综合相似度S，最终得到综合相似度S最大的结点，就是需要找的相似结点；相似结点对于的内容就是待抽取信息。本文针对互联网上煤矿安全事件信息的特点，提出了面向煤矿安全事件的Web信息抽取方法，为用户提供更加快速、准确的煤矿安全事件信息服务。

Description

Web信息抽取方法

技术领域

本发明借助Web信息抽取技术，以煤矿安全事件为主题，运用研究和改进的Web信息抽取相关技术，实现一个煤矿安全事件Web信息抽取系统，给人们获取煤矿安全事件信息带来便利，很好的适应了社会发展的需要。

背景技术

随着网络通信技术和个人计算机技术的迅猛发展，Internet已是名副其实的一个世界级的、庞大的、跨平台的、分布式、动态和交互信息分享平台。于此同时，互联网上的信息和资源增长速度也超乎想象，并出现了一些“混乱”的迹象，使用者为了搜索一些有用的资源，也许要浪费非常多的精力去查找web页面，导致web资源的利用率严重的降低。要避免这种情况，急需出现某种智能的软件工具来协助用户快速地在大量的web资源库中定位到对自己有用的信息，在这用环境下，人们就开始探索如何抽取web信息的方式和方法。

信息抽取(InformationExtraction：IE)就是将文本里面所蕴涵的信息，用结构化的方式进行加工，将其转化成和表格类似的形式。研究人员对IE的探索已历经了十多年，它最初的目的是将指定的文本信息从自然语言所描述的文档中抽取出来，它隶属于自然语言处理领域。各个领域的研究者也试探着把IE技术与本领域相结合并加以利用，但是在煤矿安全领域里，运用IE技术获取煤矿安全信息的研究尚不够充分。

中国是全球一个主要的煤炭生产大国，煤矿灾难的发生率和百万吨死亡率也比其他国家高很多。中国煤矿最多的五类灾难性事故包括：瓦斯、顶板、水灾、火灾、运输，每当这些灾难性事故出现后，就会出现许多的与之相关联的报告，怎样从这些嘈杂的报告中检索到用户需要的准确的信息，其精度和难度都非常大。假如能挖掘出这些事故信息之间的关联，并对这些事故信息进行整合、抽取，最终展现给用户最有含金量的信息，这是一件非常有价值的工作。

煤矿安全网站逐步发展，并且从内容和质量来看也越来越成熟，怎样从巨大的煤矿安全事件信息资源库中检索到用户需要的信息，就成了目前煤矿安全领域一个急需解决的问题。

发明内容

基于煤矿安全事件Web信息抽取方法，主要包含三个部分的内容：

一.基于JTidy和HTMLParser的页面清洗技术。

通过结合JTidy和HTMLParser技术，采用三个步骤完成页面的清洗工作，这三个步骤为：①规范化HTML标签；②精简XHTML标签；③构造HTML结构树。

二.基于中介真值程度度量的页面主题提取技术。

Web页面经过上一步清洗后，再利用基于中介真值程度度量的页面主题提取技术，抽取出页面的主题内容。

三.基于页面主题和DOM的Web信息抽取技术。

Web页面经过上一步提取主题信息后，接下来就是对页面信息进行抽取。信息抽取过程中的关键步骤就是建立信息抽取规则。生成抽取规则分为两步，第一步需要用特征比较定位待抽取信息，第二步是对待抽取信息的路径进行转换，并生成符合xsl格式规范的抽取规则。

基于煤矿安全事件Web信息抽取技术中的主要特征在于：基于特征比较定位待抽取信息，这个过程分为以下两步完成。

Web信息抽取方法，其特征在于分为以下两步完成；

1)基于特征比较法建立抽取规则的过程中计算结点相似度，具体步骤：

(1)第一步选择数据项特征

DOM树中的结点除了具有路径特征之外，还有数据项特征，每个节点对应的上层父结点及其名称、左右邻结点特征；在抽取过程中，待抽取页和模板页中的同类信息可能包含相同的字符内容，把这些字符内容称为特征字符串，且把它也当成结点的一个重要特征；每个结点具有的这些特征和路径特征一起用特征类Characteristic来存放，将Characteristic做如下定义：

classCharacteristic{

privateStringtext；//结点内容

privateStringpath；//结点路径

privateStringcomPath＝""；//公共路径

privateStringparentName；//父结点名称

privateStringparentAttribute；//父结点属性

privateStringleftName；//左邻结点名

privateStringrightName；//右邻结点名

privateStringfeature；//特征字符串

privateintrelDistance；//相对距离

}

(2)第二步构建数据项特征

Characteristic类的text属性用于存放结点的内容；comPath的作用是存放这些记录的公有路径，comPath初始值为空；feature特征字符串，用来跟用户标记的上层公有字符串相匹配，相对距离的计算也会用到feature；结点的父节点及其属性，左邻结点名称和右邻结点对于parentName、parentAttribute、leftName、rightName中；结点的路径存放在path中；结点的特征字符串和其对应的数据项之间的距离保存在relDistance属性中；

(3)第三步计算相似度

计算结点相似度就是在测试页面里通过比较结点特征，找到跟用户标记的数据项有着最大相似度的信息，然后将这些信息抽取出来；结点路径通常包括HTML标记及其位置序号，所以能够将结点路径划分为两个序列，分别是标记序列和序号序列；记样本页面结点A对应的数据项结点路径的标记序列是MA＝(MA₁，MA₂，MA₃，…，MAn)，序号序列是NA＝(NA₁，NA₂，NA₃，…，NA_n)；记测试网页结点B对应的数据项结点路径对应的标记序列是MB＝(MB₁，MB₂，MB₃，…，MB_n)，序号序列是NB＝(NB₁，NB₂，NB₃，…，NB_n)，从而MA和MB的相似度是：

序列序号的特点是，如果两个结点数据项越相似，那么他们就越靠近，表现在数值上就是序号序列的差值就越小；所以NA和NB的相似度NS定义如下：

如果给序号序列和标记序列分配一样的权重，那么结点路径的相似度PS定义如下：

特征字符串相似度的定义：在测试页面中，假如当前结点在规定的相对距离范围内也含有对应的特征字符串，那么该结点的特征字符串的相似度为1，反之取0；本文将字符串相似度记为CS；

特征类中其它特征属性对应的相似度全部按照下面的公式进行计算，所述的其他特征属性是步骤(1)中除特征字符串，和结点路径之外的特征属性；

公式中ChA代表在样本页面中的数据项特征，ChB代表测试页面中对应的特征；也就是说，如果测试页面与样本页面对应的特征项相等，那么这个特征项的相似度为1，反之取0；

接下来给出计算测试页面和样本页面综合相似度S；由于在判断两个数据结点是否相似的时候，特征字符串的参考价值比较高，所以把它的权重设为其他特征的2倍；由上所述，S的计算公式如下：

S＝PS+2CS+ΣChS(5)

以上就是特征类Characteristic中所有特征项相似度的计算方法，每个结点对应的特征项也就是定位该结点的规则；最终计算出来相似度最大的结点，就是需要找的相似结点；有了上面这些相似结点的计算规则，下面就是利用相似结点的定位算法，对相似结点定位的过程；

2)在煤矿安全事件Web信息抽取系统中，对相似结点定位的算法如下：

算法输入内容：主题DOM树

算法输出内容：相似结点

算法步骤：

(1)将获取页面主题后生成的DOM树根节点作为当前结点；

(2)取出待抽取的第一个语义项的特征，把它作为当前特征；

(3)将当前结点的DOM路径取出来，然后将其与当前特征中包含的路径特征进行对比，如果匹配则转(4)，如果不匹配则转(7)；

(4)判断当前结点对应相邻的前后结点的标记名称与当前特征里面左邻结点名和右邻结点名是否一样，如果一样则转(5)，不一样则转(7)；

(5)计算当前结点和当前特征的综合相似度S；

(6)取出待抽取的下一个语义特征作为下一个语义项的当前特征；如果成功取出就把这个特征作为当前特征；取出失败意味着当前结点与全部语义项都不相似；下一步需要将当前结点删除，然后再从样本页中取出第一个语义特征，把它作为第一个语义项的当前规则；

(7)继续深度遍历整个DOM树，若遍历结束，则算法结束，否则取出下一个结点，并把它当做当前结点，然后转(3)；

深度遍历整个DOM树完成后，就计算出了所有结点的综合相似度S，最终得到综合相似度S最大的结点，就是需要找的相似结点；相似结点对于的内容就是待抽取信息。

本发明的目的是通过对基于煤矿安全事件信息抽取技术进行研究改进，使煤矿安全事件信息抽取系统在特定主题内具有快速准确的抽取效率，同时具有很高的灵活性和可扩展性。

附图说明

图1是本发明的应用设计图。

图2正文信息抽取流程图

具体实施方式

本发明包括如下步骤：

(1)本文通过对Web页面清洗相关技术的研究，通过三个步骤来完成页面的清洗工作：第一步规范化HTML标签。第二步精简XHTML标签。第三步构造HTML结构树。通过以上三步可以有效地清洗掉页面中的噪声信息，为下面的主题提取工作做准备。

(2)对页面主题信息进行提取。为了进一步去掉页面中和主题无关的内容，提高下一步信息抽取的效率，本文在页面清洗的基础上，进一步对页面的主题内容进行抽取。在页面主题提取之前，首先研究了页面主题的特征，并给出了结构树的相关特性定义：子树数、分支数、平均分支数、字符数、分布，并在此基础上结合中介真值程度度量理论，提取出页面的主题内容。

(3)提出了基于特征比较法建立抽取规则的方法。该方法关键是要建一个特征类Characteristic，通过选择数据项特征、构建数据项特性、并计算特征类中所有特征项相似度。该方法增加了路径以外的其他特征，作为结点的特征，从而提高了抽取的准确率。

(4)本文信息抽取包含两部分，一部分是对同一个页面上的多条煤矿安全事件记录进行抽取，另一部分是对上面抽取到的每条记录对于的正文信息进行抽取。针对记录进行抽取的方法是在以上抽取规则建立的基础上，本文给出了基于DOM的页面信息抽取算法。针对记录正文进行抽取，本文提出了基于模板和归纳统计的煤矿安全事件正文信息抽取方法。

(5)通过上面对页面清洗、信息抽取相关技术的研究，最后设计和实现了面向煤矿安全事件的Web信息抽取系统。还设计相关实验，对系统的抽取性能进行了测试，并对实验结果进行客观分析，验证面向煤矿安全事件的Web信息抽取系统的正确及可行性。

主要包含三个部分的内容：(1)基于JTidy和HTMLParser的页面清洗技术。(2)基于中介真值程度度量的页面主题提取技术。(3)基于页面主题和DOM的Web信息抽取技术。通过对以上技术的研究与应用，使系统具有较高的信息抽取效率、页面抽取速度快，拥有良好的抽准率和抽取率，主题提取的准确度也较高，具有良好的稳定性。同时系统功能完整易用，可以在实际应用过程中得到推广。

(1)基于JTidy和HTMLParser的页面清洗技术

依据对Web页面清洗相关技术的研究，采用三个步骤完成页面的清洗工作。

1)规范化HTML标签

页面清洗与后边的信息抽取工作紧密相连，所以页面清洗的第一步就是对HTML标签进行规范化处理。由于Web页面的结构是由HTML标签决定，这些标签中穿插着文字、图片等数据。规范化处理的内容包括非法标记、不规范的标记、使用错误的标记等，处理的过程就是将这些标记去除或者修改为正确的格式。处理的结果要保证所有标签的首尾标记要成对出现，且标签的嵌入方式要符合标准规范，如果是单标记的标签要以“/>”结尾。本系统采用W3C组织推荐的HTMLTidy工具来处理那些格式不符合标准的HTML代码，最终得到书写规范、格式良好的XHTML文档。

2)精简XHTML标签

因为HTML标签有各种各样的类型，且每个标签又包含了多种属性，这些属性可以为页面添加各式各样的效果。例如“input”标签的字体的大小、颜色等等属性；“table”标签的宽、高、边框等属性。这些属性大部分和需要抽取的主题内容没有关系。为了使得XHTML页面简洁，需要把HTML标签进一步优化处理，本文的做法是将所有标签的属性全部去掉，例如<divclass＝"boxcat-area"style＝"margin-right:10px">简化成<div>,<ahref＝"..."target＝_blank>简化成<a>等。

3)构造HTML结构树

得到精简后的XHTML标签后，对这些标签进行分类，只保留那些规划网页结构的标签，将描述内容特征的标签加以过滤。保留的标签包括：<div>、<dl>、<dd>、<dt>、<table>等，过滤掉的标签包括：<i>、<audio>、<b>、<strong>等。本系统利用HTMLParser工具，构造HTML结构树。

(2)基于中介真值程度度量的页面主题提取技术

1)分析页面主题特征

要抽取出页面的主题内容，应该首先对页面主题特征进行研究。这样才能根据主题内容的特征，有针对性地进行抽取。经过上一步对页面清洗后，得到了HTML结构树，本系统为了更好地对页面主题进行分析，对结构树给出了几个定义，分别是：子树数、分支数、平均分支数、字符数、分布。

2)主题提取

页面的主题，就是页面要展示给用户的主要内容。主题提取就是利用上边提到的特征作为结点的评估属性，这些属性的值作为评估主题结点的依据。然后再将这些属性与中介真值程度度量理论结合起来，在清洗后的结点树上定位出包括所有主题内容，而且噪声低的结点，这个结点所包含的信息就是主题内容。提取的过程如图2所示：

(3)基于页面主题和DOM的Web信息抽取技术

1)生成抽取规则

抽取规则是信息抽取的核心。本文通过对目前比较常用的两种抽取规则生成方式进行研究，用表1展示了他们的优缺点。

表1抽取规则生成方式对比表

由上表可看出，这两种方式对路径的依赖都比较大，会导致抽取的准确率不是很好。所以本文在相对路径的基础上提出一种基于特征比较法建立抽取规则的方法。

生成抽取规则的过程中首先要根据带抽取页面的URL判断当前规则库中是否有需要的抽取规则，如果有就可以直接使用，如果没有就需要重新生成抽取规则。生成抽取规则分为两步，第一步需要用特征比较定位待抽取信息，第二步是对待抽取信息的路径进行转换，并生成符合xsl格式规范的抽取规则。

2)记录信息抽取

这部分主要是根据生成的抽取规则来实现信息的抽取。抽取规则生成以后，信息抽取的过程就相当于利用抽取规则中的XPath表达式来定位XML文档中的信息，然后XSLT处理器进行抽取，并将抽取结果保存在一个新的XML文档中。抽取的结果文档中保存的就是用户想要的信息。最后系统还会将抽取结果保存在数据库。

以上是针对有多个煤矿安全事件记录的页面进行信息抽取的过程，以上过程可以抽取出事件的一些主要信息，但是还有一些用户需要的信息可能隐藏在事件报道的正文中，为了得到更全面的煤矿安全事件信息，我们也需要对这部分内容进行抽取。针对这个问题本系统采用了基于模板和归纳统计的煤矿安全事件正文信息抽取方法，该方法的总流程如图2所示。

表2系统实验结果统计

Claims

1.Web信息抽取方法，其特征在于分为以下两步完成；