CN101350019A

CN101350019A - 基于预定义槽间向量模型的网页信息抽取方法

Info

Publication number: CN101350019A
Application number: CNA2008100636187A
Authority: CN
Inventors: 林怀忠; 陈意; 冯明远
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-06-20
Filing date: 2008-06-20
Publication date: 2009-01-21
Anticipated expiration: 2028-06-20
Also published as: CN101350019B

Abstract

本发明公开了一种基于预定义槽间向量模型的网页信息抽取方法。本方法针对目前自动网页信息抽取方法中，抽取精度偏低，信息抽取包装器扩展性和适应性差等缺点，利用正规网站的相邻网页集的相似特点以及特定行业的网页组织特色，通过迭代求权的方法对行业数据进行过滤，分类和辨别。同时通过建立向量模型来代表槽间相互关系，极大地提高了数据内容的辨别粒度，简化了数据识别过程，而且成本低廉。同以往的人工、半人工以及自动信息提取系统不同，该方法屏蔽了大量无用的文本信息，摒弃了从众多纷杂信息中利用规则来标识信息的盲目性。通过利用槽空间局部特点更加缩小待处理有用数据的范围，为精确判断文本内容提供了环境基础。

Description

基于预定义槽间向量模型的网页信息抽取方法

技术领域

本发明涉及一种基于预定义槽间向量模型的网页信息抽取方法。

背景技术

Web信息的爆炸性增长，给我们带来了获取更多信息的机会，同时，也增加了在纷繁复杂的Web信息库中准确地获取信息的困难。目前人们主要通过利用搜索引擎来获得信息。例如，一个潜在的旅游客户可能会利用一个旅游搜索引擎去获得各种旅游景点的一些精确信息如：景点名，景点所在地，门票价格，旅游路线等等。目前的主流通用搜索引擎可以提供的搜索结果是整篇关于旅游景点的网页。但返回网页中还存在太多无关景点的信息，用户还需努力从返回网页中去提取更为精确的信息。垂直搜索可以代替用户来解决这类问题。

所谓垂直搜索，是针对某一特定领域、某一特定人群或某一特定需求而提供的有价值的信息和相关服务。其特点就是专、精、深，且具有鲜明的行业色彩。它是与通用搜索引擎截然不同的引擎类型。垂直搜索引擎专注具体、深入的纵向服务，致力于某一特定领域内信息的全面和内容的深入。这个领域外的闲杂信息不被收录。总而言之，它需要对采集的信息进行抽取，也就是我们通常所说的信息抽取(IE)。

网页与一般的文本或结构化文本不同，它是一种半结构化的文本文档，其中混合了显示文本，标记符，弱文法文本。从半结构文本中提取数据，一个通用的技术就是建立一个包(Wapper)，它通常由一系列提取规则来标识出网页中的文本片段。目前主要的信息抽取方法是先通过人工构造一些标记好的训练集网页，然后包根据训练集自动或人工产生的提取规则对相同网站进行数据提取。

目前这种方法拥有不错的性能，而且对这种方法也有很多不同的技术提出来。但他们都存在一个共同的缺陷：需要人工参与，成本高，耗时长，单调而且容易出错。更加重要的是对于新的网站，需要人工参与再开发新的包(Wapper)来，扩展性太差。

针对这种情况，提出了一种自动信息抽取方法，它能够根据用户选取的本行业的不同网站的几个标记好的网页对一个新的同领域网站自动产生一个能精确提取该网站数据的信息抽取包而且完全不用人工参与。

“槽”就是用户感兴趣的内容项类别，将未知文本判别出它的类别称之为装槽。本文描述的自动信息抽取方法侧重对预定义槽之间的相互关系进行分析，针对网站设计的风格排除大量的无用文本。并通过获取网页的视觉和结构信息对待判断文本内容进行进一步地压缩。在该方法中建立了一套准确的权值赋予公式，通过对文本内容各种分析对文本内容做低成本而高效的确定。

参考文献：

[1]CALIFF，M.E.AND MOONEY，R.J.2003.基于自底向上的方法学习模式匹配规则.(Bottom-up relational learning of pattern matching rules for informationextraction.)J.Mach.Learn.Res.4，177-210.

[2]DOWNEY，D.，ETZIONI，O.，AND SODERLAND，S.2005.信息抽取中冗余度的概率模型.(A probabilistic model of redundancy in information extraction.)InProceedings of the Eleventh International Joint Conference on Artificial Intelligence(IJCAI)，1034-1041.

[3]MUSLEA，I.，MINTON，S.，AND KNOBLOCK，C.2001.在半结构化的信息源中使用层次化的封装归纳法.(Hierarchical wrapper induction forsemistructured information sources.)J.Autonomous Agents and Multi-Agent Systems4(1-2)，93-114.

[4]Wolfgang Gatterbauer，Paul Bohunsky，Marcus Herzog，Bernhard Krupl andBernhard Pollak.2007.与域无关的表格信息抽取.(Towards Domain-IndependentInformation Extraction from Web Tables.)In the session of identifying structure inweb pages.

[5]KUSHMERICK，N.AND THOMAS，B.2002.自适应的信息抽取方法：信息代理的关键技术.(Adaptive information extraction：Core technologies forinformation agents.)In Intelligents Information Agents R&D In Europe：An AgentLink Perspective，79-103.

[6]BLEI，D.，BAGNELL，J.，AND MCCALLUM，A.2002.领域学习算法，及其在信息抽取与分类中的应用.(Learning with scope，with application to informationextraction and classification.)In Proceedings of the Eighteenth Conference onUncertainty in Artificial Intelligence(UAI)，53-60.

[7]COHEN，W.W.，HURST，M.，AND JENSEN，L.2002.HTML文档中针对封装表格和列表的灵活的学习系统.(A flexible learning system for wrapping tablesand lists in HTML documents.)In Proceedings of the Eleventh International WorldWide Web

[8]HOGUE，A.AND KARGER，D.2005.语意提取器：自动提取万维网中的语意信息.(Thresher：Automating the unwrapping of semantic content from the WorldWide web.)In Proceedings of the Fourteenth International World Wide WebConference(WWW)，86-95.Conference(WWW)，232-241.

发明内容

本发明的目的是克服现有技术的不足，提供一种基于预定义槽间向量模型的网页信息抽取方法。

包括以下步骤：

1)对搜索引擎搜索端抓取的每个网站的网页集抽取8个网页，并分别对网页集的超文本标记语言代码建立文档对象模型树，选取第1个网页为主页，通过对主页和其它网页之间的文档对象模型树进行比较，如果文档对象模型树之间相同路径下文本存在不同，在主页中把不同文本标记为有用文本；

2)对用户标记的网页内容进行学习，将学习到的关于文本内容和文本形式特点的规则对有用文本内容进行最初级的判别，计算出每个有用文本相对于预定义槽的相关权重，反复对每个预定义槽选取权重大于某一阀值的文本，建立多个符合预定义槽记录的文本候选集合；

3)通过扫描超文本标记语言代码及其层叠样式表单获取文本候选集合中的多个文本片段的背景颜色和字体属性，同时通过访问开源浏览器mozilla中的盒子模型获取文本侯选集中每个文本的位置信息，确定文本的分布；

4)从第一个记录的文本候选集合开始，分别计算任意两文本之间的连贯系数，表达两文本之间的相互结构特征，显示特征，距离特征以及两文本之间的上下文环境特征，并记录下两文本分别对应的槽的位置；

5)将每一个记录对应的连贯系数组成一个向量，多个记录形成一个向量集合，向量集中每个向量与标准向量进行相似度计算，记录相似度最高的向量，并将相似度最高的向量所对应的文本侯选集记录装入槽中。

所述的对用户标记内容的学习的步骤：根据用户标记好内容的网页的网址，收集所有跟用户标记好的网页相邻的网页，将每个网页中对应标记位置的文本进行装槽，对每个槽中文本的长度、包含内容以及文本内容形式进行统计，得到每个槽的文本长度，经常包含的文本内容以及文本格式特点，组成对有用文本进行初步判断的规则。

所述的计算出每个有用文本相对于预定义槽的相关权重步骤：按照每个槽中的学习到的规则对输入的文本片段进行判断，满足规则就加上该规则对应的权值，权值不大于1；然后再对剩下的规则进行尝试，满足上一条规则就将前面规则权重与1差值的绝对值作为因子乘以新规则的权值，再迭加到前面的权重中。

所述的标准向量为：对用户提交的标记好文本进行任意匹对，分别计算两两之间的连贯系数，作为向量的一维，并记录下对应的槽间位置。

所述的向量集中每个向量与标准向量进行相似度计算步骤：当把一个网页中的有用文本片段标记出来后，按照初始不变的提取规则进行片段的向量维数确定，组成一个侯选向量集{D1，D2，D3，…，Dn}，预先学习得到的槽向量为T＝{λ1，λ2，λ3，...，λm}，其中λ为槽间的连贯系数，相似值计算公式如下：

similarity (Di, T) = \cos θ = \frac{Σ_{k = 1}^{m} {λ_{k}}^{'} * λ_{k}}{\sqrt{(Σ_{k = 1}^{m} {λ_{k}}^{' 2}) (Σ_{k = 1}^{m} {λ_{k}}^{2})}}

其中Di为文本候选集对应的向量，T为标准向量，m为向量的维数，λ_k′为向量Di的第k维，λ_k为向量T的第k维。

所述的计算任意两文本之间的连贯系数步骤：通过对标记文本按照标准向量的对应原则分别选择文本片段，同时从超文本标记语言代码中和开源浏览器中获取前面提到的它们之间的各项特征分别计算两两之间的连贯系数；对于坐标x1，y1和x2，y2和坐标为x1’，y1’和x2’，y2’两个模块而言，其中的两个坐标分别表示结点矩形模块的左上坐标和右下坐标，它们用来表示模块在浏览器中显示的位置。其中连贯系数λ由下面的公式得来：

λ = \frac{ϵ_{1} T + ϵ_{2} F + ϵ_{3} C}{\sqrt{({y 2}^{'} - {y 1}^{'} - y 2 +y 1)^{2} + {({x 2}^{'} - {x 1}^{'} - x 2 + x 1)}^{2}}}

其中T为受两模块之间标签影响的函数返回值，F为比较两模块中的文本字体属性的函数的返回值，C为比较两模块中的文字背景颜色的函数的返回值，坐标x’，y’和x，y分别为文本视觉块矩形的左上点和右下点的坐标，λ为两文本之间的连贯系数。ε₁，ε₂，ε₃连贯系分别为调节系数，分别代表标签、字体和背景颜色在计算连贯系数时的重要程度，在实验时分别为0.8，0.7和0.9。

本发明与现有技术相比具有的有益效果：

1)通过对文档对象结构进行重复标签标记，确定唯一路径，大大减少进行有用文本片段提取的时间，提高了效率；

2)基于槽间相对关系的信息提取可以说是把握了本领域的网站共同特征，对于不同网站均可自动产生新的信息提取包，可扩展性好；

3)充分利用了网页的视觉结构特征，极大地提高了信息数据提取的准确度。

4)完全采用自动的学习方法，解决了人工参与监督提取的重复和单调的工作，降低了成本。

附图说明

图1为本基于预定义槽间向量模型的网页信息抽取平台的框架组件图；

图2为本发明的工作流程图。

具体实施方式

基于预定义槽间向量模型的网页信息抽取方法包括以下步骤：

similarity (Di, T) = \cos θ = \frac{Σ_{k = 1}^{m} {λ_{k}}^{'} * λ_{k}}{\sqrt{(Σ_{k = 1}^{m} {λ_{k}}^{' 2}) (Σ_{k = 1}^{m} {λ_{k}}^{2})}}

λ = \frac{ϵ_{1} T + ϵ_{2} F + ϵ_{3} C}{\sqrt{({y 2}^{'} - {y 1}^{'} - y 2 +y 1)^{2} + {({x 2}^{'} - {x 1}^{'} - x 2 + x 1)}^{2}}}

实施例

比如当用户想要建立旅游领域的垂直搜索引擎时，只需要提供该领域中几个不同网站的一个目标网页，该方法首先在搜索端对提供的每个网站目标网页的相邻网页进行收集，并对用户在网页中指定的数据内容即槽包括景点名、地点、介绍、住宿和餐饮进行统计分析和学习，在本方法中学习的内容分为两个部分：目标内容的描述规则以及内容之间的结构、视觉关系。

1.内容描述规则的学习

对每个属性(槽)建立长度规则、内容包含规则以及内容形式规则。长度规则主要对训练集中同一类内容的长度进行计算，计算出该类内容的最长长度和最短长度以及出现次数最多的长度和它在文献中占据的比重；内容包含规则利用文档频率(DF)来对内容经常包含的关键词进行收集，每个关键字的权重为它的DF除以总的文献数。对于内容长度大于50的文本，取权重大于某个阀值θ的关键字组成代表该内容的向量。内容形式规则主要对内容的形式进行学习，在本文中仅仅只一个检查字符串是否具由数字或非字母的特殊字符串方法(仅对文本长度低于20的文本进行学习)。

2相互关系的学习

所谓内容之间的相互关系其实是指它们的结构和视觉上的相互关系，在本文中用一个值来表示它，这个值在文中被称为连贯系数λ。λ是一个代表两文本之间的距离、上下文环境、显示背景以及自身字体的差距的一个数值。它的公式如下：

λ = \frac{ϵ_{1} T + ϵ_{2} F + ϵ_{3} C}{d}

T代表html代码中标签对文本相互关系的相互影响，初始值为1。在T的计算中，先预先设定能有限分离文本表达连贯性的标签的权重(都为经验值)，它们的权重都设定为不大于1；当发现两文本之间存在设定的标签时，T不断乘上它们设定的影响权重。F在两文本的字体属性相同时设置为1，不同时设置为0。C在两文本背景颜色相同时设置为1，不相同时直接设置为0。ε₁、ε₂、ε₃分别为标签、字体以及背景颜色对连贯系数的影响因子，初步设为0.8、0.7和0.9。d为两文本的相对距离。将不同网站的一个网页标记的内容两两配对分别进行连贯系数地计算，得到一个大的向量。n个网站将产生n个向量，将向量的每一维分别取其平均值将得到一个新的向量，这个向量就是代表槽间相互关系的标准向量。

每当对新的旅游行业网站的网页进行信息抽取时，在本方法中称为主页，该方法首先获取10个与主页相邻的网页，由于目前比较正规的网站的设计都遵循好的可扩展性原则，相邻网页之间存在相似的网页结构，所以这些网页与主页存在结构上的相似，它们在本方法中称为参照页。对主页和参照页集分别建立文档对象模型树，对主页文档对象模型和参照页对象模型进行遍历和对比，将相同路径下不同文本标记出来，同时将在主页中将数据内容用“^”标记出来，通过扫描标记好的超文本标记语言代码，获取完所有的有用文本之后，利用学习得到的内容规则，对文本进行初步分类。利用用户标记好的网页建立好槽，即用户想要得到的具体数据内容属性项，分类的结果得到各文本相对各个槽的权重。从第一个槽即景点名开始，选择超过规定阀值的文本将它初步地装入槽中，装入后开始进行第二个槽的装入工作，已经装入的将不再做选择，如果文本相对槽的权重等于或接近于1，也不会对它进行其它槽的装入工作。当所有的槽装入文本后，按照顺序记录下这些装入的文本，同时开始第二次装槽工作，并保证每次装槽过程不能重复。如此不断循环，直到所有大于权重阀值的文本进入对应的槽中。这样得到一个文本相对景点名、地点、介绍、住宿和餐饮等槽的一个总的侯选集。在标记好的主页上，通过扫描超文本标记语言代码及其层叠样式表单获取每一条文本候选集记录的多个文本片段的背景颜色和字体属性，同时通过访问开源浏览器mozilla中的盒子模型获取文本侯选集中每个文本的位置信息，确定文本的分布；利用前面提到的连贯系数的公式，通过对侯选集中景点名、地点、介绍、住宿和餐饮两两之间分别进行连贯系数的计算，得到侯选集向量，将每个侯选集向量和标准向量分别进行相似性比较，将相似性最高的向量对应的文本进行装槽。这样属于景点名、地点、介绍、住宿和餐饮的文本都被判别出来。记录下判断好的文本的上下文环境即可以完成对与主页相似的所有网页的信息抽取。

Claims

1、一种基于预定义槽间向量模型的网页信息抽取方法，其过程是包括以下步骤：

2、根据权利要求1所述的一种基于预定义槽间向量模型的网页信息抽取方法，其特征在于所述的对用户标记内容的学习的步骤：根据用户标记好内容的网页的网址，收集所有跟用户标记好的网页相邻的网页，将每个网页中对应标记位置的文本进行装槽，对每个槽中文本的长度、包含内容以及文本内容形式进行统计，得到每个槽的文本长度，经常包含的文本内容以及文本格式特点，组成对有用文本进行初步判断的规则。

3、根据权利要求1所述的一种基于预定义槽间向量模型的网页信息抽取方法，其特征在于所述的计算出每个有用文本相对于预定义槽的相关权重步骤：按照每个槽中的学习到的规则对输入的文本片段进行判断，满足规则就加上该规则对应的权值，权值不大于1；然后再对剩下的规则进行尝试，满足上一条规则就将前面规则权重与1差值的绝对值作为因子乘以新规则的权值，再迭加到前面的权重中。

4、根据权利要求1所述的一种基于预定义槽间向量模型的网页信息抽取方法，其特征在于所述的标准向量为：对用户提交的标记好文本进行任意匹对，分别计算两两之间的连贯系数，作为向量的一维，并记录下对应的槽间位置。

5、根据权利要求1所述的一种基于预定义槽间向量模型的网页信息抽取方法，其特征在于所述的向量集中每个向量与标准向量进行相似度计算步骤：当把一个网页中的有用文本片段标记出来后，按照初始不变的提取规则进行片段的向量维数确定，组成一个侯选向量集{D1，D2，D3，…，Dn}，预先学习得到的槽向量为T＝{λ1，λ2，λ3，...，λm}，其中λ为槽间的连贯系数，相似值计算公式如下：

similarity (Di, T) = \cos θ = \frac{Σ_{k = 1}^{m} {λ_{k}}^{'} * λ_{k}}{\sqrt{(Σ_{k = 1}^{m} {λ_{k}}^{'^{2}}) (Σ_{k = 1}^{m} {λ_{k}}^{2})}}

6、根据权利要求1所述的一种基于预定义槽间向量模型的网页信息抽取方法，其特征在于所述的计算任意两文本之间的连贯系数步骤：

通过对标记文本按照标准向量的对应原则分别选择文本片段，同时从超文本标记语言代码中和开源浏览器中获取前面提到的它们之间的各项特征分别计算两两之间的连贯系数；对于坐标x1，y1和x2，y2和坐标为x1’，y1’和x2’，y2’两个模块而言，其中的两个坐标分别表示结点矩形模块的左上坐标和右下坐标，它们用来表示模块在浏览器中显示的位置。其中连贯系数λ由下面的公式得来：

λ = \frac{ϵ_{1} T + ϵ_{2} F + ϵ_{3} C}{\sqrt{{({y 2}^{'} - {y 1}^{'} - y 2 + y 1)}^{2} + {({x 2}^{'} - {x 1}^{'} - x 2 + x 1)}^{2}}}