CN105912633A

CN105912633A - 面向稀疏样本的聚焦式Web信息抽取系统及方法

Info

Publication number: CN105912633A
Application number: CN201610216160.9A
Authority: CN
Inventors: 朱文浩; 郭心怡; 刘懿霆; 陈洁; 徐钊; 姚文心
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2016-04-11
Filing date: 2016-04-11
Publication date: 2016-08-31

Abstract

本发明提供一种面向稀疏样本的聚焦式Web信息抽取系统及方法，该面向稀疏样本的聚焦式Web信息抽取系统包括：网页交互模块，提供抽取模板定义和结构化抽取结果查阅服务；抽取引擎模块，提供包括相似网页获取、样本特征建模、特征选择和信息抽取的功能；数据服务模块，为系统的前后端提供关系型和非关系型数据服务。本发明能够依靠极少量的样本进行高效的信息抽取，将结构化的信息从不同样本所属领域中抽取出来。

Description

面向稀疏样本的聚焦式Web信息抽取系统及方法

技术领域

本发明涉及一种信息抽取技术，尤其是涉及一种面向稀疏样本的聚焦式Web信息抽取系统及方法。

背景技术

信息抽取主要解决的问题是信息过量，利用信息抽取技术有望将信息以结构化的（例如以表格的形式）方式直接对比展示。信息抽取可定义为从半结构化或非结构化文本中抽取结构化信息的方法，相对于信息检索其获得的内容更为丰富和详细并具有可结构化查询的特点，它可以看作是信息检索技术的一个延伸。Web信息抽取进而可引申为从网页文本中抽取指定的一类信息并将其转化为结构化数据的过程。

Web信息抽取有着其独特的特点。相对于自由文本信息抽取，由于网页本身在某种程度上具有一定的结构，在同一网站中网页的DOM数结构相对稳定。这种半结构的形式丰富了抽取方法，同时半结构化的特点使得页面的表现形式多样化，有些信息以文本的形式出现，有些信息以表格的形式出现，有些信息则以XML的形式出现，这又给Web信息抽取带来了困难。总体来说，目前Web信息抽取面临的挑战主要体现在一下几个方面：

一，海量的半结构化文本， Web网页内容逐渐扩展到生活中的方方面面，同时移动互联网时代每个人都是信息的生产者和消费者，不断地扩充着Web页面数据量。如何高效自动地将这些海量的不同主题和内容的半结构化Web网页数据抽取为结构化的数据成为Web信息抽取的一个难点。

二，网页的异构性，网页可以以多种多样的形式展示信息，来自不同网站的网页之间信息的呈现形式差异更大。网页的异构性是当前信息抽取研究中跨领域问题的一个重要方面，所谓跨领域是指抽取方法对不同知识主题和不同形式文本的适应能力，即快速适应领域变化的能力。

三，网页动态性，目前以JavaScript为基础的动态网页技术得到广泛的应用，JavaScript代码不仅可以动态地改变网页的布局和样式，也可以通过请求后台数据改变页面内容。网页的这种动态性给Web信息抽取提出了新的难题。

受到上述问题的约束，目前只有相对专业的科研和工程人员才能使用Web信息抽取技术。因此，发明新的Web信息抽取方法，使其成为普通用户可用，能够适应多种信息抽取任务需要的Web信息抽取服务是目前Web信息抽取的一大挑战。

发明内容

目前缺少实用的能够适应多种信息抽取任务需要的Web信息抽取系统。本发明的目的就是为了提供一种面向稀疏样本的聚焦式Web信息抽取系统及方法，其最大特点是能够仅依靠极少量的样本就能进行高效的信息抽取，将结构化的信息从不同样本所属领域（网站）中抽取出来，并提供跨领域（网站）的排序、搜索等结构化信息服务。

为达到上述目的，本发明提出了一种面向稀疏样本的聚焦式Web信息抽取系统，其包括：

网页交互模块，提供抽取模板定义和结构化抽取结果查阅服务；

抽取引擎模块，提供包括相似网页获取、样本特征建模、特征选择和信息抽取的功能；

数据服务模块，为系统的前后端提供关系型和非关系型数据服务。

优选地，所述网页交互模块包括：

模板定制模块，使用组合的方式获取用户个性化样本。用户定制的网页样本可由一个或多个目标项组成，对于每个目标项，用户提供URL (Uniform Resoure Locator，统一资源定位器)和相应抽取目标项节点的源码且命名便可生成。用户可以对其中的目标项进行增加、删除操作来更新模板的定义，与用户进行交互，用来帮助用户完成网页样本生成，并将样本的信息存储到数据库中；

内容查询模块，为用户提供基于模板的结构化信息检索，检索的内容是根据用户模板中URL进行聚焦抽取获得的，查询时用户可以选择多个感兴趣的模板进行比较查阅；

搜索模块，在用户选择的模板中进一步筛选感兴趣的内容。

优选地，所述抽取引擎模块包括：

聚焦爬虫模块，使用快速结构捕获的相似度计算方法，获取与样本相似的网页，为系统提供大量可用的网页数据；

特征模型模块，负责用户模板特征向量的生成。其过程是根据用户定制模板中目标项的URL获取网页内容，并根据目标项中的节点源码在网页DOM树中定位目标节点，最后生成基于DOM（Document Object Model，文档对象模型。DOM 把 XML 文档视为一种树结构。DOM解析器将XML文档一次性解析，生成一个位于内存中的对象树用以描述该文档。可通过这棵树访问所有节点。可以修改或删除它们的内容，也可以创建新的元素。）树节点的目标项特征向量；

特征选择模块，对生成的特征进行甄别，通过计算统计度量值为不同重要程度的特征赋予权重，根据反馈的样本更新特征权重；

特征匹配模块，通过对待抽取网页节点特征向量与样本特征向量进行匹配识别抽取内容。

优选地，所述数据服务模块包括：

缓存模块，负责临时网页的存储和访问，为筛选网页提供快速的数据访问服务。非关系型数据库主要用来存储网页源码；

持久层模块，主要存储用户定制模板的信息，作为系统前后端数据通讯的重要部分，起到连接整个系统的作用。

本发明还公开了一种面向稀疏样本的聚焦式Web信息抽取方法，该方法的具体操作步骤如下：

步骤一、快速结构捕获的聚焦爬虫

本发明利用网站内URL中包含的丰富信息，将URL用特征描述，使用基于特征匹配的URL相似性作为网页相似性的依据，并结合使用DOM树层次标签节点序列描述的结构相似性进一步筛选。相同网站中URL的相似度可以用来近似计算网页相似度。本发明的方法从URL、结构和内容三个维度描述目标网页，并从特征的角度表示这三个维度，通过URL和结构特征计算网页相似度。

步骤二、特征生成模型

本发明借鉴了N-Gram语言模型中使用上下文描述事物的思想，特征模型构建网页中节点的结构特征时，对网页节点不是孤立的描述，而是使用其上下文环境来描述的，同时根据特征构建规则为不同特征赋予组内权重。对于输入的网页源码首先生成其对应的DOM树对象，从DOM树中提取网页中节点及其上下文节点的原子特征。使用这些上下文节点的原子特征通过特征组合生成组合特征：祖先特征、兄弟特征和孩子特征。

步骤三、基于统计的特征权重计算

本发明使用逆向评分将作为特征的初始评分，逆向评分则是样本独立的无监督评分，因此样本的稀疏对逆向特征评分没有影响。逆向评分中对于有助于分类的特征给予较高的权重。在对网页节点进行特征权重计算时，特征频率即为特征在所有样本节点中出现的次数与样本节点总数之比。

步骤四、基于权重的特征匹配

在从页面中抽取目标内容时，遍历网页DOM树节点并生成节点的特征向量，使用节点特征向量与目标样例节点特征向量的相似度作为该节点的评分。对网页内所有节点根据其评分进行排序，选择评分最高的节点作为抽取结果输出。本发明在相似度计算时考虑特征的权重值，即基于权重的特征匹配。特征匹配时每个特征元素的相似度使用编辑距离计算。编辑距离是表示两个字符串相似度的常用方法，其用两个字符串之间转换需要的最小的编辑次数作为相似度值，其中编辑是指增加、删除或替换一个字符。

步骤五、基于反馈的权重更新

本发明是基于样本的信息抽取，使用学习方法时，自变量不再是样本特征向量，而是样本特征向量与目标样本特征向量之间的相似度项作为自变量。若使用线性分类器进行学习，其学习出来的数据表现从参数意义角度上可看成是相应特征的权重。但是这些参数通常难以理解，与实际权重不同。由于目标样本的稀疏性，使用相似度向量作为自变量时，在生成训练数据时存在正负样本的不平衡性。因此需要解决数据倾斜问题，一般的做法为对负样本进行抽样，并在预测时对正样本的预测进行惩罚。Logistic Regression（逻辑回归模型）具有在线预测计算量小，并且输出结果为概率值的特征，其较适合用于本发明的反馈权重学习。

其中，步骤二、三、四、五通过特征的统计权重计算和反馈权重的更新，能够有效地解决稀疏样本下目标信息的抽取问题。可以理解为是一个面向稀疏样本的特征匹配算法。特征匹配算法首先通过特征模型构建网页节点的组合特征和原子特征，根据特征的统计度量为特征赋予权重，使用网页中节点特征与目标节点特征的相似度作为节点的评分，评分最高的节点即为抽取节点。将评分大于阈值的节点作为新的样本反馈到系统中，同时使用统计学习方法更新特征权重。

优选地，所述的步骤一的具体方法为：

步骤十一、URL相似度计算

计算 URL 相似性的一种简单方法是把一个 URL 看作是一个字符串，这样就简化成两个字符串相似度的计算问题。直接使用字符串比较的方法计算 URL 相似度没能很好的利用 URL 本身的目录结构，同时也没有体现出 URL 中不同部分的重要程度。本文在考虑了URL 结构和内容的基础上，用特征描述 URL，并将 URL 的相似度计算转换为对其特征的相似度计算。URL 的形式一般是用字符“/”隔开的一串字符，每两个分割之间的字符可认为是一个目录项，基于这些目录项，本发明定义的 URL 特征包括：

一、域名特征。来自同一网站的两个 URL 其域名应该是相同的，若域名不同则 URL 相似的可能性会很低，域名是 URL 的重要特征；

二、URL 目录深度特征。一个网站会有不同类型的页面，如目录页面、详情页面等。URL目录深度在一定程度上反映了页面的类型。

三、目录特征。现在越来越多的网站是模板化生成的，其中的 URL 目录项由时间或者在数据库中的顺序产生，因此相似网页在目录项的模式上具有一定规律，如目录项是否是数字、是否是字母、是否是数字字母的组合及目录项之间的排列顺序。

四、结尾特征。使用不同语言或者不同框架开发的网站，其结尾的后缀形式各有差别，结尾特征除了具有普通目录项的特征外，还需要提取的特征包括后缀名、前缀是否是数字、结尾是否有参数。

基于以上特征定义，URL 相似度计算使用如下算法：

基于特征运算的URL相似度计算算法:

输入：两个URL字符串

输出：两个URL的相似度

算法步骤：

步骤一百十一，根据URL结构将URL分为不同目录项。

步骤一百十二，对URL分别提取域名特征、目录深度特征、目录特征和结尾特征，分别提取相应特征值。

步骤一百十三，使用序列编辑距离计算相应组的特征之间的相似度。

步骤一百十四，用带权重相似度计算方法，计算URL之间的最终相似度。

完成算法步骤中的前两步后，接下来的两步将使用前两步提取的数据完成URL相似度运算。将URL使用特征表示后，URL相似度的计算就转化为特征相似度的计算，基于上述特征表示的URL相似度计算公式如下：

其中x 和 y 分别表示两个URL，表示x和y的相似度，表示x的第i个特征向量，表示泛化后 x 的第i个特征向量，表示第i个特征向量的权重，α，β分别表示原URL和泛化URL项在相似度计算中的权重。表示特征集合的大小。表示两个向量之间的相似度，表示向量v，w的编辑距离，L向量长度计算函数，表示向量v的长度，表示向量的w长度。计算中通过调节α，β的值可以控制URL对机器产生数字目录的兼容程度，调节不同组的权重可以控制目录项对相似度的贡献程度。

步骤十二、结构相似度计算

获得URL相似的网页后还需要根据任务目标，从结构上判断两个网页是否相似，以便更好的抓取相似网页。DOM树可以很好的反映出网页的结构，在进行网页结构相似度计算时，通常以DOM树来表示网页的结构。本发明所述结构相似度计算方法借鉴了分层次计算的思想，并利用标签属性和节点的递归性构建网页结构的特征表示，基于这些特征进行相似度计算。相似度计算过程为将DOM节点使用其标签、属性和子节点标签序列表示，层次遍历DOM树形成DOM树的层次节点特征表示。获得网页的层次节点特征表示后，网页之间的相似度使用公式进行计算：

其中x，y表示网页的 DOM 树，表示两个网页的结构相似性，i表示序列的层次，表示DOM树x 第i层的序列，表示DOM树 y第i层的序列，表示第i层的权重，L求序列的长度函数，RD为求递归序列编辑距离函数，Max为求最大值函数。

步骤十三、内容相似度计算

本发明使用网页文本间SimHash值的海明距离作为一种快速网页内容相似度近似。SimHash计算的具体计算过程如下：

步骤一百三十一，将文章转换为一组加权特征值构成的向量。

步骤一百三十二，初始化一个F维的向量V，其中每一个元素初始值为0。

步骤一百三十三，对于文章的特征向量中的每一个特征，做如下计算：利用传统的Hash算法得到一个F-Bit的签名。对于这个F-Bit的签名，如果签名的第i位上为1，则对向量V中第i维加上这个特征的权值，否则对向量的第i维减去该特征的权值。

步骤一百三十四，对整个特征向量迭代上述运算后，根据V中每一维向量的符号来确定生成的F-Bit指纹的值，如果V的第i维为正数，则生成的F-bit指纹的第i维为1，否则为0。

本发明所述内容相似度在网页抓取时将不做计算，其主要用于对抓取的结构相似网页根据内容相关性进行排序，以便将最接近原样本的网页抽取出来。

优选地，所述的步骤二的具体方法为：

步骤二十一、原子特征生成过程。

原子特征用于描述节点具有的基础特征信息，原子特征可分为结构原子特征和文本原子特征，结构原子特征用于描述DOM树中节点的局部结构特征，文本原子特征是指节点包含的文本中语言无关的浅层信息特征。

结构原子特征包括：

一、路径特征。DOM树中总是存在一条由根节点到达当前节点的路径，根据路径可在DOM中找到任意一个节点，路径是在DOM树中识别该节点的重要特征。本发明使用DOM节点路径中节点的标签表示该节点的路径特征；

二、节点深度。DOM树是一种树型层次结构，把从根节点到当前节点经过的层次数定义为节点的深度。节点深度从宏观上体现出节点的位置信息，同类型节点在相似的网页中节点深度相等或相近；

三、序列索引。节点的序列索引是指节点是其父节点的第几个孩子节点，序列索引可以较精确的描述节点在同层次节点中的序列位置。

四、节点类型。DOM树中节点可以分为两种，叶子节点和信息块节点，节点的类型可以作为节点分类的一种属性；

五、孩子结点数及孩子节点标签序列。孩子节点数描述了节点内部的大小，孩子节点标签序列则是节点内部结构的一种快照表示；

六、前后兄弟节点数和前后兄弟节点标签序列。前后兄弟结点数描述了节点所处局部外部环境的大小，前后兄弟节点标签序列则是这种局部外部环境的一种快照表示；

七、节点的标签。网页中节点的标签不仅体现了节点在页面中的显示方式，并且对于相同类型的信息通常使用相同的标签进行封装；

八、节点属性。网页中节点属性包含着丰富的节点信息，通过属性可以控制网页中节点显示的颜色、背景、字体大小、布局等视觉信息。属性也可作为节点的唯一标识，不同网站开发者可以自己定义属性标签和属性含义。属性形式和内容是多样性的，对于同一网站来说其属性标签和属性含义是固定的。本文中使用的属性标签是根据网站自动提取和生成的，对于不同网站其属性特征的大小是不同的，但对于同一网站属性特征的大小是相同的。

文本原子特征包括：

一、独立文本长度。独立文本长度是指DOM树节点自身文本的长度，不包括其孩子节点文本的长度，独立文本长度是节点包括文本数的一种衡量；

二、文本长度。DOM树节点文本长度是指包括其孩子节点文本在内的所有文本长度，文本长度体现了节点及其孩子节点包含的文本总数；

三、独立文本密度和文本密度。独立文本密度是指节点自身文本中非标点字符数与其独立文本长度的比例，文本密度是指节点及其孩子节点文本中非标点字符数与其文本长度的比例。文本密度体现出文本的信息类型；

四、独立文本链接密度和文本链接密度。独立文本链接密度是节点中链接文本长度与其独立文本长度的比例，文本密度是节点及其孩子节点文本中链接文本长度与其文本长度的比例；

五、首字母类型。首字母类型定义为两种：数字和非数字；

六、数字密度。数字密度定义为文本中数字字符个数与文本长度的比例。

步骤二十二、组合特征的生成过程

除上述原子特征之外，本发明使用节点辐射的局部结构树（节点上下文环境）表示节点的结构特征，并将局部结构树转化为向量表示形式，从而获得描述节点结构的组合特征。组合特征包括祖先节点特征、前后兄弟节点特征、孩子节点特征。

步骤二百二十一、生成节点序列；

步骤二百二十二、对节点序列进行带顺序全组合，生成带顺序全组合节点序列集合。带顺序全组合与常见全组合的不同点在于，组合后元素是有序的序列，且其顺序与原序列中一致；

步骤二百二十三、对于获得的带顺序全组合节点序列集合，根据序列中包含的元素个数赋予不同权重，即权重为包含的元素个数与原序列长度之比。权重体现了集合中不同序列的相似度对总体组合特征相似度的贡献程度；

步骤二百二十四、对生成的节点序列集合中的每个序列，根据其节点顺序，将节点的原子特征向量连接，组合为相应序列的特征向量；

步骤二百二十五、最后得到组合特征向量集合和其对应的组内特征权重。

所述的步骤三的具体方法为：

步骤三十一、基于特征统计频率的权重计算公式如下：

其中F(f)表示特征f的统计频率权重，N(f)为特征f在当前网页中出现的次数，N(Sample)表示样本节点的个数。

步骤三十二、基于特征取值个数得权重计算公式如下：

其中P(f)表示特征f的取值个数权重，NValue(f)表示特征f的取值个数，N(Exist)表示特征在样本中出现的个数。

步骤三十三、根据特征的统计频率属性和特征取值个数属性，可以综合计算特征逆向评分，其计算公式如式：

其中DScore(f)表示特征f的逆向评分，N(f)为特征f在当前网页中出现的次数，N(Sample)表示样本节点的个数，NValue(f)表示特征f的取值个数，N(Exist)表示特征在样本中出现的个数。

优选地，所述的步骤四的具体方法为：

步骤四十一、特征匹配得分的计算公式如下：

步骤四十二、特征元素的相似度计算公式如式：

其中表示节点x， y的相似度， SF为特征的相似度计算函数，表示第i个特征组的权重（特征分为四组原子特征、祖先特征、孩子特征、兄弟特征），为组内第j个特征向量权重，为求最大值函数，ED为编辑距离函数，L为求字符串长度函数。

本发明的面向稀疏样本的聚焦式Web信息抽取技术，与现有技术相比，无论在理论体系研究方面，还是在实际应用方面都具有其特点。具有以下突出的实质性特点和显著优点：

一，提出了以样本为中心，基于URL特征运算的快速网页相似度计算方法。本发明从URL特征提取与运算出发，将URL特征相似性作为网页相似性的依据。使用域名特征、深度特征、目录特征、结尾特征描述URL，并用带权重的特征向量匹配算法计算URL相似度。使用结构和内容相似度进一步过滤修正网页相似度。结构特征使用DOM树层次标签节点序列描述，内容特征使用SimHash值表示。以样本URL为中心，使用上述特征运算过程能够获得质量较高的相似性网页。

二，基于为DOM树节点应由其上下文节点共同描述的思想，提出了局部结构特征描述方法，并使用特征选择算法自适应确定特征权重。特征匹配算法首先通过特征模型构建网页节点的组合特征和原子特征。节点的组合特征是在网页节点原子特征的基础上，使用父节点、兄弟节点、子节点的序列有序组合表示。获得节点组合特征和文本特征向量后，根据特征的统计度量为特征赋予权重，特征权重的计算从逆向和正向两个方面进行，特征权重的计算过程就是特征选择的过程。

三，实现了一个面向稀疏样本的聚焦式Web信息抽取系统。本发明给出了一个具有领域通用、用户友好的Web信息抽取系统的设计与实现。该系统的最大特点是能够仅依靠极少量的样本就能进行高效的信息抽取，将结构化的信息从不同样本所属领域（网站）中抽取出来，并提供跨领域（网站）的排序、搜索等结构化信息服务。

附图说明

图1是面向稀疏样本的聚焦式Web信息抽取系统总体框架图。

图2是面向稀疏样本的聚焦式Web信息抽取方法的流程图。

图3是快速结构捕获的聚焦爬虫框架图。

图4是SimHash计算过程示例图。

图5是面向稀疏样本的特征匹配流程图。

图6是特征生成过程图。

图7是一个具体实例的模板定义界面。

图8是一个具体实例的检索界面。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。

通过对目前Web信息抽取实现技术的总结归纳，本发明的设计目标是使普通用户通过简单的操作就能从页面中抽取出他们感兴趣的内容，并将这些内容转化为结构化的形式，同时提供基于用户兴趣的个性化查阅服务。下面以抽取易迅网的商品详细页中商品名称、易迅价格、销售排行信息为示例，具体说明如何使用本发明提供的Web信息抽取服务。

图1为本发明面向稀疏样本的聚焦式Web信息抽取系统总体框架图，如图1所示，该系统主要包括网页交互模块10、抽取引擎模块20、数据服务模块30，其中：

网页交互模块10，提供抽取模板定义和结构化抽取结果查阅服务；网页交互模块是用户可以直接接触到的系统部分。对于用户来说，一个网页的源码或对应的DOM树节点，数量都是非常巨大的，直接在源码或者DOM树上进行标记目标样本，不仅枯燥而且不容易操作。为了简化用户模板定义，模板定义模块使用组合的方式获取用户个性化样本。用户定制的网页样本可由一个或多个目标项组成，对于每个目标项，用户提供URL 和相应抽取目标项节点的源码且命名便可生成。用户可以对其中的目标项进行增加、删除操作来更新模板的定义。内容查询模块为用户提供基于模板的结构化信息检索，检索的内容是根据用户模板中URL进行聚焦抽取获得的。查询时用户可以选择多个感兴趣的模板进行比较查阅。搜索模块则可在用户选择的模板中进一步筛选感兴趣的内容。

抽取引擎模块20，提供包括相似网页获取、样本特征建模、特征选择和信息抽取的功能；

数据服务模块30，为系统的前后端提供关系型和非关系型数据服务。关系型数据持久层主要存储用户定制模板的信息，作为系统前后端数据通讯的重要部分，起到连接整个系统的作用。数据缓存模块负责临时网页的存储和访问，为筛选网页提供快速的数据访问服务。非关系型数据库主要用来存储网页源码。面向稀疏样本的聚焦式Web信息抽取系统使用Java语言实现。网站采用Spring 框架实现，Spring 是一个开源框架，可用来构建轻量级的、强壮的J2EE应用程序。Spring 框架与My SQL数据库的交互通过 Hibernate持久化技术完成，Hibernate 是一个对象关系映射框架，它可以使Java程序员用面向对象编程的思维来操纵数据库。用户在网页中定义好抽取模板后，网页交互部分将向后端抽取引擎发送该模板的信息抽取请求。后端抽取引擎分布在多个节点上，前端部分通过读取抽取引擎配置文件获取抽取引擎节点的分布信息，向合适的抽取引擎节点发送服务请求。

抽取引擎中网页获取模块使用Http Client和Html Unitl模拟浏览器实现。Jsoup将抓取的页面转化成DOM树对象。特征模型模块负责遍历DOM树的节点并生成节点的特征向量。特征向量的生成实现时使用工厂设计模式，便于扩展特征模型。特征选择模块通过调用特征模型获取特征向量，基于统计度量计算目标样本特征向量的特征权重。特征匹配模块以特征选择模块获得的目标特征模板（特征向量的带权重描述）和新节点的特征向量为输入，通过模板向量和节点向量的带权重匹配算法给节点评分。

数据服务使用目前主流的关系型和非关系性数据库实现，其中关系型数据库为MySQL，通过JDBC接口进行访问。非关系型数据库使用Redis和Mongo DB组合实现。Redis是一个开源的使用ANSIC语言编写、支持网络、基于内存Key-Value的数据库。系统使用高性能的Java客户端JRedis访问Redis。Mongo DB是一个基于分布式文件存储的数据库，它支持松散的数据结构，如Json的Bson格式，可以存储比较复杂的数据类型。系统使用Mongo DB JavaDriver对Mongo DB数据库进行操作。数据服务与应用程序是通过服务接口进行通信的，数据库部署在不同的物理机器上，程序读取数据库配置文件获得数据服务的部署信息，向合适的节点请求服务。

所述网页交互模块10主要包括模板定制模块11、内容查询模块12、搜索模块13，其中：

模板定制模块11，使用组合的方式获取用户个性化样本。用户定制的网页样本可由一个或多个目标项组成，对于每个目标项，用户提供URL 和相应抽取目标项节点的源码且命名便可生成。用户可以对其中的目标项进行增加、删除操作来更新模板的定义，与用户进行交互，用来帮助用户完成网页样本生成，并将样本的信息存储到数据库中；

内容查询模块12，为用户提供基于模板的结构化信息检索，检索的内容是根据用户模板中URL进行聚焦抽取获得的，查询时用户可以选择多个感兴趣的模板进行比较查阅；

搜索模块13，在用户选择的模板中进一步筛选感兴趣的内容。

所述抽取引擎模块20主要包括聚焦爬虫模块21、特征模型模块22、特征选择模块23、特征匹配模块24，其中：

聚焦爬虫模块21，使用快速结构捕获的相似度计算方法，获取与样本相似的网页，为系统提供大量可用的网页数据；聚焦爬虫模块使用快速结构捕获的相似度计算方法，获取与样本相似的网页，为系统提供大量可用的网页数据。特征模型模块则负责用户模板特征向量的生成。其过程是根据用户定制模板中目标项的URL获取网页内容，并根据目标项中的节点源码在网页DOM树中定位目标节点，最后生成基于DOM树节点的目标项特征向量。特征选择模块的功能是对生成的特征进行甄别，通过计算统计度量值为不同重要程度的特征赋予权重，根据反馈的样本更新特征权重。最后的抽取由特征匹配模块完成，它通过对待抽取网页节点特征向量与样本特征向量进行匹配识别抽取内容。

特征模型模块22，负责用户模板特征向量的生成。其过程是根据用户定制模板中目标项的URL获取网页内容，并根据目标项中的节点源码在网页DOM树中定位目标节点，最后生成基于DOM树节点的目标项特征向量；

特征选择模块23，对生成的特征进行甄别，通过计算统计度量值为不同重要程度的特征赋予权重，根据反馈的样本更新特征权重；

特征匹配模块24，通过对待抽取网页节点特征向量与样本特征向量进行匹配识别抽取内容。

所述数据服务模块30主要包括缓存模块31、持久层模块32，其中：

缓存模块31，负责临时网页的存储和访问，为筛选网页提供快速的数据访问服务。非关系型数据库主要用来存储网页源码；

持久层模块32，主要存储用户定制模板的信息，作为系统前后端数据通讯的重要部分，起到连接整个系统的作用。

本发明的系统使用Ubuntu下Java 集成开发环境 My Eclipse 开发，其可部署在Window或 Linux系统上。部属需要的软件如下：

操作系统：Windows/Ubuntu

服务器：Tomcat 7.0

数据库：My SQL 5.0、Redis 2.4、Mongo DB 2.4

如图2所示，本发明还公开了一种面向稀疏样本的聚焦式Web信息抽取方法，该方法的具体操作步骤如下：

步骤一、快速结构捕获的聚焦爬虫

步骤二、特征生成模型

步骤三、基于统计的特征权重计算

步骤四、基于权重的特征匹配

步骤五、基于反馈的权重更新

本发明是基于样本的信息抽取，使用学习方法时，自变量不再是样本特征向量，而是样本特征向量与目标样本特征向量之间的相似度项作为自变量。若使用线性分类器进行学习，其学习出来的数据表现从参数意义角度上可看成是相应特征的权重。但是这些参数通常难以理解，与实际权重不同。由于目标样本的稀疏性，使用相似度向量作为自变量时，在生成训练数据时存在正负样本的不平衡性。因此需要解决数据倾斜问题，一般的做法为对负样本进行抽样，并在预测时对正样本的预测进行惩罚。Logistic Regression具有在线预测计算量小，并且输出结果为概率值的特征，其较适合用于本发明的反馈权重学习。

其中，步骤二、步骤三、步骤四、步骤五通过特征的统计权重计算和反馈权重的更新，能够有效地解决稀疏样本下目标信息的抽取问题。可以理解为是一个面向稀疏样本的特征匹配算法。特征匹配算法首先通过特征模型构建网页节点的组合特征和原子特征，根据特征的统计度量为特征赋予权重，使用网页中节点特征与目标节点特征的相似度作为节点的评分，评分最高的节点即为抽取节点。将评分大于阈值的节点作为新的样本反馈到系统中，同时使用统计学习方法更新特征权重。

如图1所示，上述的步骤一的具体方法为：

步骤十一、URL相似度计算

基于以上特征定义，URL 相似度计算使用如下算法：

基于特征运算的URL相似度计算算法:

输入：两个URL字符串

输出：两个URL的相似度

算法步骤：

步骤一百十一，根据URL结构将URL分为不同目录项。

完成算法步骤中的前两步后，接下来的两步将使用前两步提取的数据完成URL相似度运算。将URL使用特征表示后，URL相似度的计算就转化为特征相似度的计算，基于上述特征表示的URL相似度计算公式如式（1）、式（2）：

………(1)

…………（2）

步骤十二、结构相似度计算

获得URL相似的网页后还需要根据任务目标，从结构上判断两个网页是否相似，以便更好的抓取相似网页。DOM树可以很好的反映出网页的结构，在进行网页结构相似度计算时，通常以DOM树来表示网页的结构。本发明所述结构相似度计算方法借鉴了分层次计算的思想，并利用标签属性和节点的递归性构建网页结构的特征表示，基于这些特征进行相似度计算。相似度计算过程为将DOM节点使用其标签、属性和子节点标签序列表示，层次遍历DOM树形成DOM树的层次节点特征表示。获得网页的层次节点特征表示后，网页之间的相似度使用公式（3）进行计算：

…………（3）

步骤十三、内容相似度计算

本发明使用网页文本间SimHash值的海明距离作为一种快速网页内容相似度近似。如图2所示，SimHash计算的具体计算过程如下：

步骤一百三十四，对整个特征向量迭代上述运算后，根据V中每一维向量的符号来确定生成的F-Bit指纹的值，如果V的第i维为正数，则生成的F-bit指纹的第i维为1，否则为0。内容相似度在网页抓取时将不做计算，而是其主要用于对抓取的结构相似网页根据内容相关性进行排序，以便将最接近原样本的网页抽取出来。

如图5和图6所示，所述步骤二的具体方法为：

步骤二十一、原子特征生成过程。

结构原子特征包括：

文本原子特征包括：

五、首字母类型。首字母类型定义为两种：数字和非数字；

步骤二十二，组合特征的生成过程

步骤二百二十一，生成节点序列；

步骤二百二十二，对节点序列进行带顺序全组合，生成带顺序全组合节点序列集合。带顺序全组合与常见全组合的不同点在于，组合后元素是有序的序列，且其顺序与原序列中一致；

步骤二百二十三，对于获得的带顺序全组合节点序列集合，根据序列中包含的元素个数赋予不同权重，即权重为包含的元素个数与原序列长度之比。权重体现了集合中不同序列的相似度对总体组合特征相似度的贡献程度；

步骤二百二十四，对生成的节点序列集合中的每个序列，根据其节点顺序，将节点的原子特征向量连接，组合为相应序列的特征向量；

步骤二百二十五，最后得到组合特征向量集合和其对应的组内特征权重。

其中，所述的步骤三的具体方法为：

步骤三十一、基于特征统计频率的权重计算公式如如式（4）：

……… (4)

步骤三十二、基于特征取值个数得权重计算公式如式（5）：

………（5）

步骤三十三、根据特征的统计频率属性和特征取值个数属性，可以综合计算特征逆向评分，其计算公式如式（6：

………（6）

优选地，所述的步骤四的具体方法为：

步骤四十一，特征匹配得分的计算公式如式（7）：

…………（7）

步骤四十二，特征元素的相似度计算公式如式（8）：

………（8）

下面以抽取易迅网的商品详细页中商品名称、易迅价格、销售排行信息为示例，结合图7和图8具体说明如何使用本发明提供的Web信息抽取服务。

具体步骤如下：

步骤一、快速结构捕获的聚焦爬虫

步骤十一、URL相似度计算

URL 相似度计算使用如下算法：

算法：基于特征运算的URL相似度计算算法

输入：两个URL字符串

输出：两个URL的相似度

算法步骤：

步骤一百十一，根据URL结构将URL分为不同目录项。

…………(1)

………（2）

步骤十二、结构相似度计算

获得URL相似的网页后还需要根据任务目标，从结构上判断两个网页是否相似，以便更好的抓取相似网页。网页之间的结构相似度使用下面公式（3）进行计算：

………（3）

步骤十三、内容相似度计算

步骤一百三十二初始化一个F维的向量V，其中每一个元素初始值为0。

内容相似度在网页抓取时将不做计算，而是其主要用于对抓取的结构相似网页根据内容相关性进行排序，以便将最接近原样本的网页抽取出来。

步骤二、特征生成模型

步骤二十一，生成结构原子特征和文本原子特征

步骤二十二，生成组合特征

步骤三，基于统计的特征权重计算

步骤三十一，基于特征统计频率的权重计算公式如式（4）：

………（4）

步骤三十二，基于特征取值个数得权重计算公式如式（5）：

…………（5）

步骤送三十三，根据特征的统计频率属性和特征取值个数属性，可以综合计算特征逆向评分，其计算公式如式（6）：

………（6）

步骤四，基于权重的特征匹配

步骤四十一，特征匹配得分的计算公式如式（7）：

………（7）

步骤四十二，特征元素的相似度计算公式如式（8）：

………（8）

步骤五，基于反馈的权重更新

由于目标样本的稀疏性，使用相似度向量作为自变量时，在生成训练数据时存在正负样本的不平衡性。为解决数据倾斜问题，采用对负样本进行抽样，并在预测时对正样本的预测进行惩罚的方式。将Logistic Regression具有在线预测计算量小，并且输出结果为概率值的特征应用于本发明的反馈权重学习。

以上过程是在后台封装好的计算程序，然后依据本发明的系统模板，可以看到如图7所示，页面中简要的介绍了使用本系统的步骤和系统提供的功能。使用步骤包括抽取器定义、模板定义（可选）、结构化信息的查询和推荐。

用户可在选定的模板中进行搜索，点击Search进入搜索界面。选择搜索的模板并输入关键字，点击“Go”按钮就可在选择模板的结构化数据中查找指定内容。如选择易迅手机模板并输入关键字“小米”，获得如图7所示的搜索结果。通过关键字的模糊匹配搜索，包含关键字“小米”的结构化商品信息被返回。

本发明能够依据极少量的样本（一个样本即可），利用快速结构捕获方法构造聚焦式爬虫，为用户找到海量的与样本结构和内容相似的网页，并抽取其中与用户样本指定内容相同类型的信息，形成结构化数据表单。该方法的研究内容包括快速结构捕获的聚焦爬虫、面向稀疏样本的信息抽取和面向稀疏样本的Web信息抽取系统。无论在理论体系研究方面，还是在实际应用方面都具有其特点。根据上述发明构思，本发明采用快速结构捕获的聚焦爬虫算法和面向稀疏样本的特征匹配算法实现面向稀疏样本的聚焦式Web信息抽取技术。

本发明能够依靠极少量的样本进行高效的信息抽取，将结构化的信息从不同样本所属领域中抽取出来，并提供跨领域的排序、搜索等结构化信息服务。其主要的技术是：利用网站内URL中包含的丰富信息，将URL用特征描述，使用基于特征匹配的URL相似性作为网页相似性的依据，并结合使用DOM树层次标签节点序列描述的结构相似性进行一步筛选；DOM树节点应由其上下文节点共同描述。对于节点的原子特征和组合特征，使用基于统计度量的特征选择方法，优化样本项的特征表示，采用特征匹配技术进行信息抽取。

本发明以网页服务方式呈现，提供友好的网页操作界面，使得用户通过任何设备都可方便的使用个性化定制的Web信息抽取服务。其中模板定制模块与用户进行交互，用来帮助用户完成网页样本生成，并将样本的信息存储到数据库中。内容查询模块、搜索模块负责检索结构化抽取的结果。聚焦爬虫模块负责抓取与样本相似的网页，作为Web信息抽取的数据来源。特征模型模块生成网页源码的DOM树，并形式化为特征向量。特征选择模块计算样本特征向量特征的权重值。特征匹配模块使用带权重的特征向量相似度为依据来抽取Web网页信息。数据缓存模块为聚焦爬虫提供快速的数据接入服务；数据持久层模块存储用户定制的模板和结构化抽取结果，同时数据持久层模块也是网页服务和抽取引擎的信息交互媒介。

Claims

1.一种面向稀疏样本的聚焦式Web信息抽取系统，其特征在于，包括：

2.如权利要求1所述的面向稀疏样本的聚焦式Web信息抽取系统，其特征在于，所述网页交互模块包括：

模板定制模块，使用组合的方式获取用户个性化样本；用户定制的网页样本可由一个或多个目标项组成，对于每个目标项，用户提供URL 和相应抽取目标项节点的源码且命名便可生成；用户可以对其中的目标项进行增加、删除操作来更新模板的定义，与用户进行交互，用来帮助用户完成网页样本生成，并将样本的信息存储到数据库中；

搜索模块，在用户选择的模板中进一步筛选感兴趣的内容。

3.如权利要求1所述的面向稀疏样本的聚焦式Web信息抽取系统，其特征在于，所述抽取引擎模块包括：

特征模型模块，负责用户模板特征向量的生成；其过程是根据用户定制模板中目标项的URL获取网页内容，并根据目标项中的节点源码在网页DOM树中定位目标节点，最后生成基于DOM树节点的目标项特征向量；

4.如权利要求1所述的面向稀疏样本的聚焦式Web信息抽取系统，其特征在于，所述数据服务模块包括：

缓存模块，负责临时网页的存储和访问，为筛选网页提供快速的数据访问服务；非关系型数据库主要用来存储网页源码；

5.一种面向稀疏样本的聚焦式Web信息抽取方法，其特征在于，包括以下步骤：

步骤一、快速结构捕获的聚焦爬虫

本发明利用网站内URL中包含的丰富信息，将URL用特征描述，使用基于特征匹配的URL相似性作为网页相似性的依据，并结合使用DOM树层次标签节点序列描述的结构相似性进一步筛选；相同网站中URL的相似度可以用来近似计算网页相似度；本发明的方法从URL、结构和内容三个维度描述目标网页，并从特征的角度表示这三个维度，通过URL和结构特征计算网页相似度；

步骤二、特征生成模型

本发明借鉴了N-Gram语言模型中使用上下文描述事物的思想，特征模型构建网页中节点的结构特征时，对网页节点不是孤立的描述，而是使用其上下文环境来描述的，同时根据特征构建规则为不同特征赋予组内权重；对于输入的网页源码首先生成其对应的DOM树对象，从DOM树中提取网页中节点及其上下文节点的原子特征；使用这些上下文节点的原子特征通过特征组合生成组合特征：祖先特征、兄弟特征和孩子特征；

步骤三、基于统计的特征权重计算

本发明使用逆向评分将作为特征的初始评分，逆向评分则是样本独立的无监督评分，因此样本的稀疏对逆向特征评分没有影响；逆向评分中对于有助于分类的特征给予较高的权重；在对网页节点进行特征权重计算时，特征频率即为特征在所有样本节点中出现的次数与样本节点总数之比；

步骤四、基于权重的特征匹配

在从页面中抽取目标内容时，遍历网页DOM树节点并生成节点的特征向量，使用节点特征向量与目标样例节点特征向量的相似度作为该节点的评分；对网页内所有节点根据其评分进行排序，选择评分最高的节点作为抽取结果输出；本发明在相似度计算时考虑特征的权重值，即基于权重的特征匹配；特征匹配时每个特征元素的相似度使用编辑距离计算；编辑距离是表示两个字符串相似度的常用方法，其用两个字符串之间转换需要的最小的编辑次数作为相似度值，其中编辑是指增加、删除或替换一个字符；

步骤五、基于反馈的权重更新

本发明是基于样本的信息抽取，使用学习方法时，自变量不再是样本特征向量，而是样本特征向量与目标样本特征向量之间的相似度项作为自变量；若使用线性分类器进行学习，其学习出来的数据表现从参数意义角度上可看成是相应特征的权重；但是这些参数通常难以理解，与实际权重不同；由于目标样本的稀疏性，使用相似度向量作为自变量时，在生成训练数据时存在正负样本的不平衡性；因此需要解决数据倾斜问题，一般的做法为对负样本进行抽样，并在预测时对正样本的预测进行惩罚；逻辑回归模型具有在线预测计算量小，并且输出结果为概率值的特征，其较适合用于本发明的反馈权重学习；

其中，步骤二、步骤三、步骤四、步骤五通过特征的统计权重计算和反馈权重的更新，能够有效地解决稀疏样本下目标信息的抽取问题；可以理解为是一个面向稀疏样本的特征匹配算法；特征匹配算法首先通过特征模型构建网页节点的组合特征和原子特征，根据特征的统计度量为特征赋予权重，使用网页中节点特征与目标节点特征的相似度作为节点的评分，评分最高的节点即为抽取节点；将评分大于阈值的节点作为新的样本反馈到系统中，同时使用统计学习方法更新特征权重。

6.根据权利要求5所述的面向稀疏样本的聚焦式Web信息抽取方法，其特征在于，所述步骤一的具体方法为：

步骤十一、URL相似度计算

计算 URL 相似性的一种简单方法是把一个 URL 看作是一个字符串，这样就简化成两个字符串相似度的计算问题；直接使用字符串比较的方法计算 URL 相似度没能很好的利用 URL 本身的目录结构，同时也没有体现出 URL 中不同部分的重要程度；本文在考虑了URL 结构和内容的基础上，用特征描述 URL，并将 URL 的相似度计算转换为对其特征的相似度计算；URL 的形式一般是用字符“/”隔开的一串字符，每两个分割之间的字符可认为是一个目录项，基于这些目录项，本发明定义的 URL 特征包括：

一、域名特征；来自同一网站的两个 URL 其域名应该是相同的，若域名不同则 URL 相似的可能性会很低，域名是 URL 的重要特征；

二、URL 目录深度特征；一个网站会有不同类型的页面，如目录页面、详情页面等；URL目录深度在一定程度上反映了页面的类型；

三、目录特征；现在越来越多的网站是模板化生成的，其中的 URL 目录项由时间或者在数据库中的顺序产生，因此相似网页在目录项的模式上具有一定规律，如目录项是否是数字、是否是字母、是否是数字字母的组合及目录项之间的排列顺序；

四、结尾特征；使用不同语言或者不同框架开发的网站，其结尾的后缀形式各有差别，结尾特征除了具有普通目录项的特征外，还需要提取的特征包括后缀名、前缀是否是数字、结尾是否有参数；

基于以上特征定义，URL 相似度计算使用如下算法：

基于特征运算的URL相似度计算算法:

输入：两个URL字符串

输出：两个URL的相似度

算法步骤：

步骤一百十一，根据URL结构将URL分为不同目录项；

步骤一百十二，对URL分别提取域名特征、目录深度特征、目录特征和结尾特征，分别提取相应特征值；

步骤一百十三，使用序列编辑距离计算相应组的特征之间的相似度；

步骤一百十四，用带权重相似度计算方法，计算URL之间的最终相似度；

完成算法步骤中的前两步后，接下来的两步将使用前两步提取的数据完成URL相似度运算；将URL使用特征表示后，URL相似度的计算就转化为特征相似度的计算，基于上述特征表示的URL相似度计算公式如下：

其中x 和 y 分别表示两个URL，表示x和y的相似度，表示x的第i个特征向量，表示泛化后 x 的第i个特征向量，表示第i个特征向量的权重，α，β分别表示原URL和泛化URL项在相似度计算中的权重；表示特征集合的大小；表示两个向量之间的相似度，表示向量v，w的编辑距离，L向量长度计算函数，表示向量v的长度，表示向量的w长度；计算中通过调节α，β的值可以控制URL对机器产生数字目录的兼容程度，调节不同组的权重可以控制目录项对相似度的贡献程度；

步骤十二、结构相似度计算

获得URL相似的网页后还需要根据任务目标，从结构上判断两个网页是否相似，以便更好的抓取相似网页；DOM树可以很好的反映出网页的结构，在进行网页结构相似度计算时，通常以DOM树来表示网页的结构；本发明所述结构相似度计算方法借鉴了分层次计算的思想，并利用标签属性和节点的递归性构建网页结构的特征表示，基于这些特征进行相似度计算；相似度计算过程为将DOM节点使用其标签、属性和子节点标签序列表示，层次遍历DOM树形成DOM树的层次节点特征表示；获得网页的层次节点特征表示后，网页之间的相似度使用公式（二）进行计算：

其中x，y表示网页的 DOM 树，表示两个网页的结构相似性，i表示序列的层次，表示DOM树x 第i层的序列，表示DOM树 y第i层的序列，表示第i层的权重，L求序列的长度函数，RD为求递归序列编辑距离函数，Max为求最大值函数；

步骤十三、内容相似度计算

本发明使用网页文本间SimHash值的海明距离作为一种快速网页内容相似度近似；SimHash计算的具体计算过程如下：

步骤一百三十一，将文章转换为一组加权特征值构成的向量；

步骤一百三十二，初始化一个F维的向量V，其中每一个元素初始值为0；

步骤一百三十三，对于文章的特征向量中的每一个特征，做如下计算：利用传统的Hash算法得到一个F-Bit的签名；对于这个F-Bit的签名，如果签名的第i位上为1，则对向量V中第i维加上这个特征的权值，否则对向量的第i维减去该特征的权值；

步骤一百三十四，对整个特征向量迭代上述运算后，根据V中每一维向量的符号来确定生成的F-Bit指纹的值，如果V的第i维为正数，则生成的F-bit指纹的第i维为1，否则为0；

7.根据权利要求5所述的面向稀疏样本的聚焦式Web信息抽取方法，其特征在于，所述步骤二的具体方法为：

步骤二十一、原子特征生成过程；

原子特征用于描述节点具有的基础特征信息，原子特征可分为结构原子特征和文本原子特征，结构原子特征用于描述DOM树中节点的局部结构特征，文本原子特征是指节点包含的文本中语言无关的浅层信息特征；

结构原子特征包括：

一、路径特征；DOM树中总是存在一条由根节点到达当前节点的路径，根据路径可在DOM中找到任意一个节点，路径是在DOM树中识别该节点的重要特征；本发明使用DOM节点路径中节点的标签表示该节点的路径特征；

二、节点深度；DOM树是一种树型层次结构，把从根节点到当前节点经过的层次数定义为节点的深度；节点深度从宏观上体现出节点的位置信息，同类型节点在相似的网页中节点深度相等或相近；

三、序列索引；节点的序列索引是指节点是其父节点的第几个孩子节点，序列索引可以较精确的描述节点在同层次节点中的序列位置；

四、节点类型；DOM树中节点可以分为两种，叶子节点和信息块节点，节点的类型可以作为节点分类的一种属性；

五、孩子结点数及孩子节点标签序列；孩子节点数描述了节点内部的大小，孩子节点标签序列则是节点内部结构的一种快照表示；

六、前后兄弟节点数和前后兄弟节点标签序列；前后兄弟结点数描述了节点所处局部外部环境的大小，前后兄弟节点标签序列则是这种局部外部环境的一种快照表示；

七、节点的标签；网页中节点的标签不仅体现了节点在页面中的显示方式，并且对于相同类型的信息通常使用相同的标签进行封装；

八、节点属性；网页中节点属性包含着丰富的节点信息，通过属性可以控制网页中节点显示的颜色、背景、字体大小、布局等视觉信息；属性也可作为节点的唯一标识，不同网站开发者可以自己定义属性标签和属性含义；属性形式和内容是多样性的，对于同一网站来说其属性标签和属性含义是固定的；本文中使用的属性标签是根据网站自动提取和生成的，对于不同网站其属性特征的大小是不同的，但对于同一网站属性特征的大小是相同的；

文本原子特征包括：

一、独立文本长度；独立文本长度是指DOM树节点自身文本的长度，不包括其孩子节点文本的长度，独立文本长度是节点包括文本数的一种衡量；

二、文本长度；DOM树节点文本长度是指包括其孩子节点文本在内的所有文本长度，文本长度体现了节点及其孩子节点包含的文本总数；

三、独立文本密度和文本密度；独立文本密度是指节点自身文本中非标点字符数与其独立文本长度的比例，文本密度是指节点及其孩子节点文本中非标点字符数与其文本长度的比例；文本密度体现出文本的信息类型；

四、独立文本链接密度和文本链接密度；独立文本链接密度是节点中链接文本长度与其独立文本长度的比例，文本密度是节点及其孩子节点文本中链接文本长度与其文本长度的比例；

五、首字母类型；首字母类型定义为两种：数字和非数字；

六、数字密度；数字密度定义为文本中数字字符个数与文本长度的比例；

步骤二十二、组合特征的生成过程

除上述原子特征之外，本发明使用节点辐射的局部结构树（节点上下文环境）表示节点的结构特征，并将局部结构树转化为向量表示形式，从而获得描述节点结构的组合特征；组合特征包括祖先节点特征、前后兄弟节点特征、孩子节点特征；

步骤二百二十一、生成节点序列；

步骤二百二十二、对节点序列进行带顺序全组合，生成带顺序全组合节点序列集合；带顺序全组合与常见全组合的不同点在于，组合后元素是有序的序列，且其顺序与原序列中一致；

步骤二百二十三、对于获得的带顺序全组合节点序列集合，根据序列中包含的元素个数赋予不同权重，即权重为包含的元素个数与原序列长度之比；权重体现了集合中不同序列的相似度对总体组合特征相似度的贡献程度；

8.根据权利要求5所述的面向稀疏样本的聚焦式Web信息抽取方法，其特征在于，所述步骤三的具体方法为：

步骤三十一、基于特征统计频率的权重计算公式如下：

其中F(f)表示特征f的统计频率权重，N(f)为特征f在当前网页中出现的次数，N(Sample)表示样本节点的个数；

步骤三十二、基于特征取值个数得权重计算公式如下：

其中P(f)表示特征f的取值个数权重，NValue(f)表示特征f的取值个数，N(Exist)表示特征在样本中出现的个数；

步骤三十三、根据特征的统计频率属性和特征取值个数属性，可以综合计算特征逆向评分，其计算公式如下：

9.根据权利要求5所述的面向稀疏样本的聚焦式Web信息抽取方法，其特征在于，所述步骤四的具体方法为：

步骤四十一、特征匹配得分的计算公式如下：

步骤四十二、特征元素的相似度计算公式如下：