CN107301166A

CN107301166A - 面向跨领域进行信息抽取的多层次特征模型和特征评价方法

Info

Publication number: CN107301166A
Application number: CN201710076821.7A
Authority: CN
Inventors: 朱文浩; 徐永林; 胡冠男; 丁伯汉; 郭心怡; 居朝友
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2017-02-13
Filing date: 2017-02-13
Publication date: 2017-10-27

Abstract

本发明涉及一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法，利用现有信息抽取相关文献中的特征，构建原始特征库；构建多层次特征理论模型，对具有领域性的特征进行降解，将特征分为复合特征和原子特征，降低特征的领域相关性；基于多层次特征理论模型，提出特征适应性评价方法，使用样本库评价可获得特征的跨领域适应性，获得可快速重复使用特征；利用多层次特征理论模型适应领域变化的能力，对模型中的特征进行可变性管理、进行实际网页分析与处理、进行实际网页中的特征识别匹配以及参数化，实现网页信息抽取特征评价系统。本发明完成了在信息抽取特征评价系统中对多层次特征进行建模实现了具有强适应性的跨领域信息抽取功能。

Description

面向跨领域进行信息抽取的多层次特征模型和特征评价方法

技术领域

本发明涉及一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法。

背景技术

信息抽取方法是从半结构化和非结构化的文档中抽取出用户感兴趣的信息并将其结构化的方法，其在信息量迅速增长的互联网内容检索中得到了广泛的应用和认可。

信息抽取的跨领域问题是指信息抽取方法对不同主题内容和不同形式文档的信息抽取任务的适应能力。领域包含了两个方面的内容：一方面是指信息主题，如，针对体育新闻的信息抽取模型难以直接应用在旅游攻略的信息抽取；另一方面是指信息的形式，如，针对商品名称的信息抽取方法难以针对网页表格进行抽取。由于不同应用领域中所涉及的知识主题与文本形式的不同，信息抽取只能在有限范围内解决一些特定的问题，当目标领域发生变化时，需要引入大量的修改工作甚至重新开发新的抽取方法。

针对这一问题，目前的研究思路主要集中在开放式信息抽取、借助半结构化信息以及基于本体的信息抽取三个方面，而这三种方式在面对领域变化，特别是文本形式等非语义特征发生变化时，还显得不够灵活，具体如下：

(1)基于开放式信息抽取方法和半结构信息辅助信息抽取方法的提取对象是所有的互联网网页或一些内容有限的半结构化信息网站提取精确度难以得到保证，无法适用于大多数信息抽取应用的实际需求。

(2)基于本体的信息抽取方法中存在的主要问题是本体模型以实体关系的确认为基础，但忽视了其他信息。另外，基于该方法的推理需要实现对某种本体语义关系的识别，因此在实现方式上受到一定的限制。

发明内容

本发明的目的在于克服现有技术存在的不足，基于文本特征(知识主题和文本形式)，提供了一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法，以针对跨领域信息抽取问题，建立多层次特征模型，提高信息抽取方法的领域适应能力。

为达到上述目的，本发明的构思是：结合以特征参数化为基础的信息抽取已有研究成果，从大量的相关文献中收集信息并抽取特征，构建原始特征库，尝试以特征分解的方式降低其中特征的领域相关性，使其可以快速重复使用，来建立对网页进行信息抽取的多层次特征模型，并使用不同主题和形式内容的网页样本，从多个角度对特征进行分析评价，对特征进行跨领域适应性分析，设计并实现基于多层次特征模型的信息抽取特征评价系统。通过不断地收集用户对特征的评价反馈来丰富特征库，可持续的提高信息抽取方法的领域适应能力。

根据上述发明构思，本发明采用如下技术方案：

一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法，具体操作步骤如下：

步骤一，收集现有信息抽取研究文献中提到的文本特征，对其进行归纳、分类，构建原始特征库；

步骤二，构建多层次特征理论模型：利用其对具有领域性的特征进行降解，将特征分为原子特征：不包括任何其他特征的独立特征，不具有或仅具有少量的领域特点，和复合特征：由一个或多个原子特征以某种形式或逻辑构成的特征，具有领域特点；来降低特征的领域相关性；

步骤三，基于多层次特征理论模型，提出特征适应性评价方法，使用样本库来评价特征库中获得特征的跨领域适应性，以获取特征库中能够快速重复使用的特征；

步骤四，基于多层次特征理论模型以及对领域变化具有适应能力的特征库，设计信息抽取特征评价系统，通过该系统对模型中的特征进行层次化的可变性管理、对实际的网页进行分析与处理、进行网页中特征的识别匹配以及参数化操作。

优选地，所述的步骤二构建多层次特征理论模型的具体方法为：

步骤二十一，对特征库的特征进行逻辑描述，即表示特征库中原子特征和复合特征的实体信息和逻辑关系，并对归纳得到的特征库以特征分解的方式，获得领域无关或领域弱相关的同样包含原子特征和复合特征的特征集合。

步骤二十二，以特征集合中的特征为基本对象，面向特征进行建模，设计具有明确性、层次性、可扩展性的多层次特征模型。

步骤二十三，基于步骤二十二中的多层次特征模型，将跨领域信息抽取系统从概念上分为实现层、多层次特征模型层、抽取目标层三个层次，以降低信息抽取操作之间的耦合性。

优选地，所述步骤三中特征适应性评价具体方法为：

步骤三十一，利用TF-IDF思想来评估单个特征对样本和领域的重要程度。使用不同信息抽取应用的样本对特征进行适应性评价，所用到的特征评价方法主要选用单个特征的准确率、召回率、F值以及某个特征对某个领域样本的匹配度和区分度。其中，召回率是指抽取出的信息中正确的占应抽取出信息数的百分比，其计算公式为：

准确率是指抽取的信息中正确信息所占的百分比。其计算公式为：

F值为召回率和准确率的加权平均值，其计算公式为：

匹配度为某一个给定的特征在特定网页样本中(例如商品名称网页样本)出现的次数归一化后的值，其计算公式为：

区分度为该特征在整个样本网页集合中的频率，设计其计算公式为：

步骤三十二，在步骤二中经多层次特征模型优化后的特征库中，将特征分成概念特征、位置特征和显示特征，基于步骤三十一中的公式，经过多次实验迭代，取得较好匹配度和区分度的值后，来进行特征领域适应性分析。

步骤三十三，使用样本对步骤三十二中评价值较高的单个特征进一步对不同领域进行评价分析，观察其在不同抽取问题上的表现，以找出通用的特征，方便以后快速重复使用。

步骤三十四，使用样本对步骤三十二中评价值较高的多个相关联单个特征组合成一系列复合特征，以提高信息抽取的准确率。

优选地，所述步骤四基于多层次特征理论模型以及对领域变化具有适应能力的特征库，设计信息抽取特征评价系统具体方法为：

步骤四十一，实现步骤二中的多层次特征理论模型以及用户交互(即，存储从信息抽取特征建模相关文献中收集到的特征，并对特征进行分析、总结、降解和集成显示)，构建特征库、样本库。

步骤四十二，为特征模型中的每个特征实现参数化方法并存入模型中，并对特征进行层次化的可变性管理，包括特征增加、删减、更新、查找。

步骤四十三，基于特征库，实现信息抽取特征评价系统，构建特征显示模块、特征管理模块、网页浏览和页面处理模块和网页特征识别匹配与参数化模块，以针对某个特定的特征，分析并评价该特征对不同领域问题的适应性；针对某个具体的信息抽取任务，便捷的查找可能适用的特征组合。

步骤四十四，利用信息抽取特征评价系统，针对具体测试样本的特征识别匹配、参数化，并结合特征跨领域分析，给予特征推荐。

优选地，所述步骤四十二的层次化的可变性管理，可以不断的更新特征模型，包括：添加新的特征或参数化方法，删减不合理的特征，以及优化特征的参数化方法，并提供特征的查询，并结合样本进行测试验证。

优选地，所述步骤四十三的信息抽取特征评价系统主要模块包括：

特征显示模块：向用户展示特征模型特征库中所包含的特征，直观的显示层次化的特征模型，包含复合特征和原子特征。

特征管理模块：提供用户界面，对特征库中的特征进行管理。

网页浏览和页面处理模块：作为用户与系统进行交互的一个模块,实现用户对样本页面的简单浏览和标记功能，该模块可以对目标网页进行显示，让用户能够在上面对自己感兴趣的信息直接进行标记，并利用映射机制建立用户标记信息与网页DOM树的对应关系。

网页特征提取模块：负责在页面处理模块生成的网页DOM树中识别匹配信息的相关特征，主要还是使用DOM树的遍历和正则表达式匹配相结合的方法来进行，主要包含显示特征、位置特征以及概念特征。

网页特征识别匹配及特征参数化模块：基于多层次特征模型，系统会识别匹配出样本中的特征，并使用特征模型中的参数化方法对特征进行参数化计算，最后对样本进行适应性评价。其中，对适应性评价好的特征进行标记，以便后续进一步结合特征评价，给予用户特征推荐，并提供给用户参数化后的特征用于机器学习。

与现有技术相比，本发明具有如下突出的实质性特点和显著的优点：

本发明完成了在信息抽取特征评价系统中对多层次特征进行建模，实现了具有强适应性的跨领域信息抽取功能。

附图说明

图1为本发明系统的总体结构示意图。

图2为多层次特征模型总体技术路线图。

图3为本发明系统架构图。

图4为系统功能模块图。

图5为特征分解依据图。

图6为基于多层次特征模型的特征分解示例图。

图7为本发明中基于多层次特征模型的信息抽取概念模型图。

图8为用户标记信息与DOM树的映射机制图。

图9为用户标记信息映射为DOM树流程图。

图10为信息抽取原始特征库部分特征展示图。

具体实施方式

以下根据附图和优选实施例对本发明作进一步详细说明。

如图1至图4所示，本发明信息抽取特征评价系统包括上层信息抽取业务处理及展示服务、多层次特征模型和底层数据库，所述的数据库包含特征库、样本库。通过使用样本库和外部用户输入数据来训练特征模型，不断地丰富和完善特征库，以协助上层服务更好的进行信息抽取业务处理以及信息展示。

如图2所示，一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法，具体操作步骤如下：

步骤一，收集现有信息抽取研究文献中提到的文本特征，对其进行归纳、分类，构建原始特征库。

步骤二，构建多层次特征理论模型。利用其对具有领域性的特征进行降解，将特征分为原子特征和复合特征，来降低特征的领域相关性。

步骤三，基于多层次特征理论模型，提出了特征适应性评价方法。使用样本库来评价特征库中可获得特征的跨领域适应性，以获取特征库中可以快速重复使用的特征。

步骤四，基于对领域变化具有适应能力的多层次特征理论模型以及特征库，设计信息抽取特征评价系统。通过该系统可对模型中的特征进行层次化的可变性管理、对实际的网页进行分析与处理、进行网页中特征的识别匹配以及参数化等操作。

所述步骤一中收集现有信息抽取研究文献中提到的文本主要有三类：

第一类是概念特征，即文本本身的词法、语法、语义特征。

第二类是显示特征，包括字体显示效果等方面，如字体颜色，字体类别、字体大小等。

第三类是位置特征，如位置，深度，路径等。

本实施例中，分析并整理了当前信息抽取研究的150余篇文献中所使用到的约300个文本特征，并按照显示、位置、概念进行整理，分类(其中，显示含70个左右的特征；位置含60个左右的特征；概念含160个左右的特征)入库，具体如图10特征库的部分特征信息展示内容。

所述步骤二中构建多层次特征理论模型包括：

步骤二十一，对特征库的特征进行逻辑描述，即表示特征库中原子特征和复合特征的实体信息和逻辑关系，并对归纳得到的特征库，进行有标准依据的特征分解。具体如下：

如图5所示，首先从显示、位置、概念角度进行分解，其中“词法”、“语法”、“语义”等是从概念角度进行层次划分的依据。同理，也可以从显示和位置角度进行这样的划分。不同的层次划分依据进行不同角度的划分，分解可以在某个中间层次上停止，得到对应的复合特征(例如可以得到“字体”这样的复合特征)，也可以一直分解下去得到对应的原子特征(例如可以得到“小数点”这样的原子特征)。

如图6所示，特征分解需要有一定的逻辑表示，但依据并不唯一，以商品名称特征为例，可以使用切片的方式将多层次特征模型在逻辑上表示为树形结构。是基于多层次特征模型，商品名称的特征分解示例。从图中可以看出，在整理得到特征库后，此案例是通过从显示、位置、概念角度分解文本特征的。对于一个抽取任务(例如抽取商品名称)，首先从概念，名称含有复合特征数字，向下匹配含有原子特征整数等；然后从显示角度含有复合特征字体，向下匹配含有原子特征颜色等；接着从位置角度含有复合特征标签，再向下匹配含有复合特征标题标签和原子特征h1等。

另外，当有一个新的抽取任务(例如抽取商品价格)时，还是按照此方式进行特征分解 (从显示、位置、概念角度)，只是把第二层的复合特征是标题改成是价格，然后继续向下分解。

多层次特征模型提供了特征可变性的机制。特征的可变性表现包括：根据不同领域的需求新增特征和参数化方法；删除不再使用的特征和参数化方法；还有，由于特征自身具有的变化性，即一个特征由于封装了不同的细节的参数化方法而体现出的具有不同行为特点的特征，因此，需要在有必要时对其进行更新。基于以上操作，可获得领域无关或领域弱相关的同样包含原子特征和复合特征的特征集合。

步骤二十二，以特征集合中的特征为基本对象，面向特征进行建模，设计具有明确性、层次性、可扩展性的特征模型。本发明中，对具有领域相关性的特征进行降解，将特征分为复合特征(由一个或多个原子特征以某种形式或逻辑构成的特征，具有领域特点)和原子特征(不包括任何其他特征的独立特征，不具有或仅具有少量的领域特点)，通过降低特征的领域相关性，减少信息抽取方法的领域依赖性。在建模中，特征的分解可以包含多个层次，即一个特征从不同的方面进行分解可能形成多个子特征。与此同时，这些子特征同样可以进行进一步的分解，由此形成多层次、可扩展的形式。基于此，本发明所提出的模型名称为多层次特征模型。

步骤二十三，基于步骤二十二的多层次特征模型，将跨领域信息抽取系统从概念上分为实现层、多层次特征模型层、抽取目标层三个层次。如图7基于多层次特征模型的信息抽取概念模型示意图所示，抽取目标层表示基于多层次特征模型完成不同的抽取任务。多层次特征模型层首先是对特征库的特征进行逻辑描述，即表示特征库中复合特征和原子特征的实体信息和逻辑关系：需将收集、分解得到的复合特征向下分解为原子特征，向上与原子特征一同通过特征选择和组合提供给抽取目标层使用；其次是对特征进行管理，包括添加新的特征或参数化方法，删减不合理的特征，以及优化特征的参数化方法，并提供特征的查询和参数化方法的下载。此外，需根据不同的信息抽取任务对特征库中的特征进行适应性分析评价，为抽取目标层提供特征的选择和组合。实现层则为特征层和抽取目标层的提供了标准实现接口，例如特征参数化。基于以上分层处理机制，降低信息抽取操作的耦合性，提高模型灵活性。

所述步骤三中特征适应性评价包括：

步骤三十一，利用TF-IDF思想来评估单个特征对样本和领域的重要程度。使用不同信息抽取应用的样本对特征进行适应性评价，所用到的特征评价方法主要选用单个特征的准确率，召回率，F值，以及某个特征对某个领域样本的匹配度和区分度。其中，召回率是指抽取出的信息中正确的占应抽取出信息数的百分比，其计算公式为：

F值为召回率和准确率的加权平均值，其计算公式为：

步骤三十二，在步骤二中经多层次特征模型优化后的特征库中，将特征分成概念特征、位置特征和显示特征，基于步骤三十一中的公式，经过多次实验迭代，取得较好匹配度和区分度的值后，来进行特征领域适应性分析。以电商网页为例，概念特征有商品型号、特殊字符、字数目、人名地名、时间等；位置特征有位置，深度，路径等；显示特征有字体大小、字体族别、字体权重、字体颜色、边距、父节点、兄弟节点、自身节点等。

所述步骤四，即本实施例根据面向跨领域的信息抽取多层次特征模型实现的信息抽取特征评价系统。对该实施例进行的具体步骤如下：

如图3所示，本发明的信息抽取特征评价系统的各个模块之间需要进行数据交互。该系统需要不断的更新特征模型，包括添加新的特征或参数化方法，删减不合理的特征，以及优化特征的参数化方法，并提供特征的查询。基于这些目标，本发明系统设计了特征模型的可变性管理界面，包括(1)原子特征管理界面，该界面出了所有原子特征的部分截图，其中，第一列为特征的名称，第二列对特征进行了解释，第三列给出了特征的来源；(2)特征管理界面，该类型特征可以通过其孩子特征(即原子特征)拼接的方式获得，可对其执行增、删、改、查操作，使得特征之间富有组织性、层次性；(3)网页样本空间管理界面，可以进行网页分析与处理，管理样本网页，以在对特征的跨领域适应性研究时，选取不同网页类型和文本主题的网页，形成标准样本库。

本发明的信息抽取特征评价系统基于多层次特征理论模型之上，提供给用户以下几个功能模块：特征显示模块、特征管理模块、网页浏览和页面处理模块和网页特征识别匹配与参数化模块。其中，

网页浏览和页面处理模块：实现用户对样本页面的简单浏览和标记功能，它是需要用户与系统进行交互的一个模块。用户可以通过该模块在目标网页上面对自己感兴趣的信息直接进行标记，这里的标记使用jsoup技术实现了一种映射机制，网页将会在这里被转换成DOM 树并储存在内存中，用户标记的信息则将会映射到DOM树中对应的结点，图8给出了映射机制的示意图。

网页标记模块的映射流程：当用户对网页进行标记时，系统记录下标记的信息和其在网页中已出现的次数。随后，系统将网页解析成DOM树并进行遍历，结合正则表达式，直到找出含有相同信息项的结点为止(内容和出现次数均满足条件)，图9给出了映射机制的具体流程图。

网页特征识别匹配模块：负责在页面处理模块生成的DOM树中识别匹配信息的相关特征，主要还是使用DOM树的遍历和正则表达式匹配相结合的方法来进行，其中特征包含显示特征、位置特征以及概念特征。而特征参数化模块基于多层次特征模型，使用样本库中的样本，对特征进行参数化。

特征参数化模块：基于多层次特征模型，使用样本库中的样本，对特征进行参数化。特征参数化主要有两个目的：第一，方便后面进行进一步结合特征评价，给予用户特征推荐(特征已参数化)。第二，直接提供给用户参数化后的特征用于机器学习，这两方面都给用户省去了大量的工作。

Claims

1.一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法，其特征在于，具体操作步骤如下：

2.根据权利要求1所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法，其特征在于，所述的步骤二的具体方法为：

步骤二十一，对特征库的特征进行逻辑描述，即表示特征库中原子特征和复合特征的实体信息和逻辑关系，并对归纳得到的特征库以特征分解的方式，获得领域无关或领域弱相关的同样包含原子特征和复合特征的特征集合；

步骤二十二，以特征集合中的特征为基本对象，面向特征进行建模，设计具有明确性、层次性、可扩展性的多层次特征模型；

步骤二十三，基于步骤二十二的多层次特征模型，将跨领域信息抽取系统从概念上分为实现层、多层次特征模型层、抽取目标层三个层次，以降低信息抽取操作之间的耦合性。

3.根据权利要求1所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法，其特征在于，所述的步骤三的具体方法为：

步骤三十一，利用TF-IDF思想来评估单个特征对样本和领域的重要程度，使用不同信息抽取应用的样本对特征进行适应性评价，所用到的特征评价方法主要选用单个特征的准确率、召回率、F值以及某个特征对某个领域样本的匹配度和区分度；其中，召回率是指抽取出的信息中正确的占应抽取出信息数的百分比，其计算公式为：

准确率是指抽取的信息中正确信息所占的百分比，其计算公式为：

F值为召回率和准确率的加权平均值，其计算公式为：

匹配度为某一个给定的特征在特定网页样本中出现的次数归一化后的值，其计算公式为：

步骤三十二，在步骤二中经多层次特征模型优化后的特征库中，将特征分成概念特征、位置特征和显示特征，基于步骤三十一中的公式，经过多次实验迭代，取得较好匹配度和区分度的值后，来进行特征领域适应性分析；

步骤三十三，使用样本对步骤三十二中评价值较高的单个特征进一步对不同领域进行评价分析，观察其在不同抽取问题上的表现，以找出通用的特征，方便以后快速重复使用；

4.根据权利要求1所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法，其特征在于，所述的步骤四的具体方法为：

步骤四十一，实现步骤二中的多层次特征理论模型以及用户交互，即存储从信息抽取特征建模相关文献中收集到的特征，并对特征进行分析、总结、降解和集成显示，构建特征库、样本库；

步骤四十二，为特征模型中的每个特征实现参数化方法并存入模型中，并对特征进行层次化的可变性管理，包括特征增加、删减、更新、查找；

步骤四十三，基于特征库，实现信息抽取特征评价系统，构建特征显示模块、特征管理模块、网页浏览和页面处理模块、网页特征提取模块以及网页特征识别匹配与参数化模块，以针对某个特定的特征，分析并评价该特征对不同领域问题的适应性；针对某个具体的信息抽取任务，便捷的查找可能适用的特征组合；

5.根据权利要求4所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法，其特征在于，所述步骤四十二的进行层次化的可变性管理，能够不断的更新特征模型，包括添加新的特征或参数化方法，删减不合理的特征，以及优化特征的参数化方法，并提供特征的查询，并结合样本进行测试验证。

6.根据权利要求4所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法，其特征在于，所述步骤四十三的特征显示模块向用户展示特征模型特征库中所包含的特征，直观的显示层次化的特征模型，包含复合特征和原子特征。

7.根据权利要求4所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法，其特征在于，所述步骤四十三的特征管理模块提供用户界面，对特征库中的特征进行管理。

8.根据权利要求4所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法，其特征在于，所述步骤四十三的网页浏览和页面处理模块作为用户与系统进行交互的一个模块，实现用户对样本页面的简单浏览和标记功能，该模块对目标网页进行显示，让用户能够在上面对自己感兴趣的信息直接进行标记，并利用映射机制建立用户标记信息与网页DOM树的对应关系。

9.根据权利要求4所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法，其特征在于，所述步骤四十三的网页特征提取模块负责在页面处理模块生成的网页DOM树中识别匹配信息的相关特征，主要还是使用DOM树的遍历和正则表达式匹配相结合的方法来进行，主要包含显示特征、位置特征以及概念特征。

10.根据权利要求4所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法，其特征在于，所述步骤四十三的网页特征识别匹配与参数化模块基于多层次特征模型，系统会识别匹配出样本中的特征，并使用特征模型中的参数化方法对特征进行参数化计算，最后对样本进行适应性评价；其中，对适应性评价好的特征进行标记，以便后续进一步结合特征评价，给予用户特征推荐，并提供给用户参数化后的特征用于机器学习。