CN101770453A

CN101770453A - 基于领域本体结合机器学习模型的汉语文本共指消解方法

Info

Publication number: CN101770453A
Application number: CN200810246639A
Authority: CN
Inventors: 黄河燕
Original assignee: HUAJIAN MACHINE TRANSLATION CO Ltd
Current assignee: HUAJIAN MACHINE TRANSLATION CO Ltd
Priority date: 2008-12-31
Filing date: 2008-12-31
Publication date: 2010-07-07

Abstract

本发明公开了一种基于领域本体结合机器学习模型的汉语文本共指消解方法，包括如下步骤：(1)构建完成领域本体；(2)输入待处理的汉语文本；(3)对步骤(2)中的汉语文本进行分词与词性标注处理；(4)将汉语文本中的命名实体分为常规命名实体和领域命名实体两类，利用步骤(1)中构建的领域本体通过形式化实例获取词性规则模板，结合CRF模型，针对领域命名实体进行识别处理；(5)针对领域命名实体之外的普通名词短语进行归并处理；(6)利用步骤(1)中构建的领域本体，获取语义类特征，结合机器学习模型，针对领域命名实体及普通名词短语进行共指消解处理。本汉语文本共指消解方法对人工成本要求较低，能够在短时间内获取高准确率的共指消解处理结果。

Description

基于领域本体结合机器学习模型的汉语文本共指消解方法

技术领域

本发明涉及一种针对汉语文本的共指消解方法，尤其涉及一种基于领域本体(Domain Ontology)、并结合机器学习模型的汉语文本共指消解方法，属于自然语言处理技术领域。

背景技术

众所周知，人们为了避免重复，习惯用代词、称谓和缩略语来指代前面提到的实体全称。例如，在文章开始处会写“华建机器翻译公司”(即一般意义上的组织机构名实体)，后面可能会说“华建机译”、“华建”等称谓(即组织机构名实体的等价表示)。这种指代现象被称为共指现象。共指现象在自然语言中起到了超链接的作用，使篇章主题更加突出，表述更加连贯与简洁；但它也在自然语言理解机制中增加了一种新的模糊成分，给自然语言处理带来了不确定性。虽然人们可以毫无困难地区分文章中实体的不同称谓，但是对于计算机来说，处理共指现象仍旧是一项非常困难的问题。

所谓共指消解是将现实世界中同一实体的不同描述合并到一起的过程。所涉及到的实体包括多种类型，可以是人名、地名、组织机构名等常规命名实体，例如：“张三”、“北京海淀区”、“华建机器翻译公司”，也可以是特定领域的领域实体，例如：“诺基亚6300”，表示电子产品领域中的一款手机(型号)。共指消解可以消除各同类实体间指代形式带来的不确定性，为计算机处理提供完整和正确的，特别是可读可操作的信息，避免上下文理解和关系关联错误，是自然语言处理、机器翻译、信息抽取、信息检索等领域的关键技术之一。随着大量涌现的基于篇章和真实文本处理的需求，共指消解在机器翻译、信息抽取等语言工程应用系统中作为关键的基础环节，发挥着非常重要的作用。

针对汉语文本的共指消解研究开始较晚。一般认为，汉语文本共指消解研究开始于二十世纪末，最早针对汉语文本的共指消解评测开始于2003年10月的ACE Phase3。目前，汉语文本共指消解技术仍然很不成熟，亟需进一步改进和提高。

另一方面，领域本体(Domain Ontology)是用于描述指定领域知识的一种专门本体。它给出了领域实体概念及相互关系、领域活动以及该领域所具有的特性和规律的一种形式化描述。简单地说，领域本体是一个由“本质知识”构成的知识库。领域本体在一个特定的领域中可以重用。

本体已经成为知识工程、人工智能以及信息系统等领域中一种重要的工具和方法论体系。它在知识的获取、表示、共享和应用等各个环节都具有重要的意义。本体是概念的形式化表达，因此共指关系的识别是与本体有着“天然”联系的任务，它潜在地能够为共指消解提供概念本质层面的支持。

但就申请人所知，目前尚没有基于领域本体再结合机器学习模型用于共指消解处理的成熟技术方案。

发明内容

本发明所要解决的技术问题在于提供一种基于领域本体结合机器学习模型的汉语文本共指消解方法。该方法利用了领域本体的特征以及对采用的机器学习模型没有特殊限定的特点，具有很好的可扩展性和可移植能力。

为实现上述的发明目的，本发明采用下述的技术方案：

一种基于领域本体结合机器学习模型的汉语文本共指消解方法，其特征在于：

(1)构建完成领域本体；

(2)输入待处理的汉语文本；

(3)对步骤(2)中的汉语文本进行分词与词性标注处理；

(4)将汉语文本中的命名实体分为常规命名实体和领域命名实体两类，利用步骤(1)中构建的领域本体通过形式化实例获取词性规则模板，结合CRF模型，针对领域命名实体进行识别处理；

(5)针对领域命名实体之外的普通名词短语进行归并处理；

(6)利用步骤(1)中构建的领域本体，获取语义类特征，结合机器学习模型，针对领域命名实体及普通名词短语进行共指消解处理。

其中，在所述步骤(1)中，所述领域本体通过阶段性层进法构建，所述阶段性层进法分为原型期阶段和进化期阶段。

所述原型期阶段分为四个步骤，依次完成领域本体构建工具选择及复用性分析，领域本体知识源选择及确定，领域本体知识分析，领域本体生成及表示工作。

所述进化期阶段分为两个步骤，分别完成领域本体的评价，领域本体的修正与完善工作。

所述步骤(4)中，所述词性规则模板通过领域本体的有限实例的形式化，再对形式化后的实例进行词性标注得到的，其中有限的实例作为领域本体种子，用来产生具有共性的词性组合规则。

所述步骤(4)中，CRF模型通过如下的步骤获得：首先在标注语料的基础上，采用L-BFGS算法进行模型的训练，获得CRF模型的参数；在训练获得的CRF模型的参数基础上，使用Viterbi动态规划算法进行解码。

所述步骤(6)中，所述语义类特征是指通过对领域本体实例进行特定标记标注获得的特征。

所述步骤(6)中，将所述语义类特征作为指代语和先行语的特征属性，生成特征向量，结合决策树模型，识别领域命名实体的共指关系。

更具体地，将指代语之前三个自然句内出现的名词短语作为先行语的候选集，根据先行语的候选集中候选项与指代语的特征属性构成的特征向量，判断两者是否存在共指关系。

本发明所提供的汉语文本共指消解方法在目前有效用于汉语共指消解处理标注语料严重匮乏的情况下，只需要较低的人工成本，通过利用极为有限的领域本体种子，经过简单的本体实例统计就可以获取词性规则模板与领域语义类特征；采用通用的机器学习模型，能够在短时间内获取高准确率的共指消解处理结果。同时，生成的领域本体能够为信息抽取语言工程应用提供抽取模式。

附图说明

下面结合附图和具体实施方式对本发明作进一步的说明。

图1是一个领域本体构建层次结构方框图，用来表示本发明所述方法中生成领域本体的不同阶段。

图2是一个流程示意图，用来表示本发明所述方法中实现领域命名实体识别处理的整个线性流程。

图3是一个流程示意图，用来表示本发明所述方法实现共指消解处理的整个线性流程。

其中，图1中，

1a说明领域本体生成原型期阶段中的前期准备步骤；

1b说明领域本体生成原型期阶段中的领域知识源的选择与确定步骤；

1c说明领域本体生成原型期阶段中的领域知识分析步骤；

1d说明领域本体生成原型期阶段中的本体构建与表示步骤；

1e说明领域本体生成进化期阶段中的本体评价步骤；

1f说明领域本体生成进化期阶段中的本体修正与改进步骤。

图2中，

2a表示真实源文本的输入处理；

2b表示针对全部文本的分词和词性标注处理；

2c表示主要针对分词和词性标注不一致性问题进行的校正处理；

2d表示结合机器学习模型的命名实体识别处理；

2e表示领域本体引入处理；

2f表示基于领域本体实例获取词性规则模板集处理；

2g表示结合获取的词性规则模板，针对领域命名实体，进行修正2d步骤识别结果的处理；

2h表示完成全部实体最终识别结果处理。

图3中，

3a表示真实源文本的输入处理；

3b表示针对真实文本的分词与词性标注处理；

3c表示针对领域命名实体进行的识别处理；

3d表示针对领域命名实体之外的其他名词短语进行的后处理；

3e表示面向领域命名实体及普通名词短语的共指消解处理。

具体实施方式

本发明的基本思路在于把语言学标注问题看作是关于本体的语义标注问题的特殊情况来看待。在共指消解中，将共指关系的标注形式转化为一项确定两个用特定本体概念表示的语言表达之间的语义关系的任务。通过建立领域本体，统计实例获取领域实体语义类特征，进而建立一种等价关联，实现实体间的共指消解处理。在进行共指消解处理前期，直接利用有限的领域本体种子获取词性规则模板完成领域命名实体的识别，为共指消解处理提供高性能的候选实体短语。

在本发明中，将命名实体分为常规命名实体和领域命名实体两类。其中常规命名实体是指包括人名、地名、组织机构名、时间、日期、数字等在内的命名实体，领域命名实体在一般的共指消解处理中被作为普通名词短语来对待，但在本发明中，领域命名实体直接作为候选名词短语，不再执行类似常规命名实体的名词短语识别步骤。根据应用领域要求，建立领域本体，通过对有限的领域本体实例(在本发明中称作“领域本体种子”)进行直接的词性规律统计，抽取词性规则模板，并标注领域实体语义类特征标记DNE。结合机器学习模型，完成融合词性规则模板的命名实体识别。利用已经标注了领域语义类特征的领域本体种子，动态完成真实文本中的全部领域命名实体的语义类特征标注。结合统计机器学习模型引入领域语义类特征，完成领域命名实体的共指消解训练，结合决策树模型生成一颗分类能力强的决策树，最终完成面向领域的真实文本的共指消解处理。此处的领域语义类特征是指通过对领域本体种子，进行特定标记标注获得的特征。

具体而言，本发明首先通过一种称为领域本体阶段性层进法(Two-Phase and Step-Up，简称为TPSU)的方法，借助本体构建工具构建完成一个面向特定应用领域的领域本体。下面详细说明TPSU法的具体实现步骤。

如图1所示，TPSU方法总体上分为两个阶段和六个步骤，其中两个阶段分别是原型期阶段与进化期阶段。六个步骤分别如下：

1a步骤用以进行前期准备，主要完成当前本体开发工具与环境、本体生成方法以及本体复用性考察的工作。

1b步骤用以确定知识来源。本发明主要依据数字化资源，因此这一步骤的工作，通过常规的词典、图书资源也能够有效获取。

1c步骤用于进行领域知识分析，完成实质上的领域概念化工作，主要包含对领域内类、属性的识别，同时包括领域内一般关系与特殊关系等明确化的工作内容。

1d用以在1c所确立的领域内类、属性以及对应实例上，进行本体生成和表示，主要通过本体开发工具逐一的完成本体所需各个成分要素的创建任务。

1e步骤完成生成领域本体评价，在本体构建达到一定规模之后，特别是进行了生成本体的应用之后，根据使用情况对本体进行评价。评价主要集中在本体实例的整体一致性、正确性、类属性冗余性上。

1f步骤完成本体修正与改进，根据1e步骤之评价结论，重复1c～1d的步骤，完成领域本体的更新与调整。主要集中在类层次属性的层级调整与类实例的归属调整上。

上述的1a～1f步骤中，1a～1d步骤属于原型期阶段，1e～1f步骤属于进化期阶段。

在领域本体的具体利用上，要通过形式化实例获取词性规则模板和语义类特征。具体而言，包括两个方面：第一个方面是将生成领域本体中有限的本体实例，直接形式化成为XML风格的独立文档，通过简单词频统计归类，获得不同本体核心概念类的实例集，然后用词性标注工具直接进行实例集中有限实例的词性，进而产生一个词性规则模板集。因为领域本体是领域知识的高度抽象，因此通过领域本体实例直接获取的词性规则模板集中的各个模板，具有全部领域命名实体的词性构成共性特征，再结合CRF模型，进行识别处理。第二个方面是先通过对有限的领域本体种子进行语义类特征的DNE特征标注，之后动态完成真实文本中的全部领域实体的语义类特征标注，结合决策树模型，引入该领域的语义类特征作为指代语和先行语的特征属性，生成特征向量，最终完成面向领域的真实文本的共指消解处理。

本发明描述的方法是将词性特征作为外部特征引入的，而通过领域本体获取外部特征的计算要远比人名、地名识别时定义外部词典容易得多，因为本发明在图1所示的阶段，生成的领域本体实例可以直接以各种形式从领域本体中导出，并根据限制条件任意组合。

图2显示了实现领域命名实体识别处理的整个线性流程。该过程的核心是引入词性规则模板，结合CRF模型，识别领域命名实体。其中图2中2a、2b和2c所示的步骤基本上是本领域的常规技术手段，在此就不详细赘述了。

在图2中2d所示的步骤中，针对除人名、地名、组织机构名外的领域命名实体，如电子类产品实体“Nokia6300”，本发明是基于改进的CRF(Conditional Random Fields，条件随机场)模型完成的。

传统的CRF模型是一种无向图模型，对于指定的节点输入值，它能够计算指定的节点输出值上的条件概率，其训练目标是使得条件概率最大化。线性链是CRF模型中常见的特定图结构之一，它由指定的输出节点顺序链接而成。一个线性链与一个有限状态机相对应，可用于解决序列数据的标注问题。

本发明在具体改进CRF模型的过程中，没有采取一般的一次性标注策略，而是通过引入三个粗分类标注符：B、I、O，先将领域实体的识别工作转变为一个分类问题，其中各个标注符的含义为，B：可能的领域实体开始；I：可能的领域实体内部；O非领域实体成分。作为一个示例，一个典型的标注结果是：索爱/nz/MPB K810/nx/MPI，其中MPB表示本发明涉及的手机类电子产品的领域实体开始；MPI表示本发明涉及的手机类电子产品的领域实体内部。类似的标注，还有例如DCB、DCI等表示数码相机类电子产品领域实体开始及内部。

在2d步骤中，本发明将CRF模型作为领域命名实体识别的机器学习模型。这是因为最大熵Markov模型和CRF模型能够综合利用字、词、词性等多层次的资源。同时，对于长程关联有很好的描述能力。这些特点对于像侧重较长范围内处理的领域实体的识别任务相当重要，同时也是隐马尔可夫等生成模型所不具备的。本发明考虑到最大熵Markov模型中尚存在着标注偏置问题，所以选择了能避免该问题的CRF模型。

在模型训练中，首先在标注语料的基础上，采用L-BFGS算法进行模型的训练，获得了CRF模型的参数；在训练获得的CRF模型的参数基础上，使用Viterbi动态规划算法进行解码。

另一方面，如图2所示，引入领域本体进行处理，基于领域本体实例获取词性规则模板集，结合获取的词性规则模板，针对领域命名实体，进行修正2d步骤识别结果的处理，然后完成全部领域命名实体最终识别结果的处理。此处的词性规则模板的获取是通过领域本体的有限实例的形式化，再对形式化后的实例进行词性标注得到的，其中有限的实例作为领域本体种子，以便用来产生具有共性的词性组合规则。

图3显示了针对领域实体进行共指消解识别处理的具体步骤。其中，3a和3b都是常规的步骤，在此就不详细说明了。

本发明在命名实体步骤生成的两类实体一常规命名实体和领域命名实体的标记形式上是各自独立的。也就是说，图3描述3c步骤是处理传统意义上的名词短语识别工作，与一般共指消解名词短语生成方法的区别在于，这一识别是建立在命名实体识别基础之上，起点更高。领域命名实体直接作为候选名词短语，不再执行类似常规命名实体的名词短语识别步骤。

因此，本发明处理的名词短语主要有以下三种表现形式：一种是形式完整的领域实体(作为示例，如手机类电子产品“多普达P860”)；一种是形式不完整的领域实体(作为示例，如手机类电子产品“P860”)；一种是普通名词(短语)及其并列形式。

根据存在共指关系的实体情况，本发明定义了八种名词短语的语义类别：分别为DNE、PER、LOC、ORG、TIM、PRO、GEN、OTH，含义依次是领域实体类、人名实体类、地名实体类、组织机构名实体类、时间日期实体类、代词形式实体类、普通名词类、其他非上述实体类。其中，DNE语义类的获取是通过对领域本体种子的先行标注，后再利用词频及词性规则模板组合规律，动态标注生成的。作为一个示例，一个典型的语义类标注文本为：“{索尼/nz/MPB爱立信/nz/MPI K810/nx/MPI}DNE{延续/v/O}OTH{了/u/O}OTH{索尼/nz/MPB爱立信/nz/MPI K800/nx/MPI}DNE{的/u/O}OTH{经典/n/O}GEN{直/a/O}/OTH{板/ng/O}OTH{造型/n /o}/GEN”。

3d步骤用于完成图2所示的命名实体中，其他类型名词短语的归并处理，将包括人名、地名、组织机构名、领域实体名完成不同语义类标注，并根据设定的规则进行同语义类实体或者符合规则标记的名词(短语)的归并。

在图3中，3e步骤采用决策树模型进行针对领域命名实体的共指消解。决策树(Decision Tree)模型是督导机器学习模型中常用的一种，对噪声数据有很好的健壮性且能够学习析取表达式。用决策树表达知识，具有描述简单、分类速度快的特点，很擅长处理非数值型数据，不需要假设先验概率分布。决策树是一个类似于流程图的树状结构。树的最顶层的节点称为根节点。每个内部节点都包含一个父节点，一个或者几个子节点。若节点没有子节点，则称其为叶子节点。每个节点对应一个类别标识，每个内部节点都对应一个用于划分数据集的属性X_i称为判定属性或者划分属性。每个内部节点都有一个划分的判断规则q_j，如果X_i是连续属性，则q_j的形式为X_i＜x_i，其中x_i∈X_i，x_i就是节点n的划分点；如果X_i是离散属性，则q_j的形式为x_i∈Y_i，其中

Y_i成为节点的n的划分子集，节点n的判定属性和判定规则构成了节点n的划分标准。

在本发明中，采用决策树模型进行共指消解，具体流程是：

把指代语之前一定范围内(本发明限定在三个自然句内)出现的名词短语作为先行语的候选集，根据先行语候选集中候选项A与指代语B的特征属性构成的特征向量，判断两者是否存在共指关系。A和B的特征向量x∈X构成一个实例，其中X为所有向量构成的集合空间；设y∈Y＝{+，-}为实例的类别，其中“+”表示正例，即：A和B存在共指关系；“-”表示反例，即A和B不存在共指关系。(x，y)表示所有标注结果的实例，N＝{(x₁，y₁)，…，(x_n，y_n)}表示所有训练实例，决策树模型根据训练集S产生分类器c：X→Y，实现共指关系判断。

采用决策树模型进行共指消解处理，构建性能良好的分类器是关键，而这其中选择合理的特征属性构成特征向量是一个首要问题。本发明针对三个自然句范围内的先行语及候选语，分别选取了包括语义类、短语信息、人称、性、数特征等在内的15个特征属性，用于生成特征向量。

需要说明的是，上述的机器学习模型仅仅作为一个示例。在不脱离本发明的范围和精神的条件下可以根据实际需要使用其他机器学习模型。

Claims

1.一种基于领域本体结合机器学习模型的汉语文本共指消解方法，其特征在于：

(1)构建完成领域本体；

(2)输入待处理的汉语文本；

(3)对步骤(2)中的汉语文本进行分词与词性标注处理；

(4)将汉语文本中的命名实体分为常规命名实体和领域命名实体两类，利用步骤(1)中构建的领域本体通过形式化实例获取词性规则模板，结合条件随机场模型，针对领域命名实体进行识别处理；

(5)针对领域命名实体之外的普通名词短语进行归并处理；

2.如权利要求1所述的基于领域本体结合机器学习模型的汉语文本共指消解方法，其特征在于：

所述步骤(1)中，所述领域本体通过阶段性层进法构建，所述阶段性层进法分为原型期阶段和进化期阶段。

3.如权利要求2所述的基于领域本体结合机器学习模型的汉语文本共指消解方法，其特征在于：

4.如权利要求2所述的基于领域本体结合机器学习模型的汉语文本共指消解方法，其特征在于：

5.如权利要求1所述的基于领域本体结合机器学习模型的汉语文本共指消解方法，其特征在于：

6.如权利要求1所述的基于领域本体结合机器学习模型的汉语文本共指消解方法，其特征在于：

所述步骤(4)中，所述条件随机场模型通过如下的步骤获得：首先在标注语料的基础上，采用L-BFGS算法进行模型的训练，获得条件随机场模型的参数；在训练获得的条件随机场模型的参数基础上，使用Vit erb i动态规划算法进行解码。

7.如权利要求1所述的基于领域本体结合机器学习模型的汉语文本共指消解方法，其特征在于：

8.如权利要求1所述的基于领域本体结合机器学习模型的汉语文本共指消解方法，其特征在于：

9.如权利要求8所述的基于领域本体结合机器学习模型的汉语文本共指消解方法，其特征在于：

将指代语之前三个自然句内出现的名词短语作为先行语的候选集，根据先行语的候选集中候选项与指代语的特征属性构成的特征向量，判断两者是否存在共指关系。