CN102314507B

CN102314507B - 一种中文命名实体识别歧义消解方法

Info

Publication number: CN102314507B
Application number: CN 201110265457
Authority: CN
Inventors: 王理; 潘守慧; 邓卫国; 王思远; 于珊; 施慧斌
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-09-08
Filing date: 2011-09-08
Publication date: 2013-07-03
Anticipated expiration: 2031-09-08
Also published as: CN102314507A

Abstract

一种中文命名实体识别歧义消解方法，属于命名实体抽取领域，该方法包括以下步骤：(1)首先本发明采用特征归纳法来减少特征个数，即通过训练学习让其分类器自动去选择有意义的特征。(2)在选取特征后，通过Viterbi算法从CRF模型学习中选择N-BEST最佳标记序列，也就是选出观测序列的N个概率最大的标记序列。(3)考虑中文命名实体出现的频率及其词长，该方法采用改进的贪婪算法进行歧义消解，从而得到实体标记序列。

Description

一种中文命名实体识别歧义消解方法

技术领域：

本发明属于命名实体抽取领域，特别涉及一种中文命名实体识别歧义消解方法。

背景技术：

针对WEB海量的信息，如何快速有效地找到用户解决问题所需要的知识。随着互联网技术的不断发展，互联网已经成为重要的信息源。面对海量的WEB信息，人们仍然面临着知识匮乏的困境。

目前绝大多数网页是用HTML编写的，而HTML中的标签仅仅刻画了数据的表达方式，并没有刻画数据的语义信息，这使得计算机很难理解Web上的信息。面对着海量的信息，人们只能通过搜索引擎等工具执行基于关键字的查找，而搜索引擎以网页地址的超链接和网页内容摘要的形式返回各种查询结果。人们通过阅读大量的WEB文档来获取想要的信息，而其中一些网页地址链接根本就不是用户需要的。虽然信息检索技术的出现对解决WEB海量信息获取问题起到了很大的作用，但是仅仅对文本进行关键词检索已经不能满足人们很多的应用需求。因此作为信息检索的一个分支，信息抽取技术得到了学术界的重视。信息抽取的目的是通过自然语言处理等方法将人们可读的非结构化文本转变为机器可读的结构化文本，特别是从各种信息源中抽取到用户感兴趣的实体、事件以及实体之间的关系等。而从信息源中抽取出各种实体的技术称为命名实体识别技术，命名实体识别技术是信息抽取研究的重要内容之一。命名实体是信息的主要载体，所以命名实体识别技术的好坏对信息抽取结果有着重要的影响。从广义上理解，命名实体可以是某个特定领域中的专有知识，电影名称，书名，人名，地名，组织机构名称等专有名词，可以概括为用户想要获取的各种关键信息；从狭义上理解命名实体是指人名，地名，组织机构名称等专有名称。

命名实体的识别方法主要包括两大类：基于规则的方法和基于统计的方法。基于规则的方法是命名实体识别中最早使用的技术，命名实体识别依赖于知识库和词库。知识库是通过人工而建立的抽取规则库，而词库通常包括常用姓氏、常用组织机构名称的后缀，常用地名的后缀等。采用这种方法的系统比较多，一般都是针对不同类型的命名实体识别使用不同的规则，但是随着时间的发展，新的实体名称大量涌现，需要人工不断添加规则库。此外，有些规则本身就是有一定的局限的，对于那些比较生僻的地名和人名还是无法进行正确识别的。相对基于规则的抽取技术，基于统计的方法利用完全或部分标注的语料进行训练，语料的标注可以通过半自动的方法完成。因此较小规模的训练可以在短时间以及接受人力代价的情况完成。同时，基于统计方法事先的系统只经过较少的改动就可以移植到新的领域中去，只需要利用新领域的语料重新训练即可。目前广泛应用于命名实体识别的统计方法主要有：隐马尔科夫模型(HMM)，条件概率模型，最大熵模型(MEMM)，条件随机场模型(CRF)等。基于规则的方法需要人工参与，并且具有领域性，难于移植；而基于统计的方法适应性较好，只要少量的人工参与，但是需要大量的训练数据时，需要花费大量的时间和存储空间。所以比较理想的解决方法是结合两种方法的优点，用于命名实体识别，这种方法是基于混合的命名实体识别方法，目前也得到了广泛的应用。

发明内容

本发明提供了一种中文命名实体识别歧义消解方法。本发明采用的技术方案包括以下步骤。

(1)通过特征归纳的CRF算法选取有意义的特征来减少特征个数。

(2)采用修正的Viterbi算法来从基于特征归纳的CRF算法学习结果中选择N-BEST最佳标记序列，也就是选出观测序列x的N个概率最大的标记序列。

(3)通过对这N个标记序列的比对，找出其中标记不一致的部分，并认为这部分之所以出现歧义切分是因为对实体边界及其类型界定的不同，导致标记结果出现不一致，转步骤4。如果一致，则不用进行歧义消解，直接得到最终的标记序列。

(4)从N个最佳候选序列中找出不一致部分并找出其对应的观测子序列x_s，采用基于改进的贪婪算法进行歧义消解。得到最终的标记序列。

对于步骤1，其实现过程为：

(1)考虑一组最新提供的特征，包括原子特征和组合特征。

(2)只选择那些将会大大提高似然概率的候选特征，提高似然概率值不低于设定的阈值(threshold)。

(3)训练特征的权重。

(4)重复执行步骤(1)-(3)直到选完所有的特征。

步骤(2)在进行Viterbi算法选择最佳标记序列之前，考虑了新加入特征的效果，从而定义新的概率模型，新的模型中加入了新的特征函数g和新的权重μ，这样概率模型就变为：

P_{Λ + μ} (y | x) = \frac{P_{Λ} (y | x) \exp (Σ_{t = 1}^{T} μg (y_{t - 1}, y_{t}, x, t))}{Z^{'} (x)}

其中Z′(x)为归一化因子，其完整形式为：

Z^{'} (x) = \underset{y}{Σ} P_{Λ} (y | x) \exp (Σ_{t = 1}^{T} μg (y_{t - 1}, y_{t}, x, t)

假设当我们估计新特征对似然函数的影响时，原先模型中那些特征函数的权重是不变的，这样我们估计新增加的似然概率为：

G_{Λ} (g, μ) = L_{Λ + μ} - L_{Λ}

= Σ_{i = 1}^{M} \log (\frac{\exp (Σ_{t = 1}^{T} μg (y_{t - 1}, y_{t}, x, t))}{Z^{'} (x)}) - \frac{μ^{2}}{2 σ^{2}}

其中训练集为{(xⁱ，yⁱ)：i＝1...M}，新的似然函数L_Λ+μ为：

L_{Λ + μ} = Σ_{i = 1}^{M} P_{Λ + μ} (y^{i} | x^{i}) - \frac{μ^{2}}{2 σ^{2}} - \underset{k}{Σ} \frac{λ_{k}^{2}}{2 σ^{2}}

为了估计参数μ，使用拟牛顿法进行迭代并求解计算出G_Λ(g，μ)的最大值。

在通过修正的Viterbi算法从CRF模型学习结果中选择N-BEST最佳标记序列，也就是选出观测序列x的N个概率最大的标记序列。通过对这N个标记序列的比对，找出其中标记不一致的部分，并认为这部分之所以出现歧义切分是因为对实体边界及其类型界定的不同，导致标记结果出现不一致。所以在使用N-BEST最佳标记序列找出歧义切分位置时，需要设定最优标记序列概率值的阈值Pro(Threshold)。如果最优标记序列的概率值高于阈值Pro，我们就认为该最优标记序列就是最好的切分结果；反之，如果最优标记序列的概率值低于阈值Pro，就从N个最佳候选序列中找出不一致部分并找出其对应的观测子序列x_s，然后再用改进的贪婪方法对x_s进行重新标记得到最终的切分结果。

改进的贪婪方法基本原理是通过构建赋权无环有向图G，然后求解权重最大的路径。其具体实现具体步骤如下：

(1)将不一致观测子序列x_s中字的个数记为L_s，则G的顶点的个数为L_s+1。一个个单字C_i的有序组合成构成G的边{E_ij}，其中1≤i≤L_s，2≤j≤L_s+1，边E_ij表示字序列C_i...C_j-1组成的词，也就是E_ij实际上是一个词，词长为L_W＝j-i。若i＝j-1则表示字C_i单独成词。由G的定义可知，G中有向边的个数为

(2)为每个词构成的边E_ij赋权值W_ij，其中W_ij和词E_ij的出现频率相关，显然可知词E_ij的词长越长，其在文本中出现的频率就会不大于比它词长更短的词，也就是短词出现的频率一定会大于等于包含该词的长词的词频，所以我们认为词长影响着词的权重W_ij。设词E_ij在测试数据中出现的频率为F_ij，那么词的权重E_ij为：

W_{ij} = F_{ij} L_{W}^{m}

其中m表示词长的扩大级数。

(3)采用贪婪算法求出G中最长的权重路径P^*，路径P_k中词边所组成的字序列必须和x_s完全一样，建立的模型为：

P^{*} = \max_{P_{k} &Element; G} P_{k}

(4)组成路径P^*中的边是x_s的最终切分结果，把这个切分结果和标注一致的部分进行整合，就得到观测序列x最终的切分结果。

本发明的优点体现在以下两个方面：首先该方法提出的基于特征归纳的步骤可以有效降低模型训练的时间复杂度；其次，该方法可以提高中文命名实体歧义消解精度。

附图说明：

图1基于特征归纳法的CRF模型求解过程

图2中文命名实体识别歧义消解过程

图3最佳实体抽取在N上的分布

具体实施方式

本发明的一个实施例，使用的训练语料库来自于MSRA Bakeoff 2003，设计了五个特征模板，实验时不仅使用了上下文多个字的位置信息，还使用了上下文字的类型信息，以丰富特征模板所包含的信息。训练语料共有46364个句子，其中命名实体的总量为75059个，也就是平均每个句子有1.6个命名实体。测试语料共有4365个句子，其中命名实体的总数为6190个，平均每个句子有1.4个命名实体。语料库是以XML文档形式存储。在实验的过程中电脑的CPU为酷睿2双核，主频2.4GHZ，内存为1G，操作系统为RedHat 9.0Linux，使用的CRF模型训练工具为CRF++-0.54。

在训练时使用的特征模板如表1所示，在实验中一共使用了五个特征模板，其中模板T_a和T_b都使用了上下文的三个字特征，即前一个字，当前字，下一个字以及这些字的二元组合特征，而模板T_b在T_a的基础上使用了连续的三个字串特征。模板T_c使用了上下文的五个字特征，即前两个字，前一个字，当前字，下一个字，下两个字以及这些字的二元组合特征。特征模板T_d和T_e除了使用上下文三个字的位置特征外，还考虑前一个字和当前字的标记特征(Token)T_-1T₀。字的标记特征有三种，一种是字为命名实体的首字，一种是字为命名实体的非首字，还有一种就是字为非命名实体，即该字不在命名实体中。在训练的过程中，训练工具会根据设计的特征模板自动生成相应的特征函数。然后通过采用特征归纳法，根据特征的似然函数贡献值过滤那些贡献度低的特征，从而降低训练的复杂度，提高训练的效率。

根据训练所设计的特征模板可以看出，在训练语料时，我们不仅考虑了上下文字的位置特征信息，而且还使用了上下文字的标记类型特征信息，这样使得训练时有了更多的特征信息。之所以没有在模板T_c的基础上再使用更多字的组合特征是因为在实验中发现，当模板中的特征过多时，不但训练时间呈倍增加，而且训练所得的效果也降低了，所以在训练时就没有再引入更加复杂的特征模板。

表1 训练语料库的特征模板

模板名称	一元特征	多元特征
			T_a	C_n，n＝-1，0，1	C_nC_n+1，n＝-1，0；C_-1C₁
T_b	C_n，n＝-1，0，1	C_nC_n+1，n＝-1，0；C_-1C₁；C_-1C₀C₁
			T_c	C_n，n＝-2，-1，0，1，2	C_nC_n+1，n＝-2，-1，0，1；C_-1C₁
T_d	C_n，n＝-1，0，1；	C_nC_n+1，n＝-1，0；C_-1C₁；T_-1T₀
			T_e	C_n，n＝-1，0，1；	C_nC_n+1，n＝-1，0；C_-1C₁；C_-1C₀C₁；T_-1T₀

对表1中各个特征模板的实验结果进行评价的标准是准确率，召回率和F值。

在封闭测试的实验过程中，一共设置了5个特征模板，Fre阈值共设置了4组，分别为5，10，15，20；标记序列的置信度Pro阈值设置了9组，区间为0.1-0.9，以0.1递增；N-BEST中N的取值范围为1-10。

在封闭测试中，对于N-BEST命名实体抽取结果中有歧义部分，采用基于改进的贪婪算法消除歧义。在实验中我们发现，当命名实体的词长级数m阈值越大，越有利于长命名实体的消歧，m阈值越小越有利于短命名实体的消歧，所以在设置m阈值时，最好能够根据测试语料中命名实体的长短分布进行相应的调整。为了提高训练的效率，降低训练的复杂度，需要采用特征归纳法对那些对最大似然概率贡献小的特征函数也就是权重小的特征函数进行剔除。在使用CRF++训练工具进行训练时，我们通过设置特征出现频度Fre的阈值过滤对最大似然概率贡献小的特征，从而达到降低训练复杂度，提高训练效率的目的。在实验中我们发现，特征出现频度Fre阈值设置过大或者过小时都会降低命名实体抽取效果。

从表2中可以看出，特征模板T_b比T_a多了多元字串特征C_-1C₀C₁，但是特征模板T_b的命名实体抽取效果在相同的频度阈值Fre下都比T_a的抽取效果要好1％左右。通过特征模板T_a，T_b，T_c可以看出，使用五个上下文字的位置特征的命名实体抽取效果要好于使用三个上下文字位置特征。模板T_d和T_e除了使用上下文字的位置特征还使用了字的类型特征，命名实体抽取效果要好于仅仅使用字位置特征的T_a，T_b，T_c。表2是使用CRF++工具对测试语料进行命名实体抽取所得的结果，是本文改进命名实体抽取方法抽取结果的一个基本参照。从表2中这五个模板的实体抽取效果可以看出，特征模板对命名实体抽取效果的好坏有着重要的影响，而且一般来说特征模板的涵盖的上下文信息越多，实验抽取效果越好。

从表2可以看出，当特征出现频度Fre的阈值为10时，实体抽取效果达到最佳，其次是Fre为5时，而当Fre为15和20时，实体抽取的效果越来越差。这也说明在实体抽取实验中，采用特征归纳法是很有必要的，合适的Fre不但能够提高实体抽取的准确度而且能够降低训练的复杂度，提高训练效率。当然设置的阈值Fre最佳值跟训练语料库大小有关系，如果训练语料库比较大，Fre应该尽量取合适的较大值，反之如果训练语料库比较小，Fre应该尽量取合适的较小值，如果取值过大会过滤太多的有效特征信息，反而使实体抽取效果下降。

表2 CRF++命名实体抽取结果

在基于N-BEST实体抽取结果中，若置信度最大的标记序列其值高于阈值Pro，则以该标注序列作为最终的实体抽取结果，而对于那些最大置信度低于阈值的标注序列，先要从N个标注序列中找出标注不一致的部分，然后采用改进的贪婪算法进行消歧，表3是采用基于改进贪婪算法消除歧义后的最佳命名实体抽取结果。从表3可以看出，在模板T_a，T_b实体抽取效果不是很理想的效果下，通过采用改进的贪婪算法消歧，命名实体抽取改善的效果比较明显，最好的情况提高了7.05％。而模板T_c，T_d，T_e虽然也采用了贪婪算法进行歧义消除，但是实体抽取改善的效果不超过4％。这其中的原因在于，当实体抽取效果本身比较理想时，出现标注歧义的情况比较少，而实体抽取效果不是很理想的时候，出现标注歧义的情况比较多。

表3 基于改进贪婪算法的最佳命名实体抽取结果

在实验的过程中，我们发现当标记序列的置信度Pro阈值为0.2时，命名实体抽取结果的F值基本上要优于其他设置的Pro阈值。表3是特征模板T_a在Fre分别为5，10，15，20时，取不同标记序列置信度阈值下的命名实体抽取结果。从四幅子图中我们也可以看出当标记序列的置信度阈值Pro高于0.5以后，命名实体抽取结果比较差。分析其中的原因主要在于，最佳标记序列的置信度阈值Pro设置越大，需要处理的标记序列歧义情况就越多，而处理的过程中很有可能把一些正确的标记结果当成歧义部分处理，从而导致实体抽取效果下降。

如果在给定的模板，Fre以及Pro下，以N的取值从2-10为一组实验，本实验过程中一共有180组实验，然后从中找出该组实验中最佳的实体抽取结果其对应的N值，可以得到如图3所示的最佳实体抽取结果在不同N值中的分布图。从图3中可以看出，N-Best中的N基本上分布在[2，4]这个区间上，也就是说在消除歧义时，我们基本上只需考虑前4个最佳候选标记序列。此外，实验中我们还发现，当置信度阈值Pro比较小时，N-Best标记序列中的N取值要偏大，也就是Pro越小，需要考虑的最佳候选标记序列也越多。

最近一届的中文自然语言处理的Bakeoff是在印度举行的，测评项目主要包括中文分词，命名实体识别以及中文词性的标注。在本次测评活动中，参加MSRA训练语料库命名实体识别封闭测试的单位共有六家[57]，其中有一家单位进行了两轮封闭测试，与他们实验结果的比较如表4所示，其中b-1表示b单位第一轮封闭测试结果。从表4的实验结果对比中可以看出本文的实验结果还是比较好的，与最好的结果相差0.05％。通过对a参赛单位的方法进行研究发现，他们在封闭测试时采用两阶段CRF进行命名实体识别，在第一阶段实验后行实体抽取后得到一个命名实体列表；在第二阶段进行抽取时，除了考虑字的位置特征，字的标记类别特征以及实体类型特征，设计特征模板比较复杂，是以增加时间成本来提高命名实体识别的效果，与之相比本文命名实体抽取方法的实际可应用性更强。

表4 MSRA命名实体封闭测试结果对比分析

ID	F(％)
		a	92.81
b-2	90.78
		c	90.20
b-1	89.96
		d	89.86
e	85.50
		f	85.26
本实施最佳实验结果	92.76

Claims

1.一种中文命名实体识别歧义消解方法，其特征是该方法包括以下步骤：

（1）通过特征归纳的CRF算法选取有意义的特征来减少特征个数；

（2）采用修正的Viterbi算法来从基于特征归纳的CRF算法学习结果中选择N-BEST最佳标记序列，即选出观测序列x的N个概率最大的标记序列；

（3）通过对这N个标记序列的比对，找出其中标记不一致的部分，并认为这部分之所以出现歧义切分是因为对实体边界及其类型界定的不同，导致标记结果出现不一致，转步骤4；如果一致，则不用进行歧义消解，直接得到最终的标记序列；

（4）从N个最佳候选序列中找出不一致部分并找出其对应的观测子序列x_s，采用基于改进的贪婪算法进行歧义消解，得到最终的标记序列；

其中，步骤(1)实现过程为：

①考虑一组最新提供的特征，包括原子特征和组合特征；

②只选择那些将会大大提高似然概率的候选特征，提高似然概率值不低于设定的阈值；

③训练特征的权重；

④重复执行步骤①-③直到选完所有的特征；

步骤(4)基本原理是通过构建赋权有向无环图G，然后求解权重最大的路径，其具体实现具体步骤如下：

1）将不一致观测子序列x_s中字的个数记为L_s，则G的顶点的个数为L_s+1，一个个单字C_i的有序组合成构成G的边{E_ij}，其中1≤i≤L_s，2≤j≤L_s+1，边E_ij表示字序列C_i…C_j-1组成的词，即E_ij实际上是一个词，词长为L_W＝j-i，若i＝j-1则表示字C_i单独成词，由G的定义可知，G中有向边的个数为

2）为每个词构成的边E_ij赋权值W_ij，其中W_ij和词E_ij的出现频率相关，显然可知词E_ij的词长越长，其在文本中出现的频率就会不大于比它词长更短的词，即短词出现的频率一定会大于等于包含该词的长词的词频，所以我们认为词长影响着词的权重W_ij，设词E_ij在测试数据中出现的频率为F_ij，那么词E_ij的权重W_ij为：

其中m表示词长的扩大级数；

3）采用贪婪算法求出G中最长的权重路径P^*，路径P_k中词边所组成的字序列必须和x_s完全一样，建立的模型为：

4）组成路径P^*中的边是x_s的最终切分结果，把这个切分结果和标注一致的部分进行整合，就得到观测序列x最终的切分结果。

2.按照权利要求1所述的中文命名实体识别歧义消解方法，其特征在于步骤（2）在进行Viterbi算法选择最佳标记序列之前，考虑了新加入特征的效果，从而定义新的概率模型，新的模型中加入了新的特征函数g和新的权重μ，这样概率模型就变为：

其中Z′(x)为归一化因子，其完整形式为：

其中训练集为{(xⁱ,yⁱ):i＝1…M}，新的似然函数L_Λ+μ为：

为了估计参数μ，使用拟牛顿法进行迭代并求解计算出G_Λ(g,μ)的最大值。