CN104182423A

CN104182423A - 一种基于条件随机场的中文人名自动识别方法

Info

Publication number: CN104182423A
Application number: CN201310202667.5A
Authority: CN
Inventors: 吕钊; 高维维
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2013-05-27
Filing date: 2013-05-27
Publication date: 2014-12-03

Abstract

本发明提供了一种基于条件随机场的中文人名自动识别方法，通过对中文人名特征的研究，结合统计学的概率模型，构建出中文人名自动识别系统，通过对文本信息进行分词处理，基于条件随机场并结合上下文规则及人名可信度的方法，最后得到候选人名，借助局部统计算法对边界识别错误的人名进行修正，最终得到系统的识别结果，本系统大大降低了由于分词而产生的识别错误，较好的解决了其他命名实体识别为中文人名的情况，提高了识别效果。

Description

一种基于条件随机场的中文人名自动识别方法

技术领域

本发明涉及自然语言处理领域，具体地说是命名实体识别中的中文人名识别技术。

背景技术

中文人名主要包括中国人名、日本人名、外国音译人名等。中文人名的识别是中文命名实体识别的重要组成部分，同时也是信息挖掘、信息抽取、机器翻译、文本分类等研究领域重要的基础性工作。此外，在分词领域，绝大多数的未登录词是人名，中文人名的识别效果直接影响了分词的效果。中文人名识别问题的解决是提高中文文本自动分词精度的先决条件，识别效果有待提高。

有鉴于此，发明人提供了一种基于条件随机场的中文人名自动识别方法。

发明内容

针对现有技术中的缺陷，本发明提供了一种基于条件随机场的中文人名自动识别方法，克服了现有技术的困难，通过对中文人名特征的研究，结合统计学的概率模型，构建出中文人名自动识别系统。通过对文本信息进行分词处理，基于条件随机场并结合上下文规则及人名可信度的方法，最后得到候选人名。借助局部统计算法对边界识别错误的人名进行修正，最终得到系统的识别结果。本系统大大降低了由于分词而产生的识别错误，较好的解决了其他命名实体识别为中文人名的情况，提高了识别效果。

本发明提出了基于条件随机场(CRF)和上下文规则及人名可信度的方法(CRRM)进行中文人名识别。所采用的方法可以分为两个阶段，即训练阶段和识别阶段，预处理训练阶段包含CRF训练和获取规则集两部分，在CRF训练阶段，系统在训练语料库的基础上依次进行特征提取，特征选择和参数训练，最后得到CRF参数模型；另外利用基于转换的错误驱动的学习方法进行规则提取并最终获得规则集。CRRM人名识别过程，首先利用训练阶段设定的特征构建CRF模型并进行人名初识别，然后对CRF识别的结果进行预处理，再利用人名可信度模型、规则等对识别结果进行确认，最后利用局部统计算法对边界识别错误的人名进行了修正，并利用扩散操作召回系统中未被识别的人名。

根据本发明的一个方面，提供一种基于条件随机场的中文人名自动识别方法，包括以下步骤：

构建条件随机场模型；

获取人名规则集，首先利用初始状态的标注器来标注文本，接下来采用转换模板和目标函数，通过与已经正确标注过的参考语料相比较得到多条候选的转换模板，然后从中找出应用一条转换模板后可产生标注错误次数最少的转换式，作为一条新的标注规则作用到标注语料库，直到找不出这样的规则为止；

利用训练阶段得到的条件随机场模型对测试文本语料进行人名识别并输出每个标记的边缘概率；

对条件随机场的识别结果进行预处理；

对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别；

对于识别的潜在人名，利用训练阶段获取的人名规则集进行筛选，去除误识别的人名；

利用局部统计算法对边界识别错误的人名进行修正，并借助已经正确识别的人名进行扩散操作标记未被识别的人名；以及

扩散识别，对多次出现的一个人名根据不同位置进行分别识别。

优选地，所述构建条件随机场模型包括以下步骤：

对各标注语料进行相应的标记转换，使之符合条件随机场所使用的语料库格式，在此共定义了三组标注转换规则，每一组对应条件随机场的一类特征。

对标注转换后的语料进行特征提取，其中将特征分为四类：上下文特征、人名用字特征、边界词特征、字符特征。

选择特征模板，特征模板描述了我们在训练和测试过程中将会使用哪些特征，它为特征函数的生成提供了一个统一的模式，通过特征模板的使用可以使条件随机场方便的获得人名识别所需要的所有特征函数。

通过设置阈值来选择出现频次高于该阈值的特征：

F = {f | \underset{x, y &Element; Γ}{Σ} f (x, y) &GreaterEqual; K, f &Element; C}

其中Γ表示训练样本，C表示特征集，K即为设定的阈值。

优选地，所述获取人名规则集包括以下步骤：

利用条件随机场进行人名识别，识别结果作为错误驱动学习的训练语料库。

将人名识别结果和正确的人工标注结果进行比较，分析错误识别的案例，并总结规则。

依次将第二步总结的各条规则应用到人名识别结果的副本中，根据各条规则对人名识别正确率贡献的大小进行由高到低进行排序。

将贡献最大的规则作用到已经识别的文本重新进行人名标注，得到一个更新的已识别文本。

优选地，所述对条件随机场的识别结果进行预处理包括：

将条件随机场的识别结果转换为便于后续处理的格式；以及

对于转换后的结果，利用收集的中文词典采用简单的基于最长匹配的分词方法对转换后的结果进行词语切分。

优选地，所述中文词典由标准中文词集、冲突词集以及关联词集三部分组成；

标准中文词集包含的词既不能是人名，也不可以作为人名的部分出现，该词集将作为分词器的词集使用；

冲突词集包含的词可以作为人名的部分出现，而它本身又不是人名；

关联词集包括那些既可以是人名又可以是地名或其他实体名的词及其相关的表征词。

优选地，所述对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别包括：

将姓和名统一看待，其定义如下：

TP-Name代表外国音译人名；

S代表单个汉字的人名；

F、M、L分别代表外国音译人名首字、中字和尾字。

优选地，所述对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别还包括：并利用β来提高长字符串作为人名的可信度，β定义如下：

β = \{\begin{matrix} \sin (\frac{π * len}{12}) & if 2 \leq len < 6 \\ 1 & iflen &GreaterEqual; 6 \end{matrix}

则外国音译人名TP-Name的可信度P(TP-Name)定义如下：

P(TP-Name)＝P_f(F)*P_m(M)*P_l(L)*β

优选地，设定位于左右边界词之间及边界词之外的音译人名的可信度阈值分别为0.39和0.592。

与现有技术相比，由于使用了以上技术，本发明的一种基于条件随机场的中文人名自动识别方法通过对中文人名特征的研究，结合统计学的概率模型，构建出中文人名自动识别系统。通过对文本信息进行分词处理，基于条件随机场并结合上下文规则及人名可信度的方法，最后得到候选人名。借助局部统计算法对边界识别错误的人名进行修正，最终得到系统的识别结果。本系统大大降低了由于分词而产生的识别错误，较好的解决了其他命名实体识别为中文人名的情况，提高了识别效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明的第一实施例的，本发明的一种基于条件随机场的中文人名自动识别方法的流程图；以及

图2示出根据本发明的第一实施例的，本发明的一种基于条件随机场的中文人名自动识别方法的过程示意图。

具体实施方式

本领域技术人员理解，本领域技术人员结合现有技术以及上述实施例可以实现变化例，在此不予赘述。这样的变化例并不影响本发明的实质内容，在此不予赘述。

第一实施例

图1示出根据本发明的第一实施例的，本发明的一种基于条件随机场的中文人名自动识别方法的流程图。如图1所示，本发明的一种基于条件随机场的中文人名自动识别方法，包括以下步骤：

步骤S101：构建条件随机场模型。

步骤S102：获取人名规则集，首先利用初始状态的标注器来标注文本，接下来采用转换模板和目标函数，通过与已经正确标注过的参考语料相比较得到多条候选的转换模板，然后从中找出应用一条转换模板后可产生标注错误次数最少的转换式，作为一条新的标注规则作用到标注语料库，直到找不出这样的规则为止。

步骤S103：利用训练阶段得到的条件随机场模型对测试文本语料进行人名识别并输出每个标记的边缘概率。

步骤S104：对条件随机场的识别结果进行预处理。

步骤S105：对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别。

步骤S106：对于识别的潜在人名，利用训练阶段获取的人名规则集进行筛选，去除误识别的人名。

步骤S107：利用局部统计算法对边界识别错误的人名进行修正，并借助已经正确识别的人名进行扩散操作标记未被识别的人名。以及

步骤S108：扩散识别，对多次出现的一个人名根据不同位置进行分别识别。

步骤S101：构建CRF模型

本发明利用两个大规模的人工标注语料库作为训练语料库，他们分别是人民日报语料库和LCMC(The Lancaster Corpus of Mandarin Chinese)语料库。我们利用训练语料库得到CRF的参数模型。基本步骤如下：

第一步，对各标注语料进行相应的标记转换，使之符合CRF所使用的语料库格式，在此共定义了三组标注转换规则，每一组对应CRF的一类特征。

第二步，对标注转换后的语料进行特征提取，其中将特征分为四类：上下文特征、人名用字特征、边界词特征、字符特征，本系统收集的特征总结如下：

表1人名特征总结

第三步，选择特征模板，特征模板描述了我们在训练和测试过程中将会使用哪些特征，它为特征函数的生成提供了一个统一的模式，通过特征模板的使用可以使CRF方便的获得人名识别所需要的所有特征函数。本系统总结的部分特征模板如下：

NO.	模板
		T1	Character(n)，n∈{-2，-1，0，1，2}
T2	CPOS(n)，n∈{-2，-1，0，1，2}
		T3	PFamily(n)，n∈{-2，-1，0，1，2}
T4	PBegin(n)，n∈{-2，-1，0，1，2}
		T5	PInner(n)，n∈{-2，-1，0，1，2}
T6	PEnd(n)，n∈{-2，-1，0，1，2}
		T7	PLeftBoundary(n)，n∈{-2，-1，0，1，2}

表2中文人名识别特征模板

第四步，通过设置阈值来选择出现频次高于该阈值的特征：

F = {f | \underset{x, y &Element; Γ}{Σ} f (x, y) &GreaterEqual; K, f &Element; C}

其中Γ表示训练样本，C表示特征集，K即为设定的阈值。

步骤S102：获取人名规则集

本发明利用基于转换的错误驱动的学习方法提取规则，其基本思想是：首先利用初始状态的标注器来标注文本，接下来采用转换模板和目标函数，通过与已经正确标注过的参考语料相比较得到多条候选的转换模板，然后从中找出应用一条转换模板后可产生标注错误次数最少的转换式，作为一条新的标注规则作用到标注语料库，直到找不出这样的规则为止。从而获取规则集。

第一步，利用CRF进行人名识别，识别结果作为错误驱动学习的训练语料库。

第二步，将人名识别结果和正确的人工标注结果进行比较，分析错误识别的案例，并总结规则。

第三步，依次将第二步总结的各条规则应用到人名识别结果的副本中，根据各条规则对人名识别正确率贡献的大小进行由高到低进行排序。

第四步，将贡献最大的规则作用到已经识别的文本重新进行人名标注，得到一个更新的已识别文本。

重复第二步到第四步，当找不到一条规则可以提高人名识别效果时，整个学习过程就结束了。最终我们得到一个有序的规则列表，将这个规则集中的规则全部应用到人名识别过程中。

步骤S103：利用训练阶段得到的CRF模型对测试文本语料进行人名识别并输出每个标记的边缘概率。

步骤S104：对CRF的识别结果进行预处理，共包含两部分的内容。

(1)将CRF的识别结果转换为便于后续处理的格式。

(2)对于转换后的结果，利用收集的中文词典采用简单的基于最长匹配的分词方法对转换后的结果进行词语切分。其中中文词典由标准中文词集、冲突词集以及关联词集三部分组成。

标准中文词集包含的词既不能是人名，也不可以作为人名的部分出现，该词集将作为分词器的词集使用。

冲突词集包含的词可以作为人名的部分出现，而它本身又不是人名。

关联词集中存放那些既可以是人名又可以是地名或其他实体名的词及其相关的表征词。

步骤S105：对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别；

由于中、日、音译人名各有各的特点，我们对中国人名、日本人名和外国音译人名的人名可信度模型做了不同的定义。以外国音译人名为例：

外国音译人名的首字、中字、尾字可信度的定义同日本人名，只是计算所采用的是音译人名的相关用字。考虑到音译人名通常以非完整的形式出现，因此本文将姓和名统一看待，其定义如下：

S代表单个汉字的人名，对于这种人名，如果采用人名可信度进行识别，将会导致大量的单字被识别为人名，并且难以排除，因此对这种人名只能通过上下文特征及人名用字特征相结合来识别。

F、M、L分别代表外国音译人名首字、中字和尾字。另外，我们也需要利用β来提高长字符串作为人名的可信度。β定义如下：

β = \{\begin{matrix} \sin (\frac{π * len}{12}) & if 2 \leq len < 6 \\ 1 & iflen &GreaterEqual; 6 \end{matrix}

外国音译人名TP-Name的可信度P(TP-Name)定义如下：

P(TP-Name)＝P_f(F)*P_m(M)*P_l(L)*β

本发明设定位于左右边界词之间及边界词之外的音译人名的可信度阈值分别为0.39和0.592。

步骤S107：利用局部统计算法对边界识别错误的人名进行修正，并借助已经正确识别的人名进行扩散操作标记未被识别的人名。例如：

邓小平等人为啥从留法开始走向革命？

邓小平见证了中国20世纪翻天覆地大变化的历史。

邓小平是中国共产党第二代领导核心。

在第一句话中，由于“邓小平”中的“平”字和下文的“等”字成词，导致只有“邓小”被识别为人名，而在第二、三句中的人名均被正确识别。

为了解决上述问题，我们设置了每100句话作为一个统计单元，利用局部统计算法(PFS)来修正边界识别错误的人名。其基本思想是：统计在该单元中不同人名所出现的频率，并按照人名长度从长到短进行排序。对于每一个人名name_i，如果人名name_j(j＞i)是人名name_i的一部分，那么(1)如果所有的name_j和它的边界汉字可以构成name_i，那么将所有的name_j及边界汉字用name_i进行替换。否则(2)如果name_j的频率高于name_i，name_i不包含人名间隔号且name_i去除姓氏后不等于name_j，那么将所有的name_i变为name_j，如果name_i余下的字符串仍然可以构成本单元曾经出现过的人名，那么将name_i余下的字符串也标注为人名。PFS算法如下所示：

步骤S108：扩散识别：当一个人名在文中多次出现时，由于处在不同的位置，因而具有的上下文环境也不尽相同。对于上下文信息量充足的人名很容易被识别，而在上下文信息量较少的位置的人名则难以识别。此外，若人名和上下文成词，也可能导致人名被漏识别。例如：

人名“李文波”在句子“李文波带领永暑礁上的国际观测站创造了连续7000多天无差错的纪录。”中被识别为人名，但是在“山东汉子李文波南海守礁21年，累计守礁97个月。”中没有被召回。对于这种情况我们可以利用那些已经识别了的人名去找到那些未被识别的人名。

此外，对于中国人名和日本人名，经常会出现有姓无名或者有名无姓的人名，这类人名自身的信息量很少，很可能被我们的系统漏识别，但是这类人名的上文中一般会有与其对应的全称人名出现，我们可以借助这些已识别的全称人名来召回这些不完整的人名。

以下示出了本发明的另一个实施示例。

(1)原语料库如下：

今年/t80/m岁/qt的/u喜多川/nr社长/n亲自/d创办/v了/u吉尼斯/nz公司/n，/w并/cc培养/v出/v SMAP/x这样/r优秀/a的/u男子/n演唱/vn组/n。/w

(2)转换后的测试语料库如下：

(3)CRF的识别结果为：

(4)CRF识别结果预处理1(格式转换)

今/C年/C80岁的/C喜多川社/C长/C亲/A自/A创/A办/A了吉尼斯公司/C，/Cw并/A培/C养/C出/C SMAP这/A样/A优秀的/C男/B子/B演/A唱/A组。/Cw

(5)CRF识别结果预处理2(分词)

今/C年/C80岁的/C喜多川社/C长/C亲/A自/A创/A办/A了吉尼斯公司/rm/C，/Cw并/A培/C养/C出/C SMAP这/A样/A优秀/rm的/C男/B子/B演/A唱/A组。/Cw。/Cw

(6)人名初识别

今年80岁的喜多川/Pname社长亲自创办了吉尼斯/Pname公司，并培养出SMAP这样优秀的男子演唱组。

(7)规则修正

今年80岁的喜多川/Pname社长亲自创办了吉尼斯公司，并培养出SMAP这样优秀的男子演唱组。

(8)局部统计算法

因上述示例中不存在短人名是长人名部分的情况，因此局部统计算法对上述结果没有影响。

(9)扩散操作

因上述示例中不存在多次出现的人名，因此扩散操作对上述结果没有影响。

图2示出根据本发明的第一实施例的，本发明的一种基于条件随机场的中文人名自动识别方法的过程示意图。图2示出了中文人名识别的训练过程和识别过程。在训练过程中，首先对训练语料库进行标注转换，然后在此基础上进行特征提取，并进行特征选择和参数训练，最后得到参数模型，该模型包含了对特征的数字化赋值，可以很好地解析训练数据。在识别阶段，我们的识别步骤已经详细说明，在此不再赘述。

综上可知，本发明的一种基于条件随机场的中文人名自动识别方法通过对中文人名特征的研究，结合统计学的概率模型，构建出中文人名自动识别系统。通过对文本信息进行分词处理，基于条件随机场并结合上下文规则及人名可信度的方法，最后得到候选人名。借助局部统计算法对边界识别错误的人名进行修正，最终得到系统的识别结果。本系统大大降低了由于分词而产生的识别错误，较好的解决了其他命名实体识别为中文人名的情况，提高了识别效果。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于条件随机场的中文人名自动识别方法，其特征在于，包括以下步骤：

构建条件随机场模型；

对条件随机场的识别结果进行预处理；

2.如权利要求1所述的一种基于条件随机场的中文人名自动识别方法，其特征在于：所述构建条件随机场模型包括以下步骤：

通过设置阈值来选择出现频次高于该阈值的特征：

其中Γ表示训练样本，C表示特征集，K即为设定的阈值。

3.如权利要求1所述的一种基于条件随机场的中文人名自动识别方法，其特征在于：所述获取人名规则集包括以下步骤：

4.如权利要求1所述的一种基于条件随机场的中文人名自动识别方法，其特征在于：所述对条件随机场的识别结果进行预处理包括：

将条件随机场的识别结果转换为便于后续处理的格式；以及

5.如权利要求4所述的一种基于条件随机场的中文人名自动识别方法，其特征在于：所述中文词典由标准中文词集、冲突词集以及关联词集三部分组成；

6.如权利要求1所述的一种基于条件随机场的中文人名自动识别方法，其特征在于：所述对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别包括：

将姓和名统一看待，其定义如下：

TP-Name代表外国音译人名；

S代表单个汉字的人名；

F、M、L分别代表外国音译人名首字、中字和尾字。

7.如权利要求6所述的一种基于条件随机场的中文人名自动识别方法，其特征在于：所述对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别还包括：并利用β来提高长字符串作为人名的可信度，β定义如下：

则外国音译人名TP-Name的可信度P(TP-Name)定义如下：

P(TP-Name)＝P_f(F)*P_m(M)*P_l(L)*β 。

8.如权利要求7所述的一种基于条件随机场的中文人名自动识别方法，其特征在于：设定位于左右边界词之间及边界词之外的音译人名的可信度阈值分别为0.39和0.592。