CN104035918A

CN104035918A - 一种采用上下文特征匹配的中文机构名简称识别系统

Info

Publication number: CN104035918A
Application number: CN201410261878.0A
Authority: CN
Inventors: 杨静; 郝娟; 潘云; 裴逸钧; 杜泽宇
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2014-06-12
Filing date: 2014-06-12
Publication date: 2014-09-10

Abstract

本发明公开了一种采用上下文特征匹配的中文机构名简称识别系统，该系统首先训练得到干扰词上下文特征与机构名上下文特征的相交特征集以及机构名独有特征集；然后利用这些特征对机构名简称进行识别；最后通过建立干扰词表与扩展操作，对机构名简称进行筛选。本发明的有益效果在于识别简称时不依赖机构名全称，也不依赖机构名简称的组成形式，只利用机构名的上下文特征就可以对机构名简称进行识别。

Description

一种采用上下文特征匹配的中文机构名简称识别系统

技术领域

本发明涉及自然语言处理技术领域，具体地说是一种基于上下文特征的机构名简称识别系统。

背景技术

命名实体识别已经成为自然语言处理中的一项基本任务，在信息抽取、句法分析、机器翻译工作中，担任着重要的角色。命名实体中的人名、地名、机构名是最重要的三类，目前，前两种的识别研究已经非常广泛细致，对机构名进行准确、高效的识别具有重要意义。在文本中，简称是一种普遍存在的语法现象，但是由于机构名简称的组成形式多样、规律性不强、同一全称可能有多个简称等特点，导致对其识别困难重重。

目前来看，机构名简称识别方法可以分为两类—基于规则的方法和基于统计的方法。但是无论是哪一种识别方法，机构名简称的获得都依赖于全称，如果语料中不包含机构名简称对应的全称，那么该机构名简称将无法被识别。另外，默认组成简称的汉字也都来自于全称并且与在全称中的顺序保持一致，这就造成不符合上述条件的简称难以被识别。如“成电”是“电子科技大学”的简称，因为“成”并不是全称中的汉字，所以简称“成电”将不会被识别。又如“北医三院”是“北京大学第三医院”的简称，“医”和“三”的顺序与在全称中不一致，因此“北医三院”也很难被识别。

发明内容

本发明的目的是针对现有技术中的缺陷而提供的一种采用上下文特征匹配的中文机构名简称识别系统，该系统既不依赖机构名全称知识库，也不依赖机构名简称的组成形式，而是利用机构名的上下文特征对机构名简称进行识别。

实现本发明目的的具体技术方案是：

一种采用上下文特征匹配的中文机构名简称识别系统，该系统包括训练模块及识别模块，其中：

所述训练模块：以某一新闻语料作为训练集,从训练集训练得到机构名的上下文特征即相交特征集与机构名独有特征集以及干扰词表；

所述识别模块：以与训练集不同的新闻语料作为测试集，在测试集中采用机构名上下文特征匹配算法对机构名简称识别；首先，在错误率的取值范围下，使用相交特征集与机构名独有特征集中的特征与句子进行匹配，识别候选机构名简称；然后，使用final-words去除掉候选机构名简称中的干扰词，得到较准确的机构名简称；最后，利用扩展操作，召回文中部分未被识别出的简称。

所述训练模块中训练得到机构名的上下文特征，具体包括：

1）训练得到机构名的三种上下文特征:前特征、后特征、弱可信特征对，机构名的上下文特征由词语以及词性组成；以某一新闻语料库词性标注为准则认定标记为名词n、名语素Ng、成语i词性的词语具有实际含义，被定义为强特征，标记为助词u、介词p词性的词语不具备实际的含义，被定义为弱特征；把出现在机构名上文的强特征定义为前特征，出现在机构名下文的强特征定义为后特征；把上下文都是弱特征的词语当作一个特征，定义为弱特征对；机构名上下文特征是由前特征、后特征和弱特征对3类特征构成；只选择紧跟在机构名前后的一个词语作为上下文特征；

2）将成语、动名词词语作为干扰词，以所述1）同样形式获得干扰词的3类上下文特征；

3）将机构名的3类上下文特征分别与干扰词的3类上下文特征相交，相交的部分为相交特征集，在机构名的特征集中除去相交部分就是机构名独有特征集；每一个相交特征的错误率根据公式（1）得出，每一个机构名独有特征的错误率为0；

1, 2, 3, …… （1）

其中，是指出现在特征之间的词语为干扰词的总次数，是指出现在特征之间的词语为机构名的总次数。

所述训练模块中训练得到干扰词表，具体包括：

从某一新闻训练语料中把长度在3-6个字的干扰词全部找到，当作候选干扰词；并对候选干扰词进行如下扩展：

1）通过加入中国的姓氏补充名词干扰词；

2）通过加入一些地名的尾字补充名词干扰词；

再对候选干扰词进行过滤处理：

1）对于中国姓氏：与某一新闻训练语料中的每个简称的首字进行一一比对，如果中国姓氏与所有简称的首字都不匹配，把其加入到干扰词表中；

2）对于地名尾字：与训练语料中的每个简称的最后一个尾字进行一一比对，如果地名尾字与所有简称的尾字都不匹配，把其加入到干扰词表中；

得到了干扰词表final-words。

所述识别模块中采用机构名上下文特征匹配算法对机构名简称识别，具体包括：

1）识别候选机构名简称

对于与弱特征对相符的句子，采用自右向左的方式进行匹配；先在句子中找到下文特征所在的位置，然后从此位置向左寻找是否存在上文特征，若存在，并且下文特征与上文特征之间的语法片段长度在3-6个字之间，那么就把此语法片段当作候选机构名简称；对于与前特征相符的句子，在语句中找到前特征的位置，紧跟在前特征之后且长度在3-6个字之间的语法片段也当作候选机构名简称；对于与后特征相符的句子，只要在语句中找到后特征的位置，出现在后特征之前且长度在3-6个字之间的语法片段也当作候选机构名简称；

2）final-words去除干扰词

对于识别出的候选机构名简称，与final-words中的干扰词一一匹配，若匹配成功，将该简称删除，若都不匹配，保留机构名简称；

3）扩展操作

为了召回未被识别的简称，将上文识别的机构名简称与测试文本中的词语一一匹配，通过获得匹配成功的词语，对机构名简称进行扩展，提高机构名简称的召回率；即识别出最终机构名简称。

本发明的有益效果：在识别简称时本发明不依赖机构名全称，也不依赖机构名简称的组成形式，只利用机构名的上下文特征就可以对机构名简称进行识别。

附图说明

图1为本发明的流程图。

具体实施方式

本发明利用训练得到的机构名上下文特征，对任意文本进行机构名简称识别，再通过去除干扰词与扩展操作得到最终的机构名简称。

因为机构名全称和简称的上下文特征具有一致性，所以训练获得的机构名上下文特征既来自于全称上下文也来自于简称上下文。在本发明中，机构名的上下文特征由词语以及词性共同组成。以人民日报语料库词性标注为准则认为标记为名词n、名语素Ng、成语i等词性的词语具有一定的实际含义，因此被定义为强特征，如“总书记/n”；标记为助词u、介词p等词性的词语通常不具备实际的含义，因此被定义为弱特征，如“的/u”。发现只使用上文强特征或下文强特征就能很好的对机构名简称进行识别，因此把出现在机构名上文的强特征定义为前特征，出现在机构名下文的强特征定义为后特征。对于弱特征则不对其区分前后特征，把上下文都是弱特征的词语当作一个特征，定义为弱特征对。最终，机构名上下文特征是由前特征、后特征和弱特征对3类特征构成的。

随着机构名上下文特征词语数目增多，特征词在文中共现的概率将会下降。在识别时，因为匹配不到多个词语特征，一些机构名简称无法被识别，会带来较低的召回率。所以，只选择紧跟在机构名前后的一个词语作为上下文特征。

干扰词的一些上下文特征与机构名的上下文特征是相同的，把这些特征定义为相交特征。这些相交特征在进行机构名简称识别时就会把干扰词也当成机构名简称一起识别出来，这对机构名简称的正确识别带来了很大的困扰。为了抑制相交特征对干扰词的识别，对每一个相交特征赋予一个错误率来衡量该特征识别机构名的好坏。错误率的计算公式为：

1, 2, 3, …… （1）

其中，是指出现在特征之间的词语为干扰词的总次数，是指出现在特征之间的词语为机构名的总次数。错误率越小，说明该特征对机构名简称的识别效果越好。在识别时，通过确定合适的错误率，对相交特征进行选择。

对于只出现在机构名上下文的特征，将其定义为独有特征，认为每一个独有特征都能很好地识别机构名简称，将其错误率置为0，在识别时，独有特征会全部被选择。

机构名上下文特征集的建立过程，具体如下：

1）首先训练得到机构名的前特征、后特征、弱可信特征对，分别用集合、、表示；

2）其次，获得干扰词的3类上下文特征，分别用集、、表示；

3）最后，将机构名的3类上下文特征分别与干扰词的3类上下文特征相交，建立相交特征集与独有特征集，相交特征集表示为、、，每一个相交特征的错误率都根据公式（1）得出；独有特征集表示为、、，每一个独有特征的错误率都为0。

机构名上下文特征集就是由相交特征集与独有特征集一起组成的，在识别时，将利用它们对机构名简称进行识别。

尽管可以通过采用错误率在一定范围内的相交特征抑制干扰词的识别，但是也不能保证每个特征不会识别出干扰词。如果把这些识别出的干扰词去除掉，那么得到的机构名简称将会更加的准确。因此，构建了一张干扰词词表，提高机构名简称的准确率。

从训练语料中把长度在3-6个字的干扰词全部找到，当作候选干扰词。发现一些名词干扰词的组成具有一定的规律，把这些干扰词加入到干扰词表可以补充候选干扰词的不足。对候选干扰词表进行了如下扩展：

1）通过加入中国的姓氏补充名词干扰词。

2）通过加入一些地名的尾字补充名词干扰词。如“千岛湖”中的“湖”，“盖茨堡镇”中的“镇”等。

再对候选干扰词进行过滤处理：

得到了干扰词表final-words。

机构名简称的识别：

采用机构名上下文特征匹配算法对机构名简称识别。首先，在错误率的取值范围下，使用独有特征集与相交特征集中的特征与句子进行匹配，识别候选机构名简称；然后，使用final-words去除掉候选机构名简称中的干扰词，得到较准确的机构名简称，最后，利用扩展操作，召回文中部分未被识别出的简称。具体做法如下：

1）对于与弱特征对相符的句子，采用自右向左的方式进行匹配。例如对于“核心/n 的/u 党中央/nt 周围/f”语句，它与弱特征对“的/u……周围/f”相符，先在句子中找到“周围/f”所在的位置，然后从此位置向左寻找是否存在“的/u”，若存在，并且“的/u”与“周围/f”之间的语法片段长度在3-6个字之间，那么就把此语法片段当作候选机构名简称。

2）对于与前特征相符的句子，只要在语句中找到前特征的位置，紧跟在前特征之后且长度在3-6个字之间的语法片段也当作候选机构名简称。

3）对于与后特征相符的句子，只要在语句中找到后特征的位置，出现在后特征之前且长度在3-6个字之间的语法片段也当作候选机构名简称。

4）对于识别出的候选机构名简称，与final-words中的干扰词一一匹配，若匹配成功，将该简称删除，若都不匹配，保留机构名简称。

5）尽管机构名上下文特征比较固定、属于同一职能的机构名上下文特征通常相同，仍然不可能完备机构名上下文特征集合，这务必会带来一些机构名简称不能被识别。为了召回未被识别的简称，将上文识别的机构名简称与测试文本中的词语一一匹配，通过获得匹配成功的词语，对机构名简称进行扩展。

通过上述步骤，识别出最终机构名简称。

实施例

参阅图1，所示训练部分首先训练得到机构名与干扰词的上下文特征，再将其相交得到相交特征和独有特征，再通过补充中国姓氏和地名尾字扩展训练得到的干扰词表。最终训练获得的集合为最终干扰词表集合和相交特征集合与机构名独有特征集合。图1的识别过程利用训练得到的三种集合在测试语料中采用特征匹配算法对机构名简称进行识别。

本发明包括以下两个模块：

模块1：训练模块：

1）首先训练得到机构名的前特征、后特征、弱可信特征对；

训练语得到长度在3-6个字的干扰词，又对候选干扰词表进行了如下扩展：

1）通过加入中国的姓氏补充名词干扰词。

模块2：识别模块：

在识别时，我们选择分别取w<=0.1,w<=0.2, w<=0.3,w<=0.4, w<=0.5,w<=0.6, w<=0.7,w<=0.8, w<=0.9,w<=1.0时的特征。对于与弱特征对相符的句子，采用自右向左的方式进行匹配。例如对于“核心/n 的/u 党中央/nt 周围/f”语句，它与弱特征对“的/u……周围/f”相符，先在句子中找到“周围/f”所在的位置，然后从此位置向左寻找是否存在“的/u”，若存在，并且“的/u”与“周围/f”之间的语法片段长度在3-6个字之间，那么就把此语法片段当作候选机构名简称；对于与前特征相符的句子，只要在语句中找到前特征的位置，紧跟在前特征之后且长度在3-6个字之间的语法片段也当作候选机构名简称；对于与后特征相符的句子，只要在语句中找到后特征的位置，出现在后特征之前且长度在3-6个字之间的语法片段也当作候选机构名简称。

对于识别出的候选机构名简称，与final-words中的干扰词一一匹配，若匹配成功，将该简称删除，若都不匹配，保留机构名简称。为了召回未被识别的简称，将上文识别的机构名简称与测试文本中的词语一一匹配，通过获得匹配成功的词语，对机构名简称进行扩展。

本发明首次采用上下文特征对机构名简称进行识别。实验证明，该系统能够较好地识别机构名简称，取得了较高的准确率与召回率。

Claims

1.一种采用上下文特征匹配的中文机构名简称识别系统，其特征在于该系统包括训练模块及识别模块，其中：

2.根据权利要求1所述的识别系统，其特征在于所述训练模块中训练得到机构名的上下文特征，具体包括：

1, 2, 3, …… （1）

3.根据权利要求1所述的识别系统，其特征在于所述训练模块中训练得到干扰词表，具体包括：

1）通过加入中国的姓氏补充名词干扰词；

2）通过加入一些地名的尾字补充名词干扰词；

再对候选干扰词进行过滤处理：

得到了干扰词表final-words。

4.根据权利要求1所述的识别系统，其特征在于所述识别模块中采用机构名上下文特征匹配算法对机构名简称识别，具体包括：

1）识别候选机构名简称

2）final-words去除干扰词

3）扩展操作