CN101751386B

CN101751386B - 一种未登录词的识别方法

Info

Publication number: CN101751386B
Application number: CN2009102658397A
Authority: CN
Inventors: 黄河燕; 史树敏; 张海军
Original assignee: Huajian Machine Translation Co ltd; Beijing Institute of Technology BIT
Current assignee: Huajian Machine Translation Co ltd; Beijing Institute of Technology BIT
Priority date: 2009-12-28
Filing date: 2009-12-28
Publication date: 2012-05-23
Anticipated expiration: 2029-12-28
Also published as: CN101751386A

Abstract

本发明公开了一种未登录词的识别方法，属于计算机科学中的自然语言处理技术领域。在未登录词的检测阶段，先用多重规则过滤重复串集合，然后使用统计模型作为主体统计框架，将尽可能多的特征融入到框架内，确保未登录词检测具有较高的准确率和召回率；在未登录词词性猜测阶段，基于统计模型框架，在通用特征的基础上，通过引入有效的新特征，来提高未登录词词性猜测的准确率。本方法对比现有技术，不受内存规模的限制，扩大了未登录词的检测范围，有效减少了未登录词检测过程中的漏召问题，尤其适合用于大规模语料的未登录词的识别。

Description

一种未登录词的识别方法

技术领域

本发明涉及一种未登录词的识别方法，尤其适用于针对大规模语料的未登录词的识别，属于计算机科学中的自然语言处理技术领域(NLP)。

背景知识

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。在自然语言处理过程中，词是最小的语言单位。汉语在词之间没有特定标记，所以因此在进行自动处理时，需要预先进行中文分词。而未登录词的大量存在已经成为影响中文分词效果的技术瓶颈。未登录词识别(UWI)是从语料中自动检测和识别未在词典中出现过的词语的过程，是自然语言处理领域的一项重要基础技术，在中文自动分词、词典编撰、信息抽取、信息检索以及机器翻译等领域都有着广泛的应用需求。

从技术的角度讲，未登录词识别包含两个基本步骤：未登录词检测和未登录词词性猜测。

目前，研究人员已经开发了很多模型用于未登录词检测。近些年来，基于重复串的未登录词检测技术受到了广泛关注，在这方面也取得很多研究成果。基于重复串的未登录词检测原理是：首先在语料中提取频繁出现的重复串构成候选词集合，然后根据规则或统计特征从候选词集合中检测未登录词。

现有的基于重复串的未登录词识别方法存在以下缺陷：

(1)重复串提取算法受限于内存规模，处理的目标语料规模小，未登录词漏召严重，处理效率不高。虽然对规模大于内存容量情况也有一些算法，但效率不高，灵活性差，难以满足未登录词检测的实际要求。

(2)针对重复串集合的未登录词检测的效果不好；

(3)只针对未登录词识别的单个步骤，没有集成未登录词词性猜测算法，且未登录词词性猜测准确率尚有较大的提高空间。

发明内容

本发明的目的是为了克服现有技术的不足，主要解决对大规模乃至超大规模的语料重复串提取问题，提出一种新的未登录词的识别方法。

本发明所采用的技术方案是：为了使未登录词识别任务顺利进行，将其分成三个顺序连接的任务阶段，依次配合来完成未登录词识别过程。这三个阶段是：语料的重复串提取，未登录词检测，以及未登录词词性猜测，如图1所示，具体如下：

步骤一、使用基于递增n-gram模型和散列数据结构，提取出语料的候选重复串。然后，对候选重复串进行过滤，以减少垃圾字串的生成，提高重复串提取效率；最后，使用外部排序方法取得最终的重复串集合(Repeats Set)。其流程如图2所示。

其中，对候选重复串进行过滤时，可采用基于低频字符的全局剪枝算法和短串过滤长串的逐层剪枝方法(Hierachy Pruning，HP)实现。

所述垃圾字串是指在重复串查找时，出现频率低于阈值的重复串。

所述重复串集合是指在特定的文本语料中，由出现频率大于或等于设定阈值的重复串所构成的集合，这个集合用于构成未登录词的候选集，检测到的未登录词都来源于这个集合。

步骤二、对步骤一取得的重复串集合进行子父串归并、停用字(词)过滤、命名实体过滤和词典过滤。然后，使用统计模型对处理后的重复串集合进行检测，获得未登录词集合。其流程如图3所示。

其中，所述子父串归并，是指在处理满足(1)内容上长串是短串的父串、(2)出现频率相同的字符串对时，将子串剔除的过程。

所述停用字(词)过滤，是指使用不可能与其它字符(串)构成词语的字或词集合，对重复串集合进行过滤，凡是包含停用字(词)的重复串条目都将被剔除，由此避免无意义的未登录词检测工作。

所述命名实体过滤，是指将简单命名实体从候选词集合中预先滤去。其中，简单命名实体包括：时间、货币、人名以及地名。在本发明方法中，这些类型的命名实体都不属于未登录词范畴，故需将之预先剔除。

所述词典过滤，是指使用现有词典，将重复串集合中的词典词汇过滤出去的过程，这样检测到的词条才可能是未登录词。

所述统计模型可选用条件随机域模型(CRF)或者最大熵模型(ME)。

步骤三、组合各种有效的内部特征，使用统计模型对经步骤二得到的未登录词集合中的词语进行词性猜测。

所述各种有效的内部特征是指用于条件随机域模型(CRF)或者最大熵模型(ME)训练和解码的特征。这些特征能充分反应未登录词的词性特点，从而实现高准确率的词性猜测。

有益效果

本发明通过在未登录词的检测阶段，先用多重规则过滤重复串集合，然后使用统计模型作为主体统计框架，将尽可能多的特征融入到框架内，确保未登录词检测具有较高的准确率和召回率；在未登录词词性猜测阶段，基于统计模型框架，在通用特征的基础上，通过引入有效的新特征，来提高未登录词词性猜测的准确率。本方法对比现有技术，不受内存规模的限制，扩大了未登录词的检测范围，有效减少了未登录词检测过程中的漏召问题，尤其适合用于大规模语料的未登录词的识别。

附图说明

图1为本发明方法的流程示意图；

图2为本发明方法中重复串提取过程的流程示意图；

图3为本发明方法中未登录词检测过程的流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步详细说明。

一种未登录词的识别方法，包括以下步骤：

步骤一、使用基于递增n-gram模型和散列数据结构，提取出语料的候选重复串。然后，对候选重复串进行过滤，以减少垃圾字串的生成，提高重复串提取效率；最后，使用外部排序方法取得最终的重复串集合(Repeats Set)。

本步骤是整个方法实现的基础，其流程如图2所示，具体如下：

首先，使用对重复串的提取进行形式化描述：

假设∑是有限的字符集合，S是由∑中的字符所构成的有限字符序列，S＝c₁c₂c₃…c_n，n为S的长度。S[i]表示S中一个字符，其中1≤i≤n。S[i，j]表示S中的一个字符串。C＝S₁#S₂#S₃…#S_m，表示由m个字符构成的语料，其中#是∑集合中的一个标点字符，表示文本结束。各种标点符号，如“。”、“？”、“！”等都可作为文本结束符。设R＝c₁c₂…c_k，1≤k≤n，并且R中不包含文本结束符#，如果在语料中至少存在两个位置p₁和p₂，使得S[p₁…p₁+k-1]＝S[p₂…p₂+k-1]＝R，则称R为语料C中的重复串；如果R出现的频率高于预先设定的阈值λ，则称R为高频重复串。重复串查找就是在语料C中找出所有满足阈值约束的重复串R的过程。优选的，阈值λ＝2。

然后，进行基于低频字符的重复串过滤，具体如下：

在递增n-gram模型中，如果将语料不加处理就直接进行高频模式查找，必然会存在大量出现频率低于阈值λ的垃圾字串，造成内存的巨大浪费。由重复串的性质可知，对于R＝c₁c₂…c_k，若f(R)≥λ，必然存在f(c₁)≥λ，f(c₂)≥λ，…，f(c_k)≥λ。由此可知，如果f(c_i)＜λ，c_i∈∑，则包含字符c_i的任意重复串R，定有f(R)＜λ成立。根据这个理论，可以通过一次语料扫描，取得满足f(c_i)＜λ，c_i∈∑条件的所有字符c_i，并将包含c_i的集合∑₀作为剪枝字符集合。在重复串扫描过程中，对于重复串R中的任意字符c_x，如果有c_x∈∑₀，即可将重复串R滤掉，从而在字符层面上实现低频模式过滤，由此提高重复串提取速度。

为了处理规模远大于内存的大规模语料，需要对语料进行分割，以便在内存范围内快速查找重复串。本发明只需将语料随机地划分为规模不超过预定大小的组块，然后按照组块依次地进行重复串提取。由于汉字任何相邻的两个或多个字符都有成词的可能性，重复串提取时会产生大量的频率低于预定阈值的垃圾模式，通过使用低频垃圾字串过滤方法，可有效地减少垃圾模式，便于后续工作顺利进行。

随后，进行基于逐层剪枝的低频字串过滤：

依据前面的形式化描述，通过研究发现：重复串R＝[p₁…p₁+k-1]＝[p₂…p₂+k-1]的长度为k，如果R的出现频率为m，设定字串X＝c_iR或X＝Rc_j(其中c_i∈∑，c_j∈∑)的长度为k+1，设其出现频率为m′，根据重复串的性质可知，m′≤m，也就是说，一个重复串的出现频率应该小于或等于其子串的出现频率。进一步地，如果R的出现频率小于阈值λ，即m＜λ，那么X的出现频率一定小于阈值λ，即m′＜λ。可见，如果其子串R是频率低于设定阈值的垃圾串，那么该字串X也一定是频率低于阈值的垃圾串。根据这个性质，可使用已知的短串模式集合，对候选模式进行过滤，实现低频字串剪枝，具体如下：

设长度为k的字符串集合为Ω，频率低于阈值λ的垃圾串集合为

，出现频率大于或等于阈值λ的重复串集合为

因对k≥2时有

所以可考虑用

代替

来实现低频垃圾串的过滤，来节省内存，提高检索速度。因为R∈Ω且

有(

且)或(

且

)成立。所以，根据这种互斥关系，使用

作为过滤集合即可。过滤原则是，对于X＝c_iR₁或X＝R₂c_j，当

且

时，X作为候选重复串，否则，将X作为垃圾串抛弃。将这个规则作为逐层剪枝的判断依据，可有效减少外部排序读写次数。

最后，进行基于外部排序的重复串归并：

为减少内存用量，每个组块所产生的候选重复串都会被保存在临时文件中，但这些候选模式并不是整个语料中满足出现频率阈值的最终重复串集合，还需对其进行归并处理。为了处理大规模语料，本发明采用外部排序方式来合并重复串。外部排序由两部分工作组成：数据的内部排序和外部归并。

(1)数据的内部排序

基于递增n-gram模型提取重复串，每次只用固定长度的窗口来扫描整个语料。根据这一特点，通过使用基数排序(radix sort)来是实现内部排序，可显著提高排序效率。基数排序虽有较高的处理效率，但一般适用于位数相同的数值型数据排序。若要实现对重复串的基数排序，需预先对重复串进行处理。为此，可用确定的整数编号来表示汉字字符，从而将重复串转化为与之具有相同长度的整型数组。例如，字符串“非典”可表示为：“[744][581]”，其中“非”字编号为744，“典”编号为581；“叉腰肌”可表示为[272][3456][1217]，上述三个整数分别代表了三个汉字的编号。因汉字与数值编号一一对应，所以字串与整型数组之间必然是一一映射关系。根据这种对应关系，即可实现对整型数组的排序，也就实现了对字串的排序功能。

(2)外部归并

在以上改进的基础上，算法执行后会形成基于分块语料的小规模重复串集合，集合中的重复串通过基数排序，形成了有序串集合。但要形成最终的重复串集合，还需对小规模有序重复串集合进行归并。通过采用基于败者树的多路选择排序方法来实现，能够减少外部IO读写的次数，提高重复串的提取速度。

步骤二、对步骤一取得的重复串集合依次进行子父串归并、停用字(词)过滤、命名实体过滤和词典过滤。然后，使用统计模型对处理后的重复串集合进行检测，获得未登录词集合。如图3所示。

基于重复串集合进行未登录词提取，需尽可能的将垃圾字串滤掉，提高未登录词识别效率。为达到预期的过滤效果，本发明先采用基于规则的过滤方式处理重复串，包括子父串归并、停用词(字)归并、简单命名实体过滤、字典词过滤，最后使用CRF框架进行未登录词检测。

(1)子父串归并

由于出现频率相同、内容上长串包含短串，可认定短串是长串的固定组成部分，而长串具有更为固定的使用方法，所以将长串作为候选字串更为合理。在归并方法上，本发明提出一种新的归并技术，即，使用相邻长串过滤短串。具体方法是，先将待过虑的短串装入散列表，然后依次将每个长串拆成两个长度短1的子串(即，去掉长串的首字符得到一个子串，去掉长串的尾字符得到一个子串)，并在散列表中检索，若有匹配项，需要比较检索到的短串同对应的长串的出现频率，频率相等则将散列表中的短串打上剔除标志，最后一并剔除。由于长串数量通常会少于短串(串长大于5时)，加之使用高效的散列数据结构(数据检索的时间复杂度为O(1))，整个子父串归并的效率为O(N)，其中N为满足阈值约束的最大重复串数量。

(2)停用词(字)过滤

停用词(字)是指同其它的任意字符(串)组合都不可能成词的词、字串或字符。过滤时，首先将停用词(字)装入到散列表中，然后根据停用词(字)的长度，依次对每条重复串提取子串，并在散列表中检索该子串，如检索到就将该重复串剔除。虽然停用词(字)数量不多，但这类词(字)同其它字符(串)的组合频率非常高，所以会起到非常明显的过滤效果。

(3)简单命名实体过滤

由于最终要提取的是具有固定用法的未登录词，其中不包含简单命名实体。其中，简单命名实体包括：时间、货币、人名以及地名，这些类型的命名实体都要求从候选词集合中预先滤去。

(4)字典词过滤

由于本发明针对的是未登录词提取，因此需要将候选词集合中的字典词预先滤去。实现字典词的过滤相对比较容易，首先将字典词装入散列表，然后对重复串集合中的每个条目在散列表中进行检索，凡是检索到的条目，即从重复串集合中剔除，由此提高了后续操作效率。字典词过滤后，剩下的重复串集合，就构成了未登录词的候选集合。

上述处理全部完成后，即可进行未登录词检测。具体如下：

在已取得了候选词集合的前提下，未登录词检测问题就转化为判定候选字串是否是词的问题。这是一个二元分类问题，可采用统计模型将之转化为标注问题。该统计模型可选用条件随机域模型(CRF)或者最大熵模型(ME)。在本具体实施方式中，采用条件随机域模型(CRF)作为未登录词标注模型。

CRF是一种无向图模型，对于指定的节点输入值，它能够计算指定的节点输出值上的条件概率，其训练目标是使得条件概率最大化。线性链是CRF中常见的特定图结构之一，它由指定的输出节点顺序链接而成。一个线性链与一个有限状态机相对应，可用于解决序列数据的标注问题。同其它模型相比，CRF模型最重要的特点是，对特征没有独立性要求。因此，使用者无需考虑特征之间的关系，只需将多个特征放到统一的框架中使用，以便获得更好的标注效果。

为了充分发挥CRF模型的优势，本发明综合运用候选字串的语言知识特征和统计特征来提高检测效果。语言知识特征包括：重复串的串长、组成字符、前缀、后缀、双字后缀，统计特征选用被证明识别效果显著的统计特征：共现频率、互信息、色子矩阵、左(右)熵。

为保证统计特征适应性，要对统计特征进行归一化及离散化处理，以确保统计模型对不同规模的语料都有可靠的标注效果。

在语言知识特征和统计特征的作用下，首先进行条件随机域模型(CRF)的训练，在此基础上，即可实现对候选词集合的标注和未登录词检测，最终获得未登录词集合。

未登录词词性猜测是未登录词识别的重要步骤，是根据词性对检测到的词语进行归类，属于多元分类问题。为了清楚地描述这个问题，首先对其进行形式化描述。

通常，未登录词词性猜测是基于已有外部特征和内部特征，标注未登录词最大可能词性t的过程。一般地，对于标记集合τ＝{t₁，t₂......t_n}，t可以形式化的表示为：

\hat{t} = \arg \max_{t &Element; τ} P (t / uw) - - - (1)

其中uw表示未登录词。为方便求解，公式(1)可改写为：

\hat{t} = \arg \max_{t &Element; τ} \frac{P (μw | t) P (t)}{P (uw)} = \arg \max_{t &Element; τ} P (uw | t) P (t) - - - (2)

由于没有未登录词的先验知识，公式(2)中的似然度P(uw|t)是未知的，这导致词性猜测无法顺利进行。为此，可使用特征分解方法，将uw表示为其本质特征的组合，即：F_内F_外，通过对特征的似然度计算来猜测词性。其中F_外表示uw的外部特征集合，F_内是内部特征集合。根据前面所做的特征分解，未登录词的词性猜测问题转化为：

发现未登录词的本质特征F_外和F_内，寻找和研究未登录词关于词性的可用本质特征，是提高未登录词词性猜测准确率的关键所在。可结合现有的标注语料，通过对比试验来确定出可用本质特征。

根据公式(3)，词性猜测需要训练和求解词性标记与特征之间的统计关系。如果使用隐马尔科夫模型(HMM)来进行处理，由于这些特征之间的关系错综复杂，无法满足HMM的输出独立性假设，并且HMM也很难体现特征之间的统计关联，比较容易造成标注偏置。而条件随机域模型(CRF)或者最大熵模型(ME)均能很好的解决这些问题，实现良好的标注效果。

由于直接对提取的未登录词进行标注，没有未登录词的上下文相关信息和特征，外部特征难以使用。所以在进行未登录词词性词性猜测时，只能利用内部特征。必须充分挖掘内部特征，才能实现更高的词性猜测准确率。本发明所用的内部特征包括，未登录词的词条本身、组成字符、词缀、词长。为了获得更高的词性猜测准确率，还需挖掘新特征，通过研究和统计发现，汉字偏旁具有良好的词性关联作用。

从直观上看，汉字偏旁能在一定程度上表达含义。如：如榆、杨、果都与木有关，归入“木”部；性、恭、志都与心有关，归入“心”部；蚓、蛾、蜻都与虫有关，归入“虫”部等。从统计学上，也能证明偏旁具有表义功能。中科院计算机语言信息工程研究中心的冯冲对3500个常用汉字进行统计，使用偏旁表意的共3204个，占91.4％。由于词性与词的含义之间密切相关，既然偏旁具有良好的表义功能，可以认为偏旁与词性具有某种内在联系。

通过对整理的包含6955个汉字的偏旁汉字对照表的部分统计，能很好地说明偏旁与词性之间存在一定关系，参见下表。

表1 偏旁和词性关系对照表

偏旁	总字数	表词性	表词性字数
				刀	62	动作	40
扌	285	动作	278
				心	199	状态	192
米	43	名称	36

可见，具有偏旁“扌”的汉字，表动作的有278个，说明具有“扌”旁的汉字是动词组分的可能性最大；同理，具有“心”旁的是形容词组分的可能性最大，具有“米”旁的是名词组分的可能性最大等等。

但随着汉字的发展，加之汉语复杂的搭配关系和字符严重的兼类现象，使部分偏旁与词性之间的联系变得模糊。如果对偏旁数据不加处理，直接使用，效果不会太理想。优选的，可对偏旁特征进行改进。即，在标注语料的基础上，通过聚类算法，对众多的偏旁进行归类，以减少偏旁数量，以体现偏旁与词性之间的稳定联系。通过使用改进的偏旁特征，能有效的提高未登录词词性猜测的准确率。例如：在词性猜测过程中，通过聚类将二百多个偏旁归类成数十个类别(聚类方法与准则选取不同，分成的类别数也不尽相同)，并建立这些类别和词性之间的统计联系，从而实现更为准确的词性猜测。

Claims

1.一种未登录词的识别方法，该方法适用于针对大规模语料的未登陆词的识别，其特征在于包括以下步骤：

步骤一、使用基于递增n-gram模型和散列数据结构，提出语料的候选重复串；然后，对候选重复串进行过滤，以减少垃圾字串的生成，提高重复串提取效率；最后，使用外部排序方法取得最终的重复串集合，该集合用于构成未登录词的候选集，检测到的未登录词都来源于这个集合；

步骤二、对步骤一得到的重复串集合进行子父串归并、停用字或词过滤、命名实体过滤和词典过滤；然后，使用统计模型对处理后的重复串集合进行检测，获得未登录词集合；

其中，所述命名实体过滤，是指将简单命名实体从候选词集合中预先滤去，其中简单命名实体包括：时间、货币、人名以及地名；

步骤三、组合各种有效的内部特征，使用统计模型对经步骤二得到的未登录词集合中的词语进行词性猜测；

所述各种有效的内部特征是指用于统计模型训练和解码的特征，包括，未登陆词的词条本身、组成字符、词缀、词长；

所述步骤一中，对候选重复串进行过滤时，采用基于低频字符的全局剪枝算法和短串过滤长串的逐层剪枝方法实现。

2.如权利要求1所述的一种未登录词的识别方法，其特征在于，所述步骤一中，采用基于低频字符的全局剪枝算法对候选重复串进行过滤的方法如下：

假设∑是有限的字符集合，S是由∑中的字符所构成的有限字符序列，S＝c₁c₂c₃...c_n，n为S的长度；S[i]表示S中一个字符，其中1≤i≤n；S[i，j]表示S中的一个字符串；C＝S₁#S₂#S₃...S_m，表示由m个字符构成的语料，其中#是∑集合中的一个标点字符，表示文本结束；设R＝c₁c₂...c_k，1≤k≤n，并且R中不包含文本结束符#，如果在语料中至少存在两个位置p₁和p₂，使得S[p₁...p₁+k-1]＝S[p₂...p₂+k-1]＝R，则称R为语料C中的重复串；如果R出现的频率高于预先设定的阈值λ，则称R为高频重复串；

通过一次语料扫描，取得满足f(c_i)＜λ，c_i∈∑条件的所有字符c_i，并将包含c_i的集合∑₀作为剪枝字符集合；在重复串扫描过程中，对于重复串R中的任意字符c_x，如果有c_x∈∑₀，即将重复串R滤掉，从而在字符层面上实现低频模式过滤。

3.如权利要求1所述的一种未登录词的识别方法，其特征在于，所述步骤一中，采用短串过滤长串的逐层剪枝方法对候选重复串进行过滤的方法如下：

出现频率大于或等于阈值λ的重复串集合为由于对k≥2时有

因此使用

作为过滤集合，过滤原则是，对于X＝c_iR₁或X＝R₂c_j，当

且

时，X作为候选重复串，否则，将X作为垃圾串抛弃。

4.如权利要求1所述的一种未登录词的识别方法，其特征在于：所述步骤一中，使用外部排序方法取得最终的重复串集合的方法如下：

外部排序由两部分工作组成：数据的内部排序和外部归并；

通过使用基数排序来实现内部排序：用确定的整数编号来表示汉字字符，将重复串转化为与之具有相同长度的整型数组，建立起重复串与整型数组的一一映射关系；根据这种对应关系，即可实现对重复串的基数排序；

通过采用基于败者树的多路选择排序方法来实现外部归并。

5.如权利要求1所述的一种未登录词的识别方法，其特征在于，所述步骤二中，使用统计模型对处理后的重复串集合进行检测时，采用条件随机域模型或者最大熵模型之一作为未登录词标注模型，并综合运用候选重复串的语言知识特征和统计特征来提高检测效果；

其中，语言知识特征包括：重复串的串长、组成字符、前缀、后缀、双字后缀；统计特征选用被证明识别效果显著的统计特征：共现频率、互信息、色子矩阵、左(右)熵，为保证统计特征适应性，对统计特征进行归一化及离散化处理，确保统计模型对不同规模的语料都有可靠的标注效果；

在语言知识特征和统计特征的作用下，首先进行统计模型的训练，在此基础上，即可实现对候选词集合的标注和未登录词检测，最终获得未登录词集合。

6.如权利要求1所述的一种未登录词的识别方法，其特征在于，所述步骤三中，采用的统计模型是条件随机域模型或者最大熵模型之一。

7.如权利要求1所述的一种未登录词的识别方法，其特征在于，所述步骤三中，所述内部特征包括汉字偏旁。

8.如权利要求7所述的一种未登录词的识别方法，其特征在于，当采用汉字偏旁作为内部特征时，对偏旁特征进行改正，即，在标注语料的基础上，通过聚类算法，对偏旁进行归类，以减少偏旁数量，从而体现偏旁与词性之间的稳定联系。