CN103678272A

CN103678272A - 汉语依存树库中未登录词的处理方法

Info

Publication number: CN103678272A
Application number: CN201210344884.3A
Authority: CN
Inventors: 吕学强; 郑略省; 王玥; 关晓炟
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2012-09-17
Filing date: 2012-09-17
Publication date: 2014-03-26
Anticipated expiration: 2032-09-17
Also published as: CN103678272B

Abstract

本发明属于计算语言学的自然语言处理领域，公开了一种汉语依存树库中未登录词的处理方法，该方法包括步骤：A，利用同义词词林，查找未登录词的所有同义词；B，根据汉字字形特征，计算未登录词与其所有同义词之间的字形相似度；C，当未登录词与多个同义词的字形相似度相同时，抽取所映射的词及其对应的词性的信息量，改进字形相似度计算模型；D，抽取字形相似度最大的词为未登录词的最优映射词，作为树库中对未登录词的解释。本发明可以再不扩大树库规模的前提下，令依存句法分析中的单元对<词性，词性>回升到<词性，词>或<词，词性>，从而达到细化信息粒度，缓解数据稀疏问题，改进依存句法分析性能。

Description

汉语依存树库中未登录词的处理方法

技术领域

本发明涉及一种对汉语依存语法树库中未登录词的处理方法，通过树库已知词实现对未登录词的理解，属于计算语言学中的自然语言处理领域。

背景技术

句法分析是自然语言处理的核心问题之一，其性能的好坏，直接影响到自然语言句子自动理解的正确性和有效性。依存句法分析比结构化句法分析更容易处理，近年来受到了人们的广泛关注。目前许多国家正建立和发展自己语言的树库，随着词汇本身强大的排歧能力渐渐被挖掘出来，越来越多的依存句法分析统计模型趋于词汇化。

词汇是最有区别力的信息，语言在词汇层面几乎没有歧义。词汇以及词汇之间的依存，包含着极丰富的表征信息，这使得越来越多的句法分析器趋向于词汇化。但词汇化建模中存在的难点是词汇信息的数据稀疏问题，目前主要采用词性信息进行平滑，如将词单元对<词，词>回退为<词，词性>、<词性，词>、<词性，词性>。但由于词性标记的数量少，信息粒度较粗，不可避免地会产生大量的句法歧义。

现有树库规模较小，实际应用中存在大量未在树库中出现的词汇，也即未登录词。这使得依存句法分析无法利用这些词的词汇信息，从而降低句法分析的精确度，严重阻碍了句法分析的发展。目前在英文方面主要趋向两种方式解决未登录词问题：花费大量人力、物力扩大树库规模；利用现有资源，实现同一类别词汇相互间的映射转换。在中文方面主要采用词性信息平滑技术，但存在信息粒度粗，句法歧义大的缺陷。因此，迫切地需要一种针对汉语特点的树库未登录词处理方法，以解决树库中数据稀疏和信息粒度粗的问题，提高句法分析精确度。

发明内容

为了解决依存句法分析中树库数据稀疏问题以及采用词性信息平滑带来的信息粒度粗等问题，本发明提供了一种汉语依存树库中未登录词的处理方法，实现树库未登录词与已知词的映射转换，在不扩大数据规模的情况下，令单元对<词性，词性>可以回升到<词性，词>或<词，词性>，以细化信息粒度，缓解数据稀疏问题，改进依存句法分析的性能。

为了达到上述目的，本发明提供一种依存树库中未登录词的处理方法，具体步骤包括：

A、利用同义词词林，查找未登录词的所有同义词；

B、根据汉语字形特征，设计词语之间的字形相似度计算模型，计算未登录词及其所有同义词之间的字形相似度；

C、对于未登录词存在多个同义词与之映射时，抽取所映射的词及其对应词性的信息量，改进字形相似度计算模型；

D、根据字形相似度，抽取最优映射词。

其中，步骤A具体为：根据哈工大信息检索研究室《同义词词林》扩展版的编码方式，抽取与未登录词5层编码均相等的所有词汇，作为同义词。

步骤B，利用汉字是象形文字，其字形和字义的联系密切的特点。同时，汉字字库相对比较稳定，构词频率高的常用字约3,000字，总数也就2万多个字，绝大多数的新词也是由现有的字库组成的。因此将全体汉字用一个向量表示，向量的维数即为全体汉字数目，向量的值或者说权重为某一特定单元中汉字出现的次数；

设n为全体汉字字数，sw表示单个汉字，则全体汉字的向量表示： (sw₁,sw₂,…,sw_n)。

为此，词汇的字形相似度计算模型：

CoSim ({uw}_{i}, w_{j}) = g ({uw}_{i}, w_{j}) * \frac{Σ_{k = 1}^{n} C_{ik} * C_{jk}}{\sqrt{Σ_{k = 1}^{n} {C_{ik}}^{2} Σ_{k = 1}^{n} {C_{jk}}^{2}}}

其中，uw_i代表未登录词，w_j代表与未登录词uw_i在同义词词林中5层编码均相等的词汇，n为全体汉字组成的向量的维数。C_ik表示未登录词uw_i中第k个汉字的频次，C_jk表示词w_j中第k个汉字的频次。

步骤C，由于已知词在树库中出现的频度，是影响分析器学习该词句法信息的一个重要因素，通常频度越高其句法信息越充分，而映射词与已知词能发生映射的前提条件是词性相同，因此当某个未登录词与多个已知词存在关系时，引入词的频度来调整字形相似度计算。对字形相似度进行改进：

FinalSim ({uw}_{i}, w_{j}) = \log_{(C_{P_{j}} + 1)} (C_{w_{j}} + 1) * CoSim ({uw}_{i}, w_{j})

表示已知词w_j的词性在树库中的频次，

表示词wj在树库中的频次。为避免频次为0的情况，对对数进行了数据加1平滑。

步骤D，根据字形相似度计算，进行最优化求解，获取最优映射词：

w_{j} = \arg_{w_{j}} \max FianlSim ({uw}_{i}, w_{j})

目前，大多数依存句法分析是基于词汇统计模型，但在现有资源有限的前提下，随着网络新兴用于的涌现，会出现严重数据稀疏问题，给句法分析带来严重阻碍。本发明借助扩展版的《同义词词林》，根据汉字字形特征，设计字形相似度计算模型，将树库未登录词映射成已知词，从而实现在不扩大数据规模的情况下，细化信息粒度，缓解树库数据稀疏问题，改进依存句法分析性能。

附图说明

图1是本发明实例的依存树库中未登录词处理方法的流程示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

S10、利用同义词词林，查找未登录词的所有同义词。

查找依存树库中未登录词，根据《同义词词林》扩展板的5层编码方式，获取与未登录词5层编码均相同且第8位标记位为“=”号的所有词，作为未登录词的同义词。

S20、根据汉字字形特征，计算未登录词与同义词的字形相似度。

全体汉字向量用(sw₁,sw₂,…,sw_n)表示，这样每一个词语都可以用由0或所含字频次构成的汉字向量表示。将树库的未登录词用uw₁,uw₂,…,uw_t表示，已知词用w₁,w₂,…,w_m表示，当uw_i与w_j在《同义词词林》中是同义词时，则计算二者的字形相似度：

CoSim ({uw}_{i}, w_{j}) = g ({uw}_{i}, w_{j}) * \frac{Σ_{k = 1}^{n} C_{ik} * C_{jk}}{\sqrt{Σ_{k = 1}^{n} {C_{ik}}^{2} Σ_{k = 1}^{n} {C_{jk}}^{2}}}

其中n为全体汉字组成的向量的维数，k为全体汉字向量的元素位置。C_ik表示未登录词uw_i中第k个汉字的频次，C_jk表示词w_j中第k个汉字的频次。

S30、当未登录词与多个已知词的字形相似度值相同时，需要改进字形相似度计算模型。

当某个未登录词与多个已知词的字形相似度相同时，无法确定哪个已知词为最优的映射词，如“导体、半导体、超导体”是一组同义词，如果“导体”是未登录词，其它两个是已知词，那么“导体”与两个已知词的字形相似度均相同。为了选择更优的映射词，引入词的频次来调整字形相似度计算模型。词性相同的情况下，已知词在树库中出现的频次，是影响分析器学习该词句法信息的一个重要因素，通常频度越高，分析器学习其句法信息越充分。因此当未登录词存在多个已知词可作为映射词时，需要进一步调整字形相似度计算：

FinalSim ({uw}_{i}, w_{j}) = \log_{(C_{P_{j}} + 1)} (C_{w_{j}} + 1) * CoSim ({uw}_{i}, w_{j})

表示已知词w_j的词性在树库中的频次，

S40、选取最优的已知词作为未登录词的映射词：

w_{j} = \arg_{(w_{j})} \max FianlSim ({uw}_{i}, w_{j}) .

部分未登录词映射表如表1所示。

表1

未登录词	已知词
		暗 AD	暗中 AD
保险金 NN	保证金 NN
		报表 NN	表格 NN
巴西人 NN	西班牙人 NN
		拨发 VV	签发 VV
…	…

以上技术方案详细介绍了汉语依存树库中未登录词处理方法，在资源库的使用上，不限于使用扩展版《同义词词林》获取未登录词的同义词，在应用范围上，可以用于所有汉语依存句法分析树库和可转化为依存树库的所有汉语树库。依据本发明实施例的思想，在具体实施细节、所采用资源库或应用范围上会有所改变，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种汉语依存树库中未登录词的处理方法，其特征在于，所述方法包括以下步骤：

利用同义词词林，查找未登录词的所有同义词；

根据汉字字形特征，设计词语之间的字形相似度计算模型，计算未登录词及其所有同义词之间的字形相似度；

当未登录词存在多个同义词与之映射时，抽取所映射的词及其对应词性的信息量，改进字形相似度计算模型；

根据字形相似度，抽取未登录词的最优映射词，作为树库中对未登录词的解释。

2.如权利要求1所述的汉语依存树库中未登录词的处理方法，其特征在于，在步骤A中，借助现有语义资源，寻找与树库中未登录词在语义上相同或相近或相关的所有词，作为未登录词的同义词。

3.如权利要求1和权利要求2所述的汉语依存树库中未登录词的处理方法，其特征在于，在步骤A中，选用了哈尔滨工业大学信息检索研究室扩展版的《同义词词林》作为语义资源，获取未登录词的同义词。

4.如权利要求1所述的汉语依存树库中未登录词的处理方法，其特征在于，在步骤B中，汉字字形特征是指根据汉字是象形文字的特点，利用字形表征汉字字义，具体做法是全体汉字用一个向量表示，向量的维数即为全体汉字总数，向量的值或者说权重为某一特定单元中汉字出现的次数。

5.如权利要求1所述和权利要求4所述的汉语依存树库中未登录词的处理方法，其特征在于，字形相似度计算模型如下：

Figure 2012103448843100001DEST_PATH_IMAGE002AAA

uw_i代表未登录词，w_j代表与未登录词uw_i在同义词词林中5层编码均相等的词汇，n为全体汉字组成的向量的维数，k为全体汉字向量的元素位置，C_ik表示未登录词uw_i中第k个汉字的频次，C_jk表示词w_j中第k个汉字的频次。

6.如权利要求1所述的汉语依存树库中未登录词的处理方法，其特征在于，当存在多个同义词与未登录词字形相似度值相同时，引入词的频度信息来调整字形相似度计算模型，调整后的字形相似度计算模型如下：

其中，C_Pj表示已知词w_j的词性在树库中的频次，C_wj表示词wj在树库中的频次，为避免频次为0的情况，对对数进行了数据加1平滑。

7.如权利要求1所述的汉语依存树库中未登录词的处理方法，其特征在于，字形相似度最大的词作为未登录词的最优映射词，在树库中作为对未登录词的解释，其选择方式如下：

。