CN103020022A

CN103020022A - 一种基于改进信息熵特征的中文未登录词识别系统及方法

Info

Publication number: CN103020022A
Application number: CN2012104733407A
Authority: CN
Inventors: 李超; 李想; 吕志强
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2012-11-20
Filing date: 2012-11-20
Publication date: 2013-04-03
Anticipated expiration: 2032-11-20
Also published as: CN103020022B

Abstract

本发明提出了一种基于改进信息熵特征的中文未登录词识别系统及方法，该系统包含：字符序列提取模块：从中文文本中切分成许多字符序列，字符序列最短两个字符，字符序列中必须有且仅有中文汉字字符；特征计算模块：计算所有字符序列的统计特征，包括：左邻接字的改进信息熵，右邻接字的改进信息熵等；成词识别模块：使用训练好的成词识别的分类器进行分类处理，判断字符序列成词或者不成词；词典比对模块：将成词识别模块获得的成词字符序列与词典文件对比，词典文件中不存在字符序列的即是未登录的词汇。本发明充分利用中文文本的统计特征，弥补传统未登录词识别方法的不足，降低对词典质量的依赖，具有实用性强、准确度高、以及实现方便的优点。

Description

一种基于改进信息熵特征的中文未登录词识别系统及方法

技术领域

本发明属于中文词的识别的技术领域，具体涉及一种基于改进信息熵特征的中文未登录词识别系统及方法，其中涉及一种中文未登录词的识别系统及方法，特别是在这种方法是完全基于统计特征的，而且在统计过程中使用本发明提出的改进的信息熵特征。

背景技术

随着网络时代的发展与web2.0概念的兴起，未登录词的大量出现已经成为不可避免的语言现象。这种现象在SNS的UGC（user generate content）当中尤为明显，社交网络中，用户用词十分随意，极不规范，造词速度很快。未登录词识别在很大程度上影响着相关信息处理的效果，在中文分词领域，未登录词的识别性能已经成为提高分词效果的瓶颈。研究表明，在过去20多年中每年会产生800个以上的新词，而正是这些未收录进词库的新词，导致了中文分词60%以上的错误，可见提高未登录词的识别率对中文分词具有重要意义。

传统的未登录词识别系统总是先对文本进行词典分词，提取出词典中不存在的文本片段，然后猜测这些片段就是未登录词。这类方法的明显不足之处在于未登录词的识别结果本身就依赖于词典的质量。

发明内容

本发明要解决的技术问题为：克服现有技术方案的不足，提供一种基于改进信息熵特征的中文未登录词识别系统及方法，该系统及方法充分利用中文文本的统计特征，弥补传统未登录词识别方法的不足，降低了对词典质量的依赖，使该系统应用具有实用性强、准确度高、以及实现方便的优点。

为了实现上述目的，本发明采用的技术方案为：一种基于改进信息熵特征的中文未登录词识别系统，包括：

字符序列提取模块：该模块从中文文本中切分成许多字符序列，字符序列最短两个字符，字符序列中必须有且仅有中文汉字字符，如果包含非汉字的其他字符，则不统计该非汉字的其他字符序列；

特征计算模块：该模块计算所有字符序列的统计特征，包括：字符序列的左邻接字的改进信息熵、字符序列的右邻接字的改进信息熵，字符序列的出现频率，字符序列的互信息，字符序列的序列长度；其中：

在字符序列的左、右邻接字符信息熵特征计算过程中，并不是直接计算信息熵特征，而是先用一个随机的不重复字符代替标点符号字符，然后再使用一般的信息熵的计算方法，得到改进的信息熵特征。

公式为：H(x)＝-∑P(x_i)log(P(x_i))，其中H（x）是邻接字符的信息熵，P(x_i)是邻接字符取x_i的概率；

字符序列的出现频率是指字符在整个文本中的出现次数；

字符序列的互信息是指：假设有汉字串w1w2，则汉字w1和w2间的互信息定义为：

MI (w_{1} w_{2}) = \log \frac{P (w_{1} w_{2})}{P (w_{1}) P (w_{2})};

如果推广到多字词，互信息的计算方法将扩展成：

MI (w_{1} w_{2} \cdot \cdot \cdot w_{n}) = Min {\log \frac{P (w_{1} w_{2} \cdot \cdot \cdot w_{n})}{P (w_{1} \cdot \cdot \cdot w_{i}) P (w_{i + 1} w_{n})}};

字符序列的序列长度是指字符序列包含的字符数；

成词识别模块：该模块使用训练好的成词识别的分类器进行分类处理，判断字符序列成词或者不成词；

词典比对模块：该模块将成词识别模块获得的成词字符序列与词典文件对比，词典文件中不存在字符序列的即是未登录的词汇。

另外，本发明的一种基于改进信息熵特征的中文未登录词识别方法，包括：

字符序列提取步骤：该步骤从中文文本中切分成许多字符序列，字符序列最短两个字符，字符序列中必须有且仅有中文汉字字符，如果包含非汉字的其他字符，则不统计该非汉字的其他字符序列；

特征计算步骤：该步骤计算所有字符序列的统计特征，包括：字符序列的左邻接字的改进信息熵、字符序列的右邻接字的改进信息熵，字符序列的出现频率，字符序列的互信息，字符序列的序列长度；其中：

公式为：H(x)＝-∑P(x_i)log(P(x_i))，其中H（x）是邻接字符的信息熵，P(x_i)是邻接字符取xi的概率；

字符序列的出现频率是指字符在整个文本中的出现次数；

MI (w_{1} w_{2}) = \log \frac{P (w_{1} w_{2})}{P (w_{1}) P (w_{2})};

如果推广到多字词，互信息的计算方法将扩展成：

MI (w_{1} w_{2} \cdot \cdot \cdot w_{n}) = Min {\log \frac{P (w_{1} w_{2} \cdot \cdot \cdot w_{n})}{P (w_{1} \cdot \cdot \cdot w_{i}) P (w_{i + 1} w_{n})}};

字符序列的序列长度是指字符序列包含的字符数；

成词识别步骤：该步骤使用训练好的成词识别的分类器进行分类处理，判断字符序列成词或者不成词；

词典比对步骤：该步骤将成词识别模块获得的成词字符序列与词典文件对比，词典文件中不存在字符序列的即是未登录的词汇。

本发明与现有技术相比的优点在于：

（1）本发明考虑了中文文本中标点符号字符对未登录词识别的特殊作用，提出了一种改进的信息熵计算模型；

（2）本发明提出了使用统计特征尤其是改进信息熵特征构造分类器来识别字符序列的成词，这些统计特征对字符序列是否成词的区分度良好，分类识别的准确率高于传统的信息熵特征；

（3）本发明降低了对词典质量的依赖，完全使用统计特征来识别词汇，仅仅在词典比对模块使用了词典。

附图说明

图1是本发明系统的体系结构图；

图2是本发明的字符序列改进信息熵特征的计算过程。

具体实施方式

下面结合实例对本发明进行详细说明。

本发明提出了一种基于改进信息熵特征的中文未登录词识别系统。如图1所示，该系统包括如下模块：

字符序列提取模块。将需要识别的中文文本完全看成一个很长的字符串，从字符串中逐个切分成许多字符序列。由于普遍认为单字不成词，字符序列最短两个字符，最长字符数可以人工设定，通常认为是5个字符。字符序列中必须有且仅有中文汉字字符，如果包含非汉字的其他字符则不统计改字符序列。

特征计算模块。计算所有字符序列的统计特征，包括：根据权利要求1计算模型得到的左邻接字的改进信息熵、右邻接字的改进信息熵，加上出现频率，互信息，序列长度。

出现频率是指在整个文本中的出现次数。

互信息的定义如下：假设有汉字串w1w2，则汉字w1和w2间的互信息定义为：

MI (w_{1} w_{2}) = \log \frac{P (w_{1} w_{2})}{P (w_{1}) P (w_{2})} .

如果推广到多字词，计算方法将扩展成：

MI (w_{1} w_{2} \cdot \cdot \cdot w_{n}) = Min {\log \frac{P (w_{1} w_{2} \cdot \cdot \cdot w_{n})}{P (w_{1} \cdot \cdot \cdot w_{i}) P (w_{i + 1} w_{n})}} .

序列长度指字符序列包含的字符数。

成词识别模块：使用训练好的成词识别的分类器进行分类处理，判断字符序列成词或者不成词。

词典比对模块：将成词识别模块获得的成词字符序列与词典文件对比，词典文件中不存在字符序列的即是未登录的词汇。

本发明的具体步骤例如如下：

一、数据准备

本发明提供的未登录词识别方法完全基于统计特征，对词典的依赖较小，对数据格式也无要求。为了使统计特征趋于稳定，减少偶然数据带来的模型扰动，建议待识别的中文文本数据最好在100000字符以上，对数据来源没有要求，只要是能够在现实生活中沟通的汉语语言数据即可，包括但不限于报纸文章，网站文章，博客文章，现代汉语文学作品如小说、散文，微博客段落。

二、分类器训练

在本发明的方法中，需要使用判断字符序列是否成词的分类器，这个分类器应该在使用前训练完毕。采取的训练语料是从SNS网站上抓取的用户tweeter文本，约200000个字符，统计了其中10000个字符序列的特征，并且人工标注了这些字符序列是否成词。分类是一种监督的学习方法，所以训练语料需要标注，也就是标注一个字符序列成词与否，可以采取自动标准，也可以采取人工标准。使用标注好的训练语料训练这个分类器。

三、特征统计

计算所有字符序列的统计特征，包括：左邻接字的改进信息熵，右邻接字的改进信息熵（参照图2），出现频率，互信息，序列长度；

公式为：H(x)＝-∑P(x_i)log(P(x_i))，其中H是邻接字符的信息熵，P(x_i)是邻接字符取x_i的概率。

出现频率是指在整个文本中的出现次数。

MI (w_{1} w_{2}) = \log \frac{P (w_{1} w_{2})}{P (w_{1}) P (w_{2})} .

当然这仅仅是二字词的，如果推广到多字词，计算方法将扩展成：

MI (w_{1} w_{2} \cdot \cdot \cdot w_{n}) = Min {\log \frac{P (w_{1} w_{2} \cdot \cdot \cdot w_{n})}{P (w_{1} \cdot \cdot \cdot w_{i}) P (w_{i + 1} w_{n})}} .

序列长度指字符序列包含的字符数。

统计完成后，待识别词汇便可以表示成如下格式：

表1：统计完成后待识别词汇示例格式

词汇	左邻接字信息熵	右邻接字信息熵	长度	互信息	频次
						神马	4．78	3.97	2	7.93	367
答应	3.88	3.00	2	8.44	86
						伤不	4.86	0.14	2	4.39	614
......	......	......	......	......	......

四、分类识别

使用第二步训练好的分类器对第三步统计好的数据格式进行分类识别，于是得到如下数据：

表2：使用第二步训练好的分类器对第三步统计好的数据格式进行分类识别得到的数据

词汇	左邻接字信息熵	右邻接字信息熵	长度	互信息	频次	成词
							神马	4．78	3.97	2	7.93	367	是
答应	3.88	3.00	2	8.44	86	是
							伤不	4.86	0.14	2	4.39	614	否
......	......	......	......	......	......	......

五、词典对比

将第四步得到的被识别词的字符序列与词典文件进行对比，如果，词典中不存在这样的字符序列，那么该字符序列就是未登录词。例如第四步中得到的字符序列“神马”，被识别为成词，但是在词典文件中不存在，即被识别成未登录词。

以上实施例仅用以说明而非限制本发明的技术方案，不脱离本发明精神和范围的任何修改或局部替换，均应涵盖在本发明的权利要求范围当中。本发明未详细描述的部分属于本领域公知技术。

Claims

1.一种基于改进信息熵特征的中文未登录词识别系统，其特征在于：包括：

在字符序列的左、右邻接字符信息熵特征计算过程中，并不是直接计算信息熵特征，而是先用一个随机的不重复字符代替标点符号字符，然后再使用一般的信息熵的计算方法，得到改进的信息熵特征；

公式为：H(x)＝-∑P(x_i)log(P(x_i))，其中H(x)是邻接字符的信息熵，P(x_i)是邻接字符取x_i的概率)；

字符序列的出现频率是指字符在整个文本中的出现次数；

MI (w_{1} w_{2}) = \log \frac{P (w_{1} w_{2})}{P (w_{1}) P (w_{2})};

如果推广到多字词，互信息的计算方法将扩展成：

MI (w_{1} w_{2} \cdot \cdot \cdot w_{n}) = Min {\log \frac{P (w_{1} w_{2} \cdot \cdot \cdot w_{n})}{P (w_{1} \cdot \cdot \cdot w_{i}) P (w_{i + 1} w_{n})}};

字符序列的序列长度是指字符序列包含的字符数；

2.一种基于改进信息熵特征的中文未登录词识别方法，其特征在于：包括：

公式为：H(x)＝-∑P(x_i)log(P(x_i))，其中H(x)是邻接字符的信息熵，P(x_i)是邻接字符取x_i的概率；

字符序列的出现频率是指字符在整个文本中的出现次数；

MI (w_{1} w_{2}) = \log \frac{P (w_{1} w_{2})}{P (w_{1}) P (w_{2})};

如果推广到多字词，互信息的计算方法将扩展成：

MI (w_{1} w_{2} \cdot \cdot \cdot w_{n}) = Min {\log \frac{P (w_{1} w_{2} \cdot \cdot \cdot w_{n})}{P (w_{1} \cdot \cdot \cdot w_{i}) P (w_{i + 1} w_{n})}};

字符序列的序列长度是指字符序列包含的字符数；