CN101950306B

CN101950306B - 新词发现中的字符串过滤方法

Info

Publication number: CN101950306B
Application number: CN 201010298510
Authority: CN
Inventors: 牟小峰
Original assignee: Beijing Feinno Communication Technology Co Ltd
Current assignee: Beijing Feinno Communication Technology Co Ltd
Priority date: 2010-09-29
Filing date: 2010-09-29
Publication date: 2013-06-26
Anticipated expiration: 2030-09-29
Also published as: CN101950306A

Abstract

本发明公开了一种新词发现中字符串过滤方法，该方法包括：步骤A、抽取候选字符串；步骤B、估计候选字符串的成词概率；步骤C、将成词概率大于第一预设阈值的候选字符串作为词语串输出。本发明所述方法在区分垃圾串和词语串时使用了概率估计方法，通过词的上下文约束和词位的成词概率来给字符串排序，同时采用了N元搭配来过滤垃圾串。本发明所述方法的优点在于：1）支持任意长度的新词发现（大于等于2个汉字）；2）识别准确率明显提高；3）计算复杂度低，符合工程实用的目的。

Description

新词发现中的字符串过滤方法

技术领域

本发明涉及文本信息处理技术领域，特别涉及一种新词发现中的字符串过滤方法。

背景技术

近年来，随着互联网的逐渐流行，各种电子资源文本规模日渐扩大，文本中包含的信息越来越多。为了从大量的资源中检索和挖掘有价值的信息，研究界和企业界大力开发各种文本处理和数据挖掘技术。各种文本处理和数据挖掘的方法往往是基于词语，因此自动发现新词是进行文本处理和数据挖掘的重要部分。

所谓新词发现，是指从文本中以自动或半自动的方式获得未登录词。

由于现有汉语分词方法、理论及实现中的种种缺陷，尚无一种汉语分词方法能够在分词准确率和分词速度上达到较高的水平。汉语分词的准确率高，往往需要增大分词中的计算开销，从而导致分词系统在工程上不适用；汉语分词的速度快，往往需要降低分词中的准确率，从而也容易导致分词系统在工程上不适用。

导致分词系统准确率无法提高的重要原因在于未登录词识别准确率不高，包括人名、地名、组织机构名和其它类型的新词。为了提高未登录词的识别准确率，必须从文本里发现未登录词，并把这些发现的未登录词注入词典，从而减少未登录词的识别错误。

新词发现的研究方法主要包括如下两种：

1)基于监督的新词发现方法，该方法适合处理低频和较短的字符串组成的新词。这种方法一般基于训练语料，采用各种统计模型进行识别。基于监督的新词发现方法的缺点在于容易受到训练语料和分词系统的影响，导致系统准确率不高或者获得的新词存在种种限制。

2）基于非监督的新词发现方法，该方法适合处理高频和较长的字符串组成的新词。这种方法一般不需要训练语料进行统计分析，直接从字或词出发计算字符串或词串的成词概率。基于非监督的新词发现的缺点在于计算复杂性太高，新词发现的准确率不高。

对基于无监督的新词发现方法而言，需要把垃圾串（即垃圾字符串）和词语串（词语字符串）区分开来。垃圾串并不是新词，词语串是新词。所谓新词发现，就是把垃圾串和词语串区分开，仅保留词语串即可。由于二者并没有明显的外在形式特征，因此该问题并不容易处理。

学术界现有的区分垃圾串和词语串的方法如下：

（1）基于规则的垃圾串过滤。通过对文本中词语构成特点的分析，总结得到大量构词法知识，包括过滤规则、构词规则、特殊构词规则等。通过语言学规则来限定和约束字与字的组合从而发现新词。基于规则的方法对于过滤明显的垃圾串非常有用，该方法能区分出绝大多数词语串，但是也会保留大量垃圾串，过滤精度比较低。

（2）基于字符串组合概率来过滤垃圾串。通过分词系统切分文本，通过统计单字与其它字符串的成词概率来保留词语串或过滤垃圾串。字与字或字与字符串之间的成词概率通过大规模语料库可以估计得到，成词概率超过预设阈值的字符串可以作为词语串或者垃圾串。相对于规则方法而言，统计方法能够从成词概率上估计字符串的概率大小，该方法在准确率上明显优于规则方法，但仍然保留了大量垃圾串。

（3）基于n元语法的新词发现。通过统计字与字的N元搭配来发现新词，例如二元、三元、四元等等，并对超出一定出现阈值的N元字符串进行语言学规则过滤，符合规则的字符串判断为新词。该方法的缺陷在于，新词的长度并不确定，因此必须统计大量字符串的N元搭配，而这种统计方法往往会占用大量资源。如果仅统计长度有限的新词，则较长的新词必定会遗漏。另外，基于规则的过滤方法的效果并不太好。

（4）基于多种特征量的背景比对。通过比较候选字符串的多种特征量以及和背景文本之间的概率差异来判断新词的概率，这些特征量包括上下文熵、似然比等等。背景文本往往是与测试文本相似的文本，通过比较二者之间的差异来判断测试文本中的新词。该方法的缺陷在于计算复杂性较高，而且背景文本的确定也比较困难，实用性并不好。

以上诸种垃圾串过滤方法均有其局限性，或者过滤的准确率太低，或者计算复杂性太高，过滤效果和表现并不能满足工程应用的要求。

发明内容

（一）要解决的技术问题

本发明要解决的技术问题是：如何提供一种计算复杂度低、新词发现准确率高并能够支持任意长度的新词发现中的字符串过滤方法。

（二）技术方案

为解决上述技术问题，本发明提供了一种新词发现中字符串过滤方法，该方法包括：

步骤A：抽取候选字符串；所述抽取候选字符串的方法为基于监督的新词发现方法和基于非监督的新词发现方法之一或二者的结合；

步骤B、根据候选字符串的上下文和内部组成来估计候选字符串的成词概率；

步骤C、基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾串过滤，将剩余的候选字符串作为词语串输出；具体包括：如果成词概率大于第一预设阈值的候选字符串的子串是新词，且该子串成词概率高于相关的成词概率大于第一预设阈值的候选字符串的成词概率，则判定相关的成词概率大于第一预设阈值的候选字符串是垃圾串，对垃圾串进行过滤，将相关的成词概率大于第一预设阈值的候选字符串的子串作为词语串输出。

优选地所述成词概率的计算公式为：p(S)=λ₁t(S)*λ₂q(S)，其中，t(S)和q(S)分别为字符串S的左右邻接概率和内部构成概率，λ₁和λ₂分别为t(S)和q(S)的权重；所述t(S)的计算公式为：

t (S) = \frac{count (S_{L})}{freq (S)} * \frac{count (S_{R})}{freq (S)} * \frac{freq (S)}{α}

其中，count(S_L)为字符串S的左邻接字数目；count(S_R)为字符串S的右邻接字数目；freq(S)为字符串S的频次；α为调整因子；所述q(S)的计算公式为：

q (S) = \underset{s_{i} &Element; S}{Σ} q_{m} (s_{i})

q_{m} (s_{i}) = \frac{word (s_{i})}{freq (s_{i})}

其中word(s_i)表示字符s_i与其它字符组合成词的频次，q_m(s_i)表示字符s_i的构词能力，freq(s_i)为字符s_i的频次。

优选地，所述count(S_L)为1；所述count(S_R)为1；所述α为10000。

（三）有益效果

本发明提出了一种新词发现中的字符串过滤方法。本方法在区分垃圾串和词语串时使用了概率估计方法，通过词的上下文约束和词位的成词概率来给字符串排序，同时采用了N元搭配来过滤垃圾串。本发明所述方法的优点在于：

1）支持任意长度的新词发现（大于等于2个汉字）；

2）识别准确率明显提高；

3）计算复杂度低，符合工程实用的目的。

附图说明

图1是本发明实施例的新词发现中字符串过滤方法的流程图；

图2是本发明所述方法中基于N元语法对成词概率大于预设阈值的候选字符串进行垃圾串过滤的方法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明的核心思想是：对于挖掘得到的候选字符串，本方法通过对候选字符串的上下文和内部结构组成来估计候选字符串的成词概率，并引入N元语法模型和分词算法来进行候选字符串的过滤。

图1是本发明实施例的新词发现中字符串过滤方法的流程图；如图1所述，所述方法包括：

步骤A：抽取候选字符串。

可以使用现有的基于监督的新词发现方法、基于非监督的新词发现方法或二者的结合方法来抽取候选字符串。

步骤B、估计候选字符串的成词概率。

通过上述方法得到的候选字符串中，大部分是垃圾串，少部分是词语串。在本步骤中，必须对垃圾串和词语串进行初步区分。

对字符串成词概率的影响因素主要包括以下两类：

1、字符串的左右上下文

一个字符串是否成词，必然受到上下文的影响。如果考虑的上下文范围越大，则对字符串成词的概率估计越准确，但计算复杂度越高。如果考虑的上下文范围越小，则计算效率越高，但成词概率估计准确率并不高。本文从工程实际的角度出来，将字符串的上下文界定为左右各一个字。例如，给定字符串“且说袭人自幼”，若“袭人”是候选字符串，则左右上下文为“说”和“自”。通过对语料的分析发现，如果串与左右字的结合很紧密，往往意味着串必须向左或向右扩充。字符串的左右上下文仅仅是字符串成词的外在条件，并非该条件下的所有字符串均是词语，因此，还必须从字符串的内部组成出发估计字符串的成词概率。

2、字符串内部组成

字的构词能力存在差异。字的构词能力表现在参与构词的概率以及构词时的词位概率。有些字很少参与词的构造，一般单用，例如“的”，有些字一般参与词的构造，单用的情况甚至比较少，例如“电”；有些字倾向在词首使用，在其它位置很少出现，例如“阿”，有些字倾向在词中或词尾使用，且很少在词首出现，例如“子”；有些字对所处的词串长度也有要求，如“赴”在尾部出现，则词长都为2(2个汉字)，如“奔赴、赶赴、飞赴”，“赴”在首部出现，则词长大多为2，例如“赴任、赴难、赴宴”，“赴”在中间出现，则词长为3和4常见，例如“单刀赴会、共赴国难、前赴后继”。

给定长度为N的字符串S=s₁，...,s_n(s_i是指汉字)，左右邻接字集合分别为A和B，则字符串S成词的概率为：

p(S)=λ₁t(S)*λ₂q(S) （1）

其中，t(S)和q(S)分别为字符串S的左右邻接概率和内部构成概率。λ₁和λ₂分别为t(S)和q(S)的权重，可以根据t(S)和q(S)的重要性调整。在本步骤中，假定二者相等。

t(S)可以根据下述公式（2）确定，

t (S) = \frac{count (S_{L})}{freq (S)} * \frac{count (S_{R})}{freq (S)} * \frac{freq (S)}{α} - - - (2)

其中，count(S_L)为字符串S的左邻接字数目，这里为1；count(S_R)为字符串S的右邻接字数目，这里为1；freq(S)为S的频次；α为调整因子，可以根据上下文调整，在本步骤中，α设定为10000。

由公式（2）可知，字符串S的成词概率与其频次和邻接上下文非常有关。如果S左右邻接不同的上下文比较多，则S独立成词的概率比较大，一般不能向左右扩展。为了避免S的频次过低导致

过大的情况，引入了α因子来调节。如果S的频次比较低，则

越小，即会对前面的

进行调节，这可以有效避免频次过低导致成词概率过大的情况出现。

q(S)可以根据下述公式（3）和（4）确定，

q (S) = \underset{s_{i} &Element; S}{Σ} q_{m} (s_{i}) - - - (3)

q_{m} (s_{i}) = \frac{word (s_{i})}{freq (s_{i})} - - - (4)

其中word(s_i)表示字符s_i与其它字符组合成词的频次。该值从标注语料中抽取。q_m(s_i)表示字符s_i的构词能力，freq(s_i)为字符s_i的频次。

由于候选字符串的长度不一样，因此若对字符串中所有字均计算成词概率，则较长字符串的成词概率会比较小，较短字符串的成词概率会比较大。为了避免字符串长度对成词的影响，本步骤仅仅考虑字符串中成词概率最小的两个字(字符串的长度最小为2)。这两个字的成词概率作为所在字符串的成词概率。

步骤C、将成词概率大于预设阈值的候选字符串作为词语串输出。

本步骤具体包括：基于N元语法对成词概率大于预设阈值的候选字符串进行垃圾串过滤，将剩余的候选字符串作为词语串输出。

利用字符串的成词概率估计方法可以对大部分字符串进行处理，即将成词概率大于预设阈值的候选字符串作为词语串输出，但其对常用词组成的垃圾串不太有效，某些常用词可以与多种不同类型的上下文组合，且字符串内的字或词的构词能力也比较高，因而根据左右上下文的成词概率估计方法会给该类字符串过高的成词概率估计。为了去除掉此类常用词组成的垃圾串的影响，本步骤基于汉语分词和N元语法的策略对步骤B中得出的成词概率大于预设阈值的候选字符串进行垃圾串过滤，将剩余的候选字符串作为词语串输出。

图2是本发明所述方法中基于N元语法对成词概率大于预设阈值的候选字符串进行垃圾串过滤的方法流程图。参见图2，所述方法包括：

步骤201、对成词概率大于预设阈值的候选字符串进行分词；

给定一个候选字符串，必须首先进行汉语分词。由于给定的字符串比较短小，且缺乏足够的上下文信息来判断分词位置，因此基于上下文语境的分词系统往往很难取得很好的分词效果。另外，由于要处理的字符串往往由常用词组成，很少涉及到未登录词的识别问题，因此也用不着利用复杂的分词系统来进行分词。

在本步骤中，仅使用正向最大匹配和逆向最大匹配结合的办法来对成词概率大于预设阈值的候选字符串进行分词。

所述正向最大匹配分词是指从左往右利用最大匹配的策略来分词。正向最大匹配分词的伪代码为：

所述逆向最大匹配分词是指从右往左利用最大匹配的策略来分词。逆向最大匹配最大的优点在于处理正向匹配无法发现的歧义字段。逆向最大匹配分词的伪代码为：

采用其中任何一种分词方法均无法完全避开交集型歧义的影响。因此，本方法同时采用两种分词方法以尽量避免交集型歧义的影响。例如：在“洗衣服”里，正向最大匹配的分词结果为“洗衣服”，逆向最大匹配的分词结果为“洗衣服”；在“第一场”里，逆向最大匹配的分词结果为“第一场”，正向最大匹配的分词结果为“第一场”。

步骤202、对词进行N元搭配测试，找出垃圾串；

无论正向分词还是逆向分词，只要其中任何一种分词结果无法通过N元搭配的测试，该字符串即被认为是垃圾串。

所谓通过N元搭配的测试是指，分词后字符串中任何一对邻接词，如果该二元对在N元搭配中出现，则该字符串是垃圾串。只有字符串中任意邻接词组合不在N元搭配中出现，该串才会被认为是合法串。例如，给定分词后的字符串“后增加了”，如果二元对“后增加”或“增加了”出现在N元搭配中，则该串即被认为是垃圾串。

由于汉语的新词内部组合往往未曾出现，前后一般很少接续，例如“淡定、灰常”。有些新概念是由已有词语组合而成，如“中国移动、中国联通”，这种新词的意义往往比较简单，易于理解，整体意义往往是部分意义之和，对新词发现而言意义不大。

为了进行N元搭配的测试，必须统计词的N元模型。

在统计词的N元模型时，N越大，则过滤的精度会越高，但所需的语料规模越大。反之，N越小，则过滤的精度会低一些，但对语料的规模没有特别的要求。为了在语料规模和过滤精度之间取得平衡，本方法暂时采用2元模型。

在统计词的2元搭配时，并不需要统计所有词的2元邻接情况。根据前面的分析可知，仅需要常用词的邻接搭配即可，频次较低的词不需统计。在本步骤中，仅考虑频次最高的2万词的2元搭配。

对于经过分词的成词概率大于预设阈值的候选字符串，计算邻接词语是否在N元搭配中出现。如果出现，则判定为垃圾串。

步骤203、对垃圾串进行过滤，将剩余的候选字符串作为词语串输出。

某些成词概率大于预设阈值的候选字符串包含丰富的左右上下文，在抽取字符串的过程中，往往容易误将这类字符串与左右上下文作为候选字符串。在字符串的成词概率估计中，该类字符串的概率往往较高。为了确定此类字符串是否为垃圾串，可以判断这类字符串的子串是否是新词，且子串的成词概率是否高于这类字符串的成词概率。如果子串是新词且子串成词概率高于当前字符串的成词概率，则当前字符串是垃圾串。进一步将当前字符串过滤掉，保留其子串作为词语串输出。

在一般的汉语词语中，并不包含标点、数字、字母等符号，因此，包含这些符号的字符串一律作为垃圾串。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种新词发现中字符串过滤方法，其特征在于，该方法包括：

步骤A、根据候选字符串的上下文和内部组成来估计候选字符串的成词概率；

步骤B、将成词概率大于第一预设阈值的候选字符串作为词语串输出；

所述成词概率的计算公式为：p(S)=λ₁t(S)*λ₂q(S)，其中，t(S)和q(S)分别为字符串S的左右邻接概率和内部构成概率，λ₁和λ₂分别为t(S)和q(S)的权重；所述t(S)的计算公式为：

t (S) = \frac{count (S_{L})}{freq (S)} * \frac{count (S_{R})}{freq (S)} * \frac{freq (S)}{α}

q (S) = \underset{s_{i} &Element; S}{Σ} q_{m} (s_{i})

q_{m} (s_{i}) = \frac{word (s_{i})}{freq (s_{i})}

2.如权利要求1所述的方法，其特征在于，所述步骤B具体包括：基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾串过滤，将剩余的候选字符串作为词语串输出。

3.如权利要求2所述的方法，其特征在于，所述基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾串过滤，将剩余的候选字符串作为词语串输出具体包括：

步骤201、对成词概率大于第一预设阈值的候选字符串进行分词；

步骤202、对词进行N元搭配测试，找出垃圾串；

4.如权利要求2所述的方法，其特征在于，所述基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾串过滤，将剩余的候选字符串作为词语串输出具体包括：如果成词概率大于第一预设阈值的候选字符串的子串是新词，且该子串成词概率高于相关的成词概率大于第一预设阈值的候选字符串的成词概率，则判定相关的成词概率大于第一预设阈值的候选字符串是垃圾串，对垃圾串进行过滤，将相关的成词概率大于第一预设阈值的候选字符串的子串作为词语串输出。

5.如权利要求1所述的方法，其特征在于，所述count(S_L)为1；所述count(S_R)为1；所述α为10000。

6.如权利要求1-5中任一项所述的方法，其特征在于，在步骤A之前，该方法进一步包括：抽取候选字符串的步骤。

7.如权利要求6所述的方法，其特征在于，所述抽取候选字符串的方法为基于监督的新词发现方法和基于非监督的新词发现方法之一或二者的结合。