CN102231153A

CN102231153A - 一种新词发现方法和系统

Info

Publication number: CN102231153A
Application number: CN 201110138042
Authority: CN
Inventors: 吴悦
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: Shengle Information Technolpogy Shanghai Co Ltd
Priority date: 2011-05-25
Filing date: 2011-05-25
Publication date: 2011-11-02

Abstract

本发明提供一种新词发现方法和系统，基于bigram语言模型分别提取了前背景语料的bigram元素，并分别得到前背景语料的统计信息，利用统计信息及第一预设规则过滤bigram元素，再利用n-gram语言模型及第二预设规则对剩余的bigram元素进行前景语料中的扩展，n-gram元素的更新不需要对背景语料重新计算，避免对背景语料里已有新词重新发现，利用第二预设规则判别新词的边界，去除垃圾bigram元素和n-gram元素，简单易用，减少了人工校对的负担。

Description

一种新词发现方法和系统

技术领域

本发明涉及文本信息处理领域，尤其涉及一种新词发现方法和系统。

背景技术

中文(还有日语等亚洲语言)不像西方语言那样使用空格表示词的边界，因此分词是中文语言处理的首要任务。然而随着互联网内容服务(比如微博、小说)的迅速发展，网络新词不断涌现，自动语音识别(ASR)、文本-语音(TTS)、搜索引擎等系统里所采用的分词模型需要不断更新新词才不会过时，因此新词发现最近成为研究热点。目前新词发现所面临的问题大概有三方面：

1.缺乏有效依据。对于新词目前没有明确定义，现有技术中，一般是用词典(作为背景语料)去除前景语料中的非新词，再用规则从剩余的短语碎片中判断新词。但是由于新词的组成千差万别，许多情况下不具备普遍规律，如小说中的人名译名，魔法名，种族名，用词典和规则的方法往往达不到良好效果。

2.词边界难于确定。现有技术中，采用基于语料库和概率统计方法的统计语言模型(一般为用前N-1个汉字来推测当前这个汉字的Markov模型称为N-gram(N元文法)语言模型，其中，当N＝1，2，3时，分别称为Unigram模型、Bigram模型和Trigram模型)建立分词系统时，对于前景语料，背景语料的分词模型可信度大打折扣，特别是在新词附近；而采用停用词(语料中词频较高，但没有意义的词，如“的”、“太”等)规则的方法时，停用词也会带来负面作用，过滤掉一些可能新词，比如″可的便利店″的“可的”。

3.更新困难。依赖于分词的新词发现，往往需要将背景语料和前景语料结合起来重新训练分词模型，滚动地发现新词，流程复杂而且耗时。

发明内容

本发明的目的在于提供一种新词发现方法和系统，利用背景语料的统计信息筛选新词，对新词的边界进行判别，避免对背景语料里已有新词重新发现，减少了人工校对的负担。

为解决上述问题，本发明提出一种新词发现方法，包括：

根据bigram语言模型抽取已知背景语料的bigram元素，并统计所述已知背景语料中所有bigram元素的词频和与种数；

根据bigram语言模型抽取前景语料的bigram元素，并统计所述前景语料中所有bigram元素的词频和与种数；

根据上述所有统计确定所述前景语料中符合第一预设规则的bigram元素；

根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展，确定所述前景语料中符合第二预设规则的n-gram元素，得到新词列表。

进一步的，所述第一预设规则包括：

该bigram元素在所述前景语料和已知背景语料中的出现概率比值与在所述前景语料和已知背景语料中所有bigram元素的平均概率的比值之比大于第一预设阈值；

所述前景语料中该bigram元素的词频与所有bigram元素的词频均值之比大于第二预设阈值；

该bigram元素的首字或尾字在所述前景语料中的相关度大于第三预设阈值。

进一步的，所述已知背景语料为国家语委现代汉语语料库中的语料。

进一步的，所述相关度的计算公式为：

k_{forward} (b_{i}) = \frac{f_{i} - {\overset{&OverBar;}{f}}_{forward}}{σ_{forward}}, k_{backward} (b_{i}) = \frac{f_{i} - {\overset{&OverBar;}{f}}_{backward}}{σ_{backward}},

其中，b_i表示该bigram元素，k_forward(b_i)表示该bigram元素的首字在所述前景语料中的相关度，k_backward(b_i)表示该bigram元素的尾字在所述前景语料中的相关度，f_i表示该bigram元素的词频，

是所述前景语料中所有首字为该bigram元素的首字的bigram元素的词频均值，σ_forward是f_i与

的标准差，

是所述前景语料中所有尾字为该bigram元素的尾字的bigram元素的词频均值，σ_backward是f_i与

的标准差。

进一步的，所述第二预设规则包括：

该n-gram元素由某(n-1)-gram元素向前或向后扩展一个字得到时，该n-gram元素关于该(n-1)-gram元素的条件概率大于第四预设阈值；

该n-gram元素向前或向后扩展一个字得到(n+1)-gram元素时，该(n+1)-gram元素关于该n-gram元素的条件概率小于等于所述第四预设阈值；

该n-gram元素的词频与所述前景语料中所有bigram元素的词频均值之比大于第五预设阈值。

进一步的，得到新词列表时，某(n-1)-gram元素独立成词的向前独立概率和向后独立概率均大于所述第四预设阈值时，保留该(n-1)-gram元素于所述新词列表中；

其中，

当由x_i-n+1，...，x_i-1组成的(n-1)-gram元素向后扩展一个字x_i得到由x_i-n+1，...，x_i组成的n-gram元素时，使该由x_i-n+1，...，x_i组成的n-gram元素关于该由x_i-n+1，...，x_i-1组成的(n-1)-gram元素的条件概率P(x_i|x_i-n+1，...，x_i-1)大于第四预设阈值的字x_i有j种，则定义该由x_i-n+1，...，x_i-1组成的(n-1)-gram元素独立成词的向后独立概率P_alone1(x_i-n+1，...，x_i-1)为：

P_{alone 1} (x_{i - n + 1}, . . ., x_{i - 1}) = 1 - Σ_{m = 1}^{j} P (x_{i_{m}} | x_{i - n + 1}, . . ., x_{i - 1})

当由x_i-n+1，...，x_i-1组成的(n-1)-gram元素向前扩展一个字x_i-n得到由x_i-n，...，x_i-1组成的n-gram元素时，使该由x_i-n，...，x_i-1组成的n-gram元素关于该由x_i-n+1，...，x_i-1组成的(n-1)-gram元素的条件概率P(x_i-n|x_i-n+1，...，x_i-1)大于第四预设阈值的字x_i-n有k种，则定义该由x_i-n+1，...，x_i-1组成的(n-1)-gram元素独立成词的向前独立概率P_alone2(x_i-n+1，...，x_i-1)为：

P_{alone 2} (x_{i - n + 1}, . . ., x_{i - 1}) = 1 - Σ_{m = 1}^{k} P (x_{i_{m} - n} | x_{i - n + 1}, . . ., x_{i - 1})

进一步的，根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展得到trigram元素的过程中，对所述剩余的bigram元素及得到trigram元素进行筛选更新。

进一步的，当由x_i-2，x_i-1组成的bigram元素向后扩展一个字x_i-得到由x_i-2，x_i-1，x_i-组成的trigram元素时，满足所述字x_i-关于该bigram元素的条件概率大于所述第四预设阈值后，

若该bigram元素的首字x_i-2关于由x_i-1，x_i组成的bigram元素的条件概率大于所述第四预设阈值，则所述由x_i-2，x_i-1，x_i-组成的trigram元素能继续扩展；

若该bigram元素的首字x_i-2关于由x_i-1，x_i组成的bigram元素的条件概率小于等于所述第四预设阈值，则所述由x_i-2，x_i-1组成的bigram元素和所述由x_i-2，x_i-1，x_i-组成的trigram元素均不是有效的新词；

当由x_i-2，x_i-1组成的bigram元素向前扩展一个字x_i--3得到由x_i-3-，x_i-2，x_i-1组成的trigram元素时，满足所述字x_i--3关于该bigram元素的条件概率大于所述第四预设阈值后，

若该bigram元素的尾字x_i-1关于由x_i-3，x_i-2组成的bigram元素的条件概率大于所述第四预设阈值，则所述由x_i-3-，x_i-2，x_i-1组成的trigram元素能继续扩展；

若该bigram元素的尾字x_i-1关于由x_i-3，x_i-2组成的bigram元素的条件概率小于等于所述第四预设阈值，则所述由x_i-2，x_i-1组成的bigram元素和所述由x_i-3-，x_i-2，x_i-1组成的trigram元素均不是有效的新词。

相应的，本发明还提供一种新词发现系统，包括：

bigram背景模块，用于根据bigram语言模型抽取已知背景语料的bigram元素，并统计所述已知背景语料中所有bigram元素的词频和与种数；

bigram前景模块，用于根据bigram语言模型抽取前景语料的bigram元素，并统计所述前景语料中所有bigram元素的词频和与种数；

bigram筛选模块，用于根据所述bigram背景模块和bigram前景模块统计确定所述前景语料中符合第一预设规则的bigram元素；

n-gram扩展模块，用于根据n-gram语言模型对经所述bigram筛选模块过滤后剩余的bigram元素进行在所述前景语料中的向前和向后扩展，得到所述前景语料的n-gram元素，确定所述前景语料中符合第二预设规则的bigram元素和n-gram元素，得到新词列表。

与现有技术相比，本发明提出的新词发现方法和系统，基于bigram语言模型分别提取了前背景语料的bigram元素，并分别得到前背景语料的统计信息，利用统计信息及第一预设规则过滤bigram元素，再利用n-gram语言模型及第二预设规则对剩余的bigram元素进行前景语料中的扩展，n-gram元素的更新不需要对背景语料重新计算，避免对背景语料里已有新词重新发现，利用第二预设规则判别新词的边界，去除垃圾bigram元素和n-gram元素，简单易用，减少了人工校对的负担。

附图说明

图1是本发明的新词发现方法流程示意图；

图2是本发明的新词发现系统结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的新词发现方法和系统作进一步详细说明。

如图1所示，本发明提出一种新词发现方法，包括：

S1，根据bigram语言模型抽取已知背景语料的bigram元素，并统计所述已知背景语料中所有bigram元素的词频和与种数。

所述已知背景语料指包含足够多语法词法现象的大规模通用语料，能比较真实地反映现代汉语在文字、词汇、语法、语义等方面的全貌。

本实施例中，所述已知背景语料为国家语委现代汉语语料库中的语料，基于bigram语言模型，抽得了该已知背景语料中的bigram元素列表，并统计了每个bigram元素的词频、所有bigram元素的频率和f_back与种数n_back。

S2，根据bigram语言模型抽取前景语料的bigram元素，并统计所述前景语料中所有bigram元素的词频和与种数。

本实施例中，我们选取的前景语料为网络小说《鬼吹灯》的全篇，基于bigram语言模型，我们先从小说中抽取其bigram元素，并统计词频，得到的数据具有如下内容：

鬼吹29

吹灯31

盗墓119

墓者48

者的23

的经20

经历26

澜沧5

沧江5

这才35

……

统计得到小说中所有bigram元素的词频和f_fore与种数n_fore。

S3，根据上述所有统计确定所述前景语料中符合第一预设规则的bigram元素。

其中，所述第一预设规则包括三个特征：

特征一：该bigram元素在所述前景语料和已知背景语料中的出现概率比值与在所述前景语料和已知背景语料中所有bigram元素的平均概率的比值之比大于第一预设阈值。

特征二：所述前景语料中该bigram元素的词频与所有bigram元素的词频均值之比大于第二预设阈值；

特征三：该bigram元素的首字或尾字在所述前景语料中的相关度大于第三预设阈值。

需要说明的是，关于特征一，为了便于理解，我们定义似然比：

r_{i} = \frac{P_{fore} (b_{i})}{P_{back} (b_{i})} - - - (1)

来表示该bigram元素在所述前景语料中的出现概率P_fore(b_i)和在已知背景语料中的出现概率P_back(b_i)的比值；

进一步的，设

r_{i} = c_{i} \cdot \frac{{\overset{&OverBar;}{P}}_{fore}}{{\overset{&OverBar;}{P}}_{back}} - - - (2);

{\overset{&OverBar;}{P}}_{fore} = \frac{1}{n_{fore}}, {\overset{&OverBar;}{P}}_{back} = \frac{1}{n_{back}} - - - (3);

其中，n_fore是前景语料中所有bigram元素的种数，n_back是背景语料中所有bigram元素的种数，

为所述前景语料所有bigram元素的平均概率，

为所述已知背景语料中所有bigram元素的平均概率，c_i是度量该bigram元素b_i在前景语料中相较于在背景语料中的强烈程度，c_i＝1的意义是该bigram元素b_i在前景语料和背景语料中的出现概率比值与前背景语料中所有bigram元素的平均概率之比相当。

于是，我们可以选择第一预设阈值tr，当c_i＞t_r时，将该bigram元素b_i作为符合特征一的bigram元素加以保留。

关于特征二，我们着重考察该bigram元素b_i的词频与前景语料中所有bigram元素的词频均值的比较。设

f_{i} = d_{i} {\overset{&OverBar;}{f}}_{fore} - - - (4)

其中

表示前景语料中所有bigram元素的词频均值，d_i度量了该bigram元素b_i在前景语料中的出现频率的强烈程度。

于是，我们可以选择第二预设阈值t_f，当d_i＞t_f时，将该bigram元素b_i作为符合特征二的bigram元素加以保留。

关于特征三，为了便于理解，我们引入前接刚性k_forward(b_i)来表示该bigram元素的首字在所述前景语料中的相关度，后接刚性k_backward(b_i)来表示该bigram元素的尾字在所述前景语料中的相关度

k_{forward} (b_{i}) = \frac{f_{i} - {\overset{&OverBar;}{f}}_{forward}}{σ_{forward}}, - - - (5)

k_{backward} (b_{i}) = \frac{f_{i} - {\overset{&OverBar;}{f}}_{backward}}{σ_{backward}}, - - - (6)

的标准差，

是所述前景语料中所有尾字为该bigram元素的尾字的bigram元素的词频均值，σ_backward是f_i与的标准差。

在这里，利用该bigram元素的词频关于所述前景语料中所有首字为该bigram元素的首字的bigram元素的词频均值的偏移量与频率标准差的比值来度量该bigram元素中尾字关于首字和首字关于尾字一起出现的强度。当k_forward(b_i)或k_backward(b_i)的值较大时，说明该bigram元素中的两字在前景语料中的关联性很大。

于是，我们可以选择第三预设阈值t_k，当k_forward(b_i)和k_backward(b_i)中的任意一个大于t_k时，将该bigram元素b_i作为满足特征三的bigram元素加以保留。

需要说明的是，这三个预设阈值的处理先后对最终筛选结果没有影响，因为筛选前景语料的所有后bigram元素后得到的bigram元素必须都满足上述三个特征。当我们根据上述三个特征及其相应的预设阈值对前景语料的原先所有bigram元素进行筛选后，保留下来的剩余bigram元素其实依然有很大的可能性存在垃圾元素。考虑下例：假设某小说语料的主人公是“小明”，同时出现了许多“小明”+后接词的实例，如“小明说”，“小明看”，于是某些特别强烈的后接词，将导致“明说”、“明看”这些垃圾bigram元素也出现在了我们筛选后的bigram元素列表中。此例告诉我们根据前述特征无法保证去除由新词和非新词边界字构成的bigram元素，需要进一步加以处理。

本实施例中，我们对步骤S2获得的结果进行过滤筛选。

首先根据式(1)和(2)计算所述前景语料的每个bigram元素的c_i，当c_i＞t_r时，保留该bigram元素。经过这个过程，发现以下bigram元素得以保留：

鬼吹29

吹灯31

盗墓119

墓者48

者的23

澜沧5

沧江5

这才35

……

“经历”和“的经”被筛去。

接下来，根据式(4)计算上述结果中的每个bigram元素的d_i，当d_i＞t_f时，保留该bigram元素。经过这个过程，发现以下bigram元素得以保留：

鬼吹29

吹灯31

盗墓119

墓者48

者的23

这才35

……

“澜沧”和“沧江”由于在前景语料中出现频率不够高，故被筛去。

再接下来，根据式(5)和式(6)计算上述结果中的每个bigram的前接刚性k_forward(b_i)和后接刚性k_backward(b_i)，当这两个值有一个大于t_k时，保留该bigram元素。经过这个过程，发现以下bigram元素得以保留：

鬼吹29

吹灯31

盗墓119

墓者48

者的23

……

“这才”由于“这”和“才”是前景语料中常用的单字，“这”的后接字有多种可能性，每种可能性的频率也不低，“才”的前接字有多种可能性，每种可能性的频率也不低，导致“这才”的首字和尾字的相关度不够高，故被筛去。

S4，根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展，得到所述前景语料的n-gram元素，确定所述前景语料中符合第二预设规则的n-gram元素，得到新词列表。

在步骤S3的过滤筛选中，我们主要考察的对象是bigram元素，此时信息窗口很小，由于有限的信息量，即使我们研究了其不同方面的统计量，依然会导致垃圾bigram元素。这就需要我们加大信息窗口，利用前景语料中很多的上下文信息对步骤S3所得到的bigram元素进行进一步筛选和扩展。

这里的方法基于n-gram语言模型。若我们已得到(n-1)-gram元素的新词列表，并统计且有第四预设阈值t_p和第五预设阈值t_q，我们认为由x_i-n+1，...，x_i-1组成的(n-1)-gram元素向后扩展至由x_i-n+1，...，x_i组成的n-gram元素，和/或向前扩展至由x_i-n，...，x_i-1组成的n-gram元素时，必须符合所述第二预设规则的n-gram元素才能保留下来，所述第二预设规则包括两个特征：

特征四：该n-gram元素由某(n-1)-gram元素向前或向后扩展一个字得到时，该n-gram元素关于该(n-1)-gram元素的条件概率大于第四预设阈值，即

P(x_i-n|x_i-n+1，...，x_i-1)＞t_p或P(x_i|x_i-n+1，...，x_i-1)＞t_p (7-1)；

该n-gram元素向前或向后扩展一个字得到(n+1)-gram元素时，该(n+1)-gram元素关于该n-gram元素的条件概率小于等于所述第四预设阈值，即

P(x_i-n-1|x_i-n，...x_i)＜t_p，或P(x_i+1|x_i-n，...x_i)＜t_p (7-2)

特征四主要是用于判断该n-gram元素还能不能扩展，不能够扩展的n-gram元素为我们认为的可能的新词。

详细的说，将bigram根据第四预设阈值通过向前和向后扩展递推地扩展得到trigram元素，4-gram元素...直到没有符合第四预设阈值的n-gram元素，扩展停止。最终的不可被扩展的所有n-gram元素就是我们认为的可能新词。所谓递推，就是说从(n-1)-gram元素向前或向后扩展到n-gram元素时，都必须满足第四预设阈值。

特征五：该n-gram元素的词频与所述前景语料中所有bigram元素的词频均值之比大于第五预设阈值，即

f (x_{i - n}, . . ., x_{i - 1}) > t_{q} \cdot {\overset{&OverBar;}{f}}_{fore},

或

f (x_{i - n + 1}, . . ., x_{i}) > t_{q} \cdot {\overset{&OverBar;}{f}}_{fore} - - - (8)

其中t_q可以等于步骤S3中的t_f。

优选的，根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展得到trigram元素的过程中，对所述剩余的bigram元素及得到trigram元素进行筛选更新，包括：

当由x_i-2，x_i-1组成的bigram元素向后扩展一个字x_i-得到由x_i-2，x_i-1，x_i-组成的trigram元素时，满足所述字x_i-关于该bigram元素的条件概率大于所述第四预设阈值后，

详细的说，在把bigram元素扩展至trigram元素的过程中，须做如下额外处理：针对由x_i-2，x_i-1组成的bigram元素向后扩展得到由x_i-2，x_i-1，x_i组成的trigram元素的情况，满足P(x_i|x_i-1，x_i-2)＞t_p时，再继续考察P(x_i-2|x_i-1，x_i)的值，当它小于阈值t_p，则认为bigram元素x_i-2，x_i-1和trigram元素x_i-2，x_i-1，x_i均不是有效的新词语素。这样可以去除上节末尾提到的垃圾元素。比如类似“明说”这样的位于新词边界的bigram元素，因为和新词的强烈关联性，一般都会满足单向扩展时的条件概率阈值，在此例中是指P(小|明说)的值，而反向的条件概率一般都会小很多，在此例中指P(说|小明)的值。于是通过这里的策略可以同时将“小明说”和“明说”作为垃圾元素剔除，同时该策略在统计意义下不会影响正确元素，因为作为新词语素的trigram的子串之间应该具有很高的相关性。

进一步的，对于已被扩展的(n-1)-gram元素，会碰到是否要将其保留的问题。比如某小说语料的主人公是“王小明”，但同时“小明”也作为昵称频繁出现，我们希望得到trigram元素“王小明”的同时保留bigram元素“小明”。在此我们引进描述(n-1)-gram元素独立成词的向前独立概率和向后独立概率，当某(n-1)-gram元素独立成词的向前独立概率和向后独立概率均大于所述第四预设阈值时，保留该(n-1)-gram元素于所述新词列表中，其中，

P_{alone 1} (x_{i - n + 1}, . . ., x_{i - 1}) = 1 - Σ_{m = 1}^{j} P (x_{i_{m}} | x_{i - n + 1}, . . ., x_{i - 1}) - - - (9 - 1)

P_{alone 2} (x_{i - n + 1}, . . ., x_{i - 1}) = 1 - Σ_{m = 1}^{k} P (x_{i_{m} - n} | x_{i - n + 1}, . . ., x_{i - 1}) - - - (9 - 2)

本实施例中，首先我们对步骤S3过滤后得到的所有bigram元素进行向前和向后扩展所可能得到的trigram元素并根据式(7-1)和式(7-2)计算trigram元素相应的条件概率，我们保留满足第二预设规则的trigram元素。经过这个过程得到如下trigram元素：

鬼吹灯29

盗墓者48

盗墓贼35

墓者的11

……

这时我们按照之前的所述的方法，计算反向条件概率值。比如“盗墓贼”是由“盗墓”扩展得到，于是我们再计算“墓贼”关于“盗墓贼”的条件概率。当发现反向的条件概率不满足阈值条件，则将不认为被扩展后的trigram元素为新词，且同时将被扩展的bigram元素从新词列表中删除。比如“墓者的”由“者的”扩展而来，“者的”不是新词，但因为在小说中出现得很强烈，没有在对bigram元素的筛选过程中得以被去除，这里我们再计算“墓者的”关于“墓者”的条件概率，发现该值很小，于是认为“墓者的”和“者的”都不是新词。至此trigram元素包含：

鬼吹灯29

盗墓者48

盗墓贼35

……

根据(8)式子，他们的词频也都应满足

再考虑被扩展的bigram可能为新词的情况，根据式(9-1)和(9-1)计算bigram元素单独成词的独立概率，发现“盗墓”满足条件。因为“盗墓”已完成扩展，由被认为可以单独成词，所以把盗墓加入到新词列表。

之后我们在trigram元素的基础上加以扩展。此时不需要像bigram那样判断垃圾元素，直接用条件概率的方式向两边扩展即可，同时满足

条件。最终发现所列trigram元素中的元素都不满足扩展条件，最终得到新词列表：

盗墓

鬼吹灯

盗墓者

盗墓贼

……

相应的，如图2所示，本发明还提供一种新词发现系统，包括：

bigram背景模块21，用于根据bigram语言模型抽取已知背景语料的bigram元素，并统计所述已知背景语料中所有bigram元素的词频和与种数；

bigram前景模块22，用于根据bigram语言模型抽取前景语料的bigram元素，并统计所述前景语料中所有bigram元素的词频和与种数；

bigram筛选模块23，用于根据所述bigram背景模块21和bigram前景模块22统计确定所述前景语料中符合第一预设规则的bigram元素；

n-gram扩展模块24，用于根据n-gram语言模型对经所述bigram筛选模块23过滤后剩余的bigram元素进行在所述前景语料中的向前和向后扩展，得到所述前景语料的n-gram元素，确定所述前景语料中符合第二预设规则的bigram元素和n-gram元素，得到新词列表。

进一步的，所述第一预设规则包括：

进一步的，所述相关度的计算公式为：

k_{forward} (b_{i}) = \frac{f_{i} - {\overset{&OverBar;}{f}}_{forward}}{σ_{forward}}, k_{backward} (b_{i}) = \frac{f_{i} - {\overset{&OverBar;}{f}}_{backward}}{σ_{backward}},

的标准差，是所述前景语料中所有尾字为该bigram元素的尾字的bigram元素的词频均值，σ_backward是f_i与的标准差。

进一步的，所述第二预设规则包括：

其中，

当由x_i-n+1，...，x_i-1组成的(n-1)-gram元素向后扩展一个字x_i得到由x_i-n+1，...，x_i组成的n-gram元素时，使该由x_i-n+1，...，x_i组成的n-gram元素关于该由x_i-n+1，...，x_i-1组成的(n-1)-gram元素的条件概率P(x_i|x_i-n+1，...，x_i-1)大于第四预设阈值的字x_i有j种，则定义该由x_i-n+1，...，x_i-1组成的(n-1)-gram元素独立成词的向后独立概率P_alone1(x_i-n+1，..，x_i-1)为：

P_{alone 1} (x_{i - n + 1}, . . ., x_{i - 1}) = 1 - Σ_{m = 1}^{j} P (x_{i_{m}} | x_{i - n + 1}, . . ., x_{i - 1})

P_{alone 2} (x_{i - n + 1}, . . ., x_{i - 1}) = 1 - Σ_{m = 1}^{k} P (x_{i_{m} - n} | x_{i - n + 1}, . . ., x_{i - 1})

综上所述，本发明提出的新词发现方法和系统，基于bigram语言模型分别提取了前背景语料的bigram元素，并分别得到前背景语料的统计信息，利用统计信息及第一预设规则过滤bigram元素，再利用n-gram语言模型及第二预设规则对剩余的bigram元素进行前景语料中的扩展，n-gram元素的更新不需要对背景语料重新计算，避免对背景语料里已有新词重新发现，利用第二预设规则判别新词的边界，去除垃圾bigram元素和n-gram元素，简单易用，减少了人工校对的负担。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种新词发现方法，其特征在于，包括：

根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展，得到所述前景语料的n-gram元素，确定所述前景语料中符合第二预设规则的n-gram元素，得到新词列表。

2.如权利要求1所述的新词发现方法，其特征在于，所述第一预设规则包括：

3.如权利要求2所述的新词发现方法，其特征在于，所述相关度的计算公式为：

k_{forward} (b_{i}) = \frac{f_{i} - {\overset{&OverBar;}{f}}_{forward}}{σ_{forward}}, k_{backward} (b_{i}) = \frac{f_{i} - {\overset{&OverBar;}{f}}_{backward}}{σ_{backward}},

其中，b_i表示该bigram元素，k_forward(b_i)表示该bigram元素的首字在所述前景语料中的相关度，k_backward(b_i)表示该bigram元素的尾字在所述前景语料中的相关度，f_i表示该bigram元素的词频，是所述前景语料中所有首字为该bigram元素的首字的bigram元素的词频均值，σ_forward是f_i与

的标准差，

的标准差。

4.如权利要求1所述的新词发现方法，其特征在于，所述已知背景语料为国家语委现代汉语语料库中的语料。

5.如权利要求1所述的新词发现方法，其特征在于，所述第二预设规则包括：

6.如权利要求5所述的新词发现方法，其特征在于，得到新词列表时，某(n-1)-gram元素独立成词的向前独立概率和向后独立概率均大于所述第四预设阈值时，保留该(n-1)-gram元素于所述新词列表中；

其中，

P_{alone 1} (x_{i - n + 1}, . . ., x_{i - 1}) = 1 - Σ_{m = 1}^{j} P (x_{i_{m}} | x_{i - n + 1}, . . ., x_{i - 1})

P_{alone 2} (x_{i - n + 1}, . . ., x_{i - 1}) = 1 - Σ_{m = 1}^{k} P (x_{i_{m} - n} | x_{i - n + 1}, . . ., x_{i - 1})

7.如权利要求5所述的新词发现方法，其特征在于，根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展得到trigram元素的过程中，对所述剩余的bigram元素及得到trigram元素进行筛选更新。

8.如权利要求7所述的新词发现方法，其特征在于，

9.一种新词发现系统，其特征在于，包括：

n-gram扩展模块，用于根据n-gram语言模型对经所述bigram筛选模块过滤后剩余的bigram元素进行在所述前景语料中的向前和向后扩展，得到所述前景语料的n-gram元素，确定所述前景语料中符合第二预设规则的n-gram元素，得到新词列表。

10.如权利要求9所述的新词发现系统，其特征在于，所述第一预设规则包括：

11.如权利要求10所述的新词发现系统，其特征在于，所述相关度的计算公式为：

k_{forward} (b_{i}) = \frac{f_{i} - {\overset{&OverBar;}{f}}_{forward}}{σ_{forward}}, k_{backward} (b_{i}) = \frac{f_{i} - {\overset{&OverBar;}{f}}_{backward}}{σ_{backward}},

的标准差，

的标准差。

12.如权利要求9所述的新词发现系统，其特征在于，所述已知背景语料为国家语委现代汉语语料库中的语料。

13.如权利要求9所述的新词发现系统，其特征在于，所述第二预设规则包括：

14.如权利要求9所述的新词发现系统，其特征在于，得到新词列表时，某(n-1)-gram元素独立成词的向前独立概率和向后独立概率均大于所述第四预设阈值时，保留该(n-1)-gram元素于所述新词列表中；

其中，

P_{alone 1} (x_{i - n + 1}, . . ., x_{i - 1}) = 1 - Σ_{m = 1}^{j} P (x_{i_{m}} | x_{i - n + 1}, . . ., x_{i - 1})

P_{alone 2} (x_{i - n + 1}, . . ., x_{i - 1}) = 1 - Σ_{m = 1}^{k} P (x_{i_{m} - n} | x_{i - n + 1}, . . ., x_{i - 1})

15.如权利要求9所述的新词发现系统，其特征在于，根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展得到trigram元素的过程中，对所述剩余的bigram元素及得到trigram元素进行筛选更新。

16.如权利要求15所述的新词发现系统，其特征在于，