CN102231153A - 一种新词发现方法和系统 - Google Patents
一种新词发现方法和系统 Download PDFInfo
- Publication number
- CN102231153A CN102231153A CN 201110138042 CN201110138042A CN102231153A CN 102231153 A CN102231153 A CN 102231153A CN 201110138042 CN201110138042 CN 201110138042 CN 201110138042 A CN201110138042 A CN 201110138042A CN 102231153 A CN102231153 A CN 102231153A
- Authority
- CN
- China
- Prior art keywords
- bigram
- gram
- word
- language material
- forming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种新词发现方法和系统,基于bigram语言模型分别提取了前背景语料的bigram元素,并分别得到前背景语料的统计信息,利用统计信息及第一预设规则过滤bigram元素,再利用n-gram语言模型及第二预设规则对剩余的bigram元素进行前景语料中的扩展,n-gram元素的更新不需要对背景语料重新计算,避免对背景语料里已有新词重新发现,利用第二预设规则判别新词的边界,去除垃圾bigram元素和n-gram元素,简单易用,减少了人工校对的负担。
Description
技术领域
本发明涉及文本信息处理领域,尤其涉及一种新词发现方法和系统。
背景技术
中文(还有日语等亚洲语言)不像西方语言那样使用空格表示词的边界,因此分词是中文语言处理的首要任务。然而随着互联网内容服务(比如微博、小说)的迅速发展,网络新词不断涌现,自动语音识别(ASR)、文本-语音(TTS)、搜索引擎等系统里所采用的分词模型需要不断更新新词才不会过时,因此新词发现最近成为研究热点。目前新词发现所面临的问题大概有三方面:
1.缺乏有效依据。对于新词目前没有明确定义,现有技术中,一般是用词典(作为背景语料)去除前景语料中的非新词,再用规则从剩余的短语碎片中判断新词。但是由于新词的组成千差万别,许多情况下不具备普遍规律,如小说中的人名译名,魔法名,种族名,用词典和规则的方法往往达不到良好效果。
2.词边界难于确定。现有技术中,采用基于语料库和概率统计方法的统计语言模型(一般为用前N-1个汉字来推测当前这个汉字的Markov模型称为N-gram(N元文法)语言模型,其中,当N=1,2,3时,分别称为Unigram模型、Bigram模型和Trigram模型)建立分词系统时,对于前景语料,背景语料的分词模型可信度大打折扣,特别是在新词附近;而采用停用词(语料中词频较高,但没有意义的词,如“的”、“太”等)规则的方法时,停用词也会带来负面作用,过滤掉一些可能新词,比如″可的便利店″的“可的”。
3.更新困难。依赖于分词的新词发现,往往需要将背景语料和前景语料结合起来重新训练分词模型,滚动地发现新词,流程复杂而且耗时。
发明内容
本发明的目的在于提供一种新词发现方法和系统,利用背景语料的统计信息筛选新词,对新词的边界进行判别,避免对背景语料里已有新词重新发现,减少了人工校对的负担。
为解决上述问题,本发明提出一种新词发现方法,包括:
根据bigram语言模型抽取已知背景语料的bigram元素,并统计所述已知背景语料中所有bigram元素的词频和与种数;
根据bigram语言模型抽取前景语料的bigram元素,并统计所述前景语料中所有bigram元素的词频和与种数;
根据上述所有统计确定所述前景语料中符合第一预设规则的bigram元素;
根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展,确定所述前景语料中符合第二预设规则的n-gram元素,得到新词列表。
进一步的,所述第一预设规则包括:
该bigram元素在所述前景语料和已知背景语料中的出现概率比值与在所述前景语料和已知背景语料中所有bigram元素的平均概率的比值之比大于第一预设阈值;
所述前景语料中该bigram元素的词频与所有bigram元素的词频均值之比大于第二预设阈值;
该bigram元素的首字或尾字在所述前景语料中的相关度大于第三预设阈值。
进一步的,所述已知背景语料为国家语委现代汉语语料库中的语料。
进一步的,所述相关度的计算公式为:
其中,bi表示该bigram元素,kforward(bi)表示该bigram元素的首字在所述前景语料中的相关度,kbackward(bi)表示该bigram元素的尾字在所述前景语料中的相关度,fi表示该bigram元素的词频,是所述前景语料中所有首字为该bigram元素的首字的bigram元素的词频均值,σforward是fi与的标准差,是所述前景语料中所有尾字为该bigram元素的尾字的bigram元素的词频均值,σbackward是fi与的标准差。
进一步的,所述第二预设规则包括:
该n-gram元素由某(n-1)-gram元素向前或向后扩展一个字得到时,该n-gram元素关于该(n-1)-gram元素的条件概率大于第四预设阈值;
该n-gram元素向前或向后扩展一个字得到(n+1)-gram元素时,该(n+1)-gram元素关于该n-gram元素的条件概率小于等于所述第四预设阈值;
该n-gram元素的词频与所述前景语料中所有bigram元素的词频均值之比大于第五预设阈值。
进一步的,得到新词列表时,某(n-1)-gram元素独立成词的向前独立概率和向后独立概率均大于所述第四预设阈值时,保留该(n-1)-gram元素于所述新词列表中;
其中,
当由xi-n+1,...,xi-1组成的(n-1)-gram元素向后扩展一个字xi得到由xi-n+1,...,xi组成的n-gram元素时,使该由xi-n+1,...,xi组成的n-gram元素关于该由xi-n+1,...,xi-1组成的(n-1)-gram元素的条件概率P(xi|xi-n+1,...,xi-1)大于第四预设阈值的字xi有j种,则定义该由xi-n+1,...,xi-1组成的(n-1)-gram元素独立成词的向后独立概率Palone1(xi-n+1,...,xi-1)为:
当由xi-n+1,...,xi-1组成的(n-1)-gram元素向前扩展一个字xi-n得到由xi-n,...,xi-1组成的n-gram元素时,使该由xi-n,...,xi-1组成的n-gram元素关于该由xi-n+1,...,xi-1组成的(n-1)-gram元素的条件概率P(xi-n|xi-n+1,...,xi-1)大于第四预设阈值的字xi-n有k种,则定义该由xi-n+1,...,xi-1组成的(n-1)-gram元素独立成词的向前独立概率Palone2(xi-n+1,...,xi-1)为:
进一步的,根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展得到trigram元素的过程中,对所述剩余的bigram元素及得到trigram元素进行筛选更新。
进一步的,当由xi-2,xi-1组成的bigram元素向后扩展一个字xi-得到由xi-2,xi-1,xi-组成的trigram元素时,满足所述字xi-关于该bigram元素的条件概率大于所述第四预设阈值后,
若该bigram元素的首字xi-2关于由xi-1,xi组成的bigram元素的条件概率大于所述第四预设阈值,则所述由xi-2,xi-1,xi-组成的trigram元素能继续扩展;
若该bigram元素的首字xi-2关于由xi-1,xi组成的bigram元素的条件概率小于等于所述第四预设阈值,则所述由xi-2,xi-1组成的bigram元素和所述由xi-2,xi-1,xi-组成的trigram元素均不是有效的新词;
当由xi-2,xi-1组成的bigram元素向前扩展一个字xi--3得到由xi-3-,xi-2,xi-1组成的trigram元素时,满足所述字xi--3关于该bigram元素的条件概率大于所述第四预设阈值后,
若该bigram元素的尾字xi-1关于由xi-3,xi-2组成的bigram元素的条件概率大于所述第四预设阈值,则所述由xi-3-,xi-2,xi-1组成的trigram元素能继续扩展;
若该bigram元素的尾字xi-1关于由xi-3,xi-2组成的bigram元素的条件概率小于等于所述第四预设阈值,则所述由xi-2,xi-1组成的bigram元素和所述由xi-3-,xi-2,xi-1组成的trigram元素均不是有效的新词。
相应的,本发明还提供一种新词发现系统,包括:
bigram背景模块,用于根据bigram语言模型抽取已知背景语料的bigram元素,并统计所述已知背景语料中所有bigram元素的词频和与种数;
bigram前景模块,用于根据bigram语言模型抽取前景语料的bigram元素,并统计所述前景语料中所有bigram元素的词频和与种数;
bigram筛选模块,用于根据所述bigram背景模块和bigram前景模块统计确定所述前景语料中符合第一预设规则的bigram元素;
n-gram扩展模块,用于根据n-gram语言模型对经所述bigram筛选模块过滤后剩余的bigram元素进行在所述前景语料中的向前和向后扩展,得到所述前景语料的n-gram元素,确定所述前景语料中符合第二预设规则的bigram元素和n-gram元素,得到新词列表。
与现有技术相比,本发明提出的新词发现方法和系统,基于bigram语言模型分别提取了前背景语料的bigram元素,并分别得到前背景语料的统计信息,利用统计信息及第一预设规则过滤bigram元素,再利用n-gram语言模型及第二预设规则对剩余的bigram元素进行前景语料中的扩展,n-gram元素的更新不需要对背景语料重新计算,避免对背景语料里已有新词重新发现,利用第二预设规则判别新词的边界,去除垃圾bigram元素和n-gram元素,简单易用,减少了人工校对的负担。
附图说明
图1是本发明的新词发现方法流程示意图;
图2是本发明的新词发现系统结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明提出的新词发现方法和系统作进一步详细说明。
如图1所示,本发明提出一种新词发现方法,包括:
S1,根据bigram语言模型抽取已知背景语料的bigram元素,并统计所述已知背景语料中所有bigram元素的词频和与种数。
所述已知背景语料指包含足够多语法词法现象的大规模通用语料,能比较真实地反映现代汉语在文字、词汇、语法、语义等方面的全貌。
本实施例中,所述已知背景语料为国家语委现代汉语语料库中的语料,基于bigram语言模型,抽得了该已知背景语料中的bigram元素列表,并统计了每个bigram元素的词频、所有bigram元素的频率和fback与种数nback。
S2,根据bigram语言模型抽取前景语料的bigram元素,并统计所述前景语料中所有bigram元素的词频和与种数。
本实施例中,我们选取的前景语料为网络小说《鬼吹灯》的全篇,基于bigram语言模型,我们先从小说中抽取其bigram元素,并统计词频,得到的数据具有如下内容:
鬼吹29
吹灯31
盗墓119
墓者48
者的23
的经20
经历26
澜沧5
沧江5
这才35
……
统计得到小说中所有bigram元素的词频和ffore与种数nfore。
S3,根据上述所有统计确定所述前景语料中符合第一预设规则的bigram元素。
其中,所述第一预设规则包括三个特征:
特征一:该bigram元素在所述前景语料和已知背景语料中的出现概率比值与在所述前景语料和已知背景语料中所有bigram元素的平均概率的比值之比大于第一预设阈值。
特征二:所述前景语料中该bigram元素的词频与所有bigram元素的词频均值之比大于第二预设阈值;
特征三:该bigram元素的首字或尾字在所述前景语料中的相关度大于第三预设阈值。
需要说明的是,关于特征一,为了便于理解,我们定义似然比:
来表示该bigram元素在所述前景语料中的出现概率Pfore(bi)和在已知背景语料中的出现概率Pback(bi)的比值;
进一步的,设
其中,nfore是前景语料中所有bigram元素的种数,nback是背景语料中所有bigram元素的种数,为所述前景语料所有bigram元素的平均概率,为所述已知背景语料中所有bigram元素的平均概率,ci是度量该bigram元素bi在前景语料中相较于在背景语料中的强烈程度,ci=1的意义是该bigram元素bi在前景语料和背景语料中的出现概率比值与前背景语料中所有bigram元素的平均概率之比相当。
于是,我们可以选择第一预设阈值tr,当ci>tr时,将该bigram元素bi作为符合特征一的bigram元素加以保留。
关于特征二,我们着重考察该bigram元素bi的词频与前景语料中所有bigram元素的词频均值的比较。设
于是,我们可以选择第二预设阈值tf,当di>tf时,将该bigram元素bi作为符合特征二的bigram元素加以保留。
关于特征三,为了便于理解,我们引入前接刚性kforward(bi)来表示该bigram元素的首字在所述前景语料中的相关度,后接刚性kbackward(bi)来表示该bigram元素的尾字在所述前景语料中的相关度
其中,bi表示该bigram元素,kforward(bi)表示该bigram元素的首字在所述前景语料中的相关度,kbackward(bi)表示该bigram元素的尾字在所述前景语料中的相关度,fi表示该bigram元素的词频,是所述前景语料中所有首字为该bigram元素的首字的bigram元素的词频均值,σforward是fi与的标准差,是所述前景语料中所有尾字为该bigram元素的尾字的bigram元素的词频均值,σbackward是fi与的标准差。
在这里,利用该bigram元素的词频关于所述前景语料中所有首字为该bigram元素的首字的bigram元素的词频均值的偏移量与频率标准差的比值来度量该bigram元素中尾字关于首字和首字关于尾字一起出现的强度。当kforward(bi)或kbackward(bi)的值较大时,说明该bigram元素中的两字在前景语料中的关联性很大。
于是,我们可以选择第三预设阈值tk,当kforward(bi)和kbackward(bi)中的任意一个大于tk时,将该bigram元素bi作为满足特征三的bigram元素加以保留。
需要说明的是,这三个预设阈值的处理先后对最终筛选结果没有影响,因为筛选前景语料的所有后bigram元素后得到的bigram元素必须都满足上述三个特征。当我们根据上述三个特征及其相应的预设阈值对前景语料的原先所有bigram元素进行筛选后,保留下来的剩余bigram元素其实依然有很大的可能性存在垃圾元素。考虑下例:假设某小说语料的主人公是“小明”,同时出现了许多“小明”+后接词的实例,如“小明说”,“小明看”,于是某些特别强烈的后接词,将导致“明说”、“明看”这些垃圾bigram元素也出现在了我们筛选后的bigram元素列表中。此例告诉我们根据前述特征无法保证去除由新词和非新词边界字构成的bigram元素,需要进一步加以处理。
本实施例中,我们对步骤S2获得的结果进行过滤筛选。
首先根据式(1)和(2)计算所述前景语料的每个bigram元素的ci,当ci>tr时,保留该bigram元素。经过这个过程,发现以下bigram元素得以保留:
鬼吹29
吹灯31
盗墓119
墓者48
者的23
澜沧5
沧江5
这才35
……
“经历”和“的经”被筛去。
接下来,根据式(4)计算上述结果中的每个bigram元素的di,当di>tf时,保留该bigram元素。经过这个过程,发现以下bigram元素得以保留:
鬼吹29
吹灯31
盗墓119
墓者48
者的23
这才35
……
“澜沧”和“沧江”由于在前景语料中出现频率不够高,故被筛去。
再接下来,根据式(5)和式(6)计算上述结果中的每个bigram的前接刚性kforward(bi)和后接刚性kbackward(bi),当这两个值有一个大于tk时,保留该bigram元素。经过这个过程,发现以下bigram元素得以保留:
鬼吹29
吹灯31
盗墓119
墓者48
者的23
……
“这才”由于“这”和“才”是前景语料中常用的单字,“这”的后接字有多种可能性,每种可能性的频率也不低,“才”的前接字有多种可能性,每种可能性的频率也不低,导致“这才”的首字和尾字的相关度不够高,故被筛去。
S4,根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展,得到所述前景语料的n-gram元素,确定所述前景语料中符合第二预设规则的n-gram元素,得到新词列表。
在步骤S3的过滤筛选中,我们主要考察的对象是bigram元素,此时信息窗口很小,由于有限的信息量,即使我们研究了其不同方面的统计量,依然会导致垃圾bigram元素。这就需要我们加大信息窗口,利用前景语料中很多的上下文信息对步骤S3所得到的bigram元素进行进一步筛选和扩展。
这里的方法基于n-gram语言模型。若我们已得到(n-1)-gram元素的新词列表,并统计且有第四预设阈值tp和第五预设阈值tq,我们认为由xi-n+1,...,xi-1组成的(n-1)-gram元素向后扩展至由xi-n+1,...,xi组成的n-gram元素,和/或向前扩展至由xi-n,...,xi-1组成的n-gram元素时,必须符合所述第二预设规则的n-gram元素才能保留下来,所述第二预设规则包括两个特征:
特征四:该n-gram元素由某(n-1)-gram元素向前或向后扩展一个字得到时,该n-gram元素关于该(n-1)-gram元素的条件概率大于第四预设阈值,即
P(xi-n|xi-n+1,...,xi-1)>tp或P(xi|xi-n+1,...,xi-1)>tp (7-1);
该n-gram元素向前或向后扩展一个字得到(n+1)-gram元素时,该(n+1)-gram元素关于该n-gram元素的条件概率小于等于所述第四预设阈值,即
P(xi-n-1|xi-n,...xi)<tp,或P(xi+1|xi-n,...xi)<tp (7-2)
特征四主要是用于判断该n-gram元素还能不能扩展,不能够扩展的n-gram元素为我们认为的可能的新词。
详细的说,将bigram根据第四预设阈值通过向前和向后扩展递推地扩展得到trigram元素,4-gram元素...直到没有符合第四预设阈值的n-gram元素,扩展停止。最终的不可被扩展的所有n-gram元素就是我们认为的可能新词。所谓递推,就是说从(n-1)-gram元素向前或向后扩展到n-gram元素时,都必须满足第四预设阈值。
特征五:该n-gram元素的词频与所述前景语料中所有bigram元素的词频均值之比大于第五预设阈值,即
其中tq可以等于步骤S3中的tf。
优选的,根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展得到trigram元素的过程中,对所述剩余的bigram元素及得到trigram元素进行筛选更新,包括:
当由xi-2,xi-1组成的bigram元素向后扩展一个字xi-得到由xi-2,xi-1,xi-组成的trigram元素时,满足所述字xi-关于该bigram元素的条件概率大于所述第四预设阈值后,
若该bigram元素的首字xi-2关于由xi-1,xi组成的bigram元素的条件概率大于所述第四预设阈值,则所述由xi-2,xi-1,xi-组成的trigram元素能继续扩展;
若该bigram元素的首字xi-2关于由xi-1,xi组成的bigram元素的条件概率小于等于所述第四预设阈值,则所述由xi-2,xi-1组成的bigram元素和所述由xi-2,xi-1,xi-组成的trigram元素均不是有效的新词;
当由xi-2,xi-1组成的bigram元素向前扩展一个字xi--3得到由xi-3-,xi-2,xi-1组成的trigram元素时,满足所述字xi--3关于该bigram元素的条件概率大于所述第四预设阈值后,
若该bigram元素的尾字xi-1关于由xi-3,xi-2组成的bigram元素的条件概率大于所述第四预设阈值,则所述由xi-3-,xi-2,xi-1组成的trigram元素能继续扩展;
若该bigram元素的尾字xi-1关于由xi-3,xi-2组成的bigram元素的条件概率小于等于所述第四预设阈值,则所述由xi-2,xi-1组成的bigram元素和所述由xi-3-,xi-2,xi-1组成的trigram元素均不是有效的新词。
详细的说,在把bigram元素扩展至trigram元素的过程中,须做如下额外处理:针对由xi-2,xi-1组成的bigram元素向后扩展得到由xi-2,xi-1,xi组成的trigram元素的情况,满足P(xi|xi-1,xi-2)>tp时,再继续考察P(xi-2|xi-1,xi)的值,当它小于阈值tp,则认为bigram元素xi-2,xi-1和trigram元素xi-2,xi-1,xi均不是有效的新词语素。这样可以去除上节末尾提到的垃圾元素。比如类似“明说”这样的位于新词边界的bigram元素,因为和新词的强烈关联性,一般都会满足单向扩展时的条件概率阈值,在此例中是指P(小|明说)的值,而反向的条件概率一般都会小很多,在此例中指P(说|小明)的值。于是通过这里的策略可以同时将“小明说”和“明说”作为垃圾元素剔除,同时该策略在统计意义下不会影响正确元素,因为作为新词语素的trigram的子串之间应该具有很高的相关性。
进一步的,对于已被扩展的(n-1)-gram元素,会碰到是否要将其保留的问题。比如某小说语料的主人公是“王小明”,但同时“小明”也作为昵称频繁出现,我们希望得到trigram元素“王小明”的同时保留bigram元素“小明”。在此我们引进描述(n-1)-gram元素独立成词的向前独立概率和向后独立概率,当某(n-1)-gram元素独立成词的向前独立概率和向后独立概率均大于所述第四预设阈值时,保留该(n-1)-gram元素于所述新词列表中,其中,
当由xi-n+1,...,xi-1组成的(n-1)-gram元素向后扩展一个字xi得到由xi-n+1,...,xi组成的n-gram元素时,使该由xi-n+1,...,xi组成的n-gram元素关于该由xi-n+1,...,xi-1组成的(n-1)-gram元素的条件概率P(xi|xi-n+1,...,xi-1)大于第四预设阈值的字xi有j种,则定义该由xi-n+1,...,xi-1组成的(n-1)-gram元素独立成词的向后独立概率Palone1(xi-n+1,...,xi-1)为:
当由xi-n+1,...,xi-1组成的(n-1)-gram元素向前扩展一个字xi-n得到由xi-n,...,xi-1组成的n-gram元素时,使该由xi-n,...,xi-1组成的n-gram元素关于该由xi-n+1,...,xi-1组成的(n-1)-gram元素的条件概率P(xi-n|xi-n+1,...,xi-1)大于第四预设阈值的字xi-n有k种,则定义该由xi-n+1,...,xi-1组成的(n-1)-gram元素独立成词的向前独立概率Palone2(xi-n+1,...,xi-1)为:
本实施例中,首先我们对步骤S3过滤后得到的所有bigram元素进行向前和向后扩展所可能得到的trigram元素并根据式(7-1)和式(7-2)计算trigram元素相应的条件概率,我们保留满足第二预设规则的trigram元素。经过这个过程得到如下trigram元素:
鬼吹灯29
盗墓者48
盗墓贼35
墓者的11
……
这时我们按照之前的所述的方法,计算反向条件概率值。比如“盗墓贼”是由“盗墓”扩展得到,于是我们再计算“墓贼”关于“盗墓贼”的条件概率。当发现反向的条件概率不满足阈值条件,则将不认为被扩展后的trigram元素为新词,且同时将被扩展的bigram元素从新词列表中删除。比如“墓者的”由“者的”扩展而来,“者的”不是新词,但因为在小说中出现得很强烈,没有在对bigram元素的筛选过程中得以被去除,这里我们再计算“墓者的”关于“墓者”的条件概率,发现该值很小,于是认为“墓者的”和“者的”都不是新词。至此trigram元素包含:
鬼吹灯29
盗墓者48
盗墓贼35
……
根据(8)式子,他们的词频也都应满足再考虑被扩展的bigram可能为新词的情况,根据式(9-1)和(9-1)计算bigram元素单独成词的独立概率,发现“盗墓”满足条件。因为“盗墓”已完成扩展,由被认为可以单独成词,所以把盗墓加入到新词列表。
之后我们在trigram元素的基础上加以扩展。此时不需要像bigram那样判断垃圾元素,直接用条件概率的方式向两边扩展即可,同时满足条件。最终发现所列trigram元素中的元素都不满足扩展条件,最终得到新词列表:
盗墓
鬼吹灯
盗墓者
盗墓贼
……
相应的,如图2所示,本发明还提供一种新词发现系统,包括:
bigram背景模块21,用于根据bigram语言模型抽取已知背景语料的bigram元素,并统计所述已知背景语料中所有bigram元素的词频和与种数;
bigram前景模块22,用于根据bigram语言模型抽取前景语料的bigram元素,并统计所述前景语料中所有bigram元素的词频和与种数;
bigram筛选模块23,用于根据所述bigram背景模块21和bigram前景模块22统计确定所述前景语料中符合第一预设规则的bigram元素;
n-gram扩展模块24,用于根据n-gram语言模型对经所述bigram筛选模块23过滤后剩余的bigram元素进行在所述前景语料中的向前和向后扩展,得到所述前景语料的n-gram元素,确定所述前景语料中符合第二预设规则的bigram元素和n-gram元素,得到新词列表。
进一步的,所述第一预设规则包括:
该bigram元素在所述前景语料和已知背景语料中的出现概率比值与在所述前景语料和已知背景语料中所有bigram元素的平均概率的比值之比大于第一预设阈值;
所述前景语料中该bigram元素的词频与所有bigram元素的词频均值之比大于第二预设阈值;
该bigram元素的首字或尾字在所述前景语料中的相关度大于第三预设阈值。
进一步的,所述已知背景语料为国家语委现代汉语语料库中的语料。
进一步的,所述相关度的计算公式为:
其中,bi表示该bigram元素,kforward(bi)表示该bigram元素的首字在所述前景语料中的相关度,kbackward(bi)表示该bigram元素的尾字在所述前景语料中的相关度,fi表示该bigram元素的词频,是所述前景语料中所有首字为该bigram元素的首字的bigram元素的词频均值,σforward是fi与的标准差,是所述前景语料中所有尾字为该bigram元素的尾字的bigram元素的词频均值,σbackward是fi与的标准差。
进一步的,所述第二预设规则包括:
该n-gram元素由某(n-1)-gram元素向前或向后扩展一个字得到时,该n-gram元素关于该(n-1)-gram元素的条件概率大于第四预设阈值;
该n-gram元素向前或向后扩展一个字得到(n+1)-gram元素时,该(n+1)-gram元素关于该n-gram元素的条件概率小于等于所述第四预设阈值;
该n-gram元素的词频与所述前景语料中所有bigram元素的词频均值之比大于第五预设阈值。
进一步的,得到新词列表时,某(n-1)-gram元素独立成词的向前独立概率和向后独立概率均大于所述第四预设阈值时,保留该(n-1)-gram元素于所述新词列表中;
其中,
当由xi-n+1,...,xi-1组成的(n-1)-gram元素向后扩展一个字xi得到由xi-n+1,...,xi组成的n-gram元素时,使该由xi-n+1,...,xi组成的n-gram元素关于该由xi-n+1,...,xi-1组成的(n-1)-gram元素的条件概率P(xi|xi-n+1,...,xi-1)大于第四预设阈值的字xi有j种,则定义该由xi-n+1,...,xi-1组成的(n-1)-gram元素独立成词的向后独立概率Palone1(xi-n+1,..,xi-1)为:
当由xi-n+1,...,xi-1组成的(n-1)-gram元素向前扩展一个字xi-n得到由xi-n,...,xi-1组成的n-gram元素时,使该由xi-n,...,xi-1组成的n-gram元素关于该由xi-n+1,...,xi-1组成的(n-1)-gram元素的条件概率P(xi-n|xi-n+1,...,xi-1)大于第四预设阈值的字xi-n有k种,则定义该由xi-n+1,...,xi-1组成的(n-1)-gram元素独立成词的向前独立概率Palone2(xi-n+1,...,xi-1)为:
进一步的,根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展得到trigram元素的过程中,对所述剩余的bigram元素及得到trigram元素进行筛选更新。
进一步的,当由xi-2,xi-1组成的bigram元素向后扩展一个字xi-得到由xi-2,xi-1,xi-组成的trigram元素时,满足所述字xi-关于该bigram元素的条件概率大于所述第四预设阈值后,
若该bigram元素的首字xi-2关于由xi-1,xi组成的bigram元素的条件概率大于所述第四预设阈值,则所述由xi-2,xi-1,xi-组成的trigram元素能继续扩展;
若该bigram元素的首字xi-2关于由xi-1,xi组成的bigram元素的条件概率小于等于所述第四预设阈值,则所述由xi-2,xi-1组成的bigram元素和所述由xi-2,xi-1,xi-组成的trigram元素均不是有效的新词;
当由xi-2,xi-1组成的bigram元素向前扩展一个字xi--3得到由xi-3-,xi-2,xi-1组成的trigram元素时,满足所述字xi--3关于该bigram元素的条件概率大于所述第四预设阈值后,
若该bigram元素的尾字xi-1关于由xi-3,xi-2组成的bigram元素的条件概率大于所述第四预设阈值,则所述由xi-3-,xi-2,xi-1组成的trigram元素能继续扩展;
若该bigram元素的尾字xi-1关于由xi-3,xi-2组成的bigram元素的条件概率小于等于所述第四预设阈值,则所述由xi-2,xi-1组成的bigram元素和所述由xi-3-,xi-2,xi-1组成的trigram元素均不是有效的新词。
综上所述,本发明提出的新词发现方法和系统,基于bigram语言模型分别提取了前背景语料的bigram元素,并分别得到前背景语料的统计信息,利用统计信息及第一预设规则过滤bigram元素,再利用n-gram语言模型及第二预设规则对剩余的bigram元素进行前景语料中的扩展,n-gram元素的更新不需要对背景语料重新计算,避免对背景语料里已有新词重新发现,利用第二预设规则判别新词的边界,去除垃圾bigram元素和n-gram元素,简单易用,减少了人工校对的负担。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (16)
1.一种新词发现方法,其特征在于,包括:
根据bigram语言模型抽取已知背景语料的bigram元素,并统计所述已知背景语料中所有bigram元素的词频和与种数;
根据bigram语言模型抽取前景语料的bigram元素,并统计所述前景语料中所有bigram元素的词频和与种数;
根据上述所有统计确定所述前景语料中符合第一预设规则的bigram元素;
根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展,得到所述前景语料的n-gram元素,确定所述前景语料中符合第二预设规则的n-gram元素,得到新词列表。
2.如权利要求1所述的新词发现方法,其特征在于,所述第一预设规则包括:
该bigram元素在所述前景语料和已知背景语料中的出现概率比值与在所述前景语料和已知背景语料中所有bigram元素的平均概率的比值之比大于第一预设阈值;
所述前景语料中该bigram元素的词频与所有bigram元素的词频均值之比大于第二预设阈值;
该bigram元素的首字或尾字在所述前景语料中的相关度大于第三预设阈值。
4.如权利要求1所述的新词发现方法,其特征在于,所述已知背景语料为国家语委现代汉语语料库中的语料。
5.如权利要求1所述的新词发现方法,其特征在于,所述第二预设规则包括:
该n-gram元素由某(n-1)-gram元素向前或向后扩展一个字得到时,该n-gram元素关于该(n-1)-gram元素的条件概率大于第四预设阈值;
该n-gram元素向前或向后扩展一个字得到(n+1)-gram元素时,该(n+1)-gram元素关于该n-gram元素的条件概率小于等于所述第四预设阈值;
该n-gram元素的词频与所述前景语料中所有bigram元素的词频均值之比大于第五预设阈值。
6.如权利要求5所述的新词发现方法,其特征在于,得到新词列表时,某(n-1)-gram元素独立成词的向前独立概率和向后独立概率均大于所述第四预设阈值时,保留该(n-1)-gram元素于所述新词列表中;
其中,
当由xi-n+1,...,xi-1组成的(n-1)-gram元素向后扩展一个字xi得到由xi-n+1,...,xi组成的n-gram元素时,使该由xi-n+1,...,xi组成的n-gram元素关于该由xi-n+1,...,xi-1组成的(n-1)-gram元素的条件概率P(xi|xi-n+1,...,xi-1)大于第四预设阈值的字xi有j种,则定义该由xi-n+1,...,xi-1组成的(n-1)-gram元素独立成词的向后独立概率Palone1(xi-n+1,...,xi-1)为:
当由xi-n+1,...,xi-1组成的(n-1)-gram元素向前扩展一个字xi-n得到由xi-n,...,xi-1组成的n-gram元素时,使该由xi-n,...,xi-1组成的n-gram元素关于该由xi-n+1,...,xi-1组成的(n-1)-gram元素的条件概率P(xi-n|xi-n+1,...,xi-1)大于第四预设阈值的字xi-n有k种,则定义该由xi-n+1,...,xi-1组成的(n-1)-gram元素独立成词的向前独立概率Palone2(xi-n+1,...,xi-1)为:
7.如权利要求5所述的新词发现方法,其特征在于,根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展得到trigram元素的过程中,对所述剩余的bigram元素及得到trigram元素进行筛选更新。
8.如权利要求7所述的新词发现方法,其特征在于,
当由xi-2,xi-1组成的bigram元素向后扩展一个字xi-得到由xi-2,xi-1,xi-组成的trigram元素时,满足所述字xi-关于该bigram元素的条件概率大于所述第四预设阈值后,
若该bigram元素的首字xi-2关于由xi-1,xi组成的bigram元素的条件概率大于所述第四预设阈值,则所述由xi-2,xi-1,xi-组成的trigram元素能继续扩展;
若该bigram元素的首字xi-2关于由xi-1,xi组成的bigram元素的条件概率小于等于所述第四预设阈值,则所述由xi-2,xi-1组成的bigram元素和所述由xi-2,xi-1,xi-组成的trigram元素均不是有效的新词;
当由xi-2,xi-1组成的bigram元素向前扩展一个字xi--3得到由xi-3-,xi-2,xi-1组成的trigram元素时,满足所述字xi--3关于该bigram元素的条件概率大于所述第四预设阈值后,
若该bigram元素的尾字xi-1关于由xi-3,xi-2组成的bigram元素的条件概率大于所述第四预设阈值,则所述由xi-3-,xi-2,xi-1组成的trigram元素能继续扩展;
若该bigram元素的尾字xi-1关于由xi-3,xi-2组成的bigram元素的条件概率小于等于所述第四预设阈值,则所述由xi-2,xi-1组成的bigram元素和所述由xi-3-,xi-2,xi-1组成的trigram元素均不是有效的新词。
9.一种新词发现系统,其特征在于,包括:
bigram背景模块,用于根据bigram语言模型抽取已知背景语料的bigram元素,并统计所述已知背景语料中所有bigram元素的词频和与种数;
bigram前景模块,用于根据bigram语言模型抽取前景语料的bigram元素,并统计所述前景语料中所有bigram元素的词频和与种数;
bigram筛选模块,用于根据所述bigram背景模块和bigram前景模块统计确定所述前景语料中符合第一预设规则的bigram元素;
n-gram扩展模块,用于根据n-gram语言模型对经所述bigram筛选模块过滤后剩余的bigram元素进行在所述前景语料中的向前和向后扩展,得到所述前景语料的n-gram元素,确定所述前景语料中符合第二预设规则的n-gram元素,得到新词列表。
10.如权利要求9所述的新词发现系统,其特征在于,所述第一预设规则包括:
该bigram元素在所述前景语料和已知背景语料中的出现概率比值与在所述前景语料和已知背景语料中所有bigram元素的平均概率的比值之比大于第一预设阈值;
所述前景语料中该bigram元素的词频与所有bigram元素的词频均值之比大于第二预设阈值;
该bigram元素的首字或尾字在所述前景语料中的相关度大于第三预设阈值。
12.如权利要求9所述的新词发现系统,其特征在于,所述已知背景语料为国家语委现代汉语语料库中的语料。
13.如权利要求9所述的新词发现系统,其特征在于,所述第二预设规则包括:
该n-gram元素由某(n-1)-gram元素向前或向后扩展一个字得到时,该n-gram元素关于该(n-1)-gram元素的条件概率大于第四预设阈值;
该n-gram元素向前或向后扩展一个字得到(n+1)-gram元素时,该(n+1)-gram元素关于该n-gram元素的条件概率小于等于所述第四预设阈值;
该n-gram元素的词频与所述前景语料中所有bigram元素的词频均值之比大于第五预设阈值。
14.如权利要求9所述的新词发现系统,其特征在于,得到新词列表时,某(n-1)-gram元素独立成词的向前独立概率和向后独立概率均大于所述第四预设阈值时,保留该(n-1)-gram元素于所述新词列表中;
其中,
当由xi-n+1,...,xi-1组成的(n-1)-gram元素向后扩展一个字xi得到由xi-n+1,...,xi组成的n-gram元素时,使该由xi-n+1,...,xi组成的n-gram元素关于该由xi-n+1,...,xi-1组成的(n-1)-gram元素的条件概率P(xi|xi-n+1,...,xi-1)大于第四预设阈值的字xi有j种,则定义该由xi-n+1,...,xi-1组成的(n-1)-gram元素独立成词的向后独立概率Palone1(xi-n+1,...,xi-1)为:
当由xi-n+1,...,xi-1组成的(n-1)-gram元素向前扩展一个字xi-n得到由xi-n,...,xi-1组成的n-gram元素时,使该由xi-n,...,xi-1组成的n-gram元素关于该由xi-n+1,...,xi-1组成的(n-1)-gram元素的条件概率P(xi-n|xi-n+1,...,xi-1)大于第四预设阈值的字xi-n有k种,则定义该由xi-n+1,...,xi-1组成的(n-1)-gram元素独立成词的向前独立概率Palone2(xi-n+1,...,xi-1)为:
15.如权利要求9所述的新词发现系统,其特征在于,根据n-gram语言模型对所述前景语料中剩余的bigram元素进行在所述前景语料中的向前和向后扩展得到trigram元素的过程中,对所述剩余的bigram元素及得到trigram元素进行筛选更新。
16.如权利要求15所述的新词发现系统,其特征在于,
当由xi-2,xi-1组成的bigram元素向后扩展一个字xi-得到由xi-2,xi-1,xi-组成的trigram元素时,满足所述字xi-关于该bigram元素的条件概率大于所述第四预设阈值后,
若该bigram元素的首字xi-2关于由xi-1,xi组成的bigram元素的条件概率大于所述第四预设阈值,则所述由xi-2,xi-1,xi-组成的trigram元素能继续扩展;
若该bigram元素的首字xi-2关于由xi-1,xi组成的bigram元素的条件概率小于等于所述第四预设阈值,则所述由xi-2,xi-1组成的bigram元素和所述由xi-2,xi-1,xi-组成的trigram元素均不是有效的新词;
当由xi-2,xi-1组成的bigram元素向前扩展一个字xi--3得到由xi-3-,xi-2,xi-1组成的trigram元素时,满足所述字xi--3关于该bigram元素的条件概率大于所述第四预设阈值后,
若该bigram元素的尾字xi-1关于由xi-3,xi-2组成的bigram元素的条件概率大于所述第四预设阈值,则所述由xi-3-,xi-2,xi-1组成的trigram元素能继续扩展;
若该bigram元素的尾字xi-1关于由xi-3,xi-2组成的bigram元素的条件概率小于等于所述第四预设阈值,则所述由xi-2,xi-1组成的bigram元素和所述由xi-3-,xi-2,xi-1组成的trigram元素均不是有效的新词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110138042 CN102231153A (zh) | 2011-05-25 | 2011-05-25 | 一种新词发现方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110138042 CN102231153A (zh) | 2011-05-25 | 2011-05-25 | 一种新词发现方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102231153A true CN102231153A (zh) | 2011-11-02 |
Family
ID=44843717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110138042 Pending CN102231153A (zh) | 2011-05-25 | 2011-05-25 | 一种新词发现方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102231153A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678282A (zh) * | 2014-01-07 | 2014-03-26 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
CN108959259A (zh) * | 2018-07-05 | 2018-12-07 | 第四范式(北京)技术有限公司 | 新词发现方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118556A (zh) * | 2007-09-17 | 2008-02-06 | 中国科学院计算技术研究所 | 一种短文本的新词发现方法和系统 |
CN101131705A (zh) * | 2007-09-27 | 2008-02-27 | 中国科学院计算技术研究所 | 一种新词发现方法和系统 |
CN101539940A (zh) * | 2009-05-04 | 2009-09-23 | 清华大学 | 获取新词的方法和装置 |
CN101706807A (zh) * | 2009-11-27 | 2010-05-12 | 清华大学 | 一种中文网页新词自动获取方法 |
US7783476B2 (en) * | 2004-05-05 | 2010-08-24 | Microsoft Corporation | Word extraction method and system for use in word-breaking using statistical information |
-
2011
- 2011-05-25 CN CN 201110138042 patent/CN102231153A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7783476B2 (en) * | 2004-05-05 | 2010-08-24 | Microsoft Corporation | Word extraction method and system for use in word-breaking using statistical information |
CN101118556A (zh) * | 2007-09-17 | 2008-02-06 | 中国科学院计算技术研究所 | 一种短文本的新词发现方法和系统 |
CN101131705A (zh) * | 2007-09-27 | 2008-02-27 | 中国科学院计算技术研究所 | 一种新词发现方法和系统 |
CN101539940A (zh) * | 2009-05-04 | 2009-09-23 | 清华大学 | 获取新词的方法和装置 |
CN101706807A (zh) * | 2009-11-27 | 2010-05-12 | 清华大学 | 一种中文网页新词自动获取方法 |
Non-Patent Citations (2)
Title |
---|
《The Proceedings of the 1994 Kyoto conference: A Festschrift for Professor Akira Ikeya》 19951231 Mei-Chu Wang等 the Identification and Classification of Unknown Words in Chinese: An N-Grams-Based Approach 113-123 1-16 , * |
《计算机工程》 20041031 贾自艳等 基于概率统计技术和规则方法的新词发现 19-21,83 1-16 第30卷, 第20期 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678282A (zh) * | 2014-01-07 | 2014-03-26 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
CN103678282B (zh) * | 2014-01-07 | 2016-05-25 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
CN108959259A (zh) * | 2018-07-05 | 2018-12-07 | 第四范式(北京)技术有限公司 | 新词发现方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105917327B (zh) | 用于将文本输入到电子设备中的系统和方法 | |
EP2940684B1 (en) | Voice recognizing method and system for personalized user information | |
US8655646B2 (en) | Apparatus and method for detecting named entity | |
US9164983B2 (en) | Broad-coverage normalization system for social media language | |
US20100312545A1 (en) | Detecting Writing Systems and Languages | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
KR101279676B1 (ko) | 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치 | |
US20020077816A1 (en) | Method and system for automatically extracting new word | |
US7917353B2 (en) | Hybrid text segmentation using N-grams and lexical information | |
CN101493812B (zh) | 一种音字转换方法 | |
US7949527B2 (en) | Multiresolution searching | |
CN110134950B (zh) | 一种字词结合的文本自动校对方法 | |
CN104951469A (zh) | 优化语料库的方法和装置 | |
CN103488752A (zh) | 一种poi智能检索的检索方法 | |
CN105912521A (zh) | 一种解析语音内容的方法及装置 | |
CN109033066A (zh) | 一种摘要形成方法及装置 | |
CN107577713B (zh) | 基于电力词典的文本处理方法 | |
CN104317783A (zh) | 一种语义关系密切度的计算方法 | |
CN102231153A (zh) | 一种新词发现方法和系统 | |
CN103377224A (zh) | 识别问题类型的方法及装置、建立识别模型的方法及装置 | |
Messiant | A subcategorization acquisition system for French verbs | |
US8468011B1 (en) | Detecting writing systems and languages | |
CN113255329A (zh) | 英文文本拼写纠错方法、装置、存储介质及电子设备 | |
CN108289252A (zh) | 一种切换系统语言的机顶盒及方法 | |
CN109800430B (zh) | 一种语义理解方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20111102 |
|
C20 | Patent right or utility model deemed to be abandoned or is abandoned |