CN104156349A - 基于统计词典模型的未登录词发现和分词系统及方法 - Google Patents

基于统计词典模型的未登录词发现和分词系统及方法 Download PDF

Info

Publication number
CN104156349A
CN104156349A CN201410299453.9A CN201410299453A CN104156349A CN 104156349 A CN104156349 A CN 104156349A CN 201410299453 A CN201410299453 A CN 201410299453A CN 104156349 A CN104156349 A CN 104156349A
Authority
CN
China
Prior art keywords
dictionary
participle
theta
vocabulary
centerdot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410299453.9A
Other languages
English (en)
Other versions
CN104156349B (zh
Inventor
邓柯
刘军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410299453.9A priority Critical patent/CN104156349B/zh
Publication of CN104156349A publication Critical patent/CN104156349A/zh
Application granted granted Critical
Publication of CN104156349B publication Critical patent/CN104156349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种基于统计词典模型的未登录词发现和分词方法,应用于计算装置中,该方法包括:接收步骤,接收用户输入的文本;构建步骤一,构建初始词典;构建步骤二,利用EM算法和模型选择技术对初始词典进行筛选以得到最终词典;计算步骤,利用对数似然比统计量来计算最终词典中词汇的统计显著性以得到最终词典中词汇的重要性得分,并根据最终词典中词汇的重要性得分对输入文本中所有识别出来的未登录词由高到低进行排序;分析步骤,根据最终词典,通过计算和分析输入文本的每种分词方式的条件概率来实现对输入文本的分词。

Description

基于统计词典模型的未登录词发现和分词系统及方法
技术领域
本发明涉及文本的计算机自动处理领域,尤其涉及一种基于统计词典模型的未登录词发现和分词系统及方法。
背景技术
自然语言文本是由基本语言单位构成有限序列。对于汉语而言,基本语言单位是所有汉字字符的集合;对于以英语为代表的西方语言而言,基本语言单位是所有单词的集合。尽管自然语言文本是由基本语言单位构成的,但是想要准确理解文本的内容,我们常常需要识别出基本语言单位之上的高级语言结构。对于汉语而言,这里所考虑的高级语言结构是指所有汉语词的全集(一个汉语词可以是仅包含一个汉字字符的单字词,也可以是包含多个汉字字符的多字词);对于以英语为代表的西方语言而言,这里所考虑的高级语言结构是指由多个单词构成的单词短语(比如,像“People’s Republic of China”这样的复杂名词短语)。
在自然语言文本中,构成文本的基本语言单位是明确可见的,但是其中所包含的高级语言结构却并非是直接可观测的。这就为自然语言文本的计算机自动分析带来了两大核心问题:(A)分词,即将由基本语言单位序列构成的文本分解成高级语言结构(词或短语)的序列;(B)未登录词识别,即从文本中自动识别未被现有词库包含的高级语言结构(词或短语)。这两个问题是汉语文本分析中的核心问题,并在其他语言的文本分析中广泛存在。例如,在英语中,尽管英语单词之间有空格分开,但是我们仍然时常需要识别像“People’s Republic of China”这样的复杂名词短语。
现有的分词技术可以归结为以下几类:(A1)假定存在一个已知词库D,设计算法进行分词。例如,机械分词法和基于正则表达式的分词法。(A2)利用语言学家通过人工分词和语法标注生成的语料库作为训练文本进行模型训练,并利用训练所得的模型来实现分词。例如,基于条件随机场(Conditional RandomField,CRF)、隐马氏模型(Hidden Markov Model,HMM)或者层次隐马氏模型(Hierarchical Hidden Markov Model)的分词法。
方法(A1)的主要缺陷是:如果实际使用的词库显著大于已知词库D,则分词准确度会大幅下降。方法(A2)的主要缺陷是:需要大规模、高质量的语料库作为训练文本;如果目标文本和训练文本的特点差异较大,则分词准确度会大幅下降。
现有的未登录词识别技术可以归结为以下几类:(B1)人工识别。(B2)通过对大量用户使用特定汉字输入法时的行为规律来识别。(B3)通过对两个或多个基本语言单位相邻出现的统计规律进行分析来识别。方法(B1)的主要缺陷是:速度慢;实时性差;难以有效处理大规模数据。方法(B2)的主要缺陷是:只有输入法的设计者或管理者才能使用;难以识别未被用户群有效覆盖的未登录词,如专业性较强的专有词汇。方法(B3)的主要缺陷是:基于启发式算法;只能利用目标文本中的局部信息;准确度较低。
现有的文本分析技术基本上都将(A)和(B)这两个问题分别处理。但是,实际上(A)和(B)这两个问题是相互缠绕,互为因果的。未登录词的存在会显著影响分词的效果;而反过来,分词又是未登录词识别的前提。将(A)和(B)这两个问题整合在一起同时处理是克服上述困境的最佳途径。但是现有的文本分析技术都无法有效地实现这一点。
发明内容
鉴于以上内容,有必要提供一种基于统计词典模型的未登录词发现和分词系统及方法,其能将对输入文本的分词和未登录词识别这两个问题有机地结合在一起同时处理,并且基于严格的统计推断,假设清晰,理论基础坚实;自适应性强,可以在没有任何训练文本或者训练样本和目标文本差异较大的情况下正常工作。
一种基于统计词典模型的未登录词发现和分词系统,运行于计算装置中,该系统包括:接收模块,用于接收输入文本;构建模块,用于构建初始词典;所述构建模块,还用于利用EM算法和模型选择技术对初始词典进行筛选以得到最终词典;计算模块,用于利用对数似然比统计量来计算最终词典中词汇的统计显著性以得到最终词典中词汇的重要性得分,并根据最终词典中词汇的重要性得分对输入文本中所有识别出来的未登录词由高到低进行排序;分析模块,用于根据最终词典,通过计算和分析输入文本的每种分词方式的条件概率来实现对输入文本的分词。
一种基于统计词典模型的未登录词发现和分词方法,应用于计算装置中,该方法包括:接收步骤,接收输入文本;构建步骤一,构建初始词典;构建步骤二,利用EM算法和模型选择技术对初始词典进行筛选以得到最终词典;计算步骤,利用对数似然比统计量来计算最终词典中词汇的统计显著性以得到最终词典中词汇的重要性得分,并根据最终词典中词汇的重要性得分对输入文本中所有识别出来的未登录词由高到低进行排序;分析步骤,根据最终词典,通过计算和分析输入文本的每种分词方式的条件概率来实现对输入文本的分词。
相较于现有技术,本发明从一个简化的语言模型,即统计词典模型出发,将汉语未登录词识别和分词问题转化为统计推断问题加以解决,可以同步完成未登录词识别和分词,并对识别出的未登录词按照统计显著性从强到弱进行排序;从一个明确的统计模型出发,将对输入文本的分词和未登录词识别这两个问题有机地结合在一起同时处理;整个方法基于严格的统计推断,假设清晰,理论基础坚实;自适应性强,可以在没有任何训练文本或者训练样本和目标文本差异较大的情况下正常工作。
附图说明
图1是本发明基于统计词典模型的未登录词发现和分词系统的应用环境图。
图2是本发明基于组合模式的失效服务替代推荐方法的较佳实施例的流程图。
主要元件符号说明
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
如图1所示,是本发明基于统计词典模型的未登录词发现和分词系统的应用环境图。所述基于统计词典模型的未登录词发现和分词系统30应用于计算装置1中来分析目标文本(即用户输入的文本),同步完成目标文本中未登录词的识别和对目标文本的分词,并对识别出的未登录词按照统计显著性从强到弱进行排序,从而实现对未登录词的筛选。该计算装置1还包括存储器10及处理器20。所述存储器10中存储有已知词库。所述已知词库用于构建初始字典。
所述计算装置1可以是电脑、服务器等。所述客户端2可以是电脑、手机、PDA(Personal Digital Assistant,个人数字助理)等。
如图1所示,所述基于统计词典模型的未登录词发现和分词系统30由一个或者多个模块构成,所述模块还包括接收模块300、构建模块301、计算模块302及分析模块303,所述模块的功能将在后续中详述。
本发明是在一个称为统计词典模型的框架下实现的。统计词典模型的基本要素如下:
字符集A={A1,A2,…Ap}为目标语言所有基本语言单位的全体;
词汇是A中l个元素的序列;
词典D={W1,W2,…,Wn,τ}是N个词汇的集合外加一个特殊终止符号τ;
参数θ={θ12,…θNτ}给出了D中每个元素的使用概率,其中0≤θi<1对于i=1,2,…,N,0<τ<1,并且
句子是k个词汇的序列(符号“|”表示词间分割符);
未分词文本是k个词汇的串联(不包含词间分割符);
输入文本T={T1,T2,…,Tn}是n条未分词文本的全体。
统计词典模型的基本假定是:句子是通过对D中元素进行k次独立的有放回抽取产生的,每次抽取时抽到词汇Wi的概率是θi,直至抽到终止符号τ时停止。在上述模型下,生成句子的似然函数为:
P ( S | D , &theta; ) = &theta; i 1 &theta; i 2 &CenterDot; &CenterDot; &CenterDot; &theta; i k &theta; &tau; ;
生成未分词文本Tj的似然函数为:
其中,记号表示在词典D下,未分词文本Tj的所有可能分词方式。
例如,假设给定如下词典(D,θ):
那么,对于未分词文本
Tj=“王安石为参知政事”,
共有两种可能的分词方式:
S1=“王|安|石|为|参知政事”,
S2=“王安石|为|参知政事”。
从而,我们有并且
P(S1|D,θ)=0.15×0.15×0.15×0.15×0.15×0.10≈7.59×10-6,
P(S2|D,θ)=0.15×0.15×0.15×0.10≈3.38×10-4
P(Tj|D,θ)=P(S1|D,θ)+P(S2|D,θ)≈3.45×10-4.
由此,我们还可以得到给定Tj时,两种可能分词方式的条件概率分别为:
P ( S 1 | T j ; D , &theta; ) = P ( S 1 | D , &theta; ) P ( T j | D , &theta; ) &ap; 7.59 &times; 10 - 6 3.45 &times; 10 - 4 &ap; 0.022 ,
P ( S 2 | T j ; D , &theta; ) = P ( S 2 | D , &theta; ) P ( T j | D , &theta; ) &ap; 3 . 38 &times; 10 - 4 3.45 &times; 10 - 4 &ap; 0 . 978 .
显然,在本例中条件概率较大的分词方式S2对应于正确的分词。
如图2所示,是本发明基于统计词典模型的未登录词发现和分词方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S11,接收模块300接收用户输入的文本(以下简称“输入文本”)。
步骤S12,构建模块301构建初始词典。
在本实施例中,初始词典中的每一个元素都称为一个候选词汇,在构建初始词典时,初始词典中的元素有两个来源:(1)存储器10中所存储的已知词库;(2)从用户输入的文本中提取。这两个来源可以同时使用,或者只使用其中的一个。利用枚举正则字符串的方法从输入文本中提取候选词汇,具体过程如下:我们穷举输入文本中所有长度小于或等于L且出现频数大于或等于F的字符串;每一个这样得到的字符串被称为一个正则字符串,并将被作为一个候选词汇加入到初始词典中。这种穷举的过程可以通过一种快速算法实现,其计算复杂度为O(LK)和输入文本总长度呈线性关系。例如,假设取L=4和F=2,那么从输入文本“AABBABCABCD”中提取出的正则字符串应为:
A(4),B(4),C(2),D(1),AB(3),BC(2),ABC(2).
其中,括号中的数字代表该正则字符串的出现频数。在本发明中,L和F的默认取值分别为8和3。另外为了保证统计词典模型的相容性,所有A中元素都将被作为单字词放入初始词典中。
在构建初始词典时,通过将正则字符串和已知词库相结合的方法建立目标文本的初始词典,既反映了输入文本的特性,又限定了未登录词识别的范围。
步骤S13,构建模块301利用最大期望算法(Expectation‐Maximizationalgorithm,EM)对初始词典进行筛选以得到最终词典。
将初始词典转化为最终词典是本发明的一个关键步骤。因为初始词典中包含了从输入文本中穷举得到的大量字符串作为候选词汇,这使得初始词典的规模非常庞大,初始词典既包含了有实际意义的词汇,又包含了大量不具有实际意义的字符串。而EM算法通过不断优化系统参数,恰恰可以将绝大多数不具有实际意义的字符串参数归零,从而实现对初始词典中的候选词汇的筛选。
通过应用EM算法和模型选择技术给出了对候选词汇筛选的系统性方法。EM算法是一个包含E步和M步两个基本步骤的迭代算法,其中的E步和分词密切相关,M步和未登录词识别密切相关。步骤S12和步骤13相结合,在初始词典的基础上运用EM算法将未登录词识别和分词这两个问题统一并转化为一个统计推断问题。在步骤S13中得到的最终词典给出了未登录词识别的基本结果。
EM算法是在缺失数据的背景下获得模型参数极大似然估计的一种通用统计方法。该方法从对未知参数的一个初估计开始,通过在E步(Expectation)和M步(Maximization)两个基本步骤之间反复迭代来逐步优化参数估计。统计理论保证EM算法至少收敛到似然函数的一个局部极大值点。在本发明中,将输入文本中未知的词间分隔符作为缺失数据,输入文本作为不完全数据,运用EM算法估计统计词典模型中的参数θ。一个完整的EM算法包括四个步骤:初值的选取、E步、M步和停止准则。在本发明中,四个步骤具体如下:
(a)初值。对于初始词典中的元素Wi,其参数θi的初值设定为
&theta; i ( 0 ) = n i ( 0 ) &Sigma; j = 1 N n j ( 0 ) + n .
其中,
n i ( 0 ) = &Sigma; j = 1 n n ij ( 0 ) , n ij ( 0 ) = &Delta; &Sigma; t = 0 L j - k i I ( T j [ t + 1 , t + k i ] = W i ) , I(·)是示性函数。
在上述公式中,Lj是Tj的长度,ki是Wi的长度,Tj[a,b]是Tj中从位置a起始到位置b终止的子字符串(包含位置a和位置b上的字符)。整数值的直观含义是字符串Tj中子字符串Wi出现的次数。例如,对于
Tj=ABCABCD,Wi=ABC,
我们有 n ij ( 0 ) = 2 .
(b)E步。令θ(r)为在EM算法第r轮迭代中得到的参数估计,E步将计算如下统计量
其中,记号P(S|Tj;D,θ)定义为
表示在词典模型(D,θ)下,Tj由分词方式S产生的条件概率;记号ni(S)表示在句子S中词汇Wi出现的次数。例如,对于
S=ABC|ABCD|AB|C,Wi=ABC,
我们有ni(S)=1。在实际计算中,统计量的值可以通过动态规划(DynamicProgramming)在线性时间内获得。其计算复杂度为O(LjK),其中Lj是Tj的长度,K是D中词汇的最大长度。
(c)M步。在M步中,我们将按照如下公式来更新对参数θ的估计
&theta; ( r + 1 ) = 1 n + &Sigma; i = 1 N n i ( r ) &CenterDot; ( n 1 ( r ) , &CenterDot; &CenterDot; &CenterDot; n N ( r ) , n ) .
(d)停止准则。在E步和M步之间反复迭代,直到θ(r)和θ(r+1)之间的欧氏距离d(θ(r)(r+1))小于预先给定的阀值δ时,算法停止。在本发明中,默认阀值为δ=1×10-6
通过EM算法的迭代计算,初始词典中许多元素的参数会收敛到零,只有具有较高统计显著性的元素会得到非零的参数估计。这些参数估计大于零的元素将构成最终词典。这样生成的最终词典常常包含许多未被已知词库所收录但又在输入文本中多次出现的词汇,从而自然实现了未登录词识别。
步骤S14,计算模块302利用对数似然比统计量来计算最终词典中词汇的统计显著性以得到最终词典中词汇的重要性得分,并根据最终词典中词汇的重要性得分对输入文本中所有识别出来的未登录词由高到低进行排序。
在本实施例中,运用对数似然比统计量来计算最终词典中词汇的统计显著性,并以此作为判断词汇重要程度的指标。一个被识别出来的未登录词的重要性得分越高(即高于一个预先设定的阀值),则所识别出的未登录词是有效的;如果一个被识别出来的未登录词的重要性得分过低(即低于一个预先设定的阀值),将判定这个未登录词是无效的,并将该未登录词从系统中清除。这一步骤S14可以在步骤S13的基础上做进一步的词汇筛选。
给定词典D及其参数θ,对于一组输入文本,D中不同元素的统计显著性是有区别的。了解词汇的统计显著性对于提高未登录词识别的精度有重要意义。因为D中元素既包含从已知词库中导入的词汇,也包含从输入文本中提取出来的作为候选词汇的正则字符串。最终词典中的一个元素如果重要性得分很高,并且未被已知词库所收录,那么我们将很有把握地把它作为一个未登录词识别出来;反之,如果,这个元素的重要性得分很低,那么这个识别结果很可能是无效的,应该慎重处理(例如,通过人工校验加以确认)。在本发明中,我们使用如下定义的对数似然比统计量来衡量词汇Wi的统计显著性:
&psi; i = log P ( T | D , &theta; ) P ( T | D , &theta; [ W i = 0 ] ) = log &Pi; j = 1 n P ( T j | D , &theta; ) &Pi; j = 1 n P ( T j | D , &theta; [ W i = 0 ] ) .
其中,
&theta; [ W i = 0 ] = &Delta; ( &theta; 1 , &CenterDot; &CenterDot; &CenterDot; &theta; i - 1 , &theta; i + 1 , &CenterDot; &CenterDot; &CenterDot; , &theta; N ) .
公式中的P(T|D,θ)代表词典(D,θ)拟合输入文本T的似然函数。较大的ψi意味着一旦将词汇Wi的参数θi强行设定为0,则对输入数据的拟合将显著变差,从而说明Wi对输入文本而言非常重要。
步骤S15,分析模块303根据最终词典,通过计算和分析输入文本的每种分词方式的条件概率来实现对输入文本的分词。
给定词典D及其参数θ,对于给定的一条未分词文本T∈T,我们通过计算和分析T的不同分词方式的条件概率来实现分词。假定是T在词典D下的所有可能分词方式,根据统计词典模型的假设,在给定T的条件下,分词方式的条件概率为:
按照极大似然原则,未知分词方式的极大似然估计为使P(S|T;D,θ)取到最大值的分词方式,即
另一个更稳健的分词策略是计算未分词文本T的每个位置上出现词间分割符的条件概率,并依据所述条件概率进行分词。如果分词方式S在第t个字符之后有词间分割符,则令示性函数It(S)=1;否则,令示性函数It(S)=0。那么,在位置t出现切分符的条件概率为
一个自然的选择是:如果条件概率γt>0.5,就在T中第t个字符后放置一个词间分割符。本发明默认使用基于条件概率的分词方法。
本发明从一个明确的统计模型出发,将对输入文本的分词和未登录词识别这两个问题有机地结合在一起同时处理;整个方法基于严格的统计推断,假设清晰,理论基础坚实;自适应性强,可以在没有任何训练文本或者训练样本和目标文本差异较大的情况下正常工作。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神。

Claims (16)

1.一种基于统计词典模型的未登录词发现和分词方法,应用于计算装置中,其特征在于,该方法包括:
接收步骤,接收用户输入的文本;
构建步骤一,构建初始词典;
构建步骤二,利用EM算法和模型选择技术对初始词典进行筛选以得到最终词典;
计算步骤,利用对数似然比统计量来计算最终词典中词汇的统计显著性以得到最终词典中词汇的重要性得分,并根据最终词典中词汇的重要性得分对输入文本中所有识别出来的未登录词由高到低进行排序;
分析步骤,根据最终词典,通过计算和分析输入文本的每种分词方式的条件概率来实现对输入文本的分词。
2.如权利要求1所述的统计词典模型的未登录词发现和分词方法,其特征在于,初始词典中的候选词汇的来源包括:计算装置的存储器中所存储的已知词库;从用户输入的文本中提取。
3.如权利要求2所述的统计词典模型的未登录词发现和分词方法,其特征在于,利用枚举正则字符串的方法从输入文本中提取候选词汇;即穷举输入文本中所有长度小于或等于L且出现频数大于或等于F的字符串,一个字符串称为正则字符串,并将每一个正则字符串作为一个候选词汇加入到初始词典中。
4.如权利要求1所述的统计词典模型的未登录词发现和分词方法,其特征在于,通过EM算法和模型选择技术构建最终词典是在统计词典模型的框架下实现的,统计词典模型的基本要素如下:
字符集A={A1,A2,…Ap}为目标语言所有基本语言单位的全体;
词汇是A中l个元素的序列;
词典D={W1,W2,…,WN,τ}是N个词汇的集合外加一个特殊终止符号τ;
参数θ={θ12,…θNτ}给出了D中每个元素的使用概率,其中0≤θi<1对于i=1,2,…,N,0<τ<1,并且
句子是k个词汇的序列,其中符号“|”表示词间分割符;
未分词文本是k个词汇的串联,未分词文本不包含词间分割符;
输入文本T={T1,T2,…,Tn}是n条未分词文本的全体;
统计词典模型的基本假定是:句子是通过对D中元素进行k次独立的有放回抽取产生的,每次抽取时抽到词汇Wi的概率是θi,直至抽到终止符号τ时停止,在统计词典模型下,生成句子的似然函数为:
P ( S | D , &theta; ) = &theta; i 1 &theta; i 2 &CenterDot; &CenterDot; &CenterDot; &theta; i k &theta; &tau; ;
生成未分词文本Tj的似然函数为:
其中,记号表示在词典D下,未分词文本Tj的所有可能分词方式。
5.如权利要求4所述的统计词典模型的未登录词发现和分词方法,其特征在于,运用EM算法估计统计词典模型中的参数θ,一个完整的EM算法包括四个步骤:
(a)初值的选取,对于初始词典中的元素Wi,其参数θi的初值设定为
&theta; i ( 0 ) = n i ( 0 ) &Sigma; j = 1 N n j ( 0 ) + n ,
其中,
n i ( 0 ) = &Sigma; j = 1 n n ij ( 0 ) , n ij ( 0 ) = &Delta; &Sigma; t = 0 L j - k i I ( T j [ t + 1 , t + k i ] = W i ) , I(·)是示性函数,
在上述公式中,Lj是Tj的长度,ki是Wi的长度,Tj[a,b]是Tj中从位置a起始到位置b终止的子字符串,Tj[a,b]包含位置a和位置b上的字符,整数值的直观含义是字符串Tj中子字符串Wi出现的次数;
(b)E步,令θ(r)为在EM算法第r轮迭代中得到的参数估计,E步将计算如下统计量
其中,记号P(S|Tj;D,θ)定义为
表示在词典模型(D,θ)下,Tj由分词方式S产生的条件概率,记号ni(S)表示在句子S中词汇Wi出现的次数;
(c)M步,将按照如下公式来更新对参数θ的估计
&theta; ( r + 1 ) = 1 n + &Sigma; i = 1 N n i ( r ) &CenterDot; ( n 1 ( r ) , &CenterDot; &CenterDot; &CenterDot; n N ( r ) , n ) ;
(d)停止准则,在E步和M步之间反复迭代,直到θ(r)和θ(r+1)之间的欧氏距离d(θ(r)(r+1))小于预先给定的阀值δ时,算法停止。
6.如权利要求4所述的统计词典模型的未登录词发现和分词方法,其特征在于,衡量词汇Wi的统计显著性的对数似然比统计量定义如下:
&psi; i = log P ( T | D , &theta; ) P ( T | D , &theta; [ W i = 0 ] ) = log &Pi; j = 1 n P ( T j | D , &theta; ) &Pi; j = 1 n P ( T j | D , &theta; [ W i = 0 ] ) ,
其中,
&theta; [ W i = 0 ] = &Delta; ( &theta; 1 , &CenterDot; &CenterDot; &CenterDot; &theta; i - 1 , &theta; i + 1 , &CenterDot; &CenterDot; &CenterDot; , &theta; N ) ,
公式中的P(T|D,θ)代表词典(D,θ)拟合输入文本T的似然函数。
7.如权利要求4所述的统计词典模型的未登录词发现和分词方法,其特征在于,给定词典D及其参数θ,对于给定的一条未分词文本T∈T,通过计算和分析T的不同分词方式的条件概率来实现分词;假定是T在词典D下的所有可能分词方式,根据统计词典模型的假设,在给定T的条件下,分词方式的条件概率为:
按照极大似然原则,未知分词方式的极大似然估计为使P(S|T;D,θ)取到最大值的分词方式,即
8.如权利要求4所述的统计词典模型的未登录词发现和分词方法,其特征在于,计算未分词文本T的每个字符后出现词间分割符的条件概率,并依据所述条件概率进行分词;如果分词方式S在T的第t个字符之后有词间分割符,则令示性函数It(S)=1,否则,令示It(S)=0;那么,在位置t出现切分符的条件概率为
9.一种基于统计词典模型的未登录词发现和分词系统,运行于计算装置中,其特征在于,该系统包括:
接收模块,用于接收输入文本;
构建模块,用于构建初始词典;
所述构建模块,还用于利用EM算法和模型选择技术对初始词典进行筛选以得到最终词典;
计算模块,用于利用对数似然比统计量来计算最终词典中词汇的统计显著性以得到最终词典中词汇的重要性得分,并根据最终词典中词汇的重要性得分对输入文本中所有识别出来的未登录词由高到低进行排序;
分析模块,用于根据最终词典,通过计算和分析输入文本的每种分词方式的条件概率来实现对输入文本的分词。
10.如权利要求9所述的统计词典模型的未登录词发现和分词系统,其特征在于,所述初始词典中的候选词汇的来源包括:计算装置的存储器中所存储的已知词库及输入文本。
11.如权利要求10所述的统计词典模型的未登录词发现和分词系统,其特征在于,在构建模块中利用枚举正则字符串的方法从输入文本中提取候选词汇;即穷举输入文本中所有长度小于或等于L且出现频数大于或等于F的字符串,一个字符串称为正则字符串,并将每一个正则字符串作为一个候选词汇加入到初始词典中。
12.如权利要求10所述的统计词典模型的未登录词发现和分词系统,其特征在于,在所述构建模块中,通过EM算法和模型选择技术构建最终词典是在统计词典模型的框架下实现的,统计词典模型的基本要素如下:
字符集A={A1,A2,…Ap}为目标语言所有基本语言单位的全体;
词汇是A中l个元素的序列;
词典D={W1,W2,…,WN,τ}是N个词汇的集合外加一个特殊终止符号τ;
参数θ={θ12,…θNτ}给出了D中每个元素的使用概率,其中0≤θi<1对于i=1,2,…,N,0<τ<1,并且
句子是k个词汇的序列,其中符号“|”表示词间分割符;
未分词文本是k个词汇的串联,未分词文本不包含词间分割符;
输入文本T={T1,T2,…,Tn}是n条未分词文本的全体;
统计词典模型的基本假定是:句子是通过对D中元素进行k次独立的有放回抽取产生的,每次抽取时抽到词汇Wi的概率是θi,直至抽到终止符号τ时停止,在统计词典模型下,生成句子的似然函数为:
P ( S | D , &theta; ) = &theta; i 1 &theta; i 2 &CenterDot; &CenterDot; &CenterDot; &theta; i k &theta; &tau; ;
生成未分词文本Tj的似然函数为:
其中,记号表示在词典D下,未分词文本Tj的所有可能分词方式。
13.如权利要求12所述的统计词典模型的未登录词发现和分词系统,其特征在于,运用EM算法估计统计词典模型中的参数θ,一个完整的EM算法包括四个步骤:
(a)初值的选取,对于初始词典中的元素Wi,其参数θi的初值设定为
&theta; i ( 0 ) = n i ( 0 ) &Sigma; j = 1 N n j ( 0 ) + n ,
其中,
n i ( 0 ) = &Sigma; j = 1 n n ij ( 0 ) , n ij ( 0 ) = &Delta; &Sigma; t = 0 L j - k i I ( T j [ t + 1 , t + k i ] = W i ) , I(·)是示性函数,
在上述公式中,Lj是Tj的长度,ki是Wi的长度,Tj[a,b]是Tj中从位置a起始到位置b终止的子字符串,Tj[a,b]包含位置a和位置b上的字符,整数值的直观含义是字符串Tj中子字符串Wi出现的次数;
(b)E步,令θ(r)为在EM算法第r轮迭代中得到的参数估计,E步将计算如下统计量
其中,记号P(S|Tj;D,θ)定义为
表示在词典模型(D,θ)下,Tj由分词方式S产生的条件概率,记号ni(S)表示在句子S中词汇Wi出现的次数;
(c)M步,将按照如下公式来更新对参数θ的估计
&theta; ( r + 1 ) = 1 n + &Sigma; i = 1 N n i ( r ) &CenterDot; ( n 1 ( r ) , &CenterDot; &CenterDot; &CenterDot; n N ( r ) , n ) ;
(d)停止准则,在E步和M步之间反复迭代,直到θ(r)和θ(r+1)之间的欧氏距离d(θ(r)(r+1))小于预先给定的阀值δ时,算法停止。
14.如权利要求12所述的统计词典模型的未登录词发现和分词系统,其特征在于,在计算模块中,衡量词汇Wi的统计显著性的对数似然比统计量定义如下:
&psi; i = log P ( T | D , &theta; ) P ( T | D , &theta; [ W i = 0 ] ) = log &Pi; j = 1 n P ( T j | D , &theta; ) &Pi; j = 1 n P ( T j | D , &theta; [ W i = 0 ] ) ,
其中,
&theta; [ W i = 0 ] = &Delta; ( &theta; 1 , &CenterDot; &CenterDot; &CenterDot; &theta; i - 1 , &theta; i + 1 , &CenterDot; &CenterDot; &CenterDot; , &theta; N ) ,
公式中的P(T|D,θ)代表词典(D,θ)拟合输入文本T的似然函数。
15.如权利要求12所述的统计词典模型的未登录词发现和分词系统,其特征在于,在所述分析模块中,给定词典D及其参数θ,对于给定的一条未分词文本T∈T,通过计算和分析T的不同分词方式的条件概率来实现分词;假定是T在词典D下的所有可能分词方式,根据统计词典模型的假设,在给定T的条件下,分词方式的条件概率为:
按照极大似然原则,未知分词方式的极大似然估计为使P(S|T;D,θ)取到最大值的分词方式,即
16.如权利要求12所述的统计词典模型的未登录词发现和分词系统,其特征在于,在所述分析模块中,计算未分词文本T的每个字符后出现词间分割符的条件概率,并依据所述条件概率进行分词;如果分词方式S在T的第t个字符之后有词间分割符,则令示性函数It(S)=1,否则,令示It(S)=0;那么在位置t出现切分符的条件概率为
CN201410299453.9A 2014-03-19 2014-06-27 基于统计词典模型的未登录词发现和分词系统及方法 Active CN104156349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410299453.9A CN104156349B (zh) 2014-03-19 2014-06-27 基于统计词典模型的未登录词发现和分词系统及方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201410103747.X 2014-03-19
CN201410103747 2014-03-19
CN201410103747X 2014-03-19
CN201410299453.9A CN104156349B (zh) 2014-03-19 2014-06-27 基于统计词典模型的未登录词发现和分词系统及方法

Publications (2)

Publication Number Publication Date
CN104156349A true CN104156349A (zh) 2014-11-19
CN104156349B CN104156349B (zh) 2017-08-15

Family

ID=51881854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410299453.9A Active CN104156349B (zh) 2014-03-19 2014-06-27 基于统计词典模型的未登录词发现和分词系统及方法

Country Status (1)

Country Link
CN (1) CN104156349B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573027A (zh) * 2015-01-13 2015-04-29 清华大学 一种从文档集中挖掘特征词的系统和方法
CN104714940A (zh) * 2015-02-12 2015-06-17 深圳市前海安测信息技术有限公司 智能交互系统中未登录词的识别方法和装置
CN106897264A (zh) * 2017-01-10 2017-06-27 中国科学院信息工程研究所 一种基于社团划分的无监督复合短语识别方法
CN107357780A (zh) * 2017-06-28 2017-11-17 浙江大学 一种针对中医药症状句子的中文分词方法
CN108062305A (zh) * 2017-12-29 2018-05-22 北京时空迅致科技有限公司 一种基于迭代的三步式无监督中文分词方法
CN108109624A (zh) * 2016-11-23 2018-06-01 中国科学院声学研究所 一种基于统计规律的中文词汇表未登录词比率的估计方法
CN109190124A (zh) * 2018-09-14 2019-01-11 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN110263320A (zh) * 2019-05-05 2019-09-20 清华大学 一种基于专用语料库字向量的无监督中文分词方法
CN111259664A (zh) * 2020-01-14 2020-06-09 腾讯科技(深圳)有限公司 医学文本信息的确定方法、装置、设备及存储介质
CN112988690A (zh) * 2021-03-16 2021-06-18 挂号网(杭州)科技有限公司 词典文件同步方法、装置、服务器及存储介质
CN113268979A (zh) * 2021-04-30 2021-08-17 清华大学 基于双词典模型的人工智能文本分析方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4833610A (en) * 1986-12-16 1989-05-23 International Business Machines Corporation Morphological/phonetic method for ranking word similarities
CN101499058A (zh) * 2009-03-05 2009-08-05 北京理工大学 一种基于类型论的汉语分词方法
CN102004796A (zh) * 2010-12-24 2011-04-06 钱钢 一种网页文本的无阻滞层次分类方法与装置
CN102023986A (zh) * 2009-09-22 2011-04-20 日电(中国)有限公司 参考外部知识构建文本分类器的方法和设备
CN102129427A (zh) * 2010-01-13 2011-07-20 腾讯科技(深圳)有限公司 一种词关系挖掘方法和装置
CN102929870A (zh) * 2011-08-05 2013-02-13 北京百度网讯科技有限公司 一种建立分词模型的方法、分词的方法及其装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4833610A (en) * 1986-12-16 1989-05-23 International Business Machines Corporation Morphological/phonetic method for ranking word similarities
CN101499058A (zh) * 2009-03-05 2009-08-05 北京理工大学 一种基于类型论的汉语分词方法
CN102023986A (zh) * 2009-09-22 2011-04-20 日电(中国)有限公司 参考外部知识构建文本分类器的方法和设备
CN102129427A (zh) * 2010-01-13 2011-07-20 腾讯科技(深圳)有限公司 一种词关系挖掘方法和装置
CN102004796A (zh) * 2010-12-24 2011-04-06 钱钢 一种网页文本的无阻滞层次分类方法与装置
CN102929870A (zh) * 2011-08-05 2013-02-13 北京百度网讯科技有限公司 一种建立分词模型的方法、分词的方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李家福等: "基于EM算法的汉语自动分词方法", 《情报学报》 *
李红霞等: "EM无监督汉语分词算法", 《电脑知识与技术》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573027A (zh) * 2015-01-13 2015-04-29 清华大学 一种从文档集中挖掘特征词的系统和方法
CN104714940A (zh) * 2015-02-12 2015-06-17 深圳市前海安测信息技术有限公司 智能交互系统中未登录词的识别方法和装置
CN108109624A (zh) * 2016-11-23 2018-06-01 中国科学院声学研究所 一种基于统计规律的中文词汇表未登录词比率的估计方法
CN108109624B (zh) * 2016-11-23 2021-06-08 中国科学院声学研究所 一种基于统计规律的中文词汇表未登录词比率的估计方法
CN106897264A (zh) * 2017-01-10 2017-06-27 中国科学院信息工程研究所 一种基于社团划分的无监督复合短语识别方法
CN107357780B (zh) * 2017-06-28 2019-12-10 浙江大学 一种针对中医药症状句子的中文分词方法
CN107357780A (zh) * 2017-06-28 2017-11-17 浙江大学 一种针对中医药症状句子的中文分词方法
CN108062305A (zh) * 2017-12-29 2018-05-22 北京时空迅致科技有限公司 一种基于迭代的三步式无监督中文分词方法
CN109190124A (zh) * 2018-09-14 2019-01-11 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN109190124B (zh) * 2018-09-14 2019-11-26 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN110263320A (zh) * 2019-05-05 2019-09-20 清华大学 一种基于专用语料库字向量的无监督中文分词方法
CN111259664A (zh) * 2020-01-14 2020-06-09 腾讯科技(深圳)有限公司 医学文本信息的确定方法、装置、设备及存储介质
CN112988690A (zh) * 2021-03-16 2021-06-18 挂号网(杭州)科技有限公司 词典文件同步方法、装置、服务器及存储介质
CN112988690B (zh) * 2021-03-16 2023-02-17 挂号网(杭州)科技有限公司 词典文件同步方法、装置、服务器及存储介质
CN113268979A (zh) * 2021-04-30 2021-08-17 清华大学 基于双词典模型的人工智能文本分析方法及相关设备

Also Published As

Publication number Publication date
CN104156349B (zh) 2017-08-15

Similar Documents

Publication Publication Date Title
CN104156349A (zh) 基于统计词典模型的未登录词发现和分词系统及方法
KR102417045B1 (ko) 명칭을 강인하게 태깅하는 방법 및 시스템
KR102532396B1 (ko) 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
US10120861B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
JP5599662B2 (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
CN107391495B (zh) 一种双语平行语料的句对齐方法
EP2643770A2 (en) Text segmentation with multiple granularity levels
WO2005091167A3 (en) Systems and methods for translating chinese pinyin to chinese characters
CN104572958A (zh) 一种基于事件抽取的敏感信息监控方法
CN111177355B (zh) 基于搜索数据的人机对话交互方法、装置和电子设备
CN108027814B (zh) 停用词识别方法与装置
CN102902362A (zh) 文字输入方法及系统
KR102267561B1 (ko) 음성 언어 이해 장치 및 방법
Reffle et al. Unsupervised profiling of OCRed historical documents
CN106886565B (zh) 一种基础房型自动聚合方法
Boudchiche et al. A hybrid approach for Arabic lemmatization
CN110019741A (zh) 问答系统答案匹配方法、装置、设备及可读存储介质
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN106610937A (zh) 一种基于信息论的中文自动分词算法
CN114818891A (zh) 小样本多标签文本分类模型训练方法及文本分类方法
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN104572632A (zh) 一种确定具有专名译文的词汇的翻译方向的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant