CN1270687A - 在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法 - Google Patents

在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法 Download PDF

Info

Publication number
CN1270687A
CN1270687A CN98809243A CN98809243A CN1270687A CN 1270687 A CN1270687 A CN 1270687A CN 98809243 A CN98809243 A CN 98809243A CN 98809243 A CN98809243 A CN 98809243A CN 1270687 A CN1270687 A CN 1270687A
Authority
CN
China
Prior art keywords
probability
word
classification
linguistics
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN98809243A
Other languages
English (en)
Other versions
CN1111841C (zh
Inventor
P·维特舍尔
H·赫格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN1270687A publication Critical patent/CN1270687A/zh
Application granted granted Critical
Publication of CN1111841C publication Critical patent/CN1111841C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Abstract

为了改善自动语言识别系统的识别率,采用了统计的语言模型。利用所说的方法利用小文本数量或完全不用文本来构造语言模型是可行的。语言类别被构造并且该语言模型,也就是单词序列的α-优先的概率,是以文本的语法结构为基础并且依赖于文本的词汇表来计算得出。于是单词和语言学类别的概率被确定。除了上述应用范围的语言模型的重新构造以外本方法同样包含了一个可能性用于使已经存在的语言模型适应于新的应用范围。

Description

在语言识别中通过计算机来确定 至少两个单词的序列出现概率的方法
本发明涉及了一个在语言识别时通过计算机来确定至少两个单词的序列出现概率的方法。
用于语言识别的方法由[1]被熟知。在这里所描述的由至少一个单词组成的序列的适用性通常是作为单词识别的组成部分。该适用性的大小就是概率。
一个统计上的语言模型由[2]被熟知。单词序列W的概率P(W)在语言识别的范围内具有如下特征,首先是较大的词汇量,一般是一个(统计上的)语言模型。该概率P(W)(也就是说,单词序列概率)通过N-Gramm-语言模型PN(W)被近似得出: p N ( w ) = Σ i = 0 n p ( w i | w i - 1 , w i - 2 , . . . , w i - N + 1 ) , - - - ( 0 - 1 )
这里
    Wi      是序列W的第i个单词(i=1...n)
    n       是序列W的单词Wi的数目
    对于N=2由等式(0-1)得出所说的双语法(Bigramme)。
此外下面是熟知的,对于语言识别,首先在商业环境中,采用了一个在词汇上有所限制的应用领域(范围)。不同范围的文本不是仅仅由于其各自的词汇表,而是由于其各自的句子构造而有不同。对于一个特殊领域的语言模型练习必须有相应大的文本数量(文本材料,文本文献),然而在实践中只有很少的几个或只有利用巨大的费用才能获得。
语言学的专业词典由[4]被了解。这里涉及了一个用于借助查找程序来查阅语言学特性的由计算机控制的一种语言的尽可能多的单词编排。对于这种单词记录来说(所谓的单词完整形式)一个对于这种单词完整形式非常重要的语言学特征以及合适的分布,也就是说这种语言学的值,可以被得出。
由[3]可以知道,采用了语言学的分类。一个句子的单词可以根据不同的方式被分配语言学的标志以及语言学的值。在表1中举例来说不同的语言学标志和附属的值被描述(其他例子在[3]中被给出)。
表1:对于语言学特征和语言学单词的例子。
语言学标志 语言学数值
分类 名词,动词,形容词,冠词,代词,副词,连词,介词,等等
名词的类型 抽象,动物,作为物体的一部分,具体,人类,地点,材料,作为计量,植物,时间,等等
代词的形式 指示性,非限定的,疑问的,所有关系的,等等
根据语言学特征
(f1,...fm)                                (0-2)
以及根据语言学的值
(V11...V1j)...(Vm1...Vmj)                  (0-3)
每个单词被分配至少一个语言学类别,这里存在如下的映射准则F的应用:
(C1,...Ck)=F((f1,v11,...,v1j)...(fm,vm1,...vmj))      (0-4)
这里
fm         语言学标志
m          语言学标志的数目
Vm1...Vmj  语言学标志fm的语言学数值
j          语言学数值的数目
Ci         语言学的类别i=1...k
k          语言学类别的数目
f          语言学标志以及语言学数值在语言学分类上的映射准
           则(分类器)
为了说明语言学的类别,语言学标志(英语:feature),语言学值(英语:value)以及分类-双语法-概率一个例子被如下解释。
从这个德语句子开始:“der Bundestag setzt seine Debatte fort”
该冠词“der“(也就是说第一个单词)在德语中被划分为六个语言学的类别(下面仅称为:类别),这里这个类别根据单复数,属性以及格而不同。下表2阐明了这种关系:表2:单词“der“的类别Ci
Ci 类别 数量
C1 冠词 单数 阳性 第一格
C2 冠词 单数 阴性 第二格
C3 冠词 单数 阴性 第三格
C4 冠词 复数 阴性 第二格
C5 冠词 复数 阳性 第二格
C6 冠词 复数 中性 第二格
对于德语的名词“Bundestag“(上面例句中的第二个单词)产生类似的表3:
表3:单词“Bundestag“的类别Ci
Ci 类别 数量
C7 名词 单数 阳性 第一格
C8 名词 单数 阳性 第四格
C9 名词 单数 阳性 第三格
在这个例子中仅仅根据类别-双语法,也就是用于语言学类别的双语法,产生类别C1,由类别C7描述了相关例句的类型,单复数,格以及属性的正确组合。如果实际发生的类别-双语法的频率利用上面给出的文本被确定,则C1-C7对于上面提到的类别-双语法有多次出现,因为这种组合在德语语言中经常出现,而其他类别-双语法,例如组合C2-C8在德语语言中由于不同的Geni而不被允许。利用由这种方式获得的频率来求取得到的类别-双语法概率相应较高(当多次出现时)或者较低(如果不允许)。
本发明的任务是,给出一个在语言识别中确定至少一个单词的序列出现概率的方法,这里确定了一个由很少的文本材料构成的领域的语言模型。
这里需要说明,语言模型的确定明确包含了改编当前语言模型而产生的模型。
该任务依照权利要求1的特征被解决。
依照本发明给出了在语言识别中通过计算机来确定至少两个单词的序列出现频率的方法。一种语言给出了语言学的类别
(C1,...,Ck)                                        (1)
按照公式得出
(C1,...,Ck)=F((f1,v11,...,v1j)...(fm,vm1,...,vmj))      (2)
在这里
fm         表示语言学的标志
m          表示语言学标志的数目
Vm1...Vmj  表示语言学标志fm的语言学数值
j          表示语言学数值的数目
Ci         表示语言学类别i=1...K
k          表示语言学类别的数目
F          表示根据语言学类别由语言学标志和语言学数值构成
           的映射准则。
这里一个单词至少被分配了一个语言类别。至少两个单词的序列出现的概率P(W)由双语法的应用来获得 p ( w ) ≈ Π i = 1 n Σ C i Σ C i - 1 p ( w i | C i ) × p ( C i | C i - 1 ) × p ( C i - 1 | w i - 1 ) - - - ( 3 )
这里
W      至少两个单词的序列
wi     序列W的第i个单词(i=1...n)
n      序列W的单词wi的数目
Ci     语言类别,该类别属于单词wi
Ci-1   语言类别,该类别属于单词wi-1
Ci  所有语言类别的总和,该总和属于单词wi
p(wi|ci)相应的单词概率
p(ci|ci-1)双语法的概率(也就是:类别-双语法-概率)
p(ci-1|wi-1)相应的类别概率
这里要说明的是,数据项Ci被联系到至少一个语言类别,该语言类别被分配给来自于单词序列W的单词wi。这相应的同样适用于数据项Ci-1。举例来说对于类别-双语法-概率涉及了在一定条件下属于第一语言学类别的单词wi的这个概率,该概率,属于第二语言学类别的前述单词wi-1(见这里引入的例子和解释)。
概率P(wi|ci)和P(ci|ci-1),可以由文本汇编,也就是由带有预设范围的预先给定的文本来确定,这种由等式(3)引入的概率得出了一个所谓的基本语言模型。
语言模型,这种模型以语言学类别为基础,特别对于一个改编来说提供了明确的优点。预先给定的方法采用了包含在该语言模型中的语言学特性。
其他的构造在于,对于一个新的文本借助于预先确定的基本语言模型该概率p(Ci|Ci-1)被引入到该新文本的基本语言模型中。
基本语言模型的类别-双语法的概率(见[3]以及引论中的解释)一方面描述了一个练习文本的语法结构同时另一方面依赖于词汇表。如果由下面开始,相似文本结构(语法的结构)的新领域就象基本语言模型的最初练习文本,则根据目标来说,类别-双语法的概率P(Ci|Ci-1)利用基本语言模型被没有改变的引用。
新领域的词汇表,针对这个领域确定了一个语言模型,借助于预先给定的语言学词典并且采用一个分类器F被按照等式(2)处理。对于每一个来自该文本的新单词自动的被确定至少一个语言学类别。语言学类别,语言学标志和语言学数值的详细解释的描述见[3],语言学词典见[4]和/或序言。
其他的另外构造在于,根据至少一个下述的可能性确定概率P(wi|ci):
a)借助于文本确定概率P(wi|ci);
b)借助前述的概率来确定单词wi的概率P(wi|ci);
c)采用单词列表确定概略P(wi|ci)。
附加的其他构造是,借助算出的概率P(wi|ci)来适应基本语言模型。该模型如下优先实现,这个已经算出的概率P(wi|ci)被引入基本语言模型。
本发明的其他构造也就是,借助于概率P(wi|ci)如下确定概率P(Ci-1|Wi-1):
P(Ci-1|wi)=K×P(wi|ci)×P(Ci)            (4)
这里说明一个比例因子 K = ( Σ C i p ( w i | C i ) × p ( C i ) ) - 1 - - - ( 5 )
本发明其他的另外构造用于识别一个由至少一个单词构成的相应序列,如果该概率P(W)位于上述范围之外的话。如果不是该情况,则执行上述的措施。该上述的措施是例如输出一个错误信息或者中断该方法。
在其他另外构造的范围里文本来自于预先确定的应用范围,一个所谓的领域。
在本发明的范围中有一个特别的优点是,对于新领域的语言模型的确定来说前面介绍的方法适用于只有小范围的新文本。
还有一个优点是,新单词的列表(有或没有概率P(Wi)的说明)可以被采用。相关领域的语言识别在实践中扮演着很重要的角色。所以本方法满足一个实际要求并且在实验中证实是适当的并且是非常有用的。如果采用基本语言模型,则新估计的概率(仅仅由P(wi|ci)做必要的估计)的数目有显著的减少。
本发明的另一个构造由相应的权利要求给出。
借助如下的示图详细描述了本发明的一个实例。
图示如下
图1方框图,该图包含了在语言识别时通过计算机来确定由至少一个单词组成的序列出现概率的方法步骤,
图2第一个用于确定概率P(wi|ci)的适用方法,
图3第二个用于确定概率P(wi|ci)的适用方法。
图1描述了在语言识别时通过计算机来确定至少两个单词的序列出现概率的方法的单个步骤。在步骤101中语言被划分为如下语言分类
(C1,...,Ck)                                        (1)
被划分为:
(C1,...,Ck)=F((f1,v11,...v1j)...(fm,vm1,...vmj))    (2)
这里表示为
fm          语言学的标志
m           语言学标志的数目
Vm1...Vmj    语言学标志fm的语言学数值
j            语言学数值的数目
Ci           语言学类别i=1...K
k            语言学类别的数目
F            根据语言学类别由语言学标志和语言学数值构成的映
             射准则(分类器)
语言标志和语言值的详细解释存在于[3]中,例如1201页上在表4中给出了由语言标志举例组成的编制,该语言标志带有根据不同种类确定的所属语言值。
在步骤102中一个单词至少被分配了一个语言类别。就象[3]中所描述的,一个或多个语言类别可以被分配给一个单词。
最后在步骤103中通过如下公式确定至少一个单词组成的序列出现的概率P(W): p ( w ) ≈ Π i = 1 n Σ C i Σ C i - 1 p ( w i | C i ) × p ( C i | C i - 1 ) × p ( C i - 1 | w i - 1 ) - - - ( 3 )
这里
W       至少两个单词的序列
wi      序列W的第i个单词(i=1...n)
n       序列W的单词wi的数目
Ci      语言类别,该类别属于单词wi
Ci-1    语言类别,该类别属于单词wi-1
Ci      所有语言类别的总和,该总和属于单词wi
p(wi|ci)    相应的单词概率
p(ci|ci-1)   双语法的概率(也就是:类别-双语法-概率)
p(ci-1|wi-1)  相应的类别概率
等式(3)由三个部分串联相乘组成,三个部分是
P(Ci|Ci-1)、P(wi|ci)和P(Ci-1|Wi-1)
这几个部分如下被逐个确定。
确定概率P(Ci|Ci-1):
新领域文本的词汇表通过语言词典利用分级器F,就象在等式(2)中表示的一样,被分配了语言类别。这里每个新的单词自动被分配了至少一个语言类别。一个基本语言模型包含类别-双语法[3]的概率,这里这个概率一方面体现了语法结构,另一方面独立于单个的单词。这个范围,也就是说特别采用的主题领域,如果仅仅以一个近似的文本结构就象以基本语言模型为基础的练习文本为出发点,则类别-双语法的概率P(Ci|Ci-1)由基本语言模型被没有改变的引用。这种自动的分配是可能的,因为这种分配很大程度上不依赖于文本的内容,可以由此出发,即语言学标志和语言值,也就是一个在语言类别(见等式(2))中的映射,对于语言是特有的并且有利的是可以从一个主题领域(范围)被传送到其他的主题领域上。多个练习文本的语法结构是近似的或者相同的,不依赖于以每个练习文本为基础的主题领域(范围)。这个概率P(Ci|Ci-1)可以被采纳,基本语言模型的这个概率根据预先进行的练习过程被确定,描述了新文本词汇表的类别分配的基本知识,该知识不是必须被确定更新,而是基本语言模型详细的给出了大量的等级。
确定概率P(Wi|Ci):
所有相关基本语言模型的新单词Wi的概率P(Wi|Ci)是被重新计算的并且以优先的方式相应的适应于在基本语言模型中存在的词汇表的概率P(Wi|Ci)(单词概率)。为了确定概率P(Wi|Ci)三个不同的方法被如下解释:
方法1:
新领域中所有新单词Wi的概率P(Wi|Ci)是以新领域的文本为基础被估计出来。以一个以语言类别为基础的基本语言模型为出发点,这里这个新的被估计的概率P(Wi|Ci)优先被引入到基本语言模型中并且由此借助新的文本得到基本语言模型的改编。首先这个优选方式被采用,如果新领域的新文本给出足够的范围。在上下文中得出的至少一个语言分类被分配给该新文本的每个单词。借助在[3]中描述的“标志工具”(Tagging-Tools)该语言学分类被实现。每个新单词Wi的概率P(Wi|Ci)借助于新文本被估计。
在图2中描述了用于确定单词概率P(Wi|Ci)的第一个改编方法。借助于分类器F211和语言词典206采用标志工具202(见[3]中对标志工具的详细解释)不仅利用由大文本201组成的数据库来确定一个较大的”被标志的”文本203而且也利用一个由新领域的小文本207(也就是说新文本)组成的数据库确定一个较小的“被标志的”文本208。利用较大的”被标志的”文本203借助语言模型发生器204一个基本语言模型205被确定,该基本语言模型是以语言类别为基础的。就象上面被详尽描述的那样,该概率P(Ci|Ci-1)被没有改变的用于新领域的语言模型中。利用“被标志的”的小文本208借助改编工具209确定了一个新的被优选改编的语言模型210,该改编工具是借助”被标志的”的小文本实现概率P(Wi|Ci)的估计。除了这个描述的改编以外并没有限制产生一个其他的语言模型。
方法2:
一个其他的方法减少了这个通过基本语言模型所获得的个别的单词概率P(Wi|Ci)并且传送这个被减少的文章到每个语言类别Ci中所补充的词汇表上(单词)。这是借助新单词的每个值P(Wi)被实现的。
在图3中描述了第二个用于确定概率P(Wi|Ci)的改编方法。利用分类器F311和语言词典306借助标志工具302利用由较大文本301组成的数据库确定一个“被标志的”的较大文本303。通过语言模型发生器304由”被标志的”的大文本303建立一个基本语言模型305,该模型以语言类别为基础。利用基本语言模型305该概率P(Ci|Ci-1)没有改变的被引入。借助新领域307的单词列表利用改编工具308确定一个改编的语言模型309。这里改编也可以包含语言模型的改变或产生。该改编工具308利用概率P(Wi)计算新单词的概率P(Wi|Ci)并且实现基本语言模型概率P(Wi|Ci)的改编。下面该方法被详细描述。
下面的值通过基本语言模型被给出:
Wi    基本语言模型的词汇表i=1,...,N,
N     基本语言模型的词汇表数目,
NC   基本语言模型的每个类别C中单词的数目
K     基本语言模型的类别数目,
P(Cj)    j=0,...k,基本语言模型类别的单语法(Unigramm)
         概率
P(Cj|Cj-1)    j=1,…k,基本语言模型类别的双语法概率
P(Wi|Cj(Wi))和P(Cj(Wi)|Wi)
         所有单词wi的基本语言模型的单词概率,i=1,...N,和
         所有类别Cj(Wj)  j=0,...k,
         该类别适用于:单词Wi存在于语言类别Cj中
新领域的语言模型的语言类别构造相当于基本语言模型的语言类型构造。基本语言模型的分类器F(见等式(2))被引用。也就是说语言类别k的数目没有改变。对于新的领域是以结构近似的文本类似于以基本语言模型为基础的练习文本为出发点的。类别-双语法的概率P(Ci|Ci-1)和基本语言模型的类别单语法的概率P(Cj)保持不变。
概率P(Wi|Cj(Wi))和概率P(Cj(Wi)|Wi)被研究,这种概率总是与各个单词有关联。对于新领域中不包含在基本语言模型里的单词来说概率P(Wi|Cj(Wi))和概率P(Cj(Wi)|Wi)被重新计算。对于基本语言模型的单词已有的概率是不变的。
对于新领域来说给出了如下的值:
Wh       新领域的词汇表h=1,...,L,该词汇表不包含在基本语
         言模型中。
L        在该新领域的语言模型(目标语言模型)中的词汇表数
         目,
Lc       在每个(语言)类别C中的基本语言模型的新单词Wh和
         单词Wi数目
P(Wh)    新领域中依赖类别的单词概率。
概率P(Wh)利用带有单词频率的单词列表和基本文本的大小被给出。
概率P(Cj(Wh)|Wh)的估计:
为了估计概率P(Cj(Wh)|Wh),对于新词汇表Wh来说总是以如下为出发点,即针对在这种类别Cj中的单词的P(Cj(Wh)|Wh)是近似相等的。因此下面的近似值是合适的: p ( C j | w h ) ≈ 1 N C × Σ i = 1 N C p ( C j | w i ) - - - ( 6 )
这里Wi表示基本语言模型的所有单词,这些单词属于类别Cj。
对于如下的实现示范性的研究了一个类别Cj。为了简化描述该类别Cj在下面被描述为类别C。
当前的概率值被重新标准化。然后这个“旧的”值利用一个代字符号被标明。
等式(6)的另一个近似答案是这些单词Wi的和,对于这些单词来说所有的语言类别和新单词的类别是相一致的。
为了计算新概率P(Wh|C(Wh))或者为了重新标准化已得到的概率P(Wi|C(Wi))采用了如下的方法:
1)确定词库中新单词的份额α
2)重新标定 p ~ ( w ) - - - ( 7 )
  利用: p ( w i ) = ( 1 - α ) × p ~ ( w i ) - - - ( 8 )
  依照等式(11)确定份额α
3)确定类别C中新单词的份额1-γc
4)依照等式(17)确定
Figure A9880924300143
5)根据等式(16)确定γc,
6)确定概率P(Wh|C(Wh))是通过 p ( w h | C ) = γ C 1 - α p ~ ( w h | C ) - - - ( 9 )
见等式(16)。该因子可以被说明为语言类别C中的旧单词
份额和所有词库中旧词库的份额的商。下面利用等式(8)确定份额α: 1 = Σ i = 1 N C p ~ ( w i ) = Σ i = 1 N C p ( w i ) + Σ h = N C + 1 L C p ( w h ) = = ( 1 - α ) × Σ i = 1 N C p ~ ( w i ) + Σ h = N C + 1 L C p ( w h ) - - - ( 10 ) ,
由此导致: α = Σ h = N C + 1 L C p ( w h ) - - - ( 11 ) .
为了确定份额γC在等式(6)上采用了Bayes的句子(见[5])。下面是: p ( w h | C ) = p ( w h ) N C × Σ i = 1 N C p ( w i | C ) p ( w i ) - - - ( 12 ) .
借助等式(12)并且采用概率值的标准化特性(见[6])可以指明: Σ i = 1 N C P ( w i | C ) + Σ h = N C + 1 L C p ( w h ) N C × Σ i = 1 N C p ( w i | C ) p ( w i ) = 1 - - - ( 13 ) .
对于 p ( w i | C ) = γ C × p ~ ( w i | C ) - - - ( 14 )
其中γC≤1并且 作为旧的分配(没有重新标准化的),适用于: ( 1 + Σ h = N C + 1 L C p ( w h ) N C × Σ i = 1 N C p ~ ( w i | C ) p ( w i ) ) × γ C = 1 - - - ( 15 ) .
由此由等式(8)导致了: γ C = ( 1 + 1 1 - α × Σ h = N C + 1 L C p ~ ( w h | C ) ) - 1 - - - ( 16 )
其中 p ~ ( w h | C ) = p ( w h ) N C × Σ i = 1 N C p ~ ( w i | C ) p ~ ( w i ) - - - ( 17 )
方法3:
这个相关于基本语言模型的新单词Wi的概率P(Wi|Ci)在采用相应的单词列表时是相近似的。在优先方式下“方法2”所描述方法的解决策略被引入。这里新单词Wh的非现有概率P(Wh)是近似的。这得到了从属于所有单词Wh的主要种类HC。近似的得出:
这里利用了基本语言模型的单词Wi的特性。NHC是基本语言模型的词汇数目,该词汇表处于主要种类HC里。这个总和是通过基本语言模型的所有类型Cj实现的,每个单词Wi都属于该类型。
确定概率P(Ci-1|Wi-1):
最后这个概率P(Ci-1|Wi-1)被如下描述。说明如下,在等式(3)中概率P(Ci-1|Wi-1)指出了指数‘i-1’,该指数接下来被简化设置为指数i。
概率P(Ci|Wi)总是利用概率P(Wi|Ci)被确定得出,该概率P(Wi|Ci)就如上面所描述的那样:
     P(Ci|Wi)=K×P(Wi|Ci)×P(Ci)             (4)
其中比例因子 K = ( Σ C i p ( w i | C i ) × p ( C i ) ) - 1 - - - ( 5 )
语言类别Ci这里包含对单词Wi来说有可能的所有语言类别。概率P(Ci)由基本语言模型被引用(基本语言模型所有语言类别的单语法-概率)。
在这个文本范围里引用了下面的出版物:
[1]G.Ruske著:“自动的语言识别-分类和标示的方法”,Oldenbourg出版社,慕尼黑1988,ISBN 3-486-20887-2,1-10页。
[2]L.Rabiner,B.-H.Juang著:“语言识别基础”,Prentice Hall1993,447-450页。
[3]P.Witschel著:“用于大词汇量的语言识别的构成语言学导向的语言模块”,第3届EUROSPEECH 1993,1199-1202页。
[4]F.Guethner,P.Maier著:“CISLEX-字典系统”,CIS-Bericht94-76-CIS,慕尼黑大学,1994。
[5]W.Feller:“概率原理的介绍及其应用”,John Wiley &Sons,1976,第124、125页。
[6]W.Feller:“概率原理的介绍及其应用”,John Wiley &Sons,1976,第22页。

Claims (8)

1.在语言识别中通过计算机来确定至少两个单词的序列出现的概率的方法,
a)其中一语言含有语言学类别:
(C1,...Ck)=F((f1,v11,...v1j)...(fm,vm1,...vmj)),
这里表示为
fm         语言学的标志
m          语言学标志的数目
Vm1...Vmj  语言学标志fm的语言学数值
j          语言学数值的数目
C1...Ck    语言学类别i=1...K
k          语言学类别的数目
F          根据语言学类别由语言学标志和语言学数值构
           成的映射准则
b)其中一个单词至少被分配了一个语言学类别;
c)其中至少两个单词的序列出现的概率通过如下公式被确定: p ( w ) ≈ Π i = 1 n Σ C i Σ C i - 1 p ( w i | C i ) × p ( C i | C i - 1 ) × p ( C i - 1 | w i - 1 )
这里
P(w)       至少两个单词的序列出现的概率
W          至少两个单词的序列
wi         序列W的第i个单词(i=1...n)
n          序列W的单词wi的数目
Ci         语言类别,该类别属于单词wi
Ci-1       语言类别,该类别属于单词wi-1
Ci      所有语言类别的总和,该总和属于单词wi
p(wi|ci)   相应的单词概率
p(ci|ci-1) 双语法的概率(也就是:类别-双语法,双语法-概
           率)
p(ci-1|wi-1)相应的类别概率
2.根据权利要求1的方法,其中,对于一个文本借助于预先确定的基本语言模型,该文本的概率P(Ci|Ci-1)被确定,其中概率P(Ci|Ci-1)从基本语言模型被接受。
3.根据权利要求2的方法,其中,概率P(Wi|Ci)根据至少一个如下的可能性被确定:
a)借助于文本确定概率P(Wi|Ci),
b)对于单词Wi借助于预先给定的概率P(Wi)确定概率P(Wi|Ci),
c)采用单词列表确定概率P(Wi|Ci)。
4.根据权利要求3的方法,其中,借助求出的概率P(Wi|Ci)该基本语言模型匹配。
5.根据权利要求3或4的方法,其中,借助于概率P(Wi|Ci)如下确定了概率P(Ci|Wi):
          P(Ci|wi)=K×P(wi|Ci)×P(Ci),
其中比例因子为 K = ( Σ C i p ( w i | C i ) × p ( C i ) ) - 1
6.根据上述权利要求之一的方法,其中,如果至少一个单词的序列出现的概率P(W)在预先确定的限制之上,至少一个单词的相应序列被识别,否则预先确定的措施被执行。
7.根据权利要求6的方法,其中,预先确定的措施是一个错误信息的输出或者是促使该方法的中断。
8.根据权利要求2到7之一的方法,其中,该文本被联系到预先确定的应用范围上。
CN98809243A 1997-09-17 1998-09-07 在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法 Expired - Fee Related CN1111841C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19740911 1997-09-17
DE19740911.3 1997-09-17

Publications (2)

Publication Number Publication Date
CN1270687A true CN1270687A (zh) 2000-10-18
CN1111841C CN1111841C (zh) 2003-06-18

Family

ID=7842662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN98809243A Expired - Fee Related CN1111841C (zh) 1997-09-17 1998-09-07 在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法

Country Status (6)

Country Link
EP (1) EP1016077B1 (zh)
JP (1) JP4243017B2 (zh)
CN (1) CN1111841C (zh)
DE (1) DE59800737D1 (zh)
ES (1) ES2158702T3 (zh)
WO (1) WO1999014740A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1688999B (zh) * 2002-10-22 2010-04-28 诺基亚有限公司 根据书写文本进行基于可缩放神经网络的语言识别

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1450350A1 (en) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US7197457B2 (en) * 2003-04-30 2007-03-27 Robert Bosch Gmbh Method for statistical language modeling in speech recognition
CA2486125C (en) 2003-10-30 2011-02-08 At&T Corp. A system and method of using meta-data in speech-processing
DE102004048348B4 (de) * 2004-10-01 2006-07-13 Daimlerchrysler Ag Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle
US8478589B2 (en) 2005-01-05 2013-07-02 At&T Intellectual Property Ii, L.P. Library of existing spoken dialog data for use in generating new natural language spoken dialog systems
US8185399B2 (en) 2005-01-05 2012-05-22 At&T Intellectual Property Ii, L.P. System and method of providing an automated data-collection in spoken dialog systems
US20060149553A1 (en) * 2005-01-05 2006-07-06 At&T Corp. System and method for using a library to interactively design natural language spoken dialog systems
JP4820240B2 (ja) * 2006-08-29 2011-11-24 日本放送協会 単語分類装置及び音声認識装置及び単語分類プログラム
CN101271450B (zh) * 2007-03-19 2010-09-29 株式会社东芝 裁剪语言模型的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
DE69022237T2 (de) * 1990-10-16 1996-05-02 Ibm Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
US5949961A (en) * 1995-07-19 1999-09-07 International Business Machines Corporation Word syllabification in speech synthesis system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1688999B (zh) * 2002-10-22 2010-04-28 诺基亚有限公司 根据书写文本进行基于可缩放神经网络的语言识别

Also Published As

Publication number Publication date
DE59800737D1 (de) 2001-06-21
JP4243017B2 (ja) 2009-03-25
EP1016077B1 (de) 2001-05-16
EP1016077A1 (de) 2000-07-05
CN1111841C (zh) 2003-06-18
WO1999014740A1 (de) 1999-03-25
ES2158702T3 (es) 2001-09-01
JP2001516903A (ja) 2001-10-02

Similar Documents

Publication Publication Date Title
CN1174332C (zh) 转换表达方式的方法和装置
CN1228762C (zh) 用于语音识别的方法、组件、设备及服务器
CN1652107A (zh) 语言变换规则产生装置、语言变换装置及程序记录媒体
CN1168068C (zh) 语音合成系统与语音合成方法
CN1133127C (zh) 文件检索系统
CN1113305C (zh) 语言处理装置和方法
CN1238833C (zh) 语音识别装置以及语音识别方法
CN100347741C (zh) 移动语音合成方法
CN1227613C (zh) 注释数据生成、音素或字搜索及添加的相应设备与方法
CN1143263C (zh) 识别有调语言的系统和方法
CN101055588A (zh) 获取限制词信息的方法、优化输出的方法和输入法系统
CN1871597A (zh) 利用一套消歧技术处理文本的系统和方法
CN1725295A (zh) 语音处理装置、语音处理方法、程序、和记录介质
CN1975858A (zh) 会话控制装置
CN1542736A (zh) 在自然语言理解系统中用于位置的基于规则的语法和用于前终端的统计模型
CN101042868A (zh) 群集系统、方法、程序和使用群集系统的属性估计系统
CN1368693A (zh) 用于全球化软件的方法和设备
CN1111841C (zh) 在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法
CN1869976A (zh) 通过执行不同语言之间的翻译来支持交流的装置和方法
CN1211769A (zh) 基于贝叶斯网络的用于文件检索的方法和设备
CN1403959A (zh) 基于文本内容特征相似度和主题相关程度比较的内容过滤器
CN101051459A (zh) 基频和停顿预测及语音合成的方法和装置
CN1223985C (zh) 语音识别置信度评价方法和系统及应用该方法的听写装置
CN1641633A (zh) 基于成熟工艺文档的工艺术语提取、规律分析和重用方法
CN1696933A (zh) 基于动态规划的文本概念关系自动提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030618

Termination date: 20100907