CN1402867A - 含有固定和可变语法块的语言模型的语音识别装置 - Google Patents
含有固定和可变语法块的语言模型的语音识别装置 Download PDFInfo
- Publication number
- CN1402867A CN1402867A CN00816566A CN00816566A CN1402867A CN 1402867 A CN1402867 A CN 1402867A CN 00816566 A CN00816566 A CN 00816566A CN 00816566 A CN00816566 A CN 00816566A CN 1402867 A CN1402867 A CN 1402867A
- Authority
- CN
- China
- Prior art keywords
- grammer
- language model
- symbol
- sentence
- piece
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 239000012190 activator Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 239000003638 chemical reducing agent Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种语音识别装置(1),包括一个声音处理器(2),用于收集音频信号,和一个语音学解码器(6),用于确定相应于该音频信号的词顺序。本发明装置的语言学解码器包括一个语言模型(8),它是在第一组块和第二组块的基础上确定的,第一组块至少是一个仅仅由语法确定的句法块,第二组块至少是一个由下列元素的一个,或这些元素的组合确定的句法块:一种语法,一组短语,一个n-语法网络。
Description
技术领域
本发明涉及一种语音识别装置,它包含一种语言模型,该模型是根据称为固定块和可变块的不同类语法块确定的。
背景技术
信息系统或控制系统越来越多地应用语音界面来与用户进行快速和直觉的交互作用,由于这些系统正在变得比较复杂,支持对话的方式也正变得更丰富,人们正在进入非常大量词汇的连续语音识别的领域。
已知大量词汇的连续语音识别系统的设计需要产生一个语言模型,它确定应用词汇中一个给定词以时间顺序跟在一组词中别的词后面的概率。
这种语言模型必须能再现系统用户通常使用的讲话样式:支吾、迷惑的起始、想法的改变等等。
所用语言模型的质量极大地影响语音识别的可靠性。这种质量通常是用该语言模型的因惑性指数来测量,在原理上,该指数代表选择的数目,这种选择是系统对每一被解码的词必须做的。这一指数越低,质量越高。
语言模型需要把声音信号转换成词的文本串,这是对话系统常用的步骤。然后,需要构建一种能理解的逻辑关系,使能理解口头的提问,从而作出回答。
有两种产生大词汇语言模型的标准方法:
(1)所谓的N-语法统计模型,最常用的双语法或三语法,其要点是,假定一个词在句中的出现概率仅仅与前面的N个词有关,那么,它与句中的上下文无关。
考虑一个有1000个词汇的三语法的例子,因为它有10003个可能的三元素组,所以,它必须确定10003的概率来定义一个语言模型,因此,需要占用相当规模的存储器和非常强的计算能力。为了解决这个问题,把词分成组,这些组由模型设计者直接确定,或者由自组织方法推导出来。
这种语言模型是由文本大全自动构造的。
(2)第二种方法的要点是借助于概率统计语法来描述语法,典型的是一种与上下文无关,依靠一组所谓Backus Naur公式或BNF公式中描述的规则来确定无上下文语法。
描述语法的规则通常是手写的,但也可以自动推导出来。在这个方法中,可参考下面的文件:
“无上下文关系的概率统计语法的基本方法”,F.Jelinek,J.D.Lafferty & R.L.Mercer,NATO ASI Series Vol.75pp.345-359,1992。
当把它们应用于自然语言系统的界面时,上面描述的模型产生了一些特殊的问题:
N-语法型语言模型(1)不能正确模拟句子中几个隔开的语法子结构之间的关系。对于句法上正确发声的句子来说,没有什么可保证在识别过程中遵守这些子结构,因此,很难确定是否该句子就是由一种或多种特殊句法结构习惯产生的这种句子或这种意义。
这些模型适合于连续的口授,但把他们应用到对话系统就有所提到的严重的缺陷。
另一方面,在N-语法型模型中,借助于把最新实际发声的词组在一起来定义一组词,就可能考虑到支吾和重复。
基于语法(2)的模型,可以使它正确模拟句子中隔开的远程关系,也遵守特定的句法结构。对于一种给定的应用,所得到的语言的困惑常常比N-语法型模型低。
另一方面,他们很难适应掺入有支吾、迷惑的起始等的口语型语言的描述。特别地,这些与口语型语言有关的现象不能预测,因此,似乎很难依靠其自身的特性来设计基于语法规则的语法。
此外,覆盖应用需要的规则数目很大,在没有修改这种现有规则之前,很难考虑要加入到对话中的新句子。
发明内容
本发明的主题是一种语音识别装置,包括声音处理器,用于收集音频信号,语言解码器(6),用于确定对应于音频信号的词顺序,解码器包括语言模型(8),其特点是,语言模型(8)由两组块确定,第一组包括至少一个固定的句法块,第二组包括至少一个可变句法块。
这两种句法块的联合,在从模拟句子元素间的依赖获得好处的同时能使有关口语语言的问题容易得到解决,这种模拟借助于一个固定句法块的帮助是容易处理的。
根据一种特征,第一组固定句法块由BNF型语法确定。
根据另一种特征,第二组可变句法块由一个或多个n-语法网络确定,n-语法网络的数据由语法或一列短语表的帮助产生。
根据另一特征,含在第二可变块中的n-语法网络包含允许识别下列口语现象的数据:简单支吾、简单重复、简单置换,想法改变,说话含糊。
通过确定两类实体的组合形成最终的语言模型,本发明的语言模型就能把两个系统的优点组合在一起。
固定的句法相对于某一实体保持不变,句法分析与它们相联系,而其它句法由n-语法型网络来描述。
此外,根据改变的实施例,确定了由以前类型的一种快“触发的”自由块。
附图说明
本发明的其它特征和优点,通过非限制的特例的描述将变得更加明显,下列附图用来解释该实施例:
图1是语音识别系统图;
图2是根据本发明确定一种句法块的OMT(直接或收发转换)图。
具体实施方式
图1是用于语言识别的一个实施例设备1的方块图。这个设备包括音频信号处理器2,用来执行来自话筒3由信号收集电路4产生的音频信号的数字化。处理器2也把数字样本转换成从预先确定的字母中选择的声音符号。为此目的,它包括声学一语音学解码器5。语言学解码器6处理这些符号,用来确定对一个符号顺序A,最可能给出顺序A的词顺序W。
语言学解码器使用声学模型7和语言模型8,它们是基于假设搜索算法9实现的。例如,声学模型是所谓的“隐式Markor”模型(或HMM)。在本实施例中使用的语言模型是基于一种有Backus Naur公式的句法规则帮助说明的语法。用该语法模型为搜索算法提供假设。后者,它是合适的识别引擎,在本实施例中,是一种基于Viferbi型算法的搜索算法,并称为“n-最佳”。该n-最佳型算法确定了在句子分析的每一步的n个最可能的词顺序。在句子的末了,从这n个候选中选择最可能的解决方案。
上一节中的概念本身已为业内人士所熟知,但特别与n-最佳算法有关的信息在下面的著作中给出:
“用于语言识别统计方法”F.Jelinek,MIT Press 1999 ISBN 0-262-10066-5 pp.79-84。其它算法也可实现。特别是“最大有效长度搜索”型算法,n-最佳算法只是它的一个例子。
本发明的语言模型使用图2中说明的一类或两类句法块:固定型块,可变型块。
固定句法块是根据BNF型句法确定的,有五种规则如下:
(a)<符号A>=<符号B>|<符号C>(或符号)
(b)<符号A>=<符号B><符号C>(和符号)
(c)<符号A>=<符号B>?(选项符号)
(d)<符号A>=“辞典字”(辞典分配)
(e)<符号A>=p{<符号B>,<符号C>,……<符号X>}(符号B><符号C>)(……)(符号I><符号J>)
(所有列举的符号的不重复置换具有这样的限制:符号B必须在符号C之前,符号I在符号J之前……)
规则(e)的实现,在法国专利申请No.9915083中有详细解说,题目是“Dispsitif de reconnaissance Vocale meltant en oeuvre une reglesyntaxiqne de permutation”(实现句法置换规则的语音识别装置),THOMSon Mnltimedia on November,1999。
可变块通过与以前相同的BNF句法、短语表,或根据词汇表和相应的n-语法网络,或根据把这三者联合起来确定。但是,这一信息被系统地转换到n-语法网络中,并且,如果可变块的确定是通过一个BNF文件来实现的话,那么不能保证产生在句法上正确符合这一语法的唯一的句子。
可变块是由下面公式的概率P(S)(在三语法情况下)确定的,P(S)表示n个词Wi出现字串S的概率。
P(S)=II1,nP(Wi)
其中P(Wi)=P(Wi|Wi-1,Wi-2)
对于每一个可变块,存在一个专门的块出口字,该字在n-语法网络中表现为与通常词一样,但是它没有语音的线索并允许从该块中退出。
一旦确定了这些句法块(n-语法型或BNF型),它们可以再一次作作原子用于高阶结构中:
在BNF块中的情况下,较低水平的块可用来代替辞典的用途,以及在其它规则中使用。
在n-语法型块的情况下,较低水平的块代替词Wi,因此,几个块可以按照给定的概率链接起来。
一旦确定了n-语法网络,它可与以前作为特殊符号描述的BNF语法相结合。多个n-语法网络根据需要可结合在BNF语法中。用于BNF型块确定的置换在识别引擎中按布尔变量的搜索算法进行处理,在常规地实现这种类型的修剪期间,布尔变量用于指向该搜索。
可以看到,可变块出口符号也可解释成用于对上述块倒行的符号,该块本身可以是固定的或可变的。
·触发器的配置
上述体系仍不足以描述大词汇量人/机对话应用的语言模型。根据一个改变的实施例,增补了触发器的机构。该触发器能把某种意义给予一个词或一块,使它与某个元素相连系。例如,假定词“documentary”在音视节目的电子导视的上下文中被识别。这个词可以与一组词,如“Wildlife,Sports,tourism,等等”相联系。这些词都有与“documentary”相关的意义,其中的一个可能就是期望与它相联系的一个。
为这样做,我们将用<block>表示以前已描述过的一个块,并且用::<block>表示通过在识别算法过程中的一个瞬间完成的这一块,也就是说,在n-最佳搜索算法中,它出现在当前被解码的链中。
例如,我们可以有:
<wish>=I would like to go to|I want to visit.
<city>=Lyon|Paris|London|Rennes.
<sentence>=<wish><city>
于是::<wish>将是:“I would like to go to”为由Viterbi概率算法产生的通路的那一部分:
I would like to go to Lyon
I would like to go to Paris
I would like to go to London
I would like to go to Rennes
并且将等于“I want to visit”为其它部分。因此,语言模型的触发器可定义如下:
如果<符号>::属于问题中可能实现的给定的子组,那么,另一个符号<T(符号)>,它是当前符号的目标符号,可减少为它的正常扩展域的一个子部分,也就是说,如果在解码链中没有触发器的话,减少为它的正常扩展域(简化器触发器),或者被激活并可用在从每一个属于所谓“激活器候选者”(激活器触发器)句法块中在出口分出的非零分支因子中。
注意:
没有必要描述触发过程的所有块。
符号的目标如果被用于语言模型中的多种方式,它可以是这一符号本身。
对于一个块,可以只存在它的实现部分的一个子部分,该实现部分是触发机构的一个分量,是补充而不是触发器本身。
激活器触发器的目标可以是一个可选的符号。
简化器触发机构,在我们的语言模型中,可处理话题一致的重复。关于触发器概念的附加信息可在已列出的参考文件中找到,特别在p.245-253中。
激活器触发机构可以模拟高度变化词尾的语言中某种自由的句法组。
应注意到,激活器,它们的目标和关于目标的限制可以人工确定或用一个自动的处理来获得,例如用最大墒方法。
·对口语的修正
上面描述的结构确定了语言模型的句法,没有对支吾、恢复、错误开始、想法改变,等等的修正,这些修正在一种口语式样中是需要的。与口语有关的这些现象由于它们的不可预见性很难通过一种语法来识别。n-语法网络比较适合于识别这类现象。
与口语有关的这些现象可分成五类:
简单的支吾:我想(errr……无声)去里昂。
简单的重复:其中句子的一部分(经常是限定词和冠词,但有时整块句子),十分简单地被重复:我想去(去去去)里昂。
简单的置换:在这一过程中,一种表达,沿着其方式,被同样意义的另一种表达代替,但它们的句法结构是不同的:我想访问(errv去)里昂。
改变想法:在表达过程中,句子的一部分用不同意义的部分来校正:我想去里昂,(errr去巴黎)。
说话含糊不清:我想去(巴黎Errr)巴黎。
前两种现象最经常:支吾约占这些现象中的80%。
本发明的语言模型处理这些现象如下:
简单支吾:
简单支吾用创建与在相关语言中标记支吾的语言学痕迹有关的词来处理,并且把他们当作在有关语言模型中同样的其它词一样(紧接着静音的出现概率,等等),并在该语音模型中(同清晰度,等等)。
已经注意到,简单的支吾发生在句子专门的地方,例如在第一动词与第二个动词之间。为了对他们进行处理,根据本发明的规则的一个例子是:
<动词组>=<第一动词><n-语法网络><第二动词>
简单重复:
简单重复通过缓冲存储器技术来处理,该存储器包含有在解码的这一步当前被分析的句子。在该语言模型中,存在有在缓冲存储器中固定的分支概率。缓冲存储器的出口以恢复缓存器激活之前达到的状态与块状语言模型相联。
实际上,缓存器包含句子当前段的最后一块。并且这一块可以重复。另一方面,如果它是倒数第二个块,它决不可能用这样一种缓存器来处理,并且整个句子必须重检查。
当包含与冠词有关的重复时,对于有关的句子,缓存器借助于改变数和性包括该冠词和它的有关的形式。
例如在法国,对“ele”的缓存包含“du”和“des”。事实上、性和数的修改是很经常的。
简单置换和想法改变:
简单置换用创建有关块组来处理,在这些块之间,简单置换是可能的,也就是说,存在从某块退出和分支到该组的一个其它块起始的可能性。
对于简单的置换,块退出与同一组内,支持同样意义的块触发相耦合。
对于想法改变,或者没有触发,或者触发支持不同意义的块。
不对触发再分表,而对支吾用后验分析分类是可能的。
说话含糊:
还可作为简单重复来处理。
处理支吾这种模型的优点(除了简单支吾之外)是关联组的建立,考虑到语义学信息冗余的存在,提高了关于无支吾句子的识别率。另一方面,计算的负担较重。
Claims (4)
1.一种语音识别装置(1),包括音频处理器(2),用于收集音频信号,语言解码器(6),用于确定相应于音频信号的词顺序,解码器包括语言模型(8),其特征在于语言模型(8)是由第一组块和第二组块确定,第一组块至少是一个固定的句法块,第二组块至少是一个可变的句法块。
2.根据权利要求1所述的设备,其特征在于至少第一组的一个固定句法块由BNF型语法确定。
3.根据权利要求1或2所述的设备,其特征在于至少第二组的一个可变句法块由一个或多个n-语法网络确定,n-语法网络的数据由一种语法的帮助或短语表的帮助产生。
4.根据权利要求3所述的设备,其特征在于n-语法网络包含相应于一个或多个下列现象的数据:简单支吾、简单重复、简单置换、想法改变、说话含糊。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9915190 | 1999-12-02 | ||
FR99/15190 | 1999-12-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1402867A true CN1402867A (zh) | 2003-03-12 |
CN1224954C CN1224954C (zh) | 2005-10-26 |
Family
ID=9552794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB008165661A Expired - Fee Related CN1224954C (zh) | 1999-12-02 | 2000-11-29 | 含有固定和可变语法块的语言模型的语音识别装置 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20030105633A1 (zh) |
EP (1) | EP1236198B1 (zh) |
JP (1) | JP2003515777A (zh) |
KR (1) | KR100726875B1 (zh) |
CN (1) | CN1224954C (zh) |
AU (1) | AU2180001A (zh) |
DE (1) | DE60026366T2 (zh) |
ES (1) | ES2257344T3 (zh) |
MX (1) | MXPA02005466A (zh) |
WO (1) | WO2001041125A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102237087A (zh) * | 2010-04-27 | 2011-11-09 | 中兴通讯股份有限公司 | 语音控制方法和语音控制装置 |
WO2019101205A1 (zh) * | 2017-11-27 | 2019-05-31 | 西安中兴新软件有限责任公司 | 一种智能操控实现方法及装置、计算机可读存储介质 |
CN110111779A (zh) * | 2018-01-29 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 语法模型生成方法及装置、语音识别方法及装置 |
CN110827802A (zh) * | 2019-10-31 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别训练和解码方法及装置 |
CN111415655A (zh) * | 2020-02-12 | 2020-07-14 | 北京声智科技有限公司 | 语言模型构建方法、装置及存储介质 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7249018B2 (en) * | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
DE10120513C1 (de) | 2001-04-26 | 2003-01-09 | Siemens Ag | Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache |
DE10211777A1 (de) * | 2002-03-14 | 2003-10-02 | Philips Intellectual Property | Erzeugung von Nachrichtentexten |
US7937396B1 (en) | 2005-03-23 | 2011-05-03 | Google Inc. | Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments |
US7937265B1 (en) | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
KR101122591B1 (ko) | 2011-07-29 | 2012-03-16 | (주)지앤넷 | 핵심어 인식에 의한 음성 인식 장치 및 방법 |
KR102026967B1 (ko) * | 2014-02-06 | 2019-09-30 | 한국전자통신연구원 | n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법 |
US20210158803A1 (en) * | 2019-11-21 | 2021-05-27 | Lenovo (Singapore) Pte. Ltd. | Determining wake word strength |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2818362B2 (ja) * | 1992-09-21 | 1998-10-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識装置のコンテキスト切換えシステムおよび方法 |
US5675706A (en) * | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
US6601027B1 (en) * | 1995-11-13 | 2003-07-29 | Scansoft, Inc. | Position manipulation in speech recognition |
KR19990015131A (ko) * | 1997-08-02 | 1999-03-05 | 윤종용 | 영한 자동번역 시스템의 숙어 번역 방법 |
FR2801716B1 (fr) * | 1999-11-30 | 2002-01-04 | Thomson Multimedia Sa | Dispositif de reconnaissance vocale mettant en oeuvre une regle syntaxique de permutation |
-
2000
- 2000-11-29 KR KR1020027006796A patent/KR100726875B1/ko not_active IP Right Cessation
- 2000-11-29 WO PCT/FR2000/003329 patent/WO2001041125A1/fr active IP Right Grant
- 2000-11-29 JP JP2001542099A patent/JP2003515777A/ja active Pending
- 2000-11-29 DE DE60026366T patent/DE60026366T2/de not_active Expired - Lifetime
- 2000-11-29 ES ES00985352T patent/ES2257344T3/es not_active Expired - Lifetime
- 2000-11-29 MX MXPA02005466A patent/MXPA02005466A/es active IP Right Grant
- 2000-11-29 US US10/148,297 patent/US20030105633A1/en not_active Abandoned
- 2000-11-29 EP EP00985352A patent/EP1236198B1/fr not_active Expired - Lifetime
- 2000-11-29 AU AU21800/01A patent/AU2180001A/en not_active Abandoned
- 2000-11-29 CN CNB008165661A patent/CN1224954C/zh not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102237087A (zh) * | 2010-04-27 | 2011-11-09 | 中兴通讯股份有限公司 | 语音控制方法和语音控制装置 |
CN102237087B (zh) * | 2010-04-27 | 2014-01-01 | 中兴通讯股份有限公司 | 语音控制方法和语音控制装置 |
WO2019101205A1 (zh) * | 2017-11-27 | 2019-05-31 | 西安中兴新软件有限责任公司 | 一种智能操控实现方法及装置、计算机可读存储介质 |
CN110111779A (zh) * | 2018-01-29 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 语法模型生成方法及装置、语音识别方法及装置 |
CN110827802A (zh) * | 2019-10-31 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别训练和解码方法及装置 |
CN111415655A (zh) * | 2020-02-12 | 2020-07-14 | 北京声智科技有限公司 | 语言模型构建方法、装置及存储介质 |
CN111415655B (zh) * | 2020-02-12 | 2024-04-12 | 北京声智科技有限公司 | 语言模型构建方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
ES2257344T3 (es) | 2006-08-01 |
MXPA02005466A (es) | 2002-12-16 |
KR100726875B1 (ko) | 2007-06-14 |
KR20020060978A (ko) | 2002-07-19 |
CN1224954C (zh) | 2005-10-26 |
DE60026366T2 (de) | 2006-11-16 |
AU2180001A (en) | 2001-06-12 |
EP1236198A1 (fr) | 2002-09-04 |
WO2001041125A1 (fr) | 2001-06-07 |
JP2003515777A (ja) | 2003-05-07 |
DE60026366D1 (de) | 2006-04-27 |
US20030105633A1 (en) | 2003-06-05 |
EP1236198B1 (fr) | 2006-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110534095B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
KR100996817B1 (ko) | 문자 대 음성 변환을 위한 상호 정보 기준을 이용한 큰 그라포넴 단위의 생성 | |
CN1205572C (zh) | 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构 | |
CN1199148C (zh) | 语音识别装置、语音识别方法 | |
CN1135485C (zh) | 利用计算机系统的日文文本字的识别 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
US8249856B2 (en) | Machine translation | |
CN1224954C (zh) | 含有固定和可变语法块的语言模型的语音识别装置 | |
CN112185348A (zh) | 多语种语音识别方法、装置及电子设备 | |
CN101065746A (zh) | 文件自动丰富的方法和系统 | |
JP2001523019A (ja) | テキストの本文の談話構造の自動認識 | |
KR20080069990A (ko) | 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체 | |
CN1384940A (zh) | 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构 | |
CN1187693C (zh) | 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统 | |
CN1667700A (zh) | 使用发音图表来改进新字的发音学习 | |
CN1910573A (zh) | 用来识别并分类命名实体的系统 | |
CN1781102A (zh) | 低速存储器判定树 | |
CN109979257B (zh) | 一种基于英语朗读自动打分进行分拆运算精准矫正的方法 | |
JP2007087397A (ja) | 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法 | |
CN1613107A (zh) | 基于hmm的文字-音素分析器及其训练方法 | |
CN111832299A (zh) | 一种中文分词系统 | |
CN1159701C (zh) | 执行句法置换规则的语音识别装置 | |
CN1273915C (zh) | 修改或改进词语使用的方法和装置 | |
CN1193304C (zh) | 切分非切分语言的输入字符序列的方法 | |
CN101937450B (zh) | 在由粒子表示的信息检索数据库中进行条目检索的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20051026 Termination date: 20161129 |
|
CF01 | Termination of patent right due to non-payment of annual fee |