CN105869629A - 语音识别方法及装置 - Google Patents
语音识别方法及装置 Download PDFInfo
- Publication number
- CN105869629A CN105869629A CN201610192862.8A CN201610192862A CN105869629A CN 105869629 A CN105869629 A CN 105869629A CN 201610192862 A CN201610192862 A CN 201610192862A CN 105869629 A CN105869629 A CN 105869629A
- Authority
- CN
- China
- Prior art keywords
- language model
- candidate word
- word string
- probability
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000002708 enhancing effect Effects 0.000 claims description 36
- 230000008878 coupling Effects 0.000 claims description 35
- 238000010168 coupling process Methods 0.000 claims description 35
- 238000005859 coupling reaction Methods 0.000 claims description 35
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 238000012549 training Methods 0.000 description 8
- 230000007547 defect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种语音识别方法及装置,包括:获取语音信号对应的候选词串;调用领域语言模型,确定所述候选词串在领域语言模型中对应的概率增强系数;调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;将所述概率增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。本发明实施例提供的语音识别方法及装置,综合考虑了基本语言模型中的通用说话习惯,又兼顾了领域语言模型中的特定用词习惯,从而可对语音信号提供更高的识别率。
Description
技术领域
本发明实施例涉及语音技术领域,尤其涉及一种语音识别方法及装置。
背景技术
语言模型(Language Model,LM)的目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。在语音识别领域中,语言模型用于识别待识别语音信号对应的词序列。
现有的通过语言模型进行语音信号识别的方法主要有语言模型的插值法和并行解码法:
语言模型的插值法,通过将各个领域对应的领域语言模型插值到基本语言模型中,之后根据插值后的基本语言模型对语音信号进行识别,但是,插值需要时间,相当于需要不断地对整个基本语言模型进行重新训练,更新效率低,无法做到迅速迭代,因此,对语音信号的识别率较低。
并行解码法,基本语言模型和领域语言模型同步执行语音识别,针对用户输入的语音信号,通过比较基本语言模型和领域语言模型中该语音信号出现的概率,将概率较高的语言模型中匹配出的结果作为识别结果,但是,由于通信语言模型和领域语言模型中包含的词序列都不完善,导致用单种语言模型识别语音信号时的识别率较低。
因此,如何提高语言模型对语音信号的识别率成为亟待要解决的技术问题。
发明内容
本发明实施例提供一种语音识别方法及装置,用以解决现有技术中对语音信号的识别率较低的问题。
本发明实施例提供一种语音识别方法,包括:
获取语音信号对应的候选词串;
调用领域语言模型,确定所述候选词串在领域语言模型中对应的增强系数;
调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
将所述增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
本发明实施例提供一种语音识别装置,包括:
意向分析模块,用于获取语音信号对应的候选词串;
第一识别模块,用于调用领域语言模型,确定所述候选词串在领域语言模型中的增强系数;
第二识别模块,用于调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
加值模块,用于将所述增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
识别结果生成模块,用于根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
本发明实施例提供的语音识别方法及装置,综合考虑了基本语言模型中的通用说话习惯,又兼顾了领域语言模型中的特定用词习惯,从而可对既对应有通用词串又对应有特定词串的语音信号提供更高的识别率;另外,仅需更新领域语言模型即可提高新增词串在语言中的匹配概率,领域语言模型的更新范围小、更新速度快,因此可更快捷地满足用户的语音识别要求,而且,领域语言模型中的增强系数可有效修正基本语言模型对新增词串的识别率低的缺陷,从而提高了语音识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明语音识别方法流程图;
图2为本发明语音识别方法实施例流程图;
图3为本发明语音识别方法实施例流程图;
图4为本发明语音识别装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的语音识别方法及装置,可应用于语音导航、语音播放控制等场景中。现有的语音识别方法中,通常采用语言模型插值法和并行解码法对语音信号进行词序列的概率估计。以用户输入一段“我要播放芈月传”的语音信号为例,其中,语言模型插值法是将多个领域对应的领域语言模型插值到基本语言模型中,可理解为将多个领域中的用户说话习惯训练到基本语言模型中,这导致基本语言模型变的异常庞大,而且即使对于单个领域内的新增词序也需要对整个基本语言模型进行重新训练,这使得插值训练花费的时间成本高,基本语言模型的更新迭代速度慢,对于新出现的词“芈月传”来说,语言模型插值法需要花费非常长的时间进行插值训练,在此之前其对上述语音信号的识别率会非常低;并行解码法则是通过并行的两条解码路径,分别在基本语言模型和领域语言模型中获取词序列的概率,两路解码路径比较后,将概率高路径识别出的词序列作为识别结果,但由于两类语言模型中包含的词序列都不完善,这就导致基本语言模型对特定词串“芈月传”的识别率低,而领域语言模型对基本的通用词串“我要播放”的识别率低,最终导致并行解码法对上述语音信号的识别率低。
本发明实施例提供的语音识别方法及装置,正是要解决现有两种语音识别方法的缺陷,通过分别调用基本语言模型和领域语言模型,免去了插值训练所花费的时间成本,而通过综合考虑语音信号对应的候选词串在基本语言模型和领域语言模型中的匹配概率,实现了即兼顾基本语言模型中体现的通用说话习惯,又兼顾了领域语言模型中特定说话习惯,进而实现了对语音信号更优化、更全面、更精准的识别。
需要说明的是,本发明实施例提供的语音识别方法及装置还可应用于其它需要进行语音识别的场景中,本发明对此并不作具体限定。
下面通过具体实施例对本发明技术方案进行详细说明。
参考图1,本发明实施例提供一种语音识别方法,包括:
101,获取语音信号对应的候选词串;
102,调用领域语言模型,确定所述候选词串在领域语言模型中对应的增强系数;
103,调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
104,将所述增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
105,根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
本实施例提供一种语音识别方法,可由语音识别装置来执行,用以输出语音信号对应的语言文本作为识别结果,提高语音识别的准确率。
具体地,在监听用户输入的语音信号后,根据对该语音信号的声学分析,并在对语音信号的解码过程中进行词假设扩展,以获取到所述语音信号对应的一个或多个候选词串,步骤101可假设出与所述语音信号的读音匹配概率较高的当前词,例如,用户输入语音“woxiang”后,步骤101可假设出与该语音有可能匹配的“我想”、“我像”、“我向”等等候选词串,而候选词串还可定义为用户接下来有可能说的词与其已经说的词组成的词串,例如,上述场景下,步骤101获取到的候选词串可以是“我想看”、“我想播放”、“我像听”等等;当然,所述候选词串还可通过其它方式或场景进行获取,例如,在用户输入完整的一句话后,对整句话进行解码及声学分析,并假设出该语音信号所对应的词序列,进而从所述词序列的起始符开始将该词序列拆分为多个候选词串,本发明对候选词串的获取方式不作具体限定。
针对步骤101假设出的所述语音信号对应的若干候选词串,步骤102将调用领域语言模型对所述候选词串进行分析。具体地,所述领域语言模型中预存有各候选词串对应的增强系数,步骤102可确定出所述候选词串在领域语言模型中对应的增强系数。
步骤103中,将调用基本语言模型对所述候选词串进行分析,具体地,本发明实施例中可假设所述基本语言模型中包含所有词串在语言中出现的匹配概率,也即任意候选词串均可在基本语言模型中获取到有效的基本匹配概率,对于符合和人类说话习惯或基本语言模型中未收录到的候选词串,也可从基本语言模型中获取到一个极低匹配概率作为有效的基本匹配概率。
步骤104以步骤102和步骤103获得的结果作为参数进行候选词串的总匹配概率的计算,由上文可知,步骤103中可获得所有候选词串的有效的基本匹配概率,而步骤102中通过调用领域语言模型对候选词串进行分析获得的概率增强系数将施加到基本匹配概率上,实质上是通过领域语言模型修正候选词串在基本语言模型中的基本匹配概率,从而获得所述候选词串的更加合理、准确的总匹配概率。
步骤101根据语音信号假设出的若干候选词串的不同组合将对应形成不同的词序列,所述词序列可以是短语、短句或长句,在此不作具体限定,也就是通过基本语言模型和领域语言模型将获得对应所述语音信号的多种词序列,对于形成的多个词序列,每个词序列的概率都是通过组成该词序列的多个候选词串的总匹配概率的加值而计算获得的,因此,概率越高的词序列代表其与语音信号的匹配度越高,步骤105根据概率最高的词序列生成语言文本并作为语音识别的结果输出。
本发明实施例提供的语音信号识别方法,在进行语音识别时,综合考虑了基本语言模型中的通用说话习惯,又兼顾了领域语言模型中的特定用词习惯,从而可对既对应有通用词串又对应有特定词串的语音信号提供更高的识别率;另外,仅需更新领域语言模型即可提高新增词串在语言中的匹配概率,领域语言模型的更新范围小、更新速度快,因此可更快捷地满足用户的语音识别要求,而且,概率通过领域语言模型中的增强系数可有效修正基本语言模型对新增词串的识别率低的缺陷,从而提高了语音识别的准确率。
参考图2,在一可选实施例中,步骤102获取候选词串在领域语言模型中的增强系数的方式可采用:
1021,根据所述候选词串在所述基本语言模型中对应的一个或多个基本匹配概率,确定所述候选词串在所述基本语言模型中对应的第一匹配概率范围;
1022,根据所述候选词串在所述领域语言模型中对应的一个或多个匹配概率,确定所述候选词串在所述领域语言模型中对应的第二匹配概率范围;
1023,根据所述候选词串在所述基本语言模型中对应的第一匹配概率范围和所述领域语言模型中对应的第二匹配概率范围的分差比值,获得所述候选词串在所述领域语言模型中对应的增强系数。
具体地,针对用户输入的语音信号,步骤101中假设扩展出的一个或多个候选词串在领域语言模型中将分别对应一匹配概率,因此可获得所述领域语言模型的匹配概率范围。为便于计算,本实施例中,以将概率转换为对数为例进行说明,例如针对用户输入的“bofangmiyue”语音信号,可获取到“播放芈月”的匹配对数为-2,“播放米月”的匹配对数为-3,“播放蜜月”的匹配对数为-5,以及其它候选词串的匹配对数,去掉最高分-1和最低分-6,可获得所述领域语言模型针对所述语音信号的第二匹配对数范围为[-5,-2],其分差为3。
承接上例,在基本语言模型中获取到的“播放米月”的基本匹配对数为-3,“播放蜜月”的基本匹配对数为-9,以及其它候选词串的基本匹配对数,去掉最高分-2和最低分-10,则可获得所述基本语言模型针对所述语音信号的第一匹配对数范围为[-9,-3],其分差为6。
上例中,所述基本语言模型中的基本匹配对数范围和所述领域语言模型中的匹配对数范围的分差比值即为2,将所述匹配对数范围的比值进行反对数运算后可获得一个大于1的增强系数,即为本实施例中最终获取到的所述候选词串在所述领域语言模型中对应的增强系数。当然,本发明实施例中也可直接根据所述候选词串在领域语言模型和基本语言模型中的匹配概率计算分差,并进而获得所述增强系数,本发明对此不作具体限定。
由于所述基本语言模型中可为任意候选词串提供一有效的基本匹配概率,因此,可认为基本语言模型为候选词串提供了一最低匹配概率,正如上文所述,为了实现领域语言模型对基本语言模型的修正作用,本实施例中,可将候选词串在领域语言模型中的大于1的增强系数施加到所述候选词串在基本语言模型中的基本匹配概率上,从而提高所述候选词串的总匹配概率。
例如,候选词串“我要播放芈”在基本语言模型中的基本匹配概率为50%,而其在领域语言模型中的对应的增强系数为1.2,此时,可根据预设规则,将基本匹配概率进行1.2倍的定向增强,从而将候选词串“我要播放芈”的总匹配概率提高为60%。可见,总匹配概率远高于基本匹配概率,从而提高了对该候选词串的识别率。
在此说明,本实施例不限定上述比例或权重的取值,可以根据应用场景适应性设置。
参考图3,在一可选的实施例中,所述确定所述候选词串在领域语言模型中对应的增强系数,可采用回退查询的方式获取所述候选词串在所述领域语言模型中的匹配概率,并根据回退方式查询到的所述匹配概率计算所述候选词串在领域语言模型中对应的增强系数,具体地:
201,查询所述候选词串包含的N元词组是否出现在所述领域语言模型中,如果未出现,则执行202,如果已出现,则执行205;
202,生成对应的惩罚概率,并查询所述候选词串包含的N-i元词组是否出现在所述领域语言模型中,如果所述N-i元词组出现在所述领域语言模型中,则执行203,否则执行204;
203,将所述N-i元词组在所述领域语言模型中的匹配概率与i倍的惩罚概率的差值作为所述候选词串在所述领域语言模型中的匹配概率,并执行205;
204,输入无效的所述候选词串在所述领域语言模型中的增强系数;
205,根据有效的所述候选词串在所述领域语言模型中的匹配概率获得所述候选词串在所述领域语言模型中对应的增强系数。
本实施例中,N、i均为整数,且i<N。
具体地,所述领域语言模型中预存有特定领域或特定场景下特定词串在语言中出现的匹配概率,例如,播放控制场景对应的领域语言模型中预存有“播放芈月传”、“观看甄嬛传”等等特定词串在语言中出现的匹配概率,即使不存在完整的特定词串在语言中出现的匹配概率,领域语言模型中还可预存经切词后的新增词在语言中出现的匹配概率,例如“芈”、“芈月”、“芈月传”等,而这些新增词在领域语言模型中的匹配概率将较高。
候选词串可根据用户输入的语音信号的长度设定为不同的词元数,如用户输入的语音信号就对应一个单词,则候选词串的词元数可设置为1;用户输入的语音信号对应5个单词时,可将候选词串的词元数设置为最大5元,即最多由相邻的5个单词组成一个候选词串,考虑到语言模型的训练成本和查询匹配的效率,本发明实施例中以最大4元候选词串为例进行说明。
本实施例中,例如,候选词串为“我要播放芈”的4元词串,为方便表述,本实施例还是以将概率转换为对数为例进行计算过程的描述,首先在领域语言模型中搜索“我要播放芈”的匹配对数,但并未搜索到,则生成对应的惩罚对数-1,并继续搜索所述候选词串包含的3元词串“要播放芈”的匹配对数,依然未搜索到,则再次生成惩罚对数-1,并继续搜索所述候选词串包含的2元词串“播放芈”的匹配对数,此时,搜索到2元词串“播放芈”在所述领域语言模型中的匹配对数为-3分,则候选词串“我要播放芈”在领域语言模型中的第一匹配对数为-1+-1+-3=-5分。
又例如,上述候选词串包含的2元词串“播放芈”在领域语言模型中也未获取到对应的匹配对数,则再次生成惩罚对数-1,并继续搜索1元词串“芈”,获得所述1元词串“芈”的匹配对数为-4,则候选词串“我要播放芈”在领域语言模型中的匹配对数为-1+-1+-1+-4=-7分,将获得的对数进行反对数运算后获得候选词串“我要播放芈”在领域语言模型中的匹配概率,以及根据所述匹配概率获取到所述候选词串“我要播放芈”在领域语言模型中对应的增强系数。
需要说明的是,本实施例通过回退查询的方式获取所述候选词串在所述领域语言模型中的匹配概率,并根据回退方式查询到的所述匹配概率计算所述候选词串在领域语言模型中对应的增强系数的过程,可在进行领域语言模型训练时预先进行,即直接将所述候选词串在领域语言模型中对应的增强系数保存在所述领域语言模型中;也可在执行语音识别的过程中进行同步执行。本发明实施例对此不作限定。
进一步,如果所述候选词串包含的1~N元词组均未出现在所述领域语言模型中,则将所述基本匹配概率作为所述候选词串的总匹配概率。
如上文所述,领域语言模型对基本语言模型起到修正的作用,而如果领域语言模型中不存在候选词串的任何相关信息,为避免领域语言模型对基本语言模型造成负面影响,本实施例中,可将候选词串在领域语言模型的增强系数设定为无效,以保持基本语言模型对候选词串的识别结果。
需要说明的,本实施例提供的回退查询以获得所述候选词串的在领域语言模型中的匹配概率及增强系数的方式,仅是提高识别率的一种较佳实施例,本发明并不对此处的获取方式做具体限定,其他获取方式也应属于本发明的保护范围内。
在一可选实施例中,步骤102中的调用领域语言模型,可采用如下方式实现:
识别语音信号携带的标识号;
根据所述标识号查找匹配的领域语言模型;
其中,所述标识号包括语音信号的来源产品标识号、通过语义解析获取的语音信号的领域标识号、用户的账号中的一种或多种。
具体地,本实施例中,语音信号传输时会携带一些有关语音描述的标识号,例如,语音信号是由车载导航采集并传送到云端服务器时,该语音信号中会携带车载导航的产品标识号,通过该标识号可判断该语音信号来自车载导航产品,步骤102可相应地调用导航相关的领域语言模型。
又例如,语音信号中包含了“视频”领域的标识号,则步骤102可直接调用视频相关的领域语言模型提高视频相关的特定词串的识别率。
又例如,用户通过账号登录本实施例提供的语音识别方法所应用的语音识别装置后,输入一段“我想打电话给张三”的语音信号时,步骤102可直接根据用户的账号调用为该用户设立的领域语言模型中,该领域语言模型中预存有用户相关的特定词串在语言习惯中的匹配概率,例如其通讯录中的联系人姓名获取手机中的应用程序名称等特定词串。
参考图4,本发明实施例提供一种语音识别装置,包括:
一种语音识别装置,其特征在于,包括:
意向分析模块11,用于获取语音信号对应的候选词串;
第一识别模块12,用于调用领域语言模型,确定所述候选词串在领域语言模型中的增强系数;
第二识别模块13,用于调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
加值模块14,用于将所述增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
识别结果生成模块15,用于根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
本发明实施例提供的语音识别装置,在进行语音识别时,综合考虑了基本语言模型中的通用说话习惯,又兼顾了领域语言模型中的特定用词习惯,从而可对既对应有通用词串又对应有特定词串的语音信号提供更高的识别率;另外,仅需更新领域语言模型即可提高新增词串在语言中的匹配概率,领域语言模型的更新范围小、更新速度快,因此可更快捷地满足用户的语音识别要求,而且,概率通过领域语言模型中的增强系数可有效修正基本语言模型对新增词串的识别率低的缺陷,从而提高了语音识别的准确率。
在一可选实施例中,所述第一识别模块12,用于:
根据所述候选词串在所述基本语言模型中对应的一个或多个基本匹配概率,确定所述候选词串在所述基本语言模型中对应的第一匹配概率范围;
根据所述候选词串在所述领域语言模型中对应的一个或多个匹配概率,确定所述候选词串在所述领域语言模型中对应的第二匹配概率范围;
根据所述候选词串在所述基本语言模型中对应的第一匹配概率范围和所述领域语言模型中对应的第二匹配概率范围的分差比值,获得所述候选词串在所述领域语言模型中对应的增强系数。
在一可选实施例中,所述第一识别模块12,用于:
查询所述候选词串包含的N元词组是否出现在所述领域语言模型中,如果未出现,则
生成对应的惩罚概率,并查询所述候选词串包含的N-i元词组是否出现在所述领域语言模型中,如果所述N-i元词组出现在所述领域语言模型中,则
根据所述N-i元词组在所述领域语言模型中的匹配概率与i倍的惩罚概率获得所述候选词串在所述领域语言模型中的匹配概率。
候选词串可根据用户输入的语音信号的长度设定为不同的词元数,考虑到语言模型的训练成本和查询匹配的效率,优选地,本发明实施例中1≤N≤4,N为整数,i小于N的整数。
在一可选实施例中,如果所述候选词串包含的1~N元词组均未出现在所述领域语言模型中,则所述加值模块14,用于:
将所述基本匹配概率作为所述候选词串的总匹配概率。
在一可选实施例中,所述第一识别模块12,用于:
识别语音信号携带的标识号;
根据所述标识号查找匹配的领域语言模型;
其中,所述标识号包括语音信号的来源产品标识号、通过语义解析获取的语音信号的领域标识号、用户的账号中的一种或多种。
具体地,本实施例中,语音信号传输时会携带一些有关语音描述的标识号,例如,语音信号是由车载导航采集并传送到云端服务器时,该语音信号中会携带车载导航的产品标识号,通过该标识号可判断该语音信号来自车载导航产品,第一识别模块12可相应地调用导航相关的领域语言模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的基本硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
获取语音信号对应的候选词串;
调用领域语言模型,确定所述候选词串在领域语言模型中对应的概率增强系数;
调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
将所述概率增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
2.根据权利要求1所述的方法,其特征在于,所述确定所述候选词串在领域语言模型中对应的增强系数,包括:
根据所述候选词串在所述基本语言模型中对应的多个基本匹配概率,确定所述候选词串在所述基本语言模型中对应的第一匹配概率范围;
根据所述候选词串在所述领域语言模型中对应的多个匹配概率,确定所述候选词串在所述领域语言模型中对应的第二匹配概率范围;
根据所述候选词串在所述基本语言模型中对应的第一匹配概率范围和所述领域语言模型中对应的第二匹配概率范围的分差比值,获得所述候选词串在所述领域语言模型中对应的增强系数。
3.根据权利要求2所述的方法,其特征在于,所述确定所述候选词串在领域语言模型中概率对应的增强系数,包括:
查询所述候选词串包含的N元词组是否出现在所述领域语言模型中,如果未出现,则
生成对应的惩罚概率,并查询所述候选词串包含的N-i元词组是否出现在所述领域语言模型中,如果所述N-i元词组出现在所述领域语言模型中,则
根据所述N-i元词组在所述领域语言模型中的匹配概率与i倍的惩罚概率获得所述候选词串在所述领域语言模型中的匹配概率,并根据所述候选词串在所述领域语言模型中的匹配概率获得所述候选词串在所述领域语言模型中对应的增强系数;
其中,N和i为整数,且i<N。
4.根据权利要求1或2所述的方法,其特征在于,如果所述候选词串包含的1~N元词组均未出现在所述领域语言模型中,则
将所述基本匹配概率作为所述候选词串的总匹配概率。
5.根据权利要求1所述的方法,其特征在于,所述调用领域语言模型,包括:
识别语音信号携带的标识号;
根据所述标识号查找匹配的领域语言模型;
其中,所述标识号包括语音信号的来源产品标识号、通过语义解析获取的语音信号的领域标识号、用户的账号中的一种或多种。
6.一种语音识别装置,其特征在于,包括:
意向分析模块,用于获取语音信号对应的候选词串;
第一识别模块,用于调用领域语言模型,确定所述候选词串在领域语言模型中对应的增强系数;
第二识别模块,用于调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
加值模块,用于将所述增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
识别结果生成模块,用于根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
7.根据权利要求6所述的装置,其特征在于,所述第一识别模块,用于:
根据所述候选词串在所述基本语言模型中对应的一个或多个基本匹配概率,确定所述候选词串在所述基本语言模型中对应的第一匹配概率范围;
根据所述候选词串在所述领域语言模型中对应的一个或多个匹配概率,确定所述候选词串在所述领域语言模型中对应的第二匹配概率范围;
根据所述候选词串在所述基本语言模型中对应的第一匹配概率范围和所述领域语言模型中对应的第二匹配概率范围的分差比值,获得所述候选词串在所述领域语言模型中对应的增强系数。
8.根据权利要求7所述的装置,其特征在于,所述第一识别模块,用于:
查询所述候选词串包含的N元词组是否出现在所述领域语言模型中,如果未出现,则
生成对应的惩罚概率,并查询所述候选词串包含的N-i元词组是否出现在所述领域语言模型中,如果所述N-i元词组出现在所述领域语言模型中,则
根据所述N-i元词组在所述领域语言模型中的匹配概率与i倍的惩罚概率获得所述候选词串在所述领域语言模型中的匹配概率,并根据所述候选词串在所述领域语言模型中的匹配概率获得所述候选词串在所述领域语言模型中对应的增强系数;
其中,N和i为整数,且i<N。
9.根据权利要求7或8所述的装置,其特征在于,如果所述候选词串包含的1~N元词组均未出现在所述领域语言模型中,则所述加值模块,用于:
将所述基本匹配概率作为所述候选词串的总匹配概率。
10.根据权利要求6所述的装置,其特征在于,所述第一识别模块,用于:
识别语音信号携带的标识号;
根据所述标识号查找匹配的领域语言模型;
其中,所述标识号包括语音信号的来源产品标识号、通过语义解析获取的语音信号的领域标识号、用户的账号中的一种或多种。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610192862.8A CN105869629B (zh) | 2016-03-30 | 2016-03-30 | 语音识别方法及装置 |
PCT/CN2016/096985 WO2017166650A1 (zh) | 2016-03-30 | 2016-08-26 | 语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610192862.8A CN105869629B (zh) | 2016-03-30 | 2016-03-30 | 语音识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105869629A true CN105869629A (zh) | 2016-08-17 |
CN105869629B CN105869629B (zh) | 2018-03-20 |
Family
ID=56626679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610192862.8A Expired - Fee Related CN105869629B (zh) | 2016-03-30 | 2016-03-30 | 语音识别方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105869629B (zh) |
WO (1) | WO2017166650A1 (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105845133A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
CN107154260A (zh) * | 2017-04-11 | 2017-09-12 | 北京智能管家科技有限公司 | 一种领域自适应语音识别方法和装置 |
WO2017166650A1 (zh) * | 2016-03-30 | 2017-10-05 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
CN107578771A (zh) * | 2017-07-25 | 2018-01-12 | 科大讯飞股份有限公司 | 语音识别方法及装置、存储介质、电子设备 |
CN108573706A (zh) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
CN108597502A (zh) * | 2018-04-27 | 2018-09-28 | 上海适享文化传播有限公司 | 基于对抗训练的领域语音识别训练方法 |
CN109035001A (zh) * | 2018-06-28 | 2018-12-18 | 招联消费金融有限公司 | 智能语音应答处理方法及系统 |
WO2019071607A1 (zh) * | 2017-10-09 | 2019-04-18 | 华为技术有限公司 | 一种语音信息处理方法、装置及终端 |
CN110149451A (zh) * | 2019-04-30 | 2019-08-20 | 五竹科技(天津)有限公司 | 基于账户登录的外呼机器人实现方法、装置及存储介质 |
CN110176230A (zh) * | 2018-12-11 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、设备和存储介质 |
CN110176237A (zh) * | 2019-07-09 | 2019-08-27 | 北京金山数字娱乐科技有限公司 | 一种语音识别方法及装置 |
CN110473547A (zh) * | 2019-07-12 | 2019-11-19 | 云知声智能科技股份有限公司 | 一种语音识别方法 |
CN112017645A (zh) * | 2020-08-31 | 2020-12-01 | 广州市百果园信息技术有限公司 | 一种语音识别方法及装置 |
CN112115713A (zh) * | 2020-09-08 | 2020-12-22 | 杭州艾耕科技有限公司 | 一种新型的优化语言生成模型输出未知字符的方法 |
CN112669845A (zh) * | 2020-12-25 | 2021-04-16 | 竹间智能科技(上海)有限公司 | 语音识别结果的校正方法及装置、电子设备、存储介质 |
US12125473B2 (en) | 2018-12-11 | 2024-10-22 | Tencent Technology (Shenzhen) Company Limited | Speech recognition method, apparatus, and device, and storage medium |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060681A (zh) * | 2019-04-26 | 2019-07-26 | 广东昇辉电子控股有限公司 | 具有智能语音识别功能的智能网关的控制方法 |
CN112599128B (zh) * | 2020-12-31 | 2024-06-11 | 百果园技术(新加坡)有限公司 | 一种语音识别方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1352450A (zh) * | 2000-11-15 | 2002-06-05 | 中国科学院自动化研究所 | 中国人名、地名和单位名的语音识别方法 |
US20120191448A1 (en) * | 2011-01-21 | 2012-07-26 | Google Inc. | Speech recognition using dock context |
CN103903619A (zh) * | 2012-12-28 | 2014-07-02 | 安徽科大讯飞信息科技股份有限公司 | 一种提高语音识别准确率的方法及系统 |
CN104508739A (zh) * | 2012-06-21 | 2015-04-08 | 谷歌公司 | 动态语言模型 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1215654B1 (en) * | 2000-12-13 | 2006-05-24 | Sony Deutschland GmbH | Method for recognizing speech |
CN105869629B (zh) * | 2016-03-30 | 2018-03-20 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
-
2016
- 2016-03-30 CN CN201610192862.8A patent/CN105869629B/zh not_active Expired - Fee Related
- 2016-08-26 WO PCT/CN2016/096985 patent/WO2017166650A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1352450A (zh) * | 2000-11-15 | 2002-06-05 | 中国科学院自动化研究所 | 中国人名、地名和单位名的语音识别方法 |
US20120191448A1 (en) * | 2011-01-21 | 2012-07-26 | Google Inc. | Speech recognition using dock context |
CN104508739A (zh) * | 2012-06-21 | 2015-04-08 | 谷歌公司 | 动态语言模型 |
CN103903619A (zh) * | 2012-12-28 | 2014-07-02 | 安徽科大讯飞信息科技股份有限公司 | 一种提高语音识别准确率的方法及系统 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017166650A1 (zh) * | 2016-03-30 | 2017-10-05 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
CN105845133A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
CN108573706A (zh) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
CN107154260B (zh) * | 2017-04-11 | 2020-06-16 | 北京儒博科技有限公司 | 一种领域自适应语音识别方法和装置 |
CN107154260A (zh) * | 2017-04-11 | 2017-09-12 | 北京智能管家科技有限公司 | 一种领域自适应语音识别方法和装置 |
CN107578771A (zh) * | 2017-07-25 | 2018-01-12 | 科大讯飞股份有限公司 | 语音识别方法及装置、存储介质、电子设备 |
CN107578771B (zh) * | 2017-07-25 | 2021-02-02 | 科大讯飞股份有限公司 | 语音识别方法及装置、存储介质、电子设备 |
WO2019071607A1 (zh) * | 2017-10-09 | 2019-04-18 | 华为技术有限公司 | 一种语音信息处理方法、装置及终端 |
US11308965B2 (en) | 2017-10-09 | 2022-04-19 | Huawei Technologies Co., Ltd. | Voice information processing method and apparatus, and terminal |
CN108597502A (zh) * | 2018-04-27 | 2018-09-28 | 上海适享文化传播有限公司 | 基于对抗训练的领域语音识别训练方法 |
CN109035001A (zh) * | 2018-06-28 | 2018-12-18 | 招联消费金融有限公司 | 智能语音应答处理方法及系统 |
CN110176230A (zh) * | 2018-12-11 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、设备和存储介质 |
US12125473B2 (en) | 2018-12-11 | 2024-10-22 | Tencent Technology (Shenzhen) Company Limited | Speech recognition method, apparatus, and device, and storage medium |
WO2020119432A1 (zh) * | 2018-12-11 | 2020-06-18 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、设备和存储介质 |
CN110176230B (zh) * | 2018-12-11 | 2021-10-08 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、设备和存储介质 |
CN110149451B (zh) * | 2019-04-30 | 2021-04-13 | 五竹科技(北京)有限公司 | 基于账户登录的外呼机器人实现方法、装置及存储介质 |
CN110149451A (zh) * | 2019-04-30 | 2019-08-20 | 五竹科技(天津)有限公司 | 基于账户登录的外呼机器人实现方法、装置及存储介质 |
CN110176237A (zh) * | 2019-07-09 | 2019-08-27 | 北京金山数字娱乐科技有限公司 | 一种语音识别方法及装置 |
CN110473547A (zh) * | 2019-07-12 | 2019-11-19 | 云知声智能科技股份有限公司 | 一种语音识别方法 |
CN110473547B (zh) * | 2019-07-12 | 2021-07-30 | 云知声智能科技股份有限公司 | 一种语音识别方法 |
CN112017645A (zh) * | 2020-08-31 | 2020-12-01 | 广州市百果园信息技术有限公司 | 一种语音识别方法及装置 |
CN112017645B (zh) * | 2020-08-31 | 2024-04-26 | 广州市百果园信息技术有限公司 | 一种语音识别方法及装置 |
CN112115713A (zh) * | 2020-09-08 | 2020-12-22 | 杭州艾耕科技有限公司 | 一种新型的优化语言生成模型输出未知字符的方法 |
CN112669845A (zh) * | 2020-12-25 | 2021-04-16 | 竹间智能科技(上海)有限公司 | 语音识别结果的校正方法及装置、电子设备、存储介质 |
CN112669845B (zh) * | 2020-12-25 | 2024-04-12 | 竹间智能科技(上海)有限公司 | 语音识别结果的校正方法及装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2017166650A1 (zh) | 2017-10-05 |
CN105869629B (zh) | 2018-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105869629A (zh) | 语音识别方法及装置 | |
US11398236B2 (en) | Intent-specific automatic speech recognition result generation | |
CN105895103B (zh) | 一种语音识别方法及装置 | |
CN108305643B (zh) | 情感信息的确定方法和装置 | |
US9154629B2 (en) | System and method for generating personalized tag recommendations for tagging audio content | |
JP2021144759A5 (zh) | ||
US11610590B2 (en) | ASR training and adaptation | |
US9922650B1 (en) | Intent-specific automatic speech recognition result generation | |
US20140046666A1 (en) | Information processing apparatus, computer program product, and information processing method | |
CN113113024B (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN116737883A (zh) | 人机交互方法、装置、设备及存储介质 | |
WO2022143349A1 (zh) | 一种确定用户意图的方法及装置 | |
CN109190116B (zh) | 语义解析方法、系统、电子设备及存储介质 | |
CN111427444B (zh) | 一种智能设备的控制方法和设备 | |
CN110797001B (zh) | 电子书语音音频的生成方法、装置及可读存储介质 | |
CN110570838B (zh) | 语音流处理方法和装置 | |
CN110708619B (zh) | 一种智能设备的词向量训练方法及装置 | |
JP6322125B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP2009025411A (ja) | 音声認識装置およびプログラム | |
JP2014206773A (ja) | コミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラム | |
EP4216209A1 (en) | Speech recognition method and apparatus, terminal, and storage medium | |
CN113763921B (zh) | 用于纠正文本的方法和装置 | |
KR102544612B1 (ko) | 영상 콘텐츠 연동형 서비스 제공 방법 및 장치 | |
CN114419488A (zh) | 视频识别模型的训练方法、视频识别方法及相关设备 | |
CN106653057A (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180320 Termination date: 20180330 |