CN103337241A - 一种语音识别方法和装置 - Google Patents

一种语音识别方法和装置 Download PDF

Info

Publication number
CN103337241A
CN103337241A CN2013102314992A CN201310231499A CN103337241A CN 103337241 A CN103337241 A CN 103337241A CN 2013102314992 A CN2013102314992 A CN 2013102314992A CN 201310231499 A CN201310231499 A CN 201310231499A CN 103337241 A CN103337241 A CN 103337241A
Authority
CN
China
Prior art keywords
acoustics
frame
score
gauss
code book
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102314992A
Other languages
English (en)
Other versions
CN103337241B (zh
Inventor
苏牧
李鹏
李轶杰
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201310231499.2A priority Critical patent/CN103337241B/zh
Publication of CN103337241A publication Critical patent/CN103337241A/zh
Application granted granted Critical
Publication of CN103337241B publication Critical patent/CN103337241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例公开了一种语音识别方法和装置,接收输入的语音片段;根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分;将得到的所述多个声学得分和移动终端词汇库中的词汇进行比对并累加每一帧比对后的声学得分,其中总分最高的为最优声学总分;所述语音片段每一帧的最高声学得分之和为背景声学总分;比对最优和背景声学总分是否满足预订阈值;如果否,则拒识所述语音片段,可以看出,将输入的语音片段的每一帧的最高声学得分之和,与输入的语音片段和移动终端词汇库中的词汇比较得出的最高声学总分比较后差值较大的判定为错误的语音输入并进行拒识,由此大大降低移动终端根据语音输入做出误操作的频率,提高了用户的体验度。

Description

一种语音识别方法和装置
技术领域
本发明涉及语音识别领域,特别是涉及一种语音识别方法和装置。 
背景技术
目前,在智能手机或者说移动终端上通过语音进行输入和控制越来越被用户所熟悉和接受,而且随着移动终端硬件更新速度越来越快,高速CPU和大容量内存已经成为了大部分移动终端的基础配置,使得几万量级词汇量的嵌入式的语音识别技术应用在移动终端上成为可能,比如说,针对固定人名、地名或App应用名称等固定词汇量的语音识别就是属于此类,一般来说,对于应用在移动终端中的万级词汇量的语音识别系统,其本地识别的识别标准是根据最大似然原则,即是指将接收到的语音片段计算出对应的语音特征值,与语音词汇库中的已存的每个词汇对应的模型进行比较,找到语音特征值相似度最大的,判定接收到的语音片段即为该语音特征值相似度最大的已存词汇并执行对应的操作,或者举一个比较直观的例子,当用户说出“张三”,但是本地语音词汇库中并没有存有“张三”的词汇,当使用最大似然原则进行判断后,找出词汇库中的“李四”与用户说出的“张三”的语音特征值相似度最大,然后根据词汇“李四”做出了相应的操作比如说拨通了李四的电话,即便用户所说的语音根本不是“李四”,由此对用户的语音输入进行了误操作。由此可见,基于现有技术的语音识别,没有办法对词汇库中已存词汇以外的输入语音进行有效拒识,由此导致在用户语音操作中移动终端会常做出错误的反馈。 
发明内容
为了解决上述移动终端的本地语音识别技术无法对输入的语音片段进行拒识的技术问题,本发明提供了一种语音识别方法和装置。 
本发明实施例公开了如下技术方案: 
由上述技术方案可以看出,将输入的语音片段的每一帧的最高声学得分之和,也就是一个只是理论上存在的完美匹配的声学总分作为评价依据,与输入的语音片段和移动终端词汇库中的词汇比较得出的最高声学总分进行比较,将比较后差值较大的判定为错误的语音输入并进行拒识,由此大大降低移动终端根据语音输入做出误操作的频率,其次,使用聚类操作以近似计算的方法获取输入的语音片段的每一帧的最高声学得分之和,使得本技术方案的拒识方法在移动终端上的运行速度得到保证,提高了用户的体验度。 
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。 
图1为本发明一种语音识别方法的方法流程图; 
图2为本发明的系统框架图; 
图3为本发明一种语音识别装置的装置结构图; 
图4为本发明的计算背景声学总分的装置结构图。 
具体实施方式
本发明实施例提供了一种语音识别方法和装置。首先,将输入的语音片段的每一帧的最高声学得分之和,也就是一个只是理论上存在的完美匹配的声学总分作为评价依据,与输入的语音片段和移动终端词汇库中的词汇比较得出的最高声学总分进行比较,将比较后差值较大的判定为错误的语音输入并进行拒识,由此大大降低移动终端根据语音输入做出误操作的频率。 
其次,使用聚类操作以近似计算的方法获取输入的语音片段的每一帧的最高声学得分之和,使得本技术方案的拒识方法在移动终端上的运行速度得到保证,提高了用户的体验度。 
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例进行详细描述。 
实施例一 
请参阅图1,其为本发明一种语音识别方法的方法流程图,该方法包括以下步骤: 
S101:接收输入的语音片段; 
需要说明的是,本发明技术方案主要应用于移动终端上,也就是说是移动终端接收外接输入的声音片段,可以是用户说出的,也可以是机器播放的等。 
S102:根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分; 
这种SDC算法属于本技术领域的常用计算声学得分的手段,在主流的语音识别系统中,通常采用状态共享三音子(state-tied triphone)作为发音单元,用HMM对其时序及统计特性进行建模,而HMM的每个状态的输出概率用高斯混合模型(GMM)表示,传统的计算公式为: 
p ( x | λ ) = Σ i = 1 M w i N i ( x ) ;
N i ( x ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x - μ i ) T Σ i - 1 ( x - μ i ) } ;
其中,Ni(x)为码本高斯模型,而通过Ni(x)计算每一帧输入的语音特征的码本高斯得分,需要对全空间GMM进行计算,这需要消耗大量的计算资源,这也是语音识别是计算密集型的原因,通常这种声学计算要占到总识别时间的60%到80%。虽然将传统计算手段直接应用于移动终端上对码本高斯进行计算也是可行的,但是计算量较为客观,所以,本方案还提供了一种优选的计算码本高斯得分的方法,为一种近似算法。 
优选的,所述根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分,还包括: 
使用近似算法计算声学得分,具体计算公式为: 
p ( x | λ ) = Σ m = 1 , M w m Π k = 1 , K N quan ( x k , μ m , k , σ m , k 2 ) ;
其中,wm为每个码本高斯占总码本高斯的权重,
Figure BDA00003333060600041
为每一维进行SDC后的码本高斯的近似计算码本高斯得分,K为每一维进行SDC后的码本高斯的个数(一般为128或256个)。 
这种近似计算的计算结果与原计算方法计算得出的码本高斯得分的误差很小,而且所有的码本高斯得分都可以在每一帧语音特征进行识别前预先算出,保存起来,而且其计算负载很小,只需要进行连乘即可。 
同时,针对这种连乘,本发明还提供了一种优选的对连乘运算使用log的辅助计算。 
优选的,对所述
Figure BDA00003333060600042
取log后进行加运算。 
可见,这样取完log后就只需要进行连续加法即可,而运算log可以直接通过查表完成,由此进一步的减少了计算量,提高了本方案在移动终端上的运行速度。 
S103:根据所述声音片段的输入长度,以帧为单位,将得到的所述多个声学得分和移动终端词汇库中的n个词汇进行比对并累加每一帧比对后的声学得分,得到n个声学总分,n为大于等于1的整数,其中总分最高的设定为所述语音片段的最优声学总分; 
先介绍一下在SDC的基础上,进行快速拒识的算法。首先,在命令词系统里面,受到计算资源的限制,移动终端的语音识别不可能像大词汇连续语音识别那样,依靠生成词图的形式得到识别的置信度;其次,在命令词识别系统里面,不存在语言模型,词与词之间的差异完全体现的声学空间上,因为,将依据SDC声学打分,得到声学置信度,根据此数值进行有效的拒识。 
获取最优声学得分的方法与现有技术中利用SDC进行声学得分的计算基本相同,先将输入的语音片段以时间长度为基础,依次对每一帧的语音特征带入SDC后的码本高斯模型中进行声学打分,然后根据移动终端中所保存的词汇库中的词汇的模型特征序列进行比对并累加每一帧的比对出的得分,从而确定得分最高的模型特征序列,也就是所述最优声学得分。 
S104:计算在输入长度内的所述语音片段每一帧的最高声学得分之和,得到背景声学总分; 
首先需要对背景声学总分进行说明,将输入的语音片段的每一帧的最高声学得分之和,也就是一个只是理论上存在的完美匹配的声学总分,这个理论存在的完美匹配往往是非法的,不在词汇库里的。 
需要说明的是,正常方法获取每一帧的最高声学得分需要遍历所有的声学得分,计算量是比较大的,为了保证在移动终端上较高的运行速度,本发明还提供了一种优选的快速计算背景声学总分的方案。 
优选的,所述计算在输入长度内的所述语音片段每一帧的最高声学得分之和,得到背景声学总分,还包括: 
使用近似算法计算理论声学总分,具体为: 
将高斯混合模型GMM回退到单高斯模型; 
优选的,所述将高斯混合模型GMM回退到单高斯模型具体为: 
μ reg = ( Σ m = 1 , M μ m ) / M ; σ reg 2 = ( Σ m = 1 , M σ m 2 + μ m * μ m / M ) - μ reg 2 .
这里需要说明的是,本发明使用的是欧式距离聚类方法进行聚类的,当然也可以是其他可以完成同样效果的聚类方法,本发明对此并不进行限定。 
对获得的单高斯模型进行聚类操作,得到多个聚类码本模型,并记录对应所述聚类码本模型的高斯混合模型唯一对应的ID; 
根据所述多个聚类码本模型计算输入的所述语音片段的每一帧的声学得分; 
确定每一帧声学得分最高的聚类码本模型,根据所记录的所述高斯混合模型唯一对应的ID确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型; 
根据所述确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型计算输入的所述语音片段的声学得分,确定每一帧最高的声学得分; 
根据所述语音片段的输入时间长度对所述每一帧最高的声学得分求和, 得到背景声学总分。 
可以看出,这种优选的计算方式,可以通过较少的计算量获得较为精确的计算结果,并不会对本发明技术方案的拒识的有效程度产生影响。 
S105:比对最优声学总分和背景声学总分是否满足预订阈值, 
如果是,则确定所述语音片段为最优声学得分所对应的词汇; 
如果否,则确定所述语音片段为错误的输入,拒识所述语音片段。 
这里需要说明的是,所述预订阈值是可以进行设定的,主要是用来调整拒识的有效程度和精度,因为,如果这个值设定的过小,会使得一些有效的语音输入也被判定为错误输入被拒识,如果这个值设定的过大,则会降低拒识的有效性,使得有些错误的语音输入被判定为有效输入,由此导致了误操作的产生,本发明的默认预订阈值设为-4。 
进一步的,通过一个比较直观的语音辨识流程图来对本发明进行进一步的说明,请参阅图2,请本发明的系统框架图,由图中可以看出,将接收到的语音输入进行特征提取,将提取出的语音特征使用解码器进行识别,而解码器通过解码网络中的SDC声学模型和命令词典对接收到的语音特征进行解码,从而从解码器中输出识别的结果,进而进行进一步的操作。 
由本实施例可以看出,将输入的语音片段的每一帧的最高声学得分之和,也就是一个只是理论上存在的完美匹配的声学总分作为评价依据,与输入的语音片段和移动终端词汇库中的词汇比较得出的最高声学总分进行比较,将比较后差值较大的判定为错误的语音输入并进行拒识,由此大大降低移动终端根据语音输入做出误操作的频率,其次,使用聚类操作以近似计算的方法获取输入的语音片段的每一帧的最高声学得分之和,使得本技术方案的拒识方法在移动终端上的运行速度得到保证,提高了用户的体验度。 
实施例二 
与上述一种语音识别方法相对应,本发明实施例还提供了一种语音识别 装置。请参阅图3,其为本发明一种语音识别装置的装置结构图,该装置包括语音接收单元301、聚类计算单元302、比较累加单元303、背景声学总分计算单元304、比对判断单元305、识别单元306和拒识单元307: 
所述语音接收单元301,用于接收输入的语音片段; 
所述聚类计算单元302,用于根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分; 
优选的,所述聚类计算单元302还用于: 
使用近似算法计算声学得分,具体计算公式为: 
p ( x | λ ) = Σ m = 1 , M w m Π k = 1 , K N quan ( x k , μ m , k , σ m , k 2 ) ;
其中,wm为每个码本高斯占总码本高斯的权重,
Figure 20131023149921000022
为每一维进行SDC后的码本高斯的近似计算码本高斯得分,K为每一维进行SDC后的码本高斯的个数。 
优选的,对所述
Figure 20131023149921000021
取log后进行加运算。 
所述比较累加单元303,用于根据所述声音片段的输入长度,以帧为单位,将得到的所述多个声学得分和移动终端词汇库中的n个词汇进行比对并累加每一帧比对后的声学得分,得到n个声学总分,n为大于等于1的整数,其中总分最高的设定为所述语音片段的最优声学总分; 
所述背景声学总分计算单元304,用于计算在输入长度内的所述语音片段每一帧的最高声学得分之和,得到背景声学总分; 
优选的,所述背景声学总分计算单元304还包括: 
请参阅图4,其为本发明的计算背景声学总分的装置结构图,包括: 
使用近似算法计算理论声学总分,具体为: 
单高斯回退子单元3041,用于将高斯混合模型GMM回退到单高斯模型; 
优选的,所述将高斯混合模型GMM回退到单高斯模型具体为: 
μ reg = ( Σ m = 1 , M μ m ) / M ; σ reg 2 = ( Σ m = 1 , M σ m 2 + μ m * μ m / M ) - μ reg 2 .
聚类子单元3042,用于对获得的单高斯模型进行聚类操作,得到多个聚类码本模型,并记录对应所述聚类码本模型的高斯混合模型唯一对应的ID; 
计算声学得分子单元3043,用于根据所述多个聚类码本模型计算输入的所述语音片段的每一帧的声学得分; 
确定高斯混合子单元3044,用于确定每一帧声学得分最高的聚类码本模型,根据所记录的所述高斯混合模型唯一对应的ID确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型; 
最高声学得分获取子单元3045,用于根据所述确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型计算输入的所述语音片段的声学得分,确定每一帧最高的声学得分; 
背景声学总分获取子单元3046,用于根据所述语音片段的输入时间长度对所述每一帧最高的声学得分求和,得到背景声学总分。 
所述比对判断单元305,用于比对最优声学总分和背景声学总分是否满足预订阈值; 
如果是,则执行识别单元;如果否,则执行拒识单元; 
所述识别单元306,用于确定所述语音片段为最优声学得分所对应的词汇; 
所述拒识单元307,用于确定所述语音片段为错误的输入,拒识所述语音片段。 
由上述实施例可以看出,将输入的语音片段的每一帧的最高声学得分之和,也就是一个只是理论上存在的完美匹配的声学总分作为评价依据,与输入的语音片段和移动终端词汇库中的词汇比较得出的最高声学总分进行比较,将比较后差值较大的判定为错误的语音输入并进行拒识,由此大大降低移动终端根据语音输入做出误操作的频率,其次,使用聚类操作以近似计算的方法获取输入的语音片段的每一帧的最高声学得分之和,使得本技术方案的拒识方法在移动终端上的运行速度得到保证,提高了用户的体验度。 
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的 全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。 
以上对本发明所提供的一种语音识别方法和装置进行了详细介绍,本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。 

Claims (10)

1.一种语音识别方法,应用于移动终端,其特征在于,包括: 
接收输入的语音片段; 
根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分; 
根据所述声音片段的输入长度,以帧为单位,将得到的所述多个声学得分和移动终端词汇库中的n个词汇进行比对并累加每一帧比对后的声学得分,得到n个声学总分,n为大于等于1的整数,其中总分最高的设定为所述语音片段的最优声学总分; 
计算在输入长度内的所述语音片段每一帧的最高声学得分之和,得到背景声学总分; 
比对最优声学总分和背景声学总分是否满足预订阈值; 
如果是,则确定所述语音片段为最优声学得分所对应的词汇; 
如果否,则确定所述语音片段为错误的输入,拒识所述语音片段。 
2.根据权利要求1所述的方法,其特征在于,所述计算在输入长度内的所述语音片段每一帧的最高声学得分之和,得到背景声学总分,还包括: 
使用近似算法计算背景声学总分,具体为: 
将高斯混合模型GMM回退到单高斯模型; 
对获得的单高斯模型进行聚类操作,得到多个聚类码本模型,并记录对应所述聚类码本模型的高斯混合模型唯一对应的ID; 
根据所述多个聚类码本模型计算输入的所述语音片段的每一帧的声学得分; 
确定每一帧声学得分最高的聚类码本模型,根据所记录的所述高斯混合模型唯一对应的ID确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型; 
根据所述确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型计算输入的所述语音片段的声学得分,确定每一帧最高的声学得分; 
根据所述语音片段的输入时间长度对所述每一帧最高的声学得分求和,得到背景声学总分。 
3.根据权利要求2所述的方法,其特征在于,所述将高斯混合模型GMM回退到单高斯模型具体为: 
Figure 20131023149921000011
4.根据权利要求1所述的方法,其特征在于,所述根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分,还包括: 
使用近似算法计算声学得分,具体计算公式为: 
Figure FDA00003333060500022
其中,wm为每个码本高斯占总码本高斯的权重
Figure FDA00003333060500023
为每一维进行SDC后的码本高斯的近似计算码本高斯得分,K为每一维进行SDC后的码本高斯的个数。 
5.根据权利要求4所述的方法,其特征在于,对所述 取log后进行加运算。 
6.一种语音识别装置,应用于移动终端,其特征在于,包括: 
语音接收单元,用于接收输入的语音片段; 
聚类计算单元,用于根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分; 
比较累加单元,用于根据所述声音片段的输入长度,以帧为单位,将得到的所述多个声学得分和移动终端词汇库中的n个词汇进行比对并累加每一帧比对后的声学得分,得到n个声学总分,n为大于等于1的整数,其中总分最高的设定为所述语音片段的最优声学总分; 
背景声学总分计算单元,用于计算在输入长度内的所述语音片段每一帧的最高声学得分之和,得到背景声学总分; 
比对判断单元,用于比对最优声学总分和背景声学总分是否满足预订阈值; 
如果是,则执行识别单元;如果否,则执行拒识单元; 
所述识别单元,用于确定所述语音片段为最优声学得分所对应的词汇; 
所述拒识单元,用于确定所述语音片段为错误的输入,拒识所述语音片段。 
7.根据权利要求6所述的装置,其特征在于,所述背景声学总分计算单元还包括: 
使用近似算法计算背景声学总分,具体为: 
单高斯回退子单元,用于将高斯混合模型GMM回退到单高斯模型; 
聚类子单元,用于对获得的单高斯模型进行聚类操作,得到多个聚类码本模型,并记录对应所述聚类码本模型的高斯混合模型唯一对应的ID; 
计算声学得分子单元,用于根据所述多个聚类码本模型计算输入的所述语音片段的每一帧的声学得分; 
确定高斯混合子单元,用于确定每一帧声学得分最高的聚类码本模型,根据所记录的所述高斯混合模型唯一对应的ID确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型; 
最高声学得分获取子单元,用于根据所述确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型计算输入的所述语音片段的声学得分,确定每一帧最高的声学得分; 
背景声学总分获取子单元,用于根据所述语音片段的输入时间长度对所述每一帧最高的声学得分求和,得到背景声学总分。 
8.根据权利要求7所述的装置,其特征在于,所述将高斯混合模型GMM回退到单高斯模型具体为: 
Figure 20131023149921000012
9.根据权利要求6所述的装置,其特征在于,所述聚类计算单元还用于: 
使用近似算法计算声学得分,具体计算公式为: 
Figure FDA00003333060500032
其中,wm为每个码本高斯占总码本高斯的权重,为每一维进行SDC后的码本高斯的近似计算码本高斯得分,K为每一维进行SDC后的码本高斯的个数。 
10.根据权利要求9所述的装置,其特征在于,对所述 
Figure FDA00003333060500041
取log后进行加运算。 
CN201310231499.2A 2013-06-09 2013-06-09 一种语音识别方法和装置 Active CN103337241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310231499.2A CN103337241B (zh) 2013-06-09 2013-06-09 一种语音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310231499.2A CN103337241B (zh) 2013-06-09 2013-06-09 一种语音识别方法和装置

Publications (2)

Publication Number Publication Date
CN103337241A true CN103337241A (zh) 2013-10-02
CN103337241B CN103337241B (zh) 2015-06-24

Family

ID=49245384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310231499.2A Active CN103337241B (zh) 2013-06-09 2013-06-09 一种语音识别方法和装置

Country Status (1)

Country Link
CN (1) CN103337241B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810996A (zh) * 2014-02-21 2014-05-21 北京凌声芯语音科技有限公司 待测试语音的处理方法、装置及系统
CN105810191A (zh) * 2016-03-08 2016-07-27 江苏信息职业技术学院 融合韵律信息的汉语方言辨识方法
CN106340295A (zh) * 2015-07-06 2017-01-18 无锡天脉聚源传媒科技有限公司 一种语音识别结果的接受方法及装置
CN103886010B (zh) * 2013-12-25 2017-04-05 科大讯飞股份有限公司 一种关键词语音检索系统及方法
US9626970B2 (en) 2014-12-19 2017-04-18 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
CN107678309A (zh) * 2017-09-01 2018-02-09 科大讯飞股份有限公司 操控句式生成、应用操控方法及装置、存储介质
CN108091334A (zh) * 2016-11-17 2018-05-29 株式会社东芝 识别装置、识别方法以及存储介质
CN109801622A (zh) * 2019-01-31 2019-05-24 杭州嘉楠耘智信息科技有限公司 一种语音识别模板训练方法、语音识别方法及装置
WO2019101083A1 (zh) * 2017-11-24 2019-05-31 腾讯科技(深圳)有限公司 一种语音数据处理方法、语音交互设备及存储介质
CN111754995A (zh) * 2019-03-29 2020-10-09 株式会社东芝 阈值调整装置、阈值调整方法以及记录介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1447278A (zh) * 2002-11-15 2003-10-08 郑方 一种声纹识别方法
CN1509107A (zh) * 2002-12-19 2004-06-30 ƽ 移动终端语音电话本系统
US20050119885A1 (en) * 2003-11-28 2005-06-02 Axelrod Scott E. Speech recognition utilizing multitude of speech features
CN101819772A (zh) * 2010-02-09 2010-09-01 中国船舶重工集团公司第七○九研究所 一种基于语音分段的孤立词识别方法
CN103077708A (zh) * 2012-12-27 2013-05-01 安徽科大讯飞信息科技股份有限公司 一种语音识别系统中拒识能力提升方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1447278A (zh) * 2002-11-15 2003-10-08 郑方 一种声纹识别方法
CN1509107A (zh) * 2002-12-19 2004-06-30 ƽ 移动终端语音电话本系统
US20050119885A1 (en) * 2003-11-28 2005-06-02 Axelrod Scott E. Speech recognition utilizing multitude of speech features
CN101819772A (zh) * 2010-02-09 2010-09-01 中国船舶重工集团公司第七○九研究所 一种基于语音分段的孤立词识别方法
CN103077708A (zh) * 2012-12-27 2013-05-01 安徽科大讯飞信息科技股份有限公司 一种语音识别系统中拒识能力提升方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ENRICO BOCCHIERI等: "Subspace distribution clustering hidden Markov model", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 *
李莹莹等: "一种基于后验概率差值的拒识算法", 《应用声学》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886010B (zh) * 2013-12-25 2017-04-05 科大讯飞股份有限公司 一种关键词语音检索系统及方法
CN103810996B (zh) * 2014-02-21 2016-08-31 北京凌声芯语音科技有限公司 待测试语音的处理方法、装置及系统
CN103810996A (zh) * 2014-02-21 2014-05-21 北京凌声芯语音科技有限公司 待测试语音的处理方法、装置及系统
US9626970B2 (en) 2014-12-19 2017-04-18 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
CN106340295B (zh) * 2015-07-06 2019-10-22 无锡天脉聚源传媒科技有限公司 一种语音识别结果的接受方法及装置
CN106340295A (zh) * 2015-07-06 2017-01-18 无锡天脉聚源传媒科技有限公司 一种语音识别结果的接受方法及装置
CN105810191A (zh) * 2016-03-08 2016-07-27 江苏信息职业技术学院 融合韵律信息的汉语方言辨识方法
CN105810191B (zh) * 2016-03-08 2019-11-29 江苏信息职业技术学院 融合韵律信息的汉语方言辨识方法
CN108091334A (zh) * 2016-11-17 2018-05-29 株式会社东芝 识别装置、识别方法以及存储介质
CN107678309A (zh) * 2017-09-01 2018-02-09 科大讯飞股份有限公司 操控句式生成、应用操控方法及装置、存储介质
CN107678309B (zh) * 2017-09-01 2021-07-06 科大讯飞股份有限公司 操控句式生成、应用操控方法及装置、存储介质
WO2019101083A1 (zh) * 2017-11-24 2019-05-31 腾讯科技(深圳)有限公司 一种语音数据处理方法、语音交互设备及存储介质
US11189263B2 (en) 2017-11-24 2021-11-30 Tencent Technology (Shenzhen) Company Limited Voice data processing method, voice interaction device, and storage medium for binding user identity with user voice model
CN109801622A (zh) * 2019-01-31 2019-05-24 杭州嘉楠耘智信息科技有限公司 一种语音识别模板训练方法、语音识别方法及装置
CN109801622B (zh) * 2019-01-31 2020-12-22 嘉楠明芯(北京)科技有限公司 一种语音识别模板训练方法、语音识别方法及装置
CN111754995A (zh) * 2019-03-29 2020-10-09 株式会社东芝 阈值调整装置、阈值调整方法以及记录介质

Also Published As

Publication number Publication date
CN103337241B (zh) 2015-06-24

Similar Documents

Publication Publication Date Title
CN103337241B (zh) 一种语音识别方法和装置
CN106940998B (zh) 一种设定操作的执行方法及装置
US8972260B2 (en) Speech recognition using multiple language models
CN108694940B (zh) 一种语音识别方法、装置及电子设备
US10777188B2 (en) Time-frequency convolutional neural network with bottleneck architecture for query-by-example processing
US9953637B1 (en) Speech processing using skip lists
CA2486128C (en) System and method for using meta-data dependent language modeling for automatic speech recognition
CN110097870B (zh) 语音处理方法、装置、设备和存储介质
WO2014117645A1 (zh) 信息的识别方法和装置
CN111429912B (zh) 关键词检测方法、系统、移动终端及存储介质
CN110070859B (zh) 一种语音识别方法及装置
CN110675862A (zh) 语料获取方法、电子装置及存储介质
CN103794211B (zh) 一种语音识别方法及系统
Gruenstein et al. A cascade architecture for keyword spotting on mobile devices
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
Huang et al. Speaker adaptation of RNN-BLSTM for speech recognition based on speaker code
WO2022083969A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
WO2021098318A1 (zh) 应答方法、终端及存储介质
CN112233651A (zh) 方言类型的确定方法、装置、设备及存储介质
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
Zhang et al. Improved context-dependent acoustic modeling for continuous Chinese speech recognition
Takeda et al. Node Pruning Based on Entropy of Weights and Node Activity for Small-Footprint Acoustic Model Based on Deep Neural Networks.
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
Chung et al. Unsupervised discovery of structured acoustic tokens with applications to spoken term detection
CN111508481B (zh) 语音唤醒模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100083 Beijing City, Haidian District Zhongguancun Road No. 18 smartfortune International Building, block C room 1501

Patentee after: Yunzhisheng Intelligent Technology Co., Ltd.

Address before: 100083 Beijing City, Haidian District Zhongguancun Road No. 18 smartfortune International Building, block C room 1501

Patentee before: Beijing Yunzhisheng Information Technology Co., Ltd.