CN1300763C - 嵌入式语音识别系统的自动语音识别处理方法 - Google Patents

嵌入式语音识别系统的自动语音识别处理方法 Download PDF

Info

Publication number
CN1300763C
CN1300763C CNB2004100667967A CN200410066796A CN1300763C CN 1300763 C CN1300763 C CN 1300763C CN B2004100667967 A CNB2004100667967 A CN B2004100667967A CN 200410066796 A CN200410066796 A CN 200410066796A CN 1300763 C CN1300763 C CN 1300763C
Authority
CN
China
Prior art keywords
energy
training
template
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100667967A
Other languages
English (en)
Other versions
CN1588535A (zh
Inventor
朱杰
蔡铁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CNB2004100667967A priority Critical patent/CN1300763C/zh
Publication of CN1588535A publication Critical patent/CN1588535A/zh
Application granted granted Critical
Publication of CN1300763C publication Critical patent/CN1300763C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种嵌入式语音识别系统的自动语音识别处理方法。用于智能信息处理技术领域。本发明由前端处理、实时识别、后端处理以及模板训练四个部分组成,采用自适应端点检测技术提取有声段,采用同步方式识别输入语音,应用支持向量机算法实现快速的非命令语音拒识,提高识别的可靠性和实用性,采用多段矢量量化方法训练语音模板,并辅以最小分类错误/泛化概率下降(MCE/GPD)区别性训练,优化语音模板提高识别性能。本发明所用声学模型的存储空间小,有效地提高了系统的识别率,识别率达95%以上,算法压力小,存储空间小,拒识率高于80%。

Description

嵌入式语音识别系统的自动语音识别处理方法
技术领域
本发明涉及一种自动语音识别处理方法,具体是一种嵌入式语音识别系统的自动语音识别处理方法。用于智能信息处理技术领域。
背景技术
语音识别技术的应用可以分为两个发展方向:一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;另外一个重要的发展方向嵌入式语音识别系统,它是小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控、个人数字助理(PDA)的语音交互等方面的应用,这些应用系统大都使用专门的硬件系统实现,如MCU、DSP和语音识别专用芯片。特别是对于移动电话等移动设备,语音输入是最为理想的输入方法,不但可以消除繁琐的键盘输入,而且有利于产品的小型化。对于其中大词汇量连续语音识别系统一般都是基于PC机平台,而嵌入式语音识别系统则一般采用低功耗、低价位的MCU或DSP芯片,其运算速度、存储容量都非常有限。同时,它一般还要求识别是实时的,并具有体积小、可靠性高、耗电省、价钱低等特点。这些应用特点以及资源的有限性是目前嵌入式语音识别系统推向实用的难点,因此在保证一定识别率的前提下其识别计算不能太复杂,识别的词汇量大多是中、小词汇量,即在10~100个命令词之间。
现有的嵌入式语音识别系统有些是特定人语音识别,即需要用户在使用前让系统对所识别的词条先进行学习或训练。这一类识别功能对语种、方言没有限制,识别率很高,但使用前的录音和训练很不方便。有的系统能实现非特定人语音识别,即预先将所要识别的语音模型训练好并装入系统的存储器,用户使用时不需要再进行学习而直接应用。但这一类识别功能只适用于规定的语种和方言,所识别的语句只限于预先已训练好的语句,识别率比特定人系统低,还有待进一步的提高。例如Brad的基于单片机开发的Tiny-Voice系统。这个系统是一个特定说话人的小词汇量识别系统。识别的命令个数为16个。命令的输入为手动按键指示。对输入命令的长度也有要求,为0.2至1.6秒。识别的时间大致在100毫秒之内。硬体计算单元为HC705。价格为5美金左右。TI公司的非特定人小词汇量识别系统。它所采用的是HMM模型的模板。识别15个不同的命令。区别男声和女声。同时还建立了语法层的模型,支持简单语法的输入。应用的场景是电话拨号的语音识别。识别率大于90%。硬体计算单元为TMS320C2x和TMS320C5x。价格较贵,为200美金左右。这些系统的稳健性不高,在低信噪比情况下的性能会急剧变坏,并且识别的命令集很小。
经对现有技术的公开文献检索发现,专利号99123747.1,名称为:“语音命令控制器的训练与识别方法”,该专利提出了一种用于嵌入式系统的语音识别处理方法。它直接应用训练语音压缩形成模板,没有考虑语音命令模板之间的区别性能,影响了识别的效果。它采用基于概率的识别方法,计算复杂,不适合在实时性能要求高的嵌入式系统中应用。同时,它所采用的端点检测方法还需提高对环境的适应能力,对非命令词的拒识过于简单,其性能有待进一步提高。
发明内容
本发明的目的是为克服现有技术的不足,提出一种低价的嵌入式语音识别系统的自动语音识别处理方法,使其用于各种嵌入式应用领域的实时语音识别与控制,有效地提高了系统的识别率,识别率达95%以上,算法压力小,存储空间小,很适合在硬件环境中实时运行。
本发明是通过以下技术方案实现的,本发明由前端处理、实时识别、后端处理以及模板训练四个部分组成,采用自适应端点检测技术提取有声段;采用同步方式识别输入语音;应用支持向量机算法实现快速的非命令语音拒识,提高识别的可靠性和实用性;采用多段矢量量化方法训练语音模板,并辅以MCE/GPD区别性训练,优化语音模板提高识别性能。
以下对本发明进一步的说明:
1.前端处理
由端点检测和特征提取两部分组成,其中端点检测基于自适应能量和语音波形特征,采用语音状态图准确检测出语音的开始与结束。端点检测方法以语音能量状态变迁为基础,包含了一个测定短时能量的前向过程。先用自适应均衡能量的方法估测出语音信号的背景平均能量,在此基础上测定语音能量轮廓,把每个短时语音能量按一定的能量门限值转换为状态值。根据能量的大小和持续时间,将整个语音过程分成六个状态,分别是初始态(0)、静音态(1)、能量上升态(2)、能量持续态(3)、能量下降态(4)和上升下降态(5),其状态变迁的条件取决于转变的条件。最后按能量门限值和能量状态数值序列的逻辑关系进行端点检测。由于考虑了发音时语音波形从开始到结束的整个起伏过程,同时采用自适应能量作为判断的依据,因此端点检测的准确性得到了提高,并对背景噪声具有了一定的自适应能力。
2.实时识别
识别算法采用改进的DTW算法,修改DTW算法中使用的经典权重,限制路径的延展方向接近于对角线。重新定义权重之后,路径的权重之和不再由终点坐标完全确定。在路径延展的权重比较过程当中,必须将权重用路径上的权重之和作均衡,使得权重之和独立于路径长度。同时,考虑到端点检测的不确定性,让路径的起止点是松弛的,改善因端点检测不准确引起的识别误差。通过多次实验,可以选择最优的权重和松弛范围。经过修改的动态时间规整算法,可以进一步提高系统在应用环境下的识别率。
3.后端处理主要包括非命令语音的拒识,这里直接利用识别的计算结果实现拒识功能,计算简单,不影响识别的实时性。其特征在于直接利用语音识别结果中前N个候选词的识别得分,采用支持向量机(Support Vector Machine,SVM)实现快速拒识。算法利用统计学习理论在分类问题上的最大推广能力,在计算量没有增加的情况下进一步提高了性能,优于传统的基于SLP(单层感知器)或MLP(多层感知器)神经网络方法。
4.模板训练采用基于动态规划算法的多段矢量量化(Multi-Section VectorQuantization,MSVQ)方法,先将属于同一类的训练语句按照动态规划算法在时间上分成几段,然后每段中用LBG方法(Linde Y.,Buzo A.,Gray R.,An algorithmfor vector quantizer design,IEEE Transactions on Communications,1980,28(1):84-95.)生成一个标准矢量量化(Vector Quantization,VQ)码本。MSVQ模板包含了训练集中所有说话人的语音特征,并且保留了语音的时序特征,因而代表性强,识别率较高。同时模板具有CDHMM模板的某些特点,且可以大大减小模板的体积,提高识别速度,具有较好的识别效果,适用于资源有限的嵌入式识别系统。在MSVQ模板基础之上,针对识别所采用的DTW识别技术,应用MCE/GPD区别性训练算法从最小误识率(Minimum Classification Error,MCE)的角度提高模板的区分能力,经过区别性训练后,得到更为优化的模板,识别率有明显提高。
本发明基于16位定点DSP TMS320C5402芯片,是一种成本较低的可移植单元,不但可以独立作为功能较简单的声控装置,而且可以方便的应用于各种嵌入式应用领域。与现有的嵌入式语音识别系统相比,本发明所用声学模型的存储空间小,每个只需96×16位,即192字节,有利于扩展命令集容量;模板训练时采用了区别性训练方法,从最小化误识率(MCE)的角度考虑模板的区分能力,而不是尽可能精确的描述训练数据的不同,有效地提高了系统的识别率;识别过程与语音输入同步进行,保证了识别的实时性,识别率达95%以上;前端处理中端点检测算法按能量门限值和能量状态数值序列的逻辑关系进行,算法压力小,存储空间小,很适合在硬件环境中实时运行;后端处理能有效拒识命令集以外的词或发音,而不影响识别的实时性,拒识率高于80%。
附图说明
图1本发明的示意图
图2端点检测算法示意图
图3区别性训练示意图
图4系统硬件结构示意图
具体实施方式
本发明实施例结合各图详细说明如下:
嵌入式语音识别核的结构如图4所示,包括用于计算与控制的DSP单元;用于存放程序与语音识别模板的FlashROM;用于语音输入的A/D转换器与麦克风以及用于译码与输出控制的可编程逻辑器件CPLD。说明:MIC:麦克风,A/D:模数转换器,DSP:数字信号处理器,RAM:随机访问存储器,FlashROM:快闪存储器,CPLD:可编程逻辑器件。
本发明的语音处理过程可分为前端处理、实时识别、后端处理以及模板训练四个部分,结合图1说明如下:
1.前端处理:
(1)通过A/D(模数)转换器对语音信号进行采样,并对采样后的语音进行预加重和加窗分帧处理。其中采样频率为8kHz,采样数据以16位方式保存。
(2)对获得语音数据进行端点检测计算,当检测到语音开始后,进行下述步骤直到检测到语音的结束,否则继续检测语音信号的开始点。根据能量的大小和持续时间,将整个语音过程分成六个状态,分别是初始态(0)、静音态(1)、能量上升态(2)、能量持续态(3)、能量下降态(4)和上升下降态(5)。其状态变迁的条件取决于转变的条件。当发现一帧数据处于“有声态”时,就可以标识声音开始。对后面的帧,系统可以开始做信号处理和识别的过程。对于前面的帧,完全可以丢弃,因为它们都是无用的。当发现语音在“下降态”状态中停留时间达到一定长度的时候,就可以判断语音已经结束了。图2中标识的一些阀值系数是用来调整端点检测性能的。不同的参数设置,将得到不同的端点检测性能。参数说明如下:
E:能量,取一帧能量的以2为底的对数值
L1:能量门限值1,取自适应平均能量+232
L2:能量门限值2,取自适应平均能量+432
Backgroundframe:背景平均能量的统计帧数
Artifact:干扰能量帧数(例如嘴唇摩擦声、重呼吸、牙齿摩擦声都是突起干扰)
WordGap:在两个声音段之间最小间隔帧数
MinWord:最小的声音段帧数
MaxWord:最大的声音段帧数
(3)提取语音信号的特征参数,即提取LPCC特征参数。
2.实时识别:
(1)对上一步得到的语音特征与所有的命令模板进行DTW匹配计算。
(2)保存最匹配的前10个候选命令的DTW结果,并将最匹配的模板作为识别的结果。
3.识别结果的验证
(1)识别结果的验证采用支持向量机(Support Vector Machine,SVM)理论实现:
假定有数据(x1,y1),…,(xM,yM),其中xi∈R″,i=1,2,…,M是d维训练样本,yi∈{+1,-1},i=1,2,…,M表明该向量所属两类中的一类。则能区分两类数据的支持向量机能通过以下问题的求解获得
Maxmize W ( α ) = Σ i = 1 M α i - 1 2 Σ i , j M α i α j y i y j x i · x j
s . t . Σ i = 1 M α i y i = 0 . . . ( 1 )
0≤αi≤C    i=1,...,M
其中C>0是控制惩罚程度的常数。每一个拉格朗日乘数αi对应一个训练样本xi,对应的αi>0的训练样本就被称为“支持向量”。则最后得到的支持向量机分类函数为
f ( x ) = sgn ( w · x + b ) = sgn ( Σ i = 1 M α i y i x i · x + b ) . . . ( 2 )
(2)根据每次识别的结果,设q1,q2,…,q10为前10个候选词的识别得分,按从小到大的顺序排列。则其归一化识别得分为:
d i = q i Σ i = 1 N | q i | , i = 1 , · · · , 10 . . . ( 3 )
相应的归一化一阶差分为:
d i = | q i - q i + 1 | Σ i = 1 N - 1 | q i - q i + 1 | , i = 1 , · · · , 9 . . . ( 4 )
将它们组成的特征向量{d1,…,d10,d1′,…,d9′}作为支持向量机(SVM)的输入,计算支持向量机分类函数的结果y=fSVM(x)。
(3)利用支持向量机输出的分类函数结果y=fSVM(x)∈[-1,1],根据其符号判断当前识别结果所属的类(命令与非命令两类),从而快速判断出识别结果是否为命令词,并对不属于命令词的语音进行拒识。其中SVM在识别前由训练集得到,训练集中的数据按上述方法获得。
4.模板训练
(1)采用多段矢量量化(Multi-Section Vector Quantization,MSVQ)方法训练初始模板。设帧长为T语音信号由一个特征矢量序列来表示:X={x1,x2,…,xT},MSVQ按时间先后顺序将语句均匀分段,然后根据得到的分段信息对每一段分别采用LBG方法生成一个标准VQ码本,这里本发明取该段所有矢量的均值(质心)作为该段码本。
(2)结合MSVQ码本,采用基于DTW识别的泛化概率下降(GeneralizedProbabilistic Descent,6PD)区别性训练算法(MCE/GPD)对模板进行再训练,训练流程如图3所示。
给定一个训练语句集={x1,x2,…,xN},其中xi属于M个词Ci,i=1,2,…,M中的一个。 x i = { x p , s i , p = 1,2 , · · · , P i , s = 1,2 , · · · , S } 是由Pi个帧组成,每帧为S维语音特征矢量,通常由倒谱系数组成。每个命令词由一个参考模板代表。参考模板集Λ={λi={(Ri,Wi)},i=1,2,…,M}其中 R i = { r q , s i , q = 1,2 , · · · , Q i , s = 1,2 , · · · , S } 是倒谱系数序列, W i = { w q i , q = 1,2 , · · · , Q i } 是区别权重函数用来修正模板的距离分值。本发明的目标是,依据6PD算法,对参考模板集A基于训练集进行区别性训练,使得识别错误率达到最小。
(2.1)定义训练语句x与词Cj的参考模板rj之间的距离做为区别函数:
g j ( x , Λ ) = Σ q = 1 Q w q j δ p q j . . . ( 5 )
其中wi q是词Cj的参考模板的区别权重。δj pq是经DTW匹配后得到的最佳路径中,词Cj的参考模板的第q个帧和x中相对应的pq帧之间的距离。这里采用欧式距离:
δ p q j = Σ s = 1 S ( r q , s j - x p q , s ) 2 . . . ( 6 )
通过以上的定义可以得到一个连续的可对其进行梯度操作的区别函数gk(x;Λ)。
(2.2)定义误分类测度,将识别结果嵌入其中
d k ( x ) = g k ( x ; Λ ) - ln { 1 M - 1 Σ j , j ≠ k e - g j ( x ; Λ ) η } - 1 / η . . . ( 7 )
其中η是一个正实数。
(2.3)成本函数如下定义:
l k ( d k ) = 1 1 + e - d k . . . ( 8 )
它可以正确地近似于识别错误率。
(2.4)用GPD算法自适应地调整参考模板参数,从而使成本函数达到最小。
给定一个属于词Ck的训练语句x,参考模板参数的调整规则如下:
j=k时, r q , s , t + 1 k = r q , s , t k - ϵ t v k φ k w q , t + 1 k = w q , t k - ϵ t v k δ p q k . . . ( 9 )
j≠k时, r q , s , t + 1 j = r q , s , t j + ϵ t v k π j , k φ j w q , t + 1 j = w q , t j - ϵ t v k π j , k δ p q j . . . ( 10 )
其中
vk=lk(dk)(1-lk(dk))                       (11)
φ k = 2 w q k ( r q , s k - x p q , s ) . . . ( 12 )
π j , k = e - g j η Σ j ′ , j ′ ≠ k e - g j · η . . . ( 13 )
ϵ t = ϵ 0 ( 1 - t T ) . . . ( 14 )
t表示第t次迭代,T是最大迭代次数,ε0是一个较小的正数。一般经过几十次迭代就可得到收敛值。通过梯度下降方法实现最小化分类错误率的区别性训练,可以获得优化后的命令模板。

Claims (4)

1、一种嵌入式语音识别系统的自动语音识别处理方法,其特征在于,由前端处理、实时识别、后端处理以及模板训练四个部分组成,采用自适应端点检测技术提取有声段,采用同步方式识别输入语音,应用支持向量机算法实现快速的非命令语音拒识,提高识别的可靠性和实用性,采用多段矢量量化方法训练语音模板,并辅以最小分类错误/泛化概率下降区别性训练,优化语音模板提高识别性能,其中模板训练的具体过程如下:
模板训练采用基于动态规划算法的多段矢量量化方法,先将属于同一类的训练语句按照动态规划算法在时间上分成几段,然后每段中用LBG方法生成一个标准矢量量化码本,多段矢量量化模板包含了训练集中所有说话人的语音特征,并且保留了语音的时序特征,在多段矢量量化模板基础之上,针对识别所采用的动态时间弯折识别技术,应用最小分类错误/泛化概率下降区别性训练算法从最小误识率的角度提高模板的区分能力,经过区别性训练后,得到更为优化的模板。
2、如权利要求1所述的嵌入式语音识别系统的自动语音识别处理方法,其特征是,所述的前端处理,具体如下:
由端点检测和特征提取两部分组成,其中端点检测基于自适应能量和语音波形特征,采用语音状态图准确检测出语音的开始与结束,端点检测方法以语音能量状态变迁为基础,包含了一个测定短时能量的前向过程,先用自适应均衡能量的方法估测出语音信号的背景平均能量,在此基础上测定语音能量轮廓,把每个短时语音能量按一定的能量门限值转换为状态值,根据能量的大小和持续时间,将整个语音过程分成六个状态,分别是初始态、静音态、能量上升态、能量持续态、能量下降态和上升下降态,最后按能量门限值和能量状态数值序列的逻辑关系进行端点检测。
3、如权利要求1所述的嵌入式语音识别系统的自动语音识别处理方法,其特征是,所述的实时识别,具体如下:
识别算法采用改进的动态时间弯折算法,修改动态时间弯折算法中使用的经典权重,限制路径的延展方向接近于对角线,重新定义权重之后,在路径延展的权重比较过程当中,必须将权重用路径上的权重之和作均衡,使得权重之和独立于路径长度,同时,考虑到端点检测的稳定性差,让路径的起止点是松弛的,改善因端点检测稳定性差引起的识别误差。
4、如权利要求1所述的嵌入式语音识别系统的自动语音识别处理方法,其特征是,所述的后端处理,具体如下:
包括非命令语音的拒识,直接利用语音识别结果中前N个候选词的识别得分,采用支持向量机实现快速拒识。
CNB2004100667967A 2004-09-29 2004-09-29 嵌入式语音识别系统的自动语音识别处理方法 Expired - Fee Related CN1300763C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100667967A CN1300763C (zh) 2004-09-29 2004-09-29 嵌入式语音识别系统的自动语音识别处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100667967A CN1300763C (zh) 2004-09-29 2004-09-29 嵌入式语音识别系统的自动语音识别处理方法

Publications (2)

Publication Number Publication Date
CN1588535A CN1588535A (zh) 2005-03-02
CN1300763C true CN1300763C (zh) 2007-02-14

Family

ID=34604097

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100667967A Expired - Fee Related CN1300763C (zh) 2004-09-29 2004-09-29 嵌入式语音识别系统的自动语音识别处理方法

Country Status (1)

Country Link
CN (1) CN1300763C (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339765B (zh) * 2007-07-04 2011-04-13 黎自奋 一种国语单音辨认方法
CN101267362B (zh) * 2008-05-16 2010-11-17 亿阳信通股份有限公司 一种性能指标值正常波动范围的动态确定方法及其装置
CN101894548B (zh) * 2010-06-23 2012-07-04 清华大学 一种用于语种识别的建模方法及装置
CN102810311B (zh) * 2011-06-01 2014-12-03 株式会社理光 说话人估计方法和说话人估计设备
CN102543075A (zh) * 2012-01-12 2012-07-04 东北石油大学 基于虚拟仪器技术的说话人vq-svm并行识别系统
CN103971685B (zh) 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
CN105489222B (zh) 2015-12-11 2018-03-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
JP6585022B2 (ja) * 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム
DE102017101782A1 (de) * 2017-01-30 2018-08-02 Aktormed Gmbh Operations-Assistenz-System und Verfahren zur Erzeugung von Steuersignalen zur Sprachsteuerung einer motorisch gesteuert bewegbaren Roboterkinematik eines derartigen Operations-Assistenz-Systems
CN107799126B (zh) * 2017-10-16 2020-10-16 苏州狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN108281147A (zh) * 2018-03-31 2018-07-13 南京火零信息科技有限公司 基于lpcc和adtw的声纹识别系统
CN110136749B (zh) * 2019-06-14 2022-08-16 思必驰科技股份有限公司 说话人相关的端到端语音端点检测方法和装置
CN112259101B (zh) * 2020-10-19 2022-09-23 腾讯科技(深圳)有限公司 语音关键词识别方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5613037A (en) * 1993-12-21 1997-03-18 Lucent Technologies Inc. Rejection of non-digit strings for connected digit speech recognition
CN1256460A (zh) * 1999-11-19 2000-06-14 清华大学 语音命令控制器
CN1264887A (zh) * 2000-03-31 2000-08-30 清华大学 基于语音识别专用芯片的非特定人语音识别、语音提示方法
JP2004264719A (ja) * 2003-03-04 2004-09-24 Advanced Telecommunication Research Institute International 音声認識装置、及びコンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5613037A (en) * 1993-12-21 1997-03-18 Lucent Technologies Inc. Rejection of non-digit strings for connected digit speech recognition
CN1256460A (zh) * 1999-11-19 2000-06-14 清华大学 语音命令控制器
CN1264887A (zh) * 2000-03-31 2000-08-30 清华大学 基于语音识别专用芯片的非特定人语音识别、语音提示方法
JP2004264719A (ja) * 2003-03-04 2004-09-24 Advanced Telecommunication Research Institute International 音声認識装置、及びコンピュータプログラム

Also Published As

Publication number Publication date
CN1588535A (zh) 2005-03-02

Similar Documents

Publication Publication Date Title
López-Espejo et al. Deep spoken keyword spotting: An overview
Cai et al. A novel learnable dictionary encoding layer for end-to-end language identification
CN110364143B (zh) 语音唤醒方法、装置及其智能电子设备
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN103065629A (zh) 一种仿人机器人的语音识别系统
CN101944359B (zh) 一种面向特定人群的语音识别方法
Chavan et al. An overview of speech recognition using HMM
CA2190631C (en) Method of training neural networks used for speech recognition
CN1300763C (zh) 嵌入式语音识别系统的自动语音识别处理方法
US5594834A (en) Method and system for recognizing a boundary between sounds in continuous speech
CN101030369A (zh) 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN1141696C (zh) 基于语音识别专用芯片的非特定人语音识别、语音提示方法
CN111461173A (zh) 一种基于注意力机制的多说话人聚类系统及方法
CN1160450A (zh) 从连续语音中识别讲话声音的系统及其应用方法
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN1300049A (zh) 汉语普通话话音识别的方法和设备
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
Benelli et al. A low power keyword spotting algorithm for memory constrained embedded systems
US12087280B2 (en) System and method for robust wakeword detection in presence of noise in new unseen environments without additional data
JPH09507921A (ja) ニューラルネットワークを使用した音声認識システムおよびその使用方法
CN113611285A (zh) 基于层叠双向时序池化的语种识别方法
CN1296887C (zh) 用于嵌入式自动语音识别系统的训练方法
Espi et al. Spectrogram patch based acoustic event detection and classification in speech overlapping conditions
CN116386633A (zh) 一种适用于噪声条件下的智能终端设备控制方法及系统
CN115331658B (zh) 一种语音识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070214

Termination date: 20091029