CN101320560A - 语音识别系统应用采样速率转化提高识别率的方法 - Google Patents
语音识别系统应用采样速率转化提高识别率的方法 Download PDFInfo
- Publication number
- CN101320560A CN101320560A CNA2008100400136A CN200810040013A CN101320560A CN 101320560 A CN101320560 A CN 101320560A CN A2008100400136 A CNA2008100400136 A CN A2008100400136A CN 200810040013 A CN200810040013 A CN 200810040013A CN 101320560 A CN101320560 A CN 101320560A
- Authority
- CN
- China
- Prior art keywords
- sampling rate
- voice
- sampling
- speech
- rate conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
涉及一种语音识别系统应用采样速率转化提高识别率的方法。本方法提出对识别前的语音的采样速率进行采样速率归一化,使测试语音与训练时语音采样速率一致,减少采样速率不一致导致的误识率。并针对分数采样率转换提出一种新的采样率转换结构,与现有方法不同的是,它能完整的保留原始频谱,避免采样率转换时频谱高频部分的丢失。因此利用它来改善大词汇量的孤立词识别系统中采样速率不一致而导致的误识率是非常有效的。
Description
技术领域
本发明涉及一种语音识别系统提高识别率的方法,特别是一种语音识别系统采用速率转化提高识别率的方法。
背景技术
一个完整的语音识别系统通常分为两个阶段:训练阶段和识别阶段。在训练阶段,对大量的语音提取特征参数并进行相应的处理,获得表示识别基本单元共性特点的标准数据,以此构成参考模型,将所有能识别的基本单元的参考模型结合在一起,形成参考模型库;在识别阶段,将待识别的语音经特征提取后逐一与参考模型库中的各个模板按某种原则进行比较,找出最相似的参考模型所对应的发音,即为识别结果。
小词汇量的孤立词语音识别系统常将词或短语作为一个基本的语音单元,这对于简化识别系统的结构和训练过程是非常有效的。但当需要添加新的词汇时,就必须对这个词进行重新训练。另外以词为基本单元的训练,词内的各音素重复出现,造成大量不必要的冗余存储和计算,因此在大词汇量的孤立词识别系统中[1],常采用比词小的子词识别基元,如音素。一般来说,声学单元越小,其数量就越少,训练的工作量也就越小,但是,单元越小,对于上下文的敏感性越大,越容易受到前后相邻的影响而产生变异,因此其类型的设计和训练样本的采集更困难。由子词单元构成的声学模型库,可用一部字典来规定词表中的每个词是用哪些子词单元以何种方式构成,通过添加和删除识别词表,就能将语音识别系统方便地应用于不同的领域。
从上可知,要得到一个稳定通用的声学模型库通常需要花费大量时间进行样本的采集和训练。但是识别时语音的采样速率与训练阶段采用的语音的采样速率并不一定是一致的,因为训练时采用的语音采样率已经固定(本文中训练采用的语音采样率为12kHz),而识别时的语音采样率是可变的。比如电话语音的采样率通常为8kHz,CD采用的采样速率一般为22.025kHz或44.1kHz,如果采用与训练时不一致采样率的语音来进行语音识别实验,通过实验分析,识别率会大大降低。导致这个问题的原因是有两个:
1)参数问题:无论是训练还是测试,都必须对语音信号进行预处理,并提取频域参数[2](MFCC参数),当训练与测试语音的采样率不相同时,对于同样阶次的MFCC参数的提取,必然出现训练与测试MFCC参数的Mel滤波器组的中心频率有很大的不同,因此导致匹配不准确。
2)频谱问题:观察同一语音在采样率为8kHz和采样率12kHz的频谱,发现前者与后者相比丢失了2kHz的高频信息,这部分信息的缺失对识别率也有很大的影响。
因此如何对识别前的语音的采样速率进行采样速率归一化,使之与训练时语音采样速率一致,减少采样速率不一致导致的误识率是本发明的重点。
发明内容
本发明的目的在于针对已有技术存在的缺陷,提供一种语音识别系统应用采样速率转化提高识别率的方法。本方法是对识别的语音的采样速率进行归一化,使之与训练时语音采样速率一致,减少因为采样速率不一致导致的误识率。本发明原始训练的语音采样速率为12KHz,现采用电话中采集的语音作为识别语音,其采样速率为8KHz。为了尽可能地利用已训练好的语音声学库,避免重新训练带来的资源和时间的浪费,本发明采用了采样速率转换,并提出一种新的高效转换结构,并将它应用于大词汇量孤立词语音识别系统。通过实验证明这种方法对识别率的提高是非常有效的。
为达到上述的目的,本发明的构思是:如图1所示,对于输入语音,首先提取并查看其采样速率是否与训练时语音采样速率一致,如果不一致,就经过一个采样速率转换模块将其采样速率进行归一化处理,使之与训练时一致。
上述构思的原理是:从上分析可知,本发明需要实现的采样速率转换为一个分数倍(3/2)的抽样率转换。比值为3/2倍采样率转换的过程如图2所示,从时域来看,抽样率转换是按下述方法进行的。先对x(n1T1)进行3倍零值内插,即相邻抽样点之间等间距地插补上2个0值点,变为v(rT3),v(rT3)经过一个通带边缘频率较低的一个滤波器h(rT3)变成u(rT3),对u(rT3)进行2倍抽取得到y(n2T2)。y(n2T2)就是所需要的结果。其中波器常采用FIR滤波器,它有两方面优势,一,它是绝对稳定的并且有很容易做成线性相位的优点,另外它容易实现时变网络的高效结构。
直接结构是先对信号进行上采样,然后再抽取,容易看出这种分解方法并不是最有效的,因为滤波器的乘法运算仍然是在采样频率最高的地方进行的,这样使得每秒钟的乘法次数很高,而且滤波器后的抽取过程只会保留一部分点的数据,这样造成许多计算工作量是徒劳的。利用原始框图直接实现并不是一个好的方案,从图2可以看出,这个系统的主要运算集中在滤波器的实现部分,实际运用到识别系统时,滤波器的运算是在最高采样率24kHz实现的,另外经过滤波器运算的部分值在进行抽取时将被丢弃,因此直接实现存在很多的资源浪费。为了减少计算量,常采用多相结构或时变网络高效结构对系统进行简化[3][4]。
比值为3/2倍采样率转换器的时变网络如图3(a)所示。
其中选择器S0,S1,...SQ只有当时才同时开通。由于中含有随着n2的不同,具有0,1,2三个不同的数值,即将分为三组,每组个数为Q,求不同的y(n2T2)所用到的滤波器系数按组别循环出现,所以整个系统是一个周期时变的系统,它包括了零值内插、滤波和抽取。滤波运算在输出抽样率下(12kHz)进行,因此是一个高效的系统,运算中使用的h[·]最少,这是分数倍抽样率转换系统的最经济的实现方法之一。时变网络结构的具体实现如图3(b)所示,整个设计由五个单元构成:系数地址产生单元,系数存储和缓冲单元,输入数据缓冲单元,运算单元及输出数据缓冲单元。系数地址产生单元由一个最大计数为N-1的计数器构成,循环产生系数地址0到N-1;系数存储和缓冲单元用于存储滤波器系数,并按系数地址将滤波器系数顺序读出,再通过Q=N/2级缓存,将一路系数输出转换为Q路系数输出,滤波器系数在存储器中每Q个组,按顺序存放;输入数据缓冲单元通过Q级缓存,完成一路信号输入到Q路信号输出的转换;运算单元完成Q路滤波器系数与Q路输入数据的乘法运算,并将乘积累加;输出数据缓冲单元将运算单元的乘加结果进行缓冲,以得到输出数据。
对采样率转换器转换效果的检验一般从两方面进行,一方面是计算量的大小,对于实时语音识别系统,除了高识别率以外,如何快速得到识别结果也是系统实施时必须考虑的关键问题;另一方面是转换前后的频谱效果的分析,这一部分反映了采样率转换器中的滤波器是否能符合设计对语音频谱的需求。一般来说,要得到理想的频谱滤波效果,计算量必然相应增加,反之亦然。
为了检验采样速率的转换效果,对转换前后的语音进行频谱分析,输入采样率为8kHz的白噪声,经过采样率转换后得到12kHz的噪声信号,分析其频谱结构,如图4(a)所示:
从图4(a)可以看出,在4kHz频谱衰减非常快,但是在3.6kHz~4kHz有一个过渡带,这个过渡带导致3.6kHz~4kHz高频信息存在不同程度的衰减,理想的频谱响应应不存在过渡带,但是这种矩形滤波在现实中是无法实现的,因为滤波器的阶数与过渡带是成反比的,过渡带越大,滤波器阶数就越少,实现起来就越容易,反之依然。为了解决这个问题,本发明提出一种新的多级滤波的结构。
两级采样率转换结构采用两级滤波,其实现框图如图5所示。第一级采用时变网络结构对采样速率进行转换,滤波器采用不影响原始信号情况下的最宽的过渡带(过渡带为2kHz),滤波时在高频不管带处引入混叠失真;第二级滤波器在频域实现高阶,窄过渡带的高效滤波,综合两者实现近乎理想的滤波效果。其频谱响应如图4(b)所示。
分析以上三种结构的计算量,从整个采样速率转换过程分析,采样速率转换的计算量主要集中在滤波器的实现上,表1给出了直接结构,时变网络结构以及二级滤波结构的运算量比较。其中需要的运算量定义为每秒需要的乘法数量(定义为滤波器阶数*滤波器工作频率[5])。
这里主要对二级滤波计算量进行详细分析,由于第一级滤波器选择的过渡带很宽,所以滤波器阶数为22阶,第一级实现采样速率转换,采用时变网络结构。第二级滤波器采用16384阶频域滤波器实现100Hz过渡带的滤波。从上分析可知,第一阶滤波器输出的信号的采样率已经被转换为12kHz,但是在“不管带”引入了噪声(不管带即原始语音频率带外的频段,这里为4kHz~6kHz频段)。第二级滤波器实现噪声的滤除,由于只需要进行滤波,所以可以转换到频域进行,减少高阶时域滤波的计算量。
表1运算量比较
滤波器阶数 | 每秒乘法次数(Mps) | |
直接结构 | 73 | 1752000 |
时变网络结构 | 73 | 876000 |
二级结构 | 22+16384 | 822912 |
从表1中,容易看出,时变网络结构的运算量比直接结构少一半,在时间节约一半,容易实现实时处理。而本文提出的二级结构,经计算得出第一级滤波器每秒乘法数目为528000,第二级滤波器每秒乘法数目为294912,二级滤波结构总的计算量为822912。这种方法计算量小于一级时变网络结构,同上输入采样率为8kHz的噪声,分析转换后的噪声频谱,如图4(b),其效果近乎于理想情况。
根据上述的发明构思及原理,本发明采用下述技术方案:
一种语音识别系统应用采样速率转化提高识别率的方法,其特征在于对识别前的语音的采样速率进行采样速率归一化,使测试语音与训练时语音采样速率一致,减少采样速率不一致导致的误识率;并针对分数采样率转换提出一种采样率转换结构,能完整的保留原始频谱,避免采样率转换时频谱高频部分的丢失;因此利用它来有效改善大词汇量的孤立词识别系统中采样速率不一致而导致的误识率;其具体操作步骤是:
1)对输入进来的语音,首先进行采样速率判断,看是否需要进行采样速率转换;
2)对需要进行采样速率转换的语音进行采样速率转换;
3)对归一化后的语音进行MFCC参数提取;
4)将语音参数送入识别模块,进行语音识别;
5)最后根据得分高低得到识别结果。
上述步骤2)中的采样速率转换的实施步骤如下:
根据权利要求1所述的语音识别系统应用采样速率转化提高识别率的方法,其特征在于步骤2)中的采样速率转换的实施步骤如下:
(1)利用时变网络结构实现分数倍采样速率转换,在不管带引入大量噪声;
(2)对变换后的语音进行傅立叶变换,转换到频域,同时计算第二级滤波器的系数,也进行傅立叶变换,得到频域系数;
(3)对采样速率转换后的语音在频域进行滤波处理;
(4)最后得到转换后的语音。
上述步骤(1)中的利用时变网络结构实现分数倍采样速率转换的具体步骤如下:
①输入数据x(n1T1)经过输入数据缓冲单元后,产生计算一个输出所需要的Q路数据,并将它们送入运算单元;
②同时,Q路滤波器系数也进入运算单元,与Q路输入数据进行相应的乘加运算;
③乘加的结果经过数据缓冲单元后得到输出y(n2T2)。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:
本发明对识别前的语音的采样速率进行采样速率归一化,使测试语音与训练时语音采样速率一致,减少采样速率不一致导致的误识率。并针对分数采样率转换提出一种新的采样率转换结构,与现有方法不同的是,它能完整的保留原始频谱,避免采样率转换时频谱高频部分的丢失。因此利用它来改善大词汇量的孤立词识别系统中采样速率不一致而导致的误识率是非常有效的。
附图说明
图1是本发明的采样速率转换在语音识别系统中的应用的整体结构框图。
图2是直接结构采样速率转换的框图。
图3是时变网络结构的采样速率转换的网络结构及实现框图。
图4是时变网络结构及二级滤波结构频谱分析图。
图5是本发明提出的两级滤波的采样速率转换结构框图。
具体实施方式
本发明的一个实施例结合附图详述如下:
参见图1,本语音识别系统应用采样速率转化提高识别率的方法具体操作步骤是:
1)对输入进来的语音,首先进行采样速率判断,看是否需要进行采样速率转换;
2)对需要进行采样速率转换的语音进行采样速率转换;
3)对归一化后的语音进行MFCC参数提取;
4)将语音参数送入识别模块,进行语音识别;
5)最后根据得分高低得到识别结果。
上述步骤2)中的采样速率转换的实施步骤如下,参见图5:
(1)利用时变网络结构实现分数倍采样速率转换,在不管带引入大量噪声;
(2)对变换后的语音进行傅立叶变换,转换到频域,同时计算第二级滤波器的系数,也进行傅立叶变换,得到频域系数;
(3)对采样速率转换后的语音在频域进行滤波处理;
(4)最后得到转换后的语音。
上述步骤(1)中的利用时变网络结构实现分数倍采样速率转换的具体步骤:参见图3。
①输入数据x(n1T1)经过输入数据缓冲单元后,产生计算一个输出所需要的Q路数据,并将它们送入运算单元;
②同时,Q路滤波器系数也进入运算单元,与Q路输入数据进行相应的乘加运算;
③乘加的结果经过数据缓冲单元后得到输出y(n2T2)。
下面给出采样率转换的应用效果:
对于已有的孤立词基线识别系统:
1)训练条件:采样率为12kHz的语音,提取MFCC参数;
2)模型:基于隐马尔可夫(HMM)的音素模型;
3)词典:根据音素和发音词典可随意添加孤立词,实验采用的词典中词的数目为300。
识别语音分别为采样率为12kHz的语音,采样率为8kHz的语音,经过采样率转换转换的采样率为12kHz的语音,分别将这些语音输入基线识别系统进行测试测试结果如表2所示:
表2不同测试人的测试结果
从上表可以看出,经过采样率转换的语音识别率比直接采用8kHz的语音的识别率大有提高,测试者1比转换前提高7.8%,而且识别率比原始12kHz的语音的识别率也高出7.2%。测试者1比转换前提高28%,而且识别率比原始12kHz的语音的识别率高出2%。对于不同人,由于口音清晰度不一致,所以导致对有些人的识别率提高的非常显著,但整体来讲,采样率转换对解决训练,识别采样率不一致造成的语音识别率下降是非常有用的。
Claims (3)
1.一种语音识别系统应用采样速率转化提高识别率的方法,其特征在于对识别前的语音的采样速率进行采样速率归一化,使测试语音与训练时语音采样速率一致,减少采样速率不一致导致的误识率;并针对分数采样率转换提出一种采样率转换结构,能完整的保留原始频谱,避免采样率转换时频谱高频部分的丢失;因此利用它来有效改善大词汇量的孤立词识别系统中采样速率不一致而导致的误识率;
其具体操作步骤是:
a.对输入进来的语音,首先进行采样速率判断,看是否需要进行采样速率转换;
b.对需要进行采样速率转换的语音进行采样速率转换;
c.对归一化后的语音进行MFCC参数提取;
d.将语音参数送入识别模块,进行语音识别;
e.最后根据得分高低得到识别结果。
2.根据权利要求1所述的语音识别系统应用采样速率转化提高识别率的方法,其特征在于步骤2)中的采样速率转换的实施步骤如下:
a.利用时变网络结构实现分数倍采样速率转换,在不管带引入大量噪声;
b.对变换后的语音进行傅立叶变换,转换到频域,同时计算第二级滤波器的系数,也进行傅立叶变换,得到频域系数;
c.对采样速率转换后的语音在频域进行滤波处理;
d.最后得到转换后的语音。
3.根据权利要求2所述的语音识别系统应用采样速率转化提高识别率的方法,其特征在于步骤(1)中的时变网络结构实现分数倍采样速率转换的具体步骤如下:
a.输入数据x(n1T1)经过输入数据缓冲单元后,产生计算一个输出所需要的Q路数据,并将它们送入运算单元;
b.同时,Q路滤波器系数也进入运算单元,与Q路输入数据进行相应的乘加运算;
c.乘加的结果经过数据缓冲单元后得到输出y(n2T2)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100400136A CN101320560A (zh) | 2008-07-01 | 2008-07-01 | 语音识别系统应用采样速率转化提高识别率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100400136A CN101320560A (zh) | 2008-07-01 | 2008-07-01 | 语音识别系统应用采样速率转化提高识别率的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101320560A true CN101320560A (zh) | 2008-12-10 |
Family
ID=40180574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008100400136A Pending CN101320560A (zh) | 2008-07-01 | 2008-07-01 | 语音识别系统应用采样速率转化提高识别率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101320560A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101650886B (zh) * | 2008-12-26 | 2011-05-18 | 中国科学院声学研究所 | 一种自动检测语言学习者朗读错误的方法 |
CN103578463A (zh) * | 2012-07-27 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 自动化测试方法及测试装置 |
CN104038804A (zh) * | 2013-03-05 | 2014-09-10 | 三星电子(中国)研发中心 | 基于语音识别的字幕同步装置和方法 |
US20150371634A1 (en) * | 2014-06-18 | 2015-12-24 | Electronics And Telecommunications Research Institute | Terminal and server of speaker-adaptation speech-recognition system and method for operating the system |
CN105513590A (zh) * | 2015-11-23 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别的方法和装置 |
CN105931637A (zh) * | 2016-04-01 | 2016-09-07 | 金陵科技学院 | 一种可自定义指令识别的语音拍照系统 |
CN107134277A (zh) * | 2017-06-15 | 2017-09-05 | 深圳市潮流网络技术有限公司 | 一种基于gmm模型的语音激活检测方法 |
CN107358956A (zh) * | 2017-07-03 | 2017-11-17 | 中科深波科技(杭州)有限公司 | 一种语音控制方法及其控制模组 |
CN108281149A (zh) * | 2017-12-29 | 2018-07-13 | 芯原微电子(北京)有限公司 | 一种基于加Blackman窗的FIR滤波器的音频采样率转换方法及系统 |
WO2018153214A1 (zh) * | 2017-02-27 | 2018-08-30 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
CN108632852A (zh) * | 2017-03-23 | 2018-10-09 | 上海大唐移动通信设备有限公司 | 一种语音质量的确定方法和装置 |
CN109801642A (zh) * | 2018-12-18 | 2019-05-24 | 百度在线网络技术(北京)有限公司 | 降采样方法及装置 |
CN111354365A (zh) * | 2020-03-10 | 2020-06-30 | 苏宁云计算有限公司 | 一种纯语音数据采样率识别方法、装置、系统 |
CN112599148A (zh) * | 2020-12-31 | 2021-04-02 | 北京声智科技有限公司 | 一种语音识别方法及装置 |
CN114420100A (zh) * | 2022-03-30 | 2022-04-29 | 中国科学院自动化研究所 | 语音检测方法及装置、电子设备及存储介质 |
-
2008
- 2008-07-01 CN CNA2008100400136A patent/CN101320560A/zh active Pending
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101650886B (zh) * | 2008-12-26 | 2011-05-18 | 中国科学院声学研究所 | 一种自动检测语言学习者朗读错误的方法 |
CN103578463B (zh) * | 2012-07-27 | 2017-12-01 | 腾讯科技(深圳)有限公司 | 自动化测试方法及测试装置 |
CN103578463A (zh) * | 2012-07-27 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 自动化测试方法及测试装置 |
CN104038804A (zh) * | 2013-03-05 | 2014-09-10 | 三星电子(中国)研发中心 | 基于语音识别的字幕同步装置和方法 |
CN104038804B (zh) * | 2013-03-05 | 2017-09-29 | 三星电子(中国)研发中心 | 基于语音识别的字幕同步装置和方法 |
US20150371634A1 (en) * | 2014-06-18 | 2015-12-24 | Electronics And Telecommunications Research Institute | Terminal and server of speaker-adaptation speech-recognition system and method for operating the system |
US9530403B2 (en) * | 2014-06-18 | 2016-12-27 | Electronics And Telecommunications Research Institute | Terminal and server of speaker-adaptation speech-recognition system and method for operating the system |
CN105513590A (zh) * | 2015-11-23 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别的方法和装置 |
CN105931637A (zh) * | 2016-04-01 | 2016-09-07 | 金陵科技学院 | 一种可自定义指令识别的语音拍照系统 |
WO2018153214A1 (zh) * | 2017-02-27 | 2018-08-30 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
US11120789B2 (en) | 2017-02-27 | 2021-09-14 | Yutou Technology (Hangzhou) Co., Ltd. | Training method of hybrid frequency acoustic recognition model, and speech recognition method |
CN108632852A (zh) * | 2017-03-23 | 2018-10-09 | 上海大唐移动通信设备有限公司 | 一种语音质量的确定方法和装置 |
CN107134277A (zh) * | 2017-06-15 | 2017-09-05 | 深圳市潮流网络技术有限公司 | 一种基于gmm模型的语音激活检测方法 |
CN107358956A (zh) * | 2017-07-03 | 2017-11-17 | 中科深波科技(杭州)有限公司 | 一种语音控制方法及其控制模组 |
CN107358956B (zh) * | 2017-07-03 | 2020-12-29 | 中科深波科技(杭州)有限公司 | 一种语音控制方法及其控制模组 |
CN108281149B (zh) * | 2017-12-29 | 2021-08-27 | 芯原微电子(北京)有限公司 | 一种基于加Blackman窗的FIR滤波器的音频采样率转换方法及系统 |
CN108281149A (zh) * | 2017-12-29 | 2018-07-13 | 芯原微电子(北京)有限公司 | 一种基于加Blackman窗的FIR滤波器的音频采样率转换方法及系统 |
CN109801642A (zh) * | 2018-12-18 | 2019-05-24 | 百度在线网络技术(北京)有限公司 | 降采样方法及装置 |
CN111354365A (zh) * | 2020-03-10 | 2020-06-30 | 苏宁云计算有限公司 | 一种纯语音数据采样率识别方法、装置、系统 |
WO2021179470A1 (zh) * | 2020-03-10 | 2021-09-16 | 苏宁易购集团股份有限公司 | 一种纯语音数据采样率识别方法、装置、系统 |
CN111354365B (zh) * | 2020-03-10 | 2023-10-31 | 苏宁云计算有限公司 | 一种纯语音数据采样率识别方法、装置、系统 |
CN112599148A (zh) * | 2020-12-31 | 2021-04-02 | 北京声智科技有限公司 | 一种语音识别方法及装置 |
CN114420100A (zh) * | 2022-03-30 | 2022-04-29 | 中国科学院自动化研究所 | 语音检测方法及装置、电子设备及存储介质 |
CN114420100B (zh) * | 2022-03-30 | 2022-06-21 | 中国科学院自动化研究所 | 语音检测方法及装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101320560A (zh) | 语音识别系统应用采样速率转化提高识别率的方法 | |
AU712412B2 (en) | Speech processing | |
CN103310798B (zh) | 降噪方法和装置 | |
CN103117059B (zh) | 一种基于张量分解的语音信号特征提取方法 | |
CN110459205B (zh) | 语音识别方法及装置、计算机可存储介质 | |
CN101226743A (zh) | 基于中性和情感声纹模型转换的说话人识别方法 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN107369439A (zh) | 一种语音唤醒方法和装置 | |
CN105118501A (zh) | 语音识别的方法及系统 | |
CN112581964B (zh) | 一种面向多领域的智能语音交互方法 | |
CN102592589B (zh) | 一种动态归一化数字特征的语音评分方法与装置 | |
CN102789779A (zh) | 一种语音识别系统及其识别方法 | |
CN103985390A (zh) | 一种基于伽马通相关图语音特征参数提取方法 | |
CN111696580A (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN103258537A (zh) | 利用特征结合对语音情感进行识别的方法及其装置 | |
US8423354B2 (en) | Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method | |
CN109147146B (zh) | 语音取号的方法及终端设备 | |
CN101419796A (zh) | 自动分割单字语音信号的装置与方法 | |
CN111785302A (zh) | 说话人分离方法、装置及电子设备 | |
CN202454260U (zh) | 一种动态归一化数字特征的语音评分装置 | |
Jalalvand et al. | A classifier combination approach for Farsi accents recognition | |
JPH04261591A (ja) | 自動採譜装置 | |
Hu et al. | Isolated Word Speech Recognition System Based On FPGA. | |
CN112397044B (zh) | 一种基于深度学习的自动音乐转录方法 | |
KR100648545B1 (ko) | 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한화자 인식 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20081210 |