CN102982803A - 基于hrsf及改进dtw算法的孤立词语音识别方法 - Google Patents

基于hrsf及改进dtw算法的孤立词语音识别方法 Download PDF

Info

Publication number
CN102982803A
CN102982803A CN2012105334669A CN201210533466A CN102982803A CN 102982803 A CN102982803 A CN 102982803A CN 2012105334669 A CN2012105334669 A CN 2012105334669A CN 201210533466 A CN201210533466 A CN 201210533466A CN 102982803 A CN102982803 A CN 102982803A
Authority
CN
China
Prior art keywords
frame
voice signal
parameter
signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105334669A
Other languages
English (en)
Inventor
胡晓晖
李玉婷
彭宏利
薛云
蔡倩华
黄海东
曾广祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jisheng Information Science & Technology Development Co Ltd
South China Normal University
Original Assignee
Guangzhou Jisheng Information Science & Technology Development Co Ltd
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jisheng Information Science & Technology Development Co Ltd, South China Normal University filed Critical Guangzhou Jisheng Information Science & Technology Development Co Ltd
Priority to CN2012105334669A priority Critical patent/CN102982803A/zh
Publication of CN102982803A publication Critical patent/CN102982803A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了基于HRSF及改进DTW算法的孤立词语音识别方法,其包括如下步骤:(1)对接收到的模拟语音信号进行预处理,所述预处理包括预滤波、采样及量化、预加重、加窗、短时能量分析、短时平均过零率分析和端点检测;(2)通过FFT得到该帧信号的功率谱X(n),转换为Mel频率下的功率谱,计算MFCC参数,对计算的MFCC参数进一步求取一阶差分及二阶差分后再进行半升正弦函数倒谱提升;(3)利用改进的DTW算法将测试模版和参考模版进行匹配,将匹配分数最高的参考模板作为识别结果。本发明通过改进的DTW算法解决单个汉字的识别问题,提高了单个汉字的识别率与识别速度。

Description

基于HRSF及改进DTW算法的孤立词语音识别方法
技术领域
本发明涉及语音识别的应用领域,具体涉及基于半升正弦函数倒谱提升(Half Raised-Sine function,HRSF)及改进动态时间弯折(Dynamic Time Warping, DTW)算法进行孤立词识别方法。
背景技术
在语音识别领域,一般来说语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。
一、基于语音学和声学的方法。基于语音学和声学的方法起步较早,在语音识别技术提出的开始就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。
通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现:
第一步:分段和标号
把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号;
第二步:得到词序列
根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。
二、模板匹配的方法。模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。
1 、动态时间规整(DTW)
语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素) 的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率,但效果往往不明显。60年代学者Itakura提出了动态时间规整算法(DTW:DynamicTime Warping)。该算法的思想就是把未知量均匀地升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。
现有的DTW算法介绍:
动态时间弯折(Dynamic Time Warping ,DTW)是把时间归正和距离测度计算结合起来的一种非线性归正技术。它也是语音识别中的一种很成功的匹配算法。
DTW算法可以分两步进行,一是计算两个模版(测试模版和参考模版)各帧之间的距离,即求出帧匹配距离矩阵,二是在帧匹配距离矩阵中找出一条最佳路径。
假设参考模版的特征矢量序列为a1,a2,…,am,…,aM,输入语音特征矢量序列为b1,b2,…,bn,…,bN,N≠M(此处N、M与其他地方出现的N、M一致),那么动态时间规整是要寻找时间规整函数m=w(n),它把输入模版(即发明内容中的测试模板)的帧数n非线性地映射到参考模版的帧数m,并且该w满足
D ( n , m ) = min w ( j ) Σ j = 1 n d [ j , w ( j ) ]
式中,d[(n,w(n))]是第n帧输入矢量和第m帧参考矢量的距离,D是相应于最优时间规整下两个模版的距离测度。
在具体问题中,规整函数w(n)满足一定的约束条件。
边界条件:
w(1)=1,w(N)=M
连续条件:
w ( n + 1 ) - w ( n ) = 0,1,2 w ( n ) ≠ w ( n - 1 ) 1,2 w ( n ) = w ( n - 1 )
如图1所示,根据约束条件,函数w(n)曲线限于一个平行四边形区内,它的一条边斜率是2,另一条边斜率是1/2。即在极端情况下n增加1,m增加2,终点坐标为M=2N;反之,n增加2,m至少增加1,那么M=N/2。从物理意义上讲,等于把两个模版之间长度差异限制在1/2到2之内。因此,w(n)的走向受到限制。如果前面点[n,w(n)]上的w(n)值已经改变过的话,w(n)的斜率为0,1或2;否则w(n)的斜率为1或2。DP的问题可以视为:从始点(1,1)沿着怎样一条路线到达终点(N,M),以使两个模版的匹配距离最小。
假设d[n,m]=d[n,w(n)]是帧矢量bn和am之间的距离,则最小累计距离为
D ( n , m ) = min w ( j ) Σ j = 1 n d [ j , w ( j ) ]
依照动态规划的一般算法,是从过程的最后一个阶段开始考虑,即其最优决策是逆序过程,这一决策过程,可写成递推公式形式:
D(n+1,m)=d[n+1,m]+min[D(n,m)g(n,m),D(n,m-1),D(n,m-2)]
式中
g ( n , m ) = 1 w ( n ) ≠ w ( n - 1 ) ∞ w ( n ) = w ( n - 1 )
这里,g(n,m)的引入,等效于n,m取值满足w(n)的约束条件,最后便能求出D(N,M)。
2、隐马尔可夫法(HMM)
隐马尔可夫法(HMM) 是70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。HMM 方法现已成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov 链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov 链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态) 发出的音素的参数流。HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。
3、矢量量化(VQ)
矢量量化(Vector Quantization) 是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成 k 维空间中的一个矢量,然后对矢量进行量化。量化时,将 k 维无限空间划分为 M 个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。
核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的,那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真,也就是说编码器本身存在区分能力。
在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。
三、神经网络的方法。利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。
由于ANN不能很好的描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别。
以上列举的方法各有其优缺点,此外,现有的基于半升正弦函数倒谱提升(Half Raised-Sine function,HRSF)及动态时间弯折(Dynamic Time Warping, DTW)算法的孤立词识别方法存在以下不足:应用DTW算法进行语音识别时,每次都要将测试语音去匹配所有的声纹模型,然后找出最相近模型对应的说话人作为识别结果。这样,随着模型数目的增多,一次识别所花费的时间会直线上升,导致识别率和识别速度大大降低。
发明内容
本发明针对目前孤立词语音识别方法存在的不足和缺陷,提供一种基于HRSF及改进DTW算法的孤立词语音识别方法,具体技术方案如下。
基于HRSF及改进DTW算法的孤立词语音识别方法,其包括如下步骤:
(1)语音信号的数字化和预处理:对接收到的模拟语音信号进行预处理,所述预处理包括预滤波、采样及量化、预加重、加窗、短时能量分析、短时平均过零率分析和端点检测;
(2)语音信号的参数提取:通过离散FFT变换得到经步骤(1)处理后的语音信号的功率谱X(n),转换为Mel频率下的功率谱,计算MFCC参数,对计算的MFCC参数进一步求取一阶差分及二阶差分后再进行半升正弦函数倒谱提升;
(3)语音信号参数特征的训练和识别:利用改进的DTW算法将测试模版和参考模版进行匹配,将匹配分数最高的参考模板作为识别结果;参考模版表示为U={U1,U2,...,Um,… UM}m为模板语音帧的顺序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模式包含的语音帧总数,Ui为第i帧语音的语音特征矢量;所要识别的一个输入词条语音称为测试模版,测试模版表示为V={V1,V2,...,Vn,...,VN},n为测试语音帧号, 模版中一共包括N帧语音, Vj为第j帧特征矢量,参考模板中的语音特征矢量和测试模板中的特征矢量由步骤(2)中经过半升正弦函数倒谱提升后的MFCC参数构成。
进一步优化的,步骤(2)所述MFCC参数的计算包括如下步骤:
I、首先确定每一帧语音信号采样序列的点数N,对每帧序列x(n)(n=1,2,…N)进行预加重处理后再经过离散FFT变换,取其模的平方得到离散功率谱X(n);
II、计算X(n)通过M个Hm(n)后所得到的功率值,即计算X(n)和Hm(n)在各离散频率点上乘积之和,得到M个参数Pm,m=0,1,…,M-1;
III、 计算Pm的自然对数,得到L0,L1,…,Lm-1
IV 、 对L0,L1,…,Lm-1计算其离散余弦变换,得到Dm,m=0,1,…,M-1;
V 、舍去代表直流成分的D0,取D0,D1,…,Dk作为MFCC参数。
进一步优化的,步骤(2)中对提取的MFCC参数进行半阶正弦倒谱提升,提高数值相对较小的中高阶分量值,降低易受噪声干扰的低阶分量值,权重公式的前半部分加0.5保证倒谱分量不完全衰减,后半部分则对高低阶分量进行不同程度的加权,
Ci=riDi
ri=0.5+0.5sin(πi/H)
其中:i=0,1… H-1;H为特征阶数,D为提取的MFCC特征参数,Ci为加权MFCC参数,ri为加权系数。
进一步优化的,步骤(3)所述改进的DTW算法具体采用已有DTW算法中Ui(测试模版矢量数据)和Vj(参考模版矢量数据)两个特征矢量相似度作为匹配计算的测度,以相似度最大作为相互匹配点位的标准,并以总相似度最大作为U和V两个序列的动态匹配测度,分两个步骤逐步减少计算量:
(3.1)采用矢量的余弦值的大小进行取舍:
相似度L(i,j)采用矢量间夹角的余弦来加以计算,即
L ( i , j ) = U i V j | U i | · | V j |
L(i,j)<= 1,当L(i,j)=1时 矢量X和欠量Y完全相似,为了减少运算量,经过上式计算出的L(i,j)<=0.5时,直接令L(i,j)=0;
对于有N帧的参考模板和M帧的测试模板来说,计算他们之间的最大相似度L是一个代价很高的行为,需要用到N*M的矩阵,这时可以采取分块矩阵;
(3.2)采取分块矩阵以减少计算量:
在矩阵中找到k个点(k>=2,可以随机确定,也可以自己根据帧数定义, U(m)= Um,V(n) =Vn
)U(m)、 V(n) ,记为U(m1),V(n1),U(m2),V(n2),….U(mk),V(nk),使L(U(m1),V(n1)),L(U(m2),V(n2)),….L(U(mk),V(nk))最大,且满足 (n1<n2<…<nk),(m1<m2<…<mk),这样只需要计算L[((U(1),V(1)),(U(m1),V(n1))),L[(U(m1),V(n1)),(U(m2),V(n2))]…
L[(U(mk-1),V(mk-1)),(U(mk),V(nk)) }
,其中K为选取的最大相似点的个数,
再把他们相加即得,
L [ U , V ] = &Sigma; i = 1 k - 1 L [ ( U ( m i ) , V ( n i ) ) , ( U ( m i + 1 ) , V ( n i + 1 ) ) ] L [ ( U ( m i ) , V ( n i ) ) , ( U ( m i + 1 ) , V ( n i + 1 ) ) ] = &Sigma; n = n i , m = m i n i + 1 , m i + 1 L [ U ( m ) , V ( n ) ]
这样就把原来的N*M矩阵的最大相似度,简化为几个分块矩阵的最大相似度之和,大大降低了运行的时间;经过上述两个步骤我们发现,模版匹配的时间较之以前减少了许多,结果识别的效率得到了一定的提升。
进一步优化的,步骤(1)中所述预滤波是抑制输入语音信号各频域分量中频率超出1/2采样频率的所有分量,同时抑制50Hz的电源工频干扰;所述采样和量化是将语音信号变成时间和幅度都离散的数字信号,其中,所述采样的频率大于信号最高频率的两倍,且用采样后的信号重构原始信号,所述量化是将语音信号波形的幅度值离散化,即将整个语音信号的幅度值分成若干个有限的区间,并且把落入同一个区间的幅值都用同一个幅值来表示,这个幅度值即为量化值。
进一步优化的,步骤(1)中所述预加重的目的是提升高频部分,使信号的频谱变得平坦,用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现;
所述加窗处理是采用窗函数得到短时的语音信号,窗函数平滑地在语音信号上滑动,又将语音信号分成帧,所述窗函数采用矩形窗或汉明窗。
进一步优化的,步骤(1)所述短时能量分析具体是:
设语音波形时域信号为x(l)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式:
xn(m)=w(m)x(n+m),0≤m≤P-1
Figure BDA0000256623287
其中,n=0,1T,2T,…,并且P为帧长,T为帧移长度;
设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下:
E n = &Sigma; m = 0 P - 1 x n 2 ( m )
与现有技术相比,本发明有以下优点和技术效果:
本发明主要针对基于半升正弦函数倒谱提升(Half Raised-Sine function,HRSF)及动态时间弯折(Dynamic Time Warping, DTW)算法进行孤立词识别的不足,利用改进的动态时间弯折(Dynamic TimeWarping, DTW)算法进行单个汉字的语音识别。
本发明采用Ui和Vj两个特征矢量相似度作为匹配计算的测度,以相似度最大作为相互匹配点位的标准,并以总相似度最大作为U和V两个序列的动态匹配测度并把原来的N*M矩阵的最大相似度,简化为几个分块矩阵的最大相似度之和,从而大大降低了运行的时间,提高了单个汉字的识别率和识别速度。
在半升正弦函数倒谱提升(Half Raised-Sine function,HRSF)及现有的动态时间弯折(Dynamic Time Warping, DTW)算法的基础上,通过对动态时间弯折(Dynamic Time Warping, DTW)算法进行改进,简化了语音识别的操作,进而有效地提高了语音系统的识别率和识别速度。本发明注重理论和实际应用的结合,进一步改善了语音识别领域的技术方法。
简而言之,本发明通过改进的DTW算法解决单个汉字的识别问题,提高了单个汉字的识别率与识别速度。
附图说明
图1是现有DP算法示意图。
图2是DP算法中w(n)连续条件示意图。
图3是实施方式中基于HRSF及改进DTW算法的孤立词语音识别方法的总流程示意图。
图4是实例中双门限法的各门限值示意图。
图5是实施方式中滤波器组波形示意图。
具体实施方式
本发明的以上技术方案对于本领域技术人员来说已经清楚明确,为便于审查员理解,以下结合附图和实例对本发明的具体实施作进一步说明,但本发明的实施和保护范围不限于此,本发明未特别说明之处均为本领域技术人员。
如图1, 基于HRSF及改进DTW算法的孤立词语音识别方法,该方法的主要流程如下:
(1)语音信号的数字化和预处理:输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、预加重、端点检测等;
(2)语音信号的参数提取:语音信号经预处理后,接下来很重要的一环就是特征参数提取,首先通过FFT得到该帧信号的功率谱X(n),转换为Mel频率下的功率谱,计算MFCC参数,对计算的基本MFCC特征参数进一步求取一阶差分及二阶差分后再进行半升正弦函数进行倒谱提升;
(3)语音信号参数特征的训练和识别:利用改进的DTW算法将测试模版和参考模版进行匹配,将匹配分数最高的参考模板作为识别结果。
步骤(2)所述MFCC参数的计算通常采用如下的流程:
I首先确定每一帧语音采样序列的点数,本系统取N=256点。对每帧序列x(n)进行预加重处理后再经过离散FFT变换,取模的平方得到离散功率谱X(n);
II计算X(n)通过M个Hm(n)后所得到的功率值,即计算X(n)和Hm(n)在各离散频率点上乘积之和,得到M个参数Pm,m=0,1,…,M-1;
III 计算Pm的自然对数,得到L0,L1,…,Lm-1
IV  对L0,L1,…,Lm-1计算其离散余弦变换,得到Dm,m=0,1,…,M-1;
V 舍去代表直流成分的D0,取D0,D1,…,Dk作为MFCC参数。
对提取的MFCC参数进行半阶正弦倒谱提升。可以提高数值相对较小的中高阶分量值,降低易受噪声干扰的低阶分量值。权重公式的前半部分加0.5保证倒谱分量不完全衰减,后半部分则对高低阶分量进行不同程度的加权,
加权MFCC参数 Ci=riDi
ri=0.5+0.5sin(πi/H)
其中:i=0,1… H-1;H为特征阶数,D为提取的MFCC特征参数,Ci为加权MFCC参数,ri为加权系数。    已有的DTW算法在序位配对计算时,都用计算Ui和Vi两个特征矢量之间距离的方法,以距离最小作为相互匹配点位的标准,并以总加权距离最小作为U和V一两个序列的动态匹配测度。步骤(3)所述改进的DTW算法具体采用Ui和Vi两个特征矢量相似度作为匹配计算的测度,以相似度最大作为相互匹配点位的标准,并以总相似度最大作为U和V两个序列的动态匹配测度。分两个步骤逐步减少计算量,达到提高算法速度的目的。
采用矢量的余弦值的大小(相似度)进行取舍:
相似度L(i,j)采用矢量间夹角的余弦来加以计算,即
L ( i , j ) = U i V j | U i | &CenterDot; | V j |
一般L(i,j)<= 1,当L(i,j)=1时 矢量X和欠量Y完全相似,为了减少运算量,经过上式计算出的L(i,j)<=0.5时,直接令L(i,j)=0。
对于有N帧的参考模板和M帧的测试模板来说,计算他们之间的最大相似度L是一个代价很高的行为,需要用到N*M的矩阵,这时可以采取分块矩阵。
1.采取分块矩阵以减少计算量:
在矩阵中找到几个点U(m),V(n),记为U(m1),V(n1),U(m2),V(n2),….U(mk),V(nk),使L(U(m1),V(n1)),L(U(m2),V(n2)),….L(U(mk),V(nk))最大,且满足 (n1<n2<…<nk),(m1<m2<…<mk),这样我们只需要计算L[((U(1),V(1)),(U(m1),V(n1))),L[(U(m1),V(n1)),(U(m2),V(n2))]…
L[(U(mk-1),V(mk-1)),(U(mk),V(nk)) }
(K为选取的最大相似点的个数)再把他们相加即可。
L [ U , V ] = &Sigma; i = 1 k - 1 L [ ( U ( m i ) , V ( n i ) ) , ( U ( m i + 1 ) , V ( n i + 1 ) ) ] L [ ( U ( m i ) , V ( n i ) ) , ( U ( m i + 1 ) , V ( n i + 1 ) ) ] = &Sigma; n = n i , m = m i n i + 1 , m i + 1 L [ U ( m ) , V ( n ) ]
这样就把原来的N*M矩阵的最大相似度,简化为几个分块矩阵的最大相似度之和,这样可以大大降低了运行的时间。
经过上述两个步骤我们发现,模版匹配的时间较之以前减少了许多,结果识别的效率得到了一定的提升。
下面再对上述几个步骤中涉及的内容进行详细描述:
1、语音信号的数字化和预处理
1.1预滤波、采样、量化
语音信号是时间和幅度都连续变换的一维模拟信号,要想对语音信号进行分析或者处理,就必须将其转换为数字信号。要数字化语音信号,就要先进行采样和量化,将其变成时间和幅度都离散的数字信号。
预滤波的目的有两个:(1)抑制输入信号各频域分量中频率超出1/2采样频率的所有分量,以防止混叠干扰。(2)抑制50Hz的电源工频干扰。
采样称为波形的离散化过程。根据采样定理,当采样频率大于信号最高频率的两倍是,在采样过程中就不会丢失信息,并且可以用采样后的信号重构原始信号。人说话的语音频率范围为300Hz~3400Hz,一般将采样频率设为8KHz。
量化的目的是将语音信号波形的幅度值离散化,也就是说将整个信号的幅度值分成若干个有限的区间,并且把落入同一个区间的幅值都用同一个幅值来表示,这个幅度值称为量化值。
1.2预处理
语音信号的预处理指的是对语音信号进行特殊的处理:预加重或称高频提升,加窗分帧处理。
预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现,它一般是一阶的,即
H(z)=1-μ·z-1
式中,μ值接近于1,典型值为0.94。
因为语音信号是一个非平稳过程,但是在一个短时间范围内(一般认为在10~30ms的短时间内),其特性基本保持不变即相对稳定,因而可以认为语音信号具有短是平稳性。为了得到短时的语音信号,就需要对语音信号进行加窗处理。而窗函数平滑的在语音信号上滑动,又将语音信号分成帧。
窗函数可以选用矩形窗,即
Figure BDA00002566232811
也可以采用其它形式的窗函数,例如汉明窗,即
Figure BDA00002566232812
1.3 短时能量分析
设语音波形时域信号为x(l)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式:
xn(m)=w(m)x(n+m) 0≤m≤N-1
Figure BDA00002566232813
其中,n=0,1T,2T,…,并且N为帧长,T为帧移长度。
设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下:
E n = &Sigma; m = 0 N - 1 x n 2 ( m )
1.4 短时平均过零率分析
短时过零率表示一帧语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。
定义语音信号xn(m)的短时过零率Zn为:
Z n = 1 2 &Sigma; m = 0 N - 1 | sgn [ x n ( m ) ] - sgn [ x n ( m - 1 ) ] |
式中,sgn[ ]是符号函数,即:
sgn [ x ] = 1 x > 0 - 1 x < 0
短时平均过零率分析用于语音信号的清/浊音判决。发浊音时,尽管声道中有若干个共振峰,但其能量集中于低于3k Hz的频率范围内;反之,发清音时,多数能量出现在较高频率上。高频就意味着高的平均过零率,低频意味着低的过零率,因此用过零率可以定量地分析清/浊音。
短时能量与短时平均过零率两个参数在有/无声的判断中可以估计话音的起点和终点位置,在背景噪声电平较小时,短时能量更为有效,在背景噪声电平较大时,短时平均过零率更为有效。
1.5 语音信号的端点检测
端点检测是指用数字处理技术来找出语音信号中的各种段落的始点和终点的位置。常用的方法有基于短时能量和短时平均过零率的检测方法,亦称双门限比较法。
语音刚开按的一段,其短时能量大小与背景噪声的短时能量大小差不多,因此要想可靠地检测到语音起点,存在较大困难。双门限法是考虑到语音开始以后总会出现能量较大的浊音,设一个较高的门限Th用以确定语音已开始,再取一比Th稍低的门限TL,用以确定真正的起止点N1及结束点N2。判断清音与无话的差别,是采用另一个较低的门限T1,求越过该门限“过零率”。只要T1取得合适,通常背景噪声的低门限过零率值将明显低于语音的低门限过零率值,如图4所示。这种方法普遍地用于有话、无话鉴别或词语前端检测。通常窗长(即帧长)取10~15ms,帧间隔(即Q”的采样间隔)取5~10ms。
2  语音信号的参数提取
2.1 Mel频率倒谱参数(MFCC)
MFCC参数线性频率的转换关系是:
f mel = 2595 log 10 ( 1 + f 700 )
fmel即MFCC参数线性频率,f为信号频率。
首先通过FFT得到该帧信号的功率谱X(n),转换为Mel频率下的功率谱.在计算之前先对语音的频谱范围内设置若干个带通滤波器:
H m ( n ) , m = 0,1 , . . . , M - 1 , n = 0,1 , . . . , N 2 - 1
M为滤波器的个数,N为一帧语音信号的点数,为了计算FFT的方便,取N为256.滤波器在频域上为简单的三角形,其中心频率为fm,它们在Mel频率轴上均匀分布。在线性频率上,当m较小时,相邻的fm间隔很小,随着m的增加,相邻的fm间隔逐渐拉大.另外在频率较低的区域,fm和f之间有一段是线性的。带通滤波器的参数事先计算好,在计算MFCC参数时直接使用。本发明中M取24,N为256,信号的采样频率为8KHz,滤波器组波形如图5所示。
MFCC参数的计算采用如下的流程:
(1)首先确定每一帧语音采样序列的点数,取N=256点。对每帧序列x(n)进行预加重处理后再经过离散FFT变换,取模的平方得到离散功率谱X(n);
(2)计算X(n)通过M个Hm(n)后所得到的功率值,即计算X(n)和Hm(n)在各离散频率点上乘积之和,得到M个参数Pm,m=0,1,…,M-1;
(3)计算Pm的自然对数,得到L0,L1,…,Lm-1
(4)对L0,L1,…,Lm-1计算其离散余弦变换,得到Dm,m=0,1,…,M-1;
(5)舍去代表直流成分的D0,取D0,D1,…,Dk作为MFCC参数。
2.2半升正弦函数倒谱提升
标准的MFCC参数只反映了语音参数的静态特性,而人耳对语音的动态特征更为敏感,通常用差分倒谱参数来描述这种动态特性。
差分参数的计算采用下面的公式:
d ( n ) = 1 &Sigma; i = - k k i 2 &Sigma; i = - k k i &CenterDot; c ( n + i )
式中c和d都表示一帧语音参数,k为常数,通常取2,这时差分参数就被称为当前帧的前两帧和后两帧参数的线性组合。由此式计算得到二阶差分MFCC参数。实际使用中,将MFCC参数和各阶差分参数合并为一个矢量,作为一帧语音信号的参数。
同时通过大量实验研究得知,特征向量的各个分量对于识别率的贡献不同。在语音识别中,高阶MFCC分量比低阶MFCC分量更不易受到噪声的影响,所以才用半升正弦函数进行倒谱提升,可以提高数值相对较小的中高阶分量值,降低易受噪声干扰的低阶分量值。权重公式的前半部分0.5保证倒谱分量不完全衰减,后半部分则对高低阶分量进行不同程度的加权。
Ci=riDi
ri=0.5+0.5sin(πi/H)
其中:i=0,1… H-1;H为特征阶数,D为提取的MFCC特征参数,Ci为加权MFCC参数,ri为加权系数。3 语音信号参数特征的训练和识别
3.1 现有的DTW算法
动态时间弯折(Dynamic Time Warping ,DTW)是把时间归正和距离测度计算结合起来的一种非线性归正技术,它也是语音识别中的一种很成功的匹配算法。
假设参考模版的特征矢量序列为a1,a2,…,am,…,aM,输入语音特征矢量序列为b1,b2,…,bn,…,bN,N≠M,那么动态时间规整是要寻找时间规整函数m=w(n),它把输入模版的时间轴n非线性地映射到参考模版的时间轴m,并且该w满足
D ( n , m ) = min w ( j ) &Sigma; j = 1 n d [ j , w ( j ) ]
式中,d[(n,w(n))]是第n帧输入矢量和第m帧参考矢量的距离,D是相应于最优时间规整下两个模版的距离测度。
在具体问题中,规整函数w(n)满足一定的约束条件。
边界条件:
w(1)=1,w(N)=M
连续条件:
w ( n + 1 ) - w ( n ) = 0,1,2 w ( n ) &NotEqual; w ( n - 1 ) 1,2 w ( n ) = w ( n - 1 )
如图1所示,根据约束条件,函数w(n)曲线限于一个平行四边形区内,它的一条边斜率是2,另一条边斜率是1/2.即在极端情况下n增加1,m增加2,终点坐标为M=2N;反之,n增加2,m至少增加1,那么M=N/2。从物理意义上讲,等于把两个模版之间长度差异限制在1/2到2之内。因此,w(n)的走向受到限制,如图1所示。如果前面点[n,w(n)]上的w(n)值已经改变过的话,w(n)的斜率为0,1或2;否则w(n)的斜率为1或2。DP的问题可以视为:从始点(1,1)沿着怎样一条路线到达终点(N,M),以使两个模版的匹配距离最小。
假设d[n,m]=d[n,w(n)]是帧矢量bn和am之间的距离,则最小累计距离为
D ( n , m ) = min w ( j ) &Sigma; j = 1 n d [ j , w ( j ) ]
依照动态规划的一般算法,是从过程的最后一个阶段开始考虑,即其最优决策是逆序过程,这一决策过程,可写成递推公式形式:
D(n+1,m)=d[n+1,m]+min[D(n,m)g(n,m),D(n,m-1),D(n,m-2)]
式中
g ( n , m ) = 1 w ( n ) &NotEqual; w ( n - 1 ) &infin; w ( n ) = w ( n - 1 )
这里g(n,m)的引入,等效于n,m取值满足w(n)的约束条件。最后便能求出D(N,M)。
已有的DTW算法在序位配对计算时,都用计算Ui和Vi两个特征矢量之间距离的方法,以距离最小作为相互匹配点位的标准,并以总加权距离最小作为U和V一两个序列的动态匹配测度。本方法所述改进的DTW算法具体采用Ui和Vi两个特征矢量相似度作为匹配计算的测度,以相似度最大作为相互匹配点位的标准,并以总相似度最大作为U和V两个序列的动态匹配测度。分两个步骤逐步减少计算量,达到提高算法速度的目的。
采用矢量的余弦值的大小(相似度)进行取舍:
相似度L(i,j)采用矢量间夹角的余弦来加以计算,即
L ( i , j ) = U i V j | U i | &CenterDot; | V j |
一般L(i,j)<= 1,当L(i,j)=1时 矢量X和欠量Y完全相似,为了减少运算量,经过上式计算出的L(i,j)<=0.5时,直接令L(i,j)=0。
对于有N帧的参考模板和M帧的测试模板来说,计算他们之间的最大相似度L是一个代价很高的行为,需要用到N*M的矩阵,这时可以采取分块矩阵。
1.采取分块矩阵以减少计算量:
在矩阵中找到k个点U(m)、 V(n) ,记为U(m1),V(n1),U(m2),V(n2),….U(mk),V(nk),使L(U(m1),V(n1)),L(U(m2),V(n2)),….L(U(mk),V(nk))最大,且满足(n1<n2<…<nk),(m1<m2<…<mk),这样只需要计算L[((U(1),V(1)),(U(m1),V(n1))),L[(U(m1),V(n1)),(U(m2),V(n2))]…
L[(U(mk-1),V(mk-1)),(U(mk),V(nk)) }
(K为选取的最大相似点的个数)再把他们相加即可。
L [ U , V ] = &Sigma; i = 1 k - 1 L [ ( U ( m i ) , V ( n i ) ) , ( U ( m i + 1 ) , V ( n i + 1 ) ) ] L [ ( U ( m i ) , V ( n i ) ) , ( U ( m i + 1 ) , V ( n i + 1 ) ) ] = &Sigma; n = n i , m = m i n i + 1 , m i + 1 L [ U ( m ) , V ( n ) ]
这样就把原来的N*M矩阵的最大相似度,简化为几个分块矩阵的最大相似度之和,这样可以大大降低了运行的时间。
基于以上方法的实例,所采用的数据都是通过计算机的声卡录音,录制了20个人(10男,10女)在3个不同时间说的同一句话“华南师范大学物电学院”,共60句。采用8KHz采用频率、8bit量化、单声道的PCM录音格式。从每个人的3句话中选择频谱最清晰的一句训练成模板,这样参考模板库中有200个样本,待识别的语音有400个。语音特征参数选择14阶MFCC参数,每帧语音提取14个特征参数,对此参数进行半阶正弦倒谱提升(HRSF)。采用改进的算法进行语音匹配识别,在MATLAB2010a下仿真,与对照方法的实验结果如表1:
表1   改进算法与传统算法实验结果
算法 识别率(%) 平均耗时(ms)
MFCC+传统DTW 86.3 413.22
HRSF+传统DTW 92.7 436.17
MFCC+改进DTW   90.5 286.37
HRSF+改进DTW   96.1 309.46
由表1可知,采用HRSF与改进的DTW算法结合,可明显地提高识别率,减少匹配算法的计算量,提高了识别速度,增强了系统的实用性。

Claims (7)

1.基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于包括如下步骤:
(1)语音信号的数字化和预处理:对接收到的模拟语音信号进行预处理,所述预处理包括预滤波、采样及量化、预加重、加窗、短时能量分析、短时平均过零率分析和端点检测;
(2)语音信号的参数提取:通过离散FFT变换得到经步骤(1)处理后的语音信号的功率谱X(n),转换为Mel频率下的功率谱,计算MFCC参数,对计算的MFCC参数进一步求取一阶差分及二阶差分后再进行半升正弦函数倒谱提升;
(3)语音信号参数特征的训练和识别:利用改进的DTW算法将测试模版和参考模版进行匹配,将匹配分数最高的参考模板作为识别结果;参考模版表示为U={U1,U2,...,Um,… UM}m为模板语音帧的顺序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模式包含的语音帧总数,Ui为第i帧语音的语音特征矢量;所要识别的一个输入词条语音称为测试模版,测试模版表示为V={V1,V2,...,Vn,...,VN},n为测试语音帧号, 模版中一共包括N帧语音, Vj为第j帧特征矢量,参考模板中的语音特征矢量和测试模板中的特征矢量由步骤(2)中经过半升正弦函数倒谱提升后的MFCC参数构成。
2.根据权利要求1所述的基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于:步骤(2)所述MFCC参数的计算包括如下步骤:
I、首先确定每一帧语音信号采样序列的点数N,对每帧序列x(n)(n=1,2,…N)进行预加重处理后再经过离散FFT变换,取其模的平方得到离散功率谱X(n);
II、计算X(n)通过M个Hm(n)后所得到的功率值,即计算X(n)和Hm(n)在各离散频率点上乘积之和,得到M个参数Pm,m=0,1,…,M-1;
III、 计算Pm的自然对数,得到L0,L1,…,Lm-1
IV 、 对L0,L1,…,Lm-1计算其离散余弦变换,得到Dm,m=0,1,…,M-1;
V 、舍去代表直流成分的D0,取D0,D1,…,Dk-1作为MFCC参数。
3.根据权利要求2所述的基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于:步骤(2)中对提取的MFCC参数进行半阶正弦倒谱提升,提高数值相对较小的中高阶分量值,降低易受噪声干扰的低阶分量值,权重公式的前半部分加0.5保证倒谱分量不完全衰减,后半部分则对高低阶分量进行不同程度的加权, 加权MFCC参数Ci=riDi
ri=0.5+0.5sin(πi/H)
其中:i=0,1… H-1;H为特征阶数,D为提取的MFCC特征参数,Ci为加权MFCC参数,ri为加权系数。
4.根据权利要求1所述的基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于:步骤(3)所述改进的DTW算法具体采用已有DTW算法中Ui(测试模版矢量数据)和Vj(参考模版矢量数据)两个特征矢量相似度作为匹配计算的测度,以相似度最大作为相互匹配点位的标准,并以总相似度最大作为U和V两个序列的动态匹配测度,分两个步骤逐步减少计算量:
(3.1)采用矢量的余弦值的大小进行取舍:
相似度L(i,j)采用矢量间夹角的余弦来加以计算,即
L ( i , j ) = U i V j | U i | &CenterDot; | V j |
L(i,j)<= 1,当L(i,j)=1时 矢量X和欠量Y完全相似,为了减少运算量,经过上式计算出的L(i,j)<=0.5时,直接令L(i,j)=0;
对于有N帧的参考模板和M帧的测试模板来说,计算他们之间的最大相似度L是一个代价很高的行为,需要用到N*M的矩阵,这时可以采取分块矩阵;
(3.2)采取分块矩阵以减少计算量:
在矩阵中找到k个点U(m)、 V(n) ,记为U(m1),V(n1),U(m2),V(n2),….U(mk),V(nk),使L(U(m1),V(n1)),L(U(m2),V(n2)),….L(U(mk),V(nk))最大,且满足(n1<n2<…<nk),(m1<m2<…<mk),这样只需要计算L[((U(1),V(1)),(U(m1),V(n1))),L[(U(m1),V(n1)),(U(m2),V(n2))]…
L[(U(mk-1),V(mk-1)),(U(mk),V(nk)) }
,其中K为选取的最大相似点的个数,
再把他们相加即得,
L [ U , V ] = &Sigma; i = 1 k - 1 L [ ( U ( m i ) , V ( n i ) ) , ( U ( m i + 1 ) , V ( n i + 1 ) ) ] L [ ( U ( m i ) , V ( n i ) ) , ( U ( m i + 1 ) , V ( n i + 1 ) ) ] = &Sigma; n = n i , m = m i n i + 1 , m i + 1 L [ U ( m ) , V ( n ) ]
即把原来的N*M矩阵的最大相似度,简化为几个分块矩阵的最大相似度之和。
5.根据权利要求1所述的基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于:步骤(1)中所述预滤波是抑制输入语音信号各频域分量中频率超出1/2采样频率的所有分量,同时抑制50Hz的电源工频干扰;所述采样和量化是将语音信号变成时间和幅度都离散的数字信号,其中,所述采样的频率大于信号最高频率的两倍,且用采样后的信号重构原始信号,所述量化是将语音信号波形的幅度值离散化,即将整个语音信号的幅度值分成若干个有限的区间,并且把落入同一个区间的幅值都用同一个幅值来表示,这个幅度值即为量化值。
6.根据权利要求1所述的基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于:步骤(1)中所述预加重的目的是提升高频部分,使信号的频谱变得平坦,用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现;
所述加窗处理是采用窗函数得到短时的语音信号,窗函数平滑地在语音信号上滑动,又将语音信号分成帧,所述窗函数采用矩形窗或汉明窗。
7.根据权利要求1所述的基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于:步骤(1)所述短时能量分析具体是:
设语音波形时域信号为x(l)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式:
xn(m)=w(m)x(n+m),0≤m≤P-1
Figure FDA0000256623273
其中,n=0,1T,2T,…,并且P为帧长,T为帧移长度;
设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下:
E n = &Sigma; m = 0 P - 1 x n 2 ( m )
CN2012105334669A 2012-12-11 2012-12-11 基于hrsf及改进dtw算法的孤立词语音识别方法 Pending CN102982803A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105334669A CN102982803A (zh) 2012-12-11 2012-12-11 基于hrsf及改进dtw算法的孤立词语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105334669A CN102982803A (zh) 2012-12-11 2012-12-11 基于hrsf及改进dtw算法的孤立词语音识别方法

Publications (1)

Publication Number Publication Date
CN102982803A true CN102982803A (zh) 2013-03-20

Family

ID=47856714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105334669A Pending CN102982803A (zh) 2012-12-11 2012-12-11 基于hrsf及改进dtw算法的孤立词语音识别方法

Country Status (1)

Country Link
CN (1) CN102982803A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903612A (zh) * 2014-03-26 2014-07-02 浙江工业大学 一种实时语音识别数字的方法
CN104156578A (zh) * 2014-07-31 2014-11-19 南京工程学院 录音时间识别方法
CN104658538A (zh) * 2013-11-18 2015-05-27 中国计量学院 一种基于鸟鸣声的移动式鸟类识别方法
CN104978507A (zh) * 2014-04-14 2015-10-14 中国石油化工集团公司 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN105679312A (zh) * 2016-03-04 2016-06-15 重庆邮电大学 一种噪声环境下声纹识别的语音特征处理方法
CN105931637A (zh) * 2016-04-01 2016-09-07 金陵科技学院 一种可自定义指令识别的语音拍照系统
CN106847268A (zh) * 2015-12-03 2017-06-13 中国科学院声学研究所 一种神经网络声学模型压缩及语音识别方法
CN106971703A (zh) * 2017-03-17 2017-07-21 西北师范大学 一种基于hmm的歌曲合成方法及装置
CN107039037A (zh) * 2017-04-21 2017-08-11 南京邮电大学 一种基于dtw的孤立词语音识别方法
CN107358171A (zh) * 2017-06-22 2017-11-17 华中师范大学 一种基于余弦距离与动态时间规整的手势识别方法
CN107451231A (zh) * 2017-07-24 2017-12-08 上海电力学院 基于相似性查询的示功图分类算法
CN107919137A (zh) * 2017-10-25 2018-04-17 平安普惠企业管理有限公司 远程审批方法、装置、设备及可读存储介质
CN108320750A (zh) * 2018-01-23 2018-07-24 东南大学—无锡集成电路技术研究所 一种基于改进型动态时间规整语音识别算法的实现方法
CN108962249A (zh) * 2018-08-21 2018-12-07 广州市保伦电子有限公司 一种基于mfcc语音特征的语音匹配方法及存储介质
CN109637524A (zh) * 2019-01-18 2019-04-16 徐州工业职业技术学院 一种人工智能交互方法及人工智能交互装置
CN110060697A (zh) * 2019-04-14 2019-07-26 湖南检信智能科技有限公司 一种情感特征提取方法
CN110265049A (zh) * 2019-05-27 2019-09-20 重庆高开清芯科技产业发展有限公司 一种语音识别方法及语音识别系统
CN110534134A (zh) * 2019-09-05 2019-12-03 平安科技(深圳)有限公司 语音检测方法、系统、计算机设备及计算机存储介质
CN110890087A (zh) * 2018-09-10 2020-03-17 北京嘉楠捷思信息技术有限公司 一种基于余弦相似度的语音识别方法和装置
CN111401169A (zh) * 2020-03-06 2020-07-10 国网湖南省电力有限公司 基于监控视频信息的供电营业厅服务人员行为识别方法
CN112951245A (zh) * 2021-03-09 2021-06-11 江苏开放大学(江苏城市职业学院) 一种融入静态分量的动态声纹特征提取方法
CN113571043A (zh) * 2021-07-27 2021-10-29 广州欢城文化传媒有限公司 一种方言模拟力测评方法、装置、电子设备及存储介质
CN114014111A (zh) * 2021-10-12 2022-02-08 北京交通大学 一种无接触式的智能电梯控制系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朱旻昊;张忠能: "DTW算法的研究和改进", 《微型电脑应用》 *
汲清波;卢侃;李康: "在孤立词语音识别中动态时间规正的改进算法", 《计算机工程与应用》 *
许鑫;苏开娜;胡起秀: "几种改进的MFCC特征提取方法在说话人识别中的应用", 《第一届建立和谐人机环境联合学术会议(HHME2005)论文集》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104658538A (zh) * 2013-11-18 2015-05-27 中国计量学院 一种基于鸟鸣声的移动式鸟类识别方法
CN103903612A (zh) * 2014-03-26 2014-07-02 浙江工业大学 一种实时语音识别数字的方法
CN103903612B (zh) * 2014-03-26 2017-02-22 浙江工业大学 一种实时语音识别数字的方法
CN104978507A (zh) * 2014-04-14 2015-10-14 中国石油化工集团公司 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN104978507B (zh) * 2014-04-14 2019-02-01 中国石油化工集团公司 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN104156578B (zh) * 2014-07-31 2017-12-08 南京工程学院 录音时间识别方法
CN104156578A (zh) * 2014-07-31 2014-11-19 南京工程学院 录音时间识别方法
CN106847268A (zh) * 2015-12-03 2017-06-13 中国科学院声学研究所 一种神经网络声学模型压缩及语音识别方法
CN105679312A (zh) * 2016-03-04 2016-06-15 重庆邮电大学 一种噪声环境下声纹识别的语音特征处理方法
CN105679312B (zh) * 2016-03-04 2019-09-10 重庆邮电大学 一种噪声环境下声纹识别的语音特征处理方法
CN105931637A (zh) * 2016-04-01 2016-09-07 金陵科技学院 一种可自定义指令识别的语音拍照系统
CN106971703A (zh) * 2017-03-17 2017-07-21 西北师范大学 一种基于hmm的歌曲合成方法及装置
CN107039037A (zh) * 2017-04-21 2017-08-11 南京邮电大学 一种基于dtw的孤立词语音识别方法
CN107358171A (zh) * 2017-06-22 2017-11-17 华中师范大学 一种基于余弦距离与动态时间规整的手势识别方法
CN107358171B (zh) * 2017-06-22 2019-08-02 华中师范大学 一种基于余弦距离与动态时间规整的手势识别方法
CN107451231A (zh) * 2017-07-24 2017-12-08 上海电力学院 基于相似性查询的示功图分类算法
CN107919137A (zh) * 2017-10-25 2018-04-17 平安普惠企业管理有限公司 远程审批方法、装置、设备及可读存储介质
CN108320750A (zh) * 2018-01-23 2018-07-24 东南大学—无锡集成电路技术研究所 一种基于改进型动态时间规整语音识别算法的实现方法
CN108962249A (zh) * 2018-08-21 2018-12-07 广州市保伦电子有限公司 一种基于mfcc语音特征的语音匹配方法及存储介质
CN110890087A (zh) * 2018-09-10 2020-03-17 北京嘉楠捷思信息技术有限公司 一种基于余弦相似度的语音识别方法和装置
CN109637524A (zh) * 2019-01-18 2019-04-16 徐州工业职业技术学院 一种人工智能交互方法及人工智能交互装置
CN110060697A (zh) * 2019-04-14 2019-07-26 湖南检信智能科技有限公司 一种情感特征提取方法
CN110265049A (zh) * 2019-05-27 2019-09-20 重庆高开清芯科技产业发展有限公司 一种语音识别方法及语音识别系统
CN110534134A (zh) * 2019-09-05 2019-12-03 平安科技(深圳)有限公司 语音检测方法、系统、计算机设备及计算机存储介质
CN111401169A (zh) * 2020-03-06 2020-07-10 国网湖南省电力有限公司 基于监控视频信息的供电营业厅服务人员行为识别方法
CN112951245A (zh) * 2021-03-09 2021-06-11 江苏开放大学(江苏城市职业学院) 一种融入静态分量的动态声纹特征提取方法
CN113571043A (zh) * 2021-07-27 2021-10-29 广州欢城文化传媒有限公司 一种方言模拟力测评方法、装置、电子设备及存储介质
CN113571043B (zh) * 2021-07-27 2024-06-04 广州欢城文化传媒有限公司 一种方言模拟力测评方法、装置、电子设备及存储介质
CN114014111A (zh) * 2021-10-12 2022-02-08 北京交通大学 一种无接触式的智能电梯控制系统和方法

Similar Documents

Publication Publication Date Title
CN102982803A (zh) 基于hrsf及改进dtw算法的孤立词语音识别方法
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN101261832B (zh) 汉语语音情感信息的提取及建模方法
CN106228977B (zh) 基于深度学习的多模态融合的歌曲情感识别方法
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN103345923B (zh) 一种基于稀疏表示的短语音说话人识别方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN104050965A (zh) 具有情感识别功能的英语语音发音质量评价系统及方法
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN103280220A (zh) 一种实时的婴儿啼哭声识别方法
CN102820033A (zh) 一种声纹识别方法
CN111243575A (zh) 基于扩张卷积神经网络的方言种属识别方法
CN104078039A (zh) 基于隐马尔科夫模型的家用服务机器人语音识别系统
CN101620853A (zh) 一种基于改进模糊矢量量化的语音情感识别方法
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN101290766A (zh) 安多藏语语音音节切分的方法
CN106531174A (zh) 基于小波包分解和声谱图特征的动物声音识别方法
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN103456302A (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN103531206A (zh) 一种结合局部与全局信息的语音情感特征提取方法
Thirumuru et al. Novel feature representation using single frequency filtering and nonlinear energy operator for speech emotion recognition
CN102496366B (zh) 一种与文本无关的说话人识别方法
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130320