CN104485103B - 一种基于矢量泰勒级数的多环境模型孤立词识别方法 - Google Patents

一种基于矢量泰勒级数的多环境模型孤立词识别方法 Download PDF

Info

Publication number
CN104485103B
CN104485103B CN201410676529.5A CN201410676529A CN104485103B CN 104485103 B CN104485103 B CN 104485103B CN 201410676529 A CN201410676529 A CN 201410676529A CN 104485103 B CN104485103 B CN 104485103B
Authority
CN
China
Prior art keywords
environment
noisy
noise ratio
signal
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410676529.5A
Other languages
English (en)
Other versions
CN104485103A (zh
Inventor
周琳
束佳明
吕勇
吴镇扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201410676529.5A priority Critical patent/CN104485103B/zh
Publication of CN104485103A publication Critical patent/CN104485103A/zh
Application granted granted Critical
Publication of CN104485103B publication Critical patent/CN104485103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

一种基于矢量泰勒级数的多环境模型孤立词识别方法,通过模型训练阶段:设置基本环境信噪比,利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型;通过孤立词识别阶段,根据训练阶段获得的含噪GMM模型,首先选择与当前测试环境最匹配的信噪比环境;其次基于矢量泰勒级数和纯净环境下的纯净GMM模型,估计测试语音中噪声的均值和方差,并根据最小均方误差准则将测试语音特征参数映射到最匹配信噪比环境下的含噪语音特征参数;最后,选择最匹配信噪比环境下的含噪HMM模型,将映射后的含噪特征参数与对应的含噪HMM模型进行匹配,得到最终的识别结果。本发明误识率比现有矢量泰勒级数大幅降低。

Description

一种基于矢量泰勒级数的多环境模型孤立词识别方法
技术领域
本发明涉及语音识别领域,具体涉及一种基于矢量泰勒级数的多环境模型孤立词识别方法。
背景技术
语音识别是一门涉及很广泛的学科,包括:信号处理、数理统计、模式识别、声学与语音学、人工智能等等。随着现代科学技术的迅猛发展,语音识别技术已经逐渐走出实验室进入人们的日常生活中。虽然语音识别系统在实验室中有较高的识别性能,但在实际环境中,由于语音的变异性和环境噪声的干扰,导致语音识别系统的识别性能不尽如人意。因此,研究语音识别技术,提高语音识别系统在噪声环境下的鲁棒性具有十分重要的实际意义。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于矢量泰勒级数的多环境模型孤立词识别方法,通过建立多种信噪比环境下的GMM模型和HMM模型,改进了现有技术的不足。
技术方案:一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,该方法包括以下步骤:
步骤1)模型训练阶段:设置基本环境信噪比,对白噪声进行加权,将加权结果加载到纯净训练语音中,分别得到对应信噪比条件下的含噪训练语音;利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型;其中含噪GMM模型表示每一信噪比环境下所有孤立词的特征参数分布,含噪HMM模型表示每一信噪比环境下每个孤立词的特征参数分布;
步骤2)孤立词识别阶段:根据训练阶段获得的含噪GMM模型,基于最大似然准则选择与当前测试环境最匹配的信噪比环境,然后基于矢量泰勒级数和纯净环境下的纯净GMM模型,估计测试语音中噪声的均值和方差;接着基于最小均方误差估计准则和最匹配信噪比环境下的含噪GMM模型,将测试环境下的含噪语音特征参数映射到最匹配信噪比环境下的含噪特征参数;最后识别时,选择最匹配信噪比环境下的含噪HMM模型,将映射后的含噪特征参数与对应的含噪HMM模型进行匹配,得到最终的识别结果。
进一步的,设置基本环境包括信噪比分别为0dB、5dB、10dB、15dB、20dB和纯净环境,步骤1)中模型训练阶段的具体包括以下步骤:
步骤1.1)根据设置的信噪比,对白噪声信号进行加权,加载到纯净训练语音数据中,得到不同环境下的含噪训练语音和纯净训练语音,在每一信噪比下,对训练语音进行预处理,所述预处理过程包括预加重、分帧加窗和端点检测;
步骤1.2)对步骤1.1)中得到的每一帧语音信号提取MFCC特征参数;得到不同信噪比环境下所有孤立词的MFCC特征参数;
步骤1.3)在每一信噪比下,利用所有孤立词的MFCC特征参数建立该环境下的含噪GMM模型,得到设置的基本信噪比环境中所有孤立词特征参数的含噪GMM模型;所述含噪GMM模型包括纯净环境下的纯净GMM模型;
步骤1.4)在每一信噪比环境下,利用步骤1.2)中每个孤立词的MFCC特征参数,分别建立各个孤立词的含噪HMM模型;所述含噪HMM模型包括纯净环境下的纯净HMM模型。
进一步的,步骤2)中孤立词识别阶段具体包括以下步骤:
步骤2.1)测试语音经过预处理过程,该预处理过程包括预加重、分帧加窗和端点检测,提取出MFCC参数;
步骤2.2)利用步骤2.1)得到的MFCC参数和训练阶段建立的不同信噪比环境下的含噪GMM模型,基于ML准则估计与测试语音最匹配的最优GMM模型,该最优GMM模型所对应的信噪比环境就是和当前测试语音最为匹配的信噪比环境;
步骤2.3)基于矢量泰勒级数方法和纯净环境下的纯净GMM模型,根据步骤2.1)得到的MFCC参数,估计测试语音中噪声的均值和方差;
步骤2.4)利用步骤2.3)估计出的噪声参数和步骤2.2)得到的最优GMM模型,基于最小均方误差准则,将当前测试语音的MFCC特征参数映射为最匹配信噪比环境下的MFCC特征参数;
步骤2.5)将步骤2.2)得到的最匹配信噪比环境下各个孤立词的含噪HMM模型作为当前识别模型,对经过步骤2.4)映射后的最匹配信噪比环境下的MFCC参数进行概率计算,得到最终的孤立词识别结果。
进一步的,MFCC特征参数为26维,该参数包括13维MFCC参数和13维一阶差分MFCC参数。
有益效果:与现有的矢量泰勒级数孤立词识别技术相比,本发明提出的基于矢量泰勒级数的多环境模型方法能明显提高各种噪声下孤立词识别的性能。在信噪比为0dB的白噪声(white)、工厂噪声(factory)和粉红噪声(pink)噪声环境下,本发明的误识率比现有矢量泰勒级数平均低11.2%。在white、factory和pink三种噪声的平均情况下,当信噪比分别为3dB、8dB及12dB时,本方法相对于现有矢量泰勒级数的平均误识率分别降低了39.6%、29.8%及19.0%。
附图说明
图1为本发明算法总体流程图。
图2为双门限端点检测流程图。
图3为MFCC特征参数提取流程图。
图4为多环境特征补偿的实现流程图。
图5为HMM识别流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
下面对本发明做更进一步的说明。
本发明提供一种基于矢量泰勒级数(VTS:Vector Taylor Series)的多环境模型(VTSME:VTS-based Multi-Environment)孤立词识别方法,主要包括两个阶段:训练阶段和识别阶段。
在模型训练阶段,设定基本环境包括信噪比为0dB、5dB、10dB、15dB、20dB和纯净环境,根据设置的信噪比参数,对白噪声进行加权,加载到纯净的训练语音,从而得到不同信噪比环境下的含噪训练语音。在每一种基本环境下,提取含噪训练语音的MFCC参数,分别训练生成含噪GMM(包括纯净GMM模型)和含噪HMM模型(包括纯净HMM模型),这些含噪GMM模型和含噪HMM模型就组成了基本模型集。
在识别阶段,首先根据测试语音基于最大似然(ML:Maximum Likelihood)准则,在基本模型集中选择一个跟测试环境最匹配的信噪比环境。基于VTS和纯净环境下的GMM模型从测试语音中估计出当前测试环境噪声的均值和方差。然后利用选择的最匹配信噪比环境下的含噪GMM模型和估计出的当前测试语音的噪声参数,将当前测试环境下的MFCC特征参数映射到最匹配信噪比环境的MFCC特征参数。最后识别时,选择最匹配信噪比环境下的各个孤立词的含噪HMM模型,将映射后的含噪MFCC特征参数与对应的含噪HMM模型进行匹配,得到最终的识别结果。
图1给出了基于矢量泰勒级数的多环境模型孤立词识别算法总体流程图。下面结合附图对本发明技术方案的具体实施方式进行详细说明:
1、模型训练阶段:
1.1)本发明中所用的纯净训练语音采样频率为8KHz,量化位数为16比特。根据0dB、5dB、10dB、15dB、20dB的信噪比,将白噪声进行加权处理,和纯净的训练语音进行叠加,得到包含纯净训练语音在内共6种不同信噪比环境下的训练语音。
训练语音经过预加重、分帧加窗和端点检测处理。
预加重使用一个一阶FIR高通滤波器来完成,其传递函数表达式为:H(z)=1-αz-1
其中α是预加重系数,本发明中取值0.9375。
分帧加窗中使用的窗函数是汉明窗,汉明窗的表达式为:
N表示帧长,本发明中取帧长N为128点,帧移为64点。
本发明采用动态双门限方法进行端点检测,根据语音信号对应的短时能量(Et)和短时过零率(Zt)分别设置一高一低两个门限。
其中xt(n)是分帧后的语音信号,t为帧序号,sgn()是符号函数。
动态双门限的端点检测分为四段:静音段、过渡段、语音段及结束。
静音段:端点检测开始后,首先检测语音是否进入静音段,当某帧语音信号的短时能量或过零率超过低门限,则标记当前帧为语音的起点,语音进入过渡段。
过渡段:当语音处于过渡段时,继续观察短时能量和过零率,如果某帧语音的短时能量或过零率低于低门限时,语音回到静音段,如果有连续三帧语音的短时能量或过零率高于高门限,则表示语音进入语音段。
语音段:当语音的短时能量或过零率高于低门限时,语音处于语音段,若某帧语音的短时能量或过零率低于低门限时,则标记当前帧为语音的可疑终点,开始检测语音是否结束。
结束:短时能量或过零率小于低门限的语音帧,若其持续帧数大于最大静音段长度,则认为语音结束,之前标记的终点即语音的终点,反之,如果持续帧数小于最大静音段长度或之后有某帧语音的短时能量或过零率高于低门限,则取消终点的标记,语音仍旧处于语音段,继续检测终点。
该过程如图2所示。
上述最小语音长度是指能够被识别的语音段最小长度,是语音段的最短持续时间;最大静音长度是指语音相邻两个词之间的最长静音持续时间。
短时能量和过零率的高低门限计算公式如下:
其中EH、EL、ZH及ZL分别是短时能量和过零率的高低门限,Emax和Emin分别是原始语音信号短时能量的最大值和最小值,μz和σz分别为前15帧语音信号短时过零率的均值和标准差,Zc为经验值,一般取25。
1.2)MFCC特征参数提取。
对1.1)中得到的每一帧时域信号xt(n)进行快速傅里叶变换(FFT:Fast FourierTransform),得到线性频谱Xt(k)。
将线性频谱Xt(k)通过美尔(Mel)滤波器组,得到Mel频谱St(m)。
其中Wm(k)表示Mel滤波器组中第m个三角滤波器在频率k处的加权因子,Mel滤波器组个数R为20。
对Mel频谱St(m)的对数作离散余弦变换(DCT:Discrete Cosine Transform)变换,将其变换到倒谱域,得到MFCC参数Ct(l)。
L为MFCC参数的阶数,取值13。Ct(l)为所求的MFCC参数。
一阶差分MFCC参数的计算公式为:
其中T是参与差分计算的帧数,是一个常数,本发明中取值为4。
将Ct与ΔCt结合,就构成了本孤立词识别系统的MFCC特征参数,该MFCC参数包括13维MFCC参数和13维一阶差分MFCC参数,其具体计算过程如图3所示。
1.3)经过步骤1.2),得到不同信噪比环境下所有孤立词的MFCC特征参数。在每一信噪比环境下,利用所有孤立词的MFCC特征参数建立该信噪比环境下的含噪GMM模型(包括纯净GMM模型)。GMM使用多个高斯模型来表征随机变量的概率密度函数,其概率密度函数P(x)主要由均值、方差及混合权重等参数决定。
其中x代表训练语音的MFCC特征参数集合,M是GMM的混合数,μx,m与σx,m分别是GMM中第m个高斯单元的均值与方差向量,P(m)是每个高斯单元对应的权重,满足如下条件:
本发明中设置的GMM模型混合数M为100。
每一信噪比环境下的含噪GMM模型是利用该信噪比环境下所有训练孤立词的MFCC参数训练得到,因此反映了MFCC特征参数在该信噪比环境下的概率分布。这样得到信噪比为0dB、5dB、10dB、15dB、20dB噪声环境以及纯净环境共6种环境下的含噪GMM模型。
1.4)HMM模型的训练。
经过步骤1.2)后得到不同信噪比环境下的所有孤立词的MFCC特征参数。在每一信噪比条件下,利用每个孤立词对应的MFCC特征参数训练得到该信噪比环境下对应孤立词的含噪HMM模型(包括纯净HMM模型),这样得到每个信噪比环境下每个孤立词的含噪HMM模型。
每个信噪比环境下每个孤立词的含噪HMM模型(包括纯净HMM模型)的参数集可以记为λw=f(π,A,B)其中π、A、B分别代表初始状态概率分布、状态转移概率分布和观测序列概率分布,w表示所对应的孤立词。
在给定每个信噪比环境下每个孤立词的MFCC特征参数C(n)={C(1),C(2),…,C(26)}和初始模型参数后,通过调整HMM模型参数λw=f(π,A,B)使训练序列的输出概率最大,得到最终的含噪HMM模型参数。本发明中B的概率分布采用混合高斯模型对MFCC特征参数的概率密度函数进行建模,混合数设置为4,状态数设置为6,状态转移矩阵A采用自左向右无跳转结构。模型训练时参数π和A采用随机初始化,参数B采用分段K-均值聚类算法进行初始化,采用Baum-Welch迭代算法来估计HMM的参数,设定收敛阈值为0.0001,当相邻两次输出概率的差值小于该阈值时,认为模型已收敛。初始化HMM模型参数后,就可以开始对HMM训练。
2、识别阶段
2.1)测试语音的采样频率为8KHz,量化位数为16比特。测试语音的预加重、分帧加窗、端点检测和MFCC特征参数提取的处理方法和训练阶段所述相同。
2.2)由2.1)中得到测试语音的MFCC特征参数,利用训练阶段得到的纯净GMM模型,估计测试语音中噪声的均值和方差
噪声均值的估计式如下:
式中yt表示测试语音的第t帧MFCC特征参数。γm(t)=P(m|yt,λ)是先验GMM参数集合λ已知时,yt属于第m个高斯单元的条件概率,γm(t)属于后验概率。
C和C-1分别代表DCT变换矩阵和其逆矩阵。
μn0是加性噪声n的初始均值,μx,m表示纯净GMM模型中第m个高斯单元的均值。σy,m表示含噪语音的GMM模型中第m个高斯单元的方差。
噪声方差的估计式如下:
式中
μy,m表示在估计当前测试环境的噪声均值后,当前测试语音的GMM模型中第m个高斯单元的均值。
σx,m表示纯净语音的GMM模型中第m个高斯单元的方差。
σx0表示纯净语音的初始方差。其余变量的定义与均值估计公式中的相同。
2.3)由2.1)步骤的MFCC特征参数和训练阶段的不同信噪比环境下的含噪GMM模型(包括纯净GMM模型),基于最大似然准则ML选择与当前测试语音最匹配的信噪比环境,其计算过程为:
其中λi表示不同信噪比环境下的含噪GMM模型参数(由于此时有0dB、5dB、10dB、15dB、20dB和纯净环境这6种不同的基本环境,i的取值范围为1≤i≤6),是测试语音的MFCC特征向量,T为当前测试语音的总帧数,表示测试语音MFCC特征向量在各含噪GMM模型下的输出概率。
2.4)由步骤2.2)得到当前测试语音的噪声均值和方差估计值后,利用最匹配信噪比环境下的含噪GMM模型,基于最小均方误差准则,将当前测试环境下的MFCC特征参数映射为最匹配信噪比环境下的MFCC特征参数。
其中为映射到最匹配环境下的MFCC系数,t为帧号。yt为测试语音的第t帧MFCC特征向量。表示根据估计的噪声均值和方差,确定测试语音GMM参数集时,yt属于GMM第m个高斯单元的概率。M为模型混合数,本发明中取值100。μx,m表示最匹配含噪GMM模型中第m个高斯单元的均值。μb为训练噪声b的均值,μn为估计的当前测试环境噪声n的均值,即为步骤2.2)估计的
多环境特征补偿的过程如图4所示。
2.5)选择最匹配信噪比环境下的各个孤立词对应的含噪HMM模型作为当前识别模型,对经过步骤2.4)映射后的MFCC参数进行概率计算,得到最终的孤立词识别结果。
在最匹配信噪比条件下,每个孤立词w对应的含噪HMM模型为λw,测试语音经过2.4)映射到最匹配信噪比环境下的特征参数组成的序列为基于最大似然估计得到最后识别结果:
即为最终的识别孤立词,W为识别孤立词的总个数。
本发明中使用前后向算法得到输出概率采用对数运算,以避免下溢并减少计算量。
HMM识别的过程如图5所示。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,该方法包括以下步骤:
1)模型训练阶段:设置基本环境信噪比,对白噪声进行加权,将加权结果加载到纯净训练语音中,分别得到对应信噪比条件下的含噪训练语音;利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型;其中含噪GMM模型表示每一信噪比环境下所有孤立词的特征参数分布,含噪HMM模型表示每一信噪比环境下每个孤立词的特征参数分布;
2)孤立词识别阶段:根据训练阶段获得的含噪GMM模型,基于最大似然准则选择与当前测试环境最匹配的信噪比环境,然后基于矢量泰勒级数和纯净环境下的纯净GMM模型,估计测试语音中噪声的均值和方差;接着基于最小均方误差估计准则和最匹配信噪比环境下的含噪GMM模型,将测试环境下的含噪语音特征参数映射到最匹配信噪比环境下的含噪特征参数;最后识别时,选择最匹配信噪比环境下的含噪HMM模型,将映射后的含噪特征参数与对应的含噪HMM模型进行匹配,得到最终的识别结果。
2.如权利要求1所述的一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,设置基本环境包括信噪比分别为0dB、5dB、10dB、15dB、20dB和纯净环境,步骤1)中模型训练阶段的具体包括以下步骤:
1.1)根据设置的信噪比,对白噪声信号进行加权,加载到纯净训练语音数据中,得到不同环境下的含噪训练语音和纯净训练语音,在每一信噪比下,对训练语音进行预处理,所述预处理过程包括预加重、分帧加窗和端点检测;
1.2)对步骤1.1)中得到的每一帧语音信号提取MFCC特征参数;得到不同信噪比环境下所有孤立词的MFCC特征参数;
1.3)在每一信噪比下,利用所有孤立词的MFCC特征参数建立该环境下的含噪GMM模型,得到设置的基本信噪比环境中所有孤立词特征参数的含噪GMM模型;所述含噪GMM模型包括纯净环境下的纯净GMM模型;
1.4)在每一信噪比环境下,利用步骤1.2)中每个孤立词的MFCC特征参数,分别建立各个孤立词的含噪HMM模型;所述含噪HMM模型包括纯净环境下的纯净HMM模型。
3.如权利要求1所述的一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,步骤2)中孤立词识别阶段具体包括以下步骤:
2.1)测试语音经过预处理过程,该预处理过程包括预加重、分帧加窗和端点检测,提取出MFCC参数;
2.2)利用步骤2.1)得到的MFCC参数和训练阶段建立的不同信噪比环境下的含噪GMM模型,基于ML准则估计与测试语音最匹配的最优GMM模型,该最优GMM模型所对应的信噪比环境就是和当前测试语音最为匹配的信噪比环境;
2.3)基于矢量泰勒级数方法和纯净环境下的纯净GMM模型,根据步骤2.1)得到的MFCC参数,估计测试语音中噪声的均值和方差;
2.4)利用步骤2.3)估计出的噪声参数和步骤2.2)得到的最优GMM模型,基于最小均方误差准则,将当前测试语音的MFCC特征参数映射为最匹配信噪比环境下的MFCC特征参数;
2.5)将步骤2.2)得到的最匹配信噪比环境下各个孤立词的含噪HMM模型作为当前识别模型,对经过步骤2.4)映射后的最匹配信噪比环境下的MFCC参数进行概率计算,得到最终的孤立词识别结果。
4.如权利要求2或3所述的一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,所述MFCC特征参数为26维,该参数包括13维MFCC参数和13维一阶差分MFCC参数。
CN201410676529.5A 2014-11-21 2014-11-21 一种基于矢量泰勒级数的多环境模型孤立词识别方法 Active CN104485103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410676529.5A CN104485103B (zh) 2014-11-21 2014-11-21 一种基于矢量泰勒级数的多环境模型孤立词识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410676529.5A CN104485103B (zh) 2014-11-21 2014-11-21 一种基于矢量泰勒级数的多环境模型孤立词识别方法

Publications (2)

Publication Number Publication Date
CN104485103A CN104485103A (zh) 2015-04-01
CN104485103B true CN104485103B (zh) 2017-09-01

Family

ID=52759643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410676529.5A Active CN104485103B (zh) 2014-11-21 2014-11-21 一种基于矢量泰勒级数的多环境模型孤立词识别方法

Country Status (1)

Country Link
CN (1) CN104485103B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法
CN105448303B (zh) * 2015-11-27 2020-02-04 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN106601234A (zh) * 2016-11-16 2017-04-26 华南理工大学 一种面向货物分拣的地名语音建模系统的实现方法
CN106601230B (zh) * 2016-12-19 2020-06-02 苏州金峰物联网技术有限公司 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统
CN106782510B (zh) * 2016-12-19 2020-06-02 苏州金峰物联网技术有限公司 基于连续混合高斯hmm模型的地名语音信号识别方法
CN107146615A (zh) * 2017-05-16 2017-09-08 南京理工大学 基于匹配模型二次识别的语音识别方法及系统
CN108694416A (zh) * 2018-05-23 2018-10-23 重庆科技学院 基于多特征融合算法的振动光纤入侵事件检测方法
CN111415653B (zh) * 2018-12-18 2023-08-01 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
CN111754992B (zh) * 2020-06-30 2022-10-18 山东大学 一种噪声鲁棒的音视频双模态语音识别方法及系统
CN112233659A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于双层声学模型的快速语音识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1229971A (zh) * 1997-12-30 1999-09-29 Lg情报通信株式会社 语音识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1229971A (zh) * 1997-12-30 1999-09-29 Lg情报通信株式会社 语音识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Multi-environment model adaptation based on vector Taylor series for robust speech recognition;Yong Lv etc;《Pattern Recognition》;20100930;第43卷(第9期);第3093-3099页 *
噪声鲁棒语音识别中若干问题的研究;雷建军;《中国博士学位论文全文数据库 信息科技辑》;20071215(第06期);第1-28页 *
噪声鲁棒语音识别研究综述;雷建军 等;《计算机应用研究》;20090430;第26卷(第4期);第1210-1216页 *
基于矢量泰勒级数的模型自适应算法;吕勇 等;《电子与信息学报》;20100131;第32卷(第1期);第107-111页 *
基于矢量泰勒级数的鲁棒语音识别;吕勇 等;《天津大学学报》;20110331;第44卷(第3期);第261-265页 *

Also Published As

Publication number Publication date
CN104485103A (zh) 2015-04-01

Similar Documents

Publication Publication Date Title
CN104485103B (zh) 一种基于矢量泰勒级数的多环境模型孤立词识别方法
McLaren et al. Advances in deep neural network approaches to speaker recognition
CN108281146B (zh) 一种短语音说话人识别方法和装置
CN108962237A (zh) 混合语音识别方法、装置及计算机可读存储介质
CN105374352B (zh) 一种语音激活方法及系统
CN104900232A (zh) 一种基于双层gmm结构和vts特征补偿的孤立词识别方法
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
WO2014153800A1 (zh) 语音识别系统
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
Vyas A Gaussian mixture model based speech recognition system using Matlab
CN105139856B (zh) 基于先验知识规整协方差的概率线性鉴别说话人识别方法
CN101853661A (zh) 基于非监督学习的噪声谱估计与语音活动度检测方法
CN103594093A (zh) 基于信噪比软掩蔽语音增强方法
CN113744725B (zh) 一种语音端点检测模型的训练方法及语音降噪方法
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
CN109545198A (zh) 一种基于卷积神经网络的英语口语母语度判断方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Guo et al. Speaker Verification Using Short Utterances with DNN-Based Estimation of Subglottal Acoustic Features.
Abe et al. Robust speech recognition using DNN-HMM acoustic model combining noise-aware training with spectral subtraction.
Pham et al. Using artificial neural network for robust voice activity detection under adverse conditions
Du et al. Cepstral shape normalization (CSN) for robust speech recognition
Liu et al. Noise-robust voice activity detector based on hidden semi-markov models
CN108694950A (zh) 一种基于深度混合模型的说话人确认方法
Reynolds et al. The Lincoln speaker recognition system: NIST EVAL2000

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant