CN105590625A - 声学模型自适应方法及系统 - Google Patents
声学模型自适应方法及系统 Download PDFInfo
- Publication number
- CN105590625A CN105590625A CN201610156697.0A CN201610156697A CN105590625A CN 105590625 A CN105590625 A CN 105590625A CN 201610156697 A CN201610156697 A CN 201610156697A CN 105590625 A CN105590625 A CN 105590625A
- Authority
- CN
- China
- Prior art keywords
- model
- acoustic
- authentication vector
- characteristic parameters
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 131
- 238000003062 neural network model Methods 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims description 43
- 239000000284 extract Substances 0.000 claims description 37
- 230000019771 cognition Effects 0.000 claims description 24
- 230000003044 adaptive effect Effects 0.000 claims description 21
- 230000007935 neutral effect Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 7
- 241000208340 Araliaceae Species 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明涉及一种声学模型自适应方法及系统,该方法包括:在声学模型训练集上,对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量;在所述声学模型训练集上,对每段语音数据提取声学特征参数;将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起,并作为深度神经网络模型的输入进行训练以形成声学识别模型;以及在语音识别阶段,依据所述声学识别模型进行语音识别以形成识别结果。本发明利用深度神经网络模型提取对应说话人的身份认证矢量,并利用身份认证矢量对深度神经网络模型进行重训练,使得深度神经网络模型具有较好的说话人自适应的特点,提高了语音识别的准确率。
Description
技术领域
本发明涉及语音识别领域,特指一种声学模型自适应方法及系统。
背景技术
现有被证明效果最好的语音识别系统中,声学模型大多是在成百上千小时数据集合上训练的深度网络模型。目前训练声学模型所用的声学特征是与说话人无关的滤波器组(filter-bank,fBank)特征,因此训练出来的声学模型也是与说话人无关的。利用深度网络模型来进行语音识别,由于该模型训练时缺少说话人相关的个性特征,而使得语音识别的准确率较低,且语音识别的适应性较差。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种声学模型自适应方法及系统,解决现有技术中的深度网络模型因缺少说话人相关的个性特征而使得语音识别的准确率较低和语音识别的适应性较差的问题。
实现上述目的的技术方案是:
本发明一种声学模型自适应方法,包括:
在声学模型训练集上,对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量;
在所述声学模型训练集上,对每段语音数据提取声学特征参数;以及
将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起,并作为深度神经网络模型的输入进行训练以形成声学识别模型。
本发明利用深度神经网络模型提取对应说话人的身份认证矢量,并利用身份认证矢量对深度神经网络模型进行重训练,使得深度神经网络模型具有较好的说话人自适应的特点,提高了语音识别的准确率。
本发明声学模型自适应方法的进一步改进在于,对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量,包括:
对所述语音数据提取出39维麦尔倒谱系数,并根据计算公式提取所述身份认证矢量,所述计算公式为:
M[ZF×1]=n[ZF×1]+T[ZF×D]i[D×1](一)
式一中:M为说话人语音的高斯混合模型均值超矢量,n为深度神经网络模型超矢量,T为总变异空间,i为服从N(0,1)分布的身份认证矢量,Z为混合高斯模型的混合度或深度神经网络的senones个数,F为麦尔倒谱系数的维数,F=39维,D为总变异空间的维度;
D的范围在100维至300维之间。
本发明声学模型自适应方法的进一步改进在于,对每段语音数据提取声学特征参数,包括:
对每段语音数据中的每一语音帧提取90维声学特征参数,所述90维声学特征参数组成包括:29维滤波器组特征及其一阶二阶差分,1维基频参数及其一阶二阶差分组成。
本发明声学模型自适应方法的进一步改进在于,将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起,包括:
将所述语音数据中的当前语音帧和其前后5个语音帧的声学特征参数拼接在一起以形成990维声学特征参数;
将与所述当前语音帧的语音数据对应的身份认证矢量与990维声学特征参数拼接在一起。
本发明声学模型自适应方法的进一步改进在于,还包括在语音识别阶段,依据所述声学识别模型进行语音识别以形成识别结果,包括:
提取待识别语音的身份认证矢量以形成待识别的身份认证矢量;
提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数拼接在一起以形成待识别的声学特征参数;
将所述待识别的身份认证矢量和所述待识别的声学特征参数拼接在一起并输入所述声学识别模型,并经所述声学识别模型进行解码以得到识别结果。
本发明还提供了一种声学模型自适应系统,包括:
声学模型训练集单元,用于存储不同说话人的语音数据;
身份认证矢量提取单元,与所述声学模型训练集单元连接,用于对所述声学模型训练集单元中的每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量;
声学特征提取单元,与所述声学模型训练集单元连接,用于对所述声学模型训练集单元中的每段语音数据提取声学特征参数;以及
训练模型单元,与所述身份认证矢量提取单元和所述声学特征提取单元连接,用于将所述身份认证矢量和所述声学特征参数拼接在一起并作为深度神经网络模型的输入对所述深度神经网络模型进行训练,以形成声学识别模型。
本发明声学模型自适应系统的进一步改进在于,所述身份认证矢量提取单元利用计算公式进行计算,所述计算公式为:
M[ZF×1]=n[ZF×1]+T[ZF×D]i[D×1](一)
式一中:M为说话人语音的高斯混合模型均值超矢量,n为深度神经网络模型超矢量,T为总变异空间,i为服从N(0,1)分布的身份认证矢量,Z为混合高斯模型的混合度或深度神经网络的senones个数,F为麦尔倒谱系数的维数,F=39维,D为总变异空间的维度,D的范围在100维至300维之间;
所述身份认证矢量提取单元用于对所述语音数据提取出39维麦尔倒谱系数并根据所述计算公式提取身份认证矢量。
本发明声学模型自适应系统的进一步改进在于,所述声学特征提取单元用于对每段语音数据中的每一语音帧提取90维声学特征参数,所述90维声学特征参数组成包括:29维滤波器组特征及其一阶二阶差分,1维基频参数及其一阶二阶差分。
本发明声学模型自适应系统的进一步改进在于,所述训练模型单元用于从所述声学特征提取单元中获取所述语音数据中的当前语音帧和其前后5个语音帧的声学特征参数并拼接在一起以形成990维声学特征参数,所述训练模型单元还用于从所述身份认证矢量提取单元中获取与所述当前语音帧的语音数据对应的身份认证矢量,并将所获取的身份认证矢量与990维声学特征参数拼接在一起以作为深度神经网络模型的输入。
本发明声学模型自适应系统的进一步改进在于,还包括语音识别单元,所述语音识别单元与所述身份认证矢量提取单元、所述声学特征提取单元和所述训练模型单元连接;
所述语音识别单元通过所述身份认证矢量提取单元从待识别语音中提取身份认证矢量以形成待识别的身份认证矢量;
所述语音识别单元通过所述声学特征提取单元提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数并拼接在一起以形成待识别的声学特征参数;
所述语音识别单元用于将所述待识别的身份认证矢量和所述待识别的声学特征参数拼接在一起并输入所述声学识别模型并经所述声学识别模型进行解码以得到识别结果。
附图说明
图1为本发明声学模型自适应系统的系统图。
图2为本发明声学模型自适应系统中经重训练的深度网络模型的结构示意图。
图3为本发明声学模型自适应方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明提供了一种声学模型自适应方法及系统,用于将说话人的身份认证矢量加入到声学模型训练中以实现说话人的自适应,提高语音识别准确率。在实际应用中,每个说话人的声音都具有其特有的个性,哪怕是发同一个音,任意两位不同说话人的语音信号中所含的声学特性都不同,即每一说话人对应有匹配的身份认证矢量。本发明将提取出的身份认证矢量和声学特征参数拼接后进行深度神经网络模型的训练,形成声学识别模型,在进行识别时,也获取待识别语音的身份认证矢量,将待识别的身份认证矢量和待识别的声学特征参数拼接在一起并输入深度神经网络模型进行识别,识别时深度网络神经模型可找到与待识别的身份认证矢量相适配的身份认证矢量,进而提高了识别的准确率,且具有自适应的特点。下面结合附图对本发明声学模型自适应方法及系统进行说明。
参阅图1,显示了本发明声学模型自适应系统的系统图。下面结合图1,对本发明声学模型自适应系统进行说明。
如图1所示,本发明声学模型自适应系统包括声学模型训练集单元11、身份认证矢量提取单元12、声学特征提取单元13、训练模型单元14、语音识别单元15、以及深度神经网络模型16,声学模型训练集单元11与声学特征提取单元13和身份认证矢量提取单元12连接,身份认证矢量提取单元12和声学特征提取单元13与训练模型单元14连接,身份认证矢量提取单元12还与深度神经网络模型16连接,训练模型单元14也与深度神经网络模型16连接,语音识别单元15与声学特征提取单元13、身份认证矢量提取单元12、训练模型单元14、以及深度神经网络模型16连接。
声学模型训练集单元11用于存储不同说话人的语音数据,在声学模型训练集单元11中存储有上千条来自不同说话人的语音数据,该语音数据用于训模型。
身份认证矢量提取单元12用于对声学模型训练集单元11中的每段语音数据基于深度神经网络模型16提取与说话人相关的身份认证矢量。对每段语音数据提取一个100维至300维的身份认证矢量(i-vector),较佳地,提取100维的身份认证矢量。身份认证矢量为对应说话人的个性特征,现有技术中的说话人识别,一般是以混合模型-通用背景模型(GMM-UBM)为基础的说话人建模方法,而本发明的身份认证矢量提取单元12是基于深度网络模型16来提取说话人的身份认证矢量,相比于以通用背景模型,深度神经网络模型基础上提取出的身份认证矢量对进行说话人身信息捕捉的更加准确。具体地,该身份认证矢量提取单元12利用计算公式进行计算,该计算公式为:
M[ZF×1]=n[ZF×1]+T[ZF×D]i[D×1](一)
在式一中:M为说话人语音的高斯混合模型均值超矢量,n为深度神经网络模型超矢量,T为总变异空间,i为服从N(0,1)分布的身份认证矢量,Z为混合高斯模型的混合度或深度神经网络的senones个数(为了解决模型参数过多的问题,可以使用聚类方法来减小模型中的参数数量,提高模型的可训练性。聚类后的状态就被称为senone,每个senone都是完整独立的高斯混合模型,它是解码过程中的最基本单元),F为麦尔倒谱系数(MFCC)的维数,F=39维,D为总变异空间的维度,D的范围在100维至300维之间,较佳地,D取值100维。
计算模块与公式存储模块连接,计算模块用于对语音数据提取出39维麦尔倒谱系数(MFCC)特征后,根据公式存储模块中存储的计算公式提取身份认证矢量。该计算模块基于计算公式(一),用语音识别中的深度神经网络模型来计算身份认证矢量估计过程中所需的一阶统计量,进而计算得到与说话人相关的100维的身份认证矢量。此时的深度神经网络模型16是通过滤波器组(fbank)特征进行训练的,在训模型时未包括有与说话人相关的身份认证矢量。
声学特征提取单元13用于对声学模型训练集单元11中的每段语音数据提取声学特征参数(fbank),该声学特征参数为现有技术中用于训模型的特征参数。声学特征提取单元13对每段语音数据中的每一语音帧提取90维声学特征参数,该90维声学特征参数由29维滤波器组特征及其一阶二阶差分和1维基频参数(pitch)及其一阶二阶差分组成。通过声学特征提取单元13提取每一语音帧的90维声学特征参数。
训练模型单元14用于将身份认证矢量提取单元12所提取的身份认证矢量和声学特征提取单元13所提取的声学特征参数拼接在一起,拼接后作为深度神经网络模型16的输入对该深度神经网络模型16进行重训练,以形成声学识别模型,该声学识别模型用于语音识别,能够较好的提高语音识别的准确率。具体地,训练模型单元14通过声学特征提取单元13从语音数据中获取当前语音帧和位于该当前语音帧前后的5个语音帧的声学特征参数,每一语音帧获取90维声学特征参数,将一共获取的11个语音帧的声学特征参数以语音帧的顺序进行拼接,形成了990维声学特征参数(fbank特征),而后训练单元14通过身份认证矢量提取单元13从当前语音帧的语音数据中获取说话人的100维身份认证矢量,将该100维的身份认证矢量与990维声学特征参数拼接在一起形成了1090维特征,将该1090维特征作为深度神经网络模型16的输入进行模型训练,得到声学识别模型,该声学识别模型可以称为声学DNN模型。
语音识别单元15依据声学识别模型进行语音识别以形成识别结果,由于该声学识别模型中包括有与说话人相关的身份认证矢量,进而使得语音识别单元15的语音识别的准确率较高。语音识别单元15接收待识别语音,将该待识别语音发送给身份认证矢量提取单元12,通过身份认证矢量提取单元12从待识别语音中提取身份认证矢量以形成待识别的身份认证矢量,该待识别的身份认证矢量为100维;语音识别单元15将待识别语音发送给声学特征提取单元13,通过声学特征提取单元13提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数,每一语音帧提取90维声学特征参数形成待识别的声学特征参数,共提取了990维待识别的声学特征参数;语音识别单元15将100维待识别的身份认证矢量和990维待识别的声学特征参数拼接在一起形成1090维特征作为声学识别模型的输入,经过声学识别模型进行解码以得到识别结果。
如图2所示,经过身份认证矢量和声学特征参数训练的深度神经网络模型16(声学识别模型)的结构从下至上依次包括:输入层161、全连接隐层162、Softmax层163、以及输出层164,输入层161处输入有身份认证矢量和声学特征参数,输入节点为1090;全连接隐层162设有多层,较佳为5层全连接隐层162,每层节点为2048个。
本发明声学模型自适应系统,利用深度神经网络模型提取说话人的身份认证矢量,利用身份认证矢量对深度神经网络模型进行重训练,使得该深度神经网络模型经训练后具有较好的说话人自适应的特点,提高了语音识别的准确率。在语音识别阶段,将待识别语音的声学特征参数和身份认证矢量一并输入声学识别模型中进行解码,通过身份认证矢量在深度神经网络模型中进行匹配解码识别,使得语音识别具有个性化,较好的自适应特点,且识别的准确率高。
下面对本发明声学模型自适应方法进行说明。
如图3所示,本发明声学模型自适应方法包括:
执行步骤S21,对每段语音数据提取与说话人相关的身份认证矢量。针对声学模型训练集中的每段语音数据,基于深度神经网络模型提取与说话人相关的身份认证矢量,在声学模型训练集中包括有上千条来自不同说话人的语音数据,从每一语音数据中提取出与说话人相关的身份认证矢量,也就是说话人的个性特征,通过身份认证矢量可以鉴别说话人的身份,通过积累大量的身份认证矢量,对于语音识别准确率的提高具有较大的帮助。接着执行步骤S22。
执行步骤S22,对每段语音数据提取声学特征参数,针对声学模型训练集中的每段语音数据,提取声学特征参数(fbank声学特征)。具体地,对每段语音数据中的每一语音帧提取90维声学特征参数,该90维声学特征参数由29维滤波器组特征及其一阶二阶差分和1维基频参数及其一阶二阶差分组成。接着执行步骤S23。
执行步骤S23,将身份认证矢量和声学特征参数拼接并训练深度神经网络模型以形成声学识别模型。把从语音数据中提取的身份认证矢量和声学特征参数拼接在一起,而后作为深度神经网络模型的输入进行训练以形成声学识别模型。通过声学特征参数结合身份认证矢量一起训模型,使得深度神经网络模型具有较好的说话人自适应特点,在语音识别时,深度神经网络模型能够匹配说话人的身份认证矢量,提高语音识别的准确率。接着执行步骤S24。
执行步骤S24,依据经训练的深度神经网络模型进行语音识别,以形成识别结果。通过声学识别模型进行语音识别,由于声学识别模型在训练时加入了身份认证矢量,使得声学识别模型在语音识别时具有较好的说话人自适应特点,能够鉴别说话人的身份认证矢量,提高语音识别的准确率。
本发明声学模型自适应方法对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量,包括:对语音数据提取出39维麦尔倒谱系数(MFCC)特征后,并根据计算公式提取语音数据中说话人的身份认证矢量(i-vector),计算公式为:
M[ZF×1]=n[ZF×1]+T[ZF×D]i[D×1](一)
式一中:M为说话人语音的高斯混合模型均值超矢量,n为深度神经网络模型超矢量,T为总变异空间,i为服从N(0,1)分布的身份认证矢量,Z为混合高斯模型的混合度或深度神经网络的senones个数,F为麦尔倒谱系数的维数,D为总变异空间的维度,D的范围在100维至300维之间,较佳地,D取值100维。即提取语音数据100维身份认证矢量。
本发明声学模型自适应方法中,将从语音数据中提取的身份认证矢量和声学特征参数拼接在一起包括:将语音数据中的当前语音帧和其前后5个语音帧的声学特征参数拼接在一起,每一语音帧提取90维声学特征,形成了990维声学特征参数;将与当前语音帧的语音数据对应的身份认证矢量与990维声学特征参数拼接在一起,这样就形成了1090维特征,该1090维特征作为训练深度神经网络模型的输入。
在语音识别阶段,依据声学识别模型进行语音识别以形成识别结果,包括:提取待识别语音的身份认证矢量以形成待识别的身份认证矢量,该待识别的身份认证矢量为100维待识别的身份认证矢量,提取方法同上,再次不再赘述;提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数拼接在一起以形成待识别的声学特征参数,每一语音帧提取90维声学特征参数,待识别的声学特征参数为990维待识别的声学特征参数;将待识别的身份认证矢量和待识别的声学特征参数拼接在一起形成1090维特征并输入声学识别模型,并经声学识别模型进行解码以得到识别结果。
深度神经网络模型在语音识别中,被证明为具有最好的识别效果,由于该深度神经网络模型在训模型时采用与说话人无关的声学特征参数(fbank),使得深度神经网络模型的说话人自适应性能差,在语音识别的准确率上有缺陷。本发明利用深度神经网络模型提取说话人的身份认证矢量,在结合身份认证矢量和声学特征参数对深度神经网络模型进行重训练,旨在提高深度神经网络模型的说话人自适应特点,提高深度神经网络模型的准确率。
将本发明的声学模型自适应方法及系统与基于深度神经网络的声学模型在多个中文语音识别测试集合上进行测试后,本发明的声学模型自适应方法及系统在语音识别词错误率上比传统的基于深度神经网络的声学模型降低了10%至15%。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。
Claims (10)
1.一种声学模型自适应方法,其特征在于,包括:
在声学模型训练集上,对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量;
在所述声学模型训练集上,对每段语音数据提取声学特征参数;以及
将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起,并作为深度神经网络模型的输入进行训练以形成声学识别模型。
2.如权利要求1所述的声学模型自适应方法,其特征在于,对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量,包括:
对所述语音数据提取出39维麦尔倒谱系数,并根据计算公式提取所述身份认证矢量,所述计算公式为:
M[ZF×1]=n[ZF×1]+T[ZF×D]i[D×1](一)
式一中:M为说话人语音的高斯混合模型均值超矢量,n为深度神经网络模型超矢量,T为总变异空间,i为服从N(0,l)分布的身份认证矢量,Z为混合高斯模型的混合度或深度神经网络的senones个数,F为麦尔倒谱系数的维数,F=39维,D为总变异空间的维度;
D的范围在100维至300维之间。
3.如权利要求1或2所述的声学模型自适应方法,其特征在于,对每段语音数据提取声学特征参数,包括:
对每段语音数据中的每一语音帧提取90维声学特征参数,所述90维声学特征参数组成包括:29维滤波器组特征及其一阶二阶差分,1维基频参数及其一阶二阶差分。
4.如权利要求3所述的声学模型自适应方法,其特征在于,将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起,包括:
将所述语音数据中的当前语音帧和其前后5个语音帧的声学特征参数拼接在一起以形成990维声学特征参数;
将与所述当前语音帧的语音数据对应的身份认证矢量与990维声学特征参数拼接在一起。
5.如权利要求1所述的声学模型自适应方法,其特征在于,还包括在语音识别阶段,依据所述声学识别模型进行语音识别以形成识别结果,包括:
提取待识别语音的身份认证矢量以形成待识别的身份认证矢量;
提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数拼接在一起以形成待识别的声学特征参数;
将所述待识别的身份认证矢量和所述待识别的声学特征参数拼接在一起并输入所述声学识别模型,并经所述声学识别模型进行解码以得到识别结果。
6.一种声学模型自适应系统,其特征在于,包括:
声学模型训练集单元,用于存储不同说话人的语音数据;
身份认证矢量提取单元,与所述声学模型训练集单元连接,用于对所述声学模型训练集单元中的每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量;
声学特征提取单元,与所述声学模型训练集单元连接,用于对所述声学模型训练集单元中的每段语音数据提取声学特征参数;以及
训练模型单元,与所述身份认证矢量提取单元和所述声学特征提取单元连接,用于将所述身份认证矢量和所述声学特征参数拼接在一起并作为深度神经网络模型的输入对所述深度神经网络模型进行训练,以形成声学识别模型。
7.如权利要求6所述的声学模型自适应系统,其特征在于,所述身份认证矢量提取单元利用计算公式进行计算,所述计算公式为:
M[ZF×1]=n[ZF×1]+T[ZF×D]i[D×1](一)
式一中:M为说话人语音的高斯混合模型均值超矢量,n为深度神经网络模型超矢量,T为总变异空间,i为服从N(0,l)分布的身份认证矢量,Z为混合高斯模型的混合度或深度神经网络的senones个数,F为麦尔倒谱系数的维数,F=39维,D为总变异空间的维度,D的范围在100维至300维之间;
所述身份认证矢量提取单元用于对所述语音数据提取出39维麦尔倒谱系数并根据所述计算公式提取身份认证矢量。
8.如权利要求6或7所述的声学模型自适应系统,其特征在于,所述声学特征提取单元用于对每段语音数据中的每一语音帧提取90维声学特征参数,所述90维声学特征参数组成包括:29维滤波器组特征及其一阶二阶差分,1维基频参数及其一阶二阶差分。
9.如权利要求8所述的声学模型自适应系统,其特征在于,所述训练模型单元用于从所述声学特征提取单元中获取所述语音数据中的当前语音帧和其前后5个语音帧的声学特征参数并拼接在一起以形成990维声学特征参数,所述训练模型单元还用于从所述身份认证矢量提取单元中获取与所述当前语音帧的语音数据对应的身份认证矢量,并将所获取的身份认证矢量与990维声学特征参数拼接在一起以作为深度神经网络模型的输入。
10.如权利要求6所述的声学模型自适应系统,其特征在于,还包括语音识别单元,所述语音识别单元与所述身份认证矢量提取单元、所述声学特征提取单元和所述训练模型单元连接;
所述语音识别单元通过所述身份认证矢量提取单元从待识别语音中提取身份认证矢量以形成待识别的身份认证矢量;
所述语音识别单元通过所述声学特征提取单元提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数并拼接在一起以形成待识别的声学特征参数;
所述语音识别单元用于将所述待识别的身份认证矢量和所述待识别的声学特征参数拼接在一起并输入所述声学识别模型并经所述声学识别模型进行解码以得到识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610156697.0A CN105590625A (zh) | 2016-03-18 | 2016-03-18 | 声学模型自适应方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610156697.0A CN105590625A (zh) | 2016-03-18 | 2016-03-18 | 声学模型自适应方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105590625A true CN105590625A (zh) | 2016-05-18 |
Family
ID=55930148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610156697.0A Pending CN105590625A (zh) | 2016-03-18 | 2016-03-18 | 声学模型自适应方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105590625A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106601240A (zh) * | 2015-10-16 | 2017-04-26 | 三星电子株式会社 | 归一化声学模型的输入数据的设备和方法和语音识别设备 |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
CN107784372A (zh) * | 2016-08-24 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 目标对象属性的预测方法、装置和系统 |
CN108109613A (zh) * | 2017-12-12 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 用于智能对话语音平台的音频训练和识别方法及电子设备 |
CN108281137A (zh) * | 2017-01-03 | 2018-07-13 | 中国科学院声学研究所 | 一种全音素框架下的通用语音唤醒识别方法及系统 |
CN108320732A (zh) * | 2017-01-13 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 生成目标说话人语音识别计算模型的方法和装置 |
CN108417207A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
WO2018153214A1 (zh) * | 2017-02-27 | 2018-08-30 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
CN108492820A (zh) * | 2018-03-20 | 2018-09-04 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN108922560A (zh) * | 2018-05-02 | 2018-11-30 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN110176243A (zh) * | 2018-08-10 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 语音增强方法、模型训练方法、装置和计算机设备 |
CN110349585A (zh) * | 2018-04-04 | 2019-10-18 | 富士通株式会社 | 语音认证方法和信息处理设备 |
CN111009237A (zh) * | 2019-12-12 | 2020-04-14 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN111901737A (zh) * | 2020-08-07 | 2020-11-06 | 浙江大学 | 一种基于智能终端的助听器参数自适应方法 |
CN112599118A (zh) * | 2020-12-30 | 2021-04-02 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN113241093A (zh) * | 2021-04-02 | 2021-08-10 | 深圳达实智能股份有限公司 | 地铁站紧急状态下声音识别方法、装置和电子设备 |
US11899765B2 (en) | 2019-12-23 | 2024-02-13 | Dts Inc. | Dual-factor identification system and method with adaptive enrollment |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103632667A (zh) * | 2013-11-25 | 2014-03-12 | 华为技术有限公司 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
CN105122279A (zh) * | 2013-03-06 | 2015-12-02 | 微软技术许可有限责任公司 | 在识别系统中保守地适配深度神经网络 |
-
2016
- 2016-03-18 CN CN201610156697.0A patent/CN105590625A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105122279A (zh) * | 2013-03-06 | 2015-12-02 | 微软技术许可有限责任公司 | 在识别系统中保守地适配深度神经网络 |
CN103632667A (zh) * | 2013-11-25 | 2014-03-12 | 华为技术有限公司 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
Non-Patent Citations (2)
Title |
---|
LUCIANA FERRER等: ""Study of Senone-Based Deep Neural Network Approaches for Spoken Language Recognition"", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
VISHWA GUPTA等: ""I-VECTOR-BASED SPEAKER ADAPTATION OF DEEP NEURAL NETWORKS FOR FRENCH BROADCAST AUDIO TRANSCRIPTION"", 《2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTIC, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106601240A (zh) * | 2015-10-16 | 2017-04-26 | 三星电子株式会社 | 归一化声学模型的输入数据的设备和方法和语音识别设备 |
CN106601240B (zh) * | 2015-10-16 | 2021-10-01 | 三星电子株式会社 | 归一化声学模型的输入数据的设备和方法和语音识别设备 |
CN107784372A (zh) * | 2016-08-24 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 目标对象属性的预测方法、装置和系统 |
CN108281137A (zh) * | 2017-01-03 | 2018-07-13 | 中国科学院声学研究所 | 一种全音素框架下的通用语音唤醒识别方法及系统 |
CN108320732A (zh) * | 2017-01-13 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 生成目标说话人语音识别计算模型的方法和装置 |
WO2018153214A1 (zh) * | 2017-02-27 | 2018-08-30 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
US11120789B2 (en) | 2017-02-27 | 2021-09-14 | Yutou Technology (Hangzhou) Co., Ltd. | Training method of hybrid frequency acoustic recognition model, and speech recognition method |
CN107146601B (zh) * | 2017-04-07 | 2020-07-24 | 南京邮电大学 | 一种用于说话人识别系统的后端i-vector增强方法 |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
CN108109613A (zh) * | 2017-12-12 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 用于智能对话语音平台的音频训练和识别方法及电子设备 |
CN108417207A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
CN108492820B (zh) * | 2018-03-20 | 2021-08-10 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN108492820A (zh) * | 2018-03-20 | 2018-09-04 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN110349585B (zh) * | 2018-04-04 | 2023-05-05 | 富士通株式会社 | 语音认证方法和信息处理设备 |
CN110349585A (zh) * | 2018-04-04 | 2019-10-18 | 富士通株式会社 | 语音认证方法和信息处理设备 |
CN108922560A (zh) * | 2018-05-02 | 2018-11-30 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN108922560B (zh) * | 2018-05-02 | 2022-12-02 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN110176243A (zh) * | 2018-08-10 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 语音增强方法、模型训练方法、装置和计算机设备 |
CN110176243B (zh) * | 2018-08-10 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 语音增强方法、模型训练方法、装置和计算机设备 |
CN111009237A (zh) * | 2019-12-12 | 2020-04-14 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN111009237B (zh) * | 2019-12-12 | 2022-07-01 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置、电子设备及存储介质 |
US11899765B2 (en) | 2019-12-23 | 2024-02-13 | Dts Inc. | Dual-factor identification system and method with adaptive enrollment |
CN111901737A (zh) * | 2020-08-07 | 2020-11-06 | 浙江大学 | 一种基于智能终端的助听器参数自适应方法 |
CN112599118B (zh) * | 2020-12-30 | 2024-02-13 | 中国科学技术大学 | 语音识别方法、装置、电子设备和存储介质 |
CN112599118A (zh) * | 2020-12-30 | 2021-04-02 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN113241093A (zh) * | 2021-04-02 | 2021-08-10 | 深圳达实智能股份有限公司 | 地铁站紧急状态下声音识别方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105590625A (zh) | 声学模型自适应方法及系统 | |
Wang et al. | Cam++: A fast and efficient network for speaker verification using context-aware masking | |
Yamamoto et al. | Probability density distillation with generative adversarial networks for high-quality parallel waveform generation | |
CN112509564A (zh) | 基于连接时序分类和自注意力机制的端到端语音识别方法 | |
CN109256118B (zh) | 基于生成式听觉模型的端到端汉语方言识别系统和方法 | |
CN113724712B (zh) | 一种基于多特征融合和组合模型的鸟声识别方法 | |
CN109754790B (zh) | 一种基于混合声学模型的语音识别系统及方法 | |
CN106104674A (zh) | 混合语音识别 | |
JP2020515905A (ja) | 話者の確認方法及び話者の確認装置 | |
CN105096941A (zh) | 语音识别方法以及装置 | |
CN104036774A (zh) | 藏语方言识别方法及系统 | |
CN107767861A (zh) | 语音唤醒方法、系统及智能终端 | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
CN109949821B (zh) | 一种利用cnn的u-net结构进行远场语音去混响的方法 | |
CN107068167A (zh) | 融合多种端到端神经网络结构的说话人感冒症状识别方法 | |
CN109887489A (zh) | 基于生成对抗网络的深度特征的语音去混响方法 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
CN111128211B (zh) | 一种语音分离方法及装置 | |
CN109767760A (zh) | 基于振幅和相位信息的多目标学习的远场语音识别方法 | |
CN104751227A (zh) | 深度神经网络的构建方法及系统 | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
CN114495973A (zh) | 一种基于双路径自注意力机制的特定人语音分离方法 | |
CN110728991B (zh) | 一种改进的录音设备识别算法 | |
CN117789699B (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN105023574B (zh) | 一种实现合成语音增强的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20170930 Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03 Applicant after: Cloud known sound (Shanghai) Technology Co. Ltd. Address before: 200031 Shanghai Xuhui District Qinzhou North Road 1198, 82 buildings, 2 stories, 01 rooms Applicant before: SHANGHAI YUZHIYI INFORMATION TECHNOLOGY CO., LTD. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160518 |
|
RJ01 | Rejection of invention patent application after publication |