CN108682417A - 语音识别中的小数据语音声学建模方法 - Google Patents
语音识别中的小数据语音声学建模方法 Download PDFInfo
- Publication number
- CN108682417A CN108682417A CN201810455011.7A CN201810455011A CN108682417A CN 108682417 A CN108682417 A CN 108682417A CN 201810455011 A CN201810455011 A CN 201810455011A CN 108682417 A CN108682417 A CN 108682417A
- Authority
- CN
- China
- Prior art keywords
- languages
- multilingual
- acoustic
- target language
- bottleneck
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 54
- 230000009977 dual effect Effects 0.000 claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000000644 propagated effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 230000004069 differentiation Effects 0.000 claims description 2
- 230000008447 perception Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000012545 processing Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 description 6
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明属于电子行业信号处理技术领域,旨在解决只具有少量标注数据的目标语种的声学模型判别性能低的问题。为此,本发明提供了一种语音识别中的小数据语音声学建模方法,包括:通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征;利用融合特征进行训练,以建立目标语种的声学模型。采用该方法有效地克服了现有技术中因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度。
Description
技术领域
本发明涉及电子行业信号处理技术领域,具体涉及一种语音识别中的小数据语音声学建模方法。
背景技术
语音交互是人机交互最为自然的一种方式,而语音识别又是语音交互中最重要的技术。近年来,随着深度学习技术在语音识别中的深入应用,语音识别技术取得了重大突破。
众所周知,深度学习需要大量标注数据,对于普通话或英语来说,这些标注数据很容易获得,然而对于方言来说,很难获取到大量的标注数据,只能采集到少量标注数据。因此,对于建立标注数据量少的目标语种(如方言)的声学模型,采用常规的深度学习方法效果并不理想。
目前,已有学者采用多语种训练技术训练具有大量标注数据的语种的瓶颈网络,再利用该瓶颈网络提取目标语种的瓶颈特征,然后将提取出的瓶颈特征用于辅助目标语种进行声学建模,这样可以从已有资源(如普通话或英语)中迁移知识来辅助目标语种进行建模,此种方法在一定程度上提高了目标语种的识别精度。
但是,该方法目前仍然存在问题。依据上述方法提取出的瓶颈特征往往包含了大量语种相关的信息,这些语种相关的信息对目标语种的识别性能提升不明显,甚至会带来负迁移,导致目标语种的声学模型的精度降低,从而影响目标语种的语音识别精度。
相应地,本领域需要一种新的声学建模方法来解决上述问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有目标语种的声学模型识别精度低的问题,本发明提供了一种语音识别中的小数据语音声学建模方法,该声学建模方法包括:
通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;
将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;
将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征;
利用融合特征进行训练,以建立目标语种的声学模型。
在上述声学建模方法的优选技术方案中,在“对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型”的步骤之前,该声学建模方法还包括:采集多语种以形成多语种语音数据库;基于该多语种语音数据库提取多语种的声学特征。
在上述声学建模方法的优选技术方案中,训练多语种对抗的瓶颈网络模型的准则为多语种对抗训练,其损失函数表示为LAll,其公式表示为:
LAll(θm,θa,θs)=LMul(θm,θs)+λLAdv(θa,θs);
损失函数中模型参数的更新过程表示为:
其中,LAll表示多语种对抗训练的损失函数,LMul表示多语种训练的损失函数,LAdv表示语种对抗判别器的损失函数,m表示语种的类别,θm表示只与语种m相关的模型参数,θa表示语种对抗判别器的模型参数,θs表示所有语种共享的隐层的模型参数,α表示瓶颈网络的学习速率,λ表示LAdv的权重,λ的取值范围为[0,1]。
在上述声学建模方法的优选技术方案中,多语种训练的损失函数LMul的公式表示为:
语种对抗判别器的损失函数LAdv的公式表示为:
其中,M表示所有语种的数目,i表示某一帧语音的序号,Nm表示语种m的所有语音帧总数,P表示概率,表示语种m的第i帧特征向量,表示语种m的第i帧特征向量对应的输出标签。
在上述声学建模方法的优选技术方案中,多语种对抗的瓶颈网络模型包含共享隐层,共享隐层包含若干层,语种对抗判别器通过梯度可逆层连接共享隐层的节点来进行语种判别的对抗,以使共享隐层能学习到语种无关的特征。
在上述声学建模方法的优选技术方案中,在“将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取与语种无关的瓶颈特征”的步骤之前,声学建模方法还包括:采集目标语种以形成目标语种语音数据库;基于目标语种语音数据库提取目标语种的声学特征。
在上述声学建模方法的优选技术方案中,“将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取与语种无关的瓶颈特征”的步骤具体包括:使用目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入;采用前向传播算法,提取语种无关的瓶颈特征。
在上述声学建模方法的优选技术方案中,“利用融合特征进行训练,以建立目标语种的声学模型”的步骤具体包括:使用融合特征作为深度神经网络的输入;利用后向传播算法进行误差反传,训练目标语种的声学模型。
在上述声学建模方法的优选技术方案中,多语种的声学特征和目标语种的声学特征均为梅尔频率倒谱系数声学特征或感知线性预测倒谱系数声学特征或梅尔标度滤波器组声学特征。
本领域技术人员能够理解的是,在本发明的优选技术方案中,通过对具有大量标注数据的现有多语种的声学特征进行对抗训练,以建立一个多语种对抗的瓶颈网络模型,通过将目标语种的声学特征作为该多语种对抗的瓶颈网络模型的输入,提取出语种无关的瓶颈特征,然后将语种无关的瓶颈特征用于辅助建立目标语种的声学模型,这样既能从现有的多语种的声学特征中迁移知识用于辅助目标语种进行声学建模,又能保证所迁移的知识是与语种无关的瓶颈特征,这不仅有效地克服了因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度,使得该目标语种的声学模型能够应用在目标语种只有很少训练数据的情形中。
进一步地,在本发明的优选技术方案中,训练多语种对抗的瓶颈网络模型的算法采用了多语种对抗训练的损失函数,即在原多语种训练的算法中加入语种对抗判别器,使得在输入目标语种的声学特征后,能提取出语种无关的瓶颈特征,语种无关的瓶颈特征与语种自身无关,更具通用性,融合至目标语种的声学特征中后有助于丰富用于训练的知识,进而使该目标语种的声学模型能够应用在目标语种只有很少训练数据的情形中。
更进一步地,语种对抗判别器通过梯度可逆层连接共享隐层的节点来进行语种判别的对抗,采用后向传播算法进行误差反传,能使多语种对抗的瓶颈网络模型的共享隐层学习到语种无关的特征;使得目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入后,采用前向传播算法,能提取到语种无关的瓶颈特征,利用语种无关的瓶颈特征辅助目标语种训练声学模型,进而获得识别度高的目标语种的声学模型。
附图说明
下面参照附图来描述本发明的优选实施方式。附图中:
图1为本发明的语音识别中的小数据语音声学建模方法的主要步骤流程图;
图2为本发明的语音识别中的小数据语音声学建模方法中采用多语种对抗训练技术训练多语种对抗的瓶颈网络模型的具体步骤流程图;
图3为本发明的语音识别中的小数据语音声学建模方法中利用前向传播算法从多语种对抗的瓶颈网络模型中提取语种无关的瓶颈特征的具体步骤流程图;
图4为本发明的语音识别中的小数据语音声学建模方法中利用目标语种的融合特征训练目标语种的声学模型的具体步骤流程图。
图5为本发明的语音识别中的小数据语音声学建模方法的具体步骤流程图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
基于背景技术指出的现有的目标语种的语音识别性能低的问题,本发明提供了一种语音识别中的小数据语音声学建模方法,旨在提高目标语种的识别精度,目标语种即代表小数据语音。
参照图1-5,图1为本发明的语音识别中的小数据语音声学建模方法的主要步骤流程图;图2为本发明的语音识别中的小数据语音声学建模方法中采用多语种对抗训练技术训练多语种对抗的瓶颈网络模型的具体步骤流程图;图3为本发明的语音识别中的小数据语音声学建模方法中利用前向传播算法从多语种对抗的瓶颈网络模型中提取语种无关的瓶颈特征的具体步骤流程图;图4为本发明的语音识别中的小数据语音声学建模方法中利用目标语种的融合特征训练目标语种的声学模型的具体步骤流程图;图5为本发明的语音识别中的小数据语音声学建模方法的具体步骤流程图。
参照图1,本实施例的语音识别中的小数据语音声学建模方法主要包括:
步骤S100、通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型。
具体地,参照图2,采用多语种对抗训练技术训练多语种对抗的瓶颈网络模型的具体步骤包括:
S101、采集多语种的语音数据以形成多语种语音数据库。
S102、基于步骤S101中获得的多语种语音数据库,提取多语种的声学特征。例如对于语音数据库中的每帧音频数据,对其进行特征参数提取,以获得多语种的梅尔频率倒谱系数声学特征。
更具体地,先提取多语种的静态参数,即梅尔频率倒谱系数特征参数,梅尔频率倒谱系数只反映了语音参数的静态特性,其动态特性通过分别计算各个梅尔频率倒谱系数的一阶差分和二阶差分。最终提取的特征是39维,利用这39维属性进行后续状态的识别。
S103、采用多语种对抗训练技术训练瓶颈网络模型,过程中采用后向传播算法进行参数更新。
具体地,本申请提出的多语种对抗训练技术主要是指在现有的多语种训练的损失函数的基础上增加语种对抗的约束,即增加语种对抗判别器来实现,从而保证现有的多语种瓶颈网络模型学习到的特征是跟语种无关的,即学习到的是通用的、不仅仅用在单一语种中的特征。
现有技术中,训练多语种瓶颈网络模型的准则为多语种训练,其损失函数表示为LMul,其公式(1)表示为:
其中,LMul表示多语种训练的损失函数,P表示概率,m表示语种的类别,M表示所有语种的数目,i表示某一帧语音的序号,Nm表示语种m的所有语音帧总数,表示语种m的第i帧特征向量,表示语种m的第i帧特征向量对应的输出标签(三音素),θm表示只与语种m相关的模型参数,θs表示所有语种共享的模型参数。
语种对抗判别器的损失函数LAdv的公式(2)表示为:
其中,LAdv代表语种对抗训练的损失函数,P代表概率,m代表语种的类别,M代表所有语种的数目,i代表某一帧语音的序号,Nm代表语种m的所有语音帧总数,代表语种m的第i帧特征向量,θa代表语种判别器的模型参数,θs代表所有语种共享的模型参数。
故此,多语种对抗训练的损失函数LAll的公式(3)定义如下:
LAll(θm,θa,θs)=LMul(θm,θs)+λLAdv(θa,θs) (3)
损失函数中模型参数的更新过程表示为(4)~(6):
其中,LAll代表多语种对抗训练的损失函数,α瓶颈网络的学习速率,λ代表LAdv的权重,该权重可调节,取值范围为[0,1].
利用步骤S102提取的特征参数,再采用步骤S103所提出的多语种对抗训练技术,并采用后向传播算法进行参数更新,即可以训练获得一个多语种对抗的瓶颈网络模型。
进一步地,本发明中的多语种对抗的瓶颈网络模型是基于长短时记忆神经网络模型构建的,该多语种对抗的瓶颈网络模型包含共享隐层参数θs、各自语种相关的模型参数θm,以及语种判别器参数θa。瓶颈网络模型的共享隐层包含若干层,语种对抗判别器通过梯度可逆层连接共享隐层的节点来进行语种判别的对抗,从而保证多语种对抗的瓶颈网络模型的共享隐层能学习到语种无关的特征。
步骤S200、将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征。
具体地,参照图3,利用前向传播算法从多语种对抗的瓶颈网络模型中提取语种无关的瓶颈特征的步骤具体为:
S201、采集目标语种的语音数据以形成目标语种语音数据库。
S202、基于步骤S201中的目标语种语音数据库提取目标语种的梅尔频率倒谱系数声学特征,具体提取目标语种的梅尔频率倒谱系数声学特征的过程和理由与步骤S102中类似,在此不再赘述。
S203、将步骤S202中提取的目标语种的梅尔频率倒谱系数声学特征作为步骤S104中建立的多语种对抗的瓶颈网络模型的输入。
S204、采用前向传播算法,瓶颈特征的维数取60维。
S205、经前向传播算法计算后,提取语种无关的瓶颈特征。
步骤S300、将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征。
具体地,先将步骤S205中提取的语种无关的瓶颈特征与步骤S202中提取的目标语种的梅尔频率倒谱系数声学特征进行特征融合,得到目标语种的融合特征。特征融合的策略为将上述两种特征拼接到一起,生成目标语种的融合特征。
步骤S400,利用步骤S300中获得的融合特征进行训练,以建立目标语种的声学模型。
具体地,参照图4,在获得融合特征的基础上,进行训练获得目标语种声学模型的具体步骤包括:
S401、将步骤S300中获得的融合特征作为深度神经网络声学模型的输入。
S402、对步骤S401中的深度神经网络声学模型进行训练。
S403、训练过程采用后向传播算法进行误差反传,最后会训练获得目标语种的声学模型。
在本发明的优选技术方案中,通过对具有大量标注数据的现有多语种的声学特征进行对抗训练,以建立一个多语种对抗的瓶颈网络模型,通过将目标语种的声学特征作为该多语种对抗的瓶颈网络模型的输入,提取出语种无关的瓶颈特征,然后将语种无关的瓶颈特征用于辅助建立目标语种的声学模型,这样既能从现有的多语种的声学特征中迁移知识用于辅助目标语种进行声学建模,又能保证所迁移的知识是与语种无关的瓶颈特征,这不仅有效地克服了因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度,使得该目标语种的声学模型能够应用在目标语种只有很少训练数据的情形中。
进一步地,在本发明的优选技术方案中,训练多语种对抗的瓶颈网络模型的算法采用了多语种对抗训练的损失函数,即在原多语种训练的算法中加入语种对抗判别器,使得在输入目标语种的声学特征后,能提取出语种无关的瓶颈特征,语种无关的瓶颈特征与语种自身无关,更具通用性,融合至目标语种的声学特征中后有助于丰富用于训练的知识,进而使该目标语种的声学模型能够应用在目标语种只有很少训练数据的情形中。
更进一步地,语种对抗判别器通过梯度可逆层连接共享隐层的节点来进行语种判别的对抗,采用后向传播算法进行误差反传,能使多语种对抗的瓶颈网络模型的共享隐层学习到语种无关的特征;使得目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入后,采用前向传播算法,能提取到语种无关的瓶颈特征,利用语种无关的瓶颈特征辅助目标语种训练声学模型,进而获得识别度高的目标语种的声学模型。
更具体地,参照图5,本发明的语音识别中的小数据语音声学建模方法的具体步骤如下:
S501、采集多语种的语音数据以形成多语种语音数据库;S502、基于步骤S501中的多语种语音数据库,提取多语种的梅尔频率倒谱系数声学特征;S503、基于步骤S502提取的声学特征,采用多语种对抗训练技术,训练多语种对抗的瓶颈网络模型,建立多语种对抗的瓶颈网络模型;S504、采集目标语种的语音数据以形成目标语种语音数据库;S505、基于步骤S504中的目标语种语音数据库提取目标语种的梅尔频率倒谱系数声学特征;S506、将步骤S505中提取的目标语种的梅尔频率倒谱系数声学特征作为步骤S503中获得的多语种对抗的瓶颈网络模型的输入进行预测;S507、提取语种无关的瓶颈特征;S508、融合语种无关的瓶颈特征与目标语种的梅尔频率倒谱系数声学特征,获得融合特征;S509、将步骤S508中获得的融合特征作为深度神经网络声学模型的输入,训练目标语种的深度神经网络,获得目标语种的声学模型。
关于图5的方法,需要指出的是,尽管本申请中以特定顺序对其进行了描述,但是这种顺序仅仅是示例性的,并不具有限制作用,本领域技术人员可以根据需要对其作出调整。例如,图5中的步骤S501和S504就可以同时进行,步骤S502和S505可以同时进行,甚至S504可以先于步骤S501执行等等。这些顺序调整都没有偏离本发明的基本原理,因此都将落入本发明的保护范围之内。
此外本发明中的多语种对抗的瓶颈网络模型的网络结构和目标语种的声学模型的网络结构不仅限于长短时记忆模型和深度神经网络,也可适用于其他深度神经网络模型及其变种,如深度卷积神经网络、深度循坏神经网络等。提取的声学特征可以是梅尔频率倒谱系数声学特征,也可以是其他特征,比如:感知线性预测倒谱系数声学特征或梅尔标度滤波器组声学特征等。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种语音识别中的小数据语音声学建模方法,其特征在于,所述声学建模方法包括:
通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;
将目标语种的声学特征作为所述多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;
将所述语种无关的瓶颈特征与所述目标语种的声学特征进行融合以获得融合特征;
利用所述融合特征进行训练,以建立所述目标语种的声学模型。
2.根据权利要求1所述的声学建模方法,其特征在于,在“对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型”的步骤之前,所述声学建模方法还包括:
采集多语种以形成多语种语音数据库;
基于所述多语种语音数据库提取所述多语种的声学特征。
3.根据权利要求1所述的声学建模方法,其特征在于,训练所述多语种对抗的瓶颈网络模型的准则为多语种对抗训练,其损失函数表示为LAll,其公式表示为:
LAll(θm,θa,θs)=LMul(θm,θs)+λLAdv(θa,θs);
损失函数中模型参数的更新过程表示为:
其中,LAll表示多语种对抗训练的损失函数,LMul表示多语种训练的损失函数,LAdv表示语种对抗判别器的损失函数,m表示语种的类别,θm表示只与语种m相关的模型参数,θa表示语种对抗判别器的模型参数,θs表示所有语种共享的隐层的模型参数,α表示瓶颈网络的学习速率,λ表示LAdv的权重,λ的取值范围为[0,1]。
4.根据权利要求3所述的声学建模方法,其特征在于,所述多语种训练的损失函数LMul的公式表示为:
所述语种对抗判别器的损失函数LAdv的公式表示为:
其中,M表示所有语种的数目,i表示某一帧语音的序号,Nm表示语种m的所有语音帧总数,P表示概率,表示语种m的第i帧特征向量,yi (m)表示语种m的第i帧特征向量对应的输出标签。
5.根据权利要求1所述的声学建模方法,其特征在于,所述多语种对抗的瓶颈网络模型包含共享隐层,所述共享隐层包含若干层,所述语种对抗判别器通过梯度可逆层连接所述共享隐层的节点来进行语种判别的对抗,以使所述共享隐层能学习到语种无关的特征。
6.根据权利要求1所述的声学建模方法,其特征在于,在“将目标语种的声学特征作为所述多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征”的步骤之前,所述声学建模方法还包括:
采集目标语种以形成目标语种语音数据库;
基于所述目标语种语音数据库提取所述目标语种的声学特征。
7.根据权利要求1所述的声学建模方法,其特征在于,“将目标语种的声学特征作为所述多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征”的步骤具体包括:
使用目标语种的声学特征作为所述多语种对抗的瓶颈网络模型的输入;
采用前向传播算法,提取语种无关的瓶颈特征。
8.根据权利要求1所述的声学建模方法,其特征在于,“利用所述融合特征进行训练,以建立所述目标语种的声学模型”的步骤具体包括:
使用所述融合特征作为深度神经网络的输入;
利用后向传播算法进行误差反传,建立所述目标语种的声学模型。
9.根据权利要求1-8任一项所述的声学建模方法,其特征在于,所述多语种的声学特征和所述目标语种的声学特征均为梅尔频率倒谱系数声学特征或感知线性预测倒谱系数声学特征或梅尔标度滤波器组声学特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810455011.7A CN108682417B (zh) | 2018-05-14 | 2018-05-14 | 语音识别中的小数据语音声学建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810455011.7A CN108682417B (zh) | 2018-05-14 | 2018-05-14 | 语音识别中的小数据语音声学建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108682417A true CN108682417A (zh) | 2018-10-19 |
CN108682417B CN108682417B (zh) | 2020-05-19 |
Family
ID=63806372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810455011.7A Active CN108682417B (zh) | 2018-05-14 | 2018-05-14 | 语音识别中的小数据语音声学建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108682417B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817213A (zh) * | 2019-03-11 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 用于自适应语种进行语音识别的方法、装置及设备 |
CN110084287A (zh) * | 2019-04-11 | 2019-08-02 | 北京迈格威科技有限公司 | 图像识别网络对抗训练方法及装置 |
CN110428818A (zh) * | 2019-08-09 | 2019-11-08 | 中国科学院自动化研究所 | 低资源多语言的语音识别模型、语音识别方法 |
CN110827805A (zh) * | 2019-12-09 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
CN110853617A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN110930980A (zh) * | 2019-12-12 | 2020-03-27 | 苏州思必驰信息科技有限公司 | 一种中英文混合语音的声学识别模型、方法及系统 |
CN111210805A (zh) * | 2018-11-05 | 2020-05-29 | 北京嘀嘀无限科技发展有限公司 | 一种语种鉴别模型训练方法、装置及语种鉴别方法和装置 |
CN111477212A (zh) * | 2019-01-04 | 2020-07-31 | 阿里巴巴集团控股有限公司 | 内容识别、模型训练、数据处理方法、系统及设备 |
CN111816171A (zh) * | 2020-08-31 | 2020-10-23 | 北京世纪好未来教育科技有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN111816160A (zh) * | 2020-07-28 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 普通话和粤语混合语音识别模型训练方法及系统 |
CN112133291A (zh) * | 2019-06-05 | 2020-12-25 | 科大讯飞股份有限公司 | 一种语种识别模型训练、语种识别的方法和相关装置 |
CN112185359A (zh) * | 2020-09-28 | 2021-01-05 | 广州秉理科技有限公司 | 一种基于词覆盖率的语音训练集最小化方法 |
CN113284486A (zh) * | 2021-07-26 | 2021-08-20 | 中国科学院自动化研究所 | 一种环境对抗的鲁棒语音鉴别方法 |
CN113345418A (zh) * | 2021-06-09 | 2021-09-03 | 中国科学技术大学 | 基于跨语种自训练的多语种模型训练方法 |
CN114999463A (zh) * | 2022-08-01 | 2022-09-02 | 深译信息科技(珠海)有限公司 | 语音识别方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604522A (zh) * | 2009-07-16 | 2009-12-16 | 北京森博克智能科技有限公司 | 非特定人的嵌入式中英文混合语音识别方法及系统 |
WO2014025682A2 (en) * | 2012-08-07 | 2014-02-13 | Interactive Intelligence, Inc. | Method and system for acoustic data selection for training the parameters of an acoustic model |
WO2017030006A1 (en) * | 2015-08-17 | 2017-02-23 | Mitsubishi Electric Corporation | Spoken language understanding system |
CN106598937A (zh) * | 2015-10-16 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 用于文本的语种识别方法、装置和电子设备 |
CN106875942A (zh) * | 2016-12-28 | 2017-06-20 | 中国科学院自动化研究所 | 基于口音瓶颈特征的声学模型自适应方法 |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
-
2018
- 2018-05-14 CN CN201810455011.7A patent/CN108682417B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604522A (zh) * | 2009-07-16 | 2009-12-16 | 北京森博克智能科技有限公司 | 非特定人的嵌入式中英文混合语音识别方法及系统 |
WO2014025682A2 (en) * | 2012-08-07 | 2014-02-13 | Interactive Intelligence, Inc. | Method and system for acoustic data selection for training the parameters of an acoustic model |
WO2017030006A1 (en) * | 2015-08-17 | 2017-02-23 | Mitsubishi Electric Corporation | Spoken language understanding system |
CN106598937A (zh) * | 2015-10-16 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 用于文本的语种识别方法、装置和电子设备 |
CN106875942A (zh) * | 2016-12-28 | 2017-06-20 | 中国科学院自动化研究所 | 基于口音瓶颈特征的声学模型自适应方法 |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210805A (zh) * | 2018-11-05 | 2020-05-29 | 北京嘀嘀无限科技发展有限公司 | 一种语种鉴别模型训练方法、装置及语种鉴别方法和装置 |
CN111477212B (zh) * | 2019-01-04 | 2023-10-24 | 阿里巴巴集团控股有限公司 | 内容识别、模型训练、数据处理方法、系统及设备 |
CN111477212A (zh) * | 2019-01-04 | 2020-07-31 | 阿里巴巴集团控股有限公司 | 内容识别、模型训练、数据处理方法、系统及设备 |
CN109817213B (zh) * | 2019-03-11 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 用于自适应语种进行语音识别的方法、装置及设备 |
US12033621B2 (en) | 2019-03-11 | 2024-07-09 | Tencent Technology (Shenzhen) Company Limited | Method for speech recognition based on language adaptivity and related apparatus |
CN109817213A (zh) * | 2019-03-11 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 用于自适应语种进行语音识别的方法、装置及设备 |
CN110491382A (zh) * | 2019-03-11 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
CN110491382B (zh) * | 2019-03-11 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
CN110084287A (zh) * | 2019-04-11 | 2019-08-02 | 北京迈格威科技有限公司 | 图像识别网络对抗训练方法及装置 |
CN112133291B (zh) * | 2019-06-05 | 2024-02-13 | 科大讯飞股份有限公司 | 一种语种识别模型训练、语种识别的方法和相关装置 |
CN112133291A (zh) * | 2019-06-05 | 2020-12-25 | 科大讯飞股份有限公司 | 一种语种识别模型训练、语种识别的方法和相关装置 |
CN110428818A (zh) * | 2019-08-09 | 2019-11-08 | 中国科学院自动化研究所 | 低资源多语言的语音识别模型、语音识别方法 |
CN110428818B (zh) * | 2019-08-09 | 2021-09-28 | 中国科学院自动化研究所 | 低资源多语言的语音识别模型、语音识别方法 |
CN110853617A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN110853617B (zh) * | 2019-11-19 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN110827805A (zh) * | 2019-12-09 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
CN110827805B (zh) * | 2019-12-09 | 2022-11-29 | 思必驰科技股份有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
CN110930980A (zh) * | 2019-12-12 | 2020-03-27 | 苏州思必驰信息科技有限公司 | 一种中英文混合语音的声学识别模型、方法及系统 |
CN111816160A (zh) * | 2020-07-28 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 普通话和粤语混合语音识别模型训练方法及系统 |
CN111816171B (zh) * | 2020-08-31 | 2020-12-11 | 北京世纪好未来教育科技有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN111816171A (zh) * | 2020-08-31 | 2020-10-23 | 北京世纪好未来教育科技有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN112185359B (zh) * | 2020-09-28 | 2023-08-29 | 广州秉理科技有限公司 | 一种基于词覆盖率的语音训练集最小化方法 |
CN112185359A (zh) * | 2020-09-28 | 2021-01-05 | 广州秉理科技有限公司 | 一种基于词覆盖率的语音训练集最小化方法 |
CN113345418A (zh) * | 2021-06-09 | 2021-09-03 | 中国科学技术大学 | 基于跨语种自训练的多语种模型训练方法 |
CN113284486A (zh) * | 2021-07-26 | 2021-08-20 | 中国科学院自动化研究所 | 一种环境对抗的鲁棒语音鉴别方法 |
CN114999463A (zh) * | 2022-08-01 | 2022-09-02 | 深译信息科技(珠海)有限公司 | 语音识别方法、装置、设备及介质 |
CN114999463B (zh) * | 2022-08-01 | 2022-11-15 | 深译信息科技(珠海)有限公司 | 语音识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108682417B (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108682417A (zh) | 语音识别中的小数据语音声学建模方法 | |
CN110825881B (zh) | 一种建立电力知识图谱的方法 | |
CN109408642B (zh) | 一种基于距离监督的领域实体属性关系抽取方法 | |
WO2018153213A1 (zh) | 一种多语言混合语音识别方法 | |
CN109065032B (zh) | 一种基于深度卷积神经网络的外部语料库语音识别方法 | |
CN106782603B (zh) | 智能语音评测方法及系统 | |
CN106897559B (zh) | 一种面向多数据源的症状体征类实体识别方法及装置 | |
WO2020143163A1 (zh) | 基于注意力机制的命名实体识别方法、装置和计算机设备 | |
CN108363687A (zh) | 主观题评分及其模型的构建方法、电子设备及存储介质 | |
CN105404621B (zh) | 一种用于盲人读取汉字的方法及系统 | |
CN110688489B (zh) | 基于交互注意力的知识图谱推演方法、装置和存储介质 | |
CN105551485B (zh) | 语音文件检索方法及系统 | |
CN108962223A (zh) | 一种基于深度学习的语音性别识别方法、设备及介质 | |
CN109213856A (zh) | 一种语义识别方法及系统 | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
CN104575497B (zh) | 一种声学模型建立方法及基于该模型的语音解码方法 | |
CN110866121A (zh) | 一种面向电力领域知识图谱构建方法 | |
Gao et al. | A study on robust detection of pronunciation erroneous tendency based on deep neural network. | |
CN112990296A (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN109949799B (zh) | 一种语义解析方法及系统 | |
CN106601226A (zh) | 音素时长预测建模方法及音素时长预测方法 | |
CN106531157A (zh) | 语音识别中的正则化口音自适应方法 | |
CN105868187B (zh) | 多译本平行语料库的构建方法 | |
CN107491444A (zh) | 基于双语词嵌入技术的并行化词对齐方法 | |
CN111489746A (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |