CN108682417B - 语音识别中的小数据语音声学建模方法 - Google Patents

语音识别中的小数据语音声学建模方法 Download PDF

Info

Publication number
CN108682417B
CN108682417B CN201810455011.7A CN201810455011A CN108682417B CN 108682417 B CN108682417 B CN 108682417B CN 201810455011 A CN201810455011 A CN 201810455011A CN 108682417 B CN108682417 B CN 108682417B
Authority
CN
China
Prior art keywords
language
acoustic
bottleneck
features
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810455011.7A
Other languages
English (en)
Other versions
CN108682417A (zh
Inventor
陶建华
易江燕
温正棋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201810455011.7A priority Critical patent/CN108682417B/zh
Publication of CN108682417A publication Critical patent/CN108682417A/zh
Application granted granted Critical
Publication of CN108682417B publication Critical patent/CN108682417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于电子行业信号处理技术领域,旨在解决只具有少量标注数据的目标语种的声学模型判别性能低的问题。为此,本发明提供了一种语音识别中的小数据语音声学建模方法,包括:通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征;利用融合特征进行训练,以建立目标语种的声学模型。采用该方法有效地克服了现有技术中因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度。

Description

语音识别中的小数据语音声学建模方法
技术领域
本发明涉及电子行业信号处理技术领域,具体涉及一种语音识别中的小数据语音声学建模方法。
背景技术
语音交互是人机交互最为自然的一种方式,而语音识别又是语音交互中最重要的技术。近年来,随着深度学习技术在语音识别中的深入应用,语音识别技术取得了重大突破。
众所周知,深度学习需要大量标注数据,对于普通话或英语来说,这些标注数据很容易获得,然而对于方言来说,很难获取到大量的标注数据,只能采集到少量标注数据。因此,对于建立标注数据量少的目标语种(如方言)的声学模型,采用常规的深度学习方法效果并不理想。
目前,已有学者采用多语种训练技术训练具有大量标注数据的语种的瓶颈网络,再利用该瓶颈网络提取目标语种的瓶颈特征,然后将提取出的瓶颈特征用于辅助目标语种进行声学建模,这样可以从已有资源(如普通话或英语)中迁移知识来辅助目标语种进行建模,此种方法在一定程度上提高了目标语种的识别精度。
但是,该方法目前仍然存在问题。依据上述方法提取出的瓶颈特征往往包含了大量语种相关的信息,这些语种相关的信息对目标语种的识别性能提升不明显,甚至会带来负迁移,导致目标语种的声学模型的精度降低,从而影响目标语种的语音识别精度。
相应地,本领域需要一种新的声学建模方法来解决上述问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有目标语种的声学模型识别精度低的问题,本发明提供了一种语音识别中的小数据语音声学建模方法,该声学建模方法包括:
通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;
将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;
将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征;
利用融合特征进行训练,以建立目标语种的声学模型。
在上述声学建模方法的优选技术方案中,在“对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型”的步骤之前,该声学建模方法还包括:采集多语种以形成多语种语音数据库;基于该多语种语音数据库提取多语种的声学特征。
在上述声学建模方法的优选技术方案中,训练多语种对抗的瓶颈网络模型的准则为多语种对抗训练,其损失函数表示为LAll,其公式表示为:
LAllmas)=LMulms)+λLAdvas);
损失函数中模型参数的更新过程表示为:
Figure BDA0001659425120000021
Figure BDA0001659425120000022
Figure BDA0001659425120000023
其中,LAll表示多语种对抗训练的损失函数,LMul表示多语种训练的损失函数,LAdv表示语种对抗判别器的损失函数,m表示语种的类别,θm表示只与语种m相关的模型参数,θa表示语种对抗判别器的模型参数,θs表示所有语种共享的隐层的模型参数,α表示瓶颈网络的学习速率,λ表示LAdv的权重,λ的取值范围为[0,1]。
在上述声学建模方法的优选技术方案中,多语种训练的损失函数LMul的公式表示为:
Figure BDA0001659425120000024
语种对抗判别器的损失函数LAdv的公式表示为:
Figure BDA0001659425120000025
其中,M表示所有语种的数目,i表示某一帧语音的序号,Nm表示语种m的所有语音帧总数,P表示概率,
Figure BDA0001659425120000026
表示语种m的第i帧特征向量,
Figure BDA0001659425120000027
表示语种m的第i帧特征向量对应的输出标签。
在上述声学建模方法的优选技术方案中,多语种对抗的瓶颈网络模型包含共享隐层,共享隐层包含若干层,语种对抗判别器通过梯度可逆层连接共享隐层的节点来进行语种判别的对抗,以使共享隐层能学习到语种无关的特征。
在上述声学建模方法的优选技术方案中,在“将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取与语种无关的瓶颈特征”的步骤之前,声学建模方法还包括:采集目标语种以形成目标语种语音数据库;基于目标语种语音数据库提取目标语种的声学特征。
在上述声学建模方法的优选技术方案中,“将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取与语种无关的瓶颈特征”的步骤具体包括:使用目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入;采用前向传播算法,提取语种无关的瓶颈特征。
在上述声学建模方法的优选技术方案中,“利用融合特征进行训练,以建立目标语种的声学模型”的步骤具体包括:使用融合特征作为深度神经网络的输入;利用后向传播算法进行误差反传,训练目标语种的声学模型。
在上述声学建模方法的优选技术方案中,多语种的声学特征和目标语种的声学特征均为梅尔频率倒谱系数声学特征或感知线性预测倒谱系数声学特征或梅尔标度滤波器组声学特征。
本领域技术人员能够理解的是,在本发明的优选技术方案中,通过对具有大量标注数据的现有多语种的声学特征进行对抗训练,以建立一个多语种对抗的瓶颈网络模型,通过将目标语种的声学特征作为该多语种对抗的瓶颈网络模型的输入,提取出语种无关的瓶颈特征,然后将语种无关的瓶颈特征用于辅助建立目标语种的声学模型,这样既能从现有的多语种的声学特征中迁移知识用于辅助目标语种进行声学建模,又能保证所迁移的知识是与语种无关的瓶颈特征,这不仅有效地克服了因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度,使得该目标语种的声学模型能够应用在目标语种只有很少训练数据的情形中。
进一步地,在本发明的优选技术方案中,训练多语种对抗的瓶颈网络模型的算法采用了多语种对抗训练的损失函数,即在原多语种训练的算法中加入语种对抗判别器,使得在输入目标语种的声学特征后,能提取出语种无关的瓶颈特征,语种无关的瓶颈特征与语种自身无关,更具通用性,融合至目标语种的声学特征中后有助于丰富用于训练的知识,进而使该目标语种的声学模型能够应用在目标语种只有很少训练数据的情形中。
更进一步地,语种对抗判别器通过梯度可逆层连接共享隐层的节点来进行语种判别的对抗,采用后向传播算法进行误差反传,能使多语种对抗的瓶颈网络模型的共享隐层学习到语种无关的特征;使得目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入后,采用前向传播算法,能提取到语种无关的瓶颈特征,利用语种无关的瓶颈特征辅助目标语种训练声学模型,进而获得识别度高的目标语种的声学模型。
附图说明
下面参照附图来描述本发明的优选实施方式。附图中:
图1为本发明的语音识别中的小数据语音声学建模方法的主要步骤流程图;
图2为本发明的语音识别中的小数据语音声学建模方法中采用多语种对抗训练技术训练多语种对抗的瓶颈网络模型的具体步骤流程图;
图3为本发明的语音识别中的小数据语音声学建模方法中利用前向传播算法从多语种对抗的瓶颈网络模型中提取语种无关的瓶颈特征的具体步骤流程图;
图4为本发明的语音识别中的小数据语音声学建模方法中利用目标语种的融合特征训练目标语种的声学模型的具体步骤流程图。
图5为本发明的语音识别中的小数据语音声学建模方法的具体步骤流程图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
基于背景技术指出的现有的目标语种的语音识别性能低的问题,本发明提供了一种语音识别中的小数据语音声学建模方法,旨在提高目标语种的识别精度,目标语种即代表小数据语音。
参照图1-5,图1为本发明的语音识别中的小数据语音声学建模方法的主要步骤流程图;图2为本发明的语音识别中的小数据语音声学建模方法中采用多语种对抗训练技术训练多语种对抗的瓶颈网络模型的具体步骤流程图;图3为本发明的语音识别中的小数据语音声学建模方法中利用前向传播算法从多语种对抗的瓶颈网络模型中提取语种无关的瓶颈特征的具体步骤流程图;图4为本发明的语音识别中的小数据语音声学建模方法中利用目标语种的融合特征训练目标语种的声学模型的具体步骤流程图;图5为本发明的语音识别中的小数据语音声学建模方法的具体步骤流程图。
参照图1,本实施例的语音识别中的小数据语音声学建模方法主要包括:
步骤S100、通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型。
具体地,参照图2,采用多语种对抗训练技术训练多语种对抗的瓶颈网络模型的具体步骤包括:
S101、采集多语种的语音数据以形成多语种语音数据库。
S102、基于步骤S101中获得的多语种语音数据库,提取多语种的声学特征。例如对于语音数据库中的每帧音频数据,对其进行特征参数提取,以获得多语种的梅尔频率倒谱系数声学特征。
更具体地,先提取多语种的静态参数,即梅尔频率倒谱系数特征参数,梅尔频率倒谱系数只反映了语音参数的静态特性,其动态特性通过分别计算各个梅尔频率倒谱系数的一阶差分和二阶差分。最终提取的特征是39维,利用这39维属性进行后续状态的识别。
S103、采用多语种对抗训练技术训练瓶颈网络模型,过程中采用后向传播算法进行参数更新。
具体地,本申请提出的多语种对抗训练技术主要是指在现有的多语种训练的损失函数的基础上增加语种对抗的约束,即增加语种对抗判别器来实现,从而保证现有的多语种瓶颈网络模型学习到的特征是跟语种无关的,即学习到的是通用的、不仅仅用在单一语种中的特征。
现有技术中,训练多语种瓶颈网络模型的准则为多语种训练,其损失函数表示为LMul,其公式(1)表示为:
Figure BDA0001659425120000051
其中,LMul表示多语种训练的损失函数,P表示概率,m表示语种的类别,M表示所有语种的数目,i表示某一帧语音的序号,Nm表示语种m的所有语音帧总数,
Figure BDA0001659425120000061
表示语种m的第i帧特征向量,
Figure BDA0001659425120000062
表示语种m的第i帧特征向量对应的输出标签(三音素),θm表示只与语种m相关的模型参数,θs表示所有语种共享的模型参数。
语种对抗判别器的损失函数LAdv的公式(2)表示为:
Figure BDA0001659425120000063
其中,LAdv代表语种对抗训练的损失函数,P代表概率,m代表语种的类别,M代表所有语种的数目,i代表某一帧语音的序号,Nm代表语种m的所有语音帧总数,
Figure BDA0001659425120000064
代表语种m的第i帧特征向量,θa代表语种判别器的模型参数,θs代表所有语种共享的模型参数。
故此,多语种对抗训练的损失函数LAll的公式(3)定义如下:
LAllmas)=LMulms)+λLAdvas) (3)
损失函数中模型参数的更新过程表示为(4)~(6):
Figure BDA0001659425120000065
Figure BDA0001659425120000066
Figure BDA0001659425120000067
其中,LAll代表多语种对抗训练的损失函数,α瓶颈网络的学习速率,λ代表LAdv的权重,该权重可调节,取值范围为[0,1].
利用步骤S102提取的特征参数,再采用步骤S103所提出的多语种对抗训练技术,并采用后向传播算法进行参数更新,即可以训练获得一个多语种对抗的瓶颈网络模型。
进一步地,本发明中的多语种对抗的瓶颈网络模型是基于长短时记忆神经网络模型构建的,该多语种对抗的瓶颈网络模型包含共享隐层参数θs、各自语种相关的模型参数θm,以及语种判别器参数θa。瓶颈网络模型的共享隐层包含若干层,语种对抗判别器通过梯度可逆层连接共享隐层的节点来进行语种判别的对抗,从而保证多语种对抗的瓶颈网络模型的共享隐层能学习到语种无关的特征。
步骤S200、将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征。
具体地,参照图3,利用前向传播算法从多语种对抗的瓶颈网络模型中提取语种无关的瓶颈特征的步骤具体为:
S201、采集目标语种的语音数据以形成目标语种语音数据库。
S202、基于步骤S201中的目标语种语音数据库提取目标语种的梅尔频率倒谱系数声学特征,具体提取目标语种的梅尔频率倒谱系数声学特征的过程和理由与步骤S102中类似,在此不再赘述。
S203、将步骤S202中提取的目标语种的梅尔频率倒谱系数声学特征作为步骤S104中建立的多语种对抗的瓶颈网络模型的输入。
S204、采用前向传播算法,瓶颈特征的维数取60维。
S205、经前向传播算法计算后,提取语种无关的瓶颈特征。
步骤S300、将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征。
具体地,先将步骤S205中提取的语种无关的瓶颈特征与步骤S202中提取的目标语种的梅尔频率倒谱系数声学特征进行特征融合,得到目标语种的融合特征。特征融合的策略为将上述两种特征拼接到一起,生成目标语种的融合特征。
步骤S400,利用步骤S300中获得的融合特征进行训练,以建立目标语种的声学模型。
具体地,参照图4,在获得融合特征的基础上,进行训练获得目标语种声学模型的具体步骤包括:
S401、将步骤S300中获得的融合特征作为深度神经网络声学模型的输入。
S402、对步骤S401中的深度神经网络声学模型进行训练。
S403、训练过程采用后向传播算法进行误差反传,最后会训练获得目标语种的声学模型。
在本发明的优选技术方案中,通过对具有大量标注数据的现有多语种的声学特征进行对抗训练,以建立一个多语种对抗的瓶颈网络模型,通过将目标语种的声学特征作为该多语种对抗的瓶颈网络模型的输入,提取出语种无关的瓶颈特征,然后将语种无关的瓶颈特征用于辅助建立目标语种的声学模型,这样既能从现有的多语种的声学特征中迁移知识用于辅助目标语种进行声学建模,又能保证所迁移的知识是与语种无关的瓶颈特征,这不仅有效地克服了因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度,使得该目标语种的声学模型能够应用在目标语种只有很少训练数据的情形中。
进一步地,在本发明的优选技术方案中,训练多语种对抗的瓶颈网络模型的算法采用了多语种对抗训练的损失函数,即在原多语种训练的算法中加入语种对抗判别器,使得在输入目标语种的声学特征后,能提取出语种无关的瓶颈特征,语种无关的瓶颈特征与语种自身无关,更具通用性,融合至目标语种的声学特征中后有助于丰富用于训练的知识,进而使该目标语种的声学模型能够应用在目标语种只有很少训练数据的情形中。
更进一步地,语种对抗判别器通过梯度可逆层连接共享隐层的节点来进行语种判别的对抗,采用后向传播算法进行误差反传,能使多语种对抗的瓶颈网络模型的共享隐层学习到语种无关的特征;使得目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入后,采用前向传播算法,能提取到语种无关的瓶颈特征,利用语种无关的瓶颈特征辅助目标语种训练声学模型,进而获得识别度高的目标语种的声学模型。
更具体地,参照图5,本发明的语音识别中的小数据语音声学建模方法的具体步骤如下:
S501、采集多语种的语音数据以形成多语种语音数据库;S502、基于步骤S501中的多语种语音数据库,提取多语种的梅尔频率倒谱系数声学特征;S503、基于步骤S502提取的声学特征,采用多语种对抗训练技术,训练多语种对抗的瓶颈网络模型,建立多语种对抗的瓶颈网络模型;S504、采集目标语种的语音数据以形成目标语种语音数据库;S505、基于步骤S504中的目标语种语音数据库提取目标语种的梅尔频率倒谱系数声学特征;S506、将步骤S505中提取的目标语种的梅尔频率倒谱系数声学特征作为步骤S503中获得的多语种对抗的瓶颈网络模型的输入进行预测;S507、提取语种无关的瓶颈特征;S508、融合语种无关的瓶颈特征与目标语种的梅尔频率倒谱系数声学特征,获得融合特征;S509、将步骤S508中获得的融合特征作为深度神经网络声学模型的输入,训练目标语种的深度神经网络,获得目标语种的声学模型。
关于图5的方法,需要指出的是,尽管本申请中以特定顺序对其进行了描述,但是这种顺序仅仅是示例性的,并不具有限制作用,本领域技术人员可以根据需要对其作出调整。例如,图5中的步骤S501和S504就可以同时进行,步骤S502和S505可以同时进行,甚至S504可以先于步骤S501执行等等。这些顺序调整都没有偏离本发明的基本原理,因此都将落入本发明的保护范围之内。
此外本发明中的多语种对抗的瓶颈网络模型的网络结构和目标语种的声学模型的网络结构不仅限于长短时记忆模型和深度神经网络,也可适用于其他深度神经网络模型及其变种,如深度卷积神经网络、深度循坏神经网络等。提取的声学特征可以是梅尔频率倒谱系数声学特征,也可以是其他特征,比如:感知线性预测倒谱系数声学特征或梅尔标度滤波器组声学特征等。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种语音识别中的小数据语音声学建模方法,其特征在于,所述声学建模方法包括:
通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;
将目标语种的声学特征作为所述多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;
将所述语种无关的瓶颈特征与所述目标语种的声学特征进行融合以获得融合特征;
利用所述融合特征进行训练,以建立所述目标语种的声学模型;
其中,训练所述多语种对抗的瓶颈网络模型的准则为多语种对抗训练,其损失函数表示为LAll,其公式表示为:
LAllmas)=LMulms)+λLAdvas);
损失函数中模型参数的更新过程表示为:
Figure FDA0002401434980000011
Figure FDA0002401434980000012
Figure FDA0002401434980000013
其中,LAll表示多语种对抗训练的损失函数,LMul表示多语种训练的损失函数,LAdv表示语种对抗判别器的损失函数,m表示语种的类别,θm表示只与语种m相关的模型参数,θa表示语种对抗判别器的模型参数,θs表示所有语种共享的隐层的模型参数,α表示瓶颈网络的学习速率,λ表示LAdv的权重,λ的取值范围为[0,1]。
2.根据权利要求1所述的声学建模方法,其特征在于,在“对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型”的步骤之前,所述声学建模方法还包括:
采集多语种以形成多语种语音数据库;
基于所述多语种语音数据库提取所述多语种的声学特征。
3.根据权利要求1所述的声学建模方法,其特征在于,所述多语种训练的损失函数LMul的公式表示为:
Figure FDA0002401434980000021
所述语种对抗判别器的损失函数LAdv的公式表示为:
Figure FDA0002401434980000022
其中,M表示所有语种的数目,i表示某一帧语音的序号,Nm表示语种m的所有语音帧总数,P表示概率,
Figure FDA0002401434980000023
表示语种m的第i帧特征向量,
Figure FDA0002401434980000024
表示语种m的第i帧特征向量对应的输出标签。
4.根据权利要求1所述的声学建模方法,其特征在于,所述多语种对抗的瓶颈网络模型包含共享隐层,所述共享隐层包含若干层,所述语种对抗判别器通过梯度可逆层连接所述共享隐层的节点来进行语种判别的对抗,以使所述共享隐层能学习到语种无关的特征。
5.根据权利要求1所述的声学建模方法,其特征在于,在“将目标语种的声学特征作为所述多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征”的步骤之前,所述声学建模方法还包括:
采集目标语种以形成目标语种语音数据库;
基于所述目标语种语音数据库提取所述目标语种的声学特征。
6.根据权利要求1所述的声学建模方法,其特征在于,“将目标语种的声学特征作为所述多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征”的步骤具体包括:
使用目标语种的声学特征作为所述多语种对抗的瓶颈网络模型的输入;
采用前向传播算法,提取语种无关的瓶颈特征。
7.根据权利要求1所述的声学建模方法,其特征在于,“利用所述融合特征进行训练,以建立所述目标语种的声学模型”的步骤具体包括:
使用所述融合特征作为深度神经网络的输入;
利用后向传播算法进行误差反传,建立所述目标语种的声学模型。
8.根据权利要求1-7任一项所述的声学建模方法,其特征在于,所述多语种的声学特征和所述目标语种的声学特征均为梅尔频率倒谱系数声学特征或感知线性预测倒谱系数声学特征或梅尔标度滤波器组声学特征。
CN201810455011.7A 2018-05-14 2018-05-14 语音识别中的小数据语音声学建模方法 Active CN108682417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810455011.7A CN108682417B (zh) 2018-05-14 2018-05-14 语音识别中的小数据语音声学建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810455011.7A CN108682417B (zh) 2018-05-14 2018-05-14 语音识别中的小数据语音声学建模方法

Publications (2)

Publication Number Publication Date
CN108682417A CN108682417A (zh) 2018-10-19
CN108682417B true CN108682417B (zh) 2020-05-19

Family

ID=63806372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810455011.7A Active CN108682417B (zh) 2018-05-14 2018-05-14 语音识别中的小数据语音声学建模方法

Country Status (1)

Country Link
CN (1) CN108682417B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210805A (zh) * 2018-11-05 2020-05-29 北京嘀嘀无限科技发展有限公司 一种语种鉴别模型训练方法、装置及语种鉴别方法和装置
CN111477212B (zh) * 2019-01-04 2023-10-24 阿里巴巴集团控股有限公司 内容识别、模型训练、数据处理方法、系统及设备
CN110491382B (zh) 2019-03-11 2020-12-04 腾讯科技(深圳)有限公司 基于人工智能的语音识别方法、装置及语音交互设备
CN110084287A (zh) * 2019-04-11 2019-08-02 北京迈格威科技有限公司 图像识别网络对抗训练方法及装置
CN112133291B (zh) * 2019-06-05 2024-02-13 科大讯飞股份有限公司 一种语种识别模型训练、语种识别的方法和相关装置
CN110428818B (zh) * 2019-08-09 2021-09-28 中国科学院自动化研究所 低资源多语言的语音识别模型、语音识别方法
CN110853617B (zh) * 2019-11-19 2022-03-01 腾讯科技(深圳)有限公司 一种模型训练的方法、语种识别的方法、装置及设备
CN110827805B (zh) * 2019-12-09 2022-11-29 思必驰科技股份有限公司 语音识别模型训练方法、语音识别方法和装置
CN110930980B (zh) * 2019-12-12 2022-08-05 思必驰科技股份有限公司 一种中英文混合语音的声学识别方法及系统
CN111816160A (zh) * 2020-07-28 2020-10-23 苏州思必驰信息科技有限公司 普通话和粤语混合语音识别模型训练方法及系统
CN111816171B (zh) * 2020-08-31 2020-12-11 北京世纪好未来教育科技有限公司 语音识别模型的训练方法、语音识别方法及装置
CN112185359B (zh) * 2020-09-28 2023-08-29 广州秉理科技有限公司 一种基于词覆盖率的语音训练集最小化方法
CN113345418B (zh) * 2021-06-09 2024-08-09 中国科学技术大学 基于跨语种自训练的多语种模型训练方法
CN113284486B (zh) * 2021-07-26 2021-11-16 中国科学院自动化研究所 一种环境对抗的鲁棒语音鉴别方法
CN114999463B (zh) * 2022-08-01 2022-11-15 深译信息科技(珠海)有限公司 语音识别方法、装置、设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604522B (zh) * 2009-07-16 2011-09-28 北京森博克智能科技有限公司 非特定人的嵌入式中英文混合语音识别方法及系统
WO2014025682A2 (en) * 2012-08-07 2014-02-13 Interactive Intelligence, Inc. Method and system for acoustic data selection for training the parameters of an acoustic model
US9607616B2 (en) * 2015-08-17 2017-03-28 Mitsubishi Electric Research Laboratories, Inc. Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks
CN106598937B (zh) * 2015-10-16 2019-10-18 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN106875942B (zh) * 2016-12-28 2021-01-22 中国科学院自动化研究所 基于口音瓶颈特征的声学模型自适应方法
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法

Also Published As

Publication number Publication date
CN108682417A (zh) 2018-10-19

Similar Documents

Publication Publication Date Title
CN108682417B (zh) 语音识别中的小数据语音声学建模方法
CN107305768B (zh) 语音交互中的易错字校准方法
US11862143B2 (en) Systems and methods for processing speech dialogues
US20200160836A1 (en) Multi-dialect and multilingual speech recognition
CN110517663B (zh) 一种语种识别方法及识别系统
CN100559462C (zh) 语音处理装置、语音处理方法、程序、和记录介质
CN112069826B (zh) 融合主题模型和卷积神经网络的垂直域实体消歧方法
Arora et al. Phonological feature-based speech recognition system for pronunciation training in non-native language learning
CN104575497B (zh) 一种声学模型建立方法及基于该模型的语音解码方法
CN113707125A (zh) 一种多语言语音合成模型的训练方法及装置
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
EP4085451B1 (en) Language-agnostic multilingual modeling using effective script normalization
JP7034279B2 (ja) フィルタリングモデル訓練方法および音声認識方法
WO2017177484A1 (zh) 一种语音识别解码的方法及装置
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
CN113096647A (zh) 语音模型训练方法、装置和电子设备
JP2024512579A (ja) ルックアップテーブルリカレント言語モデル
Zhao et al. Tibetan Multi-Dialect Speech and Dialect Identity Recognition.
Zhao et al. Tibetan multi-dialect speech recognition using latent regression Bayesian network and end-to-end mode
Xie et al. L2 mispronunciation verification based on acoustic phone embedding and siamese networks
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Thomas et al. The IBM BOLT speech transcription system.
Yan et al. Low-resource Tibetan Dialect Acoustic Modeling Based on Transfer Learning.
CN111128181B (zh) 背诵题评测方法、装置以及设备
KR20230156795A (ko) 단어 분할 규칙화

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant