CN109616103A - 声学模型的训练方法、装置及存储介质 - Google Patents
声学模型的训练方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109616103A CN109616103A CN201910018912.4A CN201910018912A CN109616103A CN 109616103 A CN109616103 A CN 109616103A CN 201910018912 A CN201910018912 A CN 201910018912A CN 109616103 A CN109616103 A CN 109616103A
- Authority
- CN
- China
- Prior art keywords
- node
- network
- training
- chinese
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 164
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 210000005036 nerve Anatomy 0.000 claims abstract description 90
- 238000013528 artificial neural network Methods 0.000 claims description 63
- 238000012545 processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 8
- 210000004218 nerve net Anatomy 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 238000013499 data model Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 7
- 230000001537 neural effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供一种声学模型的训练方法、装置及存储介质,其中方法包括:采用中文训练数据训练初始模型得到第一神经网络;根据第一神经网络得到第二神经网络;其中,第二神经网络的隐层采用第一神经网络的第一隐层初始化,N+S个节点的权值采用随机初始化;采用中文训练数据训练第二神经网络得到第三神经网络;采用中文训练数据和英文训练数据对第三神经网络进行训练得到声学模型。本发明提供的声学模型的训练方法、装置及存储介质中,训练得到的声学模型应用于中英文混合语音数据的识别时,提高了声学模型对中文语音数据的识别率。
Description
技术领域
本发明涉及电子技术,本发明尤其涉及一种声学模型的训练方法、装置及存储介质。
背景技术
随着电子技术的发展,语音识别技术逐渐进入人们生活中的工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。作为与人们生活最为接近的生活场景,常见的电子设备一般都能够具备语音识别功能,以实现用户与电子设备之间进行语音内容的交互,进而使得用户能够通过语音控制电子设备中的通讯录、输入法、地图、车载导航等软件实现相关功能。电子设备大多通过其所具有的语音识别模块通过机器学习的方式,实现对用户所说的语音内容进行识别。其中,当语音识别模块获取用户的语音数据后,通过神经网络分类器对语音数据进行特征提取、并将语音数据的特征与声学模型进行对比后,最终通过分类器确定用户的语音数据对应所表达的语义。
由于电子设备中的语音识别模块通常会内置神经网络中的声学模型,在电子设备识别语音数据前需要对声学模型进行训练。而针对用户与电子设备之间进行语音内容的交互时,用户所说出口的语音中通常是中英文数据混合组成,例如“今天的weather(天气)怎么样”的应用场景,向语音识别模块中内置的声学模型提出了既能识别中文语音数据又能够识别英文语音数据的要求。因此,现有技术中,在声学模型的训练时,通常会同时将X个类别的中文语音数据和Y个类别的英文语音数据组成的中英文混合的语音数据共同作为神经网络的输入层,经过神经网络进行特征提取后,得到神经网络输出层的X+Y个节点,该X+Y个节点所具有的权值用于,根据待识别的语音数据与该X+Y个节点的语音数据的相似程度进行分类识别。
但是采用现有技术训练声学模型的过程中,由于神经网络训练过程中反向传播的特性,输出层每个节点的权值都会参与神经网络隐层节点的计算,而对于同时作为神经网络输入层节点输入神经网络的中英文混合语音数据由于发音方式不同而会互相影响。实际训练得到的声学模型在后续识别语音数据过程中,对于中文语音数据的识别率较低。因此,如何提高中英文混合语音数据训练的声学模型对中文语音数据的识别率,是目前亟待解决的技术问题。
发明内容
本发明提供一种声学模型的训练方法、装置及存储介质,将经过中文语音数据训练得到的第一神经网络,并向第一神经网络的输出层添加随机化的对应中文语音数据类别的节点和对应英文语音数据类别的节点得到第二神经网络后,通过中文语音数据训练第二神经网络得到第三神经网络,再通过中文语音数据和英文语音数据组成的中英文混合数据训练第三神经网络得到声学模型。
由于本发明提供的声学模型在训练过程中,通过中文语音数据得到的第一神经网络和第二神经网络的隐层的权值,强化了用于中英文混合数据训练的第三神经网络的隐层中的权值,从而在声学模型应用于中英文混合语音数据的识别时,提高了声学模型对中文语音数据的识别率。
本发明第一方面提供一种声学模型的训练方法,包括:
采用中文训练数据训练初始模型得到第一神经网络;其中,所述第一神经网络包含第一隐层和第一输出层,所述第一输出层包含N个节点,所述N个节点对应中文语音数据的N个类别,所述N为大于等于2的整数;
根据所述第一神经网络得到第二神经网络;其中,所述第二神经网络的输出层包含N+S个节点,N个节点对应中文语音数据的N个类别,S个节点对应英文语音数据的S个类别,所述第二神经网络的隐层采用所述第一隐层初始化,所述N+S个节点权值采用随机初始化,所述N+S为大于等于3的整数;
采用所述中文训练数据训练所述第二神经网络得到第三神经网络;
采用所述中文训练数据和所述英文训练数据对所述第三神经网络进行训练得到声学模型。
在本发明第一方面一实施例中,所述采用中文训练数据训练初始模型得到第一神经网络,包括:
将所述N个中文训练数据作为所述初始模型的输入层节点,采用基于CTC的训练准则,优化神经网络,得到第一神经网络。
在本发明第一方面一实施例中,所述根据所述第一神经网络得到第二神经网络之前,还包括:
采用高斯随机化的方式获取所述N+S个节点的权值的初始值。
在本发明第一方面一实施例中,所述将所述N个中文训练数据作为初始模型的输入,采用基于CTC的训练准则,优化神经网络,得到第一神经网络,包括:
根据基于CTC训练准则的损失函数得到第一神经网络;其中,yk为节点k的权值,为CTC路径中属于节点k的权值,p(z|x)为CTC所经过路径的总权值。
在本发明第一方面一实施例中,所述采用高斯随机化的方式获取所述N+S个节点的权值的初始值,包括:
根据确定标准正态分布Z后,根据Y=(u|Z=v)获取所述后S个节点的权值的初始值;
其中,U1和U2为服从[0,1]均匀分布的随机数,u为S个节点的权值的初始值的均值,v为S个节点的权值的初始值的方差。
本发明第二方面提供一种声学模型的训练装置,包括:
训练模块,用于采用中文训练数据训练初始模型得到第一神经网络;其中,所述第一神经网络包含第一隐层和第一输出层,所述第一输出层包含N个节点,所述N个节点对应所述中文语音数据的N个类别,所述N为大于等于2的整数;
处理模块,用于根据所述第一神经网络得到第二神经网络;其中,所述第二神经网络的输出层包含N+S个节点,N个节点对应所述中文语音数据的N个类别,S个节点对应英文语音数据的S个类别,所述第二神经网络的隐层采用所述第一隐层初始化,所述N+S个节点的权值采用随机初始化,所述N+S为大于等于3的整数;
所述训练模块还用于,采用所述中文训练数据训练所述第二神经网络得到第三神经网络;
所述训练模块还用于,采用所述中文训练数据和所述英文训练数据对所述第三神经网络进行训练得到声学模型。
在本发明第二方面一实施例中,所述训练模块具体用于,
将所述N个中文训练数据作为输入,采用基于CTC的训练准则,优化神经网络,得到第一神经网络。
在本发明第二方面一实施例中,所述处理模块还用于,
采用高斯随机化的方式获取所述N+S个节点的权值的初始值。
在本发明第二方面一实施例中,所述训练模块具体用于,
根据基于CTC训练准则的损失函数得到第一神经网络;其中,yk为节点k的权值,为CTC路径中属于节点k的权值,p(z|x)为CTC所经过路径的总权值。
在本发明第二方面一实施例中,所述处理模块具体用于,
根据确定标准正态分布Z后,根据Y=(u|Z=v)获取所述后S个节点的权值的初始值;
其中,U1和U2为服从[0,1]均匀分布的随机数,u为S个节点的权值的初始值的均值,v为S个节点的权值的初始值的方差。
本发明第三方面提供一种电子设备,包括:
处理器,存储器以及计算机程序;其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如前述第一方面任一实施例所述的方法的指令。
本发明第四方面提供一种计算即可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时,实现如前述第一方面任一实施例所述的方法。
综上,本发明提供一种声学模型的训练方法、装置及存储介质,其中方法包括:采用中文训练数据训练初始模型得到第一神经网络;其中,第一神经网络包含第一隐层和第一输出层,第一输出层包含N个节点,N个节点对应中文语音数据的N个类别,N为大于等于2的整数;根据第一神经网络得到第二神经网络;其中,第二神经网络的输出层包含N+S个节点,N个节点对应中文语音数据的N个类别,S个节点对应英文语音数据的N个类别,第二神经网络的隐层采用第一隐层初始化,N+S个节点的权值采用随机初始化,N+S为大于等于3的整数;采用中文训练数据训练第二神经网络得到第三神经网络;采用中文训练数据和英文训练数据对第三神经网络进行训练得到声学模型。本发明提供的声学模型的训练方法、装置及存储介质中,将经过中文语音数据训练得到的第一神经网络,并向第一神经网络的输出层添加随机化的对应中文语音数据类别的节点和对应英文语音数据类别的节点得到第二神经网络后,通过中文语音数据训练第二神经网络得到第三神经网络,再通过中文语音数据和英文语音数据组成的中英文混合数据训练第三神经网络得到声学模型。即,通过中文语音数据得到的第一神经网络和第二神经网络的隐层的权值,强化了用于中英文混合数据训练的第三神经网络的隐层中的权值,从而在声学模型应用于中英文混合语音数据的识别时,提高了声学模型对中文语音数据的识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的声学模型的训练方法应用场景示意图;
图2为现有技术中声学模型的训练方法一实施例的应用示意图;
图3为本发明提供的声学模型的训练方法一实施例的流程示意图;
图4为本发明提供的声学模型的训练方法一实施例的应用示意图;
图5为本发明提供的声学模型的训练装置一实施例的结构示意图;
图6为本发明提供的电子设备一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在介绍本发明提供的声学模型的训练方法前,先结合图1对本申请提供的声学模型的训练方法所应用的场景以及现有技术中存在的问题进行说明。
其中,图1为本发明提供的声学模型的训练方法应用场景示意图。如图1所示为电子设备2对用户1的语音数据进行语义识别的场景,以电子设备为手机为例。当用户1希望使用手机2查看天气时,可能会说出“今天weather(天气)怎么样”的语音,该语音中既包含中文语音数据“今天”和“怎么样”,又包含英文语音数据“weather”。而当电子设备2获取到用户的语音数据后,通过内置的语音识别模块21对用户的语音数据进行识别。其中,语音识别模块21具体将用户的语音数据“今天weather怎么样”作为声学模型210的输入数据,在本发明各实施例中,声学模型210基于神经网络实现。当用户的语音数据作为声学模型210的输入层,并经过声学模型210的隐层和输出层的处理后,声学模型210的根据输出层节点各节点的权值确定用户的语音数据的语义为“今天”、“weather”“怎么样”。并在确定用户语音数据的语义后,电子设备2可以响应用户1的语音数据例如在其显示屏幕22的显示界面上向用户显示天气。
具体地,用于对语音数据进行语义识别的声学模型210需要提前语音识别服务的提供商进行训练并内置在手机2中,以在手机2获取用户1的语音数据后通过声学模型进行语义识别。而针对用户2与电子设备1之间进行语音内容的交互时,用户所说出口的语音中通常是中英文数据混合组成,例如图1中所示的“今天的weather怎么样”的应用场景,向语音识别模块中内置的声学模型提出了既能识别中文语音数据又能够识别英文语音数据的要求。
图2为现有技术中声学模型的训练方法一实施例的应用示意图。如图2所示的现有技术中,基于神经网络实现的在声学模型的在训练时,通常会同时将例如“今天”、“你好”、“我”等X个类别的中文语音数据、和例如“open”、“weather”、“call”等Y个类别的英文语音数据组成的X+Y个类别的中英文混合的语音数据,共同作为神经网络的X+Y个输入层节点,经过神经网络的隐层进行特征提取训练后,得到神经网络输出层的X+Y个中英文节点,该输出层的X+Y个节点所具有的权值用于,根据待识别的语音数据与该X+Y个节点的语音数据的相似程度进行分类识别。例如在上述实施例中,若将“今天的weather怎么样”的语音数据送入图3所示实施例中训练得到的神经网络,其输出的X+Y个节点中,权值最大的节点为中文语音数据“今天”、“怎么样”对应的中文节点,以及英文语音数据“weather”对应的英文节点。则声学模型能够根据X+Y个节点中权值最大的三个节点确定语音数据的语义。
在如图3所示的基于神经网络的声学模型的训练过程中,首先,建立神经网络的初始模型,将X+Y个类别的中英文混合语音数据作为初始模型的输入,并对神经网络的初始模型的隐层各节点和输出层各节点的权值赋予随机数,以根据所输入的X+Y个类别的中英文混合语音数据,通过神经网络的前向传播和误差的反向传播过程对神经网络中隐层和输出层各节点的权值进行更新后,得到的神经网络隐层各节点的权值能够用于表征X+Y个已经训练的中英文语音数据的特征。但是由于神经网络训练过程中反向传播的特性,其输入层、输出层、隐层每个节点的权值都会参与神经网络隐层节点权值的计算。而由于中英文发音方式不同,实际训练声学模型时,英文语音数据通常会影响中文语音数据的识别准确率,造成了根据中英文混合语音数据共同训练得到的声学模型在后续识别语音数据过程中,实际识别效果表明其与纯中文语音数据输入神经网络训练得到的声学模型相比,对于中文语音数据的识别率较低。因此,如何提高中英文混合语音数据训练的声学模型对中文语音数据的识别率,是目前亟待解决的技术问题。
下面结合图3和图4,以具体地实施例对本发明提供的声学模型的训练方法的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。其中,图3为本发明提供的声学模型的训练方法一实施例的流程示意图;图4为本发明提供的声学模型的训练方法一实施例的应用示意图。
如图3所示,本实施例提供的声学模型的训练方法包括:
S101:采用中文训练数据训练初始模型得到第一神经网络;其中,第一神经网络包含第一隐层和第一输出层,第一输出层包含N个节点,第一输出层的N个节点一一对应中文语音数据的N个类别,N为大于等于2的整数。
具体地,本实施例的执行主体可以是具备相关数据处理功能的电子设备,例如:手机、平板电脑、笔记本电脑、台式电脑或者服务器等。或者,本实施例的执行主体还可以是电子设备中的芯片:如CPU或者GPU等。或者,本实施例的执行主体还可以是存储介质中存储的软件程序。本发明后续实施例以执行主体为电子设备为例进行说明,而并不作为对其进行的限定。
则当作为本实施例执行主体的电子设备在根据中英文混合的语音数据训练声学模型时,首先建立神经网络的初始模型,向初始模型的隐层和输出层中的各节点的权值初始化幅值随机数,并将中英文混合的语音数据中的中文语音数据作为神经网络的初始模型的输入层的N个节点。如图4所示的S1中,由于用于训练神经网络的中文语音数据的N个类别为已知的类别,则将中文语音数据作为输入层的N个节点,送入神经网络的隐层进行训练;经过神经网络的隐层训练之后,得到的隐层记为第一隐层,输出层输出的与中文语音数据的N个类别一一对应的N个中文节点,记为第一输出层。
例如:S101中可以将常用的3000个中文语音数据:“你好”、“今天”、“天气”……作为初始模型的输入层节点,由神经网络的隐层中每个节点,对输入层的每个节点进行特征提取以及分类的计算后,得到的第一神经网络的输出层具有权值的3000个节点。该输出层的3000个节点中的中文语音数据的3000个类别一一对应,并且当中文语音数据中第一个类别的中文语音数据“你好”作为输入层的节点输入神经网络的隐层后,则神经网络的输出层的3000个节点中,“你好”对应的第一个节点权值最大。
在本发明一种可能的实现方式中,如图4所示S1中的神经网络可以基于BP(backpropagation)神经网络实现。其中,BP神经网络具有输入层、隐层和输出层,并且其输入层、隐和输出层中节点的数量可以进行设置。通过BP算法计算神经网络中每个输入层节点前向传播和误差的反向传播两个过程产生输出层的节点的权值。其中,前向传播时,输入层节点通过隐层作用于输出层节点,经过非线性变换产生输出层节点权值,若实际输出层节点权值与期望不相符,则转入误差的反向传播过程。误差反向传播是将输出层节点的误差通过隐层向输入层逐层反传,并将误差分摊给隐层中各层所有单元,以从各层获得的误差信号作为调整各层中节点权值的依据。
其中,本实施例如图4所示S1中的神经网络通过中文语音数据训练第一神经网络时,需要首先对初始模型的隐层和输出层的节点进行初始化。以初始模型的隐层数目为一层,隐层中节点数目为3000,输出层节点数目为3000为例,则在S101中需要先对隐层的3000个节点和输出层的3000个节点的权值赋予随机数,得到初始模型,以使得后续第一神经网络计算的前向传播和反向传播过程中,在初始模型的基础上进行隐层和输出层每个节点权值的计算。随后,经过S101中神经网络的隐层、输出层对输入层每个节点的计算后,隐层中3000个节点和输出层3000个节点的均计算得到了新的权值,并得到新的神经网络。新的神经网络中各节点的权值用于表征已学习的中文语音数据的特征,使得后续待识别的中文语音数据输入神经网络后,新的神经网络通过隐层的3000个节点对待识别中文语音数据进行计算后,能够通过输出层的待识别中文语音数据。
可选地,在S101一种可能的实现方式中,可以将中文语音数据作为初始模型的输入,采用基于连续时序分类(Connectionist Temporal Classification,CTC)的训练准则,优化神经网络,得到第一神经网络。具体地,CTC训练准则基于语音数据序列,通过使损失函数最大化的原则以计算得到神经网络的隐层各节点权值。基于CTC训练准则的神经网络训练流程与传统神经网络相同,均为先构建损失函数(loss function)之后,根据BP算法进行训练。其中,损失函数为则S101中通过损失函数对神经网络进行优化,例如,对于如图4所示S1中示例中的任意隐层的节点k,yk为神经网络中节点k的权值,为CTC路径中属于节点k的权值,p(z|x)为CTC所经过路径的总权值。经过CTC训练准则以及BP训练之后得到的神经网络为所述的第一神经网络,其中,第一神经网络中隐层每个节点都包括所用于表示输入层节点的中文语音数据的权值。需要说明的是,本实施例中对于CTC训练准则以及BP神经网络未示出之处可参照现有技术,本发明各实施例对于CTC训练准则以及BP神经网络本身的计算算法并不进行限定。而使用中文语音数据训练得到包括输出层、隐层和输入层的神经网络的方法均在本实施例限定范围内,并且可以理解的是,由于输入层数据不同,会带来所训练的神经网络的隐层各节点的权值不同。
S102:根据第一神经网络得到第二神经网络;其中,第二神经网络的输出层包含N+S个节点,N个节点对应中文语音数据的N个类别,S个节点对应英文语音数据的S个类别,第二神经网络的隐层采用第一隐层初始化,N+S个节点权值采用随机初始化,N+S为大于等于3的整数。
具体地,S102在S101通过中文语音数据训练得到的第一神经网络的基础上进行处理。如图4所示,S1为S101中通过中文语音数据训练得到的输出层具有中文节点的第一神经网络,S2为S102得到的第二神经网络。其中,第二网络的隐层,使用S1中得到的第一神经网络的第一隐层全部的节点进行初始化,即,第二神经网络的隐层节点分布与第一神经网络的隐层的节点分布相同,并且第二神经网络隐层各节点的权值与第一神经网络中相同位置的节点的权值相同。并且第二神经网络的输出层的全部节点都进行更新,不保留第一神经网络中的输出层节点,而是根据待训练的中文语音数据和英文语音数据,将第二神经网络的输出层初始化N+S个节点,并且每个节点的权值都进行随机数的初始化赋值。其中,N+S个节点中的前N个节点为中文节点、N个中文节点与中文语音数据的N个类别一一对应;N+S个节点中的后S个节点为英文节点、N个英文节点与英文语音数据的S个类别一一对应。
可选地,在S102一种可能的实现方式中,通过高斯随机化方式对第二神经网络中N+S个新增的节点的权值进行初始化权值的赋值。其中,需要生成两组独立的随机数U1和U2,这两组数在(0,1]上均匀分布;根据确定标准正态分布Z后,根据Y=(u|Z=v)调整标准正态分布的均值和方差后,得到后S个节点的权值的初始值。U1和U2为服从[0,1]均匀分布的随机数,u为S个节点的权值的初始值的均值,v为S个节点的权值的初始值的方差。特别地,本实施例中可以设置u=0.02,v=0.01。其中,本实施例中使用高斯随机化方式取随机数以及调整标准正态分布均值和方差方式可参照现有技术,本实施例对此不做限定。
S103:采用中文训练数据训练第二神经网络得到第三神经网络。
具体地,在S103中,将中文训练数据作为S102中得到的第二神经网络的输入层的节点,输入如图4中S2所示的第二神经网络进行训练,训练完成后得到第三神经网络。其中,中文语音数据与S101中训练第一神经网络时所使用的中文语音数据的内容以及排列均相同。
S104:采用中文训练数据和英文训练数据对第三神经网络进行训练得到声学模型。
具体地,在S104中,将中文语音数据和英文语音数据作为S103中得到的第三神经网络的输入层的节点,输入如图S3所示的第三神经网络进行训练,训练完成后的第三神经网络为所述的声学模型。声学模型中隐层的各节点的权值用于表征已经过神经网络学习训练的中文语音数据和英文语音数据的特征。其中,中文语音数据与S101、S103中训练第一神经网络以及第三神经网络时所使用的中文语音数据的内容以及排列均相同,英文语音数据为新增的常用英文语音数据例如:“hello”、“bye”、“weather”……的S个类别的英文语音数据。中文语音数据和英文语音数据作为输入层节点,经过第三神经网络的隐层训练之后,第三神经网络的输出层输出N+S个节点,其中,前N个节点为中文节点,与输入层中的前中文语音数据的N个类别一一对应,后S个节点为英文节点,与输入层中的后英文语音数据的S个类别一一对应。
则经过S104训练得到的声学模型中,隐层各节点的权值用于表征已经过神经网络学习训练的中文语音数据和英文语音数据的特征,使得后续待识别的语音数据输入声学模型后,声学模型通过隐层的N+S个节点对待识别的语音数据进行计算后,能够通过输出层的待识别中文语音数据。其中,若待识别的语音数据为中文“你好”,则经过声学模型的隐层计算后的输出层N+S个节点中,权值最大的节点应为前N个中文节点中“你好”对应的节点;而若待识别的语音数据为英文“hello”,则经过声学模型的隐层计算后的输出层N+S个节点中,权值最大的节点应为后S个英文节点中“hello”对应的节点。
可选地,S104中所训练的第二神经网络、S103中所训练的第二神经网络需要与S101中第一神经网络的类型相同,例如第三神经网络和第二神经网络都为BP神经网络。并且,S104中训练第三神经网络、S103中训练第二神经网络时,也可以采用CTC训练准则对神经网络进行优化,其实现原理相同,仅为节点数目上的增减,不再赘述。
综上,本实施例提供的声学模型的训练方法中,先通过中文节点训练得到第一神经网络后,使用第一神经网络中已经训练的隐层节点作为第二神经网络的隐层节点。随后再将中文语音数据作为第二神经网络的输入层节点,由第二神经网络的隐层在前述隐层节点的基础上训练得到第三神经网络模型后,再将中文语音数据和英文语音数据组成的中英文混合的语音数据作为第三神经网络模型的输入层节点,再进一步地对中英文混合语音数据进行训练得到声学模型。其中,本实施例提供的基于中英文混合语音数据的声学模型训练方法中,在将中英文混合语音数据送入神经网络训练之前,先通过中文语音数据训练得到的第一神经网络和第二神经网络中的隐层节点,并通过第二神经网络中隐层节点的权值对用于训练中英文混合数据的第三神经网络的隐层节点进行权值的初始化,由于隐层节点的权值已经能够用于表征中文语音数据的特征,在此隐层基础之上,各节点再根据中英文混合的语音数据对神经网络进行训练。
因此,本实施例提供的基于中英文混合语音数据的声学模型训练方法,与现有技术中,将神经网络中隐层全部节点的权值初始化随机数后,再通过中英文混合的语音数据进行训练相比,用于训练声学模型的第三神经网络的隐层已经包含了能够表征中文语音数据的特征的权值,因此即使加入了英文语音数据,由于通过中文语音数据得到的第一神经网络和第二神经网络的隐层的权值强化了第三神经网络的隐层中节点的权值,也还是能够减少中英文混合语音数据在声学模型训练过程中英文语音数据对中文语音数据的影响,使得训练得到声学模型在应用于中英文混合识别时,能够提高声学模型对中文语音数据的识别率。
图5为本发明提供的声学模型的训练装置一实施例的结构示意图。如图5所示,本实施例提供的声学模型的训练装置包括:训练模块501和处理模块502。
其中,训练模块501用于采用中文训练数据训练初始模型得到第一神经网络;其中,第一神经网络包含第一隐层和第一输出层,第一输出层包含N个节点,N个节点对应中文语音数据的N个类别,N为大于等于2的整数;处理模块502用于根据第一神经网络得到第二神经网络;其中,第二神经网络的输出层包含N+S个节点,N个节点对应中文语音数据的N个类别,S个节点对应英文语音数据的S个类别,第二神经网络的隐层采用第一隐层初始化,N+S个节点的权值采用随机初始化,N+S为大于等于3的整数;训练模块501还用于,采用中文训练数据训练第二神经网络得到第三神经网络;训练模块501还用于,采用中文训练数据和英文训练数据对第三神经网络进行训练得到声学模型。
可选地,训练模块501具体用于,将中文训练数据作为初始模型的输入层节点,采用基于CTC的训练准则,优化神经网络,得到第一神经网络。
可选地,处理模块502具体还用于,采用高斯随机化的方式获取N+S个节点的权值的初始值。
可选地,训练模块501具体用于,根据基于CTC训练准则的损失函数得到第一神经网络;其中,yk为节点k的权值,为CTC路径中属于节点k的权值,p(z|x)为CTC所经过路径的总权值。
在本发明第二方面一实施例中,处理模块502具体用于,根据确定标准正态分布Z后,根据Y=(u|Z=v)获取后S个节点的权值的初始值;其中,U1和U2为服从[0,1]均匀分布的随机数,u为S个节点的权值的初始值的均值,v为S个节点的权值的初始值的方差。
如图5所示的声学模型的训练装置可用于执行前述对应实施例提供的声学模型的训练方法,其实现方式与原理相同,不再赘述。
图6为本发明提供的电子设备一实施例的结构示意图。如图6所示,本实施例的电子设备60包括:存储器61和处理器62。其中,存储器61可以是独立的物理单元,与处理器62可以通过总线63连接。存储器61、处理器62也可以集成在一起,通过硬件实现等。存储器61用于存储实现以上方法实施例的计算机程序,处理器63调用该计算机程序,执行以上方法实施例的操作。
可选地,当上述实施例的方法中的部分或全部通过软件实现时,上述电子设备60也可以只包括处理器。用于存储程序的存储器位于电子设备60之外,处理器通过电路/电线与存储器连接,用于读取并执行存储器中存储的计算机程序。处理器62可以是中央处理器(Central Processing Unit,CPU),网络处理器(Network Processor,NP)或者CPU和NP的组合。处理器62还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit,ASIC),可编程逻辑器件(ProgrammableLogic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device,CPLD),现场可编程逻辑门阵列(Field-Programmable GateArray,FPGA),通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。存储器61可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random-Access Memory,RAM);存储器也可以包括非易失性存储器(Non-volatile Memory),例如快闪存储器(FlashMemory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-state Drive,SSD);存储器还可以包括上述种类的存储器的组合。
另外,本发明还提供一种程序产品,例如,计算机可读存储介质,包括:计算机程序,计算机程序在被处理器执行时用于执行以上方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (12)
1.一种声学模型的训练方法,其特征在于,包括:
采用中文训练数据训练初始模型得到第一神经网络;其中,所述第一神经网络包含第一隐层和第一输出层,所述第一输出层包含N个节点,所述N个节点对应所述中文语音数据的N个类别,所述N为大于等于2的整数;
根据所述第一神经网络得到第二神经网络;其中,所述第二神经网络的输出层包含N+S个节点,N个节点对应所述中文语音数据的N个类别,S个节点对应英文语音数据的S个类别,所述第二神经网络的隐层采用所述第一隐层初始化,所述N+S个节点的权值采用随机初始化,所述N+S为大于等于3的整数;
采用所述中文训练数据训练所述第二神经网络得到第三神经网络;
采用所述中文训练数据和所述英文训练数据对所述第三神经网络进行训练得到声学模型。
2.根据权利要求1所述的方法,其特征在于,所述采用中文训练数据训练初始模型得到第一神经网络,包括:
将所述中文训练数据作为所述初始模型的输入层节点,采用基于CTC的训练准则,优化神经网络,得到第一神经网络。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第一神经网络得到第二神经网络之前,还包括:
采用高斯随机化的方式获取所述N+S个节点的权值的初始值。
4.根据权利要求2所述的方法,其特征在于,所述将所述中文训练数据作为所述初始模型的输入层节点,采用基于CTC的训练准则,优化神经网络,得到第一神经网络,包括:
根据基于CTC训练准则的损失函数得到第一神经网络;其中,yk为节点k的权值,为CTC路径中属于节点k的权值,p(z|x)为CTC所经过路径的总权值。
5.根据权利要求3所述的方法,其特征在于,所述采用高斯随机化的方式获取所述N+S个节点的权值的初始值,包括:
根据确定标准正态分布Z后,根据Y=(u|Z=v)获取所述后S个节点的权值的初始值;
其中,U1和U2为服从[0,1]均匀分布的随机数,u为S个节点的权值的初始值的均值,v为S个节点的权值的初始值的方差。
6.一种声学模型训练装置,其特征在于,包括:
训练模块,用于采用中文训练数据训练初始模型得到第一神经网络;其中,所述第一神经网络包含第一隐层和第一输出层,所述第一输出层包含N个节点,所述N个节点对应所述中文语音数据的N个类别,所述N为大于等于2的整数;
处理模块,用于根据所述第一神经网络得到第二神经网络;其中,所述第二神经网络的输出层包含N+S个节点,N个节点对应所述中文语音数据的N个类别,S个节点对应英文语音数据的S个类别,所述第二神经网络的隐层采用所述第一隐层初始化,所述N+S个节点的权值采用随机初始化,所述N+S为大于等于3的整数;
所述训练模块还用于,采用所述中文训练数据训练所述第二神经网络得到第三神经网络;
所述训练模块还用于,采用所述中文训练数据和所述英文训练数据对所述第三神经网络进行训练得到声学模型。
7.根据权利要求6所述的装置,其特征在于,所述训练模块具体用于,
将所述中文训练数据作为所述初始模型的输入层节点,采用基于CTC的训练准则,优化神经网络,得到第一神经网络。
8.根据权利要求6或7所述的装置,其特征在于,所述处理模块还用于,
采用高斯随机化的方式获取所述N+S个节点的权值的初始值。
9.根据权利要求7所述的装置,其特征在于,所述训练模块具体用于,
根据基于CTC训练准则的损失函数得到第一神经网络;其中,yk为节点k的权值,为CTC路径中属于节点k的权值,p(z|x)为CTC所经过路径的总权值。
10.根据权利要求8所述的装置,其特征在于,所述处理模块具体用于,
根据确定标准正态分布Z后,根据Y=(u|Z=v)获取所述后S个节点的权值的初始值;
其中,U1和U2为服从[0,1]均匀分布的随机数,u为S个节点的权值的初始值的均值,v为S个节点的权值的初始值的方差。
11.一种电子设备,其特征在于,包括:
处理器,存储器以及计算机程序;其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如权利要求1-5任一项所述的方法的指令。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时,实现如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910018912.4A CN109616103B (zh) | 2019-01-09 | 2019-01-09 | 声学模型的训练方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910018912.4A CN109616103B (zh) | 2019-01-09 | 2019-01-09 | 声学模型的训练方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109616103A true CN109616103A (zh) | 2019-04-12 |
CN109616103B CN109616103B (zh) | 2022-03-22 |
Family
ID=66018384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910018912.4A Active CN109616103B (zh) | 2019-01-09 | 2019-01-09 | 声学模型的训练方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109616103B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189748A (zh) * | 2019-05-31 | 2019-08-30 | 百度在线网络技术(北京)有限公司 | 模型构建方法和装置 |
CN110197658A (zh) * | 2019-05-30 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置以及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140149104A1 (en) * | 2012-11-23 | 2014-05-29 | Idiap Research Institute | Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method |
US20140257805A1 (en) * | 2013-03-11 | 2014-09-11 | Microsoft Corporation | Multilingual deep neural network |
US20170011738A1 (en) * | 2015-07-09 | 2017-01-12 | Google Inc. | Generating acoustic models |
CN107195295A (zh) * | 2017-05-04 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN107301860A (zh) * | 2017-05-04 | 2017-10-27 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN107680582A (zh) * | 2017-07-28 | 2018-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
-
2019
- 2019-01-09 CN CN201910018912.4A patent/CN109616103B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140149104A1 (en) * | 2012-11-23 | 2014-05-29 | Idiap Research Institute | Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method |
US20140257805A1 (en) * | 2013-03-11 | 2014-09-11 | Microsoft Corporation | Multilingual deep neural network |
US20170011738A1 (en) * | 2015-07-09 | 2017-01-12 | Google Inc. | Generating acoustic models |
CN107195295A (zh) * | 2017-05-04 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN107301860A (zh) * | 2017-05-04 | 2017-10-27 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN107680582A (zh) * | 2017-07-28 | 2018-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110197658A (zh) * | 2019-05-30 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置以及电子设备 |
CN110197658B (zh) * | 2019-05-30 | 2021-01-26 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置以及电子设备 |
CN110189748A (zh) * | 2019-05-31 | 2019-08-30 | 百度在线网络技术(北京)有限公司 | 模型构建方法和装置 |
CN110189748B (zh) * | 2019-05-31 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 模型构建方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109616103B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109616102A (zh) | 声学模型的训练方法、装置及存储介质 | |
CN106328126B (zh) | 远场语音识别处理方法及装置 | |
CN112466298B (zh) | 语音检测方法、装置、电子设备和存储介质 | |
JP7377695B2 (ja) | ユーザ端末ハードウェア検出方法、装置、コンピュータ装置、および記憶媒体 | |
CN106548190A (zh) | 模型训练方法和设备以及数据识别方法 | |
CN110288199A (zh) | 产品质量预测的方法 | |
CN106887225A (zh) | 基于卷积神经网络的声学特征提取方法、装置和终端设备 | |
CN109600336A (zh) | 存储设备、验证码应用方法和装置 | |
CN109147930A (zh) | 分诊对话方法、分诊对话设备及系统 | |
CN108805699A (zh) | 一种信贷风控决策方法及装置 | |
US20230080533A1 (en) | Electroencephalogram signal classification method and apparatus, device, storage medium, and program product | |
CN113763966B (zh) | 一种端到端的文本无关声纹识别方法及系统 | |
JP2021502135A (ja) | ニューロン応答に基づいた人間検出の方法、システム及びコンピュータ・プログラム | |
CN109616103A (zh) | 声学模型的训练方法、装置及存储介质 | |
CN113378984A (zh) | 一种医学图像分类方法、系统、终端以及存储介质 | |
CN109597987A (zh) | 一种文本还原方法、装置及电子设备 | |
CN113724061A (zh) | 基于客户分群的消费金融产品信用评分方法及装置 | |
CN109102468A (zh) | 图像增强方法、装置、终端设备及存储介质 | |
CN117808946B (zh) | 基于大语言模型的二次元角色构建方法及系统 | |
CN110232927A (zh) | 说话人验证反欺骗方法和装置 | |
CN113989122A (zh) | 图像的超分辨率恢复方法、系统、电子设备及存储介质 | |
JP2017059193A (ja) | 時系列画像補完装置、時系列画像生成方法、時系列画像補完装置用プログラム | |
CN109003492A (zh) | 一种题目选择方法、装置及终端设备 | |
CN113362139A (zh) | 基于双塔结构模型的数据处理方法和装置 | |
CN112364737A (zh) | 一种用于网络直播课的人脸表情识别方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |