CN113192491A - 声学模型生成方法、装置、计算机设备及存储介质 - Google Patents
声学模型生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113192491A CN113192491A CN202110467107.7A CN202110467107A CN113192491A CN 113192491 A CN113192491 A CN 113192491A CN 202110467107 A CN202110467107 A CN 202110467107A CN 113192491 A CN113192491 A CN 113192491A
- Authority
- CN
- China
- Prior art keywords
- model
- standard mandarin
- target domain
- acoustic model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 241001672694 Citrus reticulata Species 0.000 claims abstract description 275
- 238000012549 training Methods 0.000 claims abstract description 163
- 230000006870 function Effects 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本申请涉及一种声学模型生成方法、装置、计算机设备及存储介质,该方法包括:获取训练数据,所述训练数据包括标准普通话训练数据和非标准普通话训练数据;将所述标准普通话训练数据输入目标域标准普通话模型进行迭代训练,以及将所述非标准普通话训练数据输入非目标域非标准普通话模型进行迭代训练;将训练好的所述目标域标准普通话模型和所述非目标域非标准普通话模型进行融合,获得初始声学模型;将所述训练数据输入所述初始声学模型进行迭代训练,获得对应的目标声学模型,该目标声学模型适用于标准普通话以及非标准普通话,实现了兼顾在标准普通话和非标准普通话上的性能。本申请还涉及区块链技术,目标声学模型可以存储在区块链节点中。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种声学模型生成方法、装置、计算机设备及存储介质。
背景技术
对于电话客服场景,普通话ASR(Automatic Speech Recognition,自动语音识别技术)受口音影响的情况很普遍。所以,研究可以同时对标准普通话和各种重口音普通话具有良好识别率的ASR通用模型很有意义。当前支持多种语言或者口音的通用模型的训练方法,比较有效的是用和目标领域相同的重口音语料对标准口音普通话模型进行口适应性训练。
但是在实际客服场景中,由于口音轻重每个个体存在巨大差异,筛选出匹配的重口音的语料并进行人工标注是一件既困难有成本很大的工作。而当领域不匹配的数据加入适应性训练时,由于采样率,编码信道及噪声等多种原因影响,往往会破环已有普通话模型在普通话上的性能。所以,如何实现在提升重口音性能的同时,不影响原有普通话模型在普通话上的性能是亟待解决的问题。
发明内容
本申请提供了一种声学模型生成方法、装置、计算机设备及存储介质,能够实现声学模型兼顾在标准普通话和非标准普通话上的性能。
第一方面,本申请提供了一种声学模型生成方法,所述方法包括:
获取训练数据,所述训练数据包括标准普通话训练数据和非标准普通话训练数据;
将所述标准普通话训练数据输入目标域标准普通话模型进行迭代训练,以及将所述非标准普通话训练数据输入非目标域非标准普通话模型进行迭代训练,其中,所述非目标域非标准普通话模型的模型配置信息与所述目标域标准普通话模型的模型配置信息一致,所述模型配置信息包括神经网络结构、目标函数以及模型参数;
将训练好的所述目标域标准普通话模型和所述非目标域非标准普通话模型进行融合,获得初始声学模型;
将所述训练数据输入所述初始声学模型进行迭代训练,获得对应的目标声学模型。
第二方面,本申请还提供了一种声学模型生成装置,所述装置包括:
数据获取模块,用于获取训练数据,所述训练数据包括标准普通话训练数据和非标准普通话训练数据;
第一模型训练模块,用于将所述标准普通话训练数据输入目标域标准普通话模型进行迭代训练,以及将所述非标准普通话训练数据输入非目标域非标准普通话模型进行迭代训练,其中,所述非目标域非标准普通话模型的模型配置信息与所述目标域标准普通话模型的模型配置信息一致,所述模型配置信息包括神经网络结构、目标函数以及模型参数;
模型融合模块,用于将训练好的所述目标域标准普通话模型和所述非目标域非标准普通话模型进行融合,获得初始声学模型;
第二模型训练模块,用于根据所述训练数据,对所述初始声学模型进行训练,获得对应的目标声学模型。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现上述的声学模型生成方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,若所述计算机程序被处理器执行,实现上述的声学模型生成方法。
本申请公开了一种声学模型生成方法、装置、计算机设备及存储介质,通过获取训练数据,包括标准普通话训练数据和非标准普通话训练数据,将标准普通话训练数据输入目标域标准普通话模型进行迭代训练,以及将非标准普通话训练数据输入非目标域非标准普通话模型进行迭代训练,再将训练好的目标域标准普通话模型和非目标域非标准普通话模型进行融合,获得初始声学模型,将训练数据输入初始声学模型进行迭代训练,获得对应的目标声学模型,该目标声学模型既适用于标准普通话,也适用于非标准普通话,如重口音普通话,实现了声学模型兼顾在标准普通话和非标准普通话上的性能。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种声学模型生成方法的示意流程图;
图2是本申请一实施例提供的一种获取训练数据的示意流程图;
图3是本申请一实施例提供的一种初始声学模型的网络结构示意图;
图4是本申请一实施例提供的一种将所述训练数据输入所述初始声学模型进行迭代训练的示意流程图;
图5是本申请一实施例提供的一种声学模型生成装置的结构示意性框图;
图6是本申请一实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种声学模型生成方法、装置、计算机设备及存储介质。基于目标域标准普通话模型,生成相应的标准普通话和非标准普通话都适用的目标声学模型,目标声学模型兼顾了在标准普通话和非标准普通话(如重口音普通话)上的性能。
其中,该声学模型生成方法可以用于服务器,当然也可以用于终端,其中,终端可以是平板电脑、笔记本电脑、台式电脑等电子设备;服务器例如可以为单独的服务器或服务器集群。但为了便于理解,以下实施例将以应用于服务器的声学模型生成方法进行详细介绍。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种声学模型生成方法的示意流程图。
如图1所示,该声学模型生成方法可以包括以下步骤S101至步骤S104。
步骤S101、获取训练数据,所述训练数据包括标准普通话训练数据和非标准普通话训练数据。
示例性的,非标准普通话训练数据包括多种不同的重口音训练数据。
在一些实施例中,如图2所示,所述步骤S101包括子步骤S1011至子步骤S1013。
S1011、采集标准普通话音频数据和非标准普通话音频数据。
示例性的,以电话客服场景作为目标域为例,采集电话客服场景中的大量标准普通话音频数据。并且,采集非电话客服场景中的大量非标准普通话音频数据。例如,可以通过收集或设计文本,安排不同地区的重口音讲话人朗读文本,录制得到重口音的非标准普通话音频数据。
S1012、将所述标准普通话音频数据和所述非标准普通话音频数据进行标注。
在获得标准普通话音频数据和非标准普通话音频数据后,将标准普通话音频数据和非标准普通话音频数据进行标注。例如,对标准普通话音频数据和非标准普通话音频数据进行文字标注。
S1013、对标注的所述标准普通话音频数据进行特征提取,获得对应的所述标准普通话训练数据,以及对标注的所述非标准普通话音频数据进行特征提取,获得对应的所述非标准普通话训练数据。
示例性的,基于预设帧长以及预设帧移,例如25ms帧长以及10ms帧移,可以理解的是,预设帧长以及预设帧移可根据实际情况进行灵活设置,在此不作具体限制。采用相应的特征提取算法分别对标注的标准普通话音频数据和非标准普通话音频数据进行特征提取,获得对应的标准普通话训练数据和非标准普通话训练数据。示例性的,对标注的标准普通话音频数据和非标准普通话音频数据,分别提取多维的MFCC(MeI-Freguency CeptraICoefficients)语音特征,拼接多维的pitch特征以及多维的ivector向量特征。例如,提取40维的MFCC语音特征,拼接4维的pitch特征以及100维的ivector向量特征。
在一些实施例中,所述子步骤S1012之前还可以包括:对所述标准普通话音频数据和所述非标准普通话音频数据进行数据预处理,所述数据预处理包括分帧处理、预加重处理、加窗处理中至少一种;
所述子步骤S1012可以包括:将经数据预处理后的所述标准普通话音频数据进行标注,以及将经数据预处理后的所述非标准普通话音频数据进行标注。
为了提高特征提取的效果,先对获得的标准普通话音频数据和非标准普通话音频数据进行数据预处理。其中,数据预处理包括但不限于分帧处理、预加重处理、加窗处理等。以标准普通话音频数据,依次对标准普通话音频数据进行预加重、分帧和加窗等处理,通过进行数据预处理能够最大化标准普通话音频数据的某些信息,从而达到提高后续特征提取的效果。
之后,将经数据预处理后的标准普通话音频数据进行标注,以及将经数据预处理后的非标准普通话音频数据进行标注,再将标注的标准普通话音频数据进行特征提取,获得对应的标准普通话训练数据,以及对标注的非标准普通话音频数据进行特征提取,获得对应的非标准普通话训练数据。
S102、将所述标准普通话训练数据输入目标域标准普通话模型进行迭代训练,以及将所述非标准普通话训练数据输入非目标域非标准普通话模型进行迭代训练,其中,所述非目标域非标准普通话模型的模型配置信息与所述目标域标准普通话模型的模型配置信息一致,所述模型配置信息包括神经网络结构、目标函数以及模型参数。
示例性的,仍以电话客服场景作为目标域为例,基于电话客服场景对应的目标域标准普通话模型,根据目标域标准普通话模型的模型配置信息,配置相应的非目标域非标准普通话模型。其中,模型配置信息包括但不限于神经网络结构、目标函数以及模型参数等。目标域标准普通话模型与非目标域非标准普通话模型的模型配置信息一致,也即目标域标准普通话模型与非目标域非标准普通话模型的神经网络结构、目标函数以及模型参数一致。
将获得的标准普通话训练数据输入目标域标准普通话模型进行迭代训练,以及将获得的非标准普通话训练数据输入非目标域非标准普通话模型进行迭代训练。
示例性的,目标域标准普通话模型包括多个tdnnf层、瓶颈层、输出层等。例如,采用16层的tdnnf网络,每个tdnnf层维度设置为1024,瓶颈层维度设置为128。其中,每个tdnnf层由线性层(linear)、仿射层(affine)、激活函数层(采用relu函数)、归一化层(batch normalization)、dropout层组合而成。上一个tdnnf层的输出经过一个scale比例,如0.66,与当前tdnnf层的dropout输出相加,得到当前tdnnf层的输出。需要说明的是,scale比例可根据实际情况进行灵活设置,在此不作具体限制。
对目标域标准普通话模型的模型训练包括深度神经网络的前向计算、损失函数计算、模型参数更新,通过反复迭代多次,例如大约4000-5000次,达到较好的模型性能。示例性的,前向计算将MFCC特征输入深度神经网络,也即目标域标准普通话模型,经过前向计算得到对应的一维矢量;采用lf-mmi计算方法计算损失函数;采用反向传播算法计算深度神经网络的梯度,采用mini-batch SGD(小批量随机梯度下降)方法更新深度神经网络的参数,也即更新模型参数。
对非目标域非标准普通话模型的模型训练与目标域标准普通话模型的模型训练的方法一样,在此不再赘述。
S103、将训练好的所述目标域标准普通话模型和所述非目标域非标准普通话模型进行融合,获得初始声学模型。
对于训练好的目标域标准普通话模型和非目标域非标准普通话模型,将其融合为一个标准普通话和重口音等非标准普通话都适用的声学模型,也即初始声学模型。
在一些实施例中,将训练好的所述目标域标准普通话模型和所述非目标域非标准普通话模型进行融合可以包括:将训练好的所述目标域标准普通话模型的输出层和所述非目标域非标准普通话模型的输出层移除;增加attention层和新输出层,获得所述初始声学模型,其中,训练好的所述目标域标准普通话模型的多个tdnnf层中最后的第一tdnnf层的输出、与训练好的所述非目标域非标准普通话模型的多个tdnnf层中最后的第二tdnnf层的输出进行拼接后的结果作为所述attention层的输入,所述attention层的输出作为所述新输出层的输入。
示例性的,分别将目标域标准普通话模型和非目标域非标准普通话模型的输出层移除,并增加attention层和新输出层,获得初始声学模型。例如,初始声学模型的网络结构如图3所示。其中,新输出层的节点数与目标域标准普通话模型的输出层对应的节点数、非目标域非标准普通话模型的输出层对应的节点数相同。需要说明的是,初始声学模型采用目标域标准普通话模型的决策树和输出状态集合。示例性的,attention层通过多头自attention(multi-head self-attention)实现。例如,attention层采用15头(heads),键(key)的维度设置为40,值(value)的维度设置为80,同时,仅考虑从左边5帧到右边2帧的8个帧窗口。
对于目标域标准普通话模型的多个tdnnf层中最后的第一tdnnf层的输出h1,以及非目标域非标准普通话模型的多个tdnnf层中最后的第二tdnnf层的输出h2,将h1与h2进行拼接得到h=contact(h1,h2),h为attention层的输入,attention层的输出作为新输出层的输入。
S104、将所述训练数据输入所述初始声学模型进行迭代训练,获得对应的目标声学模型。
融合生成初始声学模型后,为了实现初始声学模型在标准普通话和非标准普通话上更好的性能,利用标准普通话训练数据和非标准普通话训练数据对初始声学模型进行迭代训练。
在一些实施例中,如图4所示,所述S104可以包括子步骤S1041和子步骤S1042。
S1041、将所述标准普通话训练数据和所述非标准普通话训练数据混合,获得混合数据。
例如,将电话客服场景中对应的标准普通话训练数据与其他非电话客服场景中对应的非标准普通话训练数据进行混合,获得用于进行初始声学模型训练的混合数据。
S1042、将所述混合数据输入所述初始声学模型进行迭代训练,获得所述目标声学模型。
对初始声学模型进行迭代训练的方式与对目标域标准普通话模型和非目标域非标准普通话模型进行迭代训练的方式一样,也包括深度神经网络的前向计算、损失函数计算、模型参数更新。
在一些实施例中,将所述混合数据输入所述初始声学模型进行迭代训练,获得所述目标声学模型可以包括:对所述初始声学模型的多个网络层的参数进行初始化,其中,所述多个网络层包括多个tdnnf层、所述attention层和所述新输出层;将所述混合数据输入所述初始声学模型进行迭代训练,对所述初始声学模型的所述多个网络层的参数进行更新,直至所述初始声学模型收敛,获得所述目标声学模型。
如图3所示,融合生成的初始声学模型包括目标域标准普通话模型对应的网络层(不包含输出层)、非目标域非标准普通话模型对应的网络层(不包含输出层)、以及新增的attention层、新输出层等。其中,目标域标准普通话模型对应的网络层包括多个tdnnf层,如第一tdnnf层;非目标域非标准普通话模型对应的网络层包括多个tdnnf层,如第二tdnnf层。对初始声学模型进行迭代训练时,对attention层和新输出层的参数进行随机初始化。目标域标准普通话模型对应的网络层由训练完成得到的目标域标准普通话模型对应的参数进行初始化,非目标域非标准普通话模型对应的网络层由训练完成得到的非目标域非标准普通话模型对应的参数进行初始化。
将混合数据输入初始声学模型中目标域标准普通话模型对应的网络层和非目标域非标准普通话模型对应的网络层分别进行前向计算,获得前向计算的两个输出,将该两个输出进行拼接之后输入attention层,经过Attention层和新输出层得到模型输出。并计算损失函数的损失,比如采用lf-mmi计算方法计算损失。然后将损失函数的梯度逐层回传对各个网络层的参数进行更新,比如采用mini-batch SGD方法更新各个网络层的参数。
示例性的,对增加的attention层和新输出层的参数,采用0.0001的学习率进行参数更新;对目标域标准普通话模型对应的网络层的参数,采用0.0001学习率乘以0.2的系数进行微调更新;对非目标域非标准普通话模型对应的网络层的参数,采用0.0001学习率乘以0.2的系数进行微调更新。可以理解的是,各个网络层对应的学习率可以根据实际情况进行灵活设置,在此不作具体限制。
通过前向计算、损失计算、模型参数更新反复迭代多次,比如4000-5000次,直至初始声学模型收敛,训练完成,获得对应的目标声学模型。
上述实施例提供的声学模型生成方法,通过获取训练数据,包括标准普通话训练数据和非标准普通话训练数据,将标准普通话训练数据输入目标域标准普通话模型进行迭代训练,以及将非标准普通话训练数据输入非目标域非标准普通话模型进行迭代训练,再将训练好的目标域标准普通话模型和非目标域非标准普通话模型进行融合,获得初始声学模型,将训练数据输入初始声学模型进行迭代训练,获得对应的目标声学模型,该目标声学模型既适用于标准普通话,也适用于非标准普通话,如重口音普通话,实现了声学模型兼顾在标准普通话和非标准普通话上的性能。
请参阅图5,图5本申请一实施例提供的一种声学模型生成装置1000的示意性框图,该声学模型生成装置1000可以配置于服务器或终端中,用于执行前述的声学模型生成方法。
如图5所示,该声学模型生成装置1000,包括:数据获取模块1001、第一模型训练模块1002、模型融合模块1003、第二模型训练模块1004。
数据获取模块1001,用于获取训练数据,所述训练数据包括标准普通话训练数据和非标准普通话训练数据;
第一模型训练模块1002,用于将所述标准普通话训练数据输入目标域标准普通话模型进行迭代训练,以及将所述非标准普通话训练数据输入非目标域非标准普通话模型进行迭代训练,其中,所述非目标域非标准普通话模型的模型配置信息与所述目标域标准普通话模型的模型配置信息一致,所述模型配置信息包括神经网络结构、目标函数以及模型参数;
模型融合模块1003,用于将训练好的所述目标域标准普通话模型和所述非目标域非标准普通话模型进行融合,获得初始声学模型;
第二模型训练模块1004,用于根据所述训练数据,对所述初始声学模型进行训练,获得对应的目标声学模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备可以是服务器或终端。
如图6所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种声学模型生成方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种声学模型生成方法。
该网络接口用于进行网络通信,如获取训练数据等。本领域技术人员可以理解,该计算机设备的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一些实施方式中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取训练数据,所述训练数据包括标准普通话训练数据和非标准普通话训练数据;
将所述标准普通话训练数据输入目标域标准普通话模型进行迭代训练,以及将所述非标准普通话训练数据输入非目标域非标准普通话模型进行迭代训练,其中,所述非目标域非标准普通话模型的模型配置信息与所述目标域标准普通话模型的模型配置信息一致,所述模型配置信息包括神经网络结构、目标函数以及模型参数;
将训练好的所述目标域标准普通话模型和所述非目标域非标准普通话模型进行融合,获得初始声学模型;
将所述训练数据输入所述初始声学模型进行迭代训练,获得对应的目标声学模型。
在一些实施例中,所述处理器在实现获取训练数据时,用于实现:
采集标准普通话音频数据和非标准普通话音频数据;
将所述标准普通话音频数据和所述非标准普通话音频数据进行标注;
对标注的所述标准普通话音频数据进行特征提取,获得对应的所述标准普通话训练数据,以及对标注的所述非标准普通话音频数据进行特征提取,获得对应的所述非标准普通话训练数据。
在一些实施例中,所述处理器在实现将所述标准普通话音频数据和所述非标准普通话音频数据进行标注之前,用于实现:
对所述标准普通话音频数据和所述非标准普通话音频数据进行数据预处理,所述数据预处理包括分帧处理、预加重处理、加窗处理中至少一种;
所述处理器在实现所述将所述标准普通话音频数据和所述非标准普通话音频数据进行标注时,用于实现:
将经数据预处理后的所述标准普通话音频数据进行标注,以及将经数据预处理后的所述非标准普通话音频数据进行标注。
在一些实施例中,所述目标域标准普通话模型和所述非目标域非标准普通话模型包括输出层和多个tdnnf层;所述处理器在实现将训练好的所述目标域标准普通话模型和所述非目标域非标准普通话模型进行融合,获得初始声学模型时,用于实现:
将训练好的所述目标域标准普通话模型的输出层和所述非目标域非标准普通话模型的输出层移除;
增加attention层和新输出层,获得所述初始声学模型,其中,训练好的所述目标域标准普通话模型的多个tdnnf层中最后的第一tdnnf层的输出、与训练好的所述非目标域非标准普通话模型的多个tdnnf层中最后的第二tdnnf层的输出进行拼接后的结果作为所述attention层的输入,所述attention层的输出作为所述新输出层的输入。
在一些实施例中,所述新输出层对应的节点数与所述目标域标准普通话模型的输出层对应的节点数、所述非目标域非标准普通话模型的输出层对应的节点数相同。
在一些实施例中,所述处理器在实现将所述训练数据输入所述初始声学模型进行迭代训练,获得对应的目标声学模型时,用于实现:
将所述标准普通话训练数据和所述非标准普通话训练数据混合,获得混合数据;
将所述混合数据输入所述初始声学模型进行迭代训练,获得所述目标声学模型。
在一些实施例中,所述处理器在实现将所述混合数据输入所述初始声学模型进行迭代训练,获得所述目标声学模型时,用于实现:
对所述初始声学模型的多个网络层的参数进行初始化,其中,所述多个网络层包括多个tdnnf层、所述attention层和所述新输出层;
将所述混合数据输入所述初始声学模型进行迭代训练,对所述初始声学模型的所述多个网络层的参数进行更新,直至所述初始声学模型收敛,获得所述目标声学模型。
本申请的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项声学模型生成方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字卡(Secure Digital Card,SD Card),闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种声学模型生成方法,其特征在于,所述方法包括:
获取训练数据,所述训练数据包括标准普通话训练数据和非标准普通话训练数据;
将所述标准普通话训练数据输入目标域标准普通话模型进行迭代训练,以及将所述非标准普通话训练数据输入非目标域非标准普通话模型进行迭代训练,其中,所述非目标域非标准普通话模型的模型配置信息与所述目标域标准普通话模型的模型配置信息一致,所述模型配置信息包括神经网络结构、目标函数以及模型参数;
将训练好的所述目标域标准普通话模型和所述非目标域非标准普通话模型进行融合,获得初始声学模型;
将所述训练数据输入所述初始声学模型进行迭代训练,获得对应的目标声学模型。
2.根据权利要求1所述的声学模型生成方法,其特征在于,所述获取训练数据,包括:
采集标准普通话音频数据和非标准普通话音频数据;
将所述标准普通话音频数据和所述非标准普通话音频数据进行标注;
对标注的所述标准普通话音频数据进行特征提取,获得对应的所述标准普通话训练数据,以及对标注的所述非标准普通话音频数据进行特征提取,获得对应的所述非标准普通话训练数据。
3.根据权利要求2所述的声学模型生成方法,其特征在于,所述将所述标准普通话音频数据和所述非标准普通话音频数据进行标注之前,包括:
对所述标准普通话音频数据和所述非标准普通话音频数据进行数据预处理,所述数据预处理包括分帧处理、预加重处理、加窗处理中至少一种;
所述将所述标准普通话音频数据和所述非标准普通话音频数据进行标注,包括:
将经数据预处理后的所述标准普通话音频数据进行标注,以及将经数据预处理后的所述非标准普通话音频数据进行标注。
4.根据权利要求1至3任一项所述的声学模型生成方法,其特征在于,所述目标域标准普通话模型和所述非目标域非标准普通话模型包括输出层和多个tdnnf层;
所述将训练好的所述目标域标准普通话模型和所述非目标域非标准普通话模型进行融合,获得初始声学模型,包括:
将训练好的所述目标域标准普通话模型的输出层和所述非目标域非标准普通话模型的输出层移除;
增加attention层和新输出层,获得所述初始声学模型,其中,训练好的所述目标域标准普通话模型的多个tdnnf层中最后的第一tdnnf层的输出、与训练好的所述非目标域非标准普通话模型的多个tdnnf层中最后的第二tdnnf层的输出进行拼接后的结果作为所述attention层的输入,所述attention层的输出作为所述新输出层的输入。
5.根据权利要求4所述的声学模型生成方法,其特征在于,所述新输出层对应的节点数与所述目标域标准普通话模型的输出层对应的节点数、所述非目标域非标准普通话模型的输出层对应的节点数相同。
6.根据权利要求4所述的声学模型生成方法,其特征在于,所述将所述训练数据输入所述初始声学模型进行迭代训练,获得对应的目标声学模型,包括:
将所述标准普通话训练数据和所述非标准普通话训练数据混合,获得混合数据;
将所述混合数据输入所述初始声学模型进行迭代训练,获得所述目标声学模型。
7.根据权利要求6所述的声学模型生成方法,其特征在于,所述将所述混合数据输入所述初始声学模型进行迭代训练,获得所述目标声学模型,包括:
对所述初始声学模型的多个网络层的参数进行初始化,其中,所述多个网络层包括多个tdnnf层、所述attention层和所述新输出层;
将所述混合数据输入所述初始声学模型进行迭代训练,对所述初始声学模型的所述多个网络层的参数进行更新,直至所述初始声学模型收敛,获得所述目标声学模型。
8.一种声学模型生成装置,其特征在于,所述装置包括:
数据获取模块,用于获取训练数据,所述训练数据包括标准普通话训练数据和非标准普通话训练数据;
第一模型训练模块,用于将所述标准普通话训练数据输入目标域标准普通话模型进行迭代训练,以及将所述非标准普通话训练数据输入非目标域非标准普通话模型进行迭代训练,其中,所述非目标域非标准普通话模型的模型配置信息与所述目标域标准普通话模型的模型配置信息一致,所述模型配置信息包括神经网络结构、目标函数以及模型参数;
模型融合模块,用于将训练好的所述目标域标准普通话模型和所述非目标域非标准普通话模型进行融合,获得初始声学模型;
第二模型训练模块,用于根据所述训练数据,对所述初始声学模型进行训练,获得对应的目标声学模型。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至7任一项所述的声学模型生成方法。
10.一种计算机可读存储介质,所述计算机的可读存储介质存储有计算机程序,其特征在于,若所述计算机程序被处理器执行,实现如权利要求1至7任一项所述的声学模型生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110467107.7A CN113192491B (zh) | 2021-04-28 | 2021-04-28 | 声学模型生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110467107.7A CN113192491B (zh) | 2021-04-28 | 2021-04-28 | 声学模型生成方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113192491A true CN113192491A (zh) | 2021-07-30 |
CN113192491B CN113192491B (zh) | 2024-05-03 |
Family
ID=76980416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110467107.7A Active CN113192491B (zh) | 2021-04-28 | 2021-04-28 | 声学模型生成方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113192491B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103474061A (zh) * | 2013-09-12 | 2013-12-25 | 河海大学 | 基于分类器融合的汉语方言自动辨识方法 |
CN105161092A (zh) * | 2015-09-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
GB201703310D0 (en) * | 2017-03-01 | 2017-04-12 | Toshiba Kk | A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train |
CN110827805A (zh) * | 2019-12-09 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
US10783873B1 (en) * | 2017-12-15 | 2020-09-22 | Educational Testing Service | Native language identification with time delay deep neural networks trained separately on native and non-native english corpora |
CN112233653A (zh) * | 2020-12-10 | 2021-01-15 | 北京远鉴信息技术有限公司 | 多方言口音普通话语音识别模型训练方法、装置及设备 |
CN112509555A (zh) * | 2020-11-25 | 2021-03-16 | 平安科技(深圳)有限公司 | 方言语音识别方法、装置、介质及电子设备 |
-
2021
- 2021-04-28 CN CN202110467107.7A patent/CN113192491B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103474061A (zh) * | 2013-09-12 | 2013-12-25 | 河海大学 | 基于分类器融合的汉语方言自动辨识方法 |
CN105161092A (zh) * | 2015-09-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
GB201703310D0 (en) * | 2017-03-01 | 2017-04-12 | Toshiba Kk | A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train |
US10783873B1 (en) * | 2017-12-15 | 2020-09-22 | Educational Testing Service | Native language identification with time delay deep neural networks trained separately on native and non-native english corpora |
CN110827805A (zh) * | 2019-12-09 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
CN112509555A (zh) * | 2020-11-25 | 2021-03-16 | 平安科技(深圳)有限公司 | 方言语音识别方法、装置、介质及电子设备 |
CN112233653A (zh) * | 2020-12-10 | 2021-01-15 | 北京远鉴信息技术有限公司 | 多方言口音普通话语音识别模型训练方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113192491B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200167417A1 (en) | Transformation of chat logs for chat flow prediction | |
US20180033434A1 (en) | System and method for eliciting open-ended natural language responses to questions to train natural language processors | |
CN111027291B (zh) | 文本中标点符号添加、模型训练方法、装置及电子设备 | |
CN112466314A (zh) | 情感语音数据转换方法、装置、计算机设备及存储介质 | |
CN114461852B (zh) | 音视频摘要提取方法、装置、设备及存储介质 | |
WO2022116487A1 (zh) | 基于生成对抗网络的语音处理方法、装置、设备及介质 | |
CN110138654B (zh) | 用于处理语音的方法和装置 | |
CN112232052B (zh) | 文本拼接方法、装置、计算机设备及存储介质 | |
CN110222333A (zh) | 一种语音交互方法、装置以及相关设备 | |
CN114841142A (zh) | 文本生成方法、装置、电子设备和存储介质 | |
CN111462736B (zh) | 基于语音的图像生成方法、装置和电子设备 | |
CN110245334A (zh) | 用于输出信息的方法和装置 | |
CN110675865B (zh) | 用于训练混合语言识别模型的方法和装置 | |
CN113192492B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN115952854B (zh) | 文本脱敏模型的训练方法、文本脱敏方法及应用 | |
CN113192491A (zh) | 声学模型生成方法、装置、计算机设备及存储介质 | |
CN115589446A (zh) | 一种基于预训练与提示的会议摘要生成方法及系统 | |
CN112652329B (zh) | 文本重对齐方法、装置、电子设备和存储介质 | |
CN115795028A (zh) | 一种公文智能生成方法及系统 | |
JP2020071677A (ja) | 学習方法、学習プログラム及び生成方法 | |
CN109800438B (zh) | 用于生成信息的方法和装置 | |
CN114464195A (zh) | 一种自监督学习的声纹识别模型训练方法、装置及可读介质 | |
CN113535125A (zh) | 金融需求项生成方法及装置 | |
CN114218431A (zh) | 视频搜索方法、装置、电子设备以及存储介质 | |
US10789425B2 (en) | Generating a response to a natural language command based on a concatenated graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |