CN112634867A - 模型训练方法、方言识别方法、装置、服务器及存储介质 - Google Patents
模型训练方法、方言识别方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN112634867A CN112634867A CN202011453440.4A CN202011453440A CN112634867A CN 112634867 A CN112634867 A CN 112634867A CN 202011453440 A CN202011453440 A CN 202011453440A CN 112634867 A CN112634867 A CN 112634867A
- Authority
- CN
- China
- Prior art keywords
- text
- dialect
- loss value
- recognition model
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 67
- 241001672694 Citrus reticulata Species 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims description 47
- 230000015654 memory Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 230000007787 long-term memory Effects 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 239000010410 layer Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 101100180051 Danio rerio isl2a gene Proteins 0.000 description 1
- 101100126318 Rattus norvegicus Isl2 gene Proteins 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种模型训练方法、方言识别方法、装置、服务器及存储介质,该方法包括:获取样本数据,该样本数据包括目标文本和目标文本对应的方言语音序列和普通话语音序列,基于第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,并根据该方言语音序列和普通话语音序列,得到第一文本、第二文本和第三文本,之后根据目标文本、第一文本、第二文本和第三文本,确定方言识别模型的目标损失值,并根据该目标损失值确定方言识别模型是否收敛,当确定方言识别模型未收敛,则更新方言识别模型的模型参数,并继续对更新后的方言识别模型进行训练,直至方言识别模型收敛,本方案使方言识别模型的训练更加简便和准确。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种模型训练方法、方言识别方法、装置、服务器及存储介质。
背景技术
在语音识别的技术领域,方言识别一直是一个难题,在给定的一段连续语音中,方言中的口音往往的夹杂在所有的语音片段中,而且强弱程度呈现不规则的变化,在早期的语音识别模型中,可以调整发音库和声学模型来实现比较准确的方言识别,但是调整后的声学模型只适用于训练数据中涉及的方言,难以保证来自不同种类的方言都能被准确识别,而且,早期的语言识别模型需要分别训练声学模型和语言模型,带来大量冗余的计算量。
发明内容
本申请的主要目的在于提供一种模型训练方法、方言识别方法、装置、服务器及存储介质,旨在使方言识别模型的训练更加简便和准确,以使后续的方言识别更加准确。
第一方面,本申请提供一种模型训练方法,所述模型训练方法用于训练方言识别模型,所述方法应用于服务器,所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述方法包括:
获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列;
将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
根据目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
根据所述目标损失值,确定所述方言识别模型是否收敛;
若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
第二方面,本申请还提供一种方言识别方法,包括:
获取待识别的语音信息,并对所述语音信息进行语音特征序列提取,得到所述语音信息对应的语音特征序列;
将所述语音特征序列输入至预设方言识别模型中,得到所述语音信息对应的文本,其中,所述预设方言识别模型是通过如说明书所述的模型训练方法进行训练得到的。
第三方面,本申请还提供一种模型训练装置,方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述模型训练装置包括:获取模块和模型训练模块,其中:
所述获取模块,用于获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列;
所述模型训练模块,用于:
将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
根据目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
根据所述目标损失值,确定所述方言识别模型是否收敛;
若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
第四方面,本申请还提供一种服务器,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的模型训练方法的步骤或实现如上述的方言识别方法的步骤。
第五方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的模型训练方法的步骤或实现如上述的方言识别方法的步骤。
本申请提供一种模型训练方法、方言识别方法、装置、服务器、及存储介质,本申请获取样本数据;将方言语音序列输入至第一编码器,得到第一特征向量,并将普通话语音序列输入至第二编码器,得到第二特征向量;将第一特征向量和第二特征向量输入至连接时序分类器,得到第一文本;将第一特征向量输入至第一注意力模块,得到第一上下文关联向量,并将第二特征向量输入至第二注意力模块,得到第二上下文关联向量;将第一上下文关联向量和第二上下文关联向量输入至解码器,得到第二文本和第三文本;然后根据目标文本、第一文本、第二文本和第三文本,确定方言识别模型的目标损失值;根据目标损失值,确定方言识别模型是否收敛;若方言识别模型未收敛,则更新方言识别模型的模型参数,并继续对更新后的方言识别模型进行训练,直至方言识别模型收敛。本方案方言识别模型采用了联合训练的方式,针对同一目标文本对应方言语音序列和普通话语音序列输入至该方言识别模型进行训练,并结合注意力机制和连接时序分类模型训练可以使输入输出之间的单调对齐,使训练出来的方言识别模型识别更加准确。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种模型训练方法的步骤流程示意图;
图2为图1中的模型训练方法的子步骤流程示意图;
图3为本申请实施例提供的模型训练的一示意图框图;
图4为本申请实施例提供的一种方言识别方法的步骤流程示意图;
图5为本申请实施例提供的一种模型训练装置的示意性框图;
图6为本申请实施例提供的一种服务器的结构示意性框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种模型训练方法、方言识别方法、装置、服务器及存储介质。其中,该模型训练方法可应用于服务器中,该服务器可以是单台服务器或者是多个单台服务器组成的服务器集群。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请实施例提供的一种模型训练方法的步骤流程示意图。
如图1所示,该模型训练方法,该模型训练方法用于训练方言识别模型,所述方法包括步骤S101至步骤S108。
步骤S101、获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列。
其中,样本数据包括目标文本和目标文本对应的方言语音序列和普通话语音序列。该目标文本为文本文字,例如,该文本文字为“现在是上午几点?”,该方言语音序列是从该目标文本对应的方言语音中提取得到的多个语音特征,该普通话语音序列是从该目标文本对应的普通话语音中提取得到的语音特征。其中,该方言可以是川话、客家话、赣语、湘语、闽语、晋语和粤语等等,上述语音特征包括梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)、基频轮廓特征、时长特征和能量特征等,本申请对此不做具体限定。
在一实施例中,方言语音序列和普通话语音序列的确定方式可以为:获取目标文本对应的方言语音;以帧为单位,将方言语音中的每个汉字音节按照预设大小的采样窗口,对方言语音进行采样,获得一个方言音节序列;提取方言音节序列中的每个音节的语音特征,并对每个音节的语音特征进行排列,得到方言语音序列。类似的,获取目标文本对应的普通话语音;以帧为单位,将普通话语音中的每个汉字音节按照预设大小的采样窗口,对普通话语音进行采样,获得一个普通话音节序列;提取普通话音节序列中的每个音节的语音特征,并对每个音节的语音特征进行排列,得到普通话语音序列。
步骤S102、将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量。
其中,方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,第一编码器和第二编码器包括第一预设数量的神经网络,解码器包括第二预设数量的神经网络,连接时序分类器包括第三预设数量的神经网络。
其中,该第一预设数量、第二预设数量和第三预设数量可以根据实际情况进行选择,本申请实施例对此不做具体限定,例如,该第一预设数量可以为3,该第二预设数量可以为2,第三预设数量可以为2,神经网络可以根据实际情况进行选择,例如,该神经网络为双向长短时记忆网络。
在一实施例中,将方言语音序列输入至第一编码器,得到第一特征向量,并将普通话语音序列输入至第二编码器,得到第二特征向量。可选的,第一编码器包括三层双向长短时记忆网络、第二编码器包括三层双向长短时记忆网络,第一编码器中的双向长短时记忆网络与第二编码器中的双向长短时记忆网络的模型参数不同。
步骤S103、将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本。
其中,该连接时序分类器(Connectionist temporal classification,CTC)包括第三预设数量的神经网络,该第三预设数量可以根据实际情况进行设置,例如,该第三预设数量可以为2,该神经网络可以选择为双向长短时记忆网络,则该连接时序分类器包括双层双向长短时记忆网络。
在一实施例中,将第一特征向量和第二特征向量输入至连接时序分类器,得到第一文本。具体地,将该第一特征向量输入至连接时序分类器,该连接时序分类器利用带有空白占位符∈的字符集π=(π1,π2,…,πT)得到包括空白占位符∈的文本,将该包括空白占位符∈的文本中的空白占位符∈去除,得到第一文本。
步骤S104、将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量。
在一实施例中,将第一特征向量输入至第一注意力模块,得到第一上下文关联向量。具体地,根据第一特征向量中每个子特征向量的位置和上下文内容,确定注意力分配参数,根据该注意力分配参数,确定每个子特征向量对应的注意力分数,根据每个子特征向量对应的注意力分数和每个子特征向量,确定每个子第一上下文关联向量,根据每个子第一上下文关联向量,得到该第一上下文关联向量。
在一实施例中,将第二特征向量输入至第二注意力模块,得到第二上下文关联向量。具体地,根据第二特征向量中每个子特征向量的位置和上下文内容,确定注意力分配参数,根据该注意力分配参数,确定每个子特征向量对应的注意力分数,根据每个子特征向量对应的注意力分数和每个子特征向量,确定每个子第二上下文关联向量,根据每个子第二上下文关联向量,得到该第二上下文关联向量。
需要说明的是,上述第二上下文关联向量具体生成方式可以参照上述第一上下文关联向量具体生成方式,在此对第二上下文关联向量具体生成方式不做赘述。
步骤S105、将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本。
其中,解码器包括第二预设数量的神经网络,该第二预设数量可以根据实际情况进行设置,例如,该第二预设数量可以为2,该神经网络可以选择为双向长短时记忆网络,则该解码器包括双层双向长短时记忆网络。
在一实施例中,该解码器包括前馈网络和递归网络,将该第一上下文关联向量输入至该前馈网络和递归网络中,得到第二文本。同理将该第二上下文关联向量输入至该前馈网络和递归网络中,得到第三文本。通过该前馈网络和递归网络可以准确且快捷的确定解码器输出的文本。
步骤S106、根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值。
其中,方言识别模型的目标损失函数是通过第一注意力模块或第二注意力模块的第一损失函数、连接时序分类器的第二损失函数和编码器的第三损失函数确定的。
在一实施例中,如图2所示,步骤S106包括子步骤S1061至子步骤S1064。
子步骤S1061、基于所述第一损失函数,根据所述目标文本和所述第二文本,确定第一损失值。
示例性的,将目标文本和第二文本代入第一损失函数中,从而计算得到第一损失值。其中,第一损失函数为:
子步骤S1062、基于所述第二损失函数,根据所述目标文本和所述第一文本,确定第二损失值。
示例性的,将目标文本和第一文本代入第二损失函数中,从而可以计算得到第二损失值。其中,该第二损失函数为该L2为第二损失值,该y*为第一文本,该x为目标文本,该的计算公式可以为αt(u)是前向变量,表示所有以尾的前缀的概率;βt(u)是后向变量,表示所有以开始的后缀的概率,基于该第二损失函数,根据目标文本和所述第一文本,确定第二损失值。
子步骤S1063、基于所述第三损失函数,根据所述第二文本和所述第三文本,确定第三损失值。
示例性的,将第二文本和第三文本代入第三损失函数中,从而可以计算得到第三损失值。其中,该第三损失函数为:
该U为字符的位置序号,该yu为第二文本中u位置序号对应的文本,该yu ′为第三文本中u位置序号对应的文本,基于该第三损失函数,并根据第二文本和第三文本,确定第三损失值。
子步骤S1064、根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值。
示例性的,根据第一损失值、第二损失值和第三损失值,确定目标损失函数的最小值;将目标损失函数的最小值确定为方言识别模型的目标损失值。其中,根据第一损失值、第二损失值和第三损失值,确定目标损失函数的最小值的方式可以为:获取目标损失函数,其中,该目标损失函数为L=μ1L1+μ2L2+μ3L3,L为目标损失值,μ1为第一参数,μ2为第二参数,μ3为第三参数,L1为第一损失值,L2为第二损失值和L3为第三损失值,μ1+μ2+μ3=1;基于该目标损失函数和第一损失值、第二损失值和第三损失值,确定使得该目标损失函数最小的第一参数、第二参数和第三参数的目标取值,然后第一损失值、第二损失值、第三损失值、基于第一参数、第二参数和第三参数的目标取值,确定方言识别模型的目标损失值。
步骤S107、根据所述目标损失值,确定所述方言识别模型是否收敛。
示例性的,确定目标损失值是否大于预设阈值;若确定目标损失值大于预设阈值,则确定方言识别模型未收敛;若确定目标损失值小于或等于预设阈值,则确定方言识别模型已收敛。其中,该预设阈值可以根据实际情况进行确定,本申请对此不做具体限定。
步骤S108、若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
当确定方言识别模型未收敛,则更新方言识别模型的模型参数,并继续对更新后的方言识别模型进行训练,直至方言识别模型收敛。如图3所示,方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,目标文本对应的方言语音序列X1输入至第一编码器,得到第一特征向量h1,目标文本对应的普通话语音序列X2输入至第二编码器,得到第二特征向量h2,将第一特征向量h1和第二特征向量h2输入至连接时序分类器,得到第一文本Y1和第四文本Y2,将第一特征向量h1输入至第一注意力模块,得到第一上下文关联向量a1,并将第二特征向量h2输入至第二注意力模块,得到第二上下文关联向量a2;将第一上下文关联向量a1和第二上下文关联向量a2输入至解码器,得到第二文本Y3和第三文本Y4;根据目标文本、第一文本Y1、第二文本Y2和第三文本Y3,可以确定方言识别模型的目标损失值,进而基于目标损失值可以确定是否继续训练方言识别模型。
上述实施例提供的模型训练方法,通过获取样本数据;将方言语音序列输入至第一编码器,得到第一特征向量,并将普通话语音序列输入至第二编码器,得到第二特征向量;将第一特征向量和第二特征向量输入至连接时序分类器,得到第一文本;将第一特征向量输入至第一注意力模块,得到第一上下文关联向量,并将第二特征向量输入至第二注意力模块,得到第二上下文关联向量;将第一上下文关联向量和第二上下文关联向量输入至解码器,得到第二文本和第三文本;然后根据目标文本、第一文本、第二文本和第三文本,确定方言识别模型的目标损失值;根据目标损失值,确定方言识别模型是否收敛;若方言识别模型未收敛,则更新方言识别模型的模型参数,并继续对更新后的方言识别模型进行训练,直至方言识别模型收敛。本方案方言识别模型采用了联合训练的方式,针对同一目标文本对应方言语音序列和普通话语音序列输入至该方言识别模型进行训练,并结合注意力机制和连接时序分类模型训练可以使输入输出之间的单调对齐,使训练出来的方言识别模型识别更加准确。
如图4所示,图4为本申请实施例提供的方言识别方法的步骤流程示意图。
如图4所示,该方言识别方法的包括步骤S201至步骤S202。
步骤S201、获取待识别的语音信息,并对所述语音信息进行语音特征序列提取,得到所述语音信息对应的语音特征序列。
获取待识别的语音信息,并对语音信息进行语音特征序列提取,得到语音信息对应的语音特征序列。其中,获取待识别的语音信息的方式可以根据实际情况进行确定,本申请对此不做具体限定,例如,该待识别的语音信息为终端接收到的语音信息。
在一实施例中,以帧为单位,将语音信息中的每个汉字音节按照预设大小的采样窗口,对语音信息进行采样,获得一个语音信息序列;提取语音信息序列中的每个音节的语音特征,并对每个音节的语音特征进行排列,得到语音特征序列。
步骤S202、将所述语音特征序列输入至预设方言识别模型中,得到所述语音信息对应的文本,其中,所述预设方言识别模型是通过模型训练方法进行训练得到的。
将该语音特征序列输入至预设方言识别模型中,得到语音信息对应的文本,其中,所述预设方言识别模型是通过模型训练方法进行训练得到的。通过将该语音特征序列输入至预设方言识别模型中,可以快速的得到语音信息对应的文本。
上述实施例提供的方言识别方法,获取待识别的语音信息,并对语音信息进行语音特征序列提取,得到语音信息对应的语音特征序列;将语音特征序列输入至预设方言识别模型中,得到语音信息对应的文本,可以快速的得到语音信息对应的文本。
请参照图5,图5为本申请实施例提供的一种模型训练装置的示意性框图。
如图5所示,所述模型训练装置包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述模型训练装置300包括:获取模块310和模型训练模块320,其中:
所述获取模块310,用于获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列;
所述模型训练模块320,用于:
将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
根据目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
根据所述目标损失值,确定所述方言识别模型是否收敛;
若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
在一实施例中,所述模型训练模块320,还用于:
基于所述第一损失函数,根据所述目标文本和所述第二文本,确定第一损失值;
基于所述第二损失函数,根据所述目标文本和所述第一文本,确定第二损失值;
基于所述第三损失函数,根据所述第二文本和所述第三文本,确定第三损失值;
根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值。
在一实施例中,所述模型训练模块320,还用于:
根据所述第一损失值、第二损失值和第三损失值,确定所述目标损失函数的最小值;
将所述目标损失函数的最小值确定为所述方言识别模型的目标损失值。
在一实施例中,所述模型训练模块320,还用于:
确定所述目标损失值是否大于预设阈值;
若确定所述目标损失值大于预设阈值,则确定所述方言识别模型未收敛;
若确定所述目标损失值小于或等于预设阈值,则确定所述方言识别模型已收敛。
请参阅图6,图6为本申请实施例提供的一种服务器的结构示意性框图。
如图6所示,该服务器包括通过系统总线连接的处理器、存储器和通信接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种模型训练方法或方言识别方法。
处理器用于提供计算和控制能力,支撑整个服务器的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种模型训练方法或方言识别方法。
该服务器还包括网络接口,该网络接口用于网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,该总线比如为I2C(Inter-integrated Circuit)总线,存储器可以是Flash芯片、只读存储器(ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应于的方言语音序列和普通话语音序列;
将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
根据所述目标损失值,确定所述方言识别模型是否收敛;
若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
在一个实施例中,所述第一编码器和所述第二编码器包括第一预设数量的神经网络,所述解码器包括第二预设数量的神经网络,所述连接时序分类器包括第三预设数量的神经网络,所述神经网络包括双向长短时记忆网络。
在一个实施例中,所述方言识别模型的目标损失函数是通过所述第一注意力模块或第二注意力模块的第一损失函数、所述连接时序分类器的第二损失函数和所述编码器的第三损失函数确定的。
在一个实施例中,所述处理器在实现所述根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值时,用于实现:
基于所述第一损失函数,根据所述目标文本和所述第二文本,确定第一损失值;
基于所述第二损失函数,根据所述目标文本和所述第一文本,确定第二损失值;
基于所述第三损失函数,根据所述第二文本和所述第三文本,确定第三损失值;
根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值。
在一个实施例中,所述处理器在实现所述根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值时,用于实现:
根据所述第一损失值、第二损失值和第三损失值,确定所述目标损失函数的最小值;
将所述目标损失函数的最小值确定为所述方言识别模型的目标损失值。
在一个实施例中,所述处理器在实现根据所述目标损失值,确定所述方言识别模型是否收敛时,用于实现:
确定所述目标损失值是否大于预设阈值;
若确定所述目标损失值大于预设阈值,则确定所述方言识别模型未收敛;
若确定所述目标损失值小于或等于预设阈值,则确定所述方言识别模型已收敛。
在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,还实现如下步骤:
获取待识别的语音信息,并对所述语音信息进行语音特征序列提取,得到所述语音信息对应的语音特征序列;
将所述语音特征序列输入至预设方言识别模型中,得到所述语音信息对应的文本,其中,所述预设方言识别模型是通过模型训练方法进行训练得到的。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述服务器的具体工作过程,可以参考前述模型训练方法实施例中的对应过程或方言识别方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请模型训练方法的各个实施例或方言识别各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的服务器的内部存储单元,例如所述服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种模型训练方法,其特征在于,所述模型训练方法用于训练方言识别模型,所述方法应用于服务器,所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述方法包括:
获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应于的方言语音序列和普通话语音序列;
将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
根据所述目标损失值,确定所述方言识别模型是否收敛;
若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
2.如权利要求1所述的模型训练方法,其特征在于,所述第一编码器和所述第二编码器包括第一预设数量的神经网络,所述解码器包括第二预设数量的神经网络,所述连接时序分类器包括第三预设数量的神经网络,所述神经网络包括双向长短时记忆网络。
3.如权利要求1所述的模型训练方法,其特征在于,所述方言识别模型的目标损失函数是通过所述第一注意力模块或第二注意力模块的第一损失函数、所述连接时序分类器的第二损失函数和所述编码器的第三损失函数确定的。
4.如权利要求3所述的模型训练方法,其特征在于,所述根据所述目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值,包括:
基于所述第一损失函数,根据所述目标文本和所述第二文本,确定第一损失值;
基于所述第二损失函数,根据所述目标文本和所述第一文本,确定第二损失值;
基于所述第三损失函数,根据所述第二文本和所述第三文本,确定第三损失值;
根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值。
5.如权利要求4所述的模型训练方法,其特征在于,所述根据所述第一损失值、第二损失值和第三损失值,确定所述方言识别模型的目标损失值,包括:
根据所述第一损失值、第二损失值和第三损失值,确定所述目标损失函数的最小值;
将所述目标损失函数的最小值确定为所述方言识别模型的目标损失值。
6.如权利要求1-5中任一项所述的模型训练方法,其特征在于,根据所述目标损失值,确定所述方言识别模型是否收敛,包括
确定所述目标损失值是否大于预设阈值;
若确定所述目标损失值大于预设阈值,则确定所述方言识别模型未收敛;
若确定所述目标损失值小于或等于预设阈值,则确定所述方言识别模型已收敛。
7.一种方言识别方法,其特征在于,包括:
获取待识别的语音信息,并对所述语音信息进行语音特征序列提取,得到所述语音信息对应的语音特征序列;
将所述语音特征序列输入至预设方言识别模型中,得到所述语音信息对应的文本,其中,所述预设方言识别模型是通过如权利要求1-6中任一项所述的模型训练方法进行训练得到的。
8.一种模型训练装置,其特征在于,方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器,所述模型训练装置包括:获取模块和模型训练模块,其中:
所述获取模块,用于获取样本数据,其中,所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列;
所述模型训练模块,用于:
将所述方言语音序列输入至所述第一编码器,得到第一特征向量,并将所述普通话语音序列输入至所述第二编码器,得到第二特征向量;
将所述第一特征向量和第二特征向量输入至所述连接时序分类器,得到第一文本;
将所述第一特征向量输入至所述第一注意力模块,得到第一上下文关联向量,并将所述第二特征向量输入至所述第二注意力模块,得到第二上下文关联向量;
将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器,得到第二文本和第三文本;
根据目标文本、第一文本、第二文本和第三文本,确定所述方言识别模型的目标损失值;
根据所述目标损失值,确定所述方言识别模型是否收敛;
若所述方言识别模型未收敛,则更新所述方言识别模型的模型参数,并继续对更新后的所述方言识别模型进行训练,直至所述方言识别模型收敛。
9.一种服务器,其特征在于,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至6中任一项所述的模型训练方法的步骤或实现如权利要求7所述的方言识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的模型训练方法的步骤或实现如权利要求7所述的方言识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453440.4A CN112634867A (zh) | 2020-12-11 | 2020-12-11 | 模型训练方法、方言识别方法、装置、服务器及存储介质 |
PCT/CN2021/084300 WO2022121185A1 (zh) | 2020-12-11 | 2021-03-31 | 模型训练方法、方言识别方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453440.4A CN112634867A (zh) | 2020-12-11 | 2020-12-11 | 模型训练方法、方言识别方法、装置、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112634867A true CN112634867A (zh) | 2021-04-09 |
Family
ID=75309831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011453440.4A Pending CN112634867A (zh) | 2020-12-11 | 2020-12-11 | 模型训练方法、方言识别方法、装置、服务器及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112634867A (zh) |
WO (1) | WO2022121185A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053367A (zh) * | 2021-04-16 | 2021-06-29 | 北京百度网讯科技有限公司 | 语音识别方法、语音识别的模型训练方法以及装置 |
CN113160795A (zh) * | 2021-04-28 | 2021-07-23 | 平安科技(深圳)有限公司 | 语种特征提取模型训练方法、装置、设备及存储介质 |
CN113178200A (zh) * | 2021-04-28 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音转换方法、装置、服务器及存储介质 |
CN113239704A (zh) * | 2021-05-31 | 2021-08-10 | 平安科技(深圳)有限公司 | 干扰语句生成方法、装置、设备及计算机可读存储介质 |
CN113239693A (zh) * | 2021-06-01 | 2021-08-10 | 平安科技(深圳)有限公司 | 意图识别模型的训练方法、装置、设备及存储介质 |
CN113257227A (zh) * | 2021-04-25 | 2021-08-13 | 平安科技(深圳)有限公司 | 语音识别模型性能检测方法、装置、设备及存储介质 |
CN114596845A (zh) * | 2022-04-13 | 2022-06-07 | 马上消费金融股份有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN115691476A (zh) * | 2022-06-06 | 2023-02-03 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、语音识别方法、装置及设备 |
CN113239704B (zh) * | 2021-05-31 | 2024-05-28 | 平安科技(深圳)有限公司 | 干扰语句生成方法、装置、设备及计算机可读存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153152B (zh) * | 2023-10-31 | 2024-02-13 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9966064B2 (en) * | 2012-07-18 | 2018-05-08 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
WO2017054122A1 (zh) * | 2015-09-29 | 2017-04-06 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
CN109147772A (zh) * | 2018-10-10 | 2019-01-04 | 内蒙古工业大学 | 一种dnn-hmm声学模型参数迁移结构 |
CN110211565B (zh) * | 2019-05-06 | 2023-04-04 | 平安科技(深圳)有限公司 | 方言识别方法、装置及计算机可读存储介质 |
-
2020
- 2020-12-11 CN CN202011453440.4A patent/CN112634867A/zh active Pending
-
2021
- 2021-03-31 WO PCT/CN2021/084300 patent/WO2022121185A1/zh active Application Filing
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053367B (zh) * | 2021-04-16 | 2023-10-10 | 北京百度网讯科技有限公司 | 语音识别方法、语音识别的模型训练方法以及装置 |
CN113053367A (zh) * | 2021-04-16 | 2021-06-29 | 北京百度网讯科技有限公司 | 语音识别方法、语音识别的模型训练方法以及装置 |
CN113257227A (zh) * | 2021-04-25 | 2021-08-13 | 平安科技(深圳)有限公司 | 语音识别模型性能检测方法、装置、设备及存储介质 |
CN113257227B (zh) * | 2021-04-25 | 2024-03-01 | 平安科技(深圳)有限公司 | 语音识别模型性能检测方法、装置、设备及存储介质 |
CN113160795A (zh) * | 2021-04-28 | 2021-07-23 | 平安科技(深圳)有限公司 | 语种特征提取模型训练方法、装置、设备及存储介质 |
CN113178200A (zh) * | 2021-04-28 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音转换方法、装置、服务器及存储介质 |
CN113160795B (zh) * | 2021-04-28 | 2024-03-05 | 平安科技(深圳)有限公司 | 语种特征提取模型训练方法、装置、设备及存储介质 |
CN113178200B (zh) * | 2021-04-28 | 2024-03-01 | 平安科技(深圳)有限公司 | 语音转换方法、装置、服务器及存储介质 |
CN113239704A (zh) * | 2021-05-31 | 2021-08-10 | 平安科技(深圳)有限公司 | 干扰语句生成方法、装置、设备及计算机可读存储介质 |
CN113239704B (zh) * | 2021-05-31 | 2024-05-28 | 平安科技(深圳)有限公司 | 干扰语句生成方法、装置、设备及计算机可读存储介质 |
CN113239693B (zh) * | 2021-06-01 | 2023-10-27 | 平安科技(深圳)有限公司 | 意图识别模型的训练方法、装置、设备及存储介质 |
CN113239693A (zh) * | 2021-06-01 | 2021-08-10 | 平安科技(深圳)有限公司 | 意图识别模型的训练方法、装置、设备及存储介质 |
CN114596845A (zh) * | 2022-04-13 | 2022-06-07 | 马上消费金融股份有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN115691476B (zh) * | 2022-06-06 | 2023-07-04 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、语音识别方法、装置及设备 |
CN115691476A (zh) * | 2022-06-06 | 2023-02-03 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、语音识别方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2022121185A1 (zh) | 2022-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112634867A (zh) | 模型训练方法、方言识别方法、装置、服务器及存储介质 | |
CN112435656B (zh) | 模型训练方法、语音识别方法、装置、设备及存储介质 | |
CN108899013B (zh) | 语音搜索方法、装置和语音识别系统 | |
CN111081230A (zh) | 语音识别方法和设备 | |
CN111710337B (zh) | 语音数据的处理方法、装置、计算机可读介质及电子设备 | |
CN110335608B (zh) | 声纹验证方法、装置、设备及存储介质 | |
CN112233651A (zh) | 方言类型的确定方法、装置、设备及存储介质 | |
CN111445899A (zh) | 语音情绪识别方法、装置及存储介质 | |
CN114420102B (zh) | 语音断句方法、装置、电子设备及存储介质 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
JP2021501912A (ja) | フィルタリングモデル訓練方法および音声認識方法 | |
CN113823257B (zh) | 语音合成器的构建方法、语音合成方法及装置 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN113569021B (zh) | 用户分类的方法、计算机设备和可读存储介质 | |
CN112466287B (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
EP1074019B1 (en) | Adaptation of a speech recognizer for dialectal and linguistic domain variations | |
CN111508481B (zh) | 语音唤醒模型的训练方法、装置、电子设备及存储介质 | |
CN111696555A (zh) | 一种唤醒词的确认方法及系统 | |
CN111048068B (zh) | 语音唤醒方法、装置、系统及电子设备 | |
CN111161703A (zh) | 带语气的语音合成方法、装置、计算设备及存储介质 | |
CN115700871A (zh) | 模型训练和语音合成方法、装置、设备及介质 | |
CN113421573A (zh) | 身份识别模型训练方法、身份识别方法及装置 | |
JP6580281B1 (ja) | 翻訳装置、翻訳方法、および翻訳プログラム | |
CN111933121A (zh) | 一种声学模型训练方法及装置 | |
CN112908296A (zh) | 一种方言识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |