CN115101061A - 语音识别模型的训练方法、装置、存储介质及电子设备 - Google Patents
语音识别模型的训练方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN115101061A CN115101061A CN202210833610.4A CN202210833610A CN115101061A CN 115101061 A CN115101061 A CN 115101061A CN 202210833610 A CN202210833610 A CN 202210833610A CN 115101061 A CN115101061 A CN 115101061A
- Authority
- CN
- China
- Prior art keywords
- loss function
- network
- training
- recognition model
- representation result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000006870 function Effects 0.000 claims abstract description 95
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000000052 comparative effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000012827 research and development Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开涉及语音识别领域,具体涉及一种语音识别模型的训练方法、装置、存储介质及电子设备。该语音识别模型的训练方法包括构建初始语音识别模型;固定第二初始参数,基于无标注数据集计算对比学习损失函数以将第一初始参数调整为第一中间参数;固定第一中间参数,基于有标注数据集计算第一联合损失函数以将第二初始参数调整为第二中间参数;基于有标注数据集计算第二联合损失函数,并根据第二联合损失函数对第一网络和第二网络进行训练,以调整第一中间参数和第二中间参数得到目标语音识别模型。本公开提供的语音识别模型的训练方法能够解决语音识别模型在标注数据不足时识别性能低的问题。
Description
技术领域
本公开涉及语音识别领域,具体涉及一种语音识别模型的训练方法、语音识别模型的训练装置、存储介质及电子设备。
背景技术
近年来,随着深度学习技术的高速发展,基于端到端深度神经网络的自动语音识别(Automatic Speech Recognition:ASR)已经逐渐发展成为当前语音识别领域的主流技术。
由于端到端ASR模型参数量较大,模型的性能往往依赖于大量的标注数据。并且通常情况下,自监督ASR方法主要在CTC(Connectionist temporal classification,时序数据分类算法)框架下进行,CTC框架假设语音特征表示帧间独立,与实际情况有所出入,性能受限。因此还需要进一步提高语音识别模型在标注数据不足的条件下的识别性能。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种语音识别模型的训练方法、语音识别模型的训练装置、存储介质及电子设备,旨在解决语音识别模型在标注数据不足时识别性能低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的一方面,提供了一种语音识别模型的训练方法,包括:构建初始语音识别模型;其中,所述初始语音识别模型包括具有第一初始参数的第一网络和具有第二初始参数的第二网络;固定所述第二初始参数,基于无标注数据集计算对比学习损失函数,并根据所述对比学习损失函数对所述第一网络进行自监督训练,以将所述第一初始参数调整为第一中间参数;固定所述第一中间参数,基于有标注数据集计算第一联合损失函数,并根据所述第一联合损失函数对所述第二网络进行训练,以将所述第二初始参数调整为第二中间参数;基于所述有标注数据集计算第二联合损失函数,并根据所述第二联合损失函数对所述第一网络和所述第二网络进行训练,以调整所述第一中间参数和所述第二中间参数得到目标语音识别模型。
根据本公开的一些实施例,基于前述方案,所述第一网络包括卷积神经网络模块和卷积增强模块。
根据本公开的一些实施例,基于前述方案,所述基于无标注数据集计算对比学习损失函数,包括:基于所述卷积神经网络模块计算所述无标注数据集中一音频样本数据的浅层表示结果;对所述浅层表示结果进行掩码处理得到掩码表示结果,并基于所述卷积增强模块计算所述掩码表示结果的深层表示结果;以及将所述浅层表示结果进行线性变换得到目标表示结果;基于所述深层表示结果和所述目标表示结果计算所述对比学习损失函数。
根据本公开的一些实施例,基于前述方案,所述对所述浅层表示结果进行掩码处理得到掩码表示结果,包括:基于随机掩码概率从所述浅层表示结果中进行随机选取得到种子样本帧;将所述浅层表示结果中所述种子样本帧之后的连续K帧的特征矢量替换为可学习向量得到所述掩码表示结果,其中K为正整数。
根据本公开的一些实施例,基于前述方案,所述基于所述深层表示结果和所述目标表示结果计算所述对比学习损失函数,包括:从所述深层表示结果中的掩码部分选取M帧锚样本作为第一样本,其中M为正整数;以及从所述目标表示结果中选取与所述第一样本中M帧锚样本一一对应的M帧锚样本作为第二样本,以及选取S帧负样本作为第三样本,其中S为正整数;基于所述第一样本和所述第二样本之间的相似度和所述第一样本和所述第三样本之间的相似度计算所述对比学习损失函数。
根据本公开的一些实施例,基于前述方案,所述第二网络包括特征变形模块。
根据本公开的一些实施例,基于前述方案,所述方法还包括:基于预设的音频采样率获取音频样本数据,并将所述音频样本数据划分为第一音频样本和第二音频样本;计算所述第一音频样本的音频特征矩阵以得到所述无标注数据集;以及根据计算的所述第二音频样本的音频特征矩阵和获取的所述第二音频样本的文本标注结果得到所述有标注数据集。
根据本公开实施例的第二方面,提供了一种语音识别模型的训练装置,包括:构建模型模块,用于构建初始语音识别模型;其中,所述初始语音识别模型包括具有第一初始参数的第一网络和具有第二初始参数的第二网络;第一训练模块,用于固定所述第二初始参数,基于无标注数据集计算对比学习损失函数,并根据所述对比学习损失函数对所述第一网络进行自监督训练,以将所述第一初始参数调整为第一中间参数;第二训练模块,用于固定所述第一中间参数,基于有标注数据集计算第一联合损失函数,并根据所述第一联合损失函数对所述第二网络进行训练,以将所述第二初始参数调整为第二中间参数;模型调整模块,用于基于所述有标注数据集计算第二联合损失函数,并根据所述第二联合损失函数对所述第一网络和所述第二网络进行训练,以调整所述第一中间参数和所述第二中间参数得到目标语音识别模型。
根据本公开实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中的语音识别模型的训练方法。
根据本公开实施例的第四方面,提供了一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中的语音识别模型的训练方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在本公开的一些实施例所提供的技术方案中,首先,在初始语音识别模型的基础上,利用无标注数据集,设计对比学习损失函数对模型的第一网络进行预训练;然后,固定第一网络的参数,利用有标注数据集,计算联合损失函数对模型的第二网络进行训练;最后,使用标注数据,计算联合损失函数对语音识别模型进行训练来对第一网络和第二网络的参数进行微调,训练模型至收敛得到最终的语音识别模型。本申请公开的语音识别模型的训练方法,一方面,训练过程中不依赖大量的标注数据,从而降低自动语音识别ASR的标注数据成本,提高语音识别模型的研发和优化进度;另一方面,模型训练的过程不受时序数据分类算法CTC框架限制,避免语音特征表示帧间相互独立,与实际情况更加贴合,进而使得语音识别模型识别的精确度更高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出本公开示例性实施例中一种语音识别模型的训练方法的流程示意图;
图2示意性示出本公开示例性实施例中一种训练数据集准备方法的流程示意图;
图3示意性示出本公开示例性实施例中一种计算对比学习损失函数方法的流程示意图;
图4意性示出本公开示例性实施例中一种掩码处理方法的流程示意图;
图5意性示出本公开示例性实施例中另一种计算对比学习损失函数方法的流程示意图;
图6示意性示出本公开示例性实施例中一种语音识别模型的训练装置的组成示意图;
图7示意性示出本公开示例性实施例中一种计算机可读存储介质的示意图;
图8示意性示出本公开示例性实施例中一种电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
以下对本公开实施例的技术方案的实现细节进行详细阐述。
图1示意性示出本公开示例性实施例中一种语音识别模型的训练方法的流程示意图。如图1所示,该语音识别模型的训练方法包括步骤S101至步骤S104:
步骤S101,构建初始语音识别模型;其中,所述初始语音识别模型包括具有第一初始参数的第一网络和具有第二初始参数的第二网络;
步骤S102,固定所述第二初始参数,基于无标注数据集计算对比学习损失函数,并根据所述对比学习损失函数对所述第一网络进行自监督训练,以将所述第一初始参数调整为第一中间参数;
步骤S103,固定所述第一中间参数,基于有标注数据集计算第一联合损失函数,并根据所述第一联合损失函数对所述第二网络进行训练,以将所述第二初始参数调整为第二中间参数;
步骤S104,基于所述有标注数据集计算第二联合损失函数,并根据所述第二联合损失函数对所述第一网络和所述第二网络进行训练,以调整所述第一中间参数和所述第二中间参数得到目标语音识别模型。
在本公开的一些实施例所提供的技术方案中,首先,在初始语音识别模型的基础上,利用无标注数据集,设计对比学习损失函数对模型的第一网络进行预训练;然后,固定第一网络的参数,利用有标注数据集,计算联合损失函数对模型的第二网络进行训练;最后,使用标注数据,计算联合损失函数对语音识别模型进行训练来对第一网络和第二网络的参数进行微调,训练模型至收敛得到最终的语音识别模型。本申请公开的语音识别模型的训练方法,一方面,训练过程中不依赖大量的标注数据,从而降低自动语音识别ASR的标注数据成本,提高语音识别模型的研发和优化进度;另一方面,模型训练的过程不受时序数据分类算法CTC框架限制,避免语音特征表示帧间相互独立,与实际情况更加贴合,进而使得语音识别模型识别的精确度更高。
下面,将结合附图及实施例对本示例实施方式中的语音识别模型的训练方法的各个步骤进行更详细的说明。
步骤S101,构建初始语音识别模型;其中,所述初始语音识别模型包括具有第一初始参数的第一网络和具有第二初始参数的第二网络。
在本公开的一个实施例中,首先构建一个随机初始化的语音识别模型。语音识别模型的网络结构可以包括嵌入层(即Embedding层)、转换层(即Transformer层)以及输出层。其中Transformer层是由第一网络和第二网络构成,第一网络为编码器encoder网络,第二网络则为解码器decoder网络。
对于随机初始化之后的初始语音识别模型,第一网络和第二网络都具有各自的初始参数,在后续的模型训练中调整网络模型参数以得到训练后的语音识别模型。
在本公开的一个实施例中,在进行步骤S102至步骤S104的训练之前,还需要准备用于训练的数据集。图2示意性示出本公开示例性实施例中一种训练数据集准备方法的流程示意图。如图2所示,该训练数据集准备方法包括:
步骤S201,基于预设的音频采样率获取音频样本数据,并将所述音频样本数据划分为第一音频样本和第二音频样本;
步骤S202,计算所述第一音频样本的音频特征矩阵以得到所述无标注数据集;以及
步骤S203,根据计算的所述第二音频样本的音频特征矩阵和获取的所述第二音频样本的文本标注结果得到所述有标注数据集。
在步骤S201中,按照预设的音频采样率进行音频采样得到音频样本数据,采样的音频可以是中文语音音频或其他语言音频,例如按照音频采样率为16kHz采样得到一段时长的音频样本。
之后,为了配置无标注数据集和有标注数据集,可以将采样的音频样本数据划分为两部分,一部分用作生成无标注数据集,共有i个,另一部分用作生成有标注数据集,共有j个。
需要说明的是,在划分的过程中,一些音频样本既可以作为第一音频样本,也可以作为第二音频样本,也就是内容可以有重合的部分。
在步骤S202中,即生成无标注数据集。无标注数据集不需要对语音进行标注,因此直接计算第一音频样本的音频特征矩阵得到无标注数据集,记为U={xi|i∈[1,Nu]},其中xi为第i个第一音频样本的音频特征矩阵,Nu为无标注数据集中无标注的第一音频样本的数量。
在步骤S203中,即生成有标注数据集。有标注数据集种每一个音频样本都有其对应的文本标注结果,因此,计算第二音频样本的音频特征矩阵并对第二音频样本进行标注得到文本标注结果便可得到有标注数据集,记为L={xj,yj|j∈[1,Nl]},其中xj为第j个第二音频样本的音频特征矩阵,yj为音频特征矩阵xj对应的文本标注结果,Nl为无标注数据集中无标注的第二音频样本的数量。
需要说明的是,本公开对无标注数据集的数量Nu和有标注数据集的数量Nl的之间的大小没有限制。但在实际操作过程中,考虑到语音标注成本,无标注数据集的数量可以远远大于有标注数据集的数量,即Nu>>Nl,例如无标注数据集和有标注数据集分别为10000小时和100小时。
在步骤S202和S203中,计算音频样本的音频特征矩阵时,音频特征矩阵可以为80维梅尔谱特征,其中频谱图的每一帧的时长为25ms,步长为10ms。
在步骤S102中,固定所述第二初始参数,基于无标注数据集计算对比学习损失函数,并根据所述对比学习损失函数对所述第一网络进行自监督训练,以将所述第一初始参数调整为第一中间参数。
在本公开的一个实施例中,步骤S102是对第一网络进行自监督训练,第一网络包括卷积神经网络模块和卷积增强模块。
其中,第一网络可以是encoder网络,包括卷积神经网络模块即CNN(Convolutional Neural Network)模块,卷积增强模块即Conformer模块。举例而言,encoder网络由5层CNN模块以及12个Conformer模块先后连接而成。
图3示意性示出本公开示例性实施例中一种计算对比学习损失函数方法的流程示意图。如图3所示,该计算对比学习损失函数方法包括步骤S301至步骤S304:
步骤S301,基于所述卷积神经网络模块计算所述无标注数据集中一音频样本数据的浅层表示结果;
步骤S302,对所述浅层表示结果进行掩码处理得到掩码表示结果,并基于所述卷积增强模块计算所述掩码表示结果的深层表示结果;以及
步骤S303,将所述浅层表示结果进行线性变换得到目标表示结果;
步骤S304,基于所述深层表示结果和所述目标表示结果计算所述对比学习损失函数。
接下来对步骤S301至步骤S304进行详细说明:
在步骤S301中,基于所述卷积神经网络模块计算所述无标注数据集中一音频样本数据的浅层表示结果。
具体地,给定一个无标注数据集中的音频样本数据xi∈U,xi经过多层CNN计算后得到了浅层表示结果,记为e。
接着对浅层表示结果e分别进行两种方式的处理,即步骤S302和步骤S301的两种处理,再将这种方式的处理结果进行对比。
在步骤S302中,对所述浅层表示结果进行掩码处理得到掩码表示结果,并基于所述卷积增强模块计算所述掩码表示结果的深层表示结果。
具体而言,图4意性示出本公开示例性实施例中一种掩码处理方法的流程示意图。如图4所示,该掩码处理方法包括:
步骤S401,基于随机掩码概率从所述浅层表示结果中进行随机选取得到种子样本帧;
步骤S402,将所述浅层表示结果中所述种子样本帧之后的连续K帧的特征矢量替换为可学习向量得到所述掩码表示结果,其中K为正整数。
其中,p即为随机掩码概率,是一个预设值,例如取p=6.5,K即连续帧掩码参数,K也是预设值,为正整数,例如取K=10。当然,本公开的实施例仅是示范性说明,根据实际需求,随机掩码概率和连续帧掩码参数的值可以适应性调整。
在步骤S303中,将所述浅层表示结果进行线性变换得到目标表示结果。
具体的,线性变换即线性映射(linear map),是从一个向量空间V到另一个向量空间W的映射且保持加法运算和数量乘法运算。将浅层表示结果e经过一个线性变换,得到目标表示结果,记为q。
在步骤S304中,基于所述深层表示结果和所述目标表示结果计算所述对比学习损失函数。
图5意性示出本公开示例性实施例中另一种计算对比学习损失函数方法的流程示意图。如图5所示,该计算对比学习损失函数方法包括:
步骤S501,从所述深层表示结果中的掩码部分选取M帧锚样本作为第一样本,其中M为正整数;
步骤S502,从所述目标表示结果中选取与所述第一样本中M帧锚样本一一对应的M帧锚样本作为第二样本,以及选取S帧负样本作为第三样本,其中S为正整数;
步骤S503,基于所述第一样本和所述第二样本之间的相似度和所述第一样本和所述第三样本之间的相似度计算所述对比学习损失函数。
具体而言,从所述深层表示结果h中的掩码部分选取M帧锚样本,每一帧样本,即第一样本记为hm,M为锚样本的帧数量,是预设值且为正整数,例如取锚样本的帧数量M=10。
并且从目标表示结果q中选取与第一样本中的锚样本一一对应的M帧锚样本,每一帧样本,即第二样本记为qm;同时,从目标表示结果q中选取S帧负样本,每一帧样本,即第三样本记为S为负样本的帧数量,是预设值且为正整数,例如取负样本的帧数量S=100。
接着计算xi音频样本的对比学习损失函数lossi,如公式(1)所示:
具体地,sim()为相似函数,计算公式见公式(2)所示:
对于每一个xi音频样本可以计算出对比学习损失函数lossi,那么对于所有的无标注数据集U总的对比学习损失函数loss,还需要综合各音频样本的损失函数,例如求均值等。
基于上述方法,设计对比学习任务,通过无标注数据集U实现对语音识别模型中的第一网络encoder网络进行自监督训练,训练完成后将encoder网络的第一初始参数调整为第一中间参数。由于不依赖大量的标注数据,所以能够降低自动语音识别ASR的标注数据成本,并且能够提高语音识别模型的研发和优化进度。
在步骤S103中,固定所述第一中间参数,基于有标注数据集计算第一联合损失函数,并根据所述第一联合损失函数对所述第二网络进行训练,以将所述第二初始参数调整为第二中间参数。
在本公开的一个实施例中,步骤S103是对第二网络进行训练,第二网络包括特征变形模块。
其中,第二网络可以是decoder网络,包括一个或多个特征变形模块,即transformer模块,举例而言,decoder网络由6个transformer模块构成。
在步骤S102之后,encoder网络已经训练完成,但decoder依然是随机初始化的状态,为了避免decoder与encoder训练状态不平衡,在本步骤中,利用联合损失函数对decoder网络部分进行训练,达到初步训练decoder网络的目的。
在本公开的一个实施例中,通过联合损失函数来对decoder网络进行训练,联合损失函数即CTC-attention联合损失函数。
具体地,目前端到端ASR模型训练过程中使用的损失函数主要包括(1)基于连接时间分类(Connectionist Temporal Classification:CTC)损失函数;(2)基于注意力(attention)机制的encoder-decoder损失函数;以及(3)CTC-attention联合损失函数。其中,CTC-attention联合损失函数兼具了CTC和attention机制各自的优点,因此本公开利用CTC-attention联合损失函数来进行模型训练。
在模型训练时,利用有标注数据集L,固定encoder网络,即固定第一中间参数,利用CTC-attention联合损失函数完成对decoder网络的模型训练,直至decoder网络收敛,进而将decoder网络从第二初始参数调整为第二中间参数。
在步骤S104中,基于所述有标注数据集计算第二联合损失函数,并根据所述第二联合损失函数对所述第一网络和所述第二网络进行训练,以调整所述第一中间参数和所述第二中间参数得到目标语音识别模型。
在本公开的一个实施例中,步骤S104是对语音识别模型中两个网络的参数进行微调。损失函数依然是使用的CTC-attention联合损失函数。
具体地,采用有标注数据集L,打开encoder网络和decoder网络,通过优化CTC-attention联合损失函数,对encoder网络和decoder网络进行微调训练至模型收敛,以调整第一中间参数和第二中间参数获得最终的语音识别模型。
基于本公开提供的语音识别模型的训练方法,使得模型训练的过程不受时序数据分类算法CTC框架限制,避免语音特征表示帧间相互独立,与实际情况更加贴合,进而使得语音识别模型识别的精确度更高。
图6示意性示出本公开示例性实施例中一种语音识别模型的训练装置的组成示意图,如图6所示,该语音识别模型的训练装置600可以包括构建模型模块601、第一训练模块602、第二训练模块603以及模型调整模块604。其中:
构建模型模块601,用于构建初始语音识别模型;其中,所述初始语音识别模型包括具有第一初始参数的第一网络和具有第二初始参数的第二网络;
第一训练模块602,用于固定所述第二初始参数,基于无标注数据集计算对比学习损失函数,并根据所述对比学习损失函数对所述第一网络进行自监督训练,以将所述第一初始参数调整为第一中间参数;
第二训练模块603,用于固定所述第一中间参数,基于有标注数据集计算第一联合损失函数,并根据所述第一联合损失函数对所述第二网络进行训练,以将所述第二初始参数调整为第二中间参数;
模型调整模块607,用于基于所述有标注数据集计算第二联合损失函数,并根据所述第二联合损失函数对所述第一网络和所述第二网络进行训练,以调整所述第一中间参数和所述第二中间参数得到目标语音识别模型。
根据本公开的示例性实施例,所述第一网络包括卷积神经网络模块和卷积增强模块。
根据本公开的示例性实施例,所述第一训练模块602包括浅层单元、掩码单元、目标单元和对比单元,所述浅层单元用于基于所述卷积神经网络模块计算所述无标注数据集中一音频样本数据的浅层表示结果;所述掩码单元表示对所述浅层表示结果进行掩码处理得到掩码表示结果,并基于所述卷积增强模块计算所述掩码表示结果的深层表示结果;以及所述目标单元用于将所述浅层表示结果进行线性变换得到目标表示结果;所述对比单元用于基于所述深层表示结果和所述目标表示结果计算所述对比学习损失函数。
根据本公开的示例性实施例,所述掩码单元还用于基于随机掩码概率从所述浅层表示结果中进行随机选取得到种子样本帧;将所述浅层表示结果中所述种子样本帧之后的连续K帧的特征矢量替换为可学习向量得到所述掩码表示结果,其中K为正整数。
根据本公开的示例性实施例,所述对比单元还用于从所述深层表示结果中的掩码部分选取M帧锚样本作为第一样本,其中M为正整数;以及从所述目标表示结果中选取与所述第一样本中M帧锚样本一一对应的M帧锚样本作为第二样本,以及选取S帧负样本作为第三样本,其中S为正整数;基于所述第一样本和所述第二样本之间的相似度和所述第一样本和所述第三样本之间的相似度计算所述对比学习损失函数。
根据本公开的示例性实施例,所述第二网络包括特征变形模块。
根据本公开的示例性实施例,所述语音识别模型的训练装置600还包括数据准备模块,用于基于预设的音频采样率获取音频样本数据,并将所述音频样本数据划分为第一音频样本和第二音频样本;计算所述第一音频样本的音频特征矩阵以得到所述无标注数据集;以及根据计算的所述第二音频样本的音频特征矩阵和获取的所述第二音频样本的文本标注结果得到所述有标注数据集。
上述的语音识别模型的训练装置600中各模块的具体细节已经在对应的语音识别模型的训练方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的存储介质。图7示意性示出本公开示例性实施例中一种计算机可读存储介质的示意图,如图7所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如手机上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。图8示意性示出本公开示例性实施例中一种电子设备的计算机系统的结构示意图。
需要说明的是,图8示出的电子设备的计算机系统800仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(Central Processing Unit,CPU)801,其可以根据存储在只读存储器(Read-Only Memory,ROM)802中的程序或者从存储部分808加载到随机访问存储器(Random Access Memory,RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统操作所需的各种程序和数据。CPU 801、ROM802以及RAM 803通过总线804彼此相连。输入/输出(Input/Output,I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本公开的系统中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种语音识别模型的训练方法,其特征在于,包括:
构建初始语音识别模型;其中,所述初始语音识别模型包括具有第一初始参数的第一网络和具有第二初始参数的第二网络;
固定所述第二初始参数,基于无标注数据集计算对比学习损失函数,并根据所述对比学习损失函数对所述第一网络进行自监督训练,以将所述第一初始参数调整为第一中间参数;
固定所述第一中间参数,基于有标注数据集计算第一联合损失函数,并根据所述第一联合损失函数对所述第二网络进行训练,以将所述第二初始参数调整为第二中间参数;
基于所述有标注数据集计算第二联合损失函数,并根据所述第二联合损失函数对所述第一网络和所述第二网络进行训练,以调整所述第一中间参数和所述第二中间参数得到目标语音识别模型。
2.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述第一网络包括卷积神经网络模块和卷积增强模块。
3.根据权利要求2所述的语音识别模型的训练方法,其特征在于,所述基于无标注数据集计算对比学习损失函数,包括:
基于所述卷积神经网络模块计算所述无标注数据集中一音频样本数据的浅层表示结果;
对所述浅层表示结果进行掩码处理得到掩码表示结果,并基于所述卷积增强模块计算所述掩码表示结果的深层表示结果;以及
将所述浅层表示结果进行线性变换得到目标表示结果;
基于所述深层表示结果和所述目标表示结果计算所述对比学习损失函数。
4.根据权利要求3所述的语音识别模型的训练方法,其特征在于,所述对所述浅层表示结果进行掩码处理得到掩码表示结果,包括:
基于随机掩码概率从所述浅层表示结果中进行随机选取得到种子样本帧;
将所述浅层表示结果中所述种子样本帧之后的连续K帧的特征矢量替换为可学习向量得到所述掩码表示结果,其中K为正整数。
5.根据权利要求3所述的语音识别模型的训练方法,其特征在于,所述基于所述深层表示结果和所述目标表示结果计算所述对比学习损失函数,包括:
从所述深层表示结果中的掩码部分选取M帧锚样本作为第一样本,其中M为正整数;以及
从所述目标表示结果中选取与所述第一样本中M帧锚样本一一对应的M帧锚样本作为第二样本,以及选取S帧负样本作为第三样本,其中S为正整数;
基于所述第一样本和所述第二样本之间的相似度和所述第一样本和所述第三样本之间的相似度计算所述对比学习损失函数。
6.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述第二网络包括特征变形模块。
7.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述方法还包括:
基于预设的音频采样率获取音频样本数据,并将所述音频样本数据划分为第一音频样本和第二音频样本;
计算所述第一音频样本的音频特征矩阵以得到所述无标注数据集;以及
根据计算的所述第二音频样本的音频特征矩阵和获取的所述第二音频样本的文本标注结果得到所述有标注数据集。
8.一种语音识别模型的训练装置,其特征在于,包括:
构建模型模块,用于构建初始语音识别模型;其中,所述初始语音识别模型包括具有第一初始参数的第一网络和具有第二初始参数的第二网络;
第一训练模块,用于固定所述第二初始参数,基于无标注数据集计算对比学习损失函数,并根据所述对比学习损失函数对所述第一网络进行自监督训练,以将所述第一初始参数调整为第一中间参数;
第二训练模块,用于固定所述第一中间参数,基于有标注数据集计算第一联合损失函数,并根据所述第一联合损失函数对所述第二网络进行训练,以将所述第二初始参数调整为第二中间参数;
模型调整模块,用于基于所述有标注数据集计算第二联合损失函数,并根据所述第二联合损失函数对所述第一网络和所述第二网络进行训练,以调整所述第一中间参数和所述第二中间参数得到目标语音识别模型。
9.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1至7任一项所述的语音识别模型的训练方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7任一项所述的语音识别模型的训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210833610.4A CN115101061A (zh) | 2022-07-14 | 2022-07-14 | 语音识别模型的训练方法、装置、存储介质及电子设备 |
PCT/CN2023/075729 WO2024011902A1 (zh) | 2022-07-14 | 2023-02-13 | 语音识别模型的训练方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210833610.4A CN115101061A (zh) | 2022-07-14 | 2022-07-14 | 语音识别模型的训练方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115101061A true CN115101061A (zh) | 2022-09-23 |
Family
ID=83297906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210833610.4A Pending CN115101061A (zh) | 2022-07-14 | 2022-07-14 | 语音识别模型的训练方法、装置、存储介质及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115101061A (zh) |
WO (1) | WO2024011902A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115881103A (zh) * | 2022-11-23 | 2023-03-31 | 镁佳(北京)科技有限公司 | 语音情绪识别模型训练方法、语音情绪识别方法及装置 |
CN116050433A (zh) * | 2023-02-13 | 2023-05-02 | 北京百度网讯科技有限公司 | 自然语言处理模型的场景适配方法、装置、设备及介质 |
WO2024011902A1 (zh) * | 2022-07-14 | 2024-01-18 | 京东科技信息技术有限公司 | 语音识别模型的训练方法、装置、存储介质及电子设备 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117668563B (zh) * | 2024-01-31 | 2024-04-30 | 苏州元脑智能科技有限公司 | 文本识别方法、装置、电子设备及可读存储介质 |
CN117668528B (zh) * | 2024-02-01 | 2024-04-12 | 成都华泰数智科技有限公司 | 基于物联网的天然气调压器故障检测方法及系统 |
CN118230720B (zh) * | 2024-05-20 | 2024-07-19 | 深圳市盛佳丽电子有限公司 | 一种基于ai的语音语义识别方法及tws耳机 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10529318B2 (en) * | 2015-07-31 | 2020-01-07 | International Business Machines Corporation | Implementing a classification model for recognition processing |
CN111916067A (zh) * | 2020-07-27 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
CN112509563B (zh) * | 2020-12-17 | 2024-05-17 | 中国科学技术大学 | 模型训练方法、装置及电子设备 |
CN113744727B (zh) * | 2021-07-16 | 2023-12-26 | 厦门快商通科技股份有限公司 | 模型训练方法、系统、终端设备及存储介质 |
CN114416955A (zh) * | 2022-01-21 | 2022-04-29 | 深圳前海微众银行股份有限公司 | 异构语言模型的训练方法、装置、设备及存储介质 |
CN115101061A (zh) * | 2022-07-14 | 2022-09-23 | 京东科技信息技术有限公司 | 语音识别模型的训练方法、装置、存储介质及电子设备 |
-
2022
- 2022-07-14 CN CN202210833610.4A patent/CN115101061A/zh active Pending
-
2023
- 2023-02-13 WO PCT/CN2023/075729 patent/WO2024011902A1/zh unknown
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024011902A1 (zh) * | 2022-07-14 | 2024-01-18 | 京东科技信息技术有限公司 | 语音识别模型的训练方法、装置、存储介质及电子设备 |
CN115881103A (zh) * | 2022-11-23 | 2023-03-31 | 镁佳(北京)科技有限公司 | 语音情绪识别模型训练方法、语音情绪识别方法及装置 |
CN115881103B (zh) * | 2022-11-23 | 2024-03-19 | 镁佳(北京)科技有限公司 | 语音情绪识别模型训练方法、语音情绪识别方法及装置 |
CN116050433A (zh) * | 2023-02-13 | 2023-05-02 | 北京百度网讯科技有限公司 | 自然语言处理模型的场景适配方法、装置、设备及介质 |
CN116050433B (zh) * | 2023-02-13 | 2024-03-26 | 北京百度网讯科技有限公司 | 自然语言处理模型的场景适配方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2024011902A1 (zh) | 2024-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115101061A (zh) | 语音识别模型的训练方法、装置、存储介质及电子设备 | |
CN111177393B (zh) | 一种知识图谱的构建方法、装置、电子设备及存储介质 | |
CN112699991A (zh) | 用于加速神经网络训练的信息处理的方法、电子设备和计算机可读介质 | |
JP2021089705A (ja) | 翻訳品質を評価するための方法と装置 | |
CN110444203B (zh) | 语音识别方法、装置及电子设备 | |
WO2022134894A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN110162766B (zh) | 词向量更新方法和装置 | |
CN112214604A (zh) | 文本分类模型的训练方法、文本分类方法、装置及设备 | |
US10810993B2 (en) | Sample-efficient adaptive text-to-speech | |
CN112509555B (zh) | 方言语音识别方法、装置、介质及电子设备 | |
CN111292768B (zh) | 丢包隐藏的方法、装置、存储介质和计算机设备 | |
CN110929114A (zh) | 利用动态记忆网络来跟踪数字对话状态并生成响应 | |
CN107861954A (zh) | 基于人工智能的信息输出方法和装置 | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 | |
WO2023231954A1 (zh) | 一种数据的去噪方法以及相关设备 | |
CN114529574A (zh) | 基于图像分割的图像抠图方法、装置、计算机设备及介质 | |
CN111428727A (zh) | 基于序列变换纠正及注意力机制的自然场景文本识别方法 | |
US20230046088A1 (en) | Method for training student network and method for recognizing image | |
CN113780326A (zh) | 一种图像处理方法、装置、存储介质及电子设备 | |
CN115880317A (zh) | 一种基于多分支特征融合精炼的医学图像分割方法 | |
CN115861462A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN112949818A (zh) | 模型蒸馏方法、装置、设备以及存储介质 | |
CN116977885A (zh) | 视频文本任务处理方法、装置、电子设备及可读存储介质 | |
CN118397147A (zh) | 一种基于深度学习的图像文本生成方法及装置 | |
WO2022246986A1 (zh) | 数据处理方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |