CN114842834A - 一种语音文本联合预训练方法及系统 - Google Patents
一种语音文本联合预训练方法及系统 Download PDFInfo
- Publication number
- CN114842834A CN114842834A CN202210346308.6A CN202210346308A CN114842834A CN 114842834 A CN114842834 A CN 114842834A CN 202210346308 A CN202210346308 A CN 202210346308A CN 114842834 A CN114842834 A CN 114842834A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- loss
- unpaired
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 205
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000006870 function Effects 0.000 claims abstract description 292
- 230000015572 biosynthetic process Effects 0.000 claims description 37
- 238000003786 synthesis reaction Methods 0.000 claims description 37
- 230000000873 masking effect Effects 0.000 claims description 35
- 238000013519 translation Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 108700026244 Open Reading Frames Proteins 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 18
- 238000009825 accumulation Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 10
- 238000012512 characterization method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ZUILKEWVWUKSAO-ZZXKWVIFSA-N 4-coumaroyltriacetic acid lactone Chemical compound C1=CC(O)=CC=C1\C=C\C(=O)CC1=CC(O)=CC(=O)O1 ZUILKEWVWUKSAO-ZZXKWVIFSA-N 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种语音文本联合预训练方法及系统,包括:将非成对语音数据和非成对文本数据输入至预训练联合模型中,得到初始损失总函数和初始训练联合模型;将非成对语音数据、非成对文本数据和成对语音文本数据输入初始训练联合模型,得到更新损失总函数和更新训练联合模型;将非成对语音数据、非成对文本数据和成对语音文本数据输入更新训练联合模型,得到最终损失总函数和最终训练联合模型。本发明利用非成对语音数据、非成对文本数据、成对语音文本数据对联合模型进行多次迭代训练,采用闭环言语链机理和连续累积发放机制,有效解决了非成对数据利用不充分问题,以及成对数据对齐关系学习不充分的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种语音文本联合预训练方法及系统。
背景技术
随着预训练模型在自然语言处理领域的广泛研究与应用,预训练模型在跨模态的语音文本联合预训练中的应用也获得了更多关注。
主流的语音文本联合预训练根据模型结构的差异,可分为三类:单流模型结构、双流模型结构和编码器解码器结构。单流结构的模型通常采用一个共享的跨模态编码结构对不同模态的输入表征同时编码,代表性的工作有SpeechBERT、ST-BERT、SLP、FAT与SLAM等;双流结构的模型采用分离的模块对于不同模态数据进行编码,相关工作包含SPLAT和CTAL;编码器解码器结构包含一个编码器和解码器,是一种研究较少的预训练结构,目前的代表性工作是SpeechT5。
在上述三种模型结构中,最为主流的模型结构是单流模型结构。以SLAM模型为例,SLAM是一种典型的单流预训练模型,由语音编码模块、文本编码模块、跨模态编码器三个部分组成。语音编码模块负责将语音信号编码为声学特征序列,文本编码模块负责将离散的文本符号序列转换为字符特征序列。跨模态编码器则起到了与通用语义空间相似的作用,使得语音文本特征都可以通过跨模态编码完成更充分的信息交互与利用。SLAM模型在预训练阶段利用了三种不同形式的数据:非成对文本、非成对语音、语音文本对。其中,前两种类型的数据主要用于鼓励整个模型学习文本和语音的单模态表征能力,成对数据主要用于鼓励模型学习跨模态信息的交互作用与跨模态数据间的对齐关系。
SLAM模型的预训练可以分为两个阶段:1)阶段1:仅使用非成对文本数据和非成对语音数据进行训练;2)阶段2:使用全部类型的数据进行训练。在第一阶段,利用非成对文本数据以及掩蔽语言模型建模来学习文本的表征建模能力,利用非成对语音数据以及联合了对比损失和掩蔽语言模型建模的自监督训练方法来学习语音的表征建模能力。在第二阶段,在保留第一阶段训练流程的基础上,加入成对数据,并利用翻译语言模型建模任务与语音文本匹配任务来监督模型学习语音和文本的对齐关系,SLAM能够较好地完成下游的单模态以及跨模态任务。
SLAM模型虽然已经具备了初步的对于非成对语音,非成对文本以及成对语音文本的利用能力,但是对于非成对数据的利用仍然不够充分。另外,此类预训练技术通常没有对于语音文本的对齐关系进行显式的有监督学习,没有充分挖掘利用成对数据间的对齐信息。
发明内容
本发明提供一种语音文本联合预训练方法及系统,用以解决现有语音文本联合预训练技术中对于非成对数据利用不充分的问题、以及对于成对数据中的对齐关系挖掘不充分的问题。
第一方面,本发明提供一种语音文本联合预训练方法,包括:
获取非成对语音数据、非成对文本数据和成对语音文本数据;
将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中,计算初始损失总函数以训练得到初始训练联合模型;
将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型,利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数,利用所述成对语音文本数据计算更新成对数据损失函数,将所述初始损失总函数与所述更新成对数据损失函数求和,得到更新损失总函数以训练得到更新训练联合模型;
将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型,利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数,利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数,将所述最终闭环成对数据损失函数与所述更新损失总函数求和,得到最终损失总函数以训练最终训练联合模型;
其中,所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。
根据本发明提供的一种语音文本联合预训练方法,所述将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中,计算初始损失总函数以训练得到初始训练联合模型,包括:
将所述非成对语音数据输入所述语音编码器,得到非成对声学特征序列,将所述非成对文本数据输入所述文本编码器,得到非成对文本特征序列;
将所述非成对声学特征序列输入所述跨模态编码器,得到声学掩蔽损失函数,将所述非成对文本特征序列输入所述跨模态编码器,得到文本掩蔽损失函数;
基于所述非成对声学特征序列计算自监督对比损失,得到声学对比损失函数;
确定声学掩蔽损失加权系数、文本掩蔽损失加权系数和声学对比损失加权系数;
基于所述声学掩蔽损失加权系数、所述声学掩蔽损失函数、所述文本掩蔽损失加权系数、所述文本掩蔽损失函数、所述声学对比损失加权系数和所述声学对比损失函数,得到所述初始损失总函数;
基于所述初始损失总函数计算所述预训练联合模型的反向传播梯度,得到所述初始训练联合模型。
根据本发明提供的一种语音文本联合预训练方法,所述将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型,利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数,利用所述成对语音文本数据计算更新成对数据损失函数,将所述初始损失总函数与所述更新成对数据损失函数求和,得到更新损失总函数以训练得到更新训练联合模型,包括:
基于所述初始损失总函数完成所述非成对语音数据和所述非成对文本数据的前向传播计算;
利用所述成对语音文本数据中的语音数据完成所述语音编码器和所述语音识别解码器的前向传播过程,利用所述语音识别解码器的输出和所述成对语音文本数据中的文本数据计算文本预测损失函数;
利用所述成对语音文本数据中的文本数据完成所述文本编码器和所述语音合成解码器的前向传播过程,利用所述语音合成解码器的输出和所述成对语音文本数据中的语音数据计算语音重建损失函数;
分别获取所述成对语音文本数据经过所述语音编码器的语音序列数据,以及经过所述文本编码器的文本序列数据,将所述语音序列数据和所述文本序列数据输入至所述跨模态编码器,获得翻译语言建模损失函数、语音文本匹配损失函数和区间字符预测损失函数;
确定文本预测损失加权系数、语音重建损失加权系数、翻译语言建模损失加权系数、语音文本匹配损失加权系数和区间字符预测损失加权系数;
基于所述初始损失总函数、所述文本预测损失加权系数、所述文本预测损失函数、所述语音重建损失加权系数、所述语音重建损失函数、所述翻译语言建模加权系数、所述翻译语言建模损失函数、所述语音文本匹配损失加权系数、所述语音文本匹配损失函数、所述区间字符预测损失函数和所述区间字符预测损失函数,得到所述更新损失总函数;
基于所述更新损失总函数计算所述初始训练联合模型的反向传播梯度,得到所述更新训练联合模型。
根据本发明提供的一种语音文本联合预训练方法,所述将所述成对语音文本数据依次输入所述语音编码器和所述语音识别解码模块,获得文本预测损失函数,包括:
将所述成对语音文本数据中的语音数据输入所述语音编码器得到声学特征序列,对所述声学特征序列施加连接时序分类损失,得到连接时序分类损失子函数;
将所述声学特征序列输入所述语音识别解码模块得到非自回归语音解码输出序列,对所述非自回归语音解码输出序列施加交叉熵损失,得到交叉熵损失子函数;
获取所述声学特征序列经过连续累积发放CIF模块的输出权重之和,对所述输出权重之和施加数量损失,得到所述数量损失子函数;
综合所述连接时序分类损失子函数、所述交叉熵损失子函数和所述数量损失子函数,得到所述文本预测损失函数。
根据本发明提供的一种语音文本联合预训练方法,所述将所述成对语音文本数据依次输入所述文本编码器和所述语音合成解码器,获得语音重建损失函数,包括:
获取所述语音文本成对数据中的文本数据,并输入所述文本编码器,并将所述文本编码器的输出输入到所述语音合成解码器,得到声学特征序列;
对所述声学特征序列施加重建损失,得到所述语音重建损失函数。
根据本发明提供的一种语音文本联合预训练方法,所述分别获取所述成对语音文本数据经过所述语音编码器的语音序列数据,以及经过所述文本编码器的文本序列数据,将所述语音序列数据和所述文本序列数据输入至所述跨模态编码器,获得翻译语言建模损失函数、语音文本匹配损失函数和区间字符预测损失函数,包括:
确定预设比例数据对所述成对语音文本数据的预设部分区间进行掩蔽,基于所述跨模态编码器中的语音模态信息和文本模态信息对掩蔽的预设部分区间进行预测,获得所述翻译语言建模损失函数;
基于所述成对语音文本数据的原始样本构造数量一致、语音文本内容不匹配的负样本,分别确定所述负样本为第一标签,以及原始正样本为第二标签,基于所述跨模态编码器的标记位置的对应输出,对语音文本是否匹配进行预测,获得所述语音文本匹配损失函数;
随机选择所述成对语音文本数据中的文本数据部分中的字符,在所述语音编码区输入处将所述随机选择的字符对应的由CIF的字符声学边界确定的语音区间进行掩蔽,将所述跨模态编码器输出处的所述掩蔽语音区间内的表征进行平均后得到平均值,基于所述平均值对所述随机选择的字符进行预测,得到所述区间字符预测损失函数。
根据本发明提供的一种语音文本联合预训练方法,所述将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型,利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数,利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数,将所述最终闭环成对数据损失函数与所述更新损失总函数求和,得到最终损失总函数以训练最终训练联合模型,包括:
基于所述更新损失总函数完成所述非成对语音数据,所述非成对文本数据以及所述成对语音文本数据的前向传播计算;
获取所述非成对语音数据通过所述语音识别解码模块输出的识别文本结果,将所述识别文本结果与所述非成对语音数据构造成对语音文本数据,利用所述成对语音文本数据计算所述更新成对数据损失函数,得到所述最终闭环成对语音数据损失函数;
获取所述非成对文本数据通过所述语音合成解码模块输出的合成语音结果,将所述合成语音结果与所述非成对文本数据构成成对语音文本数据,利用所述成对语音文本数据计算所述更新成对数据损失函数,得到所述最终闭环成对文本数据损失函数;
综合所述最终闭环成对语音数据损失函数、所述最终闭环成对文本数据损失函数和所述更新损失总函数,得到最终损失总函数;
基于所述最终损失总函数计算所述更新训练联合模型的反向传播梯度,得到所述最终训练联合模型。
第二方面,本发明还提供一种语音文本联合预训练系统,包括:
获取模块,用于获取非成对语音数据、非成对文本数据和成对语音文本数据;
初始训练模块,用于将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中,计算初始损失总函数以训练得到初始训练联合模型;
更新训练模块,用于将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型,利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数,利用所述成对语音文本数据计算更新成对数据损失函数,将所述初始损失总函数与所述更新成对数据损失函数求和,得到更新损失总函数以训练得到更新训练联合模型;
最终训练模块,用于将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型,利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数,利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数,将所述最终闭环成对数据损失函数与所述更新损失总函数求和,得到最终损失总函数以训练最终训练联合模型;
其中,所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音文本联合预训练方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音文本联合预训练方法的步骤。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音文本联合预训练方法的步骤。
本发明提供的语音文本联合预训练方法及系统,通过对非成对语音数据、非成对文本数据和成对语音文本数据进行多次迭代训练,采用闭环言语链机理和连续累积发放机制,有效解决了非成对数据利用不充分问题,以及成对数据对齐关系学习不充分的问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语音文本联合预训练方法的流程示意图;
图2是本发明提供的闭环言语链原理示意图;
图3是本发明提供的言语链中语音和文本闭环结构示意图;
图4是本发明提供的连续累积发放过程示意图;
图5是本发明提供的语音文本联合预训练框架模型结构图;
图6是本发明提供的语音文本联合预训练系统的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在目前主流的语音文本联合预训练技术中,虽然已经具备了初步的对于非成对语音数据,非成对文本数据以及成对语音文本数据的利用能力,但是对于非成对数据的利用仍然不够充分。另外,上述语音文本联合预训练技术中通常没有对于语音文本的对齐关系进行显式的监督学习,没有充分利用成对数据间的对齐信息。
为解决上述问题,本发明提出一种语音文本联合预训练方法,图1是本发明提供的语音文本联合预训练方法的流程示意图,如图1所示,包括:
步骤S1,获取非成对语音数据、非成对文本数据和成对语音文本数据;
步骤S2,将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中,计算初始损失总函数以训练得到初始训练联合模型;
步骤S3,将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型,利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数,利用所述成对语音文本数据计算更新成对数据损失函数,将所述初始损失总函数与所述更新成对数据损失函数求和,得到更新损失总函数以训练得到更新训练联合模型;
步骤S4,将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型,利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数,利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数,将所述最终闭环成对数据损失函数与所述更新损失总函数求和,得到最终损失总函数以训练最终训练联合模型;
其中,所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。
需要说明的是,本发明的实现方案涉及闭环言语链机理和连续累积发放机制:
图2是本发明提供的闭环言语链原理示意图,言语链是一条联结说话人头脑与听话人头脑的许多事件的链条,左侧人脑属于说话人,右侧人脑属于听话人。说话人人脑首先在语言学层面上,根据想要表达的语义,选择恰当的单词和短语,来构造想要表达的语句,然后在生理学层面控制运动神经产生肌肉活动,最后在物理学层面产生空气震动与声波传递。听话人部分的过程则同说话人完全相反。在这个过程中,言语链依次经历了如下几个层面的处理:语言学层面-生理学层面-物理学层面-生理学层面-语言学层面。同时,言语链还有一个侧向连接,被称为听觉反馈(Auditory Feedback)。听觉反馈指的是说话人对自身所发出声音的接收过程,其同说话人的说话(发声)过程共同构成了一个闭环言语链。具备听觉反馈的闭环言语链在人类言语能力习得过程中起到了重要作用,闭环语音链中的听觉反馈机制,对于早期的言语能力习得尤为重要,但是随着人的年龄增长和言语能力的提高,人脑对于听觉反馈的敏感性会逐渐降低。在早期的言语能力习得过程中,婴儿会通过自己发出的声音反馈来监控自己的发声,并不断矫正发音过程。经过这种持续的矫正,婴儿的言语能力将会不断提升,最终获得较为完善的言语认知能力。
言语链机理在基于机器的语音技术中的应用最早可以追溯到Andros Tjandra等人首次将深度学习技术用于构造语音和文本的闭环结构,如图3所示,同时利用成对的语音文本数据和非成对的语音文本数据对闭环结构进行训练。相比于没有利用非成对数据的识别与合成模型,在言语链框架中训练的语音识别系统和语音合成系统均获得了更好的性能。另外,Takaaki Hori等人提出一种将语音合成模块替换为“TTE(Text-to-Embedding,文本到中间声学表征模块)”的闭环模型,并引入了循环一致性损失和强化学习算法使得整个模型能够以端到端方式训练。后来,Andros Tjandra提出的闭环言语链框架基础上引入了直通估计(Straight-through Estimator)的梯度近似方法,使得这一框架也具备了端到端训练的能力,同时,还在合成模块引入了说话人表示,使得模型具备了多说话人的语音合成能力;在Takaaki Hori的基于循环一致性训练的闭环言语链框架上,将TTE替换成了语音合成,实现真正意义上的闭环言语链。近年来,对于Andros Tjandra提出的闭环言语链模型的相关研究仍层出不穷,譬如,在说话人自适应技术方面的工作以及在领域自适应技术方面的工作等,这些研究工作均促进了机器言语链技术的进一步发展。总体来说,闭环言语链机制为当前的语音技术提供了一种利用无标注数据来提升零资源或低资源场景下机器语音系统的性能的方案。
除此之外,连续累积发放机制是一种典型的声学边界加工过程。一方面,CIF机制提取了原始语音特征序列中不同符号对应的声学区块间的边界,另一方面,CIF机制利用边界之间的声学区块来凝练出符号对应的声学表示。在基于CIF的语音识别模型中,CIF模块充当了编码器和解码器的中间媒介。给定原始声学特征序列x=[x1,x2,…,xt,…,xT]作为输入,声学编码器(Encoder)首先将其编码为低阶语音表征序列h=[h1,h2,…,hu,…,hU](U<T)。利用低阶语音表征序列,可以生成CIF过程所需的权重α=[α1,α2,…,αu,…,αU]。然后,以h和α作为输入,CIF模块输出非均匀压缩后的字符层面的声学表征序列c=[c1,c2,…,ci,…,cI]。最后,解码器利用字符层面的声学表征序列完成语音识别的预测。
具体来说,在CIF过程中,CIF模块会维护一个累积权重之和与一个待发放的声学表征。在编码器输出的每个时刻u,CIF模块接收hu与αu,并且不断地累加接收的权重αu,且同步地用对应于hu的权重将hu加权求和作为待发放的声学表征。当累积的权重之和超过预先设定的阈值β后,当前时刻将被标记为声学边界,并且发放输出当前时刻更新后的待发放声学表征ci。需要注意的是,这一发放时刻对应的声学信息由当前边界的前一个符号和后一个符号所共享:αu1用于补全声学边界前一个符号的累积发放权重和到1,αu2用于声学边界后一个符号的权重累积(其中,αu1+αu2=αu)。最终,在整个原始声学特征序列上完成的累积发放过程将会给出压缩后的字符层面的声学表征c=[c1,c2,…,ci,…,cI]。上述连续累积发放过程的细节详见图4,CIF模块输出的字符层面的声学表征所具备的最重要的意义是,其为在语音识别中的声学层面上整合文本形式的知识创造了可能性。
基于上述闭环言语链原理和连续累积发放机制,本发明的联合预训练模型整体包括文本编码器、语音编码器、跨模态编码器、语音识别解码和语音合成解码模块,如图5所示,其作用分别如下:
文本编码器:文本编码器负责编码输入的文本序列,譬如,图中文本编码器编码了输入的“联合预训练”文本;
语音编码器:语音编码器负责编码输入的语音信号;
跨模态编码器:能够接收两种模态的输入特征序列,将两个模态特征进行深度整合与对齐编码;
语音识别解码模块:用于输出语音识别结果(文本序列),其中包含了CIF模块和一个非自回归解码器;
语音合成解码模块:用于输出语音合成结果(声学信号)。
在上述整体模型基础上,本发明采用非成对语音数据、非成对文本数据和成对语音文本数据分别对预训练框架进行多阶段的迭代训练。
在第一阶段训练中,将非成对语音数据和非成对文本数据输入至预训练联合模型中,得到初始损失总函数,并通过优化初始损失总函数得到初始训练联合模型。
在第二阶段训练中,除了非成对语音数据和非成对文本数据之外,还利用了成对语音文本数据。在初始训练联合模型的基础上,利用非成对语音数据和非成对文本数据计算第一阶段定义的初始损失总函数,利用成对语音文本数据计算更新成对数据损失函数,将初始损失总函数同更新成对数据损失函数求和,得到更新损失总函数,并通过优化更新损失总函数得到更新训练联合模型。
在第三阶段训练中,再次输入非成对语音数据、非成对文本数据和成对语音文本数据至二阶段训练好的更新训练联合模型,同样地,保持二阶段定义的更新损失总函数计算方式不变,得到更新损失总函数。此外,分别对非成对语音数据和非成对文本数据进行解码,得到的解码结果和非成对数据本身组成匹配的成对数据,利用该成对数据计算闭环成对数据损失函数,将得到的闭环成对数据损失函数和更新损失总函数求和,得到最终损失总函数,并通过优化最终损失总函数得到最终训练联合模型。
本发明利用非成对语音数据、非成对文本数据、成对语音文本数据对联合模型进行多次迭代训练,采用闭环言语链机理和连续累积发放机制,有效解决了非成对数据利用不充分问题,以及成对数据对齐关系学习不充分的问题。
基于上述实施例,步骤S2包括:
将所述非成对语音数据输入所述语音编码器,得到非成对声学特征序列,将所述非成对文本数据输入所述文本编码器,得到非成对文本特征序列;
将所述非成对声学特征序列输入所述跨模态编码器,得到声学掩蔽损失函数,将所述非成对文本特征序列输入所述跨模态编码器,得到文本掩蔽损失函数;
基于所述非成对声学特征序列计算自监督对比损失,得到声学对比损失函数;
确定声学掩蔽损失加权系数、文本掩蔽损失加权系数和声学对比损失加权系数;
基于所述声学掩蔽损失加权系数、所述声学掩蔽损失函数、所述文本掩蔽损失加权系数、所述文本掩蔽损失函数、所述声学对比损失加权系数和所述声学对比损失函数,得到所述初始损失总函数;
基于所述初始损失总函数计算所述预训练联合模型的反向传播梯度,得到所述初始训练联合模型。
具体地,在第一阶段训练中,采用非成对语音数据和非成对文本数据作为输入,非成对语音数据输入到语音编码器后输出非成对声学特征序列Hs,非成对文本数据输入到文本编码器后输出非成对文本特征序列Ht。
分别将非成对声学特征序列Hs和非成对文本特征序列Ht输入到跨模态编码器中,对应于非成对文本特征序列Ht的跨模态编码器输出用于完成文本的自监督掩蔽语言模型任务,得到文本掩蔽损失函数Ltext_mlm;同样地,对应于非成对声学特征序列Hs的跨模态编码器输出用于完成语音的自监督掩蔽语言模型任务,得到声学损失函数Lspeech_mlm;另外,语音编码器输出非成对声学特征序列Hs,还用于计算自监督对比损失,该对比损失记为声学对比损失函数Lspeech_contrastive。
将上述三项损失函数进行加权相加,先确定各损失函数对应的加权系数,文本掩蔽损失加权系数αtext_mlm、声学掩蔽损失加权系数αspeech_mlm和声学对比损失加权系数αspeech_contrastive,由此得到此阶段的总损失函数为L1=αtext_mlm*Ltext_mlm+αspeech_mlm*Lspeech_mlm+αspeech_contrastive*Lspeech_contrastive。
将上述初始损失总函数用于预训练联合模型的反向传播的梯度计算,梯度计算完成后,更新模型参数,得到初始训练联合模型。
本发明通过对预训练联合模型进行初始训练,使非成对数据得到了充分的利用,模型性能得到进一步提升。
基于上述任一实施例,步骤S3包括:
基于所述初始损失总函数完成所述非成对语音数据和所述非成对文本数据的前向传播计算;
利用所述成对语音文本数据中的语音数据完成所述语音编码器和所述语音识别解码器的前向传播过程,利用所述语音识别解码器的输出和所述成对语音文本数据中的文本数据计算文本预测损失函数;
利用所述成对语音文本数据中的文本数据完成所述文本编码器和所述语音合成解码器的前向传播过程,利用所述语音合成解码器的输出和所述成对语音文本数据中的语音数据计算语音重建损失函数;
分别获取所述成对语音文本数据经过所述语音编码器的语音序列数据,以及经过所述文本编码器的文本序列数据,将所述语音序列数据和所述文本序列数据输入至所述跨模态编码器,获得翻译语言建模损失函数、语音文本匹配损失函数和区间字符预测损失函数;
确定文本预测损失加权系数、语音重建损失加权系数、翻译语言建模损失加权系数、语音文本匹配损失加权系数和区间字符预测损失加权系数;
基于所述初始损失总函数、所述文本预测损失加权系数、所述文本预测损失函数、所述语音重建损失加权系数、所述语音重建损失函数、所述翻译语言建模加权系数、所述翻译语言建模损失函数、所述语音文本匹配损失加权系数、所述语音文本匹配损失函数、所述区间字符预测损失函数和所述区间字符预测损失函数,得到所述更新损失总函数;
基于所述更新损失总函数计算所述初始训练联合模型的反向传播梯度,得到所述更新训练联合模型。
其中,所述将所述成对语音文本数据依次输入所述语音编码器和所述语音识别解码模块,获得文本预测损失函数,包括:
将所述成对语音文本数据中的语音数据输入所述语音编码器得到声学特征序列,对所述声学特征序列施加连接时序分类损失,得到连接时序分类损失子函数;
将所述声学特征序列输入所述语音识别解码模块得到非自回归语音解码输出序列,对所述非自回归语音解码输出序列施加交叉熵损失,得到交叉熵损失子函数;
获取所述声学特征序列经过连续累积发放CIF模块的输出权重之和,对所述输出权重之和施加数量损失,得到所述数量损失子函数;
综合所述连接时序分类损失子函数、所述交叉熵损失子函数和所述数量损失子函数,得到所述文本预测损失函数。
其中,所述将所述成对语音文本数据依次输入所述文本编码器和所述语音合成解码器,获得语音重建损失函数,包括:
获取所述语音文本成对数据中的文本数据,并输入所述文本编码器,并将所述文本编码器的输出输入到所述语音合成解码器,得到声学特征序列;
对所述声学特征序列施加重建损失,得到所述语音重建损失函数。
其中,所述分别获取所述成对语音文本数据经过所述语音编码器的语音序列数据,以及经过所述文本编码器的文本序列数据,将所述语音序列数据和所述文本序列数据输入至所述跨模态编码器,获得翻译语言建模损失函数、语音文本匹配损失函数和区间字符预测损失函数,包括:
确定预设比例数据对所述成对语音文本数据的预设部分区间进行掩蔽,基于所述跨模态编码器中的语音模态信息和文本模态信息对掩蔽的预设部分区间进行预测,获得所述翻译语言建模损失函数;
基于所述成对语音文本数据的原始样本构造数量一致、语音文本内容不一致的负样本,分别确定所述负样本为第一标签,以及原始正样本为第二标签,基于所述跨模态编码器的标记位置的对应输出,对语音文本是否匹配进行预测,获得所述语音文本匹配损失函数;
随机选择所述成对语音文本数据中的文本数据部分中的字符,基于CIF模块输出的字符声学边界,在所述语音编码区输入处将随机选择的字符对应的语音区间进行掩蔽,将所述跨模态编码器输出处的掩蔽语音区间内的表征进行平均后得到平均值,基于所述平均值对所述随机选择的文本字符进行预测,得到所述区间字符预测损失函数。
具体地,在第二阶段的训练中,与第一阶段训练不同的是,同时为一阶段训练好的初始训练联合模型输入非成对语音数据、非成对文本数据和成对语音文本数据。
其中,对于非成对语音数据和非成对文本数据按照第一阶段的损失计算方式完成前向传播的计算。
对于成对语音文本数据,则分为三个部分进行训练:
(1)语音编码器和语音识别解码模块部分
对于语音编码器输出Hs施加连接时序分类损失,记为连接时序分类损失子函数Lasr_ctc;
对于语音识别非自回归解码器的最终输出施加交叉熵损失,记为交叉熵损失子函数Lasr_ce;
对于CIF模块的输出权重之和施加数量损失,记为数量损失子函数Lquantity;
将上述三个损失子函数作为整体记为文本预测损失函数Lasr。
(2)文本编码器与语音合成解码模块部分
对于语音合成解码模块的输出,使用语音的原始特征作为训练目标,对其施加重建损失,得到语音重建损失函数Lmse。
(3)跨模态编码器部分
针对成对数据,以大比例掩蔽语音和文本的部分区间,鼓励模型充分利用两个模态的信息来预测这些区间的原始内容,此损失被称为翻译语言建模任务,其损失记为翻译语言建模损失函数Ltlm;
同样针对成对数据,构造同等数量的成对但是语音文本内容不一致的负样本,然后将这些构造的负样本的语音文本匹配标签记为第一标签0,代表语音和文本不匹配,将原始的匹配的语音文本对匹配标签记为第二标签1,代表语音文本相匹配,利用跨模态编码器的[CLS]位置对应的输出来预测语音文本是否匹配,该损失记为语音文本匹配损失函数Lstm;
由于语音识别解码器中的CIF模块能够给出字符的声学边界,因此,训练中,将会随机选择文本中某些字符,在语音编码器输入处,将这些字符对应的语音区间全部掩蔽,然后在跨模态编码器对应区间内的表征平均后用于预测被选择的字符,此损失被记为区间字符预测损失函数Lspan_pred。
进一步地,综合上述所有损失函数,此阶段总损失函数记为更新损失总函数L2=L1+αasr*Lasr+αmse*Lmse+αstm*Lstm+αtlm*Ltlm+αspan_pred*Lspan_pred。
采用该更新损失总函数计算初始训练联合模型的反向传播梯度,便得到更新训练联合模型。
本发明利用成对数据训练联合模型,使得模型具备简单的语音识别与合成能力,有效地建模了跨模态的对齐关系,同时引入了连续累积发放机制学习字符间的声学边界信息,利用此边界来监督对齐关系的学习过程。
基于上述任一实施例,步骤S4包括:
基于所述更新损失总函数完成所述非成对语音数据,所述非成对文本数据以及所述成对语音文本数据的前向传播计算;
获取所述非成对语音数据通过所述语音识别解码模块输出的识别文本结果,将所述识别文本结果与所述非成对语音数据构造成对语音文本数据,利用所述成对语音文本数据计算所述更新成对数据损失函数,得到所述最终闭环成对语音数据损失函数;
获取所述非成对文本数据通过所述语音合成解码模块输出的合成语音结果,将所述合成语音结果与所述非成对文本数据构成成对语音文本数据,利用所述成对语音文本数据计算所述更新成对数据损失函数,得到所述最终闭环成对文本数据损失函数;
综合所述最终闭环成对语音数据损失函数、所述最终闭环成对文本数据损失函数和所述更新损失总函数,得到最终损失总函数;
基于所述最终损失总函数计算所述更新训练联合模型的反向传播梯度,得到所述最终训练联合模型。
具体地,在第三阶段训练中,还是为更新训练联合模型输入非成对语音数据、非成对文本数据和成对语音文本数据,保持第二阶段的损失计算方式不变。
对于非成对语音数据,首先采用语音识别解码模块输出其解码结果,然后将其解码结果同非成对语音数据本身组合成一个匹配的成对数据,执行第二阶段中的成对样本的损失计算,得到最终闭环成对语音数据损失函数;
对于非成对文本数据,首先采用语音合成解码模块输出其语音特征,然后将其解码结果同非成对文本数据本身组合成一个匹配的成对数据,执行第二阶段中的成对样本的损失计算,得到最终闭环成对文本数据损失函数。
综合最终闭环成对语音数据损失函数、最终闭环成对文本数据损失函数和更新损失总函数,得到最终损失总函数,由该最终损失总函数计算更新训练联合模型的反向传播梯度,得到最终训练联合模型。
本发明引入的闭环言语链机理使得非成对数据得到更加充分地利用,有利于基于该联合预训练模型的语音识别模型性能的进一步提升。
下面对本发明提供的语音文本联合预训练系统进行描述,下文描述的语音文本联合预训练系统与上文描述的语音文本联合预训练方法可相互对应参照。
图6是本发明提供的语音文本联合预训练系统的结构示意图,如图6所示,包括:获取模块61、初始训练模块62、更新训练模块63和最终训练模块64,包括:
获取模块61用于获取非成对语音数据、非成对文本数据和成对语音文本数据;初始训练模块62用于将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中,计算初始损失总函数以训练得到初始训练联合模型;更新训练模块63用于将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型,利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数,利用所述成对语音文本数据计算更新成对数据损失函数,将所述初始损失总函数与所述更新成对数据损失函数求和,得到更新损失总函数以训练得到更新训练联合模型;最终训练模块64用于将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型,利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数,利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数,将所述最终闭环成对数据损失函数与所述更新损失总函数求和,得到最终损失总函数以训练最终训练联合模型;其中,所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。
本发明利用非成对语音数据、非成对文本数据、成对语音文本数据对联合模型进行多次迭代训练,采用闭环言语链机理和连续累积发放机制,有效解决了非成对数据利用不充分问题,以及成对数据对齐关系学习不充分的问题。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行语音文本联合预训练方法,该方法包括:获取非成对语音数据、非成对文本数据和成对语音文本数据;将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中,计算初始损失总函数以训练得到初始训练联合模型;将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型,利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数,利用所述成对语音文本数据计算更新成对数据损失函数,将所述初始损失总函数与所述更新成对数据损失函数求和,得到更新损失总函数以训练得到更新训练联合模型;将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型,利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数,利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数,将所述最终闭环成对数据损失函数与所述更新损失总函数求和,得到最终损失总函数以训练最终训练联合模型其中,所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的语音文本联合预训练方法,该方法包括:获取非成对语音数据、非成对文本数据和成对语音文本数据;将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中,计算初始损失总函数以训练得到初始训练联合模型;将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型,利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数,利用所述成对语音文本数据计算更新成对数据损失函数,将所述初始损失总函数与所述更新成对数据损失函数求和,得到更新损失总函数以训练得到更新训练联合模型;将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型,利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数,利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数,将所述最终闭环成对数据损失函数与所述更新损失总函数求和,得到最终损失总函数以训练最终训练联合模型其中,所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的语音文本联合预训练方法,该方法包括:获取非成对语音数据、非成对文本数据和成对语音文本数据;将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中,计算初始损失总函数以训练得到初始训练联合模型;将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型,利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数,利用所述成对语音文本数据计算更新成对数据损失函数,将所述初始损失总函数与所述更新成对数据损失函数求和,得到更新损失总函数以训练得到更新训练联合模型;将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型,利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数,利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数,将所述最终闭环成对数据损失函数与所述更新损失总函数求和,得到最终损失总函数以训练最终训练联合模型其中,所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音文本联合预训练方法,其特征在于,包括:
获取非成对语音数据、非成对文本数据和成对语音文本数据;
将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中,计算初始损失总函数以训练得到初始训练联合模型;
将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型,利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数,利用所述成对语音文本数据计算更新成对数据损失函数,将所述初始损失总函数与所述更新成对数据损失函数求和,得到更新损失总函数以训练得到更新训练联合模型;
将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型,利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数,利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数,将所述最终闭环成对数据损失函数与所述更新损失总函数求和,得到最终损失总函数以训练最终训练联合模型;
其中,所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。
2.根据权利要求1所述的语音文本联合预训练方法,其特征在于,所述将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中,计算初始损失总函数以训练得到初始训练联合模型,包括:
将所述非成对语音数据输入所述语音编码器,得到非成对声学特征序列,将所述非成对文本数据输入所述文本编码器,得到非成对文本特征序列;
将所述非成对声学特征序列输入所述跨模态编码器,得到声学掩蔽损失函数,将所述非成对文本特征序列输入所述跨模态编码器,得到文本掩蔽损失函数;
基于所述非成对声学特征序列计算自监督对比损失,得到声学对比损失函数;
确定声学掩蔽损失加权系数、文本掩蔽损失加权系数和声学对比损失加权系数;
基于所述声学掩蔽损失加权系数、所述声学掩蔽损失函数、所述文本掩蔽损失加权系数、所述文本掩蔽损失函数、所述声学对比损失加权系数和所述声学对比损失函数,得到所述初始损失总函数;
基于所述初始损失总函数计算所述预训练联合模型的反向传播梯度,得到所述初始训练联合模型。
3.根据权利要求1所述的语音文本联合预训练方法,其特征在于,所述将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型,利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数,利用所述成对语音文本数据计算更新成对数据损失函数,将所述初始损失总函数与所述更新成对数据损失函数求和,得到更新损失总函数以训练得到更新训练联合模型,包括:
基于所述初始损失总函数完成所述非成对语音数据和所述非成对文本数据的前向传播计算;
利用所述成对语音文本数据中的语音数据完成所述语音编码器和所述语音识别解码器的前向传播过程,利用所述语音识别解码器的输出和所述成对语音文本数据中的文本数据计算文本预测损失函数;
利用所述成对语音文本数据中的文本数据完成所述文本编码器和所述语音合成解码器的前向传播过程,利用所述语音合成解码器的输出和所述成对语音文本数据中的语音数据计算语音重建损失函数;
分别获取所述成对语音文本数据经过所述语音编码器的语音序列数据,以及经过所述文本编码器的文本序列数据,将所述语音序列数据和所述文本序列数据输入至所述跨模态编码器,获得翻译语言建模损失函数、语音文本匹配损失函数和区间字符预测损失函数;
确定文本预测损失加权系数、语音重建损失加权系数、翻译语言建模损失加权系数、语音文本匹配损失加权系数和区间字符预测损失加权系数;
基于所述初始损失总函数、所述文本预测损失加权系数、所述文本预测损失函数、所述语音重建损失加权系数、所述语音重建损失函数、所述翻译语言建模加权系数、所述翻译语言建模损失函数、所述语音文本匹配损失加权系数、所述语音文本匹配损失函数、所述区间字符预测损失函数和所述区间字符预测损失函数,得到所述更新损失总函数;
基于所述更新损失总函数计算所述初始训练联合模型的反向传播梯度,得到所述更新训练联合模型。
4.根据权利要求3所述的语音文本联合预训练方法,其特征在于,所述将所述成对语音文本数据依次输入所述语音编码器和所述语音识别解码模块,获得文本预测损失函数,包括:
将所述成对语音文本数据中的语音数据输入所述语音编码器得到声学特征序列,对所述声学特征序列施加连接时序分类损失,得到连接时序分类损失子函数;
将所述声学特征序列输入所述语音识别解码模块得到非自回归语音解码输出序列,对所述非自回归语音解码输出序列施加交叉熵损失,得到交叉熵损失子函数;
获取所述声学特征序列经过连续累积发放CIF模块的输出权重之和,对所述输出权重之和施加数量损失,得到所述数量损失子函数;
综合所述连接时序分类损失子函数、所述交叉熵损失子函数和所述数量损失子函数,得到所述文本预测损失函数。
5.根据权利要求3所述的语音文本联合预训练方法,其特征在于,所述将所述成对语音文本数据依次输入所述文本编码器和所述语音合成解码器,获得语音重建损失函数,包括:
获取所述语音文本成对数据中的文本数据,并输入所述文本编码器,并将所述文本编码器的输出输入到所述语音合成解码器,得到声学特征序列;
对所述声学特征序列施加重建损失,得到所述语音重建损失函数。
6.根据权利要求3所述的语音文本联合预训练方法,其特征在于,所述分别获取所述成对语音文本数据经过所述语音编码器的语音序列数据,以及经过所述文本编码器的文本序列数据,将所述语音序列数据和所述文本序列数据输入至所述跨模态编码器,获得翻译语言建模损失函数、语音文本匹配损失函数和区间字符预测损失函数,包括:
确定预设比例数据对所述成对语音文本数据的预设部分区间进行掩蔽,基于所述跨模态编码器中的语音模态信息和文本模态信息对掩蔽的预设部分区间进行预测,获得所述翻译语言建模损失函数;
基于所述成对语音文本数据的原始样本构造数量一致、语音文本内容不匹配的负样本,分别确定所述负样本为第一标签,以及原始正样本为第二标签,基于所述跨模态编码器的标记位置的对应输出,对语音文本是否匹配进行预测,获得所述语音文本匹配损失函数;
随机选择所述成对语音文本数据中的文本数据部分中的字符,在所述语音编码区输入处将所述随机选择的字符对应的由CIF的字符声学边界确定的语音区间进行掩蔽,将所述跨模态编码器输出处的所述掩蔽语音区间内的表征进行平均后得到平均值,基于所述平均值对所述随机选择的字符进行预测,得到所述区间字符预测损失函数。
7.根据权利要求1所述的语音文本联合预训练方法,其特征在于,所述将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型,利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数,利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数,将所述最终闭环成对数据损失函数与所述更新损失总函数求和,得到最终损失总函数以训练最终训练联合模型,包括:
基于所述更新损失总函数完成所述非成对语音数据,所述非成对文本数据以及所述成对语音文本数据的前向传播计算;
获取所述非成对语音数据通过所述语音识别解码模块输出的识别文本结果,将所述识别文本结果与所述非成对语音数据构造成对语音文本数据,利用所述成对语音文本数据计算所述更新成对数据损失函数,得到所述最终闭环成对语音数据损失函数;
获取所述非成对文本数据通过所述语音合成解码模块输出的合成语音结果,将所述合成语音结果与所述非成对文本数据构造成对语音文本数据,利用所述成对语音文本数据计算所述更新成对数据损失函数,得到所述最终闭环成对文本数据损失函数;
综合所述最终闭环成对语音数据损失函数、所述最终闭环成对文本数据损失函数和所述更新损失总函数,得到最终损失总函数;
基于所述最终损失总函数计算所述更新训练联合模型的反向传播梯度,得到所述最终训练联合模型。
8.一种语音文本联合预训练系统,其特征在于,包括:
获取模块,用于获取非成对语音数据、非成对文本数据和成对语音文本数据;
初始训练模块,用于将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中,计算初始损失总函数以训练得到初始训练联合模型;
更新训练模块,用于将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型,利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数,利用所述成对语音文本数据计算更新成对数据损失函数,将所述初始损失总函数与所述更新成对数据损失函数求和,得到更新损失总函数以训练得到更新训练联合模型;
最终训练模块,用于将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型,利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数,利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数,将所述最终闭环成对数据损失函数与所述更新损失总函数求和,得到最终损失总函数以训练最终训练联合模型;
其中,所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音文本联合预训练方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音文本联合预训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210346308.6A CN114842834A (zh) | 2022-03-31 | 2022-03-31 | 一种语音文本联合预训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210346308.6A CN114842834A (zh) | 2022-03-31 | 2022-03-31 | 一种语音文本联合预训练方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842834A true CN114842834A (zh) | 2022-08-02 |
Family
ID=82563847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210346308.6A Pending CN114842834A (zh) | 2022-03-31 | 2022-03-31 | 一种语音文本联合预训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842834A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229994A (zh) * | 2023-05-08 | 2023-06-06 | 北京爱数智慧科技有限公司 | 一种阿拉伯语方言的标符预测模型的构建方法和装置 |
CN116229332A (zh) * | 2023-05-06 | 2023-06-06 | 浪潮电子信息产业股份有限公司 | 一种视频预训练模型的训练方法、装置、设备及存储介质 |
CN117252213A (zh) * | 2023-07-06 | 2023-12-19 | 天津大学 | 使用合成语音作为监督信息的端到端语音翻译方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019100998A1 (zh) * | 2017-11-24 | 2019-05-31 | 腾讯科技(深圳)有限公司 | 语音信号处理模型训练方法、电子设备及存储介质 |
US20200125820A1 (en) * | 2018-10-23 | 2020-04-23 | Samsung Electronics Co., Ltd. | Data recognition apparatus and method, and training apparatus and method |
CN111199727A (zh) * | 2020-01-09 | 2020-05-26 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111429923A (zh) * | 2020-06-15 | 2020-07-17 | 深圳市友杰智新科技有限公司 | 说话人信息提取模型的训练方法、装置和计算机设备 |
CN112634867A (zh) * | 2020-12-11 | 2021-04-09 | 平安科技(深圳)有限公司 | 模型训练方法、方言识别方法、装置、服务器及存储介质 |
CN113129870A (zh) * | 2021-03-23 | 2021-07-16 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
CN113436620A (zh) * | 2021-06-30 | 2021-09-24 | 北京有竹居网络技术有限公司 | 模型的训练方法、语音识别方法、装置、介质及设备 |
CN113643694A (zh) * | 2021-08-17 | 2021-11-12 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN114120973A (zh) * | 2022-01-29 | 2022-03-01 | 成都启英泰伦科技有限公司 | 一种语音语料生成系统训练方法 |
-
2022
- 2022-03-31 CN CN202210346308.6A patent/CN114842834A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019100998A1 (zh) * | 2017-11-24 | 2019-05-31 | 腾讯科技(深圳)有限公司 | 语音信号处理模型训练方法、电子设备及存储介质 |
US20200125820A1 (en) * | 2018-10-23 | 2020-04-23 | Samsung Electronics Co., Ltd. | Data recognition apparatus and method, and training apparatus and method |
CN111199727A (zh) * | 2020-01-09 | 2020-05-26 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111429923A (zh) * | 2020-06-15 | 2020-07-17 | 深圳市友杰智新科技有限公司 | 说话人信息提取模型的训练方法、装置和计算机设备 |
CN112634867A (zh) * | 2020-12-11 | 2021-04-09 | 平安科技(深圳)有限公司 | 模型训练方法、方言识别方法、装置、服务器及存储介质 |
CN113129870A (zh) * | 2021-03-23 | 2021-07-16 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
CN113436620A (zh) * | 2021-06-30 | 2021-09-24 | 北京有竹居网络技术有限公司 | 模型的训练方法、语音识别方法、装置、介质及设备 |
CN113643694A (zh) * | 2021-08-17 | 2021-11-12 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN114120973A (zh) * | 2022-01-29 | 2022-03-01 | 成都启英泰伦科技有限公司 | 一种语音语料生成系统训练方法 |
Non-Patent Citations (2)
Title |
---|
ANKUR BAPNA: "SLAM:A unified encoder for speech and language modeling via speech-text joint pre-training", 《ARXIV》, 31 December 2021 (2021-12-31) * |
胡莎莎: "基于深度表示的跨模态检索模型研究", 《中国优秀硕士学位论文全文数据库》, 15 July 2021 (2021-07-15) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229332A (zh) * | 2023-05-06 | 2023-06-06 | 浪潮电子信息产业股份有限公司 | 一种视频预训练模型的训练方法、装置、设备及存储介质 |
CN116229332B (zh) * | 2023-05-06 | 2023-08-04 | 浪潮电子信息产业股份有限公司 | 一种视频预训练模型的训练方法、装置、设备及存储介质 |
CN116229994A (zh) * | 2023-05-08 | 2023-06-06 | 北京爱数智慧科技有限公司 | 一种阿拉伯语方言的标符预测模型的构建方法和装置 |
CN117252213A (zh) * | 2023-07-06 | 2023-12-19 | 天津大学 | 使用合成语音作为监督信息的端到端语音翻译方法 |
CN117252213B (zh) * | 2023-07-06 | 2024-05-31 | 天津大学 | 使用合成语音作为监督信息的端到端语音翻译方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Natural tts synthesis by conditioning wavenet on mel spectrogram predictions | |
CN114842834A (zh) | 一种语音文本联合预训练方法及系统 | |
CN115641543B (zh) | 一种多模态抑郁情绪识别方法及装置 | |
CN113539231B (zh) | 音频处理方法、声码器、装置、设备及存储介质 | |
CN105139864A (zh) | 语音识别方法和装置 | |
CN112908317B (zh) | 一种针对认知障碍的语音识别系统 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN113423005B (zh) | 一种基于改进神经网络的智能音乐生成方法及系统 | |
CN115206284B (zh) | 一种模型训练方法、装置、服务器和介质 | |
CN113903347A (zh) | 一种基于机器学习的语音处理方法、装置、设备及介质 | |
Lian et al. | Whisper to normal speech conversion using sequence-to-sequence mapping model with auditory attention | |
CN116863920B (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
CN113707127A (zh) | 一种基于线性自注意力的语音合成方法及系统 | |
CN110808026B (zh) | 一种基于lstm的电声门图语音转换方法 | |
CN115424605B (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN106157948B (zh) | 一种基频建模方法及系统 | |
CN115966197A (zh) | 语音合成方法、装置、电子设备和存储介质 | |
CN113628630B (zh) | 基于编解码网络的信息转换方法和装置、电子设备 | |
CN118279457B (zh) | 一种基于大脑启发式的文本驱动三维人脸方法 | |
Srikotr et al. | Predictive vector quantized variational autoencoder for spectral envelope quantization | |
CN118366430B (zh) | 一种拟人化的语音合成方法、装置及可读存储介质 | |
Li et al. | A System Design of English Speech Synthesis | |
CN114299915A (zh) | 语音合成方法及相关设备 | |
CN113920976A (zh) | 语音合成系统、方法、计算机设备、存储介质及程序产品 | |
CN118430545A (zh) | 一种用于多角色声音的克隆方法、系统及机器人 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |