CN115310461A - 基于多模态数据优化的低资源语音翻译方法及系统 - Google Patents
基于多模态数据优化的低资源语音翻译方法及系统 Download PDFInfo
- Publication number
- CN115310461A CN115310461A CN202210834634.1A CN202210834634A CN115310461A CN 115310461 A CN115310461 A CN 115310461A CN 202210834634 A CN202210834634 A CN 202210834634A CN 115310461 A CN115310461 A CN 115310461A
- Authority
- CN
- China
- Prior art keywords
- information
- decoded
- representing
- representation
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 40
- 238000005457 optimization Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000013518 transcription Methods 0.000 claims abstract description 7
- 230000035897 transcription Effects 0.000 claims abstract description 7
- 230000002902 bimodal effect Effects 0.000 claims description 26
- 238000005516 engineering process Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013138 pruning Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 125000004432 carbon atom Chemical group C* 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 2
- 239000010410 layer Substances 0.000 description 36
- 230000006870 function Effects 0.000 description 27
- 210000005266 circulating tumour cell Anatomy 0.000 description 22
- 238000010586 diagram Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于多模态数据优化的低资源语音翻译方法及系统,该方法包括:获取源语音信息与对应的转录文本信息;对源语音信息进行预处理,得到预处理后的语音信息;对预处理后的语音信息与转录文本信息进行连接时序分类损失计算,得到声学表征的对齐结果;对声学表征的对齐结果进行解码处理,得到解码后的声学表征与解码后的文本语义表征;对解码后的声学表征与解码后的文本语义表征进行迭代训练,输出翻译结果。通过使用本发明,能够降低不同音频和文本对应的标签采集难度并且实现在多模态下进行声学表征和文本语义表征的共同优化。本发明作为基于多模态数据优化的低资源语音翻译方法及系统,可广泛应用于语音识别技术领域。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及基于多模态数据优化的低资源语音翻译方法及系统。
背景技术
语音翻译技术是一项将源语言音频转录成目标语言文本的技术;语言翻译是涉及人工智能、数学、语言学、计算语言学和语音技术等多种学科和技术的综合性研究课题,属于国际前沿领域,多年来一直被认为是信息社会对计算机技术最具挑战性的研究课题之一,目前商用的语音翻译技术都依靠大量的有标签数据才能得到良好的效果,然而不同音频和文本对应的标签采集难度高、适用场景少、人工标注成本高昂,而传统的低资源语音翻译系统方案流程复杂,优化困难并且优化程度有限,难以达到实用的效果,现有的通过采用单一模态优化来丰富数据特征,以此来提高识别性能,但是由于语音翻译是一种双模态模式识别技术,因此传统的单一模态优化难以提供有效帮助且传统的多模态数据增强技术难以进行共同优化。
发明内容
为了解决上述技术问题,本发明的目的是提供基于多模态数据优化的低资源语音翻译方法及系统,能够降低不同音频和文本对应的标签采集难度并且实现在多模态下进行声学表征和文本语义表征的共同优化。
本发明所采用的第一技术方案是:基于多模态数据优化的低资源语音翻译方法,包括以下步骤:
获取源语音信息与对应的转录文本信息;
对源语音信息进行预处理,得到预处理后的语音信息;
对预处理后的语音信息与转录文本信息进行连接时序分类损失计算,得到声学表征的对齐结果;
对声学表征的对齐结果进行解码处理,得到解码后的声学表征与解码后的文本语义表征;
基于精简的双模态模型,对解码后的声学表征与解码后的文本语义表征进行迭代训练,输出翻译结果。
进一步,所述对源语音信息进行预处理,得到预处理后的语音信息还包括以下步骤:
基于Conformer网络,对源语音信息进行编码处理,得到编码后的语音信息;
基于自监督模型,对外域无监督音频数据进行重建,得到具有标记的音频数据;
对编码后的语音信息和具有标记的音频数据进行融合处理,得到预处理后的语音信息。
进一步,所述Conformer网络包括自注意力机制和残差连接,其具体表达式如下所示:
上式中,表示经过自注意力机制处理后的下一时间戳输出,SelfAttention表示系统中Conformer网络中包括的注意力机制结构计算方法,xl表示原始源信息输入,FeedForward表示前馈神经网络计算。
进一步,所述自监督模型包括多层卷积特征编码器,其中,所述卷积特征编码器包括时域卷积层,归一化层和GELU激活函数,其表达式如下所示:
上式中,Lc表示对比度损失函数,ct表示源序列信息,qt表示编码器输出后的离散序列特征信息,k表示k个类特征簇中心,表示从q个候选(即有用的)离散特征信息到Q个总目标离散特征信息,表示候选的离散序列特征信息。
进一步,所述连接时序分类损失计算的表达式如下所示:
LCTC=-logPCTC(y|xL)
上式中,L表示编码器中的层数,xL表示第L层的输出,LCTC表示编码器中的连接时序损失函数,PCTC表示连接时序损失函数中的后验概率,用来计算并得到连接时序损失函数。
进一步,所述对声学表征的对齐结果进行解码处理,得到解码后的声学表征与解码后的文本语义表征还包括以下步骤:
基于文本预训练模型,通过目标域文本数据对声学表征的对齐结果进行微调处理,得到微调后的对比结果;
基于双模态模型,通过联合损失函数对微调后的对齐结果进行联合优化,输出解码后的声学表征与解码后的文本语义表征。
进一步,所述步骤S41中外域MT预训练模型其表达式具体如下所示:
L(θ)=-Ex,y∈DMT-PretextlogP(y|x;θ)
上式中,θ表示外域MT预训练模型的参数,e表示目标域文本数据,x表示外域输入的文本数据,y表示候选的输出文本数据特征,L(θ)表示带有θ的可调最大似然损失函数,Ex,y表示输入和输出的最大期望,DMT-Pretex表示结合预训练最大似然损失后的得到的目标域文本数据,P表示概率。
进一步,所述基于精简的双模态模型,对解码后的声学表征与解码后的文本语义表征进行迭代训练,输出翻译结果还包括以下步骤:
对双模态模型进行分析,提取双模态模型中的相似层;
通过深度剪枝技术对双模态模型中的相似层进行剔除处理,得到精简的双模态模型;
基于精简的双模态模型,通过CTC辅助损失函数对解码后的声学表征与解码后的文本语义表征进行迭代训练;
直至输出的训练结果满足预设的概率条件,输出翻译结果。
所述CTC辅助损失函数具体如下所示:
上式中,LInterCTC表示CTC辅助损失函数,K表示总共有K个相似层,k表示第k相似层,xlk表示中间第k相似层的l个位置神经元输入。
本发明所采用的第二技术方案是:基于多模态数据优化的低资源语音识别系统,包括:
获取模块,用于获取源语音信息与源语音信息对应的转录文本信息;
编码模块,用于对源语音信息进行预处理,得到预处理后的语音信息;
损失计算模块,用于对预处理后的语音信息与转录文本信息进行连接时序分类损失计算,得到声学表征的对齐结果;
解码模块,用于对声学表征的对齐结果进行解码处理,得到解码后的声学表征与解码后的文本语义表征;
优化模块,基于精简的双模态模型,对解码后的声学表征与解码后的文本语义表征进行迭代训练,输出翻译结果。
本发明方法及系统的有益效果是:本发明通过Conformer网络以及自监督模型对源语音信息进行预处理,可以最大限度的利用文本与语音资源且不需要对源语音进行转录即可进行训练,降低不同音频和文本对应的标签采集难度,进而通过连接时序分类损失计算对语音的声学表征与文本语义表征进行对齐,最后通过相似层裁剪技术与非相似层融合技术提高双模态模型对声学表征的对齐结果的解码过程进行优化,可以减少双模态模型的参数量,提高有限参数的利用能力,改善多模态下声学表征和文本语义表征难以共同优化的问题。
附图说明
图1是本发明基于多模态数据优化的低资源语音翻译方法的步骤流程图;
图2是本发明基于多模态数据优化的低资源语音识别系统的结构框图;
图3是现有技术基于基线模型的编码端的注意机制的注意力机制热力图;
图4是本发明自我监督模型的编码端的注意机制热力图;
图5是现有技术基于基线模型的解码端的注意机制的注意力机制热力图;
图6是本发明自我监督模型的解码端的注意机制热力图;
图7是本发明低资源语音识别方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1和图7,本发明提供了基于多模态数据优化的低资源语音翻译方法,该方法包括以下步骤:
S1、获取源语音信息与对应的转录文本信息;
具体地,采用开源伊班语语料库作为低资源语音识别系统的源语言语音输入Xs=[x1,x2,…,xs],将转录为对应的英语文本Ys=[y1,y2,…,ys]作为任务目标。
S2、对源语音信息进行预处理,得到预处理后的语音信息;
S21、基于Conformer网络,对源语音信息进行编码处理,得到编码后的语音信息;
具体地,通过采用Conformer网络作为端到端编解码的基础结构,其中端到端结构是一个单独的子任务,仅包括一个语音翻译编码器和语音翻译解码器,并在解码端引入链接时序损失来共同优化解码损失;Conformer网络是一个多层注意力架构,包括自注意力机制和残差连接,其中自注意力机制学习全局信息,残差连接帮助训练深度神经网络,并基于SpecAugment技术,通过语谱图形式增强音频与文本序列的对齐效果,来加强源语音的声学表征,与现有的技术级联结构相比,本发明采用的端到端结构系统流程简单,避免了级联结构容易出现错误传播的问题,容易共同调优,并且不需要源语音的转录来进行训练,Conformer网络的表达式如下所示:
上式中,表示经过自注意力机制处理后的下一时间戳输出,SelfAttention表示系统中Conformer网络中包括的注意力机制结构计算方法,xl表示原始源信息输入,FeedForward表示前馈神经网络计算;
S22、基于自监督模型,对外域无监督音频数据进行重建,得到具有标记的音频数据;
具体地,通过结合自监督学习,通过从大规模的无监督数据中自动构造监督信息,通过这种伪标签对网络进行训练,从而可以学习到对下游任务有价值的表征,在本专利提出的低资源语音翻译方案中,在音频编码器端结合自监督模型来重建外域信息声学表征,以提高模型建模能力,因为低资源条件下,模型在编码端能够学习到有用的信息很少,需要外域无监督音频数据进行补充学习,才能达到更好的解码效果并丰富声学表征;
该自监督模型由多层卷积特征编码器f组成。编码器由几个块组成,其中包含一个时域卷积,然后是层归一化和一个GELU激活函数;它以原始音频x为输入,输出潜在语音表示Z1,…,ZT,即X→Z;并将特征编码器的输出到Transformer架构的上下文网络。通过自注意捕获整个序列的潜在表示的依赖关系,以构建表示C1,…,CT来捕捉整个序列的信息,即,其中上下文网络使用类似的卷积层作为相对位置嵌入,而不是编码绝对位置信息的固定位置嵌入。其中我们计算上下文表征和量化潜在语音表征之间的余弦相似度。一个量化的候选表征k个分心者,和一个真正的量化潜在语音表征qt是语境网络的输出,其中所述自监督模型表达式如下所示;
上式中,Lc表示对比度损失函数,ct表示源序列信息,qt表示编码器输出后的离散序列特征信息,k表示k个类特征簇中心,表示从q个候选(即有用的)离散特征信息到Q个总目标离散特征信息,表示候选的离散序列特征信息。
S23、对编码后的语音信息和具有标记的音频数据进行融合处理,得到预处理后的语音信息。
具体地,同时将特征编码器的输出离散为qt,使用量化模块Z→Q来表示自监督中的目标,为了进行自监督训练,通过量化将从多个码本中选择量化表示并将它们连接起来,给定G个码本,有V个条目e∈RV×d/G,我们从每个码本中选择一个条目,并连接得到的向量e1,…eG,并应用线性变换Rd→Rf得到q∈Rf,同时,使用直通式估计器和设置G硬Gumbel软最大运算,特征编码器输出z映射到l∈RG×Vlogits,g组选择第V个码本条目的概率为:
上式中,pg,v表示第g个组选择第v个编码表征的概率,lg,v表示第g个组中选择l个表示第v个编码表征的对数概率,nv表示总V个编码表征的负对数正态分布,nk表示v组中每个编码标准的负对数正态分布,τ表示非负温度;
在向前传递中,i=argmaxipg,j选择码字i,并且在向后传递中,使用GumbelSoftmax输出的真实梯度,在一批语料中,通过对每个编码本的编码本条目的平均Softmax分布1的熵最大化,平均使用G编码本中的V条目,具体表示如下:
上式中,Ld表示编码本多样性损失函数,G表示总编码数,V表示其中的V个有用的编码数,H表示取该概率的均匀分布,表示总编码数概率,表示第g个组选择第v个编码表征的平均概率,g表示第g个组,v表示总G组中的第V个组别;
通过引入对比度损失Lc和编码本多样性损失Ld来解决自监督和有监督编码的融合,其中α是一个经过调整的超参数,使用原始的16位16kHz单声道音频作为实验中的音频输入,在Librispeech的音频数据上进行微调训练,其中包含10分钟、100小时和960小时不同规模的微调模型,进一步的微调函数如下所示:
L=Lc+αLd
S3、对预处理后的语音信息与转录文本信息进行连接时序分类损失计算,得到声学表征的对齐结果;
具体地,对经过融合处理得到的声学表征反馈至标准CTC损失层,以优化音频对齐损失,即通过连接时序分类损失计算对声学表征与对应的文本语义表征之间进行对齐,所述连接时序分类损失计算的表达式具体如下所示:
LCTC=-logPCTC(y|xL)
上式中,L表示编码器中的层数,xL表示第L层的输出,LCTC表示编码器中的连接时序损失函数,PCTC表示连接时序损失函数中的后验概率,用来计算并得到连接时序损失函数。
S4、对声学表征的对齐结果进行解码处理,得到解码后的声学表征与解码后的文本语义表征;
S41、基于外域MT预训练模型,通过目标域文本数据对声学表征的对齐结果进行微调处理;
S42、基于双模态模型,通过联合损失函数对微调后的声学表征的对齐结果进行联合优化,输出解码后的声学表征与解码后的文本语义表征;
具体地,为了利用大规模无标记文本数据,可以引入外域MT预训练模型即文本预训练模型,同时使用少量目标域文本数据微调,并且通过对双模型引入联合损失函数,达到联合优化的目的,外域MT预训练模型其表达式具体如下所示:
L(θ)=-Ex,y∈DMT-PretextlogP(y|x;θ)
上式中,θ表示外域MT预训练模型的参数,D表示目标域文本数据,x表示外域输入的文本数据,y表示候选的输出文本数据特征,L(θ)表示带有θ的可调最大似然损失函数,Ex,y表示输入和输出的最大期望,DMT-Pretext表示结合预训练最大似然损失后的得到的目标域文本数据,P表示概率;
对于独立的文本生成工作,我们利用了典型的基于Transformer的结构,解码器模块有六个Transformer层,其中2048层是最隐蔽的单元,利用层前归一化来使训练具有可比性,因为前端模型在同时接受语音表示和外部文本信息作为输入,在实验中使用了Adam优化器,学习率为2×10-4,warmup为25k步长,根据实验结果,MT预训练为共享变压器模块提供了一个合适的热身。
S5、对解码后的声学表征与解码后的文本语义表征进行迭代训练,输出翻译结果。
S51、对双模态模型进行分析,提取双模态模型中的相似层;
S52、通过深度剪枝技术对双模态模型中的相似层进行剔除处理,得到精简的双模态模型;
具体地,在对模型进行随机深度训练后,通过分析相关层对模型的影响进一步得出系统结构中的相似层,并且采用深度剪枝技术将模型中的一些相似层去除,得到了新的更小的子模型,减少整体参数量,提高有限参数的利用能力,该子模型不需要进行任何微调,也具有合理的性能;
S53、基于精简的双模态模型,通过CTC辅助损失函数对解码后的声学表征与解码后的文本语义表征进行迭代训练;
S54、直至输出的训练结果满足预设的概率条件,输出翻译结果。
具体地,在迭代训练期间,每一层是否随机跳过与给定概率,对于每一次迭代,从伯努利分布采样,这样u=1的概率是p和u=0的概率是1-p,如果u=0,则跳过剩余部分(即xl=xl-1),输出是通过修改解码端即如下公式所述:
基于对双模态模型进行分析,提取双模态模型中的相似层,而针对于非相似层,对编解码尾部设计多模态CTC辅助损失,可以进一步改善多模态下声学表征和文本语义表征难以共同优化的问题,它使用附加在中间层的额外CTC损失使模型正规化,进一步改善多模态难以共同优化的问题,让l1,…,lk中间层的K个位置即K<L,中间损失定义为:
上式中,LInterCTC表示CTC辅助损失函数,K表示总共有K个相似层,k表示第k相似层,xlk表示中间第k相似层的l个位置神经元输入;
进一步结合Eq定义训练目标:
L:=(1-w)LCTC+wLInterCTC
上式中,w表示超参数,L:表示总的优化损失函数;
其中,步骤S3中的CTC损失函数和CTC辅助损失函数共享连接时序分类损失的同一线性投影层,因为中间CTC辅助损失函数被视为常规的CTC损失,只是跳过中间层之后的所有编码器层,本发明通过选取单层和双层的中间CTC来分析对模型实现正规化。
本发明模拟实验如下所示:
参照图3和图4,本专利使用结合自监督模型的结构,可以观察到与自我监督模型相结合的编码端和基线模型的编码注意力权重,所述基线模型没有经过预训练,也没有使用任何额外的其他有监督语音翻译数据,图中可以看出权重的对角线相关度越高,对它们的影响就越好,表明编码器的学习能力越强;
具体地如图3所示,与基线模型相比,微调后的自监督编码器注意力权重的注意力对准能力得到了增强,用10分钟的Librilight数据预训练的自监督模型取得了平均25.6个BLEU的成绩,比基线平均成绩高出3.3个BLEU点,这些结果表明,采用自监督模型学习的声学表征在语音识别之外非常有用,适用于语音翻译,而且它表明本专利提出的模型与自监督学习相结合,它可以在源语音不足的情况下有效的利用大量的外域无监督音频数据来改善低资源语音翻译任务,其中,图3的坐标轴表示未经过优化的编码端中的输入表征和输出的关系,如果图中类对角线越多证明,编码器学习到越多关于输入数据的关系,证明此时编码器学习能力强;
图4的坐标轴表示经过本文优化的编码端中的输入表征和输出的关系,可以看出对角线关系越多,编码器学习到输入的关系越好;
参照图5和图6,本发明通过使用结合文本预训练模型的结构,可以观察到了使用文本预训练模型的解码端和未使用文本预训练模型的解码端注意力权重,而基线模型是用10分钟的可标记数据进行微调,权重的对角线相关度越高,对它们的影响就越好,表明解码端学习语义能力越强;
图5的坐标轴表示未经过优化的解码端中的输入表征和输出的关系,如果图中类对角线越多证明,解码器学习到越多关于输入声学表征的关系,证明此时解码器学习能力强;
具体地如图6所示,与基线模型相比,当与域外文本预训练模型结合时,带有语义关系的注意力权重有明显的提高,而单一模型的最佳性能提高了1.4BLEU,双重模型的最佳性能提高了2.0BLEU,这也意味着,域外文本预训练模型可以帮助低资源语音翻译任务在解码端丰富文本嵌入,提高语义学习能力,进一步有效地提高低资源语音翻译任务的性能表现;
图6坐标轴表示经过本文优化的解码端中的输入表征和输出的关系,可以看出对角线关系越多,解码器学习到输入的关系越好;
上述坐标轴数值均代表其中不同词类,颜色明亮强度代表编码器或解码器学习到该词类的关系越强。
参照图2,基于多模态数据优化的低资源语音识别系统,包括:
获取模块,用于获取源语音信息;
编码模块,用于对源语音信息进行预处理,得到预处理后的语音信息;
损失计算模块,用于对预处理后的语音信息进行连接时序分类损失计算,得到声学表征的对齐结果;
解码模块,用于对声学表征的对齐结果进行解码处理,得到解码后的声学表征与解码后的文本语义表征;
优化模块,用于对解码后的声学表征与解码后的文本语义表征进行迭代训练,输出翻译结果。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.基于多模态数据优化的低资源语音翻译方法,其特征在于,包括以下步骤:
获取源语音信息与对应的转录文本信息;
对源语音信息进行预处理,得到预处理后的语音信息;
对预处理后的语音信息与转录文本信息进行连接时序分类损失计算,得到声学表征的对齐结果;
对声学表征的对齐结果进行解码处理,得到解码后的声学表征与解码后的文本语义表征;
基于精简的双模态模型,对解码后的声学表征与解码后的文本语义表征进行迭代训练,输出翻译结果。
2.根据权利要求1所述基于多模态数据优化的低资源语音翻译方法,其特征在于,所述对源语音信息进行预处理,得到预处理后的语音信息这一步骤,具体还包括:
基于Conformer网络,对源语音信息进行编码处理,得到编码后的语音信息;
基于自监督模型,对外域无监督音频数据进行重建,得到具有标记的音频数据;
对编码后的语音信息和具有标记的音频数据进行融合处理,得到预处理后的语音信息。
5.根据权利要求1所述基于多模态数据优化的低资源语音翻译方法,其特征在于,所述连接时序分类损失计算的表达式如下所示:
LCTC=-log PCTC(y|xL)
上式中,L表示编码器中的层数,xL表示第L层的输出,LCTC表示编码器中的连接时序损失函数,PCTC表示连接时序损失函数中的后验概率,用来计算并得到连接时序损失函数。
6.根据权利要求1所述基于多模态数据优化的低资源语音翻译方法,其特征在于,所述对声学表征的对齐结果进行解码处理,得到解码后的声学表征与解码后的文本语义表征这一步骤,具体还包括:
基于文本预训练模型,通过对应的转录文本信息对声学表征的对齐结果进行微调处理,得到微调后的对齐结果;
基于双模态模型,通过联合损失函数对微调后的对齐结果进行联合优化,输出解码后的声学表征与解码后的文本语义表征。
7.根据权利要求6所述基于多模态数据优化的低资源语音翻译方法,其特征在于,所述外域MT预训练模型其表达式具体如下所示:
L(θ)=-Ex,y∈DMT-Pretexlog P(y|x;θ)
上式中,θ表示外域MT预训练模型的参数,D表示目标域文本数据,x表示外域输入的文本数据,y表示候选的输出文本数据特征,L(θ)表示带有θ的可调最大似然损失函数,Ex,y表示输入和输出的最大期望,DMT-pretext表示结合预训练最大似然损失后的得到的目标域文本数据,P表示概率。
8.根据权利要求1所述基于多模态数据优化的低资源语音翻译方法,其特征在于,所述基于精简的双模态模型,对解码后的声学表征与解码后的文本语义表征进行迭代训练,输出翻译结果这一步骤,具体还包括:
对双模态模型进行分析,提取双模态模型中的相似层;
通过深度剪枝技术对双模态模型中的相似层进行剔除处理,得到精简的双模态模型;
基于精简的双模态模型,通过CTC辅助损失函数对解码后的声学表征与解码后的文本语义表征进行迭代训练;
直至输出的训练结果满足预设的概率条件,输出翻译结果。
10.基于多模态数据优化的低资源语音识别系统,其特征在于,包括以下模块:
获取模块,用于获取源语音信息与对应的转录文本信息;
编码模块,用于对源语音信息进行预处理,得到预处理后的语音信息;
损失计算模块,用于对预处理后的语音信息与转录文本信息进行连接时序分类损失计算,得到声学表征的对齐结果;
解码模块,用于对声学表征的对齐结果进行解码处理,得到解码后的声学表征与解码后的文本语义表征;
优化模块,基于精简的双模态模型,对解码后的声学表征与解码后的文本语义表征进行迭代训练,输出翻译结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210834634.1A CN115310461A (zh) | 2022-07-14 | 2022-07-14 | 基于多模态数据优化的低资源语音翻译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210834634.1A CN115310461A (zh) | 2022-07-14 | 2022-07-14 | 基于多模态数据优化的低资源语音翻译方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115310461A true CN115310461A (zh) | 2022-11-08 |
Family
ID=83855999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210834634.1A Pending CN115310461A (zh) | 2022-07-14 | 2022-07-14 | 基于多模态数据优化的低资源语音翻译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115310461A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116863920A (zh) * | 2023-07-17 | 2023-10-10 | 北京邮电大学 | 基于双流自监督网络的语音识别方法、装置、设备及介质 |
-
2022
- 2022-07-14 CN CN202210834634.1A patent/CN115310461A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116863920A (zh) * | 2023-07-17 | 2023-10-10 | 北京邮电大学 | 基于双流自监督网络的语音识别方法、装置、设备及介质 |
CN116863920B (zh) * | 2023-07-17 | 2024-06-11 | 北京邮电大学 | 基于双流自监督网络的语音识别方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Efficient dialogue state tracking by selectively overwriting memory | |
Ren et al. | Almost unsupervised text to speech and automatic speech recognition | |
Audhkhasi et al. | End-to-end ASR-free keyword search from speech | |
CN109992669B (zh) | 一种基于语言模型和强化学习的关键词问答方法 | |
Wang et al. | A novel end-to-end speech emotion recognition network with stacked transformer layers | |
CN114023316A (zh) | 基于TCN-Transformer-CTC的端到端中文语音识别方法 | |
CN110059324B (zh) | 基于依存信息监督的神经网络机器翻译方法及装置 | |
Gupta et al. | Clsril-23: Cross lingual speech representations for indic languages | |
CN112417134A (zh) | 基于语音文本深度融合特征的摘要自动生成系统及方法 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN114999460A (zh) | 一种结合Transformer的轻量化中文语音识别方法 | |
Jeon et al. | Multitask learning and joint optimization for transformer-RNN-transducer speech recognition | |
Yeh et al. | Speech Representation Learning for Emotion Recognition Using End-to-End ASR with Factorized Adaptation. | |
CN115272908A (zh) | 一种基于改进Transformer的多模态情感识别方法和系统 | |
Mamatov et al. | Speech recognition based on transformer neural networks | |
Kim et al. | Enclap: Combining neural audio codec and audio-text joint embedding for automated audio captioning | |
Yeo et al. | Akvsr: Audio knowledge empowered visual speech recognition by compressing audio knowledge of a pretrained model | |
CN115310461A (zh) | 基于多模态数据优化的低资源语音翻译方法及系统 | |
CN116863920B (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
Shi et al. | Casa-asr: Context-aware speaker-attributed asr | |
Qu et al. | Noise-separated adaptive feature distillation for robust speech recognition | |
Ngoc et al. | Adapt-Tts: High-Quality Zero-Shot Multi-Speaker Text-to-Speech Adaptive-Based for Vietnamese | |
Eledath et al. | Few-shot learning for cross-lingual end-to-end speech recognition | |
Ji et al. | Research on an improved Conformer end-to-end Speech Recognition Model with R-Drop Structure | |
CN118098216B (zh) | 一种利用非平行语料提升语音识别系统性能的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |