CN112668704B - 音频识别模型的训练方法、装置和音频识别方法、装置 - Google Patents

音频识别模型的训练方法、装置和音频识别方法、装置 Download PDF

Info

Publication number
CN112668704B
CN112668704B CN202110278612.7A CN202110278612A CN112668704B CN 112668704 B CN112668704 B CN 112668704B CN 202110278612 A CN202110278612 A CN 202110278612A CN 112668704 B CN112668704 B CN 112668704B
Authority
CN
China
Prior art keywords
vector
audio
training
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110278612.7A
Other languages
English (en)
Other versions
CN112668704A (zh
Inventor
李成飞
汪光璟
杨嵩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110278612.7A priority Critical patent/CN112668704B/zh
Publication of CN112668704A publication Critical patent/CN112668704A/zh
Application granted granted Critical
Publication of CN112668704B publication Critical patent/CN112668704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供一种音频识别模型的训练方法、装置和音频识别方法、装置,训练方法包括:采用各个语种的音频‑音标样本训练音频‑音标转换模型;音频‑音标转换模型包括第一网络模块;采用各个语种的音标‑文本样本训练音标‑文本转换模型;音标‑文本转换模型包括第二网络模块;采用第一网络模块处理多语混杂音频样本得到第一向量;采用第二网络模块处理标注音标,得到第二向量;根据初始化字符或多语混杂音频样本对应的标注文本中的词语,得到第三向量;采用第一向量、第二向量、第三向量和标注文本中的词语,对音频识别模型的耦合模型进行训练。本申请基于少量的多语混合音频和对应的音标和文本,就可以建立起性能较好的多语混杂音频识别模型。

Description

音频识别模型的训练方法、装置和音频识别方法、装置
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种音频识别模型的训练方法、装置和音频识别方法、装置。
背景技术
多语混杂音频是一种包括多种语言类型、或者多种方言类型的音频(为了后续的表述的方便性,本申请实施例中将多种方言混合得到音频也称为多语混杂音频);多语混杂音频多录制于外语教学、方言教学等场景中,也可能录制于演讲和多人沟通中。
为了能够实现多语混杂音频进行文本识别,目前已有处理方法是采深度学习方法训练得到端到端的语音识别模型。因为端到端的语音识别模型的解码部分中,后一时刻的输出依赖于前一时刻的输出;而为了能够得到精准的语音识别模型,需要足够训练数量的多语混杂音频训练样本;而现实情况是,多语混杂音频样本的获取难度很高,并且还需要大量专业人员对多语混杂音频训练样本进行人工标注。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供一种用于多语混杂音频的音频识别模型的训练方法,以及多语混杂音频的识别方法。
一方面,本申请提供一种音频识别模型的训练方法,包括:
采用至少两个语种的音频-音标样本训练得到所述音频识别模型中的音频-音标转换模型;所述音频-音标转换模型包括第一网络模块;
采用各个所述语种的音标-文本样本训练得到音频识别模型的音标-文本转换模型;所述音标-文本转换模型包括第二网络模块;
采集多语混杂音频样本,并采用所述第一网络模块处理所述多语混杂音频样本,得到第一向量;
采用所述第二网络模块处理所述多语混杂音频样本对应的标注音标,得到第二向量;
根据初始化字符或所述多语混杂音频样本对应的标注文本中的词语,得到第三向量;
采用所述第一向量、所述第二向量、所述第三向量和所述标注文本中的词语,对所述音频识别模型的耦合模型进行训练。
可选地,根据初始化字符或所述多语混杂音频样本对应的标注文本中的词语,得到第三向量,包括:
根据所述初始化字符或所述标注文本中的词语得到词向量;以及,根据所述初始化字符或所述标注文本中词语的位置得到位置向量;
根据所述词向量和所述位置向量,得到所述第三向量。
可选地,根据初始化字符或所述多语混杂音频样本对应的标注文本中的词语,得到第三向量,包括:
根据初始化字符或所述标注文本中的词语得到词向量;
根据所述词向量得到所述第三向量。
可选地,所述耦合模型包括前处理模块和融合模块;
采用所述第一向量、所述第二向量、所述第三向量和所述标注文本中的词语,对所述音频识别模型的耦合模型进行训练,包括:
采用所述前处理模块对第三向量进行非线性变换,生成第四向量;
采用所述融合模块对所述第一向量、所述第二向量和所述第四向量进行非线性融合,生成结果向量;
根据所述标注文本中的词语得到判别向量;
根据所述结果向量和所述判别向量,对所述前处理模块和所述融合处理模块中的参数进行训练。
可选地,所述融合模块包括第一融合子模块、第二融合子模块和再融合子模块;
采用所述融合模块对所述第一向量、所述第二向量和所述第四向量进行非线性融合,生成结果向量,包括:
采用所述第一融合子模块对所述第一向量和所述第四向量进行非线性融合,生成第五向量;
采用所述第二融合子模块对所述第二向量和所述第四向量进行非线性融合,生成第六向量;
采用再融合子模块对所述第五向量和所述第六向量进行非线性融合,生成所述结果向量。
可选地,所述前处理模块、所述第一融合子模块和所述第二融合子模块均包括采用多头注意力机制的子网络。
可选地,采用至少两个语种的音频-音标样本训练得到音频识别模型的音频-音标转换模型;包括:
对各个所述语种的音频进行声学特征提取,得到声学特征矩阵;
采用所述声学特征矩阵和对应的标注音标,训练得到所述音频-音标转换模型。
可选地,采用各个所述语种的音标-文本样本训练得到音频识别模型的音标-文本转换模型,包括:
采用各个所述语种的音标-文本样本对所述音标-文本转换模型进行训练,得到所述音标-文本转换模型的临时参数;
所述方法还包括:采用所述多语混杂音频样本对应的标注音标和标注文本,基于所述临时参数对所述音频-文本转换模型进行再训练。
另一方面,本申请提供一种音频识别模型中的耦合模型训练方法,包括:
采用音频-音标转换模型中的第一网络模块处理多语混杂音频样本,得到第一向量;所述音频-音标转换模型由至少两个单一语种的音频-音标样本训练得到;
采用音标-文本转换模型中的第二网络模块处理所述多语混杂音频样本对应的标注音标,得到第二向量;所述音标-文本转换模型由各个所述单一语种的音标-文本样本训练得到;
根据初始化字符或多语混杂音频样本对应的标注文本中的词语,得到第三向量;
采用所述第一向量、所述第二向量、所述第三向量和所述标注文本中的词语,对所述耦合模型进行训练。
再一方面,本申请提供一种音频识别方法,包括:
采用所述音频-音标转换模型处理目标多语混杂音频,得到转换音标;以及采用所述音频-音标转换模型中的第一网络模块,处理所述目标多语混杂音频,得到第一编码向量;
采用所述音标-文本转换模型中的第二网络模块处理所述转换音标,得到第二编码向量;
根据初始化字符或已输出识别文本中的词语,得到第三编码向量;
采用所述第一编码向量、所述第二编码向量和所述第三编码向量输入到所述耦合模型,得到输出识别文本。
可选地,在未输出识别文本的情况下,所述根据所述初始化字符或输出识别文本中的最新词语,得到第三编码向量,包括:根据所述初始化字符,得到所述第三编码向量;
在已输出识别文本的情况下,所述根据所述初始化字符或耦合模型已输出识别文本中的词语,得到第三编码向量,包括:根据耦合模型输出的识别文本中的最新词语,得到所述第三编码向量。
可选地,根据初始化字符或已输出识别文本中的词语,得到第三编码向量,包括:
根据所述初始化字符或所述已输出识别文本中的词语,得到词编码向量;
根据所述初始化字符或所述已输出识别文本中词语的位置,得到位置编码向量;
根据所述词编码向量和所述位置编码向量,得到所述第三编码向量。
可选地,根据初始化字符或已输出识别文本中的词语,得到第三编码向量,包括:
根据所述初始化字符或所述已输出识别文本中的词语,得到词编码向量;
采用所述词编码向量,得到所述第三编码向量。
再一方面,本申请提供一种音频识别模型的训练装置,包括:
第一训练单元,用于采用至少两个语种的音频-音标样本训练得到所述音频识别模型中的音频-音标转换模型;所述音频-音标转换模型包括第一网络模块;
第二训练单元,用于采用各个所述语种的音标-文本样本训练得到音频识别模型的音标-文本转换模型;所述音标-文本转换模型包括第二网络模块;
向量获取单元,用于采集多语混杂音频样本,并采用所述第一网络模块处理所述多语混杂音频样本,得到第一向量;采用所述第二网络模块处理所述多语混杂音频样本对应的标注音标,得到第二向量;以及,根据初始化字符或所述多语混杂音频样本对应的标注文本中的词语,得到第三向量;
第三训练单元,用于采用所述第一向量、所述第二向量、所述第三向量和所述标注文本中的词语,对所述音频识别模型的耦合模型进行训练。
可选地,所述向量获取单元包括:
向量获取子单元,用于根据所述初始化字符或所述标注文本中的词语得到词向量;以及,根据所述初始化字符或所述标注文本中词语的位置得到位置向量;
向量组合子单元,用于根据所述词向量和所述位置向量,得到所述第三向量。
可选地,所述耦合模型包括前处理模块和融合模块;
所述对所述音频识别模型的耦合模型进行训练,包括:
采用所述前处理模块对第三向量进行非线性变换,生成第四向量;
采用所述融合模块对所述第一向量、所述第二向量和所述第四向量进行非线性融合,生成结果向量;
根据所述多语混杂音频样本对应的标注文本得到判别向量;
根据所述结果向量和所述判别向量,对所述前处理模块和所述融合处理模块中的参数进行训练。
可选地,所述融合模块包括第一融合子模块、第二融合子模块和再融合子模块;
采用所述融合模块对所述第一向量、所述第二向量和所述第四向量进行非线性融合,生成结果向量,包括:
采用所述第一融合子模块对所述第一向量和所述第四向量进行非线性融合,生成第五向量;
采用所述第二融合子模块对所述第二向量和所述第四向量进行非线性融合,生成第六向量;
采用再融合子模块对所述第五向量和所述第六向量进行非线性融合,生成所述结果向量。
可选地,所述第一训练单元包括:
声学特征提取子单元,用于对各个所述语种的音频进行声学特征提取,得到声学特征矩阵;
第一模型训练子单元,用于采用所述声学特征矩阵和对应的标注音标,训练得到所述音频-音标转换模型。
可选地,第二训练单元包括:
临时模型训练子单元,用于采用各个所述语种的音标-文本样本对所述音标-文本转换模型进行训练,得到所述音标-文本转换模型的临时参数;
再训练子单元,用于采用所述多语混杂音频样本对应的标注音标和标注文本,基于所述临时参数对所述音频-文本转换模型进行再训练
再一方面,本申请提供一种音频识别模型中的耦合模型训练装置,包括:
第一获取单元,采用音频-音标转换模型中的第一网络模块处理多语混杂音频样本,得到第一向量;所述音频-音标转换模型由至少两个单一语种的音频-音标样本训练得到;
第二获取单元,采用音标-文本转换模型中的第二网络模块处理所述多语混杂音频样本对应的标注音标,得到第二向量;所述音标-文本转换模型由各个所述单一语种的音标-文本样本训练得到;以及,根据初始化字符或多语混杂音频样本对应的标注文本中的词语,得到第三向量;
耦合模型训练单元,用于采用所述第一向量、所述第二向量、所述第三向量和所述标注文本中的词语,对所述耦合模型进行训练。
再一方面,本申请提供一种音频识别模型装置,包括:
第一处理单元,用于采用所述音频-音标转换模型处理目标多语混杂音频,得到转换音标;以及采用所述音频-音标转换模型中的第一网络模块,处理所述目标多语混杂音频,得到第一编码向量
第二处理单元,用于采用所述音标-文本转换模型中的第二网络模块处理所述转换音标,得到第二编码向量;
第三处理单元,用于根据初始化字符或已输出识别文本中的词语,得到第三编码向量;
结果获取单元,采用所述第一编码向量、所述第二编码向量和所述第三编码向量输入到所述耦合模型,得到输出识别文本。
本申请提供的多语混杂音频的模型构建方法,采用单语的音频-标注音标训练音频-音标转换模型,采用单语的音标-标注文本训练得到音标文本转换模型;随后,利用音频-音标转换模型、音标文本转换模型得到第一向量和第二向量,并基于多语混杂音频样本对应的标准文本中的词语得到第三向量;最后采用第一向量、第二向量和第二向量训练得到耦合模型。前述的音标-文本转换模型、耦合模型和第二网络模块用于构建所述多语混杂音频识别模型。采用这一方法,本申请基于少量的多语混合音频样本和对应的标注音标和标注文本,就可以建立起性能较好的多语混杂音频识别模型。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1是本申请实施例中的多语混杂音频识别模型的训练方法流程图;
图2是本申请实施例中一个耦合模型的结构示意图;
图3是本申请实施例提供的耦合模型的训练方法流程图;
图4是本申请实施例提供的多语混杂音频的识别方法流程图;
图5是本申请实施例提供的音频识别模型的训练装置的结构示意图;
图6是本申请实施例提供的音频识别装置的结构示意图;
图7是本申请实施例提供的耦合模型训练装置的结构示意图;
图8是本申请实施例提供的电子设备的结构示意图;
其中:01-前处理模块,011-注意力机制网络,012-前向网络,02-融合处理模块,021-第一融合子模块,022-第二融合子模块,023-再融合子模块,11-第一训练单元,12-第二训练单元,13-向量获取单元,14-第三训练单元,21-第一处理单元,22-第二处理单元,23-第三处理单元,24-结果获取单元,31-第一获取单元,32-第二获取单元,33-第三获取单元,34-耦合模型训练单元。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面将对本申请的方案进行进一步描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但本申请还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本申请的一部分实施例,而不是全部的实施例。
本申请实施例提供一种对多语混杂音频识别而输出识别文本的方法。在对本申请实施例提供的方法做介绍前,首先对本申请中的一些术语做解释。
本申请实施例中,多语混杂音频是包括多种语言类型的音频,其中的多语可能是包括两种语言类型,也可能是包括更多的语言类型;本申请实施例中,多语类型可能有如下情况(1)包括多种不同的语种类型,例如包括中文和英文;(2)包括一种语种的官方语和/或至少一种方言,例如包括普通话和四川话,再如包括普通话和粤语(白话);(3)前述两种情况的混合。
对应前述的多语的解释,本申请实施例中的单一语种的音频可能包括:(1)某一特定的语种的音频;(2)一种语种的官方语音频或者方言音频。
如下对本申请实施例提供的用于实现多语混杂音频识别的相关方法方法做介绍。
图1是本申请实施例中的多语混杂音频识别模型的训练方法流程图。如图1所示,本申请实施例提供的实现多语混杂音频识别模型的训练方法包括步骤S101-S105。
S101:采用至少两个语种的音频-音标样本训练得到音频识别模型中的音频-音标转换模型。
本申请实施例中,音频-音标转换模型是用于对音频进行处理,识别音频中的各个时刻对应的发音音标的转换模型,音频-音标转换模型是采用至少两种语种的音频-音标样本对第一初始化模型进行训练得到。
应当注意的是,前述的至少两个语种都应当是多语混杂音频样本中包含的语种;前述至少两个语种的数量可以等于多语混杂音频中语种的数量,也可以大于多语混杂音频中语种的数量。
为了适应多个语种音标的标识,本申请实施例的标注音标应当是能够实现对前述多个语种的各个子语种进行标识的音标。在一个具体实施中,可以采用国际音标系统确定的标音方法标识音频-音标样本中的音标。
本申请实施例中,音频-音标转换模型可以采用深度学习领域中各种满足前述应用需求的模型架构训练得到,即第一初始化模型可以是深度学习领域中的各种可用的模型架构。
在本申请实施例一个应用中,音频-音标转换模型可以采用CNN模块-编码模块-CTCConnectionist Temporal Classification)解码模块组成的模型。
具体应用中,可以首先对音频-音标样本中的音频进行声学特征提取,以获得表征音频中各个片段的声学特征向量,随后再采用声学特征向量组成表征音频特征的声学特征矩阵。
例如,可以采用对音频进行分帧处理得到语音帧,随后采用梅尔滤波器组(FilterBank)等处理算法对各个语音帧进行处理,提取频带而得到声学特征向量,再采用各个声学特征向量组合得到声学特征矩阵;或者,在得到频带的基础上再进行离散余弦变换(DCT)而得到声学特征向量,并利用声学特征向量组合而得到声学特征矩阵。
针对不同长度的音频样本,为了得到具有相同维度的声学特征矩阵,本申请实施例中,以音频样本中的最长长度的样本为基础,对其他样本进行补零处理。
本申请实施例中,为了能够实现对音频样本中相邻语音帧相对位置特征的学习,音频-音标转换模型中采用了2D-CNN模块(二维卷积神经网络)。在一个具体应用中,2D-CNN采用的是带洞二维卷积神经网络;当然,在其他应用中,也可以采用经典的卷积神经网络。
本申请实施例中,编码模块可以采用基于自注意力机制的变形编码模块(TransformerEcoder Model)。当然,在其他实施例中,也可以其他可以用于处理具有时间序列特性的编码模块。
本申请实施例中,2D-CNN模块和编码模块组成了音频-音标转换模型中第一网络模块;声学特征矩阵经过预处理输入到CNN模块和编码模块后,生成第一向量。
S102:采用各个语种的音标-文本样本训练音频识别模型中的音标文本转换模型。
本申请实施例中,音标-文本转换模型是用于对标准音标进行处理,识别音标对应文本的转换模型,其采用各个语种的音标-文本样本训练第二初始化模型得到。
音频-音标转换模型可以采用深度学习领域中的各种满足前述应用需求的模型架构训练得到,即第二初始化模型可以是深度学习领域中的各种可用的模型架构。
在本申请实施例的一个应用中,音频-音标转换模型可以包括基于自注意力机制的变形编码模块(Transformer Encoder Model)和CTC模块组成,其中变形编码模块用于处理经过特征化处理的音标特征向量,得到第二向量。
当然,在本申请实施例中,音频-音标转换模块也可以采用本领域已有的其他模块。本申请实施例中,音频-音标转换模块中用于对输入音标特征向量进行处理的模块为第二网络模块。
在本申请实施例的一个具体应用中,步骤S102可以包括步骤S1021和S1022。
S1021:采用各个语种的音标-文本样本训练第二初始化模型,音标-文本转换模型的临时参数。
S1022:采用多语混杂音频样本对应的标注音标和标注文本,基于临时参数对音标-文本转换模型进行再训练,得到最终的音标-文本转换模型。
采用前述S1021-S1022的训练方法,在获取到音标-文本转换模型的临时参数后,再利用多语混杂音频样本对应的标注音标和标注文本对临时模型进行再训练,可以尽可能地提高多语混杂音频样本对应的音标和文本对音标-文本转换模型中各个参数调整的影响,使得音标-文本转换模型更符合处理多语混杂音频样本对应的标注音标和标注文本的特性。
在本申请实施例的其他应用中,在多语混杂音频样本较多的情况下,也可以同时使用各个语种的音标-文本样本,以及多语混杂音频样本对应的标注音标和标注文本同时对第二初始化模型进行训练,直接得到音标-文本转换模型。
S103:采用第一网络模块处理多语混杂音频样本,得到第一向量,以及采用第二网络模块处理多语混杂音频样本对应的标注音标,得到第二向量。
音频-音标转换模型和音标-文本转换模型已经是训练好的模型,采用第一网络模块处理多语混杂音频样本而得到的第一向量表征了多语混杂音频样本的内容特性,采用第二网络模块处理多语混杂音频样本对应的标注音标而得到的第二向量表征了多语混杂音频样本对应标注音标的内容特性。
S104:根据初始化字符或多语混杂音频样本对应的标注文本的词语,得到第三向量;
本申请实施例中,根据具体采用的耦合模型的类型不同,对多语混杂音频对应的文本或初始化字符进行特征化处理而得到第三向量的过程也就不同,此在下文中再做说明。
应当注意的,本申请实施例中构建的耦合模型是一种采用自回归编码方式的模型,因此需要利用初始化字符或者多语混在音频样本对应的标注文本中的词语,生成对应的第三向量。
具体应用中,在对多语混杂音频样本对应的标注文本中的第一个词语进行预测时,需要利用初始化字符生成第三向量;而在对多语混杂音频样本对应的标注文本中的其他词语进行预测时,需要采用在前的最新词语生成对应的第三向量。
本申请实施例具体应用中,初始化字符可以采用由<BOS>标记的字符,也即初始token标签。
S105:根据第一向量、第二向量、第三向量和标注文本中的词语,对初音频识别模型的耦合模型进行训练。
采用第一向量、第二向量、第三向量和多语混杂音频样本对应的标注文本对初始化模型进行训练,得到耦合模型的过程,是调整各个参数直至初始化耦合模型的输出满足特定的精度判定条件。
在训练得到耦合模型后,利用音频-音标转换模型、音标-文本转换模型、耦合模型组合得到了用于对目标多语混杂音频进行识别处理的音频识别模型。
本申请实施例中,并不是如现有技术直采用多语混杂音频-多语混杂标注文本的转换方式构建识别模型,而是首先利用已有的大量的单一语种的音频-文本样本,以及基于音频-文本样本能够快速得到音标的特性,得到单一语种的音频-音标样本和音标-文本样本,并利用单一语种的音频-音标样本和音标-文本样本进行训练得到音频-音标转换模型和音标-文本转换模型。
随后,根据少量的多语混杂音频样本和对应的标注音标和标注文本,采用音频-音标转换模型生成第一向量,采用音标-文本转换模型生成第二向量,以及基于多语混杂音频样本对应的标注文本中的词语生成第三向量,再对耦合模型进行训练,使得耦合模型融合了音频-音标-文本的转换特性。采用这一方法,本申请实施例基于少量的多语混合音频样本和对应的标注音标和标注文本,就可以建立起性能较好用于多语混杂音频识别的音频识别模型。
本申请的一些实施例的中,耦合模型可以是没有考虑多语混杂音频样本对应的标注文本中的词语顺序的模型,在此情况下,步骤S103则包括步骤S1031和S1032。
S1031:根据初始化字符或者标注文本中的词语得到词向量,以及,根据词语在标注文本中的位置得到位置向量。
步骤S1031中,可以采用神经网络模型训练、单词共生矩阵降维、可解释知识库等方法获取各个词语对应的词向量;可以采用预设的位置编码规则得到各个词语的位置向量,或者采用数据学习的方法得到获取各个词语的位置向量。
S1032:根据词向量和位置向量,得到第三向量。
步骤S1032中,根据词向量和位置向量得到第三向量的过程,是将词向量和位置向量进行拼接而得到第三向量的过程。
在本申请实施例的其他应用中,耦合模型为是包括循环神经网络架构的模型,在耦合模型训练过程中考虑了多语混杂音频样本对应的标注文本中的词语顺序对模型参数的影响,在此情况下,步骤S103则为根据初始化字符或标注文本中的词语得到词向量,并将词向量作为第三向量。具体应用中,耦合模型中循环神经网络架构可以是基于长短期记忆的网络、基于门控循环单元的网络等本领域已知的各种网络。
图2是本申请实施例中一个耦合模型的结构示意图,如图2所示,在申请实施例一个应用中,耦合模型可以包括前处理模块01和融合处理模块02。前处理模块01是首先对第三向量进行非线性处理的模块,而生成第四向量的模块,融合处理模块02是用于对第一向量、第二向量和第四向量进行非线性融合的模块。
基于图2中的耦合模型的架构,步骤S105可以包括步骤S1051-S1054。
S1051:采用前处理模块对第三向量进行非线性变换,生成第四向量。
S1052:采用融合处理模块对第一向量、第二向量和第四向量进行非线性融合,生成结果向量。
采用融合处理模块对第一向量、第二向量和第四向量进行非线性融合后,得到的结果向量是一诸如[0.3%,2.4%,……,10.2%,13.0%]等由大量预测概率得到的向量,其中结果向量的维度根据多语混杂音频文本库中的词语数量确定。
S1053:根据标注文本中的词语得到判别向量。
根据标注文本的词语得到判别向量,是在对标注文本中的某一词语进行预测时,确定一类似[0,0,……,1,0]的向量,其中1代表为对应的词语的概率为100%,0代表为对应的词语的概率为0%,1的位置根据词语中根据预先设定的规则确定,判别向量的维度根据多语混合音频包含的词语库的词语数量确定。
S1054:根据结果向量和判别向量,对前处理模块和融合处理模块中的参数进行训练。
根据结果向量和判别向量,对前处理模型和融合处理模型中的参数进行训练,是根据结果向量和判别向量的差值,采用误差反向传播算法对前处理模块和融合处理模块中的各个网络的参数进行不断的调整的过程。
在本申请实施例的一个具体应用中,前处理模块01是包含采用注意力机制网络的和前向网络的模块。前处理模块01中可能包括多个处理层,每个处理层均包括多头注意力机制网络(Multi-head self-attention mechanism network)和全连接前向网络(fully connected feed-forward network);每个注意力机制网络均包括WQ矩阵、多个Wk矩阵和多个Wv矩阵,每个注意力机制网络采用Q矩阵、K矩阵和前一处理层的输出向量进行矩阵运算得到Q向量、K向量和V向量,采用
Figure 48779DEST_PATH_IMAGE001
得到对应的输出向量,随后将各个输出向量进行连接得到拼接向量,并采用拼接后的向量和权重矩阵W0运算得到此处理层的输出向量;在最后一层得到的输出向量输入前向网络后,即可以得到第四向量。
如图2所示,本申请实施例的一个应用中,融合处理模块02包括第一融合子模块021、第二融合子模块022和再融合子模块。
其中,第一融合子模块021用于对第一向量和第四向量进行非线性处理,生成第五项量;第二融合子模块022用于对第二向量和第四向量进行非线性融合,生成第六向量;再融合子模块用于对第五向量和第六向量进行非线性融合,得到结果向量。
在本申请实施例的具体应用中,第一融合子模块021和第二融合子模块022可以均采用注意力机制网络011的模块。
具体应用中,第一融合子模块021可以根据第一向量得到对应的K向量和V向量,随后将前处理模块01输出的第四向量作为Q向量,采用
Figure 147972DEST_PATH_IMAGE002
运算生成第五向量。
类似地,第二融合子模块022可以根据第二向量得到对应的K向量和V向量,随后将前处理模块01输出的第四向量作为Q向量,采用
Figure 501593DEST_PATH_IMAGE003
运算生成第六向量。
具体应用中,再融合子模块可以包括用于实现第五向量和第六向量拼接的拼接融合子模块、前向网络012和softmax分类器;第一融合子模块021和第二融合子模块022生成的第五向量和第六向量被输入到再融合子模块后,再融合子模块对第五向量和第六向量进行拼接融合(还可能包括归一化处理)后,输入到前向网络012处理生成中间向量,并将中间向量输入到softmax分类器而得到结果向量。
在前述实施例介绍中,本申请实施例中的耦合模型中的融合处理模块02被设置成了包括第一融合子模块021、第二融合子模块022和再融合子模块,在本申请实施例的其他应用中,融合处理模块02也可以被设置成为其他架构,例如采用一个处理网络直接实现第一向量、第二向量和第三向量非线性融合的架构。
在本申请实施例中,耦合模型中的前处理模块01、融合处理模块02均是采用了多头注意力机制网络011架构,而没有采用循环神经网络架构,因此输入的第三向量应当采用步骤1031-S1032生成。
在本申请实施例的其他应用中,耦合模型也可以采用循环神经网络的架构,并通过架构设计使得第一向量、第二向量和第三向量实现非线性融合。
基于前述实施例提供的音频识别模型的训练方法,本申请实施例还提供一种音频识别模型中耦合模型的训练方法。图3是本申请实施例提供的耦合模型的训练方法流程图。如图3所示,耦合模型的构建方法包括步骤S201-S204。
S201:采用音频-音标转换模型中的第一网络模块处理多语混杂音频样本,得到第一向量。
本申请实施例中,音频-音标转换模型是用于对音频进行处理,识别音频中的各个时刻对应的发音音标的转换模型,音频-音标转换模型是采用至少两种单一语种的音频-音标样本对第一初始化模型进行训练得到。
音频-音标转换模型中包括第一网络模块,第一网络模块在对多语混合音频样本进行处理后,可以得到表征多语混杂音频样本内容特性的第一向量。
步骤S201具体实施中,可以首先对多语混杂音频样本进行声学特征提取,以获得表征多语混杂音频样本中各采样音频帧的声学特征向量,随后按照音频帧的排列顺序组合声学特征向量,得到表征多语混杂音频样本声学特性的声学特征矩阵;最后,将声学特征矩阵输入到音频-音标转换模型中的第一网络模块中,经过第一网络模块处理而得到第一向量。
S202:采用音标-文本转换模型中的第二网络模块处理多语混杂音频样本对应的标注音标,得到第二向量。
音标-文本转换模型是用于对标准音标进行处理,识别音标对应的文本的转换模型,其采用各个单一语种的音标-标注文本训练第二初始化模型得到。
步骤S202中得到的第二向量是表征音标内容的向量。具体应用中,音标-文本转换模型可以先采用单一语种的音标-标注文本对第二初始化模型进行训练,得到音标-文本转换模型的参数;再采用多语混杂音频样本对应的标注音标和标注文本,对音标-文本转换模型的参数进行再训练,得到最终用于步骤S202的音标-文本转换模型
S203:根据初始化字符或标准文本中的词语,得到第三向量。
本申请实施例中构建的耦合模型是一种采用自回归编码方式的模型,因此需要利用初始化字符或者多语混在音频样本对应的标注文本中的词语,生成对应的第三向量。
具体应用中,在对多语混杂音频样本对应的标注文本中的第一个词语进行预测时,需要利用初始化字符生成第三向量;而在对多语混杂音频样本对应的标注文本中的其他词语进行预测时,需要采用在前的词语生成对应的第三向量。
本申请实施例具体应用中,初始化字符可以采用BOS字符。
在本申请实施例的一些应用中,耦合模型可以是没有考虑多语混杂音频样本对应的标注文本中的词语顺序的模型,在此情况下,步骤S203可以包括步骤S2031和S2032.
S2031:根据初始化字符或者标注文本中的词语得到词向量,以及,根据词语在标注文本中的位置得到位置向量。
步骤S2031中,可以采用神经网络模型训练、单词共生矩阵降维、可解释知识库等方法获取各个词语对应的词向量;可以采用预设的位置编码规则得到各个词语的位置向量,或者采用数据学习的方法得到获取各个词语的位置向量。
S2032:根据词向量和位置向量,得到第三向量。
步骤S2032中,根据词向量和位置向量得到第三向量的过程,是将词向量和位置向量进行拼接而得到第三向量的过程。
在本申请实施例的其他应用中,耦合模型本身是包括循环神经网络架构的模型,在耦合模型训练过程中即考虑多语混杂音频样本对应的标注文本中的词语顺序对模型参数的影响,在此情况下,步骤S203则为根据初始化字符或多语混杂音频对应的文本中的词语得到词向量,并将词向量作为第三向量。具体应用中,耦合模型中循环神经网络架构可以是基于长短期记忆的网络、基于门控循环单元的网络等本领域已知的各种网络。
S204:采用第一向量、第二向量、第三向量和标注文本中的词语对耦合模型进行训练。
采用第一向量、第二向量、第三向量和标注文本中的词语对初始化模型进行训练,得到耦合模型的过程,是调整各个参数直至初始化耦合模型的输出满足特定的精度判定条件。
本申请实施例提供的训练方法,基于少量的多语混合音频和对应的音标和文本,就可以建立起能够将音频-音标转换模型和音标-文本转换模型输出的第一向量和第二向量进行关联,而实现多语混杂音频识别的耦合模型。
如前文实施例提供的多语混杂音频识别模型的训练方法,本申请实施例提供的耦合模型可以包括前处理模块和融合处理模块。在此情况下,步骤S204可以包括S2041-S2044。
S2041:采用前处理模块对第三向量进行非线性变换,生成第四向量。
S2042:采用融合处理模块对第一向量、第二向量和第四向量进行非线性融合,生成结果向量。
采用融合处理模块对第一向量、第二向量和第四向量进行非线性融合后,得到的结果向量是一诸如[0.3%,2.4%,……,10.2%,13.0%]等由大量预测概率得到的向量,其中结果向量的维度根据多语混杂音频文本库中的词语数量确定。
S2043:根据标注文本中的词语得到判别向量。
根据标注文本的词语得到判别向量,是在对标注文本中的某一词语进行预测时,确定一类似 [0,0,……,1,0]的向量,其中1代表为对应的词语的概率为100%,0代表为对应的词语的概率为0%, 1的位置根据词语中根据预先设定的规则确定,判别向量的维度根据多语混合音频包含的词语库的词语数量确定。
S2044:根据结果向量和判别向量,对前处理模块和融合处理模块中的参数进行训练。
根据结果向量和判别向量,对前处理模型和融合处理模型中的参数进行训练,是根据结果向量和判别向量的差值,采用误差反向传播算法对前处理模块和融合处理模块中的各个网络的参数进行不断的调整的过程。
本申请实施例中,在本申请实施例的一个具体应用中,前处理模块是包含采用注意力机制网络和前向网络的模块。前处理模块中可能包括多个处理层,每个处理层均包括多头注意力机制网络(Multi-head self-attention mechanism network)和全连接前向网络(fully connected feed-forward network)。
本申请实施例的一个应用中,融合处理模块包括第一融合子模块、第二融合子模块和再融合子模块。
其中,第一融合子模块用于对第一向量和第四向量进行非线性处理,生成第五项量;第二融合子模块用于对第二向量和第四向量进行非线性融合,生成第六向量;再融合子模块用于对第五向量和第六向量进行非线性融合,得到结果向量。
在本申请实施例的具体应用中,第一融合子模块和第二融合子模块可以均采用注意力机制网络的模块。
具体应用中,再融合子模块可以包括用于实现第五向量和第六向量拼接的拼接融合子模块、前向网络和softmax分类器;第一融合子模块和第二融合子模块生成的第五向量和第六向量被输入到再融合子模块后,再融合子模块对第五向量和第六向量进行拼接融合(还可能包括归一化处理)后,输入到前向网络处理生成中间向量,并将中间向量输入到softmax分类器而得到结果向量。
在前述实施例介绍中,本申请实施例中的耦合模型中的融合处理模块被设置成了包括第一融合子模块、第二融合子模块和再融合子模块,在本申请实施例的其他应用中,融合处理模块也可以被设置成为其他架构,例如采用一个处理网络直接实现第一向量、第二向量和第三向量非线性融合的架构。
本申请实施例还提供一种多语混杂音频的识别方法。图4是本申请实施例提供的多语混杂音频的识别方法流程图。如图4所示,本申请实施例提供的多语混杂音频识别方法包括步骤S301-S304。应当注意的是,本申请实施例中的多语混杂音频的识别方法采用了前文音频识别模型训练方法得到的音频识别模型。
S301:采用音频-音标转换模型处理目标多语混杂音频,得到转换音标;以及,采用音频-音标转换模型中的第一网络模块,处理目标多语混杂音频,得到第一编码向量。
S302:采用音频-文本转换模型中的第二网络模块处理转换音标,得到第二编码向量。
S303:根据初始化字符或耦合模型已输出识别文本中的词语,得到第三向量。
本申请实施例中构建的耦合模型是一种采用自回归编码方式的模型,因此需要利用初始化字符或者根据在前的已输出识别文本,生成对应的第三向量。
具体的,步骤S302包括如下情况:(1)在还未得到输出识别文本的情况下,根据初始化字符,得到第三编码向量;(2)在得到输出识别文本的情况下,根据输出识别文本中的最新词语,得到第三编码向量。
本申请实施例中,在耦合模型是没有考虑考虑多语混杂音频样本对应的标注文本中的词语顺序的模型的情况下(例如是采用循环神经网络架构的模型的情况下),步骤S303包括步骤S3031-S3032。
S3031:根据初始化字符或已输出识别文本词语,得到词编码向量;根据初始化字符或已输出文本中词语的位置得到位置向量。
步骤S3031中,可以采用前文建立模型时步骤S1031中采用的方法获取词向量,以及采用步骤S1031中采用的方法确定初始化字符和已输出文本的位置得到位置向量;其中已输出文本中的词语可以是已输出文本中的最新词语。
S3032:根据词编码向量和位置编码向量,得到第三编码向量。
根据词编码向量和位置编码向量得到第三向量的过程,是将词向量和位置向量进行拼接,而得到第三编码向量。
在本申请实施中,在耦合模型是采用循环神经网络架构的模型的情况下,可以直接根据初始化字符和/或已输出文本中的词语得到词编码向量,直接采用此向量作为第三向量。
S304:采用第一编码向量、第二编码向量、第三编码向量输入到耦合模型,得到输出识别文本。
基于前述的方法实施例的发明构思,本申请实施例还提供一种音频识别模型的训练装置。
图5是本申请实施例提供的音频识别模型的训练装置的结构示意图。如图5所示,训练装置包括第一训练单元11、第二训练单元12、向量获取单元13和第三训练单元14。
第一训练单元11用于采用至少两个语种的音频-音标样本训练得到音频识别模型中的音频-音标转换模型;音频-音标转换模型包括第一网络模块。
第二训练单元12用于采用各个语种的音标-文本样本训练得到音频识别模型的音标-文本转换模型;音标-文本转换模型包括第二网络模块。
向量获取单元13用于采集多语混杂音频样本,并采用第一网络模块处理多语混杂音频样本,得到第一向量;采用第二网络模块处理多语混杂音频样本对应的标注音标,得到第二向量;以及,根据初始化字符或多语混杂音频样本对应的标注文本中的词语,得到第三向量。
第三训练单元14用于采用第一向量、第二向量、第三向量和标注文本中的词语,对音频识别模型的耦合模型进行训练。
在本申请实施例的一个具体应用中,向量获取单元13包括向量获取子单元和向量组合子单元。
向量获取子单元用于根据初始化字符或标注文本中的词语得到词向量;以及,根据初始化字符或标注文本中词语的位置得到位置向量。
向量组合子单元用于根据词向量和位置向量,得到第三向量。
在本申请实施例的一个应用中,耦合模型包括前处理模块和融合处理模块。
前文中,对音频识别模型的耦合模型进行训练,包括:采用前处理模块对第三向量进行非线性变换,生成第四向量;采用融合模块对第一向量、第二向量和第四向量进行非线性融合,生成结果向量;根据多语混杂音频样本对应的标注文本得到判别向量;根据结果向量和判别向量,对前处理模块和融合处理模块中的参数进行训练。
在本申请实施例一个具体应用中,融合模块包括第一融合子模块、第二融合子模块和再融合子模块;采用融合模块对第一向量、第二向量和第四向量进行非线性融合,生成结果向量,包括:采用第一融合子模块对第一向量和第四向量进行非线性融合,生成第五向量;采用第二融合子模块对第二向量和第四向量进行非线性融合,生成第六向量;采用再融合子模块对第五向量和第六向量进行非线性融合,生成结果向量。
本申请实施例中,在耦合模型采用循环神经网络架构的模型。对应的,向量获取单元13根据初始化字符或标注文本中的词语得到词向量,采用词向量作为第三向量。
本申请实施例中,第一训练单元11包括声学特征提取子单元和第一模型训练子单元;声学特征提取子单元,用于对各个语种的音频进行声学特征提取,得到声学特征矩阵;第一模型训练子单元用于采用声学特征矩阵和对应的标注音标,训练得到音频-音标转换模型。
在本申请实施例中,第二训练单元12包括临时模型训练子单元和再训练子单元。临时模型训练子单元,用于采用各个语种的音标-文本样本对音标-文本转换模型进行训练,得到音标-文本转换模型的临时参数;再训练子单元,用于采用多语混杂音频样本对应的标注音标和标注文本,基于临时参数对音频-文本转换模型进行再训练。
基于前述的多语混杂音频的识别方法的发明构思,本申请提供一种音频识别装置。图6是本申请实施例提供的音频识别装置的结构示意图。如图6所示,识别装置包括第一处理单元21、第二处理单元22、第三处理单元23和结果获取单元24。
第一处理单元21用于采用音频-音标转换模型处理目标多语混杂音频,得到转换音标;以及采用音频-音标转换模型中的第一网络模块,处理目标多语混杂音频,得到第一编码向量。
第二处理单元22用于采用音标-文本转换模型中的第二网络模块处理转换音标,得到第二编码向量。
第三处理单元23用于根据初始化字符或已输出识别文本中的词语,得到第三编码向量。
结果获取单元24用于采用第一编码向量、第二编码向量和第三编码向量输入到耦合模型,得到输出识别文本。
基于前文的用于音频识别模型的耦合模型的训练方法,本申请提供一种耦合模型的训练装置。图7是本申请实施例提供的耦合模型训练装置的结构示意图;如图7所示,耦合模型训练装置包括第一获取单元31、第二获取单元32、第三获取单元33和耦合模型训练单元34。
第一获取单元31用于采用音频-音标转换模型中的第一网络模块处理多语混杂音频样本,得到第一向量;音频-音标转换模型由至少两个单一语种的音频-音标样本训练得到;第二获取单元32用于采用音标-文本转换模型中的第二网络模块处理多语混杂音频样本对应的标注音标,得到第二向量;音标-文本转换模型由各个单一语种的音标-文本样本训练得到;第三获取单元33用于根据初始化字符或多语混杂音频样本对应的标注文本中的词语,得到第三向量;耦合模型训练单元34用于采用第一向量、第二向量、第三向量和标注文本中的词语,对耦合模型进行训练。
基于前述的发明构思,本申请还提供一种电子设备。图8是本申请实施例提供的电子设备的结构示意图。如图8所示,第一服务器包括至少一个处理器41、至少一个存储器42和至少一个通信接口43。通信接口43,用于与外部设备之间的信息传输。
第一服务器中的各个组件通过总线系统44耦合在一起。可理解地,总线系统44用于实现这些组件之间的连接通信。总线系统44除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图8中将各种总线都标为总线系统44。
可以理解,本实施例中的存储器42可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。在一些实施方式中,存储器42存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础任务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用任务。实现本公开实施例提供的音频识别模型的训练方法、音频识别方法或者耦合模型训练方法的程序可以包含在应用程序中。
在本公开实施例中,处理器41通过调用存储器42存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器41用于执行本公开实施例提供的音频识别模型的训练方法、音频识别方法或者耦合模型训练方法的各个步骤。
本公开实施例提供的音频识别模型的训练方法、音频识别方法或者耦合模型训练方法可以应用于处理器41中,或者由处理器41实现。处理器41可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircu it,ASIC)、现成可编程门阵列(FieldProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本公开实施例提供的音频识别模型的训练方法、音频识别方法或者耦合模型训练方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器42,处理器41读取存储器42中的信息,结合其硬件完成方法的步骤。
本公开实施例还提出一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储程序或指令,程序或指令使计算机执行音频识别模型的训练方法、音频识别方法或者耦合模型训练方法的步骤各实施例的步骤,为避免重复描述,在此不再赘述。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (23)

1.一种音频识别模型的训练方法,其特征在于,包括:
采用至少两个语种的音频-音标样本训练得到所述音频识别模型中的音频-音标转换模型;所述音频-音标转换模型包括第一网络模块;
采用各个所述语种的音标-文本样本训练得到音频识别模型的音标-文本转换模型;所述音标-文本转换模型包括第二网络模块;
采集多语混杂音频样本,并采用所述第一网络模块处理所述多语混杂音频样本,得到第一向量;
采用所述第二网络模块处理所述多语混杂音频样本对应的标注音标,得到第二向量;
根据初始化字符或所述多语混杂音频样本对应的标注文本中的词语,得到第三向量;
采用耦合模型对所述第一向量、所述第二向量、所述第三向量进行非线性融合,生成结果向量;以及,采用所述结果向量和所述标注文本中的词语,对所述耦合模型中的参数进行训练。
2.根据权利要求1所述音频识别模型的训练方法,其特征在于,根据初始化字符或所述多语混杂音频样本对应的标注文本中的词语,得到第三向量,包括:
根据所述初始化字符或所述标注文本中的词语得到词向量;以及,根据所述初始化字符或所述标注文本中词语的位置得到位置向量;
根据所述词向量和所述位置向量,得到所述第三向量。
3.根据权利要求1所述音频识别模型的训练方法,其特征在于,根据初始化字符或所述多语混杂音频样本对应的标注文本中的词语,得到第三向量,包括:
根据初始化字符或所述标注文本中的词语得到词向量;
根据所述词向量得到所述第三向量。
4.根据权利要求1-3任一项所述音频识别模型的训练方法,其特征在于,所述耦合模型包括前处理模块和融合模块;
采用耦合模型对所述第一向量、所述第二向量、所述第三向量进行非线性融合,生成结果向量;以及采用所述结果向量和所述标注文本中的词语,对所述耦合模型中的参数进行训练,包括:
采用所述前处理模块对第三向量进行非线性变换,生成第四向量;
采用所述融合模块对所述第一向量、所述第二向量和所述第四向量进行非线性融合,生成所述结果向量;
根据所述标注文本中的词语得到判别向量;
根据所述结果向量和所述判别向量,对所述前处理模块和所述融合模块中的参数进行训练。
5.根据权利要求4所述音频识别模型的训练方法,其特征在于,所述融合模块包括第一融合子模块、第二融合子模块和再融合子模块;
采用所述融合模块对所述第一向量、所述第二向量和所述第四向量进行非线性融合,生成所述结果向量,包括:
采用所述第一融合子模块对所述第一向量和所述第四向量进行非线性融合,生成第五向量;
采用所述第二融合子模块对所述第二向量和所述第四向量进行非线性融合,生成第六向量;
采用再融合子模块对所述第五向量和所述第六向量进行非线性融合,生成所述结果向量。
6.根据权利要求5所述音频识别模型的训练方法,其特征在于,
所述前处理模块、所述第一融合子模块和所述第二融合子模块均包括采用多头注意力机制的子网络。
7.根据权利要求1-3任一项所述音频识别模型的训练方法,其特征在于,采用至少两个语种的音频-音标样本训练得到音频识别模型的音频-音标转换模型;包括:
对各个所述语种的音频进行声学特征提取,得到声学特征矩阵;
采用所述声学特征矩阵和对应的标注音标,训练得到所述音频-音标转换模型。
8.根据权利要求1-3任一项所述音频识别模型的训练方法,其特征在于,
采用各个所述语种的音标-文本样本训练得到音频识别模型的音标-文本转换模型,包括:
采用各个所述语种的音标-文本样本对所述音标-文本转换模型进行训练,得到所述音标-文本转换模型的临时参数;
所述方法还包括:采用所述多语混杂音频样本对应的标注音标和标注文本,基于所述临时参数对所述音频-文本转换模型进行再训练。
9.一种音频识别模型中的耦合模型训练方法,其特征在于,包括:
采用音频-音标转换模型中的第一网络模块处理多语混杂音频样本,得到第一向量;所述音频-音标转换模型由至少两个单一语种的音频-音标样本训练得到;
采用音标-文本转换模型中的第二网络模块处理所述多语混杂音频样本对应的标注音标,得到第二向量;所述音标-文本转换模型由各个所述单一语种的音标-文本样本训练得到;
根据初始化字符或多语混杂音频样本对应的标注文本中的词语,得到第三向量;
采用耦合模型对所述第一向量、所述第二向量、所述第三向量进行非线性融合,生成结果向量;以及,采用所述结果向量和所述标注文本中的词语,对所述耦合模型中的参数进行训练。
10.一种音频识别方法,其特征在于,采用如权利要求1-8任一项音频识别模型的训练方法得到的所述音频识别模型,包括:
采用所述音频-音标转换模型处理目标多语混杂音频,得到转换音标;以及采用所述音频-音标转换模型中的第一网络模块,处理所述目标多语混杂音频,得到第一编码向量;
采用所述音标-文本转换模型中的第二网络模块处理所述转换音标,得到第二编码向量;
根据初始化字符或已输出识别文本中的词语,得到第三编码向量;
采用所述第一编码向量、所述第二编码向量和所述第三编码向量输入到所述耦合模型,得到输出识别文本。
11.根据权利要求10所述的音频识别方法,其特征在于,
在未输出识别文本的情况下,所述根据初始化字符或已输出识别文本中的词语,得到第三编码向量,包括:根据所述初始化字符,得到所述第三编码向量;
在已输出识别文本的情况下,所述根据初始化字符或已输出识别文本中的词语,得到第三编码向量,包括:根据耦合模型输出的识别文本中的最新词语,得到所述第三编码向量。
12.根据权利要求11所述音频识别方法,其特征在于,
根据初始化字符或已输出识别文本中的词语,得到第三编码向量,包括:
根据所述初始化字符或所述已输出识别文本中的词语,得到词编码向量;
根据所述初始化字符或所述已输出识别文本中词语的位置,得到位置编码向量;
根据所述词编码向量和所述位置编码向量,得到所述第三编码向量。
13.根据权利要求11所述音频识别方法,其特征在于,
根据初始化字符或已输出识别文本中的词语,得到第三编码向量,包括:
根据所述初始化字符或所述已输出识别文本中的词语,得到词编码向量;
采用所述词编码向量,得到所述第三编码向量。
14.一种音频识别模型的训练装置,其特征在于,包括:
第一训练单元,用于采用至少两个语种的音频-音标样本训练得到所述音频识别模型中的音频-音标转换模型;所述音频-音标转换模型包括第一网络模块;
第二训练单元,用于采用各个所述语种的音标-文本样本训练得到音频识别模型的音标-文本转换模型;所述音标-文本转换模型包括第二网络模块;
向量获取单元,用于采集多语混杂音频样本,并采用所述第一网络模块处理所述多语混杂音频样本,得到第一向量;采用所述第二网络模块处理所述多语混杂音频样本对应的标注音标,得到第二向量;以及,根据初始化字符或所述多语混杂音频样本对应的标注文本中的词语,得到第三向量;
第三训练单元,用于采用耦合模型对所述第一向量、所述第二向量、所述第三向量进行非线性融合,生成结果向量;以及,采用所述结果向量和所述标注文本中的词语,对所述耦合模型中的参数进行训练。
15.根据权利要求14所述音频识别模型的训练装置,其特征在于,所述向量获取单元包括:
向量获取子单元,用于根据所述初始化字符或所述标注文本中的词语得到词向量;以及,根据所述初始化字符或所述标注文本中词语的位置得到位置向量;
向量组合子单元,用于根据所述词向量和所述位置向量,得到所述第三向量。
16.根据权利要求15所述音频识别模型的训练装置,其特征在于,所述耦合模型包括前处理模块和融合模块;
所述采用耦合模型对所述第一向量、所述第二向量、所述第三向量进行非线性融合,生成结果向量;以及,采用所述结果向量和所述标注文本中的词语,对所述耦合模型中的参数进行训练,包括:
采用所述前处理模块对第三向量进行非线性变换,生成第四向量;
采用所述融合模块对所述第一向量、所述第二向量和所述第四向量进行非线性融合,生成所述结果向量;
根据所述多语混杂音频样本对应的标注文本得到判别向量;
根据所述结果向量和所述判别向量,对所述前处理模块和所述融合模块中的参数进行训练。
17.根据权利要求16所述音频识别模型的训练装置,其特征在于,所述融合模块包括第一融合子模块、第二融合子模块和再融合子模块;
采用所述融合模块对所述第一向量、所述第二向量和所述第四向量进行非线性融合,生成所述结果向量,包括:
采用所述第一融合子模块对所述第一向量和所述第四向量进行非线性融合,生成第五向量;
采用所述第二融合子模块对所述第二向量和所述第四向量进行非线性融合,生成第六向量;
采用再融合子模块对所述第五向量和所述第六向量进行非线性融合,生成所述结果向量。
18.根据权利要求14-17任一项所述音频识别模型的训练装置,其特征在于,所述第一训练单元包括:
声学特征提取子单元,用于对各个所述语种的音频进行声学特征提取,得到声学特征矩阵;
第一模型训练子单元,用于采用所述声学特征矩阵和对应的标注音标,训练得到所述音频-音标转换模型。
19.根据权利要求12-16任一项所述音频识别模型的训练装置,其特征在于,第二训练单元包括:
临时模型训练子单元,用于采用各个所述语种的音标-文本样本对所述音标-文本转换模型进行训练,得到所述音标-文本转换模型的临时参数;
再训练子单元,用于采用所述多语混杂音频样本对应的标注音标和标注文本,基于所述临时参数对所述音频-文本转换模型进行再训练。
20.一种音频识别模型中的耦合模型训练装置,其特征在于,包括:
第一获取单元,采用音频-音标转换模型中的第一网络模块处理多语混杂音频样本,得到第一向量;所述音频-音标转换模型由至少两个单一语种的音频-音标样本训练得到;
第二获取单元,采用音标-文本转换模型中的第二网络模块处理所述多语混杂音频样本对应的标注音标,得到第二向量;所述音标-文本转换模型由各个所述单一语种的音标-文本样本训练得到;以及,根据初始化字符或多语混杂音频样本对应的标注文本中的词语,得到第三向量;
耦合模型训练单元,用于采用耦合模型对所述第一向量、所述第二向量、所述第三向量进行非线性融合,生成结果向量;以及,采用所述结果向量和所述标注文本中的词语,对所述耦合模型中的参数进行训练。
21.一种音频识别装置,采用如权利要求1-8任一项音频识别模型的训练方法得到的所述音频识别模型,其特征在于,包括:
第一处理单元,用于采用所述音频-音标转换模型处理目标多语混杂音频,得到转换音标;以及采用所述音频-音标转换模型中的第一网络模块,处理所述目标多语混杂音频,得到第一编码向量;
第二处理单元,用于采用所述音标-文本转换模型中的第二网络模块处理所述转换音标,得到第二编码向量;
第三处理单元,用于根据初始化字符或已输出识别文本中的词语,得到第三编码向量;
结果获取单元,采用所述第一编码向量、所述第二编码向量和所述第三编码向量输入到所述耦合模型,得到输出识别文本。
22.一种电子设备,其特征在于,包括处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至13任一项所述方法的步骤。
23.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至13任一项所述方法的步骤。
CN202110278612.7A 2021-03-16 2021-03-16 音频识别模型的训练方法、装置和音频识别方法、装置 Active CN112668704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110278612.7A CN112668704B (zh) 2021-03-16 2021-03-16 音频识别模型的训练方法、装置和音频识别方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110278612.7A CN112668704B (zh) 2021-03-16 2021-03-16 音频识别模型的训练方法、装置和音频识别方法、装置

Publications (2)

Publication Number Publication Date
CN112668704A CN112668704A (zh) 2021-04-16
CN112668704B true CN112668704B (zh) 2021-06-29

Family

ID=75399463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110278612.7A Active CN112668704B (zh) 2021-03-16 2021-03-16 音频识别模型的训练方法、装置和音频识别方法、装置

Country Status (1)

Country Link
CN (1) CN112668704B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077781B (zh) * 2021-06-04 2021-09-07 北京世纪好未来教育科技有限公司 语音识别方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108711420B (zh) * 2017-04-10 2021-07-09 北京猎户星空科技有限公司 多语言混杂模型建立、数据获取方法及装置、电子设备
CN110797016B (zh) * 2019-02-26 2020-12-29 北京嘀嘀无限科技发展有限公司 一种语音识别方法、装置、电子设备及存储介质
WO2020242662A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning
CN112397051B (zh) * 2019-08-16 2024-02-02 武汉Tcl集团工业研究院有限公司 语音识别方法、装置及终端设备
CN111862942B (zh) * 2020-07-28 2022-05-06 思必驰科技股份有限公司 普通话和四川话的混合语音识别模型的训练方法及系统
CN112270917A (zh) * 2020-10-20 2021-01-26 网易(杭州)网络有限公司 一种语音合成方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN112668704A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN111627418B (zh) 语音合成模型的训练方法、合成方法、系统、设备和介质
CN108711420B (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
CN112037766B (zh) 一种语音音色转换方法及相关设备
CN111402861B (zh) 一种语音识别方法、装置、设备及存储介质
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN113284485B (zh) 统一中英混合文本生成和语音识别的端到端系统
CN110211562B (zh) 一种语音合成的方法、电子设备及可读存储介质
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN112786018B (zh) 语音转换及相关模型的训练方法、电子设备和存储装置
CN112420050B (zh) 一种语音识别方法、装置和电子设备
WO2022121179A1 (zh) 语音合成方法、装置、设备及存储介质
CN112397051A (zh) 语音识别方法、装置及终端设备
CN112562640A (zh) 多语言语音识别方法、装置、系统及计算机可读存储介质
CN112668704B (zh) 音频识别模型的训练方法、装置和音频识别方法、装置
CN114944149A (zh) 语音识别方法、语音识别设备及计算机可读存储介质
CN116778967B (zh) 基于预训练模型的多模态情感识别方法及装置
CN116312617A (zh) 语音转换方法、装置、电子设备及存储介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN113327587A (zh) 特定场景下语音识别的方法、装置、电子设备和存储介质
CN114611529A (zh) 意图识别方法和装置、电子设备及存储介质
CN113283218A (zh) 一种语义文本压缩方法及计算机设备
CN113470617A (zh) 语音识别方法以及电子设备、存储装置
CN113823259A (zh) 将文本数据转换为音素序列的方法及设备
CN113314108A (zh) 语音数据的处理方法、装置、设备、存储介质和程序产品
CN113392645B (zh) 一种韵律短语边界预测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant