CN114267334A

CN114267334A - 语音识别模型训练方法及语音识别方法

Info

Publication number: CN114267334A
Application number: CN202111635600.1A
Authority: CN
Inventors: 谭天
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-01

Abstract

本发明公开一种语音识别模型训练方法，提取训练语音的声学特征；对所述声学特征处理得到所述训练语音的口音表示；基于所述声学特征和所述口音表示训练语音识别模型。在训练过程中不仅考虑了待识别语音的声学特征，同时还兼顾了待识别语音中所携带口音的口音表示，从而使得训练得到的语音识别模型能够准确的实现对带口音语音的识别。

Description

语音识别模型训练方法及语音识别方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音识别模型训练方法、语音识别方法、电子设备及存储介质。

背景技术

随着人工智能技术的发展，语音识别技术已经越来越多的应用在各种场景当中。例如，语音助理、对话机器人、智能音箱等。当下主流的语音识别的技术，主要针对声学环境中的噪声进行处理，比如智能音箱，车载控制都通过信号处理的方式来降噪。但是，都缺少对带口音音频的处理，特别是长语音场景。

发明内容

本发明实施例提供一种语音识别模型训练方法、语音识别方法、电子设备及存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音识别模型训练方法，包括：

提取训练语音的声学特征；

对所述声学特征处理得到所述训练语音的口音表示；

基于所述声学特征和所述口音表示训练语音识别模型。

在一些实施例中，所述语音识别模型训练方法还包括：预先获取训练语音样本集，所述训练语音样本集包括多条训练语音。

在一些实施例中，所述训练语音样本集包括初始训练样本集和合成带口音训练样本集；

所述预先获取训练语音样本集，包括：

基于初始训练样本集训练通用语音合成模型，所述初始训练样本集中包括带口音训练样本子集和无口音训练样本子集；

基于所述带口音训练样本子集对所述通用语音合成模型进行调整以得到对应于多种口音的多个带口音语音合成模型；

采用所述带口音语音合成模型合成新的合成带口音训练样本集。

在一些实施例中，所述语音识别模型训练方法还包括：对所述初始训练样本集和所述合成带口音训练样本集进行增强处理以形成所述训练语音样本集。

在一些实施例中，所述语音识别模型包括口音自适应模块、编码器和解码器；

所述基于所述声学特征和所述口音表示训练语音识别模型，包括：

将所述声学特征和所述口音表示输入至所述口音自适应模块，以基于所述口音表示对所述声学特征进行自适应处理；

基于自适应处理后的所述声学特征和对应于所述训练音频的训练文本对所述编码器和所述解码器进行多任务联合训练。

在一些实施例中，基于自适应处理后的所述声学特征和对应于所述训练音频的训练文本对所述编码器和所述解码器进行多任务联合训练，包括：

将自适应处理后的所述声学特征输入至所述编码器，并基于CTC准则进行优化训练；

将所述编码器的输出和对应于所述训练音频的训练文本输入至所述解码器，并基于CE准则进行优化训练。

在一些实施例中，所述提取训练语音的声学特征，包括：采用预先训练的音素特征提取模块提取训练语音的声学特征；

所述对所述声学特征处理得到所述训练语音的口音表示，包括：采用预先训练的口音特征提取模块对所述声学特征处理得到所述训练语音的口音表示。

第二方面，本发明实施例还提供一种语音识别方法，包括：

提取待识别语音的声学特征；

对所述待识别语音的声学特征进行处理以得到所述待识别语音的口音表示；

将所述待识别语音的声学特征和所述待识别语音的口音表示输入至前述任一实施例所述的语音识别模型进行识别。

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一实施例所述的方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一实施例所述的方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一实施例所述的方法。

本发明实施例的语音识别模型训练方法，提取训练语音的声学特征；对所述声学特征处理得到所述训练语音的口音表示；基于所述声学特征和所述口音表示训练语音识别模型。在训练过程中不仅考虑了待识别语音的声学特征，同时还兼顾了待识别语音中所携带口音的口音表示，从而使得训练得到的语音识别模型能够准确的实现对带口音语音的识别。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音识别模型训练方法的一实施例的流程图；

图2为本发明的语音识别模型训练方法的另一实施例的流程图；

图3为本发明的语音识别模型训练方法的另一实施例的流程图；

图4为本发明的语音识别方法的一实施例的流程图；

图5为本发明的端到端语音识别系统的一实施例的结构示意图；

图6为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本发明的实施例提供一种语音识别模型训练方法，包括：

S110、提取训练语音的声学特征。

示例性地，在步骤S110之前还包括：预先获取训练语音样本集，所述训练语音样本集包括多条训练语音。其中，多条训练语音中包括带口音训练语音和无口音训练语音。

示例性地，所述提取训练语音的声学特征，包括：采用预先训练的音素特征提取模块提取训练语音的声学特征。

S120、对所述声学特征处理得到所述训练语音的口音表示。

示例性地，所述对所述声学特征处理得到所述训练语音的口音表示，包括：采用预先训练的口音特征提取模块对所述声学特征处理得到所述训练语音的口音表示。

S130、基于所述声学特征和所述口音表示训练语音识别模型。

在一些实施例中，所述训练语音样本集包括初始训练样本集和合成带口音训练样本集。如图2所示为本发明的语音识别模型训练方法的另一实施例的流程示意图，该实施例中，所述预先获取训练语音样本集，包括：

S111、基于初始训练样本集训练通用语音合成模型，所述初始训练样本集中包括带口音训练样本子集和无口音训练样本子集；

S112、基于所述带口音训练样本子集对所述通用语音合成模型进行调整以得到对应于多种口音的多个带口音语音合成模型；

S113、采用所述带口音语音合成模型合成新的合成带口音训练样本集。

本实施例中对初始训练样本集进行了扩充，使用基于深度学习的语音合成技术进行数据扩充。主要包括使用已收集的少量带口音音频数据(即，初始训练样本集)训练一个语音合成系统，通过使用该语音合成系统来充分利用额外的文本数据及通用数据，生成更多的更广泛的带口音音频数据。

本实施例中通过对初始训练样本集和所述合成带口音训练样本集进行数据增强，从而使得基于数据增强后的训练样本训练处抗噪能力更强，更具鲁棒性的语音识别模型，有助于提升语音识别的准确性与可靠性。

在一些实施例中，所述语音识别模型包括口音自适应模块、编码器和解码器。如图3所示为本发明的语音识别模型训练方法的另一实施例的流程示意图，该实施例中，所述基于所述声学特征和所述口音表示训练语音识别模型，包括：

S131、将所述声学特征和所述口音表示输入至所述口音自适应模块，以基于所述口音表示对所述声学特征进行自适应处理；

S132、基于自适应处理后的所述声学特征和对应于所述训练音频的训练文本对所述编码器和所述解码器进行多任务联合训练。

示例性地，基于自适应处理后的所述声学特征和对应于所述训练音频的训练文本对所述编码器和所述解码器进行多任务联合训练，包括：

将自适应处理后的所述声学特征输入至所述编码器，并基于CTC准则进行优化训练；将所述编码器的输出和对应于所述训练音频的训练文本输入至所述解码器，并基于CE准则进行优化训练。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一实施例所述的语音识别模型训练方法。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一实施例所述的语音识别模型训练方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一实施例所述的语音识别模型训练方法。

本发明还提供一种语音识别方法。如图4所示为本发明的语音识别方法的一实施例的流程示意图，该实施例包括：

S21、提取待识别语音的声学特征；

S22、对所述待识别语音的声学特征进行处理以得到所述待识别语音的口音表示；

S23、将所述待识别语音的声学特征和所述待识别语音的口音表示输入至前述任一实施例所述的语音识别模型进行识别。

在语音识别过程中不仅考虑了待识别语音的声学特征，同时还兼顾了待识别语音中所携带口音的口音表示，从而本发明的语音识别模型能够准确的实现对带口音语音的识别。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一实施例所述的语音识别方法。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一实施例所述的语音识别方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一实施例所述的语音识别方法。

本发明的语音识别模型训练方法、语音识别方法中所涉及的主要技术包含以下三个方面：

一、提出一种训练数据扩充方法，使用基于深度学习的语音合成技术进行数据扩充。主要包括使用已收集的少量带口音音频数据训练一个语音合成系统，通过使用该语音合成系统来充分利用额外的文本数据及通用数据，生成更多的更广泛的带口音音频数据。

二、提出一种带口音自适应的端到端语音识别模型，该模型包含三个模块：

第一个模块：音素特征提取模块，用于从一句话的声学特征中提取音素后验(PPG，phone posteriorgram)特征；

第二个模块：口音表示提取模块，它通过输入前一个模块提取出的PPG特征，输出该句子的口音表示。

第三个模块：带口音自适应的端到端语音识别系统(即，上文所述的语音识别模型)，输入一句话的声学特征以及上一模块提取的口音表示，通过对声学特征进行口音自适应以取得更好识别性能。

三、提出一套新解码框架通过融合不同深度模型的分数以获取带口音语音识别下的最佳性能。

在一些实施例中，本发明的语音识别模型训练方法的训练过程包括以下步骤：

步骤一：数据分类，将已有的带标注语音数据分为带口音标签的数据和无口音标签的数据两类，分别称为口音数据与通用数据。

步骤二：训练通用合成模型，使用全部的训练数据(包括口音数据与通用数据)一起训练一个通用的深度合成模型。

然后，对于口音数据中的每一种口音，使用对应的口音数据微调该通用的深度合成模型，得到该口音的专用合成模型。假设口音数据中包含N种口音，则该步骤将训练得到N个专用合成模型。

步骤三：使用步骤二训练出的N个专用合成模型扩充数据。

对于训练数据中来自同一说话人的音频，将其按30句聚为1组，每一组视为一批数据。对每批数据计算其声学均值。设训练数据总共聚为L批，每批包含M条文本，对于训练数据中的每个声学均值(总共L个声学均值)以及每条文本，依次使用步骤二训练出的N个专用合成模型生成不同口音的语音数据。这样最多可以将数据扩充至N×L×M倍，这里将通过合成扩充的数据称为合成数据。

步骤四：对原始数据进行传统数据增强，包括：

加噪声，包括但不限于音乐、电视、汽车、人声等；

模拟混响，通过房间模拟器生成不同房间参数下的冲击响应将其添加进原始音频；

调速度，对于不同的句子，随机将其加速或者减速。

将扩充前的数据和合成数据合并在一起，确定数据增强后的音频数据的特征、基于音素的数据对齐。将所述的特征、基于音素的数据对齐以及基于字的标注确定为训练用的输入数据。

提取特征方式为，按照帧长25ms、帧移10ms的窗对音频进行分帧。对于每一帧语音，提取m维FBANK特征。

基于音素的数据对齐:要先准备每条音频每一帧的音素，采用训练混合高斯-隐马尔可夫模型(gmm-hmm)的方法生成。

步骤五：使用步骤四的特征和音素对齐数据训练一个用于音素分类的深度神经网络(即，前文所述的音素特征提取模块)，这里使用帧级别的交叉熵(CE)准则进行训练。完成训练后，输入全部音频数据的特征，得到帧级别的音素后验概率特征(PPG)。

步骤六：对于全部口音数据以及合成数据，使用步骤五提取出的音素后验特征和口音标签，训练用于口音分类的深度神经网络(即，前文所述的口音特征提取模块)。一句话的PPG特征逐帧输入给一个TDNN网络，前向传播出每一帧的隐层表示，然后将每一帧表示取平均得到一句话的口音表示，再通过一个输出层预测当前句子是何种口音。

步骤七：使用步骤四提取的全部数据特征，通过步骤五和步骤六训练出的网络，前向计算出每句话的口音表示。联合使用特征、口音表示以及基于字的标注训练端到端语音识别系统。端到端语音识别系统结构如图5所示。

包含编码器和解码器两个部分。其中编码器输入包含一个自适应模块，对于每句话对应的输入特征以及口音表示，我们会使用口音表示对输入特征进行一个自适应变换。变换方式如公式所展示：

γ(z)＝f(W_γz+b_γ)、β(z)＝g(W_βz+b_β)

其中，z是估计出的口音表示、f＝1+tanh()、g＝tanh()。我们会估计出两个向量，将其作用在输入向量h上：

端到端模型通过多任务的框架进行训练，其中编码器输出帧级别的预测，通过CTC(Connectionist Temporal Classification，连接时序分类)作为损失函数。解码器直接输出字级别的预测，直接和基于字的标注计算CE作为损失函数。

步骤八：最后，对全部的文本数据进行分词、训练基于深度神经网络的词语言模型。

在一些实施例中，本发明的语音识别方法包括以下步骤：

对于一条测试音频，解码的过程如下

步骤一：提取声学特征(FBANK特征)；

步骤二：将声学特征输入音素特征提取模块，前向计算出PPG特征；

步骤三：将PPG特征输入口音特征提取模块，前向计算出口音表示；

步骤四：将声学特征和口音表示输入端到端模型；前向计算出编码器测帧级别的预测(包括解码器分数)、通过n元语言模型解码出分数前20的候选答案。

步骤五：将这20个候选答案的字序列进行分词、得到词序列。随后将词序列输入神经网络语言模型，将字序列输入解码器，计算出神经网络语言分数和解码器分数。将每个候选答案的编码器分数、解码器分数以及神经网络语言模型分数进行插值得到最终分数，对分数排序，选出最高得分的候选作为最终预测结果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图6是本申请另一实施例提供的执行语音识别模型训练方法和/或语音识别方法的电子设备的硬件结构示意图，如图6所示，该设备包括：

一个或多个处理器610以及存储器620，图6中以一个处理器610为例。

执行语音识别模型训练方法和/或语音识别方法的设备还可以包括：输入装置630和输出装置640。

处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器620作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音识别模型训练方法和/或语音识别方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音识别模型训练方法和/或语音识别方法。

存储器620可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别模型训练装置和/或语音识别装置的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器620可选包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至语音识别模型训练装置和/或语音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可接收输入的数字或字符信息，以及产生与语音识别模型训练装置和/或语音识别装置的用户设置以及功能控制有关的信号。输出装置640可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器620中，当被所述一个或者多个处理器610执行时，执行上述任意方法实施例中的语音识别模型训练方法和/或语音识别方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音识别模型训练方法，包括：

提取训练语音的声学特征；

对所述声学特征处理得到所述训练语音的口音表示；

基于所述声学特征和所述口音表示训练语音识别模型。

2.根据权利要求1所述的方法，其特征在于，还包括：预先获取训练语音样本集，所述训练语音样本集包括多条训练语音。

3.根据权利要求2所述的方法，其特征在于，所述训练语音样本集包括初始训练样本集和合成带口音训练样本集；

所述预先获取训练语音样本集，包括：

4.根据权利要求3所述的方法，其特征在于，还包括：对所述初始训练样本集和所述合成带口音训练样本集进行增强处理以形成所述训练语音样本集。

5.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括口音自适应模块、编码器和解码器；

6.根据权利要求5所述的方法，其特征在于，基于自适应处理后的所述声学特征和对应于所述训练音频的训练文本对所述编码器和所述解码器进行多任务联合训练，包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，

所述提取训练语音的声学特征，包括：采用预先训练的音素特征提取模块提取训练语音的声学特征；

8.一种语音识别方法，包括：

提取待识别语音的声学特征；

将所述待识别语音的声学特征和所述待识别语音的口音表示输入至权利要求1-7中任一项所述的语音识别模型进行识别。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任意一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8中任意一项所述方法的步骤。