CN115116443A

CN115116443A - 语音识别模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN115116443A
Application number: CN202110287757.3A
Authority: CN
Inventors: 连荣忠; 陈俊晖; 姜迪; 徐倩; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-09-27

Abstract

本申请提供了一种语音识别模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品；方法包括：获取原始音频样本，所述原始音频样本携带有第一文本标签；对所述原始音频样本进行泛化处理，得到与所述原始音频样本对应的多个携带有所述第一文本标签的音频样本；通过所述声学子模型分别对各所述音频样本进行音素预测，得到对应各所述音频样本的音素序列；通过所述转换子模型分别对各所述音素序列进行文本转换，得到对应各所述音频样本的转换文本；分别获取各所述转换文本与所述第一文本标签之间的误差，并基于得到的误差更新所述语音识别模型的模型参数。通过本申请，能够训练得到鲁棒性强的语音识别模型，提高了语音识别的准确性。

Description

语音识别模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术，尤其涉及一种语音识别模型的训练方法、装置、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

随着智能设备与语音识别(Automatic Speech Recognition，ASR)技术的发展，语音识别的应用场景在不断增多。而语音识别技术在实际应用中会受到各种变化条件的挑战，例如环境噪声、不同用户的差异化口音、说话者情绪波动造成发音变化等，然而相关技术的语音识别鲁棒性很差，上述这些因素都会影响语音识别的准确性。

发明内容

本申请实施例提供一种语音识别模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够训练得到鲁棒性强的语音识别模型，提高了语音识别的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种语音识别模型的训练方法，所述语音识别模型包括声学子模型和转换子模型，所述方法包括：

获取原始音频样本，所述原始音频样本携带有第一文本标签；

对所述原始音频样本进行泛化处理，得到与所述原始音频样本对应的多个携带有所述第一文本标签的音频样本；

通过所述声学子模型分别对各所述音频样本进行音素预测，得到对应各所述音频样本的音素序列；

通过所述转换子模型分别对各所述音素序列进行文本转换，得到对应各所述音频样本的转换文本；

分别获取各所述转换文本与所述第一文本标签之间的误差，并基于得到的误差更新所述语音识别模型的模型参数。

本申请实施例提供一种语音识别模型的训练装置，所述语音识别模型包括声学子模型和转换子模型，所述装置包括：

获取模块，用于获取原始音频样本，所述原始音频样本携带有第一文本标签；

泛化模块，用于对所述原始音频样本进行泛化处理，得到与所述原始音频样本对应的多个携带有所述第一文本标签的音频样本；

音素预测模块，用于通过所述声学子模型分别对各所述音频样本进行音素预测，得到对应各所述音频样本的音素序列；

文本转换模块，用于通过所述转换子模型分别对各所述音素序列进行文本转换，得到对应各所述音频样本的转换文本；

更新模块，用于分别获取各所述转换文本与所述第一文本标签之间的误差，并基于得到的误差更新所述语音识别模型的模型参数。

上述方案中，所述语音识别模型的训练装置，还包括：预训练模块，用于基于文本与音素的映射关系，对第二文本标签进行音素转换，得到对应所述第二文本标签的标准音素序列；通过所述转换子模型对所述标准音素序列进行文本转换，得到相应的目标转换文本；基于所述目标转换文本与所述第二文本标签之间的误差，更新所述转换子模型的模型参数，得到更新后的转换子模型；相应的，所述文本转换模块，还用于通过所述更新后的转换子模型，分别对各所述音素序列进行文本转换。

上述方案中，所述预训练模块，还用于对所述标准音素序列进行泛化处理，得到相应的多个偏差音素序列；相应的，所述文本转换模块，还用于通过所述更新后的转换子模型，分别对各所述音素序列及各所述偏差音素序列进行文本转换。

上述方案中，所述泛化模块，还用于获取多个干扰信息；分别基于各干扰信息，执行以下处理：对所述原始音频样本添加所述干扰信息。

上述方案中，所述泛化模块，还用于对所述原始音频样本执行多次以下处理：对所述原始音频样本进行至少一帧语音信号的更改，每一帧所述语音信号对应一个音素；其中，更改包括以下至少之一：音素删除、音素插入及音素替换。

上述方案中，所述文本转换模块，还用于通过所述转换子模型，分别针对各所述音素序列执行以下处理：对所述音素序列进行语义特征提取，得到相应的语义特征；基于所述语义特征，对所述音素序列进行文本转换，得到对应所述音素序列的多个候选词序列、及各所述候选词序列对应的评分；从所述多个候选词序列中，选取评分最高的候选词序列作为对应所述音频样本的转换文本。

上述方案中，所述文本转换模块，还用于基于所述语义特征，对所述音素序列进行文本转换，得到对应所述音素序列的多个候选词序列、及各所述候选词序列中每一个候选词的条件概率；基于所述候选词序列中每一个候选词的条件概率，分别确定各所述候选词序列对应的评分。

上述方案中，所述语音识别模型的训练装置，还包括：语音识别模块，用于获取待识别音频；通过所述声学子模型对所述待识别音频进行音素预测，得到对应所述待识别音频的目标音素序列；通过所述转换子模型对所述目标音素序列进行文本转换，得到对应所述待识别音频的转换文本。

上述方案中，所述转换子模型包括预转换子模型及重打分子模型，所述语音识别模块，还用于通过所述预转换子模型对所述目标音素序列进行文本转换，得到对应所述待识别音频的多个候选文本及各所述候选文本的第一评分；通过所述重打分子模型，分别对各所述候选文本进行评分预测，得到相应的第二评分；基于所述第一评分及所述第二评分，确定各所述候选文本的目标评分；从所述多个候选文本中选取目标评分最高的候选文本，作为对应所述待识别音频的转换文本。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的语音识别模型的训练方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的语音识别模型的训练方法。

本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的语音识别模型的训练方法。

本申请实施例具有以下有益效果：

本申请实施例中，通过对原始音频样本进行泛化处理，得到对应的多个携带有所述第一文本标签的音频样本，并通过声学子模型对各所述音频样本进行音素预测，得到对应各音频样本的音素序列，然后通过转换子模型分别对各音素序列进行文本转换，得到对应各音频样本的转换文本，并基于各转换文本与第一文本标签之间的误差更新语音识别模型的模型参数，通过泛化后的音频样本进行模型的训练，能够使得模型具有一定的纠错能力，从而使模型具有较强的鲁棒性，克服了相关技术中语音识别准确性低的缺陷，提高了语音识别的准确性。

附图说明

图1是本申请实施例提供的语音识别模型的训练系统的一个可选的结构示意图；

图2是本申请实施例提供的电子设备的一个可选的结构示意图；

图3是本申请实施例提供的语音识别模型的一个可选的结构示意图；

图4是本申请实施例提供的语音识别模型的训练方法的一个可选的流程示意图；

图5是本申请实施例提供的语音识别模型的训练方法的一个可选的流程示意图；

图6是本申请实施例提供的语音识别模型的训练方法的一个可选的流程示意图；

图7是本申请实施例提供的语音识别模型的训练方法的一个可选的流程示意图；

图8是本申请实施例提供的语音识别模型的一个可选的结构示意图；

图9是本申请实施例提供的语音识别模型的训练方法的一个可选的流程示意图；

图10是本申请实施例提供的语音识别模型的训练方法的一个可选的流程示意图；

图11是本申请实施例提供的语音识别过程的一个可选的流程示意图；

图12是本申请实施例提供的语音识别模型的训练模型的一个可选的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)声学模型(AM，Automatic Model)，对声学、语音学、环境的变量、说话人性别、口音的差异化的知识表示，包括基于隐马尔可夫模型(HMM，Hidden Markov Model)的声学模型，例如混合高斯-隐马尔科夫模型(GMM-HMM)和深度神经网络-隐马尔科夫模型(DNN-HMM)，此外，声学模型还包括端到端(End to End)的声学模型，例如连接时序分类-长短时记忆(CTC-LSTM)模型和注意力(Attention)模型。

声学模型的每个状态中表示语音单元(例如词、音节和音素等)的语音特征在该状态的概率分布，并通过状态与状态之间的转移连接成一个有序的状态序列，即得到一段语音信号所代表的语音单元的序列。

应当理解的是，本申请实施例中的声学子模型即为声学模型。

2)语言模型(LM，Language Mode)，是语言结构的知识表示，这里语言结构可以包括词语、句子之间的规律，例如语法、词语常用搭配等的知识表示。

对于一段文字序列，语言模型的任务是计算该序列的概率分布，通俗解释为判断一个语言序列是否是正常语句。

需要说明的是，本申请实施例中的转换(transformer)子模型为一种语言模型，它能够结合音素序列的上下文信息进行文本的转换，将音素序列转换成符合语言逻辑的转换文本。

3)发音词典，记录有文本和音素之间的映射关系。

4)音素(phone)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。

5)音素序列，是由多个音素按照一定顺序排列后的序列。

示例性地，针对“我”这一单词，其包括“w”和“o3”等两个音素，按照其发音排序后得到的音素系列则为“w o3”。

6)标准音素序列，指针对某一特定短语的正确发音所对应的音素序列。

示例性地，针对“我在贵阳”这一特定短语，其对应的标准音素序列则为“w o3 zai4 g ui4 y ang2”。

7)偏差音素序列，指针对某一特定短语的错误发音所对应的音素序列。

示例性地，针对“我在贵阳”这一特定短语，其对应的偏差音素序列可以为“w o3 zai4 g ui4 l v2”等。需要说明的是，由于错误发音存在多种错误形式，针对某一特定短语的偏差音素序列也具有多种偏差形式，这里仅仅列举了其中一种。

8)人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

基于此，本申请实施例提供一种语音识别模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提供语音识别模型的鲁棒性。

首先对本申请实施例提供的语音识别模型的训练系统进行说明，参见图1，图1是本申请实施例提供的语音识别模型的训练系统100的一个可选的架构示意图，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。在一些实施例中，终端400可以是笔记本电脑，平板电脑，台式计算机，智能手机，专用消息设备，便携式游戏设备，智能音箱，智能手表等，但并不局限于此。服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。网络300可以是广域网或者局域网，又或者是二者的组合。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

终端400，用于获取原始音频样本，并基于原始音频样本生成携带原始音频样本的模型训练指令，将模型训练指令发送至服务器200。

服务器200，用于对所述原始音频样本进行泛化处理，得到与所述原始音频样本对应的多个携带有所述第一文本标签的音频样本；通过所述声学子模型分别对各所述音频样本进行音素预测，得到对应各所述音频样本的音素序列；通过所述转换子模型分别对各所述音素序列进行文本转换，得到对应各所述音频样本的转换文本；分别获取各所述转换文本与所述第一文本标签之间的误差，并基于得到的误差更新所述语音识别模型的模型参数，得到训练后的语音识别模型；将训练后的语音识别模型发送至终端400。

终端400，还用于获取待识别音频，通过训练后的语音识别模型对待识别音频进行语音识别，得到对应待识别音频的转换文本，并输出转换文本。

参见图2，图2是本申请实施例提供的电子设备500的一个可选的结构示意图，在实际应用中，电子设备500可以实施为图1中的终端400或服务器200，以电子设备为图1所示的服务器200为例，对实施本申请实施例的语音识别模型的训练方法的电子设备进行说明。图2所示的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可以理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的语音识别模型的训练装置可以采用软件方式实现，图2示出了存储在存储器550中的语音识别模型的训练装置555，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块5551、泛化模块5552、音素预测模块5553、文本转换模块5554和更新模块5555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的语音识别模型的训练装置可以采用硬件方式实现，作为示例，本申请实施例提供的语音识别模型的训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的语音识别模型的训练方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

参见图3，图3是本申请实施例提供的语音识别模型的一个可选的结构示意图。本申请实施例提供的语音识别模型包括声学子模型及转换子模型。其中，声学子模型用于对输入的音频进行音素预测，输出对应的预测音素序列；转换子模型用于对输入的音素序列进行文本转换，输出对应的转换文本。

下面将结合本申请实施例提供的终端的示例性应用和实施，说明本申请实施例提供的语音识别模型的训练方法。参见图4，图4是本申请实施例提供的语音识别模型的训练方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

步骤101，服务器获取原始音频样本，所述原始音频样本携带有第一文本标签。

这里，原始音频样本可以通过访问网页，从网页中获取得到，具体地，服务器可以通过访问相关的音频库网页，下载网页的音频库中携带有第一文本标签的音频。原始音频样本还可以是针对第一文本标签进行人工录制得到。本申请实施例不对原始音频样本的来源作具体限定。

步骤102，对所述原始音频样本进行泛化处理，得到与所述原始音频样本对应的多个携带有所述第一文本标签的音频样本。

在实际实施时，服务器对携带有第一文本标签的原始音频样本进行泛化处理，得到多个音频样本。这里，将原始音频样本对应的音素序列记为原始音素序列，原始音素序列所对应的文本即为第一文本标签所对应的文本。应当说明的是，对原始音频样本进行泛化处理后得到的音频样本所对应的音素序列可能与原始音素序列不匹配，也即是说，音频样本所对应的音素序列相较于原始音素序列可能存在音素缺失、音素错误或者音素增加等。而音频样本所携带的文本标签仍然为与原始音素序列相对应的第一文本标签。音频样本中还可能存在原始音频样本中所不存在的干扰信息等，例如噪声等。通过将原始音频样本进行泛化处理，获得多个与第一文本标签所对应的文本内容不完全匹配的音频样本，利用这些音频样本去训练语音识别模型，能够提高语音识别模型的鲁棒性。

在一些实施例中，基于图4，步骤102还可以通过如下方式实现：服务器获取多个干扰信息；分别基于各干扰信息，执行以下处理：对所述原始音频样本添加所述干扰信息。

这里，干扰信息可以为不同种类噪声、不同种类的音效等。这里，不同种类的噪声可以包括但不限于声噪声和电噪声。其中，声噪为各自不同频率和声强的声音无规律的杂乱组合，例如各自类型的环境噪声。电噪声为各自视听设备自身电子线路噪声，电源交流信号的干扰声，空间杂散电磁场的干扰等，例如白噪声。不同种类的音效包括但不限于动作音效、环境音效，这里，环境音效例如可以是远场音效，可以通过将原始音频样本进行远场合成，得到具有远场音效效果的音频样本。

在实际实施时，服务器获取多个干扰信息，分别将各干扰信息添加至原始音频样本中，以对原始音频样本进行相应的一次泛化处理，得到泛化后的音频样本。应当理解的是，泛化后的音频样本携带有第一文本标签。

在一些实施例中，基于图4，步骤102还可以通过如下方式实现：服务器对所述原始音频样本执行多次以下处理：对所述原始音频样本进行至少一帧语音信号的更改，每一帧所述语音信号对应一个音素；其中，更改包括以下至少之一：音素删除、音素插入及音素替换。

在实际实施时，服务器通过对原始音频样本中的音素进行更改，以对原始音频样本进行泛化处理。在实际实施时，服务器通过对原始音频样本进行相应音素的语音信号的更改，来对其进行音素的更改。这里，一帧语音信号对应一个音素。具体地，服务器可以在原始音频样本任意位置进行语音信号的删除、插入或替换，来进行相应的音素删除、音素插入或音素替换。应当说明的是，这里，若将原始音频样本所对应的语音信号的帧数记为原始帧数，对原始音频样本进行更改的语音信号帧数所占原始帧数的帧数比设置为一个合适的范围，例如10％以内，以避免对原始音频样本更改过多的语音信号帧而将原始音频样本更改为与第一文本标签毫不相关的其他内容，从而使得干扰了基于携带第一文本标签的音频样本进行训练得到的语音识别模型的语音识别准确性。

示例性地，若第一文本标签为“我在贵阳，”原始音频样本所对应的原始音素序列为“w o3 z ai4 g ui4 y ang2，”则对原始音频样本进行语音信号删除以进行音素删除后得到的音频样本可以为“w o3 g ui4 y ang1，”对原始音频样本进行语音信号插入以进行音素插入后得到的音频样本可以为“w o3 z ai4 z ao4 y i n1 g ui4 y ang2，”对原始音频样本进行语音信号替换以进行音素替换后得到的音频样本可以为“w o3 z ai4 g ui4 lv2”等。

本申请实施例中，通过对原始音频样本进行音素的删除、插入或替换，来对原始音频样本进行泛化处理，得到部分音素更改后的音频样本，使得基于音频样本进行训练后的语音识别模型的鲁棒性显著提高。

在一些实施例中，服务器还可以同时采用添加干扰信息及语音信号更改的方式对原始音频样本进行泛化处理，以同时得到携带干扰信息的音频样本及音素更改后的音频样本，服务器还可以对原始音频样本同时进行干扰信息的添加及语音信号的更改，以得到携带干扰信息及音素更改的音频样本。通过采用不同方式对原始音频样本进行泛化处理，使得泛化后得到的音频样本更具多样性，从而使得训练得到的语音识别模型的鲁棒性更强。

步骤103，通过所述声学子模型分别对各所述音频样本进行音素预测，得到对应各所述音频样本的音素序列。

在实际实施时，服务器通过声学子模型分别针对各音频样本进行音素预测，得到各音频样本对应的音素序列。应当理解的是，由于音频样本相较于原始音频样本进行了泛化处理，如携带有干扰信息或音素序列与原始音素序列不匹配，可以理解，若音频样本携带有干扰信息，由于干扰信息会对声学子模型的音素预测产生干扰，声学子模型对音频样本进行音素预测将得到与原始音素序列不匹配的干扰音素；若音频样本为对原始音频样本进行语音信号帧的更改得到，音频样本所实际对应的音素序列则与原始音素序列不匹配，声学子模型将预测得到与原始音素不匹配的音素序列。也即是说，声学子模型对音频样本进行音素预测得到的音素序列与原始音频样本所对应的原始音素序列可能不完全一致。

步骤104，通过所述转换子模型分别对各所述音素序列进行文本转换，得到对应各所述音频样本的转换文本。

在实际实施时，服务器将声学子模型输出的音素序列输入至转换子模型中，通过转换子模型对音素序列进行文本转换，得到对应音频样本的转换文本。这里，转换子模型分别对声学子模型输出的多个音素序列进行文本转换，得到对应各音频样本的转换文本。本申请实施例中，服务器可以通过串行的方式通过转换子模型依次对各音素序列进行文本转换，还可以通过并行的方式同时对各音素序列进行文本转换。

在一些实施例中，参照图5，图5是本申请实施例提供的语音识别模型的训练方法的一个可选的流程示意图。基于图4，在步骤104之前，还可以执行：

步骤201，服务器基于文本与音素的映射关系，对第二文本标签进行音素转换，得到对应所述第二文本标签的标准音素序列。

需要说明的是，图5示出的步骤201～步骤203为在步骤101之前执行，本申请实施例中，步骤201～步骤203还可以在步骤104之前的任意步骤之间执行，或者与步骤101～步骤103并行执行等，图5仅仅是其中一种执行顺序的示例。

这里，第二文本标签用于对转换子模型进行预训练，它可以与第一文本标签相同，也可以与第一文本标签不同。本申请实施例中，文本与音素的映射关系为词与音素的映射关系，示例性地，对于“我”这一词，与它呈映射关系的音素则为“w o3”。在一些实施例中，服务器获取记录有文本与音素的映射关系的读音词典，将第二文本标签作为索引，通过查询读音词典获得与第二文本标签中各个词对应的音素，然后将各音素按照第二文本标签中各个词的顺序进行排序，得到对应第二文本标签的标准音素序列。具体地，服务器对第二文本标签进行分词处理，得到第二文本标签对应的多个词，分别针对各个词，进行读音词典的查询，得到对应各个词的音素，然后将对应各个词的音素按照各个词在第二文本标签内的顺序进行排序，得到相应的标准音素序列。

示例性地，若第二文本标签为“我在贵阳，”服务器对其进行分词处理，得到“我”、“在”及“贵阳”等三个词，接着，服务器查询词与音素的映射关系，分别查询得到这三个词对应的音素“w o3”、“z ai4”及“g ui4 y ang2，”然后，服务器将这些音素按照三个词在第二文本标签内的顺序进行排序组合处理，得到相应的标准音素序列“w o3 z ai4 g ui4 yang2”。

步骤202，通过所述转换子模型对所述标准音素序列进行文本转换，得到相应的目标转换文本。

在实际实施时，由于转换子模型为语言模型，在进行文本转换时，通过结合标准音素序列的上下文信息，将其转换成具有上下文语义的目标转换文本。

步骤203，基于所述目标转换文本与所述第二文本标签之间的误差，更新所述转换子模型的模型参数，得到更新后的转换子模型。

在实际实施时，服务器通过多次迭代训练更新转换子模型的模型参数，直至达到转换子模型的收敛条件或者迭代次数达到迭代阈值，停止对转换子模型的训练，得到更新后的转换子模型。需要说明的是，此处对转换子模型的多次迭代训练均基于标准音素序列。

在实际实施时，服务器可通过如下方式实现对转换子模型的训练：

服务器通过计算损失函数的值确定目标转换文本与所述第二文本标签之间的误差，当损失函数的值达到阈值时，基于损失函数确定相应的误差信号，将误差信号在转换子模型中反向传播，并在传播的过程中更新转换子模型的各个层的模型参数。

这里对反向传播进行说明，将训练样本输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛。以损失函数为例，服务器基于损失函数确定误差信号，误差信号从神经网络模型的输出层反向传播，逐层反向传播误差信号，在误差信号到达每一层时，结合传导的误差信号来求解梯度(也就是Loss函数对该层参数的偏导数)，将该层的参数更新对应的梯度值。

相应的，步骤104还可以通过如下方式实现：服务器通过所述更新后的转换子模型，分别对各所述音素序列进行文本转换，得到对应各所述音频样本的转换文本。

在实际实施时，基于标准音素序列对转换子模型进行第一轮训练得到更新后的转换子模型，使转换子模型学习到标准的文本与音素序列之间的映射关系得到更新后的转换子模型之后，接着，基于声学子模型输出的各音素序列对更新后的转换子模型进行第二轮训练，这里，声学子模型输出的各音素序列相较于原始音频样本对应的原始音素序列具有一定的偏差，利用这些具有偏差的携带第一文本标签的音素序列对转换子模型进行第二轮训练，能够提高转换子模型的鲁棒性，使其能够将具有偏差的音素序列转换成正确的文本。

在一些实施例中，参照图6，图6是本申请实施例提供的语音识别模型的训练方法的一个可选的流程示意图，基于图5，在步骤104之前，还可以执行：步骤301，服务器对所述标准音素序列进行泛化处理，得到相应的多个偏差音素序列。

在实际实施时，服务器可以通过随机去除标准音素序列中的至少一个音素、随机替换标准音素序列中的至少一个音素、或者随机插入至少一个音素序列至标准音素序列中，来对标准音素序列进行泛化处理，得到相应的偏差音素序列。示例性地，若标准音素序列为“w o3 z ai4 g ui4 y ang2，”对其进行泛化处理后得到的偏差音素序列可以为“w o3g ui4 y ang1”、“w o3 z ai4 g ui4 l v2”或“w o3 z ai4 z ao4 y in1 g ui4 y ang2”等，在实际实施时，服务器还可以针对同一标准音素序列进行多种方式的泛化处理，例如同时进行音素删除及音素替换，得到偏差音素序列“w o3 g ui4 l v2”等，应当说明的是，通过任意泛化方式及多种泛化方式的组合进行泛化处理均属于本申请实施例的保护范围之内。

相应的，步骤104还可以通过如下方式实现：服务器通过所述更新后的转换子模型，分别对各所述音素序列及各所述偏差音素序列进行文本转换。

需要说明的是，声学子模型输出的多个音素序列及对标准音素序列进行泛化处理后的多个偏差音素序列中均包括存在偏差的音素序列，当然，其中也包括与第一文本标签相匹配的标准音素序列。服务器基于声学子模型输出的多个音素序列及对标准音素序列进行泛化处理后得到的多个偏差音素序列，构建相应的训练样本集，训练样本集中的音素序列均携带有第一文本标签。接着，服务器将训练样本集输入至更新后的转换子模型中，对更新后的转换子模型进行第二轮训练。

本申请实施例中，通过结合具有偏差的音素序列对更新后的转换子模型进行第二轮训练，在转换子模型学习到标准的音素序列及文本的映射关系之后，提高转换子模型的鲁棒性，使其能够将具有偏差的音素序列转换成正确的文本。

在一些实施例中，基于图4，步骤104还可以通过如下方式实现：服务器通过所述转换子模型，分别针对各所述音素序列执行以下处理：对所述音素序列进行语义特征提取，得到相应的语义特征；基于所述语义特征，对所述音素序列进行文本转换，得到对应所述音素序列的多个候选词序列、及各所述候选词序列对应的评分；从所述多个候选词序列中，选取评分最高的候选词序列作为对应所述音频样本的转换文本。

在实际实施时，转换子模型在对音素序列进行文本转换时，首先对音素序列进行语义特征的提取，得到相应的语义特征。具体地，服务器对音素序列进行编码，得到音素序列的音素向量，然后基于音素向量提取音素序列的语义特征。这里，语义特征为向量表示，在实际实施时，服务器基于音素序列的语义特征，对音素序列进行文本转换，得到音素序列对应的多个候选词序列及各候选词序列的评分。需要说明的是，候选词序列的评分为转换子模型对候选词序列进行概率计算得到。

在一些实施例中，所述基于所述语义特征，对所述音素序列进行文本转换，得到对应所述音素序列的多个候选词序列、及各所述候选词序列对应的评分，包括：基于所述语义特征，对所述音素序列进行文本转换，得到对应所述音素序列的多个候选词序列、及各所述候选词序列中每一个候选词的条件概率；基于所述候选词序列中每一个候选词的条件概率，分别确定各所述候选词序列对应的评分。

首先，转换子模型结合候选词序列中各个候选词的上下文，确定各个候选词出现在候选词序列中的条件概率，并基于各个候选词的条件概率确定候选词序列的通顺度。示例性地，对于例如“我在贵阳”这一候选词序列，服务器则可以基于如下计算公式(1)确定其通顺度：

P＝P(T_我)P(T_在|T_我)P(T_贵阳|T_我,T_在) (1)

其中，P(T_我)为“我”这个词的条件概率，P(T_在|T_我)为“在”这个词出现含有“我”这个词的候选词序列中的条件概率，P(T_贵阳|T_我,T_在)为“贵阳”这个词出现在含有“我”和“在”这两个词的候选词序列中条件概率，P为“我在贵阳”这一候选词序列的通顺度。在实际实施时，服务器将各个候选词的条件概率的乘积作为候选词序列的通顺度。

接着，转换子模型可以将通顺度作为候选词序列的评分，还可以结合通顺度及评分参数确定相应的评分，这里，评分参数可以为预先设置的常量，用于对通顺度进行修正。然后，服务器从多个候选词序列中选取评分最高的候选词序列作为音素序列对应的转换文本，也即对应于相应的音频样本的转换文本。

本申请实施例中，通过结合音素序列的语义特征对音素序列进行文本转换，并对转换后的多个候选词序列进行评分，将评分最高的候选词序列作为音素序列对应的转换文本，能够结合音素序列的语义特征进行文本的转换，从而使得转换后的文本更具语言逻辑，避免转换得到不符合语言逻辑的偏差文本，提高了语音识别的准确性和鲁棒性。

步骤105，分别获取各所述转换文本与所述第一文本标签之间的误差，并基于得到的误差更新所述语音识别模型的模型参数。

在实际实施时，服务器针对各转换文本，确定各转换文本与第一文本标签之间的误差，基于确定的误差更新语音识别模型的模型参数。这里，服务器可以通过计算词错率来确定转换文本与第一文本标签之间的误差。本申请实施例中，服务器基于二者之间的误差，更新转换子模型的模型参数，只训练转换子模型，应当理解，当仅仅需要对转换子模型进行训练时，声学子模型则为预先训练好的声学模型，用于辅助转换子模型的训练。在一些实施例中，服务器还可以基于二者之间的误差，更新转换子模型及声学子模型的模型参数，同时对这两个模型进行训练。

本申请实施例中，通过对原始音频样本进行泛化处理，得到对应的多个携带有所述第一文本标签的音频样本，并通过声学子模型对各所述音频样本进行音素预测，得到对应各音频样本的音素序列，然后通过转换子模型分别对各音素序列进行文本转换，得到对应各音频样本的转换文本，并基于各转换文本与第一文本标签之间的误差更新语音识别模型的模型参数，通过泛化后的音频样本进行模型的训练，能够使得模型具有一定的纠错能力，从而使模型具有较强的鲁棒性，提高了语音识别的准确性。

在一些实施例中，参照图7，图7是本申请实施例提供的语音识别模型的训练方法的一个可选的流程示意图，基于图4，还可以执行：

步骤401，服务器获取待识别音频。

在实际实施时，待识别音频可以是任意场景下的音频，例如可以是客服平台的通话语音，还可以是社交工具中用户录制的对话语音等等。

步骤402，通过所述声学子模型对所述待识别音频进行音素预测，得到对应所述待识别音频的目标音素序列。

这里，服务器在获得待识别音频后，将待识别音频输入至声学子模型中，通过声学子模型对待识别音频进行音素预测，得到相应的目标音素序列。

步骤403，通过所述转换子模型对所述目标音素序列进行文本转换，得到对应所述待识别音频的转换文本。

接着，服务器将声学子模型输出的目标音素序列输入至转换子模型，通过转换子模型将目标音素序列进行文本转换，得到对应于待识别音频的转换文本，从而完成对待识别音频的语音识别。这里，由于待识别音频中可能存在干扰噪音或者部分语义音素的缺失而无法构成完整的句子，声学子模型输出的目标音素序列则为具有偏差的音素序列，转换子模型则基于目标音素序列的语义特征，将其转换为完整的转换文本，以语音识别得到准确的文本。

在一些实施例中，参见图8，图8是本申请实施例提供的语音识别模型的一个可选的结构示意图。本申请实施例提供的语音识别模型包括声学子模型及转换子模型。其中，转换子模型包括预转换子模型及重打分子模型。这里，重打分子模型为语言模型，它可以为基于各个领域的语言样本训练得到，还可以是基于特定领域的语言样本训练得到。例如，若语音识别模型用于金融领域，则可以通过金融领域的样本对重打分子模型进行训练，以将语音识别模型更精准的定位至该领域内，使识别出来的文本符合金融领域的语言习惯。

参见图9，图9是本申请实施例提供的语音识别模型的训练方法的一个可选的流程示意图，基于图7，步骤403还可以通过如下方式实现：

步骤501，服务器通过所述预转换子模型对所述目标音素序列进行文本转换，得到对应所述待识别音频的多个候选文本及各所述候选文本的第一评分。

在实际实施时，服务器将待识别音频输入至声学子模型进行音素预测得到相应的目标音素序列后，将目标音素序列输入至预转换子模型，通过预转换子模型对目标音素序列进行文本转换，得到对应的多个候选文本及各候选文本的第一评分。需要说明的是，这里的候选文本由多个词组成，候选文本也即候选词序列。

步骤502，通过所述重打分子模型，分别对各所述候选文本进行评分预测，得到相应的第二评分。

在实际实施时，服务器将预转换子模型输出的多个候选文本输入至重打分子模型中，通过重打分子模型，分别对各候选文本进行评分，得到对应各候选文本的第二评分。这里，第二评分可以通过计算候选文本的通顺度得到。

步骤503，基于所述第一评分及所述第二评分，确定各所述候选文本的目标评分。

接着，服务器基于候选文本对应的第一评分及第二评分，确定候选文本的目标评分。这里，目标评分可以为第一评分与第二评分的乘积，还可以是第一评分与第二评分的加权之和，第一评分的权重及第二评分的权重可以分布根据预转换子模型的属性值及重打分子模型的属性值得到。

在一些实施例中，步骤503还可以通过如下方式实现：服务器获取预转换子模型的属性值与重打分子模型的属性值；将预转换子模型的属性值与重打分子模型的属性值分别进行归一化处理，将预转换子模型的属性值的归一化结果确定为预转换子模型的权重，将重打分子模型的属性值的归一化结果确定为重打分子模型的权重；基于预转换子模型的权重和重打分子模型的权重，对每个候选文本的第一评分和第二评分进行加权处理，将加权后的评分确定为每个候选文本的目标评分。

需要说明的是，加权处理包括线性加权处理，依据不同模型对候选文本评分的贡献程度，确定不同的权重。示例性的，获得预转换子模型针对候选文本的第一评分Scorea，以及重打分子模型针对候选识文本的第二评分Scorel，通过线性加权处理得到候选文本的目标评分Scoren，所以候选文本的目标评分可以通过公式(2)确定：

Scoren＝δ*Scorea+λ*Scorel (2)

其中，δ表示第一评分的权重，λ表示第二评分的权重。

在一些实施例中，获取预转换子模型的属性值与重打分子模型的属性值可以通过以下方式实现：获取预转换子模型的训练指标，以作为预转换子模型的属性值，获取重打分子模型的训练指标，以作为重打分子模型的属性值；其中，训练指标包括以下至少之一：训练样本的数量，训练次数，训练时效性。

在实际实施时，可以获取预转换子模型的训练样本的数量，即用于训练预转换子模型的音素序列的样本数量，并获取重打分子模型的训练样本的数量，即语言数据库的样本数量，若重打分子模型为特定领域内的模型，则训练样本为该特定领域内的语言样本。接着，服务器将两个模型的样本数量作为模型的属性值，基于属性值分别为预转换子模型输出的第一评分和重打分子模型对应的第二评分分配不同的权重；权重可以与样本数量呈正相关，若样本数量越大，则分配的权重越高，表征相应模型对候选文本的评分贡献程度越高。

在实际实施时，还可以获取模型训练的迭代次数作为模型的属性值，根据模型迭代次数的多少确定权重，权重可以与模型迭代次数呈正相关，若模型迭代次数越多，则分配的权重越高，表征相应模型对候选文本的评分贡献程度越高。

在实际实施时，还可以获取模型训练时效性作为模型的属性值，模型训练时效性可以包括模型的未更新时长(可以理解为当前时间与最近一次更新的时间间隔)的倒数或平均更新周期，权重可以与模型训练次数呈负相关，若未更新时长或平均更新周期越长，则分配的权重越低，表征相应模型对语音识别候选打分的贡献程度越低。

模型的训练指标可以反映模型的训练程度，预转换子模型和重打分子模型不同的训练程度影响模型功能和模型效果，对预转换子模型和重打分子模型为候选文本评分得到的第一评分和第二评分的贡献程度会有所不同，通过模型的训练指标与加权处理中权重设定的联动，充分的参考了预转换子模型和重打分子模型对候选文本评分的重要程度，以使获得的候选文本的目标评分更加准确和合理。

在另一些实施例中，获取模型的属性值还可以通过以下方式实现，获取预转换子模型的性能指标，以作为预转换子模型的属性值；获取重打分子模型的性能指标，以作为重打分子模型的属性值；其中，性能指标包括以下至少之一：时间复杂度，空间复杂度。

需要说明的是，时间复杂度决定了模型的训练/预测时间。如果时间复杂度过高，会导致模型训练和预测耗费大量时间，既无法快速改善模型，也无法做到快速的预测。空间复杂度决定了模型的参数数量。由于维度的限制，如果空间复杂度越高，模型的参数则越多，训练模型所需的数据量就越大，会导致模型的训练更容易过拟合。

在实际实施时，获取预转换子模型和重打分子模型的时间复杂度或空间复杂度作为模型属性值，基于属性值分别为预转换子模型评分和重打分子模型评分分配不同的权重；示例性的，权重可以与时间复杂度或空间复杂度呈负相关，若模型时间复杂度(计算量/FLOPS，即模型的运算次数)越高，则分配的权重越低，若模型的空间复杂度(访存量/Bytes，即模型的参数数量)则分配的权重越低。

模型的性能指标用于评价模型的好坏，不同的性能指标对模型进行评价往往会有不同的结果。预转换子模型和语言模型性能指标不同，为语音识别候选结果打分得到的声学评分和语言评分的贡献程度会有所不同，通过模型的性能指标与加权处理中权重设定的联动，充分的参考了预转换子模型和重打分子模型对候选文本评分的重要程度，以使获得的候选文本的目标得分更加准确和合理。

步骤504，从所述多个候选文本中选取目标评分最高的候选文本，作为对应所述待识别音频的转换文本。

在实际实施时，服务器从多个候选文本中选取目标评分最高的候选文本作为对待识别音频进行语音识别后的转换文本，通过结合预转换子模型对音素序列进行文本转换后的候选文本的第一评分以及重打分子模型对候选文本的第二评分，来最终确定候选文本的目标评分，使得对候选文本的评分更为准确，且更符合重打分子模型所学习的语言领域，能够针对具体领域识别出更具针对性且更准确的文本。

接下来继续对本申请实施例提供的语音识别模型的训练方法进行介绍，本申请实施例提供的语音识别模型的训练方法由终端和服务器协同实施。参见图10，图10是本申请实施例提供的语音识别模型的训练方法的一个可选的流程示意图，本申请实施例提供的语音识别模型的训练方法包括：

步骤601，终端获取原始音频样本。

这里，原始音频样本可以为终端通过与其通信连接的麦克风采集得到，还可以从音频库中获取，还可以是从网页中爬取获得。需要说明的是，原始音频样本携带有第一文本标签。

步骤602，终端发送携带原始音频样本的模型训练指令至服务器。

在实际实施时，终端可以在获得原始音频样本时，基于原始音频样本，生成相应的模型训练指令。终端还可以呈现模型训练界面，在模型训练界面中呈现模型训练功能项，响应于针对模型训练功能项的触发操作，基于原始音频样本生成相应的模型训练指令。此外，终端还可以接收其他设备发送的模型训练指令，将原始音频样本封装至该模型训练指令中，得到携带原始音频样本的模型训练指令并发送至服务器。

步骤603，服务器对所述原始音频样本进行泛化处理，得到与所述原始音频样本对应的多个携带有所述第一文本标签的音频样本。

步骤604，服务器通过所述声学子模型分别对各所述音频样本进行音素预测，得到对应各所述音频样本的音素序列。

步骤605，服务器通过所述转换子模型分别对各所述音素序列进行文本转换，得到对应各所述音频样本的转换文本。

步骤606，服务器分别获取各所述转换文本与所述第一文本标签之间的误差，并基于得到的误差更新所述语音识别模型的模型参数。

步骤607，终端获取待识别音频。

这里，待识别音频可以为终端的麦克风通过语音应用采集得到。示例性地，语音应用可以为社交应用，用户通过点击语音应用界面中的相关功能项启动语音录制功能，终端在启动语音录制功能后，则通过麦克风采集音频，将采集得到的音频作为待识别音频。

步骤608，终端发送待识别音频至服务器。

步骤609，服务器将待识别音频输入至声学子模型中，通过声学子模型对待识别音频进行音素预测，得到对应待识别音频的目标音素序列。

步骤610，服务器通过转换子模型对目标音素序列进行文本转换，得到对应待识别音频的转换文本。

步骤611，服务器发送转换文本至终端。

步骤612，终端输出转换文本。

在实际实施时，终端在接收到服务器发送的转换文本后，输出转换文本以供用户浏览。示例性地，若待识别文本为社交应用采集得到，终端则在该社交应用界面的相关区域呈现对待识别音频进行语音识别后得到的转换文本。

本申请实施例中，通过对原始音频样本进行泛化处理得到多个携带第一文本标签的音频样本，然后通过音频样本对语音识别模型进行训练，使得语音识别模型具有一定的纠错能力，提高了语音识别模型的鲁棒性。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

服务器获取原始音频样本，所述原始音频样本携带有文本标签。示例性地，原始音频样本的语音内容可以为“我在贵阳”，它所携带的文本标签则为“我在贵阳”这一文本。在实际实施时，服务器对原始音频样本添加多种噪声，得到多个音频样本，然后将这些音频样本输入至声学子模型中，通过声学子模型对音频样本进行音素预测，得到对应各音频样本的音素序列。应当理解的是，由于音频样本为基于原始音频样本添加噪声后得到，声学子模型在对其进行音素预测时，预测得到的音素序列可能并不准确。本申请实施例中，服务器则将声学子模型输出的这些音素序列作为转换子模型的训练样本。

在一些实施例中，服务器还通过字典，查询文本标签对应的标准音素序列，并对标准音素序列进行泛化处理，得到相应的偏差音素序列。具体地，服务器对标准音素序列进行至少一个音素的更改，更改包括以下至少之一：音素删除、音素插入及音素替换。示例性地，对于“我在贵阳”这一标签文本，其对应的标准音素序列为“w o3 z ai4 g ui4 y ang2，”服务器可以对其插入随机音素，例如模拟背景声音被错误识别，将背景噪音音素插入其中；或者，模拟一些声音被漏识别，随机删除其中的部分音素；或者，模拟一些声音被错误识别，随机将替换其中的部分音素。通过以上这些手段对标准音素序列进行数据增强，模拟声学子模型可能存在的错误构建偏差音素序列，并利用偏差音素序列训练转换子模型，从而使转换子模型具有更强的鲁棒性。

在实际实施时，服务器首先利用标准音素序列对转换子模型进行第一轮训练，直至模型达到收敛条件，得到训练后的转换子模型M1。接着，服务器利用上述方式得到的偏差音素序列对训练后的转换子模型M1进行第二轮训练，得到训练好的转换子模型M2。具体地，服务器将标准音素序列输入至转换子模型中，通过转换子模型对标准音素序列进行文本转换，得到对应标准音素序列的转换文本，并基于转换文本与文本标签之间的误差，更新转换子模型的模型参数，通过不断迭代训练不断对模型的模型参数进行更新直至达到收敛条件，停止对模型的迭代训练，得到训练后的转换子模型M1。然后，服务器将偏差音素序列输入至训练后的转换子模型M1中，通过转换子模型M1对偏差音素序列进行文本转换，得到对应偏差音素序列的转换文本，然后基于该转换文本与文本标签之间的误差，更新训练后的转换子模型M1，当达到收敛条件时停止对模型M1的训练，得到两轮训练得到的转换子模型M2。需要说明的是，这里，转换子模型可以通过提取音素序列的上下文语义特征，基于上下文语义特征进行文本转换，从而换行得到更符合音素序列的语义的转换文本。

在得到训练完成的声学子模型及转换子模型后，服务器则可以利用由二者构成的语音识别模型，进行相应的语音识别。具体地，服务器获取待识别音频，通过声学子模型对待识别音频进行音素预测，得到对应待识别音频的目标音素序列，通过转换子模型对目标音素序列进行文本转换，得到对应待识别音频的转换文本。示例性地，参见图11，图11是本申请实施例提供的语音识别过程的一个可选的流程示意图，若待识别音频为带有口音或携带干扰信息的“我在贵阳，”服务器将该待识别音频输入至声学子模型中，通过声学子模型对该待识别音频进行音素预测，输出带有偏差的音素序列“w o3 z ai4 g ui4 y v2，”然后将该带有偏差的音素序列输入至转换子模型中，通过转换子模型对该音素序列进行文本转换，将偏差的音素序列进行纠错，输出得到正确的文本“我在贵阳”。

本申请实施例中，服务器首先通过标准音素序列对转换子模型进行一轮训练，使得模型学习到标准的文本及音素的映射关系，得到训练后的转换子模型，然后基于偏差音素序列对训练后的转换子模型进行第二轮训练，使得模型能够结合音素的上下文信息，对偏差音素序列进行纠错，得到标准的转换文本，从而提高了模型的鲁棒性，能够对现实中含有噪声的音频进行更准确的语音识别。

下面继续说明本申请实施例提供的语音识别模型的训练装置555的实施为软件模块的示例性结构，在一些实施例中，如图12所示，图12是本申请实施例提供的语音识别模型的训练模型的一个可选的结构示意图，存储在存储器550的语音识别模型的训练装置555中的软件模块可以包括：

获取模块5551，用于获取原始音频样本，所述原始音频样本携带有第一文本标签；

泛化模块5552，用于对所述原始音频样本进行泛化处理，得到与所述原始音频样本对应的多个携带有所述第一文本标签的音频样本；

音素预测模块5553，用于通过所述声学子模型分别对各所述音频样本进行音素预测，得到对应各所述音频样本的音素序列；

文本转换模块5554，用于通过所述转换子模型分别对各所述音素序列进行文本转换，得到对应各所述音频样本的转换文本；

更新模块5555，用于分别获取各所述转换文本与所述第一文本标签之间的误差，并基于得到的误差更新所述语音识别模型的模型参数。

在一些实施例中，所述语音识别模型的训练装置，还包括：预训练模块，用于基于文本与音素的映射关系，对第二文本标签进行音素转换，得到对应所述第二文本标签的标准音素序列；通过所述转换子模型对所述标准音素序列进行文本转换，得到相应的目标转换文本；基于所述目标转换文本与所述第二文本标签之间的误差，更新所述转换子模型的模型参数，得到更新后的转换子模型；相应的，所述文本转换模块，还用于通过所述更新后的转换子模型，分别对各所述音素序列进行文本转换。

在一些实施例中，所述预训练模块，还用于对所述标准音素序列进行泛化处理，得到相应的多个偏差音素序列；相应的，所述文本转换模块，还用于通过所述更新后的转换子模型，分别对各所述音素序列及各所述偏差音素序列进行文本转换。

在一些实施例中，所述泛化模块，还用于获取多个干扰信息；分别基于各干扰信息，执行以下处理：对所述原始音频样本添加所述干扰信息。

在一些实施例中，所述泛化模块，还用于对所述原始音频样本执行多次以下处理：对所述原始音频样本进行至少一帧语音信号的更改，每一帧所述语音信号对应一个音素；其中，更改包括以下至少之一：音素删除、音素插入及音素替换。

在一些实施例中，所述文本转换模块，还用于通过所述转换子模型，分别针对各所述音素序列执行以下处理：对所述音素序列进行语义特征提取，得到相应的语义特征；基于所述语义特征，对所述音素序列进行文本转换，得到对应所述音素序列的多个候选词序列、及各所述候选词序列对应的评分；从所述多个候选词序列中，选取评分最高的候选词序列作为对应所述音频样本的转换文本。

在一些实施例中，所述文本转换模块，还用于基于所述语义特征，对所述音素序列进行文本转换，得到对应所述音素序列的多个候选词序列、及各所述候选词序列中每一个候选词的条件概率；基于所述候选词序列中每一个候选词的条件概率，分别确定各所述候选词序列对应的评分。

在一些实施例中，所述语音识别模型的训练装置，还包括：语音识别模块，用于获取待识别音频；通过所述声学子模型对所述待识别音频进行音素预测，得到对应所述待识别音频的目标音素序列；通过所述转换子模型对所述目标音素序列进行文本转换，得到对应所述待识别音频的转换文本。

在一些实施例中，所述转换子模型包括预转换子模型及重打分子模型，所述语音识别模块，还用于通过所述预转换子模型对所述目标音素序列进行文本转换，得到对应所述待识别音频的多个候选文本及各所述候选文本的第一评分；通过所述重打分子模型，分别对各所述候选文本进行评分预测，得到相应的第二评分；基于所述第一评分及所述第二评分，确定各所述候选文本的目标评分；从所述多个候选文本中选取目标评分最高的候选文本，作为对应所述待识别音频的转换文本。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。

本申请实施例提供了一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现本申请实施例提供的语音识别模型的训练方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4示出的语音识别模型的训练方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例能够训练得到鲁棒性强的语音识别模型，提高了语音识别的准确性。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种语音识别模型的训练方法，其特征在于，所述语音识别模型包括声学子模型和转换子模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述转换子模型分别对各所述音素序列进行文本转换，得到对应各所述音频样本的转换文本之前，所述方法还包括：

基于文本与音素的映射关系，对第二文本标签进行音素转换，得到对应所述第二文本标签的标准音素序列；

通过所述转换子模型对所述标准音素序列进行文本转换，得到相应的目标转换文本；

基于所述目标转换文本与所述第二文本标签之间的误差，更新所述转换子模型的模型参数，得到更新后的转换子模型；

相应的，所述通过所述转换子模型分别对各所述音素序列进行文本转换，包括：

通过所述更新后的转换子模型，分别对各所述音素序列进行文本转换。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对所述标准音素序列进行泛化处理，得到相应的多个偏差音素序列；

相应的，所述通过所述更新后的转换子模型，分别对各所述音素序列进行文本转换，包括：

通过所述更新后的转换子模型，分别对各所述音素序列及各所述偏差音素序列进行文本转换。

4.根据权利要求1所述的方法，其特征在于，所述对所述原始音频样本进行泛化处理，包括：

获取多个干扰信息；

分别基于各干扰信息，执行以下处理：

对所述原始音频样本添加所述干扰信息。

5.根据权利要求1所述的方法，其特征在于，所述对所述原始音频样本进行泛化处理，包括：

对所述原始音频样本执行多次以下处理：

对所述原始音频样本进行至少一帧语音信号的更改，每一帧所述语音信号对应一个音素；

其中，更改包括以下至少之一：音素删除、音素插入及音素替换。

6.根据权利要求1所述的方法，其特征在于，所述通过所述转换子模型分别对各所述音素序列进行文本转换，得到对应各所述音频样本的转换文本，包括：

通过所述转换子模型，分别针对各所述音素序列执行以下处理：

对所述音素序列进行语义特征提取，得到相应的语义特征；

基于所述语义特征，对所述音素序列进行文本转换，得到对应所述音素序列的多个候选词序列、及各所述候选词序列对应的评分；

从所述多个候选词序列中，选取评分最高的候选词序列作为对应所述音频样本的转换文本。

7.根据权利要求6所述的方法，其特征在于，所述基于所述语义特征，对所述音素序列进行文本转换，得到对应所述音素序列的多个候选词序列、及各所述候选词序列对应的评分，包括：

基于所述语义特征，对所述音素序列进行文本转换，得到对应所述音素序列的多个候选词序列、及各所述候选词序列中每一个候选词的条件概率；

基于所述候选词序列中每一个候选词的条件概率，分别确定各所述候选词序列对应的评分。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待识别音频；

通过所述声学子模型对所述待识别音频进行音素预测，得到对应所述待识别音频的目标音素序列；

通过所述转换子模型对所述目标音素序列进行文本转换，得到对应所述待识别音频的转换文本。

9.根据权利要求8所述的方法，其特征在于，所述转换子模型包括预转换子模型及重打分子模型，所述通过所述转换子模型对所述目标音素序列进行文本转换，得到对应所述待识别音频的转换文本，包括：

通过所述预转换子模型对所述目标音素序列进行文本转换，得到对应所述待识别音频的多个候选文本及各所述候选文本的第一评分；

通过所述重打分子模型，分别对各所述候选文本进行评分预测，得到相应的第二评分；

基于所述第一评分及所述第二评分，确定各所述候选文本的目标评分；

从所述多个候选文本中选取目标评分最高的候选文本，作为对应所述待识别音频的转换文本。

10.一种语音识别模型的训练装置，其特征在于，所述语音识别模型包括声学子模型和转换子模型，所述装置包括：

11.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至9任一项所述的语音识别模型的训练方法。

12.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至9任一项所述的语音识别模型的训练方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9任一项所述的语音识别模型的训练方法。