CN115273856A

CN115273856A - 语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN115273856A
Application number: CN202210910575.1A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-01

Abstract

本申请公开了一种语音识别方法、装置、电子设备及存储介质，在对目标对象的语音数据进行语音识别时，同步获取语音数据的领域信息，基于该领域信息，可以确定出与语音数据的领域适配的第二语音识别模型，从而能够改善语音识别应用中语音数据和处理语音数据的模型领域不完全对应的问题；并且，在具体的识别过程中，先通过基础的第一语音识别模型对语音数据进行识别，得到初始文本数据；后续再根据确定的第二语音识别模型，结合语音数据和已经识别到的初始文本数据的特征信息，在语音和文本两种模态下进行特征的深层次识别，从而得到目标文本数据，如此，能够有效提高语音数据识别结果的准确性。本申请的技术方案可应用于语音识别技术领域。

Description

语音识别方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，特别是涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的发展，越来越多相关的应用被开发出来，给人们的工作、学习带来了诸多便捷。其中，自动语音识别技术是一种可以将输入的语音数据识别转换为文本数据的技术，当前已经广泛应用在工业、家电、通信、医疗服务以及电子产品等各个领域。

相关技术中，语音识别技术往往基于机器学习模型实现，通过模型提取语音数据的特征信息来识别文本内容。在实际应用中发现，模型训练过程中所用到的训练数据和实际投入运行时接收到的数据，可能存在领域不完全对应的问题。例如，模型主要是基于成人的语音数据训练得到的，当面临针对儿童的语音数据的识别需求时，存在识别结果准确性较低的问题。

发明内容

本申请实施例提供了一种语音识别方法、装置、电子设备及存储介质，能够提高语音识别的准确性。

一方面，本申请实施例提供了一种语音识别方法，所述方法包括：

获取目标对象的语音数据和所述语音数据的领域信息；

将所述语音数据输入到第一语音识别模型中进行语音识别处理，得到初始文本数据；

根据所述领域信息，确定与所述语音数据的领域适配的第二语音识别模型；

通过所述第二语音识别模型提取所述语音数据的第一特征信息和所述初始文本数据的第二特征信息，并基于所述第一特征信息和所述第二特征信息进行语音识别处理，得到目标文本数据。

另一方面，本申请实施例还提供了一种语音识别装置，所述装置包括：

获取模块，用于获取目标对象的语音数据和所述语音数据的领域信息；

第一识别模块，用于将所述语音数据输入到第一语音识别模型中进行语音识别处理，得到初始文本数据；

适配模块，用于根据所述领域信息，确定与所述语音数据的领域适配的第二语音识别模型；

第二识别模块，用于通过所述第二语音识别模型提取所述语音数据的第一特征信息和所述初始文本数据的第二特征信息，并基于所述第一特征信息和所述第二特征信息进行语音识别处理，得到目标文本数据。

进一步，所述第一语音识别模型包括音频编码器和第一文本解码器；所述第一识别模块，包括：

音频编码子模块，用于将所述语音数据输入到所述第一语音识别模型中，通过所述音频编码器对所述语音数据进行编码处理，得到所述语音数据的第三特征信息；

第一文本解码子模块，用于通过所述第一文本解码器对所述第三特征信息进行解码处理，得到所述初始文本数据。

进一步，所述第二语音识别模型包括语音适配子模型和文本适配子模型；所述第二识别模块，包括：

第一特征提取子模块，用于通过所述语音适配子模型提取所述语音数据的第一特征信息；

第二特征提取子模块，用于通过所述文本适配子模型提取所述初始文本数据的第二特征信息；

特征融合子模块，用于对所述第一特征信息和所述第二特征信息进行融合处理，得到融合特征信息；

识别子模块，用于根据所述融合特征信息，得到所述目标文本数据。

进一步，所述装置还包括第一训练模块，所述第一训练模块包括：

第一获取子模块，用于获取第一领域的第一语音样本数据、所述第一语音样本数据的第一文本标签数据和所述第一语音样本数据的第一文本识别数据；所述第一文本标签数据用于表征所述第一语音样本数据的真实文本内容，所述第一文本识别数据通过使用训练好的第一语音识别模型对所述第一语音样本数据进行语音识别处理得到；

第一处理子模块，用于将所述第一语音样本数据和所述第一文本识别数据输入到初始化的第二语音识别模型中进行语音识别处理，得到所述第二语音识别模型输出的第二文本识别数据；

第一损失值计算子模块，用于根据所述第二文本识别数据和所述第一文本标签数据，确定训练的第一损失值；

第一更新子模块，用于根据所述第一损失值，对所述第二语音识别模型的参数进行更新，得到训练好的第二语音识别模型。

进一步，所述装置还包括扩增模块，所述扩增模块包括：

挑选子模块，用于从所述第一文本标签数据或者所述第一文本识别数据中随机挑选原始文本数据；

变换子模块，用于对所述原始文本数据进行变换，构造得到虚拟文本识别数据；

数据添加子模块，用于通过所述虚拟文本识别数据，对所述第一文本识别数据进行扩增。

进一步，上述变换子模块具体用于：

对所述原始文本数据进行分词处理，得到所述原始文本数据对应的原始分词词组；所述原始分词词组中包括有若干词语；

对所述原始分词词组进行变换，得到变换后的目标分词词组；

根据所述目标分词词组，构造得到所述虚拟文本识别数据。

进一步，上述变换子模块具体用于执行以下步骤中的至少一种：

对至少一个所述词语进行删除处理；

或者，对至少一个所述词语进行替换处理；

或者，在至少两个相邻的所述词语之间插入预设词语。

进一步，上述变换子模块具体用于：

提取待替换词语的第一音频特征信息；

在词典中进行匹配搜索，确定目标词语；其中，所述目标词语的第二音频特征信息和所述第一音频特征信息之间的相似度高于预设阈值；

通过所述目标词语对所述待替换词语进行替换处理。

进一步，所述装置还包括第二训练模块，所述第二训练模块包括：

第二处理子模块，用于将所述第一语音样本数据输入到所述语音适配子模型中进行语音识别处理，得到第三文本识别数据；

第二损失值计算子模块，用于根据所述第三文本识别数据和所述第一文本标签数据，确定训练的第二损失值；

第二更新子模块，用于根据所述第二损失值，对所述语音适配子模型的参数进行更新，得到训练好的语音适配子模型；

第三处理子模块，用于将所述第一文本识别数据输入到所述文本适配子模型中进行文本内容的领域适配处理，得到第四文本识别数据；

第三损失值计算子模块，用于根据所述第四文本识别数据和所述第一文本标签数据，确定训练的第三损失值；

第三更新子模块，用于根据所述第三损失值，对所述文本适配子模型的参数进行更新，得到训练好的文本适配子模型；

初始化子模块，用于基于所述训练好的语音适配子模型和所述训练好的文本适配子模型，得到初始化的第二语音识别模型。

进一步，所述文本适配子模型包括文本编码器和第二文本解码器；所述第三处理子模块具体用于：

将所述第一文本识别数据输入到所述文本适配子模型中，通过所述文本编码器对所述第一文本识别数据进行编码处理，得到所述第一文本识别数据的第四特征信息；

通过所述第二文本解码器对所述第四特征信息进行解码处理，得到所述第四文本识别数据。

进一步，所述装置还包括：

第二获取模块，用于获取第二领域的第二语音样本数据、所述第二语音样本数据的第二文本标签数据；所述第二文本标签数据用于表征所述第二语音样本数据的真实文本内容；

第三训练模块，用于通过所述第二语音样本数据和所述第二文本标签数据，对所述第一语音识别模型进行训练，得到训练好的第一语音识别模型；

构建模块，用于根据所述训练好的第一语音识别模型的模型结构和模型参数，构建初始化的语音适配子模型。

另一方面，本申请实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的语音识别方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现上述的语音识别方法。

另一方面，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该电子设备执行实现上述的语音识别方法。

本申请实施例至少包括以下有益效果：本申请实施例在对目标对象的语音数据进行语音识别时，同步获取语音数据的领域信息，基于该领域信息，可以确定出与语音数据的领域适配的第二语音识别模型，从而能够改善语音识别应用中语音数据和处理语音数据的模型领域不完全对应的问题；并且，在具体的识别过程中，先通过基础的第一语音识别模型对语音数据进行识别，得到初始文本数据；后续再根据确定的第二语音识别模型，结合语音数据和已经识别到的初始文本数据的特征信息，在语音和文本两种模态下进行特征的深层次识别，从而得到目标文本数据，如此，能够有效提高语音数据识别结果的准确性。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例提供的一种语音识别方法的实施环境示意图；

图2为本申请实施例提供的另一种语音识别方法的实施环境示意图；

图3为本申请实施例提供的一种语音识别方法的流程示意图；

图4为本申请实施例提供的一种第一语音识别模型的模型结构示意图；

图5为本申请实施例提供的一种第二语音识别模型的模型结构示意图；

图6为本申请实施例提供的一种对第一特征信息和第二特征信息进行融合处理的示意图；

图7为本申请实施例提供的一种训练过程中的数据流向示意图；

图8为本申请实施例提供的一种文本适配子模型的模型结构示意图；

图9为本申请实施例提供的各个识别策略对应的WER数据示意图；

图10为本申请实施例提供的各个识别策略对应的一种语音识别案例结果示意图；

图11为本申请实施例提供的一种口语测试应用场景的业务数据流向图；

图12为本申请实施例提供的口语测试APP的界面示意图；

图13为本申请实施例提供的视频播放软件的界面示意图；

图14为本申请实施例提供的一种语音识别装置的结构示意图；

图15为本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在对本申请实施例进行详细说明之前，首先对本申请实施例中涉及的部分名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

自动语音识别技术(Automatic Speech Recognition，ASR)：该技术是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术，可以将语音信息转换为文本信息。

迁移学习(Transfer Learning)，一种机器学习方法，可以把一个领域(源域)的知识，迁移到另外一个领域(目标域)，使得目标域能够取得更快、更好的学习效果。

源域：迁移学习过程中被迁移知识所在的知识域，存在有大量的通用知识供迁移学习。

目标域：迁移学习过程中被迁移知识所要迁移到的知识域，也即机器学习应用中目标任务所在的领域。

WER(word error rate)，衡量ASR错误程度的指标，包括ASR识别后产生的插入、删除和替换等错误，WER越大，说明识别的效果越差；反之，WER越小，说明识别的效果越好。

人工智能(Artificial Intelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，它专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，机器学习(深度学习)通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自然语言处理(Nature Language processing，NLP)，是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，自然语言处理是一门融语言学、计算机科学、数学于一体的科学。这一领域涉及的自然语言即人们日常使用的语言，所以它与语言学的研究也有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

区块链(Blockchain)，是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链可以包括公有链、联盟链以及私有链，其中，公有链是指任何人均可以随时进入到区块链网络中读取数据、发送数据或竞争记账的区块链；联盟链是指若干组织或机构共同参与管理的区块链；私有链是指存在一定的中心化控制的区块链，私有链的账本的写入权由某个组织或机构控制，数据的访问和使用有严格的权限管理。

本申请实施例中所提供的语音识别方法涉及人工智能技术，其中，主要涉及人工智能技术领域内的自然语言处理技术和机器学习/深度学习等技术。具体地，本申请实施例中提供的方法，可以采用自然语言处理技术、机器学习技术对语音数据和文本数据进行处理，从而得到更为准确的语音识别结果。

本申请实施例中提供的方法可以在数据处理、人机交互等应用场景中被执行：例如，在数据处理的应用场景中，存在有对语音数据进行实时翻译、记录的需求。在该场景下，可以使用本申请实施例中提供的识别方法，对语音数据进行识别处理，从而将语音数据转换为对应的文本数据。在人机交互的应用场景中，比如在智能交通系统以及智能车路协同系统中，通过对驾驶员的语音指令进行识别和分析，能够有助于生成准确度更高的答复信息，从而方便提供导航指引。

当然，需要说明的是，以上的应用场景仅起到示例性的作用，并不意味着对本申请实施例中方法的实际应用形成限制。本领域技术人员可以理解，在不同应用场景中，都可以利用本申请实施例中提供的方法执行指定的任务。

并且，需要补充说明的是，在本申请的各个具体实施方式中，当涉及到需要根据目标对象的信息、目标对象的行为数据、目标对象的历史数据以及目标对象的位置信息等与目标对象身份或特性相关的数据进行相关处理时，都会先获得目标对象的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本申请实施例需要获取目标对象的敏感信息时，会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意，在明确获得目标对象的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的目标对象相关数据。

基于此，本申请实施例提供了一种语音识别方法、装置、电子设备及存储介质，在对目标对象的语音数据进行语音识别时，同步获取语音数据的领域信息，基于该领域信息，可以确定出与语音数据的领域适配的第二语音识别模型，从而能够改善语音识别应用中语音数据和处理语音数据的模型领域不完全对应的问题；并且，在具体的识别过程中，先通过基础的第一语音识别模型对语音数据进行识别，得到初始文本数据；后续再根据确定的第二语音识别模型，结合语音数据和已经识别到的初始文本数据的特征信息，在语音和文本两种模态下进行特征的深层次识别，从而得到目标文本数据，如此，能够有效提高语音数据识别结果的准确性。

下面结合附图，对本申请实施例的具体实施方式进行详细说明。

参照图1，图1示出了本申请实施例中提供的语音识别方法一种实施环境的示意图。在该实施环境中，主要涉及的软硬件主体包括第一终端110。

具体地，第一终端110中可以安装有相关的应用程序，该应用程序中可以包括有语音识别组件和显示组件，其中，语音识别组件可以基于第一终端110获取到的语音数据，执行本申请实施例中提供的语音识别方法，从而得到对应的语音识别结果，即包含语音数据内容的文本数据，并通过显示组件显示在应用程序界面上供浏览。需要说明的是，此处，第一终端110获取的语音数据，既可以是通过其他设备采集得到的语音数据后传输给第一终端110的，也可以是由第一终端110基于自身的语音数据采集应用程序或者语音数据采集组件采集得到的。

另外，参照图2，图2为本申请实施例提供的语音识别方法另一种实施环境的示意图，该实施环境主要涉及的软硬件主体包括第二终端210和服务器220，其中，第二终端210和服务器220之间通信连接。

具体地，服务器220中可以提供语音识别服务，第二终端210中可以安装有相关的应用程序，该应用程序中可以包括有通信组件和显示组件。当第二终端210存在语音识别需求时，可以将获取到的语音数据通过通信组件传输给服务器220，服务器220可以执行本申请实施例中提供的语音识别方法，从而得到对应的语音识别结果，即包含语音数据内容的文本数据，并传输给第二终端210中的通信组件，该通信组件进而可以将文本数据传输给显示组件，以使其显示在应用程序界面上供浏览。需要说明的是，此处，第二终端210获取的语音数据，既可以是通过其他设备采集得到的语音数据后传输给第二终端210的，也可以是由第二终端210基于自身的语音数据采集应用程序或者语音数据采集组件采集得到的。

其中，以上实施例的第一终端110和第二终端210可以包括智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表以及车载终端等，但并不局限于此。

服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

另外，服务器220还可以是区块链网络中的一个节点服务器。

第二终端210与服务器220之间可以通过无线网络或有线网络建立通信连接。该无线网络或有线网络使用标准通信技术和/或协议，网络可以设置为因特网，也可以是其它任何网络，例如包括但不限于局域网(Local Area Network，LAN)、城域网(MetropolitanArea Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

当然，可以理解的是，图1和图2中的实施环境只是本申请实施例中提供的语音识别方法一些可选的应用场景，实际的应用并不固定为图1和图2所示出的软硬件环境。本申请实施例提供的方法可应用于各种技术领域，本申请对此不作具体限制。

参照图3，图3为本申请实施例提供的语音识别方法的流程示意图，该语音识别方法可以由终端单独执行，也可以由终端与服务器配合执行，该语音识别方法包括但不限于以下步骤301至步骤304。

步骤301：获取目标对象的语音数据和语音数据的领域信息。

本步骤中，目标对象可以包括任一存在语音识别需求的人员或者其他能够输出语音数据的装置及设备，但并不局限于此，本申请对此不作具体限定。在对目标对象进行语音识别时，需要获取目标对象的语音数据。具体地，本步骤中，对于语音数据的获取渠道不做限制，其既可以是直接通过收音设备从目标对象所处的环境中采集得到的，也可以是通过数据传输接口或者远程通信传输从其他电子设备及计算机系统获取得到的。

本步骤中，在对目标对象的语音数据进行语音识别时，还获取语音数据的领域信息。此处，领域信息用于表征语音数据所对应或者涵盖的知识域，其属于迁移学习任务中对不同数据进行划分的一种方式。一般来说，将分布不同的数据映射到同一个特征空间时，属于同一知识域(领域)的数据对应的特征在该空间中的距离会尽可能近。具体地，对于本申请中的语音数据来说，其对应的领域信息的划分类型和所涵盖的数据范围可以根据需要灵活设定，比如说，在一些实施例中，可以按照语音数据对应的语种来划分其所处的领域。如此，领域信息可以包括“英语”、“法语”和“德语”等类型信息。在一些实施例中，可以按照目标对象的一些属性来对语音数据进行划分，例如，可以按照目标对象的性别、年龄等特征区分语音数据的领域信息。本申请实施例中，领域信息具体的数据格式以及所对应的实际信息含义可根据需要灵活设定，例如其数据格式可以包括数字、向量、矩阵或者张量中的至少一种，本申请对此不做限制。

可以理解的是，在一些实施例中，语音数据的领域信息可以综合采用多种划分标准进行细化。例如，某个目标对象的语音数据所对应的领域信息可以包括语种、性别以及年龄等多个维度的信息内容，示例性地，该领域信息的内容可以具体为“成年男性，法语语种”。当然，具体的领域信息划分标准可以根据需要来执行，一般来说，领域信息的划分越细致，相应得到的语音识别结果也就越准确。

需要说明的是，本申请实施例中，不同的领域信息，其所涵盖的数据范围可以存在部分重叠或者完全覆盖的情况，本申请对此不作限制。

步骤302：将语音数据输入到第一语音识别模型中进行语音识别处理，得到初始文本数据。

本步骤中，在获取得到目标对象的语音数据后，可以将语音数据输入到一个语音识别模型中进行语音识别处理。此处的语音识别模型记为第一语音识别模型，本申请实施例中，对第一语音识别模型的结构不作具体限制，其可以采用机器学习领域内任一种常用的算法进行搭建。

需要说明的是，在机器学习领域中，模型在投入使用前需要进行训练，以改善模型对输入数据的预测精度。对于本申请的应用领域来说，第一语音识别模型需要通过批量的语音数据和其对应的真实文本数据进行训练，以提高模型将语音数据转换为文本数据的识别准确度。不过，本申请中对第一语音识别模型的领域并未做约束，换句话说，第一语音识别模型在训练过程中所使用到的训练数据，可能存在和目标对象的语音数据领域不完全对应的问题。因此，正如背景技术部分所提到的，第一语音识别模型输出的初始文本数据也可能存在不准确的情况。故而，本申请实施例中还通过后续步骤对其进行领域适配的修正，以提高得到的文本数据的识别准确性。

步骤303：根据领域信息，确定与语音数据的领域适配的第二语音识别模型。

本步骤中，在获取得到目标对象的语音数据的领域信息后，可以根据该领域信息确定和语音数据的领域适配的语音识别模型，本申请实施例中，将该语音识别模型记为第二语音识别模型。此处，需要说明的是，本申请中，可以预先根据领域信息的个数，建立多个第二语音识别模型，每个领域信息分别和第二语音识别模型对应。对于每个第二语音识别模型来说，和语音数据的领域适配，指的是其采用和语音数据的领域信息对应的训练数据训练得到。从迁移学习的角度看，在本申请实施例中，第一语音识别模型可以视为通过源域的数据训练得到的语音识别模型，第二语音识别模型可以视为通过目标域的数据训练得到的语音识别模型。具体地，例如，在一些实施例中，第二语音识别模型包括基于英语语音数据训练得到的语音识别模型、基于法语语音数据训练得到的语音识别模型和基于德语语音数据训练得到的语音识别模型，当某个语音数据的领域信息为德语的类型信息时，可以将基于德语语音数据训练得到的语音识别模型确定为适配的第二语音识别模型。

需要说明的是，本申请实施例中，第二语音识别模型的个数可以是和领域信息的个数完全相同，也可以少于领域信息的个数。特别地，当第二语音识别模型的个数少于领域信息的个数时，可以将训练数据和领域信息匹配程度最高的模型确定为和语音数据的领域适配的第二语音识别模型。

步骤304：通过第二语音识别模型提取语音数据的第一特征信息和初始文本数据的第二特征信息，并基于第一特征信息和第二特征信息进行语音识别处理，得到目标文本数据。

本步骤中，在确定到与语音数据的领域适配的第二语音识别模型后，可以采用第二语音识别模型进行深层次的语音识别处理，从而得到目标文本数据，如此，能够有效提高语音数据识别结果的准确性。具体地，对于本申请实施例中采用的第二语音识别模型来说，其可以提取两部分的特征信息，其中，第一部分的特征信息可以通过原始的目标对象的语音数据提取得到；第二部分的特征信息可以通过对第一语音识别模型输出的初始文本数据进行提取得到。本申请实施例中，将第一部分的特征信息记为第一特征信息，将第二部分的特征信息记为第二特征信息。类似地，本申请实施例中，第一特征信息和第二特征信息的数据格式可以包括数字、向量、矩阵或者张量中的至少一种，本申请对此不作限制。并且，可以理解的是，本申请实施例中，后述的特征信息都适用于以上数据格式的实施方式。

可以理解的是，第一特征信息由和语音数据的领域适配的第二语音识别模型提取得到，基于语音模态的领域适应，可以很好地进行声学特征的适配，也即第一特征信息能够更好地反映出具有领域特性的语音内容。第二特征信息是第二语音识别模型在原始的文本数据识别结果上，进一步提取得到的特征信息，其可以在文本模态上进行领域自适应，使得模型在基础的文本内容上更好地向语音数据所处的领域做细微调整。并且，本申请实施例中，将上述两部分特征信息结合起来进行语音识别处理，如此，基于语音模态和文本模态上自适应领域特征的结合，可以达到更好的语音识别效果。

具体地，在一种可能的实现方式中，第一语音识别模型包括音频编码器和第一文本解码器；将语音数据输入到第一语音识别模型中进行语音识别处理，得到初始文本数据，包括：

将语音数据输入到第一语音识别模型中，通过音频编码器对语音数据进行编码处理，得到语音数据的第三特征信息；

通过第一文本解码器对第三特征信息进行解码处理，得到初始文本数据。

参照图4，本申请实施例中，提出了一种可选的第一语音识别模型的模型结构，该模型结构属于序列到序列(Sequence to Sequence)模型，即Seq2seq模型。序列到序列模型是现今序列任务上较常使用的模型之一，其擅长处理语音数据、文本数据、视频数据等一系列具有连续关系的数据。具体地，序列到序列模型的模型框架一般包括两部分，编码器(encoder)部分和解码器(decoder)部分，本申请实施例，将编码器部分记为音频编码器，将解码器部分记为第一文本解码器。

序列到序列模型中的编码器和解码器，可以采用递归神经网络(RecurrentNeural Network，RNN)来实现，比如说常用的长短期记忆网络(Long-Short Term Memory，LSTM)。当然，可以理解的是，上述的编码器和解码器可以根据需要灵活调整，本申请对此不作限制。具体地，本申请实施例中，采用预训练的声学模型Wav2Vec 2.0作为音频编码器，采用BERT模型作为第一文本解码器。Wav2vec 2.0是一种基于大量无标签数据进行自监督预训练的模型，它由多层卷积的特征编码层和多层transformer构成，通过输入原始音频信号到音频编码器中，可以得到每一帧的音频表示。BERT模型采用了双向的自注意机制，能够更好地捕获语句中上下文之间的联系，当前已被广泛应用于文本处理领域中。

对于图4示出的模型结构，其在应用时，可以将语音数据输入到第一语音识别模型中，音频编码器可以对输入的语音数据进行编码处理，提取出能够映射该语音数据大致内容的特征信息，本申请中将其记为第三特征信息。

具体地，在一些实施例中，第三特征信息可以包括语音数据的声学特征信息，例如可以是语音数据的音频频谱的数字特征。具体地，可以从语音数据的音频频谱中按照预定的规则选取一些时间频率点，将其编码为数字序列，该数字序列即可以作为语音数据的第三特征信息。当然，本申请实施例中采用的特征提取算法可以根据需要任选，例如在一些实施例中，可以对语音数据按照一定的帧叠进行分帧和加窗，得到多个音频帧，具体地，此处分帧指的是按预设规则将整段的语音数据切成多段，每一段即为一个音频帧，加窗指的是使用预设的窗函数对每个音频帧进行截取，从而使分帧后的语音数据更加连贯，表现出更好的周期函数特征，该窗函数可以是矩形窗、汉明窗或者高斯窗等的任意一种。然后对获取的音频帧进行快速傅里叶变换(FFT，Fast Fourier Transformation)，得到每个音频帧的频谱，选取每帧频谱中的峰值信号作为该频谱的数字特征来构造语音数据的声学特征信息；在一些实施例中，在得到音频帧的频谱后，也可以在频域上将每个音频帧划分出多个子带，然后计算任意两个相邻子带之间的能量差分的差值，基于得到的差值来构造语音数据的声学特征信息。上述的方式在编码时一般都是将数字特征转换为哈希序列，即以哈希序列作为音频数据的声学特征信息。在一些实施例中，还可以通过神经网络模型等构成的音频编码器直接提取语音数据的音频数字特征作为第三特征信息。

当然，上述基于音频频谱提取第三特征信息的方式仅用于举例说明，并不意味着对本申请的实际实施形成限制，例如，本申请中还可以基于发音准确度、流利度、韵律度、信噪比、声音强度等维度提取第三特征信息。并且，在一些实施例中，还可以将多种维度提取得到的第三特征信息整合起来得到新的第三特征信息，比如说可以将多种向量形式的第三特征信息通过拼接得到一个新的向量形式的第三特征信息。

在得到第三特征信息后，可以通过第一文本解码器对第三特征信息进行解码处理，第一文本解码器可以将由音频编码器编码得到的第三特征信息还原成对应的文本序列数据，即初始文本数据。

实际处理过程中，以图4中示出的模型结构为例，语音数据为包括多组音频数据(x₁、x₂...x_m，m为正整数)的序列数据，将其输入到音频编码器中后，由音频编码器处理得到的第三特征信息包括多个定长向量。这些定长向量依次传递给第一文本解码器，第一文本解码器会使用该向量作为隐藏层输入和一个开始标志位作为当前位置的输入；得到的输出向量(如y₁、y₂...y_k，k为正整数)分别对应的一个单位的文本数据(一般对应一个词)。并且，第一文本编码器会将映射输出的输出向量传递给下一个单元节点，从而完成对整个初始文本数据的序列输出。基于输出向量y₁、y₂...y_k组成的序列，可以通过词典翻译等方式得到对应的初始文本数据。

具体地，在一种可能的实现方式中，第二语音识别模型包括语音适配子模型和文本适配子模型；通过第二语音识别模型提取语音数据的第一特征信息和初始文本数据的第二特征信息，并基于第一特征信息和第二特征信息进行语音识别处理，得到目标文本数据，包括：

通过语音适配子模型提取语音数据的第一特征信息；

通过文本适配子模型提取初始文本数据的第二特征信息；

对第一特征信息和第二特征信息进行融合处理，得到融合特征信息；

根据融合特征信息，得到目标文本数据。

参照图5，本申请实施例中，提供了一种可选的第二语音识别模型的模型结构，在图5示出的第二语音识别模型中，其包括有语音适配子模型510和文本适配子模型520。其中，语音适配子模型510用于提取语音数据的第一特征信息，文本适配子模型520用于提取初始文本数据的第二特征信息。该语音适配子模型510和文本适配子模型520均可以采用序列到序列模型来实现，本申请对此不作具体限制。

在使用第二语音识别模型进行语音识别时，可以对第一特征信息和第二特征信息进行融合处理，得到融合特征信息。此处，对第一特征信息和第二特征信息进行特征融合的方式可以包括数据拼接、数据加权等，本申请对此不作具体限制。然后，基于融合特征信息，可以通过全连接层及Softmax层映射得到对应的目标文本数据。如此，基于语音模态和文本模态上自适应领域特征的融合，可以达到更好的语音识别效果。

参照图6，图6示出了一种对第一特征信息和第二特征信息进行融合处理的具体流程示意图。从图6中可以看出，本申请实施例中，在对第一特征信息和第二特征信息进行融合处理时，可以在每个单词的粒度上进行融合。具体地，对于第一文本编码器输出的第一特征信息，可以按照其对应的单词在文本数据中的位置对其进行编号，类似地，也对第二文本编码器输出的第二特征信息进行编号。然后在进行特征融合时，对编号相同的第一特征信息和第二特征信息进行融合，并且针对每个融合后的融合特征信息，采用独立的Softmax层映射得到对应的目标文本数据。

需要指出的是，本申请实施例中，第一特征信息可以是语音适配子模型对输入的语音数据进行处理过程中得到的任一特征信息，并不局限于采用第一文本解码器的输出作为第一特征信息。类似地，第二特征信息也可以是文本适配子模型对输入的初始文本数据进行处理过程中得到的任一特征信息，并不局限于采用第二文本解码器的输出作为第二特征信息。

前述部分内容介绍了本申请实施例中提供的第二语音识别模型进行语音识别时的数据处理流程。在机器学习领域，模型在投入使用前一般需要经过训练调参，因此本申请实施例中，还提供一种模型的训练方法，其中包括第一语音识别模型和第二语音识别模型的训练过程。参照图7，图7示出了本申请实施例整体训练过程中的数据流向示意图。具体地，本申请实施例中，训练数据中主要包括语音样本数据和文本标签数据，基于训练数据，可以对第一语音识别模型进行训练，得到该模型输出的初始文本数据；基于语音样本数据和文本标签数据，可以对第二语音识别模型中负责语音模态领域自适应的语音适配子模型进行训练，基于文本标签数据和初始文本数据，可以对第二语音识别模型中负责文本模态领域自适应的文本适配子模型进行训练。并且，还可以基于语音样本数据、初始文本数据和文本标签数据，对第二语音识别模型的特征融合能力进行训练，从而可以提高第二语音识别模型输出的目标文本数据的准确度。

具体地，在本申请实施例中，为了提高训练效率和训练得到的第二语音识别模型的识别效果，第二语音识别模型的训练过程可以采用两阶段网络训练的方式实现。其中，第一阶段主要对第二语音识别模型中的语音适配子模型和文本适配子模型进行训练，提高两者提取特征信息的效果；第二阶段则对第二语音识别模型的整体进行训练，提高第二语音识别模型对特征信息进行融合的效果，从而改善模型的语音识别能力。

下面，对本申请实施例中第二语音识别模型的两阶段训练过程进行详细描述。

本申请实施例中，首先对第二语音识别模型进行第一阶段的训练，第一阶段的训练过程可以记为初始化训练，该初始化训练过程可以包括：

获取第一领域的第一语音样本数据、第一语音样本数据的第一文本标签数据和第一语音样本数据的第一文本识别数据；第一文本标签数据用于表征第一语音样本数据的真实文本内容，第一文本识别数据通过使用训练好的第一语音识别模型对第一语音样本数据进行语音识别处理得到；

将第一语音样本数据输入到语音适配子模型中进行语音识别处理，得到第三文本识别数据；

根据第三文本识别数据和第一文本标签数据，确定训练的第二损失值；

根据第二损失值，对语音适配子模型的参数进行更新，得到训练好的语音适配子模型；

将第一文本识别数据输入到文本适配子模型中进行文本内容的领域适配处理，得到第四文本识别数据；

根据第四文本识别数据和第一文本标签数据，确定训练的第三损失值；

根据第三损失值，对文本适配子模型的参数进行更新，得到训练好的文本适配子模型；

基于训练好的语音适配子模型和训练好的文本适配子模型，得到初始化的第二语音识别模型。

本申请实施例中，在对第二语音识别模型进行训练时，可以获取第一领域的第一语音样本数据、第一语音样本数据的第一文本标签数据和第一语音样本数据的第一文本识别数据。此处，第一领域指的是第二语音识别模型后续可以处理的语音数据的领域范围，其具体所涵盖的数据范围大小可以根据需求来设定，本申请不作限制。需要说明的是，在本申请实施例中，实际应用时，可以训练多个不同的第二语音识别模型，各个第二语音识别模型对应有的不同的第一领域。此处，不同的第一领域指的是其领域所涵盖的数据范围不完全相同，换言之，不同的第一领域，其所涵盖的数据范围可以存在部分重叠或者完全覆盖的情况，本申请对此不作限制。第一领域内的语音数据，记为第一语音样本数据，第一语音样本数据可以根据第一领域的范围来获取，例如，当第一领域为英文领域的语音数据时，可以获取批量的英语语音数据作为第一语音样本数据；当第一领域为儿童的语音数据时，可以获取批量的儿童的语音数据作为第一语音样本数据。本申请实施例中，还同步获取第一文本标签数据和第一文本识别数据，其中，第一文本标签数据用于表征第一语音样本数据的真实文本内容，第一文本识别数据则通过将第一语音样本数据输入到训练好的第一语音识别模型得到。

在得到上述的训练数据后，可以将第一语音样本数据输入到语音适配子模型中进行语音识别处理，语音适配子模型的语音识别处理过程可以和前述的第一语音识别模型类似，本申请在此不作赘述。将语音适配子模型输出的文本数据记为第三文本识别数据，本申请实施例中，可以基于第三文本识别数据和第一文本标签数据，确定语音适配子模型识别的准确度。具体地，可以确定第三文本识别数据和第一文本标签数据之间的偏差，得到语音适配子模型对应的损失值，记为第二损失值。得到第二损失值后，可以根据第二损失值的大小评估语音适配子模型识别的准确性，以对语音适配子模型进行反向传播训练，更新其内部的相关参数。

具体地，对于机器学习模型来说，它预测的准确性可以通过损失函数(LossFunction)来衡量，损失函数是定义在单个训练数据上的，用于衡量一个训练数据的预测误差，具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时，一个训练数据集有很多训练数据，因此一般采用代价函数(CostFunction)来衡量训练数据集的整体误差，代价函数是定义在整个训练数据集上的，用于计算所有训练数据的预测误差的平均值，能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说，基于前述的代价函数，再加上衡量模型复杂度的正则项即可作为训练的目标函数，基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多，例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数，在此不再一一阐述。

对于语音适配子模型来说，单个训练数据为第一语音样本数据，第一语音样本数据的标签为第一文本标签数据，模型对该训练数据的预测结果为第三文本识别数据。本申请实施例中，可以从前述的损失函数种类中任选一种损失函数来确定训练的损失值，也即第一文本标签数据和第三文本识别数据之间的第二损失值。例如，可以通过以下的交叉熵损失函数计算第二损失值：

式中，L_fuse表示第二损失值，i表示第一文本标签数据中的单词编号，n表示第一文本标签数据中的单词个数，

表示第一文本标签数据中第i个单词的标签；

表示语音适配子模型输出的第三文本识别数据中第i个单词的预测概率分布。

基于训练的第二损失值，采用反向传播算法对语音适配子模型的参数进行更新，迭代预设的轮次即可得到训练好的语音适配子模型。

类似地，本申请实施例中，对于文本适配子模型的训练过程来说，可以将第一文本识别数据输入到文本适配子模型中，进行文本内容的领域适配处理。将文本适配子模型输出的文本数据记为第四文本识别数据，根据第四文本识别数据和第一文本标签数据，可以确定文本适配子模型对文本内容进行适配的准确度。具体地，可以确定第四文本识别数据和第一文本标签数据之间的偏差，得到文本适配子模型对应的损失值，记为第三损失值。得到第三损失值后，可以根据第三损失值的大小评估文本适配子模型对文本内容进行适配的准确性，以对文本适配子模型进行反向传播训练，更新其内部的相关参数。具体的训练过程和前述的语音适配子模型相近，在此不再赘述。

具体地，在一种可能的实现方式中，文本适配子模型包括文本编码器和第二文本解码器；将第一文本识别数据输入到文本适配子模型中进行文本内容的领域适配处理，得到第四文本识别数据，包括：

将第一文本识别数据输入到文本适配子模型中，通过文本编码器对第一文本识别数据进行编码处理，得到第一文本识别数据的第四特征信息；

通过第二文本解码器对第四特征信息进行解码处理，得到第四文本识别数据。

参照图8，本申请实施例中，提出了一种可选的文本适配子模型的模型结构，该模型结构也属于序列到序列模型。本申请实施例中，将其中的编码器部分记为文本编码器，将解码器部分记为第二文本解码器。

类似地，文本适配子模型中的文本编码器和第二文本解码器，同样可以采用递归神经网络(Recurrent Neural Network，RNN)来实现，并且可以根据需要灵活调整，本申请对此不作限制。具体地，本申请实施例中，采用BERT模型作为文本编码器和第二文本解码器。

对于图8示出的模型结构，其在应用时，可以将第一文本识别数据输入到文本编码器中，文本编码器可以对输入的第一文本识别数据进行编码处理，提取出能够映射该第一文本识别数据大致内容的特征信息，本申请中将其记为第四特征信息。

具体地，在一些实施例中，若第一文本识别数据的数据格式是文本格式，输入到文本编码器中可以对其进行编码转换，将非结构化的文本数据转换为易于处理的结构化数据。例如，可以对第一文本识别数据进行分词处理，得到组成该语句的词组，此处，可以采用的分词算法有多种，例如在一些实施例中，可以采用基于词典的分词算法，先把第一文本识别数据按照词典切分成词，再寻找词的最佳组合方式；在一些实施例中，也可以采用基于字的分词算法，先把语句分成一个个字，再将字组合成词，寻找最优的组合方式。将第一文本识别数据进行分词处理后，可以通过预先建立的词典来确定词组中每个词对应的词嵌入向量，当然，在一些实施例中，词嵌入向量可以通过将词映射到一个具有统一的较低维度的向量空间中得到，生成这种映射的策略包括神经网络、单词共生矩阵的降维、概率模型以及可解释的知识库方法等。以词嵌入向量作为对词编码得到的结构化数据为例，在得到第一文本识别数据中每个词对应的词嵌入向量后，可以将这些词嵌入向量作为第四特征信息。当然，也可以对这些词嵌入向量进行累加，累加后的向量可以记为词组向量，对词组向量进行归一化处理，得到第一文本识别数据对应的向量，将该向量作为第四特征信息，本申请对此不作具体限制。

以图8中示出的模型结构为例，在使用文本适配子模型中进行文本内容的领域适配处理时，例如，输入数据为包括多个单词的初始文本数据(s₁、s₂...s_n，n为正整数)的序列数据，将其输入到文本编码器中后，由文本编码器处理得到的第四特征信息包括多个定长向量。这些定长向量依次传递给第二文本解码器，第二文本解码器会使用该向量作为隐藏层输入和一个开始标志位作为当前位置的输入；得到的输出向量(如p₁、p₂...p_j，j为正整数)分别对应的一个单位的文本数据(一般对应一个词)。并且，第二文本编码器会将映射输出的输出向量传递给下一个单元节点，从而完成对整个目标文本数据的序列输出。基于输出向量p₁、p₂...p_j组成的序列，可以通过词典翻译等方式得到对应的目标文本数据。

本申请实施例中，在完成第二语音识别模型第一阶段的训练后，可以接着对其进行第二阶段的训练，第二阶段的训练过程可以包括：

将第一语音样本数据和第一文本识别数据输入到初始化的第二语音识别模型中进行语音识别处理，得到第二语音识别模型输出的第二文本识别数据；

根据第二文本识别数据和第一文本标签数据，确定训练的第一损失值；

根据第一损失值，对第二语音识别模型的参数进行更新，得到训练好的第二语音识别模型。

本申请实施例中，在对第二语音识别模型进行第二阶段的训练时，可以仍使用前述获取的训练数据，即第一领域的第一语音样本数据、第一语音样本数据的第一文本标签数据和第一语音样本数据的第一文本识别数据。当然，在一些实施例中，也可以在获取到这些训练数据中，先将数据分为两部分，其中一部分用于第一阶段的训练，另一部分用于第二阶段的训练，本申请具体的数据划分比例不作限定。

对于初始化训练后的第二语音识别模型，可以接着将第一语音样本数据和第一文本识别数据输入到初始化的第二语音识别模型中进行语音识别处理，具体处理的过程和前述的步骤304类似，在此不作赘述。本申请实施例中，将得到的第二语音识别模型输出的文本数据记为第二文本识别数据，类似地，根据第二文本识别数据和第一文本标签数据，可以确定第二语音识别模型对第一语音样本数据进行识别的准确度。具体地，可以确定第二文本识别数据和第一文本标签数据之间的偏差，得到第二语音识别模型对应的损失值，记为第一损失值。得到第一损失值后，可以根据第一损失值的大小评估第二语音识别模型进行语音识别的准确性，以对第二语音识别模型进行反向传播训练，更新其内部的相关参数。具体的训练过程和前述的语音适配子模型相近，在此不再赘述。

需要说明的是，本申请实施例中，在对第二语音识别模型进行训练时，由于需要使用到第一语音识别模型对第一语音样本数据进行语音识别处理得到的第一文本识别数据。因此，在第二语音识别模型训练前，需要对第一语音识别模型进行训练，对其训练的具体过程可以包括如下步骤：

获取第二领域的第二语音样本数据、第二语音样本数据的第二文本标签数据；第二文本标签数据用于表征第二语音样本数据的真实文本内容；

通过第二语音样本数据和第二文本标签数据，对第一语音识别模型进行训练，得到训练好的第一语音识别模型。

本申请实施例中，在对第一语音识别模型进行训练时，可以获取第二领域的第二语音样本数据、第二语音样本数据的第二文本标签数据。此处，第二领域用于表征语音数据的领域范围，其区别于前述的第一领域，可以是任意的较小领域的数据范围，也可以是包括各类目标对象的语音数据的较大领域的数据范围。当然，为了尽可能提高第一语音识别模型的泛化性能，使得得到的初始文本数据准确度处于较高的水平，本申请实施例中可以设定第二领域所包含的数据范围较大。例如，其可以涵盖多种语种，并且涉及各种年龄段的人员的语音数据。

第二领域内的语音数据，记为第二语音样本数据，本申请实施例中，还同步获取第二文本标签数据，其用于表征第二语音样本数据的真实文本内容。在获取得到上述的训练数据后，可以将第二语音样本数据输入到第一语音识别模型中进行语音识别处理，得到对应的初始文本数据，然后根据初始文本数据和第二文本标签数据对第一语音识别模型进行参数更新，从而得到训练好的第一语音识别模型。具体的训练过程可以和前述的语音适配子模型类似，本申请在此不作赘述。

需要特别说明的是，本申请实施例中，语音适配子模型和第一语音识别模型的模型结构可以是相同的。两者可以采用迁移学习的方式进行训练，具体地，即在搭建整个语音识别系统时，可以先训练得到第一语音识别模型，第一语音识别模型对应的第二领域为源域，语音适配子模型对应的第一领域为目标域。基于迁移学习，目标域任务(Target task)可以利用源域任务(Source task)的训练数据所拥有的领域信息(domain-specificinformation)来提升自己的泛化性能及准确性，并通过共享底层的特征表示(sharedrepresentation)来互相帮助学习，从而同时提升多个相关任务的模型表现。具体到本申请的应用中，即在第一语音识别模型训练好以后，可以根据第一语音识别模型的模型结构和模型参数，构建初始化的语音适配子模型。然后，采用少量第一领域的训练数据，对初始化的语音适配子模型进行微调训练，即可快速实现参数收敛，大大加快模型的训练速度，减少对计算资源的消耗。

具体地，在一种可能的实现方式中，获取第一文本标签数据和第一文本识别数据的步骤之后，方法还包括：

从第一文本标签数据或者第一文本识别数据中随机挑选原始文本数据；

对原始文本数据进行变换，构造得到虚拟文本识别数据；

通过虚拟文本识别数据，对第一文本识别数据进行扩增。

本申请实施例中，第二语音识别模型的文本适配子模型作用是对第一语音识别模型识别出的初始文本数据进行文本模态上的领域自适应。换句话说，文本适配子模型需要将原领域识别的包含错误的文本数据尽可能映射为目标领域中没有错误的文本数据。因此，本申请实施例中，为了提高文本适配子模型的领域自适应能力，可以对第一文本识别数据进行扩增，即增加一些虚拟的、第一语音识别模型可能会出现的第一文本识别数据。

具体地，在对第一文本识别数据进行扩增时，可以从第一文本标签数据或者第一文本识别数据入手，对其进行变换得到虚拟文本识别数据，通过虚拟文本识别数据对第一文本识别数据进行扩展。此处，为了减少数据处理量，可以从第一文本标签数据或者第一文本识别数据中随机挑选一部分数据，记为原始文本数据，然后对原始文本数据进行变换处理，得到虚拟文本识别数据。

具体地，在一种可能的实现方式中，对原始文本数据进行变换，构造得到虚拟文本识别数据，包括：

对原始文本数据进行分词处理，得到原始文本数据对应的原始分词词组；原始分词词组中包括有若干词语；

对原始分词词组进行变换，得到变换后的目标分词词组；

根据目标分词词组，构造得到虚拟文本识别数据。

本申请实施例中，在对原始文本数据进行变换构造得到虚拟文本识别数据时，可以对原始文本数据进行分词处理，类似地，本申请实施例中可以采用的分词算法有多种，例如在一些实施例中，可以采用基于词典的分词算法，先把原始文本数据按照词典切分成词，再寻找词的最佳组合方式；在一些实施例中，也可以采用基于字的分词算法，先把原始文本数据分成一个个字，再将字组合成词，寻找最优的组合方式。对原始文本数据进行分词处理后，可以得到对应的原始分词词组，该词组中包括有若干的词。接着，可以对原始分词词组进行变换，比如说可以对其中的部分(至少一个)词语进行删除或者替换处理，也可以在相邻的两个词语之间插入预设词语。当然，可以理解的是，上述变换处理的具体实现方式可以根据需求来设定，本申请对此不作限制。

具体地，在一种可能的实现方式中，对至少一个词语进行替换处理，包括：

提取待替换词语的第一音频特征信息；

在词典中进行匹配搜索，确定目标词语；其中，目标词语的第二音频特征信息和第一音频特征信息之间的相似度高于预设阈值；

通过目标词语对待替换词语进行替换处理。

本申请实施例中，提供一种对原始分词词组中的词语进行替换处理的实现方式。具体地，首先，可以从原始分词词语中确定出待替换词语，该词语可以是随机选择的，也可以是人为挑选的，本申请对此不作限制。当确定出待替换词语后，可以提取该词语的音频特征信息，记为第一音频特征信息，第一音频特征信息的提取手段和前述的第三特征信息类似，在此不再赘述。然后，可以通过第一音频特征信息，在词典中进行匹配搜索，具体可以通过词典中各个词语的音频特征信息和第一音频特征信息的相似度大小来确定目标词语。比如说，当某个词语的音频特征信息和第一音频特征信息的相似度高于预先设置的相似度阈值时，可以认为该词语和待替换词语在发音上具有较强的迷惑性，可以将其确定为目标词语。本申请实施例中，将词典中各个词语的音频特征信息记为第二音频特征信息。确定到目标词语后，可以通过目标词语对待替换词语进行替换处理，从而构造得到虚拟文本识别数据。

可以理解的是，本申请实施例中，通过构造虚拟文本识别数据对第一文本识别数据进行扩增，能够方便文本适配子模型更为有效地对语音数据的文本模态进行领域适配，可以提高第二识别模型得到的识别结果的准确性。

为了比较验证本申请实施例中提供的语音识别方法的有效性，本申请实施例中，将基于本申请实施例中提供的语音识别方法得到的目标文本数据，与其他多种策略下的模型识别结果进行对比。采用基于WER的指标数据进行对比，参照图9，图9示出了各个识别策略对应的WER数据。其中，其他的语音识别策略包括只利用文本模态的领域适配方法(LM)和ASR纠错方法，利用音频数据和文本数据进行微调ASR模型的方法(ASR TL)，原始的ASR识别结果(E2E ASR)，以及一种及联的方式：先做ASR微调，再基于文本做ASR纠错的领域适应方法。由图9示出的结果可知，本申请实施例中提供的识别方法，在WER指标上较其他之前的方法有较大的提升。

参照图10，对某个具体的语音识别案例进行深入分析，如“The name lili awakenthe tour of his mind”的语音数据，通过图9示出的部分识别策略进行识别得到的文本数据如图10所示。可以看出，对于E2E ASR和ASR TL，两者对“lili”的识别出现了错误，其多是由于语音数据的领域不匹配引起的，说明上述两种策略对发音相近的错误不能解决。而ASR纠错方法，则产生了“tours”的文本识别错误。而基于本申请实施例中提供的识别方法，通过对语音模态和文本模态的综合领域适应，能够得出准确的语音识别结果，相对于其他的几种识别策略效果更优。

下面，结合一些更为具体的实施例，对本申请中提供的语音识别方法的应用进行详细说明。

实施例一：

在教育领域，口语测试是一项系统有序的语言运用能力测试项目，目的是测试被测人员对指定类型语言的听读熟练程度。一般来说，经过科学客观的测试，可以得出被测人员对应的评分结果，该评分结果在入学、就业、移民等多类场景被广泛考虑，对个人的工作生活具有比较重要的意义，故而评分结果的准确性对于口语测试来说相当重要。

本申请实施例中的语音识别方法，可以应用在口语测试、练习相关的应用场景中，例如，教育机构希望对参与口语测试的考生的成绩进行准确评估，可以采用基于本申请实施例中提供的语音识别方法对考生的语音数据进行识别，得到该语音数据对应的文本数据。然后，由考核人员或者人工智能系统基于识别到的文本数据，确定考生的评分结果。在另一些实施例中，比如考生在参加正规的口语测试前，希望事先了解到自己的口语水平以便更好地安排学习任务，可以采用基于本申请实施例中提供的语音识别方法对自身的语音数据进行识别，反馈出识别到的文本数据，从而方便考生进行有针对性的纠错提升。当然，需要说明的是，以上的应用场景仅起到示例性的作用，并不意味着对本申请实施例中方法的实际应用形成限制。

可以理解的是，由于口语测试针对的人群比较多样化，包括不同年龄段、不同口语水平的被测人员。因此，本申请实施例中，首先可以建立一个通用的语音识别模型，即前述的第一语音识别模型，然后针对不同的领域，建立多个对应的领域适配模型，也即多个第二语音识别模型。比如说，在一些实施例中，不同的领域可以按照人员所处的地域来划分，在这种情况下，第一语音识别模型可以是基于任意地域范围内的人员的语音数据训练得到的，该地域范围可以记为第一地域范围，一般来说，第一地域范围可以设定得较广泛。而多个第二语音识别模型可以是分别基于特定地域范围内的人员的语音数据训练得到的，将此处的特定地域范围记为第二地域范围。可以理解的是，第二地域范围即为第二语音识别模型适配的领域，因而，可以将语音数据来源所属的地理信息，作为区分语音数据和第二语音识别模型是否适配的领域信息。

具体地，参照图11，图11示出了一种适用于口语测试应用场景的业务数据流向图。下面结合图11，对上述的应用流程进行简要说明。

本申请实施例中，整体的系统架构可以参照图2搭建，在考生侧可以使用其终端设备下载安装对应的应用程序，参照图12，图12示出了一种口语测试APP进行语音识别的界面示意图。在图12中示出的属于看图说话类型的口语测试题目，考生需要观察给出的图像，用一段指定语种的语音数据来描述出图像所包含的内容。在具体执行语音识别应用时，考生可以在地区输出框1210中输入所在地区的地域信息，例如可以输入“广东”的文字信息作为地域信息。如此，能够使得服务器将地域信息作为领域信息，确定对应的领域适配模型。然后可以点击“开始录音”的虚拟按钮开始本次的口语测试，此时，终端设备将收集记录考生的语音数据。当完成本次的口语测试后，可以点击“完成录音”的虚拟按钮，从而APP可以将考生的语音数据和输入的地域信息传送到后台服务器中，服务器在接收到考生的语音数据后，可以将其发送到语音识别模型(即本申请中的第一语音识别模型)中，得到初始的识别文本(即本申请中的初始文本数据)；然后，还根据考生的地域信息从多个领域适配模型(即本申请中的第二语音识别模型)中确定对应的领域适配模型，将考生的语音数据和初始的识别文本发送给领域适配模型，即可得到准确度更高的识别文本。接着，服务器可以将识别结果返回给终端设备，参照图12，终端设备接收到识别结果后，可以将其显示在文本显示框1220中，从而方便直观快捷地了解到本次的口语测试表现情况。

可以理解的是，本申请实施例中，可以将地域信息作为领域信息，通过地域信息的领域适配来挑选合适的第二语音识别模型，能够较好地克服不同地域人员可能存在的地方口音问题，对语音数据做到更准确的识别。

实施例二：

当下，移动互联网的发展深刻地改变了人们的生活方式，各类音频资源呈现的内容能够给人以丰富的视听体验，极大地满足了大家娱乐休闲的需求。例如，当下流行的短视频，往往支持创作人员自由剪辑制作，灵活性较高。但是，创作人员制作的短视频类内容，大多数情况下都没有配置对应的字幕，或者无法提供指定语种的字幕，给不同地区的观看者带来了不良的体验。

故而，基于本申请实施例中提供的语音识别方法，能够对短视频数据中的语音数据进行有效识别，确定出其对应的文本数据，然后可以在短视频下方的字幕位置显示识别到的文本数据，从而方便观看短视频的人员可以轻松方便地基于文本数据了解到视频内容，大大提升短视频的观看体验；并且，该语音识别方法的应用，可以自由提供各类语种语音数据的识别和转译功能，减轻视频创造者的工作负担。对于本申请实施例中的应用场景来说，例如，其存在有将不同语种的语音数据转换为某一语种下对应的文本数据的需求，在这种情况下，第一语音识别模型和第二语音识别模型均用于输出某一语种的文本数据。此时，领域可以按照短视频中语音数据对应的语种来划分，第一语音识别模型可以是基于至少一类语种下的语音数据训练得到的。而多个第二语音识别模型可以是分别基于不同语种下的语音数据训练得到的。因此，本申请实施例中，可以将语音数据对应的语种信息，作为区分语音数据和第二语音识别模型是否适配的领域信息。

当然，本申请实施例中的语音识别方法，并不局限于应用在短视频的语音识别中。在某些影视剧的播放软件中，也可以提供基于本申请实施例的语音识别方法集成的语音识别组件。例如，参照图13，图13示出了一种带有语音识别功能的视频播放软件，在该软件中，可以在播放界面上设置对应的语音识别操作标识1310，点击语音识别操作标识1310后即可开启语音识别功能，从而在视频的下方位置，通过字幕框1320显示基于视频的语音数据识别出的文本数据。

需要补充说明的是，对于上述在视频领域内应用的语音识别方法，其语音数据的领域信息可以根据视频发布者的地域或者视频内语音数据的语种来确定，但并不局限于此。

可以理解的是，在上述的短视频应用程序、视频播放软件中实施本申请实施例的语音识别方法，其系统的整体架构可以参照实施例一来设置，本申请对此不作赘述。参照图14，图14为本申请实施例提供的语音识别装置的结构示意图，该语音识别装置包括：

获取模块1410，用于获取目标对象的语音数据和语音数据的领域信息；

第一识别模块1420，用于将语音数据输入到第一语音识别模型中进行语音识别处理，得到初始文本数据；

适配模块1430，用于根据领域信息，确定与语音数据的领域适配的第二语音识别模型；

第二识别模块1440，用于通过第二语音识别模型提取语音数据的第一特征信息和初始文本数据的第二特征信息，并基于第一特征信息和第二特征信息进行语音识别处理，得到目标文本数据。

进一步，第一语音识别模型包括音频编码器和第一文本解码器；第一识别模块，包括：

音频编码子模块，用于将语音数据输入到第一语音识别模型中，通过音频编码器对语音数据进行编码处理，得到语音数据的第三特征信息；

第一文本解码子模块，用于通过第一文本解码器对第三特征信息进行解码处理，得到初始文本数据。

进一步，第二语音识别模型包括语音适配子模型和文本适配子模型；第二识别模块，包括：

第一特征提取子模块，用于通过语音适配子模型提取语音数据的第一特征信息；

第二特征提取子模块，用于通过文本适配子模型提取初始文本数据的第二特征信息；

特征融合子模块，用于对第一特征信息和第二特征信息进行融合处理，得到融合特征信息；

识别子模块，用于根据融合特征信息，得到目标文本数据。

进一步，装置还包括第一训练模块，第一训练模块包括：

第一获取子模块，用于获取第一领域的第一语音样本数据、第一语音样本数据的第一文本标签数据和第一语音样本数据的第一文本识别数据；第一文本标签数据用于表征第一语音样本数据的真实文本内容，第一文本识别数据通过使用训练好的第一语音识别模型对第一语音样本数据进行语音识别处理得到；

第一处理子模块，用于将第一语音样本数据和第一文本识别数据输入到初始化的第二语音识别模型中进行语音识别处理，得到第二语音识别模型输出的第二文本识别数据；

第一损失值计算子模块，用于根据第二文本识别数据和第一文本标签数据，确定训练的第一损失值；

第一更新子模块，用于根据第一损失值，对第二语音识别模型的参数进行更新，得到训练好的第二语音识别模型。

进一步，装置还包括扩增模块，扩增模块包括：

挑选子模块，用于从第一文本标签数据或者第一文本识别数据中随机挑选原始文本数据；

变换子模块，用于对原始文本数据进行变换，构造得到虚拟文本识别数据；

数据添加子模块，用于通过虚拟文本识别数据，对第一文本识别数据进行扩增。

进一步，上述变换子模块具体用于：

对原始分词词组进行变换，得到变换后的目标分词词组；

根据目标分词词组，构造得到虚拟文本识别数据。

对至少一个词语进行删除处理；

或者，对至少一个词语进行替换处理；

或者，在至少两个相邻的词语之间插入预设词语。

进一步，上述变换子模块具体用于：

提取待替换词语的第一音频特征信息；

通过目标词语对待替换词语进行替换处理。

进一步，装置还包括第二训练模块，第二训练模块包括：

第二处理子模块，用于将第一语音样本数据输入到语音适配子模型中进行语音识别处理，得到第三文本识别数据；

第二损失值计算子模块，用于根据第三文本识别数据和第一文本标签数据，确定训练的第二损失值；

第二更新子模块，用于根据第二损失值，对语音适配子模型的参数进行更新，得到训练好的语音适配子模型；

第三处理子模块，用于将第一文本识别数据输入到文本适配子模型中进行文本内容的领域适配处理，得到第四文本识别数据；

第三损失值计算子模块，用于根据第四文本识别数据和第一文本标签数据，确定训练的第三损失值；

第三更新子模块，用于根据第三损失值，对文本适配子模型的参数进行更新，得到训练好的文本适配子模型；

初始化子模块，用于基于训练好的语音适配子模型和训练好的文本适配子模型，得到初始化的第二语音识别模型。

进一步，文本适配子模型包括文本编码器和第二文本解码器；第三处理子模块具体用于：

进一步，装置还包括：

第二获取模块，用于获取第二领域的第二语音样本数据、第二语音样本数据的第二文本标签数据；第二文本标签数据用于表征第二语音样本数据的真实文本内容；

第三训练模块，用于通过第二语音样本数据和第二文本标签数据，对第一语音识别模型进行训练，得到训练好的第一语音识别模型；

构建模块，用于根据训练好的第一语音识别模型的模型结构和模型参数，构建初始化的语音适配子模型。

可以理解的是，如图3所示的语音识别方法实施例中的内容均适用于本语音识别装置实施例中，本语音识别装置实施例所具体实现的功能与如图3所示的语音识别方法实施例相同，并且达到的有益效果与如图3所示的语音识别方法实施例所达到的有益效果也相同。

参照图15，本申请实施例还公开了一种电子设备，包括：

至少一个处理器1510；

至少一个存储器1520，用于存储至少一个程序；

当至少一个程序被至少一个处理器1510执行，使得至少一个处理器1510实现如图3所示的语音识别方法实施例。

可以理解的是，如图3所示的语音识别方法实施例中的内容均适用于本电子设备实施例中，本电子设备实施例所具体实现的功能与如图3所示的语音识别方法实施例相同，并且达到的有益效果与如图3所示的语音识别方法实施例所达到的有益效果也相同。

本申请实施例还公开了一种计算机可读存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于实现如图3所示的语音识别方法实施例。

可以理解的是，图3所示的语音识别方法实施例中的内容均适用于本计算机可读存储介质实施例中，本计算机可读存储介质实施例所具体实现的功能与图3所示的语音识别方法实施例相同，并且达到的有益效果与图3所示的语音识别方法实施例所达到的有益效果也相同。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在上述的计算机可读存储介质中；图15所示的电子设备的处理器可以从上述的计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行图3所示的语音识别方法实施例。

可以理解的是，图3所示的语音识别方法实施例中的内容均适用于本计算机程序产品或计算机程序实施例中，本计算机程序产品或计算机程序实施例所具体实现的功能与图3所示的语音识别方法实施例相同，并且达到的有益效果与图3所示的语音识别方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于实施例，熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取目标对象的语音数据和所述语音数据的领域信息；

2.根据权利要求1所述的语音识别方法，其特征在于，所述第一语音识别模型包括音频编码器和第一文本解码器；所述将所述语音数据输入到第一语音识别模型中进行语音识别处理，得到初始文本数据，包括：

将所述语音数据输入到所述第一语音识别模型中，通过所述音频编码器对所述语音数据进行编码处理，得到所述语音数据的第三特征信息；

通过所述第一文本解码器对所述第三特征信息进行解码处理，得到所述初始文本数据。

3.根据权利要求1所述的语音识别方法，其特征在于，所述第二语音识别模型包括语音适配子模型和文本适配子模型；所述通过所述第二语音识别模型提取所述语音数据的第一特征信息和所述初始文本数据的第二特征信息，并基于所述第一特征信息和所述第二特征信息进行语音识别处理，得到目标文本数据，包括：

通过所述语音适配子模型提取所述语音数据的第一特征信息；

通过所述文本适配子模型提取所述初始文本数据的第二特征信息；

对所述第一特征信息和所述第二特征信息进行融合处理，得到融合特征信息；

根据所述融合特征信息，得到所述目标文本数据。

4.根据权利要求3所述的语音识别方法，其特征在于，所述第二语音识别模型通过以下步骤训练得到：

获取第一领域的第一语音样本数据、所述第一语音样本数据的第一文本标签数据和所述第一语音样本数据的第一文本识别数据；所述第一文本标签数据用于表征所述第一语音样本数据的真实文本内容，所述第一文本识别数据通过使用训练好的第一语音识别模型对所述第一语音样本数据进行语音识别处理得到；

将所述第一语音样本数据和所述第一文本识别数据输入到初始化的第二语音识别模型中进行语音识别处理，得到所述第二语音识别模型输出的第二文本识别数据；

根据所述第二文本识别数据和所述第一文本标签数据，确定训练的第一损失值；

根据所述第一损失值，对所述第二语音识别模型的参数进行更新，得到训练好的第二语音识别模型。

5.根据权利要求4所述的语音识别方法，其特征在于，获取所述第一文本标签数据和所述第一文本识别数据的步骤之后，所述方法还包括：

从所述第一文本标签数据或者所述第一文本识别数据中随机挑选原始文本数据；

对所述原始文本数据进行变换，构造得到虚拟文本识别数据；

通过所述虚拟文本识别数据，对所述第一文本识别数据进行扩增。

6.根据权利要求5所述的语音识别方法，其特征在于，所述对所述原始文本数据进行变换，构造得到虚拟文本识别数据，包括：

根据所述目标分词词组，构造得到所述虚拟文本识别数据。

7.根据权利要求6所述的语音识别方法，其特征在于，所述对所述原始分词词组进行变换，包括以下步骤中的至少一种：

对至少一个所述词语进行删除处理；

或者，对至少一个所述词语进行替换处理；

或者，在至少两个相邻的所述词语之间插入预设词语。

8.根据权利要求7所述的语音识别方法，其特征在于，所述对至少一个所述词语进行替换处理，包括：

提取待替换词语的第一音频特征信息；

通过所述目标词语对所述待替换词语进行替换处理。

9.根据权利要求4所述的语音识别方法，其特征在于，所述第二语音识别模型还通过以下步骤进行初始化训练：

将所述第一语音样本数据输入到所述语音适配子模型中进行语音识别处理，得到第三文本识别数据；

根据所述第三文本识别数据和所述第一文本标签数据，确定训练的第二损失值；

根据所述第二损失值，对所述语音适配子模型的参数进行更新，得到训练好的语音适配子模型；

将所述第一文本识别数据输入到所述文本适配子模型中进行文本内容的领域适配处理，得到第四文本识别数据；

根据所述第四文本识别数据和所述第一文本标签数据，确定训练的第三损失值；

根据所述第三损失值，对所述文本适配子模型的参数进行更新，得到训练好的文本适配子模型；

基于所述训练好的语音适配子模型和所述训练好的文本适配子模型，得到初始化的第二语音识别模型。

10.根据权利要求9所述的语音识别方法，其特征在于，所述文本适配子模型包括文本编码器和第二文本解码器；所述将所述第一文本识别数据输入到所述文本适配子模型中进行文本内容的领域适配处理，得到第四文本识别数据，包括：

11.根据权利要求3所述的语音识别方法，其特征在于，所述方法还包括：

获取第二领域的第二语音样本数据、所述第二语音样本数据的第二文本标签数据；所述第二文本标签数据用于表征所述第二语音样本数据的真实文本内容；

通过所述第二语音样本数据和所述第二文本标签数据，对所述第一语音识别模型进行训练，得到训练好的第一语音识别模型；

根据所述训练好的第一语音识别模型的模型结构和模型参数，构建初始化的语音适配子模型。

12.一种语音识别装置，其特征在于，所述装置包括：

13.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11任意一项所述的语音识别方法。

14.一种计算机可读存储介质，所述存储介质存储有程序，其特征在于，所述程序被处理器执行时实现权利要求1至11任意一项所述的语音识别方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11任意一项所述的语音识别方法。