CN116994566A

CN116994566A - 语音识别模型的生成方法及语音识别方法

Info

Publication number: CN116994566A
Application number: CN202211163365.7A
Authority: CN
Inventors: 马应龙; 刘攀
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-11-03

Abstract

本公开关于一种语音识别模型的生成方法及语音识别方法，包括：获取具有语音文本标签的待合成语音音频和至少一个语音场景类型对应的场景语音音频；对场景语音音频进行语音分离处理，得到至少一个语音场景类型的场景噪音音频；对任一场景噪音音频进行静音片段识别，得到至少一个静音片段；基于至少一个静音片段，对任一场景噪音音频进行静音切除处理，得到至少一个噪音子音频；基于至少一个噪音子音频和待合成语音音频进行音频合成，得到目标合成音频；基于目标合成音频和目标合成音频对应的语音文本标签，对待训练识别模型进行语音识别训练，得到语音识别模型。利用本公开实施例可以提高语音识别模型的抗干扰能力和语音识别能力。

Description

语音识别模型的生成方法及语音识别方法

技术领域

本公开涉及人工智能技术领域，尤其涉及一种语音识别模型的生成方法及语音识别方法。

背景技术

ASR(Automatic Speech Recognition，自动语音识别技术)是一种将语音转换为文本的技术。具体地，ASR能够“听写”出不同人所说出的连续语音，可以实现“声音”到“文字”的转换。

对于语音识别模型，需要基于具有文本标注的音频数据对预设识别模型进行训练，得到语音识别模型。在训练过程中，为了强化模型抗干扰能力，通常使用数据增强的方式扩展样本类型，针对语音数据进行加噪，最后喂入模型中训练。目前，行业内常用的数据增强方式固化，喂入模型的数据特征一样，导致模型泛化能力降低。而随着生活条件的发展，人们的生活环境越来越多样化，会存在多种复杂场景下语音识别需求，如多人聚会、现场演讲和视频直播等。可见，现有的加噪音频数据的质量低，通过现有的加噪音频数据训练得到的语音识别模型，对于上述各种复杂场景下的语音数据的语音识别能力较弱。

另外，若直接对复杂场景下的音频进行标注，需要依靠标注员对每一句话进行手动听音标注，并且需要筛选出复杂的音频数据，通过平台化的听音标注生产文音匹配样本，用以语音识别ASR模型的训练。但是，复杂场景下的音频标注较困难，标注员需要逐字转写音频内容，转写难度较大，转写效率较低，且因音频场景复杂，可能会出现部分发音听不清导致转写错误，影响数据质量的问题。

发明内容

有鉴于上述存在的技术问题，本公开提出了一种语音识别模型的生成方法及语音识别方法。

根据本公开实施例的一方面，提供一种语音识别模型的生成方法，包括：

获取具有语音文本标签的待合成语音音频和至少一个语音场景类型对应的场景语音音频；所述待合成语音音频为无噪音的语音音频；

对所述场景语音音频进行语音分离处理，得到所述至少一个语音场景类型对应的场景噪音音频；

对任一所述场景噪音音频进行静音片段识别，得到任一所述场景噪音音频中的至少一个静音片段；

基于任一所述场景噪音音频中的至少一个静音片段，对任一所述场景噪音音频进行静音切除处理，得到任一所述场景噪音音频对应的至少一个噪音子音频；

基于所述至少一个噪音子音频和所述待合成语音音频进行音频合成，得到目标合成音频；

基于所述目标合成音频和所述目标合成音频对应的语音文本标签，对待训练识别模型进行语音识别训练，得到语音识别模型。

根据本公开实施例的另一方面，提供一种语音识别方法，包括：

获取待识别语音音频；

将所述待识别语音音频输入上述的语音识别模型的生成方法得到的语音识别模型进行语音识别处理，得到所述待识别语音音频对应的语音文本信息。

根据本公开实施例的另一方面，提供一种语音识别模型的生成装置，包括：

语音音频获取模块，用于获取具有语音文本标签的待合成语音音频和至少一个语音场景类型对应的场景语音音频；所述待合成语音音频为无噪音的语音音频；

语音分离处理模块，用于对所述场景语音音频进行语音分离处理，得到所述至少一个语音场景类型对应的场景噪音音频；

静音片段识别模块，用于对任一所述场景噪音音频进行静音片段识别，得到任一所述场景噪音音频中的至少一个静音片段；

静音切除处理模块，用于基于任一所述场景噪音音频中的至少一个静音片段，对任一所述场景噪音音频进行静音切除处理，得到任一所述场景噪音音频对应的至少一个噪音子音频；

音频合成模块，用于基于所述至少一个噪音子音频和所述待合成语音音频进行音频合成，得到目标合成音频；

语音识别训练模块，用于基于所述目标合成音频和所述目标合成音频对应的语音文本标签，对待训练识别模型进行语音识别训练，得到语音识别模型。

根据本公开实施例的另一方面，提供一种语音识别装置，包括：

待识别语音音频获取模块，用于获取待识别语音音频；

语音识别处理模块，用于将所述待识别语音音频输入上述的语音识别模型的生成方法得到的语音识别模型进行语音识别处理，得到所述待识别语音音频对应的语音文本信息。

根据本公开实施例的另一方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现上述语音识别模型的生成方法或上述语音识别方法。

根据本公开实施例的另一方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述语音识别模型的生成方法或上述语音识别方法。

根据本公开实施例的另一方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述语音识别模型的生成方法或上述语音识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取具有语音文本标签的、无噪音的待合成语音音频和至少一个语音场景类型对应的场景语音音频，从场景语音音频中通过语音分离处理分离出至少一个语音场景类型对应的场景噪音音频，可以保证场景噪音音频极为贴近真实复杂场景，再对每个场景噪音音频进行静音片段识别，得到每个场景噪音音频中的至少一个静音片段，基于每个场景噪音音频中的至少一个静音片段，对每个场景噪音音频进行静音切除处理，得到每个场景噪音音频对应的至少一个噪音子音频，可以提高噪音子音频的质量，避免无声噪音片段导致语音识别训练的有效性降低，接着，基于至少一个噪音子音频和已完成标注的待合成语音音频进行音频合成，得到目标合成音频，可以提高目标合成音频的生成的便利性和目标合成音频的质量，然后，结合目标合成音频和目标合成音频对应的语音文本标签，对待训练识别模型进行语音识别训练，可以提高语音识别模型的抗干扰能力，并提高语音识别模型对于各种复杂场景的语音识别能力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用系统的示意图；

图2是根据一示例性实施例示出的一种语音识别模型的生成方法的流程图；

图3是根据一示例性实施例示出的一种生成目标合成音频的流程示意图；

图4是根据一示例性实施例示出的一种待合成语音音频的语音波形及频谱示意图；

图5是根据一示例性实施例示出的一种目标合成音频的语音波形及频谱示意图；

图6是根据一示例性实施例示出的一种语音识别模型的生成装置的框图；

图7是根据一示例性实施例示出的一种用于生成语音识别模型或语音识别的电子设备的框图；

图8是根据一示例性实施例示出的另一种用于生成语音识别模型或语音识别的电子设备的框图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

近年来，随着人工智能技术研究和进步，人工智能技术在多个领域得到广泛应用，本申请实施例提供的方案涉及机器学习/深度学习等技术，具体通过如下实施例进行说明：

请参阅图1，图1是根据一示例性实施例示出的一种应用系统的示意图。所述应用系统可以用于本申请的语音识别模型的生成方法或语音识别方法。如图1所示，该应用系统至少可以包括服务器01和终端02。

本申请实施例中，服务器01可以用于生成语音识别模型。具体地，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例中，终端02可以用于语音识别。上述终端可以包括智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、车载终端、数字助理、增强现实(augmentedreality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中上述终端上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

此外，需要说明的是，图1所示的仅仅是本公开提供的一种应用环境，在实际应用中，还可以包括其他应用环境，例如语音识别模型的生成也可以在终端02上实现。

本说明书实施例中，上述终端02以及服务器01可以通过有线或无线通信方式进行直接或间接地连接，本申请对此不作限定。

需要说明的是，以下图中示出的是一种可能的步骤顺序，实际上并不限定必须严格按照此顺序。有些步骤可以在互不依赖的情况下并行执行。

具体地，图2是根据一示例性实施例示出的一种语音识别模型的生成方法的流程图。如图2所示，该语音识别模型的生成方法可以用于终端或服务器等电子设备中，具体可以包括以下步骤：

在步骤S201中，获取具有语音文本标签的待合成语音音频和至少一个语音场景类型对应的场景语音音频。

在一个具体的实施例中，待合成语音音频可以为无噪音的、具有语音文本标签的语音音频。语音文本标签可以为待合成语音音频对应的文本信息标签。

在一个具体的实施例中，可以通过对纯净语音音频进行语音文本标注，得到具有语音文本标签的待合成语音音频。其中，纯净语音音频可以是指无噪音的语音音频。具体的，可以通过在无噪音的环境下录制语音得到纯净语音音频，相应的，可以通过对纯净语音音频进行人工标注，得到具有语音文本标签的待合成语音音频。

在一个具体的实施例中，不同的语音场景类型可以对应不同的复杂场景。具体的，语音场景类型可以包括但不限于多人聚会类型、现场访谈类型、对话消息类型、节目主持类型、现场演讲类型、电视节目类型、视频直播类型、街景录播类型或电话语音类型等。场景语音音频可以是指在上述任一语音场景类型对应的复杂场景下的语音音频。场景语音音频可以包括语音音频和噪音音频。可以理解的是，以语音场景类型为多人聚会类型为例，场景语音音频中可以存在多个人声，其中，上述多个人声可以包括语音音频对应的语音对象的人声和噪音音频中环境音对象的人声。

在一个具体的实施例中，可以通过分别在不同的复杂场景下，录制语音得到相应的语音场景类型对应的场景语音音频。

在步骤S203中，对场景语音音频进行语音分离处理，得到至少一个语音场景类型对应的场景噪音音频。

在一个具体的实施例中，每个语音场景类型对应的场景噪音音频可以是指该语音场景类型对应的复杂场景的噪音的音频。

在一个具体的实施例中，可以通过将场景语音音频输入至音轨分离模型进行语音分离处理，得到至少一个语音场景类型对应的场景噪音音频。可选的，上述音轨分离模型可以是预先训练好的spleeter模型。

在一个具体的实施例中，上述步骤S203可以包括：

确定任一场景语音音频对应的音频能量信息以及任一场景语音音频对应的噪音能量信息；

基于音频能量信息和噪音能量信息，确定能量比例信息；

基于能量比例信息，对任一场景语音音频进行频域分析，得到任一场景语音音频对应的噪音音频频域信息；

基于噪音音频频域信息，对任一场景语音音频进行音频分离处理，得到场景噪音音频。

在一个具体的实施例中，音频能量信息可以表征任一场景语音音频的声音能量。噪音能量信息可以表征任一场景语音音频中场景噪音音频的声音能量。

在一个具体的实施例中，可以基于任一场景语音音频，确定任一场景语音音频的幅度谱和任一场景语音音频中场景噪音音频的幅度谱；基于任一场景语音音频的幅度谱，可以确定任一场景语音音频对应的音频能量信息；基于任一场景语音音频中场景噪音音频的幅度谱，可以确定任一场景语音音频对应的噪音能量信息。

在一个具体的实施例中，能量比例信息可以表征任一场景语音音频中的场景噪音音频在任一场景语音音频中的声音能量占比。具体地，可以通过将任一场景语音音频对应的噪音能量信息与该场景语音音频对应的音频能量信息之间的比值，作为该场景语音音频对应的能量比例信息。

在一个具体的实施例中，噪音音频频域信息可以表征任一场景语音音频中场景噪音音频的音频频域。具体的，可以将任一场景语音音频的音频频谱乘以该场景语音音频对应的能量比例信息，可以得到该场景语音音频对应的噪音音频频域信息。

在一个具体的实施例中，可以基于任一场景语音音频对应的噪音音频频域信息，将任一场景噪音音频从任一场景语音音频中分离出来，相应的，可以得到至少一个语音场景类型对应的场景噪音音频。

在上述实施例中，通过从场景语音音频中通过语音分离处理分离出至少一个语音场景类型对应的场景噪音音频，可以保证场景噪音音频极为贴近真实的复杂场景，进而可以提高基于场景噪音音频得到的目标合成音频的质量。

在步骤S205中，对任一场景噪音音频进行静音片段识别，得到任一场景噪音音频中的至少一个静音片段。

在一个具体的实施例中，每个场景噪音音频中的任一静音片段可以是指该场景噪音音频中音量低于预设音频音量，且音频长度大于第二预设音频长度的音频片段。

在一个具体的实施例中，上述步骤S205可以包括：

对任一场景噪音音频进行音量检测，得到任一场景噪音音频对应的音频音量信息；

基于任一场景噪音音频对应的音频音量信息，从任一场景噪音音频中筛选出至少一个目标音频片段；

基于至少一个目标音频片段的音频长度，从至少一个目标音频片段中筛选出至少一个静音片段。

在一个具体的实施例中，每个场景噪音音频对应的音频音量信息可以表征该场景噪音音频中的任一时刻的音量。每个场景噪音音频对应的音频音量信息可以包括该场景噪音音频中的多个时刻对应的音量信息。

在一个具体的实施例中，可以基于每个场景噪音音频的音频长度，确定每个场景噪音音频中的多个时刻，并对上述多个时刻中的任一时刻进行音量检测，可以得到每个场景噪音音频中多个时刻对应的音量信息，相应的，可以得到任一场景噪音音频对应的音频音量信息。

在一个具体的实施例中，任一目标音频片段可以为任一场景噪音音频中低于预设音频音量的音频片段。其中，预设音频音量可以基于每个场景噪音音频对应的音频音量信息确定。具体的，可以对每个场景噪音音频对应的音频音量信息进行均值处理，得到每个场景噪音音频对应的平均音量信息，基于上述平均音量信息可以确定每个场景噪音音频对应的预设音频音量；其中，每个场景噪音音频对应的预设音频音量低于该场景噪音音频对应的平均音量信息。可选的，每个场景噪音音频对应的预设音频音量可以是低于该场景噪音音频对应的平均音量信息10dB的音量信息。

在一个具体的实施例中，可以在任一场景噪音音频对应的音频音量信息中查找多个连续的低于任一场景噪音音频对应的预设音频音量的时刻，得到多个连续的静音时刻，基于上述多个连续的静音时刻中的起始时刻和结束时刻，可以得到任一场景噪音音频中的一个目标音频片段。

在一个具体的实施例中，第二预设音频长度可以是根据实际需要设定的，本公开不作限定。可选的，第二预设音频长度的范围可以是2s-3s，示例性地，第二预设音频长度可以是2s。

在一个具体的实施例中，可以将至少一个目标音频片段中音频长度大于第二预设音频长度的目标音频片段，作为上述静音片段。

在步骤S207中，基于任一场景噪音音频中的至少一个静音片段，对任一场景噪音音频进行静音切除处理，得到任一场景噪音音频对应的至少一个噪音子音频。

在一个具体的实施例中，任一场景噪音音频对应的噪音子音频可以是指该场景噪音音频中不包含静音片段的子音频。

在一个具体的实施例中，可以将每个静音片段在该静音片段所属的场景噪音音频中的起始静音位置和结束静音位置，作为切分位置，相应的，可以得到任一场景噪音音频中的至少一个静音片段各自对应的多个切分位置；基于上述多个切分位置，对任一场景噪音音频进行切分处理，可以得到多个音频片段；可以将上述多个音频片段中不包含静音片段的作为噪音子音频，相应的，可以得到任一场景噪音音频对应的至少一个噪音子音频。

在一个具体的实施例中，可以通过第一音频处理工具进行场景噪音音频的静音片段识别和场景噪音音频的静音切除处理等处理。具体地，可以通过预设音频处理库中的静音切分模块进行场景噪音音频的静音片段识别和场景噪音音频的静音切除处理。

在上述实施例中，通过对每个场景噪音音频进行静音片段识别，得到每个场景噪音音频中的至少一个静音片段，基于每个场景噪音音频中的至少一个静音片段，对每个场景噪音音频进行静音切除处理，得到每个场景噪音音频对应的至少一个噪音子音频，可以提高噪音子音频的质量，避免无声噪音片段导致语音识别训练的有效性降低。

在步骤S209中，基于至少一个噪音子音频和待合成语音音频进行音频合成，得到目标合成音频。

在一个具体的实施例中，目标合成音频可以用于作为训练样本训练语音识别模型。

在一个具体的实施例中，上述步骤S209可以包括：

从至少一个噪音子音频中获取第一噪音子音频；

对第一噪音子音频和待合成语音音频进行音频合成，得到目标合成音频。

在一个具体的实施例中，第一噪音子音频可以用于作为待合成语音音频的背景噪音。

在一个具体的实施例中，上述从至少一个噪音子音频中获取第一噪音子音频，可以包括：

基于待合成语音音频的第一音频长度，从至少一个噪音子音频筛选出第二噪音子音频；

在第二音频长度大于第一音频长度的情况下，基于第一音频长度，从第二噪音子音频中切分出第一噪音子音频。

在一个具体的实施例中，上述方法还可以包括：

在第二音频长度小于等于第一音频长度的情况下，将第二噪音子音频作为第一噪音子音频。

在一个具体的实施例中，第一音频长度可以是指待合成语音音频的音频长度。第二音频长度可以是指第二噪音子音频的音频长度。具体地，第二音频长度可以大于等于第一预设音频长度。其中，第一预设音频长度可以小于第一音频长度。进一步地，第一预设音频长度可以是根据预设音频比例和第一音频长度确定的。具体地，可以通过将预设音频比例乘以第一音频长度，得到第一预设音频长度。预设音频比例可以是根据实际应用需要确定的，可选的，预设音频比例可以是80％-95％；示例性的，预设音频比例可以是90％。

在一个具体的实施例中，基于待合成语音音频的第一音频长度，可以确定第一预设音频长度；从至少一个噪音子音频随机筛选出音频长度大于第一预设音频长度的噪音子音频，作为第二噪音子音频。

在上述实施例中，通过基于待合成语音音频的第一音频长度，从至少一个噪音子音频筛选出音频长度大于等于第一预设音频长度的第二噪音子音频，且第一预设音频长度小于第一音频长度，可以使上述筛选过程中可以筛选到更多的噪音子音频作为第二噪音子音频，从而提高第二噪音子音频的随机性，进而提高目标合成音频的随机性。另外，通过设置预设音频比例控制第一预设音频长度，可以避免从至少一个噪音子音频中筛选出音频长度过短的第二噪音子音频，避免得到的目标合成音频中无噪音的音频过长导致训练有效性降低，进而可以在提高目标合成音频的作为训练样本的随机性的基础上，保证语音识别模型的训练有效性。

在一个具体的实施例中，第一噪音子音频的音频长度可以与第一音频长度相匹配。可以理解的是，第一噪音子音频的音频长度可以略微小于第一音频长度，例如，第一噪音子音频的音频长度可以是第一音频长度的95％或98％。

在一个具体的实施例中，在第二音频长度大于第一音频长度的情况下，可以通过从第二噪音子音频中切分出音频长度等于第一音频长度的噪音子音频，得到第一噪音子音频。具体地，从第二噪音子音频中切分的具体切分位置可以是随机的。示例性的，假设第一音频长度是第二音频长度的95％，第一噪音子音频可以是从第二噪音子音频中的2％～97％的位置切出的，也可以是从第二噪音子音频中的0％～95％的位置切出的，还可以是从第二噪音子音频中的5％～100％的位置切出的，本公开不作限定。

在上述实施例中，通过从第二噪音子音频中随机切分(即随机选取切分位置)出音频长度等于第一音频长度的噪音子音频，可以保证第一噪音子音频的随机性，同时可以保证合成后的目标合成音频中背景噪音的占比，进而可以在提高目标合成音频的作为训练样本的随机性的基础上，保证语音识别模型的训练有效性。

在一个具体的实施例中，可以通过音频处理工具，对第一噪音子音频和待合成语音音频进行音频合成，得到目标合成音频。

在一个具体的实施例中，可以通过第二音频处理工具进行第二噪音子音频的切分和音频合成等处理。具体地，在本实施例中所采用的第二音频处理工具可以为多媒体视频处理工具。

在一个具体的实施例中，上述方法还可以包括：

基于待合成语音音频的音频音量信息，对至少一个噪音子音频进行音量控制，得到音量控制后的至少一个噪音子音频；

相应的，上述基于至少一个噪音子音频和待合成语音音频进行音频合成，得到目标合成音频，包括：

基于音量控制后的至少一个噪音子音频和待合成语音音频进行音频合成，得到目标合成音频。

在一个具体的实施例中，待合成语音音频的音频音量信息可以表征待合成语音音频的音频音量。待合成语音音频的音频音量信息可以包括待合成语音音频的平均音量信息。

在一个具体的实施例中，音量控制后的至少一个噪音子音频的音频音量信息可以小于等于待合成语音音频的音频音量信息。

在一个具体的实施例中，可以通过对待合成语音音频进行音量检测，得到待合成语音音频的音频音量信息。基于待合成语音音频的音频音量信息，可以确定至少一个噪音子音频的目标音量信息；其中，目标音量信息可以是指音量控制后的至少一个噪音子音频的音频音量信息。基于至少一个噪音子音频的目标音量信息，对至少一个噪音子音频进行音量控制，可以得到音量控制后的至少一个噪音子音频。具体地，目标音量信息可以是预设音量阈值内的音量信息；其中，预设音量阈值可以是基于待合成语音音频的音频音量信息确定的。可选的，预设音量阈值可以是低于待合成语音音频的音频音量信息的0-10dB。

在上述实施例中，可以基于待合成语音音频的音频音量信息，对至少一个噪音子音频进行音量控制，得到音量控制后的至少一个噪音子音频，基于音量控制后的至少一个噪音子音频和待合成语音音频进行音频合成，得到目标合成音频，可以保证目标合成音频中噪音的音量与语音音频音量相匹配，进而可以提高目标合成音频的质量。

在步骤S211中，基于目标合成音频和目标合成音频对应的语音文本标签，对待训练识别模型进行语音识别训练，得到语音识别模型。

在一个具体的实施例中，语音识别模型可以为用于识别语音内容的识别模型。

在一个具体的实施例中，可以通过将目标合成音频输入至待训练识别模型进行语音识别训练，得到合成音频文本信息；基于上述合成音频文本信息和目标合成音频对应的语音文本标签，可以确定目标损失信息；基于上述目标损失信息，可以对待训练识别模型中的模型参数进行调整，并重复上述将目标合成音频输入至待训练识别模型进行语音识别训练，得到合成音频文本信息至基于上述目标损失信息，对待训练识别模型中的模型参数进行调整，直至满足预设收敛条件，可以将满足预设收敛条件时的待训练识别模型，作为语音识别模型。

在一个具体的实施例中，目标合成音频可以包括多个语音场景类型对应的多个合成音频；

相应的，上述步骤S211可以包括：

从多个合成音频中获取当前合成音频；

将当前合成音频输入至待训练识别模型进行语音识别处理，得到当前合成音频各自对应的识别文本信息；

基于识别文本信息和当前合成音频对应的语音文本标签，确定多个语音场景类型各自对应的损失信息和多个语音场景类型对应的累计损失信息；

在累计损失信息大于第一预设损失信息的情况下，基于累计损失信息，对待训练识别模型进行更新，得到更新后的待训练识别模型，并确定目标语音场景类型；

基于更新后的待训练识别模型，跳转至从多个合成音频中获取当前合成音频的步骤，当前合成音频中目标语音场景类型对应的合成音频数量大于其他的语音场景类型对应的合成音频数量，直至累计损失信息小于等于第一预设损失信息；

基于满足累计损失信息小于等于第一预设损失信息时得到的待训练识别模型，确定语音识别模型。

在一个具体的实施例中，当前合成音频可以是指当前训练待训练识别模型所使用的合成音频。当前合成音频对应的语音场景类型可以为多个语音场景类型。当前合成音频可以包括上述多个语音场景类型对应的合成音频。

在一个具体的实施例中，可以通过从目标合成音频中的每个语音场景类型对应的多个合成音频中分别筛选出至少一个合成音频，得到当前合成音频。

在一个具体的实施例中，当前合成音频各自对应的识别文本信息可以为当前合成音频中多个合成音频各自对应的文本信息。

在一个具体的实施例中，多个语音场景类型各自对应的损失信息和多个语音场景类型对应的累计损失信息可以用于为待训练识别模型当前的训练过程中模型参数的调整提供参考。每个语音场景类型对应的损失信息可以表征该语音场景类型对应的识别文本信息与该语音场景类型对应的语音文本标签之间的偏差程度。累计损失信息可以表征当前合成音频中全部合成音频对应的识别文本信息和当前合成音频对应的语音文本标签之间的偏差程度。

在一个具体的实施例中，可以基于每个语音场景类型对应的识别文本信息和该语音场景类型对应的语音文本标签，确定每个语音场景类型对应的损失信息，相应的，可以得到多个语音场景类型各自对应的损失信息；可以通过对多个语音场景类型各自对应的损失信息进行叠加处理，可以得到多个语音场景类型对应的累计损失信息。

在一个具体的实施例中，目标语音场景类型可以是指在多个语音场景类型对应的复杂场景中当前的待训练识别模型的识别能力较弱的复杂场景对应的语音场景类型。目标语音场景类型可以为多个语音场景类型中对应的损失信息大于第二预设损失信息的语音场景类型。

在一个具体的实施例中，第一预设损失信息和第二预设损失信息可以是根据实际应用需要确定的，本公开不作限定。

在一个具体的实施例中，可以通过将多个语音场景类型各自对应的损失信息与第二预设损失信息进行比对，将多个语音场景类型各自对应的损失信息中大于第二预设损失信息的语音场景类型，作为目标语音场景类型。可以理解的是，目标语音场景类型可以包括至少一个语音场景类型。

在一个具体的实施例中，每次基于更新后的待训练识别模型，跳转至上述从多个合成音频中获取当前合成音频的步骤时，从多个合成音频中获取得到的当前合成音频中，目标语音场景类型对应的合成音频数量大于其他的语音场景类型对应的合成音频数量。

在一个具体的实施例中，可以将满足累计损失信息小于等于第一预设损失信息时得到的待训练识别模型，作为语音识别模型。

在上述实施例中，可以通过在累计损失信息大于第一预设损失信息的情况下，基于累计损失信息，对待训练识别模型进行更新，得到更新后的待训练识别模型，并确定目标语音场景类型，基于更新后的待训练识别模型，跳转至从多个合成音频中获取当前合成音频的步骤，当前合成音频中目标语音场景类型对应的合成音频数量大于其他的语音场景类型对应的合成音频数量，直至累计损失信息小于等于第一预设损失信息，可以针对待训练识别模型的识别能力较弱的目标语音场景类型进行短板训练，可以提高语音识别模型对于多个语音场景类型的识别能力。

在上述实施例中，通过获取具有语音文本标签的、无噪音的待合成语音音频和至少一个语音场景类型对应的场景语音音频，从场景语音音频中通过语音分离处理分离出至少一个语音场景类型对应的场景噪音音频，可以保证场景噪音音频极为贴近真实复杂场景，再对每个场景噪音音频进行静音片段识别，得到每个场景噪音音频中的至少一个静音片段，基于每个场景噪音音频中的至少一个静音片段，对每个场景噪音音频进行静音切除处理，得到每个场景噪音音频对应的至少一个噪音子音频，可以提高噪音子音频的质量，避免无声噪音片段导致语音识别训练的有效性降低，接着，基于至少一个噪音子音频和已完成标注的待合成语音音频进行音频合成，得到目标合成音频，可以提高目标合成音频的生成的便利性和目标合成音频的质量，然后，结合目标合成音频和目标合成音频对应的语音文本标签，对待训练识别模型进行语音识别训练，可以提高语音识别模型的抗干扰能力，并提高语音识别模型对于各种复杂场景的语音识别能力。

图3是根据一示例性实施例示出的一种生成目标合成音频的流程示意图。如图3所示，通过对至少一个语音场景类型对应的场景语音音频进行语音分离处理，可以得到场景语音音频中的语音音频和噪音音频，可以将分离得到的场景语音音频中的噪音音频，作为场景噪音音频。通过对任一场景噪音音频进行静音片段识别，可以得到任一场景噪音音频中的至少一个静音片段；基于任一场景噪音音频中的至少一个静音片段，对任一场景噪音音频进行静音切除处理，可以得到任一场景噪音音频对应的至少一个噪音子音频。图4是根据一示例性实施例示出的一种待合成语音音频的语音波形及频谱示意图，基于语音波形及频谱如图4所示的待合成语音音频的第一音频长度，可以从至少一个噪音子音频筛选出第二噪音子音频；在第二音频长度大于第一音频长度的情况下，基于第一音频长度，可以从第二噪音子音频中切分出第一噪音子音频；在第二音频长度小于等于第一音频长度的情况下，可以将第二噪音子音频作为第一噪音子音频。基于如图4所示的待合成语音音频的音频音量信息，对第一噪音子音频进行音量控制，可以得到音量控制后的第一噪音子音频。图5是根据一示例性实施例示出的一种目标合成音频的语音波形及频谱示意图，基于音量控制后的第一噪音子音频和如图4所示的待合成语音音频进行音频合成，可以得到如图5所示的语音波形及频谱的目标合成音频。

基于上述的语音识别模型的生成方法得到的语音识别模型，本公开还提供了一种语音识别方法，该语音识别方法可以用于终端、服务器等电子设备中，可以包括以下步骤：

获取待识别语音音频；

将待识别语音音频输入根据上述的语音识别模型的生成方法得到的语音识别模型进行语音识别处理，得到待识别语音音频对应的语音文本信息。

图6是根据一示例性实施例示出的一种语音识别模型的生成装置的框图。如图6所示，该装置可以包括：

语音音频获取模块610，可以用于获取具有语音文本标签的待合成语音音频和至少一个语音场景类型对应的场景语音音频；待合成语音音频为无噪音的语音音频；

语音分离处理模块620，可以用于对场景语音音频进行语音分离处理，得到至少一个语音场景类型对应的场景噪音音频；

静音片段识别模块630，可以用于对任一场景噪音音频进行静音片段识别，得到任一场景噪音音频中的至少一个静音片段；

静音切除处理模块640，可以用于基于任一场景噪音音频中的至少一个静音片段，对任一场景噪音音频进行静音切除处理，得到任一场景噪音音频对应的至少一个噪音子音频；

音频合成模块650，可以用于基于至少一个噪音子音频和待合成语音音频进行音频合成，得到目标合成音频；

语音识别训练模块660，可以用于基于目标合成音频和目标合成音频对应的语音文本标签，对待训练识别模型进行语音识别训练，得到语音识别模型。

在一个具体的实施例中，上述音频合成模块650可以包括：

第一噪音子音频获取模块，可以用于从至少一个噪音子音频中获取第一噪音子音频；

第一目标合成音频获取模块，可以用于对第一噪音子音频和待合成语音音频进行音频合成，得到目标合成音频。

在一个具体的实施例中，上述第一噪音子音频获取模块可以包括：

第二噪音子音频获取模块，可以用于基于待合成语音音频的第一音频长度，从至少一个噪音子音频筛选出第二噪音子音频；第二音频长度大于等于第一预设音频长度，第二音频长度为第二噪音子音频的音频长度，第一预设音频长度小于第一音频长度；

第二噪音子音频切分模块，可以用于在第二音频长度大于第一音频长度的情况下，基于第一音频长度，从第二噪音子音频中切分出第一噪音子音频，第一噪音子音频的音频长度与第一音频长度相匹配。

在一个具体的实施例中，上述装置还可以包括：

第一噪音子音频确定模块，可以用于在第二音频长度小于等于第一音频长度的情况下，将第二噪音子音频作为第一噪音子音频。

在一个具体的实施例中，上述装置还可以包括：

音量控制模块，可以用于基于待合成语音音频的音频音量信息，对至少一个噪音子音频进行音量控制，得到音量控制后的至少一个噪音子音频；音量控制后的至少一个噪音子音频的音频音量信息小于等于待合成语音音频的音频音量信息；

在一个具体的实施例中，上述音频合成模块650还可以包括：

第二目标合成音频获取模块，可以用于基于音量控制后的至少一个噪音子音频和待合成语音音频进行音频合成，得到目标合成音频。

在一个具体的实施例中，上述静音片段识别模块630可以包括：

音量检测模块，可以用于对任一场景噪音音频进行音量检测，得到任一场景噪音音频对应的音频音量信息；

目标音频片段获取模块，可以用于基于任一场景噪音音频对应的音频音量信息，从任一场景噪音音频中筛选出至少一个目标音频片段；任一目标音频片段为任一场景噪音音频中低于预设音频音量的音频片段；

静音片段获取模块，可以用于基于至少一个目标音频片段的音频长度，从至少一个目标音频片段中筛选出至少一个静音片段，任一静音片段的音频长度大于第二预设音频长度。

在一个具体的实施例中，上述语音识别训练模块660可以包括：

当前合成音频获取模块，可以用于从多个合成音频中获取当前合成音频；当前合成音频对应的语音场景类型为多个语音场景类型；

识别文本信息获取模块，可以用于将当前合成音频输入至待训练识别模型进行语音识别处理，得到当前合成音频各自对应的识别文本信息；

损失信息确定模块，可以用于基于识别文本信息和当前合成音频对应的语音文本标签，确定多个语音场景类型各自对应的损失信息和多个语音场景类型对应的累计损失信息；

目标语音场景类型确定模块，可以用于在累计损失信息大于第一预设损失信息的情况下，基于累计损失信息，对待训练识别模型进行更新，得到更新后的待训练识别模型，并确定目标语音场景类型，目标语音场景类型为多个语音场景类型中对应的损失信息大于第二预设损失信息的语音场景类型；

待训练识别模型训练模块，可以用于基于更新后的待训练识别模型，跳转至从多个合成音频中获取当前合成音频的步骤，当前合成音频中目标语音场景类型对应的合成音频数量大于其他的语音场景类型对应的合成音频数量，直至累计损失信息小于等于第一预设损失信息；

语音识别模型确定模块，可以用于基于满足累计损失信息小于等于第一预设损失信息时得到的待训练识别模型，确定语音识别模型。

在一个具体的实施例中，上述语音分离处理模块620可以包括：

能量确定模块，可以用于确定任一场景语音音频对应的音频能量信息以及任一场景语音音频对应的噪音能量信息；

能量比例确定模块，可以用于基于音频能量信息和噪音能量信息，确定能量比例信息，能量比例信息表征任一场景语音音频中的场景噪音音频在任一场景语音音频中的声音能量占比；

频域分析模块，可以用于基于能量比例信息，对任一场景语音音频进行频域分析，得到任一场景语音音频对应的噪音音频频域信息；

音频分离模块，可以用于基于噪音音频频域信息，对任一场景语音音频进行音频分离处理，得到场景噪音音频。

本公开实施例还提供一种语音识别装置，可以包括：

待识别语音音频获取模块，可以用于获取待识别语音音频；

语音识别处理模块，可以用于将待识别语音音频输入根据上述的语音识别模型的生成方法得到的语音识别模型进行语音识别处理，得到待识别语音音频对应的语音文本信息。

关于上述实施例中的装置，其中各个模块和单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于生成语音识别模型或语音识别的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型的生成方法或语音识别方法。

图8是根据一示例性实施例示出的另一种用于生成语音识别模型或语音识别的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型的生成方法或语音识别方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7或图8中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的语音识别模型的生成方法或语音识别方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的语音识别模型的生成方法或语音识别方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的语音识别模型的生成方法或语音识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别模型的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个噪音子音频和所述待合成语音音频进行音频合成，得到目标合成音频，包括：

从所述至少一个噪音子音频中获取第一噪音子音频；

对所述第一噪音子音频和所述待合成语音音频进行音频合成，得到所述目标合成音频。

3.根据权利要求2所述的方法，其特征在于，所述从所述至少一个噪音子音频中获取第一噪音子音频，包括：

基于所述待合成语音音频的第一音频长度，从所述至少一个噪音子音频筛选出第二噪音子音频；第二音频长度大于等于第一预设音频长度，所述第二音频长度为所述第二噪音子音频的音频长度，所述第一预设音频长度小于所述第一音频长度；

在所述第二音频长度大于所述第一音频长度的情况下，基于所述第一音频长度，从所述第二噪音子音频中切分出所述第一噪音子音频，所述第一噪音子音频的音频长度与所述第一音频长度相匹配。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在所述第二音频长度小于等于所述第一音频长度的情况下，将所述第二噪音子音频作为所述第一噪音子音频。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述待合成语音音频的音频音量信息，对所述至少一个噪音子音频进行音量控制，得到音量控制后的至少一个噪音子音频；所述音量控制后的至少一个噪音子音频的音频音量信息小于等于所述待合成语音音频的音频音量信息；

所述基于所述至少一个噪音子音频和所述待合成语音音频进行音频合成，得到目标合成音频，包括：

基于所述音量控制后的至少一个噪音子音频和所述待合成语音音频进行音频合成，得到所述目标合成音频。

6.根据权利要求1-5任一所述的方法，其特征在于，所述对任一所述场景噪音音频进行静音片段识别，得到任一所述场景噪音音频中的至少一个静音片段，包括：

对任一所述场景噪音音频进行音量检测，得到任一所述场景噪音音频对应的音频音量信息；

基于任一所述场景噪音音频对应的音频音量信息，从任一所述场景噪音音频中筛选出至少一个目标音频片段；任一所述目标音频片段为任一所述场景噪音音频中低于预设音频音量的音频片段；

基于所述至少一个目标音频片段的音频长度，从所述至少一个目标音频片段中筛选出至少一个静音片段，任一所述静音片段的音频长度大于第二预设音频长度。

7.根据权利要求1所述的方法，其特征在于，所述目标合成音频包括多个语音场景类型对应的多个合成音频，所述基于所述目标合成音频和所述目标合成音频对应的语音文本标签，对待训练识别模型进行语音识别训练，得到语音识别模型，包括：

从所述多个合成音频中获取当前合成音频；所述当前合成音频对应的语音场景类型为所述多个语音场景类型；

将所述当前合成音频输入至所述待训练识别模型进行语音识别处理，得到所述当前合成音频各自对应的识别文本信息；

基于所述识别文本信息和所述当前合成音频对应的语音文本标签，确定所述多个语音场景类型各自对应的损失信息和所述多个语音场景类型对应的累计损失信息；

在所述累计损失信息大于第一预设损失信息的情况下，基于所述累计损失信息，对所述待训练识别模型进行更新，得到更新后的待训练识别模型，并确定目标语音场景类型，所述目标语音场景类型为所述多个语音场景类型中对应的损失信息大于第二预设损失信息的语音场景类型；

基于所述更新后的待训练识别模型，跳转至所述从所述多个合成音频中获取当前合成音频的步骤，所述当前合成音频中所述目标语音场景类型对应的合成音频数量大于其他的语音场景类型对应的合成音频数量，直至所述累计损失信息小于等于所述第一预设损失信息；

基于满足所述累计损失信息小于等于所述第一预设损失信息时得到的待训练识别模型，确定所述语音识别模型。

8.根据权利要求1-7任一所述的方法，其特征在于，所述对所述场景语音音频进行语音分离处理，得到所述至少一个语音场景类型对应的场景噪音音频，包括：

确定任一所述场景语音音频对应的音频能量信息以及任一所述场景语音音频对应的噪音能量信息；

基于所述音频能量信息和所述噪音能量信息，确定能量比例信息，所述能量比例信息表征任一所述场景语音音频中的场景噪音音频在任一所述场景语音音频中的声音能量占比；

基于所述能量比例信息，对任一所述场景语音音频进行频域分析，得到任一所述场景语音音频对应的噪音音频频域信息；

基于所述噪音音频频域信息，对任一所述场景语音音频进行音频分离处理，得到所述场景噪音音频。

9.一种语音识别方法，其特征在于，所述方法包括：

获取待识别语音音频；

将所述待识别语音音频输入根据权利要求1-8任一所述的语音识别模型的生成方法得到的语音识别模型进行语音识别处理，得到所述待识别语音音频对应的语音文本信息。

10.一种语音识别模型的生成装置，其特征在于，所述装置包括：

11.一种语音识别装置，其特征在于，所述装置包括：

待识别语音音频获取模块，用于获取待识别语音音频；

语音识别处理模块，用于将所述待识别语音音频输入根据权利要求1-8任一所述的语音识别模型的生成方法得到的语音识别模型进行语音识别处理，得到所述待识别语音音频对应的语音文本信息。

12.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令以实现权利要求1至8中任意一项所述的语音识别模型的生成方法或实现权利要求9所述的语音识别方法。

13.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的语音识别模型的生成方法或实现权利要求9所述的语音识别方法。

14.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至8中任意一项所述的语音识别模型的生成方法或实现权利要求9所述的语音识别方法。