CN114299933A

CN114299933A - 语音识别模型训练方法、装置、设备、存储介质及产品

Info

Publication number: CN114299933A
Application number: CN202111626762.9A
Authority: CN
Inventors: 李良斌; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-08
Anticipated expiration: 2041-12-28
Also published as: CN114299933B

Abstract

本申请公开了一种语音识别模型训练方法、装置、设备、存储介质及产品，属于互联网技术领域。该方法先获取多个非人声音频，通过第一语音识别模型对多个非人声音频进行识别，得到每个非人声音频对应的识别结果，基于该识别结果，确定被识别为人声音频的多个第一非人声音频，从多个第一非人声音频中，确定目标非人声音频，将目标非人声音频与不包含唤醒词的人声音频作为负样本，将包含唤醒词的人声音频作为正样本，基于负样本和正样本进行模型训练，得到用于识别唤醒词的第二语音识别模型。该第二语音识别模型在识别唤醒词时，可以消除与唤醒词相似的非人声音频对识别唤醒词的影响，避免误唤醒，从而降低误唤醒率。

Description

语音识别模型训练方法、装置、设备、存储介质及产品

技术领域

本申请涉及互联网技术领域，特别涉及一种语音识别模型训练方法、装置、设备、存储介质及产品。

背景技术

随着互联网技术的发展，越来越多的电子设备支持语音唤醒模式。语音唤醒模式是先通过唤醒词来唤醒电子设备，然后语音控制电子设备执行相应的操作。目前，电子设备主要通过语音识别模型来识别唤醒词，因此，语音识别模型对唤醒词识别的准确率直接影响到唤醒的准确率。

相关技术中主要将包含唤醒词的人声音频作为正样本，将不包含唤醒词的人声音频作为负样本，通过正样本和负样本来进行模型训练，最终得到语音识别模型。

但在实际使用过程中，往往会包含音乐噪声、机械噪声、交通噪声等各种非人声音频，而有的非人声音频从节奏或韵律上与唤醒词接近，这种情况下，语音识别模型误将这些非人声音频识别为唤醒词，造成电子设备被误唤醒，导致误唤醒率较高。

发明内容

本申请实施例提供了一种语音识别模型训练方法、装置、设备、存储介质及产品,可以降低误唤醒率。所述技术方案如下：

一方面，提供了一种语音识别模型训练方法，所述方法包括：

获取多个非人声音频；

通过预先训练好的第一语音识别模型对所述多个非人声音频进行识别，得到每个非人声音频对应的识别结果，所述第一语音识别模型是通过多个人声音频训练得到的；

基于每个非人声音频对应的识别结果，确定多个第一非人声音频，所述第一非人声音频为被识别为人声音频的非人声音频；

从所述多个第一非人声音频中，确定与包含唤醒词的人声音频之间的相似度满足相似度条件的目标非人声音频；

将所述目标非人声音频与不包含唤醒词的人声音频作为负样本，将所述包含唤醒词的人声音频作为正样本，基于所述负样本和所述正样本进行模型训练，得到第二语音识别模型，所述第二语音识别模型用于识别唤醒词。

在一种可能的实现方式中，所述从所述多个第一非人声音频中，确定与包含唤醒词的人声音频之间的相似度满足相似度条件的目标非人声音频，包括：

对于每个第一非人声音频，对所述第一非人声音频进行解码，确定所述第一非人声音频对应的解码参数；

基于所述第一非人声音频对应的解码参数，确定所述第一非人声音频与所述包含唤醒词的人声音频之间的相似度，得到多个相似度；

基于每个第一非人声音频对应的相似度，确定相似度满足所述相似度条件的目标非人声音频。

在另一种可能的实现方式中，所述对所述第一非人声音频进行解码，确定所述第一非人声音频对应的解码参数，包括：

确定所述非人声音频包括的音频帧；

基于预先训练好的声学模型，确定所述音频帧对应的声学解码参数；

基于预先训练好的语言学模型，确定所述音频帧对应的语言解码参数；

基于所述声学解码参数和所述语言解码参数，确定所述解码参数。

在另一种可能的实现方式中，所述相似度条件为相似度不小于预设相似度阈值；

所述基于每个第一非人声音频对应的相似度，确定相似度满足所述相似度条件的目标非人声音频，包括：

基于每个第一非人声音频对应的相似度，将相似度不小于所述预设相似度阈值的第一非人声音频确定为所述目标非人声音频。

在另一种可能的实现方式中，所述相似度条件为相似度最高的预设数量个第一非人声音频；

基于每个第一非人声音频对应的相似度，从多个相似度中选择相似度最高的预设数量个第一非人声音频，得到所述目标非人声音频。

在另一种可能的实现方式中，所述基于所述负样本和所述正样本进行模型训练，得到第二语音识别模型，包括：

获取第一初始模型；

基于所述负样本和所述正样本，对所述第一初始模型进行训练，得到所述第二语音识别模型。

获取第二初始模型，所述第二初始模型由所述不包含唤醒词的人声音频和所述正样本训练得到；

基于所述负样本和所述正样本，在所述第二初始模型的基础上进行增强训练，得到所述第二语音识别模型。

在另一种可能的实现方式中，所述方法还包括：

获取待识别的语音音频；

将所述语音音频输入所述第二语音识别模型中，得到所述语音音频对应的识别结果；

若所述语音音频对应的识别结果表示所述语音音频包含唤醒词，执行唤醒操作。

在另一种可能的实现方式中，获取非人声音频的过程包括以下至少一种实现方式：

获取音乐噪声对应的非人声音频；

获取机械噪声对应的非人声音频；

获取交通噪声对应的非人声音频。

另一方面，提供了一种语音识别模型训练装置，所述装置包括：

第一获取模块，用于获取多个非人声音频；

第一识别模块，用于通过预先训练好的第一语音识别模型对所述多个非人声音频进行识别，得到每个非人声音频对应的识别结果，所述第一语音识别模型是通过多个人声音频训练得到的；

第一确定模块，用于基于每个非人声音频对应的识别结果，确定多个第一非人声音频，所述第一非人声音频为被识别为人声音频的非人声音频；

第二确定模块，用于从所述多个第一非人声音频中，确定与包含唤醒词的人声音频之间的相似度满足相似度条件的目标非人声音频；

训练模块，用于将所述目标非人声音频与不包含唤醒词的人声音频作为负样本，将所述包含唤醒词的人声音频作为正样本，基于所述负样本和所述正样本进行模型训练，得到第二语音识别模型，所述第二语音识别模型用于识别唤醒词。

在一种可能的实现方式中，所述第二确定模块，用于对于每个第一非人声音频，对所述第一非人声音频进行解码，确定所述第一非人声音频对应的解码参数；基于所述第一非人声音频对应的解码参数，确定所述第一非人声音频与所述包含唤醒词的人声音频之间的相似度，得到多个相似度；基于每个第一非人声音频对应的相似度，确定相似度满足所述相似度条件的目标非人声音频。

在另一种可能的实现方式中，所述第二确定模块，用于确定所述第一非人声音频包括的音频帧；基于预先训练好的声学模型，确定所述音频帧对应的声学解码参数；基于预先训练好的语言学模型，确定所述音频帧对应的语言解码参数；基于所述声学解码参数和所述语言解码参数，确定所述解码参数。

所述第二确定模块，用于基于每个第一非人声音频对应的相似度，将相似度不小于所述预设相似度阈值的第一非人声音频确定为所述目标非人声音频。

所述第二确定模块，用于基于每个第一非人声音频对应的相似度，从多个相似度中选择相似度最高的预设数量个第一非人声音频，得到所述目标非人声音频。

在另一种可能的实现方式中，所述训练模块，用于获取第一初始模型；基于所述负样本和所述正样本，对所述第一初始模型进行训练，得到所述第二语音识别模型。

在另一种可能的实现方式中，所述训练模块，用于获取第二初始模型，所述第二初始模型由所述不包含唤醒词的人声音频和所述正样本训练得到；基于所述负样本和所述正样本，在所述第二初始模型的基础上进行增强训练，得到所述第二语音识别模型。

在另一种可能的实现方式中，所述装置还包括：

第二获取模块，用于获取待识别的语音音频；

输入模块，用于将所述语音音频输入所述第二语音识别模型中，得到所述语音音频对应的识别结果；

执行模块，用于若所述语音音频对应的识别结果表示所述语音音频包含唤醒词，执行唤醒操作。

在另一种可能的实现方式中，所述第一获取模块，用于获取音乐噪声对应的非人声音频；获取机械噪声对应的非人声音频；获取交通噪声对应的非人声音频。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如上述任一可能实现方式的语音识别模型训练方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如上述任一可能实现方式的语音识别模型训练方法。

另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述电子设备执行如上述任一可能实现方式的语音识别模型训练方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供了一种语音识别模型的训练方法，由于该方法在训练语音识别模型时，不仅仅将不包含唤醒词的人声音频作为负样本，还将与唤醒词相似度较高的非人声音频也作为负样本，与正样本一起加入到模型训练过程中，这样训练得到的语音识别模型在识别唤醒词时，就可以消除与唤醒词相似的非人声音频对识别唤醒词的影响，避免误唤醒，从而降低误唤醒率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

图1是本申请实施例提供的一种语言识别模型训练方法的实施环境的示意图；

图2是本申请实施例提供的一种语言识别模型训练方法的流程图；

图3是本申请实施例提供的一种语言识别模型训练方法的流程图；

图4是本申请实施例提供的一种语言识别模型训练装置的结构示意图；

图5是本申请实施例提供的一种终端的结构框图；

图6是本申请实施例提供的一种服务器的结构框图。

具体实施方式

为使本申请的技术方案和优点更加清楚，下面对本申请实施方式作进一步地详细描述。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

图1是本申请实施例提供的一种语音识别模型训练方法的实施环境的示意图，该实施环境包括：电子设备。该电子设备可以提供为终端，可以提供为服务器，也可以提供为终端和服务器。

若电子设备提供为终端，则由终端进行模型训练，得到语音识别模型。终端获取到语音音频后，通过其训练好的语音识别模型对该语音音频进行语音识别，识别该语音音频是否为唤醒终端的音频，得到识别结果。若该识别结果表示该语音音频为唤醒终端的音频，则终端执行唤醒操作。

若电子设备提供为服务器，则由服务器进行模型训练，得到语音识别模型。这种情况下，该实施环境还包括：终端。终端与电子设备通过无线或有线网络连接。终端上安装有电子设备提供服务的应用，终端可以通过该应用与电子设备之间实现数据传输、语音交互等功能。其中，该应用可以为终端操作系统中的应用，也可以为第三方提供的应用。例如，该应用为语音助手，该语音助手具有语音识别功能，也即识别语音音频是否为唤醒终端的音频，该语音助手还可以具有语音控制功能、语音定位功能等其他功能。

该实现方式中，终端获取到语音音频后，将该语音音频发送给电子设备，电子设备通过训练好的语音识别模型对该语音音频进行语音识别，识别该语音音频是否为唤醒终端的音频，然后向终端发送识别结果。若该识别结果表示该语音音频为唤醒终端的音频，则终端执行唤醒操作。

若电子设备提供为终端和服务器，参见图1，终端101和服务器102之间通过无线或有线网络连接。终端101上安装有服务器102提供服务的应用，终端101可以通过该应用与服务器102之间实现数据传输、语音交互等功能。

该实现方式中，可以由服务器102进行模型训练，得到语音识别模型。终端101获取到语音音频后，将该语音音频发送给服务器102，服务器102通过训练好的语音识别模型对该语音音频进行语音识别，终端101则根据服务器102的识别结果，确定是否执行唤醒操作。

这里仅以电子设备提供为终端101和服务器102为例进行说明。用户可以先发出唤醒词对应的语音音频，在唤醒电子设备中的终端101后，再发出包含控制指令的语音音频。或者用户同时发出包含唤醒词和控制指令的语音音频，在唤醒该终端101后，终端101直接根据语音音频中的控制指令，执行相应的操作。这里仅以用户先发出唤醒词对应的语音音频，在唤醒电子设备或终端101后，再发出包含控制指令的语音音频为例进行说明。

在本申请实施例中，唤醒词对应的语音识别模型可以应用在多个场景中。例如，唤醒手机的场景、唤醒空调的场景、唤醒车载终端101的场景、唤醒电视的场景以及其他唤醒场景等。

当应用在唤醒手机的场景下时，用户先唤醒手机，然后再语音控制手机执行相应的操作，例如，打开地图应用或者音乐应用。当应用在唤醒空调的场景下时，用户先唤醒空调，然后再语音控制空调执行相应的操作，例如升高温度或降低温度。当应用在唤醒电视的场景时，用户先唤醒电视，然后再语音控制电视执行相应的操作，例如，播放电视剧A或者播放电影B。

终端101可以为电脑、手机、车载终端、穿戴设备或者家居设备等任一种具有语音交互功能的终端，其中，家居设备可以为音箱、电视、冰箱、空调、机器人、灯具等。服务器102可以为一台服务器、由多台服务器组成的服务器集群、云服务器、云计算平台和虚拟化中心中的至少一种。

图2是本申请实施例提供的一种语音识别模型训练方法的流程图，参见图2，该方法包括：

步骤201：获取多个非人声音频。

步骤202：通过预先训练好的第一语音识别模型对多个非人声音频进行识别，得到每个非人声音频对应的识别结果，第一语音识别模型是通过多个人声音频训练得到的。

步骤203：基于每个非人声音频对应的识别结果，确定多个第一非人声音频，第一非人声音频为被识别为人声音频的非人声音频。

步骤204：从多个第一非人声音频中，确定与包含唤醒词的人声音频之间的相似度满足相似度条件的目标非人声音频。

步骤205：将目标非人声音频与不包含唤醒词的人声音频作为负样本，将包含唤醒词的人声音频作为正样本，基于负样本和正样本进行模型训练，得到第二语音识别模型，第二语音识别模型用于识别唤醒词。

在一种可能的实现方式中，从多个第一非人声音频中，确定与包含唤醒词的人声音频之间的相似度满足相似度条件的目标非人声音频，包括：

对于每个第一非人声音频，对第一非人声音频进行解码，确定第一非人声音频对应的解码参数；

基于第一非人声音频对应的解码参数，确定第一非人声音频与包含唤醒词的人声音频之间的相似度，得到多个相似度；

基于每个第一非人声音频对应的相似度，确定相似度满足相似度条件的目标非人声音频。

在另一种可能的实现方式中，对第一非人声音频进行解码，确定第一非人声音频对应的解码参数，包括：

确定第一非人声音频包括的音频帧；

基于预先训练好的声学模型，确定音频帧对应的声学解码参数；

基于预先训练好的语言学模型，确定音频帧对应的语言解码参数；

在另一种可能的实现方式中，相似度条件为相似度不小于预设相似度阈值；

基于每个第一非人声音频对应的相似度，确定相似度满足相似度条件的目标非人声音频，包括：

基于每个第一非人声音频对应的相似度，将相似度不小于预设相似度阈值的第一非人声音频确定为目标非人声音频。

在另一种可能的实现方式中，相似度条件为相似度最高的预设数量个第一非人声音频；

基于每个第一非人声音频对应的相似度，从多个相似度中选择相似度最高的预设数量个第一非人声音频，得到目标非人声音频。

在另一种可能的实现方式中，基于负样本和正样本进行模型训练，得到第二语音识别模型，包括：

获取第一初始模型；

基于负样本和正样本，对第一初始模型进行训练，得到第二语音识别模型。

获取第二初始模型，第二初始模型由不包含唤醒词的人声音频和正样本训练得到；

基于负样本和正样本，在第二初始模型的基础上进行增强训练，得到第二语音识别模型。

在另一种可能的实现方式中，方法还包括：

获取待识别的语音音频；

将语音音频输入第二语音识别模型中，得到语音音频对应的识别结果；

若语音音频对应的识别结果表示语音音频包含唤醒词，执行唤醒操作。

获取音乐噪声对应的非人声音频；

获取机械噪声对应的非人声音频；

获取交通噪声对应的非人声音频。

图3是本申请实施例提供的一种语音识别模型训练方法的流程图，由电子设备执行，参见图3，该方法包括：

步骤301：电子设备获取多个非人声音频。

本步骤中，电子设备可以通过以下至少一种实现方式获取非人声音频：

获取音乐噪声对应的非人声音频；

获取机械噪声对应的非人声音频；

获取交通噪声对应的非人声音频。

该实现方式中，该音乐噪声可以为敲击乐器时发出的声音，也可以为播放的音乐的声音。例如，该音乐噪声为敲击鼓或锣发出的声音。

该机械噪声是指机械设备运转时，部件间的摩擦力、撞击力或非平衡力，使机械部件和壳体产生振动而发出的声音。该机械噪声按声源的不同可以分为以下三类：空气动力性噪声、机械性噪声和电磁性噪声。其中，空气动力性噪声是由气体振动产生的，例如，通风机、压缩机、发动机、喷气式飞机和火箭等产生的噪声。机械性噪声是由固体振动产生的，例如齿轮、轴承和壳体等振动产生的噪声。电磁性噪声是由电磁振动产生的，例如，电动机、发电机和变压器等产生的噪声。

交通噪声是指交通工具运行时所产生的妨害人们正常生活和工作的声音，包括机动车噪声、飞机噪声、火车噪声和船舶噪声等。

在本申请实施例中，电子设备可以获取其中一种类型的非人声音频，也可以获取多种类型的非人声音频。对于任一种类型的非人声音频，电子设备可以获取该类型对应的多个非人声音频。至于每种类型的多个非人声音频的数量可以根据需要进行设置并更改，在本申请实施例中，对此不作具体限定。

在本申请实施例中，电子设备还可以获取其他类型的噪声对应的非人声音频，这里不再一一列举。另外，电子设备获取非人声音频时，可以获取任一分贝的非人声音频，也可以获取分贝超过预设分贝的非人声音频，对此不作具体限定。

本步骤中，电子设备通过上述方式可以获取到海量的非人声音频，后续通过非人声音频进行模型训练时，可以消除与唤醒词相似的非人声音频对识别唤醒词的影响，避免误唤醒，从而降低误唤醒率。并且，若获取的非人声音频为分贝超过预设分贝的音频，在后续通过非人声音频进行模型训练时，还可以消除噪声的影响，提高识别的准确率。

步骤302：电子设备通过预先训练好的第一语音识别模型对多个非人声音频进行识别，得到每个非人声音频对应的识别结果。

该第一语音识别模型是通过多个人声音频训练得到的，该人声音频的内容可以根据需要进行设置并更改，例如，人声音频为包含唤醒词的人声音频、不包含唤醒词的人声音频或者其他人声音频，在本申请实施例中，对此不作具体限定。

电子设备将每个非人声音频输入第一语音识别模型中，得到该非人声音频对应的识别结果，该识别结果表示第一语音识别模型将该非人声音频识别为人声音频，或者将该非人声音频识别为非人声音频。

需要说明的一点是，由于有的非人声音频可能与人声音频相似，因此，第一语音识别模型可能会将该非人声音频误识别为人声音频。

由于非人声音频的数量较多，电子设备将每个非人声音频输入第一语音识别模型中时，可以先按照非人声音频的类型确定每种类型的非人声音频的顺序，由于每种类型的非人声音频均包括多个非人声音频，这种情况下，可以按照获取每个非人声音频的先后顺序来输入。

例如，电子设备获取音乐噪声对应的非人声音频、机械噪声对应的非人声音频以及交通噪声对应的非人声音频，电子设备可以确定优先输入音乐噪声对应的非人声音频、然后输入机械噪声对应的非人声音频，最后输入交通噪声对应的非人声音频。当然，电子设备还可以调整这几种类型的非人声音频的输入顺序，对此不作具体限定。

在本申请实施例中，电子设备可以自己预先训练得到第一语音识别模型，也可以获取其他设备训练好的第一语音识别模型，对此不作具体限定。

步骤303：电子设备基于每个非人声音频对应的识别结果，确定多个第一非人声音频。

电子设备基于第一语音识别模型对每个非人声音频的识别结果，从多个识别结果中确定多个第一非人声音频，该多个第一非人声音频为被识别为人声音频的非人声音频。

步骤304：对于每个第一非人声音频，电子设备对该第一非人声音频进行解码，确定该第一非人声音频对应的解码参数。

在本申请实施例中，电子设备可以用唤醒词的标注将该第一非人声音频进行强制对齐，通过解码图对该第一非人声音频进行解码，该解码图包括多个解码路径，每条解码路径对应一个解码参数，当通过该解码图对该第一非人声音频进行解码时，可以得到该第一非人声音频对应的解码路径，该解码路径对应的路径得分即为该第一非人声音频对应的解码参数。

本步骤可以通过以下步骤(1)至(4)实现，包括：

(1)电子设备确定该第一非人声音频包括的音频帧。

第一非人声音频一般包括多个音频帧，因此，本步骤得到多个音频帧。

(2)电子设备基于预先训练好的声学模型，确定该音频帧对应的声学解码参数。

对于解码图中的每个解码路径，电子设备可以确定该解码路径对应的基础语音音频，然后通过chain model(链状模型)中的声学模型，确定该多个音频帧与第一音素序列之间的匹配概率，确定该匹配概率为该多个音频帧在该解码路径下的声学解码参数。其中，第一音素序列为基于唤醒词序列分解得到的，唤醒词序列为仅包含唤醒词的人声音频对应的序列。

在本申请实施例中，该声学模型可以为卷积神经网络、深度学习神经网络、循环神经网络等神经网络中的一种或多种，对此不作具体限定。

(3)电子设备基于预先训练好的语言学模型，确定音频帧对应的语言解码参数。

电子设备通过chain model中的语言学模型，确定多个音频帧与唤醒词序列之间的匹配概率，确定该匹配概率为该多个音频帧在该解码路径下的语言解码参数。

(4)电子设备基于声学解码参数和语言解码参数，确定解码参数。

对于每条解码路径，电子设备确定该解码路径下的声学解码参数和语言学解码参数的乘积，得到多个音频帧在该解码路径下的解码参数，将多条解码路径中最大的解码参数作为该第一非人声音频的解码参数。

在本申请实施例中，电子设备通过语言学模型和声学模型共同来确定第一非人声音频的解码参数，综合参考了语言解码参数和声学解码参数，提高了对第一非人声音频解码的准确性。

其中，该解码图可以为WFST(Weighted Finite State Transducers，加权有限状态转换器)解码图。

步骤305：电子设备基于第一非人声音频对应的解码参数，确定该第一非人声音频与包含唤醒词的人声音频之间的相似度，得到多个相似度。

电子设备可以直接通过第一非人声音频对应的解码参数，来表征该第一非人声音频与包含唤醒词的人声音频之间的相似度。解码参数越大，相似度越大，说明该第一非人声音频与包含唤醒词的人声音频越相似。

其中，包含唤醒词的人声音频可以为只有唤醒词的人声音频，也可以为除唤醒词之外，还包括其他词语的人声音频。若该包含唤醒词的人声音频为除唤醒词之外，还包括其他词语的人声音频，则该相似度为第一非人声音频与唤醒词之间的相似度。

在本申请实施例中，基于第一非人声音频对应的解码参数来确定第一非人声音频与唤醒词的相似度，这样后续可以根据相似度从多个非第一人声音频中选出与唤醒词相似的目标非人声音频，然后将这些目标非人声音频作为负样本的一部分，加入到模型训练过程中，从而提高语音识别模型对唤醒词识别的准确率，降低误唤醒率。

步骤306：电子设备基于每个第一非人声音频对应的相似度，确定相似度满足相似度条件的目标非人声音频。

本步骤可以通过以下任一实现方式实现。

第一种实现方式，相似度条件为相似度不小于预设相似度阈值，电子设备基于每个第一非人声音频对应的相似度，将相似度不小于预设相似度阈值的第一非人声音频确定为目标非人声音频。

该实现方式中，电子设备可以遍历多个第一非人声音频对应的相似度，从中选择相似度不小于预设相似度阈值的第一非人声音频。或者，电子设备也可以将多个第一非人声音频按照相似度大小进行排序，例如，按照相似度由大到小进行排序，从排序后的第一非人声音频中确定相似度等于预设相似度阈值对应的第一非人声音频，将该第一非人声音频及其之前的第一非人声音频确定为目标非人声音频。当然，电子设备也可以按照相似度由小到达进行排序，然后从排序后的第一非人声音频中确定相似度等于预设相似度阈值对应的第一非人声音频，将该第一非人声音频及其之后的第一非人声音频确定为目标非人声音频。

其中，预设相似度阈值可以根据需要进行设置并更改，对此不作具体限定。

在本申请实施例中，基于预设相似度阈值从多个第一非人声音频中选取与包含唤醒词的人声音频相似度较高的目标非人声音频，后续通过这些目标非人声音频作为负样本进行模型训练，可以避免语音识别模型误识别这些目标非人声音频，从而降低误唤醒率。

第二种实现方式中，相似度条件为相似度最高的预设数量个第一非人声音频，电子设备基于每个非人声音频对应的相似度，从多个相似度中选择相似度最高的预设数量个第一非人声音频，得到目标非人声音频。

该实现方式中，电子设备也可以遍历多个第一非人声音频对应的相似度，从中选择相似度最高的预设数量个第一非人声音频。或者，电子设备也可以将确定出的多个第一非人声音频按照相似度大小进行排序，例如，按照相似度由大到小进行排序，从排序后的第一非人声音频中选择位置靠前的预设数量个第一非人声音频作为目标非人声音频。若电子设备按照相似度由小到大进行排序，则从排序后的第一非人声音频中选择位置靠后的预设数量个第一非人声音频作为目标非人声音频。其中，预设数量可以根据需要进行设置并更改，对此不作具体限定。

在本申请实施例中，基于预设数量从多个第一非人声音频中选取与包含唤醒词的人声音频相似的预设数量个目标非人声音频，后续通过这些目标非人声音频作为负样本进行模型训练，可以避免语音识别模型误识别这些目标非人声音频，从而降低误唤醒率。

步骤307：电子设备将目标非人声音频与不包含唤醒词的人声音频作为负样本，将包含唤醒词的人声音频作为正样本，基于负样本和正样本进行模型训练，得到第二语音识别模型。

该第二语音识别模型用于识别唤醒词。电子设备可以将目标非人声音频进行标注，与不包含唤醒词的人声音频进行区分，然后一起作为负样本加入到唤醒词对应的语音识别模型的训练过程中。

电子设备基于负样本和正样本，可以重新训练一个模型，得到第二语音识别模型，也即以下第一种实现方式，也可以在现有的已训练好的模型基础上进行增强训练，得到第二语音识别模型，也即以下第二种实现方式。

第一种实现方式，电子设备获取第一初始模型，基于负样本和正样本，对第一初始模型进行训练，得到第二语音识别模型。

该第一初始模型为未经过训练的模型，电子设备可以基于负样本和正样本，训练该第一初始模型得到第二语音识别模型。

在本申请实施例中，电子设备可以基于负样本和正样本重新训练一个语音识别模型，该重新训练得到的语音识别模型可以消除与唤醒词相似的非人声音频对识别唤醒词的影响，避免误唤醒，从而降低误唤醒率。

第二种实现方式，电子设备获取第二初始模型，基于负样本和正样本，在第二初始模型的基础上进行增强训练，得到第二语音识别模型。

第二初始模型可以是现有的已训练好的语音识别模型，该已训练好的语音识别模型可以是由不包含唤醒词的人声音频和该正样本训练得到的模型，也可以是第一语音识别模型，对此不作具体限定。

该增强训练可以为KLD(Kullback–Leibler Divergence，KL散度)训练，KLD训练在人工智能领域特指是一种对模型进行增量微调的训练方法，既能处理新样本，又能保持现有模型在旧样本上的性能。在本申请实施例中，电子设备可以在由不包含唤醒词的人声音频和该正样本训练得到的语音识别模型的基础上进行KLD训练，也可以在第一语音识别模型的基础上进行KLD训练，这样训练得到的第二语音识别模型既可以消除非人声音频对识别唤醒词的影响，又可以保持第二语音识别模型原有的对唤醒词的识别能力。并且，该方法在一定程度上还可以减少模型训练时间。

在本申请实施例中，通过纯人声语音识别模型从海量的非人声音频中来识别与人声音频相似的多个第一非人声音频，再基于强制对齐二次筛选与唤醒词相似的目标非人声音频，将这些目标非人声音频作为负样本的一部分加入到唤醒词对应的语音识别模型的训练中，这样可以保证唤醒词对应的语音识别模型对这些目标非人声音频的区分度，有效抑制误唤醒，从而降低误唤醒率。

在本申请实施例中，电子设备可以提供为终端，可以提供为服务器，也可以为提供为终端和服务器。若电子设备提供为终端和服务器，则训练唤醒词对应的语音识别模型的过程可以由电子设备中的服务器执行。

并且，相关技术中的识别唤醒词的语音识别模型只能在安静的环境中进行识别，若周围环境嘈杂，有噪声，则无法准确识别。而本申请实施例提供的第二语音识别模型在训练时，采用非人声音频作为负样本的一部分，因此，该第二语音识别模型不仅可以在安静的环境中进行识别，还可以在存在噪声的环境中进行识别，环境条件不再是制约语音识别准确性的因素，因此，上述训练方法在一定程度上也可以提高第二语音识别模型的准确率。

在本申请实施例中，若电子设备提供为终端和服务器，由服务器训练得到第二语音识别模型，当终端获取到待识别的语音音频时，将该语音音频发送给服务器，服务器将该语音音频输入第二语音识别模型中，得到该语音音频对应的识别结果，向终端发送该识别结果。若该识别结果表示该语音音频包含唤醒词，则终端执行唤醒操作。

其中，该待识别的语音音频可以仅包含唤醒词，例如，预设的唤醒词为“你好你好”，待识别的语音音频仅包含“你好你好”，这种情况下，终端根据识别结果确定待识别的语音音频包含唤醒词，则将当前状态调整为唤醒状态。并且，终端可以通过语音应答来回应用户，以告知用户其当前处于唤醒状态。

当终端在唤醒状态下再次采集到语音音频时，可以将该再次采集到的语音发送给服务器，服务器通过预先训练好的第三语音识别模型对该语音音频进行识别，然后向终端发送识别结果，终端根据该识别结果执行相应的操作。其中，第三语音识别模型为识别语音音频内容的模型，可以由该服务器自己训练，也可以获取其他设备训练的。例如，终端再次采集到的语音音频为“放首歌”，则终端可以打开其上安装的音乐应用，播放歌曲。该歌曲可以为音乐应用中当前未播放完的歌曲，也可以为未播放完的歌曲的下一首歌曲，也可以为播放列表中播放次数最多的歌曲，对此不作具体限定。

待识别的语音音频也可以为包含唤醒词和控制指令的音频，例如，预设的唤醒词为“你好你好”，待识别的语音音频为“你好你好，放首歌”，这种情况下，终端根据服务器的识别结果，确定待识别的语音音频包含唤醒词，则直接执行唤醒词之后的控制指令对应的操作，也即打开其上安装的音乐应用，播放歌曲。

需要说明的一点是，通过上述方法训练得到的第二语音识别模型可以识别语音音频是否包含唤醒词，无论该语音音频是哪个用户发出的。这里仅以电子设备提供为终端和服务器为例进行说明。

而当该语音音频不是电子设备中终端对应的用户发出的，也会唤醒电子设备中的终端，这样就会造成该终端中的内容泄漏，或者其他用户非正常使用该终端，降低该终端的安全性。

基于此，电子设备中的服务器在训练模型过程中，还可以提取包含唤醒词的人声音频的嗓音特征，根据嗓音特征来训练模型，这样得到的第二语音识别模型还可以识别用户的嗓音，在待识别的语音音频中的嗓音特征与录入的嗓音特征相同时，才确认该待识别的语音音频为唤醒词对应的音频，若两者不同，即使语音音频中包含唤醒词，该终端也拒绝被唤醒，从而提高该终端的安全性。

图4是本申请实施例提供的一种语音识别模型训练装置的结构示意图，参见图4，该装置包括：

第一获取模块401，用于获取多个非人声音频；

第一识别模块402，用于通过预先训练好的第一语音识别模型对多个非人声音频进行识别，得到每个非人声音频对应的识别结果，第一语音识别模型是通过多个人声音频训练得到的；

第一确定模块403，用于基于每个非人声音频对应的识别结果，确定多个第一非人声音频，第一非人声音频为被识别为人声音频的非人声音频；

第二确定模块404，用于从多个第一非人声音频中，确定与包含唤醒词的人声音频之间的相似度满足相似度条件的目标非人声音频；

训练模块405，用于将目标非人声音频与不包含唤醒词的人声音频作为负样本，将包含唤醒词的人声音频作为正样本，基于负样本和正样本进行模型训练，得到第二语音识别模型，第二语音识别模型用于识别唤醒词。

在一种可能的实现方式中，第二确定模块404，用于对于每个第一非人声音频，对第一非人声音频进行解码，确定第一非人声音频对应的解码参数；基于第一非人声音频对应的解码参数，确定第一非人声音频与包含唤醒词的人声音频之间的相似度，得到多个相似度；基于每个第一非人声音频对应的相似度，确定相似度满足相似度条件的目标非人声音频。

在另一种可能的实现方式中，第二确定模块404，用于确定第一非人声音频包括的音频帧；基于预先训练好的声学模型，确定音频帧对应的声学解码参数；基于预先训练好的语言学模型，确定音频帧对应的语言解码参数；基于声学解码参数和语言解码参数，确定解码参数。

第二确定模块404，用于基于每个第一非人声音频对应的相似度，将相似度不小于预设相似度阈值的第一非人声音频确定为目标非人声音频。

第二确定模块404，用于基于每个第一非人声音频对应的相似度，从多个相似度中选择相似度最高的预设数量个第一非人声音频，得到目标非人声音频。

在另一种可能的实现方式中，训练模块405，用于获取第一初始模型；基于负样本和正样本，对第一初始模型进行训练，得到第二语音识别模型。

在另一种可能的实现方式中，训练模块405，用于获取第二初始模型，第二初始模型由不包含唤醒词的人声音频和正样本训练得到；基于负样本和正样本，在第二初始模型的基础上进行增强训练，得到第二语音识别模型。

在另一种可能的实现方式中，装置还包括：

第二获取模块，用于获取待识别的语音音频；

输入模块，用于将语音音频输入第二语音识别模型中，得到语音音频对应的识别结果；

执行模块，用于若语音音频对应的识别结果表示语音音频包含唤醒词，执行唤醒操作。

在另一种可能的实现方式中，第一获取模块401，用于获取音乐噪声对应的非人声音频；获取机械噪声对应的非人声音频；获取交通噪声对应的非人声音频。

本申请实施例提供了一种语音识别模型的训练装置，由于该装置在训练语音识别模型时，不仅仅将不包含唤醒词的人声音频作为负样本，还将与唤醒词相似度较高的非人声音频也作为负样本，与正样本一起加入到模型训练过程中，这样训练得到的语音识别模型在识别唤醒词时，就可以消除与唤醒词相似的非人声音频对识别唤醒词的影响，避免误唤醒，从而降低误唤醒率。

需要说明的是：上述实施例提供的语音识别模型的训练装置在训练语音识别模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别模型的训练装置与语音识别模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

若电子设备提供为终端，参见图5，图5示出了本申请一个示例性实施例提供的终端500的结构框图。该终端500可以是：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器501所执行以实现本申请中方法实施例提供的语音识别模型的训练方法。

在一些实施例中，终端500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置在终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在另一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置在终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

若电子设备提供为服务器，参见图6，图6是本申请实施例提供的一种服务器600的结构框图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)601和一个或一个以上的存储器602，其中，该存储器602中存储有至少一条程序代码，该至少一条程序代码由该处理器601加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器600还可以包括其他用于实现设备功能的部件，在此不做赘述。

若电子设备提供为终端和服务器，则终端和服务器的结构框图可以分别参见图5和图6，这里不再赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现本申请实施例中语音识别模型的训练方法。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取计算机程序代码，该处理器执行计算机程序代码，使得电子设备执行本申请实施例中语音识别模型的训练方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅是为了便于本领域的技术人员理解本申请的技术方案，并不用以限制本申请。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别模型训练方法，其特征在于，所述方法包括：

获取多个非人声音频；

2.根据权利要求1所述的方法，其特征在于，所述从所述多个第一非人声音频中，确定与包含唤醒词的人声音频之间的相似度满足相似度条件的目标非人声音频，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第一非人声音频进行解码，确定所述第一非人声音频对应的解码参数，包括：

确定所述第一非人声音频包括的音频帧；

4.根据权利要求2所述的方法，其特征在于，所述相似度条件为相似度不小于预设相似度阈值；

5.根据权利要求2所述的方法，其特征在于，所述相似度条件为相似度最高的预设数量个第一非人声音频；

6.根据权利要求1所述的方法，其特征在于，所述基于所述负样本和所述正样本进行模型训练，得到第二语音识别模型，包括：

获取第一初始模型；

7.根据权利要求1所述的方法，其特征在于，所述基于所述负样本和所述正样本进行模型训练，得到第二语音识别模型，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待识别的语音音频；

9.根据权利要求1所述的方法，其特征在于，获取非人声音频的过程包括以下至少一种实现方式：

获取音乐噪声对应的非人声音频；

获取机械噪声对应的非人声音频；

获取交通噪声对应的非人声音频。

10.一种语音识别模型训练装置，其特征在于，所述装置包括：

第一获取模块，用于获取多个非人声音频；

11.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至9任一所述的语音识别模型训练方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至9任一所述的语音识别模型训练方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述电子设备执行如权利要求1至权利要求9任一项所述的语音识别模型训练方法。