CN117711381A

CN117711381A - 音频识别方法、装置、系统和电子设备

Info

Publication number: CN117711381A
Application number: CN202410166366.XA
Authority: CN
Inventors: 钟雨崎; 艾国; 杨作兴
Original assignee: Beijing Bianfeng Information Technology Co ltd
Current assignee: Beijing Bianfeng Information Technology Co ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-03-15
Anticipated expiration: 2044-02-06

Abstract

本公开涉及一种音频识别方法、装置、系统、电子设备和存储介质，该方法包括：接收音频识别目标信息，并输入编码器模块得到目标特征向量，其中音频识别目标信息对应的类别数量为至少一个；将目标特征向量和类别数量输入参数推理模块得到模型配置参数；将模型配置参数发送到部署于终端设备的音频识别分类模型，使得音频识别分类模型基于模型配置参数进行配置，并使得终端设备接收到与音频识别目标信息相关联的音频信息后，通过音频识别分类模型得到音频识别结果。本公开实现了终端设备利用一个模型实现声音事件检测和关键词识别的两种功能，有助于终端设备功耗的降低和运行速度的提升，减少了终端设备为得到模型配置参数而进行的模型训练的消耗。

Description

音频识别方法、装置、系统和电子设备

技术领域

本公开涉及音频识别技术领域，特别涉及一种音频识别方法、装置、系统和电子设备。

背景技术

当前，基于深度学习的音频（声音）识别应用越来越广泛，并且基于音频识别的定制化分类需求也越来越多。声音识别的应用主要集中两个方向，即声音事件检测和关键词识别。其中，声音事件的检测例如婴儿哭声监护、异常声音检测、呼喊声检测等；关键词识别例如利用包含特定词语内容的语音（话术）对设备（如移动终端、智能语音交互设备）的唤醒等。

目前，在终端设备上，实现上述不同的方向的声音识别应用，需要利用不同的人工智能网络来实现，并且为了满足可能存在的多种需求，还需要确保终端设备中部署的人工智能网络预留出较多的识别类别，确保能够识别出用户可能自定义的多种语音（话术）内容、以及多种声音事件。另一方面，声音事件检测和关键词识别所采用的人工智能网络也并不相同，因此，在终端设备上若要实现这两种应用需要部署不同的人工智能网络。由于这些问题的存在，在终端设备部署这两种应用的人工智能网络满足用户的多种需求，无疑对终端设备的功耗带来很大的挑战，特别会影响到采用电池供电的终端设备的使用时长，对终端设备的运行速度也可能存在潜在的影响。

因此，针对声音事件检测和关键词识别，如何进一步降低终端设备的功耗、提升终端设备的运行速度，便成为亟待解决的问题。

发明内容

有鉴于此，本公开提供一种音频识别方法、装置、系统和电子设备，以降低终端设备在声音事件检测和关键词识别方面的功耗，并提升终端设备在声音事件检测和关键词识别方面的运行速度。

根据本公开实施例的一方面，提供一种音频识别方法，包括：

接收音频识别目标信息，将所述音频识别目标信息输入编码器模块，通过所述编码器模块得到目标特征向量，其中所述音频识别目标信息对应的类别数量为至少一个；

将所述目标特征向量和所述类别数量输入参数推理模块，通过所述参数推理模块得到模型配置参数；

将所述模型配置参数发送到部署于终端设备的音频识别分类模型，使得所述音频识别分类模型基于所述模型配置参数进行配置，并使得所述终端设备接收到与所述音频识别目标信息相关联的音频信息后，通过所述音频识别分类模型得到音频识别结果。

在一种可能实施方式中，所述音频识别目标信息包括声音事件音频数据和文字数据的至少其中之一，所述编码器模块包括音频编码器和文本编码器；

所述将所述音频识别目标信息输入编码器模块，通过所述编码器模块得到目标特征向量，包括：

在所述音频识别目标信息为所述声音事件音频数据的情况下，将所述声音事件音频数据输入所述音频编码器，通过所述音频编码器得到所述目标特征向量；或者

在所述音频识别目标信息为所述文字数据的情况下，将所述文字数据输入所述文本编码器，通过所述文本编码器得到所述目标特征向量。

在一种可能实施方式中，所述参数推理模块包括类别数量适配器和参数生成器，其中所述参数生成器的数量为至少一个；

其中，所述将所述目标特征向量和所述类别数量输入参数推理模块，通过所述参数推理模块得到模型配置参数，包括：

将所述类别数量输入所述类别数量适配器，通过所述类别数量适配器确定出与所述类别数量相关联的所述参数生成器；

将所述目标特征向量输入与所述类别数量相关联的所述参数生成器，通过与所述类别数量相关联的所述参数生成器得到所述模型配置参数。

在一种可能实施方式中，所述音频识别分类模型包括：

特征编码器，所述特征编码器用于根据所述音频信息得到音频特征向量；

分类器，所述分类器用于根据音频特征向量得到所述音频识别结果；

其中，所述模型配置参数包括所述特征编码器的权重参数、所述特征编码器的偏置参数、所述分类器的权重参数和所述分类器的偏置参数。

在一种可能实施方式中，所述音频识别方法还包括如下针对所述编码器模块和/或所述参数推理模块的训练过程：

获取音频识别目标样本和音频识别参考样本，所述音频识别目标样本的标注类别的数量为至少一个，其中，所述音频识别参考样本的标注类别与所述音频识别目标样本的标注类别相同；

将所述音频识别目标样本输入待训练的编码器模块，通过所述待训练的编码器模块得到目标特征样本向量；

将所述目标特征样本向量和所述标注类别的数量输入待训练的参数推理模块，通过所述待训练的参数推理模块得到模型配置推理参数；

将所述模型配置推理参数发送到所述音频识别分类模型，使得所述音频识别分类模型基于所述模型配置推理参数进行配置；

将所述音频识别参考样本输入基于所述模型配置推理参数配置后的所述音频识别分类模型，通过基于所述模型配置推理参数配置后的所述音频识别分类模型得到分类预测数据；

根据所述分类预测数据和所述音频识别目标样本的标注类别，建立损失函数；

根据所述损失函数，调整所述待训练的编码器模块的参数和/或调整所述待训练的参数推理模块的参数，直到所述损失函数收敛至期望值或者达到训练的迭代次数，得到训练后的所述编码器模块和/或训练后的所述参数推理模块。

在一种可能实施方式中，在所述训练过程当中，分批次地获取所述音频识别目标样本和所述音频识别参考样本，每批次获取的所述音频识别目标样本和所述音频识别参考样本均为至少一个，在同一批次中获取的音频识别目标样本的数量和音频识别参考样本的数量相等；

在同一批次中获取的所述音频识别目标样本的数量和所述音频识别参考样本的数量均为一个的情况下，所述音频识别目标样本的标注类别和所述音频识别参考样本的标注类别相同；或者

在同一批次中获取的所述音频识别目标样本的数量和所述音频识别参考样本的数量均多于一个的情况下，按照输入所述待训练的编码器模块的所述音频识别目标样本的顺序和输入基于所述模型配置推理参数配置后的所述音频识别分类模型的音频识别参考样本的顺序排序，处于相同排序位置的所述音频识别目标样本和所述音频识别参考样本为相同的标注类别；

所述待训练的参数推理模块包括类别数量适配器和至少一个待训练的参数生成器，所述至少一个待训练的参数生成器分别一对一地关联于至少一个类别数量范围；

其中，在每批次所接收的音频识别目标样本和所获取的音频识别参考样本均为至少两个的情况下，所述将所述目标特征样本向量和所述标注类别的数量输入待训练的参数推理模块，通过所述待训练的参数推理模块得到模型配置推理参数，包括：

将所述标注类别的数量输入所述类别数量适配器，通过所述类别数量适配器确定出所述标注类别的数量所属的类别数量范围；

将所述目标特征样本向量输入与所述标注类别的数量所属的类别数量范围相关联的所述待训练的参数生成器，通过与所述标注类别的数量所属的类别数量范围相关联的所述待训练的参数生成器得到所述模型配置推理参数；

其中，所述调整所述待训练的参数推理模块的参数，包括：调整与所述标注类别的数量所属的类别数量范围相关联的所述待训练的参数生成器的参数。

在一种可能实施方式中，所述音频识别目标样本包括第一声音事件音频样本数据和文字样本数据的至少其中之一，所述音频识别参考样本包括第二声音事件音频样本数据和语音样本数据的至少其中之一；

所述待训练的编码器模块包括待训练的音频编码器和待训练的文本编码器；

其中，所述将所述音频识别目标样本输入待训练的编码器模块，通过所述待训练的编码器模块得到目标特征样本向量，包括：

在所述音频识别目标样本为第一声音事件音频样本数据的情况下，将所述第一声音事件音频样本数据输入所述待训练的音频编码器，通过所述待训练的音频编码器得到所述目标特征样本向量；或者

在所述音频识别目标样本为文字样本数据的情况下，将所述文字样本数据输入所述待训练的文本编码器，通过所述待训练的文本编码器得到所述目标特征样本向量；

其中，所述调整所述待训练的编码器模块的参数，包括：对应于输入的所述第一声音事件音频样本数据，调整所述待训练的音频编码器的参数；对应于输入的所述文字样本数据，调整所述待训练的文本编码器的参数。

根据本公开实施例的另一方面，提供一种音频识别装置，包括：

特征提取模块，被配置为执行接收音频识别目标信息，将所述音频识别目标信息输入编码器模块，通过所述编码器模块得到目标特征向量，其中所述音频识别目标信息对应的类别数量为至少一个；

参数获得模块，被配置为执行将所述目标特征向量和所述类别数量输入参数推理模块，通过所述参数推理模块得到模型配置参数；

参数发送模块，被配置为执行将所述模型配置参数发送到部署于终端设备的音频识别分类模型，使得所述音频识别分类模型基于所述模型配置参数进行配置，并使得所述终端设备接收到与所述音频识别目标信息相关联的音频信息后，通过所述音频识别分类模型得到音频识别结果。

根据本公开实施例的另一方面，提供一种音频识别系统，包括：

数据接收模块，所述数据接收模块部署于服务器，用于通过所述服务器所接入的网络接收音频识别目标信息，其中所述音频识别目标信息对应的类别数量为至少一个；

编码器模块，所述编码器模块部署于所述服务器，用于根据所述音频识别目标信息得到目标特征向量；

参数推理模块，所述参数推理模块部署于所述服务器，用于根据所述目标特征向量得到模型配置参数；

数据发送模块，所述数据发送模块部署于所述服务器，用于通过所述网络发送所述模型配置参数；

音频识别分类模型，所述音频识别分类模型部署于终端设备，所述音频识别分类模型基于所述模型配置参数进行配置，并用于在接收到与所述音频识别目标信息相关联的音频信息后得到音频识别结果，其中，所述终端设备接入于所述网络并通过所述网络获得所述模型配置参数。

根据本公开实施例的另一方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如上任一项所述的音频识别方法。

根据本公开实施例的另一方面，提供计算机可读存储介质，当所述计算机可读存储介质中的至少一条指令被电子设备的处理器执行时，使得所述电子设备能够实现如上任一项所述的音频识别方法。

从上述方案可以看出，本公开的音频识别方法、装置、系统和电子设备，通过编码器模块和音频识别分类模型对用户所需的声音事件检测和/或关键词识别所针对的音频数据和/或关键词数据进行处理，得到终端设备的音频识别分类模型所需要的模型配置参数，进而在终端设备一侧利用模型配置参数对音频识别分类模型进行配置后，用户在终端设备上只需要利用配置好的音频识别分类模型既可以实现所需要的声音事件检测和/或关键词识别。本公开技术方案实现了在终端设备中利用一个模型实现了声音事件检测和关键词识别的两种功能。并且本公开技术方案中，在终端设备一侧实现了仅基于音频识别分类模型对关键词的识别，因此不需要CPU的介入，只需要NPU的参与，所以有助于终端设备功耗的降低和运行速度的提升。另外，本公开技术方案中，在参数推理模块中还根据所需的类别数量选择不同类别数量范围的参数生成器，所得到的模型配置参数在可以满足用户需要的同时还能够使得终端设备中的音频识别分类模型的模型参数尽可能地小，有助于减少终端设备的资源浪费并有助于提升音频识别分类模型的运行速度。另外，本公开技术方案中，通过将编码器模块和音频识别分类模型部署于服务器一侧，使得用户只需要通过终端设备将所需的声音事件检测和/或关键词识别所针对的音频数据和/或关键词数据上传至服务器，由服务器进行相应的处理而得到终端设备中部署的音频识别分类模型的模型配置参数，终端设备不需要进行模型配置参数的训练，因此，也减少了终端设备为得到模型配置参数而进行的模型训练的消耗。

附图说明

图1是一种现有的声音事件检测神经网络结构原理示意图；

图2是一种现有的关键词识别神经网络结构原理示意图；

图3是根据一示意性实施例示出的一种音频识别方法流程示意图；

图4是根据一示意性实施例示出的实现音频识别方法的模型布置示意图；

图5是根据一示意性实施例示出的通过编码器模块得到目标特征向量的过程示意图；

图6是根据一示意性实施例示出的通过参数推理模块得到模型配置参数的过程示意图；

图7是根据一示意性实施例示出的对编码器模块和/或参数推理模块的训练过程步骤示意图；

图8是根据一示意性实施例示出的对编码器模块和/或参数推理模块的训练过程的逻辑示意图；

图9是根据一示意性实施例示出的通过待训练的参数推理模块得到模型配置推理参数的过程示意图；

图10是根据一示意性实施例示出的通过待训练的编码器模块得到目标特征样本向量的过程示意图；

图11是根据一示意性实施例示出的一种音频识别方法应用场景流程示意图；

图12是根据一示意性实施例示出的声音事件检测训练数据示意图；

图13是根据一示意性实施例示出的关键词识别训练数据示意图；

图14是根据一示意性实施例示出的卷积层结构示意图；

图15是根据一示意性实施例示出的根据用户输入的音频识别目标信息实现音频识别的过程逻辑示意图；

图16是根据一示意性实施例示出的特征编码器的结构示意图；

图17是根据一示意性实施例示出的分类器的结构示意图；

图18是根据一示意性实施例示出的参数生成器的结构示意图；

图19是根据一示意性实施例示出的一种音频识别装置的逻辑结构示意图；

图20是根据一示意性实施例示出的一种音频识别系统的逻辑结构示意图；

图21是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本公开的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本公开作进一步详细说明。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

现有的声音事件检测的方案主要是针对不同场景，收集尽可能多的声音事件，基于所收集的声音事件训练生成一个语音大分类模型，提供给用户使用。图1是一种现有的声音事件检测神经网络结构原理示意图。如图1所示，现有的声音事件检测的方案类似于图像分类，一段音频进入编码器（Encoder），编码器将音频压缩为一个特征向量（无视语音长度），之后该特征向量进入分类器，通过分类器给出最终的分类结果，分类结果根据预设的声音事件检测目标而对声音事件检测神经网络进行训练得到，例如，根据需要，声音事件检测目标可以是婴儿哭声、开门声、狗叫声、猫叫声等，进而分类结果可以包括婴儿哭声、开门声、狗叫声、猫叫声等。

现有的关键词识别的方案是利用ASR（Automatic Speech Recognition，语音识别技术）的方法，将人的语音转换为文本。其是对最小时间片段的语音段进行音素发音分类，得到音素序列，并利用CPU（Central Processing Unit，中央处理器）进行自定义词序匹配。图2是一种现有的关键词识别神经网络结构原理示意图。如图2所示，现有的关键词识别是将语音输入编码分类器，编码分类器按设定长度（例如100毫秒）将语音分成若干个语音片段，得到各个语音片段对应的音素概率，组成音素概率序列（例如图2所示中的d、Ø、a4、a4、Ø、Ø，其中，Ø代表无，“d”、“a4”代表音素），音素概率序列交由CPU进行路径搜索，按照设定的条件筛选出符合规定的结果。最终由CPU从音素概率序列中搜索出最佳的音素结果（例如图2所示实施例中最终输出da4结果），并进行逻辑判断是否为原设定的唤醒词。例如，事先设定唤醒词为“你好”，一段包含“你好”内容的语音，输入编码分类器，编码分类器得到包含“你好”发音的声母和韵母的音素概率序列，之后CPU通过路径搜索得到包含“你好”发音的声母和韵母的音素概率序列所对应的“你好”的结果，这样便可以利用“你好”这个结果触发后续的任务，例如唤醒设备等，而如果语音内容不包含“你好”，则编码分类器得不到包含“你好”发音的声母和韵母的音素概率序列，进而CPU也得不到“你好”的结果，便不会触发必须由“你好”进行触发的后续任务。

声音事件检测的方案优点主要在于：无需CPU介入即可判断是否含有需识别的类别，因为是通过神经网络模型执行，所以可由功耗小于CPU的NPU（Neural networkProcessing Unit，神经网络处理器）实现，因此，相比于关键词识别的方案，声音事件检测的方案功耗明显更低，同时，声音事件检测的方案的抗噪性相比于关键词识别的方案更强。但是，声音事件检测的方案在输出类别固定后，若要更改识别类别，则需要重新搜集对应数据并训练模型，例如固定的输出类别为仅为婴儿哭声情况下，则无法识别婴儿哭声以外的声音，若要增加识别开门声，则需要重新搜集开门声对应的数据并训练模型。

关键词识别的方案优点主要在于：可以自定义识别词，更改识别词后无需重新训练模型。但是，关键词识别需要CPU的介入，因此导致功耗的增加，另外，通常来说，为了实现对关键词的识别，音素通常有很多，一般有226个，进而其中分类器的计算量明显增加，另外，关键词识别过程中，如果语音中还夹杂其它背景人声干扰，则识别准确率将大幅度降低，相比于声音事件检测的方案来说，关键词识别的方案的抗噪性较弱。

另外，在实际应用中，声音事件检测方案和关键词识别方案还存在以下几个问题：

其一，在终端设备使用关键词识别方案的时候，终端设备因为CPU的介入，功耗可能非常大致使终端设备使用时长大大降低。其二，在终端设备使用声音事件检测方案的时候，为了满足不同用户的需求，通常会预设很多识别类别，例如预设1000类别，而某一用户可能只需要用到其中的两类，那么对于该用户而言其余的998类就是多余的，造成类别资源的浪费。其三，无论是终端设备使用关键词识别方案还是声音事件检测方案，为了满足用户的通用需求，相应模型参数量不能设置太小。例如用户真正所用到的只有4个类别，那么关键词识别方案就有222个类别（音素通常有226个）的参数是多余的，方法二就有996个类别（在预设1000类别的情况下）的参数是多余的，例如关键词识别方案的模型参数有10M，如果某用户只需要其中4个发音，可能模型参数100K就能满足该用户的需求，显然地，相比于10M模型参数而言，100K的参数模型运行时的终端设备功耗更低，运行速度更快，所以，为了满足用户的通用需求会导致终端设备的功耗无法在模型参数上进一步优化。

因此，如何适配用户个性化需求，并且让模型参数更小、终端设备功耗更低，便是音频识别方向的一项具有意义的挑战。本公开实施例针对这一挑战提出了一种音频识别方法、装置、系统和电子设备，相比于现有的声音事件检测方案和关键词识别方案而言，能够实现终端设备利用同一个较小模型参数构造的神经网络模型并在较低功耗的情况下完成声音事件检测和关键词识别。

图3是根据一示意性实施例示出的一种音频识别方法流程示意图，图4是根据一示意性实施例示出的实现音频识别方法的模型布置示意图，如图3并结合图4所示，该音频识别方法主要包括如下步骤301至步骤303。

步骤301、接收音频识别目标信息，将音频识别目标信息输入编码器模块，通过编码器模块得到目标特征向量，其中音频识别目标信息对应的类别数量为至少一个。

在示意性实施例中，音频识别目标信息包括声音事件音频数据和文字数据的至少其中之一，编码器模块包括音频编码器和文本编码器。基于此，参见图5所示的通过编码器模块得到目标特征向量的过程示意图并结合图4所示，步骤301的将音频识别目标信息输入编码器模块，通过编码器模块得到目标特征向量，可以包括如下步骤501和步骤502：

步骤501、在音频识别目标信息为声音事件音频数据的情况下，将声音事件音频数据输入音频编码器，通过音频编码器得到目标特征向量；

步骤502、在音频识别目标信息为文字数据的情况下，将文字数据输入文本编码器，通过文本编码器得到目标特征向量。

在示意性实施例中，音频编码器可以由3层LSTM（Long Short Term Memory，长短期记忆）层结构构成。文本编码器也可以由3层LSTM（Long Short Term Memory，长短期记忆）层结构构成。

LSTM是一种特殊的递归神经网络（RNN），能够学习和记忆长期依赖关系。LSTM通过引入“门”结构能够解决RNN因为容易在训练过程中发生梯度消失或爆炸而无法很好地处理长序列的问题。LSTM所引入的“门”结构可以控制信息在单元状态中的流动，使得LSTM能够学习并记住序列中的长期依赖关系。LSTM的三个门分别为输入门、遗忘门和输出门。输入门用于确定新信息的进入量，遗忘门用于确定应该被遗忘的旧信息，输出门用于确定应该输出的信息。这些门由sigmoid激活函数控制，并结合tanh激活函数来创建新的候选单元状态，然后，输入门和遗忘门将该候选状态与原始单元状态结合起来，产生新的单元状态，输出门则控制哪些信息应该被传递到下一个时间步。通过这种方式，LSTM能够处理非常长的序列，并且可以学习序列中的长期依赖关系。

LSTM可以应用于文本生成、音频识别、图像分析等场景。由于LSTM能够学习并记住序列中的长期依赖关系，因此利用LSTM构建的音频编码器和文本编码器，针对于所输入的在内容上具有前后顺序关系的声音事件音频数据和文字数据的序列数据具有较好的表现，所得到的目标特征向量能够较为真实地表征声音事件音频数据和文字数据的特征。

步骤302、将目标特征向量和类别数量输入参数推理模块，通过参数推理模块得到模型配置参数。

在示意性实施例中，参数推理模块包括类别数量适配器和参数生成器，其中参数生成器的数量为至少一个。基于此，参见图6所示的通过参数推理模块得到模型配置参数的过程示意图并结合图4所示，步骤302的将目标特征向量和类别数量输入参数推理模块，通过参数推理模块得到模型配置参数，可以包括如下步骤601至步骤602：

步骤601、将类别数量输入类别数量适配器，通过类别数量适配器确定出与类别数量相关联的参数生成器；

步骤602、将目标特征向量输入与类别数量相关联的参数生成器，通过与类别数量相关联的参数生成器得到模型配置参数。

在示意性实施例中，类别数量适配器用于根据类别数量选择对应的参数生成器，其中，每一个音频识别目标信息对应的结果为一个类别，不同的音频识别目标信息可以对应于相同的类别也可以对应不同的类别。例如，在实际应用中，若要实现婴儿哭声监护和“你好”的语音唤醒，则根据婴儿哭声得到的结果和根据“你好”话术得到的结果分属于不同的两个类别，另外，不同婴儿的哭声之间存在差异，但是要实现婴儿哭声监护，则不同婴儿的哭声之间属于相同的类别。

在示意性实施例中，不同的参数生成器分别关联于不同的类别数量范围。在步骤601中，类别数量适配器确定出与类别数量相关联的参数生成器，可以具体包括：类别数量适配器根据接收到的类别数量，确定出类别数量所属的类别数量范围，再根据确定出的类别数量范围，得到与确定出的类别数量范围的相关联的参数生成器，将所得到的参数生成器确定为与类别数量相关联的参数生成器。例如，假设类别数量为2，并且参数生成器包括关联于1至10个类别数量范围的第一参数生成器、关联于11至20个类别数量范围的第二参数生成器、关联于21至30个类别数量范围的第三参数生成器、关联于31至40个类别数量范围的第四参数生成器、关联于41个及以上的类别数量范围的第五参数生成器。那么，在步骤601中，类别数量适配器根据接收到的类别数量2，确定出类别数量2所属的类别数量范围是1至10个类别数量范围，再根据确定出的1至10个类别数量范围，得到与1至10个类别数量范围相关联的参数生成器为第一参数生成器，将第一参数生成器确定为与类别数量2相关联的参数生成器。

在示意性实施例中，参数生成器可以包括Transformer结构和全连接层。由于目标特征向量为至少一个，不同数量的目标特征向量关联于不同的参数生成器，因此，参数生成器的数量为至少一个。在示意性实施例中，不同的参数生成器之间的Transformer结构相同，而不同的参数生成器之间的全连接层根据预设的类别数量而有所不同，例如，根据应用的需要，可以分别设置对应于10个类别、20个类别、30个类别、40个类别、以及40以上类别五个类别等级，对应于这5个类别等级设置5个参数生成器，这5个参数生成器之间的Transformer结构相同，而这5个参数生成器之间的全连接层不同。例如，在实际应用中，要实现婴儿哭声监护和“你好”的语音唤醒，则需要两个类别，在示意性实施例中，为了实现终端设备中的音频识别分类模型的轻量化和功耗的优化，音频识别分类模型的类别数量要尽可能的小以减小冗余资源的产生，所以，在10个类别、20个类别、30个类别、40个类别、以及40个以上类别五个类别等级中，优选采用对应于10个类别的参数生成器；而如果要实现10个类别以上且不超过20个类别的声音识别和/或关键词检测，则优选采用对应于20个类别的参数生成器；如果要实现20个类别以上且不超过30个类别的声音识别和/或关键词检测，则优选采用对应于30个类别的参数生成器；如果要实现多于40个类别的声音识别和/或关键词检测，则优选采用对应于40个以上类别的参数生成器。

在示意性实施例中，不同的参数生成器的全连接层之间的参数配置不同，进而基于不同的参数生成器得到模型配置参数对音频识别分类模型进行配置后，能够得到可以输出不同类别数量音频识别结果的音频识别分类模型。在实际应用中，全连接层的配置参数包括了(w,h)，其中，w决定了分类的数量，在10个类别、20个类别、30个类别、40个类别、以及40个以上类别五个类别等级中，对应于10个类别等级的参数生成器的全连接层的w值设为10，对应于20个类别等级的参数生成器的全连接层的w值设为20，对应于30个类别等级的参数生成器的全连接层的w值设为30，对应于40个类别等级的参数生成器的全连接层的w值设为40，对应于40个以上类别等级的参数生成器的全连接层的w值可以根据需要设为一个较大的值，如50、100、1000等。需要说明的是，w值越大则最终得到的模型参数值也越大，导致终端设备的功耗相对越高、运行速度越慢，因此，需要根据用户的需要选择合适的参数生成器，如用户仅需要婴儿哭声监护和“你好”的语音唤醒这两个功能，则只需要全连接层的w值为10的参数生成器即可，类别数量适配器仅需要根据对应于婴儿哭声和“你好”语音所对应的目标特征向量的数量（2个）选择全连接层的w值为10的参数生成器，这样能够在满足需要的同时使得终端设备的音频识别分类模型的参数值尽可能的小，从而使得终端设备功耗尽可能的低、运行速度尽可能的块。

Transformer结构是一种简单、高效、易于训练和优化的深度学习模型，广泛应用于自然语言处理、计算机视觉、语音识别、生命科学、视频处理等领域中。Transformer的优点主要表现在计算效率、特征表示、可解释性、长序列处理和优化等方面。在此仅以Transformer结构举例，在本公开的技术方案精神原则下，还可以采用其它神经网络结构实现相同的功能。

在示意性实施例中，编码器模块和参数推理模块部署于服务器一侧，音频识别目标信息可以是从终端设备接收，服务器和终端设备之间通过网络进行通信。在示意性实施例中，网络为互联网，终端设备可以通过无线网络和/或有线网络接入互联网，无线网络可以是基于5G、4G、3G等各代移动通信技术的无线网络，无线网络也可以是Wi-Fi等无线协议的局域无线网络。

步骤303、将模型配置参数发送到部署于终端设备的音频识别分类模型，使得音频识别分类模型基于模型配置参数进行配置，并使得终端设备接收到与音频识别目标信息相关联的音频信息后，通过音频识别分类模型得到音频识别结果。

在示意性实施例中，模型配置参数包括音频识别分类模型的权重参数和偏置参数。

在示意性实施例中，音频识别分类模型包括特征编码器和分类器。其中，特征编码器用于根据音频信息得到音频特征向量；分类器用于根据音频特征向量得到音频识别结果。基于此，在示意性实施例中，模型配置参数包括特征编码器的权重参数、特征编码器的偏置参数、分类器的权重参数和分类器的偏置参数。

采用本公开实施例的音频识别方法，通过编码器模块和音频识别分类模型对用户所需的声音事件检测和/或关键词识别所针对的音频数据和/或关键词数据进行处理，得到终端设备的音频识别分类模型所需要的模型配置参数，进而在终端设备一侧利用模型配置参数对音频识别分类模型进行配置后，用户在终端设备上只需要利用配置好的音频识别分类模型即可以实现所需要的声音事件检测和/或关键词识别。进而在终端设备中利用一个模型实现了声音事件检测和关键词识别的两种功能。并且相比于现有技术而言，本公开实施例中，在终端设备一侧实现了仅基于音频识别分类模型对关键词的识别，因此不需要CPU的介入，只需要NPU的参与，所以有助于终端设备功耗的降低和运行速度的提升。另外，本公开实施例中，在参数推理模块中还根据所需的类别数量选择不同类别数量范围的参数生成器，所得到的模型配置参数在可以满足用户需要的同时还能够使得终端设备中的音频识别分类模型的模型参数尽可能地小，有助于减少终端设备的资源浪费并有助于提升音频识别分类模型的运行速度。另外，本公开实施例中，编码器模块和音频识别分类模型可以部署于服务器一侧，用户只需要通过终端设备将所需的声音事件检测和/或关键词识别所针对的音频数据和/或关键词数据上传至服务器，由服务器进行相应的处理而得到终端设备中部署的音频识别分类模型的模型配置参数，终端设备不需要进行模型配置参数的训练，因此，也减少了终端设备为得到模型配置参数而进行的模型训练的消耗。

为了提升终端设备部署的音频识别分类模型对声音事件检测和/或关键词识别的准确性，需要得到理想的模型配置参数。为了得到理想的模型配置参数，还需要对编码器模块和/或参数推理模块进行事前的训练。图7是根据一示意性实施例示出的对编码器模块和/或参数推理模块的训练过程步骤示意图，图8是根据一示意性实施例示出的对编码器模块和/或参数推理模块的训练过程的逻辑示意图，如图7、图8所示，在示意性实施例中，该音频识别方法还包括如下步骤701至步骤707的针对编码器模块和/或参数推理模块的训练过程。

步骤701、获取音频识别目标样本和音频识别参考样本，音频识别目标样本的标注类别的数量为至少一个，其中，音频识别参考样本的标注类别与音频识别目标样本的标注类别相同；

步骤702、将音频识别目标样本输入待训练的编码器模块，通过待训练的编码器模块得到目标特征样本向量；

步骤703、将目标特征样本向量和标注类别的数量输入待训练的参数推理模块，通过待训练的参数推理模块得到模型配置推理参数；

步骤704、将模型配置推理参数发送到音频识别分类模型，使得音频识别分类模型基于模型配置推理参数进行配置；

步骤705、将音频识别参考样本输入基于模型配置推理参数配置后的音频识别分类模型，通过基于模型配置推理参数配置后的音频识别分类模型得到分类预测数据；

步骤706、根据分类预测数据和音频识别目标样本的标注类别，建立损失函数；

步骤707、根据损失函数，调整待训练的编码器模块的参数和/或调整待训练的参数推理模块的参数，直到损失函数收敛至期望值或者达到训练的迭代次数，得到训练后的编码器模块和/或训练后的参数推理模块。

在示意性实施例中，在训练过程当中，分批次地获取音频识别目标样本和音频识别参考样本，每批次获取的音频识别目标样本和音频识别参考样本均为至少一个，在同一批次中获取的音频识别目标样本的数量和音频识别参考样本的数量相等。例如，参见图8所示，样本组合2为音频识别目标样本，音频识别目标样本包括d、c、“这是”、“不客气”，其中，d、c均为音频信息，“这是”和“不客气”均为文字信息；样本组合1为音频识别参考样本，音频识别参考样本包括c、a、e、f，其中，c、a均为音频信息，e为包含“这是”内容的语音信息，f为包含“不客气”内容的语音信息，e、f的语音信息也属于音频信息，在示意性实施例中，a、c、d的内容例如为不同的婴儿哭声；样本组合1和样本组合2为训练过程当中同一批次获取的音频识别目标样本和音频识别参考样本，该同一批次获取的音频识别目标样本的数量和音频识别参考样本的数量均为4个。

在示意性实施例中，在同一批次中获取的音频识别目标样本的数量和音频识别参考样本的数量均为一个的情况下，音频识别目标样本的标注类别和音频识别参考样本的标注类别相同。例如，参照图8所示，如果同一批次获取样本组合2和样本组合1中分别仅包含“不客气”和f，则f和“不客气”的标注类别相同，例如，f和“不客气”的标注类别同属于类别C，在该举例中，具有“不客气”内容的文字和语音均属于类别C。

在示意性实施例中，在同一批次中获取的音频识别目标样本的数量和音频识别参考样本的数量均多于一个的情况下，按照输入待训练的编码器模块的音频识别目标样本的顺序和输入基于模型配置推理参数配置后的音频识别分类模型的音频识别参考样本的顺序排序，处于相同排序位置的音频识别目标样本和音频识别参考样本为相同的标注类别。例如，参照图8所示，同一批次获取的样本组合2（对应于音频识别目标样本）包括d、c、“这是”、“不客气”，数量为4个，并且，样本组合1（对应于音频识别参考样本）包括d、c、“这是”、“不客气”，数量也为4个，样本组合2（对应于音频识别目标样本）中的样本数量和样本组合1（对应于音频识别参考样本）中的样本数量相等；输入待训练的编码器模块的音频识别目标样本的顺序为“这是”、“不客气”、d、c；输入基于模型配置推理参数配置后的音频识别分类模型的音频识别参考样本的顺序排序为e、f、c、a；音频识别目标样本的顺序中第一排序位置的“这是”与音频识别参考样本的顺序排序中第一排序位置的e均为类别B，其中，具有“这是”内容的文字和语音（e）均属于类别B；音频识别目标样本的顺序中第二排序位置的“不客气”与音频识别参考样本的顺序排序中第二排序位置的f均为类别C，其中，具有“不客气”内容的文字和语音（f）均属于类别C；音频识别目标样本的顺序中第三排序位置的d与音频识别参考样本的顺序排序中第三排序位置的c均为类别A，其中，具有婴儿哭声内容的声音（d、c）均属于类别A；音频识别目标样本的顺序中第四排序位置的c与音频识别参考样本的顺序排序中第四排序位置的a均为类别A，其中，具有婴儿哭声内容的声音（c、a）均属于类别A；为了提升编码器模块和参数推理模块的鲁棒性，音频识别目标样本的顺序中第三排序位置的d与音频识别参考样本的顺序排序中第三排序位置的c为不同的婴儿哭声，音频识别目标样本的顺序中第四排序位置的c与音频识别参考样本的顺序排序中第四排序位置的a为不同的婴儿哭声。

在示意性实施例中，在同一批次中获取的音频识别目标样本的数量和音频识别参考样本的数量均多于一个的情况下，通过待训练的编码器模块得到的目标特征样本向量的数量与音频识别目标样本的数量相等，并且目标特征样本向量的排序与音频识别目标样本的排序相同。例如，如图8所示，音频识别目标样本的数量为4个，排序为“这是”、“不客气”、d、c，音频识别目标样本输入待训练的编码器模块后得到的目标特征样本向量的按照排序分别为i1、i2、i3、i4，其中，i1、i2、i3、i4的排序与“这是”、“不客气”、d、c的排序相同，换句话说，i1是待训练的编码器模块根据“这是”得到的结果，i2是待训练的编码器模块根据“不客气”得到的结果，i3是待训练的编码器模块根据d得到的结果，i4是待训练的编码器模块根据c得到的结果。

在示意性实施例中，待训练的参数推理模块包括类别数量适配器和至少一个待训练的参数生成器，至少一个待训练的参数生成器分别一对一地关联于至少一个类别数量范围。在示意性实施例中，至少一个类别数量范围互不重叠。例如，如图8所示，待训练的参数推理模块中包括一个类别数量适配器和5个待训练的参数生成器，即待训练的第一参数生成器、待训练的第二参数生成器、待训练的第三参数生成器、待训练的第四参数生成器、待训练的第五参数生成器，其中，第一参数生成器关联于1至10个类别数量范围，第二参数生成器关联于11至20个类别数量范围，第三参数生成器关联于21至30个类别数量范围，第四参数生成器关联于31至40个类别数量范围，第五参数生成器关联于41个及以上的类别数量范围。

图9是根据一示意性实施例示出的通过待训练的参数推理模块得到模型配置推理参数的过程示意图，如图9所示，在示意性实施例中，步骤703的将目标特征样本向量和标注类别的数量输入待训练的参数推理模块，通过待训练的参数推理模块得到模型配置推理参数，包括如下步骤901至步骤902。

步骤901、将标注类别的数量输入类别数量适配器，通过类别数量适配器确定出标注类别的数量所属的类别数量范围；

步骤902、将目标特征样本向量输入与标注类别的数量所属的类别数量范围相关联的待训练的参数生成器，通过与标注类别的数量所属的类别数量范围相关联的待训练的参数生成器得到模型配置推理参数。

在示意性实施例中，步骤707中的调整待训练的参数推理模块的参数，包括：调整与标注类别的数量所属的类别数量范围相关联的待训练的参数生成器的参数。

例如，如图8所示，样本组合2中包括3个标注类别，即类别A、类别B和类别C，在步骤901中，将标注类别的数量3输入类别数量适配器，通过类别数量适配器确定出3个标注类别的数量所属的类别数量范围是1至10个类别数量范围，进而可以确定与1至10个类别数量范围相关联的待训练的参数生成器为待训练的第一参数生成器，在步骤902中，将目标特征样本向量输入待训练的第一参数生成器，通过待训练的第一参数生成器得到模型配置推理参数，因为模型配置推理参数是通过待训练的第一参数生成器得到，进而在步骤707中，调整待训练的第一参数生成器的参数。

在示意性实施例中，音频识别目标样本包括第一声音事件音频样本数据和文字样本数据的至少其中之一，音频识别参考样本包括第二声音事件音频样本数据和语音样本数据的至少其中之一，例如，如图8所示，样本组合2（对应于音频识别目标样本）中，d和c为第一声音事件音频样本数据，“这是”和“不客气”为文字样本数据，样本组合1（对应于音频识别参考样本）中，c和a为第二声音事件音频样本数据，e和f为语音样本数据。在示意性实施例中，待训练的编码器模块包括待训练的音频编码器和待训练的文本编码器。图10是根据一示意性实施例示出的通过待训练的编码器模块得到目标特征样本向量的过程示意图，如图10所示，在示意性实施例中，步骤702中的将音频识别目标样本输入待训练的编码器模块，通过待训练的编码器模块得到目标特征样本向量，包括如下步骤1001和步骤1002。

步骤1001、在音频识别目标样本为第一声音事件音频样本数据的情况下，将第一声音事件音频样本数据输入待训练的音频编码器，通过待训练的音频编码器得到目标特征样本向量；

步骤1002、在音频识别目标样本为文字样本数据的情况下，将文字样本数据输入待训练的文本编码器，通过待训练的文本编码器得到目标特征样本向量。

在示意性实施例中，步骤707中的调整待训练的编码器模块的参数，包括：对应于输入的第一声音事件音频样本数据，调整待训练的音频编码器的参数；对应于输入的文字样本数据，调整待训练的文本编码器的参数。

例如，如图8所示，样本组合2（对应于音频识别目标样本）中包括d、c、“这是”、“不客气”，其中，d和c为第一声音事件音频样本数据，“这是”和“不客气”为文字样本数据；在步骤1001中，将d和c（第一声音事件音频样本数据）输入待训练的音频编码器，通过待训练的音频编码器得到目标特征样本向量；在步骤1002中，将“这是”和“不客气”（文字样本数据）输入待训练的文本编码器，通过待训练的文本编码器得到目标特征样本向量；在步骤707中，对应于输入的d和c（第一声音事件音频样本数据），调整待训练的音频编码器的参数；对应于输入的“这是”和“不客气”（文字样本数据），调整待训练的文本编码器的参数。

以下结合一个具体应用场景，对本申请实施例的音频识别方法进行进一步说明，该具体应用场景涵盖了从训练样本的准备到模型训练到实际应用的过程。

图11是根据一示意性实施例示出的一种音频识别方法应用场景流程示意图，如图11所示，该应用场景主要包括如下步骤1101至步骤1114。

步骤1101、准备训练样本集，之后进入步骤1102。

在示意性实施例中，步骤1101中包括了准备声音事件检测训练数据和准备关键词识别训练数据，由声音事件检测训练数据和关键词识别训练数据组成训练样本集。

图12是根据一示意性实施例示出的声音事件检测训练数据示意图。如图12所示，以类别A（婴儿哭声）为例，类别A下包含a、b、c、d等样本数据，这些样本数据是不同的婴儿哭声音频文件，类别A中的样本数据中随机抽取到a、b、c、d等样本组成声音事件检测训练数据，其中，由a、c、b等构成片段1组合，由c、d、a等构成片段2组合，可以将片段1组合作为第一声音事件音频样本数据并将片段2组合作为第二声音事件音频样本数据，也可以将片段2组合作为第一声音事件音频样本数据并将片段1组合作为第二声音事件音频样本数据。需要说明的是，为了提升编码器模块和参数推理模块的鲁棒性，片段1组合和片段2组合之间，处于相同排序位置的音频文件不同，例如，片段1组合中的第一排序位置的a与片段2组合中的第一排序位置的c为不同的婴儿哭声（或者不同的婴儿哭声音频文件）。

图13是根据一示意性实施例示出的关键词识别训练数据示意图。如图13所示，准备关键词识别训练数据可以包括如下过程：

设置最小识别字数和最大识别字数，例如最小识别字数为2个字，最大识别字数为6个字；获取人声阅读语音片段，对于每一段人声阅读语音片段，根据语音内容标注的发音边界，随机组合为2至6个字的语音片段，将随机组合后的音频片段和对应的文字内容作为训练样本。

例如，如图13所示，将含有“这是一个例子”语音内容的人声阅读语音片段，根据语音内容标注的发音边界，随机组合为“这是”语音片段、“这是一”语音片段、“一个例”语音片段，将含有“不客气”语音内容的人声阅读语音片段，根据语音内容标注的发音边界，随机组合为“不客气”语音片段、“客气”语音片段。将“这是”语音片段和对应的“这是”文字内容作为一对训练样本，将“这是一”语音片段和对应的“这是一”文字内容作为一对训练样本，将“一个例”语音片段和对应的“一个例”文字内容作为一对训练样本，将“不客气”语音片段和对应的“不客气”文字内容作为一对训练样本，将“客气”语音片段和对应的“客气”文字内容作为一对训练样本。

完成训练样本之后，执行后续的模型训练过程。模型中涉及到的所有神经网络层，例如全连接层（Dense）、卷积层(conv），其实质是矩阵计算。图14是根据一示意性实施例示出的卷积层结构示意图，如图14所示，一个卷积层实质是先将输入特征（input feature）与权重（weights）进行卷积操作，再和偏置（bias）相加，最终得到结果。在示意性实施例中，如图8所示，部署于终端设备的音频识别分类模型中的特征编码器只包含算子节点，算子节点如图14所示中的卷积节点（conv-op）、加节点（+）的操作，这些算子节点需要通过参数生成器生成所需要的参数，包括权重参数和偏置参数。

步骤1102、从训练样本集中抽取若干声音事件检测训练数据和若干关键词识别训练数据，形成一个批次的训练数据并得到该批次中标注类别的数量，之后执行步骤1103。

例如，参见图8所示，同一批次的训练数据包括样本组合2（音频识别目标样本）和样本组合1（音频识别参考样本），样本组合2（音频识别目标样本）中包括d、c、“这是”、“不客气”，其中，d、c为类别A的音频样本（如婴儿哭声的音频样本），“这是”、“不客气”为文字内容的文本，“这是”的文字内容文本为类别B，“不客气”的文字内容文本为类别C；对应于样本组合2（音频识别目标样本），在样本组合1（音频识别参考样本）中包括c、a、e、f，其中，c、a为类别A的音频样本（如婴儿哭声的音频样本），e为类别B的音频样本（如何含有“这是”语音内容的语音片段），f为类别C的音频样本（如何含有“不客气”语音内容的语音片段）。基于此，根据样本组合2（音频识别目标样本）中的d、c、“这是”、“不客气”各自的标注类别得到该批次中标注类别的数量为3。

在示意性实施例中，该一个批次的训练数据包括音频识别目标样本和音频识别参考样本。

步骤1103、将音频识别目标样本输入待训练的编码器模块，通过待训练的编码器模块得到目标特征样本向量，之后执行步骤1104。

如图8所示，步骤1103可以具体包括按照顺序将“这是”的文字内容文本和“不客气”的文字内容文本输入待训练的文本编码器，将d和c输入待训练的音频编码器，按照输入顺序得到目标特征样本向量，其中目标特征样本向量包括了四个特征向量i1、i2、i3、i4，按照输入顺序，四个特征向量i1、i2、i3、i4所属的类别依次为类别B、类别C、类别A、类别A，其中，类别B的特征向量i1为根据“这是”的文字内容文本得到的特征向量，类别C的特征向量i2为根据“不客气”的文字内容文本得到的特征向量，第一个类别A的特征向量i3为根据d得到的特征向量，第二个类别A的特征向量i4为根据c得到的特征向量。

基于此，将类别B、类别C、类别A、类别A作为训练目标，即将“这是”的文字内容文本所属的类别B、“不客气”的文字内容文本所属的类别C、d所属的类别A、c所属的类别A作为训练目标。

步骤1104、将标注类别的数量输入类别数量适配器，通过类别数量适配器确定出标注类别的数量所属的类别数量范围，之后执行步骤1105。

例如，如图8所示，在步骤1104中，类别数量适配器根据输入的标注类别的数量3，确定出标注类别的数量3所属的类别数量范围是1至10个类别数量范围。

步骤1105、将目标特征样本向量输入与标注类别的数量所属的类别数量范围相关联的待训练的参数生成器，通过与标注类别的数量所属的类别数量范围相关联的待训练的参数生成器得到模型配置推理参数，之后执行步骤1106。

例如，如图8所示，在步骤1105中，将目标特征样本向量输入与1至10个类别数量范围相关联的待训练的第一参数生成器，通过待训练的第一参数生成器得到模型配置推理参数。其中，模型配置推理参数包括了权重参数和偏置参数。

步骤1106、将模型配置推理参数发送到音频识别分类模型，使得音频识别分类模型基于模型配置推理参数进行配置，之后执行步骤1107。

在示意性实施例中，音频识别分类模型包括特征编码器和分类器，模型配置推理参数包括了特征编码器和分类器的权重和偏置。

步骤1107、将音频识别参考样本输入基于模型配置推理参数配置后的音频识别分类模型，通过基于模型配置推理参数配置后的音频识别分类模型得到分类预测数据，之后执行步骤1108。

例如，如图8所示，样本组合3即为音频识别参考样本，其中包括e、f、c、a，其中，e、f、c、a输入音频识别分类模型的顺序与输入待训练的编码器模块的音频识别目标样本（包括“这是”的文字内容文本、“不客气”的文字内容文本、d、c）的顺序相同，确保e、f、c、a的类别顺序与“这是”的文字内容文本、“不客气”的文字内容文本、d、c的类别顺序相同，类别顺序均为类别B、类别C、类别A、类别A。

步骤1108、根据分类预测数据和音频识别目标样本的标注类别，建立损失函数，之后执行步骤1109。

在这里，音频识别目标样本的标注类别即为训练目标。例如，如图8所示，音频识别目标样本的标注类别为类别B、类别C、类别A、类别A，将类别B、类别C、类别A、类别A作为训练目标。其中，根据e、f、c、a并基于模型配置推理参数配置后的音频识别分类模型得到的分类预测数据给出了e为类别B的概率，f为类别C的概率，c为类别A的概率，a为类别A的概率。概率尽可能地大才能确保音频识别分类模型的准确，而音频识别分类模型的准确性由其权重和偏置来决定，因此，后续的训练是为了能够得到音频识别分类模型优秀的权重和偏置，这样便不需要对音频识别分类模型本身进行训练，而通过对编码器模块和/或参数推理模块的训练便可以得到音频识别分类模型优秀的权重和偏置，在此基础上，在音频识别分类模型部署于终端设备的情况下，无需对音频识别分类模型进行训练，只需要将编码器模块和参数推理模块部署于算力强大的计算设备如服务器中，通过服务器便可以得到音频识别分类模型的权重和偏置，这样可以将终端设备的功耗降低和提升其运行速度，从而有助于延长终端设备在电池供电状态下的使用时间。

在示意性实施例中，损失函数为交叉熵损失函数。交叉熵损失函数是一种常用的损失函数，用于衡量两个概率分布之间的差异，通常用于分类问题中，特别是多类别分类问题。因为本公开实施例的音频识别方法，最终得到的音频识别结果是输入音频属于哪个类别，例如婴儿哭声属于一个类别，则在终端设备接收到婴儿哭声的音频信息后，最终得到的音频识别结果属于婴儿哭声类别。所以，交叉熵损失函数可以是本公开实施例中的一种损失函数。

步骤1109、根据损失函数，调整待训练的编码器模块的参数和/或调整待训练的参数推理模块的参数，直到损失函数收敛至期望值或者达到训练的迭代次数，得到训练后的编码器模块和/或训练后的参数推理模块。

至此便完成了编码器模块的参数和/或参数推理模块的训练。

在示意性实施例中，编码器模块和参数推理模块部署于服务器，音频识别分类模型部署于终端设备。当然，在本公开的各个实施例中，也可以根据需要将上述模块都部署于终端设备。

步骤1110、接收音频识别目标信息，将音频识别目标信息输入编码器模块，通过编码器模块得到目标特征向量，其中音频识别目标信息对应的类别数量为至少一个，之后执行步骤1111。

在示意性实施例中，音频识别目标信息可以由用户根据需要输入至终端设备，服务器一侧的编码器模块可以从终端设备接收音频识别目标信息，其中，接收音频识别目标信息的过程通过相应的网络硬件、通讯协议等技术来实现，这些技术均为通讯领域的现有技术，此处不再赘述。

图15是根据一示意性实施例示出的根据用户输入的音频识别目标信息实现音频识别的过程逻辑示意图，如图15所示，在该举例中，用户输入的音频识别目标信息为两条文字内容文本，文本内容包括“打开空调”和“关闭空调”，终端设备将这两条文字内容文本发送至服务器，服务器接收该两条文字内容文本。

因为音频识别目标信息为两条文字内容文本，所以在步骤1110中，将该两条文字内容文本输入文本编码器，通过文本编码器得到目标特征向量。

步骤1111、将类别数量输入类别数量适配器，通过类别数量适配器确定出与类别数量相关联的参数生成器，之后执行步骤1112。

例如，如图15所示，用户输入的音频识别目标信息为两条文字内容文本，这两条文字内容文本分别为“打开空调”和“关闭空调”，二者因为内容不同而显然地属于不同的类别，因此，用户输入的音频识别目标信息的类别数量为2个，因此，在步骤1111中，类别数量适配器根据2个类别数量为确定出与2个类别数量相关联的参数生成器为第一参数生成器。

步骤1112、将目标特征向量输入与类别数量相关联的参数生成器，通过与类别数量相关联的参数生成器得到模型配置参数，之后执行步骤1113。

例如，如图15所示，通过第一参数生成器根据目标特征向量得到模型配置参数。

步骤1113、将模型配置参数发送到部署于终端设备的音频识别分类模型，使得音频识别分类模型基于模型配置参数进行配置，之后执行步骤1114。

例如，如图15所示，在音频识别分类模型基于模型配置参数进行配置后，音频识别分类模型具有了关于“打开空调”和“关闭空调”的语音检测识别功能。

步骤1114、终端设备接收到与音频识别目标信息相关联的音频信息，通过音频识别分类模型得到音频识别结果。

例如，如图15所示，终端设备接收到语音内容为“打开空调”或者“关闭空调”的音频信息后，通过音频识别分类模型便可以得到关于“打开空调”或者“关闭空调”的音频识别结果，基于该音频识别结果，接入后续的关于空调控制的应用或程序，便可以实现用户通过移动设备对空调开启和关闭的控制。

图16是根据一示意性实施例示出的特征编码器的结构示意图。如图16所示，在示意性实施例中，特征编码器的结构可以采用3层卷积层结构，例如图16中所示的第一卷积层、第二卷积层和第三卷积层。各个卷积层中包含了各自的卷积节点（conv-op）和加节点（+）。特征编码器的模型配置参数包括了第一权重参数、第一偏置参数、第二权重参数、第二偏置参数、第三权重参数、第三偏置参数，其中，第一权重参数应用于第一卷积层的卷积节点，第一偏置参数用于第一卷积层的加节点，第二权重参数应用于第二卷积层的卷积节点，第二偏置参数用于第二卷积层的加节点，第三权重参数应用于第三卷积层的卷积节点，第三偏置参数用于第三卷积层的加节点。

特征编码器接收的音频信息首先进入第一卷积层，在第一卷积层中先后经过其卷积节点与第一权重参数的卷积操作和其加节点的与第一偏置参数的加法操作，得到第一卷积操作后的特征数据；第一卷积操作后的特征数据进入第二卷积层，在第二卷积层中先后经过其卷积节点与第二权重参数的卷积操作和其加节点的与第二偏置参数的加法操作，得到第二卷积操作后的特征数据；第二卷积操作后的特征数据进入第三卷积层，在第三卷积层中先后经过其卷积节点与第三权重参数的卷积操作和其加节点的与第三偏置参数的加法操作，得到第二卷积操作后的特征数据，即特征编码器最终得到的音频特征向量。

图17是根据一示意性实施例示出的分类器的结构示意图。如图17所示，在示意性实施例中，分类器的结构可以采用单层全连接层结构，全连接层中包含了乘节点（×）和加节点（+）。分类器的模型配置参数包括了第四权重参数和第四偏置参数，其中，第四权重参数应用于全连接层中的乘节点，第四偏置参数应用于全连接层中的加节点。音频特征向量进入分类器后在乘节点与第四权重参数相乘，之后在加节点与第四偏置参数相加，最终得到音频识别结果。在示意性实施例中，音频识别结果为特征编码器接收的音频信息的类别概率，在所得到的某一类别概率达到预设的概率阈值的情况下，确定该音频信息属于该类别。例如，音频信息中含有“打开空调”的语音内容，在得到的对应于“打开空调”的类别概率达到预设的概率阈值（例如90%）的情况下，确定该含有“打开空调”语音内容的音频信息属于“打开空调”的类别，在此结果的基础上，可以根据需要，触发控制空调启动的程序或进程以开启空调。

在示意性实施例中，音频编码器和文本编码器均可以采用3层LSTM层结构。

在示意性实施例中，参数生成器可以由Transformer结构和全连接层构成。图18是根据一示意性实施例示出的参数生成器的结构示意图。如图18所示，参数生成器包括Transformer结构和生成器组。在示意性实施例中，对应于图16所示的特征编码器和图17所示的分类器，生成器组包括第一权重参数生成器、第一偏置参数生成器、第二权重参数生成器、第二偏置参数生成器、第三权重参数生成器、第三偏置参数生成器、第四权重参数生成器和第四偏置参数生成器。其中，第一权重参数生成器用于生成特征编码器所需的模型配置参数中的第一权重参数，第一偏置参数生成器用于生成特征编码器所需的模型配置参数中的第一偏置参数，第二权重参数生成器用于生成特征编码器所需的模型配置参数中的第二权重参数，第二偏置参数生成器用于生成特征编码器所需的模型配置参数中的第二偏置参数，第三权重参数生成器用于生成特征编码器所需的模型配置参数中的第三权重参数，第三偏置参数生成器用于生成特征编码器所需的模型配置参数中的第三偏置参数，第四权重参数生成器用于生成分类器所需的模型配置参数中的第四权重参数，第四偏置参数生成器用于生成分类器所需的模型配置参数中的第四偏置参数。其中，生成器组中的各个生成器均采用全连接层结构。

在示意性实施例中，不同的参数生成器中的生成器组中的各个生成器（即全连接层）之间的参数配置不同，生成器（全连接层）的配置参数包括了(w,h)，其中，w决定了分类的数量，在10个类别、20个类别、30个类别、40个类别、以及40个以上类别五个类别等级中，对应于10个类别等级的参数生成器的生成器组中的全部生成器（全连接层）的w值均设为10，对应于20个类别等级的参数生成器的生成器组中的全部生成器（全连接层）的w值设为20，对应于30个类别等级的参数生成器的生成器组中的全部生成器（全连接层）的w值设为30，对应于40个类别等级的参数生成器的生成器组中的全部生成器（全连接层）的w值设为40，对应于40个以上类别等级的参数生成器的生成器组中的全部生成器（全连接层）的w值可以根据需要设为一个相同的较大的值，如全部设为50、100或者1000等。

基于上述示意性实施例的音频识别方法，终端设备例如智能手机，则在一个具体应用场景中，用户可以在智能手机的应用中设置自己想要检测的内容，智能手机中的应用将该用户想要检测的内容发送至云端服务器，编码器模块和参数推理模块部署于云端服务器，进而云端服务器生成对应的模型配置参数并将模型配置参数下发至智能手机的应用中，应用接收模型配置参数并配置于特征编码器和分类器中，形成检测功能。

图19是根据一示意性实施例示出的一种音频识别装置的逻辑结构示意图，如图19所示，该音频识别装置主要包括特征提取模块1901、参数获得模块1902和参数发送模块1903。

特征提取模块1901，被配置为执行接收音频识别目标信息，将音频识别目标信息输入编码器模块，通过编码器模块得到目标特征向量，其中音频识别目标信息对应的类别数量为至少一个。

参数获得模块1902，被配置为执行将目标特征向量和类别数量输入参数推理模块，通过参数推理模块得到模型配置参数。

参数发送模块1903，被配置为执行将模型配置参数发送到部署于终端设备的音频识别分类模型，使得音频识别分类模型基于模型配置参数进行配置，并使得终端设备接收到与音频识别目标信息相关联的音频信息后，通过音频识别分类模型得到音频识别结果。

在示意性实施例中，音频识别目标信息包括声音事件音频数据和文字数据的至少其中之一，编码器模块包括音频编码器和文本编码器；

特征提取模块1901进一步被配置为执行：在音频识别目标信息为声音事件音频数据的情况下，将声音事件音频数据输入音频编码器，通过音频编码器得到目标特征向量；在音频识别目标信息为文字数据的情况下，将文字数据输入文本编码器，通过文本编码器得到目标特征向量。

在示意性实施例中，参数推理模块包括类别数量适配器和参数生成器，其中参数生成器的数量为至少一个；

参数获得模块1902进一步被配置为执行：将类别数量输入类别数量适配器，通过类别数量适配器确定出与类别数量相关联的参数生成器，其中，音频识别目标信息为至少一个，目标特征向量为至少一个，每一个目标特征向量一一对应于每一个音频识别目标信息；将目标特征向量输入与类别数量相关联的参数生成器，通过与类别数量相关联的参数生成器得到模型配置参数。

在示意性实施例中，音频识别分类模型包括：特征编码器，特征编码器用于根据音频信息得到音频特征向量；分类器，分类器用于根据音频特征向量得到音频识别结果；其中，模型配置参数包括特征编码器的权重参数、特征编码器的偏置参数、分类器的权重参数和分类器的偏置参数。

在示意性实施例中，音频识别装置还包括：

训练样本获取模块，被配置为执行获取音频识别目标样本和音频识别参考样本，音频识别目标样本的标注类别的数量为至少一个，其中，音频识别参考样本的标注类别与音频识别目标样本的标注类别相同；

样本特征提取模块，被配置为执行将音频识别目标样本输入待训练的编码器模块，通过待训练的编码器模块得到目标特征样本向量；

样本参数获得模块，被配置为执行将目标特征样本向量和标注类别的数量输入待训练的参数推理模块，通过待训练的参数推理模块得到模型配置推理参数；

样本参数发送模块，被配置为执行将模型配置推理参数发送到音频识别分类模型，使得音频识别分类模型基于模型配置推理参数进行配置；

样本预测模块，被配置为执行将音频识别参考样本输入基于模型配置推理参数配置后的音频识别分类模型，通过基于模型配置推理参数配置后的音频识别分类模型得到分类预测数据；

损失构建模块，被配置为执行根据分类预测数据和音频识别目标样本的标注类别，建立损失函数；

参数调整模块，被配置为执行根据损失函数，调整待训练的编码器模块的参数和/或调整待训练的参数推理模块的参数，直到损失函数收敛至期望值或者达到训练的迭代次数，得到训练后的编码器模块和/或训练后的参数推理模块。

在示意性实施例中，分批次地获取音频识别目标样本和音频识别参考样本，每批次获取的音频识别目标样本和音频识别参考样本均为至少一个，在同一批次中获取的音频识别目标样本的数量和音频识别参考样本的数量相等；在同一批次中获取的音频识别目标样本的数量和音频识别参考样本的数量均为一个的情况下，音频识别目标样本的标注类别和音频识别参考样本的标注类别相同；在同一批次中获取的音频识别目标样本的数量和音频识别参考样本的数量均多于一个的情况下，按照输入待训练的编码器模块的音频识别目标样本的顺序和输入基于模型配置推理参数配置后的音频识别分类模型的音频识别参考样本的顺序排序，处于相同排序位置的音频识别目标样本和音频识别参考样本为相同的标注类别；在同一批次中获取的音频识别目标样本的数量和音频识别参考样本的数量均多于一个的情况下，通过待训练的编码器模块得到的目标特征样本向量的数量与音频识别目标样本的数量相等，并且目标特征样本向量的排序与音频识别目标样本的排序相同；待训练的参数推理模块包括类别数量适配器和至少一个待训练的参数生成器，至少一个待训练的参数生成器分别一对一地关联于至少一个类别数量范围。

在示意性实施例中，样本参数获得模块进一步被配置为执行：将标注类别的数量输入类别数量适配器，通过类别数量适配器确定出标注类别的数量所属的类别数量范围；将目标特征样本向量输入与标注类别的数量所属的类别数量范围相关联的待训练的参数生成器，通过与标注类别的数量所属的类别数量范围相关联的待训练的参数生成器得到模型配置推理参数。

在示意性实施例中，参数调整模块进一步被配置为执行：调整与标注类别的数量所属的类别数量范围相关联的待训练的参数生成器的参数。

在示意性实施例中，音频识别目标样本包括第一声音事件音频样本数据和文字样本数据的至少其中之一，音频识别参考样本包括第二声音事件音频样本数据和语音样本数据的至少其中之一；待训练的编码器模块包括待训练的音频编码器和待训练的文本编码器。

在示意性实施例中，样本特征提取模块进一步被配置为执行：在音频识别目标样本为第一声音事件音频样本数据的情况下，将第一声音事件音频样本数据输入待训练的音频编码器，通过待训练的音频编码器得到目标特征样本向量；在音频识别目标样本为文字样本数据的情况下，将文字样本数据输入待训练的文本编码器，通过待训练的文本编码器得到目标特征样本向量。

在示意性实施例中，参数调整模块进一步被配置为执行：对应于输入的第一声音事件音频样本数据，调整待训练的音频编码器的参数；对应于输入的文字样本数据，调整待训练的文本编码器的参数。

关于上述实施例中的音频识别装置，其中各个单元执行操作的具体方式已经在有关该音频识别方法的实施例中进行了详细描述，此处将不作详细阐述说明。

图20是根据一示意性实施例示出的一种音频识别系统的逻辑结构示意图，如图20所示，该音频识别系统包括数据接收模块2001、编码器模块2002、参数推理模块2003、数据发送模块2004和音频识别分类模型2005。

其中，数据接收模块2001部署于服务器2010，用于通过服务器2010所接入的网络接收音频识别目标信息，其中音频识别目标信息对应的类别数量为至少一个；

编码器模块2001部署于服务器2010，用于根据音频识别目标信息得到目标特征向量；

参数推理模块2003部署于服务器2010，用于根据目标特征向量得到模型配置参数；

数据发送模块2004部署于服务器2010，用于通过网络发送模型配置参数；

音频识别分类模型2005部署于终端设备2020，音频识别分类模型2005基于模型配置参数进行配置，并用于在接收到与音频识别目标信息相关联的音频信息后得到音频识别结果，其中，终端设备2020接入于网络并通过网络获得模型配置参数。

关于上述实施例中的音频识别系统，其中各个单元执行操作的具体方式已经在有关该音频识别方法的实施例中进行了详细描述，此处将不作详细阐述说明。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

图21是本公开实施例提供的一种电子设备的结构示意图。在一些实施例中，该电子设备为服务器。该电子设备2100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（Central Processing Units，CPU）2101和一个或一个以上的存储器2102，其中，该存储器2102中存储有至少一条程序代码，该至少一条程序代码由该处理器2101加载并执行以实现上述各个实施例提供的音频识别方法。当然，该电子设备2100还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备2100还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括至少一条指令的计算机可读存储介质，例如包括至少一条指令的存储器，上述至少一条指令可由计算机设备中的处理器执行以完成上述实施例中的音频识别方法。

可选地，上述计算机可读存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以包括ROM（Read-Only Memory，只读存储器）、RAM（Random-Access Memory，随机存取存储器）、CD-ROM（Compact Disc Read-Only Memory，只读光盘）、磁带、软盘和光数据存储设备等。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种音频识别方法，包括：

2.根据权利要求1所述的音频识别方法，其特征在于：

所述音频识别目标信息包括声音事件音频数据和文字数据的至少其中之一，所述编码器模块包括音频编码器和文本编码器；

3.根据权利要求1所述的音频识别方法，其特征在于：

所述参数推理模块包括类别数量适配器和参数生成器，其中所述参数生成器的数量为至少一个；

4.根据权利要求1所述的音频识别方法，其特征在于，所述音频识别分类模型包括：

5.根据权利要求1所述的音频识别方法，其特征在于，所述音频识别方法还包括如下针对所述编码器模块和/或所述参数推理模块的训练过程：

6.根据权利要求5所述的音频识别方法，其特征在于：在所述训练过程当中，分批次地获取所述音频识别目标样本和所述音频识别参考样本，每批次获取的所述音频识别目标样本和所述音频识别参考样本均为至少一个，在同一批次中获取的音频识别目标样本的数量和音频识别参考样本的数量相等；

7.根据权利要求5所述的音频识别方法，其特征在于：

所述音频识别目标样本包括第一声音事件音频样本数据和文字样本数据的至少其中之一，所述音频识别参考样本包括第二声音事件音频样本数据和语音样本数据的至少其中之一；

8.一种音频识别装置，其特征在于，包括：

9.一种音频识别系统，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1至7任一项所述的音频识别方法。