CN115203342A

CN115203342A - 一种音频识别方法、电子设备及可读存储介质

Info

Publication number: CN115203342A
Application number: CN202210899347.9A
Authority: CN
Inventors: 陆劲鸿
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-10-18

Abstract

本申请公开了一种音频识别方法、电子设备及可读存储介质，该方法包括：获取预设音频，并分别提取各个预设音频对应的预设音频特征；对预设音频特征进行聚类处理，得到多个音频特征组；分别在各个音频特征组内选择标准音频特征，并利用标准音频特征构成音频特征库；获取终端发送的待识别音频；其中，待识别音频由终端对应的收音设备获取；提取待识别音频的待识别音频特征；基于待识别音频特征，在音频特征库的各个标准音频特征中确定与待识别音频特征最相似的目标音频特征；向终端发送目标音频特征对应的目标音频信息；该方法通过聚类和标准音频特征的提取，在保证音频识别的可靠性的同时，能够大幅度减少音频特征库的数据量。

Description

一种音频识别方法、电子设备及可读存储介质

技术领域

本申请涉及音频处理技术领域，特别涉及一种音频识别方法、电子设备及计算机可读存储介质。

背景技术

线上歌曲识别，是指用户通过自我哼唱或采集其它设备播放的片段音频来请求服务，然后识别出所对应的歌曲信息。歌曲识别需要一个庞大的歌曲库来支撑整个服务，单单原唱歌曲的数量已经数目及多，再加上多个歌手对热门歌曲的翻唱，导致歌曲库中的数据数量更加不可估量。这样一个庞大的歌曲库会引发严重的存储问题。

发明内容

有鉴于此，本申请的目的在于提供一种音频识别方法、电子设备及计算机可读存储介质，在保证音频识别的可靠性的同时，能够大幅度减少音频特征库的数据量。

为解决上述技术问题，第一方面，本申请提供了一种音频识别方法，包括：

获取预设音频，并分别提取各个所述预设音频对应的预设音频特征；

对所述预设音频特征进行聚类处理，得到多个音频特征组；

分别在各个所述音频特征组内选择标准音频特征，并利用所述标准音频特征构成音频特征库；

获取终端发送的待识别音频；其中，所述待识别音频由所述终端对应的收音设备获取；

提取所述待识别音频的待识别音频特征；

基于所述待识别音频特征，在所述音频特征库的各个所述标准音频特征中确定与所述待识别音频特征最相似的目标音频特征；

向所述终端发送所述目标音频特征对应的目标音频信息。

可选地，所述对所述预设音频特征进行聚类处理，得到多个音频特征组，包括：

对所述预设音频特征进行特征相似度聚类处理，得到多个初始音频特征组；

对每个所述初始音频特征组内的各个所述预设音频特征，进行基于拍子数的聚类处理，得到所述初始音频特征组对应的所述音频特征组。

可选地，所述对每个所述初始音频特征组内的各个所述预设音频特征，进行基于拍子数的聚类处理，得到所述初始音频特征组对应的所述音频特征组，包括：

确定每个所述初始音频特征组内的各个所述预设音频特征分别对应的拍子数；

基于预设拍子数区间，利用所述拍子数对所述预设音频特征分组，得到中间音频特征组；

确定各个所述预设音频特征的预设音频名称；

利用所述预设音频名称，基于预设名称过滤规则对各个所述中间音频特征组进行过滤，得到所述音频特征组。

可选地，所述预设名称过滤规则为滤除目标音频名称对应的预设音频特征的规则；

所述目标音频名称为能够表征预设音频由至少两个音频拼接得到的名称；

和/或，

所述目标音频名称为能够表征所述预设音频特征无法准确表示所述预设音频的特性的名称。

可选地，所述分别在各个所述音频特征组内选择标准音频特征，包括：

基于各个所述音频特征组内的各个预设音频特征分别对应的音频属性信息，选择所述标准音频特征。

可选地，所述利用所述标准音频特征构成音频特征库，包括：

生成所述标准音频特征和对应的标准音频信息之间的对应关系；

利用所述对应关系和所述标准音频特征构成所述音频特征库。

可选地，所述基于所述待识别音频特征，在所述音频特征库的各个所述标准音频特征中确定与所述待识别音频特征最相似的目标音频特征，包括：

计算所述待识别音频特征分别和各个所述标准音频特征之间的相似度数据；

确定最大相似度数据，并将所述最大相似度数据对应的标准音频特征确定为所述目标音频特征；

相应的，所述向所述终端发送所述目标音频特征对应的目标音频信息，包括：

利用所述对应关系得到所述目标音频特征对应的所述目标音频信息，并将所述目标音频信息发送至所述终端。

可选地，所述待识别音频为所述收音设备采集用户的哼唱声音得到的音频；

或，

所述待识别音频为所述收音设备采集其他电子设备播放的音频后得到的音频。

第二方面，本申请还提供了一种电子设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的音频识别方法。

第三方面，本申请还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现上述的音频识别方法。

本申请提供的音频识别方法，获取预设音频，并分别提取各个预设音频对应的预设音频特征；对预设音频特征进行聚类处理，得到多个音频特征组；分别在各个音频特征组内选择标准音频特征，并利用标准音频特征构成音频特征库；获取终端发送的待识别音频；其中，待识别音频由终端对应的收音设备获取；提取待识别音频的待识别音频特征；基于待识别音频特征，在音频特征库的各个标准音频特征中确定与待识别音频特征最相似的目标音频特征；向终端发送目标音频特征对应的目标音频信息。

可见，该方法中并不将所有的预设音频的预设音频特征存入歌曲库，而是对其进行聚类，形成多个音频特征组。每个音频特征组内的预设音频特征相似度较高，从中选择一个作为音频特征组的代表，即标准音频特征，构成音频特征库。在识别过程中，终端利用收音设备获取待识别音频，并提取对应的待识别音频特征。将待识别音频特征与音频特征库中的标准音频特征进行匹配，得到最相似的目标音频特征，认为二者对应于同一个预设音频，因此向终端反馈目标音频特征对应的目标音频信息。通过聚类和标准音频特征的提取，在保证音频识别的可靠性的同时，能够大幅度减少音频特征库的数据量，避免出现严重的存储问题。

此外，本申请还提供了一种电子设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种音频识别方法所适用的硬件组成框架示意图；

图2为本申请实施例提供的另一种音频识别方法所适用的硬件组成框架示意图；

图3为本申请实施例提供的一种音频识别方法的流程示意图；

图4为本申请实施例提供的一种分类效果图；

图5为本申请实施例提供的另一种分类效果图；

图6为本申请实施例提供的一种具体的音频特征库构建流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，先对本申请实施例提供的音频识别方法对应的方案所使用的硬件组成框架进行介绍。请参考图1，图1为本申请实施例提供的一种音频识别方法所适用的硬件组成框架示意图。其中电子设备100可以包括处理器101和存储器102，还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。

其中，处理器101用于控制电子设备100的整体操作，以完成音频识别方法中的全部或部分步骤；存储器102用于存储各种类型的数据以支持在电子设备100的操作，这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-Only Memory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。在本实施例中，存储器102中至少存储有用于实现以下功能的程序和/或数据：

获取预设音频，并分别提取各个预设音频对应的预设音频特征；

对预设音频特征进行聚类处理，得到多个音频特征组；

分别在各个音频特征组内选择标准音频特征，并利用标准音频特征构成音频特征库；

获取终端发送的待识别音频；其中，待识别音频由终端对应的收音设备获取；

提取待识别音频的待识别音频特征；

基于待识别音频特征，在各个标准音频特征中确定与待识别音频特征最相似的目标音频特征；

向终端发送目标音频特征对应的目标音频信息。

多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件105可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

电子设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行音频识别方法。

当然，图1所示的电子设备100的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备100可以包括比图1所示的更多或更少的部件，或者组合某些部件。

可以理解的是，本申请实施例中并不对电子设备的数量进行限定，其可以是多个电子设备共同协作完成音频识别方法。在一种可能的实施方式中，请参考图2，图2为本申请实施例提供的另一种音频识别方法所适用的硬件组成框架示意图。由图2可知，该硬件组成框架可以包括：第一电子设备11和第二电子设备12，二者之间通过网络13连接。

在本申请实施例中，第一电子设备11与第二电子设备12的硬件结构可以参考图1中电子设备100。即可以理解为本实施例中具有两个电子设备100，两者进行数据交互。进一步，本申请实施例中并不对网络13的形式进行限定，即，网络13可以是无线网络(如WIFI、蓝牙等)，也可以是有线网络。

其中，第一电子设备11和第二电子设备12可以是同一种电子设备，如第一电子设备11和第二电子设备12均为服务器；也可以是不同类型的电子设备，例如，第一电子设备11可以是智能手机或其它智能终端，第二电子设备12可以是服务器。在一种可能的实施方式中，第一电子设备11和第二电子设备12均为服务器。其中，第一电子设备11利用预设音频生成音频特征库并发送至第二电子设备12，第二电子设备12获取待识别音频并利用音频特征库得到目标音频特征。

具体的，请参考图3，图3为本申请实施例提供的一种音频识别方法的流程示意图。该实施例中的方法包括：

S101：获取预设音频，并分别提取各个预设音频对应的预设音频特征。

其中，预设音频是指作为音频识别结果的音频，其具体内容和数量不做限定，例如可以是原唱歌曲、翻唱歌曲、纯音乐等。每个预设音频的内容不同，可以利用对应的预设音频特征进行表征。预设音频特征的形式和提取方式不做限定，其能够表征预设音频的内容、形式等特征即可。在线上音频识别的应用场景下，为了提高识别速度，预先提取各个预设音频对应的预设音频特征并构成音频特征库，以便后续直接利用音频特征库进行音频识别。

S102：对预设音频特征进行聚类处理，得到多个音频特征组。

S103：分别在各个音频特征组内选择标准音频特征，并利用标准音频特征构成音频特征库。

为了便于说明，将上述两个步骤结合起来进行说明。

由于预设音频的数量较多，且其中存在大量的相似音频，例如一个原唱歌曲可能存在多种形式十分相似的翻唱歌曲，这些翻唱歌曲和原唱歌曲可以视为相似音频。当然，也可以存在改编程度较大，相似程度较小的翻唱歌曲，这些翻唱歌曲可以不被视为原唱歌曲的相似歌曲。若直接利用所有的预设音频特征构成音频特征库，则数据量太大，会导致较严重的存储问题。

为了解决该问题，本申请并不直接利用所有的预设音频特征构成音频特征库。具体的，通过进行聚类处理，可以得到多个音频特征组，聚类处理会将相似的预设音频特征视为同一个组，而相似的预设音频特征对应的预设音频也可以被认为是相似音频。在对音频进行模糊识别的应用场景下，这些相似音频可以被识别为同一个音频，该音频可以为音频特征组对应的若干个预设音频中的任意一个，可以被成为标准音频，标准音频对应的特征即为标准音频特征。因此，在生成音频特征库时，可以仅利用标准音频特征构成。每个标准音频特征代表一个音频特征组对应的所有预设音频，由于这些预设音频十分相似(通常可能为同一歌曲的相似翻唱版本，或同一乐曲的相似演奏版本)，因此无论后续终端想要识别的待识别音频是其中的哪一个，提取到的待识别特征均与标准音频特征最为相似，实现准确识别。请参考图4，图4为本申请实施例提供的一种分类效果图。其中，歌曲B、歌曲C对应的预设音频特征及其相关的预设音频特征分别被划分至两个音频特征组，此外，歌曲A的三个不同版本(即A-1、A-2、A-3)对应的预设音频特征被分别划分至三个不同的音频特征组。

可以理解的是，根据聚类处理的处理过程的不同，得到的音频特征组的数量、每个特征组的内容均可不同。在一种实施方式中，预设音频特征相似的音频有较大部分为原唱音频和翻唱音频，有些翻唱音频仅为不同演奏者或演唱者对原唱音频的重新演唱或重新演奏，而另外一些翻唱音频同时还进行了音频的改编，改编通常伴随着音乐风格的变换，而音乐风格的变化通常体现为节奏的变换，即BPM(beats per minute，拍子数)的变换。这些改变后的音频与原唱音频虽然可能在预设音频特征方面较为相似，但实际已有较大不同，为了提高识别准确性，可以将其划分至不同的音频特征组。因此，在进行聚类时，可以首先对预设音频特征进行特征相似度聚类处理，得到多个初始音频特征组。各个初始音频特征组内的预设音频特征在拍子数方面可能存在较大差异，因此，进一步对每个初始音频特征组内的各个预设音频特征，进行基于拍子数的聚类处理，即在各个初始音频特征组内，再次进行基于BPM的分组，得到初始音频特征组对应的音频特征组。

本实施例并不限定基于BPM的聚类处理的具体实施方式，在一种实施方式中，可以将BPM差距大于预设阈值的预设音频特征划分至不同的音频特征组，若有一个预设音频特征与其他所有的预设音频特征在BPM上的差距均不大于预设阈值，则可以判断其BPM与各个不同的音频特征组的平均BPM最接近，并被划分至该最接近的音频特征组内。平均BPM可以为音频特征组内所有特征分别对应的BPM的平均值或加权平均值。

在另一种实施方式中，可以认为不同风格的音频对应于不同的BPM区间，因此，可以基于预设的拍子数区间(即BPM区间)进行聚类处理。具体的，确定每个初始音频特征组内的各个预设音频特征分别对应的拍子数，并基于预设拍子数区间，利用拍子数对预设音频特征分组，得到音频特征组。

更进一步的，在基于拍子数进行聚类完毕后，得到的结果可以被称为中间音频特征组。受到某些因素的影响，例如音频表现形式(如电音)，预设音频对应的预设音频特征并不能够准确表征其内容，利用其构成音频特征库会降低音频识别准确度。或者，某些预设音频为多个音频拼接得到，用户在进行音频识别时，并不想要识别到此类音频，而是想要识别到原始音频，故此同样会造成识别准确度降低的影响。在得到中间音频特征组后，确定各个预设音频特征的预设音频名称，音频名称能够在一定程度上反映预设音频是否为上述两种音频，利用预设音频名称，基于预设名称过滤规则对各个中间音频特征组进行过滤，即可得到音频特征组。需要说明的是，过滤的对象可以为中间音频特征组中的所有特征，或者，可以为其中的部分特征，具体可以为一个或多个。

具体的，预设名称过滤规则为滤除目标音频名称对应的预设音频特征的规则，即将具有目标音频名称的预设音频对应的预设音频特征滤除的规则。具体的，目标音频名称为能够表征预设音频由至少两个音频拼接得到的名称，例如具有加号、“串烧”、“合集”等字样的名称。或者，目标音频名称为能够表征预设音频特征无法准确表示预设音频的特性的名称，例如“电音”、“Electronic Ver”等字样的名称。请参考图5，图5为本申请实施例提供的另一种分类效果图，若各个版本的歌曲A对应的预设音频特征原本被划分至一个初始音频特征组，则经过BPM聚类和名称过滤后，得到三个音频特征组，分别为BPM值相近的A-1、A-3、A-5的预设音频特征构成的音频特征组、BPM值相近的A-2的预设音频特征单独构成的音频特征组、以及BPM值相近的A-7、A-8、A-11的预设音频特征构成的音频特征组。

在划分得到音频特征组后，可以从每个音频特征组中选择一个特征作为标准音频特征，以代表整个音频特征组。可以理解的是，各个标准音频特征之间必然不相似，但是又能够覆盖全部的预设音频，因此利用其组成的音频特征库能够提供准确的音频识别，同时数据量较小。标准音频特征的选取方式不做限定，例如可以随机选择。在一种实施方式中，可以基于各个音频特征组内的各个预设音频特征分别对应的音频属性信息，选择标准音频特征。其中，音频属性信息的具体内容可以根据需要进行设置，其中可以包括一项或多项属性数据，例如生成日期、历史播放总量、最近一段时间内的播放总量、表演人员等。基于音频属性信息，可以从中选出最具代表性的一个作为标准音频特征，最具代表性可以为最早生成，或者可以为播放量最多，或者可以为表演人员最为专业或最具有名气。

在得到标准音频信息后，生成标准音频特征和对应的标准音频信息之间的对应关系，并利用对应关系和标准音频特征构成音频特征库。

请参考图6，图6为本申请实施例提供的一种具体的音频特征库构建流程示意图。首先，提取库内歌曲(即预设歌曲)，并利用深度模型提取对应的歌曲特征作为预设音频特征。以特征相似度进行聚类，得到初始音频特征组，进一步基于BPM对各个初始音频特征组分别进行分类，得到多个中间音频特征组。然后，基于过滤规则，对中间音频特征组进行规则过滤处理，得到音频特征组。对各个音频特征组提取(标准)歌曲特征，即标准音频特征，并利用标准音频特征构成歌曲特征库，即音频特征库。

S104：获取终端发送的待识别音频。

其中，待识别音频由终端对应的收音设备获取，收音设备可以为终端自身具备的设备，或者可以为与终端通信连接，能够向终端传输音频信号的独立设备。终端的具体形式不做限定，例如可以为智能手机。具体的，待识别音频可以为收音设备采集用户的哼唱声音得到的音频，或者，待识别音频可以为收音设备采集其他电子设备播放的音频后得到的音频，即可以基于人工哼唱或采集环境中的声音得到待识别音频。

S105：提取待识别音频的待识别音频特征。

需要说明的是，待识别音频特征的提取方式应当与前述的预设音频特征的提取方式相同，本实施例并不限定具体的提取方式，可以训练音频特征提取模型，并利用该训练好的模型提取待识别音频特征。

S106：基于待识别音频特征，在音频特征库的各个标准音频特征中确定与待识别音频特征最相似的目标音频特征。

S107：向终端发送目标音频特征对应的目标音频信息。

通过在音频特征库的各个标准音频特征中确定与待识别音频特征最相似的目标音频特征，可以准确确定待识别音频特征对应的预设音频。具体的，若利用标准音频特征和对应的标准音频信息之间的对应关系以及标准音频特征构成音频特征库，则可以计算待识别音频特征分别和各个标准音频特征之间的相似度数据，并确定最大相似度数据。将最大相似度数据对应的标准音频特征确定为目标音频特征，并利用对应关系得到目标音频特征对应的目标音频信息，并发送至目标终端。

应用本申请实施例提供的音频识别方法，并不将所有的预设音频的预设音频特征存入歌曲库，而是对其进行聚类，形成多个音频特征组。每个音频特征组内的预设音频特征相似度较高，从中选择一个作为音频特征组的代表，即标准音频特征，构成音频特征库。在识别过程中，终端利用收音设备获取待识别音频，并提取对应的待识别音频特征。将待识别音频特征与音频特征库中的标准音频特征进行匹配，得到最相似的目标音频特征，认为二者对应于同一个预设音频，因此向终端反馈目标音频特征对应的目标音频信息。通过聚类和标准音频特征的提取，在保证音频识别的可靠性的同时，能够大幅度减少音频特征库的数据量，避免出现严重的存储问题。

下面对本申请实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的音频识别方法可相互对应参照。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的音频识别方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频识别方法，其特征在于，包括：

对所述预设音频特征进行聚类处理，得到多个音频特征组；

提取所述待识别音频的待识别音频特征；

向所述终端发送所述目标音频特征对应的目标音频信息。

2.根据权利要求1所述的音频识别方法，其特征在于，所述对所述预设音频特征进行聚类处理，得到多个音频特征组，包括：

3.根据权利要求2所述的音频识别方法，其特征在于，所述对每个所述初始音频特征组内的各个所述预设音频特征，进行基于拍子数的聚类处理，得到所述初始音频特征组对应的所述音频特征组，包括：

确定各个所述预设音频特征的预设音频名称；

4.根据权利要求3所述的音频识别方法，其特征在于，所述预设名称过滤规则为滤除目标音频名称对应的预设音频特征的规则；

和/或，

5.根据权利要求1所述的音频识别方法，其特征在于，所述分别在各个所述音频特征组内选择标准音频特征，包括：

6.根据权利要求1所述的音频识别方法，其特征在于，所述利用所述标准音频特征构成音频特征库，包括：

7.根据权利要求6所述的音频识别方法，其特征在于，所述基于所述待识别音频特征，在所述音频特征库的各个所述标准音频特征中确定与所述待识别音频特征最相似的目标音频特征，包括：

8.根据权利要求1所述的音频识别方法，其特征在于，所述待识别音频为所述收音设备采集用户的哼唱声音得到的音频；

或，

9.一种电子设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至8任一项所述的音频识别方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的音频识别方法。