CN115292545B

CN115292545B - 一种音频数据处理方法、装置、设备以及可读存储介质

Info

Publication number: CN115292545B
Application number: CN202211220336.XA
Authority: CN
Inventors: 袁有根; 胡鹏飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2022-12-20
Anticipated expiration: 2042-10-08
Also published as: CN115292545A

Abstract

本申请实施例提供了一种音频数据处理方法、装置、设备以及可读存储介质，该方法可以应用于云技术、人工智能、智慧交通、辅助驾驶、音频等场景，方法包括：获取目标音频数据对应的嵌入音频特征，将嵌入音频特征转换为具有二元参数格式的目标音频特征；根据特征距离阈值，对目标音频特征的特征参数进行二元参数翻转，得到与目标音频特征相关联的候选音频特征；根据候选音频特征在样本音频特征集合中的匹配统计结果，在样本音频特征集合中确定与目标音频特征相匹配的匹配音频特征；将匹配音频特征对应的匹配音频数据，确定为与目标音频数据相匹配的音频数据。采用本申请，可以提高音频数据的匹配效率。

Description

一种音频数据处理方法、装置、设备以及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频数据处理方法、装置、设备以及可读存储介质。

背景技术

现有的音频指纹近邻搜索方法为线性查找方法，线性查找方法可以获取目标音频数据对应的嵌入音频特征，通过嵌入音频特征遍历样本音频特征集合，计算嵌入音频特征和样本音频特征集合中的每个样本音频特征之间的相似度，从而在样本音频特征集合中确定具有最大相似度的样本音频特征，基于该具有最大相似度的样本音频特征，确定与目标音频数据相匹配的匹配音频数据。

可以理解的是，在样本音频特征集合中的样本音频特征的数量较少时，可以快速出嵌入音频特征和较少数量的样本音频特征之间的相似度，然而，在样本音频特征集合中的样本音频特征的数量较多时，计算出嵌入音频特征和较多数量的样本音频特征之间的相似度会花费大量的时间，无法快速计算出与目标音频数据相匹配的匹配音频数据，从而降低了音频数据的匹配效率。

发明内容

本申请实施例提供一种音频数据处理方法、装置、设备以及可读存储介质，可以提高音频数据的匹配效率。

本申请实施例一方面提供了一种音频数据处理方法，包括：

获取目标音频数据对应的嵌入音频特征，将嵌入音频特征转换为具有二元参数格式的目标音频特征；

根据特征距离阈值，对目标音频特征的特征参数进行二元参数翻转，得到与目标音频特征相关联的候选音频特征；候选音频特征和目标音频特征之间的特征距离小于特征距离阈值；

根据候选音频特征在样本音频特征集合中的匹配统计结果，在样本音频特征集合中确定与目标音频特征相匹配的匹配音频特征；

将匹配音频特征对应的匹配音频数据，确定为与目标音频数据相匹配的音频数据。

本申请实施例一方面提供了一种音频数据处理装置，包括：

特征获取模块，用于获取目标音频数据对应的嵌入音频特征，将嵌入音频特征转换为具有二元参数格式的目标音频特征；

参数翻转模块，用于根据特征距离阈值，对目标音频特征的特征参数进行二元参数翻转，得到与目标音频特征相关联的候选音频特征；候选音频特征和目标音频特征之间的特征距离小于特征距离阈值；

特征匹配模块，用于根据候选音频特征在样本音频特征集合中的匹配统计结果，在样本音频特征集合中确定与目标音频特征相匹配的匹配音频特征；

数据确定模块，用于将匹配音频特征对应的匹配音频数据，确定为与目标音频数据相匹配的音频数据。

其中，特征获取模块包括：

分帧处理单元，用于对目标音频数据进行分帧处理，得到目标音频数据中的F个音频帧；F为正整数；

特征提取单元，用于对F个音频帧分别进行特征提取，得到每个音频帧分别对应的嵌入音频特征；

特征转换单元，用于将F个嵌入音频特征分别转换为具有二元参数格式的目标音频特征。

其中，F个嵌入音频特征包括嵌入音频特征H_k，k为小于或等于F的正整数；

特征转换单元，具体用于将嵌入音频特征H_k中满足二元参数条件的特征参数转换为第一特征参数；

特征转换单元，具体用于将嵌入音频特征H_k中不满足二元参数条件的特征参数转换为第二特征参数；

特征转换单元，具体用于将特征参数转换后的嵌入音频特征H_k，确定为具有二元参数格式的目标音频特征。

其中，目标音频特征的数量为F个；F个目标音频特征包括目标音频特征G_j，j为小于或等于F的正整数；

参数翻转模块包括：

参数翻转单元，用于获取小于特征距离阈值的候选特征距离S_i；候选特征距离S_i为非负整数；

参数翻转单元，用于获取与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征，基于与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征的数量，更新目标音频特征G_j对应的历史已累计候选数量，得到目标音频特征G_j对应的已累计候选数量；

第一处理单元，用于若目标音频特征G_j对应的已累计候选数量大于或等于候选数量阈值，则停止遍历与目标音频特征G_j相关联的候选音频特征；

第二处理单元，用于若目标音频特征G_j对应的已累计候选数量小于候选数量阈值，则继续基于候选特征距离S_i+1遍历与目标音频特征G_j相关联的候选音频特征，基于与目标音频特征G_j和候选特征距离S_i+1共同关联的候选音频特征的数量，更新目标音频特征G_j对应的已累计候选数量；候选特征距离S_i+1大于候选特征距离S_i，且小于特征距离阈值。

其中，参数翻转单元包括：

参数翻转子单元，用于根据候选特征距离S_i，对目标音频特征G_j的特征参数进行二元参数翻转，得到与候选特征距离S_i相关联的初始候选音频特征；与候选特征距离S_i相关联的初始候选音频特征和目标音频特征G_j之间的特征距离等于候选特征距离S_i；

特征匹配子单元，用于将初始候选音频特征和样本音频特征集合中的样本音频特征进行匹配，根据存在相匹配的样本音频特征的初始候选音频特征，确定与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征。

其中，参数翻转子单元，具体用于从目标音频特征G_j中获取候选特征位置；候选特征位置的数量等于候选特征距离S_i；

参数翻转子单元，具体用于将目标音频特征G_j中候选特征位置上的第一特征参数翻转为第二特征参数；

参数翻转子单元，具体用于将目标音频特征G_j中候选特征位置上的第二特征参数翻转为第一特征参数；

参数翻转子单元，具体用于将二元参数翻转后的目标音频特征G_j，确定为与候选特征距离S_i相关联的初始候选音频特征。

其中，特征匹配子单元，具体用于若目标音频特征G_j对应的已累计候选数量大于候选数量阈值，则从存在相匹配的样本音频特征的初始候选音频特征中获取辅助音频特征，将辅助音频特征确定为与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征；辅助音频特征的数量和目标音频特征G_j对应的历史已累计候选数量之和等于候选数量阈值；

特征匹配子单元，具体用于若目标音频特征G_j对应的已累计候选数量小于或等于候选数量阈值，则将存在相匹配的样本音频特征的初始候选音频特征，确定为与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征。

其中，与F个目标音频特征相关联的候选音频特征的数量为A个，A为正整数；

特征匹配模块包括：

数量统计单元，用于获取A个候选音频特征的候选音频数据集合，根据A个候选音频特征对候选音频数据集合中的每个候选音频数据进行音频特征匹配数量统计，得到包含每个候选音频数据的统计数量的匹配统计结果，根据匹配统计结果确定样本音频特征集合中统计数量最多的候选音频数据；

特征确定单元，用于根据统计数量最多的候选音频数据，在样本音频特征集合中确定与F个目标音频特征相匹配的匹配音频特征。

其中，数量统计单元，具体用于获取A个候选音频特征分别对应的候选音频数据，将A个候选音频特征分别对应的候选音频数据构成候选音频数据集合；

数量统计单元，具体用于通过A个候选音频特征，统计候选音频数据集合中分别与每个候选音频数据相匹配的候选音频特征的数量，得到匹配统计结果；匹配统计结果中所包含的每个候选音频数据的统计数量之和等于A；

数量统计单元，具体用于从匹配统计结果中获取数值最大的统计数量，将数值最大的统计数量对应的候选音频数据，确定为候选音频数据集合中统计数量最多的候选音频数据。

其中，特征确定单元，具体用于在样本音频特征集合中获取与统计数量最多的候选音频数据相关联的B个样本音频特征；B为正整数；

特征确定单元，具体用于将与每个目标音频特征相关联的候选音频特征和B个样本音频特征进行匹配，在F个目标音频特征中确定匹配成功的目标音频特征的数量；

特征确定单元，具体用于若匹配成功的目标音频特征的数量大于匹配数量阈值，则获取具有连续匹配关系的目标音频特征的数量；

特征确定单元，具体用于将具有连续匹配关系的目标音频特征的数量和F的比值，确定为匹配参数；

特征确定单元，具体用于若匹配参数大于匹配特征阈值，则将B个样本音频特征，确定为与F个目标音频特征相匹配的匹配音频特征。

其中，与目标音频特征G_j相关联的候选音频特征的数量为C个，C为正整数；C个候选音频特征包括候选音频特征L_d，d为小于或等于C的正整数；

特征确定单元，具体用于将候选音频特征L_d分别和B个样本音频特征进行匹配；

特征确定单元，具体用于若B个样本音频特征包括候选音频特征L_d，则确定目标音频特征G_j匹配成功；

特征确定单元，具体用于若B个样本音频特征不包括与目标音频特征G_j相关联的C个候选音频特征，则确定目标音频特征G_j匹配失败。

其中，装置还包括：

特征存储模块，用于获取样本音频数据对应的样本嵌入音频特征，将样本嵌入音频特征转换为具有二元参数格式的样本音频特征；

特征存储模块，用于将样本音频特征存储至样本音频特征集合。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例提出了一种高效的音频指纹匹配方法，该音频指纹匹配方法可以获取目标音频数据对应的浮点型特征（即嵌入音频特征），并将浮点型特征转化成二元的目标音频特征，进而根据本申请实施例所设置的特征距离阈值，对目标音频特征的特征参数进行二元参数翻转，生成与目标音频特征具有不同特征距离的候选音频特征。其中，候选音频特征和目标音频特征之间的特征距离小于特征距离阈值。进一步地，本申请实施例可以根据候选音频特征在样本音频特征集合中的匹配统计结果，在样本音频特征集合中确定与目标音频特征相匹配的匹配音频特征，进而将匹配音频特征对应的匹配音频数据，确定为与目标音频数据相匹配的音频数据。由此可见，本申请实施例无需在样本音频特征集合中遍历计算目标音频特征和所有样本音频特征之间的相似度，而是基于对目标音频特征进行二元参数翻转所得到的候选音频特征，在样本音频特征集合中确定与目标音频特征相匹配的匹配音频特征，由于对目标音频特征进行二元参数翻转的速度较快，可以快速生成与目标音频特征相似的音频特征（即候选音频特征），这样可以提高在样本音频特征集合中匹配到匹配音频特征的速度，从而提高了音频数据的匹配效率，即提高了匹配到与目标音频数据相匹配的匹配音频数据的效率。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种进行数据交互的场景示意图；

图3是本申请实施例提供的一种音频数据处理方法的流程示意图一；

图4是本申请实施例提供的一种生成候选音频特征的场景示意图一；

图5是本申请实施例提供的一种进行音频数据比较的场景示意图；

图6是本申请实施例提供的一种音频数据处理方法的流程示意图二；

图7是本申请实施例提供的一种生成候选音频特征的场景示意图二；

图8是本申请实施例提供的一种依次生成候选音频特征的场景示意图；

图9是本申请实施例提供的一种音频数据处理方法的流程示意图三；

图10a是本申请实施例提供的一种确定匹配音频特征的场景示意图一；

图10b是本申请实施例提供的一种确定匹配音频特征的场景示意图二；

图11是本申请实施例提供的一种音频数据处理装置的结构示意图；

图12是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

具体的，请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括服务器2000和终端设备集群。其中，终端设备集群具体可以包括一个或者多个终端设备，这里将不对终端设备集群中的终端设备的数量进行限定。如图1所示，多个终端设备具体可以包括终端设备3000a、终端设备3000b、终端设备3000c、…、终端设备3000n；终端设备3000a、终端设备3000b、终端设备3000c、…、终端设备3000n可以分别与服务器2000通过有线或无线通信方式进行直接或间接地网络连接，以便于每个终端设备可以通过该网络连接与服务器2000之间进行数据交互。

其中，终端设备集群中的每个终端设备均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电（例如，智能电视）、可穿戴设备、车载终端、飞行器等具有音频数据处理功能的智能终端。为便于理解，本申请实施例可以在图1所示的多个终端设备中选择一个终端设备作为目标终端设备，例如，本申请实施例可以将图1所示的终端设备3000a作为目标终端设备。

其中，服务器2000可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

应当理解，本申请实施例所提供的音频数据处理方法可以由计算机设备执行，该计算机设备可以获取目标音频数据对应的具有二元参数格式的目标音频特征，进而根据特征距离阈值，对目标音频特征的特征参数进行二元参数翻转，生成与目标音频特征相关联的候选音频特征。其中，候选音频特征和目标音频特征之间的特征距离是由特征距离阈值所确定的，例如，候选音频特征和目标音频特征之间的特征距离小于特征距离阈值。这样，计算机设备可以基于候选音频特征，在样本音频特征集合中确定与目标音频特征相匹配的匹配音频特征，进而将匹配音频特征对应的匹配音频数据，确定为与目标音频数据相匹配的音频数据，从而提高匹配目标音频数据对应的匹配音频数据的效率。

其中，本申请实施例所提供的音频数据处理方法可以由服务器2000执行（即上述计算机设备可以为服务器2000），也可以由目标终端设备执行（即上述计算机设备可以为目标终端设备），还可以由服务器2000和目标终端设备共同执行。

可以理解的是，上述网络框架可以适用于智能设备控制场景、听歌识曲场景、音视频查重场景等，这里将不对具体的业务场景进行一一列举。为了应对有限的计算资源限制以及海量音视频文件的处理需求，通常需要指纹匹配过程（即音频数据处理方法）足够快，配置足够灵活。比如，在智能设备控制场景下，目标音频数据可以为语音控制指令，计算机设备可以在获取到与目标音频数据相匹配的匹配音频数据时，执行匹配音频数据所绑定的控制指令动作，例如，在语音控制指令为“打开电视”时，控制指令动作可以表示目标终端设备（即智能设备，这里的智能设备可以为智能电视）被自动打开（即智能设备唤醒）。又比如，在听歌识曲场景下，目标音频数据可以为环境中正在播放的音乐，计算机设备可以在获取到与目标音频数据相匹配的匹配音频数据时，输出匹配音频数据的音乐名称，即识别出环境中正在播放的音乐的名称。又比如，在音视频查重场景下，目标音频数据可以为在音乐平台中上传的“原创音乐”，计算机设备可以将该“原创音乐”与音乐平台中的平台音乐进行匹配，进而在获取到与目标音频数据相匹配的匹配音频数据时，可以确定该“原创音乐”为非原创，即查重不通过；可选的，在未获取到与目标音频数据相匹配的匹配音频数据时，可以确定该“原创音乐”为原创，即查重通过。其中，查重通过或查重不通过可以统称为查重结果。

为便于理解，进一步地，请参见图2，图2是本申请实施例提供的一种进行数据交互的场景示意图。如图2所示的服务器20a可以为上述图1所对应实施例中的服务器2000，如图2所示的终端设备20b可以为上述图1所对应实施例中的目标终端设备，为便于理解，本申请实施例以音频数据处理方法由服务器20a执行为例进行说明。其中，本申请实施例可以将用户称之为对象，终端设备20b对应的用户可以为对象20c。

如图2所示的服务器20b可以获取样本音频数据对应的样本嵌入音频特征，将样本嵌入音频特征转换为具有二元参数格式的样本音频特征，进而将样本音频特征存储至样本音频特征集合20d，样本音频特征集合20d还可以称之为样本音频特征数据库20d，样本音频特征数据库20d可以单独设置，也可以集成在服务器20a上，或者集成在其他设备或云上，这里不做限定。

其中，样本音频特征数据库20d中可以包括多个数据库，多个数据库具体可以包括：数据库21a，数据库21b，…，数据库21c；数据库21a，数据库21b，…，数据库21c可以用于存储不同语言类型的样本音频数据和样本音频数据对应的样本音频特征。例如，数据库21a可以用于存储中文类型的样本音频数据和样本音频数据对应的样本音频特征，数据库21b可以用于存储泰语类型的样本音频数据和样本音频数据对应的样本音频特征，数据库21c可以用于存储韩语类型的样本音频数据和样本音频数据对应的样本音频特征。

如图2所示，对象20c可以通过终端设备20b获取目标音频数据，将目标音频数据发送至服务器20a。例如，目标音频数据可以智能设备控制场景下的语音控制指令，听歌识曲场景下的环境中正在播放的音乐，音视频查重场景下的对象20c上传的“原创音乐”等。

如图2所示，服务器20a在接收到目标音频数据之后，可以获取目标音频数据对应的嵌入音频特征，进而将嵌入音频特征转换为具有二元参数格式的目标音频特征。其中，目标音频数据对应的嵌入音频特征的数量可以为一个或多个，目标音频特征的数量可以为一个或多个，一个嵌入音频特征对应一个目标音频特征，本申请实施例不对嵌入音频特征和目标音频特征的数量进行限定。其中，本申请实施例可以将嵌入音频特征和目标音频特征统称为音频指纹。

如图2所示，服务器20a可以根据特征距离阈值，对目标音频特征的特征参数进行二元参数翻转，得到与目标音频特征相关联的候选音频特征。其中，与目标音频特征相关联的候选音频特征的数量可以为一个或多个，本申请实施例不对候选音频特征的数量进行限定，为便于理解，本申请实施例以候选音频特征的数量为多个为例进行说明，多个候选音频特征可以包括候选音频特征22a、…、候选音频特征22b。

进一步地，如图2所示，服务器20a可以将候选音频特征22a、…、候选音频特征22b和样本音频特征数据库20d中的样本音频特征进行匹配，根据候选音频特征22a、…、候选音频特征22b在样本音频特征数据库20d中的匹配统计结果，在样本音频特征数据库20d中确定与目标音频特征相匹配的匹配音频特征。其中，服务器20a可以确定目标音频数据的语言类型。例如，服务器20a在确定目标音频数据的语言类型为中文类型时，可以将候选音频特征22a、…、候选音频特征22b和数据库21a中的样本音频特征进行匹配。

进一步地，如图2所示，服务器20a可以从样本音频特征数据库20d中获取匹配音频特征对应的匹配音频数据，将匹配音频数据确定为与目标音频数据相匹配的音频数据，进而将匹配音频数据返回至终端设备20b，以使终端设备20b执行匹配音频数据所绑定的控制指令动作、输出匹配音频数据的音乐名称、或输出目标音频数据对应的查重结果等。例如，服务器20a在确定目标音频数据的语言类型为中文类型时，可以从数据库21a中获取匹配音频特征对应的匹配音频数据。

由此可见，本申请实施例可以获取目标音频数据对应的二元特征（即目标音频特征），根据设置的特征距离阈值，生成与目标音频特征的特征距离小于该特征距离阈值的候选音频特征，进而根据候选音频特征，确定与目标音频数据相匹配的匹配音频数据。可以理解的是，由于目标音频数据具有二元参数格式，对目标音频数据进行二元参数翻转的速度较快，从而可以提高确定与目标音频特征相匹配的匹配音频特征的效率，进而提高确定与目标音频数据相匹配的匹配音频数据的效率。

进一步地，请参见图3，图3是本申请实施例提供的一种音频数据处理方法的流程示意图一。该方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备共同执行，该服务器可以为上述图2所对应实施例中的服务器20a，该终端设备可以为上述图2所对应实施例的终端设备20b。为便于理解，本申请实施例以该方法由服务器执行为例进行说明。其中，该音频数据处理方法可以包括以下步骤S101-步骤S104：

步骤S101，获取目标音频数据对应的嵌入音频特征，将嵌入音频特征转换为具有二元参数格式的目标音频特征；

具体的，服务器可以对目标音频数据进行分帧处理，得到目标音频数据中的F个音频帧，这里的F可以为正整数。进一步地，服务器可以对F个音频帧分别进行特征提取，得到每个音频帧分别对应的嵌入音频特征。进一步地，服务器可以将F个嵌入音频特征分别转换为具有二元参数格式的目标音频特征。其中，嵌入音频特征还可以称之为嵌入音频向量，目标音频特征还可以称之为目标音频向量。

其中，服务器可以根据帧长和帧移对目标音频数据进行分帧处理，得到目标音频数据中的至少两个音频帧，本申请实施例不对帧长和帧移的具体取值进行限定。可选的，服务器还可以无需对目标音频数据进行分帧处理，将目标音频数据作为目标音频数据中的音频帧，此时，目标音频数据可以包括1个音频帧，即F的取值为1。为便于理解，本申请实施例以目标音频数据中的音频帧的数量为至少两个（即F大于1）为例进行说明。

其中，服务器可以通过音频指纹方法（即音频指纹提取模型）对F个音频帧分别进行特征提取，音频指纹方法可以为基于频谱的频带能量和Landmark等方法，也可以为基于神经网络的Nowplaying、SAMAF（Sequence-to-sequence Autoencoder Model for AudioFingerprinting）、NAF（Neural Audio Fingerprint for High-specific AudioRetrieval based on Contrastive Learning）和HashCNN（HashConvolutional NeuralNetworks）等方法，本申请不进行限定。嵌入音频特征是基于音频指纹方法所生成的浮点型嵌入，即嵌入音频特征中的特征参数均为浮点数。

其中，F个嵌入音频特征包括嵌入音频特征H_k，这里的k可以为小于或等于F的正整数。应当理解，服务器将F个嵌入音频特征分别转换为具有二元参数格式的目标音频特征的具体过程可以描述为：服务器可以将嵌入音频特征H_k中满足二元参数条件的特征参数转换为第一特征参数，将嵌入音频特征H_k中不满足二元参数条件的特征参数转换为第二特征参数。换言之，若嵌入音频特征H_k中存在满足二元参数条件的特征参数，则将满足二元参数条件的特征参数转换为第一特征参数；若嵌入音频特征H_k中存在不满足二元参数条件的特征参数，则将不满足二元参数条件的特征参数转换为第二特征参数。进一步地，服务器可以将特征参数转换后的嵌入音频特征H_k，确定为具有二元参数格式的目标音频特征。

可选的，若嵌入音频特征H_k中不存在满足二元参数条件的特征参数（即嵌入音频特征H_k中的特征参数均不满足二元参数条件），则将嵌入音频特征H_k中的特征参数均转换为第二特征参数，此时，特征参数转换后的嵌入音频特征H_k中的特征参数均为第二特征参数；若嵌入音频特征H_k中的特征参数均满足二元参数条件，则将嵌入音频特征H_k中的特征参数均转换为第一特征参数，此时，特征参数转换后的嵌入音频特征H_k中的特征参数均为第一特征参数。

应当理解，本申请实施例不对第一特征参数和第二特征参数的具体取值进行限定，第一特征参数和第二特征参数为具有不同取值的特征参数。比如，第一特征参数可以为1，第二特征参数可以为0；又比如，第一特征参数可以为1，第二特征参数可以为-1；又比如，第一特征参数可以为2，第二特征参数可以为1。

可以理解的是，二元参数条件可以表示获取到的特征参数大于或等于0的条件。若嵌入音频特征H_k中存在满足二元参数条件的特征参数，则表示嵌入音频特征H_k中存在大于或等于0的特征参数；若嵌入音频特征H_k中存在不满足二元参数条件的特征参数，则表示嵌入音频特征H_k中存在小于0的特征参数。应当理解，本申请实施例不对二元参数条件的条件类型进行限定，可选的，二元参数条件也可以表示获取到的特征参数大于0的条件，二元参数条件还可以表示获取到的特征参数满足计算公式（本申请实施例不对计算公式的具体形式进行限定，例如，计算公式可以为符号函数sign）的条件。

可以理解的是，二元参数格式表示2个参数（即第一特征参数和第二特征参数），具有二元参数格式的目标音频特征（即特征参数转换后的嵌入音频特征）中的特征参数的取值可以为1个或2个。若嵌入音频特征中既存在满足二元参数条件的特征参数、也存在不满足二元参数条件的特征参数，则目标音频特征中的特征参数的取值可以为2个；可选的，若嵌入音频特征中的特征参数均不满足二元参数条件、或嵌入音频特征中的特征参数均满足二元参数条件，则目标音频特征中的特征参数的取值可以为1个。

其中，目标音频特征的数量为F个，一个嵌入音频特征对应一个目标音频特征；F个目标音频特征可以包括目标音频特征G_j，这里的j可以为小于或等于F的正整数。特征参数转换后的嵌入音频特征H_k还可以称之为具有二元参数格式的目标音频特征G_k。

步骤S102，根据特征距离阈值，对目标音频特征的特征参数进行二元参数翻转，得到与目标音频特征相关联的候选音频特征；

具体的，服务器可以获取小于特征距离阈值的候选特征距离S_i。其中，候选特征距离S_i为非负整数，特征距离阈值的取值为N，这里的N可以为正整数，这里的i可以为小于N的非负整数。进一步地，服务器可以根据候选特征距离S_i，对目标音频特征G_j的特征参数进行二元参数翻转，得到与候选特征距离S_i相关联的初始候选音频特征。其中，与候选特征距离S_i相关联的初始候选音频特征和目标音频特征G_j之间的特征距离等于候选特征距离S_i。进一步地，服务器可以将初始候选音频特征（即与候选特征距离S_i相关联的初始候选音频特征）和样本音频特征集合中的样本音频特征进行匹配，将存在相匹配的样本音频特征的初始候选音频特征，确定为与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征。可选的，若不存在相匹配的样本音频特征的初始候选音频特征，则服务器可以确定不存在与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征。进一步地，服务器可以将与目标音频特征G_j和N个候选特征距离共同关联的候选音频特征，确定为与目标音频特征G_j相关联的候选音频特征。换言之，服务器可以将与目标音频特征G_j和候选特征距离S₀共同关联的候选音频特征、…、与目标音频特征G_j和候选特征距离S_N-1共同关联的候选音频特征，确定为与目标音频特征G_j相关联的候选音频特征。其中，与F个目标音频特征相关联的候选音频特征的数量为A个，这里的A可以为正整数。

可选的，若不存在与目标音频特征G_j和N个候选特征距离共同关联的候选音频特征，即不存在与目标音频特征G_j和候选特征距离S₀共同关联的候选音频特征、…、不存在与目标音频特征G_j和候选特征距离S_N-1共同关联的候选音频特征，则服务器可以确定不存在与目标音频特征G_j相关联的候选音频特征，此时，A等于0。

其中，候选音频特征和目标音频特征之间的特征距离小于特征距离阈值，与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征和目标音频特征G_j之间的特征距离等于特征距离阈值。应当理解，本申请实施例中的特征距离可以为汉明距离，汉明距离表示两个相同长度的字符串对应位置的不同字符的数量，本申请实施例中的汉明距离表示两个相同长度的音频特征对应位置的不同特征参数的数量。

其中，若候选特征距离S_i为正整数，则服务器根据候选特征距离S_i，对目标音频特征G_j的特征参数进行二元参数翻转的具体过程可以描述为：服务器可以从目标音频特征G_j中获取候选特征位置。其中，候选特征位置的数量等于候选特征距离S_i。进一步地，服务器可以将目标音频特征G_j中候选特征位置上的第一特征参数翻转为第二特征参数，将目标音频特征G_j中候选特征位置上的第二特征参数翻转为第一特征参数。进一步地，服务器可以将二元参数翻转后的目标音频特征G_j，确定为与候选特征距离S_i相关联的初始候选音频特征。比如，若候选特征距离S_i等于1，则服务器可以从目标音频特征G_j中获取1个候选特征位置；若目标音频特征G_j在该候选特征位置上的特征参数为第一特征参数，则服务器可以将该候选特征位置上的第一特征参数更新为第二特征参数；可选的，若目标音频特征G_j在该候选特征位置上的特征参数为第二特征参数，则服务器可以将该候选特征位置上的第一特征参数更新为第一特征参数。

其中，二元参数翻转后的目标音频特征G_j还可以称之为与候选特征距离S_i相关联的初始候选音频特征E_j。二元参数翻转后的目标音频特征仍然具有二元参数格式，二元参数翻转后的目标音频特征（即初始候选音频特征）的数量是由目标音频特征的维度所确定的。比如，若目标音频特征的维度为32维（即目标音频特征包括32个特征参数），则根据候选特征距离1所生成的初始候选音频特征的数量为32个。又比如，若目标音频特征的维度为32维，则根据候选特征距离2所生成的初始候选音频特征的数量为32*31/2个。

可选的，若候选特征距离S_i为0，则服务器可以无需执行根据候选特征距离S_i，对目标音频特征G_j的特征参数进行二元参数翻转的步骤，而是将目标音频特征G_j作为与候选特征距离S_i相关联的初始候选音频特征。换言之，若候选特征距离S_i为0，则服务器根据候选特征距离S_i，对目标音频特征G_j的特征参数进行二元参数翻转的具体过程可以描述为：服务器可以将目标音频特征G_j作为与候选特征距离S_i相关联的初始候选音频特征。

为便于理解，请参见图4，图4是本申请实施例提供的一种生成候选音频特征的场景示意图一，如图4所示的候选特征距离S₀、…、候选特征距离S_N-1可以为小于特征距离阈值的N个候选特征距离，如图4所示的目标音频特征可以为F个目标音频特征中的任意一个目标音频特征。

如图4所示，服务器可以根据N个候选特征距离，分别对目标音频特征的特征参数进行二元参数翻转，得到与N个候选特征距离相关联的初始候选音频特征。例如，服务器可以根据候选特征距离S₀，对目标音频特征的特征参数进行二元参数翻转，得到与候选特征距离S₀相关联的初始候选音频特征40a；服务器可以根据候选特征距离S_N-1，对目标音频特征的特征参数进行二元参数翻转，得到与候选特征距离S_N-1相关联的初始候选音频特征40b。

如图4所示，服务器可以将与N个候选特征距离相关联的初始候选音频特征和样本音频特征集合中的样本音频特征进行匹配，将存在相匹配的样本音频特征的初始候选音频特征，确定为与目标音频特征相关联的候选音频特征。例如，服务器可以将初始候选音频特征40a和样本音频特征集合中的样本音频特征进行匹配，得到存在相匹配的样本音频特征的初始候选音频特征41a（即候选音频特征41a）；服务器可以将初始候选音频特征40b和样本音频特征集合中的样本音频特征进行匹配，得到存在相匹配的样本音频特征的初始候选音频特征41b（即候选音频特征41b）。进一步地，服务器可以将候选音频特征41a、…、候选音频特征41b确定为与目标音频特征相关联的候选音频特征（即候选音频特征41c）。

其中，候选音频特征距离S₀等于0，因此，初始候选音频特征40a和候选音频特征41a相同，应当理解，本申请实施例以样本音频特征集合中存在与初始候选音频特征40a相匹配的样本音频特征为例进行说明。

应当理解，本申请实施例可以基于递归的方式生成所有音频指纹候选结果（即候选音频特征），假设特征距离阈值为N，首先会通过递归函数recursion去生成与目标音频指纹（即目标音频特征）的汉明距离为0的候选结果（即初始候选音频特征），然后将汉明距离加一，再次调用递归函数recursion去生成与目标音频指纹的汉明距离为1的候选结果，直到生成完汉明距离小于N的所有候选结果。有了生成的候选结果之后，就可以在音频指纹特征数据库（即样本音频特征集合）中查找该候选结果是否存在。如果音频指纹特征数据库中存在该结果，就可以把它当作最终的音频指纹候选结果；可选的，如果音频指纹特征数据库中不存在该结果，就无需把它当作最终的音频指纹候选结果。

因此，将二元特征的音频指纹（即目标音频特征）用于音频指纹的匹配过程，可以通过汉明距离来生成与目标音频特征相关联的初始候选音频特征，由于通过汉明距离来衡量两个指纹（即目标音频特征和初始候选音频特征）之间的相似度，所以可以高效生成具体某个相似度（例如，汉明距离1表示目标音频特征和初始候选音频特征之间的相似度为1，相似度越小越相似）的初始候选音频特征，相比其他距离度量方法（例如，欧式距离、余弦距离等），大大降低了计算量，从而可以提高音频指纹匹配的灵活性和效率。

步骤S103，根据候选音频特征在样本音频特征集合中的匹配统计结果，在样本音频特征集合中确定与目标音频特征相匹配的匹配音频特征；

具体的，服务器可以获取A个候选音频特征的候选音频数据集合，根据A个候选音频特征对候选音频数据集合中的每个候选音频数据进行音频特征匹配数量统计，得到包含每个候选音频数据的统计数量的匹配统计结果，根据匹配统计结果确定样本音频特征集合中统计数量最多的候选音频数据。其中，一个候选音频特征对应候选音频数据集合中的一个候选音频数据，候选音频数据集合中可以具有相同的候选音频数据。进一步地，服务器可以根据统计数量最多的候选音频数据，在样本音频特征集合中确定与F个目标音频特征相匹配的匹配音频特征。换言之，服务器可以根据统计数量最多的候选音频数据，在样本音频特征集合中确定与F个目标音频特征相匹配的样本音频特征，将与F个目标音频特征相匹配的样本音频特征，确定为匹配音频特征。

可以理解的是，样本音频特征集合中可以包括一个或多个样本音频特征，具体的，服务器可以获取样本音频数据对应的样本嵌入音频特征，将样本嵌入音频特征转换为具有二元参数格式的样本音频特征，进而将样本音频特征存储至样本音频特征集合。

其中，服务器获取样本音频数据对应的样本嵌入音频特征和样本音频特征的具体过程，可以参见上述步骤S101中获取目标音频数据对应的嵌入音频特征和目标音频特征的描述，这里将不再进行赘述。

其中，一个样本音频数据可以对应一个或多个样本音频帧，即一个样本音频数据可以对应一个或多个样本音频特征，为便于理解，本申请实施例以样本音频数据中的样本音频帧的数量为至少两个为例进行说明。

步骤S104，将匹配音频特征对应的匹配音频数据，确定为与目标音频数据相匹配的音频数据。

为便于理解，请参见图5，图5是本申请实施例提供的一种进行音频数据比较的场景示意图。如图5所示是音频指纹匹配的系统流程，音频指纹匹配的整个过程是在音频指纹特征数据库（即样本音频特征集合）中查找有无目标音频特征，主要有两个步骤：音频指纹特征提取和近邻搜索。

如图5所示，在音频指纹特征提取过程中，服务器可以对目标音频数据和样本音频数据（即种子音频Seed）分别进行音频指纹特征提取，得到目标音频数据对应的目标音频特征和样本音频数据对应的样本音频特征，进而将样本音频特征存储至音频指纹特征数据库（即样本音频特征集合）。

如图5所示，音频指纹近邻搜索过程可以对目标音频特征进行近邻搜索，音频指纹近邻搜索过程可以分成两个步骤：候选结果生成和候选结果验证。候选结果生成过程可以采用不同的方法生成目标音频指纹的候选结果，即根据特征距离阈值，对目标音频特征的特征参数进行二元参数翻转，得到与目标音频特征相关联的初始候选音频特征（即候选结果）；候选结果验证过程可以把这些候选结果与音频指纹特征数据库进行比较和判断，筛选出在音频指纹特征数据库中的真正结果，即基于初始候选音频特征，在音频指纹特征数据库中确定与目标音频特征相关联的候选音频特征。

进一步地，如图5所示，服务器可以将候选音频特征作为近邻搜索的结果输出。其中，近邻搜索（Nearest Neighbor Search，简称NNS）表示搜索与给定对象邻近或相似的那些对象，即搜索与目标音频特征邻近或相似的初始候选音频特征。

进一步地，请参见图6，图6是本申请实施例提供的一种音频数据处理方法的流程示意图二。该音频数据处理方法可以包括以下步骤S1021-步骤S1024，且步骤S1021-步骤S1024为图3所对应实施例中S102的一个具体实施例。

步骤S1021，获取小于特征距离阈值的候选特征距离S_i；

其中，候选特征距离S_i为非负整数，特征距离阈值的取值为N，这里的N可以为正整数，这里的i可以为小于N的非负整数。

步骤S1022，获取与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征，基于与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征的数量，更新目标音频特征G_j对应的历史已累计候选数量，得到目标音频特征G_j对应的已累计候选数量；

具体的，服务器可以根据候选特征距离S_i，对目标音频特征G_j的特征参数进行二元参数翻转，得到与候选特征距离S_i相关联的初始候选音频特征。其中，与候选特征距离S_i相关联的初始候选音频特征和目标音频特征G_j之间的特征距离等于候选特征距离S_i。进一步地，服务器可以将初始候选音频特征（即与候选特征距离S_i相关联的初始候选音频特征）和样本音频特征集合中的样本音频特征进行匹配，根据存在相匹配的样本音频特征的初始候选音频特征，确定与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征。进一步地，服务器可以基于与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征的数量，更新目标音频特征G_j对应的历史已累计候选数量，得到目标音频特征G_j对应的已累计候选数量。

其中，服务器根据候选特征距离S_i，对目标音频特征G_j的特征参数进行二元参数翻转的具体过程，可以参见上述图3所对应实施例中对步骤S102的描述，这里将不再进行赘述。

应当理解，服务器根据存在相匹配的样本音频特征的初始候选音频特征，确定与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征的具体过程可以描述为：若目标音频特征G_j对应的已累计候选数量大于候选数量阈值，则从存在相匹配的样本音频特征的初始候选音频特征（即与候选特征距离S_i相关联的初始候选音频特征）中获取辅助音频特征，将辅助音频特征确定为与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征。其中，辅助音频特征的数量和目标音频特征G_j对应的历史已累计候选数量之和等于候选数量阈值。可选的，若目标音频特征G_j对应的已累计候选数量小于或等于候选数量阈值，则将存在相匹配的样本音频特征的初始候选音频特征（即与候选特征距离S_i相关联的初始候选音频特征），确定为与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征。

为便于理解，本申请实施例以存在相匹配的样本音频特征的初始候选音频特征为例进行说明，这里可以将存在相匹配的样本音频特征的初始候选音频特征称之为辅助候选音频特征（即与候选特征距离S_i相关联的辅助候选音频特征）。辅助音频特征可以为辅助候选音频特征中的任意一个或多个音频特征，辅助候选音频特征的数量可以为一个或多个。可选的，服务器可以将一个或多个辅助候选音频特征分别和样本音频特征集合中的样本音频特征进行相似度计算，得到一个或多个辅助候选音频特征分别对应的相似度结果，进而对一个或多个相似度结果进行排序，将一个或多个相似度结果中相似度结果较高的辅助候选音频特征确定为辅助音频特征。

可以理解的是，若候选特征距离S_i不为第一个候选特征距离（即i不等于0，候选特征距离S_i不为候选特征距离S₀），则目标音频特征G_j对应的历史已累计候选数量，可以为基于候选特征距离S_i-1遍历与目标音频特征G_j相关联的候选音频特征时，基于与目标音频特征G_j和候选特征距离S_i-1共同关联的候选音频特征的数量所生成的。可选的，若候选特征距离S_i为第一个候选特征距离（即i等于0，候选特征距离S_i为候选特征距离S₀），则目标音频特征G_j对应的历史已累计候选数量等于0。

步骤S1023，若目标音频特征G_j对应的已累计候选数量大于或等于候选数量阈值，则停止遍历与目标音频特征G_j相关联的候选音频特征；

此时，服务器可以将与目标音频特征G_j和（i+1）个候选特征距离共同关联的候选音频特征，确定为与目标音频特征G_j相关联的候选音频特征。换言之，服务器可以将与目标音频特征G_j和候选特征距离S₀共同关联的候选音频特征、…、与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征，确定为与目标音频特征G_j相关联的候选音频特征。

步骤S1024，若目标音频特征G_j对应的已累计候选数量小于候选数量阈值，则继续基于候选特征距离S_i+1遍历与目标音频特征G_j相关联的候选音频特征，基于与目标音频特征G_j和候选特征距离S_i+1共同关联的候选音频特征的数量，更新目标音频特征G_j对应的已累计候选数量。

其中，候选特征距离S_i+1大于候选特征距离S_i，且小于特征距离阈值；候选特征距离S_i+1为非负整数，这里的(i+1)可以为小于N的非负整数。其中，候选特征距离S_i+1和候选特征距离S_i的差值可以等于1。

可选的，若候选特征距离S_i+1等于特征距离阈值（即候选特征距离S_i为最后一个候选特征距离），则服务器无需基于候选特征距离S_i+1遍历与目标音频特征G_j相关联的候选音频特征，而是将与目标音频特征G_j和(i+1)个候选特征距离共同关联的候选音频特征，确定为与目标音频特征G_j相关联的候选音频特征，此时(i+1)等于N。

其中，服务器基于候选特征距离S_i+1遍历与目标音频特征G_j相关联的候选音频特征的具体过程，可以参见上述基于候选特征距离S_i遍历与目标音频特征G_j相关联的候选音频特征的描述，这里将不再进行赘述。

可以理解的是，服务器基于与目标音频特征G_j和候选特征距离S_i+1共同关联的候选音频特征的数量，更新目标音频特征G_j对应的已累计候选数量，可以得到目标音频特征G_j对应的更新已累计候选数量。其中，服务器可以将与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征的数量和目标音频特征G_j对应的历史已累计候选数量之和，确定为目标音频特征G_j对应的已累计候选数量；服务器可以将与目标音频特征G_j和候选特征距离S_i+1共同关联的候选音频特征的数量和目标音频特征G_j对应的已累计候选数量之和，确定为目标音频特征G_j对应的更新已累计候选数量。

为便于理解，请参见图7，图7是本申请实施例提供的一种生成候选音频特征的场景示意图二，如图7所示的候选特征距离S₀、…、候选特征距离S_x、…、候选特征距离S_N-1可以为小于特征距离阈值的N个候选特征距离，这里的x可以为大于0、且小于(N-1)的正整数，如图7所示的目标音频特征可以为F个目标音频特征中的任意一个目标音频特征。如图7所示的初始候选音频特征70a可以为上述图4所对应实施例中的初始候选音频特征40a，如图7所示的候选音频特征71a可以为上述图4所对应实施例中的候选音频特征41a。

如图7所示，服务器可以根据候选特征距离S₀，对目标音频特征的特征参数进行二元参数翻转，得到与候选特征距离S₀相关联的初始候选音频特征70a；服务器可以根据候选特征距离S_x，对目标音频特征的特征参数进行二元参数翻转，得到与候选特征距离S_x相关联的初始候选音频特征70b。进一步地，服务器可以将初始候选音频特征70a和样本音频特征集合中的样本音频特征进行匹配，得到存在相匹配的样本音频特征的候选音频特征71a；服务器可以将初始候选音频特征70b和样本音频特征集合中的样本音频特征进行匹配，得到存在相匹配的样本音频特征的候选音频特征71b。

此时，若候选音频特征71a、…、候选音频特征71b的数量大于或等于候选数量阈值，则服务器停止遍历与目标音频特征相关联的候选音频特征，即无需执行根据候选特征距离S_x+1，对目标音频特征的特征参数进行二元参数翻转的步骤。

如图7所示，若候选音频特征71a、…、候选音频特征71b的数量等于候选数量阈值，则服务器可以将候选音频特征71a、…、候选音频特征71b，确定为与目标音频特征相关联的候选音频特征（即候选音频特征71c）。可选的，若候选音频特征71a、…、候选音频特征71b的数量大于候选数量阈值，则服务器可以从候选音频特征71b中获取辅助音频特征，将候选音频特征71a、…、与目标音频特征和候选特征距离S_x-1共同关联的候选音频特征（未在图上示出）和辅助音频特征，确定为与目标音频特征相关联的候选音频特征（即候选音频特征71c）。应当理解，本申请实施例不对候选数量阈值的具体取值进行限定，候选数量阈值的取值为M，这里的M可以为正整数。

为便于理解，请参见图8，图8是本申请实施例提供的一种依次生成候选音频特征的场景示意图。如图8所示是基于递归生成Top M音频指纹候选结果的过程示意图，图中的所有箭头的起点表示目标音频指纹，除箭头的起点之外的其他黑点表示候选结果，即通过上述图3所对应实施例中的步骤S102所生成的候选音频特征，灰点表示非候选结果，候选结果和非候选结果都是数据库（即样本音频特征集合）中的指纹。除箭头的起点之外的其他箭头连接线上的黑点表示图6所对应实施例中的步骤S1021-步骤S1024所生成的候选音频特征，该候选音频特征的数量可以为M个。

如图8所示，首先可以通过递归算法流程去生成与目标音频指纹的汉明距离由小到大的所有候选结果（即初始候选音频特征）。然后针对每个新生成的候选结果，我们立马在音频指纹特征数据库中查找是否存在相匹配的样本音频特征，如果存在就将该存在匹配关系的初始候选音频特征当作最终的音频指纹候选结果（即候选音频特征）。这样的话，整体最终音频指纹候选结果的加入过程就如同图8中箭头的运动轨迹一样。最后，如果音频指纹候选结果的数据达到M，那么就可以提前终止近邻搜索过程，一个合适的M值可以加快近邻搜索的速度同时不损害近邻搜索的效果。

换言之，针对每个目标音频指纹，服务器首先设置了一个最大近邻数量M（即候选数量阈值）和最大汉明距离N（即特征距离阈值）；然后通过递归的方法先生成汉明距离为0的候选音频指纹（即初始候选音频特征），之后将汉明距离从0增大到N，依次生成更多的候选音频指纹（即依次生成相似度由高到低的候选音频指纹），这样所有的候选音频指纹在生成过程中就自动排序好了；每个新生成的候选音频指纹都会在数据库（即样本音频特征集合）中进行匹配，如果存在则添加到候选结果（即候选音频特征）中，最后如果生成的候选音频指纹与目标音频指纹的汉明距离达到N，或者生成的候选结果的数量达到M，则终止。其中，由于候选音频特征已排序，那么前面的候选音频特征的相似度肯定比后面的候选音频特征高，最大近邻数量M相当于对生成的候选结果取前M个候选音频特征。

由此可见，本申请实施例可以获取小于特征距离阈值的一个或多个候选特征距离，根据一个或多个候选特征距离对目标音频特征进行二元参数翻转，生成与目标音频特征相关联的候选音频特征，其中，在生成的初始候选音频指纹和目标音频特征的特征距离达到特征距离阈值时，或者在生成的候选音频特征的数量达到候选数量阈值时，停止对目标音频特征进行二元参数翻转，因此，通过候选数量阈值和特征距离阈值的设置，可以灵活调节近邻搜索的速度和性能，且最大近邻数量M和最大汉明距离N的值越小，速度提升越明显。

进一步地，请参见图9，图9是本申请实施例提供的一种音频数据处理方法的流程示意图三。该音频数据处理方法可以包括以下步骤S1031-步骤S1032，且步骤S1031-步骤S1032为图3所对应实施例中步骤S103的一个具体实施例。

步骤S1031，获取A个候选音频特征的候选音频数据集合，根据A个候选音频特征对候选音频数据集合中的每个候选音频数据进行音频特征匹配数量统计，得到包含每个候选音频数据的统计数量的匹配统计结果，根据匹配统计结果确定样本音频特征集合中统计数量最多的候选音频数据；

具体的，服务器可以获取A个候选音频特征分别对应的候选音频数据，将A个候选音频特征分别对应的候选音频数据构成候选音频数据集合。进一步地，服务器可以通过A个候选音频特征，统计候选音频数据集合中分别与每个候选音频数据相匹配的候选音频特征的数量，得到匹配统计结果。其中，匹配统计结果中所包含的每个候选音频数据的统计数量之和等于A。进一步地，服务器可以从匹配统计结果中获取数值最大的统计数量，将数值最大的统计数量对应的候选音频数据，确定为候选音频数据集合中统计数量最多的候选音频数据。其中，A个候选音频特征可以为上述图4所对应实施例中的候选音频特征41c，也可以为上述图7所对应实施例中的候选音频特征71c。

其中，可以理解的是，一个候选音频特征可以对应样本音频特征集合中的一个样本音频特征，一个样本音频特征可以对应一个样本音频数据，一个样本音频数据可以为包括一个或多个样本音频数据。其中，样本音频数据可以包括候选音频数据，候选音频数据为样本音频数据中存在相匹配的候选音频特征的音频数据。因此，一个或多个候选音频特征可以对应一个候选音频数据，候选音频数据的统计数量可以表示相匹配的候选音频特征的数量。比如，候选音频数据对应的样本音频数据的数量可以为5个，5个样本音频数据可以为样本音频数据1、样本音频数据2、样本音频数据3、样本音频数据4和样本音频数据5，假设A个候选音频特征中存在与样本音频数据3和样本音频数据4相匹配的候选音频特征，即与该候选音频数据相匹配的候选音频特征的数量为2个，此时，候选音频数据的统计数量可以为2个。

步骤S1032，根据统计数量最多的候选音频数据，在样本音频特征集合中确定与F个目标音频特征相匹配的匹配音频特征。

具体的，服务器可以在样本音频特征集合中获取与统计数量最多的候选音频数据相关联的B个样本音频特征。其中，这里的B可以为正整数。进一步地，服务器可以将与每个目标音频特征相关联的候选音频特征和B个样本音频特征进行匹配，在F个目标音频特征中确定匹配成功的目标音频特征的数量。进一步地，若匹配成功的目标音频特征的数量大于匹配数量阈值，则服务器可以获取具有连续匹配关系的目标音频特征的数量。进一步地，服务器可以将具有连续匹配关系的目标音频特征的数量和F的比值，确定为匹配参数。进一步地，若匹配参数大于匹配特征阈值，则服务器可以将B个样本音频特征，确定为与F个目标音频特征相匹配的匹配音频特征。应当理解，本申请实施例不对匹配数量阈值和匹配特征阈值的具体取值进行限定。

其中，与目标音频特征G_j相关联的候选音频特征的数量为C个，这里的C可以为正整数；C个候选音频特征可以包括候选音频特征L_d，这里的d可以为小于或等于C的正整数。应当理解，服务器将与每个目标音频特征相关联的候选音频特征和B个样本音频特征进行匹配的具体过程可以描述为：服务器可以将候选音频特征L_d分别和B个样本音频特征进行匹配。进一步地，若B个样本音频特征包括候选音频特征L_d，则服务器可以确定目标音频特征G_j匹配成功。可选的，若B个样本音频特征不包括候选音频特征L_d，则服务器可以将C个候选音频特征中除候选音频特征L_d之外的候选音频特征分别和B个样本音频特征进行匹配。其中，服务器将C个候选音频特征中除候选音频特征L_d之外的候选音频特征分别和B个样本音频特征进行匹配的具体过程，可以参见将候选音频特征L_d分别和B个样本音频特征进行匹配的描述，这里将不再进行赘述。可选的，若B个样本音频特征不包括与目标音频特征G_j相关联的C个候选音频特征，则服务器可以确定目标音频特征G_j匹配失败。其中，服务器在将C个候选音频特征中的每个候选音频特征均分别和B个样本音频特征进行匹配之后，若B个样本音频特征均不包括C个候选音频特征中的每个候选音频特征，则确定B个样本音频特征不包括与目标音频特征G_j相关联的C个候选音频特征。

为便于理解，请参见图10a，图10a是本申请实施例提供的一种确定匹配音频特征的场景示意图一。如图10a所示的目标音频特征101a可以为目标音频数据对应的F的目标音频特征，如图10a所示的样本音频特征101b可以为与统计数量最多的候选音频数据相关联的B个样本音频特征，本申请实施例不对F和B的具体取值进行限定，为便于理解，这里以F等于4、B等于3为例进行说明。

其中，4个目标音频特征具体可以包括目标音频特征G₁、目标音频特征G₂、目标音频特征G₃和目标音频特征G₄，3个样本音频特征可以为样本音频特征O₁、样本音频特征O₂和样本音频特征O₃。目标音频特征G₁、目标音频特征G₂、目标音频特征G₃和目标音频特征G₄按照目标音频数据中的音频帧的顺序排列，样本音频特征O₁、样本音频特征O₂和样本音频特征O₃按照统计数量最多的候选音频数据中的样本音频帧的顺序排列。其中，目标音频特征G₁可以为目标音频数据中的第1帧对应的目标音频特征、…、目标音频特征G₄可以为目标音频数据中的第4帧对应的目标音频特征，目标音频特征G₁、目标音频特征G₂、目标音频特征G₃和目标音频特征G₄可以构成目标音频特征序列；样本音频特征O₁可以为统计数量最多的候选音频数据中的第1帧对应的样本音频特征、…、样本音频特征O₃可以为统计数量最多的候选音频数据中的第3帧对应的样本音频特征，样本音频特征O₁、样本音频特征O₂和样本音频特征O₃可以构成样本音频特征序列。

如图10a所示，与目标音频特征G₁相关联的候选音频特征可以为候选音频特征100a，与目标音频特征G₂相关联的候选音频特征可以为候选音频特征100b，与目标音频特征G₃相关联的候选音频特征可以为候选音频特征100c，这里假设不存在与目标音频特征G₄相关联的候选音频特征。应当理解，本申请实施例不对候选音频特征100a、候选音频特征100b和候选音频特征100c中的候选音频特征的数量进行限定。

如图10a所示，服务器可以将候选音频特征100a和B个样本音频特征进行匹配，若候选音频特征100a中存在与B个样本音频特征相匹配的候选音频特征，则确定目标音频特征G₁匹配成功；可选的，若候选音频特征100a中不存在与B个样本音频特征相匹配的候选音频特征，则确定目标音频特征G₁匹配失败。同理，服务器可以将候选音频特征100b和B个样本音频特征进行匹配，将候选音频特征100c和B个样本音频特征进行匹配。

如图10a所示，这里假设候选音频特征100a中存在与样本音频特征O₂相匹配的候选音频特征，候选音频特征100c中存在与样本音频特征O₃相匹配的候选音频特征，因此，目标音频特征G₁和目标音频特征G₃匹配成功，目标音频特征G₂匹配失败，由于不存在与目标音频特征G₄相关联的候选音频特征，所以目标音频特征G₄匹配失败。此时，匹配成功的目标音频特征的数量为2个，匹配失败的目标音频特征的数量为2个，具有连续匹配关系的目标音频特征的数量为1个，匹配参数等于1/4。

可选的，服务器可以在样本音频特征集合中获取与统计数量最多的候选音频数据相关联的B个样本音频特征。进一步地，服务器可以将F个目标音频特征和B个样本音频特征进行匹配，在F个目标音频特征中确定匹配成功的目标音频特征的数量。进一步地，若匹配成功的目标音频特征的数量大于匹配数量阈值，则服务器可以获取具有连续匹配关系的目标音频特征的数量。进一步地，服务器可以将具有连续匹配关系的目标音频特征的数量和F的比值，确定为匹配参数。进一步地，若匹配参数大于匹配特征阈值，则服务器可以将B个样本音频特征，确定为与F个目标音频特征相匹配的匹配音频特征。

其中，F个目标音频特征可以包括目标音频特征G_j，这里的j可以为小于或等于F的正整数。可选的，服务器将F个目标音频特征和B个样本音频特征进行匹配的具体过程可以描述为：服务器可以将目标音频特征G_j分别和B个样本音频特征进行匹配。进一步地，若B个样本音频特征包括目标音频特征G_j，则服务器可以确定目标音频特征G_j匹配成功。可选的，若B个样本音频特征不包括目标音频特征G_j，则服务器可以确定目标音频特征G_j匹配失败。

为便于理解，请参见图10b，图10b是本申请实施例提供的一种确定匹配音频特征的场景示意图二。如图10b所示的目标音频特征101a可以为上述图10a所对应实施例中的目标音频特征101a，如图10b所示的样本音频特征102b可以为上述图10a所对应实施例中的样本音频特征101b。

如图10b所示，服务器可以将目标音频特征G₁分别和B个样本音频特征进行匹配，若样本音频特征102b中存在与目标音频特征G₁相匹配的样本音频特征，则确定目标音频特征G₁匹配成功；可选的，若样本音频特征102b中不存在与目标音频特征G₁相匹配的样本音频特征，则确定目标音频特征G₁匹配失败。同理，服务器可以将目标音频特征G₂分别和B个样本音频特征进行匹配，将目标音频特征G₃分别和B个样本音频特征进行匹配，将目标音频特征G₄分别和B个样本音频特征进行匹配。

如图10b所示，这里假设样本音频特征102b中存在与目标音频特征G₂相匹配的样本音频特征（即样本音频特征O₂），样本音频特征102b中存在与目标音频特征G₃相匹配的样本音频特征（即样本音频特征O₃），因此，目标音频特征G₂和目标音频特征G₃匹配成功，目标音频特征G₁和目标音频特征G₄匹配失败。此时，匹配成功的目标音频特征的数量为2个，匹配失败的目标音频特征的数量为2个，具有连续匹配关系的目标音频特征的数量为2个，匹配参数等于2/4。

可选的，若匹配成功的目标音频特征的数量小于或等于匹配数量阈值，则服务器可以确定不存在与F个目标音频特征相匹配的匹配音频特征，进而确定不存在与目标音频数据相匹配的匹配音频数据。可选的，服务器还可以在匹配成功的目标音频特征的数量小于或等于匹配数量阈值时，获取具有连续匹配关系的目标音频特征的数量，进而基于具有连续匹配关系的目标音频特征的数量执行上述后续步骤。可选的，若匹配成功的目标音频特征的数量大于匹配数量阈值，则服务器可以将B个样本音频特征，确定为与F个目标音频特征相匹配的匹配音频特征。

可选的，若匹配参数小于或等于匹配特征阈值，则服务器可以确定不存在与F个目标音频特征相匹配的匹配音频特征，进而确定不存在与目标音频数据相匹配的匹配音频数据。

应当理解，连续匹配关系表示匹配成功的目标音频特征相邻、匹配到的样本音频特征相邻、且匹配成功的目标音频特征和匹配到的样本音频特征的顺序相同。

请再参见图10a，匹配成功的目标音频特征G₁和匹配成功的目标音频特征G₃不相邻、匹配到的样本音频特征O₂和匹配到的样本音频特征O₃相邻、且匹配成功的目标音频特征和匹配到的样本音频特征的顺序相同（即目标音频特征G₁位于目标音频特征G₃之前，样本音频特征O₂位于样本音频特征O₃之前），因此，目标音频特征G₁和目标音频特征G₃不具有连续匹配关系。

请再参见图10b，匹配成功的目标音频特征G₂和匹配成功的目标音频特征G₃相邻、匹配到的样本音频特征O₂和匹配到的样本音频特征O₃相邻、且匹配成功的目标音频特征和匹配到的样本音频特征的顺序相同（即目标音频特征G₂位于目标音频特征G₃之前，样本音频特征O₂位于样本音频特征O₃之前），因此，目标音频特征G₂和目标音频特征G₃具有连续匹配关系。

可选的，请再参见图10b，若与目标音频特征G₃相匹配的样本音频特征为样本音频特征O1，则匹配成功的目标音频特征G₂和匹配成功的目标音频特征G₃相邻、匹配到的样本音频特征O₁和匹配到的样本音频特征O₂相邻、且匹配成功的目标音频特征和匹配到的样本音频特征的顺序不同（即目标音频特征G₂位于目标音频特征G₃之前，样本音频特征O₁位于样本音频特征O₂之前），因此，目标音频特征G₂和目标音频特征G₃不具有连续匹配关系。

由此可见，本申请实施例可以获取候选音频特征对应的候选音频数据集合，根据候选音频特征的数量对候选音频数据集合中的每个候选音频数据进行音频特征匹配数量统计，得到包含每个候选音频数据的统计数量的匹配统计结果，进而根据匹配统计结果确定样本音频特征集合中统计数量最多的候选音频数据。可以理解的是，本申请实施例可以通过确定与统计数量最多的候选音频数据相关联的样本音频特征是否为与目标音频特征相匹配的匹配音频特征，进而确定该统计数量最多的候选音频数据是否为与目标音频数据相匹配的匹配音频数据，从而提高音频数据的匹配效率。

本申请从FMA（Free Music Archive）开源音乐数据集中随机选取了一万条歌曲作为训练集（即样本音频数据），从中抽取了两千条的歌曲随机加入各种扰动（例如，加噪、加混响等），并把处理后的歌曲作为测试集（即目标音频数据），处理前的歌曲作为与目标音频数据相匹配的匹配音频数据。

为便于理解，请参见表1，表1是本申请实施例提供的一种不同方法的实时率对比列表，该不同方法的实时率对比列表中可以存储有不同方法（包括本申请实施例所提供的两种方法）在不同特征距离阈值（即N）下的实时率（Real Time Factor，简称RTF）。实时率表示处理时间和音频长度的比值，实时率越小说明匹配速度越快。如表1所示：

表1

其中，线性查找和局部敏感哈希（Local Sensitive Hash，简称LSH）为两种现有技术所提供的方法，递归生成所有音频指纹候选结果为图3所对应实施例中步骤S102所提供的方法，递归生成Top M音频指纹候选结果为图6所对应实施例中步骤S1021-步骤S1024所提供的方法。如表1所示，递归生成音频指纹候选结果的方法（即递归生成所有音频指纹候选结果和递归生成Top M音频指纹候选结果）比之前的局部敏感哈希方法和线性查找方法的实时率结果小，说明基于递归的近邻搜索方法（即递归生成所有音频指纹候选结果和递归生成Top M音频指纹候选结果）确实要比之前的近邻搜索方法（即局部敏感哈希和线性查找）速度明显更快。

如表1所示的N还可以称之为最小汉明距离N，随着最小汉明距离N的增大，实时率不断增大，说明最小汉明距离N越小，加速效果越明显。此外，在最小汉明距离N较小时，递归生成Top M音频指纹候选结果和递归生成所有音频指纹候选结果在近邻搜索过程的速度基本无变化（例如，在最小汉明距离N等于2时，递归生成Top M音频指纹候选结果的实时率为0.0169，递归生成所有音频指纹候选结果的实时率为0.0170）；在最小汉明距离N较大时，递归生成Top M音频指纹候选结果相比于递归生成所有音频指纹候选结果的加速效果显现提升（例如，在最小汉明距离5等于2时，递归生成Top M音频指纹候选结果的实时率为0.0305，递归生成所有音频指纹候选结果的实时率为0.0685）。其中，在递归生成Top M音频指纹候选结果中，不同最小汉明距离N对应的候选数量阈值（即M）的取值是相同的，M还可以称之为最大近邻数量M。

为便于理解，请参见表2，表2是本申请实施例提供的一种递归生成Top M音频指纹候选结果在不同最小汉明距离N下的对比列表，该不同最小汉明距离N下的对比列表中可以存储有递归生成Top M音频指纹候选结果的方法在不同特征距离阈值下的准确率（Accuracy）、覆盖率（Recall）、平均值（F1）和实时率。准确率表示正确匹配和所有匹配的比值，所有匹配包括错误匹配和正确匹配，正确匹配表示成功匹配到目标音频数据的匹配音频数据，错误匹配表示未成功匹配到目标音频数据的匹配音频数据；覆盖率又可以称之为召回率，覆盖率表示正确匹配和样本数量（即目标音频数据的数量）的比值；平均值是中和了精确率和召回率的指标，F1值=准确率*覆盖率*2/(准确率+覆盖率)。如表2所示：

表2

如表2所示，当最小汉明距离N非常小时，递归生成Top M音频指纹候选结果的准确率最高和速度最快（即实时率最小），但是覆盖率和平均值最差。随着最小汉明距离N的不断增大，递归生成Top M音频指纹候选结果的准确率稍有下降，搜索速度也会下降（即实时率稍有增大），但是覆盖率和平均值会明显提升。其中，在递归生成Top M音频指纹候选结果中，不同最小汉明距离N对应的候选数量阈值的取值是相同的。其中，最小汉明距离N可以用于控制生成的候选音频特征的数量。

为便于理解，请参见表3，表3是本申请实施例提供的一种递归生成Top M候选指纹在不同音频指纹的最大近邻数量M下的对比列表，该不同音频指纹的最大近邻数量M下的对比列表中可以存储有递归生成Top M音频指纹候选结果的方法在不同候选数量阈值下的准确率、覆盖率、平均值和实时率。如表3所示：

表3

如表3所示，随着最大近邻数量M不断增大，准确率稍有下降，搜索速度也会下降（即实时率稍有增大），但是覆盖率和平均值会明显提升。换言之，最大近邻数量M对近邻搜索的效果影响不大，但是对指纹匹配的速度能提升不少。其中，在递归生成Top M音频指纹候选结果中，不同最大近邻数量M对应的特征距离阈值的取值是相同的。其中，最大近邻数量M可以用于控制生成的候选音频特征的数量。

因此，综上表1、表2和表3所述，本申请实施例可以根据业务需求，调整最小汉明距离N和最大近邻数量M来平衡音频指纹近邻搜索的效果和速度（即平衡准确率、覆盖率、平均值和实时率，准确率、覆盖率和平均值可以用于衡量效果，实时率可以用于衡量速度）。比如，有些业务对方法的速度要求比较高，那么就可以适当地减小最大近邻数量M或者最大汉明距离N，加速推理；又比如，有些业务对方法的效果要求比较高，那么就可以适当地增大最大近邻数量M或者最大汉明距离N，保证效果。

进一步地，请参见图11，图11是本申请实施例提供的一种音频数据处理装置的结构示意图，该音频数据处理装置1可以包括：特征获取模块11，参数翻转模块12，特征匹配模块13，数据确定模块14；进一步地，该音频数据处理装置1还可以包括：特征存储模块15；

特征获取模块11，用于获取目标音频数据对应的嵌入音频特征，将嵌入音频特征转换为具有二元参数格式的目标音频特征；

其中，特征获取模块11包括：分帧处理单元111，特征提取单元112，特征转换单元113；

分帧处理单元111，用于对目标音频数据进行分帧处理，得到目标音频数据中的F个音频帧；F为正整数；

特征提取单元112，用于对F个音频帧分别进行特征提取，得到每个音频帧分别对应的嵌入音频特征；

特征转换单元113，用于将F个嵌入音频特征分别转换为具有二元参数格式的目标音频特征。

特征转换单元113，具体用于将嵌入音频特征H_k中满足二元参数条件的特征参数转换为第一特征参数；

特征转换单元113，具体用于将嵌入音频特征H_k中不满足二元参数条件的特征参数转换为第二特征参数；

特征转换单元113，具体用于将特征参数转换后的嵌入音频特征H_k，确定为具有二元参数格式的目标音频特征。

其中，分帧处理单元111，特征提取单元112和特征转换单元113的具体实现方式，可以参见上述图3所对应实施例中对步骤S101的描述，这里将不再进行赘述。

参数翻转模块12，用于根据特征距离阈值，对目标音频特征的特征参数进行二元参数翻转，得到与目标音频特征相关联的候选音频特征；候选音频特征和目标音频特征之间的特征距离小于特征距离阈值；

参数翻转模块12包括：参数翻转单元121，第一处理单元122，第二处理单元123；

参数翻转单元121，用于获取小于特征距离阈值的候选特征距离S_i；候选特征距离S_i为非负整数；

参数翻转单元121，用于获取与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征，基于与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征的数量，更新目标音频特征G_j对应的历史已累计候选数量，得到目标音频特征G_j对应的已累计候选数量；

其中，参数翻转单元121包括：参数翻转子单元1211，特征匹配子单元1212；

参数翻转子单元1211，用于根据候选特征距离S_i，对目标音频特征G_j的特征参数进行二元参数翻转，得到与候选特征距离S_i相关联的初始候选音频特征；与候选特征距离S_i相关联的初始候选音频特征和目标音频特征G_j之间的特征距离等于候选特征距离S_i；

其中，参数翻转子单元1211，具体用于从目标音频特征G_j中获取候选特征位置；候选特征位置的数量等于候选特征距离S_i；

参数翻转子单元1211，具体用于将目标音频特征G_j中候选特征位置上的第一特征参数翻转为第二特征参数；

参数翻转子单元1211，具体用于将目标音频特征G_j中候选特征位置上的第二特征参数翻转为第一特征参数；

参数翻转子单元1211，具体用于将二元参数翻转后的目标音频特征G_j，确定为与候选特征距离S_i相关联的初始候选音频特征。

特征匹配子单元1212，用于将初始候选音频特征和样本音频特征集合中的样本音频特征进行匹配，根据存在相匹配的样本音频特征的初始候选音频特征，确定与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征。

其中，特征匹配子单元1212，具体用于若目标音频特征G_j对应的已累计候选数量大于候选数量阈值，则从存在相匹配的样本音频特征的初始候选音频特征中获取辅助音频特征，将辅助音频特征确定为与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征；辅助音频特征的数量和目标音频特征G_j对应的历史已累计候选数量之和等于候选数量阈值；

特征匹配子单元1212，具体用于若目标音频特征G_j对应的已累计候选数量小于或等于候选数量阈值，则将存在相匹配的样本音频特征的初始候选音频特征，确定为与目标音频特征G_j和候选特征距离S_i共同关联的候选音频特征。

其中，参数翻转子单元1211和特征匹配子单元1212的具体实现方式，可以参见上述图3所对应实施例中对步骤S102和图6所对应实施例中对步骤S1022的描述，这里将不再进行赘述。

第一处理单元122，用于若目标音频特征G_j对应的已累计候选数量大于或等于候选数量阈值，则停止遍历与目标音频特征G_j相关联的候选音频特征；

第二处理单元123，用于若目标音频特征G_j对应的已累计候选数量小于候选数量阈值，则继续基于候选特征距离S_i+1遍历与目标音频特征G_j相关联的候选音频特征，基于与目标音频特征G_j和候选特征距离S_i+1共同关联的候选音频特征的数量，更新目标音频特征G_j对应的已累计候选数量；候选特征距离S_i+1大于候选特征距离S_i，且小于特征距离阈值。

其中，参数翻转单元121，第一处理单元122和第二处理单元123的具体实现方式，可以参见上述图3所对应实施例中对步骤S102和图6所对应实施例中对步骤S1021-步骤S1024的描述，这里将不再进行赘述。

特征匹配模块13，用于根据候选音频特征在样本音频特征集合中的匹配统计结果，在样本音频特征集合中确定与目标音频特征相匹配的匹配音频特征；

特征匹配模块13包括：数量统计单元131，特征确定单元132；

数量统计单元131，用于获取A个候选音频特征的候选音频数据集合，根据A个候选音频特征对候选音频数据集合中的每个候选音频数据进行音频特征匹配数量统计，得到包含每个候选音频数据的统计数量的匹配统计结果，根据匹配统计结果确定样本音频特征集合中统计数量最多的候选音频数据；

其中，数量统计单元131，具体用于获取A个候选音频特征分别对应的候选音频数据，将A个候选音频特征分别对应的候选音频数据构成候选音频数据集合；

数量统计单元131，具体用于通过A个候选音频特征，统计候选音频数据集合中分别与每个候选音频数据相匹配的候选音频特征的数量，得到匹配统计结果；匹配统计结果中所包含的每个候选音频数据的统计数量之和等于A；

数量统计单元131，具体用于从匹配统计结果中获取数值最大的统计数量，将数值最大的统计数量对应的候选音频数据，确定为候选音频数据集合中统计数量最多的候选音频数据。

特征确定单元132，用于根据统计数量最多的候选音频数据，在样本音频特征集合中确定与F个目标音频特征相匹配的匹配音频特征。

其中，特征确定单元132，具体用于在样本音频特征集合中获取与统计数量最多的候选音频数据相关联的B个样本音频特征；B为正整数；

特征确定单元132，具体用于将与每个目标音频特征相关联的候选音频特征和B个样本音频特征进行匹配，在F个目标音频特征中确定匹配成功的目标音频特征的数量；

特征确定单元132，具体用于若匹配成功的目标音频特征的数量大于匹配数量阈值，则获取具有连续匹配关系的目标音频特征的数量；

特征确定单元132，具体用于将具有连续匹配关系的目标音频特征的数量和F的比值，确定为匹配参数；

特征确定单元132，具体用于若匹配参数大于匹配特征阈值，则将B个样本音频特征，确定为与F个目标音频特征相匹配的匹配音频特征。

特征确定单元132，具体用于将候选音频特征L_d分别和B个样本音频特征进行匹配；

特征确定单元132，具体用于若B个样本音频特征包括候选音频特征L_d，则确定目标音频特征G_j匹配成功；

特征确定单元132，具体用于若B个样本音频特征不包括与目标音频特征G_j相关联的C个候选音频特征，则确定目标音频特征G_j匹配失败。

其中，数量统计单元131和特征确定单元132的具体实现方式，可以参见上述图9所对应实施例中对步骤S1031-步骤S1032的描述，这里将不再进行赘述。

数据确定模块14，用于将匹配音频特征对应的匹配音频数据，确定为与目标音频数据相匹配的音频数据。

可选的，特征存储模块15，用于获取样本音频数据对应的样本嵌入音频特征，将样本嵌入音频特征转换为具有二元参数格式的样本音频特征；

特征存储模块15，用于将样本音频特征存储至样本音频特征集合。

其中，特征获取模块11，参数翻转模块12，特征匹配模块13，数据确定模块14和特征存储模块15的具体实现方式，可以参见上述图3所对应实施例中对步骤S101-步骤S104、图6所对应实施例中对步骤S1021-步骤S1024和图9所对应实施例中对步骤S1031和步骤S1032的描述，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图12，图12是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备可以是终端设备或服务器。如图12所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，在一些实施例中，用户接口1003可以包括显示屏（Display）、键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。可选的，网络接口1004可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。可选的，存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图12所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3、图6或图9所对应实施例中对音频数据处理方法的描述，也可执行前文图11所对应实施例中对音频数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的音频数据处理装置1所执行的计算机程序，当处理器执行计算机程序时，能够执行前文图3、图6或图9所对应实施例中对音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品，该计算机程序产品可以包括计算机程序，该计算机程序可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器可以执行该计算机程序，使得该计算机设备执行前文图3、图6或图9所对应实施例中对音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

获取目标音频数据对应的嵌入音频特征，将所述嵌入音频特征转换为具有二元参数格式的目标音频特征；所述目标音频特征的数量为F个；所述F为正整数；F个目标音频特征包括目标音频特征G_j，所述j为小于或等于所述F的正整数；

获取小于特征距离阈值的候选特征距离S_i；所述候选特征距离S_i为非负整数；

获取与所述目标音频特征G_j和所述候选特征距离S_i共同关联的候选音频特征，基于与所述目标音频特征G_j和所述候选特征距离S_i共同关联的候选音频特征的数量，更新所述目标音频特征G_j对应的历史已累计候选数量，得到所述目标音频特征G_j对应的已累计候选数量；

若所述目标音频特征G_j对应的已累计候选数量大于或等于候选数量阈值，则停止遍历与所述目标音频特征G_j相关联的候选音频特征；与所述目标音频特征G_j相关联的候选音频特征和所述目标音频特征G_j之间的特征距离小于所述特征距离阈值；

根据与所述F个目标音频特征相关联的候选音频特征在样本音频特征集合中的匹配统计结果，在所述样本音频特征集合中确定与所述F个目标音频特征相匹配的匹配音频特征；

将所述匹配音频特征对应的匹配音频数据，确定为与所述F个目标音频数据相匹配的音频数据。

2.根据权利要求1所述的方法，其特征在于，所述获取目标音频数据对应的嵌入音频特征，将所述嵌入音频特征转换为具有二元参数格式的目标音频特征，包括：

对目标音频数据进行分帧处理，得到所述目标音频数据中的F个音频帧；

对所述F个音频帧分别进行特征提取，得到每个音频帧分别对应的嵌入音频特征；

将F个嵌入音频特征分别转换为具有二元参数格式的目标音频特征。

3.根据权利要求2所述的方法，其特征在于，所述F个嵌入音频特征包括嵌入音频特征H_k，所述k为小于或等于所述F的正整数；

所述将F个嵌入音频特征分别转换为具有二元参数格式的目标音频特征，包括：

将所述嵌入音频特征H_k中满足二元参数条件的特征参数转换为第一特征参数；

将所述嵌入音频特征H_k中不满足所述二元参数条件的特征参数转换为第二特征参数；

将特征参数转换后的嵌入音频特征H_k，确定为具有二元参数格式的目标音频特征。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

若所述目标音频特征G_j对应的已累计候选数量小于所述候选数量阈值，则继续基于候选特征距离S_i+1遍历与所述目标音频特征G_j相关联的候选音频特征，基于与所述目标音频特征G_j和所述候选特征距离S_i+1共同关联的候选音频特征的数量，更新所述目标音频特征G_j对应的已累计候选数量；所述候选特征距离S_i+1大于所述候选特征距离S_i，且小于所述特征距离阈值。

5.根据权利要求1所述的方法，其特征在于，所述获取与所述目标音频特征G_j和所述候选特征距离S_i共同关联的候选音频特征，包括：

根据所述候选特征距离S_i，对所述目标音频特征G_j的特征参数进行二元参数翻转，得到与所述候选特征距离S_i相关联的初始候选音频特征；与所述候选特征距离S_i相关联的初始候选音频特征和所述目标音频特征G_j之间的特征距离等于所述候选特征距离S_i；

将所述初始候选音频特征和所述样本音频特征集合中的样本音频特征进行匹配，根据存在相匹配的样本音频特征的所述初始候选音频特征，确定与所述目标音频特征G_j和所述候选特征距离S_i共同关联的候选音频特征。

6.根据权利要求5所述的方法，其特征在于，所述根据所述候选特征距离S_i，对所述目标音频特征G_j的特征参数进行二元参数翻转，得到与所述候选特征距离S_i相关联的初始候选音频特征，包括：

从所述目标音频特征G_j中获取候选特征位置；所述候选特征位置的数量等于所述候选特征距离S_i；

将所述目标音频特征G_j中所述候选特征位置上的第一特征参数翻转为第二特征参数；

将所述目标音频特征G_j中所述候选特征位置上的第二特征参数翻转为第一特征参数；

将二元参数翻转后的目标音频特征G_j，确定为与所述候选特征距离S_i相关联的初始候选音频特征。

7.根据权利要求5所述的方法，其特征在于，所述根据存在相匹配的样本音频特征的所述初始候选音频特征，确定与所述目标音频特征G_j和所述候选特征距离S_i共同关联的候选音频特征，包括：

若所述目标音频特征G_j对应的已累计候选数量大于所述候选数量阈值，则从存在相匹配的样本音频特征的所述初始候选音频特征中获取辅助音频特征，将所述辅助音频特征确定为与所述目标音频特征G_j和所述候选特征距离S_i共同关联的候选音频特征；所述辅助音频特征的数量和所述目标音频特征G_j对应的历史已累计候选数量之和等于所述候选数量阈值；

若所述目标音频特征G_j对应的已累计候选数量小于或等于所述候选数量阈值，则将存在相匹配的样本音频特征的所述初始候选音频特征，确定为与所述目标音频特征G_j和所述候选特征距离S_i共同关联的候选音频特征。

8.根据权利要求1所述的方法，其特征在于，与所述F个目标音频特征相关联的候选音频特征的数量为A个，所述A为正整数；

所述根据与所述F个目标音频特征相关联的候选音频特征在样本音频特征集合中的匹配统计结果，在所述样本音频特征集合中确定与所述目标音频特征相匹配的匹配音频特征，包括：

获取A个候选音频特征的候选音频数据集合，根据A个候选音频特征对所述候选音频数据集合中的每个候选音频数据进行音频特征匹配数量统计，得到包含所述每个候选音频数据的统计数量的匹配统计结果，根据所述匹配统计结果确定所述样本音频特征集合中统计数量最多的候选音频数据；

根据所述统计数量最多的候选音频数据，在所述样本音频特征集合中确定与所述F个目标音频特征相匹配的匹配音频特征。

9.根据权利要求8所述的方法，其特征在于，所述获取A个候选音频特征的候选音频数据集合，根据A个候选音频特征对所述候选音频数据集合中的每个候选音频数据进行音频特征匹配数量统计，得到包含所述每个候选音频数据的统计数量的匹配统计结果，根据所述匹配统计结果确定所述样本音频特征集合中统计数量最多的候选音频数据，包括：

获取A个候选音频特征分别对应的候选音频数据，将A个候选音频特征分别对应的候选音频数据构成候选音频数据集合；

通过A个候选音频特征，统计所述候选音频数据集合中分别与每个候选音频数据相匹配的候选音频特征的数量，得到匹配统计结果；所述匹配统计结果中所包含的所述每个候选音频数据的统计数量之和等于所述A；

从所述匹配统计结果中获取数值最大的统计数量，将数值最大的统计数量对应的候选音频数据，确定为所述候选音频数据集合中统计数量最多的候选音频数据。

10.根据权利要求8所述的方法，其特征在于，所述根据所述统计数量最多的候选音频数据，在所述样本音频特征集合中确定与所述F个目标音频特征相匹配的匹配音频特征，包括：

在所述样本音频特征集合中获取与所述统计数量最多的候选音频数据相关联的B个样本音频特征；所述B为正整数；

将与所述每个目标音频特征相关联的候选音频特征和所述B个样本音频特征进行匹配，在所述F个目标音频特征中确定匹配成功的目标音频特征的数量；

若所述匹配成功的目标音频特征的数量大于匹配数量阈值，则获取具有连续匹配关系的目标音频特征的数量；

将所述具有连续匹配关系的目标音频特征的数量和所述F的比值，确定为匹配参数；

若所述匹配参数大于匹配特征阈值，则将所述B个样本音频特征，确定为与所述F个目标音频特征相匹配的匹配音频特征。

11.根据权利要求10所述的方法，其特征在于，与所述目标音频特征G_j相关联的候选音频特征的数量为C个，所述C为正整数；C个候选音频特征包括候选音频特征L_d，所述d为小于或等于所述C的正整数；

所述将与所述每个目标音频特征相关联的候选音频特征和所述B个样本音频特征进行匹配，包括：

将所述候选音频特征L_d分别和所述B个样本音频特征进行匹配；

若所述B个样本音频特征包括所述候选音频特征L_d，则确定所述目标音频特征G_j匹配成功；

若所述B个样本音频特征不包括与所述目标音频特征G_j相关联的所述C个候选音频特征，则确定所述目标音频特征G_j匹配失败。

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取样本音频数据对应的样本嵌入音频特征，将所述样本嵌入音频特征转换为具有二元参数格式的样本音频特征；

将所述样本音频特征存储至所述样本音频特征集合。

13.一种音频数据处理装置，其特征在于，包括：

特征获取模块，用于获取目标音频数据对应的嵌入音频特征，将所述嵌入音频特征转换为具有二元参数格式的目标音频特征；所述目标音频特征的数量为F个；所述F为正整数；F个目标音频特征包括目标音频特征G_j，所述j为小于或等于所述F的正整数；

参数翻转模块，用于根据特征距离阈值，对所述目标音频特征的特征参数进行二元参数翻转，得到与所述目标音频特征相关联的候选音频特征；所述候选音频特征和所述目标音频特征之间的特征距离小于所述特征距离阈值；

特征匹配模块，用于根据与所述F个目标音频特征相关联的候选音频特征在样本音频特征集合中的匹配统计结果，在所述样本音频特征集合中确定与所述F个目标音频特征相匹配的匹配音频特征；

数据确定模块，用于将所述匹配音频特征对应的匹配音频数据，确定为与所述F个目标音频数据相匹配的音频数据；

其中，参数翻转模块包括：

第一处理单元，用于若目标音频特征G_j对应的已累计候选数量大于或等于候选数量阈值，则停止遍历与目标音频特征G_j相关联的候选音频特征；与所述目标音频特征G_j相关联的候选音频特征和所述目标音频特征G_j之间的特征距离小于所述特征距离阈值。

14.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与所述存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。