CN112784098A

CN112784098A - 一种音频搜索方法、装置、计算机设备和存储介质

Info

Publication number: CN112784098A
Application number: CN202110119351.4A
Authority: CN
Inventors: 吕镇光
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-11
Anticipated expiration: 2041-01-28
Also published as: CN112784098B; WO2022161291A1

Abstract

本发明实施例提供了一种音频搜索方法、装置、计算机设备和存储介质，该方法包括：确定第一音频数据、多个第二音频数据，分别对第一音频数据计算第一哈希特征、对多个第二音频数据计算第二哈希特征，按照多个第二哈希特征的密度确定多个第二音频数据之间排列的顺序，按照顺序将第一哈希特征与多个第二哈希特征进行对比，以查找与第一音频数据相同或相似的第二音频数据，较为密集的哈希特征可以提高对比的精确度，通过哈希特征的密度调整音频数据的排序，提高在优先对比的过程中搜索到相同或相似的音频数据的概率，从而在减少对比的次数的情况下，提高搜索音频数据的精确度。

Description

一种音频搜索方法、装置、计算机设备和存储介质

技术领域

本发明实施例涉及音频处理的技术领域，尤其涉及一种音频搜索方法、装置、计算机设备和存储介质。

背景技术

随着互联网的飞速发展，尤其是移动终端的广泛普及，用户可以方便地制作多媒体数据，例如，制作短视频、哼唱歌曲、录音，等等，使得互联网中的多媒体数据快速增长，音频数据也随之快速增长。

在歌曲搜索、语音内容审核等业务场景中，会对音频数据进行比对，判断音频数据是否相同或相似。

由于音频数据的数量众多，通常通过队列系统(Queuing System)对音频数据进行排序，再按照顺序对比音频数据。

在队列系统(Queuing System)中，通常使用基线方法(baseline method)，即音频数据在排序时并无具体参照的标准，逐一对音频数据进行对比，虽然准确率高，但占用的资源较多、耗时较高，导致整体的效率较低。

发明内容

本发明实施例提出了一种音频搜索方法、装置、计算机设备和存储介质，以解决在保持对比音频数据的准确性的情况下、如何提高对比的效率的问题。

第一方面，本发明实施例提供了一种音频搜索方法，包括：

确定第一音频数据、多个第二音频数据；

分别对所述第一音频数据计算第一哈希特征、对多个所述第二音频数据计算第二哈希特征；

按照多个所述第二哈希特征的密度确定多个所述第二音频数据之间排列的顺序；

按照所述顺序将所述第一哈希特征与多个所述第二哈希特征进行对比，以查找与所述第一音频数据相同或相似的所述第二音频数据。

第二方面，本发明实施例还提供了一种音频搜索方法，包括：

接收客户端上传的第一音频数据，及对所述第一音频数据计算第一哈希特征；

查找当前配置的黑名单，所述黑名单中记录有多个第二音频数据，所述第二音频数据已配置第二哈希特征；

按照所述顺序将所述第一哈希特征与多个所述第二哈希特征进行对比，以确定所述第一音频数据与所述第二音频数据是否相同或相似；

若所述第一音频数据与所述第二音频数据相同或相似，则确定所述第一音频数据非法。

第三方面，本发明实施例还提供了一种音频搜索装置，包括：

音频数据确定模块，用于确定第一音频数据、多个第二音频数据；

哈希特征计算模块，用于分别对所述第一音频数据计算第一哈希特征、对多个所述第二音频数据计算第二哈希特征；

排序确定模块，用于按照多个所述第二哈希特征的密度确定多个所述第二音频数据之间排列的顺序；

哈希特征对比模块，用于按照所述顺序将所述第一哈希特征与多个所述第二哈希特征进行对比，以查找与所述第一音频数据相同或相似的所述第二音频数据。

第四方面，本发明实施例还提供了一种音频搜索装置，包括：

音频数据接收模块，用于接收客户端上传的第一音频数据，及对所述第一音频数据计算第一哈希特征；

黑名单查找模块，用于查找当前配置的黑名单，所述黑名单中记录有多个第二音频数据，所述第二音频数据已配置第二哈希特征；

哈希特征对比模块，用于按照所述顺序将所述第一哈希特征与多个所述第二哈希特征进行对比，以确定所述第一音频数据与所述第二音频数据是否相同或相似；

非法音频确定模块，用于若所述第一音频数据与所述第二音频数据相同或相似，则确定所述第一音频数据非法。

第五方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面或第二方面所述的音频搜索方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方或第二方面所述的音频搜索方法。

在本实施例中，确定第一音频数据、多个第二音频数据，分别对第一音频数据计算第一哈希特征、对多个第二音频数据计算第二哈希特征，按照多个第二哈希特征的密度确定多个第二音频数据之间排列的顺序，按照顺序将第一哈希特征与多个第二哈希特征进行对比，以查找与第一音频数据相同或相似的第二音频数据，较为密集的哈希特征可以提高对比的精确度，通过哈希特征的密度调整音频数据的排序，提高在优先对比的过程中搜索到相同或相似的音频数据的概率，从而在减少对比的次数的情况下，提高搜索音频数据的精确度。

附图说明

图1为本发明实施例一提供的一种音频搜索方法的流程图；

图2为本发明实施例一提供的一种计算第二哈希特征的密度的示例图；

图3A为本发明实施例一提供的一种短音频搜索的示例图；

图3B为本发明实施例一提供的一种长音频搜索的示例图；

图4是本发明实施例二提供的一种音频搜索方法的流程图；

图5为本发明实施例三提供的一种音频搜索装置的结构示意图；

图6为本发明实施例四提供的一种音频搜索装置的结构示意图；

图7为本发明实施例五提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种音频搜索方法的流程图，本实施例可适用于根据音频数据的哈希特征的密度对音频数据进行排序、对比情况，该方法可以由音频搜索装置来执行，该音频搜索装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，具体包括如下步骤：

步骤101、确定第一音频数据、多个第二音频数据。

在本实施例中，第一音频数据、多个第二音频数据均为音频数据，该音频数据的形式可以为歌手发布的歌曲、从短视频、电影、电视剧等视频数据中分离的音频数据、用户在移动终端录制的语音信号，等等，该音频数据的格式可以包括MP3、WMA、AAC，本实施例对此不加以限制。

在具体实现中，多个第二音频数据为通过各种方式预先采集的音频数据，例如，用户上传音频数据、向版权方购买音频数据、技术人员录制音频数据、使用爬虫客户端从网络中爬取音频数据，等等，多个第二音频数据可形成音频库、可向外部提供搜索服务，第一音频数据为待搜索的音频数据，即，在音频库中搜索与第一音频数据相同或相似的第二音频数据。

由于存在压缩、裁剪、背景噪声的影响，本实施例所指相同或相似，可以指第一音频数据与第二音频数据的全部或部分内容相同或相似。

步骤102、分别对第一音频数据计算第一哈希特征、对多个第二音频数据计算第二哈希特征。

对于第一音频数据，可对其计算哈希特征(hash，又称散列特征、指纹)，用以作为第一音频数据的特征，为便于区分，该哈希特征记为第一哈希特征。

对于第二音频数据，可对其计算哈希特征(hash，又称散列特征、指纹)，用以作为第二音频数据的特征，为便于区分，该哈希特征记为第二哈希特征。

一般情况下，计算第一哈希特征与计算第二哈希特征的方式是相同的，即基于同一方式对第一音频数据计算第一哈希特征、对多个第二音频数据计算第二哈希特征。

在本发明的一个实施例中，步骤102可以包括如下步骤：

步骤1021、将第一音频数据转换为第一频谱图。

在本实施例中，可通过傅里叶变换(Discrete Fourier Transform，DFT)、短时傅里叶变换(short-time Fourier transform，或short-term Fourier transform，STFT)等方式将第一音频数据转换为频谱图，频谱图的横轴为时间、纵轴为频率，从而将第一音频数据从时域信号转换为频域信号，为便于区分，该频谱图记为第一频谱图。

进一步而言，把时域信号变成频域信号就会损失时间信息，因此，可以采用数据块(又称窗口)的方式，将一大段时域上的第一音频数据分成多个第一数据块，对多个第一数据块分别转换为频域信号，这样在一定程度上保留时间信息。

例如，第一音频数据的参数为双声道、16-bit精度、44100Hz采样。这时1s的数据大小为441002byte2声道≈176kB。如果选择4kB当作数据块的大小，则每秒钟要对44块数据进行傅里叶变换，这样的切分密度可满足需求。

步骤1022、依据能量在第一频谱图的多个频谱带上查找第一关键点。

第一音频数据的幅值较大的频率跨度可能很广，从低音C(32.70Hz)到高音C(4186.01Hz)都可能出现。为了避免分析整个第一频谱图，降低计算量，可将第一频谱图分成多个频谱带(又称子带)。

从每个子带中选择关键点，频率峰值，例如，选择如下几个子带：低音子带为30Hz-40Hz，40Hz-80Hz和80Hz-120Hz(贝司吉他等乐器的基频会出现低音子带)，中音和高音子带分别为120Hz-180Hz和180Hz-300Hz(人声和大部分其他乐器的基频出现在这两个子带)。

由于能量(即第一频谱图上的幅值)越大的点抗噪性就越强，因此，针对每个子带，可按照能量选择关键点，为便于区分，记为第一关键点。

通常情况下，可每个子带中选择频率最大(即能量最大)的点为第一关键点。

步骤1023、基于第一关键点生成第一音频数据的第一哈希特征。

每个数据块的第一关键点构成了这一帧音频数据的签名，不同数据块的签名构成整个第一音频数据的第一哈希特征。

对于第一音频数据的第一哈希特征，可缓存在内存中，等待与第二音频数据的第二哈希特征进行对比。

步骤1024、将第二音频数据转换为第二频谱图。

在本实施例中，可通过傅里叶变换、短时傅里叶变换等方式将第二音频数据转换为频谱图，频谱图的横轴为时间、纵轴为频率，从而将第二音频数据从时域信号转换为频域信号，为便于区分，该频谱图记为第二频谱图。

进一步而言，把时域信号变成频域信号就会损失时间信息，因此，可以采用数据块(又称窗口)的方式，将一大段时域上的第二音频数据分成多个数据块，对每个数据块分别转换为频域信号，这样在一定程度上保留时间信息。

步骤1025、依据能量在第二频谱图的多个频谱带上查找第二关键点。

第二音频数据的幅值较大的频率跨度可能很广，从低音C(32.70Hz)到高音C(4186.01Hz)都可能出现。为了避免分析整个第二频谱图，降低计算量，可将第二频谱图分成多个频谱带(又称子带)。

由于能量(即第二频谱图上的幅值)越大的点抗噪性就越强，因此，针对每个子带，可按照能量选择关键点，为便于区分，记为第二关键点。

通常情况下，可每个子带中选择频率最大(即能量最大)的点为第二关键点。

步骤1026、基于第二关键点生成第二音频数据的第二哈希特征。

每个数据块的第二关键点构成了这一帧音频数据的签名，不同数据块的签名构成整个第二音频数据的第二哈希特征。

对于第二音频数据的第二哈希特征，可作为检索哈希表的关键字(key)保存，为了查找方便，第二哈希特征通常会作为哈希表的键值，键值指向的部分包括该第二哈希特征在第二音频数据中出现的时间和该第二音频数据的ID。

第二哈希特征(Hash Tag)	时间(Time in Seconds)	第二音频数据(Song)
			30 51 99 121 195	53.52	Song A
33 56 92 151 185	12.32	Song B
			39 26 89 141 251	15.34	Song C
32 67 100 128 270	78.43	Song D
			30 51 99 121 195	10.89	Song E
34 57 95 111 200	54.52	Song A
			34 41 93 161 202	11.89	Song E

当然，上述计算第一哈希特征、第二哈希特征的方法只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它计算第一哈希特征、第二哈希特征的方法，本发明实施例对此不加以限制。另外，除了上述计算第一哈希特征、第二哈希特征的方法外，本领域技术人员还可以根据实际需要采用其它计算第一哈希特征、第二哈希特征的方法，本发明实施例对此也不加以限制。

步骤103、按照多个第二哈希特征的密度确定多个第二音频数据之间排列的顺序。

在哈希特征较为密集时，哈希特征的比对准确性较高，在哈希特征较为稀疏时，哈希特征的比对准确性较低，容易出现把不相同或不相似的音频数据，认为是相同或相似的音频数据。

在本实施例中，可以对第二音频数据的第二哈希特征统计密度(Density)，以此表征第二哈希特征的稠密程度，在队列系统(Queuing System)中，以第二音频数据的第二哈希特征的密度作为门槛，按照第二音频数据的第二哈希特征的密度对多个第二音频数据进行排序，从而确定多个第二音频数据之间的顺序。

在本发明的一个实施例中，第二音频数据的第二哈希特征的密度为局部密度，则在本是实施例中，步骤103包括如下步骤：

步骤1031、统计第二哈希特征在多个局部区域中重叠的数量。

在本实施例中，可将第二音频数据划分为多个大小相同的局部区域，针对每个局部区域，可分别统计第二哈希特征在该个局部区域中重叠的数量，以局部区域作为单位面积，则该数据可视为局部密度。

在具体实现中，可获取第二音频数据的第二频谱图，该第二频谱图为对第二音频数据从时域信息转换为频域信息之后获得的频谱图，第二哈希特征可标记在第二频谱图上。

在第二频谱图上添加多个大小相同的窗口(window)，用以表示多个局部区域的范围，从而在多个窗口中分别统计第二哈希特征的数量，作为第二哈希特征在多个局部区域的数量。

给定第二音频数据A，在时间t处添加了一个窗口，该窗口的大小为k，则局部区域的数量(即局部密度)表示如下：

其中，i为窗口(即k到t+k)内第二哈希特征重叠的数量。

进一步而言，对于整个第二频谱图，可查找预设的窗口，每间隔预设的时间在第二频谱图上添加窗口，从而将第二频谱图划分为多个局部区域。

对于窗口与时间可存在如下两种关系：

在一种关系下，该窗口的宽度等于该时间的长度，即相邻两个窗口之间并不重叠，降低第二哈希特征的计算量。

在另一种关系下，该窗口的宽度小于该时间的长度，即相邻两个窗口之间部分重叠，可提高第二哈希特征的精确度。

步骤1032、基于多个局部区域中重叠的数量生成第二哈希特征在第二音频数据中的密度。

若在多个局部区域中统计出第二哈希特征重叠的数量，则可以以多个局部区域中第二哈希特征重叠的数量作为参考，生成第二哈希特征在第二音频数据中的密度。

在一个示例中，可将多个局部区域中重叠的数量进行比较，若某个局部区域中重叠的数量最大，则确定局部区域中重叠的数量为第二哈希特征在第二音频数据中的密度。

给定第二音频数据A，在时间t处添加了一个窗口(局部区域)，统计出该窗口中的数量为D(A,t)，则第二哈希特征在第二音频数据中的密度D(A)为：

其中，max为取最大值的函数。

在一个示例中，如图2所示，对某个第二哈希特征的第二频谱图添加窗口201、窗口202、窗口203、窗口204、窗口205、窗口206、窗口207，其中，窗口203中第二哈希特征重叠的数量最高，因此，可以选择窗口203中第二哈希特征重叠的数量作为第二哈希特征在该第二音频数据中的密度。

当然，上述计算第二哈希特征的密度的方法只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它计算计算第二哈希特征的密度的方法，例如，取最大的j(j为正整数)个局部区域中重叠的数量并计算平均值作为第二哈希特征在第二音频数据中的密度，本发明实施例对此不加以限制。另外，除了上述计算第二哈希特征的密度的方法外，本领域技术人员还可以根据实际需要采用其它计算第二哈希特征的密度的方法，本发明实施例对此也不加以限制。

步骤1033、按照密度对多个第二音频数据进行降序排序，获得多个第二音频数据的顺序。

若针对每个第二音频数据均计算出第二哈希特征的密度，则可以按照该密度对多个第二音频数据进行降序排序，从而确定每个第二音频数据的顺序，即，第二哈希特征的密度越大，则第二音频数据的顺序越前，反之，第二哈希特征的密度越小，则第二音频数据的顺序越后。

步骤104、按照顺序将第一哈希特征与多个第二哈希特征进行对比，以查找与第一音频数据相同或相似的第二音频数据。

在本实施例中，可按照第二音频数据排列的顺序，依次将第二音频数据的第二哈希特征与第一音频数据的第一哈希特征进行比较，从而确定第一音频数据与第二音频数据是否相同或相似。

针对当前的第二音频数据，如果该第二音频数据的第二哈希特征与第一音频数据的第一哈希特征之间的差异较大，可以认为该第二音频数据与第一音频数据之间的相似度较低，第一哈希特征与第二哈希特征不匹配，继续搜索下一个音频数据。

针对当前的第二音频数据，如果该第二音频数据的第二哈希特征与第一音频数据的第一哈希特征之间的差异较小，可以认为该第二音频数据与第一音频数据之间的相似度较高，第一哈希特征与第二哈希特征匹配，确认搜索到与第一音频数据相同或相似的第二音频数据，此时，可停止搜索。

进一步而言，可确定目标位置，用于表示对比第二音频数据的数量，该目标位置一般远小于第二音频数据的数量。

按照顺序将第一哈希特征与位于目标位置之前的第二哈希特征进行对比。

若第一哈希特征与第二哈希特征匹配，则确定第一音频数据与第二哈希特征所属的第二音频数据相同或相似。

假设第二音频数据的数量为N(N为正整数)，在队列系统(Queuing System)中：

对于基线方法(baseline method)，第二音频数据之间的顺序并无具体的参考标注，第一音频数据逐个与第二音频数据对比，搜索到匹配的第二音频数据属于碰巧的事件，往往在第一音频数据匹配的第二音频数据的过程中耗费大量的时间，时间复杂度为O(N)。

因此，可能对队列系统(Queuing System)进行如下改进：

一、队列系统A(Queue System A)：

队列系统A按照第二哈希特征的绝对数(Absolute Matches)来排列第二音频数据。

将第二音频数据放在队列中，其中，排在队列前面的第二音频数据最有可能是最佳的匹配，那些排在队列后面的第二音频数据不太可能是正确的匹配。

因此，队列系统A可以提供一个停止标准，如果对比了队列中的前m个第二音频数据，仍未搜索到与第一音频数据匹配的第二音频数据，则可以停止搜索，生成搜索结果为并不存在与第一音频数据匹配的第二音频数据。

其中，m为正整数，并且，m＜＜N(m远小于N)。

因此，队列系统A的时间复杂度为O(m)，O(m)＜＜O(N)。

二、队列系统B(Queue System B)：

虽然队列系统A节省了时间，但仅当第二音频数据具有相同的时长时才有效，当第二音频数据之间的持续时间出现较大偏差时，准确度就会下降。

例如，第二音频数据A的时长是2分钟，而第二音频数据B的时长是30分钟，即使查询是对第二音频数据A的正确匹配，第二音频数据B也可能仅仅因为太长以至于、第二音频数据B的第二哈希特征的数量大于第二音频数据A的第二哈希特征的数量，从而第二音频数据B排在队列的前面，而第二音频数据A排在队列的后面。

当有m个时长较长的第二音频数据表现出这种现象(即长音频的频繁碰撞)时，第二音频数据A在队列的匹配丢失。

对此，队列系统B通过除以时长等方式对第二音频数据的时长进行归一化(Normalised by Duration)来排列第二音频数据。

但是，简单地除以第二音频数据的时长会导致过度正常化的问题，这会让较长的第二音频数据重新进入队列，正确的第二音频数据在队列仍会匹配丢失。

三、队列系统C(Queue System C)：

本实施例提供了队列系统C，根据第二哈希特征的密度进行归一化，按照第二哈希特征的密度进行排序，从而使用第二哈希特征的绝对数和过度归一化时长之间进行了权衡。

为使本领域技术人员更好地理解本发明实施例，以下通过具体的场景对比队列系统A、队列系统B、队列系统C：

场景一、短音频搜索

第二音频数据分别为歌曲A(Song A)和歌曲B(Song B)，歌曲A的时长小于歌曲B的时长，假设给定与第一音频数据匹配的第二音频数据为歌曲A。

如图3A所示，在歌曲A的第二频谱图与歌曲B的第二频谱图上分别标记了第二哈希特征，对其统计如下数据：

使用队列系统A，歌曲A中第二哈希特征的绝对数(727)小于歌曲B中第二哈希特征的绝对数(913)，因此，歌曲A排在歌曲B之后。

使用队列系统B，歌曲A归一化的时长(0.198)大于歌曲B归一化的时长(0.033)，因此，歌曲A排在歌曲B之前。

使用队列系统C，歌曲A中第二哈希特征的密度(0.266)大于歌曲B中第二哈希特征的密度(0.067)，因此，歌曲A排在歌曲B之前。

场景二、长音频搜索

第二音频数据分别为歌曲A(Song A)和歌曲B(Song B)，歌曲A的时长小于歌曲B的时长，假设给定与第一音频数据匹配的第二音频数据为歌曲B。

如图3B所示，在歌曲A的第二频谱图与歌曲B的第二频谱图上分别标记了第二哈希特征，对其统计如下数据：

使用队列系统A，歌曲A中第二哈希特征的绝对数(347)小于歌曲B中第二哈希特征的绝对数(2481)，因此，歌曲A排在歌曲B之后。

使用队列系统B，歌曲A归一化的时长(0.094)大于歌曲B归一化的时长(0.090)，因此，歌曲A排在歌曲B之前。

使用队列系统C，歌曲A中第二哈希特征的密度(0.127)大于歌曲B中第二哈希特征的密度(0.182)，因此，歌曲A排在歌曲B之后。

由此可见，与歌曲B匹配的查询存在一个密度更高的区域，歌曲B的时长较长，第二哈希特征的绝对数大于歌曲A，队列系统B对时长过度补偿，尽管队列系统B对场景一(短音频搜索)有效，但对情况二(长音频搜索)是不起作用的，而队列系统C对场景一(短音频搜索)与情况二(长音频搜索)都是健壮的。

实施例二

图4为本发明实施例二提供的一种音频搜索方法的流程图，本实施例可适用于根据音频数据的哈希特征的密度对音频数据进行排序、对比，从而进行内容审核的情况，该方法可以由音频搜索装置来执行，该音频搜索装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，具体包括如下步骤：

步骤401、接收客户端上传的第一音频数据，及对第一音频数据计算第一哈希特征。

在本实施例中，计算机设备作为多媒体平台，一方面，为用户提供基于音频的服务，例如，向用户提供直播节目、短视频、语音会话、视频会话，等等，另一方面，接收用户上传的携带音频的文件，例如，直播数据、短视频、会话信息，等等。

不同的多媒体平台可按照业务、法律等因素制定视频内容审核标准，在发布携带音频的文件之前，按照该审核规范对该携带音频的文件的内容进行审核，过滤掉一些不符合视频内容审核标准的携带音频的文件，如包含色情、低俗、暴力等内容的携带音频的文件，从而发布一些符合视频内容审核标准的携带音频的文件。

如果对于实时性要求较高，在多媒体平台中可设置流式实时系统，用户通过客户端实时将携带音频的文件上传至该流式实时系统，该流式实时系统可将该携带音频的文件传输至用于内容审核的计算机设备。

如果对于实时性要求较低，在多媒体平台中可设置数据库，如分布式数据库等，用户通过客户端将携带音频的文件上传至该数据库，用于内容审核的计算机设备可从该数据库读取该携带音频的文件。

在本实施例中，可从携带音频的文件分离第一音频数据进行内容审核，对于第一音频数据，可对其计算哈希特征，作为第一哈希特征。

在一种计算第一哈希特征的方式中，可将第一音频数据转换为第一频谱图，依据能量在第一频谱图的多个频谱带上查找第一关键点，基于第一关键点生成第一音频数据的第一哈希特征。

步骤402、查找当前配置的黑名单。

在本实施例中，可以将一些包含色情、低俗、暴力等敏感内容的音频数据，作为第二音频数据记录在黑名单中，由于这些音频数据通过不同的形式产生变异，因此，黑名单中的第二音频数据是可以持续扩充的。

在采集第二音频数据、并记录至黑名单时，可对其计算哈希特征，作为第二哈希特征。

在一种计算第二哈希特征的方式中，可将第二音频数据转换为第二频谱图，依据能量在第二频谱图的多个频谱带上查找第二关键点，基于第二关键点生成第二音频数据的第二哈希特征。

因此，黑名单中记录有多个第二音频数据，第二音频数据已配置第二哈希特征，在内容审核时加载该第二哈希特征即可。

步骤403、按照多个第二哈希特征的密度确定多个第二音频数据之间排列的顺序。

对于多媒体平台，每天客户端上传的第一音频数据的量级可达千万甚至亿级，在这数量众多的第一音频数据中，属于黑名单的第一音频数据的量级大约在数千个，使得黑名单的匹配率较低。

以某个多媒体平台某天8000万的第一音频数据为例，黑名单的匹配率大约在0.005％。

因此，对于多媒体平台需求一个耗时低、精度高的队列系统来尽可能地捕获属于黑名单的第一音频数据。

基线方法(baseline method)使用第一音频数据与黑名单中所有的第二音频数进行比较，虽然准确率高，但是时间复杂度为O(N)，耗时较高，这是不必要的，因为，有99.995％的第一音频数据是没有匹配到第二音频数据的，这是低效的搜索方法。

其他队列系统，如队列系统A(Queue System A，按照第二哈希特征的绝对数(Absolute Matches)来排列第二音频数据)和队列系统B(Queue System B，对第二音频数据的时长进行归一化(Normalised by Duration)来排列第二音频数据)，通过优先推荐更可能性较高的第二音频数据来提高效率。

但是，由于第二音频数据的市场并不一致，这些排队系统的准确率较低。

本实施例提出队列系统C，允许剪枝在保持效率的同时，使用第二哈希特征的密度在剪枝队列中更准确地选择第二音频数据。

在本发明的一个实施例中，步骤403包括如下步骤：

步骤4031、统计第二哈希特征在多个局部区域中重叠的数量。

在具体实现中，可获取第二音频数据的第二频谱图；在第二频谱图上添加多个窗口；在多个窗口中分别统计第二哈希特征的数量，作为第二哈希特征在多个局部区域的数量。

在添加多个窗口时，可查找预设的窗口；每间隔预设的时间在第二频谱图上添加窗口。

其中，窗口的宽度小于或等于时间的长度。

步骤4032、基于多个局部区域中重叠的数量生成第二哈希特征在第二音频数据中的密度。

在一种生成密度的方式中，可将多个局部区域中重叠的数量进行比较；若某个局部区域中重叠的数量最大，则确定局部区域中重叠的数量为第二哈希特征在第二音频数据中的密度。

步骤4033、按照密度对多个第二音频数据进行降序排序，获得多个第二音频数据的顺序。

步骤404、按照顺序将第一哈希特征与多个第二哈希特征进行对比，以确定第一音频数据与第二音频数据是否相同或相似。

在具体实现中，可确定目标位置；按照顺序将第一哈希特征与位于目标位置之前的第二哈希特征进行对比。

本实时对基线方法、队列系统A、队列系统B、队列系统C进行了实验，实验中使用了由130首黑名单的第二音频数据和1000个第一音频数据组成的测试集，其中，800个第一音频数据并不属于黑名单，200个第一音频数据属于黑名单。

在实现中，对所有队列系统在停止准则为对比前m个第二音频数据的情况下的耗时和准确率，以及，在没有停止准则的情况下进行的随机搜索，实验的结果如下：

队列系统	耗时(Time Taken)	推送速率(Push Rate)	准确率(Precision)
				基线方法	53.68	20.00％	100.00％
队列系统A	3.90	86.50％	94.22％
				队列系统B	4.11	65.00％	96.15％
队列系统C	4.74	95.50％	97.91％

对于基线方法，如果不实施停止标准，并针对全部第二音频数据进行测试，由于对所有数据库进行了严格的测试集，可以得到了所有推送的正面信息，因此，推送速率达到了20％，并且达到了完全的精确度。

对于队列系统A，在设置停止准则的情况下，耗时相比基线方法减少了92％，推送速率和精度都较好。

队列系统B相对队列系统A可提高精度，但是以降低推送速率为代价的。

队列系统C可同时提供较高的推送速率和精度，而耗时很小。

步骤405、若第一音频数据与第二音频数据相同或相似，则确定第一音频数据非法。

如果第一音频数据与黑名单中的任一第二音频数据并不相同或并不相似，则可以认定确定第一音频数据合法，通过内容审核，可视业务的需求，执行其他内容审核，或者，向公众发布该第一音频数据。

如果第一音频数据与黑名单中的某个第二音频数据相同或相似，则可以认定确定第一音频数据非法，无法通过内容审核，并不能向公众发布该第一音频数据，并生成相应的提示信息发送至客户端。与此同时，可以对该客户端中登录的用户执行禁言、冻结、封号等处罚。

在本实施例中，由于对第一音频数据计算第一哈希特征、对第二音频数据计算第二哈希特征、基于第二哈希特征的密度对第二音频数据进行排序、对比第一哈希特征与第二哈希特征，等技术特征与实施例一的应用基本相似，所以描述的比较简单，相关之处参见实施例一的部分说明即可，本实施例在此不加以详述。

在本实施例中，接收客户端上传的第一音频数据，及对第一音频数据计算第一哈希特征；查找当前配置的黑名单，黑名单中记录有多个第二音频数据，第二音频数据已配置第二哈希特征；按照多个第二哈希特征的密度确定多个第二音频数据之间排列的顺序；按照顺序将第一哈希特征与多个第二哈希特征进行对比，以确定第一音频数据与第二音频数据是否相同或相似；若第一音频数据与第二音频数据相同或相似，则确定第一音频数据非法，较为密集的哈希特征可以提高对比的精确度，通过哈希特征的密度调整音频数据的排序，在基于音频的内容审核中，提高在优先对比的过程中搜索到相同或相似的音频数据的概率，从而在减少对比的次数的情况下，提高搜索音频数据的推送速率，提高搜索音频数据的精确度。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

图5为本发明实施例三提供的一种音频搜索装置的结构框图，具体可以包括如下模块：

音频数据确定模块501，用于确定第一音频数据、多个第二音频数据；

哈希特征计算模块502，用于分别对所述第一音频数据计算第一哈希特征、对多个所述第二音频数据计算第二哈希特征；

排序确定模块503，用于按照多个所述第二哈希特征的密度确定多个所述第二音频数据之间排列的顺序；

哈希特征对比模块504，用于按照所述顺序将所述第一哈希特征与多个所述第二哈希特征进行对比，以查找与所述第一音频数据相同或相似的所述第二音频数据。

在本发明的一个实施例中，所述音频数据确定模块501包括：

第一频谱图转换模块，用于将所述第一音频数据转换为第一频谱图；

第一关键点查找模块，用于依据能量在所述第一频谱图的多个频谱带上查找第一关键点；

第一哈希特征生成模块，用于基于所述第一关键点生成所述第一音频数据的第一哈希特征；

第二频谱图转换模块，用于将所述第二音频数据转换为第二频谱图；

第二关键点查找模块，用于依据能量在所述第二频谱图的多个频谱带上查找第二关键点；

第二哈希特征生成模块，用于基于所述第二关键点生成所述第二音频数据的第二哈希特征。

在本发明的一个实施例中，所述排序确定模块503包括：

局部数量统计模块，用于统计所述第二哈希特征在多个局部区域中重叠的数量；

局部密度生成模块，用于基于多个所述局部区域中重叠的数量生成所述第二哈希特征在所述第二音频数据中的密度；

音频顺序确定模块，用于按照所述密度对多个所述第二音频数据进行降序排序，获得多个所述第二音频数据的顺序。

在本发明的一个实施例中，所述局部数量统计模块包括：

频谱图获取模块，用于获取所述第二音频数据的第二频谱图；

窗口添加模块，用于在所述第二频谱图上添加多个窗口；

窗口数量统计模块，用于在多个所述窗口中分别统计所述第二哈希特征的数量，作为所述第二哈希特征在多个局部区域的数量。

在本发明的一个实施例中，所述窗口添加模块包括：

窗口查找模块，用于查找预设的窗口；

时间添加模块，用于每间隔预设的时间在所述第二频谱图上添加所述窗口。

在本发明的一个实施例中，所述窗口的宽度小于或等于所述时间的长度。

在本发明的一个实施例中，所述局部密度生成模块包括：

数量比较模块，用于将多个所述局部区域中重叠的数量进行比较；

数量取值模块，用于若某个局部区域中重叠的数量最大，则确定所述局部区域中重叠的数量为所述第二哈希特征在所述第二音频数据中的密度。

在本发明的一个实施例中，所述哈希特征对比模块504包括：

目标位置确定模块，用于确定目标位置；

部分特征对比模块，用于按照所述顺序将所述第一哈希特征与位于所述目标位置之前的所述第二哈希特征进行对比；

搜索确定模块，用于若所述第一哈希特征与所述第二哈希特征匹配，则确定所述第一音频数据与所述第二哈希特征所属的第二音频数据相同或相似。

本发明实施例所提供的音频搜索装置可执行本发明任意实施例所提供的音频搜索方法，具备执行方法相应的功能模块和有益效果。

实施例四

图6为本发明实施例四提供的一种音频搜索装置的结构框图，具体可以包括如下模块：

音频数据接收模块601，用于接收客户端上传的第一音频数据，及对所述第一音频数据计算第一哈希特征；

黑名单查找模块602，用于查找当前配置的黑名单，所述黑名单中记录有多个第二音频数据，所述第二音频数据已配置第二哈希特征；

排序确定模块603，用于按照多个所述第二哈希特征的密度确定多个所述第二音频数据之间排列的顺序；

哈希特征对比模块604，用于按照所述顺序将所述第一哈希特征与多个所述第二哈希特征进行对比，以确定所述第一音频数据与所述第二音频数据是否相同或相似；

非法音频确定模块605，用于若所述第一音频数据与所述第二音频数据相同或相似，则确定所述第一音频数据非法。

在本发明的一个实施例中，所述音频数据接收模块601包括：

第一哈希特征生成模块，用于基于所述第一关键点生成所述第一音频数据的第一哈希特征。

在本发明的一个实施例中，还包括：

在本发明的一个实施例中，所述排序确定模块603包括：

在本发明的一个实施例中，所述局部数量统计模块包括：

窗口添加模块，用于在所述第二频谱图上添加多个窗口；

在本发明的一个实施例中，所述窗口添加模块包括：

窗口查找模块，用于查找预设的窗口；

在本发明的一个实施例中，所述局部密度生成模块包括：

在本发明的一个实施例中，所述哈希特征对比模块604包括：

目标位置确定模块，用于确定目标位置；

实施例五

本发明实施例五提供了一种计算机设备，该计算机设备中可集成本发明任一实施例提供的音频搜索装置。

图7为本发明实施例五提供的一种计算机设备的结构示意图。该计算机设备包括一个或多个处理器701、存储器702，该存储器702用于存储一个或多个程序，当一个或多个程序被一个或多个处理器701执行，使得一个或多个处理器701实现本发明任一实施例所述的音频搜索方法。

实施例六

本发明实施例六还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频搜索方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种音频搜索方法，其特征在于，包括：

确定第一音频数据、多个第二音频数据；

2.根据权利要求1所述的方法，其特征在于，所述分别对所述第一音频数据计算第一哈希特征、对多个所述第二音频数据计算第二哈希特征，包括：

将所述第一音频数据转换为第一频谱图；

依据能量在所述第一频谱图的多个频谱带上查找第一关键点；

基于所述第一关键点生成所述第一音频数据的第一哈希特征；

将所述第二音频数据转换为第二频谱图；

依据能量在所述第二频谱图的多个频谱带上查找第二关键点；

基于所述第二关键点生成所述第二音频数据的第二哈希特征。

3.根据权利要求1所述的方法，其特征在于，所述按照多个所述第二哈希特征的密度确定多个所述第二音频数据之间排列的顺序，包括：

统计所述第二哈希特征在多个局部区域中重叠的数量；

基于多个所述局部区域中重叠的数量生成所述第二哈希特征在所述第二音频数据中的密度；

按照所述密度对多个所述第二音频数据进行降序排序，获得多个所述第二音频数据的顺序。

4.根据权利要求3所述的方法，其特征在于，所述统计所述第二哈希特征在多个局部区域中重叠的数量，包括：

获取所述第二音频数据的第二频谱图；

在所述第二频谱图上添加多个窗口；

在多个所述窗口中分别统计所述第二哈希特征的数量，作为所述第二哈希特征在多个局部区域的数量。

5.根据权利要求4所述的方法，其特征在于，所述在所述第二频谱图上添加多个窗口，包括：

查找预设的窗口；

每间隔预设的时间在所述第二频谱图上添加所述窗口。

6.根据权利要求5所述的方法，其特征在于，所述窗口的宽度小于或等于所述时间的长度。

7.根据权利要求3所述的方法，其特征在于，所述基于多个所述局部区域中重叠的数量生成所述第二哈希特征在所述第二音频数据中的密度，包括：

将多个所述局部区域中重叠的数量进行比较；

若某个局部区域中重叠的数量最大，则确定所述局部区域中重叠的数量为所述第二哈希特征在所述第二音频数据中的密度。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述按照所述顺序将所述第一哈希特征与多个所述第二哈希特征进行对比，以查找与所述第一音频数据相同或相似的所述第二音频数据，包括：

确定目标位置；

按照所述顺序将所述第一哈希特征与位于所述目标位置之前的所述第二哈希特征进行对比；

若所述第一哈希特征与所述第二哈希特征匹配，则确定所述第一音频数据与所述第二哈希特征所属的第二音频数据相同或相似。

9.一种音频搜索方法，其特征在于，包括：

10.一种音频搜索装置，其特征在于，包括：

11.一种音频搜索装置，其特征在于，包括：

12.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一项所述的音频搜索方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的音频搜索方法。