CN111400542A

CN111400542A - 音频指纹的生成方法、装置、设备及存储介质

Info

Publication number: CN111400542A
Application number: CN202010201489.4A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-10
Anticipated expiration: 2040-03-20
Also published as: CN111400542B

Abstract

本申请实施例提供一种音频指纹的生成方法、装置、计算机设备及存储介质。该方法包括：获取第一音频片段的频谱图；在频谱图中确定出m个特征点；获取m个特征点对应的n个特征点对；计算n个特征点对分别对应的特征值区间，得到第一音频片段的音频指纹，特征点对对应的特征值区间用于表示特征点对对应的旋律段的时间特征范围和频率特征范围。在本申请实施例中，通过对采用模糊的特征值区间来表示音频片段的音频指纹，可以尽可能地减小噪音、过度压缩等外部因素对生成音频指纹造成的干扰。

Description

音频指纹的生成方法、装置、设备及存储介质

技术领域

本申请实施例涉及音频处理技术领域，特别涉及一种音频指纹的生成方法、装置、终端及存储介质。

背景技术

目前，音频指纹技术被广泛应用于音频匹配领域。音频指纹技术中是指从音频信号中选取比较显著的时间频率点，将其编码为数字的技术，该数字也即是音频指纹。

相关技术中，计算机设备通过如下方式来生成音频指纹：先在待处理音频片段的频谱图中确定多个特征点；对于每一个特征点，计算机设备获取该特征点对对应的多个特征点对；之后对每一个特征点对进行哈希编码处理，得到用于表示该特征点对的一个数值，所有的特征点对对应的数值的集合也即是待处理音频片段的指纹。

相关技术中，由于采用一个精确的数值来表示特征点对的时频特征，当音频片段受到噪音、过度压缩等外部因素的干扰时，生成的用于表示特征点对的数值与不受外部环境的干扰时生成的数值不相同。也即，在相关技术中，音频指纹的生成过程容易受到外部因素的干扰。

发明内容

本申请实施例提供一种音频指纹的生成方法、装置、计算机设备及存储介质，可以减小外部因素对生成音频指纹造成的干扰。所述技术方案如下：

一方面，本申请实施例提供了一种音频指纹的生成方法，所述方法包括：

获取第一音频片段的频谱图；

在所述频谱图中确定出m个特征点，所述m为正整数；

获取所述m个特征点对应的n个特征点对，所述n为正整数；

计算所述n个特征点对分别对应的特征值区间，得到所述第一音频片段的音频指纹，所述特征点对对应的特征值区间用于表示所述特征点对对应的旋律段的时间特征范围和频率特征范围。

另一方面，本申请实施例提供了一种音频指纹的生成装置，所述装置包括：

频谱图获取模块，用于获取第一音频片段的频谱图；

特征点确定模块，在所述频谱图中确定出m个特征点，所述m为正整数；

特征点对获取模块，用于获取所述m个特征点对应的n个特征点对，所述n为正整数；

音频指纹生成模块，用于计算所述n个特征点对分别对应的特征值区间，得到所述第一音频片段的音频指纹，所述特征点对对应的特征值区间用于表示所述特征点对对应的旋律段的时间特征范围和频率特征范围。

又一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器存储有至少一条指令，所述指令由所述处理器加载并执行以实现如第一方面所述的音频指纹的生成方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如第一方面所述的音频指纹的生成方法。

又一方面，本申请实施例提供了一种计算机程序产品，当所述计算机程序产品在计算机设备上运行时，使得计算机设备执行上述音频指纹的生成方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过在音频片段的频谱图中确定多个特征点，对于每一个特征点，确定多个特征点对，对于每一个特征点对，均采用一个模糊的特征值区间来表示，所有的特征点对对应的特征值区间的集合也即是上述音频片段的音频指纹；由于通过模糊的数值区间而并非精确的数值来表示音频片段中特征点对的时间特征范围和频率特征范围，噪音、过度压缩外部因素对生成的音频指纹所造成的误差较小，因此本申请实施例提供的技术方案，在生成音频指纹时可以尽可能地减小噪音、过度压缩等外部因素造成的干扰。

附图说明

图1是本申请一个示例性实施例示出的实施环境的示意图；

图2是本申请一个实施例示出的生成音频指纹的流程图；

图3是本申请一个实施例示出的音频匹配的示意图；

图4是本申请一个示例性实施例示出的生成音频指纹的示意图；

图5是本申请一个示例性实施例示出的音频指纹的生成方法的流程图；

图6是本申请一个示例性实施例示出的频谱图的示意图；

图7是本申请一个示例性实施例示出的散点图的示意图；

图8是本申请另一个示例性实施例示出的音频指纹的生成方法的流程图；

图9是本申请一个示例性实施例示出的音频指纹的生成装置的结构框图；

图10是本申请一个示例性实施例示出的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例示出的实施环境的示意图。该实施环境包括：终端11与服务器12。

终端11具有音频播放功能。在一些实施例中，终端11中运行有具有音频播放功能的平台，该平台可以是音频播放程序或小程序(依赖宿主程序运行的程序)、音频播放网页、视频播放程序或小程序、视频播放网页中的任意一种。

在一些实施例中，终端11还具有音频信号的采集功能。终端11中设置有至少一个麦克风组件，终端11通过该麦克风组件实现上述音频信号的采集功能。

在一些实施例中，终端11还具有信号处理功能。终端11通过该信号处理功能对音频片段进行处理，得到音频片段的“指纹”。在本申请实施例中，终端11获取音频片段的频谱图，之后将频谱图中的特征点采用一个特征值区间来表示，上述特征值区间的集合也即是音频片段的“指纹”。

终端11可以是智能手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III，MP3)播放器、膝上型便携计算机和台式计算机中的至少一种。

服务器12可以是上述运行有具有音频播放功能的平台对应的后台服务器。在一些实施例中，服务器12自身存储有海量音频片段的“指纹”，或者，服务器从其它计算机设备中获取上述海量音频片段的“指纹”。此处的音频片段的“指纹”也是指用于表示音频片段的特征点的特征值区间的集合。

在一些实施例中，服务器12也具有信号处理功能。服务器12通过该信号处理功能对音频片段进行处理，得到音频片段的“指纹”。

服务器12可以是一台服务器，也可以是多台服务器组成的服务器集群，还可以是一个云计算服务中心。

在一些实施例中，终端11与服务器12之间通过无线网络或有线网络建立通信连接。上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是其它任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

补充说明的是，在本申请实施例中，各步骤的执行主体是具有音频指纹的生成功能的计算机设备，其可以是终端，也可以是服务器，本申请实施例对此不作限定。在本申请实施例中，仅以各步骤的执行主体为服务器进行说明。

音频指纹可用于唯一标识音频片段，其被广泛应用于音频匹配、音频检索等技术领域。下面结合图2对音频指纹的生成流程进行介绍。

该流程具体如下：首先将音频片段输入计算机设备，由计算机设备对其进行时间采样、频率变换，得到音频片段的频谱图，之后对频谱图中的峰值点进行检测和提取，得到频谱图中的特征点对，最后对每一个特征点对进行哈希编码处理，得到每一个特征点对对应的数值，所有特征点对对应的数值组成了音频片段的指纹。

结合参考图3，其示出了音频指纹应用在音频匹配场景下的示意图。

对于每一个音频片段，计算机设备生成该音频片段的音频指纹，并将该音频片段的音频指纹存储在音频指纹库中，后续进行音频匹配时，计算机设备获取输入的待匹配音频片段，之后生成待匹配音频片段的音频指纹，最后将待匹配音频片段的音频指纹与音频指纹库中的音频指纹进行匹配，得到与待匹配音频片段匹配的音频片段。

相关技术中，由于采用一个精确的数值来表示特征点对的时频特征，导致音频指纹生成时容易受到外部因素的干扰。例如，对于同一首歌曲，存在两个音频片段A和B，音频片段A是该歌曲的原始音频片段，音频片段B是其它用户重新录制的音频片段，音频片段B中受到的噪音干扰较大，采用相关技术来生成音频指纹时，音频片段A的音频指纹和音频片段B的音频指纹通常不相同，此时出现了同一首歌曲存在多种音频指纹的情况，不利于后续的音频匹配。

基于此，本申请实施例提供了一种音频指纹的生成方法，通过在音频片段的频谱图中确定多个特征点，对于每一个特征点，确定多个特征点对，对于每一个特征点对，均采用一个模糊的特征值区间来表示该特征点对的时间特征范围和频率特征范围，所有的特征点对对应的特征值区间的集合也即是上述音频片段的音频指纹；由于通过模糊的数值区间而并非精确的数值来表示音频片段中特征点对的时间特征范围和频率特征范围，噪音、过度压缩外部因素对生成的音频指纹所造成的误差较小，因此本申请实施例提供的技术方案，在生成音频指纹时可以减小噪音、过度压缩等外部因素对生成音频指纹造成的干扰。例如，对于旋律相同的音频片段，受到干扰的音频片段的音频指纹所包括的特征值区间，与不受干扰的音频片段的音频指纹所包括的特征值区间存在交集，而不是完全不同。

下面对相关技术提供的音频指纹的生成方法进行介绍。

(1)计算机设备获取到音频片段后，对该音频片段进行时间处理、频率处理，得到音频片段的频谱图。

(2)计算机设备在频谱图中筛选出多个特征点，上述被筛选的特征点可以是频率排在前k位，且处于人耳敏感范围的时间频率点。k为正整数，其可以根据实际需求设定。

(3)对于某一个特征点Q，计算机设备确定该特征点Q对应的多个特征点对，特征点对可以通过(t1，f1，dt1，df1)来表示。其中，t1是特征点Q的时间，f1是特征点Q的频率，dt1用于表示特征点Q的频率在时间上的变化值，df1用于表示特征点Q的频率在频率上的变化值。

(4)计算机设备对(f1，dt1，df1)进行哈希编码，得到用于表示特征点对的一个数值。所有用于表示特征点对的数值的集合也即是音频片段的指纹。

下面将结合图4对本申请实施例提供的音频指纹的生成方法进行介绍。

(1)计算机设备获取到音频片段后，对该音频片段进行时间处理、频率处理，得到音频片段的频谱图41。

(2)计算机设备在频谱图41中选取特征点，被选取的特征点可以是频率图中每个时间点上频率符合预设条件且处于预设范围内的时间频率点。上述被筛选出的特征点组成散点图42。

(3)对于特征点Q，计算机设备获取包括特征点Q在内的多个特征点对，对于其中一个特征点对，可以采用(dt，df)来表示该特征点对；其中，dt用于表示特征点Q的频率在时间维度上的变化值，df用于表示特征点Q的频率在频率维度上的变化值。

(4)计算机设备对dt进行模糊处理，得到dt对应的第一区间(dt-δt，dt+δt)；计算机设备对df进行模糊处理，得到df对应的第二区间(df-δf，df+δf)。

(5)计算机设备对特征点Q的频率f1、dt-δt、dt+δt进行哈希编码，得到f(f1，dt-δt，df-δf)，计算机设备对特征点Q的频率f1、df-δf、df+δf进行哈希编码，得到f(f1，dt+δt，df+δf)。上述特征点对对应的特征值区间是以f(f1，dt-δt，df-δf)、f(f1，dt+δt，df+δf)为上下限的取值区间。

本申请实施例提供的音频指纹的生成方法可以应用于如下场景：哼歌识曲场景、双屏互动场景、版权审核场景等等。下面将结合这几种场景对本申请实施例提供的音频指纹的生成方法进行介绍。

(1)哼歌识曲场景

终端通过麦克风采集用户哼唱的音频片段，之后将该音频片段发送给服务器，服务器获取该音频片段的频谱图，在频谱图中确定出多个特征点，之后确定每个特征点对应的特征值区间，并将该特征值区间确定为该音频片段的指纹，之后将该音频片段的指纹与音频库中的候选音频片段的指纹进行比对，确定用户哼唱的音频片段所属的歌曲。

(2)双屏互动场景

终端通过麦克风采集其它终端(例如智能电视)播放的音频片段，之后将该音频片段发送给服务器，服务器获取该音频片段的频谱图，在频谱图中确定出多个特征点，之后确定每个特征点对应的特征值区间，并将该特征值区间确定为该音频片段的指纹，之后将该音频片段的指纹与音频库中的候选音频片段的指纹进行比对，确定其它终端播放的节目，后续用户可以在终端上参与其它终端所播放的节目的互动，比如抽奖、抢红包等等。

(3)版权审核场景

终端将待发布至公共平台的音频片段发送给服务器，服务器获取该音频片段的频谱图，在频谱图中确定出多个特征点，之后确定每个特征点对应的特征值区间，并将该特征值区间确定为该音频片段的指纹，之后将该音频片段的指纹与版权库中的候选音频片段的指纹进行比对，确定该公共平台是否具有待发布的音频片段的版权，若该公共平台具有待发布的音频片段的版权，则允许终端将上述待发布至公共平台的音频片段发布至公共平台。

请参考图5，其示出了本申请一个实施例示出的音频指纹的生成方法的流程图。该方法可以应用于图1所示实施例中的服务器。

步骤501，获取第一音频片段的频谱图。

第一音频片段可以是任一音频片段。第一音频片段可以是终端上传到服务器的音频，也可以是服务器中存储的音频。例如，在哼歌识曲场景下，第一音频片段是终端通过麦克风采集的用户哼唱的音频片段。再例如，在双屏互动场景下，第一音频片段是终端通过麦克风采集的其它终端播放的音频片段。

第一音频片段的频谱图用于表示第一音频的“时间-频率”特征。第一音频片段的频谱图中包括多个时间点，在每个时间点上存在多个频率点。

服务器可以通过如下方式获取第一音频的频谱图：先获取第一音频的音频信号(时间-幅度图)，按照时间周期，将音频信号分为多个时段；然后按照采样时间间隔，对每个时段的音频信号进行采样得到多个采样点，组成该时段音频的时间序列；对每个时段的时间序列进行频率变换得到频率信号；然后按照采样频率间隔，对频率信号进行采样得到多个采样点，组成该时段音频的频率序列。其中，频率变换的方式包括但不限于：快速傅里叶变换(Fast Fourier Transform，FFT)、离散傅里叶变换(Discrete Fourier Transform，DFT)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)中的至少一种。

在一个具体的例子中，服务器将第一音频片段划分为若干个时间段，每个时间段的长度为3秒，每隔0.1秒对该时间段进行采样，得到离散的时间序列t1～t30，之后对该时间序列做频率变换，得到频率信号，之后每隔10Hz(赫兹)对该频率信号进行采样，得到离散的频率序列，该频率序列的上限值为f，该频率序列所包括的个数为f/10，将上述频率序列统一，得到频谱图。

结合参考图6，其示出了本申请一个实施例提供的频谱图的示意图。该频谱图的横轴用于表示时间，竖轴表示为频率。频率上下线为110hz～3520hz，颜色的深浅代表不同频率对应的值的大小。

步骤502，在频谱图中确定出m个特征点，m为正整数。

特征点也可以称之为“峰值点”，其包括第一音频片段中频率较高的时间频率点，和/或，比较抓耳的时间频率点。特征点的数量(也即m的取值)可以根据实际需求设定。在一些实施例中，服务器通过如下子步骤选取特征点：

步骤502a，对于频谱图中的第k个时间点，获取第k个时间点上频率符合预设条件的目标时间频率点，k为正整数。

预设条件可以是频率超过预设频率，预设频率可以根据实际需求设定。预设条件也可以是频率排在前q位，q为正整数，其可以根据实际需求设定。

步骤502b，将目标时间频率点中频率处于预设范围的目标时间频率点确定为特征点。

预设范围是指人耳敏感的频率范围。示例性地，预设范围是300hz～2000hz。

在该种实现方式中，服务器先筛选出每个时间点上频率值较大的点(也即频谱图中颜色较深的点)，之后在第一次筛选出的点中保留频率处于人耳敏感的频率范围的点，得到散点图。结合参考图7，其示出了本申请一个实施例提供的散点图的示意图。该散点图的横轴依然为时间，纵轴依然为频率。

在其它可能的实现方式中，特征点可以是频谱图中每个时间点上频率符合预设条件的时间频率点，也可以是频谱图中每个时间点上频率处于预设范围内的时间频率点。

步骤503，获取m个特征点对应的n个特征点对，n为正整数。

特征点对包括两个时间频率点，其中一个时间频率点也即是特征点，另一时间频率点根据特征点设定。

在一些实施例中，服务器通过如下子步骤确定n个特征点对：

步骤503a，获取m个特征点分别对应的p个特征点对，p为正整数。

服务器获取m个特征点分别对应的p个特征点对，得到m*p个特征点对。

下面以特征点Q为例，对获取特征点Q对应的p个特征点对进行讲解。特征点Q采用(t1，f1)来表示，服务器筛选出在t1～t1+dt这个时间里，频率值较大的p个点，上述p个点分别与特征点Q组成p个特征点对，进而实现通过具有时间先后关系、且频率值较大的点，来表示第一音频片段的旋律。T1表示特征点Q的时间，f1表示特征点Q的频率。需要说明的是，dt的值可以根据实际需求设定，其通常较小。

步骤503b，在m个特征点分别对应的p个特征点对中去除目标特征点对，得到n个特征点对。

目标特征点对包括时间变化值不符合第一音频片段的时间分布情况的特征点对，和/或，频率变化值不符合第一音频片段的频率分布情况的特征点对。

在本申请实施例中，服务器去除m*p个特征点对中的目标特征点对，得到n个特征点对。在一些实施例中，步骤503b可以具体实现为：

1、获取与特征点对相对应的相对特征点；

服务器通过时间变化值，以及频率变化值来表示特征点对，上述时间变化值与频率变化值组成的点也即是相对特征点。

在一个具体的例子中，对于特征点对(Q，P_k)，服务器先通过(d1，f1，dt，df)来表示，之后服务器提取(d1，f1，dt，df)中的dt、df，并采用(dt，df)来表示该特征点对，(dt，df)也可以称之为该特征点对的相对特征点。Dt也即是时间变化值，df也即是频率变化值。

2、对各个相对特征点进行统计分析，得到相对特征点对应的正态分布曲线。

服务器对所有的相对特征点进行统计分析，得到相对特征点对应的正态分布曲线，该正态分布曲线可以用于描述第一音频片段的时间分布情况和频率分布情况。

3、根据正态分布曲线，在m个特征点对分别对应的p个特征点对中去除目标特征点对，得到n个特征点对。

服务器计算正态分布曲线的置信区间，若相对特征点不处于正态分布曲线的置信区间内，则该相对特征点对应的特征点对为目标特征点对。若相对特征点处于正态分布曲线的置信区间内，则该相对特征点对应的特征点对不为目标特征点对。

步骤504，计算n个特征点对分别对应的特征值区间，得到第一音频片段的音频指纹。

特征点对对应的特征值区间用于表示特征点对对应的旋律段的时间特征范围和频率特征范围。上述n个特征点对分别对应的特征值区间组成第一音频片段的音频指纹。

综上，本申请实施例提供的技术方案，通过在音频片段的频谱图中确定多个特征点，对于每一个特征点，确定多个特征点对，对于每一个特征点对，均采用一个模糊的特征值区间来表示该特征点对的时间特征范围和频率特征范围，所有的特征点对对应的特征值区间的集合也即是上述音频片段的音频指纹；由于通过模糊的数值区间而并非精确的数值来表示音频片段中特征点对的时间特征范围和频率特征范围，噪音、过度压缩外部因素对生成的音频指纹所造成的误差较小，因此本申请实施例提供的技术方案，在生成音频指纹时可以减小噪音、过度压缩等外部因素对生成音频指纹造成的干扰。

请参考图8，其示出了本申请实施例示出的音频指纹的生成方法。该方法可以应用于图1所示实施例中的服务器。该方法包括：

步骤801，获取第一音频片段的频谱图。

步骤802，在频谱图中确定出m个特征点。

步骤803，获取m个特征点对应的n个特征点对，n为正整数。

步骤804，对于n个特征点对中的第i个特征点对，对第i个特征点对包括的时间变化值进行第一模糊处理，得到第i个特征点对的时间变化区间。

第一模糊处理用于将时间变化值映射到以时间变化值为中心的模糊区间。

在一些实施例中，服务器通过如下模糊函数对第i个特征点对包括的时间变化值进行第一模糊处理，得到第i个特征点对的时间变化区间dt_fuzzy。

Dt_fuzzy＝(dt-δt，dt+δt)

δt可以根据经验值设定，本申请实施例对此不作限定。第i个特征点对的时间变化区间dt_fuzzy的区间宽度为2δt。

步骤805，对第i个特征点对包括的频率变化值进行第二模糊处理，得到第i个特征点对的频率变化区间。

第二模糊处理用于将频率变化值映射到以频率变化值为中心的模糊区间。

在一些实施例中，服务器通过如下模糊函数对第i个特征点对包括的频率变化值进行第一模糊处理，得到第i个特征点对应的频率变化区间df_fuzzy。

Df_fuzzy＝(df-δf，df+δf)

δf可以根据经验值设定，本申请实施例对此不作限定。第i个特征点对应的时间变化区间dt_fuzzy的区间宽度为2δf。

步骤806，基于第i个特征点对的时间变化区间，以及第i个特征点对对应的频率变化区间，计算第i个特征点对对应的特征值区间。

第一音频片段的音频指纹包括n个特征点对分别对应的特征值区间，i为小于或等于n的正整数。

在一些实施例中，第i个特征点对的时间变化区间的下限为第一下限值，也即上文实施例中的dt-δt；第i个特征点对的时间变化区间的上限为第一上限值，也即上文实施例中的dt+δt。第i个特征点对的频率变化区间的下限为第二下限值，也即上文实施例中的df-δf；第i个特征点对的频率变化区间的上限为第二上限值，也即上文实施例中的df+δf。

在该类实施例中，步骤806可以包括如下子步骤：

步骤806a，对第i个特征点的频率值、第一下限值和第二上限值进行第一哈希编码处理，得到第一编码值；

第一编码值Hash_key1可以通过如下公式计算得到：

Hash_key1＝f(f1，dt-δt，df-δf)；

在一个具体的例子中，f(f1，dt-δt，df-δf)＝f1·2¹²+(df-δf)·2⁶+(dt-δt)。

步骤606b，对第i个特征点的频率值、第二下限值和第而上限值进行第二哈希编码处理，得到第二编码值。

第二编码值Hash_key2可以通过如下两个公式计算得到：

Hash_key2＝f(f1，dt+δt，df+δf)，

在一个具体的例子中，f(f1，dt+δt，df+δf)＝f1·2¹²+(df+δf)·2⁶+(dt+δt)。

第i个特征点对应的特征值区间是以第一编码值和第二编码值为上下限值的取值区间。

当第一编码值小于第二编码值时，第i个特征点对对应的特征值区间的下限为第一编码值，第i个特征点对对应的特征值区间的上限为第二编码值。也即，当第一编码值小于第二编码值时，第i个特征点对对应的特征值区间为(Hash_key1，Hash_key2)。

当第一编码值大于第二编码值时，第i个特征点对对应的特征值区间的下限为第二编码值，第i个特征点对对应应的特征值区间的上限为第一编码值，也即，当第一编码值小于第二编码值时，第i个特征点对对应的特征值区间为(Hash_key2，Hash_key1)。

综上，本申请实施例提供的技术方案，通过采用时间变化值和频率变化值来表示特征点对，在确定特征点对应的特征值区间时，先对时间变化值和频率变化值分别进行模糊处理，再对模糊处理得到的两个区间分别进行哈希编码处理，最后得到用于表示特征点的模糊的特征值区间，可以尽可能地减小噪音、过度压缩等元素造成的干扰，生成的音频指纹更为准确。

采用相关技术提供的技术方案来生成音频指纹时，由于噪音、过度压缩等外部因素对生成音频指纹造成干扰，后续进行音频片段的匹配时，匹配效果不佳。然而在本申请实施例中，采用模糊的特征值区间来表示待匹配的音频片段的音频指纹，可以尽可能地减小噪音、过度压缩等外部因素造成的干扰，生成的音频指纹更为准确，进而提升匹配效果。

在基于图5或图8所示实施例提供的一个可选实施例中，该音频指纹的生成方法还包括如下步骤：

步骤808，确定第二音频片段的音频指纹所包括的特征值区间中，与第一音频片段的音频指纹所包括的特征值区间存在交集的特征值区间的数量。

在本申请实施例中，在进行音频片段的匹配时，将待匹配的音频片段对应的特征值区间与候选音频片段对应的特征值区间逐个进行比对，若待匹配的音频片段中的一个特征点对对应的特征值区间与候选音频片段中的一个特征点对对应的特征值区间存在交集，则说明上述两个特征点对相匹配。

步骤809，若数量大于阈值，则确定第二音频片段与第一音频片段匹配。

阈值可以根据实际设定，本申请实施例对此不作限定。若数量小于或等于阈值，则确定第二音频片段与第一音频片段不匹配。

本申请实施例提供的技术方案，通过对采用模糊的特征值区间来表示待匹配的音频片段的音频指纹，可以尽可能地减小噪音、过度压缩等外部因素对生成音频指纹造成的干扰，提高匹配成功率。

为本申请装置实施例，对于装置实施例中未详细阐述的部分，可以参考上述方法实施例中公开的技术细节。

请参考图9，其示出了本申请一个示例性实施例提供的音频指纹的生成装置的框图。该音频指纹的生成装置可以通过软件、硬件或者两者的组合实现成为计算机设备的全部或一部分。该音频指纹的生成装置包括：

频谱图获取模块901，用于获取第一音频片段的频谱图。

特征点确定模块902，在所述频谱图中确定出m个特征点，所述m为正整数。

特征点对获取模块903，用于获取所述m个特征点对应的n个特征点对，所述n为正整数。

音频指纹生成模块904，用于计算所述n个特征点对分别对应的特征值区间，得到所述第一音频片段的音频指纹，所述特征点对对应的特征值区间用于表示所述特征点对对应的旋律段的时间特征范围和频率特征范围。

综上所述，本申请实施例提供的技术方案，通过在音频片段的频谱图中确定多个特征点，对于每一个特征点，确定多个特征点对，对于每一个特征点对，均采用一个模糊的特征值区间来表示，所有的特征点对对应的特征值区间的集合也即是上述音频片段的音频指纹；由于通过模糊的数值区间而并非精确的数值来表示音频片段中特征点对的时间特征范围和频率特征范围，噪音、过度压缩外部因素对生成的音频指纹所造成的误差较小，因此本申请实施例提供的技术方案，在生成音频指纹时可以尽可能地减小噪音、过度压缩等外部因素造成的干扰。

在基于图9所示实施例提供的一个可选实施例中，所述音频指纹生成模块904，用于：

对于所述n个特征点对中的第i个特征点对，对所述第i个特征点对包括的时间变化值进行第一模糊处理，得到所述第i个特征点对对应的时间变化区间；

对所述第i个特征点对包括的频率变化值进行第二模糊处理，得到所述第i个特征点对的频率变化区间；

基于所述第i个特征点对的时间变化区间，以及所述第i个特征点对对应的频率变化区间，计算所述第i个特征点对对应的特征值区间；

其中，所述第一音频片段的音频指纹包括所述n个特征点对分别对应的特征值区间，所述i为小于或等于所述n的正整数。

可选地，所述第i个特征点对的时间变化区间的下限为第一下限值，所述第i个特征点对的时间变化区间的上限为第一上限值；所述第i个特征点对的频率变化区间的下限为第二下限值，所述第i个特征点对的频率变化区间的上限为第二上限值；

所述音频指纹生成模块904，用于：

对所述第i个特征点的频率值、所述第一下限值和所述第二下限值进行第一哈希编码处理，得到第一编码值；

对所述第i个特征点的频率值、所述第一上限值和所述第二上限值进行第二哈希编码处理，得到第二编码值；

其中，所述第i个特征点对应的特征值区间是以所述第一编码值和所述第二编码值为上下限值的取值区间。

在基于图9所示实施例提供的一个可选实施例中，所述特征点对获取模块903，用于：

获取所述m个特征点分别对应的p个特征点对，所述p为正整数；

在所述m个特征点分别对应的p个特征点对中去除目标特征点对，得到所述n个特征点对；

其中，所述目标特征点对包括时间变化值不符合所述第一音频片段的时间分布情况的特征点对，和/或，频率变化值不符合所述第一音频片段的频率分布情况的特征点对。

可选地，所述特征点对获取模块903，用于：

获取与所述特征点对相对应的相对特征点；

对各个所述相对特征点进行统计分析，得到所述相对特征点对应的正态分布曲线；

根据所述正态分布曲线，在所述m个特征点对分别对应的p个特征点对中去除目标特征点对，得到所述n个特征点对。

在基于图9所示实施例提供的一个可选实施例中，所述特征点确定模块902，用于：

对于所述频谱图中的第k个时间点，获取所述第k个时间点上频率符合预设条件的目标时间频率点，所述k为正整数；

将所述目标时间频率点中频率处于预设范围的目标时间频率点确定为所述特征点。

在基于图9所示实施例提供的一个可选实施例中，所述装置还包括：音频匹配模块(图9未示出)。

音频匹配模块，用于：

确定第二音频片段的音频指纹所包括的特征值区间中，与所述第一音频片段的音频指纹所包括的特征值区间存在交集的特征值区间的数量；

若所述数量大于阈值，则确定所述第二音频片段与所述第一音频片段匹配。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图10，其示出了本发明一个实施例提供的计算机设备的结构示意图。该计算机设备1000为图1中的服务器。具体来讲：所述计算机设备1000包括中央处理单元(Central Processing Unit，CPU)1001、包括随机存取存储器(Random Access Memory，RAM)1002和只读存储器(Read-Only Memory，ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出(Input/Output，I/O)系统1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述基本输入/输出系统1006包括有用于显示信息的显示器10010和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器10010和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、带电可擦写可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，EEPROM)、闪存或其他固态存储其技术，数字通用光盘(Digital Video Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本发明的各种实施例，所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本发明实施例提供的音频指纹的生成方法中的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由终端的处理器加载并执行以实现上述方法实施例中的音频指纹的生成方法。

可选地，上述计算机可读存储介质可以是ROM、RAM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述方法实施例中提供的音频指纹的生成方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本文中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频指纹的生成方法，其特征在于，所述方法包括：

获取第一音频片段的频谱图；

在所述频谱图中确定出m个特征点，所述m为正整数；

获取所述m个特征点对应的n个特征点对，所述n为正整数；

2.根据权利要求1所述的方法，其特征在于，所述计算所述n个特征点对分别对应的特征值区间，得到所述第一音频片段的音频指纹，包括：

对于所述n个特征点对中的第i个特征点对，对所述第i个特征点对包括的时间变化值进行第一模糊处理，得到所述第i个特征点对的时间变化区间；

基于所述第i个特征点对的时间变化区间，以及所述第i个特征点对的频率变化区间，计算所述第i个特征点对对应的特征值区间；

3.根据权利要求2所述的方法，其特征在于，所述第i个特征点对的时间变化区间的下限为第一下限值，所述第i个特征点对的时间变化区间的上限为第一上限值；所述第i个特征点对的频率变化区间的下限为第二下限值，所述第i个特征点对的频率变化区间的上限为第二上限值；

所述基于所述第i个特征点对的时间变化区间，所述第i个特征点对的频率变化区间，计算所述第i个特征点对对应的特征值区间，包括：

其中，所述第i个特征点对对应的特征值区间是以所述第一编码值和所述第二编码值为上下限值的取值区间。

4.根据权利要求1所述的方法，其特征在于，所述获取所述m个特征点对应的n个特征点对，包括：

5.根据权利要求4所述的方法，其特征在于，所述在所述m个特征点对分别对应的p个特征点对中去除目标特征点对，得到所述n个特征点对，包括：

获取与所述特征点对相对应的相对特征点；

6.根据权利要求1所述的方法，其特征在于，所述在所述频谱图中确定出m个特征点，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述计算所述n个特征点对分别对应的特征值区间，得到所述第一音频片段的音频指纹之后，还包括：

8.一种音频指纹的生成装置，其特征在于，所述装置包括：

频谱图获取模块，用于获取第一音频片段的频谱图；

9.根据权利要求8所述的装置，其特征在于，所述音频指纹生成模块，用于：

10.根据权利要求9所述的装置，其特征在于，所述第i个特征点对的时间变化区间的下限为第一下限值，所述第i个特征点对的时间变化区间的上限为第一上限值；所述第i个特征点对的频率变化区间的下限为第二下限值，所述第i个特征点对的频率变化区间的上限为第二上限值；

所述音频指纹生成模块，用于：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的音频指纹的生成方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的音频指纹的生成方法。