CN111737515B

CN111737515B - 音频指纹提取方法、装置、计算机设备和可读存储介质

Info

Publication number: CN111737515B
Application number: CN202010708305.3A
Authority: CN
Inventors: 黄润乾; 丁俊豪
Original assignee: Voiceai Technologies Co ltd
Current assignee: Voiceai Technologies Co ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2021-01-19
Anticipated expiration: 2040-07-22
Also published as: CN111737515A

Abstract

本申请涉及一种音频指纹提取方法、装置、计算机设备和存储介质。所述方法包括：对音频信号进行分帧，得到至少两个的单帧音频信号；通过线性预测分析确定各所述单帧音频信号的共振峰；确定各所述共振峰在所述音频信号的频谱图中的共振峰值点；根据各所述共振峰值点构建共振峰哈希对；所述共振峰哈希对包含两个共振峰值点；获取每个共振峰哈希对中共振峰值点所对应的频率和时间偏移量；根据所述频率和所述时间偏移量，确定每个所述共振峰哈希对所对应的哈希键，得到所述音频信号的共振峰音频指纹；所述共振峰音频指纹包含各所述共振峰哈希对，每个所述共振峰哈希对分别对应有所述哈希键。采用本方法得到的共振峰音频指纹能够更好地表征音频信号。

Description

音频指纹提取方法、装置、计算机设备和可读存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频指纹提取方法、装置、计算机设备和可读存储介质。

背景技术

目前在音频搜索时通常采用音频指纹技术，音频指纹技术是指从音频片段中提取出音频指纹后，将该音频指纹与音频库中的音频指纹进行对比，从而确定音频片段的音频信息。

然而，传统的音频指纹提取方法比较适用于具有韵律、节奏的音乐数据上，而针对随机性比较强的对话、会议等日常语音数据，采用传统的音频指纹提取方法所提取的音频指纹往往准确率较低。

发明内容

基于此，有必要针对日常语音数据的音频指纹提取准确率低的技术问题，提供一种音频指纹提取方法、装置、计算机设备和可读存储介质。

一种音频指纹提取方法，所述方法包括：

对音频信号进行分帧，得到至少两个的单帧音频信号；

通过线性预测分析确定各所述单帧音频信号的共振峰；

确定各所述共振峰在所述音频信号的频谱图中的共振峰值点；

根据各所述共振峰值点构建共振峰哈希对；所述共振峰哈希对包含两个共振峰值点；

获取每个共振峰哈希对中共振峰值点所对应的频率和时间偏移量；

根据所述频率和所述时间偏移量，确定每个所述共振峰哈希对所对应的哈希键，得到所述音频信号的共振峰音频指纹；所述共振峰音频指纹包含各所述共振峰哈希对，每个所述共振峰哈希对分别对应有所述哈希键。

在一个实施例中，所述通过线性预测分析确定各所述单帧音频信号的共振峰，包括：

通过线性预测分析计算各所述单帧音频信号的线性预测系数；

基于所述线性预测系数，采用插值法或求根法确定各所述单帧音频信号的共振峰。

在一个实施例中，所述根据各所述共振峰值点构建共振峰哈希对，包括：

获取所述音频信号的音频类型；

根据所述音频类型确定所述音频信号对应的峰值点频率区间；

从所述共振峰值点中选择在所述峰值点频率区间内的目标共振峰值点；

根据各所述目标共振峰值点构建共振峰哈希对。

在一个实施例中，所述方法还包括：

获取与所述音频类型对应的共振峰音频指纹库；

在所述共振峰音频指纹库中，搜索与所述音频信号的共振峰音频指纹匹配的目标共振峰音频指纹。

在一个实施例中，所述在所述共振峰音频指纹库中，搜索与所述音频信号的共振峰音频指纹匹配的目标共振峰音频指纹，包括：

从所述共振峰音频指纹库中获取模板共振峰音频指纹；所述模板共振峰音频指纹包含模板共振峰哈希对和对应的模板哈希键；

从所述模板哈希键中筛选与所述共振峰音频指纹的哈希键相同的目标模板哈希键；

获取各所述目标模板哈希键对应的目标模板共振峰哈希对的第一时间偏移量，以及与所述目标模板哈希键相同的所述哈希键对应的共振峰哈希对的第二时间偏移量；

计算各所述第一时间偏移量与所述第二时间偏移量的差，得到多个时间差；

统计所述多个时间差分别对应的数量，根据各所述数量确定所述模板共振峰音频指纹为与所述音频信号的共振峰音频指纹的相似度；

若所述相似度满足匹配条件，则确定所述模板共振峰音频指纹为与所述音频信号的共振峰音频指纹匹配的目标共振峰音频指纹。

在一个实施例中，所述在所述共振峰音频指纹库中，搜索与所述音频信号的共振峰音频指纹匹配的目标共振峰音频指纹之前，所述方法还包括：

获取各音频文件和对应的音频类型；

根据各所述音频类型确定各所述音频文件对应的峰值点频率区间；

通过线性预测分析确定各所述音频文件的共振峰；

根据各所述音频文件对应的峰值点频率区间和各所述音频文件的共振峰构建各所述音频文件的共振峰音频指纹；

将各所述音频文件的共振峰音频指纹作为模板音频指纹生成与各所述音频类型对应的音频指纹库。

一种音频指纹提取装置，所述装置包括：

分帧模块，用于对音频信号进行分帧，得到至少两个的单帧音频信号；

共振峰确定模块，用于通过线性预测分析确定各所述单帧音频信号的共振峰；

共振峰值点确定模块，用于确定各所述共振峰在所述音频信号的频谱图中的共振峰值点；

共振峰哈希对构建模块，用于根据各所述共振峰值点构建共振峰哈希对；所述共振峰哈希对包含两个共振峰值点；

频率获取模块，用于获取每个共振峰哈希对中共振峰值点所对应的频率和时间偏移量；

共振峰音频指纹构建模块，用于根据所述频率和所述时间偏移量，确定每个所述共振峰哈希对所对应的哈希键，得到所述音频信号的共振峰音频指纹；所述共振峰音频指纹包含各所述共振峰哈希对，每个所述共振峰哈希对分别对应有所述哈希键。

在一个实施例中，所述共振峰确定模块，还用于：

在一个实施例中，所述共振峰哈希对构建模块，还用于：

获取所述音频信号的音频类型；

根据各所述目标共振峰值点构建共振峰哈希对。

在一个实施例中，所述装置还包括：

共振峰音频指纹库获取模块，用于获取与所述音频类型对应的共振峰音频指纹库；

音频搜索模块，用于在所述共振峰音频指纹库中，搜索与所述音频信号的共振峰音频指纹匹配的目标共振峰音频指纹。

在一个实施例中，所述音频搜索模块，还用于：

在一个实施例中，所述装置还包括：

所述共振峰确定模块还用于，获取各音频文件和对应的音频类型；根据各所述音频类型确定各所述音频文件对应的峰值点频率区间；通过线性预测分析确定各所述音频文件的共振峰；

所述共振峰音频指纹构建模块还用于，根据各所述音频文件对应的峰值点频率区间和各所述音频文件的共振峰构建各所述音频文件的共振峰音频指纹；

音频指纹库生成模块，用于将各所述音频文件的共振峰音频指纹作为模板音频指纹生成与各所述音频类型对应的音频指纹库。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述音频指纹提取方法、装置、计算机设备和可读存储介质，对获取的音频信号进行分帧，得到单帧音频信号；通过线性预测分析确定各单帧音频信号的共振峰；确定各共振峰在音频信号的频谱图中的共振峰值点；根据各共振峰值点构建共振峰哈希对；共振峰哈希对包含两个共振峰值点；获取每个共振峰哈希对中共振峰值点所对应的频率和时间偏移量；根据频率和时间偏移量，确定每个共振峰哈希对所对应的哈希键，得到音频信号的共振峰音频指纹，共振峰音频指纹包含各共振峰哈希对，每个共振峰哈希对分别对应有哈希键，所得到的共振峰音频指纹能够更好地表征音频信号，进而在使用该共振峰音频指纹进行音频对比或音频搜索时可以提高音频对比的准确率或音频搜索结果的准确率。

附图说明

图1为一个实施例中音频指纹提取方法的应用环境图；

图2为一个实施例中音频指纹提取方法的流程示意图；

图2A为一个实施例中音频信号的频谱包络图；

图2B为一个实施例中音频信号的频谱图；

图2C为一个实施例中组合哈希对示意图；

图2D为一个实施例中哈希对示意图；

图3为一个实施例中时间直方图示意图；

图4为另一个实施例中音频指纹提取方法的流程示意图；

图5为一个实施例中音频指纹提取装置的结构框图；

图6为一个实施例中音频指纹提取装置的结构框图；

图7为一个实施例中计算机设备的内部结构图；

图8为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的音频指纹提取方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。该音频指纹提取方法可以应用于终端102或服务器104，以执行于终端102为例，终端102对音频信号进行分帧，得到至少两个的单帧音频信号；通过线性预测分析确定各单帧音频信号的共振峰；确定各共振峰在音频信号的频谱图中的共振峰值点；根据各共振峰值点构建共振峰哈希对；共振峰哈希对包含两个共振峰值点；获取每个共振峰哈希对中共振峰值点所对应的频率和时间偏移量；根据频率和时间偏移量，确定每个共振峰哈希对所对应的哈希键，得到音频信号的共振峰音频指纹；共振峰音频指纹包含各共振峰哈希对，每个共振峰哈希对分别对应有哈希键。此外，终端102在通过上述音频指纹提取方法得到音频信号的共振峰音频指纹之后，还可以将所得到音频信号的共振峰音频指纹发送至服务器104，服务器104在共振峰音频指纹库中搜索与该音频信号的共振峰音频指纹匹配的目标音频指纹，并将目标音频指纹对应的音频文件作为搜索结果返回给终端102，音频文件包括音频文件本身或音频文件信息，音频文件信息可以是音频文件的标识信息，标识信息可以是名称或编号等。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种音频指纹提取方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

S202，对音频信号进行分帧，得到至少两个的单帧音频信号。

其中，音频信号是待提取音频指纹的音频片段的信号，该音频片段可以是要进行音频搜索的未知音频。

分帧是指把音频信号分为一些短段以便对音频信号进行处理，每一个短段称为一帧，本申请实施例中将分帧后所得的每一帧音频信号称为单帧音频信号。

在一个实施例中，终端在获取到音频信号之后，对该音频信号进行预处理，得到预处理后音频信号，然后对预处理后音频信号进行分帧，得到至少两个的单帧音频信号。其中，预处理可以是对音频信号进行预加重，预加重的作用是对音频信号进行高频提升，还原声门的音频信号。对预处理后音频信号进行分帧可以通过加窗函数实现，窗函数可以是矩形窗、汉明窗或海宁窗。

S204，通过线性预测分析确定各单帧音频信号的共振峰。

其中，线性预测分析是将各单帧音频信号分别看成是一个模型的输出，用模型参数来描述各单帧音频信号。

共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道（共振腔）的物理特征，声道可以被看成一根具有非均匀截面的声管，在发音时将起共鸣器的作用，当声门处准周期脉冲激励进入声道时会引起共振特性，产生一组共振频率，这一组共振频率称为共振峰频率或简称为共振峰。共振峰参数包括共振峰频率、频带宽度和幅值。

声音的本质为声波，声波是由无数不同频率和幅值的正弦波组成的复合波。在发音时声带的振动与声道的谐振产生不同的声波，人在讲话是所说的字是由不同的音素组成的，相同音素发音时声道的形状都是比较接近，从而相同音素发音时声道的谐振频率也比较接近，因此相同音素的共振峰是相似的。

在一个实施例中，终端在得到各单帧音频信号之后，通过线性预测分析计算各单帧音频信号的线性预测系数（LPC系数），并基于所得的线性预测系数确定各单帧音频信号的共振峰，具体可以采用插值法或求根法确定各单帧音频信号的共振峰。

在一个实施例中，终端在得到各单帧音频信号的线性预测系数之后，根据该线性预测系数确定单帧音频信号对应的线性预测函数，并对该线性预测函数进行傅里叶变换，从而得到各单帧音频信号的频谱包络，然后采用插值法确定出各频谱包络对应的共振峰，插值法可以是二次函数插值法。如图2A所示，为求得的一个单帧音频信号的频谱包络，图中F1、F2、F3和F4分别对应该单帧音频信号的第一共振峰、第二共振峰、第三共振峰和第四共振峰。

在一个实施例中，终端在得到各单帧音频信号的线性预测系数之后，根据该线性预测系数构建多项式，并求得该多项式的根，然后根据求得的多项式的根确定各单帧音频信号的共振峰。

S206，确定各共振峰在音频信号的频谱图中的共振峰值点。

其中，音频信号的频谱图可以直观的显示出音频信号的频谱特征，图2B示出了一个音频信号的频谱图，图中横坐标表示时间，纵坐标表示频率，灰度值（颜色深浅）表示能量。

在一个实施例中，终端在得到各单帧音频信号的共振峰之后，将各共振峰所属单帧音频信号相对于音频信号初始位置的时间偏移量，作为各共振峰对应的时间偏移量，然后根据各共振峰的频率和时间偏移量确定各共振峰在音频信号的频谱图中的共振峰值点。图2B频谱图中所显示的各点即为共振峰值点，每个共振峰值点所对应的横坐标即为该共振峰值点的时间偏移量，每个共振峰值点所对应的纵坐标即为该共振峰值点的频率。

S208，根据各共振峰值点构建共振峰哈希对；共振峰哈希对包含两个共振峰值点。

在一个实施例中，终端在确定出音频信号的频谱图中的共振峰值点之后，可以直接根据所确定的各个共振峰值点构建共振峰哈希对，具体构建过程如图2C所示，首选选择一个共振峰值点作为锚点（anchor point），每个锚点都对应一个目标区域（target zone），每一个锚点都按顺序和目标区域中的点进行组合，组合的结果是形成哈希对（图2D）。

在一个实施例中，终端还可以对所确定的各共振峰值点进行筛选，得到目标共振峰值点，然后根据所筛选的目标共振峰值点构建共振峰哈希对。其中，对所确定的各共振峰值点进行筛选可以是按峰值点频率区间进行筛选，可以理解的是，属于该峰值点频率区间的共振峰值点即为目标共振峰值点。此外，峰值点频率区间可以是根据音频信号的音频类型进行确定的，例如音频信号为日常语音信号（人讲话的声音），则相应的峰值点频率区间可以设置为日常语音信号的共振峰对应的频率区间，音频信号为音乐信号，则相应的峰值点频率区间可以设置为音乐信号的共振峰对应的频率区间。

S210，获取每个共振峰哈希对中共振峰值点所对应的频率和时间偏移量。

S212，根据频率和时间偏移量，确定每个共振峰哈希对所对应的哈希键，得到音频信号的共振峰音频指纹；共振峰音频指纹包含各共振峰哈希对，每个共振峰哈希对分别对应有哈希键。

在一个实施例中，终端在根据共振峰值点构建出共振峰哈希对之后，针对每个共振峰哈希对，分别根据共振峰哈希对中的共振峰值点确定与该共振峰哈希对相应的哈希键。具体可以获取每个共振峰哈希对中共振峰值点所对应的频率和时间偏移量，然后根据获取的频率和时间偏移量，确定共振峰哈希对所对应的哈希键。

例如，共振峰哈希对A包含共振峰值点1和共振峰值点2，其中共振峰值点1的频率为f ₁、相对于音频信号起始位置的时间偏移量为t ₁，共振峰值点2的频率为f ₂、相对于音频信号起始位置的时间偏移量为t ₂，则根据f ₁、f ₂、t ₁和t ₂可以确定共振峰哈希对A的哈希键，具体可以计算共振峰值点1与共振峰值点2之间的时间差

，

，并将根据f ₁、f ₂和

确定共振峰哈希对A的哈希键，例如，对f ₁、f ₂和

进行拼接，将拼接所得到的值确定为共振峰哈希对A的哈希键；或者对f ₁、f ₂和

进行哈希运算，将哈希运算后所得的值确定为共振峰哈希对A的哈希键。

上述实施例中，终端通过对获取的音频信号进行分帧，得到单帧音频信号；通过线性预测分析确定各单帧音频信号的共振峰；确定各共振峰在音频信号的频谱图中的共振峰值点；根据各共振峰值点构建共振峰哈希对；共振峰哈希对包含两个共振峰值点；获取每个共振峰哈希对中共振峰值点所对应的频率和时间偏移量；根据频率和时间偏移量，确定每个共振峰哈希对所对应的哈希键，得到音频信号的共振峰音频指纹，共振峰音频指纹包含各共振峰哈希对，每个共振峰哈希对分别对应有哈希键，所得到的共振峰音频指纹能够更好地表征音频信号，进而在使用该共振峰音频指纹进行音频对比或音频搜索时可以提高音频对比的准确率或音频搜索结果的准确率。

在一个实施例中，终端根据各共振峰值点构建共振峰哈希对，具体包括以下步骤：获取音频信号的音频类型，根据音频类型确定音频信号对应的峰值点频率区间，从共振峰值点中选择在峰值点频率区间内的目标共振峰值点，根据各目标共振峰值点构建共振峰哈希对。

在一个实施例中，终端获取音频信号的音频类型的过程可以是，用户在终端的音频指纹对比界面或音频指纹搜索界面选择或上传要提取共振峰音频指纹的音频片段时，在该音频指纹对比界面或音频指纹搜索界面输入该音频指纹的音频类型，终端获取用户所输入的音频类型。音频类型具体可以是音乐类型或日常语音类型，音乐类型包括纯音乐类型和歌曲类型。例如，若用户在终端的音频指纹对比界面或音频指纹搜索界面所选择要提取共振峰音频指纹的音频片段是一首歌曲，则针对这首歌曲用户可以输入其音频类型为纯音乐类型或歌曲类型；若用户在终端的音频指纹对比界面或音频指纹搜索界面所选择要提取共振峰音频指纹的音频片段是一段包含有背景音乐和日常语音的电视访谈节目的音频片段，则针对该电视访谈节目的音频片段用户可以输入其音频类型为日常语音类型或音乐类型。

在一个实施例中，终端获取音频信号的音频类型的过程可以是，用户在终端的音频指纹对比界面或音频指纹搜索界面选择或上传要提取共振峰音频指纹的音频片段时，终端在获取到上传或选择的音频片段之后，可以通过训练好的音频类型识别模型对该音频片段进行检测，得到该音频片段的音频类型。其中音频类型识别模型是对人声音频样本和音乐音频样本进行训练而得到的。

上述实施例中，终端通过获取音频信号的音频类型，进而根据音频类型从共振峰值点中选择用于构建共振峰哈希对的目标共振峰值点，减少了构建的哈希对的数量，避免了非目标频率范围的共振峰点的干扰，进一步提高了所得的共振峰音频指纹对音频信号表征的准确度，同时减小了音频指纹的大小，进而在根据该缩小的、对音频信号表征更准确的共振峰音频指纹进行音频对比或音频搜索时，可以提高音频对比或音频搜索的速度。

在一个实施例中，终端在提取出音频信号的共振峰音频指纹之后，还可以将该共振峰音频指纹与验证共振峰音频指纹进行对比，验证共振峰音频指纹是已知音频信息的音频文件的共振峰音频指纹，具体包括以下步骤：获取验证共振峰音频指纹的所包含的验证共振峰哈希对和验证哈希键，从验证哈希键中筛选与共振峰音频指纹的哈希键相同的目标验证哈希键，获取各目标验证哈希键对应的目标验证共振峰哈希对的第一时间偏移量，以及与目标验证哈希键相同的哈希键对应的共振峰哈希对的第二时间偏移量，计算各第一时间偏移量与对应的第二时间偏移量的差，得到多个时间差，分别统计各时间差的数量，根据各时间差的数量确定共振峰音频指纹与验证共振峰音频指纹是否匹配，若匹配，则确定该共振峰音频指纹与验证共振峰音频指纹对比成功。

具体地，共振峰音频指纹的哈希键与目标验证哈希键相同的情况可以称为命中，终端可以逐个将共振峰音频指纹的哈希键与各共振峰音频指纹的哈希键进行对比，确定是否命中。每次命中时分别获取命中目标验证哈希键目标验证共振峰哈希对的第一时间偏移量，以及与目标验证哈希键相同的哈希键所对应的共振峰哈希对的第二时间偏移量，并计算第一时间偏移量与第二时间偏移量的差，得到时间差，若该时间差在时间直方图中已经存在，则在时间直方图的对应时间差的次数上增加1，若该时间差在时间直方图中不存在，则在时间直方图中添加该时间差，并将其次数记为1，从而实现统计各时间差的数量，在对比完成之后，根据时间差直方图中的统计结果，确定共振峰音频指纹与验证共振峰音频指纹是否匹配，若匹配，则确定该共振峰音频指纹与验证共振峰音频指纹对比成功。图3是一个共振峰音频指纹与验证共振峰音频指纹匹配的直方图示例。

上述实施例中，终端通过获取验证共振峰音频指纹的所包含的验证共振峰哈希对和验证哈希键，从验证哈希键中筛选与共振峰音频指纹的哈希键相同的目标验证哈希键，获取各目标验证哈希键对应的目标验证共振峰哈希对的第一时间偏移量，以及与目标验证哈希键相同的哈希键对应的共振峰哈希对的第二时间偏移量，计算各第一时间偏移量与对应的第二时间偏移量的差，得到多个时间差，分别统计各时间差的数量，从而根据各时间差的数量确定共振峰音频指纹与验证共振峰音频指纹是否匹配，实现了音频指纹的对比，由于所提取的共振峰音频指纹能够更好地表征音频信号，因此在利用共振峰音频指纹进行音频对比时，所得到的对比结果的准确率也更高。

在一个实施例中，终端在提取出音频信号的共振峰音频指纹之后，还可以根据该共振峰音频指纹对音频信号进行音频搜索，具体包括以下步骤：获取与音频类型对应的共振峰音频指纹库，在共振峰音频指纹库中，搜索与音频信号的共振峰音频指纹匹配的目标共振峰音频指纹。其中，共振峰音频指纹库是根据多个音频文件的共振峰音频指纹构建的，共振峰音频指纹库的类型与其所包含的共振峰音频指纹所对应音频文件的音频类型相同，共振峰音频指纹库的类型可以是音乐类型或日常语音类型，音乐类型包括纯音乐类型和歌曲类型。共振峰指纹库中所包含的共振峰音频指纹也称为模板共振峰音频指纹。

在一个实施例中，终端在共振峰音频指纹库中，搜索与音频信号的共振峰音频指纹匹配的目标共振峰音频指纹，具体包括以下步骤：从共振峰音频指纹库中获取模板共振峰音频指纹，其中模板共振峰音频指纹包含模板共振峰哈希对和对应的模板哈希键，从模板哈希键中筛选与共振峰音频指纹的哈希键相同的目标模板哈希键，获取各目标模板哈希键对应的目标模板共振峰哈希对的第一时间偏移量，以及与目标模板哈希键相同的哈希键对应的共振峰哈希对的第二时间偏移量，计算各第一时间偏移量与对应的第二时间偏移量的差，得到多个时间差，统计该多个时间差分别对应的数量，根据各数量确定模板共振峰音频指纹为与音频信号的共振峰音频指纹的相似度，若相似度满足匹配条件，则确定模板共振峰音频指纹为与音频信号的共振峰音频指纹匹配的目标共振峰音频指纹。其中，匹配条件可以是相似度大于相似度阈值，或该相似度为各模板共振峰音频指纹与音频信号的共振峰音频指纹的多个相似度中的最大相似度。

上述实施例中，终端通过获取与音频类型对应的共振峰音频指纹库，在共振峰音频指纹库中，搜索与音频信号的共振峰音频指纹匹配的目标共振峰音频指纹，从而可以实现快速确定用于音频搜索的共振峰音频指纹库，提高音频搜索速度；另外由于所提取的共振峰音频指纹能够更好地表征音频信号，因此在利用共振峰音频指纹进行音频搜索时，所得到的搜索结果的准确率也更高。

在一个实施例中，终端在共振峰音频指纹库中，搜索到与音频信号的共振峰音频指纹匹配的目标共振峰音频指纹之后，获取该目标共振峰音频指纹对应的目标音频文件，并根据目标模板哈希键对应的目标模板共振峰哈希对的第一时间偏移量，确定该目标音频文件中与所搜索的音频信号对应的目标音频片段，并播放该音频片段或从该目标音频片段的起始位置播放目标音频文件。

结合音乐播放场景对上述实施例进行说明，例如，用户上传了一段自己哼唱歌曲的哼唱音频片段，终端在提取该哼唱音频片段的共振峰音频指纹之后，利用该共振峰音频指纹在音频指纹库中搜索到对应的目标共振峰音频指纹，并获取该目标共振峰音频指纹对应的目标歌曲文件A，然后根据音频搜索时目标模板哈希键对应的目标模板共振峰哈希对的第一时间偏移量，确定出用户的哼唱音频片段对应于目标歌曲文件A的1分15秒至1分30秒的目标歌曲片段，则终端从目标歌曲文件A的1分15秒开始播放目标歌曲文件A。另外，在播放目标歌曲文件A之前还可以提示用户是否从1分15秒开始播放，当用户拒绝从1分15秒开始播放时，则从目标歌曲文件A的起始位置（0分0秒）开始对目标歌曲文件A进行播放。

结合视频播放场景对上述实施例进行说明，例如，用户通过终端的视频播放应用上传了一段影视剧的音频片段，终端在提取该音频片段的共振峰音频指纹之后，利用该共振峰音频指纹在音频指纹库中搜索到对应的目标共振峰音频指纹，并获取该目标共振峰音频指纹对应的目标音频文件B和对应的视频文件C，然后根据音频搜索时目标模板哈希键对应的目标模板共振峰哈希对的第一时间偏移量，确定出用户上传的音频片段对应于目标音频文件B的13分50秒至14分的目标音频片段，则将视频文件C的13分50秒至14分的视频片段确定为与用户上传的音频片段对应的目标视频片段，并通过视频播放应用从视频文件C的13分50秒对视频文件进行播放。另外，在播放视频文件C之前还可以提示用户是否从13分50秒开始播放，当用户拒绝从13分50秒开始播放时，则从视频文件C的起始位置（0分0秒）开始对视频文件C进行播放。

上述实施例中，终端通过获取该目标共振峰音频指纹对应的目标音频文件，并根据目标模板哈希键对应的目标模板共振峰哈希对的第一时间偏移量，确定该目标音频文件中与所搜索的音频信号对应的目标音频片段，从而对音频信号在目标音频片段中的具体位置进行快读精准定位，避免了用户在获取目标共振峰音频指纹后还要进行繁琐的操作才能播放相应的多媒体内容，提高了多媒体文件的播放效率。

在一个实施例中，终端在共振峰音频指纹库中，搜索与音频信号的共振峰音频指纹匹配的目标共振峰音频指纹之前，还构建分别多种音频类型所对应的共振峰音频指纹库，构建共振峰音频指纹库的过程包括以下步骤：获取各音频文件和对应的音频类型；根据各音频类型确定各音频文件对应的峰值点频率区间；通过线性预测分析确定各音频文件的共振峰；根据各音频文件对应的峰值点频率区间和各音频文件的共振峰构建各音频文件的共振峰音频指纹；将各音频文件的共振峰音频指纹作为模板音频指纹生成与各音频类型对应的音频指纹库。其中构建音频指纹库时提取音频指纹的步骤与上述音频指纹提取方法中所描述的步骤相同。

上述实施例中，终端通过提取各音频文件的共振峰音频指纹，构建对应的音频指纹库，从而使得所构建的音频指纹库中的模板共振峰音频指纹更好地表征各音频文件，进而在进行音频搜索时，使得音频搜索的结果更加准确。

在一个实施例中，终端在确定各共振峰在音频信号的频谱图中的共振峰值点之后，还可以根据各共振峰值点构建三角哈希，其中三角哈希包含三个共振峰值点，并获取每个三角哈希中共振峰值点所对应的频率和时间偏移量，根据频率和时间偏移量，确定每个三角所对应的哈希键，得到音频信号的三角共振峰音频指纹；共振峰音频指纹包含各三角哈希，每个共振峰哈希对分别对应有哈希键。

具体地，根据各共振峰值点构建三角哈希的过程为，首选选择一个共振峰值点作为锚点，每个锚点都对应一个目标区域，每一个锚点都按顺序和目标区域中的两个共振峰值点进行组合，组合的结果是形成三角哈希，其中，每个目标区域中至少包含两个共振峰值点。

对根据频率和时间偏移量，确定每个三角所对应的哈希键进行举例说明，例如，三角哈希A包含共振峰值点1、共振峰值点2和共振峰值点3，其中共振峰值点1的频率为f ₁、时间偏移量为t ₁，共振峰值点2的频率为f ₂、时间偏移量为t ₂，共振峰值点3的频率为f ₃、时间偏移量为t ₃，则根据f ₁、f ₂、f ₃、t ₁、t ₂和t ₃可以确定三角哈希A的哈希键，具体可以计算共振峰值点1与共振峰值点2之间的时间差

，

，计算共振峰值点2与共振峰值点3之间的时间差

，

，并将根据f ₁、f ₂、f ₃、

和

确定共振峰哈希对A的哈希键，例如，对f ₁、f ₂、f ₃、

和

进行拼接，将拼接所得到的值确定为共振峰哈希对A的哈希键；或者对f ₁、f ₂、f ₃、

和

上述实施例中，终端在确定各共振峰在音频信号的频谱图中的共振峰值点之后，还可以根据各共振峰值点构建三角哈希，其中三角哈希包含三个共振峰值点，并获取每个三角哈希中共振峰值点所对应的频率和时间偏移量，根据频率和时间偏移量，确定每个三角所对应的哈希键，得到音频信号的三角共振峰音频指纹，其中共振峰音频指纹包含各三角哈希，每个共振峰哈希对分别对应有哈希键，进一步提高音频指纹中所携带的信息量，从而进一步提高了所得的共振峰音频指纹对音频信号表征的准确度，进而在根据音频信号的三角共振峰音频指纹进行音频对比或音频搜索时可以进一步提高音频对比的准确率或音频搜索结果的准确率。

在一个实施例中，图4所示，还提供了一种音频指纹提取方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

S402，对音频信号进行分帧，得到至少两个的单帧音频信号。

S404，通过线性预测分析确定各单帧音频信号的共振峰。

S406，确定各共振峰在音频信号的频谱图中的共振峰值点。

S408，根据各共振峰值点构建共振峰哈希对；共振峰哈希对包含两个共振峰值点。

S410，获取每个共振峰哈希对中共振峰值点所对应的频率和时间偏移量。

S412，根据频率和时间偏移量，确定每个共振峰哈希对所对应的哈希键，得到音频信号的共振峰音频指纹；共振峰音频指纹包含各共振峰哈希对，每个共振峰哈希对分别对应有哈希键。

S414，在共振峰音频指纹库中，搜索与音频信号的共振峰音频指纹匹配的目标共振峰音频指纹。

应该理解的是，虽然图2和4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种音频指纹提取装置，包括：分帧模块502、共振峰确定模块504、共振峰值点确定模块506、共振峰哈希对构建模块508、频率获取模块510和共振峰音频指纹构建模块512，其中：

分帧模块502，用于对音频信号进行分帧，得到至少两个的单帧音频信号；

共振峰确定模块504，用于通过线性预测分析确定各单帧音频信号的共振峰；

共振峰值点确定模块506，用于确定各共振峰在音频信号的频谱图中的共振峰值点；

共振峰哈希对构建模块508，用于根据各共振峰值点构建共振峰哈希对；共振峰哈希对包含两个共振峰值点；

频率获取模块510，用于获取每个共振峰哈希对中共振峰值点所对应的频率和时间偏移量；

共振峰音频指纹构建模块512，用于根据频率和时间偏移量，确定每个共振峰哈希对所对应的哈希键，得到音频信号的共振峰音频指纹；共振峰音频指纹包含各共振峰哈希对，每个共振峰哈希对分别对应有哈希键。

在一个实施例中，共振峰确定模块504，还用于：

通过线性预测分析计算各单帧音频信号的线性预测系数；

基于线性预测系数，采用插值法或求根法确定各单帧音频信号的共振峰。

在一个实施例中，共振峰哈希对构建模块508，还用于：

获取音频信号的音频类型；

根据音频类型确定音频信号对应的峰值点频率区间；

从共振峰值点中选择在峰值点频率区间内的目标共振峰值点；

根据各目标共振峰值点构建共振峰哈希对。

在一个实施例中，如图6所示，装置还包括：共振峰音频指纹库获取模块514和音频搜索模块516，其中：

共振峰音频指纹库获取模块514，用于获取与音频类型对应的共振峰音频指纹库；

音频搜索模块516，用于在共振峰音频指纹库中，搜索与音频信号的共振峰音频指纹匹配的目标共振峰音频指纹。

在一个实施例中，音频搜索模块516，还用于：

从共振峰音频指纹库中获取模板共振峰音频指纹；模板共振峰音频指纹包含模板共振峰哈希对和对应的模板哈希键；

从模板哈希键中筛选与共振峰音频指纹的哈希键相同的目标模板哈希键；

获取各目标模板哈希键对应的目标模板共振峰哈希对的第一时间偏移量，以及与目标模板哈希键相同的哈希键对应的共振峰哈希对的第二时间偏移量；

计算各第一时间偏移量与第二时间偏移量的差，得到多个时间差；

统计多个时间差分别对应的数量，根据各数量确定模板共振峰音频指纹为与音频信号的共振峰音频指纹的相似度；

若相似度满足匹配条件，则确定模板共振峰音频指纹为与音频信号的共振峰音频指纹匹配的目标共振峰音频指纹。

在一个实施例中，如图6所示，装置还包括：音频指纹库生成模块518，其中：

共振峰确定模块504还用于，获取各音频文件和对应的音频类型；根据各音频类型确定各音频文件对应的峰值点频率区间；通过线性预测分析确定各音频文件的共振峰；

共振峰音频指纹构建模块512还用于，根据各音频文件对应的峰值点频率区间和各音频文件的共振峰构建各音频文件的共振峰音频指纹；

音频指纹库生成模块518，用于将各音频文件的共振峰音频指纹作为模板音频指纹生成与各音频类型对应的音频指纹库。

关于音频指纹提取装置的具体限定可以参见上文中对于音频指纹提取方法的限定，在此不再赘述。上述音频指纹提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种音频指纹方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频指纹数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频指纹提取方法。

本领域技术人员可以理解，图7或8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频指纹提取方法，其特征在于，所述方法包括：

对音频信号进行分帧，得到至少两个的单帧音频信号；

通过线性预测分析确定各所述单帧音频信号的共振峰；所述共振峰为对应单帧音频信号的频谱包络的峰值，用于区分不同的音素；

根据所述共振峰值点中属于预设的峰值点频率区间的共振峰值点，构建共振峰哈希对；所述共振峰哈希对包含两个共振峰值点；

根据所述频率和所述时间偏移量，确定每个所述共振峰哈希对所对应的哈希键，得到所述音频信号的共振峰音频指纹；所述共振峰音频指纹包含各所述共振峰哈希对，每个所述共振峰哈希对分别对应有所述哈希键；所述共振峰音频指纹用于音频搜索。

2.根据权利要求1所述的方法，其特征在于，所述通过线性预测分析确定各所述单帧音频信号的共振峰，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述共振峰值点中属于预设的峰值点频率区间的共振峰值点，构建共振峰哈希对，包括：

获取所述音频信号的音频类型；

根据各所述目标共振峰值点构建共振峰哈希对。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取与所述音频类型对应的共振峰音频指纹库；

5.根据权利要求4所述的方法，其特征在于，所述在所述共振峰音频指纹库中，搜索与所述音频信号的共振峰音频指纹匹配的目标共振峰音频指纹，包括：

6.根据权利要求4所述的方法，其特征在于，所述在所述共振峰音频指纹库中，搜索与所述音频信号的共振峰音频指纹匹配的目标共振峰音频指纹之前，所述方法还包括：

获取各音频文件和对应的音频类型；

通过线性预测分析确定各所述音频文件的共振峰；

7.一种音频指纹提取装置，其特征在于，所述装置包括：

共振峰确定模块，用于通过线性预测分析确定各所述单帧音频信号的共振峰；所述共振峰为对应单帧音频信号的频谱包络的峰值，用于区分不同的音素；

共振峰哈希对构建模块，用于根据所述共振峰值点中属于预设的峰值点频率区间的共振峰值点，构建共振峰哈希对；所述共振峰哈希对包含两个共振峰值点；

共振峰音频指纹构建模块，用于根据所述频率和所述时间偏移量，确定每个所述共振峰哈希对所对应的哈希键，得到所述音频信号的共振峰音频指纹；所述共振峰音频指纹包含各所述共振峰哈希对，每个所述共振峰哈希对分别对应有所述哈希键；所述共振峰音频指纹用于音频搜索。

8.根据权利要求7所述的装置，其特征在于，所述共振峰确定模块，还用于：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。