CN105893549A

CN105893549A - 音频检索方法及装置

Info

Publication number: CN105893549A
Application number: CN201610200043.3A
Authority: CN
Inventors: 李邵梅; 朱宇航; 李星; 葛东东; 朱俊光; 李春伟
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-08-24
Anticipated expiration: 2036-03-31
Also published as: CN105893549B

Abstract

本申请提供了一种音频检索方法实施例，本实施例在获取到待检音频后，根据样本音频截取待检音频片段，并获取待检音频片段及样本音频中相同位置的某个或某些帧的特征编码，将样本音频及待检音频片段的某个或某些帧的特征编码进行比对，以初步判断样本音频与待检音频片段是否相似，若相似，则对待检音频片段进行逐帧的精细检索，从而获得检索结果。相较于现有的检索方式而言，本实施例在获得每个检索音频片段后，首先进行一级初步检索，在一级检索结果满足预设相似条件的情况下，才进行精细的二级检索。并且，一级初步检索时，仅对音频中某个或某些目标帧的特征编码进行比对，计算量较小，检索效率较高。另外，本申请还提供了一种音频检索装置。

Description

音频检索方法及装置

技术领域

本申请涉及音频处理技术领域，更具体地，是音频检索方法及装置。

背景技术

随着多媒体技术的发展，音频检索作为研究热点，已经在广告检索、网络监管领域得到了广泛应用。音频检索，是从待检音频中检索并定位与指定音频(或者称为样本音频)同源的音频片段。当然，同源并非完全相同，也可能经过翻录或者编码压缩等处理。

目前，一种音频检索方法是，将待检音频与样本音频按相同的时间间隔划分成帧系列，分别提取各帧的语音特征，并计算对应位置上的两个语音特征的距离，将各个距离累加后，根据距离和值来判断待检音频与样本音频的相似度。但是，由于样本音频通常较短，它在待检音频中的位置是不确定的，因此，需要采用滑移窗口的方式，依次在待检音频中，执行上述音频检索方法，以在待检音频中检索并定位样本音频。

然而，以上音频检索方式，运算量较大，检索效率较低。

发明内容

有鉴于此，本申请提供了一种音频检索方法，以解决现有音频检索方式，运算量较大，检索效率较低的技术问题。另外，本申请还提供了一种音频检索装置，用以保证所述方法在实际中的应用及实现。

为实现所述目的，本申请提供的技术方案如下：

本申请的第一方面提供了一种音频检索方法，该方法包括：

获取样本音频及待检音频，并在所述待检音频中提取与所述样本音频相同时长的待检音频片段；

获取所述样本音频中第一目标帧的特征编码，并获取所述待检音频片段中与所述第一目标帧相同位置的第二目标帧的特征编码；其中，所述第一目标帧的特征编码用于表示所述样本音频与预先收集的基础样本音频的相似度，所述第二目标帧的特征编码用于表示所述待检音频片段与所述基础样本音频的相似度；

将所述第一目标帧的特征编码与所述第二目标帧的特征编码进行比对；

若比对结果满足预设相似条件，则对所述样本音频及所述待检音频片段进行逐帧精细检索，以获得所述样本音频与所述待检音频片段是否同源的检索结果；

若比对结果不满足所述预设相似条件，则返回在所述待检音频中提取与所述样本音频相同时长的下一待检音频片段，直到所述待检音频中不存在下一待检音频片段。

本申请的第二方面提供了一种音频检索装置，该装置包括：

样本音频及待检音频片段获得模块，用于获取样本音频及待检音频，并在所述待检音频中提取与所述样本音频相同时长的待检音频片段；

特征编码获得模块，用于获取所述样本音频中第一目标帧的特征编码，并获取所述待检音频片段中与所述第一目标帧相同位置的第二目标帧的特征编码；其中，所述第一目标帧的特征编码用于表示所述样本音频与预先收集的基础样本音频的相似度，所述第二目标帧的特征编码用于表示所述待检音频片段与所述基础样本音频的相似度；

特征编码比对模块，用于将所述第一目标帧的特征编码与所述第二目标帧的特征编码进行比对；若比对结果满足预设相似条件，则触发音频精细检索模块；若比对结果不满足所述预设相似条件，则触发样本音频及待检音频片段获得模块在所述待检音频中提取与所述样本音频相同时长的下一待检音频片段，直到所述待检音频中不存在下一待检音频片段；

音频精细检索模块，用于对所述样本音频及所述待检音频片段进行逐帧精细检索，以获得所述样本音频与所述待检音频片段是否同源的检索结果。

由以上技术方案可知，本申请提供了一种音频检索方法实施例，本实施例在获取到待检音频后，根据样本音频截取待检音频片段，并获取待检音频片段及样本音频中相同位置的某个或某些帧的特征编码，特征编码可以表示待检音频片段及样本音频与相同的基础样本音频的相似度，因此，可以将样本音频及待检音频片段的某个或某些帧的特征编码进行比对，以初步判断样本音频与待检音频片段是否相似，若相似，则对样本音频及待检音频片段进行逐帧的精细检索，从而获得样本音频与待检音频片段是否同源的检索结果。相较于现有的检索方式而言，本实施例在获得每个检索音频片段后，首先进行一级初步检索，在一级检索结果满足预设相似条件的情况下，才进行精细的二级检索。并且，一级初步检索时，仅对音频中某个或某些目标帧的特征编码进行比对，计算量较小，检索效率较高。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的音频检索方法实施例1的流程图；

图2为本申请提供的样本音频的第一目标帧的二进制编码的生成流程图；

图3为本申请提供的待检音频片段的第二目标帧的二进制编码的生成流程图；

图4为本申请提供的音频检索方法的生成示意图；

图5为本申请提供的PLPCC算法提取语音特征的过程示意图；

图6为本申请提供的音频检索装置实施例1的结构示意图；

图7为本申请提供的音频检索装置实施例2的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，其示出了本申请提供的音频检索方法实施例1的流程。如图1所示，本实施例可以具体包括以下步骤S101～步骤S104。

步骤S101：获取样本音频及待检音频，并在待检音频中提取与样本音频相同时长的待检音频片段。

在实施前，可以收集若干样本音频，构建成样本音频库。因此，在实施时，可以从该样本音频库中获取某个样本音频。

通常地，相较于待检音频而言，样本音频的长度较短，为了实现后续的比对，需要在待检音频提取与样本音频相同的待检音频片段。

步骤S102：获取样本音频中第一目标帧的特征编码，并获取待检音频片段中与第一目标帧相同位置的第二目标帧的特征编码；其中，第一目标帧的特征编码用于表示样本音频与预先收集的基础样本音频的相似度，第二目标帧的特征编码用于表示待检音频片段与基础样本音频的相似度。

可以理解的是，可以对样本音频及待检音频片段进行分帧操作，从而，可以认为，样本音频及待检音频片段是一帧一帧的音频数据组成的。分帧操作可以使用现有的分帧方法，此处并不赘述。

需要说明的是，可以预先根据收集的若干基础样本音频，为样本音频中的某个或某些帧生成特征编码。为了与待检音频片段中的目标帧区分，将样本音频中的该某个或某些帧称为第一目标帧。在实施中，基于减少检索计算量的考虑，第一目标帧越少越佳，优选地，第一目标帧为一个，且是样本音频中的第一帧即首帧。当然，本领域技术人员可以理解并期望，使用多个第一目标帧以及使用其他位置的第一目标帧，而此些实现方式均不脱离本申请的保护范围。

同理，待检音频片段中的某个或某些帧也具有特征编码。为了与样本音频的第一目标帧区分，待检音频片段中的此个或此些帧称为第二目标帧。样本音频与待检音频片段是相同时长的，可以理解的是，为了进行后续特征编码的比对，第一目标帧在样本音频中的位置与第二目标帧在待检音频片段中的位置是相同的。

例如，第一目标帧是样本音频中的首帧，则第二目标帧也为待检音频片段中的首帧。第一目标帧及第二目标帧均为首帧，此种方式容易在音频中确定出第一目标帧及第二目标帧，因此最容易实现且方便快捷。

需要说明的是，特征编码是样本音频及待检音频片段中某个或某些帧的特征编码，是基于此个或此些帧的语音特征生成的，在生成过程中，需要将此个或此些帧与基础样本音频的语音特征进行比对。因此，第一目标帧的特征编码反映了样本音频与基础样本音频的相似度，第二目标帧的特征编码反映了待检音频片段与基础样本音频的相似度。生成特征编码的一种具体方式请参见下文。

步骤S103：将第一目标帧的特征编码与第二目标帧的特征编码进行比对。若比对结果满足预设相似条件，则执行步骤S104，若比对结果不满足预设相似条件，则返回步骤S101在待检音频中提取与样本音频相同时长的下一待检音频片段，直到所述待检音频中不存在下一待检音频片段。

由以上可知，第一目标帧的特征编码及第二目标帧的特征编码表示与相同基础样本音频的相似度，因此，第一目标帧的特征编码与第二目标帧的特征编码是具有可比性的。进而，可以将第一目标帧的特征编码与第二目标帧的特征编码进行比较，以判断两个特征编码是否相似甚至相同。

若相似甚至相同，则执行步骤S104。否则，在待检音频中截取下一段与待检音频片段相同时间长度的待检音频片段，重新进行步骤S102～步骤S104的检索。当然，若待检音频中并不存在下一段待检音频片段，则停止执行，确定待检音频与样本音频不同源。

步骤S104：对样本音频及待检音频片段进行逐帧精细检索，以获得样本音频与待检音频片段是否同源的检索结果。

其中，第一目标帧的特征编码与第二目标帧的特征编码相似，可以表示第一目标帧与第二目标帧相似，但由于第一目标帧是样本音频中的部分帧甚至一帧，第二目标帧是待检音频片中的部分帧甚至一帧，因此，第一目标帧与第二目标帧的相似，仅仅是初步粗略确定样本音频与待检音频片段相似。

在进行上述初步的一级检索后，还需要对样本音频及待检音频片段进行进一步的二级检索，二级检索是逐帧精细比较。需要说明的是，二级检索采用的是现有的逐帧检索方式，具体检索方式可以参见下文描述。经过二级检索后，便可以确定样本音频与待检音频片段是否同源。

由以上的技术方案可知，本申请提供了一种音频检索方法实施例，本实施例在获取到待检音频后，根据样本音频截取待检音频片段，并获取待检音频片段及样本音频中相同位置的某个或某些帧的特征编码，特征编码可以表示待检音频片段及样本音频与相同的基础样本音频的相似度，因此，可以将样本音频及待检音频片段的某个或某些帧的特征编码进行比对，以初步判断样本音频与待检音频片段是否相似，若相似，则对样本音频及待检音频片段进行逐帧的精细检索，从而获得样本音频与待检音频片段是否同源的检索结果。相较于现有的检索方式而言，本实施例在获得每个检索音频片段后，首先进行一级初步检索，在一级检索结果满足预设相似条件的情况下，才进行精细的二级检索。并且，一级初步检索时，仅对音频中某个或某些目标帧的特征编码进行比对，计算量较小，检索效率较高。

在实施中，样本音频中第一目标帧的特征编码可以是预先生成的，即获得样本音频库后，便可以训练生成样本训练库中每个样本音频的第一目标帧的特征编码，进而在对待检音频进行检索时，可以直接获取该特征编码。另外，生成的特征编码可以是二进制编码形式。

参见图2，其示出了样本音频的第一目标帧的二进制编码的生成流程。如图2所示，生成流程可以包括步骤S201～步骤S205。

步骤S201：获取若干基础样本音频，并提取若干基础样本音频中每帧音频的语音特征；其中，每个语音特征均包括相同数目维度的特征值。

其中，可以将样本音频库中的样本音频作为基础样本音频，也就是说，获取样本音频库中的样本音频作为基础样本音频。

针对每个基础样本音频，提取该基础样本音频中每帧音频的语音特征。可选地，提取语音特征的算法可以是PLPCC(Perceptual LinearPredictiveCepstralCoefficient，感知线性预测倒谱系数)算法，该算法提取到的语音特征包括8维的特征值。当然，提取语音特征的算法还可以是其他，并不局限于此。需要说明的是，提取语音特征的算法不同，则提取到的语音特征的维度数也不尽相同。

提取到的语音特征可以组成语音特征集合F＝{f⁽¹⁾,f⁽²⁾,...,f^(T)}。该语音特征集合包含的是每个基础样本音频中每帧的语音特征，因此，T是所有基础样本音频的所有帧数的总和。f⁽ⁱ⁾(1≤i≤T)是语音特征，语音特征包含多个维度的特征值，其中，特征值是语音特征向量。

步骤S202：分别获取每个维度的特征值中的中值，组成中值序列。

由以上可知，语音特征集合F中每个语音特征均具有相同数目维度的特征值，则可以针对每个维度，在该维度所对应的特征值中，确定中值。将确定出的所有维度的中值组成中值序列。

可以理解的是，中值(或称中位数)是指统计总体中的各个变量值按照大小顺序依次排列，处于排列中间位置的变量值称为中值。若变量项数为奇数，则处于中间位置的变量为中值，若变量项数为偶数，则处于中间位置的两个变量值的平均值为中值。

假设语音特征集合F中的语音特征f⁽ⁱ⁾均为8维度，则组成中值序列m的方式是：m＝{m₁,m₂,...,m₈}，其中，当然，其他维度数的中值序列的生成方式与此相同。

假设，基础样本音频为5816个2秒左右的音频片段，提取PLPCC语音特征后，根据5816个基础样本音频的PLPCC语音特征，获得的中值序列为：m＝{-0.2601,-0.5249,-0.5868,-0.6182,-0.3870,-0.4331,-0.1426,-0.2715}。

步骤S203：从若干基础样本音频中提取一个作为样本音频，并提取样本音频中第一目标帧的语音特征；其中，第一目标帧的语音特征包括相同数目维度的特征值。

在根据整个样本音频库获得中值序列后，需要提取该样本音频库中每个样本音频的语音特征，进而，再将每个样本音频的语音特征与中值序列进行比对后，根据比对结果生成二进制编码。

具体地，使用上述提取基础样本音频的语音特征的算法，提取样本音频的第一目标帧的语音特征。这样，第一目标帧的语音特征的维度数目便与基础样本音频的维度数目相同，也便与中值序列中数值的个数相同。

步骤S204：将第一目标帧的语音特征中的特征值与中值序列中相同维度的特征值进行比对。

可以理解的是，中值序列中数值的个数与语音特征的维度数相同，且不同数值分别与不同的维度对应。例如，中值序列m＝{m₁,m₂,...,m₈}，其中，m₁为维度1的中值，m₂为维度2的中值，以此类推，m₈为维度8的中值。

第一目标帧的语音特征也包括多个维度的特征值，因此，将第一目标帧的语音特征中的特征值与中值序列中相同维度的特征值进行比对。

例如，第一目标帧的语音特征为f＝{f₁,f₂,...,f₈}，中值序列m＝{m₁,m₂,...,m₈}，则分别将f₁与m₁、f₂与m₂、……f₈与m₈进行比对。

步骤S205：根据比对结果，获得第一目标帧的语音特征的二进制编码。

具体地，若第一目标帧的语音特征中的特征值大于中值序列中的特征值，则编码为1，否则，编码为0。公式化描述为：

L为维度数。

这样，样本音频中第一目标帧的语音特征f＝{f₁,f₂,...,f₈}便可以编码生成L位的二进制序列，即cod(f)＝cod(f₁)cod(f₂)...cod(f_L)。

例如，f＝{-0.216672,-0.446505,-0.621765,-0.590700,-0.361975,-0.513275,-0.191458,-0.190835}，m＝{-0.2601,-0.5249,-0.5868,-0.6182,-0.3870,-0.4331,-0.1426,-0.2715}，则生成的二进制编码为：11011001。

生成每个样本音频的第一目标帧的二进制编码后，可以预先保存。在对待检索音频进行检索时，直接获取该样本音频的二进制编码作为特征编码，以提高音频检索的效率。

以上流程是，在对待检音频片段进行音频检索前，预先训练样本音频的第一目标帧的特征编码。可以理解的是，在音频检索的过程中，还需要获得待检音频片段的第二目标帧的特征编码。需要说明的是，训练阶段可以保存生成的中值序列，进而，使用该中值序列，获得待检音频片段的第二目标帧的特征编码。

具体地，生成待检音频片段的第二目标帧的特征编码的方式可以参见图3。如图3所示，具体包括以下步骤S301～步骤S304。

步骤S301：在待检音频片段中，确定与第一目标帧相同位置的第二目标帧。

步骤S302：提取第二目标帧的语音特征；其中，第二目标帧的语音特征包括相同数目维度的特征值。

其中，根据样本音频中的第一目标帧，在待检音频片段中的相同位置查找目标帧，并将查找到的目标帧称为第二目标帧。进而，使用PLPCC等算法提取该第二目标帧的语音特征。

例如，样本音频中的第一目标帧为首帧，则提取待检音频片段中首帧的语音特征。提取语音特征的算法与提取基础样本音频的相同，则第二目标帧的语音特征包含与基础样本音频的语音特征中相同数目维度的特征值，维度数目与中值序列的维度数目也相同。例如，中值序列包含8个维度上的特征值，第二目标帧的语音特征包含8个维度的特征值。

步骤S303：将第二目标帧的语音特征中的特征值与中值序列中相同维度的特征值进行比对。

步骤S304：根据比对结果，获得第二目标帧的二进制形式的特征编码。

其中，与上述生成样本音频的二进制编码的方式相同，将第二目标帧的语音特征的特征值与中值序列中的特征值比对后，若前者大于后者，则编码为1，否则，编码为0。经过编码后，便可以获得待检音频片段的第二目标帧的二进制序列形式的特征编码。

以上特征编码通过比较特征值的大小获得，生成方式较为简单。

上述生成的样本音频的第一目标帧的语音特征、以及待检音频片段的第二目标帧的语音特征均为二进制编码，则上述音频检索方法实施例1中用来判断两个语音特征是否相似的预设相似条件，可以是二进制编码中相同的编码位数。

具体地，若两个二进制编码比对时，相同二进制位的个数满足预设个数阈值，则表示比对结果满足预设相似条件，否则，不满足预设相似条件。此种比较方式仅仅是基于二进制编码的与或运算进行，运算量较小。

例如，第一目标帧的二进制编码为11011001，第二目标帧的二进制编码为10111001，且预设个数阈值为5个，则该第一目标帧与该第二目标帧满足预设相似条件。

又如，第一目标帧的二进制编码为11011001，第二目标帧的二进制编码为10111111，且预设个数阈值为5个，则该第一目标帧与该第二目标帧不满足预设相似条件。

根据以上音频检索方法实施例1的说明可知，只有在初步检索时，满足预设相似条件的情况下，才会对样本音频进行逐帧精细检索的过程。

以下介绍一种具体的逐帧精细检索的方式。

首先，提取样本音频中每帧音频的语音特征、以及待检音频片段中每帧音频的语音特征，然后，计算样本音频与待检音频片段中相同位置帧音频的语音特征之间的距离，进而，统计各个距离的和值，若各个距离的和值小于预设距离门限值，则确定待检音频片段与样本音频同源；否则，确定待检音频片段与样本音频不同源。

例如，样本音频的语音特征集合为R＝{r⁽¹⁾,r⁽²⁾,...r⁽ⁱ⁾...,r^(N)}，待检音频片段的语音特征集合为T＝{t⁽¹⁾,t⁽²⁾,...t⁽ⁱ⁾...,t^(N)}，其中，N为音频中的帧数，r⁽ⁱ⁾为样本音频中某帧的语音特征，t⁽ⁱ⁾为待检音频片段中某帧的语音特征，且1≤i≤N。

进而，使用欧式距离计算公式来计算并统计样本音频与待检音频片段的语音特征之间的距离。若D(R,T)小于预设距离门限值，则确定待检音频片段与样本音频同源，若D(R,T)大于等于预设距离门限值，则确定待检音频片段与样本音频不同源。

当然，可以使用其他的距离计算公式，或者其他的逐帧精细检索的方式对待检音频片段进行精细检索。

在上述音频检索方法实施例1的步骤S101中，在待检音频中提取与样本音频相同时长的待检音频片段的具体实现方式可以是，依据样本音频的长度生成滑动窗口，使用滑动窗口从待检音频中提取待检音频片段。

下面结合图示4，并以第一目标帧为样本音频的首帧、第二目标帧为待检音频片段的首帧为例，来说明音频检索方法实施例的实现过程。

如图4所示，在获取到样本音频及待检音频后，使用滑动窗口从待检音频的首帧开始，按照一定步长(通常为1帧)进行滑动，滑动窗口内的待检音频便作为待检音频片段。

对样本音频及待检音频片段进行分帧操作后，获得样本音频帧序列及待检音频片段的帧序列。

提取样本音频中每帧音频的语音特征，从而获得样本音频的语音特征集合；提取待检音频片段中每帧音频的语音特征，从而获得待检音频片段的语音特征集合。

获取样本音频的首帧的二进制编码，并获取待检音频片段的首帧的二进制编码；其中，二进制编码都是基于首帧的语音特征生成的。

将两个首帧的二进制编码按位进行比较，若相同的二进制位大于预设个数阈值，则进一步进行精细检索，否则，移动滑动窗口后，获得下一个待检音频片段，重新进行上传初步检索过程。

在进行精细检索时，逐帧计算语音特征的距离后，统计距离的累加值。将距离的累加值与预设的门限阈值比较，若小于，则表示待检音频片段与样本音频同源，即检索成功。若大于等于，则表示待检音频片段与样本音频不同源，即检索失败，进而，可以移动滑动窗口后，获得下一个待检音频片段，重新进行上传初步检索过程。若滑动窗口移动至待检音频的最后，也并未检索到与样本音频同源的片段，则表示该待检音频整体与样本音频不同源。

需要说明的是，图4中虚线框内的即是初步检索过程。该初步检索过程是相对于现有的音频检索方式而言最重要的区别之处。

现有技术中，在检索过程中，对每个滑动窗口内的待检音频片段均进行精细检索，然而，本申请中，只有在初步检索成功的情况下，才进行后续精细检索。另外，初步检索使用的二进制编码生成方式简单，并且，在比对二进制编码时，仅仅基于首帧的二进制编码进行与或运算，运算量较小。因此，本申请提供的音频检索方式运算量较少，检索效率较高。

为了更充分的说明音频检索方法，下面对提取语音特征的算法进行介绍。

具体地，提取语音特征的算法可以有很多，例如，常用的有MFCC(Mel-Frequency Cepstral Coefficients,美尔频率倒谱系数)、LPCC(LinearPrediction CepstralCoefficient，线性预测倒谱系数)、PLPCC(Perceptual LinearPredictiveCepstralCoefficient，感知线性预测倒谱系数)等。此处仅对PLPCC算法进行详细说明。

PLPCC算法提取语音特征的过程请参见图5。

音频数据经过采样量化、分帧等预处理之后，逐帧提取PLPCC特征，提取流程如下：

1、频谱分析

对每帧音频数据进行离散傅立叶变换，取短时语音谱实部和虚部的平方和，得到短时功率谱P(f)，其中，P(f)＝Re(X(f))²+Im(X(f))²。

2、临界频带分析

临界频带反映了人耳听觉的掩蔽效应，是对人耳听觉模型的模拟。一个纯语音可以被以它为中心频率，且具有一定的连续噪声所掩蔽，如果在这一频带内噪声功率等于该纯音的功率，这时该纯音处于刚好能被听到的临界状态，即称这一频带为临界频带(一个临界带宽的单位用Bark表示)。利用关系式：

Z (f) = 6 \times l n [\frac{f}{600} + \sqrt{{(\frac{f}{600})}^{2} + 1}] .

将频谱P(f)的频率f(Hz)映射到Bark频率Z(Bark)，总共得到20个频带。将这20个频带中每个频带内的能量谱与如下权重系数相乘，求和后即得到临界带宽听觉谱θ(k)。权重系数的计算公式为：

C_{k} (Z) = \{\begin{matrix} 0 & Z - Z_{k} < 1.3 \\ 10^{(Z - Z_{k} + 0.5)} & 1.3 \leq Z - Z_{k} \leq - 0.5 \\ 1 & - 0.5 < Z - Z_{k} < 0.5 \\ 10^{2.5 (Z - Z_{k} - 0.5)} & 0.5 \leq Z - Z_{k} \leq 2.5 \\ 0 & Z - Z_{k} > 2.5 \end{matrix} .

则临界带功率谱为：

其中，Z_k表示第k个临界带听觉谱的中心频率。

3、等响度预加重

根据人耳对于不同的频率的敏感性不同这一特点，通过对Φ(k)进行等响度曲线预加重，使得听觉响度在不同频率近似相等，计算公式如下：

Γ(k)＝E[f₀(k)]Φ(k)。

其中，f₀(k)表示第k个临界带听觉谱的中心频率所对应的频率(Hz)，E[f₀(k)]为等响度曲线函数，由下式获得：

E (w) = \frac{w^{2} (w^{2} + 1.44 \times 10^{6})}{(w^{2} + 1.6 \times 10^{5}) (w^{2} + 9.61 \times 10^{6})}, w = f_{0} (k) .

4、能量强度与听觉响度转换

将能量的强度近似地转换成为人耳听觉感知的响度：Θ(k)＝Γ(k)^0.33。

经过离散傅立叶变换之后，用德宾(Durbin)算法计算8阶全极点模型，得到的系数再计算倒谱系数，最后得到本申请中的8维语音特征。

以下对本申请提供的音频检索装置进行介绍，需要说明的是，下文有关音频检索装置的说明可以参见上文提供的音频检索方法，以下并不赘述。

与上述音频检索方法实施例1相对应，本申请提供了一种音频检索装置实施例1。如图6所示，本装置实施例可以具体包括：样本音频及待检音频片段获得模块601、特征编码获得模块602、特征编码比对模块603及音频精细检索模块604。其中：

样本音频及待检音频片段获得模块601，用于获取样本音频及待检音频，并在待检音频中提取与样本音频相同时长的待检音频片段；

特征编码获得模块602，用于获取样本音频中第一目标帧的特征编码，并获取待检音频片段中与第一目标帧相同位置的第二目标帧的特征编码；其中，第一目标帧的特征编码用于表示样本音频与预先收集的基础样本音频的相似度，第二目标帧的特征编码用于表示待检音频片段与基础样本音频的相似度；

特征编码比对模块603，用于将第一目标帧的特征编码与第二目标帧的特征编码进行比对；若比对结果满足预设相似条件，则触发音频精细检索模块；若比对结果不满足预设相似条件，则触发样本音频及待检音频片段获得模块601在待检音频中提取与样本音频相同时长的下一待检音频片段，直到所述待检音频中不存在下一待检音频片段；

音频精细检索模块604，用于对样本音频及待检音频片段进行逐帧精细检索，以获得样本音频与待检音频片段是否同源的检索结果。

由以上的技术方案可知，本申请提供了一种音频检索装置实施例，本实施例中的样本音频及待检音频片段获得模块601在获取到待检音频后，根据样本音频截取待检音频片段，特征编码获得模块602获取待检音频片段及样本音频中相同位置的某个或某些帧的特征编码，特征编码可以表示待检音频片段及样本音频与相同的基础样本音频的相似度，因此，特征编码比对模块603可以将样本音频及待检音频片段的某个或某些帧的特征编码进行比对，以初步判断样本音频与待检音频片段是否相似，若相似，则音频精细检索模块604对样本音频及待检音频片段进行逐帧的精细检索，从而获得样本音频与待检音频片段是否同源的检索结果。相较于现有的检索方式而言，本实施例在获得每个检索音频片段后，首先进行一级初步检索，在一级检索结果满足预设相似条件的情况下，才进行精细的二级检索。并且，一级初步检索时，仅对音频中某个或某些目标帧的特征编码进行比对，计算量较小，检索效率较高。

在上述音频检索装置中，特征编码获得模块602获得的第一目标帧的特征编码为预先生成的二进制编码；相应地，如图7所示，该音频检索装置还包括：训练模块605。

其中，训练模块605，用于生成第一目标帧的二进制编码；

进一步地，训练模块605可以具体包括：第一语音特征提取子模块701、中值序列生成子模块702、第二语音特征提取子模块703、语音特征比较子模块704及二进制编码生成子模块705。其中：

第一语音特征提取子模块701，用于获取若干基础样本音频，并提取若干基础样本音频中每帧音频的语音特征；其中，每个语音特征均包括相同数目维度的特征值；

中值序列生成子模块702，用于分别获取每个维度的特征值中的中值，组成中值序列；

第二语音特征提取子模块703，用于从若干基础样本音频中提取一个作为样本音频，并提取样本音频中第一目标帧的语音特征；其中，第一目标帧的语音特征包括相同数目维度的特征值；

语音特征比较子模块704，用于将第一目标帧的语音特征中的特征值与中值序列中相同维度的特征值进行比对；

二进制编码生成子模块705，用于根据比对结果，获得第一目标帧的语音特征的二进制编码。

在实施中，音频检索装置中的特征编码获得模块602可以具体包括：样本音频特征编码获取子模块、以及待检音频片段特征编码获取子模块；其中：

样本音频特征编码获取子模块，用于获取样本音频中第一目标帧的特征编码；待检音频片段特征编码获取子模块，用于获取待检音频片段中与第一目标帧相同位置的第二目标帧的特征编码；

其中，待检音频片段特征编码获取子模块可以包括：第二目标帧确定单元、第二目标帧语音特征提取单元、比较单元及二进制编码生成单元。其中：

第二目标帧确定单元，用于在待检音频片段中，确定与第一目标帧相同位置的第二目标帧；

第二目标帧语音特征提取单元，用于提取第二目标帧的语音特征；其中，第二目标帧的语音特征包括相同数目维度的特征值；

比较单元，用于将第二目标帧的语音特征中的特征值与中值序列中相同维度的特征值进行比对；

二进制编码生成单元，用于根据比对结果，获得第二目标帧的二进制形式的特征编码。

在实施中，音频精细检索模块可以具体包括：每帧语音特征提取子模块、各帧语音特征距离统计子模块、检索成功模块及检索失败模块。其中：

每帧语音特征提取子模块，用于提取样本音频中每帧音频的语音特征、以及待检音频片段中每帧音频的语音特征；

各帧语音特征距离统计子模块，用于计算样本音频与待检音频片段中相同位置帧音频的语音特征之间的距离；若各个距离的和值小于预设距离门限值，则触发检索成功模块，若各个距离的和值不小于预设距离门限值，则触发检索失败模块；

检索成功模块，用于确定待检音频片段与样本音频同源；

检索失败模块，用于确定待检音频片段与样本音频不同源。

另外，样本音频及待检音频片段获得模块可以具体包括：样本音频及待检音频片段获得子模块。其中：

样本音频及待检音频片段获得子模块，用于获取样本音频及待检音频，并依据样本音频的长度生成滑动窗口，使用滑动窗口从待检音频中提取待检音频片段。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频检索方法，其特征在于，包括：

2.根据权利要求1所述的音频检索方法，其特征在于，所述第一目标帧的特征编码为预先生成的二进制编码，生成所述第一目标帧的二进制编码的步骤包括：

获取若干基础样本音频，并提取所述若干基础样本音频中每帧音频的语音特征；其中，每个所述语音特征均包括相同数目维度的特征值；

分别获取每个维度的特征值中的中值，组成中值序列；

从所述若干基础样本音频中提取一个作为样本音频，并提取所述样本音频中第一目标帧的语音特征；其中，所述第一目标帧的语音特征包括所述相同数目维度的特征值；

将所述第一目标帧的语音特征中的特征值与所述中值序列中相同维度的特征值进行比对；

根据比对结果，获得所述第一目标帧的语音特征的二进制编码。

3.根据权利要求1所述的音频检索方法，其特征在于，所述获取所述待检音频片段中与所述第一目标帧相同位置的第二目标帧的特征编码，包括：

在所述待检音频片段中，确定与所述第一目标帧相同位置的第二目标帧；

提取所述第二目标帧的语音特征；其中，所述第二目标帧的语音特征包括所述相同数目维度的特征值；

将所述第二目标帧的语音特征中的特征值与所述中值序列中相同维度的特征值进行比对；

根据比对结果，获得所述第二目标帧的二进制形式的特征编码。

4.根据权利要求1所述的音频检索方法，其特征在于，所述对所述样本音频及所述待检音频片段进行逐帧精细检索，包括：

提取所述样本音频中每帧音频的语音特征、以及所述待检音频片段中每帧音频的语音特征；

计算所述样本音频与所述待检音频片段中相同位置帧音频的语音特征之间的距离；

若各个所述距离的和值小于预设距离门限值，则确定所述待检音频片段与所述样本音频同源；

若各个所述距离的和值不小于所述预设距离门限值，则确定所述待检音频片段与所述样本音频不同源。

5.根据权利要求1所述的音频检索方法，其特征在于，所述获取样本音频及待检音频，并在所述待检音频中提取与所述样本音频相同时长的待检音频片段，包括：

获取样本音频及待检音频，并依据所述样本音频的长度生成滑动窗口，使用所述滑动窗口从所述待检音频中提取待检音频片段。

6.一种音频检索装置，其特征在于，包括：

7.根据权利要求6所述的音频检索装置，其特征在于，所述特征编码获得模块获得的第一目标帧的特征编码为预先生成的二进制编码；相应地，该装置还包括：训练模块，用于生成所述第一目标帧的二进制编码；

其中，所述训练模块包括：

第一语音特征提取子模块，用于获取若干基础样本音频，并提取所述若干基础样本音频中每帧音频的语音特征；其中，每个所述语音特征均包括相同数目维度的特征值；

中值序列生成子模块，用于分别获取每个维度的特征值中的中值，组成中值序列；

第二语音特征提取子模块，用于从所述若干基础样本音频中提取一个作为样本音频，并提取所述样本音频中第一目标帧的语音特征；其中，所述第一目标帧的语音特征包括所述相同数目维度的特征值；

语音特征比较子模块，用于将所述第一目标帧的语音特征中的特征值与所述中值序列中相同维度的特征值进行比对；

二进制编码生成子模块，用于根据比对结果，获得所述第一目标帧的语音特征的二进制编码。

8.根据权利要求6所述的音频检索装置，其特征在于，所述特征编码获得模块包括：

样本音频特征编码获取子模块，用于获取所述样本音频中第一目标帧的特征编码；

待检音频片段特征编码获取子模块，用于获取所述待检音频片段中与所述第一目标帧相同位置的第二目标帧的特征编码；

其中，所述待检音频片段特征编码获取子模块包括：

第二目标帧确定单元，用于在所述待检音频片段中，确定与所述第一目标帧相同位置的第二目标帧；

第二目标帧语音特征提取单元，用于提取所述第二目标帧的语音特征；其中，所述第二目标帧的语音特征包括所述相同数目维度的特征值；

比较单元，用于将所述第二目标帧的语音特征中的特征值与所述中值序列中相同维度的特征值进行比对；

二进制编码生成单元，用于根据比对结果，获得所述第二目标帧的二进制形式的特征编码。

9.根据权利要求6所述的音频检索装置，其特征在于，所述音频精细检索模块包括：

每帧语音特征提取子模块，用于提取所述样本音频中每帧音频的语音特征、以及所述待检音频片段中每帧音频的语音特征；

各帧语音特征距离统计子模块，用于计算所述样本音频与所述待检音频片段中相同位置帧音频的语音特征之间的距离；若各个所述距离的和值小于预设距离门限值，则触发检索成功模块，若各个所述距离的和值不小于所述预设距离门限值，则触发检索失败模块；

检索成功模块，用于确定所述待检音频片段与所述样本音频同源；

检索失败模块，用于确定所述待检音频片段与所述样本音频不同源。

10.根据权利要求6所述的音频检索装置，其特征在于，所述样本音频及待检音频片段获得模块包括：

样本音频及待检音频片段获得子模块，用于获取样本音频及待检音频，并依据所述样本音频的长度生成滑动窗口，使用所述滑动窗口从所述待检音频中提取待检音频片段。