CN101221760A

CN101221760A - 一种音频匹配方法及系统

Info

Publication number: CN101221760A
Application number: CNA2008100571619A
Authority: CN
Inventors: 赵丹; 王向东; 钱跃良; 刘群; 林守勋
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2008-01-30
Filing date: 2008-01-30
Publication date: 2008-07-16
Anticipated expiration: 2028-01-30
Also published as: CN101221760B; WO2009097738A1

Abstract

本发明提供一种音频匹配方法，用于从待测音频流片段中检测出与标准音频库中音频样例相匹配的音频片段，包括：在待测音频流片段的能量包络单元图上，选择每个能量包络单元的起始点作为匹配操作的点；将每个音频样例以及待测音频流片段用切分点和概率对组成的数对形式表示；将待测音频流片段的数对依次与每个音频样例的数对进行比较，得到匹配点以及对应的匹配概率；采用相似性度量函数对匹配点以及对应的音频样例进行计算，得到两者的相似值；将相似值与一个预先设定的阈值进行比较，若所述的相似值大于该阈值，则认为与匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。本发明具有计算简便、运算速度快的优点。

Description

一种音频匹配方法及系统

技术领域

本发明涉及音频匹配领域，特别是涉及一种基于单元的快速音频匹配方法。

背景技术

随着视频、音频等多媒体数据的资源数量和需求量的增大，传统的基于文本的搜索已经渐渐无法满足用户的信息查询和获取的需求，多媒体搜索必将成为未来搜索技术的发展趋势之一，而对音频数据的检索将是其中重要的组成部分。在音频检索的研究中，最基本的一个任务是对给定音频片段的匹配，即给定一个音频片段A，在另一个待检测音频片段B中搜索是否存在子片段C与音频片段A的音频内容相同。

由于对给定音频片段的匹配是音频检索中最基本、最早被研究的任务，因此研究者们提出了许多方法。给定音频片段的匹配方法主要包括两部分，一部分是匹配策略，即按什么样的顺序将前述的给定音频片段A与待检测音频片段B中的哪些子片段进行匹配，另一部分是相似性度量，即如何判断给定音频片段A与待检测音频片段B中的一个子片段C的相似程度。

现有技术中的给定音频片段的匹配方法，主要采用基于顺序扫描的匹配策略，即在待检测音频片段B中，从音频的起始时间开始，每隔极短的一段时间偏移(一段为10或几十毫秒)设一个比较点，从该点开始向后截取与给定音频片段A长度相同的片段C，并计算其与A的相似性程度。显然，这种方法的匹配时间较长，无法满足实时检索的需求。近年来，在大规模音频库检索中，如果待检测的音频片段不变，则通过索引等技术提高时间效率，但是，对于每次匹配时待检测音频片段都不同的情况，则只能采用上述的顺序扫描方法。

在相似性度量方法方面，当前方法主要是将音频片段分为帧(每帧为10或几十毫秒的小片段)，对每帧提取音频中的频谱、对数倒谱、短时能量、过零率等特征，形成特征向量，并采用欧式距离、马氏距离、余弦夹角距离等计算各帧间的相似性，再采用动态时间规整(DTW：Dynamic TimeWarping)方法由各帧之间的两似性计算出两个片段间的相似性。这些方法需要提取频谱等复杂特征，且使用DTW算法时时间复杂度较高，因此时间效率也较低。

总之，现有的音频匹配方法处理速度慢，难以很好地满足越来越多的海量音频信息处理需求。

发明内容

本发明的目的是克服现有的音频匹配方法处理速度慢，实时性不足的缺陷，从而提供一种快速、高效的音频匹配方法。

为了实现上述目的，本发明提供了一种音频匹配方法，用于从待测音频流片段中检测出与标准音频库中音频样例相匹配的音频片段，包括：

步骤1)、在标准音频库中的各个音频样例的能量包络单元图和待测音频流片段的能量包络单元图上，选择每个能量包络单元的起始点作为匹配操作的点；

步骤2)、将每个音频样例以及待测音频流片段分别用所述能量包络单元图上的切分点和概率对组成的数对形式表示；

步骤3)、将待测音频流片段的数对依次与每个音频样例的数对进行比较，得到匹配点以及对应的匹配概率；

步骤4)、采用相似性度量函数对步骤3)所得到的匹配点以及对应的音频样例进行计算，得到两者的相似值；

步骤5)、将步骤4)所得到的相似值与一个预先设定的阈值进行比较，若所述的相似值大于该阈值，则认为与步骤3)所得到的匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。

在上述技术方案中，所述的将待测音频流片段的数对依次与每个音频样例的数对进行比较包括：

在音频样例的能量包络单元中存在一个切分点u_i，而在待测音频流片段中存在一个切分点v_j，当满足条件|u_i-v_j|＜T时，认为u_i为匹配点；其中，所述T是一个预先定义的第三阈值。

在上述技术方案中，所述匹配点对应的匹配概率为切分点u_i的切分点概率和切分点v_j的切分点概率中的较小值。

在上述技术方案中，所述的步骤4)包括：

步骤4-1)、对所述的匹配点以及对应音频样例中的相应切分点，计算召回率R与精确率P；

步骤4-2)、根据所得到的召回率R与精确率P计算相似性度量函数的值。

在上述技术方案中，所述的召回率R的计算公式为：

R (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{m} p_{m}

其中，U表示音频样例；V表示待测音频流片段中的一段；p表示所述音频样例的能量包络单元中的切分点概率，p′表示匹配点的匹配概率。

在上述技术方案中，所述的精确率P的计算公式为：

P (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{n} q_{n}

其中，U表示音频样例；V表示待测音频流片段中的一段；q表示所述待测音频流片段中的一段的切分点概率，p′表示匹配点的匹配概率。

在上述技术方案中，所述相似性度量函数的计算公式为：

S (U, V) = \frac{2 R (U, V) P (U, V)}{R (U, V) + P (U, V)}

本发明还提供了一种音频匹配系统，包括匹配操作点选择模块，数对表示模块，匹配点计算模块，相似性计算模块，音频匹配模块以及音频标准库；其中，

所述的匹配操作点选择模块的作用是，在待测音频流片段的能量包络单元图上，选择每个能量包络单元的起始点作为匹配操作的点；

所述的数对表示模块的作用是，将每个音频样例以及待测音频流片段分别用所述能量包络单元图上的切分点和概率对组成的数对形式表示；

所述的匹配点计算模块的作用是，将待测音频流片段的数对依次与每个音频样例的数对进行比较，得到匹配点以及对应的匹配概率；

所述的相似性计算模块的作用是，采用相似性度量函数对匹配点计算模块所得到的匹配点以及对应的音频样例进行计算，得到两者的相似值；

所述的音频匹配模块的作用是，将相似性计算模块所得到的相似值与一个预先设定的阈值进行比较，若所述的相似值大于该阈值，则认为与匹配点计算模块所得到的匹配点相对应的音频片段和与匹配点相对应的音频样例匹配；

所述的音频标准库用于存储音频样例的能量包络单元图。

本发明又提供了一种音频检索方法，包括：

从一个包含音频信息的节目中剪切待测音频流片段；

采用所述的音频匹配方法对所述的待测音频流片段与音频标准库中的音频样例进行匹配；

对所得到的匹配结果进行包括校正、验证在内的后续处理。

本发明还提供了一种音频检索系统，包括：

用于剪切待测音频流片段的剪切模块；

上述的音频匹配系统；

用于对匹配结果进行校正、验证的后续处理模块。

本发明的优点在于：本发明的音频匹配方法在匹配过程中采用了跳单元的策略，减小了匹配操作的工作量，使得整个方法具有计算简便、运算速度快的优点，适合在实时需求高的场合使用。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1为在一个实施例中的待测音频流片段的能量包络单元图；

图2为图1所述的待测音频流片段的能量包络单元图在第一次匹配操作过程中的匹配起始点的示意图；

图3为图1所述的待测音频流片段的能量包络单元图在第二次匹配操作过程中的匹配起始点的示意图；

图4为本发明的音频匹配方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明的方法进行详细说明。

本发明的音频匹配方法的主要思想是通过跳单元策略确定音频匹配的起始点，采用基于单元的相似性度量方法对音频样例和待测音频流片段进行匹配。本发明的方法在判断音频样例与待检测音频片段是否匹配的过程中，并不是直接对音频样例与待检测音频片段的音频流进行比较，而是将两者的能量包络单元进行比较。其中，所涉及的能量包络单元可以通过现有技术得到。为了方便理解，在对本发明方法的实现步骤进行说明前，首先对能量包络单元的获取过程，以及能量包络单元的自身特性进行简要说明。

在一个实施例中，假设有标准音频库，该音频库中包含有175条不同类型的音频样例，这些样例涵盖了音频的很多种不同组合情况。而所采用的测试片段则是取自湖南卫视的一小时节目，提取其中的音频流形成本实施例中的测试音频流片段，所有音频文件的存储格式都是16KHZ，16-bit，单声道。要采用本发明的方法就应当得到标准音频库中所有音频样例的能量包络单元图以及测试音频流片段的能量包络单元图。要得到能量包络图可以采用现有技术中所有可能的方式，在本实施例中，以其中一种方式为例，对能量包络单元图的求取过程进行说明。

步骤10、对待测试音频流片段以及标准音频库中的各个音频样例都按照一定的时间间隔分为多个帧，然后进行音频短时能量的特征提取，根据每一帧的短时平均能量形成短时能量包络。在本实施例中，音频信号每25ms作为一帧，每帧的帧移为10ms。

步骤20、根据音频的短时能量特征，将上一步骤所得到的短时能量包络切分为不同的能量包络单元，形成能量包络单元图。通过本步骤就可以得到待测试音频流片段以及标准音频库中各个音频样例的能量包络图。

根据短时能量包络图切分得到能量包络单元图的实现方法有多种，为了方便理解以及后续说明的方便，在本实施例中，以其中一种切分方式为例，对能量包络单元图的形成过程进行详细说明，但本领域的普通技术人员应当理解，现有技术中的其它方法也可适用。

本实施例中，采用了一种与音乐处理中的ONSET检测法相类似的方法。在该方法中，包括以下步骤：

步骤21、对短时能量包络图中的能量均值进行平滑；平滑的具体方法是：将每一帧的能量值改为以该帧为中心，包含该帧前若干帧、该帧后若干帧的一些帧内的能量值的均值。一个参考值是当前帧及其前5帧、后5帧，共11帧。

步骤22、采用一个检测函数对平滑后的各个帧的短时能量值进行检测，得到一个检测结果。所述的检测函数如公式(1)所示，

d_{i} = \max_{j = 1, . . ., 10} (E_{i + j} / E_{i}) - - - (1)

从上述公式可以看出，在该检测函数中，将一个帧与其后续的十个帧分别进行比较，取最大的比较结果作为该检测函数的值。其中的d_i就是第i帧的检测函数的值，E_i就是第i帧的短时能量值。

步骤23、将步骤22所得到的各个帧的检测函数结果与两个预先设定的阈值进行比较，根据比较结果，计算帧被检测为切分点的概率。其中，所述的两个预先设定的阈值分别被称为第一阈值、第二阈值，用T₁表示第一阈值，用T₂表示第二阈值。所述第一阈值的范围在1.3-1.7之间，在本实施例中可采用1.5，而所述的第二阈值的范围在1.8-2.3之间，在本实施例中可选用2。所要计算的概率用P(i)表示，概率的计算如公式(2)所示：

P (i) = \{\begin{matrix} 1, & d_{i} &GreaterEqual; T_{2} \\ \frac{d_{i} - T_{1}}{T_{2} - T_{1}}, & T_{1} \leq d_{i} \leq T_{2} \\ 0, & d_{i} \leq T_{1} \end{matrix} - - - (2)

步骤24、根据步骤23所得到的切分点概率，确定短时能量包络图中的切分点，其中，P(i)非0值的帧将被记录为能量包络的切分点。根据切分点就可以得到能量包络单元。应当指出的是，由本步骤所得到的各个能量包络单元长度并不一致。

通过上述的各个步骤，可以得到标准音频库中的各个音频样例和待测音频流片段的能量包络单元图。在实际应用中，可以对标准音频库中的各个音频样例在一次短时能量特征提取以及能量包络切分的结果(即各个音频样例的能量包络单元图)进行存储，当下一次进行音频匹配时，标准音频库中的各个音频样例可以直接使用它们的能量包络单元图。

在得到标准音频库中的各个音频样例以及待测音频流片段的能量包络单元图后，可以采用本发明的方法对能量包络单元图进行处理，以实现音频样例和待测音频流片段间的匹配。下面参考图4，对本发明方法的具体实现过程进行详细说明。

步骤31、在待测音频流片段的能量包络单元图上，选择每个能量包络单元的起始点(即切分点)作为匹配操作的点。

本步骤中，选择能量包络单元的起始点作为匹配操作的点的思想就是前述的跳单元策略。由于每个能量包络单元至少包含一个帧，通常包含多个帧。因此，采用跳单元策略可以避免现有技术中常见的固定步长匹配所带来的数量过大、匹配起始点不精确的缺陷，有助于提高音频匹配效率。例如，在图1中表示一个待测音频流片段，该音频流片段中前3个能量包络单元的切分点分别用a、b、c表示，在第一次匹配操作中，如图2所示，从切分点a开始进行匹配操作，假如此次匹配不成功，则在下次匹配过程中，如图3所示，从切分点b开始进行匹配操作，依此类推，每次匹配操作依次以能量包络单元的起始点作为匹配操作的点，这就是所述的跳单元策略。

步骤32、将每个音频样例以及待测音频流片段分别用切分点和概率对的数对形式表示。例如，用U表示一个音频样例，它的表示形式为U＝(u₁，p₁)，(u₂，p₂)，...，(u_m，p_m)，其中，u₁，u₂，...，u_m为切分点的位置，p₁，p₂，...，p_m表示通过前述公式(2)计算得到的切分点概率。同样的，对于待测音频流片段也可以用数对的形式表示，用V表示该数据，则它的表示形式为V＝(v₁，q₁)，(v₂，q₂)，...，(v_n，q_n)，其中，v_i，q_i分别表示切分点位置和每个切分点的概率。这种数对的表示形式实质上是能量包络单元图的另一种表达形式。

步骤33、将待测音频流片段的数对依次与每个音频样例的数对进行比较，得到匹配点以及对应的匹配概率。在比较时，对于音频样例中的一个能量包络单元切分点u_i，如果在待测音频流片段中存在一个切分点v_j，满足以下条件：|u_i-v_j|＜T，则认为u_i为匹配点，并且该点的匹配概率为p_i’min(p_i，q_j)，其中T是一个预先定义的阈值，称为第三阈值，在本实施例中，第三阈值的范围在4-6之间，在本实施例中可采用5。由于在一个待测音频流片段中，可能包含有多个与音频样例相似的音频段，因此，待测音频流片段与一个音频样例匹配过程中得到相应的匹配点后，仍然要与其它音频样例进行匹配操作，查询是否还存在其它的匹配点，直到标准音频库中的所有音频样例都进行了相应的匹配操作。

步骤34、采用相似性度量函数对步骤33所得到的匹配点以及对应的音频样例计算，得到两者的相似值。

在前一步骤中，得到匹配点以及相应的匹配概率后，还需要在本步骤中利用相似性度量函数对匹配点所代表的音频片段是否就是对应的音频样例进行判断。仿照常用的召回率函数和精确率函数，本步骤中定义了两个相似性度量函数，其计算公式如下：

R (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{m} p_{m} - - - (3)

P (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{n} q_{n} - - - (4)

上述两个公式的含义是：将音频样例U看作一个标准答案，比较音频片段V中的切分点的位置是否与U中相同，并计算总体的符合的比率。召回率R表示两片段中位置一致的正确的切分点的个数占U中切分点总数的比例，而精确率P表示两片段中位置一致的正确的切分点的个数占V中切分点总数的比例。从公式中可以看出，由于没有直接采用正确的个数，而是采用正确的概率来衡量，所以R和P值将很少受到小概率值的影响，从而减少了由于检测函数值贴近阈值的边界切分点而引起的错误匹配。因此，这两个相似性度量函数比召回率和精确率更为可信。

在得到上述的两个相似性度量函数后，仿照现有技术中常见的用于综合召回率和精确率的F值的定义方式引进相似值S，其定义如下：

S (U, V) = \frac{2 R (U, V) P (U, V)}{R (U, V) + P (U, V)} - - - (5)

从上述相似性度量函数的定义可以看出，时间复杂度取决于R和P的计算量，约为O(m+n)。相对于现在流行的相似性度量函数，例如时间复杂度为O(mn)的基于频谱或者对数倒频谱的DTW距离度量方法，本发明中所采用的短时能量特征更为简单，并且取得了更低的时间复杂度。

步骤35、将步骤34所得到的相似值S与一个预先设定的阈值进行比较，若所述的相似值S大于该阈值，则认为与步骤33所得到的匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。在本步骤中所涉及的阈值被称为第四阈值，该阈值的范围在0.8-1.0之间，在本实施例中可采用0.92。

通过上述的步骤31-35可以实现音频样例与待检测音频片段间的匹配。由于在该匹配过程中采用了跳单元的匹配策略以及基于单元的相似性度量方法，因此在检测效率以及检测准确率上都有提高。以本实施例中所涉及的带有175条音频样例的音频标准库对一个小时的湖南卫视节目进行匹配为例，最终有54条音频样例和音频流中相应的片段匹配上，其中有1条误报，2条漏报。实验的召回率为96.4％，精确率为98.1％，历时452.9秒，达到了0.1258倍时。

本发明在上述音频匹配方法的基础上，还提供了一种音频匹配系统，包括匹配操作点选择模块，数对表示模块，匹配点计算模块，相似性计算模块，以及音频匹配模块；其中，

所述的匹配操作点选择模块的作用是，在标准音频库中的各个音频样例的能量包络单元图和待测音频流片段的能量包络单元图上，选择每个能量包络单元的起始点作为匹配操作的点；

所述的音频匹配模块的作用是，将相似性计算模块所得到的相似值与一个预先设定的阈值进行比较，若所述的相似值小于该阈值，则认为与匹配点计算模块所得到的匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。

本发明的音频匹配方法以及相应的系统可以应用到现有的多种音频检索方法及系统中。例如，在一种音频检索方法中，除了采用本发明的音频匹配方法外，还包括从一个包含音频信息的节目中剪切待测音频流片段的步骤；以及对所得到的匹配结果进行包括校正、验证在内的后续处理步骤。而在一种音频检索系统，除了采用本发明的音频匹配系统外，还包括用于剪切待测音频流片段的剪切模块；以及用于对匹配结果进行校正、验证的后续处理模块。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种音频匹配方法，用于从待测音频流片段中检测出与标准音频库中音频样例相匹配的音频片段，包括：

步骤1)、在待测音频流片段的能量包络单元图上，依次选择每个能量包络单元的起始点作为匹配操作的起始点；

2.根据权利要求1所述的音频匹配方法，其特征在于，所述的将待测音频流片段的数对依次与每个音频样例的数对进行比较包括：

对于音频样例中的一个能量包络单元切分点u_i，如果在待测音频流片段中存在一个切分点v_j，当满足条件|u_i-v_j|＜T时，认为u_i为匹配点；其中，所述T是一个预先定义的第三阈值。

3.根据权利要求2所述的音频匹配方法，其特征在于，所述匹配点对应的匹配概率为切分点u_i的切分点概率和切分点v_j的切分点概率中的较小值。

4.根据权利要求1所述的音频匹配方法，其特征在于，所述的步骤4)包括：

5.根据权利要求4所述的音频匹配方法，其特征在于，所述的召回率R的计算公式为：

R (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{m} p_{m}

6.根据权利要求4所述的音频匹配方法，其特征在于，所述的精确率P的计算公式为：

P (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{n} q_{n}

7.根据权利要求4所述的音频匹配方法，其特征在于，所述相似性度量函数的计算公式为：

S (U, V) = \frac{2 R (U, V) P (U, V)}{R (U, V) + P (U, V)}

8.一种音频匹配系统，其特征在于，包括匹配操作点选择模块，数对表示模块，匹配点计算模块，相似性计算模块，音频匹配模块以及音频标准库；其中，

所述的音频标准库用于存储音频样例的能量包络单元图。

9.一种音频检索方法，包括：

从一个包含音频信息的节目中剪切待测音频流片段；

采用权利要求1-7所述的音频匹配方法对所述的待测音频流片段与音频标准库中的音频样例进行匹配；

对所得到的匹配结果进行包括校正、验证在内的后续处理。

10.一种音频检索系统，其特征在于，包括：

用于剪切待测音频流片段的剪切模块；

权利要求8所述的音频匹配系统；

用于对匹配结果进行校正、验证的后续处理模块。