CN103226948A

CN103226948A - 一种基于声学事件的音频场景识别方法

Info

Publication number: CN103226948A
Application number: CN2013101406338A
Authority: CN
Inventors: 冷严; 徐新艳
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2013-04-22
Filing date: 2013-04-22
Publication date: 2013-07-31
Anticipated expiration: 2033-04-22
Also published as: CN103226948B

Abstract

本发明公开了一种基于声学事件的音频场景识别方法，具体步骤为：步骤一：对拟进行音频场景识别的音频流进行音频分割；步骤二：对每个音频场景片段中所包含的音频帧，通过声学事件模型进行分类，得到音频帧与各个声学事件类之间的概率关系；步骤三：对每个音频场景片段，综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系；步骤四：对每个音频场景片段，确定音频场景片段中包含的主要声学事件，确定音频场景片段的语义场景。本发明对主要声学事件的判断更加合理准确，进而能提高语义场景识别的准确率；本发明具有很好的推广性；本发明为视频场景识别提供很好的辅助作用，以提高视频场景识别的准确率。

Description

一种基于声学事件的音频场景识别方法

技术领域

本发明涉及模式识别和多媒体信息处理领域，尤其涉及一种基于声学事件的音频场景识别方法。

背景技术

当前，随着信息化社会的快速发展，多媒体信息数据呈现爆炸式增长，如何对这些多媒体数据进行有效利用以服务于人们的日常生活，成为当前亟待解决的问题。多媒体数据包括图像、音频等多种形式。目前对图像的研究与利用已经非常广泛，而对音频的研究起步相对较晚，还有许多技术上的难题亟待解决。

连续的音频流中通常会包含一系列的声学事件，比如说话声、笑声、音乐声等等，而音频场景是指由时间上相邻且语义上相关的若干声学事件所组成的一个音频片段。相对于声学事件来说，音频场景蕴含着更高层次的语义表达，比如战争音频场景中包含有枪声、炮弹的爆炸声、士兵的喊叫声等一系列的声学事件，而战争音频场景就是在这一系列声学事件的基础上所演绎出来的更加抽象的语义表达。音频场景识别（Audio Scene Recognition,ASR）就是对音频片段的内容加以分析和识别，进而加以音频场景的类别标识。

在音频的研究与利用方面，目前国内外已经开展了不少对声学事件（Acoustic Event）的分类研究。但是，在日常生活中，人们往往对音频场景更感兴趣，而不是具体的声学事件。这是因为越高层次的语义表达越接近于人们的思维习惯，也就越容易被人们所接受。比如说，对某一战争影片进行音频检索以实现影片的浏览时，人们更喜欢检索影片中的战争场景部分，而不是仅仅对战争场景中的枪声这一声学事件感兴趣。因此，这就需要用到音频场景识别技术来实现更高层语义上的音频内容识别。虽然，对上述诸如战争场景的检索应用可以借助于视频检索来实现，而且目前也有不少关于视频场景识别的研究，这些研究为视频检索提供了技术保障，比如，许利群等人发明了一种用于对视频序列的场景进行语义分段的方法和系统（申请号200580009646.5）；胡卫明等人发明了一种基于多示例学习的恐怖视频场景识别方法（申请号201110369289.0），但是仅仅依靠视频场景识别技术往往难以达到满意的识别效果，而音频也是人类获取信息的一种很重要的手段，音频场景识别研究能为视频场景识别提供很好的辅助作用，因此本发明提出了一种音频场景识别的方法。音频场景识别除了用于上述多媒体检索以外，还具有其它更广阔的应用前景。比如，可以应用到智能机器人中，使机器人更好地感知周围的环境，进而做出正确的决策。再比如，可以用于公共或机密场所的安全监控。基于音频场景识别的音频安全监控具有视频监控所不具备的独特优势，它可以不受光照条件和遮挡的影响，另外也适合用于隐私场合的安全监控。因此，音频监控可以用来辅助视频监控，它可以很好地覆盖视频监控难以达到的死角。音频场景识别具有如此广阔的应用前景和迫切的市场需求，但目前国内外对音频场景识别的研究较少，尚不能满足人们的需求。

发明内容

为了实现从音频的角度进行场景识别，本发明提出了一种基于声学事件的音频场景识别方法，它具有对主要声学事件的判断更加合理准确，进而能提高语义场景识别准确率的优点。

为了实现上述目的，本发明采用如下技术方案：

一种基于声学事件的音频场景识别方法，具体步骤为：

步骤一：对拟进行音频场景识别的音频流进行音频分割,形成音频场景片段和音频帧；

步骤二：对每个音频场景片段中所包含的音频帧，通过声学事件模型进行分类，得到音频帧与各个声学事件类之间的概率关系；

步骤三：对每个音频场景片段，综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系；

步骤四：对每个音频场景片段，根据其与各个声学事件类之间的概率关系得到音频场景片段中包含的主要声学事件，进而得到音频场景片段的语义场景。

所述步骤一的具体步骤为：

（1-1）对拟进行音频场景识别的音频流进行音频场景分割，将音频流分割成若干个长短不一的音频场景片段；

（1-2）对每个音频场景片段进行二次定长分割，将其分割成若干个长度为30毫秒的音频帧。

所述步骤二的具体步骤为：

（2-1）通过高斯混合模型或支持向量机模型建立各声学事件模型；

（2-2）根据各声学事件模型，确定待识别的音频场景片段中的每个音频帧x_i和每个声学事件类的概率关系P(L_j|x_i)，i、j为自然数。

所述步骤三的具体步骤为：

（3-1）设每个音频场景片段中的各音频帧x_i相互独立，即满足：

P(x₁,x₂…，x_N)=Px₁)P(x₂)…P(x_N)其中，P（x_i）为音频帧x_i的概率；

（3-2）对每个音频场景片段，根据其所包含的各个音频帧x_i与各声学事件类的概率关系P(L_j|x_i)，确定音频场景片段与各声学事件类的概率关系P(L_j|C)，C表示音频场景片段。

所述步骤四的具体步骤为：

（4-1）设定阈值Th，当步骤三中确定的P(L_j|C)大于阈值Th时，则说明声学事件L_j是该音频场景片段的主要声学事件，C表示音频场景片段；

（4-2）根据音频场景片段中所包含的主要声学事件，通过启发式决策规则得到音频场景片段的语义场景。

本发明的有益效果：

1.本发明对音频场景片段中所包含的主要声学事件的判断是综合音频场景片段中所包含的所有音频帧与声学事件的概率关系得到的，因此其对主要声学事件的判断更加合理准确，进而能提高语义场景识别的准确率。

2.目前对音频场景识别的研究还很少，本发明能为相关领域的研究人员提供一种很好的方法借鉴。

3.本发明具有很好的推广性，提出的方法思路可以推广到视频分析、文本分析等领域。

4.本发明提出的音频场景识别方法可以为视频场景识别提供很好的辅助作用，以提高视频场景识别的准确率。

附图说明

图1为本发明提出的基于声学事件的音频场景识别方法的流程图；

图2为对音频流进行音频场景分割以及对音频场景片段进行二次分割的示意图；

图3为用GMM模型为声学事件类建模时，求解样本x_i与声学事件类L_j的概率关系P(L_j|x_i)的流程图；

图4为用SVM模型为声学事件类建模时，求解样本x_i与声学事件类L_j的概率关系P(L_j|x_i)的流程图；

图5为根据音频场景片段与各个声学事件类L_j之间的概率关系P(L_j|C)，确定音频场景片段的语义场景的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。图1给出了基于声学事件的音频场景识别方法的流程图，该方法共分为四个步骤：步骤一：对拟进行音频场景识别的音频流进行音频分割，形成音频场景片段和音频帧；步骤二：对每个音频场景片段中所包含的音频帧，通过声学事件模型进行分类，得到音频帧与各个声学事件类之间的概率关系；步骤三：对每个音频场景片段，综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系；步骤四：对每个音频场景片段，根据其与各个声学事件类之间的概率关系得到音频场景片段中包含的主要声学事件，进而推理得到音频场景片段的语义场景。下面对每个步骤进行详细阐述：

步骤一：对拟进行音频场景识别的音频流进行音频分割，形成音频场景片段和音频帧；

音频分割包括两部分：音频场景分割和二次分割。音频场景分割是指在潜在的场景转变点处将音频流分割成若干个长短不一的音频片段。目前已有不少音频场景分割算法可供借鉴，由于这部分内容不是本发明的重点，因此这里不再详述，具体可参考相关文献。在音频场景分割以后，为了后续音频场景识别算法的进行，这里还需要进行二次分割，二次分割是指对每个音频场景片段进行分割。采用定长分割，将每个音频场景片段分割成一系列长度为30毫秒的音频帧。对音频流进行音频场景分割以及对音频场景片段进行二次分割的示意图如图2所示。

以下以音频场景分割后的某一音频场景片段C的识别为例介绍本发明提出的音频语义场景识别算法。假设将音频场景片段C二次分割后得到N个音频帧x₁,x₂,…x_N，N为自然数。正如在背景技术中所述，音频流中包含一系列的声学事件，声学事件是比音频场景低一个层次的语义表达。假设拟进行音频场景识别的音频流中共包含有M类不同的声学事件，用L₁,L₂,…L_M表示，M为自然数。

步骤二：对每个音频场景片段中所包含的音频帧，通过声学事件模型进行分类，得到音频帧与各个声学事件类之间的概率关系。

以音频场景片段C为例，该步骤是对音频场景片段C所包含的N个音频帧x₁,x₂,…x_N，通过声学事件模型进行分类，得到音频帧x_i，i=1,2…,N与各个声学事件类L_j，j=1,2…,M之间的概率关系P(L_j|x_i)。声学事件模型通过高斯混合模型（Gaussian Mixture Model,GMM）建模，也可以通过支持向量机模型（Support Vector Machines,SVM）建模。图3和图4分别给出了用GMM模型和SVM模型为声学事件类建模时，求解样本x_i与每个声学事件类概率关系P(L_j|x_i)，j=1,2…,M的流程图。下面分别介绍GMM和SVM，并结合图3和图4详细阐述由这两种模型建模时，P(L_j|x_i)的求算方法。

(1)GMM

GMM是用多个单一高斯线性加权混合建模.建模的原则是使训练样本的生成似然值最大。GMM模型的概率密度函数为：

p (x | λ) = Σ_{i = 1}^{K} π_{i} N (x | μ_{i}, Σ_{i}) - - - (1)

其中，

Σ_{i = 1}^{K} π_{i} = 1, π_{i} &GreaterEqual; 0, &ForAll; i, - - - (2)

N (x | μ_{i}, Σ_{i}) = \frac{1}{(2 π)^{D / 2} {| Σ_{i} |}^{1 / 2}} \times \exp (- \frac{1}{2} {(x - μ_{i})}^{T} Σ_{i}^{- 1} (x - μ_{i})) - - - (3)

GMM模型的参数为λ={π_i,μ_i,Σ_i|i＝1,2,…,K),π_i代表第i个高斯混合分量在整个模型中所占的比重；μ_i、Σ_i分别是第i个高斯混合分量的均值向量和协方差矩阵，为计算方便，Σ_i一般采用对角阵的形式，即假设每一维特征之间是相互独立的。K是高斯混合分量的数目。D是样本x的特征维数。GMM模型训练的目标是通过最大化似然值来求得模型参数，以使高斯混合密度能最好地匹配训练数据的分布,T表示对矩阵进行转置。

模型训练时，为每个声学事件类L_j，j=1,2…,M建立一个GMM模型，对应的模型参数分别为

分类时，对任一待分类样本x_i，将其代入每个声学事件类的GMM模型，然后按照下式即可得到x_i属于每个声学事件类的概率P(L_j|x_i)。

P (L_{j} | x_{i}) = P ({λ_{L}}_{j} | x_{i}) = \frac{P (x_{i} | {λ_{L}}_{j}) P ({λ_{L}}_{j})}{P (x_{i})} = \frac{P (x_{i} | {λ_{L}}_{j}) P ({λ_{L}}_{j})}{Σ_{k = 1}^{M} P (x_{i} | {λ_{L}}_{k}) P ({λ_{L}}_{k})} - - - (4)

其中，代表L_j类的模型参数，

代表L_k类的模型参数，k为自然数。

通常，假设各个类出现的概率相等，即

则上式可进一步改写为：

P (L_{j} | x_{i}) = P ({λ_{L}}_{j} | x_{i}) = \frac{P (x_{i} | {λ_{L}}_{j})}{Σ_{k = 1}^{M} P (x_{i} | {λ_{L}}_{k})} - - - (5)

其中，

代表L_j类的模型参数，

代表L_k类的模型参数，k为自然数。

公式（5）中的

是将x_i带入公式（1）求得的。最后，将P(L_j|x_i)，j=1,…,M按下式进行归一化：

P (L_{j} | x_{i}) = \frac{P (L_{j} | x_{i})}{Σ_{k = 1}^{M} P (L_{k} | x_{i})} - - - (6)

其中，L_j代表第j类声学事件，L_k代表第k类声学事件，j、k为自然数。

(2)SVM

SVM的核心思想是：首先将数据映射到高维空间，这种映射能将低维空间复杂的分类问题转换成高维空间简单的线性分类问题；然后在两类之间寻找具有最大间隔的分离超平面。

SVM是一种判别式两类分类器，其决策函数可以表达为：

f(x)＝ω^Tφ(x)+b （7）

其中，ω和b分别表示权值向量和偏斜量；φ(x)是非线性映射函数，用于将低维空间线性不可分的样本x映射到高维空间，使得样本在高维空间中线性可分。f(x)＝ω^Tφ(x)+b＝0所表示的超平面即为SVM的分类面。

对于两类分类问题，设D维空间的训练样本为x_i∈R^Di＝1,…,N，N为自然数，样本的类别标签为y_i∈{+1,-1}，SVM就是要解决以下优化问题：

\min_{ω, b, ξ} \frac{1}{2} ω^{T} ω + C Σ_{i = 1}^{N} ξ_{i} - - - (8)

subject to y_i(ω^Tφ(x_i)+b)≥1-ξ_i,ξ_i≥0,i＝1,…,N

其中，ξ_i代表松弛变量；C是惩罚因子，用来控制对松弛变量ξ_i的惩罚程度，T表示转置，φ(x_i)是样本x_i的非线性映射值。对公式(8)中的二次规划问题，可以通过拉格朗日乘子法求解。求解后可得：

ω = Σ_{i = 1}^{N} α_{i} y_{i} φ (x_{i}) - - - (9)

其中，α_i代表样本x_i的拉格朗日系数；公式（9）中会有相当多的α_i的值等于0，而那些α_i值不为0的样本x_i被称之为支持向量。将公式（9）代入公式（7），可将决策函数重写为：

f(x)＝ω^Tφ(x)+b＝Σ_iα_iy_iφ(x_i)^Tφ(x)+b (10)

在实际求算过程中，φ(x_i)^Tφ(x)的值可以通过核函数k(x_i,x)＝φ(x_i)^Tφ(x)求得，而不需要知道映射函数φ(x)的显式表达式，因此，公式（10）可进一步改写为：

f(x)＝Σ_iα_iy_ik(x_i,x)+b (11)

本发明中的核函数采用的是径向基核函数，即：

k(x_i,x)＝exp(-γ||x_i-x||²) （12）

其中，参数γ是一个常数因子。

对于任一测试样本x_test,将其代入公式（11）得到其决策值，然后通过以下两式即可求得其分属于+1类和-1类的概率：

P (y = 1 | x_{test}) = \frac{1}{1 + \exp (Af (x_{test}) + B)} - - - (13)

P (y = - 1 | x_{test}) = \frac{1}{1 + \exp (- (Af (x_{test}) + B))} - - - (14)

这里的f(x_test)为将x_test带入公式（7）中的f(x)，其中，参数A、B是常数因子。

SVM是两类分类器，不能将其直接用于解决声学事件的多类分类问题。这里我们采用以下方法来解决多类分类问题，并给出P(L_j|x_i)的求算方法。用SVM为每个声学事件类建模时，以声学事件类L_j为例，将所有属于L_j的样本作为正类样本，赋予标签‘+1’；将所有不属于L_j的样本作为负类样本，赋予标签‘-1’。用此正负两类样本训练SVM分类器，训练后的SVM模型即为声学事件类L_j的SVM模型。分类时，对任一待分类样本x_i,将其代入每个声学事件类的SVM模型，通过公式（11）得到样本在每类声学事件模型下的决策值；然后通过公式（13）即可得到x_i属于每个声学事件类的概率P(L_j|x_i)，j=1,…,M；最后，将P(L_j|x_i)，j=1,…,M按公式（6）进行归一化。

步骤三：对每个音频场景片段，综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系。

以音频场景片段C为例，该步骤是指综合音频场景片段C中包含的所有音频帧x_ii=1,2…,N的信息得到音频场景片段C与各个声学事件类L_j,j=1,2…,M之间的概率关系P(L_j|C)。由于音频场景片段C中包含一系列音频帧x_i i=1,2…,N，因此音频场景片段C与各个声学事件类L_j,j=1,2…,M之间的概率关系P(L_j|C)可以间接地通过各个音频帧x_ii=1,2…,N与各个声学事件类L_j,j=1,2…,M之间的概率关系P(L_j|x_i),i=1,2…,N得到。假设各个音频帧x_i之间相互独立，即满足：

P(x₁,x₂…,x_N)＝P(x₁)P(x₂)…P(x_N) (15)则P(L_j|C)的具体求算公式如下：

P (L_{j} | C) = P (L_{j} | x_{1}, x_{2}, . . . x_{N})

= \frac{P (L_{j}, x_{1}, x_{2}, . . . x_{N})}{P (x_{1}, x_{2}, . . . x_{N})}

= \frac{P (L_{j}) P (x_{1}, x_{2}, . . . x_{N} | L_{j})}{Σ_{k = 1}^{M} P (L_{k}) P (x_{1}, x_{2}, . . . x_{N} | L_{k})}

= \frac{P (L_{j}) Π_{i = 1}^{N} P (x_{i} | L_{j})}{Σ_{k = 1}^{M} P (L_{k}) Π_{i = 1}^{N} P (x_{i} | L_{k})}

= \frac{i = 1}{Σ_{k = 1}^{M} P (L_{k}) Π_{i = 1}^{N} P (x_{i} | L_{k})}

= \frac{P (L_{j}) Π_{i = 1}^{N} \frac{P (x_{i}) P (L_{j} | x_{i})}{P (L_{j})}}{Σ_{k = 1}^{M} P (L_{k}) Π_{i = 1}^{N} \frac{P (x_{i}) P (L_{k} | x_{i})}{P (L_{k})}} - - - (16)

= \frac{\frac{Π_{i = 1}^{N} P (L_{j} | x_{i})}{P (L_{j})^{N - 1}}}{Σ_{k = 1}^{M} \frac{Π_{i = 1}^{N} P (L_{k} | x_{i})}{P (L_{k})^{N - 1}}}

其中，P(L_j)代表声学事件类L_j的先验概率，可以通过统计的方法近似估计。即，在对某一音频流进行场景识别时，可以先采集一些同种题材的音频流，对其中的主要声学事件进行标注，并统计不同声学事件的时间长度。假设各个声学事件类L_j，j=1,2…,M的时间长度分别是t_j，j=1,2…,M，则P(L_j)可由下式估计得到：

P (L_{j}) = \frac{t_{j}}{Σ_{k = 1}^{M} t_{k}} - - - (17)

其中，t_k为第k个声学事件类的时间长度，k为自然数。

步骤四：对每个音频场景片段，根据其与各个声学事件类之间的概率关系得到音频场景片段中包含的主要声学事件，进而推理得到音频场景片段的语义场景。

以音频场景片段C为例，根据其与各个声学事件类L_j，j=1,2…,M之间的概率关系P(L_j|C)j=1,2…,M，求得C中包含的主要声学事件，进而推理得到C的语义场景的流程图如图5所示。音频片段的语义场景是通过音频片段中包含的主要声学事件表征的，因此，为了推理得到音频片段的语义场景，首先应确定出该音频片段中都包含哪些主要声学事件。在步骤三中已求得音频场景片段C与各个声学事件类L_j j=1,2…,M之间的概率关系P(L_j|C)，只有当P(L_j|C)的值足够大时，我们才可以认为音频片段C与声学事件L_j之间关系紧密，才可以将声学事件L_j看作是音频片段C中的主要声学事件。因此，可以设定一个阈值Th，规定那些满足P(L_j|C)>Th的声学事件是音频片段C中的主要声学事件。

在确定了音频场景片段中包含的主要声学事件后，通过启发式决策规则（heuristicdecision rules）推理得到音频场景片段C的语义场景。即，音频场景片段C与哪一条规则相符，就判定其为这条规则所对应的语义场景。因此，最后在确定音频场景片段C的语义场景时，关键是制定良好的决策规则。当然，决策规则的制定需要提前对音频文档内容具有一定的了解。以一部战争题材影片的音频文档为例，在对影片内容有一定的了解的基础上，可以如下制定决策规则：

●当音频片段中的主要声学事件包含枪声或爆炸声，则判定为战争场景；

●当音频片段中的主要声学事件包含音乐声、笑声、说话声，则判定为庆功舞会场景；

●当音频片段中的主要声学事件包含号声和脚步声，则判定为部队集合场景。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于声学事件的音频场景识别方法，其特征是，具体步骤为：

2.如权利要求1所述一种基于声学事件的音频场景识别方法，其特征是，所述步骤一的具体步骤为：

3.如权利要求1所述一种基于声学事件的音频场景识别方法，其特征是，所述步骤二的具体步骤为：

4.如权利要求1所述一种基于声学事件的音频场景识别方法，其特征是，所述步骤三的具体步骤为：

P(x₁,x₂,x_N)＝P(x₁)P(x₂)P(x_N)其中，P（x_i）为音频帧x_i的概率；

5.如权利要求1所述一种基于声学事件的音频场景识别方法，其特征是，所述步骤四的具体步骤为：