CN104167211A

CN104167211A - 基于分层事件检测和上下文模型的多源场景声音摘要方法

Info

Publication number: CN104167211A
Application number: CN201410391254.0A
Authority: CN
Inventors: 路通; 翁炀冰; 王公友
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2014-08-08
Filing date: 2014-08-08
Publication date: 2014-11-26
Anticipated expiration: 2034-08-08
Also published as: CN104167211B

Abstract

本发明公开了一种基于分层事件检测和上下文模型的多源场景声音摘要方法，包括以下步骤：步骤一，输入一段待摘要的目标多源场景音频分割片段；步骤二，基于背景声音对音频场景片段进行分割；步骤三，通过一个谱聚类算法，将目标音频中相似的分割片段聚类起来，利用仿射函数检测背景声音事件，并计算声音事件的评分函数得到关键声音事件；步骤四，通过一个上下文模型计算声音事件之间的相关函数；步骤五，根据声音事件之间的相关值在关键声音事件的音频分割片段前后合并相关度较高的音频分割片段得出最后的多源场景声音摘要。

Description

基于分层事件检测和上下文模型的多源场景声音摘要方法

技术领域

本发明涉及一种多源场景声音的摘要方法，特别是一种基于分层事件检测和上下文模型的多源场景声音摘要方法。

背景技术

近几年来，随着配备声传感器智能设备的快速升级，声音成为了内容感知应用中很有用的数据类型。音频相对于基于视觉的工具是比较廉价的媒体，也没有视觉媒体中的遮挡与光照强弱等难题，日益增长的音频数据量也引发了对开发音频上高效面向内容算法的迫切需求。典型的算法有，获取有用的音频数据、将音频数据分组成有意义的类别以及提供音频浏览或检索等。音频内容摘要是指从音频流中提取有意义的信息，这在现实生活中的音频相关应用上非常有用。

在检测和提取音频流语义内容方面有三大方法。谐波结构分析方法主要处理说话和音乐这类的音频数据，这类方法可以处理结构化的具有共振峰特征的声音，但不能直接用于分析非结构化声音信号。特征提取方法考虑了通过分析和选择不同的音频特征来识别多源声音，但无法弥补低层听觉特性和高层予以内容之间的语义鸿沟。音频上下文表示方法使用上下文作为分类器来识别多源声音，但是无法用一个系统的方式来开发多源声音中有意义的部分和他们之间的关系。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于分层事件检测和上下文模型的多源场景声音摘要方法，从而对一段多源场景音频分割片段做出分析，摘要出其中的场景片段。

为了解决上述技术问题，本发明公开了一种基于分层事件检测和上下文模型的多源场景声音摘要方法，包括以下步骤：

步骤一，输入一段待摘要的目标多源场景音频信号作为目标音频，所述待摘要的目标多源场景音频信号由各种来源的结构化的前景声音及非结构化的背景声音组成；

步骤二，通过背景声音识别算法，识别出目标音频中的背景声音，提取目标音频的波形值组成一个矩阵，并将该矩阵和背景声音特征向量都投影到特征空间中，计算目标音频特征向量和背景声音特征向量的归一化距离来确定目标音频分割片段的分割点位置，完成音频分割；

步骤三，使用谱聚类算法将目标音频中相似的分割片段聚类，将一类分割片段作为声音事件，使用仿射函数进行背景声音事件的检测，计算声音事件的发生频率、总时间长度及平均时间长度属性，通过关键声音事件的评分函数计算得到关键声音事件；

步骤四，使用上下文模型将关键声音事件和相邻的事件关联在同一个声音场景下，即用声音事件之间的相关系数和时间间隔，计算两个声音片段的相关函数得到相邻声音事件的相关值；

步骤五，利用关键声音事件和相邻声音事件的相关值在关键声音事件的音频分割片段周围扩展所在场景下的音频分割片段，如果关键声音事件的音频分割片段与它的相邻音频分割片段各自所属声音事件的相关值超过设定阈值，则把它们归为同一声音场景，最后得到最后的多源场景声音摘要。

本发明步骤二包括如下步骤：

对目标音频I读出其采样值，并将采样值组成一个N×M的矩阵X：

X＝{x_i}_i＝1,...,M，

其中，x_i表示第i个含有N个采样点且无重叠的音频帧，i取值1～M，M表示总帧数；

将M个音频帧中每个音频帧减去矩阵X所有音频帧的平均值，通过主成分分析算法将矩阵X的协方差矩阵降到N×K维，记为K维特征空间E_b，然后将矩阵X映射到空间E_b上：

T {= E}_{b}^{T} X,

其中，T是K×M矩阵，包含所有被映射的音频帧，是E_b的转置矩阵；

将背景声音的音频帧v₀减去矩阵X所有音频帧的平均值，得到均值为零的背景音频帧并映射到空间E_b上，得到背景音频帧v，公式为：

v = E_{b}^{T} {\overset{&OverBar;}{v}}_{0},

计算目标音频帧与背景音频帧v之间的归一化距离D(i)：

D (i) = \frac{| | t_{i} - v | | - \min}{\max - \min},

其中t_i表示目标音频I的第i帧，max和min分别表示||t_i-v||的最大值和最小值；

归一化距离D(i)的局部最小值点即为音频分割点，每两个音频分割点之间构成音频分割片段，所有的音频分割片段记为集合M₁为音频分割片段的总数。

本发明步骤三中，所述使用谱聚类算法将目标音频中相似的分割片段聚类包括如下步骤：

1)对于音频分割片段seg_v及它的梅尔频率倒谱系数-局部判别基特征矩阵

MLDB＝{a_v1,...,a_vn}，其中a_vj表示音频分割片段seg_v的第j个梅尔频率倒谱系数-局部判别基特征向量，v取值1～M₁，j取值1～n，n表示特征向量总数，用第一次谱聚类算法将每个特征向量聚类为FK类，每一聚类为c_k1,k1＝1,...,FK；

2)记聚类c_k1的元素个数是N_k1，那么音频分割片段seg_o就属于N_k1最大的那个聚类c_k1，判定音频分割片段seg_o属于声音事件e_k2，,k2＝1,...,EK，EK表示声音事件的总数，最后得到所有音频分割片段的聚类结果，即声音事件集合E＝{e₁,...,e_EK}。

本发明步骤三中，所述梅尔频率倒谱系数-局部判别基特征的提取步骤如下：

1)提取音频的梅尔频率倒谱系数特征；

2)利用局部判别基对音频进行特征提取；

3)在梅尔频率倒谱系数特征后加上局部判别基特征，得到更高维数的梅尔频率倒谱系数-局部判别基特征。

本发明步骤三中，所述背景声音事件检测的仿射函数如下：

aff (e_{k}, I) = \exp {(d_{k} - d_{avg})}^{2} / ((2 d_{avg}^{2}) \cdot \exp (p_{k} / q_{k})),

其中d_k是声音事件e_k的总时间长度，k的取值范围1～EK，d_avg和d_std分别是声音事件e_k中所有音频分割片段的均值和标准差，将仿射函数值最大的那个声音事件作为背景声音事件，p_k和q_k分别表示所有声音事件中所有音频分割片段的总时间长度的均值和方差，即所有声音事件总时间长度d_k的均值和方差。

本发明步骤三中，所述的关键声音事件的评分函数计算方法如下：

score(e_s,I)＝frq(e_s,I)·dur(e_s,I)·len(e_s,I)，

其中，frq(e_s,I)表示声音事件e_s发生频率的评分函数，dur(e_s,I)表示声音事件e_s总时间长度的评分函数，len(e_s,I)表示声音事件e_s平均时间长度的评分函数，e_s是表示声音事件，s取值范围1～EK；

frq(e_s,I)的计算方法如下：

frq (e_{s}, I) = \exp (- {(n_{s} - n_{avg})}^{2} / (2 n_{std}^{2})),

其中，n_s表示声音事件e_s发生的次数，n_avg和n_std分别表示声音事件e_s发生频率的均值和标准差；

dur(e_s,I)的计算方法如下：

dur (e_{s}, I) = \exp (- {(d_{s} - d_{avg})}^{2} / (2 d_{std}^{2})),

其中，d_s表示声音事件e_s的总时间长度，d_avg和d_std分别表示声音事件e_s总时间长度的均值和标准差；

len(e_s,I)的计算方法如下：

len (e_{s}, I) = \exp (- {(l_{s} - l_{avg})}^{2} / (2 l_{std}^{2})),

其中，l_s表示声音事件e_s的平均时间长度，l_avg和l_std分别表示声音事件e_s的平均时间长度的均值和标准差。

本发明步骤四中相关值S_xy计算方法如下：

S_{xy} = \frac{1}{{dt}_{xy}} \cdot \exp (- {(d_{x} - d_{y})}^{2} / (d_{x} + d_{y})) \cdot \exp ({corr}_{xy}),

其中，dt_xy和corr_xy分别表示声音事件x和y的欧式距离以及相关系数，d_x和d_y分别是两个声音事件的各自的总时间长度，exp(x)表示e^x，e为自然常数，x和y的取值范围是1～EK，且x不等于y；

相关系数corr_xy的计算方法如下：

{corr}_{xy} = \frac{Σ_{w = 1}^{FN} ({fx}_{w} - \overset{&OverBar;}{fx}) ({fy}_{w} - \overset{&OverBar;}{fy})}{\sqrt{Σ_{w = 1}^{FN} {({fx}_{w} - \overset{&OverBar;}{fx})}^{2} \cdot Σ_{w = 1}^{FN} {({fy}_{w} - \overset{&OverBar;}{fy})}^{2}}},

其中，fx_w和fy_w分别是声音事件x和y第w个维度的特征向量，w取值范围1～FN，和分别是声音事件x和y的特征向量所有维度的均值，FN是声音事件特征向量的维度的总数。

本发明步骤五中，所述的阈值计算方法如下：

μ+σ，

其中，μ是所有声音事件间相关值的均值，σ是所有声音事件间相关值的标准差；

μ的计算方法如下：

μ = \frac{1}{NS} Σ_{x = 1, y = 1, y &NotEqual; x}^{EK} S_{xy},

其中，NS是所有声音事件间的相关值S_xy的数量；

σ的计算方法如下：

σ = \frac{1}{NS} Σ_{x = 1, y = 1, y &NotEqual; x}^{EK} {(S_{xy} - μ)}^{2} .

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和其他方面的优点将会变得更加清楚。

图1为本发明流程图。

具体实施方式：

本发明所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法的基本出发点是通过对多源场景音频进行分割，在每个分割中提取特征，聚成几类不同的声音事件，再次检测其中的背景声音事件，并得到关键的声音事件，最后在关键声音事件基础上通过上下文关系的分析得出多源场景声音的语义摘要。

下面结合附图对本发明做更加详细的解释：

如图1所示，步骤1，输入待摘要的多源场景音频数据，记为目标音频I。

步骤2，对目标音频I进行音频分割：

X＝{x_i}_i＝1,...,M，

T {= E}_{b}^{T} X,

v = E_{b}^{T} {\overset{&OverBar;}{v}}_{0},

计算目标音频帧与背景音频帧v之间的归一化距离D(i)：

D (i) = \frac{| | t_{i} - v | | - \min}{\max - \min},

步骤3，提取梅尔频率倒谱系数和局部判别基特征，并合并成梅尔频率倒谱系数-局部判别基混合特征：

1)提取音频的梅尔频率倒谱系数特征；

2)利用局部判别基对音频进行特征提取；

步骤4，对音频分割片段进行谱聚类：

1)对于音频分割片段seg_v及它的梅尔频率倒谱系数-局部判别基特征矩阵MLDB＝{a_v1,...,a_vn}，v取值1～M₁，j取值1～n，n表示特征向量总数，则a_vj表示音频分割片段seg_v的第j个梅尔频率倒谱系数-局部判别基特征向量，用第一次谱聚类算法将每个特征向量聚类为FK类，每一聚类为c_k1,k1＝1,...,FK；

2)记聚类c_k1的元素个数是N_k1，那么音频分割片段seg_o就属于N_k1最大的那个聚类c_k1，判定音频分割片段seg_o属于声音事件e_k2,k2＝1,...,EK，EK表示声音事件的总数，最后得到所有音频分割片段的聚类结果，即声音事件集合E＝{e₁,...,e_EK}。

步骤5，利用一个仿射函数来识别每个聚类是否属于背景声音事件，仿射函数如下：

aff (e_{k}, I) = \exp {(d_{k} - d_{avg})}^{2} / ((2 d_{avg}^{2}) \cdot \exp (p_{k} / q_{k})),

步骤6，计算声音事件的发生频率、总时间长度及平均时间长度三个评分函数，

frq(e_s,I)的计算方法如下：

frq (e_{s}, I) = \exp (- {(n_{s} - n_{avg})}^{2} / (2 n_{std}^{2})),

dur(e_s,I)的计算方法如下：

dur (e_{s}, I) = \exp (- {(d_{s} - d_{avg})}^{2} / (2 d_{std}^{2})),

len(e_s,I)的计算方法如下：

len (e_{s}, I) = \exp (- {(l_{s} - l_{avg})}^{2} / (2 l_{std}^{2})),

步骤7，通过一个关键声音事件的评分函数，得到关键声音事件。评分函数计算方法如下：

score(e_s,I)＝frq(e_s,I)·dur(e_s,I)·len(e_s,I)，

其中，frq(e_s,I)表示声音事件e_s发生频率的评分函数，dur(e_s,I)表示声音事件e_s总时间长度的评分函数，len(e_s,I)表示声音事件e_s平均时间长度的评分函数，e_s是表示声音事件，s取值范围1～EK。

步骤8，通过计算声音事件两两之间的相关值得到声音事件的上下文关系，相关值S_xy计算方法如下：

S_{xy} = \frac{1}{{dt}_{xy}} \cdot \exp (- {(d_{x} - d_{y})}^{2} / (d_{x} + d_{y})) \cdot \exp ({corr}_{xy}),

相关系数corr_xy的计算方法如下：

{corr}_{xy} = \frac{Σ_{w = 1}^{FN} ({fx}_{w} - \overset{&OverBar;}{fx}) ({fy}_{w} - \overset{&OverBar;}{fy})}{\sqrt{Σ_{w = 1}^{FN} {({fx}_{w} - \overset{&OverBar;}{fx})}^{2} \cdot Σ_{w = 1}^{FN} {({fy}_{w} - \overset{&OverBar;}{fy})}^{2}}},

步骤9，利用关键声音事件和相邻声音事件的相关度在关键声音事件周围扩展所在场景下的音频分割片段，如果关键声音片段与它的相邻片段相关性相关度超过设定阈值，则把它们归为同一声音场景，如此得到最后的多源场景声音摘要。设定的阈值计算方法如下：

μ+σ，

μ的计算方法如下：

μ = \frac{1}{NS} Σ_{x = 1, y = 1, y &NotEqual; x}^{EK} S_{xy},

其中，NS是所有声音事件间的相关值S_xy的数量；

σ的计算方法如下：

σ = \frac{1}{NS} Σ_{x = 1, y = 1, y &NotEqual; x}^{EK} {(S_{xy} - μ)}^{2} .

实施例：

本实施例包括以下部分：

1.输入音频数据

本实例的数据集是运动、颁奖典礼、喜剧类电影、动作类电影这四类视频中提取的音频，包含2011年的世界乒乓球决赛、第83届奥斯卡金像奖、生活大爆炸、速度与激情等电影音频，总共65112秒。所有目标音频的采样率为44.1KHz且单声道的。

2.音频分割

对每个视频的音频做声音摘要是独立的，下面对速度与激情音频作说明。

读出速度与激情音频I的采样值，并将采样值组成一个N×M的矩阵X：

X＝{x_i}_i＝1,...,M，

T {= E}_{b}^{T} X,

将背景声音的音频帧v₀减去矩阵X所有音频帧的平均值，得到均值为零的背景音频帧并映射到空间E_b上，得到背景音频帧v：

v = E_{b}^{T} {\overset{&OverBar;}{v}}_{0},

计算目标音频帧与背景音频帧v之间的归一化距离D(i)：

D (i) = \frac{| | t_{i} - v | | - \min}{\max - \min},

3.特征提取

对每个速度与激情音频的分割片段提取梅尔频率倒谱系数和局部判别基特征，并合并成梅尔频率倒谱系数-局部判别基混合特征：

1)提取音频的21维梅尔频率倒谱系数特征；

2)利用局部判别基对音频提取20维的特征；

3)在梅尔频率倒谱系数特征后加上局部判别基特征，得到41维的梅尔频率倒谱系数-局部判别基特征。

4.谱聚类

5.背景声音事件检测

计算每个声音事件的仿射函数值，仿射函数如下：

aff (e_{k}, I) = \exp {(d_{k} - d_{avg})}^{2} / ((2 d_{avg}^{2}) \cdot \exp (p_{k} / q_{k})),

将仿射函数值最大的那个声音事件作为背景声音事件。

6.评分函数计算

对每个声音事件计算发生频率、总时间长度及平均时间长度三个评分函数。

发生频率评分函数frq(e_s,I)的计算方法如下：

frq (e_{s}, I) = \exp (- {(n_{s} - n_{avg})}^{2} / (2 n_{std}^{2})),

总时间长度评分函数dur(e_s,I)的计算方法如下：

dur (e_{s}, I) = \exp (- {(d_{s} - d_{avg})}^{2} / (2 d_{std}^{2})),

平均时间长度评分函数len(e_s,I)的计算方法如下：

len (e_{s}, I) = \exp (- {(l_{s} - l_{avg})}^{2} / (2 l_{std}^{2})),

7.关键声音事件检测

声音事件的发生频率、总时间长度及平均时间长度三个评分函数共同构成了关键声音事件的评分函数，取函数值若干个作为关键声音事件。评分函数计算方法如下：

score(e_s,I)＝frq(e_s,I)·dur(e_s,I)·len(e_s,I)。

8.计算声音事件之间的上下文相关值

计算声音事件两两之间的相关值得到声音事件的上下文关系，相关值S_xy计算方法如下：

S_{xy} = \frac{1}{{dt}_{xy}} \cdot \exp (- {(d_{x} - d_{y})}^{2} / (d_{x} + d_{y})) \cdot \exp ({corr}_{xy}) .

9.多源场景声音摘要

用关键声音事件和相邻声音事件的相关度在关键声音事件周围扩展所在场景下的音频分割片段，如果关键声音片段与它的相邻片段相关性相关度超过所有声音事件间相关值的均值与标准差的和，则把它们归为同一声音场景，如此得到最后的多源场景声音摘要。

Claims

1.一种基于分层事件检测和上下文模型的多源场景声音摘要方法，其特征在于，包括以下步骤：

步骤三，使用谱聚类算法将目标音频中相似的分割片段聚类，将一类分割片段作为声音事件，使用仿射函数进行背景声音事件的检测，计算声音事件的发生频率、总时间长度及平均时间长度三个评分函数并组成关键声音事件的评分函数，通过关键声音事件的评分函数计算得到关键声音事件；

2.根据权利要求1所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法，其特征在于，步骤二包括如下步骤：

X＝{x_i}_i＝1,...,M，

T {= E}_{b}^{T} X,

v = E_{b}^{T} {\overset{&OverBar;}{v}}_{0},

计算目标音频帧与背景音频帧v之间的归一化距离D(i)：

D (i) = \frac{| | t_{i} - v | | - \min}{\max - \min},

3.根据权利要求2所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法，其特征在于，步骤三中，所述使用谱聚类算法将目标音频中相似的分割片段聚类包括如下步骤：

4.根据权利要求3所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法，其特征在于，步骤三中，所述梅尔频率倒谱系数-局部判别基特征的提取步骤如下：

1)提取音频的梅尔频率倒谱系数特征；

2)利用局部判别基对音频进行特征提取；

5.根据权利要求4所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法，其特征在于，步骤三中，所述背景声音事件检测的仿射函数如下：

aff (e_{k}, I) = \exp {(d_{k} - d_{avg})}^{2} / ((2 d_{avg}^{2}) \cdot \exp (p_{k} / q_{k})),

6.根据权利要求5所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法，其特征在于，步骤三中，所述的关键声音事件的评分函数计算方法如下：

score(e_s,I)＝frq(e_s,I)·dur(e_s,I)·len(e_s,I)，

frq(e_s,I)的计算方法如下：

frq (e_{s}, I) = \exp (- {(n_{s} - n_{avg})}^{2} / (2 n_{std}^{2})),

dur(e_s,I)的计算方法如下：

dur (e_{s}, I) = \exp (- {(d_{s} - d_{avg})}^{2} / (2 d_{std}^{2})),

len(e_s,I)的计算方法如下：

len (e_{s}, I) = \exp (- {(l_{s} - l_{avg})}^{2} / (2 l_{std}^{2})),

7.根据权利要求6所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法，其特征在于，步骤四中相关值S_xy计算方法如下：

S_{xy} = \frac{1}{{dt}_{xy}} \cdot \exp (- {(d_{x} - d_{y})}^{2} / (d_{x} + d_{y})) \cdot \exp ({corr}_{xy}),

相关系数corr_xy的计算方法如下：

{corr}_{xy} = \frac{Σ_{w = 1}^{FN} ({fx}_{w} - \overset{&OverBar;}{fx}) ({fy}_{w} - \overset{&OverBar;}{fy})}{\sqrt{Σ_{w = 1}^{FN} {({fx}_{w} - \overset{&OverBar;}{fx})}^{2} \cdot Σ_{w = 1}^{FN} {({fy}_{w} - \overset{&OverBar;}{fy})}^{2}}},

8.根据权利要求1所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法，其特征在于，步骤五中，所述的阈值计算方法如下：

μ+σ，

μ的计算方法如下：

μ = \frac{1}{NS} Σ_{x = 1, y = 1, y &NotEqual; x}^{EK} S_{xy},

其中，NS是所有声音事件间的相关值S_xy的数量；

σ的计算方法如下：

σ = \frac{1}{NS} Σ_{x = 1, y = 1, y &NotEqual; x}^{EK} {(S_{xy} - μ)}^{2} .