CN104167211A - 基于分层事件检测和上下文模型的多源场景声音摘要方法 - Google Patents

基于分层事件检测和上下文模型的多源场景声音摘要方法 Download PDF

Info

Publication number
CN104167211A
CN104167211A CN201410391254.0A CN201410391254A CN104167211A CN 104167211 A CN104167211 A CN 104167211A CN 201410391254 A CN201410391254 A CN 201410391254A CN 104167211 A CN104167211 A CN 104167211A
Authority
CN
China
Prior art keywords
audio
sound event
sound
segmentation
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410391254.0A
Other languages
English (en)
Other versions
CN104167211B (zh
Inventor
路通
翁炀冰
王公友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201410391254.0A priority Critical patent/CN104167211B/zh
Publication of CN104167211A publication Critical patent/CN104167211A/zh
Application granted granted Critical
Publication of CN104167211B publication Critical patent/CN104167211B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于分层事件检测和上下文模型的多源场景声音摘要方法,包括以下步骤:步骤一,输入一段待摘要的目标多源场景音频分割片段;步骤二,基于背景声音对音频场景片段进行分割;步骤三,通过一个谱聚类算法,将目标音频中相似的分割片段聚类起来,利用仿射函数检测背景声音事件,并计算声音事件的评分函数得到关键声音事件;步骤四,通过一个上下文模型计算声音事件之间的相关函数;步骤五,根据声音事件之间的相关值在关键声音事件的音频分割片段前后合并相关度较高的音频分割片段得出最后的多源场景声音摘要。

Description

基于分层事件检测和上下文模型的多源场景声音摘要方法
技术领域
本发明涉及一种多源场景声音的摘要方法,特别是一种基于分层事件检测和上下文模型的多源场景声音摘要方法。
背景技术
近几年来,随着配备声传感器智能设备的快速升级,声音成为了内容感知应用中很有用的数据类型。音频相对于基于视觉的工具是比较廉价的媒体,也没有视觉媒体中的遮挡与光照强弱等难题,日益增长的音频数据量也引发了对开发音频上高效面向内容算法的迫切需求。典型的算法有,获取有用的音频数据、将音频数据分组成有意义的类别以及提供音频浏览或检索等。音频内容摘要是指从音频流中提取有意义的信息,这在现实生活中的音频相关应用上非常有用。
在检测和提取音频流语义内容方面有三大方法。谐波结构分析方法主要处理说话和音乐这类的音频数据,这类方法可以处理结构化的具有共振峰特征的声音,但不能直接用于分析非结构化声音信号。特征提取方法考虑了通过分析和选择不同的音频特征来识别多源声音,但无法弥补低层听觉特性和高层予以内容之间的语义鸿沟。音频上下文表示方法使用上下文作为分类器来识别多源声音,但是无法用一个系统的方式来开发多源声音中有意义的部分和他们之间的关系。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于分层事件检测和上下文模型的多源场景声音摘要方法,从而对一段多源场景音频分割片段做出分析,摘要出其中的场景片段。
为了解决上述技术问题,本发明公开了一种基于分层事件检测和上下文模型的多源场景声音摘要方法,包括以下步骤:
步骤一,输入一段待摘要的目标多源场景音频信号作为目标音频,所述待摘要的目标多源场景音频信号由各种来源的结构化的前景声音及非结构化的背景声音组成;
步骤二,通过背景声音识别算法,识别出目标音频中的背景声音,提取目标音频的波形值组成一个矩阵,并将该矩阵和背景声音特征向量都投影到特征空间中,计算目标音频特征向量和背景声音特征向量的归一化距离来确定目标音频分割片段的分割点位置,完成音频分割;
步骤三,使用谱聚类算法将目标音频中相似的分割片段聚类,将一类分割片段作为声音事件,使用仿射函数进行背景声音事件的检测,计算声音事件的发生频率、总时间长度及平均时间长度属性,通过关键声音事件的评分函数计算得到关键声音事件;
步骤四,使用上下文模型将关键声音事件和相邻的事件关联在同一个声音场景下,即用声音事件之间的相关系数和时间间隔,计算两个声音片段的相关函数得到相邻声音事件的相关值;
步骤五,利用关键声音事件和相邻声音事件的相关值在关键声音事件的音频分割片段周围扩展所在场景下的音频分割片段,如果关键声音事件的音频分割片段与它的相邻音频分割片段各自所属声音事件的相关值超过设定阈值,则把它们归为同一声音场景,最后得到最后的多源场景声音摘要。
本发明步骤二包括如下步骤:
对目标音频I读出其采样值,并将采样值组成一个N×M的矩阵X:
X={xi}i=1,...,M
其中,xi表示第i个含有N个采样点且无重叠的音频帧,i取值1~M,M表示总帧数;
将M个音频帧中每个音频帧减去矩阵X所有音频帧的平均值,通过主成分分析算法将矩阵X的协方差矩阵降到N×K维,记为K维特征空间Eb,然后将矩阵X映射到空间Eb上:
T = E b T X ,
其中,T是K×M矩阵,包含所有被映射的音频帧,是Eb的转置矩阵;
将背景声音的音频帧v0减去矩阵X所有音频帧的平均值,得到均值为零的背景音频帧并映射到空间Eb上,得到背景音频帧v,公式为:
v = E b T v ‾ 0 ,
计算目标音频帧与背景音频帧v之间的归一化距离D(i):
D ( i ) = | | t i - v | | - min max - min ,
其中ti表示目标音频I的第i帧,max和min分别表示||ti-v||的最大值和最小值;
归一化距离D(i)的局部最小值点即为音频分割点,每两个音频分割点之间构成音频分割片段,所有的音频分割片段记为集合M1为音频分割片段的总数。
本发明步骤三中,所述使用谱聚类算法将目标音频中相似的分割片段聚类包括如下步骤:
1)对于音频分割片段segv及它的梅尔频率倒谱系数-局部判别基特征矩阵
MLDB={av1,...,avn},其中avj表示音频分割片段segv的第j个梅尔频率倒谱系数-局部判别基特征向量,v取值1~M1,j取值1~n,n表示特征向量总数,用第一次谱聚类算法将每个特征向量聚类为FK类,每一聚类为ck1,k1=1,...,FK;
2)记聚类ck1的元素个数是Nk1,那么音频分割片段sego就属于Nk1最大的那个聚类ck1,判定音频分割片段sego属于声音事件ek2,,k2=1,...,EK,EK表示声音事件的总数,最后得到所有音频分割片段的聚类结果,即声音事件集合E={e1,...,eEK}。
本发明步骤三中,所述梅尔频率倒谱系数-局部判别基特征的提取步骤如下:
1)提取音频的梅尔频率倒谱系数特征;
2)利用局部判别基对音频进行特征提取;
3)在梅尔频率倒谱系数特征后加上局部判别基特征,得到更高维数的梅尔频率倒谱系数-局部判别基特征。
本发明步骤三中,所述背景声音事件检测的仿射函数如下:
aff ( e k , I ) = exp ( d k - d avg ) 2 / ( ( 2 d avg 2 ) · exp ( p k / q k ) ) ,
其中dk是声音事件ek的总时间长度,k的取值范围1~EK,davg和dstd分别是声音事件ek中所有音频分割片段的均值和标准差,将仿射函数值最大的那个声音事件作为背景声音事件,pk和qk分别表示所有声音事件中所有音频分割片段的总时间长度的均值和方差,即所有声音事件总时间长度dk的均值和方差。
本发明步骤三中,所述的关键声音事件的评分函数计算方法如下:
score(es,I)=frq(es,I)·dur(es,I)·len(es,I),
其中,frq(es,I)表示声音事件es发生频率的评分函数,dur(es,I)表示声音事件es总时间长度的评分函数,len(es,I)表示声音事件es平均时间长度的评分函数,es是表示声音事件,s取值范围1~EK;
frq(es,I)的计算方法如下:
frq ( e s , I ) = exp ( - ( n s - n avg ) 2 / ( 2 n std 2 ) ) ,
其中,ns表示声音事件es发生的次数,navg和nstd分别表示声音事件es发生频率的均值和标准差;
dur(es,I)的计算方法如下:
dur ( e s , I ) = exp ( - ( d s - d avg ) 2 / ( 2 d std 2 ) ) ,
其中,ds表示声音事件es的总时间长度,davg和dstd分别表示声音事件es总时间长度的均值和标准差;
len(es,I)的计算方法如下:
len ( e s , I ) = exp ( - ( l s - l avg ) 2 / ( 2 l std 2 ) ) ,
其中,ls表示声音事件es的平均时间长度,lavg和lstd分别表示声音事件es的平均时间长度的均值和标准差。
本发明步骤四中相关值Sxy计算方法如下:
S xy = 1 dt xy · exp ( - ( d x - d y ) 2 / ( d x + d y ) ) · exp ( corr xy ) ,
其中,dtxy和corrxy分别表示声音事件x和y的欧式距离以及相关系数,dx和dy分别是两个声音事件的各自的总时间长度,exp(x)表示ex,e为自然常数,x和y的取值范围是1~EK,且x不等于y;
相关系数corrxy的计算方法如下:
corr xy = Σ w = 1 FN ( fx w - fx ‾ ) ( fy w - fy ‾ ) Σ w = 1 FN ( fx w - fx ‾ ) 2 · Σ w = 1 FN ( fy w - fy ‾ ) 2 ,
其中,fxw和fyw分别是声音事件x和y第w个维度的特征向量,w取值范围1~FN,分别是声音事件x和y的特征向量所有维度的均值,FN是声音事件特征向量的维度的总数。
本发明步骤五中,所述的阈值计算方法如下:
μ+σ,
其中,μ是所有声音事件间相关值的均值,σ是所有声音事件间相关值的标准差;
μ的计算方法如下:
μ = 1 NS Σ x = 1 , y = 1 , y ≠ x EK S xy ,
其中,NS是所有声音事件间的相关值Sxy的数量;
σ的计算方法如下:
σ = 1 NS Σ x = 1 , y = 1 , y ≠ x EK ( S xy - μ ) 2 .
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和其他方面的优点将会变得更加清楚。
图1为本发明流程图。
具体实施方式:
本发明所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法的基本出发点是通过对多源场景音频进行分割,在每个分割中提取特征,聚成几类不同的声音事件,再次检测其中的背景声音事件,并得到关键的声音事件,最后在关键声音事件基础上通过上下文关系的分析得出多源场景声音的语义摘要。
下面结合附图对本发明做更加详细的解释:
如图1所示,步骤1,输入待摘要的多源场景音频数据,记为目标音频I。
步骤2,对目标音频I进行音频分割:
对目标音频I读出其采样值,并将采样值组成一个N×M的矩阵X:
X={xi}i=1,...,M
其中,xi表示第i个含有N个采样点且无重叠的音频帧,i取值1~M,M表示总帧数;
将M个音频帧中每个音频帧减去矩阵X所有音频帧的平均值,通过主成分分析算法将矩阵X的协方差矩阵降到N×K维,记为K维特征空间Eb,然后将矩阵X映射到空间Eb上:
T = E b T X ,
其中,T是K×M矩阵,包含所有被映射的音频帧,是Eb的转置矩阵;
将背景声音的音频帧v0减去矩阵X所有音频帧的平均值,得到均值为零的背景音频帧并映射到空间Eb上,得到背景音频帧v,公式为:
v = E b T v ‾ 0 ,
计算目标音频帧与背景音频帧v之间的归一化距离D(i):
D ( i ) = | | t i - v | | - min max - min ,
其中ti表示目标音频I的第i帧,max和min分别表示||ti-v||的最大值和最小值;
归一化距离D(i)的局部最小值点即为音频分割点,每两个音频分割点之间构成音频分割片段,所有的音频分割片段记为集合M1为音频分割片段的总数。
步骤3,提取梅尔频率倒谱系数和局部判别基特征,并合并成梅尔频率倒谱系数-局部判别基混合特征:
1)提取音频的梅尔频率倒谱系数特征;
2)利用局部判别基对音频进行特征提取;
3)在梅尔频率倒谱系数特征后加上局部判别基特征,得到更高维数的梅尔频率倒谱系数-局部判别基特征。
步骤4,对音频分割片段进行谱聚类:
1)对于音频分割片段segv及它的梅尔频率倒谱系数-局部判别基特征矩阵MLDB={av1,...,avn},v取值1~M1,j取值1~n,n表示特征向量总数,则avj表示音频分割片段segv的第j个梅尔频率倒谱系数-局部判别基特征向量,用第一次谱聚类算法将每个特征向量聚类为FK类,每一聚类为ck1,k1=1,...,FK;
2)记聚类ck1的元素个数是Nk1,那么音频分割片段sego就属于Nk1最大的那个聚类ck1,判定音频分割片段sego属于声音事件ek2,k2=1,...,EK,EK表示声音事件的总数,最后得到所有音频分割片段的聚类结果,即声音事件集合E={e1,...,eEK}。
步骤5,利用一个仿射函数来识别每个聚类是否属于背景声音事件,仿射函数如下:
aff ( e k , I ) = exp ( d k - d avg ) 2 / ( ( 2 d avg 2 ) · exp ( p k / q k ) ) ,
其中dk是声音事件ek的总时间长度,k的取值范围1~EK,davg和dstd分别是声音事件ek中所有音频分割片段的均值和标准差,将仿射函数值最大的那个声音事件作为背景声音事件,pk和qk分别表示所有声音事件中所有音频分割片段的总时间长度的均值和方差,即所有声音事件总时间长度dk的均值和方差。
步骤6,计算声音事件的发生频率、总时间长度及平均时间长度三个评分函数,
frq(es,I)的计算方法如下:
frq ( e s , I ) = exp ( - ( n s - n avg ) 2 / ( 2 n std 2 ) ) ,
其中,ns表示声音事件es发生的次数,navg和nstd分别表示声音事件es发生频率的均值和标准差;
dur(es,I)的计算方法如下:
dur ( e s , I ) = exp ( - ( d s - d avg ) 2 / ( 2 d std 2 ) ) ,
其中,ds表示声音事件es的总时间长度,davg和dstd分别表示声音事件es总时间长度的均值和标准差;
len(es,I)的计算方法如下:
len ( e s , I ) = exp ( - ( l s - l avg ) 2 / ( 2 l std 2 ) ) ,
其中,ls表示声音事件es的平均时间长度,lavg和lstd分别表示声音事件es的平均时间长度的均值和标准差。
步骤7,通过一个关键声音事件的评分函数,得到关键声音事件。评分函数计算方法如下:
score(es,I)=frq(es,I)·dur(es,I)·len(es,I),
其中,frq(es,I)表示声音事件es发生频率的评分函数,dur(es,I)表示声音事件es总时间长度的评分函数,len(es,I)表示声音事件es平均时间长度的评分函数,es是表示声音事件,s取值范围1~EK。
步骤8,通过计算声音事件两两之间的相关值得到声音事件的上下文关系,相关值Sxy计算方法如下:
S xy = 1 dt xy · exp ( - ( d x - d y ) 2 / ( d x + d y ) ) · exp ( corr xy ) ,
其中,dtxy和corrxy分别表示声音事件x和y的欧式距离以及相关系数,dx和dy分别是两个声音事件的各自的总时间长度,exp(x)表示ex,e为自然常数,x和y的取值范围是1~EK,且x不等于y;
相关系数corrxy的计算方法如下:
corr xy = Σ w = 1 FN ( fx w - fx ‾ ) ( fy w - fy ‾ ) Σ w = 1 FN ( fx w - fx ‾ ) 2 · Σ w = 1 FN ( fy w - fy ‾ ) 2 ,
其中,fxw和fyw分别是声音事件x和y第w个维度的特征向量,w取值范围1~FN,分别是声音事件x和y的特征向量所有维度的均值,FN是声音事件特征向量的维度的总数。
步骤9,利用关键声音事件和相邻声音事件的相关度在关键声音事件周围扩展所在场景下的音频分割片段,如果关键声音片段与它的相邻片段相关性相关度超过设定阈值,则把它们归为同一声音场景,如此得到最后的多源场景声音摘要。设定的阈值计算方法如下:
μ+σ,
其中,μ是所有声音事件间相关值的均值,σ是所有声音事件间相关值的标准差;
μ的计算方法如下:
μ = 1 NS Σ x = 1 , y = 1 , y ≠ x EK S xy ,
其中,NS是所有声音事件间的相关值Sxy的数量;
σ的计算方法如下:
σ = 1 NS Σ x = 1 , y = 1 , y ≠ x EK ( S xy - μ ) 2 .
实施例:
本实施例包括以下部分:
1.输入音频数据
本实例的数据集是运动、颁奖典礼、喜剧类电影、动作类电影这四类视频中提取的音频,包含2011年的世界乒乓球决赛、第83届奥斯卡金像奖、生活大爆炸、速度与激情等电影音频,总共65112秒。所有目标音频的采样率为44.1KHz且单声道的。
2.音频分割
对每个视频的音频做声音摘要是独立的,下面对速度与激情音频作说明。
读出速度与激情音频I的采样值,并将采样值组成一个N×M的矩阵X:
X={xi}i=1,...,M
其中,xi表示第i个含有N个采样点且无重叠的音频帧,i取值1~M,M表示总帧数;
将M个音频帧中每个音频帧减去矩阵X所有音频帧的平均值,通过主成分分析算法将矩阵X的协方差矩阵降到N×K维,记为K维特征空间Eb,然后将矩阵X映射到空间Eb上:
T = E b T X ,
将背景声音的音频帧v0减去矩阵X所有音频帧的平均值,得到均值为零的背景音频帧并映射到空间Eb上,得到背景音频帧v:
v = E b T v ‾ 0 ,
计算目标音频帧与背景音频帧v之间的归一化距离D(i):
D ( i ) = | | t i - v | | - min max - min ,
归一化距离D(i)的局部最小值点即为音频分割点,每两个音频分割点之间构成音频分割片段,所有的音频分割片段记为集合M1为音频分割片段的总数。
3.特征提取
对每个速度与激情音频的分割片段提取梅尔频率倒谱系数和局部判别基特征,并合并成梅尔频率倒谱系数-局部判别基混合特征:
1)提取音频的21维梅尔频率倒谱系数特征;
2)利用局部判别基对音频提取20维的特征;
3)在梅尔频率倒谱系数特征后加上局部判别基特征,得到41维的梅尔频率倒谱系数-局部判别基特征。
4.谱聚类
1)对于音频分割片段segv及它的梅尔频率倒谱系数-局部判别基特征矩阵MLDB={av1,...,avn},v取值1~M1,j取值1~n,n表示特征向量总数,则avj表示音频分割片段segv的第j个梅尔频率倒谱系数-局部判别基特征向量,用第一次谱聚类算法将每个特征向量聚类为FK类,每一聚类为ck1,k1=1,...,FK;
2)记聚类ck1的元素个数是Nk1,那么音频分割片段sego就属于Nk1最大的那个聚类ck1,判定音频分割片段sego属于声音事件ek2,k2=1,...,EK,EK表示声音事件的总数,最后得到所有音频分割片段的聚类结果,即声音事件集合E={e1,...,eEK}。
5.背景声音事件检测
计算每个声音事件的仿射函数值,仿射函数如下:
aff ( e k , I ) = exp ( d k - d avg ) 2 / ( ( 2 d avg 2 ) · exp ( p k / q k ) ) ,
将仿射函数值最大的那个声音事件作为背景声音事件。
6.评分函数计算
对每个声音事件计算发生频率、总时间长度及平均时间长度三个评分函数。
发生频率评分函数frq(es,I)的计算方法如下:
frq ( e s , I ) = exp ( - ( n s - n avg ) 2 / ( 2 n std 2 ) ) ,
总时间长度评分函数dur(es,I)的计算方法如下:
dur ( e s , I ) = exp ( - ( d s - d avg ) 2 / ( 2 d std 2 ) ) ,
平均时间长度评分函数len(es,I)的计算方法如下:
len ( e s , I ) = exp ( - ( l s - l avg ) 2 / ( 2 l std 2 ) ) ,
7.关键声音事件检测
声音事件的发生频率、总时间长度及平均时间长度三个评分函数共同构成了关键声音事件的评分函数,取函数值若干个作为关键声音事件。评分函数计算方法如下:
score(es,I)=frq(es,I)·dur(es,I)·len(es,I)。
8.计算声音事件之间的上下文相关值
计算声音事件两两之间的相关值得到声音事件的上下文关系,相关值Sxy计算方法如下:
S xy = 1 dt xy · exp ( - ( d x - d y ) 2 / ( d x + d y ) ) · exp ( corr xy ) .
9.多源场景声音摘要
用关键声音事件和相邻声音事件的相关度在关键声音事件周围扩展所在场景下的音频分割片段,如果关键声音片段与它的相邻片段相关性相关度超过所有声音事件间相关值的均值与标准差的和,则把它们归为同一声音场景,如此得到最后的多源场景声音摘要。

Claims (8)

1.一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,包括以下步骤:
步骤一,输入一段待摘要的目标多源场景音频信号作为目标音频,所述待摘要的目标多源场景音频信号由各种来源的结构化的前景声音及非结构化的背景声音组成;
步骤二,通过背景声音识别算法,识别出目标音频中的背景声音,提取目标音频的波形值组成一个矩阵,并将该矩阵和背景声音特征向量都投影到特征空间中,计算目标音频特征向量和背景声音特征向量的归一化距离来确定目标音频分割片段的分割点位置,完成音频分割;
步骤三,使用谱聚类算法将目标音频中相似的分割片段聚类,将一类分割片段作为声音事件,使用仿射函数进行背景声音事件的检测,计算声音事件的发生频率、总时间长度及平均时间长度三个评分函数并组成关键声音事件的评分函数,通过关键声音事件的评分函数计算得到关键声音事件;
步骤四,使用上下文模型将关键声音事件和相邻的事件关联在同一个声音场景下,即用声音事件之间的相关系数和时间间隔,计算两个声音片段的相关函数得到相邻声音事件的相关值;
步骤五,利用关键声音事件和相邻声音事件的相关值在关键声音事件的音频分割片段周围扩展所在场景下的音频分割片段,如果关键声音事件的音频分割片段与它的相邻音频分割片段各自所属声音事件的相关值超过设定阈值,则把它们归为同一声音场景,最后得到最后的多源场景声音摘要。
2.根据权利要求1所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤二包括如下步骤:
对目标音频I读出其采样值,并将采样值组成一个N×M的矩阵X:
X={xi}i=1,...,M
其中,xi表示第i个含有N个采样点且无重叠的音频帧,i取值1~M,M表示总帧数;
将M个音频帧中每个音频帧减去矩阵X所有音频帧的平均值,通过主成分分析算法将矩阵X的协方差矩阵降到N×K维,记为K维特征空间Eb,然后将矩阵X映射到空间Eb上:
T = E b T X ,
其中,T是K×M矩阵,包含所有被映射的音频帧,是Eb的转置矩阵;
将背景声音的音频帧v0减去矩阵X所有音频帧的平均值,得到均值为零的背景音频帧并映射到空间Eb上,得到背景音频帧v,公式为:
v = E b T v ‾ 0 ,
计算目标音频帧与背景音频帧v之间的归一化距离D(i):
D ( i ) = | | t i - v | | - min max - min ,
其中ti表示目标音频I的第i帧,max和min分别表示||ti-v||的最大值和最小值;
归一化距离D(i)的局部最小值点即为音频分割点,每两个音频分割点之间构成音频分割片段,所有的音频分割片段记为集合M1为音频分割片段的总数。
3.根据权利要求2所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤三中,所述使用谱聚类算法将目标音频中相似的分割片段聚类包括如下步骤:
1)对于音频分割片段segv及它的梅尔频率倒谱系数-局部判别基特征矩阵MLDB={av1,...,avn},v取值1~M1,j取值1~n,n表示特征向量总数,则avj表示音频分割片段segv的第j个梅尔频率倒谱系数-局部判别基特征向量,用第一次谱聚类算法将每个特征向量聚类为FK类,每一聚类为ck1,k1=1,...,FK;
2)记聚类ck1的元素个数是Nk1,那么音频分割片段sego就属于Nk1最大的那个聚类ck1,判定音频分割片段sego属于声音事件ek2,k2=1,...,EK,EK表示声音事件的总数,最后得到所有音频分割片段的聚类结果,即声音事件集合E={e1,...,eEK}。
4.根据权利要求3所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤三中,所述梅尔频率倒谱系数-局部判别基特征的提取步骤如下:
1)提取音频的梅尔频率倒谱系数特征;
2)利用局部判别基对音频进行特征提取;
3)在梅尔频率倒谱系数特征后加上局部判别基特征,得到更高维数的梅尔频率倒谱系数-局部判别基特征。
5.根据权利要求4所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤三中,所述背景声音事件检测的仿射函数如下:
aff ( e k , I ) = exp ( d k - d avg ) 2 / ( ( 2 d avg 2 ) · exp ( p k / q k ) ) ,
其中dk是声音事件ek的总时间长度,k的取值范围1~EK,davg和dstd分别是声音事件ek中所有音频分割片段的均值和标准差,将仿射函数值最大的那个声音事件作为背景声音事件,pk和qk分别表示所有声音事件中所有音频分割片段的总时间长度的均值和方差,即所有声音事件总时间长度dk的均值和方差。
6.根据权利要求5所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤三中,所述的关键声音事件的评分函数计算方法如下:
score(es,I)=frq(es,I)·dur(es,I)·len(es,I),
其中,frq(es,I)表示声音事件es发生频率的评分函数,dur(es,I)表示声音事件es总时间长度的评分函数,len(es,I)表示声音事件es平均时间长度的评分函数,es是表示声音事件,s取值范围1~EK;
frq(es,I)的计算方法如下:
frq ( e s , I ) = exp ( - ( n s - n avg ) 2 / ( 2 n std 2 ) ) ,
其中,ns表示声音事件es发生的次数,navg和nstd分别表示声音事件es发生频率的均值和标准差;
dur(es,I)的计算方法如下:
dur ( e s , I ) = exp ( - ( d s - d avg ) 2 / ( 2 d std 2 ) ) ,
其中,ds表示声音事件es的总时间长度,davg和dstd分别表示声音事件es总时间长度的均值和标准差;
len(es,I)的计算方法如下:
len ( e s , I ) = exp ( - ( l s - l avg ) 2 / ( 2 l std 2 ) ) ,
其中,ls表示声音事件es的平均时间长度,lavg和lstd分别表示声音事件es的平均时间长度的均值和标准差。
7.根据权利要求6所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤四中相关值Sxy计算方法如下:
S xy = 1 dt xy · exp ( - ( d x - d y ) 2 / ( d x + d y ) ) · exp ( corr xy ) ,
其中,dtxy和corrxy分别表示声音事件x和y的欧式距离以及相关系数,dx和dy分别是两个声音事件的各自的总时间长度,exp(x)表示ex,e为自然常数,x和y的取值范围是1~EK,且x不等于y;
相关系数corrxy的计算方法如下:
corr xy = Σ w = 1 FN ( fx w - fx ‾ ) ( fy w - fy ‾ ) Σ w = 1 FN ( fx w - fx ‾ ) 2 · Σ w = 1 FN ( fy w - fy ‾ ) 2 ,
其中,fxw和fyw分别是声音事件x和y第w个维度的特征向量,w取值范围1~FN,分别是声音事件x和y的特征向量所有维度的均值,FN是声音事件特征向量的维度的总数。
8.根据权利要求1所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤五中,所述的阈值计算方法如下:
μ+σ,
其中,μ是所有声音事件间相关值的均值,σ是所有声音事件间相关值的标准差;
μ的计算方法如下:
μ = 1 NS Σ x = 1 , y = 1 , y ≠ x EK S xy ,
其中,NS是所有声音事件间的相关值Sxy的数量;
σ的计算方法如下:
σ = 1 NS Σ x = 1 , y = 1 , y ≠ x EK ( S xy - μ ) 2 .
CN201410391254.0A 2014-08-08 2014-08-08 基于分层事件检测和上下文模型的多源场景声音摘要方法 Expired - Fee Related CN104167211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410391254.0A CN104167211B (zh) 2014-08-08 2014-08-08 基于分层事件检测和上下文模型的多源场景声音摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410391254.0A CN104167211B (zh) 2014-08-08 2014-08-08 基于分层事件检测和上下文模型的多源场景声音摘要方法

Publications (2)

Publication Number Publication Date
CN104167211A true CN104167211A (zh) 2014-11-26
CN104167211B CN104167211B (zh) 2017-03-22

Family

ID=51910992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410391254.0A Expired - Fee Related CN104167211B (zh) 2014-08-08 2014-08-08 基于分层事件检测和上下文模型的多源场景声音摘要方法

Country Status (1)

Country Link
CN (1) CN104167211B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492347A (zh) * 2018-04-11 2018-09-04 广东数相智能科技有限公司 图像生成方法、装置与计算机可读存储介质
CN109087669A (zh) * 2018-10-23 2018-12-25 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN110120230A (zh) * 2019-01-08 2019-08-13 国家计算机网络与信息安全管理中心 一种声学事件检测方法及装置
CN110161320A (zh) * 2019-05-31 2019-08-23 北京无线电计量测试研究所 一种波形宽度不确定度确定方法及系统
CN111241336A (zh) * 2020-01-07 2020-06-05 厦门快商通科技股份有限公司 音频场景识别方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004233541A (ja) * 2003-01-29 2004-08-19 Riyuukoku Univ ハイライトシーン検出システム
US20070239441A1 (en) * 2006-03-29 2007-10-11 Jiri Navratil System and method for addressing channel mismatch through class specific transforms
CN102411930A (zh) * 2010-09-21 2012-04-11 索尼公司 生成音频模型的方法、设备和检测场景类别的方法、设备
CN102693321A (zh) * 2012-06-04 2012-09-26 常州南京大学高新技术研究院 一种跨媒体间信息分析与检索的方法
CN103226948A (zh) * 2013-04-22 2013-07-31 山东师范大学 一种基于声学事件的音频场景识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004233541A (ja) * 2003-01-29 2004-08-19 Riyuukoku Univ ハイライトシーン検出システム
US20070239441A1 (en) * 2006-03-29 2007-10-11 Jiri Navratil System and method for addressing channel mismatch through class specific transforms
CN102411930A (zh) * 2010-09-21 2012-04-11 索尼公司 生成音频模型的方法、设备和检测场景类别的方法、设备
CN102693321A (zh) * 2012-06-04 2012-09-26 常州南京大学高新技术研究院 一种跨媒体间信息分析与检索的方法
CN103226948A (zh) * 2013-04-22 2013-07-31 山东师范大学 一种基于声学事件的音频场景识别方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ANTTI J. ERONEN ET AL: ""Audio-Based Context Recognition"", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
FENG SU,LI YANG LU TONG: ""Environmental Sound Classification for Scene Recognition"", 《MM" 11 PROCEEDING OF TEH 19TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
MARIOS KYPEROUNTAS ET AL: ""Enhanced Eigen一Audioframes forAudiovisual Scene Change Detection"", 《IEEE TRANSACTTONS ON MULTIMEDIA 》 *
TONI HEITTOLA ET AL: ""Sound Event Detection in Multisource Environments Using Source Separation"", 《WORKSHOP ON MACHINE LISTENING IN MULTISOURCE ENVIRONMENT 2011》 *
吕波等: ""基于相似性和新奇度从音乐中提取代表性摘录"", 《计算机应用》 *
戴玉名: ""基于分层代表帧提取的视频摘要研究_"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王毅等: ""视频摘要技术"", 《信息工程大学学报》 *
赵丕锡等: ""视频概要的分类与综合评价方法"", 《计算机应用研究》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492347A (zh) * 2018-04-11 2018-09-04 广东数相智能科技有限公司 图像生成方法、装置与计算机可读存储介质
CN108492347B (zh) * 2018-04-11 2022-02-15 广东数相智能科技有限公司 图像生成方法、装置与计算机可读存储介质
CN109087669A (zh) * 2018-10-23 2018-12-25 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN110120230A (zh) * 2019-01-08 2019-08-13 国家计算机网络与信息安全管理中心 一种声学事件检测方法及装置
CN110120230B (zh) * 2019-01-08 2021-06-01 国家计算机网络与信息安全管理中心 一种声学事件检测方法及装置
CN110161320A (zh) * 2019-05-31 2019-08-23 北京无线电计量测试研究所 一种波形宽度不确定度确定方法及系统
CN110161320B (zh) * 2019-05-31 2021-08-06 北京无线电计量测试研究所 一种波形宽度不确定度确定方法及系统
CN111241336A (zh) * 2020-01-07 2020-06-05 厦门快商通科技股份有限公司 音频场景识别方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN104167211B (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN107393554B (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN102881284B (zh) 非特定人语音情感识别方法及系统
CN104167211B (zh) 基于分层事件检测和上下文模型的多源场景声音摘要方法
Dighe et al. Scale independent raga identification using chromagram patterns and swara based features
CN104992712B (zh) 能识别音乐自动成谱的方法
CN104780388A (zh) 一种视频数据的切分方法和装置
CN102723079B (zh) 基于稀疏表示的音乐和弦自动识别方法
CN103871426A (zh) 对比用户音频与原唱音频相似度的方法及其系统
Pillos et al. A Real-Time Environmental Sound Recognition System for the Android OS.
CN106409298A (zh) 一种声音重录攻击的识别方法
CN105869658B (zh) 一种采用非线性特征的语音端点检测方法
Fonseca et al. Acoustic scene classification by ensembling gradient boosting machine and convolutional neural networks
CN105931635A (zh) 一种音频分割方法及装置
CN107564543A (zh) 一种高情感区分度的语音特征提取方法
CN101539925A (zh) 一种基于关注度分析的音视频文件摘要方法
Jena et al. Gender recognition of speech signal using knn and svm
Seo et al. Convolutional neural networks using log mel-spectrogram separation for audio event classification with unknown devices
Song et al. A compact and discriminative feature based on auditory summary statistics for acoustic scene classification
Ghosal et al. Automatic male-female voice discrimination
Guzman-Zavaleta et al. A robust audio fingerprinting method using spectrograms saliency maps
CN112885330A (zh) 一种基于低资源音频的语种识别方法及系统
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Feng et al. Sample dropout for audio scene classification using multi-scale dense connected convolutional neural network
Wang et al. Environmental sound recognition based on double-input convolutional neural network model
Mahalle et al. Audio based violent scene detection using extreme learning machine algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170322

Termination date: 20180808

CF01 Termination of patent right due to non-payment of annual fee