CN103226948A - 一种基于声学事件的音频场景识别方法 - Google Patents

一种基于声学事件的音频场景识别方法 Download PDF

Info

Publication number
CN103226948A
CN103226948A CN2013101406338A CN201310140633A CN103226948A CN 103226948 A CN103226948 A CN 103226948A CN 2013101406338 A CN2013101406338 A CN 2013101406338A CN 201310140633 A CN201310140633 A CN 201310140633A CN 103226948 A CN103226948 A CN 103226948A
Authority
CN
China
Prior art keywords
audio
audio scene
acoustics
fragment
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101406338A
Other languages
English (en)
Other versions
CN103226948B (zh
Inventor
冷严
徐新艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201310140633.8A priority Critical patent/CN103226948B/zh
Publication of CN103226948A publication Critical patent/CN103226948A/zh
Application granted granted Critical
Publication of CN103226948B publication Critical patent/CN103226948B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于声学事件的音频场景识别方法,具体步骤为:步骤一:对拟进行音频场景识别的音频流进行音频分割;步骤二:对每个音频场景片段中所包含的音频帧,通过声学事件模型进行分类,得到音频帧与各个声学事件类之间的概率关系;步骤三:对每个音频场景片段,综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系;步骤四:对每个音频场景片段,确定音频场景片段中包含的主要声学事件,确定音频场景片段的语义场景。本发明对主要声学事件的判断更加合理准确,进而能提高语义场景识别的准确率;本发明具有很好的推广性;本发明为视频场景识别提供很好的辅助作用,以提高视频场景识别的准确率。

Description

一种基于声学事件的音频场景识别方法
技术领域
本发明涉及模式识别和多媒体信息处理领域,尤其涉及一种基于声学事件的音频场景识别方法。
背景技术
当前,随着信息化社会的快速发展,多媒体信息数据呈现爆炸式增长,如何对这些多媒体数据进行有效利用以服务于人们的日常生活,成为当前亟待解决的问题。多媒体数据包括图像、音频等多种形式。目前对图像的研究与利用已经非常广泛,而对音频的研究起步相对较晚,还有许多技术上的难题亟待解决。
连续的音频流中通常会包含一系列的声学事件,比如说话声、笑声、音乐声等等,而音频场景是指由时间上相邻且语义上相关的若干声学事件所组成的一个音频片段。相对于声学事件来说,音频场景蕴含着更高层次的语义表达,比如战争音频场景中包含有枪声、炮弹的爆炸声、士兵的喊叫声等一系列的声学事件,而战争音频场景就是在这一系列声学事件的基础上所演绎出来的更加抽象的语义表达。音频场景识别(Audio Scene Recognition,ASR)就是对音频片段的内容加以分析和识别,进而加以音频场景的类别标识。
在音频的研究与利用方面,目前国内外已经开展了不少对声学事件(Acoustic Event)的分类研究。但是,在日常生活中,人们往往对音频场景更感兴趣,而不是具体的声学事件。这是因为越高层次的语义表达越接近于人们的思维习惯,也就越容易被人们所接受。比如说,对某一战争影片进行音频检索以实现影片的浏览时,人们更喜欢检索影片中的战争场景部分,而不是仅仅对战争场景中的枪声这一声学事件感兴趣。因此,这就需要用到音频场景识别技术来实现更高层语义上的音频内容识别。虽然,对上述诸如战争场景的检索应用可以借助于视频检索来实现,而且目前也有不少关于视频场景识别的研究,这些研究为视频检索提供了技术保障,比如,许利群等人发明了一种用于对视频序列的场景进行语义分段的方法和系统(申请号200580009646.5);胡卫明等人发明了一种基于多示例学习的恐怖视频场景识别方法(申请号201110369289.0),但是仅仅依靠视频场景识别技术往往难以达到满意的识别效果,而音频也是人类获取信息的一种很重要的手段,音频场景识别研究能为视频场景识别提供很好的辅助作用,因此本发明提出了一种音频场景识别的方法。音频场景识别除了用于上述多媒体检索以外,还具有其它更广阔的应用前景。比如,可以应用到智能机器人中,使机器人更好地感知周围的环境,进而做出正确的决策。再比如,可以用于公共或机密场所的安全监控。基于音频场景识别的音频安全监控具有视频监控所不具备的独特优势,它可以不受光照条件和遮挡的影响,另外也适合用于隐私场合的安全监控。因此,音频监控可以用来辅助视频监控,它可以很好地覆盖视频监控难以达到的死角。音频场景识别具有如此广阔的应用前景和迫切的市场需求,但目前国内外对音频场景识别的研究较少,尚不能满足人们的需求。
发明内容
为了实现从音频的角度进行场景识别,本发明提出了一种基于声学事件的音频场景识别方法,它具有对主要声学事件的判断更加合理准确,进而能提高语义场景识别准确率的优点。
为了实现上述目的,本发明采用如下技术方案:
一种基于声学事件的音频场景识别方法,具体步骤为:
步骤一:对拟进行音频场景识别的音频流进行音频分割,形成音频场景片段和音频帧;
步骤二:对每个音频场景片段中所包含的音频帧,通过声学事件模型进行分类,得到音频帧与各个声学事件类之间的概率关系;
步骤三:对每个音频场景片段,综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系;
步骤四:对每个音频场景片段,根据其与各个声学事件类之间的概率关系得到音频场景片段中包含的主要声学事件,进而得到音频场景片段的语义场景。
所述步骤一的具体步骤为:
(1-1)对拟进行音频场景识别的音频流进行音频场景分割,将音频流分割成若干个长短不一的音频场景片段;
(1-2)对每个音频场景片段进行二次定长分割,将其分割成若干个长度为30毫秒的音频帧。
所述步骤二的具体步骤为:
(2-1)通过高斯混合模型或支持向量机模型建立各声学事件模型;
(2-2)根据各声学事件模型,确定待识别的音频场景片段中的每个音频帧xi和每个声学事件类的概率关系P(Lj|xi),i、j为自然数。
所述步骤三的具体步骤为:
(3-1)设每个音频场景片段中的各音频帧xi相互独立,即满足:
P(x1,x2…,xN)=Px1)P(x2)…P(xN)其中,P(xi)为音频帧xi的概率;
(3-2)对每个音频场景片段,根据其所包含的各个音频帧xi与各声学事件类的概率关系P(Lj|xi),确定音频场景片段与各声学事件类的概率关系P(Lj|C),C表示音频场景片段。
所述步骤四的具体步骤为:
(4-1)设定阈值Th,当步骤三中确定的P(Lj|C)大于阈值Th时,则说明声学事件Lj是该音频场景片段的主要声学事件,C表示音频场景片段;
(4-2)根据音频场景片段中所包含的主要声学事件,通过启发式决策规则得到音频场景片段的语义场景。
本发明的有益效果:
1.本发明对音频场景片段中所包含的主要声学事件的判断是综合音频场景片段中所包含的所有音频帧与声学事件的概率关系得到的,因此其对主要声学事件的判断更加合理准确,进而能提高语义场景识别的准确率。
2.目前对音频场景识别的研究还很少,本发明能为相关领域的研究人员提供一种很好的方法借鉴。
3.本发明具有很好的推广性,提出的方法思路可以推广到视频分析、文本分析等领域。
4.本发明提出的音频场景识别方法可以为视频场景识别提供很好的辅助作用,以提高视频场景识别的准确率。
附图说明
图1为本发明提出的基于声学事件的音频场景识别方法的流程图;
图2为对音频流进行音频场景分割以及对音频场景片段进行二次分割的示意图;
图3为用GMM模型为声学事件类建模时,求解样本xi与声学事件类Lj的概率关系P(Lj|xi)的流程图;
图4为用SVM模型为声学事件类建模时,求解样本xi与声学事件类Lj的概率关系P(Lj|xi)的流程图;
图5为根据音频场景片段与各个声学事件类Lj之间的概率关系P(Lj|C),确定音频场景片段的语义场景的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。图1给出了基于声学事件的音频场景识别方法的流程图,该方法共分为四个步骤:步骤一:对拟进行音频场景识别的音频流进行音频分割,形成音频场景片段和音频帧;步骤二:对每个音频场景片段中所包含的音频帧,通过声学事件模型进行分类,得到音频帧与各个声学事件类之间的概率关系;步骤三:对每个音频场景片段,综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系;步骤四:对每个音频场景片段,根据其与各个声学事件类之间的概率关系得到音频场景片段中包含的主要声学事件,进而推理得到音频场景片段的语义场景。下面对每个步骤进行详细阐述:
步骤一:对拟进行音频场景识别的音频流进行音频分割,形成音频场景片段和音频帧;
音频分割包括两部分:音频场景分割和二次分割。音频场景分割是指在潜在的场景转变点处将音频流分割成若干个长短不一的音频片段。目前已有不少音频场景分割算法可供借鉴,由于这部分内容不是本发明的重点,因此这里不再详述,具体可参考相关文献。在音频场景分割以后,为了后续音频场景识别算法的进行,这里还需要进行二次分割,二次分割是指对每个音频场景片段进行分割。采用定长分割,将每个音频场景片段分割成一系列长度为30毫秒的音频帧。对音频流进行音频场景分割以及对音频场景片段进行二次分割的示意图如图2所示。
以下以音频场景分割后的某一音频场景片段C的识别为例介绍本发明提出的音频语义场景识别算法。假设将音频场景片段C二次分割后得到N个音频帧x1,x2,…xN,N为自然数。正如在背景技术中所述,音频流中包含一系列的声学事件,声学事件是比音频场景低一个层次的语义表达。假设拟进行音频场景识别的音频流中共包含有M类不同的声学事件,用L1,L2,…LM表示,M为自然数。
步骤二:对每个音频场景片段中所包含的音频帧,通过声学事件模型进行分类,得到音频帧与各个声学事件类之间的概率关系。
以音频场景片段C为例,该步骤是对音频场景片段C所包含的N个音频帧x1,x2,…xN,通过声学事件模型进行分类,得到音频帧xi,i=1,2…,N与各个声学事件类Lj,j=1,2…,M之间的概率关系P(Lj|xi)。声学事件模型通过高斯混合模型(Gaussian Mixture Model,GMM)建模,也可以通过支持向量机模型(Support Vector Machines,SVM)建模。图3和图4分别给出了用GMM模型和SVM模型为声学事件类建模时,求解样本xi与每个声学事件类概率关系P(Lj|xi),j=1,2…,M的流程图。下面分别介绍GMM和SVM,并结合图3和图4详细阐述由这两种模型建模时,P(Lj|xi)的求算方法。
(1)GMM
GMM是用多个单一高斯线性加权混合建模.建模的原则是使训练样本的生成似然值最大。GMM模型的概率密度函数为:
p ( x | λ ) = Σ i = 1 K π i N ( x | μ i , Σ i ) - - - ( 1 )
其中, Σ i = 1 K π i = 1 , π i ≥ 0 , ∀ i , - - - ( 2 )
N ( x | μ i , Σ i ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 × exp ( - 1 2 ( x - μ i ) T Σ i - 1 ( x - μ i ) ) - - - ( 3 )
GMM模型的参数为λ={πiii|i=1,2,…,K),πi代表第i个高斯混合分量在整个模型中所占的比重;μi、Σi分别是第i个高斯混合分量的均值向量和协方差矩阵,为计算方便,Σi一般采用对角阵的形式,即假设每一维特征之间是相互独立的。K是高斯混合分量的数目。D是样本x的特征维数。GMM模型训练的目标是通过最大化似然值来求得模型参数,以使高斯混合密度能最好地匹配训练数据的分布,T表示对矩阵进行转置。
模型训练时,为每个声学事件类Lj,j=1,2…,M建立一个GMM模型,对应的模型参数分别为
Figure BDA00003084728100054
分类时,对任一待分类样本xi,将其代入每个声学事件类的GMM模型,然后按照下式即可得到xi属于每个声学事件类的概率P(Lj|xi)。
P ( L j | x i ) = P ( λ L j | x i ) = P ( x i | λ L j ) P ( λ L j ) P ( x i ) = P ( x i | λ L j ) P ( λ L j ) Σ k = 1 M P ( x i | λ L k ) P ( λ L k ) - - - ( 4 )
其中,代表Lj类的模型参数,
Figure BDA00003084728100057
代表Lk类的模型参数,k为自然数。
通常,假设各个类出现的概率相等,即
Figure BDA000030847281000514
则上式可进一步改写为:
P ( L j | x i ) = P ( λ L j | x i ) = P ( x i | λ L j ) Σ k = 1 M P ( x i | λ L k ) - - - ( 5 )
其中,
Figure BDA00003084728100059
代表Lj类的模型参数,
Figure BDA000030847281000510
代表Lk类的模型参数,k为自然数。
公式(5)中的
Figure BDA000030847281000511
是将xi带入公式(1)求得的。最后,将P(Lj|xi),j=1,…,M按下式进行归一化:
P ( L j | x i ) = P ( L j | x i ) Σ k = 1 M P ( L k | x i ) - - - ( 6 )
其中,Lj代表第j类声学事件,Lk代表第k类声学事件,j、k为自然数。
(2)SVM
SVM的核心思想是:首先将数据映射到高维空间,这种映射能将低维空间复杂的分类问题转换成高维空间简单的线性分类问题;然后在两类之间寻找具有最大间隔的分离超平面。
SVM是一种判别式两类分类器,其决策函数可以表达为:
f(x)=ωTφ(x)+b    (7)
其中,ω和b分别表示权值向量和偏斜量;φ(x)是非线性映射函数,用于将低维空间线性不可分的样本x映射到高维空间,使得样本在高维空间中线性可分。f(x)=ωTφ(x)+b=0所表示的超平面即为SVM的分类面。
对于两类分类问题,设D维空间的训练样本为xi∈RDi=1,…,N,N为自然数,样本的类别标签为yi∈{+1,-1},SVM就是要解决以下优化问题:
min ω , b , ξ 1 2 ω T ω + C Σ i = 1 N ξ i - - - ( 8 )
subject to  yiTφ(xi)+b)≥1-ξii≥0,i=1,…,N
其中,ξi代表松弛变量;C是惩罚因子,用来控制对松弛变量ξi的惩罚程度,T表示转置,φ(xi)是样本xi的非线性映射值。对公式(8)中的二次规划问题,可以通过拉格朗日乘子法求解。求解后可得:
ω = Σ i = 1 N α i y i φ ( x i ) - - - ( 9 )
其中,αi代表样本xi的拉格朗日系数;公式(9)中会有相当多的αi的值等于0,而那些αi值不为0的样本xi被称之为支持向量。将公式(9)代入公式(7),可将决策函数重写为:
f(x)=ωTφ(x)+b=Σiαiyiφ(xi)Tφ(x)+b    (10)
在实际求算过程中,φ(xi)Tφ(x)的值可以通过核函数k(xi,x)=φ(xi)Tφ(x)求得,而不需要知道映射函数φ(x)的显式表达式,因此,公式(10)可进一步改写为:
f(x)=Σiαiyik(xi,x)+b    (11)
本发明中的核函数采用的是径向基核函数,即:
k(xi,x)=exp(-γ||xi-x||2)    (12)
其中,参数γ是一个常数因子。
对于任一测试样本xtest,将其代入公式(11)得到其决策值,然后通过以下两式即可求得其分属于+1类和-1类的概率:
P ( y = 1 | x test ) = 1 1 + exp ( Af ( x test ) + B ) - - - ( 13 )
P ( y = - 1 | x test ) = 1 1 + exp ( - ( Af ( x test ) + B ) ) - - - ( 14 )
这里的f(xtest)为将xtest带入公式(7)中的f(x),其中,参数A、B是常数因子。
SVM是两类分类器,不能将其直接用于解决声学事件的多类分类问题。这里我们采用以下方法来解决多类分类问题,并给出P(Lj|xi)的求算方法。用SVM为每个声学事件类建模时,以声学事件类Lj为例,将所有属于Lj的样本作为正类样本,赋予标签‘+1’;将所有不属于Lj的样本作为负类样本,赋予标签‘-1’。用此正负两类样本训练SVM分类器,训练后的SVM模型即为声学事件类Lj的SVM模型。分类时,对任一待分类样本xi,将其代入每个声学事件类的SVM模型,通过公式(11)得到样本在每类声学事件模型下的决策值;然后通过公式(13)即可得到xi属于每个声学事件类的概率P(Lj|xi),j=1,…,M;最后,将P(Lj|xi),j=1,…,M按公式(6)进行归一化。
步骤三:对每个音频场景片段,综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系。
以音频场景片段C为例,该步骤是指综合音频场景片段C中包含的所有音频帧xii=1,2…,N的信息得到音频场景片段C与各个声学事件类Lj,j=1,2…,M之间的概率关系P(Lj|C)。由于音频场景片段C中包含一系列音频帧xi i=1,2…,N,因此音频场景片段C与各个声学事件类Lj,j=1,2…,M之间的概率关系P(Lj|C)可以间接地通过各个音频帧xii=1,2…,N与各个声学事件类Lj,j=1,2…,M之间的概率关系P(Lj|xi),i=1,2…,N得到。假设各个音频帧xi之间相互独立,即满足:
P(x1,x2…,xN)=P(x1)P(x2)…P(xN)    (15)则P(Lj|C)的具体求算公式如下:
P ( L j | C ) = P ( L j | x 1 , x 2 , . . . x N )
= P ( L j , x 1 , x 2 , . . . x N ) P ( x 1 , x 2 , . . . x N )
= P ( L j ) P ( x 1 , x 2 , . . . x N | L j ) Σ k = 1 M P ( L k ) P ( x 1 , x 2 , . . . x N | L k )
= P ( L j ) Π i = 1 N P ( x i | L j ) Σ k = 1 M P ( L k ) Π i = 1 N P ( x i | L k )
= i = 1 Σ k = 1 M P ( L k ) Π i = 1 N P ( x i | L k )
= P ( L j ) Π i = 1 N P ( x i ) P ( L j | x i ) P ( L j ) Σ k = 1 M P ( L k ) Π i = 1 N P ( x i ) P ( L k | x i ) P ( L k ) - - - ( 16 )
= Π i = 1 N P ( L j | x i ) P ( L j ) N - 1 Σ k = 1 M Π i = 1 N P ( L k | x i ) P ( L k ) N - 1
其中,P(Lj)代表声学事件类Lj的先验概率,可以通过统计的方法近似估计。即,在对某一音频流进行场景识别时,可以先采集一些同种题材的音频流,对其中的主要声学事件进行标注,并统计不同声学事件的时间长度。假设各个声学事件类Lj,j=1,2…,M的时间长度分别是tj,j=1,2…,M,则P(Lj)可由下式估计得到:
P ( L j ) = t j Σ k = 1 M t k - - - ( 17 )
其中,tk为第k个声学事件类的时间长度,k为自然数。
步骤四:对每个音频场景片段,根据其与各个声学事件类之间的概率关系得到音频场景片段中包含的主要声学事件,进而推理得到音频场景片段的语义场景。
以音频场景片段C为例,根据其与各个声学事件类Lj,j=1,2…,M之间的概率关系P(Lj|C)j=1,2…,M,求得C中包含的主要声学事件,进而推理得到C的语义场景的流程图如图5所示。音频片段的语义场景是通过音频片段中包含的主要声学事件表征的,因此,为了推理得到音频片段的语义场景,首先应确定出该音频片段中都包含哪些主要声学事件。在步骤三中已求得音频场景片段C与各个声学事件类Lj j=1,2…,M之间的概率关系P(Lj|C),只有当P(Lj|C)的值足够大时,我们才可以认为音频片段C与声学事件Lj之间关系紧密,才可以将声学事件Lj看作是音频片段C中的主要声学事件。因此,可以设定一个阈值Th,规定那些满足P(Lj|C)>Th的声学事件是音频片段C中的主要声学事件。
在确定了音频场景片段中包含的主要声学事件后,通过启发式决策规则(heuristicdecision rules)推理得到音频场景片段C的语义场景。即,音频场景片段C与哪一条规则相符,就判定其为这条规则所对应的语义场景。因此,最后在确定音频场景片段C的语义场景时,关键是制定良好的决策规则。当然,决策规则的制定需要提前对音频文档内容具有一定的了解。以一部战争题材影片的音频文档为例,在对影片内容有一定的了解的基础上,可以如下制定决策规则:
●当音频片段中的主要声学事件包含枪声或爆炸声,则判定为战争场景;
●当音频片段中的主要声学事件包含音乐声、笑声、说话声,则判定为庆功舞会场景;
●当音频片段中的主要声学事件包含号声和脚步声,则判定为部队集合场景。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (5)

1.一种基于声学事件的音频场景识别方法,其特征是,具体步骤为:
步骤一:对拟进行音频场景识别的音频流进行音频分割,形成音频场景片段和音频帧;
步骤二:对每个音频场景片段中所包含的音频帧,通过声学事件模型进行分类,得到音频帧与各个声学事件类之间的概率关系;
步骤三:对每个音频场景片段,综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系;
步骤四:对每个音频场景片段,根据其与各个声学事件类之间的概率关系得到音频场景片段中包含的主要声学事件,进而推理得到音频场景片段的语义场景。
2.如权利要求1所述一种基于声学事件的音频场景识别方法,其特征是,所述步骤一的具体步骤为:
(1-1)对拟进行音频场景识别的音频流进行音频场景分割,将音频流分割成若干个长短不一的音频场景片段;
(1-2)对每个音频场景片段进行二次定长分割,将其分割成若干个长度为30毫秒的音频帧。
3.如权利要求1所述一种基于声学事件的音频场景识别方法,其特征是,所述步骤二的具体步骤为:
(2-1)通过高斯混合模型或支持向量机模型建立各声学事件模型;
(2-2)根据各声学事件模型,确定待识别的音频场景片段中的每个音频帧xi和每个声学事件类的概率关系P(Lj|xi),i、j为自然数。
4.如权利要求1所述一种基于声学事件的音频场景识别方法,其特征是,所述步骤三的具体步骤为:
(3-1)设每个音频场景片段中的各音频帧xi相互独立,即满足:
P(x1,x2,xN)=P(x1)P(x2)P(xN)其中,P(xi)为音频帧xi的概率;
(3-2)对每个音频场景片段,根据其所包含的各个音频帧xi与各声学事件类的概率关系P(Lj|xi),确定音频场景片段与各声学事件类的概率关系P(Lj|C),C表示音频场景片段。
5.如权利要求1所述一种基于声学事件的音频场景识别方法,其特征是,所述步骤四的具体步骤为:
(4-1)设定阈值Th,当步骤三中确定的P(Lj|C)大于阈值Th时,则说明声学事件Lj是该音频场景片段的主要声学事件,C表示音频场景片段;
(4-2)根据音频场景片段中所包含的主要声学事件,通过启发式决策规则得到音频场景片段的语义场景。
CN201310140633.8A 2013-04-22 2013-04-22 一种基于声学事件的音频场景识别方法 Expired - Fee Related CN103226948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310140633.8A CN103226948B (zh) 2013-04-22 2013-04-22 一种基于声学事件的音频场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310140633.8A CN103226948B (zh) 2013-04-22 2013-04-22 一种基于声学事件的音频场景识别方法

Publications (2)

Publication Number Publication Date
CN103226948A true CN103226948A (zh) 2013-07-31
CN103226948B CN103226948B (zh) 2015-01-07

Family

ID=48837371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310140633.8A Expired - Fee Related CN103226948B (zh) 2013-04-22 2013-04-22 一种基于声学事件的音频场景识别方法

Country Status (1)

Country Link
CN (1) CN103226948B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971702A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 声音监控方法、装置及系统
CN104167211A (zh) * 2014-08-08 2014-11-26 南京大学 基于分层事件检测和上下文模型的多源场景声音摘要方法
CN104269169A (zh) * 2014-09-09 2015-01-07 山东师范大学 一种混叠音频事件分类方法
CN105118516A (zh) * 2015-09-29 2015-12-02 浙江图维电力科技有限公司 基于声音线性预测倒谱系数的工程机械的识别方法
CN106028217A (zh) * 2016-06-20 2016-10-12 咻羞科技(深圳)有限公司 一种基于音频识别技术的智能设备互动系统及方法
CN106205609A (zh) * 2016-07-05 2016-12-07 山东师范大学 一种基于音频事件和主题模型的音频场景识别方法及其装置
CN108053838A (zh) * 2017-12-01 2018-05-18 上海壹账通金融科技有限公司 结合音频分析和视频分析的欺诈识别方法、装置及存储介质
CN108764304A (zh) * 2018-05-11 2018-11-06 Oppo广东移动通信有限公司 场景识别方法、装置、存储介质及电子设备
CN110136696A (zh) * 2019-05-22 2019-08-16 上海声构信息科技有限公司 音频数据的监控处理方法和系统
CN110148428A (zh) * 2019-05-27 2019-08-20 哈尔滨工业大学 一种基于子空间表示学习的声学事件识别方法
CN110349597A (zh) * 2019-07-03 2019-10-18 山东师范大学 一种语音检测方法及装置
CN111241336A (zh) * 2020-01-07 2020-06-05 厦门快商通科技股份有限公司 音频场景识别方法、装置、电子设备及介质
CN111818356A (zh) * 2020-07-12 2020-10-23 韶关市启之信息技术有限公司 一种基于场景识别的高危作业直播中断的智能方法
CN113395538A (zh) * 2020-03-13 2021-09-14 北京字节跳动网络技术有限公司 音效渲染方法、装置、计算机可读介质和电子设备
US12010393B2 (en) 2021-07-28 2024-06-11 International Business Machines Corporation Automatic appending of subtitles based on media context

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004233541A (ja) * 2003-01-29 2004-08-19 Riyuukoku Univ ハイライトシーン検出システム
US20070239441A1 (en) * 2006-03-29 2007-10-11 Jiri Navratil System and method for addressing channel mismatch through class specific transforms
CN102411930A (zh) * 2010-09-21 2012-04-11 索尼公司 生成音频模型的方法、设备和检测场景类别的方法、设备
CN102664006A (zh) * 2012-04-14 2012-09-12 中国人民解放军国防科学技术大学 基于时频域分析的异常人声检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004233541A (ja) * 2003-01-29 2004-08-19 Riyuukoku Univ ハイライトシーン検出システム
US20070239441A1 (en) * 2006-03-29 2007-10-11 Jiri Navratil System and method for addressing channel mismatch through class specific transforms
CN102411930A (zh) * 2010-09-21 2012-04-11 索尼公司 生成音频模型的方法、设备和检测场景类别的方法、设备
CN102664006A (zh) * 2012-04-14 2012-09-12 中国人民解放军国防科学技术大学 基于时频域分析的异常人声检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈忠克等: "足球比赛精彩场景的自动分析与提取", 《计算机辅助设计与图形学学报》, 20 June 2004 (2004-06-20) *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971702A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 声音监控方法、装置及系统
CN104167211B (zh) * 2014-08-08 2017-03-22 南京大学 基于分层事件检测和上下文模型的多源场景声音摘要方法
CN104167211A (zh) * 2014-08-08 2014-11-26 南京大学 基于分层事件检测和上下文模型的多源场景声音摘要方法
CN104269169A (zh) * 2014-09-09 2015-01-07 山东师范大学 一种混叠音频事件分类方法
CN104269169B (zh) * 2014-09-09 2017-04-12 山东师范大学 一种混叠音频事件分类方法
CN105118516A (zh) * 2015-09-29 2015-12-02 浙江图维电力科技有限公司 基于声音线性预测倒谱系数的工程机械的识别方法
CN106028217A (zh) * 2016-06-20 2016-10-12 咻羞科技(深圳)有限公司 一种基于音频识别技术的智能设备互动系统及方法
CN106028217B (zh) * 2016-06-20 2020-01-21 咻羞科技(深圳)有限公司 一种基于音频识别技术的智能设备互动系统及方法
CN106205609A (zh) * 2016-07-05 2016-12-07 山东师范大学 一种基于音频事件和主题模型的音频场景识别方法及其装置
CN106205609B (zh) * 2016-07-05 2019-05-28 山东师范大学 一种基于音频事件和主题模型的音频场景识别方法及其装置
CN108053838A (zh) * 2017-12-01 2018-05-18 上海壹账通金融科技有限公司 结合音频分析和视频分析的欺诈识别方法、装置及存储介质
WO2019104890A1 (zh) * 2017-12-01 2019-06-06 深圳壹账通智能科技有限公司 结合音频分析和视频分析的欺诈识别方法、装置及存储介质
CN108053838B (zh) * 2017-12-01 2019-10-11 深圳壹账通智能科技有限公司 结合音频分析和视频分析的欺诈识别方法、装置及存储介质
CN108764304A (zh) * 2018-05-11 2018-11-06 Oppo广东移动通信有限公司 场景识别方法、装置、存储介质及电子设备
CN110136696A (zh) * 2019-05-22 2019-08-16 上海声构信息科技有限公司 音频数据的监控处理方法和系统
CN110148428A (zh) * 2019-05-27 2019-08-20 哈尔滨工业大学 一种基于子空间表示学习的声学事件识别方法
CN110148428B (zh) * 2019-05-27 2021-04-02 哈尔滨工业大学 一种基于子空间表示学习的声学事件识别方法
CN110349597A (zh) * 2019-07-03 2019-10-18 山东师范大学 一种语音检测方法及装置
CN110349597B (zh) * 2019-07-03 2021-06-25 山东师范大学 一种语音检测方法及装置
CN111241336A (zh) * 2020-01-07 2020-06-05 厦门快商通科技股份有限公司 音频场景识别方法、装置、电子设备及介质
CN113395538A (zh) * 2020-03-13 2021-09-14 北京字节跳动网络技术有限公司 音效渲染方法、装置、计算机可读介质和电子设备
CN113395538B (zh) * 2020-03-13 2022-12-06 北京字节跳动网络技术有限公司 音效渲染方法、装置、计算机可读介质和电子设备
CN111818356A (zh) * 2020-07-12 2020-10-23 韶关市启之信息技术有限公司 一种基于场景识别的高危作业直播中断的智能方法
US12010393B2 (en) 2021-07-28 2024-06-11 International Business Machines Corporation Automatic appending of subtitles based on media context

Also Published As

Publication number Publication date
CN103226948B (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
CN103226948B (zh) 一种基于声学事件的音频场景识别方法
Su et al. Making sense of trajectory data: A partition-and-summarization approach
CN105045875B (zh) 个性化信息检索方法及装置
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN108255805A (zh) 舆情分析方法及装置、存储介质、电子设备
CN109635296A (zh) 新词挖掘方法、装置计算机设备和存储介质
CN103970729A (zh) 一种基于语义类的多主题提取方法
CN110297931A (zh) 一种图像检索方法
CN110472027A (zh) 意图识别方法、设备及计算机可读存储介质
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
CN110222172A (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN111816170B (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
Park et al. Future trends of IoT, 5G mobile networks, and AI: challenges, opportunities, and solutions
Peng et al. Focused crawling enhanced by CBP–SLC
CN103699568B (zh) 一种从维基中抽取领域术语间上下位关系的方法
Zharmagambetov et al. Improved representation learning for acoustic event classification using tree-structured ontology
Leng et al. Audio scene recognition based on audio events and topic model
Sattigeri et al. A scalable feature learning and tag prediction framework for natural environment sounds
CN115062150B (zh) 一种文本分类方法、装置、电子设备及存储介质
CN108491751B (zh) 一种基于简单动作的探索特权信息的复杂动作识别方法
CN104166837A (zh) 采用最相关的兴趣点的各组的选择的视觉语音识别方法
Yang et al. Modeling travel behavior similarity with trajectory embedding
Feki et al. Automatic environmental sound concepts discovery for video retrieval
Lin et al. Research on mixed model-based chinese relation extraction
Kashyap et al. Combining Naïve Bayes and modified maximum entropy classifiers for text classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150107

Termination date: 20160422