CN102509545A

CN102509545A - 一种实时声学事件检测系统及检测方法

Info

Publication number: CN102509545A
Application number: CN2011102805251A
Authority: CN
Inventors: 韩纪庆; 石自强
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2011-09-21
Filing date: 2011-09-21
Publication date: 2012-06-20

Abstract

一种实时声学事件检测系统及检测方法，涉及一种声学事件检测系统及其方法。它解决了现有的声学事件检测系统的实时性差的问题。其音频波形实时显示模块以及音频内容分析结果实时显示模块，负责实时提供检测结果以及波形可视化效果；音频特征实时提取模块，负责提取音频特征，并传送给音频内容实时分析模块；目标声学事件模型训练模块，负责训练识别目标声学事件的模型；目标声学事件模型加载模块，负责加载目标声学事件的模型；音频内容实时分析模块，负责对音频信号内容进行分析理解。本发明的技术方案能满足通用声学事件检测的实时处理要求。本发明适用于用户指定的任意有足够辨识度的声学事件进行检测。

Description

一种实时声学事件检测系统及检测方法

技术领域

本发明涉及一种声学事件检测系统及其方法。

背景技术

声音无处不在，且承载着大量的信息，是人类感知和理解外部世界的重要信息渠道。随着计算机技术、信号处理技术和多媒体技术的迅猛发展，越来越多的声音信号被数字化处理，并以各种音频格式存在。面对数字世界中规模越来越庞大的音频数据流及其资源库，人们迫切地需要能够对音频内容进行识别和理解的有效技术手段，从而合理地组织、管理和利用这些音频资源，并为各种智能系统提供基于声音的决策依据信息。

声学事件对应着能够表征一个完整事件的一段连续的声音，从人类听觉感知的角度，它是具有一定意义的最小声音单位，例如：鼓掌声、笑声、脚步声、枪声、爆炸声、玻璃碎裂声、椅子移动声、开关门声、狗吠声、鸟鸣声等。声学事件检测系统即致力于对这些声学事件进行识别和有效地分类。

声学事件检测系统具有广泛的应用前景：(1)它可应用于对音频内容的索引和检索，是构建多媒体搜索引擎的关键技术之一；(2)它可以在数字图书馆、视频网站等包含大量多媒体资源的机构中扮演重要的角色，对多媒体资源实现按内容的统计、组织和管理；(3)它可以广泛应用于监控领域，实现对公共场所、公共服务窗口、公共交通等环境下突发状况的监测；(4)它可以在无人驾驶车辆、智能家居、智能会议室等领域，提供基于声音的感知和理解信息，辅助智能决策过程；(5)它可以应用于信息内容安全领域，用于监测和屏蔽暴力和色情等有害信息。特定语义音频场景检测是音频识别和理解以及多媒体内容感知领域关键性研究之一，有助于推动视听觉信息认知计算的整体发展，从而使计算机更好地为人类服务。

发明内容

本发明是为了解决现有的声学事件检测系统的实时性差的问题，从而提供一种实时声学事件检测系统及检测方法。

一种实时声学事件检测系统，它包括目标声学事件识别模型、目标声学事件识别模型训练模块、音频读取与播放模块、音频特征实时提取模块、目标声学事件识别检测模块、可视化模块；

目标声学事件识别模型训练模块用于根据音频特征实时提取模块提取出的特征，训练目标声学事件识别模型；

音频读取与播放模块，用于实时提取音频特征并送入音频特征实时提取模块；还用于将音频信号送入可视化模块；

音频特征实时提取模块用于对音频读取与播放模块的音频特征进行提取；

目标声学事件识别检测模块用于在对音频特征实时提取模块提取的特征的基础上进行目标声学事件识别模型实时事件检测；并将实时检测结果送入可视化模块；

可视化模块用于显示音频读取与播放模块的音频的实时波形，还用于显示目标声学事件识别检测模块的实时检测结果。

音频读取与播放模块包括：音频读取模块、音频信息提取模块和音频播放模块，

音频读取模块用于读取用户指定音频，记录音频原始信息，并存储音频信号，然后对音频信号进行预处理后送入音频特征实时提取模块；

音频信息提取模块用于以帧为单位实时提取音频特征，并对提取特征进行归正，将送入音频特征实时提取模块；

音频播放模块用于对用户指定音频进行播放、暂停、停止或快进操作。

目标声学事件识别模型训练模块包括SVM模型训练模块和GMM训练模块，用于支持目标声学事件识别模型建立过程中的多种模式分类方法。

目标声学事件识别检测模块包括单分类器识别模块和分类结果融合模块；

单分类器识别模块用于通过目标声学事件的模型对实时提取的音频特征进行分类，得到初步结果；

分类结果融合模块用于将所述初步结果进行分类及过融合获得对音频片段的实时检测结果。

可视化模块包含音频文件波形显示模块和检测结果显示模块；

音频波形显示模块用于实时可视化待检测音频数据；

检测结果显示模块用于实时可视化检测模块得到的结果。

它还包括模型管理模块，所述模型管理模块用于对训练模块中得到的模型进行管理操作，包括模型的加载、删除和更新。

基于上述系统的一种实时声学事件检测方法，它由以下步骤实现：

步骤一、建立目标声学事件识别模型，采用音频特征实时提取模块对音频读取与播放模块的音频特征进行提取，目标声学事件识别模型训练模块根据提取的特征对目标声学事件识别模型进行数据训练；

步骤二、目标声学事件识别检测模块在对音频特征实时提取模块提取的特征的基础上进行目标声学事件识别模型实时事件检测；并将实时检测结果通过可视化模块显示输出。

步骤一中采用音频特征实时提取模块对音频读取与播放模块的音频特征进行提取，对提取到的音频特征的处理方法包括如下步骤：

步骤A1、音频信息提取模块从待分析音频头文件中提取信息；

步骤A2、根据待处理音频数据结构信息，采用不同的变换系数进行设置；

步骤A3、从待分析信号数据的排序缓冲区中，选择能保存新到达数据的排序单元；

步骤A4、判断是否能够找到能保存新到达数据的缓冲区，如果判断结果为是，则执行步骤A5；如果判断结果为否，则申请新的缓冲区，并判断是否成功申请到新的缓冲区，如果判断结果为是，则执行步骤A5；如果判断结果为否，则执行步骤A7；

步骤A5、将待分析信号数据保存到缓冲区；

步骤A6、从待分析信号中提取特征，存入特征数据单元；

步骤A7、结束音频特征的处理。

步骤二中所述目标声学事件识别检测模块在对音频特征实时提取模块提取的特征的基础上进行目标声学事件识别模型实时事件检测的具体方法包括以下步骤：

步骤B1、从待分析特征数据单元队列中读取出一个写满特征数据的特征数据单元；

步骤B2、判断步骤一是否读取成功，如果判断结果为否，则在进行一个等待时间后返回执行步骤B1；如果判断结果为是，则执行步骤B3；

步骤B3、对读取的特征数据单元中的每一个特征数据均做如下操作：

a、计算特征在不同分类器的分类结果；b、融合不同分类器的结果；c、将分类结果存入结果存储队列；

步骤B4、当特征数据单元中的每一个特征数据均完成步骤B3的操作后，返回执行步骤B1，执行下一个特征数据的读取。

步骤二中所述将实时检测结果通过可视化模块显示输出的具体方法是：

步骤C1、从线程的待分析解码数据单元队列中取出解码数据单元地址；

步骤C2、判断是否取到解码数据单元地址，如果判断结果为否，则返回执行步骤C1；如果判断结果为是，则执行步骤C3；

步骤C3、显示数据；

步骤C4、将数据单元中与识别模块相对应的标识位置1，表示该模块已经完成对数据单元的显示，并返回执行步骤C1。

有益效果：本发明的能够满足通用声学事件检测的实时处理要求。可以对用户指定的任意有足够辨识度的声学事件进行检测，例如生日、婚礼等聚会场景中的生日歌、婚礼进行曲、管风琴声、教堂钟声等，战争、打斗、暴力场景中的枪声、爆炸声、搏击声、呼救声等，足球、篮球、棒球等运动比赛场景中的哨声、人群的欢呼声、打击声、撞击声等，电影街道追车场景中的警笛声、车辆撞击声、急刹车声、可能伴随的枪击声等，都可以进行实时识别。

附图说明

图1是本发明系统的结构示意图。

具体实施方式

具体实施方式一、结合图1说明本具体实施方式一种实时声学事件检测系统，它包括目标声学事件识别模型1、目标声学事件识别模型训练模块2、音频读取与播放模块3、音频特征实时提取模块4、目标声学事件识别检测模块5和可视化模块6；

目标声学事件识别模型训练模块2用于根据音频特征实时提取模块4提取出的特征，训练目标声学事件识别模型1；

音频读取与播放模块3，用于实时提取音频特征并送入音频特征实时提取模块4；还用于将音频信号送入可视化模块6；

音频特征实时提取模块4用于对音频读取与播放模块3的音频特征进行提取；

目标声学事件识别检测模块5用于在对音频特征实时提取模块4提取的特征的基础上进行目标声学事件识别模型1实时事件检测；并将实时检测结果送入可视化模块6；

可视化模块6用于显示音频读取与播放模块3的音频的实时波形，还用于显示目标声学事件识别检测模块5的实时检测结果。

本实施方式中，音频特征提取模块，负责以帧为单位实时提取各种音频特征，并传送给目标声学事件识别检测模块以及目标声学事件识别模型训练模块；由于音频信号处理中经常会用到各种特征，例如梅尔倒谱系数(mel-frequency cepstral coefficients，MFCC)、线性预测倒谱系数(linear prediction coefficient derived cepstral coefficients，LPCC)、基频等，所以本发明的音频特征提取模块中同时设置了各种特征提取模块，例如MFCC特征提取模块、LPCC特征提取模块以及基频特征提取模块等。

本实施方式的数据结构设计：

音频数据结构：

音频数据结构用于存储用户提供的待分析音频的元信息。音频数据结构包含了分析音频所需的全部信息，包括采样率、声道数、比特率以及采样点数组等等。

音频数据的主要结构如下：

波形块的大小；

格式块大小；

波形编码格式；

波形文件数据中的通道数；

波形文件采样率；

平均每秒波形音频所需要的记录的字节数；

一个采样所需要的字节数；

声音文件数据的每个采样的位数；

采样点的数目；

采样点数组：实际待分析音频数据。

音频数据结构的主要操作如下：

Bark域变换系数数组：用于保存变换系数；

音频数据读取；

音频数据显示；

FFT变换：将时域信号变换到频域；

MFCC特征计算：以帧为单位计算MFCC特征；

基频特征计算：以帧为单位计算基频特征；

LPCC特征计算：以帧为单位计算LPCC特征；

识别模型

识别模型存储目标声学事件的识别模型，不同的模型数据结构不同，本发明中用到SVM和GMM两种模型。

SVM识别模型的数据结构如下：

核的类型：不同的核对应于不同SVM模型；

多项式核的阶数：当使用多项式核时，表示多项式的最高阶数；

支撑向量数目以及数组：用于分类的支撑向量数组；

正规化数组；

伽玛参数；

偏差参数。

GMM识别模型的数据结构如下：

GMM模型分量数目；

GMM模型均值与协方差矩阵。

SVM识别模型的主要操作如下：

加载SVM模型参数；

计算特征在模型上的打分；

特征分类；

GMM识别模型的主要操作如下：

加载GMM模型参数；

计算特征在模型上的打分；

特征分类。

识别模型的其他操作包括：

不同分类器结果融合。

待分析特征数据队列

待分析特征数据队列，实现的是待分析特征数据传送缓冲区的功能。音频特征提取与特征分类的处理虽是同步的，但可能存在瞬时的速度差异，该队列用于消除这种瞬时速度差异，同时可以使音频特征提取与特征分类相互独立，提高了系统的灵活性。

待分析特征数据队列的主要结构如下：

队列首指针；

队列尾指针；

队列实际长度；

队列指针数组：保存特征数据单元的地址；

用于同步控制的变量。

特征数据单元队列的主要操作：

初始化：设置队列最大长度，为队列指针数组申请空间；

取出单元：从队列中取出一个特征数据单元的地址；

存入单元：将一个特征数据单元的地址存入到队列中；

特征数据单元队列采用固定长度指针数组的形式，长度与系统内特征数据单元总数相当，即，能容纳所有单元。音频特征数据单元队列仅仅将音频特征数据单元的地址存入队列之中，可避免在系统运行过程中的内存拷贝、重复申请和释放内存而导致产生大量内存碎片。由于指针型数组所占内存较小，尽管其尺寸与系统内音频特征数据单元总数相当，但与系统中音频特征数据单元所占内存相比很小。在系统初始化时，首先确定系统内的特征数据单元总数，然后确定特征数据单元队列大小。

系统在运行过程中，将剥离的音频帧写入特征数据单元，写满后将其挂到待解码特征数据单元队列中，等待解码处理。

实时声学事件检测系统接口设计

系统运行时，首先通过初始化函数设置各个模块的运行参数，如识别模块中的SVM参数、GMM参数以及音频信息处理模块中的预处理变换参数、Bark变换参数等。识别线程从特征数据缓冲区队列中读取特征数据，计算特征所属类别，将结果信息可视化模块上报给用户。

为方便软件功能扩展与维护，这些模块均采用统一的接口，主要函数如下：

模块初始化函数

主要参数：SVM模型文件存储地址、GMM模型文件存储地址、变换系数等；

调用方式：显式调用；

功能：初始化音频读取与播放模块、音频特征提取模块、目标声学事件识别检测模块。

音频文件读取函数

主要参数：音频文件路径

调用方式：显式调用，阻塞运行；

功能：接收用户提供的音频数据，读入内存。

模型加载函数

主要参数：模型数据结构地址等

调用方式：显式调用，阻塞运行；

功能：加载识别模型，包括SVM模型和GMM模型等。

删除指定模型函数

主要参数：模型数据结构地址

调用方式：显式调用，阻塞运行；

功能：删除指定的模型。

考虑在系统运行的过程中，执行删除模型操作时，模型数据可能正在被使用，如果将模型数据直接删除，可能会导致程序运行异常，因此采用两阶段删除的方法：模块内设立两个模型指针：有效模型指针和待删除模型指针。删除模型时，先将模型数据从有效模型指针移出，加入待删除模型指针，并为该模型设置一个生命期，然后待其生命期结束后再将该模型彻底删除。

特征提取函数

主要参数：待提取信号数组首地址

调用方式：显式调用，阻塞运行；

功能：对音频信号以帧为单位提取不同音频特征。

特征识别函数

主要参数：输入特征、模型结构地址等

调用方式：显式调用，阻塞运行；

功能：计算特征在模型上的打分，判断特征所属类别。

结果融合函数

主要参数：不同分类器分类结果

调用方式：显式调用，阻塞运行；

功能：融合不同分类器的结果。

本发明能够满足通用声学事件检测的实时处理要求。可以对用户指定的任意有足够辨识度的声学事件进行检测，例如生日、婚礼等聚会场景中的生日歌、婚礼进行曲、管风琴声、教堂钟声等，战争、打斗、暴力场景中的枪声、爆炸声、搏击声、呼救声等，足球、篮球、棒球等运动比赛场景中的哨声、人群的欢呼声、打击声、撞击声等，电影街道追车场景中的警笛声、车辆撞击声、急刹车声、可能伴随的枪击声等，都可以进行实时识别，只需重新训练识别模型即可，而且模型重新训练的事件只需若干小时即可。

具体实施方式二、本具体实施方式与具体实施方式一所述的一种实时声学事件检测系统的区别在于，音频读取与播放模块3包括：音频读取模块、音频信息提取模块和音频播放模块，

音频读取模块用于读取用户指定音频(即用户需要播放，并检测目标声音的音频)，记录音频原始信息(包括采样率、声道数等)，并存储音频信号，然后对音频信号进行预处理后送入音频特征实时提取模块；

音频信息提取模块用于以帧为单位实时提取音频特征，并对提取特征进行归正，将送入音频特征实时提取模块4；音频信息提取模块负责提取待分析音频的信息，包括：采样率、声道数、比特率等；

具体实施方式三、本具体实施方式与具体实施方式一所述的一种实时声学事件检测系统的区别在于，目标声学事件识别模型训练模块2包括SVM模型训练模块和GMM训练模块，用于支持目标声学事件识别模型建立过程中的多种模式分类方法。

由于在数据建模中经常会用到多种模式分类方法，包括支持向量机(support vector machine，SVM)、高斯混合模型(Gaussian mixture model，GMM)等，所以本发明的模型训练模块中同时设置了各种不同模型的训练模块，包括SVM模型训练模块、GMM训练模块等。

具体实施方式四、本具体实施方式与具体实施方式一所述的一种实时声学事件检测系统的区别在于，目标声学事件识别检测模块5包括单分类器识别模块和分类结果融合模块；

具体实施方式五、本具体实施方式与具体实施方式一所述的一种实时声学事件检测系统的区别在于，可视化模块6包含音频文件波形显示模块和检测结果显示模块；

音频波形显示模块用于实时可视化待检测音频数据；

检测结果显示模块用于实时可视化检测模块得到的结果。

具体实施方式六、本具体实施方式与具体实施方式一所述的一种实时声学事件检测系统的区别在于，它还包括模型管理模块7，所述模型管理模块7用于对训练模块中得到的模型进行管理操作，包括模型的加载、删除和更新。

具体实施方式七、基于具体实施方式一所述的一种实时声学事件检测方法，它由以下步骤实现：

步骤一、建立目标声学事件识别模型1，包括SVM模型和GMM模型等，采用音频特征实时提取模块4对音频读取与播放模块3的音频特征进行提取，目标声学事件识别模型训练模块2根据提取的特征对目标声学事件识别模型1进行数据训练；

步骤二、目标声学事件识别检测模块5在对音频特征实时提取模块4提取的特征的基础上进行目标声学事件识别模型1实时事件检测；并将实时检测结果通过可视化模块6显示输出。

步骤一中采用音频特征实时提取模块4对音频读取与播放模块3的音频特征进行提取，对提取到的音频特征的处理方法包括如下步骤：

步骤A5、将待分析信号数据保存到缓冲区；

步骤A6、从待分析信号中提取特征，存入特征数据单元；

步骤A7、结束音频特征的处理。

步骤二中所述目标声学事件识别检测模块5在对音频特征实时提取模块4提取的特征的基础上进行目标声学事件识别模型1实时事件检测的具体方法包括以下步骤：

a、计算特征在不同分类器的分类结果；

b、融合不同分类器的结果；

c、将分类结果存入结果存储队列；

步骤二中所述将实时检测结果通过可视化模块6显示输出的具体方法是：

步骤C3、显示数据；

本实施方式中，可根据每类线程处理任务的计算量不同，合理设置每一类线程的睡眠事件，以达到彼此间的协同。系统采用数据驱动的方式，将系统的运行结构主要划分成三类独立并发运行的线程：特征数据提取线程、实时识别检测线程、可视化显示线程。并在特征数据提取线程与实时识别检测线程之间、特征数据提取线程和实时识别检测线程与可视化显示线程之间，分别采用待提取特征数据单元队列、待显示数据单元队列，协调线程间的处理速度。该方案能满足音频信息的实时在线分析处理要求。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

尽管参照优选实施例描述了本发明，但是本发明不限于上述的实施例，鉴于上述说明，本领域的技术人员可对上述实施例进行各种修改和变化。这些修改和变化也都落入本发明的权利要求保护范围之内。

Claims

1.一种实时声学事件检测系统，其特征是：它包括目标声学事件识别模型(1)、目标声学事件识别模型训练模块(2)、音频读取与播放模块(3)、音频特征实时提取模块(4)、目标声学事件识别检测模块(5)和可视化模块(6)；

目标声学事件识别模型训练模块(2)用于根据音频特征实时提取模块(4)提取出的特征，训练目标声学事件识别模型(1)；

音频读取与播放模块(3)，用于实时提取音频特征并送入音频特征实时提取模块(4)；还用于将音频信号送入可视化模块(6)；

音频特征实时提取模块(4)用于对音频读取与播放模块(3)的音频特征进行提取；

目标声学事件识别检测模块(5)用于在对音频特征实时提取模块(4)提取的特征的基础上进行目标声学事件识别模型(1)实时事件检测；并将实时检测结果送入可视化模块(6)；

可视化模块(6)用于显示音频读取与播放模块(3)的音频的实时波形，还用于显示目标声学事件识别检测模块(5)的实时检测结果。

2.根据权利要求1所述的一种实时声学事件检测系统，其特征在于音频读取与播放模块(3)包括：音频读取模块、音频信息提取模块和音频播放模块，

音频读取模块用于读取用户指定音频，记录音频原始信息，并存储音频信号，然后对音频信号进行预处理后送入音频特征实时提取模块(4)；

音频信息提取模块用于以帧为单位实时提取音频特征，并对提取特征进行归正，将送入音频特征实时提取模块(4)；

3.根据权利要求1所述的一种实时声学事件检测系统，其特征在于目标声学事件识别模型训练模块(2)包括SVM模型训练模块和GMM模型训练模块，用于支持目标声学事件识别模型建立过程中的多种模式分类方法。

4.根据权利要求1所述的一种实时声学事件检测系统，其特征在于目标声学事件识别检测模块(5)包括单分类器识别模块和分类结果融合模块；

5.根据权利要求1所述的一种实时声学事件检测系统，其特征在于可视化模块(6)包含音频文件波形显示模块和检测结果显示模块；

音频波形显示模块用于实时可视化待检测音频数据；

检测结果显示模块用于实时可视化检测模块得到的结果。

6.根据权利要求1所述的一种实时声学事件检测系统，其特征在于它还包括模型管理模块(7)，所述模型管理模块(7)用于对训练模块中得到的模型进行管理操作，包括模型的加载、删除和更新。

7.基于权利要求1的一种实时声学事件检测方法，其特征是：它由以下步骤实现：

步骤一、建立目标声学事件识别模型(1)，采用音频特征实时提取模块(4)对音频读取与播放模块(3)的音频特征进行提取，目标声学事件识别模型训练模块(2)根据提取的特征对目标声学事件识别模型(1)进行数据训练；

步骤二、目标声学事件识别检测模块(5)在对音频特征实时提取模块(4)提取的特征的基础上进行目标声学事件识别模型(1)实时事件检测；并将实时检测结果通过可视化模块(6)显示输出。

8.基于权利要求1的一种实时声学事件检测方法，其特征在于步骤一中采用音频特征实时提取模块(4)对音频读取与播放模块(3)的音频特征进行提取，对提取到的音频特征的处理方法包括如下步骤：

步骤A5、将待分析信号数据保存到缓冲区；

步骤A6、从待分析信号中提取特征，存入特征数据单元；

步骤A7、结束音频特征的处理。

9.根据权利要求7的一种实时声学事件检测方法，其特征在于步骤二中所述目标声学事件识别检测模块(5)在对音频特征实时提取模块(4)提取的特征的基础上进行目标声学事件识别模型(1)实时事件检测的具体方法包括以下步骤：

10.根据权利要求7的一种实时声学事件检测方法，其特征在于步骤二中所述将实时检测结果通过可视化模块(6)显示输出的具体方法是：

步骤C3、显示数据；