CN101494049B

CN101494049B - 一种用于音频监控系统中的音频特征参数的提取方法

Info

Publication number: CN101494049B
Application number: CN2009100794471A
Authority: CN
Inventors: 马华东; 李祺; 黄千
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2009-03-11
Filing date: 2009-03-11
Publication date: 2011-07-27
Anticipated expiration: 2029-03-11
Also published as: CN101494049A

Abstract

一种用于音频监控系统中的音频特征参数的提取方法，操作步骤如下：(1)按照设定的短时间的时长对音频采样信号序列进行分帧而将其划分为音频数据帧序列；(2)分别对该音频数据帧序列中的每个音频数据帧实时提取该帧的短时能量、短时过零率和短时信息熵；(3)对音频数据帧序列进行分段而将其划分为音频短段序列；并在上述参数基础上，提取综合每个音频短段内的所有音频数据帧的时域和频域特征、并充分考虑其前后两个时刻之间音频差异的特征参数：音频短段时频差，用于音频监控系统。本发明能克服现有技术缺陷，有效应对各种不同类型的背景噪声，及时发现音频信号中可能出现的异常事件，正确作出判断，为适时采取告警等其它各种安全技术措施奠定基础。

Description

一种用于音频监控系统中的音频特征参数的提取方法

技术领域

本发明涉及一种新的多媒体信息及其提取方法，确切地说，涉及一种用于音频监控系统中的音频特征参数的提取方法，属于多媒体信息的音频监控系统中的音频信号分析及其应用的信息安全技术领域。

背景技术

随着人民群众安全意识的提高，监控系统越来越受到人们的重视，并被广泛地应用于银行、商场、学校、办公大楼、以及家居安全的防范系统中。另外，多媒体技术的不断发展，使得视、音频信息在人们的工作、文体、娱乐和日常生活中起着日益重要的作用。例如，视频监控系统已经广泛应用于当前许多公共场合的安全系统中，该系统通过前端摄像系统对设定的区域进行监控，并将其采集到的视频信号传送到监控中心，由监控中心的服务器自动进行实时分析而发现异常事件，或者由人员监控发现异常事件并立即进行处理。然而，视频监控系统也有很多不足和局限之处。首先，摄像机很容易受到光线照明的影响，在光照等条件发生变化时很容易出现误判；尤其是办公楼熄灯以后，摄像机通常就无法正常工作，而保持正常照明又会造成能源浪费。另外，对于某些特殊事件，如在公共场所发出尖叫或异常声响等，音频信号的检测效果要明显优于视频信号。这是因为在音频监控系统中，人们通常不需要准确判断声音的类别。例如，在办公楼内，不需要取区分枪声和玻璃破碎声，只要能够确定这是在特定场景下不应该发出的异常声音即可。因此，目前在国内外都广泛开展了针对音频异常事件的监控及检测技术的研究。

现在，有些科技人员利用隐马尔科夫模型对语音、乐音等基本音频事件进行建模，并根据最大似然值对输入的音频信号进行分类。然而，在音频监控系统中，人们最关心的是事件的“异常性”，而不是事件的种类。例如，在安静的办公楼内，只要检测到尖叫声或枪声都是异常事件的征兆，而不需要对这两种不同的声响进行区分。

有些研发人员针对不同的应用场景展开探讨和设计。例如，针对办公楼的特定工作环境，对其中的音频能量、过零率等低层音频特征参数进行统计和分析，并根据统计结果设定不同时间段内的门限值。一旦这些音频特征参数超出相应的门限时，就认为发生了异常事件。然而，如果只使用音频能量、过零率等时域音频信号特征参数只能检测到少数的异常事件，不能满足实际应用需求。

还有部分科技人员对正常事件中的例如语音、脚步声等的音频能量、过零率等特征参数进行总结和分析后，再实时采集这些音频信号，并将其与相关的这些特征参数进行实时对比，当检测到的音频信号与正常事件的特征参数的相似度小于设定值时，就判定为异常事件。然而，由于采集到的各种特征参数之间具有很大的重叠性(例如：语音和乐音的过零率基本无法区分出来)，于是在复杂环境下很难做到准确的检测。

所以，如何利用音频特征参数来监控异常事件的发生与否，以及如何提取相关的音频特征参数仍然是业内科技人员关注的热点课题。

发明内容

有鉴于此，本发明的目的是提供一种用于音频监控系统中的音频特征参数的提取方法，以便较好地解决传统音频监控方法在选取音频特征参数上的缺陷；本发明首创并提取的音频特征参数是音频短段时频差，它的特点是将时域和频域的音频特征参数相互结合为一体，既能发挥其各自长处，又可在一定程度上规避各自缺点，从而能够有效地应对各种不同类型的背景噪声，对某个设定时段的音频中可能出现的异常事件及时作出正确判断，为适时采取告警等其它各种安全技术措施奠定基础。

为了达到上述目的，本发明提供了一种用于音频监控系统中的音频特征参数的提取方法，其特征在于，所述方法包括下述操作步骤：

(1)按照设定的短时间的时长对音频采样信号序列进行分帧处理，将该音频采样信号序列划分为音频数据帧序列，其中每个短时间段为一个音频数据帧；

(2)分别对所述音频数据帧序列中的每个音频数据帧实时提取该帧的短时能量、短时过零率和短时信息熵三个基本音频特征参数；

(3)对音频数据帧序列进行分段处理和计算每个音频短段的时频差：

按照设定短时间段的时长所包括的音频数据帧的数量将该音频帧序列进行分段而划分为音频短段序列，其中每个设定时长中的多个音频数据帧组成一个音频短段；

分别计算每个音频短段中的所有音频数据帧的短时能量、短时过零率和短时信息熵的平均值，并分别定义为该音频短段的短段能量

短段过零率

和短段短时信息熵

其中，自然数k是音频短段的序号，自然数m是第k个音频短段中的音频数据帧的序号，其最大值是M；

在上述三个音频特征参数基础上，计算并提取综合每个音频短段内的所有音频数据帧的时域特征和频域特征，并充分考虑其当前时刻与前一时刻之间差异的音频特征参数，即音频短段时频差，用于音频监控系统，及时发现音频异常事件；其中，计算每个音频短段的音频短段时频差，即第k个音频短段的音频短段时频差<short-TF>_k的计算公式为：

并设置其中第一个音频短段，即当k＝1时，

所述步骤(1)中的设定的短时间的时长范围是30ms-50ms。

所述音频数据帧的短时能量是反映该音频数据帧在单位时间内的时域强度特征参数，每个音频数据帧的短时能量是该帧内所有音频采样值的平方和，即第i帧的短时能量是：

式中，自然数i是音频数据帧的序号，自然数n是第i个音频数据帧中的音频采样值的序号，其最大值是N，S_n是第n个采样的取样值；

所述音频数据帧的短时过零率是在某种程度上反映该音频数据帧中的音频信号的时域频率特征参数，第i帧的短时过零率是在该i个音频数据帧中的音频信号穿过零值、即坐标横轴的次数：

式中，sgn( )为符号函数，音频采样值S_n为正数的符号函数是1，音频采样值S_n为负数和0的符号函数都是-1，即：

信息熵是频域的音频参数，用于反映音频信号所传达的信息量的大小；所述短时信息熵是每个音频数据帧的信息熵。

所述短时信息熵的计算方法如下：

(21)利用傅里叶变换FFT对每个音频数据帧的信号进行由时域向频域的转换，分别得到设定的各个频率的频谱能量；

(22)分别计算每个音频数据帧中所述各个频率的出现概率，即第j个频率f_j的出现概率p_j的计算公式为：

式中，s(f_j)是第j个频率f_j的频谱能量，s(f_c)是第c频率f_c的频谱能量，自然数c是该音频数据帧中设定的各频率的序号，其最大值为Q；

(23)分别计算每个音频数据帧中音频信号的短时信息熵，即第i帧的短时信息熵的计算公式为：式中，自然数j是该第i个音频数据帧中计算短时信息熵过程中所选取的各频率的序号，其最大值是X。

所述步骤(21)中，在对音频数据帧的信号进行由时域向频域的转换处理时，设定的各个频率是0HZ、100HZ、200HZ、300HZ、……、至5000HZ。

所述步骤(3)中，设定短时间段的时长所包括的音频数据帧是50帧。

本发明的重要创新点是提出一种适用于音频监控系统的新的音频特征参数——音频短段时频差，该参数的特点是同时将时域音频特征参数(短时能量和短时过零率)和频域的音频特征参数(短时信息熵)兼容在一起，既能够发挥其各自长处，又可在一定程度上分别规避其缺点，从而能够有效地应对各种不同类型的背景噪声。另外，现有的音频参数大都只着重于衡量音频信号在某个特定时刻所呈现的特性，而本发明的音频短段时频差的另一特点是在提取过程中充分考虑了前一时刻与当前时刻的音频特征的差异或区别，能够更好地发现音频信号的突变点，有效区分“正常”音频信号与“异常”音频信号，从而对不同时段的音频信号中可能出现的异常事件及时作出正确判断，为适时采取告警等安全技术措施奠定基础。

再者，本发明提取音频短段时频差的方法操作步骤简单、容易，信号处理所需要的计算量也非常简单、时延很小，能够应用于实时监控系统中。因此，本发明具有很好的推广应用前景。

附图说明

图1是本发明一种用于音频监控系统中的音频特征参数的提取方法操作步骤流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图和实施例的试验情况对本发明作进一步的详细描述。

参见图1，介绍本发明一种用于音频监控系统中的音频特征参数的提取方法的具体操作步骤：

步骤1、按照设定的短时间的时长(例如30ms-50ms)对音频采样信号序列进行分帧处理，将该音频采样信号序列划分为音频数据帧序列，其中每个短时间段为一个音频数据帧。分帧操作后，原始音频采样信号序列就表示为一个音频数据帧序列。

步骤2、分别对该音频数据帧序列中的每个音频数据帧实时提取该帧的短时能量、短时过零率和短时信息熵三个基本音频特征参数。其中：

音频数据帧的短时能量是反映该音频数据帧在单位时间内的时域强度特征参数，每个音频数据帧的短时能量定义为该帧内所有音频采样值的平方和，例如，第i帧的短时能量是：

式中，自然数i是音频数据帧的序号，自然数n是第i个音频数据帧中的音频采样值的序号，其最大值是N，S_n是第n个采样的取样值。

音频数据帧的短时过零率是在某种程度上反映该音频数据帧中的音频信号的时域频率特征参数，第i帧的短时过零率是在该i个音频数据帧中的音频信号穿过坐标横轴(即零值点)的次数，即

众所周知，音频信号的感知过程与人类听觉系统具有频谱分析功能是紧密相关的。因此，对音频信号进行频谱分析，是认识音频信号和处理音频信号的重要方法。音频信号作为一种典型的非平稳信号，它的非平稳性是由发音器官的物理运动过程的不平稳性而产生的，但是，由此可假定其频域信号也是短时平稳的。

信息熵是频域的重要音频参数，用于反应音频信号所传达的信息量的大小。信息熵在语音编解码中经常被使用，J.L.Shen首次将该参数应用于语音端点检测技术中。本发明方法也要对每个音频数据帧都计算其信息熵，即短时信息熵。该短时信息熵的计算方法如下：

(A)利用傅里叶变换(FFT)对每个音频数据帧的信号进行由时域向频域的转换，分别得到设定的各个频率的频谱能量。通常，在该音频信号转换过程中，设定的各个频率是0HZ、100HZ、200HZ、300HZ、……、至5000HZ的频谱。

(B)分别计算每个音频数据帧中上述各个频率的出现概率，即按照下述公式计算第j个频率f_j的出现概率p_j为：式中，s(f_j)是第j个频率f_j的频谱能量，自然数c是该音频数据帧中设定的各频率的序号，其最大值为Q。

(C)分别计算每个音频数据帧中音频信号的短时信息熵，即按照下述公式计算第i帧的短时信息熵

式中，自然数j是该第i个音频数据帧中计算短时信息熵过程中所选取的各频率的序号，其最大值是X。

步骤3、对音频数据帧序列进行分段处理，将该音频帧序列划分为音频短段序列；并在上述三个音频特征参数的基础上，计算并提取综合每个音频短段内的所有音频数据帧的时域特征和频域特征、并充分考虑其当前时刻与前一时刻之间差异的音频特征参数，即音频短段时频差，记做：short-TF，用于音频监控系统，及时发现音频异常事件。该步骤包括下列操作内容：

(1)对音频帧序列进行分段：按照设定短时间段的时长所包括的音频数据帧的数量(通常设定短时间段的时长包括50帧)对所述音频数据帧序列进行分段，其中每个设定时长中的多个音频数据帧组成一个音频短段。

(2)分别计算每个音频短段中的所有音频数据帧的短时能量、短时过零率和短时信息熵的平均值，并分别定义为：

该音频短段的短段能量：

短段过零率

短段短时信息熵

式中，自然数k是音频短段的序号，自然数m是第k个音频短段中的音频数据帧的序号，其最大值是M。

(3)分别计算每个音频短段的音频短段时频差，即第k个音频短段的音频短段时频差<short-TF>_k的计算公式为：

并设置其中第一个音频短段，即当k＝1时，

这里得到的各个音频短段的音频短段时频差<short-TF>_k就可以直接用于音频监控系统。

本发明方法已经作了实施试验，计算机仿真的实施例的试验是成功的，实现了发明目的。

Claims

1.一种用于音频监控系统中的音频特征参数的提取方法，其特征在于，所述方法包括下述操作步骤：

按照设定短时间段的时长所包括的音频数据帧的数量将该音频数据帧序列进行分段而划分为音频短段序列，其中每个设定时长中的多个音频数据帧组成一个音频短段；

、短段过零率和短段短时信息熵，其中，自然数k是音频短段的序号；

在上述三个音频特征参数基础上，计算并提取综合每个音频短段内的所有音频数据帧的时域特征和频域特征、并充分考虑其当前时刻与前一时刻之间差异的音频特征参数，即音频短段时频差，用于音频监控系统，及时发现音频异常事件；其中，计算每个音频短段的音频短段时频差，即第k个音频短段的音频短段时频差<short-TF>_k的计算公式为：

并设置其中第一个音频短段，即当k＝1时，

2.根据权利要求1所述的方法，其特征在于：所述步骤(1)中的设定的短时间的时长范围是30ms-50ms。

3.根据权利要求1所述的方法，其特征在于：所述音频数据帧的短时能量是反映该音频数据帧在单位时间内的时域强度特征参数，每个音频数据帧的短时能量是该帧内所有音频采样值的平方和，即第i帧的短时能量是：

4.根据权利要求3所述的方法，其特征在于：所述短时信息熵的计算方法如下：

式中，s(f_j)是第j个频率f_j的频谱能量，s(f_c)是第c个频率f_c的频谱能量，自然数c是该音频数据帧中设定的各频率的序号，其最大值为Q；

(23)分别计算每个音频数据帧中音频信号的短时信息熵，即第i帧的短时信息熵的计算公式为：

5.根据权利要求4所述的方法，其特征在于：所述步骤(21)中，在对音频数据帧的信号进行由时域向频域的转换处理时，设定的各个频率是0HZ、100HZ、200HZ、300HZ、……、至5000HZ。

6.根据权利要求1所述的方法，其特征在于：所述步骤(3)中，设定短时间段的时长所包括的音频数据帧是50帧。