CN103674235A

CN103674235A - 基于短时傅里叶变换的单一频率报警声音特征检测方法

Info

Publication number: CN103674235A
Application number: CN201410003377.2A
Authority: CN
Inventors: 魏树银; 高会军; 于金泳; 孙光辉; 吴立刚
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2014-01-03
Filing date: 2014-01-03
Publication date: 2014-03-26
Anticipated expiration: 2034-01-03
Also published as: CN103674235B

Abstract

基于短时傅里叶变换的单一频率报警声音特征检测方法，涉及单一频率报警声音特征检测技术。它为了解决传统的检测大噪声下环境下单一频率报警声音特征方法耗时长的问题。本发明首先对原始数据进行分段，对每段音频信号数据进行短时傅里叶变换，以求得每段音频信号的幅值和频率，将每次记录下来的音频信号的幅值连接起来，以得到音频信号的幅值随时间变化的图像，然后根据开始幅值阀值和截止幅值阀值计算音频信号端点，再根据端点计算音频信号的周期、有声时间长度和静音时间长度。本发明采用短时傅里叶变换对音频信号特征进行检测，检测处理速度快，检测时间缩短了90%以上。本发明适用于大噪音环境下的单一频率报警声音特征检测。

Description

基于短时傅里叶变换的单一频率报警声音特征检测方法

技术领域

本发明涉及单一频率报警声音特征检测技术。

背景技术

在工业生产和日常生活中，许多方面都需要用到报警声音。

报警声音通常是单一频率的。一些紧急情况下的报警声音，其频率较高并且幅值保持不变，这种声音听起来比较刺耳，起到警告的作用；普通情况下的报警声音要求是和弦的，即幅值从最大单调减小到最小并保持一段时间，这种声音听起来比较柔和，起到提示的作用，和弦信号可以是周期的，也可以是非周期的。

对于此类单一频率的声音信号，我们首先需要检测它的频率和强度是否符合设计要求。如果信号是和弦信号，还需要检测信号幅值的变化特征是否符合设计要求，需要检测音频信号的端点以及周期的大小。

对于幅值不变的信号，可以先对数据进行一些处理，例如归一化，数字滤波等。然后使用短时傅里叶变换即可得到信号的频率和幅值，处理过程比较简单。

对于和弦信号，由于频率是单一的，用短时傅里叶变化可以得到信号的频率。使用短时能量方法可以得到音频信号幅值的变化规律。使用过零率加短时能量的方法可以得到音频信号的端点和周期。

过零率是一段时间内信号符号发生变化的次数，例如信号从正数变为负数，也可以反过来，在某些情况下，只统计正向或者负向变化的次数，因为两次正向之间必有一次负向，反之亦然。当声音的频率发生变化或者有声变无声，无声变有声时，过零率就会出现差别，可以用于音频端点的检测，能够发挥出很好的作用。

短时能量就是一段时间内信号各个采样点幅值的平方和。短时能量的理论依据是音频信号能量的大小，有声音时音频信号能量大，短时能量大；无声音时音频信号的能量小，短时能量也小。由于待处理的音频信号幅值是从最大开始减小到最小的，因此可以只取两个门限值，超过第一个门限值代表声音开始，低于第二个门限值代声音停止。

但是在实际使用过程中发现，车间的噪声非常大，对于过零率和短时能量都有很大的影响，因此必须先进行高阶的数字滤波。高阶数字滤波需要较多的时间，会影响到检测的实时性。因此需要使用更加快速有效的方法，在此，选择了短时傅里叶变化来处理音频数据。

短时傅里叶变换（STFT，short-time Fourier transform，或short-term Fourier transform)）是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。

它的思想是：选择一个时频局部化的窗函数，假定分析窗函数g(t)在一个短时间间隔内是平稳（伪平稳）的，移动窗函数，使f(t)g(t)在不同的有限时间宽度内是平稳信号，从而计算出各个不同时刻的功率谱。短时傅里叶变换使用一个固定的窗函数，窗函数一旦确定了以后，其形状就不再发生改变，短时傅里叶变换的分辨率也就确定了。如果要改变分辨率，则需要重新选择窗函数。短时傅里叶变换用来分析分段平稳信号或者近似平稳信号犹可，但是对于非平稳信号，当信号变化剧烈时，要求窗函数有较高的时间分辨率；而波形变化比较平缓的时刻，主要是低频信号，则要求窗函数有较高的频率分辨率。短时傅里叶变换不能兼顾频率与时间分辨率的需求。短时傅里叶变换窗函数受到W.Heisenberg不确定准则的限制，时频窗的面积不小于2。这也就从另一个侧面说明了短时傅里叶变换窗函数的时间与频率分辨率不能同时达到最优。

发明内容

本发明的目的是为了解决提取大噪声下环境下单一频率报警声音的特征时，采用过零率和短时能量方法需要高阶数字滤波，导致检测时间长的问题，提供一种基于短时傅里叶变换的单一频率报警声音特征检测方法。

本发明所述的基于短时傅里叶变换的单一频率报警声音特征检测方法，所述单一频率报警声音特征包括频率、幅值、周期、有声时间长度和静音时间长度，所述方法通过以下步骤实现：

步骤一、将原始音频信号数据进行分段，每段音频信号的数据个数均相等，1个数据是指一次采样得到的数据；

步骤二、对每段音频信号数据进行短时傅里叶变换，以求得每段音频信号的幅值和频率，记录下音频信号的幅值；

步骤三、将每次记录下来的音频信号的幅值连接起来，以得到音频信号的幅值随时间变化的图像；

步骤四、确定音频信号端点：选择一个开始幅值阀值和一个截止幅值阀值，将步骤三得到的图像与开始幅值阀值和截止幅值阀值进行比较，当幅值大于开始幅值阀值时，该幅值对应的时间点为开始端点，当幅值小于截止幅值阀值时，该幅值对应的时间点为截止端点，所述的开始端点和截止端点即为音频信号的端点；

步骤五、计算音频信号的周期：当音频信号为周期信号时，相邻两个开始端点的时间间隔即为音频信号的周期，即：每个周期从一个开始端点开始，经过一个截止端点，再到下一个开始端点结束；

步骤六、计算有声时间长度和静音时间长度：在音频信号的一个周期内，第一个开始端点到截止端点的时间间隔为有声时间长度，截止端点到下一个开始端点的时间间隔为静音时间长度。

上述步骤一中，每段数据的个数为256。

上述步骤二所述的音频信号的幅值的选择方法为：对每段音频信号数据进行短时傅里叶变换后，得到的图像的横坐标为频率，纵坐标为幅值，其中幅值最高的谱线代表音频信号。

上述步骤四所述的开始幅值阀值大于截止幅值阀值。

本发明所述的基于短时傅里叶变换的单一频率报警声音特征检测方法首先对原始数据进行分段，从分段后的音频信号可以看出，在短时间内，一段音频信号内的幅值可以看作是保持不变的，因而可以使用短时傅里叶变换求出对应分段时间内信号的幅值（与微积分的原理很相似）。进行短时傅里叶变换后得到的图像包含多条谱线，其中强度最大的一条谱线为单一频率报警声音，其他谱线为噪声。谱线的纵坐标正比于幅值的大小，横坐标代表音频信号的频率。根据谱线的横坐标即可判断该单一频率报警声音的频率特征是否符合要求。对每段数据进行短时傅里叶变换之后，记录下音频信号的幅值。将每段时间内的信号幅值连接起来，得到最终的短时傅里叶变换处理结果。根据需要选择开始幅值阀值和截止幅值阀值后，可以求得音频信号的端点。再根据音频信号的端点来求得周期、有声时间和静音时间。与传统的利用数字滤波器进行检测的方法相比，本发明采用短时傅里叶变换对音频信号特征进行检测，检测处理速度快，检测时间缩短了90%以上。

附图说明

图1为实施方式一所述的基于短时傅里叶变换的单一频率报警声音特征检测方法的流程图；

图2为在车间录制的五秒钟的报警声音的原始音频信号，其中，纵坐标表示强度，横坐标表示采样次数，对应的采样频率为32KHz；

图3为图2所示的原始音频信号经步骤一分段处理后，其中一段原始音频信号数据，其中，纵坐标表示强度，横坐标表示采样次数，对应的采样频率为32KHz；

图4为图2中有声音时的一段音频信号经短时傅里叶变换后的结果；

图5为图2中静音时的一段音频信号经短时傅里叶变换后的结果；

图6为实施试一中步骤三得到的图像，其中，纵坐标表示强度，横坐标表示采样次数，每次采样的时间为8ms。

具体实施方式

具体实施方式一：结合图1、图2、图3和图6说明本实施方式，本实施方式所述的基于短时傅里叶变换的单一频率报警声音特征检测方法，所述单一频率报警声音特征包括频率、幅值、周期、有声时间长度和静音时间长度，所述方法通过以下步骤实现：

图2所示的是在有噪音的车间里录制的一段单一频率报警声音的音频信号，前面幅值较高的一段信号为单一频率报警声音的音频信号，后面幅值较低的为噪声，可以看出现场噪声很大，对传统的报警声音特征检测方法会有很大影响。

本实施方式所述的基于短时傅里叶变换的单一频率报警声音特征检测方法首先对原始数据进行分段，从图3所示的分段后的音频信号可以看出，在短时间内（图3中横坐标的数值代表采样次数，采样频率为32KHz，因此横坐标反应的是时间，例如，横坐标50表示的时间为50/32000秒），一段音频信号内的幅值可以看作是保持不变的，因而可以使用短时傅里叶变换求出对应分段时间内信号的幅值（与微积分的原理很相似）。进行短时傅里叶变换后得到的图像包含多条谱线，其中强度最大的一条谱线为单一频率报警声音，其他谱线为噪声。谱线的纵坐标正比于幅值的大小，横坐标代表音频信号的频率。根据谱线的横坐标即可判断该单一频率报警声音的频率特征是否符合要求。对每段数据进行短时傅里叶变换之后，记录下音频信号的幅值。将每段时间内的信号幅值连接起来，得到最终的短时傅里叶变换处理结果（如图6所示）。根据需要选择开始幅值阀值和截止幅值阀值后，可以求得音频信号的端点。再根据音频信号的端点来求得周期、有声时间和静音时间。

本实施方式所述的基于短时傅里叶变换的单一频率报警声音特征检测方法与传统的利用数字滤波器进行检测的方法相比具有如下优点：

1，实时性能更好。许多处理器对于短时傅里叶变换具有硬件优化，比如TMS320F28335型高性能数字信号处理器，因此短时傅里叶变换的处理速度很快，对音频信号特征检测的时间缩短了90%以上。

2，不需要设计数字滤波器的参数。设计数字滤波器需要使用专门的设计软件，例如MATLAB中的FDATool。但是其众多的滤波器类型，各种参数代表的意义需要设计人员充分理解。设计人员需要花费很多精力才可以设计出合理的数字滤波器。

3，编写程序简单。不需要编写过零率程序，短时能量程序以及数字滤波器程序，只需要使用短时傅里叶变换程序。而短时傅里叶变换程序一般由数字信号处理器的生产厂家提供汇编代码，针对处理器进行了优化，可以直接调用库函数。

具体实施方式二：本实施方式是对实施方式一所述的基于短时傅里叶变换的单一频率报警声音特征检测方法的进一步限定，本实施方式中，步骤一中，每段数据的个数为256。

实际使用过程中，音频信号的采样率是32kHz。短时傅里叶变换首先将原始数据分段，每段的数据个数相等，为256，对应的采样时间是8ms。256个数据对于短时傅里叶变换来说是比较合适的，而8ms对于音频端点检测需要的精度来说也是比较合适的，因此该分段是合理的

具体实施方式三：结合图4和图5说明本实施方式，本实施方式是对实施方式一所述的基于短时傅里叶变换的单一频率报警声音特征检测方法的进一步限定，本实施方式中，步骤二所述的音频信号的幅值的选择方法为：对每段音频信号数据进行短时傅里叶变换后，得到的图像的横坐标为频率，纵坐标为幅值，其中幅值最高的谱线代表音频信号。

从分段数据的频谱可以看出，音频信号对应的谱线是非常明显的，其幅值远远高于噪声的幅值，可以直接获得音频信号的频率和幅值。音频信号的频谱与噪声的频谱是分开的，可以直接剔除噪声的频谱，保留音频信号的频谱。信号的频谱对应了每段时间内信号的幅值。在没有信号的情况下，信号的频谱为零，噪声的频谱依然存在，但是噪声无法对结果造成影响。

具体实施方式四：本实施方式是对实施方式一所述的基于短时傅里叶变换的单一频率报警声音特征检测方法的进一步限定，本实施方式中，步骤四所述的开始幅值阀值大于截止幅值阀值。

Claims

1.基于短时傅里叶变换的单一频率报警声音特征检测方法，所述单一频率报警声音特征包括频率、幅值、周期、有声时间长度和静音时间长度，其特征在于：该方法通过以下步骤实现：

2.根据权利要求1所述的基于短时傅里叶变换的单一频率报警声音特征检测方法，其特征在于：步骤一中，每段数据的个数为256。

3.根据权利要求1所述基于短时傅里叶变换的单一频率报警声音特征检测方法，其特征在于：步骤二所述的音频信号的幅值的选择方法为：对每段音频信号数据进行短时傅里叶变换后，得到的图像的横坐标为频率，纵坐标为幅值，其中幅值最高的谱线代表音频信号。

4.根据权利要求1所述基于短时傅里叶变换的单一频率报警声音特征检测方法，其特征在于：步骤四所述的开始幅值阀值大于截止幅值阀值。