CN116153329A

CN116153329A - 一种基于cwt-lbp的声音信号时频纹理特征提取方法

Info

Publication number: CN116153329A
Application number: CN202310041306.0A
Authority: CN
Inventors: 宋浠瑜; 熊君涵; 姚方志; 刘争红; 王玫; 仇洪冰
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2023-01-12
Filing date: 2023-01-12
Publication date: 2023-05-23

Abstract

本发明公开了一种基于CWT‑LBP的声音信号时频纹理特征提取方法，首先，选用合适的小波基函数，利用连续小波变换CWT模块，把声音信号转化为时频图，同时滤掉干扰噪声；其次，将时频图转化为灰度图，进行二值化处理为对应的二值图；最后，结合局部二值模式LBP模块，提取相应的纹理特征，生成特定的时频纹理图。本发明方法体现在多维域特征的联合处理，不仅能表征频域上的信息，还能体现时域信息，使得信号具有多尺度分辨的特点，有利于检测信号的瞬态或奇异点。该方法不仅适用于异常声音检测的特征提取，也适用于各种非平稳信号的特征提取。

Description

一种基于CWT-LBP的声音信号时频纹理特征提取方法

技术领域

本发明涉及声音信号特征提取的方法，具体给出了一种基于连续小波变换和声谱纹理(CWT-LBP)进行声音信号特征提取的方法。

背景技术

小波变换技术、纹理特征提取技术属于信号分析与处理领域，它们都在声音处理、图像处理以及众多非线性学科领域有重要的应用价值。

特征提取多出现于机器学习、模式识别、语音识别、图像处理等领域，指对某一模式的组测量值进行变换，以突出该模式具有代表性特征的一种方法。通过影像分析和某种变换，以提取所需特征，声音的特征提取也如此，常见的声音特征有梅尔频率倒谱系数(MFCC)、恒Q变换(CQT)、过零率、节拍图等。通过对声音信号进行特征提取分析，能发现更有意义的潜在变量，帮助对声音数据产生更深入的了解，是实现声音识别、分类的有效方法。

在声音信号特征增强技术方法上，已经有傅里叶变换、谱减法、噪声对消法等方法。而傅里叶变换只能分析信号的频率成分，却不能分析信号的频率出现的时刻，完全丢失了信号的时域信息；谱减法去噪，虽然这种方法容易实现，但这种方法在非平稳环境下处理效果不明显，并且在信噪比低的情况下，对声音信号的可懂度与自然度损害较大；另外噪声对消法需要采集背景噪声作为参考信号，一般采用自适应滤波技术，在输入信号与统计特征未知的情况下，需要通过调整自身参数，以此来达到最佳滤波效果。此类的声音信号特征增强方式，在复杂的噪声环境中效果得不到保证，并且容易丢失关键信息，影响后续声音信号识别、分类的准确性。

小波变换继承和发展了傅立叶变换局部化的思想，同时又克服了窗口大小不随频率变化等缺点。随着科学技术特别是计算机技术的发展以及互联网的普及，许多应用领域(如卫星监测、地震勘探、城市生命线安全检测)都存在海量数据传输或存储问题，如果不对数据进行压缩，数量巨大的数据就很难存储、处理和传输。因此，伴随小波分析的诞生，数据压缩一直是小波分析的重要应用领域之一。在声音分析与处理领域，小波理论也可应用于清浊音分割、信号瞬态变化监测、去噪、压缩、重建几个方面。瞬态信号的突变点常包含有很重要的故障信息，例如机械故障、电力系统故障、心电图中的异常、城市地下管道异常等，都对应于测试信号的突变点。可见小波分析在故障检测和信号的多尺度边缘特征提取方面具有广泛的应用前景。

纹理是一种反映图像中同质现象的视觉特征，它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。纹理不同于灰度、颜色等图像特征，它通过像素及其周围空间邻域的灰度分布来表现，即局部纹理信息。目前纹理特征较多的应用于图像处理领域，比如医学图像分析、人脸面部识别、卫星或航空图像分析、图像压缩等。

为了更好地解决在复杂的声场环境中，噪声干扰对后续信号处理的影响，提高声音的识别、分类准确度，同时兼顾特征复杂度的考虑，本发明采用连续小波变换结合局部二值模式生成特定的声音时频纹理图。

发明内容

本发明针对复杂声场环境中，环境噪声干扰大、常用的时域信号特征涵盖有效信息不足，严重影响声音识别和分类任务准确性的问题，而提出一种基于CWT-LBP的声音时频纹理特征提取的方法，实现复杂声场环境中声音的高级特征提取。该方法能够弥补声音信号时域特征表示的信息缺失，同时结合图像领域中的纹理提取技术降低特征维度，达到去冗余的效果，可应用于检测声音信号的瞬态变化或奇异点，能够获得较好的识别和分类效果。

本发明一种基于CWT-LBP的声音时频纹理特征提取的方法：

首先，选用合适的小波基函数，利用连续小波变换CWT模块，把声音信号转化为时频图，同时滤掉干扰噪声；

其次，将时频图转化为灰度图，进行二值化处理为对应的二值图；

最后，结合局部二值模式LBP模块，提取相应的纹理特征，生成特定的时频纹理图。

进一步地，所述连续小波变换的工作步骤，具体如下：

1.1)选用Morlet小波作为基函数，确定初始的尺度因子为a、时间平移因子为b，小波从高频开始分析，朝低频进行，尺度因子的第一个值对应压缩程度最高的小波，随着尺度因子的扩大，小波也将扩大；

1.2)依照连续小波变换公式，将输入信号与小波相乘积分，得到对应时刻的小波系数；

1.3)移动时间平移因子b，直至信号的末端，将积分结果乘以常数归一化；

1.4)改变尺度因子a，不断扩展小波，重复步骤1.2)-1.3)，最终生成小波的时频图。

进一步地，所述连续小波变换的工作步骤1.1)中，Morlet小波基函数表达式为:

Morlet小波基函数是由复三角函数乘上一个指数衰减函数构成，式中j表示虚数，ω₀代表中心频率，t是时间变量；

将小波基函数Ψ(t)进行伸缩和平移，得到如下函数公式：

a是尺度因子且a≠0，b是时间平移因子；

步骤1.2)所述连续小波变换公式为：

尺度因子a对应频率反比，时间平移因子b对应时间，f表示待变换信号，Ψ_a,b表示小波变换的基函数，Ψ^*表示小波基函数的复共轭，t是时间变量，f(t)表示待变换输入信号。

进一步地，所述局部二值模式LBP模块，提取相应的纹理特征，步骤如下：

2.1)将待转化图片划分为16*16的小区域；

2.2)对于每个区域中的一个像素点，将相邻的8个像素点的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0；这样，3*3邻域内的8个点经比较可产生8位二进制数，即得到该窗口中心像素点的LBP值；

2.3)计算每个LBP值出现的频率，得出LBP直方图，然后对该直方图进行归一化处理；

2.4)将得到的每个区域的统计直方图连接成为一个特征向量，最终得出整幅图像的LBP纹理特征。

进一步地，所述LBP模块处理，步骤2.3)计算每个LBP值出现的频率，位置(x_c,y_c)处的LBP值的数学公式为：

其中，P表示相邻像素点个数，R表示采样半径，s(k)表示除中心像素点之外的第k个相邻像素点的灰度值，s(c)表示中心像素点的灰度值，g(·)为门限函数，公式描述如下：

由于LBP记录的是邻域像素点和中心像素点的差值，因此当外界环境变化引起窗口内的像素点的灰度值同步增大或减小时，LBP值变化不明显，故而LBP具有旋转不变性和灰度值不变性。

本发明提出了一种在复杂声场环境中，基于CWT-LBP的声音时频纹理特征提取的方法，体现在多维域特征的联合处理。该方法中的CWT模块，由粗到细逐步地观察声音信号，把一维的声音信号转化为二维的图像信号，在此基础上融合了图像领域中的LBP纹理提取技术，从时频域视野增强信号局部特征的表征能力，克服了声音时域谱图特征表征能力不足的困难，在保证有效特征不变性的前提下，降低特征维度与冗余度，提高声音信号多尺度分辨能力，有利于检测信号的瞬态或奇异点，有助于提高系统处理速率，为后续的信号处理阶段降低了特征复杂度。

本发明方法不仅能表征频域上的信息，还能体现时域信息，使得信号具有多尺度分辨的特点，有利于检测信号的瞬态或奇异点。该方法不仅适用于异常声音检测的特征提取，也适用于各种非平稳信号的特征提取。

附图说明

图1为本发明基于CWT-LBP的声音时频纹理特征提取框架图；

图2为本发明方法中连续小波变换原理图；

图3为实施例LBP模块转化原理图。

具体实施方式

下面结合实施例和附图对本发明内容作进一步的说明，但不是对本发明的限定。

实施例

参照图1，CWT-LBP时频纹理特征提取的框架图，由输入声音信号、声音去噪、CWT模块、灰度图、LBP模块、时频纹理特征输出模块组成。本发明重点围绕CWT时频图模块和LBP纹理图模块进行展开。

本发明基于CWT-LBP的声音时频纹理特征提取的方法：

本发明方法中，连续小波变换的工作步骤，具体如下：

Morlet小波基函数表达式为:

将小波基函数Ψ(t)进行伸缩和平移，得到如下函数公式：

连续小波变换公式为：

尺度因子a对应频率反比，时间平移因子b对应时间，f表示待变换信号，Ψ_a,b表示小波变换的基函数，Ψ^*表示小波基函数的复共轭，t是时间变量，f(t)表示待变换输入信号；

参照图2小波变换原理图，输入信号被分解为低频信号和高频信号，低频信号再次分解为次低频信号和次高频信号，以此逐级分解，最大分解级数为

(N为输入信号长度)。cA表示低频信号近似系数，cD表示高频信号详细系数，分解完成之后把所有cD值和最后一级cA值按低频到高频重构，最终得到小波变换后的数据。

本发明方法中，局部二值模式LBP模块，提取相应的纹理特征，步骤如下：

2.1)将待转化图片划分为16*16的小区域；

位置(x_c,y_c)处的LBP值的数学公式为：

对于LBP模块：例如定义在一个3*3大小的窗口内(采样半径为1，中心点相邻像素点个数为8)，以窗口的中心像素的灰度值为阈值，周围的8个像素中灰度值大于阈值的标记为1，小于阈值的标记为0，如此可以得到一个8位的二进制数，把这8位二进制数转化为十进制数，得到LBP值，将这个数作为窗口中心像素点的LBP值，用于反映这个窗口中的纹理信息，如图3所示。

本发明采用CWT-LBP方法通过对声音信号进行时频纹理特征的提取，在复杂的声场环境下，补全了常用声音特征的时域缺陷，同时利用纹理技术的不变性，大幅度减少特征复杂度，有效的实现声音信号的识别和分类。