CN111833885A

CN111833885A - 一种基于卷积模糊神经网络的音源识别方法

Info

Publication number: CN111833885A
Application number: CN202010649101.7A
Authority: CN
Inventors: 李捷; 王毫旗; 王晓文
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-10-27
Anticipated expiration: 2040-07-08
Also published as: CN111833885B

Abstract

本发明属于音源识别技术领域，具体涉及一种基于卷积模糊神经网络的音源识别方法，包括下列步骤：对原始音源数据的预处理；得到MFCC特征参数；形成特征映射输入到卷积层；进行降维处理；将池化层输出的二维数据变换为一个行特征向量，然后输入到模糊化层，计算各语言变量的隶属度函数值；进行归一化计算；将模糊量变换为精确值输出；对输出的精确值进行训练学习；利用交叉熵损失函数对输出结果进行判断。本发明在卷积神经网络与模糊神经网络相结合的基础之上，对音源进行辨识；本发明综合了卷积神经网络与模糊神经网络的优点，使得本发明有更好的识别效果。本发明用于对音源的识别。

Description

一种基于卷积模糊神经网络的音源识别方法

技术领域

本发明属于音源识别技术领域，具体涉及一种基于卷积模糊神经网络的音源识别方法。

背景技术

音源识别技术是通过在音源样本中提取出表征音源产生对象生理特征的特征参数对音源进行识别的一项技术。近几年，随着人工智能技术的不断发展，说话人识别技术也得到了快速的发展。因此智能音源识别技术在工程车辆领域也得到了应用。

音源识别技术的研究人员已逐渐把音源识别的方法从研究基于高斯混合模型转向基于神经网络的研究。在多种神经网络中，模糊神经网络对于语音信号有较强的模型分析、分类能力，而卷积神经网络对音源信号有较强的特征信息提取能力。在此基础之上，本发明提出一种改进的音源识别方法，此音源识别系统主要应用于工程车辆的智能音源控制。可以进一步让工程车辆更加智能化、自主化。但是现有的音源别技术存在的计算标准模型与待识别模型之间不能理想匹配，以及采集到的音源信号样本复杂多样等问题。

发明内容

针对上述音源识别技术存在的计算标准模型与待识别模型之间不能理想匹配、采集到的音源信号样本复杂多样的技术问题，本发明提供了一种识别效果好、误差小、匹配度高的基于卷积模糊神经网络的音源识别方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于卷积模糊神经网络的音源识别方法，包括下列步骤：

S1、对原始音源数据的预处理；

S2、对预处理后的音源数据进行快速傅里叶变换FFT、对能量谱进行滤波、计算对数能量、进行离散余弦变换，进而得到MFCC特征参数；

S3、将提取的MFCC特征参数经过变换，用卷积核对经过变换的MFCC特征参数进行局部过滤，形成特征映射输入到卷积层；

S4、卷积层的特征映射通过卷积层与池化层之间的采样区域，运用最大池化算法对卷积层的特征映射进一步过滤，并进行降维处理；

S5、将池化层输出的二维数据变换为一个行特征向量，然后输入到模糊化层，计算输入值属于各音源变量的隶属度函数值；

S6、模糊化操作之后，将数据进一步输入到模糊推理层，根据模糊规则库中的规则，通过对隶属度的匹配判断，推导模糊规则库中的规则的适用度，并进行归一化计算；

S7、在去模糊化层，对数据进行去模糊操作，将模糊量变换为精确值输出；

S8、对输出的精确值进行训练学习，直至达到误差值最小或者达到训练次数输出结果；

S9、利用交叉熵损失函数对输出结果进行判断，交叉熵损失函数值越小识别效果越好，交叉熵损失函数值越大识别效果越差。

所述S1中对原始音源数据的预处理的方法为：包括下列步骤：

S1.1、数据采样和量化，对模拟信号的原始音源数据进行采样、量化，将模拟信号转换为计算机可以分析储存的二进制数字量；

S1.2、数据预加重，采用一阶高通滤波器对音源信号进行预加重，所述一阶高通滤波器的表达式为：H(z)＝1-μz^-1，所述z为音源信号，所述μ为预加重系数；

S1.3、数据加窗分帧，音源信号是会随着时间变化的，为了得到稳态的信号，因此对音源信号进行分帧，然后采用窗函数对其进行加窗处理，s_W(n)＝s(n)*w(n)，所述s_W(n)为分帧时后面一帧相对于前面一帧的位移量，所述s(n)为进行数据采样之后的离散信号序列，所述w(n)为窗函数，所述窗函数采用Hamming窗函数，所述Hamming窗函数的表达式为：

所述L为帧长；

S1.4、数据端点检测，运用双门限法进行数据的端点检测。

所述S3中MFCC特征参数变换的方法为：将MFCC特征参数变换为在水平方向的时域和垂直方向上的频域内分布的二维特征映射输入到卷积层。

所述S3中特征映射输入到卷积层的方法为：所述输入的特征映射的尺寸为l₁×l₂，所述l₁为时间域上的特征维数，所述l₂为频率域上的特征维数，然后通过在输入层与卷积层之间卷积核的作用下对输入特征进行局部过滤，进而形成卷积层的输入特征映射，所述卷积核的尺寸为l₃×l₄，且l₃≤l₁，l₄≤l₂，所述卷积核的深度与卷积层输入特征映射的深度相同，所述卷积层的数学模型为：

所述

表示深度为第l层的第j个卷积核输出的特征映射，所述f为激活函数，所述

为深度为第l-1层输出的第i个特征映射，所述

为偏置项，所述

为卷积核，所述M_i为l-1层输出的特征映射的集合。

所述S4中进行降维处理的方法为：经过卷积核的卷积运算之后，形成了m个(l₁-l₃+1)×(l₂-l₄+1)的特征映射，所述m为卷积核的个数，之后可设在卷积层与池化层之间采样区域的尺寸为p×q，则输入池化层的为m个[(l₁-l₃+1)/p]×[(l₂-l₄+1)/q]的特征映射，在池化层中，运用最大池化算法进一步对输入的表示时域、频域的特征参数进行降维处理，所述池化层的数学模型为：

所述

为输入信号，所述f为激活函数，所述激活函数采用sigmoid函数，所述down为池化函数，所述

为l-1层输出的第j个特征映射，所述

为偏置项。

所述S5中计算隶属度函数值的方法为：将行特征向量输入模糊化层计算每个音源变量的模糊隶属度u_gh(g＝1,2,....,n_k；h＝1,2,....,m_k)，所述n_k为输入向量的维度数，所述m_k为输入向量的模糊子集数，所述模糊化层的总节点数为

所述隶属度函数采用高斯隶属度函数，所述高斯隶属度函数为：

(g＝1,2,....,n_k；h＝1,2,....,m_k)，所述x_g为输入的行特征向量，所述c_gh和σ_gh分别表示高斯隶属度函数的中心和宽度。

所述S6中适用度的表达式为：

该模糊推理层的总节点为m_k，所述S6中归一化的表达式为：所述

所述α_h为每条模糊规则的适用度，m_k为节点数。所述S7中精确值的表达式为：

所述w_oh为最后一层的连接权值。

所述S8中训练学习的方法为：

S8.1、定义误差函数为：

y_do和y_o分别表示期望值和输出值；

S8.2、连接权值w_oh的训练学习的公式为：

(o＝1,2,....r；h＝1,2,....m_k)，所述β为学习率；

S8.3、根据梯度寻优算法对隶属度函数的参数进行调整，从而推出训练学习的公式为：

所述g＝1,2,....n_k；h＝1,2,....m_k，所述E为误差函数，所述β为学习率。

所述S9中交叉熵损失函数的表达式为：

所述s为训练后的输出结果，所述t为期望值。

本发明与现有技术相比，具有的有益效果是：

本发明在卷积神经网络与模糊神经网络相结合的基础之上，对说话人进行辨识；卷积神经网络可以提高特征数据的表征能力以及能有效的抑制噪声对系统的干扰，卷积神经网络中的池化层能够对数据进行降维处理，进一步提取更深层的特征数据；模糊神经网络对于是模糊信息的音源信号有较强的处理能力，而且具有适中的数据训练时长，本发明综合了卷积神经网络与模糊神经网络的优点，使得本发明有更好的识别效果。

附图说明

图1为本发明音源数据特征参数提取流程图；

图2为本发明卷积神经网络结构图；

图3为本发明卷积模糊神经网络结构图；

图4为本发明数据训练学习流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

步骤一、如图1所示，对原始音源数据的预处理。

数据采样和量化，对模拟信号的原始音源数据进行采样、量化，将模拟信号转换为计算机可以分析储存的二进制数字量；

数据预加重，采用一阶高通滤波器对音源信号进行预加重，所述一阶高通滤波器的表达式为：H(z)＝1-μz^-1，所述z为音源信号，所述μ为预加重系数；

数据加窗分帧，音源信号是会随着时间变化的，为了得到稳态的信号，因此对音源信号进行分帧，然后采用窗函数对其进行加窗处理，s_W(n)＝s(n)*w(n)，s_W(n)为分帧时后面一帧相对于前面一帧的位移量，s(n)为进行数据采样之后的离散信号序列，w(n)为窗函数，窗函数采用Hamming窗函数，Hamming窗函数的表达式为：

L为帧长；

数据端点检测，运用双门限法进行数据的端点检测。

步骤二、对预处理后的音源数据进行快速傅里叶变换FFT、对能量谱进行滤波、计算对数能量、进行离散余弦变换，进而得到MFCC特征参数；

步骤三、将提取的MFCC特征参数经过变换，由于卷积层的输入数据是二维平面特征，而提取的MFCC特征参数是一维的特征向量，因此将MFCC特征参数变换为在水平方向的时域和垂直方向上的频域内分布的二维特征映射输入到卷积层。用卷积核对经过变换的MFCC特征参数进行局部过滤，形成特征映射输入到卷积层，输入的特征映射的尺寸为l₁×l₂，l₁为时间域上的特征维数，l₂为频率域上的特征维数，然后通过在输入层与卷积层之间卷积核的作用下对输入特征进行局部过滤，进而形成卷积层的输入特征映射，卷积核的尺寸为l₃×l₄，且l₃≤l₁，l₄≤l₂，卷积核的深度与卷积层输入特征映射的深度相同，卷积层的数学模型为：

表示深度为第l层的第j个卷积核输出的特征映射，f为激活函数，

为深度为第l-1层输出的第i个特征映射，

为偏置项，

为卷积核，M_i为l-1层输出的特征映射的集合。

步骤四、经过卷积核的卷积运算之后，形成了m个(l₁-l₃+1)×(l₂-l₄+1)的特征映射，m为卷积核的个数，之后可设在卷积层与池化层之间采样区域的尺寸为p×q，则输入池化层的为m个[(l₁-l₃+1)/p]×[(l₂-l₄+1)/q]的特征映射，在池化层中，运用最大池化算法进一步对输入的表示时域、频域的特征参数进行降维处理，池化层的数学模型为：

其中

为输入信号，f为激活函数，激活函数采用sigmoid函数，down为池化函数，

为l-1层输出的第j个特征映射，

为偏置项。

步骤五、将池化层输出的二维数据变换为一个行特征向量，然后输入到模糊化层，将行特征向量输入模糊化层计算每个音源变量的模糊隶属度u_gh(g＝1,2,....,n_k；h＝1,2,....,m_k)，其中n_k为输入向量的维度数，m_k为输入向量的模糊子集数，模糊化层的总节点数为

隶属度函数采用高斯隶属度函数，高斯隶属度函数为：

x_g为输入的行特征向量，c_gh和σ_gh分别表示高斯隶属度函数的中心和宽度。

步骤六、模糊化操作之后，将数据进一步输入到模糊推理层，根据模糊规则库中的规则，通过对隶属度的匹配判断，推导模糊规则库中的规则的适用度，适用度的表达式为：

该模糊推理层的总节点为m_k，并进行归一化计算，归一化的表达式为：

其中：α_h为每条模糊规则的适用度，m_k为节点数。

步骤七、在去模糊化层，对数据进行去模糊操作，将模糊量变换为精确值输出，精确值的表达式为：

其中：wo_h为最后一层的连接权值。

步骤八、对输出的精确值进行训练学习，直至达到误差值最小或者达到训练次数输出结果。

定义误差函数为：

y_do和y_o分别表示期望值和输出值；

连接权值w_oh的训练学习的公式为：

(o＝1,2,....r；h＝1,2,....m_k)，β为学习率；

根据梯度寻优算法对隶属度函数的参数进行调整，从而推出训练学习的公式为：

其中：g＝1,2,....n_k；h＝1,2,....m_k，E为误差函数，β为学习率。

步骤九、利用交叉熵损失函数对输出结果进行判断，交叉熵损失函数值越小识别效果越好，交叉熵损失函数值越大识别效果越差，交叉熵损失函数的表达式为：

其中；s为训练后的输出结果，t为期望值。

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积模糊神经网络的说音源识别方法，其特征在于：包括下列步骤：

S1、对原始音源数据的预处理；

S8、对输出的精确值进行训练学习，直至达到误差值最小或者达到训练迭代次数30次输出结果；

2.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法，其特征在于：所述S1中对原始音源数据的预处理的方法为：包括下列步骤：

所述L为帧长；

S1.4、数据端点检测，运用双门限法进行数据的端点检测。

3.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法，其特征在于：所述S3中MFCC特征参数变换的方法为：将MFCC特征参数变换为在水平方向的时域和垂直方向上的频域内分布的二维特征映射输入到卷积层。

4.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法，其特征在于：所述S3中特征映射输入到卷积层的方法为：所述输入的特征映射的尺寸为l₁×l₂，所述l₁为时间域上的特征维数，所述l₂为频率域上的特征维数，然后通过在输入层与卷积层之间卷积核的作用下对输入特征进行局部过滤，进而形成卷积层的输入特征映射，所述卷积核的尺寸为l₃×l₄，且l₃≤l₁，l₄≤l₂，所述卷积核的深度与卷积层输入特征映射的深度相同，所述卷积层的数学模型为：

所述

为深度为第l-1层输出的第i个特征映射，所述

为偏置项，所述

为卷积核，所述M_i为l-1层输出的特征映射的集合。

5.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法，其特征在于：所述S4中进行降维处理的方法为：经过卷积核的卷积运算之后，形成了m个(l₁-l₃+1)×(l₂-l₄+1)的特征映射，所述m为卷积核的个数，之后可设在卷积层与池化层之间采样区域的尺寸为p×q，则输入池化层的为m个[(l₁-l₃+1)/p]×[(l₂-l₄+1)/q]的特征映射，在池化层中，运用最大池化算法进一步对输入的表示时域、频域的特征参数进行降维处理，所述池化层的数学模型为：

所述

为l-1层输出的第j个特征映射，所述

为偏置项。

6.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法，其特征在于：所述S5中计算隶属度函数值的方法为：将行特征向量输入模糊化层计算每个音源变量的模糊隶属度u_gh(g＝1,2,....,n_k；h＝1,2,....,m_k)，所述n_k为输入向量的维度数，所述m_k为输入向量的模糊子集数，所述模糊化层的总节点数为