CN111833885A - 一种基于卷积模糊神经网络的音源识别方法 - Google Patents

一种基于卷积模糊神经网络的音源识别方法 Download PDF

Info

Publication number
CN111833885A
CN111833885A CN202010649101.7A CN202010649101A CN111833885A CN 111833885 A CN111833885 A CN 111833885A CN 202010649101 A CN202010649101 A CN 202010649101A CN 111833885 A CN111833885 A CN 111833885A
Authority
CN
China
Prior art keywords
layer
sound source
fuzzy
convolutional
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010649101.7A
Other languages
English (en)
Other versions
CN111833885B (zh
Inventor
李捷
王毫旗
王晓文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Science and Technology
Original Assignee
Taiyuan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Science and Technology filed Critical Taiyuan University of Science and Technology
Priority to CN202010649101.7A priority Critical patent/CN111833885B/zh
Publication of CN111833885A publication Critical patent/CN111833885A/zh
Application granted granted Critical
Publication of CN111833885B publication Critical patent/CN111833885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/33Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Automation & Control Theory (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Complex Calculations (AREA)

Abstract

本发明属于音源识别技术领域,具体涉及一种基于卷积模糊神经网络的音源识别方法,包括下列步骤:对原始音源数据的预处理;得到MFCC特征参数;形成特征映射输入到卷积层;进行降维处理;将池化层输出的二维数据变换为一个行特征向量,然后输入到模糊化层,计算各语言变量的隶属度函数值;进行归一化计算;将模糊量变换为精确值输出;对输出的精确值进行训练学习;利用交叉熵损失函数对输出结果进行判断。本发明在卷积神经网络与模糊神经网络相结合的基础之上,对音源进行辨识;本发明综合了卷积神经网络与模糊神经网络的优点,使得本发明有更好的识别效果。本发明用于对音源的识别。

Description

一种基于卷积模糊神经网络的音源识别方法
技术领域
本发明属于音源识别技术领域,具体涉及一种基于卷积模糊神经网络的音源识别方法。
背景技术
音源识别技术是通过在音源样本中提取出表征音源产生对象生理特征的特征参数对音源进行识别的一项技术。近几年,随着人工智能技术的不断发展,说话人识别技术也得到了快速的发展。因此智能音源识别技术在工程车辆领域也得到了应用。
音源识别技术的研究人员已逐渐把音源识别的方法从研究基于高斯混合模型转向基于神经网络的研究。在多种神经网络中,模糊神经网络对于语音信号有较强的模型分析、分类能力,而卷积神经网络对音源信号有较强的特征信息提取能力。在此基础之上,本发明提出一种改进的音源识别方法,此音源识别系统主要应用于工程车辆的智能音源控制。可以进一步让工程车辆更加智能化、自主化。但是现有的音源别技术存在的计算标准模型与待识别模型之间不能理想匹配,以及采集到的音源信号样本复杂多样等问题。
发明内容
针对上述音源识别技术存在的计算标准模型与待识别模型之间不能理想匹配、采集到的音源信号样本复杂多样的技术问题,本发明提供了一种识别效果好、误差小、匹配度高的基于卷积模糊神经网络的音源识别方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于卷积模糊神经网络的音源识别方法,包括下列步骤:
S1、对原始音源数据的预处理;
S2、对预处理后的音源数据进行快速傅里叶变换FFT、对能量谱进行滤波、计算对数能量、进行离散余弦变换,进而得到MFCC特征参数;
S3、将提取的MFCC特征参数经过变换,用卷积核对经过变换的MFCC特征参数进行局部过滤,形成特征映射输入到卷积层;
S4、卷积层的特征映射通过卷积层与池化层之间的采样区域,运用最大池化算法对卷积层的特征映射进一步过滤,并进行降维处理;
S5、将池化层输出的二维数据变换为一个行特征向量,然后输入到模糊化层,计算输入值属于各音源变量的隶属度函数值;
S6、模糊化操作之后,将数据进一步输入到模糊推理层,根据模糊规则库中的规则,通过对隶属度的匹配判断,推导模糊规则库中的规则的适用度,并进行归一化计算;
S7、在去模糊化层,对数据进行去模糊操作,将模糊量变换为精确值输出;
S8、对输出的精确值进行训练学习,直至达到误差值最小或者达到训练次数输出结果;
S9、利用交叉熵损失函数对输出结果进行判断,交叉熵损失函数值越小识别效果越好,交叉熵损失函数值越大识别效果越差。
所述S1中对原始音源数据的预处理的方法为:包括下列步骤:
S1.1、数据采样和量化,对模拟信号的原始音源数据进行采样、量化,将模拟信号转换为计算机可以分析储存的二进制数字量;
S1.2、数据预加重,采用一阶高通滤波器对音源信号进行预加重,所述一阶高通滤波器的表达式为:H(z)=1-μz-1,所述z为音源信号,所述μ为预加重系数;
S1.3、数据加窗分帧,音源信号是会随着时间变化的,为了得到稳态的信号,因此对音源信号进行分帧,然后采用窗函数对其进行加窗处理,sW(n)=s(n)*w(n),所述sW(n)为分帧时后面一帧相对于前面一帧的位移量,所述s(n)为进行数据采样之后的离散信号序列,所述w(n)为窗函数,所述窗函数采用Hamming窗函数,所述Hamming窗函数的表达式为:
Figure BDA0002574243300000031
所述L为帧长;
S1.4、数据端点检测,运用双门限法进行数据的端点检测。
所述S3中MFCC特征参数变换的方法为:将MFCC特征参数变换为在水平方向的时域和垂直方向上的频域内分布的二维特征映射输入到卷积层。
所述S3中特征映射输入到卷积层的方法为:所述输入的特征映射的尺寸为l1×l2,所述l1为时间域上的特征维数,所述l2为频率域上的特征维数,然后通过在输入层与卷积层之间卷积核的作用下对输入特征进行局部过滤,进而形成卷积层的输入特征映射,所述卷积核的尺寸为l3×l4,且l3≤l1,l4≤l2,所述卷积核的深度与卷积层输入特征映射的深度相同,所述卷积层的数学模型为:
Figure BDA0002574243300000032
所述
Figure BDA0002574243300000033
表示深度为第l层的第j个卷积核输出的特征映射,所述f为激活函数,所述
Figure BDA0002574243300000034
为深度为第l-1层输出的第i个特征映射,所述
Figure BDA0002574243300000035
为偏置项,所述
Figure BDA0002574243300000036
为卷积核,所述Mi为l-1层输出的特征映射的集合。
所述S4中进行降维处理的方法为:经过卷积核的卷积运算之后,形成了m个(l1-l3+1)×(l2-l4+1)的特征映射,所述m为卷积核的个数,之后可设在卷积层与池化层之间采样区域的尺寸为p×q,则输入池化层的为m个[(l1-l3+1)/p]×[(l2-l4+1)/q]的特征映射,在池化层中,运用最大池化算法进一步对输入的表示时域、频域的特征参数进行降维处理,所述池化层的数学模型为:
Figure BDA0002574243300000037
所述
Figure BDA0002574243300000038
为输入信号,所述f为激活函数,所述激活函数采用sigmoid函数,所述down为池化函数,所述
Figure BDA0002574243300000039
为l-1层输出的第j个特征映射,所述
Figure BDA0002574243300000041
为偏置项。
所述S5中计算隶属度函数值的方法为:将行特征向量输入模糊化层计算每个音源变量的模糊隶属度ugh(g=1,2,....,nk;h=1,2,....,mk),所述nk为输入向量的维度数,所述mk为输入向量的模糊子集数,所述模糊化层的总节点数为
Figure BDA0002574243300000042
所述隶属度函数采用高斯隶属度函数,所述高斯隶属度函数为:
Figure BDA0002574243300000043
(g=1,2,....,nk;h=1,2,....,mk),所述xg为输入的行特征向量,所述cgh和σgh分别表示高斯隶属度函数的中心和宽度。
所述S6中适用度的表达式为:
Figure BDA0002574243300000044
该模糊推理层的总节点为mk,所述S6中归一化的表达式为:所述
Figure BDA0002574243300000045
所述αh为每条模糊规则的适用度,mk为节点数。所述S7中精确值的表达式为:
Figure BDA0002574243300000046
所述woh为最后一层的连接权值。
所述S8中训练学习的方法为:
S8.1、定义误差函数为:
Figure BDA0002574243300000047
ydo和yo分别表示期望值和输出值;
S8.2、连接权值woh的训练学习的公式为:
Figure BDA0002574243300000048
(o=1,2,....r;h=1,2,....mk),所述β为学习率;
S8.3、根据梯度寻优算法对隶属度函数的参数进行调整,从而推出训练学习的公式为:
Figure BDA0002574243300000049
所述g=1,2,....nk;h=1,2,....mk,所述E为误差函数,所述β为学习率。
所述S9中交叉熵损失函数的表达式为:
Figure BDA0002574243300000051
所述s为训练后的输出结果,所述t为期望值。
本发明与现有技术相比,具有的有益效果是:
本发明在卷积神经网络与模糊神经网络相结合的基础之上,对说话人进行辨识;卷积神经网络可以提高特征数据的表征能力以及能有效的抑制噪声对系统的干扰,卷积神经网络中的池化层能够对数据进行降维处理,进一步提取更深层的特征数据;模糊神经网络对于是模糊信息的音源信号有较强的处理能力,而且具有适中的数据训练时长,本发明综合了卷积神经网络与模糊神经网络的优点,使得本发明有更好的识别效果。
附图说明
图1为本发明音源数据特征参数提取流程图;
图2为本发明卷积神经网络结构图;
图3为本发明卷积模糊神经网络结构图;
图4为本发明数据训练学习流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于卷积模糊神经网络的音源识别方法,包括下列步骤:
步骤一、如图1所示,对原始音源数据的预处理。
数据采样和量化,对模拟信号的原始音源数据进行采样、量化,将模拟信号转换为计算机可以分析储存的二进制数字量;
数据预加重,采用一阶高通滤波器对音源信号进行预加重,所述一阶高通滤波器的表达式为:H(z)=1-μz-1,所述z为音源信号,所述μ为预加重系数;
数据加窗分帧,音源信号是会随着时间变化的,为了得到稳态的信号,因此对音源信号进行分帧,然后采用窗函数对其进行加窗处理,sW(n)=s(n)*w(n),sW(n)为分帧时后面一帧相对于前面一帧的位移量,s(n)为进行数据采样之后的离散信号序列,w(n)为窗函数,窗函数采用Hamming窗函数,Hamming窗函数的表达式为:
Figure BDA0002574243300000061
L为帧长;
数据端点检测,运用双门限法进行数据的端点检测。
步骤二、对预处理后的音源数据进行快速傅里叶变换FFT、对能量谱进行滤波、计算对数能量、进行离散余弦变换,进而得到MFCC特征参数;
步骤三、将提取的MFCC特征参数经过变换,由于卷积层的输入数据是二维平面特征,而提取的MFCC特征参数是一维的特征向量,因此将MFCC特征参数变换为在水平方向的时域和垂直方向上的频域内分布的二维特征映射输入到卷积层。用卷积核对经过变换的MFCC特征参数进行局部过滤,形成特征映射输入到卷积层,输入的特征映射的尺寸为l1×l2,l1为时间域上的特征维数,l2为频率域上的特征维数,然后通过在输入层与卷积层之间卷积核的作用下对输入特征进行局部过滤,进而形成卷积层的输入特征映射,卷积核的尺寸为l3×l4,且l3≤l1,l4≤l2,卷积核的深度与卷积层输入特征映射的深度相同,卷积层的数学模型为:
Figure BDA0002574243300000062
表示深度为第l层的第j个卷积核输出的特征映射,f为激活函数,
Figure BDA0002574243300000063
为深度为第l-1层输出的第i个特征映射,
Figure BDA0002574243300000064
为偏置项,
Figure BDA0002574243300000065
为卷积核,Mi为l-1层输出的特征映射的集合。
步骤四、经过卷积核的卷积运算之后,形成了m个(l1-l3+1)×(l2-l4+1)的特征映射,m为卷积核的个数,之后可设在卷积层与池化层之间采样区域的尺寸为p×q,则输入池化层的为m个[(l1-l3+1)/p]×[(l2-l4+1)/q]的特征映射,在池化层中,运用最大池化算法进一步对输入的表示时域、频域的特征参数进行降维处理,池化层的数学模型为:
Figure BDA0002574243300000071
其中
Figure BDA0002574243300000072
为输入信号,f为激活函数,激活函数采用sigmoid函数,down为池化函数,
Figure BDA0002574243300000073
为l-1层输出的第j个特征映射,
Figure BDA0002574243300000074
为偏置项。
步骤五、将池化层输出的二维数据变换为一个行特征向量,然后输入到模糊化层,将行特征向量输入模糊化层计算每个音源变量的模糊隶属度ugh(g=1,2,....,nk;h=1,2,....,mk),其中nk为输入向量的维度数,mk为输入向量的模糊子集数,模糊化层的总节点数为
Figure BDA0002574243300000075
隶属度函数采用高斯隶属度函数,高斯隶属度函数为:
Figure BDA0002574243300000076
xg为输入的行特征向量,cgh和σgh分别表示高斯隶属度函数的中心和宽度。
步骤六、模糊化操作之后,将数据进一步输入到模糊推理层,根据模糊规则库中的规则,通过对隶属度的匹配判断,推导模糊规则库中的规则的适用度,适用度的表达式为:
Figure BDA0002574243300000077
该模糊推理层的总节点为mk,并进行归一化计算,归一化的表达式为:
Figure BDA0002574243300000078
其中:αh为每条模糊规则的适用度,mk为节点数。
步骤七、在去模糊化层,对数据进行去模糊操作,将模糊量变换为精确值输出,精确值的表达式为:
Figure BDA0002574243300000079
其中:woh为最后一层的连接权值。
步骤八、对输出的精确值进行训练学习,直至达到误差值最小或者达到训练次数输出结果。
定义误差函数为:
Figure BDA0002574243300000081
ydo和yo分别表示期望值和输出值;
连接权值woh的训练学习的公式为:
Figure BDA0002574243300000082
(o=1,2,....r;h=1,2,....mk),β为学习率;
根据梯度寻优算法对隶属度函数的参数进行调整,从而推出训练学习的公式为:
Figure BDA0002574243300000083
其中:g=1,2,....nk;h=1,2,....mk,E为误差函数,β为学习率。
步骤九、利用交叉熵损失函数对输出结果进行判断,交叉熵损失函数值越小识别效果越好,交叉熵损失函数值越大识别效果越差,交叉熵损失函数的表达式为:
Figure BDA0002574243300000084
其中;s为训练后的输出结果,t为期望值。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于卷积模糊神经网络的说音源识别方法,其特征在于:包括下列步骤:
S1、对原始音源数据的预处理;
S2、对预处理后的音源数据进行快速傅里叶变换FFT、对能量谱进行滤波、计算对数能量、进行离散余弦变换,进而得到MFCC特征参数;
S3、将提取的MFCC特征参数经过变换,用卷积核对经过变换的MFCC特征参数进行局部过滤,形成特征映射输入到卷积层;
S4、卷积层的特征映射通过卷积层与池化层之间的采样区域,运用最大池化算法对卷积层的特征映射进一步过滤,并进行降维处理;
S5、将池化层输出的二维数据变换为一个行特征向量,然后输入到模糊化层,计算输入值属于各音源变量的隶属度函数值;
S6、模糊化操作之后,将数据进一步输入到模糊推理层,根据模糊规则库中的规则,通过对隶属度的匹配判断,推导模糊规则库中的规则的适用度,并进行归一化计算;
S7、在去模糊化层,对数据进行去模糊操作,将模糊量变换为精确值输出;
S8、对输出的精确值进行训练学习,直至达到误差值最小或者达到训练迭代次数30次输出结果;
S9、利用交叉熵损失函数对输出结果进行判断,交叉熵损失函数值越小识别效果越好,交叉熵损失函数值越大识别效果越差。
2.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S1中对原始音源数据的预处理的方法为:包括下列步骤:
S1.1、数据采样和量化,对模拟信号的原始音源数据进行采样、量化,将模拟信号转换为计算机可以分析储存的二进制数字量;
S1.2、数据预加重,采用一阶高通滤波器对音源信号进行预加重,所述一阶高通滤波器的表达式为:H(z)=1-μz-1,所述z为音源信号,所述μ为预加重系数;
S1.3、数据加窗分帧,音源信号是会随着时间变化的,为了得到稳态的信号,因此对音源信号进行分帧,然后采用窗函数对其进行加窗处理,sW(n)=s(n)*w(n),所述sW(n)为分帧时后面一帧相对于前面一帧的位移量,所述s(n)为进行数据采样之后的离散信号序列,所述w(n)为窗函数,所述窗函数采用Hamming窗函数,所述Hamming窗函数的表达式为:
Figure FDA0002574243290000021
所述L为帧长;
S1.4、数据端点检测,运用双门限法进行数据的端点检测。
3.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S3中MFCC特征参数变换的方法为:将MFCC特征参数变换为在水平方向的时域和垂直方向上的频域内分布的二维特征映射输入到卷积层。
4.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S3中特征映射输入到卷积层的方法为:所述输入的特征映射的尺寸为l1×l2,所述l1为时间域上的特征维数,所述l2为频率域上的特征维数,然后通过在输入层与卷积层之间卷积核的作用下对输入特征进行局部过滤,进而形成卷积层的输入特征映射,所述卷积核的尺寸为l3×l4,且l3≤l1,l4≤l2,所述卷积核的深度与卷积层输入特征映射的深度相同,所述卷积层的数学模型为:
Figure FDA0002574243290000022
所述
Figure FDA0002574243290000023
表示深度为第l层的第j个卷积核输出的特征映射,所述f为激活函数,所述
Figure FDA0002574243290000024
为深度为第l-1层输出的第i个特征映射,所述
Figure FDA0002574243290000025
为偏置项,所述
Figure FDA0002574243290000026
为卷积核,所述Mi为l-1层输出的特征映射的集合。
5.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S4中进行降维处理的方法为:经过卷积核的卷积运算之后,形成了m个(l1-l3+1)×(l2-l4+1)的特征映射,所述m为卷积核的个数,之后可设在卷积层与池化层之间采样区域的尺寸为p×q,则输入池化层的为m个[(l1-l3+1)/p]×[(l2-l4+1)/q]的特征映射,在池化层中,运用最大池化算法进一步对输入的表示时域、频域的特征参数进行降维处理,所述池化层的数学模型为:
Figure FDA0002574243290000031
所述
Figure FDA0002574243290000032
为输入信号,所述f为激活函数,所述激活函数采用sigmoid函数,所述down为池化函数,所述
Figure FDA0002574243290000033
为l-1层输出的第j个特征映射,所述
Figure FDA0002574243290000034
为偏置项。
6.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S5中计算隶属度函数值的方法为:将行特征向量输入模糊化层计算每个音源变量的模糊隶属度ugh(g=1,2,....,nk;h=1,2,....,mk),所述nk为输入向量的维度数,所述mk为输入向量的模糊子集数,所述模糊化层的总节点数为
Figure FDA0002574243290000035
所述隶属度函数采用高斯隶属度函数,所述高斯隶属度函数为:
Figure FDA0002574243290000036
所述xg为输入的行特征向量,所述cgh和σgh分别表示高斯隶属度函数的中心和宽度。
7.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S6中适用度的表达式为:
Figure FDA0002574243290000038
该模糊推理层的总节点为mk,所述S6中归一化的表达式为:所述
Figure FDA0002574243290000037
(h=1,2,....mk),所述αh为每条模糊规则的适用度,mk为节点数。
8.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S7中精确值的表达式为:
Figure FDA0002574243290000041
该去模糊化层的节点数为r,所述woh为最后一层的连接权值。
9.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S8中训练学习的方法为:
S8.1、定义误差函数为:
Figure FDA0002574243290000042
ydo和yo分别表示期望值和输出值;
S8.2、连接权值woh的训练学习的公式为:
Figure FDA0002574243290000043
Figure FDA0002574243290000044
所述β为学习率;
S8.3、根据梯度寻优算法对隶属度函数的参数进行调整,从而推出训练学习的公式为:
Figure FDA0002574243290000045
所述g=1,2,....nk;h=1,2,....mk,所述E为误差函数,所述β为学习率。
10.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S9中交叉熵损失函数的表达式为:
Figure FDA0002574243290000046
所述s为训练后的输出结果,所述t为期望值。
CN202010649101.7A 2020-07-08 2020-07-08 一种基于卷积模糊神经网络的音源识别方法 Active CN111833885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010649101.7A CN111833885B (zh) 2020-07-08 2020-07-08 一种基于卷积模糊神经网络的音源识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010649101.7A CN111833885B (zh) 2020-07-08 2020-07-08 一种基于卷积模糊神经网络的音源识别方法

Publications (2)

Publication Number Publication Date
CN111833885A true CN111833885A (zh) 2020-10-27
CN111833885B CN111833885B (zh) 2023-08-01

Family

ID=72899693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010649101.7A Active CN111833885B (zh) 2020-07-08 2020-07-08 一种基于卷积模糊神经网络的音源识别方法

Country Status (1)

Country Link
CN (1) CN111833885B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170096083A (ko) * 2016-02-15 2017-08-23 한국전자통신연구원 신경망을 이용한 음원분리 장치 및 방법
WO2018176894A1 (zh) * 2017-04-01 2018-10-04 清华大学 一种说话人确认方法及装置
CN109635676A (zh) * 2018-11-23 2019-04-16 清华大学 一种从视频中定位音源的方法
CN110265035A (zh) * 2019-04-25 2019-09-20 武汉大晟极科技有限公司 一种基于深度学习的说话人识别方法
CN111161744A (zh) * 2019-12-06 2020-05-15 华南理工大学 同时优化深度表征学习与说话人类别估计的说话人聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170096083A (ko) * 2016-02-15 2017-08-23 한국전자통신연구원 신경망을 이용한 음원분리 장치 및 방법
WO2018176894A1 (zh) * 2017-04-01 2018-10-04 清华大学 一种说话人确认方法及装置
CN109635676A (zh) * 2018-11-23 2019-04-16 清华大学 一种从视频中定位音源的方法
CN110265035A (zh) * 2019-04-25 2019-09-20 武汉大晟极科技有限公司 一种基于深度学习的说话人识别方法
CN111161744A (zh) * 2019-12-06 2020-05-15 华南理工大学 同时优化深度表征学习与说话人类别估计的说话人聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张文宇;刘畅;: "卷积神经网络算法在语音识别中的应用", 信息技术, no. 10 *

Also Published As

Publication number Publication date
CN111833885B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN112364779B (zh) 信号处理与深-浅网络多模型融合的水声目标识别方法
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN108827605B (zh) 一种基于改进稀疏滤波的机械故障特征自动提取方法
CN105206270B (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN109890043B (zh) 一种基于生成式对抗网络的无线信号降噪方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN108682418A (zh) 一种基于预训练和双向lstm的语音识别方法
CN106847309A (zh) 一种语音情感识别方法
CN107085704A (zh) 基于elm自编码算法的快速人脸表情识别方法
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
CN112735460A (zh) 基于时频掩蔽值估计的波束成形方法及系统
CN114863938A (zh) 一种基于注意力残差和特征融合的鸟语识别方法和系统
Wang et al. Research on feature extraction and recognition method of underwater acoustic target based on deep convolutional network
CN115758082A (zh) 一种轨道交通变压器故障诊断方法
Chinmayi et al. Emotion Classification Using Deep Learning
Kamaruddin et al. Features extraction for speech emotion
CN114091529A (zh) 一种基于生成对抗网络数据增强的脑电情感识别方法
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Roy et al. Pathological voice classification using deep learning
Eltanashi et al. Proposed speaker recognition model using optimized feed forward neural network and hybrid time-mel speech feature
CN111833885B (zh) 一种基于卷积模糊神经网络的音源识别方法
CN115064175A (zh) 一种说话人识别方法
CN117974736B (zh) 一种基于机器学习的水下传感器输出信号降噪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant