CN111833885A - 一种基于卷积模糊神经网络的音源识别方法 - Google Patents
一种基于卷积模糊神经网络的音源识别方法 Download PDFInfo
- Publication number
- CN111833885A CN111833885A CN202010649101.7A CN202010649101A CN111833885A CN 111833885 A CN111833885 A CN 111833885A CN 202010649101 A CN202010649101 A CN 202010649101A CN 111833885 A CN111833885 A CN 111833885A
- Authority
- CN
- China
- Prior art keywords
- layer
- sound source
- fuzzy
- convolutional
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 68
- 238000011176 pooling Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000009467 reduction Effects 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000010606 normalization Methods 0.000 claims abstract description 5
- 238000013507 mapping Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000013178 mathematical model Methods 0.000 claims description 6
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 101100161752 Mus musculus Acot11 gene Proteins 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005477 standard model Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/33—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Automation & Control Theory (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明属于音源识别技术领域,具体涉及一种基于卷积模糊神经网络的音源识别方法,包括下列步骤:对原始音源数据的预处理;得到MFCC特征参数;形成特征映射输入到卷积层;进行降维处理;将池化层输出的二维数据变换为一个行特征向量,然后输入到模糊化层,计算各语言变量的隶属度函数值;进行归一化计算;将模糊量变换为精确值输出;对输出的精确值进行训练学习;利用交叉熵损失函数对输出结果进行判断。本发明在卷积神经网络与模糊神经网络相结合的基础之上,对音源进行辨识;本发明综合了卷积神经网络与模糊神经网络的优点,使得本发明有更好的识别效果。本发明用于对音源的识别。
Description
技术领域
本发明属于音源识别技术领域,具体涉及一种基于卷积模糊神经网络的音源识别方法。
背景技术
音源识别技术是通过在音源样本中提取出表征音源产生对象生理特征的特征参数对音源进行识别的一项技术。近几年,随着人工智能技术的不断发展,说话人识别技术也得到了快速的发展。因此智能音源识别技术在工程车辆领域也得到了应用。
音源识别技术的研究人员已逐渐把音源识别的方法从研究基于高斯混合模型转向基于神经网络的研究。在多种神经网络中,模糊神经网络对于语音信号有较强的模型分析、分类能力,而卷积神经网络对音源信号有较强的特征信息提取能力。在此基础之上,本发明提出一种改进的音源识别方法,此音源识别系统主要应用于工程车辆的智能音源控制。可以进一步让工程车辆更加智能化、自主化。但是现有的音源别技术存在的计算标准模型与待识别模型之间不能理想匹配,以及采集到的音源信号样本复杂多样等问题。
发明内容
针对上述音源识别技术存在的计算标准模型与待识别模型之间不能理想匹配、采集到的音源信号样本复杂多样的技术问题,本发明提供了一种识别效果好、误差小、匹配度高的基于卷积模糊神经网络的音源识别方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于卷积模糊神经网络的音源识别方法,包括下列步骤:
S1、对原始音源数据的预处理;
S2、对预处理后的音源数据进行快速傅里叶变换FFT、对能量谱进行滤波、计算对数能量、进行离散余弦变换,进而得到MFCC特征参数;
S3、将提取的MFCC特征参数经过变换,用卷积核对经过变换的MFCC特征参数进行局部过滤,形成特征映射输入到卷积层;
S4、卷积层的特征映射通过卷积层与池化层之间的采样区域,运用最大池化算法对卷积层的特征映射进一步过滤,并进行降维处理;
S5、将池化层输出的二维数据变换为一个行特征向量,然后输入到模糊化层,计算输入值属于各音源变量的隶属度函数值;
S6、模糊化操作之后,将数据进一步输入到模糊推理层,根据模糊规则库中的规则,通过对隶属度的匹配判断,推导模糊规则库中的规则的适用度,并进行归一化计算;
S7、在去模糊化层,对数据进行去模糊操作,将模糊量变换为精确值输出;
S8、对输出的精确值进行训练学习,直至达到误差值最小或者达到训练次数输出结果;
S9、利用交叉熵损失函数对输出结果进行判断,交叉熵损失函数值越小识别效果越好,交叉熵损失函数值越大识别效果越差。
所述S1中对原始音源数据的预处理的方法为:包括下列步骤:
S1.1、数据采样和量化,对模拟信号的原始音源数据进行采样、量化,将模拟信号转换为计算机可以分析储存的二进制数字量;
S1.2、数据预加重,采用一阶高通滤波器对音源信号进行预加重,所述一阶高通滤波器的表达式为:H(z)=1-μz-1,所述z为音源信号,所述μ为预加重系数;
S1.3、数据加窗分帧,音源信号是会随着时间变化的,为了得到稳态的信号,因此对音源信号进行分帧,然后采用窗函数对其进行加窗处理,sW(n)=s(n)*w(n),所述sW(n)为分帧时后面一帧相对于前面一帧的位移量,所述s(n)为进行数据采样之后的离散信号序列,所述w(n)为窗函数,所述窗函数采用Hamming窗函数,所述Hamming窗函数的表达式为:所述L为帧长;
S1.4、数据端点检测,运用双门限法进行数据的端点检测。
所述S3中MFCC特征参数变换的方法为:将MFCC特征参数变换为在水平方向的时域和垂直方向上的频域内分布的二维特征映射输入到卷积层。
所述S3中特征映射输入到卷积层的方法为:所述输入的特征映射的尺寸为l1×l2,所述l1为时间域上的特征维数,所述l2为频率域上的特征维数,然后通过在输入层与卷积层之间卷积核的作用下对输入特征进行局部过滤,进而形成卷积层的输入特征映射,所述卷积核的尺寸为l3×l4,且l3≤l1,l4≤l2,所述卷积核的深度与卷积层输入特征映射的深度相同,所述卷积层的数学模型为:所述表示深度为第l层的第j个卷积核输出的特征映射,所述f为激活函数,所述为深度为第l-1层输出的第i个特征映射,所述为偏置项,所述为卷积核,所述Mi为l-1层输出的特征映射的集合。
所述S4中进行降维处理的方法为:经过卷积核的卷积运算之后,形成了m个(l1-l3+1)×(l2-l4+1)的特征映射,所述m为卷积核的个数,之后可设在卷积层与池化层之间采样区域的尺寸为p×q,则输入池化层的为m个[(l1-l3+1)/p]×[(l2-l4+1)/q]的特征映射,在池化层中,运用最大池化算法进一步对输入的表示时域、频域的特征参数进行降维处理,所述池化层的数学模型为:所述为输入信号,所述f为激活函数,所述激活函数采用sigmoid函数,所述down为池化函数,所述为l-1层输出的第j个特征映射,所述为偏置项。
所述S5中计算隶属度函数值的方法为:将行特征向量输入模糊化层计算每个音源变量的模糊隶属度ugh(g=1,2,....,nk;h=1,2,....,mk),所述nk为输入向量的维度数,所述mk为输入向量的模糊子集数,所述模糊化层的总节点数为所述隶属度函数采用高斯隶属度函数,所述高斯隶属度函数为:(g=1,2,....,nk;h=1,2,....,mk),所述xg为输入的行特征向量,所述cgh和σgh分别表示高斯隶属度函数的中心和宽度。
所述S8中训练学习的方法为:
本发明与现有技术相比,具有的有益效果是:
本发明在卷积神经网络与模糊神经网络相结合的基础之上,对说话人进行辨识;卷积神经网络可以提高特征数据的表征能力以及能有效的抑制噪声对系统的干扰,卷积神经网络中的池化层能够对数据进行降维处理,进一步提取更深层的特征数据;模糊神经网络对于是模糊信息的音源信号有较强的处理能力,而且具有适中的数据训练时长,本发明综合了卷积神经网络与模糊神经网络的优点,使得本发明有更好的识别效果。
附图说明
图1为本发明音源数据特征参数提取流程图;
图2为本发明卷积神经网络结构图;
图3为本发明卷积模糊神经网络结构图;
图4为本发明数据训练学习流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于卷积模糊神经网络的音源识别方法,包括下列步骤:
步骤一、如图1所示,对原始音源数据的预处理。
数据采样和量化,对模拟信号的原始音源数据进行采样、量化,将模拟信号转换为计算机可以分析储存的二进制数字量;
数据预加重,采用一阶高通滤波器对音源信号进行预加重,所述一阶高通滤波器的表达式为:H(z)=1-μz-1,所述z为音源信号,所述μ为预加重系数;
数据加窗分帧,音源信号是会随着时间变化的,为了得到稳态的信号,因此对音源信号进行分帧,然后采用窗函数对其进行加窗处理,sW(n)=s(n)*w(n),sW(n)为分帧时后面一帧相对于前面一帧的位移量,s(n)为进行数据采样之后的离散信号序列,w(n)为窗函数,窗函数采用Hamming窗函数,Hamming窗函数的表达式为:L为帧长;
数据端点检测,运用双门限法进行数据的端点检测。
步骤二、对预处理后的音源数据进行快速傅里叶变换FFT、对能量谱进行滤波、计算对数能量、进行离散余弦变换,进而得到MFCC特征参数;
步骤三、将提取的MFCC特征参数经过变换,由于卷积层的输入数据是二维平面特征,而提取的MFCC特征参数是一维的特征向量,因此将MFCC特征参数变换为在水平方向的时域和垂直方向上的频域内分布的二维特征映射输入到卷积层。用卷积核对经过变换的MFCC特征参数进行局部过滤,形成特征映射输入到卷积层,输入的特征映射的尺寸为l1×l2,l1为时间域上的特征维数,l2为频率域上的特征维数,然后通过在输入层与卷积层之间卷积核的作用下对输入特征进行局部过滤,进而形成卷积层的输入特征映射,卷积核的尺寸为l3×l4,且l3≤l1,l4≤l2,卷积核的深度与卷积层输入特征映射的深度相同,卷积层的数学模型为:表示深度为第l层的第j个卷积核输出的特征映射,f为激活函数,为深度为第l-1层输出的第i个特征映射,为偏置项,为卷积核,Mi为l-1层输出的特征映射的集合。
步骤四、经过卷积核的卷积运算之后,形成了m个(l1-l3+1)×(l2-l4+1)的特征映射,m为卷积核的个数,之后可设在卷积层与池化层之间采样区域的尺寸为p×q,则输入池化层的为m个[(l1-l3+1)/p]×[(l2-l4+1)/q]的特征映射,在池化层中,运用最大池化算法进一步对输入的表示时域、频域的特征参数进行降维处理,池化层的数学模型为:其中为输入信号,f为激活函数,激活函数采用sigmoid函数,down为池化函数,为l-1层输出的第j个特征映射,为偏置项。
步骤五、将池化层输出的二维数据变换为一个行特征向量,然后输入到模糊化层,将行特征向量输入模糊化层计算每个音源变量的模糊隶属度ugh(g=1,2,....,nk;h=1,2,....,mk),其中nk为输入向量的维度数,mk为输入向量的模糊子集数,模糊化层的总节点数为隶属度函数采用高斯隶属度函数,高斯隶属度函数为:xg为输入的行特征向量,cgh和σgh分别表示高斯隶属度函数的中心和宽度。
步骤六、模糊化操作之后,将数据进一步输入到模糊推理层,根据模糊规则库中的规则,通过对隶属度的匹配判断,推导模糊规则库中的规则的适用度,适用度的表达式为:该模糊推理层的总节点为mk,并进行归一化计算,归一化的表达式为:其中:αh为每条模糊规则的适用度,mk为节点数。
步骤八、对输出的精确值进行训练学习,直至达到误差值最小或者达到训练次数输出结果。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于卷积模糊神经网络的说音源识别方法,其特征在于:包括下列步骤:
S1、对原始音源数据的预处理;
S2、对预处理后的音源数据进行快速傅里叶变换FFT、对能量谱进行滤波、计算对数能量、进行离散余弦变换,进而得到MFCC特征参数;
S3、将提取的MFCC特征参数经过变换,用卷积核对经过变换的MFCC特征参数进行局部过滤,形成特征映射输入到卷积层;
S4、卷积层的特征映射通过卷积层与池化层之间的采样区域,运用最大池化算法对卷积层的特征映射进一步过滤,并进行降维处理;
S5、将池化层输出的二维数据变换为一个行特征向量,然后输入到模糊化层,计算输入值属于各音源变量的隶属度函数值;
S6、模糊化操作之后,将数据进一步输入到模糊推理层,根据模糊规则库中的规则,通过对隶属度的匹配判断,推导模糊规则库中的规则的适用度,并进行归一化计算;
S7、在去模糊化层,对数据进行去模糊操作,将模糊量变换为精确值输出;
S8、对输出的精确值进行训练学习,直至达到误差值最小或者达到训练迭代次数30次输出结果;
S9、利用交叉熵损失函数对输出结果进行判断,交叉熵损失函数值越小识别效果越好,交叉熵损失函数值越大识别效果越差。
2.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S1中对原始音源数据的预处理的方法为:包括下列步骤:
S1.1、数据采样和量化,对模拟信号的原始音源数据进行采样、量化,将模拟信号转换为计算机可以分析储存的二进制数字量;
S1.2、数据预加重,采用一阶高通滤波器对音源信号进行预加重,所述一阶高通滤波器的表达式为:H(z)=1-μz-1,所述z为音源信号,所述μ为预加重系数;
S1.3、数据加窗分帧,音源信号是会随着时间变化的,为了得到稳态的信号,因此对音源信号进行分帧,然后采用窗函数对其进行加窗处理,sW(n)=s(n)*w(n),所述sW(n)为分帧时后面一帧相对于前面一帧的位移量,所述s(n)为进行数据采样之后的离散信号序列,所述w(n)为窗函数,所述窗函数采用Hamming窗函数,所述Hamming窗函数的表达式为:所述L为帧长;
S1.4、数据端点检测,运用双门限法进行数据的端点检测。
3.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S3中MFCC特征参数变换的方法为:将MFCC特征参数变换为在水平方向的时域和垂直方向上的频域内分布的二维特征映射输入到卷积层。
4.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S3中特征映射输入到卷积层的方法为:所述输入的特征映射的尺寸为l1×l2,所述l1为时间域上的特征维数,所述l2为频率域上的特征维数,然后通过在输入层与卷积层之间卷积核的作用下对输入特征进行局部过滤,进而形成卷积层的输入特征映射,所述卷积核的尺寸为l3×l4,且l3≤l1,l4≤l2,所述卷积核的深度与卷积层输入特征映射的深度相同,所述卷积层的数学模型为:所述表示深度为第l层的第j个卷积核输出的特征映射,所述f为激活函数,所述为深度为第l-1层输出的第i个特征映射,所述为偏置项,所述为卷积核,所述Mi为l-1层输出的特征映射的集合。
5.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述S4中进行降维处理的方法为:经过卷积核的卷积运算之后,形成了m个(l1-l3+1)×(l2-l4+1)的特征映射,所述m为卷积核的个数,之后可设在卷积层与池化层之间采样区域的尺寸为p×q,则输入池化层的为m个[(l1-l3+1)/p]×[(l2-l4+1)/q]的特征映射,在池化层中,运用最大池化算法进一步对输入的表示时域、频域的特征参数进行降维处理,所述池化层的数学模型为:所述为输入信号,所述f为激活函数,所述激活函数采用sigmoid函数,所述down为池化函数,所述为l-1层输出的第j个特征映射,所述为偏置项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010649101.7A CN111833885B (zh) | 2020-07-08 | 2020-07-08 | 一种基于卷积模糊神经网络的音源识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010649101.7A CN111833885B (zh) | 2020-07-08 | 2020-07-08 | 一种基于卷积模糊神经网络的音源识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833885A true CN111833885A (zh) | 2020-10-27 |
CN111833885B CN111833885B (zh) | 2023-08-01 |
Family
ID=72899693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010649101.7A Active CN111833885B (zh) | 2020-07-08 | 2020-07-08 | 一种基于卷积模糊神经网络的音源识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833885B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170096083A (ko) * | 2016-02-15 | 2017-08-23 | 한국전자통신연구원 | 신경망을 이용한 음원분리 장치 및 방법 |
WO2018176894A1 (zh) * | 2017-04-01 | 2018-10-04 | 清华大学 | 一种说话人确认方法及装置 |
CN109635676A (zh) * | 2018-11-23 | 2019-04-16 | 清华大学 | 一种从视频中定位音源的方法 |
CN110265035A (zh) * | 2019-04-25 | 2019-09-20 | 武汉大晟极科技有限公司 | 一种基于深度学习的说话人识别方法 |
CN111161744A (zh) * | 2019-12-06 | 2020-05-15 | 华南理工大学 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
-
2020
- 2020-07-08 CN CN202010649101.7A patent/CN111833885B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170096083A (ko) * | 2016-02-15 | 2017-08-23 | 한국전자통신연구원 | 신경망을 이용한 음원분리 장치 및 방법 |
WO2018176894A1 (zh) * | 2017-04-01 | 2018-10-04 | 清华大学 | 一种说话人确认方法及装置 |
CN109635676A (zh) * | 2018-11-23 | 2019-04-16 | 清华大学 | 一种从视频中定位音源的方法 |
CN110265035A (zh) * | 2019-04-25 | 2019-09-20 | 武汉大晟极科技有限公司 | 一种基于深度学习的说话人识别方法 |
CN111161744A (zh) * | 2019-12-06 | 2020-05-15 | 华南理工大学 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
Non-Patent Citations (1)
Title |
---|
张文宇;刘畅;: "卷积神经网络算法在语音识别中的应用", 信息技术, no. 10 * |
Also Published As
Publication number | Publication date |
---|---|
CN111833885B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364779B (zh) | 信号处理与深-浅网络多模型融合的水声目标识别方法 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN108827605B (zh) | 一种基于改进稀疏滤波的机械故障特征自动提取方法 | |
CN105206270B (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
CN109890043B (zh) | 一种基于生成式对抗网络的无线信号降噪方法 | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN108682418A (zh) | 一种基于预训练和双向lstm的语音识别方法 | |
CN106847309A (zh) | 一种语音情感识别方法 | |
CN107085704A (zh) | 基于elm自编码算法的快速人脸表情识别方法 | |
CN113488060B (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN112735460A (zh) | 基于时频掩蔽值估计的波束成形方法及系统 | |
CN114863938A (zh) | 一种基于注意力残差和特征融合的鸟语识别方法和系统 | |
Wang et al. | Research on feature extraction and recognition method of underwater acoustic target based on deep convolutional network | |
CN115758082A (zh) | 一种轨道交通变压器故障诊断方法 | |
Chinmayi et al. | Emotion Classification Using Deep Learning | |
Kamaruddin et al. | Features extraction for speech emotion | |
CN114091529A (zh) | 一种基于生成对抗网络数据增强的脑电情感识别方法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Roy et al. | Pathological voice classification using deep learning | |
Eltanashi et al. | Proposed speaker recognition model using optimized feed forward neural network and hybrid time-mel speech feature | |
CN111833885B (zh) | 一种基于卷积模糊神经网络的音源识别方法 | |
CN115064175A (zh) | 一种说话人识别方法 | |
CN117974736B (zh) | 一种基于机器学习的水下传感器输出信号降噪方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |