CN111402901B - 一种基于彩色图像rgb映射特征的cnn声纹识别方法及系统 - Google Patents
一种基于彩色图像rgb映射特征的cnn声纹识别方法及系统 Download PDFInfo
- Publication number
- CN111402901B CN111402901B CN202010226730.9A CN202010226730A CN111402901B CN 111402901 B CN111402901 B CN 111402901B CN 202010226730 A CN202010226730 A CN 202010226730A CN 111402901 B CN111402901 B CN 111402901B
- Authority
- CN
- China
- Prior art keywords
- layer
- mfsc
- cnn
- order difference
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000013507 mapping Methods 0.000 title claims abstract description 15
- 230000003068 static effect Effects 0.000 claims abstract description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 73
- 238000011176 pooling Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 210000003618 cortical neuron Anatomy 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 210000000857 visual cortex Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于彩色图像RGB映射特征的CNN声纹识别方法及系统,该方法的实现过程为:S1:输入语音数据;S2:提取特征,从语音数据中提取特征,所提取特征包括:静态、一阶差分,二阶差分特征,用以充当图像RGB中红色、绿色和蓝色的角色;S3:将提出的特征输入到构建的CNN模型,得出识别结果。本发明与现有技术相比,相比较于传统GMM模型识别率具有显著的提高;语音时长对于CNN识别率的影响很小,在噪声环境下,CNN识别率依然维持在很高的水平,说明CNN对于噪声具有很好的鲁棒性。
Description
技术领域
本发明涉及语音识别领域,更具体地,涉及一种基于彩色图像RGB映射特征的CNN声纹识别方法及系统。
背景技术
在传统说话人识别中,普遍采用的是高斯混合模型-通用背景模型(GMM-UBM)。但GMM-UBM模型是传统的浅层的且不完全的学习方式。在低信噪比的环境下识别率将大大降低,且其对语音信号的长度有较高的要求,故在实际应用中,该方法将无法提供较好的说话人识别效果。由于深度学习具有强大的从浅层特征学习高层特征的能力,因此专家学者提出将深度学习方法引入到说话人识别系统。深度学习能够通过学习一种深层非线性网络结构来实现对于复杂函数的逼近来表征输入数据的分布式表示。相比较于传统的浅层模型,对于相同数量的训练集,深度学习能够学习到更多的特征并实现更好的表征能力。
在深度学习中,CNN的应用除了为机器人和自动驾驶汽车提供视觉动力外,它还成功识别了面部,物体和交通标志。卷积神经网络是指那些至少在网络的一层中使用卷积运算来代替一般的矩阵乘法运算的神经网络,其通过稀疏连接,参数共享和平移不变使得在训练过程中极大地减少了需要训练的参数。CNN因为神经元之间的连接模型类似于动物视觉皮层的组织,个体的皮质神经元只对被称为感受野的有限视野区域内的刺激作出反应,不同神经元的接受区部分重叠,覆盖整个视野,这就类似CNN中的卷积层所起到的功能。CNN最关键的两层是卷积层和池化层,其中卷积层用于初步提取输入的特征,池化层用于进一步提取卷积层得到的特征,从而得到更加高层次的特征,此外池化层还能够减少特征维度,防止模型过拟合。
CNN深度神经网络最常用于分析视觉图像,已被证明在图像识别和分类领域非常有效。
发明内容
为了克服现有技术的不足,本发明首先提供一种高识别率的基于彩色图像RGB映射特征的CNN声纹识别方法。将语音数据组织成适合CNN处理的特征映射,将语音的静态、一阶差分,二阶差分特征,充当图片中红色、绿色和蓝色的角色,从而达到较高识别性能。
本发明还提供一种基于彩色图像RGB映射特征的CNN声纹识别系统。
为了实现上述目的,本发明的技术方案为:
一种基于彩色图像RGB映射特征的CNN声纹识别方法,具体为:
S1:输入语音数据;
S2:提取特征,从语音数据中提取特征,所提取特征包括:静态、一阶差分,二阶差分特征,用以充当图像RGB中红色、绿色和蓝色的角色;
S3:将提出的特征输入到构建的CNN模型,得出识别结果。
优选的,所述提取特征的具体方式为:将9-15帧语音的三种特征参数结合在一起形成一张图片,从MEL频谱系数计算的对数能量,将其表示为MFSC特征参数;
由于MFSC特征参数只包含了语音的静态特征,为了让特征参数包含更多的动态特征,还将提取语音的一阶差分MFSC特征参数和二阶差分MFSC特征参数;其中一阶差分MFSC特征参数提取公式如公式(1)所示,二阶MFSC特征参数如公式(2)所示;
y(k)=x(k+1)-x(k) (1)
z(k)=y(k+1)-y(k) (2)
在公式(1)中x(k)表示第k帧的MFSC特征参数,y(k)表示第k帧的一阶差分MFSC特征参数;在公式(2)中,y(k)表示第k帧的一阶差分MFSC特征参数,z(k)表示第k帧的二阶差分MFSC特征参数。
优选的,所述构建的CNN模型具体是:CNN模型构建,由两个卷积层,两个池化层和3个全连接层;具体是整个模型从上到下一共七层,每一层的输入是上一层的输出;
第一层是卷积层,第二层是池化层,第三层是卷积层,第四层是池化层,模型的后面三层都是全连接层。
优选的,使用36维的MFSC特征参数x(k),对其做一阶差分和二阶差分扩展得到y(k)和z(k),并展开前后一起共12帧的语音特征参数,从而得到由12帧语音组成的特征参数,即CNN模型的输入大小为:36*36;
CNN模型的第一层是卷积层,其中卷积核大小为5*5,步长为1,特征映射数为4,得到的输出大小为32*32;
第二层是池化层,池化核大小为2*2,步长为1,分别对上一层的4个特征图谱进行最大池化,输出大小为16*16;
第三层是卷积层,核大小和步长与第一层相同,特征映射为16,最后每一个特征图谱的输出大小为12*12;
第四层是池化层,核大小和步长与第二层相同,分别对上一层的16个特征图谱进行最大池化,输出大小为6*6;
第五,六,七层为全连接层。
优选的,在第五层中,采用了全局均值池化的方法,即将上一层传来几张图片转换成一个向量,第四层的输出是16张6*6的图片,对其做全局均值化就是求6*6=36个值的平均值,然后16张图片就转换为一个大小为1*16的向量;在第五层中设置了120个节点,且每个节点都与上一层的16张图相连;
第六层图中的节点数为1024,采用前馈神经网络的训练方式来与第五层相连;
在第七层中,节点数与说话人人数相等,在第七层的输出值中,哪个节点的输出值为0,则对应节点所代表的说话人就是最终结果。
一种基于彩色图像RGB映射特征的CNN声纹识别系统,具体为:
输入模块:输入语音数据;
提取特征模块:从语音数据中提取特征,所提取特征包括:静态、一阶差分,二阶差分特征,用以充当图像RGB中红色、绿色和蓝色的角色;
识别模块:将提出的特征输入到构建的CNN模型,得出识别结果。
优选的,所述构建的CNN模型具体是:CNN模型构建,由两个卷积层,两个池化层和3个全连接层;具体是整个模型从上到下一共七层,每一层的输入是上一层的输出;
第一层是卷积层,第二层是池化层,第三层是卷积层,第四层是池化层,模型的后面三层都是全连接层。
与现有技术相比,本发明的有益效果是:(1)CNN相比较于传统GMM模型识别率具有显著的提高;(2)语音时长对于CNN识别率的影响很小,可以忽略不计;(3)在噪声环境下,CNN识别率依然维持在很高的水平,说明CNN对于噪声具有很好的鲁棒性。
附图说明
图1为CNN的输入示意图。
图2为CNN输入数据示意图。
图3为CNN框架示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步描述。
1、声纹识别的输入数据
在使用CNN进行声纹识别时,输入数据需要被组织为多个特征图,将其输入CNN中。这是从图像处理应用程序中借用的术语,将输入数据组织为二维是很直观的,即像素在水平和垂直方向的坐标指数。对于彩色图像,RGB(红色,绿色和蓝色)的值可以被视为三个不同的二维特征图。
如何将语音数据组织成适合CNN处理的特征映射。将语音的静态、一阶差分,二阶差分特征(即,第一和第二时间导数),充当图片中红色、绿色和蓝色的角色,CNN的一个输入窗口将包含大量上下文(9-15帧),即将9-15帧语音的三种特征参数结合在一起形成一张图片来作为CNN的输入。通常使用的MFCC特征参数存在一个主要问题:DCT(离散余弦变换)将谱能量投射到一个可能无法保持局部性的新特征上。因此,将使用直接从MEL频谱系数(即不经过DCT这一步骤)计算的对数能量,将其表示为MFSC特征。由于MFSC特征参数只包含了语音的静态特征,为了让特征参数包含更多的动态特征,还将提取语音的一阶差分MFSC特征参数和二阶差分MFSC特征参数。其中一阶差分MFSC特征参数提取公式如公式(1)所示,二阶MFSC特征参数如公式(2)所示。
y(k)=x(k+1)-x(k) (1)
z(k)=y(k+1)-y(k) (2)
在公式(1)中x(k)表示第k帧的MFSC语音特征参数,y(k)表示第k帧的一阶差分MFSC特征参数;在公式(2)中,y(k)表示第k帧的一阶差分MFSC特征参数,z(k)表示第k帧的二阶差分MFSC特征参数。
一阶差分MFSC特征参数体现了相邻两帧MFSC特征参数直接的联系,而二阶差分MFSC特征参数是在一阶差分MFSC特征参数的基础上提取出来的,体现了相邻两帧的一阶差分MFSC特征参数直接的联系即相邻三帧MFSC特征参数之间的联系。这样通过提取一阶差分MFSC特征参数和二阶MFSC特征参数,就能够提取语音的动态特征。
通过使用MFSC特征参数、一阶差分MFSC特征参数和二阶差分MFSC特征参数来表示每个语音帧,以便描述在几个不同频段中每个频段的声能分布。最终CNN的输入如图1所示。
图1中Fi表示第i帧语音信号的MFSC特征参数以及它们的一阶差分和二阶差分组成的向量,n取值范围为9至15。
由于CNN的卷积在时间和空间上具有平移不变性,则可以利用这个特性来克服语音信号本身的多样性。将这个思想应用到声纹识别的声学建模中。简单来说就是将图1中的CNN输入数据当做一张图像来处理。
2、CNN框架搭建
使用36维的MFSC特征参数并对其做一阶差分和二阶差分扩展,并展开前后一起共12帧的语音特征参数,从而得到由12帧语音组成的特征参数,即CNN的输入大小为:36*36。CNN输入数据如图2所示。
所构建的CNN模型框架是由两个卷积层,两个池化层和3个全连接层组成。模型框架图如图3所示。
如图3所示,整个模型从上到下一共七层,每一层的输入是上一层的输出。其中输入是上文所说的大小为36*36的语音特征参数。
第一层是卷积层,其中卷积核大小为5*5,步长为1,特征映射数为4,这样得到的输出大小为32*32(36-5+1=32)。
第二层是池化层,池化核大小为2*2,步长为1,分别对上一层的4个特征图谱进行最大池化,输出大小为16*16(32/2=16)。
第三层是卷积层,核大小和步长与第一层相同,特征映射为16,最后每一个特征图谱的输出大小为12*12(16-5+1=12)。
第四层是池化层,核大小和步长与第二层相同,分别对上一层的16个特征图谱进行最大池化,输出大小为6*6(12/2=6)。另外池化在处理输入数据大小不统一时起着重要作用,例如在对不同时长语音进行声纹识别时,可以通过调整池化区域的偏置大小来实现固定分类层的输入大小。这样分类层就总是能得到与最初输入大小无关的相同数量的统计特征。例如,最终合池化可以输出2组综合统计特征,每组分别对应语音的前半段特征和语音的后半段特征,而不用管最初的语音时长。
所用模型的后面三层都是全连接层,这几层与传统的前馈神经网络相类似,事实上所用模型的前四层可以看作是对语音数据的特征提取,然后将这些特征输入到后面的前馈神经网络中来做识别。
如图3所示,第五,六,七层为全连接层,CNN中的全连接层与传统神经网络中的隐含层相类似,且在CNN中,全连接层一般被置在最后一部分即输出之前。
在第五层中,采用了全局均值池化的方法,即将上一层传来几张图片转换成一个向量,第四层的输出是16张6*6的图片,对其做全局均值化就是求6*6=36个值的平均值,然后16张图片就转换为一个大小为1*16的向量。在第五层中设置了120个节点,且每个节点都与上一层的16张图相连。
第六层图中的节点数为1024,采用前馈神经网络的训练方式来与第五层相连。在第七层中,节点数与说话人人数相关,即假设训练语音中说话人人数为10,则第七层节点数为10。第七层的输出值中,哪个节点的输出值为0则对应节点所代表的说话人就是最终结果。
3、代码实现
(1)卷积层和池化层的初始化
初始化卷积层和池化层的代码如表1所示。其中conv2d这个函数是用于构建卷积层,其输入参数包含“x”和“W”两个参数,x表示输入数据,W表示卷积核,在“tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')”这一句中,strides=[1,1,1,1]是设置卷积在x和y方向的步长,strides[0]和strides[3]一般设置为1,strides[1]表示x方向的步长,strides[2]表示y方向的步长。
Max_pool_2x2这个函数是用于构建卷积层,其输入参数包含“x”一个参数,x表示输入数据,strides=[1,2,2,1]是设置卷积在x和y方向的步长,strides[0]和strides[3]一般设置为1,strides[1]表示x方向的步长,strides[2]表示y方向的步长。Ksize=[1,2,2,1]表示核的大小,ksize[0]和ksize[3]一般设置为1,ksize[1]表示池化核的宽度,ksize[2]表示池化核的高度。
表1
(2)整个模型的构建,模型构建的代码和注释如表2所示。
表2
如表2所示,先用weight_variable函数来初始化卷积核,再用bias_variable函数来初始化卷积核的偏置值;然后用conv2d函数来构建一层卷积层。这样一层卷积层的构建就成功了。
卷积核的输出经过一个Relu激活层,这一层是直接通过使用TensorFlow中的Relu函数来实现的。最后再max_pool_2x2函数来构建一层池化层。
通过重复2次上述步骤,就构建好了所用模型中的两层卷积层和两层池化层。模型后面的三层都是通过调用TensorFlow中的函数所实现,只需要改变一些参数即可,因此在这里便不再赘述。
4、实施例
利用Python语言并基于TensorFlow开源库实现了模型,实验器材以及所用开源库版本清单如表3所示。
表3实验器材以及所用开源库版本清单
Pycharm版本 | COMMUNITY 2019.1 |
Python版本 | 3.8.1 |
Matplotlib | 3.0.3 |
Numpy | 1.16.2 |
Pandas | 0.24.2 |
Wheel | 0.33.1 |
显卡 | GTX1060 Ti |
内存 | 16GB |
CPU | I7-8700 |
硬盘 | 256GBSSD+2TB机械硬盘 |
4.1实验数据
使用的数据是TIMIT语料库以及自录语料,其中TIMIT包括了630个人每个人说十句的句子,自录语料库包括了男女各15人,每人各40个句子。其中20句为5-10s的长句,另外20句为1-5s的短句。由于TIMIT库中的数据音质比较好,比较符合实验的理想条件,所以使用TIMIT中的语料来作为测试CNN准确度的语料。实验室自录语料则用于测试语料时长对于识别率的影响。
4.2 CNN声纹识别准确率实验
使用了上文所说的TIMIT语料库,其中选取了库中200个人的语料。选取每个人的8句话作为训练数据,剩下的2句话用作测试数据。选用GMM模型作为基准模型,用来评判CNN模型识别率提高了多少。实验结果如表4所示。
表4声纹识别准确率测试结果
从表4中可以看到,随着GMM维度的增加,其识别率也随着增加,但是还是低于CNN的识别率,CNN相比较于16维GMM、32维GMM、64维GMM,识别率分别提高了8.7%,7.8%,5.7%。因此可以得出结论,CNN相对于传统的GMM模型,声纹识别准确率有了较大的提高。
3.语音长度对于CNN声纹识别准确率影响的实验
为了测试语音长度对于CNN声纹识别准确率的影响,构建了一个语料库,其中包括了男女各15人,每个人各40个句子。其中20句为5-10s的长句,另外20句为1-5s的短句。其中训练了三个模型,模型A是长句模型,其中使用了每个人15句5-10s的长句来作为训练数据;模型B是短句模型,其中使用了每个人15句1-5s的短句来作为训练数据;模型C是混合模型,其中使用了每个人长短句各10句来作为训练数据。
测试时分为2组,其中第1组包括了每个人剩下的5句短句,分别用模型A,B,C来测试;第2组包括了每个人剩下的5句长句,也分别用模型A,B,C来测试,实验结果如表5所示。
表5语音长度对于CNN声纹识别准确率影响实验结果
模型A | 模型B | 模型C | |
测试组1 | 85.6 | 86.5 | 87.1 |
测试组2 | 86.2 | 85.6 | 85.4 |
由表5可以看出,对于不同时长的数据测试不同的模型,总体波动范围不超过1%,因此可以得出结论,CNN在声纹识别中,语音的时长对于其识别率的影响可以忽略不计。
4.4噪声对于CNN声纹识别识别率的影响
上述两个实验所用的测试语料都是在理想环境下录制的,其语音中的背景噪声可以忽略不计。然而在实际使用情况中,录音时所处的环境难免会导致录入的语音带有或多或少的噪声。因此为了测试CNN模型对噪声的鲁棒性,设计了以下实验。
首先需要先定义一下信噪比,信噪比的计算方法如公式(3)所示
上式中SNR代表信噪比,单位为db,ps为信号的功率,pn为噪声的功率。
本次实验的噪声数据来源于NOISEX-92数据库,它包含了15种噪声,选取了生活中常见的几种噪声,分别为白噪声,汽车噪声,高频噪声和工厂噪声来作为加在测试语音上的噪声。
实验所用数据是TIMIT库中200人的语音数据,其中在每个人的10句话中抽选8句作为训练数据,2句作为测试数据。测试数据中有一句不加任何噪声,对于剩下的两百句语音,将其等分为4份,分别添加白噪声,汽车噪声,高频噪声和工厂噪声。实验结果如表6所示。
表6噪声对于CNN声纹识别识别率的影响实验结果
噪声源 | 识别率(%) |
不加噪声 | 86.8 |
白噪声 | 84.3 |
汽车噪声 | 85.9 |
高频噪声 | 82.6 |
工厂噪声 | 86 |
由表6可知,对于分别加了四种噪声的数据,其最终识别率下降的不是很明显,因此,可以得出以下结论,CNN对于噪声具有良好的鲁棒性。
从实验结果中总结出以下几点:
(1)CNN相比较于传统GMM模型识别率具有显著的提高;(2)语音时长对于CNN识别率的影响很小,可以忽略不计;(3)在噪声环境下,CNN识别率依然维持在很高的水平,说明CNN对于噪声具有很好的鲁棒性。
以上所述的本发明的实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。
Claims (6)
1.一种基于彩色图像RGB映射特征的CNN声纹识别方法,其特征在于,具体为:
S1:输入语音数据;
S2:提取特征,从语音数据中提取特征,所提取特征包括:静态、一阶差分,二阶差分特征,用以充当图像RGB中红色、绿色和蓝色的角色;
S3:将提出的特征输入到构建的CNN模型,得出识别结果;
所述提取特征的具体方式为:将9-15帧语音的三种特征参数结合在一起形成一张图片,从MEL频谱系数计算的对数能量,将其表示为MFSC特征参数;
由于MFSC特征参数只包含了语音的静态特征,为了让特征参数包含更多的动态特征,还将提取语音的一阶差分MFSC特征参数和二阶差分MFSC特征参数;其中一阶差分MFSC特征参数提取公式如公式(1)所示,二阶MFSC特征参数如公式(2)所示;
y(k)=x(k+1)-x(k) (1)
z(k)=y(k+1)-y(k) (2)
在公式(1)中x(k)表示第k帧的MFSC特征参数,y(k)表示第k帧的一阶差分MFSC特征参数;在公式(2)中,y(k)表示第k帧的一阶差分MFSC特征参数,z(k)表示第k帧的二阶差分MFSC特征参数。
2.根据权利要求1所述的方法,其特征在于,所述构建的CNN模型具体是:CNN模型构建,由两个卷积层,两个池化层和3个全连接层;具体是整个模型从上到下一共七层,每一层的输入是上一层的输出;
第一层是卷积层,第二层是池化层,第三层是卷积层,第四层是池化层,模型的后面三层都是全连接层。
3.根据权利要求2所述的方法,其特征在于,使用36维的MFSC特征参数x(k),对其做一阶差分和二阶差分扩展得到y(k)和z(k),并展开前后一起共12帧的语音特征参数,从而得到由12帧语音组成的特征参数,即CNN模型的输入大小为:36*36;
CNN模型的第一层是卷积层,其中卷积核大小为5*5,步长为1,特征映射数为4,得到的输出大小为32*32;
第二层是池化层,池化核大小为2*2,步长为1,分别对上一层的4个特征图谱进行最大池化,输出大小为16*16;
第三层是卷积层,核大小和步长与第一层相同,特征映射为16,最后每一个特征图谱的输出大小为12*12;
第四层是池化层,核大小和步长与第二层相同,分别对上一层的16个特征图谱进行最大池化,输出大小为6*6;
第五,六,七层为全连接层。
4.根据权利要求3所述的方法,其特征在于,在第五层中,采用了全局均值池化的方法,即将上一层传来几张图片转换成一个向量,第四层的输出是16张6*6的图片,对其做全局均值化就是求6*6=36个值的平均值,然后16张图片就转换为一个大小为1*16的向量;在第五层中设置了120个节点,且每个节点都与上一层的16张图相连;
第六层图中的节点数为1024,采用前馈神经网络的训练方式来与第五层相连;
在第七层中,节点数与说话人人数相等,在第七层的输出值中,哪个节点的输出值为0,则对应节点所代表的说话人就是最终结果。
5.一种基于彩色图像RGB映射特征的CNN声纹识别系统,其特征在于,具体为:
输入模块:输入语音数据;
提取特征模块:从语音数据中提取特征,所提取特征包括:静态、一阶差分,二阶差分特征,用以充当图像RGB中红色、绿色和蓝色的角色;
所述提取特征模块为:将9-15帧语音的三种特征参数结合在一起形成一张图片,从MEL频谱系数计算的对数能量,将其表示为MFSC特征参数;
由于MFSC特征参数只包含了语音的静态特征,为了让特征参数包含更多的动态特征,还将提取语音的一阶差分MFSC特征参数和二阶差分MFSC特征参数;其中一阶差分MFSC特征参数提取公式如公式(1)所示,二阶MFSC特征参数如公式(2)所示;
y(k)=x(k+1)-x(k) (1)
z(k)=y(k+1)-y(k) (2)
在公式(1)中x(k)表示第k帧的MFSC特征参数,y(k)表示第k帧的一阶差分MFSC特征参数;在公式(2)中,y(k)表示第k帧的一阶差分MFSC特征参数,z(k)表示第k帧的二阶差分MFSC特征参数。
识别模块:将提出的特征输入到构建的CNN模型,得出识别结果。
6.根据权利要求5所述的系统,其特征在于,所述构建的CNN模型具体是:CNN模型构建,由两个卷积层,两个池化层和3个全连接层;具体是整个模型从上到下一共七层,每一层的输入是上一层的输出;
第一层是卷积层,第二层是池化层,第三层是卷积层,第四层是池化层,模型的后面三层都是全连接层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226730.9A CN111402901B (zh) | 2020-03-27 | 2020-03-27 | 一种基于彩色图像rgb映射特征的cnn声纹识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226730.9A CN111402901B (zh) | 2020-03-27 | 2020-03-27 | 一种基于彩色图像rgb映射特征的cnn声纹识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111402901A CN111402901A (zh) | 2020-07-10 |
CN111402901B true CN111402901B (zh) | 2023-04-18 |
Family
ID=71431370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010226730.9A Active CN111402901B (zh) | 2020-03-27 | 2020-03-27 | 一种基于彩色图像rgb映射特征的cnn声纹识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402901B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035700B (zh) * | 2020-08-31 | 2022-09-13 | 兰州理工大学 | 一种基于cnn的语音深度哈希学习方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2222816A1 (zh) * | 1973-03-23 | 1974-10-18 | Ampex | |
TWI242170B (en) * | 2004-04-30 | 2005-10-21 | Service & Quality Technology C | Color-processing algorithm for a color-image capturing device |
CN103116746A (zh) * | 2013-03-08 | 2013-05-22 | 中国科学技术大学 | 一种基于多特征融合技术的视频火焰探测方法 |
CN104063871A (zh) * | 2014-07-04 | 2014-09-24 | 西安电子科技大学 | 可穿戴设备的图像序列场景分割方法 |
CN109886227A (zh) * | 2019-02-27 | 2019-06-14 | 哈尔滨工业大学 | 基于多通道卷积神经网络的室内火灾视频识别方法 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110148408A (zh) * | 2019-05-29 | 2019-08-20 | 上海电力学院 | 一种基于深度残差的中文语音识别方法 |
CN110246504A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 鸟类声音识别方法、装置、计算机设备和存储介质 |
CN110459225A (zh) * | 2019-08-14 | 2019-11-15 | 南京邮电大学 | 一种基于cnn融合特征的说话人辨认系统 |
-
2020
- 2020-03-27 CN CN202010226730.9A patent/CN111402901B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2222816A1 (zh) * | 1973-03-23 | 1974-10-18 | Ampex | |
TWI242170B (en) * | 2004-04-30 | 2005-10-21 | Service & Quality Technology C | Color-processing algorithm for a color-image capturing device |
CN103116746A (zh) * | 2013-03-08 | 2013-05-22 | 中国科学技术大学 | 一种基于多特征融合技术的视频火焰探测方法 |
CN104063871A (zh) * | 2014-07-04 | 2014-09-24 | 西安电子科技大学 | 可穿戴设备的图像序列场景分割方法 |
CN109886227A (zh) * | 2019-02-27 | 2019-06-14 | 哈尔滨工业大学 | 基于多通道卷积神经网络的室内火灾视频识别方法 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110246504A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 鸟类声音识别方法、装置、计算机设备和存储介质 |
CN110148408A (zh) * | 2019-05-29 | 2019-08-20 | 上海电力学院 | 一种基于深度残差的中文语音识别方法 |
CN110459225A (zh) * | 2019-08-14 | 2019-11-15 | 南京邮电大学 | 一种基于cnn融合特征的说话人辨认系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111402901A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113537138B (zh) | 一种基于轻量化神经网络的交通标志识别方法 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
CN111160189A (zh) | 一种基于动态目标训练的深度神经网络人脸表情识别方法 | |
CN112487949B (zh) | 一种基于多模态数据融合的学习者行为识别方法 | |
WO2021203880A1 (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
CN108304823A (zh) | 一种基于双卷积cnn和长短时记忆网络的表情识别方法 | |
CN111222457B (zh) | 一种基于深度可分离卷积的鉴别视频真伪性的检测方法 | |
CN112233698A (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN112331232B (zh) | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 | |
CN112380374B (zh) | 一种基于语义扩充的零样本图像分类方法 | |
CN107293290A (zh) | 建立语音声学模型的方法和装置 | |
CN111402901B (zh) | 一种基于彩色图像rgb映射特征的cnn声纹识别方法及系统 | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN114863938A (zh) | 一种基于注意力残差和特征融合的鸟语识别方法和系统 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Wang et al. | Robust speaker identification of iot based on stacked sparse denoising auto-encoders | |
CN116503895A (zh) | 一种基于视觉Transformer的多细粒度遮挡行人重识别方法 | |
CN112259086A (zh) | 一种基于语谱图合成的语音转换方法 | |
CN114400006B (zh) | 语音识别方法和装置 | |
CN114330535B (zh) | 一种基于支持向量正则化字典对学习的模式分类方法 | |
CN115083433A (zh) | 一种基于dnn的文本无关表征音色聚类方法 | |
CN114841287A (zh) | 分类模型的训练方法、图像分类方法及装置 | |
CN113887339A (zh) | 融合表面肌电信号与唇部图像的无声语音识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |