CN108831485A

CN108831485A - 基于语谱图统计特征的说话人识别方法

Info

Publication number: CN108831485A
Application number: CN201810594436.6A
Authority: CN
Inventors: 王连明; 白璐; 陈曦
Original assignee: Northeast Normal University
Current assignee: Northeast Normal University
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2018-11-16
Anticipated expiration: 2038-06-11
Also published as: CN108831485B

Abstract

本发明公开了一种基于语谱图统计特征的说话人识别方法，首先将在实验室录制好的语音信号经过语音与处理之后，分别转换成傅里叶语谱图，再根据语音信号在语谱图中显示的特点，利用图像处理技术和统计理论对语谱图中表达说话人身份信息的特征进行统计并叠加，叠加后的语谱图显示出不同说话人的语音信号的频率比重分布，能够作为声纹反映说话人的身份特征，同时对语谱图中显示的亮纹(共振峰)统计其个数并分析，也将其作为说话人的特征参数。然后将统计到的特征参数利用卷积神经网络算法进行训练和分类，从而实现对说话人的的识别。本发明能够凸显语音信号的整体时频特性，将图像处理技术应用到语音识别领域。

Description

基于语谱图统计特征的说话人识别方法

技术领域

本发明涉及说话人识别算法领域，具体地说是涉及一种基于语谱图统计特征的说话人识别方法。

背景技术

说话人识别是一种易于令人接受的生物认证识别技术，属于语音识别的一种，也叫作声纹识别，旨在通过对说话人语音信号的识别分辨出说话人的身份，近年来发展迅速，大多应用于安保，声纹指令，语音锁，司法鉴定，身份认证等方面。

一般来说，说话人识别的方法有3种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。而模式匹配法是语音识别的主要方法。说话人识别本质上是模式识别的过程，由训练和识别两个过程所组成。训练是指用一定数量的样本(训练集或学习集)进行分类器的设计。识别是指用所设计的分类器对待识别的样本进行分类决策。说话人识别系统本质上是一种模式识别系统。

关于说话人识别的技术的现状主要可以从以下两部分进行讨论:特征提取和说话人建模。

目前实现方法可分为3类：

1.模版匹配法：

训练过程中从每个说话人的训练语句中提取出特征矢量，形成特征矢量序列，选择方法优化，求取一个特征矢量集合表征特征矢量序列，将此集合作为参考模板。识别时，同样的方法提取特征矢量序列，按匹配规则跟所有参考模板比较。匹配往往通过特征矢量之间的距离测度来实现，累计距离为匹配结果。说话人识别中最常用的模版匹配方法有动态时间归正DTW和矢量量化VQ方法。

2.概率模型法

从某人的一次或多次发音中提出有效特征矢量，根据统计特性为其建立相应的数学模型，使其能够有效的刻画出此说话人特征矢量在特征空间的分布规律。数学模型一般通过少量的模型参数来表示和存储。识别时，将测试语音的特征矢量与表征说话人的数学模型进行匹配，从概率统计角度，计算得到测试语音与模型间的相似度，并以此作为识别判决的依据。最常用的模型时HMM，很好描述平稳性和可变性，准确描述人的声道变化特性。

3.人工神经网络方法

类比于生物神经系统处理信息的方式，用大量的简单处理单元并行连接而构成一种独具特点的＝复杂的信息处理网络。系统具有自组织、自学习的能力，可以随着经验的累积而改善自身的性能。人工神经网络这些特性对说话人识别系统的实现有很大的帮助，可以用于更好的提取语音样本中所包含的说话人的个性特征。

目前，语谱图的主要研究方法包括：(1)隐马尔可夫模型法；(2)人工神经网络方法；

(3)概率统计方法；(4)矢量量化方法；(5)动态时间规整方法；可提取的识别参数有：基频、短时频谱或BPFG特征、语音帧能量、共振峰、LPC、相对发音速率特征、谱相关特征、音调轮廓特征、倒谱系数特征、鼻音联合特征、KL特征、过渡倒谱特征。

语谱图是一种“可视”的语言，它被广泛应用于人类的语音识别中。语谱图的“声纹特征”可用来进行说话人识别，说话人识别技术已应用到安全、司法等场合，如：个性化应用、刑侦破案、公安取证、国防监听、证劵交易、身份证、信用卡识别、银行交易、汽车声控锁等。语谱图中承载了很多语义信息，也常被用来进行语义识别。目前已有大量的对中外文语言音节的研究结果，对语义识别的发展和人-机对话的实现奠定了基础。

在动物声学研究中，语谱图作为直观的语音特征而被广泛应用。动物学家们利用语谱图来分析动物叫声的声学特征、发声系统的生理特征、动物的行为、心理和健康状况等。数学不仅推动了图像处理技术的发展，也对一些涉及到图像处理技术的领域产生了积极的影响。最近几年有语音识别领域研究者尝试利用图像处理技术对语谱图进行分析，1993年，G.Evangelistali利用数学方法对语谱图进行了音节分析；2006年，Y.Ariki,S.Kato与T.Takiguchi利用数学方法提高了纯净语音单词的识别率；2008年，RaphaelSteinberg 和Douglas O'Shaughnessy提出了应用数学方法实现语谱图的分割等。

卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。它包括卷积层 (convolutional layer)和池化层(pooling layer)。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

发明内容

针对上述技术问题，本发明提出一种基于语谱图统计特征的说话人识别的方法。

本发明所采用的技术解决方案是：

一种基于语谱图统计特征的说话人识别方法，包括以下步骤：

(1)将语音信号转换成语谱图，应用形态学图像处理技术对语谱图进行分析，包括平滑、归一化、灰度化预处理；

(2)通过图像处理技术对每个人全部发音所得的语谱图进行线性叠加，以获得该说话人发音特点的统计特征。

(3)最后用叠加的语谱图对卷积神经网络进行训练和分类，从而判断是哪位说话者在说话。

优选的，该方法利用每个人多张发音语谱图的统计特性进行说话人识别。

优选的，该方法包括语音样本集建立步骤，具体包括以下内容：

语音信号的采集和提取：实际工作中，用电脑上自带的录音机软件来进行录音，并以wav 文件形式存储起来，采样频率为16KHz。

选取了30位年龄在22岁到26岁的青年进行语音信号的采集，其中男性15位，女性15 位，采集语音时身体健康状况均良好，且采集语音环境相同，均在无噪声的密闭房间。所有话者不提供固定文本内容，而是让大家自愿选择自己要采集语音的内容，每个人在日常交谈的自然语速中进行录音5分钟。

优选的，该方法包括对语谱图统计特征参数提取的步骤，具体包括以下内容：

首先将每张语谱图图片的像素值除以叠加张数，目的是防止溢出，再将图片的像素值相加。由于语谱图中，深浅不一的像素部分代表了频率在这一时间段上的分布，线性叠加后颜色深的部分是所占频率比重大的部分，浅颜色的部分就是所占频率比重小，叠加图片的顺序是按发音时间顺序从语音初始到结束依次叠加，每次叠加张数通过实验来确定，那么叠加后获得的图片就是某一段时间的语音样本的统计结合，通过多张图片叠加使一张语谱图中的内容更为充实，因此，这种表达方式虽然简单，但是非常合理。图片叠加的公式如下，C为叠加后图片的像素值，C1、C2、......C40分别为叠加前40张语谱图的像素值。

C＝(255-C1)/40+(255-C2)/40+......(255-C40)/40

因为灰度语谱图的像素值范围在0～255之间，为了防止溢出，先用255减去每张图片的像素值，再将每张图片的像素值除以叠加总张数40，最后把所有图片的像素值对应相加，得到一张叠加后的语谱图。

本发明的有益技术效果是：

本发明未采用以往说话人识别算法对语音信号的逐帧识别，而是利用语谱图的整体特性对不同说话人的语音信号加以统计进行说话人识别，能够凸显语音信号的整体时频特性，将图像处理技术应用到语音识别领域。本发明主要对实验室采集的自建语音库中的语音进行文本无关的说话人识别，效果较好，应用前景广阔。

附图说明

图1为说话人识别系统的基本框图；

图2为语音信号产生过程；

图3为PC机的语音信号录制过程；

图4为语音信号采集过程。

具体实施方式

本发明在简单介绍了常用的说话人识别算法的基础上，提出了一种基于语谱图统计特征和卷积神经网络的与文本无关的说话人识别方法，该方法未采用以往说话人识别算法对语音信号的逐帧识别，而是利用语谱图的整体特性对不同说话人的语音信号加以统计进行说话人识别，能够凸显语音信号的整体时频特性，将图像处理技术应用到语音识别领域。

本发明研究的方法主要是在MATLAB7.1上软件编程和仿真完成的。首先将在实验室录制好的语音信号经过语音与处理之后，分别转换成傅里叶语谱图，再根据语音信号在语谱图中显示的特点，利用图像处理技术和统计理论对语谱图中表达说话人身份信息的特征进行统计并叠加，叠加后的语谱图显示出不同说话人的语音信号的频率比重分布，

能够作为声纹反映说话人的身份特征，同时对语谱图中显示的亮纹(共振峰)统计其个数并分析，也将其作为说话人的特征参数。然后将统计到的特征参数利用卷积神经网络算法进行训练和分类，从而得出针对说话人身份识别的识别率。本发明主要对实验室采集的自建语音库中的语音进行文本无关的说话人识别。

本发明采用的统计方法是将灰度语谱图通过线性叠加来进行统计，语音信号的来源是实验室中的自建语音库。人类日常发音频率的变化范围是在100Hz到3000Hz，根据这一特点将我们得到的语谱图的纵坐标的时间标尺设置为100Hz到3000Hz,横坐标为时间，我们以一个音素为时间单位生成语谱图(约50毫秒)，在频率与时间标尺全部相同的情况下，语谱图可以通过进行张与张之间的统计叠加来显示一段语音信号当中所有的频率比重分布情况。

传统的针对一段语音信号的连续语谱图的识别，难以通过图像的方法对语谱图中的频率分布进行统计，而是只能通过数学手段借用形态学图像处理技术来提取图中特征，再借助SVM或者矢量量化来分类。而本发明的统计方法既不破坏语谱图的完整性，还在分类识别之前就已经语谱图中的关键信息进行了统计和强调。叠加后的语谱图与叠加前的单张语谱图相比，在进行大量数据训练分类的情况下，可以大大减少样本量，提升运算速度，还可以减少内存，提升识别效果，在说话人识别基于大样本语音数据的情况下，优势更加明显。

下面对本发明进行更为具体的说明。

1、建立语音样本集

人体的语音是由人体的发音器官在大脑的控制下做生理运动产生的。人体发音器官由三部分组成：肺和气管、喉、声道。肺是语音产生的能源所在。气管连接着肺和喉，是肺与声道的联系通道。喉是由一个软骨和肌肉组成的复杂系统，其中包含着重要的发音器官—声带。声带为产生语音提供主要的激励源。声道是指声门(喉)至嘴唇的所有发音器官，包括咽喉、口腔和鼻腔。

语音是声音的一种，是由人的发声器官发出，具有一定语法和意义的声音。大脑对发音器官发出运动神经指令，控制发音器官各种肌肉运动从而振动空气从而形成。空气由肺进入喉部，经过声带激励，进入声道，最后通过嘴唇辐射形成语音。

语音信号的采集和提取：实际工作中，我们利用windows自带的录音机录制语音文件，声卡可以完成语音波形的A/D转换，获得WAVE文件，为后续的处理储备原材料。调节录音机保存界面的“更改”选项，可以存储各种格式的WAVE文件。

然后利用MATLAB软件对语音文件进行处理。

Matlab命令：wavrecord:wavrecord利用Windows音频输入设备记录声音,其调用形式为:wavrecord(n,fs,ch)。利用Windows音频输入设备记录n个音频采样,频率为fs Hz,通道数为ch。采样值返回到一个大小为n*ch的矩阵中。缺省时,fs＝11025,ch＝1。waveplay: waveplay利用Windows音频输出设备播放声音,其调用形为:waveplay(y,fs)。以采样频率fs向Windows音频设备发送向量信号。标准的音频采样率有:8000、11025、22050和44100Hz。wavread:wavread用于读取Microsoft的扩展名为“.wav”的声音文件。其调用形式为:y ＝wavread(file)。其作用是从字符串file所指的文件路径读取wave文件,将读取的采样数据送到y中。Y的取值范围:[-1,1]。sound:音频信号是以向量的形式表示声音采样的。sound 函数用于将向量转换为声音,其调用形式为:sound(y,fs),作用是向扬声器送出向量y中的音频信号(采样频率为fs)。

语音信号的频域分析就是分析语音信号的频域持征。从广义上讲，语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等，而常用的频域分析方法有带通滤波器组法、傅里叶变换法、线件预测法等几种。本发明介绍的是语音信号的傅里叶分析法。因为语音波是一个非平稳过程，因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号，而应该用短时傅里叶变换对语音信号的频谱进行分析，相应的频谱称为“短时谱””FFT即为快速傅氏变换，是离散傅氏变换的快速算法，它是根据离散傅氏变换的奇、偶、虚、实等特性，对离散傅立叶变换的算法进行改进获得的。

在MATLAB的信号处理工具箱中函数FFT和IFFT用于快速傅立叶变换和逆变换。函数FFT用于序列快速傅立叶变换，其调用格式为y＝fft(x)，其中，x是序列，y是序列的FFT，x可以为一向量或矩阵，若x为一向量，y是x的FFT且和x相同长度；若x为一矩阵，则y是对矩阵的每一列向量进行FFT。如果x长度是2的幂次方，函数FFT执行高速基－ 2FFT算法，否则FFT执行一种混合基的离散傅立叶变换算法，计算速度较慢。函数FFT的另一种调用格式为y＝fft(x,N)，式中，x，y意义同前，N为正整数。函数执行N点的FFT，若x为向量且长度小于N，则函数将x补零至长度N；若向量x的长度大于N，则函数截短x使之长度为N；若x为矩阵，按相同方法对x进行处理。

2、语谱图的分析与显示

2.1灰度语谱图的显示与分析

以说话人的语音音素为单位得到的包含语音音色与音质信息的语谱图可以是彩色的，也可以是灰度语谱图，为了方便以后的训练及处理，本发明统一采用灰度语谱图进行说话人识别的研究。

图像的灰度化处理的基本原理：

将彩色图像转化成为灰度图像的过程成为图像的灰度化处理。彩色图像中的每个像素的颜色有R、G、B三个分量决定，而每个分量有255中值可取，这样一个像素点可以有1600多万(255*255*255)的颜色的变化范围。而灰度图像是R、G、B三个分量相同的一种特殊的彩色图像，其一个像素点的变化范围为255种，所以在数字图像处理种一般先将各种格式的图像转变成灰度图像以使后续的图像的计算量变得少一些。灰度图像的描述与彩色图像一样仍然反映了整幅图像的整体和局部的色度和亮度等级的分布和特征。图像的灰度化处理可用两种方法来实现。

第一种方法使求出每个像素点的R、G、B三个分量的平均值，然后将这个平均值赋予给这个像素的三个分量。

第二种方法是根据YUV的颜色空间中，Y的分量的物理意义是点的亮度，由该值反映亮度等级，根据RGB和YUV颜色空间的变化关系可建立亮度Y与R、G、B三个颜色分量的对应：Y＝0.3R+0.59G+0.11B，以这个亮度值表达图像的灰度值。

灰度语谱图是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间。任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示，语谱图中显示了大量的与语音的语句特性有关的信息，它综合了频谱图和时域波形的特点，明显地显示出语音频谱随时间的变化情况，或者说是一种动态的频谱。可以用语谱仪来记录这种谱图。

一幅完整的图像，是由红色、绿色、蓝色三个通道组成的。红色、绿色、蓝色三个通道的缩览图都是以灰度显示的。用不同的灰度色阶来表示“红，绿，蓝”在图像中的比重。通道中的纯白，代表了该色光在此处为最高亮度，亮度级别是255。灰度图像通常是在单个电磁波频谱(如可见光)内测量每个像素的亮度得到的。用于显示的灰度图像通常用每个采样像素8位的非线性尺度来保存，这样可以有256级灰度。这种精度刚刚能够避免可见的条带失真，并且非常易于编程。在计算机领域中，这类图像通常显示为从最暗黑色到最亮的白色的灰度，尽管理论上这个采样可以任何颜色的不同深浅，甚至可以是不同亮度上的不同颜色。灰度图像与黑白图像不同，在计算机图像领域中黑白图像只有黑色与白色两种颜色；灰度图像在黑色与白色之间还有许多级的颜色深度。

灰度语谱图与彩色显示的语谱图相比，能够通过黑白之间深浅渐变的像素值更加精确的反映出各时间点频率分布的动态变化。可以看到明显的一条条横方向的条纹，我们称为“声纹”，条纹的地方实际是颜色深的点聚集的地方，随时间延续，就延长成条纹，也就是表示语音中频率值为该点横坐标值的能量较强，在整个语音中所占比重大，那么相应影响人感知的效果要强烈得多。而一般语音中数据是周期性的，所以，能量强点的频率分布是频率周期的，即存在300Hz强点，则一般在n*300Hz点也会出现强点，所以我们看到的语谱图都是条纹状的。

2.2利用图像处理算法对灰度语谱图进行处理及分析

灰度语谱图中把白色与黑色之间按对数关系分成若干级，称为“灰度等级”。灰度级越多,图像层次越清楚逼真。范围一般从0到255，白色为255，黑色为0，在医学、图像识别领域有很广泛的用途。

彩色图象的灰度其实在转化为黑白图像后的像素值，转化的方法看应用的领域而定，一般按加权的方法转换，R，G，B的比一般为3：6：1。任何颜色都由红、绿、蓝三基色组成，假如原来某点的颜色为RGB(R，G，B)，那么，我们可以通过下面几种方法，将其转换为灰度：

(1)浮点算法：Gray＝R*0.3+G*0.59+B*0.11；

(2)整数方法：Gray＝(R*30+G*59+B*11)/100；

(3)移位方法：Gray＝(R*77+G*151+B*28)>>8；

(4)平均值法：Gray＝(R+G+B)/3；

(5)仅取绿色：Gray＝G；

通过上述任一种方法求得Gray后，将原来的RGB(R,G,B)中的R,G,B统一用Gray替换，形成新的颜色RGB(Gray,Gray,Gray)，用它替换原来的RGB(R,G,B)就是灰度图了。

灰度语谱图中，灰度值的分布代表了语音信号的频率比重分布，正是这些频率在时间点上分布的颜色深浅代表了不同时间点和不同位置上频率成分所占的比重不同，颜色越深的地方，代表语音在对应纵坐标轴上的频率成分在这段语音信号中所占的比重大，反之颜色越浅的地方，代表语音在对应纵坐标轴上的频率成分在这段语音信号中所占的比重小，颜色最深的几个条纹代表了语音信号的共振峰，可以看到他们呈周期性变化，颜色深浅的渐变可以代表语音信号的动态变化信息。

音色音质与语谱图：

泛音的种类和多少决定了音色。一般来说：

(1)泛音越充分的声音越饱满。

(2)低频泛音越充分的声音听起来越“厚实”，越“有力”。

(3)高频泛音越充分的声音穿透力越强，声音听起来越“亮”，越“尖”。

(4)高低频都有并且合理分布的声音，就是比较完美的声音。

声乐理论里，一般把低频泛音叫低位置共鸣，高频泛音叫高位置共鸣。频谱图/声谱图是观察泛音的最好办法。(1)

共振峰决定着元音的音质，而在计算机音乐中，它们是决定音色和音质的重要参数。共振峰的分布位置是建立在声音产生媒介的共鸣物理结构基础上的(ResonantPhysical Structure)。无论是人声还是乐器，它们的声音特性都源自两个因素，一个是发声系统，如人的声带或乐器的振动簧片，另一个是共鸣系统。乐器不同的共鸣系统使其在一定频域中的分音的振幅得以突出，这样，这些区域就产生了这个乐器所特有的共振峰值，这些共振峰值同共鸣体的大小、形状、材料密切相关。由于一件乐器的结构是稳定的，因此在一件乐器发出的所有音调中，不论基频如何，都会表现出相同的共振峰值，只不过其显著性有强有弱罢了。这就可以帮助我们解释为什么在很多的乐器中，同一乐器所发出的不同音调具有相同的音质。拿一把小提琴的琴体为例，根据它的共鸣物理结构，体现了一套特殊的共振峰。既然所有的小提琴内置外形都是一样的，它们就有着相同的共振峰值，人听起来音色也比较一致。人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响，有自身的共振峰区(Formant Regions)。通过利用这些共鸣空间的形状和大小不同的变化(例如改变咽喉、嘴形)，我们就能改变声音的共振峰。我们之所以能够区分不同的人声、元音，主要也是依靠它们的共振峰分布的位置。而在计算机的数字合成环境下，共振峰主要是通过音频数字来计算的，共振峰区尽管不直接与基本频率的音高有关联，但或多或少有间接的影响。

声学理论认为，各种发声物体发出的声音，因材料的不同或质量的不同而有声波波形和泛音的不同，这是声音的个性，声音的个性就是音色。从低频到高频顺序为第一共振峰、第二共振峰、第三共振峰等，在截频为5000赫兹时通常会出现五个共振峰，它们和基频可以反映出所发声音的元音音色(包括元音音色和音乐音色)。一般来讲，其中较低的两个峰即第一共振峰和第二共振峰基本上规定了声音的元音音色，而较高的第三共振峰、第四共振峰和第五共振峰影响着声音的个人特征和音乐音色。声道的固有频率的数值是由声道的形态所决定的，改变声道的形态就会产生不同的声音，因此每种声道形态都有一套共振峰作为其特征。

不同的说话人语谱图的频率比重分布和共振峰的个数，位置等等都是不一样的。本发明中通过研究将这些可以代表说话人特征的信息，也就是语谱图进行大量的统计在一起，得到可以代表不同说话人身份特征的“声纹图”。

本发明采用的统计方法是将经过灰度变化后的语谱图进行统计叠加，语音信号的来源是实验室自建语音库，根据人类发音特点，日常语音频率的变化范围是300Hz到3000Hz左右，根据这一特点将我们所做的语谱图的纵坐标设置为300Hz到3000Hz,横坐标为时间，我们以一个音素为时间单位作语谱图，在频率和时间标尺全部相同的情况下，语谱图可以通过进行张与张之间的叠加来统计一段语音信号当中所有的频率比重分布情况。

以上介绍了傅里叶语谱图行互相关和共振峰个数统计对说话人识别的特征参数提取的方法。主要利用灰度变换图像算法，对语音样本的傅里叶语谱图进行灰度变换，得到灰度语谱图，再通过语谱图的大量叠加来统计语谱图的频率特征，可作为说话人识别的一个特征参数；然后通过大量的统计不同说话人的傅里叶语谱图的共振峰，通过观察发现不同的说话人共振峰有明显的不同，可作为不同人识别的另一个特征参数，还可以作为评价一个人语音音质的标准。

3说话人识别算法的实现

本发明建立了一个简单的说话人识别系统，说话人语音的来源是实验室的自建语音库。

语音库中我们选取了30位年龄在22岁到26岁的青年进行语音信号的采集，其中男性15位，女性15位，采集语音时身体健康状况均良好，且采集语音环境相同，均在无噪声的密闭房间。用手持麦克采集语音信号，所有话者不提供固定文本内容，而是让大家自愿选择自己要采集语音的内容，每个人在日常交谈的自然语速中进行录音5分钟。采样频率16KHz,语音样本可谓多种多样，随机性强。

利用MATLAB软件作为搭建说话人识别系统的平台，设计了相关的GUI界面。

表1 CNN迭代次数对说话人识别效果的影响比较

迭代次数

10000次

20000次

30000次

40000次

50000次

60000次

学习率

0.12

拟合效果

好

训练正确率

97.7％

98.3％

98.7％

99.3％

98.9％

98.4％

识别正确率

92.9％

93.2％

93.9％

94.6％

93.9％

92.7％

表2说话人人数对说话人识别效果的影响比较

话者人数

5

10

15

20

25

30

拟合效果

好

训练正确率

99.8％

99.7％

99.5％

99.4％

99.5％

99.3％

识别正确率

95.6％

95.2％

95.1％

94.9％

94.7％

表3样本数对说话人识别效果影响的比较

每人样本数

90

180

270

360

450

540

拟合效果

好

训练正确率

97.4％

97.8％

98.4％

99.2％

99.7％

99.4％

识别正确率

93.3％

93.7％

94.1％

94.3％

94.7％

94.5％

表4网络学习率对说话人识别效果影响的比较

学习速率	0.03	0.06	0.12	0.24	0.36
						拟合效果	好	好	好	好	好
训练正确率	97.5％	98.2％	99.3％	98.9％	97.5％
						识别正确率	93.4％	93.6％	94.8％	94.2％	92.7％

表5说话时间对说话人识别效果的影响

说话时间	1s	5s	10s	20s	30s
						拟合效果	好	好	好	好	好
训练正确率	96.3％	97.5％	98.7％	99.2％	98.3％
						识别正确率	93.6％	93.9％	94.7％	94.8％	93.9％

表6说话语速对说话人识别效果影响的比较

话者语速	较慢	自然中速	较快	很快
					拟合效果	好	好	好	好
训练正确率	97.6％	99.2％	95.6％	94.9％
					识别正确率	92.5％	94.5％	92.4％	91.6％

表7不同的说话人识别算法对自建语音库说话人语音的识别率

对比方法	说话人类别总数	总体识别率
			SVM支持向量机	30	87.6％
PCNN	30	91.2％
			深度学习	30	90.8％
GMM-HMM	30	92.7％
			高斯模型-矢量量化	30	89.8％
卷积神经网络	30	94.7％

以上介绍了卷积神经网络算法的背景，算法原理和建构的数学模型，并给出了相应的程序对说话人识别问题进行预测估计。同时也详细的介绍了实验数据的选取，实验的过程。并用MATLAB7.1进行仿真，给出对非特定人说话人识别的实验结果。

Claims

1.一种基于语谱图统计特征的说话人识别方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于语谱图统计特征的说话人识别方法，其特征在于：该方法利用多张语谱图的整体统计特性对说话人发音特点进行表征。

3.根据权利要求1所述的一种基于语谱图统计特征的说话人识别方法，其特征在于：该方法包括语音样本集建立步骤，具体包括以下内容：

语音信号的采集和提取：实际工作中，用电脑上自带的录音机软件来进行录音，并以wav文件形式存储起来，采样频率为16KHz；

选取30位年龄在22岁到26岁的青年进行语音信号的采集，其中男性15位，女性15位，采集语音时身体健康状况均良好，且采集语音环境相同，均在无噪声的密闭房间；所有话者不提供固定文本内容，而是让大家自愿选择自己要采集语音的内容，每个人在日常交谈的自然语速中进行录音5分钟。

4.根据权利要求1所述的一种基于语谱图统计特征的说话人识别方法，其特征在于：该方法包括对语谱图统计特征参数提取的步骤，具体包括以下内容：

(1)将采集到的每个人语音样本分成若干个单字的发音，并生成每个单字发音的语谱图具体过程：首先利用短时窗将语音信号分成短语音段，每段段长为10～30ms，每个短段为一帧，再对这些帧进行短时傅里叶变换，接着计算每帧的频谱能量密度，并把得到的能量谱用分贝(dB)来表示，最后将每帧得到的的能量谱数据组成列，按照时间顺序排列在一起存放到一个矩阵中，把该矩阵通过映射转换成二维图像，最终就得到了语音信号的语谱图；

(2)对每个人单字发音的语谱图进行统计，获得表征其发音特点的稳定的语谱图

具体过程：首先将每张语谱图图片的像素值除以叠加张数，目的是防止溢出，再将图片的像素值相加；由于语谱图中，深浅不一的像素部分代表了频率在这一时间段上的分布，线性叠加后颜色深的部分是所占频率比重大的部分，浅颜色的部分就是所占频率比重小，叠加图片的顺序是按发音时间顺序从语音初始到结束依次叠加，每次叠加张数通过实验来确定，那么叠加后获得的图片就是某一段时间的语音样本的统计结合，通过多张图片叠加使一张语谱图中的内容更为充实；图片叠加的公式如下，C为叠加后图片的像素值，C1、C2、......C40分别为叠加前40张语谱图的像素值；

C＝(255-C1)/40+(255-C2)/40+......(255-C40)/40

因为灰度语谱图的像素值范围在0～255之间，为了防止溢出，先用255减去每张图片的像素值，再将每张图片的像素值除以叠加总张数40，最后把所有图片的像素值对应相加，得到一张叠加后的语谱图；

(3)生成训练样本和测试样本，利用深度卷积神经网络进行识别

30个人的语音样本共可以得到每个人4000张语谱图，因此，共生成12000张图片，以40张图片为一组进行叠加后每人得到100张语谱图，叠加后语谱图库中共有3000张图片，随机抽取相应库中80％的语谱图作为训练集，余下的20％的语谱图作为测试集，然后将两个集合中的图片大小调整为28*28，送入深度卷积神经网络进行训练和识别。