CN102800316B - 基于神经网络的声纹识别系统的最优码本设计方法 - Google Patents

基于神经网络的声纹识别系统的最优码本设计方法 Download PDF

Info

Publication number
CN102800316B
CN102800316B CN201210314067.3A CN201210314067A CN102800316B CN 102800316 B CN102800316 B CN 102800316B CN 201210314067 A CN201210314067 A CN 201210314067A CN 102800316 B CN102800316 B CN 102800316B
Authority
CN
China
Prior art keywords
codebook
initial
matrix
new
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210314067.3A
Other languages
English (en)
Other versions
CN102800316A (zh
Inventor
李勇明
施忠继
王品
邹雪
梅林�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201210314067.3A priority Critical patent/CN102800316B/zh
Publication of CN102800316A publication Critical patent/CN102800316A/zh
Application granted granted Critical
Publication of CN102800316B publication Critical patent/CN102800316B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种基于神经网络的声纹识别系统的最优码本设计方法,包括语音信号输入、语音信号预处理、语音信号特征参数提取、三路初始码本生成、神经网络训练以及最优码本选择五个步骤,在预处理后同时了提取MFCC和LPCC参数,然后采用局部最优的矢量量化法和全局最优的遗传算法,实现了基于VQ、GA、VQ与GA的三路并列算法对混合语音特征参数矩阵产生初始码本,通过对三路码本的神经网络识别准确率的判决,选出最优码本。其显著效果是:利用该最优码本,使得声纹识别系统获得较高的识别率和稳定性,并提高了系统的自适应性;较之单一的码本进行模式识别,采用基于神经网络得到的最优码本的声纹识别系统,其性能有明显的改进。

Description

基于神经网络的声纹识别系统的最优码本设计方法
技术领域
本发明属于语音信号处理中的声纹识别技术,尤其涉及一种基于神经网络的声纹识别系统的最优码本设计方法。
背景技术
在当今信息时代的前提下,作为信息安全的重要组成部分之一的身份识别技术引来了新的挑战。传统的密码识别由于算法的局限性与硬软件解密技术的提升已经展现了它的弊端,而作为身份识别的新技术之一,声纹识别技术,因其独特的方便性、经济性及准确性等优点,越来越受到人的重视。
声纹识别,就是从说话人的一段语音中提取出说话人的个性特征,通过对个人特征的分析与识别,从而达到对说话人进行辨认或者确认的目的。声纹识别的基本依据在于每个人独特的声道特性和发音特点,使得说话人的语音信号具有区别于其他说话人的特征,因此说话人识别并不注意语音信号的内容,而是希望从语音信号中提取个人的特征。
声纹识别的关键技术,主要是语音信号的特征参数提取和最优码本的建立。最常用的语音信号的特征参数有两种:一种是根据人耳对不同频率的语音信号的敏感程度提取的梅尔频率倒谱系数(Mel-Frequency CepstrumCoefficients,MFCC),反映了说话人语音的听觉频率的非线性特性,在噪声中环境中能体现优势;另一种是根据语音信号的全极点模型得到的线性预测倒谱系数(Linear Prediction Cepstrum Coefficients,LPCC),反映了说话人声道的生理结构差异。MFCC的分析着眼于人耳的听觉特性,Mel频率尺度更符合人耳的听觉特性,能很好的反映语音的特性。LPCC特征参数的提取,是基于语音信号为自回归信号的假设,利用线性预测分析从而获得倒谱参数。LPCC参数的最大优点是它能够极为精确地估计语音参数,用很少的参数有效而又正确地表现语音波形及其频谱的性质,而且计算效率高,对元音有较好的表示能力,它缺点在于不能体现辅音的个性特征,抗噪声性能较差,识别率容易受环境的影响。
中国专利申请200410000055.9,其名称为:电话信道说话人声纹识别系统,公开号CN1556522,该专利文献对声纹识别系统的系统模型以及工作原理作了描述,同时对LPCC特征参数的提取方法以及如何在声纹识别系统中引入神经网络模型作了详细说明。
参考文献:郭华.基于神经网络的声纹识别系统的设计与实现.上海交通大学工程硕士专业学位论文.2008.该文献对声纹识别技术的研究现状做了详细总结,同时对声纹识别技术中的MFCC以及LPCC参数的提取、矢量量化法、遗传算法、以及BP神经网络模型等关键技术作了详细描述,作者为了使得声纹识别效果最优,还将粒子群算法引入神经网络进行优化。
综上所述,声纹识别技术目前已经得到广泛的应用和发展,大量学者对声纹识别的准确率以及如何应用做了研究,但是往往都是针对单一算法进行优化或者改进,目前最优码本的设计方法主要采用态时间规整(DTW)、矢量量化(VQ)、高斯混合模型(GMM)、隐马尔可夫模型(HMM)、人工神经网络方法(ANN)、支持向量机(SVM)、动态贝叶斯网络(DBN)等技术。但现有的系统中往往都只采用了一种单独的技术,而各种技术往往都是针对某一特定的应用场景具有较好的识别率,当系统的应用场景发生改变时,自适应能力不强。
发明内容
为了克服现有技术中系统采用单一技术生成码本导致适应能力不强的缺陷,本发明提出一种基于神经网络的声纹识别系统的最优码本设计方法,通过采用多种算法同时生成多个码本,然后根据多个码本的识别正确率的高低来选择最优码本,从而提高系统的自适应能力和稳定性。
为达到上述目的,本发明所采用的具体技术方案如下:
一种基于神经网络的声纹识别系统的最优码本设计方法,包括:
S1:用于语音信号输入的步骤;
S2:对输入的语音信号段进行预处理的步骤;
S3:对预处理后的语音信号段提取特征参数的步骤;
其关键在于,还包括:
S4:用于生成三个初始码本的步骤,该步骤中第一初始码本采用矢量量化法生成,第二初始码本采用遗传算法生成,第三初始码本先采用矢量量化法,再采用遗传算法生成;
S5:用于神经网络训练的步骤,该步骤中利用神经网络分别对三个初始码本进行训练,得到第一初始码本识别正确率、第二初始码本识别正确率以及第三初始码本识别正确率;
S6:用于选择最优码本的步骤,该步骤中选择三个初始码本中识别正确率最高的一个初始码本作为输入的语音信号段的最优码本。
系统中同时设置三种算法来对提取的特征参数进行处理,从而生成三个初始码本,由于不同的算法有不同的特点,所以不同地区,不同语种的语音特征其识别的准确率也有所不同,针对某一语音特征,如果矢量量化法生成的码本识别正确率高,则系统选择第一初始码本作为最优码本,如果遗传算法生成的码本识别正确率高,则系统选择第二初始码本作为最优码本,如果是先采用矢量量化法,再采用遗传算法生成的码本识别正确率高,则系统选择第三初始码本作为最优码本,因此,提高了系统的自适应能力和稳定性。
在背景技术中提及了多种码本设计方法,但相对于其他算法来说,矢量量化法和遗传算法更具有代表性,其自身应用范围较广,所以在降低系统运算复杂性的同时,采用这两种算法以及这两种算法的组合足以满足声纹识别的大的应用领域。
作为进一步描述,所述步骤S2中,对输入的语音信号段进行预处理包括预加重以及分帧,其中分帧采用交叠分段方法,帧长为256(32ms),帧移为100(12.5ms)。
通常分帧可采用连续分段的方法或者交叠分段的方法,本系统中采用交叠分段方法,可以使帧与帧之间平滑过渡,保持其连续性,交叠分段中每一帧的长度叫帧长,后一帧与前一帧的偏移量叫帧移,利用可移动的窗口函数对原语音信号进行截取即可实现分帧。
再进一步描述,所述特征参数为梅尔频率倒谱系数与线性预测倒谱系数的混合特征参数。
作为优选,混合特征参数提取方法是将语音信号段的每一帧等分为两部分,将该语音信号段中所有帧的前半部分提取梅尔频率倒谱系数,将该语音信号段中所有帧的后半部分提取线性预测倒谱系数。
由于MFCC反映了说话人语音的听觉频率的非线性特性,在噪声中环境中能体现优势,而LPCC参数的最大优点是它能够极为精确地估计语音参数,用很少的参数有效而又正确地表现语音波形及其频谱的性质,而且计算效率高,对元音有较好的表示能力,它缺点在于不能体现辅音的个性特征,抗噪声性能较差,识别率容易受环境的影响。
本发明在特征参数提取时同时采用MFCC与LPCC两种方式进行,既能体现在噪声环境中的应用优势,又能有效表现出语音波形及其频谱性质。
其显著效果是:较之单一的码本进行模式识别,采用基于神经网络得到的最优码本的声纹识别系统,获得了较高的识别率和稳定性,并提高了系统的自适应性。
附图说明
图1是本发明系统原理框图;
图2是图1中矢量量化法的方法流程图;
图3是图1中遗传算法的方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明
如图1所示,一种基于神经网络的声纹识别系统的最优码本设计方法,包括:
S1:用于语音信号输入的步骤;
本实施例中语音信号输入是利用录音软件Cool Edit录制小语音库,其中采样频率为8KHz,量化比特为16bit的一段wav文件,且为语音与文本无关的连续语音,为提高语音质量,用Cool Edit软件去除静音段,并将噪声衰减10dB;
S2:对输入的语音信号段进行预处理的步骤;
预处理包括预加重以及分帧,其中分帧采用交叠分段方法,帧长为256(32ms),帧移为100(12.5ms);
结合本例,对步骤S1中输入的语音信号,通过一个传输函数为H(z)=1-a*z-1的一阶高通滤波器,进行预加重,使其对高频部分进行增强,其中a取值一般在(0.9,1)之间,优选0.95;
预加重后的语音信号再采用交叠分段的方法进行分帧,通常采用的窗口函数有矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等,其中:
矩形窗: w ( n ) = 1 ( 0 &le; n &le; N - 1 ) 0 ( n < 0 , n > N ) - - - ( 1 )
汉明窗: w ( n ) = 0.54 - 0.46 * cos ( 2 * pi * n / ( N - 1 ) ) ( 0 &le; n &le; N - 1 ) 0 ( n < 0 , n > N ) - - - ( 2 )
汉宁窗: w ( n ) = 0.5 ( 1 - cos ( 2 * pi * n / ( N - 1 ) ) ) ( 0 &le; n &le; N - 1 ) 0 ( n < 0 , n > N ) - - - ( 3 )
本实施例中采用公式(2)所示的汉明窗作为窗口函数进行分帧处理;
S3:对预处理后的语音信号段提取特征参数的步骤;
所述特征参数为梅尔频率倒谱系数与线性预测倒谱系数的混合特征参数,即同时包括了MFCC和LPCC。
在实施过程中,混合特征参数提取方法是将语音信号段的每一帧等分为两部分,将该语音信号段中所有帧的前半部分提取梅尔频率倒谱系数,将该语音信号段中所有帧的后半部分提取线性预测倒谱系数。
以长度为8秒的语音信号段为例,8Khz采样后具有64000个采样点,经过预处理后得到一个256*638维的语音数据矩阵,其中每一列表示一帧语音数据,长度为256,共有638列,按照帧长等分为两部分来分别提取MFCC和LPCC,即分为两个128*638维的语音数据矩阵。
对于MFCC参数的提取,依次对每一列语音数据单独进行,先按照公式(4)对第一个128*638维的语音数据矩阵中的时域信号x(n)进行离散傅里叶变换得到其线性频谱X(k),这里,N的取值即为128。
X ( k ) = &Sigma; n = 0 N - 1 x ( n ) e - j 2 &pi;nk / N , ( 0 &le; , k &le; N - 1 ) - - - ( 4 )
接着,对频谱X(k)取平方求得功率谱,然后将所得功率谱通过Mel频率滤波器,得到相应的Mel频谱Xm(k),其中Mel频率滤波器是根据声音的掩蔽效应,在语音的频谱范围内设置的若干个如公式(5)所示的传递函数Hm(k)的三角形带通滤波器,其中0≤m≤M,M为滤波器的个数,中心频率为f(m),各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
H m ( k ) = 0 , k < f ( m - 1 ) k - f ( m - 1 ) f ( m ) - f ( m - 1 ) , f ( m - 1 ) &le; k &le; f ( m ) f ( m + 1 ) - k f ( m + 1 ) - f ( m ) , f ( m ) < k &le; f ( m + 1 ) 0 , k > f ( m + 1 ) - - - ( 5 )
然后,对输出的Mel频谱Xm(k)按照公式(6)计算对数频谱S(m);
S ( m ) = ln ( &Sigma; k = 0 N - 1 | X ( k ) | 2 H m ( k ) ) , 0 &le; m < M - - - ( 6 )
最后,对输出的对数频谱S(m)按照公式(7)进行离散余弦变换DCT,得到MFCC参数c(j);
c ( j ) = &Sigma; m = 0 M - 1 S ( m ) cos ( &pi;j ( m + 0.5 ) M ) , 0 &le; m < M - - - ( 7 )
对于每一帧的前半部分,提取16个MFCC参数,即j的取值为0≤j<16之间的整数,实施过程中,滤波器的个数M设置为3,经过上述步骤,从128*638维的数据矩阵中,提取出16*638维的MFCC参数矩阵。
对于LPCC参数的提取,采用12阶全极点滤波器来模拟语音信号的声道模型的传输函数,即阶数p=12,对于每一帧中后半部分的128个数据,利用常规的Duibin算法推导12个LPC系数,记为ak,k=1,2,…,p,然后在利用公式(8)计算16个LPCC参数,依次为h(1)……h(16)。
h ( 1 ) = a 1 h ( n ) = a n + &Sigma; k = 1 n - 1 ( 1 - k n ) a k h ( n - k ) , 1 &le; n &le; p h ( n ) = &Sigma; k = 1 p ( 1 - k n ) a k h ( n - k ) , n > p - - - ( 8 )
依次对语音数据矩阵中的每一列进行上述运算,从而在128*638维的数据矩阵中提取出16*638维的LPCC参数矩阵,最终将MFCC参数矩阵和LPCC参数矩阵组合成32*638维的混合特征参数矩阵。
S4:用于生成三个初始码本的步骤,该步骤中第一初始码本采用矢量量化法生成,第二初始码本采用遗传算法生成,第三初始码本先采用矢量量化法,再采用遗传算法生成;
如图2所示,利用矢量量化法生成第一初始码本,具体步骤如下:
S4-1-1:输入训练矢量集合S,本例中为32*638维的混合特征参数,将其表述为矢量X的集合形式,每个矢量的长度为32,矢量的个数为638,设定码本容量为J,最大迭代次数为L,两个矢量的最小畸变阈值为δ,这里J的值设置为16,最大迭代次数为L为16;
S4-1-2:初始化J个码字初值为
Figure BDA00002076181200091
畸变初值D(0)=∞,迭代次数m=1;
S4-1-3:根据最邻近准则,按照公式(9)对每一个X∈S进行判定,从而将训练矢量集合S分成J个子集S1 (m),S2 (m),…,SJ (m)
d ( X , Y l ( m - 1 ) ) &le; d ( X , Y i ( m - 1 ) ) , ( i = 1,2 , . . . , J ; i &NotEqual; l ) - - - ( 9 )
对每一个X∈S,如果满足公式(9),则判定
Figure BDA00002076181200093
其中距离d(·)表示两矢量的畸变量,一般采用欧式距离;
S4-1-4:按照公式(10)计算总畸变D(m)
D ( m ) = &Sigma; l = 1 J &Sigma; X &Element; S l ( m ) d ( X , Y l ( m ) ) - - - ( 10 )
S4-1-5:按照公式(11)计算畸变改进值ΔD(m)的相对值δ(m)
&delta; ( m ) = &Delta;D ( m ) D ( m ) = | D ( m - 1 ) - D ( m ) | D ( m ) - - - ( 11 )
S4-1-6:按照公式(12)计算新码本的码字
Figure BDA00002076181200096
其中Nl表示第l子集
Figure BDA00002076181200097
中样本的数目;
Y l = 1 N l &Sigma; X &Element; S li ( m ) X - - - ( 12 )
S4-1-7:判断畸变相对值δ(m)是否小于最小畸变阈值δ,如果小于,则转入S4-1-9,否则转入S4-1-8;
S4-1-8:判断当前迭代次数m是否满足L≤m,如果满足,则转入S4-1-9,否则设置m=m+1,然后转入S4-1-3;
S4-1-9:迭代计算终止,输出码字
Figure BDA00002076181200101
作为第一初始码本,即32*16的码本矢量集合。
如图3所示,利用遗传算法生成第二初始码本,具体步骤如下:
S4-2-1:初始化,加载初始群种并计算初始适应度;
这里初始种群为32*638维的混合特征参数矩阵,命名为pop,计算初始适应度是将数据矩阵的每一行(1*638)作为一个个体,转换成一个矩阵(25*25)后,计算适应度值,即计算该矩阵与混合特征参数矩阵之间的欧氏距离,通过计算的欧式距离数值的大小,来判断种群中每个个体适应度情况,欧式距离越小,适应度越高。
S4-2-2:启动遗传算法,选择遗传精英;
首先设定要保留的精英个数为n,n一般取5,对输入的混合特征参数矩阵,选取适应度最高n个个体,直接保存给新参数矩阵new-pop,原始的混合特征参数矩阵中其余32-n行即种群其余32-n个个体,根据每个个体的适应度,按预定的选择概率Ps,随机选取32-n个个体保存到new-pop进行接下来的操作,使得new-pop大小仍为32*638;
S4-2-3:对新的参数矩阵new-pop进行交叉操作;
随机产生一个范围在[0,1]的数,用以比较预设的交叉概率Pc并确定交叉位置,若交叉位置是0~9,就不予交叉直接进入下一次循环;若交叉位置不在0~9范围内,则执行从该位置起的两列之间码字的互相交叉,并储存交叉结果,最终输出交叉后的码本矩阵cro_pop,大小仍为32*638;
S4-2-4:对交叉后的码本矩阵cro_pop进行变异操作;
随机产生一个范围在[0,1]的数,用以比较预设的变异概率Pm并确定变异位置,若变异位置是0,就不予变异直接进入下一次循环;若变异位置不是0,则执行变异操作,即将该位置(列)的码字均变异为1~255之间的随机数,最终输出变异后的新码本矩阵pop1,大小仍为32*638;
S4-2-5:判断是否满足循环条件;
生成一次新码本矩阵pop1后,计数器gen加1,计算变异后的新码本矩阵pop1与初始种群pop之间的欧氏距离,同时计算新码本矩阵pop1中每个个体的适应度值;判断前后两个种群间的适应度函数值误差是否小于0.00001,若小于该值的次数达到30,则跳出循环输出结果;或判断循环次数是否达到200,若计数器gen达到200,亦跳出循环输出结果;若无以上条件,则返回S2-2-2,将新码本矩阵pop1作为初始种群pop继续进行遗传算法过程,直至结束循环,最后生成第二初始码本。
同理,对于第三初始码本的生成先是采用矢量量化法从32*638维的混合特征参数矩阵中提取出32*16维码本矢量集合,然后将矢量量化法生成是初始码本作为初始种群,利用遗传算法进行优化,最终得到32*16维的第三初始码本。
经过上述步骤后,三个初始码本已经生成,然后进入下面的步骤S5,利用神经网络再次对每个初始码本进行优化。
S5:用于神经网络训练的步骤,该步骤中利用神经网络分别对三个初始码本进行训练,得到第一初始码本识别正确率、第二初始码本识别正确率以及第三初始码本识别正确率;
人工神经网络(artificial neural network,缩写ANN),简称神经网络(neural network,缩写NN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。它的构筑理念是受到生物(人或其他动物)神经网络功能的运作启发而产生的。人工神经网络通常是通过一个基于数学统计学类型的学习方法(Learning Method)得以优化,所以人工神经网络也是数学统计学方法的一种实际应用,通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间,另一方面在人工智能学的人工感知领域,我们通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说通过统计学的方法,人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力),这种方法比起正式的逻辑学推理演算更具有优势。
对于人工神经网络,组网时用于训练的样本越多,则训练效果越好。因此,和遗传算法每人仅需一段语音不同,此处为训练人工神经网络我们选取每人14段语音作为训练样本输入,同时用上述生成的三路初始码本作为训练与测试样本的初始矢量码本,在实施过程中,通过调用神经网络工具箱中的相关函数,就可以完成网络设计、权值初始化以及网络训练等。
目前在神经网络领域,应用最多的学习算法就是BP算法,本发明在实施过程中也是选用BP神经网络分别对三个初始码本进行训练仿真,该算法属于本领域的惯用手法,其具体步骤不再赘述。
通过BP神经网络对每一个初始码本进行优化,得到相应的识别正确率,最后进入步骤S6进行判别。
S6:用于选择最优码本的步骤,该步骤中选择三路初始码本中识别正确率最高的一路初始码本作为输入的语音信号的最优码本。
通过上述方法生成最优码本,自适应能力强,识别率高,稳定性好。

Claims (4)

1.一种基于神经网络的声纹识别系统的最优码本设计方法,包括: 
S1:用于语音信号输入的步骤; 
S2:对输入的语音信号段进行预处理的步骤; 
S3:对预处理后的语音信号段提取特征参数的步骤; 
其特征在于,还包括: 
S4:用于生成三个初始码本的步骤,该步骤中第一初始码本采用矢量量化法生成,其中采用矢量量化法生成第一初始码本步骤为, 
S4-1-1:输入训练矢量集合S,本例中为32*638维的混合特征参数,将其表述为矢量X的集合形式,每个矢量的长度为32,矢量的个数为638,设定码本容量为J,最大迭代次数为L,两个矢量的最小畸变阈值为δ,这里J的值设置为16,最大迭代次数为L为16; 
S4-1-2:初始化J个码字初值为
Figure FDA0000380331170000011
畸变初值D(0)=∞,迭代次数m=1; 
S4-1-3:根据最邻近准则,按照本步骤公式对每一个X∈S进行判定,从而将训练矢量集合S分成J个子集S1 (m),S2 (m),…,SJ (m), 
Figure FDA0000380331170000012
对每一个X∈S,如果满足前述公式,则判定
Figure FDA0000380331170000013
其中距离d(·)表示两矢量的畸变量,采用欧式距离; 
S4-1-4:按照本步骤公式计算总畸变D(m), 
Figure FDA0000380331170000014
S4-1-5:按照本步骤公式计算畸变改进值ΔD(m)的相对值δ(m), 
Figure FDA0000380331170000021
S4-1-6:按照本步骤公式计算新码本的码字
Figure FDA0000380331170000022
其中Nl表示第l子集
Figure FDA0000380331170000023
中样本的数目, 
Figure FDA0000380331170000024
S4-1-7:判断畸变相对值δ(m)是否小于最小畸变阈值δ,如果小于,则转入S4-1-9,否则转入S4-1-8; 
S4-1-8:判断当前迭代次数m是否满足L≤m,如果满足,则转入S4-1-9,否则设置m=m+1,然后转入S4-1-3; 
S4-1-9:迭代计算终止,输出码字
Figure FDA0000380331170000025
作为第一初始码本,即32*16的码本矢量集合; 
第二初始码本采用遗传算法生成,其中采用遗传算法生成第二初始码本步骤为, 
S4-2-1:初始化,加载初始群种并计算初始适应度; 
初始种群为32*638维的混合特征参数矩阵,命名为pop,计算初始适应度是将数据矩阵的每一行作为一个个体,即1*638,转换成一个矩阵后,即25*25,计算适应度值,即计算该矩阵与混合特征参数矩阵之间的欧氏距离,通过计算的欧式距离数值的大小,来判断种群中每个个体适应度情况,欧式距离越小,适应度越高, 
S4-2-2:启动遗传算法,选择遗传精英; 
首先设定要保留的精英个数为n,n取5,对输入的混合特征参数矩阵,选取适应度最高n个个体,直接保存给新参数矩阵new-pop,原始的混合特 征参数矩阵中其余32-n行即种群其余32-n个个体,根据每个个体的适应度,按预定的选择概率Ps,随机选取32-n个个体保存到new-pop进行接下来的操作,使得new-pop大小仍为32*638; 
S4-2-3:对新的参数矩阵new-pop进行交叉操作; 
随机产生一个范围在[0,1]的数,用以比较预设的交叉概率Pc并确定交叉位置,若交叉位置是0~9,就不予交叉直接进入下一次循环;若交叉位置不在0~9范围内,则执行从该位置起的两列之间码字的互相交叉,并储存交叉结果,最终输出交叉后的码本矩阵cro_pop,大小仍为32*638; 
S4-2-4:对交叉后的码本矩阵cro_pop进行变异操作; 
随机产生一个范围在[0,1]的数,用以比较预设的变异概率Pm并确定变异位置,若变异位置是0,就不予变异直接进入下一次循环;若变异位置不是0,则执行变异操作,即将该位置列的码字均变异为1~255之间的随机数,最终输出变异后的新码本矩阵pop1,大小仍为32*638; 
S4-2-5:判断是否满足循环条件; 
生成一次新码本矩阵pop1后,计数器gen加1,计算变异后的新码本矩阵pop1与初始种群pop之间的欧氏距离,同时计算新码本矩阵pop1中每个个体的适应度值;判断前后两个种群间的适应度函数值误差是否小于0.00001,若小于该值的次数达到30,则跳出循环输出结果;或判断循环次数是否达到200,若计数器gen达到200,亦跳出循环输出结果;若无以上条件,则返回S2-2-2,将新码本矩阵pop1作为初始种群pop继续进行遗传算法过程,直至结束循环,最后生成第二初始码本; 
第三初始码本先采用矢量量化法,再采用遗传算法生成,其具体步骤为,对于第三初始码本的生成先是采用矢量量化法从32*638维的混合特征参数矩 阵中提取出32*16维码本矢量集合,然后将矢量量化法生成是初始码本作为初始种群,利用遗传算法进行优化,最终得到32*16维的第三初始码本; 
S5:用于神经网络训练的步骤,该步骤中利用神经网络分别对三个初始码本进行训练,得到第一初始码本识别正确率、第二初始码本识别正确率以及第三初始码本识别正确率; 
S6:用于选择最优码本的步骤,该步骤中选择三个初始码本中识别正确率最高的一个初始码本作为输入的语音信号段的最优码本。 
2.根据权利要求1所述的基于神经网络的声纹识别系统的最优码本设计方法,其特征在于:所述步骤S2中,对输入的语音信号段进行预处理包括预加重以及分帧,其中分帧采用交叠分段方法,帧长为256,帧移为100。 
3.根据权利要求1所述的基于神经网络的声纹识别系统的最优码本设计方法,其特征在于:所述特征参数为梅尔频率倒谱系数与线性预测倒谱系数的混合特征参数。 
4.根据权利要求3所述的基于神经网络的声纹识别系统的最优码本设计方法,其特征在于:混合特征参数提取方法是将语音信号段的每一帧等分为两部分,将该语音信号段中所有帧的前半部分提取梅尔频率倒谱系数,将该语音信号段中所有帧的后半部分提取线性预测倒谱系数。 
CN201210314067.3A 2012-08-30 2012-08-30 基于神经网络的声纹识别系统的最优码本设计方法 Expired - Fee Related CN102800316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210314067.3A CN102800316B (zh) 2012-08-30 2012-08-30 基于神经网络的声纹识别系统的最优码本设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210314067.3A CN102800316B (zh) 2012-08-30 2012-08-30 基于神经网络的声纹识别系统的最优码本设计方法

Publications (2)

Publication Number Publication Date
CN102800316A CN102800316A (zh) 2012-11-28
CN102800316B true CN102800316B (zh) 2014-04-30

Family

ID=47199407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210314067.3A Expired - Fee Related CN102800316B (zh) 2012-08-30 2012-08-30 基于神经网络的声纹识别系统的最优码本设计方法

Country Status (1)

Country Link
CN (1) CN102800316B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207961A (zh) * 2013-04-23 2013-07-17 曙光信息产业(北京)有限公司 用户验证方法和装置
CN103873254B (zh) * 2014-03-03 2017-01-25 杭州电子科技大学 一种人类声纹生物密钥生成方法
CN104112445A (zh) * 2014-07-30 2014-10-22 宇龙计算机通信科技(深圳)有限公司 一种终端及语音识别方法
CN104992707A (zh) * 2015-05-19 2015-10-21 四川大学 一种腭裂语音喉塞音自动识别算法及装置
CN104900235B (zh) * 2015-05-25 2019-05-28 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN104835498B (zh) * 2015-05-25 2018-12-18 重庆大学 基于多类型组合特征参数的声纹识别方法
CN105160229A (zh) * 2015-09-01 2015-12-16 武汉同迅智能科技有限公司 一种具有语音和指纹双重鉴权的单兵系统
CN106971729A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于声音特征范围提高声纹识别速度的方法及系统
CN106971711A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的声纹识别方法及系统
CN106971726A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的基于码本的声纹识别方法及系统
CN106971712A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的快速声纹识别方法及系统
CN106981287A (zh) * 2016-01-14 2017-07-25 芋头科技(杭州)有限公司 一种提高声纹识别速度的方法及系统
CN107305773B (zh) * 2016-04-15 2021-02-09 美特科技(苏州)有限公司 语音情绪辨识方法
CN106297772B (zh) * 2016-08-24 2019-06-25 武汉大学 基于扬声器引入的语音信号失真特性的回放攻击检测方法
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
CN108899037B (zh) * 2018-07-05 2024-01-26 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及电子设备
CN109192196A (zh) * 2018-08-22 2019-01-11 昆明理工大学 一种抗噪的svm分类器的音频特征选择方法
CN109146002B (zh) * 2018-09-30 2021-06-01 佛山科学技术学院 一种gmm识别器的快速识别方法
CN109631104A (zh) * 2018-11-01 2019-04-16 广东万和热能科技有限公司 油烟机的风量自动调节方法、装置、设备及存储介质
CN110049270B (zh) * 2019-03-12 2023-05-30 平安科技(深圳)有限公司 多人会议语音转写方法、装置、系统、设备及存储介质
CN109979436B (zh) * 2019-04-12 2020-11-13 南京工程学院 一种基于频谱自适应法的bp神经网络语音识别系统及方法
CN112399402B (zh) * 2019-08-16 2023-06-02 华为技术有限公司 一种通信方法、装置及设备
CN111415447A (zh) * 2019-12-10 2020-07-14 南京工业大学 一种多重认证的门禁系统
CN111814955B (zh) * 2020-06-19 2024-05-31 浙江大华技术股份有限公司 神经网络模型的量化方法、设备及计算机存储介质
CN112259108B (zh) * 2020-09-27 2024-05-31 中国科学技术大学 一种引擎响应时间的分析方法及电子设备、存储介质
CN112504970B (zh) * 2021-02-07 2021-04-20 湖北鑫英泰系统技术股份有限公司 基于深度学习的气体光声光谱增强声纹识别方法与装置
CN115378533B (zh) * 2021-05-20 2024-10-15 海能达通信股份有限公司 一种提高帧同步率的方法、装置和计算机可读存储介质
CN114863934A (zh) * 2022-06-17 2022-08-05 成都理工大学 基于集成卷积神经网络的声纹识别模型构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1556522A (zh) * 2004-01-06 2004-12-22 中国人民解放军保密委员会技术安全研 电话信道说话人声纹识别系统
CN102184732A (zh) * 2011-04-28 2011-09-14 重庆邮电大学 基于分形特征的智能轮椅语音识别控制方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1556522A (zh) * 2004-01-06 2004-12-22 中国人民解放军保密委员会技术安全研 电话信道说话人声纹识别系统
CN102184732A (zh) * 2011-04-28 2011-09-14 重庆邮电大学 基于分形特征的智能轮椅语音识别控制方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《基于混合特征和高斯混合模型的说话认识别研究》;干晓蓉;《中国优秀硕士学位论文全文数据库》;20110418;第24-26页 *
《采用遗传算法的码本设计及说话人识别》;陈良柱;《中国优秀硕士学位论文全文数据库》;20080318;第9-47页 *
干晓蓉.《基于混合特征和高斯混合模型的说话认识别研究》.《中国优秀硕士学位论文全文数据库》.2011,第24-26页.
陈良柱.《采用遗传算法的码本设计及说话人识别》.《中国优秀硕士学位论文全文数据库》.2008,第9-47页.

Also Published As

Publication number Publication date
CN102800316A (zh) 2012-11-28

Similar Documents

Publication Publication Date Title
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
EP3719798B1 (en) Voiceprint recognition method and device based on memorability bottleneck feature
Kabir et al. A survey of speaker recognition: Fundamental theories, recognition methods and opportunities
US11908455B2 (en) Speech separation model training method and apparatus, storage medium and computer device
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN108806667B (zh) 基于神经网络的语音与情绪的同步识别方法
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
CN103531205B (zh) 基于深层神经网络特征映射的非对称语音转换方法
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN103065629A (zh) 一种仿人机器人的语音识别系统
CN107146615A (zh) 基于匹配模型二次识别的语音识别方法及系统
CN102789779A (zh) 一种语音识别系统及其识别方法
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
Sinha et al. Acoustic-phonetic feature based dialect identification in Hindi Speech
Eray et al. An application of speech recognition with support vector machines
CN111081273A (zh) 一种基于声门波信号特征提取的语音情感识别方法
Hu et al. Fusion of global statistical and segmental spectral features for speech emotion recognition.
CN103886859A (zh) 基于一对多码书映射的语音转换方法
Lee et al. Speech emotion recognition using spectral entropy
A Badr et al. Age estimation in short speech utterances based on bidirectional gated-recurrent neural networks
Othmane et al. Enhancement of esophageal speech using voice conversion techniques
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Zeng et al. Multi-feature fusion speech emotion recognition based on SVM
Komlen et al. Text independent speaker recognition using LBG vector quantization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140430

Termination date: 20140830

EXPY Termination of patent right or utility model