CN110060692A

CN110060692A - 一种声纹识别系统及其识别方法

Info

Publication number: CN110060692A
Application number: CN201910318199.5A
Authority: CN
Inventors: 牛茂权
Original assignee: Shandong Optimized Information Technology Co Ltd
Current assignee: Shandong Optimized Information Technology Co Ltd
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2019-07-26

Abstract

本发明公开了一种声纹识别方法及其系统，声纹拾取设备连接到析设备，分析设备内置有识别单元，分析设备连接到语音转换器以及扬声器设备以及接收设备，语音转换器的输出端连接到显示设备，声纹拾取设备连接到识别单元的语音信号预处理模块，语音信号预处理模块连接到特征参数提取模块，特征参数提取模块连接到算法优化模块，算法优化模块连接到网络训练及识别模块，网络训练及识别模块的连接语音转换器以及扬声器设备以及接收设备。声纹识别方法包括如下步骤：（1）声纹的拾取；（2）语音信号的预处理；（3）特征参数提取；（4）算法优化；（5）网络训练及识别。本发明计算速度快，准确性更高。

Description

一种声纹识别系统及其识别方法

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种声纹识别系统及其识别方法。

背景技术

声纹是指通过专用的电声转换仪器将声波特征绘制成的波谱图形，它是各种声学特征图谱的集合。由于声纹因人而异，可以反映说话人生理和行为特征，可将其应用于自动识别说话人身份领域。声纹识别广义上分为语音内容识别和说话人识别，内容识别是根据代表语音单位的共性特征辨别出说话人所说的单词或单句，而说话人识别则是根据分离出的发音者的个性特征来来辨认说话人。目前，大多数人认为声纹识别是指说话人识别。当前主要的识别方法包括矢量量化技术、隐马尔可夫模型、动态时间规整法和人工神经网络等。其中隐马尔可夫模型已经在声纹识别领域得到了广泛应用，但存在训练时计算量较大的缺点；矢量量化用于小数据量时，方法比较简单，实时性较好，识别精度较高，但是在训练的数据量较多时，该方法效果不好；动态时间规整受外界干扰因素大。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种声纹识别系统及其识别方法，解决了现有的识别方法存在训练时计算量较大的缺点并且受外界干扰强度大的问题。

（二）技术方案

为实现上述目的，本发明提供如下技术方案：一种声纹识别系统，包括声纹拾取设备、分析设备、扬声器设备、语音转换器、显示设备以及接收设备，所述声纹拾取设备的输出端连接到所述分析设备，所述分析设备内置有识别单元，所述分析设备的输出端连接到所述语音转换器以及所述扬声器设备以及所述接收设备，所述语音转换器的输出端连接到所述显示设备，所述识别单元包括语音信号预处理模块、特征参数提取模块、算法优化模块以及网络训练及识别模块，所述声纹拾取设备的输出端连接到所述语音信号预处理模块的输入端，所述语音信号预处理模块的输出端连接到所述特征参数提取模块的输入端，所述特征参数提取模块的输出端连接到所述算法优化模块的输入端，所述算法优化模块的输出端连接到所述网络训练及识别模块的输入端，所述所述网络训练及识别模块的输出端连接所述语音转换器以及所述扬声器设备以及所述接收设备。

优选的，所述声纹拾取设备为录音设备，所述显示设备为显示屏设备，所述接收设备为声控锁、声控灯或者声控门设备，所述分析设备为微处理器设备，微处理设备为单片机控制芯片或者嵌入式处理器设备。

优选的，所述分析设备的输出端还连接有存储器设备。

一种根据上述方案所述的声纹识别系统的识别方法，包括如下步骤

（1）声纹的拾取：利用声纹拾取设备录取到声纹信号并且将声纹信号经A/D转换器转换成数字信号后传递到分析设备的语音信号预处理模块；

（2）语音信号的预处理：语音信号预处理模块接收到数字化的语音信号后，首先语音信号经过预加重、加窗分帧和端点检测，其中预加重主要是为了消除发声过程中声带和嘴唇的效应，补偿语音信号收到发音系统所压抑的高频部分，将原始语音信号通过一个高通滤波器；

（3）特征参数提取：对预加重后每帧序列语音信号进行离散FFT变换，取模的平方得到离散功率谱 S(n)；计算 S(n)通过M个带通滤波器后得到的功率值Pm；计算Pm的自然对数，得到Lm，计算其离散余弦变换，得到 Dm。舍去其直流分量，其余即为MFCC 参数；

（4）算法优化：根据RBF神经网络模型构建遗传优化RBF神经网络模型，RBF神经网络模型第一层是输入层，由信号源结点组成；第二层为隐藏层，其节点数目根据所描述问题的需要而确定，该层中神经元变换函数即径向基函数是对中心点径向对称且衰减的非负线性函数；第三层为输出层，它对输入模式作出响应，利用已经构建完成的RBF神经网络模型构建出遗传优化RBF神经网络模型；

（5）网络训练及识别：选取多个样本进行试验，声纹拾取设备拾取到的信号传送到识别单元，经过算法匹配后识别，识别结果在显示设备和接收设备上显示。

优选的，在步骤（2）中，所述高通滤波器的计算方式为H(z)=1－0．9375z^-1。

优选的，在步骤（2）中，采用一个窗长为256，窗移是128的汉明窗在语音序列上滑动，对语音进行加窗分帧处理；然后通过对语音信号的短时能量和短时过零率实现比较精确的端点切分，剔除掉静默帧、白噪声帧和清音帧，最后保留对求取MFCC等特征参数非常有用的浊音信号。

优选的，在步骤（4）中，所述RBF 的径向基函数采用高斯函数，其激活函数表示为，式中，‖x_p－c_i‖为欧式范数；c_i为高斯函数的中心；σ为高斯函数的方差。

优选的，在步骤（4）中，所述RBF神经网络模型的网络输出的计算公式为：，式中，x_p= (x₁ ^p，x₂ ^p，…，x_m ^p )^T为第p个输入样本；c_i为网络隐含层节点的中心；w_ij为隐含层到输出层的连接权值；y_i为与输入样本对应的网络的第j个输出节点的实际输出。

优选的，在步骤（4）中，构建遗传优化RBF神经网络模型的方法包括如下步骤：

A种群初始化：个体编码采用实数编码，每个个体均为一个实数串，仅对应 RBF 隐藏层中一个单元；在每一代中，包含了代表隐藏层单元数中心和宽度的字符串集合；

B构建适应度函数；根据个体得到的神经网络的初始隐层中心和宽度，用训练数据训练RBF 神经网络后预测系统输出，把预测输出和期望输出之间的误差绝对值和 E作为个体适应度值 F；

C选择操作：采用轮盘赌法的选择策略；

D交叉和变异操作：将RBF神经网络模型的中心和宽度编码放在同一个个体中，因此在交叉过程中必须对它们分别进行操作，按照一定的交叉概率随机地从群体中取出两个个体，对两个个体进行交叉，交叉点分别落在宽度和中心的编码中；交叉概率在0.5-1.0之间取值，变异算子通过对所有个体随机的确定基因位以变异概率改变该基因值，变异概率取值在0.01-0.2之间。

优选的，在步骤B中，个体适应度值 F的计算公式为；其中n为网络输出节点数，y_i为第i个节点的期望输出；O_i为第i个节点预测输出，k为系数；在步骤C中，概率P_i的计算公式为，式中为适应度值，N 为种群个体数目

（三）有益效果

本发明提供了一种声纹识别方法，具备有以下有益效果：本发明设置的声纹识别系统，首先声纹拾取设备进行收录声音，收录的声音经过A/D转换器转换成数字信号，这样避免被外界的声音干扰，数字后的声音信号传递到分析设备的识别单元内是，识别单元的内部的语音信号预处理模块对初始信号进行预处理，消除了发声过程中声带和嘴唇的效应，补偿语音信号收到发音系统所压抑的高频部分，并且通过对语音信号的短时能量和短时过零率实现比较精确的端点切分，可以剔除掉静默帧、白噪声帧和清音帧，最后保留对求取 MFCC等特征参数非常有用的浊音信号，这样有效进行筛选声音，避免无关音源的干扰，经过预处理后的声音进行特征提取，提取后的MFCC参数与线性预测倒谱分析相比，突出的优点是不依赖全极点语音产生模型，因此，在与文本无关的说话人识别系统中，MFCC参数能够更好地提高系统的识别性能，利用优化后的RBF神经网络模型进行训练，加快了训练效率，运用遗传算法优化 RBF 神经网络隐层中心值和宽度，并将优化后的 RBF 神经网络用于声纹识别系统，识别的准确性更高。

附图说明

图1为本发明的框架图。

图2为本发明的识别单元的框架图。

图3为本发明的流程图图。

图4为本发明的构建遗传优化RBF神经网络模型方法的流程图。

图中：1、声纹拾取设备；2、分析设备；3、扬声器设备；4、语音转换器；5、显示设备；6、接收设备；7、识别单元；8、语音信号预处理模块；9、特征参数提取模块；10、算法优化模块；11、网络训练及识别模块；12、存储器设备。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1、2、3、4所示，现提出下述实施例：一种声纹识别系统，包括声纹拾取设备1、分析设备2、扬声器设备3、语音转换器4、显示设备5以及接收设备6，所述声纹拾取设备1的输出端连接到所述分析设备2，所述分析设备2内置有识别单元7，所述分析设备2的输出端连接到所述语音转换器4以及所述扬声器设备3以及所述接收设备6，所述语音转换器4的输出端连接到所述显示设备5，所述识别单元7包括语音信号预处理模块8、特征参数提取模块9、算法优化模块10以及网络训练及识别模块11，所述声纹拾取设备1的输出端连接到所述语音信号预处理模块8的输入端，所述语音信号预处理模块8的输出端连接到所述特征参数提取模块9的输入端，所述特征参数提取模块9的输出端连接到所述算法优化模块10的输入端，所述算法优化模块10的输出端连接到所述网络训练及识别模块11的输入端，所述网络训练及识别模块11的输出端连接所述语音转换器4以及所述扬声器设备3以及所述接收设备6。所述声纹拾取设备1为录音设备，所述显示设备5为显示屏设备，所述接收设备6为声控锁、声控灯或者声控门设备，所述分析设备2为微处理器设备，微处理设备为单片机控制芯片或者嵌入式处理器设备。所述分析设备2的输出端还连接有存储器设备12。

（2）语音信号的预处理：语音信号预处理模块接收到数字化的语音信号后，首先语音信号经过预加重、加窗分帧和端点检测，其中预加重主要是为了消除发声过程中声带和嘴唇的效应，补偿语音信号收到发音系统所压抑的高频部分，将原始语音信号通过一个高通滤波器，所述高通滤波器的计算方式为H(z)=1－0．9375z^-1；采用一个窗长为256，窗移是128的汉明窗在语音序列上滑动，对语音进行加窗分帧处理；然后通过对语音信号的短时能量和短时过零率实现比较精确的端点切分，剔除掉静默帧、白噪声帧和清音帧，最后保留对求取MFCC等特征参数非常有用的浊音信号；

（4）算法优化：根据RBF神经网络模型构建遗传优化RBF神经网络模型，RBF神经网络模型第一层是输入层，由信号源结点组成；第二层为隐藏层，其节点数目根据所描述问题的需要而确定，该层中神经元变换函数即径向基函数是对中心点径向对称且衰减的非负线性函数；第三层为输出层，它对输入模式作出响应，所述RBF 的径向基函数采用高斯函数，其激活函数表示为，式中，‖x_p－c_i‖为欧式范数；c_i为高斯函数的中心；σ为高斯函数的方差，所述RBF神经网络模型的网络输出的计算公式为：，式中，x_p= (x₁ ^p，x₂ ^p，…，x_m ^p )^T为第p个输入样本；c_i为网络隐含层节点的中心；w_ij为隐含层到输出层的连接权值；y_i为与输入样本对应的网络的第j个输出节点的实际输出，利用已经构建完成的RBF神经网络模型构建出遗传优化RBF神经网络模型，构建遗传优化RBF神经网络模型的方法包括如下步骤：

B构建适应度函数；根据个体得到的神经网络的初始隐层中心和宽度，用训练数据训练RBF 神经网络后预测系统输出，把预测输出和期望输出之间的误差绝对值和 E作为个体适应度值 F，个体适应度值 F的计算公式为；

C选择操作：采用轮盘赌法的选择策略；

D交叉和变异操作：将RBF神经网络模型的中心和宽度编码放在同一个个体中，因此在交叉过程中必须对它们分别进行操作，按照一定的交叉概率随机地从群体中取出两个个体，对两个个体进行交叉，交叉点分别落在宽度和中心的编码中；交叉概率在0.5-1.0之间取值，变异算子通过对所有个体随机的确定基因位以变异概率改变该基因值，变异概率取值在0.01-0.2之间；

语音采集频率为11025kHz，8 bit量化编码。采集20男，20女，每人提供10语音文件。其中每人8个样本进行网络训练，2个样本用来测试。经过预加重和端点检测后，确定了语音信号的起始和结束位置后，接着进行特征提取，提取的说话人语音特征参数是50×12维的MFCC参数，在确定整个有效的语音段后，将语音段划分成50帧，每帧取12维，这样形成维的MFCC参数。RBF神经网络的中心点个数取 m =20，基函数用高斯函数，采用遗传算法来优化RBF神经网络，进化100代，试验结果表明，采用遗传算法优化 RBF 神经网络的正确率能达到98．5%，比传统的 RBF 神经网络的识别正确率提高了6%左右。

本发明设置的声纹识别系统，首先声纹拾取设备1进行收录声音，收录的声音经过A/D转换器转换成数字信号，这样避免被外界的声音干扰，数字后的声音信号传递到分析设备2的识别单元内是，识别单元7的内部的语音信号预处理模8块对初始信号进行预处理，消除了发声过程中声带和嘴唇的效应，补偿语音信号收到发音系统所压抑的高频部分，并且通过对语音信号的短时能量和短时过零率实现比较精确的端点切分，可以剔除掉静默帧、白噪声帧和清音帧，最后保留对求取MFCC 等特征参数非常有用的浊音信号，这样有效进行筛选声音，避免无关音源的干扰，经过预处理后的声音进行特征提取，提取后的MFCC参数与线性预测倒谱分析相比，突出的优点是不依赖全极点语音产生模型，因此，在与文本无关的说话人识别系统中，MFCC参数能够更好地提高系统的识别性能，利用优化后的RBF神经网络模型进行训练，加快了训练效率，运用遗传算法优化 RBF 神经网络隐层中心值和宽度，并将优化后的 RBF 神经网络用于声纹识别系统，识别的准确性更高。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种声纹识别系统，其特征在于：包括声纹拾取设备（1）、分析设备（2）、扬声器设备（3）、语音转换器（4）、显示设备（5）以及接收设备（6），所述声纹拾取设备（1）的输出端连接到所述分析设备（2），所述分析设备（2）内置有识别单元（7），所述分析设备（2）的输出端连接到所述语音转换器（4）以及所述扬声器设备（3）以及所述接收设备（6），所述语音转换器（4）的输出端连接到所述显示设备（5），所述识别单元（7）包括语音信号预处理模块（8）、特征参数提取模块（9）、算法优化模块（10）以及网络训练及识别模块（11），所述声纹拾取设备（1）的输出端连接到所述语音信号预处理模块（8）的输入端，所述语音信号预处理模块（8）的输出端连接到所述特征参数提取模块（9）的输入端，所述特征参数提取模块（9）的输出端连接到所述算法优化模块（10）的输入端，所述算法优化模块（10）的输出端连接到所述网络训练及识别模块（11）的输入端，所述网络训练及识别模块（11）的输出端连接所述语音转换器（4）以及所述扬声器设备（3）以及所述接收设备（6）。

2.根据权利要求1所述的一种声纹识别系统，其特征在于：所述声纹拾取设备（1）为录音设备，所述显示设备（5）为显示屏设备，所述接收设备（6）为声控锁、声控灯或者声控门设备，所述分析设备（2）为微处理器设备，微处理设备为单片机控制芯片或者嵌入式处理器设备。

3.根据权利要求1所述的一种声纹识别系统，其特征在于：所述分析设备（2）的输出端还连接有存储器设备（12）。

4.一种根据上述权利要求1-3任一项所述的声纹识别系统的识别方法，其特征在于：包括如下步骤：

（3）特征参数提取：对预加重后每帧序列语音信号进行离散FFT变换，取模的平方得到离散功率谱 S(n)；计算 S(n)通过M个带通滤波器后得到的功率值Pm；计算Pm的自然对数，得到Lm，计算其离散余弦变换，得到 Dm；舍去其直流分量，其余即为MFCC 参数；

5.根据权利要求4所述的一种声纹识别方法，其特征在于：在步骤（2）中，所述高通滤波器的计算方式为。

6.根据权利要求4所述的一种声纹识别方法，其特征在于：在步骤（2）中，采用一个窗长为256，窗移是128的汉明窗在语音序列上滑动，对语音进行加窗分帧处理；然后通过对语音信号的短时能量和短时过零率实现比较精确的端点切分，剔除掉静默帧、白噪声帧和清音帧，最后保留对求取MFCC等特征参数非常有用的浊音信号。

7.根据权利要求4所述的一种声纹识别方法，其特征在于：在步骤（4）中，所述RBF 的径向基函数采用高斯函数，其激活函数表示为，式中，‖x_p－c_i‖为欧式范数；c_i为高斯函数的中心；σ为高斯函数的方差。

8.根据权利要求4所述的一种声纹识别方法，其特征在于：在步骤（4）中，所述RBF神经网络模型的网络输出的计算公式为：，式中，为第p个输入样本；c_i为网络隐含层节点的中心；w_ij为隐含层到输出层的连接权值；y_i为与输入样本对应的网络的第j个输出节点的实际输出。

9.根据权利要求4所述的一种声纹识别方法，其特征在于：在步骤（4）中，构建遗传优化RBF神经网络模型的方法包括如下步骤：

C选择操作：采用轮盘赌法的选择策略；

10.根据权利要求9所述的一种声纹识别方法，其特征在于：在步骤B中，个体适应度值F的计算公式为；其中n为网络输出节点数，y_i为第i个节点的期望输出；O_i为第i个节点预测输出，k为系数；在步骤C中，概率P_i的计算公式为，式中为适应度值，N 为种群个体数目。