CN108806696B

CN108806696B - 建立声纹模型的方法、装置、计算机设备和存储介质

Info

Publication number: CN108806696B
Application number: CN201810433792.XA
Authority: CN
Inventors: 蔡元哲; 王健宗; 程宁; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2020-06-05
Anticipated expiration: 2038-05-08
Also published as: JP2020524308A; US20200294509A1; US11322155B2; SG11202002083WA; WO2019214047A1; CN108806696A; JP6906067B2

Abstract

本申请揭示了一种建立声纹模型的方法、装置、计算机设备和存储介质，其中方法包括：对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；计算至少一个所述簇结构的平均值和标准差；将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型。本申请提取出的语音声学特征基于深度神经网络训练中得出簇结构，然后将簇结构进行坐标映射和激活函数计算，得出的声纹模型，可以降低声纹模型的声音识别错误率。

Description

建立声纹模型的方法、装置、计算机设备和存储介质

技术领域

本申请涉及到计算机技术领域，特别是涉及到一种建立声纹模型的方法、装置、计算机设备和存储介质。

背景技术

声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。声纹识别算法通过学习声音图谱中抽取各种语音特征，建立识别模型，从而来确认说话人。目前的声纹识别方法，对于长声音文本(说话人语音长度超过1分钟以上的)效果很好，但是对于短声音文本(说话人语音长度少于1分钟，例如20s左右)来说，识别的错误率还比较高。

因此，如何建立一种可以降低短声音文本识别的错误率的声纹模型是亟需解决的问题。

发明内容

本申请的主要目的为提供一种建立降低短声音文本的识别错误率的声纹模型的方法、装置、计算机设备和存储介质。

为了实现上述发明目的，本申请提出一种建立声纹模型的方法，包括：

对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；

将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；

计算至少一个所述簇结构的平均值和标准差；

将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；

将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

进一步地，所述深度学习模型包括多层模型层，所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构的步骤包括：

将多个所述语音声学特征输入深度学习模型中；

选取多个所述语音声学特征中的任一时间节点t，以距离该时间节点t的每tn时间内的语音声学特征建立第n模型层，n为正整数；

选择所述多层模型层中的目标模型层，并获取所述目标模型层上生成的至少一个簇结构。

进一步地，所述将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，与所述目标用户对应的得到声纹模型的步骤，包括：

将所述声纹模型的特征向量参数进行降维；

将所述降维后的特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到声纹模型。

进一步地，所述提取分帧后的语音信号的语音声学特征的步骤包括：

将分帧后的语音信号进行快速傅里叶变换计算，得到能量谱；

将所述能量谱输入梅尔尺度的三角滤波器组，输出共振峰特征；

将所述共振峰特征经离散余弦变换，得到语音声学特征。

进一步地，所述得到声纹模型的步骤之后包括：

将待验证语音信号输入所述声纹模型中，得到所述声纹模型输出的身份验证结果。

进一步地，所述得到声纹模型的步骤之后包括：

接收用户对所述声纹模型标记的属性信息，所述属性信息包括的所述目标用户的性别、年龄、民族。

识别输入的分帧后的语音信号的语音内容；

判断所述语音内容的发声部位；

根据所述发声部位将所述语音信号拆分；

分别对拆分后的语音信号提取语音声学特征。

本申请还提供一种建立声纹模型的装置，包括：

提取模块，用于对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；

簇结构模块，用于将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；

计算模块，用于计算至少一个所述簇结构的平均值和标准差；

特征向量模块，用于将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；

模型模块，用于将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的建立声纹模型的方法、装置、计算机设备和存储介质，将提取出的语音声学特征基于深度神经网络训练中得出簇结构，然后将簇结构进行坐标映射和激活函数计算，得出的声纹模型，可以降低声纹模型的声音识别错误率。

附图说明

图1为本申请一实施例的建立声纹模型的方法的流程示意图；

图2为本申请一实施例的建立声纹模型的方法的S2步骤的流程示意图；

图3为本申请一实施例的建立声纹模型的方法的S22步骤的流程示意图；

图4为本申请一实施例的建立声纹模型的方法的S5步骤的流程示意图；

图5为本申请一实施例的建立声纹模型的方法的S1步骤的流程示意图；

图6为本申请一实施例的建立声纹模型的方法的S11步骤的流程示意图；

图7为本申请一实施例的建立声纹模型的方法的流程示意图；

图8为本申请一实施例的建立声纹模型的方法的S1步骤的流程示意图；

图9为本申请一实施例的建立声纹模型的装置的结构示意图；

图10为本申请一实施例的建立声纹模型的装置的簇结构模块的结构示意图；

图11为本申请一实施例的建立声纹模型的装置的建立单元的结构示意图；

图12为本申请一实施例的建立声纹模型的装置的模型模块的结构示意图；

图13为本申请一实施例的建立声纹模型的装置的提取模块的结构示意图；

图14为本申请一实施例的建立声纹模型的装置的计算单元的结构示意图；

图15是本申请一实施例的建立声纹模型的装置的结构示意图；

图16是本申请一实施例的建立声纹模型的装置的提取模块的结构示意图；

图17为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种建立声纹模型的方法，包括步骤：

S1、对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；

S2、将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；

S3、计算至少一个所述簇结构的平均值和标准差；

S4、将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；

S5、将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

如上述步骤S1所述，声纹是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹都有差异。语音信号是一种搭载着特定的信息模拟信号，其来源是由人发出的声音信号转换成的语音信号。每个人的声纹不一样，因而，相同的人说出同样的话产生的声音而后转换成的语音信号也是不一样的。因而，语音信号里所包含的语音声学特征也是不一样的。语音声学特征是每个人发出的声音中包含的声纹信息。分帧是指将连续的语音信号分成多段。人在正常讲话的语速下，音素的持续时间大约是50～200毫秒，所以帧长一般取为小于50毫秒。从微观上来看，它又必须包括足够多的振动周期。语音的音频，男声在100赫兹左右，女声在200赫兹左右，换算成周期就是10毫秒和5毫秒。一般一帧要包含多个周期，所以一般取至少20毫秒。所谓的语音信号包括一段连续的语音，例如一个句子、一段话等。所述语音声学特征可为所述语音片段的梅尔频率倒谱系数(MFCC)，或感知线性预测系数(PLP)，或滤波器组特征(Filter Bank Feature)等。当然，所述语音声学特征也可为所述语音片段的原始语音数据。将目标用户的语音信号中的语音声学特征提取出来，是将需要建立声纹模型的人说话的声音信号提取出来，非目标用户说话产生的语音信号则不进行提取。语音声学特征是从一段连续的语音信号中提取出来的包含有人说话的部分的语音信号，因而也是一段连续的语音信号。将语音信号分帧后，得到多段语音信号，分别提取出每段语音信号的语音声学特征，则得到多个语音声学特征。

如上述步骤S2所述，语音声学特征是从分帧的语音信号中提取出来的，是一段语音信号，将该语音信号输入到神经网络训练模型中，目的是将语音声学特征进行集合计算，方便统计与计算语音声学特征。簇结构是对一个或多个语音声学特征的集合计算结果，能体现出多个语音声学特征集合在一起的相同的共性特征。

如上述步骤S3所述，将多个语音声学特征输入基于神经网络的深度学习模型后，输出得到至少一个簇结构x1、x2、x1、...xn，假设簇结构是一个p维向量，则xn＝(xi1,xi2,...,xip)^T(i＝1,2,...n)。计算这些簇结构的均值和标准差。得到簇结构的平均值和标准差。其中，计算多个簇结构的平均值的方法为:首先根据公式：

计算每个分量的平均值，然后再根据公式：x0＝(x1,x2,...,xj)^T，计算出p维的平均向量，将p维的平均向量组合形成簇结构的平均值：E(x)。计算多个簇结构的标准差的公式为:D(x)＝E{[x-E(x)][x-E(x)]^T}。

如上述步骤S4所述，将上述的E(x)和D(x)经过a级映射和b级映射。其中，a级映射是将簇结构的平均值和标准差进行坐标变换，b级映射是将簇结构的平均值和标准差通过激活函数计算后得出一个非线性结果，该结果即为建立声纹模型的特征向量参数。

如上述步骤S5所述，系统将特征向量参数以及目标用户的身份验证结果输入到预设的基础模型，得到目标用户的声纹模型，该声纹模型接收到语音信号后，判断产生语音信号的人是否是目标用户说话的声音。基础模型是指神经网络模型，例如BP神经网络模型。BP神经网络是一种对非线性可微分函数进行权值训练的多层网络。它的最大特点是仅仅借助样本数据,无需建立系统的数学模型,就可对系统实现由m个输入神经元的模式向量p组成的pm空间到yn空间n(为输出节点数)的高度非线性映射。上述a级映射和b级映射，两个映射的过程不分先后。b级映射的激活函数可以采用Sigmoid，Sigmoid函数是一个在生物学中常见的S型的函数，也称为S型生长曲线，主要用作神经网络的阈值函数，在物理意义上最为接近生物神经元，其非线性激活函数的形式是σ(x)＝1/(1+e^-x)，该公式中，x是输入的语音声学特征，e是自然常数，是数学科的一种法则，约为2.71828。

参照图2，本实施例中，所述深度学习模型包括多层模型层，所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构的步骤包括：

S21、将多个所述语音声学特征输入深度学习模型中；

S22、选取多个所述语音声学特征中的任一时间节点t，以距离该时间节点t的每tn时间内的语音声学特征建立第n模型层，n为正整数；

S23、选择所述多层模型层中的目标模型层，并获取所述目标模型层上生成的至少一个簇结构。

如上述步骤S21所述，多个语音声学特征均是从一段连续的语音信号中提取出来的，因而多个语音声学特征也是连续的。将多个所述语音声学特征输入到深度学习模型中时，也是按照时间顺序来输入的。

如上述步骤S22所述，多个语音声学特征均是一段连续的声音信号，合在一起也是一段连续的声音信号，在该多个语音声学特征中，选取任一时间节点t，然后以距离t时刻在tn时间段内的语音声学特征进行集合，在其中一个模型层上形成簇结构。由于深度学习模型具有多层模型层，每个模型层上选择的时间节点t与距离t时刻的时间段tn不一样，每层模型层生成的簇结构的数量是不完全相同的。比如该多个语音声学特征一共有10秒，即10000ms，选择时间节点是第2000ms，建立第一模型层，每间隔t1(1ms)的时间内建立第一模型层，则第一模型层共有10000帧。然后建立第二模型层，取t2为2ms，每隔2ms的时间内建立第二模型层，第二模型层共有500帧。

如上述步骤S23所述，经过深度学习模型学习后，得到了多个模型层，每个模型层中均有多个簇结构，系统再选择其中一个模型层作为目标模型层，选择目标模型层上的簇结构作为后续生成声纹模型的参数。

参照图3，在一具体实施例中，建立5层模型层，上述步骤S22包括如下步骤：

S221、选择多个所述语音声学特征中的任一时间节点t，以距离该时间节点t的每t1时间内的语音声学特征建立第一模型层；

S222、在第一模型层上，以距离该时间节点t的每t2时间内的语音声学特征建立第二模型层；

S223、在第二模型层上，以距离该时间节点t的每t3时间内的语音声学特征建立第三模型层；

S224、在第三模型层上，以距离该时间节点t的每t4时间内的语音声学特征建立第四模型层；

S225、在第四模型层上，以距离该时间节点t的每t5时间内的语音声学特征建立第五模型层，其中，t1<t2<t3<t4<t5。

如上述S221步骤所述，选取任一时间节点t，比如该语音声学特征有10秒，即10000ms，选择时间节点是第2000ms，建立第一模型层，每间隔t1(1ms)的时间内建立第一模型层，则第一模型层共有10000帧。

在步骤S222中，在第一模型层的基础上，仍然是选择时间节点是第2000ms，每隔t2(2ms)的时刻内建立第二模型层，则第二模型层共有5000帧。在步骤S223中，在第二模型层的基础上，仍然是选择时间节点是第2000ms，每隔t3(3ms)的时刻内建立第三模型层，则第三模型层共有3334帧。在步骤S224中，在第三模型层的基础上，仍然是选择时间节点是第2000ms，每隔t4(4ms)的时刻内建立第四模型层，则第四模型层共有2500帧。在步骤S225中，在第四模型层的基础上，仍然是选择时间节点是第2000ms，每隔t5(8ms)的时刻内建立第二模型层，则第二模型层共有1250帧。最终，将这第五模型层上的1250帧集合成为簇结构，经过五层深度学习模型，最终得到1250个簇结构。

参照图4，进一步地，本实施例中，所述将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型的步骤，包括：

S51、将所述声纹模型的特征向量参数进行降维；

S52、将所述降维后的特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到声纹模型。

上述步骤中，系统利用基于概率的线性判别分析(Linear DiscriminantAnalysis，LDA)来进行降维。之后进行目标用户的声纹的模型设计。同时，输出层采取Softmax函数计算结果，所有节点均采用[-0.05～0.05]区间的均匀随机权重初始化，偏置初始为0，得到最终的声纹模型。softmax函数的输入是一个向量，而其输出也是一个向量，向量中的每个元素都是介于0和1之间的概率值。偏置训练模型的时候，每一次训练得到的训练集预测标签与原始真实标签的偏离程度，如果此偏离程度过小，则会导致过拟合的发生，因为可能将训练集中的噪声也学习了。所以说偏置刻画了学习算法本身的拟合能力，如果拟合能力不好，偏置较大，出现欠拟合；反之拟合能力过好，偏置较小，容易出现过拟合。在训练的时候可以发现这个偏置理论上应该是逐渐变小的，表明我们的模型正在不断学习有用的东西。

参照图5，本实施例中，所述提取分帧后的语音信号的语音声学特征的步骤包括：

S11、将分帧后的语音信号进行快速傅里叶变换计算，得到能量谱；

S12、将所述能量谱输入梅尔尺度的三角滤波器组，输出共振峰特征；

S13、将所述共振峰特征经离散余弦变换，得到语音声学特征。

在上述步骤S11中，将分帧后提取出的有效语音信号进行快速傅里叶变换，将时域的语音信号转换成频域的能量谱。快速傅里叶变换(FFT)，是离散傅氏变换的快速算法，它是根据离散傅氏变换的奇、偶、虚、实等特性，对离散傅立叶变换的算法进行改进获得的。

在上述步骤S12中，共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接的来源，而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数，已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中，因此共振峰参数提取的关键是估计自然语音频谱包络，一般认为谱包络中的最大值就是共振峰。之后将能量谱输入梅尔尺度的三角滤波器计算每个滤波器组输出的对数能量，滤波器组输出的特征又称为Filter Bank(FBANK)特征。使用梅尔刻度滤波器组过滤，这一目的是因为频域信号有很多冗余，滤波器组可以对频域的幅值进行精简，每一个频段用一个值来表示；过滤的具体步骤是将快速傅里叶变换后得到的频谱分别跟每一个滤波器进行频率相乘累加，得到的值即为该帧数据在在该滤波器对应频段的能量值。

在上述步骤S13中，将共振峰特征经对数能量计算后，经离散余弦变换就可得到MFCC系数(mel frequency cepstrum coefficient)，亦即MFCC声学特征。由于人耳对声音的感知并不是线性的，用log这种非线性关系更好描述。取完log以后才可以进行倒谱分析。因此，将能量值进行对数计算，得到对数能量。因为离散余弦变换的结果没有虚部，更好计算，因此，将对数能量进行离散余弦变换，最终得到MFCC系数(mel frequency cepstrumcoefficient)，亦即MFCC声学特征。

进一步地，上述得到声纹模型的步骤之后包括：

S6、将待验证语音信号输入所述声纹模型中，得到所述声纹模型输出的身份验证结果。

如上述步骤S6所述，建立好声纹模型后，该声纹模型具有一个接收语音信号的端口。当接收到语音信号后，该声纹模型将该语音信号进行计算，若是目标用户的语音信号，则输出目标正确的信号；若不是目标用户的语音信号，则输出目标错误的信号。

参照图6，进一步地，所述将分帧后的语音信号进行快速傅里叶变换计算的步骤包括：

S111、将分帧后的语音信号进行预加重处理；

S112、将预加重处理后的语音信号加窗；

S113、通过语音端点检测，提取出含有说话声音的有效部分语音信号；

S114、将所述有效部分语音信号进行快速傅里叶变换计算。

在上述步骤S111中，将语音信号进行预加重处理，因语音信号里还包含有一些杂音、噪音，如果直接将语音信号进行声纹建模处理，会得到一些包含杂音、噪音的影响，建立出来的模型不准确，会导致识别错误率的提升。直接提取有效语音，就是采用语音端点检测的方法来实现，即识别该语音中是从哪一时刻开始是人开始讲话，哪一时刻开始是人结束讲话。语音端点检测的主要依据原理是：包含有人讲话语音的音频文件的语音频谱比不包含有人语音的音频文件的语音频谱高，因此，在提取出有效语音前，先将语音信号进行预加重，即放大语音信号，使含有人讲话部分的频谱更高，两者的差更明显，更好的进行语音端点检测。

在上述步骤S112中，语音信号处理常常要达到的一个目标，就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换。傅里叶变换要求输入信号是平稳的。而语音在宏观上来看是不平稳的。但是从微观上来看，语音信号就可以看成平稳的，就可以截取出来做傅里叶变换了。加窗的目的是让一帧信号的幅度在两端渐变到0。渐变到0对傅里叶变换有好处，可以提高变换结果(即频谱)的分辨率。

在上述步骤S113中，因语音信号里还包含有一些杂音、噪音，如果直接将语音信号进行声纹建模处理，会得到一些包含杂音、噪音的影响，建立出来的模型不准确，直接导致加大识别错误率。直接提取有效语音，就是采用语音端点检测的方法来实现，即识别该语音中是从哪一时刻开始是人开始讲话，哪一时刻开始是人结束讲话。通过端点检测，区分语音与噪声，并提取出有效的语音部分。人在说话时也会有停顿。提取出有效部分的语音，即将人说话时人停顿时的噪音部分去掉，只提取出人说话部分的有效语音。

在上述步骤S114中，快速傅里叶变换(FFT)，是离散傅氏变换的快速算法，它是根据离散傅氏变换的奇、偶、虚、实等特性，对离散傅立叶变换的算法进行改进获得的。这样可以计算得出一段语音中说话人的语音声学特征。

参照图7，进一步地，所述得到声纹模型的步骤之后包括：

S7、接收用户对所述声纹模型标记的属性信息，所述属性信息包括所述目标用户的性别、年龄、民族。

在上述S7步骤中，将声纹模型建立后，系统接收用户对声纹模型添加的标记，标记该声纹模型对应的目标用户的个人信息，包括性别、年龄、民族、身高、体重等。因为声纹信息与发声的器官有关，发声控制器官包括声带、软颚、舌头、牙齿、唇等；发声共鸣器包括咽腔、口腔、鼻腔。发声的器官相近的人，发出的声音具有一定的共性或比较接近，因此，属性信息相同的人的声纹信息会有比较相近。收集多个人的声纹信息后，将其进行归纳总结，便于找出声纹信息与人的一些关系。

参照图8，进一步地，本实施例中，所述提取分帧后的语音信号的语音声学特征的步骤包括：

S14、识别输入的分帧后的语音信号的语音内容；

S15、判断所述语音内容的发声部位；

S16、根据所述发声部位将所述语音信号拆分；

S17、分别对拆分后的语音信号提取语音声学特征。

在上述步骤S14中，识别输入的分帧后的语音信号的语音内容，即通过语音识别的手段，将语音信号识别出来，识别出说话人的具体说话文本信息。

在上述步骤S15中，判断所述语音内容的发声部位，是根据上述S14中识别出的语音内容，读取该语音内容的拼音或者是音标，根据拼音或者音标的内容来判断发声部位。常用的主要发声部位有喉、舌头、鼻、牙齿等。例如在普通话中，根据不同的声母确定对应的发声部位。具体的声母与发声部位对应的表格如下：

在上述步骤S16中，判断语音内容的发声部位后，上溯回查语音信号的发声部位，根据语音信号对应的发声部位，将语音信号拆分成多段，每一段语音信号都对应一个发声部位。例如，一段时长为10秒的语音信号，第0-2秒的语音内容中均包含有b或p或m的声母，第3-5秒的语音内容均包含有j或q或x的声母，第6-10秒的语音内容均包含有d或t或n或l的声母，那么，将该语音信号拆分成三段语音信号。第一段是第0-2秒的语音内容，第二段是第3-5秒的语音内容，第三段是第6-10秒的语音内容。

在上述步骤S17对这三段语音内容分别提取声学特征，然后分别输入后面的深度学习模型中进行计算。

综上所述，本申请的建立声纹模型的方法，将提取出的语音声学特征基于深度神经网络训练中得出簇结构，然后将簇结构进行坐标映射和激活函数计算，得出的声纹模型，可以降低声纹模型的声音识别错误率。

参照图9，本申请还提出一种建立声纹模型的装置，包括：

提取模块1，用于对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；

簇结构模块2，用于将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；

计算模块3，用于计算至少一个所述簇结构的平均值和标准差；

特征向量模块4，用于将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；

模型模块5，用于将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

本实施例中，提取模块1中的声纹是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹都有差异。语音信号是一种搭载着特定的信息模拟信号，其来源是由人发出的声音信号转换成的语音信号。每个人的声纹不一样，因而，相同的人说出同样的话产生的声音而后转换成的语音信号也是不一样的。因而，语音信号里所包含的语音声学特征也是不一样的。语音声学特征是每个人发出的声音中包含的声纹信息。分帧是指将连续的语音信号分成多段。人在正常讲话的语速下，音素的持续时间大约是50～200毫秒，所以帧长一般取为小于50毫秒。从微观上来看，它又必须包括足够多的振动周期。语音的音频，男声在100赫兹左右，女声在200赫兹左右，换算成周期就是10毫秒和5毫秒。一般一帧要包含多个周期，所以一般取至少20毫秒。所谓的语音信号包括一段连续的语音，例如一个句子、一段话等。所述语音声学特征可为所述语音片段的梅尔频率倒谱系数(MFCC)，或感知线性预测系数(PLP)，或滤波器组特征(Filter Bank Feature)等。当然，所述语音声学特征也可为所述语音片段的原始语音数据。提取模块1将目标用户的语音信号中的语音声学特征提取出来，是将需要建立声纹模型的人说话的声音信号提取出来，非目标用户说话产生的语音信号则不进行提取。语音声学特征是从一段连续的语音信号中提取出来的包含有人说话的部分的语音信号，因而也是一段连续的语音信号。提取模块1将语音信号分帧后，得到多段语音信号，分别提取出每段语音信号的语音声学特征，则得到多个语音声学特征。

语音声学特征是从分帧的语音信号中提取出来的，是一段语音信号，簇结构模块2将该语音信号输入到神经网络训练模型中，目的是将语音声学特征进行集合计算，方便统计与计算语音声学特征。簇结构模块2是将该段语音声学特征的集合，能体现出多个语音声学特征集合在一起的相同的共性特征。

计算模块3将多个语音声学特征输入基于神经网络的深度学习模型后，输出得到至少一个簇结构x1、x2、x1、...xn，假设簇结构是一个p维向量，则xn＝(xi1,xi2,...,xip)^T(i＝1,2,...n)。计算这些簇结构的均值和标准差。得到簇结构的平均值和标准差。其中，计算多个簇结构的平均值的方法为:首先计算模块3根据公式：

计算每个分量的平均值，然后计算模块3再根据公式：x0＝(x1,x2,...,xj)^T，计算出p维的平均向量，计算模块3将p维的平均向量组合形成簇结构的平均值：E(x)。计算模块3计算多个簇结构的标准差的公式为:D(x)＝E{[x-E(x)][x-E(x)]^T}。

特征向量模块4将上述的E(x)和D(x)经过a级映射和b级映射。其中，a级映射是将簇结构的平均值和标准差进行坐标变换，b级映射是将簇结构的平均值和标准差通过激活函数计算后得出一个非线性结果，该结果即为建立声纹模型的特征向量参数。

然后模型模块5将特征向量参数以及目标用户的身份验证结果输入到预设的基础模型，得到目标用户的声纹模型，该声纹模型接收到语音信号后，判断产生语音信号的人是否是目标用户说话的声音。基础模型是指神经网络模型，例如BP神经网络模型。BP神经网络是一种对非线性可微分函数进行权值训练的多层网络。它的最大特点是仅仅借助样本数据,无需建立系统的数学模型,就可对系统实现由m个输入神经元的模式向量p组成的pm空间到yn空间n(为输出节点数)的高度非线性映射。上述a级映射和b级映射，两个映射的过程不分先后。b级映射的激活函数可以采用Sigmoid，Sigmoid函数是一个在生物学中常见的S型的函数，也称为S型生长曲线，主要用作神经网络的阈值函数，在物理意义上最为接近生物神经元，其非线性激活函数的形式是σ(x)＝1/(1+e^-x)，该公式中，x是输入的语音声学特征，e是自然常数，是数学科的一种法则，约为2.71828。

参照图10，本实施例中，所述深度学习模型包括多层模型层，所述簇结构模块2包括：

输入单元21，用于将多个所述语音声学特征输入深度学习模型中；

建立单元22，用于选取多个所述语音声学特征中的任一时间节点t，以距离该时间节点t的每tn时间内的语音声学特征建立第n模型层，n为正整数；

选择单元23，用于选择所述多层模型层中的目标模型层，并获取所述目标模型层上生成的至少一个簇结构。

本实施例中，多个语音声学特征均是从一段连续的语音信号中提取出来的，因而多个语音声学特征也是连续的。输入单元21将多个所述语音声学特征输入到深度学习模型中时，也是按照时间顺序来输入的。

多个语音声学特征均是一段连续的声音信号，合在一起也是一段连续的声音信号，在该多个语音声学特征中中，建立单元22选取任一时间节点t，然后以距离t时刻在tn时间段内的语音声学特征集合，在其中一个模型层上形成簇结构。由于深度学习模型具有多层模型层，每个模型层上选择的时间节点t与距离t时刻的时间段tn不一样，每层模型层生成的簇结构的数量是不完全相同的。比如该多个语音声学特征一共有10秒，即10000ms，选择时间节点是第2000ms，建立单元22建立第一模型层，每间隔t1(1ms)的时间内建立第一模型层，则第一模型层共有10000帧。然后建立单元22建立第二模型层，取2为2ms，每隔2ms的时间内建立第二模型层，第二模型层共有500帧。

经过深度学习模型学习后，得到了多个模型层，每个模型层中均有多个簇结构，选择单元23再选择其中一个模型层上的簇结构作为后续生成声纹模型的参数。

参照图11，在一具体实施例中，建立五层模型层，建立单元22包括：

第一子单元221，用于选择多个所述语音声学特征中的任一时间节点t，以距离该时间节点t的每t1时间内的语音声学特征建立第一模型层；

第二子单元222，用于在第一模型层上，以距离该时间节点t的每t2时间内的语音声学特征建立第二模型层；

第三子单元223，用于在第二模型层上，以距离该时间节点t的每t3时间内的语音声学特征建立第三模型层；

第四子单元224，用于在第三模型层上，以距离该时间节点t的每t4时间内的语音声学特征建立第四模型层；

第五子单元225，用于在第四模型层上，以距离该时间节点t的每t5时间内的语音声学特征建立第五模型层，其中，t1<t2<t3<t4<t5。

第一子单元221选取任一时间节点t，比如该语音声学特征有10秒，即10000ms，选择时间节点是第2000ms，建立第一模型层，每间隔t1(1ms)的时间内建立第一模型层，则第一模型层共有10000帧。

第二子单元222在第一模型层的基础上，仍然是选择时间节点是第2000ms，每隔t2(2ms)的时刻内建立第二模型层，则第二模型层共有5000帧。第三子单元223在第二模型层的基础上，仍然是选择时间节点是第2000ms，每隔t3(3ms)的时刻内建立第三模型层，则第三模型层共有3334帧。第四子单元224在第三模型层的基础上，仍然是选择时间节点是第2000ms，每隔t4(4ms)的时刻内建立第四模型层，则第四模型层共有2500帧。第五子单元225在第四模型层的基础上，仍然是选择时间节点是第2000ms，每隔t5(8ms)的时刻内建立第二模型层，则第二模型层共有1250帧。最终，集合单元将这第五模型层上的1250帧集合成为簇结构，经过五层深度学习模型，最终得到1250个簇结构。

参照图12，进一步地，所述模型模块4包括：

降维单元51，用于将所述声纹模型的特征向量参数进行降维；

模型单元52，用于将所述降维后的特征向量参数输入预设的基础模型，得到声纹模型。

本实施例中，降维单元51利用基于概率的线性判别分析(Linear DiscriminantAnalysis，LDA)来进行降维。之后模型单元52进行目标用户的声纹的模型设计。同时，输出层采取Softmax函数计算结果，所有节点均采用[-0.05～0.05]区间的均匀随机权重初始化，偏置初始为0，得到最终的声纹模型。softmax函数的输入是一个向量，而其输出也是一个向量，向量中的每个元素都是介于0和1之间的概率值。偏置训练模型的时候，每一次训练得到的训练集预测标签与原始真实标签的偏离程度，如果此偏离程度过小，则会导致过拟合的发生，因为可能将训练集中的噪声也学习了。所以说偏置刻画了学习算法本身的拟合能力，如果拟合能力不好，偏置较大，出现欠拟合；反之拟合能力过好，偏置较小，容易出现过拟合。在训练的时候可以发现这个偏置理论上应该是逐渐变小的，表明我们的模型正在不断学习有用的东西。

参照图13，进一步地，所述提取模块1包括：

计算单元11，用于将分帧后的语音信号进行快速傅里叶变换计算，得到能量谱；

输入单元12，用于将所述能量谱输入梅尔尺度的三角滤波器组，输出共振峰特征；

变换单元13，用于将所述共振峰特征经离散余弦变换，得到语音声学特征。

本实施例中，计算单元11将分帧后提取出的有效语音信号进行快速傅里叶变换，将时域的语音信号转换成频域的能量谱。快速傅里叶变换(FFT)，是离散傅氏变换的快速算法，它是根据离散傅氏变换的奇、偶、虚、实等特性，对离散傅立叶变换的算法进行改进获得的。共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接的来源，而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数，已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中，因此共振峰参数提取的关键是估计自然语音频谱包络，一般认为谱包络中的最大值就是共振峰。之后输入模块12将能量谱输入梅尔尺度的三角滤波器组计算每个滤波器组输出的对数能量，滤波器组输出的特征又称为Filter Bank(FBANK)特征。使用梅尔刻度滤波器组过滤，这一目的是因为频域信号有很多冗余，滤波器组可以对频域的幅值进行精简，每一个频段用一个值来表示；过滤的具体步骤是将快速傅里叶变换后得到的频谱分别跟每一个滤波器进行频率相乘累加，得到的值即为该帧数据在在该滤波器对应频段的能量值。将共振峰特征经对数能量计算后，经变换单元13进行离散余弦变换就可得到MFCC系数(melfrequency cepstrum coefficient)，亦即MFCC声学特征。由于人耳对声音的感知并不是线性的，用log这种非线性关系更好描述。取完log以后才可以进行倒谱分析。因此，将能量值进行对数计算，得到对数能量。因为离散余弦变换的结果没有虚部，更好计算，因此，将对数能量进行离散余弦变换，最终得到MFCC系数(mel frequency cepstrum coefficient)，亦即MFCC声学特征。

进一步地，上述建立声纹模型的装置还包括：

验证模块6，用于将待验证语音信号输入所述声纹模型中，得到所述声纹模型输出的身份验证结果。

本实施例中，建立好声纹模型后，该声纹模型具有一个接收语音信号的端口。验证模块6接收到语音信号后，该声纹模型将该语音信号进行计算，若是目标用户的语音信号，则验证模块6输出目标正确的信号；若不是目标用户的语音信号，则验证模块6输出目标错误的信号。

参照图14，进一步地，所述计算单元11包括：

预加重子单元111，用于将语音信号进行预加重处理；

加窗子单元112，用于将预加重处理后的语音信号加窗；

提取子单元113，用于通过语音端点检测，提取出含有说话声音的有效部分语音信号；

计算子单元114，用于将所述有效部分语音信号进行快速傅里叶变换计算。

本实施例中，预加重子单元111将语音信号进行预加重处理，因语音信号里还包含有一些杂音、噪音，如果直接将语音信号进行声纹建模处理，会得到一些包含杂音、噪音的影响，建立出来的模型不准确，会导致识别错误率的提升。直接提取有效语音，就是采用语音端点检测的方法来实现，即识别该语音中是从哪一时刻开始是人开始讲话，哪一时刻开始是人结束讲话。语音端点检测的主要依据原理是包含有人讲话语音的音频文件的语音频谱比不包含有人语音的音频文件的语音频谱高，因此在提取出有效语音前，预加重子单元111先将语音信号进行预加重，即放大语音信号，使含有人讲话部分的频谱更高，两者的差更明显，更好的进行语音端点检测。

语音信号处理常常要达到的一个目标，就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换。傅里叶变换要求输入信号是平稳的。而语音在宏观上来看是不平稳的。但是从微观上来看，语音信号就可以看成平稳的，就可以截取出来做傅里叶变换了。加窗子单元112的目的是让一帧信号的幅度在两端渐变到0。渐变到0对傅里叶变换有好处，可以提高变换结果(即频谱)的分辨率。因此，加窗子单元112将语音信号进行加窗处理。

因语音信号里还包含有一些杂音、噪音，如果直接将语音信号进行声纹建模处理，会得到一些包含杂音、噪音的影响，建立出来的模型不准确，直接导致加大识别错误率。直接提取有效语音，就是采用语音端点检测的方法来实现，即识别该语音中是从哪一时刻开始是人开始讲话，哪一时刻开始是人结束讲话。提取子单元113通过端点检测，区分语音与噪声，并提取出有效的语音部分。人在说话时也会有停顿。提取出有效部分的语音，即将人说话时人停顿时的噪音部分去掉，只提取出人说话部分的有效语音。然后计算子单元114将提取子单元113提取出来的有效语音部分进行快速傅里叶变换计算，这样可以计算得出一段语音中说话人的语音声学特征。

参照图15，进一步地，所述建立声纹模型的装置还包括：

属性模块7，用于接收用户对所述声纹模型标记的属性信息，所述属性信息包括所述目标用户的性别、年龄、民族。

本实施例中，将声纹模型建立后，属性模块7接收用户对声纹模型添加的标记，标记该声纹模型对应的目标用户的个人信息，包括性别、年龄、民族、身高、体重等。因为声纹信息与发声的器官有关，发声控制器官包括声带、软颚、舌头、牙齿、唇等；发声共鸣器包括咽腔、口腔、鼻腔。发声的器官相近的人，发出的声音具有一定的共性或比较接近，因此，属性信息相同的人的声纹信息会有比较相近。收集多个人的声纹信息后，将其进行归纳总结，便于找出声纹信息与人的一些关系。

参照图16，进一步地，所述提取模块1还包括：

识别单元14，用于识别输入的分帧后的语音信号的语音内容；

判断单元15，用于判断所述语音内容的发声部位；

拆分单元16，用于根据所述发声部位将所述语音信号拆分；

提取单元17，用于分别对拆分后的语音信号提取语音声学特征。

本实施例中，识别单元14识别输入的语音信号的语音内容，即通过语音识别的手段，将语音信号识别出来，识别出说话人的具体说话文本信息。

判断单元15判断所述语音内容的发声部位，是根据上述识别单元14中识别出的语音内容，读取该语音内容的拼音或者是音标，根据拼音或者音标的内容来判断发声部位。常用的主要发声部位有喉、舌头、鼻、牙齿等。例如在普通话中，根据不同的声母确定对应的发声部位。具体的声母与发声部位对应的表格如下：

声母	发声部位
		b p m	上唇与下唇
f	上齿与下唇
		z c s	舌尖前与上齿背
d t n l	舌尖中与上齿龈
		zh ch sh r	舌尖后与硬腭前
j q x	舌面与硬腭中
		g k h	舌根与硬腭后

判断单元15判断语音内容的发声部位后，拆分单元16上溯回查语音信号的发声部位，然后拆分单元16根据语音信号对应的发声部位，将语音信号拆分成多段，每一段语音信号都对应一个发声部位。例如，一段时长为10秒的语音信号，第0-2秒的语音内容中均包含有b或p或m的声母，第3-5秒的语音内容均包含有j或q或x的声母，第6-10秒的语音内容均包含有d或t或n或l的声母，那么，拆分单元16将该语音信号拆分成三段语音信号。第一段是第0-2秒的语音内容，第二段是第3-5秒的语音内容，第三段是第6-10秒的语音内容。然后提取单元17分别对这三段语音内容提取出声学特征，然后分别输入后面的深度学习模型中计算。

综上所述，本申请的建立声纹模型的装置，将提取出的语音声学特征基于深度神经网络训练中得出簇结构，然后将簇结构进行坐标映射和激活函数计算，得出的声纹模型，可以降低声纹模型的声音识别错误率。

参照图17，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图17所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储建立声纹模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种建立声纹模型的方法。

在一个实施例中，上述处理器建立声纹模型的方法的步骤，包括：对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；计算至少一个所述簇结构的平均值和标准差；将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

在一个实施例中，上述处理器的深度学习模型包括多层模型层，所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构的步骤包括：将多个所述语音声学特征输入深度学习模型中；选取多个所述语音声学特征中的任一时间节点t，以距离该时间节点t的每tn时间内的语音声学特征建立第n模型层，n为正整数；选择所述多层模型层中的目标模型层，并获取所述目标模型层上生成的至少一个簇结构。

在一实施例中，上述处理器将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型的步骤包括：将所述声纹模型的特征向量参数进行降维；将所述降维后的特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到声纹模型。

在一实施例中，上述处理器提取分帧后的语音信号的语音声学特征的步骤包括：将分帧后的语音信号进行快速傅里叶变换计算，得到能量谱；将所述能量谱输入梅尔尺度的三角滤波器组，输出共振峰特征；将所述共振峰特征经离散余弦变换，得到语音声学特征。

在一实施例中，上述处理器得到声纹模型的步骤之后包括：将待验证语音信号输入所述声纹模型中，得到所述声纹模型输出的身份验证结果。

在一实施例中，上述处理器到声纹模型的步骤之后包括：接收用户对所述声纹模型标记的属性信息，所述属性信息包括所述目标用户的性别、年龄、民族。

在一实施例中，上述处理器提取分帧后的语音信号的语音声学特征的步骤包括：识别输入的分帧后的语音信号的语音内容；判断所述语音内容的发声部位；根据所述发声部位将所述语音信号拆分；分别对拆分后的语音信号提取语音声学特征。

本领域技术人员可以理解，图17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请的计算机设备将提取出的语音声学特征基于深度神经网络训练中得出簇结构，然后将簇结构进行坐标映射和激活函数计算，得出的声纹模型，可以降低声纹模型的声音识别错误率。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种建立声纹模型的方法，具体为：对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；计算至少一个所述簇结构的平均值和标准差；将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

在一实施例中，上述处理器将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型的步骤包括：将所述声纹模型的特征向量参数进行降维；将所述降维后的特征向量以及所述目标用户的身份验证结果参数输入预设的基础模型，得到声纹模型。

本申请的存储介质存储的程序将提取出的语音声学特征基于深度神经网络训练中得出簇结构，然后将簇结构进行坐标映射和激活函数计算，得出的声纹模型，可以降低声纹模型的声音识别错误率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种建立声纹模型的方法，其特征在于，包括：

计算至少一个所述簇结构的平均值和标准差；

将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的，所述基础模型为神经网络模型。

2.如权利要求1所述的建立声纹模型的方法，其特征在于，所述深度学习模型包括多层模型层，所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构的步骤包括：

将多个所述语音声学特征输入深度学习模型中；

3.如权利要求1所述的建立声纹模型的方法，其特征在于，所述将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型的步骤，包括：

将所述声纹模型的特征向量参数进行降维；

4.如权利要求1所述的建立声纹模型的方法，其特征在于，所述提取分帧后的语音信号的语音声学特征的步骤包括：

将所述共振峰特征经离散余弦变换，得到语音声学特征。

5.如权利要求1所述的建立声纹模型的方法，其特征在于，所述得到声纹模型的步骤之后包括：

6.如权利要求1所述的建立声纹模型的方法，其特征在于，所述得到声纹模型的步骤之后包括：

接收用户对所述声纹模型标记的属性信息，所述属性信息包括所述目标用户的性别、年龄、民族。

7.如权利要求1所述的建立声纹模型的方法，其特征在于，所述提取分帧后的语音信号的语音声学特征的步骤包括：

识别输入的分帧后的语音信号的语音内容；

判断所述语音内容的发声部位；

根据所述发声部位将所述分帧后的语音信号拆分；

分别对拆分后的所述分帧后的语音信号提取语音声学特征。

8.一种建立声纹模型的装置，其特征在于，包括：

模型模块，用于将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的，所述基础模型为神经网络模型。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。