CN110232932A

CN110232932A - 基于残差时延网络的说话人确认方法、装置、设备及介质

Info

Publication number: CN110232932A
Application number: CN201910384582.0A
Authority: CN
Inventors: 彭俊清; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-09-13
Anticipated expiration: 2039-05-09
Also published as: CN110232932B; WO2020224114A1

Abstract

本发明公开了一种基于残差时延网络的说话人确认方法、装置、设备及介质，所述方法包括：构建残差时延网络，对所述残差时延网络进行训练；获取测试用户的注册音频和测试音频；对所述注册音频和测试音频执行预处理，然后执行特征提取，分别得到注册音频和测试音频的梅尔频率倒谱系数；将所述注册音频/测试音频的梅尔频率倒谱系数传入训练好的所述残差时延网络，获取所述残差时延网络在会话切片级输出的特征向量，作为注册特征向量/待测试特征向量；将所述注册特征向量和待测试特征向量输入概率线性判别分析模型，并根据模型输出的分值输出说话人确认结果。本发明解决了现有文本无关说话人确认方法在短音频方面的准确率欠佳的问题。

Description

基于残差时延网络的说话人确认方法、装置、设备及介质

技术领域

本发明涉及信息技术领域，尤其涉及一种基于残差时延网络的说话人确认方法、装置、设备及介质。

背景技术

声纹识别，也称为话说人识别，是生物识别技术中的一种。声纹识别主要解决两大类问题，即说话人辨认和说话人确认。说话人辨认技术是用以判断某段语音来自若干说话人中的哪一个，是“多选一问题”，而说话人确认技术是判定某段语音是不是属于指定被检测人所说的，是“一对一问题”。说话人确认广泛应用于诸多领域，在银行、非银金融、公安、军队及其他民用安全认证等行业和部门有着广泛的需求。

说话人确认依照被检测语音是否需要指定内容分为文本相关确认和文本无关确认两种方式。近年来文本无关说话人确认方法不断突破，其准确性较之以往有了极大的提升。然而在某些受限情况下，比如采集到的说话人有效语音较短的情况下，其准确性还不尽如人意。

因此，寻找一种提高文本无关说话人确认在短音频方面的准确率的方法成为本领域技术人员亟需解决的问题。

发明内容

本发明实施例提供了一种基于残差时延网络的说话人确认方法、装置、设备及介质，以解决现有文本无关说话人确认方法在短音频方面的准确率欠佳的问题。

一种基于残差时延网络的说话人确认方法，包括：

构建残差时延网络，采用预设的训练样本集对所述残差时延网络进行训练；

获取测试用户的音频信息集，所述音频信息集包括注册音频和测试音频；

对所述测试用户的音频信息集执行预处理；

对预处理后的所述音频信息集执行特征提取，分别得到注册音频对应的梅尔频率倒谱系数和测试音频对应的梅尔频率倒谱系数；

将所述注册音频的梅尔频率倒谱系数作为输入向量传入训练好的所述残差时延网络，获取所述残差时延网络在会话切片级输出的特征向量，作为所述测试用户的注册特征向量；

将所述测试音频的梅尔频率倒谱系数作为输入向量传入训练好的所述残差时延网络，获取所述残差时延网络在会话切片级输出的特征向量，作为所述测试用户的待测试特征向量；

将所述注册特征向量和待测试特征向量输入预设的概率线性判别分析模型，并获取所述概率线性判别分析模型输出的分值；

根据所述分值输出说话人确认结果。

进一步地，所述残差时延网络通过将残差时延网络块替换时延网络中的会话帧间级得到，所述残差时延网络块通过结合时延网络的结构与残差网络的恒等映射、残差映射得到。

进一步地，所述采用预设的训练样本集对所述残差时延网络进行训练包括：

收集若干个说话人的多个音频信息作为训练样本集；

对所述训练样本集中的音频信息执行预处理；

对预处理后的每一所述音频信息进行特征提取，得到对应的梅尔频率倒频谱系数；

将每一所述音频信息对应的梅尔频率倒频谱系数作为输入向量传入预设的残差时延网络进行训练，获取所述残差时延网络输出的识别结果；

采用预设的损失函数计算每一所述音频信息对应的梅尔频率倒谱系数经过所述残差时延网络的识别结果与对应的说话人标签之间的误差，并根据所述误差修改所述残差时延网络的参数；

将每一所述音频信息对应的梅尔频率倒频谱系数作为输入向量传入参数修改后的残差时延网络执行下一次训练。

进一步地，所述对所述训练样本集中的音频信息执行预处理包括：

对每一所述音频信息添加说话人标签，根据所述说话人标签进行分类，得到每一个说话人的音频信息集；

将音频信息个数小于第一预设阈值的音频信息集及说话人从所述训练样本集中剔除；

对剩余音频信息集中的每一个音频信息执行语音活动检测，并根据语音活动检测结果删除非语音部分，得到语音部分时长；

将语音部分时长少于第二预设阈值的音频信息从所述音频信息集中剔除。

进一步地，所述根据所述分值输出说话人确认结果包括：

比对所述分值与预设分数阈值；

若所述分值大于或等于所述预设分数阈值时，输出所述待测试特征向量和注册特征向量来自同一个说话人的指示信息；

若所述分值小于所述预设分数阈值时，输出所述待测试特征向量和注册特征向量来自不同的说话人的指示信息。

一种基于残差时延网络的说话人确认装置，包括：

训练模块，用于构建残差时延网络，采用预设的训练样本集对所述残差时延网络进行训练；

获取模块，用于获取测试用户的音频信息集，所述音频信息集包括注册音频和测试音频；

预处理模块，用于对所述测试用户的音频信息集执行预处理；

特征提取模块，用于对预处理后的所述音频信息集执行特征提取，分别得到注册音频对应的梅尔频率倒谱系数和测试音频对应的梅尔频率倒谱系数；

第一特征获取模块，用于将所述注册音频的梅尔频率倒谱系数作为输入向量传入训练好的所述残差时延网络，获取所述残差时延网络在会话切片级输出的特征向量，作为所述测试用户的注册特征向量；

第二特征获取模块，用于将所述测试音频的梅尔频率倒谱系数作为输入向量传入训练好的所述残差时延网络，获取所述残差时延网络在会话切片级输出的特征向量，作为所述测试用户的待测试特征向量；

分值获取模块，用于将所述注册特征向量和待测试特征向量输入预设的概率线性判别分析模型，并获取所述概率线性判别分析模型输出的分值；

说话人确认模块，用于根据所述分值输出说话人确认结果。

进一步地，所述训练模块包括：

收集单元，用于收集若干个说话人的多个音频信息作为训练样本集；

预处理单元，用于对所述训练样本集中的音频信息执行预处理；

特征提取单元，用于对预处理后的每一所述音频信息进行特征提取，得到对应的梅尔频率倒频谱系数；

训练单元，用于将每一所述音频信息对应的梅尔频率倒频谱系数作为输入向量传入预设的残差时延网络进行训练，获取所述残差时延网络输出的识别结果；

参数修改单元，用于采用预设的损失函数计算每一所述音频信息对应的梅尔频率倒谱系数经过所述残差时延网络的识别结果与对应的说话人标签之间的误差，并根据所述误差修改所述残差时延网络的参数；

所述训练单元还用于，将每一所述音频信息对应的梅尔频率倒频谱系数作为输入向量传入参数修改后的残差时延网络执行下一次训练。

进一步地，所述预处理单元包括：

标签子单元，用于对每一所述音频信息添加说话人标签，根据所述说话人标签进行分类，得到每一个说话人的音频信息集；

第一剔除子单元，用于将音频信息个数小于第一预设阈值的音频信息集及说话人从所述训练样本集中剔除；

检测子单元，用于对剩余音频信息集中的每一个音频信息执行语音活动检测，并根据语音活动检测结果删除非语音部分，得到语音部分时长；

第二剔除子单元，用于将语音部分时长少于第二预设阈值的音频信息从所述音频信息集中剔除。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于残差时延网络的说话人确认方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于残差时延网络的说话人确认方法。

本发明实施例通过构建残差时延网络，采用预设的训练样本集对所述残差时延网络进行训练；然后获取测试用户的音频信息集，所述音频信息集包括注册音频和测试音频；对所述测试用户的音频信息集执行预处理；对预处理后的所述音频信息集执行特征提取，分别得到注册音频对应的梅尔频率倒谱系数和测试音频对应的梅尔频率倒谱系数；将所述注册音频的梅尔频率倒谱系数作为输入向量传入训练好的所述残差时延网络，获取所述残差时延网络在会话切片级输出的特征向量，作为所述测试用户的注册特征向量；将所述测试音频的梅尔频率倒谱系数作为输入向量传入训练好的所述残差时延网络，获取所述残差时延网络在会话切片级输出的特征向量，作为所述测试用户的待测试特征向量；将所述注册特征向量和待测试特征向量输入预设的概率线性判别分析模型，并获取所述概率线性判别分析模型输出的分值；根据所述分值输出说话人确认结果；本发明所需训练集的规模更小，模型容易训练，有效地降低了训练成本；且通过所述残差时延网络提取关键特征，有效地减低了噪声干扰，在短音频的说话人确认上能达到较佳的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于残差时延网络的说话人确认方法的一流程图；

图2(a)是本发明一实施例中时延网络的结构示意图，图2(b)是本发明一实施例中残差网络的结构示意图；

图3是本发明一实施例中残差时延网络块的结构示意图；

图4是本发明一实施例中基于残差时延网络的说话人确认方法中步骤S101的一流程图；

图5是本发明一实施例中基于残差时延网络的说话人确认方法中步骤S402的一流程图；

图6是本发明一实施例中基于残差时延网络的说话人确认方法中步骤S108的一流程图；

图7是本发明一实施例中基于残差时延网络的说话人确认装置的一原理框图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于残差时延网络的说话人确认方法应用于服务器。所述服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中，如图1所示，提供一种基于残差时延网络的说话人确认方法，包括如下步骤：

在步骤S101中，构建残差时延网络，采用预设的训练样本集对所述残差时延网络进行训练。

本发明实施例提供的残差时延网络(简称Res-TDNN)结合了时延神经网络(Time-Delay Neural Network，简称TDNN)和残差网络(Residual Network，简称ResNet)，并使用时延神经网络TDNN作为基础结构。

在这里，所述时延神经网络TDNN的结构如图2(a)所示，包括会话帧间级(frame-level)、会话切片级(segment-level)，所述会话切片级(segment-level)包括一个统计池化层(Statistic-Pooling)、若干个嵌入层(embeddings)和一个分类输出层(log-softmax)。

所述残差网络ResNet的结构如图2(b)所示，包括两种映射(mapping)，分别为:恒等映射(identity mapping)和残差映射(residual mapping)，并通过采用直连连接(shortcut connection)的方式，将两种映射结构连接起来达到克服随网络深度加深而训练集准确度下降、网络性能降低的问题。其中曲线部分为上述提到的恒等映射(identitymapping)，图中用x表示；其余部分为残差映射(residual mapping)，图中用F(x)表示。两部分结合成为一个基础块(building block)，该结构的复用能有效加深网络深度，提高网络性能。

本发明实施例结合ResNet网络与TDNN网络的特点，将ResNet网络中的残差映射(residual mapping)融入到TDNN网络中，如图3所示，称为一个残差时延网络块(Res-TDNNblock)。在图3中，所述残差时延网络块将传统的TDNN网络结构与恒等映射、残差映射相结合，激活函数采用比如带参数的激活函数ReLU(Parametric Rectified Linear Unit，简称PReLU)，这种结构能够有效地将前一层残差传递到更深的网络上，避免梯度差值在层层传递时变得过小无法影响训练而使网络陷入局部最优解；同时结合ResNet网络可以通过增加网络深度而减少网络每一层节点数降低网络整体参数量却不降低网络性能的优势。

本发明实施例使用所述残差时延网络块替换传统TDNN网络中的会话帧间级，并保持会话切片级不变，从而得到所述残差时延网络，即Res-TDNN网络。

用于训练所述Res-TDNN网络的训练样本集包括若干个说话人的多个音频信息。为了便于理解，下面将对Res-TDNN网络的训练过程进行详细描述。如图4所示，步骤S101中所述的采用预设的训练样本集对所述残差时延网络进行训练包括：

在步骤S401中，收集若干个说话人的多个音频信息作为训练样本集。

在这里，本发明实施例可以根据实际需要或者应用场景的需要获取音频信息。例如，从预设音频库中获取音频信息，所述预设音频库中预先收集了大量的音频信息。还可以通过连接到通信设备采集电话录音得到所述训练样本集。可以理解的是，本实施例还可以通过多种方式获取到训练样本集，此处不再过多赘述。

在所述训练样本集中，每一个说话人对应一个音频信息集，所述音频信息集中包括多个音频信息。

在步骤S402中，对所述训练样本集中的音频信息执行预处理。

在这里，由于所述训练样本集中的音频信息可能存在杂音、有用信息较少的问题，需要对所述训练样本集进行预处理，以提高训练样本的质量。可选地，如图5所示，所述步骤S402包括：

在步骤S501中，对每一所述音频信息添加说话人标签，根据所述说话人标签进行分类，得到每一个说话人的音频信息集。

在本实施例中，每一个说话人对应一个说话人标签，所述说话人标签为说话人的标识信息，用于区分不同的说话人。对于同一说话人的音频信息添加所述说话人对应的说话人标签，以标记每一个音频信息所属的说话人。

示例性地，假设存在N个说话人，分别为说话人spkr₁、说话人spkr₂、……说话人spkr_K，对应的标签分别为标签1、标签2、……标签K。那么说话人spkr₁的音频信息添加上标签1，说话人spkr₂的音频信息添加上标签2，……说话人spkr_K的音频信息添加上标签K。其中，K为正整数。

在步骤S502中，将音频信息个数小于第一预设阈值的音频信息集及说话人从所述训练样本集中剔除。

进一步地，为了减少残差时延网络训练时的计算量，提高训练效果，针对每一个说话人，统计所述说话人对应的音频信息集中所包括的音频信息个数，将所述音频信息个数与第一预设阈值进行比对。在这里，所述第一预设阈值为基于音频信息个数是否剔除说话人的判断标准。如果一个说话人的音频信息集所包括的音频信息个数小于所述第一预设阈值时，所述说话人会被排除在训练样本集之外。示例性地，所述第一预设阈值可以为4，若一个说话人的音频信息集中所包括的音频信息个数小于4条时，本实施例将所述说话人及其音频信息集从所述训练样本集中剔除，从而保证了每一个说话人的音频信息个数，有利于减少残差时延网络的计算量，同时提高残差时延网络的训练效果。

在步骤S503中，对剩余音频信息集中的每一个音频信息执行语音活动检测，并根据语音活动检测结果删除非语音部分，得到语音部分时长。

在这里，所述语音活动检测(Voice Activity Detection,VAD)又称为语音端点检测、语音边界检测，是指检测音频信息中哪些信号是说话人的语音成分，哪些是非语音成分，比如静音、噪音。本实施例根据语音活动检测的结果从音频信息中识别和消除长时间的非语音部分，以达到在不降低音频质量的情况下减少训练样本的数据量。

在步骤S504中，将语音部分时长少于第二预设阈值的音频信息从所述音频信息集中剔除。

在消除长时间的非语音部分后，进一步根据语音活动检测的结果获取音频信息中语音部分的时长，即语音时长，将所述语音时长与第二预设阈值进行比对。在这里，所述第二预设阈值为基于语音时长是否剔除音频信息的判断标准。如果说话人音频信息集中的一个音频信息的语音时长小于所述第二预设阈值时，所述音频信息会被排除在音频信息集之外。可选地，所述第二预设阈值可以为1秒，若说话人的一个音频信息的语音时长小于1秒时，可能是所述说话人语速过快或者说话内容过短，不具备代表性。本实施例将所述音频信息从所述说话人的音频信息集中剔除。示例性地，对于说话人spkr_j，若有音频信息集M_j＝{x_j1,x_j2,x_j3…,x_jm}，如果经过VAD计算测得音频信息x_ji的语音时长小于1秒，则将x_ji从所述说话人spkr_j的音频信息集M_j中剔除。其中，j、m均为正整数，i＝1，2，…，m。

本实施例通过将语音部分时长少于第二预设阈值的音频信息从所述音频信息集中剔除，有效地排除了极端情况，保证了每一个说话人音频信息集中的音频信息的长度，有利于提高残差时延网络的训练效果以及泛化能力。

通过上述步骤S501至步骤S504预处理后留下来的说话人及其音频信息集，作为本发明实施例中用于训练残差时延网络的训练样本集。整个训练过程包括若干次训练，每次训练包括K个说话人，共N条音频信息。

在步骤S403中，对预处理后的每一所述音频信息进行特征提取，得到对应的梅尔频率倒频谱系数。

其中，所述梅尔频率倒频谱系数(Mel-scale Frequency CepstralCoefficients，简称MFCC特征)是一种语音特征，是在Mel标度频率域提取出来的倒谱参数，其参数考虑到了人耳对不同频率的感受程度，特别适用于语音辨别和语者辨识。本实施例以MFCC特征为残差时延网络的输入。在训练或者使用残差时延网络之前，首先对每一所述音频信息进行特征提取，得到对应的MFCC特征。可选地，特征提取的过程包括但不限于分帧处理、加窗处理、离散傅里叶变换、功率谱计算、梅尔滤波器组计算、对数能量计算、离散余弦变换。在这里，本实施例采用23维MFCC特征，以进一步压缩残差网络的计算数据量。

在步骤S404中，将每一所述音频信息对应的梅尔频率倒频谱系数作为输入向量传入预设的残差时延网络进行训练，获取所述残差时延网络输出的识别结果。

在训练时，针对每一个音频信息，将对应的MFCC特征作为一个输入向量，传入预设的残差时延网络进行训练，得到所述音频信息的识别结果。

如前所述，所述残差时延网络包括堆叠frame-level的Res-TDNN block、Statistics-Pooling层、segment-level层以及log-softmax层。一个音频信号的23维MFCC特征首先输入至残差时延网络的Res-TDNN block进行特征提取；所得到的特征矩阵再输入至Statistics-Pooling层和segment-level层进行特征提取；所述segment-level层输出的特征向量作为所述音频信号的特征向量，其中包括了音频信号的特征信息。所述音频信号的特征向量进一步输入至log-softmax层进行分类。所述log-softmax层输出的识别结果为一维的概率向量。若本次训练中的说话人有K个时，所述概率向量中包括K个元素。每一个说话人对应一个元素，该元素表征了不同说话人之间的相对概率，元素的值越大表示所述MFCC特征/音频信息属于对应的说话人的可能性越大，从而可以清晰地预测所述音频信息为概率最大的元素对应的说话人。

对该次训练中的N个音频信息分别执行上述步骤S403和步骤S404，直至遍历完所述N个音频信息。执行步骤S405。

在步骤S405中，采用预设的损失函数计算每一所述音频信息对应的梅尔频率倒谱系数经过所述残差时延网络的识别结果与对应的说话人标签之间的误差，并根据所述误差修改所述残差时延网络的参数。

在本实施例中，损失函数的计算在残差时延网络的损失层中执行。假设每一次训练中有K个说话人共N个音频信息，损失函数的计算公式为：

在上式中，表示T帧测试是说话人spkr_k的概率；中T表示一个音频信息的帧长度，x⁽ⁿ⁾表示N个音频中的第n个音频，表示N个音频中的第n个音频的一个帧长度的信号；d_nk表示标签函数，若N个音频信息中第n个音频信息包含的帧均来自说话人k,则d_nk的值为1，否则为0。

上述帧长度T的取值与音频信息的长度有关，由TDNN网络结构决定，通常实验会截取固定长度音频，如4秒，则T为400。

在完成一次训练，得到所述N个音频信息对应的识别结果后，采用上述损失函数计算公式得到每一所述音频信息的识别结果与对应的预设标签之间的误差，并基于所述误差返回去修改所述残差时延网络中的参数，包括Res-TDNN block、Statistics-Pooling层、segment-level层中的参数。可选地，本发明实施例采用反向传播算法计算残差时延网络的梯度，并采用随机梯度下降方法更新残差时延网络的参数，促使其不断学习特征，直至收敛。

在步骤S406中，将每一所述音频信息对应的梅尔频率倒频谱系数作为输入向量传入参数修改后的残差时延网络执行下一次训练。

通过步骤S405修改参数后的残差时延网络，用于进行下一次训练。每次训练过程中，从预处理后的训练样本集中随机选取K个说话人共N个带有预设标签的音频信息进行训练，训练过程和步骤S404、S405的相同，具体参见上面的叙述，此处不再赘述。重复步骤S404、S405、S406，执行50-150次迭代训练，使得所述残差时延网络能够学习到音频信息的关键特征，得到较好的模型性能。上述训练次数可以根据训练集的规模进行调整，此处不做限制。

在训练完成后，以训练好的残差时延网络进行测试，执行步骤S102。

在步骤S102中，获取测试用户的音频信息集，所述音频信息集包括注册音频和测试音频。

可选地，服务器可以根据实际需要或者应用场景的需要获取测试用户及其音频信息，得到测试用户的音频信息集。例如，从预设音频库中获取测试用户及其音频信息，所述预设音频库中预先收集了大量的用户及其音频信息。还可以通过连接到通信设备采集电话录音作为测试用户的音频信息。可以理解的是，本发明实施例还可以通过多种方式获取到测试用户的音频信息集，此处不再过多赘述。

在本实施例中，所述测试用户的音频信息集中包括测试音频和注册音频，所述测试音频为通过所述残差时延网络执行说话人确认的音频信息，所述注册音频为通过所述残差时延网络构建说话人特征库的音频信息。可选地，所获取的测试用户可以包括一个或者多个；所获取的测试音频/注册音频可以包括一个或者多个。

在步骤S103中，对所述测试用户的音频信息集执行预处理。

在这里，由于所述测试用户的音频信息可能存在杂音、有效信息较少的问题，需要对所述测试用户的音频信息进行预处理，以提高残差时延网络识别的速度和识别的准确度。可选地，所述步骤S103包括：

将音频信息个数小于第一预设阈值的音频信息集及测试用户剔除；

对于剩余测试用户的音频信息集中的每一个音频信息执行语音活动检测，并根据语音活动检测结果删除非语音部分，得到语音部分时长；将语音部分时长少于第二预设阈值的音频信息从所述测试用户的音频信息集中剔除。

上述步骤与步骤S402相同，即剔除音频信息个数小于第一预设阈值的测试用户及其音频信息集、剔除语音部分时长小于第二预设阈值的音频信息，具体请参见上述实施例的叙述，此处不再赘述。

在步骤S104中，对预处理后的所述音频信息集执行特征提取，分别得到注册音频对应的梅尔频率倒谱系数和测试音频对应的梅尔频率倒谱系数。

可选地，所述步骤S104与上述步骤S403相同，具体请参见上述实施例的叙述，此处不再赘述。在这里，本实施例采用23维MFCC特征进行测试。

在步骤S105中，将所述注册音频的梅尔频率倒谱系数作为输入向量传入训练好的所述残差时延网络，获取所述残差时延网络在会话切片级输出的特征向量，作为所述测试用户的注册特征向量。

在得到所述注册音频的MFCC特征之后，将所述MFCC特征作为输入传入至预先训练好的残差时延网络，通过所述残差时延网络基于所述MFCC特征对所述注册音频进行识别。在这里，所述预先训练好的残差时延网络中包括Res-TDNN block、Statistics-Pooling层、segment-level层以及log-softmax层。当所述残差时延网络完成对所述注册音频的识别后，获取所述残差时延网络在segment-level层对所述注册音频进行embeding特征提取后的输出向量，作为所述注册音频的注册特征向量。所述注册特征向量为所述测试用户在说话人特征库中的音频特征向量，其中的每个元素表示所述注册音频的声纹特征。在这里，所述说话人特征库可以根据需要结合身份认证的应用场景进行设置，比如网络支付、声纹锁控、生存认证等，用于存储需要备案的注册用户的音频特征信息，即上述的注册特征向量。

在步骤S106中，将所述测试音频的梅尔频率倒谱系数作为输入向量传入训练好的所述残差时延网络，获取所述残差时延网络在会话切片级输出的特征向量，作为所述测试用户的待测试特征向量。

在得到所述测试音频的MFCC特征之后，将所述MFCC特征作为输入传入至预先训练好的残差时延网络，通过所述残差时延网络基于所述MFCC特征对所述测试音频进行识别。当所述残差时延网络完成对所述测试音频的识别后，获取所述残差时延网络在segment-level层对所述测试音频进行embeding特征提取后的输出向量，作为所述测试音频的待测试特征向量。所述待测试特征向量为所述测试用户通过所述残差时延网络执行说话人确认的音频特征向量，其中的每个元素表示所述测试音频的声纹特征。

在步骤S107中，将所述注册特征向量和待测试特征向量输入预设的概率线性判别分析模型，并获取所述概率线性判别分析模型输出的分值。

在进行说话人确认时，将所述待测试特征向量和注册特征向量输入至预设的概率线性判别分析模型。在这里，所述概率线性判别分析模型(Probabilistic LinearDiscriminant Analysis，简称PLDA)，是一种信道补偿算法。本实施例使用所述PLDA模型来计算待测试特征向量和注册特征向量的相似程度，得到一个分值。所述分值越高，表示所述待测试特征向量和注册特征向量的一致性越高，所述分值越低，表示所述待测试特征向量和注册特征向量的一致性越低。

在步骤S108中，根据所述分值输出说话人确认结果。

如前所述，所述分值越高，表示所述待测试特征向量和注册特征向量的一致性越高，所述分值越低，表示所述待测试特征向量和注册特征向量的一致性越低。本实施例通过设定一个分数阈值，将所述分值与预设分数阈值进行比对，并根据比对结果输出说话人确认结果。可选地，如图6所示，所述步骤S108包括：

在步骤S601中，比对所述分值与预设分数阈值。

在这里，所述预设分数阈值根据经验设置，作为待测试特征向量和注册特征向量是否来自同一个说话人的判断标准。

在步骤S602中，若所述分值大于或等于所述预设分数阈值时，输出所述待测试特征向量和注册特征向量来自同一个说话人的指示信息。

如前所述，所述分值越高，表示所述待测试特征向量和注册特征向量的一致性越高。当所述分值大于或等于所述预设分数阈值时，本实施例确定所述待测试特征向量和注册特征向量来自同一个说话人，输出说话人确认结果为同一说话人的指示信息。

在步骤S603中，若所述分值小于所述预设分数阈值时，输出所述待测试特征向量和注册特征向量来自不同的说话人的指示信息。

当所述分值小于所述预设分数阈值时，本实施例确定所述待测试特征向量和注册特征向量来自不同的说话人，输出说话人确认结果为不同说话人的指示信息。

综上所述，本实施例通过构建残差时延网络，通过所述残差时延网络对预处理后的注册音频提取出注册特征向量，建立说话人特征库；在进行说话人确认时，通过所述残差时延网络对预处理后的测试音频提取待测试特征向量，与说话人特征库中的注册特征向量一同传入PLDA模型计算分值，并将所述分值与预设分数阈值进行比对，最后根据比对结果输出说话人确认结果；由于所述残差时延网络使用残差时延网络块替换了传统时延网络的会话帧间级，对比传统的TDNN和PLDA的说话人确认方法，所需训练集规模更小，模型更容易训练，有效地降低了训练成本。此外，该方法可以在增加网络深度的同时减少网络每一层节点数，即使网络整体参数量下降也不影响网络性能，通过所述残差时延网络提取出关键特征，能够有效地减低噪声干扰，在短音频的说话人确认上，能达到显著优于传统PLDA模型的结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于残差时延网络的说话人确认装置，该基于残差时延网络的说话人确认装置与上述实施例中基于残差时延网络的说话人确认方法一一对应。如图7所示，该基于残差时延网络的说话人确认装置包括训练模块、获取模块、预处理模块、特征提取模块、第一特征获取模块、第二特征获取模块、分值获取模块、说话人确认模块。各功能模块详细说明如下：

训练模块71，用于构建残差时延网络，采用预设的训练样本集对所述残差时延网络进行训练；

获取模块72，用于获取测试用户的音频信息集，所述音频信息集包括注册音频和测试音频；

预处理模块73，用于对所述测试用户的音频信息集执行预处理；

特征提取模块74，用于对预处理后的所述音频信息集执行特征提取，分别得到注册音频对应的梅尔频率倒谱系数和测试音频对应的梅尔频率倒谱系数；

第一特征获取模块75，用于将所述注册音频的梅尔频率倒谱系数作为输入向量传入训练好的所述残差时延网络，获取所述残差时延网络在会话切片级输出的特征向量，作为所述测试用户的注册特征向量；

第二特征获取模块76，用于将所述测试音频的梅尔频率倒谱系数作为输入向量传入训练好的所述残差时延网络，获取所述残差时延网络在会话切片级输出的特征向量，作为所述测试用户的待测试特征向量；

分值获取模块77，用于将所述注册特征向量和待测试特征向量输入预设的概率线性判别分析模型，并获取所述概率线性判别分析模型输出的分值；

说话人确认模块78，用于根据所述分值输出说话人确认结果。

其中，所述残差时延网络通过将残差时延网络块替换时延网络中的会话帧间级得到，所述残差时延网络块通过结合时延网络的结构与残差网络的恒等映射、残差映射得到。

可选地，所述训练模块71包括：

可选地，所述预处理单元包括：

可选地，所述说话人确认模块88包括：

比对单元，用于比对所述分值与预设分数阈值；

第一确认单元，用于若所述分值大于或等于所述预设分数阈值时，输出所述待测试特征向量和注册特征向量来自同一个说话人的指示信息；

第二确认单元，用于若所述分值小于所述预设分数阈值时，输出所述待测试特征向量和注册特征向量来自不同的说话人的指示信息。

关于基于残差时延网络的说话人确认装置的具体限定可以参见上文中对于基于残差时延网络的说话人确认方法的限定，在此不再赘述。上述基于残差时延网络的说话人确认装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于残差时延网络的说话人确认方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

对所述测试用户的音频信息集执行预处理；

根据所述分值输出说话人确认结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于残差时延网络的说话人确认方法，其特征在于，包括：

对所述测试用户的音频信息集执行预处理；

根据所述分值输出说话人确认结果。

2.如权利要求1所述的基于残差时延网络的说话人确认方法，其特征在于，所述残差时延网络通过将残差时延网络块替换时延网络中的会话帧间级得到，所述残差时延网络块通过结合时延网络的结构与残差网络的恒等映射、残差映射得到。

3.如权利要求1或2所述的基于残差时延网络的说话人确认方法，其特征在于，所述采用预设的训练样本集对所述残差时延网络进行训练包括：

收集若干个说话人的多个音频信息作为训练样本集；

对所述训练样本集中的音频信息执行预处理；

4.如权利要求3所述的基于残差时延网络的说话人确认方法，其特征在于，所述对所述训练样本集中的音频信息执行预处理包括：

5.如权利要求1或2所述的基于残差时延网络的说话人确认方法，其特征在于，所述根据所述分值输出说话人确认结果包括：

比对所述分值与预设分数阈值；

6.一种基于残差时延网络的说话人确认装置，其特征在于，包括：

说话人确认模块，用于根据所述分值输出说话人确认结果。

7.如权利要求6所述的基于残差时延网络的说话人确认装置，其特征在于，所述训练模块包括：

8.如权利要求7所述的基于残差时延网络的说话人确认装置，其特征在于，所述预处理单元包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于残差时延网络的说话人确认方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于残差时延网络的说话人确认方法。