CN115050373A

CN115050373A - 双路径嵌入学习方法、电子设备和存储介质

Info

Publication number: CN115050373A
Application number: CN202210494041.5A
Authority: CN
Inventors: 钱彦旻; 刘贝; 陈正阳
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-09-13

Abstract

本发明公开用于说话人确认系统的双路径嵌入学习方法、电子设备和存储介质，其中，一种用于说话人确认系统的双路径嵌入学习方法，其中，所述双路径包括残差路径和循环路径，所述方法包括：经由所述残差路径中的残差块进行残差学习；经由所述循环路径通过循环块从前一层积累信息并与所述残差路径进行交换，其中，每个残差块都有一个对应的循环块，用于积累前一层信息并交换信息；聚合所述残差路径的嵌入特征和所述循环路径的嵌入特征以获得说话人嵌入。本实施例的方法提出的这种新架构可以享受到更好地重用来自先前层的信息的好处。这种新架构继承了残差网络和循环网络的优势，从而实现了更好的特征重用和再利用。

Description

双路径嵌入学习方法、电子设备和存储介质

技术领域

本发明属于说话人确认技术领域，尤其涉及用于说话人确认系统的双路径嵌入学习方法、电子设备和存储介质。

背景技术

相关技术中，说话人验证(speaker verification，SV)的任务是利用语音作为生物特征来验证说话人的身份。近年来，最先进的SV系统的范式已经从i-vector结合概率线性判别分析(probabilistic linear discriminant analysis，PLDA)转向深度说话者嵌入学习方法，其中深度神经网络(deep neural networks，DNN)用于将话语的帧级特征作为输入，并直接生成话语级表示作为说话人嵌入以进行相似度测量。这些嵌入是通过池化机制获得的，其中通常计算均值和标准差。基于DNN的SV系统可以通过多类分类进行有效训练，其中可以采用softmax或AAM-softmax作为损失函数。随后，提取的嵌入用于标准后端，例如余弦相似度计算。

根据网络架构，之前相关工作中提出的基于DNN的SV系统可以分为四种不同的类型：基于TDNN(Time delay neural network，时间延迟神经网络)，基于CNN，基于变压器(transform)和基于MLP的。时间延迟神经网络(TDNN)被称为具有广泛上下文学习信号时间动态的能力，它采用分层和增量架构来处理不同的时间分辨率。这些特性使TDNN自然适用于语音任务。相关技术首先利用具有多类交叉熵目标的TDNN架构进行与文本无关的说话人验证。进一步提出了x-vector及其后代以提高性能。ECAPA-TDNN通过对x向量进行多重架构增强，获得了惊人的结果。对于基于CNN的SV系统，相关技术首次在VoxSRC2019中引入ResNet作为说话人嵌入提取器。此外，相关技术提出了一种基于Transformer的系统，该系统具有自注意力编码器和池化层，以获得判别式说话人嵌入，其灵感来自于Transformer在自然语言处理和计算机视觉中的有效性。相关技术通过加强本地信息建模进一步努力改进基于变压器的系统。此外，相关技术尝试构建一个没有卷积或自注意力的纯MLP网络，这显示了具有竞争力的结果。然而，现有的基于DNN的SV系统大多集中在单一的网络结构上。在SV任务中很少讨论具有不同结构的混合网络，这证明了在其他领域的优越性。

其中，Dense-Residual网络，结合了密集连接的卷积网络(DenseNet)和残差网络(ResNet)的优点，用于说话人确认。相关技术提出了两种类型的构建块，称为DenseR块。首先，通过在ResNet的残差块中密集连接堆叠的基本单元来构建序列密集型块。然后，parallel-DenseR由基本单元组成，这些基本单元分别通过跳跃连接对残差和密集分量进行拆分和连接操作。这些构建块堆叠到深度网络中以进行前端特征提取。发明人发现这些技术缺乏对特征之间的动态交互进行建模的能力。

发明内容

本发明实施例提供一种用于说话人确认系统的双路径嵌入学习方法、电子设备和存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种用于说话人确认系统的双路径嵌入学习方法，其中，所述双路径包括残差路径和循环路径，所述方法包括：

经由所述残差路径中的残差块进行残差学习；

经由所述循环路径通过循环块从前一层积累信息并与所述残差路径进行交换，其中，每个残差块都有一个对应的循环块，用于积累前一层信息并交换信息；

聚合所述残差路径的嵌入特征和所述循环路径的嵌入特征以获得说话人嵌入。

第二方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于说话人确认系统的双路径嵌入学习方法的步骤。

第三方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的用于说话人确认系统的双路径嵌入学习方法的步骤。

本申请的方法中，残差路径可以来自常用的ResNet，循环路径为经过精心设计的，通过沿深度的循环连接为当前层提供前一层信息的积累。最后，聚合两条路径的结果特征以获得说话人嵌入。本实施例的方法提出的这种新架构继承了残差网络和循环网络的优势，从而实现了更好的特征重用和再利用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种用于说话人确认系统的双路径嵌入学习方法的流程图；

图2为本发明一实施例提供的方案实现的流程图；

图3为本发明一实施例提供的方法的概述图；

图4是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的用于说话人确认系统的双路径嵌入学习方法一实施例的流程图，本实施例的双路径嵌入学习方法用于用于说话人确认系统，所述双路径包括残差路径和循环路径。

如图1所示，在步骤101中，经由所述残差路径中的残差块进行残差学习；

在步骤102中，经由所述循环路径通过循环块从前一层积累信息并与所述残差路径进行交换，其中，每个残差块都有一个对应的循环块，用于积累前一层信息并交换信息；

在步骤103中，聚合所述残差路径的嵌入特征和所述循环路径的嵌入特征以获得说话人嵌入。

在本实施例中，残差路径来自常用的ResNet，循环路径经过精心设计，通过沿深度的循环连接为当前层提供前一层信息的积累。最后，聚合两条路径的结果特征以获得说话人嵌入。

本实施例的方法提出的这种新架构可以享受到更好地重用来自先前层的信息的好处。这种新架构继承了残差网络和循环网络的优势，从而实现了更好的特征重用和再利用。

在一些可选的实施例中，所述经由所述残差路径中的残差块进行残差学习包括：输入前一个残差块X_i-1和前一个循环块H_i-1通过连接组合，获得残差映射Y_i，将所述残差映射Yi与原始输入的X_i-1相加，得到第i个残差块X_i的输出。从而可以在残差路径和循环路径之间交换信息。可选的，计算公式如下：

Y_i＝Residual([X_i-1·H_i-1])，

X_i＝Y_i+X_i-1，

其中，X_i为第i个残差块，Y_i为残差映射，X_i-1为X_i的前一个残差块，H_i-1为与X_i-1对应的前一个循环块。

在一些可选的实施例中，H_i是第i步的隐藏状态，在第0步初始化为0，所述经由所述循环路径通过循环块从前一层积累信息并与所述残差路径进行交换包括：对于第i步的更新，输入是残差映射Y_i和上一步的隐藏状态H_i-1，残差映射Y_i通过1x1卷积在通道维度上进行压缩，然后添加到H_i-1，再通过批量归一化、tanh激活和3x3卷积处理。从而对于沿深度的循环路径，它相当于一个展开的RNN，能够实现两条路径之间的信息积累和交换。可选的，计算公式如下：

H₀＝0，

H_i＝Conv2(tanh(B(Conv1(Y_i)+H_i-1)))，

其中，H_i为第i步的隐藏状态，Y_i为残差映射，H_i-1为上一步循环快的隐藏状态，Conv1为输出通道大小为K的逐点卷积，B代表BatchNorm，tanh是非线性函数，Conv2为3x3卷积。

本申请实施例的双路径架构并不是简单的CNN和RNN的结合。关键思想是两条路径之间的信息积累和交换，这对于增强特征学习至关重要。

在另一些可选的实施例中，所述聚合所述残差路径的嵌入特征和所述循环路径的嵌入特征以获得说话人嵌入包括：最后一个残差块X_N的输出和最后一个循环块H_N的输出首先沿通道维度连接，然后将得到的特征输入到统计池化层以将可变长度表示映射到低维向量，然后由全连接层转换以生成说话人嵌入。从而通过在嵌入层对最后一个残差块的输出和最后一个循环块进行聚合可以得到更好的说话人嵌入。可选的，计算公式如下：

Z＝[X_N·H_N]，

e＝FC(P(Z))，

其中，Z为延通道维度连接得到的特征，X_N为最后一个残差块，H_N为最后一个循环块，P表示统计池化层，FC表示全连接层。

在进一步可选的实施例中，所述说话人确认系统还包括与所述双路径集成的三重注意力模块，所述三重注意力模块通过三个单独的分支分别捕获通道和频率维度(C，F)、通道和时间维度(C，T)以及频率和时间维度(F，T)之间的相互依赖性。具体的，可以通过在每个残差块中的残差映射之后插入三重注意力模块。从而通过交互式地分别建模了通道和频率、通道和时间、频率和时间之间的相互依赖关系，可以进一步提高系统的性能。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人发现现有技术缺乏对特征之间的动态交互进行建模的能力。现有技术中的缺陷是由于模块的直接拼接和堆叠导致的。

现有技术中解决上述问题主要采用不同路径的直接拼接或堆叠。因为这是最简单也是最容易想到的方法。

本申请实施例提出的DPNet(Dual Path Network，双路网络)由两条路径组成：残差路径和循环路径。它通过沿深度的循环层连接将CNN与顺序信息流相结合。这种新架构可以享受到更好地重用前一层信息的好处。此外，引入了一个有效的三元组注意模块来模拟特征之间的跨维度交互。

继续参考图2，其示出了本申请方案实现的流程图。

如图2所示，(1)DPNet由两条路径组成：残差路径和循环路径。

(2)残差路径:带有残差块的正常残差学习。

(3)循环路径:这是一条沿着深度的循环路径，相当于一个展开的RNN，其中Hi是隐藏状态。它可以通过循环块从前一层积累信息并与残差路径进行交换。

发明人进行了大量的实验，在Voxceleb数据集上的实验表明，提出的DPNets可以执行相应的ResNets。结合三元组注意力模块可以得到进一步的改进。

以下通过介绍发明人实现本申请的过程和所进行的实验及相关的实验数据，以使本领域技术人员更好地理解本申请的方案。

目前，在说话人验证中已经探索了许多不同的网络架构，包括时延神经网络(TDNN)、卷积神经网络(CNN)、变压器(transformer)和多层感知器(MLP)。然而，很少研究具有不同结构的混合网络。在本文中，本申请实施例提出了一种新颖有效的双路径嵌入学习框架，称为双路径网络(DPNet)，用于具有三重注意力的说话人验证。设计了一种将CNN与内部单独的循环层连接路径集成的新拓扑，它将沿深度的顺序结构引入CNN。这种新架构继承了残差网络和循环网络的优势，从而实现了更好的特征重用和再利用。此外，利用高效的三元组注意模块来捕获特征之间的跨维度交互。在Voxceleb数据集上进行的实验结果表明，本申请实施例提出的具有三重注意力的混合网络可以显著优于相应的ResNet。

一、简介

在本申请实施例中，设计了一种新颖的混合网络结构，即双路径网络(DPNet)，用于具有三重注意力的说话人验证。与以前的工作相比，提出的DPNet由两条路径组成：残差路径和循环路径。它通过沿深度的循环层连接将CNN与顺序信息流集成。这种新架构可以享受到更好地重用来自先前层的信息的好处。此外，引入了一个有效的三元组注意模块来模拟特征之间的跨维度交互。在Voxceleb上进行的实验表明，本申请实施例提出的具有三重注意力的DPNet可以大大优于相应的ResNet。

2、相关工作

混合网络：混合网络通常将不同的网络结构集成在一起，在各个领域都显示出优于单一网络结构的优势。近年来，一些混合变体得到了广泛的研究，包括CNN-CNN、CNN-RNN和CNNTransformer。相关技术设计了一个将ResNet与DenseNet相结合的CNN-CNN混合网络，其性能优于最先进的技术。对于CNN-RNN混合，使用用于图像分类的长期短期记忆机制来增强卷积残差网络。相关技术使用RNN处理CNN的输出以进行视觉描述。相关技术为降水临近预报问题建立了一个卷积LSTM模型。最近出现了CNN-Transformer混合体。相关技术提出Conformer利用卷积运算和自注意机制来增强表示学习。相关技术证明self-attention和卷积是互补的，并设计了AlterNet将它们结合在一起。在本申请实施例中，介绍了一种用于说话人验证任务的新型混合网络结构，以提高SV系统的表示能力。

SV中的注意力模块：注意力模块已广泛应用于基于DNN的SV系统。相关技术将挤压和激发模块合并到ResNet中。相关技术提出了用于独立建模时间和频率信息的卷积注意。相关技术采用对偶时间-通道-频率注意。相关技术利用简单的注意力模块。本申请实施例采用了一个高效的三元组注意力模块，可以与DPNet无缝集成。

表1：DPNet34的结构。它由残差和循环路径组成。与ResNet34类似，该架构分为四个阶段，分别包含3、4、6、3个块。

图2：双路径嵌入学习框架的拓扑结构。在信息交换和融合发生的地方存在两条平行的路径。最后，将来自两条路径的特征连接起来以获得说话人嵌入。残差路径：带有残差块的正常残差学习。循环路径：这是一条沿深度的循环路径，相当于展开的RNN，其中H_i是隐藏状态。它可以通过循环块从前一层积累信息并与残差路径进行交换。TA：在每个残差块中的残差映射之后插入的三元组注意力模块。其中，中英文对照如下：Recurrent Path:循环路径，Residual Path:残差路径，Concatenation:拼接，Copy:复制，Recurrent Block:循环模块，Residual Block:残差模块，Repeat N times:重复N次，Statistical Pooling:统计池化层：Fully-connected Layer:全连接层，Speaker Embedding:说话人嵌入向量，AAM-softmax:回归损失函数。

3.建议方法

在本实施例中将详细描述所提出的双路径嵌入学习框架以及三元组注意模块。

3.1双路径嵌入学习框架

在提出的双路径嵌入学习框架中，存在两条路径：残差路径和循环路径。残差路径来自常用的ResNet。循环路径经过精心设计，通过沿深度的循环连接为当前层提供前一层信息的积累。最后，聚合两条路径的结果特征以获得说话人嵌入。图2示意性地描绘了该框架的整体拓扑。以DPNet34为例，结构细节如表1所示。

残差路径：本申请实施例在这项工作中采用ResNet18和ResNet34作为残差路径。假设总共有N个残差块，第i个残差块的特征图可以表示为X_i∈R^C×F×T其中C、F和T分别表示通道、频率和时间维度，对于1≤i≤N。这些特征用于在残差和循环路径之间交换信息。

循环路径：在沿深度的循环路径中，每个残差块都有一个对应的循环块，其目的是积累层历史并交换信息，以便以顺序的方式更好地重用和重新利用。本申请实施例将第i个循环块特征图表示为H_i∈R^K×F×T，其中K表示循环块中的通道数，对于1≤i≤N。在实验中，K设置为32。在第i步骤，残差路径的计算过程如下：

Y_i＝Residual([X_i-1·H_i-1]) (1)

X_i＝Y_i+X_i-1 (2)

其中X_i-1和H_i-1分别是前一个残差块和循环块的输出。[·]表示沿通道维度的连接。残差意味着正常的残差学习。具体来说，输入X_i-1和H_i-1首先通过连接组合，然后将结果传递给残差块以获得Y_i。最后将残差映射Y_i与原始输入X_i-1相加，得到第i个残差块X_i的输出。

对于沿深度的循环路径，它相当于一个展开的RNN，其中H_i是第i步的隐藏状态，在第0步初始化为0。对于第i步更新，它的输入是残差块输出Y_i和之前的隐藏状态H_i-1。

H₀＝0 (3)

H_i＝Conv2(tanh(B(Conv1(Y_i)+H_i-1))) (4)

其中Conv1是输出通道大小为K的逐点卷积。B代表BatchNorm。tanh是非线性函数。Conv2表示3x3卷积。具体来说，残差映射Y_i首先通过1x1卷积在通道维度上进行压缩，然后添加到H_i-1。随后，通过批量归一化、tanh激活和3x3卷积处理生成的特征。类似于RNN的所有循环块共享逐点卷积和3x3卷积。

从上面的陈述可以看出，本申请实施例的双路径架构并不是简单的CNN和RNN的结合。关键思想是两条路径之间的信息积累和交换，这对于增强特征学习至关重要。

嵌入层：为了获得说话人嵌入，最后一个残差和循环块X_N,H_N的输出首先沿通道维度连接。然后将得到的特征输入到统计池化层以将可变长度表示映射到低维向量，然后由全连接(FC)层转换以生成说话人嵌入e。计算如下：

Z＝[X_N·H_N] (5)

e＝FC(P(Z)) (6)

其中P表示统计池化层。FC是全连接层。

3.2.三重注意力模块

本申请实施例设计了一种新颖高效的注意力模块，即三重注意力(TA)，用于说话人验证。与之前的注意机制不同，跨维度交互被引入到本申请实施例提出的TA中，通过三个单独的分支专门捕获通道和频率维度(C，F)，通道和时间维度(C，T)，频率和时间维度(F，T)之间的相互依赖性。图3是本申请实施例提出的方法的概述。

图3示出了TA的插图。

如图3所示，给定输入特征Y∈R^C×F×T，第一个分支构建通道和频率维度(C,F)之间的交互。由此产生的注意力图S(C,F)∈R^C×F×1通过以下方式生成：

S^(C,F)＝σ(Conv2(SiLU(B(Conv1(GAP_t(Y)))))) (7)

其中Conv1和Conv2是逐点卷积，输出通道大小分别为C/r和C。r是通道缩减率。B代表BatchNorm。GAPt是沿时间维度的一维全局平均池化。SiLU是非线性函数。σ是sigmoid函数。

类似地，在第二个分支中，通道和频率维度(C,T)之间的注意力图S^(C,T)∈R^C×1×T由下式获得：

S^(C,T)＝σ(Conv2(SiLU(B(Conv1(GAP_f(Y)))))) (8)

其中GAPf是沿频率维度的一维全局平均池化。

对于第三个分支，频率和时间维度(F,T)之间的注意力图S^(F,T)∈R^1×F×T计算如下：

S^(F,T)＝σ(B(Conv3([GAP_c(Y)·GMP(Y)]))) (9)

其中GAPc是沿通道维度的一维全局平均池化。GMP表示全局最大池化。Conv3指的是7x7卷积。

最后，TA的细化特征Y′∈R^C×F×T可以通过以下方式生成：

其中

代表广播乘法。

4.实验装置

4.1数据集和数据增强

本申请实施例采用Voxceleb1&2在实验中验证提出的DPNet和TA模块。Voxceleb2的开发集用作训练数据，由5994位说话者的1,092,009条话语组成。此外，还采用了三种数据增强技术来增加训练数据的多样性，包括使用MUSAN和RIR数据集的在线数据增强、specaugment和速度扰动，使用0.9和1.1倍速度变化。为了测试，整个Voxceleb1被用作评估数据。在三个官方试验列表中报告了性能：Vox1O、Vox1-E和Vox1-H。

4.2系统配置

输入声学特征是具有25ms窗口和10ms移位的80维滤波器组。在训练过程中，本申请实施例从每个话语中随机抽取一个200帧的块。此外，所有系统的训练标准均采用边距为0.2、尺度为32的AAM-softmax。模型使用随机梯度下降(SGD)进行优化，动量为0.9，权重衰减为1e-4。学习率由指数调度器控制，从0.1下降到1e-5。在测试过程中，采用自适应分数归一化(AS-Norm)通过将冒名顶替者群组设置为600来归一化余弦相似度分数。性能以等错误率(EER)和最小检测成本函数来衡量(MinDCF)，设置Ptarget＝0.01，CFA＝CMiss＝1。具体来说，本申请实施例构建了四种类型的系统进行比较，每种类型的配置如下：

·基线：ResNet18和ResNet34。

·DPNets：在提出的双路径架构中分别采用ResNet18和Resnet34作为剩余路径，本申请实施例可以得到对应的DPNet18和DPNet34。

·Baselines with TA：将TA模块集成到ResNet18和ResNet34中，方法是在每个残差块中的批量归一化之后将其插入。

·带有TA的DPNets：类似地，TA模块通过在残差路径的每个残差块中的批量归一化后插入，将TA模块合并到DPNet18和DPNet34中，如图2所示。

表2：不同系统在Voxceleb1数据集上的EER(等错误率)和MinDCF(最小检测代价函数)结果。

5.结果与分析

本申请实施例首先在表1中展示了提出的DPNet和基线系统的结果。然后分析了注意力模块的效果，包括SE、DTCF、SimAM和本申请实施例的TA。

5.1 DPNet的结果

本申请实施例分别采用ResNet18和ResNet34作为残差路径构建DPNet18和DPNet34，其中循环路径中的通道数设置为32。本申请实施例可以看到DPNet18和DPNet34都优于相应的ResNet18和ResNet34，这证明了残差和循环路径之间的信息交换。具体来说，对于DPNet18，在三个官方试用列表中，相对于ResNet18系统，EER分别获得了14.2％、13.8％、13.2％的相对提升。此外，DPNet34将Vox1-O、Vox1-E和Vox1-H上的EER分别降低到0.81％、0.89％和1.65％。它表明，将沿深度的循环路径引入CNN有利于特征的重用和再利用。所提出的双路径嵌入学习框架的成功可归因于来自不同层的信息在残差和循环路径之间累积和交换的事实。动态交互不是两条路径的简单组合，对于提高SV系统的表示能力至关重要。

5.2注意力模块的作用

5.2.1助教(TA)模块

TA模块可以很容易地集成到ResNet和DPNet中，从而在计算开销可以忽略不计的情况下带来显着的改进。对于ResNet，在三个官方试用列表中，相对于ResNet18和ResNet34系统，EER平均相对提升了26.8％、20.8％、19.4％。

同样，DPNet18-TA和DPNet34-TA在Vox1-O、Vox1-E和Vox1-H上的EER平均分别降低了24.4％、20.6％和15.1％。它证明了为说话人验证建模跨维度注意力的有效性和重要性。此外，值得注意的是，DPNet和TA模块的组合产生了最佳性能，这表明循环路径和TA模块的功能是互补的。

表3：不同注意力模块的效果。

5.2.2与以前的注意力机制比较

为了验证本申请实施例提出的TA模块相对于以前方法的优越性，本申请实施例采用ResNet18作为基线，并重新实现了SV任务中常用的注意力机制，例如SE、DTCF和SimAM。如表3所示，SE模块的效果非常有限，这表明仅建模通道依赖关系对于SV任务是不够的。DTCF尝试将时间和频率信息组装到通道注意中。但是，改进仍然不显着。对于SimAM，虽然没有引入额外的参数，但性能变得比基线还要差。与上述方法不同，本申请实施例的TA模块交互式地分别建模了通道和频率、通道和时间、频率和时间之间的相互依赖关系，大大优于所有列出的方法。这证明了为SV任务捕获跨维度交互的重要性。

6结论

在本文中，本申请实施例介绍了一种用于说话人验证的新型双路径嵌入学习框架。通过在两条路径之间积累和交换信息，可以学习增强的特征来提高SV系统的表示能力。此外，提出了一个有效的三元组注意模块来模拟跨维度注意。在Voxceleb数据集上的实验表明，所提出的DPNets可以执行相应的ResNets。与三元组注意模块结合时可以获得进一步的改进。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于说话人确认系统的双路径嵌入学习方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

经由所述残差路径中的残差块进行残差学习；

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于说话人确认系统的双路径嵌入学习装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至用于说话人确认系统的双路径嵌入学习装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项用于说话人确认系统的双路径嵌入学习方法。

图4是本发明实施例提供的电子设备的结构示意图，如图4所示，该设备包括：一个或多个处理器410以及存储器420，图4中以一个处理器410为例。用于说话人确认系统的双路径嵌入学习方法的设备还可以包括：输入装置430和输出装置440。处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。存储器420为上述的非易失性计算机可读存储介质。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于说话人确认系统的双路径嵌入学习方法。输入装置430可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于用于说话人确认系统的双路径嵌入学习装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

经由所述残差路径中的残差块进行残差学习；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于说话人确认系统的双路径嵌入学习方法，其中，所述双路径包括残差路径和循环路径，所述方法包括：

经由所述残差路径中的残差块进行残差学习；

2.根据权利要求1所述的方法，其中，所述经由所述残差路径中的残差块进行残差学习包括：

输入前一个残差块X_i-1和前一个循环块H_i-1通过连接组合，获得残差映射Y_i，将所述残差映射Y_i与原始输入的X_i-1相加，得到第i个残差块X_i的输出。

3.根据权利要求2所述的方法，其中，计算公式如下：

Y_i＝Residual([X_i-1·H_i-1])，

X_i＝Y_i+X_i-1，

4.根据权利要求1所述的方法，其中，H_i是第i步的隐藏状态，在第0步初始化为0，所述经由所述循环路径通过循环块从前一层积累信息并与所述残差路径进行交换包括：

对于第i步的更新，输入是残差映射Y_i和上一步的隐藏状态H_i-1，残差映射Yi通过1x1卷积在通道维度上进行压缩，然后添加到H_i-1，再通过批量归一化、tanh激活和3x3卷积处理。

5.根据权利要求4所述的方法，其中，计算公式如下：

H₀＝0，

H_i＝Conv2(tanh(B(Conv1(Y_i)+H_i-1)))，

6.根据权利要求1所述的方法，其中，所述聚合所述残差路径的嵌入特征和所述循环路径的嵌入特征以获得说话人嵌入包括：

最后一个残差块X_N的输出和最后一个循环块H_N的输出首先沿通道维度连接，然后将得到的特征输入到统计池化层以将可变长度表示映射到低维向量，然后由全连接层转换以生成说话人嵌入。

7.根据权利要求6所述的方法，其中，计算公式如下：

Z＝[X_N·H_N]，

e＝FC(P(Z))，

8.根据权利要求1-7中任一项所述的方法，其中，所述说话人确认系统还包括与所述双路径集成的三重注意力模块，所述三重注意力模块通过三个单独的分支分别捕获通道和频率维度(C，F)、通道和时间维度(C，T)以及频率和时间维度(F，T)之间的相互依赖性。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。