CN114333850A

CN114333850A - 一种语音声纹可视化方法与装置

Info

Publication number: CN114333850A
Application number: CN202210255312.1A
Authority: CN
Inventors: 郑方; 李鹏琦; 李蓝天; 徐明星; 万化; 张琛; 潘仰耀; 谢弈峥
Original assignee: Tsinghua University; Shanghai Pudong Development Bank Co Ltd
Current assignee: Tsinghua University; Shanghai Pudong Development Bank Co Ltd
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-04-12
Anticipated expiration: 2042-03-15
Also published as: CN114333850B

Abstract

本发明提供一种语音声纹可视化方法与装置，所述方法包括：获取说话者的语音信息，并获取语音信息的特征信息；将所述特征信息输入至训练好的声纹识别模型中，基于所述声纹识别模型的多层卷积层得到所述语音信息的层次性类激活热力图；其中，所述声纹识别模型是基于语音样本以及语音样本对应的说话人标签进行训练得到的。本发明能够根据层次性类激活热力图实现对语音声纹的可视化。

Description

一种语音声纹可视化方法与装置

技术领域

本发明涉及声纹识别的技术领域，尤其涉及一种语音声纹可视化方法与装置。

背景技术

声纹识别技术，又称说话人识别技术，是生物特征识别技术的一种。随着深度学习的发展，当前主流的声纹识别技术是通过深度神经网络模型来提取语音中的说话人个性声纹特征，进而完成说话人身份的辨认或确认。

可视化分析技术是针对深度神经网络的可解释性问题所发展而来的一类研究方向。具体地，通过对深度神经网络的特征空间、预测结果的可视化分析，实现对深度神经网络模型的黑盒分析，提高对深度神经网络模型的可解释性。

在语音处理领域，可视化分析技术最先在语音识别任务上开展应用。如图1所示，首先对语音频谱特征进行局部掩蔽；然后通过人耳听觉感知或者自动语音识别系统，返回人耳听觉或自动语音识别系统对目标词语识别的正确性变化；最后通过统计该正确性变化与其输入掩蔽位置的关系，即可得到重要性函数图。通过重要性函数图的可视化表现，结合语音学知识，实现对语音识别技术的可视化分析。

在图像处理领域，可视化分析技术最先在图像识别任务上开展应用。如图2所示，首先训练得到一个基于卷积深度神经网络结构的图像识别模型。当一张图片输入该模型后，可以通过反向传播算法逐层观察卷积层的特征图激活值，对这些在不同卷积层带有不同激活值的特征图进行融合，即可得到重要性函数图。基于重要性函数图，可以开展图像领域相关下游任务，如目标检测任务，图像分割任务等。

尽管可视化分析技术在语音识别、图像识别等领域得到了一定的发展和应用，但其在声纹识别领域仍相对空白。因此，如何在声纹识别领域实现语音声纹的可视化，是当前课题亟需解决的技术问题。

发明内容

本发明提供一种语音声纹可视化方法与装置，用以解决现有技术中难以对语音声纹进行可视化的缺陷，实现对语音声纹识别的可视化。

本发明提供一种语音声纹可视化方法，包括：

获取说话者的语音信息，并获取语音信息的特征信息；

将所述特征信息输入至训练好的声纹识别模型中，基于所述声纹识别模型的多层卷积层得到所述语音信息的层次性类激活热力图；

其中，所述声纹识别模型是基于语音样本以及语音样本对应的说话人标签进行训练得到的。

根据本发明提供的一种语音声纹可视化方法，所述声纹识别模型的训练过程包括：

获取语音样本的特征样本；

将所述特征样本输入至所述卷积层中，基于所述卷积层对所述特征样本进行卷积操作，生成特征样本的对应卷积层的特征图；

对所述卷积层输出的特征图依次进行时域统计处理、全连接处理以及分类处理，并获取所述语音样本的分类识别结果；

基于损失函数对所述声纹识别模型进行迭代更新，直至所述语音样本的声纹识别结果和分类识别结果的差值达到预设阈值。

根据本发明提供的一种语音声纹可视化方法，将所述特征样本输入至所述卷积层中，基于所述卷积层对所述特征样本进行卷积操作，生成特征样本的对应卷积层的特征图之后，还包括：

基于神经网络反向传播算法，获取所述卷积层的多个特征图的类激活权重；

将每个所述特征图与其对应的类激活权重相乘，得到目标特征图的类激活图；

分别将每个所述卷积层对应的目标特征图相加，得到每个卷积层的类激活图；

将每个所述卷积层的类激活图相加，得到所述语音信息的层次性类激活热力图。

根据本发明提供的一种语音声纹可视化方法，所述基于神经网络反向传播算法，获取所述卷积层的多个特征图的类激活权重，包括：

基于神经网络反向传播算法，获得语音信息对应的语音类别的目标梯度；

基于激活函数对所述目标梯度进行负值滤除，得到所述语音信息的目标卷积层的目标特征图的目标位置的权重；

所述将每个所述特征图与其对应的类激活权重相乘，得到目标特征图的类激活图，包括：

将所述目标卷积层的目标特征图的每个位置的特征图与所述类激活权重相乘，得到所述目标特征图的类激活图。

根据本发明提供的一种语音声纹可视化方法，所述基于神经网络反向传播算法，获得语音信息对应的语音类别的目标梯度，包括：

获取语音信息对应的语音类别的预测损失；

基于神经网络反向传播算法，获取所述预测损失对目标卷积层的目标特征图的目标位置的目标梯度。

根据本发明提供的一种语音声纹可视化方法，所述分别将每个所述卷积层对应的目标特征图相加，得到每个卷积层的类激活图，包括：

将每个卷积层的所有目标特征图按照对应位置进行累加，并基于激活函数滤除负激活值，得到每个卷积层的类激活图。

根据本发明提供的一种语音声纹可视化方法，所述将每个所述卷积层的类激活图相加，得到所述语音信息的层次性类激活热力图，包括：

基于插值法将每个卷积层的类激活图进行尺寸扩大或压缩；其中，扩大或压缩后的尺寸与所述特征信息对应的语谱图的尺寸相同；

将扩大或压缩后的图片基于卷积层的层数维度累加，得到所述语音信息的层次性类激活热力图。

本发明还提供一种语音声纹可视化装置，包括：

获取模块，用于获取说话者的语音信息，并获取语音信息的特征信息；

可视化模块，用于将所述特征信息输入至训练好的声纹识别模型中，基于所述声纹识别模型的多层卷积层得到所述语音信息的层次性类激活热力图；

其中，所述声纹识别模型是基于语音样本训练集以及语音样本对应的说话人标签进行训练得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音声纹可视化方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音声纹可视化方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音声纹可视化方法的步骤。

本发明提供的一种语音声纹可视化方法与装置，通过获取说话者的语音信息的特征信息，利用训练好的声纹识别模型中，基于声纹识别模型的多层卷积层获取语音信息的层次性类激活热力图，根据层次性类激活热力图实现对语音声纹的可视化。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是语音处理领域的可视化分析技术的示意图；

图2是图像处理领域的可视化分析技术的示意图；

图3是本发明提供的语音声纹可视化方法的流程示意图之一；

图4是本发明提供的语音声纹可视化方法的流程示意图之二；

图5是本发明提供的声纹识别模型的系统架构图；

图6是本发明提供的语音声纹可视化方法的流程示意图之三；

图7是本发明提供的语音声纹可视化方法的样例语音的语音频谱图；

图8是本发明提供的语音声纹可视化方法生成的层次性类激活热力图；

图9是本发明提供的语音声纹可视化装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图3-8图描述本发明的语音声纹可视化方法。

参照图3，本发明提供的语音声纹可视化包括以下步骤：

步骤310、获取说话者的语音信息，并获取语音信息的特征信息。

具体地，本实施例中的说话者即为语音信息的发出者，可以理解为语音信息的声音来源。语音信息的特征信息为梅尔频谱图，也可以为其他的特征信息，在此不做过多限定。

步骤320、将所述特征信息输入至训练好的声纹识别模型中，基于所述声纹识别模型的多层卷积层得到所述语音信息的层次性类激活热力图；

具体地，本实施例是将标识语音信息的梅尔频谱图输入至已经事先训练完成的声纹识别模型中，输出语音信息的层次性类激活热力图，从而实现声纹识别的可视化。声纹识别模型最终的输出为语音信息的声纹识别结果，也就是对语音信息进行分类处理，而在这一过程中，便可由声纹识别模型的多层卷积层（ResNet卷积层）生成层次性类激活热力图以实现可视化。

本发明提供的一种语音声纹可视化方法，通过获取说话者的语音信息的特征信息，利用训练好的声纹识别模型中，基于声纹识别模型的多层卷积层获取语音信息的层次性类激活热力图，根据层次性类激活热力图实现对语音声纹的可视化。

参照图4，基于以上实施例，所述声纹识别模型的训练过程包括：

步骤410、获取语音样本的特征样本；

步骤420、将所述特征样本输入至所述卷积层中，基于所述卷积层对所述特征样本进行卷积操作，生成特征样本的对应卷积层的特征图；

步骤430、对所述卷积层输出的特征图依次进行时域统计处理、全连接处理以及分类处理，并获取所述语音样本的分类识别结果；

步骤440、基于损失函数对所述声纹识别模型进行迭代更新，直至所述语音样本的声纹识别结果和分类识别结果的差值达到预设阈值。

参照图5，本发明实施例基于深度残差神经网络（Deep residual network,ResNet）对语音信息进行语音声纹可视化。

ResNet模型的声纹识别模型的系统框架图。该系统主要由四部分组成：输入特征（例如，梅尔频谱图）、主体结构（例如，ResNet模型）、统计池化（例如，时域统计池化层）和输出分类（例如，Softmax目标函数）。

参照下表1，本实施例提供一个基于ResNet模型的声纹识别的系统结构实例。

针对以上系统架构，本实施例提供了声纹识别模型的训练过程，即声纹识别模型的获得过程。首先需要获得大量的语音样本，其中，语音样本为各种说话人的语音数据，来源于不同语音源的数据。然后将大量的语音样本对应的特征样本输入已建立的声纹识别模型中进行训练，其中特征样本与上文的特征信息对应，即为梅尔频谱图，也可以为其他的特征信息。由声纹识别模型的卷积层对特征样本进行可视化处理，生成语音样本的层次性类激活热力图。

在卷积层输出特征图之后，可根据声纹识别模型的时域统计池化层、全连接层以及分类层进行处理，进行时域转换、生成说话人向量以及分类，从而获取所述语音样本的分类识别结果。

在模型训练过程中，基于神经网络的反向传播，通过损失函数对模型进行迭代更新，不断调整模型参数，直至语音样本的声纹识别结果和分类识别结果的差值达到预设阈值，即表示模型收敛，停止训练得到训练完成的声纹识别模型。

基于以上实施例，将所述特征样本输入至所述卷积层中，基于所述卷积层对所述特征样本进行卷积操作，生成特征样本的对应卷积层的特征图之后，还包括：

具体地，参照图6，本实施例提供了获取层次性类激活图的详细方法，具体如下：

步骤610、将特征信息输入到卷积层中，通过神经网络反向传播算法，计算出某个卷积层中K个特征图（即卷积层中的通道）的类激活权重。

步骤620、将每个特征图与其对应的类激活权重相乘，得到新的特征图。

步骤630、将各个新的特征图相加，得到该卷积层的类激活图。

步骤640、重复步骤610-630，得到所有卷积层的类激活图。

本实施例中，卷积层的个数设置为M，即得到M个卷积层的类激活图。

步骤650、将M个卷积层的类激活图相加，得到最终的层次性类激活热力图。

本实施例通过将每个卷积层中的特征图与其权重相乘之后再相加，得到该卷积层的类激活图。然后再把每个卷积层的类激活图相加，从而得到更细粒度的层次性类激活热力图，提高对模型的可解释性，实现对语音声纹识别的可视化。

基于以上实施例，所述基于神经网络反向传播算法，获取所述卷积层的多个特征图的类激活权重，包括：

获取语音信息对应的语音类别的预测损失；

具体地，本实施例通过神经网络反向传播算法，首先基于以下公式（1），获得语音信息对应的语音类别的预测损失：

（1）

其中，

表示声纹识别模型，

表示其参数，

为语音语谱特征，c为语音信息对应的说话者。

然后基于以下公式（2），获取预测损失

对第m个ResNet卷积层的第k个特征图

中的第ij个位置的梯度：

（2）

基于以下公式（3），根据激活函数（ReLU函数）进行梯度负值滤除，从而获得说话人 c的语音在第m个ResNet卷积层，第k个特征图，空间位置

上的权重：

（3）

基于以下公式（4），将第m个ResNet卷积层的第k个特征图中的每个位置

的特征值乘以其对应的权重，获得了第k层的类激活图：

（4）

基于以上实施例，所述分别将每个所述卷积层对应的目标特征图相加，得到每个卷积层的类激活图，包括：

具体地，基于以下公式（5），将第m个ResNet卷积层的K个特征图

，按对应位置进行累加，并通过ReLU函数滤除负激活值，得到第m个ResNet卷积层的类激活图：

（5）

基于以上实施例，所述将每个所述卷积层的类激活图相加，得到所述语音信息的层次性类激活热力图，包括：

具体地，基于以下公式（6），将M个ResNet卷积层得到的类激活图，通过插值法把其尺寸扩大或压缩成与输入语谱图相同的尺寸大小；再沿ResNet卷积层数维度累加，得到说话者c的输入语音的层次性类激活热力图。

（6）

参照图7，图7是一条样例语音的语音频谱图（语谱图），即为ResNet声纹模型的输入。

参照图8，图8是采用本发明提出的层次性类激活可视化方法得到的层次性类激活热力图。该热力图中，越明亮的位置表示声纹识别模型在识别判决时的关注程度越高，重要性越大。可以借助该热力图对声纹模型的识别判决过程进行分析，分析不同语谱图位置的重要性，提高对声纹模型的可解释性。

下面对本发明提供的语音声纹可视化装置进行描述，下文描述的语音声纹可视化装置与上文描述的语音声纹可视化方法可相互对应参照。

参照图9本发明还提供一种语音声纹可视化装置，包括：

获取模块910，用于获取说话者的语音信息，并获取语音信息的特征信息；

可视化模块920，用于将所述特征信息输入至训练好的声纹识别模型中，基于所述声纹识别模型的多层卷积层得到所述语音信息的层次性类激活热力图；

基于以上实施例，所述声纹识别模型的训练过程包括：

获取语音样本的特征样本；

基于以上实施例，可视化模块具体用于：

获取语音信息对应的语音类别的预测损失；

基于以上实施例，可视化模块具体用于：将每个卷积层的所有目标特征图按照对应位置进行累加，并基于激活函数滤除负激活值，得到每个卷积层的类激活图。

基于以上实施例，可视化模块具体用于：

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行语音声纹可视化方法，该方法包括：获取说话者的语音信息，并获取语音信息的特征信息；

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音声纹可视化方法，该方法包括：获取说话者的语音信息，并获取语音信息的特征信息；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音声纹可视化方法，该方法包括：获取说话者的语音信息，并获取语音信息的特征信息；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音声纹可视化方法，其特征在于，包括：

获取说话者的语音信息，并获取语音信息的特征信息；

2.根据权利要求1所述的语音声纹可视化方法，其特征在于，所述声纹识别模型的训练过程包括：

获取语音样本的特征样本；

3.根据权利要求2所述的语音声纹可视化方法，其特征在于，将所述特征样本输入至所述卷积层中，基于所述卷积层对所述特征样本进行卷积操作，生成特征样本的对应卷积层的特征图之后，还包括：

4.根据权利要求3所述的语音声纹可视化方法，其特征在于，所述基于神经网络反向传播算法，获取所述卷积层的多个特征图的类激活权重，包括：

5.根据权利要求4所述的语音声纹可视化方法，其特征在于，所述基于神经网络反向传播算法，获得语音信息对应的语音类别的目标梯度，包括：

获取语音信息对应的语音类别的预测损失；

6.根据权利要求4所述的语音声纹可视化方法，其特征在于，所述分别将每个所述卷积层对应的目标特征图相加，得到每个卷积层的类激活图，包括：

7.根据权利要求3所述的语音声纹可视化方法，其特征在于，所述将每个所述卷积层的类激活图相加，得到所述语音信息的层次性类激活热力图，包括：

8.一种语音声纹可视化装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音声纹可视化方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音声纹可视化方法的步骤。