CN115691474A

CN115691474A - 一种说话人音频分离方法、终端设备及存储介质

Info

Publication number: CN115691474A
Application number: CN202110823283.XA
Authority: CN
Inventors: 曾志先; 肖龙源; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2023-02-03

Abstract

本发明涉及一种说话人音频分离方法、终端设备及存储介质，该方法中包括：S1：将包含多个说话人语音的音频按预设时长切分为多个音频片段；S2：提取各音频片段中的声纹向量；S3：将所有音频片段的声纹向量拼接为一个声纹特征矩阵；S4：根据声纹特征矩阵，计算音频片段的相似度矩阵；S5：根据相似度矩阵，对各音频片段进行聚类；S6：根据聚类结果，设定每个类别对应一个说话人，将每个类别对应的所有音频片段进行拼接，完成对不同说话人音频的分离。本发明可以在未知说话人人数的情况下，实现说话人音频的分离，具有较高的准确性，能够应用于多个场景，具有很高的泛化能力。

Description

一种说话人音频分离方法、终端设备及存储介质

技术领域

本发明涉及语音识别领域，尤其涉及一种说话人音频分离方法、终端设备及存储介质。

背景技术

随着语音识别技术的不断发展，越来越多的智能设备通过语音识别等语音相关的技术实现人机交互的功能，例如音箱、手机等设备，通过这些设备，人们可以更方便的通过语音来进行设备的相关操作。

在会议场景当中，通常会使用录音笔将所有说话人的语音录制下来，然后会议结束后将语音转为文字保存下来，但是由于同一条录音中包含了多个说话人的语音，所以在将语音转为文字的时候，无法区分每一句语音是哪个说话人说的，此时就需要通过说话人分割与聚类的技术将同一段音频当中不同说话人的语音区分开来，然后再对不同说话人的语音单独进行识别。

传统的语音识别技术中，通常是直接将包含多个说话人的整段语音进行识别，然后将识别结果进行返回，但是该方法存在的问题就是识别的结果当中可能受到其他无关说话人的干扰，导致无法正确识别语音所对应的文字。

发明内容

为了解决上述问题，本发明提出了一种说话人音频分离方法、终端设备及存储介质。

具体方案如下：

一种说话人音频分离方法，包括以下步骤：

S1：将包含多个说话人语音的音频按预设时长切分为多个音频片段；

S2：提取各音频片段中的声纹向量；

S3：将所有音频片段的声纹向量拼接为一个声纹特征矩阵；

S4：根据声纹特征矩阵，计算音频片段的相似度矩阵；

S5：根据相似度矩阵，对各音频片段进行聚类；

S6：根据聚类结果，设定每个类别对应一个说话人，将每个类别对应的所有音频片段进行拼接，完成对不同说话人音频的分离。

进一步的，对音频进行切分时设定切分后的相邻两个音频之间有重叠。

进一步的，通过训练好的声纹识别模型中的声纹提取模块来提取各音频片段中的声纹向量。

进一步的，声纹识别模型采用VGG网络架构。

进一步的，声纹特征矩阵中行代表声纹向量的索引、列代表声纹向量的维度。

进一步的，相似度矩阵为声纹特征矩阵与声纹特征矩阵的转置相乘后，将对角线上的值均置为负数。

进一步的，根据相似度矩阵，对各音频片段进行聚类的具体过程包括：

S51：初始化设定每个音频片段对应一个类别；

S52：查找相似度矩阵中的最大值，如果最大值大于停止聚类阈值，进入S53；否则，停止聚类，输出聚类结果；

S53：将该最大值的行和列对应的音频片段进行合并；

S54：根据用于合并的音频片段更新相似度矩阵，返回S52。

进一步的，步骤S54中根据更新的类别数组更新相似度矩阵的方法为：

S541：提取用于合并的两个音频片段在相似度矩阵中对应的行，将提取的两个行组成一个矩阵；

S542：提取矩阵中各列的最小值得到最远片段结果，将最远片段结果赋值到用于合并的两个音频片段在相似度矩阵中对应的行内；

S543：将最远距离向量转置为列后，赋值到用于合并的两个音频片段在相似度矩阵中对应的列内。

一种说话人音频分离终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，可以在未知说话人人数的情况下，实现说话人音频的分离，具有较高的准确性，能够应用于多个场景，具有很高的泛化能力。

附图说明

图1所示为本发明实施例一的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种说话人音频分离方法，如图1所示，其为本发明实施例所述的说话人音频分离方法的流程图，所述方法包括以下步骤：

S1：将包含多个说话人语音的音频按预设时长切分为多个音频片段。

预设时长本领域技术人员可以自行设定，在此不做限制，该实施例中设定为1.2s，且相邻两个音频片段之间有0.4s的重叠部分。

S2：通过声纹识别模型中的声纹提取模块提取各音频片段中的声纹向量D-Vector；

该实施例中声纹识别模型采用VGG网络架构，将预训练好的声纹识别模型中的声纹向量提取模块单独取出，用于提取各音频片段中的声纹向量D-Vector。声纹向量D-Vector为512维的一维数组。

S3：将所有音频片段的声纹向量D-Vector拼接为一个声纹特征矩阵，其中声纹特征矩阵中行代表声纹向量D-Vector的索引、列代表声纹向量的维度。

S4：根据声纹特征矩阵，计算音频片段的相似度矩阵。

该实施例中相似度矩阵为声纹特征矩阵与声纹特征矩阵的转置相乘后，将对角线上的值置为负数。由于声纹特征矩阵与声纹特征矩阵的转置相乘后，其对角线恒为1，为了避免对角线的值对聚类结果造成影响，该实施例中设定将对角线的值均修改为负数，该实施例中修改为-1。

相似度矩阵的行和列均代表音频片段的索引。

S5：根据相似度矩阵，对各音频片段进行聚类。

该实施例中具体过程包括：

S51：初始化设定每个音频片段对应一个类别；

S53：将该最大值的行和列对应的音频片段进行合并；

S54：根据用于合并的音频片段更新相似度矩阵，返回S52。

根据更新的类别数组更新相似度矩阵的方法为：

由于聚类策略为当两个类别中距离最远的两个音频片段的相似度大于停止聚类阈值时，判定这两个类别中的所有音频片段均属于一类，因此在对相似度矩阵的更新中，通过提取的同一类别中的最小值来对进行更新。

停止聚类阈值本领域技术人员可以根据需求自行设定，在此不做限制。

S6：根据聚类结果，设定每个类别对应一个说话人，将每个类别对应的所有音频片段进行拼接，完成对不同说话人音频的分离，各个类别中所有音频片段的拼接结果即为分离后的各个说话人的音频。

本发明实施例可以在未知说话人人数的情况下，实现说话人音频的分离，具有较高的准确性，能够应用于多个场景，具有很高的泛化能力。

实施例二：

本发明还提供一种说话人音频分离终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述说话人音频分离终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述说话人音频分离终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述说话人音频分离终端设备的组成结构仅仅是说话人音频分离终端设备的示例，并不构成对说话人音频分离终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述说话人音频分离终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述说话人音频分离终端设备的控制中心，利用各种接口和线路连接整个说话人音频分离终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述说话人音频分离终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述说话人音频分离终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种说话人音频分离方法，其特征在于，包括以下步骤：

S2：提取各音频片段中的声纹向量；

S3：将所有音频片段的声纹向量拼接为一个声纹特征矩阵；

S4：根据声纹特征矩阵，计算音频片段的相似度矩阵；

S5：根据相似度矩阵，对各音频片段进行聚类；

2.根据权利要求1所述的说话人音频分离方法，其特征在于：对音频进行切分时设定切分后的相邻两个音频之间有重叠。

3.根据权利要求1所述的说话人音频分离方法，其特征在于：通过训练好的声纹识别模型中的声纹提取模块来提取各音频片段中的声纹向量。

4.根据权利要求3所述的说话人音频分离方法，其特征在于：声纹识别模型采用VGG网络架构。

5.根据权利要求1所述的说话人音频分离方法，其特征在于：声纹特征矩阵中行代表声纹向量的索引、列代表声纹向量的维度。

6.根据权利要求1所述的说话人音频分离方法，其特征在于：相似度矩阵为声纹特征矩阵与声纹特征矩阵的转置相乘后，将对角线上的值均置为负数。

7.根据权利要求1所述的说话人音频分离方法，其特征在于：根据相似度矩阵，对各音频片段进行聚类的具体过程包括：

S51：初始化设定每个音频片段对应一个类别；

S53：将该最大值的行和列对应的音频片段进行合并；

S54：根据用于合并的音频片段更新相似度矩阵，返回S52。

8.根据权利要求7所述的说话人音频分离方法，其特征在于：步骤S54中根据更新的类别数组更新相似度矩阵的方法为：

9.一种说话人音频分离终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～8中任一所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～8中任一所述方法的步骤。