CN117594058A

CN117594058A - 基于深度学习的音频话者分离方法

Info

Publication number: CN117594058A
Application number: CN202410079739.XA
Authority: CN
Inventors: 薛凯翔; 丁卓
Original assignee: Nanjing Longyuan Information Technology Co ltd
Current assignee: Nanjing Longyuan Information Technology Co ltd
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-02-23

Abstract

本发明涉及音频处理技术领域，具体涉及一种基于深度学习的音频话者分离方法；采集音频，并进行多通道音频处理；根据音频滤波进行语音活动检测；进行声纹特征提取；将声纹特征向量聚类成不同的类别；将混合在同一音频信号中的多个说话者的声音进行分离，使每个说话者的声音成为独立的音频流；读取音频信息，进行可视化界面试听，通过上述方式，实现了提高在复杂的环境中音频话者分离效果。

Description

基于深度学习的音频话者分离方法

技术领域

本发明涉及音频处理技术领域，尤其涉及一种基于深度学习的音频话者分离方法。

背景技术

在多人语音通信或多人会议中，混合音频中包含多个说话者的声音，这会导致语音识别和语音分析任务变得更加复杂。目前再从混合音频中准确地分离不同说话者的声音，以便更好地理解和处理语音数据中，通常依赖于信号处理技术，如独立成分分析和盲源分离。然而，这些方法在复杂的环境中表现不佳，影响音频话者分离效果。

发明内容

本发明的目的在于提供一种基于深度学习的音频话者分离方法，旨在解决现有技术中的在复杂的环境中音频话者分离效果不佳的技术问题。

为实现上述目的，本发明采用的一种基于深度学习的音频话者分离方法，包括如下步骤：

采集音频，并进行多通道音频处理；

根据音频滤波进行语音活动检测；

进行声纹特征提取；

将声纹特征向量聚类成不同的类别；

将混合在同一音频信号中的多个说话者的声音进行分离，使每个说话者的声音成为独立的音频流；

读取音频信息，进行可视化界面试听。

其中，在采集音频，并进行多通道音频处理的步骤中：

将音频格式进行转换后解码，并进行音频切割，得到音频滤波。

其中，在根据音频滤波进行语音活动检测的步骤中：

设定能量阈值；

对音频滤波进行特征提取，得到音频滤波的能量值；

对比能量值和能量阈值，当能量值超过能量阈值，判断该音频为语音。

其中，在将声纹特征向量聚类成不同的类别的步骤中：

切割音频，根据能量值和能量阈值的对比结果，在音频中按照语音活动起止时刻进行切割，得到多条音频片段；

对音频片段进行特征提取，对切割后的多条音频片段分别进行声纹特征的提取，并将提取到的特征进行标准化处理；

对特征数据进行聚类操作；

输出结果。

其中，在对特征数据进行聚类操作的步骤中：

将声纹特征向量分成不同的簇或类别，每个簇代表一个声纹身份，确保相同个体的声纹特征向量被分到同一个簇中，不同个体的声纹特征向量被分到不同簇中。

其中，在输出结果的步骤中：

将声纹身份与其对应的簇标签关联，并存储。

其中，在进行声纹特征提取的步骤中：

采用ECAPA-TDNN模型处理音频中的声音和文本信息，并捕捉声音中的情感和语调特征。

本发明的一种基于深度学习的音频话者分离方法，通过采集音频，并进行多通道音频处理；根据音频滤波进行语音活动检测；进行声纹特征提取；将声纹特征向量聚类成不同的类别；将混合在同一音频信号中的多个说话者的声音进行分离，使每个说话者的声音成为独立的音频流；读取音频信息，进行可视化界面试听；实现了提高在复杂的环境中音频话者分离效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于深度学习的音频话者分离方法的步骤流程图。

图2是本发明的语音活动检测的步骤流程图。

图3是本发明的将声纹特征向量聚类成不同的类别的步骤流程图。

具体实施方式

请参阅图1至图3，本发明提供了一种基于深度学习的音频话者分离方法，包括如下步骤：

S1：采集音频，并进行多通道音频处理，将音频格式进行转换后解码，并进行音频切割，得到音频滤波；

S2：根据音频滤波进行语音活动检测；

S3：进行声纹特征提取，采用ECAPA-TDNN模型处理音频中的声音和文本信息，并捕捉声音中的情感和语调特征；

S4：将声纹特征向量聚类成不同的类别；

S5：将混合在同一音频信号中的多个说话者的声音进行分离，使每个说话者的声音成为独立的音频流；

S6：读取音频信息，进行可视化界面试听。

在本实施方式中，首先采集音频，并进行多通道音频处理，将音频格式进行转换后解码，并进行音频切割，得到音频滤波；然后根据音频滤波进行语音活动检测；再进行声纹特征提取，采用ECAPA-TDNN模型处理音频中的声音和文本信息，并捕捉声音中的情感和语调特征；然后将声纹特征向量聚类成不同的类别，以便于声纹识别中的身份验证及身份识别；接着将混合在同一音频信号中的多个说话者的声音进行分离，使每个说话者的声音成为独立的音频流；最后读取音频信息，进行可视化界面试听；通过上述方式实现了提高在复杂的环境中音频话者分离效果。

进一步地，在根据音频滤波进行语音活动检测的步骤中：

S21：设定能量阈值；

S22：对音频滤波进行特征提取，得到音频滤波的能量值；

S23：对比能量值和能量阈值，当能量值超过能量阈值，判断该音频为语音。

在本实施方式中，首先设定能量阈值；然后对音频滤波进行特征提取，得到音频滤波的能量值；最后对比能量值和能量阈值，当能量值超过能量阈值，判断该音频为语音。

进一步地，在将声纹特征向量聚类成不同的类别的步骤中：

S41：切割音频，根据能量值和能量阈值的对比结果，在音频中按照语音活动起止时刻进行切割，得到多条音频片段；

S42：对音频片段进行特征提取，对切割后的多条音频片段分别进行声纹特征的提取，并将提取到的特征进行标准化处理；

S43：对特征数据进行聚类操作，将声纹特征向量分成不同的簇或类别，每个簇代表一个声纹身份，确保相同个体的声纹特征向量被分到同一个簇中，不同个体的声纹特征向量被分到不同簇中；

S44：输出结果，将声纹身份与其对应的簇标签关联，并存储。

在本实施方式中，首先切割音频，根据能量值和能量阈值的对比结果，在音频中按照语音活动起止时刻进行切割，得到多条音频片段；然后对音频片段进行特征提取，对切割后的多条音频片段分别进行声纹特征的提取，并将提取到的特征进行标准化处理，以确保各个特征维度的尺度一致，常见的标准化方法包括Z-score标准化和归一化；再对特征数据进行聚类操作，选择适合声纹特征的聚类算法，常见的包括K均值聚类、层次聚类、DBSCAN等，选择的算法应根据数据的性质和任务需求来确定，将声纹特征向量分成不同的簇或类别，每个簇代表一个声纹身份，确保相同个体的声纹特征向量被分到同一个簇中，不同个体的声纹特征向量被分到不同簇中；最后输出结果，将声纹身份与其对应的簇标签关联，并存储，以备后续的声纹识别使用。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于深度学习的音频话者分离方法，其特征在于，包括如下步骤：

采集音频，并进行多通道音频处理；

根据音频滤波进行语音活动检测；

进行声纹特征提取；

将声纹特征向量聚类成不同的类别；

读取音频信息，进行可视化界面试听。

2.如权利要求1所述的基于深度学习的音频话者分离方法，其特征在于，在采集音频，并进行多通道音频处理的步骤中：

3.如权利要求1所述的基于深度学习的音频话者分离方法，其特征在于，在根据音频滤波进行语音活动检测的步骤中：

设定能量阈值；

对音频滤波进行特征提取，得到音频滤波的能量值；

4.如权利要求3所述的基于深度学习的音频话者分离方法，其特征在于，在将声纹特征向量聚类成不同的类别的步骤中：

对特征数据进行聚类操作；

输出结果。

5.如权利要求4所述的基于深度学习的音频话者分离方法，其特征在于，在对特征数据进行聚类操作的步骤中：

6.如权利要求5所述的基于深度学习的音频话者分离方法，其特征在于，在输出结果的步骤中：

将声纹身份与其对应的簇标签关联，并存储。

7.如权利要求1所述的基于深度学习的音频话者分离方法，其特征在于，在进行声纹特征提取的步骤中：