CN117238311A

CN117238311A - 一种多声源及噪声环境中的语音分离增强方法及系统

Info

Publication number: CN117238311A
Application number: CN202311496900.5A
Authority: CN
Inventors: 黄洪平; 邓胜丰; 白启昊
Original assignee: China Etech Technology Co ltd
Current assignee: China Etech Technology Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2023-12-15
Anticipated expiration: 2043-11-10
Also published as: CN117238311B

Abstract

本发明公开了一种多声源及噪声环境中的语音分离增强方法及系统，包括：获取目标场景的音视频数据，提取混合声音信号进行初步预处理，筛选不同频率声音信号对应的特征指标进行特征提取生成混合语音特征；获取声纹特征及视觉特征，生成多模态特征；将混合语音特征及所述多模态特征进行融合，获取融合特征，构建语音分离模型生成不同说话人的干净语音片段，将片段进行拼接，获取不同说话人的语音序列；将语音序列进行语音增强，并根据不同说话人的历史语音序列构建语音数据库，利用所述语音数据库对语音序列进行细节增强优化。本发明利用所模态特征辅助语音分离，使得分离后语音在主观听感上清晰度及可懂度提高，并显著提高了语音的分离效率。

Description

一种多声源及噪声环境中的语音分离增强方法及系统

技术领域

本发明涉及语音分离技术领域，更具体的，涉及一种多声源及噪声环境中的语音分离增强方法及系统。

背景技术

在语音交互场景中，目标说话人的语音通常会受到其他人声、外界噪声等多种因素的干扰。在存在多个说话人同时说话的复杂声学环境中，人类的听觉系统能将不同说话人的音频分离出来，将注意力集中于目标说话人的语音。但是计算机系统很难像人类一样将实现对目标说话人语音的追踪，这严重影响后续语音识别、说话人分割聚类等语音后端任务的准确率。针对存在噪声和多声源的复杂声学场景，语音分离算法可以将麦克风接收到的混合信号中的各个声源分离。

目前，在视频会议等实际应用场景中，语音终端设备的有效感知范围内往往存在多个用户，这些用户作为多个“声源”通常会同时发出语音信号，来自多个声源的信号相互叠加和干扰，导致语音识别率大大降低。当前的语音分离方法需要较高的部署成本和硬件成本或者需要预先知道声源的位置，但是由于语音信号的叠加和干扰以及多径效应的影响，传统的方法无法精确估计每个声源的角度，很大程度上限制了语音分离方法的适用性。因此，如何对语音信号进行优化，对多个用户的语音信号进行有效分离，提高语音识别的准确率是亟需解决的问题。

发明内容

为了解决上述一个技术问题，本发明提出了一种多声源及噪声环境中的语音分离增强方法及系统。

本发明第一方面提供了一种多声源及噪声环境中的语音分离增强方法，包括：

获取目标场景的音视频数据，提取混合声音信号，将所述混合声音信号进行初步预处理，筛选不同频率声音信号对应的特征指标进行特征提取，将混合声音信号对应的特征进行融合生成混合语音特征；

提取混合声音信号中的声纹特征，并利用视频编码获取视觉特征，根据所述声纹特征及所述视觉特征生成多模态特征；

将所述混合语音特征及所述多模态特征进行融合，获取融合特征，构建语音分离模型，将所述融合特征作为模型输入，生成不同说话人的干净语音片段，将片段进行拼接，获取不同说话人的语音序列；

将所述语音序列进行语音增强，并根据不同说话人的历史语音序列构建语音数据库，利用所述语音数据库对语音序列进行细节增强优化。

本方案中，提取混合声音信号，将所述混合声音信号进行初步预处理，筛选不同频率声音信号对应的特征指标进行特征提取，具体为：

获取目标场景的音视频数据，将所述音视频数据编码为代表时间上下文的音频和视频嵌入的时间序列，根据音频时间序列得到混合声音信号，通过初步预处理减少噪声影响，并将所述混合声音信号从时域变换到频域；

获取混合声音信号的声谱图，根据所述声谱图划分混合声音信号中的高频声音信号及低频声音信号，利用大数据手段进行实例检索，获取与频域相关的声音特征，构建声音特征集合；

通过实例统计分析基于高频声音信号及低频声音信号获取不同声音特征的使用频率，根据使用频率阈值筛选高频声音信号及低频声音信号对应的声音特征子集；

在所述声音特征子集中利用遗传算法根据特征重要度指标、特征维度指标及特征冗余度指标建立多目标优化任务，获取不同特征组合的适应度，根据所述适应度进行交叉重组，获取高频声音信号及低频声音信号的声音特征组合；

根据所述声音特征组合中的特征指标进行特征提取，获取高频声音特征及低频声音特征。

本方案中，将混合声音信号对应的特征进行融合生成混合语音特征，具体为：

获取高频声音特征及低频声音特征，利用深度卷积网络及GRU网络构建特征融合模型，将所述高频声音特征及低频声音特征作为模型输入，在所述深度卷积网络中引入空洞卷积，提高特征融合模型的感受野；

通过GRU网络获取输入特征的时间相关性，将深度卷积网络及GRU网络的输出通过通道注意力机制生成不同特征对应的通道注意力，根据所述通道注意力进行加权融合获取两个通道加权融合后的输出特征；

将两个通道加权融合后的输出特征进行拼接，对拼接后的特征进行维度调整，使得两个特征的维度相匹配，将维度调整后的特征导入全连接层，通过全连接层输出混合语音特征。

本方案中，提取混合声音信号中的声纹特征，并利用视频编码获取视觉特征，根据所述声纹特征及所述视觉特征生成多模态特征，具体为：

获取混合声音信号根据预设时间步长进行分割，并获取分割后子序列的语谱图，计算分割后子序列的谱熵，根据所述谱熵对所述语谱图进行分类，获取不同信噪比类别的语谱图集合；

将不同类别信噪比的语谱图集合匹配不同的声纹特征，高信噪比类别对应语谱图集合对应的声纹特征多于低信噪比类别对应语谱图集合对应的声纹特征；

根据不同信噪比类别的声纹特征进行特征提取，并导入音频编码器，利用所述音频编码器采集不同时间跨度的特征信息，对所述特征信息进行融合获取混合声音信号中的声纹特征；

获取音视频数据的视频时间序列，导入视频编码器获取提取关键帧图像信息，根据所述关键帧图像信息获取人脸特征及人脸关键点的定位，根据所述人脸关键点的定位进行图像分割；

获取关键帧图像信息中的人脸区域，并根据所述人脸区域中的人脸特征获取帧序列作为视觉特征，将所述视觉特征及声纹特征生成多模态特征。

本方案中，构建语音分离模型，将所述融合特征作为模型输入，生成不同说话人的干净语音片段，将片段进行拼接，获取不同说话人的语音序列，具体为：

获取混合声音特征及多模态特征，引入自注意力机制获取自注意力权重，通过所述自注意力权重将所述混合声音特征及多模态特征进行加权融合，获取融合特征；

根据U-Net网络构建语音分离模型，将所述融合特征进行分段，并进行重新组合后导入U-Net网络进行下采样，获取不同融合特征块对应的局部特征及组合后全部融合特征块的全局特征；

将所述局部特征及全局特征进行归一化操作，与重新组合后的融合特征保持同一维度，利用上采样生成预测张量，将所述预测张量进行重叠相加，获取不同说话人的预测掩码；

根据所述预测掩码生成不同说话人的干净语音片段，将片段进行拼接，获取不同说话人的语音序列。

本方案中，将所述语音序列进行语音增强，并根据不同说话人的历史语音序列构建语音数据库，利用所述语音数据库对语音序列进行细节增强优化，具体为：

获取不同说话人的语音序列，将不同说话人的语音序列进行小波变换，获取语音序列的语谱图，根据所述语谱图获取频率段分布，在不同频率段中通过遗传算法获取小波变化的最佳阈值参数；

根据所述最佳阈值参数进行不同说话人语音序列的语音增强，将语音增强后的语音序列存入语音数据库；

在所述语音数据库中，获取不同说话人的历史语音序列，提取不同说话人的语言习惯及口音特征，获取当前不同说话人的语音序列中的模糊语音片段，将所述模糊语音片段对应的融合特征与对应的语言习惯及口音特征进行相似度计算；

根据相似度获取所述融合特征对接近的特征词，通过所述特征词对当前的语音序列进行优化，同时根据口音特征对不同说话人语音序列对应的音色特征进行修正。

本发明第二方面还提供了一种多声源及噪声环境中的语音分离增强系统，该系统包括：存储器、处理器，所述存储器中包括多声源及噪声环境中的语音分离增强方法程序，所述多声源及噪声环境中的语音分离增强方法程序被所述处理器执行时实现如下步骤：

附图说明

为了更清楚地说明本发明实施例或示例性中的技术方案，下面将对实施例或示例性描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以按照这些附图示出的获得其他的附图。

图1示出了本发明一种多声源及噪声环境中的语音分离增强方法的流程图；

图2示出了本发明生成多模态特征的流程图；

图3示出了本发明构建语音分离模型的流程图；

图4示出了本发明一种多声源及噪声环境中的语音分离增强系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种多声源及噪声环境中的语音分离增强方法的流程图。

如图1所示，本发明第一方面提供了一种多声源及噪声环境中的语音分离增强方法，包括：

S102，获取目标场景的音视频数据，提取混合声音信号，将所述混合声音信号进行初步预处理，筛选不同频率声音信号对应的特征指标进行特征提取，将混合声音信号对应的特征进行融合生成混合语音特征；

S104，提取混合声音信号中的声纹特征，并利用视频编码获取视觉特征，根据所述声纹特征及所述视觉特征生成多模态特征；

S106，将所述混合语音特征及所述多模态特征进行融合，获取融合特征，构建语音分离模型，将所述融合特征作为模型输入，生成不同说话人的干净语音片段，将片段进行拼接，获取不同说话人的语音序列；

S108，将所述语音序列进行语音增强，并根据不同说话人的历史语音序列构建语音数据库，利用所述语音数据库对语音序列进行细节增强优化。

需要说明的是，获取目标场景的音视频数据，将所述音视频数据编码为代表时间上下文的音频和视频嵌入的时间序列，根据音频时间序列得到混合声音信号，通过初步预处理减少噪声影响，并将所述混合声音信号从时域变换到频域；利用短时傅里叶变换获取混合声音信号的声谱图，根据所述声谱图划分混合声音信号中的高频声音信号及低频声音信号，利用大数据手段进行实例检索，获取与频域相关的声音特征，构建声音特征集合；通过实例统计分析基于高频声音信号及低频声音信号获取不同声音特征的使用频率，根据使用频率阈值筛选高频声音信号及低频声音信号对应的声音特征子集；在所述声音特征子集中利用遗传算法根据特征重要度指标、特征维度指标及特征冗余度指标建立多目标优化任务，获取不同特征组合的适应度，根据所述适应度进行交叉重组，获取高频声音信号及低频声音信号的声音特征组合；其中所述特征重要度指标通过分析实例中声音特征对应的识别准确率均值获取，特征维度指标通过特征组合中的数量获取，特征冗余度通过特征组合之间的皮尔逊相关系数计算得到，理想的特征组合需要满足高重要度、低维度和低冗余度等特点。根据所述声音特征组合中的特征指标进行特征提取，获取高频声音特征及低频声音特征。

需要说明的是，获取高频声音特征及低频声音特征，利用深度卷积网络及GRU网络构建特征融合模型，将所述高频声音特征及低频声音特征作为模型输入，在所述深度卷积网络中引入空洞卷积，提高特征融合模型的感受野；通过GRU网络获取输入特征的时间相关性，将深度卷积网络及GRU网络的输出通过通道注意力机制生成不同特征对应的通道注意力，根据所述通道注意力进行加权融合获取两个通道加权融合后的输出特征；将两个通道加权融合后的输出特征进行拼接，对拼接后的特征进行维度调整，使得两个特征的维度相匹配，将维度调整后的特征导入全连接层，通过全连接层输出混合语音特征。

图2示出了本发明生成多模态特征的流程图。

根据本发明实施例，提取混合声音信号中的声纹特征，并利用视频编码获取视觉特征，根据所述声纹特征及所述视觉特征生成多模态特征，具体为：

S202，获取混合声音信号根据预设时间步长进行分割，并获取分割后子序列的语谱图，计算分割后子序列的谱熵，根据所述谱熵对所述语谱图进行分类，获取不同信噪比类别的语谱图集合；

S204，将不同类别信噪比的语谱图集合匹配不同的声纹特征，高信噪比类别对应语谱图集合对应的声纹特征多于低信噪比类别对应语谱图集合对应的声纹特征；

S206，根据不同信噪比类别的声纹特征进行特征提取，并导入音频编码器，利用所述音频编码器采集不同时间跨度的特征信息，对所述特征信息进行融合获取混合声音信号中的声纹特征；

S208，获取音视频数据的视频时间序列，导入视频编码器获取提取关键帧图像信息，根据所述关键帧图像信息获取人脸特征及人脸关键点的定位，根据所述人脸关键点的定位进行图像分割；

S210，获取关键帧图像信息中的人脸区域，并根据所述人脸区域中的人脸特征获取帧序列作为视觉特征，将所述视觉特征及声纹特征生成多模态特征。

需要说明的是，通过快速傅里叶变换得出分割后子序列每帧信号的频谱，其中的每一个频谱向量的系数都表明信号在该频率点的大小分布。再计算每个频谱分量在每帧总能量中所占的比例，并将其作为信号能量集中在某频率点的概率，将所述概率生成对应序列获取分割后子序列的谱熵。声纹特征参数主要有以下几种：基音周期、短时过零率、线性预、线性预测倒谱系数频率倒谱系数、声道的冲击响应、自相关系数、声道面积函数以及经过噪声谱减或者信道谱减的去噪倒谱系数。通过熵谱作为作为声纹特征选择以及不确定性的度量，在信噪比低的子序列中包含的有用信息偏少，因此所采用的声纹特征数量也少，减少低信噪比子序列的计算数据量，避免计算资源的浪费。通过混合声音特征与多模态特征的融合，通过时间维度的注意力网络动态描述这种视听交互，将多模态特征与语音分离紧密结合。

图3示出了本发明构建语音分离模型的流程图。

根据本发明实施例，构建语音分离模型，将所述融合特征作为模型输入，生成不同说话人的干净语音片段，将片段进行拼接，获取不同说话人的语音序列，具体为：

S302，获取混合声音特征及多模态特征，引入自注意力机制获取自注意力权重，通过所述自注意力权重将所述混合声音特征及多模态特征进行加权融合，获取融合特征；

S304，根据U-Net网络构建语音分离模型，将所述融合特征进行分段，并进行重新组合后导入U-Net网络进行下采样，获取不同融合特征块对应的局部特征及组合后全部融合特征块的全局特征；

S306，将所述局部特征及全局特征进行归一化操作，与重新组合后的融合特征保持同一维度，利用上采样生成预测张量，将所述预测张量进行重叠相加，获取不同说话人的预测掩码；

S308，根据所述预测掩码生成不同说话人的干净语音片段，将片段进行拼接，获取不同说话人的语音序列。

需要说明的是，在下采样中根据融合特征块的块内特征生成局部特征，将融合特征块之间的特征作为全局特征。在U-Net网络中通过引入跳变连接来提高特征提取精度，能够获得更多的特征点，从而更有效地进行语音分离。

获取不同说话人的语音序列，将不同说话人的语音序列进行小波变换，获取语音序列的语谱图，根据所述语谱图获取频率段分布，在不同频率段中通过遗传算法获取小波变化的最佳阈值参数；根据所述最佳阈值参数进行不同说话人语音序列的语音增强，将语音增强后的语音序列存入语音数据库；在所述语音数据库中，获取不同说话人的历史语音序列，提取不同说话人的语言习惯及口音特征，获取当前不同说话人的语音序列中的模糊语音片段，将所述模糊语音片段对应的融合特征与对应的语言习惯及口音特征进行相似度计算；根据相似度获取所述融合特征对接近的特征词，通过所述特征词对当前的语音序列进行优化，同时根据口音特征对不同说话人语音序列对应的音色特征进行修正。

根据本发明实施例，获取目标场景的音视频数据中的人脸特征，利用大数据获取表情数据，将所述表情数据按照表情类别进行聚类，根据聚类结果获取不同标枪类别对应的面部特征点，并获取面部特征点的变化特征，生成不同表情类别对应的特征集合；根据音视频数据中人脸特征读取关键点，根据当前时间戳的关键点位置特征及关键点变化特征与特征集合进行相似度计算，根据所述相似度生成当前时间戳的表情数据，根据说话人的语音序列结合对应语音习惯读取当前时间戳的语义信息，计算语义信息与表情数据的曼哈顿距离，获取偏离度，根据所述偏离度判断是否存存在同步异常，根据预设时间步的偏离度判断同步异常为滞后同步或超前同步，根据判断结果及偏离度生成画面补偿信息实现声画同步。

本发明第二方面还提供了一种多声源及噪声环境中的语音分离增强系统4，该系统包括：存储器41、处理器42，所述存储器中包括多声源及噪声环境中的语音分离增强方法程序，所述多声源及噪声环境中的语音分离增强方法程序被所述处理器执行时实现如下步骤：

需要说明的是，声纹特征参数主要有以下几种：基音周期、短时过零率、线性预、线性预测倒谱系数频率倒谱系数、声道的冲击响应、自相关系数、声道面积函数以及经过噪声谱减或者信道谱减的去噪倒谱系数。通过熵谱作为作为声纹特征选择以及不确定性的度量，在信噪比低的子序列中包含的有用信息偏少，因此所采用的声纹特征数量也少，减少低信噪比子序列的计算数据量，避免计算资源的浪费。通过混合声音特征与多模态特征的融合，通过时间维度的注意力网络动态描述这种视听交互，将多模态特征与语音分离紧密结合。

需要说明的是，获取不同说话人的语音序列，将不同说话人的语音序列进行小波变换，获取语音序列的语谱图，根据所述语谱图获取频率段分布，在不同频率段中通过遗传算法获取小波变化的最佳阈值参数；根据所述最佳阈值参数进行不同说话人语音序列的语音增强，将语音增强后的语音序列存入语音数据库；在所述语音数据库中，获取不同说话人的历史语音序列，提取不同说话人的语言习惯及口音特征，获取当前不同说话人的语音序列中的模糊语音片段，将所述模糊语音片段对应的融合特征与对应的语言习惯及口音特征进行相似度计算；根据相似度获取所述融合特征对接近的特征词，通过所述特征词对当前的语音序列进行优化，同时根据口音特征对不同说话人语音序列对应的音色特征进行修正。

本发明第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质中包括多声源及噪声环境中的语音分离增强方法程序，所述多声源及噪声环境中的语音分离增强方法程序被处理器执行时，实现如上述任一项所述的多声源及噪声环境中的语音分离增强方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多声源及噪声环境中的语音分离增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多声源及噪声环境中的语音分离增强方法，其特征在于，提取混合声音信号，将所述混合声音信号进行初步预处理，筛选不同频率声音信号对应的特征指标进行特征提取，具体为：

3.根据权利要求1所述的一种多声源及噪声环境中的语音分离增强方法，其特征在于，将混合声音信号对应的特征进行融合生成混合语音特征，具体为：

4.根据权利要求1所述的一种多声源及噪声环境中的语音分离增强方法，其特征在于，提取混合声音信号中的声纹特征，并利用视频编码获取视觉特征，根据所述声纹特征及所述视觉特征生成多模态特征，具体为：

5.根据权利要求1所述的一种多声源及噪声环境中的语音分离增强方法，其特征在于，构建语音分离模型，将所述融合特征作为模型输入，生成不同说话人的干净语音片段，将片段进行拼接，获取不同说话人的语音序列，具体为：

6.根据权利要求1所述的一种多声源及噪声环境中的语音分离增强方法，其特征在于，将所述语音序列进行语音增强，并根据不同说话人的历史语音序列构建语音数据库，利用所述语音数据库对语音序列进行细节增强优化，具体为：

7.一种多声源及噪声环境中的语音分离增强系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括多声源及噪声环境中的语音分离增强方法程序，所述多声源及噪声环境中的语音分离增强方法程序被所述处理器执行时实现如下步骤：

8.根据权利要求7所述的一种多声源及噪声环境中的语音分离增强系统，其特征在于，将混合声音信号对应的特征进行融合生成混合语音特征，具体为：

9.根据权利要求7所述的一种多声源及噪声环境中的语音分离增强系统，其特征在于，提取混合声音信号中的声纹特征，并利用视频编码获取视觉特征，根据所述声纹特征及所述视觉特征生成多模态特征，具体为：

10.根据权利要求7所述的一种多声源及噪声环境中的语音分离增强系统，其特征在于，构建语音分离模型，将所述融合特征作为模型输入，生成不同说话人的干净语音片段，将片段进行拼接，获取不同说话人的语音序列，具体为：