CN112562707A

CN112562707A - 一种单信道目标语音增强方法

Info

Publication number: CN112562707A
Application number: CN202011376572.1A
Authority: CN
Inventors: 关键; 肖飞扬; 柳友德; 芦瑶; 兰宇晨; 田左; 王恺瀚; 谢明杰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-26

Abstract

本发明提供一种单信道目标语音增强方法，包括如下步骤：步骤一：语音信号的预处理与特征转换，引入时间潜在域信息，将时序波形信息通过深度学习框架拓展映射到对应潜在空间域的过程及其逆向变换；步骤二：基于生成信号权重的目标函数；步骤三：引入时序TCN网络模型；本发明网络能实现从混合源语音到目标语音信号的端到端处理，网络的增强性能优秀，能良好还原目标语音信号，同时提升了数据处理的并行处理能力，并能通过自身的数据增广丰富样本集，提升模型性能。

Description

一种单信道目标语音增强方法

技术领域

本发明涉及一种基于单信道目标语音增强方法，尤其涉及一种基于可度量生成对抗网络和时序TCN模型的单信道目标语音增强方法。

背景技术

声音是人类完成沟通交流和情感表述的重要途径，人类社会中人与人借助声音沟通的固定模式被称为语音对话。随着现代社会的发展，对话的方式不再局限于面对面的交谈，电子信息技术为远距离跨时域的会话提供有力支撑，语音信号的质量与可懂度直接关系到用户交互过程的顺利与否。

在长期的演化中，接收的语音信号质量和可懂度越高，人类听觉系统的反馈处理越迅速，理解越精准。人类听觉系统演化出了识别多源声音信号的功能，能识别可懂度复杂环境下的语音信号。然而，对于计算机来说，要把一个音频信号分解成多个不同的语音源信号，依然有许多棘手的问题需要解决。例如，在鸡尾酒会中人类能够分辨人耳接收到的声音信号，判断出哪些是乐器演奏的声音，哪些是酒杯碰撞的声音，哪些是同伴交谈的声音。

但这种功能的实现对于电子信息系统而言是十分困难的，计算机难以在这类场景中识别出特定目标语音信号源发出的语音信号，或者说，计算机本身不具备像人类听觉神经系统一样的过滤选择机制来过滤出所需要的目标语音信号源发出的语音信号。如何能够让计算机获得像人类听觉神经系统那样通过主动过滤选择来提取目标语音信号的能力，就是语音增强研究致力解决的问题，这个问题被形象地称为鸡尾酒会问题。

鸡尾酒会问题中，非目标信号种类复杂，既可以是平稳的规则信号，又可以是非平稳的不规则信号，这些无益于交互过程的非目标信号与目标语音信号产生混叠，产生了实际场景中的混合源语音信号。混合源语音信号的能量幅度信息明显区别于目标语音信号，混杂的背景音或是其他说话人的语音信号会严重干扰交互过程语音信号的可懂度。电话会议、智能汽车等语音交互场景如不能实现对目标语音信号的增强，远程会议将无法保证议题有效传达与反馈，智能汽车对于非目标指令的错误识别极有可能造成重大安全问题。

研究单信道的语音信号增强，可以为求解鸡尾酒会问题提出一个有效解，实现计算机对特定目标语音信号的有效判别。能够有效提高语音信号传递的质量和可懂度，消除客观因素造成的语音信号的带噪现象。在医学领域，单信道语音信号增强可以应用在助听设备和人工耳蜗的开发设计中，在声音信号被放大前进行增强处理，提取高质量高可懂度的语音信号，进而能够减少患者听觉神经系统的不适感。得益于语音增强在医学方面的应用，听力障碍人群可以借助搭载增强算法的助听设备辅助功效衰退的听觉神经系统，重新获得对外界声音的有效感知。语音增强的研究也可被视为人类对自身听觉神经系统的一种仿真模型，生物学中人类听觉系统的认知和探索也能参考语音增强研究提出的种种算法形成有科研价值的积极正反馈。

此外，单信道的目标语音信号增强还可以作为语音识别技术，说话人识别技术的预处理过程。在语音识别技术、说话人识别技术中应用单信道语音信号增强技术可以排除非目标源噪声信号可能带来的干扰，使得这些方法能够获得更准确的语意特征，从而达到提高其识别精准度的目的。可以说语音信号增强研究，尤其是单信道的语音信号增强研究在计算机听觉领域是具有重要意义的一类基础研究工作，对各个相关领域的研究与探索都有着不可忽视的价值。

发明内容

本发明的目的是为了解决实际场景中需求的目标说话人语音混杂的噪声及混合源语音造成的干扰而提供一种基于单信道目标语音增强方法。

本发明的目的是这样实现的：

一种单信道目标语音增强方法，包括如下步骤：

步骤一：语音信号的预处理与特征转换：

引入时间潜在域信息，将时序波形信息通过深度学习框架拓展映射到对应潜在空间域的过程及其逆向变换；

步骤二：基于生成信号权重的目标函数；

其中的x_c指代作为条件约束的混合源单信道语音信号；

步骤三：引入时序TCN网络模型；

时序TCN模型的输入为经过处理后的语音特征信息，借助对抗式训练的强大泛化能力，对纯净的目标语音信号进行了预测评估，生成器模型参考时序TCN模型的评估结果，对混合源单信道语音信号加以掩码，转换为对目标语音信号的拟合，实现了对混合源单信道语音信号的端到端增强处理。

与现有技术相比，本发明的有益效果是：

本发明网络能实现从混合源语音到目标语音信号的端到端处理，网络的增强性能优秀，能良好还原目标语音信号，同时提升了数据处理的并行处理能力，并能通过自身的数据增广丰富样本集，提升模型性能。

附图说明

图1是本发明的总体技术路线。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

本发明设计并实现了一种基于可度量生成对抗网络和时序TCN模型的单信道目标语音增强方法，为单信道语音增强研究引入了新的度量损失，并通过对语音数据增广功能的兼容实现了对目标语音增强性能更进一步的提升。

本发明解决技术问题所采用的技术方案包括如下内容：一种基于生成对抗网络和时序TCN网络的端到端语音增强框架，利用深度TCN模型端到端还原过程构建混合源语音到目标纯净源语音的预测评估，并在对抗式训练过程中将非梯度的语音客观度量指标纳入到模型总体的损失计算当中，旨在通过生成对抗网络结合语音指标评估实现对单信道带噪混合源语音的目标语音增强，同时借助度量评估的自定义设置进行数据的增广拓充，从而能进一步优化模型的目标语音增强效果。

(1)语音信号的预处理与特征转换。

语音信号是时序的波形信号，为了获取更多的特征信息，传统方法将语音信号转换为对应的时频域语谱图。但时频域语谱图信息在增强处理过程中存在着固有的相位信息缺失问题，这导致了增强得到的目标语音信号其质量与可感知性存在着一个受限制的上界。

为了规避因相位缺失导致的增强性能受限问题，本发明引入了时间潜在域信息，借助将时序波形信息通过深度学习框架拓展映射到对应潜在空间域的过程及其逆向变换，学习到了同时隐含有相位信息与语谱能量信息的潜在域特征，突破了语谱图信息作用于增强任务时的性能限制。因此，本发明在现有工作基础上进一步探索了不同数据空间域对语音增强任务的影响，并成功规避了传统的相位缺失问题。

(2)基于生成信号权重的目标函数。

本发明利用生成信号的权重信息指导了整个对抗训练的过程，在原始对抗训练的基础上更进一步探索了对语音客观指标的近似，实现了将非梯度信息应用于梯度训练的过程。

原始的生成对抗网络目标函数为

这个目标函数实际是是基于KL散度设计的最大最小博弈函数。本发明提出的基于生成对抗网络的单信道语音增强模型采用的目标函数基于最小二乘思想，依据混合源单信道语音信号和目标单信道语音信号数据分布的皮尔森卡方散度重新设计了目标函数：

此处的x_c指代作为条件约束的混合源单信道语音信号。在卷积自编码器生成器G的目标函数中额外引入L1范数，目的是借由L1范数的过拟合惩罚机制调整卷积自编码生成器G的参数学习过程，使其泛化性能得到提升。此时对抗网络的判别器优化过程可看作对于数据空间的0-1分类优化，认为1代表真实数据空间，而0代表生成信号空间，但这分类思想忽视了增强训练过程中生成器性能的提升过程，致使训练后期判别器性能受损。

为解决这一问题，本发明更进一步尝试采用深度近似评估的方法，使得判别器获取对语音客观度量评价指标的近似拟合，实现将非梯度的语音客观指标Metric纳入深度学习梯度训练的过程，丰富了语音增强的损失计算方式。

判别器对于度量过程的近似拟合不仅仅将非梯度的语音评价指标纳入到了模型整体的梯度训练当中，更使得对抗式训练的过程不再局限于生成器网络与判别器网络完全的对立条件上，而是通过判别器近似拟合的度量给出每一个训练迭代过程中生成器输出的增强语音信号的客观评价，再通过客观评价与目标评价之间的差距进一步更新优化整体网络的参数，更加贴近单信道增强语音信号与原始的单信道混合源信号间的数据空间分布联系，并考虑到了生成器性能随着训练不断获得优化的实际进程，优化了对抗学习的梯度更新策略。

至此，本发明中可度量的生成对抗网络结构摆脱了传统生成对抗网络的梯度消失缺陷，并取得了更加接近实际问题数据空间分布的训练过程。与此同时，通过对于生成器损失函数中目标度量评价的调整，本发明的可度量生成对抗网络模型还可用于数据增广过程，进而丰富训练数据样本集，通过更多样化的数据样本训练达成目标语音增强性能的进一步提升。

本发明中的生成器网络通过采用时序的TCN模型，优化了对增强语音信号的时序语意信息的还原，并且使得数据的并行处理成为了可能，缩减了模型对数据传递预处理过程的等待时间。

(3)时序TCN模型。

为更好的获取增强语音信号的时序信息，保证增强信号的内在语意逻辑，本发明引入了时序的TCN网络模型。在本发明的总体流程当中，时序TCN模型作为生成器的重要组成部分，时序TCN模型的输入为经过处理后的语音特征信息，借助对抗式训练的强大泛化能力，对纯净的目标语音信号进行了预测评估。

生成器模型则参考时序TCN模型的评估结果，对混合源单信道语音信号加以掩码，转换为对目标语音信号的拟合，实现了对混合源单信道语音信号的端到端增强处理。与此同时，时序的TCN模型相比传统方法所采用的LSTM模型具有更好的并行计算能力，这使得本发明中的总体模型训练更为容易，数据传递处理的过程更加方便快捷，混合源语音样本通过该网络得到目标语音增强结果的过程将更接近于实时处理过程的需求。

Claims

1.一种单信道目标语音增强方法，其特征是，包括如下步骤：

步骤一：语音信号的预处理与特征转换：

步骤二：基于生成信号权重的目标函数；

其中的x_c指代作为条件约束的混合源单信道语音信号；

步骤三：引入时序TCN网络模型；