CN114822576A

CN114822576A - 基于磁共振脉冲序列噪声估计的通话系统语音增强方法

Info

Publication number: CN114822576A
Application number: CN202210476796.2A
Authority: CN
Inventors: 娄昕; 吕晋浩; 杨明亮
Original assignee: First Medical Center of PLA General Hospital
Current assignee: First Medical Center of PLA General Hospital
Priority date: 2022-04-30
Filing date: 2022-04-30
Publication date: 2022-07-29

Abstract

本发明提供基于磁共振脉冲序列噪声估计的通话系统语音增强方法，属于人工智能领域，所述方法包括生成对抗网络的构建，以最小化生成器G的目标损失函数，最大化判别器D的判别正确的概率对生成对抗网络进行训练，通过训练好的生成器G输出生成噪声，并与带噪语音信号的分帧信号进行差分处理获得去噪后的语音信号，并重构获得去噪连续语音信号。本发明有效解决传统语音增强和常规深度学习模型对强非平稳噪声环境下语音谱相位估计不准，去噪效果不明显的问题。提高了磁共振扫描员对被扫描者的监控能力，减少意外医疗事故的发生。

Description

基于磁共振脉冲序列噪声估计的通话系统语音增强方法

技术领域

本发明属于人工智能领域，具体涉及基于磁共振脉冲序列噪声估计的通话系统语音增强方法。

背景技术

磁共振扫描仪是医学影像中常用的设备，主要功能组件包括磁体、梯度线圈、射频发射器、射频接收器、感应线圈等，功能组件的中心为圆形孔洞用于放置被扫描者或物体，使其均匀磁场通过被扫描体，从而实现扫描及成像。为了保证图像质量，在磁共振扫描过程中中需要对被扫描者进行固定以确保其不会产生移动，被扫描者出现不适时，监控窗外的扫描员由于视角原因，被扫描者的某些动作无法被扫描员注意到。扫描过程中，持续变化的线圈撞击设备支架产生巨大的噪声，导致被扫描者发出的语音请求也无法被扫描员清晰听到。因此，急需通过相关技术或手段来解决上述问题。由于解决设备装置导致监控窗外的扫描员视线被阻挡的问题，难度大，成本高。故考虑通过语音增强技术解决磁共振室设备噪声导致磁共振室语音通话系统无法有效传递被扫描者的语音请求的问题，进而实现对被扫描者进行有效监控。

传统语音增强方法以谱减法[Boll S F.Acoustics Speech&Signal ProcessingIEEE Transactions on,1979,27(2):113-120.]为代表，主要利用估计噪声的幅度谱信息，将噪声从带噪语音中去除，方法简单且计算量小，但无法有效去除非平稳噪声。近年随着深度学习的发展，出现了以DCRNN网络[Hu Y Xet al.In Interspeech 2020,21st AnnualConference of the International Speech Communication Association,VirtualEvent,Shanghai,China,25--29October 2020.]为代表的深度学习语音增强模型，基于LSTM构建复数网络用于处理上下文信息，有效去除带噪语音中的常规非平稳噪声。但在磁共振强非平稳噪声环境下存在对语音谱相位估计不准，导致语音增强质量较差而无法有效应用于磁共振室通话系统的语音增强中。

发明内容

本发明的目的在于针对现存上述技术问题，提出了基于磁共振脉冲序列噪声估计的通话系统语音增强方法。该方法将磁共振脉冲序列作为通话系统带噪语音噪声估计的先验信息，通过训练好的生成对抗网络将磁共振脉冲序列信号映射为对应的噪声信号，然后将带噪语音同估计的噪声进行差分处理，获得目标干净语音。该方法能够有效解决传统语音增强方法无法有效去除非平稳噪声以及常规深度学习模型无法从强噪声环境中有效估计语音谱相位的问题。提高了在磁共振扫描过程中扫描员通过语音对被扫描者监听的有效性。

本发明的上述目的通过以下技术方案实现：

基于磁共振脉冲序列噪声估计的通话系统语音增强方法，包括以下步骤：

步骤1、采集各路磁共振脉冲序列信号与磁共振室音频信号；

步骤2、对各路磁共振脉冲序列信号与磁共振室音频信号进行分帧处理，获得各路磁共振脉冲序列信号的分帧信号与磁共振室音频信号的分帧信号；

步骤3、构建生成对抗网络，生成对抗网络包括生成器G和判别器D；

步骤4、各路磁共振脉冲信号的分帧信号作为生成器G的输入，生成器G输出生成噪声，磁共振室音频信号的分帧信号和生成噪声作为判别器D的输入，判别器识别生成噪声为真实噪声或非真实噪声，对生成对抗网络进行训练；

步骤5、保留训练完成的生成器；

步骤6、将带噪语音信号的分帧信号同步骤5中保留的训练完成的生成器G输出的生成噪声进行差分处理，从而获得去噪后的语音信号；

步骤7、将步骤6处理获得的去噪后的语音信号进行语音重构，获得去噪连续语音信号。

如上所述的步骤4中对生成对抗网络进行训练基于最小化目标损失函数

L_GAN(G,D)＝E_y[logD(y)]+E_x[log(1-D(G(x))]

其中，L_GAN(G,D)为生成对抗网络的目标损失函数，

为生成器的目标损失函数，λ为加权系数，G为生成器，x为生成器的输入的各路磁共振脉冲序列信号的分帧信号，y为磁共振室音频信号的分帧信号，G(x)为生成器的输出，D为判别器，E_x表示对x求期望，E_y表示对y求期望，E_x，y表示对x和y求期望，||.||₁为L₁距离运算符，log(.)为对数运算符。

如上所述的步骤2中对各路磁共振脉冲序列信号与磁共振室音频信号进行分帧处理时，帧长相同且帧重叠长度为帧长/2。

如上所述的步骤3中，生成器G为CNN网络，由编码器e和解码器d构成，

编码模块e为n层编码层，编码层为卷积网络，各层编码层输入形如An×Bn，An为第n层编码层网络通道数，Bn为第n层编码层信号维度，解码模块d与编码模块e结构对称设置。

如上所述的步骤3中，判别器D包括n+1层网络，前n层网络为卷积网络，各层网络输入形如Cn×Dn，Cn为第n层网络通道数，Dn为第n层网络信号维度，判别器D最后一层为全连接层网络，通过sigmod激活函数输出。

本发明相对于现有技术，具有以下有益效果：

(1)针对当前磁共振扫描过程中磁共振室内噪声过大导致语音呼救无法有效被监听的问题，本发明能够有效去除磁共振室通话系统中的噪声，从而提高通话系统中被扫描者的通话语音质量。

(2)磁共振脉冲序列和磁共振噪声具有明确的对应关系，利用磁共振脉冲序列作为去噪的先验信息对通话语音中的噪声进行估计，构建的深度学习模型相比其他去噪模型具有更强的可解释性。

(3)本发明融合了传统谱减法和深度学习模型的优点，同时又规避了传统方法无法有效去除非平稳噪声以及常规深度学习模型无法对强非平稳噪声环境下对语音谱相位进行有效估计的缺点。本发明提出的去噪模型鲁棒性更好，进一步提高磁共振通话语音的质量，减少医疗事故的发生。

附图说明

图1为本发明的实施流程图；

图2为本发明的生成对抗网络的生成器G网络架构示意图；

图3为本发明的生成对抗网络的判别器D网络架构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面以西门子MAGNETOMSpectra3.0T磁共振设备为例，结合附图和实施例对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了基于磁共振脉冲序列噪声估计的通话系统语音增强方法，包括以下步骤：

步骤1、各路磁共振脉冲序列与磁共振室音频采集：通过意法半导体公司的STM32单片机采集各路磁共振脉冲序列信号和与之对应的磁共振室音频信号，用于生成对抗网络的模型训练。

步骤1中的磁共振脉冲序列是通过STM32单片机进行采集，预先需要设置好采样率，量化精度等。此处采集的各路磁共振脉冲序列分别为激发脉冲、层面选择脉冲、频率编码梯度、相位编码梯度以及MR信号。磁共振室音频信号通过STM32单片机和麦克风装置进行采集，同样需预先设置采样率、采样声道数、量化精度等。音频采集常为16kHz/s，通道数可选择使用单通道、双通道等。为便于模型训练和使用，音频信号采样率均为16kHz/s，16bit量化精度的单通道信号。

步骤2、数据预处理：将所采集的各路磁共振脉冲序列信号与磁共振室音频信号进行分帧处理，获得各路磁共振脉冲序列信号的分帧信号和磁共振室音频信号的分帧信号。

步骤2所述数据预处理，将所采集的多路磁共振脉冲信号进行相同的分帧处理，获得各路磁共振脉冲信号的分帧信号，即对激发脉冲、层面选择脉冲、频率编码梯度、相位编码梯度以及MR信号的采集信号分别进行相同的分帧处理，获得各路磁共振脉冲信号的分帧信号，帧长设置为L，帧重叠长度为L/2。将所采集的磁共振室音频信号进行同磁共振脉冲信号相同的分帧处理，获得磁共振室音频信号的分帧信号，帧长为L，帧重叠长度为L/2。

由于本发明直接对时域信号进行建模，无傅里叶变换等相关操作，故无需考虑语音短时平稳特点。为让生成对抗网络模型能够较好的建立磁共振脉冲序列与磁共振信号的对应关系，分帧长度需包含多个脉冲序列周期。综合模型参数和模型性能，其分帧长度可设置为4096数据点，帧重叠为2048个数据点。

步骤3、生成对抗网络的构建：依据纳什均衡理论，构建生成对抗网络。纳什均衡即为最大化所有博弈参与者的期望收益的策略组合，此处的博弈参与者为生成对抗网络的生成器和判别器。

步骤3所述生成对抗网络的构建，依据纳什均衡最大化博弈参与者期望收益原理，构建生成对抗网络的生成器G和判别器D，生成器G又由编码器e和解码器d构成。生成器G的基础网络为CNN网络，CNN网络架构参见图2所示，生成器G的输入输出维度与各路磁共振脉冲信号的分帧信号的帧长L保持一致。生成器G中的编码模块e为n层编码层，编码层为卷积网络。生成器G的输入为步骤2所述的各路磁共振脉冲信号的分帧信号，各层编码层输入形如An×Bn，An为第n层编码层网络通道数，Bn为第n层编码层信号维度，第一层编码层的编码层通道数与磁共振脉冲信号的分帧信号的路数相同，第一层编码层的编码层信号维度为各路磁共振脉冲信号的分帧信号的帧长。以编码层的层数取值为5，各路磁共振脉冲信号的分帧信号的帧长为L＝4096为例，各个编码层分别为5×L，32×L/2,64×L/4,128×L/8,256×L/16,512×L/32。各编码层的卷积核大小为31，补零数目与卷积核大小相对应，前n-1层编码层的卷积核步长为4，第n层编码层步长为2。解码模块d与编码模块e结构对称设置，由于引入了跳转连接的存在，解码模块d的输入通道数目翻倍。生成器G输出为生成噪声。

判别器D包括n+1层网络，前n层网络为卷积网络，各层网络输入形如Cn×Dn，Cn为第n层网络通道数，Dn为第n层网络信号维度。判别器最后一层为全连接层网络，通过sigmod激活函数输出，0表示假，1表示真，网络架构如图3所示。判别器的各层网络输入形如2×L,32×L/2,64×L/4,128×L/8,256×L/16,512×L/32，其中L即帧长4096。卷积核大小为同编码器e的卷积核大小对应，补零数目为15，前n-1层网络卷积核步长为4，第n层卷积核步长为2。生成器G输出的生成噪声和对应磁共振室音频信号的分帧信号输入到判别器D，判别器D根据磁共振室音频信号的分帧信号识别生成噪声为真实噪声(判别器D输出为1)或非真实噪声(判别器D输出为0)。

步骤4、生成对抗网络的训练：将各路磁共振脉冲序列信号的分帧信号作为生成对抗网络的生成器G的输入，生成器G输出生成噪声，将磁共振室音频信号的分帧信号和生成噪声输入到生成对抗网络的判别器D，判别器D根据磁共振室音频信号的分帧信号识别生成噪声为真实噪声或非真实噪声。依据优化训练的目标损失函数G^*对生成对抗网络进行训练。

步骤4所述生成对抗网络的训练包括以下步骤，将各路磁共振脉冲序列信号的分帧信号作为生成对抗网络的输入，磁共振室音频信号的分帧信号作为生成对抗网络的输出标签，利用纳什均衡原理训练生成对抗网络。训练目标为使得生成器G输出的生成噪声尽可能与真实噪声相似，判别器D对生成器G输出的生成噪声进行尽可能的正确判断(图3所示，1表示判断为真实噪声，0表示判断为非真实噪声)。优化训练基于最小化目标损失函数

式(1)学习目标为最小化生成器G的目标损失函数，最大化判别器D的判别正确的概率，λ为加权系数。L_GAN(G,D)为生成对抗网络的目标损失函数，

为生成器的目标损失函数，具体为：

L_GAN(G,D)＝E_y[logD(y)]+E_x[log(1-D(G(x))] (2)

其中，G为生成器，x为生成器的输入(即各路磁共振脉冲序列信号的分帧信号)，y为真实对象(即磁共振室音频信号的分帧信号)，G(x)为生成器的输出。D为判别器，判别器的输入为G(x)和y。E(.)表示期望运算符，如E_x表示对x求期望，E_y表示对y求期望，E_x，y表示对x和y求期望，||.||₁为L₁距离运算符，log(.)为对数运算符。

步骤5、生成对抗网络的使用：使用阶段丢弃生成对抗网络的判别器D，仅保留训练好的生成器G。

步骤5所述生成对抗网络的使用，在生成对抗网络完成训练后，丢弃判别器部分，只需保留生成器G即可。使用阶段将采集获得磁共振脉冲序列信号的分帧信号作为生成器G的输入，输出即为通过磁共振脉冲序列作为先验信息所估计的生成噪声。实际工程化部署中只需要保留生成器G的前向传递网络以及参数，进一步减少模型参量。

步骤6、差分去噪：将通话系统中的带噪语音进行采集并按照步骤2中的分帧方式(本步骤分帧的帧长同步骤2中帧长，帧重叠长度为帧长/2)进行分帧处理获得带噪语音信号的分帧信号，带噪语音信号中的噪声为磁共振室的噪声，磁共振室的噪声(磁共振设备发出的声音)与磁共振脉冲序列信号相对应，实际使用采集到的是噪声和语音混合在一起的，即带噪语音。患者与磁共振室的扫描员是通过通话系统沟通的。将带噪语音信号的分帧信号同步骤5中保留的训练完成的生成器G输出的对应的生成噪声进行差分处理，从而获得去噪后的语音信号。

步骤6所述差分去噪，将通话系统采集到的带噪语音执行分帧处理，带噪语音信号的分帧信号同步骤5中保留的训练完成的生成器G生成的生成噪声进行差分处理，从而获得去噪后的语音信号。具体表示为c＝y-n^，其中y为带噪语音，n^为生成器估计获得的生成噪声，c为最终获得的干净语音。

步骤7、语音重构：将步骤6处理获得的去噪后的语音信号进行语音重构，获得去噪连续语音信号。

步骤7所述语音重构，由于对抗生成网络处理的是重叠帧信号，故语音重构阶段需将步骤6去噪处理所获得的语音帧信号进行分帧反向操作，从而重构出去噪连续语音信号。

上述为基于磁共振脉冲序列噪声估计的通话系统语音增强方法具体实施的完整步骤。对于磁共振室语音监控而言，通常还需要对获得的去噪连续语音信号进行增益控制，将步骤(7)去噪处理所获得的去噪连续语音信号传入语音通话控制系统进行增益调控，便于磁共振室的扫描员更好地监听被扫描者状态，从而避免意外事故的发生。

本发明是将磁共振室通话系统中的带噪语音通过构建好的生成对抗网络作为语音增强模型进行去噪处理，最后仅保留和传递语音信号。本发明只叙述利用生成对抗网络构建磁共脉冲序列信号与磁共振设备噪声的映射关系，其他更优或相似模型替换生成对抗网络即可。本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，在不脱离本发明宗旨的前提下可以将本发明应用于其他相关领域。

Claims

1.基于磁共振脉冲序列噪声估计的通话系统语音增强方法，其特征在于，包括以下步骤：

步骤1、采集各路磁共振脉冲序列信号与磁共振室音频信号；

步骤3、构建生成对抗网络，生成对抗网络包括生成器G和判别器D，；

步骤5、保留训练完成的生成器；

2.根据权利要求1所述的基于磁共振脉冲序列噪声估计的通话系统语音增强方法，其特征在于，所述的步骤4中对生成对抗网络进行训练基于最小化目标损失函数

L_GAN(G,D)＝E_y[logD(y)]+E_x[log(1-D(G(x))]

其中，L_GAN(G,D)为生成对抗网络的目标损失函数，

3.根据权利要求1所述的基于磁共振脉冲序列噪声估计的通话系统语音增强方法，其特征在于，所述的步骤2中对各路磁共振脉冲序列信号与磁共振室音频信号进行分帧处理时，帧长相同且帧重叠长度为帧长/2。

4.根据权利要求1所述的基于磁共振脉冲序列噪声估计的通话系统语音增强方法，其特征在于，所述的步骤3中，生成器G为CNN网络，由编码器e和解码器d构成，

5.根据权利要求1所述的基于磁共振脉冲序列噪声估计的通话系统语音增强方法，其特征在于，所述的步骤3中，判别器D包括n+1层网络，前n层网络为卷积网络，各层网络输入形如Cn×Dn，Cn为第n层网络通道数，Dn为第n层网络信号维度，判别器D最后一层为全连接层网络，通过sigmod激活函数输出。