CN111603191B

CN111603191B - 医学扫描中的语音降噪方法、装置和计算机设备

Info

Publication number: CN111603191B
Application number: CN202010475165.XA
Authority: CN
Inventors: 史宇航
Original assignee: Shanghai United Imaging Healthcare Co Ltd
Current assignee: Shanghai United Imaging Healthcare Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-10-20
Anticipated expiration: 2040-05-29
Also published as: CN111603191A

Abstract

本申请涉及一种医学扫描中的语音降噪方法、装置和计算机设备，其中，所述方法包括获取影像扫描设备当前的扫描协议；获取第一采集模块采集影像扫描设备扫描间和操作间的原始声音数据，原始声音数据包括对讲语音数据和影像扫描设备基于当前扫描协议产生的原始噪声数据；获取第二采集模块采集的与原始噪声数据对应的同源噪声数据；根据同源噪声数据对原始声音数据进行预处理；将预处理后的原始声音数据和扫描协议输入到训练完备的深度学习神经网络对原始声音数据进行降噪。上述语音降噪方法可以实时地对医学扫描中的语音进行有效降噪。

Description

医学扫描中的语音降噪方法、装置和计算机设备

技术领域

本申请涉及语音处理技术领域，特别是涉及一种医学扫描中的语音降噪方法、装置、计算机设备和可读存储介质。

背景技术

在医学影像检查中，病人和技师需要通过语音对讲机进行交流完成扫描活动。高效的语音对讲能够提升扫描速度和优化扫描流程和结果。然而技师和病人的交流往往受到语音干扰，例如扫描设备的运行语音，背景噪音，对讲机回声等。因此需要对医学扫描过程中的语音进行降噪处理。

在医学扫描过程中，现有的通常采用单通道算法，单通道算法对有规律且稳定的噪音有效，但是在医学扫描过程中的环境噪音大多来自随机的噪音源，且涉及的仪器响应复杂，噪声源不规律，如果深度学习网络结构不够深，单通道深度学习降噪算法对医学成像系统运行时候的噪音优化效果有限。若通过加深深度学习网络的结构来提高降噪效果，则由于深度学习网络层数变多，深度学习模型参数势必要增加很多，从而深度学习推理的时间会变长，因此又无法实时对语音进行降噪。

目前针对相关技术中，无法实时地对医学扫描中的语音进行有效降噪的问题，尚未提出有效的解决方案。

发明内容

本申请提供一种医学扫描中的语音降噪方法、装置、计算机设备和可读存储介质，以至少解决相关技术中无法实时地对医学扫描中的语音进行有效降噪的问题。

第一方面，本申请实施例提供了一种医学扫描中的语音降噪方法，应用于医学扫描设备，所述医学扫描设备包括设置在不同位置的第一采集模块和第二采集模块；所述方法包括：

获取所述影像扫描设备当前的扫描协议；

获取所述第一采集模块采集影像扫描设备扫描间和操作间的原始声音数据，所述原始声音数据包括对讲语音数据和影像扫描设备基于当前扫描协议产生的原始噪声数据；

获取所述第二采集模块采集的与所述原始噪声数据对应的同源噪声数据；

根据所述同源噪声数据对所述原始声音数据进行预处理；

将预处理后的所述原始声音数据和所述扫描协议输入到训练完备的深度学习神经网络；

获取训练完备的深度学习神经网络输出的目标对讲语音数据；其中，所述目标对讲语音数据基于所述训练完备的深度学习神经网络对所述原始声音数据进行降噪处理后得到的。

在其中一些实施例中，所述第一采集模块和所述第二采集模块分别设置在沿扫描腔轴向的两端。

在其中一些实施例中，所述根据所述同源噪声数据对所述原始声音数据进行预处理包括：

将所述原始声音数据减去所述同源噪声数据，以滤除所述原始声音数据中的噪声数据。

在其中一些实施例中，所述将预处理后的原始声音数据和输入到训练完备的深度学习神经网络之前，所述方法还包括：

构建初始深度学习神经网络；

获取无噪语音数据；

获取影像扫描设备在扫描过程中的扫描协议以及所述扫描协议下产生的第一噪声数据、第二噪声数据；

根据所述无噪语音数据、所述第一噪声数据、第二噪声数据以及所述扫描协议，得到训练样本；

将所述训练样本输入所述初始深度学习神经网络，通过误差反向传播更新所述初始深度学习神经网络的参数，直至误差收敛，得到所述训练完备的深度学习神经网络。

在其中一些实施例中，所述根据所述无噪语音数据、所述第一噪声数据、第二噪声数据以及所述扫描协议，得到训练样本包括：

将所述第一噪声数据与所述无噪语音数据进行合成处理得到第一含噪声语音数据，并将所述第一含噪声语音数据与所述第二噪声数据作为第一训练数据；和/或，

将所述第二噪声数据与所述无噪语音数据进行合成处理得到第二含噪声语音数据，并将所述第二含噪声语音数据与所述第一噪声数据作为第二训练数据；

将所述第一训练数据以及所述扫描协议，和/或所述第二训练数据以及所述扫描协议作为所述训练样本。

在其中一些实施例中，在将所述第一噪声数据与所述无噪语音数据进行合成处理得到第一含噪声语音数据之前，所述方法还包括：

通过语音调整算法调整所述无噪语音数据的音量和/或速度。

在其中一些实施例中，所述获取无噪语音数据包括：

未启动扫描设备阶段，采集扫描间内经去噪处理后的语音数据作为所述无噪语音数据。

在其中一些实施例中，所述获取影像扫描设备在扫描过程中的扫描协议以及所述扫描协议下产生的第一噪声数据、第二噪声数据包括：

针对不同类型的影像扫描设备，在不同扫描协议下，通过安装在扫描设备一端的第一采集设备采集所述影像扫描设备产生的语音数据，作为所述第一噪声数据；

通过安装在所述影像扫描设备另一端的第二采集设备采集所述影像扫描设备产生的语音数据，作为所述第二噪声数据。

第二方面，本申请实施例提供了一种医学扫描中的语音降噪装置，所述装置包括：

第一获取模块，用于获取影像扫描设备扫描间和操作间的原始声音数据，所述原始声音数据包括对讲语音数据和影像扫描设备基于当前扫描协议产生的原始噪声数据；

第二获取模块，用于获取与所述原始噪声数据对应的同源噪声数据；

预处理模块，用于根据所述同源噪声数据对所述原始声音数据进行预处理；

数据输入模块，用于将预处理后的原始声音数据和所述扫描协议输入到训练完备的深度学习神经网络；

第三获取模块，用于获取训练完备的深度学习神经网络输出的目标对讲语音数据；其中，所述目标对讲语音数据基于所述训练完备的深度学习神经网络对所述原始声音数据进行降噪处理后得到的。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的医学扫描中的语音降噪方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的医学扫描中的语音降噪方法。

相比于相关技术，本申请实施例提供的医学扫描中的语音降噪方法，通过设置两个采集模块，其中一个采集模块用于采集包含对讲语音数据和影像扫描设备基于当前扫描协议产生的原始噪声数据，另一个采集模块采集与所述原始噪声数据对应的同源噪声数据，通过同步两个采集模块，将同源噪声数据和原始噪声数据抵消进而滤除原始声音数据中的部分噪声数据。然后在这基础上利用深度学习算法，学习影像扫描设备在不同扫描协议下产生的噪声数据，从而可以精确过滤掉噪声部分，输出干净无噪声的语音。通过两步降噪处理，可以实时地对医学扫描中的语音进行有效降噪，使患者和医生可以在扫描过程中更有效地交流，进而优化了扫描流程，提升了扫描速度。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为一实施例提供的医学扫描中的语音降噪方法的流程图；

图2为一实施例提供的MRI不同序列噪声的示意图；

图3a为一实施例提供的梯度噪声的频谱图；

图3b为一实施例提供的冷头噪声的频谱图；

图4为一实施例提供的第一采集装置和第二采集装置的位置示意图；

图5为一实施例提供的卷积神经网络的结构示意图；

图6为一实施例提供的卷积神经网络的优选结构示意图；

图7a至图7c为一实施例提供的无噪声数据、第一噪声数据以及第一含噪声语音数据的时域波形图；

图8a至图8c为另一实施例提供的无噪声数据、第一噪声数据以及第一含噪声语音数据的频谱图；

图9为一个实施例中医学扫描中的语音降噪装置的结构框图；

图10为另一个实施例提供的医学扫描中的语音降噪装置的结构框图；

图11为一个实施例中计算机设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例优选应用于医学扫描设备中，例如正电子发射型计算机断层成像(Positron Emission Computed Tomography，简称为PET)设备、磁共振成像(MagneticResonance Imaging，简称为MRI)设备等。医学扫描设备包括设置在不同位置的第一采集模块和第二采集模块。其中，第一采集模块用于采集扫描过程中的原始声音数据，第二采集模块用于采集与原始噪声数据对应的同源噪声数据。

图1为一实施例提供的医学扫描中的语音降噪方法的流程图，如图1所示，包括步骤110至步骤160；其中：

步骤110，获取影像扫描设备当前的扫描协议。

在医学扫描过程中，病人在扫描间，技师在操作间控制扫描过程。在扫描期间，病人和技师需要通过语音对讲进行交流完成扫描活动，但是原始声音数据会受到影像扫描设备的运行声音和其他环境声音的影响，因此需要对采集到的原始声音数据进行降噪处理以提升扫描进程。

针对不同的影像扫描设备在不同扫描方式下，噪音源和产生的噪音是不一样的。例如，不同磁共振扫描序列的噪声结果不一样，磁共振扫描序列包括多种，例如T1W-IR序列、反转恢复序列、梯度回波序列、快速自旋回波序列FSE等。采用不同的磁共振扫描序列进行扫描，影像扫描设备产生的噪声有很大不同。如图2可以看出，采用MRI序列1至MRI序列4分别进行影像扫描，影像扫描设备产生的噪声频谱分布有很大差异。另外，在磁共振中，噪音又包括冷头运行时候噪音、梯度运行时候噪音，图3a为梯度噪声的频谱图，图3b为冷头噪声的频谱图，由图3a和图3b可以明显看出，梯度噪声和冷头噪声的频谱分布有很大区别，因此对应的噪声数据也有很大差异。另外，梯度噪声数据也对应有多种。通过获取影像扫描设备当前的扫描协议，可以对应确定影像扫描设备产生的噪声数据。

需要说明的是，本申请附图中的Frequency为频率，Time为时间。

步骤120，获取第一采集模块采集影像扫描设备扫描间和操作间的原始声音数据，原始声音数据包括对讲语音数据和影像扫描设备基于当前扫描协议产生的原始噪声数据。

步骤130，获取第二采集模块采集的与原始噪声数据对应的同源噪声数据。

具体地，在扫描过程中，可以通过两个采集模块实时地采集影像扫描设备扫描间和操作间内的原始声音数据以及同源噪声数据，原始声音数据包括对讲语音数据和影像扫描设备基于当前扫描协议产生的原始噪声数据。同源噪声数据可以理解为与原始噪声数据接近的数据。其中，对讲语音数据为病人与技师的实际对话内容，原始噪声数据和同源噪声数据为影像扫描设备的运行声音数据。可以理解的是，原始声音数据还可以包括背景噪音和声音采集装置产生的噪声，如麦克风的回声等。

本实施例中，获取第一采集模块采集的原始声音数据，以及第二采集模块采集的与原始噪声数据对应的同源噪声数据。第一采集模块和第二采集模块可以为麦克风，以下均以第一采集模块为第一麦克风，第二采集模块为第二麦克风为例进行说明。第一采集模块和第二采集模块设置在不同位置，例如分别设置在沿扫描腔轴向的两端。以磁共振扫描设备为例，两个麦克风分别安装在磁体孔径的两端，如图4所示。由于安装位置不一样采集的语音可能不一样。其中一个麦克风用于采集噪音，另一个麦克风用于采集对讲声音和噪音。另外由于病人进入孔径方式不一样，两个麦克风的作用在临床扫描时，可能交换。

步骤140，根据同源噪声数据对原始声音数据进行预处理。

将两个麦克风进行同步或将两个麦克风采集的数据进行同步，以通过同源噪声数据将原始声音数据中的原始噪声数据抵消，进而提取出原始声音数据中的语音内容。具体地，预处理可以是将原始声音数据减去同源噪声数据，以滤除原始声音数据中的噪声数据。

步骤150，将预处理后的原始声音数据和扫描协议输入到训练完备的深度学习神经网络。

将原始声音数据和扫描协议输入深度学习神经网络后，深度学习神经网络可以根据扫描协议查找到对应的噪声数据，然后根据该噪声数据对预处理后的原始声音数据进行降噪处理。具体地，可以将预处理后的原始声音数据与查找得到的噪声数据进行相减。

可以理解的是，在训练深度学习模型时，通过训练深度学习模型学习在每一扫描协议下经过预处理后的原始声音数据中包含的噪声，从而可以针对当前影像扫描设备的具体扫描方式进行适应性地降噪处理，提高降噪精度和降噪效率。

步骤160，获取训练完备的深度学习神经网络输出的目标对讲语音数据；其中，目标对讲语音数据基于训练完备的深度学习神经网络对原始声音数据进行降噪处理后得到的。

现有技术中，通常是采用单通道算法对原始声音数据进行降噪。但是该降噪方法只能对有规律且稳定的噪音进行有效的降噪，而在医学扫描过程中产生的噪声大多来自随机的噪音源，因此该降噪方法对医学扫描中的语音降噪效果较差。为了提高降噪效果通常是加深深度学习网络结构的深度，但是这样深度学习模型参数势必要增加很多，从而深度学习推理的时间会变长，因此又无法实时对语音进行有效降噪。与现有技术相比，本申请提供的方案通过两个采集装置，一个采集装置采集包含语音数据和噪声数据的原始声音数据，另一个采集装置采集同源噪声数据，将两个采集装置采集的数据进行抵消可以初步滤除原始声音数据中的噪声数据，有效提取出语音数据；然后在该基础上，将提取出的语音数据输入到深度学习模型中，深度学习模型通过学习医学设备的噪声信息，可以精确过滤掉残余噪声，输出干净无噪声的语音。由于本申请提供的方案对原始声音数据进行了预处理过程，滤除了原始声音数据中的部分噪声，因此不需要加深深度学习网络的深度就可以对语音数据进行有效降噪，实现了实时对医学扫描中的语音进行有效降噪。可见通过本实施例提供的上述步骤解决了相关技术中无法实现实时地对医学扫描中的语音进行有效降噪的问题。

本实施例中的神经网络包括任意一种可以实现深度学习算法的人工神经网络。在人工神经网络中，卷积神经网络(Convolutional Neural Networks，简称为CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习的代表算法之一。深度学习神经网络具有记忆性、参数共享并且图灵完备，因此能以很高的效率对噪音的非线性特征进行学习。深度学习神经网络已被证明并成功实现数据检测相关的应用。发明人研究过程中发现：在医学扫描过程中，环境噪音大多来自随机的噪音源，是一种典型的非线性噪声，因此在本实施例中采用深度学习神经网络对医学扫描过程中的语音数据进行降噪处理可以取得较好的效果。

在其中一些实施例中，在将预处理后的原始声音数据和输入到训练完备的深度学习神经网络之前，语音降噪方法还包括：

构建初始深度学习神经网络；

获取无噪语音数据；

获取影像扫描设备在扫描过程中的扫描协议以及扫描协议下产生的第一噪声数据、第二噪声数据；

根据无噪语音数据、第一噪声数据、第二噪声数据以及扫描协议，得到训练样本；

将训练样本输入初始深度学习神经网络，通过误差反向传播更新初始深度学习神经网络的参数，直至误差收敛，得到训练完备的深度学习神经网络。

在本实施例中，可以采用tensorflow来实现神经网络的构架，可选的架构包括caffe、pytorch等。下面将以卷积神经网络(Convolutional Neural Networks，CNN)为例对本发明实施例采用的神经网络的结构进行说明。在其他实施例中，也可以用采用循环神经网络(Recurrent Neural Networks，RNN)，具体地本实施例不作限制。

图4是根据本发明实施例的卷积神经网络的结构示意图，如图5所示，该卷积神经网络包括：输入层、卷积层、归一化层、池化层、全连接层、损失层和输出层。

输入层用于数据的输入。本实施例中，输入层为预处理好的训练样本数据。训练样本数据包括采集的噪声数据和无噪语音数据进行合成处理后得到的语音数据。输入层的输入数据可以为以下三种：(1)语音数据的波形数据和扫描指令数据；(2)语音数据的频谱数据和扫描指令数据；(3)语音数据的波形数据、频谱数据和扫描指令数据的集合。其中：语音数据的波形数据包括：每一语音帧长度的512个数据点以及每次帧移(前后两帧的重叠量)的256数据点。由于人说话并不是间断的，每帧之间都是相关的，加上帧移可以更好地与实际的语音相接近。语音数据的频谱数据为：在波形数据基础上对每一帧的时域采样点进行傅里叶变换，求得其功率谱后取对数，得到257维的log功率谱特征。提取的所有log功率谱特征，都进行标准化处理，将其均值归到0，方差归到1，这有利于梯度下降法更快地找到最小值。扫描指令数据包括：任何和扫描设备操作指令有关系的信息，即扫描设备的信息。例如在磁共振中，可以为扫描的序列或是扫描序列的类型。

卷积层用于提取输入数据的不同特征，低卷积层可能只能提取一些低级的特征，更多层的网络能从低级特征中迭代提取更复杂的特征。

归一化层用于把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落入对输入比较敏感的区域，以此避免梯度消失问题。

池化层用于对数据做了下采样，对多尺度数据特征进行学习分类，提高模型分类辨识度，并提供了非线性，减少模型参数数量，减少过拟合问题。

全连接层用于在CNN的尾部进行重新拟合，减少特征信息的损失。

损失层接收两个输入，其中的一个是CNN输出的优化语音数据，另一个是实际采集的无噪语音数据。损失层则将这两个输入进行一系列运算，得到当前网络的损失函数。深度学习的目的是在权值空间中找到让损失函数最小的权值。损失函数是在前向传播计算中得到的，同时也是反向传播的起点，损失函数基本都是由真实值和优化值两部分组成，正确的损失函数，可以起到让优化值一直逼近真实值的效果，当优化值和真实值相等时，损失值最小。在本实施例中采用的损失函数优选为柔性最大值函数、交叉熵损失函数或平方误差损失函数。

输出层用于输出为和输入对应的降噪处理后的语音波形数据或频谱数据。

经过试验表明，在发明实施例采用图6所示的三层CNN神经网络，能够达到神经网络的表示能力和训练网络的计算成本之间的平衡。并且，在本实施例中的归一化层优选采用批量归一化层。相对于局部响应归一化层而言，批量归一化层能够改善流经网络的梯度；允许更大的学习率，从而提高训练速度。

在其中一些实施例中，根据所述无噪语音数据、所述第一噪声数据、第二噪声数据以及所述扫描协议，得到训练样本包括：

参考图5，训练样本的生成过程为：通过将第一采集装置(第一位置的麦克风)、第二采集装置(第二位置的麦克风)采集的噪音数据和无噪语音数据进行合成，生成包含噪音的语音数据，将该语音数据作为训练样本。

具体地，可以将第一位置的麦克风采集的第一噪声数据与无噪语音数据进行合成处理得到第一含噪声语音数据，并将第一含噪声语音数据与第二位置的麦克风采集的第二噪声数据作为第一训练数据；也可以将第二位置的麦克风采集的第二噪声数据与无噪语音数据进行合成处理得到第二含噪声语音数据，并将第二含噪声语音数据与第一位置的麦克风采集的第一噪声数据作为第二训练样本，然后将第一训练数据以及所述扫描协议，和/或第二训练数据以及扫描协议作为训练样本。可以理解的是，将第一训练数据和第二训练数据以及扫描协议共同作为训练样本可以提高深度学习模型的鲁棒性。

为了增加深度学习模型的鲁棒性，将第一噪音数据和无噪语音数据进行合成前，可以通过语音调整算法对无噪语音数据的音量以及倍速进行调节。其中对音量进行调节具体可以是调高或调低；对倍速进行调节，例如可以是按照1.5倍速、0.8倍速播放等处理，以模拟不同语速和音量下的对讲语音。另外，在实际应用中，并不限于对音量和倍速进行调节，例如还可以调节语音的音色，通常而言，发声体的材质以及讲话者的讲话方式是决定音色的重要因素，因此通过调节音色可以更好地模拟不同地域的方言和特定的对话方式，从而可以进一步增加深度学习模型的鲁棒性。

可以理解的是，也可以同时对第一噪声数据的音量和/或速度进行调节，以模拟出不同型号和不同工作状态下扫描设备产生的噪声。

将所述第二噪声数据和调整后所述无噪语音数据进行合成处理，具体可以为：将调整后的无噪语音数据和第二噪声数据进行相加或加权相加等算法来实现混音，也可通过采用模拟信号进行混音。使用以上算法进行合成得到包含噪声数据和对讲语音数据，算法简单易实现。当然，也可以采用其他的语音合成算法进行合成处理，本实施例不作限定。

另外，在进行合成过程中，可以是对语音数据和噪声数据的时域波形进行合成处理，如图7a至图7c所示。其中，图7a为采集到的无噪语音数据的时域波形，具体为人声，图7b为采集到的第一噪声数据的时域波形，例如可以是MRI在运行过程中产生的噪声数据，图7c为将无噪语音数据和第一噪声数据进行合成处理后的得到的合成数据的时域波形。

在其他一些实施例中，在进行合成过程中，也可以先对语音数据和噪声数据进行傅里叶变换将时域波形转换为频谱，然后对语音数据和噪声数据的频谱进行合成处理，如图8a至图8c所示。其中，图8a为采集到的无噪语音数据的频谱，具体为人声，图8b为采集到的第一噪声数据的频谱，例如可以是MRI在运行过程中产生的噪声数据，图8c为将无噪语音数据和第一噪声数据进行合成处理后的得到的合成数据的频谱。

需要说明的还是，由于病人进入孔径方式不一样，两个麦克风的作用在临床扫描时，可能交换，因此上述仅以第一位置的麦克风采集的第一噪声数据与无噪语音数据进行合成处理为例进行说明。将第二位置的麦克风采集的第二噪声数据与无噪语音数据进行合成处理的过程与第一噪声数据的处理过程类似，在此不再赘述。

合成语音的信噪比可采用固定的5种信噪比，例如-5dB、0dB、5dB、10dB和15dB，信噪比的具体数值本实施例不作限定。

在其中一些实施例中，获取第一噪声数据和第二噪声数据包括：

针对不同类型的扫描设备，在不同扫描协议下，通过安装在扫描设备一端的第一采集设备采集扫描设备产生的声音数据，作为第一噪声数据；通过安装在扫描设备另一端的第二采集设备采集扫描设备产生的声音数据，作为第二噪声数据。

影像扫描设备的类型包括可以包括CT、MRI、PET/CT等，不同类型影像扫描设备在运行过程中产生的声音数据不同，且同一类型的影像扫描设备在不同扫描协议下产生的声音数据也不同，通过噪声采集装置采集不同类型扫描设备在不同扫描指令数据下产生的语音数据作为噪声数据可以模拟出不同场景下的噪声数据，从而提升深度学习模型的鲁棒性。另外，将第一采集装置设置在扫描设备的一端，第二采集装置设置在扫描设备的另一端，可以模拟出实际扫描场景中第一采集装置和第二采集装置在不同位置采集到的噪声差异，从而提高深度学习模型的准确性。

噪声采集装置可以采用麦克风，另外为了保持语音优化效果能在实际应用中最大体现，噪声采集装置采用的麦克风与实际临床中使用的麦克风类型类似。例如磁共振采用抗磁麦克风。这种麦克风硬件会和市场上的麦克风不一致。不同麦克风得到的声音质量不一样，用实际使用的麦克风采集数据更贴近真实情况。

在其中一些实施例中，获取无噪语音数据包括：

在临床过程中且未启动扫描设备阶段，采集扫描间内的语音数据作为无噪语音数据。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在一个实施例中，如图9所示，提供了一种医学扫描中的语音降噪装置，包括：第一获取模块910、第二获取模块920、预处理模块930、数据输入模块940和第三获取模块950，其中：

第一获取模块910，用于获取影像扫描设备扫描间和操作间的原始声音数据，原始声音数据包括对讲语音数据和影像扫描设备基于当前扫描协议产生的原始噪声数据；

第二获取模块920，用于获取与所述原始噪声数据对应的同源噪声数据；

预处理模块930，用于根据所述同源噪声数据对所述原始声音数据进行预处理；

数据输入模块940，用于将预处理后的原始声音数据和扫描协议输入到训练完备的深度学习神经网络；

第三获取模块950，用于获取训练完备的深度学习神经网络输出的目标对讲语音数据；其中，目标对讲语音数据基于训练完备的深度学习神经网络对所述原始声音数据进行降噪处理后得到的。

本实施例提供的医学扫描中的语音降噪装置，包括第一获取模块910、第二获取模块920、预处理模块930、数据输入模块940和第三获取模块950，通过第一获取模块910获取影像扫描设备扫描间和操作间的原始声音数据，所述原始声音数据包括对讲语音数据和影像扫描设备基于当前扫描协议产生的原始噪声数据；第二获取模块920获取与原始噪声数据对应的同源噪声数据；预处理模块930根据同源噪声数据对原始声音数据进行预处理；数据输入模块940将预处理后的原始声音数据和扫描协议输入到训练完备的深度学习神经网络；第三获取模块950获取训练完备的深度学习神经网络输出的目标对讲语音数据；其中，目标对讲语音数据基于所述训练完备的深度学习神经网络对原始声音数据进行降噪处理后得到的。通过本发明，解决了医学扫描中无法实时地对医学扫描中的语音进行有效降噪的问题，实现了实时性和有效性的兼容，进而优化了扫描流程，提升了扫描速度。

在其中一些实施例中，第一采集模块和第二采集模块分别设置在沿扫描腔轴向的两端。

在其中一些实施例中，预处理模块930还用于：将原始声音数据减去同源噪声数据，以滤除原始声音数据中的噪声数据。

在其中一些实施例中，医学扫描中的语音降噪装置还包括扫描协议获取模块，用于在扫描设备执行扫描过程中，实时获取扫描设备当前的扫描协议。

在其中一些实施例中，医学扫描中的语音降噪装置还包括模型训练模块，用于构建初始深度学习神经网络；获取无噪语音数据；获取影像扫描设备在扫描过程中的扫描协议以及所述扫描协议下产生的第一噪声数据、第二噪声数据；根据所述无噪语音数据、所述第一噪声数据、第二噪声数据以及所述扫描协议，得到训练样本；将所述训练样本输入所述初始深度学习神经网络，通过误差反向传播更新所述初始深度学习神经网络的参数，直至误差收敛，得到所述训练完备的深度学习神经网络。

在其中一些实施例中，模型训练模块还用于：将所述第一噪声数据与所述无噪语音数据进行合成处理得到第一含噪声语音数据，并将所述第一含噪声语音数据与所述第二噪声数据作为第一训练数据；和/或，

在其中一些实施例中，模型训练模块还用于：通过语音调整算法调整无噪语音数据的音量和/或速度。

在其中一些实施例中，模型训练模块还用于：未启动扫描设备阶段，采集扫描间内经去噪处理后的语音数据作为所述无噪语音数据。

在其中一些实施例中，模型训练模块还用于：针对不同类型的影像扫描设备，在不同扫描协议下，通过安装在扫描设备一端的第一采集设备采集所述影像扫描设备产生的语音数据，作为所述第一噪声数据；通过安装在所述影像扫描设备另一端的第二采集设备采集所述影像扫描设备产生的语音数据，作为所述第二噪声数据。

在其中一些实施例中，训练初始深度学习神经网络中采用的损失函数包括柔性最大值函数、交叉熵损失函数或平方误差损失函数。

在其中一些实施例中，训练初始的循环神经网络中采用的误差包括：实际采集到的无噪语音数据与初始深度学习神经网络对训练样本进行降噪处理得到的语音数据的误差。

在实际使用场景下，语音降噪装置如图10所示。第一采集模块和第二采集模块均为麦克风，第一采集模块设置在扫描设备的第一位置，用于采集扫描过程中的原始声音数据，所述原始声音数据包括对讲语音数据和影像扫描设备基于当前扫描协议产生的原始噪声数据；第二采集模块设置在扫描设备的第二位置，用于采集扫描过程中的与原始噪声数据对应的同源噪声数据。第一采集模块和第二采集模块均将采集的原始声音数据输入到声音处理模块，声音处理模块包括本申请中的预处理模块和深度学习模型。首先通过预处理模块将原始声音数据进行预处理，滤除掉原始声音数据中的部分噪声，然后将预处理后的原始声音数据输入至深度学习模型，对预处理后的语音数据进行降噪处理，过滤掉残留噪声，输出优化语音数据。

关于语音降噪装置的具体限定可以参见上文中对于语音降噪方法的限定，在此不再赘述。上述语音降噪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

另外，结合图1描述的本申请实施例语音降噪方法可以由计算机设备来实现。图11为根据本申请实施例的计算机设备的硬件结构示意图。

计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器82所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种语音降噪方法。

在其中一些实施例中，计算机设备还可包括通信接口83和总线80。其中，如图11所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以基于获取到的程序指令，执行本申请实施例中的语音降噪方法，从而实现结合图1描述的语音降噪方法。

另外，结合上述实施例中的语音降噪方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音降噪方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种医学扫描中的语音降噪方法，其特征在于，应用于影像扫描设备，所述影像扫描设备包括设置在不同位置的第一采集模块和第二采集模块；所述方法包括：

获取所述影像扫描设备当前扫描协议；

根据所述同源噪声数据对所述原始声音数据进行预处理；

构建初始深度学习神经网络；

获取无噪语音数据；获取所述影像扫描设备在扫描过程中的扫描协议以及所述扫描协议下产生的第一噪声数据、第二噪声数据，所述第一噪声数据和所述第二噪声数据的采集设备相对所述影像扫描设备的位置不同；

将所述第一噪声数据与所述无噪语音数据进行合成处理得到第一含噪声语音数据，并将所述第一含噪声语音数据与所述第二噪声数据作为第一训练数据，将所述第一训练数据以及所述扫描协议作为训练样本；

将所述训练样本输入所述初始深度学习神经网络，得到训练完备的深度学习神经网络；

将预处理后的所述原始声音数据和所述当前扫描协议输入到所述训练完备的深度学习神经网络；

2.根据权利要求1所述的方法，其特征在于，所述第一采集模块和所述第二采集模块分别设置在沿扫描腔轴向的两端。

3.根据权利要求1所述的方法，其特征在于，所述根据所述同源噪声数据对所述原始声音数据进行预处理包括：

4.根据权利要求1所述的方法，其特征在于，所述训练完备的深度学习神经网络通过误差反向传播更新所述初始深度学习神经网络的参数，直至误差收敛得到。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述第二训练数据以及所述扫描协议作为所述训练样本。

6.根据权利要求1所述的方法，其特征在于，在将所述第一噪声数据与所述无噪语音数据进行合成处理得到第一含噪声语音数据之前，所述方法还包括：

通过语音调整算法调整所述无噪语音数据的音量和/或速度。

7.根据权利要求1所述的方法，其特征在于，所述获取无噪语音数据包括：

8.根据权利要求1所述的方法，其特征在于，所述获取影像扫描设备在扫描过程中的扫描协议以及所述扫描协议下产生的第一噪声数据、第二噪声数据包括：

9.一种医学扫描中的语音降噪装置，其特征在于，所述装置包括：

模型训练模块，用于构建初始深度学习神经网络；获取无噪语音数据；获取所述影像扫描设备在扫描过程中的扫描协议以及所述扫描协议下产生的第一噪声数据、第二噪声数据，所述第一噪声数据和所述第二噪声数据的采集设备相对所述影像扫描设备的位置不同；将所述第一噪声数据与所述无噪语音数据进行合成处理得到第一含噪声语音数据，并将所述第一含噪声语音数据与所述第二噪声数据作为第一训练数据，将所述第一训练数据以及所述扫描协议作为训练样本；将所述训练样本输入所述初始深度学习神经网络，得到训练完备的深度学习神经网络；

数据输入模块，用于将预处理后的原始声音数据和所述当前扫描协议输入到所述训练完备的深度学习神经网络；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。