CN113053400B - 音频信号降噪模型的训练方法、音频信号降噪方法及设备 - Google Patents
音频信号降噪模型的训练方法、音频信号降噪方法及设备 Download PDFInfo
- Publication number
- CN113053400B CN113053400B CN201911373964.XA CN201911373964A CN113053400B CN 113053400 B CN113053400 B CN 113053400B CN 201911373964 A CN201911373964 A CN 201911373964A CN 113053400 B CN113053400 B CN 113053400B
- Authority
- CN
- China
- Prior art keywords
- noise
- signal
- vector
- sample
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 358
- 230000009467 reduction Effects 0.000 title claims abstract description 251
- 238000000034 method Methods 0.000 title claims abstract description 117
- 238000012549 training Methods 0.000 title claims abstract description 80
- 239000013598 vector Substances 0.000 claims abstract description 389
- 238000012545 processing Methods 0.000 claims abstract description 100
- 239000012528 membrane Substances 0.000 claims description 88
- 238000000926 separation method Methods 0.000 claims description 85
- 230000001364 causal effect Effects 0.000 claims description 81
- 238000013135 deep learning Methods 0.000 claims description 63
- 230000008569 process Effects 0.000 claims description 36
- 238000010606 normalization Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 20
- 230000006854 communication Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 55
- 239000012634 fragment Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 19
- 230000010339 dilation Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 108010003272 Hyaluronate lyase Proteins 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Noise Elimination (AREA)
- Telephone Function (AREA)
Abstract
本申请适用于通信技术领域,提供了一种音频信号降噪模型的训练方法、音频信号降噪方法及设备,音频信号降噪方法包括:将当前采集到的带噪音频信号转换成带噪音频向量;将所述带噪音频向量输入已训练的音频信号降噪模型进行降噪处理,得到降噪音频信号。上述方法,音频信号降噪模型是基于带噪音频信号对应的带噪音频向量,直接提取用于区分音频信号和噪声信号的特征信息,基于提取的特征信息进行降噪处理,可准确分离出带噪音频向量对应的音频信号和噪声信号,提高带噪音频信号的降噪效果,提高音频质量,进而提高语音通话质量。
Description
技术领域
本申请属于通信技术领域,尤其涉及一种音频信号降噪模型的训练方法、音频信号降噪方法及设备。
背景技术
终端设备采集到的音频信号通常都带有噪声,在对音频信号做进一步处理时,通常需要对其进行语音降噪。语音降噪是针对噪声问题的一种有效的处理技术,它的目的就是为了消除噪声的影响,提高语音清晰度、改善语音的质量。
例如,在语音通话的过程中,终端采集到的音频信号可能带有环境噪声、他人说话声等,终端在对音频信号进行编码传输前,通常需要对音频信号进行语音降噪处理,得到纯净语音信号。纯净语音信号是指消除音频信号中的噪声信号之后得到的语音信号,纯净语音信号中不含噪声,或者包含的噪声在允许的误差范围内。
现有技术中通常采用降噪算法(例如,最小均方算法)对语音信号进行降噪处理。然而,现有的降噪方法无法准确分离噪声信号,通过现有的降噪方法进行降噪处理后得到的音频信号中仍然存在较多的噪声,无法得到纯净的语音信号,降噪效果不好。
发明内容
有鉴于此,本申请实施例提供了一种音频信号降噪模型的训练方法、音频信号降噪方法及设备,以解决现有的降噪方法无法准确分离噪声信号,通过现有的降噪方法进行降噪处理后得到的音频信号中仍然存在较多的噪声,无法得到纯净的语音信号,降噪效果不好的问题。
本申请实施例的第一方面提供了一种音频信号降噪模型的训练方法,包括:
对样本带噪音频信号进行预处理,得到样本带噪音频向量;
将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络进行噪声分离处理,得到分离音频信号和分离噪声信号;
基于所述样本带噪音频信号对应的样本音频信号、样本噪声信号,以及所述分离音频信号、分离噪声信号,对所述深度学习网络的模型参数进行修正,直至所述深度学习网络的训练情况满足预设条件,得到音频信号降噪模型。
上述方案,通过对样本带噪音频信号进行预处理,将其转换成样本带噪音频向量,并将样本带噪音频向量深度学习网络进行训练,得到音频信号降噪模型。由于深度学习网络是基于样本带噪音频信号对应的带噪音频向量,直接提取样本带噪音频信号的所有特征信息,该特征信息用于区分音频信号和噪声信号,并基于提取的特征信息进行训练。在训练的过程中,可获取到完整的特征信息,且不会引入干扰信息(例如,带噪音频信号的原始相位等),因此,训练得到的音频信号降噪模型可基于用于区分音频信号和噪声信号的特征信息,准确分离出样本带噪音频向量对应的分离音频信号和分离噪声信号。相对于现有技术中,将提取到的音频特征信息输入神经网络进行训练的方法,可以避免在提取特征信息的过程中丢失部分原始音频信息,以及避免因提取的原始音频信息不完整而导致经过噪声分离处理得到的分离音频信号混有噪声或丢失部分音频信息的情况,能够准确分离出噪声信号,提高音频信号的降噪效果,提高音频质量,进而提高语音通话质量。
本申请实施例的第二方面提供了一种音频信号降噪模型的训练装置,包括:
预处理单元,用于对样本带噪音频信号进行预处理,得到样本带噪音频向量;
训练单元,用于将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络进行噪声分离处理,得到分离音频信号和分离噪声信号;
模型生成单元,用于基于所述样本带噪音频信号对应的样本音频信号、样本噪声信号,以及所述分离音频信号、分离噪声信号,对所述深度学习网络的模型参数进行修正,直至所述深度学习网络的训练情况满足预设条件,得到音频信号降噪模型。
本申请实施例的第三方面提供了一种音频信号降噪方法,包括:
将当前采集到的带噪音频信号转换成带噪音频向量;
将所述带噪音频向量输入已训练的音频信号降噪模型进行降噪处理,得到降噪音频信号;其中,所述音频信号降噪模型为第一方面的音频信号降噪模型,所述降噪音频信号的信噪比大于所述带噪音频信号的信噪比。
上述方案,音频信号降噪模型是基于带噪音频信号对应的带噪音频向量,直接提取带噪音频信号的所有特征信息,该特征信息用于区分音频信号和噪声信号,相对于现有技术中,将提取到的音频特征信息输入神经网络进行噪声分离的方法,可以避免在提取特征信息的过程中丢失部分原始音频信息,以及避免因提取的原始音频信息不完整而导致经过噪声分离处理得到的降噪音频信号混有噪声或丢失部分音频信息的情况。本申请基于提取到的完整的特征信息进行降噪处理,可准确分离出带噪音频向量对应的音频信号和噪声信号,提高带噪音频信号的降噪效果,提高音频质量,进而提高语音通话质量。
比值膜估计层中设置有多个扩张因果卷积层,可提取出的用于区分带噪音频信息中的音频信号和噪声信号的特征信息越多、越全面或完整;基于该特征信息能够更准确地分离出带噪音频信号中的噪声信号,提高降噪效果,进而提高语音通话质量。
本申请实施例的第四方面提供了一种音频信号降噪装置,包括:
转换单元,用于在通话模式下,将当前采集到的带噪音频信号转换成带噪音频向量;
降噪单元,用于将所述带噪音频向量输入已训练的音频信号降噪模型进行降噪处理,得到降噪音频信号;其中,所述音频信号降噪模型为第一方面所述的音频信号降噪模型,所述降噪音频信号的信噪比大于所述带噪音频信号的信噪比。
本申请实施例的第五方面提供了一种音频降噪设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的音频信号降噪模型的训练方法,或实现如上述第三方面所述的音频信号降噪方法的步骤。
本申请实施例的第六方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的音频信号降噪模型的训练方法,或实现如上述第三方面所述的音频信号降噪方法的步骤。
本申请实施例的第七方面提供了一种计算机程序产品,当计算机程序产品在音频降噪设备上运行时,使得音频降噪设备执行上述第一方面所述的音频信号降噪模型的训练方法,或执行上述第三方面所述的音频信号降噪方法的步骤。
第五方面提供了一种音频降噪设备、第六方面提供的一种计算机可读存储介质的有益效果以及第七方面提供的一种计算机程序产品的有益效果,请参阅第一方面或第三方面对应的有益效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种音频信号降噪模型的训练方法的示意流程图;
图2是本申请另一实施例提供的一种音频信号降噪模型的训练方法的示意流程图;
图3是本申请一实施例提供的一种深度学习网络的网络结构示意图;
图4是本申请另一实施例提供的一种深度学习网络的网络结构示意图;
图5是本申请一实施例提供的一种扩张因果卷积层的数据处理流程示意图;
图6是本申请一实施例提供的一种扩张因果卷积的示意图;
图7是本申请一实施例提供的损失收敛曲线的示意图;
图8是本申请另一实施例提供的损失收敛曲线的示意图;
图9是本申请一实施例提供的音频信号降噪方法的示意流程图;
图10是本申请实施例提供的音频信号降噪模型的训练装置的示意图;
图11是本申请实施例提供的音频信号降噪装置的示意图;
图12是本申请一实施例提供的音频降噪设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
由于在通话过程中,终端设备采集到的音频信息中除了通话者说出的语音信息的同时,还会夹杂着通话者当前所处的环境中的一些噪声信号,在传输采集到的音频信息之前,需要对其进行降噪处理,得到清晰的语音信息,以便通话对端的用户能够听清语音信息。
现有技术提供的一种降噪方案中,在终端设备内设置有两个麦克风,第一个麦克风位于接近用户嘴的位置(主要采集语音),第二个麦克风尽可能远离一个麦克风(主要采集噪声),比如放在手机背面,摄像头附近。终端设备采用自适应算法从第一个麦克风中除去第二个麦克风中的噪声成分。该降噪方案硬件成本高,降噪性能受限于声源方向,对动态噪声降噪效果差。
现有技术提供的另一种降噪方案中,采用深度学习技术,通过提取短时傅里叶幅度谱作为声学特征,将声学特征输入神经网络进行处理,得到幅度谱比值膜,采用幅度谱比值膜对带噪语音幅度谱进行掩蔽,使用掩蔽后的幅度谱和带噪语音的原始相位(错误信息),经过逆傅里叶变换,合成语音波形。该方法在提取声学特征的过程中可能会丢失部分特征,基于不完整的声学特征处理得到的幅度谱比值膜不准确;另外,合成语音波形没有用到准确的相位信息,降噪效果存在性能上限。
本申请实施例,将带噪音频信号转换成相应的带噪音频向量,并将带噪音频向量输入音频信号降噪模型进行处理,直接提取带噪音频信号的特征信息,该特征信息用于区分音频信号和噪声信号,能够避免在提取特征信息丢失部分原始音频信息而导致经过噪声分离处理得到的降噪音频信号混有噪声或丢失部分音频信息的情况;基于提取的特征信息进行降噪处理,可准确分离出带噪音频向量对应的音频信号和噪声信号,提高带噪音频信号的降噪效果,提高音频质量,进而提高语音通话质量。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
请参见图1,图1是本申请一实施例提供的一种音频信号降噪模型的训练方法的示意流程图。本实施例中音频信号降噪模型的训练方法的执行主体可以为终端设备,也可以是服务器,此处不做限制。终端设备包括但不限于具有语音通话功能的终端设备,例如,智能手机、平板电脑、可穿戴设备、台式电脑、机器人等。下面以执行主体为终端设备为例进行说明,如图1所示的音频信号降噪模型的训练方法可包括以下步骤:
S101:对样本带噪音频信号进行预处理,得到样本带噪音频向量。
其中,所述样本带噪音频信号根据样本音频信号和样本噪声信号生成。
样本音频信号是指信噪比大于或等于预设信噪比阈值的样本音频信号。预设信噪比阈值可以为20,但并不限于此,可以根据实际情况设置,此处不做限制。
样本噪声信号可以为环境噪声信号,和/或,除样本音频信号对应的说话人之外的说话人说出的语音信息。样本音频信号与样本噪声信号相对应。
终端设备获取样本音频信号以及噪声样本信号,根据样本音频信号以及样本噪声信号,生成样本带噪音频信号。其中,样本音频信号和样本噪声信号可以是终端设备在日常通话模式(语音通话或视频通话)下采集到的同一用户说出的语音信息,也可以是由其他设备发送给终端设备,此处不做限制。终端设备可以按预设的信噪比将噪声样本信号叠加至样本音频信号,得到样本带噪音频信号。
例如,终端设备可以按8000Hz的采样频率分别采集样本音频信号和样本噪声信号,按预设的信噪比将样本噪声信号叠加至样本音频信号上,生成样本带噪音频信号。
将样本音频信号和样本噪声信号叠加,生成样本带噪音频信号的方法可以是:分别将采集到的样本音频信号和样本噪声信号分割成4秒的片段。之后,按预设的信噪比(例如,10dB)分别将样本音频信号片段和样本噪声信号片段进行叠加,得到样本带噪音频信号片段。其中,将一个时长为4秒的样本音频信号片段与一个时长为4秒的样本噪声信号进行叠加,得到一个样本带噪音频信号片段,即1帧样本带噪音频信号。所有的样本带噪音频信号片段组成由样本音频信号和样本噪声信号合成的一个样本带噪音频信号。样本带噪音频信号与样本音频信号以及样本噪声信号相对应。
或者,终端设备可以分别对采集到的样本音频信号和样本噪声信号进行分帧处理,将样本音频信号分割成多帧样本音频信号,将样本噪声信号分割成多帧样本噪声信号,并将一帧样本音频信号和一帧样本噪声信号进行叠加,得到一帧带噪样本带噪音频信号。本实施例中,样本带噪音频信号由3999帧带噪样本带噪音频信号组成。
可以理解的是,本实施例中,样本音频信号可以来自同一个说话人,也可以来自不同的说话人。当样本音频信号来自不同的说话人时,可以按不同的说话人将音频信号及其对应的样本噪声信号分成多个样本集合。一个说话人对应一个样本集合,一个样本集合中包括多个音频信号和样本噪声信号。这样,终端设备可以从不同的样本集合中获取音频信号和样本噪声信号,以合成不同说话人对应的样本带噪音频信号。
终端设备可以基于一个说话人对应的样本带噪音频信号训练一个音频信号降噪模型,也可以基于多个说话人分别对应的样本带噪音频信号训练一个音频信号降噪模型。当终端设备基于多个说话人分别对应的样本带噪音频信号进行训练时,参与每一轮训练的样本带噪音频信号可以来自同一说话人,也可以来自不同的说话人,此处不做限制。
终端设备获取到样本带噪音频信号之后,对样本带噪音频信号进行预处理,得到样本带噪音频向量。
对样本带噪音频信号进行预处理的过程包括:对样本带噪音频信号进行一维卷积,并采用Relu函数对卷积结果进行处理,以将样本带噪音频信号编码为样本带噪音频向量。
其中,在进行卷积处理时,卷积核的大小可以为16×1,卷积的步长可以为8,卷积核的数量可以为512。样本带噪音频向量为二维嵌入向量,可以表示为A(m,n),m表示样本带噪音频信号的帧数,n表示卷积核的数量。在本实例方式中,m=3999,n=512。即,样本带噪音频信号的帧数包括3999帧信号。
Relu函数为分段线性函数,当输入≥0时,输出等于输入;当输入x<0时,输出为零。由于Relu函数具有单向抑制的特性,能更好地挖掘出样本带噪音频信号的相关特征。
在机器学习领域中,不同评价指标(即特征向量中的不同特征就是不同评价指标)往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要对输入的样本数据进行数据标准化处理,使各评价指标处于同一数量级,适合进行综合对比评价。
在本实施例中,,在样本带噪音频信号转换成样本带噪音频向量之后,还可以对样本带噪音频向量进行归一化处理。
对样本带噪音频向量进行归一化处理的方法可以为:对样本带噪音频向量进行卷积处理,采用归一化公式对卷积结果进行归一化处理,得到样本带噪音频向量对应的样本归一化向量。样本归一化向量可以表示为B(m,j),m表示样本带噪音频信号的帧数,j表示卷积核的数量。
在进行卷积处理时,卷积核的大小可以为1×1,卷积的步长可以为8,卷积核的数量为128,此时B(3999,128)。
归一化公式为:
其中,inputk表示第k帧输入,k=1,2,...,3999,k的最大值为3999;E(inputk)表示求k帧输入时,各卷积通道对应的卷积结果的期望;Var(inputk)表示求k帧输入时,各卷积通道对应的卷积结果的方差。outputk为通道归一化向量,表示第k帧输入对应的所有卷积通道的归一化向量。ε、γ、β为预设的向量参数,其维度均为512,γ、β也可以通过训练得到。
S102:将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络进行噪声分离处理,得到分离音频信号和分离噪声信号。
终端设备将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络进行处理,提取用于区分音频信息和噪声信息的特征信息,并对该特征信息进行分析和处理,得到分离音频信号和分离噪声信号。
可以理解的是,终端设备在S102中对样本带噪音频向量进行归一化处理时,在S103中,将样本带噪音频向量对应的样本归一化向量输入深度学习网络进行处理,得到分离音频信号和分离噪声信号。
分离音频信号是指基于样本带噪音频向量从样本带噪音频信号中分离出来的音频信号。
S103:基于所述样本带噪音频信号对应的样本音频信号、样本噪声信号,以及所述分离音频信号、分离噪声信号,对所述深度学习网络的模型参数进行修正,直至所述深度学习网络的训练情况满足预设条件,得到音频信号降噪模型。
由于在训练的过程中,可能无法准确分理出样本噪声信号和样本音频信号,例如,分离出来的音频信号中可能存在部分样本噪声信号,分离出来的噪声信号可能包括样本带噪音频信号对应的样本噪声信号中的其中一部分或全部,可能还会包含该样本带噪音频信号对应的样本音频信号中的一部分,因此,终端设备在得到样本带噪音频信号对应的分离音频信号和分离噪声信号时,需要通过样本带噪音频信号对应的样本音频信号、样本噪声信号,对分离音频信号以及分离噪声信号进行评估,从而判断当前深度学习网络的训练情况是否满足预设条件,当不满足预设条件时,修正基于样本带噪音频信号对应的样本音频信号、样本噪声信号、分离音频信号以及分离噪声信号,修正深度学习网络的模型参数,返回S102,以继续执行S102~S103。当音频信号降噪模型在结束训练时,在理想情况下,分离出来的噪声信号为样本带噪音频信号对应的样本噪声信号。在本实施例中,当音频信号降噪模型分离出来的音频信号信噪比大于或等于20dB时,认为满足训练要求,但并不限于此,在其他实施例中,可以根据实际情况进行设置满足训练要求的信噪比阈值,此处不做限制。信噪比越大,音频信号的信号质量越好,越清晰。
可以理解的是,S103中的音频信号降噪模型基于一个样本训练集训练得到的,样本训练集包括多组样本,每组样本均包括样本带噪音频信号和样本带噪音频信号对应的样本音频信号、样本噪声信号。多组样本可以来自同一个说话人,也可以来自不同的说话人。在训练的过程中,终端设备可以基于同一说话人的多组样本训练一个音频信号降噪模型,也可以基于不同说话人对应的多组样本训练多个音频信号降噪模型,一个说话人对应一个音频信号降噪模型。
可以理解的是,样本带噪音频信号是根据样本音频信号以及样本噪声信号得到的。得到样本带噪音频信号的具体方法可以参与S101中的相关描述。样本音频信号、样本噪声信号也可以是利用相应的算法对样本带噪音频信号进行解析生成的。
可以理解的是,在训练的过程中,在执行一轮S101~S103之后,在修正深度学习网络的模型参数,返回S102时,可以增加或减少同一说话人对应的训练样本的数量,继续训练。
终端设备在确认深度学习网络当前的训练情况满足预设条件时,判定当前的深度学习网络可以准确地将样本带噪音频信息中的音频信息和噪声信息区分开来,结束对训练该深度学习网络进行训练,固定深度学习网络的模型参数,并将训练后的深度学习网络作为音频信号降噪模型。音频信号降噪模型用于在通话模式下对采集到的带噪音频信号进行降噪处理,分离出带噪音频信号中的噪声信号,得到降噪音频信号。音频信号降噪模型用于对采集到的带噪音频信号进行降噪处理,以消除或减少带噪音频信号中的噪声信号,得到降噪音频信号。降噪音频信号的信噪比大于带噪音频信号的信噪比。例如,采集到的带噪音频信号中包含说话人说出的音频信号和汽车鸣笛噪声信号,音频信号降噪模型用于消除或减少带噪音频信号中的汽车鸣笛噪声信号,得到说话人说出的音频信号,或者得到携带有少量汽车鸣笛噪声的音频信号。
在一种实施方式中,终端设备可以将该样本带噪音频信号对应的样本音频信号和分离音频信号进行比较,确定两者之间的第一差异度;以及将该样本带噪音频信号对应的样本噪声信号和分离噪声信号进行比较,确定两者之间的第二差异度。
终端设备判定第一差异度和第二差异度是否满足预设差异度要求,当第一差异度和第二差异度不满足要求时,得到的分离音频信号和分离噪声信号符合要求,终端设备当前无法准确分离出样本带噪音频信号中的样本噪声信号和样本音频信号,需要继续训练。此时,终端设备根据第一差异度和第二差异度修正所述深度学习网络的模型参数,并返回S102,以继续执行S102~S103。
当第一差异度和第二差异度均满足预设差异度时,判定得到的分离音频信号和分离噪声信号符合要求,停止训练,得到音频信号降噪模型。预设差异度要求可以是第一差异度属于第一预设差异度范围,且第二差异度属于第二预设差异度范围;预设差异度要求也可以是第一差异度以及第二差异度均属于预设差异度范围。
在另一种实施方式中,终端设备在样本带噪音频信号对应的分离音频信号和分离噪声信号时,可以统计当前的累计训练总次数,当累计训练总次数小于预设次数阈值时,返回S102,以继续执行S102~S103,当累计训练总次数等于预设次数阈值时,停止训练,得到音频信号降噪模型。
在本实施例中,预设条件是指累计训练总次数等于预设次数阈值,或者第一差异度和第二差异度满足预设差异度要求。在其他实施例中,预设条件可以根据实际情况进行设置,此处不做限制。
本实施例,通过对样本带噪音频信号进行预处理,将其转换成样本带噪音频向量,并将样本带噪音频向量深度学习网络进行训练,得到音频信号降噪模型。由于深度学习网络是基于样本带噪音频信号对应的带噪音频向量,直接提取样本带噪音频信号的特征信息,该特征信息用于区分音频信号和噪声信号,并基于提取的特征信息进行训练。在训练的过程中,可获取到完整的特征信息,且不会引入干扰信息(例如,带噪音频信号的原始相位等),因此,训练得到的音频信号降噪模型可基于用于区分音频信号和噪声信号的特征信息,准确分离出样本带噪音频向量对应的分离音频信号和分离噪声信号,能够避免在提取特征信息丢失部分原始音频信息而导致经过噪声分离处理得到的分离音频信号混有噪声或丢失部分音频信息的情况,能够准确分离出噪声信号,提高音频信号的降噪效果,提高音频质量,进而提高语音通话质量。
请参见图2,图2是本申请另一实施例提供的一种音频信号降噪模型的训练方法的示意流程图。本实施例对图1对应的实施例中的S102进行了细化,对应为S202~S203。如图2所示的音频信号降噪模型的训练方法可包括以下步骤:
S201:对样本带噪音频信号进行预处理,得到样本带噪音频向量。
本实施例中S201与上一实施例中的S101相同,具体请参阅图1对应的实施例中S101的相关描述,此处不赘述。
S202:将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络的比值膜估计层进行处理,得到音频比值膜向量以及噪声比值膜向量。
请一并参阅图3,图3是本申请一实施例提供的一种深度学习网络的网络结构示意图。如图3所示,深度学习网络包括比值膜估计层以及噪声分离层。比值膜估计层为残差网络结构。
终端设备将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络的比值膜估计层进行处理,提取用于区分音频信号和噪声信号的特征信息,并对该特征信息进行处理和分析,得到样本带噪音频向量对应的音频比值膜向量以及噪声比值膜向量。
音频比值膜向量用于表示样本带噪音频信号属于音频的概率。噪声比值膜向量用于表示样本带噪音频信号属于噪声的概率。
进一步地,为了更准确地从样本带噪音频信号中分离出噪声信号,比值膜估计层包括多个扩张因果卷积层,每个扩张因果卷积层的扩张因子d=2n-1。其中,扩张因果卷积层的层数越多,能够越准确地对音频信号和噪声信号进行分类,能更准确地分离出噪声信号,深度学习网络的降噪效果越好。
进一步地,当比值膜估计层包括多个扩张因果卷积层时,S202可以包括S2021~S2022,具体如下:
S2021:将样本带噪音频信号对应的样本带噪音频向量进行归一化处理,得到样本归一化向量。
在将样本带噪音频信号转换成样本带噪音频向量之后,可以对样本带噪音频向量进行归一化处理,也可以不对样本带噪音频向量进行归一化处理。
对样本带噪音频信号对应的样本带噪音频向量进行归一化处理的方法可以为:对样本带噪音频向量进行卷积处理,采用归一化公式对卷积结果进行归一化处理,得到样本带噪音频向量对应的样本归一化向量。样本归一化向量可以表示为B(m,j),m表示样本带噪音频信号的帧数,j表示卷积核的数量。
在进行卷积处理时,卷积核的大小可以为1×1,卷积的步长可以为8,卷积核的数量为128,此时B(3999,128)。
归一化公式为:
其中,inputk表示第k帧输入,k=1,2,...,3999,k的最大值为3999;E(inputk)表示求k帧输入时,各卷积通道对应的卷积结果的期望;Var(inputk)表示求k帧输入时,各卷积通道对应的卷积结果的方差。outputk为通道归一化向量,表示第k帧输入对应的所有卷积通道的归一化向量。ε、γ、β为预设的向量参数,其维度均为512,γ、β也可以通过训练得到。
S2022:将所述样本归一化向量输入所述比值膜估计层的多个扩张因果卷积层进行处理,得到样本带噪音频信号对应的音频比值膜向量以及噪声比值膜向量;其中,每个扩张因果卷积层输出的特征向量作为与其相邻的下一个扩张因果卷积层的输入,所述特征向量包含所述样本带噪音频信号中的音频信号的特征信息和噪声信号的特征信息,最后一个扩张因果卷积层输出样本带噪音频信号对应的音频比值膜向量以及噪声比值膜向量。
可以理解的是,当不对样本带噪音频向量进行归一化处理时,S2022具体为:将样本带噪音频向量输入所述比值膜估计层的多个扩张因果卷积层进行处理,得到所述带噪音频信号对应的音频比值膜向量。
请一并参阅图4,图4是本申请另一实施例提供的一种深度学习网络的网络结构示意图。如图4所示,终端设备将样本归一化向量输入比值膜估计层的第一扩张因果卷积层进行处理,得到第一特征向量;并将第一特征向量输入与第一扩张因果卷积层相邻的第二扩展因果卷积层进行处理,得到第二特征向量,将第二特征向量输入与第二扩张因果卷积层相邻的第三扩展因果卷积层进行处理,得到第三特征向量。按照此方法依次类推,当倒数第二个扩张因果卷积层输入特征向量时,将该特征向量输入最后一个扩张因果卷积层进行处理,得到卷积结果。然后,将最后一个扩张因果卷积层得到的卷积结果分别经过两个卷积通道为512的1×1的卷积核进行卷积,并采用Relu激活函数分别对卷积结果进行处理,得到样本带噪音频信号对应的音频比值膜向量以及噪声比值膜向量。其中,两个1×1的卷积核的卷积参数不同,卷积参数通过反向传播计算得到。音频比值膜向量以及噪声比值膜向量为二维嵌入向量,二维嵌入向量反映了样本带噪音频信号对应的帧数、卷积核(即卷积通道)的数量。二维嵌入向量的维度信息可以表示为(3999,512)。3999表示样本带噪音频信号包含的3999帧信号,512为卷积核(即卷积通道)的数量。
请一并参阅图5,图5是本申请一实施例提供的一种扩张因果卷积层的数据处理流程示意图。下面结合图5详细介绍扩张因果卷积层的数据处理过程,以第一扩展因果卷积层为例进行说明。
终端设备将样本归一化向量输入比值膜估计层的第一扩张因果卷积层,在第一扩张因果卷积层通过卷积核数量为128的1×1卷积进行处理,得到第一向量,并采用Relu激活函数对第一向量进行处理,得到第二向量,之后,采用S2021中的归一化公式对第二向量进行通道归一化处理,得到第三向量。之后,对第三向量进行深度分离扩张因果卷积,得到第四向量。其中,在进行深度分离扩张因果卷积时,卷积核大小为3×3,步长为1,卷积核数量128,第一扩展因果卷积层对应的扩张因子d=1,扩张因子d=2n-1,n表示第几层扩展因果卷积层。第二扩张因果卷积层的扩张因子为2,第三扩张因果卷积层的扩张因子为23-1,第n扩张因果卷积层的扩张因子为2n-1。n为大于或等于1的正整数。
采用Relu激活函数对第四向量进行处理,并采用上述归一化公式对处理结果进行通道归一化处理,得到第五向量。其中,第一向量、第二向量、第三向量、第四向量以及第五向量均为二维嵌入向量,维度信息可以记为(3999,128)。3999表示样本带噪音频信号包含的3999帧信号,128为卷积核的数量。
之后,对第五向量进行卷积得到第六向量,将第六向量与输入比值膜估计层的第一扩张因果卷积层的样本归一化向量进行叠加,得到第七向量。在卷积过程中,卷积核的大小为1×1,卷积核数量为512。第六向量和第七向量均为二维嵌入向量,维度信息可以记为(3999,512)。512为卷积核的数量。
第七向量即为第一扩张因果卷积层的输出,并作为第二扩张因果卷积层的输入进行进一步地处理。
可以理解的是,各扩张因果卷积层的数据处理过程,除了输入的向量、深度分离扩张因果卷积过程中的扩张因子不同之外,对输入数据的处理过程都相同。具体可参阅第一扩张因果卷积层的对输入数据的处理过程,此处不赘述。在本实施例中,每个扩张因果卷积层的作用均为对输入的向量提取用于区分音频信号和噪声信号的特征信息,扩张因果卷积层的层数越多,提取到的特征信息越多越完整或全面,后续可分离出的噪声信号和音频信号更准确。
其中,深度分离扩张因果卷积的过程为:①采用128个3×3大小的卷积核分别与128个卷积通道的数据做卷积(这里使用了128个1通道的卷积核,输入数据的每个通道用1个3×3的卷积核卷积),得到了128个通道的卷积结果;该步操作是逐层(depthwise)的;②用512个大小为3×3、扩张因子为2n-1的卷积核,对这128个通道各自对应的卷积结果进行扩张因果卷积运算,将128个通道的信息进行融合(用1×1的卷积进行不同通道间的信息融合)。
扩张因果卷积的过程可以理解为:按照扩张因子2n-1(第一扩张因果卷积层的扩张因子为1)扩张3×3的卷积核(卷积通道为128)的感受野,用512个大小为3×3的卷积核,对这128个通道各自对应的卷积结果进行因果卷积运算,将128个通道的信息进行融合(用1×1的卷积进行不同通道间的信息融合),之后叠加128个通道的卷积结果。
请一并参阅图6,图6是本申请一实施例提供的一种扩张因果卷积的示意图。深度分离扩张因果卷积的过程中在执行步骤①之后,得到128个通道的卷积结果,下面结合图6详细说明扩张因果卷积的实现过程,以对通道1的卷积结果进行扩张因果卷积为例。
在图6中,隐藏层2和隐藏层3可以通过跳过部分输入来使卷积核可以应用于大于卷积核本身长度的区域,等同于通过增加零来从原始卷积核中生成更大的卷积核。隐藏层2的卷积核的感受野是隐藏层1按扩张因子为1进行扩张得到,隐藏层3的卷积核的感受野是隐藏层2按扩张因子为2(即,21-1)进行扩张得到。其中,隐藏层中,相邻两个输入之间间隔的零的数量与该隐藏层的卷积核的扩张因子相关。假设隐藏层的卷积核的扩张因子为2n-1,相邻两个输入之间间隔的零的数量为2n-1。n为大于或等于1的正整数。
如图6中,待处理向量从输入层输入,输入层未经扩张,输入层的每个输入都是连续的;隐藏层1的扩张因子为1,隐藏层1的相邻两个输入相隔一个零(或空位),即21-1;隐藏层2的扩张因子为2(即22-1,此时n=2),在隐藏层1的基础上按扩张因子22-1进行扩张,隐藏层2的相邻两个输入相隔3(即22-1)个零。可以理解的是,当图6中还包括隐藏层3时,依次类推,隐藏层3的扩张因子为4(即23-1,此时n=3),隐藏层3的相邻两个输入相隔7(即23-1)个零。
因果卷积的实现原理是:基于当前时刻输入的向量,以及当前时刻之前的多个连续的历史输入的向量,来预测当前时刻的输出。公式反映出,根据按时间先后顺序输入的向量X1、X2、.....、Xt-2、Xt-1、Xt,和Y1、Y2、.....、Yt-2、Yt-1去预测输出Yt,使得Yt接近于实际值。t表示当前时刻,t-1表示当前时刻的前一时刻。Xt表示当前时刻输入的向量,Xt-1是t-1时刻输入的向量。Yt表示当前时刻的预测输出,Yt-1是t-1时刻的预测输出。P(X)表示t时刻的预测输出Yt是实际值的概率。
在本实施例中,终端设备在扩张因果卷积层对当前时刻输入的向量XT以及当前时刻之前的多个连续的历史输入的向量X0、X1、X2、.....、XT-2、XT-1进行扩张因果卷积。每一个扩张因果卷积模块的效果和作用是对采样后的向量进行进一步地分类,以将噪声和说话人说出的音频原声分开。对采样后的向量进行进一步地分类的过程也可以理解为,将噪声对应的特征和音频原声对应的特征进行聚集处理,即噪声对应的特征之间的距离越来越近,音频原声对应的特征之间的距离越来越近,噪声对应的特征与音频原声对应的特征之间的距离越来越远。例如,采样后的向量为一个n维向量,即该向量是一个一行n列的矩阵,也可以是一个一列n行的矩阵。每一个扩张因果卷积模块对采样后的向量进行进一步地分类的过程可以理解为,将属于噪声的特征全部聚集在第一区域,将属于音频原声的特征全部聚集在第二区域。当采样后的向量是一个一行n列的矩阵时,第一区域可以是第1~m列,第二区域可以是第(m+1)列~n列。m为正整数,且当采样后的向量是一个一列n行的矩阵时,第一区域可以是第1~m行,第二区域可以是第(m+1)行~n行。m为正整数,且/>
S203:将所述样本带噪音频向量、所述音频比值膜向量以及所述噪声比值膜向量输入所述噪声分离层进行处理,得到所述样本带噪音频信号对应的分离音频信号和分离噪声信号。
如图5所示,终端设备将样本带噪音频向量、音频比值膜向量以及噪声比值膜向量输入噪声分离层,对样本带噪音频向量以及音频比值膜向量进行向量乘法运算,得到预测降噪音频向量;对样本带噪音频向量以及噪声比值膜向量进行向量乘法运算,得到预测噪声向量。之后,对预测降噪音频向量以及预测噪声向量做进一步处理,提取出音频特征信息和噪声特征信息,然后,分别将音频特征信息映射为单帧的音频信号片段,将噪声特征信息映射为单帧的噪声信号片段;基于所有的音频信号片段进行信号重构,得到分离音频信号;基于所有的噪声信号片段进行信号重构,得到分离噪声信号。
其中,在本实施例中,终端设备可以采用重叠相加(overlap-add)法进行信号重构,信号重建的帧步幅可以为8;在其他实施例中,也可以采用其他的信号重构方法进行信号重构,此处不做限制。
进一步地,噪声分离层包括全连接层以及信号重建层。S203可以包括S2031~S2033,具体如下:
S2031:将所述样本带噪音频向量、所述音频比值膜向量以及所述噪声比值膜向量输入所述噪声分离层进行处理,得到预测降噪音频向量以及预测噪声向量;其中,所述预测降噪音频向量是根据所述样本带噪音频向量与所述音频比值膜向量得到的,所述预测噪声向量是根据所述样本带噪音频向量与所述噪声比值膜向量得到的。
如图5所示,终端设备将样本带噪音频向量、音频比值膜向量以及噪声比值膜向量输入噪声分离层,对样本带噪音频向量以及音频比值膜向量进行向量乘法运算,得到预测降噪音频向量;对样本带噪音频向量以及噪声比值膜向量进行向量乘法运算,得到预测噪声向量。
预测降噪音频向量和预测噪声向量均为二维嵌入向量,维度信息可以记为(3999,512),3999表示样本带噪音频信号包含的3999帧信号,128为卷积核的数量。
预测降噪音频向量可以是样本带噪音频向量与音频比值膜向量之间的乘积,预测噪声向量可以是样本带噪音频向量与噪声比值膜向量之间的乘积。
S2032:将所述预测降噪音频向量以及所述预测噪声向量输入所述全连接层进行处理,得到预测降噪信号以及预测噪声信号;其中,所述预测降噪信号与所述预测降噪音频向量对应,所述预测噪声信号与所述预测降噪信号对应。
终端设备将预测降噪音频向量以及预测噪声向量输入噪声分离层的全连接层,使用公式Outputk=inputkV分别计算预测降噪音频向量对应的预测音频特征信息,以及计算预测噪声向量对应的预测噪声特征信息。预测降噪音频向量以及预测噪声向量均对应3999帧带噪音频信号。
其中,inputk表示第k帧输入,k=1,2,...,3999,共3999帧,V是预设的512×16的全连接矩阵,Outputk表示第k帧在全连接层输出的预测音频特征信息。inputk、Outputk可以为向量。
然后,分别将预测音频特征信息映射为单帧的音频信号片段,所有的单帧的音频信号片段组成预测降噪信号。将预测噪声特征信息映射为单帧的噪声信号片段,所有的单帧的噪声信号片段组成预测噪声信号。
S2033:将所述预测降噪信号以及所述预测噪声信号输入所述信号重建层,得到所述样本带噪音频信号对应的分离音频信号和分离噪声信号。
终端设备将预测降噪信号以及预测噪声信号输入噪声分离层的信号重建层,基于预测降噪信号内包含的所有的单帧的音频信号片段,对预测降噪信号包含的音频信号片段进行信号重构,得到每帧音频信号片段对应的重构音频信号;之后,基于所有音频信号片段的先后顺序,将所有音频信号片段对应的重构音频信号进行信号拼接处理,并去除相邻两个的重构音频信号的重叠信息,得到样本带噪音频信号对应的分离音频信号。
终端设备基于预测噪声信号包含的所有的单帧的噪声信号片段,对预测噪声信号包含的噪声信号片段进行信号重构,得到每个噪声信号片段对应的重构噪声信号;之后,基于所有噪声信号片段的先后顺序,将每个噪声信号片段对应的重构噪声信号进行信号拼接处理,并去除相邻两个的重构噪声信号的重叠信息,得到样本带噪音频信号对应的分离噪声信号。
其中,在本实施例中,终端设备可以采用重叠相加(overlap-add)法进行信号重构,信号重建的帧步幅可以为8;在其他实施例中,也可以采用其他的信号重构方法进行信号重构,此处不做限制。
S204:基于所述样本带噪音频信号对应的样本音频信号、样本噪声信号,以及所述分离音频信号、分离噪声信号,对所述深度学习网络的模型参数进行修正,直至所述深度学习网络的训练情况满足预设条件,得到音频信号降噪模型。
终端设备在得到样本带噪音频信号对应的分离音频信号和分离噪声信号时,判断当前深度学习网络的训练情况是否满足预设条件,当不满足预设条件时,修正所述深度学习网络的模型参数,返回S202,以继续执行S202~S204。当满足预设条件时,停止训练,得到音频信号降噪模型。
进一步地,在训练过程中,为了防止深度学习网络出现过拟合的情况,S204可以具体为:当第一信噪比和第二信噪比之间的均值不符合预设要求时,修正所述深度学习网络的模型参数,返回执行所述将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络的比值膜估计层进行处理,得到音频比值膜向量以及噪声比值膜向量;当所述第一信噪比和所述第二信噪比之间的均值符合预设要求时,停止训练所述深度学习网络,并将训练后的深度学习网络作为所述音频信号降噪模型。其中,所述第一信噪比基于所述样本带噪音频信号对应的样本音频信号以及分离音频信号计算得到,所述第二信噪比基于所述样本带噪音频信号对应的样本噪声信号以及分离噪声信号计算得到。
具体地,终端设备在获取到样本带噪音频信号对应的分离音频信号和分离噪声信号之后,可以基于样本带噪音频信号对应的样本音频信号以及分离音频信号计算第一信噪比,基于样本带噪音频信号对应的样本噪声信号以及分离噪声信号计算第二信噪比,并计算第一信噪比和第二信噪比之间的均值。
之后,判断第一信噪比和第二信噪比之间的均值是否预设要求,当第一信噪比和第二信噪比之间的均值不符合预设要求时,判定当前还不能准确分离出样本带噪音频信号中的样本噪声信号,修正深度学习网络的模型参数,返回S202,继续执行S202~S204;当第一信噪比和第二信噪比之间的均值符合预设要求时,判定当前可准确分离出样本带噪音频信号中的样本噪声信号,停止训练,得到音频信号降噪模型。
预设要求可以是第一信噪比和第二信噪比之间的均值小于或等于预设的信噪比阈值,也可以是该均值属于预设的信噪比范围,但并不限于此,还可以根据实际情况进行设置,此处不做限制。预设的信噪比阈值可以是10,预设的信噪比范围可以是9~12,具体可根据实际情况进行设置,此处不做限制。
进一步地,在机器学习中,我们希望模型在训练数据上学到的预测数据分布与真实数据分布越相近越好,可以采用以下公式(即,预设的损失函数)计算第一信噪比和第二信噪比。预设的损失函数可以根据实际情况进行设置,此处不做限制。
其中,当计算第一信噪比时,starget表示归一化的分离音频信号,表示样本带噪音频信号对应的分离音频信号,s表示输入的样本带噪音频信号对应的样本音频信号,表示计算分离音频信号和样本音频信号之间的内积,||s||2表示计算样本音频信号的范数;enoise表示分离音频信号的误差,SI-SNR表示尺度不变的分离音频信号的信噪比。可以理解的是,starget、/>s、enoise以及SI-SNR均可以为向量。
当计算第二信噪比时,starget表示归一化的分离噪声信号,表示样本带噪音频信号对应的分离噪声信号,s表示输入的样本带噪音频信号对应的样本噪声信号,/>表示计算分离噪声信号和样本噪声信号之间的内积,||s||2表示计算样本噪声信号的范数;enoise表示分离噪声信号的误差,SI-SNR表示尺度不变的分离噪声信号的信噪比。
可以理解的是,终端设备在计算第一信噪比以及第二信噪比时,可以将样本带噪音频信号、样本音频信号、样本噪声信号、分离音频信号、分离噪声信息均转换成向量的形式进行计算,具体的转换方式此处不做限定。
进一步地,为了验证音频信号降噪模型的分离噪声的准确性及降噪效果,在S204之后,还可以对音频信号降噪模型进行测试,对音频信号降噪模型进行测试的步骤包括S205~S207,具体如下:
S205:选取测试样本带噪音频向量;其中,所述测试样本带噪音频向量包括第一测试样本带噪音频向量以及N个第二测试样本带噪音频向量,所述第一测试样本带噪音频向量为T时刻输入所述深度学习网络的测试样本带噪音频向量,所述第二测试样本带噪音频向量为在T时刻之前输入所述深度学习网络的连续的样本带噪音频向量,T和N均为正整数。
例如,将T时刻输入的向量XT作为第一测试样本带噪音频向量,将T时刻之前的多个连续的按时间先后顺序输入的向量X0、X1、X2、.....、XT-2、XT-1作为第二测试样本带噪音频向量。XT-i为与(T-i+1)时刻相邻的前一时刻输入的向量。T为当前时刻,i为小于T的正整数。
本实施例中,在对音频信号降噪模型进行测试时,选取的测试样本带噪音频向量为在训练过程中输入深度学习网络的向量,通过复用输入的向量及历史输入向量,不需要将样本带噪音频信号装换成相对应的向量,能够减少向量转换对应的运算量,提高测试速率。另外,测试样本带噪音频向量均为某时刻输入的向量,一个时刻输入的向量可以看成是一帧信号,因此,可以实现单帧输入。
S206:将所述测试样本带噪音频向量输入所述音频信号降噪模型进行噪声分离处理,得到测试分离音频信号。
本实施例中S206的具体实现过程与图1对应的实施例中的S102实现过程相同,具体请参阅S102中的相关描述,此处不赘述。
在本实施例中,可以以图6中三层神经网络对8000Hz采样频率音频进行分离为例进行说明,三层网络的感受野为15ms,在一种实现方式中,输入信号与历史15ms信号组合,作为网络的输入,得到输出结果。
进一步地,为了降低音频信号的传输延时,当音频信号降噪模型包括比值膜估计层以及噪声分离层,比值膜估计层包括扩张因果卷积层时,S2061可以包括S2061~S2063,具体如下:
S2061:将所述测试样本带噪音频向量输入所述比值膜估计层的扩张因果卷积层进行处理,得到测试样本带噪音频信号对应的测试音频比值膜向量。
终端设备将测试样本带噪音频向量输入音频信号降噪模型的比值膜估计层中的扩张因果卷积层进行扩张因果卷积处理,得到测试样本带噪音频信号对应的测试音频比值膜向量。
可以理解的是,当在S202中对样本带噪音频向量进行归一化处理时,在S2061中将测试样本带噪音频向量对应的样本归一化向量输入所述比值膜估计层的扩张因果卷积网络进行处理,得到测试样本带噪音频信号对应的测试音频比值膜向量以及测试噪声比值膜向量。
请一并参阅图6,下面结合图6说明对测试样本带噪音频向量进行扩张因果卷积处理的过程,图6中示出了其中一个扩张因果卷积层的其中一个卷积通道的扩张因卷积的示意图。在图6中,T时刻输入,得到T时刻各隐藏层和输出层的结果,如最右边一列的圆圈的信号流向所示。
在本实施例中,输入层设置数组长度为3,隐藏层1数组长度为5,隐藏层2数组长度为9。各数组均初始化为零数组。
(1)假设,输入层数组更新为:XT-2、XT-1、XT。其中,XT为当前时刻的输入,XT-1为当前时刻之前且与当前时刻相邻的第一时刻的输入,XT-2为第一时刻之前且与第一时刻相邻的第二时刻的输入。XT-i为与(T-i+1)时刻相邻的前一时刻的输入。T为当前时刻,i为小于T的正整数。
那么,隐藏层1在T时刻的输出结果为h1,T=XT-2+XT-1+XT。
需要注意的是,此处为了表示方便,略去了输入信号与滤波器系数(卷积核的卷积参数)相乘的操作,下同。其中,hm,T-n表示隐藏层m,在T-n时刻的输出结果。m为正整数,m=1、2、3……k,K为隐藏层的层数。n为小于T的正整数。
(2)隐藏层1数组更新为:h1,T-4、h1,T-3、h1,T-2、h1,T-1、h1,T。由于h1,T=XT-2+XT-1+XT,依次类推,h1,T-1=XT-4+XT-3+XT-2,h1,T-2=XT-6+XT-5+XT-4,h1,T-3=XT-8+XT-7+XT-6,h1,T-4=XT-10+XT-9+XT-8。其中,h1,T-4表示隐藏层1在T-4时刻的输出结果,h1,T-3表示隐藏层1在T-3时刻的输出结果,h1,T-2表示隐藏层1在T-2时刻的输出结果,h1,T-1表示隐藏层1在T-1时刻的输出结果,h1,T表示隐藏层1在T时刻的输出结果。
隐藏层2在T时刻的输出结果为h2,T=h1,T-4+h1,T-2+h1,T。
隐藏层2数组更新为:h2,T-8、h2,T-7、h2,T-6、h2,T-5、h2,T-4、h2,T-3、h2,T-2、h2,T-1、h2,T。由于h2,T=h1,T-4+h1,T-2+h1,T,依次类推,h2,T-2=h1,T-8+h1,T-6+h1,T-4,h2,T-3=h1,T-12+h1,T-10+h1,T-8,h2,T-4=h1,T-16+h1,T-14+h1,T-12,h2,T-5=h1,T-20+h1,T-18+h1,T-16,h2,T-6=h1,T-24+h1,T-22+h1,T-20。
输出层在T时刻的输出值YT=h2,T-8+h2,T-4+h2,T。
S2062:将所述测试样本带噪音频向量以及测试所述音频比值膜向量输入所述噪声分离层进行处理,得到所述第一测试样本带噪音频向量对应的测试分离音频信号。
将测试样本带噪音频向量以及测试音频比值膜向量输入噪声分离层,对测试样本带噪音频向量以及测试音频比值膜向量进行向量乘法运算,得到测试降噪向量,并对测试降噪向量进行处理,得到第一测试样本带噪音频向量对应的测试分离音频信号。
本实施例中对测试降噪向量进行处理,得到第一测试样本带噪音频向量对应的测试分离音频信号的具体实现方法,与S203中对预测降噪音频向量进行处理,得到样本带噪音频信号对应的分离音频信号的实现方式相同,具体请参阅S203中的相关描述,此处不做限制。
S207:基于所述测试分离音频信号以及所述第一测试样本带噪音频向量对应的样本音频信号,验证所述音频降噪模型的准确性。
终端设备可以对比测试分离音频信号与第一测试样本带噪音频向量对应的样本音频信号之间的差异度,来评价音频降噪模型的准确性。差异度越小,准确度越高。
终端设备也可以通过以下损失函数计算信噪比,来评价音频降噪模型的准确性。信噪比越高,准确度越高。
此时,starget表示归一化的测试分离音频信号,表示第一测试样本带噪音频向量对应的测试分离音频信号,s表示第一测试样本带噪音频向量对应的样本音频信号,表示计算测试分离音频信号和样本音频信号之间的内积,||s||2表示计算样本音频信号的范数;enoise表示测试分离音频信号的误差,SI-SNR表示尺度不变的测试分离音频信号的信噪比。可以理解的是,starget、/>s、enoise以及SI-SNR均可以为向量。
请一并参阅图7、图8,图7是本申请一实施例提供的损失收敛曲线的示意图;图8是本申请另一实施例提供的损失收敛曲线的示意图。图7是比值膜估计层包括4层扩张因果卷积层时对应的损失收敛曲线的示意图,如图7所示,在测试阶段中,测试集的信噪比为9.89dB。图8是比值膜估计层包括6层扩张因果卷积层时对应的损失收敛曲线的示意图,如图7所示,在测试阶段中,测试集的信噪比为12dB。
对比图7及图8中的收敛曲线可知,在终端设备的性能允许的情况下,增加扩张因果卷积层的层数可以有效提升语音分离质量,可以有效提高语音通话质量。
本实施例中,通过计算样本带噪音频信号对应的带噪音频向量的音频比值膜向量以及噪声比值膜向量,并基于样本带噪音频向量、音频比值膜向量以及噪声比值膜向量进行噪声分离处理,得到带噪音频向量对应的分离音频信号和分离噪声信号,能够更准确地提取出用于区分音频信号和噪声信号的特征信息,因此,训练得到的音频信号降噪模型可能够更准确地分离出样本带噪音频向量对应的分离音频信号和分离噪声信号,进一步提高音频信号的降噪效果,提高音频质量,进而提高语音通话质量。
请参阅图9,图9是本申请一实施例提供的音频信号降噪方法的示意流程图。音频降噪方法的执行主体可以为终端设备,也可以是服务器,此处不做限制。终端设备包括但不限于具有语音通话功能的终端设备,例如,智能手机、平板电脑、可穿戴设备、台式电脑、机器人等。下面以执行主体为终端设备为例进行说明,图9所示的音频信号降噪方法包括以下步骤:
S301:将当前采集到的带噪音频信号转换成带噪音频向量;其中,所述带噪音频信号包括音频信号和噪声信号。
终端设备对当前采集到的带噪音频信号进行一维卷积,并采用Relu函数对卷积结果进行处理,以将带噪音频信号编码为带噪音频向量。带噪音频信号中的音频信号为说话者说出的语音信息,带噪音频信号中的噪声信号可以为环境噪声信号和/或除说话者之外的其他说话人说出的语音信息。
在一种可能的实现方式中,S301可以为:在通话模式下,将当前采集到的带噪音频信号转换成带噪音频向量。
终端设备在检测到当前开启语音通话模式或视频通话模式时,实时采集带噪音频信号,对带噪音频信号进行一维卷积,并采用Relu函数对卷积结果进行处理,以将带噪音频信号编码为带噪音频向量。带噪音频信号中的音频信号为实时采集的通话者说出的语音信息,带噪音频信号中的噪声信号可以为环境噪声信号和/或除通话者之外的其他说话人说出的音频信号。
终端设备可以按8000Hz的采样频率实时采集带噪音频信号。在对带噪音频信号进行分帧处理时,可以设置为2ms对应一帧带噪音频信号。终端设备可对单帧的带噪音频信号进行降噪处理,终端在对带噪音频信号进行降噪处理后,将降噪音频信号发送给对端设备时,会存在大概2ms左右的延时。2ms延时对应于对其进行降噪处理所消耗的时间。
其中,在进行卷积处理时,卷积核的大小可以为16×1,卷积的步长可以为8,卷积核的数量可以为512。带噪音频向量为二维嵌入向量。
本实施例中,将带噪音频信号转换成带噪音频向量的方法与S101中将样本带噪音频信号转换成样本带噪音频向量的方法相同,具体请参阅S101中的相关描述,此处不赘述。
为了避免不必要的数值问题,在带噪音频信号转换成带噪音频向量之后,还可以对带噪音频向量进行归一化处理。归一化处理过程可参阅S101中的相关描述,此处不赘述。
S302:将所述带噪音频向量输入已训练的音频信号降噪模型进行降噪处理,得到降噪音频信号;其中,所述音频信号降噪模型为图1对应的实施例训练得到的音频信号降噪模型,所述降噪音频信号的信噪比大于所述带噪音频信号的信噪比。
音频信号降噪模型可以由终端设备自身预先训练,也可以由其他设备预先训练后,移植到该终端设备中,此处不做限制。
当带噪音频信号中的噪声信号为环境噪声信号时,将所述带噪音频向量输入已训练的音频信号降噪模型进行降噪处理,以消除或减少带噪音频信号中的环境噪声信号,得到降噪音频信号。降噪音频信号的信噪比高于带噪音频信号的信噪比。
例如,带噪音频信号中包含说话人说出的音频信号和汽车鸣笛噪声信号,音频信号降噪模型用于消除或减少带噪音频信号中的汽车鸣笛噪声信号,得到说话人说出的音频信号,或者得到携带有少量汽车鸣笛噪声的音频信号。
当带噪音频信号中的噪声信号为除通话者之外的其他说话人说出的音频信号时,将所述带噪音频向量输入已训练的音频信号降噪模型进行降噪处理,以消除或减少带噪音频信号中的除通话者之外的其他说话人说出的音频信号,得到降噪音频信号。
本实施例中,将带噪音频向量输入已训练的音频信号降噪模型进行降噪处理,得到降噪音频信号的具体实现过程,与图1对应的实施例中将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络进行噪声分离处理,得到分离音频信号的实现过程相同,具体请参阅图1对应的实施例中的相关描述,此处不赘述。
进一步地,为了更准确地从带噪音频信号中分离出噪声信号,提高音频信号的降噪效果,提高音频质量,进而提高语音通话质量,音频信号降噪模型可以包括比值膜估计层以及噪声分离层,相应地,S302可以包括S3021~S3022:
S3021:将所述带噪音频向量输入所述音频信号降噪模型的比值膜估计层进行处理,得到所述带噪音频向量对应的音频比值膜向量。
本实施例中预测带噪音频向量对应的音频比值膜向量的方法,与S202中计算样本带噪音频信号对应的样本带噪音频向量的音频比值膜向量的方法相同,具体请参阅S202中的相关描述,此处不赘述。
可选地,比值膜估计层包括多个扩张因果卷积层,扩张因果卷积层的层数越多,可越准确地对音频信号和噪声信号进行分类,从而能够更准确地分离出带噪音频信号中的噪声信号,从而更准确地消除带噪音频信号中的噪声信号,提高降噪效果,得到更清晰的语音信息。当带噪音频信号时在通话过程中采集到的带噪音频信号时,可以提高语音通话质量。
进一步地,当比值膜估计层包括多个扩张因果卷积层时,S3021可以包括以下步骤:
S30211:将所述带噪音频向量进行归一化处理,得到归一化向量。
在将带噪音频信号转换成带噪音频向量之后,可以对带噪音频向量进行归一化处理,也可以不对带噪音频向量进行归一化处理。
本实施例中对带噪音频向量进行归一化处理的具体实现方式与S2021中对样本带噪音频向量进行归一化处理的实现方式相同,具体请参阅S2021中的相关描述,此处不赘述。
S30212:将所述归一化向量输入所述比值膜估计层的多个扩张因果卷积层进行处理,得到所述带噪音频信号对应的音频比值膜向量;其中,每个扩张因果卷积层输出的特征向量作为与其相邻的下一个扩张因果卷积层的输入,所述特征向量用于区分所述带噪音频信号中的音频信号和噪声信号,最后一个扩张因果卷积层输出所述带噪音频信号对应的音频比值膜向量。
本实施例中,获取带噪音频信号对应的音频比值膜向量的方法,与S2022中获取样本带噪音频信号对应的音频比值膜向量的方法相同,具体请参阅S2022中的相关描述,此处不赘述。
可以理解的是,当不对带噪音频向量进行归一化处理时,S30212具体为:将带噪音频向量输入所述比值膜估计层的多个扩张因果卷积层进行处理,得到所述带噪音频信号对应的音频比值膜向量。
S3022:将所述带噪音频向量及其音频比值膜向量输入所述噪声分离层进行处理,得到所述带噪音频向量对应的降噪音频信号。
终端设备将带噪音频向量及其音频比值膜向量输入噪声分离层,对带噪音频向量及其音频比值膜向量进行向量乘法运算,得到带噪音频向量对应的降噪音频向量,之后,对带噪音频向量对应的降噪音频向量做进一步处理,提取出音频特征信息,然后,分别将音频特征信息映射为单帧的音频信号片段,基于所有的音频信号片段进行信号重构,得到降噪音频信号。
可选地,噪声分离层可以包括全连接层以及信号重建层。
进一步地,当噪声分离层包括全连接层以及信号重建层时,S3022可以包括以下步骤:
S30221:将所述带噪音频向量及其音频比值膜向量输入所述噪声分离层进行向量乘法运算,得到降噪音频向量。
终端设备将带噪音频向量及其音频比值膜向量输入噪声分离层,对带噪音频向量以及音频比值膜向量进行向量乘法运算,得到降噪音频向量。
S30222:将所述降噪音频向量输入所述全连接层进行处理得到降噪信号。
终端设备将降噪音频向量输入噪声分离层的全连接层,使用公式Outputk=inputkV分别计算降噪音频向量对应的音频特征信息。降噪音频向量以对应3999帧带噪音频信号。
其中,inputk表示第k帧输入,k=1,2,...,3999,共3999帧,V是预设的512×16的全连接矩阵,Outputk表示第k帧在全连接层输出的音频特征信息。inputk、Outputk可以为向量。
然后,将音频特征信息映射为单帧的音频信号片段,所有的单帧的音频信号片段组成降噪信号。
S30223:将所述降噪信号输入所述信号重建层,得到所述带噪音频信号对应的降噪音频信号。
终端设备将降噪信号输入噪声分离层的信号重建层,基于降噪信号内包含的所有的单帧的音频信号片段,对降噪信号包含的音频信号片段进行信号重构,得到每帧音频信号片段对应的重构音频信号;之后,基于所有音频信号片段的先后顺序,将所有音频信号片段对应的重构音频信号进行信号拼接处理,并去除相邻两个的重构音频信号的重叠信息,得到带噪音频信号对应的降噪音频信号。
其中,在本实施例中,终端设备可以采用重叠相加(overlap-add)法进行信号重构,信号重建的帧步幅可以为8;在其他实施例中,也可以采用其他的信号重构方法进行信号重构,此处不做限制。
可以理解的是,在S302之后,终端设备将降噪音频信号进行信号编码后发送给与终端设备进行通话的对端设备。
上述方案,音频信号降噪模型是基于带噪音频信号对应的带噪音频向量,直接提取带噪音频信号的特征信息,该特征信息用于区分音频信号和噪声信号。相对于现有技术中,将提取到的音频特征信息输入神经网络进行噪声分离的方法,可以避免在提取特征信息的过程中丢失部分原始音频信息,以及避免因提取的原始音频信息不完整而导致经过噪声分离处理得到的降噪音频信号混有噪声或丢失部分音频信息的情况;基于提取的特征信息进行降噪处理,可准确分离出带噪音频向量对应的音频信号和噪声信号,提高带噪音频信号的降噪效果,提高音频质量,进而提高语音通话质量。
比值膜估计层中设置有多个扩张因果卷积层,可提取出的用于区分带噪音频信息中的音频信号和噪声信号的特征信息越多、越全面或完整;基于该特征信息能够更准确地分离出带噪音频信号中的噪声信号,提高降噪效果,进而提高语音通话质量。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
请参阅图10,图10是本申请实施例提供的音频信号降噪模型的训练装置的示意图。该训练装置包括的各单元用于执行图1、图2对应的实施例中的各步骤,具体请参阅图1、图2各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。如图10所示,音频信号降噪模型的训练装置4包括:
预处理单元410,用于对样本带噪音频信号进行预处理,得到样本带噪音频向量;
训练单元420,用于将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络进行噪声分离处理,得到分离音频信号和分离噪声信号;
模型生成单元430,用于基于所述样本带噪音频信号对应的样本音频信号、样本噪声信号,以及所述分离音频信号、分离噪声信号,对所述深度学习网络的模型参数进行修正,直至所述深度学习网络的训练情况满足预设条件,得到音频信号降噪模型。
请参阅图11,图11是本申请实施例提供的音频信号降噪装置的示意图。该音频信号降噪装置包括的各单元用于执行图9对应的实施例中的各步骤,具体请参阅图9各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。如图11所示,音频信号降噪装置5包括:
转换单元510,用于在通话模式下,将当前采集到的带噪音频信号转换成带噪音频向量;其中,所述带噪音频信号包括音频信号和噪声信号;
降噪单元520,用于将所述带噪音频向量输入已训练的音频信号降噪模型进行降噪处理,得到降噪音频信号;其中,所述音频信号降噪模型为第一方面所述的音频信号降噪模型。
请参阅图12,图12是本申请一实施例提供的音频降噪设备的示意图。如图12所示,该实施例的音频降噪设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如音频信号降噪模型的训练程序,或音频信号降噪程序。所述处理器60执行所述计算机程序62时实现上述各个音频信号降噪模型的训练方法实施例中的步骤,例如图1所示的步骤101至104。或者,实现音频信号降噪方法实施例中的步骤,例如图9所示的步骤301至302。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图10所示模块410至430的功能;或如图11所示的模块510至520的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述音频降噪设备6中的执行过程。例如,当指令段用于描述所述计算机程序62在所述音频降噪设备6中的音频信号降噪模型的训练方法的执行过程时,所述计算机程序62可以被分割成预处理单元、训练单元以及模型生成单元,各单元具体功能请参阅图10对应地实施例中地相关描述,此处不赘述。
再例如,当指令段用于描述所述计算机程序62在所述音频降噪设备6中的音频信号降噪方法的执行过程时,所述计算机程序62可以被分割成转换单元510以及降噪单元520,各单元具体功能请参阅图11对应地实施例中地相关描述,此处不赘述。
所述音频降噪设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述音频降噪设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是语音识别备6的示例,并不构成对音频降噪设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述音频降噪设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述音频降噪设备6的内部存储单元,例如音频降噪设备6的硬盘或内存。所述存储器61也可以是所述音频降噪设备6的外部存储设备,例如所述音频降噪设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述音频降噪设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述音频降噪设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种音频信号降噪模型的训练方法,其特征在于,包括:
对样本带噪音频信号进行预处理,得到样本带噪音频向量;
将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络进行噪声分离处理,得到分离音频信号和分离噪声信号;
基于所述样本带噪音频信号对应的样本音频信号、样本噪声信号,以及所述分离音频信号、分离噪声信号,对所述深度学习网络的模型参数进行修正,直至所述深度学习网络的训练情况满足预设条件,得到音频信号降噪模型;
所述对样本带噪音频信号进行预处理包括:对样本带噪音频信号进行一维卷积,并采用Relu函数对卷积结果进行处理,以将样本带噪音频信号编码为样本带噪音频向量;
所述将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络进行噪声分离处理,得到分离音频信号和分离噪声信号,包括:
将样本带噪音频信号对应的样本带噪音频向量先后经由深度学习网络的比值膜估计层和噪声分离层进行处理,得到所述样本带噪音频信号对应的分离音频信号和分离噪声信号。
2.如权利要求1所述的音频信号降噪模型的训练方法,其特征在于,所述样本带噪音频信号根据样本音频信号和样本噪声信号生成。
3.如权利要求1所述的音频信号降噪模型的训练方法,其特征在于,所述基于所述样本带噪音频信号对应的样本音频信号、样本噪声信号,以及所述分离音频信号、分离噪声信号,对所述深度学习网络的模型参数进行修正,直至所述深度学习网络的训练情况满足预设条件,得到音频信号降噪模型,包括:
当第一信噪比和第二信噪比之间的均值不符合预设要求时,修正所述深度学习网络的模型参数,返回执行将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络的比值膜估计层进行处理,得到音频比值膜向量以及噪声比值膜向量以及后续步骤;其中,所述第一信噪比基于所述样本带噪音频信号对应的样本音频信号以及分离音频信号计算得到,所述第二信噪比基于所述样本带噪音频信号对应的样本噪声信号以及分离噪声信号计算得到;
当所述第一信噪比和所述第二信噪比之间的均值符合预设要求时,停止训练所述深度学习网络,并将训练后的深度学习网络作为所述音频信号降噪模型。
4.如权利要求1或3所述的音频信号降噪模型的训练方法,其特征在于,所述比值膜估计层包括多个扩张因果卷积层;
将样本带噪音频信号对应的样本带噪音频向量输入深度学习网络的比值膜估计层进行处理,得到音频比值膜向量以及噪声比值膜向量,包括:
将样本带噪音频信号对应的样本带噪音频向量进行归一化处理,得到样本归一化向量;
将所述样本归一化向量输入所述比值膜估计层的多个扩张因果卷积层进行处理,得到样本带噪音频信号对应的音频比值膜向量以及噪声比值膜向量;其中,每个扩张因果卷积层输出的特征向量作为与其相邻的下一个扩张因果卷积层的输入,所述特征向量包含所述样本带噪音频信号中的音频信号的特征信息和噪声信号的特征信息,最后一个扩张因果卷积层输出样本带噪音频信号对应的音频比值膜向量以及噪声比值膜向量。
5.如权利要求1或3所述的音频信号降噪模型的训练方法,其特征在于,所述噪声分离层包括全连接层以及信号重建层;
将样本带噪音频向量、音频比值膜向量以及噪声比值膜向量输入所述噪声分离层进行处理,得到所述样本带噪音频信号对应的分离音频信号和分离噪声信号,包括:
将样本带噪音频向量、音频比值膜向量以及噪声比值膜向量输入所述噪声分离层进行处理,得到预测降噪音频向量以及预测噪声向量;其中,所述预测降噪音频向量是根据所述样本带噪音频向量与所述音频比值膜向量得到的,所述预测噪声向量是根据所述样本带噪音频向量与所述噪声比值膜向量得到的;
将所述预测降噪音频向量以及所述预测噪声向量输入所述全连接层进行处理,得到预测降噪信号以及预测噪声信号;其中,所述预测降噪信号与所述预测降噪音频向量对应,所述预测噪声信号与所述预测降噪信号对应;
将所述预测降噪信号以及所述预测噪声信号输入所述信号重建层,得到所述样本带噪音频信号对应的分离音频信号和分离噪声信号。
6.一种音频信号降噪方法,其特征在于,包括:
将当前采集到的带噪音频信号转换成带噪音频向量,其中,对样本带噪音频信号进行一维卷积,并采用Relu函数对卷积结果进行处理,以将样本带噪音频信号编码为样本带噪音频向量;
将所述带噪音频向量输入已训练的音频信号降噪模型进行降噪处理,得到降噪音频信号;其中,所述音频信号降噪模型为如权利要求1~5所述的音频信号降噪模型,所述降噪音频信号的信噪比大于所述带噪音频信号的信噪比;所述将所述带噪音频向量输入已训练的音频信号降噪模型进行降噪处理,得到降噪音频信号,包括:
将所述带噪音频向量先后经由音频信号降噪模型的比值膜估计层和噪声分离层进行处理,
得到所述带噪音频向量对应的降噪音频信号。
7.如权利要求6所述的音频信号降噪方法,其特征在于,所述比值膜估计层包括多个扩张因果卷积层;
将所述带噪音频向量输入所述音频信号降噪模型的比值膜估计层进行处理,得到所述带噪音频向量对应的音频比值膜向量,包括:
将所述带噪音频向量进行归一化处理,得到归一化向量;
将所述归一化向量输入所述比值膜估计层的多个扩张因果卷积层进行处理,得到所述带噪音频信号对应的音频比值膜向量;其中,每个扩张因果卷积层输出的特征向量作为与其相邻的下一个扩张因果卷积层的输入,所述特征向量用于区分所述带噪音频信号中的音频信号和噪声信号,最后一个扩张因果卷积层输出所述带噪音频信号对应的音频比值膜向量。
8.如权利要求6或7所述的音频信号降噪方法,其特征在于,所述噪声分离层包括全连接层以及信号重建层;
将所述带噪音频向量及其音频比值膜向量输入所述噪声分离层进行处理,得到所述带噪音频向量对应的降噪音频信号,包括:
将所述带噪音频向量及其音频比值膜向量输入所述噪声分离层进行向量乘法运算,得到降噪音频向量;
将所述降噪音频向量输入所述全连接层进行处理得到降噪信号;
将所述降噪信号输入所述信号重建层,得到所述带噪音频信号对应的降噪音频信号。
9.一种音频降噪设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤,或实现如权利要求6至8任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤,或实现如权利要求6至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911373964.XA CN113053400B (zh) | 2019-12-27 | 2019-12-27 | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911373964.XA CN113053400B (zh) | 2019-12-27 | 2019-12-27 | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113053400A CN113053400A (zh) | 2021-06-29 |
CN113053400B true CN113053400B (zh) | 2024-06-07 |
Family
ID=76506268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911373964.XA Active CN113053400B (zh) | 2019-12-27 | 2019-12-27 | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113053400B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571047B (zh) * | 2021-07-20 | 2024-07-23 | 杭州海康威视数字技术股份有限公司 | 一种音频数据的处理方法、装置及设备 |
CN114283828A (zh) * | 2021-09-02 | 2022-04-05 | 腾讯科技(北京)有限公司 | 语音降噪模型的训练方法、语音评分方法、装置及介质 |
CN114779098B (zh) * | 2022-04-14 | 2022-12-23 | 江苏金锋源新能源有限公司 | 一种锂离子电池的状态评估方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN109036460A (zh) * | 2018-08-28 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 基于多模型神经网络的语音处理方法和装置 |
CN109841226A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
CN109841206A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
CN109839612A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 基于时频掩蔽和深度神经网络的声源方向估计方法 |
CN110321810A (zh) * | 2019-06-14 | 2019-10-11 | 华南师范大学 | 单通道信号双路分离方法、装置、存储介质及处理器 |
CN110459240A (zh) * | 2019-08-12 | 2019-11-15 | 新疆大学 | 基于卷积神经网络和深度聚类的多说话人语音分离方法 |
CN110491404A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音处理方法、装置、终端设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839822B2 (en) * | 2017-11-06 | 2020-11-17 | Microsoft Technology Licensing, Llc | Multi-channel speech separation |
US10672414B2 (en) * | 2018-04-13 | 2020-06-02 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
-
2019
- 2019-12-27 CN CN201911373964.XA patent/CN113053400B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN109036460A (zh) * | 2018-08-28 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 基于多模型神经网络的语音处理方法和装置 |
CN109841226A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
CN109841206A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
CN109839612A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 基于时频掩蔽和深度神经网络的声源方向估计方法 |
CN110321810A (zh) * | 2019-06-14 | 2019-10-11 | 华南师范大学 | 单通道信号双路分离方法、装置、存储介质及处理器 |
CN110459240A (zh) * | 2019-08-12 | 2019-11-15 | 新疆大学 | 基于卷积神经网络和深度聚类的多说话人语音分离方法 |
CN110491404A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音处理方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113053400A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
Lin et al. | Speech enhancement using multi-stage self-attentive temporal convolutional networks | |
CN113053400B (zh) | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
US11894012B2 (en) | Neural-network-based approach for speech denoising | |
Zhang et al. | Multi-channel multi-frame ADL-MVDR for target speech separation | |
CN109036470B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
WO2023001128A1 (zh) | 音频数据的处理方法、装置及设备 | |
JP2023548707A (ja) | 音声強調方法、装置、機器及びコンピュータプログラム | |
CN114141237A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
Abdulatif et al. | Investigating cross-domain losses for speech enhancement | |
Jannu et al. | Multi-stage progressive learning-based speech enhancement using time–frequency attentive squeezed temporal convolutional networks | |
Yechuri et al. | A nested U-net with efficient channel attention and D3Net for speech enhancement | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
KR20090080777A (ko) | 신호 검출 방법 및 장치 | |
Joy et al. | Deep scattering power spectrum features for robust speech recognition | |
CN107919136B (zh) | 一种基于高斯混合模型的数字语音采样频率估计方法 | |
CN112259110B (zh) | 音频编码方法及装置、音频解码方法及装置 | |
CN114464197A (zh) | 基于语音转换的声纹识别模型训练方法、装置及可读介质 | |
CN115171716A (zh) | 一种基于空间特征聚类的连续语音分离方法、系统及电子设备 | |
CN115881157A (zh) | 音频信号的处理方法及相关设备 | |
Abdulqader et al. | Hybrid feature extraction MFCC and feature selection CNN for speaker identification using CNN: a comparative study | |
Jahanirad et al. | Blind source computer device identification from recorded VoIP calls for forensic investigation | |
Srinivasarao | An efficient recurrent Rats function network (Rrfn) based speech enhancement through noise reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |