CN114242098B - 一种语音增强方法、装置、设备以及存储介质 - Google Patents
一种语音增强方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN114242098B CN114242098B CN202111521637.1A CN202111521637A CN114242098B CN 114242098 B CN114242098 B CN 114242098B CN 202111521637 A CN202111521637 A CN 202111521637A CN 114242098 B CN114242098 B CN 114242098B
- Authority
- CN
- China
- Prior art keywords
- target
- voices
- voice
- paths
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000001228 spectrum Methods 0.000 claims abstract description 206
- 238000012545 processing Methods 0.000 claims abstract description 68
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 45
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 45
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 41
- 230000002452 interceptive effect Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 30
- 230000006854 communication Effects 0.000 abstract description 20
- 238000004891 communication Methods 0.000 abstract description 19
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 17
- 238000002592 echocardiography Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种语音增强方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及深度学习技术和语音技术领域,可用于音频通讯场景。具体实现方案为:对至少两路目标语音进行子带分解处理,得到至少两路目标语音的幅度谱和相位谱;其中,至少两路目标语音包括:目标混合语音和目标干扰语音;根据至少两路目标语音的幅度谱,确定目标混合语音在特征域内存在目标纯净语音的预测概率;根据预测概率、至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到目标混合语音中的目标纯净语音。能够提高语音增强效果,为语音增强提供了新的解决思路。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习技术和语音技术领域,可用于音频通讯场景。
背景技术
语音增强(SE:Speech Enhancement)技术是音频通讯领域中的一个经典技术,主要是指当纯净语音被真实环境中的噪声和/或回声干扰后,从噪声背景中提取纯净语音的抗干扰技术。
现有的语音增强技术对混合语音中的噪声和/或回声的抑制能力不足,导致无法从混合语音中提取到高质量的纯净语音,亟需改进。
发明内容
本公开提供了一种语音增强方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种语音增强方法,包括:
对至少两路目标语音进行子带分解处理,得到至少两路目标语音的幅度谱和相位谱;其中,至少两路目标语音包括:目标混合语音和目标干扰语音;
根据至少两路目标语音的幅度谱,确定目标混合语音在特征域内存在目标纯净语音的预测概率;
根据预测概率、至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到目标混合语音中的目标纯净语音。
根据本公开的另一方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例的语音增强方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开任一实施例的语音增强方法。
根据本公开的技术,能够提高语音增强效果,为语音增强提供了新的解决思路。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种语音增强方法的流程图;
图2是根据本公开实施例提供的一种语音增强方法的流程图;
图3是根据本公开实施例提供的语音增强模型的结构示意图;
图4是根据本公开实施例提供的一种语音增强方法的流程图;
图5A是根据本公开实施例提供的一种语音增强方法的流程图;
图5B是根据本公开实施例提供的一种语音增强方法的原理示意图;
图6A是根据本公开实施例提供的一种语音增强方法的流程图;
图6B是本公开实施例提供的另一种语音增强方法的原理示意图;
图6C是包含敲击噪声的目标混合语音的波形图;
图6D是对包含敲击噪声的目标混合语音进行语音增强后的目标纯净语音的波形图;
图6E是包含回声的目标混合语音的波形图;
图6F是对包含回声的目标混合语音进行语音增强后的目标纯净语音的波形图;
图7是根据本公开实施例提供的一种语音增强装置的结构示意图;
图8是用来实现本公开实施例的语音增强方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例提供的语音增强方法的流程图。本公开实施例适用于对混有噪声和/或回声的语音进行语音增强的情况。该方法可以由语音增强装置来执行,该装置可以采用软件和/或硬件的方式实现。如图1所示,本实施例提供的语音增强方法可以包括:
S101,对至少两路目标语音进行子带分解处理,得到至少两路目标语音的幅度谱和相位谱;其中,至少两路目标语音包括:目标混合语音和目标干扰语音。
其中,目标语音可以是执行语音增强方法所需要输入的语音。其可以包括至少两路,具体的,至少包括目标混合语音和目标干扰语音。所谓目标混合语音可以是在纯净语音中混合有噪声和/或回声后的语音。该目标混合语音即为需要执行语音增强处理(即需要去除其中的噪声和/或回声)的语音。
示例性的,目标混合语音的语音信号为:
y(t)=s(t)+n(t)+e(t);
其中,y(t)为目标混合语音;s(t)为纯净语音;n(t)为噪声;e(t)为回声。
可选的,在用于对部署有多路定向麦克风的音频通讯设备进行语音增强的情况下,由于多路定向麦克风都会进行语音的采集,此时本实施例可以对各路定向麦克风采集的语音进行能量强弱分析,将能量最强的一路定向麦克风采集的语音作为需要进行语音增强的目标混合语音。
目标干扰语音可以是指混入目标混合语音中的噪声和/或回声所关联的信号。具体的,可以是导致回声产生的远端语音;和/或噪声声源关联的标准噪声信号等。例如,在有敲击声的语音通信场景中,语音通讯设备的麦克风采集的目标混合语音中包括:本地用户的输入语音(即纯净语音)、环境中的敲击声(即噪声),以及与本地用户进行通话的远端用户的输出语音在环境中的回声。相应的,此时的目标干扰语音可以是为该场景的敲击物所设置的标准噪声语音,和/或远端用户的输出语音。
需要说明的是,本实例的目的是从目标混合语音中滤除其中包含的噪声和/或回声,得到无干扰的纯净语音。即通过语音增强处理将上述语音信号y(t)中尽可能的恢复出纯净语音s(t)。
可选的,本实施例的目标语音信号为时域信号,时域信号是以时间轴为坐标表示动态信号,为了减少信号增强过程的计算负担,本实施例可以基于子带分解技术,分别对每路目标语音进行处理,以将每路目标语音从时域转换成特征域(如频域)信号(即特征域下的虚数信号),再计算该特征域信号在该特征域的不同点下的幅度值和相位值,从而得到该特征域信号在特征域下的幅度谱和相位谱。即每路目标语音的幅度谱和相位谱。
具体的,本实施例可以是调用子带分解算法依次处理每路目标语音,从而得到该目标语音的幅度谱和相位谱。还可以通过预先训练的子带分解模型或其他方式实现,对此不进行限定
S102,根据至少两路目标语音的幅度谱,确定目标混合语音在特征域内存在目标纯净语音的预测概率。
其中,目标纯净语音可以是将目标混合语音中混入的噪声和/或回声去除后得到的语音。例如,在有敲击声的语音通信场景中,语音通讯设备的麦克风采集的本地用户的输入语音即为目标纯净语音。所谓目标混合语音在特征域内存在目标纯净语音的预测概率为目标混合语音在特征域内每个点下存在目标纯净语音的概率。例如,若特征域为频域时,特征域内的每个点即为频域下的每个频点。
一种可实施方式,本实施例可以基于预设的语音信号处理算法,分别对目标混后语音的幅度谱和目标干扰语音的幅度谱进行特征分析,结合目标干扰语音和目标混合语音在特征域内每个点下的幅度谱特征间的相关性,从而解析出目标混合语音在特征域内每个点下存在目标纯净语音的概率(即预测概率)。例如,若目标干扰语音和目标混合语音在某一点下的幅度谱特征间的相关性较大,则说明该点下存在目标纯净语音的预测概率较小,否则说明该点下存在目标纯净语音的预测概率较大。
另一种可实施方式,本实施例还可以预先训练能够执行目标混合语音在特征域内存在目标纯净语音的预测任务的神经网络模型,此时可以将至少两路目标语音的幅度谱都输入到该神经网络模型中,该网络模型会基于输入的各路目标语音的幅度谱,预测目标混合语音在特征域内每个点下存在目标纯净语音的概率,并输出预测概率。
需要说明的是,本实施例还可以采用其他方式根据至少两路目标语音的幅度谱,确定目标混合语音在特征域内存在目标纯净语音的预测概率,对此不进行限定。
S103,根据预测概率、至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到目标混合语音中的目标纯净语音。
其中,子带合成处理可以是子带分解处理的逆处理过程,即根据语音信号的幅度谱和相位谱合成对应的特征域信号,并转换到时域得到时域语音信号的过程。
可选的,由于噪声和回声在混合语音中,对纯净语音在特征域内每个点下的相位值干扰较小,主要影响的是纯净语音在特征域内每个点下的幅度值,所以本实施例可以基于目标混合语音在特征域内每个点下存在目标纯净语音的预测概率,对至少两路目标语音中的目标混合语音的幅度谱进行调整,即对目标混合语音在特征域内每个点下的幅度值,去除噪声和/或回声对应的幅度值部分,得到目标纯净语音的幅度谱,再结合目标混合语音的相位谱,调用子带合成算法,即可恢复出目标混合语音中的目标纯净语音。
可选的,本实施例基于预测概率、至少两路目标语音中的目标混合语音的幅度谱和相位谱,子带合成目标纯净语音的过程也可以通过预先训练的子带合成模型或其他方式实现,对此不进行限定。
本公开实施例的方案,分别对目标混合语音及其关联的目标干扰语音进行子带分解来确定两路语音的幅度谱和相位谱,并基于这两路语音的幅度谱来预测目标混合语音在特征域内每个点下存在目标纯净语音的预测概率,再结合目标混合语音的幅度谱和相位谱,通过子带合成处理,从目标混合语音中提取出目标纯净语音。本方案,采用子带分解和子带合成技术替代现有的傅里叶变换来执行语音频谱分解以及频谱合成语音的操作,使用更长的分析窗,使得各子带之间的相关性更小,从而提高了后续滤除噪声和/或回声的任务有更快的收敛效率,能够最大程度的抵消到目标混合语音中的噪声和/或回声,得到高质量的目标纯净语音。另外,本实施例在语音增强过程中,使用到与目标混合语音中的噪声和/或回声关联的目标干扰语音,进一步提高了目标纯净语音的质量。
可选的,在本实施例中,通过子带分解技术,得到每路目标语音的幅度谱后,还可以基于对数处理和/或归一化处理,更新至少两路目标语音的幅度谱。具体的,可以是对子带分解技术得到的每路目标语音的幅度谱,执行求对数(即log)处理,和/或归一化处理,以压缩幅度谱的动态范围,进而促进了后续滤除噪声和/或回声的任务有更快的收敛效率。
图2是根据本公开实施例提供的一种语音增强方法的流程图。本公开实施例在上述实施例的基础上,进一步对如何对至少两路目标语音进行子带分解处理,得到至少两路目标语音的幅度谱和相位谱进行详细解释说明,如图2所示,本实施例提供的语音增强方法可以包括:
S201,对至少两路目标语音进行子带分解处理,得到至少两路目标语音的虚数信号;其中,至少两路目标语音包括:目标混合语音和目标干扰语音。
其中,虚数信号是在特征域(如频域)下通过虚数方式所表征的语音信号。该虚数信号可以包括实部和虚部两部分。
可选的,本实施例基于子带分解技术,对每路目标语音进行处理的过程可以是先设计一个低通滤波器,并进行复调制得到各个子带滤波器;再针对每路目标语音,将其语音信号分别与各个子带滤波器进行卷积滤波,得到调制后该目标语音的各个子带信号;进而将各个子带信号进行抽取(即下采样),生成每路目标语音信号的虚数信号。
S202,根据至少两路目标语音的虚数信号,确定至少两路目标语音的幅度谱和相位谱。
需要说明的是,对于语音信号,将特征域内每个点的幅度值(|Fn|或Cn)随角频率(ω)的变化作为语音信号的幅度谱;将特征域内每个点的相位值随角频率(ω)的变化作为语音信号的相位谱。语音信号的幅度谱和相位谱统称为频率谱。可选的,本实施例可以基于傅里叶变换对每路目标语音信号的虚数信号进行计算,以求解出该虚数信号在特征域内每个点下的幅度值(|Fn|或Cn)和相位值/>从而得到每路目标语音的幅度谱和相位谱。
S203,根据至少两路目标语音的幅度谱,确定目标混合语音在特征域内存在目标纯净语音的预测概率。
S204,根据预测概率、至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到目标混合语音中的目标纯净语音。
本公开实施例的方案,分别对目标混合语音及其关联的目标干扰语音进行子带分解,得到两路语音的虚数信号,进而基于虚数信号提取两路语音的幅度谱和相位谱,并基于这两路语音的幅度谱来预测目标混合语音在特征域内每个点下存在目标纯净语音的预测概率,再结合目标混合语音的幅度谱和相位谱,通过子带合成处理,从目标混合语音中提取出目标纯净语音。本方案给出了一种基于子带分解技术确定目标语音的幅度谱和相位谱的具体实现方式。为后续基于该幅度谱和相位谱进行语音增强处理提供了技术支撑。
图3是根据本公开实施例提供的语音增强模型的结构示意图,如图3所示,该语音增强模型30包括:卷积神经网络301、时间卷积网络302、全连接网络303和激活网络304。
其中,语音增强模型30是用于执行语音增强任务的神经网络模型,例如,可以是噪声抑制非线性处理(noise supression–nonlinear processing,ns-nlp)模型。具体的,卷积神经网络(Convolutional Neural Networks,CNN)301和时间卷积网络(TemporalConvolutional Network,TCN)302主要用于提取纯净语音、噪声和回声的幅度谱间的相关性特征。其中,卷积神经网络301用于提取初步的相关性特征,时间卷积网络302用于进一步结合时间特征,从初步的相关性特征中抽象出最终的相关性特征。全连接网络(FullConnect Layer,FC)303和激活网络(Sigmoid)304主要用于基于纯净语音、噪声和回声的幅度谱间的相关性特征,预测目标混合语音在特征域内每个点下存在目标纯净语音的预测概率。其中,全连接网络303用于初步预测概率,激活网络304用于对初步预测概率进行归一化处理,得到最终的预测概率。
可选的,本实施例的语音增强模型30是基于训练样本通过有监督训练得到,其中,该训练样本包括:基于麦克风指向性生成的样本纯净语音、样本干扰语音,以及对样本纯净语音混入不同类型噪声和/或回声的样本混合语音。
具体的,可以是基于定向麦克风所具备的麦克风指向性,拟合来自不同方向的语音,作为样本纯净语音。拟合不同类型的样本干扰语音。需要说明的是,由于回声通常是基于人声反射导致的,所以本实施例中,与回声相关的样本干扰语音可以是通过不同通讯设备采集的真人语音。在得到样本纯净语音和样本干扰语音后,可以基于不同类型的样本干扰语音,为各个样本纯净语音混入不同类型的噪声和/或回声,得到样本混合语音。在模型训练阶段,可以先基于子带分解技术,确定训练样本中的样本混合语音、样本干扰语音和样本纯净语音的幅度谱,进而将训练样本中的样本混合语音和样本干扰语音的幅度谱作为语音增强模型30的输入,将对应的样本纯净语音的幅度谱作为模型的监督数据,来对语音增强模型30进行有监督训练。本实施例在对语音增强模型30训练的过程中,引入了包含不同类型的噪声和/或回声的样本混合语音,使得训练后的语音增强模型30同时具备滤除噪声和回声两种干扰语音的效果,且样本纯净语音拟合的过程中,考虑了麦克风的选择技术,即定向麦克风的备麦克风指向性,使得训练后的语音增强模型30能够更好的工作在多路指向性麦克风的语音通讯设备上,有效降低通信过程中的噪声残留和/或回声残留,并缓解传统的基于滤波器进行语音增强的方式所带来的语音抑制问题。另外,通过有监督的方式训练提高了语音增强模型30的准确性。
图4是根据本公开实施例提供的一种语音增强方法的流程图。本公开实施例在上述实施例的基础上,进一步对如何根据至少两路目标语音的幅度谱,确定目标混合语音在特征域内存在目标纯净语音的预测概率进行详细解释说明,如图3和图4所示,本实施例提供的语音增强方法可以包括:
S401,对至少两路目标语音进行子带分解处理,得到至少两路目标语音的幅度谱和相位谱;其中,至少两路目标语音包括:目标混合语音和目标干扰语音。
S402,将至少两路目标语音的幅度谱输入到语音增强模型中,得到目标混合语音在特征域内存在目标纯净语音的预测概率。
具体的,本实施例可以是将各路目标语音的幅度谱同时输入到图3所示的语音增强模型30的卷积神经网络301中,该卷积神经网络301会对输入的各路目标语音信号的幅度谱进行相关性解析,得到纯净语音、噪声和回声的幅度谱间初步的相关性特征,并将该初步的相关性特征输入时间卷积网络302,该时间卷积网络302会进一步结合时间特征,从初步的相关性特征中抽象出纯净语音、噪声和回声的幅度谱间最终的相关性特征,并将该最终的相关性特征输入全连接网络303,该全连接网络303会基于该最终的相关性特征初步预测出目标混合语音在特征域内每个点下存在目标纯净语音的初步概率值,并将该初步概率值输入激活网络304,该激活网络304会对初步概率值进行归一化处理,即将目标混合语音在特征域内每个点下存在目标纯净语音的概率归一化到0-1之间,得到语音增强模型30最终输出的预测概率。
S403,根据预测概率、至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到目标混合语音中的目标纯净语音。
本公开实施例的方案,分别对目标混合语音及其关联的目标干扰语音进行子带分解来确定两路语音的幅度谱和相位谱,并基于包含卷积神经网络、时间卷积网络、全连接网络和激活层网络的语音增强模型对两路语音的幅度谱解析,预测目标混合语音在特征域内每个点下存在目标纯净语音的预测概率,进而结合目标混合语音的幅度谱和相位谱,通过子带合成处理,从目标混合语音中提取出目标纯净语音。本方案引入语音增强模型来代替传统的信号滤波器进行噪声和/或回声的抑制,有效精简了系统模块,也避免了双极处理可能带来的其他潜在问题。另外,本方案的语音增强模型是基于时间卷积网络来进一步抽象纯净语音、噪声和回声的幅度谱间的相关性特征,相比于常规的特征提取网络,如长短期记忆网络(Long Short-Term Memory,LSTM)和门控循环单元网络(Gate Recurrent Unit,GRU),提取的相关性特征更精准,且计算量更小、模型参数更少,在保证语音增强模型输出的预测概率的精准性的同时,降低了语音增强模型的运算量和参数量。
图5A是根据本公开实施例提供的一种语音增强方法的流程图;图5B是根据本公开实施例提供的一种语音增强方法的原理示意图。本公开实施例在上述实施例的基础上,进一步对如何根据预测概率、至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到目标混合语音中的目标纯净语音进行详细解释说明,如图5A-5B所示,本实施例提供的语音增强方法可以包括:
S501,对至少两路目标语音进行子带分解处理,得到至少两路目标语音的幅度谱和相位谱;其中,至少两路目标语音包括:目标混合语音和目标干扰语音。
S502,根据至少两路目标语音的幅度谱,确定目标混合语音在特征域内存在目标纯净语音的预测概率。
示例性的,如图5B所示,本实施例可以是将至少两路目标语音的幅度谱输入到包含卷积神经网络、时间卷积网络、全连接网络和激活网络的语音增强模型中,得到目标混合语音在特征域内存在目标纯净语音的预测概率。
S503,根据预测概率和目标混合语音的幅度谱,确定目标纯净语音的幅度谱。
示例性的,如图5B所示,本实施例可以将语音增强模型输出的预测概率作为目标语音中的目标混合语音的幅度谱的权重,来计算到目标纯净语音的幅度谱。例如,可以是将预测概率与目标语音中的目标混合语音的幅度谱进行相乘,得到目标纯净语音的幅度谱。
S504,对目标纯净语音的幅度谱和目标混合语音的相位谱进行子带合成处理,得到目标纯净语音。
示例性的,如图5B所示,本实施例可以基于子带合成技术,对目标纯净语音的幅度谱和目标混合语音的相位谱进行语音合成处理,得到目标纯净语音。
本公开实施例的方案,分别对目标混合语音及其关联的目标干扰语音进行子带分解来确定两路语音的幅度谱和相位谱,并基于这两路语音的幅度谱来预测目标混合语音在特征域内每个点下存在目标纯净语音的预测概率,根据预测概率和目标混合语音的幅度谱,计算目标纯净语音的幅度谱,进而在结合目标混合语音的相位谱,通过子带合成技术,得到目标纯净语音。本方案给出了一种基于子带合成技术,根据预测概率和目标混合语音的幅度谱和相位谱,确定目标纯净语音的具体实现方式。为本实施例的语音增强处理提供了技术支撑。
可选的,本公开实施例在上述实施例的基础上,还可以在至少两路目标语音中增加初步对目标混合语音进行回声和/或噪声消除后的预处理语音。
其中,初步对目标混合语音进行回声和/或噪声消除的方式可以包括但不限于:基于噪音消除(Noise Supression,NS)技术,如采用维纳滤波器(Wiener filter)对目标混合语音进行平稳噪声的去除;和/或,基于线性声学回波消除(Acoustic Echo Cancellation,AEC)技术,如基于自适应理论的归一化最小均方误差滤波器(Normalized Least MeanSquares Filter,NLMSF),对目标混合语音进行线性回声消除等。
需要说明的是,基于噪音消除技术处理后的预处理语音中只去除了目标混合语音中的平稳噪声,但其中给还包括非平稳的短时噪声(例如,敲击声)。基于线性声学回波消除技术处理后的预处理语音中只去除了目标混合语音中的线性回声,但其中还包括非线性回声。
图6A是根据本公开实施例提供的一种语音增强方法的流程图;图6B是本公开实施例提供的另一种语音增强方法的原理示意图;图6C是包含敲击噪声的目标混合语音的波形图;图6D是对包含敲击噪声的目标混合语音进行语音增强后的目标纯净语音的波形图;图6E是包含回声的目标混合语音的波形图;图6F是对包含回声的目标混合语音进行语音增强后的目标纯净语音的波形图。本实施例在至少两路目标语音包括目标混合语音、目标干扰语音和预处理语音时,进一步对如何根据预测概率、至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到目标混合语音中的目标纯净语音进行详细解释说明,如图6A-6F所示,本实施例提供的语音增强方法可以包括:
S601,对至少三路目标语音进行子带分解处理,得到至少三路目标语音的幅度谱和相位谱;其中,至少三路目标语音包括:目标混合语音、目标干扰语音和初步对目标混合语音进行回声和/或噪声消除后的预处理语音。
示例性的,如图6B所示,分别对目标混合语音、目标干扰语音和预处理语音进行子带分解,得到这三路语音的幅度谱和相位谱。
S602,根据至少三路目标语音的幅度谱,确定目标混合语音在特征域内存在目标纯净语音的预测概率。
示例性的,如图6B所示,本实施例可以是将目标混合语音、目标干扰语音和预处理语音的幅度谱都输入到包含卷积神经网络、时间卷积网络、全连接网络和激活网络的语音增强模型中,得到目标混合语音在特征域内存在目标纯净语音的预测概率。
S603,根据预测概率、预处理语音的幅度谱和相位谱,进行子带合成处理,得到目标混合语音中的目标纯净语音。
可选的,根据预测概率和预处理语音的幅度谱,确定目标纯净语音的幅度谱;对目标纯净语音的幅度谱和预处理语音的相位谱进行子带合成处理,得到目标纯净语音。
示例性的,如图6B所示,本实施例可以将语音增强模型输出的预测概率与目标语音中的预处理语音的幅度谱进行相乘,得到目标纯净语音的幅度谱。进而基于子带合成技术,对目标纯净语音的幅度谱和预处理语音的相位谱进行语音合成处理,得到目标纯净语音。
通过图6C和6D比较可以看出,采用本实施例的语音增强方式,能够很好的抑制目标混合语音中的敲击噪声,即非平稳的短时噪声,解决了传统的维纳滤波器无法抑制非平稳的短时噪声的问题。通过图6E和6F比较可以看出,采用本实施例的语音增强方式,能够很好的抑制目标混合语音中的残留回声,即非线性回声,解决了传统的归一化最小均方误差滤波器无法抑制非平稳的短时噪声的问题。
本公开实施例的方案,分别对目标混合语音以及目标混合语音的目标干扰语音和预处理语音进行子带分解来确定三路语音的幅度谱和相位谱,并基于这三路语音的幅度谱来预测目标混合语音在特征域内每个点下存在目标纯净语音的预测概率,根据预测概率和预处理语音的幅度谱和相位谱,采用子带合成技术,得到目标纯净语音。本方案在对混合语音进行语音增强的过程中,不但引入混合语音关联的干扰语音,还引入了混合语音的预处理语音,使得解析进行噪声和/或回声滤除的过程中,只需关注非平稳的短时噪声和/或非线性回声,降低了语音增强过程的复杂度,便于将回声和噪声去除任务统到一个系统中。
图7是根据本公开实施例提供的一种语音增强装置的结构示意图。本公开实施例适用于对混有噪声和/或回声的语音进行语音增强的情况。该装置可以采用软件和/或硬件来实现,该装置可以实现本公开任意实施例的语音增强方法。如图7所示,该语音增强装置700包括:
子带分解模块701,用于对至少两路目标语音进行子带分解处理,得到所述至少两路目标语音的幅度谱和相位谱;其中,所述至少两路目标语音包括:目标混合语音和目标干扰语音;
概率预测模块702,用于根据所述至少两路目标语音的幅度谱,确定所述目标混合语音在特征域内存在目标纯净语音的预测概率;
子带合成模块703,用于根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到所述目标混合语音中的目标纯净语音。
本公开实施例的方案,分别对目标混合语音及其关联的目标干扰语音进行子带分解来确定两路语音的幅度谱和相位谱,并基于这两路语音的幅度谱来预测目标混合语音在特征域内每个点下存在目标纯净语音的预测概率,再结合目标混合语音的幅度谱和相位谱,通过子带合成处理,从目标混合语音中提取出目标纯净语音。本方案,采用子带分解和子带合成技术替代现有的傅里叶变换来执行语音频谱分解以及频谱合成语音的操作,使用更长的分析窗,使得各子带之间的相关性更小,从而提高了后续滤除噪声和/或回声的任务有更快的收敛效率,能够最大程度的抵消到目标混合语音中的噪声和/或回声,得到高质量的目标纯净语音。另外,本实施例在语音增强过程中,使用到与目标混合语音中的噪声和/或回声关联的目标干扰语音,进一步提高了目标纯净语音的质量。
进一步的,上述子带分解模块701,包括:
子带分解单元,用于对至少两路目标语音进行子带分解处理,得到所述至少两路目标语音的虚数信号;
频谱确定单元,用于根据所述至少两路目标语音的虚数信号,确定所述至少两路目标语音的幅度谱和相位谱。
进一步的,上述装置,还包括:
幅度谱更新模块,用于基于对数处理和/或归一化处理,更新所述至少两路目标语音的幅度谱。
进一步的,上述概率预测模块702,具体用于:
将所述至少两路目标语音的幅度谱输入到语音增强模型中,得到所述目标混合语音在特征域内存在目标纯净语音的预测概率;其中,所述语音增强模型包括:卷积神经网络、时间卷积网络、全连接网络和激活网络。
进一步的,上述语音增强模型是基于训练样本通过有监督训练得到,所述训练样本包括:基于麦克风指向性生成的样本纯净语音、样本干扰语音,以及对所述样本纯净语音混入不同类型噪声和/或回声的样本混合语音。
进一步的,上述子带合成模块703,具体用于:
根据所述预测概率和所述目标混合语音的幅度谱,确定目标纯净语音的幅度谱;
对所述目标纯净语音的幅度谱和所述目标混合语音的相位谱进行子带合成处理,得到目标纯净语音。
进一步的,上述至少两路目标语音还包括:初步对所述目标混合语音进行回声和/或噪声消除后的预处理语音;
上述子带合成模块703,具体用于:
根据所述预测概率、所述预处理语音的幅度谱和相位谱,进行子带合成处理,得到所述目标混合语音中的目标纯净语音。
上述产品可执行本公开任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的任一语音,如混合语音、干扰语音和纯净语音等的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如语音增强方法。例如,在一些实施例中,语音增强方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的语音增强方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音增强方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (14)
1.一种语音增强方法,包括:
对至少两路目标语音进行子带分解处理,得到所述至少两路目标语音的幅度谱和相位谱;其中,所述至少两路目标语音包括:目标混合语音和目标干扰语音;
根据所述至少两路目标语音的幅度谱,确定所述目标混合语音在特征域内存在目标纯净语音的预测概率;
根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到所述目标混合语音中的目标纯净语音;
其中,所述根据所述至少两路目标语音的幅度谱,确定所述目标混合语音在特征域内存在目标纯净语音的预测概率,包括:
将所述至少两路目标语音的幅度谱输入到语音增强模型中,得到所述目标混合语音在特征域内存在目标纯净语音的预测概率;其中,所述语音增强模型包括:卷积神经网络、时间卷积网络、全连接网络和激活网络;其中,所述卷积神经网络用于对输入的各路目标语音信号的幅度谱进行相关性解析,得到纯净语音、噪声和回声的幅度谱间初步的相关性特征,并将所述初步的相关性特征输入时间卷积网络,所述时间卷积网络用于结合时间特征,从初步的相关性特征中抽象出纯净语音、噪声和回声的幅度谱间最终的相关性特征,并将所述最终的相关性特征输入全连接网络。
2.根据权利要求1所述的方法,其中,所述对至少两路目标语音进行子带分解处理,得到所述至少两路目标语音的幅度谱和相位谱,包括:
对至少两路目标语音进行子带分解处理,得到所述至少两路目标语音的虚数信号;
根据所述至少两路目标语音的虚数信号,确定所述至少两路目标语音的幅度谱和相位谱。
3.根据权利要求1或2所述的方法,还包括:
基于对数处理和/或归一化处理,更新所述至少两路目标语音的幅度谱。
4.根据权利要求1所述的方法,其中,所述语音增强模型是基于训练样本通过有监督训练得到,所述训练样本包括:基于麦克风指向性生成的样本纯净语音、样本干扰语音,以及对所述样本纯净语音混入不同类型噪声和/或回声的样本混合语音。
5.根据权利要求1所述的方法,其中,所述根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到所述目标混合语音中的目标纯净语音,包括:
根据所述预测概率和所述目标混合语音的幅度谱,确定目标纯净语音的幅度谱;
对所述目标纯净语音的幅度谱和所述目标混合语音的相位谱进行子带合成处理,得到目标纯净语音。
6.根据权利要求1所述的方法,其中,所述至少两路目标语音还包括:初步对所述目标混合语音进行回声和/或噪声消除后的预处理语音;
根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到所述目标混合语音中的目标纯净语音,包括:
根据所述预测概率、所述预处理语音的幅度谱和相位谱,进行子带合成处理,得到所述目标混合语音中的目标纯净语音。
7.一种语音增强装置,包括:
子带分解模块,用于对至少两路目标语音进行子带分解处理,得到所述至少两路目标语音的幅度谱和相位谱;其中,所述至少两路目标语音包括:目标混合语音和目标干扰语音;
概率预测模块,用于根据所述至少两路目标语音的幅度谱,确定所述目标混合语音在特征域内存在目标纯净语音的预测概率;
子带合成模块,用于根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到所述目标混合语音中的目标纯净语音;
其中,所述概率预测模块,具体用于:
将所述至少两路目标语音的幅度谱输入到语音增强模型中,得到所述目标混合语音在特征域内存在目标纯净语音的预测概率;其中,所述语音增强模型包括:卷积神经网络、时间卷积网络、全连接网络和激活网络;其中,所述卷积神经网络用于对输入的各路目标语音信号的幅度谱进行相关性解析,得到纯净语音、噪声和回声的幅度谱间初步的相关性特征,并将所述初步的相关性特征输入时间卷积网络,所述时间卷积网络用于结合时间特征,从初步的相关性特征中抽象出纯净语音、噪声和回声的幅度谱间最终的相关性特征,并将所述最终的相关性特征输入全连接网络。
8.根据权利要求7所述的装置,其中,所述子带分解模块,包括:
子带分解单元,用于对至少两路目标语音进行子带分解处理,得到所述至少两路目标语音的虚数信号;
频谱确定单元,用于根据所述至少两路目标语音的虚数信号,确定所述至少两路目标语音的幅度谱和相位谱。
9.根据权利要求7或8所述的装置,还包括:
幅度谱更新模块,用于基于对数处理和/或归一化处理,更新所述至少两路目标语音的幅度谱。
10.根据权利要求7所述的装置,其中,所述语音增强模型是基于训练样本通过有监督训练得到,所述训练样本包括:基于麦克风指向性生成的样本纯净语音、样本干扰语音,以及对所述样本纯净语音混入不同类型噪声和/或回声的样本混合语音。
11.根据权利要求7所述的装置,其中,所述子带合成模块,具体用于:
根据所述预测概率和所述目标混合语音的幅度谱,确定目标纯净语音的幅度谱;
对所述目标纯净语音的幅度谱和所述目标混合语音的相位谱进行子带合成处理,得到目标纯净语音。
12.根据权利要求7所述的装置,其中,所述至少两路目标语音还包括:初步对所述目标混合语音进行回声和/或噪声消除后的预处理语音;
所述子带合成模块,具体用于:
根据所述预测概率、所述预处理语音的幅度谱和相位谱,进行子带合成处理,得到所述目标混合语音中的目标纯净语音。
13. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的语音增强方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的语音增强方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111521637.1A CN114242098B (zh) | 2021-12-13 | 2021-12-13 | 一种语音增强方法、装置、设备以及存储介质 |
US17/890,638 US20230186930A1 (en) | 2021-12-13 | 2022-08-18 | Speech enhancement method and apparatus, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111521637.1A CN114242098B (zh) | 2021-12-13 | 2021-12-13 | 一种语音增强方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114242098A CN114242098A (zh) | 2022-03-25 |
CN114242098B true CN114242098B (zh) | 2023-08-29 |
Family
ID=80755405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111521637.1A Active CN114242098B (zh) | 2021-12-13 | 2021-12-13 | 一种语音增强方法、装置、设备以及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230186930A1 (zh) |
CN (1) | CN114242098B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115116471B (zh) * | 2022-04-28 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 音频信号处理方法和装置、训练方法、设备及介质 |
CN115113855B (zh) * | 2022-05-31 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、电子设备、存储介质和产品 |
CN114999508B (zh) | 2022-07-29 | 2022-11-08 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
CN118380007B (zh) * | 2024-06-20 | 2024-09-10 | 深圳爱图仕创新科技股份有限公司 | 语音增强方法、模型训练方法、装置及相关设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014168022A1 (ja) * | 2013-04-11 | 2014-10-16 | 日本電気株式会社 | 信号処理装置、信号処理方法および信号処理プログラム |
CN106971740A (zh) * | 2017-03-28 | 2017-07-21 | 吉林大学 | 基于语音存在概率和相位估计的语音增强方法 |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
KR20190037867A (ko) * | 2017-09-29 | 2019-04-08 | 주식회사 케이티 | 잡음이 섞인 음성 데이터로부터 잡음을 제거하는 장치, 방법 및 컴퓨터 프로그램 |
CN111968658A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 语音信号的增强方法、装置、电子设备和存储介质 |
CN112233657A (zh) * | 2020-10-14 | 2021-01-15 | 河海大学 | 一种基于低频音节识别的语音增强方法 |
CN112466318A (zh) * | 2020-10-27 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音处理方法、装置及语音处理模型的生成方法、装置 |
CN112542176A (zh) * | 2020-11-04 | 2021-03-23 | 北京百度网讯科技有限公司 | 信号增强方法、装置及存储介质 |
CN113270106A (zh) * | 2021-05-07 | 2021-08-17 | 深圳市友杰智新科技有限公司 | 双麦克风的风噪声抑制方法、装置、设备及存储介质 |
-
2021
- 2021-12-13 CN CN202111521637.1A patent/CN114242098B/zh active Active
-
2022
- 2022-08-18 US US17/890,638 patent/US20230186930A1/en not_active Abandoned
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014168022A1 (ja) * | 2013-04-11 | 2014-10-16 | 日本電気株式会社 | 信号処理装置、信号処理方法および信号処理プログラム |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
CN106971740A (zh) * | 2017-03-28 | 2017-07-21 | 吉林大学 | 基于语音存在概率和相位估计的语音增强方法 |
KR20190037867A (ko) * | 2017-09-29 | 2019-04-08 | 주식회사 케이티 | 잡음이 섞인 음성 데이터로부터 잡음을 제거하는 장치, 방법 및 컴퓨터 프로그램 |
CN111968658A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 语音信号的增强方法、装置、电子设备和存储介质 |
CN112233657A (zh) * | 2020-10-14 | 2021-01-15 | 河海大学 | 一种基于低频音节识别的语音增强方法 |
CN112466318A (zh) * | 2020-10-27 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音处理方法、装置及语音处理模型的生成方法、装置 |
CN112542176A (zh) * | 2020-11-04 | 2021-03-23 | 北京百度网讯科技有限公司 | 信号增强方法、装置及存储介质 |
CN113270106A (zh) * | 2021-05-07 | 2021-08-17 | 深圳市友杰智新科技有限公司 | 双麦克风的风噪声抑制方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20230186930A1 (en) | 2023-06-15 |
CN114242098A (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114242098B (zh) | 一种语音增强方法、装置、设备以及存储介质 | |
CN111968658B (zh) | 语音信号的增强方法、装置、电子设备和存储介质 | |
WO2019113130A1 (en) | Voice activity detection systems and methods | |
CN109643554A (zh) | 自适应语音增强方法和电子设备 | |
JP6374120B2 (ja) | 発話の復元のためのシステムおよび方法 | |
CN113077806B (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
CN112491449B (zh) | 声回波消除方法、装置、电子设备和存储介质 | |
CN113345460B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
WO2022218254A1 (zh) | 语音信号增强方法、装置及电子设备 | |
CN110875049A (zh) | 语音信号的处理方法及装置 | |
CN111261148A (zh) | 语音模型的训练方法、语音增强处理方法及相关设备 | |
CN115223583A (zh) | 一种语音增强方法、装置、设备及介质 | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
CN112466328B (zh) | 呼吸音检测方法、装置和电子设备 | |
Fu et al. | Improved Wavelet Thresholding Function and Adaptive Thresholding for Noise Reduction | |
CN113160846A (zh) | 噪声抑制方法和电子设备 | |
CN110085264B (zh) | 语音信号检测方法、装置、设备及存储介质 | |
CN112969130A (zh) | 音频信号处理方法、装置和电子设备 | |
CN115662461A (zh) | 降噪模型训练方法、装置以及设备 | |
CN112634930B (zh) | 多通道声音增强方法、装置及电子设备 | |
Li et al. | Dynamic attention based generative adversarial network with phase post-processing for speech enhancement | |
CN114299977B (zh) | 混响语音的处理方法、装置、电子设备及存储介质 | |
CN117334198B (zh) | 语音信号处理方法、装置、电子设备和计算机可读介质 | |
CN116758930A (zh) | 语音增强方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |