CN116246645A - 语音处理方法、装置、存储介质及电子设备 - Google Patents
语音处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116246645A CN116246645A CN202211474175.7A CN202211474175A CN116246645A CN 116246645 A CN116246645 A CN 116246645A CN 202211474175 A CN202211474175 A CN 202211474175A CN 116246645 A CN116246645 A CN 116246645A
- Authority
- CN
- China
- Prior art keywords
- voice
- reverberation
- signal
- dereverberation
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 18
- 238000001228 spectrum Methods 0.000 claims abstract description 209
- 238000007781 pre-processing Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims description 32
- 238000005259 measurement Methods 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 25
- 238000009432 framing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000003379 elimination reaction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本申请提供一种语音处理方法、装置、存储介质及电子设备,当检测到混响语音信号时,对混响语音信号进行预处理以得到混响语音幅度谱和混响语音相位谱,然后根据混响语音幅度谱确定混响语音特征,并将混响语音特征输入目标去混响网络以得到混响语音幅度谱的去混响比值,再基于去混响比值和混响语音幅度谱确定去混响语音幅度谱,最后根据去混响语音幅度谱和混响语音相位谱得到混响语音信号中的纯净语音信号。将混响语音信号的混响语音幅度谱的混响语音特征输入目标去混响网络得到去混响比值,并根据去混响比值和混响语音相位谱即可消除混响语音信号中的混响以得到纯净语音信号,由于该混响消除过程中无需测量混响时间,故提高了混响消除效率。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音处理方法、装置、存储介质及电子设备。
背景技术
声音混响是日常生活中较为普遍的一种现象,适量的早期混响可以使声音饱满,但混响时间过长会产生严重的负面影响,且通常会在一定程度上对语音的清晰度造成不良影响,例如,在密闭空间内,当说话人与麦克风距离较远时,麦克风采集到的语音通常含有较多的混响成分,从而影响到说话人发出的语音的清晰度,因此,对具有混响的语音信号进行混响消除具有重要的意义。
当前通常采用谱减法以消除语音信号中的混响,然而,由于谱减法是依赖于语音信号中混响衰减指数的衰减因子进行计算以实现混响的消除,且衰减因子的数值与语音信号的各频段的混响时间密切相关,而不同频段的混响时间各不相同,使得衰减因子在不同频段中的数值也各不相同,因而在消除混响之前,需要预先进行繁琐复杂的混响时间测量过程,导致混响消除效率较低。
发明内容
本申请提供一种语音处理方法、装置、存储介质及电子设备,用于缓解当前混响消除效率低的技术问题。
为了解决上述技术问题,本申请提供以下技术方案:
本申请提供一种语音处理方法,包括:
当检测到混响语音信号时,对所述混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱;
根据所述混响语音幅度谱确定混响语音特征,并将所述混响语音特征输入目标去混响网络,得到所述混响语音幅度谱的去混响比值;
基于所述去混响比值和所述混响语音幅度谱,确定去混响语音幅度谱;
根据所述去混响语音幅度谱和所述混响语音相位谱,得到所述混响语音信号中已滤除混响信号的纯净语音信号。
其中,在所述当检测到混响语音信号时,对所述混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱的步骤之前,还包括:
采集待处理混响时间测量信号和待处理纯净语音信号;其中,所述待处理混响时间测量信号包括具有多个频段的扫频信号;
根据所述待处理混响时间测量信号和所述待处理纯净语音信号,确定参考混响语音特征和参考去混响比值;
基于所述参考混响语音特征和所述参考去混响比值,对初始去混响网络进行训练,得到所述目标去混响网络。
其中,所述根据所述待处理混响时间测量信号和所述待处理纯净语音信号,确定参考混响语音特征和参考去混响比值的步骤,包括:
将所述待处理混响时间测量信号和所述待处理纯净语音信号输入混响仿真器,以通过所述混响仿真器在所述待处理混响时间测量信号和所述待处理纯净语音信号中加入仿真混响信号,得到仿真混响时间测量信号和仿真混响语音信号;
对所述仿真混响时间测量信号进行脉冲响应积分处理,得到所述仿真混响时间测量信号的各频段信号对应的混响时间;
根据所述混响时间和所述仿真混响语音信号,得到所述参考混响语音特征和所述参考去混响比值。
其中,所述根据所述混响时间和所述仿真混响语音信号,得到所述参考混响语音特征和所述参考去混响比值的步骤,包括:
对所述仿真混响语音信号进行预处理,得到仿真混响语音幅度谱;
计算所述仿真混响语音幅度谱的仿真混响语音对数能量谱,并将所述仿真混响语音对数能量谱作为所述参考混响语音特征;
根据所述混响时间对所述仿真混响语音幅度谱进行分频谱减处理,得到去混响后的目标语音幅度谱;
将所述目标语音幅度谱与所述仿真混响语音幅度谱的比值作为所述参考去混响比值。
其中,所述当检测到混响语音信号时,对所述混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱的步骤,包括:
当检测到混响语音信号时,对所述混响语音信号进行分帧处理、加窗处理和快速傅里叶变换处理,得到混响语音幅度谱和混响语音相位谱。
其中,所述根据所述混响语音幅度谱确定混响语音特征,并将所述混响语音特征输入目标去混响网络,得到所述混响语音幅度谱的去混响比值的步骤,包括:
计算所述混响语音幅度谱的混响语音对数能量谱,并将所述混响语音对数能量谱作为所述混响语音特征;
将所述混响语音特征输入目标去混响网络,以通过所述目标去混响网络对所述混响语音特征进行预测处理,得到所述混响语音幅度谱的去混响比值。
其中,所述基于所述去混响比值和所述混响语音幅度谱,确定去混响语音幅度谱的步骤,包括:
将所述去混响比值和所述混响语音幅度谱相乘,得到去混响语音幅度谱。
本申请实施例还提供了一种语音处理装置,包括:
预处理模块,用于当检测到混响语音信号时,对所述混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱;
去混响比值获取模块,用于根据所述混响语音幅度谱确定混响语音特征,并将所述混响语音特征输入目标去混响网络,得到所述混响语音幅度谱的去混响比值;
确定模块,用于基于所述去混响比值和所述混响语音幅度谱,确定去混响语音幅度谱;
纯净语音信号获取模块,用于根据所述去混响语音幅度谱和所述混响语音相位谱,得到所述混响语音信号中已滤除混响信号的纯净语音信号。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有多条指令,所述指令适于由处理器加载以执行上述语音处理方法中的步骤。
本申请实施例还提供了一种电子设备,包括处理器和存储器,所述处理器与所述存储器电性连接,所述存储器用于存储指令和数据,所述处理器用于执行上述语音处理方法中的步骤。
有益效果:本申请提供一种语音处理方法、装置、存储介质及电子设备,在确定混响语音信号的混响语音幅度谱和混响语音相位谱后,将混响语音幅度谱的混响语音特征输入目标去混响网络即可得到去混响比值,并根据去混响比值和混响语音相位谱即可从混响语音信号中提取出纯净语音信号,由于在该混响消除过程中无需测量混响时间,因而有效提高混响消除效率。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其它有益效果显而易见。
图1是本申请实施例提供的语音处理方法的流程示意图。
图2是本申请实施例提供的语音处理方法的场景示意图。
图3是本申请实施例提供的语音处理装置的结构示意图。
图4是本申请实施例提供的电子设备的结构示意图。
图5是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种语音处理方法、装置、存储介质及电子设备。
如图1所示,图1是本申请实施例提供的语音处理方法的流程示意图,具体流程可以如下:
S101.当检测到混响语音信号时,对混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱。
其中,混响语音信号为掺杂有混响信号的语音信号,混响语音幅度谱表征混响语音信号的幅值随频率变化的分布情况,混响语音相位谱表征混响语音信号的相位值随频率变化的分布情况。
具体地,声波在室内传播的过程中会被墙壁、天花板、地板等障碍物反射,每反射一次都要被障碍物吸收一些,如此一来,当声源停止发声后,声波在室内会经过多次反射和吸收并消失,对于人体听感来说,声源停止发声后还有若干个声波混合持续一段时间(即室内声源停止发声后仍然存在的声延续现象),这种现象叫做混响,混响信号即为语音信号在室内被障碍物不断反射而积累的结果。
混响语音信号可以是各种可能产生混响的场景下的语音信号,例如图2所示,在室内举行远程会议的过程中,主讲人201与麦克风202之间的距离较远,主讲人201发出的语音在传播给麦克风202的过程中依次被墙壁2031、天花板2032和桌面2033反射,使得麦克风202所接收到的语音信号中混杂有混响信号,则将该语音信号作为混响语音信号。
可选地,预处理包括分帧处理、加窗处理和快速傅里叶变换处理,在实际应用过程中,可在麦克风或电子设备(例如,用于传输会议语音的笔记本电脑)中设置语音处理模块,以使麦克风或电子设备在接收到混响语音信号时,由语音处理模块检测该混响语音信号,并对其进行分帧处理、加窗处理和FFT(Fast Fourier Transform,快速傅里叶变换)处理,得到混响语音幅度谱和混响语音相位谱,以更准确地描述混响语音信号的特性。
进一步地,在步骤S101之前,还包括:
采集待处理混响时间测量信号和待处理纯净语音信号;其中,待处理混响时间测量信号包括具有多个频段的扫频信号;
根据待处理混响时间测量信号和待处理纯净语音信号,确定参考混响语音特征和参考去混响比值;
基于参考混响语音特征和参考去混响比值,对初始去混响网络进行训练,得到目标去混响网络。
其中,待处理混响时间测量信号用于测量语音信号的不同频段的混响时间,待处理纯净语音信号为不含混响信号的语音信号,初始去混响网络/目标去混响网络为机器学习网络,用于去除混杂在语音信号中的混响信号。可选地,初始去混响网络/目标去混响网络为CNN(Convolutional NeuralNetworks,卷积神经网络)、RNN(Recurrent NeuralNetworks,循环神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)或GRU(GatedRecurrent Unit,门循环单元网络)。
具体地,在本实施例中,将GRU网络作为初始去混响网络,预先采集不含有混响的待处理纯净语音信号以及具有多个频段的待处理混响时间测量信号,并将待处理混响时间测量信号和待处理纯净语音信号输入混响仿真器,以通过混响仿真器在待处理混响时间测量信号和待处理纯净语音信号中加入相同混响时间的仿真信号,得到混响时间相同的仿真混响时间测量信号(包含待处理混响时间测量信号和仿真混响信号)和仿真混响语音信号(包含待处理纯净语音信号和仿真混响信号)。
接下来,对仿真混响时间测量信号进行脉冲响应积分处理,以得到仿真混响时间测量信号的各频段信号对应的混响时间,再根据混响时间和仿真混响语音信号以得到参考混响语音特征和参考去混响比值,其中,参考混响语音特征能够分辨仿真混响语音信号中的混响成分,参考去混响比值用于去除混响信号,将该参考混响语音特征作为样本、将参考去混响比值作为目标以对GRU网络进行训练,以使训练后的GRU网络具有识别各混响语音特征对应的去混响比值的能力。
可选地,可通过控制混响仿真器调整仿真混响信号的混响时间,以得到多组仿真混响时间测量信号和仿真混响语音信号,从而得到多组参考混响语音特征和参考去混响比值,也即能够获得多个样本和目标用以训练GRU网络,从而能够提高GRU网络的去混响能力。
进一步地,在本实施例中,在获取参考混响语音特征和参考去混响比值时,首先对仿真混响语音信号进行预处理,以得到仿真混响语音幅度谱,该仿真混响语音幅度谱用于准确地描述仿真混响语音信号的特性,然后针对仿真混响语音幅度谱中的各幅度值先计算平方值再取对数以得到仿真混响语音对数能量谱,并将仿真混响语音对数能量谱作为参考混响语音特征。可选地,预处理包括分帧处理、加窗处理和FFT处理。
接下来根据混响时间对仿真混响语音幅度谱进行分频谱减处理以得到去混响后的目标语音幅度谱,并将目标语音幅度谱与仿真混响语音幅度谱的比值作为参考去混响比值。
例如,用Ratio1表示参考去混响比值,X1表示目标语音幅度谱,Y1表示仿真混响语音幅度谱,则Ratio1=X1/Y1,其中,Ratio1可以为数值序列,数值序列中的每个数值均为一个幅度比值。
S102.根据混响语音幅度谱确定混响语音特征,并将混响语音特征输入目标去混响网络,得到混响语音幅度谱的去混响比值。
其中,混响语音特征用于分辨混响语音信号中的混响成分。具体地,由于目标去混响网络具有识别各混响语音特征对应的去混响比值的能力,故将能够分辨混响语音信号中混响成分的混响语音特征输入目标去混响网络,以利用目标去混响网络识别出该混响语音特征对应的去混响比值,以便于后续根据该去混响比值以去除混响语音信号中的混响信号。
在本实施例中,首先针对混响语音幅度谱中的各幅度值先计算平方值再取对数以得到混响语音对数能量谱,将该混响语音对数能量谱作为混响语音特征,然后将混响语音特征输入目标去混响网络,以通过目标去混响网络对混响语音特征进行预测处理,得到混响语音幅度谱的去混响比值。
例如,用Ratio2表示去混响比值,将混响语音特征输入目标去混响网络,以通过目标去混响网络对混响语音特征进行预测处理,得到Ratio2。
S103.基于去混响比值和混响语音幅度谱,确定去混响语音幅度谱。
其中,去混响语音幅度谱为混响语音信号中去除混响后的语音幅度谱。
具体地,为了从混响语音信号中去除混响以保留纯净语音信号(即不掺杂混响的语音信号),需要先确定去混响语音幅度谱,以根据去混响语音幅度谱确定混响语音信号中纯净语音信号的幅值随频率变化的分布情况。
由于参考去混响比值是目标语音幅度谱与仿真混响语音幅度谱的比值,且将参考去混响比值作为训练目标对初始去混响网络进行训练,以得到目标去混响网络,因而目标去混响网络输出的去混响比值反映了去混响语音幅度谱与混响语音幅度谱之间的关系,因此,根据去混响比值、混响语音幅度谱和去混响语音幅度谱之间的关系即可得到去混响语音幅度谱。
在本实施例中,将去混响比值和混响语音幅度谱相乘,得到去混响语音幅度谱。例如,去混响比值Ratio2=X2/Y2,混响语音幅度谱为Y2,故去混响语音幅度谱=Ratio2*Y2=X2。
S104.根据去混响语音幅度谱和混响语音相位谱,得到混响语音信号中已滤除混响信号的纯净语音信号。
其中,混响语音相位谱中表征了原始语音信号的语音特征(即从声源发出后还未掺杂混响信号时的语音信号),为了提高从混响语音信号中提取出的无混响成分的语音信号与原始语音信号的还原度,需要保证所提取的语音信号既不掺杂混响,也不存在信号遗漏的现象,为此,需要将去混响语音幅度谱和混响语音相位谱进行结合,并对二者进行相应处理,以得到既不含混响信号,而且不存在信号遗漏的纯净语音信号。
在本实施例中,对去混响语音幅度谱和混响语音相位谱进行时频变换处理,以使去混响语音幅度谱和混响语音相位谱从频域转换到时域,得到混响语音信号中已滤除混响信号的纯净语音信号,由于经过了时频变换处理,使得纯净语音信号同时具有了不同时间和频率的能量密度或强度,也即较好地还原了原始语音信号。
由上述可知,本申请提供的语音处理方法,当检测到混响语音信号时,对混响语音信号进行预处理以得到混响语音幅度谱和混响语音相位谱,然后根据混响语音幅度谱确定混响语音特征,并将混响语音特征输入目标去混响网络以得到混响语音幅度谱的去混响比值,再基于去混响比值和混响语音幅度谱确定去混响语音幅度谱,最后根据去混响语音幅度谱和混响语音相位谱得到混响语音信号中已滤除混响信号的纯净语音信号。在确定混响语音信号的混响语音幅度谱和混响语音相位谱后,将混响语音幅度谱的混响语音特征输入目标去混响网络即可得到去混响比值,并根据去混响比值和混响语音相位谱即可从混响语音信号中提取出纯净语音信号,由于在该混响消除过程中无需测量混响时间,因而有效提高混响消除效率。
根据上述实施例所描述的方法,本实施例将从语音处理装置的角度进一步进行描述。
请参阅图3,图3具体描述了本申请实施例提供的语音处理装置,该语音处理装置可以包括:预处理模块10、去混响比值获取模块20、确定模块30和纯净语音信号获取模块40,其中:
(1)预处理模块10
预处理模块10,用于当检测到混响语音信号时,对混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱。
其中,预处理模块10具体用于:
当检测到混响语音信号时,对混响语音信号进行分帧处理、加窗处理和快速傅里叶变换处理,得到混响语音幅度谱和混响语音相位谱。
(2)去混响比值获取模块20
去混响比值获取模块20,用于根据混响语音幅度谱确定混响语音特征,并将混响语音特征输入目标去混响网络,得到混响语音幅度谱的去混响比值。
其中,去混响比值获取模块20具体用于:
计算混响语音幅度谱的混响语音对数能量谱,并将混响语音对数能量谱作为混响语音特征;
将混响语音特征输入目标去混响网络,以通过目标去混响网络对混响语音特征进行预测处理,得到混响语音幅度谱的去混响比值。
(3)确定模块30
确定模块30,用于基于去混响比值和混响语音幅度谱,确定去混响语音幅度谱。
其中,确定模块30具体用于:
将去混响比值和混响语音幅度谱相乘,得到去混响语音幅度谱。
(4)纯净语音信号获取模块40
纯净语音信号获取模块40,用于根据去混响语音幅度谱和混响语音相位谱,得到混响语音信号中已滤除混响信号的纯净语音信号。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个模块的具体实施可参见前面的方法实施例,在此不再赘述。
由上述可知,本申请提供的语音处理装置,当检测到混响语音信号时,通过预处理模块10对混响语音信号进行预处理以得到混响语音幅度谱和混响语音相位谱,然后通过去混响比值获取模块20根据混响语音幅度谱确定混响语音特征,并将混响语音特征输入目标去混响网络以得到混响语音幅度谱的去混响比值,再通过确定模块30基于去混响比值和混响语音幅度谱确定去混响语音幅度谱,最后通过纯净语音信号获取模块40根据去混响语音幅度谱和混响语音相位谱得到混响语音信号中已滤除混响信号的纯净语音信号。在确定混响语音信号的混响语音幅度谱和混响语音相位谱后,将混响语音幅度谱的混响语音特征输入目标去混响网络即可得到去混响比值,并根据去混响比值和混响语音相位谱即可从混响语音信号中提取出纯净语音信号,由于在该混响消除过程中无需测量混响时间,因而有效提高混响消除效率。
相应的,本发明实施例还提供一种语音处理系统,包括本发明实施例所提供的任一种语音处理装置,该语音处理装置可以集成在电子设备中。
其中,当检测到混响语音信号时,对混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱;根据混响语音幅度谱确定混响语音特征,并将混响语音特征输入目标去混响网络,得到混响语音幅度谱的去混响比值;基于去混响比值和混响语音幅度谱,确定去混响语音幅度谱;根据去混响语音幅度谱和混响语音相位谱,得到混响语音信号中已滤除混响信号的纯净语音信号。
以上各个设备的具体实施可参见前面的实施例,在此不再赘述。
由于该语音处理系统可以包括本发明实施例所提供的任一种语音处理装置,因此,可以实现本发明实施例所提供的任一种语音处理装置所能实现的有益效果,详见前面的实施例,在此不再赘述。
另外,本申请实施例还提供一种电子设备,该电子设备可以是智能手机或电脑等设备。如图4所示,电子设备400包括处理器401、存储器402。其中,处理器401与存储器402电性连接。
处理器401是电子设备400的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器402内的应用程序,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
在本实施例中,电子设备400中的处理器401会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能:
当检测到混响语音信号时,对混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱;
根据混响语音幅度谱确定混响语音特征,并将混响语音特征输入目标去混响网络,得到混响语音幅度谱的去混响比值;
基于去混响比值和混响语音幅度谱,确定去混响语音幅度谱;
根据去混响语音幅度谱和混响语音相位谱,得到混响语音信号中已滤除混响信号的纯净语音信号。
图5示出了本发明实施例提供的电子设备的具体结构框图,该电子设备可以用于实施上述实施例中提供的语音处理方法。
RF电路510用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。RF电路510可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路510可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术,包括但并不限于全球移动通信系统(Global System for Mobile Communication,GSM)、增强型移动通信技术(Enhanced DataGSM Environment,EDGE),宽带码分多址技术(Wideband Code Division MultipleAccess,WCDMA),码分多址技术(Code Division Access,CDMA)、时分多址技术(TimeDivision Multiple Access,TDMA),无线保真技术(Wireless Fidelity,Wi-Fi)(如美国电气和电子工程师协会标准IEEE802.11a,IEEE 802.11b,IEEE802.11g和/或IEEE 802.11n)、网络电话(Voice over Internet Protocol,VoIP)、全球微波互联接入(WorldwideInteroperability for Microwave Access,Wi-Max)、其他用于邮件、即时通讯及短消息的协议,以及任何其他合适的通讯协议,甚至可包括那些当前仍未被开发出来的协议。
存储器520可用于存储软件程序以及模块,处理器580通过运行存储在存储器520内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现存储5G能力信息的功能。存储器520可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器520可进一步包括相对于处理器580远程设置的存储器,这些远程存储器可以通过网络连接至电子设备500。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入单元530可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元530可包括触敏表面531以及其他输入设备532。触敏表面531,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面531上或在触敏表面531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器580,并能接收处理器580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面531。除了触敏表面531,输入单元530还可以包括其他输入设备532。具体地,其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元540可用于显示由用户输入的信息或提供给用户的信息以及电子设备500的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元540可包括显示面板541,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板541。进一步的,触敏表面531可覆盖显示面板541,当触敏表面531检测到在其上或附近的触摸操作后,传送给处理器580以确定触摸事件的类型,随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中,触敏表面531与显示面板541是作为两个独立的部件来实现输入和输出功能,但是在某些实施例中,可以将触敏表面531与显示面板541集成而实现输入和输出功能。
电子设备500还可包括至少一种传感器550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板541的亮度,接近传感器可在电子设备500移动到耳边时,关闭显示面板541和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路560、扬声器561,传声器562可提供用户与电子设备500之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号,传输到扬声器561,由扬声器561转换为声音信号输出;另一方面,传声器562将收集的声音信号转换为电信号,由音频电路560接收后转换为音频数据,再将音频数据输出处理器580处理后,经RF电路510以发送给比如另一终端,或者将音频数据输出至存储器520以便进一步处理。音频电路560还可能包括耳塞插孔,以提供外设耳机与电子设备500的通信。
电子设备500通过传输模块570(例如Wi-Fi模块)可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图5示出了传输模块570,但是可以理解的是,其并不属于电子设备500的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器580是电子设备500的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器520内的软件程序和/或模块,以及调用存储在存储器520内的数据,执行电子设备500的各种功能和处理数据。可选的,处理器580可包括一个或多个处理核心;在一些实施例中,处理器580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器580中。
电子设备500还包括给各个部件供电的电源590(比如电池),在一些实施例中,电源可以通过电源管理系统与处理器580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源590还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,电子设备500还可以包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备的显示单元是触摸屏显示器,电子设备还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令:
当检测到混响语音信号时,对混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱;
根据混响语音幅度谱确定混响语音特征,并将混响语音特征输入目标去混响网络,得到混响语音幅度谱的去混响比值;
基于去混响比值和混响语音幅度谱,确定去混响语音幅度谱;
根据去混响语音幅度谱和混响语音相位谱,得到混响语音信号中已滤除混响信号的纯净语音信号。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个模块的具体实施可参见前面的方法实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种语音处理方法中的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种语音处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种语音处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
综上,虽然本申请已以优选实施例揭露如上,但上述优选实施例并非用以限制本申请,本领域的普通技术人员,在不脱离本申请的精神和范围内,均可作各种更动与润饰,因此本申请的保护范围以权利要求界定的范围为准。
Claims (10)
1.一种语音处理方法,其特征在于,包括:
当检测到混响语音信号时,对所述混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱;
根据所述混响语音幅度谱确定混响语音特征,并将所述混响语音特征输入目标去混响网络,得到所述混响语音幅度谱的去混响比值;
基于所述去混响比值和所述混响语音幅度谱,确定去混响语音幅度谱;
根据所述去混响语音幅度谱和所述混响语音相位谱,得到所述混响语音信号中已滤除混响信号的纯净语音信号。
2.根据权利要求1所述的语音处理方法,其特征在于,在所述当检测到混响语音信号时,对所述混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱的步骤之前,还包括:
采集待处理混响时间测量信号和待处理纯净语音信号;其中,所述待处理混响时间测量信号包括具有多个频段的扫频信号;
根据所述待处理混响时间测量信号和所述待处理纯净语音信号,确定参考混响语音特征和参考去混响比值;
基于所述参考混响语音特征和所述参考去混响比值,对初始去混响网络进行训练,得到所述目标去混响网络。
3.根据权利要求2所述的语音处理方法,其特征在于,所述根据所述待处理混响时间测量信号和所述待处理纯净语音信号,确定参考混响语音特征和参考去混响比值的步骤,包括:
将所述待处理混响时间测量信号和所述待处理纯净语音信号输入混响仿真器,以通过所述混响仿真器在所述待处理混响时间测量信号和所述待处理纯净语音信号中加入仿真混响信号,得到仿真混响时间测量信号和仿真混响语音信号;
对所述仿真混响时间测量信号进行脉冲响应积分处理,得到所述仿真混响时间测量信号的各频段信号对应的混响时间;
根据所述混响时间和所述仿真混响语音信号,得到所述参考混响语音特征和所述参考去混响比值。
4.根据权利要求3所述的语音处理方法,其特征在于,所述根据所述混响时间和所述仿真混响语音信号,得到所述参考混响语音特征和所述参考去混响比值的步骤,包括:
对所述仿真混响语音信号进行预处理,得到仿真混响语音幅度谱;
计算所述仿真混响语音幅度谱的仿真混响语音对数能量谱,并将所述仿真混响语音对数能量谱作为所述参考混响语音特征;
根据所述混响时间对所述仿真混响语音幅度谱进行分频谱减处理,得到去混响后的目标语音幅度谱;
将所述目标语音幅度谱与所述仿真混响语音幅度谱的比值作为所述参考去混响比值。
5.根据权利要求4所述的语音处理方法,其特征在于,所述当检测到混响语音信号时,对所述混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱的步骤,包括:
当检测到混响语音信号时,对所述混响语音信号进行分帧处理、加窗处理和快速傅里叶变换处理,得到混响语音幅度谱和混响语音相位谱。
6.根据权利要求5所述的语音处理方法,其特征在于,所述根据所述混响语音幅度谱确定混响语音特征,并将所述混响语音特征输入目标去混响网络,得到所述混响语音幅度谱的去混响比值的步骤,包括:
计算所述混响语音幅度谱的混响语音对数能量谱,并将所述混响语音对数能量谱作为所述混响语音特征;
将所述混响语音特征输入目标去混响网络,以通过所述目标去混响网络对所述混响语音特征进行预测处理,得到所述混响语音幅度谱的去混响比值。
7.根据权利要求6所述的语音处理方法,其特征在于,所述基于所述去混响比值和所述混响语音幅度谱,确定去混响语音幅度谱的步骤,包括:
将所述去混响比值和所述混响语音幅度谱相乘,得到去混响语音幅度谱。
8.一种语音处理装置,其特征在于,包括:
预处理模块,用于当检测到混响语音信号时,对所述混响语音信号进行预处理,得到混响语音幅度谱和混响语音相位谱;
去混响比值获取模块,用于根据所述混响语音幅度谱确定混响语音特征,并将所述混响语音特征输入目标去混响网络,得到所述混响语音幅度谱的去混响比值;
确定模块,用于基于所述去混响比值和所述混响语音幅度谱,确定去混响语音幅度谱;
纯净语音信号获取模块,用于根据所述去混响语音幅度谱和所述混响语音相位谱,得到所述混响语音信号中已滤除混响信号的纯净语音信号。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有多条指令,所述指令适于由处理器加载以执行权利要求1至7任一项所述的语音处理方法中的步骤。
10.一种电子设备,其特征在于,包括处理器和存储器,所述处理器与所述存储器电性连接,所述存储器用于存储指令和数据,所述处理器用于执行权利要求1至7任一项所述的语音处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211474175.7A CN116246645A (zh) | 2022-11-22 | 2022-11-22 | 语音处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211474175.7A CN116246645A (zh) | 2022-11-22 | 2022-11-22 | 语音处理方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116246645A true CN116246645A (zh) | 2023-06-09 |
Family
ID=86631951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211474175.7A Pending CN116246645A (zh) | 2022-11-22 | 2022-11-22 | 语音处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116246645A (zh) |
-
2022
- 2022-11-22 CN CN202211474175.7A patent/CN116246645A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6505252B2 (ja) | 音声信号を処理するための方法及び装置 | |
WO2017143805A1 (zh) | 回声消除方法、装置和计算机存储介质 | |
CN107742523B (zh) | 语音信号处理方法、装置以及移动终端 | |
WO2021017950A1 (zh) | 超声波处理方法、装置、电子设备及计算机可读介质 | |
CN106782613B (zh) | 信号检测方法及装置 | |
CN106528545B (zh) | 一种语音信息的处理方法及装置 | |
CN107993672B (zh) | 频带扩展方法及装置 | |
CN109243488B (zh) | 音频检测方法、装置及存储介质 | |
CN110519450B (zh) | 超声波处理方法、装置、电子设备及计算机可读介质 | |
CN111179957B (zh) | 一种语音通话的处理方法以及相关装置 | |
CN109616135B (zh) | 音频处理方法、装置及存储介质 | |
CN109817241B (zh) | 音频处理方法、装置及存储介质 | |
CN106940997B (zh) | 一种向语音识别系统发送语音信号的方法和装置 | |
CN111477243B (zh) | 音频信号处理方法及电子设备 | |
CN108492837B (zh) | 音频突发白噪声的检测方法、装置及存储介质 | |
CN110519448A (zh) | 屏幕状态控制方法、装置、移动终端以及存储介质 | |
WO2021017851A1 (zh) | 屏幕状态控制方法、装置、移动终端以及存储介质 | |
CN111182118B (zh) | 一种音量调节方法及电子设备 | |
CN110418023B (zh) | 响铃处理方法、装置、移动终端以及存储介质 | |
WO2024027246A1 (zh) | 声音信号处理方法、装置、电子设备和存储介质 | |
CN110277097B (zh) | 数据处理方法及相关设备 | |
CN116994596A (zh) | 啸叫抑制方法、装置、存储介质及电子设备 | |
CN110297543B (zh) | 一种音频播放方法及终端设备 | |
CN109032482B (zh) | 分屏控制方法、装置、存储介质和电子设备 | |
CN111638522A (zh) | 接近检测方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |