CN115019818A - 基于渐进式混响感知网络的语音去混响方法、装置及设备 - Google Patents
基于渐进式混响感知网络的语音去混响方法、装置及设备 Download PDFInfo
- Publication number
- CN115019818A CN115019818A CN202210589687.1A CN202210589687A CN115019818A CN 115019818 A CN115019818 A CN 115019818A CN 202210589687 A CN202210589687 A CN 202210589687A CN 115019818 A CN115019818 A CN 115019818A
- Authority
- CN
- China
- Prior art keywords
- reverberation
- voice
- time
- progressive
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000750 progressive effect Effects 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000008447 perception Effects 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 68
- 238000000605 extraction Methods 0.000 claims description 46
- 238000011176 pooling Methods 0.000 claims description 14
- 230000001131 transforming effect Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 4
- 235000009508 confectionery Nutrition 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 238000003786 synthesis reaction Methods 0.000 claims 2
- 238000012360 testing method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种基于渐进式混响感知的语音去混响方法、装置及设备。所述语音去混响方法包括利用基于图方法的混响滤波器生成器生成混响滤波器组;构造混响数据集,将纯净语音经过混响滤波器生成混响语音和三个渐进式的目标语音;对混响语音进行短时傅里叶变换从而提取其实部和虚部,并将实部和虚部作为输入特征的两个通道;构造渐进式混响感知网络;将三个渐进式目标语音作为第一、第二、第三监督信息,将混响语音的混响时间作为辅助监督信息,训练渐进式混响感知网络;将测试集中的待增强混响语音做短时傅里叶变换后送入训练好的渐进式混响感知网络,并将网络输出的增强语音的频域结果做短时傅里叶逆变换得到去除混响后的增强语音。
Description
技术领域
本发明属于语音信号处理与深度学习领域,涉及一种基于渐进式混响感知网络的语音去混响方法、装置及计算机设备。
背景技术
语音去混响技术是语音增强领域的一项关键技术之一,混响消除的目的是为了将混响语音转换为无混响语音。混响主要分为早期混响和晚期混响(用50ms混响时间来分界),研究表明早期混响可以使语音听感更加自然,而语音质量和语音可懂度下降的主要原因归咎于语音信号中的晚期混响。
在语音增强领域,语音去混响技术可以有效改善语音通话、电话会议、场景录音、军事窃听和听力辅助等应用场景的语音信号的整体感知质量和可懂度。
语音去混响可以分为三大类。1)混响消除方法利用卷积失真模型对信号进行建模,它假设带混响语音由线性系统产生,首先估计声学系统的参数,再得到无混响信号的估计;2)混响抑制方法利用加性失真模型对信号进行建模,它假设带混响语音由加性过程产生,且混响与语音无关;3)基于深度学习的语音去混响方法与混响消除方法和混响抑制方法不同,此类方法对混响声学系统未知,利用大量数据进行训练,建立混响语音到纯净语音的非线性映射,并根据混响语音的特点结合其他机器学习方法以去除噪声。
近年来,基于深度学习的语音去混响方法在深度学习语音去混响任务中取得了较好的进展,得到了语音增强领域的广泛关注。
目前,基于深度学习的语音去混响任务主要存在三大挑战:
(1)低信噪比环境下的语音去混响问题。在-5dB环境下,语音功率不及噪声功率的1/3,语音幅度常常只有噪声幅度的一半。短时傅里叶变换后,幅度谱以噪声为主导,使得一些基于掩蔽的模型失去了优势。
(2)简单得将纯净语音作为监督信息或是将单个混响语音作为监督信息,忽略了混响时间逐步增加的混响语音对于模型由易到难地逐步学习语音直达波与混响之间的差异的问题。
(3)深层网络的多尺度特征信息丢失。模型在特征提取路径的同一深度处一般提取单尺度特征,受限于单尺度特征的尺度特征单一性,模型感受野有限,不易于模型结合多尺度特征得到符合多尺度前后帧信息的增强语音。
发明内容
有鉴于此,本发明的目的在于提供基于渐进式混响感知网络的语音去混响方法、装置及计算机设备。
本发明提供的渐进式混响感知网络的语音去混响方法、装置及计算机设备,尤其涉及一种基于多尺度混响感知网络的渐进式监督的语音去混响方法。其中多尺度特征提取路径用于提取多尺度的特征信息,由于多尺度结构包含更多尺度的前后帧信息,而语音的前后帧具有很强的相关性,因此可以得到帧级别的符合前后帧信息的语音去混响结果;多分支解码路径设置了三个平行的解码分支,并利用不同混响时间的混响语音作为监督,使网络由易到难地逐步学习语音直达波和混响语音之间的差异;此外,引入混响时间作为第四个解码分支的辅助监督信息,可以使网络更容易定位到混响结束时刻,进而更精确地消除混响。
本发明的一种基于渐进式混响感知网络的语音去混响方法,所述方法包括以下步骤:
S1、构造混响滤波器生成器,通过配置生成器的所需参数生成混响滤波器组;
S2、构造混响数据集,将语音数据集中的纯净语音经过混响滤波器中,生成混响数据集的混响语音,将纯净语音输入经时间截断后的同参数混响滤波器生成混响语音的第一、第二、第三目标语音;
S3、对混响语音进行短时傅里叶变换从而提取其实部和虚部,并将实部和虚部作为输入特征的两个通道;
S4、构造出包含多尺度特征提取路径和多分支解码路径的渐进式混响感知网络;
S5、将三个目标语音作为渐进式混响感知网络的第一、第二、第三目标语音,利用尺度不变信噪比损失函数最小化增强语音和三个目标语音间的差异,将混响语音的混响时间作为辅助监督信息,利用均方误差损失函数最小化混响时间预测值和混响时间间的差异,训练所述渐进式混响感知网络;
S6、获取待增强的混响语音,将待增强的混响语音经过短时傅里叶变换后随即送入训练好的渐进式混响感知网络中,并将第一个编码支路的输出作为增强语音的频域结果,再经过短时傅里叶逆变换得到去除混响后的增强语音。
进一步的,构造混响滤波器生成器,需要配置生成器所需参数,包括:房间尺寸、声源位置、混响时间、麦克风位置。
进一步的,混响语音通过在纯净语音中加入指定混响时间的混响获得,其混响时间是500ms、650ms、700ms。
进一步的,时间截断操作可以将系统函数转换为指定时间长度的系统函数,进而输出混响语音的第一、第二、第三目标语音;其中第一目标语音的混响时间长度为50ms,第二、第三目标语音的混响时间长度可以为150ms、200ms、300ms等。
进一步的,所述短时傅里叶变换表示为:
其中,l和k分别表示时间域和频域,L表示语音的帧长,n表示离散的时间,ω(n)为窗函数且窗长为N,e表示自然常数,j表示虚数单位,x()表示混响语音,x′()表示混响语音的短时傅里叶变换结果。
进一步的,步骤S3中所述的将实部和虚部作为输入特征的两个通道,包括:将经过短时傅里叶变换后的混响语音帧的实部和虚部沿着特征通道方向堆叠,从而将混响语音的实部和虚部信息同时输入渐进式混响感知网络,进而保留混响语音的相位信息。
进一步的,所述渐进式混响感知网络包括多尺度特征提取路径和多分支解码路径,其中,所述多尺度特征提取路径包括4个重复的编码单元和1个多尺度特征金字塔单元;每个编码单元包括2个卷积层、1个平均池化层;多尺度特征金字塔单元包括4个并行的特征提取分支和1个卷积层,每个特征提取分支包括了1个平均池化层、1个双线性插值层,从而将同尺寸特征图映射为4种尺度的特征图,进而实现多尺度特征提取的目的;所述多分支解码路径共有4个解码分支,每个解码分支包括4个与多尺度特征提取路径中编码单元的特征深度相同的解码单元,每个单元包括2个卷积层和1个转置卷积层。
进一步的,所述4种尺度的特征图可以为1×1、2×2、3×3、6×6,也可以为1×1、2×2、4×4、8×8或1×1、2×2、4×4、16×16等尺寸。保留1×1的特征图尺寸来引入全局特征,其它3种特征图尺寸可根据需要选择。
进一步的,步骤S5中所述将三个目标语音作为混响感知网络的第一、第二、第三监督信息,包括将第一、第二、第三目标语音分别作为渐进式混响感知网络第一、第二、第三解码分支的监督信息;所述将混响语音的混响时间作为辅助监督信息,包括将500ms混响时间作为渐进式混响感知网络的第四分支的监督信息。
进一步的,步骤S5中所述的尺度不变信噪比损失函数用于最小化增强语音和第一、第二、第三解码分支的三个目标语音之间的差异,损失函数包括但不限于尺度不变信噪比损失函数,其他可导的语音质量评估指标也可以作为本发明中的损失函数;所述尺度不变信噪比损失函数的计算公式为:
式中,XT和XN分别表示为:
XN=f(x)-XT
其中,x表示混响语音,f(x)表示增强语音,y表示纯净语音,||y||2、||XT||2和||XN||2为2范数结果。
进一步的,所述均方误差损失函数用于最小化混响时间预测值和混响时间间的差异,其中混响时间为混响语音对应的混响滤波器生成器中所设置的混响时间,均方误差损失函数计算公式表示为:
lMSE=(t(x)-T)2
其中,x表示混响语音,t(x)表示混响时间预测值,T表示混响时间真实值。
进一步的,所述短时傅里叶逆变换表示为:
其中,φ(n)表示综合窗函数,l和k分别表示时间域和频域,L表示语音的帧长,n表示离散的时间,i表示时间序号,ω(n)为窗函数且窗长为N,e表示自然常数,j表示虚数单位,x()表示混响语音,x′()表示混响语音的短时傅里叶变换结果,窗函数和综合窗函数关系定义为:
其中,常用窗函数ω(n)为矩形窗、汉明窗和高斯窗等。
本发明还提出了一种基于渐进式混响感知网络的语音去混响装置,所述装置包括:
纯净语音获取模块,用于获取混响数据集中的纯净语音;
混响语音获取模块,用于获取混响数据集中的混响语音和待增强的混响语音;
目标语音获取模块,用于获取混响数据集中的目标语音,包括50ms混响时间目标语音、200ms混响时间目标语音和300ms混响时间目标语音;
短时傅里叶变换模块,用于在混响语音输入渐进式混响感知网络前将时域语音变换成频域语音帧;
网络构造模块,用于构造出包括多尺度特征提取路径和多分支解码路径的渐进式混响感知网络;
短时傅里叶逆变换模块,用于将渐进式混响感知网络输出的频域增强语音帧变换成时域语音;
语音增强模块,用于将待增强的混响语音经过渐进式混响感知网络,获得去除混响后的增强语音。
进一步的,所述混响语音获取模块包括:
图方法单元,基于图方法生成混响滤波器生成器;
参数配置单元,通过配置混响滤波器生成器所需参数从而构造参数多变的混响滤波器;
混响语音生成单元,用于将纯净语音经过混响时间参数配置为500ms的500ms混响时间滤波器从而获得混响语音。
进一步的,所述目标语音获取模块包括:
混响滤波器时间截断单元,截取500ms混响时间滤波器的系统函数,从而获得50ms、200ms和300ms混响时间系统函数;
目标语音获取单元,用于将纯净语音经过50ms、200ms和300ms混响时间系统函数,从而获得50ms、200ms和300ms混响时间目标语音。
进一步的,所述短时傅里叶变换模块包括:
分帧单元,用于将混响语音分为一系列短段从而获得短时平稳的混响语音帧,短段之间存在重叠;
加窗单元,用于对混响语音帧进行加窗,防止频谱泄露;
傅里叶变换单元,用于对加窗后的混响语音帧作傅里叶变换从而获得频域混响语音帧,进而提取实部和虚部信息。
进一步的,所述网络构造模块包括:
渐进式混响感知网络,包括多尺度特征提取路径层和多分支解码路径层;其中,所述多尺度特征提取路径层,包括4个重复的编码单元和1个多尺度特征金字塔单元;每个编码单元包括2个卷积层、1个平均池化层;多尺度特征金字塔单元包括4个并行的特征提取分支和1个卷积层,每个特征提取分支包括1个平均池化层、1个双线性插值层;
所述多分支解码路径层,包括4个解码分支,每个解码分支包括4个与多尺度特征提取路径层中编码单元的特征深度相同的解码单元,每个单元包括2个卷积层和1个转置卷积层;
第一监督单元,用于将50ms混响时间目标语音作为第一监督信息;
第一损失函数单元,用于根据50ms混响时间目标语音和预测出的增强语音训练渐进式混响感知网络;
第二监督单元,用于将200ms混响时间目标语音作为第二监督信息;
第二损失函数单元,用于根据200ms混响时间目标语音和预测出的增强语音训练渐进式混响感知网络;
第三监督单元,用于将300ms混响时间目标语音作为第三监督信息;
第三损失函数单元,用于根据300ms混响时间目标语音和预测出的增强语音训练渐进式混响感知网络;
辅助监督单元,用于将500ms混响时间作为辅助监督信息;
辅助损失函数单元,用于根据500ms混响时间和预测出的混响时间训练渐进式混响感知网络。
进一步的,所述短时傅里叶逆变换模块包括:
傅里叶逆变换单元,用于将网络输出的增强帧的频域结果变换为时域结果;
时域叠加单元,用于将傅里叶逆变换后的增强帧重叠相加,完美还原最终的增强语音。
本发明还提出了一种计算机设备,包括至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述本发明实施例提出的一种基于渐进式混响感知网络的语音去混响方法。
本发明的有益效果:
1)本发明提出了一种基于渐进式混响感知网络的语音去混响方法,该方法可以在低信噪比的情况下,提高语音去混响的准确率和增强语音的听觉效果。
2)本发明深度提取多尺度的前后帧信息,能够从不同特征尺度解析混响语音与纯净语音间差异,从特征层面提高模型的表征能力,进而更准确地去除语音中的混响。
3)本发明利用同一纯净语音的不同混响时间的混响语音以及混响时间作为监督,多监督策略使网络由易到难地逐步学习语音直达波和混响语音之间的差异,从语音层面有效指导模型的收敛方向。
附图说明
图1为本发明整体流程示意图;
图2为本发明的数据生成流程示意图;
图3为本发明采用的渐进式混响感知网络结构示意图;
图4为本发明的数据流向示意图;
图5为本发明的去除混响效果示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示,本方法的一种基于渐进式混响感知网络的语音去混响方法,可具体包括以下步骤:
S1、构造混响滤波器生成器,通过配置生成器的所需参数生成混响滤波器组;
S2、构造混响数据集,将语音数据集中的纯净语音经过混响滤波器中,生成混响数据集的混响语音,将纯净语音输入经时间截断后的同参数混响滤波器生成混响语音的第一、第二、第三目标语音;
在一个实施例中,图2为数据生成的流程示意图。首先,利用S1配置的混响滤波器生成器构造混响滤波器,混响时间设置为500ms。其次,截取该混响滤波器的系统函数,生成混响时间分别为50ms、200ms和300ms的混响滤波器。接着,将混响语音分别输入到上述4个混响滤波器中。最后,生成1个混响语音和3个目标语音。
S3、对混响语音进行短时傅里叶变换从而提取其实部和虚部,并将实部和虚部作为输入特征的两个通道;
S4、构造出包含多尺度特征提取路径和多分支解码路径的渐进式混响感知网络;
短时傅里叶变换是音频信号处理领域常用操作,它利用语音的短时平稳性,将长时非平稳的语音看成一些列短时平稳语音的叠加。首先,将混响语音分为一系列短段从而获得具有一定重叠的短时平稳的混响语音帧。其次,对混响语音帧加窗以防止频谱泄露。最后利用傅里叶变换对加窗后的混响语音帧作傅里叶变换从而获得频域混响语音帧,进而提取实部和虚部信息。短时傅里叶变换的定义如公式(1)所示:
其中,l和k分别表示时间域和频域,L表示语音的帧长,n表示离散的时间,ω(n)为窗函数且窗长为N,e表示自然常数,j表示虚数单位,x()表示混响语音,x′()表示混响语音的短时傅里叶变换结果。
在一个实施例中,渐进式混响感知网络可参考图3,本实施例提供了一种具有多尺度特征金字塔结构的多监督去混响网络。网络由多尺度特征提取路径和多分支解码路径组成,多尺度特征提取路径在提取语音中的音频特征的同时降低模型规模,多分支解码路径用于恢复语音的长度。多尺度特征提取路径包括4个重复的编码单元和1个多尺度特征金字塔单元。每个编码单元包括2个卷积层、1个尺寸为2×2、步长为2的平均池化层。多尺度特征金字塔单元包括4个并行的特征提取分支和1个卷积层,每个特征提取分支包括了1个平均池化层、1个双线性插值层。特征提取分支内部的平均池化层的尺寸和步长由输入网络的语音长度决定,其使编码单元4输出的公共音频特征图映射为一系列不同大小的特征图,从而实现多尺度特征提取的目的。随后,特征提取分支分别将4个不同尺寸的特征图通过双向性插值重新上采样到公共音频特征图的尺寸。最后,将4个特征提取分支的结果串连再卷积,其目的是为了融合池化操作后具有不同感受野的特征图。
多分支解码路径共有4个解码分支,每个解码分支包括4个与多尺度特征提取路径中编码单元的特征深度相同的解码单元,每个单元包括2个卷积层和1个尺寸3×3,步长为1,填充2个0的转置卷积层,转置卷积层的作用是为了使卷积后尺寸缩小的语音至原语音的尺寸。网络最后用Sigmoid激活函数来限制输出范围。
其中,网络中所有卷积核的尺寸均为3×3、步长为1。
串连操作就是将特征图沿着通道方向堆叠。
S5、将三个目标语音作为渐进式混响感知网络的第一、第二、第三目标语音,利用尺度不变信噪比损失函数最小化增强语音和三个目标语音间的差异,将混响语音的混响时间作为辅助监督信息,利用均方误差损失函数最小化混响时间预测值和混响时间间的差异,训练所述渐进式混响感知网络;
在一个实施例中,如图3所示,将第一、第二、第三目标语音分别作为解码分支1、解码分支2和解码分支3的监督信息。利用尺度不变信噪比函数作为损失函数,同时分别最小化第一、第二、第三目标语音与经短时傅里叶逆变换后的增强语音间的差异。另外,将配置混响滤波器生成器所需的参数混响时间即混响语音的混响时间作为解码分支4的监督信息,并利用均方误差函数作为损失函数。其中,尺度不变信噪比损失函数的定义如公式(2):
式中,XT和XN的定义如公式(3)-(4):
XN=f(x)-XT (4)
其中,x表示混响语音,f(x)表示增强语音,y表示纯净语音,||y||2、||XT||2和||XN||2为2范数结果。均方误差损失函数计算如公式(5):
lMSE=(t(x)-T)2 (5)
其中,x表示混响语音,t(x)表示混响时间预测值,T表示混响时间真实值。
逆短时傅里叶逆变换的定义如公式(6)所示:
其中,φ(n)表示综合窗函数,l和k分别表示时间域和频域,L表示语音的帧长,n表示离散的时间,i表示时间序号,ω(n)为窗函数且窗长为N,常用的窗函数为矩形窗、汉明窗和高斯窗等,e表示自然常数,j表示虚数单位,x()表示混响语音,x′()表示混响语音的短时傅里叶变换结果,窗函数和综合窗函数关系定义如公式(7)所示:
S6、如图5的上半部分所示,获取待增强的混响语音,将待增强的混响语音经过短时傅里叶变换后随即送入训练好的渐进式混响感知网络中,并将第一个编码支路的输出作为增强语音的频域结果,再经过短时傅里叶逆变换得到去除混响后的增强语音如图5的下半部分所示。
如图4所示,在一个实施例中,本过程属于测试阶段,该阶段同时需要对待增强语音进行短时傅里叶变换操作将时域语音转换到频域并输入到渐进式混响感知网络。该阶段只将解码分支1的短时逆傅里叶变换结果作为最终的增强语音结果,解码分支2、解码分支3和解码分支4不参与该阶段。
本发明还提出了一种基于渐进式混响感知网络的语音去混响装置,所述装置包括:
纯净语音获取模块,用于获取混响数据集中的纯净语音;
混响语音获取模块,用于获取混响数据集中的混响语音和待增强的混响语音;
目标语音获取模块,用于获取混响数据集中的目标语音,包括50ms混响时间目标语音、200ms混响时间目标语音和300ms混响时间目标语音;
短时傅里叶变换模块,用于在混响语音输入渐进式混响感知网络前将时域语音变换成频域语音帧;
网络构造模块,用于构造出包括多尺度特征提取路径和多分支解码路径的渐进式混响感知网络;
短时傅里叶逆变换模块,用于将渐进式混响感知网络输出的频域增强语音帧变换成时域语音;
语音增强模块,用于将待增强的混响语音经过渐进式混响感知网络,获得去除混响后的增强语音。
进一步的,所述混响语音获取模块包括:
图方法单元,基于图方法生成混响滤波器生成器;
参数配置单元,通过配置混响滤波器生成器所需参数从而构造参数多变的混响滤波器;
混响语音生成单元,用于将纯净语音经过混响时间参数配置为500ms的500ms混响时间滤波器从而获得混响语音。
进一步的,所述目标语音获取模块包括:
混响滤波器时间截断单元,截取500ms混响时间滤波器的系统函数,从而获得50ms、200ms和300ms混响时间系统函数;
目标语音获取单元,用于将纯净语音经过50ms、200ms和300ms混响时间系统函数,从而获得50ms、200ms和300ms混响时间目标语音。
进一步的,所述短时傅里叶变换模块包括:
分帧单元,用于将混响语音分为一系列短段从而获得短时平稳的混响语音帧,短段之间存在重叠;
加窗单元,用于对混响语音帧进行加窗,防止频谱泄露;
傅里叶变换单元,用于对加窗后的混响语音帧作傅里叶变换从而获得频域混响语音帧,进而提取实部和虚部信息。
进一步的,所述网络构造模块包括:
渐进式混响感知网络,包括多尺度特征提取路径层和多分支解码路径层;
其中,所述多尺度特征提取路径层,包括4个重复的编码单元和1个多尺度特征金字塔单元。每个编码单元包括2个卷积层、1个平均池化层。多尺度特征金字塔单元包括4个并行的特征提取分支和1个卷积层,每个特征提取分支包括1个平均池化层、1个双线性插值层;
所述多分支解码路径层,包括4个解码分支,每个解码分支包括4个与多尺度特征提取路径层中编码单元的特征深度相同的解码单元,每个单元包括2个卷积层和1个转置卷积层;
第一监督单元,用于将50ms混响时间目标语音作为第一监督信息;
第一损失函数单元,用于根据50ms混响时间目标语音和预测出的增强语音训练渐进式混响感知网络;
第二监督单元,用于将200ms混响时间目标语音作为第二监督信息;
第二损失函数单元,用于根据200ms混响时间目标语音和预测出的增强语音训练渐进式混响感知网络;
第三监督单元,用于将300ms混响时间目标语音作为第三监督信息;
第三损失函数单元,用于根据300ms混响时间目标语音和预测出的增强语音训练渐进式混响感知网络;
辅助监督单元,用于将500ms混响时间作为辅助监督信息;
辅助损失函数单元,用于根据500ms混响时间和预测出的混响时间训练渐进式混响感知网络。
进一步的,所述短时傅里叶逆变换模块包括:
傅里叶逆变换单元,用于将网络输出的增强帧的频域结果变换为时域结果;
时域叠加单元,用于将傅里叶逆变换后的增强帧重叠相加,完美还原最终的增强语音。
本发明还提出了一种计算机设备,包括至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行本发明提出的一种基于渐进式混响感知网络的语音去混响方法。
当然,可以理解的是,本发明中方法、装置以及计算机设备的部分特征可以相互引用,本发明为了节省篇幅就不再一一列举。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (19)
1.一种基于渐进式混响感知网络的语音去混响方法,其特征在于,所述方法包括以下步骤:
S1、构造混响滤波器生成器,通过配置生成器的所需参数生成混响滤波器组;
S2、构造混响数据集,将语音数据集中的纯净语音经过混响滤波器中,生成混响数据集的混响语音,将纯净语音输入经时间截断后的同参数混响滤波器生成混响语音的第一、第二、第三目标语音;
S3、对混响语音进行短时傅里叶变换从而提取其实部和虚部,并将实部和虚部作为输入特征的两个通道;
S4、构造出包含多尺度特征提取路径和多分支解码路径的渐进式混响感知网络;
S5、将三个目标语音作为渐进式混响感知网络的第一、第二、第三目标语音,利用尺度不变信噪比损失函数最小化增强语音和三个目标语音间的差异,将混响语音的混响时间作为辅助监督信息,利用均方误差损失函数最小化混响时间预测值和混响时间间的差异,训练所述渐进式混响感知网络;
S6、获取待增强的混响语音,将待增强的混响语音经过短时傅里叶变换后随即送入训练好的渐进式混响感知网络中,并将第一目标语音所监督的解码分支作为增强语音的频域结果,再经过短时傅里叶逆变换得到去除混响后的增强语音。
2.根据权利要求1所述的一种基于渐进式混响感知网络的语音去混响方法,其特征在于,步骤S1中所述的构造混响滤波器生成器,包括:利用图方法构造混响滤波器生成器,通过配置生成器所需参数生成多种混响滤波器生成器组;所需参数包括:房间尺寸、声源位置、混响时间和麦克风位置。
3.根据权利要求1所述的一种基于渐进式混响感知网络的语音去混响方法,其特征在于,步骤S2中所述的生成混响数据集的混响语音包括将纯净语音经过混响时间为500ms的混响滤波器中,从而生成混响数据集中的混响语音。
4.根据权利要求1所述的一种基于渐进式混响感知网络的语音去混响方法,其特征在于,步骤S2中所述的时间截断包括对混响滤波器系统函数进行时间截取从而获得三个系统函数,截取时间段为0-50ms、0-200ms、0-300ms;将纯净语音输入截取后的系统函数,对应生成第一、第二、第三目标语音。
6.根据权利要求1所述的一种基于渐进式混响感知网络的语音去混响方法,其特征在于,步骤S3中所述的将实部和虚部作为输入特征的两个通道,包括:将经过短时傅里叶变换后的混响语音帧的实部和虚部沿着特征通道方向堆叠,从而将混响语音的实部和虚部信息同时输入渐进式混响感知网络,进而保留混响语音的相位信息。
7.根据权利要求1所述的一种基于渐进式混响感知网络的语音去混响方法,其特征在于,步骤S4中所述的构造出包含多尺度特征提取路径和多分支解码路径的渐进式混响感知网络,其中,所述多尺度特征提取路径包括4个重复的编码单元和1个多尺度特征金字塔单元;每个编码单元包括2个卷积层、1个平均池化层;多尺度特征金字塔单元包括4个并行的特征提取分支和1个卷积层,每个特征提取分支包括了1个平均池化层、1个双线性插值层,从而实现多尺度特征提取的目的。
8.根据权利要求1所述的一种基于渐进式混响感知网络的语音去混响方法,其特征在于,步骤S4中所述的构造出包含多尺度特征提取路径和多分支解码路径的渐进式混响感知网络;其中,所述多分支解码路径共有4个解码分支,每个解码分支包括4个与多尺度特征提取路径中编码单元的特征深度相同的解码单元,每个单元包括2个卷积层和1个转置卷积层。
9.根据权利要求1所述的一种基于渐进式混响感知网络的语音去混响方法,其特征在于,步骤S5中所述将三个目标语音作为混响感知网络的第一、第二、第三监督信息,包括将第一、第二、第三目标语音分别作为渐进式混响感知网络第一、第二、第三解码分支的监督信息;所述将混响语音的混响时间作为辅助监督信息,包括将500ms混响时间作为渐进式混响感知网络的第四分支的监督信息。
11.根据权利要求1所述的一种基于渐进式混响感知网络的语音去混响方法,其特征在于,步骤S5中所述均方误差损失函数表示为:
lMSE=(t(x)-T)2
其中,x表示混响语音,t(x)表示混响时间预测值,T表示混响时间真实值。
13.一种基于渐进式混响感知网络的混响消除装置,其特征在于,所述装置包括:
纯净语音获取模块,用于获取混响数据集中的纯净语音;
混响语音获取模块,用于获取混响数据集中的混响语音和待增强的混响语音;
目标语音获取模块,用于获取混响数据集中的目标语音,包括50ms混响时间目标语音、200ms混响时间目标语音和300ms混响时间目标语音;
短时傅里叶变换模块,用于在混响语音输入渐进式混响感知网络前将时域语音变换成频域语音帧;
网络构造模块,用于构造出包括多尺度特征提取路径和多分支解码路径的渐进式混响感知网络;
短时傅里叶逆变换模块,用于将渐进式混响感知网络输出的频域增强语音帧变换成时域语音;
语音增强模块,用于将待增强的混响语音经过渐进式混响感知网络,获得去除混响后的增强语音。
14.根据权利要求13所述的一种基于渐进式混响感知网络的混响消除装置,其特征在于,所述混响语音获取模块包括:
图方法单元,基于图方法生成混响滤波器生成器;
参数配置单元,通过配置混响滤波器生成器所需参数从而构造参数多变的混响滤波器;
混响语音生成单元,用于将纯净语音经过混响时间参数配置为500ms的500ms混响时间滤波器从而获得混响语音。
15.根据权利要求14所述的一种基于渐进式混响感知网络的混响消除装置,其特征在于,所述目标语音获取模块包括:
混响滤波器时间截断单元,截取所述500ms混响时间滤波器的系统函数,从而获得50ms、200ms和300ms混响时间系统函数;
目标语音获取单元,用于将纯净语音经过50ms、200ms和300ms混响时间系统函数,从而获得50ms、200ms和300ms混响时间目标语音。
16.根据权利要求13所述的一种基于渐进式混响感知网络的混响消除装置,其特征在于,所述短时傅里叶变换模块包括:
分帧单元,用于将混响语音分为一系列短段从而获得短时平稳的混响语音帧,短段之间存在重叠;
加窗单元,用于对混响语音帧进行加窗,防止频谱泄露;
傅里叶变换单元,用于对加窗后的混响语音帧作傅里叶变换从而获得频域混响语音帧,进而提取实部和虚部信息。
17.根据权利要求13所述的一种基于渐进式混响感知网络的混响消除装置,其特征在于,所述网络构造模块包括:
渐进式混响感知网络,包括多尺度特征提取路径层和多分支解码路径层;其中,所述多尺度特征提取路径层,包括4个重复的编码单元和1个多尺度特征金字塔单元;每个编码单元包括2个卷积层、1个平均池化层;多尺度特征金字塔单元包括4个并行的特征提取分支和1个卷积层,每个特征提取分支包括1个平均池化层、1个双线性插值层;
所述多分支解码路径层,包括4个解码分支,每个解码分支包括4个与多尺度特征提取路径层中编码单元的特征深度相同的解码单元,每个单元包括2个卷积层和1个转置卷积层;
第一监督单元,用于将50ms混响时间目标语音作为第一监督信息;
第一损失函数单元,用于根据50ms混响时间目标语音和预测出的增强语音训练渐进式混响感知网络;
第二监督单元,用于将200ms混响时间目标语音作为第二监督信息;
第二损失函数单元,用于根据200ms混响时间目标语音和预测出的增强语音训练渐进式混响感知网络;
第三监督单元,用于将300ms混响时间目标语音作为第三监督信息;
第三损失函数单元,用于根据300ms混响时间目标语音和预测出的增强语音训练渐进式混响感知网络;
辅助监督单元,用于将500ms混响时间作为辅助监督信息;
辅助损失函数单元,用于根据500ms混响时间和预测出的混响时间训练渐进式混响感知网络。
18.根据权利要求13所述的一种基于渐进式混响感知网络的混响消除装置,其特征在于,所述短时傅里叶逆变换模块包括:
傅里叶逆变换单元,用于将网络输出的增强帧的频域结果变换为时域结果;
时域叠加单元,用于将傅里叶逆变换后的增强帧重叠相加,完美还原最终的增强语音。
19.一种计算机设备,包括至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至12任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210589687.1A CN115019818A (zh) | 2022-05-26 | 2022-05-26 | 基于渐进式混响感知网络的语音去混响方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210589687.1A CN115019818A (zh) | 2022-05-26 | 2022-05-26 | 基于渐进式混响感知网络的语音去混响方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115019818A true CN115019818A (zh) | 2022-09-06 |
Family
ID=83070465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210589687.1A Pending CN115019818A (zh) | 2022-05-26 | 2022-05-26 | 基于渐进式混响感知网络的语音去混响方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019818A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115588438A (zh) * | 2022-12-12 | 2023-01-10 | 成都启英泰伦科技有限公司 | 一种基于双线性分解的wls多通道语音去混响方法 |
-
2022
- 2022-05-26 CN CN202210589687.1A patent/CN115019818A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115588438A (zh) * | 2022-12-12 | 2023-01-10 | 成都启英泰伦科技有限公司 | 一种基于双线性分解的wls多通道语音去混响方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN110085245B (zh) | 一种基于声学特征转换的语音清晰度增强方法 | |
CN111081268A (zh) | 一种相位相关的共享深度卷积神经网络语音增强方法 | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
Gannot et al. | Subspace methods for multimicrophone speech dereverberation | |
CN110600050B (zh) | 基于深度神经网络的麦克风阵列语音增强方法及系统 | |
CN109841226A (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN110728989B (zh) | 一种基于长短时记忆网络lstm的双耳语音分离方法 | |
CN112151059A (zh) | 面向麦克风阵列的通道注意力加权的语音增强方法 | |
CN109887489B (zh) | 基于生成对抗网络的深度特征的语音去混响方法 | |
Zhao et al. | Noisy-Reverberant Speech Enhancement Using DenseUNet with Time-Frequency Attention. | |
CN109164415B (zh) | 一种基于卷积神经网络的双耳声源定位方法 | |
CN110675891B (zh) | 一种基于多层注意力机制的语音分离方法、模块 | |
JP6485711B2 (ja) | 音場再現装置および方法、並びにプログラム | |
CN105448302B (zh) | 一种环境自适应的语音混响消除方法和系统 | |
CN112820315A (zh) | 音频信号处理方法、装置、计算机设备及存储介质 | |
CN111798875A (zh) | 一种基于三值量化压缩的vad实现方法 | |
Hussain et al. | Ensemble hierarchical extreme learning machine for speech dereverberation | |
Nossier et al. | Mapping and masking targets comparison using different deep learning based speech enhancement architectures | |
Barros et al. | Estimation of speech embedded in a reverberant and noisy environment by independent component analysis and wavelets | |
CN115019818A (zh) | 基于渐进式混响感知网络的语音去混响方法、装置及设备 | |
Fan et al. | A regression approach to binaural speech segregation via deep neural network | |
CN116959468A (zh) | 一种基于dcctn网络模型的语音增强方法、系统及设备 | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |