CN116935879A - 一种基于深度学习的两阶段网络降噪和去混响方法 - Google Patents

一种基于深度学习的两阶段网络降噪和去混响方法 Download PDF

Info

Publication number
CN116935879A
CN116935879A CN202210355142.4A CN202210355142A CN116935879A CN 116935879 A CN116935879 A CN 116935879A CN 202210355142 A CN202210355142 A CN 202210355142A CN 116935879 A CN116935879 A CN 116935879A
Authority
CN
China
Prior art keywords
stage
network
noise reduction
noise
reverberation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210355142.4A
Other languages
English (en)
Inventor
刘宏清
夏俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210355142.4A priority Critical patent/CN116935879A/zh
Publication of CN116935879A publication Critical patent/CN116935879A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本发明涉及一种基于深度学习的两阶段网络降噪和去混响方法,属于语音处理领域,依据干扰信号的性质差异将背景噪声和房间混响分为降噪阶段和去混响阶段处理。首先对两个阶段的网络进行单独训练,保留训练的权重参数及相关配置,并进一步移植到时域两阶段网络中进行联合训练。本发明在时域对噪声和混响进行处理,不需要对语音信号进行额外的变换,避免了在信号变换的过程中造成有用信息的丢失。通过对实验数据的分析,时域两阶段网络相对于单级网络和频域网络,均能够表现出更好的性能。

Description

一种基于深度学习的两阶段网络降噪和去混响方法
技术领域
本发明属于语音处理领域,涉及一种基于深度学习的两阶段网络降噪和去混响方法。
背景技术
近些年来,科研人员针对如何抑制背景噪声和房间混响做了大量的工作。对于单独地抑制混响而言,逆滤波是最常用的方法之一,其通过估计出一个抵消房间脉冲响应影响的逆滤波器,然后对混响信号和逆滤波器进行卷积运算得到估计的纯净语音信号,该犯法的困难之处是不易估计出合理的逆滤波器。随后,Wu Mingyang等提出了基于单麦克风场景的两阶段算法分别处理早期混响和晚期混响,该算法的第一阶段使用了逆滤波器,第二级使用了谱减法。接下来,Zhao Yan等基于频域使用深度神经网络(DNN)学习了一个从噪声混响语音信号到纯净语音信号的声谱映射,这是第一个使用监督学习的方法同时处理房间混响和背景噪声的研究。但是由于背景噪声和房间混响的不同性质,即混响信号是通过纯净语音信号与房间脉冲响应(RIR)卷积生成,而带噪语音信号是纯净语音信号与背景噪声的叠加过程。因此,在同一模型中处理背景噪声和房间混响时不能一概而论,应该将这两种干扰信号分开处理。而且上述提出的算法是基于频域处理语音信号,在将频域信号重构为时域波形之前,往往需要借助带噪语音信号的相位信息估计出纯净语音信号的频谱,这无法充分地利用纯净语音信号的相位信息,进一步导致估计的纯净语音信号与目标语音信号发生偏离。
发明内容
有鉴于此,本发明的目的在于提供一种时域两阶段联合网络模型,旨在时域对背景噪声和房间混响进行分阶段处理。本发明首先对两个单级网络进行训练,并将单独训练获得的网络权重参数移植到两阶段联合网络模型中,进一步作为两阶段联合网络训练的初始值。本发明在相同的数据集下对频域单级网络,时域单级网络,频域两阶段网络和时域两阶段网络进行训练和测试,并进一步比较不同网络的主观语音质量评估(PESQ)和短时客观可懂度(STOI)得分,验证了本发明提出的时域两阶段方法具有更好的性能。
为达到上述目的,本发明提供如下技术方案:
一种基于深度学习的两阶段网络降噪和去混响方法,包括以下步骤:
S1:制作数据集:设置混响环境,与纯净语音信号进行合成得到混响信号,将所述混响信号分别与训练噪声数据集和测试噪声数据集进行合成,得到同时含有噪声和混响的语音信号训练集和测试集;
S2:基于循环神经网络(RNN)和时域卷积网络(TCN)搭建两阶段联合网络模型,包括降噪阶段和去混响阶段;
S3:将时域语音信号输入单级网络进行单独训练,降噪阶段的输入包括噪声混响信号和无噪声混响信号H(t),并将无噪声混响信号H(t)作为学习的标签,降噪阶段的输出是估计的无噪声混响信号损失函数不断地将估计的/>向学习标签H(t)拟合;去混响阶段的输入包括无噪声的混响信号和纯净语音信号s(t),并将纯净语音信号s(t)作为学习的标签,去混响阶段的输出是估计的纯净语音信号/>损失函数不断地将估计的/>向学习标签s(t)拟合;
S4:对两阶段联合网络模型进行联合训练,同时抑制噪声和混响;保留降噪阶段和去混响阶段单独训练的最优权重参数,并将其用作两阶段联合网络模型训练的初始值;两阶段联合网络模型的输入包括噪声混响信号和纯净语音信号s(t),将s(t)作为学习的标签,将估计出的纯净语音信号向标签s(t)拟合;
S5:重复步骤S4,当损失值达到最小并收敛时结束训练;
S6:使用测试集对训练好的两阶段联合网络模型进行测试。
进一步,步骤S1中所述设置混响环境为:在0.1s到0.9s之间定义5个不同的混响时间,且步长为0.2s;房间的长和宽在2米到10米之间随意取值,麦克风和声源位置随机地设置在房间内部。
进一步,步骤S1中,在合成噪声混响信号时采用不同的信噪比,所有语音数据为同一采样率。
进一步,步骤S2中所述降噪阶段的模型包括编码器、降噪模块和解码器,所述降噪模块包括序列分割、块处理和重叠相加;所述编码器和解码器用于将语音信号从时域波形到高维特征之间来回转换;所述序列分割用于把输入的特征序列分割成重叠的块,再把所有块堆叠成三维张量;所述块处理包括块内处理模块和块间处理模块,所述块内处理模块用于处理三维张量的第一和第二维度信息,所述块间处理模块用于处理三维张量的第一和第三维度信息,所述重叠相加用于合成长语音序列。
进一步,步骤S2中所述去混响阶段的模型用于生成输入语音信号的高维特征,包括编码器、时域卷积网络、激活函数和解码器;将降噪阶段的解码器输出作为去混响阶段的编码器输入,通过时域卷积网络和激活函数估计掩码,然后将编码器的输出与估计的掩码相乘,获取估计的纯净语音信号的高维特征,最后使用解码器将估计的高维特征转换为时域语音信号。
进一步,所述时域卷积网络是由堆叠的一维膨胀卷积(1-D D-Conv)组成的。
进一步,步骤S3中,降噪阶段的损失函数公式如下:
其中,s是目标语音信号,是估计的语音信号和||·||2表示向量的内积。
进一步,步骤S3中,去混响阶段的损失函数公式如下:
进一步,步骤S4中,两阶段网络的联合损失函数如下:
进一步,采用Adam优化器对两阶段网络的联合损失进行优化,Adam算法通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设置独立的自适应性学习率,逆向传播对神经元权值进行求偏导,计算最优解不断更新网络神经元的权值。
本发明的有益效果在于:本发明在时域对噪声和混响进行处理,不需要对语音信号进行额外的变换,避免了在信号变换的过程中造成有用信息的丢失。通过对实验数据的分析,时域两阶段网络相对于单级网络和频域网络,均能够表现出更好的性能。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为两阶段联合网络模型框图;
图2为序列分割示意图;
图3为块处理流程图;
图4为TCN的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1,为一种基于深度学习的两阶段网络降噪和去混响方法,主要步骤为:
步骤S1:制作本发明所用的数据集。使用的纯净语音信号取自WSJ0数据集,用于训练的噪声数据集取自ESC-50,用于测试的噪声数据集取自Noisex92。制作数据集需要设置不同的混响时间、房间尺寸大小、麦克风位置和声源位置模拟不同的混响环境。首先,在0.1s到0.9s之间定义5个不同的混响时间,且步长为0.2s。其次,房间的长和宽在2米到10米之间随意取值,麦克风和声源位置随机地设置在房间内部。用取自WSJ0的纯净语音信号与随机模拟出的混响环境合成不同的混响信号。再从ESC-50和Noisex92噪声数据集中随机抽取噪声与混响信号进行合成,得到同时含有噪声和混响的语音信号。在合成噪声混响信号时采用了不同的信噪比,分别为-9dB、-5dB、0dB、5dB和9dB。最终得到的数据集中训练集有40小时,验证集有15小时,测试集有15小时,且所有语音数据的采样率均为16kHz。
步骤S2:搭建深度学习模型,本发明主要基于RNN和TCN两种网络搭建模型。
1)、降噪阶段可以分为三个部分:编码器、降噪模块和解码器。降噪模块又包括序列分割、块处理和重叠相加。编解码器的作用是将语音信号从时域波形到高维特征之间来回转换。如图2所示,序列分割的目的是把输入的特征序列分割成重叠的块,再把所有块堆叠成三维张量,便于块处理模块学习。如图3所示,块处理包括块内处理和块间处理,对于块内处理模块而言,其处理三维张量的第一和第二维度信息,而块间处理模块处理三维张量的第一和第三维度信息。
2)、去混响阶段使用一个编码器,用于生成输入语音信号的高维特征,进一步将编码器的输出与估计的掩码相乘,获取估计的纯净语音信号的高维特征,最后使用一个解码器将估计的特征转换为时域语音信号。如图4所示,估计掩码时使用了堆叠的1-D D-Conv组成的TCN。
步骤S3:将时域语音信号输入单级网络进行单独训练。降噪阶段的目的是对噪声进行抑制,从而获得无噪声的混响信号,其输入包括噪声混响信号和无噪声混响信号H(t),且后者是用来学习的标签。降噪阶段的输出是估计的无噪声混响信号损失函数不断地将估计的/>向学习标签H(t)拟合。降噪阶段的损失函数公式如下:
其中:
其中,s是目标语音信号,是估计的语音信号和||·||2表示向量的内积。
去混响阶段的目的是从无噪声的混响信号中恢复出纯净语音信号。其输入包括无噪声的混响信号和纯净语音信号s(t),s(t)被认为是学习的标签。去混响阶段的输出是估计的纯净语音信号损失函数不断地将估计的/>向学习标签s(t)拟合,达到对混响进行抑制的预期效果。去混响阶段的损失函数公式如下:
步骤S4:对两级网络进行联合训练,同时抑制噪声和混响。本发明保留了降噪阶段和去混响阶段单独训练的最优权重参数,并将其用作两阶段联合网络训练的初始值。这不仅能缩短两阶段联合网络的训练周期,而且更容易获得最优的两阶段网络模型。两阶段联合网络训练的输入包括噪声混响信号和纯净语音信号s(t),该模型的目的是同时对噪声和混响进行抑制,得到估计的纯净语音信号且s(t)作为学习的标签,将估计出的纯净语音信号/>向标签s(t)拟合。两阶段网络的联合损失函数如下:
当损失较大时说明网络性能较差,并没有达到最优。为了最小化损失,采用Adam优化器进行参数优化,Adam算法通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设置独立的自适应性学习率,逆向传播对神经元权值进行求偏导,计算最优解不断更新网络神经元的权值。
步骤S5:重复进行步骤S4,当损失值达到最小并收敛时结束训练,此时的网络参数已达到最优,把该网络模型作为我们的系统模型。
步骤S6:使用步骤S1中合成的测试数据集对训练好的模型进行测试,并对比不同的方法,分别获取各种方法的主观语音质量评估(PESQ)和短时客观可懂度(STOI)得分,验证了本发明的优越性能,如表1为PESQ得分表,表2为STOI得分表。
表1
表2
其中,PESQ的得分在-0.5到4.5之间,STOI的得分在0到1之间,且它们的分越高,代表网络的性能越好。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于深度学习的两阶段网络降噪和去混响方法,其特征在于:包括以下步骤:
S1:制作数据集:设置混响环境,与纯净语音信号进行合成得到混响信号,将所述混响信号分别与训练噪声数据集和测试噪声数据集进行合成,得到同时含有噪声和混响的语音信号训练集和测试集;
S2:基于循环神经网络(RNN)和时域卷积网络(TCN)搭建两阶段联合网络模型,包括降噪阶段和去混响阶段;
S3:将时域语音信号输入单级网络进行单独训练,降噪阶段的输入包括噪声混响信号和无噪声混响信号H(t),并将无噪声混响信号H(t)作为学习的标签,降噪阶段的输出是估计的无噪声混响信号损失函数不断地将估计的/>向学习标签H(t)拟合;去混响阶段的输入包括无噪声的混响信号和纯净语音信号s(t),并将纯净语音信号s(t)作为学习的标签,去混响阶段的输出是估计的纯净语音信号/>损失函数不断地将估计的/>向学习标签s(t)拟合;
S4:对两阶段联合网络模型进行联合训练,同时抑制噪声和混响;保留降噪阶段和去混响阶段单独训练的最优权重参数,并将其用作两阶段联合网络模型训练的初始值;两阶段联合网络模型的输入包括噪声混响信号和纯净语音信号s(t),将s(t)作为学习的标签,将估计出的纯净语音信号向标签s(t)拟合;
S5:重复步骤S4,当损失值达到最小并收敛时结束训练;
S6:使用测试集对训练好的两阶段联合网络模型进行测试。
2.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法,其特征在于:步骤S1中所述设置混响环境为:在0.1s到0.9s之间定义5个不同的混响时间,且步长为0.2s;房间的长和宽在2米到10米之间随意取值,麦克风和声源位置随机地设置在房间内部。
3.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法,其特征在于:步骤S1中,在合成噪声混响信号时采用不同的信噪比,所有语音数据为同一采样率。
4.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法,其特征在于:步骤S2中所述降噪阶段的模型包括编码器、降噪模块和解码器,所述降噪模块包括序列分割、块处理和重叠相加;所述编码器和解码器用于将语音信号从时域波形到高维特征之间来回转换;所述序列分割用于把输入的特征序列分割成重叠的块,再把所有块堆叠成三维张量;所述块处理包括块内处理模块和块间处理模块,所述块内处理模块用于处理三维张量的第一和第二维度信息,所述块间处理模块用于处理三维张量的第一和第三维度信息,所述重叠相加用于合成长语音序列。
5.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法,其特征在于:步骤S2中所述去混响阶段的模型用于生成输入语音信号的高维特征,包括编码器、时域卷积网络、激活函数和解码器;将降噪阶段的解码器输出作为去混响阶段的编码器输入,通过时域卷积网络和激活函数估计掩码,然后将编码器的输出与估计的掩码相乘,获取估计的纯净语音信号的高维特征,最后使用解码器将估计的高维特征转换为时域语音信号。
6.根据权利要求5所述的基于深度学习的两阶段网络降噪和去混响方法,其特征在于:所述时域卷积网络是由堆叠的一维膨胀卷积(1-D D-Conv)组成的。
7.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法,其特征在于:步骤S3中,降噪阶段的损失函数公式如下:
其中,s是目标语音信号,是估计的语音信号和||·||2表示向量的内积。
8.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法,其特征在于:步骤S3中,去混响阶段的损失函数公式如下:
9.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法,其特征在于:步骤S4中,两阶段网络的联合损失函数如下:
10.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法,其特征在于:采用Adam优化器对两阶段网络的联合损失进行优化,Adam算法通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设置独立的自适应性学习率,逆向传播对神经元权值进行求偏导,计算最优解不断更新网络神经元的权值。
CN202210355142.4A 2022-04-06 2022-04-06 一种基于深度学习的两阶段网络降噪和去混响方法 Pending CN116935879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210355142.4A CN116935879A (zh) 2022-04-06 2022-04-06 一种基于深度学习的两阶段网络降噪和去混响方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210355142.4A CN116935879A (zh) 2022-04-06 2022-04-06 一种基于深度学习的两阶段网络降噪和去混响方法

Publications (1)

Publication Number Publication Date
CN116935879A true CN116935879A (zh) 2023-10-24

Family

ID=88391296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210355142.4A Pending CN116935879A (zh) 2022-04-06 2022-04-06 一种基于深度学习的两阶段网络降噪和去混响方法

Country Status (1)

Country Link
CN (1) CN116935879A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174105A (zh) * 2023-11-03 2023-12-05 深圳市龙芯威半导体科技有限公司 一种基于改进型深度卷积网络的语音降噪与去混响方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174105A (zh) * 2023-11-03 2023-12-05 深圳市龙芯威半导体科技有限公司 一种基于改进型深度卷积网络的语音降噪与去混响方法

Similar Documents

Publication Publication Date Title
CN107703486B (zh) 一种基于卷积神经网络cnn的声源定位方法
CN107452389A (zh) 一种通用的单声道实时降噪方法
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN109841206A (zh) 一种基于深度学习的回声消除方法
CN112151059A (zh) 面向麦克风阵列的通道注意力加权的语音增强方法
CN112581973B (zh) 一种语音增强方法及系统
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
JP2013037174A (ja) 雑音/残響除去装置とその方法とプログラム
CN101460996A (zh) 增益控制系统、增益控制方法和增益控制程序
Lv et al. A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation
CN116935879A (zh) 一种基于深度学习的两阶段网络降噪和去混响方法
Qi et al. Exploring deep hybrid tensor-to-vector network architectures for regression based speech enhancement
CN101322183B (zh) 信号失真消除装置、方法
JP2016143042A (ja) 雑音除去装置及び雑音除去プログラム
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
CN114141266A (zh) 基于pesq驱动的强化学习估计先验信噪比的语音增强方法
Kim et al. HD-DEMUCS: General Speech Restoration with Heterogeneous Decoders
Shukla et al. Speech enhancement system using deep neural network optimized with Battle Royale Optimization
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Schmid et al. Dereverberation preprocessing and training data adjustments for robust speech recognition in reverberant environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination