CN113571074A - 基于多波段结构时域音频分离网络的语音增强方法及装置 - Google Patents
基于多波段结构时域音频分离网络的语音增强方法及装置 Download PDFInfo
- Publication number
- CN113571074A CN113571074A CN202110910066.4A CN202110910066A CN113571074A CN 113571074 A CN113571074 A CN 113571074A CN 202110910066 A CN202110910066 A CN 202110910066A CN 113571074 A CN113571074 A CN 113571074A
- Authority
- CN
- China
- Prior art keywords
- enhanced
- voice
- signal
- time domain
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000000926 separation method Methods 0.000 title claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 19
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 25
- 238000003062 neural network model Methods 0.000 claims description 23
- 238000000354 decomposition reaction Methods 0.000 claims description 20
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于多波段结构时域音频分离网络的语音增强方法及装置,方法包括:采集待增强的单通道语音数据;利用时域音频分离网络将待增强语音信号分解为各子波段内的时域增强信号;通过基于多波段结构的信号处理框架中的多波段信号合成网络将各子波段内的时域增强信号重构为单通道增强语音。本发明具有多种实现架构的时域音频分离网络与多波段结构信号处理框架的结合显著增加了该语音增强方法的灵活性以及鲁棒性。本发明极大提高了增强语音信号的信噪比、语音质量感知评价等语音质量指标,能够对待增强语音中的非平稳噪声部分进行有效抑制,大幅提升了短时客观可懂度,主观平均意见分等语音可懂度及听感指标。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于多波段结构时域音频分离网络的语音增强方法及装置。
背景技术
随着人工智能等技术在语音处理领域的广泛普及,以语音识别技术(ASR)、语音合成技术(TTS)为代表的智能语音技术得到了飞速发展,对语音增强技术的需求也急剧上升,特别是在伴随着大量噪声的远场语音应用相关场景中。语音增强的主要目标是去除待增强语音信号中的噪声部分,从而还原出纯净语音部分,改善语音质量,进一步提高语音的听感和可懂度等指标。
以谱减法、维纳滤波为代表的基于传统语音处理的技术是最为常见的单通道语音增强方案。比如CN105489226A提供了一种基于多窗谱估计的维纳滤波语音增强方法,通过多窗谱估计和小波阈值去除噪声项得到近似纯净的语音谱,然后与维纳滤波处理后的语音谱相比较,根据不同的失真类型选择相应的谱作为最终增强的语音谱。
近年来,基于深度学习的语音增强逐渐成为了业界的主流方案,其中涉及的深度学习网络包含全连接神经网络、卷积神经网络、全卷积神经网络、循环神经网络、生成对抗网络等各式各样的框架。基于深度学习的单通道语音增强又主要分为变换域掩模(mask)估计方法和时域端到端方法。其中变换域掩模估计方法中较为常用的是基于短时傅里叶变换(STFT)幅度谱的理想浮值掩模(IRM),以及基于复数谱的复数浮值掩模(cIRM)。前者通过结合对STFT幅度谱的估计以及带噪相位,利用STFT逆变换对语音进行增强,后者则是同时对STFT的幅度谱和相位进行估计来重建增强信号。例如CN111754983A提供了一种语音去噪方法、装置、电子设备及存储介质,采用神经网络模型利用信号的STFT频谱图对纯净语音的幅度谱进行估计,再结合带噪相位通过STFT逆变换完成增强信号重建,达到语音去噪的目的。
现有的语音增强方法,主要存在着以下问题:
(1)传统语音增强方法等对非平稳噪音抑制作用不佳,在复杂的声音环境中,如商场、酒吧等嘈杂场景难以取得理想的噪声抑制效果。
(2)基于STFT时频掩模深度学习方法存在着未充分利用相位信息或相位预测不准等问题,并且模型的参数量及运算量过高容易引入系统时延,在落地部署上存在着一定的困难。
(3)基于时域端到端的深度学习语音增强方法,例如生成对抗网络语音增强方法则在信噪比、听感相关的指标上和变换域掩模估计的方法存在一定的差距。
发明内容
本发明提供了一种基于多波段结构时域音频分离网络的语音增强方法及装置,以解决基于传统语音处理技术的增强方法对非平稳噪声处理效果不理想以及基于深度学习的语音增强方法中普遍存在的一系列问题。
本发明采用的技术方案是:提供一种基于多波段结构时域音频分离网络的语音增强方法,包括:
采集待增强的单通道语音数据;
利用时域音频分离网络将待增强语音信号分解为各子波段内的时域增强信号;
通过基于多波段结构的信号处理框架中的多波段信号合成网络将各子波段内的时域增强信号重构为单通道增强语音。
作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式,由时域音频分离网络和多波段信号合成网络共同组成的神经网络模型的训练步骤包括:
获取用于训练的纯净语音数据和带噪语音数据,其中,所述带噪语音数据是通过将纯净语音数据与噪音数据按随机分配的信噪比进行混合获得;
将带噪语音信号输入至神经网络模型获得增强语音及其各子波段内的时域增强信号;
利用基于多波段结构的信号处理框架中的多波段信号分解将每段带噪语音信号所对应的纯净语音信号分解为各子波段内的时域信号,作为带噪语音各子波段内对应的时域增强信号的标签;
计算多波段损失函数并通过反向传播对神经网络模型进行训练,直至多波段损失函数达到收敛。
作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式,所述计算多波段损失函数的方法包括:
对增强语音及其各子波段内对应的时域增强信号与相应标签之间的基本损失函数进行加权平均,其中所述基本损失函数的设定至少包括:幂压缩短时傅里叶时频谱均方差、尺度不变信噪比。
作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式,所述时域音频分离网络的构建方法包括:
提取待增强语音信号的特征表示;
对待增强语音信号各子波段内纯净语音部分所对应的掩模进行预测,并与待增强语音信号的特征表示逐点相乘获得各子波段内纯净语音部分所对应的特征表示估计;
将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号。
作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式,对提取待增强语音信号的特征表示的方法包括:利用基于一维卷积网络的线性编码器。
作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式,所述将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号的方法包括:利用基于一维反卷积网络和重叠相加法的解码器。
作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式,所述基于多波段结构的信号处理框架包括:
由倍率为子波段总数的下采样操作和完美重建滤波器组中的合成滤波器实现的多波段信号合成网络将各子波段内通过解码获得的时域增强信号重构为单通道增强语音;
由完美重建滤波器组中的分解滤波器实现的多波段信号分解将纯净语音信号分解为各子波段内的时域波形,作为待增强语音信号各子波段内时域增强信号的对应标签。
本发明还提供一种基于多波段结构时域音频分离网络的语音增强装置,所述装置包括:
语音数据采集模块,用于采集待增强的单通道语音数据;
时域音频分离网络模块,用于将待增强语音信号分解为各子波段内的时域增强信号;
多波段信号合成模块,用于将待增强信号各子波段内的时域增强信号重构为单通道增强语音。
作为基于多波段结构时域音频分离网络的语音增强装置的一种优选方式,还包括神经网络模型训练单元,所述训练单元包括:
语音数据获取模块,用于获取用于训练的纯净语音数据和带噪语音数据;
语音增强模块,用于将带噪语音信号输入至神经网络模型获得增强语音及其各子波段内的时域增强信号;
多波段信号分解模块,基于多波段结构的信号处理框架中的多波段信号分解用于将每段带噪语音信号所对应的纯净语音信号分解为各子波段内的时域信号,作为带噪语音各子波段内对应的时域增强信号的标签;
损失函数计算模块,计算多波段损失函数并通过反向传播对神经网络模型进行训练,直至多波段损失函数达到收敛。
作为基于多波段结构时域音频分离网络的语音增强装置的一种优选方式,还包括时域音频分离网络的构建单元,所述时域音频分离网络的构建单元包括:
提取模块,用于提取待增强语音信号的特征表示;
特征表示估计模块,用于对待增强语音信号各子波段内纯净语音部分所对应的掩模进行预测,并与待增强语音信号的特征表示逐点相乘获得各子波段内纯净语音部分所对应的特征表示估计;
解码模块,用于将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号。
本发明的有益效果是:
(1)区别于传统单通道语音增强方法中对信号进行整体处理的思路,本发明提出了采取信号分解与合成思路的语音信号增强方法,利用时域音频分离网络取代基于多波段结构信号处理的完美重建滤波器组中的分解滤波器,并且在线性编码器的特征表示空间中利用掩模预测的方式实现了对输入语音信号的增强过程,最后再与相对应的合成滤波器相结合完成对时域增强信号的重建。具有多种实现架构的时域音频分离网络与多波段结构信号处理框架的结合显著增加了该语音增强方法的灵活性以及鲁棒性,并在不同数据集上进行了多项性能指标测试,相较于传统语音增强方法,去噪性能获得了大幅度提升。
(2)利用时域音频分离网络中的编码器-解码器结构取代传统语音增强方法中的短时傅里叶变换及逆变换操作,实现了对信号的自适应学习的编码和解码,能够通过数据驱动的方式更好地学习语音信号的特征表示。相较于时频域方法中常用的短时傅里叶变换及逆变换,通过一维卷积和反卷积运算实现的线性编码器-解码器结构回避了时频域方法中相位信息缺失和相位估计不准确等问题所造成的影响,急剧提高了增强语音信号的信噪比(SNR)、语音质量感知评价(PESQ)等语音质量指标。
(3)使用与多波段结构信号处理框架相匹配的损失函数对神经网络模型进行训练,通过在增强信号与纯净信号整体差异的基础上增加它们在各子波段内对应部分的差异来进一步对神经网络的参数进行调整,从而能够对待增强语音中的非平稳噪声部分进行有效抑制,大幅提升了短时客观可懂度(STOI),主观平均意见分(MOS)等语音可懂度及听感指标。
附图说明
图1为本发明公开的基于多波段结构时域音频分离网络的语音增强方法的流程示意图。
图2为本发明公开的神经网络模型的训练方法的流程示意图。
图3为本发明公开的时域音频分离网络的构建方法的流程示意图。
图4为本发明公开的基于多波段结构时域音频分离网络的语音增强装置的结构框图。
图5为本发明公开的神经网络模型训练单元的结构框图。
图6为本发明公开的时域音频分离网络的构建单元的结构框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步详细描述,但本发明的实施方式不限于此。
实施例1:
参见图1,本实施例提供一种基于多波段结构时域音频分离网络的语音增强方法,该方法包括如下步骤:
S110:采集待增强的单通道语音数据。
具体实施例中,以Fs=16kHz的采样率采集任意长度的待增强语音片段,输入到训练好的神经网络模型中。
S111:利用时域音频分离网络将待增强语音信号分解为各子波段内的时域增强信号。
具体实施例中,通过时域音频分离网络获得的各子波段内时域增强信号的采样率与待增强语音片段相同。
S112:通过基于多波段结构的信号处理框架中的多波段信号合成网络将各子波段内的时域增强信号重构为单通道增强语音。
具体的,所述基于多波段结构的信号处理框架包括:
由倍率为子波段总数的下采样操作和完美重建滤波器组中的合成滤波器实现的多波段信号合成网络将各子波段内通过解码获得的时域增强信号重构为单通道增强语音。
由完美重建滤波器组中的分解滤波器实现的多波段信号分解将纯净语音信号分解为各子波段内的时域波形,作为待增强语音信号各子波段内时域增强信号的对应标签。
其中完美重建滤波器组的具体方案可采用4通道的Pseudo-QMF或GammatoneFilterbank。
进一步的,参见图2,由S111和S112共同组成的神经网络模型的训练步骤包括:
S210:获取用于训练的纯净语音数据和带噪语音数据,其中,所述带噪语音数据是通过将纯净语音数据与噪音数据按随机分配的信噪比进行混合获得。
具体实施例中,可选用Fs=16k采样率的纯净语音数据集及噪音数据集,首先将每条纯净语音信号分割为时长为4s的纯净语音片段,再从噪声数据集中随机截取一段相同长度的噪音信号进行匹配,并随机分配一个-5dB到20dB范围内的信噪比进行混合,依照随机分配的信噪比大小分别对纯净语音和噪音进行相应的幅度变换,最终通过叠加生成相应的带噪语音片段,最终将对应的带噪语音片段和纯净语音片段分别作为输入和标签,按照一定比例划分出训练集、验证集以及测试集。
S211:将带噪语音信号输入到所述神经网络模型获得增强语音及其各子波段内的时域增强信号。
S212:利用基于多波段结构的信号处理框架中的多波段信号分解将每段带噪语音信号所对应的纯净语音信号分解为各子波段内的时域信号,作为带噪语音各子波段内对应的时域增强信号的标签。
具体实施例中,多波段信号分解可由与多波段信号合成相同的完美重建滤波器组中的分解滤波器实现。此外还需要注意的是,假设子波段总数为M,通过多波段信号分解获得的时域增强信号的标签的采样率为Fs/M。
S213:计算多波段损失函数并通过反向传播对神经网络模型进行训练,直至多波段损失函数达到收敛。
具体实施例中,计算多波段损失函数是对增强语音及其各子波段内对应的时域增强信号与相应标签之间的基本损失函数进行加权平均,其中所述基本损失函数可以采用幂压缩短时傅里叶时频谱均方差(Power law compressed STFT MSE)、尺度不变信噪比(SI-SNR)等损失函数。
进一步的,参见图3,S111中,所述时域音频分离网络的构建方法包括:
S220:提取待增强语音信号的特征表示。
对所述提取待增强语音信号的特征表示的方法,包括:利用基于一维卷积网络的线性编码器。
具体实施例中,所述一维卷积网络由一个卷积核大小为L=40,步长为L/2=20,输入通道数为1,输出通道数为D=256的一维卷积网络层和一个线性整流层实现。
S221:对待增强语音信号各子波段内纯净语音部分所对应的掩模进行预测,并与待增强语音信号的特征表示逐点相乘获得各子波段内纯净语音部分所对应的特征表示估计。
具体的,对掩模进行预测的方法,包括利用多层堆叠的时域卷积网络或多层堆叠的双路循环神经网络。
具体的,以堆叠的时域卷积网络为例,每层时域卷积网络根据其层数设置对应层卷积的扩张系数以提高感受视野,此外每层的输入和输出之间存在跳跃连接。掩模预测将重复3次8层结构的时域卷积网络层,每层时域卷积层先通过1*1卷积模块进行特征维度变换,再采用尺寸为P=3,步长为1的卷积核沿时间维度进行一维卷积,第X层的扩张系数设置为2(X-1);每个卷积层前均采用层归一化和参数化线性整流激活函数进行处理,最后再通过1*1卷积将特征维度还原,预测出与编码器特征表示相同结构的纯净信号对应掩模。
S222:将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号。
具体的,是将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号的方法包括:利用基于一维反卷积网络和重叠相加法的解码器。
具体的,一维反卷积网络由输入通道为D=256,输出通道为L=40的全连接网络层实现。另外,重叠相加法是基于短时傅里叶逆变换进行时域信号重建过程中的必要操作,本领域技术人员可以理解重叠相加法的具体实施方式,本实施例在此不做赘述。
实施例2
参见图4,一种基于多波段结构时域音频分离网络的语音增强装置,所述装置包括:
语音数据采集模块110,用于采集待增强的单通道语音数据。
时域音频分离网络模块111,用于将待增强语音信号分解为各子波段内的时域增强信号。
多波段信号合成模块112,用于将待增强信号各子波段内的时域增强信号重构为单通道增强语音。
参见图5,具体的,还包括神经网络模型训练单元,所述训练单元包括:
语音数据获取模块210,用于获取用于训练的纯净语音数据和带噪语音数据;
语音增强模块211,用于将带噪语音信号输入到神经网络模型获得增强语音及其各子波段内的时域增强信号。
多波段信号分解模块212,利用基于多波段结构的信号处理框架中的多波段信号分解将每段带噪语音信号所对应的纯净语音信号分解为各子波段内的时域信号,作为带噪语音各子波段内对应的时域增强信号的标签。
损失函数计算模块213,用于计算多波段损失函数对神经网络模型进行训练,直至多波段损失函数达到收敛。
参见图6,具体的,还包括时域音频分离网络的构建单元,所述时域音频分离网络的构建单元包括:
提取模块220,用于提取待增强语音信号的特征表示。
特征表示估计模块221,用于对待增强语音信号各子波段内纯净语音部分所对应的掩模进行预测,并与待增强语音信号的特征表示逐点相乘获得各子波段内纯净语音部分所对应的特征表示估计。
解码模块222,用于将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于多波段结构时域音频分离网络的语音增强方法,其特征在于,包括:
采集待增强的单通道语音数据;
利用时域音频分离网络将待增强语音信号分解为各子波段内的时域增强信号;
通过基于多波段结构的信号处理框架中的多波段信号合成网络将各子波段内的时域增强信号重构为单通道增强语音。
2.根据权利要求1所述的基于多波段结构时域音频分离网络的语音增强方法,其特征在于,由时域音频分离网络和多波段信号合成网络共同组成的神经网络模型的训练步骤包括:
获取用于训练的纯净语音数据和带噪语音数据,其中,所述带噪语音数据是通过将纯净语音数据与噪音数据按随机分配的信噪比进行混合获得;
将带噪语音信号输入至神经网络模型获得增强语音及其各子波段内的时域增强信号;
利用基于多波段结构的信号处理框架中的多波段信号分解将每段带噪语音信号所对应的纯净语音信号分解为各子波段内的时域信号,作为带噪语音各子波段内对应的时域增强信号的标签;
计算多波段损失函数并通过反向传播对神经网络模型进行训练,直至多波段损失函数达到收敛。
3.根据权利要求2所述的基于多波段结构时域音频分离网络的语音增强方法,其特征在于,所述计算多波段损失函数的方法包括:
对增强语音及其各子波段内对应的时域增强信号与相应标签之间的基本损失函数进行加权平均,其中所述基本损失函数的设定至少包括:幂压缩短时傅里叶时频谱均方差、尺度不变信噪比。
4.根据权利要求1所述的基于多波段结构时域音频分离网络的语音增强方法,其特征在于,所述时域音频分离网络的构建方法包括:
提取待增强语音信号的特征表示;
对待增强语音信号各子波段内纯净语音部分所对应的掩模进行预测,并与待增强语音信号的特征表示逐点相乘获得各子波段内纯净语音部分所对应的特征表示估计;
将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号。
5.根据权利要求4所述的基于多波段结构时域音频分离网络的语音增强方法,其特征在于,对提取待增强语音信号的特征表示的方法包括:利用基于一维卷积网络的线性编码器。
6.根据权利要求4所述的基于多波段结构时域音频分离网络的语音增强方法,其特征在于,所述将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号的方法包括:利用基于一维反卷积网络和重叠相加法的解码器。
7.根据权利要求1或2所述的基于多波段结构时域音频分离网络的语音增强方法,其特征在于,所述基于多波段结构的信号处理框架包括:
由倍率为子波段总数的下采样操作和完美重建滤波器组中的合成滤波器实现的多波段信号合成网络将各子波段内通过解码获得的时域增强信号重构为单通道增强语音;
由完美重建滤波器组中的分解滤波器实现的多波段信号分解将纯净语音信号分解为各子波段内的时域波形,作为待增强语音信号各子波段内时域增强信号的对应标签。
8.一种基于多波段结构时域音频分离网络的语音增强装置,其特征在于,所述装置包括:
语音数据采集模块,用于采集待增强的单通道语音数据;
时域音频分离网络模块,用于将待增强语音信号分解为各子波段内的时域增强信号;
多波段信号合成模块,用于将待增强信号各子波段内的时域增强信号重构为单通道增强语音。
9.根据权利要求8所述的基于多波段结构时域音频分离网络的语音增强装置,其特征在于,还包括神经网络模型训练单元,所述训练单元包括:
语音数据获取模块,用于获取用于训练的纯净语音数据和带噪语音数据;
语音增强模块,用于将带噪语音信号输入至神经网络模型获得增强语音及其各子波段内的时域增强信号;
多波段信号分解模块,基于多波段结构的信号处理框架中的多波段信号分解用于将每段带噪语音信号所对应的纯净语音信号分解为各子波段内的时域信号,作为带噪语音各子波段内对应的时域增强信号的标签;
损失函数计算模块,计算多波段损失函数并通过反向传播对神经网络模型进行训练,直至多波段损失函数达到收敛。
10.根据权利要求8或9所述的基于多波段结构时域音频分离网络的语音增强装置,其特征在于,还包括时域音频分离网络的构建单元,所述时域音频分离网络的构建单元包括:
提取模块,用于提取待增强语音信号的特征表示;
特征表示估计模块,用于对待增强语音信号各子波段内纯净语音部分所对应的掩模进行预测,并与待增强语音信号的特征表示逐点相乘获得各子波段内纯净语音部分所对应的特征表示估计;
解码模块,用于将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110910066.4A CN113571074B (zh) | 2021-08-09 | 2021-08-09 | 基于多波段结构时域音频分离网络的语音增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110910066.4A CN113571074B (zh) | 2021-08-09 | 2021-08-09 | 基于多波段结构时域音频分离网络的语音增强方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113571074A true CN113571074A (zh) | 2021-10-29 |
CN113571074B CN113571074B (zh) | 2023-07-25 |
Family
ID=78171046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110910066.4A Active CN113571074B (zh) | 2021-08-09 | 2021-08-09 | 基于多波段结构时域音频分离网络的语音增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113571074B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115116448A (zh) * | 2022-08-29 | 2022-09-27 | 四川启睿克科技有限公司 | 语音提取方法、神经网络模型训练方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102823A (zh) * | 2018-09-05 | 2018-12-28 | 河海大学 | 一种基于子带谱熵的语音增强方法 |
US20190066713A1 (en) * | 2016-06-14 | 2019-02-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
CN110534123A (zh) * | 2019-07-22 | 2019-12-03 | 中国科学院自动化研究所 | 语音增强方法、装置、存储介质、电子设备 |
CN111312275A (zh) * | 2020-02-13 | 2020-06-19 | 大连理工大学 | 一种基于子带分解的在线声源分离增强系统 |
US20210012767A1 (en) * | 2020-09-25 | 2021-01-14 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
CN112489675A (zh) * | 2020-11-13 | 2021-03-12 | 北京云从科技有限公司 | 一种多通道盲源分离方法、装置、机器可读介质及设备 |
-
2021
- 2021-08-09 CN CN202110910066.4A patent/CN113571074B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190066713A1 (en) * | 2016-06-14 | 2019-02-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
CN109102823A (zh) * | 2018-09-05 | 2018-12-28 | 河海大学 | 一种基于子带谱熵的语音增强方法 |
CN110534123A (zh) * | 2019-07-22 | 2019-12-03 | 中国科学院自动化研究所 | 语音增强方法、装置、存储介质、电子设备 |
CN111312275A (zh) * | 2020-02-13 | 2020-06-19 | 大连理工大学 | 一种基于子带分解的在线声源分离增强系统 |
US20210012767A1 (en) * | 2020-09-25 | 2021-01-14 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
CN112489675A (zh) * | 2020-11-13 | 2021-03-12 | 北京云从科技有限公司 | 一种多通道盲源分离方法、装置、机器可读介质及设备 |
Non-Patent Citations (1)
Title |
---|
YI LUO,ET AL.: "Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115116448A (zh) * | 2022-08-29 | 2022-09-27 | 四川启睿克科技有限公司 | 语音提取方法、神经网络模型训练方法、装置及存储介质 |
CN115116448B (zh) * | 2022-08-29 | 2022-11-15 | 四川启睿克科技有限公司 | 语音提取方法、神经网络模型训练方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113571074B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Speech enhancement using perceptual wavelet packet decomposition and teager energy operator | |
Pascual et al. | Time-domain speech enhancement using generative adversarial networks | |
Li et al. | Real-time monaural speech enhancement with short-time discrete cosine transform | |
CN109215671B (zh) | 基于MFrSRRPCA算法的语音增强系统及方法 | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
Wang et al. | Caunet: Context-aware u-net for speech enhancement in time domain | |
EP3726529A1 (en) | Method and apparatus for determining a deep filter | |
Li et al. | A multi-objective learning speech enhancement algorithm based on IRM post-processing with joint estimation of SCNN and TCNN | |
Saleem et al. | On improvement of speech intelligibility and quality: A survey of unsupervised single channel speech enhancement algorithms | |
Do et al. | Speech Separation in the Frequency Domain with Autoencoder. | |
Xu et al. | U-former: Improving monaural speech enhancement with multi-head self and cross attention | |
Zorilă et al. | Speaker reinforcement using target source extraction for robust automatic speech recognition | |
Zhang et al. | FB-MSTCN: A full-band single-channel speech enhancement method based on multi-scale temporal convolutional network | |
CN113571074B (zh) | 基于多波段结构时域音频分离网络的语音增强方法及装置 | |
Ambikairajah et al. | Wavelet transform-based speech enhancement | |
CN113611321B (zh) | 一种语音增强方法及系统 | |
Jamal et al. | A hybrid approach for single channel speech enhancement using deep neural network and harmonic regeneration noise reduction | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
Tantibundhit et al. | New signal decomposition method based speech enhancement | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Liu et al. | A modulation feature set for robust automatic speech recognition in additive noise and reverberation | |
Buragohain et al. | Single Channel Speech Enhancement System using Convolutional Neural Network based Autoencoder for Noisy Environments | |
CN117935826B (zh) | 音频升采样方法、装置、设备及存储介质 | |
Kolbæk et al. | On TasNet for low-latency single-speaker speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |