CN113936679A - 一种基于信息蒸馏与聚合的低信噪比语音增强方法 - Google Patents

一种基于信息蒸馏与聚合的低信噪比语音增强方法 Download PDF

Info

Publication number
CN113936679A
CN113936679A CN202111116339.4A CN202111116339A CN113936679A CN 113936679 A CN113936679 A CN 113936679A CN 202111116339 A CN202111116339 A CN 202111116339A CN 113936679 A CN113936679 A CN 113936679A
Authority
CN
China
Prior art keywords
information
distillation
voice
processing
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111116339.4A
Other languages
English (en)
Inventor
蓝天
刘峤
吴祖峰
台文鑫
王钆翔
李佳佳
陈聪
冯雨佳
康宏博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111116339.4A priority Critical patent/CN113936679A/zh
Publication of CN113936679A publication Critical patent/CN113936679A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本发明提供一种基于信息蒸馏与聚合的低信噪比语音增强方法,包括步骤:将原始语谱图进行语音特征提取得到语音信息表示;对语音信息表示进行多阶段信息蒸馏处理得到过滤噪声成分之后的语音信息蒸馏结果;将语音信息蒸馏结果进行语谱图重建。根据注意力机制和信息蒸馏机制形成的多阶段信息蒸馏处理过程中每一时刻的信息蒸馏线上的校准后信息将作为下一时刻自注意力信息处理子模块的输入,通过N个注意力信息处理子模块与N个信息蒸馏子模块顺序的信息蒸馏与重新校准,最终实现噪声成分过滤的效果。本发明能够适应不同环境下的语音特征提取,使模型能够适应不同噪声的声学特征,显著提升语音增强的效果。

Description

一种基于信息蒸馏与聚合的低信噪比语音增强方法
技术领域
本发明涉及语音增强与语音降噪技术。
背景技术
语音增强旨在通过分离语音和噪声成分来提高语音信号的可懂度和清晰度,对自动语音识别技术、助听器、移动设备等产业产生巨大影响,从而受到了极大的关注;近些年得益于深度学习的进步,业界内有关语音增强的研究显著增加,大量基于深度学习的方法实现了干净语音与噪声有效分离。
多层的深度神经网络DNN被用于从带噪对数功率谱到干净语音的非线性映射来对语音进行增强,证明了深度神经网络在语音增强任务上的有效性;与基于DNN的模型相比,卷积神经网络CNN由于其参数共享机制在参数更少的情况下获得了很好的性能。CNN在语音增强中有多种用处,包括使用冗余卷积编解码器模型来映射干净语音信号及使用基于CNN的模型来估算干净语音的复数谱图;CNN和递归神经网络RNN的联合使用可以充分利用CNN的特征提取能力和RNN的时间建模能力;另外,有关学者还提出了带有门控和残差机制的扩张卷积模型以提高泛化能力。
受UNet结构在医学图像处理领域的影响,越来越多的工作尝试于将UNet架构引入语音增强领域。而其中的跳跃连接(skip connections)也被广泛用于直接传递低粒度特征,以更好地重建语音语谱图。尽管跳跃连接被证明可以很好地补充低级特征,其仍然存在以下两个问题。其一,模型底层的降噪能力有限,低信噪比条件下直接将底层的信息补充到高层级在引入细粒度信息的同时也引入了大量的噪声。其二,跳跃连接忽略了低层与高层之间可能存在的语义差异,导致信息融合效率与准确性低。
发明内容
本发明所要解决的技术问题是,针对现有引入UNet架构的语音增强模型由于跳跃连接直接传递低粒度特征到高层级时引入噪声和存在语义差异的问题,提供一种准确性更高的语音增强方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于信息蒸馏与聚合的低信噪比语音增强方法,包括以下步骤:
1)对原始语音信号进行短时傅立叶变换得到原始语谱图;
2)将原始语谱图进行语音特征提取得到语音信息表示;
3)对语音信息表示进行多阶段信息蒸馏处理得到过滤噪声成分之后的语音信息蒸馏结果;蒸馏处理通过N个串行自注意力信息处理子模块与N个串行的信息蒸馏子模块实现,第N个自注意力信息处理子模块的输出信号即为语音信息蒸馏结果:
第t个信息蒸馏子模块的输出信号Yt为:
Figure BDA0003275646180000021
第t个自注意力信息处理子模块输出的信号Xt为:
Figure BDA0003275646180000022
其中,t为序号变量,1≤t≤N,X0和Y0均为步骤2)输出的语音信息表示;Yt-1为第t-1个信息蒸馏子模块的输出信号Yt;Xt-1为第t-1个自注意力信息处理子模块的输出信号;
Figure BDA0003275646180000023
为自注意力信息处理函数,
Figure BDA0003275646180000024
为信息蒸馏处理函数;
Figure BDA0003275646180000025
其中,⊙代表点乘操作,At-1为第t-1个权重矩阵:
Figure BDA0003275646180000026
其中,σ是Sigmoid激活函数,Conv2和Conv3分别是两个不同卷积核的步长相同的二维卷积层;
4)将语音信息蒸馏结果进行语谱图重建;
5)对重建的语谱图进行反短时傅里叶变换得到时域增强语音信号。
本发明根据注意力机制和信息蒸馏机制形成的多阶段信息蒸馏处理过程中,串行的信息蒸馏子模块组成一条信息蒸馏线,N个自注意力信息处理子模块共享该信息蒸馏线。自注意力信息处理子模块通过信息蒸馏线不断地汇聚各个信息蒸馏子模块的输出并自适应地进行信息校准,每一时刻的信息蒸馏线上的校准后信息将作为下一时刻自注意力信息处理子模块的输入,通过N个注意力信息处理子模块与N个信息蒸馏子模块顺序的信息蒸馏与重新校准,最终实现噪声成分过滤的效果。
进一步的,语谱图重建的通过M个基于动态选择机制的自适应性信息集合模块串联完成,每个自适应性信息集合模块对输入的语音信息分别进行多尺度卷积处理和形变卷积处理,再基于动态选择机制聚合对多尺度卷积处理和形变卷积处理的信息。
本发明根据动态选择机制融合多尺度卷积子模块和形变卷机子模块的输出,以提供更好的特征处理能力和较高稳定性,并基于所述基于动态选择机制的自适应性信息集合模块构建得到语音特征解码器,进而构建语音增强模型;同时,本发明仅仅使用DARCN一半的参数(0.68M),便取得了最优的性能,在模型训练时间上也有明显优势。所提出的基于信息蒸馏和聚合的单声道语音增强方法在STOI和PESQ指标上均好于所有对比例,其中STOI平均得分上比最优对比例高出0.40,PESQ平均得分上比最优对比例高出0.02。
本发明的有益效果是,能够适应不同环境下的语音特征提取,使模型能够适应不同噪声的声学特征,显著提升语音增强的效果。
附图说明
图1为实施例中基于信息蒸馏和聚合的单声道语音增强模型的网络结构示意图;
图2为实施例中基于动态选择机制的自适应性信息集合模块的网络结构示意图。
具体实施方式
在时域上,一段喊噪声信号x(n)可以被表示为:
x(n)=s(n)+d(n)
其中,n是时间帧的索引,s(n)表示原信号,d(n)表示噪声信号。值得注意的是,由于输入语音时长不同,因此各个样本中时间帧的维度是不固定的。在时域中给定一个大小为N的实值向量x,通过短时傅里叶变换STFT将x(n)转换为时频域:
Figure BDA0003275646180000031
其中
Figure BDA0003275646180000032
Figure BDA0003275646180000033
是z的复共轭,α是时移步长,g是一个分析窗(通常使用汉宁窗或者汉明窗),l是原始波的长度,N是频点的数量。在STFT的定义里,时间帧的数量为t=l/α。因此,STFT的输出是一个大小为T×F的二维矩阵。输入为带噪的幅度谱,经过处理后,得到增强的幅度谱。最后,通过对增强的幅度谱和带噪的相位谱进行逆短时傅里叶变换ISTFT重建时域上的语音波形。
本发明提供的基于信息蒸馏和聚合的单声道语音增强方法主要用于噪声环境下的语音增强问题。
如图1所示的单声道语音增强模型的网络结构包括语音特征提取器FeatureExtraction、信息蒸馏单元Information Distillation和语谱图重建模块Reconstuction串联构成;根据该网络结构实现语音增强的方法如下:
步骤1:对原始语音信号进行短时傅立叶变换得到原始语谱图;
步骤2:将原始语谱图输入语音特征提取器Feature Extraction得到语音信息表示;
步骤3:由信息蒸馏单元Information Distillation对上一步骤所得到的语音信息表示进行多阶段信息蒸馏,保留语音信息的同时丢弃噪声成分;
步骤4:由语谱图重建模块Reconstuction将信息蒸馏的结果利用基于动态选择的信息聚合机制形成重建的语谱图;
步骤5:最后对重建的语谱图进行反短时傅里叶变换得到时域增强语音信号。
具体的,步骤2中语音特征提取器Feature Extraction由4个基于多尺度卷积模块MSB(Multi-scale Block)串联构成,依次为第一至第四多尺度卷积模块;其中,第一自适应卷积模块的输入通道数为1,第一至第四自适应卷积模块的输出通道数依次为4、8、16、32。更具体的,每个多尺度卷积模块由4个卷积核大小不同的二维卷积层组成,卷积核大小分别为(3,3),(5,5),(7,7),(9,9),最后通过一个(1,1)的标准卷积整合信息。
传统的跳跃连接直接传递低粒度特征到高层级时会引入噪声并且低粒度特征与高层级特征之间可能存在语义差异;为了减少这种语义差异,因此本发明提出了一种多阶段信息蒸馏,其灵感来自于图像超分辨率领域。步骤3的具体过程为:信息蒸馏单元Information Distillation包括N个基于自注意力机制的信息蒸馏单元,以顺序进过的方式凝练语音特征。其中,每个信息蒸馏单元包含一个自注意力信息处理子模块SAB并互相共享一条信息蒸馏线,信息蒸馏线由串联的N的信息蒸馏子模块D实现。自注意力信息处理子模块通过信息蒸馏线不断地汇聚各个信息蒸馏子模块的输出并自适应地进行信息校准,每一时刻的信息蒸馏线上的校准后信息将作为下一时刻自注意力信息处理子模块的输入,通过N个注意力信息处理子模块与N个信息蒸馏子模块顺序的信息蒸馏与重新校准,最终实现噪声成分过滤的效果。
图1中的N=6。即,信息蒸馏单元包括6个串联的自注意力信息处理子模块SAB,6个SAB共享一条信息蒸馏线。信息蒸馏线又6个串联的信息蒸馏子模块D构成。信息蒸馏线上有一个注意力机制以自适应地校准信息;
自注意力信息处理子模块的结构为:最初输入信息经过(1,1)的二维卷积层分别经过两条路(一条路为(11,11)的二维卷积层,另一条路为顺序通过(11,11)的二维卷积层和Sigmoid激活函数),两条路的输出相乘,再通过一层(1,1)的二维卷积层,结果与最初输入信息相加作为最后输出;
每个信息蒸馏子模块会进行两个操作;首先通过对上一时刻蒸馏线上的信息Yt-1(第t-1个信息蒸馏子模块D的输出信号的输出信号)做全局平均池化和全局最大池化,并将结果进行拼接、激活得到权重矩阵At-1
Figure BDA0003275646180000041
其中,Ca是拼接操作,Conv1代表了一个用来压缩通道的(1,1)二维卷积层,σ是Sigmoid激活函数,
Figure BDA0003275646180000051
Figure BDA0003275646180000052
分别代表全局平均池化和全局最大池化操作;然后再通过通道维度的压缩与激励机制(Squeeze and Excitation)
Figure BDA0003275646180000053
校准信息蒸馏线上的信息Yt-1
Figure BDA0003275646180000054
其中,A是通道级的注意力权重,⊙代表点乘操作;随后,通过初始化一个自注意的门控机制
Figure BDA0003275646180000055
来从当前输入Xt(第t个自注意力信息处理子模块SAB输出的信号)挖掘深层潜在关联:
Figure BDA0003275646180000056
Figure BDA0003275646180000057
其中,Conv2和Conv3是两个不同的(11,11)二维卷积层;最后保存在信息蒸馏线(t-1)时刻的信息将被更新为:
Figure BDA0003275646180000058
进一步的,完成步骤4)的语谱图重建模块Reconstuction由4个基于动态选择机制的自适应性信息集合模块AIAB(Adaptive Information Aggregation Block)串联构成,依次为第一至第四自适应卷积模块;其中,第一自适应卷积模块的输入通道数为32、第一至第四自适应卷积模块的输出通道数依次为16、8、4、1;
如图2所示,基于动态选择机制的自适应性信息集合模块AIAB包括多尺度卷积子模块M-Module和形变卷积子模块D-Module;并通过动态选择机制聚合两个子模块的输出,重建图谱;
首先采用多尺度的卷积层作为信息提取部分,包含4种不同大小的卷积核(3×3,5×5,7×7,9×9);之后,使用形变卷积去拟合光谱图像的几何变换;在形变卷积中,使用一个额外的二维卷积层来估计常规网格采样位置的二维偏移;计算在样本偏移Δpn修正位置pn的加权以得到x(p0)的输出特征y(p0):
Figure BDA0003275646180000059
其中,w为内核中可学习权重,pn为第n个位置,Δpn为位置pn预先指定的偏移量,
Figure BDA00032756461800000510
包含了所有采样点到中心点的相对位置;在Δpn的帮助下,常规网格
Figure BDA00032756461800000511
可以自适应地调整接受野;值得注意的是,偏移量Δpn常常是分数,所以在实施的时候需要线性插值;
最终,通过双重注意力聚合单元来融合这两个分支(多尺度卷积模块和形变卷积模块),然后通过通道级和空间级注意力机制动态地聚合两条支路的输出特征;假设多尺度卷积的输出为M,形变卷积的输出为D,首先,通过加法直接融合两个输出特征:
U=D+M
然后,通过全局平均池化生成通道维度和空间维度的权重c和S;具体地说,分别通过收缩特征U的空间维度T×F和通道维度C来计算
Figure BDA0003275646180000061
的第k个元素Uk
Figure BDA0003275646180000062
的第(m,n)个元素U(m,n):
Figure BDA0003275646180000063
Figure BDA0003275646180000064
然后,通过维度不变的一层二维卷积操作得到通道级和空间级的特征表示。本实施例中,将上述得到的两个表示经过四层卷积(通道级表示经过两个并行的卷积层,空间级表示经过两个并行的卷积层),得到四个相关的权重c_a,
Figure BDA0003275646180000065
经过softmax进行权重归一化,继而作用于不同的支路,然后动态聚合两条支路的信息。
最后,基于上述语音增强模型重建干净语谱图。
针对跳跃连接存在的普遍问题:直接传递低层级特征到高层级,虽然补充了大量细节信息,但也引入了大量的噪声信息,该特性在低信噪比场景下尤其明显;本发明采用信息蒸馏与信息聚合机制,不断地蒸馏和重新校准历史信息,逐层汇聚以更好地恢复干净语音;本发明等效于使用信息蒸馏方式的特征提取模型,利用双重注意力机制动态汇聚不同支路的并行多路学习模型。
本实施例中,渐进式学习模型的训练集选择TIMIT数据集中3696个语句,干净语音采样率均为16kHz、噪声来自Noisex92数据集和DEMAND数据集(包括五种不同工业环境噪声以及一种生活噪声“餐厅噪声”、信噪比为(-5dB,0dB和5dB));模型一共训练了60轮,设置学习率为0.0002,采用平均绝对误差函数(MAE)作为损失函数,使用Adam优化器对所述模型进行训练。
采用TIMIT数据集中192个语句(干净语音采样率均为16kHz)作为测试集,在可见噪声的基础上增加了三种训练时未见过的工业噪声以及一种生活噪声(“咖啡厅噪声”)。此外,还使用两种未曾见过的信噪比(-10dB和10dB)对所述模型进行测试;通过将192条语句分别与不同的噪声(9种)和不同的信噪比(5种),共构建测试数据6720条;对语音使用短时傅立叶变换(STFT),使用窗长度为20ms、帧重叠为10ms的汉宁窗将语音信号转换为语谱图,评估指标选用短时客观清晰度(STOI)和语音质量感知评估(PESQ)。
以文献“S.R.Park and J.Lee,“A fully convolutional neural network forspeech enhancement,”in Interspeech 2017,18th Annual Conference of theInternational Speech Communication Association,Stockholm,Sweden,August 20-24,2017,2017,pp.1993–1997.”中提到的模型RCED、“K.Tan and D.Wang,“A convolutionalrecurrent neural network for real-time speech enhancement.”in Interspeech,2018,pp.3229–3233.”中提到的模型CRN,文献“Ke Tan,Jitong Chen,and DeLiang Wang,“Gated residual networks with dilated convolutions for monaural speechenhancement,”IEEE/ACM transactions on audio,speech,and language processing,vol.27,no.1,pp.189–198,2018.”中提到的模型GRN、文献“A.Li,C.Zheng,C.Fan,R.Peng,and X.Li,“A recursive network with dynamic attention for monaural speechenhancement,”in Interspeech 2020,21st Annual Conference of the InternationalSpeech Communication Association,Virtual Event,Shanghai,China,25-29October2020.ISCA,2020,pp.2422–2426.”中提到的模型DARCN为对比例,将本发明提出的基于自适应注意力机制和渐进式学习的单声道语音增强方法IDANet与对比例的STOI和PESQ指标在不同信噪比条件下进行对比,如下表所示:
表1不同模型在可见噪声场景下的STOI和PESQ对比
Figure BDA0003275646180000071
表2不同模型在未见噪声场景下的STOI和PESQ对比
Figure BDA0003275646180000081
本发明仅仅使用DARCN一半的参数(0.68M),便取得了最优的性能,在模型训练时间上也有明显优势。所提出的基于信息蒸馏和聚合的单声道语音增强方法在STOI和PESQ指标上均好于所有对比例,其中STOI平均得分上比最优对比例高出0.40,PESQ平均得分上比最优对比例高出0.02。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (4)

1.一种基于信息蒸馏与聚合的低信噪比语音增强方法,其特征在于,包括以下步骤:
1)对原始语音信号进行短时傅立叶变换得到原始语谱图;
2)将原始语谱图进行语音特征提取得到语音信息表示;
3)对语音信息表示进行多阶段信息蒸馏处理得到过滤噪声成分之后的语音信息蒸馏结果;蒸馏处理通过N个串行自注意力信息处理子模块与N个串行的信息蒸馏子模块实现,第N个自注意力信息处理子模块的输出信号即为语音信息蒸馏结果:
第t个信息蒸馏子模块的输出信号Yt为:
Figure FDA0003275646170000011
第t个自注意力信息处理子模块输出的信号Xt为:
Figure FDA0003275646170000012
其中,t为序号变量,1≤t≤N,X0和Y0均为步骤2)输出的语音信息表示;Yt-1为第t-1个信息蒸馏子模块的输出信号Yt;Xt-1为第t-1个自注意力信息处理子模块的输出信号;
Figure FDA0003275646170000013
为自注意力信息处理函数,
Figure FDA0003275646170000014
为信息蒸馏处理函数;
Figure FDA0003275646170000015
其中,⊙代表点乘操作,At-1为第t-1个权重矩阵:
Figure FDA0003275646170000016
其中,σ是Sigmoid激活函数,Conv2和Conv3分别是两个不同卷积核的步长相同的二维卷积层;
4)将语音信息蒸馏结果进行语谱图重建;
5)对重建的语谱图进行反短时傅里叶变换得到时域增强语音信号。
2.如权利要求1所述方法,其特征在于,得到权重矩阵At-1的具体方法为:
Figure FDA0003275646170000017
σ是Sigmoid激活函数,Conv1代表了一个步长为(1,1)的二维卷积层,Ca是拼接操作,
Figure FDA0003275646170000018
代表全局平均池化操作,
Figure FDA0003275646170000019
代表全局最大池化操作。
3.如权利要求1或2所述方法,其特征在于,二维卷积层Conv2和Conv3的步长为(11,11)。
4.如权利要求1所述方法,其特征在于,步骤4)中语谱图重建的通过M个基于动态选择机制的自适应性信息集合模块串联完成,每个自适应性信息集合模块基于动态选择机制聚合对语音信息蒸馏结果进行的多尺度卷积处理和形变卷积处理的信息。
CN202111116339.4A 2021-09-23 2021-09-23 一种基于信息蒸馏与聚合的低信噪比语音增强方法 Pending CN113936679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111116339.4A CN113936679A (zh) 2021-09-23 2021-09-23 一种基于信息蒸馏与聚合的低信噪比语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111116339.4A CN113936679A (zh) 2021-09-23 2021-09-23 一种基于信息蒸馏与聚合的低信噪比语音增强方法

Publications (1)

Publication Number Publication Date
CN113936679A true CN113936679A (zh) 2022-01-14

Family

ID=79276590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111116339.4A Pending CN113936679A (zh) 2021-09-23 2021-09-23 一种基于信息蒸馏与聚合的低信噪比语音增强方法

Country Status (1)

Country Link
CN (1) CN113936679A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842864A (zh) * 2022-04-19 2022-08-02 电子科技大学 一种基于神经网络的短波信道信号分集合并方法
CN116994564A (zh) * 2023-09-26 2023-11-03 深圳市龙芯威半导体科技有限公司 一种语音数据的处理方法及处理装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161076A1 (en) * 2009-12-31 2011-06-30 Davis Bruce L Intuitive Computing Methods and Systems
CN110490136A (zh) * 2019-08-20 2019-11-22 电子科技大学 一种基于知识蒸馏的人体行为预测方法
WO2020163949A1 (en) * 2019-02-11 2020-08-20 Hexo Operations Inc. Methods and systems for industrial processes of cannabis products
CN111583923A (zh) * 2020-04-28 2020-08-25 北京小米松果电子有限公司 信息控制方法及装置、存储介质
CN112861791A (zh) * 2021-03-11 2021-05-28 河北工业大学 一种结合图神经网络和多特征融合的唇语识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161076A1 (en) * 2009-12-31 2011-06-30 Davis Bruce L Intuitive Computing Methods and Systems
WO2020163949A1 (en) * 2019-02-11 2020-08-20 Hexo Operations Inc. Methods and systems for industrial processes of cannabis products
CN110490136A (zh) * 2019-08-20 2019-11-22 电子科技大学 一种基于知识蒸馏的人体行为预测方法
CN111583923A (zh) * 2020-04-28 2020-08-25 北京小米松果电子有限公司 信息控制方法及装置、存储介质
CN112861791A (zh) * 2021-03-11 2021-05-28 河北工业大学 一种结合图神经网络和多特征融合的唇语识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WENXIN TAI等: ""IDANet:An information distillation and aggregation network for speech enhancement"", 《IEEE SIGNAL PROCESSING LETTERS》, pages 1998 - 2002 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842864A (zh) * 2022-04-19 2022-08-02 电子科技大学 一种基于神经网络的短波信道信号分集合并方法
CN114842864B (zh) * 2022-04-19 2023-05-23 电子科技大学 一种基于神经网络的短波信道信号分集合并方法
CN116994564A (zh) * 2023-09-26 2023-11-03 深圳市龙芯威半导体科技有限公司 一种语音数据的处理方法及处理装置
CN116994564B (zh) * 2023-09-26 2023-12-19 深圳市龙芯威半导体科技有限公司 一种语音数据的处理方法及处理装置

Similar Documents

Publication Publication Date Title
Li et al. Glance and gaze: A collaborative learning framework for single-channel speech enhancement
CN110246510B (zh) 一种基于RefineNet的端到端语音增强方法
CN113936679A (zh) 一种基于信息蒸馏与聚合的低信噪比语音增强方法
Zhao et al. FRCRN: Boosting feature representation using frequency recurrence for monaural speech enhancement
Kong et al. Speech denoising in the waveform domain with self-attention
CN112151059A (zh) 面向麦克风阵列的通道注意力加权的语音增强方法
JP6392409B2 (ja) 音声符号化のための混合コードブック励振のためのシステムおよび方法
CN103503061A (zh) 在一频谱域中用以处理已解码音频信号的装置及方法
CN112259120A (zh) 基于卷积循环神经网络的单通道人声与背景声分离方法
CN113823308B (zh) 一种使用单个带噪语音样本进行语音去噪的方法
CN112259119B (zh) 基于堆叠沙漏网络的音乐源分离方法
CN115497496B (zh) 一种基于FirePS卷积神经网络的语音增强方法
CN113470671A (zh) 一种充分利用视觉与语音联系的视听语音增强方法及系统
CN112509593A (zh) 一种语音增强网络模型、单通道的语音增强方法及系统
Qi et al. Exploring deep hybrid tensor-to-vector network architectures for regression based speech enhancement
Yechuri et al. A nested U-net with efficient channel attention and D3Net for speech enhancement
CN113936680B (zh) 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN115295002A (zh) 一种基于交互性时频注意力机制的单通道语音增强方法
CN115273884A (zh) 基于频谱压缩和神经网络的多阶段全频带语音增强方法
Kim et al. HD-DEMUCS: General Speech Restoration with Heterogeneous Decoders
Raj et al. Audio signal quality enhancement using multi-layered convolutional neural network based auto encoder–decoder
JPH09127987A (ja) 信号符号化方法及び装置
Wu et al. Exploiting Discrete Wavelet Transform Features in Speech Enhancement Technique Adaptive FullSubNet+
CN114495968B (zh) 语音处理方法、装置、电子设备及存储介质
Zhang et al. End-to-End Monaural Speech Separation with a Deep Complex U-Shaped Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination