CN113160839B - 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法 - Google Patents
一种基于自适应注意力机制和渐进式学习的单声道语音增强方法 Download PDFInfo
- Publication number
- CN113160839B CN113160839B CN202110408874.0A CN202110408874A CN113160839B CN 113160839 B CN113160839 B CN 113160839B CN 202110408874 A CN202110408874 A CN 202110408874A CN 113160839 B CN113160839 B CN 113160839B
- Authority
- CN
- China
- Prior art keywords
- adaptive
- attention
- convolution
- module
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 84
- 230000007246 mechanism Effects 0.000 title claims abstract description 32
- 230000000750 progressive effect Effects 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000010586 diagram Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims 1
- 238000007906 compression Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 8
- 238000013527 convolutional neural network Methods 0.000 description 12
- 230000000052 comparative effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Complex Calculations (AREA)
Abstract
本发明属于语音增强技术领域,具体提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法,用以解决现有基于CNN的语音增强模型因固定感受野导致泛化能力差的问题。本发明根据注意力机制构建得到自适应卷积模块(AACB),模块中并行构建多个感受野的卷积层,并根据输入特征信息为每个卷积层提取的特征分配权重,经过加权拼接实现模块的感受野的自适应调节,有效克服传统卷积模块固定感受野带来的特征提取的局限性问题;同时,本发明基于所述自适应卷积模块构建得到语音增强模型,并采用渐进式学习框架实现的复用,减小模型复杂度。综上,本发明能够适应不同环境下的语音特征提取,显著提升语音增强的泛化性和鲁棒性。
Description
技术领域
本发明属于语音增强技术领域,具体提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法。
背景技术
语音增强旨在通过分离语音和噪声成分来提高语音信号的可懂度和清晰度,对自动语音识别技术、助听器、移动设备等产业产生巨大影响,从而受到了极大的关注;近些年得益于深度学习的进步,业界内有关语音增强的研究显著增加,大量基于深度学习的方法实现了干净语音与噪声有效分离。
多层的深度神经网络(DNN)被用于从带噪对数功率谱到干净语音的非线性映射来对语音进行增强,证明了深度神经网络在语音增强任务上的有效性;与基于DNN的模型相比,卷积神经网络(CNN)由于其参数共享机制在参数更少的情况下获得了很好的性能。CNN在语音增强中有多种用处,包括使用冗余卷积编解码器模型来映射干净语音信号及使用基于CNN的模型来估算干净语音的复数谱图;进一步的,CNN和递归神经网络(RNN)的联合使用可以充分利用CNN的特征提取能力和RNN的时间建模能力;另外,有关学者还提出了带有门控和残差机制的扩张卷积模型以提高泛化能力。
感受野是决定卷积神经网络某一层中每个单元的值的输入区域,会极大地影响CNN模型的性能,使用不同尺寸的感受野可以从不同特征提取维度进行特征提取;在感受野较小的情况下,模型学习如何分辨噪声语音和干净语音对应区域,从而实现更准确的语音分离,而大的感受野使模型能够学习干净语音信号边缘的信息。然而,上述基于CNN的语音增强模型均采用固定感受野,固定感受野的局限性则使得模型无法适应不同环境的语音信号,导致语音增强的性能下降,即模型泛化能力差。
发明内容
本发明的目的在于针对现有基于CNN的语音增强模型由于一般卷积神经网络的感受野固定的特性而导致的泛化能力差的问题,提出一种基于自适应注意力机制和渐进式学习的单声道语音增强方法;该方法基于图像恢复领域中的注意力机制构建得到基于注意力的自适应卷积模块(AACB),使之能够根据输入特征图的特征信息自适应调节模块的感受野,进而实现语音信号特征的组适应提取;进一步基于自适应卷积模块(AACB)构建单声道语音增强模型与渐进式学习模型,实现噪声环境下的语音增强。
为实现上述目的,本发明采用的技术方案为:
一种基于自适应注意力机制和渐进式学习的单声道语音增强方法,包括以下步骤:
步骤1:对原始语音信号进行短时傅里叶变换得到原始语谱图;
步骤2:将原始语谱图输入单声道语音增强模型,由单声道语音增强模型输出第一阶段特征图;
步骤3:将原始语谱图与第一阶段特征图进行融合得到混合特征图;
步骤4:将混合特征图输入单声道语音增强模型,由单声道语音增强模型输出第二阶段特征图;
步骤5:对第二阶段特征图进行反短时傅里叶变换得到增强语音信号。
进一步的,所述步骤3的具体过程为:
步骤3-1:将原始语谱图与第一阶段特征图进行拼接,得到拼接特征图;
步骤3-2:将拼接特征图输入卷积记忆门控单元(convGRU),由卷积记忆门控单元输出混合特征图。
进一步的,所述单声道语音增强模型由语音特征编码器、堆叠线性门控单元和语音特征解码器串联构成;
所述语音特征编码器由4个基于注意力的自适应卷积模块(Attention-basedAdaptive Convolution Block,AACB)串联构成,依次为第一至第四自适应卷积模块;其中,第一自适应卷积模块的输入通道数为4、输出通道数为4,第二至第四自适应卷积模块的输出通道数依次为8、16、32;
所述语音特征解码器由4个基于注意力的自适应卷积模块(Attention-basedAdaptive Convolution Block,AACB)串联构成,依次为第五至第八自适应卷积模块;其中,第五自适应卷积模块的输入通道数为32、输出通道数为16,第六至第八自适应卷积模块的输出通道数依次为8、4、1;
所述堆叠线性门控单元由多个个线性门控单元(GLU)串联构成。
更进一步的,所述基于注意力的自适应卷积模块包括:全局平均池化层、K个操作层、卷积核大小为(1,1)的二维卷积层与注意力机制模块,其中,第一操作层为平均池化层,第二至第K操作层均为二维卷积层、且卷积核大小依次递增;
输入特征图同时输入全局平均池化层与K个操作层,K个操作层分别输出特征图:{h1,h2,...,hK};全局平均池化层输出平均信息Z={z1,z2,...,zQ}:
其中,q为输入通道索引、q=1,2,...,Q、Q为基于注意力的自适应卷积模块的输入通道数,T表示输入特征图的帧长,F表示输入特征图的频率,xi,j,q表示特征值;
所述注意力机制模块计算每个操作层的注意力权重并归一化:
α=W2·σ(W1·Z),α={α1,α2,...,αK}
将每个操作层输出的特征图与注意力权重相乘后进行拼接,得到特征图H:
将特征图H输入到卷积核大小为(1,1)的二维卷积中压缩特征图中的通道数,压缩后与输入特征图做残差连接后作为基于注意力的自适应卷积模块的输出。
本发明的有益效果在于:
本发明提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法,具有如下优点:
1)本发明根据注意力机制构建得到自适应卷积模块(AACB),每个自适应卷积模块中并行构建多种感受野(卷积核的大小)的卷积层,并根据输入特性图(语谱图)的特征信息为每个卷积层提取的特征分配权重,最后经过加权拼接即实现自适应卷积模块的感受野的自适应调节,有效克服传统卷积模块固定感受野带来的特征提取的局限性问题;
2)本发明基于所述自适应卷积模块构建得到对称式的语音特征编码器与解码器,进而构建语音增强模型,同时,基于语音增强模型引入渐进式学习框架,实现语音增强模型的复用,大大减小整个模型的复杂度,有效控制整个模型的参数数量;
综上,本发明提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法,能够适应不同环境下的语音特征提取,使模型能够适应不同噪声的声学特征,显著提升语音增强的泛化性和鲁棒性。
附图说明
图1为本发明基于自适应注意力和渐进式学习的单声道语音增强模型的网络结构示意图。
图2为本发明中基于注意力的自适应卷积模块的网络结构示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细描述,以便于本领域技术人员理解本发明,但以下叙述不能用于限制本发明的范围,一切利用本发明构思的发明创造均在保护之列。
本实施例提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法,主要用于噪声环境下的语音增强问题;
首先,基于自适应注意力机制构建基于注意力的自适应卷积模块(Attention-basedAdaptive Convolution Block,AACB);
传统的CNN体系结构固定了每一层的感受野,从而在不同的声学环境中导致了次优的结果;因此,本发明提出了一种基于注意力的自适应卷积模块,其灵感来自于图像恢复领域中;本发明并行构建多种感受野(卷积核的大小)的卷积模块,利用注意力机制自适应调整基于注意力的自适应卷积模块感受野、以适应不同环境下的语音特征提取;
本实施例中,基于注意力的自适应卷积模块如图2所示,具体包括:全局平均池化层、6个操作层、(1,1)的二维卷积层与注意力机制模块,其中,所述第1至第6操作层依次为:3×3的平均池化层、(3,3)的二维卷积层、(5,5)的二维卷积层、(7,7)的二维卷积层、(9,9)的二维卷积层、(11,11)的二维卷积层;
输入特征图同时输入全局平均池化层与6个操作层,6个操作层分别得到来自不同感受野的特征图:{h1,h2,h3,h4,h5,h6};全局平均池化层计算得到每一个输入通道的平均信息zq:
其中,q为通道索引、q=1,2,...,Q、Q为基于注意力的自适应卷积模块的输入通道数,T表示输入特征图的帧长,F表示输入特征图的频率,xi,j,q表示特征值;
全局平均池化层输出平均信息Z={z1,z2,...,zQ}输入到注意力机制模块,由注意力机制模块获取每个操作层的注意力权重:
α=W2·σ(W1·Z),α={α1,α2,...,αk,...,αK}
其中,与分别表示注意力机制中待训练的两个权重矩阵,k为操作层索引、k=1,2,...,K、K表示操作层的数量,αk表示第k个操作层的注意力权重,Cr为预设超参数、本实施例中设置为K/2,σ(·)表示sigmoid激活函数;
并将得到的各个操作层对应的注意力权重输入到softmax激活函数中进行归一化:
本实施例中,6个操作层输出的特征图{h1,h2,h3,h4,h5,h6}与注意力权重相乘后进行拼接,得到特征图H:
特征图H输入到(1,1)的二维卷积中压缩特征图中的通道数,最后将特征图H与输入做残差连接后作为基于注意力的自适应卷积模块的输出,特征图H与输入做残差能够保证不会出现梯度消失的问题;
其中,(11,11)、(9,9)、(7,7)、(5,5)、(3,3)及(1,1)分别表示二维卷积层的卷积核大小;3×3表示平均池化层的大小;
其次,基于上述基于注意力的自适应卷积模块(AACB)构建语音增强模型:
采用对称式编码解码器结构,具体包括:语音特征编码器、堆叠线性门控单元和语音特征解码器;进一步的:
所述语音特征编码器由4个基于注意力的自适应卷积模块(Attention-basedAdaptive Convolution Block,AACB)串联构成,依次为第一至第四基于注意力的自适应卷积模块,其中,第一基于注意力的自适应卷积模块的输入通道数为4、输出通道数为4,第二至第四基于注意力的自适应卷积模块的输出通道数依次为8、16、32;
所述语音特征解码器由4个基于注意力的自适应卷积模块(Attention-basedAdaptive Convolution Block,AACB)串联构成,依次为第五至第八基于注意力的自适应卷积模块,其中,第五基于注意力的自适应卷积模块的输入通道数为32、输出通道数为16,第六至第八基于注意力的自适应卷积模块的输出通道数依次为8、4、1;
所述堆叠线性门控单元由6个线性门控单元(GLU)依次串联构成,每个GLU通过门控单元来控制信息流;
最后,基于上述语音增强模型构建渐进式学习模型,如图1所示;
针对深层神经网络存在的一个普遍问题:随着网络层数的增加、模型的性能会因参数增加和梯度消失而受到影响;本发明采用渐进式学习机制,并将其扩展以构建基于时频域的两阶段渐进式学习模型;其中,渐进式学习的第一阶段不直接重建增强语音信号,而是将其与原始输入语音信号的语谱图共同作为第二阶段的输入,采用第二阶段的输出特征图重建增强语音信号;本发明等效于具有共享参数的两阶段模型,通过渐进式学习构建了具有较低空间复杂度的轻量级渐进式学习模型;
进一步的,每阶段学习使用相同的网络结构来共享参数,每阶段学习都输入通过短时傅里叶变换得到原始输入语音信号的语谱图:
Fspec=S(X)
其中,Fspec表示原始输入语音信号的语谱图,S(·)表示短时傅里叶变换,X表示原始输入语音信号;
采用卷积记忆门控单元(convGRU)作为记忆单元进行选择性记忆,将第一阶段的输出的特征图和原始输入语音信号的语谱图进行融合,得到混合特征图:
F′=fconvGRU(F)
本实施例中,所述渐进式学习模型的训练集选择TIMIT数据集中3696个语句,干净语音采样率均为8kHz、噪声均来自Noisex92数据集(包括六种不同环境噪声);模型一共训练了60轮,设置学习率为0.0002,采用平均绝对误差函数(MAE)作为损失函数,使用Adam优化器对渐进式学习模型进行训练。
采用TIMIT数据集中192个语句(干净语音采样率均为8kHz、噪声均来自Noisex92数据集)作为测试集,对上述训练完成的渐进式学习模型进行测试;对语音使用短时傅里叶变换(STFT),使用窗长度为32ms、帧重叠为16ms的汉宁窗将语音信号转换为语谱图,并分别在-10db、-5db、0db、5db、10db信噪比下进行测试,评估指标选用短时客观清晰度(STOI)和语音质量感知评估(PESQ)。
以文献“Ke Tan,Jitong Chen,and DeLiang Wang,Gated residual networkswith dilated convolutions for monaural speech enhancement,IEEE/ACMtransactions on audio,speech,and language processing,vol.27,no.1,pp.189–198,2018.”中提到的模型GRN、文献“Andong Li,Chengshi Zheng,Linjuan Cheng,RenhuaPeng,and Xiaodong Li,A time-domain monaural speech enhancement with recursivelearning,arXiv,pp.arXiv–2003,2020.”中提到的模型RTNet、文献“Tian Lan,Yilan Lyu,Wenzheng Ye,Guoqiang Hui,Zenglin Xu,and Qiao Liu,Combining multi-perspectiveattention mechanism with convolutional networks for monaural speechenhancement,IEEE Access,vol.8,pp.78979–78991,2020.”中提到的模型ARCN为对比例,将本发明提出的基于自适应注意力机制和渐进式学习的单声道语音增强方法APNet与对比例的STOI和PESQ指标在不同信噪比条件下进行对比,如下表所示:
由表可见,本发明提出的基于自适应注意力机制和渐进式学习的单声道语音增强方法在STOI和PESQ指标上均好于所有对比例,其中STOI平均得分上比最优对比例高出1.63,PESQ平均得分上比最优对比例高出0.13。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (3)
1.一种基于自适应注意力机制和渐进式学习的单声道语音增强方法,其特征在于,包括以下步骤:
步骤1:对原始语音信号进行短时傅里叶变换得到原始语谱图;
步骤2:将原始语谱图输入单声道语音增强模型,由单声道语音增强模型输出第一阶段特征图;
步骤3:将原始语谱图与第一阶段特征图进行融合得到混合特征图;具体为:将原始语谱图与第一阶段特征图进行拼接,得到拼接特征图;再将拼接特征图输入卷积记忆门控单元,由卷积记忆门控单元输出混合特征图;
步骤4:将混合特征图输入单声道语音增强模型,由单声道语音增强模型输出第二阶段特征图;
步骤5:对第二阶段特征图进行反短时傅里叶变换得到增强语音信号;
所述单声道语音增强模型由语音特征编码器、堆叠线性门控单元和语音特征解码器串联构成,所述语音特征编码器由多个基于注意力的自适应卷积模块串联构成,所述语音特征解码器由多个基于注意力的自适应卷积模块串联构成,所述堆叠线性门控单元由多个线性门控单元串联构成;其中,所述基于注意力的自适应卷积模块包括:全局平均池化层、K个操作层、卷积核大小为(1,1)的二维卷积层与注意力机制模块,第一操作层为平均池化层,第二至第K操作层均为二维卷积层、且卷积核大小依次递增;输入特征图同时输入全局平均池化层与K个操作层,K个操作层分别输出特征图;所述注意力机制模块计算每个操作层的注意力权重并归一化,将每个操作层输出的特征图与注意力权重相乘后进行拼接,得到拼接特征图;将拼接特征图输入到卷积核大小为(1,1)的二维卷积中压缩特征图中的通道数,压缩后与输入特征图做残差连接后作为基于注意力的自适应卷积模块的输出。
2.按权利要求1所述基于自适应注意力机制和渐进式学习的单声道语音增强方法,其特征在于,所述语音特征编码器由4个基于注意力的自适应卷积模块串联构成,依次为第一至第四自适应卷积模块;其中,第一自适应卷积模块的输入通道数为4、输出通道数为4,第二至第四自适应卷积模块的输出通道数依次为8、16、32;
所述语音特征解码器由4个基于注意力的自适应卷积模块串联构成,依次为第五至第八自适应卷积模块;其中,第五自适应卷积模块的输入通道数为32、输出通道数为16,第六至第八自适应卷积模块的输出通道数依次为8、4、1。
3.按权利要求1所述基于自适应注意力机制和渐进式学习的单声道语音增强方法,其特征在于,所述基于注意力的自适应卷积模块中,K个操作层分别输出特征图为:{h1,h2,...,hK};全局平均池化层输出平均信息Z={z1,z2,...,zQ}:
其中,q为输入通道索引、q=1,2,...,Q、Q为基于注意力的自适应卷积模块的输入通道数,T表示输入特征图的帧长,F表示输入特征图的频率,xi,j,q表示特征值;
每个操作层的注意力权重的归一化结果为:
α=W2·σ(W1·Z),α={α1,α2,...,αK}
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110408874.0A CN113160839B (zh) | 2021-04-16 | 2021-04-16 | 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110408874.0A CN113160839B (zh) | 2021-04-16 | 2021-04-16 | 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113160839A CN113160839A (zh) | 2021-07-23 |
CN113160839B true CN113160839B (zh) | 2022-10-14 |
Family
ID=76868002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110408874.0A Expired - Fee Related CN113160839B (zh) | 2021-04-16 | 2021-04-16 | 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113160839B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113299306B (zh) * | 2021-07-27 | 2021-10-15 | 北京世纪好未来教育科技有限公司 | 回声消除方法、装置、电子设备及计算机可读存储介质 |
CN114550743B (zh) * | 2022-02-23 | 2024-05-28 | 平安科技(深圳)有限公司 | 一种语音增强方法、装置、计算机设备及存储介质 |
CN114842864B (zh) * | 2022-04-19 | 2023-05-23 | 电子科技大学 | 一种基于神经网络的短波信道信号分集合并方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289334A (zh) * | 2020-12-29 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 一种混响消除方法及装置 |
CN112509593A (zh) * | 2020-11-17 | 2021-03-16 | 北京清微智能科技有限公司 | 一种语音增强网络模型、单通道的语音增强方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BRPI0904540B1 (pt) * | 2009-11-27 | 2021-01-26 | Samsung Eletrônica Da Amazônia Ltda | método para animar rostos/cabeças/personagens virtuais via processamento de voz |
CN110767244B (zh) * | 2018-07-25 | 2024-03-29 | 中国科学技术大学 | 语音增强方法 |
CN110299149A (zh) * | 2019-06-18 | 2019-10-01 | 电子科技大学 | 一种基于注意力机制的语音增强算法 |
CN110718232B (zh) * | 2019-09-23 | 2020-08-18 | 东南大学 | 一种基于二维语谱图和条件生成对抗网络的语音增强方法 |
CN110491406B (zh) * | 2019-09-25 | 2020-07-31 | 电子科技大学 | 一种多模块抑制不同种类噪声的双噪声语音增强方法 |
-
2021
- 2021-04-16 CN CN202110408874.0A patent/CN113160839B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509593A (zh) * | 2020-11-17 | 2021-03-16 | 北京清微智能科技有限公司 | 一种语音增强网络模型、单通道的语音增强方法及系统 |
CN112289334A (zh) * | 2020-12-29 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 一种混响消除方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113160839A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113160839B (zh) | 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法 | |
Li et al. | Neural network adaptive beamforming for robust multichannel speech recognition. | |
WO2021042870A1 (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
Le et al. | DPCRN: Dual-path convolution recurrent network for single channel speech enhancement | |
Zhang et al. | On end-to-end multi-channel time domain speech separation in reverberant environments | |
CN110675891A (zh) | 一种基于多层注意力机制的语音分离方法、模块 | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
Masuyama et al. | End-to-end integration of speech recognition, dereverberation, beamforming, and self-supervised learning representation | |
Zhang et al. | Teacher-student MixIT for unsupervised and semi-supervised speech separation | |
CN114067818B (zh) | 一种时域柔性振动传感器语音增强方法及系统 | |
Chao et al. | Cross-domain single-channel speech enhancement model with bi-projection fusion module for noise-robust ASR | |
Tan et al. | Selective mutual learning: An efficient approach for single channel speech separation | |
Liu et al. | PLCNet: Real-time Packet Loss Concealment with Semi-supervised Generative Adversarial Network. | |
CN110970044A (zh) | 一种面向语音识别的语音增强方法 | |
CN110867178B (zh) | 一种多通道远场语音识别方法 | |
CN110544485A (zh) | 一种利用cnn的se-ed网络进行远场语音去混响的方法 | |
Cornell et al. | Implicit acoustic echo cancellation for keyword spotting and device-directed speech detection | |
CN117310668A (zh) | 融合注意力机制与深度残差收缩网络的水声目标识别方法 | |
CN115472168B (zh) | 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备 | |
Wan | Research on speech separation and recognition algorithm based on deep learning | |
Zhao et al. | Time Domain Speech Enhancement using self-attention-based subspace projection | |
CN115295002A (zh) | 一种基于交互性时频注意力机制的单通道语音增强方法 | |
Jannu et al. | Convolutional Transformer based Local and Global Feature Learning for Speech Enhancement | |
Lee et al. | Leveraging Self-Supervised Speech Representations for Domain Adaptation in Speech Enhancement | |
Liu et al. | Long short term memory networks weighted prediction error for far-field speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221014 |
|
CF01 | Termination of patent right due to non-payment of annual fee |