CN110189761B - 一种基于贪婪深度字典学习的单信道语音去混响方法 - Google Patents

一种基于贪婪深度字典学习的单信道语音去混响方法 Download PDF

Info

Publication number
CN110189761B
CN110189761B CN201910421436.0A CN201910421436A CN110189761B CN 110189761 B CN110189761 B CN 110189761B CN 201910421436 A CN201910421436 A CN 201910421436A CN 110189761 B CN110189761 B CN 110189761B
Authority
CN
China
Prior art keywords
dictionary
speech
dereverberation
matrix
dictionary learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910421436.0A
Other languages
English (en)
Other versions
CN110189761A (zh
Inventor
关键
孙建国
刘加贝
袁野
尹晗琦
田野
林尤添
王文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201910421436.0A priority Critical patent/CN110189761B/zh
Publication of CN110189761A publication Critical patent/CN110189761A/zh
Application granted granted Critical
Publication of CN110189761B publication Critical patent/CN110189761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供的是一种基于贪婪深度字典学习的单信道语音去混响方法。步骤一、将输入的混沌、纯净语音进行信号预处理,进行特征的提取;步骤二、结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立;步骤三、将建立好的模型与提取的特征进行模型训练,得到基本系数;步骤四、再次输入混沌、纯净语音信号数据进行测试,经过傅里叶逆变换后,最终得到纯净语音。本发明将传统的单信道语音去混响方法与深度字典学习相结合,提高单信道去混响的效果,使其具有良好的去混响效果,提高深度网络结构的可推导性。

Description

一种基于贪婪深度字典学习的单信道语音去混响方法
技术领域
本发明涉及的是一种单信道去混响方法。
背景技术
混响是指在声学上,除延迟时间达到约50ms以上的反应波称为回声外,其余的反射波产生的效应统称为混响。随着互联网发展及智能设备的普及,语音或声音信号的可理解性与可感知性对于人机交互的用户体验变得尤为重要。然而混响严重影响了语音识别的准确率,降低了用户智能交互的体验,同时增加了有听力障碍者对于语音理解的困难度。
语音去混响的目的是抑制或移除混响语音中的混响成分,尽可能的实现源信号的恢复。根据系统麦克风的数量分为:单信道语音去混响和多信道语音去混响。其中单信道语音去混响利用接收位置一点的语音信号时频域特性作为先验信息对混响信号进行处理,具有系统相对简单,计算复杂度低以及成本较为低廉等优势。因此,单信道语音去混响问题具有重要的研究价值。
传统的单信道语音去混响的方法大多通过先建立语音去混响模型,通过加入不同的约束条件在非适定问题中求出可确定的解,从而获得符合条件的估计信号。尽管在求解估计信号时具有可解释性,但这些方法都存在适用范围不足,实际效果不佳等缺点。基于深度学习的语音去混响方法通过训练大量样本,直接学习混响语音和纯净语音之间的非线性映射关系。虽然能取得很好的去混响结果,但具有数据获得困难和参数冗余的缺点,导致其在实际应用中性能下降。
发明内容
本发明的目的在于提供一种能够提高单信道去混响效果的基于贪婪深度字典学习的单信道语音去混响方法。
本发明的目的是这样实现的:
步骤一、将输入的混沌、纯净语音进行信号预处理,进行特征的提取;
步骤二、结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立;
步骤三、将建立好的模型与提取的特征进行模型训练,得到基本系数;
步骤四、再次输入混沌、纯净语音信号数据进行测试,经过傅里叶逆变换后,最终得到纯净语音。
所述的结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立具体包括:
1、对单信道语音去混响进行建模,具体描述为:
(1)将n时刻的语音信号利用下式进行描述:
Figure BDA0002066111040000021
其中D是原始语音,nk是k次反射后的延时单元数,ρk是第k次反射时的发射系数,s(n-knk)是第k次反射后的语音信号,u(n)表示周围环境的噪声,x(n)表示混响语音;
(2)将环境噪声u(n)去掉简化得:
Figure BDA0002066111040000022
(3)根据单位冲激函数的卷积性质,改为卷积的形式:
Figure BDA0002066111040000023
其中,h(n)是冲击响应,*是卷积操作符号,δ(n)表示单位冲激函数,h(n)反应混响的物理特征、是位于knk并且都衰减ρk倍后的许多冲击函数δ(n)的叠加,房间脉冲响应h(n)和纯净语音s(n)卷积后获得混响语音x(n);
2、将单信道语音去混响模型转化为基于稀疏表示的单信道语音去混响模型,其转化过程如下:
(1)通过稀疏表示方法对单信道语音去混响进行建模分析,在忽略环境噪声的情况下,利用下式简单描述语音去混响问题:
Y=HX
其中Y是混响语音,H是RIR,且有X=AS;
(2)根据X=AS,假定纯净语音含有正交基稀疏矩阵表示矩阵A,则单信道语音去混响的稀疏表示为:
Figure BDA0002066111040000024
其中λ>0是用于控制稀疏性与测量空间的参数;
(3)使用ISTA算法进行求解;
3、引入深度语音字典,将字典学习问题转化为以下两种表示方法,任选其一:
方法1,将求解目标函数定义为:
X=DZ
其中X是纯净语音,D是语音字典,Z是稀疏表示矩阵;
字典学习问题表示为求解目标函数:
Figure BDA0002066111040000031
方法2,采用K-SVD字典学习算法,将求解目标函数定义为:
Figure BDA0002066111040000032
其中zi是矩阵Z中的第i列,||.||0表示zi中非零元素的个数,τ表示稀疏程度,用于控制Z的每一列中所含非零元素的最大个数;
4、引入深度语音字典后,进行求解,具体描述为:
(1)根据单层字典学习进行求解,在求解过程中利用稀疏编码和字典更新,具体描述如下:
1)稀疏编码,运用LARC方法,已知字典D(t-1),在第t次字典学习迭代中稀疏矩阵的每个列向量更新如下表示:
Figure BDA0002066111040000033
其中X(:,n)表示给定的观测矩阵,D(t-1)表示字典矩阵,
Figure BDA0002066111040000034
表示满足稀疏约束条件的稀疏表示矩阵;
2)字典更新,根据所获得稀疏表示矩阵Z,从训练信号集X中寻找当次迭代中更适合训练信号的字典D,字典更新如下式表示:
Figure BDA0002066111040000035
Figure BDA0002066111040000036
3)针对每一个原子||D(:,l)||2=1,
Figure BDA0002066111040000037
残差表示为:
Figure BDA0002066111040000038
式中将DZ分解为L个秩为1的矩阵(d(:,l)z(l:,))之和,Rl代表除第l个原子之外的原子所带来的残差。通过SVD分解找到与Rl最为接近的秩为1的矩阵;
4)进行预处理,定义Λl为下式:
Λl={i|1≤i≤K,c(l,:)(i)≠0}
5)定义M为D×|Λl|的矩阵,其中(Λl(i),i)设置为1,其他设置为0,则:
Figure BDA0002066111040000041
上式
Figure BDA0002066111040000042
代表R(l)保留z(l,:)中非零元素所对应的原子所构成的矩阵,
Figure BDA0002066111040000043
代表z(l,:)只保留非零元素所构成的向量,字典更新如下式表示:
Figure BDA0002066111040000044
6)对
Figure BDA0002066111040000045
进行SVD分解得到下式:
Figure BDA0002066111040000046
7)使用U中的第一列来跟新d(:,l),V的第一列乘以Δ(l,l)来更新相应的系数,完成一个原子的更新;
(2)根据深度字典学习进行求解,具体过程如下:
1)由下式描述多层字典学习,
X=D1*D2*Z
其中D2,D2分别是双层神经网络中每层的字典;
2)采用逐层训练进行逐层分解,首先训练除第一特征层Z1,字典D1:
X=D1*Z1
其次对Z1进行分解,求解第二层字典D2、特征Z2:
Z1=D2*Z2
之后以此类推,得到更深层的语音字典学习;
3)基于贪婪深度字典学习的单信道语音去混响模型由此建立。
本发明将传统的单信道语音去混响方法与深度字典学习相结合,提高单信道去混响的效果,使其具有良好的去混响效果,提高深度网络结构的可推导性。
附图说明
图1本发明的方法流程图。
图2单层字典学习的示意图。
图3双层学习示意图。
图4贪婪的分层学习示意图。
具体实施方式
下面举例对本发明做更详细的描述。
如图1所示,本发明基于贪婪深度字典学习的单信道语音去混响技术,首先将输入的混沌、纯净语音进行信号预处理,进行特征的提取;其次,对单信道语音去混响问题结合贪婪深度字典学习进行模型的建立,具体描述如下:
1、对单信道语音去混响问题进行数学建模。
通过混响产生的具体的物理原理,对单信道语音去混响问题进行尽可能的数学建模。混响是指在声学上,除延迟时间达到约50ms以上的反应波称为回声外,其余的反射波产生的效应统称为混响。早期的混响会产生一种声染色现象,它会导致语音信号在频域失真。后期混响的存在会导致语音模糊不清,降低语音可懂度。因此,提出该发明能够有效的解决上述问题。具体描述方法如下所示。
(1)将n时刻的语音信号利用下式进行描述:
Figure BDA0002066111040000051
其中D是原始语音,nk是k次反射后的延时单元数,ρk是第k次反射时的发射系数,s(n-knk)是第k次反射后的语音信号,u(n)表示周围环境的噪声,x(n)表示混响语音。
(2)为了对混响问题进行建模分析,将步骤1中(1)过程的环境噪声u(n)去掉简化得:
Figure BDA0002066111040000052
(3)根据单位冲激函数de卷积性质,将步骤1中(2)的公式改写为卷积的形式:
Figure BDA0002066111040000053
其中,h(n)是冲击响应(Room Impulse Response,RIR),*是卷积操作符号,δ(n)表示单位冲激函数,h(n)可以表示混响的物理特征,它是位于knk并且都衰减ρk倍后的许多冲击函数δ(n)的叠加。
h(n)是冲击响应(Room Impulse Response,RIR)也可称为房间脉冲响应。房间脉冲响应是一个由生源位置发出到麦克风位置的脉冲响应撩号,它反映了声学环境所有声学特性。由步骤1中(3)式可知,房间脉冲响应h(n)和纯净语音s(n)卷积后获得混响语音x(n)。因此,去混响的过程就是在混响语音x(n)中去除房间的脉冲响应h(n)的影响,最终获得纯净的语音s(n),因此这一过程的关键点就是求出h(n)的逆。
2、将单信道语音去混响模型转化为基于稀疏表示的单信道语音去混响模型,转化过程如下:
(1)通过稀疏表示方法对单信道语音去混响问题进行建模分析。在忽略环境噪声的情况下,利用下式描述语音去混响问题:
Y=HX
其中Y是混响语音,H是RIR,且有X=AS。
(2)根据步骤2中(1)的X=AS,假定纯净语音含有正交基稀疏矩阵表示矩阵A,则单信道语音去混响的稀疏表示可以写为:
Figure BDA0002066111040000061
其中λ>0是用于控制稀疏性与测量空间的参数。
(3)步骤2中的(2)式,使用ISTA算法进行求解。
3、在步骤2的求解基础上,将深度语音字典引入混响的问题中。为了获得深度语音字典,将字典学习问题可以转化为以下两种表示方法,任选其一:
方法1,将求解目标函数定义为:
X=DZ
其中X是纯净语音,D是语音字典,Z是稀疏表示矩阵。从矩阵分解角度看字典学习过程:给定样本数据集X,X的每一列表示一个样本。如图2所示,字典的学习目标就是把X矩阵分解为D、Z矩阵。
为了获得字典,字典学习问题通常可以表示为求解目标函数:
Figure BDA0002066111040000062
方法2,根据K-SVD字典学习算法,求解目标函数定义为:
Figure BDA0002066111040000063
其中zi是矩阵Z中的第i列,||·||0表示zi中非零元素的个数,τ表示稀疏程度,用于控制Z的每一列中所含非零元素的最大个数。
K-SVD是一种经典的字典训练算法,依据误差最小原则,对误差进行奇异值分解(singular value decomposition,SVD)分解,选择使误差最小的分解项作为更新的字典原子和对应的原子字数,经过不断的迭代从而得到优化的解。
4、引入深度语音字典后,进行问题的求解。具体描述为:
(1)在求解过程中利用稀疏编码和字典更新进行单层字典学习的求解。稀疏编码是指给定观测矩阵X和字典矩阵Z,估计满足稀疏约束条件的稀疏表示矩阵Z。利用LARC的方法,具体描述如下:
1)稀疏编码,已知字典D(t-1),在第t次字典学习迭代中稀疏矩阵的每个列向量更新如下表示:
Figure BDA0002066111040000071
其中X(:,n)表示给定的观测矩阵,D(t-1)表示字典矩阵,
Figure BDA0002066111040000072
表示满足稀疏约束条件的稀疏表示矩阵。
2)字典更新,根据步骤4(1)中1)所获得稀疏表示矩阵Z,从训练信号集X中寻找档次迭代中更适合训练信号的字典D,字典更新如下式表示:
Figure BDA0002066111040000073
Figure BDA0002066111040000074
该问题可以通过K-SVD字典更新来解决,K-SVD字典更新是对字典中的每一个原子逐个更新。
3)针对每一个原子||D(:,l)||2=1,
Figure BDA0002066111040000075
残差可以表示为:
Figure BDA0002066111040000076
式中将DZ分解为L个秩为1的矩阵(d(:,l)z(l,:))之和。Rl代表除第l个原子之外的原子所带来的残差。通过SVD分解找到与Rl最为接近的秩为1的矩阵
4)为了保证编码结果的有效性,在SVD分解前,对步骤4(1)中3)式进行预处理,定义Λl为下式:
Λl={i|1≤i≤K,c(l,:)(i)≠0}
5)定义M为D×|Λl|的矩阵,其中(Λl(i),i)设置为1,其他设置为0,则步骤4(1)中2)式等价于下式:
Figure BDA0002066111040000077
上式
Figure BDA0002066111040000078
代表式3)中R(l)保留z(l,:)中非零元素所对应的原子所构成的矩阵。同样
Figure BDA0002066111040000079
代表z(l,:)只保留非零元素所构成的向量,字典更新如下式表示:
Figure BDA00020661110400000710
6)对上式
Figure BDA0002066111040000081
进行SVD分解得到下式:
Figure BDA0002066111040000082
7)使用U中的第一列来更新d(:,l),V的第一列乘以Δ(l,l)来更新相应的系数,至此完成了一个原子的更新。
(2)根据深度字典学习进行求解过程,具体过程如下:
1)由下式描述多层字典学习,其网络结构如图3所示。
X=D1*D2*Z
其中D2,D2分别是双层神经网络中每层的字典。
2)采用逐层训练的思想对步骤4(2)中1)进行逐层分解。以双层分解为例进行分解如图4所示,首先训练除第一特征层Z1,字典D1:
X=D1*Z1
其次对Z1进行分解,求解第二层字典D2、特征Z2:
Z1=D2*Z2
之后以此类推,得到更深层的字典学习。
3)先进的基于贪婪深度字典学习的单信道语音去混响模型由此建立。
最后,将建立好的模型与提取的特征进行模型训练,得到基本系数后,再次输入混沌、纯净语音信号数据进行测试,然后经过傅里叶逆变换,最终得到纯净语音。
一种基于贪婪深度字典学习的单信道语音去混响技术将传统的单信道语音去混响方法与深度语音字典学习相结合,能够提高模型的可解释性和可推导性,有效的提高语音去混响的效果。

Claims (1)

1.一种基于贪婪深度字典学习的单信道语音去混响方法,包括如下步骤:
步骤一、将输入的混沌、纯净语音进行信号预处理,进行特征的提取;
步骤二、结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立;
步骤三、将建立好的模型与提取的特征进行模型训练,得到基本系数;
步骤四、再次输入混沌、纯净语音信号数据进行测试,经过傅里叶逆变换后,最终得到纯净语音;
其特征是所述的结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立具体包括:
第1、对单信道语音去混响进行建模,具体描述为:
(1)将n时刻的语音信号利用下式进行描述:
Figure FDA0002887224800000011
其中D是原始语音,nk是k次反射后的延时单元数,ρk是第k次反射时的发射系数,s(n-knk)是第k次反射后的语音信号,u(n)表示周围环境的噪声,x(n)表示混响语音;
(2)将环境噪声u(n)去掉简化得:
Figure FDA0002887224800000012
(3)根据单位冲激函数的卷积性质,改为卷积的形式:
Figure FDA0002887224800000013
其中,h(n)是冲击响应,*是卷积操作符号,δ(n)表示单位冲激函数,h(n)反应混响的物理特征、是位于knk并且都衰减ρk倍后的许多冲击函数δ(n)的叠加,房间脉冲响应h(n)和纯净语音s(n)卷积后获得混响语音x(n);
第2、将单信道语音去混响模型转化为基于稀疏表示的单信道语音去混响模型,其转化过程如下:
(1)通过稀疏表示方法对单信道语音去混响进行建模分析,在忽略环境噪声的情况下,利用下式简单描述语音去混响问题:
Y=HX
其中Y是混响语音,H是RIR,且有X=AS;
(2)根据X=AS,假定纯净语音含有正交基稀疏矩阵表示矩阵A,则单信道语音去混响的稀疏表示为:
Figure FDA0002887224800000021
其中λ>0是用于控制稀疏性与测量空间的参数;
(3)使用ISTA算法进行求解;
第3、引入深度语音字典,将字典学习问题转化为以下两种表示方法,任选其一:
方法1,将求解目标函数定义为:
X=DZ
其中X是纯净语音,D是语音字典,Z是稀疏表示矩阵;
字典学习问题表示为求解目标函数:
Figure FDA0002887224800000022
方法2,采用K-SVD字典学习算法,将求解目标函数定义为:
Figure FDA0002887224800000023
其中zi是矩阵Z中的第i列,||.||0表示zi中非零元素的个数,τ表示稀疏程度,用于控制Z的每一列中所含非零元素的最大个数;
第4、引入深度语音字典后,进行求解,具体描述为:
(1)根据单层字典学习进行求解,在求解过程中利用稀疏编码和字典更新,具体描述如下:
1)稀疏编码,运用LARC方法,已知字典D(t-1),在第t次字典学习迭代中稀疏矩阵的每个列向量更新如下表示:
Figure FDA0002887224800000024
其中X(:,n)表示给定的观测矩阵,D(t-1)表示字典矩阵,
Figure FDA0002887224800000025
表示满足稀疏约束条件的稀疏表示矩阵;
2)字典更新,根据所获得稀疏表示矩阵Z,从训练信号集X中寻找当次迭代中更适合训练信号的字典D,字典更新如下式表示:
Figure FDA0002887224800000026
Figure FDA0002887224800000027
3)针对每一个原子
Figure FDA0002887224800000028
残差表示为:
Figure FDA0002887224800000031
式中将DZ分解为L个秩为1的矩阵(d(:,l)z(l:,))之和,Rl代表除第l个原子之外的原子所带来的残差。通过SVD分解找到与Rl最为接近的秩为1的矩阵;
4)进行预处理,定义Λl为下式:
Λl={i|1≤i≤K,c(l,:)(i)≠0}
5)定义M为D×|Λl|的矩阵,其中(Λl(i),i)设置为1,其他设置为0,则:
Figure FDA0002887224800000032
上式
Figure FDA0002887224800000033
代表R(l)保留z(l,:)中非零元素所对应的原子所构成的矩阵,
Figure FDA0002887224800000034
代表z(l,:)只保留非零元素所构成的向量,字典更新如下式表示:
Figure FDA0002887224800000035
6)对
Figure FDA0002887224800000036
进行SVD分解得到下式:
Figure FDA0002887224800000037
7)使用U中的第一列来跟新d(:,l),V的第一列乘以Δ(l,l)来更新相应的系数,完成一个原子的更新;
(2)根据深度字典学习进行求解,具体过程如下:
1)由下式描述多层字典学习,
X=D1*D2*Z
其中D2,D2分别是双层神经网络中每层的字典;
2)采用逐层训练进行逐层分解,首先训练除第一特征层Z1,字典D1:
X=D1*Z1
其次对Z1进行分解,求解第二层字典D2、特征Z2:
Z1=D2*Z2
之后以此类推,得到更深层的语音字典学习;
3)基于贪婪深度字典学习的单信道语音去混响模型由此建立。
CN201910421436.0A 2019-05-21 2019-05-21 一种基于贪婪深度字典学习的单信道语音去混响方法 Active CN110189761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910421436.0A CN110189761B (zh) 2019-05-21 2019-05-21 一种基于贪婪深度字典学习的单信道语音去混响方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910421436.0A CN110189761B (zh) 2019-05-21 2019-05-21 一种基于贪婪深度字典学习的单信道语音去混响方法

Publications (2)

Publication Number Publication Date
CN110189761A CN110189761A (zh) 2019-08-30
CN110189761B true CN110189761B (zh) 2021-03-30

Family

ID=67717014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910421436.0A Active CN110189761B (zh) 2019-05-21 2019-05-21 一种基于贪婪深度字典学习的单信道语音去混响方法

Country Status (1)

Country Link
CN (1) CN110189761B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12009004B2 (en) * 2020-02-10 2024-06-11 Tencent Technology (Shenzhen) Company Limited Speech enhancement method and apparatus, electronic device, and computer-readable storage medium

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614500A (zh) * 2019-09-18 2021-04-06 北京声智科技有限公司 回声消除方法、装置、设备及计算机存储介质
CN111383652B (zh) * 2019-10-25 2023-09-12 南京邮电大学 一种基于双层字典学习的单通道语音增强方法
CN113012709B (zh) * 2019-12-20 2023-06-30 北京声智科技有限公司 一种回声消除方法及装置
CN111312270B (zh) * 2020-02-10 2022-11-22 腾讯科技(深圳)有限公司 语音增强方法及装置、电子设备和计算机可读存储介质
CN111414580B (zh) * 2020-03-25 2023-03-24 西北工业大学 一种低信混比条件下的混响抑制方法
CN112141837A (zh) * 2020-09-08 2020-12-29 金陵科技学院 一种基于多层字典学习的智能语音电梯系统
CN112542177B (zh) * 2020-11-04 2023-07-21 北京百度网讯科技有限公司 信号增强方法、装置及存储介质
CN113257265A (zh) * 2021-05-10 2021-08-13 北京有竹居网络技术有限公司 语音信号去混响方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081928A (zh) * 2010-11-24 2011-06-01 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
CN103886557A (zh) * 2014-03-28 2014-06-25 北京工业大学 一种深度图像的去噪方法
CN104021797A (zh) * 2014-06-19 2014-09-03 南昌大学 一种基于频域稀疏约束的语音信号增强方法
CN105957537A (zh) * 2016-06-20 2016-09-21 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统
JP2017514249A (ja) * 2014-07-30 2017-06-01 三菱電機株式会社 入力信号を変換する方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081928A (zh) * 2010-11-24 2011-06-01 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
CN103886557A (zh) * 2014-03-28 2014-06-25 北京工业大学 一种深度图像的去噪方法
CN104021797A (zh) * 2014-06-19 2014-09-03 南昌大学 一种基于频域稀疏约束的语音信号增强方法
JP2017514249A (ja) * 2014-07-30 2017-06-01 三菱電機株式会社 入力信号を変換する方法
CN105957537A (zh) * 2016-06-20 2016-09-21 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于稀疏表示的语音盲卷积和房间脉冲响应建模方法研究》;关键;《中国博士论文全文数据库》;20190131;第4-6章 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12009004B2 (en) * 2020-02-10 2024-06-11 Tencent Technology (Shenzhen) Company Limited Speech enhancement method and apparatus, electronic device, and computer-readable storage medium

Also Published As

Publication number Publication date
CN110189761A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110189761B (zh) 一种基于贪婪深度字典学习的单信道语音去混响方法
CN107845389B (zh) 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
Zhang et al. Deep learning for environmentally robust speech recognition: An overview of recent developments
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
Higuchi et al. Frame-by-frame closed-form update for mask-based adaptive MVDR beamforming
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN109887489B (zh) 基于生成对抗网络的深度特征的语音去混响方法
CN113611323B (zh) 一种基于双通道卷积注意力网络的语音增强方法及系统
Wang et al. Recurrent deep stacking networks for supervised speech separation
CN111312273A (zh) 混响消除方法、装置、计算机设备和存储介质
Yuliani et al. Speech enhancement using deep learning methods: A review
CN113077806B (zh) 音频处理方法及装置、模型训练方法及装置、介质和设备
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
Chen et al. Improving Mask Learning Based Speech Enhancement System with Restoration Layers and Residual Connection.
JP2008145610A (ja) 音源分離定位方法
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN110660406A (zh) 近距离交谈场景下双麦克风移动电话的实时语音降噪方法
CN113782044B (zh) 一种语音增强方法及装置
CN114495969A (zh) 一种融合语音增强的语音识别方法
Girirajan et al. Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network.
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
CN115938346B (zh) 音准评估方法、系统、设备及存储介质
CN112687284B (zh) 混响语音的混响抑制方法及装置
Kashani et al. Speech Enhancement via Deep Spectrum Image Translation Network
Sarabia et al. Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant