CN110189761B - 一种基于贪婪深度字典学习的单信道语音去混响方法 - Google Patents
一种基于贪婪深度字典学习的单信道语音去混响方法 Download PDFInfo
- Publication number
- CN110189761B CN110189761B CN201910421436.0A CN201910421436A CN110189761B CN 110189761 B CN110189761 B CN 110189761B CN 201910421436 A CN201910421436 A CN 201910421436A CN 110189761 B CN110189761 B CN 110189761B
- Authority
- CN
- China
- Prior art keywords
- dictionary
- speech
- dereverberation
- matrix
- dictionary learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000000739 chaotic effect Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 41
- 239000010410 layer Substances 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 18
- 238000000354 decomposition reaction Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 10
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 239000002356 single layer Substances 0.000 claims description 4
- 102100036848 C-C motif chemokine 20 Human genes 0.000 claims description 3
- 101000713099 Homo sapiens C-C motif chemokine 20 Proteins 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 230000009466 transformation Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供的是一种基于贪婪深度字典学习的单信道语音去混响方法。步骤一、将输入的混沌、纯净语音进行信号预处理,进行特征的提取;步骤二、结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立;步骤三、将建立好的模型与提取的特征进行模型训练,得到基本系数;步骤四、再次输入混沌、纯净语音信号数据进行测试,经过傅里叶逆变换后,最终得到纯净语音。本发明将传统的单信道语音去混响方法与深度字典学习相结合,提高单信道去混响的效果,使其具有良好的去混响效果,提高深度网络结构的可推导性。
Description
技术领域
本发明涉及的是一种单信道去混响方法。
背景技术
混响是指在声学上,除延迟时间达到约50ms以上的反应波称为回声外,其余的反射波产生的效应统称为混响。随着互联网发展及智能设备的普及,语音或声音信号的可理解性与可感知性对于人机交互的用户体验变得尤为重要。然而混响严重影响了语音识别的准确率,降低了用户智能交互的体验,同时增加了有听力障碍者对于语音理解的困难度。
语音去混响的目的是抑制或移除混响语音中的混响成分,尽可能的实现源信号的恢复。根据系统麦克风的数量分为:单信道语音去混响和多信道语音去混响。其中单信道语音去混响利用接收位置一点的语音信号时频域特性作为先验信息对混响信号进行处理,具有系统相对简单,计算复杂度低以及成本较为低廉等优势。因此,单信道语音去混响问题具有重要的研究价值。
传统的单信道语音去混响的方法大多通过先建立语音去混响模型,通过加入不同的约束条件在非适定问题中求出可确定的解,从而获得符合条件的估计信号。尽管在求解估计信号时具有可解释性,但这些方法都存在适用范围不足,实际效果不佳等缺点。基于深度学习的语音去混响方法通过训练大量样本,直接学习混响语音和纯净语音之间的非线性映射关系。虽然能取得很好的去混响结果,但具有数据获得困难和参数冗余的缺点,导致其在实际应用中性能下降。
发明内容
本发明的目的在于提供一种能够提高单信道去混响效果的基于贪婪深度字典学习的单信道语音去混响方法。
本发明的目的是这样实现的:
步骤一、将输入的混沌、纯净语音进行信号预处理,进行特征的提取;
步骤二、结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立;
步骤三、将建立好的模型与提取的特征进行模型训练,得到基本系数;
步骤四、再次输入混沌、纯净语音信号数据进行测试,经过傅里叶逆变换后,最终得到纯净语音。
所述的结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立具体包括:
1、对单信道语音去混响进行建模,具体描述为:
(1)将n时刻的语音信号利用下式进行描述:
其中D是原始语音,nk是k次反射后的延时单元数,ρk是第k次反射时的发射系数,s(n-knk)是第k次反射后的语音信号,u(n)表示周围环境的噪声,x(n)表示混响语音;
(2)将环境噪声u(n)去掉简化得:
(3)根据单位冲激函数的卷积性质,改为卷积的形式:
其中,h(n)是冲击响应,*是卷积操作符号,δ(n)表示单位冲激函数,h(n)反应混响的物理特征、是位于knk并且都衰减ρk倍后的许多冲击函数δ(n)的叠加,房间脉冲响应h(n)和纯净语音s(n)卷积后获得混响语音x(n);
2、将单信道语音去混响模型转化为基于稀疏表示的单信道语音去混响模型,其转化过程如下:
(1)通过稀疏表示方法对单信道语音去混响进行建模分析,在忽略环境噪声的情况下,利用下式简单描述语音去混响问题:
Y=HX
其中Y是混响语音,H是RIR,且有X=AS;
(2)根据X=AS,假定纯净语音含有正交基稀疏矩阵表示矩阵A,则单信道语音去混响的稀疏表示为:
其中λ>0是用于控制稀疏性与测量空间的参数;
(3)使用ISTA算法进行求解;
3、引入深度语音字典,将字典学习问题转化为以下两种表示方法,任选其一:
方法1,将求解目标函数定义为:
X=DZ
其中X是纯净语音,D是语音字典,Z是稀疏表示矩阵;
字典学习问题表示为求解目标函数:
方法2,采用K-SVD字典学习算法,将求解目标函数定义为:
其中zi是矩阵Z中的第i列,||.||0表示zi中非零元素的个数,τ表示稀疏程度,用于控制Z的每一列中所含非零元素的最大个数;
4、引入深度语音字典后,进行求解,具体描述为:
(1)根据单层字典学习进行求解,在求解过程中利用稀疏编码和字典更新,具体描述如下:
1)稀疏编码,运用LARC方法,已知字典D(t-1),在第t次字典学习迭代中稀疏矩阵的每个列向量更新如下表示:
2)字典更新,根据所获得稀疏表示矩阵Z,从训练信号集X中寻找当次迭代中更适合训练信号的字典D,字典更新如下式表示:
式中将DZ分解为L个秩为1的矩阵(d(:,l)z(l:,))之和,Rl代表除第l个原子之外的原子所带来的残差。通过SVD分解找到与Rl最为接近的秩为1的矩阵;
4)进行预处理,定义Λl为下式:
Λl={i|1≤i≤K,c(l,:)(i)≠0}
5)定义M为D×|Λl|的矩阵,其中(Λl(i),i)设置为1,其他设置为0,则:
7)使用U中的第一列来跟新d(:,l),V的第一列乘以Δ(l,l)来更新相应的系数,完成一个原子的更新;
(2)根据深度字典学习进行求解,具体过程如下:
1)由下式描述多层字典学习,
X=D1*D2*Z
其中D2,D2分别是双层神经网络中每层的字典;
2)采用逐层训练进行逐层分解,首先训练除第一特征层Z1,字典D1:
X=D1*Z1
其次对Z1进行分解,求解第二层字典D2、特征Z2:
Z1=D2*Z2
之后以此类推,得到更深层的语音字典学习;
3)基于贪婪深度字典学习的单信道语音去混响模型由此建立。
本发明将传统的单信道语音去混响方法与深度字典学习相结合,提高单信道去混响的效果,使其具有良好的去混响效果,提高深度网络结构的可推导性。
附图说明
图1本发明的方法流程图。
图2单层字典学习的示意图。
图3双层学习示意图。
图4贪婪的分层学习示意图。
具体实施方式
下面举例对本发明做更详细的描述。
如图1所示,本发明基于贪婪深度字典学习的单信道语音去混响技术,首先将输入的混沌、纯净语音进行信号预处理,进行特征的提取;其次,对单信道语音去混响问题结合贪婪深度字典学习进行模型的建立,具体描述如下:
1、对单信道语音去混响问题进行数学建模。
通过混响产生的具体的物理原理,对单信道语音去混响问题进行尽可能的数学建模。混响是指在声学上,除延迟时间达到约50ms以上的反应波称为回声外,其余的反射波产生的效应统称为混响。早期的混响会产生一种声染色现象,它会导致语音信号在频域失真。后期混响的存在会导致语音模糊不清,降低语音可懂度。因此,提出该发明能够有效的解决上述问题。具体描述方法如下所示。
(1)将n时刻的语音信号利用下式进行描述:
其中D是原始语音,nk是k次反射后的延时单元数,ρk是第k次反射时的发射系数,s(n-knk)是第k次反射后的语音信号,u(n)表示周围环境的噪声,x(n)表示混响语音。
(2)为了对混响问题进行建模分析,将步骤1中(1)过程的环境噪声u(n)去掉简化得:
(3)根据单位冲激函数de卷积性质,将步骤1中(2)的公式改写为卷积的形式:
其中,h(n)是冲击响应(Room Impulse Response,RIR),*是卷积操作符号,δ(n)表示单位冲激函数,h(n)可以表示混响的物理特征,它是位于knk并且都衰减ρk倍后的许多冲击函数δ(n)的叠加。
h(n)是冲击响应(Room Impulse Response,RIR)也可称为房间脉冲响应。房间脉冲响应是一个由生源位置发出到麦克风位置的脉冲响应撩号,它反映了声学环境所有声学特性。由步骤1中(3)式可知,房间脉冲响应h(n)和纯净语音s(n)卷积后获得混响语音x(n)。因此,去混响的过程就是在混响语音x(n)中去除房间的脉冲响应h(n)的影响,最终获得纯净的语音s(n),因此这一过程的关键点就是求出h(n)的逆。
2、将单信道语音去混响模型转化为基于稀疏表示的单信道语音去混响模型,转化过程如下:
(1)通过稀疏表示方法对单信道语音去混响问题进行建模分析。在忽略环境噪声的情况下,利用下式描述语音去混响问题:
Y=HX
其中Y是混响语音,H是RIR,且有X=AS。
(2)根据步骤2中(1)的X=AS,假定纯净语音含有正交基稀疏矩阵表示矩阵A,则单信道语音去混响的稀疏表示可以写为:
其中λ>0是用于控制稀疏性与测量空间的参数。
(3)步骤2中的(2)式,使用ISTA算法进行求解。
3、在步骤2的求解基础上,将深度语音字典引入混响的问题中。为了获得深度语音字典,将字典学习问题可以转化为以下两种表示方法,任选其一:
方法1,将求解目标函数定义为:
X=DZ
其中X是纯净语音,D是语音字典,Z是稀疏表示矩阵。从矩阵分解角度看字典学习过程:给定样本数据集X,X的每一列表示一个样本。如图2所示,字典的学习目标就是把X矩阵分解为D、Z矩阵。
为了获得字典,字典学习问题通常可以表示为求解目标函数:
方法2,根据K-SVD字典学习算法,求解目标函数定义为:
其中zi是矩阵Z中的第i列,||·||0表示zi中非零元素的个数,τ表示稀疏程度,用于控制Z的每一列中所含非零元素的最大个数。
K-SVD是一种经典的字典训练算法,依据误差最小原则,对误差进行奇异值分解(singular value decomposition,SVD)分解,选择使误差最小的分解项作为更新的字典原子和对应的原子字数,经过不断的迭代从而得到优化的解。
4、引入深度语音字典后,进行问题的求解。具体描述为:
(1)在求解过程中利用稀疏编码和字典更新进行单层字典学习的求解。稀疏编码是指给定观测矩阵X和字典矩阵Z,估计满足稀疏约束条件的稀疏表示矩阵Z。利用LARC的方法,具体描述如下:
1)稀疏编码,已知字典D(t-1),在第t次字典学习迭代中稀疏矩阵的每个列向量更新如下表示:
2)字典更新,根据步骤4(1)中1)所获得稀疏表示矩阵Z,从训练信号集X中寻找档次迭代中更适合训练信号的字典D,字典更新如下式表示:
该问题可以通过K-SVD字典更新来解决,K-SVD字典更新是对字典中的每一个原子逐个更新。
式中将DZ分解为L个秩为1的矩阵(d(:,l)z(l,:))之和。Rl代表除第l个原子之外的原子所带来的残差。通过SVD分解找到与Rl最为接近的秩为1的矩阵
4)为了保证编码结果的有效性,在SVD分解前,对步骤4(1)中3)式进行预处理,定义Λl为下式:
Λl={i|1≤i≤K,c(l,:)(i)≠0}
5)定义M为D×|Λl|的矩阵,其中(Λl(i),i)设置为1,其他设置为0,则步骤4(1)中2)式等价于下式:
7)使用U中的第一列来更新d(:,l),V的第一列乘以Δ(l,l)来更新相应的系数,至此完成了一个原子的更新。
(2)根据深度字典学习进行求解过程,具体过程如下:
1)由下式描述多层字典学习,其网络结构如图3所示。
X=D1*D2*Z
其中D2,D2分别是双层神经网络中每层的字典。
2)采用逐层训练的思想对步骤4(2)中1)进行逐层分解。以双层分解为例进行分解如图4所示,首先训练除第一特征层Z1,字典D1:
X=D1*Z1
其次对Z1进行分解,求解第二层字典D2、特征Z2:
Z1=D2*Z2
之后以此类推,得到更深层的字典学习。
3)先进的基于贪婪深度字典学习的单信道语音去混响模型由此建立。
最后,将建立好的模型与提取的特征进行模型训练,得到基本系数后,再次输入混沌、纯净语音信号数据进行测试,然后经过傅里叶逆变换,最终得到纯净语音。
一种基于贪婪深度字典学习的单信道语音去混响技术将传统的单信道语音去混响方法与深度语音字典学习相结合,能够提高模型的可解释性和可推导性,有效的提高语音去混响的效果。
Claims (1)
1.一种基于贪婪深度字典学习的单信道语音去混响方法,包括如下步骤:
步骤一、将输入的混沌、纯净语音进行信号预处理,进行特征的提取;
步骤二、结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立;
步骤三、将建立好的模型与提取的特征进行模型训练,得到基本系数;
步骤四、再次输入混沌、纯净语音信号数据进行测试,经过傅里叶逆变换后,最终得到纯净语音;
其特征是所述的结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立具体包括:
第1、对单信道语音去混响进行建模,具体描述为:
(1)将n时刻的语音信号利用下式进行描述:
其中D是原始语音,nk是k次反射后的延时单元数,ρk是第k次反射时的发射系数,s(n-knk)是第k次反射后的语音信号,u(n)表示周围环境的噪声,x(n)表示混响语音;
(2)将环境噪声u(n)去掉简化得:
(3)根据单位冲激函数的卷积性质,改为卷积的形式:
其中,h(n)是冲击响应,*是卷积操作符号,δ(n)表示单位冲激函数,h(n)反应混响的物理特征、是位于knk并且都衰减ρk倍后的许多冲击函数δ(n)的叠加,房间脉冲响应h(n)和纯净语音s(n)卷积后获得混响语音x(n);
第2、将单信道语音去混响模型转化为基于稀疏表示的单信道语音去混响模型,其转化过程如下:
(1)通过稀疏表示方法对单信道语音去混响进行建模分析,在忽略环境噪声的情况下,利用下式简单描述语音去混响问题:
Y=HX
其中Y是混响语音,H是RIR,且有X=AS;
(2)根据X=AS,假定纯净语音含有正交基稀疏矩阵表示矩阵A,则单信道语音去混响的稀疏表示为:
其中λ>0是用于控制稀疏性与测量空间的参数;
(3)使用ISTA算法进行求解;
第3、引入深度语音字典,将字典学习问题转化为以下两种表示方法,任选其一:
方法1,将求解目标函数定义为:
X=DZ
其中X是纯净语音,D是语音字典,Z是稀疏表示矩阵;
字典学习问题表示为求解目标函数:
方法2,采用K-SVD字典学习算法,将求解目标函数定义为:
其中zi是矩阵Z中的第i列,||.||0表示zi中非零元素的个数,τ表示稀疏程度,用于控制Z的每一列中所含非零元素的最大个数;
第4、引入深度语音字典后,进行求解,具体描述为:
(1)根据单层字典学习进行求解,在求解过程中利用稀疏编码和字典更新,具体描述如下:
1)稀疏编码,运用LARC方法,已知字典D(t-1),在第t次字典学习迭代中稀疏矩阵的每个列向量更新如下表示:
2)字典更新,根据所获得稀疏表示矩阵Z,从训练信号集X中寻找当次迭代中更适合训练信号的字典D,字典更新如下式表示:
式中将DZ分解为L个秩为1的矩阵(d(:,l)z(l:,))之和,Rl代表除第l个原子之外的原子所带来的残差。通过SVD分解找到与Rl最为接近的秩为1的矩阵;
4)进行预处理,定义Λl为下式:
Λl={i|1≤i≤K,c(l,:)(i)≠0}
5)定义M为D×|Λl|的矩阵,其中(Λl(i),i)设置为1,其他设置为0,则:
7)使用U中的第一列来跟新d(:,l),V的第一列乘以Δ(l,l)来更新相应的系数,完成一个原子的更新;
(2)根据深度字典学习进行求解,具体过程如下:
1)由下式描述多层字典学习,
X=D1*D2*Z
其中D2,D2分别是双层神经网络中每层的字典;
2)采用逐层训练进行逐层分解,首先训练除第一特征层Z1,字典D1:
X=D1*Z1
其次对Z1进行分解,求解第二层字典D2、特征Z2:
Z1=D2*Z2
之后以此类推,得到更深层的语音字典学习;
3)基于贪婪深度字典学习的单信道语音去混响模型由此建立。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910421436.0A CN110189761B (zh) | 2019-05-21 | 2019-05-21 | 一种基于贪婪深度字典学习的单信道语音去混响方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910421436.0A CN110189761B (zh) | 2019-05-21 | 2019-05-21 | 一种基于贪婪深度字典学习的单信道语音去混响方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110189761A CN110189761A (zh) | 2019-08-30 |
CN110189761B true CN110189761B (zh) | 2021-03-30 |
Family
ID=67717014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910421436.0A Active CN110189761B (zh) | 2019-05-21 | 2019-05-21 | 一种基于贪婪深度字典学习的单信道语音去混响方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110189761B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12009004B2 (en) * | 2020-02-10 | 2024-06-11 | Tencent Technology (Shenzhen) Company Limited | Speech enhancement method and apparatus, electronic device, and computer-readable storage medium |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614500A (zh) * | 2019-09-18 | 2021-04-06 | 北京声智科技有限公司 | 回声消除方法、装置、设备及计算机存储介质 |
CN111383652B (zh) * | 2019-10-25 | 2023-09-12 | 南京邮电大学 | 一种基于双层字典学习的单通道语音增强方法 |
CN113012709B (zh) * | 2019-12-20 | 2023-06-30 | 北京声智科技有限公司 | 一种回声消除方法及装置 |
CN111312270B (zh) * | 2020-02-10 | 2022-11-22 | 腾讯科技(深圳)有限公司 | 语音增强方法及装置、电子设备和计算机可读存储介质 |
CN111414580B (zh) * | 2020-03-25 | 2023-03-24 | 西北工业大学 | 一种低信混比条件下的混响抑制方法 |
CN112141837A (zh) * | 2020-09-08 | 2020-12-29 | 金陵科技学院 | 一种基于多层字典学习的智能语音电梯系统 |
CN112542177B (zh) * | 2020-11-04 | 2023-07-21 | 北京百度网讯科技有限公司 | 信号增强方法、装置及存储介质 |
CN113257265A (zh) * | 2021-05-10 | 2021-08-13 | 北京有竹居网络技术有限公司 | 语音信号去混响方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081928A (zh) * | 2010-11-24 | 2011-06-01 | 南京邮电大学 | 基于压缩感知和k-svd的单通道混合语音分离方法 |
CN103886557A (zh) * | 2014-03-28 | 2014-06-25 | 北京工业大学 | 一种深度图像的去噪方法 |
CN104021797A (zh) * | 2014-06-19 | 2014-09-03 | 南昌大学 | 一种基于频域稀疏约束的语音信号增强方法 |
CN105957537A (zh) * | 2016-06-20 | 2016-09-21 | 安徽大学 | 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统 |
JP2017514249A (ja) * | 2014-07-30 | 2017-06-01 | 三菱電機株式会社 | 入力信号を変換する方法 |
-
2019
- 2019-05-21 CN CN201910421436.0A patent/CN110189761B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081928A (zh) * | 2010-11-24 | 2011-06-01 | 南京邮电大学 | 基于压缩感知和k-svd的单通道混合语音分离方法 |
CN103886557A (zh) * | 2014-03-28 | 2014-06-25 | 北京工业大学 | 一种深度图像的去噪方法 |
CN104021797A (zh) * | 2014-06-19 | 2014-09-03 | 南昌大学 | 一种基于频域稀疏约束的语音信号增强方法 |
JP2017514249A (ja) * | 2014-07-30 | 2017-06-01 | 三菱電機株式会社 | 入力信号を変換する方法 |
CN105957537A (zh) * | 2016-06-20 | 2016-09-21 | 安徽大学 | 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统 |
Non-Patent Citations (1)
Title |
---|
《基于稀疏表示的语音盲卷积和房间脉冲响应建模方法研究》;关键;《中国博士论文全文数据库》;20190131;第4-6章 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12009004B2 (en) * | 2020-02-10 | 2024-06-11 | Tencent Technology (Shenzhen) Company Limited | Speech enhancement method and apparatus, electronic device, and computer-readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN110189761A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110189761B (zh) | 一种基于贪婪深度字典学习的单信道语音去混响方法 | |
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
Zhang et al. | Deep learning for environmentally robust speech recognition: An overview of recent developments | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
Higuchi et al. | Frame-by-frame closed-form update for mask-based adaptive MVDR beamforming | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
CN109887489B (zh) | 基于生成对抗网络的深度特征的语音去混响方法 | |
CN113611323B (zh) | 一种基于双通道卷积注意力网络的语音增强方法及系统 | |
Wang et al. | Recurrent deep stacking networks for supervised speech separation | |
CN111312273A (zh) | 混响消除方法、装置、计算机设备和存储介质 | |
Yuliani et al. | Speech enhancement using deep learning methods: A review | |
CN113077806B (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
CN110047478B (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
Chen et al. | Improving Mask Learning Based Speech Enhancement System with Restoration Layers and Residual Connection. | |
JP2008145610A (ja) | 音源分離定位方法 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN110660406A (zh) | 近距离交谈场景下双麦克风移动电话的实时语音降噪方法 | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
Girirajan et al. | Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network. | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
CN115938346B (zh) | 音准评估方法、系统、设备及存储介质 | |
CN112687284B (zh) | 混响语音的混响抑制方法及装置 | |
Kashani et al. | Speech Enhancement via Deep Spectrum Image Translation Network | |
Sarabia et al. | Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |