CN113409804A - 一种基于变张成广义子空间的多通道频域语音增强算法 - Google Patents

一种基于变张成广义子空间的多通道频域语音增强算法 Download PDF

Info

Publication number
CN113409804A
CN113409804A CN202011530129.5A CN202011530129A CN113409804A CN 113409804 A CN113409804 A CN 113409804A CN 202011530129 A CN202011530129 A CN 202011530129A CN 113409804 A CN113409804 A CN 113409804A
Authority
CN
China
Prior art keywords
frequency domain
vector
data
generalized
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011530129.5A
Other languages
English (en)
Inventor
蔡浩源
陈捷
隆弢
陈龙
李文申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenggeng Intelligent Technology Xi'an Research Institute Co ltd
Original Assignee
Shenggeng Intelligent Technology Xi'an Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenggeng Intelligent Technology Xi'an Research Institute Co ltd filed Critical Shenggeng Intelligent Technology Xi'an Research Institute Co ltd
Priority to CN202011530129.5A priority Critical patent/CN113409804A/zh
Publication of CN113409804A publication Critical patent/CN113409804A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本发明公开了一种基于变张成广义子空间的多通道频域语音增强算法,本发明将时域的数据变换到频域,通过广义子空间追踪算法提取更新的信号协方差矩阵的广义特征向量构建变张成滤波器,该滤波器对频域数据不同子频带进行滤波处理,滤波后的信号取得了和纯净语音信号相近的统计量,取得了良好的滤波效果。本发明具有一定拓展性,可以协调语音输出信噪比和语音失真的平衡,同时可以应用在实时语音降噪处理场合。

Description

一种基于变张成广义子空间的多通道频域语音增强算法
技术领域
本发明属于适应信号处理以及语音信号处理领域,具体涉及一种基于变张成广义子空间的多通道频域语音增强算法。
背景技术
语音信号是生物之间交流的重要手段。语音信号凭借其丰富的信息含量,成为目前个体之间沟通的最有效的手段。语音信号技术的发展始于19世纪下半叶贝尔发明电话。电话的发明使人类的沟通能力越上一个台阶,社会的运转效率大大提高,并掀起信息科学技术发展的潮流。语音信号的处理通常借助声传感器,虚拟的声能量通过声传感器的震动从而将动能转化为计算机可识别的量化电信号。计算机程序将所获得电信号进行进一步处理解码声信号承载的信息或者获得特定的声效果。语音信号处理通常划分为几个阶段:
语音信号的采集:通过麦克风传感器阵列或手机内置麦克风采集说话人的声信号,并将声信号的特征转化为以电信号的形式存储。为了使原始记录的声信号不失真,需要设计声卡采集系统,包括采用分辨率高的模数转换器以及内存容量足够大的存储系统和无阻塞的数据传输系统。
语音信号的预处理:转化后的声能量以电信号的形式储存在数字计算机中。由于语音信号的短时平稳性,通常将语音信号分成截断成短帧并通过加窗函数平滑以便后续的时域处理或频域处理。
语音信号的处理:语音信号的技术处理内容包括了去回声,混响,噪声,分离等子任务。这些内容也是语音信号增强算法研究的核心关注点。为了使算法方便移植到数字信号处理器,通常对算法有实时性,鲁棒性,可扩展性,计算复杂度低等要求。
目前对语音增强算法有经典的维纳滤波器方法,最大信噪比算法以及最小方差无失真滤波器方法等。由于所述滤波器分别只考虑滤波后纯净分量最大保留以及输出信噪比最大,因此其扩展性的小的缺点限制这些算法在实际场景的应用效果。例如在信噪比低的情况下,采用最小方差无失真滤波器所获得的滤波语音信号输出信噪比一定概率下无法满足滤波要求。而在高信噪比情况下,采用最大信噪比算法可能会使语音信号失真从而导致听觉效果的下降。为了适应不同场景下的语音增强效果,一种扩展性高,能够在输出信噪比和语音失真协调的算法显得格外重要。
发明内容
本发明的目的在于克服上述不足,提供一种基于变张成广义子空间的多通道频域语音增强算法,解决了语音信号输出信噪比和语音失真之间协调的问题,并提供了一种在线高效快速的语音增强算法。
为了达到上述目的,本发明包括以下步骤:
S1,麦克风阵列采集多点带噪语音信号数据并得到多通道观测数据,布置麦克风阵列采集多点参考噪声信号,得到多通道噪声参考数据;
S2,将带噪语音信号和参考噪声信号进行分帧处理并对每一帧加窗函数,并对加窗后的函数进行离散快速傅里叶变换;
S3,将S2中进行离散快速傅里叶变换后的数据按照不同频带的多通道数据构建当前频带下协方差矩阵数据更新向量;
S4,利用S3的更新向量更新不同频带下的协方差估计矩阵;
S5,利用子空间追踪算法提取S4中更新后的协方差估计矩阵广义特征向量;
S6,选择广义特征向量的数目构建变张成滤波器并对该子频带下的语音数据滤波;
S7,将S6中滤波后的频域语音数据进行离散反傅里叶变换得到降噪后的纯净语音信号的时域估计。
S1中,麦克风阵列的布置阵元数目为M,采集N点带噪语音信号数据,得到多通道观测数据YM×N,多通道噪声参考数据VM×N
S2的具体方法如下:
将带噪语音信号和噪声信号进行大小一致的分帧操作,使加窗函数的长度一致;
将加窗后的每个通道数据进行离散快速傅里叶变换并得到时频数据:
y(k,n)=[Y1(k,n)Y2(k,n)…YM(k,n)]=x(k,n)+v(k,n)
其中,k为频带的索引,n为时间帧的索引,Y1,Y2,…,YM分别为麦克风1,…,M的时域观测数据经傅里叶变换后的频域数据,x为时域语音信号向量经傅里叶变换后的频域向量,v为参考噪声向量经傅里叶变换后的频域向量。
加窗函数的类型为凯塞窗或汉明窗。
S4的具体方法如下:
利用更新向量迭代更新带噪语音信号的协方差矩阵:
Figure RE-GDA0002995418260000031
其中γy为遗忘因子,k为频带的索引,n为时间帧的索引,
Figure RE-GDA0002995418260000032
为观测信号的频域协方差矩阵,y为观测信号的频域数据的新息向量,yH为观测信号的频域新息向量的复共轭转置;
利用更新向量迭代更新参考噪声信号的协方差矩阵:
Figure RE-GDA0002995418260000033
其中
Figure RE-GDA0002995418260000034
Figure RE-GDA0002995418260000041
γv为更新协方差矩阵的遗忘因子,其大小取值在(0,1)之间以追踪变化的协方差统计量;I为大小为M×M的单位矩阵;α更新协方差矩阵的中间变量;
Figure RE-GDA0002995418260000042
为噪声频域数据经过白化处理的向量;
Figure RE-GDA0002995418260000043
为噪声频域数据经过白化处理的向量的复共轭转置;
Figure RE-GDA0002995418260000044
为参考噪声的频域协方差矩阵的逆矩阵;v为参考噪声的频域数据向量;
估计纯净信号的协方差矩阵:
Figure RE-GDA0002995418260000045
Figure RE-GDA0002995418260000046
为参考噪声的频域协方差矩阵。
遗忘因子γy用于追踪时变的协方差统计量,遗忘因子γy的取值范围在0到1之间。
S5的具体方法如下:
对Q个权值向量进行独立更新并进行QR分解正交化:
for q=1,…,Q
Figure RE-GDA0002995418260000047
end
Figure RE-GDA0002995418260000048
Figure RE-GDA0002995418260000049
为第q个归一化的权值向量;uq为第q个非归一化的权值向量;
Figure RE-GDA00029954182600000410
为参考噪声的频域协方差矩阵的逆矩阵;
Figure RE-GDA00029954182600000411
为纯净语音信号的频域估计协方差矩阵;
Figure RE-GDA00029954182600000412
为参考噪声的频域协方差矩阵的逆矩阵的转置;
Figure RE-GDA00029954182600000413
为第q个非归一化的权值向量复共轭转置;
Figure RE-GDA00029954182600000414
为Q个归一化后的权值向量;u1,…,uQ为非归一化的Q个权值向量;
对权值向量进行逆白化过程,得到广义特征向量的估计量:
Figure RE-GDA00029954182600000415
w1,…,wQ为矩阵对
Figure RE-GDA0002995418260000051
的Q个广义特征向量。
S6的具体方法如下:
选取广义特征向量构造变张成滤波器:
Figure RE-GDA0002995418260000052
其中,δ为对角加载因子,作用为使纯净信号的协方差矩为正定矩阵,
Figure RE-GDA0002995418260000053
为第q个广义特征向量的复共轭转置;wq为第q个广义特征向量;i为大小为M×M的单位阵第一个列向量。
与现有技术相比,本发明将时域的数据变换到频域,通过广义子空间追踪算法提取更新的信号协方差矩阵的广义特征向量构建变张成滤波器,该滤波器对频域数据不同子频带进行滤波处理,滤波后的信号取得了和纯净语音信号相近的统计量,取得了良好的滤波效果。本发明具有一定拓展性,可以协调语音输出信噪比和语音失真的平衡,同时可以应用在实时语音降噪处理场合。
附图说明
图1为本发明实施例的应用场景图;
图2为本发明的流程图;
图3为本发明在混响条件下滤波输出信噪比仿真结果示意图;
图4为本发明在混响条件下滤波输出信噪比仿真结果示意图。
具体实施方式
下面结合附图对本发明做进一步说明。
参见图2,本发明包括以下步骤:
步骤1:布置阵元数目为M的麦克风阵列采集N点带噪语音信号数据并得到多通道观测数据YM×N。布置布置阵元数目为M的麦克风阵列采集N点参考噪声信号,得到多通道噪声参考数据VM×N
步骤2.1:带噪语音信号和噪声信号进行大小一致的分帧操作,所加窗函数的长度一致并且类型可以是凯塞窗,汉明窗等;
步骤2.2:将加窗后的每个通道数据进行离散快速傅里叶变换并得到时频数据:
y(k,n)=[Y1(k,n)Y2(k,n)…YM(k,n)]=x(k,n)+v(k,n)
其中k代表了频带的索引,n代表了时间帧的索引Y1,Y2,…,YM分别为麦克风1,…,M的时域观测数据经傅里叶变换后的频域数据,x为时域语音信号向量经傅里叶变换后的频域向量, v为参考噪声向量经傅里叶变换后的频域向量。
步骤3:将步骤2所获得的数据按照不同频带的多通道数据构建当前频带下协方差矩阵数据更新向量;
步骤4.1:利用更新向量迭代更新带噪语音信号的协方差矩阵:
Figure RE-GDA0002995418260000061
其中γy为遗忘因子,其大小在0到1之间,用于追踪时变的协方差统计量,k为频带的索引,n为时间帧的索引,
Figure RE-GDA0002995418260000062
为观测信号的频域协方差矩阵,y为观测信号的频域数据的新息向量,yH为观测信号的频域新息向量的复共轭转置。
步骤4.2:利用更新向量迭代更新参考噪声信号的协方差矩阵:
Figure RE-GDA0002995418260000063
其中
Figure RE-GDA0002995418260000064
Figure RE-GDA0002995418260000065
γv为更新协方差矩阵的遗忘因子,其大小取值在(0,1)之间以追踪变化的协方差统计量;I为大小为M×M的单位矩阵;α更新协方差矩阵的中间变量;
Figure RE-GDA0002995418260000071
为噪声频域数据经过白化处理的向量;
Figure RE-GDA0002995418260000072
为噪声频域数据经过白化处理的向量的复共轭转置;
Figure RE-GDA0002995418260000073
为参考噪声的频域协方差矩阵的逆矩阵;v为参考噪声的频域数据向量;
步骤4.3:估计纯净信号的协方差矩阵:
Figure RE-GDA0002995418260000074
Figure RE-GDA0002995418260000075
为参考噪声的频域协方差矩阵。
步骤5.1:对Q个权值向量进行独立更新并进行QR分解正交化:
for q=1,…,Q
Figure RE-GDA0002995418260000076
end
Figure RE-GDA00029954182600000716
Figure RE-GDA0002995418260000077
为第q个归一化的权值向量;uq为第q个非归一化的权值向量;
Figure RE-GDA0002995418260000078
为参考噪声的频域协方差矩阵的逆矩阵;
Figure RE-GDA0002995418260000079
为纯净语音信号的频域估计协方差矩阵;
Figure RE-GDA00029954182600000710
为参考噪声的频域协方差矩阵的逆矩阵的转置;
Figure RE-GDA00029954182600000711
为第q个非归一化的权值向量复共轭转置;
Figure RE-GDA00029954182600000712
为Q个归一化后的权值向量;u1,…,uQ为非归一化的Q个权值向量;
步骤5.2:对权值向量进行逆白化过程,得到广义特征向量的估计量:
Figure RE-GDA00029954182600000713
w1,…,wQ为矩阵对
Figure RE-GDA00029954182600000714
的Q个广义特征向量。
步骤6:选取广义特征向量构造变张成滤波器:
Figure RE-GDA00029954182600000715
其中δ为对角加载因子,其作用为使纯净信号的协方差矩为正定矩阵,
Figure RE-GDA0002995418260000081
为第q个广义特征向量的复共轭转置;wq为第q个广义特征向量;i为大小为M×M的单位阵第一个列向量。
步骤7:将步骤6中滤波后的频域语音数据进行离散反傅里叶变换得到降噪后的纯净语音信号的时域估计。
实施例:
实施场景:
应用场景如示意图图1所示,环境为大小尺寸5m×5m×3m的房间。该实验的麦克风阵列为均匀线列阵,阵元间的距离为0.04m。阵元数目为M=8,声时间的数目为1并处于麦克风阵列的正前端1.5m外。本次实验采用image model生成房间的脉冲响应。混响的时间大小为 150ms。语音数据从真实语音数据库TIMIT中选取。噪声数据从真实噪声数据库Noisex92中选取。在本例中,我们进行两次实验:分别提取Q=2和Q=4个广义特征向量对输入信噪比分别为-10dB,-5dB,0dB,5dB,10dBde的实验设置下进行语音增强,并画增强信号的输出信噪比对于不同输入信噪比的增强效果,同时比较提取不同个数的广义特征向量对实际增强效果的影响。
实施流程:
步骤1:根据实验设置,取麦克风数目M=8。采样频率设置为Fs=8000Hz。从真实语音数据库TIMIT选取N=32000点数据通过与image model生成的房间脉冲向量卷积得到多通道观测数据YM×N。布置布置阵元数目为M=8的麦克风阵列采集N=32000点参考噪声信号,得到多通道噪声参考数据VM×N
步骤2.1:带噪语音信号和噪声信号进行大小一致的分帧操作,每一帧的大小取32,所加窗函数的长度一致,大小均为128点。选取凯塞窗,参数为1.9π;
步骤2.2:将加窗后的每个通道数据进行离散快速傅里叶变换并得到时频数据:
y(k,n)=[Y1(k,n)Y2(k,n)…YM(k,n)]=x(k,n)+v(k,n)
其中k代表了频带的索引,其范围从1到128。n代表了时间帧的索引,其范围从1到1000。
步骤3:将步骤2所获得的数据按照不同频带的多通道数据构建当前频带下协方差矩阵数据更新向量;
步骤4.1:利用更新向量迭代更新带噪语音信号的协方差矩阵:
Figure RE-GDA0002995418260000091
其中γy为遗忘因子,其大小设置为0.6,用于追踪时变的协方差统计量。
步骤4.2:利用更新向量迭代更新参考噪声信号的协方差矩阵:
Figure RE-GDA0002995418260000092
其中
Figure RE-GDA0002995418260000093
Figure RE-GDA0002995418260000094
遗忘因子γv的大小设置为γv=0.6;
步骤4.3:估计纯净信号的协方差矩阵:
Figure RE-GDA0002995418260000095
步骤5.1:对Q个权值向量进行独立更新并进行QR分解正交化:
for q=1,…,Q
Figure RE-GDA0002995418260000096
end
Figure RE-GDA0002995418260000097
步骤5.2:对权值向量进行逆白化过程,得到广义特征向量的估计量:
Figure RE-GDA0002995418260000101
步骤6:选取广义特征向量构造变张成滤波器:
Figure RE-GDA0002995418260000102
其中δ为对角加载因子,其大小设置为10-5
步骤7:将步骤6中滤波后的频域语音数据进行离散反傅里叶变换得到降噪后的纯净语音信号的时域估计。
步骤8:估计去噪语音的增强效果。
实验结论:
实验结果如图3和图4所示。图中标注为Fixed-point的曲线为本发明算法的性能图。图3 刻画了提取Q=2个广义特征向量进行语音降噪后的平均输出信噪比。图4刻画了提取Q=4个广义特征向量进行语音降噪后的平均输出信噪比。从图3可以看出,本发明算法在取得更小的计算复杂度的情况下其实验性能接近传统高复杂度的数值算法,并且性能好于其它的迭代算法。从图3可以看出,当提取数目更多的广义特征向量进行语音增强,本发明算法的实验性能越接近传统高复杂度的数值算法并且远好与其它迭代算法。基于以上仿真结果,验证了本发明算法的实际有效性及计算优越性。

Claims (8)

1.一种基于变张成广义子空间的多通道频域语音增强算法,其特征在于,包括以下步骤:
S1,麦克风阵列采集多点带噪语音信号数据并得到多通道观测数据,布置麦克风阵列采集多点参考噪声信号,得到多通道噪声参考数据;
S2,将带噪语音信号和参考噪声信号进行分帧处理并对每一帧加窗函数,并对加窗后的函数进行离散快速傅里叶变换;
S3,将S2中进行离散快速傅里叶变换后的数据按照不同频带的多通道数据构建当前频带下协方差矩阵数据更新向量;
S4,利用S3的更新向量更新不同频带下的协方差估计矩阵;
S5,利用子空间追踪算法提取S4中更新后的协方差估计矩阵广义特征向量;
S6,选择广义特征向量的数目构建变张成滤波器并对该子频带下的语音数据滤波;
S7,将S6中滤波后的频域语音数据进行离散反傅里叶变换得到降噪后的纯净语音信号的时域估计。
2.根据权利要求1所述的一种基于变张成广义子空间的多通道频域语音增强算法,其特征在于,S1中,麦克风阵列的布置阵元数目为M,采集N点带噪语音信号数据,得到多通道观测数据YM×N,多通道噪声参考数据VM×N
3.根据权利要求1所述的一种基于变张成广义子空间的多通道频域语音增强算法,其特征在于,S2的具体方法如下:
将带噪语音信号和噪声信号进行大小一致的分帧操作,使加窗函数的长度一致;
将加窗后的每个通道数据进行离散快速傅里叶变换并得到时频数据:
y(k,n)=[Y1(k,n)Y2(k,n)…YM(k,n)]=x(k,n)+v(k,n)
其中,k为频带的索引,n为时间帧的索引,Y1,Y2,…,YM分别为麦克风1,…,M的时域观测数据经傅里叶变换后的频域数据,x为时域语音信号向量经傅里叶变换后的频域向量,v为参考噪声向量经傅里叶变换后的频域向量。
4.根据权利要求3所述的一种基于变张成广义子空间的多通道频域语音增强算法,其特征在于,加窗函数的类型为凯塞窗或汉明窗。
5.根据权利要求1所述的一种基于变张成广义子空间的多通道频域语音增强算法,其特征在于,S4的具体方法如下:
利用更新向量迭代更新带噪语音信号的协方差矩阵:
Figure FDA0002851811790000021
其中γy为遗忘因子,k为频带的索引,n为时间帧的索引,
Figure FDA0002851811790000022
为观测信号的频域协方差矩阵,y为观测信号的频域数据的新息向量,yH为观测信号的频域新息向量的复共轭转置;
利用更新向量迭代更新参考噪声信号的协方差矩阵:
Figure FDA0002851811790000023
其中
Figure FDA0002851811790000024
Figure FDA0002851811790000025
γv为更新协方差矩阵的遗忘因子,其大小取值在(0,1)之间以追踪变化的协方差统计量;I为大小为M×M的单位矩阵;α更新协方差矩阵的中间变量;
Figure FDA0002851811790000026
为噪声频域数据经过白化处理的向量;
Figure FDA0002851811790000027
为噪声频域数据经过白化处理的向量的复共轭转置;
Figure FDA0002851811790000028
为参考噪声的频域协方差矩阵的逆矩阵;v为参考噪声的频域数据向量;
估计纯净信号的协方差矩阵:
Figure FDA0002851811790000029
Figure FDA0002851811790000031
为参考噪声的频域协方差矩阵。
6.根据权利要求5所述的一种基于变张成广义子空间的多通道频域语音增强算法,其特征在于,遗忘因子γy用于追踪时变的协方差统计量,遗忘因子γy的取值范围在0到1之间。
7.根据权利要求1所述的一种基于变张成广义子空间的多通道频域语音增强算法,其特征在于,S5的具体方法如下:
对Q个权值向量进行独立更新并进行QR分解正交化:
for q=1,…,Q
Figure FDA0002851811790000032
end
Figure FDA0002851811790000033
Figure FDA0002851811790000034
为第q个归一化的权值向量;uq为第q个非归一化的权值向量;
Figure FDA0002851811790000035
为参考噪声的频域协方差矩阵的逆矩阵;
Figure FDA0002851811790000036
为纯净语音信号的频域估计协方差矩阵;
Figure FDA0002851811790000037
为参考噪声的频域协方差矩阵的逆矩阵的转置;
Figure FDA0002851811790000038
为第q个非归一化的权值向量复共轭转置;
Figure FDA0002851811790000039
为Q个归一化后的权值向量;u1,…,uQ为非归一化的Q个权值向量;
对权值向量进行逆白化过程,得到广义特征向量的估计量:
Figure FDA00028518117900000310
w1,…,wQ为矩阵对
Figure FDA00028518117900000311
的Q个广义特征向量。
8.根据权利要求1所述的一种基于变张成广义子空间的多通道频域语音增强算法,其特征在于,S6的具体方法如下:
选取广义特征向量构造变张成滤波器:
Figure FDA00028518117900000312
其中,δ为对角加载因子,作用为使纯净信号的协方差矩为正定矩阵,
Figure FDA0002851811790000041
为第q个广义特征向量的复共轭转置;wq为第q个广义特征向量;i为大小为M×M的单位阵第一个列向量。
CN202011530129.5A 2020-12-22 2020-12-22 一种基于变张成广义子空间的多通道频域语音增强算法 Pending CN113409804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011530129.5A CN113409804A (zh) 2020-12-22 2020-12-22 一种基于变张成广义子空间的多通道频域语音增强算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011530129.5A CN113409804A (zh) 2020-12-22 2020-12-22 一种基于变张成广义子空间的多通道频域语音增强算法

Publications (1)

Publication Number Publication Date
CN113409804A true CN113409804A (zh) 2021-09-17

Family

ID=77675716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011530129.5A Pending CN113409804A (zh) 2020-12-22 2020-12-22 一种基于变张成广义子空间的多通道频域语音增强算法

Country Status (1)

Country Link
CN (1) CN113409804A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373475A (zh) * 2021-12-28 2022-04-19 陕西科技大学 一种基于麦克风阵列的语音降噪方法、装置以及存储介质
CN115940992A (zh) * 2022-11-16 2023-04-07 中国人民解放军战略支援部队航天工程大学 一种基于频域子空间原理的bl-dsss信号码跟踪方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208560A1 (en) * 2005-03-04 2007-09-06 Matsushita Electric Industrial Co., Ltd. Block-diagonal covariance joint subspace typing and model compensation for noise robust automatic speech recognition
US20120197636A1 (en) * 2011-02-01 2012-08-02 Jacob Benesty System and method for single-channel speech noise reduction
CN102737633A (zh) * 2012-06-21 2012-10-17 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN102969000A (zh) * 2012-12-04 2013-03-13 中国科学院自动化研究所 一种多通道语音增强方法
CN103548077A (zh) * 2011-05-19 2014-01-29 杜比实验室特许公司 参数化音频编译码方案的取证检测
CN105469431A (zh) * 2015-12-21 2016-04-06 电子科技大学 基于稀疏子空间的追踪方法
WO2016119388A1 (zh) * 2015-01-30 2016-08-04 华为技术有限公司 一种基于语音信号构造聚焦协方差矩阵的方法及装置
CN107316648A (zh) * 2017-07-24 2017-11-03 厦门理工学院 一种基于有色噪声的语音增强方法
CN111081267A (zh) * 2019-12-31 2020-04-28 中国科学院声学研究所 一种多通道远场语音增强方法
CN111681665A (zh) * 2020-05-20 2020-09-18 浙江大华技术股份有限公司 一种全向降噪方法、设备及存储介质
WO2020224226A1 (zh) * 2019-05-07 2020-11-12 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208560A1 (en) * 2005-03-04 2007-09-06 Matsushita Electric Industrial Co., Ltd. Block-diagonal covariance joint subspace typing and model compensation for noise robust automatic speech recognition
US20120197636A1 (en) * 2011-02-01 2012-08-02 Jacob Benesty System and method for single-channel speech noise reduction
CN103548077A (zh) * 2011-05-19 2014-01-29 杜比实验室特许公司 参数化音频编译码方案的取证检测
CN102737633A (zh) * 2012-06-21 2012-10-17 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN102969000A (zh) * 2012-12-04 2013-03-13 中国科学院自动化研究所 一种多通道语音增强方法
WO2016119388A1 (zh) * 2015-01-30 2016-08-04 华为技术有限公司 一种基于语音信号构造聚焦协方差矩阵的方法及装置
CN105469431A (zh) * 2015-12-21 2016-04-06 电子科技大学 基于稀疏子空间的追踪方法
CN107316648A (zh) * 2017-07-24 2017-11-03 厦门理工学院 一种基于有色噪声的语音增强方法
WO2020224226A1 (zh) * 2019-05-07 2020-11-12 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN111081267A (zh) * 2019-12-31 2020-04-28 中国科学院声学研究所 一种多通道远场语音增强方法
CN111681665A (zh) * 2020-05-20 2020-09-18 浙江大华技术股份有限公司 一种全向降噪方法、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373475A (zh) * 2021-12-28 2022-04-19 陕西科技大学 一种基于麦克风阵列的语音降噪方法、装置以及存储介质
CN115940992A (zh) * 2022-11-16 2023-04-07 中国人民解放军战略支援部队航天工程大学 一种基于频域子空间原理的bl-dsss信号码跟踪方法
CN115940992B (zh) * 2022-11-16 2023-10-03 中国人民解放军战略支援部队航天工程大学 一种基于频域子空间原理的bl-dsss信号码跟踪方法

Similar Documents

Publication Publication Date Title
CN107479030B (zh) 基于分频和改进的广义互相关双耳时延估计方法
Doclo et al. GSVD-based optimal filtering for single and multimicrophone speech enhancement
CN110600050B (zh) 基于深度神经网络的麦克风阵列语音增强方法及系统
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
Delcroix et al. Precise dereverberation using multichannel linear prediction
CN110473564B (zh) 一种基于深度波束形成的多通道语音增强方法
CN109285557B (zh) 一种定向拾音方法、装置及电子设备
CN105225672B (zh) 融合基频信息的双麦克风定向噪音抑制的系统及方法
JP2007526511A (ja) 周波数領域で多重経路多チャネル混合信号のブラインド分離のための方法及びその装置
CN113409804A (zh) 一种基于变张成广义子空间的多通道频域语音增强算法
CN112530451A (zh) 基于去噪自编码器的语音增强方法
CN110970044A (zh) 一种面向语音识别的语音增强方法
CN112802490B (zh) 一种基于传声器阵列的波束形成方法和装置
Yousheng et al. Speech enhancement based on combination of wiener filter and subspace filter
CN112820312B (zh) 一种语音分离方法、装置及电子设备
Doclo et al. Combined frequency-domain dereverberation and noise reduction technique for multi-microphone speech enhancement
Yoshioka et al. Dereverberation by using time-variant nature of speech production system
CN114863944B (zh) 一种低时延音频信号超定盲源分离方法及分离装置
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
CN114566179A (zh) 一种时延可控的语音降噪方法
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质
CN111491245A (zh) 基于循环神经网络的数字助听器声场识别算法及硬件实现方法
CN113421582B (zh) 麦克语音增强方法及装置、终端和存储介质
Tan et al. Kronecker Product Based Linear Prediction Kalman Filter for Dereverberation and Noise Reduction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination