CN111599374A - 一种单通道语音去混响方法及装置 - Google Patents

一种单通道语音去混响方法及装置 Download PDF

Info

Publication number
CN111599374A
CN111599374A CN202010302255.9A CN202010302255A CN111599374A CN 111599374 A CN111599374 A CN 111599374A CN 202010302255 A CN202010302255 A CN 202010302255A CN 111599374 A CN111599374 A CN 111599374A
Authority
CN
China
Prior art keywords
voice signal
frame
frequency domain
frequency
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010302255.9A
Other languages
English (en)
Other versions
CN111599374B (zh
Inventor
李妍文
关海欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010302255.9A priority Critical patent/CN111599374B/zh
Publication of CN111599374A publication Critical patent/CN111599374A/zh
Application granted granted Critical
Publication of CN111599374B publication Critical patent/CN111599374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

本发明公开了一种单通道语音去混响方法及装置,方法包括:获取单个麦克风在室内采集的语音信号;对语音信号进行分帧加窗以及短时傅里叶变换处理,得到频域语音信号;将频域语音信号输入设置有预设初始参数的滤波器,采用基于二分坐标下降法的递归最小二乘法,将频域语音信号分成多个频带信号;根据所述多个频带信号计算得到更新后的滤波器系数,根据更新后的滤波器系数对多个频带信号进行滤波,得到去混响后的频域语音信号,可以降低计算量及计算复杂度,缩短处理语音信号时长。

Description

一种单通道语音去混响方法及装置
技术领域
本发明涉及语音去混响技术领域,特别涉及一种单通道语音去混响方法及装置。
背景技术
室内麦克风接收语音信号存在混响,导致后端语音识别性能下降,现有技术中采用最小二乘法进行去混响,可以提高对语音信号的识别准确率。但是该最小二乘法的计算量大,复杂度高,一般需要O(K2)级乘法和O(K2)级加法,其中K为滤波器阶数,处理语音时间较长,降低了前端语音处理效率。
发明内容
本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此,本发明的第一个目的在于提出一种单通道语音去混响方法,可以降低计算量及计算复杂度,缩短处理语音信号时长,提高了对前端语音信号的处理效率。
本发明的第二个目的在于提出一种单通道语音去混响装置。
为达到上述目的,本发明第一方面实施例提出了一种单通道语音去混响方法,包括:
获取单个麦克风在室内采集的语音信号;
对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到频域语音信号;
将所述频域语音信号输入设置有预设初始参数的滤波器,采用基于二分坐标下降法的递归最小二乘法,将所述频域语音信号分成多个频带信号;
根据所述多个频带信号计算得到更新后的滤波器系数,根据更新后的滤波器系数对多个频带信号进行滤波,得到去混响后的频域语音信号。
根据本发明第一方面实施例提出的一种单通道语音去混响方法,二分坐标下降法在迭代过程中只使用加法,不使用乘法,可以降低对语音信号处理时的计算量及计算复杂度,缩短处理语音信号时长,提高了对前端语音信号的处理效率。最小二乘法的计算量大,复杂度高,一般需要O(K2)级乘法和O(K2)级加法,其中K为滤波器阶数,通过二分坐标下降法可以将计算复杂度降低为3K,同时设置预设初始参数,在保证去混响方法性能的情况下,提高算法处理效率。
根据本发明的一些实施例,所述根据所述多个频带信号计算得到更新后的滤波器系数,包括:
计算各个所述频带信号的协方差矩阵和相关向量初值;
根据协方差矩阵和相关向量的初值对相关向量做二分坐标下降迭代,得到滤波器系数的更新量;
根据所述滤波器系数的更新量计算得到更新后的滤波器系数。
根据本发明的一些实施例,在得到去混响后的频域语音信号后,还包括:对所述去混响后的频域语音信号进行傅里叶逆变换,得到时域语音信号以便进行语音识别。
根据本发明的一些实施例,所述预设初始参数包括:
Figure BDA0002454447470000021
其中,Mb为滤波器系数更新量的元素二进制表示的预设比特数,[-H,H]为二进制表示的幅度范围,Nu为成功迭代的最大次数,K为滤波器阶数。
根据本发明的一些实施例,所述计算各个所述频带信号的协方差矩阵和相关向量初值,算法如下:
对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到若干帧频域语音信号,帧长为32ms,帧移为16ms,其中第t帧、第k个频点的信号为y(t,k);
根据线性预测理论计算去混响后的频域语音信号的先验值:
e(t,k)=conj(y(t,k))-YH(t-Δ,k)G(t-1,k) (1)
其中,e(t,k)为第t帧、第k个频点的去混响后的频域语音信号的先验值,G(t-1,k)为第t-1帧、第k个频点的滤波器系数,Y(t,k)=[y(t,k),…,y(t-K+1,k)]T,Δ>0为延时保护,YH为矩阵或向量的共轭转置,conj()为复数的共轭变换;
计算第t帧、第k个频点信号功率λt,k
λt,k=|e(t,k)|2 (2)
计算协方差矩阵为:
Figure BDA0002454447470000031
其中,R(t,k)为第t帧、第k个频点的协方差矩阵,γ为遗忘因子,R(t-1,k)为第t-1帧、第k个频点的协方差矩阵;
计算每一帧相关向量初值为:
Figure BDA0002454447470000032
其中,β0(t,k)为第t帧、第k个频点的相关向量初值,r(t-1,k)为第t-1帧、第k个频点的相关向量。
根据本发明的一些实施例,在计算所述滤波器系数的更新量时,设置内循环最大次数WM=2。
根据本发明的一些实施例,利用二分坐标下降法计算滤波器系数的更新量Gup(t,k),具体迭代流程为:
初始化迭代参数:Gup(t,k)=0M×1,r(t,k)=β0(t,k),α=H,q=0
其中,α为步长,用于控制滤波器的更新量,q为计算滤波器的更新量的变化次数,用来控制算法的复杂度;
Figure BDA0002454447470000041
其中,rn(t,k)为r(t,k)的第n行,Rn,n(t,k)为R(t,k)的第n行第n列,Gup(n)(t,k)为Gup(t,k)的第n行,R(n)(t,k)为R(t,k)的第n列,flag用于标记,控制算法的走向。
根据本发明的一些实施例,所述根据所述滤波器系数的更新量计算得到更新滤波器系数G(t,k)为:
G(t,k)=G(t-1,k)+Gup(t,k) (7)
根据本发明的一些实施例,所述根据更新后的滤波器系数对多个频带信号进行滤波,
得到第t帧、第k个频点去混响后的频域信号x(t,k)为:
x(t,k)=y(t,k)-GH(t,k)Y(t-Δ,k) (8)
为达到上述目的,本发明第二方面实施例提出了一种单通道语音去混响装置,包括:
第一获取模块,用于获取单个麦克风在室内采集的语音信号;
第一语音信号处理模块,用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到频域语音信号;
第二语音信号处理模块,用于将所述频域语音信号输入设置有预设初始参数的滤波器,采用基于二分坐标下降法的递归最小二乘法,将所述频域语音信号分成多个频带信号;
计算模块用于:
计算各个所述频带信号的协方差矩阵和相关向量初值;
根据协方差矩阵和相关向量的初值对相关向量做二分坐标下降迭代,得到滤波器系数的更新量;
根据所述滤波器系数的更新量计算得到更新后的滤波器系数;
第三语音信号处理模块,用于根据更新后的滤波器系数对多个频带信号进行滤波,得到去混响后的频域语音信号。
根据本发明第二方面实施例提出的一种单通道语音去混响装置,二分坐标下降法在迭代过程中只使用加法,不使用乘法,可以降低对语音信号处理时的计算量及计算复杂度,缩短处理语音信号时长,提高了对前端语音信号的处理效率。最小二乘法的计算量大,复杂度高,一般需要O(K2)级乘法和O(K2)级加法,其中K为滤波器阶数,通过二分坐标下降法可以将计算复杂度降低为3K,同时设置预设初始参数,在保证去混响方法性能的情况下,提高算法处理效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明一个实施例的一种单通道语音去混响方法的流程图;
图2是根据本发明又一个实施例的一种单通道语音去混响方法的流程图;
图3是根据本发明一个实施例的一种单通道语音去混响装置的框图;
图4是根据本发明又一个实施例的一种单通道语音去混响装置的框图;
图5是根据本发明一个实施例的计算更新后的滤波器系数的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
下面参考图1至图5来描述本发明实施例提出的一种单通道语音去混响方法及装置。
图1是根据本发明一个实施例的一种单通道语音去混响方法的流程图;如图1所示,本发明第一方面实施例提出了一种单通道语音去混响方法,包括步骤S1-S4:
S1、获取单个麦克风在室内采集的语音信号;
S2、对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到频域语音信号;
S3、将所述频域语音信号输入设置有预设初始参数的滤波器,采用基于二分坐标下降法的递归最小二乘法,将所述频域语音信号分成多个频带信号;
S4、根据所述多个频带信号计算得到更新后的滤波器系数,根据更新后的滤波器系数对多个频带信号进行滤波,得到去混响后的频域语音信号。
上述技术方案的工作原理:获取单个麦克风在室内采集的语音信号,即为单通道语音信号,对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到频域语音信号;语音信号进行分帧加窗分为若干帧语音信号,帧长为32ms,帧移为16ms。将分帧后的语音信号看做稳态信号,方便计算。将频域语音信号输入设置有预设初始参数的滤波器,采用基于二分坐标下降法的递归最小二乘法,将频域语音信号分成多个频带信号;预设初始参数可以通过多次试验获得,设置预设初始参数可以保证算法在计算量降低的情况下,去混响效果基本不变。根据所述多个频带信号计算得到更新后的滤波器系数,根据更新后的滤波器系数对多个频带信号进行滤波,得到去混响后的频域语音信号。
上述技术方案的有益效果:二分坐标下降法在迭代过程中只使用加法,不使用乘法,可以降低对语音信号处理时的计算量及计算复杂度,缩短处理语音信号时长,提高了对前端语音信号的处理效率。最小二乘法的计算量大,复杂度高,一般需要O(K2)级乘法和O(K2)级加法,其中K为滤波器阶数,通过二分坐标下降法可以将计算复杂度降低为3K,同时设置预设初始参数,在保证去混响方法性能的情况下,提高算法处理效率。
图5是根据本发明一个实施例的计算更新后的滤波器系数的流程图;如图5所示,在一实施例中,所述根据所述多个频带信号计算得到更新后的滤波器系数,包括步骤S41-S43:
S41、计算各个所述频带信号的协方差矩阵和相关向量初值;
S42、根据协方差矩阵和相关向量的初值对相关向量做二分坐标下降迭代,得到滤波器系数的更新量;
S43、根据所述滤波器系数的更新量计算得到更新后的滤波器系数。
上述技术方案的工作原理:多个频带信号相互独立,便于对每个频带的相关数据进行计算。计算各个所述频带信号的协方差矩阵和相关向量初值,根据协方差矩阵和相关向量的初值对相关向量通过二分坐标下降法(dichotomous coordinate descent,简称DCD)进行迭代,得到滤波器系数的更新量,即滤波器系数的改变量,二分坐标下降法解决了递归最小二乘法中计算量及计算复杂度最大的一步,即通过不断地迭代,不断地缩小误差,得到滤波器系数的更新量,根据滤波器系数的更新量计算得到更新后的滤波器系数。
上述技术方案的有益效果:二分坐标下降法在迭代过程中只使用加法,不使用乘法,可以降低对语音信号处理时的计算量及计算复杂度,缩短处理语音信号时长,提高了对前端语音信号的处理效率。最小二乘法的计算量大,复杂度高,一般需要O(K2)级乘法和O(K2)级加法,其中K为滤波器阶数,通过二分坐标下降法可以将计算复杂度降低为3K,同时设置预设初始参数,在保证去混响方法性能的情况下,提高算法处理效率。
图2是根据本发明又一个实施例的一种单通道语音去混响方法的流程图;如图2所示,在得到去混响后的频域语音信号后,还包括:S5、对所述去混响后的频域语音信号进行傅里叶逆变换,得到时域语音信号以便进行语音识别。
上述技术方案的有益效果:对去混响后的频域语音信号进行傅里叶逆变换,得到时域语音信号,可以提高对语音信号的识别率,更容易进行识别。
根据本发明的一些实施例,所述预设初始参数包括:
Figure BDA0002454447470000081
其中,Mb为滤波器系数更新量的元素二进制表示的预设比特数,[-H,H]为二进制表示的幅度范围,Nu为成功迭代的最大次数,K为滤波器阶数。
根据本发明的一些实施例,所述计算各个所述频带信号的协方差矩阵和相关向量初值,算法如下:
对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到若干帧频域语音信号,帧长为32ms,帧移为16ms,其中,第t帧、第k个频点的信号为y(t,k);设置长度为K的滤波器系数初始值G(0,k)=0K×1,协方差矩阵初值R(0,k)=IK×K,相关向量初值为r(0,k)=0K×1,滤波器系数更新量的元素二进制表示的预设比特数Mb=4,成功迭代的最大次数Nu=K/2,内循环最大次数WM=2,二进制表示的幅度范围在[-H,H]],其中H=4;
根据线性预测理论计算去混响后的频域语音信号的先验值:
e(t,k)=conj(y(t,k))-YH(t-Δ,k)G(t-1,k) (1)
其中,e(t,k)为第t帧、第k个频点的去混响后的频域语音信号的先验值,G(t-1,k)为第t-1帧、第k个频点的滤波器系数,Y(t,k)=[y(t,k),…,y(t-K+1,k)]T,Δ>0为延时保护,YH为矩阵或向量的共轭转置,conj()为复数的共轭变换;
计算第t帧、第k个频点信号功率λt,k
λt,k=|e(t,k)|2 (2)
计算协方差矩阵为:
Figure BDA0002454447470000091
其中,R(t,k)为第t帧、第k个频点的协方差矩阵,γ为遗忘因子,R(t-1,k)为第t-1帧、第k个频点的协方差矩阵;
计算每一帧相关向量初值为:
Figure BDA0002454447470000092
其中,β0(t,k)为第t帧、第k个频点的相关向量初值,r(t-1,k)为第t-1帧、第k个频点的相关向量。
上述技术方案的有益效果:通过上述算法可以计算得到各个所述频带信号的协方差矩阵和相关向量初值。
根据本发明的一些实施例,在计算所述滤波器系数的更新量时,设置内循环最大次数WM=2。通过设置内循环最大次数为2,可以在保证算法鲁棒性的前提下,防止迭代过程进入死循环。
根据本发明的一些实施例,利用二分坐标下降法计算滤波器系数的更新量Gup(t,k),具体迭代流程为:
初始化迭代参数:Gup(t,k)=0M×1,r(t,k)=β0(t,k),α=H,q=0
其中,α为步长,用于控制滤波器的更新量,q为计算滤波器的更新量的变化次数,用来控制算法的复杂度;
Figure BDA0002454447470000101
其中,rn(t,k)为r(t,k)的第n行,Rn,n(t,k)为R(t,k)的第n行第n列,Gup(n)(t,k)为Gup(t,k)的第n行,R(n)(t,k)为R(t,k)的第n列,flag用于标记,控制算法的走向。
上述技术方案的有益效果:通过二分坐标下降法(dichotomous coordinatedescent,简称DCD)进行迭代,通过不断地迭代,不断地缩小误差,得到滤波器系数的更新量,降低了计算量及计算复杂度。
根据本发明的一些实施例,所述根据所述滤波器系数的更新量计算得到更新滤波器系数G(t,k)为:
G(t,k)=G(t-1,k)+Gup(t,k) (7)
上述技术方案的有益效果:得到更新滤波器系数,设置更新滤波器系数,可以提高去混响效果。
根据本发明的一些实施例,所述根据更新后的滤波器系数对多个频带信号进行滤波,
得到第t帧、第k个频点去混响后的频域信号x(t,k)为:
x(t,k)=y(t,k)-GH(t,k)Y(t-Δ,k) (8)
上述技术方案的有益效果:通过更新滤波器系数后对语音信号进行滤波,对语音信号的处理时间缩短,提高了处理效率。
图3是根据本发明一个实施例的一种单通道语音去混响装置的框图;如图3所示,本发明第二方面实施例提出了一种单通道语音去混响装置,包括:
第一获取模块1,用于获取单个麦克风在室内采集的语音信号;
第一语音信号处理模块2,用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到频域语音信号;
第二语音信号处理模块3,用于将所述频域语音信号输入设置有预设初始参数的滤波器,采用基于二分坐标下降法的递归最小二乘法,将所述频域语音信号分成多个频带信号;
计算模块4用于:
计算各个所述频带信号的协方差矩阵和相关向量初值;
根据协方差矩阵和相关向量的初值对相关向量做二分坐标下降迭代,得到滤波器系数的更新量;
根据所述滤波器系数的更新量计算得到更新后的滤波器系数;
第三语音信号处理模块5,用于根据更新后的滤波器系数对多个频带信号进行滤波,得到去混响后的频域语音信号。
上述技术方案的有益效果:二分坐标下降法在迭代过程中只使用加法,不使用乘法,可以降低对语音信号处理时的计算量及计算复杂度,缩短处理语音信号时长,提高了对前端语音信号的处理效率。最小二乘法的计算量大,复杂度高,一般需要O(K2)级乘法和O(K2)级加法,其中K为滤波器阶数,通过二分坐标下降法可以将计算复杂度降低为3K,同时设置预设初始参数,在保证去混响方法性能的情况下,提高算法处理效率。
图4是根据本发明又一个实施例的一种单通道语音去混响装置的框图;如图4所示,所述单通道语音去混响装置还包括:
第四语音信号处理模块6,用于对所述去混响后的频域语音信号进行傅里叶逆变换,得到时域语音信号以便进行语音识别。
上述技术方案的有益效果:对去混响后的频域语音信号进行傅里叶逆变换,得到时域语音信号,可以提高对语音信号的识别率,更容易进行识别。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种单通道语音去混响方法,其特征在于,包括:
获取单个麦克风在室内采集的语音信号;
对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到频域语音信号;
将所述频域语音信号输入设置有预设初始参数的滤波器,采用基于二分坐标下降法的递归最小二乘法,将所述频域语音信号分成多个频带信号;
根据所述多个频带信号计算得到更新后的滤波器系数,根据更新后的滤波器系数对多个频带信号进行滤波,得到去混响后的频域语音信号。
2.如权利要求1所述的单通道语音去混响方法,其特征在于,所述根据所述多个频带信号计算得到更新后的滤波器系数,包括:
计算各个所述频带信号的协方差矩阵和相关向量初值;
根据协方差矩阵和相关向量的初值对相关向量做二分坐标下降迭代,得到滤波器系数的更新量;
根据所述滤波器系数的更新量计算得到更新后的滤波器系数。
3.如权利要求1所述的单通道语音去混响方法,其特征在于,在得到去混响后的频域语音信号后,还包括:对所述去混响后的频域语音信号进行傅里叶逆变换,得到时域语音信号以便进行语音识别。
4.如权利要求1所述的单通道语音去混响方法,其特征在于,所述预设初始参数包括:
Figure FDA0002454447460000021
其中,Mb为滤波器系数更新量的元素二进制表示的预设比特数,[-H,H]为二进制表示的幅度范围,Nu为成功迭代的最大次数,K为滤波器阶数。
5.如权利要求2所述的单通道语音去混响方法,其特征在于,所述计算各个所述频带信号的协方差矩阵和相关向量初值,算法如下:
对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到若干帧频域语音信号,帧长为32ms,帧移为16ms,其中第t帧、第k个频点的信号为y(t,k);
根据线性预测理论计算去混响后的频域语音信号的先验值:
e(t,k)=conj(y(t,k))-YH(t-Δ,k)G(t-1,k) (1)
其中,e(t,k)为第t帧、第k个频点的去混响后的频域语音信号的先验值,G(t-1,k)为第t-1帧、第k个频点的滤波器系数,Y(t,k)=[y(t,k),…,y(t-K+1,k)]T,Δ>0为延时保护,YH为矩阵或向量的共轭转置,conj()为复数的共轭变换;
计算第t帧、第k个频点信号功率λt,k
λt,k=|e(t,k)|2 (2)
计算协方差矩阵为:
Figure FDA0002454447460000022
其中,R(t,k)为第t帧、第k个频点的协方差矩阵,γ为遗忘因子,R(t-1,k)为第t-1帧、第k个频点的协方差矩阵;
计算每一帧相关向量初值为:
Figure FDA0002454447460000023
其中,β0(t,k)为第t帧、第k个频点的相关向量初值,r(t-1,k)为第t-1帧、第k个频点的相关向量。
6.如权利要求2所述的单通道语音去混响方法,其特征在于,在计算所述滤波器系数的更新量时,设置内循环最大次数WM=2。
7.如权利要求5所述的单通道语音去混响方法,其特征在于,利用二分坐标下降法计算滤波器系数的更新量Gup(t,k),具体迭代流程为:
初始化迭代参数:Gup(t,k)=0M×1,r(t,k)=β0(t,k),α=H,q=0
其中,α为步长,用于控制滤波器的更新量,q为计算滤波器的更新量的变化次数,用来控制算法的复杂度;
Figure FDA0002454447460000031
其中,rn(t,k)为r(t,k)的第n行,Rn,n(t,k)为R(t,k)的第n行第n列,Gup(n)(t,k)为Gup(t,k)的第n行,R(n)(t,k)为R(t,k)的第n列,flag用于标记,控制算法的走向。
8.如权利要求7所述的单通道语音去混响方法,其特征在于,所述根据所述滤波器系数的更新量计算得到更新滤波器系数G(t,k)为:
G(t,k)=G(t-1,k)+Gup(t,k) (7)
9.如权利要求8所述的单通道语音去混响方法,其特征在于,所述根据更新后的滤波器系数对多个频带信号进行滤波,
得到第t帧、第k个频点去混响后的频域信号x(t,k)为:
x(t,k)=y(t,k)-GH(t,k)Y(t-Δ,k) (8)
10.一种单通道语音去混响装置,其特征在于,包括:
第一获取模块,用于获取单个麦克风在室内采集的语音信号;
第一语音信号处理模块,用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到频域语音信号;
第二语音信号处理模块,用于将所述频域语音信号输入设置有预设初始参数的滤波器,采用基于二分坐标下降法的递归最小二乘法,将所述频域语音信号分成多个频带信号;
计算模块用于:
计算各个所述频带信号的协方差矩阵和相关向量初值;
根据协方差矩阵和相关向量的初值对相关向量做二分坐标下降迭代,得到滤波器系数的更新量;
根据所述滤波器系数的更新量计算得到更新后的滤波器系数;
第三语音信号处理模块,用于根据更新后的滤波器系数对多个频带信号进行滤波,得到去混响后的频域语音信号。
CN202010302255.9A 2020-04-16 2020-04-16 一种单通道语音去混响方法及装置 Active CN111599374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010302255.9A CN111599374B (zh) 2020-04-16 2020-04-16 一种单通道语音去混响方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010302255.9A CN111599374B (zh) 2020-04-16 2020-04-16 一种单通道语音去混响方法及装置

Publications (2)

Publication Number Publication Date
CN111599374A true CN111599374A (zh) 2020-08-28
CN111599374B CN111599374B (zh) 2023-04-18

Family

ID=72187483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010302255.9A Active CN111599374B (zh) 2020-04-16 2020-04-16 一种单通道语音去混响方法及装置

Country Status (1)

Country Link
CN (1) CN111599374B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257265A (zh) * 2021-05-10 2021-08-13 北京有竹居网络技术有限公司 语音信号去混响方法、装置和电子设备
CN113506556A (zh) * 2021-06-07 2021-10-15 哈尔滨工业大学(深圳) 主动噪声控制方法、装置、存储介质和计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105391083A (zh) * 2015-11-05 2016-03-09 河海大学 基于变分模态分解和相关向量机的风功率区间短期预测方法
CN107645316A (zh) * 2016-07-20 2018-01-30 英特尔公司 用于自干扰消除的方法和设备
CN108154885A (zh) * 2017-12-15 2018-06-12 重庆邮电大学 一种使用qr-rls算法对多通道语音信号去混响方法
CN108172231A (zh) * 2017-12-07 2018-06-15 中国科学院声学研究所 一种基于卡尔曼滤波的去混响方法及系统
US20180182410A1 (en) * 2016-12-23 2018-06-28 Synaptics Incorporated Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
CN109994120A (zh) * 2017-12-29 2019-07-09 福州瑞芯微电子股份有限公司 基于双麦的语音增强方法、系统、音箱及存储介质
CN110111804A (zh) * 2018-02-01 2019-08-09 南京大学 基于rls算法的自适应去混响方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105391083A (zh) * 2015-11-05 2016-03-09 河海大学 基于变分模态分解和相关向量机的风功率区间短期预测方法
CN107645316A (zh) * 2016-07-20 2018-01-30 英特尔公司 用于自干扰消除的方法和设备
US20180182410A1 (en) * 2016-12-23 2018-06-28 Synaptics Incorporated Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
CN108172231A (zh) * 2017-12-07 2018-06-15 中国科学院声学研究所 一种基于卡尔曼滤波的去混响方法及系统
CN108154885A (zh) * 2017-12-15 2018-06-12 重庆邮电大学 一种使用qr-rls算法对多通道语音信号去混响方法
CN109994120A (zh) * 2017-12-29 2019-07-09 福州瑞芯微电子股份有限公司 基于双麦的语音增强方法、系统、音箱及存储介质
CN110111804A (zh) * 2018-02-01 2019-08-09 南京大学 基于rls算法的自适应去混响方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CRISTIAN STANCIU ET AL: "A Robust Dual-Path DCD-RLS Algorithm for Stereophonic Acoustic Echo Cancellation" *
YANWEN LI ET AL.: "Reverberation Robust Feature Extraction for Sound Source Localization Using a Small-Sized Microphone Array" *
刘忠乐等: "基于 RLS_DCD 的查找表更新算法" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257265A (zh) * 2021-05-10 2021-08-13 北京有竹居网络技术有限公司 语音信号去混响方法、装置和电子设备
CN113506556A (zh) * 2021-06-07 2021-10-15 哈尔滨工业大学(深圳) 主动噪声控制方法、装置、存储介质和计算机设备
CN113506556B (zh) * 2021-06-07 2023-08-08 哈尔滨工业大学(深圳) 主动噪声控制方法、装置、存储介质和计算机设备

Also Published As

Publication number Publication date
CN111599374B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
US10446171B2 (en) Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN110853663B (zh) 基于人工智能的语音增强方法、服务器及存储介质
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
CN111599374B (zh) 一种单通道语音去混响方法及装置
CN111261183A (zh) 一种语音去噪的方法及装置
CN109979476B (zh) 一种语音去混响的方法及装置
US10755728B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
US10679617B2 (en) Voice enhancement in audio signals through modified generalized eigenvalue beamformer
Steinmetz et al. Efficient neural networks for real-time modeling of analog dynamic range compression
CN111429932A (zh) 语音降噪方法、装置、设备及介质
CN113611323A (zh) 一种基于双通道卷积注意力网络的语音增强方法及系统
JP6764923B2 (ja) 音声処理方法、装置、デバイスおよび記憶媒体
Belloch et al. Multi-channel IIR filtering of audio signals using a GPU
WO2014079484A1 (en) Method for determining a dictionary of base components from an audio signal
Takeuchi et al. Invertible DNN-based nonlinear time-frequency transform for speech enhancement
JP2006154314A (ja) 音源分離装置,音源分離プログラム及び音源分離方法
CN110164461B (zh) 语音信号处理方法、装置、电子设备及存储介质
CN109243476B (zh) 混响语音信号中后混响功率谱的自适应估计方法及装置
CN105957534B (zh) 自适应滤波方法和自适应滤波器
CN108510996B (zh) 一种快速迭代自适应滤波方法
WO2023086311A1 (en) Control of speech preservation in speech enhancement
CN110648681B (zh) 语音增强的方法、装置、电子设备及计算机可读存储介质
Cho et al. An efficient HMM-based feature enhancement method with filter estimation for reverberant speech recognition
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant