CN116364103A - 一种语音信号处理方法和装置及电子设备 - Google Patents
一种语音信号处理方法和装置及电子设备 Download PDFInfo
- Publication number
- CN116364103A CN116364103A CN202310198582.8A CN202310198582A CN116364103A CN 116364103 A CN116364103 A CN 116364103A CN 202310198582 A CN202310198582 A CN 202310198582A CN 116364103 A CN116364103 A CN 116364103A
- Authority
- CN
- China
- Prior art keywords
- time
- nth
- moment
- signal
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 7
- 239000011159 matrix material Substances 0.000 claims abstract description 133
- 238000000926 separation method Methods 0.000 claims abstract description 111
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 26
- 239000004973 liquid crystal related substance Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请实施例公开了一种语音信号处理方法和装置及电子设备。所述装置包括去混响模块和盲源分离模块;其中:所述去混响模块,用于利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n‑D)进行去混响处理,得到第n时刻的去混响实际信号x(n);所述盲源分离模块,用于利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);其中,所述装置还包括:计算模块,用于通过如下方式计算第n时刻的预测系数矩阵G(n),包括:获取第n‑1时刻的分离矩阵W(n‑1);根据第n‑1时刻的分离矩阵W(n‑1)和第n‑1时刻的预测系数矩阵G(n‑1),得到第n时刻的预测系数矩阵G(n)。
Description
技术领域
本申请实施例涉及音频处理领域,尤指一种语音信号处理方法和装置及电子设备。
背景技术
盲源分离(Blind Source Separation,BSS)是从观测信号中分离出多路声源的技术,“盲”表示源信号与传输通道是未知的。多通道盲源分离以麦克风数是否大于、等于、小于声源数目分为超定、正定、欠定三种情况。大部分盲源分离算法关注麦克风数大于等于声源数的情况。由于超定情况下可以利用主成分分析(Principal Component Analysis,PCA)将其转化为正定问题。
针对正定情况下的盲源分离技术,常用的盲源分离方法有独立成分分析(Independent Vector Analysis,ICA)、独立向量分析(Independent Vector Analysis,IVA)、多通道非负矩阵分解(Multichannel Non-Negative Matrix Factorization,MNMF)、独立低秩矩阵分析(Independent Low-Rank Matrix Analysis,ILRMA)等方法。IVA相比ICA,克服了频点模糊问题,因此得到广泛关注。利用基于辅助函数的独立向量分析(Auxiliary Function Based IVA,AuxIVA)是近年来解决BSS问题的主流方向,其中提供了一种可以逐帧更新分离矩阵的实时IVA方法。
麦克风采集的信号除了目标声源外,还包括其他干扰声源的信号、房间混响等,这些信号极大降低了音频系统的性能。盲源分离技术能分离出不同声源,从而去除干扰声源对目标声源的不良影响。然而,盲源分离技术的性能受混响影响较大,随着房间混响时间增大,盲源分离性能快速下降。因此应先对输入信号先进行去混响的预处理。
去混响最常见的技术有噪声抑制和线性预测两类。噪声抑制方法是先估计出混响的能量,将其当作噪声,再用噪声抑制如谱减、维纳滤波等方法去除混响成分。线性预测方法使用过去若干帧的数据预测当前语音帧中的混响成分,再将其减去。其中加权预测误差(Weighted Predict Error,WPE)方法及其自适应变体AWPE因其良好的去混响性能得到广泛应用。
在混响的环境中,声波反射折射产生的混响会对盲源分离产生干扰,极大降低分离性能,提出了将去混响与盲源分离结合的技术方案,但在去混响处理时,将输入信号与单位矩阵进行克罗内克乘积扩展,去混响效果较差。
发明内容
为了解决上述任一技术问题,本申请实施例提供了一种语音信号处理方法和装置及电子设备。
为了达到本申请实施例目的,本申请实施例提供了一种语音信号处理装置,所述装置包括去混响模块和盲源分离模块;其中:
所述去混响模块,用于利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理,得到第n时刻的去混响实际信号x(n);
所述盲源分离模块,用于利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);
其中,所述装置还包括:
计算模块,用于通过如下方式计算第n时刻的预测系数矩阵G(n),包括:
获取第n-1时刻的分离矩阵W(n-1);
根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n);
其中:
其中,M表示麦克风通道总数,D表示预测最小时间间隔,K表示延时信号组中不同延时时刻的信号总数,n、M、D和K均为正整数。
一种语音信号处理方法,应用于上文所述的装置,所述方法包括:
获取第n-1时刻的分离矩阵W(n-1);
根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n);
利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理,得到第n时刻的去混响实际信号x(n);
所述盲源分离模块,用于利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);
其中:
其中,M表示麦克风通道总数,D表示预测最小时间间隔,K表示延时信号组中不同延时时刻的信号总数,n、M、D和K均为正整数。
一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上文所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:
通过获取第n-1时刻的分离矩阵W(n-1),来获取语音信号的先验信息,并根据该先验信息来生成第n时刻的预测系数矩阵G(n),确定结果更加准确,能够更有效地抑制语音信号的混响,进一步提升盲源分离在高混响场景的性能。
本申请实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请实施例的实施例一起用于解释本申请实施例的技术方案,并不构成对本申请实施例技术方案的限制。
图1为本申请实施例提供的语音信号处理装置100的示意图;
图2为图1所示装置100中去混响模块10的结构示意图;
图3为图1所示装置100的另一示意图;
图4为图3所示置100的另一示意图;
图5为本申请实施例提供的语音信号处理方法的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互任意组合。
图1为本申请实施例提供的语音信号处理装置100的示意图。如图1所示,所述装置100包括去混响模块10和盲源分离模块20;其中,y(n)=(y1(n),y2(n)...,yM(n))T表示输入信号,为麦克风采集的多路信号,x(n)=(x1(n),x2(n)...,xM(n))T表示去混响模块10输出的去混响结果,z(n)=(z1(n),z2(n)...,zM(n))T表示盲源分离模块输出的盲源分离结果。
所述去混响模块10,用于利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理,得到第n时刻的去混响实际信号x(n);
其中:
其中,预测系数矩阵G(n)的初始值可以设为全0;
其中,M表示麦克风通道总数,D表示预测最小时间间隔,K表示延时信号组中不同延时时刻的信号总数,n、M、D和K均为正整数。
具体的,去混响过程可表示为
x(n)=y(n)-GH(n)Y(n-D)
去混响处理即从n=D+K时刻起,逐帧应用上式,从输出信号y(n)中减去估计出的混响成分G(n)HY(n-D),得到去混响实际信号x(n)。
图2为图1所示装置100中去混响模块10的结构示意图。如图2所示,所述去混响模块10包括K个支路,其中第k条支路利用第k组混响预测系数对(n-D-k+1)个时刻的输入信号进行去混响处理,其中,k=1,2,3,……,K。
由于第k条支路利用第k组混响预测系数对(n-D-k+1)个时刻的输入信号进行去混响处理,实现K条支路并行处理信号的目的,降低去混响的计算复杂度。
所述盲源分离模块20,与所述去混响模块10相连,用于利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);
其中,该盲源分离模块20可以采用ICA、AuxIVA、MNMF、ILRMA等多种算法确定第n时刻的分离矩阵W(n),在此不再赘述。
在得到第n时刻的分离矩阵W(n)后,该盲源分离模块20通过如下计算表达式可以得到第n时刻的分离实际信号z(n),包括:
z(n)=W(n)x(n)。
本申请实施例提供的装置,将去混响与盲源分离结合,在有效抑制输入信号的混响后再执行盲源分离操作,可以有效提升盲源分离在高混响场景的性能。
图3为图1所示装置100的另一示意图。如图3所示,所述装置100还包括:
计算模块30,与所述去混响模块10和所述盲源分离模块20相连,用于通过如下方式计算第n时刻的预测系数矩阵G(n),包括:
获取第n-1时刻的分离矩阵W(n-1);
根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n)。
具体的,所述计算模块30从所述盲源分离模块20获取第n-1时刻的分离矩阵W(n-1),来获取语音信号的先验信息,并根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n),使得第n时刻的预测系数矩阵G(n)是基于先验信息来生成的,与不使用先验信息生成第n时刻的混响预测系数矩阵G(n)相比,本申请实施例提供的第n时刻的预测系数矩阵G(n)的确定结果更加准确。
本申请实施例提供的装置,通过获取第n-1时刻的分离矩阵W(n-1),来获取语音信号的先验信息,并根据该先验信息来生成第n时刻的预测系数矩阵G(n),确定结果更加准确,能够更有效地抑制语音信号的混响,进一步提升盲源分离在高混响场景的性能。
在一个示例性实施例中,所述去混响模块10,还用于利用第n-1时刻的预测系数矩阵G(n-1),对第n时刻的输入信号y(n)进行处理,得到第n时刻的去混响预测信号xp(n);
具体的,由于第n时刻的预测系数矩阵G(n)是未知的,可以使用上一时刻的预测系数矩阵近似作为所使用的预测系数矩阵,以完成对第n时刻的去混响预测信号xp(n)的获取。
所述盲源分离模块20,还用于利用第n-1时刻的分离矩阵W(n-1),对第n时刻的去混响预测信号xp(n)进行处理,得到第n时刻的分离预测信号zp(n);
具体的,由于第n时刻的分离矩阵W(n)是未知的,可以使用上一时刻的分离矩阵近似作为所使用的分离矩阵,以完成对第n时刻的分离预测信号zp(n)的获取。
所述计算模块30,用于根据第n时刻的分离预测信号zp(n),计算第n时刻的平均功率λn,并根据第n时刻的平均功率λn,对第n-1时刻的预测系数矩阵G(n-1)进行处理,得到第n时刻的预测系数矩阵G(n)。
具体的,由于第n时刻的分离预测信号zp(n)是预测得到的源信号的语音数据,与第n时刻的的分离实际信号z(n)存在较强的相似度,因此,可以利用第n时刻的分离预测信号zp(n)中携带的语音信号的先验信息来生成第n时刻的预测系数矩阵G(n)。
进一步的,利用第n时刻的分离预测信号zp(n)来计算第n时刻的平均功率λn,可以充分利用第n时刻的分离预测信号zp(n)所携带的语音信号的先验信息。
与使用第n时刻的去混响预测信号xp(n)来计算第n时刻的平均功率λn相比,本申请提供的装置在计算第n时刻的平均功率λn所使用的参数不同。
具体的,由于第n时刻的分离预测信号zp(n)是对第n时刻的去混响预测信号xp(n)进行处理后得到的信号。与第n时刻的去混响预测信号xp(n)相比,第n时刻的分离预测信号zp(n)是基于预测操作得到的第n时刻的源信号,而第n时刻的第n时刻的去混响预测信号xp(n)是预测操作得到的包括源信号在内的多个信号。由于第n时刻的分离预测信号zp(n)是不掺杂其他信号,因此,由于该分离预测信号zp(n)所携带的源信号的语音信息更加准确,使得第n时刻的平均功率λn的确定结果更加准确,为更加准确地计算第n时刻的预测系数矩阵G(n)提供支持。
在一个示例性实施例中,所述计算模块30通过如下方式计算第n时刻的预测系数矩阵G(n),包括:
根据第n时刻的平均功率λn,确定第n时刻的调整系数k(n);
利用第n时刻的调整矩阵,对所述第n-1时刻的预测系数矩阵G(n-1)进行更新,得到第n时刻的预测系数矩阵G(n)。
具体的,所述计算模块30通过如下方式计算第n时刻的调整系数k(n),包括:
其中,γ为遗忘因子,γ的取值在0.9至1之间的值。
具体的,所述计算模块30通过如下方式计算第n时刻的的预测系数矩阵G(n),包括:
采用上述方式可以充分利用计算得到的第n时刻的去混响预测信号xp(n)和第n时刻的分离预测信号zp(n),得到第n-1时刻的预测系数矩阵G(n-1)对应的调整信息,能够更加准确地确定第n时刻的预测系数矩阵G(n)。
在一个示例性实施例中,所述计算模块30通过如下方式得到第n时刻的平均功率λn,包括:
从第n时刻M个通道的分离预测信号的协方差矩阵中,获取对角线元素之和;
根据所述对角线元素之和以及M个通道,得到第n时刻的平均功率λn。
其中,zp,m(n)表示第n时刻第m通道的分离预测信号,m=1,2,3,……,M。
具体的,所述计算模块30通过如下计算表达式获取第n时刻的平均功率λn。
图4为图3所示装置100的另一示意图。如图4所示,所述装置还包括第一转换模块40和第二转换模块50;其中:
所述第一转换模块40,与所述去混响装置10相连,用于将接收的音频信号从时域信号转换为频域信号;
所述第二转换模块50,与所述盲源分离模块20相连,用于将接收的盲源分离结果从频域信号转换为时域信号。
由于采集的语音信号为短时平稳的时域信号,利用第一转换模块40将时域信号转到频域信号,再输出给去混响装置10,在去混响装置10和盲源分离模块20完成对频域信号的处理后,利用第二转换模块50,对每一帧语音信号,将时域信号转到频域信号。
第一转换模块40通过如下方式完成音频信号从时域信号转换为频域信号,包括:
对采集得到的音频信号进行分帧操作,其中每帧的时长可以为10ms至30m,并设置一定比例的重叠率;
选择一个时域窗函数,通过移动时域窗函数,对时域信号逐帧加窗,其中该时域窗函数可以为汉宁窗;
对每一帧信号进行快速傅里叶变换(Fast Fourier Transformation,FFT)FFT),将时域信号转到频域。
第二转换模块50通过如下方式完成盲源分离结果从频域信号转换为时域信号,包括:
对每一帧的盲源分离结果进行快速傅里叶逆变换IFFT(Inverse Fast FourierTransform,IFFT),从频域信号转换为时域信号;
从时域信号中取实部,并执行加窗处理;
按照设置的重复率进行信号相加得到目标音频。
图5为本申请实施例提供的语音信号处理方法的流程图。如图5所示,所述方法应用于图3和图4所示的装置,所述方法包括:
步骤A、获取第n-1时刻的分离矩阵W(n-1);
步骤B、根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n);
步骤C、利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理,得到第n时刻的去混响实际信号x(n);
步骤D、利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);
其中:
其中,M表示麦克风通道总数,D表示预测最小时间间隔,K表示延时信号组中不同延时时刻的信号总数,n、M、D和K均为正整数。
在一个示例性实施例中,所述步骤A,包括:
步骤A1、利用第n-1时刻的预测系数矩阵G(n-1),对第n时刻的输入信号y(n)进行处理,得到第n时刻的去混响预测信号xp(n);
具体的,由于第n时刻的预测系数矩阵G(n)是未知的,可以使用上一时刻的预测系数矩阵近似作为所使用的预测系数矩阵,以完成对第n时刻的去混响预测信号xp(n)的获取。
步骤A2、利用第n-1时刻的分离矩阵W(n-1),对第n时刻的去混响预测信号xp(n)进行处理,得到第n时刻的分离预测信号zp(n);
具体的,由于第n时刻的分离矩阵W(n)是未知的,可以使用上一时刻的分离矩阵近似作为所使用的分离矩阵,以完成对第n时刻的去分离预测信号zp(n)的获取。
步骤A3、根据第n时刻的分离预测信号zp(n),计算第n时刻的平均功率λn;
由于第n时刻的分离预测信号zp(n)是预测得到的去除干扰信号的语音数据,与第n时刻的的分离实际信号z(n)存在较强的相似度,因此,可以利用第n时刻的分离预测信号zp(n)中携带的语音信号的先验信息用于计算第n时刻的预测系数矩阵G(n)。
与使用第n时刻的去混响预测信号xp(n)来计算第n时刻的平均功率λn相比,本申请提供的装置在计算第n时刻的平均功率λn所使用的参数不同。
具体的,由于第n时刻的分离预测信号zp(n)是对第n时刻的去混响预测信号xp(n)进行处理后得到的信号。与第n时刻的去混响预测信号xp(n)相比,第n时刻的分离预测信号zp(n)是基于预测操作得到的第n时刻的源信号,而第n时刻的第n时刻的去混响预测信号xp(n)是预测操作得到的包括源信号在内的多个信号。由于第n时刻的分离预测信号zp(n)是不掺杂其他信号,因此,由于该分离预测信号zp(n)所携带的源信号的语音信息更加准确,使得第n时刻的平均功率λn的确定结果更加准确,为更加准确地计算第n时刻的预测系数矩阵G(n)提供支持。
步骤A4、根据第n时刻的平均功率λn,对第n-1时刻的预测系数矩阵G(n-1)进行处理,得到第n时刻的预测系数矩阵G(n)。
具体的,通过如下方式计算第n时刻的调整系数k(n),包括:
其中,γ为遗忘因子,γ的取值在0.9至1之间的值。
在一个示例性实施例中,所述步骤A4,包括:
步骤A41、根据第n时刻的平均功率λn,确定第n时刻的调整系数k(n);
步骤A43、利用第n时刻的调整矩阵,对所述第n-1时刻的预测系数矩阵G(n-1)进行更新,得到第n时刻的预测系数矩阵G(n)。
具体的,所述计算模块通过如下方式计算第n时刻的的预测系数矩阵G(n),包括:
采用上述方式可以充分利用计算得到的第n时刻的去混响预测信号xp(n)和第n时刻的分离预测信号zp(n),得到第n-1时刻的预测系数矩阵G(n-1)对应的调整信息,能够更加准确地确定第n时刻的预测系数矩阵G(n)。
在一个示例性实施例中,所述步骤A3,包括:
步骤A31、从第n时刻M个通道的分离预测信号的协方差矩阵中,获取对角线元素之和;
其中,zp,m(n)表示第n时刻第m通道的分离预测信号,m=1,2,3,……,M。
步骤A32、根据所述对角线元素之和以及M个通道,得到第n时刻的平均功率λn。
具体的,通过如下计算表达式获取第n时刻的平均功率λn。
本申请实施例提供的方法,通过获取第n-1时刻的分离矩阵W(n-1),来获取语音信号的先验信息,并根据该先验信息来生成第n时刻的预测系数矩阵G(n),确定结果更加准确,能够更有效地抑制语音信号的混响,进一步提升盲源分离在高混响场景的性能。
本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上文所述的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (11)
1.一种语音信号处理装置,其特征在于,所述装置包括去混响模块和盲源分离模块;其中:
所述去混响模块,用于利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理,得到第n时刻的去混响实际信号x(n);
所述盲源分离模块,用于利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);
其中,所述装置还包括:
计算模块,用于通过如下方式计算第n时刻的预测系数矩阵G(n),包括:
获取第n-1时刻的分离矩阵W(n-1);
根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n);
其中:
其中,M表示麦克风通道总数,D表示预测最小时间间隔,K表示延时信号组中不同延时时刻的信号总数,n、M、D和K均为正整数。
2.根据权利要求1所述的装置,其特征在于:
所述去混响模块,还用于利用第n-1时刻的预测系数矩阵G(n-1),对第n时刻的输入信号y(n)进行处理,得到第n时刻的去混响预测信号xp(n);
所述盲源分离模块,还用于利用第n-1时刻的分离矩阵W(n-1),对第n时刻的去混响预测信号xp(n)进行处理,得到第n时刻的分离预测信号zp(n);
所述计算模块,用于根据第n时刻的分离预测信号zp(n),计算第n时刻的平均功率λn,并根据第n时刻的平均功率λn,对第n-1时刻的预测系数矩阵G(n-1)进行处理,得到第n时刻的预测系数矩阵G(n)。
5.根据权利要求2至4任一项所述的装置,其特征在于,所述计算模块通过如下方式得到第n时刻的平均功率λn,包括:
从第n时刻M个通道的分离预测信号的协方差矩阵中,获取对角线元素之和;
根据所述对角线元素之和以及M个通道,得到第n时刻的平均功率λn。
6.一种语音信号处理方法,其特征在于,应用于如权利要求1至5任一项所述的装置,所述方法包括:
获取第n-1时刻的分离矩阵W(n-1);
根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n);
利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理,得到第n时刻的去混响实际信号x(n);
利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);
其中:
其中,M表示麦克风通道总数,D表示预测最小时间间隔,K表示延时信号组中不同延时时刻的信号总数,n、M、D和K均为正整数。
7.根据权利要求6所述的方法,其特征在于,所述根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n),包括:
利用第n-1时刻的预测系数矩阵G(n-1),对第n时刻的输入信号y(n)进行处理,得到第n时刻的去混响预测信号xp(n);
利用第n-1时刻的分离矩阵W(n-1),对第n时刻的去混响预测信号xp(n)进行处理,得到第n时刻的分离预测信号zp(n);
根据第n时刻的分离预测信号zp(n),计算第n时刻的平均功率λn;
根据第n时刻的平均功率λn,对第n-1时刻的预测系数矩阵G(n-1)进行处理,得到第n时刻的预测系数矩阵G(n)。
10.根据权利要求7至9任一项所述的装置,其特征在于,根据第n时刻的分离预测信号zp(n),计算第n时刻的平均功率λn,包括:
从第n时刻M个通道的分离预测信号的协方差矩阵中,获取对角线元素之和;
根据所述对角线元素之和以及M个通道,得到第n时刻的平均功率λn。
11.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求6至10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310198582.8A CN116364103A (zh) | 2023-03-01 | 2023-03-01 | 一种语音信号处理方法和装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310198582.8A CN116364103A (zh) | 2023-03-01 | 2023-03-01 | 一种语音信号处理方法和装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116364103A true CN116364103A (zh) | 2023-06-30 |
Family
ID=86932320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310198582.8A Pending CN116364103A (zh) | 2023-03-01 | 2023-03-01 | 一种语音信号处理方法和装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116364103A (zh) |
-
2023
- 2023-03-01 CN CN202310198582.8A patent/CN116364103A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10446171B2 (en) | Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments | |
CN107919133B (zh) | 针对目标对象的语音增强系统及语音增强方法 | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
EP3511937B1 (en) | Device and method for sound source separation, and program | |
US10818302B2 (en) | Audio source separation | |
CN109979476B (zh) | 一种语音去混响的方法及装置 | |
KR20120066134A (ko) | 다채널 음원 분리 장치 및 그 방법 | |
US6073152A (en) | Method and apparatus for filtering signals using a gamma delay line based estimation of power spectrum | |
CN110047478B (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
Zhang et al. | Multi-channel multi-frame ADL-MVDR for target speech separation | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
Luo et al. | Implicit filter-and-sum network for multi-channel speech separation | |
US9875748B2 (en) | Audio signal noise attenuation | |
Schwartz et al. | Nested generalized sidelobe canceller for joint dereverberation and noise reduction | |
Lee et al. | Improved Mask-Based Neural Beamforming for Multichannel Speech Enhancement by Snapshot Matching Masking | |
CN114863944B (zh) | 一种低时延音频信号超定盲源分离方法及分离装置 | |
CN116364103A (zh) | 一种语音信号处理方法和装置及电子设备 | |
CN116052702A (zh) | 一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法 | |
WO2022150286A1 (en) | Determining dialog quality metrics of a mixed audio signal | |
CN114827363A (zh) | 用于通话过程中消除回声的方法、设备和可读存储介质 | |
CN114067825A (zh) | 一种基于时频掩蔽估计的舒适噪声产生方法及其应用 | |
CN109074811B (zh) | 音频源分离 | |
Xiang et al. | Distributed microphones speech separation by learning spatial information with recurrent neural network | |
Kuang et al. | Three-stage hybrid neural beamformer for multi-channel speech enhancement | |
JP7270869B2 (ja) | 情報処理装置、出力方法、及び出力プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |