CN116364103A - 一种语音信号处理方法和装置及电子设备 - Google Patents

一种语音信号处理方法和装置及电子设备 Download PDF

Info

Publication number
CN116364103A
CN116364103A CN202310198582.8A CN202310198582A CN116364103A CN 116364103 A CN116364103 A CN 116364103A CN 202310198582 A CN202310198582 A CN 202310198582A CN 116364103 A CN116364103 A CN 116364103A
Authority
CN
China
Prior art keywords
time
nth
moment
signal
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310198582.8A
Other languages
English (en)
Inventor
尹悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Eswin Computing Technology Co Ltd
Original Assignee
Beijing Eswin Computing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Eswin Computing Technology Co Ltd filed Critical Beijing Eswin Computing Technology Co Ltd
Priority to CN202310198582.8A priority Critical patent/CN116364103A/zh
Publication of CN116364103A publication Critical patent/CN116364103A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请实施例公开了一种语音信号处理方法和装置及电子设备。所述装置包括去混响模块和盲源分离模块;其中:所述去混响模块,用于利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n‑D)进行去混响处理,得到第n时刻的去混响实际信号x(n);所述盲源分离模块,用于利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);其中,所述装置还包括:计算模块,用于通过如下方式计算第n时刻的预测系数矩阵G(n),包括:获取第n‑1时刻的分离矩阵W(n‑1);根据第n‑1时刻的分离矩阵W(n‑1)和第n‑1时刻的预测系数矩阵G(n‑1),得到第n时刻的预测系数矩阵G(n)。

Description

一种语音信号处理方法和装置及电子设备
技术领域
本申请实施例涉及音频处理领域,尤指一种语音信号处理方法和装置及电子设备。
背景技术
盲源分离(Blind Source Separation,BSS)是从观测信号中分离出多路声源的技术,“盲”表示源信号与传输通道是未知的。多通道盲源分离以麦克风数是否大于、等于、小于声源数目分为超定、正定、欠定三种情况。大部分盲源分离算法关注麦克风数大于等于声源数的情况。由于超定情况下可以利用主成分分析(Principal Component Analysis,PCA)将其转化为正定问题。
针对正定情况下的盲源分离技术,常用的盲源分离方法有独立成分分析(Independent Vector Analysis,ICA)、独立向量分析(Independent Vector Analysis,IVA)、多通道非负矩阵分解(Multichannel Non-Negative Matrix Factorization,MNMF)、独立低秩矩阵分析(Independent Low-Rank Matrix Analysis,ILRMA)等方法。IVA相比ICA,克服了频点模糊问题,因此得到广泛关注。利用基于辅助函数的独立向量分析(Auxiliary Function Based IVA,AuxIVA)是近年来解决BSS问题的主流方向,其中提供了一种可以逐帧更新分离矩阵的实时IVA方法。
麦克风采集的信号除了目标声源外,还包括其他干扰声源的信号、房间混响等,这些信号极大降低了音频系统的性能。盲源分离技术能分离出不同声源,从而去除干扰声源对目标声源的不良影响。然而,盲源分离技术的性能受混响影响较大,随着房间混响时间增大,盲源分离性能快速下降。因此应先对输入信号先进行去混响的预处理。
去混响最常见的技术有噪声抑制和线性预测两类。噪声抑制方法是先估计出混响的能量,将其当作噪声,再用噪声抑制如谱减、维纳滤波等方法去除混响成分。线性预测方法使用过去若干帧的数据预测当前语音帧中的混响成分,再将其减去。其中加权预测误差(Weighted Predict Error,WPE)方法及其自适应变体AWPE因其良好的去混响性能得到广泛应用。
在混响的环境中,声波反射折射产生的混响会对盲源分离产生干扰,极大降低分离性能,提出了将去混响与盲源分离结合的技术方案,但在去混响处理时,将输入信号与单位矩阵进行克罗内克乘积扩展,去混响效果较差。
发明内容
为了解决上述任一技术问题,本申请实施例提供了一种语音信号处理方法和装置及电子设备。
为了达到本申请实施例目的,本申请实施例提供了一种语音信号处理装置,所述装置包括去混响模块和盲源分离模块;其中:
所述去混响模块,用于利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理,得到第n时刻的去混响实际信号x(n);
所述盲源分离模块,用于利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);
其中,所述装置还包括:
计算模块,用于通过如下方式计算第n时刻的预测系数矩阵G(n),包括:
获取第n-1时刻的分离矩阵W(n-1);
根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n);
其中:
Figure BDA0004110141050000021
其中,M表示麦克风通道总数,D表示预测最小时间间隔,K表示延时信号组中不同延时时刻的信号总数,n、M、D和K均为正整数。
一种语音信号处理方法,应用于上文所述的装置,所述方法包括:
获取第n-1时刻的分离矩阵W(n-1);
根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n);
利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理,得到第n时刻的去混响实际信号x(n);
所述盲源分离模块,用于利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);
其中:
Figure BDA0004110141050000031
其中,M表示麦克风通道总数,D表示预测最小时间间隔,K表示延时信号组中不同延时时刻的信号总数,n、M、D和K均为正整数。
一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上文所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:
通过获取第n-1时刻的分离矩阵W(n-1),来获取语音信号的先验信息,并根据该先验信息来生成第n时刻的预测系数矩阵G(n),确定结果更加准确,能够更有效地抑制语音信号的混响,进一步提升盲源分离在高混响场景的性能。
本申请实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请实施例的实施例一起用于解释本申请实施例的技术方案,并不构成对本申请实施例技术方案的限制。
图1为本申请实施例提供的语音信号处理装置100的示意图;
图2为图1所示装置100中去混响模块10的结构示意图;
图3为图1所示装置100的另一示意图;
图4为图3所示置100的另一示意图;
图5为本申请实施例提供的语音信号处理方法的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互任意组合。
图1为本申请实施例提供的语音信号处理装置100的示意图。如图1所示,所述装置100包括去混响模块10和盲源分离模块20;其中,y(n)=(y1(n),y2(n)...,yM(n))T表示输入信号,为麦克风采集的多路信号,x(n)=(x1(n),x2(n)...,xM(n))T表示去混响模块10输出的去混响结果,z(n)=(z1(n),z2(n)...,zM(n))T表示盲源分离模块输出的盲源分离结果。
所述去混响模块10,用于利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理,得到第n时刻的去混响实际信号x(n);
其中:
Figure BDA0004110141050000041
Figure BDA0004110141050000042
其中,预测系数矩阵G(n)的初始值可以设为全0;
其中,M表示麦克风通道总数,D表示预测最小时间间隔,K表示延时信号组中不同延时时刻的信号总数,n、M、D和K均为正整数。
具体的,去混响过程可表示为
x(n)=y(n)-GH(n)Y(n-D)
去混响处理即从n=D+K时刻起,逐帧应用上式,从输出信号y(n)中减去估计出的混响成分G(n)HY(n-D),得到去混响实际信号x(n)。
图2为图1所示装置100中去混响模块10的结构示意图。如图2所示,所述去混响模块10包括K个支路,其中第k条支路利用第k组混响预测系数对(n-D-k+1)个时刻的输入信号进行去混响处理,其中,k=1,2,3,……,K。
由于第k条支路利用第k组混响预测系数对(n-D-k+1)个时刻的输入信号进行去混响处理,实现K条支路并行处理信号的目的,降低去混响的计算复杂度。
所述盲源分离模块20,与所述去混响模块10相连,用于利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);
其中,该盲源分离模块20可以采用ICA、AuxIVA、MNMF、ILRMA等多种算法确定第n时刻的分离矩阵W(n),在此不再赘述。
在得到第n时刻的分离矩阵W(n)后,该盲源分离模块20通过如下计算表达式可以得到第n时刻的分离实际信号z(n),包括:
z(n)=W(n)x(n)。
本申请实施例提供的装置,将去混响与盲源分离结合,在有效抑制输入信号的混响后再执行盲源分离操作,可以有效提升盲源分离在高混响场景的性能。
图3为图1所示装置100的另一示意图。如图3所示,所述装置100还包括:
计算模块30,与所述去混响模块10和所述盲源分离模块20相连,用于通过如下方式计算第n时刻的预测系数矩阵G(n),包括:
获取第n-1时刻的分离矩阵W(n-1);
根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n)。
具体的,所述计算模块30从所述盲源分离模块20获取第n-1时刻的分离矩阵W(n-1),来获取语音信号的先验信息,并根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n),使得第n时刻的预测系数矩阵G(n)是基于先验信息来生成的,与不使用先验信息生成第n时刻的混响预测系数矩阵G(n)相比,本申请实施例提供的第n时刻的预测系数矩阵G(n)的确定结果更加准确。
本申请实施例提供的装置,通过获取第n-1时刻的分离矩阵W(n-1),来获取语音信号的先验信息,并根据该先验信息来生成第n时刻的预测系数矩阵G(n),确定结果更加准确,能够更有效地抑制语音信号的混响,进一步提升盲源分离在高混响场景的性能。
在一个示例性实施例中,所述去混响模块10,还用于利用第n-1时刻的预测系数矩阵G(n-1),对第n时刻的输入信号y(n)进行处理,得到第n时刻的去混响预测信号xp(n);
具体的,由于第n时刻的预测系数矩阵G(n)是未知的,可以使用上一时刻的预测系数矩阵近似作为所使用的预测系数矩阵,以完成对第n时刻的去混响预测信号xp(n)的获取。
所述盲源分离模块20,还用于利用第n-1时刻的分离矩阵W(n-1),对第n时刻的去混响预测信号xp(n)进行处理,得到第n时刻的分离预测信号zp(n);
具体的,由于第n时刻的分离矩阵W(n)是未知的,可以使用上一时刻的分离矩阵近似作为所使用的分离矩阵,以完成对第n时刻的分离预测信号zp(n)的获取。
所述计算模块30,用于根据第n时刻的分离预测信号zp(n),计算第n时刻的平均功率λn,并根据第n时刻的平均功率λn,对第n-1时刻的预测系数矩阵G(n-1)进行处理,得到第n时刻的预测系数矩阵G(n)。
具体的,由于第n时刻的分离预测信号zp(n)是预测得到的源信号的语音数据,与第n时刻的的分离实际信号z(n)存在较强的相似度,因此,可以利用第n时刻的分离预测信号zp(n)中携带的语音信号的先验信息来生成第n时刻的预测系数矩阵G(n)。
进一步的,利用第n时刻的分离预测信号zp(n)来计算第n时刻的平均功率λn,可以充分利用第n时刻的分离预测信号zp(n)所携带的语音信号的先验信息。
与使用第n时刻的去混响预测信号xp(n)来计算第n时刻的平均功率λn相比,本申请提供的装置在计算第n时刻的平均功率λn所使用的参数不同。
具体的,由于第n时刻的分离预测信号zp(n)是对第n时刻的去混响预测信号xp(n)进行处理后得到的信号。与第n时刻的去混响预测信号xp(n)相比,第n时刻的分离预测信号zp(n)是基于预测操作得到的第n时刻的源信号,而第n时刻的第n时刻的去混响预测信号xp(n)是预测操作得到的包括源信号在内的多个信号。由于第n时刻的分离预测信号zp(n)是不掺杂其他信号,因此,由于该分离预测信号zp(n)所携带的源信号的语音信息更加准确,使得第n时刻的平均功率λn的确定结果更加准确,为更加准确地计算第n时刻的预测系数矩阵G(n)提供支持。
在一个示例性实施例中,所述计算模块30通过如下方式计算第n时刻的预测系数矩阵G(n),包括:
根据第n时刻的平均功率λn,确定第n时刻的调整系数k(n);
计算第n时刻的调整系数k(n)与第n时刻的去混响预测信号xp(n)的转置共轭矩阵
Figure BDA0004110141050000071
的乘积,得到第n时刻的调整矩阵;
利用第n时刻的调整矩阵,对所述第n-1时刻的预测系数矩阵G(n-1)进行更新,得到第n时刻的预测系数矩阵G(n)。
具体的,所述计算模块30通过如下方式计算第n时刻的调整系数k(n),包括:
Figure BDA0004110141050000081
其中,
Figure BDA0004110141050000082
其中,γ为遗忘因子,γ的取值在0.9至1之间的值。
具体的,所述计算模块30通过如下方式计算第n时刻的的预测系数矩阵G(n),包括:
Figure BDA0004110141050000083
采用上述方式可以充分利用计算得到的第n时刻的去混响预测信号xp(n)和第n时刻的分离预测信号zp(n),得到第n-1时刻的预测系数矩阵G(n-1)对应的调整信息,能够更加准确地确定第n时刻的预测系数矩阵G(n)。
在一个示例性实施例中,所述计算模块30通过如下方式得到第n时刻的平均功率λn,包括:
从第n时刻M个通道的分离预测信号的协方差矩阵中,获取对角线元素之和;
根据所述对角线元素之和以及M个通道,得到第n时刻的平均功率λn
具体的,第n时刻M个通道的分离预测信号的协方差矩阵
Figure BDA0004110141050000084
的表达式如下:
Figure BDA0004110141050000085
其中,zp,m(n)表示第n时刻第m通道的分离预测信号,m=1,2,3,……,M。
具体的,所述计算模块30通过如下计算表达式获取第n时刻的平均功率λn
Figure BDA0004110141050000086
其中,
Figure BDA0004110141050000087
表示协方差矩阵/>
Figure BDA0004110141050000088
中对角线元素之和。
图4为图3所示装置100的另一示意图。如图4所示,所述装置还包括第一转换模块40和第二转换模块50;其中:
所述第一转换模块40,与所述去混响装置10相连,用于将接收的音频信号从时域信号转换为频域信号;
所述第二转换模块50,与所述盲源分离模块20相连,用于将接收的盲源分离结果从频域信号转换为时域信号。
由于采集的语音信号为短时平稳的时域信号,利用第一转换模块40将时域信号转到频域信号,再输出给去混响装置10,在去混响装置10和盲源分离模块20完成对频域信号的处理后,利用第二转换模块50,对每一帧语音信号,将时域信号转到频域信号。
第一转换模块40通过如下方式完成音频信号从时域信号转换为频域信号,包括:
对采集得到的音频信号进行分帧操作,其中每帧的时长可以为10ms至30m,并设置一定比例的重叠率;
选择一个时域窗函数,通过移动时域窗函数,对时域信号逐帧加窗,其中该时域窗函数可以为汉宁窗;
对每一帧信号进行快速傅里叶变换(Fast Fourier Transformation,FFT)FFT),将时域信号转到频域。
第二转换模块50通过如下方式完成盲源分离结果从频域信号转换为时域信号,包括:
对每一帧的盲源分离结果进行快速傅里叶逆变换IFFT(Inverse Fast FourierTransform,IFFT),从频域信号转换为时域信号;
从时域信号中取实部,并执行加窗处理;
按照设置的重复率进行信号相加得到目标音频。
图5为本申请实施例提供的语音信号处理方法的流程图。如图5所示,所述方法应用于图3和图4所示的装置,所述方法包括:
步骤A、获取第n-1时刻的分离矩阵W(n-1);
步骤B、根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n);
步骤C、利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理,得到第n时刻的去混响实际信号x(n);
步骤D、利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);
其中:
Figure BDA0004110141050000101
其中,M表示麦克风通道总数,D表示预测最小时间间隔,K表示延时信号组中不同延时时刻的信号总数,n、M、D和K均为正整数。
在一个示例性实施例中,所述步骤A,包括:
步骤A1、利用第n-1时刻的预测系数矩阵G(n-1),对第n时刻的输入信号y(n)进行处理,得到第n时刻的去混响预测信号xp(n);
具体的,由于第n时刻的预测系数矩阵G(n)是未知的,可以使用上一时刻的预测系数矩阵近似作为所使用的预测系数矩阵,以完成对第n时刻的去混响预测信号xp(n)的获取。
步骤A2、利用第n-1时刻的分离矩阵W(n-1),对第n时刻的去混响预测信号xp(n)进行处理,得到第n时刻的分离预测信号zp(n);
具体的,由于第n时刻的分离矩阵W(n)是未知的,可以使用上一时刻的分离矩阵近似作为所使用的分离矩阵,以完成对第n时刻的去分离预测信号zp(n)的获取。
步骤A3、根据第n时刻的分离预测信号zp(n),计算第n时刻的平均功率λn
由于第n时刻的分离预测信号zp(n)是预测得到的去除干扰信号的语音数据,与第n时刻的的分离实际信号z(n)存在较强的相似度,因此,可以利用第n时刻的分离预测信号zp(n)中携带的语音信号的先验信息用于计算第n时刻的预测系数矩阵G(n)。
与使用第n时刻的去混响预测信号xp(n)来计算第n时刻的平均功率λn相比,本申请提供的装置在计算第n时刻的平均功率λn所使用的参数不同。
具体的,由于第n时刻的分离预测信号zp(n)是对第n时刻的去混响预测信号xp(n)进行处理后得到的信号。与第n时刻的去混响预测信号xp(n)相比,第n时刻的分离预测信号zp(n)是基于预测操作得到的第n时刻的源信号,而第n时刻的第n时刻的去混响预测信号xp(n)是预测操作得到的包括源信号在内的多个信号。由于第n时刻的分离预测信号zp(n)是不掺杂其他信号,因此,由于该分离预测信号zp(n)所携带的源信号的语音信息更加准确,使得第n时刻的平均功率λn的确定结果更加准确,为更加准确地计算第n时刻的预测系数矩阵G(n)提供支持。
步骤A4、根据第n时刻的平均功率λn,对第n-1时刻的预测系数矩阵G(n-1)进行处理,得到第n时刻的预测系数矩阵G(n)。
具体的,通过如下方式计算第n时刻的调整系数k(n),包括:
Figure BDA0004110141050000111
其中,
Figure BDA0004110141050000112
其中,γ为遗忘因子,γ的取值在0.9至1之间的值。
在一个示例性实施例中,所述步骤A4,包括:
步骤A41、根据第n时刻的平均功率λn,确定第n时刻的调整系数k(n);
步骤A42、计算第n时刻的调整系数k(n)与第n时刻的去混响预测信号xp(n)的转置共轭矩阵
Figure BDA0004110141050000113
的乘积,得到第n时刻的调整矩阵;
步骤A43、利用第n时刻的调整矩阵,对所述第n-1时刻的预测系数矩阵G(n-1)进行更新,得到第n时刻的预测系数矩阵G(n)。
具体的,所述计算模块通过如下方式计算第n时刻的的预测系数矩阵G(n),包括:
Figure BDA0004110141050000121
采用上述方式可以充分利用计算得到的第n时刻的去混响预测信号xp(n)和第n时刻的分离预测信号zp(n),得到第n-1时刻的预测系数矩阵G(n-1)对应的调整信息,能够更加准确地确定第n时刻的预测系数矩阵G(n)。
在一个示例性实施例中,所述步骤A3,包括:
步骤A31、从第n时刻M个通道的分离预测信号的协方差矩阵中,获取对角线元素之和;
具体的,第n时刻M个通道的分离预测信号的协方差矩阵
Figure BDA0004110141050000122
的表达式如下:
Figure BDA0004110141050000123
其中,zp,m(n)表示第n时刻第m通道的分离预测信号,m=1,2,3,……,M。
步骤A32、根据所述对角线元素之和以及M个通道,得到第n时刻的平均功率λn
具体的,通过如下计算表达式获取第n时刻的平均功率λn
Figure BDA0004110141050000124
其中表示,
Figure BDA0004110141050000125
表示协方差矩阵/>
Figure BDA0004110141050000126
中对角线元素之和。
本申请实施例提供的方法,通过获取第n-1时刻的分离矩阵W(n-1),来获取语音信号的先验信息,并根据该先验信息来生成第n时刻的预测系数矩阵G(n),确定结果更加准确,能够更有效地抑制语音信号的混响,进一步提升盲源分离在高混响场景的性能。
本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上文所述的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (11)

1.一种语音信号处理装置,其特征在于,所述装置包括去混响模块和盲源分离模块;其中:
所述去混响模块,用于利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理,得到第n时刻的去混响实际信号x(n);
所述盲源分离模块,用于利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);
其中,所述装置还包括:
计算模块,用于通过如下方式计算第n时刻的预测系数矩阵G(n),包括:
获取第n-1时刻的分离矩阵W(n-1);
根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n);
其中:
Figure FDA0004110141030000011
其中,M表示麦克风通道总数,D表示预测最小时间间隔,K表示延时信号组中不同延时时刻的信号总数,n、M、D和K均为正整数。
2.根据权利要求1所述的装置,其特征在于:
所述去混响模块,还用于利用第n-1时刻的预测系数矩阵G(n-1),对第n时刻的输入信号y(n)进行处理,得到第n时刻的去混响预测信号xp(n);
所述盲源分离模块,还用于利用第n-1时刻的分离矩阵W(n-1),对第n时刻的去混响预测信号xp(n)进行处理,得到第n时刻的分离预测信号zp(n);
所述计算模块,用于根据第n时刻的分离预测信号zp(n),计算第n时刻的平均功率λn,并根据第n时刻的平均功率λn,对第n-1时刻的预测系数矩阵G(n-1)进行处理,得到第n时刻的预测系数矩阵G(n)。
3.根据权利要求2所述的装置,其特征在于,所述计算模块通过如下方式计算第n时刻的预测系数矩阵G(n),包括:
根据第n时刻的平均功率λn,确定第n时刻的调整系数k(n);
计算第n时刻的调整系数k(n)与第n时刻的去混响预测信号xp(n)的转置共轭矩阵
Figure FDA0004110141030000021
的乘积,得到第n时刻的调整矩阵;
利用第n时刻的调整矩阵,对所述第n-1时刻的预测系数矩阵G(n-1)进行更新,得到第n时刻的预测系数矩阵G(n)。
4.根据权利要求3所述的装置,其特征在于,所述计算模块通过如下方式计算第n时刻的调整系数k(n),包括:
Figure FDA0004110141030000022
其中,
Figure FDA0004110141030000023
其中,γ为遗忘因子,γ的取值在0.9至1之间的值。
5.根据权利要求2至4任一项所述的装置,其特征在于,所述计算模块通过如下方式得到第n时刻的平均功率λn,包括:
从第n时刻M个通道的分离预测信号的协方差矩阵中,获取对角线元素之和;
根据所述对角线元素之和以及M个通道,得到第n时刻的平均功率λn
6.一种语音信号处理方法,其特征在于,应用于如权利要求1至5任一项所述的装置,所述方法包括:
获取第n-1时刻的分离矩阵W(n-1);
根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n);
利用第n时刻的预测系数矩阵G(n),对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理,得到第n时刻的去混响实际信号x(n);
利用第n时刻的分离矩阵W(n),对第n时刻的去混响实际信号x(n)进行处理,得到第n时刻的分离实际信号z(n);
其中:
Figure FDA0004110141030000031
其中,M表示麦克风通道总数,D表示预测最小时间间隔,K表示延时信号组中不同延时时刻的信号总数,n、M、D和K均为正整数。
7.根据权利要求6所述的方法,其特征在于,所述根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1),得到第n时刻的预测系数矩阵G(n),包括:
利用第n-1时刻的预测系数矩阵G(n-1),对第n时刻的输入信号y(n)进行处理,得到第n时刻的去混响预测信号xp(n);
利用第n-1时刻的分离矩阵W(n-1),对第n时刻的去混响预测信号xp(n)进行处理,得到第n时刻的分离预测信号zp(n);
根据第n时刻的分离预测信号zp(n),计算第n时刻的平均功率λn
根据第n时刻的平均功率λn,对第n-1时刻的预测系数矩阵G(n-1)进行处理,得到第n时刻的预测系数矩阵G(n)。
8.根据权利要求7所述的装置,其特征在于,所述根据第n时刻的平均功率λn,对第n-1时刻的预测系数矩阵G(n-1)进行处理,得到第n时刻的预测系数矩阵G(n),包括:
根据第n时刻的平均功率λn,确定第n时刻的调整系数k(n);
计算第n时刻的调整系数k(n)与第n时刻的去混响预测信号xp(n)的转置共轭矩阵
Figure FDA0004110141030000041
的乘积,得到第n时刻的调整矩阵;
利用第n时刻的调整矩阵,对所述第n-1时刻的预测系数矩阵G(n-1)进行更新,得到第n时刻的预测系数矩阵G(n)。
9.根据权利要求8所述的装置,其特征在于,通过如下方式计算第n时刻的调整系数k(n),包括:
Figure FDA0004110141030000042
其中,
Figure FDA0004110141030000043
其中,γ为遗忘因子,γ的取值在0.9至1之间的值。
10.根据权利要求7至9任一项所述的装置,其特征在于,根据第n时刻的分离预测信号zp(n),计算第n时刻的平均功率λn,包括:
从第n时刻M个通道的分离预测信号的协方差矩阵中,获取对角线元素之和;
根据所述对角线元素之和以及M个通道,得到第n时刻的平均功率λn
11.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求6至10任一项所述的方法。
CN202310198582.8A 2023-03-01 2023-03-01 一种语音信号处理方法和装置及电子设备 Pending CN116364103A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310198582.8A CN116364103A (zh) 2023-03-01 2023-03-01 一种语音信号处理方法和装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310198582.8A CN116364103A (zh) 2023-03-01 2023-03-01 一种语音信号处理方法和装置及电子设备

Publications (1)

Publication Number Publication Date
CN116364103A true CN116364103A (zh) 2023-06-30

Family

ID=86932320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310198582.8A Pending CN116364103A (zh) 2023-03-01 2023-03-01 一种语音信号处理方法和装置及电子设备

Country Status (1)

Country Link
CN (1) CN116364103A (zh)

Similar Documents

Publication Publication Date Title
US10446171B2 (en) Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
CN107919133B (zh) 针对目标对象的语音增强系统及语音增强方法
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
EP3511937B1 (en) Device and method for sound source separation, and program
US10818302B2 (en) Audio source separation
CN109979476B (zh) 一种语音去混响的方法及装置
KR20120066134A (ko) 다채널 음원 분리 장치 및 그 방법
US6073152A (en) Method and apparatus for filtering signals using a gamma delay line based estimation of power spectrum
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
Zhang et al. Multi-channel multi-frame ADL-MVDR for target speech separation
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
Luo et al. Implicit filter-and-sum network for multi-channel speech separation
US9875748B2 (en) Audio signal noise attenuation
Schwartz et al. Nested generalized sidelobe canceller for joint dereverberation and noise reduction
Lee et al. Improved Mask-Based Neural Beamforming for Multichannel Speech Enhancement by Snapshot Matching Masking
CN114863944B (zh) 一种低时延音频信号超定盲源分离方法及分离装置
CN116364103A (zh) 一种语音信号处理方法和装置及电子设备
CN116052702A (zh) 一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法
WO2022150286A1 (en) Determining dialog quality metrics of a mixed audio signal
CN114827363A (zh) 用于通话过程中消除回声的方法、设备和可读存储介质
CN114067825A (zh) 一种基于时频掩蔽估计的舒适噪声产生方法及其应用
CN109074811B (zh) 音频源分离
Xiang et al. Distributed microphones speech separation by learning spatial information with recurrent neural network
Kuang et al. Three-stage hybrid neural beamformer for multi-channel speech enhancement
JP7270869B2 (ja) 情報処理装置、出力方法、及び出力プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination