CN112447184A - 语音信号处理方法及装置、电子设备、存储介质 - Google Patents

语音信号处理方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN112447184A
CN112447184A CN202011248014.7A CN202011248014A CN112447184A CN 112447184 A CN112447184 A CN 112447184A CN 202011248014 A CN202011248014 A CN 202011248014A CN 112447184 A CN112447184 A CN 112447184A
Authority
CN
China
Prior art keywords
signal
target
covariance matrix
noise
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011248014.7A
Other languages
English (en)
Inventor
李炯亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202011248014.7A priority Critical patent/CN112447184A/zh
Publication of CN112447184A publication Critical patent/CN112447184A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本公开是关于一种语音信号处理方法及装置、电子设备、存储介质。该方法包括:获取输入语音信号的频域信息;根据所述频域信息,获取所述输入语音信号的第一协方差矩阵;根据所述第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式获得所述输入语音信号中噪声信号的目标协方差矩阵;其中,所述噪声信号是干扰所述输入语音信号中目标信号的信号;根据所述目标协方差矩阵,以所述信噪比满足第二预设条件为目标,获取所述目标信号增强后的语音信号。通过该方法,能使得对目标信号的增强效果更好。

Description

语音信号处理方法及装置、电子设备、存储介质
技术领域
本公开涉及通信技术领域,尤其涉及一种语音信号处理方法及装置、电子设备、存储介质。
背景技术
电子设备可利用麦克风阵列,对声场的空间特性进行采样并处理,用于提高语音的信噪比、对声源定位及去混响等等,被广泛应用于视频会议、手机、智能音箱等产品中,以提高声音的质量,提高用户的主观听感。
波束成形技术合并了从麦克风阵列中接收的多个音频信号用以增强环境中某些期望方向的声源,并衰减非期望方向的噪声或者干扰,来提高音频信号的输出质量。
发明内容
本公开提供一种语音信号处理方法及装置、电子设备、存储介质。
根据本公开实施例的第一方面,提供一种语音信号处理方法,包括:
获取输入语音信号的频域信息;
根据所述频域信息,获取所述输入语音信号的第一协方差矩阵;
根据所述第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式获得所述输入语音信号中噪声信号的目标协方差矩阵;其中,所述噪声信号是干扰所述输入语音信号中目标信号的信号;
根据所述目标协方差矩阵,以所述信噪比满足第二预设条件为目标,获取所述目标信号增强后的语音信号。
可选的,所述根据所述第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式获得所述输入语音信号中噪声信号的目标协方差矩阵,包括:
根据所述第一协方差矩阵,确定所述噪声信号的第二协方差矩阵;
根据所述第二协方差矩阵,以所述信噪比满足所述第一预设条件为目标,确定波束导向矢量;
根据当前所述第二协方差矩阵和所述波束导向矢量,根据预设的迭代次数,估计所述目标信号;其中,每次迭代估计的所述目标信号,用于更新所述第一协方差矩阵后更新所述第二协方差矩阵。
可选的,所述根据所述第一协方差矩阵,确定所述噪声信号的第二协方差矩阵,包括:
对当前迭代次数对应的所述第一协方差矩阵进行特征值分解,获取所述噪声信号的能量权重;
基于所述噪声信号的能量权重,以及所述输入语音信号的第一协方差矩阵,确定当前迭代次数对应的噪声信号的第二协方差矩阵。
可选的,所述根据所述第二协方差矩阵,以所述信噪比满足所述第一预设条件为目标,确定波束导向矢量,包括:
以所述信噪比满足所述第一预设条件为目标,获取所述第二协方差矩阵中的最小特征值,以及所述最小特征值对应的特征向量;
根据所述最小特征值和所述特征向量,确定所述波束导向矢量。
可选的,所述根据所述目标协方差矩阵,以所述信噪比满足第二预设条件为目标,获取所述目标信号增强后的语音信号,包括:
根据所述目标协方差矩阵,以所述信噪比满足所述第二预设条件为目标,确定目标波束导向矢量;
根据所述目标波束导向矢量和所述输入语音信号,获取所述目标信号增强后的语音信号。
可选的,所述获取输入语音信号的频域信息,包括:
去除所述输入语音信号的冗余信息;
获取去除所述冗余信息后的输入语音信号的频域信息。
根据本公开实施例的第二方面,提供一种语音信号处理装置,包括:
第一获取模块,配置为获取输入语音信号的频域信息;
第二获取模块,配置为根据所述频域信息,获取所述输入语音信号的第一协方差矩阵;
迭代模块,配置为根据所述第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式获得所述输入语音信号中噪声信号的目标协方差矩阵;其中,所述噪声信号是干扰所述输入语音信号中目标信号的信号;
第三获取模块,配置为根据所述目标协方差矩阵,以所述信噪比满足第二预设条件为目标,获取所述目标信号增强后的语音信号。
可选的,所述迭代模块,具体配置为根据所述第一协方差矩阵,确定所述噪声信号的第二协方差矩阵;根据所述第二协方差矩阵,以所述信噪比满足所述第一预设条件为目标,确定波束导向矢量;根据当前所述第二协方差矩阵和所述波束导向矢量,根据预设的迭代次数,估计所述目标信号;其中,每次迭代估计的所述目标信号,用于更新所述第一协方差矩阵后更新所述第二协方差矩阵。
可选的,所述迭代模块,具体配置为对当前迭代次数对应的所述第一协方差矩阵进行特征值分解,获取所述噪声信号的能量权重;基于所述噪声信号的能量权重,以及所述输入语音信号的第一协方差矩阵,确定当前迭代次数对应的噪声信号的第二协方差矩阵。
可选的,所述迭代模块,具体配置为以所述信噪比满足所述第一预设条件为目标,获取所述第二协方差矩阵中的最小特征值,以及所述最小特征值对应的特征向量;根据所述最小特征值和所述特征向量,确定所述波束导向矢量。
可选的,所述第三获取模块,具体配置为根据所述目标协方差矩阵,以所述信噪比满足所述第二预设条件为目标,确定目标波束导向矢量;
根据所述目标波束导向矢量和所述输入语音信号,获取所述目标信号增强后的语音信号。
可选的,所述第一获取模块,具体配置为去除所述输入语音信号的冗余信息;获取去除所述冗余信息后的输入语音信号的频域信息。
根据本公开实施例的第三方面,提供一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如上述第一方面所述的语音信号处理方法。
根据本公开实施例的第四方面,提供一种存储介质,包括:
当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述第一方面中所述的语音信号处理方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
在本公开的实施例中,通过输入语音信号的第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式逐步逼近输入语音信号中噪声信号的目标协方差矩阵,即噪声信号的目标协方差矩阵的获得是根据实际的输入语音信号的特征获得的,不依赖于一些理想的假设,因而能使得噪声信号的目标协方差矩阵的获得能更精确的反映当前声场的特性,在此基础上能使得输入信号中目标信号和噪声信号的信噪比最优,从而突出目标信号,得到更好的增强效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开实施例示出的一种语音信号处理方法流程图一。
图2是本公开实施例示出的一种语音信号处理方法流程图二。
图3是本公开实施例的一种语音信号处理方法的示例图。
图4是本公开实施例中一种语音信号处理装置图。
图5是本公开实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是本公开实施例示出的一种语音信号处理方法流程图一,应用于电子设备中,如图1所示,应用于电子设备中的语音信号处理方法包括以下步骤:
S11、获取输入语音信号的频域信息;
S12、根据所述频域信息,获取所述输入语音信号的第一协方差矩阵;
S13、根据所述第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式获得所述输入语音信号中噪声信号的目标协方差矩阵;其中,所述噪声信号是干扰所述输入语音信号中目标信号的信号;
S14、根据所述目标协方差矩阵,以所述信噪比满足第二预设条件为目标,获取所述目标信号增强后的语音信号。
在本公开实施例中,电子设备可以是手机、智能音箱等具有音频采集和/或音频输出功能的智能设备。电子设备内设置有麦克风阵列,例如,至少两个麦克风或两个以上的麦克风。
电子设备通过麦克风采集语音信号,该语音信号可能是目标声源被干扰声源干扰过后的信号。干扰声源包括:电视干扰、人声干扰、室外噪声、家居噪音、音乐回声及房间混响等。其中,房间混响可以为目标声源经房间的腔体或房间内障碍物等反射或折射的信号;也可以为干扰声源经房间的腔体或房间内障碍物等反射或折射的信号。因此,在诸多的干扰声源下的干扰下,麦克风采集到的目标声源的语音信号的质量并不高。
在本公开的实施例中,为提升语音信号的质量,在步骤S11中,电子设备将采集到的语音信号转换到频域,获取输入语音信号的频域信息并执行后续进一步的处理。例如,电子设备基于傅里叶变换将语音信号转换到频域,获取输入语音信号的频域信息。
需要说明的是,在本公开的实施例中,在将采集的语音信号转换到频域前,会将语音信号进行分帧处理,例如每帧长度约20ms-30ms,在这一区间内把语音信号看作为稳态信号并进行后续的频域转换。
在步骤S12中,电子设备根据频域信息,获取输入语音信号的第一协方差矩阵。
频域信息给出了频率和幅值的对应关系,本申请中电子设备根据频域信息,可根据如下公式(1)获取输入语音信号的第一协方差矩阵:
Figure BDA0002770697720000051
其中,xfn为频点(频率值)fn对应的幅值,n个频点的幅值对应一个幅值矩阵,n个
Figure BDA0002770697720000052
组成幅值矩阵对应的转置共轭矩阵,n为频点数。
示例性的,若电子设备包括2个麦克风,属于2路多进多出(multiple-inmultiple-out,MIMO)的设备,那么n个频点的幅值对应的幅值矩阵可以为2*1的矩阵;其转置共轭矩阵为1*2的矩阵。
在步骤S13中,电子设备根据第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式获得输入语音信号中噪声信号的目标协方差矩阵。
波束成形是天线技术与数字信号处理技术的结合,通过对多天线阵列接收到的各路信号进行加权合成,形成所需的理想信号。在判定形成的信号是否足够理想时,可通过信噪比来表征。在波束成形技术中,信噪比可通过如下公式(2)来表征:
Figure BDA0002770697720000053
其中,wf为波束成形技术中的波束导向矢量,wf h为wf的共轭转置,波束导向矢量用于获得更优的语音信号;
Figure BDA0002770697720000054
为目标信号的协方差矩阵,
Figure BDA0002770697720000055
为噪声信号的协方差矩阵。
如前所述的,输入语音信号中包括目标声源的信号和干扰声源的信号,其中,目标声源的信号即为本公开的目标信号,干扰声源的信号即为本公开的噪声信号。需要说明的是,本公开实施例中,在以公式(2)所示的信噪比满足第一预设条件为目标,采用迭代的方式获得噪声信号的目标协方差矩阵时,考虑到目标信号和噪声信号通常是不相关的,因而可使用输入语音信号的协方差矩阵来替代目标信号的协方差矩阵,即在本公开的实施例中,可使用公式(1)中的
Figure BDA0002770697720000061
来替代上述公式(2)中的
Figure BDA0002770697720000062
在本公开的实施例中,基于该种替代,在以公式(2)所述的信噪比满足预设条件(第一预设条件或第二预设条件)为目标时,仅仅是在原有的优化目标上增加了一个常数因子,并不会改变优化的求解。
在基于波束成形获得质量更优的语音信号时,通常需要获得最优波束导向矢量的估计,而信噪比满足第一预设条件可以是指信噪比满足一定的数值,或者信噪比最大。以信噪比最大为例,获得最优波束导向矢量的估计可转化为如下公式(3)所示的最优值求解:
Figure BDA0002770697720000063
其中,wf是能使信噪比(signal noise ratio,SNR)最大的最优解,C为常数。
上述优化问题的解对应的是广义特征值分解问题的解:
Figure BDA0002770697720000064
其中,λ为常数。
从上述公式可知,获得最优波束导向矢量(目标波束导向矢量)的估计的前提是获得属于噪声信号的协方差矩阵。而本公开,以信噪比满足第一预设条件为目标,采用迭代的方式获得噪声信号的目标协方差矩阵。
在步骤S14中,电子设备根据目标协方差矩阵,以信噪比满足第二预设条件为目标,获得目标信号增强后的语音信号。
在本公开的实施例中,信噪比满足第二预设条件也可以是信噪比最大,目标信号增强后的语音信号可以是指从输入语音信号中提取出目标信号,也可以是进一步对提取的目标信号做增强处理。在获得目标信号增强后的语音信号后,即可输出给后续模块,例如输出给语音识别模块,还可以是播放输出给用户。
在相关技术方案中,对噪声信号的协方差矩阵(目标协方差矩阵)的估计有依赖假设,例如假设噪声是平稳的,从而依赖语音活动检测(Voice Activity Detection,VAD)来区分噪声信号和目标信号。例如,对于检测的语音信号,基于假设噪声信号的统计特征在一段时间内不发生变化,因而可将检测出的具有同样统计特征的信号确定为噪声信号,那么剩下噪声信号以外的信号即为目标信号。再例如,还对场景进行假设,假定一定长度的信号属于噪声信号,对于检测的语音信号,因而可将检测出的满足一定长度的信号确定为噪声信号,那么剩下噪声信号以外的信号即为目标信号。然而上述假设的方式都具有局限性,实际场景中噪声信号可能是不断变化的,且噪声可随时介入,即稳定性差,因而基于假设噪声信号的特征的方式,无法准确的获得噪声信号。
而在本公开的实施例中,通过输入语音信号的第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式逐步逼近噪声信号的目标协方差矩阵,即噪声信号的目标协方差矩阵的获得是根据实际的输入语音信号的特征获得的,不依赖于一些理想的假设,因而能使得噪声信号的目标协方差矩阵的获得更加符合实际情况,在此基础上能使得对目标信号的增强效果更好。
在一种实施例中,所述根据所述第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式获得所述输入语音信号中噪声信号的目标协方差矩阵,包括:
根据所述第一协方差矩阵,确定所述噪声信号的第二协方差矩阵;
根据所述第二协方差矩阵,以所述信噪比满足所述第一预设条件为目标,确定波束导向矢量;
根据当前所述第二协方差矩阵和所述波束导向矢量,根据预设的迭代次数,估计所述目标信号;其中,每次迭代估计的所述目标信号,用于更新所述第一协方差矩阵后更新所述第二协方差矩阵。
在本公开的实施例中,在以波束成形中的信噪比满足第一预设条件为目标,迭代获得噪声信号的目标协方差矩阵时,可先根据第一协方差矩阵,确定噪声信号的第二协方差矩阵,并基于第二协方差矩阵获得波束导向矢量,从而根据第二协方差矩阵和波束导向矢量估计目标信号。其中,每次迭代估计的目标信号,用于更新第一协方差矩阵后更新第二协方差矩阵并在预设迭代次数后获得目标协方差矩阵。
也就是说,本公开基于原始的输入语音信号的第一协方差矩阵,更新第二协方差矩阵,而又基于更新的第二协方差矩阵,以信噪比满足第一预设条件为目标,确定波束导向矢量。基于当前的第二协方差矩阵和波束导向矢量,即可估计目标信号后再次更新第一协方差矩阵,进而获得噪声信号的第二协方差矩阵。如此,在经过预设迭代次数的迭代后,即可逼近噪声信号的目标协方差矩阵。
在一种实施例中,所述根据所述第一协方差矩阵,确定所述噪声信号的第二协方差矩阵,包括:
对当前迭代次数对应的所述第一协方差矩阵进行特征值分解,获取所述噪声信号的能量权重;
基于所述噪声信号的能量权重,以及所述输入语音信号的第一协方差矩阵,确定当前迭代次数对应的噪声信号的第二协方差矩阵。
在本公开的实施例中,对当前迭代次数对应的第一协方差矩阵进行特征值分解,由于特征值分解后,特征值在物理上对应的就是目标信号和噪声信号的功率,因而本公开可根据目标信号和噪声信号的功率,确定噪声信号的能量权重,该噪声信号的能量权重能使得输入语音信号中噪声信号的作用增大,而目标信号的作用变小。
例如,若当前迭代次数下估计的输入语音信号为
Figure BDA0002770697720000081
则噪声信号的能量权重可表示为
Figure BDA0002770697720000082
其中rn表征当前迭代次数下估计的输入语音信号的能量,rn的计算见如下公式(5):
Figure BDA0002770697720000083
基于噪声信号的能量权重,以及输入语音信号的第一协方差矩阵,即可确定当前迭代次数对应的噪声信号的第二协方差矩阵。噪声信号的第二协方差矩阵的计算可见如下公式(6):
Figure BDA0002770697720000084
其中,公式(6)中包括前述公式(1)的部分,即为初始输入语音信号的第一协方差矩阵。
可以理解的是,在本公开的实施例中,上述迭代过程实际是确定原始输入信号中噪声信号的能量权重的过程。
在一种实施例中,所述根据所述第二协方差矩阵,以所述信噪比满足所述第一预设条件为目标,确定波束导向矢量,包括:
以所述信噪比满足所述第一预设条件为目标,获取所述第二协方差矩阵中的最小特征值,以及所述最小特征值对应的特征向量;
根据所述最小特征值和所述特征向量,确定所述波束导向矢量。
在本公开的实施例中,在根据第二协方差矩阵,以信噪比满足第一预设条件为目标,确定波束导向矢量时,以信噪比满足第一预设条件为目标,获取第二协方差矩阵中的最小特征值,以及最小特征值对应的特征向量。根据最小特征值即最小特征值对应的特征向量,即可获得对应的波束导向矢量。例如,根据最小特征值的平方根以及对应的特征向量获得对应的波束导向矢量wf′。需要说明的是,在本公开的实施例中,wf′表征迭代过程中获得的波束导向矢量,而非目标波束导向矢量。
在一种实施例中,所述根据所述目标协方差矩阵,以所述信噪比满足第二预设条件为目标,获取所述目标信号增强后的语音信号,包括:
根据所述目标协方差矩阵,以所述信噪比满足所述第二预设条件为目标,确定目标波束导向矢量;
根据所述目标波束导向矢量和所述输入语音信号,获取所述目标信号增强后的语音信号。
在本公开的实施例中,在迭代获得噪声信号的目标协方差矩阵之后,即可以信噪比满足第二预设条件为目标,确定目标波束导向矢量。该过程与前述根据第二协方差矩阵,以信噪比满足第一预设条件为目标,确定波束导向矢量的原理相同,本公开实施例不再详述获得目标波束矢量的过程。
在确定目标波束导向矢量后,即可根据目标波束导向矢量和输入语音信号,获得目标信号增强后的语音信号。
例如,目标波束导向矢量为wf,则可根据如下公式(7)获得目标信号增强后的语音信号:
Q=wf hxf (7)
其中,wf h为目标波束导向矢量的转置矩阵,xf为输入语音信号。
图2是本公开实施例示出的一种语音信号处理方法流程图二,应用于电子设备中,在图1的基础上,步骤S11可包括如下步骤:
S11A、去除所述输入语音信号的冗余信息;
S11B、获取去除所述冗余信息后的输入语音信号的频域信息。
在本公开的实施例中,可以通过对输入语音信号做白化处理,从而去除输入语音信号的冗余信息,例如,可基于主成分分析(principal components analysis,pca)方法来去除输入语音信号的冗余信息,即可获取去除冗余信息后的输入语音信号的频域信息。其中,语音信号中的冗余信息例如是语音信号中的静音部分(语音间隙)等。
可以理解的是,通过事先去除输入语音信号的冗余信息,能减少后续的计算量,因而能提升语音信号增强的处理速度。
图3是本公开实施例示出的一种语音信号处理方法的示例图,应用于电子设备中,如图3所示,应用于电子设备中的语音信号处理方法包括以下步骤:
S31、对输入信号进行白化。
在该实施例中,输入信号即输入语音信号,对输入信号进行白化即为去除输入语音信号的冗余信息。在白化处理后,即可获取去除冗余信息后的输入语音信号的频域信息。其中,输入信号可以是2路麦克风的原始信号。
S32、进行预定次数的迭代,获得输入信号中噪声信号的目标协方差矩阵。
具体的,在获取噪声信号的目标协方差矩阵时,以输入语音信号
Figure BDA0002770697720000101
作为初始假定的目标信号,并基于上述公式(5)和(6)获得噪声信号的第二协方差矩阵。
用得到的噪声信号的第二协方差矩阵进一步估计最优权重(即波束导向矢量wf′),从而得到新的
Figure BDA0002770697720000102
以在下次迭代时更新
Figure BDA0002770697720000103
经过预定次数的迭代后,即可获得噪声信号的目标协方差矩阵。
S33、根据噪声信号的目标协方差矩阵,确定目标波束导向矢量并获得估计的目标信号。
在该实施例中,在根据第二协方差矩阵估计最优权重,或者根据目标协方差矩阵确定目标波束导向矢量时,可通过计算第二协方差矩阵或目标协方差矩阵的最小特征值以及对应的特征向量,并根据最小特征值的平方根以及对应的特征向量获得对应的波束导向矢量。
在确定目标波束导向矢量后,即可基于前述公式(8)获得目标信号增强后的语音信号,也即估计的目标信号。
S34、输出估计的目标信号。
在该实施例中,输出估计的目标信号,包括将估计的目标信号输出给后续语音识别模块,或者播放给用户。
在本公开的实施例中,对输入信号进行白化去除冗余信息后,即通过迭代的方式逐步逼近噪声信号的目标协方差矩阵,因输入信号中噪声信号的目标协方差矩阵的获得是根据实际的输入信号的特征获得的,不依赖于一些理想的假设,因而能使得噪声信号的目标协方差矩阵的获得能更精确的反映当前声场的特性,在此基础上能突出目标信号,得到更好的增强效果。
图4是本公开实施例中一种语音信号处理装置图。参照图4,该装置包括:
第一获取模块101,配置为获取输入语音信号的频域信息;
第二获取模块102,配置为根据所述频域信息,获取所述输入语音信号的第一协方差矩阵;
迭代模块103,配置为根据所述第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式获得所述输入语音信号中噪声信号的目标协方差矩阵;其中,所述噪声信号是干扰所述输入语音信号中目标信号的信号;
第三获取模块104,配置为根据所述目标协方差矩阵,以所述信噪比满足第二预设条件为目标,获取所述目标信号增强后的语音信号。
可选的,所述迭代模块103,具体配置为根据所述第一协方差矩阵,确定所述噪声信号的第二协方差矩阵;根据所述第二协方差矩阵,以所述信噪比满足所述第一预设条件为目标,确定波束导向矢量;根据当前所述第二协方差矩阵和所述波束导向矢量,根据预设的迭代次数,估计所述目标信号;其中,每次迭代估计的所述目标信号,用于更新所述第一协方差矩阵后更新所述第二协方差矩阵。
可选的,所述迭代模块103,具体配置为对当前迭代次数对应的所述第一协方差矩阵进行特征值分解,获取所述噪声信号的能量权重;基于所述噪声信号的能量权重,以及所述输入语音信号的第一协方差矩阵,确定当前迭代次数对应的噪声信号的第二协方差矩阵。
可选的,所述迭代模块103,具体配置为以所述信噪比满足所述第一预设条件为目标,获取所述第二协方差矩阵中的最小特征值,以及所述最小特征值对应的特征向量;根据所述最小特征值和所述特征向量,确定所述波束导向矢量。
可选的,所述第三获取模块104,具体配置为根据所述目标协方差矩阵,以所述信噪比满足所述第二预设条件为目标,确定目标波束导向矢量;
根据所述目标波束导向矢量和所述输入语音信号,获取所述目标信号增强后的语音信号。
可选的,所述第一获取模块101,具体配置为去除所述输入语音信号的冗余信息;获取去除所述冗余信息后的输入语音信号的频域信息。
关于图4所示实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备装置800的框图。例如,装置800可以是智能手机或智能音箱等。
参照图5,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如Wi-Fi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行语音信号处理方法,所述方法包括:
获取输入语音信号的频域信息;
根据所述频域信息,获取所述输入语音信号的第一协方差矩阵;
根据所述第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式获得所述输入语音信号中噪声信号的目标协方差矩阵;其中,所述噪声信号是干扰所述输入语音信号中目标信号的信号;
根据所述目标协方差矩阵,以所述信噪比满足第二预设条件为目标,获取所述目标信号增强后的语音信号。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种语音信号处理方法,其特征在于,所述方法包括:
获取输入语音信号的频域信息;
根据所述频域信息,获取所述输入语音信号的第一协方差矩阵;
根据所述第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式获得所述输入语音信号中噪声信号的目标协方差矩阵;其中,所述噪声信号是干扰所述输入语音信号中目标信号的信号;
根据所述目标协方差矩阵,以所述信噪比满足第二预设条件为目标,获取所述目标信号增强后的语音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式获得所述输入语音信号中噪声信号的目标协方差矩阵,包括:
根据所述第一协方差矩阵,确定所述噪声信号的第二协方差矩阵;
根据所述第二协方差矩阵,以所述信噪比满足所述第一预设条件为目标,确定波束导向矢量;
根据当前所述第二协方差矩阵和所述波束导向矢量,根据预设的迭代次数,估计所述目标信号;其中,每次迭代估计的所述目标信号,用于更新所述第一协方差矩阵后更新所述第二协方差矩阵。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一协方差矩阵,确定所述噪声信号的第二协方差矩阵,包括:
对当前迭代次数对应的所述第一协方差矩阵进行特征值分解,获取所述噪声信号的能量权重;
基于所述噪声信号的能量权重,以及所述输入语音信号的第一协方差矩阵,确定当前迭代次数对应的噪声信号的第二协方差矩阵。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第二协方差矩阵,以所述信噪比满足所述第一预设条件为目标,确定波束导向矢量,包括:
以所述信噪比满足所述第一预设条件为目标,获取所述第二协方差矩阵中的最小特征值,以及所述最小特征值对应的特征向量;
根据所述最小特征值和所述特征向量,确定所述波束导向矢量。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标协方差矩阵,以所述信噪比满足第二预设条件为目标,获取所述目标信号增强后的语音信号,包括:
根据所述目标协方差矩阵,以所述信噪比满足所述第二预设条件为目标,确定目标波束导向矢量;
根据所述目标波束导向矢量和所述输入语音信号,获取所述目标信号增强后的语音信号。
6.根据权利要求1所述的方法,其特征在于,所述获取输入语音信号的频域信息,包括:
去除所述输入语音信号的冗余信息;
获取去除所述冗余信息后的输入语音信号的频域信息。
7.一种语音信号处理装置,其特征在于,所述装置包括:
第一获取模块,配置为获取输入语音信号的频域信息;
第二获取模块,配置为根据所述频域信息,获取所述输入语音信号的第一协方差矩阵;
迭代模块,配置为根据所述第一协方差矩阵,以波束成形中的信噪比满足第一预设条件为目标,采用迭代的方式获得所述输入语音信号中噪声信号的目标协方差矩阵;其中,所述噪声信号是干扰所述输入语音信号中目标信号的信号;
第三获取模块,配置为根据所述目标协方差矩阵,以所述信噪比满足第二预设条件为目标,获取所述目标信号增强后的语音信号。
8.根据权利要求7所述的装置,其特征在于,
所述迭代模块,具体配置为根据所述第一协方差矩阵,确定所述噪声信号的第二协方差矩阵;根据所述第二协方差矩阵,以所述信噪比满足所述第一预设条件为目标,确定波束导向矢量;根据当前所述第二协方差矩阵和所述波束导向矢量,根据预设的迭代次数,估计所述目标信号;其中,每次迭代估计的所述目标信号,用于更新所述第一协方差矩阵后更新所述第二协方差矩阵。
9.根据权利要求8所述的装置,其特征在于,
所述迭代模块,具体配置为对当前迭代次数对应的所述第一协方差矩阵进行特征值分解,获取所述噪声信号的能量权重;基于所述噪声信号的能量权重,以及所述输入语音信号的第一协方差矩阵,确定当前迭代次数对应的噪声信号的第二协方差矩阵。
10.根据权利要求8所述的装置,其特征在于,
所述迭代模块,具体配置为以所述信噪比满足所述第一预设条件为目标,获取所述第二协方差矩阵中的最小特征值,以及所述最小特征值对应的特征向量;根据所述最小特征值和所述特征向量,确定所述波束导向矢量。
11.根据权利要求7所述的装置,其特征在于,
所述第三获取模块,具体配置为根据所述目标协方差矩阵,以所述信噪比满足所述第二预设条件为目标,确定目标波束导向矢量;
根据所述目标波束导向矢量和所述输入语音信号,获取所述目标信号增强后的语音信号。
12.根据权利要求7所述的装置,其特征在于,
所述第一获取模块,具体配置为去除所述输入语音信号的冗余信息;获取去除所述冗余信息后的输入语音信号的频域信息。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如权利要求1至6中任一项所述的语音信号处理方法。
14.一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任一项所述的语音信号处理方法。
CN202011248014.7A 2020-11-10 2020-11-10 语音信号处理方法及装置、电子设备、存储介质 Pending CN112447184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011248014.7A CN112447184A (zh) 2020-11-10 2020-11-10 语音信号处理方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011248014.7A CN112447184A (zh) 2020-11-10 2020-11-10 语音信号处理方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN112447184A true CN112447184A (zh) 2021-03-05

Family

ID=74736879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011248014.7A Pending CN112447184A (zh) 2020-11-10 2020-11-10 语音信号处理方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN112447184A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782046A (zh) * 2021-09-09 2021-12-10 清华大学 一种用于远距离语音识别的麦克风阵列拾音方法及系统
WO2023103693A1 (zh) * 2021-12-07 2023-06-15 阿里巴巴(中国)有限公司 音频信号的处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100296665A1 (en) * 2009-05-19 2010-11-25 Nara Institute of Science and Technology National University Corporation Noise suppression apparatus and program
US20160105755A1 (en) * 2014-10-08 2016-04-14 Gn Netcom A/S Robust noise cancellation using uncalibrated microphones
US20180075867A1 (en) * 2015-04-09 2018-03-15 Sintef Tto As Speech recognition
CN110148420A (zh) * 2019-06-30 2019-08-20 桂林电子科技大学 一种适用于噪声环境下的语音识别方法
CN110890099A (zh) * 2018-09-10 2020-03-17 北京京东尚科信息技术有限公司 声音信号处理方法、装置以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100296665A1 (en) * 2009-05-19 2010-11-25 Nara Institute of Science and Technology National University Corporation Noise suppression apparatus and program
US20160105755A1 (en) * 2014-10-08 2016-04-14 Gn Netcom A/S Robust noise cancellation using uncalibrated microphones
US20180075867A1 (en) * 2015-04-09 2018-03-15 Sintef Tto As Speech recognition
CN110890099A (zh) * 2018-09-10 2020-03-17 北京京东尚科信息技术有限公司 声音信号处理方法、装置以及存储介质
CN110148420A (zh) * 2019-06-30 2019-08-20 桂林电子科技大学 一种适用于噪声环境下的语音识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
曹占中;纳跃跃;王晓飞;付强;潘接林;颜永红;: "传声器阵列波束比判决语音增强方法", 声学学报, no. 04 *
杨志伟;张攀;陈颖;许华健;: "导向矢量和协方差矩阵联合迭代估计的稳健波束形成算法", 电子与信息学报, no. 12, 18 October 2018 (2018-10-18) *
王子腾;孙兴伟;李军锋;颜永红;: "近似窄带假设下的最小方差无失真响应波束形成", 声学学报, no. 02, 15 March 2020 (2020-03-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782046A (zh) * 2021-09-09 2021-12-10 清华大学 一种用于远距离语音识别的麦克风阵列拾音方法及系统
WO2023103693A1 (zh) * 2021-12-07 2023-06-15 阿里巴巴(中国)有限公司 音频信号的处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108510987B (zh) 语音处理方法及装置
CN111128221B (zh) 一种音频信号处理方法、装置、终端及存储介质
CN110970046B (zh) 一种音频数据处理的方法及装置、电子设备、存储介质
CN111009256A (zh) 一种音频信号处理方法、装置、终端及存储介质
CN111179960B (zh) 音频信号处理方法及装置、存储介质
CN104991754A (zh) 录音方法及装置
CN111402917B (zh) 音频信号处理方法及装置、存储介质
CN115482830B (zh) 语音增强方法及相关设备
CN111986693A (zh) 音频信号的处理方法及装置、终端设备和存储介质
CN112447184A (zh) 语音信号处理方法及装置、电子设备、存储介质
WO2022253003A1 (zh) 语音增强方法及相关设备
CN113228710A (zh) 听力装置中的声源分离及相关方法
CN113053406A (zh) 声音信号识别方法及装置
CN112201267A (zh) 一种音频处理方法、装置、电子设备及存储介质
CN111724801A (zh) 音频信号处理方法及装置、存储介质
CN113223553B (zh) 分离语音信号的方法、装置及介质
CN113077808B (zh) 一种语音处理方法、装置和用于语音处理的装置
CN113488066A (zh) 音频信号处理方法、音频信号处理装置及存储介质
CN111667842B (zh) 音频信号处理方法及装置
CN114694685A (zh) 语音质量评估方法、装置及存储介质
CN113194387A (zh) 音频信号处理方法、装置、电子设备及存储介质
CN113345461A (zh) 一种语音处理方法、装置和用于语音处理的装置
CN112863537A (zh) 一种音频信号处理方法、装置及存储介质
CN113190207A (zh) 信息处理方法、装置、电子设备及存储介质
CN113362848B (zh) 音频信号处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination