CN117935835B - 音频降噪方法、电子设备以及存储介质 - Google Patents
音频降噪方法、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN117935835B CN117935835B CN202410336819.9A CN202410336819A CN117935835B CN 117935835 B CN117935835 B CN 117935835B CN 202410336819 A CN202410336819 A CN 202410336819A CN 117935835 B CN117935835 B CN 117935835B
- Authority
- CN
- China
- Prior art keywords
- audio data
- current
- target
- filtering
- piece
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000001914 filtration Methods 0.000 claims abstract description 109
- 239000013598 vector Substances 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 34
- 230000002123 temporal effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012804 iterative process Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000012512 characterization method Methods 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种音频降噪方法、电子设备以及存储介质,音频降噪方法包括:分别获取至少两个收音设备在当前时刻采集到的当前音频数据,当前音频数据中包括目标声源发出的音频;基于各收音设备之间的位置关系以及目标声源的位置确定各当前音频数据之间的导向矢量;以及,确定至少一个当前音频数据与至少一个目标收音设备在历史时刻采集到的历史音频数据之间的时间相关系数,至少一个目标收音设备为采集至少一个当前音频数据的收音设备,历史时刻为早于当前时刻的时刻;利用导向矢量与时间相关系数,确定目标滤波参数;基于目标滤波参数,对各当前音频数据进行滤波降噪处理,得到目标音频数据。上述方案,能够提高音频降噪效果。
Description
技术领域
本申请涉及语音处理技术领域,特别是涉及一种音频降噪方法、电子设备以及存储介质。
背景技术
收音阵列是一组按照特定形状结构布置的收音设备,常见的阵型为线性阵和圆形阵等。相比于单个麦克风,麦克风阵列具备更好的空间分辨能力和抗干扰能力,可以获得更高的信号增益,在语音增强等领域受到了广泛的应用。基于麦克风阵列的波束形成可以利用阵列获取的空域信息,对特定方向形成波束,从而接收该方向入射的信号并抑制其他方向的干扰,即实现空域上的滤波。
目前基于麦克风阵列的波束形成降噪算法仅考虑声场信号的空间特征,导致降噪的效果不佳。
发明内容
本申请至少提供一种音频降噪方法、电子设备以及存储介质。
本申请提供了一种音频降噪方法,包括:分别获取至少两个收音设备在当前时刻采集到的当前音频数据,当前音频数据中包括目标声源发出的音频;基于各收音设备之间的位置关系以及目标声源的位置确定各当前音频数据之间的导向矢量;以及,确定至少一个当前音频数据与至少一个目标收音设备在历史时刻采集到的历史音频数据之间的时间相关系数,时间相关系数用于表征至少一个当前音频数据与历史音频数据在时间上的相关性,至少一个目标收音设备为采集至少一个当前音频数据的收音设备,历史时刻为早于当前时刻的时刻;利用导向矢量与时间相关系数,确定目标滤波参数;基于目标滤波参数,对各当前音频数据进行滤波降噪处理,得到目标音频数据。
本申请提供了一种音频降噪装置,包括:音频获取模块、相关数据确定模块、参数确定模块以及降噪模块;音频获取模块,用于分别获取至少两个收音设备在当前时刻采集到的当前音频数据,当前音频数据中包括目标声源发出的音频;相关数据确定模块用于基于各收音设备之间的位置关系以及目标声源的位置确定各当前音频数据之间的导向矢量,导向矢量用于表征各当前音频数据在空间上的相关性;以及,相关数据确定模块还用于确定至少一个当前音频数据与至少一个目标收音设备在历史时刻采集到的历史音频数据之间的时间相关系数,时间相关系数用于表征至少一个当前音频数据与历史音频数据在时间上的相关性,至少一个目标收音设备为采集至少一个当前音频数据的收音设备,历史时刻为早于当前时刻的时刻;参数确定模块用于利用导向矢量与时间相关系数,确定目标滤波参数;降噪模块用于基于目标滤波参数,对各当前音频数据进行滤波降噪处理,得到目标音频数据。
本申请提供了一种电子设备,包括存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述音频降噪方法。
本申请提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述音频降噪方法。
上述方案,通过先根据各收音设备之间的位置关系,确定各当前音频数据在空间上的相关表征向量,并确定至少部分当前音频数据在时间上与历史音频数据之间的相关表征向量,使得能够在参考音频数据在空间和时间上的特性确定滤波参数,从而使得确定得到的滤波参数更为准确,进而使得根据该滤波参数降噪得到的目标音频数据也更为准确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1是本申请音频降噪方法一实施例的流程示意图;
图2是图1中步骤S12的子流程示意图;
图3是图1中步骤S14的子流程示意图;
图4是本申请音频降噪装置一实施例的结构示意图;
图5是本申请电子设备一实施例的结构示意图;
图6是本申请计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
一些应用场景中,本申请提供的音频降噪方法可以应用于音频处理领域,例如会议记录领域或者公开课领域等任意需要收音的场景。用于实现本申请描述的音频降噪方法的执行主体可以是音频降噪装置、电子设备等。例如,音频降噪装置可以设置于终端设备或服务器或其它处理设备,其中,终端设备可以为音频设备、电子设备,用户设备(UserEquipment,UE)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该音频降噪方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
请参阅图1,图1是本申请音频降噪方法一实施例的流程示意图。如图1所示,本公开实施例提供的音频降噪方法,可以包括如下步骤:
步骤S11:分别获取至少两个收音设备在当前时刻采集到的当前音频数据。
当前音频数据中包括目标声源发出的音频。也就是当前采集到的当前音频数据中除了目标声源发出的音频之外,可能还存在一些噪音。目标声源可以是任意能够发出声音的对象。收音设备可以是任意具备音频采集功能的设备,例如麦克风等。至少两个收音设备可以是两个或多个,其中,至少两个收音设备构成收音阵列,收音阵列中的收音设备之间可以呈线性排列、圆形或其他形状排列,关于各收音设备的排列方式此处不做具体限定,本实施例以至少两个收音设备为线性排列为例。
步骤S12:基于各收音设备之间的位置关系以及目标声源的位置确定各当前音频数据之间的导向矢量。
一些应用场景中,声源的位置、或者各收音设备之间的位置不同,导向矢量(steering vector)也不同,各当前音频数据在空间上的相关性可以与各收音设备采集到的初始音频因为各收音设备之间位置关系相关。其中,目标声源的位置可以包括声源方向,声源方向的获取方式可以是过目标方位估计、语音协方差矩阵的幂迭代方法等得到,或者另一些实施例中,若声源方向与各收音设备之间的位置固定,则目标声源的位置也可以是预先设定的预设值。
步骤S13:确定至少一个当前音频数据与至少一个目标收音设备在历史时刻采集到的历史音频数据之间的时间相关系数。
时间相关系数可以用于表征同一个收音设备在不同时刻采集到的音频数据在时间上的相关性。目标声源在不同时刻发出的音频一般情况下是连贯、相关的,故可以通过音频在时间上的连贯性等特性对采集到的音频进行去噪。至少一个目标收音设备为采集至少一个当前音频数据的收音设备,历史时刻为早于当前时刻的时刻。目标收音设备的数量可以是一个,也可以是多个。示例性地,至少一个可以是一个或两个及以上。一些应用场景中,至少一个可以是一个,也就是确定其中一个当前音频数据与对应的历史音频数据之间的时间相关系数。其中,历史音频的数量可以是一个或多个,也就是历史时刻可以是1个及以上的时刻。示例性地,收音设备的数量为M个,将第m个收音设备作为目标收音设备,确定该目标收音设备采集到的当前音频数据与该目标收音设备采集到的前L帧历史音频数据之间的时间相关系数。一些应用场景中,至少一个可以是两个及以上,也就是确定其中两个或两个以上的当前音频数据,分别确定与对应的历史音频数据之间的时间相关性,得到时间相关系数。
步骤S14:利用导向矢量与时间相关系数,确定目标滤波参数。
目前滤波参数的确定只与当前音频数据之间的空间相关性有关,本申请提供的音频降噪方法中滤波参数的确定不仅参考了不同收音设备采集到的当前音频数据之间的空间相关性,还参考了同一收音设备在不同时刻采集到的初始音频在时间上的时间相关性。一些应用场景中,可以根据导向矢量和时间相关系数分别确定一个空间滤波参数和一个时间滤波参数。一些应用场景中,还可根据导向矢量和时间相关系数确定一个总的滤波参数。也就是目标滤波参数的数量可以是一个或两个或其他数量个,关于目标滤波参数的数量此处不做具体限定。其中,确定目标滤波参数的方式可以是对需要确定的目标滤波参数进行初始化,然后根据导向矢量和时间相关系数对初始化后的目标滤波参数进行迭代更新,使得最终的目标滤波参数符合条件,并将符合条件的滤波参数对各当前音频数据进行滤波降噪,得到目标音频数据。
步骤S15:基于目标滤波参数,对各当前音频数据进行滤波降噪处理,得到目标音频数据。
其中,在确定得到滤波参数之后,如何利用滤波参数对音频数据进行降噪的方式较多,例如麦克风阵列的波束形成降噪算法中提供的方式,具体如何根据滤波参数对各当前音频数据进行滤波降噪处理的方式此处不做具体限定。
上述方案,通过先根据各收音设备之间的位置关系,确定各当前音频数据在空间上的相关表征向量,并确定至少部分当前音频数据在时间上与历史音频数据之间的相关表征向量,使得能够在参考音频数据在空间和时间上的特性确定滤波参数,从而使得确定得到的滤波参数更为准确,进而使得根据该滤波参数降噪得到的目标音频数据也更为准确。
在一些实施例中,上述步骤S11可以包括以下步骤:分别获取至少两个收音设备在当前时刻采集到的音频数据。然后,对各音频数据进行傅里叶变换得到各当前音频数据。
示例性地,固定时间帧,例如当前时刻采集到的音频数据为第t帧,假设收音设备的数量为M个,则对M个收音设备采集到的音频数据进行傅里叶变换得到对应的频域信号,也就是,当前音频数据。
将M个收音设备对应的频域信号组成信号向量,其中,其中,T代表矩阵转置,/>表示信号频率。
另一些实施例中,也可以直接将采集到的音频数据作为当前音频数据,不对其进行傅里叶变换。
在一些实施例中,位置关系包括各收音设备之间的间距。可选地,相邻收音设备之间的间距相同或间距差异小于或等于预设差异,预设差异可根据需求设定。请参阅图2,上述步骤S12可以包括以下步骤:
步骤S121:从各收音设备中选择至少一个收音设备作为参考收音设备。
示例性地,选取线性排列的收音设备中的首个收音设备作为参考收音设备。另一些实施例中,也可以选取线性排列的收音设备中其他收音设备作为参考收音设备。参考收音设备的数量可以是一个也可以是多个,本实施例以参考收音设备为1个收音设备为例。
步骤S122:确定参考信息。
参考信息包括以下至少一者:当前音频数据的声速和信号频率,其中,相邻收音设备为与参考收音设备相邻设置的收音设备。
示例性地,声源方向可以认为是声源相对于收音设备的方向,例如声源方向可以是方向角。信号频率可以是上述f,声速表示声音传播速度。
步骤S123:基于各收音设备之间的间距、目标声源的位置以及参考信息,确定导向矢量。
具体基于各收音设备之间的间距以及参考信息,确定导向矢量的方式可参考公式(1)。
公式(1);
其中,d表示间距,表示声源的方向角,c表示声速,j表示虚数。在此基础上,+/>,/>代表噪声向量。
在一些实施例中,历史音频数据中包括期望音频数据和干扰音频数据。上述步骤S13可以包括以下步骤:确定至少一个当前音频数据与各历史音频数据中的期望音频数据之间的时间相关系数,作为至少一个当前音频数据与至少一个目标收音设备在历史时刻采集到的历史音频数据之间的时间相关系数。
一些应用场景中,固定收音设备,例如选取第m个收音设备作为基准收音设备,将确定基准收音设备采集的当前音频数据与该期望音频数据之间的时间相关系数,作为至少一个当前音频数据与至少一个目标收音设备在历史时刻采集到的历史音频数据之间的时间相关系数。计算时间相关性表征向量的方式可以是根据各历史音频数据预测需要收音的目标声源在当前时刻的音频数据,然后将当前音频数据与预测的音频数据计算相似度从而确定时间相关系数。另外,计算时间相关系数的方式还可以是计算当前音频数据与历史音频数据中期望音频数据之间的关联程度,从而确定时间相关系数。
在一些实施例中,上述确定至少一个当前音频数据与各历史音频数据中的期望音频数据之间的时间相关系数的方式可以是:获取至少一个当前音频数据对应的共轭音频数据。然后,确定各期望音频数据与共轭音频数据之间的第一期望值。再将第一期望值与第二期望值之间的比值,作为时间相关系数,第二期望值为各当前音频数据之间的方差的期望。
示例性地,如选取第m个麦克风,将包括当前帧在内的L帧语音组成信号向量。其中,/>可以表示为:,/>代表第m个收音设备在t时刻(当前时刻)采集到当前音频数据,m的取值可以是1,2……M,等代表历史音频数据,也就是第m个收音设备t-L+2时刻(历史时刻)采集到的当前音频数据。其中,/>可以由纯净语音和噪声两部分组成,例如/>=/>,/>表示纯净语音向量,/>表示噪声向量。噪声向量可以认为是环境中的噪音并非目标声源产生,纯净语音向量可以认为是目标声源产生的,例如若目标声源为智能设备,则纯净语音向量可以是智能设备产生的音频,而噪声向量可以是非智能设备产生的音频,可以是环境噪音等。可选地,对于纯净语音还可分解为相互正交的两部分,分别为与当前帧期望语音相干和不相干的成分(干扰成分):/>=/>。/>表示第m个收音设备的期望语音信号。/>表示时间相关系数,具体地,/>表示干扰信号。其中,/>的计算方式可参考公式(2):
公式(2);
其中,满足,/>第二期望值,也就是当前时刻采集到的各当前音频数据之间的方差的期望,/>可以表示当前时刻采集到的当前音频数据或者当前音频数据划分出的期望音频数据,*代表共轭。
另一些实施例中,计算每个收音设备(例如麦克风)对应的时间系数相关向量,对各时间系数相关向量求平均从而得到最终的时间相关系数。或者,计算其中部分收音设备对应的时间系数向量进行求平均得到最终的时间相关系数。
在一些实施例中,以收音设备为麦克风,收音设备的个数为M为例,上述步骤S14可以包括以下步骤:
将M个麦克风对应的堆积成一个维度为/>的向量/>:
。
过滤降噪过程请参考公式(3):
公式(3);
在一些实施例中,目标滤波参数为上述步骤S14计算目标滤波参数的方式可参考公式(4):
公式(4);
其中,表示/>的协方差矩阵,/>代表导向矢量且满足/>= ,/>表示克罗内克积。
在一些实施例中,考虑到当麦克风数目M或时间相关参考帧L较大时,mvdr的计算量将很大。利用克罗内克积可将滤波器分解成两个小的mvdr子滤波器/>和,并依次更新/>和/>,由于两个子滤波器求逆协方差矩阵的尺寸大大减小,计算量也明显降低。
其中,满足/>=/> ,/>表示克罗内克积。这里,滤波器/>的长度为ML,/>的长度为M,/>的长度为L。两个小mvdr滤波器的导向矢量分别为:/>;满足,/>。
也就是,目标滤波参数包括第一滤波参数和第二滤波参数。请参阅图3,上述步骤S14可以包括以下步骤:
步骤S141:初始化第一滤波参数、第二滤波参数以及目标协方差矩阵。
其中,第一滤波参数用表示、第二滤波参数用/>表示以及目标协方差矩阵用/>表示。初始化的方式可以是设置为预设值,目标协方差矩阵可以是对各当前音频数据之间的协方差矩阵。
步骤S142:执行迭代过程直至满足停止迭代条件。
其中,迭代过程包括:基于导向矢量、上一次迭代得到的第二滤波参数以及目标协方差矩阵,确定当前迭代得到的第一滤波参数,其中,首次迭代时上一次迭代得到的第二滤波参数为初始化得到的第二滤波参数。并,基于当前迭代得到的第一滤波参数、目标协方差矩阵以及时间相关系数,确定当前迭代得到的第二滤波参数。其中,末次迭代得到的第一滤波参数与第二滤波参数,作为最终的第一滤波参数和最终的第二滤波参数。停止迭代条件可以是迭代次数达到预设值,或者迭代后的滤波器系数收敛。
其中,上述基于所述导向矢量、上一次迭代得到的第二滤波参数以及目标协方差矩阵,确定当前迭代得到的第一滤波参数的方式可以是:基于目标协方差矩阵以及上次迭代得到的第二滤波参数得到第一参考矩阵。然后,基于第一参考矩阵以及导向矢量,确定当前迭代得到的第一滤波参数。
示例性地,上一次迭代为第n次,此次迭代为第n+1次。依据第n次迭代得到的第一参考矩阵和第二滤波参数/>,得到此次迭代的第一滤波参数/>:
公式(5);
其中,,/>代表维度为M的对角阵。/>代表麦克风接收信号的协方差矩阵。
在一些实施例中,上述基于所述当前迭代得到的第一滤波参数、所述目标协方差矩阵以及所述时间相关系数,确定当前迭代得到的第二滤波参数的方式可以是:基于所述目标协方差矩阵以及所述当前迭代得到的第一滤波参数,确定第二参考矩阵。然后,基于所述第二参考矩阵以及所述时间相关系数,得到当前迭代得到的第二滤波参数。
基于上述方式得到的,计算第二参考矩阵,/>代表维度为M的对角阵,从而更新/>:
公式(6);
待算法收敛后,如在第N次迭代后,得到最终的时-空mvdr滤波器。
在此基础上,上述步骤S15可以包括以下步骤:基于最终的第一滤波参数和最终的第二滤波参数,对各当前音频数据进行滤波降噪处理,得到目标音频数据。具体地,将第一滤波参数与第二滤波参数进行克罗内克积计算,得到克罗内克积结果。利用克罗内克积结果对各当前音频数据进行滤波降噪处理,得到目标音频数据。
在上述方案中,通过先根据各收音设备之间的位置关系,确定各当前音频数据在空间上的相关表征向量,并确定至少部分当前音频数据在时间上与历史音频数据之间的相关表征向量,使得能够在参考音频数据在空间和时间上的特性确定滤波参数,从而使得确定得到的滤波参数更为准确,进而使得根据该滤波参数降噪得到的目标音频数据也更为准确。
本申请同时利用语音信号的时间和空间相关特性,得到基于时-空模型的mvdr滤波器。另外,当麦克风数目较多或时间参考帧数太大时,需求逆的协方差矩阵太大,导致计算量过大,本申请将多通道时-空模型mvdr滤波器,分解为时域和空域两个子滤波器参数的克罗内克积,从而减少求逆协方差矩阵的大小,降低计算量。
请参阅图4,图4是本申请音频降噪装置一实施例的结构示意图。音频降噪装置30可以执行上述音频降噪方法。音频降噪装置30包括音频获取模块31、相关数据确定模块32、参数确定模块33以及降噪模块34;音频获取模块31,用于分别获取至少两个收音设备在当前时刻采集到的当前音频数据,当前音频数据中包括目标声源发出的音频;相关数据确定模块32用于基于各收音设备之间的位置关系以及目标声源的位置确定各当前音频数据之间的导向矢量;以及,相关数据确定模块还用于确定至少一个当前音频数据与至少一个目标收音设备在历史时刻采集到的历史音频数据之间的时间相关系数,至少一个目标收音设备为采集至少一个当前音频数据的收音设备,历史时刻为早于当前时刻的时刻;参数确定模块33用于利用导向矢量与时间相关系数,确定目标滤波参数;降噪模块34用于基于目标滤波参数,对各当前音频数据进行滤波降噪处理,得到目标音频数据。
上述方案,通过先根据各收音设备之间的位置关系,确定各当前音频数据在空间上的相关表征向量,并确定至少部分当前音频数据在时间上与历史音频数据之间的相关表征向量,使得能够在参考音频数据在空间和时间上的特性确定滤波参数,从而使得确定得到的滤波参数更为准确,进而使得根据该滤波参数降噪得到的目标音频数据也更为准确。
其中,各个模块的功能可参见音频降噪方法实施例所述,此处不再赘述。
请参阅图5,图5是本申请电子设备一实施例的结构示意图。电子设备40包括存储器41和处理器42,处理器42用于执行存储器41中存储的程序指令,以实现上述任一音频降噪方法实施例中的步骤。在一个具体的实施场景中,电子设备40可以包括但不限于:监控设备、微型计算机、服务器,此外,电子设备40还可以包括笔记本电脑、平板电脑等承载设备,在此不做限定。
具体而言,处理器42用于控制其自身以及存储器41以实现上述任一音频降噪方法实施例中的步骤。处理器42还可以称为CPU(Central Processing Unit,中央处理单元)。处理器42可能是一种集成电路芯片,具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application SpecificIntegrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器42可以由集成电路芯片共同实现。
上述方案,通过先根据各收音设备之间的位置关系,确定各当前音频数据在空间上的相关表征向量,并确定至少部分当前音频数据在时间上与历史音频数据之间的相关表征向量,使得能够在参考音频数据在空间和时间上的特性确定滤波参数,从而使得确定得到的滤波参数更为准确,进而使得根据该滤波参数降噪得到的目标音频数据也更为准确。
请参阅图6,图6是本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质50,其上存储有程序指令51,程序指令51被处理器执行时实现上述任一音频降噪方法实施例中的步骤。
上述方案,通过先根据各收音设备之间的位置关系,确定各当前音频数据在空间上的相关表征向量,并确定至少部分当前音频数据在时间上与历史音频数据之间的相关表征向量,使得能够在参考音频数据在空间和时间上的特性确定滤波参数,从而使得确定得到的滤波参数更为准确,进而使得根据该滤波参数降噪得到的目标音频数据也更为准确。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一图像位置,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个智能设备计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (9)
1.一种音频降噪方法,其特征在于,包括:
分别获取至少两个收音设备在当前时刻采集到的当前音频数据,所述当前音频数据中包括目标声源发出的音频;
基于各所述收音设备之间的位置关系以及所述目标声源的位置确定各所述当前音频数据之间的导向矢量;以及,
确定至少一个所述当前音频数据与至少一个目标收音设备在历史时刻采集到的历史音频数据之间的时间相关系数,所述至少一个目标收音设备为采集所述至少一个所述当前音频数据的收音设备,所述历史时刻为早于所述当前时刻的时刻;
利用所述导向矢量与所述时间相关系数,确定目标滤波参数;
基于所述目标滤波参数,对各所述当前音频数据进行滤波降噪处理,得到目标音频数据;
所述目标滤波参数包括第一滤波参数和第二滤波参数,所述利用所述导向矢量与所述时间相关系数,确定目标滤波参数,包括:
初始化第一滤波参数、第二滤波参数以及目标协方差矩阵;
执行迭代过程直至满足停止迭代条件,所述迭代过程包括:基于所述导向矢量、上一次迭代得到的第二滤波参数以及目标协方差矩阵,确定当前迭代得到的第一滤波参数,其中,首次迭代时所述上一次迭代得到的第二滤波参数为初始化得到的第二滤波参数;并,基于所述当前迭代得到的第一滤波参数、所述目标协方差矩阵以及所述时间相关系数,确定当前迭代得到的第二滤波参数;其中,末次迭代得到的第一滤波参数与所述第二滤波参数,作为最终的第一滤波参数和最终的第二滤波参数;
所述基于所述目标滤波参数,对各所述当前音频数据进行滤波降噪处理,得到目标音频数据,包括:
基于最终的第一滤波参数和所述最终的第二滤波参数,对各所述当前音频数据进行滤波降噪处理,得到所述目标音频数据。
2.根据权利要求1所述的方法,其特征在于,所述历史音频数据中包括期望音频数据和干扰音频数据,所述确定至少一个所述当前音频数据与至少一个目标收音设备在历史时刻采集到的历史音频数据之间的时间相关系数,包括:
确定至少一个所述当前音频数据与各所述历史音频数据中的期望音频数据之间的时间相关系数,作为所述至少一个所述当前音频数据与至少一个目标收音设备在历史时刻采集到的历史音频数据之间的时间相关系数。
3.根据权利要求2所述的方法,其特征在于,所述确定至少一个所述当前音频数据与各所述历史音频数据中的期望音频数据之间的时间相关系数,包括:
获取至少一个所述当前音频数据对应的共轭音频数据;
确定各所述期望音频数据与所述共轭音频数据之间的第一期望值;
将所述第一期望值与第二期望值之间的比值,作为所述时间相关系数,所述第二期望值为各所述当前音频数据之间的方差的期望。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述基于所述导向矢量、上一次迭代得到的第二滤波参数以及目标协方差矩阵,确定当前迭代得到的第一滤波参数,包括:
基于所述目标协方差矩阵以及所述上一次迭代得到的第二滤波参数得到第一参考矩阵;
基于所述第一参考矩阵以及所述导向矢量,确定所述当前迭代得到的第一滤波参数。
5.根据权利要求4所述的方法,其特征在于,所述基于所述当前迭代得到的第一滤波参数、所述目标协方差矩阵以及所述时间相关系数,确定当前迭代得到的第二滤波参数,包括:
基于所述目标协方差矩阵以及所述当前迭代得到的第一滤波参数,确定第二参考矩阵;
基于所述第二参考矩阵以及所述时间相关系数,得到当前迭代得到的第二滤波参数。
6.根据权利要求1至3中任意一项所述的方法,其特征在于,所述基于最终的第一滤波参数和所述最终的第二滤波参数,对各所述当前音频数据进行滤波降噪处理,得到所述目标音频数据,包括:
将所述第一滤波参数与所述第二滤波参数进行克罗内克积计算,得到克罗内克积结果;
利用所述克罗内克积结果对各所述当前音频数据进行滤波降噪处理,得到所述目标音频数据。
7.根据权利要求1至3中任意一项所述的方法,其特征在于,所述分别获取至少两个收音设备在当前时刻采集到的当前音频数据,包括:
分别获取至少两个收音设备在当前时刻采集到的音频数据;
对各所述音频数据进行傅里叶变换得到所述各所述当前音频数据。
8.一种电子设备,其特征在于,包括存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至7中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410336819.9A CN117935835B (zh) | 2024-03-22 | 2024-03-22 | 音频降噪方法、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410336819.9A CN117935835B (zh) | 2024-03-22 | 2024-03-22 | 音频降噪方法、电子设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117935835A CN117935835A (zh) | 2024-04-26 |
CN117935835B true CN117935835B (zh) | 2024-06-07 |
Family
ID=90754300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410336819.9A Active CN117935835B (zh) | 2024-03-22 | 2024-03-22 | 音频降噪方法、电子设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117935835B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011199474A (ja) * | 2010-03-18 | 2011-10-06 | Hitachi Ltd | 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN110164468A (zh) * | 2019-04-25 | 2019-08-23 | 上海大学 | 一种基于双麦克风的语音增强方法及装置 |
CN110602327A (zh) * | 2019-09-24 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音通话方法、装置、电子设备及计算机可读存储介质 |
CN113707136A (zh) * | 2021-10-28 | 2021-11-26 | 南京南大电子智慧型服务机器人研究院有限公司 | 服务型机器人语音交互的音视频混合语音前端处理方法 |
CN113903353A (zh) * | 2021-09-27 | 2022-01-07 | 随锐科技集团股份有限公司 | 一种基于空间区分性检测的定向噪声消除方法及装置 |
CN113948101A (zh) * | 2021-10-19 | 2022-01-18 | 随锐科技集团股份有限公司 | 一种基于空间区分性检测的噪声抑制方法及装置 |
CN115866483A (zh) * | 2022-10-20 | 2023-03-28 | 浙江大华技术股份有限公司 | 一种音频信号的波束形成方法及设备 |
WO2023060400A1 (zh) * | 2021-10-11 | 2023-04-20 | 深圳市韶音科技有限公司 | 语音存在概率计算方法、系统、语音增强方法、系统以及耳机 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111512646B (zh) * | 2017-09-12 | 2021-09-07 | 维思博Ai公司 | 低延迟音频增强的方法和设备 |
JP7450911B2 (ja) * | 2019-12-05 | 2024-03-18 | 国立大学法人 東京大学 | 音響解析装置、音響解析方法及び音響解析プログラム |
-
2024
- 2024-03-22 CN CN202410336819.9A patent/CN117935835B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011199474A (ja) * | 2010-03-18 | 2011-10-06 | Hitachi Ltd | 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN110164468A (zh) * | 2019-04-25 | 2019-08-23 | 上海大学 | 一种基于双麦克风的语音增强方法及装置 |
CN110602327A (zh) * | 2019-09-24 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音通话方法、装置、电子设备及计算机可读存储介质 |
CN113903353A (zh) * | 2021-09-27 | 2022-01-07 | 随锐科技集团股份有限公司 | 一种基于空间区分性检测的定向噪声消除方法及装置 |
WO2023060400A1 (zh) * | 2021-10-11 | 2023-04-20 | 深圳市韶音科技有限公司 | 语音存在概率计算方法、系统、语音增强方法、系统以及耳机 |
CN113948101A (zh) * | 2021-10-19 | 2022-01-18 | 随锐科技集团股份有限公司 | 一种基于空间区分性检测的噪声抑制方法及装置 |
CN113707136A (zh) * | 2021-10-28 | 2021-11-26 | 南京南大电子智慧型服务机器人研究院有限公司 | 服务型机器人语音交互的音视频混合语音前端处理方法 |
CN115866483A (zh) * | 2022-10-20 | 2023-03-28 | 浙江大华技术股份有限公司 | 一种音频信号的波束形成方法及设备 |
Non-Patent Citations (3)
Title |
---|
Microphone Array Post-Filter for Target Speech Enhancement Without a Prior Information of Point Interferers;Guanjun Li et al.;《Interspeech》;20201029;全文 * |
基于联合时空图拓扑结构的多通道语音MVDR 增强算法;杨洋 等;《信号处理》;20230331;第39卷(第3期);全文 * |
频控阵波束特性及波形控制研究;冯晓宇;谢军伟;张晶;王博;;空军工程大学学报(自然科学版);20180625(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117935835A (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7158806B2 (ja) | オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム | |
JP6023779B2 (ja) | オーディオ情報処理の方法及び装置 | |
US9100734B2 (en) | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation | |
CN110379439B (zh) | 一种音频处理的方法以及相关装置 | |
KR101601197B1 (ko) | 마이크로폰 어레이의 이득 조정 장치 및 방법 | |
WO2021128670A1 (zh) | 降低噪声的方法、装置、电子设备及可读存储介质 | |
US20080247274A1 (en) | Sensor array post-filter for tracking spatial distributions of signals and noise | |
WO2016100460A1 (en) | Systems and methods for source localization and separation | |
EP3839949A1 (en) | Audio signal processing method and device, terminal and storage medium | |
US20090316929A1 (en) | Sound capture system for devices with two microphones | |
CN117935835B (zh) | 音频降噪方法、电子设备以及存储介质 | |
CN112802490A (zh) | 一种基于传声器阵列的波束形成方法和装置 | |
JP6517124B2 (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
CN113223552B (zh) | 语音增强方法、装置、设备、存储介质及程序 | |
US11640830B2 (en) | Multi-microphone signal enhancement | |
CN110517703B (zh) | 一种声音采集方法、装置及介质 | |
CN110858485B (zh) | 语音增强方法、装置、设备及存储介质 | |
KR102087019B1 (ko) | 마이크 어레이를 이용한 음원의 방향 추정 및 환경잡음 제거 방법 및 장치 | |
Seghouane | Maximum likelihood blind image restoration via alternating minimization | |
CN108717196B (zh) | 一种阵列天线接收信号的去干扰方法及系统 | |
US11120814B2 (en) | Multi-microphone signal enhancement | |
CN110661510A (zh) | 波束形成器形成方法、波束形成方法、装置及电子设备 | |
CN117037836B (zh) | 基于信号协方差矩阵重构的实时声源分离方法和装置 | |
CN112785997B (zh) | 一种噪声估计方法、装置、电子设备和可读存储介质 | |
CN116990753A (zh) | 利用声学相机定位发声物体的实现方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |