CN115457971A - 一种降噪方法、电子设备及存储介质 - Google Patents

一种降噪方法、电子设备及存储介质 Download PDF

Info

Publication number
CN115457971A
CN115457971A CN202210994986.3A CN202210994986A CN115457971A CN 115457971 A CN115457971 A CN 115457971A CN 202210994986 A CN202210994986 A CN 202210994986A CN 115457971 A CN115457971 A CN 115457971A
Authority
CN
China
Prior art keywords
audio signal
combined
mask
masking
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210994986.3A
Other languages
English (en)
Inventor
熊飞飞
谢维
黄伟隆
冯津伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingtalk China Information Technology Co Ltd
Original Assignee
Dingtalk China Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingtalk China Information Technology Co Ltd filed Critical Dingtalk China Information Technology Co Ltd
Publication of CN115457971A publication Critical patent/CN115457971A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本申请实施例提供一种降噪方法、电子设备及存储介质,其中方法包括:获取采集的音频信号;对音频信号进行预处理;将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;根据所述组合掩蔽,确定说话人的声源定位结果。本申请实施例能够基于组合掩蔽,将噪声方向的音频信号的加权进行降低,将说话人方向的音频信号的加权进行提升,本申请实施例可提升说话人定位算法的鲁棒性,提升说话定位算法的准确性。

Description

一种降噪方法、电子设备及存储介质
技术领域
本申请实施例涉及音频技术领域,具体涉及一种降噪方法、电子设备及存储介质。
背景技术
音视频会议、语音通话等音频交互场景下需要进行说话人定位,说话人定位是指对通过麦克风阵列等音频设备接收到的音频信号确定声源位置,从而确定出当前说话人的位置。
然而,音频设备接收到的音频信号中可能存在说话人的音频和噪音,因此在进行说话人定位时,如何有效的抑制噪音,从而提高说话人定位算法的鲁棒性,成为了本领域技术人员亟需解决的技术问题。
发明内容
有鉴于此,本申请实施例提供一种降噪方法、电子设备及存储介质,以有效的抑制噪音,提高说话人定位算法的鲁棒性。
为实现上述目的,本申请实施例提供如下技术方案。
第一方面,本申请实施例提供一种降噪方法,包括:
获取采集的音频信号;
对音频信号进行预处理;
将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;
根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;
根据所述组合掩蔽,确定说话人的声源定位结果。
第二方面,本申请实施例提供电子设备,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如上述第一方面所述的降噪方法。
第三方面,本申请实施例提供一种存储介质,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时,实现如上述第一方面所述的降噪方法。
第四方面,本申请实施例提供一种计算机程序,该计算机程序被执行时实现如上述第一方面所述的降噪方法。
本申请实施例提供的降噪方法,可在获取采集的音频信号后,对音频信号进行预处理,然后将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;从而,根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;进而,将所述组合掩蔽应用于声源定位算法法中,确定出说话人的声源定位结果。由于在基于所述组合掩蔽,确定说话人的声源定位结果的过程中,本申请实施例能够基于所述组合掩蔽,将噪声方向的音频信号的加权进行降低,将说话人方向的音频信号的加权进行提升,从而得出准确性更高的说话人的声源定位结果,因此本申请实施例可提升说话人定位算法的鲁棒性,提升说话定位算法的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1A为线性阵列的波束形成示例图。
图1B为环形阵列的波束形成示例图。
图2A为音频的频谱示例图。
图2B为噪声方向的波束形成示例图。
图2C为说话人方向的波束形成示例图。
图2D为TF-Mask的示例图。
图2E为TF-Mask的另一示例图。
图3A为本申请实施例提供的降噪方法的流程图。
图3B为本申请实施例实现声源定位的示例图。
图4A为传统声源定位算法在低信噪比情况下的定位结果示例图。
图4B为本申请实施例提供的方案在低信噪比情况下的定位结果示例图。
图5为本申请实施例提供的降噪装置的框图。
图6为电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
音视频会议等音频交互场景中,准确的进行说话人定位能够更好地支持音频拾音算法和视频导播功能。目前通常是基于音频到达麦克风阵列上的不同麦克风的时间/相位差,来进行说话人定位,因此说话人定位方案通常是建立在声学环境良好的情况下(比如安静场景)。然而,实际的音频交互场景更偏向于含有噪音的复杂场景,因此在含有噪音的复杂场景下,说话人定位方案的鲁棒性有待提升。
对于音视频会议等音频交互场景而言,在进行说话人定位时,如何对噪音进行有效的抑制,对于说话人定位算法的鲁棒性收敛具有重要意义。也就是说,鲁棒性可收敛为如何在不同噪声类型下准确的进行说话人定位。
需要说明的是,在进行说话人定位时,可通过音频采集阵列(例如麦克风阵列)采集音频信号,音频采集阵列可以是线性阵列或者环形阵列。线性阵列和环形阵列均可以具有多个方向的波束形成(Beam forming),该多个方向的波束形成可以为M个方向的波束形成,包括方向一的波束形成、方向二的波束形成至方向M的波束形成。
针对线性阵列,作为一个示例,图1A示例性的示出了线性阵列的波束形成示例图,具体的,图1A示例性的示出了线性阵列在方向一、方向二至方向M的波束形成,可进行参照。针对环形阵列,图1B示例性的示出了环形阵列的波束形成示例图,具体的,图1B示例性的示出了环形阵列在方向一、方向二至方向M的波束形成(Beam forming),可进行参照。
另外需要说明的是,噪音源和说话人声源一般不在同一个方向,并且噪音源的能量较强时,会出现低信噪比的情况和声源定位处理结果(例如说话定位算法的处理结果)指向噪音源的情况,从而导致说话定位算法的准确性较低。
基于此,本申请实施例提供改进的降噪方案,以对噪音进行有效的抑制,提高说话人定位算法的鲁棒性,提升说话人定位算法的准确性。
为便于理解,以一段低信噪比的真实录音为例,在低信噪比情况下,麦克风阵列的每一个音频被噪音覆盖,经过STFT(Short-Time Fourier Transform,短时傅里叶变换)之后的频谱(每一帧为10毫秒,大概1000帧)可如图2A所示,图2A为音频的频谱示例图。图2A所示的音频频谱在经过不同方向的波束形成处理之后(例如经过方向一、方向二和方向M的波束形成处理之后),噪声方向的波束形成输出可以如图2B所示,说话人方向的波束形成输出可以如图2C所示。
进一步的,图2B所示的噪声方向的波束形成示例所对应的TF-Mask可以如图2D所示,图2D可以视为是TF-Mask的一种示例图。图2C所示的说话人方向的波束形成示例所对应的TF-Mask可以如图2E所示,图2E可以视为是TF-Mask的另一种示例图。
需要说明的是,TF-Mask为Time-Frequency Mask(时频域掩蔽),简称为掩蔽(Mask),即每个Time-Frequency(时频域)点存在一个表示音频抑制比的值,0代表全是噪音,在说话人定位时需要进行抑制,1代表全是语音,在说话人定位时需要进行保留,Mask的值范围在0.0至1.0之间。
在确定TF-Mask的实现上,可以基于信号处理算法(minimum statistics,iMCRA)等诸多算法进行稳态噪声估计,也可以基于深度学习进行数据驱动的方法获得稳态噪声或者非稳态噪声估计,又或者两者都可以使用,然后再进行噪声估计的融合得到最终的TF-Mask。
通过图2A至图2E所示可以看出,针对音频频谱的每一帧的每一个频带,不同方向的波束形成区域具有不同的Mask;因此本申请实施例可将不同方向的波束形成区域所对应的Mask进行结合,从而在说话人定位算法中降低噪音方向的加权(weighting),提升说话人音频方向的加权,从而提升说话定位算法的准确性。
基于上述思路,作为可选实现,图3A示例性的示出了本申请实施例提供的降噪方法的可选流程图。该方法流程可由音频设备执行实现,音频设备例如麦克风阵列等具有音频采集和处理能力的设备。参照图3A,该方法流程可以包括如下步骤。
在步骤S310中,获取采集的音频信号。
作为可选实现,本申请实施例可使用麦克风阵列等音频设备,采集音频信号。所采集的音频信号中可能包含噪音以及说话人的音频。
在步骤S311中,对音频信号进行预处理。
作为可选实现,本申请实施例可将采集的音频信号进行时域至频域的转换等预处理过程。进一步的,预处理过程还可以在频域对音频信号进行幅值归一化处理等。也就是说,在可选实现中,音频信号的预处理过程包括但不限于:将音频信号由时域信号转换为频域信号、将转换为频域的音频信号进行幅值归一化处理等。
在步骤S312中,将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽。
在步骤S313中,根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽。
本申请实施例可将每一帧的音频信号,经过不同方向的波束形成处理(例如,每一帧的音频信号,在方向一、方向二、方向M等不同的方向进行波束形成处理),从而针对每一帧的音频信号的每一个频带,本申请实施例可在不同方向的波束形成区域对应不同的Mask,比如针对一帧音频信号的一个频带,一个方向的波束形成区域对应一个Mask。可选的,在计算Mask时,本申请实施例可利用信号处理或者深度学习模型的方法,针对每一帧的音频信号的每一个频带,计算出不同方向的波束形成区域对应的Mask。
例如,音频信号经过波束形成处理之后,针对音频信号的每一帧每一个time-frequency(即每一帧每一频带),可以在不同的波束形成方向分别计算出0至1的值,一个值可以视为是音频信号在一帧的一个频带上的一个波束形成方向对应的Mask;在一个示例中,如果有M个不同方向的波束形成,则一帧的音频信号在一个频带上存在M个不同Mask,其中,第m个方向(例如图1B所示的方向m)的波束形成区域对应的Mask可以表示为Maskm(ω,n),其中,n表示音频信号的帧数,ω表示所处的频带。
在得到音频信号在不同方向的波束形成区域对应的掩蔽后,本申请实施例可将这些不同方向的波束形成区域对应的掩蔽进行组合,从而得到组合掩蔽,该组合掩蔽可以视为是时频域(TF)spatial(空间)Mask(掩蔽)。例如,针对每一帧音频信号的每一个频带,将不同方向的波束形成区域对应的掩蔽进行组合,得到组合掩蔽。
作为可选实现,本申请实施例可将不同方向的波束形成区域对应的掩蔽组成为组合掩蔽,从而组合掩蔽包括音频信号在多个方向的波束形成区域对应的掩蔽。
在步骤S314中,根据所述组合掩蔽,确定说话人的声源定位结果。
可选的,在得到所述组合掩蔽后,本申请实施例可将所述组合掩蔽应用于声源定位算法(例如说话人定位算法)中,从而基于所述组合掩蔽,将噪声方向的音频信号的加权进行降低,将说话人方向的音频信号的加权进行提升,从而得出准确性更高的说话人的声源定位结果。比如,在执行基于SRP(Steered Response Power-Phase Transform,可控响应功率)的算法区域扫描时,本申请实施例可应用所述组合掩蔽,以实现在说话人定位算法中应用所述组合掩蔽。
本申请实施例提供的降噪方法,可在获取采集的音频信号后,对音频信号进行预处理,然后将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;从而,根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;进而,将所述组合掩蔽应用于声源定位算法法中,确定出说话人的声源定位结果。由于在基于所述组合掩蔽,确定说话人的声源定位结果的过程中,本申请实施例能够基于所述组合掩蔽,将噪声方向的音频信号的加权进行降低,将说话人方向的音频信号的加权进行提升,从而得出准确性更高的说话人的声源定位结果,因此本申请实施例可提升说话人定位算法的鲁棒性,提升说话定位算法的准确性。
为便于理解,图3B示例性的示出了本申请实施例实现声源定位的示例图,如图3B所示,一帧音频信号在一个频带上经过M个方向的波束形成处理之后,可输出方向1至方向M的波束形成,每个方向的波束形成确定出对应的TF-Mask;然后每个方向的波束形成对应的TF-Mask组成,TF spatial Mask(时频域空间掩蔽,即本申请实施例所指的组合掩蔽);TFspatial Mask应用于适应权重的声源定位算法,从而对噪声方向的音频信号的加权进行降低,对说话人方向的音频信号的加权进行提升,进而得出说话人方向(即说话人的声源定位结果)。
作为可选实现,在确定音频信号的频点的音频抑制比时,本申请实施例也可确定出音频信号在每一个频带的不同方向的波束形成区域对应的掩蔽,将该不同方向的波束形成区域对应的掩蔽,组成为组合掩蔽,进而将组合掩蔽作为音频信号的频点对应的音频抑制比。
在声源定位算法中应用本申请实施例提供的组合掩蔽的可选实现中,本申请实施例可在GCC-PHAT(Generalized Cross Correlation-Phase Transform,广义互相关函数-相位变换)和SRP-PHAT(Steered Response Power-Phase Transform,可控响应功率-相位变换)等方案中,应用所述组合掩蔽,以确定DOA(Direction of arrival,声源定位结果)。GCC-PHAT和SRP-PHAT等方案可以视为是声源定位算法的时延估计方案。
作为可选实现,在GCC算法中应用组合掩蔽时,本申请实施例可在进行第n帧音频信号的声源定位时,基于第n帧音频信号在所处频带上的组合掩蔽,选择一个方向的波束形成区域对应的Mask,以使得多个采集的第n帧音频信号之间的广义互相关函数(GCC)最大;其中,第n帧音频信号在所处频带的不同方向波束形成区域分别对应有Mask。
在一个示例中,以两个麦克风采集的音频信号为S1(ω,n)、S2(ω,n),并且应用于GCC-PHAT方案为例,本申请实施例可计算得到音频信号之间的GCC(Generalized CrossCorrelation,广义互相关函数),公式如下:
Figure BDA0003805251990000081
其中,d是两个麦克风的间距,c为声音传播的速度,j为常数,对于一个几何形状已经固定的阵列,这些参数均为常数。因此GCC-PHAT的原理就是在第n帧音频信号的声源定位时,找到一个θ让
Figure BDA0003805251990000082
最大(即找到一个方向使得音频信号S1(ω,n)和S2(ω,n)之间的GCC最大);基于此,本申请实施例可以利用已经计算出的Mask(ω,n)来改进GCC-PHAT的计算,具体公式如下:
Figure BDA0003805251990000083
其中,Maskθ(ω,n)是以θ为基础选择的合适的Mask,表示第n帧音频信号在所处的频带ω上,方向θ的波束形成区域对应的Mask;比如4个波束形成方向生成4个Mask,则举例假如候选θ是在波束2(45度-135度)的区间中选择,那么选择波束2对应的Mask2(ω,n)作为Maskθ(ω,n)。
也就是说,多个麦克风分别采集有频带ω上的第n帧音频信号,在计算多个麦克风采集的第n帧音频信号之间的GCC时,本申请实施例可基于第n帧音频信号在所处的频带ω上的组合掩蔽,选择方向θ的波束形成区域对应的Mask,从而使得所计算的GCC最大。由于在计算GCC时,Maskθ(ω,n)是根据麦克风阵列输入信号实时计算出来的权重,因此本申请实施例可以实现自适应权重的时延估计。
作为可选实现,GCC-PHAT可用于两个麦克风,对于麦克风数量为两个以上的时候,可使用SRP-PHAT方案;SRP-PHAT的定义公式如下:
Figure BDA0003805251990000091
其中,Δτlk(θ)是第l个麦克风和第k个麦克风之间的相对时延,此相对时延取决于入射信号的角度θ。由上述公式可以看出,SRP-PHAT就是对于任意两个成对麦克风信号Sl(ω,n)和Sk(ω,n)计算GCC-PHAT,然后对所有可能成对的麦克风信号(microphone pairs)的计算结果进行积分,从而寻找使所有麦克风信号最终的GCC-PHAT最大的候选θ,作为目标方向。
本申请实施例可在计算音频信号的可控响应功率(SRP)时,根据组合掩蔽,选择一个方向的波束形成区域对应的Mask,以对任意两个成对的麦克风信号计算广义互相关函数(GCC),并对所有成对的麦克风信号的计算结果进行积分,以使得所有麦克风信号最终的广义互相关函数最大。
本申请实施例实现自适应权重Mask的改进思路也可以同理用于SRP-PHAT方案中,SRP(n)的具体计算公式可以如下所示:
Figure BDA0003805251990000092
进一步的,由于SRP-PHAT类的方法可以等效于许多变种,比如beamscanalgorithms,beamscan algorithms用以估计DOA的公式如下:
Figure BDA0003805251990000093
其中,SRPbeamscan(ω,n,θ)的计算可以由一个指向θ方向的波束形成
Figure BDA0003805251990000094
和整个阵列的输入信号确定,例如按如下方法得到SRPbeamscan(ω,n,θ):
Figure BDA0003805251990000095
此处的
Figure BDA0003805251990000096
可以是基于麦克风阵列增强(Delay and sum beamforming)或者超定向波束形成(Superdirective beam forming)实现;
对于上述的SRP-PHAT变种进行时延估计技术定位时,也可以运用本申请实施例中的自适应权重Mask进行改进:
Figure BDA0003805251990000097
可以看出,本申请实施例将音频信号在不同方向的波束形成区域对应的Mask进行组合,从而得到组合Mask,用于基于SRP的算法区域扫描等声源定位算法中,进而将噪声方向的加权进行降低,将说话人的音频方向的加权进行提升,能够在声源定位算法中获得更为准确的声源定位结果。
为便于理解本申请实施例的方案优点,图4A示例性的示出了传统声源定位算法在低信噪比情况下的定位结果示例图,图4B示例性的示出了本申请实施例提供的方案在低信噪比情况下的定位结果示例图,可以看出,本申请实施例提供的方案在低信噪比情况下,具有更为准确的定位结果。
下面对本申请实施例提供的降噪装置进行介绍,下文描述的降噪装置可以是电子设备(例如麦克风阵列等音频设备)为实现本申请实施例提供的降噪方法所需设置的功能模块。下文描述的装置内容,可与上文描述的方法内容相互对应参照。
作为可选实现,图5示例性的示出了本申请实施例提供的降噪装置的框图,该装置可应用于电子设备,该装置可以包括:
信号获取模块511,用于获取采集的音频信号;
预处理模块512,用于对音频信号进行预处理;
波束形成及掩蔽确定模块513,用于将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;
组合确定模块514,用于根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;
结果确定模块515,用于根据所述组合掩蔽,确定说话人的声源定位结果。
可选的,针对每一帧音频信号的每一个频带,不同方向的波束形成区域分别对应有一个掩蔽;组合确定模块514,用于根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽包括:
针对每一帧音频信号的每一个频带,将不同方向的波束形成区域对应的掩蔽组成为组合掩蔽。
可选的,结果确定模块515,用于根据所述组合掩蔽,确定说话人的声源定位结果包括:
将所述组合掩蔽应用于声源定位算法,以基于所述组合掩蔽,降低噪声方向的音频信号的加权,提升说话人方向的音频信号的加权,得出说话人的声源定位结果。
在一些实施例中,结果确定模块515,用于将所述组合掩蔽应用于声源定位算法包括:
在进行第n帧音频信号的声源定位时,基于第n帧音频信号在所处频带上的组合掩蔽,选择一个方向的波束形成区域对应的掩蔽,以使得多个采集的第n帧音频信号之间的广义互相关函数最大。
在一些实施例中,结果确定模块515,用于在进行第n帧音频信号的声源定位时,基于第n帧音频信号在所处频带上的组合掩蔽,选择一个方向的波束形成区域对应的掩蔽,以使得多个采集的第n帧音频信号之间的广义互相关函数最大包括:
根据如下公式确定多个采集的第n帧音频信号之间最大的广义互相关函数:
Figure BDA0003805251990000111
其中,GCC表示广义互相关函数,n表示音频信号的帧数,ω表示所处的频带,θ为选择的一个方向,多个麦克风分别采集有频带ω上第n帧的音频信号;Maskθnω,n)表示第n帧音频信号在所处的频带ω上,方向θ波束形成区域对应的掩蔽。
在一些实施例中,结果确定模块515,用于将所述组合掩蔽应用于声源定位算法包括:
在执行基于可控响应功率的算法区域扫描时,应用所述组合掩蔽。
在一些实施例中,结果确定模块515,用于在执行基于可控响应功率的算法区域扫描时,应用所述组合掩蔽包括:
在计算音频信号的可控响应功率时,根据组合掩蔽,选择一个方向的波束形成区域对应的Mask,以对任意两个成对的麦克风信号计算广义互相关函数,并对所有成对的麦克风信号的计算结果进行积分,以使得所有麦克风信号最终的广义互相关函数最大。
在一些实施例中,预处理模块512,用于对音频信号进行预处理包括:
将音频信号由时域信号转换为频域信号;
将转换为频域的音频信号进行幅值归一化处理。
进一步的,本申请实施例还提供一种电子设备,例如麦克风阵列等音频设备,该电子设备可以设置本申请实施例上述提供的任一种降噪装置,以实现本申请实施例提供的降噪方法。可选的,图6示例性的示出了电子设备的可选框图,如图6所示,该电子设备可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4。
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信。
可选的,通信接口2可以为用于进行网络通信的通信模块的接口。
可选的,处理器1可能是CPU,GPU(Graphics Processing Unit,图形处理器),NPU(嵌入式神经网络处理器),FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列),TPU(张量处理单元),AI芯片,特定集成电路ASIC(Application Specific IntegratedCircuit),或者是被配置成实施本申请实施例的一个或多个集成电路等。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,存储器3存储一条或多条计算机可执行指令,处理器1调用所述一条或多条计算机可执行指令,以执行本申请实施例提供的降噪方法。
进一步的,本申请实施例还提供一种存储介质,该存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时,实现如本申请实施例提供的降噪方法。
进一步的,本申请实施例还提供一种计算机程序,该计算机程序被执行时,实现如本申请实施例提供的降噪方法。
上文描述了本申请实施例提供的多个实施例方案,各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用,从而延伸出多种可能的实施例方案,这些均可认为是本申请实施例披露、公开的实施例方案。
虽然本申请实施例披露如上,但本申请并非限定于此。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各种更动与修改,因此本申请的保护范围应当以权利要求所限定的范围为准。

Claims (10)

1.一种降噪方法,其中,包括:
获取采集的音频信号;
对音频信号进行预处理;
将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;
根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;
根据所述组合掩蔽,确定说话人的声源定位结果。
2.根据权利要求1所述的方法,其中,针对每一帧音频信号的每一个频带,不同方向的波束形成区域分别对应有一个掩蔽;所述根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽包括:
针对每一帧音频信号的每一个频带,将不同方向的波束形成区域对应的掩蔽组成为组合掩蔽。
3.根据权利要求1所述的方法,其中,所述根据所述组合掩蔽,确定说话人的声源定位结果包括:
将所述组合掩蔽应用于声源定位算法,以基于所述组合掩蔽,降低噪声方向的音频信号的加权,提升说话人方向的音频信号的加权,得出说话人的声源定位结果。
4.根据权利要求3所述的方法,其中,所述将所述组合掩蔽应用于声源定位算法包括:
在进行第n帧音频信号的声源定位时,基于第n帧音频信号在所处频带上的组合掩蔽,选择一个方向的波束形成区域对应的掩蔽,以使得多个采集的第n帧音频信号之间的广义互相关函数最大。
5.根据权利要求4所述的方法,其中,所述在进行第n帧音频信号的声源定位时,基于第n帧音频信号在所处频带上的组合掩蔽,选择一个方向的波束形成区域对应的掩蔽,以使得多个采集的第n帧音频信号之间的广义互相关函数最大包括:
根据如下公式确定多个采集的第n帧音频信号之间最大的广义互相关函数:
Figure FDA0003805251980000021
其中,GCC表示广义互相关函数,n表示音频信号的帧数,ω表示所处的频带,θ为选择的一个方向,多个麦克风分别采集有频带ω上第n帧的音频信号;Maskθ(ω,n)表示第n帧音频信号在所处的频带ω上,方向θ的区域对应的掩蔽。
6.根据权利要求3所述的方法,其中,所述将所述组合掩蔽应用于声源定位算法包括:
在执行基于可控响应功率的算法区域扫描时,应用所述组合掩蔽。
7.根据权利要求6所述的方法,其中,所述在执行基于可控响应功率的算法区域扫描时,应用所述组合掩蔽包括:
在计算音频信号的可控响应功率时,根据组合掩蔽,选择一个方向的波束形成区域对应的掩蔽,以对任意两个成对的麦克风信号计算广义互相关函数,并对所有成对的麦克风信号的计算结果进行积分,以使得所有麦克风信号最终的广义互相关函数最大。
8.根据权利要求1所述的方法,其中,所述对音频信号进行预处理包括:
将音频信号由时域信号转换为频域信号;
将转换为频域的音频信号进行幅值归一化处理。
9.一种电子设备,其中,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如权利要求1-8任一项所述的降噪方法。
10.一种存储介质,其中,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时,实现如权利要求1-8任一项所述的降噪方法。
CN202210994986.3A 2022-03-22 2022-08-18 一种降噪方法、电子设备及存储介质 Pending CN115457971A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022102847214 2022-03-22
CN202210284721 2022-03-22

Publications (1)

Publication Number Publication Date
CN115457971A true CN115457971A (zh) 2022-12-09

Family

ID=83925287

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210993912.8A Pending CN115331692A (zh) 2022-03-22 2022-08-18 一种降噪方法、电子设备及存储介质
CN202210994986.3A Pending CN115457971A (zh) 2022-03-22 2022-08-18 一种降噪方法、电子设备及存储介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210993912.8A Pending CN115331692A (zh) 2022-03-22 2022-08-18 一种降噪方法、电子设备及存储介质

Country Status (1)

Country Link
CN (2) CN115331692A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116609726A (zh) * 2023-05-11 2023-08-18 钉钉(中国)信息技术有限公司 一种声源定位方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115831141B (zh) * 2023-02-02 2023-05-09 小米汽车科技有限公司 车载语音的降噪方法、装置、车辆及存储介质
CN116884429B (zh) * 2023-09-05 2024-01-16 深圳市极客空间科技有限公司 一种基于信号增强的音频处理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116609726A (zh) * 2023-05-11 2023-08-18 钉钉(中国)信息技术有限公司 一种声源定位方法及装置

Also Published As

Publication number Publication date
CN115331692A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN115457971A (zh) 一种降噪方法、电子设备及存储介质
US9837099B1 (en) Method and system for beam selection in microphone array beamformers
US9100734B2 (en) Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
KR101456866B1 (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
CN111044973B (zh) 一种用于麦克风方阵的mvdr目标声源定向拾音方法
US9654894B2 (en) Selective audio source enhancement
US8891785B2 (en) Processing signals
US20080270131A1 (en) Method, preprocessor, speech recognition system, and program product for extracting target speech by removing noise
US9232309B2 (en) Microphone array processing system
US20100217590A1 (en) Speaker localization system and method
JP7041157B6 (ja) ビームフォーミングを使用するオーディオキャプチャ
CN105376673A (zh) 基于空间分析的麦克风阵列处理器
Li et al. Geometrically constrained independent vector analysis for directional speech enhancement
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN110830870B (zh) 一种基于传声器技术的耳机佩戴者语音活动检测系统
CN110827846B (zh) 采用加权叠加合成波束的语音降噪方法及装置
Li et al. Online Directional Speech Enhancement Using Geometrically Constrained Independent Vector Analysis.
US11546691B2 (en) Binaural beamforming microphone array
Zohourian et al. GSC-based binaural speaker separation preserving spatial cues
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
CN113132519B (zh) 电子设备、电子设备的语音识别方法及存储介质
Zohourian et al. Multi-channel speaker localization and separation using a model-based GSC and an inertial measurement unit
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质
CN117037836B (zh) 基于信号协方差矩阵重构的实时声源分离方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination