CN115457971A - 一种降噪方法、电子设备及存储介质 - Google Patents
一种降噪方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115457971A CN115457971A CN202210994986.3A CN202210994986A CN115457971A CN 115457971 A CN115457971 A CN 115457971A CN 202210994986 A CN202210994986 A CN 202210994986A CN 115457971 A CN115457971 A CN 115457971A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- combined
- mask
- masking
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000009467 reduction Effects 0.000 title claims abstract description 27
- 230000005236 sound signal Effects 0.000 claims abstract description 115
- 230000000873 masking effect Effects 0.000 claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 40
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000004807 localization Effects 0.000 claims description 31
- 238000005314 correlation function Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本申请实施例提供一种降噪方法、电子设备及存储介质,其中方法包括:获取采集的音频信号;对音频信号进行预处理;将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;根据所述组合掩蔽,确定说话人的声源定位结果。本申请实施例能够基于组合掩蔽,将噪声方向的音频信号的加权进行降低,将说话人方向的音频信号的加权进行提升,本申请实施例可提升说话人定位算法的鲁棒性,提升说话定位算法的准确性。
Description
技术领域
本申请实施例涉及音频技术领域,具体涉及一种降噪方法、电子设备及存储介质。
背景技术
音视频会议、语音通话等音频交互场景下需要进行说话人定位,说话人定位是指对通过麦克风阵列等音频设备接收到的音频信号确定声源位置,从而确定出当前说话人的位置。
然而,音频设备接收到的音频信号中可能存在说话人的音频和噪音,因此在进行说话人定位时,如何有效的抑制噪音,从而提高说话人定位算法的鲁棒性,成为了本领域技术人员亟需解决的技术问题。
发明内容
有鉴于此,本申请实施例提供一种降噪方法、电子设备及存储介质,以有效的抑制噪音,提高说话人定位算法的鲁棒性。
为实现上述目的,本申请实施例提供如下技术方案。
第一方面,本申请实施例提供一种降噪方法,包括:
获取采集的音频信号;
对音频信号进行预处理;
将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;
根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;
根据所述组合掩蔽,确定说话人的声源定位结果。
第二方面,本申请实施例提供电子设备,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如上述第一方面所述的降噪方法。
第三方面,本申请实施例提供一种存储介质,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时,实现如上述第一方面所述的降噪方法。
第四方面,本申请实施例提供一种计算机程序,该计算机程序被执行时实现如上述第一方面所述的降噪方法。
本申请实施例提供的降噪方法,可在获取采集的音频信号后,对音频信号进行预处理,然后将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;从而,根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;进而,将所述组合掩蔽应用于声源定位算法法中,确定出说话人的声源定位结果。由于在基于所述组合掩蔽,确定说话人的声源定位结果的过程中,本申请实施例能够基于所述组合掩蔽,将噪声方向的音频信号的加权进行降低,将说话人方向的音频信号的加权进行提升,从而得出准确性更高的说话人的声源定位结果,因此本申请实施例可提升说话人定位算法的鲁棒性,提升说话定位算法的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1A为线性阵列的波束形成示例图。
图1B为环形阵列的波束形成示例图。
图2A为音频的频谱示例图。
图2B为噪声方向的波束形成示例图。
图2C为说话人方向的波束形成示例图。
图2D为TF-Mask的示例图。
图2E为TF-Mask的另一示例图。
图3A为本申请实施例提供的降噪方法的流程图。
图3B为本申请实施例实现声源定位的示例图。
图4A为传统声源定位算法在低信噪比情况下的定位结果示例图。
图4B为本申请实施例提供的方案在低信噪比情况下的定位结果示例图。
图5为本申请实施例提供的降噪装置的框图。
图6为电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
音视频会议等音频交互场景中,准确的进行说话人定位能够更好地支持音频拾音算法和视频导播功能。目前通常是基于音频到达麦克风阵列上的不同麦克风的时间/相位差,来进行说话人定位,因此说话人定位方案通常是建立在声学环境良好的情况下(比如安静场景)。然而,实际的音频交互场景更偏向于含有噪音的复杂场景,因此在含有噪音的复杂场景下,说话人定位方案的鲁棒性有待提升。
对于音视频会议等音频交互场景而言,在进行说话人定位时,如何对噪音进行有效的抑制,对于说话人定位算法的鲁棒性收敛具有重要意义。也就是说,鲁棒性可收敛为如何在不同噪声类型下准确的进行说话人定位。
需要说明的是,在进行说话人定位时,可通过音频采集阵列(例如麦克风阵列)采集音频信号,音频采集阵列可以是线性阵列或者环形阵列。线性阵列和环形阵列均可以具有多个方向的波束形成(Beam forming),该多个方向的波束形成可以为M个方向的波束形成,包括方向一的波束形成、方向二的波束形成至方向M的波束形成。
针对线性阵列,作为一个示例,图1A示例性的示出了线性阵列的波束形成示例图,具体的,图1A示例性的示出了线性阵列在方向一、方向二至方向M的波束形成,可进行参照。针对环形阵列,图1B示例性的示出了环形阵列的波束形成示例图,具体的,图1B示例性的示出了环形阵列在方向一、方向二至方向M的波束形成(Beam forming),可进行参照。
另外需要说明的是,噪音源和说话人声源一般不在同一个方向,并且噪音源的能量较强时,会出现低信噪比的情况和声源定位处理结果(例如说话定位算法的处理结果)指向噪音源的情况,从而导致说话定位算法的准确性较低。
基于此,本申请实施例提供改进的降噪方案,以对噪音进行有效的抑制,提高说话人定位算法的鲁棒性,提升说话人定位算法的准确性。
为便于理解,以一段低信噪比的真实录音为例,在低信噪比情况下,麦克风阵列的每一个音频被噪音覆盖,经过STFT(Short-Time Fourier Transform,短时傅里叶变换)之后的频谱(每一帧为10毫秒,大概1000帧)可如图2A所示,图2A为音频的频谱示例图。图2A所示的音频频谱在经过不同方向的波束形成处理之后(例如经过方向一、方向二和方向M的波束形成处理之后),噪声方向的波束形成输出可以如图2B所示,说话人方向的波束形成输出可以如图2C所示。
进一步的,图2B所示的噪声方向的波束形成示例所对应的TF-Mask可以如图2D所示,图2D可以视为是TF-Mask的一种示例图。图2C所示的说话人方向的波束形成示例所对应的TF-Mask可以如图2E所示,图2E可以视为是TF-Mask的另一种示例图。
需要说明的是,TF-Mask为Time-Frequency Mask(时频域掩蔽),简称为掩蔽(Mask),即每个Time-Frequency(时频域)点存在一个表示音频抑制比的值,0代表全是噪音,在说话人定位时需要进行抑制,1代表全是语音,在说话人定位时需要进行保留,Mask的值范围在0.0至1.0之间。
在确定TF-Mask的实现上,可以基于信号处理算法(minimum statistics,iMCRA)等诸多算法进行稳态噪声估计,也可以基于深度学习进行数据驱动的方法获得稳态噪声或者非稳态噪声估计,又或者两者都可以使用,然后再进行噪声估计的融合得到最终的TF-Mask。
通过图2A至图2E所示可以看出,针对音频频谱的每一帧的每一个频带,不同方向的波束形成区域具有不同的Mask;因此本申请实施例可将不同方向的波束形成区域所对应的Mask进行结合,从而在说话人定位算法中降低噪音方向的加权(weighting),提升说话人音频方向的加权,从而提升说话定位算法的准确性。
基于上述思路,作为可选实现,图3A示例性的示出了本申请实施例提供的降噪方法的可选流程图。该方法流程可由音频设备执行实现,音频设备例如麦克风阵列等具有音频采集和处理能力的设备。参照图3A,该方法流程可以包括如下步骤。
在步骤S310中,获取采集的音频信号。
作为可选实现,本申请实施例可使用麦克风阵列等音频设备,采集音频信号。所采集的音频信号中可能包含噪音以及说话人的音频。
在步骤S311中,对音频信号进行预处理。
作为可选实现,本申请实施例可将采集的音频信号进行时域至频域的转换等预处理过程。进一步的,预处理过程还可以在频域对音频信号进行幅值归一化处理等。也就是说,在可选实现中,音频信号的预处理过程包括但不限于:将音频信号由时域信号转换为频域信号、将转换为频域的音频信号进行幅值归一化处理等。
在步骤S312中,将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽。
在步骤S313中,根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽。
本申请实施例可将每一帧的音频信号,经过不同方向的波束形成处理(例如,每一帧的音频信号,在方向一、方向二、方向M等不同的方向进行波束形成处理),从而针对每一帧的音频信号的每一个频带,本申请实施例可在不同方向的波束形成区域对应不同的Mask,比如针对一帧音频信号的一个频带,一个方向的波束形成区域对应一个Mask。可选的,在计算Mask时,本申请实施例可利用信号处理或者深度学习模型的方法,针对每一帧的音频信号的每一个频带,计算出不同方向的波束形成区域对应的Mask。
例如,音频信号经过波束形成处理之后,针对音频信号的每一帧每一个time-frequency(即每一帧每一频带),可以在不同的波束形成方向分别计算出0至1的值,一个值可以视为是音频信号在一帧的一个频带上的一个波束形成方向对应的Mask;在一个示例中,如果有M个不同方向的波束形成,则一帧的音频信号在一个频带上存在M个不同Mask,其中,第m个方向(例如图1B所示的方向m)的波束形成区域对应的Mask可以表示为Maskm(ω,n),其中,n表示音频信号的帧数,ω表示所处的频带。
在得到音频信号在不同方向的波束形成区域对应的掩蔽后,本申请实施例可将这些不同方向的波束形成区域对应的掩蔽进行组合,从而得到组合掩蔽,该组合掩蔽可以视为是时频域(TF)spatial(空间)Mask(掩蔽)。例如,针对每一帧音频信号的每一个频带,将不同方向的波束形成区域对应的掩蔽进行组合,得到组合掩蔽。
作为可选实现,本申请实施例可将不同方向的波束形成区域对应的掩蔽组成为组合掩蔽,从而组合掩蔽包括音频信号在多个方向的波束形成区域对应的掩蔽。
在步骤S314中,根据所述组合掩蔽,确定说话人的声源定位结果。
可选的,在得到所述组合掩蔽后,本申请实施例可将所述组合掩蔽应用于声源定位算法(例如说话人定位算法)中,从而基于所述组合掩蔽,将噪声方向的音频信号的加权进行降低,将说话人方向的音频信号的加权进行提升,从而得出准确性更高的说话人的声源定位结果。比如,在执行基于SRP(Steered Response Power-Phase Transform,可控响应功率)的算法区域扫描时,本申请实施例可应用所述组合掩蔽,以实现在说话人定位算法中应用所述组合掩蔽。
本申请实施例提供的降噪方法,可在获取采集的音频信号后,对音频信号进行预处理,然后将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;从而,根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;进而,将所述组合掩蔽应用于声源定位算法法中,确定出说话人的声源定位结果。由于在基于所述组合掩蔽,确定说话人的声源定位结果的过程中,本申请实施例能够基于所述组合掩蔽,将噪声方向的音频信号的加权进行降低,将说话人方向的音频信号的加权进行提升,从而得出准确性更高的说话人的声源定位结果,因此本申请实施例可提升说话人定位算法的鲁棒性,提升说话定位算法的准确性。
为便于理解,图3B示例性的示出了本申请实施例实现声源定位的示例图,如图3B所示,一帧音频信号在一个频带上经过M个方向的波束形成处理之后,可输出方向1至方向M的波束形成,每个方向的波束形成确定出对应的TF-Mask;然后每个方向的波束形成对应的TF-Mask组成,TF spatial Mask(时频域空间掩蔽,即本申请实施例所指的组合掩蔽);TFspatial Mask应用于适应权重的声源定位算法,从而对噪声方向的音频信号的加权进行降低,对说话人方向的音频信号的加权进行提升,进而得出说话人方向(即说话人的声源定位结果)。
作为可选实现,在确定音频信号的频点的音频抑制比时,本申请实施例也可确定出音频信号在每一个频带的不同方向的波束形成区域对应的掩蔽,将该不同方向的波束形成区域对应的掩蔽,组成为组合掩蔽,进而将组合掩蔽作为音频信号的频点对应的音频抑制比。
在声源定位算法中应用本申请实施例提供的组合掩蔽的可选实现中,本申请实施例可在GCC-PHAT(Generalized Cross Correlation-Phase Transform,广义互相关函数-相位变换)和SRP-PHAT(Steered Response Power-Phase Transform,可控响应功率-相位变换)等方案中,应用所述组合掩蔽,以确定DOA(Direction of arrival,声源定位结果)。GCC-PHAT和SRP-PHAT等方案可以视为是声源定位算法的时延估计方案。
作为可选实现,在GCC算法中应用组合掩蔽时,本申请实施例可在进行第n帧音频信号的声源定位时,基于第n帧音频信号在所处频带上的组合掩蔽,选择一个方向的波束形成区域对应的Mask,以使得多个采集的第n帧音频信号之间的广义互相关函数(GCC)最大;其中,第n帧音频信号在所处频带的不同方向波束形成区域分别对应有Mask。
在一个示例中,以两个麦克风采集的音频信号为S1(ω,n)、S2(ω,n),并且应用于GCC-PHAT方案为例,本申请实施例可计算得到音频信号之间的GCC(Generalized CrossCorrelation,广义互相关函数),公式如下:
其中,d是两个麦克风的间距,c为声音传播的速度,j为常数,对于一个几何形状已经固定的阵列,这些参数均为常数。因此GCC-PHAT的原理就是在第n帧音频信号的声源定位时,找到一个θ让最大(即找到一个方向使得音频信号S1(ω,n)和S2(ω,n)之间的GCC最大);基于此,本申请实施例可以利用已经计算出的Mask(ω,n)来改进GCC-PHAT的计算,具体公式如下:
其中,Maskθ(ω,n)是以θ为基础选择的合适的Mask,表示第n帧音频信号在所处的频带ω上,方向θ的波束形成区域对应的Mask;比如4个波束形成方向生成4个Mask,则举例假如候选θ是在波束2(45度-135度)的区间中选择,那么选择波束2对应的Mask2(ω,n)作为Maskθ(ω,n)。
也就是说,多个麦克风分别采集有频带ω上的第n帧音频信号,在计算多个麦克风采集的第n帧音频信号之间的GCC时,本申请实施例可基于第n帧音频信号在所处的频带ω上的组合掩蔽,选择方向θ的波束形成区域对应的Mask,从而使得所计算的GCC最大。由于在计算GCC时,Maskθ(ω,n)是根据麦克风阵列输入信号实时计算出来的权重,因此本申请实施例可以实现自适应权重的时延估计。
作为可选实现,GCC-PHAT可用于两个麦克风,对于麦克风数量为两个以上的时候,可使用SRP-PHAT方案;SRP-PHAT的定义公式如下:
其中,Δτlk(θ)是第l个麦克风和第k个麦克风之间的相对时延,此相对时延取决于入射信号的角度θ。由上述公式可以看出,SRP-PHAT就是对于任意两个成对麦克风信号Sl(ω,n)和Sk(ω,n)计算GCC-PHAT,然后对所有可能成对的麦克风信号(microphone pairs)的计算结果进行积分,从而寻找使所有麦克风信号最终的GCC-PHAT最大的候选θ,作为目标方向。
本申请实施例可在计算音频信号的可控响应功率(SRP)时,根据组合掩蔽,选择一个方向的波束形成区域对应的Mask,以对任意两个成对的麦克风信号计算广义互相关函数(GCC),并对所有成对的麦克风信号的计算结果进行积分,以使得所有麦克风信号最终的广义互相关函数最大。
本申请实施例实现自适应权重Mask的改进思路也可以同理用于SRP-PHAT方案中,SRP(n)的具体计算公式可以如下所示:
进一步的,由于SRP-PHAT类的方法可以等效于许多变种,比如beamscanalgorithms,beamscan algorithms用以估计DOA的公式如下:
其中,SRPbeamscan(ω,n,θ)的计算可以由一个指向θ方向的波束形成和整个阵列的输入信号确定,例如按如下方法得到SRPbeamscan(ω,n,θ):此处的可以是基于麦克风阵列增强(Delay and sum beamforming)或者超定向波束形成(Superdirective beam forming)实现;
对于上述的SRP-PHAT变种进行时延估计技术定位时,也可以运用本申请实施例中的自适应权重Mask进行改进:
可以看出,本申请实施例将音频信号在不同方向的波束形成区域对应的Mask进行组合,从而得到组合Mask,用于基于SRP的算法区域扫描等声源定位算法中,进而将噪声方向的加权进行降低,将说话人的音频方向的加权进行提升,能够在声源定位算法中获得更为准确的声源定位结果。
为便于理解本申请实施例的方案优点,图4A示例性的示出了传统声源定位算法在低信噪比情况下的定位结果示例图,图4B示例性的示出了本申请实施例提供的方案在低信噪比情况下的定位结果示例图,可以看出,本申请实施例提供的方案在低信噪比情况下,具有更为准确的定位结果。
下面对本申请实施例提供的降噪装置进行介绍,下文描述的降噪装置可以是电子设备(例如麦克风阵列等音频设备)为实现本申请实施例提供的降噪方法所需设置的功能模块。下文描述的装置内容,可与上文描述的方法内容相互对应参照。
作为可选实现,图5示例性的示出了本申请实施例提供的降噪装置的框图,该装置可应用于电子设备,该装置可以包括:
信号获取模块511,用于获取采集的音频信号;
预处理模块512,用于对音频信号进行预处理;
波束形成及掩蔽确定模块513,用于将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;
组合确定模块514,用于根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;
结果确定模块515,用于根据所述组合掩蔽,确定说话人的声源定位结果。
可选的,针对每一帧音频信号的每一个频带,不同方向的波束形成区域分别对应有一个掩蔽;组合确定模块514,用于根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽包括:
针对每一帧音频信号的每一个频带,将不同方向的波束形成区域对应的掩蔽组成为组合掩蔽。
可选的,结果确定模块515,用于根据所述组合掩蔽,确定说话人的声源定位结果包括:
将所述组合掩蔽应用于声源定位算法,以基于所述组合掩蔽,降低噪声方向的音频信号的加权,提升说话人方向的音频信号的加权,得出说话人的声源定位结果。
在一些实施例中,结果确定模块515,用于将所述组合掩蔽应用于声源定位算法包括:
在进行第n帧音频信号的声源定位时,基于第n帧音频信号在所处频带上的组合掩蔽,选择一个方向的波束形成区域对应的掩蔽,以使得多个采集的第n帧音频信号之间的广义互相关函数最大。
在一些实施例中,结果确定模块515,用于在进行第n帧音频信号的声源定位时,基于第n帧音频信号在所处频带上的组合掩蔽,选择一个方向的波束形成区域对应的掩蔽,以使得多个采集的第n帧音频信号之间的广义互相关函数最大包括:
根据如下公式确定多个采集的第n帧音频信号之间最大的广义互相关函数:
其中,GCC表示广义互相关函数,n表示音频信号的帧数,ω表示所处的频带,θ为选择的一个方向,多个麦克风分别采集有频带ω上第n帧的音频信号;Maskθnω,n)表示第n帧音频信号在所处的频带ω上,方向θ波束形成区域对应的掩蔽。
在一些实施例中,结果确定模块515,用于将所述组合掩蔽应用于声源定位算法包括:
在执行基于可控响应功率的算法区域扫描时,应用所述组合掩蔽。
在一些实施例中,结果确定模块515,用于在执行基于可控响应功率的算法区域扫描时,应用所述组合掩蔽包括:
在计算音频信号的可控响应功率时,根据组合掩蔽,选择一个方向的波束形成区域对应的Mask,以对任意两个成对的麦克风信号计算广义互相关函数,并对所有成对的麦克风信号的计算结果进行积分,以使得所有麦克风信号最终的广义互相关函数最大。
在一些实施例中,预处理模块512,用于对音频信号进行预处理包括:
将音频信号由时域信号转换为频域信号;
将转换为频域的音频信号进行幅值归一化处理。
进一步的,本申请实施例还提供一种电子设备,例如麦克风阵列等音频设备,该电子设备可以设置本申请实施例上述提供的任一种降噪装置,以实现本申请实施例提供的降噪方法。可选的,图6示例性的示出了电子设备的可选框图,如图6所示,该电子设备可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4。
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信。
可选的,通信接口2可以为用于进行网络通信的通信模块的接口。
可选的,处理器1可能是CPU,GPU(Graphics Processing Unit,图形处理器),NPU(嵌入式神经网络处理器),FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列),TPU(张量处理单元),AI芯片,特定集成电路ASIC(Application Specific IntegratedCircuit),或者是被配置成实施本申请实施例的一个或多个集成电路等。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,存储器3存储一条或多条计算机可执行指令,处理器1调用所述一条或多条计算机可执行指令,以执行本申请实施例提供的降噪方法。
进一步的,本申请实施例还提供一种存储介质,该存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时,实现如本申请实施例提供的降噪方法。
进一步的,本申请实施例还提供一种计算机程序,该计算机程序被执行时,实现如本申请实施例提供的降噪方法。
上文描述了本申请实施例提供的多个实施例方案,各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用,从而延伸出多种可能的实施例方案,这些均可认为是本申请实施例披露、公开的实施例方案。
虽然本申请实施例披露如上,但本申请并非限定于此。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各种更动与修改,因此本申请的保护范围应当以权利要求所限定的范围为准。
Claims (10)
1.一种降噪方法,其中,包括:
获取采集的音频信号;
对音频信号进行预处理;
将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;
根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;
根据所述组合掩蔽,确定说话人的声源定位结果。
2.根据权利要求1所述的方法,其中,针对每一帧音频信号的每一个频带,不同方向的波束形成区域分别对应有一个掩蔽;所述根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽包括:
针对每一帧音频信号的每一个频带,将不同方向的波束形成区域对应的掩蔽组成为组合掩蔽。
3.根据权利要求1所述的方法,其中,所述根据所述组合掩蔽,确定说话人的声源定位结果包括:
将所述组合掩蔽应用于声源定位算法,以基于所述组合掩蔽,降低噪声方向的音频信号的加权,提升说话人方向的音频信号的加权,得出说话人的声源定位结果。
4.根据权利要求3所述的方法,其中,所述将所述组合掩蔽应用于声源定位算法包括:
在进行第n帧音频信号的声源定位时,基于第n帧音频信号在所处频带上的组合掩蔽,选择一个方向的波束形成区域对应的掩蔽,以使得多个采集的第n帧音频信号之间的广义互相关函数最大。
6.根据权利要求3所述的方法,其中,所述将所述组合掩蔽应用于声源定位算法包括:
在执行基于可控响应功率的算法区域扫描时,应用所述组合掩蔽。
7.根据权利要求6所述的方法,其中,所述在执行基于可控响应功率的算法区域扫描时,应用所述组合掩蔽包括:
在计算音频信号的可控响应功率时,根据组合掩蔽,选择一个方向的波束形成区域对应的掩蔽,以对任意两个成对的麦克风信号计算广义互相关函数,并对所有成对的麦克风信号的计算结果进行积分,以使得所有麦克风信号最终的广义互相关函数最大。
8.根据权利要求1所述的方法,其中,所述对音频信号进行预处理包括:
将音频信号由时域信号转换为频域信号;
将转换为频域的音频信号进行幅值归一化处理。
9.一种电子设备,其中,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如权利要求1-8任一项所述的降噪方法。
10.一种存储介质,其中,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时,实现如权利要求1-8任一项所述的降噪方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022102847214 | 2022-03-22 | ||
CN202210284721 | 2022-03-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115457971A true CN115457971A (zh) | 2022-12-09 |
Family
ID=83925287
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210993912.8A Pending CN115331692A (zh) | 2022-03-22 | 2022-08-18 | 一种降噪方法、电子设备及存储介质 |
CN202210994986.3A Pending CN115457971A (zh) | 2022-03-22 | 2022-08-18 | 一种降噪方法、电子设备及存储介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210993912.8A Pending CN115331692A (zh) | 2022-03-22 | 2022-08-18 | 一种降噪方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN115331692A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116609726A (zh) * | 2023-05-11 | 2023-08-18 | 钉钉(中国)信息技术有限公司 | 一种声源定位方法及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115831141B (zh) * | 2023-02-02 | 2023-05-09 | 小米汽车科技有限公司 | 车载语音的降噪方法、装置、车辆及存储介质 |
CN116884429B (zh) * | 2023-09-05 | 2024-01-16 | 深圳市极客空间科技有限公司 | 一种基于信号增强的音频处理方法 |
-
2022
- 2022-08-18 CN CN202210993912.8A patent/CN115331692A/zh active Pending
- 2022-08-18 CN CN202210994986.3A patent/CN115457971A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116609726A (zh) * | 2023-05-11 | 2023-08-18 | 钉钉(中国)信息技术有限公司 | 一种声源定位方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115331692A (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7011075B2 (ja) | マイク・アレイに基づく対象音声取得方法及び装置 | |
CN115457971A (zh) | 一种降噪方法、电子设备及存储介质 | |
US9837099B1 (en) | Method and system for beam selection in microphone array beamformers | |
US9100734B2 (en) | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation | |
KR101456866B1 (ko) | 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치 | |
CN111044973B (zh) | 一种用于麦克风方阵的mvdr目标声源定向拾音方法 | |
US9654894B2 (en) | Selective audio source enhancement | |
US8891785B2 (en) | Processing signals | |
US20080270131A1 (en) | Method, preprocessor, speech recognition system, and program product for extracting target speech by removing noise | |
US9232309B2 (en) | Microphone array processing system | |
US20100217590A1 (en) | Speaker localization system and method | |
JP7041157B6 (ja) | ビームフォーミングを使用するオーディオキャプチャ | |
CN105376673A (zh) | 基于空间分析的麦克风阵列处理器 | |
Li et al. | Geometrically constrained independent vector analysis for directional speech enhancement | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
CN110830870B (zh) | 一种基于传声器技术的耳机佩戴者语音活动检测系统 | |
CN110827846B (zh) | 采用加权叠加合成波束的语音降噪方法及装置 | |
Li et al. | Online Directional Speech Enhancement Using Geometrically Constrained Independent Vector Analysis. | |
US11546691B2 (en) | Binaural beamforming microphone array | |
Zohourian et al. | GSC-based binaural speaker separation preserving spatial cues | |
CN113223552B (zh) | 语音增强方法、装置、设备、存储介质及程序 | |
CN113132519B (zh) | 电子设备、电子设备的语音识别方法及存储介质 | |
Zohourian et al. | Multi-channel speaker localization and separation using a model-based GSC and an inertial measurement unit | |
CN114242104A (zh) | 语音降噪的方法、装置、设备及存储介质 | |
CN117037836B (zh) | 基于信号协方差矩阵重构的实时声源分离方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |