CN113064118A - 声源定位方法和装置 - Google Patents
声源定位方法和装置 Download PDFInfo
- Publication number
- CN113064118A CN113064118A CN202110295354.3A CN202110295354A CN113064118A CN 113064118 A CN113064118 A CN 113064118A CN 202110295354 A CN202110295354 A CN 202110295354A CN 113064118 A CN113064118 A CN 113064118A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- signal
- target
- target audio
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000005236 sound signal Effects 0.000 claims abstract description 211
- 238000001228 spectrum Methods 0.000 claims abstract description 195
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims description 36
- 230000004807 localization Effects 0.000 claims description 24
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000007635 classification algorithm Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 238000004891 communication Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 12
- 238000013136 deep learning model Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000009467 reduction Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/86—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for eliminating undesired waves, e.g. disturbing noises
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
Abstract
本申请公开了一种声源定位方法和装置,属于通信技术领域。该方法主要包括接收目标音频信号,目标音频信号包括噪声音频信号;根据目标音频信号,确定与目标音频信号对应的第一信号空间谱,第一信号空间谱用于表征目标音频信号的音频信号空间能量的分布状态;通过噪声音频信号对应的噪声空间谱,对第一信号空间谱进行去干扰处理,得到第二信号空间谱;根据第二信号空间谱中目标谱峰的方向,对目标音频信号进行定位。
Description
技术领域
本申请属于通信技术领域,具体涉及一种声源定位方法、装置、电子设备及存储介质。
背景技术
在各种通讯设备及语音交互系统中,声源定位可以使拾音系统对其接收的信号进行声源跟踪,准确的声源定位可有效提高嘈杂背景下的语音通信质量。
目前,声源定位通常根据麦克风阵列接收到的信号,得到空间谱,对空间谱进行谱峰搜索,这样,谱峰所对应的方向即为声源方向。但是,在一些干扰因素如环境噪声较多的情况下,得到的空间谱不稳定,导致确定的声源方向不准确。
发明内容
本申请实施例的目的是提供一种声源定位方法、装置、电子设备及存储介质,能够解决目前声源定位不准确的问题。
第一方面,本申请实施例提供了一种声源定位方法,该方法可以包括:
接收目标音频信号,目标音频信号包括噪声音频信号;
根据目标音频信号,确定与目标音频信号对应的第一信号空间谱,第一信号空间谱用于表征目标音频信号的音频信号空间能量的分布状态;
通过噪声音频信号对应的噪声空间谱,对第一信号空间谱进行去干扰处理,得到第二信号空间谱;
根据第二信号空间谱中目标谱峰的方向,对目标音频信号进行定位。
第二方面,本申请实施例提供了一种声源定位装置,该装置可以包括:
接收模块,用于接收目标音频信号,目标音频信号包括噪声音频信号;
第一确定模块,用于根据目标音频信号,确定与目标音频信号对应的第一信号空间谱,第一信号空间谱用于表征目标音频信号的音频信号空间能量的分布状态;
处理模块,用于通过噪声音频信号对应的噪声空间谱,对第一信号空间谱进行去干扰处理,得到第二信号空间谱;
定位模块,用于根据第二信号空间谱中目标谱峰的方向,对目标音频信号进行定位。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面所示的声源定位方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面所示的声源定位方法的步骤。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面所示的声源定位方法的步骤。
在本申请实施例中,通过对获取的目标音频信号对应的第一信号空间谱进行去干扰处理,得到第二信号空间谱,再根据第二信号空间谱中目标谱峰的方向,定位目标音频信号。这样,在初步求得第一信号空间谱的同时,确定目标音频信号中噪声音频信号对应的噪声空间谱,通过噪声音频信号对应的噪声空间谱对第一信号空间谱进行去干扰处理,得到第二信号空间谱。然后,对第二信号空间谱进行谱峰搜索,并将第二信号空间谱中的目标谱峰对应的方向确定为输出目标音频信号的方向,由此,提升信号空间谱的精准度和声源方向判断的准确性。
附图说明
图1为本申请实施例提供的一种声源定位架构示意图;
图2为本申请实施例提供的另一种拾音设备的结构示意图;
图3为本申请实施例提供的一种声源定位方法的流程图;
图4为本申请实施例提供的一种确定噪声音频信号的流程图;
图5为本申请实施例提供的一种未经过去干扰处理的信号空间图的示意图;
图6为本申请实施例提供的一种经过去干扰处理的信号空间图的示意图;
图7为本申请实施例提供的一种声源定位装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图;
图9为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
基于此,下面结合附图1-图2,通过具体的实施例及其应用场景对本申请实施例提供的声源定位方法进行详细地说明。
本申请实施例提出一种声源定位架构,如图1所示,该声源定位架构可以包括拾音设备和音频输出对象。其中,拾音设备可以包括电子设备、监视器、录像机、定位器等包括拾音系统,并根据拾音系统进行声源定位的设备;音频输出对象可以包括人、播放器等任何可以进行音频(语音)输出的对象。基于该声源定位架构,对本申请实施例提供的声源定位方法的应用场景进行说明。
拾音设备以电子设备、音频输出对象以人即用户为例对本申请实施例中的声源定位方法进行说明。这样,如图2所示,在用户通过电子设备与其他用户进行视频通话或者语音通话时,准确的声源定位可有效提高嘈杂背景下的语音通信质量。由此,声源定位尤为重要,本申请实施例提供的声源定位方法可以通过电子设备中的收音器如麦克风接收目标音频信号,目标音频信号包括噪声音频信号。接着,电子设备中的处理器可以根据目标音频信号,确定与目标音频信号对应的第一信号空间谱,第一信号空间谱用于表征目标音频信号的音频信号空间能量的分布状态;以及,通过噪声音频信号对应的噪声空间谱,对第一信号空间谱进行去干扰处理,得到第二信号空间谱。然后,电子设备中的处理器可以根据第二信号空间谱中目标谱峰的方向,对目标音频信号进行定位。
这样,在初步求得第一信号空间谱的同时,确定目标音频信号中噪声音频信号对应的噪声空间谱,通过噪声音频信号对应的噪声空间谱对第一信号空间谱进行去干扰处理,得到第二信号空间谱。然后,对第二信号空间谱进行谱峰搜索,并将第二信号空间谱中的目标谱峰对应的方向确定为输出目标音频信号的方向,由此,提升信号空间谱的精准度和声源方向判断的准确性,以进一步地提高嘈杂背景下的语音通信质量。
需要说明的是,本申请实施例提供的声源定位方法除了可以应用于上述涉及的用户通过电子设备与其他用户进行视频通话或者语音通话的场景,还可以应用于根据声源定位识别用户,以进行用户身份识别的场景,在此,本申请实施例提供的声源定位方法可以应用于任何可以进行声源定位的场景。
根据上述应用场景,下面结合图2对本申请实施例提供的声源定位方法进行详细说明。
图2为本申请实施例提供的一种声源定位方法的流程图。
如图2所示,该声源定位方法可以应用于电子设备,基于此,具体可以包括如下步骤:
步骤210,接收目标音频信号,目标音频信号包括噪声音频信号。步骤220,根据目标音频信号,确定与目标音频信号对应的第一信号空间谱,第一信号空间谱用于表征目标音频信号的音频信号空间能量的分布状态。步骤230,通过噪声音频信号对应的噪声空间谱,对第一信号空间谱进行去干扰处理,得到第二信号空间谱。步骤240,根据第二信号空间谱中目标谱峰的方向,对目标音频信号进行定位。
这样,在初步求得第一信号空间谱的同时,确定目标音频信号中噪声音频信号对应的噪声空间谱,通过噪声音频信号对应的噪声空间谱对第一信号空间谱进行去干扰处理,得到第二信号空间谱。然后,对第二信号空间谱进行谱峰搜索,并将第二信号空间谱中的目标谱峰对应的方向确定为输出目标音频信号的方向,由此,提升信号空间谱的精准度和声源方向判断的准确性。
下面对上述步骤进行详细说明,具体如下所示:
首先,涉及步骤220,在一种或者多种可选的实施例中,该步骤220具体可以包括:
通过声源方位估计算法,计算目标音频信号的音频信号空间能量的分布状态;
根据目标音频信号的音频信号空间能量的分布状态,得到与目标音频信号对应的第一信号空间谱;
其中,声源方位估计算法包括下述中的至少一种:到达时间差算法、最大输出功率算法、多信号分类算法。
举例说明,本申请实施例中可以使用不同种类的声源方位估计算法,例如基于到达时间差算法(time difference of arrival,TDOA),基于最大输出功率算法(steeredresponse power-phase transform,SRP-PHAT),基于多信号分类算法(multiple signalclassification,MUSIC)等,可以通过上述涉及的声源方位估计算法求得对应的信号空间谱。
接着,涉及步骤230,在一种或者多种可选的实施例中,在得到第二信号空间谱之前,方法还包括:
根据目标音频信号,确定目标音频信号中每个频点的频点信息,频点信息用于表征频点存在语音的概率;
根据频点信息,确定目标音频信号中的噪声音频信号。
需要说明的是,在本申请实施例中可以在确定第一信号空间谱的同时,将电子设备中拾音器接收的目标音频信号输入到音频识别深度学习模型中,得到频点信息mask,即表征频点存在语音的概率,该频点信息范围为0-1,若该频点信息越接近1,则证明该频点存在语音的概率就越大;反之,若该频点信息越接近0,则证明该频点存在噪音的概率就越大。由此,可以利用频点信息判断目标音频信号中的语音以及噪声概率,以确定目标音频信号所得信号空间谱的去干扰系数,便于根据目标音频信号所得信号空间谱的去干扰系数对第一信号空间谱进行去干扰处理,进而提升信号空间谱质量和声源方向判断的准确性。
基于此,可以将目标音频信号输入到目标音频信号识别深度学习模型中,得到目标音频信号中的噪声音频信号和语音音频。需要说明的是,本申请实施例中的目标音频信号识别深度学习模型可以通过下述方式训练得到。
将带有噪音的音频输入到音频识别深度学习模型中,对音频识别深度学习模型进行训练,直至满足训练条件如该模型输出为语音音频和噪声音频信号,得到训练完成的音频识别深度学习模型。然后,将训练完成的音频识别深度学习模型确定为目标音频信号识别深度学习模型。
进一步地,目标音频信号包括多个音频帧,多个音频帧的每个音频帧包括多个频点;根据频点信息,确定目标音频信号中的噪声音频信号,包括:
根据音频帧中的多个频点,计算与音频帧的平均频点信息,平均频点信息用于表征音频帧存在语音的平均概率;
在音频帧的平均频点信息满足预设频点信息的情况下,确定音频帧为噪声音频信号对应的噪声音频帧。
基于此,本申请实施例结合图4对上述涉及的步骤进行举例说明。
如图4所示,将接收到的目标音频信号输入到目标音频信号识别深度学习模型中,得到目标音频信号的每个音频帧中多个频点的频点信息。这里,是将目标音频信号按照时间维度划分为多个音频帧,接着,将多个音频帧对应的时域信号转换为频域信号,并对其频域信号进行划分,得到音频帧中的多个频点。接着,根据每个音频帧中多个频点的频点信息mask,计算每个音频帧的平均频点信息mask_L,如多个音频帧包括音频帧A,音频帧A中的多个频点a1、a2、a3……aN(N为大于1的整数),对音频帧A的多个频点中每个频点的频点信息取平均值(或者加权求和),得到音频A的平均频点信息mask_L,这里,目标音频信号的多个音频帧都可以参照音频帧A确定平均频点信息mask_L的方式,计算其对应的平均频点信息mask_L。
然后,判断平均频点信息mask_L的值是否小于预设频点信息的值。若平均频点信息mask_L的值小于或者等于预设频点信息的值thr,则确定该音频帧为噪声音频帧;若平均频点信息mask_L的值大于预设频点信息的值thr,则确定该音频帧为语音音频帧。这样,可以通过该音频帧的属性更新基于第一信号空间谱的噪声谱和滤波系数,进而控制对第一空间谱的去干扰优化过程,
在一种或者多种可选的实施例中,涉及步骤230具体可以包括,
通过降噪算法和噪声音频信号对应的噪声空间谱,对第一信号空间谱进行去干扰处理,得到不包括噪声音频信号的第二信号空间谱;其中,
降噪算法包括下述中的至少一项:维纳滤波算法、谱减算法。
这里,本申请实施例通过mask确定的音频帧对应的空间谱对第一信号空间谱的去干扰滤波处理,以对初步求得的空间谱进行去干扰处理,以提升空间谱质量和声源方向判断的准确性。
需要说明的是,本申请实施例中,基于步骤210和步骤220的基础上,根据初步得到的目标音频信号的第一信号空间谱,和耦合mask输出的噪声音频帧而求得的噪声空间谱,通过降噪算法,包括但不限于维纳滤波算法、谱减算法等,对第一信号空间谱进行降噪去干扰处理,得到准确性更高鲁棒性更强的第二信号空间谱。
然后,涉及步骤240,在一种或者多种可选的实施例中,该步骤240具体可以包括:
对第二信号空间谱进行谱峰搜索,得到第二信号空间谱中的目标谱峰;
以接收目标音频信号的设备为坐标原点,计算目标谱峰的最大峰值所对应的坐标方向;
将坐标方向确定为输出目标音频信号的方向。
这里,可以将拾音设备如电子设备设所在的位置确定为坐标原点,并以该坐标原点作画圆,确定其对应的0-360度方向。接着,将第二信号空间谱中目标谱峰即信号空间谱最大值所在区域对应的坐标方向确定为输出目标音频信号的方向即目标音频信号的来源方向,如目标谱峰对应的坐标方向为150度,则输出目标音频信号的方向就为150度。
由此,通过对获取的目标音频信号对应的第一信号空间谱进行去干扰处理,得到第二信号空间谱,再根据第二信号空间谱中目标谱峰的方向,定位目标音频信号。这样,在初步求得第一信号空间谱的同时,确定目标音频信号中噪声音频信号对应的噪声空间谱,通过噪声音频信号对应的噪声空间谱对第一信号空间谱进行去干扰处理,得到第二信号空间谱。然后,对第二信号空间谱进行谱峰搜索,并将第二信号空间谱中的目标谱峰对应的方向确定为输出目标音频信号的方向,由此,提升信号空间谱的精准度和声源方向判断的准确性。
下面结合图5和图6,对上述声源定位方法所呈现的效果进行说明。
如图5所示,其声源定位场景为在较大风噪的场景,目标音频信号的声源方位角度为150度左右。图5中的横轴为采样点,纵轴为声源角度,图5中所示的二维图为相应采样点的信号空间谱,描出的点为判断给出的声源角度。图5为未给信号空间谱降噪的二维图,其中,框50所对应的地方为干扰噪声所生成,若未经过去干扰处理,则会给声源定位带来错误判断。而图6所示的信号空间图为结合mask给信号空间谱去干扰之后的结果,从图6中的框60可以看出,噪声干扰被有效滤除,给出了更准确的声源方位判断,由此,本申请实施例提供的声源定位方法可以有效提升信号空间谱的精准度和声源方向判断的准确性。
需要说明的是,本申请实施例提供的声源定位方法,执行主体可以为声源定位装置,或者该声源定位装置中的用于执行声源定位的方法的控制模块。本申请实施例中以声源定位装置执行声源定位方法为例,说明本申请实施例提供的声源定位的装置。
基于相同的发明构思,本申请还提供了一种声源定位装置。具体结合图7进行详细说明。
图7为本申请实施例提供的一种声源定位装置的结构示意图。
如图7所示,该声源定位装置70应用于拾音设备如电子设备,具体可以包括:
接收模块701,用于接收目标音频信号,目标音频信号包括噪声音频信号;
第一确定模块702,用于根据目标音频信号,确定与目标音频信号对应的第一信号空间谱,第一信号空间谱用于表征目标音频信号的音频信号空间能量的分布状态;
处理模块703,用于通过噪声音频信号对应的噪声空间谱,对第一信号空间谱进行去干扰处理,得到第二信号空间谱;
定位模块704,用于根据第二信号空间谱中目标谱峰的方向,对目标音频信号进行定位。
下面对该声源定位装置70进行详细说明,具体如下所示:
在一个或者多个可能的实施例中,第一确定模块702具体用于,通过声源方位估计算法,计算目标音频信号的音频信号空间能量的分布状态;
根据目标音频信号的音频信号空间能量的分布状态,得到与目标音频信号对应的第一信号空间谱;
其中,声源方位估计算法包括下述中的至少一种:到达时间差算法、最大输出功率算法、多信号分类算法。
在一个或者多个可能的实施例中,声源定位装置还包括第二确定模块和第三确定模块;其中,
第二确定模块,用于根据目标音频信号,确定目标音频信号中每个频点的频点信息,频点信息用于表征频点存在语音的概率;
第三确定模块,用于根据频点信息,确定目标音频信号中的噪声音频信号。
基于此,第三确定模块具体用于,在目标音频信号包括多个音频帧,多个音频帧的每个音频帧包括多个频点的情况下,根据音频帧中的多个频点,计算与音频帧的平均频点信息,平均频点信息用于表征音频帧存在语音的平均概率;
在音频帧的平均频点信息满足预设频点信息的情况下,确定音频帧为噪声音频信号对应的噪声音频帧。
在一个或者多个可能的实施例中,处理模块703具体用于,通过降噪算法和噪声音频信号对应的噪声空间谱,对第一信号空间谱进行去干扰处理,得到不包括噪声音频信号的第二信号空间谱;其中,
降噪算法包括下述中的至少一项:维纳滤波算法、谱减算法。
在一个或者多个可能的实施例中,定位模块704具体用于,对第二信号空间谱进行谱峰搜索,得到第二信号空间谱中的目标谱峰;
以接收目标音频信号的设备为坐标原点,计算目标谱峰的最大峰值所对应的坐标方向;
将坐标方向确定为输出目标音频信号的方向。
本申请实施例中的声源定位装置可以是装置,也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的声源定位装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的声源定位装置能够实现图1至图6的方法实施例实现的各个过程,为避免重复,这里不再赘述。
在本申请实施例中,通过对获取的目标音频信号对应的第一信号空间谱进行去干扰处理,得到第二信号空间谱,再根据第二信号空间谱中目标谱峰的方向,定位目标音频信号。这样,在初步求得第一信号空间谱的同时,确定目标音频信号中噪声音频信号对应的噪声空间谱,通过噪声音频信号对应的噪声空间谱对第一信号空间谱进行去干扰处理,得到第二信号空间谱。然后,对第二信号空间谱进行谱峰搜索,并将第二信号空间谱中的目标谱峰对应的方向确定为输出目标音频信号的方向,由此,提升信号空间谱的精准度和声源方向判断的准确性。
可选的,如图8所示,本申请实施例还提供一种拾音设备如电子设备80,包括收音器801,处理器802,存储器802,存储在存储器802上并可在处理器801上运行的程序或指令,该程序或指令被处理器801执行时实现上述声源定位方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
图9为本申请实施例提供的一种电子设备的硬件结构示意图。
该电子设备900包括但不限于:射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、处理器910以及收音器911等部件。
本领域技术人员可以理解,电子设备900还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器910逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,在本申请实施例中,收音器911,用于接收目标音频信号,目标音频信号包括噪声音频信号;处理器910,用于根据目标音频信号,确定与目标音频信号对应的第一信号空间谱,第一信号空间谱用于表征目标音频信号的音频信号空间能量的分布状态;通过噪声音频信号对应的噪声空间谱,对第一信号空间谱进行去干扰处理,得到第二信号空间谱;根据第二信号空间谱中目标谱峰的方向,对目标音频信号进行定位。
进一步地,在一种或者多种实施例中,本申请实施例中的处理器910具体可以用于通过声源方位估计算法,计算目标音频信号的音频信号空间能量的分布状态;
根据目标音频信号的音频信号空间能量的分布状态,得到与目标音频信号对应的第一信号空间谱;
其中,声源方位估计算法包括下述中的至少一种:到达时间差算法、最大输出功率算法、多信号分类算法。
在一种或者多种实施例中,本申请实施例中的处理器910具体可以用于,根据目标音频信号,确定目标音频信号中每个频点的频点信息,频点信息用于表征频点存在语音的概率;
根据频点信息,确定目标音频信号中的噪声音频信号。
在一种或者多种实施例中,本申请实施例中的处理器910具体可以用于,在目标音频信号包括多个音频帧,多个音频帧的每个音频帧包括多个频点的情况下,根据音频帧中的多个频点,计算与音频帧的平均频点信息,平均频点信息用于表征音频帧存在语音的平均概率;
在音频帧的平均频点信息满足预设频点信息的情况下,确定音频帧为与噪声音频信号对应的噪声音频帧。
在一种或者多种实施例中,本申请实施例中的处理器910具体可以用于,对第二信号空间谱进行谱峰搜索,得到第二信号空间谱中的目标谱峰;
以接收目标音频信号的设备为坐标原点,计算目标谱峰的最大峰值所对应的坐标方向;
将坐标方向确定为输出目标音频信号的方向。
由此,通过对获取的目标音频信号对应的第一信号空间谱进行去干扰处理,得到第二信号空间谱,再根据第二信号空间谱中目标谱峰的方向,定位目标音频信号。这样,在初步求得第一信号空间谱的同时,确定目标音频信号中噪声音频信号对应的噪声空间谱,通过噪声音频信号对应的噪声空间谱对第一信号空间谱进行去干扰处理,得到第二信号空间谱。然后,对第二信号空间谱进行谱峰搜索,并将第二信号空间谱中的目标谱峰对应的方向确定为输出目标音频信号的方向,由此,提升信号空间谱的精准度和声源方向判断的准确性。
应理解的是,输入单元904可以包括图形处理器(Graphics Processing Unit,GPU)9041和麦克风9042,图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图像或视频的图像数据进行处理。显示单元906可包括显示面板9061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071,也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器909可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器910可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器910中。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述声源定位方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。其中,可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
另外,本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述声源定位方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种声源定位方法,其特征在于,包括:
接收目标音频信号,所述目标音频信号包括噪声音频信号;
根据所述目标音频信号,确定与所述目标音频信号对应的第一信号空间谱,所述第一信号空间谱用于表征所述目标音频信号的音频信号空间能量的分布状态;
通过所述噪声音频信号对应的噪声空间谱,对所述第一信号空间谱进行去干扰处理,得到第二信号空间谱;
根据所述第二信号空间谱中目标谱峰的方向,对所述目标音频信号进行定位。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标音频信号,确定与所述目标音频信号对应的第一信号空间谱,包括:
通过声源方位估计算法,计算所述目标音频信号的音频信号空间能量的分布状态;
根据所述目标音频信号的音频信号空间能量的分布状态,得到与所述目标音频信号对应的第一信号空间谱;
其中,所述声源方位估计算法包括下述中的至少一种:到达时间差算法、最大输出功率算法、多信号分类算法。
3.根据权利要求1或2所述的方法,其特征在于,所述得到第二信号空间谱之前,所述方法还包括:
根据所述目标音频信号,确定所述目标音频信号中每个频点的频点信息,所述频点信息用于表征所述频点存在语音的概率;
根据所述频点信息,确定所述目标音频信号中的噪声音频信号。
4.根据权利要求3所述的方法,其特征在于,所述目标音频信号包括多个音频帧,所述多个音频帧的每个音频帧包括多个频点;所述根据所述频点信息,确定所述目标音频信号中的噪声音频信号,包括:
根据所述音频帧中的多个频点,计算与所述音频帧的平均频点信息,所述平均频点信息用于表征所述音频帧存在语音的平均概率;
在所述音频帧的平均频点信息满足预设频点信息的情况下,确定所述音频帧为与所述噪声音频信号对应的噪声音频帧。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第二信号空间谱中目标谱峰的方向,对所述目标音频信号进行定位,包括:
对所述第二信号空间谱进行谱峰搜索,得到所述第二信号空间谱中的目标谱峰;
以接收所述目标音频信号的设备为坐标原点,计算所述目标谱峰的最大峰值所对应的坐标方向;
将所述坐标方向确定为输出所述目标音频信号的方向。
6.一种声源定位装置,其特征在于,包括:
接收模块,用于接收目标音频信号,所述目标音频信号包括噪声音频信号;
第一确定模块,用于根据所述目标音频信号,确定与所述目标音频信号对应的第一信号空间谱,所述第一信号空间谱用于表征所述目标音频信号的音频信号空间能量的分布状态;
处理模块,用于通过所述噪声音频信号对应的噪声空间谱,对所述第一信号空间谱进行去干扰处理,得到第二信号空间谱;
定位模块,用于根据所述第二信号空间谱中目标谱峰的方向,对所述目标音频信号进行定位。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块具体用于,通过声源方位估计算法,计算所述目标音频信号的音频信号空间能量的分布状态;
根据所述目标音频信号的音频信号空间能量的分布状态,得到与所述目标音频信号对应的第一信号空间谱;
其中,所述声源方位估计算法包括下述中的至少一种:到达时间差算法、最大输出功率算法、多信号分类算法。
8.根据权利要求6或7所述的装置,其特征在于,所述声源定位装置还包括第二确定模块和第三确定模块;其中,
所述第二确定模块,用于根据所述目标音频信号,确定所述目标音频信号中每个频点的频点信息,所述频点信息用于表征所述频点存在语音的概率;
所述第三确定模块,用于根据所述频点信息,确定所述目标音频信号中的噪声音频信号。
9.根据权利要求8所述的装置,其特征在于,所述第三确定模块具体用于,在所述目标音频信号包括多个音频帧,所述多个音频帧的每个音频帧包括多个频点的情况下,根据所述音频帧中的多个频点,计算与所述音频帧的平均频点信息,所述平均频点信息用于表征所述音频帧存在语音的平均概率;
在所述音频帧的平均频点信息满足预设频点信息的情况下,确定所述音频帧为与所述噪声音频信号对应的噪声音频帧。
10.根据权利要求6所述的装置,其特征在于,所述定位模块具体用于,对所述第二信号空间谱进行谱峰搜索,得到所述第二信号空间谱中的目标谱峰;
以接收所述目标音频信号的设备为坐标原点,计算所述目标谱峰的最大峰值所对应的坐标方向;
将所述坐标方向确定为输出所述目标音频信号的方向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110295354.3A CN113064118A (zh) | 2021-03-19 | 2021-03-19 | 声源定位方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110295354.3A CN113064118A (zh) | 2021-03-19 | 2021-03-19 | 声源定位方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113064118A true CN113064118A (zh) | 2021-07-02 |
Family
ID=76562311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110295354.3A Pending CN113064118A (zh) | 2021-03-19 | 2021-03-19 | 声源定位方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113064118A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707149A (zh) * | 2021-08-30 | 2021-11-26 | 维沃移动通信有限公司 | 音频处理方法和装置 |
CN114325586A (zh) * | 2021-12-31 | 2022-04-12 | 智己汽车科技有限公司 | 一种车载多媒体声音定位系统 |
CN114325586B (zh) * | 2021-12-31 | 2024-05-14 | 智己汽车科技有限公司 | 一种车载多媒体声音定位系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1832633A (zh) * | 2005-03-07 | 2006-09-13 | 华为技术有限公司 | 一种声源定位方法 |
CN105513605A (zh) * | 2015-12-01 | 2016-04-20 | 南京师范大学 | 手机麦克风的语音增强系统和语音增强方法 |
CN109308904A (zh) * | 2018-10-22 | 2019-02-05 | 上海声瀚信息科技有限公司 | 一种阵列语音增强算法 |
CN110706717A (zh) * | 2019-09-06 | 2020-01-17 | 西安合谱声学科技有限公司 | 一种基于麦克风阵列板的人声检测定向方法 |
CN111681665A (zh) * | 2020-05-20 | 2020-09-18 | 浙江大华技术股份有限公司 | 一种全向降噪方法、设备及存储介质 |
CN111722185A (zh) * | 2020-05-15 | 2020-09-29 | 深圳市微纳感知计算技术有限公司 | 一种特征声音的定位方法、装置及设备 |
-
2021
- 2021-03-19 CN CN202110295354.3A patent/CN113064118A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1832633A (zh) * | 2005-03-07 | 2006-09-13 | 华为技术有限公司 | 一种声源定位方法 |
CN105513605A (zh) * | 2015-12-01 | 2016-04-20 | 南京师范大学 | 手机麦克风的语音增强系统和语音增强方法 |
CN109308904A (zh) * | 2018-10-22 | 2019-02-05 | 上海声瀚信息科技有限公司 | 一种阵列语音增强算法 |
CN110706717A (zh) * | 2019-09-06 | 2020-01-17 | 西安合谱声学科技有限公司 | 一种基于麦克风阵列板的人声检测定向方法 |
CN111722185A (zh) * | 2020-05-15 | 2020-09-29 | 深圳市微纳感知计算技术有限公司 | 一种特征声音的定位方法、装置及设备 |
CN111681665A (zh) * | 2020-05-20 | 2020-09-18 | 浙江大华技术股份有限公司 | 一种全向降噪方法、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707149A (zh) * | 2021-08-30 | 2021-11-26 | 维沃移动通信有限公司 | 音频处理方法和装置 |
CN114325586A (zh) * | 2021-12-31 | 2022-04-12 | 智己汽车科技有限公司 | 一种车载多媒体声音定位系统 |
CN114325586B (zh) * | 2021-12-31 | 2024-05-14 | 智己汽车科技有限公司 | 一种车载多媒体声音定位系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875451B (zh) | 一种定位图像的方法、装置、存储介质和程序产品 | |
CN112329740B (zh) | 图像处理方法、装置、存储介质和电子设备 | |
CN109583391B (zh) | 关键点检测方法、装置、设备及可读介质 | |
CN102103457B (zh) | 简报操作系统及方法 | |
CN112527107B (zh) | 手势识别方法、装置、电子设备及存储介质 | |
CN111209812A (zh) | 目标人脸图片提取方法、装置及终端设备 | |
CN113194253B (zh) | 去除图像反光的拍摄方法、装置和电子设备 | |
CN112233689B (zh) | 音频降噪方法、装置、设备及介质 | |
CN103105924A (zh) | 人机交互方法和装置 | |
JP2008015848A (ja) | 物体領域探索方法,物体領域探索プログラムおよび物体領域探索装置 | |
CN112529939A (zh) | 一种目标轨迹匹配方法、装置、机器可读介质及设备 | |
CN110970050A (zh) | 语音降噪方法、装置、设备及介质 | |
CN111191556A (zh) | 人脸识别方法、装置及电子设备 | |
CN113064118A (zh) | 声源定位方法和装置 | |
CN112233688B (zh) | 音频降噪方法、装置、设备及介质 | |
CN112969130A (zh) | 音频信号处理方法、装置和电子设备 | |
CN112489674A (zh) | 语音增强方法、装置、设备及计算机可读存储介质 | |
CN105678220B (zh) | 人脸关键点定位处理方法和装置 | |
CN111310595A (zh) | 用于生成信息的方法和装置 | |
WO2023137923A1 (zh) | 基于姿态指导的行人重识别方法、装置、设备及存储介质 | |
CN113642493B (zh) | 一种手势识别方法、装置、设备及介质 | |
CN113707149A (zh) | 音频处理方法和装置 | |
CN111145083B (zh) | 一种图像处理方法、电子设备及计算机可读存储介质 | |
CN111048096B (zh) | 一种语音信号处理方法、装置及终端 | |
CN113766385A (zh) | 耳机降噪方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |