CN107976651B - 一种基于麦克风阵列的声源定位方法及装置 - Google Patents

一种基于麦克风阵列的声源定位方法及装置 Download PDF

Info

Publication number
CN107976651B
CN107976651B CN201610917562.1A CN201610917562A CN107976651B CN 107976651 B CN107976651 B CN 107976651B CN 201610917562 A CN201610917562 A CN 201610917562A CN 107976651 B CN107976651 B CN 107976651B
Authority
CN
China
Prior art keywords
preset
determining
azimuth angle
azimuth
response value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610917562.1A
Other languages
English (en)
Other versions
CN107976651A (zh
Inventor
何赛娟
陈扬坤
陈展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201610917562.1A priority Critical patent/CN107976651B/zh
Publication of CN107976651A publication Critical patent/CN107976651A/zh
Application granted granted Critical
Publication of CN107976651B publication Critical patent/CN107976651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本发明实施例公开了一种基于麦克风阵列的声源定位方法及装置,所述方法包括:获取经所述麦克风阵列传输的语音信号,对所述语音信号进行分帧处理,并确定目标语音信号;确定所述目标语音信号中的目标频率点,并根据所述目标频率点,针对所述麦克风阵列中的预设位置,分别确定各预设位置的声压信号;根据所述各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值,并基于所述各预设方位角对应的波束响应值,确定声源方位角。由于声压信号具有一定指向性,因此采用预设位置的声压信号计算波束响应值,进而确定声源的方位角,可以在麦克风阵列尺寸较小的微型阵列条件下准确地定位声源的方位。

Description

一种基于麦克风阵列的声源定位方法及装置
技术领域
本发明涉及语音信号处理领域,特别是涉及一种基于麦克风阵列的声源定位方法及装置。
背景技术
目前市场上很多产品具有声源定位功能,例如视频会议系统、智能家电等产品。这些产品在处理语音信号时,通过麦克风阵列接收语音信号,定位声源的方位,进而可以仅获得该方位的声源发出的语音操作指令,从而可以过滤掉其他方位的噪音信号,提高语音信息接收的准确性。其中,麦克风阵列由若干个麦克风组成,用于接收语音信号。显然,在语音信号的处理过程中,声源定位是非常重要的。
现有技术中一般采用时延估计方法进行声源定位。具体地,可以通过麦克风阵列接收语音信号,并利用每个麦克风接收的语音信号相对于参考点接收的语音信号的时延,进而通过时延与方位角的映射关系确定声源位置,完成对声源的定位。
然而,上述声源定位方法,由于通过时延预估语音信号的幅度,无法确定波束指向性,所以只有当麦克风阵列的尺寸较大,每个麦克风之间距离较远时,每个麦克风接收的语音信号相对于参考点接收的语音信号的时延才会比较明显,从而获得较高的声源定位精度。而当麦克风阵列的尺寸较小,每个麦克风之间距离较近时,每个麦克风接收的语音信号相对于参考点接收的语音信号的时延将相差很小,这将导致声源定位精度较低。
但是,在实际应用中,由于受到安装平台或设计要求的限制,往往只能采用小尺寸的微型麦克风阵列。而在微型麦克风阵列条件下,无法采用时延估计法等现有方法对声源进行定位,不能满足实际应用的要求。
发明内容
本发明实施例公开了一种基于麦克风阵列的声源定位方法及装置,用以解决现有声源定位方法无法在微型麦克风阵列条件下对声源进行定位的问题。技术方案如下:
第一方面,本发明实施例提供了一种基于麦克风阵列的声源定位方法,所述方法包括:
获取经所述麦克风阵列传输的语音信号,对所述语音信号进行分帧处理,并确定目标语音信号;
确定所述目标语音信号中的目标频率点,并根据所述目标频率点,针对所述麦克风阵列中的预设位置,分别确定各预设位置的声压信号;
根据所述各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值,并基于所述各预设方位角对应的波束响应值,确定声源方位角。
可选的,所述确定所述目标语音信号中的目标频率点的步骤包括:
将所述目标语音信号转换为频域信号;
将所述频域信号中信噪比高于预设阈值的频率点确定为目标频率点。
可选的,当所述目标频率点为多个时,所述根据所述各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值,并基于所述各预设方位角对应的波束响应值,确定声源方位角的步骤包括:
根据每个频率点对应的各预设位置的声压信号和预设方位角,计算每个频率点对应每个预设方位角的波束响应值;
识别每个频率点对应的最大的波束响应值,并将所识别出的波束响应值对应的预设方位角确定为预估方位角;
对所述预估方位角进行概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
可选的,所述预设位置包括:由所述麦克风阵列确定的坐标系中x轴、y轴上麦克风所在位置。
可选的,所述根据所述各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值的步骤包括:
针对各预设方位角,将x轴上各麦克风所在位置处的声压信号和y轴上各麦克风所在位置处的声压信号按照第一预设规则进行加权求和获得第一权值;
确定所述x轴上各麦克风所在位置处的声压信号的差值为第一差值;
确定所述y轴上各麦克风所在位置处的声压信号的差值为第二差值;
将所述第一差值与所述第二差值按照与该预设方位角对应的第二预设规则进行加权求和获得第二权值;
将所述第一权值与所述第二权值按照第三预设规则进行加权求和获得该预设方位角对应的波束响应值。
可选的,当所述目标语音信号为一帧时,所述基于所述各预设方位角对应的波束响应值,确定声源方位角的步骤包括:
识别最大的波束响应值,并将所识别出的波束响应值对应的预设方位角确定为声源方位角。
可选的,当所述目标语音信号为多帧时,所述基于所述各预设方位角对应的波束响应值,确定声源方位角的步骤包括:
识别每一帧语音信号对应的最大的波束响应值;
将所识别出的波束响应值对应的预设方位角确定为预估方位角;
对所述预估方位角进行概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
第二方面,本发明实施例还提供了一种基于麦克风阵列的声源定位装置,所述装置包括:
目标语音信号确定模块,用于获取经所述麦克风阵列传输的语音信号,对所述语音信号进行分帧处理,并确定目标语音信号;
声压信号确定模块,用于确定所述目标语音信号中的目标频率点,并根据所述目标频率点,针对所述麦克风阵列中的预设位置,分别确定各预设位置的声压信号;
声源方位角确定模块,用于根据所述各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值,并基于所述各预设方位角对应的波束响应值,确定声源方位角。
可选的,所述声压信号确定模块包括:
转换单元,用于将所述目标语音信号转换为频域信号;
目标频率点确定单元,用于将所述频域信号中信噪比高于预设阈值的频率点确定为目标频率点。
可选的,所述声源方位角确定模块包括:
第一波束响应值确定单元,用于当所述目标频率点为多个时,根据每个频率点对应的各预设位置的声压信号和预设方位角,计算每个频率点对应每个预设方位角的波束响应值;
第一预估方位角确定单元,用于识别每个频率点对应的最大的波束响应值,并将所识别出的波束响应值对应的预设方位角确定为预估方位角;
第一声源方位角确定单元,用于对所述预估方位角进行概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
可选的,所述预设位置包括:由所述麦克风阵列确定的坐标系中x轴、y轴上麦克风所在位置。
可选的,所述声源方位角确定模块包括:
第一权值计算单元,用于针对各预设方位角,将x轴上各麦克风所在位置处的声压信号和y轴上各麦克风所在位置处的声压信号按照第一预设规则进行加权求和获得第一权值;
第一差值计算单元,用于确定所述x轴上各麦克风所在位置处的声压信号的差值为第一差值;
第二差值计算单元,用于确定所述y轴上各麦克风所在位置处的声压信号的差值为第二差值;
第二权值计算单元,用于将所述第一差值与所述第二差值按照与该预设方位角对应的第二预设规则进行加权求和获得第二权值;
第二波束响应值确定单元,用于将所述第一权值与所述第二权值按照第三预设规则进行加权求和获得该预设方位角对应的波束响应值。
可选的,所述声源方位角确定模块包括:
第一波束响应值识别单元,用于当所述目标语音信号为一帧时,识别最大的波束响应值,并将所识别出的波束响应值对应的预设方位角确定为声源方位角。
可选的,所述声源方位角确定模块包括:
第二波束响应值识别单元,用于当所述目标语音信号为多帧时,识别每一帧语音信号对应的最大的波束响应值;
第二预估方位角确定单元,用于将所识别出的波束响应值对应的预设方位角确定为预估方位角;
第二声源方位角确定单元,用于对所述预估方位角进行概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
本方案中,首先获取经麦克风阵列传输的语音信号,对语音信号进行分帧处理,并确定目标语音信号,然后确定目标语音信号中的目标频率点,并根据目标频率点,针对麦克风阵列中的预设位置,分别确定各预设位置的声压信号,再根据各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值,并基于各预设方位角对应的波束响应值,确定声源方位角。由于声压信号具有一定的指向性,因此采用预设位置的声压信号计算波束响应值,进而确定声源的方位角,可以在麦克风阵列尺寸较小的微型阵列条件下准确地定位声源的方位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种基于麦克风阵列的声源定位方法的流程图;
图2为本发明实施例所提供的一种微型麦克风阵列示意图;
图3为本发明实施例所提供的一种归一化处理后的波束响应值示意图;
图4为本发明实施例所提供的一种基于麦克风阵列的声源定位装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了在麦克风阵列尺寸较小的微型阵列条件下准确地定位声源的方位,本发明实施例提供了一种基于麦克风阵列的声源定位方法及装置。
下面首先对本发明实施例所提供的一种基于麦克风阵列的声源定位方法进行介绍。
如图1所示,一种基于麦克风阵列的声源定位方法,包括以下步骤:
S101,获取经所述麦克风阵列传输的语音信号,对所述语音信号进行分帧处理,并确定目标语音信号;
本发明实施例提供的方法可以应用于处理器。其中,该处理器可以安装在具有声源定位功能的电子设备上,例如视频会议系统、智能家电等。当然也可以安装在电子设备外,处理器可以与电子设备进行有线或无线连接,进而进行数据的传输。其中,无线连接可以为WIFI连接或蓝牙连接等方式。
在本发明实施例中,麦克风阵列为尺寸较小的微型麦克风阵列,例如可以为直径1-5厘米的圆形麦克风阵列等,当然并不局限于此。
由于语音信号具有短时平稳特性,同时为了对语音信号进行实时处理,处理器获取经上述麦克风阵列传输的语音信号后,可以按照预设时长将该语音信号进行分帧处理,将接收的一段语音信号分为若干帧语音信号。
需要说明的是,上述预设时长可以由本领域技术人员根据语音信号实际长度及应用场景等因素确定,在此不做具体限定。例如,对实时性要求比较高时,可以将该预设时长适当设置的短一些。当需要精度较高的计算结果时,便可以将该预设时长设置的长一些。上述分帧处理为本领域常见处理方法,本领域技术人员可以根据实际情况进行分帧处理操作,在此不做具体说明。
处理器对语音信号进行分帧处理后,可以从中选择一帧语音信号,将其确定为目标语音信号,也可以从中选择多帧语音信号作为目标语音信号,这都是合理的。
为了保证声源定位的准确度,处理器对经上述麦克风阵列传输的语音信号进行分帧处理后,还可以对分帧处理后的语音信号进行语音活动性检测,以去除静音帧,避免在处理过程中受到静音帧的干扰。需要说明的是,语音活动性检测为本领域常见处理方法,本领域技术人员可以根据实际情况进行语音活动性检测操作,在此不做具体说明。
S102,确定所述目标语音信号中的目标频率点,并根据所述目标频率点,针对所述麦克风阵列中的预设位置,分别确定各预设位置的声压信号;
处理器确定了目标语音信号后,可以将该目标语音信号转换为频域信号,进而从该频域信号的频率点中确定目标频率点。
由于对于语音信号,其低频信号和高频信号容易受到噪声的干扰,所以为了尽量避免受到噪声的干扰,处理器将上述目标语音信号转换为频域信号后,可以将该频域信号中信噪比高于预设阈值的频率点确定为目标频率点。
举例而言,处理器可以将上述目标语音信号中的中频信号包括的频率点的信噪比与低频、高频信号包括的频率点的信噪比进行比较,如果中频信号包括的频率点的信噪比大于低、高频信号包括的频率点的信噪比,且二者的差值大于预设阈值,那么就可以确定该中频部分频率点为目标频率点。其中,该预设阈值可以由本领域技术人员根据语音信号和噪声环境的实际情况等因素确定,在此不做具体限定,例如可以为15dB或者30dB等。
需要说明的是,如果上述目标语音信号为多帧,那么处理器便可以将多帧目标语音信号均转化为频域信号,并确定每一帧目标语音信号对应的目标频率点。进一步需要说明的是,将语音信号转换为频域信号是本领域常用的语音信号处理方法,本领域技术人员可以根据语音信号的实际情况进行相应操作,在此不做具体说明。
确定了上述目标频率点后,处理器可以根据该目标频率点,针对麦克风阵列中的预设位置,分别确定各预设位置的声压信号,以便于后续声源方位角的确定。
对于该预设位置的设置,一般可以为由麦克风阵列确定的坐标系中x轴、y轴上麦克风所在位置。如图2所示,以由四个麦克风组成的圆形麦克风阵列为例,图中M1、M2、M3及M4表示四个麦克风,其中,麦克风M1和麦克风M3确定的坐标轴为x轴,麦克风M2和麦克风M4确定的坐标轴为y轴。那么处理器便可以确定麦克风M1、M2、M3及M4所在位置为预设位置,进而确定麦克风M1、M2、M3及M4所在位置的声压信号。其中,该声压信号即为麦克风接收到的语音信号的幅度值。
需要说明的是,如果上述目标频率点为多个,那么处理器便可以确定每一个目标频率点对应的各预设位置的声压信号。同理的,若上述目标语音信号为多帧,那么处理器便可以针对每一帧目标语音信号对应的目标频率点,确定该目标频率点对应的各预设位置的声压信号。
S103,根据所述各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值,并基于所述各预设方位角对应的波束响应值,确定声源方位角。
为了准确确定声源方位角,同时避免计算量过大,可以在声源方位角可能指向的范围内设定若干个预设方位角。处理器确定了上述各预设位置的声压信号后,便可以根据各预设位置的声压信号和各预设方位角计算各预设方位角对应的波束响应值。需要说明的是,如图2所示,声源方位角一般可以为声源所在方向与麦克风阵列所确定的坐标系中x轴方向的夹角,图2中以
Figure BDA0001135415600000081
表示,范围为[-180°,180°]。
波束响应值越大说明波束指向性越大,所以处理器确定了各预设方位角对应的波束响应值后,可以从各预设方位角对应的波束响应值中识别出最大的波束响应值。如果目标语音信号为一帧,该目标语音信号对应的目标频率点为一个时,那么该最大的波束响应值对应的预设方位角即为声源方位角。
例如,如果目标频率点为f=2000Hz,预设方位角为从-180°到180°以1°为间隔设定的,那么对于该目标频率点,每个预设方位角都有一个对应的波束响应值。若计算得到:预设方位角为-180°时,波束响应值为1;预设方位角为-179°时,波束响应值为5;预设方位角为179°时,波束响应值为1等结果。如果其中最大的波束响应值是预设方位角-179°对应的5,那么-179°即为声源方位角。
需要说明的是,为了确保声源方位角计算结果的准确,一般目标频率点的数量为多个。那么在目标频率点为多个时,声源方位角的确定方式可以包括:
根据每个频率点对应的各预设位置的声压信号和预设方位角,计算每个频率点对应每个预设方位角的波束响应值;
识别每个频率点对应的最大的波束响应值,并将所识别出的波束响应值对应的预设方位角确定为预估方位角;
对所述预估方位角进行概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
举例而言,如果目标频率点为20个,处理器可以将该20个目标频率点对应的预估方位角进行概率分布统计,如果其中10个目标频率点对应的预估方位角在同一角度附近,大于其他预估方位角出现的概率,那么便可以将该10个目标频率点对应的预估方位角确定为声源方位角。例如,该10个目标频率点对应的预估方位角均为30°左右,那么便可以确定声源方位角为30°。
可见,本实施例所提供的方案中,首先获取经麦克风阵列传输的语音信号,对语音信号进行分帧处理,并确定目标语音信号,然后确定目标语音信号中的目标频率点,并根据目标频率点,针对麦克风阵列中的预设位置,分别确定各预设位置的声压信号,再根据各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值,并基于各预设方位角对应的波束响应值,确定声源方位角。由于声压信号具有一定指向性,因此采用预设位置的声压信号计算波束响应值,进而确定声源的方位角,可以在麦克风阵列尺寸较小的微型阵列条件下准确地定位声源的方位。
作为本发明实施例的一种实施方式,对于某一目标频率点,根据各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值的方式可以包括:
针对各预设方位角,将x轴上各麦克风所在位置处的声压信号和y轴上各麦克风所在位置处的声压信号按照第一预设规则进行加权求和获得第一权值;
确定所述x轴上各麦克风所在位置处的声压信号的差值为第一差值;
确定所述y轴上各麦克风所在位置处的声压信号的差值为第二差值;
将所述第一差值与所述第二差值按照与该预设方位角对应的第二预设规则进行加权求和获得第二权值;
将所述第一权值与所述第二权值按照第三预设规则进行加权求和获得该预设方位角对应的波束响应值。
由于声源方位角可能为任意方向,所以为了保证声源方位角计算结果的准确,需要波束响应值对应的指向性可以指向任意方向,一般可以采用三个特征波束来计算波束响应值。该三个特征波束可以为一个单极子和两个正交的偶极子,其中,两个正交的偶极子一般一个具有余弦指向性,另一个具有正弦指向性,这样将单极子和两个正交的偶极子按照一定规则进行加权求和得到的波束响应值,便可以使波束响应值在声源方位角对应的方位形成最大指向,即波束响应值最大。
其中,上述单极子可通过上述麦克风阵列所确定的坐标系的原点位置的声压信号表示。而原点位置的声压信号可利用x轴、y轴上的各麦克风所在位置的声压信号按照第一预设规则加权求合所获得的第一权值来表示。
对于麦克风一致性较好的麦克风阵列,原点处声压信号一般可以由各个麦克风所在位置的声压信号的平均值近似求得,也就是说,此时上述第一预设规则中,每个麦克风所在位置的声压信号的权重为1/n,其中,n为上述麦克风阵列中麦克风的数量。而对于麦克风一致性较差的麦克风阵列,可根据麦克风的增益大小适当地调节每个麦克风所在位置的声压信号的权重,使每个麦克风所在位置的声压信号的权重加和为1即可。
处理器可以根据一段时间内麦克风接收的声压信号的能量进行估计,一般一段时间内接收声压信号的能量越大,对应的权重就越小。例如,如图2所示的麦克风阵列,如果麦克风M2在一段时间内接收声压信号的能量很大,那么便可以将麦克风M2所在位置的声压信号的权重调节为较小值,如0.2或0.3等;如果麦克风M3在一段时间内接收声压信号的能量很小,那么便可以将麦克风M3所在位置的声压信号的权重调节为较大值,如0.7或0.6等。
对于上述偶极子,由于两个正交偶极子分别具有余弦指向性和正弦指向性,因此可以分别由x轴、y轴方向上的振速表示。理想流体媒质中的小振幅声波的运动方程为:
Figure BDA0001135415600000111
其中,ρ为媒质密度,v(t)为振速,
Figure BDA0001135415600000116
为梯度算符。通过(1)式可以推导出任意r方向上的振速分量vr(t)可以由r方向上距离为Δr的两点r1和r2处的声压信号
Figure BDA0001135415600000112
Figure BDA0001135415600000113
近似求得,即:
Figure BDA0001135415600000114
通过(2)式可知,Δr越小,r1和r2两点处的声压信号的差值就与r方向上的振速分量越接近。因此,在Δr较小的情况下,x轴方向上的振速可以利用x轴上麦克风所在位置之间的声压信号差值估计,同样,y轴方向上的振速可以利用y轴上麦克风所在位置之间的声压信号差值近似求得,且距离越小,结果越准确。也就是说,在尺寸较小的微型麦克风阵列中,两个正交的偶极子可以分别由x轴上麦克风所在位置之间的声压信号差值和y轴上麦克风所在位置之间的声压信号差值表示。采用这种声压信号差值计算偶极子的方式还可以增强抗噪性能,进一步增加计算结果的准确度。
需要说明的是,由于当麦克风阵列尺寸过小时,会造成麦克风之间存在较大的干扰,反而会削弱麦克风阵列的性能,降低声源方位角计算的准确度,所以对于麦克风阵列的尺寸,优选直径为2-4厘米左右,该尺寸的微型麦克风阵列相对其他尺寸的微型麦克风阵列具有更高的声源定位精度。另外,当波数尺寸积远远小于1时,利用上述方式求得的偶极子更加准确,即kD<<1,其中
Figure BDA0001135415600000115
f表示频率,C表示空气中的声速。
为了计算方便,处理器确定了x轴上各麦克风所在位置处的声压信号的差值后,可以将其确定为第一差值,将y轴上各麦克风所在位置处的声压信号的差值的确定为第二差值,进而将第一差值与第二差值按照与预设方位角对应的第二预设规则进行加权求和,便可以获得第二权值。
可以通过公式(3)求得第二权值,其中公式(3)具体如下:
Figure BDA0001135415600000121
其中,
Figure BDA0001135415600000122
表示预设方位角,
Figure BDA0001135415600000123
表示第一差值,
Figure BDA0001135415600000124
表示第二差值,β值可以根据麦克风增益大小进行调节。
对于麦克风一致性较好的麦克风阵列,β值可以为0.5,而对于麦克风一致性较差的麦克风阵列,处理器可以通过改变第一差值和第二差值的权重使计算得到的第二权值更加准确,第一差值和第二差值的权重则可以根据麦克风增益大小进行调节,一般第一差值和第二差值的权重的加和为1。
处理器确定了上述第一权值和第二权值后,便可以按照第三预设规则将该第一权值和第二权值进行加权求和,获得预设方位角
Figure BDA0001135415600000125
对应的波束响应值。具体可以通过以下公式求得:
Figure BDA0001135415600000126
其中,0≤α≤1,
Figure BDA0001135415600000127
表示预设方位角
Figure BDA0001135415600000128
对应的波束响应值,
Figure BDA0001135415600000129
表示第一权值,
Figure BDA00011354156000001210
表示第二权值。
需要说明的是,α的值可以根据实际语音信号的情况以及麦克风增益的大小进行适当调节,使获得的声源方位角更加准确。
举例而言,目标频率点对应的频率为1000Hz,声源方位角30°,信噪比为10dB,混响为400ms,对于-180°到180°方向,以1°为间隔确定一个预设方位角。根据(4)式可以计算得到每一个预设方位角对应的波束响应值,将计算得到的波束响应值进行归一化处理,得到如图3所示的波束响应值计算结果。其中,实线310形成的心形状的曲线为α=0.5时计算得到的各预设方位角对应的波束响应值归一化处理后的结果,可以看出,在30°方位上波束响应值是最大,形成最大指向性。虚线320形成的是超心形状的曲线为α=0.25时计算得到的各预设方位角对应的波束响应值归一化处理后的结果,可以看出,在30°方位上波束响应值是最大,形成最大指向性。可见,采用上述方法确定的声源方位角与实际声源方位角向吻合,准确度很高。
作为本发明实施例的一种实施方式,为了保证声源方位角确定的准确度,处理器在对经上述麦克风阵列传输的语音信号进行分帧处理后,可以将其中多帧语音信号确定为目标语音信号。那么,当上述目标语音信号为多帧时,基于各预设方位角对应的波束响应值,确定声源方位角的方式可以包括:
识别每一帧语音信号对应的最大的波束响应值;
将所识别出的波束响应值对应的预设方位角确定为预估方位角;
对所述预估方位角进行概率分布统计,将出现概率最高的方位角确定为声源方位角。
当每一帧目标语音信号对应的目标频率点为一个时,各目标频率点对应的最大的波束响应值对应的预设方位角即为各目标语音信号对应的预估方位角,进而处理器可以对各预估方位角进行概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
当每一帧目标语音信号对应的目标频率点为多个时,处理器可以针对每一帧目标语音信号,将每个目标频率点对应的最大的波束响应值对应的预设方位角进行概率分布统计,将出现概率最高的预设方位角确定为该帧目标语音信号对应的预估方位角,然后处理器可以对各目标语音信号对应的预估方位角再做一次概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
相应于上述方法实施例,本发明实施例还提供了一种基于麦克风阵列的声源定位装置,下面对本发明实施例所提供的一种基于麦克风阵列的声源定位装置进行介绍。
如图4所示,一种基于麦克风阵列的声源定位装置,包括:
目标语音信号确定模块410,用于获取经所述麦克风阵列传输的语音信号,对所述语音信号进行分帧处理,并确定目标语音信号;
声压信号确定模块420,用于确定所述目标语音信号中的目标频率点,并根据所述目标频率点,针对所述麦克风阵列中的预设位置,分别确定各预设位置的声压信号;
声源方位角确定模块430,用于根据所述各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值,并基于所述各预设方位角对应的波束响应值,确定声源方位角。
可见,本实施例所提供的方案中,首先获取经麦克风阵列传输的语音信号,对语音信号进行分帧处理,并确定目标语音信号,然后确定目标语音信号中的目标频率点,并根据目标频率点,针对麦克风阵列中的预设位置,分别确定各预设位置的声压信号,再根据各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值,并基于各预设方位角对应的波束响应值,确定声源方位角。由于声压信号具有一定指向性,因此采用预设位置的声压信号计算波束响应值,进而确定声源的方位角,可以在麦克风阵列尺寸较小的微型阵列条件下准确地定位声源的方位。
作为本发明实施例的一种实施方式,所述声压信号确定模块420可以包括:
转换单元(图中未示出),用于将所述目标语音信号转换为频域信号;
目标频率点确定单元(图中未示出),用于将所述频域信号信噪比高于预设阈值的频率点确定为目标频率点。
作为本发明实施例的一种实施方式,所述声源方位角确定模块430可以包括:
第一波束响应值确定单元(图中未示出),用于当所述目标频率点为多个时,根据每个频率点对应的各预设位置的声压信号和预设方位角,计算每个频率点对应每个预设方位角的波束响应值;
第一预估方位角确定单元(图中未示出),用于识别每个频率点对应的最大的波束响应值,并将所识别出的波束响应值对应的预设方位角确定为预估方位角;
第一声源方位角确定单元(图中未示出),用于对所述预估方位角进行概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
作为本发明实施例的一种实施方式,所述预设位置可以包括:由所述麦克风阵列确定的坐标系中x轴、y轴上麦克风所在位置。
作为本发明实施例的一种实施方式,所述声源方位角确定模块430可以包括:
第一权值计算单元(图中未示出),用于针对各预设方位角,将x轴上各麦克风所在位置处的声压信号和y轴上各麦克风所在位置处的声压信号按照第一预设规则进行加权求和获得第一权值;
第一差值计算单元(图中未示出),用于确定所述x轴上各麦克风所在位置处的声压信号的差值为第一差值;
第二差值计算单元(图中未示出),用于确定所述y轴上各麦克风所在位置处的声压信号的差值为第二差值;
第二权值计算单元(图中未示出),用于将所述第一差值与所述第二差值按照与该预设方位角对应的第二预设规则进行加权求和获得第二权值;
第二波束响应值确定单元(图中未示出),用于将所述第一权值与所述第二权值按照第三预设规则进行加权求和获得该预设方位角对应的波束响应值。
作为本发明实施例的一种实施方式,所述声源方位角确定模块430可以包括:
第一波束响应值识别单元(图中未示出),用于当所述目标语音信号为一帧时,识别最大的波束响应值,并将所识别出的波束响应值对应的预设方位角确定为声源方位角。
作为本发明实施例的一种实施方式,所述声源方位角确定模块430可以包括:
第二波束响应值识别单元(图中未示出),用于当所述目标语音信号为多帧时,识别每一帧语音信号对应的最大的波束响应值;
第二预估方位角确定单元(图中未示出),用于将所识别出的波束响应值对应的预设方位角确定为预估方位角;
第二声源方位角确定单元(图中未示出),用于对所述预估方位角进行概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种基于麦克风阵列的声源定位方法,其特征在于,所述方法包括:
获取经所述麦克风阵列传输的语音信号,对所述语音信号进行分帧处理,并确定目标语音信号;
确定所述目标语音信号中的目标频率点,并根据所述目标频率点,针对所述麦克风阵列中的预设位置,分别确定各预设位置的声压信号;
根据所述各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值,并基于所述各预设方位角对应的波束响应值,确定声源方位角;
其中,当所述目标语音信号为多帧时,所述基于所述各预设方位角对应的波束响应值,确定声源方位角的步骤包括:
识别每一帧语音信号对应的最大的波束响应值;
将所识别出的波束响应值对应的预设方位角确定为预估方位角;
对所述预估方位角进行概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
2.如权利要求1所述的方法,其特征在于,所述确定所述目标语音信号中的目标频率点的步骤包括:
将所述目标语音信号转换为频域信号;
将所述频域信号中信噪比高于预设阈值的频率点确定为目标频率点。
3.如权利要求1所述的方法,其特征在于,当所述目标频率点为多个时,所述根据所述各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值,并基于所述各预设方位角对应的波束响应值,确定声源方位角的步骤包括:
根据每个频率点对应的各预设位置的声压信号和预设方位角,计算每个频率点对应每个预设方位角的波束响应值;
识别每个频率点对应的最大的波束响应值,并将所识别出的波束响应值对应的预设方位角确定为预估方位角;
对所述预估方位角进行概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
4.如权利要求1所述的方法,其特征在于,所述预设位置包括:由所述麦克风阵列确定的坐标系中x轴、y轴上麦克风所在位置。
5.如权利要求4所述的方法,其特征在于,所述根据所述各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值的步骤包括:
针对各预设方位角,将x轴上各麦克风所在位置处的声压信号和y轴上各麦克风所在位置处的声压信号按照第一预设规则进行加权求和获得第一权值;
确定所述x轴上各麦克风所在位置处的声压信号的差值为第一差值;
确定所述y轴上各麦克风所在位置处的声压信号的差值为第二差值;
将所述第一差值与所述第二差值按照与该预设方位角对应的第二预设规则进行加权求和获得第二权值;
将所述第一权值与所述第二权值按照第三预设规则进行加权求和获得该预设方位角对应的波束响应值。
6.如权利要求1-5任一项所述的方法,其特征在于,当所述目标语音信号为一帧时,所述基于所述各预设方位角对应的波束响应值,确定声源方位角的步骤包括:
识别最大的波束响应值,并将所识别出的波束响应值对应的预设方位角确定为声源方位角。
7.一种基于麦克风阵列的声源定位装置,其特征在于,所述装置包括:
目标语音信号确定模块,用于获取经所述麦克风阵列传输的语音信号,对所述语音信号进行分帧处理,并确定目标语音信号;
声压信号确定模块,用于确定所述目标语音信号中的目标频率点,并根据所述目标频率点,针对所述麦克风阵列中的预设位置,分别确定各预设位置的声压信号;
声源方位角确定模块,用于根据所述各预设位置的声压信号和预设方位角,计算各预设方位角对应的波束响应值,并基于所述各预设方位角对应的波束响应值,确定声源方位角;
其中,所述声源方位角确定模块包括:
第二波束响应值识别单元,用于当所述目标语音信号为多帧时,识别每一帧语音信号对应的最大的波束响应值;
第二预估方位角确定单元,用于将所识别出的波束响应值对应的预设方位角确定为预估方位角;
第二声源方位角确定单元,用于对所述预估方位角进行概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
8.如权利要求7所述的装置,其特征在于,所述声压信号确定模块包括:
转换单元,用于将所述目标语音信号转换为频域信号;
目标频率点确定单元,用于将所述频域信号中信噪比高于预设阈值的频率点确定为目标频率点。
9.如权利要求7所述的装置,其特征在于,所述声源方位角确定模块包括:
第一波束响应值确定单元,用于当所述目标频率点为多个时,根据每个频率点对应的各预设位置的声压信号和预设方位角,计算每个频率点对应每个预设方位角的波束响应值;
第一预估方位角确定单元,用于识别每个频率点对应的最大的波束响应值,并将所识别出的波束响应值对应的预设方位角确定为预估方位角;
第一声源方位角确定单元,用于对所述预估方位角进行概率分布统计,将出现概率最高的预估方位角确定为声源方位角。
10.如权利要求7所述的装置,其特征在于,所述预设位置包括:由所述麦克风阵列确定的坐标系中x轴、y轴上麦克风所在位置。
11.如权利要求10所述的装置,其特征在于,所述声源方位角确定模块包括:
第一权值计算单元,用于针对各预设方位角,将x轴上各麦克风所在位置处的声压信号和y轴上各麦克风所在位置处的声压信号按照第一预设规则进行加权求和获得第一权值;
第一差值计算单元,用于确定所述x轴上各麦克风所在位置处的声压信号的差值为第一差值;
第二差值计算单元,用于确定所述y轴上各麦克风所在位置处的声压信号的差值为第二差值;
第二权值计算单元,用于将所述第一差值与所述第二差值按照与该预设方位角对应的第二预设规则进行加权求和获得第二权值;
第二波束响应值确定单元,用于将所述第一权值与所述第二权值按照第三预设规则进行加权求和获得该预设方位角对应的波束响应值。
12.如权利要求7-11任一项所述的装置,其特征在于,所述声源方位角确定模块包括:
第一波束响应值识别单元,用于当所述目标语音信号为一帧时,识别最大的波束响应值,并将所识别出的波束响应值对应的预设方位角确定为声源方位角。
CN201610917562.1A 2016-10-21 2016-10-21 一种基于麦克风阵列的声源定位方法及装置 Active CN107976651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610917562.1A CN107976651B (zh) 2016-10-21 2016-10-21 一种基于麦克风阵列的声源定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610917562.1A CN107976651B (zh) 2016-10-21 2016-10-21 一种基于麦克风阵列的声源定位方法及装置

Publications (2)

Publication Number Publication Date
CN107976651A CN107976651A (zh) 2018-05-01
CN107976651B true CN107976651B (zh) 2020-12-25

Family

ID=62004320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610917562.1A Active CN107976651B (zh) 2016-10-21 2016-10-21 一种基于麦克风阵列的声源定位方法及装置

Country Status (1)

Country Link
CN (1) CN107976651B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538306B (zh) * 2017-12-29 2020-05-26 北京声智科技有限公司 提高语音设备doa估计的方法及装置
CN110797045A (zh) * 2018-08-01 2020-02-14 北京京东尚科信息技术有限公司 声音处理方法、系统、电子设备和计算机可读介质
CN109597022B (zh) 2018-11-30 2023-02-17 腾讯科技(深圳)有限公司 声源方位角运算、定位目标音频的方法、装置和设备
CN109856593B (zh) * 2018-12-21 2023-01-03 南京理工大学 面向声源测向的微型智能阵列式声传感器及其测向方法
CN109632086A (zh) * 2019-01-10 2019-04-16 深圳市沃特沃德股份有限公司 车内噪音检测方法、装置、可读存储介质及计算机设备
CN110095755B (zh) * 2019-04-01 2021-03-12 云知声智能科技股份有限公司 一种声源定位方法
CN110133596B (zh) * 2019-05-13 2023-06-23 江苏第二师范学院(江苏省教育科学研究院) 一种基于频点信噪比和偏置软判决的阵列声源定位方法
CN110082724B (zh) * 2019-05-31 2021-09-21 浙江大华技术股份有限公司 一种声源定位方法、装置及存储介质
CN112216298B (zh) * 2019-07-12 2024-04-26 大众问问(北京)信息科技有限公司 双麦克风阵列声源定向方法、装置及设备
CN110544486B (zh) * 2019-09-02 2021-11-02 上海其高电子科技有限公司 基于麦克风阵列的语音增强方法及系统
CN110600051B (zh) * 2019-11-12 2020-03-31 乐鑫信息科技(上海)股份有限公司 用于选择麦克风阵列的输出波束的方法
CN110931036B (zh) * 2019-12-07 2022-03-22 杭州国芯科技股份有限公司 一种麦克风阵列波束形成方法
CN111103568A (zh) * 2019-12-10 2020-05-05 北京声智科技有限公司 一种声源定位方法、装置、介质和设备
CN111474520B (zh) * 2020-01-10 2023-05-09 北京航空航天大学 无人机声源定向装置及定向方法
CN113923562A (zh) * 2020-07-10 2022-01-11 北京搜狗智能科技有限公司 拾音方法和装置
CN115004052A (zh) * 2020-08-31 2022-09-02 华为技术有限公司 声源测距方法、装置和系统
CN112562730A (zh) * 2020-11-24 2021-03-26 北京华捷艾米科技有限公司 一种声源分析方法及系统
CN112925235A (zh) * 2021-01-21 2021-06-08 深圳市普渡科技有限公司 交互时的声源定位方法、设备和计算机可读存储介质
CN113126028B (zh) * 2021-04-13 2022-09-02 上海盈蓓德智能科技有限公司 一种基于多个麦克风阵列的噪声源定位方法
CN113156373B (zh) * 2021-04-25 2023-06-02 北京华捷艾米科技有限公司 声源定位方法、数字信号处理装置及音频系统
CN116609726A (zh) * 2023-05-11 2023-08-18 钉钉(中国)信息技术有限公司 一种声源定位方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236250A (zh) * 2007-01-30 2008-08-06 富士通株式会社 声音判定方法和声音判定装置
CN102438189A (zh) * 2011-08-30 2012-05-02 东南大学 基于双通路声信号的声源定位方法
CN104898086A (zh) * 2015-05-19 2015-09-09 南京航空航天大学 适用于微型麦克风阵列的声强估计声源定向方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236250A (zh) * 2007-01-30 2008-08-06 富士通株式会社 声音判定方法和声音判定装置
CN102438189A (zh) * 2011-08-30 2012-05-02 东南大学 基于双通路声信号的声源定位方法
CN104898086A (zh) * 2015-05-19 2015-09-09 南京航空航天大学 适用于微型麦克风阵列的声强估计声源定向方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ON DIRECTIVITY FACTOR OF THE FIRST-ORDER STEERABLE DIFFERENTIAL MICROPHONE ARRAY;Xiaoguang Wu等;《ICASSP 2015》;20151231;第305-309页 *
Theoretical Analysis of a First-Order Azimuth-Steerable Superdirective Microphone Array;René M. M. Derkx等;《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20090131;第17卷(第1期);第150-152、158页 *
基于差分麦克风阵列和语音稀疏性的多源方位估计方法;何赛娟等;《数据采集与处理系统》;20151231;第30卷(第2期);第372-382页 *
差分传声器阵列期望最大化多声源方位估计方法;丁少为等;《声学学报》;20160930;第41卷(第5期);第674-685页 *
改进的SRP-PHAT声源定位方法;谭颖等;《电子与信息学报》;20060731;第28卷(第7期);第1223-1227页 *

Also Published As

Publication number Publication date
CN107976651A (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
CN107976651B (zh) 一种基于麦克风阵列的声源定位方法及装置
US10979805B2 (en) Microphone array auto-directive adaptive wideband beamforming using orientation information from MEMS sensors
US9591404B1 (en) Beamformer design using constrained convex optimization in three-dimensional space
US9837099B1 (en) Method and system for beam selection in microphone array beamformers
US9984702B2 (en) Extraction of reverberant sound using microphone arrays
JP4248445B2 (ja) マイクロホンアレイ方法及びシステム、並びにこれを用いた音声認識方法及び装置
EP2836852B1 (en) Systems and methods for mapping a source location
EP2748816B1 (en) Processing audio signals
US9100734B2 (en) Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
US10777214B1 (en) Method for efficient autonomous loudspeaker room adaptation
CN105301563B (zh) 一种基于一致聚焦变换最小二乘法的双声源定位方法
Salvati et al. Incoherent frequency fusion for broadband steered response power algorithms in noisy environments
CN108107403B (zh) 一种波达方向估计方法和装置
US10957338B2 (en) 360-degree multi-source location detection, tracking and enhancement
US20200145752A1 (en) Method and apparatus for audio capture using beamforming
US10871543B2 (en) Direction of arrival estimation of acoustic-signals from acoustic source using sub-array selection
US20230037824A1 (en) Methods for reducing error in environmental noise compensation systems
He et al. Closed-form DOA estimation using first-order differential microphone arrays via joint temporal-spectral-spatial processing
Sun et al. Indoor multiple sound source localization using a novel data selection scheme
CN110858943B (zh) 收音处理装置及其收音处理方法
CN114023307B (zh) 声音信号处理方法、语音识别方法、电子设备和存储介质
US11778379B2 (en) System and method for omnidirectional adaptive loudspeaker
CN111257859B (zh) 一种波束域自相关水下目标识别方法
JP5659851B2 (ja) ソーナー装置及びその指向性合成方法
Trinkle et al. Histogram based DoA estimation for speaker localisation in reverberant environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant