CN111489753B - 抗噪声的声源定位方法、装置和计算机设备 - Google Patents

抗噪声的声源定位方法、装置和计算机设备 Download PDF

Info

Publication number
CN111489753B
CN111489753B CN202010583990.1A CN202010583990A CN111489753B CN 111489753 B CN111489753 B CN 111489753B CN 202010583990 A CN202010583990 A CN 202010583990A CN 111489753 B CN111489753 B CN 111489753B
Authority
CN
China
Prior art keywords
sound source
specified number
frame
calculating
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010583990.1A
Other languages
English (en)
Other versions
CN111489753A (zh
Inventor
陈俊彬
太荣鹏
温平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202010583990.1A priority Critical patent/CN111489753B/zh
Publication of CN111489753A publication Critical patent/CN111489753A/zh
Application granted granted Critical
Publication of CN111489753B publication Critical patent/CN111489753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本申请涉及抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:判断当前音频数据是否可触发唤醒;若是,则根据当前音频数据对应的频域信号,估测指定数量的声源方向;对指定数量的声源方向,分别进行波束成形,得到指定数量的输出结果;根据指定数量的输出结果,计算峰度值;将峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。通过对当前音频数据的各频域信号进行波束成形,并结合波束成形的峰度值计算精准确定声源定位方向,提高唤醒过程中声源定位的精准性。

Description

抗噪声的声源定位方法、装置和计算机设备
技术领域
本申请涉及到智能设备领域,特别是涉及到抗噪声的声源定位方法、装置和计算机设备。
背景技术
大多数带唤醒词的智能语音设备,降噪过程依赖于对唤醒语音的声源定位,如果唤醒的时候定位发生错误,则会导致后续的降噪性能大大降低甚至出现反效果,导致损伤语音、放大噪声。现有带唤醒功能的智能音箱,声源定位受噪声影响,降低定位的准确性,在唤醒的同时出现播放噪声时,唤醒之后指示的唤醒方向朝向噪声,而不是朝向携带唤醒词的人声方向。尤其在空调、电扇等家电的远场拾音模块,其旁边天然有一个较强的噪声源,很容易使唤醒之后的声源定位结果指向噪声源,严重影响声源定位的准确性。
发明内容
本申请的主要目的为提供抗噪声的声源定位方法,旨在解决现有带唤醒功能的智能设备在存在噪声影响时定位补准确的技术问题。
本申请提供了抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:
判断当前音频数据是否可触发唤醒;
若是,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;
对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;
根据所述指定数量的输出结果,计算峰度值;
将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
优选地,所述根据所述当前音频数据对应的频域信号,估测指定数量的声源方向的步骤,包括:
按照预设角度范围,在当前空间内均匀选取N个方向向量dn,n=1,2,...,N;
计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,所述指定帧为所述当前音频数据的所有帧数据中的任一帧;
根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量dn上的N个响应值;
将所述N个响应值按照各自对应的空间位置,平铺得到角度谱angular spectrum;
在所述角度谱angular spectrum中搜索所有的响应值峰值点;
在所有所述响应值峰值点中,按照响应值由大至小选取所述指定数量的响应值峰值点;
通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合dpeak
Figure GDA0002680744990000021
A为所述指定数量。
优选地,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值的步骤,包括:
根据
Figure GDA0002680744990000022
计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差τij(dn),其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,||·||表示向量的2-范数;
判断所述当前空间的顶面和底面是否通过吸音材料围成,其中,所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面,所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面,所述直角坐标系的原点为所述麦克风阵列的圆心,以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面;
若是,则设定
Figure GDA0002680744990000023
并通过
Figure GDA0002680744990000031
计算所述第i个麦克风和所述第j个麦克风接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,lij是第i个麦克风到第j个麦克风的距离,J0(·)是第一类零阶贝塞尔函数,
Figure GDA0002680744990000032
real(·)表示取实部,
Figure GDA0002680744990000033
(·)*表示求共轭,
Figure GDA0002680744990000034
Fs为采样频率,ε为任意正实数,K表示傅里叶点数,k=1,2,3,...,K;
通过
Figure GDA0002680744990000035
计算所述指定帧在所述N个方向向量dn的可控响应信噪比,作为所述帧响应值,其中,n=1,2,...,N,l'表示所述当前音频数据对应的所述指定帧为第l'帧频域信号,M表示麦克风数量。
优选地,所述判断所述当前空间的顶面和底面是否通过吸音材料围成的步骤之后,包括:
若所述当前空间的顶面和底面不是吸音材料围成,则设定
Figure GDA0002680744990000036
并通过
Figure GDA0002680744990000037
计算所述第i个麦克风和所述第j个麦克风接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比;
通过
Figure GDA0002680744990000038
计算所述指定帧在所述N个方向向量dn的可控响应信噪比,作为所述帧响应值。
优选地,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值的步骤,包括:
根据
Figure GDA0002680744990000039
计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差τij(dn),其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,||·||表示向量的2-范数;
根据
Figure GDA0002680744990000041
计算第i个麦克风和第j个麦克风,接收所述当前音频数据的指定帧对应的频域信号在dn方向的基于相位变换加权的可控响应功率,其中,(·)*表示共轭,
Figure GDA0002680744990000042
Fs是采样频率,K表示傅里叶点数,k=1,2,3,...,K;
根据
Figure GDA0002680744990000043
计算所述指定帧在所述N个方向向量dn的基于相位变换加权的互相关函数值基于相位变换加权的可控响应功率,作为所述帧响应值,其中,l'表示所述当前音频数据对应的所述指定帧为第l'帧频域信号,M表示麦克风数量。
优选地,所述对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果的步骤,包括:
根据所述方向向量集合dpeak,利用Y(l',k)做波束成形,得到所述指定数量的方向上的波束输出Ba(l′,k),
Figure GDA0002680744990000044
其中,Wa(k)为空域滤波系数,
Figure GDA0002680744990000045
是Wa(k)的共轭转置,
Figure GDA0002680744990000046
αa(k)为与第a个方向向量
Figure GDA0002680744990000047
对应的导向向量,Γ(k)为散射噪声场的互相关矩阵,
Figure GDA0002680744990000048
其中,若所述当前空间的顶面和底面是吸音材料围成γi,j=J0(Ωlij/c),若所述当前空间的顶面和底面不是吸音材料围成
Figure GDA0002680744990000049
lij表示第i个麦克风到第j个麦克风的距离。
优选地,所述根据所述指定数量的输出结果,计算峰度值的步骤,包括:
将所述指定数量的方向上的波束输出Ba(l′,k),通过逆快速傅里叶变换,得到所述指定数量的时域信号ba(l');
将所述指定数量的时域信号ba(l'),拼接形成所述指定数量的方向上的输出信号ba(l″);
根据所述指定数量的方向上的输出信号ba(l″),通过公式
Figure GDA0002680744990000051
计算各方向上的所述峰度值,其中,
Figure GDA0002680744990000052
本申请还提供了一种抗噪声的声源定位装置,集成于具有唤醒功能的智能设备,装置包括:
判断模块,用于判断当前音频数据是否可触发唤醒;
估测模块,用于若可触发唤醒,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;
波束成形模块,用于对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;
计算模块,用于根据所述指定数量的输出结果,计算峰度值;
作为模块,用于将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
附图说明
图1本申请一实施例的抗噪声的声源定位方法流程示意图;
图2本申请一实施例的angular spectrum中的峰值分布状态示意图;
图3本申请一实施例的抗噪声的声源定位装置结构示意图;
图4本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:
S1:判断当前音频数据是否可触发唤醒。
本申请的当前音频数据为缓存于数据通道对应的缓存器中的音频数据,具有唤醒功能的智能设备内设置麦克风阵列,不同麦克风对应不同的数据通道。通过识别当前音频数据是否具有预设的唤醒词,判断是否可触发唤醒,具有预设的唤醒词,则可触发唤醒,反之则不能唤醒。
本申请通过时域信号,输入到唤醒系统,识别是否具有预设唤醒词,并在存在预设唤醒词,可进行唤醒后,通过对缓存于缓存器的时域信号,在声源定位阶段,通过估测指定数量的声源方向,然后利用峰值确定声源所在的声源定位方向。举例地,输入时域信号xm(t),m=1,2,...,M,t=1,2,...,T,M是麦克风阵列中麦克风的个数,T是一帧时域信号的长度。把xm(t)放入缓存器y中,y={y1;y2;...;ym}。其中,ym={ym(1),ym(2),...,ym(L)},ym(1)={ym(1,1),ym(1,2),...,ym(1,T)},缓存器内的元素赋初值为0。L是缓存器中存放的时域信号的帧数。每次新输入一帧时域信号xm(t),则赋值过程:ym(1,t)=ym(2,t),ym(2,t)=ym(3,t),...,ym(L-1,t)=ym(L,t),ym(L,t)=xm(t),以实现时域信号的接续更新和缓存。将时域信号xm(t)输入到唤醒系统中,判断是否具有预设的唤醒词,若唤醒系统被触发,则进入声源定位阶段。
S2:若可触发唤醒,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向。
噪声利用频域信号Y(l',k)做若干个声源方向的初步测定。对缓存器内缓存的时域信号y重新分帧加窗,帧长为T`,则帧数为L`,通过快速傅里叶变换(FFT)得到频域信号Y(l',k),l'=1,2,...,L',k=1,2,...,K,K是FFT点数,Y(l',k)={Y1(l',k);...;YM(l',k)}。
S3:对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果。
本申请在触发唤醒之后,为避免噪声源的影响精准的声源定位,通过多路波束成形,提高声源定位的精准性。本申请的波束成形的方式优选以SDBF(SuperDirectiveBeamforming,超指向型波束成形),根据A个方向向量dpeak,利用Y(l',k)做波束成形,以进一步提高声源定位的精准性。
S4:根据所述指定数量的输出结果,计算峰度值。
本申请通过对A个选定的方向上,分别计算波束的峰度值,以通过峰度值的大小确定声源定位的方向。
S5:将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
本申请通过对A个方向上所有的峰度值求平均,找出峰度值最大对应的方向,并将该方向作为声源定位的方向。根据每个方向的各帧数据的峰度值求平均得到A个方向上所有的峰度值。本申请通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
进一步地,所述根据所述当前音频数据对应的频域信号,估测指定数量的声源方向的步骤S2,包括:
S21:按照预设角度范围,在当前空间内均匀选取N个方向向量dn,n=1,2,...,N;
S22:计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,其中,所述指定帧为所述当前音频数据的所有帧数据中的任一帧;
S23:根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量dn上的N个响应值;
S24:将所述N个响应值按照各自对应的空间位置,平铺得到角度谱angularspectrum;
S25:在所述角度谱angularspectrum中搜索所有的响应值峰值点;
S26:在所有所述响应值峰值点中,按照响应值由大至小选取所述指定数量的响应值峰值点;
S26:通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合dpeak
Figure GDA0002680744990000071
A为所述指定数量。
本申请通过按照预设的角度范围,在当前空间中均匀选取N个方向向量dn,n=1,2,...,N,方向向量就是一个单位球上面均匀选择的经纬点,单位球的原点和这些经纬点的连线组成的向量就是方向向量。本申请通过特定的计算方式求取各方向向量上对当前音频数据的指定帧的帧响应值,然后通过平滑帧响应值形成当前音频数据在各方向向量的响应值,上述平滑过程可理解为求平均值的过程。然后将获得的N个响应值按照各自对应的空间位置,平铺得到角度谱angular spectrum,上述各空间位置由固定的俯仰角Φ和方位角θ决定,第n个响应值所在的空间位置为方向向量dn的终点。然后通过3×3邻域或5×5邻域等搜索所有的响应值峰值点,或者以聚类的方法搜索所有的响应值峰值点,比如聚类得到的类中心即为响应值峰值点。本实施例以3×3邻域搜索的方式进行详细说明,上述3×3邻域包括9宫格的选定框,当选定框的中心格对应的响应值均大于其他格对应的响应值,则认为筛选到了响应值峰值点,此时中心格对应的点成为响应值峰值点,响应值峰值点不单单与数值的大小相关,还与具体的位置相关。从N个方向向量dn中筛选响应值排前的A个响应值峰值点所对应的方向向量集合dpeak,作为指定数量为A个的声源方向,
Figure GDA0002680744990000081
通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合dpeak,响应值峰值点所在的角度(θ、φ),有其对应的方向向量,角度转为方向向量的方法为:方向向量d=(x,y,z),其中,x=cosφcosθ,y=cosφsinθ,z=sinφ。上述特定的计算方式包括但不限于计算基于相位变换加权的可控响应功率,以及计算可控响应信噪比等,在可控响应信噪比的计算过程中,优选最小方差无失真响应加权。本申请通过将L'帧频域信号的响应值结果进行平滑,比如通过求平均的方式进行平滑,并搜索A个响应值峰值点,得到L`帧频域信号对应的方向向量集合dpeak。在空间坐标系下,每个方向向量dn都可以分解为俯仰角φ和方位角θ,将(θ,φ,响应值)三者的对应表,在二维平面上平铺、并可视化,可以得到角度谱angular spectrum。如图2所示,在angular spectrum中找出5个响应值峰值点的示意图,图中5个“*”标注位置为响应值峰值点:横坐标为(-180°,180°)的方位角、纵坐标为(-90°,90°)俯仰角,角度分辨率为1°,角度谱angular spectrum上灰度的深浅表示每个位置上对应的响应值的大小,越深则值越小。
进一步地,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值的步骤S22,包括:
S221:根据
Figure GDA0002680744990000091
计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差τij(dn),其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,||·||表示向量的2-范数;
S222:判断所述当前空间的顶面和底面是否通过吸音材料围成,其中,所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面,所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面,所述直角坐标系的原点为所述麦克风阵列的圆心,以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面;
S223:若是,则设定
Figure GDA0002680744990000092
并通过
Figure GDA0002680744990000093
计算所述第i个麦克风和所述第j个麦克风接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,lij是第i个麦克风到第j个麦克风的距离,J0(·)是第一类零阶贝塞尔函数,
Figure GDA0002680744990000094
real(·)表示取实部,
Figure GDA0002680744990000095
(·)*表示求共轭,
Figure GDA0002680744990000096
Fs为采样频率,ε为任意正实数,K表示傅里叶点数,k=1,2,3,...,K;
S224:通过
Figure GDA0002680744990000097
计算所述指定帧在所述N个方向向量dn的可控响应信噪比,作为所述帧响应值,其中,n=1,2,...,N,l'表示所述当前音频数据对应的所述指定帧为第l'帧频域信号,M表示麦克风数量。
本申请优先选择通过计算可控响应信噪比的方式,作为帧响应值,通过对L`帧的帧响应值进行平滑(比如求平均)得到N个方向上的响应值,并通过N个方向上的响应值,得到角度谱,然后通过搜索的方式确定响应值峰值点。上述计算可控响应信噪比的方式,得到的峰值更尖锐,更适合于多声源定位。上述正实数的ε用来防止除零,上述直角坐标向量为坐标原点指向麦克风所在坐标点的向量。本申请中需要通过识别当前空间的顶面和地面是否存在吸音材料,来选择合适的散射噪声公式,比如天花板和地板为直角坐标系内当前空间的两个对称的端面,若均噪声为吸音材料材质,则对音频信号的散射效果有较大影响。比如通过识别应用场景,确定空间内是否需要吸音材料,也可通过回声测试等方式,估测是否存在吸音材料,比如根据空间大小判断发射音频和接收音频的差异量,是否小于预测标准衰减,若是,则判定存在吸音材料,则调用本实施例的散射噪声公式,否则调用下一实施例的散射噪声公式。不存在吸音材料时,计算可控响应信噪比的方式,除散射噪声公式不同之外,其他过程均类似,不赘述。
进一步地,判断所述当前空间的顶面和底面是否通过吸音材料围成的步骤S222之后,包括:
S225:若所述当前空间的顶面和底面不是吸音材料围成,则设定
Figure GDA0002680744990000101
并通过
Figure GDA0002680744990000102
计算所述第i个麦克风和所述第j个麦克风接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比;
S226:通过
Figure GDA0002680744990000103
计算所述指定帧在所述N个方向向量dn的可控响应信噪比,作为所述帧响应值。
进一步地,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值的步骤S22,包括:
S2201:根据
Figure GDA0002680744990000104
计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差τij(dn),其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,||·||表示向量的2-范数;
S2202:根据
Figure GDA0002680744990000105
计算第i个麦克风和第j个麦克风接收所述当前音频数据的指定帧对应的频域信号在所述方向向量dn所在方向的基于相位变换加权的可控响应功率,其中,(·)*表示共轭,
Figure GDA0002680744990000111
Fs是采样频率,K表示傅里叶点数,k=1,2,3,...,K;
S2203:根据
Figure GDA0002680744990000112
计算所述指定帧在所述N个方向向量dn的基于相位变换加权的可控响应功率,作为所述帧响应值,其中,l'表示所述当前音频数据的指定帧为第l'帧频域信号,M表示麦克风数量。
本申请通过计算基于相位变换加权的可控响应功率的方式,作为帧响应值,进而分别平滑得到N个方向上的响应值,并通过N个方向上的响应值,得到角度谱,并搜索出响应值峰值点。本实施例的计算方式相比于计算可控响应信噪比的方式,计算量小,声源定位响应快,且对智能设备的计算能力要求低,方便更广泛地应用于大多数的智能设备上。
进一步地,所述对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果的步骤S3,包括:
S31:根据所述方向向量集合dpeak,利用Y(l',k)做波束成形,得到所述指定数量的方向上的波束输出Ba(l′,k),
Figure GDA0002680744990000113
其中,Wa(k)为空域滤波系数,
Figure GDA0002680744990000114
是Wa(k)的共轭转置,
Figure GDA0002680744990000115
αa(k)为与第a个方向向量
Figure GDA0002680744990000116
对应的导向向量,Γ(k)为散射噪声场的互相关矩阵,
Figure GDA0002680744990000117
其中,若所述当前空间的顶面和底面是吸音材料围成γi,j=J0(Ωlij/c),若所述当前空间的顶面和底面不是吸音材料围成
Figure GDA0002680744990000118
lij表示第i个麦克风到第j个麦克风的距离。
本申请优选通过超指向型波束成形,求得每个方向的波束,以提高指向声源定位方向的准确性。通过上述计算过程得到l'帧、A个方向波束成形之后的输出信号,利用逆快速傅里叶变换(IFFT),令其回到时域,得到ba(l'),以方便计算峰度值。其他实施例也可采用MVDR(Minimum Variance Distortionless Response)、DMA(differential microphonearray)、GSC(Generalized Side-lobe Canceller)等等来代替。
进一步地,所述根据所述指定数量的输出结果,计算峰度值的步骤S4,包括:
S41:将所述指定数量的方向上的波束输出Ba(l′,k),通过逆快速傅里叶变换,得到所述指定数量的时域信号ba(l');
S42:将所述指定数量的时域信号ba(l'),拼接形成所述指定数量的方向上的输出信号ba(l″);
S43:根据所述指定数量的方向上的输出信号ba(l″),通过公式
Figure GDA0002680744990000121
计算各方向上的所述峰度值,其中,
Figure GDA0002680744990000122
本申请在计算峰度值的过程中,利用求峰度值的方法对非高斯性进行度量,其他实施例可以用求负熵(Negentropy)的方法来代替。通过对每个方向的L″个峰度值进行求平均,即
Figure GDA0002680744990000123
在{G1,...,GA}中找出最大值所对应方向,作为最终的声源定位方向:
Figure GDA0002680744990000124
本申请在声源定位算法的基础上,增加了波束成形以及峰度值计算的过程,以峰度值最大的方向作为最终的声源定位方向,降低了噪声对声源定位的影响,大大增加了声源定位的抗干扰性能,解决了带唤醒词的智能设备在唤醒时的声源定位受噪声影响而降低声源定位的准确性的问题。
参照图3,本申请一实施例的抗噪声的声源定位装置,集成于具有唤醒功能的智能设备,装置包括:
判断模块1,用于判断当前音频数据是否可触发唤醒。
本申请的当前音频数据为缓存于数据通道对应的缓存器中的音频数据,具有唤醒功能的智能设备内设置麦克风阵列,不同麦克风对应不同的数据通道。通过识别当前音频数据是否具有预设的唤醒词,判断是否可触发唤醒,具有预设的唤醒词,则可触发唤醒,反之则不能唤醒。
本申请通过时域信号,输入到唤醒系统,识别是否具有预设唤醒词,并在存在预设唤醒词,可进行唤醒后,通过对缓存于缓存器的时域信号,在声源定位阶段,通过估测指定数量的声源方向,然后利用峰值确定声源所在的声源定位方向。举例地,输入时域信号xm(t),m=1,2,...,M,t=1,2,...,T,M是麦克风阵列中麦克风的个数,T是一帧时域信号的长度。把xm(t)放入缓存器y中,y={y1;y2;...;ym}。其中,ym={ym(1),ym(2),...,ym(L)},ym(1)={ym(1,1),ym(1,2),...,ym(1,T)},缓存器内的元素赋初值为0。L是缓存器中存放的时域信号的帧数。每次新输入一帧时域信号xm(t),则赋值过程:ym(1,t)=ym(2,t),ym(2,t)=ym(3,t),...,ym(L-1,t)=ym(L,t),ym(L,t)=xm(t),以实现时域信号的接续更新和缓存。将时域信号xm(t)输入到唤醒系统中,判断是否具有预设的唤醒词,若唤醒系统被触发,则进入声源定位阶段。
估测模块2,用于若可触发唤醒,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向。
噪声利用频域信号Y(l',k)做若干个声源方向的初步测定。对缓存器内缓存的时域信号y重新分帧加窗,帧长为T`,则帧数为L`,通过快速傅里叶变换(FFT)得到频域信号Y(l',k),l'=1,2,...,L',k=1,2,...,K,K是FFT点数,Y(l',k)={Y1(l',k);...;YM(l',k)}。
波束成形模块3,用于对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果。
本申请在触发唤醒之后,为避免噪声源的影响精准的声源定位,通过多路波束成形,提高声源定位的精准性。本申请的波束成形的方式优选以SDBF(Super DirectiveBeamforming,超指向型波束成形),根据A个方向向量dpeak,利用Y(l',k)做波束成形,以进一步提高声源定位的精准性。
计算模块4,用于根据所述指定数量的输出结果,计算峰度值。
本申请通过对A个选定的方向上,分别计算波束的峰度值,以通过峰度值的大小确定声源定位的方向。
作为模块5,用于将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
本申请通过对A个方向上所有的峰度值求平均,找出峰度值最大对应的方向,并将该方向作为声源定位的方向。根据每个方向的各帧数据的峰度值求平均得到A个方向上所有的峰度值。本申请通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
进一步地,估测模块2,包括:
第一选取单元,用于按照预设角度范围,在当前空间内均匀选取N个方向向量dn,n=1,2,...,N;
计算单元,用于计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,其中,所述指定帧为所述当前音频数据的所有帧数据中的任一帧;
第一平滑单元,用于根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量dn上的N个响应值;
平铺单元,用于将所述N个响应值按照各自对应的空间位置,平铺得到角度谱angular spectrum;
搜索单元,用于在所述角度谱angular spectrum中搜索所有的响应值峰值点;
第二选取单元,用于在所有所述响应值峰值点中,按照响应值由大至小选取所述指定数量的响应值峰值点;
作为单元,用于通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合dpeak
Figure GDA0002680744990000141
A为所述指定数量。
本申请通过按照预设的角度范围,在当前空间中均匀选取N个方向向量dn,n=1,2,...,N,方向向量就是一个单位球上面均匀选择的经纬点,单位球的原点和这些经纬点的连线组成的向量就是方向向量。本申请通过特定的计算方式求取各方向向量上对当前音频数据的指定帧的帧响应值,然后通过平滑帧响应值形成当前音频数据在各方向向量的响应值,上述平滑过程可理解为求平均值的过程。然后将获得的N个响应值按照各自对应的空间位置,平铺得到角度谱angular spectrum,上述各空间位置由固定的俯仰角Φ和方位角θ决定,第n个响应值所在的空间位置为方向向量dn的终点。然后通过3×3邻域或5×5邻域等搜索所有的响应值峰值点,或者以聚类的方法搜索所有的响应值峰值点,比如聚类得到的类中心即为响应值峰值点。本实施例以3×3邻域搜索的方式进行详细说明,上述3×3邻域包括9宫格的选定框,当选定框的中心格对应的响应值均大于其他格对应的响应值,则认为筛选到了响应值峰值点,此时中心格对应的点成为响应值峰值点,响应值峰值点不单单与数值的大小相关,还与具体的位置相关。从N个方向向量dn中筛选响应值排前的A个响应值峰值点所对应的方向向量集合dpeak,作为指定数量为A个的声源方向,
Figure GDA0002680744990000151
通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合dpeak,响应值峰值点所在的角度(θ、φ),有其对应的方向向量,角度转为方向向量的方法为:方向向量d=(x,y,z),其中,x=cosφcosθ,y=cosφsinθ,z=sinφ。上述特定的计算方式包括但不限于计算基于相位变换加权的可控响应功率,以及计算可控响应信噪比等,在可控响应信噪比的计算过程中,优选最小方差无失真响应加权。本申请通过将L'帧频域信号的响应值结果进行平滑,比如通过求平均的方式进行平滑,并搜索A个响应值峰值点,得到L`帧频域信号对应的方向向量集合dpeak。在空间坐标系下,每个方向向量dn都可以分解为俯仰角φ和方位角θ,将(θ,φ,响应值)三者的对应表,在二维平面上平铺、并可视化,可以得到角度谱angular spectrum。如图2所示,在angular spectrum中找出5个响应值峰值点的示意图,图中5个“*”标注位置为响应值峰值点:横坐标为(-180°,180°)的方位角、纵坐标为(-90°,90°)俯仰角,角度分辨率为1°,角度谱angular spectrum上灰度的深浅表示每个位置上对应的响应值的大小,越深则值越小。
进一步地,所述智能设备上设置多个麦克风组成的麦克风阵列,计算单元,包括:
第一计算子单元,用于根据
Figure GDA0002680744990000152
计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差τij(dn),其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,||·||表示向量的2-范数;
判断子单元,用于判断所述当前空间的顶面和底面是否通过吸音材料围成,其中,所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面,所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面,所述直角坐标系的原点为所述麦克风阵列的圆心,以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面;
第一设定子单元,用于若通过吸音材料围成,则设定
Figure GDA0002680744990000161
并通过
Figure GDA0002680744990000162
计算所述第i个麦克风和所述第j个麦克风接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,lij是第i个麦克风到第j个麦克风的距离,J0(·)是第一类零阶贝塞尔函数,
Figure GDA0002680744990000163
real(·)表示取实部,
Figure GDA0002680744990000164
(·)*表示求共轭,
Figure GDA0002680744990000165
Fs为采样频率,ε为任意正实数,K表示傅里叶点数,k=1,2,3,...,K;
第二计算子单元,用于通过
Figure GDA0002680744990000166
计算所述指定帧在所述N个方向向量dn的可控响应信噪比,作为所述帧响应值,其中,n=1,2,...,N,l'表示所述当前音频数据对应的所述指定帧为第l'帧频域信号,M表示麦克风数量。
本申请优先选择通过计算可控响应信噪比的方式,作为帧响应值,通过对l`帧的响应值进行平滑(比如求平均)得到N个方向上的响应值,并通过N个方向上的响应值,得到角度谱,然后通过搜索的方式确定响应值峰值点。上述计算可控响应信噪比的方式,得到的峰值更尖锐,更适合于多声源定位。上述正实数的ε用来防止除零,上述直角坐标向量为坐标原点指向麦克风所在坐标点的向量。本申请中需要通过识别当前空间的顶面和地面是否存在吸音材料,来选择合适的散射噪声公式,比如天花板和地板为直角坐标系内当前空间的两个对称的端面,若均为吸音材料材质,则对音频信号的散射效果有较大影响。比如通过识别应用场景,确定空间内是否需要吸音材料,也可通过回声测试等方式,估测是否存在吸音材料,比如根据空间大小判断发射音频和接收音频的差异量,是否小于预测标准衰减,若是,则判定存在吸音材料,则调用本实施例的散射噪声公式,否则调用下一实施例的散射噪声公式。不存在吸音材料时,计算可控响应信噪比的方式,除散射噪声公式不同之外,其他过程均类似,不赘述。
进一步地,计算单元,包括:
第二设定子单元,用于若所述当前空间的顶面和底面不是吸音材料围成,则设定
Figure GDA0002680744990000171
并通过
Figure GDA0002680744990000172
计算所述第i个麦克风和所述第j个麦克风接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比;
第三计算子单元,用于通过
Figure GDA0002680744990000173
计算所述指定帧在所述N个方向向量dn的可控响应信噪比,作为所述帧响应值。
进一步地,所述智能设备上设置多个麦克风组成的麦克风阵列,计算单元,包括:
第四计算子单元,用于根据
Figure GDA0002680744990000174
计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差τij(dn),其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,||·||表示向量的2-范数;
第五计算子单元,用于根据
Figure GDA0002680744990000175
计算第i个麦克风和第j个麦克风接收所述当前音频数据的指定帧对应的频域信号在所述方向向量dn所在方向的基于相位变换加权的可控响应功率,其中,(·)*表示共轭,
Figure GDA0002680744990000176
Fs是采样频率,K表示傅里叶点数,k=1,2,3,...,K;
第六计算子单元,用于根据
Figure GDA0002680744990000177
计算所述指定帧在所述N个方向向量dn的基于相位变换加权的可控响应功率,作为所述帧响应值,其中,l'表示所述当前音频数据的指定帧为第l'帧频域信号,M表示麦克风数量。
本申请通过计算基于相位变换加权的可控响应功率的方式,作为帧响应值,进而分别平滑得到N个方向上的响应值,并通过N个方向上的响应值,得到角度谱,并搜索出A个响应值峰值点,作为A个方向的终点。本实施例的计算方式相比于计算可控响应信噪比的方式,计算量小,声源定位响应快,且对智能设备的计算能力要求低,方便更广泛地应用于大多数的智能设备上。
进一步地,波束成形模块3,包括:
得到单元,用于根据所述方向向量集合dpeak,利用Y(l',k)做波束成形,得到所述指定数量的方向上的波束输出Ba(l′,k),
Figure GDA0002680744990000181
其中,Wa(k)为空域滤波系数,
Figure GDA0002680744990000182
是Wa(k)的共轭转置,
Figure GDA0002680744990000183
αa(k)为与第a个方向向量
Figure GDA0002680744990000184
对应的导向向量,Γ(k)为散射噪声场的互相关矩阵,
Figure GDA0002680744990000185
其中,若所述当前空间的顶面和底面是吸音材料围成γi,j=J0(Ωlij/c),若所述当前空间的顶面和底面不是吸音材料围成
Figure GDA0002680744990000186
lij表示第i个麦克风到第j个麦克风的距离。
本申请优选通过超指向型波束成形,求得每个方向的波束,以提高指向声源定位方向的准确性。通过上述计算过程得到l'帧、A个方向波束成形之后的输出信号,利用逆快速傅里叶变换(IFFT),令其回到时域,得到ba(l'),以方便计算峰度值。其他实施例也可采用MVDR(Minimum Variance Distortionless Response)、DMA(differential microphonearray)、GSC(Generalized Side-lobe Canceller)等等来代替。
进一步地,计算模块4,包括:
变换单元,用于将所述指定数量的方向上的波束输出Ba(l′,k),通过逆快速傅里叶变换,得到所述指定数量的时域信号ba(l');
第二拼接单元,用于将所述指定数量的时域信号ba(l'),拼接形成所述指定数量的方向上的输出信号ba(l″);
计算单元,用于根据所述指定数量的方向上的输出信号ba(l″),通过公式
Figure GDA0002680744990000187
计算各方向上的所述峰度值,其中,
Figure GDA0002680744990000188
本申请在计算峰度值的过程中,利用求峰度值的方法对非高斯性进行度量,其他实施例可以用求负熵(Negentropy)的方法来代替。通过对每个方向的L″个峰度值进行求平均,即
Figure GDA0002680744990000191
在{G1,...,GA}中找出最大值所对应方向,作为最终的声源定位方向:
Figure GDA0002680744990000192
本申请在声源定位算法的基础上,增加了波束成形以及峰度值计算的过程,以峰度值最大的方向作为最终的声源定位方向,降低了噪声对声源定位的影响,大大增加了声源定位的抗干扰性能,解决了带唤醒词的智能设备在唤醒时的声源定位受噪声影响而降低声源定位的准确性的问题。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储抗噪声的声源定位过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现抗噪声的声源定位方法。
上述处理器执行上述抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:判断当前音频数据是否可触发唤醒;若是,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;根据所述指定数量的输出结果,计算峰度值;将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
上述计算机设备,通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:判断当前音频数据是否可触发唤醒;若是,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;根据所述指定数量的输出结果,计算峰度值;将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
上述计算机可读存储介质,通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种抗噪声的声源定位方法,其特征在于,用于具有唤醒功能的智能设备,方法包括:
判断当前音频数据是否可触发唤醒;
若是,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;
对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;
根据所述指定数量的输出结果,计算峰度值;
将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
2.根据权利要求1所述的抗噪声的声源定位方法,其特征在于,所述根据所述当前音频数据对应的频域信号,估测指定数量的声源方向的步骤,包括:
按照预设角度范围,在当前空间内均匀选取N个方向向量dn,n=1,2,...,N;
计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,其中,所述指定帧为所述当前音频数据的所有帧数据中的任一帧;
根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量dn上的N个响应值;
将所述N个响应值按照各自对应的空间位置,平铺得到角度谱angularspectrum;
在所述角度谱angularspectrum中搜索所有的响应值峰值点;
在所有所述响应值峰值点中,按照响应值由大至小选取所述指定数量的响应值峰值点;
通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合dpeak
Figure FDA0002680744980000011
A为所述指定数量。
3.根据权利要求2所述的抗噪声的声源定位方法,其特征在于,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值的步骤,包括:
根据
Figure FDA0002680744980000021
计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差τij(dn),其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,||·||表示向量的2-范数;
判断所述当前空间的顶面和底面是否通过吸音材料围成,其中,所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面,所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面,所述直角坐标系的原点为所述麦克风阵列的圆心,以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面;
若是,则设定
Figure FDA0002680744980000022
并通过
Figure FDA0002680744980000023
计算所述第i个麦克风和所述第j个麦克风接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,lij是第i个麦克风到第j个麦克风的距离,J0(·)是第一类零阶贝塞尔函数,
Figure FDA0002680744980000024
real(·)表示取实部,
Figure FDA0002680744980000025
(·)*表示求共轭,
Figure FDA0002680744980000026
Fs为采样频率,ε为任意正实数,K表示傅里叶点数,k=1,2,3,...,K;
通过
Figure FDA0002680744980000027
计算所述指定帧在所述N个方向向量dn的可控响应信噪比,作为所述帧响应值,l'表示所述当前音频数据对应的所述指定帧为第l'帧频域信号,M表示麦克风数量。
4.根据权利要求3所述的抗噪声的声源定位方法,其特征在于,所述判断所述当前空间的顶面和底面是否通过吸音材料围成的步骤之后,包括:
若所述当前空间的顶面和底面不是吸音材料围成,则设定
Figure FDA0002680744980000031
并通过
Figure FDA0002680744980000032
计算所述第i个麦克风和所述第j个麦克风接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比;
通过
Figure FDA0002680744980000033
计算所述指定帧在所述N个方向向量dn的可控响应信噪比,作为所述帧响应值。
5.根据权利要求4所述的抗噪声的声源定位方法,其特征在于,所述对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果的步骤,包括:
根据所述方向向量集合dpeak,利用Y(l',k)做波束成形,得到所述指定数量的方向上的波束输出Ba(l',k),
Figure FDA0002680744980000034
其中,Wa(k)为空域滤波系数,
Figure FDA0002680744980000035
是Wa(k)的共轭转置,
Figure FDA0002680744980000036
αa(k)为与第a个方向向量
Figure FDA0002680744980000037
对应的导向向量,Γ(k)为散射噪声场的互相关矩阵,
Figure FDA0002680744980000038
其中,若所述当前空间的顶面和底面是吸音材料围成γi,j=J0(Ωlij/c),若所述当前空间的顶面和底面不是吸音材料围成
Figure FDA0002680744980000039
lij表示第i个麦克风到第j个麦克风的距离。
6.根据权利要求2所述的抗噪声的声源定位方法,其特征在于,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值的步骤,包括:
根据
Figure FDA0002680744980000041
计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差τij(dn),其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,||·||表示向量的2-范数;
根据
Figure FDA0002680744980000042
计算第i个麦克风和第j个麦克风接收所述当前音频数据的指定帧对应的频域信号在所述方向向量dn所在方向的基于相位变换加权的可控响应功率,其中,(·)*表示共轭,
Figure FDA0002680744980000043
Fs是采样频率,K表示傅里叶点数,k=1,2,3,...,K;
根据
Figure FDA0002680744980000044
计算所述指定帧在所述N个方向向量dn的基于相位变换加权的互相关函数值基于相位变换加权的可控响应功率,作为所述帧响应值,l'表示所述当前音频数据对应的所述指定帧为第l'帧频域信号,M表示麦克风数量。
7.根据权利要求6所述的抗噪声的声源定位方法,其特征在于,所述根据所述指定数量的输出结果,计算峰度值的步骤,包括:
将所述指定数量的方向上的波束输出Ba(l′,k),通过逆快速傅里叶变换,得到所述指定数量的时域信号ba(l');
将所述指定数量的时域信号ba(l'),拼接形成所述指定数量的方向上的输出信号ba(l”);
根据所述指定数量的方向上的输出信号ba(l”),通过公式
Figure FDA0002680744980000045
计算各方向上的所述峰度值,其中,
Figure FDA0002680744980000046
8.一种抗噪声的声源定位装置,其特征在于,集成于具有唤醒功能的智能设备,装置包括:
判断模块,用于判断当前音频数据是否可触发唤醒;
估测模块,用于若可触发唤醒,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;
波束成形模块,用于对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;
计算模块,用于根据所述指定数量的输出结果,计算峰度值;
作为模块,用于将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010583990.1A 2020-06-24 2020-06-24 抗噪声的声源定位方法、装置和计算机设备 Active CN111489753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010583990.1A CN111489753B (zh) 2020-06-24 2020-06-24 抗噪声的声源定位方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010583990.1A CN111489753B (zh) 2020-06-24 2020-06-24 抗噪声的声源定位方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111489753A CN111489753A (zh) 2020-08-04
CN111489753B true CN111489753B (zh) 2020-11-03

Family

ID=71810543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010583990.1A Active CN111489753B (zh) 2020-06-24 2020-06-24 抗噪声的声源定位方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN111489753B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111929645B (zh) * 2020-09-23 2021-01-26 深圳市友杰智新科技有限公司 特定人声的声源定位方法、装置和计算机设备
CN113314135B (zh) * 2021-05-25 2024-04-26 北京小米移动软件有限公司 声音信号识别方法及装置
CN113419216B (zh) * 2021-06-21 2023-10-31 南京信息工程大学 一种适用于混响环境的多声源定位方法
CN114136434B (zh) * 2021-11-12 2023-09-12 国网湖南省电力有限公司 一种变电站站界噪声抗干扰估算方法和系统
CN114678021B (zh) * 2022-03-23 2023-03-10 小米汽车科技有限公司 音频信号的处理方法、装置、存储介质及车辆
CN115620727B (zh) * 2022-11-14 2023-03-17 北京探境科技有限公司 音频处理方法、装置、存储介质及智能眼镜

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014167700A1 (ja) * 2013-04-12 2014-10-16 株式会社日立製作所 移動ロボット、及び、音源位置推定システム
CN106863320B (zh) * 2017-01-18 2019-12-24 北京光年无限科技有限公司 一种用于智能机器人的语音交互数据获取方法及装置
US10433051B2 (en) * 2017-05-29 2019-10-01 Staton Techiya, Llc Method and system to determine a sound source direction using small microphone arrays
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
CN109346100A (zh) * 2018-10-25 2019-02-15 烟台市奥境数字科技有限公司 一种数字媒体交互式教学系统的网络传输方法
CN110261816B (zh) * 2019-07-10 2020-12-15 苏州思必驰信息科技有限公司 语音波达方向估计方法及装置
CN110534126B (zh) * 2019-09-07 2022-03-22 广州智伴人工智能科技有限公司 一种基于固定波束形成的声源定位和语音增强方法及系统
CN110794368B (zh) * 2019-10-28 2021-10-19 星络智能科技有限公司 一种声源定位方法、装置、智能音箱及存储介质
CN111048106B (zh) * 2020-03-12 2020-06-16 深圳市友杰智新科技有限公司 基于双麦克风的拾音方法、装置和计算机设备
CN111060872B (zh) * 2020-03-17 2020-06-23 深圳市友杰智新科技有限公司 基于麦克风阵列的声源定位方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111489753A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN111489753B (zh) 抗噪声的声源定位方法、装置和计算机设备
RU2642353C2 (ru) Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи
Asano et al. Real-time sound source localization and separation system and its application to automatic speech recognition
US9042573B2 (en) Processing signals
JP2008079256A (ja) 音響信号処理装置、音響信号処理方法及びプログラム
CN103181190A (zh) 用于远场多源追踪和分离的系统、方法、设备和计算机可读媒体
Brutti et al. Oriented global coherence field for the estimation of the head orientation in smart rooms equipped with distributed microphone arrays.
CN105068048A (zh) 基于空间稀疏性的分布式麦克风阵列声源定位方法
CN113126028B (zh) 一种基于多个麦克风阵列的噪声源定位方法
JP2010281816A (ja) 音源方向推定装置及び音源方向推定方法
BR112019013548A2 (pt) Aparelho de captura de áudio, método de operação para capturar áudio, e produto de programa de computador
WO2020079957A1 (ja) 音声信号処理装置、雑音抑圧方法
JP2014098568A (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
CN114171041A (zh) 基于环境检测的语音降噪方法、装置、设备及存储介质
Pan et al. On the design of target beampatterns for differential microphone arrays
Cho et al. Sound source localization for robot auditory systems
Rathsam et al. Analysis of absorption in situ with a spherical microphone array
Marković et al. Estimation of acoustic reflection coefficients through pseudospectrum matching
CN111537955A (zh) 一种基于球麦克风阵列的多声源定位方法及装置
JP4738284B2 (ja) ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
Zhu et al. An acoustic modelling based remote error sensing approach for quiet zone generation in a noisy environment
US11830471B1 (en) Surface augmented ray-based acoustic modeling
Togami et al. Head orientation estimation of a speaker by utilizing kurtosis of a DOA histogram with restoration of distance effect
Astapov et al. Far field speech enhancement at low SNR in presence of nonstationary noise based on spectral masking and MVDR beamforming
Olgun et al. Localization of multiple sources in the spherical harmonic domain with hierarchical grid refinement and eb-music

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant