CN110554357B - 声源定位方法和装置 - Google Patents

声源定位方法和装置 Download PDF

Info

Publication number
CN110554357B
CN110554357B CN201910867055.5A CN201910867055A CN110554357B CN 110554357 B CN110554357 B CN 110554357B CN 201910867055 A CN201910867055 A CN 201910867055A CN 110554357 B CN110554357 B CN 110554357B
Authority
CN
China
Prior art keywords
energy
spatial spectrum
sound source
microphone array
arrival
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910867055.5A
Other languages
English (en)
Other versions
CN110554357A (zh
Inventor
夏杰
周强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201910867055.5A priority Critical patent/CN110554357B/zh
Publication of CN110554357A publication Critical patent/CN110554357A/zh
Application granted granted Critical
Publication of CN110554357B publication Critical patent/CN110554357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开声源定位方法和装置,其中,方法包括:对麦克风阵列接收的信号进行计算得到空间谱;确定空间谱所具有的谱峰的数量;若空间谱具有多个谱峰,使用固定波束形成器形成与麦克风阵列对应的多个不同方向的波束,其中,所述多个不同方向的波束至少包括第一方向波束和第二方向波束;计算第一方向波束的能量、第二方向波束的能量以及第一方向波束和第二方向波束的能量差;判断能量差是否大于等于预设阈值;若能量差大于等于预设阈值,输出第一方向波束的能量和第二方向波束的能量中能量最大的波束所对应的角度为波达方向。本申请的提供的方案充分考虑到各种干扰噪声的影响,能够实现更精准地声源定位。

Description

声源定位方法和装置
技术领域
本发明属于语音交互技术领域,尤其涉及声源定位方法和装置。
背景技术
在真实场景中,使用麦克风阵列定位说话人方向的时候,不可避免地会接收到来自其他方向上的干扰,例如电视、音乐等干扰噪声。同时由于供电的限制,麦克风阵列的摆放位置会靠近于墙壁,由墙面引起的反射声波也容易影响到定位的准确度。
发明人在实现本申请的过程中发现,现有技术的方案至少存在以下缺陷:传统的MUSIC(Multiple Signal Classification,空间谱估计算法)方法虽然可以同时定位出多个声源,但难以区分唤醒方向到底具体的对应哪个角度。传统的GCC-PHAT(GeneralizedCross Correlation PHAse Transformation,广义互相关-相位变换方法)方法也难以解决由于墙面反射带来的定位不准问题。
发明内容
本发明实施例提供一种声源定位方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种声源定位方法,包括:对麦克风阵列接收的信号进行计算得到空间谱;确定所述空间谱所具有的谱峰的数量;若所述空间谱具有多个谱峰,使用固定波束形成器形成与麦克风阵列对应的多个不同方向的波束,其中,所述多个不同方向的波束至少包括第一方向波束和第二方向波束;计算所述第一方向波束的能量、所述第二方向波束的能量以及所述第一方向波束和所述第二方向波束的能量差;判断所述能量差是否大于等于预设阈值;若所述能量差大于等于所述预设阈值,输出所述第一方向波束的能量和所述第二方向波束的能量中能量最大的波束所对应的角度为波达方向。
第二方面,本发明实施例提供一种声源定位装置,包括:空间谱计算模块,配置为对麦克风阵列接收的信号进行计算得到空间谱;谱峰数量确定模块,配置为确定所述空间谱所具有的谱峰的数量;波束形成模块,配置为若所述空间谱具有多个谱峰,使用固定波束形成器形成与麦克风阵列对应的多个不同方向的波束,其中,所述多个不同方向的波束至少包括第一方向波束和第二方向波束;能量计算模块,配置为计算所述第一方向波束的能量、所述第二方向波束的能量以及所述第一方向波束和所述第二方向波束的能量差;判断模块,配置为判断所述能量差是否大于等于预设阈值;第一输出模块,配置为若所述能量差大于等于所述预设阈值,输出所述第一方向波束的能量和所述第二方向波束的能量中能量最大的波束所对应的角度为波达方向。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的声源定位方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的声源定位方法的步骤。
本申请的方法和装置提供的方案先计算得到空间谱,再根据空间谱中所具有的谱峰的数量,即可判断是否存在反射声波束,如果有多个谱峰,说明存在反射声波束,此时就需要再进行一些别的计算排除反射声波束的干扰,才能最终确定比较准确的直达声波束,而直达声波束对应的方向即为声源的波达方向。因为直达声波束能量较大,一般都会与反射声波束存在一个能量差,当这个能量差超过阈值时,其中能量较大的那个波束就可以确定为直达声波束,该直达声波束对应的波束方向即为声源的波达方向。因此,通过本申请的方案可以准确地计算出声源的波达方向。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种声源定位方法的流程图;
图2为本发明一实施例提供的另一种声源定位方法的流程图;
图3为本发明一实施例提供的一种声源定位方法的一个具体示例的流程图;
图4为本发明一实施例提供的一种声源定位装置的框图;
图5是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的声源定位方法一实施例的流程图,本实施例的声源定位方法可以适用于具备语音唤醒、识别、理解和反馈能力的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备语音唤醒能力的智能语音终端等。
如图1所示,在步骤101中,对麦克风阵列接收的信号进行计算得到空间谱;
在步骤102中,确定空间谱所具有的谱峰的数量;
在步骤103中,若空间谱具有多个谱峰,使用固定波束形成器形成与麦克风阵列对应的多个不同方向的波束,其中,多个不同方向的波束至少包括第一方向波束和第二方向波束;
在步骤104中,计算第一方向波束的能量、第二方向波束的能量以及第一方向波束和第二方向波束的能量差;
在步骤105中,判断能量差是否大于等于预设阈值;
在步骤106中,若能量差大于等于预设阈值,输出第一方向波束的能量和第二方向波束的能量中能量最大的波束所对应的角度为波达方向。
在本实施例中,对于步骤101,声源定位装置对麦克风阵列接收的信号进行计算得到空间谱。之后,对于步骤102,声源定位装置确定空间谱所具有的谱峰的数量,其中,谱峰的数量包括单个谱峰和多个谱峰。之后。对于步骤103,若声源定位装置检测到空间谱具有多个谱峰,使用固定波束形成器形成与麦克风阵列对应的多个不同方向的波束,其中,多个不同方向的波束至少包括第一方向波束和第二方向波束。其中,多个方向的波束可能包括不只两个方向的波束,此处只是泛泛地将其分为第一方向波束和第二方向波束,分别代表的是直达声波束和反射声波束中的任一种,本申请在此没有限制,后续不再赘述。
之后,对于步骤104,声源定位装置计算第一方向波束的能量、第二方向波束的能量以及第一方向波束和第二方向波束的能量差。然后,对于步骤105,声源定位装置判断第一方向波束和第二方向波束的能量差是否大于等于预设阈值。最后,对于步骤106,若能量差大于等于预设阈值,输出第一方向波束的能量和第二方向波束的能量中能量最大的波束所对应的角度为波达方向。
本实施例的方法通过先计算得到空间谱,再根据空间谱中所具有的谱峰的数量,即可判断是否存在反射声波束,如果有多个谱峰,说明存在反射声波束,此时就需要再进行一些别的计算排除反射声波束的干扰,才能最终确定比较准确的直达声波束,而直达声波束对应的方向即为声源的波达方向。因为直达声波束能量较大,一般都会与反射声波束存在一个能量差,当这个能量差超过阈值时,其中能量较大的那个波束就可以确定为直达声波束,该直达声波束对应的波束方向即为声源的波达方向。因此,通过本申请的方案可以准确地计算出声源的波达方向。
在一些可选的实施例中,在确定空间谱所具有的谱峰的数量之后,方法还包括:若空间谱仅具有单个谱峰,输出单个谱峰所对应的角度为波达方向。从而对于只有单个谱峰的可以直接输出对应的角度信息,该对应的角度信息即为波达方向。
进一步参考图2,根据权利要求2的方法,其中,方法还包括:
在步骤201中,若能量差小于预设阈值,计算第一方向波束的相对延迟和第二方向波束的相对延迟;
在步骤202中,输出第一方向波束的相对延迟和第二方向波束的相对延迟中延迟最小的波束所对应的角度为波达方向。
在本实施例中,对于步骤201,若声源定位装置检测到第一方向波束和第二方向波束的能量差小于预设阈值,则计算该第一方向波束的相对延迟和第二方向波束的相对延迟,进一步地,可以通过广义互相关函数方法进行时延估计。之后,对于步骤202,对于第一方向波束的相对延迟和第二方向波束的相对延迟,其中延迟最小的那个对应的就是直达声波束的延迟,而直达声波束的方向对应的就是波达方向,所以输出其中延迟最小的那个波束对应的角度,该角度即为声源的波达方向。
本实施例的方法通过计算相对延迟,即可判断出哪个波束是直达声波束,因为直达声波束的延迟会比反射声波束的延迟要短,所以可以通过该方式确定哪个波束是直达声波束。而直达声波束对应的方向就是声源的波达方向,从而可以通过该方法最终输出声源的波达方向。
在一些可选的实施例中,对麦克风阵列接收的信号进行计算得到空间谱包括:使用独立矢量分析得到与多个麦克风接收信号对应的分离矩阵;计算与能够唤醒设备的唤醒信号对应的分离矩阵的空间谱。从而可以通过以上方案很快地计算出空间谱。
在进一步可选的实施例中,使用独立矢量分析得到与多个麦克风接收信号对应的分离矩阵包括:基于短时傅里叶变换将麦克风阵列接收的信号建模为X(t,f);使用独立矢量分析矩阵计算分离矩阵W(t,f)对麦克风阵列接收的信号滤波得到声源信号的估计信号Y(t,f),其中,Y(t,f)=W(t,f)*X(t,f);将估计信号送入设备中的唤醒模块,并确定与唤醒信号对应的分离矩阵。从而可以通过以上方式更快地确定换新型号对应的分离矩阵,从而有助于计算空间谱。
进一步可选的,计算与唤醒信号对应的分离矩阵的空间谱包括:使用唤醒信号对应的分离矩阵计算空间协方差矩阵;对计算得到的空间协方差矩阵进行特征值分解得到最大特征值,对应的向量即为信号空间,剩余向量组成的噪声空间;基于信号空间和噪声空间计算空间谱。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
针对真实场景中存在的干扰和墙面反射问题,本申请一个具体实施例提出了如下解决方案:
首先利用IVA方法得到不同声源的分离矩阵,再计算对应的空间协方差矩阵。在确定被唤醒信号所对应的空间协方差矩阵后使用MUSIC方法对唤醒方向进行定位,计算其空间谱。若空间谱对应的是仅单个谱峰,则输出对应的角度信息即可。若对应的是多个谱峰,则表示唤醒信号空间协方差矩阵中包含了墙面反射,还需要确定直达声和反射声各自的对应方向。具体的做法是首先通过固定波束形成得到不同方向上的波束,然后计算直达声波束和反射声波束的能量,由于直达声波束能量通常会大于反射声波束能量,所以当较大波束能量与较小波束能量之差超过某一阈值时,较大能量的波束可判定为直达声波束,输出能量较大波束对应的角度即可。若两个波束的能量较为接近,则需计算两个波束之间的广义互相关函数,由于直达声的传播时间较反射声更短,所以将时延较小的波束判定为直达声波束,输出延迟较小波束对应的角度即可。
在真实的家居环境中,使用麦克风阵列定位用户位置的时候可能会受到电视等其它干扰的影响。将麦克风阵列接收的信号经过短时傅里叶变换可以建模为X(t,f)=A(t,f)S(t,f)。
其中X(t,f)=[X1(t,f)X2(t,f)...XK(t,f)]表示麦克风接收信号,K为麦克风的总个数,t为时间指数,f为频带指数。S1(t,f)表示来自用户的期望信号,S2(t,f)...SN(t,f)表示的来自电视或其它的干扰信号,N为声源数目,且N小于等于K,A(t,f)为声学传递函数。使用独立矢量分析(Independent vector analysis,IVA)计算分离矩阵W(t,f)对麦克风接收信号滤波得到声源信号的估计Y(t,f)=W(t,f)X(t,f)。
为了估计分离矩阵,我们最小化如下代价函数:
Figure BDA0002201567460000061
其中,E[·]表示期望操作,基于梯度下降法则迭代更新分离矩阵W(t,f):
W(t,f)=W(t,f)+μ(I-E[eYh])W(t,f)。
将估计信号送入唤醒模块,确定所唤醒信号对应的分离矩阵。
使用唤醒信号对应的分离矩阵计算期望信号的空间协相关矩阵RSS(t,f)=W1(t,f)X(t,f)Xh(t,f)W1 h(t,f),对Rss(t,f)进行特征值分解,最大特征值对应的向量是信号空间Us,剩下的K-1个向量组成噪声空间Un,空间谱函数使用下式计算:
Figure BDA0002201567460000071
其中,d(t,f,θ)表示θ方向上的导向矢量,使方向θ变化,通过寻找波峰来估计角度。若对应的空间谱仅有单个谱峰,则将其对应的角度输出即可。若对应多个谱峰则说明,找出的角度中有反射声波存在,需要进一步确定直达声方向和反射声方向。
当麦克风阵列摆放位置靠近墙壁时也会接收墙面的反射声,反射声的存在会影响到直达声角度的确定。为了得到直达声角度,首先我们将360度划分为K个子空间,同时使用K个固定波束形成器h(t,f,θk)对K个麦克风接收信号滤波得到K个子波束,直达声角度对应子空间的波束称为直达声波束yd(t,f)=h(t,f,θi)X(t,f),反射声角度对应子空间的波束称为反射声波束yr(t,f)=h(t,f,θj)X(t,f)。由于直达声能量通常比反射声能量更大,所以可以通过计算直达声波束和反射声波束的能量差Ed=10log10(|yd|2)-10log10(|yr|2)来判定直达声角度。当能量差Ed大于阈值th0的时候,判定能量更大的波束为直达声波束,对应的DOA角度为期望信号方向,th0由大量实验或经验值得到,比如可以取1.5dB。若直达声波束能量和反射声波束能量较为接近时,则需要进一步判断。由于反射声到达麦克风阵列的时间相比直达声到达麦克风阵列的时间更长,所以可以通过计算直达声固定波束和反射声固定波束的相对延迟Gd=GCC(yd,yr),判定延时Gd更小的波束为直达声波束,对应的DOA角度为期望信号方向,
Figure BDA0002201567460000072
为归一化的广义互相关函数。
请参考图4,其示出了本发明一实施例提供的声源定位装置的框图。
如图4所示,声源定位装置400,包括空间谱计算模块410、谱峰数量确定模块420、波束形成模块430、能量计算模块440、判断模块450和第一输出模块460。
其中,空间谱计算模块410,配置为对麦克风阵列接收的信号进行计算得到空间谱;谱峰数量确定模块420,配置为确定所述空间谱所具有的谱峰的数量;波束形成模块430,配置为若所述空间谱具有多个谱峰,使用固定波束形成器形成与麦克风阵列对应的多个不同方向的波束,其中,所述多个不同方向的波束至少包括第一方向波束和第二方向波束;能量计算模块440,配置为计算所述第一方向波束的能量、所述第二方向波束的能量以及所述第一方向波束和所述第二方向波束的能量差;判断模块450,配置为判断所述能量差是否大于等于预设阈值;第一输出模块460,配置为若所述能量差大于等于所述预设阈值,输出所述第一方向波束的能量和所述第二方向波束的能量中能量最大的波束所对应的角度为波达方向。
在一些可选的实施例中,上述装置还包括:第二输出模块(图中未示出),配置为若所述空间谱仅具有单个谱峰,输出所述单个谱峰所对应的角度为波达方向。
应当理解,图4中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如谱峰数量确定模块可以描述为确定所述空间谱所具有的谱峰的数量的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如谱峰数量确定模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的声源定位方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
对麦克风阵列接收的信号进行计算得到空间谱;
确定所述空间谱所具有的谱峰的数量;
若所述空间谱具有多个谱峰,使用固定波束形成器形成与麦克风阵列对应的多个不同方向的波束,其中,所述多个不同方向的波束至少包括第一方向波束和第二方向波束;
计算所述第一方向波束的能量、所述第二方向波束的能量以及所述第一方向波束和所述第二方向波束的能量差;
判断所述能量差是否大于等于预设阈值;
若所述能量差大于等于所述预设阈值,输出所述第一方向波束的能量和所述第二方向波束的能量中能量最大的波束所对应的角度为波达方向。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据声源定位装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至声源定位装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项声源定位方法。
图5是本发明实施例提供的电子设备的结构示意图,如图5所示,该设备包括:一个或多个处理器510以及存储器520,图5中以一个处理器510为例。声源定位方法的设备还可以包括:输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例声源定位方法。输入装置530可接收输入的数字或字符信息,以及产生与多设备协同语音交互算法的装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于声源定位装置中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
对麦克风阵列接收的信号进行计算得到空间谱;
确定所述空间谱所具有的谱峰的数量;
若所述空间谱具有多个谱峰,使用固定波束形成器形成与麦克风阵列对应的多个不同方向的波束,其中,所述多个不同方向的波束至少包括第一方向波束和第二方向波束;
计算所述第一方向波束的能量、所述第二方向波束的能量以及所述第一方向波束和所述第二方向波束的能量差;
判断所述能量差是否大于等于预设阈值;
若所述能量差大于等于所述预设阈值,输出所述第一方向波束的能量和所述第二方向波束的能量中能量最大的波束所对应的角度为波达方向。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种声源定位方法,包括:
对麦克风阵列接收的信号进行计算得到空间谱;
确定所述空间谱所具有的谱峰的数量;
若所述空间谱具有多个谱峰,使用固定波束形成器形成与麦克风阵列对应的多个不同方向的波束,其中,所述多个不同方向的波束至少包括第一方向波束和第二方向波束;
计算所述第一方向波束的能量、所述第二方向波束的能量以及所述第一方向波束和所述第二方向波束的能量差;
判断所述能量差是否大于等于预设阈值;
若所述能量差大于等于所述预设阈值,输出所述第一方向波束的能量和所述第二方向波束的能量中能量最大的波束所对应的角度为波达方向,从而当所述能量差超过预设阈值时,其中能量较大的那个波束就确定为直达声波束和反射声波束中的直达声波束,所述直达声波束对应的波束方向即为声源的波达方向。
2.根据权利要求1所述的方法,其中,在所述确定所述空间谱所具有的谱峰的数量之后,所述方法还包括:
若所述空间谱仅具有单个谱峰,输出所述单个谱峰所对应的角度为波达方向。
3.根据权利要求2所述的方法,其中,所述方法还包括:
若所述能量差小于所述预设阈值,计算所述第一方向波束的相对延迟和所述第二方向波束的相对延迟;
输出所述第一方向波束的相对延迟和所述第二方向波束的相对延迟中延迟最小的波束所对应的角度为波达方向。
4.根据权利要求1所述的方法,其中,所述对麦克风阵列接收的信号进行计算得到空间谱包括:
使用独立矢量分析得到与多个麦克风接收信号对应的分离矩阵;
计算与能够唤醒设备的唤醒信号对应的分离矩阵的空间谱。
5.根据权利要求4所述的方法,其中,所述使用独立矢量分析得到与多个麦克风接收信号对应的分离矩阵包括:
基于短时傅里叶变换将麦克风阵列接收的信号建模为X(t,f);
使用独立矢量分析矩阵计算分离矩阵W(t,f)对麦克风阵列接收的信号滤波得到声源信号的估计信号Y(t,f),其中,Y(t,f)=W(t,f)*X(t,f);
将所述估计信号送入设备中的唤醒模块,并确定与唤醒信号对应的分离矩阵。
6.根据权利要求5所述的方法,其中,所述计算与唤醒信号对应的分离矩阵的空间谱包括:
使用所述唤醒信号对应的分离矩阵计算空间协方差矩阵;
对计算得到的空间协方差矩阵进行特征值分解得到最大特征值,其中,所述最大特征值对应的向量为信号空间,剩余的向量组成的噪声空间;
基于所述信号空间和所述噪声空间计算空间谱。
7.一种声源定位装置,包括:
空间谱计算模块,配置为对麦克风阵列接收的信号进行计算得到空间谱;
谱峰数量确定模块,配置为确定所述空间谱所具有的谱峰的数量;
波束形成模块,配置为若所述空间谱具有多个谱峰,使用固定波束形成器形成与麦克风阵列对应的多个不同方向的波束,其中,所述多个不同方向的波束至少包括第一方向波束和第二方向波束;
能量计算模块,配置为计算所述第一方向波束的能量、所述第二方向波束的能量以及所述第一方向波束和所述第二方向波束的能量差;
判断模块,配置为判断所述能量差是否大于等于预设阈值;
第一输出模块,配置为若所述能量差大于等于所述预设阈值,输出所述第一方向波束的能量和所述第二方向波束的能量中能量最大的波束所对应的角度为波达方向,从而当所述能量差超过预设阈值时,其中能量较大的那个波束就确定为直达声波束和反射声波束中的直达声波束,所述直达声波束对应的波束方向即为声源的波达方向。
8.根据权利要求7所述的装置,还包括:
第二输出模块,配置为若所述空间谱仅具有单个谱峰,输出所述单个谱峰所对应的角度为波达方向。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN201910867055.5A 2019-09-12 2019-09-12 声源定位方法和装置 Active CN110554357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910867055.5A CN110554357B (zh) 2019-09-12 2019-09-12 声源定位方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910867055.5A CN110554357B (zh) 2019-09-12 2019-09-12 声源定位方法和装置

Publications (2)

Publication Number Publication Date
CN110554357A CN110554357A (zh) 2019-12-10
CN110554357B true CN110554357B (zh) 2022-01-18

Family

ID=68740137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910867055.5A Active CN110554357B (zh) 2019-09-12 2019-09-12 声源定位方法和装置

Country Status (1)

Country Link
CN (1) CN110554357B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599366B (zh) * 2020-05-19 2024-04-12 科大讯飞股份有限公司 一种车载多音区语音处理的方法和相关装置
CN111812588B (zh) * 2020-07-20 2023-08-18 百度在线网络技术(北京)有限公司 多设备语音唤醒实现方法及设备、电子设备和介质
CN112198474B (zh) * 2020-09-18 2022-02-15 北京声智科技有限公司 一种声源定位方法、装置、介质和设备
CN112462323A (zh) * 2020-11-24 2021-03-09 嘉楠明芯(北京)科技有限公司 一种信号定向方法、装置及计算机可读存储介质
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN113009419B (zh) * 2021-02-25 2021-11-09 中国科学院声学研究所 一种基于频域互相关匹配的目标深度估计方法
CN113053408B (zh) * 2021-03-12 2022-06-14 云知声智能科技股份有限公司 一种声源分离方法及装置
CN112799017B (zh) * 2021-04-07 2021-07-09 浙江华创视讯科技有限公司 声源定位方法、装置、存储介质及电子设备
CN113281704B (zh) * 2021-04-27 2024-04-02 维沃移动通信有限公司 方位角确定方法、装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105204001A (zh) * 2015-10-12 2015-12-30 Tcl集团股份有限公司 一种声源定位的方法及系统
CN105467364A (zh) * 2015-11-20 2016-04-06 百度在线网络技术(北京)有限公司 一种定位目标声源的方法和装置
CN110095755A (zh) * 2019-04-01 2019-08-06 北京云知声信息技术有限公司 一种声源定位方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1160890C (zh) * 2000-11-15 2004-08-04 华为技术有限公司 无线通信系统中数字波束形成方法、模块及其阵列接收机
US9706298B2 (en) * 2013-01-08 2017-07-11 Stmicroelectronics S.R.L. Method and apparatus for localization of an acoustic source and acoustic beamforming
CN108735227B (zh) * 2018-06-22 2020-05-19 北京三听科技有限公司 对麦克风阵列拾取的语音信号进行声源分离的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105204001A (zh) * 2015-10-12 2015-12-30 Tcl集团股份有限公司 一种声源定位的方法及系统
CN105467364A (zh) * 2015-11-20 2016-04-06 百度在线网络技术(北京)有限公司 一种定位目标声源的方法和装置
CN110095755A (zh) * 2019-04-01 2019-08-06 北京云知声信息技术有限公司 一种声源定位方法

Also Published As

Publication number Publication date
CN110554357A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN110554357B (zh) 声源定位方法和装置
CN108899044B (zh) 语音信号处理方法及装置
CN108417224B (zh) 双向神经网络模型的训练和识别方法及系统
EP3347894B1 (en) Arbitration between voice-enabled devices
US8981994B2 (en) Processing signals
JP6837099B2 (ja) 音響エコーキャンセルのための室内インパルス応答の推定
WO2020103703A1 (zh) 一种音频数据处理方法、装置、设备及存储介质
US20130294611A1 (en) Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation
CN110400572B (zh) 音频增强方法及系统
US9632586B2 (en) Audio driver user interface
CN108922553B (zh) 用于音箱设备的波达方向估计方法及系统
WO2020088153A1 (zh) 语音处理方法、装置、存储介质和电子设备
TWI711035B (zh) 方位角估計的方法、設備、語音交互系統及儲存介質
CN109270493B (zh) 声源定位方法和装置
CN113113034A (zh) 用于平面麦克风阵列的多源跟踪和语音活动检测
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
US10602270B1 (en) Similarity measure assisted adaptation control
CN106537501A (zh) 混响估计器
US11749294B2 (en) Directional speech separation
WO2017129239A1 (en) System and apparatus for tracking moving audio sources
Higuchi et al. Underdetermined blind separation and tracking of moving sources based ONDOA-HMM
CN108107403A (zh) 一种波达方向估计方法和装置
WO2016119388A1 (zh) 一种基于语音信号构造聚焦协方差矩阵的方法及装置
US11107492B1 (en) Omni-directional speech separation
WO2022063215A1 (zh) 结合ai模型的特征域语音增强方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

GR01 Patent grant
GR01 Patent grant