CN112684413B

CN112684413B - 声源寻向方法和xr设备

Info

Publication number: CN112684413B
Application number: CN202110284785.XA
Authority: CN
Inventors: 董希成; 付济强
Original assignee: Hangzhou Companion Technology Co ltd
Current assignee: Hangzhou Companion Technology Co ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-05-25
Anticipated expiration: 2041-03-17
Also published as: CN112684413A

Abstract

本申请涉及声源寻向方法和XR设备，通过第一麦克风、第二麦克风分别采集真实声源得到的第一声音信号、第二声音信号，第一麦克风和第二麦克风间隔设置；确定分别多个预设位置上的各假想声源的声音信号被第一麦克风和第二麦克风采集的时间差值，多个预设位置非共线；根据时间差值、第一声音信号和第二声音信号，确定各假想声源的假想能量值；根据各假想声源的假想能量值，确定各假想声源的等效能量中心，根据各假想声源的等效能量中心，确定真实声源的等效方向，在麦克风阵列的麦克风数量减少、麦克风间距变小时，解决了语音寻向不够准确的问题，提升了语音寻向的准确度。

Description

声源寻向方法和XR设备

技术领域

本申请涉及语音寻向处理领域，特别是涉及声源寻向方法和XR设备。

背景技术

现有的语音寻向方法是基于麦克风阵列的，麦克风阵列需要多个麦克风，例如4~6个，麦间距较大，例如大于4cm，一对麦克风构成一个探测器，麦克风数量越多，探测器数就越多，麦克风间距越大，麦克风之间的相位差就越明显，综合而言，语音寻向的定位精度就越高。

相关技术的语音寻向过程：以16ms语音为一个处理周期，先将各麦克风采集到的语音信号通过傅立叶变换（Fast Fourier Transform，简称为FFT）处理，从时域转换到频域，再根据各个频段语音的相位的相关性求解声源的方向。该方法在多麦克风阵列和理想环境中表现不错，但是，对于可穿戴设备而言，麦克风数量变少、麦克风间距变小、环境混响因素不容忽视之后，该方法就存在着一些缺陷。

一方面，当麦克风阵列中只存在两个麦克风（即只有一个探测器），而且麦间距远远小于4cm的情况下，各麦克风接收到的语音信号的相位差差异度将变得不明显。另一方面，真实的语音场景较为复杂，用户佩戴可穿戴设备时，用户靠墙和带帽会导致声音反射干扰严重，以16ms语音为一个处理周期的相位相关性寻向算法会出现严重问题，一旦混响时间超过100ms，上一处理周期的语音会对下一处理周期的语音产生严重干扰，容易寻向出错。如果是在办公室，混响时间可达到200~300ms，相关技术的语音寻向方法更加不适用。

关于可穿戴设备在识别语音指令方面，相关技术给出了一种基于声压幅度比的定位法，其原理为：采用波束算法识别语音来源，但是，目前的波束算法对外部语音的压制能力都是有限的，而且波束算法对外部语音的压制能力是相对的，(比如压制系数为0.01，则外部语音能量×0.01)，不是绝对的，做不到完全压制，而且，语音幅值动态范围较大，可达几百到几十万数量级别，原先识别语音来源是通过能量的幅值来判断，即声音小是来自于外部声源，声音大是来自于内部声源，容易被外部声源干扰，体验差，误激活也较多。

目前，针对相关技术中的语音寻向方法，在麦克风阵列的麦克风数量减少、麦克风间距变小的情况下，语音寻向不够准确的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种声源寻向方法和XR设备，以至少解决相关技术中的语音寻向方法，在麦克风阵列的麦克风数量减少、麦克风间距变小的情况下，语音寻向不够准确的问题。

第一方面，本申请实施例提供了一声源寻向方法，包括：

通过第一麦克风采集真实声源的第一声音信号，通过第二麦克风采集所述真实声源的第二声音信号，其中，所述第一麦克风和所述第二麦克风间隔设置；

确定分别多个预设位置上的各假想声源的声音信号被所述第一麦克风和所述第二麦克风采集的时间差值，其中，所述多个预设位置非共线；

根据所述时间差值、所述第一声音信号和所述第二声音信号，确定各所述假想声源的假想能量值；

根据各所述假想声源的假想能量值，确定各所述假想声源的等效能量中心，并根据各所述假想声源的等效能量中心，确定所述真实声源的等效方向。

在其中一些实施例中，所述多个预设位置包括第一位置、第二位置和第三位置，位于所述第一位置、第二位置和第三位置的假想声源分别为第一假想声源、第二假想声源和第三假想声源；其中，确定分别位于非共线的多个预设位置上的各假想声源的声音信号被所述第一麦克风和所述第二麦克风采集的时间差值包括：

分别确定所述第一假想声源、所述第二假想声源和所述第三假想声源的声音信号被所述第一麦克风与被所述第二麦克风采集的时间差值分别为第一时间差值、第二时间差值和第三时间差值，其中，所述第一时间差值、所述第二时间差值和所述第三时间差值均基于声音传播路径上的媒介、声音在各媒介中的传播速度，以及所述第一麦克风和所述第二麦克风间隔设置的距离确定。

在其中一些实施例中，所述第一位置位于所述第一麦克风指向所述第二麦克风的延长线上，所述第二位置位于所述第二麦克风指向所述第一麦克风的延长线上，所述第三位置位于以所述第一麦克风和所述第二麦克风为端点的线段的中垂线上；分别确定所述第一假想声源、所述第二假想声源和所述第三假想声源的声音信号被所述第一麦克风与被所述第二麦克风采集的时间差值分别为第一时间差值、第二时间差值和第三时间差值包括：

确定所述第一时间差值、所述第二时间差值和所述第三时间差值分别为

、

和0，

；其中，

表示声音在第

媒介中传播的距离；

表示声音在第

媒介中传播的速度；

；

表示声音在所述第一麦克风和所述第二麦克风之间所有媒介内传播的总距离。

在其中一些实施例中，根据所述时间差值、所述第一声音信号和所述第二声音信号，确定各所述假想声源的假想能量值包括：

将所述第一声音信号和所述第二声音信号进行差分处理，得到所述第一声音信号、所述第二声音信号、对应于各所述假想声源的差分信号的第一关系；

消除所述第一声音信号和所述第二声音信号中的所述第一假想声源，在将经消除所述第一假想声源之后的所述第一声音信号和所述第二声音信号进行差分处理，得到所述第一声音信号、所述第二声音信号、对应于各所述假想声源的差分信号的第二关系；

消除所述第一声音信号和所述第二声音信号中的所述第二假想声源，在将经消除所述二假想声源之后的所述第一声音信号和所述第二声音信号进行差分处理，得到所述第一声音信号、所述第二声音信号、对应于各所述假想声源的差分信号的第三关系；

根据所述第一关系、所述第二关系和所述第三关系，确定所述第一声音信号和所述第二声音信号在各所述假想声源的假想能量值。

在其中一些实施例中，消除所述第一声音信号和所述第二声音信号中的所述第一假想声源包括：

根据所述第一时间差值，将所述第一声音信号和所述第二声音信号中的所述第一假想声源进行相位对齐，以消除所述第一假想声源；

根据所述第二时间差值，将所述第一声音信号和所述第二声音信号中的所述第二假想声源进行相位对齐，以消除所述第二假想声源。

将所述第一声音信号和所述第二声音信号分别进行分帧处理，得到多个第一声音信号帧和多个第二声音信号帧，并对所述第一声音信号帧和所述第二声音信号帧进行加窗处理；

在窗口中计算当前声音信号帧中各所述假想声源的假想能量值，并根据各声音信号帧中各所述假想声源的假想能量值，确定所述第一声音信号和所述第二声音信号中各所述假想声源的假想能量值。

在其中一些实施例中，根据各所述假想声源的假想能量值，确定各所述假想声源的等效能量中心包括：

在各所述假想声源的置信度中确定最大假想能量值，并确定所述最大假想能量值对应的假想声源为所述等效能量中心；

或者，根据各所述假想声源的假想能量值，确定各所述假想声源为所述等效能量中心的置信度，根据各所述假想声源的置信度，确定各所述假想声源的等效能量中心。

在其中一些实施例中，在所述最大假想能量值对应的假想声源为所述第一假想声源的情况下，根据所述第一假想声源的置信度，确定所述第一假想声源是否为所述等效能量中心包括：

根据所述第一假想声源和所述第二假想声源之间的假想能量值之比值，得到第一置信度，根据所述第一假想声源和所述第三假想声源之间的假想能量值之比值，得到第二置信度；

判断所述第一置信度比值是否不低于第一预设阈值，和/或所述第二置信度比值是否不低于第二预设阈值；

在判断到所述第一置信度比值不低于所述第一预设阈值，和/或所述第二置信度比值不低于所述第二预设阈值的情况下，确定所述第一假想声源为所述等效能量中心。

在其中一些实施例中，根据各所述假想声源的假想能量值，确定各所述假想声源为所述等效能量中心的置信度包括：

根据各所述假想声源的假想能量值，得到各所述假想声源的信噪比；

根据各所述假想声源的假想能量值和信噪比，得到各所述假想声源为所述等效能量中心的置信度。

在其中一些实施例中，在根据各所述假想声源的等效能量中心，确定所述真实声源的等效方向之前，所述方法还包括：

计算所述第一声音信号和所述第二声音信号的相位相关性，得到各所述假想声源的相位相关性信息，其中，所述相位相关性信息携带有相对应的相关性值和时间差值；

根据各所述假想声源的假想能量值和相位相关性信息，确定各所述假想声源的等效能量中心。

在其中一些实施例中，计算所述第一声音信号和所述第二声音信号的相位相关性，得到各所述假想声源的相位相关性信息包括：

获取语音指令的时间长度，根据所述语音指令的时间长度确定处理周期的时间长度，其中，所述处理周期的时间长度不低于所述语音指令的时间长度，所述语音指令包括实时获取的语音指令和预设语音指令；

在所述处理周期中，将所述第一声音信号和所述第二声音信号进行卷积处理，得到各所述假想声源的相位相关性信息。

在其中一些实施例中，在根据所述时间差值、所述第一声音信号和所述第二声音信号，确定各所述假想声源的假想能量值之前，所述方法还包括：

根据预设频率，对所述第一声音信号和所述第二声音信号进行滤波处理，其中，所述预设频率包括1KHz。

第二方面，本申请实施例提供了一种XR设备，包括：第一麦克风、第二麦克风和控制器，所述第一麦克风和所述第二麦克风间隔设置，所述第一麦克风和所述第二麦克风分别连接于所述控制器，所述控制器用于执行如上述第一方面所述的声源寻向方法。

在其中一些实施例中，所述第一麦克风和所述第二麦克风之间的距离不超过2cm。

在其中一些实施例中，所述第一麦克风和所述第二麦克风之间包括至少一种传播媒介。

在其中一些实施例中，在用户佩戴所述XR设备的情况下，所述用户的声源位于所述第一麦克风指向所述第二麦克风的延长线上。

相比于相关技术，本申请实施例提供的声源寻向方法和XR设备，在麦克风阵列的麦克风数量减少、麦克风间距变小的情况下，解决了语音寻向不够准确的问题，提升了语音寻向的准确度。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的声源寻向方法的流程图；

图2是根据本申请优选实施例的声源寻向原理示意图；

图3是根据本申请实施例的XR设备的结构示意图；

图4是根据本申请实施例的第一声音信号和第二声音信号的波形图；

图5是本申请实施例的声源寻向方法的终端的硬件结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块（单元）的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例提供了一种声源寻向方法，图1是根据本申请实施例的声源寻向方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，通过第一麦克风采集真实声源的第一声音信号，通过第二麦克风采集真实声源的第二声音信号，其中，第一麦克风和第二麦克风间隔设置。

麦克风在采集真实声源的声音信号时，会受到多种因素的影响，比如噪声、反射的噪声、混响、声源与麦克风的相对位置，导致第一声音信号和第二声音信号不完全是语音信号。而且，在小间距（比如1.2cm）麦克风阵列中，第一声音信号和第二声音信号之间的相位差区别较小。

步骤S102，确定分别多个预设位置上的各假想声源的声音信号被第一麦克风和第二麦克风采集的时间差值，其中，多个预设位置非共线。

在一些实施例中，至少有一个预设位置位于第一麦克风指向第二麦克风的延长线所垂直穿过的平面（即至少有一个预设位置位于第一麦克风和第二麦克风的下方），至少有一个预设位置位于第二麦克风指向第一麦克风的延长线所垂直穿过的平面（即至少有一个预设位置位于第一麦克风和第二麦克风的上方）。

需要说明的是，上述两个预设位置、第一麦克风以及第二麦克风之间可以共线或者非共线，为方便后续计算各假想声源的假想能量值，在一些优选实施例中，上述两个预设位置、第一麦克风以及第二麦克风之间共线。图2是根据本申请优选实施例的声源寻向原理示意图，如图2所示，预设位置可以分别为第一位置Q1（第一麦克风和第二麦克风的正下方）、第二位置Q2（第一麦克风和第二麦克风的正上方）、第三位置Q3（第一麦克风和第二麦克风的正前方）。第一位置Q1、第二位置Q2以及第三位置Q3之间非共线，第一位置Q1、第二位置Q2、第一麦克风以及第二麦克风之间共线。位于第一位置Q1、第二位置Q2和第三位置Q3的假想声源分别为第一假想声源、第二假想声源和第三假想声源；其中，确定分别位于非共线的多个预设位置上的各假想声源的声音信号被第一麦克风和第二麦克风采集的时间差值包括：分别确定第一假想声源、第二假想声源和第三假想声源的声音信号被第一麦克风与被第二麦克风采集的时间差值分别为第一时间差值、第二时间差值和第三时间差值，其中，第一时间差值、第二时间差值和第三时间差值均基于声音传播路径上的媒介、声音在各媒介中的传播速度，以及第一麦克风和第二麦克风间隔设置的距离确定。

对于本实施例中预设位置的时间差值，可以通过测量第一麦克风和第二麦克风之间的间距，根据该间距、处于该间距中的媒介、声音在各媒介中的传播速度计算出第一位置Q1或者第二位置Q2的假想声源的时间差值，第三位置Q3的假想声源的时间差值为0。

本实施例只是给出了其中一种情况，在其他实施例中，预设位置还可以以不同于上述任一位置的形式出现，本实施例并不对预设位置作限定。

步骤S103，根据时间差值、第一声音信号和第二声音信号，确定各假想声源的假想能量值。

在各预设位置的声音信号到达第一麦克风和第二麦克风的过程中，各预设位置的声音信号是相互叠加的，从而形成第一声音信号和第二声音信号，由此可以确定，第一声音信号和第二声音信号可以看作是各预设位置的声音信号分量的叠加。

本实施例将第一声音信号和第二声音信号分别分解至各预设位置，得到各预设位置的信号分量，即各假想声源的假想能量值。比如，第一声音信号可以沿着第一位置Q1、第二位置Q2和第三位置Q3分解成信号分量，第二声音信号也可以沿着第一位置Q1、第二位置Q2和第三位置Q3分解成信号分量。

步骤S104，根据各假想声源的假想能量值，确定各假想声源的等效能量中心，并根据各假想声源的等效能量中心，确定真实声源的等效方向。

如果某一预设位置的信号能量越大，则该预设位置贡献的声音信号分量也越大，即该预设位置越有可能为真实声源所在位置。因此，可以根据各假想声源的最大假想能量值，确定各假想声源的等效能量中心，并根据各假想声源的等效能量中心，确定真实声源的等效方向。

在麦克风数量减少且麦间距变小的情况下，可参考的数据信息就大幅度减少，导致仅通过计算第一声音信号和第二声音信号之间的相位相关性无法准确地定位真实声源的方向。因此，本实施例引入了假想声源的等效能量中心，通过第一声音信号和第二声音信号在各假想声源的分布情况，确定各假想声源为真实声源的可能性，以弥补可参考的数据信息大幅度减少的缺陷，在麦克风数量减少、麦克风间距变小的情况下，解决了语音寻向不够准确的问题，提升了语音寻向的准确度。

参考图2，在其中一些实施例中，第一位置位于第一麦克风指向第二麦克风的延长线上，第二位置位于第二麦克风指向第一麦克风的延长线上，第三位置位于以第一麦克风和第二麦克风为端点的线段的中垂线上；分别确定第一假想声源、第二假想声源和第三假想声源的声音信号被第一麦克风与被第二麦克风采集的时间差值分别为第一时间差值、第二时间差值和第三时间差值包括：确定第一时间差值、第二时间差值和第三时间差值分别为

、

和0，

；其中，

表示声音在第

媒介中传播的距离；

表示声音在第

媒介中传播的速度；

；

表示声音在第一麦克风和第二麦克风之间所有媒介内传播的总距离。

当第一麦克风和第二麦克风之间设置有实体时，导致声音在第一麦克风和第二麦克风之间需要穿过不同的媒介，假设第一麦克风和第二麦克风之间的间距为1.2cm，由于第一麦克风和第二麦克风之间设置有实体（比如隔板），导致声音在第一麦克风和第二麦克风之间的等效传播路径变为2cm，传播时间为各媒介内传播的距离除以对应传播速度的总和。

在一些实施例中，第一麦克风和第二麦克风之间的等效距离为2cm，恰好是一个采样点（16K采样率的语音）所对应的距离。

在其中一些实施例中，根据时间差值、第一声音信号和第二声音信号，确定各假想声源的假想能量值包括以下步骤：

步骤S201，将第一声音信号和第二声音信号进行差分处理，得到第一声音信号、第二声音信号、对应于各假想声源的差分信号的第一关系。

假设第三假想声源为真实声源，由于声音信号同时到达两个麦克风，这时候第一声音信号减去第二声音信号之后，第三假想声源的理论值为0；假设第一假想声源为真实声源，此时第一声音信号减去第二声音信号可以看成是第一假想声源方向的差分信号。同理，假设第二假想声源为真实声源，此时第一声音信号减去第二声音信号可以看成是第二假想声源的差分信号。以下给出了第一关系的表达式：

步骤S202，消除第一声音信号和第二声音信号中的第一假想声源，在将经消除第一假想声源之后的第一声音信号和第二声音信号进行差分处理，得到第一声音信号、第二声音信号、对应于各假想声源的差分信号的第二关系。

由于第一声音信号和第二声音信号在第三假想声源上是相位对齐的，所以第一假想声源的声音信号到达两个麦克风的信号波形完全一致，只是声音信号先到达第二麦克风再到达第一麦克风，如果把第二声音信号延时一段时间，假设是-1个时间单位，也就是让第一假想声源的声音信号在两个麦克风之间相互对齐，再让该两个声音信号相减，则可以消除第一假想声源的声音信号，得到第二假想声源、第三假想声源的差分信号。以下给出了第二关系的表达式：

步骤S203，消除第一声音信号和第二声音信号中的第二假想声源，在将经消除二假想声源之后的第一声音信号和第二声音信号进行差分处理，得到第一声音信号、第二声音信号、对应于各假想声源的差分信号的第三关系。

同理，由上述推导可知，第二假想声源的声音信号到达两个麦克风的信号波形也完全一致，只是声音信号先到达第一麦克风再到达第二麦克风，如果把第一声音信号延时一段时间，假设是-1个时间单位，也就是让第二假想声源发出的声音信号在两个麦克风之间相互对齐，再让该两个声音信号相减，则可以消除第二假想声源的声音信号，得到第一假想声源、第三假想声源的差分信号。以下给出了第三关系的表达式：

步骤S204，根据第一关系、第二关系和第三关系，确定第一声音信号和第二声音信号在各假想声源的假想能量值。以下给出了关于上述三个关系的积分表达式：

以上三个方程左边都是已知声音信号通过固定的时间差值相减后得到的，都是已知数，右边是三个未知数，通过三个方程求解三个未知数，得到三个假想声源的假想能量值。

上述公式中，

代表第一声音信号，

代表第二声音信号，D代表第一假想声源，U代表第二假想声源，C代表第三假想声源，D(-1)代表第一假想声源的信号延时1个单位时间，U(-1)代表位于第二假想声源的信号延时1个单位时间，其中，该一个单位时间的长度为声音在两个麦克风之间的传播时间，

表示第一假想声源的差分信号，

表示第二假想声源的差分信号，

表示第三假想声源的差分信号，

代表积分算子。

在其中一些实施例中，根据时间差值、第一声音信号和第二声音信号，确定各假想声源的假想能量值包括：

将第一声音信号和第二声音信号分别进行分帧处理，得到多个第一声音信号帧和多个第二声音信号帧，并对第一声音信号帧和第二声音信号帧进行加窗处理；在窗口中计算当前声音信号帧中各假想声源的假想能量值，并根据各声音信号帧中各假想声源的假想能量值，确定第一声音信号和第二声音信号中各假想声源的假想能量值。

由于声音信号具有长时不平稳、短时平稳的性质，为了能够在频域中处理语音信号，需要对第一声音信号和第二声音信号分别进行分帧处理。具体实施时，把第一声音信号和第二声音信号分别分为一些短段来进行处理，每一个短段称为一帧（chunk），通过窗口截取第一声音信号和第二声音信号，得到短时信号，在短时信号中分析各假想声源的假想能量值，以实时计算各假想声源的假想能量值。

假设第一声音信号和第二声音信号的时间长度为1.2s，窗口时间长度可以取16ms，则可以分成75帧短时信号，通过计算各帧短时信号的各假想声源的假想能量值，得到75组计算结果。本实施例仅为示例，并不是对第一声音信号和第二声音信号的时间长度、窗口时间长度进行限定。

进一步地，在得到75组计算结果之后，可以将这75组计算结果中对应于同一假想声源的能量值进行累加，最终得到各假想声源的假想能量值。

在其中一些实施例中，根据各假想声源的假想能量值，确定各假想声源的等效能量中心包括：

在各假想声源的置信度中确定最大假想能量值，并确定最大假想能量值对应的假想声源为等效能量中心。

假设各假想声源的假想能量值依次为P1、P2、P3，如果P1为其中最大值，则确定P1所对应的第一假想声源为等效能量中心。

或者，根据各假想声源的假想能量值，确定各假想声源为等效能量中心的置信度，根据各假想声源的置信度，确定各假想声源的等效能量中心。

其中，置信度可以是假想能量值。假设各假想声源的假想能量值依次为P1、P2、P3，则各假想声源为等效能量中心的置信度依次为P1、P2、P3，如果P1为其中最大值，则确定P1所对应的第一假想声源为等效能量中心。或者，确定P1、P2、P3之间的差异程度，如果P1为其中最大值，且P1和P2、P3之间相差较大，则确定P1所对应的第一假想声源为等效能量中心。

进一步地，在其中一些实施例中，在最大假想能量值对应的假想声源为第一假想声源的情况下，根据第一假想声源的置信度，确定第一假想声源是否为等效能量中心包括：

根据第一假想声源和第二假想声源之间的假想能量值之比值，得到第一置信度，根据第一假想声源和第三假想声源之间的假想能量值之比值，得到第二置信度；判断第一置信度比值是否不低于第一预设阈值，和/或第二置信度比值是否不低于第二预设阈值；在判断到第一置信度比值不低于第一预设阈值，和/或第二置信度比值不低于第二预设阈值的情况下，确定第一假想声源为等效能量中心。

其中，置信度可以是假想能量值之间的比值。比如，将P1除以P2得到P1/P2，将P1除以P3得到P1/P3，判断P1/P2、P1/P3是否均大于各自所对应的预设阈值，如果是，则代表P1和P2、P3之间的差异程度符合要求，确定P1所对应的第一假想声源为等效能量中心。其中，第一预设阈值和第二预设阈值可以相同也可以不同。

在其中一些实施例中，根据各假想声源的假想能量值，确定各假想声源为等效能量中心的置信度包括：

根据各假想声源的假想能量值，得到各假想声源的信噪比；根据各假想声源的假想能量值和信噪比，得到各假想声源为等效能量中心的置信度。

假设在得到75组计算结果之后，可以将这75组计算结果中对应于同一假想声源的能量值进行累加，最终得到各假想声源的假想能量值。并将这75组计算结果中对应于同一假想声源的能量值进行求方差，最终得到各假想声源的信噪比。将各假想声源的假想能量值和信噪比相乘，得到置信度。

面对混响时间较大的环境，比如第一麦克风和第二麦克风靠近墙角、第一麦克风和第二麦克风上方有容置物（比如第一麦克风和第二麦克风设置在AR眼镜上，用户佩戴AR眼镜时还佩戴了帽子），导致第一麦克风和第二麦克风之间的混响较为严重。在第一麦克风和第二麦克风的环境变为比较恶劣时，为了进一步提升声源寻向的准确程度，在其中一些实施例中，在根据各假想声源的等效能量中心，确定真实声源的等效方向之前，方法还包括：

计算第一声音信号和第二声音信号的相位相关性，得到各假想声源的相位相关性信息，其中，相位相关性信息携带有相对应的相关性值和时间差值；根据各假想声源的假想能量值和相位相关性信息，确定各假想声源的等效能量中心。

由于各假想声源相对于两个麦克风之间的时间差值是确定的，比如两个麦克风正前方的声源的时间差值始终小于两个麦克风正上方或者正下方的声源的时间差值，通过检测相位相关性可以提供真实声源来自于各预设位置的可能性信息，相关性越高，相对应的时间差值越接近真实声源的时间差值，相对应的假想声源越接近真实声源。然而，在麦克风数量减少且麦间距变小的情况下，可参考的数据信息就大幅度减少，导致仅通过相位相关性信息无法准确地定位真实声源方向。因此，本实施例结合假想声源的假想能量值和相位相关性信息，确定各假想声源的等效能量中心，以剔除非语音信号（噪声、反射的噪声、混响）的干扰，弥补了可参考的数据信息大幅度减少的缺陷，在麦克风数量减少、麦克风间距变小以及环境混响变为恶劣的情况下，进一步提升了语音寻向的准确度。

在根据各假想声源的假想能量值和相位相关性信息，确定各假想声源的等效能量中心时，可以将同一假想声源的假想能量值、信噪比、相关性值相乘得到得分。以图2所示的各假想声源为例，表1给出了各假想声源的得分情况，如表1所示：

表1 各假想声源的得分

假设第一假想声源的得分最高，则根据第一假想声源和其他两个假想声源之间的得分之比值，分别得到第一置信度和第二置信度，判断第一置信度是否不低于第一预设阈值，和/或判断第二置信度是否不低于第二预设阈值，在判断到第一置信度不低于第一预设阈值和/或第二置信度不低于第二预设阈值的情况下，确定第一假想声源为等效能量中心。

在另一个实施方式中，也可以不使用相位相关性值来计算得分。以图2所示的各假想声源为例，表2给出了各假想声源的得分情况，如表2所示：

表2 各假想声源的得分

各假想声源的置信度以及等效能量中心的确定方法和上述实施例相近，此处不再赘述。

由于相位相关性信息是离散而非连续的，相关技术通过相位相关性信息进行寻向时，寻向过程不容易度量。相比于相关技术，本实施例通过引入能量分布信息，弥补相位相关性信息本身固有的缺陷，根据信号能量分布信息和相位相关性信息，确定目标声源位于用户侧的置信度，利用置信度的连续性使得寻向结果的准确程度更容易通过预设阈值来控制，寻向精度容易度量。

在一些实施例中，第一预设阈值和第二预设阈值可以相同也可以不同，且预设阈值均大于1。在一些优选实施例中，第一预设阈值和第二预设阈值优选为1.2。

在一些实施例中，采用广义互相关(GCC)函数法计算第一声音信号和第二声音信号的相位相关性。求解第一声音信号和第二声音信号之间的互功率谱，并在频域内给予一定的加权来抑制噪声和反射的影响，再反变换到时域，从而得到第一声音信号和第二声音信号之间的互相关函数，该互相关函数的峰值位置即为第一声音信号和第二声音信号之间的相对时延。

在一些实施例中，也可以采用最小均方(LMS)自适应滤波法计算第一声音信号和第二声音信号的相位相关性。将第一声音信号和第二声音信号的其中一个当作目标信号，另一个当作输入信号，让输入信号逼近目标信号，通过调整滤波系数，便可得到第一声音信号和第二声音信号之间的相对时延。

需要说明的是，本实施例并不限定第一声音信号和第二声音信号的相位相关性信息获取方式。而且，本实施例并不仅仅以获取最大相关性值为目的，而是获取各假想声源的相关性值。

具体实施时，计算第一声音信号和第二声音信号的相位相关性，得到各假想声源的相位相关性信息包括：

获取语音指令的时间长度，根据语音指令的时间长度确定处理周期的时间长度，其中，处理周期的时间长度不低于语音指令的时间长度，语音指令包括实时获取的语音指令和预设语音指令；在处理周期中，将第一声音信号和第二声音信号进行卷积处理，得到各假想声源的相位相关性信息。

语音指令为用于激活预置功能的指令，其以语音信号为载体，比如用户说话，发出“打开桌面”的语音信号，当两个麦克风有效接收到“打开桌面”的语音信号之后，经过信息处理，激活设备的相关功能。

一般语音指令的时间长度超过1秒，相关寻向技术以16ms作为一个处理周期，但是混响等环境反射声音的干扰事件时长为200~300ms，200/16=12.5，也就是前12个处理周期的语音信号都对当前语音信号存在干扰，而且离当前语音信号越近干扰越强。

为解决上述问题，本实施例根据语音指令的时间长度，确定处理周期的时间长度，相比于相关技术相当于延长了处理周期，比如使用1.2s作为一个处理周期，远大于混响等环境反射声音的干扰事件时长，在长时间段中检测第一声音信号和第二声音信号的相位相关性，使得检测时间段远大于混响等干扰事件段，抗干扰能力增强。

将第一声音信号和第二声音信号分别按照处理周期的时间长度，存储至两个数组中，各数组长度为处理周期的时间长度与采样率的乘积，例如，处理周期的时间长度为1.2秒，采样率为16KHz，则各数组长度为1.2s×16KHz=19200，此处的1.2秒时长只是一个假设，在其他实施例中，还可以根据语音指令激活后的语音长度来确定的，不是固定的1.2秒。在求解第一声音信号和第二声音信号的相关性时，可以把其中一个数组作为卷积核（一维卷积），与另一数组进行卷积，卷积值即为相关性值，相关性值最大处所对应的时延信息，越接近真实声源的信号到达两个麦克风产生的时间差值，由于本实施例拉长了处理周期，使得相位相关性检测抗混响性能较好，抗干扰能力增强。

具体实施时，获取第一声音信号cn1和第二声音信号cn2，把该两部分声音信号分别存入两个数组，因为两个麦克风间距是确定的，也就是两个麦克风的最大时延是确定的，根据第一时间差值t1、第二时间差值t2和第三时间差值t3，在预设时延范围内搜索第一声音信号cn1和第二声音信号cn2的相位相关性，计算cn1(0)*cn2(t1)、cn1(t2)*cn2(0)、cn1(0)*cn2(0)的值，得到3个相关性度量值，即3种时延情况，点乘的累加值越大，代表两个信号相位相关性越强，又由于各假想声源的声音信号到达两个麦克风之间的时延是确定的，根据时延信息可以反推真实声源的方向的可能性。

确定处理周期的时间长度可以有多种方式。

一种是动态确定法，即对第一声音信号和/或第二声音信号进行语音识别，识别其中所携带的语音指令；检测携带有语音指令的语音信号的时间长度，并根据该时间长度确定当前处理周期的时间长度。该方法可以根据语音指令的语音信号的时间长度调整处理周期的时间长度，较为灵活。

一种是静态确定法，根据历史实验统计，根据预设值确定处理周期的时间长度，该方法可以节省算力，提升声源寻向效率。

在其中一些实施例中，在根据时间差值、第一声音信号和第二声音信号，确定各假想声源的假想能量值之前，方法还包括：

根据预设频率，对第一声音信号和第二声音信号进行滤波处理，其中，预设频率包括1KHz。

本实施例采用高通滤波法，对采集的第一声音信号和第二声音信号进行高通滤波处理，具体实施时，首先采用FFT(快速傅里叶变换)变换法提取第一声音信号和第二声音信号的频域信息，根据该频域信息去除低于预设频率以下的频段能量，再采用FFT逆变换法将频域信号转换为时域信号。通过高通滤波器，隔绝了容易干扰的低频信号，进一步提升抗混响反射干扰能力。

结合上述实施例的声源寻向方法，本实施例还提供了一种XR（Extended Reality，扩展现实）设备，图3是根据本申请实施例的XR设备的结构示意图，如图3所示，包括：第一麦克风31、第二麦克风32和控制器（图3中未示出），第一麦克风31和第二麦克风32间隔设置，第一麦克风31和第二麦克风32分别连接于控制器，控制器用于执行上述实施例的声源寻向方法。

在本实施例中，XR设备包括但不限于AR（Augmented Reality，增强现实）装置和MR（Mix Reality，混合现实）装置，其中，AR装置包括但不限于AR眼镜、AR头盔，MR装置包括但不限于MR眼镜、MR头盔。图3仅示出了其中之一，并不是对XR设备的限定。

在其中一些实施例中，第一麦克风31和第二麦克风32之间的距离不超过2cm。

第一麦克风31和第二麦克风32之间的距离优选为1.2cm。

在其中一些实施例中，第一麦克风31和第二麦克风32之间包括至少一种传播媒介。例如，第一麦克风31和第二麦克风32之间设置有隔板或者柱体，对于声音信号而言，不仅要穿过空气媒介，还要穿过不同于空气的其他媒介。

在其中一些实施例中，在用户佩戴XR设备的情况下，用户的声源位于第一麦克风31指向第二麦克风32的延长线上。

如此设置，在用户佩戴XR设备30的情况下，用户的出声部位发出的声音信号到达第一麦克风31和第二麦克风32存在时延。

在其中一些实施例中，在用户佩戴XR设备30的情况下，第一麦克风31和第二麦克风32相对于用户的出声部位33的位置为接收同一真实声源发出的声音信号而产生最大时延的位置。

从两个麦克风的正上方或者正下方发出的语音信号，到达两个麦克风之间所产生的时延是确定且最大的，通过尽可能提升用户侧声源相对于两个麦克风之间的时延，以便于在上述实施例的声源寻向过程中，扩大第一声音信号和第二声音信号之间的相位差差异度，提高声源寻向精度。

理想情况下，用户的出声部位相对于第一麦克风和第二麦克风的位置为第一预设位置，但是用户实际佩戴XR设备时，在该三个预设位置中，用户的出声部位只能是趋近于第一预设位置，因此，优选位置关系应该是在用户的出声部位所能产生的最大时延的位置关系。

在其中一些实施例中，第一麦克风31和第二麦克风32之间的距离可以根据预设采样频率以及声波速度设置，假设预设采样频率为16KHz，声波速度是确定的，则通过设置第一麦克风31和第二麦克风32之间的距离，使得用户佩戴XR设备30的情况下，用户的出声部位发出的声音信号到达第一麦克风31和第二麦克风32的时延相差一个采样点的时延。图4是根据本申请实施例的第一声音信号和第二声音信号的波形图，如图4所示，该图给出了真实声源来源于用户的情况，两个声音信号的波形一致，只是第一声音信号比第二声音信号滞后一个采样点。

在其中一些实施例中，第一麦克风31和第二麦克风32均为全向麦克风。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤S1，通过第一麦克风采集真实声源的第一声音信号，通过第二麦克风采集真实声源的第二声音信号，其中，第一麦克风和第二麦克风间隔设置。

步骤S2，确定分别多个预设位置上的各假想声源的声音信号被第一麦克风和第二麦克风采集的时间差值，其中，多个预设位置非共线。

步骤S3，根据时间差值、第一声音信号和第二声音信号，确定各假想声源的假想能量值。

步骤S4，根据各假想声源的假想能量值，确定各假想声源的等效能量中心，并根据各假想声源的等效能量中心，确定真实声源的等效方向。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

在一些实施例中，电子装置包括但不限于终端、计算机或者类似的运算装置。以运行在终端上为例，图5是本申请实施例的声源寻向方法的终端的硬件结构框图。如图5所示，终端可以包括一个或多个（图5中仅示出一个）处理器502（处理器502可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器504，可选地，上述终端还可以包括用于通信功能的传输设备506以及输入输出设备508。本领域普通技术人员可以理解，图5所示的结构仅为示意，其并不对上述终端的结构造成限定。例如，终端还可包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。

存储器504可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的声源寻向方法对应的计算机程序，处理器502通过运行存储在存储器504内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器504可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器504可进一步包括相对于处理器502远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中，传输设备506包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备506可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

另外，结合上述实施例中的声源寻向方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种声源寻向方法。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种声源寻向方法，其特征在于，包括：

分别确定多个预设位置上的各假想声源的声音信号被所述第一麦克风和所述第二麦克风采集的时间差值，其中，所述多个预设位置非共线；

2.根据权利要求1所述的声源寻向方法，其特征在于，所述多个预设位置包括第一位置、第二位置和第三位置，位于所述第一位置、第二位置和第三位置的假想声源分别为第一假想声源、第二假想声源和第三假想声源；其中，确定分别位于非共线的多个预设位置上的各假想声源的声音信号被所述第一麦克风和所述第二麦克风采集的时间差值包括：

3.根据权利要求2所述的声源寻向方法，其特征在于，所述第一位置位于所述第一麦克风指向所述第二麦克风的延长线上，所述第二位置位于所述第二麦克风指向所述第一麦克风的延长线上，所述第三位置位于以所述第一麦克风和所述第二麦克风为端点的线段的中垂线上；分别确定所述第一假想声源、所述第二假想声源和所述第三假想声源的声音信号被所述第一麦克风与被所述第二麦克风采集的时间差值分别为第一时间差值、第二时间差值和第三时间差值包括：