CN112526452A

CN112526452A - 声源检测方法、云台摄像机、智能机器人及存储介质

Info

Publication number: CN112526452A
Application number: CN202011328516.0A
Authority: CN
Inventors: 郑峰; 苏辉
Original assignee: Hangzhou Ezviz Software Co Ltd
Current assignee: Hangzhou Ezviz Software Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-19
Also published as: WO2022111190A1

Abstract

本申请提出了声源检测方法、云台摄像机、智能机器人及存储介质。其中，一种声源检测方法，包括：确定在主体处于第一旋转位时两个传声器的第一时延差，所述两个传声器设置在所述主体上；确定在所述主体从第一旋转位转动至第二旋转位时两个传声器的第二时延差，所述第二旋转位与第一旋转位间隔预定角度；根据第一时延差和第二时延差，确定声源的方向。该声源检测方法能够提高声源定位的准确度。

Description

声源检测方法、云台摄像机、智能机器人及存储介质

技术领域

本申请涉及声学技术领域，特别涉及声源检测方法、云台摄像机、智能机器人及存储介质。

背景技术

在一些应用场景中，电子设备(例如云台摄像机或智能机器人等)可以通过传声器(即麦克风)进行声源定位。在确定声源的方向后，电子设备可以将其朝向调整为对准声源的方向。在水平方向的360度范围内，与电子设备的朝向相差不超90度的范围，可以认为是电子设备的前侧范围。与电子设备的朝向相差超过90度的范围，可以认为是电子设备的后侧范围。

在电子设备配置两个传声器的场景中，声源定位方案无法确定声源处于电子设备的前侧范围还是处于后侧范围。

有鉴于此，在电子设备配置两个传声器时，如何提高声源定位方案的准确度是需要解决的技术问题。

发明内容

本申请提出了声源检测方法、云台摄像机、智能机器人及存储介质，能够提高声源定位的准确度。

根据本申请一个方面，提供一种声源检测方法，包括：

确定在主体处于第一旋转位时两个传声器的第一时延差，所述两个传声器设置在所述主体上；

确定在所述主体从第一旋转位转动至第二旋转位时两个传声器的第二时延差，所述第二旋转位与第一旋转位间隔预定角度；

根据第一时延差和第二时延差，确定声源的方向。

在一些实施例中，上述方法进一步包括：

对所述两个传声器的声音信号进行语音检测；

在所述声音信号包括语音时，执行所述在确定在主体处于第一旋转位时两个传声器的第一时延差的步骤。

在一些实施例中，所述根据第一时延差和第二时延差，确定声源的方向，包括：

根据第一时延差，确定在主体处于第一旋转位时所述两个传声器与所述声源的第一夹角；

根据第二时延差，确定在主体处于第二旋转位时所述两个传声器与所述声源的第二夹角；

根据所述第一夹角和所述第二夹角，确定所述声源的方向。

在一些实施例中，所述预定角度为逆时针90度，所述根据所述第一夹角和所述第二夹角，确定所述声源的方向，包括：

在第二夹角小于90度时，确定所述主体顺时针旋转第一角度后的朝向为所述声源的方向，所述第一角度为180度与第一夹角的差值；

在第二夹角达到90度且小于180度时，确定所述主体逆时针旋转第一角度后的朝向为所述声源的方向。

在一些实施例中，所述预定角度为顺时针30度，所述根据所述第一夹角和所述第二夹角，确定所述声源的方向，包括：

在第一夹角小于60度，并且第二夹角大于第一夹角，确定所述主体顺时针旋转第二角度后的朝向为所述声源的方向，所述第二角度为60度与第一夹角之差的绝对值；

在第一夹角达到60度且小于180度，并且第二夹角大于第一夹角，确定所述主体逆时针旋转第二角度后的朝向为所述声源的方向；

在第一夹角小于90度，并且第二夹角小于第一夹角，确定所述主体顺时针旋转第三角度后的朝向为所述声源的方向，所述第三角度为60度与第一夹角之和；

在第一夹角达到90度且小于180度，第二夹角小于第一夹角，并且第二夹角小于150度，确定所述主体顺时针旋转第三角度后的朝向为所述声源的方向；

在第一夹角达到90度且小于180度，第二夹角小于第一夹角，并且第二夹角达到150度时，确定所述主体逆时针旋转第二角度后的朝向为所述声源的方向。

根据本申请一个方面，提供一种云台摄像机，包括：

两个传声器，设置于摄像头；

处理器，用于：

确定在所述摄像头处于第一旋转位时两个传声器的第一时延差；

确定在所述摄像头从第一旋转位转动至第二旋转位时两个传声器的第二时延差，所述第二旋转位与第一旋转位间隔预定角度；

根据第一时延差和第二时延差，确定声源的方向。

在一些实施例中，所述处理器基于下述方式执行所述根据第一时延差和第二时延差，确定声源的方向：

根据第一时延差，确定在所述摄像头处于第一旋转位时所述两个传声器与所述声源的第一夹角；

根据第二时延差，确定在所述摄像头处于第二旋转位时所述两个传声器与所述声源的第二夹角；

根据所述第一夹角和所述第二夹角，确定所述声源的方向。

根据本申请一个方面，提供一种智能机器人，包括：

两个传声器，设置于头部；

处理器，用于：

确定在所述头部处于第一旋转位时两个传声器的第一时延差；

确定在所述头部从第一旋转位转动至第二旋转位时两个传声器的第二时延差，所述第二旋转位与第一旋转位间隔预定角度；

根据第一时延差和第二时延差，确定声源的方向。

根据第一时延差，确定在所述头部处于第一旋转位时所述两个传声器与所述声源的第一夹角；

根据第二时延差，确定在所述头部处于第二旋转位时所述两个传声器与所述声源的第二夹角；

根据所述第一夹角和所述第二夹角，确定所述声源的方向。

根据本申请一个方面，提供一种存储介质，存储有程序，所述程序包括指令，其特征在于，所述指令当由电子设备执行时，使得所述电子设备执行根据本申请的声源检测方法。

综上，根据本申请的声源检测方案，通过旋转主体，能够在两个旋转位分别确定时延差，从而能够通过两个时延差准确定位声源方向。这里，本申请的声源检测方案可以在包括两个传声器的情况下，准确定位声源在水平方向360度范围内的方向，进而提高声源定位准确度。换言之，不管声源处于电子设备的前侧范围或者后侧范围，本申请的声源检测方案均可以准确进行声源定位。

附图说明

图1示出了根据本申请一些实施例的应用场景的示意图；

图2示出了根据本申请一些实施例的应用场景的示意图；

图3示出了根据本申请一些实施例的声源检测方法300的流程图；

图4示出了根据本申请一些实施例的声源检测方法400的流程图；

图5示出了根据本申请一些实施例的声源定位的方法500的流程图；

图6示出了根据本申请一些实施例的两个传声器的示意图；

图7示出了根据本申请一些实施例的第一夹角和第二夹角的示意图；

图8示出了根据本申请一些实施例的第一夹角和第二夹角的示意图；

图9示出了根据本申请一些实施例的电子设备的示意图。

具体实施方式

为使本申请的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本申请进一步详细说明。

图1示出了根据本申请一些实施例的应用场景的示意图。

如图1所示，应用场景示出了云台摄像机100。云台摄像机100例如包括底座110、摄像头120和两个传声器130。摄像头120可旋转地设置在底座110上。两个传声器130设置在摄像头120上。这里，两个传声器130例如可以关于摄像头130的转轴(图1未示出)中心对称，但不限于此。另外说明的是，本申请中云台摄像机不限于图1的结构，也可以是摄像头可旋转并且包括两个传声器的其他结构。

图2示出了根据本申请一些实施例的应用场景的示意图。

如图2所示，应用场景示出了智能(AI)机器人200。智能机器人200包括：身体210和头部220。头部220设置有显示屏230和两个传声器240。在一些实施例中，头部220可以相对于身体210旋转。在一些实施例中，身体210底部设置有行走机构(图2未示出)。头部220和身体210可以通过行走机构整体旋转。

在一些实施例中，为了对水平方向360度范围内声源方向进行定位，电子设备可以配置多个(两个以上)传声器，以便准确定位声源方向，即能够准确确定声源处于电子设备前侧范围(后侧范围)内的方向。

本申请提出了一种声源检测方案，能够在配置两个传声器的电子设备上，准确定位声源方向。下面结合图3对本申请的声源检测方案进行说明。

图3示出了根据本申请一些实施例的声源检测方法300的流程图。方法300可以在电子设备中执行。这里，电子设备例如为图1中云台摄像机或者图2中智能机器人，但不限于此。

如图3所示，在步骤S301中，确定在主体处于第一旋转位时两个传声器的第一时延差，两个传声器设置在主体上。这里，主体例如为摄像头120或者头部220。第一旋转位例如为主体在水平转动角度范围内的初始角度位置。两个传声器的第一时延差为两个传声器的两路信号的到达时间差(Time Difference of Arrival，缩写为TDOA)。

在步骤S302中，确定在主体从第一旋转位转动至第二旋转位时两个传声器的第二时延差。其中，第二旋转位与第一旋转位间隔预定角度。这里，预定角度例如为顺时针旋转30度或者顺时针旋转90度等。

在步骤S303中，根据第一时延差和第二时延差，确定声源的方向。

综上，根据本申请的声源检测方法300，通过旋转主体，能够在两个旋转位分别确定时延差，从而能够通过两个时延差准确定位声源方向。这里，本申请的声源检测方法300可以在包括两个传声器的情况下，准确定位声源在水平方向360度范围内的方向，进而提高声源定位准确度。换言之，不管声源处于电子设备的前侧范围或者后侧范围，本申请的声源检测方法300均可以准确进行声源定位。

图4示出了根据本申请一些实施例的声源检测方法400的流程图。方法400可以在电子设备中执行。这里，电子设备例如为图1中云台摄像机或者图2中智能机器人，但不限于此。

如图4所示，在步骤S401中，对两个传声器的声音信号进行语音检测。这里，语音检测方式可以是各种语音活动段检测(Voice Activity Detection，缩写为VAD)算法，本申请对此不做限制。

在步骤S401中确定任一个传声器的声音信号包括语音时，方法400可以执行步骤S402，确定在主体处于第一旋转位时两个传声器的第一时延差。第一旋转位例如为主体的初始位置。两个传声器的第一时延差为两个传声器的两路信号的到达时间差(TimeDifference Of Arrival，缩写为TDOA)。步骤S402确定第一时延差的方式例如可以是基于相位变换加权的可控响应功率(Steered Response Power-PHAse Transform，缩写为SRP-PHAT)的检测方式、广义互相关-相位变换(Generalized Cross Correlation PHAseTransformation，缩写为GCC-PHAT)检测方式或者多信号分类(MUltiple SIgnalClassification，缩写为MUSIC)检测等方式。

在步骤S403中，确定在主体从第一旋转位转动至第二旋转位时两个传声器的第二时延差。其中，第二旋转位与第一旋转位间隔预定角度。这里，预定角度例如为逆时针旋转30度或者顺时针旋转90度等。例如，电子设备可以在获取到第一旋转位的两路信号后，控制主体转动至第二旋转位。这里，第二时延差为在主体处于第二旋转位时两个传声器的两路信号的到达时间差。第二时延差的确定方式与第一时延差的确定方式类似，这里不再赘述。

在步骤S404中，根据第一时延差和第二时延差，确定声源的方向。

综上，根据本申请的声源检测方法400，可以对电子设备的部署场景进行语音检测，并在检测到语音后，对声源进行定位。换言之，声源检测方法400可以准确定位发声者的方向。

在一些实施例中，步骤S404可以实施为方法500。

如图5所示，在步骤S501中，根据第一时延差，确定在主体处于第一旋转位时两个传声器与声源的第一夹角。这里，相对于声源与电子设备之间的距离而言，两个传声器之间的距离较小，因此，声源与两个传声器的夹角可以认为相同。如图6所示，两个传声器为：第一传声器601和第二传声器602。以两个传声器的对称中心为原点建立直角坐标系XOY。X轴方向(即601至602的方向)为0度方向。Y轴方向为电子设备的朝向(例如，云台摄像机的摄像头朝向或者智能机器人的显示屏朝向)。与Y轴夹角不超过90度的范围为电子设备的前侧范围。与负Y轴夹角不超过90度的范围为电子设备的后侧范围。第一夹角θ1的取值范围为[0,180)。换言之，不管声源处于前侧范围还是范围，步骤S501均会得到一个处于[0,180)范围内的第一夹角θ1。

在步骤S502中，根据第二时延差，确定在主体处于第二旋转位时两个传声器与声源的第二夹角。

在步骤S503中，根据第一夹角和第二夹角，确定声源的方向。

在一些实施例中，预定角度为逆时针90度。图7示出了第一夹角和第二夹角的示意图。

在第二夹角小于90度时，步骤S503可以确定主体顺时针旋转第一角度后的朝向为声源的方向。第一角度为180度与第一夹角的差值。

具体而言，在0≤θ1<90&&0≤θ2<90时，声源位于直角坐标系XOY的第一象限，步骤S503可以确定主体顺时针旋转(180-θ1)度后的朝向为声源的方向。换言之，在主体顺时针旋转(180-θ1)度后，电子设备的朝向声源，即电子设备可以跟踪声源。

在90≤θ1<180&&0≤θ2<90时，声源位于直角坐标系XOY的第二象限，步骤S503可以确定主体顺时针旋转(180-θ1)度后的朝向为声源的方向。

在第二夹角达到90度且小于180度时，步骤S503可以确定主体逆时针旋转第一角度后的朝向为声源的方向。

例如，在90≤θ1<180&&90≤θ2<180时，声源位于直角坐标系XOY的第三象限，步骤S503可以确定主体逆时针旋转(180-θ1)度后的朝向为声源的方向。

在0≤θ1<90&&90≤θ2<180时，声源位于直角坐标系XOY的第四象限，步骤S503可以确定主体逆时针旋转(180-θ1)度后的朝向为声源的方向。

在一些实施例中，预定角度为顺时针30度。图8示出了第一夹角和第二夹角的示意图。

在第一夹角小于60度，并且第二夹角大于第一夹角时，步骤S503可以确定主体顺时针旋转第二角度后的朝向为声源的方向。第二角度为60度与第一夹角之差的绝对值。

例如，在0≤θ1<60&&θ2>θ1时，步骤S503可以确定主体顺时针旋转(60-θ1)后的朝向为声源的方向。

在第一夹角达到60度且小于180度，并且第二夹角大于第一夹角，步骤S503可以确定主体逆时针旋转第二角度后的朝向为声源的方向。例如，在60≤θ1<180&&θ2>θ1时，步骤S503可以确定主体逆时针旋转(θ1-60)后的朝向为声源的方向。

在第一夹角小于90度，并且第二夹角小于第一夹角，步骤S503可以确定主体顺时针旋转第三角度后的朝向为声源的方向。第三角度为60度与第一夹角之和。

例如，在0≤θ1<90&&θ1>θ2时，步骤S503可以确定主体顺时针旋转(θ1+60)后的朝向为声源的方向。

在第一夹角达到90度且小于180度，第二夹角小于第一夹角，并且第二夹角小于150度，步骤S503可以确定主体顺时针旋转第三角度后的朝向为声源的方向。

例如，在90≤θ1<180&&θ1>θ2&&θ2<150时，步骤S503可以确定主体顺时针旋转(θ1+60)后的朝向为声源的方向。

在第一夹角达到90度且小于180度，第二夹角小于第一夹角，并且第二夹角达到150度时，步骤S503可以确定主体逆时针旋转第二角度后的朝向为声源的方向。

例如，在90≤θ1<180&&θ1>θ2&&150≤θ2<180时，步骤S503可以确定主体逆时针旋转(θ1－60)后的朝向为声源的方向。

综上，方法500可以根据两个旋转位对应的两个夹角，确定水平方向360度范围内声源的准确方向。

图9示出了根据本申请一些实施例的电子设备的示意图。电子设备例如为云台摄像机或者智能机器人。如图9所示，该电子设备包括一个或者多个处理器(CPU)902、通信模块904、存储器906、用户接口910和摄像头920，以及用于互联这些组件的通信总线908。

处理器902可通过通信模块904接收和发送数据以实现网络通信和/或本地通信。

用户接口910包括两个传声器912和914。

存储器906可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器906存储处理器902可执行的指令集，包括：

操作系统916，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用918，包括用于实现上述方案的各种程序。这种程序能够实现上述各实例中的处理流程，比如可以包括声源检测方法300或400。

另外，本申请的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本发明。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和\或内存)中执行。因此，这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此本申请还公开了一种非易失性存储介质，其中存储有程序。该程序包括指令，所述指令当由处理器执行时，使得电子设备执行根据本申请的声源检测方法300或400。

另外，本申请所述的方法步骤除了可以用数据处理程序来实现，还可以由硬件来实现，例如，可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌微控制器等来实现。因此这种可以实现本申请所述确定对象之间关系信息的方法的硬件也可以构成本申请。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种声源检测方法，其特征在于，包括：

根据第一时延差和第二时延差，确定声源的方向。

2.如权利要求1所述的声源检测方法，其特征在于，进一步包括：

对所述两个传声器的声音信号进行语音检测；

3.如权利要求1所述的声源检测方法，其特征在于，所述根据第一时延差和第二时延差，确定声源的方向，包括：

根据所述第一夹角和所述第二夹角，确定所述声源的方向。

4.如权利要求3所述的声源检测方法，其特征在于，所述预定角度为逆时针90度，所述根据所述第一夹角和所述第二夹角，确定所述声源的方向，包括：

5.如权利要求3所述的声源检测方法，其特征在于，所述预定角度为顺时针30度，所述根据所述第一夹角和所述第二夹角，确定所述声源的方向，包括：

6.一种云台摄像机，其特征在于，包括：

两个传声器，设置于摄像头；

处理器，用于：

根据第一时延差和第二时延差，确定声源的方向。

7.如权利要求6所述的云台摄像机，其特征在于，所述处理器基于下述方式执行所述根据第一时延差和第二时延差，确定声源的方向：

根据所述第一夹角和所述第二夹角，确定所述声源的方向。

8.一种智能机器人，其特征在于，包括：

两个传声器，设置于头部；

处理器，用于：

根据第一时延差和第二时延差，确定声源的方向。

9.如权利要求8所述的智能机器人，其特征在于，所述处理器基于下述方式执行所述根据第一时延差和第二时延差，确定声源的方向：

根据所述第一夹角和所述第二夹角，确定所述声源的方向。

10.一种存储介质，存储有程序，所述程序包括指令，其特征在于，所述指令当由电子设备执行时，使得所述电子设备执行如权利要求1-5中任一项所述的声源检测方法。