CN110389597A

CN110389597A - 基于声源定位的摄像头调整方法、装置和系统

Info

Publication number: CN110389597A
Application number: CN201810342017.3A
Authority: CN
Inventors: 孙敏刚; 王刚
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2019-10-29
Anticipated expiration: 2038-04-17

Abstract

本申请实施例公开了基于声源定位的摄像头调整方法、装置和系统。该方法的一具体实施方式包括：响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到当前音频信号的多个麦克风中至少两个麦克风接收到音频信号的初始时刻；根据至少两个麦克风分别接收到音频信号的初始时刻之差确定目标对象与麦克风阵列的几何中心之间的方位角；基于方位角调整摄像头的对准方向以使摄像头捕捉到目标对象。该实施方式可以根据目标对象所发出的音频信号来调整摄像头的对准方向，实现了对目标对象的精准捕捉。

Description

基于声源定位的摄像头调整方法、装置和系统

技术领域

本申请实施例涉及计算机技术领域，具体涉及声源定位技术领域，尤其涉及基于声源定位的摄像头调整方法、装置和系统。

背景技术

摄像头在当今社会已经应用到了社会的各个方面。其主要的用途有监控、影像拍摄等。

通常高级的摄像头可以配置有云台。用户可以通过云台来控制摄像头的对准方向。例如可以通过远程计算机来观察摄像头所拍摄的图像。并根据摄像头所拍摄的图像通过远程控制云台以使摄像头旋转，从而摄像头可拍摄到用户希望看到的图像。

发明内容

本申请实施例提出了一种基于声源定位的摄像头调整方法、装置和系统。

第一方面，本申请实施例提供了一种基于声源定位的摄像头调整方法，包括：响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到当前音频信号的多个麦克风中至少两个麦克风接收到音频信号的初始时刻；根据至少两个麦克风分别接收到音频信号的初始时刻之差确定目标对象对应的方位角，方位角为音频信号的传播方向与第一预设基准线之间的夹角；基于方位角调整摄像头的对准方向以使摄像头捕捉到目标对象。

在一些实施例中，在基于方位角调整摄像头的对准方向以使摄像头捕捉到目标对象之后，该方法还包括：根据目标对象在摄像头所捕捉到的图像中的位置调整摄像头的对准方向，以使目标对象对应的图像位于摄像头所捕捉到的图像中的预定位置。

在一些实施例中，麦克风阵列中的各麦克风以非线性阵列方式排列，且麦克风阵列包括多个麦克风对；以及该方法还包括：根据多个麦克风对中每一麦克风对中的不同麦克风接收到当前音频信号的初始时刻之差确定目标对象的方位角。

在一些实施例中，根据目标对象在摄像头所捕捉到的图像中的位置调整摄像头的对准方向，以使目标对象对应的图像位于摄像头所捕捉到的图像中的预定位置，包括：确定目标对象在摄像头所捕捉到的图像中的位置相对其在图像中的预定位置的相对位置；基于相对位置，调整摄像头以使目标对象位于摄像头所采集到的图像中的预定位置。

第二方面，本申请实施例提供了一种基于声源定位的摄像头调整装置，包括：第一确定单元，配置用于响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到当前音频信号的多个麦克风中至少两个麦克风接收到音频信号的初始时刻；第二确定单元，配置用于根据至少两个麦克风分别接收到音频信号的初始时刻之差确定目标对象对应的方位角，方位角为音频信号的传播方向与第一预设基准线之间的夹角；调整单元，配置用于基于方位角调整摄像头的对准方向以使摄像头捕捉到目标对象。

在一些实施例中，调整单元进一步配置用于：在基于方位角调整摄像头的对准方向以使摄像头捕捉到目标对象之后，根据目标对象在摄像头所捕捉到的图像中的位置调整摄像头的对准方向，以使目标对象对应的图像位于摄像头所捕捉到的图像中的预定位置。

在一些实施例中，麦克风阵列中的各麦克风以非线性阵列方式排列，且麦克风阵列包括多个麦克风对；以及第二确定单元进一步配置用于：根据多个麦克风对中每一麦克风对中的不同麦克风接收到当前音频信号的初始时刻之差确定目标对象的方位角。

在一些实施例中，调整单元进一步配置用于：确定目标对象在摄像头所捕捉到的图像中的位置相对其在图像中的预定位置的相对位置；基于相对位置，调整摄像头以使目标对象位于摄像头所采集到的图像中的预定位置。

第三方面，本申请实施例提供了一种基于声源定位的摄像头调整系统，包括摄像头、麦克风阵列、云台以及控制设备；其中麦克风阵列用于接收目标对象发出的音频信号；摄像头用于实时采集图像；云台用于调整摄像的对准方向；控制设备用于响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到当前音频信号的多个麦克风中至少两个麦克风接收到音频信号的初始时刻；根据至少两个麦克风分别接收到音频信号的初始时刻之差确定目标对象对应的方位角，方位角为音频信号的传播方向与第一预设基准线之间的夹角；基于方位角控制云台调整摄像头的对准方向以使摄像头捕捉到目标对象。

在一些实施例中，麦克风阵列中的各麦克风以非线性阵列方式排列，且麦克风阵列包括多个麦克风对；以及控制设备进一步用于：根据多个麦克风对中每一麦克风对中的不同麦克风接收到当前音频信号的初始时刻之差确定目标对象的方位角。

第四方面，本申请实施例提供了一种控制设备，该控制设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第五方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的基于声源定位的摄像头调整方法、装置和系统，通过响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，确定至少两个麦克风分别接收到音频信号的初始时刻，而后根据至少两个麦克风分别接收到音频信号的初始时刻之差确定目标对象对应的方位角，最后基于方位角调整摄像头的对准方向以使摄像头捕捉到目标对象。从而可以根据目标对象所发出的音频信号来调整摄像头的对准方向，实现了对目标对象的精准捕捉。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于声源定位的摄像头调整方法的一个实施例的流程图；

图3是由基于线性麦克风阵列确定目标对象的方位角的示意图；

图4是根据本实施例的基于声源定位的摄像头调整方法的应用场景的一个示意图；

图5是根据本申请的基于声源定位的摄像头调整方法的另一个实施例的流程；

图6是根据本申请的基于声源定位的摄像头调整方法的又一个实施例的流程；

图7是根据多个麦克风对确定目标对象的方位角的一个示意图；

图8是根据本申请的基于声源定位的摄像头调整装置的一个实施例的结构示意图；

图9是根据本申请的基于声源定位的摄像头调整系统的一个实施例的结构示意图；

图10是适于用来实现本申请实施例的控制设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的基于声源定位的摄像头调整方法或基于声源定位的摄像头调整装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括摄像头101、麦克风阵列102、网络103和控制设备104。网络103用以在摄像头101、麦克风阵列102和控制设备104之间提供通信链路的介质。

控制设备104通过网络103接收麦克风阵列102采集到的音频信号，并对音频信号进行分析。此外，控制设备104根据对麦克风阵列102采集到的音频信号的分析结果来控制摄像头101的对准方向。

控制设备104可以是单独设置的设备，例如可编程逻辑控制设备(ProgrammableLogic Controller，PLC)、单片机、工业控制机等；也可以是由其他具有输入/输出端口，并具有运算控制功能的电子器件组成的设备；还可以是安装有摄像头控制类应用的计算机设备。

需要说明的是，控制设备104可以是硬件，也可以是软件。当控制设备为硬件时，可以实现成多个控制设备组成的分布式控制设备集群，也可以实现成单个控制设备。当控制设备为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的基于声源定位的摄像头调整方法一般由控制设备104执行，相应地，基于声源定位的摄像头调整装置一般设置于控制设备104中。

通常，为了避免在将由麦克风所采集的音频信号传输到控制设备的过程中所引入的误差造成摄像头对准方向出错，可以将上述摄像头、麦克风阵列和控制设备集成在同一设备中。

应该理解，图1中的摄像头101、麦克风阵列102和控制设备104的数目仅仅是示意性的。根据实现需要，可以具有任意数目的摄像头、麦克风阵列和控制设备。

继续参考图2，其示出了根据本申请的基于声源定位的摄像头调整方法的一个实施例的流程200。该基于声源定位的摄像头调整方法，包括以下步骤：

步骤201，响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到当前音频信号的多个麦克风中至少两个麦克风接收到音频信号的初始时刻。

在本实施例中，基于声源定位的摄像头调整方法的执行主体(例如图1所示的控制设备)可以通过有线连接方式或者无线连接方式接收麦克风阵列中各麦克风接收到目标对象发出的当前音频信号。然后，上述执行主体可以通过各种分析方法来确定至少两个麦克风分别接收到音频信号的初始时刻。

通常，可以使用摄像头来拍摄图像。这里摄像头可以固定在某一个载体上。上述载体可以是可移动载体，也可以是位置固定的载体。

此外，我们可以在摄像头的上方或者摄像头的下方，距离摄像头较近的位置(例如2厘米内)处设置麦克风阵列。进一步地，麦克风阵列的几何中心可以与摄像头镜头的几何中心位于同一直线上。这里的麦克风阵列可以包括多个麦克风。上述多个麦克风可以以阵列的形式进行设置。这里的麦克风阵列可以是平面麦克风阵列，例如线性阵列和平面非线性阵列。此外，麦克风阵列还可以是设置在三维空间中的麦克风阵列，例如，分别位于正四面体的四个顶点上的四个麦克风形成的麦克风阵列等。其中，每一个麦克风可以接收目标对象所发出的音频信号。

在一些应用场景中，上述摄像头和麦克风阵列可以设置在同一个图像采集设备中。

在另外一些应用场景中，上述摄像头、麦克风阵列以及上述控制设备可以集成在同一个图像采集设备中。

在本实施例中，上述执行主体可以将发出音频信号的对象作为目标对象，例如在有多人参加的视频会议中，可以将正在发言的人员作为目标对象。此外，这里的目标对象可以是人，还可以是可以发出音频信号的任意物体。这里的音频信号，可以是由目标对象发出的声音，还可以是由目标对象所持电子设备(例如音响设备)发出的音频信号等。

声音(音频信号)是一种波动，它是振动在媒质中的传播。如果声波仅沿一个坐标方向传播，且垂直于该传播方向的平面上的所有质点的振幅和相位均相同的声波为平面声波。

当声源与麦克风之间的距离大于时(其中λ是声源的最小波长，d是相邻两个麦克风之间的距离)，声源就处于远场。远场中的音频信号可以认为是为平面声波。

本申请中以声源(也即目标对象发出的音频信号)处于远场来进行说明。

由于目标对象与麦克风阵列中各个麦克风的距离不相同，相应地，目标对象发出的音频信号到达不同麦克风的时刻也不相同。

通常，音频信号一般可以分为无声段、清音段和浊音段。无声段是背景噪声段。浊音段为声带震动发出对应的音频信号段。清音段为空气在口腔中的摩擦、冲击或爆破而发出的音频信号段。可以通过分析音频信号各时刻对应的短时能量来区分上述无声段、浊音段和清音段。其中，无声段对应的能量最低，浊音段的能量最高，轻音段的能量位于上述无声段对应的能量和浊音段对应的能量之间。还可以采用在一定时间内信号穿越零电平的次数来确定清音段。我们可以通过分析音频信号的无声段，并且将无声段转为清音段，或者由无声段转为浊音段的时刻确定为麦克风接收到音频信号的初始时刻。需要指出的是，上述分析音频信号的短时能量的方法是广泛使用的公知技术，此处不再赘述。

上述执行主体可以确定在上述麦克风阵列中至少两个麦克风分别接收到音频信号的初始时刻。

步骤202，根据至少两个麦克风分别接收到音频信号的初始时刻之差确定目标对象对应的方位角，方位角为音频信号的传播方向与第一预设基准线之间的夹角。

在本实施例中，在步骤201中确定至少两个麦克风分别接收到目标对象发出的音频信号的初始时刻之后，上述执行主体(例如图1所示的控制设备)可以确定上述至少两个麦克风分别接收到上述目标对象所发出的音频信号的初始时刻之差。然后可以根据上述至少两个麦克风分别接收到音频信号的初始时刻之差，通过各种分析方法来确定上述目标对象的方位角。这里的方位角为上述音频信号的传播方向与第一预设基准线之间的夹角。在本实施例中，上述第一预设基准线可以是以上述麦克风阵列的几何中心为原点所建立的坐标系中的x轴。具体建立的坐标系可以参考如下的阐述。

在一些应用场景中，还可以通过分析到达两个麦克风的音频信号的广义互相关函数的方法来确定麦克风阵列中的两个麦克风接收到音频信号的初始时刻之差。

需要指出的是，上述通过两个麦克风所采集到的音频信号的广义互相关函数来确定音频信号到达两个麦克风的初始时刻之差的方法是目前广泛研究和应用的公知技术，在此不再赘述。

上述执行主体可以根据得到的音频信号到达至少两个麦克风的初始时刻之差，以及上述至少两个麦克风的几何位置来确定上述目标对象的方位角。

具体地，可以以麦克风阵列的几何中心为原点，来建立坐标系(这里的坐标系可以是平面坐标系，还可以是三维坐标系)。

在本实施例中，上述麦克风阵列可以为由两个麦克风组成的线阵。可以根据两个麦克风分别接收到音频信号的初始时刻之差确定目标对象的方位角。图3示出了基于线性麦克风阵列确定目标对象的方位角的示意图300。

以两个麦克风组成的线性麦克风阵列为例进行说明。如图3所示，以两个麦克风M1和M2之间的连线的中点O为原点，以通过两个麦克风M1和M2的射线为x轴；以通过原点O，在两个麦克风M1和M2所在平面内，且与x轴垂直的射线为y轴；以通过原点O，且垂直于麦克风M1、M2所在平面的射线为z轴，建立坐标系。

在本实施例中，可以将x轴作为第一预设基准线。这样一来，目标对象对应的方位角为目标对象所发出的音频信号的传播方向与上述x轴之间的夹角。

当麦克风阵列为由两个麦克风组成的线性阵列时，可以确定在两个麦克风接收音频信号的一侧的，由经过两麦克风各自的中心点以及上述z轴的平面所隔开的两个部分空间中的任一部分空间内的目标对象所发出的音频信号的方位角。

假设在上述两个部分空间中的一个部分空间内的目标对象所发出的音频信号所形成的声波平面到达麦克风M1的初始时刻与上述声波平面到达麦克风M2的初始时刻之差为t1。假设麦克风M1与麦克风M2之间的间距为d1。在图3所示的图形中，θ1满足如下公式(1)：

由此，可得：

其中a为声波在空气中的传播速度。

在本实施例中，上述音频信号的传播方向与x轴正向之间的夹角θ(也即音频信号的方位角)等于θ1。上述音频信号的传播方向与x轴正向之间的夹角θ为经过原点O的、且与音频信号的传播方向平行的射线与x轴正向之间的夹角。

在一些应用场景中，还可以使用两个以上的麦克风等间距设置，例如四个麦克风等间距设置，形成线性麦克风阵列来确定在线性麦克风阵列接收声音的一侧的，由经过线性麦克风阵列中各麦克风的中心点以及上述z轴的平面所隔开的两个部分空间中的一个部分空间内的目标对象所发出的音频信号(也即目标对象)的方位角。

步骤203，基于方位角调整摄像头的对准方向以使摄像头捕捉到目标对象。

在本实施例中，在步骤203中得到目标对象的方位角之后，上述基于声源定位的摄像头调整方法的执行主体可以基于上述目标对象的方位角来调整摄像头的对准方向。在调整了摄像头的对准方向之后，上述摄像头可以捕捉到目标对象。当摄像头在麦克风的上方或下方，且摄像头的几何中心与麦克风阵列的几何中心在一条直线上时，如图3所示，可以将摄像头的对准方向水平向左(也即向x轴的负方向)调整β角度。其中，

继续参见图4，图4是根据本实施例的基于声源定位的摄像头调整方法的应用场景的一个示意图。在图4的应用场景400中，摄像头403设置在预设空间40内。摄像头403设置在有两个麦克风402组成的麦克风阵列的下方(摄像头403还可以设置在麦克风阵列的上方)。摄像头403的几何中心41与麦克风阵列的几何中心42在一条直线上。麦克风阵列接收到目标对象404发出的音频信号之后，麦克风阵列中的各麦克风402分别将其接收到的音频信号发送给控制设备401。控制设备401根据麦克风阵列中的各麦克风402接收到音频信号的初始时刻之差，确定目标对象404的方位角θ(例如45°)。然后，上述摄像头403可以按照图示的方向水平旋转角度为这样一来，目标对象404就很容易呈现在摄像头403的拍摄范围之内。

本申请上述实施例提供的方法通过根据音频信号到达麦克风阵列的至少两个麦克风之间初始时刻之差来确定目标对象的方位角，并根据上述方位角来调整摄像头，从而使得摄像头可以采集到目标对象，实现了摄像头对目标对象的精准捕捉。

进一步参考图5，其示出了基于声源定位的摄像头调整方法的另一个实施例的流程500。该基于声源定位的摄像头调整方法的流程500，包括以下步骤：

步骤501，响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到当前音频信号的多个麦克风中至少两个麦克风接收到音频信号的初始时刻。

步骤501与图2所示实施例中的步骤201相同，此处不赘述。

步骤502，根据至少两个麦克风分别接收到音频信号的初始时刻之差确定目标对象的方位角。

步骤502与图2所示实施例中的步骤202相同，此处不赘述。

步骤503，基于方位角调整摄像头的对准方向以使摄像头捕捉到目标对象。

步骤503与图2所示实施例中的步骤203相同，此处不赘述。

步骤504，根据目标对象在摄像头所捕捉到的图像中的位置调整摄像头的对准方向，以使目标对象对应的图像位于摄像头所捕捉到的图像中的预定位置。

在步骤503中基于目标对象与麦克风阵列的几何中心之间的相对位置调整摄像头的对准方向之后，摄像头可以捕捉到目标对象。

上述基于声源定位的摄像头调整方法的执行主体(例如图1所示的控制设备)可以设置在一个在摄像头所能采集到的图像中与目标对象对应的预定位置。当经过上述步骤503调整摄像头的对准方向而拍摄到包括上述目标对象的图像之后。上述目标对象的图像有可能并不位于摄像头所捕捉到的整体图像的上述预定位置处。此时，上述执行主体可以进一步调整摄像头的对准方向，从而使得目标对象对应的图像位于摄像头所捕捉到的整体图像的预定位置。

在本实施例的一些可选实现方式中，上述步骤504的根据目标对象在摄像头所捕捉到的图像中的位置调整摄像头的对准方向，以使目标对象对应的图像位于摄像头所捕捉到的图像中的预定位置，可以进一步分解为如下子步骤：

第一，确定目标对象在摄像头所捕捉到的图像中的位置相对其在图像中的预定位置的相对位置。

在摄像头捕捉到目标对象的图像之后，上述执行主体可以分析摄像头所捕捉到的目标对象在图像中的位置与预定位置之间的相对位置。例如，摄像头所捕捉到的目标对象的图像在图像中的位置相对预定位置偏左20个像素。

第二，基于上述相对位置，调整摄像头以使目标对象位于摄像头所采集到的图像中的预定位置。

在得到摄像头所捕捉到的目标对象的图像在摄像头所捕捉到的完整图像中的位置与目标对象的预定位置之间的相对位置，可以调整摄像头以使目标对象位于摄像头所采集到的图像中的预定位置。例如向左调整摄像头预定角度，使得摄像头所采集到的目标对象的图像在图像中的预定位置。此外，这里对摄像头的调整可以是微调。这里的预定位置可以是图像的正中，还可以是任意位置。

在本实施例中，可以通过调整控制摄像头的云台的方式来调整摄像头。通过云台控制摄像头进行旋转的方法是目标广泛使用的方法，此处不赘述。

从图5中可以看出，与图2对应的实施例相比，本实施例中的基于声源定位的摄像头调整方法的流程500突出了根据目标对象在图像中的位置来调整摄像头以使目标对象位于图像中的预定位置的步骤。由此，本实施例描述的方案使得在拍摄目标对象的图片时对摄像头的调整更加准确。此外，使用本实施例描述的方案调整摄像头所拍摄出的目标对象的图像在摄像头所述拍摄的图像中更加突出，从而可以改善用户体验。

请进一步参考图6，其示出了基于声源定位的摄像头调整方法的又一个实施例的流程600。该基于声源定位的摄像头调整方法的流程600，包括以下步骤：

步骤601，响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到当前音频信号的多个麦克风中至少两个麦克风接收到音频信号的初始时刻。

步骤601与图2所示实施例中的步骤201相同，此处不赘述。

步骤602，麦克风阵列中的各麦克风以非线性阵列方式排列，且麦克风阵列包括多个麦克风对，根据多个麦克风对中每一麦克风对中的不同麦克风接收到当前音频信号的初始时刻之差确定目标对象的方位角。

本实施例中的麦克风阵列中的麦克风数量可以大于两个，例如三个、四个等。而且多个麦克风非线性阵列排列。具体的麦可风的数量可以根据具体的需要进行设定，此处不做限定。

在本实施例中，基于声源定位的摄像头调整方法运行于其上的执行主体可以将上述非线性排列的多个麦克风分为多个麦克风对。每一个麦克风对可以包括从多个麦克风中预先选取的两个麦克风。

请参考图7，其示出了根据非线性阵列方式排列的多个麦克风对确定目标对象的方位角的一个示意图。

如图7所示的示意图700中，以四个麦克风M3、M4、M5和M6组成的非线性麦克风阵列为例进行说明。M3、M4、M5和M6是参数相同的麦克风。在示意图700中的麦克风阵列中M3、M4为一麦克风对，M5、M6为一个麦克风对。这里，M3、M4可以组成一个线阵，与M5、M6组成的线阵相互正交。M3、M4之间的距离d2和M5、M6之间的距离d3可以相等。可以将两个线阵的交点作为坐标原点O；以通过麦克风M3的中心点和麦克风M4的中心点的射线为x轴；以通过麦克风M5的中心点和麦克风M6的中心点的射线为y轴；以通过原点O且与麦克风M3、M4、M5、M6所在平面的垂直的射线为z轴，建立如图7所示的直角坐标系。

假设麦克风M3和麦克风M5之间的距离为d4。麦克风M3的中心点和麦克风M5的中心点之间的连线与麦克风M3的中心点和麦克风M4的中心点之间的连线的夹角为φ。目标对象所发出的音频信号所形成的声波平面沿音频信号传播方向到达麦克风M3、麦克风M4、麦克风M5和麦克风M6的初始时刻分别为T1、T2、T3、T4。由此，对于由麦克风M3和麦克风M4组成的麦克风对，可以得到目标对象所发出的音频信号所形成的声波平面到达麦克风M3的初始时刻和到达麦克风M4的初始时刻之差为t2。对于由麦克风M3、M5组成的麦克风对，目标对象所发出的音频信号所形成的声波平面到达麦克风M3的初始时刻和到达麦克风M5的初始时刻之差为t3。对于由麦克风M5和麦克风M6组成的麦克风对，目标对象所发出的音频信号所形成的声波平面到达麦克风M5的初始时刻和到达麦克风M6的初始时刻之差为t4。假设a为声波在空气中的传播速度。

如图7所示，可以分别得到如下公式：

t2×a＝d2×cosθ2 (3)；

t4×a＝d3×sinθ4 (4)；

t3×a＝d4×cosγ (5)；

其中，

由此，可得：

上述执行主体可以将上述θ2、θ3和θ4的均值作为目标对象的方位角θ，即：

使用上述非线性阵列方式排列的多个麦克风可以得到目标对象在多个麦克风接收音频信号一侧的半个空间内的目标对象的方位角。

步骤603，基于方位角调整摄像头的对准方向以使摄像头捕捉到目标对象。

上述执行主体在步骤602中确定出目标对象的方位角之后，可以根据方位角来调整摄像头的对准方向以使摄像头捕捉到目标对象。

在图7中，在确定了目标对象的方位角θ之后，可以调整摄像头的对准方向水平向右(也即向x轴的正向偏转)的角度。

步骤604，根据目标对象在摄像头所捕捉到的图像中的位置调整摄像头的对准方向，以使目标对象对应的图像位于摄像头所捕捉到的图像中的预定位置。

步骤604与图5所示的步骤504相同，此处不赘述。

从图6中可以看出，与图2对应的实施例相比，本实施例中的基于声源定位的摄像头调整方法的流程600突出了根据多个麦克风对确定目标对象的方位角，根据目标对象对应的方位角整摄像头的对准方向的步骤。本实施例描述的方案一方面可以确定出的较大范围内的方位角，另一方面使得所确定的方位角更加精确，由此，根据本实施例描述的方案来调整摄像头的对准方向使得摄像头可以更加准确的捕捉到目标对象。

进一步参考图8，作为对上述各图所示方法的实现，本申请提供了一种基于声源定位的摄像头调整装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的基于声源定位的摄像头调整装置800包括：第一确定单元801、第二单元802和调整单元803。其中，第一确定单元801，配置用于响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到当前音频信号的多个麦克风中至少两个麦克风接收到音频信号的初始时刻；第二确定单元802，配置用于根据至少两个麦克风分别接收到音频信号的初始时刻之差确定目标对象对应的方位角，方位角为音频信号的传播方向与第一预设基准线之间的夹角；调整单元803，配置用于基于方位角调整摄像头的对准方向以使摄像头捕捉到目标对象。

在本实施例中，基于声源定位的摄像头调整装置800的第一确定单元801、第二单元802和调整单元803的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202和步骤203的相关说明，在此不再赘述。

在本实施例的一些可选实现方式中，调整单元803进一步配置用于：在基于方位角调整摄像头的对准方向以使摄像头捕捉到目标对象之后，根据目标对象在摄像头所捕捉到的图像中的位置调整摄像头的对准方向，以使目标对象对应的图像位于摄像头所捕捉到的图像中的预定位置。

在本实施例的一些可选实现方式中，麦克风阵列中的各麦克风以非线性阵列方式排列，且麦克风阵列包括多个麦克风对；以及第二确定单元802进一步配置用于：根据多个麦克风对中每一麦克风对中的不同麦克风接收到当前音频信号的初始时刻之差确定目标对象的方位角。

在本实施例的一些可选实现方式中，调整单元803进一步配置用于：确定目标对象在摄像头所捕捉到的图像中的位置相对其在图像中的预定位置的相对位置；基于相对位置，调整摄像头以使目标对象位于摄像头所采集到的图像中的预定位置。

请参考图9，其示出了基于声源定位的摄像头调整系统的示意图。

如图9所示，基于声源定位的摄像头调整系统900包括摄像头901、麦克风阵列902、云台904以及控制设备903。其中，摄像头901、麦克风阵列902以及云台集成在同一设备中。摄像头901的几何中心与麦克风阵列902的几何中心在一条直线上。

在上述基于声源定位的摄像头调整系统900中，麦克风阵列902用于接收目标对象发出的音频信号；

摄像头901用于实时采集图像；

云台904用于调整摄像头901的对准方向；

控制设备903用于响应于麦克风阵列902中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到当前音频信号的多个麦克风中至少两个麦克风接收到音频信号的初始时刻；根据至少两个麦克风分别接收到音频信号的初始时刻之差确定目标对象对应的方位角，方位角为目标对象所发出的音频信号的传播方向与第一预设基准线之间的夹角；基于方位角控制云台904调整摄像头901的对准方向以使摄像头901捕捉到目标对象。

在本实施例的一些可选实现方式中，麦克风阵列902中的各麦克风以非线性阵列方式排列，且麦克风阵列包括多个麦克风对；以及控制设备903进一步用于：根据多个麦克风对中每一麦克风对中的不同麦克风接收到当前音频信号的初始时刻之差确定目标对象的方位角，以及基于目标对象的方位角控制云台904调整摄像头901的对准方向。

可以理解的是，上述控制设备903还可以与摄像头901、麦克风阵列902、云台904集成在同一设备中。

下面参考图10，其示出了适于用来实现本申请实施例的控制设备的计算机系统1000的结构示意图。图10示出的控制设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(CPU，Central ProcessingUnit)1001，其可以根据存储在只读存储器(ROM，Read Only Memory)1002中的程序或者从存储部分1006加载到随机访问存储器(RAM，Random Access Memory)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O，Input/Output)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括硬盘等的存储部分1006；以及包括诸如LAN(局域网，Local Area Network)卡、调制解调器等的网络接口卡的通信部分1007。通信部分1007经由诸如因特网的网络执行通信处理。驱动器1008也根据需要连接至I/O接口1005。可拆卸介质1009，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1008上，以便于从其上读出的计算机程序根据需要被安装入存储部分1006。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1007从网络上被下载和安装，和/或从可拆卸介质1009被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在上述设备上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括第一确定单元、第二确定单元和调整单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一确定单元还可以被描述为“响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到当前音频信号的多个麦克风中至少两个麦克风接收到音频信号的初始时刻的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到当前音频信号的多个麦克风中至少两个麦克风接收到音频信号的初始时刻；根据至少两个麦克风分别接收到音频信号的初始时刻之差确定目标对象的方位角，方位角为音频信号的传播方向与第一预设基准线之间的夹角；基于方位角调整摄像头的对准方向以使摄像头捕捉到目标对象。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于声源定位的摄像头调整方法，包括：

响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到所述当前音频信号的多个麦克风中至少两个麦克风接收到所述音频信号的初始时刻；

根据所述至少两个麦克风分别接收到所述音频信号的初始时刻之差确定所述目标对象对应的方位角，所述方位角为所述音频信号的传播方向与第一预设基准线之间的夹角；

基于所述方位角调整摄像头的对准方向以使所述摄像头捕捉到所述目标对象。

2.根据权利要求1所述的方法，其中，在所述基于所述方位角调整摄像头的对准方向以使所述摄像头捕捉到所述目标对象之后，所述方法还包括：

根据所述目标对象在所述摄像头所捕捉到的图像中的位置调整所述摄像头的对准方向，以使所述目标对象对应的图像位于所述摄像头所捕捉到的图像中的预定位置。

3.根据权利要求1所述的方法，其中，所述麦克风阵列中的各麦克风以非线性阵列方式排列，且所述麦克风阵列包括多个麦克风对；以及

所述根据所述至少两个麦克风分别接收到所述音频信号的初始时刻之差确定所述目标对象对应的方位角，包括：

根据所述多个麦克风对中每一麦克风对中的不同麦克风接收到所述当前音频信号的初始时刻之差确定所述目标对象的方位角。

4.根据权利要求2所述的方法，其中，所述根据所述目标对象在所述摄像头所捕捉到的图像中的位置调整所述摄像头的对准方向，以使所述目标对象对应的图像位于所述摄像头所捕捉到的图像中的预定位置，包括：

确定所述目标对象在所述摄像头所捕捉到的图像中的位置相对其在图像中的预定位置的相对位置；

基于所述相对位置，调整所述摄像头以使所述目标对象位于摄像头所采集到的图像中的预定位置。

5.一种基于声源定位的摄像头调整装置，包括：

第一确定单元，配置用于响应于麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到所述当前音频信号的多个麦克风中至少两个麦克风接收到所述音频信号的初始时刻；

第二确定单元，配置用于根据所述至少两个麦克风分别接收到所述音频信号的初始时刻之差确定所述目标对象对应的方位角，所述方位角为所述音频信号的传播方向与第一预设基准线之间的夹角；

调整单元，配置用于基于所述方位角调整摄像头的对准方向以使所述摄像头捕捉到所述目标对象。

6.根据权利要求5所述的装置，其中，所述调整单元进一步配置用于：

在基于所述方位角调整摄像头的对准方向以使所述摄像头捕捉到所述目标对象之后，根据所述目标对象在所述摄像头所捕捉到的图像中的位置调整所述摄像头的对准方向，以使所述目标对象对应的图像位于所述摄像头所捕捉到的图像中的预定位置。

7.根据权利要求5所述的装置，其中，所述麦克风阵列中的各麦克风以非线性阵列方式排列，且所述麦克风阵列包括多个麦克风对；以及

所述第二确定单元进一步配置用于：

8.根据权利要求6所述的装置，其中，所述调整单元进一步配置用于：

基于所述相对位置，调整摄像头以使目标对象位于摄像头所采集到的图像中的预定位置。

9.一种基于声源定位的摄像头调整系统，包括摄像头、麦克风阵列、云台以及控制设备；其中，

所述麦克风阵列用于接收目标对象发出的音频信号；

所述摄像头用于实时采集图像；

所述云台用于调整摄像的对准方向；

所述控制设备用于响应于所述麦克风阵列中的多个麦克风接收到目标对象发出的当前音频信号，分别确定接收到所述当前音频信号的多个麦克风中至少两个麦克风接收到所述音频信号的初始时刻；根据所述至少两个麦克风分别接收到所述音频信号的初始时刻之差确定所述目标对象对应的方位角，所述方位角为所述音频信号的传播方向与第一预设基准线之间的夹角；基于所述方位角控制所述云台调整所述摄像头的对准方向以使所述摄像头捕捉到所述目标对象。

10.根据权利要求9所述的系统，其中，所述麦克风阵列中的各麦克风以非线性阵列方式排列，且所述麦克风阵列包括多个麦克风对；以及

所述控制设备进一步用于：根据多个麦克风对中每一麦克风对中的不同麦克风接收到所述当前音频信号的初始时刻之差确定所述目标对象的方位角。

11.一种控制设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。