CN113411487A

CN113411487A - 设备的控制方法、装置、系统和计算机可读存储介质

Info

Publication number: CN113411487A
Application number: CN202010186320.6A
Authority: CN
Inventors: 阮建辉; 郭耀光
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2021-09-17
Anticipated expiration: 2040-03-17
Also published as: CN113411487B

Abstract

本公开涉及一种设备的控制方法、装置、系统和计算机可读存储介质，涉及计算机技术领域。本公开的方法包括：获取麦克风设备采集的多项声音信息；根据每项声音信息，确定声音信息对应的目标的标识，以及声音信息对应的目标的第一方位信息；根据各个摄像设备相对于各个目标的方位信息，确定每个摄像设备的待跟踪目标的标识；将各个待跟踪目标的第一方位信息发送至待跟踪目标对应的摄像设备，以便摄像设备自动调整角度进行拍摄。

Description

设备的控制方法、装置、系统和计算机可读存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种设备的控制方法、装置、系统和计算机可读存储介质。

背景技术

在节目录制、文艺演出或演讲过程中，为了达到良好的节目效果往往需要频繁移动摄像头对特定人物进行快速实时的跟踪。

目前，摄像头的移动与调整一般需要通过专业人员的操作。尤其在多台摄像头分别拍摄不同的人物或场景的情况下，需要多个专业人员同时进行操作。

发明内容

发明人发现：针对目前主要由专业人员对摄像设备进行调整对任务进行跟踪的方案，希望提出一种可以对摄像设备进行自动控制，提高跟踪效率和准确率的方案。

本公开所要解决的一个技术问题是：如何对摄像设备进行自动控制，实现摄像设备对特定人物的跟踪。

根据本公开的一些实施例，提供的一种设备的控制方法，包括：获取麦克风设备采集的多项声音信息；根据每项声音信息，确定声音信息对应的目标的标识，以及声音信息对应的目标的第一方位信息；根据各个摄像设备相对于各个目标的方位信息，确定每个摄像设备的待跟踪目标的标识；将各个待跟踪目标的第一方位信息发送至待跟踪目标对应的摄像设备，以便摄像设备自动调整角度进行拍摄。

在一些实施例中，该方法，还包括：接收各个摄像设备拍摄的图像；针对每个摄像设备拍摄的图像，识别图像中是否包含摄像设备对应的待跟踪目标的图像；在图像中包含摄像设备对应的待跟踪目标的图像的情况下，根据待跟踪目标在图像中的位置，确定待跟踪目标的第二方位信息；将待跟踪目标的第二方位信息发送至对应的摄像设备，以便摄像设备自动调整角度进行拍摄。

在一些实施例中，该方法，还包括：将待跟踪目标的第二方位信息发送至对应的麦克风设备，以便麦克风设备对第二方位信息对应的方位增强收音。

在一些实施例中，该方法，还包括：在图像中未包含摄像设备对应的待跟踪目标的图像的情况下，将待调整焦距发送至摄像设备；其中，待调整焦距使相对于摄像设备当前焦距更小；接收摄像设备以待调整焦距拍摄的图像；识别图像中是否包含摄像设备对应的待跟踪目标的图像。

在一些实施例中，获取麦克风设备采集的多项声音信息包括：在麦克风设备为麦克风阵列的情况下，对麦克风阵列采集的声音信息进行声音分离，并对分离后的声音信息进行语音活动检测，消除噪音，得到多项声音信息；或者，在麦克风设备为多个定向麦克风的情况下，将每个定向麦克风采集的声音信息进行语音活动检测，消除噪音，得到多项声音信息。

在一些实施例中，根据每项声音信息，确定声音信息对应的目标的标识，以及声音信息对应的目标的第一方位信息包括：针对每项声音信息，提取声音信息的声纹特征；将各项声音信息的声纹特征与预先存储的各个目标的声纹特征进行匹配；根据匹配结果，确定各项声音信息对应的目标的标识；利用声源定位算法确定各项声音信息的方位信息，作为声音信息对应的目标的第一方位信息。

在一些实施例中，针对每个摄像设备拍摄的图像，识别图像中是否包含摄像设备对应的待跟踪目标的图像包括：针对每个摄像设备拍摄的图像，提取图像中各个目标的图像特征；根据摄像设备对应的待跟踪目标的标识查找预先存储的待跟踪目标的图像特征；将提取的各个目标的图像特征与待跟踪目标的图像特征进行比对，确定图像中是否包含摄像设备对应的待跟踪目标的图像。

在一些实施例中，根据待跟踪目标在图像中的位置，确定待跟踪目标的第二方位信息包括：确定待跟踪目标的中心点与图像的中心点的距离；在距离超过距离阈值的情况下，根据待跟踪目标的中心点与图像的中心点的相对位置，确定待跟踪目标的第二方位信息。

在一些实施例中，该方法还包括：根据待跟踪目标在图像中所占的比例，确定摄像设备的焦距；将摄像设备的焦距发送至对应的摄像设备，以便摄像设备调整焦距。

在一些实施例中，根据各个摄像设备相对于各个目标的方位信息，确定每个摄像设备的待跟踪目标的标识包括：根据各个摄像设备相对于各个目标的方位信息，计算各个摄像设备相对于各个目标的待调整角度；确定各个摄像设备的待调整角度的总合最小的情况下，每个摄像设备的待跟踪目标的标识。

根据本公开的另一些实施例，提供的一种设备的控制装置，包括：声音获取模块，用于获取麦克风设备采集的多项声音信息；声源确定模块，用于根据每项声音信息，确定声音信息对应的目标的标识，以及声音信息对应的目标的第一方位信息；目标分配模块，用于根据各个摄像设备相对于各个目标的方位信息，确定每个摄像设备的待跟踪目标的标识；发送模块，用于将各个待跟踪目标的第一方位信息发送至待跟踪目标对应的摄像设备，以便摄像设备自动调整角度进行拍摄。

在一些实施例中，该装置还包括：微调模块，用于接收各个摄像设备拍摄的图像；针对每个摄像设备拍摄的图像，识别图像中是否包含摄像设备对应的待跟踪目标的图像；在图像中包含摄像设备对应的待跟踪目标的图像的情况下，根据待跟踪目标在图像中的位置，确定待跟踪目标的第二方位信息；将待跟踪目标的第二方位信息发送至对应的摄像设备，以便摄像设备自动调整角度进行拍摄。

在一些实施例中，微调模块还用于将待跟踪目标的第二方位信息发送至对应的麦克风设备，以便麦克风设备对第二方位信息对应的方位增强收音。

在一些实施例中，微调模块还用于在图像中未包含摄像设备对应的待跟踪目标的图像的情况下，将待调整焦距发送至摄像设备；其中，待调整焦距使相对于摄像设备当前焦距更小；接收摄像设备以待调整焦距拍摄的图像；识别图像中是否包含摄像设备对应的待跟踪目标的图像。

在一些实施例中，声音获取模块用于在麦克风设备为麦克风阵列的情况下，对麦克风阵列采集的声音信息进行声音分离，并对分离后的声音信息进行语音活动检测，消除噪音，得到多项声音信息；或者，在麦克风设备为多个定向麦克风的情况下，将每个定向麦克风采集的声音信息进行语音活动检测，消除噪音，得到多项声音信息。

在一些实施例中，声源确定模块用于针对每项声音信息，提取声音信息的声纹特征；将各项声音信息的声纹特征与预先存储的各个目标的声纹特征进行匹配；根据匹配结果，确定各项声音信息对应的目标的标识；利用声源定位算法确定各项声音信息的方位信息，作为声音信息对应的目标的第一方位信息。

在一些实施例中，微调模块用于针对每个摄像设备拍摄的图像，提取图像中各个目标的图像特征；根据摄像设备对应的待跟踪目标的标识查找预先存储的待跟踪目标的图像特征；将提取的各个目标的图像特征与待跟踪目标的图像特征进行比对，确定图像中是否包含摄像设备对应的待跟踪目标的图像。

在一些实施例中，微调模块用于确定待跟踪目标的中心点与图像的中心点的距离；在距离超过距离阈值的情况下，根据待跟踪目标的中心点与图像的中心点的相对位置，确定待跟踪目标的第二方位信息。

在一些实施例中，该装置还包括：焦距调整模块，用于根据待跟踪目标在图像中所占的比例，确定摄像设备的焦距；将摄像设备的焦距发送至对应的摄像设备，以便摄像设备调整焦距。

在一些实施例中，目标分配模块用于根据各个摄像设备相对于各个目标的方位信息，计算各个摄像设备相对于各个目标的待调整角度；确定各个摄像设备的待调整角度的总合最小的情况下，每个摄像设备的待跟踪目标的标识。

根据本公开的又一些实施例，提供的一种设备的控制装置，包括：处理器；以及耦接至处理器的存储器，用于存储指令，指令被处理器执行时，使处理器执行前述任意实施例的设备的控制方法。

根据本公开的再一些实施例，提供的一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意实施例设备的控制方法的步骤。

根据本公开的又一些实施例，提供的一种设备的控制系统，包括：前述任意实施例的设备的控制装置；以及麦克风设备，用于采集的多项声音信息；摄像设备，用于接收设备的控制装置发送的各个待跟踪目标的第一方位信息，并根据第一方位信息自动调整自身的角度对待跟踪目标进行拍摄。

在一些实施例中，摄像设备还用于拍摄图像，将图像发送至设备的控制装置；麦克风设备还用于接收设备的控制装置发送的待跟踪目标的第二方位信息，对第二方位信息对应的方位增强收音。

本公开根据麦克风设备采集的多项声音信息，确定对应的各个目标的第一方位信息，根据各个摄像设备相对于各个目标的方位，为各个摄像设备分配待跟踪目标，将待跟踪目标的第一方位信息发送至该待跟踪目标对应的摄像设备，使各个摄像设备自动调整角度进行拍摄，从而实现摄像设备对特定目标的跟踪。本公开的方案尤其适用于多个摄像设备对多个目标的跟踪，为每个摄像设备分配待跟踪目标考虑各个摄像设备相对于多个目标的方位，能够减少摄像设备调整的角度，提高跟踪的准确性和效率。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开的一些实施例的设备的控制方法的流程示意图。

图2示出本公开的另一些实施例的设备的控制方法的流程示意图。

图3示出本公开的一些实施例的设备的控制装置的结构示意图。

图4示出本公开的另一些实施例的设备的控制装置的结构示意图。

图5示出本公开的又一些实施例的设备的控制装置的结构示意图。

图6示出本公开的一些实施例的设备的控制系统的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开提供一种设备的控制方法，下面结合图1进行描述。

图1为本公开设备的控制方法一些实施例的流程图。如图1所示，该实施例的方法包括：步骤S102～108。

在步骤S102，获取麦克风设备采集的多项声音信息。

麦克风设备例如为位于近场的麦克风阵列或者搭载云台的定向麦克风。麦克风阵列可以分散布置于舞台周围，定向麦克风可以设置于会场用于针对个人的发出的声音定向收音等。

在一些实施例中，在麦克风设备为麦克风阵列的情况下，对麦克风阵列采集的声音信息进行声音分离，并对分离后的声音信息进行语音活动检测(VAD)，消除噪音，得到多项声音信息。可以采用现有的麦克风阵列盲语音分离算法，对麦克风阵列采集的声音信息进行声音分离，在此不再赘述。在只有一个目标的情况下，也可以不进行声音分离。

在另一些实施例中，在麦克风设备为多个定向麦克风的情况下，将每个定向麦克风采集的声音信息进行语音活动检测，消除噪音，得到多项声音信息。不同的定向麦克风可以采集不同目标的声音，可以不进行语音分离，直接进行VAD和噪音的消除即可得到多项声音信息。

在步骤S104中，根据每项声音信息，确定声音信息对应的目标的标识，以及声音信息对应的目标的第一方位信息。

在一些实施例中，针对每项声音信息，提取声音信息的声纹特征；将各项声音信息的声纹特征与预先存储的各个目标的声纹特征进行匹配；根据匹配结果，确定各项声音信息对应的目标的标识；利用声源定位算法确定各项声音信息的方位信息，作为声音信息对应的目标的第一方位信息。

将处理后的各项声音信息通过基于深度学习的声纹识别模型进行特征的提取，得到各项声音信息的声纹特征。例如，声纹识别模型可以采用以下方法进行训练。采集一定量的声纹数据集，并对其进行清洗以及预处理，提取声纹的MFCC(Mel-scale FrequencyCepstral Coefficient，梅尔频率倒谱系数)特征，提取的各个MFCC特征，作为训练数据。将训练数据输入声纹识别模型进行训练，最终得到训练好的模型。声纹识别模型可以为VGG(Visual Geometry Group，牛津大学计算机视觉组)模型，可以在VGG中加入残差结构以提高网络的准确性。可以取训练好的VGG网络的倒数第二层输出的特征作为声纹特征。

对于各个目标，可以针对各个目标预先录制的声音提取声纹特征并进行存储。将前述处理后的各项声音信息提取声纹特征后，与预先存储的各个目标的声纹特征进行匹配。例如，如果一项声音信息的声纹特征与预先存储的一个目标的声纹特征相似度大于阈值，则认为该项声音信息为该目标发出的，从而确定该项声音信息对应的目标的标识。

可以利用现有的声源定位算法，确定各项声音信息的方位信息。例如，可以利用TODA(到达时间差)算法确定各项声音信息的方位信息。每项声音信息的方位信息可以包括：对应的声源相对于预设点(例如，舞台中心)的偏离角度信息或者以预设点为原点的坐标系中的坐标信息等，可以根据实际需求选取方位信息的表示方法，不限于所举示例。各项声音信息的方位信息即该声音信息对应的目标的第一方位信息。

在步骤S106中，根据各个摄像设备相对于各个目标的方位，确定每个摄像设备的待跟踪目标的标识。

根据各个目标的第一方位信息和各个摄像设备的位置，可以确定各个摄像设备相对于各个目标的方位。在一些实施例中，根据各个摄像设备相对于各个目标的方位信息，计算各个摄像设备相对于各个目标的待调整角度；确定各个摄像设备的待调整角度的总合最小的情况下，每个摄像设备的待跟踪目标的标识。可以设置目标函数计算各个摄像设备待调整的角度的总合，确定目标函数值最小的情况下，各个摄像设备对应的目标，从而确定各个摄像设备的待跟踪目标的标识。

采用上述方法，可以减少摄像设备的调整幅度，提高目标的追踪效率。在另一些实施例中，根据各个摄像设备相对于各个目标的方位信息，计算各个摄像设备相对于各个目标的距离；确定各个摄像设备的对应的距离的总合最小的情况下，每个摄像设备的待跟踪目标的标识。当然，如果各个摄像设备如果预设对应的跟踪目标的标识，则可以不执行该步骤。

在步骤S108中，将各个待跟踪目标的第一方位信息发送至待跟踪目标对应的摄像设备，以便摄像设备自动调整角度进行拍摄。

也可以将待调整角度发送至对应的各个摄像设备。摄像设备上可以设置自动调整机构，可以根据第一方位信息或待调整角度自动转动摄像头，使摄像头对准待跟踪目标。也可以将待跟踪目标的标识与对应的第一方位信息或待调整角度在数据库进行存储，将待跟踪目标的标识发送至对应的摄像设备，摄像设备根据待跟踪目标的标识获取对应的第一方位信息或待调整角度，再进行相应的调整。

上述实施例根据麦克风设备采集的多项声音信息，确定对应的各个目标的第一方位信息，根据各个摄像设备相对于各个目标的方位，为各个摄像设备分配待跟踪目标，将待跟踪目标的第一方位信息发送至该待跟踪目标对应的摄像设备，使各个摄像设备自动调整角度进行拍摄，从而实现摄像设备对特定目标的跟踪。上述实施例的方案尤其适用于多个摄像设备对多个目标的跟踪，为每个摄像设备分配待跟踪目标考虑各个摄像设备相对于多个目标的方位，能够减少摄像设备调整的角度，提高跟踪的准确性和效率。

下面结合图2描述本公开设备的控制方法的另一些实施例。

图2为本公开设备的控制方法另一些实施例的流程图。如图2所示，在步骤S108之后还包括：步骤S202～210。

在步骤S202中，接收各个摄像设备拍摄的图像。

在步骤S204中，针对每个摄像设备拍摄的图像，识别图像中是否包含摄像设备对应的待跟踪目标的图像，如果是，则执行步骤S206，否则执行步骤S205～S209。

在一些实施例中，针对每个摄像设备拍摄的图像，提取图像中各个目标的图像特征；根据摄像设备对应的待跟踪目标的标识查找预先存储的待跟踪目标的图像特征；将提取的各个目标的图像特征与待跟踪目标的图像特征进行比对，确定图像中是否包含该摄像设备对应的待跟踪目标的图像。可以通过基于深度学习的图像检测模型(例如，人脸识别模型)确定图像中是否包含该摄像设备对应的待跟踪目标的图像。例如，在将提取的目标的图像特征与待跟踪目标的图像特征的相似度超过某一阈值的情况下，将提取的目标确定为待跟踪目标。

在步骤S205中，针对图像中不包含该摄像设备对应的待跟踪目标的图像的摄像设备，将待调整焦距发送至该摄像设备。

如果摄像设备根据前述实施例中的第一方位信息或待调整角度进行调整后没有拍摄到待跟踪目标的图像，则可以调整摄像设备的焦距。待调整焦距使相对于摄像设备当前焦距更小，则可以扩大摄像设备的拍摄范围。可以根据预设步长确定待调整焦距，例如，当前焦距减去预设步长。也可以直接将预设焦距作为待调整焦距。

在步骤S207中，接收该摄像设备以待调整焦距拍摄的图像。

在步骤S209中，识别图像中是否包含该摄像设备对应的待跟踪目标的图像。

摄像设备进行焦距变化后，可以对尽可能多的目标进行图像采集，可以将与待跟踪目标相似度最高的目标识别为待跟踪目标，之后直接执行步骤S206。也可以按照前述实施例的方法准确识别图像中是否包含待跟踪目标，如果是，则执行步骤S206，否则，可以返回步骤S205重新开始执行。

在返回步骤S205之前，可以判断该摄像设备是否达到最小焦距，如果是，则可以返回步骤S102重新开始执行。摄像设备已调整到最小焦距，但是仍然无法识别到待跟踪目标的情况比较少，如果发生这种情况，有可能是声音识别出错，可以重新进行声音的采集，重新调整各个摄像设备。

在步骤S206中，根据待跟踪目标在图像中的位置，确定待跟踪目标的第二方位信息。

根据待跟踪目标在图像中的位置，可以确定待跟踪目标的第二方位信息从而实现进一步精确调整(微调)。在一些实施例中，确定待跟踪目标的中心点与图像的中心点的距离；在距离超过距离阈值的情况下，根据待跟踪目标的中心点与图像的中心点的相对位置，确定待跟踪目标的第二方位信息。也可以确定待跟踪目标的中心点相对于图像的中心点的偏离角度；在偏离角度超过角度阈值的情况下，根据待跟踪目标的中心点与图像的中心点的相对位置，确定待跟踪目标的第二方位信息。即当待跟踪目标在图像中偏离中心一定范围的情况下，进行进一步精确调整。通过不断的精确调整，可以实现摄像设备对待跟踪目标的跟拍。

在步骤S208中，将待跟踪目标的第二方位信息发送至对应的摄像设备，以便摄像设备自动调整角度进行拍摄。

也可以根据第二方位信息确定摄像设备的微调角度，将该微调角度发送至对应的摄像设备。

在一些实施例中，根据待跟踪目标在图像中所占的比例，确定摄像设备的焦距；将摄像设备的焦距发送至对应的摄像设备，以便摄像设备调整焦距。可以设置待跟踪目标在图像中所占的预设比例，在待跟踪目标在图像中所占的比例小于预设比例的情况下，调整摄像设备的焦距。

在步骤S210中，将待跟踪目标的第二方位信息发送至对应的麦克风设备，以便麦克风设备对第二方位信息对应的方位增强收音。

在麦克风设备为麦克风阵列的情况下，可以将第二方位信息发送至麦克风阵列，使其增强对第二方位信息对应的方位增强的收音。在麦克风设备为定向麦克风的情况下，可以将第二方位信息发送至对应的定向麦克风，定向麦克风可以根据第二方位信息自动调整角度进行收音。

上述实施例的方法，在根据麦克风设备采集的声音信息对摄像设备进行初步调整的情况下，进一步根据摄像设备采集的图像对摄像设备和麦克风设备进行自动精确调整，以实现准确的目标跟踪拍摄和高效的收音。可以基于系统的控制，在需要摄像设备进行精确调整的情况下，触发上述实施例的过程。如果不存在对应发出声音的目标或者不需要目标跟踪时，则进行全场景采集，不触发跟踪任务。在待跟踪目标大幅度移动时，如当摄像设备无法追踪到待跟踪目标时，可以通过声纹识别和声源定位技术实现待跟踪目标的初步定位，之后利用目标检测等技术来控制摄像设备，实现目标的跟踪。在待跟踪目标小范围移动没有离开摄像设备的拍摄范围时，可以通过目标检测或跟踪技术进行摄像设备的微调，同时对麦克风设备进行调节实现准确收声。

本公开还提供一种设备的控制装置，下面结合图3进行描述。

图3为本公开设备的控制装置的一些实施例的结构图。如图3所示，该实施例的装置30包括：声音获取模块310，声源确定模块320，目标分配模块330，发送模块340。

声音获取模块310用于获取麦克风设备采集的多项声音信息。

在一些实施例中，声音获取模块310用于在麦克风设备为麦克风阵列的情况下，对麦克风阵列采集的声音信息进行声音分离，并对分离后的声音信息进行语音活动检测，消除噪音，得到多项声音信息；或者，在麦克风设备为多个定向麦克风的情况下，将每个定向麦克风采集的声音信息进行语音活动检测，消除噪音，得到多项声音信息。

声源确定模块320用于根据每项声音信息，确定声音信息对应的目标的标识，以及声音信息对应的目标的第一方位信息。

在一些实施例中，声源确定模块320用于针对每项声音信息，提取声音信息的声纹特征；将各项声音信息的声纹特征与预先存储的各个目标的声纹特征进行匹配；根据匹配结果，确定各项声音信息对应的目标的标识；利用声源定位算法确定各项声音信息的方位信息，作为声音信息对应的目标的第一方位信息。

目标分配模块330用于根据各个摄像设备相对于各个目标的方位信息，确定每个摄像设备的待跟踪目标的标识。

在一些实施例中，目标分配模块330用于根据各个摄像设备相对于各个目标的方位信息，计算各个摄像设备相对于各个目标的待调整角度；确定各个摄像设备的待调整角度的总合最小的情况下，每个摄像设备的待跟踪目标的标识。

发送模块340用于将各个待跟踪目标的第一方位信息发送至待跟踪目标对应的摄像设备，以便摄像设备自动调整角度进行拍摄。

在一些实施例中，该装置30还包括：微调模块350，用于接收各个摄像设备拍摄的图像；针对每个摄像设备拍摄的图像，识别图像中是否包含摄像设备对应的待跟踪目标的图像；在图像中包含摄像设备对应的待跟踪目标的图像的情况下，根据待跟踪目标在图像中的位置，确定待跟踪目标的第二方位信息；将待跟踪目标的第二方位信息发送至对应的摄像设备，以便摄像设备自动调整角度进行拍摄。

在一些实施例中，微调模块350用于针对每个摄像设备拍摄的图像，提取图像中各个目标的图像特征；根据摄像设备对应的待跟踪目标的标识查找预先存储的待跟踪目标的图像特征；将提取的各个目标的图像特征与待跟踪目标的图像特征进行比对，确定图像中是否包含摄像设备对应的待跟踪目标的图像。

在一些实施例中，微调模块350用于确定待跟踪目标的中心点与图像的中心点的距离；在距离超过距离阈值的情况下，根据待跟踪目标的中心点与图像的中心点的相对位置，确定待跟踪目标的第二方位信息。

在一些实施例中，微调模块350还用于将待跟踪目标的第二方位信息发送至对应的麦克风设备，以便麦克风设备对第二方位信息对应的方位增强收音。

在一些实施例中，微调模块350还用于在图像中未包含摄像设备对应的待跟踪目标的图像的情况下，将待调整焦距发送至摄像设备；其中，待调整焦距使相对于摄像设备当前焦距更小；接收摄像设备以待调整焦距拍摄的图像；识别图像中是否包含摄像设备对应的待跟踪目标的图像。

在一些实施例中，该装置30还包括：焦距调整模块360，用于根据待跟踪目标在图像中所占的比例，确定摄像设备的焦距；将摄像设备的焦距发送至对应的摄像设备，以便摄像设备调整焦距。

本公开的实施例中的设备的控制装置可各由各种计算设备或计算机系统来实现，下面结合图4以及图5进行描述。

图4为本公开设备的控制装置的一些实施例的结构图。如图4所示，该实施例的装置40包括：存储器410以及耦接至该存储器410的处理器420，处理器420被配置为基于存储在存储器410中的指令，执行本公开中任意一些实施例中的设备的控制方法。

其中，存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

图5为本公开设备的控制装置的另一些实施例的结构图。如图5所示，该实施例的装置50包括：存储器510以及处理器520，分别与存储器410以及处理器420类似。还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530，540，550以及存储器510和处理器520之间例如可以通过总线560连接。其中，输入输出接口530为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口，例如可以连接到数据库服务器或者云端存储服务器等。存储接口550为SD卡、U盘等外置存储设备提供连接接口。

本公开还提供一种设备的控制系统，下面结合图6进行描述。

图6为本公开设备的控制系统的一些实施例的结构图。如图6所示，该实施例的系统6包括：设备的控制装置30/40/50，以及麦克风设备62，摄像设备64。

麦克风设备62用于采集的多项声音信息。

摄像设备64用于接收设备的控制装置30/40/50发送的各个待跟踪目标的第一方位信息，并根据第一方位信息自动调整自身的角度对待跟踪目标进行拍摄。

在一些实施例中，摄像设备64还用于拍摄图像，将图像发送至设备的控制装置30/40/50；麦克风设备62还用于接收设备的控制装置30/40/50发送的待跟踪目标的第二方位信息，对第二方位信息对应的方位增强收音。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种设备的控制方法，包括：

获取麦克风设备采集的多项声音信息；

根据每项声音信息，确定所述声音信息对应的目标的标识，以及所述声音信息对应的目标的第一方位信息；

根据各个摄像设备相对于各个目标的方位信息，确定每个摄像设备的待跟踪目标的标识；

将各个待跟踪目标的第一方位信息发送至所述待跟踪目标对应的摄像设备，以便摄像设备自动调整角度进行拍摄。

2.根据权利要求1的控制方法，还包括：

接收各个摄像设备拍摄的图像；

针对每个摄像设备拍摄的图像，识别所述图像中是否包含所述摄像设备对应的待跟踪目标的图像；

在所述图像中包含所述摄像设备对应的待跟踪目标的图像的情况下，根据所述待跟踪目标在图像中的位置，确定所述待跟踪目标的第二方位信息；

将所述待跟踪目标的第二方位信息发送至对应的摄像设备，以便所述摄像设备自动调整角度进行拍摄。

3.根据权利要求2的控制方法，还包括：

将所述待跟踪目标的第二方位信息发送至对应的麦克风设备，以便所述麦克风设备对所述第二方位信息对应的方位增强收音。

4.根据权利要求2的控制方法，还包括：

在所述图像中未包含所述摄像设备对应的待跟踪目标的图像的情况下，将待调整焦距发送至所述摄像设备；其中，所述待调整焦距使相对于所述摄像设备当前焦距更小；

接收所述摄像设备以所述待调整焦距拍摄的图像；

识别所述图像中是否包含所述摄像设备对应的待跟踪目标的图像。

5.根据权利要求1的控制方法，其中，

所述获取麦克风设备采集的多项声音信息包括：

在所述麦克风设备为麦克风阵列的情况下，对麦克风阵列采集的声音信息进行声音分离，并对分离后的声音信息进行语音活动检测，消除噪音，得到多项声音信息；

或者，在所述麦克风设备为多个定向麦克风的情况下，将每个定向麦克风采集的声音信息进行语音活动检测，消除噪音，得到多项声音信息。

6.根据权利要求1的控制方法，其中，

所述根据每项声音信息，确定所述声音信息对应的目标的标识，以及所述声音信息对应的目标的第一方位信息包括：

针对每项声音信息，提取所述声音信息的声纹特征；

将各项声音信息的声纹特征与预先存储的各个目标的声纹特征进行匹配；

根据匹配结果，确定各项声音信息对应的目标的标识；

利用声源定位算法确定各项声音信息的方位信息，作为所述声音信息对应的目标的第一方位信息。

7.根据权利要求2的控制方法，其中，

针对每个摄像设备拍摄的图像，识别所述图像中是否包含所述摄像设备对应的待跟踪目标的图像包括：

针对每个摄像设备拍摄的图像，提取所述图像中各个目标的图像特征；

根据所述摄像设备对应的待跟踪目标的标识查找预先存储的所述待跟踪目标的图像特征；

将提取的各个目标的图像特征与所述待跟踪目标的图像特征进行比对，确定所述图像中是否包含所述摄像设备对应的待跟踪目标的图像。

8.根据权利要求2的控制方法，其中，

根据所述待跟踪目标在图像中的位置，确定所述待跟踪目标的第二方位信息包括：

确定所述待跟踪目标的中心点与所述图像的中心点的距离；

在所述距离超过距离阈值的情况下，根据所述待跟踪目标的中心点与所述图像的中心点的相对位置，确定所述待跟踪目标的第二方位信息。

9.根据权利要求2的控制方法，还包括：

根据所述待跟踪目标在图像中所占的比例，确定所述摄像设备的焦距；

将所述摄像设备的焦距发送至对应的摄像设备，以便所述摄像设备调整焦距。

10.根据权利要求1的控制方法，其中，

所述根据各个摄像设备相对于各个目标的方位信息，确定每个摄像设备的待跟踪目标的标识包括：

根据各个摄像设备相对于各个目标的方位信息，计算各个摄像设备相对于各个目标的待调整角度；

确定各个摄像设备的待调整角度的总合最小的情况下，每个摄像设备的待跟踪目标的标识。

11.一种设备的控制装置，包括：

声音获取模块，用于获取麦克风设备采集的多项声音信息；

声源确定模块，用于根据每项声音信息，确定所述声音信息对应的目标的标识，以及所述声音信息对应的目标的第一方位信息；

目标分配模块，用于根据各个摄像设备相对于各个目标的方位信息，确定每个摄像设备的待跟踪目标的标识；

发送模块，用于将各个待跟踪目标的第一方位信息发送至所述待跟踪目标对应的摄像设备，以便摄像设备自动调整角度进行拍摄。

12.一种设备的控制装置，包括：

处理器；以及

耦接至所述处理器的存储器，用于存储指令，所述指令被所述处理器执行时，使所述处理器执行如权利要求1-10任一项所述的设备的控制方法。

13.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。

14.一种设备的控制系统，包括：权利要求11或12所述的设备的控制装置；以及

麦克风设备，用于采集的多项声音信息；

摄像设备，用于接收所述设备的控制装置发送的各个待跟踪目标的第一方位信息，并根据所述第一方位信息自动调整自身的角度对待跟踪目标进行拍摄。

15.根据权利要求14所述的控制系统，其中，

所述摄像设备还用于拍摄图像，将图像发送至所述设备的控制装置；

所述麦克风设备还用于接收所述设备的控制装置发送的待跟踪目标的第二方位信息，对所述第二方位信息对应的方位增强收音。