CN115242971B

CN115242971B - 摄像头控制方法、装置、终端设备和存储介质

Info

Publication number: CN115242971B
Application number: CN202210717980.1A
Authority: CN
Inventors: 岳晓峰; 吴博涛; 朱道彦; 杨春晖
Original assignee: Hainan Shilian Communication Technology Co ltd
Current assignee: Hainan Shilian Communication Technology Co ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2024-08-02
Anticipated expiration: 2042-06-21
Also published as: CN115242971A

Abstract

本发明实施例提供了一种摄像头控制方法、装置、终端设备和存储介质，其中，方法包括：获取所述会场内的声源位置；控制所述摄像头朝向所述声源位置；从所述摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域；判断所述目标人脸区域的目标中心位置是否位于所述视频画面的预设区域内；若否，则根据所述目标中心位置与所述预设区域的关系调整所述摄像头，使所述目标人脸区域的目标中心位置位于所述预设区域内；可以实现自动采集当前发言人图像，同时还可以确保采集的当前发言人图像符合要求，从而保证会议效果，提高用户体验。

Description

摄像头控制方法、装置、终端设备和存储介质

技术领域

本发明涉及智能终端技术领域，特别是涉及一种摄像头控制方法、装置、终端设备和存储介质。

背景技术

在多人会议的场景下，为了保证会议效果，需要确保当前发言人在摄像头采集的图像中。当多人轮流发言时，现有技术中，需要负责摄像的工作人员通过遥控、或远程、或直接转动摄像头的方式，使摄像头采集当前发言人图像，该过程需要人工参与，手动控制，不够灵活，还存在人力浪费。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种摄像头控制方法、装置、终端设备和存储介质。

第一个方面，本发明实施例提供一种摄像头控制方法，应用于会议终端，所述会议终端设置在会场内，所述会议终端包括摄像头，所述方法包括：

获取所述会场内的声源位置；

控制所述摄像头朝向所述声源位置；

从所述摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域；

判断所述目标人脸区域的目标中心位置是否位于所述视频画面的预设区域内；

若否，则根据所述目标中心位置与所述预设区域的关系调整所述摄像头，使所述目标人脸区域的目标中心位置位于所述预设区域内。

可选地，从所述摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域，包括：

通过人脸识别算法识别所述摄像头拍摄的视频画面中的人脸图像；

当所述人脸图像不止一个时，将中心位置靠近所述视频画面中心的人脸图像确定为当前发言人对应的目标人脸图像；

将所述目标人脸图像对应的区域确定为目标人脸区域。

可选地，所述根据所述目标中心位置与所述预设区域的关系调整所述摄像头，使所述目标人脸区域的目标中心位置位于所述视频画面的预设区域内，包括：

根据所述目标人脸区域的目标中心位置与所述预设区域的预设中心位置之间的关系，确定所述摄像头的调整方向；

根据所述调整方向调整所述摄像头，使所述目标人脸区域的目标中心位置位于所述视频画面的预设区域内。

可选地，所述方法还包括：

根据所述目标人脸区域在所述视频画面中的占比与预设占比之间的关系，调整所述摄像头的当前焦距。

可选地，所述会议终端与间隔设置在所述会场内的两个声音采集器通信连接，所述获取所述会场内的声源位置，包括：

通过所述声音采集器采集所述会场内的声音信号；

根据所述声音信号到达两个声音采集器的时间差，确定所述声音信号对应的声源位置。

可选地，在所述根据所述声音信号到达两个声音采集器的时间差，确定所述声音信号对应的声源位置之前，所述方法还包括：

对所述声音信号进行降噪处理，并提取所述声音信号中的主音频；

根据两个声音采集器采集的主音频的相位差，确定所述声音信号到达两个声音采集器的时间差。

可选地，所述控制所述摄像头朝向所述声源位置，包括：

确定所述声源位置相对于所述摄像头朝向的旋转信息；所述旋转信息包括旋转角度和旋转方向；

当所述旋转角度大于预设角度时，控制所述摄像头朝所述旋转方向转动所述旋转角度。

第二个方面，本发明实施例提供一种摄像头控制装置，应用于会议终端，所述会议终端设置在会场内，所述会议终端包括摄像头，所述装置包括：

声源定位模块，用于获取所述会场内的声源位置；

第一控制模块，用于控制所述摄像头朝向所述声源位置；

人脸确定模块，用于从所述摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域；

位置判断模块，用于判断所述目标人脸区域的目标中心位置是否位于所述视频画面的预设区域内；

第二控制模块，用于若否，则根据所述目标中心位置与所述预设区域的关系调整所述摄像头，使所述目标人脸区域的目标中心位置位于所述预设区域内。

可选地，所述人脸确定模块，包括：

人脸识别子模块，用于通过人脸识别算法识别所述摄像头拍摄的视频画面中的人脸图像；

目标人脸确定子模块，用于当所述人脸图像不止一个时，将中心位置靠近所述视频画面中心的人脸图像确定为当前发言人对应的目标人脸图像；

人脸区域确定子模块，用于将所述目标人脸图像对应的区域确定为目标人脸区域。

可选地，所述第二控制模块，包括：

方向确定子模块，用于根据所述目标人脸区域的目标中心位置与所述预设区域的预设中心位置之间的关系，确定所述摄像头的调整方向；

基于方向调整子模块，用于根据所述调整方向调整所述摄像头，使所述目标人脸区域的目标中心位置位于所述视频画面的预设区域内。

可选地，所述装置还包括：

焦距调整模块，用于根据所述目标人脸区域在所述视频画面中的占比与预设占比之间的关系，调整所述摄像头的当前焦距。

可选地，所述会议终端与间隔设置在所述会场内的两个声音采集器通信连接，所述声源定位模块，包括：

声音信号采集子模块，用于通过所述声音采集器采集所述会场内的声音信号；

确定声源位置子模块，用于根据所述声音信号到达两个声音采集器的时间差，确定所述声音信号对应的声源位置。

可选地，所述声源定位模块，还包括：

主音频提取子模块，用于对所述声音信号进行降噪处理，并提取所述声音信号中的主音频；

时间差确定子模块，用于根据两个声音采集器采集的主音频的相位差，确定所述声音信号到达两个声音采集器的时间差。

可选地，所述第一控制模块，包括：

旋转信息确定子模块，用于确定所述声源位置相对于所述摄像头朝向的旋转信息；所述旋转信息包括旋转角度和旋转方向；

基于旋转信息控制子模块，用于当所述旋转角度大于预设角度时，控制所述摄像头朝所述旋转方向转动所述旋转角度。

第三个方面，本发明实施例提供一种终端设备，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以实现第一个方面提供的摄像头控制方法。

第四个方面，本发明实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现第一个方面提供的摄像头控制方法。

本发明实施例包括以下优点：

本发明实施例提供的摄像头控制方法、装置、终端设备和存储介质，先获取会场内的声源位置，再控制摄像头朝向声源位置，接着从摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域；最后，判断目标人脸区域的目标中心位置是否位于视频画面的预设区域内；当目标人脸区域的目标中心位置没有位于预设区域内时，则根据目标中心位置与预设区域的关系调整摄像头，使目标人脸区域位于摄像头拍摄的视频画面的预设区域内；不仅可以实现自动控制摄像头跟随声源位置转动，还可以确保采集的当前发言人图像符合要求，从而保证会议效果，提高用户体验。

附图说明

图1是本发明的一种摄像头控制方法实施例的步骤流程图；

图2是本发明的一种会场布局示意图；

图3是本发明的另一种会场布局示意图；

图4是本发明的一种视频画面的示意图；

图5是本发明的另一种摄像头控制方法实施例的步骤流程图；

图6是本发明一个具体示例中的摄像头控制方法的步骤流程图；

图7是本发明的一种摄像头控制装置实施例的结构框图；

图8是本发明的一种终端设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

视联网会议系统是基于视联网网络进行高清音视频传输为基础，通过相应的管理软件和客户端，构建的实时高清会议系统，支持多种专用终端，移动终端的接入。主要功能包括：组建会议，视频通话，发布直播，收看直播等。

视联网高清会议终端是视联网终端设备，简称视联网终端，用于接入视联网作为一个会议终端进行视频会议、点播、直播、可视电话等多种业务。硬件上可以运行嵌入式linux(一种操作系统)或者安卓系统的单板机，支持多路高清视频流输入输出，并具有丰富的USB(Universal Serial Bus，串行通信总线)、以太网、HDMI(High DefinitionMultimedia Interface，高清多媒体接口)等外部接口。

目前的视联网终端产品上集成的高清云台摄像头，可以由用户通过遥控器或者远程控制其转动，以确保摄像头可以准确采集当前发言人的图像，但是整个过程的所有操作都需要人工手动执行，不够灵活，且浪费人力。

鉴于此，提出了本申请实施例的核心构思之一，通过获取会场内的声源位置确定当前发言人的位置，进而控制摄像头转向声源位置进行视频画面采集，并判断采集的视频画面中当前发言人的目标人脸区域的目标中心位置是否位于预设区域内，若不是，则根据目标中心位置与预设区域的关系对摄像头进行微调，使摄像头采集的目标人脸区域的目标中心位置位于预设区域内，从而实现自动采集当前发言人图像，同时还可以确保采集的当前发言人图像符合要求，从而保证会议效果，提高用户体验。

参照图1，示出了本发明的一种摄像头控制方法实施例的步骤流程图，该方法可以应用于会议终端，示例性地，该会议终端可以是视联网终端；会议终端设置在会场内，该会议终端包括摄像头。会场内的发言人布局可以如图2所示，发言人在主席台区域一字排开，包含摄像头的终端设备设置在主席台区域的前方，如正前方或前上方。会场内的发言人布局还可以如图3所示，包含摄像头的终端设备设置在多个发言人的中央，摄像头的高度不限，摄像头与每个发言人的距离均相等。在本发明一可选实施例中，该方法具体可以包括如下步骤：

步骤101，获取会场内的声源位置。

会场内一般有多个发言人，多个发言人可以在各自位置上轮流发言。在本实施例中，将正在发言的发言人确定为当前发言人。会场内的声源位置可以指当前发言人所在的位置。

在一示例中，当会场内产生声音信号时，会议终端可以通过声源定位算法来确定声音信号对应的声源位置。例如，通过声音信号到达两个声音采集器的时间差来确定声源位置。

可选地，会场内还有两个间隔设置的声音采集器，会议终端可以与声音采集器通信连接，例如蓝牙连接、数据线连接等。为了提高声源定位的准确性，两个声音采集器的间隔距离应当满足一定要求，具体可以根据实际会场的大小进行设定，一般地，会场面积越大，声音采集器的间距越大。当然，声音采集器也可以间隔设置在会议终端的内部，以方便用户使用。其中，声音采集器具体可以是麦克风或麦克风阵列。

通过声音采集器采集会场内的声音信号，根据声音信号到达两个声音采集器的时间差，确定声音信号对应的声源位置。

其中，根据声音信号到达两个声音采集器的时间差，确定声音信号对应的声源位置，可以包括：

对声音信号进行降噪处理，并提取声音信号中的主音频；

根据两个声音采集器采集的主音频的相位差，确定声音信号到达两个声音采集器的时间差。

具体可以通过两个声音采集器采集的声音信号进行数字滤波，来对声音信号进行降噪处理，通过对降噪处理后的声音信号进行FFT(Fast FourierTransform，快速傅立叶变换)处理，从而提取音频幅度最大的频率，即主音频，通过比较两个声音采集器对应的主音频的相位差来计算声音信息达到两个声音采集器的的时间差，进而通过时间差和已知的两个声音采集器的间隔距离，可以计算出声源位置。

在另一示例中，当会场内产生声音信号时，会议终端可以通过声音识别的方式来确定声音信号对应的声源位置，例如，通过预先收集各个发言人的语音信息，和各个发言人在会场中的具体位置信息，在获取到声音信号后，将声音信号与各个发言人的语音信息进行匹配，确定与声音信号匹配成功的目标语音信息对应的目标发言人，根据目标发言人在会场中的具体位置信息确定声源位置。

步骤102，控制摄像头朝向声源位置。

在获取到声源位置后，会议终端可以确定声源位置与摄像头朝向之间的位置关系，然后根据该位置关系确定摄像头的旋转信息，该旋转信息包括旋转方向和在旋转方向上的旋转角度，并根据确定的旋转方向和旋转角度控制摄像头转动，使得摄像头朝向声源位置，以采集包括声源位置在内的一定范围内的图像。

步骤103，从摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域。

当摄像头朝向声源位置进行拍摄时，可以采集声源位置在内的一定范围内的图像，因此，在根据声源位置转动摄像头后，摄像头可以拍摄到当前发言人的人脸，也就是说，摄像头拍摄的视频画面中包含当前发言人对应的目标人脸区域，当然，摄像头拍摄的视频画面中还可能包含其他人的人脸区域。具体可以通过人脸识别算法，识别出视频画面中的人脸图像。

一般地，当视频画面中仅包含一个人脸图像时，可以直接将该人脸图像确定为当前发言人对应的目标人脸图像，也就是将该人脸图像对应的人脸区域确定为当前发言人对应的目标人脸区域。

当视频画面中包含至少两个人脸图像时，需要从中确定出当前发言人对应的目标人脸图像，进而将目标人脸图像对应的区域确定为当前发言人对应的目标人脸区域。

在一示例中，从多个人脸图像中确定目标人脸图像的方式，可以包括人脸识别方式，例如，预先收集各个发言人的语音信息和人脸图像，并生成语音信息与人脸图像的对应关系，在确定与声音信号匹配的语音信息后，可以确定当前发言人的预先收集的预存人脸图像，将视频画面中与预存人脸图像匹配的人脸图像确定为目标人脸图像。

在另一示例中，从多个人脸图像中确定目标人脸图像的方式，可以通过多个人脸图像在视频画面中的位置来确定目标人脸图像，一般地，通过声源位置定位后，目标人脸图像相比于视频画面中的其他人脸图像更靠近视频画面的中心，因此，可以将靠近视频画面中心的人脸图像确定为当前发言人对应的目标人脸图像，将目标人脸图像对应的区域确定为目标人脸区域。

在又一示例中，从多个人脸图像中确定目标人脸图像的方式，可以通过追踪视频画面中各个人脸图像的唇部轮廓，将唇部轮廓发生变化的人脸图像确定为目标人脸图像。

步骤104，判断目标人脸区域的目标中心位置是否位于视频画面的预设区域内。

人脸区域的中心位置可以是对应人脸图像的鼻尖或眉心所在的位置，或者，根据人脸区域确定对应的矩形，以矩形的中心作为人脸区域的中心位置等。为了便于区分，将目标人脸区域的中心位置称为目标中心位置。预设区域可以根据实际需求进行设置，一般认为，当当前发言人的目标人脸区域的目标中心位置位于预设区域内时，对应的视频画面可以呈现较好的视觉效果。该预设区域可以是包含视频画面的中心点在内的一定范围的区域。优选地，预设区域为视频画面的中心点，即目标中心位置与视频画面的中心点重合时，视频画面呈现较好的视觉效果。当视频画面中存在用于文字交流的文字区域时，则当当前发言人的目标人脸区域应当位于不被文字区域遮挡的其他区域的中心；如图4所示，视频画面被划分为文字区域和图像区域，其中，文字区域的透明度可以为100，也就是说，文字区域的背景是摄像头采集的视频画面时，预设区域可以是包含图像区域的中心点在内的一定范围的区域。

当预设区域为一个点时，判断目标人脸区域的目标中心位置是否位于视频画面的预设区域内，即判断目标人脸区域的目标中心位置与预设区域是否重合。

步骤105，若否，则根据目标中心位置与预设区域的关系调整摄像头，使目标人脸区域的目标中心位置位于预设区域内。

当目标人脸区域的目标中心位置不在预设区域内时，则需要调整摄像头，以使目标人脸区域的目标中心位置位于预设区域内。

其中，调整摄像头可以包括调整摄像头的方向。根据目标人脸区域的目标中心位置与预设区域的位置关系，确定摄像头的调整方向，具体摄像头的调整方向与目标中心位置相对于预设区域的位置相反。以预设区域是一个点为例，当目标中心位置在预设区域的左侧时，则向右方向调整摄像头，使目标中心位置右移直至位于预设区域内。具体的方向调整的步长可以按照预设步长调整，也可以根据目标中心点位置与预设区域的具体距离来确定方向调整的步长。

本申请实施例通过获取会场内的声源位置；控制摄像头朝向声源位置；从摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域；判断目标人脸区域的目标中心位置是否位于视频画面的预设区域内；若否，则根据目标中心位置与预设区域的关系调整摄像头，使目标人脸区域的目标中心位置位于预设区域内；可以实现自动采集当前发言人图像，同时还可以确保采集的当前发言人图像符合要求，从而保证会议效果，提高用户体验。

本发明另一实施例对上述实施例提供的摄像头控制方法做进一步补充说明。

如图5所示，示出了本发明的另一种摄像头控制方法的步骤流程图，在本实施例中，会场内的发言人布局如图2所示，发言人在主席台区域一字排开，包含摄像头的终端设备设置在主席台区域的前方，如正前方或前上方。该摄像头控制方法可以包括如下步骤：

步骤501，获取会场内的声源位置。

该步骤与步骤101相似，具体可以参见前文对步骤101的描述。

步骤502，确定声源位置相对于摄像头朝向的旋转信息。

在确定声源位置后，根据声源位置和摄像头的位置，可以确定声源位置相对于摄像头朝向的旋转信息，该旋转信息包括旋转角度和旋转方向。

示例性地，当通过两个间隔设置在会场内的声音采集器采集会场内的声音信号，根据声音信号到达两个声音采集器的时间差，可以确定声音信号对应的声源位置与两个声音采集器的位置关系，通过预先确定声音采集器与摄像头之间的位置关系，利用坐标平移的原理，可以确定声源位置相对于摄像头的位置关系，进而得到声源位置与摄像头的连线与摄像头朝向之间的旋转信息，即声源位置相对于摄像头的旋转方向和旋转角度。

步骤503，当所述旋转角度大于预设角度时，控制摄像头朝旋转方向转动旋转角度。

在本实施例中，当声源位置相对于摄像头朝向的旋转角度在预设角度范围内时，一般认为是误差，或者，当前发言人短暂姿势变换导致的，例如，当前发言人在发言的过程中，侧身取资料导致声源位置发生变化，因此，不会根据旋转信息控制摄像头转动。

当声源位置相对于摄像头朝向的旋转角度大于预设角度时，一般认为当前发言人发生变化，此时，根据旋转信息控制摄像头转动，即控制摄像头朝旋转方向转动旋转角度，以使摄像头朝向声源位置。

可选地，预设角度还可以与旋转方向相关，即不同旋转方向对应的预设角度可以不同。在确定声源位置相对于摄像头朝向的旋转信息后，可以根据旋转信息中的旋转方向确定目标预设角度，然后将旋转角度与目标预设角度进行比较，当旋转角度大于目标预设角度时，控制摄像头朝旋转方向转动旋转角度。

本实施例通过对旋转信息进行判断，当旋转角度大于预设角度时，根据旋转信息控制摄像头转动，可以有效避免因测量误差导致摄像头来回转动引起画面抖动。

进一步地，当旋转角度小于或等于预设角度时，可以记录旋转角度连续小于或等于预设角度的次数，当次数大于预设次数时，控制摄像头朝旋转方向转动旋转角度。

一般地，会议终端按照预设时间间隔来确定声源位置，因此，可以记录每次确定的声源位置相对于摄像头朝向的旋转信息，当首次判断出旋转角度小于预设角度时，对应的次数记为1，当连续判断出旋转角度小于预设角度时，则在对应的次数基础上加1，并计算次数是否大于预设次数，当次数大于预设次数时，控制摄像头朝旋转方向转动旋转角度。

通过记录旋转角度连续小于或等于预设角度的次数，根据次数与预设次数的关系来确定是否控制摄像头按照旋转信息转动，当当前发言人非短暂性的姿势变换时，也可以尽快调整，使摄像头采集到当前发言人的人脸图像。

步骤504，从摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域。

本实施例中，在每次根据旋转信息控制摄像头转动后，都需要从摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域；和/或，按照预设时间间隔，从摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域。

其中，从摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域的过程可以参见前文对步骤103的描述。

步骤505，判断目标人脸区域的目标中心位置是否位于视频画面的预设区域内。

该步骤与步骤104相似，具体可以参见前文对步骤104的描述。

步骤506，若否，则根据目标中心位置与预设区域的关系调整摄像头，使目标人脸区域的目标中心位置位于预设区域内。

该步骤与步骤105相似，具体可以参见前文对步骤105的描述。

步骤507，根据目标人脸区域在视频画面中的占比与预设占比之间的关系，调整摄像头的当前焦距。

在本实施例中，由于会场内的发言人布局如图2所示，各个发言人与摄像头的距离不一定相等，因此，在摄像头转动的过程中，当当前发言人与上一发言人与摄像头的距离不相等时，若不对摄像头的焦距进行调整，则摄像头拍摄的视频画面中对应的目标人脸区域的大小会随当前发言人位置变化而变化。一般地，当摄像头与当前发言人的距离越远，视频画面中采集到的当前发言人的人脸图像在视频画面中的占比越小，因此，不能保证目标人脸区域在视频画面中的大小，使用户体验不佳。

本实施例中，预设占比可以是一个范围，用于判断目标人脸区域在视频画面中的大小是否符合要求，示例性地，预设占比可以是40％至50％。可以理解，当目标人脸区域在视频画面中的占比在40％至50％之间时，可以呈现较好的视觉效果。

在一示例中，可以通过计算目标人脸区域所对应的像素点数量在视频画面对应的像素点数量中的比值，来确定目标人脸区域在视频画面中的占比，然后根据该占比与预设占比之间的关系，调整摄像头的当前焦距。例如，当目标人脸区域在视频画面中的占比在预设占比之内，确定摄像头的调整焦距为0，即不需要调整摄像头的当前焦距。当目标人脸区域在视频画面中的占比大于预设占比，确定摄像头的调整焦距小于0，即减小摄像头的当前焦距。当目标人脸区域在视频画面中的占比小于预设占比，确定摄像头的调整焦距大于0，即增大摄像头的当前焦距。

在另一示例中，可以根据目标人脸区域的目标中心位置以及预设占比，生成与人脸轮廓对应的环形区域，通过判断目标人脸区域的边缘是否在环形区域内，来确定目标人脸区域在视频画面中的占比与预设占比之间的关系，进而根据该关系确定摄像头的调整焦距。例如，当目标人脸区域的边缘在环形区域内时，说明目标人脸区域在视频画面中的占比在预设占比之内，确定摄像头的调整焦距为0，即不需要调整摄像头的当前焦距。当目标人脸区域的边缘在环形区域的外边缘之外时，说明目标人脸区域在视频画面中的占比大于预设占比，确定摄像头的调整焦距小于0，即减小摄像头的当前焦距。当目标人脸区域的边缘在环形区域的内边缘之内时，说明目标人脸区域在视频画面中的占比小于预设占比，确定摄像头的调整焦距大于0，即增大摄像头的当前焦距。

其中，当需要增大或减小摄像头的当前焦距时，可以根据预设的焦距差值对当前焦距进行调整，直至目标人脸区域在视频画面中的占比在预设占比之间；也可以根据目标人脸区域在视频画面中的占比与预设占比之间的差值来确定实际的焦距差值，进而根据实际的焦距差值对当前焦距进行调整。

在本发明实施例中，当会场内的发言人在主席台区域一字排开分布时，通过获取会场内的声源位置，确定声源位置相对于摄像头朝向的旋转信息，当旋转信息大于预设角度时，控制摄像头朝声源位置所在的方向转动旋转信息，避免因声源位置测量误差导致摄像头来回转动引起画面抖动；在每次根据旋转信息控制摄像头转动后，需要从摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域，并根据目标人脸区域的目标中心位置与预设区域的关系，确定摄像头需要进行微调的调整方向，以使得当前发言人的目标人脸区域位于视频画面合适位置，如居中显示当前发言人的人脸图像；此外，根据目标人脸区域在视频画面中的占比与预设占比之间的关系，调整摄像头的当前焦距，可以确保当前发言人的人脸图像在视频画面中的大小符合要求。

如图6所示，为了方便本领域技术人员对本方案的理解，下面将本发明提供的摄像头控制方法应用于云台摄像机和终端一体机的视联网会议终端为例，对本发明实施例提供的摄像头控制方法进行解释、说明。

云台摄像机和终端一体机的视联会议终端是在终端上集成了云台摄像头，用于接入视联网作为一个会议终端进行视频会议、点播、直播、可视电话等多种业务的视联网终端，其中，云台摄像头进行上下90度，环绕340度的旋转。视联网会议终端具有USB蓝牙接口，可以通过USB蓝牙接口与外置立体声音采集器无线连接。应用于云台摄像机和终端一体机的视联网会议终端的摄像头控制方法可以包括如下步骤：

步骤601，音频采集。即通过两个设置在会场内的立体声音采集器采集会场当前发言人的语音信号(也称音频数据)。

步骤602，数字滤波。即对两个声音采集器采集的音频数据进行数字化滤波处理。

步骤603，FFT变换。即对数字化滤波处理后的音频数据进行FFT变换处理。

步骤604，音频频率提取。即根据FFT变换处理得到的信息，确定出音频数据中幅度最高的几个音频频率，即主音频。

步骤605，声源定位算法计算云台角度。即通过声源定位算法确定声源位置，并基于声源位置计算声源位置相对于云台摄像头朝向的旋转信息，即通过比较两个声音采集器的两路音频数据在同一频率下相位差来计算当前发言人的声音达到两个声音采集器的时间差，通过时间差计算出声源位置，再确定声源位置相对于云台摄像头朝向的旋转信息，旋转信息包括旋转方向和旋转角度，旋转角度即云台角度。

步骤606，判断云台角度是否大于预设角度，若否，则返回步骤601；若是，则执行步骤607。

步骤607，云台角度粗调。即根据旋转信息转动云台摄像头。

步骤608，画面采集。即云台摄像头在根据旋转信息转动后，拍摄视频画面。

步骤609，判断人脸位置识别是否成功。即判断云台摄像头拍摄的视频画面是否存在人脸图像；若成功，则执行步骤610；若不成功，则返回步骤601。

步骤610，计算微调角度。即根据识别出的当前发言人的目标人脸图像在视频画面中的位置，计算云台摄像头需要转动的角度，以将目标人脸图像在视频画面中居中显示。

步骤611，云台角度微调。即根据计算出的微调角度对云台摄像头的当前角度进行微调。

本实施例在现有的视联网会议终端的基础上，通过外置的声音采集器采集音频数据，再进行声场分析，大致定位声源位置，再根据声源位置转动云台摄像头拍摄视频画面，再结合人脸识别技术，将当前发言人的人脸图像居中显示，使视联网会议终端更加智能化。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

本发明另一实施例提供一种摄像头控制装置，用于执行上述实施例提供的摄像头控制方法。

参照图7，示出了本发明的一种摄像头控制装置实施例的结构框图，该装置应用于会议终端，会议终端设置在会场内，会议终端包括摄像头，该装置可以包括如下模块：

声源定位模块701，用于获取会场内的声源位置；

第一控制模块702，用于控制摄像头朝向声源位置；

人脸确定模块703，用于从摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域；

位置判断模块704，用于判断目标人脸区域的目标中心位置是否位于视频画面的预设区域内；

第二控制模块705，用于若否，则根据目标中心位置与预设区域的关系调整摄像头，使目标人脸区域的目标中心位置位于预设区域内。

本申请实施例提供的摄像头控制装置，通过获取会场内的声源位置；控制摄像头朝向声源位置；从摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域；判断目标人脸区域的目标中心位置是否位于视频画面的预设区域内；若否，则根据目标中心位置与预设区域的关系调整摄像头，使目标人脸区域的目标中心位置位于预设区域内；可以实现自动采集当前发言人图像，同时还可以确保采集的当前发言人图像符合要求，从而保证会议效果，提高用户体验。

本发明又一实施例对上述实施例提供的测试装置做进一步说明。

可选地，人脸确定模块，包括：

人脸识别子模块，用于通过人脸识别算法识别摄像头拍摄的视频画面中的人脸图像；

目标人脸确定子模块，用于当人脸图像不止一个时，将中心位置靠近视频画面中心的人脸图像确定为当前发言人对应的目标人脸图像；

人脸区域确定子模块，用于将目标人脸图像对应的区域确定为目标人脸区域。

可选地，第二控制模块，包括：

方向确定子模块，用于根据目标人脸区域的目标中心位置与预设区域的预设中心位置之间的关系，确定摄像头的调整方向；

基于方向调整子模块，用于根据调整方向调整摄像头，使目标人脸区域的目标中心位置位于视频画面的预设区域内。

可选地，装置还包括：

焦距调整模块，用于根据目标人脸区域在视频画面中的占比与预设占比之间的关系，调整摄像头的当前焦距。

可选地，会议终端与间隔设置在会场内的两个声音采集器通信连接，声源定位模块，包括：

声音信号采集子模块，用于通过声音采集器采集会场内的声音信号；

确定声源位置子模块，用于根据声音信号到达两个声音采集器的时间差，确定声音信号对应的声源位置。

可选地，声源定位模块，还包括：

主音频提取子模块，用于对声音信号进行降噪处理，并提取声音信号中的主音频；

时间差确定子模块，用于根据两个声音采集器采集的主音频的相位差，确定声音信号到达两个声音采集器的时间差。

可选地，第一控制模块，包括：

旋转信息确定子模块，用于确定声源位置相对于摄像头朝向的旋转信息；旋转信息包括旋转角度和旋转方向；

基于旋转信息控制子模块，用于当旋转角度大于预设角度时，控制摄像头朝旋转方向转动旋转角度。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明再一实施例提供一种终端设备，用于执行上述实施例提供的摄像头控制方法。

图8是本发明的一种终端设备的结构示意图，如图8所示，该终端设备包括：至少一个处理器801和存储器802；

存储器存储计算机程序；至少一个处理器执行存储器存储的计算机程序，以实现上述实施例提供的摄像头控制方法。

本实施例提供的终端设备，通过获取会场内的声源位置；控制摄像头朝向声源位置；从摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域；判断目标人脸区域的目标中心位置是否位于视频画面的预设区域内；若否，则根据目标中心位置与预设区域的关系调整摄像头，使目标人脸区域的目标中心位置位于预设区域内；从而实现自动采集当前发言人图像，同时还可以确保采集的当前发言人图像符合要求，从而保证会议效果，提高用户体验。

本申请又一实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，计算机程序被执行时实现上述任一实施例提供的摄像头控制方法。

根据本实施例的计算机可读存储介质，通过获取会场内的声源位置；控制摄像头朝向声源位置；从摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域；判断目标人脸区域的目标中心位置是否位于视频画面的预设区域内；若否，则根据目标中心位置与预设区域的关系调整摄像头，使目标人脸区域的目标中心位置位于预设区域内；从而实现自动采集当前发言人图像，同时还可以确保采集的当前发言人图像符合要求，从而保证会议效果，提高用户体验。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理电子设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理电子设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理电子设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理电子设备上，使得在计算机或其他可编程电子设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程电子设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者电子设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者电子设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者电子设备中还存在另外的相同要素。

以上对本发明所提供的一种摄像头控制方法、装置、终端设备和存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种摄像头控制方法，其特征在于，应用于会议终端，所述会议终端设置在会场内，所述会议终端包括摄像头，所述方法包括：

获取所述会场内的声源位置；

控制所述摄像头朝向所述声源位置；

若否，则根据所述目标中心位置与所述预设区域的关系调整所述摄像头，使所述目标人脸区域的目标中心位置位于所述预设区域内；

其中，从所述摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域，包括：

预先收集各个发言人的语音信息和预存人脸图像，并生成所述语音信息与所述预存人脸图像的对应关系；

确定与所述会场内的声音信号匹配的所述语音信息；

根据所述语音信息与所述预存人脸图像的对应关系确定所述当前发言人的所述预存人脸图像，将所述视频画面中与所述预存人脸图像匹配的人脸图像确定为目标人脸图像；

将所述目标人脸图像对应的区域确定为所述当前发言人对应的所述目标人脸区域。

2.根据权利要求1所述的方法，其特征在于，从所述摄像头拍摄的视频画面中确定当前发言人对应的目标人脸区域，包括：

将所述目标人脸图像对应的区域确定为目标人脸区域。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标中心位置与所述预设区域的关系调整所述摄像头，使所述目标人脸区域的目标中心位置位于所述视频画面的预设区域内，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述会议终端与间隔设置在所述会场内的两个声音采集器通信连接，所述获取所述会场内的声源位置，包括：

通过所述声音采集器采集所述会场内的所述声音信号；

6.根据权利要求5所述的方法，其特征在于，在所述根据所述声音信号到达两个声音采集器的时间差，确定所述声音信号对应的声源位置之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述控制所述摄像头朝向所述声源位置，包括：

8.一种摄像头控制装置，其特征在于，应用于会议终端，所述会议终端设置在会场内，所述会议终端包括摄像头，所述装置包括：

声源定位模块，用于获取所述会场内的声源位置；

第一控制模块，用于控制所述摄像头朝向所述声源位置；

第二控制模块，用于若否，则根据所述目标中心位置与所述预设区域的关系调整所述摄像头，使所述目标人脸区域的目标中心位置位于所述预设区域内；

其中，所述人脸确定模块，还用于：

预先收集各个发言人的语音信息和预存人脸图像，并生成所述语音信息与所述预存人脸图像的对应关系，确定与所述会场内的声音信号匹配的所述语音信息，根据所述语音信息与所述预存人脸图像的对应关系确定所述当前发言人的所述预存人脸图像，将所述视频画面中与所述预存人脸图像匹配的人脸图像确定为目标人脸图像，将所述目标人脸图像对应的区域确定为所述当前发言人对应的所述目标人脸区域。

9.一种终端设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以实现权利要求1-7中任一项所述的摄像头控制方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-7中任一项所述的摄像头控制方法。