CN108391057A

CN108391057A - 摄像头拍摄控制方法、装置、智能设备及计算机存储介质

Info

Publication number: CN108391057A
Application number: CN201810300875.1A
Authority: CN
Inventors: 姜德军; 吴海全; 张恩勤; 曹磊; 师瑞文
Original assignee: Shenzhen Grandsun Electronics Co Ltd
Current assignee: Shenzhen Grandsun Electronics Co Ltd
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-08-10
Anticipated expiration: 2038-04-04
Also published as: US11445145B2; EP3550828A1; JP2019186931A; EP3550828B1; JP6759406B2; CN108391057B; US20190313057A1

Abstract

本发明适用于通信技术领域，提供了一种摄像头拍摄控制方法、装置、智能设备及计算机存储介质，包括：采集声源对象的语音数据；基于所述声源对象的语音数据，提取语音特征；根据提取的语音特征与预先设置的语音场景对应的语音特征，确定当前语音场景；获取所述当前语音场景对应的拍摄模式，并根据所述当前语音场景对应的拍摄模式控制摄像头转向。通过上述方法能够避免频繁抖动，可提高拍摄效率以及用户体验。

Description

摄像头拍摄控制方法、装置、智能设备及计算机存储介质

技术领域

本发明属于通信技术领域，尤其涉及一种摄像头拍摄控制方法、装置、智能设备及计算机存储介质。

背景技术

目前越来越多的智能设备装备了麦克风阵列，通过麦克风阵列可以得到发言者的说话时的语音角度信息，通过这些角度信息，我们可以调动移动摄像头去拍摄说话的发言者。现有技术存在两个问题：

1)、快速音源定位和慢速拍摄控制

声场的切换在瞬间就完成了，而摄像头需要麦克风阵列角度计算出的音源的方位，然后再启动电机转到摄像头到达指定的位置，这个过程需要一定的时间。如果加快转速，由于摄像头录制的视频帧率不足，导致拍摄的画面会拖影，另外也会有延时，造成音视频不同步，给发言者带来不舒服的感觉。

2)、例如在公司开视频会议的时候，有时候存在与会者有频繁的讨论情况，一旦一个与会者A发表观点，系统计算得出A的位置并启动拍摄控制，在摄像头还未转动到A，很可能A已经说完，此时另一个与会者B又开始发表观点，系统再次算出B的位置，摄像头又朝着B方位转动，这样采用之前摄像头简单跟随策略，会导致摄像头在不同与会者之间抖动。这种情况会导致视频会议非常难受，是不可接受的。

综上所述，现有的拍摄控制采用单一的跟踪方法难以满足负责场景的调度需求，不能处理视频音频同步交流时的语音的快速切换和摄像头转动之间矛盾，在多发言者交流时由于频繁快速移动摄像头会导致摄像头在多发言者之间抖动，拍摄控制效率不高。

发明内容

有鉴于此，本发明实施例提供了一种摄像头拍摄控制方法、装置、智能设备及计算机存储介质，以解决现有的拍摄控制采用单一的跟踪方法难以满足负责场景的调度需求，不能处理视频音频同步交流时的语音的快速切换和摄像头转动之间矛盾，在多发言者交流时由于频繁快速移动摄像头会导致摄像头在多发言者之间抖动，拍摄控制效率不高的问题。

本发明第一方面提供了一种摄像头拍摄控制方法，所述摄像头拍摄控制方法包括：

采集声源对象的语音数据；

基于所述声源对象的语音数据，提取语音特征；

根据提取的语音特征与预先设置的语音场景对应的语音特征，确定当前语音场景；

获取所述当前语音场景对应的拍摄模式，并根据所述当前语音场景对应的拍摄模式控制所述摄像头移动。

本发明第二方面提供了一种摄像头拍摄控制装置，所述摄像头拍摄控制装置包括：

语音采集单元，用于采集声源对象的语音数据；

特征提取单元，用于基于所述声源对象的语音数据，提取语音特征；

场景确定单元，用于根据提取的语音特征与预先设置的语音场景对应的语音特征，确定当前语音场景；

转向控制单元，用于获取所述当前语音场景对应的拍摄模式，并根据所述当前语音场景对应的拍摄模式控制所述摄像头移动。

本发明第三方面提供了一种智能设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述摄像头拍摄控制方法的步骤。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面所述摄像头拍摄控制方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例通过采集声源对象的语音数据，然后基于所述声源对象的语音数据，提取语音特征，再根据提取的语音特征与预先设置的语音场景对应的语音特征，确定当前语音场景，最后获取所述当前语音场景对应的拍摄模式，并根据所述当前语音场景对应的拍摄模式控制摄像头移动，摄像头根据不同的语音场景采用不同的拍摄模式控制摄像头的移动转向，避免在多声源对象交流时由于频繁快速移动摄像头导致的抖动，不仅能满足拍摄需求，还可以提高拍摄效率以及用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种摄像头拍摄控制方法的实现流程图；

图2是本发明实施例提供的一种摄像头拍摄控制方法步骤S103的具体实现流程图；

图3是本发明实施例提供的演讲者场景示意图；

图4是本发明实施例提供的一种摄像头拍摄控制方法在圆桌会议场景下步骤S104的具体实现流程图；

图4a是本发明实施例提供的圆桌会议场景示意图；

图5是本发明实施例提供的一种摄像头拍摄控制方法在视频会话场景下步骤S104的具体实现流程图；

图5a是本发明实施例提供的视频会议场景示意图；

图6是本发明实施例提供的一种摄像头拍摄控制装置的结构框图；

图7是本发明实施例提供的一种智能设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明实施例为了实现多场景下的跟踪拍摄，避免摄像头频繁转向导致的抖动降低拍摄效率，提供了一种摄像头拍摄控制方法、装置、智能设备及计算机存储介质，其主要是通过采集声源对象的语音数据，然后基于所述声源对象的语音数据，提取语音特征，再根据提取的语音特征与预先设置的语音场景对应的语音特征，确定当前语音场景，最后获取所述当前语音场景对应的拍摄模式，并根据所述当前语音场景对应的拍摄模式控制所述摄像头移动。为了具体说明上述摄像头拍摄控制方法、装置、智能设备及计算机存储介质，下面通过具体实施例来进行说明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明实施例提供的摄像头拍摄控制方法的实现流程，该方法流程包括步骤S101至S104。各步骤的具体实现原理如下：

步骤S101，采集声源对象的语音数据。

具体地，当前场景中，在用户启动智能设备后开始采集声源对象的语音数据。其中，所述声源对象即为当前场景中发言的人。所述语音数据包括一段语音开始的时间和结束的时间，在本发明实施例中，使用麦克风阵列全方向实时拾取语音，接收语音数据，再通过麦克风阵列算法来获取拾取的语音的声源方向。单个麦克风只能获取声音信息，而由多个麦克风按照一定几何位置摆放组成的麦克风阵列，不仅能够获取声音信息还能够获取声音的空间信息。

步骤S102，基于所述声源对象的语音数据，提取语音特征。

具体地，基于采集的声源对象的语音数据，提取语音特征，在本发明实施例中，所述语音特征包括语音时长、语音间隔时长、声源角度、语音声强或声音频率中的一项或者多项。类似的，语音特征还可以包括音高以及声音响度。

在本发明实施例中，根据所述语音数据的语音开始时间和语音结束时间计算所述语音数据的语音时长。记录采集的语音数据的语音开始时间T_start-i，语音结束时间T_end-i，则语音时长D_i＝T_end-i-T_start-i，语音间隔时长E_i＝T_start-i-T_end-i-1。统计采集的语音数据的声源角度的数量，并根据所述声源角度的数量确定声源对象数量。记录声源角度A_i，一般认为声源对象是固定在某一方位的，因此，通过统计声源角度A_i的数量来确定声源对象的数量。获取语音声强或声音频率，判定相同声源角度且语音声强I_i和声音频率F_i都相同的为同一声源对象。当然，声源对象也可能为了交流方便而四处走动，由于不同人的声音频率不同，声强也不同，可通过获取语音声强和声音频率来判断是否为同一声源对象。需说明的是，在本发明实施例中，确定用户数量，是统计在消除抖动后的声源角度的数量，消除抖动是指去除差值小于预设差值的声源角度，即将差值小于预设差值的声源角度视作来自同一声源对象的声源角度。

可选地，通过对语音数据进行统计分析，提取更多其他的语音特征，例如，用户交互频率，可以用户语音切换次数除以总时间确定；平均语音时长，通过总语音时长除以语音条数确定；平均等待时长，通过总空闲时长除以语音条数确定；语音时长分布情况，可以使用语音时长方差表示；用户角度分布，可以使用用户角度方差表示。

步骤S103，根据提取的语音特征与预先设置的语音场景对应的语音特征，确定当前语音场景。

其中，预先设置的语音场景包括但不限于演讲场景(C主讲，A、B偶尔提问)、圆桌会议场景(A、B、C依次讲话)以及视频会话场景(A、B近距离和远端用户交流)。

作为本发明的一个实施例，图2示出了本发明实施例提供的摄像头拍摄控制方法S103的具体实现流程，详述如下：

A1、提取指定数量的语音数据的语音特征。

A2、将所述指定数量的语音数据的语音特征输入至训练好的机器学习模型中，确定当前语音场景。所述训练好的机器学习模式是指预先采集各种语音场景下的语音数据作为样本数据，并使用机器学习算法进行训练生成的机器学习模型。需注意的是，每个语音场景的样本数据需要均衡，以免影响机器学习模型的训练结果。所述机器学习算法可以是决策树、随机森林算法、SVMs、朴素贝叶斯、逻辑回归或者其他机器学习算法，在此不做限定。

在本发明实施例中，智能设备的麦克风阵列根据一段时间的记录，获取该段时间内的声源角度，并提取出声源对象的数量、语音时长、语音间隔时长和语音交流切换频率等语音特征，将提取的语音特征输入至训练好的机器学习模型进行场景匹配，由该训练好的机器学习模型输出这些语音特征所对应的语音场景是演讲者场景，是圆桌会议场景，还是视频会话场景，亦或是家庭会话场景。

可选地，在本发明实施例中，可采用决策树算法训练机器学习模型，机器学习模型的训练步骤如下：

A21、获取指定数量的样本语音数据，并基于所述样本语音数据建立样本语音信息集，其中，所述样本语音数据标记有语音场景，每种语音场景的样本语音数据的数量不少于平均每种语音场景的样本语音数据的数量。

A22、根据所述样本语音数据提取语音特征，并基于提取的语音特征建立特征向量集。

A23、根据所述特征向量集训练所述样本语音信息集的决策树，直至所述决策树的实际输出值与理想输出值相同，完成训练。

具体地，采用决策树算法训练机器学习模型的过程，就是根据训练数据构造出一颗决策树的过程。在本发明实施例中，提取样本数据中的语音特征，如语音开始时间T_start-i，语音结束时间T_end-i，语音时长D_i＝T_end-i-T_start-i，语音间隔时长E_i＝T_start-i-T_end-i-1以及语音声强I_i频率F_i等，将提取的语音特征建立特征向量集，：(T_start-i，T_end-i，A_i，I_i，F_i)，根据特征向量集训练所述样本语音信息集的决策树，类似的，在本发明实施例中，建立特征向量集的语音特征还可包括用户交互频率、平均语音时长、平均等待时长、语音时长分布情况以及用户角度分布等。

可选地，所述根据提取的语音特征与预先设置的语音场景对应的语音特征，确定当前语音场景的步骤，包括：

获取指定数量的样本语音数据；

确定所述样本语音数据的声源角度的分布、语音时长分布以及语音间隔时间；

根据所述取样本语音数据的声源角度的分布、语音时长分布以及语音间隔时间构建决策树；

根据构建的决策树与提取的语音特征，确定当前语音场景。

具体地，使用声源角度的分布情况构建决策树首节点，若所述样本语音数据的声源角度的分布小于预设的角度分布范围，如小于90°，判定当前语音场景为视频会话场景；若所述取样本语音数据的声源角度的分布大于或等于预设的角度分布范围，如大于或等于90°，则进一步分析语音时长分布，若若语音时长分布中存在同一声源对象超过预设时长的语音，则判定当前语音场景为演讲者模式若不存在同一声源对象超过预设时长的语音，则进一步分析语音间隔时间，若所述语音间隔时间均匀，则判定当前语音场景为圆桌会议场景，若不均匀，则判定当前语音场景为家庭会话场景。

可选地，使用语音时长的分布情况构建决策树首节点，若语音时长分布中存在同一声源对象的语音时长达到当前总语音时长的预设百分值(如90％)，则获取语音间隔方差，若语音间隔方差小于预设间隔方差阈值，则判定当前语音场景为圆桌会议场景，若语音间隔方差大于或等于预设间隔方差阈值，则获取声源角度的分布范围，若声源角度的分布未达到预设的角度分布范围，则判定为当前语音场景视频会话场景，若声源角度的分布达到预设的角度分布范围，则判定当前语音场景为家庭会议场景。

步骤S104，获取所述当前语音场景对应的拍摄模式，并根据所述当前语音场景对应的拍摄模式控制所述摄像头移动。

在本发明实施例中，每一种语音场景都有对应的拍摄模式，不同拍摄模式选择的拍摄策略也不同，例如，可以选择只拍摄主讲人，或者，按发言区域控制所述摄像头移动，再或者，控制摄像头按顺时针或者逆时针方向顺序移动。

可选地，在本发明实施例中，演讲者场景如图3所示，演讲者场景的特征表现为声源角度分布大，但是语音时间分布差异性极大，一般地，绝大部分的时间(90％的时间)是主讲者一个人在讲台发言，这种情况下我们一般认为主讲者的信息是最重要的，拍摄策略可以为跟随主讲，保持连贯性，忽略主持人或者观众的偶尔打断。

作为本发明的一个实施例，当确定所述当前语音场景为圆桌会议场景时，图4示出了本发明实施例提供的摄像头拍摄控制方法S104的具体实现流程，详述如下：

B1、当确定所述当前语音场景为圆桌会议场景时，若检测到第一语音数据，则获取所述第一语音数据的第一声源角度。

B2、根据所述第一声源角度控制所述摄像头移动至所述第一声源角度对应的第一声源对象。

B3、当所述第一语音数据结束时，根据所述圆桌会议场景对应的调度模式，预先确定下一个发出语音数据的第二声源对象。圆桌会议场景对应的调度模式包括按顺时针方向控制所述摄像头移动或者按逆时针方向控制所述摄像头移动。

B4、根据所述第二声源对象的声源角度提前控制所述摄像头移动至所述第二声源对象。

或者，所述S104还包括：

B5、当所述第一语音数据结束时，根据所述圆桌会议场景对应的调度模式，预先确定发出语音数据的第二声源对象和发出语音数据的第三声源对象。

B6、根据所述第二声源对象的声源角度与所述第三声源对象的声源角度，提前控制所述摄像头移动至所述第二声源对象和所述第三声源对象的中间位置。

在本发明实施例中，圆桌会议场景如图4a所示，圆桌会议场景的特征表现为声源角度分布大、语音间隔均匀、语音时长和间隔时长分布较均匀，每人的信息同等重要，适合的摄像头拍摄策略为根据语音角度变化尽量跟随。进一步地，在语音间隔时间较大时预测下一个声源对象，提前控制摄像头转向，例如A讲话后一般都是B或者C继续讲，那么我们可以提前调度摄像头至B和C中间。

示例性地，采集一定数量的语音数据，并对语音数据的声源角度进行抖动消除处理，例如麦克风阵列语音角度精度为10度，我们可以把10度以内的语音视作来自同一声源对象的语音。如图4a中A作为0度起点，若声源角度来自顺时针方向85-95度，则认为是D在说话。对比本次语音和上次语音的声源角度变化，如果声源角度不变，认为是上一个声源对象持续讲话，不做处理，如果发现角度变化，我们认为发生一次交换，设置变量标识讲话顺序，即标识当前声源对象发言结束后同一个声源对象紧跟着发言的次数，例如D讲完C继续，则对标识D讲完C会继续的变量加1。所述标识可以通过一个二维数组或者量表保存。在累积一定数量的语音数据(比如100个语音切换)后，通过检索所有标识讲话顺序的变量，选择变量值最大的一个变量对应的声源对象作为最可能下一个发出语音数据(发言)的下一个声源对象，控制摄像头转向该确定的下一个声源对象。或者，选择变量值最大的变量对应的声源对象和变量值次大的变量对应的声源对象作为最有可能发言的两个声源对象，并控制摄像头预先转向两个声源对象中间。

作为本发明的一个实施例，图5示出了本发明实施例提供的摄像头拍摄控制方法S104的具体实现流程，详述如下：

C1、当所述语音场景为视频会话场景时，获取从视频会议开始到当前时刻的语音数据。

C2、根据获取的所述语音数据的声源角度划分发言区域，并确定划分的发言区域的区域角度。具体地，将多个声源角度两两相减，差值在预设角度差值范围内的划分至同一发言区。可通过对同一发言区域的声源角度进行加权平均后得到的角度值作为该发言区域的区域角度。进一步地，统计声源角度的数量确定声源对象的数量，根据声源角度和声源对象的数量划分发言区域。

C3、当检测到新的语音数据时，获取所述新的语音数据的声源角度。新的语音数据是指在划分发言区域后检测到的语音数据。

C4、确定所述新的语音数据的声源角度所属的发言区域。具体地，根据发言区域的区域角度与检测到的新的语音数据的声源角度，确定所述新的语音数据的声源角度所属的发言区域。通过将所述新的语音数据的声源角度与划分的发言区域中的声源角度进行匹配，查找该新的语音数据的声源角度所属的发言区域。

C5、根据确定的发言区域的区域角度控制摄像头的转向角度。若所述新的语音数据的声源角度所属的发言区域的区域角度正是当前摄像头的朝向角度，则不做任何调整，若所述新的语音数据的声源角度所属的发言区域的区域角度不是当前摄像头的朝向角度，则根据摄像头当前的朝向角度和所述新的语音数据的声源角度所属的发言区域的区域角度，控制所述摄像头移动，转向的角度为摄像头当前的朝向角度与所述新的语音的声源角度所属的发言区域的区域角度的差值(为绝对值)。

可选地，为确定划分的发言区域的区域角度，所述步骤D5具体包括：

C51、获取从视频会议开始到当前时刻的语音数据的条数n，以及每条语音数据对应的语音时长T_i与声源角度A_i。

C52、根据如下公式确定所述摄像头的待转向的角度Ac：

或者，C53、根据如下公式确定所述摄像头的待转向的角度Ac：

在本发明实施例中，视频会话场景如图5a所示，视频会话场景的特征表现为语音角度分布小，语音时长长短不一，一般语音间隔短，但是声源角度在一定范围内变化大，这种情况下控制摄像头简单跟随会导致视频抖动剧烈，在本发明实施例中，通过设置讨论热点区域，忽略单个声源对象的声源角度的变化，从而避免摄像头频繁转向而导致视频抖动剧烈。

可选地，在本发明实施例中，持续判断语当前的语音场景，避免因语音场景发生变化却未更改拍摄模式，如一个演讲者，讲完他的主题后，到桌边和其他人一起讨论问题，一段时间后，算法将会判断当前模式变为圆桌会议模式，即实现从一个语音场景切换至另一个场景。

本发明第一实施例中，通过采集声源对象的语音数据，然后基于所述声源对象的语音数据，提取语音特征，再根据提取的语音特征与预先设置的语音场景对应的语音特征，确定当前语音场景，最后获取所述当前语音场景对应的拍摄模式，并根据所述当前语音场景对应的拍摄模式控制摄像头移动，摄像头根据不同的语音场景采用不同的拍摄模式控制摄像头的移动转向，避免在多声源对象交流时由于频繁快速移动摄像头导致的抖动，不仅能满足拍摄需求，还可以提高拍摄效率以及用户体验。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例二：

对应于上文实施例所述的摄像头拍摄控制方法，图6示出了本发明实施例提供的摄像头拍摄控制装置的结构框图，该装置可应用于智能设备，该智能设备可以包括经无线接入网RAN与一个或多个核心网进行通信的用户设备，该用户设备可以是移动电话(或称为“蜂窝”电话)或者具有移动设备的计算机等，例如，用户设备还可以是便携式、袖珍式、手持式、计算机内置装置，它们可与无线接入网交换语音和/或数据。又例如，该用户设备可以为智能音箱、智能机器人等。为了便于说明，仅示出了与本发明实施例相关的部分。

参照图6，该摄像头拍摄控制装置包括：语音采集单元61、特征提取单元62、场景确定单元63、转向控制单元64，其中：

语音采集单元61，用于采集声源对象的语音数据；

特征提取单元62，用于基于所述声源对象的语音数据，提取语音特征；

场景确定单元63，用于根据提取的语音特征与预先设置的语音场景对应的语音特征，确定当前语音场景；

转向控制单元64，用于获取所述当前语音场景对应的拍摄模式，并根据所述当前语音场景对应的拍摄模式控制所述摄像头移动。

可选地，所述语音特征包括语音时长、语音间隔时长、声源角度、语音声强或声音频率中的一项或者多项。

可选地，所述场景确定单元63包括：

特征提取模块，用于提取指定数量的语音数据的语音特征；

第一场景确定模块，用于将所述指定数量的语音数据的语音特征输入至训练好的机器学习模型中，确定当前语音场景。

可选地，所述场景确定单元63还包括：

样本集建立模块，用于获取指定数量的样本语音数据，并基于所述样本语音数据建立样本语音数据集，其中，所述样本语音数据标记有语音场景，每种语音场景的样本语音数据的数量不少于平均每种语音场景的样本语音数据的数量；

特征向量集建立模块，用于根据所述样本语音数据提取语音特征，并基于提取的语音特征建立特征向量集；

训练模块，用于根据所述特征向量集训练所述样本语音数据集的决策树，直至所述决策树的实际输出值与理想输出值相同，完成训练。

可选地，所述场景确定单元63包括：

样本获取模块，用于获取指定数量的样本语音数据；

特征确定模块，用于确定所述样本语音数据的声源角度的分布、语音时长分布以及语音间隔时间；

决策树构建模块，用于根据所述取样本语音数据的声源角度的分布、语音时长分布以及语音间隔时间构建决策树；

第二场景确定模块，用于根据构建的决策树与提取的语音特征，确定当前语音场景。

可选地，所述转向控制单元64包括：

第一语音获取模块，用于当所述语音场景为视频会话场景时，获取从视频会议开始到当前时刻的语音数据；

区域划分模块，用于根据获取的所述语音数据的声源角度划分发言区域，并确定划分的发言区域的区域角度；

语音检测模块，用于当检测到新的语音数据时，获取所述新的语音数据的声源角度；

角度匹配模块，用于确定所述新的语音数据的声源角度所属的发言区域；

第一转向控制模块，用于根据确定的发言区域的区域角度控制摄像头的转向角度。

可选地，所述第一转向控制模块具体用于：获取从视频会议开始到当前时刻的语音数据的条数n，以及每条语音数据对应的语音时长T_i与声源角度A_i；根据如下公式确定所述摄像头的待转向的角度Ac：

或者，所述第一转向控制模块还用于：根据如下公式确定所述摄像头的待转向的角度Ac：

可选地，所述转向控制单元64包括：

第二语音获取模块，用于当确定所述当前语音场景为圆桌会议场景时，若检测到第一语音数据，则获取所述第一语音数据的第一声源角度；

第二转向模块，用于根据所述第一声源角度控制所述摄像头移动至所述第一声源角度对应的第一声源对象；

第一预测模块，用于当所述第一语音数据结束时，根据所述圆桌会议场景对应的调度模式，预先确定下一个发出语音数据的第二声源对象；

所述第二转向模块，还用于根据所述第二声源对象的声源角度提前控制所述摄像头移动至所述第二声源对象；

第二预测模块，用于当所述第一语音数据结束时，根据所述圆桌会议场景对应的调度模式，预先确定发出语音数据的第二声源对象和发出语音数据的第三声源对象；

第三转向模块，用于根据所述第二声源对象的声源角度与所述第三声源对象的声源角度，提前控制所述摄像头移动至所述第二声源对象和所述第三声源对象的中间位置。

本发明第二实施例中，通过采集声源对象的语音数据，然后基于所述声源对象的语音数据，提取语音特征，再根据提取的语音特征与预先设置的语音场景对应的语音特征，确定当前语音场景，最后获取所述当前语音场景对应的拍摄模式，并根据所述当前语音场景对应的拍摄模式控制所述摄像头移动，摄像头根据不同的语音场景采用不同的拍摄模式控制摄像头的移动转向，避免在多声源对象交流时由于频繁快速移动摄像头导致的抖动，不仅能满足拍摄需求，还可以提高拍摄效率以及用户体验。

实施例三：

图7是本发明一实施例提供的智能设备的示意图。如图7所示，该实施例的智能设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如拍摄控制程序。所述处理器70执行所述计算机程序72时实现上述各个摄像头拍摄控制方法实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能，例如图6所示单元61至64的功能。

示例性的，所述计算机程序72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述智能设备7中的执行过程。例如，所述计算机程序72可以被分割成语音采集单元、特征提取单元、场景确定单元、转向控制单元，各单元具体功能如下：

语音采集单元，用于采集声源对象的语音数据；

所述智能设备7可以是带有摄像头的智能音箱、具有麦克风阵列的智能摄像机以及智能机器人等智能设备。所述智能设备7可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是智能设备7的示例，并不构成对智能设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述智能设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述智能设备7的内部存储单元，例如智能设备7的硬盘或内存。所述存储器71也可以是所述智能设备7的外部存储设备，例如所述智能设备7上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述智能设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述智能设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种摄像头拍摄控制方法，其特征在于，所述摄像头拍摄控制方法包括：

采集声源对象的语音数据；

基于所述声源对象的语音数据，提取语音特征；

2.如权利要求1所述的摄像头拍摄控制方法，其特征在于，所述语音特征包括语音时长、语音间隔时长、声源角度、语音声强或声音频率中的一项或者多项。

3.如权利要求2所述的摄像头拍摄控制方法，其特征在于，所述获取所述当前语音场景对应的拍摄模式，并根据所述当前语音场景对应的拍摄模式控制所述摄像头移动的步骤，包括：

当确定所述当前语音场景为圆桌会议场景时，若检测到第一声源对象的第一语音数据，则获取所述第一语音数据的第一声源角度；

根据所述第一声源角度控制所述摄像头移动至所述第一声源角度对应的第一声源对象；

当所述第一语音数据结束时，根据所述圆桌会议场景对应的调度模式，预先确定下一个发出语音数据的第二声源对象；

根据所述第二声源对象的声源角度提前控制所述摄像头移动至所述第二声源对象；

或者，当所述第一语音数据结束时，根据所述圆桌会议场景对应的调度模式，预先确定发出语音数据的第二声源对象和发出语音数据的第三声源对象；

根据所述第二声源对象的声源角度与所述第三声源对象的声源角度，提前控制所述摄像头移动至所述第二声源对象和所述第三声源对象的中间位置。

4.如权利要求1所述的摄像头拍摄控制方法，其特征在于，所述根据提取的语音特征与预先设置的语音场景对应的语音特征，确定当前语音场景的步骤，包括：

提取指定数量的语音数据的语音特征；

将所述指定数量的语音数据的语音特征输入至训练好的机器学习模型中，确定当前语音场景。

5.如权利要求4所述的摄像头拍摄控制方法，其特征在于，所述机器学习模型的训练步骤包括：

获取指定数量的样本语音数据，并基于所述样本语音数据建立样本语音数据集，其中，所述样本语音数据标记有语音场景，每种语音场景的样本语音数据的数量不少于平均每种语音场景的样本语音数据的数量；

根据所述样本语音数据提取语音特征，并基于提取的语音特征建立特征向量集；

根据所述特征向量集训练所述样本语音数据集的决策树，直至所述决策树的实际输出值与理想输出值相同，完成训练。

6.如权利要求1所述的摄像头拍摄控制方法，其特征在于，所述根据提取的语音特征与预先设置的语音场景对应的语音特征，确定当前语音场景的步骤，包括：

获取指定数量的样本语音数据；

根据构建的决策树与提取的语音特征，确定当前语音场景。

7.如权利要求1所述的摄像头拍摄控制方法，其特征在于，所述获取所述当前语音场景对应的拍摄模式，并根据所述当前语音场景对应的拍摄模式控制所述摄像头移动的步骤，包括：

当所述当前语音场景为视频会话场景时，获取从视频会议开始到当前时刻的语音数据；

根据获取的所述语音数据的声源角度划分发言区域，并确定划分的发言区域的区域角度；

当检测到新的语音数据时，获取所述新的语音数据的声源角度；

确定所述新的语音数据的声源角度所属的发言区域；

根据确定的发言区域的区域角度控制摄像头的转向角度。

8.如权利要求7所述的摄像头拍摄控制方法，其特征在于，所述根据确定的发言区域的区域角度控制所述摄像头的转向角度的步骤，包括：

获取从视频会议开始到当前时刻的语音数据的条数n，以及每条语音数据对应的语音时长T_i与声源角度A_i；

根据如下公式确定所述摄像头的待转向的角度Ac：

9.如权利要求7所述的摄像头拍摄控制方法，其特征在于，所述根据确定的发言区域的区域角度控制所述摄像头的转向角度的步骤，包括：

获取从视频会议开始到当前时刻的语音数据的条数n与声源角度Ai；

根据如下公式确定所述摄像头的待转向的角度Ac：

10.一种摄像头拍摄控制装置，其特征在于，所述摄像头拍摄控制装置包括：

语音采集单元，用于采集声源对象的语音数据；

11.如权利要求10所述的摄像头拍摄控制装置，其特征在于，所述转向控制单元包括：

12.一种智能设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述摄像头拍摄控制方法的步骤。

13.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述摄像头拍摄控制方法的步骤。