CN104573617B

CN104573617B - 一种摄像控制方法

Info

Publication number: CN104573617B
Application number: CN201310522200.9A
Authority: CN
Inventors: 季春宏; 陈雁; 李树; 章纯; 朱敏
Original assignee: HANGZHOU WISDOM TECHNOLOGY Co Ltd
Current assignee: Hangzhou wisdom Technology Co., Ltd.
Priority date: 2013-10-28
Filing date: 2013-10-28
Publication date: 2018-10-02
Anticipated expiration: 2033-10-28
Also published as: CN104573617A

Abstract

本发明公开了一种基于人脸识别和表情识别自动追踪拍摄场景中的关键拍摄对象的摄像控制方法。本发明所提供的摄像控制方法在从全景图像中检测出人脸后，能够得到人脸的表情级别和角色级别、并综合表情级别和角色级别得到每个人脸的拍摄优先级，并以此来控制特写摄像机自动追踪拍摄优先级最高的人脸进行拍摄、以实现对拍摄场景中的关键角色的重要表情的自动追踪。可见，本发明所提供的摄像控制方法不存在信号抗干扰能力和信号覆盖范围的限制，而且所采用的人脸识别的精度也明显高于图像识别采用的人像识别，因此，本发明能够提高摄像机自动追踪的可靠性和准确性。

Description

一种摄像控制方法

技术领域

本发明涉及摄像技术，特别涉及能够基于人脸识别和表情识别自动追踪拍摄场景中的关键拍摄对象的一种摄像控制方法。

背景技术

在现有技术中，各种拍摄场景中采用的拍摄方式都是人工拍摄。即，配备多架摄像机由多名摄像师同时拍摄，每个摄影师和摄像机根据不同角度和不同拍摄效果进行分工。

然而，对于拍摄中的特写追踪，需要完全依赖于摄像师的注意力和技巧，因而通常会发生特写追踪的拍摄合格率及拍摄效率不高的问题，这就导致拍摄的成本大大提升。为了缓解这样的问题，就不得不增加摄像机和摄影师的数量、并提高对摄像机的品质要求以及对摄影师的拍摄水平要求，但这样会导致拍摄的成本不降反升。

为了解决上述问题，现有技术提出了利用红外跟踪、或图像识别来实现摄像机自动追踪拍摄的方式，以通过自动追踪替代人工追踪来提高拍摄合格率及拍摄效率降低拍摄的成本，并同时减少摄像机和摄影师的数量、以及降低对摄像机的品质要求以及对摄影师的拍摄水平要求，旨在降低拍摄成本。其中：

1、红外跟踪需要为拍摄对象安装红外发射装置、为摄像头安装红外接收装置，由摄像机根据红外接收装置接收的红外信号的方向对焦至拍摄对象所处的拍摄方位，从而能够实现摄像机的自动追踪。但是，由于红外收发的抗干扰能力较差，因而只能适用室内环境；并且，拍摄对象的姿态容易使红外发射装置的发射范围无法覆盖红外接收装置，导致红外收发失败。可见，利用红外跟踪所实现的摄像机自动追踪的可靠性不高。

2、图像识别需要对摄像机捕获的人像进行分析处理、将人像设定为跟踪对象使其始终处于摄像机的拍摄范围内，从而能够实现人像的自动跟踪。但是，图像识别依赖的是对人像姿态的识别，而这样的识别难以精确地区分出不同的拍摄对象的，因而极容易出现跟丢和乱跟的现象。可见，利用图像识别所实现的摄像机追踪的准确性不高。

发明内容

有鉴于此，本发明提供一种摄像控制方法。

本发明提供的该摄像控制方法应用于处理设备中、该处理设备连接在同一拍摄场景的广角摄像机和特写摄像机之间；并且，该摄像控制方法包括循环执行的如下步骤：

步骤a1、对广角摄像机拍摄到的全景图像进行人脸检测，并检测得到全景图像中的所有人脸图像、以及每个人脸图像在全景图像中对应的位置；

步骤a2、对步骤a1检测到的所有人脸图像进行表情识别，并识别得到每个人脸图像对应的人脸表情；

步骤a3、对步骤a1检测得到的所有人脸图像进行人脸识别，并识别得到每个人脸图像对应的人物身份；

步骤a4、查询步骤a2识别出的人脸表情的表情级别、以及步骤a3识别出的人物身份的角色级别，并依据查询出的表情级别和角色级别，确定每个人脸图像的拍摄优先级；

步骤a5、针对步骤a4计算出的拍摄优先级最高的人脸图像，依据步骤a1检测得到的该人脸图像在全景图像中对应的位置，生成用于特写摄像机识别该人脸图像在拍摄场景中对应的拍摄对象的位置信息，并向特写摄像机发送携带该位置信息的拍摄指令。

可选地，步骤a1所述的人脸检测是利用用于区分人脸与背景图像的人脸检测分类器来实现的，其中，所述的人脸检测分类器是按照如下方式预先训练得到的：

收集人脸的正样本图像和负样本图像；

按照人脸的角度对正样本图像进行分类；

对每个分类中的正样本图像进行归一化处理；

对于每个分类，抽取出能够区分该分类的正样本图像与负样本图像的各样本特征作为弱分类器，并通过级联该分类的各弱分类器构成该分类的人脸检测分类器。

可选地，步骤a2所述的表情识别是利用用于区分不同表情的表情识别分类器来实现的，其中，所述的表情识别分类器是按照如下方式预先训练得到的：

收集各种表情的训练样本图像；

定位训练样本图像的特征点位置；

将训练样本图像按照各特征点的位置进行归一化处理；

从归一化处理后的训练样本图像中提取样本特征；

创建用作表情识别分类器的神经网络、并利用提取的样本特征训练神经网络中的节点间连线的权值。

可选地，步骤a3所述的人脸识别是利用用于区分不同人脸的人脸识别分类器来实现的，其中，所述的人脸识别分类器是按照如下方式预先训练得到的：

收集已知人物身份的训练样本图像；

定位出样本图像的特征点位置；

将训练样本图像按照各特征点的位置进行归一化处理；

从归一化处理后的训练样本图像中提取样本特征；

依据样本特征与所属训练样本图像的人物身份的关系，训练得到在流形空间保持类内样本投影后邻域不变的投影矩阵、采用以投影向量间的相似度距离KNN分类器作为人脸识别分类器。

可选地，表情级别由高到低依次包括：动态表情、静态表情、以及静默表情。

可选地，角色级别由高到低依次包括：主角、配角、普通演员、群众演员。

可选地，步骤a4将每个人脸的人脸表情与角色级别的等级评分的乘积确定为该人脸的拍摄优先级。

可选地，步骤a5中的位置信息的生成，是依据广角摄像机和特写摄像机在拍摄场景中的位置关系，对人脸图像在全景图像中对应的位置进行坐标转换得到的。

可选地，步骤a5中的位置信息包括用于确定特写摄像机的拍摄角度的角度信息、以及用于确定特写摄像机的拍摄焦距的焦距信息。

可选地，应用该摄像控制方法的处理设备为PC机。

如上可见，本发明所提供的摄像控制方法在从广角摄像机拍摄得到的全景图像中检测出人脸后，能够得到每个人脸的表情级别和角色级别，还能够综合表情级别和角色级别得到每个人脸的拍摄优先级，并以此来控制特写摄像机自动追踪拍摄优先级最高的人脸进行拍摄，从而确保特写摄像机能够对拍摄场景中的关键角色（表情和/或角色身份最重要的角色）实现自动追踪；而且，若拍摄场景中的关键角色发生了变化（例如场景中的重要表情在角色间发生了迁移、或角色的身份重要性排序发生了变化），则还能够触发特写摄像机追踪的自动调整。相比于现有的红外跟踪和图像识别所实现的摄像机自动追踪，本发明所提供的摄像控制方法不存在信号抗干扰能力和信号覆盖范围的限制，而且所采用的人脸识别的精度也明显高于图像识别采用的人像识别，因此，本发明能够提高摄像机自动追踪的可靠性和准确性。

附图说明

图1为本发明实施例中的摄像控制方法的应用场景示意图；

图2为本发明实施例中的摄像控制方法的原理图；

图3为本发明实施例中的摄像控制方法的示例性流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

本实施例提供了一种摄像控制方法，请参见图1，该方法适用于同时配备有广角摄像机和特写摄像机的拍摄场景，广角摄像机的作用是拍摄全景图像、用以搜集拍摄场景中的所有拍摄对象的人脸图像，而特写摄像机则用于自动追踪拍摄场景中的关键角色（例如出现关键表情的角色、或身份重要性高的角色）；并且，该方法可以以计算机程序等方式应用在连接于广角摄像机和特写摄像机之间的一处里设备（例如PC机）中，以从广角摄像机搜集的所有人脸图像中寻找到关键角色的人脸图像、并指示特写摄像机追踪该关键角色。即，特写摄像机是控制的对象，处里设备是控制的执行主体，广角摄像机是为控制主体提供参考依据的信息采集端。

请再参见图2，基于上述的场景框架，在本实施例中的摄像控制方法中：

首先，需要向广角摄像机发出拍摄指令、并从广角摄像机拍摄得到的全景图像中检测出人脸；

其次，通过表情识别和人脸识别得到每个人脸的人脸表情和人物身份，

然后，再通过预先设置的人脸表情评级和角色身份库查询得到每个人脸的表情级别和角色级别；

之后，综合表情级别和角色级别得到每个人脸的拍摄优先级；

最后，向特写摄像机发出拍摄指令，并以此来控制特写摄像机自动追踪拍摄优先级最高的人脸进行拍摄，其中，拍摄指令中可以携带有用于特写摄像机识别的该人脸图像在拍摄场景中对应的拍摄对象的位置信息。

为了获得这样的具体信息，在对广角摄像机拍摄得到的全景图像进行人脸检测时，还需要同时提取出检测得到的每个人脸图像在全景图像中对应的位置，这样，当控制特写摄像机自动追踪时，可以依据拍摄优先级最高的人脸图像在全景图像中对应的位置，生成特写摄像机能够识别的该人脸图像在拍摄场景中对应的拍摄对象的位置信息、并发送给特写摄像机，以确保特写摄像机能够快速响应对关键角色的自动追踪、并准确实现自动追踪时的对焦。

实际应用中，上述的位置信息的生成，可以是依据广角摄像机和特写摄像机在拍摄场景中的位置关系对人脸图像在全景图像中对应的位置进行坐标转换来得到。并且，上述的位置信息可以至少包括用于确定特写摄像机的拍摄角度的角度信息、以及用于确定特写摄像机的拍摄焦距的焦距信息。

从而，本实施例中的摄像控制方法能够实现特写摄像机对拍摄场景中的关键角色（表情和/或角色身份最重要的角色）实现自动追踪；而且，若拍摄场景中的关键角色发生了变化（例如场景中的重要表情在角色间发生了迁移、或角色的身份重要性排序发生了变化），则还能够触发特写摄像机追踪的自动调整。

以上是对本实施例中的摄像控制方法的原理性说明，下面，再结合一具体流程对该摄像控制方法进行详细说明。

请参见图3，本实施例中的摄像控制方法可以包括循环执行的如下步骤：

步骤301，对广角摄像机拍摄到的全景图像进行人脸检测，并检测得到全景图像中的所有人脸图像、以及每个人脸图像在全景图像中对应的位置；

步骤302，对步骤301检测到的所有人脸图像进行表情识别，并识别得到每个人脸图像对应的人脸表情；

步骤303，对步骤301检测得到的所有人脸图像进行人脸识别，并识别得到每个人脸图像对应的人物身份；

步骤304，查询步骤302识别出的人脸表情的表情级别、以及步骤303识别出的人物身份的角色级别，并依据查询出的表情级别和角色级别，确定每个人脸图像的拍摄优先级；

步骤305，针对步骤304计算出的拍摄优先级最高的人脸图像，依据步骤301检测得到的该人脸图像在全景图像中对应的位置，生成用于特写摄像机识别该人脸图像在拍摄场景中对应的拍摄对象的位置信息，并向特写摄像机发送携带该位置信息的拍摄指令。

至此，上述流程的一次循环结束。

如上可见，对于本实施例中的摄像控制方法的上述流程来说，在执行每次循环时，特写摄像机都能够对拍摄场景中的当前关键角色（表情和/或角色身份最重要的角色）实现自动追踪。而对于连续执行的多次循环来说，若在执行某次循环时，拍摄场景中的当前关键角色相比于执行上一次循环时的原关键角色发生了变化（例如场景中的重要表情在角色间发生了迁移、或角色的身份重要性排序发生了变化），则还能够触发特写摄像机追踪的自动调整。

而且，相比于现有的红外跟踪和图像识别所实现的摄像机自动追踪，本实施例中的摄像控制方法不存在信号抗干扰能力和信号覆盖范围的限制，而且所采用的人脸识别的精度也明显高于图像识别采用的人像识别，因此，能够提高摄像机自动追踪的可靠性和准确性。

在实际应用中，本实施例中摄像控制方法的上述流程中的步骤301所述的人脸检测、步骤302所述的表情识别、步骤303所述的人脸识别、以及步骤304所述的拍摄优先级的确定，均可以采用现有的任一种能够适用的算法予以实现。但除此之外，本实施例还分别提供了更优的实现方式，下面分别予以详细说明。

1）、关于人脸检测：

人脸检测是通过对拍摄到的图像进行处理、并分析图像的内容是否含有人脸图像。现有的人脸检测技术已经相对成熟，其实现的方法很多，主要包括基于人脸肤色、基于运动信息、基于轮廓信息、基于结构信息等方式的人脸检测。但这些方式的运算复杂度是较高的。

因此，在本实施例中，步骤301所述的人脸检测可以采用基于Boosting（增强）技术的人脸检测方式，即，利用用于区分人脸与背景图像的人脸检测分类器来实现，其中，所述的人脸检测分类器是按照如下方式预先训练得到的：

收集人脸的正样本图像和负样本图像；

按照人脸的角度对正样本图像进行分类，例如，分为正面人脸、平面内旋转30人脸、平面外旋转45度人脸、平面外旋转90度人脸等；

对每个分类中的正样本图像进行归一化处理，例如归一化至20×20像素的统一规格；

对于每个分类，利用Boosting算法对该分类的正样本图像与负样本图像进行机器学习，并通过贪婪准则抽取出能够区分该分类的正样本图像与负样本图像的各样本特征作为弱分类器，并通过级联该分类的各弱分类器构成该分类的人脸检测分类器。

2）、关于表情识别：

人脸的表情识别是指对输入的人脸图像的表情进行分类。人的表情千变万化，但是常见的可以分为：属于动作变化的例如说话的动态表情，属于情绪表达的例如厌恶、愤怒、害怕、高兴、悲伤和惊奇等静态表情，以及属于无动作变化且无情绪表达的静默表情。通常来说，现有的各种表情识别仅针对静态表情进行分类。

在本实施例中，对于静态表情仍采用分类的方式予以实现，并且，在此基础上还增加了通过比对人脸图像的特征点位置是否发生变化来识别是否发生了动态表情，相应地，只有既不属于静态表情、又不属于动态表情的人脸图像才会认定为静默表情。

其中，对于静态表情的分类，步骤302所述的表情识别可以是利用用于区分不同表情的表情识别分类器来实现的，其中，所述的表情识别分类器是按照如下方式预先训练得到的：

收集各种表情的训练样本图像；

利用ASM（Active Shape Model，主动形状模型）算法定位训练样本图像的特征点位置，其中，所述特征点可以包括眼睛，眉毛，嘴巴，鼻子脸颊等总共90个特征点；

将训练样本图像按照各特征点的位置进行归一化处理，以将所有训练样本图像的各特征点分别对齐；

从归一化处理后的训练样本图像中提取样本特征，其中，所提取的样本特征可以选用Gabor（加伯）特征，例如，Gabor特征可以表现为m个尺度、n个方向的m×n维的Gabor响应图，m和n均为大于1的正整数，例如m取5、n取8；

创建用作表情识别分类器的神经网络、并利用提取的样本特征训练神经网络中的节点间连线的权值；其中，为了简化运算量，可以在训练神经网络之前进一步对样本特征进行PCA（Principal Components Analysis，即主成份分析）降维，并利用PCA降维后的样本特征训练神经网络。

对于按照上述训练方式得到的用作表情识别分类器的神经网络，其具有与静态表情的类别数量相同的输出节点，这样，每当有人脸图像输入该神经网络后，即会通过该神经网络得到从表示其中一类静态表情的输出节点输出的识别结果。

3）、对于人脸识别：

人脸识别是指对输入的人脸图像抽取人脸特征，通过分类器判断出该人脸图像属于哪一个人物身份。人脸识别包括注册和识别两个过程；注册是指按照识别的方法或规则抽取已知人脸图像的面部特征或模板、并连同该人脸图像的表示人物身份的文字属性存入数据库中；识别是指对于未知人脸图像抽取用于识别的特征，通过人脸识别分类器判断该人脸图像与数据库中的哪一个已注册的人脸图像属于相同的人物身份。人脸识别技术中关键是选择表述性强的人脸特征来训练具有分类能力的人脸识别分类器，并选择区分度高的相似度度量方法。

在本实施例中，步骤303所述的人脸识别是利用用于区分不同人脸的人脸识别分类器来实现的，其中，所述的人脸识别分类器是按照如下方式预先训练得到的：

收集已知人物身份的训练样本图像；

定位出样本图像的特征点位置，人脸识别所定位的特征点可以只选择眼睛；

将训练样本图像按照各特征点的位置进行归一化处理，例如归一化至100×100像素的统一规格；其中，在归一化处理后，还可以进一步对归一化处理后的人脸图像进行例如姿态矫正、光照矫正、去眼镜、去刘海等前处理，以降低外界因素对人脸本身属性的影响；

从归一化处理后的训练样本图像中提取多种样本特征，其中，所提取的特征的种类可以包括Gabor特征、LBP（Local Binary Pattern,局部二值模式）特征，HOG（Histogramof Oriented Gradient，方向梯度直方图）特征等；

利用LLE（locally linear embedding，局部线性嵌入）算法的流形学习确定样本特征与所属训练样本图像的人物身份的关系，依据样本特征与所属训练样本图像的人物身份的关系，训练得到在流形空间保持类内样本投影后邻域不变的投影矩阵，用投影向量间的相似度距离作为人脸距离的描述，相应地，即可采用以投影向量间的相似度距离为分类依据的KNN（K-Nearest Neighbor,K最邻近）分类器作为人脸识别分类器，其中，为了简化运算量，可以在训练投影矩阵之前对多种特征进行融合、并通过PCA降维来去除融合后的特征冗余，然后利用PCA降维后的样本特征训练投影矩阵。

对于按照上述训练方式得到的用作人脸识别分类器的投影矩阵，可以将已知人物身份的样本图像和未知人物身份的人脸图像投影至投影矩阵中，并通过投影后得到的向量的余弦距离来度量样本图像和人脸图像的相似程度，显然，余弦距离的大小即可用来判断人脸图像与那个样本图像属于同一个人物身份。

4）、对于拍摄优先级的确定

在本实施例中，表情级别可以由高到低依次包括动态表情、静态表情、以及静默表情，每个表情级别具有对应的等级评分，例如，在1～10的评分范围内评分，表示说话的动态表情10分，表示厌恶、愤怒、害怕、高兴、悲伤和惊奇等情绪表达的静态表情为5分，无表情动作且无情绪表达的静默表情1分。

同理，角色级别可以由高到低依次包括主角、配角、普通演员、群众演员，每个角色级别也具有对应的等级评分，例如，在1～10的评分范围内评分，主角10分、配角8分、普通演员5分，群众演员1分。

相应地，步骤304可以将每个人脸的人脸表情与角色级别的乘积确定为该人脸的拍摄优先级。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种摄像控制方法，其特征在于，该摄像控制方法应用于处理设备中、该处理设备连接在同一拍摄场景的广角摄像机和特写摄像机之间；并且，该摄像控制方法包括循环执行的如下步骤：

步骤a4、查询步骤a2识别出的人脸表情的表情级别、以及步骤a3识别出的人物身份的角色级别，并依据查询出的表情级别和角色级别，确定每个人脸图像的拍摄优先级；其中，步骤a4将每个人脸的人脸表情与角色级别的等级评分的乘积确定为该人脸的拍摄优先级；

步骤a5、针对步骤a4计算出的拍摄优先级最高的人脸图像，依据步骤a1检测得到的该人脸图像在全景图像中对应的位置，生成用于特写摄像机识别该人脸图像在拍摄场景中对应的拍摄对象的位置信息，并向特写摄像机发送携带该位置信息的拍摄指令；

其中，表情级别由高到低依次包括：动态表情、静态表情、以及静默表情；并且，在步骤a2中，利用用于区分不同表情的表情识别分类器来识别静态表情、通过比对人脸图像的特征点位置是否发生变化来识别是否发生了动态表情、以及将不属于静态表情和动态表情的人脸图像认定为静默表情。

2.根据权利要求1所述的摄像控制方法，其特征在于，步骤a1所述的人脸检测是利用用于区分人脸与背景图像的人脸检测分类器来实现的，其中，所述的人脸检测分类器是按照如下方式预先训练得到的：

收集人脸的正样本图像和负样本图像；

按照人脸的角度对正样本图像进行分类；

对每个分类中的正样本图像进行归一化处理；

3.根据权利要求1所述的摄像控制方法，其特征在于，步骤a2所述的表情识别是利用用于区分不同表情的表情识别分类器来实现的，其中，所述的表情识别分类器是按照如下方式预先训练得到的：

收集各种表情的训练样本图像；

定位训练样本图像的特征点位置；

将训练样本图像按照各特征点的位置进行归一化处理；

从归一化处理后的训练样本图像中提取样本特征；

4.根据权利要求1所述的摄像控制方法，其特征在于，步骤a3所述的人脸识别是利用用于区分不同人脸的人脸识别分类器来实现的，其中，所述的人脸识别分类器是按照如下方式预先训练得到的：

收集已知人物身份的训练样本图像；

定位出样本图像的特征点位置；

将训练样本图像按照各特征点的位置进行归一化处理；

从归一化处理后的训练样本图像中提取样本特征；

5.根据权利要求1所述的摄像控制方法，其特征在于，角色级别由高到低依次包括：主角、配角、普通演员、群众演员。

6.根据权利要求1所述的摄像控制方法，其特征在于，步骤a5中的位置信息的生成，是依据广角摄像机和特写摄像机在拍摄场景中的位置关系，对人脸图像在全景图像中对应的位置进行坐标转换得到的。

7.根据权利要求1所述的摄像控制方法，其特征在于，步骤a5中的位置信息包括用于确定特写摄像机的拍摄角度的角度信息、以及用于确定特写摄像机的拍摄焦距的焦距信息。

8.根据权利要求1所述的摄像控制方法，其特征在于，应用该摄像控制方法的处理设备为PC机。