CN109922266B

CN109922266B - 应用于视频拍摄的抓拍方法及系统、摄像机及存储介质

Info

Publication number: CN109922266B
Application number: CN201910247887.7A
Authority: CN
Inventors: 董健; 王禹; 张明; 杭丽君
Original assignee: Dongguan Songshan Lake International Robot Research Institute Co ltd; Ruimo Intelligent Technology Shenzhen Co ltd
Current assignee: RUIMO INTELLIGENT TECHNOLOGY (SHENZHEN) Co.,Ltd.
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2021-04-06
Anticipated expiration: 2039-03-29
Also published as: CN109922266A

Abstract

本发明公开一种应用于视频拍摄的抓拍方法及系统、摄像机及存储介质，其包括如下步骤：实时检测视频拍摄影像；获取当前帧图片中拍摄主体的人像边界框；若基于深度卷积神经网络根据人体边界框判断出当前帧图片满足预设动作抓拍条件和/或基于深度卷积神经网络根据人脸边界框判断出当前帧图片满足预设表情抓拍条件，则进行实时抓拍。本发明通过深度卷积神经网络计算视频拍摄影像内的预置帧数图片的动作精彩程度概率值及特殊表情概率值，通过判断出当前帧图片是否满足预设动作抓拍条件或预设表情抓拍条件，从而实现实时抓拍出精彩照片的效果，无需人为控制也能自动拍摄出精彩的照片，大大降低人为操作上的繁琐性，提高了抓拍准确性和用户体验度。

Description

应用于视频拍摄的抓拍方法及系统、摄像机及存储介质

技术领域

本发明涉及摄像技术领域，尤其是涉及一种应用于视频拍摄的抓拍方法及系统、摄像机及存储介质。

背景技术

随着通信技术的不断进步，终端(例如，手机、平板电脑)已经成为人们生活和工作中必不可少的通信工具，用户对终端的使用体验的要求也越来越高。在繁忙的时代，一方面，人们对于“等待”越来越不耐烦；另一方面，也会追求拍出好看和预期的照片。

但是，现有的摄像工作都需要有人直接参与操作控制，还需要用户时刻盯着屏幕才能抓拍得到好看和预期的照片，注意力稍有分散就可能错过抓拍，很容易错过精彩瞬间，而且对用户在摄像技术上的要求也很高，不然抓拍的照片清晰度不够，耗时长、用户体验低。

发明内容

基于此，有必要针对现有技术的不足，提供一种无需人为控制、能在视频拍摄中自动抓拍精彩图片的应用于视频拍摄的抓拍方法及系统、摄像机及存储介质。

为解决上述技术问题，本发明采用以下技术方案：

本发明提供了一种应用于视频拍摄的抓拍方法，其包括如下步骤：

步骤S110、实时检测视频拍摄影像；

步骤S120、获取当前帧图片中拍摄主体的人像边界框，其中，所述人像边界框为人体边界框和/或人脸边界框；

步骤S130、若基于深度卷积神经网络根据所述人体边界框判断出当前帧图片满足预设动作抓拍条件和/或基于深度卷积神经网络根据人脸边界框判断出当前帧图片满足预设表情抓拍条件，则进行实时抓拍。

第二方面，本发明提供了一种应用于视频拍摄的抓拍系统，其包括：

影像检测模块，用于实时检测视频拍摄影像；

人像边界框获取模块，用于获取当前帧图片中拍摄主体的人像边界框，其中，所述人像边界框为人体边界框和/或人脸边界框；

判断模块，用于基于深度卷积神经网络根据所述人体边界框判断当前帧图片是否满足预设动作抓拍条件和/或基于深度卷积神经网络根据人脸边界框判断当前帧图片是否满足预设表情抓拍条件；

抓拍模块，用于若判断模块判断出当前帧图片满足预设动作抓拍条件和/或判断出当前帧图片满足预设表情抓拍条件，则进行实时抓拍。

第三方面，本发明提供了一种摄像机，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的应用于视频拍摄的抓拍方法。

第四方面，本发明提供了一种存储介质，其存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被执行时实现上述的应用于视频拍摄的抓拍方法。

综上所述，本发明提供的一种应用于视频拍摄的抓拍方法及系统、摄像机及存储介质通过深度卷积神经网络计算视频拍摄影像内的预置帧数图片的动作精彩程度概率值及特殊表情概率值，通过前后帧图片的的概率值均值来判断当前帧图片是否满足预设动作抓拍条件或预设表情抓拍条件，从而实现实时抓拍出精彩照片的效果，无需人为控制也能自动拍摄出精彩的照片，大大降低了人为操作上的繁琐性及不确定性，提高了抓拍准确性和用户体验度。

附图说明

图1为本发明实施例提供的第一种应用于视频拍摄的抓拍方法的流程示意图。

图2为本发明实施例基于深度卷积神经网络视频拍摄影像内的图片的动作精彩程度概率值均值构成的曲线函数。

图3为本发明实施例基于深度卷积神经网络视频拍摄影像内的图片的特殊表情概率值均值构成的曲线函数。

图4为本发明实施例提供的第二种应用于视频拍摄的抓拍方法的流程示意图。

图5为本发明实施例提供的第三种应用于视频拍摄的抓拍方法的流程示意图。

图6为本发明实施例提供的第四种应用于视频拍摄的抓拍方法的流程示意图。

图7为本发明实施例提供的一种优选的应用于视频拍摄的抓拍方法的流程示意图。

图8为本发明实施例提供的第一种应用于视频拍摄的抓拍系统的结构框图。

图9为本发明实施例提供的第二种应用于视频拍摄的抓拍系统的结构框图。

图10为本发明实施例提供的第三种应用于视频拍摄的抓拍系统的结构框图。

图11为本发明实施例提供的第四种应用于视频拍摄的抓拍系统的结构框图。

图12为本发明实施例提供的一种摄像机的结构框图。

具体实施方式

为能进一步了解本发明的特征、技术手段以及所达到的具体目的、功能，下面结合附图与具体实施方式对本发明作进一步详细描述。

图1是本发明实施例提供的第一种应用于视频拍摄的抓拍方法的流程示意图，如图1所示，该应用于视频拍摄的抓拍方法，包括步骤S110-步骤S130，具体如下：

步骤S110、实时检测视频拍摄影像。

步骤S120、获取当前帧图片中拍摄主体的人像边界框(bounding-box)，其中，所述人像边界框为人体边界框和/或人脸边界框。

实时检测摄像机的视频拍摄影像中的每一帧图片，当图片中出现拍摄主体时，获取当前帧图片中拍摄主体的人体边界框和/或人脸边界框。

步骤130、若基于深度卷积神经网络根据所述人体边界框判断出当前帧图片满足预设动作抓拍条件和/或基于深度卷积神经网络根据人脸边界框判断出当前帧图片满足预设表情抓拍条件，则进行实时抓拍。

本实施例提供的应用于视频拍摄的抓拍方法通过深度卷积神经网络根据所述人体边界框判断当前帧图片是否满足预设动作抓拍条件和/或根据人脸边界框判断当前帧图片是否满足预设表情抓拍条件，当满足预设抓拍条件时，进行实时抓拍，基于深度卷积神经网络来判断是否满足预设抓拍条件有利于提高抓拍的准确性，达到抓拍出精彩照片的效果，无需人为控制也能自动拍摄出精彩的照片，大大降低了人为操作上的繁琐性及不确定性，大大提高了用户体验度。

在一个实施例中，所述基于深度卷积神经网络根据所述人体边界框判断出当前帧图片满足预设动作抓拍条件包括：

基于深度卷积神经网络计算所述人体边界框的动作精彩程度概率值；

计算所述人体边界框的动作精彩程度概率值与前预置帧数图片的人体边界框的动作精彩程度概率值的均值得到当前帧图片的动作精彩程度概率值均值；其中，前预置帧数图片为视频拍摄影像内在当前帧图片之前的预置时间段T内的图片；

若所述当前帧图片的动作精彩程度概率值均值大于等于第一预置动作精彩程度概率值，同时所述当前帧图片的动作精彩程度概率值均值大于等于前预置帧数图片的动作精彩程度概率值均值，且在前预置帧数图片内存在图片的动作精彩程度概率值均值小于等于第二预置动作精彩程度概率值，则判断出当前帧图片满足预设动作抓拍条件。

具体地，基于深度卷积神经网络视频拍摄影像内的图片的动作精彩程度概率值均值构成曲线函数F(t)，如图2所示，设定当前帧图片的动作精彩程度概率值均值为Ft、第一预置动作精彩程度概率值F1及第二预置动作精彩程度概率值F2，此时，若所述当前帧图片的动作精彩程度概率值均值Ft大于等于第一预置动作精彩程度概率值F1，同时所述当前帧图片的动作精彩程度概率值均值Ft大于等于前预置帧数图片的动作精彩程度概率值均值，且在前预置帧数图片内存在图片的动作精彩程度概率值均值小于等于第二预置动作精彩程度概率值F2，则判断出当前帧图片满足预设动作抓拍条件；其中，前预置帧数图片为视频拍摄影像内在当前帧图片之前的预置时间段T内的图片，即曲线函数F(t)在预置时间段T内，当前帧图片的动作精彩程度概率值均值Ft为最大值，在前预置帧数图片的动作精彩程度概率值均值的最小值Fmin小于等于第二预置动作精彩程度概率值F2。

本实施例中，当前帧图片的动作精彩程度概率值均值Ft大于等于第一预置动作精彩程度概率值F1，说明人物动作属于夸张动作，也即说明人物动作比较特别；当前帧图片的动作精彩程度概率值均值Ft大于等于前预置帧数图片的动作精彩程度概率值均值，且在前预置帧数图片内存在图片的动作精彩程度概率值均值小于等于第二预置动作精彩程度概率值F2，说明当前帧图片的动作是一从无到有的动作，而且与前预置帧数图片比较其动作精彩程度概率值均值为最高值，则认为当前时刻为精彩时刻，进行抓拍。

在一个实施例中，所述基于深度卷积神经网络根据所述人体边界框判断出当前帧图片满足预设表情抓拍条件包括：

基于深度卷积神经网络计算所述人脸边界框的特殊表情概率值；

计算所述人脸边界框的特殊表情概率值与前预置帧数图片的人脸边界框的特殊表情概率值的均值得到当前帧图片的特殊表情概率值均值；其中，前预置帧数图片为视频拍摄影像内在当前帧图片之前的预置时间段T内的图片；

若所述当前帧图片的特殊表情概率值均值大于等于第一预置特殊表情概率值，同时所述当前帧图片的特殊表情概率值均值大于等于前预置帧数图片的特殊表情概率值均值，且在前预置帧数图片内存在图片的特殊表情概率值均值小于等于第二预置特殊表情概率值，则判断出当前帧图片满足预设表情抓拍条件。

具体地，基于深度卷积神经网络视频拍摄影像内的图片的特殊表情概率值均值构成曲线函数f(t)，如图3所示，设定当前帧图片的特殊表情概率值均值为ft、第一预置特殊表情概率值f1及第二预置特殊表情概率值f2，此时，若所述当前帧图片的特殊表情概率值均值ft大于等于第一预置特殊表情概率值f1，同时所述当前帧图片的特殊表情概率值均值ft大于等于前预置帧数图片的特殊表情概率值均值，且在前预置帧数图片内存在图片的特殊表情概率值均值小于等于第二预置特殊表情概率值f2，则判断出当前帧图片满足预设表情抓拍条件；其中，前预置帧数图片为视频拍摄影像内在当前帧图片之前的预置时间段T内的图片，即曲线函数f(t)在预置时间段T内，当前帧图片的特殊表情概率值均值ft为最大值，在前预置帧数图片的特殊表情概率值均值的最小值fmin小于等于第二预置特殊表情概率值f2。

本实施例中，当前帧图片的特殊表情概率值均值ft大于等于第一预置特殊表情概率值f1，说明人物表情属于特殊表情，也即说明人物表情比较特别，；当前帧图片的特殊表情概率值均值ft大于等于前预置帧数图片的特殊表情概率值均值，且在前预置帧数图片内存在图片的特殊表情概率值均值小于等于第二预置特殊表情概率值f2，说明当前帧图片的表情是一从无到有的过程，而且与前预置帧数图片比较其特殊表情概率值均值为最高值，则认为当前时刻为精彩时刻，进行抓拍。

本实施例基于深度卷积神经网络计算人体边界框的动作精彩程度概率值和/或人脸边界框的特殊表情概率值时，仅需要对视频拍摄影像内的预置帧数图片进行概率值计算，通过前后帧图片的的概率值均值来达到判断出当前帧图片满足预设动作抓拍条件或预设表情抓拍条件的目的，这样可以在动作或表情最为精彩的时刻进行自动抓拍，有利于提高抓拍的准确性，无需人为控制就能自动拍摄出精彩的照片，大大降低了人为操作上的繁琐性及不确定性，大大提高了用户体验度。

获取人体边界框的动作精彩程度概率值和/或人脸边界框的特殊表情概率值，深度卷积神经网络通过计算视频拍摄影像内的预置帧数图片的动作精彩程度概率值及特殊表情概率值，可以处理帧数图片内任意数量的拍摄主体。

图4是本发明实施例提供的第二种应用于视频拍摄的抓拍方法的流程示意图，如图4所示，所述步骤S130之后还包括：

步骤S140、休眠预置时间，即在进行实时抓拍后休眠预置时间。

本实施例中，休眠预置时间为在进行实时抓拍后的预置时间内摄像机依然进行视频拍摄，但是不对视频拍摄影像内的每一帧图片进行抓拍分析，这样避免摄像机抓拍多张一样的图片，节约摄像机的内存空间。

本实施例提供的应用于视频拍摄的抓拍方法实现了在无人摄影中对摄像机的自动控制，通过深度卷积神经网络计算视频拍摄影像内的预置帧数图片的动作精彩程度概率值及特殊表情概率值，通过判断前后帧图片的的概率值均值来达到判断出当前帧图片是否满足预设动作抓拍条件或预设表情抓拍条件，从而实现实时抓拍出精彩照片的效果。

图5是本发明实施例提供的第三种应用于视频拍摄的抓拍方法的流程示意图，如图5所示，所述步骤S130前还包括：

步骤S100、对深度卷积神经网络进行训练，以使深度卷积神经网络能判断图片是否满足预设动作抓拍条件和预设表情抓拍条件。

其中，步骤S100、对深度卷积神经网络进行训练，包括步骤S100a、对深度卷积神经网络进行动作抓拍训练及步骤S100b、对深度卷积神经网络进行表情抓拍训练，从而得到训练好的深度卷积神经网络。

在一个实施例中，步骤S100a、对深度卷积神经网络进行动作抓拍训练包括：

步骤S101a、构建动作图片集；

步骤S102a、获取动作图片集中的图片的动作精彩程度标签值，所述动作精彩程度标签值由人工标定，若判断为普通动作则标定为0，若判断为特殊动作则标定为1；

步骤S103a、使用深度卷积神经网络计算图片的动作精彩程度概率值；

步骤S104a、将步骤S103a动作精彩程度概率值与步骤S102a的动作精彩程度标签值进行欧几里得距离损失计算，并将计算结果使用反向传播算法对深度卷积神经网络的参数进行调节；

步骤S105a、对动作图片集中的每一张图片不断重复步骤S101a-步骤S104a，直到计算的欧几里得距离损失不再下降时，结束对深度卷积神经网络的动作抓拍训练。

其中，步骤S101a中动作图片集采集的人物年龄分布在0～60岁，采集的人物中男女性别比例为1：1，其中，为了动作图片集中获取的人体动作具有多样性，让人物在动作图片中展现出姿态各异的人体动作、以及相互遮挡的人体动作、或被其它障碍物遮挡的人体动作，以进行模拟；最后检测出动作图片中每个人物的人体边界框，并获取动作图片中每个人物的人体边界框。

步骤S102a中特殊动作的人体动作包括上肢动作、上体动作、下肢动作、瑜伽动作、综合动作，其中，上肢为肘部、臂等部位，上肢动作包括一条或两条前臂抬起挥手、单边或双边肘部弯曲叉腰、单臂或双臂抬起过顶、单臂或双臂举至胸前同时掌心朝下或握拳动作等；上体为人体上半身躯干，上体动作包括由腰部肌肉带起的左右及前后扭曲动作、配合上肢的左右侧举扭曲动作、配合上肢的前后伸缩摆动动作；下肢为臀部、股部、膝部、小腿部等部位，下肢动作包括并拢腿部的屈膝、岔开腿部的屈膝、单边抬腿动作(包括侧抬及前后抬)、单边踢腿动作(包括侧踢及前后踢)、下蹲动作(包括半蹲扎马步动作、整体下蹲不踮脚动作、整体下蹲踮脚动作)、侧边顶胯动作；综合动作包括身体下肢弯曲呈跳跃动作、身体下肢直立成跳跃动作、“大”字动作、正面及侧面下腰动作、坐姿状态下跷二郎腿动作、正面及侧面劈叉动作、平板支撑(双脚踩地、一脚脚踩地、一脚抬起姿势)、俯卧撑、仰卧起坐；瑜伽动作包括坐姿(半莲花坐、莲花坐、至善坐、雷电坐)、山式站立、跪立(臀部不在脚跟上)、跪坐(臀部放在脚跟上)、四角式(也称四角板凳跪)、三角式、山式、树式、风吹树式、铲斗式、钟摆式、站立伸展式、直角式、双角式、摩天式、腰转动式、幻椅式、三角伸展式、磨豆功、滚动式、半鱼王式、牛面式扭背伸展式、蝴蝶式、后支撑式、鸭行式、劈柴式、花环式、半侧式、半月式、鸵鸟式、前屈伸展式、束角式、转躯触趾式等常规瑜伽动作。

在一个实施例中，步骤S100b、对深度卷积神经网络进行表情抓拍训练包括：

步骤S101b、构建表情图片集；

步骤S102b、获取表情图片集中的图片的特殊表情标签值；所述特殊表情标签值由人工标定，若判断为普通表情则标定为0，若判断为特殊表情则标定为1；

步骤S103b、使用深度卷积神经网络计算图片的特殊表情概率值；

步骤S104b、将步骤S103b特殊表情概率值与步骤S102b的特殊表情标签值进行欧几里得距离损失计算，并将计算结果使用反向传播算法对深度卷积神经网络的参数进行调节；

步骤S105b、对表情图片集中的每一张图片不断重复步骤S101b-步骤S104b，直到计算的欧几里得距离损失不再下降时，结束对深度卷积神经网络的特殊表情抓拍训练。

其中，步骤S101b中动作图片集采集的人物年龄分布在0～60岁，采集的人物中男女性别比例为1：1，其中，为了获取的人脸表情具有多样性，让人物的人脸在动作图片中展现出形态各异的表情，以进行模拟；最后检测出动作图片中每个人物的人脸边界框，并获取动作图片中每个人物的人脸边界框。

步骤S102a中特殊表情的人脸表情包括愤怒、厌恶、恐惧、悲伤、惊讶、轻蔑、鬼脸等等，例如：愤怒的人脸表情特征包括眉毛下垂，前额紧皱，眼睑和嘴唇紧张；厌恶的人脸表情特征包括嗤鼻，上嘴唇上抬，眉毛下垂，眯眼；恐惧的人脸表情特征包括嘴巴和眼睛张开，眉毛上扬，鼻孔张大；悲伤的人脸表情特征包括眯眼，眉毛收紧，嘴角下拉，下巴抬起或收紧；惊讶的人脸表情特征包括下颚下垂，嘴唇和嘴巴放松，眼睛张大，眼睑和眉毛微抬；轻蔑人脸表情特征包括嘴角一侧抬起，作讥笑或得意笑状；鬼脸的人脸表情特征包括吐舌，眼睛张大等。

本实施通过对深度卷积神经网络进行动作抓拍训练和表情抓拍训练，使得深度卷积神经网路能快速计算出图片中人物动作的动作精彩程度概率值和人物表情的特殊表情概率值，从而能快速判断当前帧图片是否满足预设动作抓拍条件和/或预设表情抓拍条件，当满足条件时，表明当前为精彩时刻，进行抓拍，得到精彩的图片，更为智能化，有利于提高抓拍准确性和用户体验。

图6是本发明实施例提供的第四种应用于视频拍摄的抓拍方法的流程示意图，如图6所示，所述步骤S130之后还包括：

步骤S150、判断视频拍摄影像行为是否已终止，若是，执行步骤S160；若否，返回执行步骤S110。

步骤S160、输出抓拍的图片。

本实施例当视频拍摄影像行为已终止时，将存储在摄像机内的实时抓拍的图片显示在用户端，方便用户查看抓拍的图片，有利于提高用户体验。其中，用户端为与摄像机连接的电子设备或摄像机显示屏。

如图7所示，为了更加清晰本发明的技术方案，下面再阐述优选实施例。

步骤S100、对深度卷积神经网络进行训练。

步骤S110、实时检测视频拍摄影像。

步骤S120、获取当前帧图片中拍摄主体的人像边界框，其中，所述人像边界框为人体边界框和/或人脸边界框。

步骤S140、休眠预置时间。

步骤S160、输出抓拍的图片。

在现有技术中因为人体动作的变化、人体位置的随机性及人体被遮挡等因素，很难对人体动作进行判断，同时，因为人脸表情的千变万化的，有时候人脸表情稍纵即逝，不及时抓拍也会留下遗憾，而本实施例不需要人为对摄像机进行操作，直接通过训练好的深度卷积神经网络来计算视频拍摄影像内的预置帧数图片的动作精彩程度概率值及特殊表情概率值，通过判断前后帧图片的的概率值均值来达到判断出当前帧图片是否满足预设动作抓拍条件或预设表情抓拍条件，从而实现实时抓拍出精彩照片的效果。

图8是本发明实施例提供的一种应用于视频拍摄的抓拍系统的结构框图，如图8所示，对应于上述应用于视频拍摄的抓拍方法，本发明还提供一种应用于视频拍摄的抓拍系统，该应用于视频拍摄的抓拍系统包括用于执行上述应用于视频拍摄的抓拍方法的模块，该系统可以被配置于摄像机等拍摄终端，本发明提供应用于视频拍摄的抓拍系统，通过深度卷积神经网络计算视频拍摄影像内的预置帧数图片的动作精彩程度概率值及特殊表情概率值，通过判断前后帧图片的的概率值均值来达到判断出当前帧图片是否满足预设动作抓拍条件或预设表情抓拍条件，从而实现实时抓拍出精彩照片的效果，无需人为控制也能自动拍摄出精彩的照片，大大降低了人为操作上的繁琐性及不确定性，抓拍准确，大大提高了用户体验度。

具体地，请参考图8，该应用于视频拍摄的抓拍系统包括影像检测模块10、人像边界框获取模块20、判断模块30及抓拍模块40。

影像检测模块10，用于实时检测视频拍摄影像；

人像边界框获取模块20，用于获取当前帧图片中拍摄主体的人像边界框，其中，所述人像边界框为人体边界框和/或人脸边界框；

判断模块30，用于基于深度卷积神经网络根据所述人体边界框判断当前帧图片是否满足预设动作抓拍条件和/或基于深度卷积神经网络根据人脸边界框判断当前帧图片是否满足预设表情抓拍条件；

抓拍模块40，用于若判断模块判断出当前帧图片满足预设动作抓拍条件和/或判断出当前帧图片满足预设表情抓拍条件，则进行实时抓拍。

图9是本发明实施例提供的第二种应用于视频拍摄的抓拍系统的结构框图。如图9所示，本实施例提供的应用于视频拍摄的抓拍系统是在上述应用于视频拍摄的抓拍系统的基础上增加了休眠模块50，所述休眠模块50用于在抓拍模块实时抓拍图片之后休眠预置时间。

图10是本发明实施例提供的第三种应用于视频拍摄的抓拍系统的结构框图。如图10所示，本实施例提供的应用于视频拍摄的抓拍系统是在上述应用于视频拍摄的抓拍系统的基础上增加了判断视频拍摄行为模块60及输出模块70，用于判断视频拍摄影像行为是否已终止，若是，则发送信号给影像检测模块10，影像检测模块10继续实时检测视频拍摄影像；若否，则发送信号给输出模块70，所述输出模块70用于输出抓拍的图片。

图11是本发明实施例提供的第四种应用于视频拍摄的抓拍系统的结构框图。如图11所示，本实施例提供的应用于视频拍摄的抓拍系统是在上述应用于视频拍摄的抓拍系统的基础上增加了神经网络训练模块80，所述神经网络训练模块80用于对深度卷积神经网络进行动作抓拍训练及对深度卷积神经网络进行表情抓拍训练，从而得到训练好的深度卷积神经网络。

若神经网络训练模块80对深度卷积神经网络进行动作抓拍训练，具体用于执行如下步骤：

步骤S101a、构建动作图片集；

若神经网络训练模块80对深度卷积神经网络进行表情抓拍训练，具体用于执行如下步骤：

步骤S101b、构建表情图片集；

需要说明的是，所属领域的技术人员可以清楚地了解到，上述应用于视频拍摄的抓拍系统和各模块的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

图12是本发明实施例提供的一种摄像机的内部结构框图，如图12所示，本发明提供的摄像机包括通过系统总线连接的通过系统总线连接的存储器、处理器及网络接口；所述存储器上存储有计算机程序，所述处理器用于提供计算和控制能力，以支撑整个摄像机的运行，所述处理器执行所述计算机程序时实现上述的一种应用于视频拍摄的抓拍方法。

存储器可以包括非易失性存储介质和内存储器，该非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现应用于视频拍摄的抓拍方法。

该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行应用于视频拍摄的抓拍方法。该网络接口用于与其它设备进行网络通信。本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其他的摄像机的限定，具体的摄像机可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的应用于视频拍摄的抓拍方法可实现为一种计算机程序的方式，计算机程序可以在如图12所示的摄像机上运行。摄像机的存储器中可存储组成该应用于视频拍摄的抓拍系统的各个程序模块，比如，图8所示的影像检测模块10、人像边界框获取模块20、判断模块30及抓拍模块40。各个程序模块构成的计算机程序使得处理器执行本说明中描述的本申请各个实施例的应用于视频拍摄的抓拍系统的步骤。例如，图12所示的摄像机可以通过如图8所示的应用于视频拍摄的抓拍系统中的影像检测模块10实时检测视频拍摄影像；通过人像边界框20获取模块获取当前帧图片中拍摄主体的人体边界框和/或人脸边界框；通过判断模块30基于深度卷积神经网络根据所述人体边界框判断当前帧图片是否满足预设动作抓拍条件和/或基于深度卷积神经网络根据人脸边界框判断当前帧图片是否满足预设表情抓拍条件；若判断模块判断出当前帧图片满足预设动作抓拍条件和/或判断出当前帧图片满足预设表情抓拍条件，则通过抓拍模块40进行实时抓拍。

在一个实施例中，提出了一种摄像机，包括存储器和处理器，所述存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：步骤S110、实时检测视频拍摄影像；步骤S120、获取当前帧图片中拍摄主体的人像边界框，其中，所述人像边界框为人体边界框和/或人脸边界框；步骤S130、若基于深度卷积神经网络根据所述人体边界框判断出当前帧图片满足预设动作抓拍条件和/或基于深度卷积神经网络根据人脸边界框判断出当前帧图片满足预设表情抓拍条件，则进行实时抓拍。

在一个实施例中，所述处理器在执行所述步骤S130、若基于深度卷积神经网络根据所述人体边界框判断出当前帧图片满足预设动作抓拍条件和/或基于深度卷积神经网络根据人脸边界框判断出当前帧图片满足预设表情抓拍条件，则进行实时抓拍之后，还用于执行以下步骤：步骤S140、休眠预置时间，在进行实时抓拍后休眠一预置时间。

在一个实施例中，所述处理器在执行所述步骤S130、若基于深度卷积神经网络根据所述人体边界框判断出当前帧图片满足预设动作抓拍条件和/或基于深度卷积神经网络根据人脸边界框判断出当前帧图片满足预设表情抓拍条件，则进行实时抓拍之后，还用于执行以下步骤：步骤S150、判断视频拍摄影像行为是否已终止，若是，执行步骤S160；若否，返回执行步骤S110；步骤S160、输出抓拍的图片。

在其中一实施例中，所述处理器在执行所述步骤S130、若基于深度卷积神经网络根据所述人体边界框判断出当前帧图片满足预设动作抓拍条件和/或基于深度卷积神经网络根据人脸边界框判断出当前帧图片满足预设表情抓拍条件，则进行实时抓拍之前，还用于执行以下步骤：步骤S100、对深度卷积神经网络进行训练，以使深度卷积神经网络能判断图片是否满足预设动作抓拍条件和预设表情抓拍条件。

处理器在实现所述步骤S100、对深度卷积神经网络进行训练的步骤时，具体实现如下步骤：步骤S100a、对深度卷积神经网络进行动作抓拍训练及步骤S100b、对深度卷积神经网络进行表情抓拍训练。

在一个实施例中，处理器在实现所述步骤S100a、对深度卷积神经网络进行动作抓拍训练的步骤时，具体实现如下步骤：步骤S101a、构建动作图片集；步骤S102a、获取动作图片集中的图片的动作精彩程度标签值，所述动作精彩程度标签值由人工标定，若判断为普通动作则标定为0，若判断为特殊动作则标定为1；步骤S103a、使用深度卷积神经网络计算图片的动作精彩程度概率值；步骤S104a、将步骤S103a动作精彩程度概率值与步骤S102a的动作精彩程度标签值进行欧几里得距离损失计算，并将计算结果使用反向传播算法对深度卷积神经网络的参数进行调节；步骤S105a、对动作图片集中的每一张图片不断重复步骤S101a-步骤S104a，直到计算的欧几里得距离损失不再下降时，结束对深度卷积神经网络的动作抓拍训练。

在一个实施例中，处理器在实现所述步骤S100b、对深度卷积神经网络进行表情抓拍训练的步骤时，具体实现如下步骤：步骤S101b、构建表情图片集；步骤S102b、获取表情图片集中的图片的特殊表情标签值；所述特殊表情标签值由人工标定，若判断为普通表情则标定为0，若判断为特殊表情则标定为1；步骤S103b、使用深度卷积神经网络计算图片的特殊表情概率值；步骤S104b、将步骤S103b特殊表情概率值与步骤S102b的特殊表情标签值进行欧几里得距离损失计算，并将计算结果使用反向传播算法对深度卷积神经网络的参数进行调节；步骤S105b、对表情图片集中的每一张图片不断重复步骤S101b-步骤S104b，直到计算的欧几里得距离损失不再下降时，结束对深度卷积神经网络的特殊表情抓拍训练。

应当理解，在本申请实施例中，处理器可以是中央处理单元(Central ProcessingUnit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤：步骤S110、实时检测视频拍摄影像；步骤S120、获取当前帧图片中拍摄主体的人像边界框，其中，所述人像边界框为人体边界框和/或人脸边界框；步骤S130、若基于深度卷积神经网络根据所述人体边界框判断出当前帧图片满足预设动作抓拍条件和/或基于深度卷积神经网络根据人脸边界框判断出当前帧图片满足预设表情抓拍条件，则进行实时抓拍。

在一个实施例中，所述处理器在执行所述程序指令而实现实时抓拍之后，还实现如下步骤：休眠预置时间，即在进行实时抓拍后休眠预置时间。

在一个实施例中，所述处理器在执行所述程序指令而实现实时抓拍之后，还实现如下步骤：判断视频拍摄影像行为是否已终止，若是，输出实时抓拍的图片；若否，实时检测视频拍摄影像。

在一个实施例中，所述处理器在执行所述程序指令而实现实时抓拍之前，还实现如下步骤：对深度卷积神经网络进行训练，其中，对深度卷积神经网络进行训练，包括对深度卷积神经网络进行动作抓拍训练及对深度卷积神经网络进行表情抓拍训练。

在一个实施例中，所述处理器在执行所述程序指令对深度卷积神经网络进行动作抓拍训练的步骤时，具体实现如下步骤：步骤S101a、构建动作图片集；步骤S102a、获取动作图片集中的图片的动作精彩程度标签值，所述动作精彩程度标签值由人工标定，若判断为普通动作则标定为0，若判断为特殊动作则标定为1；步骤S103a、使用深度卷积神经网络计算图片的动作精彩程度概率值；步骤S104a、将步骤S103a动作精彩程度概率值与步骤S102a的动作精彩程度标签值进行欧几里得距离损失计算，并将计算结果使用反向传播算法对深度卷积神经网络的参数进行调节；步骤S105a、对动作图片集中的每一张图片不断重复步骤S101a-步骤S104a，直到计算的欧几里得距离损失不再下降时，结束对深度卷积神经网络的动作抓拍训练。

在一个实施例中，所述处理器在执行所述程序指令对深度卷积神经网络进行表情抓拍训练的步骤时，具体实现如下步骤：步骤S101b、构建表情图片集；步骤S102b、获取表情图片集中的图片的特殊表情标签值；所述特殊表情标签值由人工标定，若判断为普通表情则标定为0，若判断为特殊表情则标定为1；步骤S103b、使用深度卷积神经网络计算图片的特殊表情概率值；步骤S104b、将步骤S103b特殊表情概率值与步骤S102b的特殊表情标签值进行欧几里得距离损失计算，并将计算结果使用反向传播算法对深度卷积神经网络的参数进行调节；步骤S105b、对表情图片集中的每一张图片不断重复步骤S101b-步骤S104b，直到计算的欧几里得距离损失不再下降时，结束对深度卷积神经网络的特殊表情抓拍训练。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

综上所述，本发明一种应用于视频拍摄的抓拍方法及系统、摄像机及存储介质通过深度卷积神经网络计算视频拍摄影像内的预置帧数图片的动作精彩程度概率值及特殊表情概率值，通过判断前后帧图片的的概率值均值来达到判断出当前帧图片是否满足预设动作抓拍条件或预设表情抓拍条件，从而实现实时抓拍出精彩照片的效果，无需人为控制也能自动拍摄出精彩的照片，大大降低了人为操作上的繁琐性及不确定性，抓拍准确，大大提高了用户体验度。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种应用于视频拍摄的抓拍方法，其特征在于，包括如下步骤：

步骤S110、实时检测视频拍摄影像；

步骤S130、若基于深度卷积神经网络根据所述人体边界框判断出当前帧图片满足预设动作抓拍条件和/或基于深度卷积神经网络根据人脸边界框判断出当前帧图片满足预设表情抓拍条件，则进行实时抓拍；

其中；所述基于深度卷积神经网络根据所述人体边界框判断出当前图片帧满足预设动作抓拍条件包括：

计算所述人体边界框的动作精彩程度概率值与前预置帧数图片的人体边界框的动作精彩程度概率值的均值得到当前帧图片的动作精彩程度概率值均值；其中，前预置帧数图片为视频拍摄影像内在当前帧图片之前的预置时间段内的图片；

若所述当前帧图片的动作精彩程度概率值均值大于等于第一预置动作精彩程度概率值，同时所述当前帧图片的动作精彩程度概率值均值大于等于前预置帧数图片的动作精彩程度概率值均值，且在前预置帧数图片内存在图片的动作精彩程度概率值均值小于等于第二预置动作精彩程度概率值，则判断出当前帧图片满足预设动作抓拍条件；

其中，所述基于深度卷积神经网络根据人脸边界框判断出当前帧图片满足预设表情抓拍条件包括：

计算所述人脸边界框的特殊表情概率值与前预置帧数图片的人脸边界框的特殊表情概率值的均值得到当前帧图片的特殊表情概率值均值；其中，前预置帧数图片为视频拍摄影像内在当前帧图片之前的预置时间段内的图片；

2.根据权利要求1所述的应用于视频拍摄的抓拍方法，其特征在于，所述步骤S130之后还包括步骤：

步骤S140、休眠预置时间。

3.根据权利要求1所述的应用于视频拍摄的抓拍方法，其特征在于，所述步骤S130之前还包括步骤：

4.根据权利要求1所述的应用于视频拍摄的抓拍方法，其特征在于，所述步骤S130之后还包括：

步骤S150、判断视频拍摄行为是否已终止，若是，执行步骤S160；若否，返回执行步骤S110；

步骤S160、输出抓拍的图片。

5.一种应用于视频拍摄的抓拍系统，其特征在于，包括：

影像检测模块，用于实时检测视频拍摄影像；

人像边界框获取模块，用于获取当前帧图片中拍摄主体的人体边界框和/或人脸边界框；

抓拍模块，用于若判断模块判断出当前帧图片满足预设动作抓拍条件和/或判断出当前帧图片满足预设表情抓拍条件，则进行实时抓拍；

其中，所述判断模块具体用于：

所述判断模块还用于：基于深度卷积神经网络计算所述人脸边界框的特殊表情概率值；

6.根据权利要求5所述的应用于视频拍摄的抓拍系统，其特征在于，还包括休眠模块，用于在抓拍模块抓拍图片之后休眠预置时间。

7.一种摄像机，其特征在于，所述摄像机包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的应用于视频拍摄的抓拍方法。

8.一种存储介质，其特征在于：所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被执行时实现如权利要求1-4中任一项所述的应用于视频拍摄的抓拍方法。