CN112712006A

CN112712006A - 目标图片抓拍方法、系统、介质及装置

Info

Publication number: CN112712006A
Application number: CN202011564754.1A
Authority: CN
Inventors: 蔡明明; 刘盛中; 候永顺
Original assignee: Sichuan Yuncong Tianfu Artificial Intelligence Technology Co Ltd
Current assignee: Sichuan Yuncong Tianfu Artificial Intelligence Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-27

Abstract

本发明属于图像处理领域，具体涉及一种目标图片抓拍方法、系统、介质及装置。本发明旨在解决人工抓拍对摄像用户的摄像技术的要求较高，且很容易由于拍照技术较差的原因导致抓拍的照片不够清晰、耗费时间长等问题。为此，本发明通过先将视频流中的人像图片中任一目标人体的人像特征与预设人像特征进行匹配；进一步，当匹配成功的人像特征对应的目标人体在预设时间内的位置变化量在设定的位置变化量阈值范围内时，将包含该目标人体的人像图片确认为抓拍的目标图片。从而，当使用摄像机通过该方法进行抓拍时，无需拍摄者具有较高的摄像技术，即可完成满足人脸表情特征、人体姿态特征和清晰度要求的图片的拍摄工作。

Description

目标图片抓拍方法、系统、介质及装置

技术领域

本发明属于图像处理领域，具体涉及一种目标图片抓拍方法、系统、介质及装置。

背景技术

在人们的生活和工作中，通常需要对一些精彩瞬间进行抓拍，例如，对公园里面正在跑步的人、模特走秀时摆出的Pose以及舞蹈演员跳出的优雅舞姿进行抓拍。

目前，人们在用摄像机进行抓拍时都是通过人工操作，人们需要一直盯着显示器，以在某个精彩瞬间出现时进行抓拍。不仅需要耗费人大量的精力，而且也容易漏掉精彩的镜头。此外，人工抓拍对摄像用户的摄像技术的要求也很高，对于普通的摄像用户，很容易由于拍照技术不高的原因导致抓拍的照片不够清晰、耗费时间长等问题。

相应地，本领域需要一种改进的目标图片抓拍方法、系统、介质及装置来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分解决：人工抓拍对摄像用户的摄像技术的要求较高，且很容易由于拍照技术较差的原因导致抓拍的照片不够清晰、耗费时间长等问题。为解决上述技术问题，本发明提供了一种目标图片抓拍方法、系统、介质及装置。

第一方面，本发明提供了一种目标图片抓拍方法，所述方法包括：获取视频流中的人像图片；将所述人像图片中任一目标人体的人像特征与预设人像特征进行匹配；根据所述视频流计算与匹配成功的人像特征对应的目标人体在预设时间内的位置变化量；当所述位置变化量在设定的位置变化量阈值范围内时，将包含所述目标人体的人像图片确认为抓拍的目标图片。

作为本发明提供的上述方法的一种优选的技术方案，人像特征包括人脸表情特征和/或人体姿态特征，将所述人像图片中任一目标人体的人像特征与预设人像特征进行匹配的步骤，包括：将所述人像图片中的人脸表情特征与预设人脸表情特征进行匹配；以及/或者，将所述人像图片中的人体姿态特征与预设人体姿态特征进行匹配。

作为本发明提供的上述方法的一种优选的技术方案，将所述人像图片中的人像特征与预设人像特征进行匹配的步骤，包括：通过预先训练好的卷积神经网络模型将所述人像图片中的人像特征与预设人像特征进行匹配；所述卷积神经网络模型的输入为人像图片，输出为匹配成功的人像特征。

作为本发明提供的上述方法的一种优选的技术方案，所述卷积神经网络模型包括输入层、卷积层、池化层和全连接层；所述卷积神经网络模型的训练过程为：所述输入层接收经过预处理后得到的所有人像图片样本；其中，所述人像图片样本为包含人脸表情特征和/或人体姿态特征的图片样本；所述卷积层提取所述人像图片样本中的人像特征；所述池化层提取所述人像特征中的感兴趣区域；所述全连接层通过激活函数对所述感兴趣区域中的人脸表情特征和/或人体姿态特征进行分类并输出。

作为本发明提供的上述方法的一种优选的技术方案，所述卷积神经网络模型的训练过程还包括：所述池化层采用注意力模型引入注意力模块SGE，为每个所述人像特征添加注意力因子，以确定所述人像特征的感兴趣区域；所述全连接层采用小波变换函数对所述感兴趣区域进行滤波处理，然后再采用激活函数在所述感兴趣区域中提取人脸表情特征和/或人体姿态特征。

作为本发明提供的上述方法的一种优选的技术方案，所述激活函数包括Sigmod、Tanh、RELU、leaky ReLU和maxout中的任一种。

作为本发明提供的上述方法的一种优选的技术方案，在将所述人像图片中的人像特征与预设人像特征进行匹配时，使用的算法包括CNN、Gabor小波变换和SAE中的至少一种。

作为本发明提供的上述方法的一种优选的技术方案，根据所述视频流计算与匹配成功的人像特征对应的目标人体在预设时间内的位置变化量的步骤，包括：获取匹配成功的人像特征中预设数量的连续的多个时间切片，计算多个时间切片之间各人像关键点的位置变化量，作为相应的人像特征的位置变化量。

作为本发明提供的上述方法的一种优选的技术方案，将包含匹配成功的人像特征的人像图片确认为抓拍的目标图片的步骤，包括：在连续的多个时间切片中选择一个作为所述目标图片。

作为本发明提供的上述方法的一种优选的技术方案，在将所述人像图片中的人像特征与预设人像特征进行匹配的步骤之前，所述方法还包括：对所述人像图片进行预处理；所述预处理包括人像检测、图片增强以及通过人像关键点进行对齐校准。

第二方面，本发明还提供了一种目标图片抓拍系统，所述系统包括：获取模块，用于获取视频流中的人像图片；匹配模块，用于将所述人像图片中任一目标人体的人像特征与预设人像特征进行匹配；计算模块，用于根据所述视频流计算与匹配成功的人像特征对应的目标人体在预设时间内的位置变化量；确认模块，用于当所述位置变化量在设定的位置变化量阈值范围内时，将包含所述目标人体的人像图片确认为抓拍的目标图片。

获取模块，用于获取视频流中的人像图片；匹配模块，用于将所述人像图片中的人像特征与预设人像特征进行匹配；计算模块，用于计算匹配成功的人像特征在预设时间内的位置变化量；确认模块，用于当匹配成功的人像特征在预设时间内的位置变化量在设定的位置变化量阈值范围内时，将包含匹配成功的人像特征的人像图片确认为抓拍的目标图片。

作为本发明提供的上述系统的一种优选的技术方案，所述匹配模块具体用于：将所述人像图片中的人脸表情特征与预设人脸表情特征进行匹配；以及/或者，将所述人像图片中的人体姿态特征与预设人体姿态特征进行匹配。

作为本发明提供的上述系统的一种优选的技术方案，所述匹配模块具体用于：通过预先训练好的卷积神经网络模型将所述人像图片中的人像特征与预设人像特征进行匹配；所述卷积神经网络模型的输入为人像图片，输出为匹配成功的人像特征。

作为本发明提供的上述系统的一种优选的技术方案，所述卷积神经网络模型包括输入层、卷积层、池化层和全连接层；所述卷积神经网络模型的训练过程为：所述输入层接收经过预处理后得到的所有人像图片样本；其中，所述人像图片样本为包含人脸表情特征和/或人体姿态特征的图片样本；所述卷积层提取所述人像图片样本中的人像特征；所述池化层提取所述人像特征中的感兴趣区域；所述全连接层通过激活函数对所述感兴趣区域中的人脸表情特征和/或人体姿态特征进行分类并输出。

第三方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述任一技术方案中的目标图片抓拍方法。

第四方面，本发明还提供了一种目标图片抓拍装置，包括处理器和存储装置，所述存储装置中存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述任一技术方案中的目标图片抓拍方法。

本发明提供的目标图片抓拍方法、系统、介质及装置，通过先将视频流中的人像图片中任一目标人体的人像特征与预设人像特征进行匹配，以捕捉到拍摄者期望的人像特征；进一步，当匹配成功的人像特征对应的目标人体在预设时间内的位置变化量在设定的位置变化量阈值范围内时，则表明该人像特征符合抓拍的时间或清晰度要求，如此可将包含该目标人体的人像图片确认为抓拍的目标图片。从而，当使用摄像机通过该方法进行抓拍时，无需拍摄者具有较高的摄像技术，即可完成满足人脸表情特征、人体姿态特征和清晰度要求的图片的拍摄工作。

此外，本发明提供的目标图片抓拍方法、系统、介质及装置，通过获取匹配成功的人像特征中预设数量的连续的多个时间切片，计算多个时间切片之间各人像关键点的位置变化量，作为相应的人像特征的位置变化量。如此，能够准确、高效地对人像特征在预设时间内的位置变化量进行计算，进一步使得本发明的目标图片抓拍方法更容易实现，自动抓拍的效果更好。

附图说明

下面参照附图来描述本发明的具体实施方式，附图中：

图1为本实施例的目标图片抓拍方法的主要流程示意图；

图2为本实施例的目标图片抓拍系统的模块结构示意图；

图3为本实施例提供的第一种终端设备的硬件结构示意图；

图4为本实施例提供的第二种终端设备的硬件结构示意图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。

术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。当然，上述可以替换的实施方式之间、以及可以替换的实施方式和优选的实施方式之间还可以交叉配合使用，从而组合出新的实施方式以适用于更加具体的应用场景。

本实施例提供解决或至少部分解决：人工抓拍对摄像用户的摄像技术的要求较高，且很容易由于拍照技术较差的原因导致抓拍的照片不够清晰、耗费时间长等问题。为解决上述技术问题，本实施例提供了一种目标图片抓拍方法、系统、介质及装置。

第一方面

本实施例提供的一种图像处理方法，如图1所示，该方法包括：

S1、获取视频流中的人像图片。

例如，摄像机在自动智能拍摄的模式下，现实场景中的画面能够实时的传入摄像机中形成视频流，摄像机则能够获取到视频流中各个帧的人像图片。

S2、将人像图片中任一目标人体的人像特征与预设人像特征进行匹配。

其中，该目标人体可以只包含人体面部，也可以包含人体的头部以及四肢，人像特征和预设人像特征中所指的“人像特征”，可以为人脸表情特征或者人体姿态特征中的一个，也可以同时包括人脸表情特征和人体姿态特征。进一步，该人脸表情特征为人在微笑、搞怪、厌恶、恐惧或者愤怒等状态下由多个人脸关键点构成；该人体姿态特征为人在比心、比耶、招手、出拳、叉腰或者握拳状态下由多个人体关键点构成。

然后，步骤S2具体可以包括：只是将人像图片中的人脸表情特征与预设人脸表情特征进行匹配；或者，只是将人像图片中的人体姿态特征与预设人体姿态特征进行匹配。此外，还可以在将人像图片中的人脸表情特征与预设人脸表情特征进行匹配的同时，将人像图片中的人体姿态特征与预设人体姿态特征进行匹配。

可以理解的是，当人脸表情特征和人体姿态特征同时满足期望的预设人脸表情特征以及预设人体姿态特征时，能够使摄像机抓拍的图片的效果更高，以及让摄影者更满意。

在步骤S2中，可以通过预先训练好的卷积神经网络模型将人像图片中的人像特征与预设人像特征进行匹配；卷积神经网络模型的输入为人像图片，输出为匹配成功的人像特征。

可以理解的是，本实施例中通过卷积神经网络对人像图片中的人像特征进行识别，能够实现对精彩瞬间的自动判别，且识别的准确性比较高。

该卷积神经网络模型包括输入层、卷积层、池化层和全连接层。其中，该卷积神经网络模型的训练过程为：输入层接收经过预处理后得到的所有人像图片样本；其中，人像图片样本为包含人脸表情特征和/或人体姿态特征的图片样本；卷积层提取人像图片样本中的人像特征；池化层提取人像特征中的感兴趣区域；全连接层通过激活函数对感兴趣区域中的人脸表情特征和/或人体姿态特征进行分类并输出。其中，该激活函数可以为Sigmod、Tanh、RELU、leaky ReLU和maxout中的任一种。

在上述训练过程中，池化层还可以采用注意力模型引入注意力模块SGE(SpatialGroup-wise Enhance)，即注意力空间智能分组增强模块。从而，为每个人像特征添加注意力因子(即权重)，用来增强人像特征中各特征的差异度，以进一步确定人像特征中的感兴趣区域；

进一步，全连接层采用小波变换函数对感兴趣区域进行滤波处理，以消除感兴趣区域中对提取人脸表情特征和/或人体姿态特征的干扰因素，减少下一步提取人脸表情特征和/或人体姿态特征的工作量，提高人脸表情特征和/或人体姿态特征的识别效率，然后再采用激活函数在该感兴趣区域中提取人脸表情特征和/或人体姿态特征。通过该方法，能够提高人像特征提取的准确度和效率。

此外，在步骤S2中除了可以使用上述预先训练好的卷积神经网络模型(即CNN模型)将人像图片中的人像特征与预设人像特征进行匹配之外，还可以通过Gabor小波变换和SAE(即自编码算法)中的任一种算法来实现该匹配的过程。

S3、根据视频流计算与匹配成功的人像特征对应的目标人体在预设时间内的位置变化量。

其中，步骤S3在实现过程中，可以通过获取匹配成功的人像特征中预设数量的连续的多个时间切片，计算多个时间切片之间各人像关键点的位置变化量，作为相应的人像特征的位置变化量。其中，时间切片为某一段视频流中在各连续帧处的图片。

如此，能够准确、高效地对人像特征在预设时间内的位置变化量进行计算，进一步使得本实施例的目标图片抓拍方法更容易实现，自动抓拍的效果更好。

S4、当匹配成功的人像特征在预设时间内的位置变化量在设定的位置变化量阈值范围内时，将包含该目标人体的人像图片确认为抓拍的目标图片。

在步骤S4中，可分别计算各个人像关键点在多个时间切片中的位置变化量，当每个人像关键点的位置变化量均满足设定的位置变化量阈值要求时，即表明拍摄对象的各人像关键点在该时间内的移动幅度很小且满足拍摄要求。

然后，可以在连续的多个时间切片中选择一个作为目标图片。例如，可以选择其中图片质量最高的一个时间切片作为目标图片。

作为本实施例提供的上述方法的一种优选的实施方式，在将人像图片中的人像特征与预设人像特征进行匹配的步骤之前，方法还包括：对人像图片进行预处理，该预处理的步骤和上述卷积神经网络模型的训练过程中得到的所有人像图片样本之前的预处理过程基本相同，一般可以包括人像检测、图片增强以及通过人像关键点进行对齐校准等。其中，图片增强的方式包括暗光增加、超分辨率、去噪、去运动模糊等。

本实施例提供的目标图片抓拍方法，通过先将视频流中的人像图片中任一目标人体的人像特征与预设人像特征进行匹配，以捕捉到拍摄者期望的人像特征；进一步，当匹配成功的人像特征对应的目标人体在预设时间内的位置变化量在设定的位置变化量阈值范围内时，则表明该人像特征符合抓拍的时间或清晰度要求，如此可将包含该目标人体的人像图片确认为抓拍的目标图片。从而，当使用摄像机通过该方法进行抓拍时，无需拍摄者具有较高的摄像技术，即可完成满足人脸表情特征、人体姿态特征和清晰度要求的图片的拍摄工作。

需要说明的是，尽管上文详细描述了本实施例方法的详细步骤，但是，在不偏离本实施例的基本原理的前提下，本领域技术人员可以对上述步骤进行组合、拆分及调换顺序，如此修改后的实施方式并没有改变本实施例的基本构思，因此也落入本实施例的保护范围之内。

第二方面

本实施例还提供了一种目标图片抓拍系统，如图2所示，该系统包括：获取模块2、匹配模块3、计算模块4和确认模块5；其中，获取模块2，用于获取视频流中的人像图片；匹配模块3，用于将人像图片中任一目标人体的人像特征与预设人像特征进行匹配；计算模块4，用于根据所述视频流计算与匹配成功的人像特征对应的目标人体在预设时间内的位置变化量；确认模块5，用于当该位置变化量在设定的位置变化量阈值范围内时，将包含该目标人体的人像图片确认为抓拍的目标图片。

作为本实施例提供的上述系统的一种优选的实施方式，匹配模块3具体用于：将人像图片中的人脸表情特征与预设人脸表情特征进行匹配；以及/或者，将人像图片中的人体姿态特征与预设人体姿态特征进行匹配。

作为本实施例提供的上述系统的一种优选的实施方式，匹配模块3具体用于：通过预先训练好的卷积神经网络模型将人像图片中的人像特征与预设人像特征进行匹配；卷积神经网络模型的输入为人像图片，输出为匹配成功的人像特征。

作为本实施例提供的上述系统的一种优选的实施方式，在上述匹配模块3中，卷积神经网络模型包括输入层、卷积层、池化层和全连接层；卷积神经网络模型的训练过程为：输入层接收经过预处理后得到的所有人像图片样本；其中，人像图片样本为包含人脸表情特征和/或人体姿态特征的图片样本；卷积层提取人像图片样本中的人像特征；池化层提取人像特征中的感兴趣区域；全连接层通过激活函数对感兴趣区域中的人脸表情特征和/或人体姿态特征进行分类并输出。其中，激活函数包括Sigmod、Tanh、RELU、leaky ReLU和maxout中的任一种。

作为本实施例提供的上述系统的一种优选的实施方式，在上述匹配模块3中，卷积神经网络模型的训练过程还包括：池化层采用注意力模型引入注意力模块SGE，为每个人像特征添加注意力因子，以确定人像特征的感兴趣区域；全连接层采用小波变换函数对感兴趣区域进行滤波处理，然后再采用激活函数在感兴趣区域中提取人脸表情特征和/或人体姿态特征。

作为本实施例提供的上述系统的一种优选的实施方式，匹配模块3除了通过预先训练好的卷积神经网络模型将人像图片中的人像特征与预设人像特征进行匹配之外，还可以通过使用包括CNN、Gabor小波变换和SAE中的至少一种算法来实现该匹配过程。

作为本实施例提供的上述系统的一种优选的实施方式，计算模块4具体用于：获取匹配成功的人像特征中预设数量的连续的多个时间切片，计算多个时间切片之间各人像关键点的位置变化量，作为相应的人像特征的位置变化量。

作为本实施例提供的上述系统的一种优选的实施方式，确认模块5具体用于：在连续的多个时间切片中选择一个作为所述目标图片。

作为本实施例提供的上述系统的一种优选的实施方式，上述系统还可以包括预处理模块1，该预处理模块1具体用于：在将人像图片中的人像特征与预设人像特征进行匹配的步骤之前，对人像图片进行预处理；以及用于在卷积神经网络模型的训练过程中得到的所有人像图片样本之前的预处理。二者预处理过程基本相同，一般可以包括人像检测、图片增强以及通过人像关键点进行对齐校准等。其中，图片增强的方式包括暗光增加、超分辨率、去噪、去运动模糊等。

需要说明的是，本实施例提供的目标图片抓拍系统与前述第一方面中的目标图片抓拍方法是相互对应的，故不再对本实施例中的目标图片抓拍系统进行赘述，关于目标图片抓拍系统的说明请参见第一方面中的内容。

要说明的是，上述实施例提供的目标图片抓拍系统，仅以上述各功能模块(如预处理模块1、获取模块2、匹配模块3、计算模块4和确认模块5等)的划分进行举例说明，在实际应用中，可以根据需要而将上述功能模块由不同的功能模块来完成，即将本发明的实施例中的功能模块再分解或者组合，例如，上述实施例的功能模块可以合并为一个功能模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明的实施例中涉及的功能模块名称，仅仅是为了进行区分，不视为对本实施例的不当限定。

第三方面

本领域的技术人员应当理解的是，在本实施例提供的一种计算机可读存储介质中，该存储介质存储有多条程序代码，该程序代码适于由处理器加载并运行以执行如前述第一方面中任一种的目标图片抓拍方法。

其中，该存储介质中包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本实施例各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

第四方面

在本实施例提供的一种目标图片抓拍装置中，包括处理器和存储装置，存储装置适于存储多条程序代码，该程序代码适于由处理器加载并运行以执行如前述第一方面中任一种的目标图片抓拍方法。

第五方面

本实施例主要通过一个应用于终端设备的场景中，对本发明的实现做进一步说明。终端设备的硬件结构如图3所示。该终端设备可以包括：输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，第一存储器1103中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。

可选的，上述输入设备1100可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；输出设备1102可以包括显示器、音响等输出设备。在本实施例中，该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图4为本申请的另一个实施例提供的终端设备的硬件结构示意图。图4是对图3在实现过程中的一个具体的实施例。如图4所示，本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。

第二处理器1201执行第二存储器1202所存放的计算机程序代码，实现上述实施例中图1的所述方法。第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息、图片、视频等。第二存储器1202可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，第二处理器1201设置在处理组件1200中。该终端设备还可以包括：通信组件1203，电源组件1204，多媒体组件1205，语音组件1206，输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令，以完成上述图1所示方法的全部或部分步骤。此外，处理组件1200可以包括一个或多个模块，便于处理组件1200和其他组件之间的交互。例如，处理组件1200可以包括多媒体模块，以方便多媒体组件1205和处理组件1200之间的交互。电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。语音组件1206被配置为输出和/或输入语音信号。例如，语音组件1206包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中，语音组件1206还包括一个扬声器，用于输出语音信号。

输入/输出接口1207为处理组件1200和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件1208包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件1208可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件1208还可以包括摄像头等。

通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务器建立通信。

由上可知，在图4实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本实施例的保护范围之内并且形成不同的实施例。例如，在本实施例的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种目标图片抓拍方法，其特征在于，所述方法包括：

获取视频流中的人像图片；

将所述人像图片中任一目标人体的人像特征与预设人像特征进行匹配；

根据所述视频流计算与匹配成功的人像特征对应的目标人体在预设时间内的位置变化量；

当所述位置变化量在设定的位置变化量阈值范围内时，将包含所述目标人体的人像图片确认为抓拍的目标图片。

2.根据权利要求1所述的方法，其特征在于，人像特征包括人脸表情特征和/或人体姿态特征，将所述人像图片中任一目标人体的人像特征与预设人像特征进行匹配的步骤，包括：

将所述人像图片中的人脸表情特征与预设人脸表情特征进行匹配；以及/或者

将所述人像图片中的人体姿态特征与预设人体姿态特征进行匹配。

3.根据权利要求1所述的方法，其特征在于，将所述人像图片中的人像特征与预设人像特征进行匹配的步骤，包括：

通过预先训练好的卷积神经网络模型将所述人像图片中的人像特征与预设人像特征进行匹配；

所述卷积神经网络模型的输入为人像图片，输出为匹配成功的人像特征。

4.根据权利要求3所述的方法，其特征在于，所述卷积神经网络模型包括输入层、卷积层、池化层和全连接层；所述卷积神经网络模型的训练过程为：

所述输入层接收经过预处理后得到的所有人像图片样本；其中，所述人像图片样本为包含人脸表情特征和/或人体姿态特征的图片样本；

所述卷积层提取所述人像图片样本中的人像特征；

所述池化层提取所述人像特征中的感兴趣区域；

所述全连接层通过激活函数对所述感兴趣区域中的人脸表情特征和/或人体姿态特征进行分类并输出。

5.根据权利要求4所述的方法，其特征在于，所述卷积神经网络模型的训练过程还包括：

所述池化层采用注意力模型引入注意力模块SGE，为每个所述人像特征添加注意力因子，以确定所述人像特征的感兴趣区域；

所述全连接层采用小波变换函数对所述感兴趣区域进行滤波处理，然后再采用激活函数在所述感兴趣区域中提取人脸表情特征和/或人体姿态特征。

6.根据权利要求4所述的方法，其特征在于，

所述激活函数包括Sigmod、Tanh、RELU、leaky ReLU和maxout中的任一种；并且/或者，在将所述人像图片中的人像特征与预设人像特征进行匹配时，使用的算法包括CNN、Gabor小波变换和SAE中的至少一种。

7.根据权利要求1所述的方法，其特征在于，根据所述视频流计算与匹配成功的人像特征对应的目标人体在预设时间内的位置变化量的步骤，包括：

获取匹配成功的人像特征中预设数量的连续的多个时间切片，计算多个时间切片之间各人像关键点的位置变化量，作为相应的人像特征的位置变化量。

8.根据权利要求1所述的方法，其特征在于，在将所述人像图片中的人像特征与预设人像特征进行匹配的步骤之前，所述方法还包括：

对所述人像图片进行预处理；

所述预处理包括人像检测、图片增强以及通过人像关键点进行对齐校准。

9.一种目标图片抓拍系统，其特征在于，所述系统包括：

获取模块，用于获取视频流中的人像图片；

匹配模块，用于将所述人像图片中任一目标人体的人像特征与预设人像特征进行匹配；

计算模块，用于根据所述视频流计算与匹配成功的人像特征对应的目标人体在预设时间内的位置变化量；

确认模块，用于当所述位置变化量在设定的位置变化量阈值范围内时，将包含所述目标人体的人像图片确认为抓拍的目标图片。

10.根据权利要求9所述的系统，所述匹配模块具体用于：

11.根据权利要求9所述的系统，所述匹配模块具体用于：

12.根据权利要求11所述的系统，在所述匹配模块中，

所述卷积神经网络模型包括输入层、卷积层、池化层和全连接层；所述卷积神经网络模型的训练过程为：

所述卷积层提取所述人像图片样本中的人像特征；

所述池化层提取所述人像特征中的感兴趣区域；

13.一种计算机可读存储介质，所述计算机可读存储介质中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至8中任一项所述的目标图片抓拍方法。

14.一种目标图片抓拍装置，包括处理器和存储装置，所述存储装置中存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至8中任一项所述的目标图片抓拍方法。