CN110096989B

CN110096989B - 图像处理方法和装置

Info

Publication number: CN110096989B
Application number: CN201910335319.2A
Authority: CN
Inventors: 杨恒
Original assignee: Shenzhen Aimo Technology Co ltd
Current assignee: Shenzhen Aimo Technology Co ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2022-09-09
Anticipated expiration: 2039-04-24
Also published as: CN110096989A

Abstract

本申请公开了一种图像处理方法和装置。该方法包括对图像数据进行检测，检测出图像数据中每帧图像的目标人脸数据和目标身体姿态数据；根据图像精彩程度模型对每帧图像以及对应的目标人脸数据和目标身体姿态数据进行预测，得到每帧图像的精彩程度分数；获取精彩程度分数大于指定阈值的每帧图像。本申请可以解决了相关技术中难以获取儿童等目标人物精彩瞬间图像的技术问题。

Description

图像处理方法和装置

技术领域

本申请涉及图像数据处理技术领域，具体而言，涉及一种图像处理方法和装置。

背景技术

随着拍摄设备的普及，拍摄孩童在玩耍等活动过程中的精彩照片，成为很多家长留住美好回忆的主要方式，但是年龄较小的孩童在活动过程中，动作较快，可预见性不强，不配合拍摄者，使得拍摄孩童的精彩瞬间较难。

针对相关技术中难以获取儿童等目标人物精彩瞬间图像的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种图像处理方法和装置，以解决相关技术中难以获取儿童等目标人物精彩瞬间图像的问题。

为了实现上述目的，第一方面，本申请提供了一种图像处理方法，该方法包括：

对图像数据进行检测，检测出图像数据中每帧图像的目标人脸数据和目标身体姿态数据；

根据图像精彩程度模型对每帧图像以及对应的目标人脸数据和目标身体姿态数据进行预测，得到每帧图像的精彩程度分数；

获取精彩程度分数大于指定阈值的每帧图像。

可选地，在根据精彩程度训练模块对每帧图像以及对应的目标人脸数据和目标身体姿态数据进行预测之前，该方法还包括：

获取指定数量的人物图像；

对每个人物图像进行精彩程度标注，得到每个人物图像的精彩程度分数，以及

对每个人物图像进行检测，得到每个人物图像的人脸数据和身体姿态数据；

根据参数优化回归损失函数，对指定数量的人物图像中每个人物图像对应的精彩程度分数、人脸数据和身体姿态数据进行模型训练，得到图像精彩程度模型。

可选地，对图像数据进行检测包括：

根据人脸定位模型确定图像数据中每帧图像的目标头部位置；

确定每帧图像的目标头部位置中是否存在目标人脸关键点；

当每帧图像的目标头部位置中不存在目标人脸关键点时，将目标头部位置作为目标人脸数据；

当每帧图像的目标头部位置中存在目标人脸关键点时，确定出目标人脸关键点位置，并将目标人脸关键点位置作为目标人脸数据。

可选地，对图像数据进行检测，包括：

根据身体定位模型确定图像数据中每帧图像的多个目标关键点；

对于每帧图像，基于图像包括的多个目标关键点之间的连线确定出目标身体姿态数据。

可选地，该方法还包括：

将获取的精彩程度分数大于指定阈值的每帧图像保存至本地，和/或，将获取的每帧图像发送给云端服务器。

第二方面，本申请还提供了一种图像处理装置，包括：

第一检测单元，用于对图像数据进行检测，检测出图像数据中每帧图像的目标人脸数据和目标身体姿态数据；

分数预测单元，用于根据图像精彩程度模型对每帧图像以及对应的目标人脸数据和目标身体姿态数据进行预测，得到每帧图像的精彩程度分数；

第一获取单元，用于获取精彩程度分数大于指定阈值的每帧图像。

可选地，该装置还包括：

第一获取单元，用于获取指定数量的人物图像；

分数标注单元，用于对每个人物图像进行精彩程度标注，得到每个人物图像的精彩程度分数；

第二检测单元，用于对每个人物图像进行检测，得到每个人物图像的人脸数据和身体姿态数据；

模型训练单元，用于根据参数优化回归损失函数，对指定数量的人物图像中每个人物图像对应的精彩程度分数、人脸数据和身体姿态数据进行模型训练，得到图像精彩程度模型。

可选地，第一检测单元，包括：

第一确定模块，用于根据人脸定位模型确定图像数据中每帧图像的目标头部位置；

第二确定模块，用于确定每帧图像的目标头部位置中是否存在目标人脸关键点；

第一处理模块，用于当每帧图像的目标头部位置中不存在目标人脸关键点时，将目标头部位置作为目标人脸数据；

第二处理模块，用于当每帧图像的目标头部位置中存在目标人脸关键点时，确定出目标人脸关键点位置，并将目标人脸关键点位置作为目标人脸数据。

可选地，该装置还包括：

存储单元，用于将获取的精彩程度分数大于指定阈值的每帧图像保存至本地，和/或，将获取的每帧图像发送给云端服务器。

第三方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机代码，当计算机代码被执行时，上述的图像处理方法被执行。

在本申请提供的图像处理方法中，通过对图像数据进行检测，检测出图像数据中每帧图像的目标人脸数据和目标身体姿态数据；根据图像精彩程度模型对每帧图像以及对应的目标人脸数据和目标身体姿态数据进行预测，得到每帧图像的精彩程度分数；获取精彩程度分数大于指定阈值的每帧图像。这样，先确定出图像数据中每帧图像目标的人脸和身体姿态，再基于训练好的图像精彩程度模型对目标的人脸和身体姿态进行精彩程度分数预测，最后获取精彩程度分数大于指定阈值的每帧图像，从而完成图像数据中精彩程度分数高的图像进行捕获，进而解决了相关技术中难以获取儿童等目标人物精彩瞬间图像的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例提供的一种图像处理方法的流程示意图；

图2是本申请实施例提供的一种目标头部的定位示意图；

图3是本申请实施例提供的一种目标身体姿态的定位示意图；

图4是本申请实施例提供的一种目标对应的图像精彩程度份数的示意图；

图5是本申请实施例提供的另一种目标对应的图像精彩程度份数的示意图；

图6是本申请实施例提供的一种图像处理装置的结构示意图；

图7是本申请实施例提供的另一种图像处理装置的结构示意图；

图8是本申请实施例提供的一种第一检测单元的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请提供了一种图像处理方法，该方法为通过人工智能和计算机视觉技术的主动识别孩童等目标在活动过程中精彩瞬间图像的方法，该方法可以结合普通的视频录像设备，应用于自动捕获孩童活动过程精彩瞬间的智能装置，图1是本申请实施例提供的一种图像处理方法的流程示意图，如图1所示，该方法包括如下步骤100至步骤300：

100，对图像数据进行检测，检测出图像数据中每帧图像的目标人脸数据和目标身体姿态数据。

其中，图像数据可以是一个视频，也可以是一个图像，还可以是包含有视频和图像的数据包；目标人脸数据可以是目标人物在对应图像中的头部所在位置参数，如图2所示，目标人脸数据还可以是目标人物在对应图像中的人脸五官关键点，该人脸五官关键点可以包括眉毛、眼睛、眼球、鼻翼、嘴唇和脸部轮廓中的至少一个关键点；目标身体姿态数据可以是目标人物在对应图像中身体关键点多在的位置参数，如图3所示，而身体关键点可以包括头、肩、手肘、髋部、膝盖和脚裸中的至少一个关键点。可选地，目标人脸数据和目标身体姿态数据均可以通过向量来表达，例如，通过向量h表达目标头部在每帧图像中的位置参数，通过向量s表达人脸五官关键点的位置参数，即s＝(x1，y1,x2,y2,x3,y3..)，通过向量b表达目标身体姿态数据。

需要说明的是，本领域的技术人员可以根据实际情况具体设置人脸五官关键点和身体关键点的数量。

具体的，对图像数据进行检测，可以通过一个或多个训练好的神经网络模型进行检测，从而确定出图像数据中每帧图像的目标人脸数据和目标身体姿态数据。

200，根据图像精彩程度模型对每帧图像以及对应的目标人脸数据和目标身体姿态数据进行预测，得到每帧图像的精彩程度分数。

其中，图像精彩程度模型可以包括一个由训练好的精彩程度量化函数表达，通过将每帧图像以及对应的目标人脸数据和目标身体姿态数据输入该精彩程度量化函数中，从而得到每帧图像的精彩程度分数。

例如，向量h表达目标头部在每帧图像中的位置参数，向量b表达目标身体姿态数据，精彩程度量化函数表达为v＝f(I，H，B)，该精彩程度量化函数中，I为每帧图像的内容信息，H为h的时序组合，即目标头部在多帧图像中的位置参数，B为b的时序组合，即目标身体姿态在多帧图像中的位置参数，并将f设计为同时考虑图像内容、人脸变化、身体变化的函数表达，并将摄像技巧的先验知识进行函数化，形成精彩程度量化的度量函数，该度量函数包括但不局限于：正面程度、站立位置、微笑程度、剧烈的手部动作、拥抱、大哭等规则性条件，v为每帧图像的精度程度归一化量化值。

具体的，通过图像精彩程度模型(即精彩程度量化函数)对每帧图像过程可以为：将每帧图像和对应的人脸位置向量进行卷积计算，得到第一输出向量，以及将每帧图像和对应的身体位置向量进行卷积计算，得到第二输出向量；将对应同一帧图像的第一输出向量和第二输出向量进行合并，得到该帧图像的合并向量；再对合并向量再增加一层全连接，之后，进行预测计算，得到每帧图像的精彩程度分数。

300，获取精彩程度分数大于指定阈值的每帧图像。

其中，指定阈值可以进行预先设定，可以认定大于该指定阈值的图像为目标较为精彩的图像，而低于该指定阈值的图像视为目标不精彩的图像，从而，在图像数据中可以获取目标较为精彩的图像，实现了将儿童等目标较为精彩的图像进行获取的目的。例如，指定阈值为0.8，如图4所示，该图像中目标儿童的正面程度和站立位置均较好，经过图像精彩程度模型对该图像进行预测，得到该图像的图像精彩程度分数为0.9，其大于0.8，因此，获取该图像，如图5所示，该图像中目标儿童的正面程度低、站立位置靠最左端、微笑程度无法识别、并无剧烈的手部动作、并无拥抱、并无大哭等情况，经过图像精彩程度模型对该图像进行预测，得到该图像的图像精彩程度分数为0.1，其小于0.8，因此，不获取该图像。

在一个可行的技术方案中，在步骤200，根据精彩程度训练模块对每帧图像以及对应的目标人脸数据和目标身体姿态数据进行预测之前，该方法还包括：

获取指定数量的人物图像；

具体的，通过获取指定数量的人物图像，并对每个人物图像进行精彩程度标注(如图4和图5所示)，得到每个人物图像的精彩程度分数，以及对每个人物图像进行检测，得到每个人物图像的人脸数据和身体姿态数据，也就是说，已经获知了图像精彩程度模型的输入项(即每个图像的人脸数据和身体姿态数据)，以及该图像精彩程度模型的输出项(即每个图像的精彩程度分数)，从而通过参数优化回归损失函数对该图像精彩程度模型进行训练，得到该图像精彩程度模型；其中，参数优化回归损失函数可以为一下函数：

具体的模型训练的过程为：将已标注的人物图像作为输出以及预设数量的人物图像作为输入反复的进行学习以及模型的训练，在训练的过程中，根据参数优化回归损失函数每次实际的输出与期望的输出的差，当该差在一定的范围内时，训练结束，得到图像精彩程度模型。

在可以一个可行的实施方式中，步骤100，对图像数据进行检测包括：

确定每帧图像的目标头部位置中是否存在目标人脸关键点；

具体的，通过收集儿童等目标活动场景图像，对每个图像中人物头部框进行标注，进而训练人脸定位模型，得到该人脸定位模型对图像数据中每帧图像进行检测，确定出每帧图像的目标头部位置，进而确定每帧图像的目标头部位置中是否存在目标人脸关键点；当每帧图像的目标头部位置中不存在目标人脸关键点时，将目标头部位置作为目标人脸数据；当每帧图像的目标头部位置中存在目标人脸关键点时，确定出目标人脸关键点位置，并将目标人脸关键点位置作为目标人脸数据。这样，当图像中不存在目标人脸关键点时，将目标头部位置作为图像精彩程度模型的输入项，执行步骤200；当图像中存在目标人脸关键点时，将目标人脸关键点位置作为图像精彩程度模型的输入项，执行步骤200。

在一个可行的实施方式中，步骤200对图像数据进行检测，还包括：

具体的，通过收集儿童等目标活动场景(特别是多人互动场景条件下)图像，对每个图像中身体关键点进行标注，进而训练身体定位模型，得到该身体定位模型对图像数据中每帧图像进行检测，得到图像数据中每帧图像的多个目标关键点，之后，对于每帧图像，基于图像包括的多个目标关键点之间的连线确定出目标身体姿态数据。

可选地，该方法还包括：

具体的，获取的精彩程度分数大于指定阈值的每帧图像，即为目标精彩程度高的图像，对于这些图像可以保存至本地的存储器中，和/或，将获取的每帧图像发送给云端服务器，以使云端服务器对图像进行存储。

在本申请提供的图像处理方法中，通过步骤100，对图像数据进行检测，检测出图像数据中每帧图像的目标人脸数据和目标身体姿态数据；步骤200，根据图像精彩程度模型对每帧图像以及对应的目标人脸数据和目标身体姿态数据进行预测，得到每帧图像的精彩程度分数；步骤300，获取精彩程度分数大于指定阈值的每帧图像。这样，先确定出图像数据中每帧图像目标的人脸和身体姿态，再基于训练好的图像精彩程度模型对目标的人脸和身体姿态进行精彩程度分数预测，最后获取精彩程度分数大于指定阈值的每帧图像，从而完成图像数据中精彩程度分数高的图像进行捕获，进而解决了相关技术中难以获取儿童等目标人物精彩瞬间图像的技术问题。

基于相同的技术构思，本申请还提供了一种图像处理装置，图6是本申请实施例提供的一种图像处理装置的结构示意图，如图6所示，该装置包括：

第一检测单元10，用于对图像数据进行检测，检测出图像数据中每帧图像的目标人脸数据和目标身体姿态数据；

分数预测单元20，用于根据图像精彩程度模型对每帧图像以及对应的目标人脸数据和目标身体姿态数据进行预测，得到每帧图像的精彩程度分数；

第一获取单元30，用于获取精彩程度分数大于指定阈值的每帧图像。

可选地，图7是本申请实施例提供的另一种图像处理装置的结构示意图，如图7所示，该装置还包括：

第二获取单元40，用于获取指定数量的人物图像；

分数标注单元50，用于对每个人物图像进行精彩程度标注，得到每个人物图像的精彩程度分数；

第二检测单元60，用于对每个人物图像进行检测，得到每个人物图像的人脸数据和身体姿态数据；

模型训练单元70，用于根据参数优化回归损失函数，对指定数量的人物图像中每个人物图像对应的精彩程度分数、人脸数据和身体姿态数据进行模型训练，得到图像精彩程度模型。

可选地，图8是本申请实施例提供的一种第一检测单元的结构示意图，如图8所示，第一检测单元10，包括：

第一确定模块11，用于根据人脸定位模型确定图像数据中每帧图像的目标头部位置；

第二确定模块12，用于确定每帧图像的目标头部位置中是否存在目标人脸关键点；

第一处理模块13，用于当每帧图像的目标头部位置中不存在目标人脸关键点时，将目标头部位置作为目标人脸数据；

第二处理模块14，用于当每帧图像的目标头部位置中存在目标人脸关键点时，确定出目标人脸关键点位置，并将目标人脸关键点位置作为目标人脸数据。

可选地，该装置还包括：

在本申请提供的图像处理装置中，通过第一检测单元10，用于对图像数据进行检测，检测出图像数据中每帧图像的目标人脸数据和目标身体姿态数据；分数预测单元20，用于根据图像精彩程度模型对每帧图像以及对应的目标人脸数据和目标身体姿态数据进行预测，得到每帧图像的精彩程度分数；第一获取单元30，用于获取精彩程度分数大于指定阈值的每帧图像。。这样，先确定出图像数据中每帧图像目标的人脸和身体姿态，再基于训练好的图像精彩程度模型对目标的人脸和身体姿态进行精彩程度分数预测，最后获取精彩程度分数大于指定阈值的每帧图像，从而完成图像数据中精彩程度分数高的图像进行捕获，进而解决了相关技术中难以获取儿童等目标人物精彩瞬间图像的技术问题。

基于相同的技术构思，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机代码，当计算机代码被执行时，上述的图像处理方法被执行。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

本申请所涉及的计算机程序可以存储于计算机可读存储介质中，所述计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体装置、虚拟装置、优盘、移动硬盘、磁碟、光盘、计算机存储器、只读计算机存储器(Read-Only Memory，ROM)、随机存取计算机存储器(Random Access Memory，RAM)、电载波信号、电信信号以及其他软件分发介质等。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，该方法包括：

对图像数据进行检测，检测出所述图像数据中每帧图像的目标人脸数据和目标身体姿态数据；

根据图像精彩程度模型对每帧图像以及对应的所述目标人脸数据和目标身体姿态数据进行预测，得到所述每帧图像的精彩程度分数，所述图像精彩程度模型包括一个由训练好的精彩程度量化函数表达，通过将每帧图像以及对应的目标人脸数据和目标身体姿态数据输入该精彩程度量化函数中，从而得到每帧图像的精彩程度分数，所述精彩程度量化函数表达为v = f（I，H，B），其中，I为每帧图像的内容信息，H为h的时序组合，B为b的时序组合，向量h表达目标头部在每帧图像中的位置参数，向量b表达目标身体姿态数据；

获取所述精彩程度分数大于指定阈值的所述每帧图像。

2.根据权利要求1所述的图像处理方法，其特征在于，在所述根据精彩程度训练模块对每帧图像以及对应的所述目标人脸数据和目标身体姿态数据进行预测之前，该方法还包括：

获取指定数量的人物图像；

对每个所述人物图像进行精彩程度标注，得到每个所述人物图像的精彩程度分数，以及

对每个所述人物图像进行检测，得到每个人物图像的人脸数据和身体姿态数据；

根据参数优化回归损失函数，对所述指定数量的人物图像中每个人物图像对应的精彩程度分数、人脸数据和身体姿态数据进行模型训练，得到所述图像精彩程度模型。

3.根据权利要求1所述的图像处理方法，其特征在于，所述对图像数据进行检测包括：

根据人脸定位模型确定所述图像数据中每帧图像的目标头部位置；

确定所述每帧图像的目标头部位置中是否存在目标人脸关键点；

当所述每帧图像的目标头部位置中不存在目标人脸关键点时，将所述目标头部位置作为所述目标人脸数据；

当所述每帧图像的目标头部位置中存在目标人脸关键点时，确定出目标人脸关键点位置，并将所述目标人脸关键点位置作为所述目标人脸数据。

4.根据权利要求1所述的图像处理方法，其特征在于，所述对图像数据进行检测，包括：

根据身体定位模型确定所述图像数据中每帧图像的多个目标关键点；

对于每帧图像，基于所述图像包括的多个目标关键点之间的连线确定出目标身体姿态数据。

5.根据权利要求1所述的图像处理方法，其特征在于，该方法还包括：

将获取的所述精彩程度分数大于指定阈值的所述每帧图像保存至本地，和/或，将获取的所述每帧图像发送给云端服务器。

6.一种图像处理装置，其特征在于，包括：

第一检测单元，用于对图像数据进行检测，检测出所述图像数据中每帧图像的目标人脸数据和目标身体姿态数据；

分数预测单元，用于根据图像精彩程度模型对每帧图像以及对应的所述目标人脸数据和目标身体姿态数据进行预测，得到所述每帧图像的精彩程度分数，所述图像精彩程度模型包括一个由训练好的精彩程度量化函数表达，通过将每帧图像以及对应的目标人脸数据和目标身体姿态数据输入该精彩程度量化函数中，从而得到每帧图像的精彩程度分数，所述精彩程度量化函数表达为v = f（I，H，B），其中，I为每帧图像的内容信息，H为h的时序组合，B为b的时序组合，向量h表达目标头部在每帧图像中的位置参数，向量b表达目标身体姿态数据；

第一获取单元，用于获取所述精彩程度分数大于指定阈值的所述每帧图像。

7.根据权利要求6所述的图像处理装置，其特征在于，该装置还包括：

第一获取单元，用于获取指定数量的人物图像；

分数标注单元，用于对每个所述人物图像进行精彩程度标注，得到每个所述人物图像的精彩程度分数；

第二检测单元，用于对每个所述人物图像进行检测，得到每个人物图像的人脸数据和身体姿态数据；

模型训练单元，用于根据参数优化回归损失函数，对所述指定数量的人物图像中每个人物图像对应的精彩程度分数、人脸数据和身体姿态数据进行模型训练，得到所述图像精彩程度模型。

8.根据权利要求6所述的图像处理装置，其特征在于，所述第一检测单元，包括：

第一确定模块，用于根据人脸定位模型确定所述图像数据中每帧图像的目标头部位置；

第二确定模块，用于确定所述每帧图像的目标头部位置中是否存在目标人脸关键点；

第一处理模块，用于当所述每帧图像的目标头部位置中不存在目标人脸关键点时，将所述目标头部位置作为所述目标人脸数据；

第二处理模块，用于当所述每帧图像的目标头部位置中存在目标人脸关键点时，确定出目标人脸关键点位置，并将所述目标人脸关键点位置作为所述目标人脸数据。

9.根据权利要求6所述的图像处理装置，其特征在于，该装置还包括：

存储单元，用于将获取的所述精彩程度分数大于指定阈值的所述每帧图像保存至本地，和/或，将获取的所述每帧图像发送给云端服务器。

10.一种计算机可读存储介质，该计算机可读存储介质存储有计算机代码，当计算机代码被执行时，如权利要求1-5任一项所述的图像处理方法被执行。