CN114565953A

CN114565953A - 图像处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114565953A
Application number: CN202011359407.5A
Authority: CN
Inventors: 马林; 何宝; 姜东雨; 李炜明; 洪成勋; 王强
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-05-31
Also published as: KR20220074715A

Abstract

本申请实施例提供了一种图像处理方法、装置、电子设备及计算机可读存储介质，涉及图像处理技术领域。该图像处理方法包括：获取图像的特征图；根据特征图，确定关键点。本申请实施例提供的图像处理方法可以基于人工智能的方式实现，可以提高关键点位置检测的准确率。

Description

图像处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，本申请涉及一种图像处理方法、装置、电子设备及计算机可读存储介质。

背景技术

计算机视觉技术是基于感知图像做出对客观对象和场景有用的决策。关键点检测，又被称为特征点或兴趣点检测技术，是计算机视觉领域的关键性技术，被应用于很多任务如视觉定位等等，在视觉定位中，人眼的瞳孔定位和跟踪在增强现实中具有很大的作用。比如在汽车抬头显示设备中，需要对人眼进行定位和跟踪，然后才能确定在挡风玻璃的哪个位置绘制要显示的信息。

目前的图像关键点检测中，通常是基于形状约束方法，模型通过训练图像样本获取训练图像样本的特征点分布的统计信息，并且获取特征点允许存在的变化方向，实现在目标图像上寻找对应的特征点的位置。

因此，有必要对现有的图像关键点检测方法进行优化。

发明内容

本申请提供了一种图像处理方法，该技术方案如下所示：

第一方面，提供了一种图像处理方法，该方法包括：

获取图像的特征图；

根据所述特征图，确定关键点。

第二方面，提供了一种图像处理方法，该方法包括：

获取图像的特征图的候选框；

将候选框内的特征图的尺寸缩放为预设尺寸的第一特征图；

基于第一特征图进行处理。

第三方面，提供了一种图像处理装置，该装置包括：

第一获取模块，用于获取图像的特征图；

确定模块，用于根据所述特征图，确定关键点。

第四方面，提供了一种图像处理装置，该装置包括：

第二获取模块，用于获取图像的特征图的候选框；

缩放模块，用于将候选框内的特征图的尺寸缩放为预设尺寸的第一特征图；

处理模块，用于基于第一特征图进行处理。

第五方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面所示的图像处理方法所对应的操作。

第六方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第二方面所示的图像处理方法所对应的操作。

第七方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面所示的图像处理方法。

第八方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面所示的图像处理方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种图像处理方法，与现有技术相比，本申请的图像处理方法通过对所述特征图进行校正，得到校正特征图，对校正特征图进行检测得到关键点位置，可以提高关键点位置检测的准确率。

进一步的，通过确定图像的特征图的像素点的空间位置权重，基于所述像素点的空间位置权重对所述特征图进行校正，可以提高关键点位置检测的准确率。

进一步的，在对第一图像进行处理时，可以结合第一图像的的图像特征信息以及投影点的相对距离信息来作为输入，可以更好的反应投影点的位置的影响，从而使得到的图像可以具有目标分辨率的同时，还可以保留第一图像的图像特征。

进一步的，采用边缘匹配的方式来更好的保持眼睛以及瞳孔的位置不变，可以更精确的计算瞳孔的关键点位置。

进一步的，确定图像的校正特征图的置信度，如果这个置信度小于或等于预设阈值，则认为跟踪失败，即关键点检测失败；若置信度大于预设阈值，则跟踪成功，即关键点检测成功，可以提高关键点检测的准确度的同时，还可以在关键点检测成功时将图像中的人脸区域作为待检测视频的下一帧图像的参考人脸区域，提高下一帧图像处理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种图像处理方法的流程示意图；

图2为本申请实施例提供的瞳孔定位模型进行图像检测的方案的示意图；

图3为本申请实施例提供的瞳孔定位模型训练的方案的示意图；

图4为本申请实施例提供的获取图像的流程示意图；

图5为本申请实施例提供的确定相对距离信息的方案的示意图；

图6为本申请一个示例中基于第一图像获取图像的方案的示意图；

图7为本申请一个示例中下采样网络的结构示意图；

图8为本申请一个示例中生成第一图像的方案的示意图；

图9为本申请一个示例中对去除干扰物模型进行训练的方案的示意图；

图10为本申请一个示例中对跟踪失败检测网络进行训练的方案的示意图；；

图11为本申请一个示例中图像处理的方案的示意图；

图12为本申请实施例提供的一种图像处理方法的流程示意图；

图13为本申请实施例提供的一种图像处理装置结构示意图；

图14为本申请实施例提供的一种图像处理装置结构示意图；

图15为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人眼的瞳孔定位和跟踪在增强现实中具有很大的作用。比如在汽车抬头显示设备中，需要对人眼进行定位和跟踪，然后才能确定在挡风玻璃的哪个位置绘制要显示的信息。此外在3D(three dimensional，三维)手机中，我们也可以根据瞳孔的3D位置决定手机上3D信息的显示，比如3D图标以及3D视频等。

目前在瞳孔定位中，对于图像中出现干扰物，例如存在遮挡问题，存在检测方法采用标注了遮挡的数据来处理。在模型中，其直接估计人脸关键点的遮挡情况，同时也估计各个关键点的估计的位置以及可靠性。将人脸分成不同的区域，每个区域对应一条边，其利用边与边之间的空间以及特征之间的关系来推断遮挡边的信息。

而当前大量数据集没有进行此标注。所以基于其它数据集，无法使用遮挡标注信息，在训练过程中，需要使用迭代的方式推断不同区域的遮挡情况，这会导致计算效率的降低。

若图像中包含有干扰物，例如，眼镜等遮挡物时，需要先去除干扰物；现有技术提出一种同时处理去眼镜和加眼镜的操作。其将人眼部分与脸的部分区别开来，并且分别编码。其将戴眼镜人脸与不戴眼镜的人眼区域的两个编码进行组合，经过一个网络得到不戴眼镜的人脸图像。

采用不同人的脸以及眼的区域来合成图像，更多是在乎得到的新的图像是否更加真实，并不能保证眼睛区域的空间形状是否发生了大的变化。如此导致瞳孔的位置可能会发生改变。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例中提供了一种可能的实现方式，如图1所示，提供了一种图像处理方法，可以包括以下步骤：

步骤S101，获取图像的特征图；

步骤S102，根据所述特征图，确定关键点。

其中，图像可以是人脸图像，关键点可以包括眼部的瞳孔的关键点，还可以包括五官、脸型对应的关键点。

具体的，可以先从待检测视频中获取图像，再利用特征提取网络，从图像中提取特征图。

本申请实施例的一种可能的实现方式，还包括：

(1)确定所述特征图的像素点的空间位置权重；

(2)基于所述像素点的空间位置权重对所述特征图进行校正，得到所述校正特征图；

步骤S102的根据所述特征图，确定关键点，可以包括：

根据所述校正特征图，确定关键点。

其中，空间位置权重用于对特征图中的像素点进行校正，是根据图像的关键点是初始位置和特征图所确定的。

具体的，可以先粗略确定图像的关键点的初始位置，对初始位置进行调整确定第一权重；根据特征图确定第二权重，根据第一权重和第二权重确定空间位置权重，具体确定空间位置权重的过程将在下文进行详细阐述。

具体的，可以将校正特征图输入到分类网络，确定关键点位置。

本申请实施例的一种可能的实现方式，确定特征图的像素点的空间位置权重，可以包括：

(1)检测图像的关键点的初始位置；

(2)根据所述初始位置，得到第一权重，根据所述特征图，得到第二权重；

(3)基于第一权重和第二权重确定空间位置权重。

具体的，可以先对图像进行特征提取，然后进行分类，确定关键点的初始位置。

具体的，关键点的初始位置可以包括多个关键点分别对应的向量，每一向量表示关键点在图像上各个位置的分布概率。

在具体实施过程中，可以将第一权重和第二权重进行逐点乘，得到空间位置权重。

以下将结合具体示例阐述本申请中的关键点位置的确定方法。

在一个示例中，图像为人脸图像，关键点位置包括瞳孔对应的关键点位置，如图2所示，可以采用瞳孔定位模型确定关键点位置，具体过程包括：

1)将图像输入到特征提取网络；其中，图像为分辨率为h×w的图像；图2中特征提取网络采用的是mobilenet v2网络；mobilenet v2是一种利用残差结构的轻量级神经网络；

2)将mobilenet v2输出的特征输入到第一分类网络，图中所示为全连接层，得到关键点的初始位置，即图中所示的a_k，其中，k＝1,2，……K，K为关键点数量；mobilenet v2的任一层还可以输出特征图，即图中所示F；

3)将关键点的初始位置输入到全连接层和形状调整网络，得到第一权重，即图中的w_struc；其中，w_struc的尺寸可以为h×w×1；

4)将特征图输入到第二分类网络，即图中所示的卷积层，得到第二权重，即图中所示w_appear；其中，w_appear的尺寸也可以为h×w×1；

5)基于w_struc和w_appear确定空间位置权重w，具体可以是

其中，

表示逐点乘；

6)基于空间位置权重w和特征图F生成校正特征图，即图中所示的F’；具体的，可以是

7)将校正特征图输入到检测网络，即图中所示的全连接层进行检测，得到关键点位置。

上述实施例中，通过确定图像的特征图的像素点的空间位置权重，基于像素点的空间位置权重对特征图进行校正，得到校正特征图，对校正特征图进行检测得到关键点位置，可以提高关键点位置检测的准确率。此处，根据特征图可以使用分类网络也可以使用回归网络得到预测关键点。

以下将阐述上述示例中的瞳孔定位模型的具体结构。

如图2所示，瞳孔定位模型可以包括两部分，第一部分包括mobilenet v2和全连接层，将图像输入到第一部分，可以输出特征图和关键点的初始位置；第二部分包括全连接层和形状调整网络，以及卷积层；将关键点的初始位置输入到全连接层和形状调整网络，得到第一权重；将特征图输入到卷积层，得到第二权重；根据第一权重和第二权重确定空间位置权重；基于空间位置权重和特征图得到校正特征图；再根据校正特征图得到关键点位置。

以下将阐述上述示例中的瞳孔定位模型的具体训练过程。

如图3所示，采用三个损失函数对瞳孔定位模型进行训练。

其中，第一个损失函数loss1是关键点的初始位置与真实关键点位置之间的差别的损失，真实关键点位置也可称为groundtruth关键点位置，可以是各种类型的损失函数，比如smooth L1和L2；对于第二个损失函数loss2，也可以使用smooth L1，L2等，其描述关键点位置与真实关键点位置之间的误差，其可与第一个阶段的损失函数定义相同，也可以不同。

此外，为了让预测精确的点得到更高的权重，本申请定义了一个额外的损失函数loss3，即

L₃＝||e-w_struc|| (1)

上3中，L3为损失函数loss3；w_struc为第一权重；以下将对上式中的e进行解释。给定瞳孔定位模型第一部分预测点a_k，k＝1,...,K，K是关键点数，以及关键点的真实关键点位置groundtruth

k＝1,...,K，可以得到

初始化一张都是0的尺度为h×w×1的图，将各个c_k值投射到这张图上；这个投射是根据预测的关键点在特征图上的位置进行投射的；两个值可能投射到相同的位置上。如果新的投射值比旧的值大，就用新的值替换原来的值，否则不变。如此得到的图作为e。

瞳孔定位模型第二部分的关键点位置可以再用来计算w_struc，如此实现计算的迭代，相当于瞳孔定位模型第二部分迭代多次，也可以只迭代一次。

上述实施例阐述了关键点位置的检测过程、瞳孔定位模型的结构和训练方法，以下将结合具体实施例阐述通过插值获取图像的具体过程。

本申请实施例中提供了一种可能的实现方式，如图4所示，步骤S101的获取图像的特征图之前，还可以包括：

步骤S100a，基于第一相对距离信息和第一图像确定第一插值系数；其中，所述第一相对距离信息为所述图像的像素点在所述第一图像上的像素点上的投影点与所述投影点的邻域像素点之间的相对距离信息。

其中，第一图像可以是分辨率为H×W的图像，图像可以是分辨率缩小后的h×w的图像，其中，H、W、h和w均为自然数。

本申请实施例中提供了一种可能的实现方式，确定第一插值系数，可以包括：

(1)针对图像的任一像素点，确定像素点在第一图像上的投影点。

具体的，确定像素点在第一图像上的投影点，可以包括：

a、确定第一图像的初始分辨率，并获取图像的目标分辨率；

b、基于目标分辨率和初始分辨率，将图像上的像素点投影至第一图像，得到像素点在第一图像上的投影点。

具体的，第一图像是分辨率为H×W的图像，图像是分辨率缩小后的h×w的图像，则可以依据如下公式确定投影点的坐标：

式中，

为投影点的坐标P；'(x',y')为第一图像上的像素点P’的坐标；H×W为第一图像的分辨率；h×w为图像的分辨率。

(2)获取第一图像上投影点的邻域像素点，确定领域像素点与投影点之间的第一相对距离信息。

具体的，如图5所示，图5中的501为投影点；投影点501所在的矩形方格为投影点501的四个邻域像素点所形成的方格，d0、d1、d2、d3分别为投影点501到方格四边之间的相对距离，即形成第一相对距离信息。

(3)基于第一相对距离信息和第一图像确定第一插值系数。

具体的，类似于双线性插值，对于图像上的一个像素点，将其投影到第一图像上，并根据第一图像上邻域像素点得到第一插值系数。

具体的，步骤S100a的基于第一相对距离信息和第一图像确定第一插值系数，可以包括：

a、提取第一图像的特征；

b、将特征和第一相对距离信息进行拼接，得到第一拼接特征；

c、对第一拼接特征进行卷积，得到第一插值系数。

步骤S100b，基于第一插值系数和所述第一图像的像素点进行插值，得到所述图像。

具体的，类似于双线性插值，对于图像的一个像素点，将其投影到第一图像上，并用第一图像上邻域内的几个像素点插值得到图像上像素点的值，从而生成图像。

如图6所示，上述基于第一图像得到图像的过程可以称为下采样过程，上述下采样过程可以基于下采样网络来实施，对于给定一张分辨率为H×W的第一图像，需要将其缩小到分辨率为h×w的图像，类似于双线性插值，对于图像的一个像素点，将其投影到第一图像上，并用第一图像上邻域像素点插值得到图像上的像素点的值。这个第一插值系数可以通过一个卷积网络得到。卷积网络有两个输入，一个是第一图像各点的像素值，一个是第一相对距离信息。第一图像经过卷积之后与第一相对距离信息进行拼接，再进行卷积便得到了第一插值系数。

具体的，可以参照如下公式进行插值：

I′＝I⊙α (3)

其中，I′为图像；I为第一图像；α_i为第i个像素点的第一插值系数；α_i≥0，且∑_iα_i＝1，得到的每个像素点处的第一插值系数均大于等于0且多个像素点的第一插值系数的和为1；然后根据第一图像的像素点与第一插值系数进行插值，便得到了对应的图像上的像素点。

以下将结合实例对上述过程进行进一步阐述，如图7所示，下采样网络中可以设置mypool层(拼接层)以及mycomb层(融合层)，并设置K次卷积层和sigmoid层，其中，mypool层是将上述相对空间距离信息和第一图像经过K次卷积后传来的特征进行拼接，得到一个h×w大小的特征层，然后经过后面的卷积层，就得到了一个h×w×4大小的数据块。这个数据块表示4个相邻像素点的第一插值系数。然后，mycomb层根据这4个第一插值系数以及相应的4个相邻像素值，进行加权求和得到最终的图像上的像素值。

目前第一图像没有区分多个不同通道的第一插值系数，在其他方式中，还可以对第一图像的每个channel(通道)分别推断其第一插值系数。此外，还可以对第一图像进行多个分支的卷积，得到多个感受野的特征图，然后将这些特征图组合来做系数推断，得到第一插值系数。

上述实施例中下采样网络是基于第一相对距离信息和特征进行拼接，生成第一插值系数，在其他实施方式中，还可以先对第一相对距离信息进行各种变形，例如进行平方计算等，基于变形后的第一相对距离信息和特征计算第一插值系数；且特征与第一相对距离信息的组合方式不限于在mypool层拼接的方式，还可以是在其他层进行拼接，或者在mypool层不是进行拼接，而是以其他的组合方式。

上述实施例中，在对第一图像进行处理时，可以结合第一图像的的图像特征信息以及投影点的第一相对距离信息来作为输入，可以更好的反应投影点的位置的影响，从而使得到的图像可以具有目标分辨率的同时，还可以保留第一图像的图像特征。

上述实施例和示例阐述了通过插值获取图像的具体过程，以下将结合具体实施例阐述通过去除眼部干扰物得到第一图像的过程。

本申请实施例的一种可能的实现方式，步骤S100a的基于第一相对距离信息和第一图像确定第一插值系数之前，还可以包括：

(1)从第二图像中剪切出眼部区域图像块，得到不包含眼部区域的图像；所述眼部区域图像块包括干扰物；

(2)根据所述第二图像确定瞳孔权重图；

(3)根据所述瞳孔权重图和所述眼部区域图像块，得到去除干扰物后的眼部区域图像块；

(4)将所述去除干扰物的眼部区域图像块与不包含眼部区域的图像拼接，得到第一图像或图像。

上述实施例中，可以是由第二图像去除干扰物得到第一图像，由第一图像再获取图像，也可以是第二图像去除干扰物直接得到图像。

其中，干扰物可以是位于眼部区域中，除眼睛以外的其他干扰因素，例如，眼部干扰物可以包括眼镜。

如图8所示，以原始图像中的眼部干扰物为眼镜为例，去除干扰物可以采用裸脸生成模块，裸脸生成模块对原始图像801进行人眼检测，确定原始图像中的眼部区域；并对原始图像801进行粗略瞳孔定位，得到瞳孔区域。

需要注意的是，这里得到的瞳孔区域的精度可能并没有本申请的图像检测方法最终得到的关键点位置中的瞳孔位置精确，只是对瞳孔进行大致定位。

从原始图像中剪切出包含有干扰物的眼部区域图像块，得到不包含眼部区域的图像802，并增加瞳孔区域在眼部区域中的权重，得到瞳孔权重图803，即去除掉干扰物的眼部区域，这个瞳孔权重图可以在瞳孔中心周围使用高斯分布函数得到；根据瞳孔权重图803和第一图像802，可以得到去除掉干扰物的第一图像804。

以下将阐述去除干扰物模型(去眼镜模型)的训练过程。

如图9所示，去除干扰物模型包括生成器和判别器，其中，生成器即图8中所示的裸脸生成模块。判别器是判断生成的图像是否属于裸脸。本方案的损失函数loss包含生成器的loss，以及判别器的loss。对于产生器，定义了两个损失函数，一个是瞳孔定位损失，一个是边缘匹配损失。对于瞳孔定位损失，可以让生成的裸脸图像经过上述的瞳孔定位模型，然后此瞳孔定位模型的瞳孔定位损失作为判别器的瞳孔定位损失；也可以用其他的瞳孔定位方法来进行瞳孔定位，获取瞳孔定位损失。

对于边缘匹配损失，对于原始图像的眼部区域和生成的第一图像的眼部区域分别检测边缘，并且进行高斯平滑。然后对两个边缘图像计算L1损失或者L2损失，将此损失作为边缘匹配损失，边缘匹配损失可以用于梯度反传。此处，计算边缘匹配损失时，只考虑第一图像(即不包含眼部干扰物的图形)上有边缘的地方，如此可以去除噪音的影响。对于判别器损失，可以采用Patch-GAN(Patch-Generative Adversarial Networks,基于生成式对抗网络的判别器)，并使用交叉熵损失定义。判别器损失是考虑整个裸脸图像区域，即整个第一图像。

上述实施例中，采用边缘匹配的方式来更好的保持眼睛以及瞳孔的位置不变，可以更精确的计算瞳孔的关键点位置。

上述实施例和示例阐述了通过去除眼部干扰物得到第一图像的过程，以下将结合具体实施例阐述基于人脸区域确定特征图，以及检测到关键点位置后确定置信度的过程。

本申请实施例的一种可能的实现方式，步骤S101的获取图像的特征图，可以包括：

(1)若获取到待检测视频的上一帧图像的参考人脸区域，则基于参考人脸区域确定图像中的人脸区域；

(2)若未获取到待检测视频的上一帧图像的参考人脸区域，则检测图像中的人脸区域；

(3)提取人脸区域的特征图。

具体的，可以设置跟踪失败检测网络，对于待检测视频的上一帧图像，确定上一帧图像的校正特征图的置信度，若置信度大于预设阈值，则说明上一帧图像的关键点检测成功，那么上一帧图像的的人脸区域就可以作为图像的人脸区域。

也就是说，如果上一帧图像的关键点检测成功，可以基于上一帧图像的人脸区域来确定图像的人脸区域；如果上一帧图像的关键点检测失败，则需要重新检测当前帧的人脸区域。

本申请实施例的一种可能的实现方式，还包括：

(1)确定校正特征图的置信度；

(2)根据置信度，确定目标跟踪是否成功。

具体的，若置信度大于预设阈值，则目标跟踪成功，则将图像中的人脸区域作为待检测视频的下一帧图像的参考人脸区域。

具体的，确定所述特征图的置信度，包括：

对所述特征图进行卷积操作、全连接操作以及soft-max操作，得到所述特征图的置信度。

具体的，获取到图像的特征图，对其施加卷积，并进行全连接和soft-max操作，输出一个二维向量，二维向量中的一维元素为跟踪失败概率，二维元素为跟踪成功概率，可以将二维元素设为特征图的置信度，如果这个置信度小于或等于预设阈值，则认为跟踪失败，即关键点检测失败；若置信度大于预设阈值，则跟踪成功，即关键点检测成功。

具体的，当上一帧图像跟踪成功的时候，可以计算上一帧所检测的人脸图像关键点的外接矩形框，并得到宽高之间的最大值。然后固定中心点不变，得到一个正方形。这个正方形的边长是前述最大值的s倍。s是一个正数。这个正方形作为新一帧人脸框的值，即图像的人脸框的值。如果上一帧跟踪失败，可以就在当前帧重新运行人脸检测模块，得到人脸框。

上述确定置信度的过程可以采用跟踪失败检测网络进行，跟踪失败检测网络可以包括卷积层、全连接层和soft-max层，将图像的特征图输入到跟踪失败检测网络，即可判断关键点检测是否成功。

以下将阐述跟踪失败检测网络的训练过程。

如图10所示，可以将训练后的瞳孔定位模型与跟踪失败检测网络进行连接，对跟踪失败检测网络进行训练，在训练过程中，仅对跟踪失败检测网络的参数进行调整，瞳孔定位模型已经在上述训练过程中单独训练完成，因此瞳孔定位模型在这个过程中是不需要再调整的。

将瞳孔定位模型输出的特征图通过一系列卷积层并通过soft-max层得到(0,1)之内的值，0表示跟踪失败，1表示跟踪成功。可以根据预测的关键点位置与真实关键点位置groundtruth之间的距离定义跟踪是否失败。

具体的，可以根据真实关键点位置groundtruth以及预测的关键点位置来定义置信度。给定预测的关键点位置a',以及groundtruth为

定义置信度

p是一个(0,1)的阈值。然后跟踪失败检测网络的跟踪评价值

定义为：

这里

是一个二维向量，其第一个值表示跟踪失败的概率，第二个值表示成功的概率。最终的跟踪判断的损失函数，可以使用交叉熵(cross entropy)来定义。具体的，针对任一帧图像，将图像输入到瞳孔定位模型，得到关键点位置；基于关键点位置与真实关键点位置groundtruth可以确定预测误差；基于跟踪失败检测网络可以确定跟踪评价值；然后根据跟踪评价值和预测误差可以确定损失函数，从而对跟踪失败检测网络的参数进行调整。

上述实施例中，确定图像的校正特征图的置信度，如果这个置信度小于或等于预设阈值，则认为跟踪失败，即关键点检测失败；若置信度大于预设阈值，则跟踪成功，即关键点检测成功，可以提高关键点检测的准确度的同时，还可以在关键点检测成功时将图像中的人脸区域作为待检测视频的下一帧图像的参考人脸区域，提高下一帧图像处理效率。

以下将对上述的图像处理方法的具体应用场景进行阐述。

本申请实施例的一种可能的实现方式，还包括：

基于检测得到的瞳孔的关键点位置，调整显示界面的三维显示效果。

具体的，以图像处理方法应用于终端为例，例如应用于3D手机中，可以确定瞳孔对应的关键点位置，即确定瞳孔的3D位置，根据瞳孔的3D位置确定手机界面的3D显示效果，例如手机界面上3D图标、3D视频的显示效果，并根据用户的瞳孔位置的变化调整手机界面的3D显示效果。

为了更好地理解上述的图像处理方法，以下详细阐述一个本发明的图像处理的示例：

在一个示例中，图像为人脸图像，关键点包括瞳孔关键点，眼部干扰物为眼镜；如图11所示，本申请提供的图像处理方法，可以包括如下步骤：

1)获取第二图像，即包含有眼部干扰物眼镜的图像；

2)将第二图像输入到采用裸脸生成模块，即图中所示的生成器，得到去除掉干扰物的第一图像，即图中所示的裸脸；第一图像的分辨率为H×W；

3)将第一图像输入到下采样网络，即图中所示的缩小网络，得到分辨率为h×w的图像；

4)对图像输入到瞳孔定位模型和跟踪失败检测网络，得到瞳孔关键点，并确定关键点是否检测成功；

5)若图像的瞳孔关键点检测成功，则基于图像的关键点估计下一帧图像的初始人脸框，得到下一帧的原始图像，并重复下一帧图像关键点检测的过程；

6)若图像的瞳孔关键点检测失败，则对下一帧图像进行处理时，不采用图像的关键点估计初始人脸框，而是重新进行人脸检测，估计初始人脸框，得到下一帧的原始图像，并重复下一帧图像关键点检测的过程。

上述的图像处理方法，通过确定图像的特征图的像素点的空间位置权重，基于像素点的空间位置权重对特征图进行校正，得到校正特征图，对校正特征图进行检测得到关键点位置，可以提高关键点位置检测的准确率。

本申请实施例中提供了一种可能的实现方式，如图12所示，提供了一种图像处理方法，可以包括以下步骤：

步骤S121，获取图像的特征图的候选框；

具体的，可以将图像输入到目标检测网络，例如，输入RPN(Region ProposalNetwork,区域生成网络)，得到候选矩形框。

步骤S122，将候选框内的特征图的尺寸缩放为预设尺寸的第一特征图；

步骤S123，基于第一特征图进行处理。

可选的，处理可以为目标检测、或者其他任务，例如，目标分类、目标实例分割等，本申请对此并不做限定。具体的，可以先获取图像的特征图的候选框，候选框用于确定图像中的目标类别和目标位置。

在本实施例中，可以采用上述的下采样网络将候选框内的特征图的尺寸缩放为预设尺寸，得到预设尺寸的第一特征图。

具体的，步骤S122的将候选框内的特征图的尺寸缩放为预设尺寸的第一特征图，可以包括：

(1)基于第二相对距离信息以及候选框内的特征图确定第二插值系数。

其中，所述第二相对距离信息为所述第一特征图的坐标点在所述候选框内的特征图上的投影点与所述投影点的邻域坐标点之间的相对距离信息。

在一种实施方式中，基于第二相对距离信息以及候选框内的特征图确定第二插值系数，可以包括：

a、根据候选框内的特征图和所述第二相对距离信息，得到第二拼接特征；

b、对所述第二拼接特征进行卷积，得到所述第二插值系数。

具体的，可以将特征图和第二相对距离信息进行拼接，得到第二拼接特征。

在另一种实施方式中，基于第二相对距离信息以及候选框内的特征图确定第二插值系数，可以包括：

a、将候选框内的特征图进行卷积，得到卷积特征图；

b、基于卷积特征图和第二相对距离信息，确定第二插值系数。

具体的，可以将候选框内的特征图先进行卷积，然后将得到的卷积特征图和第二相对距离信息进行拼接，获取第二插值系数。

(2)基于第二插值系数和所述候选框内的特征图进行插值，得到所述第一候选框。

具体的，类似于双线性插值，对于第一候选框内的第一特征图的任一特征，将其投影到候选框内的特征图上，得到对应的投影点，并用候选框内的特征图的投影点的邻域内的几个特征进行插值，得到第一候选框内第一特征图上的特征，从而生成第一候选框内的第一特征图，得到第一候选框。

上述的图像处理方法，通过将下采样网络应用于目标检测中，基于下采样网络计算第二插值系数，对待检测的图像的候选框内的特征图进行缩放，得到第一候选框内的第一特征图，基于缩放后的第一特征图进行目标检测，可以提高目标检测的准确率。

上述实施例通过方法流程的角度介绍图像处理方法，下述通过虚拟模块的角度进行介绍，具体如下所示：

本申请实施例提供了一种图像处理装置，如图13所示，该装置130可以包括获取模块131和检测模块132，其中：

第一获取模块131，用于获取图像的特征图和关键点；

确定模块132，用于根据特征图，确定关键点。

本申请实施例提供了一种图像处理装置，装置130还包括校正模块，用于：

确定所述特征图的像素点的空间位置权重；

基于所述像素点的空间位置权重对所述特征图进行校正，得到所述校正特征图；

确定模块132用于根据所述校正特征图，确定关键点。

本申请实施例的一种可能的实现方式，校正模块在对特征图进行校正，得到校正特征图时，具体用于：

确定特征图的像素点的空间位置权重；

基于像素点的空间位置权重对特征图进行校正，得到校正特征图。

本申请实施例的一种可能的实现方式，校正模块在确定特征图的像素点的空间位置权重时，具体用于：

检测图像的关键点的初始位置；

根据所述初始位置，得到第一权重，根据所述特征图，得到第二权重；

基于第一权重和第二权重确定空间位置权重。

本申请实施例的一种可能的实现方式，还包括插值模块，用于：

基于第一相对距离信息和第一图像确定插值系数；其中，所述第一相对距离信息为所述图像的像素点在所述第一图像上的像素点上的投影点与所述投影点的邻域像素点之间的相对距离信息；

基于插值系数和所述第一图像的像素点进行插值，得到所述图像。

本申请实施例的一种可能的实现方式，插值模块在基于第一相对距离信息和第一图像确定第一插值系数时，具体用于：

提取所述初始图像第一图像的特征；

将所述特征和所述第一相对距离信息进行拼接，得到第一拼接特征；

对所述第一拼接特征进行卷积，得到所述第一插值系数。

本申请实施例的一种可能的实现方式，还包括去除模块，用于：

从第二图像中剪切出眼部区域图像块，得到不包含眼部区域的图像；所述眼部区域图像块包括干扰物；

根据所述第二图像确定瞳孔权重图；

根据所述瞳孔权重图和所述眼部区域图像块，得到去除干扰物后的眼部区域图像块；

将所述去除干扰物的眼部区域图像块与不包含眼部区域的图像拼接，得到第一图像。

本申请实施例的一种可能的实现方式，还包括判断模块，用于：

确定校正特征图的置信度；

根据置信度，确定目标跟踪是否成功。

本申请实施例的一种可能的实现方式，所述判断模块在确定校正特征图的置信度时，具体用于：

本申请实施例的一种可能的实现方式，还包括显示模块，用于：

基于检测得到的关键点位置，调整显示界面的三维显示效果。

上述的图像处理装置，通过确定图像的特征图的像素点的空间位置权重，基于像素点的空间位置权重对特征图进行校正，得到校正特征图，对校正特征图进行检测得到关键点位置，可以提高关键点位置检测的准确率。

如图14，本申请实施例提供了一种图像处理装置140，包括：

第二获取模块141，用于获取图像的特征图的候选框；

缩放模块142，用于将候选框内的特征图的尺寸缩放为预设尺寸的第一特征图；

处理模块143，用于基于第一特征图进行处理。

本申请实施例的一种可能的实现方式，所述缩放模块142在将候选框内的特征图的尺寸缩放为预设尺寸的第一特征图时，具体用于：

基于第二相对距离信息以及候选框内的特征图确定第二插值系数；其中，第二相对距离信息为第一特征图的坐标点在候选框内的特征图上的投影点与投影点的邻域坐标点之间的相对距离信息；

基于第二插值系数和候选框内的特征图进行插值，得到第一特征图。

本申请实施例的一种可能的实现方式，所述缩放模块142在基于第二相对距离信息以及候选框内的特征图确定第二插值系数时，具体用于：

根据候选框内的特征图和第二相对距离信息，得到第二拼接特征；

对第二拼接特征进行卷积，得到第二插值系数。

本申请实施例中所提供的装置，可以通过AI(Artificial Intelligence,人工智能)模型来实现多个模块中的至少一个模块。可以通过非易失性存储器、易失性存储器和处理器来执行与AI相关联的功能。

该处理器可以包括一个或多个处理器。此时，该一个或多个处理器可以是通用处理器，例如中央处理单元(CPU)、应用处理器(AP)等、或者是纯图形处理单元，例如，图形处理单元(GPU)、视觉处理单元(VPU)、和/或AI专用处理器，例如神经处理单元(NPU)。

该一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义的操作规则或人工智能(AI)模型来控制对输入数据的处理。通过训练或学习来提供预定义的操作规则或人工智能模型。

这里，通过学习来提供指的是通过将学习算法应用于多个学习数据来得到预定义的操作规则或具有期望特性的AI模型。该学习可以在其中执行根据实施例的AI的装置本身中执行，和/或可以通过单独的服务器/系统来实现。

该AI模型可以包含多个神经网络层。每一层具有多个权重值，一个层的计算是通过前一层的计算结果和当前层的多个权重来执行的。神经网络的示例包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、生成对抗网络(GAN)、以及深度Q网络。

学习算法是一种使用多个学习数据训练预定目标装置(例如，机器人)以使得、允许或控制目标装置进行确定或预测的方法。该学习算法的示例包括但不限于监督学习、无监督学习、半监督学习、或强化学习。

本公开实施例的图片的图像处理装置可执行本公开的实施例所提供的一种图片的图像处理方法，其实现原理相类似，本公开各实施例中的图片的图像处理装置中的各模块所执行的动作是与本公开各实施例中的图片的图像处理方法中的步骤相对应的，对于图片的图像处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的图像处理方法中的描述，此处不再赘述。

上面从功能模块化的角度对本申请实施例提供的图像处理装置和图像处理装置进行介绍，接下来，将从硬件实体化的角度对本申请实施例提供的电子设备进行介绍，并同时对电子设备的计算系统进行介绍。

基于与本公开的实施例中所示的方法相同的原理，本公开的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机操作指令；处理器，用于通过调用计算机操作指令执行实施例所示的图像处理方法。与现有技术相比，本申请中的图像处理方法可以提高关键点位置检测的准确率。

在一个可选实施例中提供了一种电子设备，如图15所示，图15所示的电子设备1300包括：处理器1301和存储器1303。其中，处理器1301和存储器1303相连，如通过总线1302相连。可选地，电子设备1300还可以包括收发器1304。需要说明的是，实际应用中收发器1304不限于一个，该电子设备1300的结构并不构成对本申请实施例的限定。

处理器1301可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1302可包括一通路，在上述组件之间传送信息。总线1302可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线1302可以分为地址总线、数据总线、控制总线等。为便于表示，图15中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1303可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器1303用于存储执行本申请方案的应用程序代码，并由处理器1301来控制执行。处理器1301用于执行存储器1303中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图15示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请中的图像处理方法对校正特征图进行检测得到关键点位置，可以提高关键点位置检测的准确率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，提取模块还可以被描述为“提取特征图的模块”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像处理方法，其特征在于，包括：

获取图像的特征图；

根据所述特征图，确定关键点。

2.根据权利要求1所述的方法，其特征在于，还包括：

确定所述特征图的像素点的空间位置权重；

所述根据所述特征图，确定关键点包括：根据所述校正特征图，确定关键点。

3.根据权利要求2所述的方法，其特征在于，所述确定所述特征图的像素点的空间位置权重，包括：

检测所述图像的关键点的初始位置；

基于所述第一权重和所述第二权重确定所述空间位置权重。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述获取图像的特征图之前，还包括：

基于第一相对距离信息和第一图像确定第一插值系数；其中，所述第一相对距离信息为所述图像的像素点在所述第一图像上的投影点与所述投影点的邻域像素点之间的相对距离信息；

基于第一插值系数和所述第一图像的像素点进行插值，得到所述图像。

5.根据权利要求4所述的方法，其特征在于，所述基于第一相对距离信息和第一图像确定第一插值系数，包括：

提取所述第一图像的特征；

将所述特征和所述相对距离信息进行拼接，得到第一拼接特征；

对所述第一拼接特征进行卷积，得到所述第一插值系数。

6.根据权利要求5所述的方法，其特征在于，所述基于第一相对距离信息和第一图像确定第一插值系数之前，还包括：

根据所述第二图像确定瞳孔权重图；

将所述去除干扰物的眼部区域图像块与不包含眼部区域的图像拼接，得到所述第一图像或所述图像。

7.根据权利要求1所述的方法，其特征在于，还包括：

确定所述特征图的置信度；

根据置信度，确定目标跟踪是否成功。

8.根据权利要求7所述的方法，其特征在于，所述确定所述特征图的置信度，包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，还包括：

10.一种图像处理方法，其特征在于，包括：

获取图像的特征图的候选框；

将候选框内的特征图的尺寸缩放为预设尺寸的第一特征图；

基于第一特征图进行处理。

11.根据权利要求10所述的方法，其特征在于，所述将候选框内的特征图的尺寸缩放为预设尺寸的第一特征图，包括：

基于第二相对距离信息以及候选框内的特征图确定第二插值系数；其中，所述第二相对距离信息为所述第一特征图的坐标点在所述候选框内的特征图上的投影点与所述投影点的邻域坐标点之间的相对距离信息；

基于第二插值系数和所述候选框内的特征图进行插值，得到所述第一特征图。

12.根据权利要求11所述的方法，其特征在于，所述基于第二相对距离信息以及候选框内的特征图确定第二插值系数，包括：

根据候选框内的特征图和所述第二相对距离信息，得到第二拼接特征；

对所述第二拼接特征进行卷积，得到所述第二插值系数。

13.一种图像处理装置，其特征在于，包括：

第一获取模块，用于获取图像的特征图；

确定模块，用于根据所述特征图，确定关键点。

14.一种图像处理装置，其特征在于，包括：

第二获取模块，用于获取图像的特征图的候选框；

处理模块，用于基于第一特征图进行处理。

15.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至12任一项所述的图像处理方法。

16.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一项所述的图像处理方法。