CN116828165A

CN116828165A - 图像处理方法及装置、存储介质、电子设备

Info

Publication number: CN116828165A
Application number: CN202310622670.6A
Authority: CN
Inventors: 马思研; 陈丽莉; 李文宇; 李治富; 李言
Original assignee: BOE Technology Group Co Ltd; Beijing BOE Technology Development Co Ltd
Current assignee: BOE Technology Group Co Ltd; Beijing BOE Technology Development Co Ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-09-29

Abstract

本公开具体图像处理技术领域，具体涉及一种图像处理方法及装置、存储介质、电子设备。所述方法包括：获取深度相机采集的目标深度图像、彩色相机采集的目标彩色图像；基于深度相机与彩色相机的矩阵转换关系，将所述目标深度图像对应的原始三维点云投影至目标彩色图像，并根据匹配的投影点确定输入视点图像；确定用户视线，并根据用户视线确定所述输入视点图像中对应第二注视区域，基于第二注视区域对应的注视区域图像进行图像融合处理，以获取高清注视区域图像；对所述输入视点图像进行缩放、融合处理，以获取低清图像；对高清注视区域图像、低清图像进行图像融合处理，以获取待显示的虚拟视点图像。本方案能够提高虚拟视点图像生成算法的帧率。

Description

图像处理方法及装置、存储介质、电子设备

技术领域

本公开涉及图像处理技术领域，具体涉及一种图像处理方法、一种图像处理装置、一种存储介质，以及一种电子设备。

背景技术

在远程视频通信、VR游戏等应用场景中，可以为通话的用户创建全息影像，从而为用户提供完整且逼真的视觉体验。以全息远程视频通信的场景为例，一般利用多个相机(彩色相机或深度相机)拍摄用户和场景的高清图像经过编码后通过网络传输发送至另一端的用户设备，在设备上解码恢复原始视点图像，并根据用户需求生成一个或多个指定的虚拟视点的图像，显示在裸眼3D显示设备上为用户呈现全息通信效果。但是，目前动态场景的高分辨率虚拟视点图像生成算法通常采用深度学习算法完成，这就导致在高分辨率(1k*1k以上)的虚拟视点图像生成时，由于运算量过大导致耗时较长，无法实现系统实时显示，造成显示卡顿。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种图像处理方法、一种图像处理装置、一种存储介质，以及一种电子设备，能够在一定程度上解决现有技术中存在的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种图像处理方法，所述方法包括：

获取深度相机采集的目标深度图像、彩色相机采集的目标彩色图像；其中，所述目标彩色图像包括若干个彩色相机分别采集的多个彩色图像；

基于深度相机与彩色相机的矩阵转换关系，将所述目标深度图像对应的原始三维点云投影至目标彩色图像，并根据匹配的投影点确定输入视点图像；

确定用户视线，并根据用户视线确定所述输入视点图像中对应第二注视区域，基于第二注视区域对应的注视区域图像进行图像融合处理，以获取高清注视区域图像；以及

对所述输入视点图像进行缩放、融合处理，以获取低清图像；

对所述高清注视区域图像、低清图像进行图像融合处理，以获取待显示的虚拟视点图像。

在一些示例性实施方式中，所述确定用户视线，并根据用户视线确定所述输入视点图像中对应第二注视区域，包括：

确定用户视线在显示屏幕上当前虚拟视点图像的第一注视区域，将所述第一注视区域投影至所述目标彩色图像，以确定在所述输入视点图像中的第二注视区域。

在一些示例性实施方式中，所述获取用户视线在显示屏幕上当前虚拟视点图像的第一注视区域，包括：

对第一相机采集的人脸图像进行关键点检测，确定关键点在人脸图像坐标系下的关键点坐标；

根据眼部关键点的关键点坐标进行圆形拟合处理确定眼部瞳孔在第一相机坐标系下的瞳孔坐标；

根据眼部关键点的关键点像素坐标进行平面拟合处理，根据拟合平面确定人眼中心点在人脸坐标系下的人眼中心坐标；基于第一相机与人脸坐标系的坐标转换关系，确定人眼中心点在第一相机坐标系下的人眼中心坐标；

根据第一相机坐标系与屏幕坐标系之间的坐标转换关系，根据所述瞳孔坐标、人眼中心坐标确定屏幕坐标系下的视线方向；

根据视线方向划定注视区域。

在一些示例性实施方式中，所述对第一相机采集的人脸图像进行关键点检测，确定关键点在人脸图像坐标系下的关键点坐标，包括：

对所述人脸图像进行人脸检测，确定预设关键点在图像坐标系下的像素坐标；

基于图像坐标系与第一相机坐标系之间坐标转换关系确定关键点在第一相机坐标系下的关键点坐标；

获取人脸坐标系与第一相机坐标系的转换矩阵，以利用该转换矩阵获取所述关键点在人脸坐标系下的关键点坐标。

在一些示例性实施方式中，所述根据眼部关键点的关键点坐标进行圆形拟合处理确定眼部瞳孔在第一相机坐标系下的瞳孔坐标，包括：

根据眼部关键点集合获取眼部区域图像；

对所述眼部区域图像进行圆形拟合处理，获取眼部瞳孔在图像坐标系下的像素坐标；

根据眼部关键点集合中各关键点在第一相机坐标系下的坐标信息计算平均深度值，并将该深度值配置为眼部瞳孔的深度值；

结合眼部瞳孔在图像坐标系下的像素坐标、眼部瞳孔的深度值确定眼部瞳孔在第一相机坐标系下的瞳孔坐标。

在一些示例性实施方式中，所述根据拟合平面确定人眼中心点在人脸坐标系下的人眼中心坐标，包括：

确定所述拟合平面的几何中心；

过几何中心向第一方向构建该拟合平面的垂线；

在所述垂线的预设长度处配置为人眼中心点，以获取所述人眼中心点在人脸坐标系下的人眼中心坐标。

在一些示例性实施方式中，所述基于深度相机与彩色相机的矩阵转换关系，将所述目标深度图像对应的原始三维点云投影至目标彩色图像，以根据匹配的投影点确定输入视点图像，包括：

基于深度相机与彩色相机的转换关系，将所述目标深度图像对应的原始三维点云分别投影至各所述目标彩色图像，以获取各目标彩色图像中各匹配投影点的深度信息；

根据所述目标彩色图像中的匹配投影点投影至预设虚拟视点图像，以获取多个输入视点图像。

在一些示例性实施方式中，所述方法还包括：对所述目标彩色图像进行图像识别，并根据图像识别结果清除背景区域，以根据清除背景区域后的目标彩色图像计算输入视点图像。

根据本公开的第二方面，提供一种图像处理装置，所述装置包括：

图像数据获取模块，用于获取深度相机采集的目标深度图像、彩色相机采集的目标彩色图像；其中，所述目标彩色图像包括若干个彩色相机分别采集的多个彩色图像；

投影变换模块，用于基于深度相机与彩色相机的矩阵转换关系，将所述目标深度图像对应的原始三维点云投影至目标彩色图像，并根据匹配的投影点确定输入视点图像；

高清图像获取模块，用于确定用户视线，并根据用户视线确定所述输入视点图像中对应第二注视区域，基于第二注视区域对应的注视区域图像进行图像融合处理，以获取高清注视区域图像；以及

低清图像获取模块，用于对所述输入视点图像进行缩放、融合处理，以获取低清图像；

虚拟视点图像生成模块，用于对所述高清注视区域图像、低清图像进行图像融合处理，以获取待显示的虚拟视点图像。

根据本公开的第三方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的图像处理方法。

根据本公开的第四方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令时实现上述的图像处理方法。

本公开的一种实施例所提供的图像处理方法，通过对目标深度图像对应的原始三维点云投影至各目标彩色图像，来根据投影点确定对应的多个输入视点图像，再根据用户视线在各输入视点图像上的第二注视区域的图像进行图像融合，从而可以得到用户视线注视区域的高清注视区域图像；再通过将各输入视点图像进行缩放、融合处理，得到低清图像；再将高清注视区域图像和低清图像进行融合处理得到虚拟视点图像，从而可以实现用户视线注视区域保持原尺寸生成，而非注视区域缩小至指定尺寸，从而有效的降低参与运算的数据量，降低模型的运算量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种图像处理方法的示意图；

图2示意性示出本公开示例性实施例一种系统架构的示意图；

图3示意性示出本公开示例性实施例一种相机位置分布的示意图；

图4示意性示出本公开示例性实施例中一种面部关键点位置分布的示意图；

图5示意性示出本公开示例性实施例中一种注视区域的示意图的示意图；

图6示意性示出本公开示例性实施例中一种图像处理装置的组成示意图；

图7示意性示出本公开示例性实施例中一种电子设备的组成示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在相关技术中，在全息远程视频通信领域中，为给客户提供完整且逼真的视觉体验，通常采用多个相机拍摄用户和场景的高清图像经过编码后通过网络传输发送至另一端的用户设备，在设备上解码恢复原始视点图像，并根据用户需求生成一个或多个指定的虚拟视点的图像，显示在裸眼3D显示设备上为用户呈现全息通信效果。但是目前动态场景的高分辨率虚拟视点图像生成算法通常采用深度学习算法完成，这就导致在高分辨率的虚拟视点图像生成时，由于运算量过大导致耗时较长，无法实现系统实时，造成显示卡顿。

针对现有技术的缺点和不足，本示例实施方式中提供了一种图像处理方法，可以应用于全息影像的生成。参考图1中所示，提供的图像处理方法可以包括：

步骤S11，获取深度相机采集的目标深度图像、彩色相机采集的目标彩色图像；其中，所述目标彩色图像包括若干个彩色相机分别采集的多个彩色图像；

步骤S12，基于深度相机与彩色相机的矩阵转换关系，将所述目标深度图像对应的原始三维点云投影至目标彩色图像，并根据匹配的投影点确定输入视点图像；

步骤S13，确定用户视线，并根据用户视线确定所述输入视点图像中对应第二注视区域，基于第二注视区域对应的注视区域图像进行图像融合处理，以获取高清注视区域图像；以及

步骤S14，对所述输入视点图像进行缩放、融合处理，以获取低清图像；

步骤S15，对所述高清注视区域图像、低清图像进行图像融合处理，以获取待显示的虚拟视点图像。

本示例实施方式所提供的图像处理方法，通过对目标深度图像对应的原始三维点云投影至各目标彩色图像，来根据投影点确定对应的多个输入视点图像，再根据用户视线在各输入视点图像上的第二注视区域的图像进行图像融合，从而可以得到用户视线注视区域的高清注视区域图像；再通过将各输入视点图像进行缩放、融合处理，得到低清图像；再将高清注视区域图像和低清图像进行融合处理得到虚拟视点图像，从而可以实现用户视线注视区域保持原尺寸生成，而非注视区域缩小至指定尺寸，从而有效的降低参与运算的数据量，降低模型的运算量。

下面，将结合附图及实施例对本示例实施方式中的图像处理方法的各个步骤进行更详细的说明。

在步骤S11中，获取深度相机采集的目标深度图像、彩色相机采集的目标彩色图像；其中，所述目标彩色图像包括若干个彩色相机分别采集的多个彩色图像。

本示例实施方式中，参考图2所示的系统架构，在基于全息影像的远程视频通信场景中，可以提供一发送端201、接收端202，发送端201、接收端202之间可通过有线通信链路、无线通信链路等网络进行数据传输。参考图3所示，发送端201和接收端202的终端设备可以包括显示屏幕，在显示屏幕上端中心位置设置彩色相机C0，作为人脸捕捉相机；在相机C0下方布置深度相机D0，用于获取用户视线的注视区域深度信息；在显示屏幕的各角对称布置彩色相机C1-C4，用于采集原始视点图像。对于各相机来说，用户的体验区域为距离屏幕约1m远处，可以调整各相机角度，使各相机光轴相交于人体的中心处，各相机视角均可完整覆盖人体所在区域。显示屏幕可以为裸眼3D显示设备。

在各终端设备侧，可以预先利用标定板和平面镜标定出各相机(彩色相机、深度相机)之间的变换矩阵^jT_i,i≠j,i,j＝C0,C1,C2,C3,C4,D0；以及各相机内参K_i,i＝C0,C1,C2,C3,C4,D0；以及彩色相机C0坐标系到屏幕坐标系的变换矩阵^sT_C0。根据用户需求可以设定虚拟视点位置，其位置通过设定^C0T_n确定，内参为K_n。

终端设备可以控制显示屏幕上布置的彩色相机和深度相机同步采集彩色图像和深度图像，并实时传输至对端的终端设备。同时，可以将各相机的内参，各相机坐标系之间的变换矩阵传输至对端设备。

或者，在一些示例性实施方式中，上述方法还可以包括：对所述目标彩色图像进行图像识别，并根据图像识别结果清除背景区域，以根据清除背景区域后的目标彩色图像计算输入视点图像。

具体的，对于终端设备来说，在利用彩色相机C1-C4、深度相机D0采集彩色图像和深度图像后，还可以首先进行图像识别处理，提取图像中的人体区域，删除背景区域；再将仅包含人体区域的目标彩色图像发送至对端设备。从而可以减小图像传输的数据量，提升数据传输效率。或者，也可以是终端设备在接收到目标彩色图像后，首先进行背景识别，并删除彩色图像中的背景区域，仅保留人体区域作为目标彩色图像。从而可以提升后续投影点计算的效率。举例来说，可以采用Back Ground Matting等经典的背景去除算法，用于去除背景区域，仅保留彩色图像中的用户身体区域。

在步骤S12中，基于深度相机与彩色相机的矩阵转换关系，将所述目标深度图像对应的原始三维点云投影至目标彩色图像，并根据匹配的投影点确定输入视点图像。

本示例实施方式中，上述的步骤S12可以包括：

步骤S121，基于深度相机与彩色相机的转换关系，将所述目标深度图像对应的原始三维点云分别投影至各所述目标彩色图像，以获取各目标彩色图像中各匹配投影点的深度信息；

步骤S122，根据所述目标彩色图像中的匹配投影点投影至预设虚拟视点图像，以获取多个输入视点图像。

具体来说，对于彩色相机C1-C4采集的彩色图像，即目标彩色图像，可以作为原始视点图像。对于深度相机采集的目标深度图像，可以首先转换为对应的原始三维点云数据。对于获取的原始三维点云数据，可以利用预先标定的深度相机坐标与彩色相机坐标系之间的变换矩阵与相机内参，将原始三维点云数据中的用户身体区域分别投影至各目标彩色图像上，从而获取各彩色图像上人体区域内的像素点对应的深度信息。具体的，在将原始三维点云与目标彩色图像进行投影时，若投影点不在人体区域内，则可以从目标彩色图像上舍弃该像素点，在获取各目标彩色图像上人体区域的各像素点的深度信息后，可以将其投影至期望获取的虚拟视点图像，其像素值即为目标彩色图像上的颜色。至此，可以获取各目标彩色图像对应的输入视点图像。

或者，在执行投影运算的目标彩色图像为人体区域图像时，在将深度图像向目标彩色图像投影时，若彩色图像上人体区域内的任意像素点缺少对应的投影点时，则可以选取与该像素点距离最近的投影点对应的的深度信息进行替代，作为本像素点的深度信息。

在步骤S13中，确定用户视线，并根据用户视线确定所述输入视点图像中对应第二注视区域，基于第二注视区域对应的注视区域图像进行图像融合处理，以获取高清注视区域图像。

本示例实施方式中，对于终端设备来说，可以实时的利用相机C0采集的图像来计算用户当前视线在显示屏幕上的注视区域。因此，步骤S13可以是与步骤S12同步执行的；或者，终端设备可以预先计算用户实现对应的注视区域。

本示例实施方式中，所述确定用户视线，并根据用户视线确定所述输入视点图像中对应第二注视区域，包括：确定用户视线在显示屏幕上当前虚拟视点图像的第一注视区域，将所述第一注视区域投影至所述目标彩色图像，以确定在所述输入视点图像中的第二注视区域。

具体而言，所述获取用户视线在显示屏幕上当前虚拟视点图像的第一注视区域，包括：

步骤S21，对第一相机采集的人脸图像进行关键点检测，确定关键点在人脸图像坐标系下的关键点坐标；

步骤S22，根据眼部关键点的关键点坐标进行圆形拟合处理确定眼部瞳孔在第一相机坐标系下的瞳孔坐标；

步骤S23，根据眼部关键点的关键点像素坐标进行平面拟合处理，根据拟合平面确定人眼中心点在人脸坐标系下的人眼中心坐标；基于第一相机与人脸坐标系的坐标转换关系，确定人眼中心点在第一相机坐标系下的人眼中心坐标；

步骤S24，根据第一相机坐标系与屏幕坐标系之间的坐标转换关系，根据所述瞳孔坐标、人眼中心坐标确定屏幕坐标系下的视线方向；

步骤S25，根据视线方向划定注视区域。

本示例实施方式中，在上述的步骤S21中，对第一相机采集的人脸图像进行关键点检测，确定关键点在人脸图像坐标系下的关键点坐标，包括：

具体的，第一相机可以为上述的彩色相机C0。参考图4所示，可以为人脸预先配置对应的关键点分布位置。利用彩色相机C0采集人脸图像，可以首先进行畸变校正，对于畸变校正后的人脸图像可以获取各像素点在人脸图像坐标系下的坐标。基于图4所示的关键点分布检测人脸图像中68个关键点在图像上的像素坐标(u₀,v₀)～(u₆₇,v₆₇)。利用相机C0的内参可以确定各关键点在C0相机坐标系下的坐标；利用人脸图像的各关键点的像素坐标与人脸坐标系下的人脸模板进行关键点一一对应，可以利用位姿估计算法将人脸坐标系下的人脸模板，与人脸图像中各关键点进行一一对应，可以获取人脸在相机C0坐标系下的位姿；由各关键点在人脸坐标系下的人脸模板的坐标信息、人脸在相机C0坐标系下的位姿信息，可以估计出人脸坐标系到相机C0坐标系的变换矩阵^C0T_face；基于该变换矩阵，可以计算各关键点在人脸坐标系下的三维坐标(X₀,Y₀,Z₀)～(X₆₇,Y₆₇,Z₆₇)。

本示例实施方式中，在上述的步骤S22中，所述根据眼部关键点的关键点坐标进行圆形拟合处理确定眼部瞳孔在第一相机坐标系下的瞳孔坐标，包括：

根据眼部关键点集合获取眼部区域图像；

具体的，参考图4所示，左眼区域对应的关键点37-42，可以采用二值化、腐蚀、膨胀等传统图像算法获取瞳孔区域，并进行圆形拟合，得到左眼瞳孔在图像上的像素坐标(u_l,v_l)，取三维关键点37～42的平均深度为当前左眼瞳孔在相机C0坐标系下的深度，并根据内参K_C0计算出其三维坐标P_l为(X_l,Y_l,Z_l)。对应的，右眼区域的关键点43-48可以利用相同的方式获取右眼通孔在相机C0坐标系下的三维坐标。

本示例实施方式中，在上述的步骤S23中，所述根据拟合平面确定人眼中心点在人脸坐标系下的人眼中心坐标，具体可以包括：

确定所述拟合平面的几何中心；

过几何中心向第一方向构建该拟合平面的垂线；

具体来说，在人脸坐标系下，对于左眼区域，可以利用关键点37～42拟合出平面P，并计算几何中心Center，过Center作该平面向人头内部方向的垂线L；已知人眼直径约为21～25mm，取垂线长度为23mm处为人眼中心C_e，则左眼中心点坐标为同理，利用关键点43-48，根据上述的方法可以确定右眼中心点在人脸坐标系下的坐标。然后，基于上述获取的相机C0坐标系与人脸坐标系的变换矩阵^C0T_face，可以计算得到左眼中心点、右眼中心点在相机C0坐标系下的人眼中心坐标。

本示例实施方式中，在上述的步骤S24中，在相机C0坐标系下，根据左眼瞳孔坐标P_l和左眼中心点坐标可确定左眼的视线。同理，利用右眼通孔坐标和右眼中心点坐标确定右眼视线。基于相机C0坐标系与屏幕坐标系之间预先标定的变换矩阵^sT_C0，将左眼视线、右眼视线分别变换至屏幕坐标系，从而可以确定左眼视线、右眼视线在屏幕上的注视点，即用户实现当前在虚拟视点图像上的注视点。

本示例实施方式中，在上述的步骤S25中，根据屏幕坐标系下左眼注视点、右眼注视点，建立注视点连线，以注视点连线中点为注视区域中心，参考图5所示，取r*r矩形区域范围为人眼此时在屏幕上的注视区域。其中，r可根据用户需求设定。在获取屏幕坐标系下注视区域的坐标后，根据显示设备的屏幕分辨率和物理尺寸可以确定虚拟视点图像上的注视区域Rect，即上述定用户视线在显示屏幕上显示的当前虚拟视点图像的第一注视区域。例如，可以设置第一注视区域的尺寸为256*256。

本示例实施方式中，在步骤S13中，对于采集的目标深度图像，可以将对应的三维点云数据通过变换矩阵ⁿT_D转换至虚拟视点坐标系中；并根据虚拟视点内参转换到虚拟视点图像上。由虚拟视点图像上的注视区域Rect获取在注视区域内的三维点云，再将点云通过变换矩阵ⁱT_n,i＝C1,C2,C3,C4和内参K_i,i＝C1,C2,C3,C4投影至输入视点图像中，利用最小矩形框包围投影点，为保证尺寸的一致性，以最小矩形框中心为中心选取Rect相同尺寸为各输入视点图像上的注视区域Rect_i,i＝C1,C2,C3,C4。从而得到各输入视点图像上对应的第二注视区域的注视区域图像。其中，变换矩阵ⁿT_D可以是深度相机坐标系与虚拟视点坐标系的变换矩阵。虚拟视点坐标系可以是虚拟相机对应的坐标系，虚拟视点图像为期望的虚拟视点图像，即期望显示在裸眼3D设备上的图像。

可以预先训练基于UNet网络的虚拟视点图像生成模型。对于4个输入视点图像对应的注视区域图像，可以作为模型的输入，按照通道维度拼接构成256*256*12的输入数据，利用模型进行图像融合处理，输出高清注视区域图像。一般来说，UNet网络可以包括主干特征提取网络，利用主干部分进行下采样得多个特征层，各执行下采样的特征提取层可以是卷积和最大池化的堆叠。利用主干特征提取部分我们可以获得五个初步有效特征层。UNet网络还可以包括加强特征提取网络，利用获取到的五个初步有效特征层进行上采样，并且进行特征融合，获得一个最终的，融合了所有特征的有效特征层。UNet网络还可以包括预测网络，利用最终获得的最后一个有效特征层对每一个特征点进行分类，相当于对每一个像素点进行分类。

在步骤S14中，对所述输入视点图像进行缩放、融合处理，以获取低清图像。

本示例实施方式中，对于各输入视点图像，可以进行缩放处理。例如，由原始尺寸的1024*1024缩小至256*256；再将缩放后的输入视点图像输入基于UNet网络的图像融合模型，输出尺寸为256*256的融合后的图像，再将该图像拉伸至1024*1024尺寸，从而得到非关注区域的低清图像。

在步骤S15中，对所述高清注视区域图像、低清图像进行图像融合处理，以获取待显示的虚拟视点图像。

本示例实施方式中，在获取高清注视区域图像、低清图像后，可以对两图像进行图像融合处理，得到融合后的虚拟视点图像。为了使高、低清区域的过渡更加平滑，可以对高低清区域的交接处做均值滤波处理，处理宽度为高清区域边长的1/16即16个像素。在生成虚拟图像视点图像中，用户视线的注视区域为高清图像，其余的区域为低清图像。

本公开实施例所提供的图像处理方法，可以应用于裸眼3D场景下的虚拟视点图像的生成。可以利用彩色相机C0采集脸部图像，并利用脸部图像来计算用户视线在屏幕上的注视区域，继而可以确定用户视线在虚拟视点图像的注视区域。对于深度相机D0和彩色相机C1-C4采集的深度图像和彩色图像，可以首先对各图像进行背景识别，并删除背景区域，保留人体区域图像，并利用各相机之间的变换矩阵和内存，将深度图像向各彩色图像进行投影，确定匹配的投影点，进而可以获取输入视点图像，再将输入视点图像上对应的注视区域作为高清图像，作为UNet网络模型的输入，从而可以输出用户视线注视区域对应的高清图像。例如，原始图像的分辨率可以为1024*1024，在各输入视点图像上截取尺寸256*256的注视区域图像再输入模型中进行融合处理，输出256*256的高清注视区域图像。同时，可以将各输入视点图像由1024*1024缩放至256*256，输入模型中，输出尺寸为256*256的输出图像再拉伸至1024*1024，得到低清图像，实现高清区域、低清区域的分级处理；再将高清图像和低清图像进行图像融合处理，得到期望显示的虚拟视点图像。在该图像中保证用户视线注视区域为高清，而其余部分低清；从而提供了一种基于注视区域的虚拟视点图像生成方案，解决了全息远程视频通信场景中高分辨率虚拟视点图像生成时运算量大、帧率低的问题，可显著提高虚拟视点图像生成算法的帧率、改善用户体验效果。通过解析用户的视线方向确定用户在屏幕即虚拟视点图像上的注视区域，对于用户关注的注视区域采用原尺寸生成虚拟视点图像，而非注视区域由于其重要性较低可压缩至低分辨率进行生成。有效的减小模型的运算量。

需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图6所示，本示例的实施方式中还提供一种图像处理装置60，可以应用于终端设备；所述装置包括：图像数据获取模块601、投影变换模块602、高清图像获取模块603、低清图像获取模块604、虚拟视点图像生成模块605。其中，

所述图像数据获取模块601可以用于获取深度相机采集的目标深度图像、彩色相机采集的目标彩色图像；其中，所述目标彩色图像包括若干个彩色相机分别采集的多个彩色图像。

所述投影变换模块602可以用于基于深度相机与彩色相机的矩阵转换关系，将所述目标深度图像对应的原始三维点云投影至目标彩色图像，并根据匹配的投影点确定输入视点图像。

所述高清图像获取模块603可以用于确定用户视线，并根据用户视线确定所述输入视点图像中对应第二注视区域，基于第二注视区域对应的注视区域图像进行图像融合处理，以获取高清注视区域图像。

所述低清图像获取模块604可以用于对所述输入视点图像进行缩放、融合处理，以获取低清图像。

所述虚拟视点图像生成模块605可以用于对所述高清注视区域图像、低清图像进行图像融合处理，以获取待显示的虚拟视点图像。

在一些示例性实施方式中，所述高清图像获取模块603可以用于确定用户视线在显示屏幕上当前虚拟视点图像的第一注视区域，将所述第一注视区域投影至所述目标彩色图像，以确定在所述输入视点图像中的第二注视区域。

在一些示例性实施方式中，所述高清图像获取模块603可以用于对第一相机采集的人脸图像进行关键点检测，确定关键点在人脸图像坐标系下的关键点坐标；根据眼部关键点的关键点坐标进行圆形拟合处理确定眼部瞳孔在第一相机坐标系下的瞳孔坐标；根据眼部关键点的关键点像素坐标进行平面拟合处理，根据拟合平面确定人眼中心点在人脸坐标系下的人眼中心坐标；基于第一相机与人脸坐标系的坐标转换关系，确定人眼中心点在第一相机坐标系下的人眼中心坐标；根据第一相机坐标系与屏幕坐标系之间的坐标转换关系，根据所述瞳孔坐标、人眼中心坐标确定屏幕坐标系下的视线方向；根据视线方向划定注视区域。

在一些示例性实施方式中，所述高清图像获取模块603可以用于对所述人脸图像进行人脸检测，确定预设关键点在图像坐标系下的像素坐标；基于图像坐标系与第一相机坐标系之间坐标转换关系确定关键点在第一相机坐标系下的关键点坐标；获取人脸坐标系与第一相机坐标系的转换矩阵，以利用该转换矩阵获取所述关键点在人脸坐标系下的关键点坐标。

在一些示例性实施方式中，所述高清图像获取模块603可以用于根据眼部关键点集合获取眼部区域图像；对所述眼部区域图像进行圆形拟合处理，获取眼部瞳孔在图像坐标系下的像素坐标；根据眼部关键点集合中各关键点在第一相机坐标系下的坐标信息计算平均深度值，并将该深度值配置为眼部瞳孔的深度值；结合眼部瞳孔在图像坐标系下的像素坐标、眼部瞳孔的深度值确定眼部瞳孔在第一相机坐标系下的瞳孔坐标。

在一些示例性实施方式中，所述高清图像获取模块603可以用于确定所述拟合平面的几何中心；过几何中心向第一方向构建该拟合平面的垂线；在所述垂线的预设长度处配置为人眼中心点，以获取所述人眼中心点在人脸坐标系下的人眼中心坐标。

在一些示例性实施方式中，所述投影变换模块602可以用于基于深度相机与彩色相机的转换关系，将所述目标深度图像对应的原始三维点云分别投影至各所述目标彩色图像，以获取各目标彩色图像中各匹配投影点的深度信息；根据所述目标彩色图像中的匹配投影点投影至预设虚拟视点图像，以获取多个输入视点图像。

在一些示例性实施方式中，所述装置还包括：图像背景去除模块。所述图像背景去除模块可以用于对所述目标彩色图像进行图像识别，并根据图像识别结果清除背景区域，以根据清除背景区域后的目标彩色图像计算输入视点图像。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

图7示出了适于用来实现本发明实施例的电子设备的示意图。

需要说明的是，图7示出的电子设备1000仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备1000包括中央处理单元(Central Processing Unit，CPU)1001，其可以根据存储在只读存储器(Read-Only Memory，ROM)1002中的程序或者从储存部分1008加载到随机访问存储器(Random Access Memory，RAM)1003中的程序而执行各种适当的动作和处理。例如，中央处理单元101可以执行如图1中所示的步骤，来实现上述的行人检测方法。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output，I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的储存部分1008；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1009。其中，液晶显示器可以是裸眼3D显示设备。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入储存部分1008。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的系统中限定的各种功能。

具体来说，上述的电子设备可以是服务器、平板电脑或者笔记本电脑等智能设备，并能执行上述的应用于代理服务器或物联网平台的物联网设备交互管理方法。或者，上述的电子设备也可以是物联网设备，能执行上述的应用于物联网设备的物联网设备交互管理方法。

需要说明的是，本发明实施例所示的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何存储介质，该存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

需要说明的是，作为另一方面，本申请还提供了一种存储介质，该存储介质可以是电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现应用于代理服务器、物联网平台或物联网设备的方法的各个步骤。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像处理方法，其特征在于，所述确定用户视线，并根据用户视线确定所述输入视点图像中对应第二注视区域，包括：

3.根据权利要求2所述的图像处理方法，其特征在于，所述获取用户视线在显示屏幕上当前虚拟视点图像的第一注视区域，包括：

根据视线方向划定注视区域。

4.根据权利要求3所述的图像处理方法，其特征在于，所述对第一相机采集的人脸图像进行关键点检测，确定关键点在人脸图像坐标系下的关键点坐标，包括：

5.根据权利要求3所述的图像处理方法，其特征在于，所述根据眼部关键点的关键点坐标进行圆形拟合处理确定眼部瞳孔在第一相机坐标系下的瞳孔坐标，包括：

根据眼部关键点集合获取眼部区域图像；

6.根据权利要求3所述的图像处理方法，其特征在于，所述根据拟合平面确定人眼中心点在人脸坐标系下的人眼中心坐标，包括：

确定所述拟合平面的几何中心；

过几何中心向第一方向构建该拟合平面的垂线；

7.根据权利要求1所述的图像处理方法，其特征在于，所述基于深度相机与彩色相机的矩阵转换关系，将所述目标深度图像对应的原始三维点云投影至目标彩色图像，以根据匹配的投影点确定输入视点图像，包括：

8.根据权利要求1或7所述的图像处理方法，其特征在于，所述方法还包括：

对所述目标彩色图像进行图像识别，并根据图像识别结果清除背景区域，以根据清除背景区域后的目标彩色图像计算输入视点图像。

9.一种图像处理装置，其特征在于，所述装置包括：

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的图像处理方法。

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任一项所述的图像处理方法。