CN109754461A

CN109754461A - 图像处理方法及相关产品

Info

Publication number: CN109754461A
Application number: CN201811643004.6A
Authority: CN
Inventors: 赵培骁; 虞勇波; 黄轩; 王孝宇
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-14
Also published as: WO2020134818A1

Abstract

本申请实施例提供了一种图像处理方法及相关产品，所述方法包括：通过单摄像头获取指定区域的视频流；对所述视频流进行采样，得到多张视频图像；对所述多张视频图像进行预处理，得到预处理后的所述多张视频图像；根据预处理后的所述多张视频图像进行深度特征提取，得到特征集；依据所述特征集生成深度图；依据点云数据处理技术对所述深度图进行处理，得到3D图像。通过本申请实施例可以降低三维重建的实现成本。

Description

图像处理方法及相关产品

技术领域

本申请涉及图像处理技术领域，具体涉及一种图像处理方法及相关产品。

背景技术

随着人工智能技术的发展与进步，三维重建技术已经大量应用于许多前沿科技之中，是计算机视觉、医学图像处理、科学计算和虚拟现实、数字媒体创作等领域的共性科学问题和核心技术。

传统上三维重建多是基于场景点云数据来实现，而点云数据的获取多是通过多摄像头、激光摄像头等获取，而获取之后还需要三维匹配等多个步骤，这就带来了系统成本高、对系统计算能力要求高、无法做到小型化等问题。

发明内容

本申请实施例提供了一种图像处理方法及相关产品，可以降低三维重建的实现成本。

本申请实施例第一方面提供了一种图像处理方法，包括：

通过单摄像头获取指定区域的视频流；

对所述视频流进行采样，得到多张视频图像；

对所述多张视频图像进行预处理，得到预处理后的所述多张视频图像；

根据预处理后的所述多张视频图像进行深度特征提取，得到特征集；

依据所述特征集生成深度图；

依据点云数据处理技术对所述深度图进行处理，得到3D图像。

可选地，所述根据所述多张视频图像进行深度特征提取，得到特征集，包括：

对预处理后的所述多张视频图像中每一张视频图像进行图像质量评价，得到多个图像质量评价值；

从所述多个图像质量评价值中选取最大值，并将该最大值对应的预处理后的视频图像输入到预设卷积神经网络，得到特征集。

可选地，在所述多张视频图像中每一张视频图像包括人脸的情况下，

所述对预处理后的所述多张视频图像中每一张视频图像进行图像质量评价，得到多个图像质量评价值，包括：

对视频图像i进行图像分割，得到目标人脸图像，所述视频图像i为所述预处理后的所述多张视频图像中的任一帧视频图像；

获取目标人脸图像，并获取所述目标人脸图像的二维角度值，所述二维角度值包括x角度值、y角度值；

获取所述二维角度值对应的二个权值，其中，所述x角度值对应的目标第一权值，所述y角度值对应的目标第二权值，所述目标第一权值与所述目标第二权值之和为1；

依据所述x角度值、所述y角度值、所述目标第一权值、所述目标第二权值进行加权运算，得到目标角度值；

按照预设的角度值与角度质量评价值之间的映射关系，确定所述目标角度值对应的图像质量评价值。

可选地，所述获取所述二维角度值对应的二个权值，包括：

获取目标环境亮度值；

按照预设的环境亮度值与映射关系之间的映射关系，确定所述目标环境亮度值对应的目标映射关系，每一映射关系包括x方向的角度值与第一权值之间的第一映射关系；

依据所述目标映射关系确定所述x角度值对应的所述目标第一权值；

依据所述目标第一权值确定所述目标第二权值。

本申请实施例第二方面提供了一种图像处理装置，包括:

获取单元，用于通过单摄像头获取指定区域的视频流；

采样单元，用于对所述视频流进行采样，得到多张视频图像；

预处理单元，用于对所述多张视频图像进行预处理，得到预处理后的所述多张视频图像；

提取单元，用于根据预处理后的所述多张视频图像进行深度特征提取，得到特征集；

生成单元，用于依据所述特征集生成深度图；

处理单元，用于依据点云数据处理技术对所述深度图进行处理，得到3D图像。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

实施本申请实施例，具备如下有益效果：

可以看出，通过本申请实施例所描述的图像处理方法及相关产品，通过单摄像头获取指定区域的视频流，对视频流进行采样，得到多张视频图像，对多张视频图像进行预处理，得到预处理后的多张视频图像，根据预处理后的多张视频图像进行深度特征提取，得到特征集，依据特征集生成深度图，依据点云数据处理技术对深度图进行处理，得到3D图像，如此，能够通过单摄像头采集视频图像，并经过采样，预处理，以及特征提取，得到特征集，将该特征集转化为深度图，并通过点云数据处理技术实现3D场景图，进而，降低了三维重现成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例提供的一种图像处理方法的实施例流程示意图；

图1B是本申请实施例提供的预设卷积神经网络的结构示意图；

图1C是本申请实施例提供的任一视频图像的演示效果图；

图1D是本申请实施例提供的图1C中任一视频图像的深度图；

图1E是本申请实施例提供的点云数据处理技术的简单原理图；

图2是本申请实施例提供的一种图像处理方法的另一实施例流程示意图；

图3是本申请实施例提供的一种图像处理装置的实施例结构示意图；

图4是本申请实施例提供的一种电子设备的实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所描述电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备(MID，MobileInternet Devices)或穿戴式设备等，上述仅是举例，而非穷举，包含但不限于上述装置，当然，上述电子设备还可以为服务器。

需要说明的是，本申请实施例中的电子设备可与多个摄像头连接，每一摄像头均可用于抓拍视频图像，每一摄像头均可有一个与之对应的位置标记，或者，可有一个与之对应的编号。通常情况下，摄像头可设置在公共场所，例如，学校、博物馆、十字路口、步行街、写字楼、车库、机场、医院、地铁站、车站、公交站台、超市、酒店、娱乐场所等等。摄像头在拍摄到视频图像后，可将该视频图像保存到电子设备所在系统的存储器。存储器中可存储有多个图像库，每一图像库可包含同一人的不同视频图像，当然，每一图像库还可以用于存储一个区域的视频图像或者某个指定摄像头拍摄的视频图像。

进一步可选地，本申请实施例中，摄像头拍摄的每一帧视频图像均对应一个属性信息，属性信息为以下至少一种：视频图像的拍摄时间、视频图像的位置、视频图像的属性参数(格式、大小、分辨率等)、视频图像的编号和视频图像中的人物特征属性。上述视频图像中的人物特征属性可包括但不仅限于：视频图像中的人物个数、人物位置、人物角度值、年龄、图像质量等等。

进一步需要说明的是，每一摄像头采集的视频图像通常为动态人脸图像，因而，本申请实施例中可以对人脸图像的角度值信息进行规划，上述角度值信息可包括但不仅限于：水平转动角度值、俯仰角或者倾斜度。例如，可定义动态人脸图像数据要求两眼间距不小于30像素，建议60像素以上。水平转动角度值不超过±30°、俯仰角不超过±20°、倾斜角不超过±45°。建议水平转动角度值不超过±15°、俯仰角不超过±10°、倾斜角不超过±15°。例如，还可对人脸图像是否被其他物体遮挡进行筛选，通常情况下，饰物不应遮挡脸部主要区域，饰物如深色墨镜、口罩和夸张首饰等，当然，也有可能摄像头上面布满灰尘，导致人脸图像被遮挡。本申请实施例中的视频图像的图片格式可包括但不仅限于：BMP，JPEG，JPEG2000，PNG等等，其大小可以在10-30KB之间，每一视频图像还可以对应一个拍摄时间、以及拍摄该视频图像的摄像头统一编号、与人脸图像对应的全景大图的链接等信息(人脸图像和全局图片建立特点对应性关系文件)。

本申请实施例，在设备上要求很低，仅需要能够拍摄RGB图像或视频的单个摄像头即可完成数据的采集与点云的生成，再将点云数据与原始RGB图像送入后续封装好的流程中即可实现场景的三维重建。基于单摄像头景深预测的场景三维重建技术可分为：视频流获取、图像预处理、深度特征提取与场景深度图生成、基于深度图的点云数据生成、RGB图像与点云数据匹配融合、三维物体表面生成六个模块。其中视频流获取以及后面的RGB图像与点云数据匹配融合、三维物体表面生成技术相对成熟，本申请可优化从场景中生成点云数据的方法，大大降低了其对设备和计算能力的要求。

请参阅图1A，为本申请实施例提供的一种图像处理方法的实施例流程示意图。本实施例中所描述的图像处理方法，包括以下步骤：

101、通过单摄像头获取指定区域的视频流。

其中，本申请实施例中，电子设备可以包括单摄像头，该单摄像头可以为可见光摄像头。上述指定区域可以为由用户自行设置或者系统默认。具体实现中，电子设备可以通过单摄像头按照预设时间间隔对指定区域进行拍摄，得到视频流，预设时间间隔可以由用户自行设置或者系统默认。

102、对所述视频流进行采样，得到多张视频图像。

具体实现中，电子设备可在摄像头开启后，捕捉摄像头所采集的视频流，并对获取的视频流进行抽帧处理，即按照预设采样频率对视频流进行采样，得到多张视频图像，预设采样频率可以由用户自行设置或者系统默认。

103、对所述多张视频图像进行预处理，得到预处理后的所述多张视频图像。

其中，上述预处理可以包括以下至少一种：缩放处理、降噪处理、图像增强处理等等，在此不做限定。具体地，预处理可以为对图像的大小进行缩放，将抽帧出来的图像缩放、扩大到高度为224像素、宽度为320像素的图像送入特征提取网络，以便进行特征提取。

104、根据预处理后的所述多张视频图像进行深度特征提取，得到特征集。

其中，电子设备可以将预处理后的多张视频图像进行深度特征提取。具体地，可以将预处理后的多张视频图像输入到预设卷积神经网络，以进行深度特征提取，得到特征集。

可选地，上述步骤104，根据预处理后的所述多张视频图像进行深度特征提取，得到特征集，可包括如下步骤：

41、对预处理后的所述多张视频图像中每一张视频图像进行图像质量评价，得到多个图像质量评价值；

42、从所述多个图像质量评价值中选取最大值，并将该最大值对应的预处理后的视频图像输入到预设卷积神经网络，得到特征集。

本申请实施例中，上述预设卷积神经网络可以包含卷积、池化、归一化等操作，这些操作的目的是提取图像的特征、去除图像冗余信息、以加快网络速度等。提取的特征包含了图像中每个物体的轮廓、纹理、表面信息，物体与物体之间的相接处的边缘信息，已经物体处在整个场景中的位置信息等。最终生成了一张包含了整张图像信息的特征图像。具体实现中，可以对预处理后的多张视频图像中的每一张视频图像进行图像质量评价，得到多个图像质量评价值，进而，可以选取图像质量评价值中的最大值，并将该最大值对应的预处理后的视频图像输入到预设卷积神经网络，得到特征集。

可选的，上述步骤41中，对预处理后的所述多张视频图像中每一张视频图像进行图像质量评价，得到多个图像质量评价值，可以按照如下方式实施：

可采用至少一个图像质量评价指标对预处理后的所述多张视频图像中每一张视频图像进行图像质量评价，得到多个图像质量评价值。

其中，图像质量评价指标可包括但不仅限于：平均灰度、均方差、熵、边缘保持度、信噪比等等。可定义为得到的图像质量评价值越大，则图像质量越好。

需要说明的是，由于采用单一评价指标对图像质量进行评价时，具有一定的局限性，因此，可采用多个图像质量评价指标对图像质量进行评价，当然，对图像质量进行评价时，并非图像质量评价指标越多越好，因为图像质量评价指标越多，图像质量评价过程的计算复杂度越高，也不见得图像质量评价效果越好，因此，在对图像质量评价要求较高的情况下，可采用2～10个图像质量评价指标对图像质量进行评价。具体地，选取图像质量评价指标的个数及哪个指标，依据具体实现情况而定。当然，也得结合具体地场景选取图像质量评价指标，在暗环境下进行图像质量评价和亮环境下进行图像质量评价选取的图像质量指标可不一样。

可选地，在对图像质量评价精度要求不高的情况下，可用一个图像质量评价指标进行评价，例如，以熵为图像质量评价指标时，可认为熵越大，则说明人脸图像质量越好，相反地，熵越小，则说明人脸图像质量越差。

可选地，在对图像质量评价精度要求较高的情况下，可以采用多个图像质量评价指标对待评价图像进行评价，在多个图像质量评价指标对待评价图像进行图像质量评价时，可设置多个图像质量评价指标中每一图像质量评价指标的权重，可得到多个图像质量评价值，根据该多个图像质量评价值及其对应的权重可得到最终的图像质量评价值，例如，三个图像质量评价指标分别为：A指标、B指标和C指标，A的权重为a1，B的权重为a2，C的权重为a3，采用A、B和C对某一图像进行图像质量评价时，A对应的图像质量评价值为b1，B对应的图像质量评价值为b2，C对应的图像质量评价值为b3，那么，最后的图像质量评价值＝a1b1+a2b2+a3b3。通常情况下，图像质量评价值越大，说明人脸图像质量越好。

可选地，所述预设卷积神经网络包括N个下采样层、N个上采样层以及卷积层，N为大于1的整数；上述步骤42，将该最大值对应的预处理后的视频图像输入到预设卷积神经网络，得到特征集，可包括如下步骤：

421、通过所述N个下采样层对该最大值对应的预处理后的视频图像进行N次下采样，得到下采样后的视频图像，所述N次下采样中至少一次下采样包括以下至少一个操作：卷积操作、池化操作和归一化操作；

422、通过所述N个上采样层对所述下采样后的视频图像进行N次上采样，得到上采样后的视频图像；

423、通过所述卷积层对所述上采样后的视频图像进行卷积运算，得到所述特征集。

其中，本申请实施例中，预设卷积神经网络可以包括N个下采样层、N个上采样层以及卷积层，N为大于1的整数。上述预设卷积神经网络可以理解为一个编码-解码的网络。上述N个下采样层可以理解为编码过程，上述N个上采样层以及卷积层可以理解为解码过程。

如图1B所示，编码过程(左侧虚线框内)即为特征提取，通过四次下采样获取特征图像。下采样包括了卷积、池化以及归一化等操作，具体数量和规格我不清楚需不需要，如果需要的话我再补充给您。这个下采样的次数是通过实验得出的，考虑了算法的速度和准确率。理论上来说，采样次数越多准确率会提高但是整体的速度会下降，因此采用了四次来兼顾速度和准确率。而在下采样的过程中，会带来图像尺寸的减少，比如我输入的图像为224*320的话，经过每次下采样图像的长和宽会均变成原来的1/2，也就是说，在经过四次下采样后图像仅有7*10，所以需要通过右侧的解码(上采样)网络恢复图像的尺寸，同时也完成了由提取到的特征图像匹配到深度图像的过程。而上采样的次数与下采样一样，考虑了准确率和速度的平衡，最终取四次。

另外，上述连接下采样和上采样的直线表示了“跳跃连接”(skip-connection)，这种做法可以提高算法的准确率。

可选地，上述步骤104，根据预处理后的所述多张视频图像进行深度特征提取，得到特征集，可以按照如下方式实施：

将所述多张视频图像输入到预设卷积神经网络，得到特征集。

本申请实施例中，上述预设卷积神经网络可以包含卷积、池化、归一化等操作，这些操作的目的是提取图像的特征、去除图像冗余信息、以加快网络速度等。提取的特征包含了图像中每个物体的轮廓、纹理、表面信息，物体与物体之间的相接处的边缘信息，已经物体处在整个场景中的位置信息等。最终生成了一张包含了整张图像信息的特征图像。

上述步骤41，对预处理后的所述多张视频图像中每一张视频图像进行图像质量评价，得到多个图像质量评价值，包括：

411、对视频图像i进行图像分割，得到目标人脸图像，所述视频图像i为所述预处理后的所述多张视频图像中的任一帧视频图像；

412、获取目标人脸图像，并获取所述目标人脸图像的二维角度值，所述二维角度值包括x角度值、y角度值；

413、获取所述二维角度值对应的二个权值，其中，所述x角度值对应的目标第一权值，所述y角度值对应的目标第二权值，所述目标第一权值与所述目标第二权值之和为1；

414、依据所述x角度值、所述y角度值、所述目标第一权值、所述目标第二权值进行加权运算，得到目标角度值；

415、按照预设的角度值与角度质量评价值之间的映射关系，确定所述目标角度值对应的图像质量评价值。

其中，本申请实施例中，电子设备可以对任一视频图像进行图像分割，得到人脸图像，人脸图像与摄像头之间存在一定的角度，由于是平面图像，因此，对应二维空间坐标系，x方向的x角度值，y方向的y角度值，如此，可以精准描述摄像头与人脸图像之间的角度关系。不同的角度则在一定程度上影响识别精度，例如，人脸角度直接影响到特征点数量或者特征点质量。上述二维角度值可以理解为人脸相对于摄像头之间的二维夹角。上述二维角度值中每一角度值可以对应一个权值，当然，二维角度值对应的二个权值，均可以预先设置或者系统默认。x角度值对应的目标第一权值，y角度值对应的目标第二权值，上述目标第一权值+目标第二权值＝1。

进一步地，目标角度值＝x角度值*目标第一权值+y角度值*目标第二权值，如此，可以实现将二维角度值转化为一维角度值，用于实现对人脸的角度进行精准表示。

可选地，上述步骤413，获取所述二维角度值对应的二个权值，可包括如下步骤：

4131、获取目标环境亮度值；

4132、按照预设的环境亮度值与映射关系之间的映射关系，确定所述目标环境亮度值对应的目标映射关系，每一映射关系包括x方向的角度值与第一权值之间的第一映射关系；

4133、依据所述目标映射关系确定所述x角度值对应的所述目标第一权值；

4134、依据所述目标第一权值确定所述目标第二权值。

其中，具体实现中，可以通过环境光传感器获取目标环境亮度值，还可以预先存储预设的环境亮度值与映射关系之间的映射关系，每一映射关系均可以包括x方向的角度值与第一权值之间的第一映射关系，进而，可以依据预设的环境亮度值与映射关系之间的映射关系确定目标环境亮度值对应的目标映射关系，依据目标映射关系确定x角度值对应的目标第一权值，目标第二权值＝1-目标第一权值，由于不同的环境光线下，能够被识别到的人脸的角度也不一样，如此，可以依据环境光线，确定与光线对应的权值，有利于精准对人脸进行评价，当然，针对不同环境光线，对应的评价规则不一样，有利于精准实现对人脸角度进行评价。其中，电子设备中可以预先存储预设的角度值与角度质量评价值之间的映射关系，进而，依据该映射关系确定目标角度值对应的第一目标评价值，进一步地，如第一目标评价值大于预设评价阈值，则可以理解为，人脸图像容易被识别，很大程度上会被识别成功，当然，这样的角度对应的人脸可以用于人脸解锁，或者，这样角度对应的人脸可以用于摄像头采集，提升了电子设备的人脸采集效率。

105、依据所述特征集生成深度图。

其中，上述提及的特征集也称之为特征图，特征图并不是最终的深度图像，因此解码网络就是必须的。在一张深度图像中，每个点的值并不是常规图像的像素值，而是代表的该点距离摄像头的距离，单位为毫米。下图是RGB图像与深度图的一个例子。如图1C所示，图1C示出了一帧视频图像，图1D则为深度图，以灰度图呈现，该灰度图是将深度图中的距离值做了相关处理后显示出来的，离镜头越远的点其灰度值越低，看起来颜色就越靠近黑色。相反地，离镜头越近的点灰度值越大，看起来颜色越靠近白色。

可选地，所述特征集中包括多个特征点，每一特征点包括坐标位置、特征方向和特征大小；上述步骤105，依据所述特征集生成深度图，可包括如下步骤：

51、依据所述特征集中每一特征点的特征方向和特征大小计算特征值，得到多个目标特征值，每一特征点对应一个目标特征值；

52、按照预设的特征值和深度值之间的映射关系，确定所述多个目标特征值中每一目标特征值对应的目标深度值，得到多个目标深度值，每一目标深度值对应一个坐标位置；

53、依据所述多个目标深度值构成所述深度图。

其中，上述特征集可以包括多个特征点，每一特征点包括坐标位置、特征大小和特征方向，由于特征点为矢量，因此，则可以通过特征大小和特征方向计算特征值，如此，可以计算出特征集中每一特征点对应的特征值，得到多个目标特征值，每一特征点对应一个特征值。电子设备中还可以预先存储预设的特征值和深度值之间的映射关系，进而，可以依据该映射关系确定多个目标特征值中每一目标特征值对应的目标深度值，得到多个目标深度值，每一目标深度值对应一个坐标位置，依据多个目标深度值构成深度图，如此，可以实现建立特征点构建深度图。

106、依据点云数据处理技术对所述深度图进行处理，得到3D图像。

其中，上述深度图中的每一个点即使原图中每一个点距离摄像头的距离。点云生成实质是不同坐标系之间点的映射，即从二维图像中的任一坐标m(u,v)映射到三维世界中的空间坐标M(Xw,Yw,Zw)的过程。如图1E所示，最终得到坐标转换公式为：

其中，M(Xw,Yw,Zw)为世界坐标，m(u,v)为深度图坐标，Zc是深度图中每一个点的数值即为该点距离摄像头的距离。u0、v0是二维图像中心坐标值。dx和dy是将距离单位转换为米，如果距离值是毫米单位则为1000。f是相机镜头的焦距。通过这个计算就可以实现二维深度图到三维图即点云的转换。最终可以利用点云数据处理技术结合原始RGB图像实现三维重建。

可以看出，通过本申请实施例所描述的图像处理方法，通过单摄像头获取指定区域的视频流，对视频流进行采样，得到多张视频图像，对多张视频图像进行预处理，得到预处理后的多张视频图像，根据预处理后的多张视频图像进行深度特征提取，得到特征集，依据特征集生成深度图，依据点云数据处理技术对深度图进行处理，得到3D图像，如此，能够通过单摄像头采集视频图像，并经过采样，预处理，以及特征提取，得到特征集，将该特征集转化为深度图，并通过点云数据处理技术实现3D场景图，进而，降低了三维重现成本。

与上述一致地，请参阅图2，为本申请实施例提供的一种图像处理方法的实施例流程示意图。本实施例中所描述的图像处理方法，包括以下步骤：

201、通过单摄像头获取指定区域的视频流。

202、对所述视频流进行采样，得到多张视频图像。

203、对所述多张视频图像进行预处理，得到预处理后的所述多张视频图像。

204、对预处理后的所述多张视频图像中每一张视频图像进行图像质量评价，得到多个图像质量评价值。

205、从所述多个图像质量评价值中选取最大值，并将该最大值对应的预处理后的视频图像输入到预设卷积神经网络，得到特征集。

206、依据所述特征集生成深度图。

207、依据点云数据处理技术对所述深度图进行处理，得到3D图像。

其中，上述步骤201-步骤207所描述的图像处理方法可参考图1A所描述的图像处理方法的对应步骤。

可以看出，通过本申请实施例所描述的图像处理方法，通过单摄像头获取指定区域的视频流，对视频流进行采样，得到多张视频图像，对多张视频图像进行预处理，得到预处理后的多张视频图像，对预处理后的多张视频图像中每一张视频图像进行图像质量评价，得到多个图像质量评价值，从多个图像质量评价值中选取最大值，并将该最大值对应的预处理后的视频图像输入到预设卷积神经网络，得到特征集，依据特征集生成深度图，依据点云数据处理技术对深度图进行处理，得到3D图像，如此，能够通过单摄像头采集视频图像，并经过采样，预处理，以及特征提取，得到特征集，将该特征集转化为深度图，并通过点云数据处理技术实现3D场景图，进而，降低了三维重现成本。

与上述一致地，以下为实施上述图像处理方法的装置，具体如下：

请参阅图3，为本申请实施例提供的一种图像处理装置的实施例结构示意图。本实施例中所描述的图像处理装置，包括：获取单元301、采样单元302、预处理单元303、提取单元304、生成单元305和处理单元306，具体如下：

获取单元301，用于通过单摄像头获取指定区域的视频流；

采样单元302，用于对所述视频流进行采样，得到多张视频图像；

预处理单元303，用于对所述多张视频图像进行预处理，得到预处理后的所述多张视频图像；

提取单元304，用于根据预处理后的所述多张视频图像进行深度特征提取，得到特征集；

生成单元305，用于依据所述特征集生成深度图；

处理单元306，用于依据点云数据处理技术对所述深度图进行处理，得到3D图像。

可以看出，通过本申请实施例所描述的图像处理装置，通过单摄像头获取指定区域的视频流，对视频流进行采样，得到多张视频图像，对多张视频图像进行预处理，得到预处理后的多张视频图像，根据预处理后的多张视频图像进行深度特征提取，得到特征集，依据特征集生成深度图，依据点云数据处理技术对深度图进行处理，得到3D图像，如此，能够通过单摄像头采集视频图像，并经过采样，预处理，以及特征提取，得到特征集，将该特征集转化为深度图，并通过点云数据处理技术实现3D场景图，进而，降低了三维重现成本。

其中，上述获取单元301可用于实现上述步骤101所描述的方法，采样单元302可用于实现上述步骤102所描述的方法，上述预处理单元303可用于实现上述步骤103所描述的方法，上述提取单元304可用于实现上述步骤104所描述的方法，上述生成单元305可用于实现上述步骤105所描述的方法，上述处理单元306可用于实现上述步骤106所描述的方法，以下如此类推。

可选地，在所述根据预处理的所述多张视频图像进行深度特征提取，得到特征集方面，所述提取单元304具体用于：

可选地，所述预设卷积神经网络包括N个下采样层、N个上采样层以及卷积层，N为大于1的整数；

在所述将该最大值对应的预处理后的视频图像输入到预设卷积神经网络，得到特征集方面，所述提取单元304具体用于：

通过所述N个下采样层对该最大值对应的预处理后的视频图像进行N次下采样，得到下采样后的视频图像，所述N次下采样中至少一次下采样包括以下至少一个操作：卷积操作、池化操作和归一化操作；

通过所述N个上采样层对所述下采样后的视频图像进行N次上采样，得到上采样后的视频图像；

通过所述卷积层对所述上采样后的视频图像进行卷积运算，得到所述特征集。

在所述对预处理后的所述多张视频图像中每一张视频图像进行图像质量评价，得到多个图像质量评价值方面，所述提取单元304具体用于：

可选地，所述特征集中包括多个特征点，每一特征点包括坐标位置、特征方向和特征大小；

在所述依据所述特征集生成深度图方面，所述生成单元305具体用于：

依据所述特征集中每一特征点的特征方向和特征大小计算特征值，得到多个目标特征值，每一特征点对应一个目标特征值；

按照预设的特征值和深度值之间的映射关系，确定所述多个目标特征值中每一目标特征值对应的目标深度值，得到多个目标深度值，每一目标深度值对应一个坐标位置；

依据所述多个目标深度值构成所述深度图。

可以理解的是，本实施例的图像处理装置的各程序模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

与上述一致地，请参阅图4，为本申请实施例提供的一种电子设备的实施例结构示意图。本实施例中所描述的电子设备，包括：至少一个输入设备1000；至少一个输出设备2000；至少一个处理器3000，例如CPU；和存储器4000，上述输入设备1000、输出设备2000、处理器3000和存储器4000通过总线5000连接。

其中，上述输入设备1000具体可为触控面板、物理按键或者鼠标。

上述输出设备2000具体可为显示屏。

上述存储器4000可以是高速RAM存储器，也可为非易失存储器(non-volatilememory)，例如磁盘存储器。上述存储器4000用于存储一组程序代码，上述输入设备1000、输出设备2000和处理器3000用于调用存储器4000中存储的程序代码，执行如下操作：

上述处理器3000，用于：

通过单摄像头获取指定区域的视频流；

对所述视频流进行采样，得到多张视频图像；

依据所述特征集生成深度图；

可以看出，通过本申请实施例所描述的电子设备，通过单摄像头获取指定区域的视频流，对视频流进行采样，得到多张视频图像，对多张视频图像进行预处理，得到预处理后的多张视频图像，根据预处理后的多张视频图像进行深度特征提取，得到特征集，依据特征集生成深度图，依据点云数据处理技术对深度图进行处理，得到3D图像，如此，能够通过单摄像头采集视频图像，并经过采样，预处理，以及特征提取，得到特征集，将该特征集转化为深度图，并通过点云数据处理技术实现3D场景图，进而，降低了三维重现成本。

可选地，在所述根据预处理后的所述多张视频图像进行深度特征提取，得到特征集方面，上述处理器3000具体用于：

在所述将该最大值对应的预处理后的视频图像输入到预设卷积神经网络，得到特征集方面，上述处理器3000具体用于：

在所述对预处理后的所述多张视频图像中每一张视频图像进行图像质量评价，得到多个图像质量评价值方面，上述处理器3000具体用于：

在所述依据所述特征集生成深度图方面，上述处理器3000具体用于：

依据所述多个目标深度值构成所述深度图。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的任何一种图像处理方法的部分或全部步骤。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

本领域技术人员应明白，本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中，与其它硬件一起提供或作为硬件的一部分，也可以采用其他分布形式，如通过Internet或其它有线或无线电信系统。

本申请是参照本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种图像处理方法，其特征在于，包括：

通过单摄像头获取指定区域的视频流；

对所述视频流进行采样，得到多张视频图像；

依据所述特征集生成深度图；

2.根据权利要求1所述的方法，其特征在于，所述根据预处理后的所述多张视频图像进行深度特征提取，得到特征集，包括：

3.根据权利要求2所述的方法，其特征在于，所述预设卷积神经网络包括N个下采样层、N个上采样层以及卷积层，N为大于1的整数；

所述将该最大值对应的预处理后的视频图像输入到预设卷积神经网络，得到特征集，包括：

4.根据权利要求2所述的方法，其特征在于，在所述多张视频图像中每一张视频图像包括人脸的情况下，

5.根据权利要求1-4任一项所述的方法，其特征在于，所述特征集中包括多个特征点，每一特征点包括坐标位置、特征方向和特征大小；

所述依据所述特征集生成深度图，包括：

依据所述多个目标深度值构成所述深度图。

6.一种图像处理装置，其特征在于，包括:

获取单元，用于通过单摄像头获取指定区域的视频流；

生成单元，用于依据所述特征集生成深度图；

7.根据权利要求6所述的装置，其特征在于，在所述根据所述多张视频图像进行深度特征提取，得到特征集方面，所述提取单元具体用于：

8.根据权利要求7所述的装置，其特征在于，所述预设卷积神经网络包括N个下采样层、N个上采样层以及卷积层，N为大于1的整数；

在所述将该最大值对应的预处理后的视频图像输入到预设卷积神经网络，得到特征集方面，所述提取单元具体用于：

9.一种电子设备，其特征在于，包括处理器、存储器，所述存储器用于存储一个或多个程序，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-5任一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-5任一项所述的方法。