CN111062981A

CN111062981A - 图像处理方法、装置及存储介质

Info

Publication number: CN111062981A
Application number: CN201911283018.6A
Authority: CN
Inventors: 凌永根; 迟万超; 刘威; 张正友; 袁泽剑; 李昂; 曹子东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-24
Anticipated expiration: 2039-12-13
Also published as: CN111062981B

Abstract

本申请公开了一种图像处理方法、装置及存储介质，属于人工智能领域。本申请通过采用由n个子模型级联而成的模型，分别根据彩色图像对具有不同尺度的输入图像进行深度补全，由于n个具有不同尺度的输入图像可以对应n个深度范围，使得每个子模型均可以针对指定场景中的某个指定深度范围进行深度预测，避免了相关技术中使用同一网络结构对指定场景中不同深度的场景进行处理而导致网络参数量过大的问题。有效降低了网络复杂度，节约了网络运行时间，达到了实时获取稠密深度图的效果。并且，每个子模型均使用彩色图像辅助深度预测操作，由于彩色图像的信息丰富且稠密，能够对场景的识别起到指导作用，使得输出的具有稠密深度的预测结果更加准确。

Description

图像处理方法、装置及存储介质

技术领域

本申请涉及人工智能领域，特别涉及一种图像处理方法、装置及存储介质。

背景技术

深度感知是指对同一场景中不同物体的远近的知觉，深度感知是许多计算机视觉(ComputerVision，CV)任务(例如自动导航以及增强现实等)中的重要组成部分。常见的深度感知方法均是基于高精度的深度传感器进行的。但是，该深度传感器通常只能生成稀疏深度图，该稀疏深度图缺失较多的深度数据。深度补全技术是指将稀疏深度图补全到稠密深度图的技术，以补全该稀疏深度图中缺失的部分深度数据。

相关技术中提供了一种深度补全的技术方案，该技术方案中将输入的稀疏深度图采用一个卷积神经网络进行处理，以输出稠密深度图。该卷积神经网络包括卷积层、降采样层。卷积层用于通过卷积运算提取稀疏深度图中的图像特征。该卷积运算所采用的卷积核在处理该整个稀疏深度图的过程中共享。

但是，输出的稠密深度图中场景的结构在图像平面内分布复杂多变，在将稀疏深度图采用卷积神经网络补全至稠密深度图的过程中，若用同一种网络结构中的同一种卷积核处理场景中的所有结构，则需要更多的卷积层处理该结构对应的数据，如此使得参数量增加，导致该卷积神经网络结构冗余。

发明内容

本申请提供了一种图像处理方法、装置及存储介质，可以解决相关技术中网络结构冗余以及网络参数量大的问题。

具体而言，包括以下的技术方案：

第一方面，提供一种图像处理方法，所述方法包括：

获取指定场景的稀疏深度图；

获取所述稀疏深度图中分别属于指定的n个深度范围的n个输入图像，n为大于1的整数；

获取所述指定场景的彩色图像；

将所述n个输入图像以及所述彩色图像输入深度模型，所述深度模型包括按照指定顺序连接的n个子模型，所述n个输入图像与所述n个子模型一一对应，所述n个子模型对应所述n个深度范围，所述n个子模型对应的所述n个深度范围按照所述指定顺序依次增大，所述n个子模型分别根据所述彩色图像对所述n个输入图像进行深度补全，得到对应的n个特征图以及n个深度预测图，对于第t个子模型，当t＝1时，第t个子模型对应的深度预测图为第t个子模型输出的深度预测图，当t＞1时，第t个子模型对应的深度预测图为第t个子模型输出的深度预测图和第t-1个子模型对应的深度预测图的融合图，0＜t≤n，所述n个子模型中，每个子模型的输入包括所述彩色图像以及每个子模型对应的输入图像，除第1个子模型外的其它子模型中，每个子模型的输入还包括前一个子模型对应的深度预测图和对应的特征图，且第n个子模型对应的深度预测图为所述深度模型输出的稠密深度图；

得到所述深度模型输出的稠密深度图。

第二方面，提供一种图像处理装置，所述装置包括：

获取模块，用于获取指定场景的稀疏深度图；

所述获取模块，用于获取所述稀疏深度图中分别属于指定的n个深度范围的n个输入图像，n为大于1的整数；

所述获取模块，用于获取所述指定场景的彩色图像；

处理模块，用于将所述n个输入图像以及所述彩色图像输入深度模型，所述深度模型包括按照指定顺序连接的n个子模型，所述n个输入图像与所述n个子模型一一对应，所述n个子模型对应所述n个深度范围，所述n个子模型对应的所述n个深度范围按照所述指定顺序依次增大，所述n个子模型分别根据所述彩色图像对所述n个输入图像进行深度补全，得到对应的n个特征图以及n个深度预测图，对于第t个子模型，当t＝1时，第t个子模型对应的深度预测图为第t个子模型输出的深度预测图，当t＞1时，第t个子模型对应的深度预测图为第t个子模型输出的深度预测图和第t-1个子模型对应的深度预测图的融合图，0＜t≤n，所述n个子模型中，每个子模型的输入包括所述彩色图像以及每个子模型对应的输入图像，除第1个子模型外的其它子模型中，每个子模型的输入还包括前一个子模型对应的深度预测图和对应的特征图，且第n个子模型对应的深度预测图为所述深度模型输出的稠密深度图；

所述处理模块，用于得到所述深度模型输出的稠密深度图。

第三方面，提供一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如第一方面所述的图像处理方法所执行的操作。

第四方面，提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如第一方面所述的图像处理方法所执行的操作。

本申请实施例提供的技术方案的有益效果至少包括：

通过采用n个子模型级联而成的模型，分别根据彩色图像对具有不同尺度的n种输入图像进行深度补全，由于该n个输入图像可以对应n个深度范围，使得每个子模型均可以针对指定场景中的某一个指定深度范围进行深度预测，避免了相关技术中使用同一网络结构对指定场景中不同深度的场景进行处理而导致网络结构冗余以及网络参数量过大的问题。有效降低了网络复杂度，节约了网络运行时间，达到了实时获取稠密深度图的效果。并且，每个子模型均使用彩色图像辅助进行深度预测，由于彩色图像的信息丰富且稠密，能够对场景的识别起到指导作用，使得输出的具有稠密深度的预测结果更加准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种实施环境的示意图；

图2示出了本申请实施例提供的一种图像处理方法的流程图；

图3示出了本申请实施例提供的另一种图像处理方法的流程图；

图4示出了本申请实施例提供的一种获取稀疏深度图中分别属于指定的3个深度范围的3个输入图像的流程图；

图5示出了对同一图像采用多种下采样方式所呈现的结果示意图；

图6示出了采用本申请实施例所描述的一种图像处理方法将稀疏深度图补全为稠密深度图的过程示意图；

图7示出了本申请实施例提供的图像处理方法在KITTI数据集上进行深度补全的测试结果；

图8示出了本申请实施例提供的一种图像处理装置的结构框图；

图9示出了本申请实施例提供的一种终端的结构示意图；

图10示出了本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。但在对本申请实施例提供的信息指示方法进行详细介绍之前，先对本申请实施例涉及的名词、应用场景以及实施环境进行简单介绍。

首先，对本申请实施例涉及的名词进行简单介绍。

深度图(Depthmap)也称为距离影像(range image)，是一种采用三维场景信息描述物体的方式。深度图中的每个像素点的像素值表示在采集该深度图的图像采集器的视野中，该像素点所在的位置点距离该图像采集器的距离，该距离可以以毫米为单位。深度图可以是一种灰度图，深度图中的像素点的像素值可以为灰度值，该像素点的像素值可以表示深度图中该像素点具有的深度信息(或者距离信息)，该像素值为一种深度数据。

稀疏深度图指的是深度图中有效像素点(也称为有效点)在该深度图中所有像素点的占比较小的深度图，例如有效点的占比不超过10％。由于该深度图中的有效点分布不均匀且较为稀疏，也即是，该深度图中的深度信息较为稀疏，因此，将该深度图称为稀疏深度图。有效点指的是深度图中具有像素值的像素点。

稠密深度图指的是深度图中有效点在该深度图中所有像素点的占比较大的深度图，例如有效点的占比超过70％。由于稠密深度图中有效点的占比较高，因此，该稠密深度图中的深度信息较为丰富。示例的，可以通过神经网络预测的方法将稀疏深度图补全为稠密深度图。

深度补全也称为深度预测，指的是将稀疏深度图补全为稠密深度的过程，例如，可以通过神经网络预测等方法将稀疏深度图补全为稠密深度图。深度补全技术既可以满足对于高精度深度信息的需求，又可以不增加深度感知的成本，是人工智能(ArtificialIntelligence,AI)领域尤其是计算机视觉技术中一项重要且有意义的工作。

人工智能技术是利用数字计算机或者利用由数字计算机控制的机器来模拟、延伸和扩展人的智能。人工智能技术可以感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能是计算机科学的一个综合技术，其用于研究人类智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，使该智能机器具有感知、推理与决策的功能。人工智能技术包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习等研究方向。

计算机视觉技术是人工智能技术的重要分支，用于建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通过采用摄影机和电脑代替人眼对目标进行识别、跟踪和测量，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

KITTI数据集是一种自动驾驶场景下的计算机视觉算法评测数据集，该数据集用于评测立体图像(stereo)，光流(optical flow)，视觉测距(visual odometry)，3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。

特征图(Feature map)是一种计算机视觉技术中用于表征图像特征(例如颜色、灰度以及纹理等图像特征)的图像。每个特征图可以对应于至少一个通道的特征矩阵，每个通道的特征矩阵可以对应一种图像特征。

多尺度处理指的是通过对图像进行上采样或者下采样，形成不同的分辨率的图像。一种尺度可以对应有一种分辨率。对图像进行多尺度处理可以形成1/2^p尺度的图像，p为大于0的整数。例如1/2尺度的图像以及1/4尺度的图像等。其中，1/2^p尺度的图像指的是该图像的长和宽均为原图像的1/2^p。例如，1/2尺度的图像指的是该图像的长和宽均为原图像的1/2尺度。1/2^p尺度的图像所具有的分辨率为原图像分辨率的1/2^p。

沙漏网络(Hourglass Networks)可以包括级联的多个沙漏模型，每个沙漏模型包括收缩部分以及扩张部分，收缩部分用于对图像进行下采样，扩张部分用于对图像进行上采样。该收缩部分和该扩张部分对称设置，也即是，每个沙漏模型中，对图像进行下采样的次数与对图像进行上采样的次数相同。每个沙漏模型对于接收到的图像先经过收缩部分依次进行指定次数的下采样，再经过扩张部分依次进行相同次数的上采样，该经过指定次数上采样之后的图像具有与输入的图像相同的分辨率。该收缩部分和该扩张部分的对应部位(即具有相同分辨率的图像)通过像素融合关联在一起。例如，某一沙漏模型中的收缩部分用于对图像进行2次下采样，扩张部分用于对图像进行2次上采样。收缩部分和该扩张部分的对应部位指的是，对图像进行1次下采样得到的图像与对图像进行2次上采样得到的图像通过像素融合关联，对图像进行2次下采样得到的图像与对图像进行1次上采样得到的图像通过像素融合关联。

像素融合指的是，对于具有相同分辨率以及通道数的两个图像，将该两个图像中对应通道上相同位置的像素点的像素值进行加和处理，以得到该位置上像素点的新像素值。每个位置上像素点的新像素值用于组成一个新的图像，该新的图像为将该两个图像进行像素融合后形成的图像。

此外，对本申请实施例涉及的应用场景进行简单介绍。

本申请实施例所提供的图像处理方法可以应用于人工智能平台，例如移动机器人平台以及无人车移动平台等，用于使该人工智能平台感知三维场景结构以对该人工智能平台的周围场景进行预测，实现对人工智能平台在该三维场景中的运动规划等。该人工智能平台可以通过计算机设备实现，该计算机设备可以为终端或者服务器。该图像处理方法可以通过图像处理装置实现，该图像处理装置可以通过硬件或者软件的方式设置于计算机设备中。

接下来，对本申请实施例涉及的实施环境进行简单介绍。

请参考图1，图1示出了本申请实施例提供的一种实施环境的示意图，该实施环境中包括计算机设备110以及至少一个图像采集设备120。计算机设备110以及至少一个图像采集设备120通过有限或者无线的方式进行连接。该至少一个图像采集设备120同于采集同一指定场景的图像。

本申请实施例中，该至少一个图像采集设备120可以包括采集彩色图像的图像采集设备(例如相机)，以及，采集稀疏深度图的图像采集设备(例如激光雷达)。图1中以该至少一个图像采集设备120包括两个图像采集设备120为例进行说明。

本申请实施例中，该至少一个图像采集设备120可以设置于移动机器人或者无人车上，用于在该移动机器人或者无人车在移动过程中实时采集当前场景。

相关技术提供的用于深度补全的图像处理方法中，由于使用同一卷积神经网络，该网络结构较为单一，缺乏对图像中深度信息的区分，也即是，对于图像中较远的场景以及较近的场景均采用该同一卷积神经网络进行处理。如此深度补全得到的稠密深度图虽然较为精确，但是由于需要在该卷积神经网络中配置适合于所有深度场景的网络的参数量，导致该网络的参数量过大，网络结构较为冗余，也导致运算时间增加，难以满足实时获取稠密深度图的要求。而本申请实施例提供的图像处理方法可以解决相关技术中存在的问题。

图2示出了本申请实施例提供的一种图像处理方法的流程图，该图像处理方法可以包括：

步骤201、获取指定场景的稀疏深度图。

该指定场景为具有深度的场景。

步骤202、获取该稀疏深度图中分别属于指定的n个深度范围的n个输入图像，n为大于1的整数。

该n个输入图像具有n种尺度。

步骤203、获取该指定场景的彩色图像。

步骤204、将该n个输入图像以及该彩色图像输入深度模型。

该深度模型包括按照指定顺序连接的n个子模型，该n个输入图像与该n个子模型一一对应，该n个子模型对应该n个深度范围，该n个子模型对应的该n个深度范围按照该指定顺序依次增大。n个子模型对应的n个深度范围依次增大指的是该n个子模型所能够预测的深度范围中最远深度依次增大。例如，3个子模型对应的3个深度范围，该3个子模型中，第一个子模型仅能够预测的深度范围较近(例如0至10米)的结构场景，第二个子模型能够预测的深度范围较远(例如0至20米)的结构场景，第三个子模型能够预测更远(例如0至50米)的场景结构，当然，该第三个子模型也能够是预测无距离限制的场景结构。

该n个子模型分别根据该彩色图像对该n个输入图像进行深度补全，得到对应的n个特征图以及对应的n个深度预测图。也即是，n个子模型中的每个子模型可以得到对应的1个特征图以及对应的1个深度预测图。对于除最后一个子模型之外的其他子模型，该对应的n个特征图以及对应的n个深度预测图均用于输入至下一个子模型，该对应的n个特征图以及对应的n个深度预测图的分辨率与该下一个子模型所需的分辨率匹配。

对于第t个子模型，当t＝1时，第t个子模型对应的深度预测图为第t个子模型输出的深度预测图；当t＞1时，第t个子模型对应的深度预测图为第t个子模型输出的深度预测图和第t-1个子模型对应的深度预测图的融合图，0＜t≤n。

该n个子模型中的每个子模型的输入包括彩色图像以及每个子模型对应的输入图像。除第1个子模型外的其它子模型中，每个子模型的输入还包括前一个子模型对应的深度预测图和对应的特征图，且第n个子模型对应的深度预测图为深度模型输出的稠密深度图。

步骤205、得到深度模型输出的稠密深度图。

综上所述，本申请实施例提供的图像处理方法，通过采用n个子模型级联而成的模型，分别根据彩色图像对具有不同尺度的n种输入图像进行深度补全，由于该n个输入图像可以对应n个深度范围，使得每个子模型均可以针对指定场景中的某一个指定深度范围进行深度预测，避免了相关技术中使用同一网络结构对指定场景中不同深度的场景进行处理而导致网络结构冗余以及网络参数量过大的问题。有效降低了网络复杂度，节约了网络运行时间，达到了实时获取稠密深度图的效果。并且，每个子模型均使用彩色图像辅助进行深度预测，由于彩色图像的信息丰富且稠密，能够对场景的识别起到指导作用，使得输出的具有稠密深度的预测结果更加准确。

值得说明的是，本申请实施例提供的图像处理方法的步骤的先后顺序可以进行适当调整，步骤也可以根据实际情况进行相应增减，例如上述步骤201和步骤203可以同步执行，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

需要说明的是，上述步骤204中，每个输入图像与一个深度范围对应。在本申请实施例中，可以根据指定场景内的场景结构指定n个深度范围，该n个深度范围的并集可以为该指定场景的深度范围，例如，指定的n个深度范围包括3个深度范围，该指定场景的深度范围为1至99米，则该3个深度范围可以分别对应1至20米的深度范围、1至66米的深度范围以及1至99米的深度范围。当然，在其他可选的实现方式中，指定的n个深度范围可以为指定的2个深度范围或者指定的4个深度范围等，本申请实施例对此不进行限制。当输入图像为原始稀疏深度图时，该输入图像属于一个深度范围，即该稀疏深度图所对应的指定场景的深度范围。

为了便于对本申请实施例进行说明，在接下来的实施例中，均以该指定的n个深度范围包括3个深度范围为例进行说明。除3个深度范围以外的其他个数的深度范围均可参考以下实施例，本申请实施例不再赘述。

还需要说明的是，在本申请实施例中，子模型可以为沙漏模型，深度模型可以为级联的n个沙漏模型，即该深度模型为沙漏网络。以下实施例均以该子模型为沙漏模型，以及深度模型为沙漏网络即级联的n个沙漏模型进行说明。深度模型包括按照指定顺序连接的n个子模型，该指定顺序指的是使得连接的n个子模型分别输出的图像的尺寸依次增大的顺序。

在本申请实施例中，涉及多个参数，其中，参数n可以用于表示深度范围的个数、输入图像的个数以及子模型的个数，参数n为大于1的整数；参数t可以用于表示子模型在深度模型的顺序标号，参数t为大于0的整数，例如t＝1指的是深度模型中的第一个子模型；参数k可以用于表示子模型的序号，参数k为大于等于0的整数，例如，在本申请实施例中，序号为k的子模型位于深度模型中的第一个，序号为k-1的子模型位于深度模型中的第二个,......，序号为0的子模型位于深度模型的最后一个。

图3示出了本申请实施例提供的另一种图像处理方法的流程图，该方法可以包括：

步骤301、获取指定场景的稀疏深度图。

该指定场景的稀疏深度图可以预先由激光雷达或者深度传感器采集，然后由本申请实施例提供的图像处理装置获取。示例的，该稀疏深度图为采用激光雷达获取指定场景的雷达点云并将该雷达点云投射至二维图像平面所得到的。该激光雷达或者深度传感器采集可以设置于移动机器人平台或者无人车移动平台上，在该移动机器人以及无人车的运动过程中，采集该移动机器人以及无人车所处场景下的稀疏深度图。

由激光雷达采集到的深度图为稀疏深度图，这是由于在单位周期内，激光雷达进行激光扫描的点数是有限的，当把激光雷达捕获的三维点投射到二维图像平面下得到深度图时，其深度图的深度信息以离散的点的形式呈现，导致深度图中许多区域的深度信息是未知的。

步骤302、获取稀疏深度图中分别属于指定的3个深度范围的3个输入图像。

可选的，步骤302中获取稀疏深度图中分别属于指定的3个深度范围的3个输入图像的过程可以包括，通过对该稀疏深度图进行2次下采样，以获取该稀疏深度图中分别属于指定的3个深度范围的3个输入图像，该3个输入图像包括该稀疏深度图以及进行了2次下采样后的2个稀疏深度图。

对稀疏深度图进行下采样的方式可以有多种，例如，网格(Grid)下采样、双线性下采样、平均池化操作以及最大值池化操作等。本申请实施例提供了一种结构保留池化(Structure-Preserved Pooling，SP-Pooling)操作来对稀疏深度图进行下采样。该结构保留池化操作可以只对稀疏深度图中的有效点进行操作，使得在稀疏深度图环境混乱导致深度模糊的情况下，仍可以保留前景物体的结构特征。如图4所示，采用结构保留池化操作对稀疏深度图进行下采样的过程可以包括：

步骤3021、采用第一目标公式对该稀疏深度图进行2次下采样。

该第一目标公式可以包括：

其中，

表示输入图像，sD表示待下采样的稀疏深度图，k表示子模型的序号，当采用第一目标公式对该稀疏深度图进行2次下采样，k的取值可以为0至2，2^k表示下采样的系数，

表示平均池化，ε为常数，该常数用于保证该第一目标公式的分母不为0，C表示有效模板，若待下采样的稀疏深度图sD中坐标为(x，y)的像素点为有效点，则C(x，y)＝1，否则C(x，y)＝0。也即是，该第一目标公式仅对待下采样的稀疏深度图中的有效点进行操作。需要说明的是，本申请实施例中，子模型的序号k的取值个数为n，取值范围为[0,n-1]。

从该目标公式可以看出，用于形成输入图像

的稀疏深度图sD^k中坐标为(x，y)的像素点，该像素点的深度数据来源于待下采样的稀疏深度图sD坐标为(2^kx，2^ky)的像素点的邻近区域。执行该第一目标公式过程可以称为进行结构池化操作的过程，从该第一公式可以看出，执行该第一目标公式过程为将待下采样的稀疏深度图sD和有效模板C分别经过平均池化后，将其二者分别得到的结果进行相除的过程。

步骤3022、将稀疏深度图以及2次下采样后的稀疏深度图作为3个输入图像。

该稀疏深度图指的是原始稀疏深度图，也即是，步骤3022中将原始稀疏深度图以及2次下采样后的稀疏深度图作为3个输入图像。

图5示出了采用网格(Grid)下采样、双线性下采样、平均池化操作、最大值池化操作以及本申请实施例所提供的结构池化操作对同一张图像进行下采样后得到的图像。从该图5中可以看出，本申请实施例所提供的结构池化操作可以更好地保留前景物体的结构。

步骤303、获取该指定场景的彩色图像。

该指定场景的彩色图像可以预先由彩色相机采集，然后由本申请实施例提供的图像处理装置获取。该彩色相机可以设置于移动机器人平台或者无人车移动平台上，在该移动机器人以及无人车的运动过程中，采集该移动机器人以及无人车所处场景下的彩色图像。该彩色相机可以为能够获取高分辨率的红绿蓝(Red Green Blue，RGB)图像的彩色相机，则相应的，该彩色图像为高分辨率的RGB图像。

为了保证深度补全结果的准确性，该获取的稀疏深度图和彩色图像的图像内容应该保持一致，也即是，步骤301中的指定场景和步骤303中的指定场景为相同的场景。

步骤304、将该3个输入图像以及该彩色图像输入沙漏网络。

沙漏网络包括按照指定顺序连接的3个沙漏模型，该3个输入图像与该3个沙漏模型一一对应。该3个沙漏模型分别根据彩色图像对该3个输入图像进行深度补全，得到3个特征图以及对应的3个深度预测图。

对于该3个沙漏模型中的第1个子模型，该第1个子模型对应的深度预测图为该第1个子模型输出的深度预测图；对于该3个沙漏模型中的第2个子模型，该第2个子模型对应的深度预测图为该第1个子模型输出的深度预测图和第2个子模型输出的深度预测图的融合图(即经过像素融合处理后的图像)；对于该3个沙漏模型中的第3个子模型，该第3个子模型对应的深度预测图为该第3个子模型输出的深度预测图和第2个子模型对应的深度预测图的融合图。

还需要说明的是，沙漏网络中，每个沙漏模型均包括多个卷积层，除了最后一层卷积层，每个卷积层的后面均包括一个线性整流函数(Rectified Linear Unit,ReLU)以解决梯度消失问题。

可选的，沙漏模型具有m个下采样层以及m个上采样层，该下采样层可以为卷积层，上采样层为反卷积层，m为大于0的整数，本申请实施例以m为2进行说明。则分别根据彩色图像对3个输入图像进行深度补全，分别得到对应的3个特征图以及3个深度预测图的过程可以包括：

步骤S1、将彩色图像进行n-1+m(即4)次下采样，以获取n-1+m(即4)种分辨率的彩色子图像。

步骤S2、对于第t个子模型，将第t个子模型对应的输入图像输入第t个子模型。

步骤S3、将该n-1+m(即4)种分辨率的彩色子图像中，具有与该第t个子模型中的m(即2)个下采样层的结果相同分辨率的彩色子图像分别与第t个子模型中的m(即2)个下采样层的结果进行像素融合，得到m(即2)个融合结果。

该融合指的是像素融合操作。由于彩色图像的特征信息丰富且稠密，通过将下采样后的具有相同分辨率的彩色图像与输入图像进行像素融合可以更好地保留图像中物体的轮廓等信息，使得彩色图像对于最终形成的稠密深度图起到指导作用。

步骤S4、将m(即2)个融合结果分别输入第t个沙漏模型中的m(即2)个上采样层。

步骤S5、通过将分别输入该m(即2)个上采样层的m(即2)个融合结果像素融合，获取第m(即2)个上采样层输出的第t个沙漏模型的特征图。

该第t个沙漏模型输出的特征图用于确定该第t个沙漏模型对应的特征图。在前述已经介绍过，沙漏模型对应的特征图用于输入下一个沙漏模型，因此，该沙漏模型对应的特征图可以是根据下一个沙漏模型输入图像的分辨率(或者尺寸)对该第t个沙漏模型输出的特征图进行上采样或者下采样等尺寸处理后的特征图。由于本申请实施例中，级联的沙漏模型输出的图像的尺寸依次增大，因此，该第t个沙漏模型对应的特征图，为对该沙漏模型输出的特征图进行上采样后的特征图。

步骤S6、根据第t个沙漏模型的特征图输出第t个沙漏模型的深度预测图。

步骤S7、当t＝1时，将第t个沙漏模型输出的深度预测图作为第t个沙漏模型对应的深度预测图。

当然，第t个沙漏模型对应的深度预测图也可以为根据实际需要对第t个沙漏模型输出的深度预测图进行尺度调整后的深度预测图。

步骤S8、当t＞1时，将第t个沙漏模型输出的深度预测图和第t-1个沙漏模型对应的深度预测图的融合图作为第t个沙漏模型对应的深度预测图。

当然，第t个沙漏模型对应的深度预测图也可以为根据实际需要对该融合图进行尺度调整后的深度预测图。

对彩色图像进行m次下采样可以由RGB编码器(Recoder)实现，RGB编码器包括堆叠的下采样卷积层。对每个沙漏模型，将彩色模型进行m次下采样是为了使得每个沙漏模型中每层网络对应分辨率的特征图均具有与之对应的彩色子图像，使得每层网络对应分辨率的特征图均能够得到具有与之相同分辨率的彩色子图像的指导。

表1示出了RGB编码器的相关参数，在RGB编码器中，对彩色图像进行一次下采样可以由RGB编码器中的一层网络(即一层下采样卷积层)实现。下采样卷积层用于对特征图进行收缩处理，如此可以增大感受野。

表1

在表1中，Output为每层网络的输出，Input为每层网络的输入，Kernel为对应层网络中卷积核的尺寸。Str.为该层网络卷积核滑动的步长，Str＝-2表示的是Str＝2的反卷积。Ch I/O为该层网络输入和输出的通道数。H指的是图像的长，W指的是图像的宽。OutRes指的是输出图像尺寸。

在表1以对彩色图像进行4次下采样为例进行说明。在表1的初始层中，输入为I，即指的是原始彩色图像，初始层将该彩色图像的3通道转化为32通道以便进行后续处理，在经过卷积处理之后，输出F0_c；在表1的编码器中，输入为初始层的输出，即图像F0_c，进行第1次下采样后，长和宽的尺寸均变为图像F0_c的1/2，在经过卷积处理之后，输出彩色子图像F1_c，在下一层网络中，输入为上一层网络的输出，即彩色子图像F1_c，进行第2次下采样后，长和宽的尺寸均变为图像F0_c的1/4，在经过卷积处理之后，输出彩色子图像F2_c，在下一层网络中，输入为上一层网络的输出，即彩色子图像F2_c，进行第3次下采样后，长和宽的尺寸均变为图像F0_c的1/8，在经过卷积处理之后，输出彩色子图像F3_c，在下一层网络中，输入为上一层网络的输出，即彩色子图像F3_c，进行第4次下采样后，长和宽的尺寸均变为图像F0_c的1/16，在经过卷积处理之后，输出彩色子图像F4_c。

在上述实施例中，对彩色图像进行了4次下采样，使得下采样后的得到的彩色子图像具有4种分辨率，能够分别对沙漏模型中的3个输入图像进行深度补全。

表2示出了沙漏网络中每个沙漏模型的相关参数。在每个沙漏模型中，对稀疏深度图进行一次下采样由沙漏模型中的编码器中的一层网络实现，对稀疏深度图进行一次上采样由沙漏模型中的解码器(Decoder)中的一层网络实现。深度预测图通过预测器(Predictor)实现。编码器包括堆叠的下采样卷积层，解码器包括堆叠的上采样反卷积层。

表2

在表2中，Output为每层网络的输出，Input为每层网络的输入，Kernel为对应层网络中卷积核的尺寸。Str.为该层网络卷积核滑动的步长，Str＝-2表示的是Str＝2的反卷积。Ch I/O为该层网络输入和输出的通道数。H指的是图像的长，W指的是图像的宽。OutRes指的是输出图像尺寸。k指的是沙漏模型的序号，在本申请实施例中，k也可以用于指示进行了几次上采样或者下采样，其取值的个数为n，取值范围为[0，n-1]。

表2以对稀疏深度图进行2次下采样以及2次上采样为例进行说明。表2中示出了序号为k的第k+1个沙漏模型中下采样和上采样的过程中，每层网络的输入以及输出。本申请实施例以序号为2的沙漏模型，即在指定顺序中排在第一的沙漏模型为例进行说明。

在表2的初始层中，输入为sD^k，即指的是稀疏深度图sD²，该稀疏深度图sD²为对原始稀疏深度图sD⁰进行两次下采样后得到的稀疏深度图，为n个输入图像中的一个输入图像。初始层将该稀疏深度图sD²的1通道转化为32通道以便进行后续处理，在经过卷积处理之后，输出F0_d²，长和宽的尺寸均变为原始稀疏深度图sD⁰的1/2²。在表2的编码器中，输入为初始层的输出，即F0_d²，进行第1次下采样后，长和宽的尺寸均变为稀疏深度图sD²的1/2，在经过卷积处理之后，输出F1_d²；在下一层网络中，输入为上一层网络的输出，即F1_d²，进行第2次下采样后，长和宽的尺寸均变为稀疏深度图sD²的1/4，在经过卷积处理之后，输出F2_d²；在下一层网络中，输入为上一层网络的输出F2_d²以及具有相同分辨率的彩色图像F4_c，即F2_d²+F4_c，进行第1次上采样后，长和宽的尺寸均变为稀疏深度图sD²的1/2，在经过卷积处理之后，输出F3_d²；在下一层网络中，输入为上一层网络的输出F3_d²、具有相同分辨率的彩色图像F3_c以及编码器中具有相同分辨率的稀疏深度图F1_d²，即F2_d²+F4_c+F1_d²，进行第1次上采样后，长和宽的尺寸均变为与稀疏深度图sD²一致，在经过卷积处理之后，输出F4_d²。该输出F4_d²为该第一个沙漏模型输出的特征图。

然后，基于特征图F4_d²、输入图像sD²以及具有相同分辨率的彩色图像F2_c获取该沙漏模型输出的深度预测图D²。当然，需要说明的是，由于输入图像sD²与特征图F4_d²的分辨率不同，因此，需要基于F0_d²获取深度预测图D²，也即是，特征图F4_d²、输出F0_d²以及彩色图像F2_c获取该沙漏模型输出的深度预测图D²。对于其他k的取值，均可参考上述过程，本申请实施例在此不再赘述。

需要说明的是，由于本申请实施例以第一个沙漏模型为例进行说明，因此，由于该沙漏模型不具有上一个相连的沙漏模型，因此，输入至编码器第一层网络的仅为初始层的输出F0_d²，当该沙漏模型不为第一个沙漏模型，则输入至编码器第一层网络的为初始层的输入F0_d^k以及上一个沙漏模型的输出F4_d^k+1。

步骤305、得到沙漏网络输出的稠密深度图。

为了使输出的稠密深度图更加准确，可以基于输出的稠密深度图对沙漏网络中的每个沙漏模型进行训练，该训练的过程可以包括：

步骤306、获取指定场景中分别属于指定的3个深度范围的3个稠密深度真值图。

稠密深度真值图中的每个像素点的像素值用于表示该像素点对应的位置在指定场景中的深度。该稠密深度真值图可以由深度相机进行获取。深度相机可以获取该指定场景对应的一张总的稠密深度真值图，然后基于n-1个深度阈值，对该总的稠密深度真值图中每个像素点的像素值进行划分，以划分出n个深度范围，以得到与该n个深度范围对应的n个稠密深度真值图。

步骤307、根据该3个稠密深度真值图以及与3个沙漏模型对应的3个深度预测图确定沙漏网络的总损失。

步骤307中，确定沙漏网络的总损失的过程可以包括：

根据该3个稠密深度真值图、该与3个沙漏模型对应的3个深度预测图以及第二目标公式，确定沙漏网络的总损失。

该第二目标公式可以包括：

其中，ω₂、ω₁以及ω₀分别对应3个输入图像的权重参数，N是每个输入图像中像素的总数，i是像素在输入图像中的序号，1(·)为指示函数，τ₂和τ₁为2个深度阈值，对应3个深度范围，

为稠密深度真值图，

为误差平方和，用于表示沙漏模型对应的深度预测图与稠密深度真值图之间的损失。从第二目标公式中可以看出，沙漏网络的总损失为每个沙漏模型对应的深度预测图与对应的稠密深度真值图的损失之和。

在沙漏网络的三个沙漏模型中，第一个沙漏模型的输入是1/4尺寸的稀疏深度图，具有较粗糙的特征，该沙漏模型拥有较大的感受野，因此适合预测较大的结构。本申请实施例设置了较小的深度阈值τ₂，使该第一个沙漏模型可以预测近处的大结构场景。并将深度阈值τ₁设置为大于深度阈值τ₂，即τ₁>τ₂，使得第二个沙漏模型可以预测中距离的场景结构，并补充近景中的细节。第三个沙漏模型可以不加距离上的限制，让该深度模块在全图范围内预测精细的结构场景。在本申请实施例所提供的图像处理方法中，指定场景的复杂度可以通过深度信息来体现，深度信息可以作为衡量一个位置点出现在较大结构或较精细结构的判别准则。在本申请实施例中，较近的区域为大尺度结构，较远的区域为精细结构。

当然，上述提供的是沙漏网络包括3个沙漏模型的情况，对于沙漏网络包括n个沙漏模型的情况，即根据n个稠密深度真值图、n个沙漏模型对应的n个深度预测图以及第二目标公式，确定沙漏网络的总损失。该第二目标公式可以包括：

其中，ω_n-1、ω_n-2至ω₀分别对应n个输入图像的权重参数，N是每个输入图像中像素的总数，i是像素在输入图像中的序号，1(·)为指示函数，τ_n-1、τ_n-2至τ₁为n-1个深度阈值，对应n个深度范围，且τ_n-1、τ_n-2至τ₁的取值依次增大，

为稠密深度真值图，

为误差平方和，用于表示n个沙漏模型对应的深度预测图与稠密深度真值图之间的损失。

步骤308、根据该总损失对该3个沙漏模型进行优化，直至该总损失小于指定损失。

该优化的过程可以为调节沙漏模型中每层网络中网络卷积核的尺寸、该层网络卷积核滑动的步长等参数。在对3个沙漏模型进行优化的过程中，当总损失小于指定损失时，则可以停止对该3个子模型进行优化，并将该沙漏网络中最后一个沙漏模型输出的稠密深度图确定为最终的稠密深度图。

图6示出了采用本申请实施例所描述的一种图像处理方法将稀疏深度图补全为稠密深度图的过程示意图。该方法中，深度模型为沙漏网络，该沙漏网络包括级联的3个子模型，每个子模型中包括2个下采样层和2个上采样层，对稀疏深度图进行了2次下采样，对彩色图像进行了4次下采样。

获取指定场景的稀疏深度图sD⁰，该稀疏深度图sD⁰为原始稀疏深度图，稀疏深度图sD⁰的尺寸与原始稀疏深度图的尺寸(Res)比例为1/1。对该稀疏深度图sD⁰进行2次下采样，获得稀疏深度图sD¹以及稀疏深度图sD²。稀疏深度图sD⁰、稀疏深度图sD¹以及稀疏深度图sD²可以对应3个深度范围。稀疏深度图sD¹的尺寸为稀疏深度图sD⁰的尺寸的1/2，稀疏深度图sD²的尺寸为稀疏深度图sD⁰的尺寸的1/4。

获取该指定场景的RGB图像，该RGB图像为原始RGB图像，因此其与原始RGB图像的尺寸比例为1/1。将该RGB图像进行初始化卷积层(initial convs)然后输入至RGB编码器，以获取4种分辨率的RGB图像，分辨率从大到小依次为第一RGB图像、第二RGB图像、第三RGB图像以及第四RGB图像。初始化卷积层可以用于将输入转化为低层次的特征图。

对于第一个沙漏模型，将稀疏深度图sD²进行初始化卷积之后输入至第一个沙漏模型，该第一个沙漏模型先对初始化卷积后的稀疏深度图sD²进行两次下采样，然后再进行上采样，将第三RGB图像以及第四RGB图像在上采样的过程中与相应层网络输出的图像进行像素融合以输出深度预测图以及第三特征图，如此可以保持良好的局部信息。由于该沙漏模型为第一个沙漏模型，因此，该沙漏模型输出的深度预测图即为该第一个沙漏模型对应的深度预测图D²。其中，该像素融合的过程可以参考前述步骤S1至步骤S8，本申请实施例在此不再赘述。

需要说明的是，深度预测图D²以及第三特征图为对第一个沙漏模型直接输出的深度预测图以及特征图均进行一次上采样(UPSP，up sampling)之后输出的的深度预测图以及第三特征图，以保证输出的该深度预测图以及第三特征图具有与稀疏深度图sD¹相同的尺寸。

对于第二个沙漏模型，将稀疏深度图sD¹以及深度预测图D²均进行初始化卷积之后，与第三特征图进行像素融合形成第一融合图像，将该第一融合图像输入至第二个沙漏模型。该第二个沙漏模型先对第一融合图像进行两次下采样，然后再进行上采样，将第二RGB图像以及第三RGB图像在上采样的过程中与相应层网络输出的图像进行像素融合以输出深度预测图以及第二特征图。其中，该像素融合的过程可以参考前述步骤S1至步骤S8，本申请实施例在此不再赘述。

由于该沙漏模型为第二个沙漏模型，因此，该沙漏模型对应的深度预测图D¹为将该第二个沙漏模型输出深度预测图与第一个沙漏模型输出的深度预测图进行融合之后的形成的深度预测图。需要说明的是，第二个沙漏模型输出的深度预测图以及第二特征图为均进行一次上采样之后输出的深度预测图以及第二特征图，以保证输出的该深度预测图以及第二特征图具有与稀疏深度图sD⁰相同的尺寸。

对于第三个沙漏模型，将稀疏深度图sD⁰以及深度预测图D¹均进行初始化卷积之后，与第三特征图进行像素融合形成第二融合图像，将该第二融合图像输入至第三个沙漏模型。为了保证最终输出的稠密深度图中具有不同深度范围的像素信息，该深度预测图D¹为第一个沙漏模型对应的深度预测图D²与第二个沙漏模型输出的深度预测图进行像素融合后生成的深度预测图。

该第三个沙漏模型先对第二融合图像进行两次下采样，然后再进行上采样，将第一RGB图像以及第二RGB图像在上采样的过程中与相应层网络输出的图像进行像素融合以输出深度预测图以及第一特征图。其中，该像素融合的过程可以参考前述步骤S1至步骤S4，本申请实施例在此不再赘述。

该第三沙漏模型可以先生成特征图，然后基于该特征图生成深度预测图。为了保证最终输出的稠密深度图D⁰中具有不同深度范围的像素信息，与第三沙漏模型对应的深度预测图D⁰为第二个沙漏模型对应的深度预测图D¹与第三个沙漏模型输出的深度预测图进行像素融合后生成的深度预测图。

另外，为了更好地训练每个沙漏模型，可以采用三个稠密深度真值图对每个中间过程中输出的深度预测图进行中间监督。每个稠密深度真值图用于监督指定范围内的深度，例如，图6中，该指定范围包括指定场景中深度范围为0-10米、0-20米以及0-100米，分别用于监督深度预测图D²、深度预测图D¹以及深度预测图D⁰。深度预测图D²、深度预测图D¹以及深度预测图D⁰的预测结果的精细程度依次增加。

在该沙漏网络中，第一个沙漏模型可以用于捕捉较粗糙的特征，把低分辨率的稀疏深度图作为输入，使得第一个沙漏模型只用两层网络就可以很好地捕捉到较大的结构特征，并有效地抽象出图像中的场景。第二个沙漏模型用于对第一个沙漏模型的初始预测结果进行调整，第三个沙漏模型用于对第二个沙漏模型的预测结果进行调整，以预测出最终的包含细节的稠密深度预测图。也即是，每个沙漏模型专注于预测指定场景中不同深度范围内的场景结构。

并且，在本申请实施例中，为了提高稠密深度预测图的准确性，在生成稠密深度预测图的过程中可以通过彩色图像进行指导。由于彩色图像中的每个像素的信息较为丰富且稠密，彩色图像可以对场景中物体的轮廓以及轮廓等进行指导。由于每个尺寸的彩色图像在与每个沙漏模型的收缩部分中具有相同分辨率的图像像素融合之后，用于生成每个沙漏模型的扩展部分中具有相同分辨率的图像。如此使得所有的沙漏模型在预测深度时都能得到彩色图像的指导，并且所有分辨率的深度特征都有与之对应的RGB特征。

图7示出了本申请实施例提供的图像处理方法在KITTI数据集上进行深度补全的测试结果，第一列为彩色RGB图像，第二列为稀疏深度图，第三列为深度预测图，第四列为稠密深度真值图。

需要说明的是，上述实现过程仅是本申请实施例所提供的一种可实现方式，在其他可实现方式中，可以对上述步骤进行相应调整，例如先执行上述步骤303中获取指定场景的彩色图像的过程，在执行上述步骤301中获取指定场景的稀疏深度图的过程，本申请实施例对此不进行限制。

表3示出了本申请实施例所提供的图像处理方法以及其他图像处理方法在同一数据集上进行深度补全的测试结果。该其他图像处理方法包括DeepLidar、RGB_guide&certainty、Sparse-to-Dense以及Spade-RGBsD。该数据集为KITTI数据集。由于本申请实施例提供的图像处理方法由多尺度的沙漏模型级联而成的网络实现，因此该网络也可称为MSG-CHN(Multi-Scale Guided Cascade Hourglass Network for Depth Completion)。

表3

图像处理方法	MAE(mm)	RMSE(mm)	Params	Runtime(s)	Platform
						DeepLidar	226.50	758.38	144M	0.07	GTX 1080Ti
RGB_guide&certainty	215.02	772.87	2.6M	0.02	Tesla V100
						Sparse-to-Dense(gd)	249.95	814.73	26.1M	0.08	Tesla V100
Spade-RGBsD	234.81	917.64	5.3M	0.07	-
						MSG-CHN	229.73	794.27	364k	0.01	GTX 2080Ti

表3中，MAE和RMSE为误差标准，单位均为毫米(mm)，Params为网络的参数量，M指的是百万(million)，Runtime为网络运行时间，单位为秒(s)，Platform为网络运行的平台。从表3中可以看出，本申请实施例提供的图像处理方法MSG-CHN网络的参数量明显少于其他图像处理方法，使得本申请实施例提供的图像处理方法降低了网络的复杂度，使得网络的运行时间有所降低，能够用于实现将指定场景的稀疏深度图实时补全为稠密深度图的效果。

图8是本申请实施例提供的一种图像处理装置的结构框图，该装置800可以包括：

获取模块801，用于获取指定场景的稀疏深度图；

所述获取模块801，用于获取所述稀疏深度图中分别属于指定的n个深度范围的n个输入图像，n为大于1的整数；

所述获取模块801，用于获取所述指定场景的彩色图像；

处理模块802，用于将所述n个输入图像以及所述彩色图像输入深度模型，所述深度模型包括按照指定顺序连接的n个子模型，所述n个输入图像与所述n个子模型一一对应，所述n个子模型分别根据所述彩色图像对所述n个输入图像进行深度补全，得到n个特征图以及对应的n个深度预测图，对于第t个子模型，当t＝1时，第t个子模型对应的深度预测图为第t个子模型输出的深度预测图，当t＞1时，第t个子模型对应的深度预测图为第t个子模型输出的深度预测图和第t-1个子模型对应的深度预测图的融合图，0＜t≤n，所述n个子模型中，每个子模型的输入包括所述彩色图像以及每个子模型对应的输入图像，除第1个子模型外的其它子模型中，每个子模型的输入还包括前一个子模型对应的深度预测图和对应的特征图，且第n个子模型对应的深度预测图为所述深度模型输出的稠密深度图；

所述处理模块802，用于得到所述深度模型输出的稠密深度图。

综上所述，本申请实施例提供的图像处理装置，通过采用n个子模型级联而成的模型，分别根据彩色图像对具有不同尺度的n种输入图像进行深度补全，由于该n个输入图像可以对应n个深度范围，使得每个子模型均可以针对指定场景中的某一个指定深度范围进行深度预测，避免了相关技术中使用同一网络结构对指定场景中不同深度的场景进行处理而导致网络结构冗余以及网络参数量过大的问题。有效降低了网络复杂度，节约了网络运行时间，达到了实时获取稠密深度图的效果。并且，每个子模型均使用彩色图像辅助进行深度预测，由于彩色图像的信息丰富且稠密，能够对场景的识别起到指导作用，使得输出的具有稠密深度的预测结果更加准确。

可选的，所述获取模块801，用于：

采用第一目标公式对所述稀疏深度图进行n-1次下采样；

将所述稀疏深度图以及所述n-1次下采样后的稀疏深度图作为所述n个输入图像；

所述第一目标公式包括：

其中，所述

表示所述输入图像，所述sD表示待下采样的稀疏深度图，所述k表示所述子模型的序号，0≤k＜n，所述

表示平均池化，所述ε为常数，用于保证所述第一目标公式的分母不为0，所述C表示有效模板，若所述待下采样的稀疏深度图sD中坐标为(x，y)的像素点为有效点，则C(x，y)＝1，否则C(x，y)＝0。

本申请实施例提供了一种计算机设备，该计算机设备可以为终端或者服务器。图9示出的是本申请实施例提供的一种终端的结构示意图。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：一个或多个处理器901和一个或多个存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的图像识别方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图10示出的是本申请实施例提供的一种服务器的结构示意图，该服务器1000包括中央处理单元(Central Processing Unit，CPU)1001、包括随机存取存储器(RandomAccess Memory，RAM)1002和只读存储器(Read-Only Memory，ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/output system，I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备809都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，大容量存储设备1007可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)/闪存或其他固态存储其技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的图像识别方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

以上所述仅是为了便于本领域的技术人员理解本申请的技术方案，并不用以限制本申请。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。