CN115063526A

CN115063526A - 二维图像的三维重建方法、系统、终端设备及存储介质

Info

Publication number: CN115063526A
Application number: CN202210577251.0A
Authority: CN
Inventors: 侯丹; 翁钊; 曹先进
Original assignee: Shanghai Damou Intelligent Technology Co ltd
Current assignee: Shanghai Damou Intelligent Technology Co ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-09-16

Abstract

本发明公开了一种二维图像的三维重建方法、系统、终端设备及存储介质。该方法包括：获取待处理图像；将所述待处理图像输入预先创建的识别模型进行处理，得到特征图；基于所述特征图生成三维图像；将所述待处理图像的标注信息映射到所述三维图像，得到最终图像；将所述待处理图像及其标注信息与所述最终图像及其标注信息对应关联，得到数据库。本发明降低了二维平面图像转换为三维图像的信息损失，提高二维图像转换为三维图像的准确率，提供更加精准的模型识别效果，向用户提供更加直观的浏览体验。

Description

二维图像的三维重建方法、系统、终端设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种二维图像的三维重建方法、系统、终端设备及存储介质。

背景技术

人工智能辅助诊断依托以卷积神经网络为主的多种机器学习智能算法，将二维平面图像转换为三维模型，识别二维平面图像中的标注内容，并将标注内容转换到三维模型。但是，在将二维平面图像转换为三维模型的过程中，传递的信息会有所损失。

发明内容

本发明实施例的主要目的在于提供一种二维图像的三维重建方法、系统、终端设备及存储介质，旨在降低二维平面图像转换为三维模型的信息损失，提高三维模型的准确率，提供更加精准的模型识别效果，向用户提供更加直观的浏览体验。

为实现上述目的，本发明实施例提供一种二维图像的三维重建方法，所述二维图像的三维重建方法包括：

获取待处理图像；

将所述待处理图像输入预先创建的识别模型进行处理，得到特征图；

基于所述特征图生成三维图像；

将所述待处理图像的标注信息映射到所述三维图像，得到最终图像；

将所述待处理图像及其标注信息与所述最终图像及其标注信息对应关联，得到数据库。

可选地，所述基于所述特征图生成三维图像的步骤包括：

提取所述特征图的关键帧；

基于所述关键帧，计算估算深度；

基于所述关键帧、所述估算深度、所述待处理图像，生成所述三维图像。

可选地，所述将所述待处理图像输入预先创建的识别模型进行处理，得到特征图的步骤之前包括：

训练所述识别模型；

其中，所述训练所述识别模型的步骤包括：

获取训练图像；

识别所述训练图像，得到所述训练图像的检测框；

对所述训练图像的检测框进行分类，得到所述训练图像的检测框的类别信息；

将所述训练图像的检测框的类别信息回传到所述识别模型，并返回执行步骤：识别所述训练图像，得到所述训练图像的检测框；

以此循环，进行参数迭代，直到所述识别模型收敛，终止训练。

可选地，所述将所述待处理图像输入预先创建的识别模型进行处理，得到特征图的步骤包括：

将所述待处理图像输入所述预先创建的识别模型进行识别，得到所述待处理图像的检测框；

通过所述识别模型对所述待处理图像的检测框进行分类，得到所述特征图，其中，所述特征图携带所述待处理图像的检测框的类别信息。

可选地，所述基于所述关键帧，计算估算深度的步骤之后包括：

根据所述关键帧的特征点建立匹配关系；

基于所述关键帧、所述匹配关系建立深度图；

基于所述深度图、所述估算深度、所述待处理图像，生成所述三维图像。

可选地，所述将所述待处理图像输入预先创建的识别模型进行处理，得到特征图的步骤之后包括：

根据预设框对所述特征图的坐标进行调整。

对所述待处理图像进行预处理，得到标准化图像；

将所述标准化图像输入所述识别模型进行处理，得到所述特征图。

此外，为实现上述目的，本发明还提供一种二维图像的三维重建系统，所述系统包括：

图像获取模块，用于获取待处理图像；

图像识别模块，用于将所述待处理图像输入预先创建的识别模型进行处理，得到特征图；

图像生成模块，用于基于所述特征图生成三维图像；

图像映射模块，用于将所述待处理图像的标注信息映射到所述三维图像，得到最终图像；

数据库生成模块，用于将所述待处理图像及其标注信息与所述最终图像及其标注信息对应关联，得到数据库。

此外，为实现上述目的，本发明还提供一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的二维图像的三维重建方法，所述二维图像的三维重建的程序被所述处理器执行时实现如上所述的二维图像的三维重建方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有二维图像的三维重建的程序，所述二维图像的三维重建的程序被处理器执行时实现如上所述的二维图像的三维重建方法的步骤。

本发明实施例提出的二维图像的三维重建方法、系统、终端设备及存储介质，获取待处理图像；将所述待处理图像输入预先创建的识别模型进行处理，得到特征图；基于所述特征图生成三维图像，以将二维图像转换为三维图像，降低二维平面图像转换为三维图像的信息损失；将所述待处理图像的标注信息映射到所述三维图像，得到最终图像，以提高二维图像转换为三维图像时，信息的完整性，便于用户根据标注信息识别三维图像的具体组成；将所述待处理图像及其标注信息与所述最终图像及其标注信息对应关联，得到数据库。通过上述方式，本发明降低了二维平面图像转换为三维图像的信息损失，提高二维图像转换为三维图像的准确率，提供更加精准的模型识别效果，向用户提供更加直观的浏览体验。

附图说明

图1为本发明二维图像的三维重建装置所属终端设备的功能模块示意图；

图2为本发明二维图像的三维重建方法第一实施例的流程示意图；

图3为本发明二维图像的三维重建方法第二实施例的流程示意图；

图4为本发明二维图像的三维重建方法第三实施例的流程示意图；

图5为本发明二维图像的三维重建系统的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取待处理图像；将所述待处理图像输入预先创建的识别模型进行处理，得到特征图；基于所述特征图生成三维图像；将所述待处理图像的标注信息映射到所述三维图像，得到最终图像；将所述待处理图像及其标注信息与所述最终图像及其标注信息对应关联，得到数据库。

本发明实施例涉及的技术术语：

CNN：(Convolutional Neural Networks,卷积神经网络)，是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。

卷积神经网络的输入层可以处理多维数据，常见地，一维卷积神经网络的输入层接收一维或二维数组，其中一维数组通常为时间或频谱采样；二维数组可能包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组。

卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑，在一些更为现代的算法中可能有Inception模块、残差块等复杂构筑。在常见构筑中，卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数，而池化层不包含权重系数，因此在文献中，池化层可能不被认为是独立的层。以LeNet-5为例，3类常见构筑在隐含层中的顺序通常为：输入-卷积层-池化层-全连接层-输出。

卷积神经网络中输出层的上游通常是全连接层，因此其结构和工作原理与传统前馈神经网络中的输出层相同。对于图像分类问题，输出层使用逻辑函数或归一化指数函数输出分类标签。在物体识别问题中，输出层可设计为输出物体的中心坐标、大小和分类。在图像语义分割中，输出层直接输出每个像素的分类结果。

AI：(Artificial Intelligence，人工智能)，它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

DnCNN：(Denoising Convolutional Neural Network，去噪卷积神经网络)，DnCNN在VGG的基础上进行修改，网络结构是(卷积、BN、ReLU)级联的结构，模型内部并不像ResNet一样存在跳远连接，而是在网络的输出使用残差学习。

FFDnet：(Fast and Flexible Denoising net，快速去噪网络)，DnCNN利用BatchNormalization和residual learning可以有效地去除均匀高斯噪声，且对一定噪声水平范围的噪声都有抑制作用。然而真实的噪声并不是均匀的高斯噪声，其是信号依赖的，各颜色通道相关的，而且是不均匀的，可能随空间位置变化的。在这种情况下，FFDNet使用噪声估计图作为输入，权衡对均布噪声的抑制和细节的保持，从而应对更加复杂的真实场景。

CBDnet：(Convolutional Blind Denoising net，常规降噪网络)，CBDNet使用噪声估计图作为输入，权衡对均布噪声的抑制和细节的保持，从而应对更加复杂的真实场景，其将噪声水平估计过程也用一个子网络实现，从而使得整个网络可以实现盲去噪。

SIFT：(Scale-invariant feature transform，尺度不变特征转换)，是一种电脑视觉的算法用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量。

GPU：(graphics processing unit，GPU)，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。

SLAM：(simultaneous localization and mapping，即时定位与地图构建),将一个机器人放入未知环境中的未知位置，让机器人一边移动一边逐步描绘出此环境完全的地图。

DTAM：(DenseTracking and Mapping，稠密追踪与地图)构造了一个全局优化能量方程，用来估算关键帧的反向深度映射；该能量方程由光测度误差项(photometric errordata term)与空间正则项(robust spatial regularisation term)之和组成。

Bunlder：Bundler是采用C和C++开发的sfm(Structure from Motion)的系统，它能够通过对某个场景不同角度的多张图片生成稀疏点的三维信息，并且估计每一幅图片的相机参数(内参和外参)。最早的版本被用在Photo Tourism的项目上。Bundler的输入是一些图像、图像特征以及图像匹配信息，输出则是一个根据这些图像反应的场景的3D重建模型，伴有少量识别得到的相机以及场景几何信息。

CMVS：(Cowards Internet-scale Multi-view Stereo，多视角立体视觉法)，将SFM的稀疏点聚类到不同的影像集(image cluster)，每个影像集分别进行MVS算法。根据SFM稀疏点的信息对浩大的影像分块成多个小块，分别进行MVS，减少MVS算法的资源峰值。

PMVS：(patch-based MVS algorithm，三维重建算法)，是一种使用不同角度，同一物体的多幅图像进行三维建模的技术。其只能对出现在2幅或多幅图像上的部分进行三维建模。

YOLO：(You only look once，只看一次)，YOLO将物体检测作为回归问题求解。基于一个单独的end-to-end网络，完成从原始图像的输入到物体位置和类别的输出。

FPN：(Feature Pyramid Networks，高斯金字塔)，高斯金字塔是通过高斯平滑和亚采样获得一些下采样图像，也就是说第K层高斯金字塔通过平滑、亚采样操作就可以获得K+1层高斯图像，高斯金字塔包含了一系列低通滤波器，其截止频率从上一层到下一层是以因子2逐渐增加，所以高斯金字塔可以跨越很大的频率范围。

SS：(Selective Search，目标检测)，目标检测是在图片中对可变数量的目标进行查找和分类。检测的内容包括：目标种类与数量问题、目标尺度问题、外在环境干扰问题、框上有类别和置信度(有阈值限定)。

人工智能辅助诊断，依托以卷积神经网络为主的多种机器学习智能算法，将二维平面图像转换为三维模型，并且可以识别二维平面图像中的标注内容。但是，在将二维平面图像转换为三维模型的过程中，传递的信息会有所损失。

本发明提供一种解决方案，旨在降低二维平面图像转换为三维模型的信息损失，提高三维模型的准确率。

具体地，参照图1，图1是本发明二维图像的三维重建装置所属终端设备的功能模块示意图。该二维图像的三维重建装置可以为独立于终端设备的、能够进行图片处理、网络模型训练的装置，其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端，还可以为具有数据处理功能的固定终端设备或服务器等。

在本实施例中，该二维图像的三维重建装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。

存储器130中存储有操作方法以及二维图像的三维重建程序；输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等，通过通信模块140与外部设备或服务器进行通信。

其中，存储器130中的二维图像的三维重建程序被处理器执行时实现以下步骤：

获取待处理图像；

基于所述特征图生成三维图像；

进一步地，存储器130中的二维图像的三维重建程序被处理器执行时还实现以下步骤：

提取所述特征图的关键帧；

基于所述关键帧，计算估算深度；

训练所述识别模型；

其中，所述训练所述识别模型的步骤包括：

获取训练图像；

识别所述训练图像，得到所述训练图像的检测框；

根据所述关键帧的特征点建立匹配关系；

基于所述关键帧、所述匹配关系建立深度图；

根据预设框对所述特征图的坐标进行调整。

对所述待处理图像进行预处理，得到标准化图像；

本实施例通过上述方案，通过获取待处理图像；将所述待处理图像输入预先创建的识别模型进行处理，得到特征图；基于所述特征图生成三维图像；将所述待处理图像的标注信息映射到所述三维图像，得到最终图像。本发明降低了二维平面图像转换为三维图像的信息损失，提高二维图像转换为三维图像的准确率，提供更加精准的模型识别效果，向用户提供更加直观的浏览体验。

基于上述终端设备架构但不限于上述架构，提出本发明方法实施例。

参照图2，图2为本发明二维图像的三维重建方法第一实施例的流程示意图。所述二维图像的三维重建方法包括：

步骤S101，获取待处理图像。

步骤S102，将所述待处理图像输入预先创建的识别模型进行处理，得到特征图。

步骤S103，基于所述特征图生成三维图像。

本实施例方法的执行主体可以是一种二维图像的三维重建装置，也可以是一种二维图像的三维重建终端设备或服务器，本实施例以二维图像的三维重建装置进行举例，该二维图像的三维重建装置可以集成在具有数据处理功能的智能手机、平板电脑等终端设备上。

为了降低二维平面图像转换为三维图像的信息损失，提高二维图像转换为三维图像的准确率，提供更加精准的模型识别效果，向用户提供更加直观的浏览体验，首先，获取待处理图像，其中，待处理图像携带标注信息。

作为一种实施方式，在本实施例中，医生对患者的内镜检查进行图像标注，标注内容包括病灶和解剖部位。例如：医生对患者的胃镜图像进行标注，包括对贲门、幽门、胃大弯、胃小弯、胃底、十二指肠等部位进行标注。将含有标注信息的内镜检查图像作为上述待处理图像。

作为另一种实施方式，获取内镜检查图像，并通过AI图像识别技术，识别内镜检查图像的解剖部位，并对解剖部位赋予相应的名称。将含有标注信息的内镜检查图像作为上述待处理图像。

由此，通过对二维图像进行标注，提高二维图像转换为三维图像时，识别三维图像的准确率。

其次，对待处理图像进行预处理，得到标准化图像。

具体地，对待处理图像的颜色差异、明暗差异、遮挡等方面进行去噪、增强和平衡，以此对待处理图像进行预处理标准化，得到标准化图像。对待处理图像进行去噪，包括以下至少一种方式：

第一种方式：通过滤波器对待处理图像进行去噪处理。例如：通过非局部均值算法对待处理图像进行去噪处理；基于块匹配的3D滤波算法对待处理图像进行去噪处理。

第二种方式：通过模型对待处理图像进行去噪处理。例如：通过非局部自相似模型对待处理图像进行去噪处理；通过稀疏模型对待处理图像进行去噪处理；通过梯度模型对待处理图像进行去噪处理；通过马尔可夫模型对待处理图像进行去噪处理。

第三种方式：通过学习的方式对待处理图像进行去噪处理。例如：通过卷积神经网络对待处理图像进行去噪处理；其中，卷积神经网络包括：CNN，DnCNN、FFDnet、CBDnet。

由此，通过对待处理图像进行预处理，得到标准化图像，以此提高图像的清晰度，使之转换形成的三维图像更加清晰，更具辨识度。

进一步地，将待处理图像输入预先创建的识别模型进行处理，得到三维图像。

具体地，将待处理图像输入预先创建的识别模型进行识别，得到待处理图像的检测框；通过识别模型对待处理图像的检测框进行分类，得到特征图，其中，特征图携带待处理图像的检测框的类别信息，以便后续将二维图像的标识信息映射到三维图像，提高标识信息映射的效率、准确率。

进一步地，根据预设框对特征图的坐标进行调整，其中，预设框为人为预先设置的anchor(锚)框。

由此，当人为预先对图像某些特征的位置进行限定时，生成的特征图的位置也会根据预先设置的位置信息进行调整，以此提高图像转换的准确率，降低图像转换时产生的信息损失。

进一步地，基于特征图生成三维图像，由此，基于识别模型，得到特征图，将特征图转换为三维图像，使二维图像的信息更直观地呈现给用户，便于用户对三维图像进行分析。

步骤S104，将所述待处理图像的标注信息映射到所述三维图像，得到最终图像。

步骤S105，将所述待处理图像及其标注信息与所述最终图像及其标注信息对应关联，得到数据库。

在本实施例中，将待处理图像的标注信息映射到三维图像，得到最终图像。

具体地，得到三维图像后，将人工标注的二维标注信息投射到三维图像，建立三维标注数据库，并将具有二维标注信息的三维图像存储至三维标注数据库。将待处理图像及其标注信息与最终图像及其标注信息对应关联，得到数据库。

通过Graph-Convolution图卷积神经网络和Transformer模型，将二维标注信息映射到三维图像的对应位置，实现预设位置的具有二维标注信息的三维图像定位与分类；其中，预设位置包括病变部位，可根据实际情况进行设置。将待处理图像及其标注信息与最终图像及其标注信息对应关联，得到数据库。以此实现直接基于二维的胃镜图像进行胃内表面与病变部位的三维重建与定位，可在数据库查询二维图像与三维图像的标注信息。

本实施例通过上述方案，通过获取待处理图像；将所述待处理图像输入预先创建的识别模型进行处理，得到特征图；基于所述特征图生成三维图像；将所述待处理图像的标注信息映射到所述三维图像，得到最终图像；将所述待处理图像及其标注信息与所述最终图像及其标注信息对应关联，得到数据库。本发明通过对二维图像进行标注，提高二维图像转换为三维图像时，识别三维图像的准确率，降低了二维平面图像转换为三维图像的信息损失，提高二维图像转换为三维图像的准确率，提供更加精准的模型识别效果，向用户提供更加直观的浏览体验。

参照图3，图3为本发明二维图像的三维重建方法第二实施例的流程示意图。基于上述图2所示的实施例，在本实施例中，步骤S103：基于所述特征图生成三维图像包括：

步骤S1031，提取所述特征图的关键帧。

步骤S1032，基于所述关键帧，计算估算深度。

步骤S1033，基于所述关键帧、所述估算深度、所述待处理图像，生成所述三维图像。

根据二维图像实现三维重建的关键在于深度图估计，在本实施例中，提取特征图的关键帧，根据关键帧计算估算深度；并基于关键帧、估算深度、待处理图像，生成三维图像。

具体地，通过SIFT算法提取特征图的关键特征点，并匹配两帧的特征点，得到特征图的关键帧，针对拍摄角度和位移变化小的相似帧，通过相似矩阵剔除，保留信息独立并存在连续交集的关键帧；其中，关键帧为图像中需再次处理的部分，在本实施例中，将病变部分的图像帧作为关键帧。

其中，SIFT即尺度不变特征变换，是用于图像处理领域的一种描述。这种描述具有尺度不变性，可在图像中检测出关键点。SIFT算法具有以下特点：

(1)SIFT算法具有较好的稳定性和不变性，能够适应旋转、尺度缩放、亮度的变化，在一定程度上不受视角变化、仿射变换、噪声的干扰。

(2)SIFT算法的区分性好，能够在海量特征数据库中快速准确的区分信息进行匹配。

(3)SIFT算法具有多量性，就算只有单个物体，也可以产生大量特征向量。

(4)SIFT算法具有高速性，能够快速的进行特征向量匹配。

(5)SIFT算法具有可扩展性，能够与其它形式的特征向量进行联合。

更为具体地，首先，通过SIFT算法提取特征图的关键点；其中，关键点是一些十分突出的不会因光照、尺度、旋转等因素而消失的点，比如角点、边缘点、暗区域的亮点以及亮区域的暗点。此步骤是搜索所有尺度空间上的图像位置。通过高斯微分函数来识别潜在的具有尺度和旋转不变的兴趣点。

其次，通过SIFT算法定位关键点并确定特征方向：在每个候选的位置上，通过一个拟合精细的模型来确定位置和尺度。关键点的选择依据于它们的稳定程度。然后基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向。所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换，从而提供对于这些变换的不变性。

最后，通过SIFT算法对各关键点的特征向量进行两两比较，找出相互匹配的若干对特征点，建立景物间的对应关系，其中，若干对特征点组成关键帧，将特征点与景物间的对应关系作为匹配关系。

由此，通过获取关键帧，得到二维图像中需要再次处理的图像信息，为后续将二维图像转变为三维图像提供依据，以此提高三维图像转换的正确率。

进一步地，根据关键帧、匹配关系建立深度图，以便后续根据深度图进行三维信息的恢复与重建。

进一步地，根据关键帧计算估算深度。

具体地，通过DTAM根据关键帧计算估算深度。DTAM不依赖于特征点提取，而是采用所谓whole image registration(全像素)匹配。即给定两关键帧，DTAM为每一个像素估计其三维空间深度，同时也估计两帧之间镜头的位移和转角。任何一帧中的每个像素都可以投射到三维空间的一个点，然后又投射到另一帧中一个像素。一帧经过三维变换后投射在另一帧中镜像应该和该帧的图像很相似。这就是DTAM的基本准则。虽然DTAM稠密的匹配每个像素，但该算法可高度并行化，使用当前的商用GPU硬件甚至可实现实时性能。其中，将上述三维空间深度作为估算深度。

进一步地，基于深度图、估算深度、待处理图像，生成三维图像。

具体地，建立深度图后，结合待处理图像(二维图像帧)、估算深度，进行SLAM三维重建，融合成三维图像。其中，采用DTAM和Bunlder+CMVS的技术方法实现三维图像的重建。其中，Bundler和PMVS(CMVS)是进行三维重构中的一套工具包，Bundler利用一系列无序图片可以生成场景的稀疏点云，这些稀疏点云通过PMVS工具包可以得到稠密点云，从而可以重建出场景的三维图像。

由此，基于深度图、估算深度、待处理图像，生成三维图像，使得三维图像的各特征在转换后保持其属性特征，降低图像转换时的信息损失，便于用户根据三维图像更直观的获取信息。

本实施例通过上述方案，通过获取待处理图像；将所述待处理图像输入预先创建的识别模型进行处理，得到特征图；基于所述特征图生成三维图像；将所述待处理图像的标注信息映射到所述三维图像，得到最终图像；将所述待处理图像及其标注信息与所述最终图像及其标注信息对应关联，得到数据库。本发明降低了二维平面图像转换为三维图像的信息损失，当人为预先对图像某些特征的位置进行限定时，生成的特征图的位置也会根据预先设置的位置信息进行调整，以此提高图像转换的准确率，降低图像转换时产生的信息损失。

参照图4，图4为本发明二维图像的三维重建方法第三实施例的流程示意图。基于上述图2所示的实施例，在本实施例中，步骤S102：将所述待处理图像输入预先创建的识别模型进行处理，得到特征图之前包括：

步骤S106，获取训练图像。

步骤S107，识别所述训练图像，得到所述训练图像的检测框。

步骤S108，对所述训练图像的检测框进行分类，得到所述训练图像的检测框的类别信息。

作为一种实施方式，在本实施例中，首先，获取训练图像，并识别训练图像中待检测物体的检测框，得到训练图像的检测框，即对背景、待检测物体进行二分类。

具体地，通过R-CNN系列物体检测算法识别训练图像中待检测物体的检测框，再对检测框进行分类，得到检测框的类别信息。在本实施例中，通过Faster R-CNN使用神经网络对训练图像进行处理，生成待检测框，并对检测框内的待检测物体进行分类，得到检测框的类别信息，替代了其他R-CNN算法中通过规则等产生候选框的方法，从而实现了端到端训练，并且大幅提速。

其中，整个Faster R-CNN可以分为三部分：

1.backbone：共享基础卷积层，用于提取整张图片的特征。例如VGG16，或Resnet101，去除其中的全连接层，只留下卷基层，输出下采样后的特征图。

2.RPN：候选检测框生成网络(Region Proposal Networks)。经典的检测方法生成检测框都非常耗时，如OpenCV adaboost使用滑动窗口+图像金字塔生成检测框；或如R-CNN使用SS方法生成检测框。而Faster RCNN则抛弃了传统的滑动窗口和SS方法，直接使用RPN生成检测框，这也是Faster R-CNN的巨大优势，能极大提升检测框的生成速度。

3.Roi pooling与分类网络：对候选检测框进行分类，并且再次微调候选框坐标(在RPN中，网络会根据先前人为设置的anchor框进行坐标调整，所以这里是第二次调整)。

其中，第一部分backbone就是普通的卷积网络，输出特征图供后续两阶段共用。第三部分中的分类网络，通过两个全连接层，再通过两个姊妹全连接层(指相同尺寸，不共享权值的两个全连接层)，分别输出坐标微调回归信息与检测框的类别信息。

作为另一种实施方式，在进行图像分割时，采用YOLO算法识别训练图像中待检测物体的检测框，该算法是基于深度学习的端到端的目标检测算法。

与大部分目标检测与识别方法(比如Fast R-CNN)将目标识别任务分类目标区域预测和类别预测等多个流程不同，YOLO将目标区域预测和目标类别预测整合于单个神经网络模型中，实现在准确率较高的情况下实时快速目标检测与识别，其增强版本GPU中能跑45fps，简化版本155fps，适用于胃镜影像实时拍摄场景中的检测与识别。YOLOv3在320×320的图像上，YOLOv3运行速度达到了22.2毫秒，mAP为28.2。

其中，YOLOv3的主要改进特性包括：

(1)网络结构改变：网络的结构由Darknet-19变为Darknet-53，跳层的现象越来越普遍。

(2)多尺度预测：输出3层，每层S×S个网格，分别为13×13，26×26，52×52。

小尺度：(13×13的feature map)网络接收一张(416×416)的图，经过5个步长为2的卷积来进行降采样(416/2^5＝13),输出(13×13×512)，再经过7个卷积得到第一个特征图谱，在这个特征图谱上做第一次预测。

中尺度:(26×26的feature map)从小尺度中从后向前获得倒数第3个卷积层的输出，进行一次卷积一次x2上采样，将上采样特征(26×26×256)与第43个卷积特征(26×26×512)连接，输出(26×26×728),经过7个卷积得到第二个特征图谱(26×26×255)，在这个特征图谱上做第二次预测。

大尺度：(52×52的feature map)操作同中尺度,从后向前获得倒数第3个卷积层的输出，进行一次卷积一次x2上采样，将上采样特征与第26个卷积特征连接，经过7个卷积得到第三个特征图谱，在这个特征图谱上做第三次预测。输出(52×52×255)。

网络的特性改变带来的优势是，让网络同时学习到深层和浅层的特征，通过叠加浅层特征图特征到相邻通道，类似于FPN中的umsample+concat(非样本+连接)。这个方法把26x26x512的特征图叠加13x13x256的特征图，使模型有了细粒度特征,增加对小目标的识别能力。

anchor box:YOLOv3 anchor box一共有9个，由k-means聚类得到。在COCO数据集上，9个聚类是：(10×13)；(16×30)；(33×23)；(30×61)；(62×45)；(59×119)；(116×90)；(156×198)；(373×326)。不同尺寸特征图对应不同大小的先验框。越精细的gridcell就可以检测出越精细的物体，尺度越大，感受野越小，对小物体越敏感，所以选择小的anchor box。

步骤S109，将所述训练图像的检测框的类别信息回传到所述识别模型，并返回执行步骤S106：识别所述训练图像，得到所述训练图像的检测框。

步骤S1010，以此循环，进行参数迭代，直到所述识别模型收敛，终止训练。

在本实施例中，将训练图像的检测框的类别信息回传到识别模型，并返回执行步骤S107：识别所述训练图像，得到所述训练图像的检测框。以此循环，进行参数迭代，直到识别模型收敛，终止训练。

由此，基于检测框的类别信息判断识别模型是否收敛，确定识别模型可以有效识别二维图像的图像信息，并对其进行分类。

本实施例通过上述方案，通过获取待处理图像；将所述待处理图像输入预先创建的识别模型进行处理，得到特征图；基于所述特征图生成三维图像；将所述待处理图像的标注信息映射到所述三维图像，得到最终图像；将所述待处理图像及其标注信息与所述最终图像及其标注信息对应关联，得到数据库。本发明降低了二维平面图像转换为三维图像的信息损失，提高二维图像转换为三维图像的准确率，提供更加精准的模型识别效果，向用户提供更加直观的浏览体验。

参照图5，图5为本发明二维图像的三维重建系统的功能模块示意图。二维图像的三维重建系统包括：

图像获取模块10，用于获取待处理图像。

图像识别模块20，用于将所述待处理图像输入预先创建的识别模型进行处理，得到特征图；

图像生成模块30，用于基于所述特征图生成三维图像。

图像映射模块40，用于将所述待处理图像的标注信息映射到所述三维图像，得到最终图像；

数据库生成模块50，用于将所述待处理图像及其标注信息与所述最终图像及其标注信息对应关联，得到数据库。

本实施例实现二维图像的三维重建的原理及实施过程，请参照上述各实施例，在此不再赘述。

此外，本发明实施例还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的二维图像的三维重建程序，所述二维图像的三维重建程序被所述处理器执行时实现如上所述的二维图像的三维重建方法的步骤。

由于本二维图像的三维重建程序被处理器执行时，采用了前述所有实施例的全部技术方案，因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果，在此不再一一赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有二维图像的三维重建程序，所述二维图像的三维重建程序被处理器执行时实现如上所述的二维图像的三维重建方法的步骤。

相比现有技术，本发明提供的一种二维图像的三维重建方法、系统、终端设备及存储介质，通过获取待处理图像；将所述待处理图像输入预先创建的识别模型进行处理，得到特征图；基于所述特征图生成三维图像；将所述待处理图像的标注信息映射到所述三维图像，得到最终图像；将所述待处理图像及其标注信息与所述最终图像及其标注信息对应关联，得到数据库。本发明降低了二维平面图像转换为三维图像的信息损失，提高二维图像转换为三维图像的准确率，提供更加精准的模型识别效果，向用户提供更加直观的浏览体验。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本发明每个实施例的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种二维图像的三维重建方法，其特征在于，所述方法包括如下步骤：

获取待处理图像；

基于所述特征图生成三维图像；

2.根据权利要求1所述的二维图像的三维重建方法，其特征在于，所述基于所述特征图生成三维图像的步骤包括：

提取所述特征图的关键帧；

基于所述关键帧，计算估算深度；

3.根据权利要求1所述的二维图像的三维重建方法，其特征在于，所述将所述待处理图像输入预先创建的识别模型进行处理，得到特征图的步骤之前包括：

训练所述识别模型；

其中，所述训练所述识别模型的步骤包括：

获取训练图像；

识别所述训练图像，得到所述训练图像的检测框；

4.根据权利要求1所述的二维图像的三维重建方法，其特征在于，所述将所述待处理图像输入预先创建的识别模型进行处理，得到特征图的步骤包括：

5.根据权利要求2所述的二维图像的三维重建方法，其特征在于，所述基于所述关键帧，计算估算深度的步骤之后包括：

根据所述关键帧的特征点建立匹配关系；

基于所述关键帧、所述匹配关系建立深度图；

所述基于所述关键帧、所述估算深度、所述待处理图像，生成所述三维图像的步骤包括：

6.根据权利要求1所述的二维图像的三维重建方法，其特征在于，所述将所述待处理图像输入预先创建的识别模型进行处理，得到特征图的步骤之后包括：

根据预设框对所述特征图的坐标进行调整。

7.根据权利要求1所述的二维图像的三维重建方法，其特征在于，所述将所述待处理图像输入预先创建的识别模型进行处理，得到特征图的步骤之前包括：

对所述待处理图像进行预处理，得到标准化图像；

所述将所述待处理图像输入预先创建的识别模型进行处理，得到特征图的步骤包括：

8.一种二维图像的三维重建系统，其特征在于，包括：

图像获取模块，用于获取待处理图像；

图像识别模块，将所述待处理图像输入预先创建的识别模型进行处理，得到特征图；

图像生成模块，用于基于所述特征图生成三维图像；

9.一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的二维图像的三维重建方法，所述二维图像的三维重建的程序被所述处理器执行时实现如权利要求1-7中任一项所述的二维图像的三维重建方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有二维图像的三维重建的程序，所述二维图像的三维重建的程序被处理器执行时实现如权利要求1-7中任一项所述的二维图像的三维重建方法的步骤。