CN111382613B

CN111382613B - 图像处理方法、装置、设备和介质

Info

Publication number: CN111382613B
Application number: CN201811626369.8A
Authority: CN
Inventors: 才鑫; 姜国强
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2024-05-07
Anticipated expiration: 2038-12-28
Also published as: CN111382613A

Abstract

本发明公开了图像处理方法、装置、设备和介质。该方法包括：获取图像采集装置在移动过程中采集的图像序列；基于图像序列识别目标物体，并确定目标物体对应的二维框选区域；利用图像序列与三维模型的映射关系，将二维框选区域映射至三维模型，得到目标物体对应的三维框选区域；将三维框选区域中的图像特征点，框选为目标物体的三维特征点；利用三维特征点构建目标物体的三维模型。根据本发明实施例提供的方案，可以准确的构建目标物体的三维模型。

Description

图像处理方法、装置、设备和介质

技术领域

本发明涉及通信领域，尤其涉及图像处理方法、装置、设备和介质。

背景技术

物体识别一直是计算机视觉的重要领域，主要识别图像中的目标物体，定位物体的位置并分类。然而这个词确是近年才慢慢为更多人所知，原因便是过去的技术不能满足算法的支持条件，所以在当下随着技术的发展以及市场的扩大，才能越来越被大家所重视。

然而，现有的物体识别技术只能进行二维识别，无法识别并构建三维物体的立体结构。

发明内容

本发明实施例提供的图像处理方法、装置、设备和介质，可以准确的构建目标物体的三维模型。

根据本发明实施例的一方面，提供一种图像处理方法，包括：

获取图像采集装置在移动过程中采集的图像序列；

基于图像序列识别目标物体，并确定目标物体对应的二维框选区域；

利用图像序列与三维模型的映射关系，将二维框选区域映射至三维模型，得到目标物体对应的三维框选区域；

将三维框选区域中的图像特征点，框选为目标物体的三维特征点，其中，图像特征点是基于图像序列确定的、三维模型中的特征点；

利用三维特征点构建目标物体的三维模型。

在一种可选的实施方式中，，利用三维特征点构建目标物体的三维模型，具体包括：

估算图像序列中各帧图像对应的图像采集装置的位姿信息；

基于各帧图像对应的图像采集装置的位姿信息，从图像序列中提取出三维特征点的点云信息；

利用三维特征点的点云信息，构建目标物体的三维模型。

在一种可选的实施方式中，获取图像采集装置在移动过程中采集的图像序列之后，方法还包括：

利用各帧图像对应的图像采集装置的位姿信息，确定图像采集装置的运行轨迹。

在一种可选的实施方式中，方法还包括：

利用单目SLAM方法对图像序列处理，得到三维模型中的多个图像特征点。

在一种可选的实施方式中，确定目标物体对应的二维框选区域，具体包括：

对于每帧图像，利用滑动窗口提取该图像中滑动窗口区域的LBP特征，若该滑动窗口区域的LBP特征与目标物体的LBP特征大于等于相似度阈值，将滑动窗口区域确定为候选二维框选区域；

计算候选二维框选区域的颜色分布特征，将符合颜色分布条件的候选二维框选区域筛选为二维框选区域。

在一种可选的实施方式中，基于图像序列识别目标物体之后，方法还包括：

根据相关滤波模型，在图像序列中追踪目标物体。

在一种可选的实施方式中，根据相关滤波模型，在图像序列中追踪目标物体，具体包括：

利用前一帧图像的目标物体所在的二维框选区域，训练当前帧的相关滤波器；

将当前帧图像代入当前帧的相关滤波器，计算当前帧图像的响应矩阵；

在当前帧图像的响应矩阵中选取最大响应值，并基于最大响应值识别当前帧的目标区域。

在一种可选的实施方式中，方法还包括：

基于目标物体的三维模型，确定虚拟导游的行走轨迹。

根据本发明实施例的另一方面，提供一种装置，包括：获取处理模块，用于获取图像采集装置在移动过程中采集的图像序列；

第一处理模块，基于图像序列识别目标物体，并确定目标物体对应的二维框选区域；

映射处理模块，用于利用图像序列与三维模型的映射关系，将二维框选区域映射至三维模型，得到目标物体对应的三维框选区域；

框选处理模块，用于将三维框选区域中的图像特征点，框选为目标物体的三维特征点，其中，图像特征点是基于图像序列确定的、三维模型中的特征点；

构建处理模块，用于利用三维特征点构建目标物体的三维模型。

在一种可选的实施方式中，构建处理模块用于：

估算图像序列中各帧图像对应的图像采集装置的位姿信息；

利用三维特征点的点云信息，构建目标物体的三维模型。

在一种可选的实施方式中，装置还包括：

第二确定模块，用于利用各帧图像对应的图像采集装置的位姿信息，确定图像采集装置的运行轨迹。

根据本发明实施例的又一方面，提供一种图像处理设备，包括：

存储器，用于存储程序；

处理器，用于运行存储器中存储的所述程序，以执行本发明实施例提供的图像处理方法。

根据本发明实施例的再一方面，提供一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现本发明实施例提供的图像处理方法。

根据本发明实施例中的图像处理方法、装置、设备和介质，能够在采集的图像序列中确定二维框选区域，并基于图像序列与三维模型的映射关系，将二维框选区域映射至三维空间中的三维框选区域。在基于图像序列确定的、三维模型的图像特征点中框选出部分图像特征点作为目标物体的三维特征点，并根据三维特征点构建目标物体的三维模型。由于可以将二维框选区域映射为三维框选区域，并且三维框选区域表示能够框选目标物体的三维特征点的区域。因此，基于三维框选区域确定的三维特征点，能够可以准确的构建目标物体的三维模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是示出根据本发明实施例的图像处理方法的示意流程图；

图2示出了本发明实施例的示例性的基于Adaboost技术的级联分类器确定候选二维框选区域的原理示意图；

图3示出了根据本发明实施例的利用单目SLAM技术进行图像处理的基本原理示意图；

图4示出了根据本发明另一实施例提供的图像处理装置的结构示意图；

图5是本发明实施例中图像处理设备的示例性硬件架构的结构图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了更好的理解本发明，下面将结合附图，详细描述根据本发明实施例的图像处理方法、装置、设备和介质，应注意，这些实施例并不用来限制本发明公开的范围。

图1是示出根据本发明实施例的图像处理方法的示意流程图。如图1所示，本实施例中的图像处理方法100可以包括以下步骤：

S110，获取图像采集装置在移动过程中采集的图像序列。

在本发明的一些实施例中，S110中的图像序列为同一个图像采集装置拍摄的。以图像采集装置为相机为例，在相机的移动过程中，通过不断改变相机外参数，可以拍摄得到S110中的图像序列。换句话说，图像序列中不同的帧图像对应着不同的相机外参数。

其中，相机外参数是相机在世界坐标系中的参数，例如相机位置和旋转方向，即相机外参数确定了相机在三维空间中的位置参数和朝向。

在本发明的一些实施例中，图像采集装置可以是高分辨率CCD数码相机、红外扫描仪、激光扫描仪、数码摄像机、相机、手机等具有拍照功能或摄像功能的装置。

其中，对于图像采集装置的类型，本发明实施例不作限制。

在本发明的一些实施例中，图像序列包括多帧按照拍照先后次序，依次排列的图像帧。

其中，相邻图像帧的图像区域具有至少部分重叠。至少有两个对应不同相机外参的图像帧对目标物体进行图像采集。

在本发明的一些实施例中，图像序列可以为一段视频流。

S120，基于图像序列识别目标物体，并确定目标物体对应的二维框选区域。

在本发明的一些实施例中，利用图像识别技术，可以在至少两帧图像中识别到目标物体。

在本发明的一些实施例中，在图像序列中，可以利用图像识别算法，识别目标物体。

具体地，在图像识别算法中，往往利用滑动窗口遍历当前图像。当确定滑动窗口的特征信息与目标物体的特征信息相同时，可将滑动窗口内的图像子集作为目标物体的图像子集。

相应地，二维框选区域可以是滑动窗口的边框。例如，可以是矩形框。

在一些实施例中，可以利用CLAC识别算法在图像序列中识别目标物体。具体地，S120中利用CLAC识别算法，确定二维框选区域的具体实施方式，包括S121和S122：

S121，对于每帧图像，利用滑动窗口提取该图像中滑动窗口区域的局部二值模式(Local Binary Pattern，LBP)特征，若该滑动窗口区域的LBP特征与目标物体的LBP特征大于等于相似度阈值，将滑动窗口区域确定为候选二维框选区域。

在一个可选的实施方式中，LBP特征是用来描述图像局部纹理特征的算子。它具有旋转不变性和灰度不变性等显著的优点。

具体的，LBP特征的计算方法为：计算一个像素点的灰度值，然后将该像素点的八个相邻像素点的灰度值，与该像素点进行比较，若，相邻像素点的灰度值大于该像素点的灰度值，则将该相邻像素点的值记作1，若小于则记作0，最后将相邻八个像素点的值排列起来，就得到中心像素点的LBP特征值。

在一个可选的实施例中，S121具体包括：

首先，提取待测图像的滑动窗口区域的LBP特征。其次，利用Adaboost技术的级联分类器，基于滑动窗口区域的LBP特征，依次利用多个强分类器对滑动窗口区域进行判断和分类。最后，若多个强分类器均判断滑动窗口区域为目标区域，则输出对滑动窗口区域的判断结果“目标区域”，并将该滑动窗口区域确定为候选二维框选区域。

在本实施例中，基于Adaboost技术的级联分类器的训练方式为：利用目标物体的同一训练集，训练出多个不同的弱分类器，再将多个弱分类器集合构成多个强分类器。

在一个示例中，图2示出了本发明实施例的示例性的基于Adaboost技术的级联分类器确定候选二维框选区域的原理示意图。

如图2所示，对每一待测图像，从该待测图像中确定滑动窗口区域。并对滑动窗口区域进行判断。

具体地，针对N个强分类器，若当前强分类器判断滑动窗口区域为非目标区域(判断结果为N)，则输出对该滑动窗口区域的分类结果“非目标区域”；若当前强分类器判断该滑动窗口区域为目标区域(判断结果为Y)，则利用下一强分类器继续对滑动窗口区域进行判断。直到最后一个强分类器完成对滑动窗口区域的判断。

针对最后一个强分类器，若判断该滑动窗口区域为目标区域，则输出对该滑动窗口区域的分类结果为“目标区域”，并选取该滑动窗口区域为二维框选区域。

需要说明的是，图2中的每一强分类器均由多个弱分类器构建而成。

S122，计算候选二维框选区域的颜色分布特征，将符合颜色分布条件的候选二维框选区域筛选为二维框选区域。

在S122中，在颜色分布条件的训练过程中，利用目标物体的训练样本中各像素点的像素值，统计并计算目标物体的颜色分布条件。

具体地，可以提取目标物体的训练样本的颜色特征，统计并计算目标物体的颜色分布条件。其中，颜色分布条件表示了目标物体的颜色分布特征，例如哪些颜色为目标物体的主要颜色，以及这些颜色之间的分布关系。

在一些实施例中，可以利用颜色分布条件，对候选二维框选区域进行筛选。具体地，获取候选二维框选区域的颜色分布特征，相较于有颜色分布条件，将颜色分布较为集中或较为分散的候选二维框选区域作为噪声进行删减。留下的候选二维框选区域即为S120中需要确定的二维框选区域。

根据本发明实施例中的结合LBP特征和颜色特征图像识别方法，可以极大的提高图像识别的准确性。

S140，利用图像序列与三维模型的映射关系，将二维框选区域映射至三维模型，得到目标物体对应的三维框选区域。

在本发明的一些实施例中，S140之前，图像处理方法100还包括：

S130，利用单目SLAM方法对图像序列处理，得到三维模型中的多个图像特征点，以及得到图像序列与三维模型的映射关系。

具体地，利用单目SLAM方法对图像序列的处理过程中，可以获取图像采集装置在图像采集过程中的实时定位，以及构建拍摄场景地图。其中，利用单目SLAM方法构建拍摄场景地图的过程中，可以在图像序列中提取出图像特征点，并获取图像特征点的点云数据。

在一些实施例中，本发明实施例中采用的是改进的DSO SLAM技术。具体地，可以先利用直接法估算图像特征点的三维位置信息。再利用高斯牛顿联合优化算法对估算的图像特征点的三维位置信息进行优化，得到准确的相机位姿信息和图像特征点的三维位置信息。

在一个实施例中，本发明实施例中的直接法的计算方式为：利用图像像素的灰度信息来构图和定位，不再选取特征点。

与LSD-SLAM相比，LSD-SLAM需要利用整张图像的信息来进行计算，会使得计算量太大，不能实时运行在移动端。因此，本发明实施例中可以采用图像中灰度过度较大的点，这样不仅取得了物体的几何信息，也不需要很大的计算量。

同时，本发明实施例能够克服LSD-SLAM对光照极其敏感，极易跟丢目标物体，且无法确定图像采集装置的实时位置的缺陷。

本实施例中的DSO SLAM技术，相较于LSD SLAM技术，性能更加稳定，构建的地图准确度较高，计算得到的图像特征点的三维位置信息也准确度较高。同时，相较于传统的SLAM技术，增加了光度标定。传统的SLAM技术中，相机对原始图像进行自动曝光等处理，会造成后期算法处理不准确。因而，通过增加光度标定可以减少了这一影响，使得定位与重建更加稳定、准确。

在一些实施例中，图像特征点的点云可以表示为：图像序列中拍摄到的物体表面的离散点集合。点云数据(Point Cloud Data)可以表示通过图像采集装置和单目SLAM技术获取的物体表面离散点的数据集合。点云数据可以包括该物体对象的颜色信息、深度信息以及通过三维坐标表示的三维位置信息。

作一个示例，图3示出了根据本发明实施例的利用单目SLAM技术进行图像处理的基本原理示意图。如图3所示，相机在相机位置1和相机位置2分别对图像特征点X进行拍摄。

图3中的O_L表示相机位置1的相机光心，O_R表示相机位置2的相机光心。X_L表示图像特征点X在相机位置1时的相机投影，X_R表示图像特征点X在相机位置2时的相机投影。由X、O_L、O_R组成的平面是级平面，e_L、e_R表示两个极点，X_L和e_L，X_R和e_R分别组成两条极线。右边的极线上搜索，与点X进行差值计算，匹配到新图像上的点X。然后根据三角化计算出来图像特征点X的三维位置信息。同时可以计算出相机在相机位置1和相机位置2时的位姿信息。

在一些实施例中，利用单目SLAM方法对图像序列处理的过程中，建立了图像序列与三维模型的映射关系。

具体地，根据针孔摄像机成像模型，真实场景中的三维点通过投影变换映射到图像上的二维点，该变换过程可以表示为：

p＝K[R t]P (1)

在上述公式(1)中，P表示某一特征点在真实场景中的三维坐标，矩阵K表征摄像机镜头焦距和成像焦点的内参数矩阵；[R t]是根据物体的三维姿态扩展成的3×4矩阵，R表示旋转分量，使用一个3×3矩阵表示虚拟物体在AR系统中的旋转方向，t为位移分量，通过矩阵[x y z 1]^T表示物体在三维场景中的三维坐标，p＝[x y 1]^T是图像序列的帧图像上该特征点的对应点的二维齐次像素坐标。

通过上述公式(1)，已知图像特征点在图像序列的二维齐次像素坐标和图像特征点的三维坐标，可以计算出图像序列与三维模型的映射关系[R t]。

通过上述实施例中的图像处理方法，可以利用单目SLAM技术获取图像特征点的三维位置信息，并获取图像特征点在图像序列中的二维齐次坐标，根据图像特征点的三维位置信息和二维齐次坐标的对应关系，建立图像序列与三维模型的映射关系。

在本发明实施例中，通过利用单目SLAM技术获取图像特征点的三维位置信息。

在本发明的一些实施例中，S140中的图像序列与三维模型的映射关系，可以具体为公式(1)中的[R t]。

在本发明的一些实施例中，可以获得二维框选区域在图像序列中的二维位置信息，将二维框选区域的二维位置信息代入图像序列与三维模型的映射关系，计算得到三维框选区域的三维位置信息。

在一些实施例中，二维框选区域可以是矩形框，二维框选区域的二维位置信息可以是矩形框上的一参考点的坐标信息和矩形框的长宽信息。例如，参考点可以是矩形框任意一个角。

相应地，将矩形框的一参考点和矩形框的长宽信息后，可以基于图像序列与三维模型的映射关系确定三维矩形框的位置信息。基于三维矩形框的位置信息，可以在三维模型中构建三维矩形框。

在本发明的一些实施例中，物体识别算法和三维图像处理方法之间利用ROS系统进行通信。ROS系统是机器人操作系统，可以实时进行结点交互，也就是可以对两部分算法进行实时通信交互，来达到信息共享。

也可称为图像序列和三维模型之间利用ROS系统进行通信交互。

具体地，可以通过ROS结点将二维框选区域的二维位置信息映射至三维模型中，得到三维框选区域的三维位置信息。

S150，将三维框选区域中的图像特征点，框选为目标物体的三维特征点。

其中，图像特征点是基于图像序列确定的、三维模型中的特征点。

在一些实施例中，利用物体识别算法对图像序列处理后得到的图像特征点是离散分布的。部分可能分布于三维框选区域内，另一部分可能分布于三维框选区域之外。

在S150中，将分布于三维框选区域之内的图像特征点，框选为目标物体的三维特征点。

在一些实施例中，目标物体的三维特征点表征目标物体外表面的离散点。

S160，利用三维特征点拟合目标物体的三维模型。

同时，无论是物体识别技术，还是单目SLAM，他们均无法独自识别三维物体的立体结构，更无法追踪三维物体。这样就无法在AR应用中，达到诸如识别到水杯的轮廓、书本的四周等功能，那么增强现实效果也就如果要确定目标物体的三维轮廓，只是现有的物体识别与单目SLAM是做不到的。而本发明实施例中，提出将物体识别与单目SLAM相结合进行三维物体的识别，并能够应用于AR系统中。例如，可应用于博物馆AR导航系统中，实现与用户的趣味互动。

在本发明的一些实施例中，可以利用多元非线性回归方法，对S150中框选出的目标物体的三维特征点的点云信息进行拟合后，构建出目标物体的三维模型。

在一些实施例中，为了能够提高三维模型的构建速率，被拟合的点云信息可以是三维特征点的三维位置信息(x，y，z)。

在另一些实施例中，为了能够较为真实的反映三维模型，被拟合的点云信息还可以包括特征信息。例如，纹理特征，颜色特征等。

在本发明的一些实施例中，S160具体包括：

S161，估算图像序列中各帧图像对应的图像采集装置的位姿信息。

在一些实施例中，S161中估算图像采集装置的位姿信息的方法可以是单目SLAM算法。在获取图像特征点的同时，能够快速计算出每一图像帧对应的图像采集装置的位姿信息。

在一个实施例中，图像采集装置的位姿信息包括图像采集装置在世界坐标系下的三维位置信息(x，y，z)和图像采集装置的姿态信息(yaw，pitch，roll)。即图像采集装置的位姿信息包括(x，y，z，yaw，pitch，roll)六个自由度信息。其中，x表示第一方向上图像采集装置的坐标，y表示第二方向上图像采集装置的坐标，z表示第三方向上图像采集装置的坐标，yaw表示图像采集装置的航向角，pitch表示图像采集装置的俯仰角，roll表示图像采集装置的横滚角。其中，第一方向、第二方向、第三方向互相垂直。

S162，基于各帧图像对应的图像采集装置的位姿信息，从图像序列中提取出目标物体的三维特征点的点云信息。

在S162中，三维特征点的点云信息可以具体为该三维特征点的三维位置信息。

在一些实施例中，利用SLAM算法，能够获取图像特征点的三维位置信息。由于目标物体的三维特征点是从图像特征点集合中框选出来的，因此，也获取了三维特征点的三维位置信息。

S163，利用三维特征点的点云信息，构建目标物体的三维模型。

在S163中，构建目标物体的三维模型的方法与S160中的相同，在此不再赘述。

在本发明的一些实施例中，本发明实施例中的单目SLAM技术可用于获取图像采集装置的位姿信息、图像特征点的逆深度值、图像特征点的三维位置信息等。

在单目SLAM技术的实际应用过程中，为了保证计算精度，需要从图像序列所包含的M个图像帧中，维持N个关键帧。

具体地，在图像序列的各帧图像中均会对图像采集装置的位姿信息、图像特征点的逆深度值、图像特征点的三维位置信息进行估算。为了保证估算的准确性，可以从图像序列中选取关键帧，对估算结果进行修正。

在一些实施例中，可以在该图像序列中维持3个关键帧。

现有的单目SLAM技术，通常在视频流中维持7个关键帧。在本发明实施例中，为了在加快定位速度的同时，兼顾定位准确度，可以在图像序列中维持3个关键帧。

在一些实施例中，为了保证计算精度，关键帧需要满足一定的条件，即关键帧中的图像特征点应大于预设的阈值。例如，大于2000个。

在一些实施例中，关键帧的提取方式可以是每隔一定数量的图像帧，选出一个图像帧作为关键帧。例如，若一秒钟共采集了10个图像帧，可以选第3帧、第6帧、第9帧作为关键帧。

在一些实施例中，关键帧可以是不断维持的，可以先选取3个图像帧作为关键帧，当视角发生明显偏转或目标物体丢失时，则用当前帧替代最早的一个图像帧。

在本发明的一些实施例中，图像处理方法100还包括：

S170，利用各帧图像对应的图像采集装置的位姿信息，确定图像采集装置的运行轨迹。

在一些实施例中，利用单目SLAM确定各帧图像对应的图像采集装置的位姿信息之后，可以确定图像采集装置的运动轨迹。当图像采集装置在一个未知环境中进行拍摄时，可以在采集的过程中进行实时定位。

在另一些实施例中，在构建地图的过程中，可以在地图中显示出图像采集装置的实时定位。例如，在AR游戏中，可以将图像采集装置的运行轨迹确定AR地图中人物当前位置和运行轨迹。

在本发明的一些实施例中，图像处理方法100还包括：

基于目标物体的三维模型之后，确定虚拟导游的行走轨迹。

在一些实施例中，在构建了目标物体的三维模型之后，为了加强用户与AR系统的互动，可以构建一个虚拟导游。例如，可以构建一个真人大小的虚拟导游。

在一个实施例中，虚拟导游可以避开目标物体行走，用于引导用户避开真实场景中的目标物体。

在一个实施例中，为了展示目标物体，可以领虚拟导游从目标物体的三维模型的表面经过。

具体地，由于S150中框选出的目标物体的三维特征点均为目标物体表面的特征点。根据框选出的一个或多个三维特征点，即可构建出虚拟导游的行走轨迹。

在本发明的一些实施例中，在构建了目标物体的三维模型之后，可以将目标物体的三维模型转变为AR游戏场。

在一些实施例中，可以进一步将构建的真实的三维模型抽象为与AR游戏场相符合形象的三维模型。例如，若目标物体为桌子、椅子，可以进一步将其抽象为符合AR游戏场景的三维模型。例如，抽象为大楼、城堡等三维模型。

在另一些实施例中，在构建了目标物体的三维模型后，可以围绕目标物体的三维模型，在该三维模型的外部空间生成增强显示效果。例如，可以在目标物体的上方生成字体、抽象物体等。

在本发明的一些实施例中，图像处理方法100还包括：

S180，根据相关滤波模型，在图像序列中追踪目标物体。

通过本实施例，利用相关滤波算法，当出现与目标物体较为相似的其他物体时，利用追踪技术会对正确的目标物体进行追踪，而不会误认该其他物体为目标物体。

同时，在第一帧图像中，若给定目标的初始位置，追踪的目标物体就是预测目标之后的位置。追踪受到很多因素影响，比如光照变化、遮挡、形变、旋转等。相关滤波的方法可以很好的适应这些影响。

在本发明的一些实施例中，若在图像采集装置采集S110的过程中，目标物体在不断移动的，结合单目SLAM技术和物体识别技术能够实现对三维物体的追踪。

例如，在利用单目SLAM技术对图像序列进行处理的过程中，能够获取图像特征点的逆深度值。其中，逆深度值能够反映图像特征点的变化趋势。当确定当前帧图像中目标物体的三维特征点之后，可以基于目标物体的三维特征点的逆深度值，在下一帧图像中确定当前帧图像中的待识别区域，并利用相关滤波模型对当前帧图像中的待追踪区域处理后，识别下一帧图像中的目标区域。

通过本发明实施例，结合物体识别技术、单目SLAM技术能够实现对三维物体的识别。

作一个示例，在构建的AR系统中，可以不断追踪目标物体三维模型。并可以在目标物体的三维模型的周围或旁侧添加跟随其进行移动的增强现实效果。例如，在博物馆的AR应用场景中，如果目标物体是花瓶，构建的AR系统中，可以追踪到花瓶的移动，并在花瓶的旁边添加跟随花瓶进行移动的AR描述。

在本发明的一些实施例中，如果利用单目SLAM技术对目标物体进行实时追踪的过程中，若对目标物体追踪失败，为了尝试恢复追踪，可以驱动图像采集装置向不同方向进行27次微小的旋转。

在一些实施例中，可以在图像序列中对目标物体进行追踪。

此时，S180具体包括S181至S183：

S181，利用前一帧图像的目标物体所在的二维框选区域，训练当前帧的相关滤波器。

S182，将当前帧图像代入当前帧的相关滤波器，计算当前帧图像的响应矩阵。

S183，在当前帧图像的响应矩阵中选取最大响应值，并基于最大响应值识别当前帧的目标区域。

在本发明的实施例中，当需要向用户展示图像序列时，可以在图像序列中追踪到目标物体之后，可以在目标物体的旁侧添加与目标物体相应的图像效果。

例如，在博物馆的应用场景中，如果目标物体是古文物，在图像序列的不同帧图像中，可以追踪到古文物的位置，并在花瓶的旁边添加文字描述。

在本发明的一些实施例中，可以根据一个视频序列构建一个可视化展示系统。其中，可视化展示系统包括二维的可视化展示系统和三维的可视化展示系统。

具体地，二维可视化展示系统能够在图像序列中对目标物体进行二维的识别、跟踪，并添加能够跟随目标物体的可视化图像效果。

三维可视化展示系统能够实现三维物体的识别、构建目标物体的三维模型、目标物体的三维追踪、构建三维地图、构建虚拟导游等功能。

通过结合二维的可视化展示系统和三维的可视化展示系统，可以从全面的、多维度的展示图像序列中的目标物体。

下面结合附图，详细介绍根据本发明实施例的装置。

基于相同的发明构思，本发明另一实施例提供了图像处理装置。图4示出了根据本发明另一实施例提供的图像处理装置的结构示意图。如图4所示，图像处理装置400包括获取处理模块410、第一确定模块420、映射处理模块430、框选处理模块440和构建处理模块450：

获取处理模块410，用于获取图像采集装置在移动过程中采集的图像序列；

第一确定模块420，基于图像序列识别目标物体，并确定目标物体对应的二维框选区域；

映射处理模块430，用于利用图像序列与三维模型的映射关系，将二维框选区域映射至三维模型，得到目标物体对应的三维框选区域；

框选处理模块440，用于将三维框选区域中的图像特征点，框选为目标物体的三维特征点，其中，图像特征点是基于图像序列确定的、三维模型中的特征点；

构建处理模块450，用于利用三维特征点构建目标物体的三维模型。

在本发明的一些实施例中，构建处理模块450用于：

估算图像序列中各帧图像对应的图像采集装置的位姿信息；

利用三维特征点的点云信息，构建目标物体的三维模型。

在本发明的一些实施例中，图像处理装置400还包括：

第三确定模块，用于利用单目SLAM方法对图像序列处理，得到三维模型中的多个图像特征点。

在本发明的一些实施例中，第一确定模块420，具体用于：

在本发明的一些实施例中，图像处理装置400还包括：

追踪处理模块，用于根据相关滤波模型，在图像序列中追踪目标物体。

在本发明的一些实施例中，追踪处理模块，具体用于：

在本发明的一些实施例中，图像处理装置400还包括：

第四确定模块，用于基于目标物体的三维模型，确定虚拟导游的行走轨迹。

根据本发明实施例的图像处理装置的其他细节与以上结合图1至图3描述的根据本发明实施例的方法类似，在此不再赘述。

如图5所示，图像处理设备500包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505、以及输出设备506。其中，输入接口502、中央处理器503、存储器504、以及输出接口505通过总线510相互连接，输入设备501和输出设备506分别通过输入接口502和输出接口505与总线510连接，进而与图像处理设备500的其他组件连接。

具体地，输入设备501接收来自外部的输入信息，并通过输入接口502将输入信息传送到中央处理器503；中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器504中，然后通过输出接口505将输出信息传送到输出设备506；输出设备506将输出信息输出到图像处理设备500的外部供用户使用。

也就是说，图5所示的图像处理设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图1至图2描述的图像处理设备的方法和装置。

在一个实施例中，图5所示的图像处理设备500可以被实现为一种设备，该设备可以包括：存储器，用于存储程序；处理器，用于运行所述存储器中存储的所述程序，以执行本发明实施例的图像处理方法。

本发明实施例还提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现本发明实施例的图像处理方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取图像采集装置在移动过程中采集的图像序列；

基于所述图像序列识别目标物体，并确定所述目标物体对应的二维框选区域；

利用所述图像序列与三维模型的映射关系，将所述二维框选区域映射至所述三维模型，得到所述目标物体对应的三维框选区域；

将所述三维框选区域中的图像特征点，框选为所述目标物体的三维特征点，其中，所述图像特征点是基于所述图像序列中的至少一个关键帧确定的、三维模型中的特征点；所述至少一个关键帧中各关键帧中的图像特征点的数量大于预设阈值；

利用所述三维特征点构建所述目标物体的三维模型；

所述利用所述三维特征点构建所述目标物体的三维模型，具体包括：

估算所述图像序列中各帧图像对应的所述图像采集装置的位姿信息；

基于所述各帧图像对应的所述图像采集装置的位姿信息，从所述图像序列中提取出所述三维特征点的点云信息；

利用所述三维特征点的点云信息，构建所述目标物体的三维模型；

所述利用所述三维特征点的点云信息，构建所述目标物体的三维模型包括：

通过多元非线性回归方法，利用所述三维特征点的点云信息，构建所述目标物体的三维模型；

所述确定所述目标物体对应的二维框选区域，具体包括：

对于每帧图像，利用滑动窗口提取该图像中滑动窗口区域的LBP特征；

利用Adaboost技术的级联分类器，基于滑动窗口区域的LBP特征，依次利用多个强分类器对滑动窗口区域进行判断和分类，若多个强分类器均判断该滑动窗口区域的LBP特征与目标物体的LBP特征大于等于相似度阈值，将所述滑动窗口区域确定为候选二维框选区域；

计算候选二维框选区域的颜色分布特征，将符合颜色分布条件的候选二维框选区域筛选为二维框选区域；

在所述利用所述图像序列与三维模型的映射关系，将所述二维框选区域映射至所述三维模型，得到所述目标物体对应的三维框选区域之前，所述方法还包括：

基于DSO SLAM技术从所述图像序列中利用直接法估算所述图像特征点的三维位置信息；所述直接法包括：利用图像像素的灰度信息来构图和定位；

利用高斯牛顿联合优化算法对估算的所述图像特征点的三维位置信息进行优化，得到所述图像特征点的优化后的三维位置信息；

获取所述图像特征点在所述图像序列中的二维齐次坐标，根据所述图像特征点的优化后的三维位置信息和所述二维齐次坐标的对应关系，建立所述图像序列与所述三维模型的映射关系。

2.根据权利要求1所述的方法，其特征在于，所述获取图像采集装置在移动过程中采集的图像序列之后，所述方法还包括：

利用所述各帧图像对应的所述图像采集装置的位姿信息，确定所述图像采集装置的运行轨迹。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用单目SLAM方法对所述图像序列处理，得到所述三维模型中的多个图像特征点。

4.根据权利要求1所述的方法，其特征在于，所述基于所述图像序列识别目标物体之后，所述方法还包括：

根据相关滤波模型，在所述图像序列中追踪所述目标物体。

5.根据权利要求4所述的方法，其特征在于，所述根据相关滤波模型，在所述图像序列中追踪所述目标物体，具体包括：

将当前帧图像代入所述当前帧的相关滤波器，计算所述当前帧图像的响应矩阵；

在所述当前帧图像的响应矩阵中选取最大响应值，并基于最大响应值识别当前帧的目标区域。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述目标物体的三维模型，确定虚拟导游的行走轨迹。

7.一种图像处理装置，其特征在于，所述装置包括：

获取处理模块，用于获取图像采集装置在移动过程中采集的图像序列；

第一确定模块，基于所述图像序列识别目标物体，并确定所述目标物体对应的二维框选区域；

映射处理模块，用于利用所述图像序列与三维模型的映射关系，将所述二维框选区域映射至所述三维模型，得到所述目标物体对应的三维框选区域；

框选处理模块，用于将所述三维框选区域中的图像特征点，框选为所述目标物体的三维特征点，其中，所述图像特征点是基于所述图像序列中的至少一个关键帧确定的、三维模型中的特征点；所述至少一个关键帧中各关键帧中的图像特征点的数量大于预设阈值；

构建处理模块，用于利用所述三维特征点构建所述目标物体的三维模型；

所述构建处理模块用于：

所述确定所述目标物体对应的二维框选区域，具体包括：

在所述利用所述图像序列与三维模型的映射关系，将所述二维框选区域映射至所述三维模型，得到所述目标物体对应的三维框选区域之前，还包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第二确定模块，用于利用所述各帧图像对应的所述图像采集装置的位姿信息，确定所述图像采集装置的运行轨迹。

9.一种图像处理设备，其特征在于，所述设备包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以执行权利要求1-6任一权利要求所述的图像处理方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现权利要求1-6任一权利要求所述的图像处理方法。