CN113284049A

CN113284049A - 基于图像清晰感知算法的图像拼接算法

Info

Publication number: CN113284049A
Application number: CN202110615987.8A
Authority: CN
Inventors: 陈佳; 傅振鹏; 杨聪聪; 何儒汉; 胡新荣
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-08-20

Abstract

本发明涉及一种基于图像清晰感知算法的图像拼接算法，本发明可以应用于岩石内壁图像的拼接，可以让操作人员直观的看到管道内壁的矩形展开图，发现问题的所在。相较于以往的图像拼接算法更多是应用于图像的横向拼接，但是在图像的纵向拼接和连续拼接的研究上却少之又少，且在低分辨率的情况下拼接后的图像较为模糊，拼接后图像大小区域未定导致的图像畸变等，本发明利用自注意力机制获取每一次拼接的图像的清晰区域，然后测量出其优质特征点，根据同一特征点位移来拼接每一副图像，这样将使拼接后区域大小确定从而彻底消除了图像的畸变，并且改善了由于重影导致的模糊。

Description

基于图像清晰感知算法的图像拼接算法

技术领域

本发明属于文本风格转换方法，具体涉及一种基于图像清晰感知算法的图像拼接算法。

背景技术

Transformer架构在机器学习领域(尤其是NLP里)是一项热门研究，为我们带来了许多重要成果，比如：GPT-2、GPT-3等写稿机器人；第一代GPT及其性能更优越的“继任者”BERT模型，在众多语言理解任务中以前所未有的数据利用效率获得了最准确的结果，而且几乎不需要调整任何参数，也就是在过去花费一个月做的事情、现在只需要花费30分钟，还达到了更好的效果；以及AlphaStar等。

2017年，谷歌团队首先提出Transformer模型。该团队将Transformer概括为一句话：“Attention is All You Need.”但单单看这句话，人们并不能对Transformer模型建立直观的理解与认知。为此，这里希望从发展历史的角度对Transformer模型作一个直白的解释。

目前Transformer已成为NLP领域的主流，衍生出了BERT、GPT等模型，但是在计算机视觉领域，Transformer的应用却很少。Google在2020年的一篇论文《An Image is Worth16*16Words:Transformers for Image Recognition at Scale》，论文中提出了VisionTransformer(ViT)，能直接利用Transformer对图像进行分类，而不需要卷积网络。为了让ViT模型可以处理图片，首先要把图片划分为很多个区块(类似NLP中的token)，然后把区块序列传入ViT。

实验发现，在中等大小的数据集(如ImageNet)上训练得到的ViT模型准确率比SOTA模型ResNet(CNN模型)低了几个百分点。论文作者认为这是因为CNN模型具有平移不变性和局部性等归纳偏好(inductive biases)，而Transformer并没有这种归纳偏好，因此在数据量不足的时候准确率不如CNN模型。但是如果在大规模的图像数据集(14M-300M图片)上预训练ViT再迁移到小规模数据，则ViT可以取得非常好的效果，甚至可以超过当前图片识别的最好结果。

最早特征点描述符为局部微分算子。Florack等组合了一系列算子构建了具有旋转不变性的微分不变式描述符。Schmid和Mohr发展了局部微分算子，使其对灰度值具有不变性并应用于图像检索。Freeman和Adelson通过线性组合一些列基本滤波器，构成一个稳定滤波器，并用于图像处理的方向、尺度选择任务中。

SUSA(Smallest Univalue Segment Assimilating Nucleus)算子是一种高效的边缘和角点检测算子，并且具有结构保留的降噪功能它的原理是用一个圆形模板在图像上移动，若模板内的像素灰度与模板中心的像素(被称为核Nucleus)灰度值小于一定的阈值，则认为该点与核Nucleus具有相同的灰度，满足该条件的像素组成的区域就称为USAN(Univalue Segment Assimilating Nucleus)。边缘处的点的USAN值小于或等于最大值一半。由此，我们可以得出SUSAN提取边缘和角点算法的基本原理：在边缘或角点处的USAN值最小，可以根据USAN区域的大小来检测边缘、角点等特征的位置和方向信息。

随机抽样一致算法(random sample consensus,RANSAC),采用迭代的方式从一组包含离群的被观测数据中估算出数学模型的参数。RANSAC算法的基本假设是样本中包含正确数据(inliers，可以被模型描述的数据)，也包含异常数据(outliers，偏离正常范围很远、无法适应数学模型的数据)，即数据集中含有噪声。这些异常数据可能是由于错误的测量、错误的假设、错误的计算等产生的。同时RANSAC也假设，给定一组正确的数据，存在可以计算出符合这些数据的模型参数的方法。

Harris角点检测用一个固定窗口在图像上进行任意方向上的滑动，比较滑动前与滑动后两种情况，窗口中的像素灰度变化程度，如果存在任意方向上的滑动，都有着较大灰度变化，那么我们可以认为该窗口中存在角点，但是该算子计算量大，对尺度很敏感，不具有尺度不变性，且它对特征点的定位也不是很精确。

SIFT(Scale Invariant Feature Transform)描述符具有尺度不变性，很强的鲁棒性，在光照变化、尺度变化、噪声和遮挡等因素的影响时对局部特征的描述仍有出色的表现。基于SIFT的改进描述符PCA-SIFT(Principal Component Analysis SIFT)算子将SIFT的128维特征向量降低到36维，加快了匹配速度，但性能逊于SIFT算法。

Bay提出的SURF(Speeded Up Robust Features)描述符计算Haar小波在特征点局部邻域积分图像的高斯加权的响应，获得64/128维的特征描述符。该算法在独特性和鲁棒性上优于SIFT算法。唐永鹤等提出带符号对比上下文直方图(SCCH)的特征描述符，对灰度变化、尺度缩放、模糊有较好的鲁棒性，并具有较快的匹配速度。

发明内容

本发明的目的就是要提供一种基于图像清晰感知算法的图像拼接算法。

基于图像清晰感知算法的图像拼接算法，包括以下步骤：

步骤1、摄像头在待测管道内沿着管道轴线向前推进，持续采集管道内的图像，获得管道内壁的连续图像，从连续图像中每隔10帧提取一帧作为待拼接图像，得到多帧待拼接图像，将提取的待拼接图像利用Gamma变换对图像曝光度进行优化，直到霍夫圆变换算法能够找到图像的基准圆心为止；

步骤2、截取待拼接图像中基准圆心周围的清晰圆环部分，将圆环部分展开为一个矩形图像；

步骤3、利用图像清晰感知算法识别并标明矩形图像的清晰区域位置；

步骤4、提取矩形图像的清晰区域位置的特征点，利用特征点检测算法匹配相邻两帧待拼接图像的特征点，设每帧待拼接图像的长度均为x,宽度均为y，定义一个长为x，纵向宽为y+Δy的矩形区域为拼接后的图像大小，然后将匹配的特征点位置对应重叠，将两幅图像在定义的矩形区域内实现拼接，拼接完成后的图像再次变为待拼接图像并且与下一帧待拼接图像进行拼接，直至所有待拼接图像拼接完成，得到拼接后的图像。

进一步的，所述将提取的待拼接图像利用Gamma变换对曝光度进行优化的方法为：将待拼接图像从最大曝光度开始以0.1为单位依次递减，直到霍夫圆变换算法计算出可以被检测的基准圆心值。

进一步的，所述最大曝光度为1.5。

进一步的，所述图像清晰感知算法包括以下步骤:

步骤3.1、将图像分为M个相同大小的正方形分块，分别为

存储每个图像块的位置信息；

步骤3.2、计算整个图像梯度

得到梯度的绝对值

T₀为预设阈值，根据如下公式计算每个图像块对应的Q：

F_i'＝MultiHead(F_i-1)+Assist，i＝1...M

Q_i＝LN(F_i-1)，i＝1...M；

其中F_i-1为第i-1块图像

的尺寸、非零像素信息和图像块位置信息；

步骤3.3、对每个图像块对应的Q进行判断，若Q＞0，则判断该图像块清晰，若Q≤0，则判断该图像块不清晰。

本发明的有益效果为：随着岩体工程埋深的增大,由高应力以及高放射性污染引发的灾害愈发严重。为了保证岩体施工的稳定性，本发明可以应用于岩石内壁图像的拼接，可以让操作人员直观的看到管道内壁的矩形展开图，发现问题的所在。相较于以往的图像拼接算法更多是应用于图像的横向拼接，但是在图像的纵向拼接和连续拼接的研究上却少之又少，且在低分辨率的情况下拼接后的图像较为模糊，拼接后图像大小区域未定导致的图像畸变等，本发明利用自注意力机制获取每一次拼接的图像的清晰区域，然后测量出其优质特征点，根据同一特征点位移来拼接每一副图像，这样将使拼接后区域大小确定从而彻底消除了图像的畸变，并且改善了由于重影导致的模糊。

基于图像感知模型优化图像使得图像清晰区域被抓取，从而特征点测量数量减少且精确度提高，减少时间复杂度鉴于传统的图像拼接算法，往往使用SIFT或者SURF算法检测图像的特征点，然后进行拼接，这需要耗费大量的时间，但是通过ICP的优化后，可以让其主动注意图像清晰区域并测量特征点，这样可以大大减少拼接时所需要的时间。Gamma变换优化下的霍夫圆心识别算法针对目前的霍夫圆识别算法，目前的霍夫圆识别算法存在较大的局限性，需要手动设置阈值来对每一副图片进行适配，而且并不是所有图像都能测得出来，本发明通过Gamma变换优化后，通过自动调整一个图像的曝光度和对比度让其自动对霍夫圆算法进行自适应，大幅增加了其成功率，并且实现了自动化测量。

附图说明

图1为算法流程图；

图2为霍夫圆梯度图；

图3为图像清晰感知算法；

图4为拼接流程图；

图5为经过伽马霍夫圆变换后真实测量出来的圆心图片；

图6为经过本发明的方法拼接后得到的纸筒图像；

图7为经过本发明的方法拼接后得到的一米管道图像；

图8为经过本发明的方法拼接后得到的十米管道图像。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细说明：

基于图像清晰感知算法的图像拼接算法，包括以下步骤：

步骤1、摄像头在待测管道内沿着管道轴线向前推进，持续采集管道内的图像，获得管道内壁的连续图像，每隔10帧提取一幅待拼接图像，得到多帧待拼接图像，将提取的待拼接图像利用Gamma变换对图像曝光度进行优化，直到霍夫圆变换算法能够找到图像的基准圆心为止；

步骤2、取待拼接图像中基准圆心周围的清晰圆环部分，将圆环部分展开为一个矩形图像；展开方法为遍历图像的上下左右边界以三点钟方向为分割线沿着圆心展开；

步骤4、提取矩形图像的清晰区域位置的特征点，利用特征点检测算法匹配相邻两帧待拼接图像的特征点，设每帧待拼接图像的长度均为x,宽度均为y，定义一个长为x，纵向宽为y+Δy的矩形区域为拼接后的图像大小，然后通过匹配的特征点，将两幅图像在定义的矩形区域内实现拼接，拼接完成后的图像再次变为待拼接图像并且与下一帧待拼接图像进行拼接，直至所有待拼接图像拼接完成，得到拼接后的图像。

作为一种实施方式，所述将提取的待拼接图像利用Gamma变换对曝光度进行优化的方法为：从最大曝光度1.5开始以0.1为单位依次递减，直到霍夫圆变换算法计算出可以被检测的基准圆心值。

1、Gamma变换优化下的霍夫圆心识别算法

(识别圆心的部分)

该模块主要用于定位现在至后期所有图像的确定圆心位置，由于管道内部，有外部光源和冷光源的干扰，并不是任意帧都能获得我们理想状况下的圆心，在这里，本文利用Gamma变换来对图像进行优化，让曝光度不足的图像的对比度增强，让曝光度多余的图像对比度降低，从而达到尽可能准确的识别圆心的目的，其公式如下：

S＝Cr^γ (1)

其中r为灰度图像的输入值，取值范围[0,1]，S为经过变换后得到的灰度输出值，C为灰度缩放系数，γ为伽马因子大小，它控制着整个变换的程度。

待取得对比度合适的图像后，图片将被hough函数自动获取，通过公式：

(X-a)²+(Y-b)²＝r² (2)

把问题转换成求解经过像素最多的(a,b,r)参数对，由于这样做的计算量非常之大，所以这里将会使用霍夫梯度法，那么一个圆上的点都是指向圆心的如图2所示。

基于该图，可以使用以下原理，首先我们需要对图像进行canny检测，然后使用sobel算子计算所有像素的梯度，遍历canny之后的所有非0的像素点，沿着梯度方向画线，每个点有是一个累加器，有一个线经过该点，累加器加1，对所有累加器进行排序，根据阈值找到所有可能的圆心，由于管道视频的分辨率为480p，这里可将阈值稍微调高，使得计算出来的圆更准确，然后计算边缘检测后图像中的非0像素点距离圆心的距离，距离从小到大排序，选取合适的半径，最后设计一个累加器，收集所有满足阈值的圆，取前十帧图像的平均值作为我们所需要的圆心。

2、自注意力机制图像清晰区域识别(检测图像清晰区域)

图像清晰感知算法(Imageclarity perception algorithm简称ICP)

因为图像在展开后会伴随着畸变的产生，这样会导致图像边缘区域产生或大或小的模糊点，在后续的特征点识别中会产生较大的影像，既浪费时间又得不到我们满意的结果，因此不得不对图像做处理，倘若能够直接对图像的清晰部分进行处理的话，这样既节约了时间，又对后续拼接的效果产生了比较好的影像。

因此，本文提出了图像清晰感知算法也就是ICP模型，首先，当对整幅图像进行处理的时候，容易造成一种漏空的现象，有的清晰区域会被判定成模糊区域，可能会导致最终图像精度下降因此为了改善这种状况，不妨将图像分为M个相同大小的正方形分块，假定原始图像边长为X,Y，并且定义并记录下其边长L，那么我们可以得到一个关系式即M的求解关系式：

然后对每一个图片块平铺成一维向量，得到每一个向量的大小(C为每个像素的值)

L×L×C

(2)

那么我们即可得到整个图像的输入序列，其中m为一个图像的区块E为图像的位置信息。(m带上下标依然代表一个区块，E表位置信息，Epos表示学习区域，R是相应实数，D为有效图像序列的长度)

得到图像的输入序列之后，为了获取图像的清晰区域，往往需要对其进行计算，在这里我们利用计算其梯度值的大小来进行排序，并且将梯度值较大的图像数据来用MLP神经网络加上LayerNorm进行图像的分类，即可分为清晰区域和非清晰区域两大类，然后获取清晰区域的位置信息并将所有图像块重新链接，得到完整的图像清晰区域感知结果，该实现公式如下所示：(

代表图像梯度，图像梯度是指图像某像素在x和y两个方向上的变化率(与相邻像素比较)，是一个二维向量，由2个分量组成，X轴的变化、Y轴的变化。

其中X轴的变化是指当前像素右侧(X加1)的像素值减去当前像素左侧(X减1)的像素值。

同理，Y轴的变化是当前像素下方(Y加1)的像素值减去当前像素上方(Y减1)的像素值。)

得到梯度的绝对值(T(x+1，y)-T(x-1，y)，T(x，y+1)-T(x，y-1)，这两个分量变化求绝对值，也就是上式的结果的绝对值)

然后将其放入到MLP神经网络中可得,其中T0为梯度阈值，(将其放入MLP神经网络中进行梯度阈值的分辨，T0为阈值，通过用梯度的绝对值与其比较筛选出两个类别，得到Fm待判定清晰值，Fm’为每一小块对应的误差范围，F′_m通过多头注意力函数通过上一块的结果Fm来给定自身注意力误差，其中Assist为合并位置误差，因为第一块前面没有一块，所以第一块的误差计算由最后一块提供，最后将结果放入LN()函数，也就是LayerNorm中进行残差连接，最后的计算得到Q即为最终结果通过正负的区别判断即我们需要的图像分类信息清晰与非清晰。F上标0下标M为第0块开始一直计算到第M块)

F_i'＝MultiHead(F_i-1)+Assist，i＝1...M

Q_i＝LN(F_i-1)，i＝1...M。

3、SIFT算法获得特征点通过位移拼接图像(拼接部分)

当完成了对图像清晰区域的检索，即可将其应用的图像的拼接流程中，如图4所示，首先通过SIFT算法匹配相邻两帧图像清晰区域的特征点，对每一对特征点之间设相应的Δx和Δy，因为图像为纵向拼接，所以Δx的值恒定不变且为0，Δy的值为其上下两帧纵坐标的差值的绝对值，获取每相邻两帧的Δy之后，立即定义一个长为x，纵向宽为y+Δy的矩形区域为拼接后的图像大小(图像拼接大小确定后有助于减少图像拼接产生的畸变)，然后通过匹配的特征点，将两幅图像在定义的矩形区域内实现拼接，拼接完成后的图像再次变为待拼接图像并且与下一帧继续进行上述操作直至所有图像拼接完成。

图5为经过伽马霍夫圆变换后真实测量出来的圆心图片。图5的图像是首先通过GAMMA值的自检测，当GAMMA＝0.9的时候，霍夫圆变换可以识别出来该图像中所包含的圆心。图6-8为经过VIT优化后通过拼接函数所得到的结果。可以看出图像清晰，基本无扭曲和形变。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

任何基于本发明的技术启示而进行的等效变换，也在本发明的保护范围之内。