CN110660023A

CN110660023A - 一种基于图像语义分割的视频拼接方法

Info

Publication number: CN110660023A
Application number: CN201910867207.1A
Authority: CN
Inventors: 李成名; 刘嗣超; 赵占杰; 武鹏达; 王飞; 刘振东; 陈汉生
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-01-07
Anticipated expiration: 2039-09-12
Also published as: CN110660023B

Abstract

本发明公开了一种基于图像语义分割的视频拼接方法，包括获取某一视频传感器采集的视频单帧图像；依据视频位置信息结合单帧图像中地物形状特征精确获取目标区域的遥感影像，作为拼接参考背景；采用全卷积神经网络对视频单帧图像和拼接参考背景影像进行语义分割；将分割结果与基于特征向量欧式距离的匹配方法结合，作为特征点的匹配约束条件，进行匹配特征点集的选取；根据选取的匹配特征点集，实现视频每一帧图像和拼接参考背景影像的匹配；对匹配得到的所有结果进行时间序列的融合，得到最终视频拼接结果。优点是：实现更为准确的特征点匹配，以及视频的高质量拼接，适用于重叠区域大的多视频拼接，而且能够很好的实现重叠区域小的多视频拼接。

Description

一种基于图像语义分割的视频拼接方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于图像语义分割的视频拼接方法。

背景技术

视频拼接是图像拼接的外延，是指将数个有重叠部分的视频序列(多时相、多视角、多传感器获取)无缝拼接成宽景乃至全景视频的技术，拼接后的全景视频可广泛应用在公安、交通等城市状态连续跟踪监控中。依据相机设置和应用场景的不同，视频拼接可分为静态场景下固定多摄像头视频拼接、运动场景下固定摄像头视频拼接以及动静场景混合状态下的非刚性固连摄像头视频拼接三种类型，其中以静态场景下固定多摄像头视频拼接最为常用。

静态场景下视频拼接主要是通过多个视频重叠区域的同名特征点来实现拼接，如专利《全景视频拼接方法及装置》ZL 201610599700.6就是通过逐一提取两个视频单帧图像的重叠区域的特征点来实现全景视频的拼接，因此实现特征点的准确匹配是实现视频拼接的核心和关键。如专利《全景视频拼接方法及装置》(专利号：ZL 201610599700.6)是通过在重叠区域选取预设数量对种子点，将两个视频单帧图像的坐标由屏幕坐标转换为柱面坐标；基于转换后的柱面坐标,根据选取的种子点提取两个视频单帧图像的特征点进行匹配；专利《基于图像拼接的视频拼接装置及视频拼接方法》(申请号：201710245434.1)是首先对第一路视频的第i帧图像的特征点和第二路视频的第i帧图像的特征点进行粗匹配，得到初始特征点匹配对集合，对该集合进行细匹配后再进行图像进行融合，以获得拼接后的图像。此外，还有采用特征匹配算法来实现视频拼接的研究，如论文《基于分块Harris特征的航拍视频拼接方法》中，将分块Harris特征与SIFT方法相结合，引入图像角点对特征点选取进行约束等。上述专利给出的拼接方法均能很好的实现多视频影像的拼接，但多数情况下，重叠区域越大，能够找到的特征点越好、越多，拼接效果就越佳，当重叠区域较小时，由于缺少足够量的典型特征点，往往会导致拼接后变形较大或出现错误拼接。

发明内容

本发明的目的在于提供一种基于图像语义分割的视频拼接方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于图像语义分割的视频拼接方法，包括，

S1、获取某一视频传感器采集的视频单帧图像；

S2、依据视频位置信息并结合单帧图像中地物形状特征精确获取目标区域的遥感影像，作为拼接参考背景；

S3、采用全卷积神经网络对视频单帧图像和拼接参考背景影像进行语义分割；

S4、采用步骤S3中语义分割的结果与基于特征向量欧式距离的匹配方法相结合，共同作为特征点的匹配约束条件，进行匹配特征点集的选取；

S5、根据选取的匹配特征点集，实现视频每一帧图像和拼接参考背景影像的匹配；

S6、重复步骤S1-S5，实现其他视频传感器的每一帧图像和拼接参考背景影像的匹配；

S7、对匹配得到的所有结果进行时间序列的融合，得到最终视频拼接结果。

优选的，步骤S2包括如下内容，

S21、通过视频传感器的属性信息，计算得到该视频传感器的位置信息，并给予该位置信息对所需遥感影像进行粗定位；

S22、将粗定位的遥感影像和视频单帧图像，采用公式(1)将每个像素值从RGB空间转化到YIQ空间的亮度图像，得到每个像素值的亮度分量；

Y＝0.299R+0.587G+0.114B (1)

其中，Y为亮度分量，R为红色编码值，G为绿色编码值，B为蓝色编码值；

S23、基于亮度分量采用Canny算子提取粗定位遥感影像和视频单帧图像的边缘特征，利用Sobel算子，采用公式(2)计算各个边缘像素点(x,y)在像素坐标系中水平及竖直方向上的灰度梯度(dx,dy)；

其中，f(x,y)为边缘像素点(x,y)的灰度值；

S24、通过灰度梯度，采用公式(3)计算粗定位遥感影像和视频单帧图像的边缘角度θ(x,y)，之后采用公式(4)对边缘角度进行二阶差分运算，

θ(x,y)＝arctan(dx/dy) (3)

Δ²θ_i＝θ_i-1-2θ_i+θ_i+1 (4)

其中，θ_i为第i个边缘像素点对应的边缘角度，θ_i-1和θ_i+1是边缘方向上与该点邻近的两个边缘像素点的边缘角度；

S25、统计粗定位遥感影像和视频单帧图像中边缘角度二阶差分直方图，并将其归一化为频率直方图，采用公式(5)，即利用直方图相交距定义两幅图像p、q之间的相似性；

其中，

V_q是待匹配的正射影像直方图特征，V_p是交通视频图像的直方图特征，d_pq代表二者之间的相似性程度；

S26、针对粗定位遥感影像，依据视频单帧图像覆盖单位及地物自然特征，选取固定大小的单元格及步长，逐一与视频单帧图像进行相似度计算，将相似度最高的遥感影像作为拼接参考背景。

优选的，步骤S3包括如下内容，

S31、对视频中的专题特征进行人工解译获取标签类型；

S32、根据获取的标签类型，选取含有相关标签类型的若干视频单帧图像和拼接参考影像作为训练样本集；

S33、采用全卷积神经网络对训练样本集进行语义分割训练，得到训练好的语义分割模型；

S34、利用语义分割模型，对视频单帧图像和拼接参考背景影像进行语义分割，得到语义分割结果。

优选的，步骤S4包括如下内容，

S41、分别统计视频单帧图像和拼接参考背景影像中各个语义分割区域的边缘角度二阶差分直方图，并依据其自身语义信息，分类别逐一匹配，获取最最佳匹配关系；

S42、对最佳匹配的分割区域进行SIFT特征点提取，得到特征点集(x_i,x_j)，利用特征匹配公式(6)，基于语义分割结果与传统基于特征向量欧式距离的匹配方法相结合进行特征点匹配，得到匹配结果值；

其中，α为特征匹配系数，其取值如公式(7)所示，seg(x_i)为进行语义分割后x_i所属的分类结果，

为x_i所属类别在语义分割中的查准率，

为匹配点对应特征向量欧式距离相似概率；

S43、若特征点集(x_i,x_j)计算得到的f_FM(x_i,x_j)值大于匹配阈值T_FM，则认为该匹配是正确的；否则，认为匹配不正确，并将该特征点删除，不作为后续视频单帧图像和拼接参考背景影像融合时的特征点；之后遍历所有特征点集，得到最终匹配的特征点。

优选的，步骤S5包括如下内容，

S51、根据提取的特征点通过RANSAC算法估计单应矩阵H，迭代剔除误差点，进而实现两幅图像几何关系的变换，H的计算方法如公式(8)；

其中，h_i(i＝1,2......9)为特征点，s为比例因子，M为相机内参数矩阵，r₁、r₂为相机外参数中旋转矩阵的列分量，t为外参数的平移向量；

S52、依据公式(9)按照反距离加权的方式进行图像融合；

在重叠区域中，点(x,y)为对应点(x_n,y_n)在对角线方向的重叠区域边界点，f_n为像素灰度值，W_n为权重值，d_n为点(x,y)与点(x_n,y_n)之间的欧式距离。

本发明的有益效果是：本发明提供的方法借助对地观测技术获取到的遥感影像数据作为拼接参考背景，并基于全卷积神经网络对视频图像及遥感影像进行语义分割，基于语义分割结果实现更为准确的特征点匹配，实现视频的高质量拼接，不仅适用于重叠区域大的多视频拼接，而且能够很好的实现重叠区域小的多视频拼接。

附图说明

图1是本发明实施例中视频拼接方法的流程示意图；

图2是本发明实施例中监控场景平面示意图；

图3是本发明实施例中摄像头A和摄像头B的图像；

图4是本发明实施例中摄像头A和摄像头B进行图像拼接后的结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本实施例中提供了一种基于图像语义分割的视频拼接方法，包括，

S1、获取某一视频传感器采集的视频单帧图像；

S3、采用全卷积神经网络(fully convolutional network，FCN)对视频单帧图像和拼接参考背景影像进行语义分割；

本实施例中，步骤S2包括如下内容，

S21、通过视频传感器的属性信息，计算得到该视频传感器的位置信息，并给予该位置信息对所需遥感影像进行粗定位；视频传感器的属性信息为如地名地址等信息；视频传感器的位置信息为如经纬度等信息

S22、将粗定位的遥感影像和视频单帧图像，采用公式(1)将每个像素值从RGB(Red-Green-Blue)空间转化到YIQ(Luminance-In-phase-Quadrature-phase)空间的亮度图像转换，得到每个像素值的亮度分量；

Y＝0.299R+0.587G+0.114B (1)

其中，f(x,y)为边缘像素点(x,y)的灰度值；

θ(x,y)＝arctan(dx/dy) (3)

Δ²θ_i＝θ_i-1-2θ_i+θ_i+1 (4)

其中，V_q是待匹配的正射影像直方图特征，V_p是交通视频图像的直方图特征，d_pq代表二者之间的相似性程度；

本实施例中，采用的固定单元格尺寸为120m×120m，步长为1m，逐一与视频单帧图像进行相似度计算，将相似度最高的遥感影像作为拼接参考背景。

本实施例中，步骤S3包括如下内容，

S31、对视频中的专题特征进行人工解译获取标签类型；

本实施例中，采用的全卷积神经网络(FCN)包含5个卷基层、3个全连接层，各层所用的滤波器大小、步长、神经元个数等关键参数如表1(FCN模型参数)所示。

表1

本实施例中，步骤S4包括如下内容，

为x_i所属类别在语义分割中的查准率，为匹配点对应特征向量欧式距离相似概率；

本实施例中，步骤S5包括如下内容，

S52、依据公式(9)按照反距离加权的方式进行图像融合；

实施例二

如图2至图4所示，本实施例中，视频拼接实际上是将多个有重叠部分的视频序列无缝拼接成宽景乃至全景视频的技术，其中静态场景下固定多摄像头的视频拼接最为常见，如固定角度的交通监控摄像头、室内监控摄像头等。静态视频拼接的常用方法是选取多个视频重叠区域具有相同特征的匹配特征点，然后利用特征点进行视频几何变换和融合拼接，因此，特征点越准确、越多，匹配和拼接的效果就越好，大重叠区域能够更好的满足这一要求，因此，这类情况需要避免重叠区域过小。但是通常情况下，静态视频影像有其自身的特点，例如交通监控视频，各个视频的主光轴朝向同一区域，同一监控区域内不同视频传感器之间重叠区域范围变化较大，应用传统方法进行图像拼接会出现以下问题，结合附图2至图4进行说明：

情况1：对于重叠区域较小的监控视频，传统方法较难在重叠区域内找到适当的匹配特征点，导致不能对视频进行拼接。

情况2：对于有一定重叠区域的监控视频，由于不同摄像头主光轴之间的夹角较大，导致匹配后图像变形较大。如附图2所示，为某一监控场景平面示意图，黑色矩形框内为摄像头A的监控范围，灰色矩形框内为摄像头B的监控范围，假设摄像头主光轴与地面夹角成60°，则摄像头A和B内图像分别为图3所示，对两个图像进行拼接，结果如4所示，可以看出，矩形框A1和A2内初始形状一致的房屋，在拼接后产生明显变形(A2)，矩形框B1内规则排列的房屋，也出现了较大的拉伸与形变(B2)，拼接的效果产生了严重的失真。

情况3：传统方法中特征点匹配过程中仅考虑图像几何特征，容易产生特征点误匹配，如图3中黑色连接线所示，其对应的特征点因为几何特征相似而误匹配为连接点对，容易导致拼接结果出现错误。

因此，为了避免传统静态视频基于匹配特征点拼接方法出现的问题，本发明中，将于静态视频监控区域范围下的高精度遥感影像数据引入作为拼接参考背景，并基于全卷积神经网络对视频图像及遥感影像进行语义分割，在语义分割得到的更加准确的重叠区相同地物标签数据约束下，结合传统基于特征向量欧氏距离匹配方法，进行更加准确的匹配特征点的选取，进而实现多视频更准确的拼接。

实施例三

本实施例中，为了更好的说明本发明效果，对利用实际数据对传统拼接方法SIFT和本发明方法进行了同一环境下的拼接效果对比。实验环境为Intel Core i7-6700K处理器，主频4.00GHz，内存16GB，C++编程实现，使用Caffe深度学习框架。

本实施例中，实验数据选取山东省临沂市54个典型路口，132个高清摄像头的视频数据，视频图像大小为1920x1080像素；对地观测遥感数据选择高分辨率正射影像，分辨率0.1m。其中100个高清摄像头的视频帧和36个路口区域正射影像用于制作训练集，20个高清摄像头的视频帧和10个路口区域正射影像用于制作测试集，12个高清摄像头的视频帧和8个路口区域正射影像用于制作验证集。

本实施例中，主要对本发明方法中步骤C的采用FCN视频单帧图像和拼接参考背景影像进行语义分割准确度进行验证。以视频单帧图像为例，首先通过人工解译，得到原始视频图像的标签类型，包括道路、步行道、草坪、斑马线、其他等共5类。对原始视频图像和标签数据用大小为256x256像素、步长为256的滑块截取图像块，然后进行旋转和镜像实现数据增强，最终得到4000张训练数据集，1000张测试数据集，600张验证数据集。训练超参数最大迭代次数(max_iter)为10000次，基础学习率(base_lr)为0.00001，伽马系数(gamma)为0.1，学习率变换步长(stepsize)为2500，动量系数(momentum)为0.99，权重衰减(weight_decay)为0.0005，得到最终的语义分割结果。

以验证集全体的查准率和查全率作为语义分割的精度评定标准，查准率(Precision Ratio，PR)和查全率(Recall Ratio，RR)的计算函数见式(10)、(11)。

其中，TP_class为预测为某类地物且正确的像素数(True Positive)，FP_class为预测为某类地物但错误的像素数(False Positive)，FN_class为实际为某类地物但未被检索为该类地物的像素数(False Negative)。

应用本发明提出的采用FCN进行语义分割的查全率、查准率如表2(深度学习语义分割精度)所示。步行道因与其他区域边界过渡区域分割特征并不明显，查全率和查准率相对较低，分别为86％和89％，其他交通专题特征查全率和查准率精度均较高，在92％以上。

表2

本实施例中，主要对传统方法，以及本发明方法中步骤4、5所采用的方法进行匹配特征点选取和匹配结果的准确度进行对比验证。其中传统方法采用SIFT匹配方法，该方法中特征点匹配的具体算法采用BF(BruteForce)暴力匹配及KNN(k-Nearest Neighbor)匹配点对筛选算法。本实施例中，传统SIFT方法仅使用特征向量欧式距离的相似度进行匹配，不可避免地会产生一些错误匹配，同时还有部分特征点散落在图像边缘，直接降低了特征点匹配的准确性；本发明提出区域约束特征点匹配算法，由于融合了图像高阶语义信息图像，提取的特征点集中分布在各个交通特征专题语义空间内，从而剔除了图像中大量的误匹配，优化了特征点数量。

在比较两种匹配方法的性能时，本实施例对两幅图像中同名点进行了人工标定，精度为1/3像素，利用人工标定的点集由RANSAC算法计算两幅图像的参考单应矩阵，然后使用两种匹算法分别进行特征点匹配，获得的匹配点对逐个依据参考单应矩阵计算欧式距离偏移量，将欧氏距离偏移量大于

的匹配点对认为是误差点，小于

认为是准确点。由表3(目标区域两种匹配算法的性能比较)可以看出，由于本发明方法限定了匹配区域，所以匹配点数量相较传统方法有所降低，所以匹配点数量相较传统方法有所降低，但同时利用图像语义剔除掉大量误匹配点，平均特征点匹配正确率由44.8％提高至75.9％，提升约31.1％，在匹配点数量满足单应矩阵求解的基础上有效提升了匹配效率。

表3

本实施例中，对传统方法以及本发明方法视频拼接结果有效性进行对比验证。其中，根据视频重叠度在60％以上(实际为82％)、重叠度位于20％-60％之间(实际为31％)以及重叠度不足20％(实际为8％)的三处典型场景及其拼接对比结果；同样，传统方法采用SIFT匹配方法。本实施例中，对于重叠度较大的图像，两种方法均可得到较好的拼接结果，拼接区域无明显变形和接缝。对于重叠度中等的图像，传统SIFT方法和本发明方法均可对此区域进行拼接处理，但因各个交通视频与地面偏角相差较大，基于SIFT的拼接结果图像变形较大，本文算法拼接结果则不存在变形。对于重叠区域过小的情况，SIFT算法没有得到正确的拼接结果，而本文算法将各个视频对应的正射影像作为中间背景图像，利用视频与正射影像之间重叠度较高的特点解决了视频之间重叠度较低的问题，实现了该区域的正确拼接，且看不到明显接缝。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明提供了一种基于图像语义分割的视频拼接方法，该方法借助对地观测技术获取到的遥感影像数据作为拼接参考背景，并基于全卷积神经网络对视频图像及遥感影像进行语义分割，基于语义分割结果实现更为准确的特征点匹配，实现视频的高质量拼接，不仅适用于重叠区域大的多视频拼接，而且能够很好的实现重叠区域小的多视频拼接。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。