CN110660023A - 一种基于图像语义分割的视频拼接方法 - Google Patents

一种基于图像语义分割的视频拼接方法 Download PDF

Info

Publication number
CN110660023A
CN110660023A CN201910867207.1A CN201910867207A CN110660023A CN 110660023 A CN110660023 A CN 110660023A CN 201910867207 A CN201910867207 A CN 201910867207A CN 110660023 A CN110660023 A CN 110660023A
Authority
CN
China
Prior art keywords
video
image
matching
semantic segmentation
splicing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910867207.1A
Other languages
English (en)
Other versions
CN110660023B (zh
Inventor
李成名
刘嗣超
赵占杰
武鹏达
王飞
刘振东
陈汉生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Surveying and Mapping
Original Assignee
Chinese Academy of Surveying and Mapping
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Surveying and Mapping filed Critical Chinese Academy of Surveying and Mapping
Priority to CN201910867207.1A priority Critical patent/CN110660023B/zh
Publication of CN110660023A publication Critical patent/CN110660023A/zh
Application granted granted Critical
Publication of CN110660023B publication Critical patent/CN110660023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4038Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Abstract

本发明公开了一种基于图像语义分割的视频拼接方法,包括获取某一视频传感器采集的视频单帧图像;依据视频位置信息结合单帧图像中地物形状特征精确获取目标区域的遥感影像,作为拼接参考背景;采用全卷积神经网络对视频单帧图像和拼接参考背景影像进行语义分割;将分割结果与基于特征向量欧式距离的匹配方法结合,作为特征点的匹配约束条件,进行匹配特征点集的选取;根据选取的匹配特征点集,实现视频每一帧图像和拼接参考背景影像的匹配;对匹配得到的所有结果进行时间序列的融合,得到最终视频拼接结果。优点是:实现更为准确的特征点匹配,以及视频的高质量拼接,适用于重叠区域大的多视频拼接,而且能够很好的实现重叠区域小的多视频拼接。

Description

一种基于图像语义分割的视频拼接方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于图像语义分割的视频拼接方法。
背景技术
视频拼接是图像拼接的外延,是指将数个有重叠部分的视频序列(多时相、多视角、多传感器获取)无缝拼接成宽景乃至全景视频的技术,拼接后的全景视频可广泛应用在公安、交通等城市状态连续跟踪监控中。依据相机设置和应用场景的不同,视频拼接可分为静态场景下固定多摄像头视频拼接、运动场景下固定摄像头视频拼接以及动静场景混合状态下的非刚性固连摄像头视频拼接三种类型,其中以静态场景下固定多摄像头视频拼接最为常用。
静态场景下视频拼接主要是通过多个视频重叠区域的同名特征点来实现拼接,如专利《全景视频拼接方法及装置》ZL 201610599700.6就是通过逐一提取两个视频单帧图像的重叠区域的特征点来实现全景视频的拼接,因此实现特征点的准确匹配是实现视频拼接的核心和关键。如专利《全景视频拼接方法及装置》(专利号:ZL 201610599700.6)是通过在重叠区域选取预设数量对种子点,将两个视频单帧图像的坐标由屏幕坐标转换为柱面坐标;基于转换后的柱面坐标,根据选取的种子点提取两个视频单帧图像的特征点进行匹配;专利《基于图像拼接的视频拼接装置及视频拼接方法》(申请号:201710245434.1)是首先对第一路视频的第i帧图像的特征点和第二路视频的第i帧图像的特征点进行粗匹配,得到初始特征点匹配对集合,对该集合进行细匹配后再进行图像进行融合,以获得拼接后的图像。此外,还有采用特征匹配算法来实现视频拼接的研究,如论文《基于分块Harris特征的航拍视频拼接方法》中,将分块Harris特征与SIFT方法相结合,引入图像角点对特征点选取进行约束等。上述专利给出的拼接方法均能很好的实现多视频影像的拼接,但多数情况下,重叠区域越大,能够找到的特征点越好、越多,拼接效果就越佳,当重叠区域较小时,由于缺少足够量的典型特征点,往往会导致拼接后变形较大或出现错误拼接。
发明内容
本发明的目的在于提供一种基于图像语义分割的视频拼接方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于图像语义分割的视频拼接方法,包括,
S1、获取某一视频传感器采集的视频单帧图像;
S2、依据视频位置信息并结合单帧图像中地物形状特征精确获取目标区域的遥感影像,作为拼接参考背景;
S3、采用全卷积神经网络对视频单帧图像和拼接参考背景影像进行语义分割;
S4、采用步骤S3中语义分割的结果与基于特征向量欧式距离的匹配方法相结合,共同作为特征点的匹配约束条件,进行匹配特征点集的选取;
S5、根据选取的匹配特征点集,实现视频每一帧图像和拼接参考背景影像的匹配;
S6、重复步骤S1-S5,实现其他视频传感器的每一帧图像和拼接参考背景影像的匹配;
S7、对匹配得到的所有结果进行时间序列的融合,得到最终视频拼接结果。
优选的,步骤S2包括如下内容,
S21、通过视频传感器的属性信息,计算得到该视频传感器的位置信息,并给予该位置信息对所需遥感影像进行粗定位;
S22、将粗定位的遥感影像和视频单帧图像,采用公式(1)将每个像素值从RGB空间转化到YIQ空间的亮度图像,得到每个像素值的亮度分量;
Y=0.299R+0.587G+0.114B (1)
其中,Y为亮度分量,R为红色编码值,G为绿色编码值,B为蓝色编码值;
S23、基于亮度分量采用Canny算子提取粗定位遥感影像和视频单帧图像的边缘特征,利用Sobel算子,采用公式(2)计算各个边缘像素点(x,y)在像素坐标系中水平及竖直方向上的灰度梯度(dx,dy);
Figure BDA0002201608670000031
其中,f(x,y)为边缘像素点(x,y)的灰度值;
S24、通过灰度梯度,采用公式(3)计算粗定位遥感影像和视频单帧图像的边缘角度θ(x,y),之后采用公式(4)对边缘角度进行二阶差分运算,
θ(x,y)=arctan(dx/dy) (3)
Δ2θi=θi-1-2θii+1 (4)
其中,θi为第i个边缘像素点对应的边缘角度,θi-1和θi+1是边缘方向上与该点邻近的两个边缘像素点的边缘角度;
S25、统计粗定位遥感影像和视频单帧图像中边缘角度二阶差分直方图,并将其归一化为频率直方图,采用公式(5),即利用直方图相交距定义两幅图像p、q之间的相似性;
其中,
Figure BDA0002201608670000033
Vq是待匹配的正射影像直方图特征,Vp是交通视频图像的直方图特征,dpq代表二者之间的相似性程度;
S26、针对粗定位遥感影像,依据视频单帧图像覆盖单位及地物自然特征,选取固定大小的单元格及步长,逐一与视频单帧图像进行相似度计算,将相似度最高的遥感影像作为拼接参考背景。
优选的,步骤S3包括如下内容,
S31、对视频中的专题特征进行人工解译获取标签类型;
S32、根据获取的标签类型,选取含有相关标签类型的若干视频单帧图像和拼接参考影像作为训练样本集;
S33、采用全卷积神经网络对训练样本集进行语义分割训练,得到训练好的语义分割模型;
S34、利用语义分割模型,对视频单帧图像和拼接参考背景影像进行语义分割,得到语义分割结果。
优选的,步骤S4包括如下内容,
S41、分别统计视频单帧图像和拼接参考背景影像中各个语义分割区域的边缘角度二阶差分直方图,并依据其自身语义信息,分类别逐一匹配,获取最最佳匹配关系;
S42、对最佳匹配的分割区域进行SIFT特征点提取,得到特征点集(xi,xj),利用特征匹配公式(6),基于语义分割结果与传统基于特征向量欧式距离的匹配方法相结合进行特征点匹配,得到匹配结果值;
Figure BDA0002201608670000041
其中,α为特征匹配系数,其取值如公式(7)所示,seg(xi)为进行语义分割后xi所属的分类结果,
Figure BDA0002201608670000042
为xi所属类别在语义分割中的查准率,
Figure BDA0002201608670000043
为匹配点对应特征向量欧式距离相似概率;
S43、若特征点集(xi,xj)计算得到的fFM(xi,xj)值大于匹配阈值TFM,则认为该匹配是正确的;否则,认为匹配不正确,并将该特征点删除,不作为后续视频单帧图像和拼接参考背景影像融合时的特征点;之后遍历所有特征点集,得到最终匹配的特征点。
优选的,步骤S5包括如下内容,
S51、根据提取的特征点通过RANSAC算法估计单应矩阵H,迭代剔除误差点,进而实现两幅图像几何关系的变换,H的计算方法如公式(8);
Figure BDA0002201608670000045
其中,hi(i=1,2......9)为特征点,s为比例因子,M为相机内参数矩阵,r1、r2为相机外参数中旋转矩阵的列分量,t为外参数的平移向量;
S52、依据公式(9)按照反距离加权的方式进行图像融合;
在重叠区域中,点(x,y)为对应点(xn,yn)在对角线方向的重叠区域边界点,fn为像素灰度值,Wn为权重值,dn为点(x,y)与点(xn,yn)之间的欧式距离。
本发明的有益效果是:本发明提供的方法借助对地观测技术获取到的遥感影像数据作为拼接参考背景,并基于全卷积神经网络对视频图像及遥感影像进行语义分割,基于语义分割结果实现更为准确的特征点匹配,实现视频的高质量拼接,不仅适用于重叠区域大的多视频拼接,而且能够很好的实现重叠区域小的多视频拼接。
附图说明
图1是本发明实施例中视频拼接方法的流程示意图;
图2是本发明实施例中监控场景平面示意图;
图3是本发明实施例中摄像头A和摄像头B的图像;
图4是本发明实施例中摄像头A和摄像头B进行图像拼接后的结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例中提供了一种基于图像语义分割的视频拼接方法,包括,
S1、获取某一视频传感器采集的视频单帧图像;
S2、依据视频位置信息并结合单帧图像中地物形状特征精确获取目标区域的遥感影像,作为拼接参考背景;
S3、采用全卷积神经网络(fully convolutional network,FCN)对视频单帧图像和拼接参考背景影像进行语义分割;
S4、采用步骤S3中语义分割的结果与基于特征向量欧式距离的匹配方法相结合,共同作为特征点的匹配约束条件,进行匹配特征点集的选取;
S5、根据选取的匹配特征点集,实现视频每一帧图像和拼接参考背景影像的匹配;
S6、重复步骤S1-S5,实现其他视频传感器的每一帧图像和拼接参考背景影像的匹配;
S7、对匹配得到的所有结果进行时间序列的融合,得到最终视频拼接结果。
本实施例中,步骤S2包括如下内容,
S21、通过视频传感器的属性信息,计算得到该视频传感器的位置信息,并给予该位置信息对所需遥感影像进行粗定位;视频传感器的属性信息为如地名地址等信息;视频传感器的位置信息为如经纬度等信息
S22、将粗定位的遥感影像和视频单帧图像,采用公式(1)将每个像素值从RGB(Red-Green-Blue)空间转化到YIQ(Luminance-In-phase-Quadrature-phase)空间的亮度图像转换,得到每个像素值的亮度分量;
Y=0.299R+0.587G+0.114B (1)
其中,Y为亮度分量,R为红色编码值,G为绿色编码值,B为蓝色编码值;
S23、基于亮度分量采用Canny算子提取粗定位遥感影像和视频单帧图像的边缘特征,利用Sobel算子,采用公式(2)计算各个边缘像素点(x,y)在像素坐标系中水平及竖直方向上的灰度梯度(dx,dy);
Figure BDA0002201608670000061
其中,f(x,y)为边缘像素点(x,y)的灰度值;
S24、通过灰度梯度,采用公式(3)计算粗定位遥感影像和视频单帧图像的边缘角度θ(x,y),之后采用公式(4)对边缘角度进行二阶差分运算,
θ(x,y)=arctan(dx/dy) (3)
Δ2θi=θi-1-2θii+1 (4)
其中,θi为第i个边缘像素点对应的边缘角度,θi-1和θi+1是边缘方向上与该点邻近的两个边缘像素点的边缘角度;
S25、统计粗定位遥感影像和视频单帧图像中边缘角度二阶差分直方图,并将其归一化为频率直方图,采用公式(5),即利用直方图相交距定义两幅图像p、q之间的相似性;
Figure BDA0002201608670000071
其中,Vq是待匹配的正射影像直方图特征,Vp是交通视频图像的直方图特征,dpq代表二者之间的相似性程度;
S26、针对粗定位遥感影像,依据视频单帧图像覆盖单位及地物自然特征,选取固定大小的单元格及步长,逐一与视频单帧图像进行相似度计算,将相似度最高的遥感影像作为拼接参考背景。
本实施例中,采用的固定单元格尺寸为120m×120m,步长为1m,逐一与视频单帧图像进行相似度计算,将相似度最高的遥感影像作为拼接参考背景。
本实施例中,步骤S3包括如下内容,
S31、对视频中的专题特征进行人工解译获取标签类型;
S32、根据获取的标签类型,选取含有相关标签类型的若干视频单帧图像和拼接参考影像作为训练样本集;
S33、采用全卷积神经网络对训练样本集进行语义分割训练,得到训练好的语义分割模型;
S34、利用语义分割模型,对视频单帧图像和拼接参考背景影像进行语义分割,得到语义分割结果。
本实施例中,采用的全卷积神经网络(FCN)包含5个卷基层、3个全连接层,各层所用的滤波器大小、步长、神经元个数等关键参数如表1(FCN模型参数)所示。
表1
Figure BDA0002201608670000081
本实施例中,步骤S4包括如下内容,
S41、分别统计视频单帧图像和拼接参考背景影像中各个语义分割区域的边缘角度二阶差分直方图,并依据其自身语义信息,分类别逐一匹配,获取最最佳匹配关系;
S42、对最佳匹配的分割区域进行SIFT特征点提取,得到特征点集(xi,xj),利用特征匹配公式(6),基于语义分割结果与传统基于特征向量欧式距离的匹配方法相结合进行特征点匹配,得到匹配结果值;
Figure BDA0002201608670000082
其中,α为特征匹配系数,其取值如公式(7)所示,seg(xi)为进行语义分割后xi所属的分类结果,
Figure BDA0002201608670000083
为xi所属类别在语义分割中的查准率,为匹配点对应特征向量欧式距离相似概率;
Figure BDA0002201608670000085
S43、若特征点集(xi,xj)计算得到的fFM(xi,xj)值大于匹配阈值TFM,则认为该匹配是正确的;否则,认为匹配不正确,并将该特征点删除,不作为后续视频单帧图像和拼接参考背景影像融合时的特征点;之后遍历所有特征点集,得到最终匹配的特征点。
本实施例中,步骤S5包括如下内容,
S51、根据提取的特征点通过RANSAC算法估计单应矩阵H,迭代剔除误差点,进而实现两幅图像几何关系的变换,H的计算方法如公式(8);
Figure BDA0002201608670000091
其中,hi(i=1,2......9)为特征点,s为比例因子,M为相机内参数矩阵,r1、r2为相机外参数中旋转矩阵的列分量,t为外参数的平移向量;
S52、依据公式(9)按照反距离加权的方式进行图像融合;
Figure BDA0002201608670000092
在重叠区域中,点(x,y)为对应点(xn,yn)在对角线方向的重叠区域边界点,fn为像素灰度值,Wn为权重值,dn为点(x,y)与点(xn,yn)之间的欧式距离。
实施例二
如图2至图4所示,本实施例中,视频拼接实际上是将多个有重叠部分的视频序列无缝拼接成宽景乃至全景视频的技术,其中静态场景下固定多摄像头的视频拼接最为常见,如固定角度的交通监控摄像头、室内监控摄像头等。静态视频拼接的常用方法是选取多个视频重叠区域具有相同特征的匹配特征点,然后利用特征点进行视频几何变换和融合拼接,因此,特征点越准确、越多,匹配和拼接的效果就越好,大重叠区域能够更好的满足这一要求,因此,这类情况需要避免重叠区域过小。但是通常情况下,静态视频影像有其自身的特点,例如交通监控视频,各个视频的主光轴朝向同一区域,同一监控区域内不同视频传感器之间重叠区域范围变化较大,应用传统方法进行图像拼接会出现以下问题,结合附图2至图4进行说明:
情况1:对于重叠区域较小的监控视频,传统方法较难在重叠区域内找到适当的匹配特征点,导致不能对视频进行拼接。
情况2:对于有一定重叠区域的监控视频,由于不同摄像头主光轴之间的夹角较大,导致匹配后图像变形较大。如附图2所示,为某一监控场景平面示意图,黑色矩形框内为摄像头A的监控范围,灰色矩形框内为摄像头B的监控范围,假设摄像头主光轴与地面夹角成60°,则摄像头A和B内图像分别为图3所示,对两个图像进行拼接,结果如4所示,可以看出,矩形框A1和A2内初始形状一致的房屋,在拼接后产生明显变形(A2),矩形框B1内规则排列的房屋,也出现了较大的拉伸与形变(B2),拼接的效果产生了严重的失真。
情况3:传统方法中特征点匹配过程中仅考虑图像几何特征,容易产生特征点误匹配,如图3中黑色连接线所示,其对应的特征点因为几何特征相似而误匹配为连接点对,容易导致拼接结果出现错误。
因此,为了避免传统静态视频基于匹配特征点拼接方法出现的问题,本发明中,将于静态视频监控区域范围下的高精度遥感影像数据引入作为拼接参考背景,并基于全卷积神经网络对视频图像及遥感影像进行语义分割,在语义分割得到的更加准确的重叠区相同地物标签数据约束下,结合传统基于特征向量欧氏距离匹配方法,进行更加准确的匹配特征点的选取,进而实现多视频更准确的拼接。
实施例三
本实施例中,为了更好的说明本发明效果,对利用实际数据对传统拼接方法SIFT和本发明方法进行了同一环境下的拼接效果对比。实验环境为Intel Core i7-6700K处理器,主频4.00GHz,内存16GB,C++编程实现,使用Caffe深度学习框架。
本实施例中,实验数据选取山东省临沂市54个典型路口,132个高清摄像头的视频数据,视频图像大小为1920x1080像素;对地观测遥感数据选择高分辨率正射影像,分辨率0.1m。其中100个高清摄像头的视频帧和36个路口区域正射影像用于制作训练集,20个高清摄像头的视频帧和10个路口区域正射影像用于制作测试集,12个高清摄像头的视频帧和8个路口区域正射影像用于制作验证集。
本实施例中,主要对本发明方法中步骤C的采用FCN视频单帧图像和拼接参考背景影像进行语义分割准确度进行验证。以视频单帧图像为例,首先通过人工解译,得到原始视频图像的标签类型,包括道路、步行道、草坪、斑马线、其他等共5类。对原始视频图像和标签数据用大小为256x256像素、步长为256的滑块截取图像块,然后进行旋转和镜像实现数据增强,最终得到4000张训练数据集,1000张测试数据集,600张验证数据集。训练超参数最大迭代次数(max_iter)为10000次,基础学习率(base_lr)为0.00001,伽马系数(gamma)为0.1,学习率变换步长(stepsize)为2500,动量系数(momentum)为0.99,权重衰减(weight_decay)为0.0005,得到最终的语义分割结果。
以验证集全体的查准率和查全率作为语义分割的精度评定标准,查准率(Precision Ratio,PR)和查全率(Recall Ratio,RR)的计算函数见式(10)、(11)。
Figure BDA0002201608670000112
其中,TPclass为预测为某类地物且正确的像素数(True Positive),FPclass为预测为某类地物但错误的像素数(False Positive),FNclass为实际为某类地物但未被检索为该类地物的像素数(False Negative)。
应用本发明提出的采用FCN进行语义分割的查全率、查准率如表2(深度学习语义分割精度)所示。步行道因与其他区域边界过渡区域分割特征并不明显,查全率和查准率相对较低,分别为86%和89%,其他交通专题特征查全率和查准率精度均较高,在92%以上。
表2
Figure BDA0002201608670000113
本实施例中,主要对传统方法,以及本发明方法中步骤4、5所采用的方法进行匹配特征点选取和匹配结果的准确度进行对比验证。其中传统方法采用SIFT匹配方法,该方法中特征点匹配的具体算法采用BF(BruteForce)暴力匹配及KNN(k-Nearest Neighbor)匹配点对筛选算法。本实施例中,传统SIFT方法仅使用特征向量欧式距离的相似度进行匹配,不可避免地会产生一些错误匹配,同时还有部分特征点散落在图像边缘,直接降低了特征点匹配的准确性;本发明提出区域约束特征点匹配算法,由于融合了图像高阶语义信息图像,提取的特征点集中分布在各个交通特征专题语义空间内,从而剔除了图像中大量的误匹配,优化了特征点数量。
在比较两种匹配方法的性能时,本实施例对两幅图像中同名点进行了人工标定,精度为1/3像素,利用人工标定的点集由RANSAC算法计算两幅图像的参考单应矩阵,然后使用两种匹算法分别进行特征点匹配,获得的匹配点对逐个依据参考单应矩阵计算欧式距离偏移量,将欧氏距离偏移量大于
Figure BDA0002201608670000123
的匹配点对认为是误差点,小于
Figure BDA0002201608670000124
认为是准确点。由表3(目标区域两种匹配算法的性能比较)可以看出,由于本发明方法限定了匹配区域,所以匹配点数量相较传统方法有所降低,所以匹配点数量相较传统方法有所降低,但同时利用图像语义剔除掉大量误匹配点,平均特征点匹配正确率由44.8%提高至75.9%,提升约31.1%,在匹配点数量满足单应矩阵求解的基础上有效提升了匹配效率。
表3
Figure BDA0002201608670000122
本实施例中,对传统方法以及本发明方法视频拼接结果有效性进行对比验证。其中,根据视频重叠度在60%以上(实际为82%)、重叠度位于20%-60%之间(实际为31%)以及重叠度不足20%(实际为8%)的三处典型场景及其拼接对比结果;同样,传统方法采用SIFT匹配方法。本实施例中,对于重叠度较大的图像,两种方法均可得到较好的拼接结果,拼接区域无明显变形和接缝。对于重叠度中等的图像,传统SIFT方法和本发明方法均可对此区域进行拼接处理,但因各个交通视频与地面偏角相差较大,基于SIFT的拼接结果图像变形较大,本文算法拼接结果则不存在变形。对于重叠区域过小的情况,SIFT算法没有得到正确的拼接结果,而本文算法将各个视频对应的正射影像作为中间背景图像,利用视频与正射影像之间重叠度较高的特点解决了视频之间重叠度较低的问题,实现了该区域的正确拼接,且看不到明显接缝。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明提供了一种基于图像语义分割的视频拼接方法,该方法借助对地观测技术获取到的遥感影像数据作为拼接参考背景,并基于全卷积神经网络对视频图像及遥感影像进行语义分割,基于语义分割结果实现更为准确的特征点匹配,实现视频的高质量拼接,不仅适用于重叠区域大的多视频拼接,而且能够很好的实现重叠区域小的多视频拼接。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (5)

1.一种基于图像语义分割的视频拼接方法,其特征在于:包括,
S1、获取某一视频传感器采集的视频单帧图像;
S2、依据视频位置信息并结合单帧图像中地物形状特征精确获取目标区域的遥感影像,作为拼接参考背景;
S3、采用全卷积神经网络对视频单帧图像和拼接参考背景影像进行语义分割;
S4、采用步骤S3中语义分割的结果与基于特征向量欧式距离的匹配方法相结合,共同作为特征点的匹配约束条件,进行匹配特征点集的选取;
S5、根据选取的匹配特征点集,实现视频每一帧图像和拼接参考背景影像的匹配;
S6、重复步骤S1-S5,实现其他视频传感器的每一帧图像和拼接参考背景影像的匹配;
S7、对匹配得到的所有结果进行时间序列的融合,得到最终视频拼接结果。
2.根据权利要求1所述的基于图像语义分割的视频拼接方法,其特征在于:步骤S2包括如下内容,
S21、通过视频传感器的属性信息,计算得到该视频传感器的位置信息,并给予该位置信息对所需遥感影像进行粗定位;
S22、将粗定位的遥感影像和视频单帧图像,采用公式(1)将每个像素值从RGB空间转化到YIQ空间的亮度图像,得到每个像素值的亮度分量;
Y=0.299R+0.587G+0.114B (1)
其中,Y为亮度分量,R为红色编码值,G为绿色编码值,B为蓝色编码值;
S23、基于亮度分量采用Canny算子提取粗定位遥感影像和视频单帧图像的边缘特征,利用Sobel算子,采用公式(2)计算各个边缘像素点(x,y)在像素坐标系中水平及竖直方向上的灰度梯度(dx,dy);
其中,f(x,y)为边缘像素点(x,y)的灰度值;
S24、通过灰度梯度,采用公式(3)计算粗定位遥感影像和视频单帧图像的边缘角度θ(x,y),之后采用公式(4)对边缘角度进行二阶差分运算,
θ(x,y)=arctan(dx/dy) (3)
Δ2θi=θi-1-2θii+1 (4)
其中,θi为第i个边缘像素点对应的边缘角度,θi-1和θi+1是边缘方向上与该点邻近的两个边缘像素点的边缘角度;
S25、统计粗定位遥感影像和视频单帧图像中边缘角度二阶差分直方图,并将其归一化为频率直方图,采用公式(5),即利用直方图相交距定义两幅图像p、q之间的相似性;
Figure FDA0002201608660000021
其中,
Figure FDA0002201608660000022
Vq是待匹配的正射影像直方图特征,Vp是交通视频图像的直方图特征,dpq代表二者之间的相似性程度;
S26、针对粗定位遥感影像,依据视频单帧图像覆盖单位及地物自然特征,选取固定大小的单元格及步长,逐一与视频单帧图像进行相似度计算,将相似度最高的遥感影像作为拼接参考背景。
3.根据权利要求1所述的基于图像语义分割的视频拼接方法,其特征在于:步骤S3包括如下内容,
S31、对视频中的专题特征进行人工解译获取标签类型;
S32、根据获取的标签类型,选取含有相关标签类型的若干视频单帧图像和拼接参考影像作为训练样本集;
S33、采用全卷积神经网络对训练样本集进行语义分割训练,得到训练好的语义分割模型;
S34、利用语义分割模型,对视频单帧图像和拼接参考背景影像进行语义分割,得到语义分割结果。
4.根据权利要求1所述的基于图像语义分割的视频拼接方法,其特征在于:步骤S4包括如下内容,
S41、分别统计视频单帧图像和拼接参考背景影像中各个语义分割区域的边缘角度二阶差分直方图,并依据其自身语义信息,分类别逐一匹配,获取最最佳匹配关系;
S42、对最佳匹配的分割区域进行SIFT特征点提取,得到特征点集(xi,xj),利用特征匹配公式(6),基于语义分割结果与传统基于特征向量欧式距离的匹配方法相结合进行特征点匹配,得到匹配结果值;
其中,α为特征匹配系数,其取值如公式(7)所示,seg(xi)为进行语义分割后xi所属的分类结果,为xi所属类别在语义分割中的查准率,
Figure FDA0002201608660000033
为匹配点对应特征向量欧式距离相似概率;
Figure FDA0002201608660000034
S43、若特征点集(xi,xj)计算得到的fFM(xi,xj)值大于匹配阈值TFM,则认为该匹配是正确的;否则,认为匹配不正确,并将该特征点删除,不作为后续视频单帧图像和拼接参考背景影像融合时的特征点;之后遍历所有特征点集,得到最终匹配的特征点。
5.根据权利要求1所述的基于图像语义分割的视频拼接方法,其特征在于:步骤S5包括如下内容,
S51、根据提取的特征点通过RANSAC算法估计单应矩阵H,迭代剔除误差点,进而实现两幅图像几何关系的变换,H的计算方法如公式(8);
其中,hi(i=1,2......9)为特征点,s为比例因子,M为相机内参数矩阵,r1、r2为相机外参数中旋转矩阵的列分量,t为外参数的平移向量;
S52、依据公式(9)按照反距离加权的方式进行图像融合;
Figure FDA0002201608660000041
在重叠区域中,点(x,y)为对应点(xn,yn)在对角线方向的重叠区域边界点,fn为像素灰度值,Wn为权重值,dn为点(x,y)与点(xn,yn)之间的欧式距离。
CN201910867207.1A 2019-09-12 2019-09-12 一种基于图像语义分割的视频拼接方法 Active CN110660023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910867207.1A CN110660023B (zh) 2019-09-12 2019-09-12 一种基于图像语义分割的视频拼接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910867207.1A CN110660023B (zh) 2019-09-12 2019-09-12 一种基于图像语义分割的视频拼接方法

Publications (2)

Publication Number Publication Date
CN110660023A true CN110660023A (zh) 2020-01-07
CN110660023B CN110660023B (zh) 2020-09-29

Family

ID=69037208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910867207.1A Active CN110660023B (zh) 2019-09-12 2019-09-12 一种基于图像语义分割的视频拼接方法

Country Status (1)

Country Link
CN (1) CN110660023B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666863A (zh) * 2020-06-01 2020-09-15 广州市百果园信息技术有限公司 视频处理方法、装置、设备及存储介质
CN111861889A (zh) * 2020-07-31 2020-10-30 聚时科技(上海)有限公司 基于语义分割的太阳能电池片图像自动拼接方法及系统
CN112017115A (zh) * 2020-07-09 2020-12-01 卢凯旋 遥感影像拼接方法、装置、设备及存储介质
CN112148909A (zh) * 2020-09-18 2020-12-29 微梦创科网络科技(中国)有限公司 搜索相似图片的方法及系统
CN112585946A (zh) * 2020-03-27 2021-03-30 深圳市大疆创新科技有限公司 图像拍摄方法、装置、可移动平台和存储介质
CN112861714A (zh) * 2021-02-05 2021-05-28 中国科学院微小卫星创新研究院 一种基于深度学习和多子图匹配的遥感图像匹配方法
CN112950466A (zh) * 2021-01-26 2021-06-11 北京航空航天大学 一种基于语义对象匹配的图像拼接方法
CN113034613A (zh) * 2021-03-25 2021-06-25 中国银联股份有限公司 相机的外部参数标定方法及相关装置
CN113096135A (zh) * 2021-03-26 2021-07-09 信阳师范学院 一种多摄像机与gis协同的群体目标空间化方法
CN113793382A (zh) * 2021-08-04 2021-12-14 北京旷视科技有限公司 视频图像的拼缝搜索方法、视频图像的拼接方法和装置
CN114554158A (zh) * 2022-02-28 2022-05-27 重庆长安汽车股份有限公司 一种基于道路交通场景下的全景视频拼接方法及系统
CN114973028A (zh) * 2022-05-17 2022-08-30 中国电子科技集团公司第十研究所 一种航拍视频图像实时变化检测方法及系统
CN115063593A (zh) * 2022-08-17 2022-09-16 开源精密零部件(南通)有限公司 医用硅胶剪切强度测试方法
GB2609996A (en) * 2021-07-07 2023-02-22 Mo Sys Engineering Ltd Image stitching
CN116030396A (zh) * 2023-02-27 2023-04-28 温州众成科技有限公司 一种用于视频结构化提取的精确分割方法
CN116757936A (zh) * 2023-08-22 2023-09-15 佗道医疗科技有限公司 图像匹配关系获取方法及其图像拼接方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120021666A (ko) * 2010-08-12 2012-03-09 금오공과대학교 산학협력단 파노라마 영상 생성 방법
CN102930601A (zh) * 2012-10-10 2013-02-13 中国人民解放军信息工程大学 一种双模三维地形立体环境的构建方法
CN103236160A (zh) * 2013-04-07 2013-08-07 水木路拓科技(北京)有限公司 基于视频图像处理技术的路网交通状态监测系统
CN106780324A (zh) * 2016-11-28 2017-05-31 北京航天泰坦科技股份有限公司 一种正射影像镶嵌的接边纠正方法
CN107247647A (zh) * 2017-06-30 2017-10-13 郑州云海信息技术有限公司 一种存储系统中bbu工作状态检测方法及系统
CN107563964A (zh) * 2017-08-22 2018-01-09 长光卫星技术有限公司 大面阵亚米级夜景遥感影像的快速拼接方法
CN108492319A (zh) * 2018-03-09 2018-09-04 西安电子科技大学 基于深度全卷积神经网络的运动目标检测方法
US20180262764A1 (en) * 2017-03-10 2018-09-13 Raytheon Company Real time frame alignment in video data
CN109255334A (zh) * 2018-09-27 2019-01-22 中国电子科技集团公司第五十四研究所 基于深度学习语义分割网络的遥感影像地物分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120021666A (ko) * 2010-08-12 2012-03-09 금오공과대학교 산학협력단 파노라마 영상 생성 방법
CN102930601A (zh) * 2012-10-10 2013-02-13 中国人民解放军信息工程大学 一种双模三维地形立体环境的构建方法
CN103236160A (zh) * 2013-04-07 2013-08-07 水木路拓科技(北京)有限公司 基于视频图像处理技术的路网交通状态监测系统
CN106780324A (zh) * 2016-11-28 2017-05-31 北京航天泰坦科技股份有限公司 一种正射影像镶嵌的接边纠正方法
US20180262764A1 (en) * 2017-03-10 2018-09-13 Raytheon Company Real time frame alignment in video data
CN107247647A (zh) * 2017-06-30 2017-10-13 郑州云海信息技术有限公司 一种存储系统中bbu工作状态检测方法及系统
CN107563964A (zh) * 2017-08-22 2018-01-09 长光卫星技术有限公司 大面阵亚米级夜景遥感影像的快速拼接方法
CN108492319A (zh) * 2018-03-09 2018-09-04 西安电子科技大学 基于深度全卷积神经网络的运动目标检测方法
CN109255334A (zh) * 2018-09-27 2019-01-22 中国电子科技集团公司第五十四研究所 基于深度学习语义分割网络的遥感影像地物分类方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112585946A (zh) * 2020-03-27 2021-03-30 深圳市大疆创新科技有限公司 图像拍摄方法、装置、可移动平台和存储介质
CN111666863A (zh) * 2020-06-01 2020-09-15 广州市百果园信息技术有限公司 视频处理方法、装置、设备及存储介质
CN111666863B (zh) * 2020-06-01 2023-04-18 广州市百果园信息技术有限公司 视频处理方法、装置、设备及存储介质
CN112017115A (zh) * 2020-07-09 2020-12-01 卢凯旋 遥感影像拼接方法、装置、设备及存储介质
CN111861889B (zh) * 2020-07-31 2023-03-21 聚时科技(上海)有限公司 基于语义分割的太阳能电池片图像自动拼接方法及系统
CN111861889A (zh) * 2020-07-31 2020-10-30 聚时科技(上海)有限公司 基于语义分割的太阳能电池片图像自动拼接方法及系统
CN112148909A (zh) * 2020-09-18 2020-12-29 微梦创科网络科技(中国)有限公司 搜索相似图片的方法及系统
CN112148909B (zh) * 2020-09-18 2024-03-29 微梦创科网络科技(中国)有限公司 搜索相似图片的方法及系统
CN112950466A (zh) * 2021-01-26 2021-06-11 北京航空航天大学 一种基于语义对象匹配的图像拼接方法
CN112861714A (zh) * 2021-02-05 2021-05-28 中国科学院微小卫星创新研究院 一种基于深度学习和多子图匹配的遥感图像匹配方法
CN113034613B (zh) * 2021-03-25 2023-09-19 中国银联股份有限公司 相机的外部参数标定方法及相关装置
CN113034613A (zh) * 2021-03-25 2021-06-25 中国银联股份有限公司 相机的外部参数标定方法及相关装置
CN113096135A (zh) * 2021-03-26 2021-07-09 信阳师范学院 一种多摄像机与gis协同的群体目标空间化方法
GB2609996A (en) * 2021-07-07 2023-02-22 Mo Sys Engineering Ltd Image stitching
CN113793382A (zh) * 2021-08-04 2021-12-14 北京旷视科技有限公司 视频图像的拼缝搜索方法、视频图像的拼接方法和装置
CN114554158A (zh) * 2022-02-28 2022-05-27 重庆长安汽车股份有限公司 一种基于道路交通场景下的全景视频拼接方法及系统
CN114973028A (zh) * 2022-05-17 2022-08-30 中国电子科技集团公司第十研究所 一种航拍视频图像实时变化检测方法及系统
CN115063593A (zh) * 2022-08-17 2022-09-16 开源精密零部件(南通)有限公司 医用硅胶剪切强度测试方法
CN115063593B (zh) * 2022-08-17 2022-11-29 开源精密零部件(南通)有限公司 医用硅胶剪切强度测试方法
CN116030396A (zh) * 2023-02-27 2023-04-28 温州众成科技有限公司 一种用于视频结构化提取的精确分割方法
CN116757936A (zh) * 2023-08-22 2023-09-15 佗道医疗科技有限公司 图像匹配关系获取方法及其图像拼接方法
CN116757936B (zh) * 2023-08-22 2023-11-07 佗道医疗科技有限公司 图像匹配关系获取方法及其图像拼接方法

Also Published As

Publication number Publication date
CN110660023B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN110660023B (zh) 一种基于图像语义分割的视频拼接方法
Hu et al. Revisiting single image depth estimation: Toward higher resolution maps with accurate object boundaries
CN110211043B (zh) 一种用于全景图像拼接的基于网格优化的配准方法
CN104599258B (zh) 一种基于各向异性特征描述符的图像拼接方法
CN115439424B (zh) 一种无人机航拍视频图像智能检测方法
CN104732482B (zh) 一种基于控制点的多分辨率图像拼接方法
US8818101B1 (en) Apparatus and method for feature matching in distorted images
CN108734657B (zh) 一种具有视差处理能力的图像拼接方法
CN105608667A (zh) 一种全景拼接的方法及装置
CN103517041A (zh) 基于多相机旋转扫描的实时全景监控方法和装置
CN104392416A (zh) 一种运动场景的视频拼接方法
CN103955888A (zh) 一种基于sift的高清视频图像拼接方法及装置
CN103353941B (zh) 基于视角分类的自然标志物注册方法
CN105894443A (zh) 一种基于改进的surf算法的实时视频拼接方法
CN111383204A (zh) 视频图像融合方法、融合装置、全景监控系统及存储介质
CN103841298A (zh) 一种基于颜色恒量和几何不变特征的视频稳像方法
CN114973028B (zh) 一种航拍视频图像实时变化检测方法及系统
CN109801212A (zh) 一种基于sift特征的鱼眼图像拼接方法
WO2020259416A1 (zh) 图像采集控制方法、装置、电子设备及存储介质
CN110120012B (zh) 基于双目摄像头的同步关键帧提取的视频拼接方法
CN114241372A (zh) 一种应用于扇扫拼接的目标识别方法
CN116760937B (zh) 一种基于多机位的视频拼接方法、装置、设备及存储介质
CN112529006B (zh) 全景图片的检测方法、装置、终端及存储介质
CN113298867A (zh) 基于线匹配的地物目标位置精准定位方法、装置及存储介质
CN116977316A (zh) 一种复杂外形构件损伤缺陷全场检测与量化评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant