CN112446363A

CN112446363A - 一种基于视频抽帧的图像拼接与去重方法及装置

Info

Publication number: CN112446363A
Application number: CN202110122126.6A
Authority: CN
Inventors: 丁明; 李海荣; 陈永辉
Original assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Current assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-03-05

Abstract

本发明公开了一种基于视频抽帧的图像拼接与去重方法，包括：获取目标区域的视频数据，并对视频数据进行抽帧，获得一组视频数据的关键帧图像集合；将关键帧图像集合输入到预设的拼接库，获得关键帧集合对应的全景图像和关键帧集合中每张关键帧图像的单应性变换矩阵；将关键帧集合输入到预设的目标检测模型，获得关键帧图像集合中每张关键帧图像的目标检测结果；将关键帧图像集合中每张关键帧图像的目标检测结果进行坐标变换和去重，并将全景图像和全景图像的目标检测去重结果输出。本发明通过自动抽取关键帧能够避免拍摄多张场景照片的人力消耗，同时通过对关键帧的识别和识别结果自动去重，能够节省时间和人力成本，提高识别效率和识别精度。

Description

一种基于视频抽帧的图像拼接与去重方法及装置

技术领域

本发明涉及计算机视觉及机器学习技术领域，特别是涉及一种基于视频抽帧的图像拼接与去重方法、装置及计算机可读存储介质。

背景技术

在实际生活中，全景图像拼接和目标检测去重对于大场景下的物体识别和场景理解起着至关重要的作用，它被广泛应用于机器人导航、智能交通监控、工业检测、航空航天等诸多领域，通过这项技术能够减少对人力成本的消耗，具有重要的现实意义。

目前，常用的场景目标检测主要有2种，第一种是通过拍摄多张场景照片进行识别，然后统计所有照片的识别结果，人工对照片中重复识别的目标进行去重，最后得到整个场景中的物体识别信息。这种方法由于需要拍摄许多张图像，然后需要人工对每张识别结果进行去重，因此该方法对人力成本的消耗太大，而且耗时长效率低。另一种常见的场景目标检测是通过拍摄许多张场景图像，然后对这些图像进行全景图像拼接，得到整个大的场景图，再对该场景图进行目标检测，从而得到场景中物体识别结果。这种方法虽然可以避免人工对识别结果进行去重处理，但由于拼接得到的整个场景图像往往具有很大的分辨率，目标检测模型在识别大分辨率图像中的物体时，需要消耗更多的硬件资源和处理时间，同时这种拼接识别对拍摄每张图像的要求较高，需要在拍摄时对每一张照片要校对前后两张的重叠区域和拍摄角度，从而增加了人力成本。此外对大分辨率图像进行缩小识别虽然能够降低硬件资源的消耗，但容易导致物体识别的精度下降，因此这种方法往往因为资源消耗，时间效率和识别精度三者之间无法取得最佳平衡从而其用途受限。

发明内容

本发明的目的是：提供一种基于视频抽帧的图像拼接与去重方法及装置，本发明通过自动抽取关键帧能够避免拍摄多张场景照片的人力消耗，同时通过对关键帧的识别和识别结果自动去重能够节省时间和人力成本，提高识别效率和保证识别的精度。

为了实现上述目的，本发明提供了一种基于视频抽帧的图像拼接与去重方法，包括：

获取目标区域的视频数据，并对所述视频数据进行抽帧，获得一组所述视频数据的关键帧图像集合；

将所述关键帧图像集合输入到预设的拼接库，获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵；

将所述关键帧图像集合输入到预设的目标检测模型，获得所述关键帧图像集合中每张关键帧图像的目标检测结果；

将所述关键帧图像集合中每张关键帧图像的目标检测结果进行坐标变换和去重，获得所述全景图像的目标检测去重结果，并将所述全景图像和所述全景图像的目标检测去重结果输出。

进一步地，所述获取目标区域地区的视频数据，并对所述视频数据进行抽帧，获得一组所述视频数据的关键帧图像集合，具体为：

获取目标区域拍摄的视频，并将所述视频根据帧率，分解成单帧图像，构成单帧图像集合；

通过预设的自动抽帧方法，对所述单帧图像集合进行抽帧处理，获得一组关键帧图像集合。

进一步地，将所述单帧图像集合中的第一帧图像标记为关键帧，并通过预设的关键帧判定方法，判断得出第二帧图像是否为关键帧；

若是，则将所述第一帧加入关键帧集合，并将所述第二帧作为新的关键帧，重复所述预设的关键帧判定方法，依次判断出所述单帧图像集合中所有的关键帧；

若否，则舍弃第二帧图像，并继续将第一帧图像作为关键帧，并通过预设的关键帧判定方法，依次判断出所述单帧图像集合中所有的关键帧。

进一步地，所述预设的关键帧判定方法，具体为：

将所述单帧图像中的第一帧图像标记为关键帧图像，并将视频帧中的第一帧图像和第二帧图像作为待处理的图像，并对所述第一帧图像和第二帧图像进行特征提取，得到所述第一帧图像和第二帧图像对应的特征点；

根据所述第一帧图像和第二帧图像对应的特征点，进行特征匹配，并对匹配成功的特征点进行计算，获得所述第一帧图像和第二帧图像之间的单应性变换矩阵；

根据单应性变换矩阵，将所述第一帧图像和第二帧图像变换到同一坐标系中，并计算所述第一帧图像的面积s1、第二帧图像的面积s2以及所述第一帧图像和第二帧图像的重叠面积s3;

分别计算所述面积s3与所述面积s1的面积比率r1、所述面积s3与所述面积s2的面积比率r2;并将所述面积比率r1与所述面积比率r2中的最大值记为面积比率rm;

若面积比率rm大于预设阈值下限小于预设阈值上限，则将第二帧图像标记为关键帧图像；

若面积比率rm大于等于预设阈值上限，则将第一帧图像标记为关键帧图像；

若面积比率rm小于等于预设阈值下限，则提示视频拍摄过快，需重新拍摄。

进一步地，所以将所述关键帧图像集合输入到预设的拼接库，获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵，具体为：

将所述关键帧图像集合输入到预设的拼接库，所述拼接库对所述关键帧图像集合中每帧图像进行特征提取，并对相邻帧图像之间进行其特征点的匹配计算，利用匹配的点计算得相邻帧图像之间单应性变换矩阵；

根据所述应性变换矩阵，将所述关键帧集合中所有的关键帧图像变换到同一基准坐标系中；并将所述关键帧图像之间重叠区域的边缘进行拼接，得到拼接后的图像；

将所述拼接后的图像作为全景图像以及每张关键帧图像的单应性变换矩阵进行输出。

进一步地，所述预设的目标检测模型，具体构建方法为：

采集所要识别的目标数据集，并对数据进行标注；

根据实际需求，设定所要识别的场景目标类别数；

将所述目标数据集进行训练所述检测模型，直到所述目标检测模型符合预设的要求。

进一步地，所述将所述关键帧图像集合中每张关键帧图像的检测结果进行坐标变换和去重，获得所述全景图像的目标检测结果，具体为：

根据每张关键帧图像的单应性变换矩阵，对关键帧中的目标坐标框进行坐标变化，得到所有关键帧中的识别目标在全景图像中对应的全景坐标框；

将第一张关键帧图像与第二张关键帧图像在全景图像中的所有全景坐标框进行两两去重，得到去重结果后，依次再与后面的相邻帧图像进行去重，直到所有的关键帧的全景坐标框都执行了去重，并将去重后的结果作为第一全景图像的检测识别结果。

进一步地，所述去重方法，具体为：

判断两张图像中的任意两个全景坐标框的面积交并比是否大于0.5；

若是，则认为是所述任意两个全景坐标框检测是同一个目标，将面积小的全景坐标框删除，仅保留面积大的全景坐标框作为该目标的检测框；

若否，则认为所述任意两个全景坐标框检测的是不同目标，均不用删除。

本发明实施例还提供一种基于视频抽帧的图像拼接与去重装置，包括：抽帧模块、拼接模块、目标检测模块和坐标变换与去重模块，其中，

所述抽帧模块，用于获取目标地区的视频数据，并对所述视频数据进行抽帧，获一组所述视频数据的关键帧图像集合；

所述拼接模块，用于将所述关键帧图像集合输入到预设的拼接库，获得所述关键帧图像集合对应的第一全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵；

所述目标检测模块，用于将所述关键帧图像集合输入到预设的目标检测模型，获得所述关键帧图像集合中每张关键帧图像的检测识别结果；

所述坐标变换与去重模块，用于将所述关键帧图像集合中每张关键帧图像的目标检测结果进行坐标变换和去重，获得所述全景图像的目标检测去重结果，并将所述全景图像和所述全景图像的目标检测去重结果输出。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的种基于视频抽帧的图像拼接与去重方法。

本发明实施例一种基于视频抽帧的图像拼接与去重方法及装置与现有技术相比，其有益效果在于：

1. 使用视频自动抽帧拼接的方式，能够快速获取更大场景的全景图像，相比拍摄单张图片进行目标识别，本发明能适用在面积更大的场景中。通过拍摄一段视频得到全景图像相比严格的拍摄多张场景图像得到全景图像的过程，本发明的方法更加高效，且节省了人力成本。

2. 使用单帧图像识别与识别结果自动去重，能够有效的降低场景中物体的重复检测和漏识别，相比人工手动去重更加高效和准确。

附图说明

图1为本发明某一实施例提供的一种基于视频抽帧的图像拼接与去重方法的流程示意图；

图2为本发明某一实施例提供的一种基于视频抽帧的图像拼接与去重装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本发明第一实施例：

如图1所示，本发明实施例的一种基于视频抽帧的图像拼接与去重方法，至少包括如下步骤：

S1、获取目标区域的视频数据，并对所述视频数据进行抽帧，获得一组所述视频数据的关键帧图像集合；

需要说明的是，对所述视频数据进行抽帧，具体方法为：

S11、默认标记第一帧为关键帧，将视频帧中的第一帧和第二帧作为待处理的两幅图像；

S12、使用特征提取方法对待处理的两幅图像进行特征点提取，特征提取方法包括但不限于SIFT（Scale Invariant Feature Transform, 尺度不变特征变换）方法；

S13、对待处理的两幅图像提取到的两组特征点进行特征匹配，利用匹配成功的特征点对来计算得到这两帧之间单应性变换矩阵；

S14、利用上一步得到的这两帧之间的单应性变换矩阵对第二幅图像进行投影变换，将第二幅图像变换到第一幅图像的同一坐标系中，此时，第二幅图像经过仿射变换由矩形变为多边形形状，计算其多边形面积为s2，同时也计算第一幅图像的面积为s1；

S15、经过上一步后，两幅图像变换在同一坐标系中，则再计算这两幅图像的重叠区域面积s3，然后计算s3相比两幅帧的面积比率r1，r2，记r1和r2两者之间的较大的那一个为rm.

S16、若条件rm大于预设阈值下限小于预设阈值上限，则将第二幅图像标记为关键帧，同时将该帧与其相邻的后一帧作为待处理的两幅图像重复步骤S12－S16，直到所有视频帧都处理完则抽帧结束。若条件rm大于等于预设阈值上限，则舍弃第二幅图像，此时选择第一幅图像与第二幅图像的后一帧作为待处理的两幅图像重复步骤2)－6)，直到所有视频帧都处理完则抽帧结束。若条件rm小于等于预设阈值下限，则提示视频拍摄时移动过快，相邻帧之间重叠区域小，无法执行后续的图像拼接步骤，需要重拍视频。

S2、将所述关键帧图像集合输入到预设的拼接库，获得所述关键帧图像集合对应的第一全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵；

需要说明的是，所述预设的拼接库，具体实施步骤为：

S21、将关键帧图像集合按顺序排列好之后，输入到预设的拼接库；

S22、提取每张图像的特征点，所述提取方法包括特征但不限于SIFT（Scale InvariantFeature Transform, 尺度不变特征变换）方法；

S23、相邻图像两两之间进行其特征点的匹配计算，利用匹配的点计算得到单应性变换矩阵；

S24、以排在最中间的图像的坐标系为基准，利用图像之间的单应变换矩阵，将其他图像投影变换到该基准坐标系中；

S25、在该基准坐标系中，图像之间重叠区域的边缘即拼接缝进行融合，最后得到所有输入图像的拼接结果；

S26、拼接库输出拼接结果图像，以及每张图像的单应变换矩阵。

S3、将所述关键帧图像集合输入到预设的目标检测模型，获得所述关键帧图像集合中每张关键帧图像的检测识别结果；

需要说明的是，所述预设的目标检测模型，具体构建方法为：

采集所要识别的目标数据集，并对数据进行标注；

选择如faster rcnn，mask rcnn，cascade rcnn等包括但不限于这些检测模型，本发明使用的检测网络为cascade rcnn, 骨干网络为resnext；

检测模型训练类别为N类即实际需要识别的场景目标类别数；

在该数据集上训练好检测模型，测试评估通过后将模型用于关键帧图像的目标检测。

S4、将所述关键帧图像集合中每张关键帧图像的检测识别结果进行坐标变换和去重，获得所述第一全景图像的检测识别结果；

需要说明的是，所述坐标变换，具体方式如下：

首先，将关键帧图像集合输入到应用版本的目标检测模型，得到每个帧图像的检测识别结果，这些结果为图像中的目标检测坐标框和类别，其形式如下所示：

People，[x1, y1, x2, y2]; Car, [x1, y1, x2, y2]. 其中（x1, y1）, （x2, y2），分别是该目标坐标框的左上角和右下角坐标。

其中，所述坐标变换采用单应性变换矩阵，，所述单应性变换矩阵一般如下式所示：

该矩阵包含9个参数，将一张图像的p1(x1,y1)点经过单应变换矩阵投影到另一张图像的p2(x2,y2)位置，则可以通过这两图之间的单应变换矩阵进行计算，计算方式如下：

其次，将所有图像中的目标检测坐标根据图像大小由相对坐标转换为绝对坐标，目标类别不作改变。

最后，以所有关键帧的中间那一帧为基准坐标系，利用每张关键帧的单应变换矩阵对该帧的目标检测绝对坐标框进行坐标变换，将目标在帧中的绝对坐标变换为全景图像中的位置坐标。最后得到所有帧中的检测目标映射到全景图像中的对应位置坐标。

进一步地，所述去重操作具体为：

将坐标变换操作得到全景图像的目标坐标框进行两两去重，去重方式如下：

首次，将第一张关键帧与第二张关键帧在全景图像中的所有全景坐标框进行两两去重，如果两张图像中的任意两个全景坐标框的面积交并比大于0.5，则两个框被认为是检测同一个目标，将面积较小的那个全景坐标框删除，仅保留面积较大的那一个作为该目标的检测框。否则，如果其面积的交并比小于0.5，则两个框被认为是检测不同的目标，均不用删除。其中交并比的计算方式为：

上式中IoU(A,B)表示交并比，分子表示A和B的面积的交集，分母表示A和B的面积的并集。

其次，将上述步骤中的获取的去重结果，与后面相邻的一张关键帧在全景图像中的全景坐标框进行两两去重，得到去重结果依次再与后面的相邻帧进行去重，直到所有的关键帧的全景坐标框都执行了去重。最终得到所有关键帧的全景坐标框经过去重后的结果，并将该结果作为整个场景的全景图像的目标识别结果，并将所述目标检测去重结果和所述全景图像进行输出。

在本发明的某一个实施例中，所述获取目标区域的视频数据，并对所述视频数据进行抽帧，获得一组所述视频数据的关键帧图像集合，具体为：

在本发明的某一个实施例中，所述预设的自动抽帧方法，具体为：

将所述单帧图像集合中的第一帧图像标记为关键帧，并通过预设的关键帧判定方法，判断得出第二帧图像是否为关键帧；

在本发明的某一个实施例中，所述预设的关键帧判定方法，具体为：

在本发明的某一个实施例中，所述所以将所述关键帧图像集合输入到预设的拼接库，获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵，具体为：

在本发明的某一个实施例中，所述预设的目标检测模型，具体构建方法为：

采集所要识别的目标数据集，并对数据进行标注；

根据实际需求，设定所要识别的场景目标类别数；

在本发明的某一个实施例中，所述将所述关键帧图像集合中每张关键帧图像的检测结果进行坐标变换和去重，获得所述全景图像的目标检测结果，具体为：

将第一张关键帧图像与第二张关键帧图像在全景图像中的所有全景坐标框进行两两去重，得到去重结果后，依次再与后面的相邻帧图像进行去重，直到所有的关键帧的全景坐标框都执行了去重，并将去重后的结果作为全景图像的目标检测结果。

在本发明的某一个实施例中，所述去重方法，具体为：

本发明实施例一种基于视频抽帧的图像拼接与去重方法与现有技术相比，其有益效果在于：

本发明第二实施例：

如图2所示，本发明实施例提供的一种基于视频抽帧的图像拼接与去重装置200，包括：抽帧模块201、拼接模块202、目标检测模块203和坐标变换与去重模块204，其中，

所述抽帧模块201，用于获取目标区域的视频数据，并对所述视频数据进行抽帧，获得一组所述视频数据的关键帧图像集合；

所述拼接模块202，用于将所述关键帧图像集合输入到预设的拼接库，获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵；

所述目标检测模块203，用于将所述关键帧图像集合输入到预设的目标检测模型，获得所述关键帧图像集合中每张关键帧图像的目标检测结果；

所述坐标变换与去重模块204，用于将所述关键帧图像集合中每张关键帧图像的目标检测结果进行坐标变换和去重，获得所述全景图像的目标检测去重结果，并将所述全景图像和所述全景图像的目标检测去重结果输出。

本发明第三实施例：

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述任一项所述的基于视频抽帧的图像拼接与去重方法。

需要说明的是，所述计算机程序可以被分割成一个或多个模块/单元（如计算机程序、计算机程序），所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频抽帧的图像拼接与去重方法，其特征在于，包括：

2.根据权利要求1所述的基于视频抽帧的图像拼接与去重方法，其特征在于，所述获取目标区域的视频数据，并对所述视频数据进行抽帧，获得一组所述视频数据的关键帧图像集合，具体为：

3.根据权利要求2所述的基于视频抽帧的图像拼接与去重方法，其特征在于，所述预设的自动抽帧方法，具体为：

4.根据权利要求3所述基于视频抽帧的图像拼接与去重方法，其特征在于，所述预设的关键帧判定方法，具体为：

5.根据权利要求1所述的基于视频抽帧的图像拼接与去重方法，其特征在于，所述将所述关键帧图像集合输入到预设的拼接库，获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵，具体为：

根据所述应性变换矩阵，将所述关键帧图像集合中所有的关键帧图像变换到同一基准坐标系中；并将所述关键帧图像之间重叠区域的边缘进行拼接，得到拼接后的图像；

6.根据权利要求1所述的基于视频抽帧的图像拼接与去重方法，其特征在于，所述预设的目标检测模型，具体构建方法为：

采集所要识别的目标数据集，并对数据进行标注；

根据实际需求，设定所要识别的场景目标类别数；

7.根据权利要求1所述的基于视频抽帧的图像拼接与去重方法，其特征在于，所述将所述关键帧图像集合中每张关键帧图像的检测结果进行坐标变换和去重，获得所述全景图像的目标检测结果，具体为：

8.根据权利要求7所述的基于视频抽帧的图像拼接与去重方法，其特征在于，所述去重方法，具体为：

9.一种基于视频抽帧的图像拼接与去重装置，其特征在于，包括：抽帧模块、拼接模块、目标检测模块、坐标变换与去重模块，其中，

所述抽帧模块，用于获取目标区域的视频数据，并对所述视频数据进行抽帧，获得一组所述视频数据的关键帧图像集合；

所述拼接模块，用于将所述关键帧图像集合输入到预设的拼接库，获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵；

所述目标检测模块，用于将所述关键帧图像集合输入到预设的目标检测模型，获得所述关键帧图像集合中每张关键帧图像的目标检测结果；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的基于视频抽帧的图像拼接与去重方法。