CN112446363A - 一种基于视频抽帧的图像拼接与去重方法及装置 - Google Patents
一种基于视频抽帧的图像拼接与去重方法及装置 Download PDFInfo
- Publication number
- CN112446363A CN112446363A CN202110122126.6A CN202110122126A CN112446363A CN 112446363 A CN112446363 A CN 112446363A CN 202110122126 A CN202110122126 A CN 202110122126A CN 112446363 A CN112446363 A CN 112446363A
- Authority
- CN
- China
- Prior art keywords
- frame image
- key frame
- image
- key
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000000605 extraction Methods 0.000 title claims abstract description 48
- 238000001514 detection method Methods 0.000 claims abstract description 82
- 230000009466 transformation Effects 0.000 claims abstract description 60
- 239000011159 matrix material Substances 0.000 claims abstract description 39
- 230000008030 elimination Effects 0.000 claims description 10
- 238000003379 elimination reaction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000001131 transforming effect Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2624—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects for obtaining an image which is composed of whole input images, e.g. splitscreen
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
- Studio Devices (AREA)
Abstract
本发明公开了一种基于视频抽帧的图像拼接与去重方法,包括:获取目标区域的视频数据,并对视频数据进行抽帧,获得一组视频数据的关键帧图像集合;将关键帧图像集合输入到预设的拼接库,获得关键帧集合对应的全景图像和关键帧集合中每张关键帧图像的单应性变换矩阵;将关键帧集合输入到预设的目标检测模型,获得关键帧图像集合中每张关键帧图像的目标检测结果;将关键帧图像集合中每张关键帧图像的目标检测结果进行坐标变换和去重,并将全景图像和全景图像的目标检测去重结果输出。本发明通过自动抽取关键帧能够避免拍摄多张场景照片的人力消耗,同时通过对关键帧的识别和识别结果自动去重,能够节省时间和人力成本,提高识别效率和识别精度。
Description
技术领域
本发明涉及计算机视觉及机器学习技术领域,特别是涉及一种基于视频抽帧的图像拼接与去重方法、装置及计算机可读存储介质。
背景技术
在实际生活中,全景图像拼接和目标检测去重对于大场景下的物体识别和场景理解起着至关重要的作用,它被广泛应用于机器人导航、智能交通监控、工业检测、航空航天等诸多领域,通过这项技术能够减少对人力成本的消耗,具有重要的现实意义。
目前,常用的场景目标检测主要有2种,第一种是通过拍摄多张场景照片进行识别,然后统计所有照片的识别结果,人工对照片中重复识别的目标进行去重,最后得到整个场景中的物体识别信息。这种方法由于需要拍摄许多张图像,然后需要人工对每张识别结果进行去重,因此该方法对人力成本的消耗太大,而且耗时长效率低。另一种常见的场景目标检测是通过拍摄许多张场景图像,然后对这些图像进行全景图像拼接,得到整个大的场景图,再对该场景图进行目标检测,从而得到场景中物体识别结果。这种方法虽然可以避免人工对识别结果进行去重处理,但由于拼接得到的整个场景图像往往具有很大的分辨率,目标检测模型在识别大分辨率图像中的物体时,需要消耗更多的硬件资源和处理时间,同时这种拼接识别对拍摄每张图像的要求较高,需要在拍摄时对每一张照片要校对前后两张的重叠区域和拍摄角度,从而增加了人力成本。此外对大分辨率图像进行缩小识别虽然能够降低硬件资源的消耗,但容易导致物体识别的精度下降,因此这种方法往往因为资源消耗,时间效率和识别精度三者之间无法取得最佳平衡从而其用途受限。
发明内容
本发明的目的是:提供一种基于视频抽帧的图像拼接与去重方法及装置,本发明通过自动抽取关键帧能够避免拍摄多张场景照片的人力消耗,同时通过对关键帧的识别和识别结果自动去重能够节省时间和人力成本,提高识别效率和保证识别的精度。
为了实现上述目的,本发明提供了一种基于视频抽帧的图像拼接与去重方法,包括:
获取目标区域的视频数据,并对所述视频数据进行抽帧,获得一组所述视频数据的关键帧图像集合;
将所述关键帧图像集合输入到预设的拼接库,获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵;
将所述关键帧图像集合输入到预设的目标检测模型,获得所述关键帧图像集合中每张关键帧图像的目标检测结果;
将所述关键帧图像集合中每张关键帧图像的目标检测结果进行坐标变换和去重,获得所述全景图像的目标检测去重结果,并将所述全景图像和所述全景图像的目标检测去重结果输出。
进一步地,所述获取目标区域地区的视频数据,并对所述视频数据进行抽帧,获得一组所述视频数据的关键帧图像集合,具体为:
获取目标区域拍摄的视频,并将所述视频根据帧率,分解成单帧图像,构成单帧图像集合;
通过预设的自动抽帧方法,对所述单帧图像集合进行抽帧处理,获得一组关键帧图像集合。
进一步地,将所述单帧图像集合中的第一帧图像标记为关键帧, 并通过预设的关键帧判定方法,判断得出第二帧图像是否为关键帧;
若是,则将所述第一帧加入关键帧集合,并将所述第二帧作为新的关键帧,重复所述预设的关键帧判定方法,依次判断出所述单帧图像集合中所有的关键帧;
若否,则舍弃第二帧图像,并继续将第一帧图像作为关键帧,并通过预设的关键帧判定方法,依次判断出所述单帧图像集合中所有的关键帧。
进一步地,所述预设的关键帧判定方法,具体为:
将所述单帧图像中的第一帧图像标记为关键帧图像,并将视频帧中的第一帧图像和第二帧图像作为待处理的图像,并对所述第一帧图像和第二帧图像进行特征提取,得到所述第一帧图像和第二帧图像对应的特征点;
根据所述第一帧图像和第二帧图像对应的特征点,进行特征匹配,并对匹配成功的特征点进行计算,获得所述第一帧图像和第二帧图像之间的单应性变换矩阵;
根据单应性变换矩阵,将所述第一帧图像和第二帧图像变换到同一坐标系中,并计算所述第一帧图像的面积s1、第二帧图像的面积s2以及所述第一帧图像和第二帧图像的重叠面积s3;
分别计算所述面积s3与所述面积s1的面积比率r1、所述面积s3与所述面积s2的面积比率r2;并将所述面积比率r1与所述面积比率r2中的最大值记为面积比率rm;
若面积比率rm大于预设阈值下限小于预设阈值上限,则将第二帧图像标记为关键帧图像;
若面积比率rm大于等于预设阈值上限,则将第一帧图像标记为关键帧图像;
若面积比率rm小于等于预设阈值下限,则提示视频拍摄过快,需重新拍摄。
进一步地,所以将所述关键帧图像集合输入到预设的拼接库,获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵,具体为:
将所述关键帧图像集合输入到预设的拼接库,所述拼接库对所述关键帧图像集合中每帧图像进行特征提取,并对相邻帧图像之间进行其特征点的匹配计算,利用匹配的点计算得相邻帧图像之间单应性变换矩阵;
根据所述应性变换矩阵,将所述关键帧集合中所有的关键帧图像变换到同一基准坐标系中;并将所述关键帧图像之间重叠区域的边缘进行拼接,得到拼接后的图像;
将所述拼接后的图像作为全景图像以及每张关键帧图像的单应性变换矩阵进行输出。
进一步地,所述预设的目标检测模型,具体构建方法为:
采集所要识别的目标数据集,并对数据进行标注;
根据实际需求,设定所要识别的场景目标类别数;
将所述目标数据集进行训练所述检测模型,直到所述目标检测模型符合预设的要求。
进一步地,所述将所述关键帧图像集合中每张关键帧图像的检测结果进行坐标变换和去重,获得所述全景图像的目标检测结果,具体为:
根据每张关键帧图像的单应性变换矩阵,对关键帧中的目标坐标框进行坐标变化,得到所有关键帧中的识别目标在全景图像中对应的全景坐标框;
将第一张关键帧图像与第二张关键帧图像在全景图像中的所有全景坐标框进行两两去重,得到去重结果后,依次再与后面的相邻帧图像进行去重,直到所有的关键帧的全景坐标框都执行了去重,并将去重后的结果作为第一全景图像的检测识别结果。
进一步地,所述去重方法,具体为:
判断两张图像中的任意两个全景坐标框的面积交并比是否大于0.5;
若是,则认为是所述任意两个全景坐标框检测是同一个目标,将面积小的全景坐标框删除,仅保留面积大的全景坐标框作为该目标的检测框;
若否,则认为所述任意两个全景坐标框检测的是不同目标,均不用删除。
本发明实施例还提供一种基于视频抽帧的图像拼接与去重装置,包括:抽帧模块、拼接模块、目标检测模块和坐标变换与去重模块,其中,
所述抽帧模块,用于获取目标地区的视频数据,并对所述视频数据进行抽帧,获一组所述视频数据的关键帧图像集合;
所述拼接模块,用于将所述关键帧图像集合输入到预设的拼接库,获得所述关键帧图像集合对应的第一全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵;
所述目标检测模块,用于将所述关键帧图像集合输入到预设的目标检测模型,获得所述关键帧图像集合中每张关键帧图像的检测识别结果;
所述坐标变换与去重模块,用于将所述关键帧图像集合中每张关键帧图像的目标检测结果进行坐标变换和去重,获得所述全景图像的目标检测去重结果,并将所述全景图像和所述全景图像的目标检测去重结果输出。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的种基于视频抽帧的图像拼接与去重方法。
本发明实施例一种基于视频抽帧的图像拼接与去重方法及装置与现有技术相比,其有益效果在于:
1. 使用视频自动抽帧拼接的方式,能够快速获取更大场景的全景图像,相比拍摄单张图片进行目标识别,本发明能适用在面积更大的场景中。通过拍摄一段视频得到全景图像相比严格的拍摄多张场景图像得到全景图像的过程,本发明的方法更加高效,且节省了人力成本。
2. 使用单帧图像识别与识别结果自动去重,能够有效的降低场景中物体的重复检测和漏识别,相比人工手动去重更加高效和准确。
附图说明
图1为本发明某一实施例提供的一种基于视频抽帧的图像拼接与去重方法的流程示意图;
图2为本发明某一实施例提供的一种基于视频抽帧的图像拼接与去重装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本发明第一实施例:
如图1所示,本发明实施例的一种基于视频抽帧的图像拼接与去重方法,至少包括如下步骤:
S1、获取目标区域的视频数据,并对所述视频数据进行抽帧,获得一组所述视频数据的关键帧图像集合;
需要说明的是,对所述视频数据进行抽帧,具体方法为:
S11、默认标记第一帧为关键帧,将视频帧中的第一帧和第二帧作为待处理的两幅图像;
S12、使用特征提取方法对待处理的两幅图像进行特征点提取,特征提取方法包括但不限于SIFT(Scale Invariant Feature Transform, 尺度不变特征变换)方法;
S13、对待处理的两幅图像提取到的两组特征点进行特征匹配,利用匹配成功的特征点对来计算得到这两帧之间单应性变换矩阵;
S14、利用上一步得到的这两帧之间的单应性变换矩阵对第二幅图像进行投影变换,将第二幅图像变换到第一幅图像的同一坐标系中,此时,第二幅图像经过仿射变换由矩形变为多边形形状,计算其多边形面积为s2,同时也计算第一幅图像的面积为s1;
S15、经过上一步后,两幅图像变换在同一坐标系中,则再计算这两幅图像的重叠区域面积s3,然后计算s3相比两幅帧的面积比率r1,r2,记r1和r2两者之间的较大的那一个为rm.
S16、若条件rm大于预设阈值下限小于预设阈值上限,则将第二幅图像标记为关键帧,同时将该帧与其相邻的后一帧作为待处理的两幅图像重复步骤S12-S16,直到所有视频帧都处理完则抽帧结束。若条件rm大于等于预设阈值上限,则舍弃第二幅图像,此时选择第一幅图像与第二幅图像的后一帧作为待处理的两幅图像重复步骤2)-6),直到所有视频帧都处理完则抽帧结束。若条件rm小于等于预设阈值下限,则提示视频拍摄时移动过快,相邻帧之间重叠区域小,无法执行后续的图像拼接步骤,需要重拍视频。
S2、将所述关键帧图像集合输入到预设的拼接库,获得所述关键帧图像集合对应的第一全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵;
需要说明的是,所述预设的拼接库,具体实施步骤为:
S21、将关键帧图像集合按顺序排列好之后,输入到预设的拼接库;
S22、提取每张图像的特征点,所述提取方法包括特征但不限于SIFT(Scale InvariantFeature Transform, 尺度不变特征变换)方法;
S23、相邻图像两两之间进行其特征点的匹配计算,利用匹配的点计算得到单应性变换矩阵;
S24、以排在最中间的图像的坐标系为基准,利用图像之间的单应变换矩阵,将其他图像投影变换到该基准坐标系中;
S25、在该基准坐标系中,图像之间重叠区域的边缘即拼接缝进行融合,最后得到所有输入图像的拼接结果;
S26、拼接库输出拼接结果图像,以及每张图像的单应变换矩阵。
S3、将所述关键帧图像集合输入到预设的目标检测模型,获得所述关键帧图像集合中每张关键帧图像的检测识别结果;
需要说明的是,所述预设的目标检测模型,具体构建方法为:
采集所要识别的目标数据集,并对数据进行标注;
选择如faster rcnn,mask rcnn,cascade rcnn等包括但不限于这些检测模型,本发明使用的检测网络为cascade rcnn, 骨干网络为resnext;
检测模型训练类别为N类即实际需要识别的场景目标类别数;
在该数据集上训练好检测模型,测试评估通过后将模型用于关键帧图像的目标检测。
S4、将所述关键帧图像集合中每张关键帧图像的检测识别结果进行坐标变换和去重,获得所述第一全景图像的检测识别结果;
需要说明的是,所述坐标变换,具体方式如下:
首先,将关键帧图像集合输入到应用版本的目标检测模型,得到每个帧图像的检测识别结果,这些结果为图像中的目标检测坐标框和类别,其形式如下所示:
People,[x1, y1, x2, y2]; Car, [x1, y1, x2, y2]. 其中(x1, y1), (x2, y2),分别是该目标坐标框的左上角和右下角坐标。
其中,所述坐标变换采用单应性变换矩阵,,所述单应性变换矩阵一般如下式所示:
该矩阵包含9个参数,将一张图像的p1(x1,y1)点经过单应变换矩阵投影到另一张图像的p2(x2,y2)位置,则可以通过这两图之间的单应变换矩阵进行计算,计算方式如下:
其次,将所有图像中的目标检测坐标根据图像大小由相对坐标转换为绝对坐标,目标类别不作改变。
最后,以所有关键帧的中间那一帧为基准坐标系,利用每张关键帧的单应变换矩阵对该帧的目标检测绝对坐标框进行坐标变换,将目标在帧中的绝对坐标变换为全景图像中的位置坐标。最后得到所有帧中的检测目标映射到全景图像中的对应位置坐标。
进一步地,所述去重操作具体为:
将坐标变换操作得到全景图像的目标坐标框进行两两去重,去重方式如下:
首次,将第一张关键帧与第二张关键帧在全景图像中的所有全景坐标框进行两两去重,如果两张图像中的任意两个全景坐标框的面积交并比大于0.5,则两个框被认为是检测同一个目标,将面积较小的那个全景坐标框删除,仅保留面积较大的那一个作为该目标的检测框。否则,如果其面积的交并比小于0.5,则两个框被认为是检测不同的目标,均不用删除。其中交并比的计算方式为:
上式中IoU(A,B)表示交并比,分子表示A和B的面积的交集,分母表示A和B的面积的并集。
其次,将上述步骤中的获取的去重结果,与后面相邻的一张关键帧在全景图像中的全景坐标框进行两两去重,得到去重结果依次再与后面的相邻帧进行去重,直到所有的关键帧的全景坐标框都执行了去重。最终得到所有关键帧的全景坐标框经过去重后的结果,并将该结果作为整个场景的全景图像的目标识别结果,并将所述目标检测去重结果和所述全景图像进行输出。
在本发明的某一个实施例中,所述获取目标区域的视频数据,并对所述视频数据进行抽帧,获得一组所述视频数据的关键帧图像集合,具体为:
获取目标区域拍摄的视频,并将所述视频根据帧率,分解成单帧图像,构成单帧图像集合;
通过预设的自动抽帧方法,对所述单帧图像集合进行抽帧处理,获得一组关键帧图像集合。
在本发明的某一个实施例中,所述预设的自动抽帧方法,具体为:
将所述单帧图像集合中的第一帧图像标记为关键帧, 并通过预设的关键帧判定方法,判断得出第二帧图像是否为关键帧;
若是,则将所述第一帧加入关键帧集合,并将所述第二帧作为新的关键帧,重复所述预设的关键帧判定方法,依次判断出所述单帧图像集合中所有的关键帧;
若否,则舍弃第二帧图像,并继续将第一帧图像作为关键帧,并通过预设的关键帧判定方法,依次判断出所述单帧图像集合中所有的关键帧。
在本发明的某一个实施例中,所述预设的关键帧判定方法,具体为:
将所述单帧图像中的第一帧图像标记为关键帧图像,并将视频帧中的第一帧图像和第二帧图像作为待处理的图像,并对所述第一帧图像和第二帧图像进行特征提取,得到所述第一帧图像和第二帧图像对应的特征点;
根据所述第一帧图像和第二帧图像对应的特征点,进行特征匹配,并对匹配成功的特征点进行计算,获得所述第一帧图像和第二帧图像之间的单应性变换矩阵;
根据单应性变换矩阵,将所述第一帧图像和第二帧图像变换到同一坐标系中,并计算所述第一帧图像的面积s1、第二帧图像的面积s2以及所述第一帧图像和第二帧图像的重叠面积s3;
分别计算所述面积s3与所述面积s1的面积比率r1、所述面积s3与所述面积s2的面积比率r2;并将所述面积比率r1与所述面积比率r2中的最大值记为面积比率rm;
若面积比率rm大于预设阈值下限小于预设阈值上限,则将第二帧图像标记为关键帧图像;
若面积比率rm大于等于预设阈值上限,则将第一帧图像标记为关键帧图像;
若面积比率rm小于等于预设阈值下限,则提示视频拍摄过快,需重新拍摄。
在本发明的某一个实施例中,所述所以将所述关键帧图像集合输入到预设的拼接库,获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵,具体为:
将所述关键帧图像集合输入到预设的拼接库,所述拼接库对所述关键帧图像集合中每帧图像进行特征提取,并对相邻帧图像之间进行其特征点的匹配计算,利用匹配的点计算得相邻帧图像之间单应性变换矩阵;
根据所述应性变换矩阵,将所述关键帧集合中所有的关键帧图像变换到同一基准坐标系中;并将所述关键帧图像之间重叠区域的边缘进行拼接,得到拼接后的图像;
将所述拼接后的图像作为全景图像以及每张关键帧图像的单应性变换矩阵进行输出。
在本发明的某一个实施例中,所述预设的目标检测模型,具体构建方法为:
采集所要识别的目标数据集,并对数据进行标注;
根据实际需求,设定所要识别的场景目标类别数;
将所述目标数据集进行训练所述检测模型,直到所述目标检测模型符合预设的要求。
在本发明的某一个实施例中,所述将所述关键帧图像集合中每张关键帧图像的检测结果进行坐标变换和去重,获得所述全景图像的目标检测结果,具体为:
根据每张关键帧图像的单应性变换矩阵,对关键帧中的目标坐标框进行坐标变化,得到所有关键帧中的识别目标在全景图像中对应的全景坐标框;
将第一张关键帧图像与第二张关键帧图像在全景图像中的所有全景坐标框进行两两去重,得到去重结果后,依次再与后面的相邻帧图像进行去重,直到所有的关键帧的全景坐标框都执行了去重,并将去重后的结果作为全景图像的目标检测结果。
在本发明的某一个实施例中,所述去重方法,具体为:
判断两张图像中的任意两个全景坐标框的面积交并比是否大于0.5;
若是,则认为是所述任意两个全景坐标框检测是同一个目标,将面积小的全景坐标框删除,仅保留面积大的全景坐标框作为该目标的检测框;
若否,则认为所述任意两个全景坐标框检测的是不同目标,均不用删除。
本发明实施例一种基于视频抽帧的图像拼接与去重方法与现有技术相比,其有益效果在于:
1. 使用视频自动抽帧拼接的方式,能够快速获取更大场景的全景图像,相比拍摄单张图片进行目标识别,本发明能适用在面积更大的场景中。通过拍摄一段视频得到全景图像相比严格的拍摄多张场景图像得到全景图像的过程,本发明的方法更加高效,且节省了人力成本。
2. 使用单帧图像识别与识别结果自动去重,能够有效的降低场景中物体的重复检测和漏识别,相比人工手动去重更加高效和准确。
本发明第二实施例:
如图2所示,本发明实施例提供的一种基于视频抽帧的图像拼接与去重装置200,包括:抽帧模块201、拼接模块202、目标检测模块203和坐标变换与去重模块204,其中,
所述抽帧模块201,用于获取目标区域的视频数据,并对所述视频数据进行抽帧,获得一组所述视频数据的关键帧图像集合;
所述拼接模块202,用于将所述关键帧图像集合输入到预设的拼接库,获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵;
所述目标检测模块203,用于将所述关键帧图像集合输入到预设的目标检测模型,获得所述关键帧图像集合中每张关键帧图像的目标检测结果;
所述坐标变换与去重模块204,用于将所述关键帧图像集合中每张关键帧图像的目标检测结果进行坐标变换和去重,获得所述全景图像的目标检测去重结果,并将所述全景图像和所述全景图像的目标检测去重结果输出。
本发明第三实施例:
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的基于视频抽帧的图像拼接与去重方法。
需要说明的是,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序、计算机程序),所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于视频抽帧的图像拼接与去重方法,其特征在于,包括:
获取目标区域的视频数据,并对所述视频数据进行抽帧,获得一组所述视频数据的关键帧图像集合;
将所述关键帧图像集合输入到预设的拼接库,获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵;
将所述关键帧图像集合输入到预设的目标检测模型,获得所述关键帧图像集合中每张关键帧图像的目标检测结果;
将所述关键帧图像集合中每张关键帧图像的目标检测结果进行坐标变换和去重,获得所述全景图像的目标检测去重结果,并将所述全景图像和所述全景图像的目标检测去重结果输出。
2.根据权利要求1所述的基于视频抽帧的图像拼接与去重方法,其特征在于,所述获取目标区域的视频数据,并对所述视频数据进行抽帧,获得一组所述视频数据的关键帧图像集合,具体为:
获取目标区域拍摄的视频,并将所述视频根据帧率,分解成单帧图像,构成单帧图像集合;
通过预设的自动抽帧方法,对所述单帧图像集合进行抽帧处理,获得一组关键帧图像集合。
3.根据权利要求2所述的基于视频抽帧的图像拼接与去重方法,其特征在于,所述预设的自动抽帧方法,具体为:
将所述单帧图像集合中的第一帧图像标记为关键帧, 并通过预设的关键帧判定方法,判断得出第二帧图像是否为关键帧;
若是,则将所述第一帧加入关键帧集合,并将所述第二帧作为新的关键帧,重复所述预设的关键帧判定方法,依次判断出所述单帧图像集合中所有的关键帧;
若否,则舍弃第二帧图像,并继续将第一帧图像作为关键帧,并通过预设的关键帧判定方法,依次判断出所述单帧图像集合中所有的关键帧。
4.根据权利要求3所述基于视频抽帧的图像拼接与去重方法,其特征在于,所述预设的关键帧判定方法,具体为:
将所述单帧图像中的第一帧图像标记为关键帧图像,并将视频帧中的第一帧图像和第二帧图像作为待处理的图像,并对所述第一帧图像和第二帧图像进行特征提取,得到所述第一帧图像和第二帧图像对应的特征点;
根据所述第一帧图像和第二帧图像对应的特征点,进行特征匹配,并对匹配成功的特征点进行计算,获得所述第一帧图像和第二帧图像之间的单应性变换矩阵;
根据单应性变换矩阵,将所述第一帧图像和第二帧图像变换到同一坐标系中,并计算所述第一帧图像的面积s1、第二帧图像的面积s2以及所述第一帧图像和第二帧图像的重叠面积s3;
分别计算所述面积s3与所述面积s1的面积比率r1、所述面积s3与所述面积s2的面积比率r2;并将所述面积比率r1与所述面积比率r2中的最大值记为面积比率rm;
若面积比率rm大于预设阈值下限小于预设阈值上限,则将第二帧图像标记为关键帧图像;
若面积比率rm大于等于预设阈值上限,则将第一帧图像标记为关键帧图像;
若面积比率rm小于等于预设阈值下限,则提示视频拍摄过快,需重新拍摄。
5.根据权利要求1所述的基于视频抽帧的图像拼接与去重方法,其特征在于,所述将所述关键帧图像集合输入到预设的拼接库,获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵,具体为:
将所述关键帧图像集合输入到预设的拼接库,所述拼接库对所述关键帧图像集合中每帧图像进行特征提取,并对相邻帧图像之间进行其特征点的匹配计算,利用匹配的点计算得相邻帧图像之间单应性变换矩阵;
根据所述应性变换矩阵,将所述关键帧图像集合中所有的关键帧图像变换到同一基准坐标系中;并将所述关键帧图像之间重叠区域的边缘进行拼接,得到拼接后的图像;
将所述拼接后的图像作为全景图像以及每张关键帧图像的单应性变换矩阵进行输出。
6.根据权利要求1所述的基于视频抽帧的图像拼接与去重方法,其特征在于,所述预设的目标检测模型,具体构建方法为:
采集所要识别的目标数据集,并对数据进行标注;
根据实际需求,设定所要识别的场景目标类别数;
将所述目标数据集进行训练所述检测模型,直到所述目标检测模型符合预设的要求。
7.根据权利要求1所述的基于视频抽帧的图像拼接与去重方法,其特征在于,所述将所述关键帧图像集合中每张关键帧图像的检测结果进行坐标变换和去重,获得所述全景图像的目标检测结果,具体为:
根据每张关键帧图像的单应性变换矩阵,对关键帧中的目标坐标框进行坐标变化,得到所有关键帧中的识别目标在全景图像中对应的全景坐标框;
将第一张关键帧图像与第二张关键帧图像在全景图像中的所有全景坐标框进行两两去重,得到去重结果后,依次再与后面的相邻帧图像进行去重,直到所有的关键帧的全景坐标框都执行了去重,并将去重后的结果作为全景图像的目标检测结果。
8.根据权利要求7所述的基于视频抽帧的图像拼接与去重方法,其特征在于,所述去重方法,具体为:
判断两张图像中的任意两个全景坐标框的面积交并比是否大于0.5;
若是,则认为是所述任意两个全景坐标框检测是同一个目标,将面积小的全景坐标框删除,仅保留面积大的全景坐标框作为该目标的检测框;
若否,则认为所述任意两个全景坐标框检测的是不同目标,均不用删除。
9.一种基于视频抽帧的图像拼接与去重装置,其特征在于,包括:抽帧模块、拼接模块、目标检测模块、坐标变换与去重模块,其中,
所述抽帧模块,用于获取目标区域的视频数据,并对所述视频数据进行抽帧,获得一组所述视频数据的关键帧图像集合;
所述拼接模块,用于将所述关键帧图像集合输入到预设的拼接库,获得所述关键帧图像集合对应的全景图像和所述关键帧图像集合中每张关键帧图像的单应性变换矩阵;
所述目标检测模块,用于将所述关键帧图像集合输入到预设的目标检测模型,获得所述关键帧图像集合中每张关键帧图像的目标检测结果;
所述坐标变换与去重模块,用于将所述关键帧图像集合中每张关键帧图像的目标检测结果进行坐标变换和去重,获得所述全景图像的目标检测去重结果,并将所述全景图像和所述全景图像的目标检测去重结果输出。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的基于视频抽帧的图像拼接与去重方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110122126.6A CN112446363A (zh) | 2021-01-29 | 2021-01-29 | 一种基于视频抽帧的图像拼接与去重方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110122126.6A CN112446363A (zh) | 2021-01-29 | 2021-01-29 | 一种基于视频抽帧的图像拼接与去重方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112446363A true CN112446363A (zh) | 2021-03-05 |
Family
ID=74739934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110122126.6A Pending CN112446363A (zh) | 2021-01-29 | 2021-01-29 | 一种基于视频抽帧的图像拼接与去重方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446363A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597911A (zh) * | 2020-04-22 | 2020-08-28 | 成都运达科技股份有限公司 | 一种基于图像特征快速提取关键帧的方法和系统 |
CN113132690A (zh) * | 2021-04-22 | 2021-07-16 | 北京房江湖科技有限公司 | 施工过程视频的生成方法、装置以及电子设备、存储介质 |
CN113255564A (zh) * | 2021-06-11 | 2021-08-13 | 上海交通大学 | 基于关键对象拼合的实时视频识别加速器架构 |
CN113487552A (zh) * | 2021-06-30 | 2021-10-08 | 北京达佳互联信息技术有限公司 | 视频检测方法和视频检测装置 |
CN113689458A (zh) * | 2021-10-27 | 2021-11-23 | 广州市玄武无线科技股份有限公司 | 一种2d拍摄轨迹路径计算方法及装置 |
CN113763136A (zh) * | 2021-11-09 | 2021-12-07 | 武汉星巡智能科技有限公司 | 基于商品区重量变化对视频分段处理的智能生成订单方法 |
CN114627036A (zh) * | 2022-03-14 | 2022-06-14 | 北京有竹居网络技术有限公司 | 多媒体资源的处理方法、装置、可读介质和电子设备 |
CN116248992A (zh) * | 2023-02-09 | 2023-06-09 | 广州市玄武无线科技股份有限公司 | 动态可配置的货架图像处理方法、装置、电子设备及存储介质 |
WO2023116669A1 (zh) * | 2021-12-22 | 2023-06-29 | 华为技术有限公司 | 视频生成系统、方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110267101A (zh) * | 2019-07-19 | 2019-09-20 | 西安因诺航空科技有限公司 | 一种基于快速三维拼图的无人机航拍视频自动抽帧方法 |
CN111369495A (zh) * | 2020-02-17 | 2020-07-03 | 珀乐(北京)信息科技有限公司 | 一种基于视频的全景图像的变化检测方法 |
CN111932542A (zh) * | 2020-10-14 | 2020-11-13 | 深圳市瑞图生物技术有限公司 | 一种基于多焦距的图像识别方法及装置、存储介质 |
-
2021
- 2021-01-29 CN CN202110122126.6A patent/CN112446363A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110267101A (zh) * | 2019-07-19 | 2019-09-20 | 西安因诺航空科技有限公司 | 一种基于快速三维拼图的无人机航拍视频自动抽帧方法 |
CN111369495A (zh) * | 2020-02-17 | 2020-07-03 | 珀乐(北京)信息科技有限公司 | 一种基于视频的全景图像的变化检测方法 |
CN111932542A (zh) * | 2020-10-14 | 2020-11-13 | 深圳市瑞图生物技术有限公司 | 一种基于多焦距的图像识别方法及装置、存储介质 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597911A (zh) * | 2020-04-22 | 2020-08-28 | 成都运达科技股份有限公司 | 一种基于图像特征快速提取关键帧的方法和系统 |
CN111597911B (zh) * | 2020-04-22 | 2023-08-29 | 成都运达科技股份有限公司 | 一种基于图像特征快速提取关键帧的方法和系统 |
CN113132690A (zh) * | 2021-04-22 | 2021-07-16 | 北京房江湖科技有限公司 | 施工过程视频的生成方法、装置以及电子设备、存储介质 |
CN113132690B (zh) * | 2021-04-22 | 2022-11-08 | 北京房江湖科技有限公司 | 施工过程视频的生成方法、装置以及电子设备、存储介质 |
CN113255564B (zh) * | 2021-06-11 | 2022-05-06 | 上海交通大学 | 基于关键对象拼合的实时视频识别加速器 |
CN113255564A (zh) * | 2021-06-11 | 2021-08-13 | 上海交通大学 | 基于关键对象拼合的实时视频识别加速器架构 |
CN113487552A (zh) * | 2021-06-30 | 2021-10-08 | 北京达佳互联信息技术有限公司 | 视频检测方法和视频检测装置 |
CN113487552B (zh) * | 2021-06-30 | 2023-11-07 | 北京达佳互联信息技术有限公司 | 视频检测方法和视频检测装置 |
CN113689458A (zh) * | 2021-10-27 | 2021-11-23 | 广州市玄武无线科技股份有限公司 | 一种2d拍摄轨迹路径计算方法及装置 |
CN113689458B (zh) * | 2021-10-27 | 2022-03-29 | 广州市玄武无线科技股份有限公司 | 一种2d拍摄轨迹路径计算方法及装置 |
CN113763136B (zh) * | 2021-11-09 | 2022-03-18 | 武汉星巡智能科技有限公司 | 基于商品区重量变化对视频分段处理的智能生成订单方法 |
CN113763136A (zh) * | 2021-11-09 | 2021-12-07 | 武汉星巡智能科技有限公司 | 基于商品区重量变化对视频分段处理的智能生成订单方法 |
WO2023116669A1 (zh) * | 2021-12-22 | 2023-06-29 | 华为技术有限公司 | 视频生成系统、方法及相关装置 |
CN114627036A (zh) * | 2022-03-14 | 2022-06-14 | 北京有竹居网络技术有限公司 | 多媒体资源的处理方法、装置、可读介质和电子设备 |
CN114627036B (zh) * | 2022-03-14 | 2023-10-27 | 北京有竹居网络技术有限公司 | 多媒体资源的处理方法、装置、可读介质和电子设备 |
CN116248992A (zh) * | 2023-02-09 | 2023-06-09 | 广州市玄武无线科技股份有限公司 | 动态可配置的货架图像处理方法、装置、电子设备及存储介质 |
CN116248992B (zh) * | 2023-02-09 | 2024-01-16 | 广州市玄武无线科技股份有限公司 | 动态可配置的货架图像处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446363A (zh) | 一种基于视频抽帧的图像拼接与去重方法及装置 | |
CN111340797B (zh) | 一种激光雷达与双目相机数据融合检测方法及系统 | |
US10936911B2 (en) | Logo detection | |
CN110705405B (zh) | 目标标注的方法及装置 | |
CN109658454B (zh) | 一种位姿信息确定方法、相关装置及存储介质 | |
CN110008956B (zh) | 发票关键信息定位方法、装置、计算机设备及存储介质 | |
CN109886928B (zh) | 一种目标细胞标记方法、装置、存储介质及终端设备 | |
CN108564579B (zh) | 一种基于时空相关的混凝土裂缝检测方法及检测装置 | |
US11145080B2 (en) | Method and apparatus for three-dimensional object pose estimation, device and storage medium | |
CN111862296A (zh) | 三维重建方法及装置、系统、模型训练方法、存储介质 | |
CN113111844B (zh) | 一种作业姿态评估方法、装置、本地终端及可读存储介质 | |
JP6997369B2 (ja) | プログラム、測距方法、及び測距装置 | |
CN114863464B (zh) | 一种pid图纸图件信息的二阶识别方法 | |
CN111767915A (zh) | 车牌检测方法、装置、设备及存储介质 | |
CN114187333A (zh) | 一种图像对齐方法、图像对齐装置及终端设备 | |
CN113256683B (zh) | 目标跟踪方法及相关设备 | |
CN111178445A (zh) | 图像处理方法及装置 | |
CN110991357A (zh) | 一种答案匹配方法、装置和电子设备 | |
CN113486715A (zh) | 图像翻拍识别方法、智能终端以及计算机存储介质 | |
CN112183148A (zh) | 一种批量条码定位方法及识别系统 | |
CN117218633A (zh) | 一种物品检测方法、装置、设备及存储介质 | |
CN113743434A (zh) | 一种目标检测网络的训练方法、图像增广方法及装置 | |
EP2993623B1 (en) | Apparatus and method for multi-object detection in a digital image | |
CN111160374A (zh) | 一种基于机器学习的颜色识别方法及系统、装置 | |
CN109816709B (zh) | 基于单目摄像头的深度估计方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210305 |
|
RJ01 | Rejection of invention patent application after publication |