CN114372994B - 视频浓缩中背景图像的生成方法 - Google Patents
视频浓缩中背景图像的生成方法 Download PDFInfo
- Publication number
- CN114372994B CN114372994B CN202210023026.2A CN202210023026A CN114372994B CN 114372994 B CN114372994 B CN 114372994B CN 202210023026 A CN202210023026 A CN 202210023026A CN 114372994 B CN114372994 B CN 114372994B
- Authority
- CN
- China
- Prior art keywords
- target
- frame
- image
- image frame
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种视频浓缩中背景图像的生成方法,包括以下步骤:对于同一个图像帧,分别利用目标检测模型,目标跟踪模型和背景建模技术,检测得到目标框集合,并进行目标框集合的合并;背景候选图的生成;背景图生成。具有以下优点:(1)该方法结合深度学习和非深度学习的方法,对图像帧中前景目标的检测更加准确,提高图像帧中前景目标检出率,漏检明显减少;(2)可以适应不同场景不同目标的检出需要。(3)该方法可以有效解决背景建模漏检短暂静止的前景目标的弊端。(4)该方法生成背景候选图的效率高。(5)有效利用了多帧信息,前景目标的漏检残留现象被进一步消除,生成的背景图像质量明显提升。
Description
技术领域
本发明属于计算机视觉、路况监控技术领域,具体涉及一种视频浓缩中背景图像的生成方法。
背景技术
视频浓缩Video Synopsis,是对视频内容的一个简单概括,以自动或半自动的方式,通过对视频中的运动目标进行算法分析,提取运动目标,然后对各个目标的运动轨迹进行分析,将不同的目标拼接到一个共同的背景场景中,并将其以某种方式进行组合,生成新的浓缩后视频的一种技术。
因此,在视频浓缩时,生成背景图像是关键基础步骤。现有的背景图像生成方法是:采用背景建模技术判断视频中是否存在静止图像帧,如果存在,则将静止图像帧序列中的第一个静止图像帧,作为背景图像;否则,对背景建模得到的候选背景图像进行一定的处理,从而得到背景图像。
以上方法过于依赖背景建模技术,而背景建模只能获取到每个图像帧中的运动物体作为前景目标,而且精度不高,因此存在问题如下:1.该方法遗漏前景目标的概率较高,导致生成的背景图像中残留前景目标的可能性较大;2.该方法只能针对运动物体作为前景目标进行前景目标检测,不能针对特定类型的非运动目标,可能遗漏短暂静止的前景目标,导致生成的背景图像中残留前景目标;3.如果存在多张静止图像帧,该方法只采用第一张作为背景图像,没有利用多张静止图像帧的信息,生成的背景图像中残留前景目标的可能性较高。
发明内容
针对现有技术存在的缺陷,本发明提供一种视频浓缩中背景图像的生成方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种视频浓缩中背景图像的生成方法,包括以下步骤:
步骤1,视频包括p张图像帧,按序依次表示为:图像帧S1,图像帧S2,...,图像帧Sp;
步骤2,对于每张图像帧Su,u=1,2,...,p,均执行步骤2.1-步骤2.5,得到图像帧Su的目标框集合HSu={目标框hSu(1),目标框hSu(2),...,目标框hSu(z(u))};其中,z(u)代表图像帧Su包括的目标框的数量;
步骤2.1,利用目标检测模型,对图像帧Su进行特定目标检测,得到目标框集合H1;
其中,如果图像帧Su中未检测到特定目标,则目标框集合H1为空;如果在图像帧Su中检测到存在n1个特定目标,每个特定目标对应一个目标框,由此检测到n1个目标框,因此,目标框集合H1中包括n1个目标框;
步骤2.2,利用目标跟踪模型,对图像帧Su进行特定目标跟踪,得到目标框集合H2;
其中,如果图像帧Su中未跟踪到特定目标,则目标框集合H2为空;如果在图像帧Su中跟踪到存在n2个特定目标,每个特定目标对应一个目标框,由此跟踪到n2个目标框,因此,目标框集合H2中包括n2个目标框;
步骤2.3,利用背景建模技术,对图像帧Su进行运动物体目标检测,得到目标框集合H3;
其中,如果图像帧Su中未检测到存在运动物体目标,则目标框集合H3为空;如果在图像帧Su中检测到存在n3个运动物体目标,每个运动物体目标对应一个目标框,由此检测到n3个目标框,因此,目标框集合H3中包括n3个目标框;
其中,对于目标框集合H1、目标框集合H2和目标框集合H3中的每个目标框,均具有以下属性:(x0,y0,w0,h0),(x0,y0)代表目标框的中心点在图像帧Su中的坐标;w0和h0分别代表目标框的宽度和高度;
步骤2.4,对目标框集合H1和目标框集合H2进行合并操作,得到合并目标框集合H12:
步骤2.4.1,合并目标框集合H12初始为空;
步骤2.4.2,将目标框集合H1中的所有目标框,以及目标框集合H2中的所有目标框,均加入到合并目标框集合H12中,由此得到合并目标框集合H12;
步骤2.4.3,对步骤2.4.2得到的合并目标框集合H12进行去冗余操作,得到最终的合并目标框集合H12:
去冗余操作为:
对于目标框集合H2中的每个目标框,表示为:目标框h2,计算其与目标框集合H1中的各个目标框的重叠度IOU,如果存在重叠度IOU>ε的情况,则将目标框h2作为冗余目标框,从步骤2.4.2得到的合并目标框集合H12中,删除该目标框h2;否则,保留该目标框h2;
步骤2.5,对合并目标框集合H12和目标框集合H3进行合并操作,得到最终的目标框集合HSu:
步骤2.5.1,目标框集合HSu初始为空;
步骤2.5.2,将合并目标框集合H12中的所有目标框,以及目标框集合H3中的所有目标框,均加入到目标框集合HSu,由此得到目标框集合HSu;
步骤2.5.3,对步骤2.5.2得到的目标框集合HSu进行去冗余操作,得到最终的目标框集合HSu:
去冗余操作为:
对于合并目标框集合H12中的每个目标框,表示为目标框h12,判断其是否被目标框集合H3中的某个目标框完全包含,如果是,则从目标框集合HSu中删除该目标框h12;否则,保留该目标框h12;
对于目标框集合H3中的每个目标框h3,判断其是否被合并目标框集合H12中的某个目标框完全包含,如果是,则从目标框集合HSu中删除该目标框h3;否则,保留该目标框h3;
步骤3,背景候选图的生成:
对于图像帧S1,得到的目标框集合HS1包括z(1)个目标框;
对于图像帧S2,得到的目标框集合HS2包括z(2)个目标框;
依此类推
对于图像帧Sp,得到的目标框集合HSp包括z(p)个目标框;
在z(1),z(2),...,z(p)中,选择最小值,表示为:z(min),一共包括z(min)个目标框的图像帧依次为:图像帧S1min,图像帧S2min,...,图像帧SN1min,其中,N1为具有z(min)个目标框的图像帧的数量;
如果z(min)=0,表明图像帧S1min,图像帧S2min,...,图像帧SN1min中均不具有目标框,将图像帧S1min,图像帧S2min,...,图像帧SN1min作为背景候选图,然后执行步骤4;
如果z(min)≠0,在z(1),z(2),...,z(p)中,选择次小值,表示为:z(mid),一共包括z(mid)个目标框的图像帧依次为:图像帧S1mid,图像帧S2mid,...,图像帧SN2mid,其中,N2为具有z(mid)个目标框的图像帧的数量;
将N1+N2个图像帧,即图像帧S1min,图像帧S2min,...,图像帧SN1min,图像帧S1mid,图像帧S2mid,...,图像帧SN2mid作为背景候选图,然后执行步骤5;
步骤4,如果N1<3,将图像帧S1min作为背景图,结束流程;
如果N1≥3,则从图像帧S1min,图像帧S2min,...,图像帧SN1min中,挑选与其他各图像帧的相似度的和最大的图像帧,作为背景图,结束流程;
步骤5,以图像帧S1min为基础,图像帧S1min包括z(min)个目标框,分别表示为:目标框h(1),目标框h(2),...,目标框h(z(min));
对于每个目标框h(a),a=1,2,...,z(min),其属性为:(xa,ya,wa,ha),(xa,ya)代表目标框h(a)的中心点在图像帧S1min中的坐标;wa和ha分别代表目标框的宽度和高度,均执行以下步骤:
按序依次遍历图像帧S2min,...,图像帧SN1min,图像帧S1mid,图像帧S2mid,...,图像帧SN2mid,当首次遍历到某个图像帧Sb,b=2min,...,N1min,1mid,2mid,...,N2mid,满足以下条件:
在图像帧Sb中,以(xa,ya)为中心点,wa和ha为宽度和高度,绘制目标框h(b),所绘制的目标框h(b),与图像帧Sb中原来存在的目标框不存在任何重叠;
则停止遍历,从图像帧Sb中剪切出来绘制的目标框h(b)的区域,作为子图,替换图像帧S1min中目标框h(a)的区域;
当对图像帧S1min的z(min)个目标框均执行完成替换操作时,由此得到的图像帧,作为背景图,结束流程。
优选的,步骤4中,N1≥3时,从图像帧S1min,图像帧S2min,...,图像帧SN1min中,挑选与其他各图像帧的相似度的和最大的图像帧,作为背景图,具体为:
步骤4.1,对于图像帧S1min,分别计算其与其他N1-1个图像帧的相似度,再对得到的N1-1个相似度求和,得到图像帧S1min的相似度量值F1min;
对于图像帧S2min,分别计算其与其他N1-1个图像帧的相似度,再对得到的N1-1个相似度求和,得到图像帧S2min的相似度量值F2min;
依此类推
对于图像帧SN1min,分别计算其与其他N1-1个图像帧的相似度,再对得到的N1-1个相似度求和,得到图像帧SN1min的相似度量值FN1min;
步骤4.2,在相似度量值F1min,F2min,...,FN1min中,选择最大值,表示为:F(max);相似度量值F(max)对应的图像帧,作为背景图。
优选的,图像帧S1min,图像帧S2min,...,图像帧SN1min中,任意两个图像帧表示为:
图像帧Si和图像帧Sj,采用以下方法,计算相似度:
图像帧Si和图像帧Sj的尺寸相同,均划分为c1*c2个结构块block;其中,c1为结构块的行数,c2为结构块的列数;
采用下式,计算图像帧Si和图像帧Sj的相似度block_ssim(i,j):
其中:
floor()函数表示向下取整;
本发明提供的视频浓缩中背景图像的生成方法具有以下优点:
(1)该方法结合深度学习(目标检测、目标跟踪)和非深度学习(背景建模)的方法,对图像帧中前景目标的检测更加准确,提高图像帧中前景目标检出率,漏检明显减少,从而保证生成准确的背景图像;
(2)该方法可以针对特定目标(比如行人、机动车、非机动车等)加强其检出的能力,可以适应不同场景不同目标的检出需要。
(3)该方法可以有效解决背景建模漏检短暂静止的前景目标的弊端。
(4)该方法生成背景候选图的效率高,遍历一次每帧的目标框数量,即可选出背景候选图,计算量小,耗时短。
(5)该方法提出块结构相似度计算方法,在多帧目标框数量为0的情况下,有效利用了多帧信息,计算出与所有帧图像相似度最高的一帧图像,生成背景图像,前景目标的漏检残留现象被进一步消除,生成的背景图像质量明显提升。
附图说明
图1为本发明提供的视频浓缩中背景图像的生成方法的流程示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种视频浓缩中背景图像的生成方法,结合目标检测、目标跟踪、背景建模、图像的结构相似度等计算方法,实现浓缩视频中背景图像生成,本发明可有效减小生成的背景图像中残留前景目标的可能性,从而提高生成的背景图像的准确度和精度。
参考图1,本发明提供一种视频浓缩中背景图像的生成方法,包括以下步骤:
步骤1,视频包括p张图像帧,按序依次表示为:图像帧S1,图像帧S2,...,图像帧Sp;
步骤2,对于每张图像帧Su,u=1,2,...,p,均执行步骤2.1-步骤2.5,得到图像帧Su的目标框集合HSu={目标框hSu(1),目标框hSu(2),...,目标框hSu(z(u))};其中,z(u)代表图像帧Su包括的目标框的数量;
步骤2.1,利用目标检测模型,对图像帧Su进行特定目标检测,得到目标框集合H1;
其中,如果图像帧Su中未检测到特定目标,则目标框集合H1为空;如果在图像帧Su中检测到存在n1个特定目标,每个特定目标对应一个目标框,由此检测到n1个目标框,因此,目标框集合H1中包括n1个目标框;
作为一种具体实现方式,可以采用yolov5目标检测模型,对图像帧Su进行特定目标检测,比如特定目标为行人、非机动车、机动车等,每一个检测到的目标生成一个目标框,由此得到目标框集合H1。例如,以行人为特定目标,检测到某个图像帧Su共包括10个行人,则生成10个行人目标框,形成目标框集合H1。
步骤2.2,利用目标跟踪模型,对图像帧Su进行特定目标跟踪,得到目标框集合H2;
其中,如果图像帧Su中未跟踪到特定目标,则目标框集合H2为空;如果在图像帧Su中跟踪到存在n2个特定目标,每个特定目标对应一个目标框,由此跟踪到n2个目标框,因此,目标框集合H2中包括n2个目标框;
作为一种具体实现方式,可以采用deepsort-resnet18目标跟踪模型,对图像帧Su进行特定目标跟踪。例如,特定目标为行人,在某个图像帧Su中共追踪到10个行人,则生成10个行人目标框,形成目标框集合H2。
步骤2.3,利用背景建模技术,对图像帧Su进行运动物体目标检测,得到目标框集合H3;
其中,如果图像帧Su中未检测到存在运动物体目标,则目标框集合H3为空;如果在图像帧Su中检测到存在n3个运动物体目标,每个运动物体目标对应一个目标框,由此检测到n3个目标框,因此,目标框集合H3中包括n3个目标框;
具体的,利用背景建模技术,对图像帧Su进行运动物体目标检测,例如,检测到图像帧Su中存在两个运动物体,分别为树叶和车辆,则生成2个目标框,形成目标框集合H3。
其中,对于目标框集合H1、目标框集合H2和目标框集合H3中的每个目标框,均具有以下属性:(x0,y0,w0,h0),(x0,y0)代表目标框的中心点在图像帧Su中的坐标;w0和h0分别代表目标框的宽度和高度。另外,本发明中,各个图像帧的尺寸均相等。
在一条运动轨迹形成的图像帧序列中,通过目标检测模型,检测到部分图像帧具有目标框,部分图像帧由于目标检测模型的检测效率和物体遮挡产生漏检,导致不具有目标框。此时出现遗漏前景目标的现象。
因此,本发明中,通过目标跟踪模型对图像帧进行检测,将跟踪到的目标框与目标检测模型在同一个图像帧中检测到的目标框进行合并,实现目标跟踪模型对目标检测模型的补充作用。具体合并方法见步骤2.4。
由于背景建模技术只对各个图像帧Su中的运动物体进行检测,可能遗漏短暂静止的前景目标,进而误判。而目标检测模型和目标跟踪模型虽然具有较高的检测性能,但依然具有遗漏前景目标的可能性。所以,将背景建模技术检测到的目标框,与目标检测模型和目标跟踪模型检测到的目标框进一步进行合并,实现背景建模技术对目标检测模型和目标跟踪模型的补充,进一步减少漏检前景目标的可能性,具体合并方法见步骤2.5。
因此,将目标检测模型、目标跟踪模型和背景建模技术检测到的目标框进行合并,相互补充,三类目标框基本涵盖了视频中每帧的前景目标,使漏检的概率控制在较低的范围。
具体见步骤2.4和步骤2.5。
步骤2.4,对目标框集合H1和目标框集合H2进行合并操作,得到合并目标框集合H12:
步骤2.4.1,合并目标框集合H12初始为空;
步骤2.4.2,将目标框集合H1中的所有目标框,以及目标框集合H2中的所有目标框,均加入到合并目标框集合H12中,由此得到合并目标框集合H12;
步骤2.4.3,对步骤2.4.2得到的合并目标框集合H12进行去冗余操作,得到最终的合并目标框集合H12:
去冗余操作为:
对于目标框集合H2中的每个目标框,表示为:目标框h2,计算其与目标框集合H1中的各个目标框的重叠度IOU,如果存在重叠度IOU>ε的情况,例如,ε为0.8,则将目标框h2作为冗余目标框,从步骤2.4.2得到的合并目标框集合H12中,删除该目标框h2;否则,保留该目标框h2;
本步骤合并目标检测模型得到的目标框集合H1和目标跟踪模型得到的目标框集合H2,目标框集合H2可以补充目标框集合H1漏检的情况。目标框集合H1的目标框准确率较高,可以校准目标框集合H2跟踪不准的情况。但两者合并会产生重叠度较高的冗余目标框。去除冗余目标框的机制:如果H1中的某个目标框和H2中的某个目标框的重叠度IOU>0.8,则将H2中的这个目标框作为冗余目标框,进行删除。
因此,本发明中,由于目标检测模型得到的目标框准确率较高,可以校准目标跟踪模型跟踪不准的情况,因此优先保留目标检测模型得到的目标框,对目标跟踪模型检测到的冗余目标框进行删除。
步骤2.5,对合并目标框集合H12和目标框集合H3进行合并操作,得到最终的目标框集合HSu:
步骤2.5.1,目标框集合HSu初始为空;
步骤2.5.2,将合并目标框集合H12中的所有目标框,以及目标框集合H3中的所有目标框,均加入到目标框集合HSu,由此得到目标框集合HSu;
步骤2.5.3,对步骤2.5.2得到的目标框集合HSu进行去冗余操作,得到最终的目标框集合HSu:
去冗余操作为:
对于合并目标框集合H12中的每个目标框,表示为目标框h12,判断其是否被目标框集合H3中的某个目标框完全包含,如果是,则从目标框集合HSu中删除该目标框h12;否则,保留该目标框h12;
对于目标框集合H3中的每个目标框h3,判断其是否被合并目标框集合H12中的某个目标框完全包含,如果是,则从目标框集合HSu中删除该目标框h3;否则,保留该目标框h3;
具体的,合并目标框集合H3和目标框集合H12,目标框集合H3可以补充目标检测模型和目标跟踪模型得到的合并后的目标框的信息,但两者合并同样会产生重叠度较高的冗余目标框。
此时去除冗余目标框的机制:如果目标框集合H12中的目标框完全包含目标框集合H3中的某个目标框,那么删除目标框集合H3中的这个目标框;反之如果目标框集合H3中目标框完全包含了目标框集合H12中的某个目标框,那么删除目标框集合H12中的这个目标框。
步骤3,背景候选图的生成:
对于图像帧S1,得到的目标框集合HS1包括z(1)个目标框;
对于图像帧S2,得到的目标框集合HS2包括z(2)个目标框;
依此类推
对于图像帧Sp,得到的目标框集合HSp包括z(p)个目标框;
在z(1),z(2),...,z(p)中,选择最小值,表示为:z(min),一共包括z(min)个目标框的图像帧依次为:图像帧S1min,图像帧S2min,...,图像帧SN1min,其中,N1为具有z(min)个目标框的图像帧的数量;
例如,图像帧序列共包括100个图像帧,分别为:图像帧S1,图像帧S2,…,图像帧S100,在这100个图像帧中,一共有5个图像帧,分别为:S2,S10,S15,S51,S60,均具有0个目标框。其他图像帧具有1个以上的目标框。则z(min)=0,N1=5。
再例如,图像帧序列共包括100个图像帧,分别为:图像帧S1,图像帧S2,…,图像帧S100,在这100个图像帧中,一共有10个图像帧,均具有1个目标框,而其他90个图像帧均具有2个以上目标框。则z(min)=1,N1=10。
如果z(min)=0,表明图像帧S1min,图像帧S2min,...,图像帧SN1min中均不具有目标框,代表这些图像帧均为背景,因此,直接将图像帧S1min,图像帧S2min,...,图像帧SN1min作为背景候选图,然后执行步骤4;
如果z(min)≠0,在z(1),z(2),...,z(p)中,选择次小值,表示为:z(mid),一共包括z(mid)个目标框的图像帧依次为:图像帧S1mid,图像帧S2mid,...,图像帧SN2mid,其中,N2为具有z(mid)个目标框的图像帧的数量;
将N1+N2个图像帧,即图像帧S1min,图像帧S2min,...,图像帧SN1min,图像帧S1mid,图像帧S2mid,...,图像帧SN2mid作为背景候选图,然后执行步骤5;
也就是说,当z(min)≠0,代表所有的图像帧均不属于完全背景图像,为提高检测精度和算法的有效性,选取目标框数为z(min)和z(mid)的所有图像帧,作为背景候选图。
步骤4,如果N1<3,将图像帧S1min作为背景图,结束流程;
如果N1≥3,则从图像帧S1min,图像帧S2min,...,图像帧SN1min中,挑选与其他各图像帧的相似度的和最大的图像帧,作为背景图,结束流程;
本步骤具体为:
步骤4.1,对于图像帧S1min,分别计算其与其他N1-1个图像帧的相似度,再对得到的N1-1个相似度求和,得到图像帧S1min的相似度量值F1min;
例如,假设N1=4,则分别计算S1min和S2min的相似度f1,S1min和S3min的相似度f2,S1min和S4min的相似度f3,再对f1、f2和f3求和,得到相似度量值F1min。
对于图像帧S2min,分别计算其与其他N1-1个图像帧的相似度,再对得到的N1-1个相似度求和,得到图像帧S2min的相似度量值F2min;
依此类推
对于图像帧SN1min,分别计算其与其他N1-1个图像帧的相似度,再对得到的N1-1个相似度求和,得到图像帧SN1min的相似度量值FN1min;
其中,图像帧S1min,图像帧S2min,...,图像帧SN1min中,任意两个图像帧表示为:图像帧Si和图像帧Sj,采用以下方法,计算相似度:
图像帧Si和图像帧Sj的尺寸相同,均划分为c1*c2个结构块block;其中,c1为结构块的行数,c2为结构块的列数;
采用下式,计算图像帧Si和图像帧Sj的相似度block_ssim(i,j):
其中:
floor()函数表示向下取整;
步骤4.2,在相似度量值F1min,F2min,...,FN1min中,选择最大值,表示为:F(max);相似度量值F(max)对应的图像帧,作为背景图。
下面列举一个实施例:
具有N1张图像帧,图像帧S1min,图像帧S2min,...,图像帧SN1min,从N1张图像帧中,采用以下方法,挑选一张图像帧作为背景图:
N1张图像帧的尺寸resize均为(500,500),每个结构块block的边长blocksize=10,因此,每个图像帧划分为50*50个结构块block;
采用公式计算图像帧Si和图像帧Sj的相似度block_ssim(i,j):
求使f(x)最大的x取值:m=argmax(f(x))
根据计算结果,第m张背景候选图作为背景图。
步骤5,以图像帧S1min为基础,图像帧S1min包括z(min)个目标框,分别表示为:目标框h(1),目标框h(2),...,目标框h(z(min));
对于每个目标框h(a),a=1,2,...,z(min),其属性为:(xa,ya,wa,ha),(xa,ya)代表目标框h(a)的中心点在图像帧S1min中的坐标;wa和ha分别代表目标框的宽度和高度,均执行以下步骤:
按序依次遍历图像帧S2min,...,图像帧SN1min,图像帧S1mid,图像帧S2mid,...,图像帧SN2mid,当首次遍历到某个图像帧Sb,b=2min,...,N1min,1mid,2mid,...,N2mid,满足以下条件:
在图像帧Sb中,以(xa,ya)为中心点,wa和ha为宽度和高度,绘制目标框h(b),所绘制的目标框h(b),与图像帧Sb中原来存在的目标框不存在任何重叠;
则停止遍历,从图像帧Sb中剪切出来绘制的目标框h(b)的区域,作为子图,替换图像帧S1min中目标框h(a)的区域;
当对图像帧S1min的z(min)个目标框均执行完成替换操作时,由此得到的图像帧,作为背景图,结束流程。
下面列举一个实施例:
本发明浓缩视频中背景图像生成的方法,包含4个步骤:目标框生成、目标框合并、背景候选图生成、背景图生成。如图1所示。
步骤一:目标框生成:
对于每个图像帧,本发明选择三种方法生成目标框。
(1)利用目标检测模型yolov5对每个图像帧的特定目标进行检测,比如特定目标为行人、非机动车、机动车,检测这三类目标,得到该图像帧的检测目标框集合H1;
(2)利用目标跟踪模型deepsort-resnet18对该图像帧的特定目标进行跟踪,得到该图像帧的跟踪目标框集合H2;
(3)利用背景建模,对该图像帧中的运动物体进行检测,得到该图像帧的目标mask,经过连通域分析确定其外接矩形作为背景建模目标框集合H3。
步骤二:目标框集合合并
对于同一个图像帧,通过将目标检测模型、目标跟踪模型和背景建模得到的各个目标框进行合并,使三类目标框相互补充,三类目标框基本涵盖了视频中每帧的前景目标,使漏检的概率控制在较低的范围。
合并方法:
首先合并H1和H2,H2的信息可以补充H1漏检的情况,H1中的目标框准确率较高可以校准H2跟踪不准的情况,但两者合并会产生重叠度较高的冗余目标框。去除冗余目标框的机制:
如果H1和H2中的某个目标框IOU>0.8,那么删除H2中的这个目标框为冗余目标框。由于H1中的目标框准确率较高可以校准H2跟踪不准的情况,因此优先保留H1,对H2中的冗余目标框进行删除之后,H1和H2进行合并。合并过程如下:
上述IOU(A,B)函数表示计算A和B的交并比,delete(H2,k)函数表示删除H2中的第k个元素。Hm就是H1和H2合并的结果。
再次合并Hm和S3,S3可以补充S1和S2的合并结果S3的信息,但两者合并同样会产生重叠度较高的冗余目标框。去除冗余目标框的机制:如果Hm中目标框完全包含了S3中的某个目标框,那么删除S3中的这个目标框;反之如果S3中目标框完全包含了Hm中的某个目标框,那么删除Hm中的这个目标框。合并过程如下:
上述IOSA(A,B)函数表示(A∩B)/A,IOSB(A,B)函数表示(A∩B)/B.Hm就是H1、H2和H3的合并结果。
步骤三:背景候选图生成
每个图像帧均形成一个目标框集合,目标框集合具有一定数量的目标框。对各个图像帧的目标框数量进行遍历,目标框数量最小值为M1及对应的帧数量为N1,目标框数量次小值为M2及对应的帧数量为N2。
如果M1=0,选目标框数为M1的全部帧(N1个)作为背景候选图。
否则,选目标框数为M1和M2的全部帧(N1+N2个)作为背景候选图。
步骤四:背景图生成
(1)针对M1=0的情况,如果背景候选图数量N1<3,则第一张背景候选图作为背景图。如果背景候选图数量N1>=3,N1张背景候选图全部参与计算。采用块结构相似度计算出与其他图像相似度最高的一帧图像作为背景图像。
(2)针对M1>0的情况,选中第一张背景候选图及其对应的目标框集合Sm,遍历其他背景候选图的背景区域,替换第一张背景候选图的目标框区域,具体过程如下:
执行完成,生成一张背景图像。
本发明具有以下创新:
1.本发明方法流程:多类目标框生成、目标框合并、候选背景图像生成、背景图像生成。
2.本发明方法中多类目标框的合并机制,有效利用各类方法生成目标框,提升了目标检出率,并且合理的消除了目标框重合的冗余信息。
3.本发明方法中生成背景候选图机制,遍历一次每帧的目标框数量,即可选出背景候选图,效率高、计算量小、耗时短。
4.本发明方法中提出块结构相似度计算方法,有效利用了多帧的图像信息,前景目标的漏检残留现象被进一步消除,生成的背景图像质量明显提升。
与现有技术相比,本发明有益效果是:
(1)该方法结合深度学习(目标检测、目标跟踪)和非深度学习(背景建模)的方法,对图像帧中前景目标的检测更加准确,提高图像帧中前景目标检出率,漏检明显减少,从而保证生成准确的背景图像;
(2)该方法可以针对特定目标(比如行人、机动车、非机动车等)加强其检出的能力,可以适应不同场景不同目标的检出需要。
(3)该方法可以有效解决背景建模漏检短暂静止的前景目标的弊端。
(4)该方法生成背景候选图的效率高,遍历一次每帧的目标框数量,即可选出背景候选图,计算量小,耗时短。
(5)该方法提出块结构相似度计算方法,在多帧目标框数量为0的情况下,有效利用了多帧信息,计算出与所有帧图像相似度最高的一帧图像,生成背景图像,前景目标的漏检残留现象被进一步消除,生成的背景图像质量明显提升。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (3)
1.一种视频浓缩中背景图像的生成方法,其特征在于,包括以下步骤:
步骤1,视频包括p张图像帧,按序依次表示为:图像帧S1,图像帧S2,...,图像帧Sp;
步骤2,对于每张图像帧Su,u=1,2,...,p,均执行步骤2.1-步骤2.5,得到图像帧Su的目标框集合HSu={目标框hSu(1),目标框hSu(2),...,目标框hSu(z(u))};其中,z(u)代表图像帧Su包括的目标框的数量;
步骤2.1,利用目标检测模型,对图像帧Su进行特定目标检测,得到目标框集合H1;
其中,如果图像帧Su中未检测到特定目标,则目标框集合H1为空;如果在图像帧Su中检测到存在n1个特定目标,每个特定目标对应一个目标框,由此检测到n1个目标框,因此,目标框集合H1中包括n1个目标框;
步骤2.2,利用目标跟踪模型,对图像帧Su进行特定目标跟踪,得到目标框集合H2;
其中,如果图像帧Su中未跟踪到特定目标,则目标框集合H2为空;如果在图像帧Su中跟踪到存在n2个特定目标,每个特定目标对应一个目标框,由此跟踪到n2个目标框,因此,目标框集合H2中包括n2个目标框;
步骤2.3,利用背景建模技术,对图像帧Su进行运动物体目标检测,得到目标框集合H3;
其中,如果图像帧Su中未检测到存在运动物体目标,则目标框集合H3为空;如果在图像帧Su中检测到存在n3个运动物体目标,每个运动物体目标对应一个目标框,由此检测到n3个目标框,因此,目标框集合H3中包括n3个目标框;
其中,对于目标框集合H1、目标框集合H2和目标框集合H3中的每个目标框,均具有以下属性:(x0,y0,w0,h0),(x0,y0)代表目标框的中心点在图像帧Su中的坐标;w0和h0分别代表目标框的宽度和高度;
步骤2.4,对目标框集合H1和目标框集合H2进行合并操作,得到合并目标框集合H12:
步骤2.4.1,合并目标框集合H12初始为空;
步骤2.4.2,将目标框集合H1中的所有目标框,以及目标框集合H2中的所有目标框,均加入到合并目标框集合H12中,由此得到合并目标框集合H12;
步骤2.4.3,对步骤2.4.2得到的合并目标框集合H12进行去冗余操作,得到最终的合并目标框集合H12:
去冗余操作为:
对于目标框集合H2中的每个目标框,表示为:目标框h2,计算其与目标框集合H1中的各个目标框的重叠度IOU,如果存在重叠度IOU>ε的情况,则将目标框h2作为冗余目标框,从步骤2.4.2得到的合并目标框集合H12中,删除该目标框h2;否则,保留该目标框h2;
步骤2.5,对合并目标框集合H12和目标框集合H3进行合并操作,得到最终的目标框集合HSu:
步骤2.5.1,目标框集合HSu初始为空;
步骤2.5.2,将合并目标框集合H12中的所有目标框,以及目标框集合H3中的所有目标框,均加入到目标框集合HSu,由此得到目标框集合HSu;
步骤2.5.3,对步骤2.5.2得到的目标框集合HSu进行去冗余操作,得到最终的目标框集合HSu:
去冗余操作为:
对于合并目标框集合H12中的每个目标框,表示为目标框h12,判断其是否被目标框集合H3中的某个目标框完全包含,如果是,则从目标框集合HSu中删除该目标框h12;否则,保留该目标框h12;
对于目标框集合H3中的每个目标框h3,判断其是否被合并目标框集合H12中的某个目标框完全包含,如果是,则从目标框集合HSu中删除该目标框h3;否则,保留该目标框h3;
步骤3,背景候选图的生成:
对于图像帧S1,得到的目标框集合HS1包括z(1)个目标框;
对于图像帧S2,得到的目标框集合HS2包括z(2)个目标框;
依此类推
对于图像帧Sp,得到的目标框集合HSp包括z(p)个目标框;
在z(1),z(2),...,z(p)中,选择最小值,表示为:z(min),一共包括z(min)个目标框的图像帧依次为:图像帧S1min,图像帧S2min,...,图像帧SN1min,其中,N1为具有z(min)个目标框的图像帧的数量;
如果z(min)=0,表明图像帧S1min,图像帧S2min,...,图像帧SN1min中均不具有目标框,将图像帧S1min,图像帧S2min,...,图像帧SN1min作为背景候选图,然后执行步骤4;
如果z(min)≠0,在z(1),z(2),...,z(p)中,选择次小值,表示为:z(mid),一共包括z(mid)个目标框的图像帧依次为:图像帧S1mid,图像帧S2mid,...,图像帧SN2mid,其中,N2为具有z(mid)个目标框的图像帧的数量;
将N1+N2个图像帧,即图像帧S1min,图像帧S2min,...,图像帧SN1min,图像帧S1mid,图像帧S2mid,...,图像帧SN2mid作为背景候选图,然后执行步骤5;
步骤4,如果N1<3,将图像帧S1min作为背景图,结束流程;
如果N1≥3,则从图像帧S1min,图像帧S2min,...,图像帧SN1min中,挑选与其他各图像帧的相似度的和最大的图像帧,作为背景图,结束流程;
步骤5,以图像帧S1min为基础,图像帧S1min包括z(min)个目标框,分别表示为:目标框h(1),目标框h(2),...,目标框h(z(min));
对于每个目标框h(a),a=1,2,...,z(min),其属性为:(xa,ya,wa,ha),(xa,ya)代表目标框h(a)的中心点在图像帧S1min中的坐标;wa和ha分别代表目标框的宽度和高度,均执行以下步骤:
按序依次遍历图像帧S2min,...,图像帧SN1min,图像帧S1mid,图像帧S2mid,...,图像帧SN2mid,当首次遍历到某个图像帧Sb,b=2min,...,N1min,1mid,2mid,...,N2mid,满足以下条件:
在图像帧Sb中,以(xa,ya)为中心点,wa和ha为宽度和高度,绘制目标框h(b),所绘制的目标框h(b),与图像帧Sb中原来存在的目标框不存在任何重叠;
则停止遍历,从图像帧Sb中剪切出来绘制的目标框h(b)的区域,作为子图,替换图像帧S1min中目标框h(a)的区域;
当对图像帧S1min的z(min)个目标框均执行完成替换操作时,由此得到的图像帧,作为背景图,结束流程。
2.根据权利要求1所述的一种视频浓缩中背景图像的生成方法,其特征在于,步骤4中,N1≥3时,从图像帧S1min,图像帧S2min,...,图像帧SN1min中,挑选与其他各图像帧的相似度的和最大的图像帧,作为背景图,具体为:
步骤4.1,对于图像帧S1min,分别计算其与其他N1-1个图像帧的相似度,再对得到的N1-1个相似度求和,得到图像帧S1min的相似度量值F1min;
对于图像帧S2min,分别计算其与其他N1-1个图像帧的相似度,再对得到的N1-1个相似度求和,得到图像帧S2min的相似度量值F2min;
依此类推
对于图像帧SN1min,分别计算其与其他N1-1个图像帧的相似度,再对得到的N1-1个相似度求和,得到图像帧SN1min的相似度量值FN1min;
步骤4.2,在相似度量值F1min,F2min,...,FN1min中,选择最大值,表示为:F(max);相似度量值F(max)对应的图像帧,作为背景图。
3.根据权利要求2所述的一种视频浓缩中背景图像的生成方法,其特征在于,图像帧S1min,图像帧S2min,...,图像帧SN1min中,任意两个图像帧表示为:图像帧Si和图像帧Sj,采用以下方法,计算相似度:
图像帧Si和图像帧Sj的尺寸相同,均划分为c1*c2个结构块block;其中,c1为结构块的行数,c2为结构块的列数;
采用下式,计算图像帧Si和图像帧Sj的相似度block_ssim(i,j):
其中:
floor()函数表示向下取整;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210023026.2A CN114372994B (zh) | 2022-01-10 | 2022-01-10 | 视频浓缩中背景图像的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210023026.2A CN114372994B (zh) | 2022-01-10 | 2022-01-10 | 视频浓缩中背景图像的生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114372994A CN114372994A (zh) | 2022-04-19 |
CN114372994B true CN114372994B (zh) | 2022-07-22 |
Family
ID=81187741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210023026.2A Active CN114372994B (zh) | 2022-01-10 | 2022-01-10 | 视频浓缩中背景图像的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372994B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142147A (zh) * | 2010-01-29 | 2011-08-03 | 索尼公司 | 场地内容分析装置和方法及目标检测与跟踪装置和方法 |
CN104463902A (zh) * | 2013-09-25 | 2015-03-25 | 北京环境特性研究所 | 一种基于nmi特征的静止目标消除方法 |
CN108012202A (zh) * | 2017-12-15 | 2018-05-08 | 浙江大华技术股份有限公司 | 视频浓缩方法、设备、计算机可读存储介质及计算机装置 |
CN111008978A (zh) * | 2019-12-06 | 2020-04-14 | 电子科技大学 | 基于深度学习的视频场景分割方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9158985B2 (en) * | 2014-03-03 | 2015-10-13 | Xerox Corporation | Method and apparatus for processing image of scene of interest |
CN109697499B (zh) * | 2017-10-24 | 2021-09-07 | 北京京东尚科信息技术有限公司 | 行人流量漏斗生成方法及装置、存储介质、电子设备 |
-
2022
- 2022-01-10 CN CN202210023026.2A patent/CN114372994B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142147A (zh) * | 2010-01-29 | 2011-08-03 | 索尼公司 | 场地内容分析装置和方法及目标检测与跟踪装置和方法 |
CN104463902A (zh) * | 2013-09-25 | 2015-03-25 | 北京环境特性研究所 | 一种基于nmi特征的静止目标消除方法 |
CN108012202A (zh) * | 2017-12-15 | 2018-05-08 | 浙江大华技术股份有限公司 | 视频浓缩方法、设备、计算机可读存储介质及计算机装置 |
CN111008978A (zh) * | 2019-12-06 | 2020-04-14 | 电子科技大学 | 基于深度学习的视频场景分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114372994A (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348445B (zh) | 一种融合空洞卷积和边缘信息的实例分割方法 | |
CN112541483B (zh) | Yolo和分块-融合策略结合的稠密人脸检测方法 | |
CN110287826B (zh) | 一种基于注意力机制的视频目标检测方法 | |
CN110163213B (zh) | 基于视差图和多尺度深度网络模型的遥感图像分割方法 | |
CN111340922A (zh) | 定位与地图构建的方法和电子设备 | |
CN113516664A (zh) | 一种基于语义分割动态点的视觉slam方法 | |
CN111582093A (zh) | 一种基于计算机视觉和深度学习的高分辨率图像中小目标自动检测方法 | |
CN112183301B (zh) | 一种建筑物楼层智能识别方法及装置 | |
CN110544202B (zh) | 一种基于模板匹配与特征聚类的视差图像拼接方法及系统 | |
CN112287906A (zh) | 一种基于深度特征融合的模板匹配跟踪方法及系统 | |
JP2020006788A (ja) | 建築限界判定装置 | |
CN114372994B (zh) | 视频浓缩中背景图像的生成方法 | |
Li et al. | Learning to holistically detect bridges from large-size vhr remote sensing imagery | |
Xia et al. | Unsupervised optical flow estimation with dynamic timing representation for spike camera | |
CN116452826A (zh) | 基于机器视觉的遮挡情况下煤矸石轮廓估计方法 | |
CN114111602B (zh) | 一种基于图像技术的桥梁表面裂缝宽度计算方法 | |
CN113450457B (zh) | 道路重建方法、装置、计算机设备和存储介质 | |
CN113920254B (zh) | 一种基于单目rgb的室内三维重建方法及其系统 | |
CN116229446A (zh) | 路面文字识别的处理方法、装置及介质 | |
CN117011481A (zh) | 构建三维地图的方法、装置、电子设备及存储介质 | |
CN114399532A (zh) | 一种相机位姿确定方法和装置 | |
CN114972752A (zh) | 一种基于轻量级交叉注意网络的实时语义分割的方法 | |
CN114943834A (zh) | 一种少标注样本下基于原型队列学习的全场景语义分割方法 | |
KR20100009451A (ko) | 영상의 그라운드 라인 결정 방법 | |
CN113139496A (zh) | 一种基于时序多尺度融合的行人重识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |