CN112347996A - 一种场景状态判断方法、装置、设备及存储介质 - Google Patents
一种场景状态判断方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112347996A CN112347996A CN202011380719.4A CN202011380719A CN112347996A CN 112347996 A CN112347996 A CN 112347996A CN 202011380719 A CN202011380719 A CN 202011380719A CN 112347996 A CN112347996 A CN 112347996A
- Authority
- CN
- China
- Prior art keywords
- video data
- optical flow
- picture
- preset
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000003287 optical effect Effects 0.000 claims abstract description 106
- 238000012549 training Methods 0.000 claims abstract description 65
- 230000033001 locomotion Effects 0.000 claims abstract description 45
- 238000013145 classification model Methods 0.000 claims abstract description 37
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000010586 diagram Methods 0.000 claims description 26
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 239000011159 matrix material Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 230000003068 static effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000739 chaotic effect Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000270295 Serpentes Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G06T3/147—
Abstract
本发明实施例公开了一种场景状态判断方法、装置、设备及存储介质。其中,该方法包括:获取视频数据,并对所述视频数据进行预处理得到预设帧数的图片;采用光流预测模型对所述预设帧数的图片进行光流预测,得到光流图;将所述光流图输入至分类模型中,得到场景状态判断结果,其中,所述分类模型基于多种运动状态的光流图样本训练得到。本发明实施例提供的技术方案,能够有效判断视频数据的场景状态,从而有利于剔除冗余视频数据,保留有效视频数据。
Description
技术领域
本发明实施例涉及视频处理技术领域,尤其涉及一种场景状态判断方法、装置、设备及存储介质。
背景技术
近年来,随着互联网技术的快速发展,视频采集设备的轻便化以及视频传输的快捷,造成了视频内容爆炸式增长。对于当前的安防监控系统、直播平台或者视频服务网站等,要在大量的视频数据中检索、抽取或者监控有用的视频内容,成为研究的热点。
以交通记录视频为例,相关的记录视频包括:执法人员手持记录仪视频、公交电子警察抓拍的视频以及交通违法举报视频等,如何从大量视频数据中判断出视频的场景状态从而提取出有效信息,剔除大量的冗余数据成为需要解决的问题。目前常用的方法为:第一种将视频截取成一帧帧的图片,通过分类去判断,但是现实场景比较复杂,可能不是单一的场景,采用这种方法很难解决上述问题。第二种判断图像是否为同一图片,如果场景一直不动,则视频截取到的图片均为同一张图,但是该方法容易受到光影和噪声的影响,很难应用到实际场景。第三种方法则是基于视频分类技术,直接对视频进行分类,但该方法目前仍处于研究阶段,无法应用到实际场景中。并且上述方法都是基于单幅图像的像素值进行判断,无法有效的表征运动信息。
发明内容
本发明实施例提供了一种场景状态判断方法、装置、设备及存储介质,能够有效判断视频数据的场景状态,从而有利于剔除冗余视频数据,保留有效视频数据。
第一方面,本发明实施例提供了一种场景状态判断方法,该方法包括:
获取视频数据,并对所述视频数据进行预处理得到预设帧数的图片;
采用光流预测模型对所述预设帧数的图片进行光流预测,得到光流图;
将所述光流图输入至分类模型中,得到场景状态判断结果,其中,所述分类模型基于多种运动状态的光流图样本训练得到。
进一步的,所述获取视频数据,并对所述视频数据进行预处理得到预设帧数的图片,包括:
获取所述视频数据所对应的图片;
利用滑窗方法根据所述图片的时间序列将所述图片划分成多个图片序列,其中,每个图片序列中包含第一帧数的图片;
从所述多个图片序列中每隔第二帧数的图片进行取样,得到所述预设帧数的图片。
进一步的,所述光流预测模型通过以下方式得到:
获取图像样本集合;
通过对所述图像样本集合中的每一帧原图像进行数据增强,得到新图像集合;
根据所述图像样本集合中的原图像,以及所述新图像集合中与原图像对应的新图像,形成多对训练样本图像;
利用所述多对训练样本图像和预设训练策略对FlowNet2网络结构进行训练,得到光流预测模型。
进一步的,所述通过对所述图像样本集合中的每一帧原图像进行数据增强,得到新图像集合,包括:
针对所述图像样本集合中的每帧原图像,根据当前图像的尺寸,将所述当前图像划分成预设尺寸的图像块,针对所述预设尺寸的每个图像块,对当前图像块进行仿射变换,得到与所述当前图像块对应的新图像块,汇总所有新图像块,得到所述当前图像对应的新图像;
汇总所有新图像,得到所述新图像集合。
进一步的,所述预设训练策略包括:
在对所述FlowNet2网络结构进行训练的不同训练阶段采用不同的学习率和不同的步长,其中,所述不同训练阶段的学习率和步长依次递减。
进一步的,所述采用光流预测模型对所述预设帧数的图片进行光流预测,得到光流图,包括:
针对所述预设帧数的图片,每次输入连续的预设数量的图片至光流预测模型中进行光流预测,得到与所述预设数量的图片对应的光流图。
进一步的,在所述将所述光流图输入至分类模型中,得到场景状态判断结果之后,还包括:
根据所述场景状态判断结果对所述视频数据进行过滤处理,保留与目标运动状态的光流图对应的视频数据,其中,所述目标运动状态根据所述视频数据的类型和过滤需求确定。
第二方面,本发明实施例提供了一种场景状态判断装置,该装置包括:
视频数据处理模块,用于获取视频数据,并对所述视频数据进行预处理得到预设帧数的图片;
光流图获取模块,用于采用光流预测模型对所述预设帧数的图片进行光流预测,得到光流图;
判断结果确定模块,用于将所述光流图输入至分类模型中,得到场景状态判断结果,其中,所述分类模型基于多种运动状态的光流图样本训练得到。
第三方面,本发明实施例提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的场景状态判断方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的场景状态判断方法的步骤。
本发明实施例提供了一种场景状态判断方法、装置、设备及存储介质,通过获取视频数据,并对视频数据进行预处理得到预设帧数的图片,接着采用光流预测模型对预设帧数的图片进行光流预测,得到光流图,最后将光流图输入至分类模型中,得到场景状态判断结果,分类模型基于多种运动状态的光流图样本训练得到,能够有效判断视频数据的场景状态,从而有利于剔除冗余视频数据,保留有效视频数据。
附图说明
图1为本发明实施例一提供的一种场景状态判断方法的流程图;
图2A为本发明实施例二提供的一种场景状态判断方法的流程图;
图2B为本发明实施例二提供的方法中FlowNet2网络结构的示意图;
图3为本发明实施例三提供的一种场景状态判断方法的流程图;
图4为本发明实施例四提供的一种场景状态判断装置的结构示意图;
图5为本发明实施例五提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种场景状态判断方法的流程图,本实施例可适用于对视频数据的场景状态进行判断的情况。本实施例提供的场景状态判断方法可以由本发明实施例提供的场景状态判断装置来执行,该装置可以通过软件和/或硬件的方式实现,并集成在执行本方法的计算机设备中。
参见图1,本实施例的方法包括但不限于如下步骤:
S110,获取视频数据,并对所述视频数据进行预处理得到预设帧数的图片。
其中,预设帧数可以是预先设计好的,也可以视具体情况而定,本实施例不做具体限制。
当大量的音频和视频数据被采集后,要从大量的视频数据中判断出视频的场景状态从而提取出有效信息,首先需要获取视频数据。以交通记录视频为例,相关执法人员均佩戴执法记录仪进行执勤取证;此外,公交车行驶过程中也会开启公交电子警察针对交通违法行为进行实时抓拍;以及群众可以通过手机拍摄视频举报违法车辆。对于上述几种情况,获取的视频数据可以包括:执法人员手持记录仪视频、公交电子警察抓拍的视频以及交通违法举报视频等。在获取到视频数据后,对视频数据进行预处理能够得到预设帧数的图片。预处理可以为按照设定好的帧率获取视频数据中对应的图片。
S120,采用光流预测模型对所述预设帧数的图片进行光流预测,得到光流图。
其中,光流是空间运动物体在观察成像平面上的像素运动的瞬时速度,通常情况下,光流是由于场景中前景目标本身的移动、相机的运动,或者两者的共同运动所产生的。通过光流法可以对远动图像进行分析。
在得到预设帧数的图片之后,采用光流预测模型,例如SelFlow、Snakes以及FlowNet等,将预设帧数的图片按照设定好的的顺序,依次输入至光流预测模型中进行光流预测,能够得到与所输入的图片对应的光流图,根据该光流图可以获知所输入的图片对应的运动方向和速度的变化情况。
S130,将所述光流图输入至分类模型中,得到场景状态判断结果,其中,所述分类模型基于多种运动状态的光流图样本训练得到。
其中,运动状态可以包括静止状态、杂乱无章状态、运动较小状态以及运动较大状态。运动状态的具体划分可以视具体需求而定,本实施例对运动状态的个数不做具体限制。静止状态可以为光流图样本中所对应的图片的运动方向和速度均未发生变化的状态,杂乱无章状态可以为光流图样本中所对应的图片的运动方向和速度均发生变化的状态,运动较小状态可以为光流图样本中所对应的图片的运动方向不变且速度小于预设阈值的状态以及运动较大状态可以为光流图样本中所对应的图片的运动方向不变且速度大于或者等于预设阈值的状态。具体的,预设阈值可以是提前设置好的,也可以视具体情况而定,例如预设阈值可以为0.2lumen(流明),本发明实施例对预设阈值的大小不做具体限制。
要想对场景状态进行判断,首先需要对场景状态进行划分,本实施例中是以划分成四类为例对S130进行说明,即静止状态、杂乱无章状态、运动较小状态以及运动较大状态,通过这四种状态可以很全面的展现出视频数据中视频的具体场景状态。由于分类模型是基于多种运动状态的光流图样本训练得到,因此将S120中得到的光流图输入至分类模型中,就能够得到场景状态判断结果,即当前的光流图所对应的场景状态是多种运动状态中的一种。
本实施例提供的技术方案,通过获取视频数据,并对视频数据进行预处理得到预设帧数的图片,接着采用光流预测模型对预设帧数的图片进行光流预测,得到光流图,最后将光流图输入至分类模型中,得到场景状态判断结果,分类模型基于多种运动状态的图样本训练得到,能够有效判断视频数据的场景状态,从而有利于剔除冗余视频数据,保留有效视频数据。
实施例二
图2A为本发明实施例二提供的一种场景状态判断方法的流程图。本发明实施例是在上述实施例的基础上进行优化。可选的,本实施例对得到预设帧数的图片的过程和光流预测模型的确定过程进行详细的解释说明。
参见图2A,本实施例的方法包括但不限于如下步骤:
S210,获取视频数据所对应的图片。
通过对视频数据进行处理,可以将视频数据转换为对应的图片,具体的处理方式本发明实施例不做具体限制,不同视频拍摄设备拍摄的视频转换的图片帧数可能不同,例如有的视频每秒对应25帧图片,还有一些视频每秒对应30帧图片等。
S220,利用滑窗方法根据所述图片的时间序列将所述图片划分成多个图片序列。
其中,每个图片序列中包含第一帧数的图片。第一帧数可以预先设置好,也可以视具体情况而定。
视频数据所对应的图片的帧数可能较多,在实际工程中如果对每一帧图像都进行预处理很大程度上会造成显存资源的浪费,那么在获取视频数据所对应的图片之后,可以利用滑窗方法根据图片的时间序列将图片划分成多个图片序列,例如可以按照10s时长的时间序列通过滑窗方法得到300帧图片作为一个序列,以此类推就能将图片划分成多个图片序列。
S230,从所述多个图片序列中每隔第二帧数的图片进行取样,得到预设帧数的图片。
其中,第二帧数和预设帧数既可以是提前设计好的,也可以视具体情况而定,本实施例不做具体限制。
在将图片划分成多个图片序列之后,由于每个图片序列中包括多帧图片,如果将整个图片序列或者视频数据所对应的图片输入至光流预测模型,会耗费较大的计算资源,并且可能会出现多种场景状态,容易判断错误。此时可以从多个图片序列中每隔第二帧数的图片进行取样,得到预设帧数的图片,例如从一个序列的300帧图片中每隔5帧取一帧图片,那么就可以选出60帧图片。
本发明实施例通过滑窗方法以及间隔取样的方法获取预设帧数的图片,能够降低运算量、节省计算资源以及提高运算效率。
S240,采用光流预测模型对所述预设帧数的图片进行光流预测,得到光流图。
可选的,所述光流预测模型可以具体通过以下方式得到:获取图像样本集合;通过对所述图像样本集合中的每一帧原图像进行数据增强,得到新图像集合;根据所述图像样本集合中的原图像,以及所述新图像集合中与原图像对应的新图像,形成多对训练样本图像;利用所述多对训练样本图像和预设训练策略对FlowNet2网络结构进行训练,得到光流预测模型。
首先获取第一预设帧数(第一预设帧数可以根据需要设定)的图像,将这些图像作为图像样本集合,接着针对图像样本集合中的每帧原图像,进行数据增强,能够得到与当前原图像对应的新图像,将所有新图像汇总起来可以得到新图像集合,然后针对图像样本集合中的每帧原图像和新图像集合中的每帧新图像,将一帧原图像和对应的新图像作为一对训练样本图像,能够形成多对训练样本图像,最后利用多对训练样本图像和预设训练策略对FlowNet2网络结构进行训练,能够得到光流预测模型。其中,预设训练策略可以为预先确定好的训练策略。
本发明实施例通过数据增强的方式获得新图像,并利用多对训练样本图像对FlowNet2网络结构进行训练,所得到的光流预测模型更为准确,且更接近真实场景,有利于提高场景状态判断的准确率以及算法的鲁棒性。
具体的,图2B为本发明实施例二提供的方法中FlowNet2网络结构的示意图,参见图2B:
该FlowNet2网络结构在物体的大移动(Large Displacement)情况下堆叠了三个网络结构,第一个网络结构为FlowNetC(FlowNetCorr)、第二个网络结构和第三个网络结构为FlowNetS(FlowNetSimple)。在第二个网络结构和第三个网络结构中的输入包括:Flow(流)、根据Flow把Image2(图像2)Warp(变形)到Image1(图像1),得到Warped后的Image1以及Warped后的Image1与原Image1之间的亮度差值(Brightness Error)。另外,该FlowNet2网络结构在物体的小移动(Small Displacement)情况下只使用FlowNet-SD网络结构。另外,Warped表示变形,Flow Magnitude表示流强度,Fusion表示融合。
本发明实施例中的FlowNet2网络结构,针对不同的移动情况使用不同的网络结构,以便在利用多对训练样本图像对FlowNet2网络结构进行训练时,得到的光流预测模型更准确,从而能够有效降低错误率。
进一步的,所述通过对所述图像样本集合中的每一帧原图像进行数据增强,得到新图像集合,可以具体包括:针对所述图像样本集合中的每帧原图像,根据当前图像的尺寸,将所述当前图像划分成预设尺寸的图像块,针对所述预设尺寸的每个图像块,对当前图像块进行仿射变换,得到与所述当前图像块对应的新图像块,汇总所有新图像块,得到所述当前图像对应的新图像;汇总所有新图像,得到所述新图像集合。
具体的,预设尺寸(例如32*32)可以通过原图像的尺寸以及划分的图像块个数确定,图像块个数为整数。仿射变换具体可以是:将当前图像块与对应的仿射矩阵相乘,仿射矩阵为仿射变换过程中的矩阵。
本发明实施例中因为显示场景中的数据光流的方向是比较杂乱的,尤其是室外场景,而手持执法记录仪的数据由于相机也在运动,导致背景无法很好的分离,光流的方向和大小更加复杂,通过将每帧原图像划分成预设尺寸的图像块,对每个图像块进行仿射变换,每个图像块对应不同的仿射矩阵,即每个图像块对应的仿射矩阵可能不同,可以预先将图像块与仿射矩阵的对应关系存储在仿射矩阵对应关系表中,通过查询该仿射矩阵对应关系表获取每个图像块所对应的仿射矩阵,然后将不同的图像块与相应的仿射矩阵相乘,最终得到的新图像中光流的方向更加多变,也更接近真实场景。
更进一步的,所述预设训练策略可以具体包括:在对所述FlowNet2网络结构进行训练的不同训练阶段采用不同的学习率和不同的步长,其中,所述不同训练阶段的学习率和步长依次递减。
示例性的,假设对FlowNet2网络结构进行训练时有三个训练阶段,则训练策略可以为:第一阶段初始学习率可以为1.0,训练到60万步后进行第一次衰减,衰减率为0.5,第二个阶段学习率可以为0.5,每隔20万步进行一次衰减,衰减率为0.5,第三个阶段,当学习率到0.1以下后,将学习率重置为0.1,每隔10万步进行一次衰减,继续训练。这里的步长主要是指进行衰减所间隔的步数。
本发明实施例在训练早期使用大的学习率和较大的衰减步长能够加快收敛速度,此后使用小的学习率和小的衰减步长能够学习到更好的光流预测结果。
S250,将所述光流图输入至分类模型中,得到场景状态判断结果,其中,所述分类模型基于多种运动状态的光流图样本训练得到。
本实施例提供的技术方案,首先获取视频数据所对应的图片,利用滑窗方法根据图片的时间序列将图片划分成多个图片序列,接着从多个图片序列中每隔第二帧数的图片进行取样,得到预设帧数的图片,然后采用光流预测模型对所述预设帧数的图片进行光流预测,得到光流图,最后将光流图输入至分类模型中,得到场景状态判断结果,分类模型基于多种运动状态的光流图样本训练得到,通过滑窗方法以及间隔取样的方法获取预设帧数的图片,能够降低运算量和节省计算资源以及通过数据增强的方式获得新图像,同时利用多对训练样本图像和预设训练策略对FlowNet2网络结构进行训练,所得到的光流预测模型更为准确,且更接近真实场景,最终能够有效判断视频数据的场景状态,从而有利于剔除冗余视频数据,保留有效视频数据。
实施例三
图3为本发明实施例三提供的一种场景状态判断方法的流程图。本发明实施例是在上述实施例的基础上进行优化。可选的,本实施例对采用光流预测模型对预设帧数的图片进行光流预测,得到光流图的过程以及得到场景状态判断结果之后的过程进行详细的解释说明。
参考图3,本实施例的方法包括但不限于如下步骤:
S310,获取视频数据,并对所述视频数据进行预处理得到预设帧数的图片。
S320,针对所述预设帧数的图片,每次输入连续的预设数量的图片至光流预测模型中进行光流预测,得到与所述预设数量的图片对应的光流图。
在得到预设帧数的图片之后,针对预设帧数的图片,可以每次输入连续的预设数量(预设数量可以是设计好的,例如两帧)的图片至光流预测模型中进行光流预测,得到与预设数量的图片对应的光流图,直到预设帧数的图片都输入至光流预测模型中进行光流预测为止。
本发明实施例通过对输入至光流预测模型中进行光流预测的图片数量进行设置,能够避免因为一次输入过多图片而无法进行光流预测的情况,节省计算资源。
S330,将所述光流图输入至分类模型中,得到场景状态判断结果,其中,所述分类模型基于多种运动状态的光流图样本训练得到。
可选的,在所述将所述光流图输入至分类模型中,得到场景状态判断结果之后,还包括:根据所述场景状态判断结果对所述视频数据进行过滤处理,保留与目标运动状态的光流图对应的视频数据。
其中,目标运动状态可以根据视频数据的具体类型和过滤需求设定。
示例性的,所述视频数据可以包括交通记录视频数据;相应的,在所述将所述光流图输入至分类模型中,得到场景状态判断结果之后,还包括:根据所述场景状态判断结果对所述交通记录视频数据进行过滤处理,保留与运动较小状态的光流图对应的视频数据。
当视频数据包括交通记录视频数据,与静止状态的光流图对应的视频数据可以是记录仪静置在某个位置时拍摄的视频,与杂乱无章状态的光流图对应的视频数据可以是执法人员在抓小偷时记录仪拍摄的视频,此时的视频可能比较模糊,与运动较小状态的光流图对应的视频数据可以是正常执法状态下记录仪拍摄的视频以及与运动较大状态的光流图对应的视频数据可以是执法人员开车或者骑车时记录仪拍摄的视频,由此可以判断出运动较小状态为目标状态,与运动较小状态的光流图对应的视频数据是有效的视频数据,其他三类均为无效的视频数据。
本发明实施例以交通记录视频数据为例,该场景状态判断方法能够判断视频数据是静止还是动态,同时结合场景状态判断结果能够判断出场景是骑车还是其他正常执法状态。
示例性的,所述视频数据可以包括银行保险柜监控视频数据,相应的,在所述将所述光流图输入至分类模型中,得到场景状态判断结果之后,还包括:根据所述场景状态判断结果对所述银行保险柜监控视频数据进行过滤处理,保留与静止状态的光流图对应的视频数据。
由于视频数据是银行保险柜监控视频数据,所以可以确定出目标运动状态是静止状态。
本实施例提供的技术方案,首先获取视频数据,并对视频数据进行预处理得到预设帧数的图片,然后针对预设帧数的图片,每次输入连续的预设数量的图片至光流预测模型中进行光流预测,得到与预设数量的图片对应的光流图,最后将光流图输入至分类模型中,得到场景状态判断结果,分类模型基于多种运动状态的光流图样本训练得到,通过对输入至光流预测模型中进行光流预测的图片数量进行设置,能够避免因为一次输入过多图片而无法进行光流预测的情况,节省计算资源,进而有效判断视频数据的场景状态,有利于剔除冗余视频数据,保留有效视频数据。
实施例四
图4为本发明实施例四提供的一种场景状态判断装置的结构示意图,如图4所示,该装置可以包括:
视频数据处理模块410,用于获取视频数据,并对所述视频数据进行预处理得到预设帧数的图片;
光流图获取模块420,用于采用光流预测模型对所述预设帧数的图片进行光流预测,得到光流图;
判断结果确定模块430,用于将所述光流图输入至分类模型中,得到场景状态判断结果,其中,所述分类模型基于多种运动状态的光流图样本训练得到。
本实施例提供的技术方案,通过获取视频数据,并对视频数据进行预处理得到预设帧数的图片,接着采用光流预测模型对预设帧数的图片进行光流预测,得到光流图,最后将光流图输入至分类模型中,得到场景状态判断结果,分类模型基于多种运动状态的光流图样本训练得到,能够有效判断视频数据的场景状态,从而有利于剔除冗余视频数据,保留有效视频数据。
进一步的,上述视频数据处理模块410,可以具体用于:
获取所述视频数据所对应的图片;
利用滑窗方法根据所述图片的时间序列将所述图片划分成多个图片序列,其中,每个图片序列中包含第一帧数的图片;
从所述多个图片序列中每隔第二帧数的图片进行取样,得到所述预设帧数的图片。
进一步的,上述场景状态判断装置,还可以包括:
光流预测模型确定模块,所述光流预测模型确定模块包括:
样本集合获取单元,用于获取图像样本集合;
新图像集合确定单元,用于通过对所述图像样本集合中的每一帧原图像进行数据增强,得到新图像集合;
训练样本图像获取单元,用于根据所述图像样本集合中的原图像,以及所述新图像集合中与原图像对应的新图像,形成多对训练样本图像;
预测模型确定单元,用于利用所述多对训练样本图像和预设训练策略对FlowNet2网络结构进行训练,得到光流预测模型。
进一步的,所述新图像集合确定单元,可以具体用于:
针对所述图像样本集合中的每帧原图像,根据当前图像的尺寸,将所述当前图像划分成预设尺寸的图像块,针对所述预设尺寸的每个图像块,对当前图像块进行仿射变换,得到与所述当前图像块对应的新图像块,汇总所有新图像块,得到所述当前图像对应的新图像;
汇总所有新图像,得到所述新图像集合。
进一步的,所述预设训练策略包括:
在对所述FlowNet2网络结构进行训练的不同训练阶段采用不同的学习率和不同的步长,其中,所述不同训练阶段的学习率和步长依次递减。
进一步的,所述光流图获取模块420,可以具体用于:
针对所述预设帧数的图片,每次输入连续的预设数量的图片至光流预测模型中进行光流预测,得到与所述预设数量的图片对应的光流图。
进一步的,上述场景状态判断装置,还可以包括:
视频数据过滤模块,用于在所述将所述光流图输入至分类模型中,得到场景状态判断结果之后,根据所述场景状态判断结果对所述视频数据进行过滤处理,保留与目标运动状态的光流图对应的视频数据,其中,所述目标运动状态根据所述视频数据的类型和过滤需求确定。
本实施例提供的场景状态判断装置可适用于上述任意实施例提供的场景状态判断方法,具备相应的功能和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器510、存储装置520和通信装置530;计算机设备中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;计算机设备中的处理器510、存储装置520和通信装置530可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储装置520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的场景状态判断方法对应的模块(例如,用于场景状态判断装置中的视频数据处理模块410、光流图获取模块420和判断结果确定模块430)。处理器510通过运行存储在存储装置520中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的场景状态判断方法的步骤。
存储装置520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信装置530,用于实现服务器之间的网络连接或者移动数据连接。
本实施例提供的一种计算机设备可用于执行上述任意实施例提供的场景状态判断方法,具备相应的功能和有益效果。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例中的场景状态判断方法的步骤,该方法具体包括:
获取视频数据,并对所述视频数据进行预处理得到预设帧数的图片;
采用光流预测模型对所述预设帧数的图片进行光流预测,得到光流图;
将所述光流图输入至分类模型中,得到场景状态判断结果,其中,所述分类模型基于多种运动状态的光流图样本训练得到。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的场景状态判断方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述场景状态判断装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种场景状态判断方法,其特征在于,包括:
获取视频数据,并对所述视频数据进行预处理得到预设帧数的图片;
采用光流预测模型对所述预设帧数的图片进行光流预测,得到光流图;
将所述光流图输入至分类模型中,得到场景状态判断结果,其中,所述分类模型基于多种运动状态的光流图样本训练得到。
2.根据权利要求1所述的方法,其特征在于,所述获取视频数据,并对所述视频数据进行预处理得到预设帧数的图片,包括:
获取所述视频数据所对应的图片;
利用滑窗方法根据所述图片的时间序列将所述图片划分成多个图片序列,其中,每个图片序列中包含第一帧数的图片;
从所述多个图片序列中每隔第二帧数的图片进行取样,得到所述预设帧数的图片。
3.根据权利要求1所述的方法,其特征在于,所述光流预测模型通过以下方式得到:
获取图像样本集合;
通过对所述图像样本集合中的每一帧原图像进行数据增强,得到新图像集合;
根据所述图像样本集合中的原图像,以及所述新图像集合中与原图像对应的新图像,形成多对训练样本图像;
利用所述多对训练样本图像和预设训练策略对FlowNet2网络结构进行训练,得到光流预测模型。
4.根据权利要求3所述的方法,其特征在于,所述通过对所述图像样本集合中的每一帧原图像进行数据增强,得到新图像集合,包括:
针对所述图像样本集合中的每帧原图像,根据当前图像的尺寸,将所述当前图像划分成预设尺寸的图像块,针对所述预设尺寸的每个图像块,对当前图像块进行仿射变换,得到与所述当前图像块对应的新图像块,汇总所有新图像块,得到所述当前图像对应的新图像;
汇总所有新图像,得到所述新图像集合。
5.根据权利要求3所述的方法,其特征在于,所述预设训练策略包括:
在对所述FlowNet2网络结构进行训练的不同训练阶段采用不同的学习率和不同的步长,其中,所述不同训练阶段的学习率和步长依次递减。
6.根据权利要求1所述的方法,其特征在于,所述采用光流预测模型对所述预设帧数的图片进行光流预测,得到光流图,包括:
针对所述预设帧数的图片,每次输入连续的预设数量的图片至光流预测模型中进行光流预测,得到与所述预设数量的图片对应的光流图。
7.根据权利要求1-6任一项所述的方法,其特征在于,在所述将所述光流图输入至分类模型中,得到场景状态判断结果之后,还包括:
根据所述场景状态判断结果对所述视频数据进行过滤处理,保留与目标运动状态的光流图对应的视频数据,其中,所述目标运动状态根据所述视频数据的类型和过滤需求确定。
8.一种场景状态判断装置,其特征在于,包括:
视频数据处理模块,用于获取视频数据,并对所述视频数据进行预处理得到预设帧数的图片;
光流图获取模块,用于采用光流预测模型对所述预设帧数的图片进行光流预测,得到光流图;
判断结果确定模块,用于将所述光流图输入至分类模型中,得到场景状态判断结果,其中,所述分类模型基于多种运动状态的光流图样本训练得到。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的场景状态判断方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的场景状态判断方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011380719.4A CN112347996A (zh) | 2020-11-30 | 2020-11-30 | 一种场景状态判断方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011380719.4A CN112347996A (zh) | 2020-11-30 | 2020-11-30 | 一种场景状态判断方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112347996A true CN112347996A (zh) | 2021-02-09 |
Family
ID=74427146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011380719.4A Pending CN112347996A (zh) | 2020-11-30 | 2020-11-30 | 一种场景状态判断方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347996A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024027639A1 (zh) * | 2022-08-01 | 2024-02-08 | 深圳市中兴微电子技术有限公司 | 图片组长度确定方法、装置、计算机设备及可读介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022229A (zh) * | 2016-05-11 | 2016-10-12 | 北京航空航天大学 | 基于视频运动信息特征提取与自适应增强算法的误差反向传播网络的异常行为识别方法 |
CN109697387A (zh) * | 2017-10-23 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 运动方向预测方法、装置、电子设备及存储介质 |
CN110853074A (zh) * | 2019-10-09 | 2020-02-28 | 天津大学 | 一种利用光流增强目标的视频目标检测网络系统 |
CN110889375A (zh) * | 2019-11-28 | 2020-03-17 | 长沙理工大学 | 用于行为识别的隐双流协作学习网络及方法 |
WO2020088766A1 (en) * | 2018-10-31 | 2020-05-07 | Toyota Motor Europe | Methods for optical flow estimation |
US20200211206A1 (en) * | 2018-12-27 | 2020-07-02 | Baidu Usa Llc | Joint learning of geometry and motion with three-dimensional holistic understanding |
-
2020
- 2020-11-30 CN CN202011380719.4A patent/CN112347996A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022229A (zh) * | 2016-05-11 | 2016-10-12 | 北京航空航天大学 | 基于视频运动信息特征提取与自适应增强算法的误差反向传播网络的异常行为识别方法 |
CN109697387A (zh) * | 2017-10-23 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 运动方向预测方法、装置、电子设备及存储介质 |
WO2020088766A1 (en) * | 2018-10-31 | 2020-05-07 | Toyota Motor Europe | Methods for optical flow estimation |
US20200211206A1 (en) * | 2018-12-27 | 2020-07-02 | Baidu Usa Llc | Joint learning of geometry and motion with three-dimensional holistic understanding |
CN110853074A (zh) * | 2019-10-09 | 2020-02-28 | 天津大学 | 一种利用光流增强目标的视频目标检测网络系统 |
CN110889375A (zh) * | 2019-11-28 | 2020-03-17 | 长沙理工大学 | 用于行为识别的隐双流协作学习网络及方法 |
Non-Patent Citations (1)
Title |
---|
周泳;陶兆胜;阮孟丽;王丽华;: "基于FlowNet2.0网络的目标光流检测方法", 龙岩学院学报, vol. 38, no. 02, pages 37 - 42 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024027639A1 (zh) * | 2022-08-01 | 2024-02-08 | 深圳市中兴微电子技术有限公司 | 图片组长度确定方法、装置、计算机设备及可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10915660B2 (en) | Methods and apparatus for using video analytics to detect regions for privacy protection within images from moving cameras | |
CN107004271B (zh) | 显示方法、装置、电子设备、计算机程序产品和存储介质 | |
CN111405241A (zh) | 一种用于视频监控的边缘计算方法和系统 | |
CN111325051B (zh) | 一种基于人脸图像roi选取的人脸识别方法及装置 | |
CN108012202B (zh) | 视频浓缩方法、设备、计算机可读存储介质及计算机装置 | |
CN103020275A (zh) | 基于视频摘要、视频检索的视频分析方法 | |
CN110659391A (zh) | 一种视频侦查方法及装置 | |
CN109522814B (zh) | 一种基于视频数据的目标追踪方法及装置 | |
CN107295296B (zh) | 一种监控视频选择性存储与恢复方法及系统 | |
CN109905423B (zh) | 一种智能管理系统 | |
CN108230669B (zh) | 基于大数据和云分析的道路车辆违法检测方法及系统 | |
CN109800329B (zh) | 一种监控方法及装置 | |
Ippalapally et al. | Object detection using thermal imaging | |
CN112422909A (zh) | 一种基于人工智能的视频行为分析管理系统 | |
EP3975133A1 (en) | Processing of images captured by vehicle mounted cameras | |
CN114758271A (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
WO2019047663A1 (zh) | 一种基于视频格式的端到端自动驾驶数据的存储方法及装置 | |
CN112347996A (zh) | 一种场景状态判断方法、装置、设备及存储介质 | |
WO2023192996A1 (en) | Few-shot anomaly detection | |
CN110798656A (zh) | 一种监控视频文件处理方法、装置、介质和设备 | |
KR20170095599A (ko) | 동영상 검색 시스템 및 그 방법 | |
US11532158B2 (en) | Methods and systems for customized image and video analysis | |
CN109800685A (zh) | 一种视频中对象的确定方法及装置 | |
CN114359828A (zh) | 目标行为的记录方法、装置、存储介质及电子装置 | |
CN107358170B (zh) | 一种基于移动机器视觉的车辆违章压线识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |