CN111079567A - 采样方法、模型生成方法、视频行为识别方法及装置 - Google Patents

采样方法、模型生成方法、视频行为识别方法及装置 Download PDF

Info

Publication number
CN111079567A
CN111079567A CN201911190802.2A CN201911190802A CN111079567A CN 111079567 A CN111079567 A CN 111079567A CN 201911190802 A CN201911190802 A CN 201911190802A CN 111079567 A CN111079567 A CN 111079567A
Authority
CN
China
Prior art keywords
frame
video
intermediate frame
sampling
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911190802.2A
Other languages
English (en)
Other versions
CN111079567B (zh
Inventor
鄢贵海
赵巍岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yusur Technology Co ltd
Original Assignee
Yusur Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yusur Technology Co ltd filed Critical Yusur Technology Co ltd
Priority to CN201911190802.2A priority Critical patent/CN111079567B/zh
Publication of CN111079567A publication Critical patent/CN111079567A/zh
Application granted granted Critical
Publication of CN111079567B publication Critical patent/CN111079567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种视频行为数据采样方法、视频行为识别模型生成方法、视频行为识别方法、电子设备及计算机可读存储介质,其中,该采样方法包括:从视频的编码数据中提取所述视频的第一中间帧的编码信息;所述编码信息包括运动向量;根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域;在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元;根据所述第一取样单元确定对所述视频采样的数据。通过上述方案本发明能够对视频进行有效采样,从而提高视频行为识别的效果。

Description

采样方法、模型生成方法、视频行为识别方法及装置
技术领域
本发明涉及视频分析技术领域,尤其涉及一种采样方法、模型生成方法、视频行为识别方法及装置。
背景技术
行为识别是视频分析的重要一环,在安防、行为分析等领域有众多应用,近些年来面向视频的行为识别算法受到了很大关注。
视频行为识别可以分为基于光流的传统算法和基于深度学习的智能算法。基于光流的行为识别算法,以像素为计算单位,对视频中的某几帧进行处理,计算量大但稳定性较好。以提升的密集轨迹算法(IDT,Improved Dense Trajectories)为代表,包括密集采样特征点、特征点轨迹跟踪和基于轨迹的特征提取几个部分。
基于深度学习的智能行为识别算法以图像智能识别算法为基础,近几年取得了超过传统算法的精度。智能行为识别主要分为双流算法以及3d卷积网络两类。双流算法使用两个神经网络分别提取视频的时间空间信息,并将两股信息融合最终得到识别结果。C3D网络通过3d卷积核直接提取视频数据的时间和空间特征,此种方法速度较快,能达到上百FPS。
然而,基于光流的行为识别算法以像素为计算单位,每处理一个帧,需要对图像中所有的像素进行计算。这种方法计算量大,且随着视频清晰度上升、像素数量增加,这种算法的计算速度将受到严重影响,因此不适用于高清视频的行为分析。
基于深度学习的双流神经网在计算时域信息时使用光流信息。此光流信息由像素获取,因此在分析高清视频的行为时计算速度较慢。同样基于深度学习的3D卷积神经网络(C3D)虽然速度较快,但是精度相较于双流神经网络偏低。
因此,基于深度学习的智能行为识别算法缺少更有效的视频采样方法。
发明内容
本发明提供了一种采样方法、模型生成方法、视频行为识别方法及装置,以对视频进行有效采样,从而提高视频行为识别的效果。
为了达到上述目的,本发明采用以下方案实现:
根据本发明实施例的一个方面,提供了一种视频行为数据采样方法,包括:
从视频的编码数据中提取所述视频的第一中间帧的编码信息;所述编码信息包括运动向量;
根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域;
在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元;
根据所述第一取样单元确定对所述视频采样的数据。
根据本发明实施例的另一个方面,提供了一种视频行为识别模型生成方法,包括:
利用上述实施例所述的视频行为数据采样方法分别对多个视频进行采样,并根据每个所述视频的采样结果生成一个训练样本;
利用所有所述视频对应形成的训练样本对初始神经网络进行训练,得到视频行为识别模型。
根据本发明实施例的又一个方面,提供了一种视频行为识别方法,包括:
利用上述实施例所述的视频行为识别模型生成方法生成的视频行为识别模型识别设定视频中的行为。
根据本发明实施例的再一个方面,提供了一种电子设备,其上存储有计算机程序,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例所述方法的步骤。
根据本发明实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所述方法的步骤。
本发明实施例的视频行为数据采样方法、视频行为识别模型生成方法、视频行为识别方法、电子设备及计算机可读存储介质,能够获得的视频采样图像集的运动核心区域,减少视频中的冗余信息对神经网络训练的影响,并能保留视频中对神经网络训练最有效的信息,因此,能够实现对视频进行有效采样,从而提升神经网络的学习精度,从而提高视频行为识别的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例的视频行为数据采样方法的流程示意图;
图2是本发明一实施例的视频行为识别模型生成方法的流程示意图;
图3是本发明一实施例的整体流程示意图;
图4是本发明一具体实施例的视频采样方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
发明人发现,目前基于深度学习的视频行为识别算法之所以需要更有效的视频采样方法,以获取更适合作为神经网络输入的数据,具体存在以下三个问题。
第一,视频数据中存在大量的时间、空间冗余数据:一个视频场景中,两相邻帧图像变化不大;单帧中,存在某一连续区域颜色相近或一致。这些冗余信息占据了神经网络的输入,但是不能为其提供新信息,对神经网络的训练造成了阻碍。并且,随着5G技术的出现,高分辨率的图像将会成为视频分析的主要数据来源,并且带来了更多的冗余数据,这将增加神经网络的计算负荷以及训练难度。
第二,由于视频是多帧图像的序列,难以使用整段视频来训练神经网络,对于高清视频数据更是如此。现有技术多采取分段或者采样的方式选取某几帧进行神经网络训练,如随机选择、使用前置的一级神经网络选取。但不良选择可能导致视频信息的缺失,影响识别精度。
第三,由于神经网络输入的像素数量有限制,现有技术通常采用下采样的方式减少输入的像素数量,但这种方法很可能造成有效信息的损失。当视频的运动区域占整个帧的范围较小时,这种下采样的方式将会弱化运动区域的信息。并且,这种损失分辨率的方式不能使视频行为识别从高分辨率视频中受益。
发明人在进行面向视频行为识别的数据取样研究时,发现上述第一个问题是由行为识别算法所使用的神经网络导致的。由于视频行为识别由图像识别算法发展而来,现有的技术方案通常以一帧图像作为神经网络的输入单元。因此输入数据是未经压缩的、含有冗余数据的图像。发明人经过研究发现,可以通过使用已编码的视频流作为输入数据的方法来解决该问题。
视频编码算法能够对冗余数据进行有效压缩,且编码结果同时包含了时域和空域信息,可以作为获取去冗余数据的途径。视频编码通过选择关键帧,再对其余各帧进行帧内、帧间预测,随后编码预测结果和真实值之间残差的方法,在视频传输、存储领域实现了很高的压缩率。预测算法选取的越合理,残差越小。因此在视频编码过程中,帧内预测和帧间预测对视频的时间空间特征已经有所描述。通过分析视频流中某一区域的编码方式以及残差,即可得到该区域时间空间信息。相比于直接使用图像进行神经网络训练,使用压缩数据不仅仅输入数据更少,神经网络训练计算量小,而且数据冗余少,神经网络更容易捕捉到有效信息。现有算法中有以压缩数据作为输入的神经网络算法,但其并未考虑预测算法中包含的时域空域特征信息。
发明人在进行面向视频行为识别的数据取样研究时,发现上述第二个问题是由视频取样方法不当导致的。由于视频行为识别由图像识别算法发展而来,而不能使用整个视频作为神经网络的输入数据,现有的技术方案通常从视频中分组再取样的方法来提取输入数据。而这种分组取样的方法多为平均或者随机的方式,缺少特征视频帧取样的方案。发明人经过研究发现,可以通过分析视频流来确定取样帧,从而解决该问题。
智能动作识别不需要所有视频帧作为输入数据,在使用压缩数据的基础上,可以通过分析视频流获取更优的神经网络训练数据。现有算法中,已经存在使用对视频平均分段并随机取样的方式采样训练的方法,在数据集上取得了较好的精度。但这种固定的分段和采用模式在面对多种视频应用时,很可能采集信息不完整,造成神经网络训练效果不佳。
发明人在进行面向视频行为识别的数据取样研究时,发现上述第三个问题是由视频取样方法以及神经网络结构导致的。由于视频行为识别由图像识别算法发展而来,因此对输入图片像素数量有限制,现有的技术方案通常将过高分辨率的帧进行下采样以满足神经网络的数据大小需求。而这种取样方式将会减少视频识别关键区域的信息量,并且抛弃了由高分辨带来的信息。发明人经过研究发现,可以通过分析视频流来确定取样区域,从而解决该问题。
通过分析视频流数据,如分析帧内和帧间的预测方式以及对应残差,能够提取更加有特征的图像区域来用于神经网络训练。传统神经网络输入图片时常采用下采样的方式对图片进行压缩,这使得5G环境下虽然输入图片有很高的分辨率,但是不能为视频行为识别的精度带来明显提升。通过分析压缩数据流,可以对视频帧中信息量较大(变化剧烈)的区域进行识别,划分区域作为神经网络输入数据。这种方式可以抛弃掉大量虽不冗余但是与识别无关的图像数据,将神经网络的注意力集中在特征区域上,从而更有效的利用高分辨率。
针对现有技术存在的问题,基于上述分析,本发明实施例提供了一种视频行为数据采样方法。图1是本发明一实施例的视频行为数据采样方法的流程示意图,如图1所示,一些实施例的视频行为数据采样方法可包括以下步骤S110至步骤S140。
下面将对步骤S110至步骤S140的具体实施方式进行详细说明。
步骤S110:从视频的编码数据中提取所述视频的第一中间帧的编码信息;所述编码信息包括运动向量。
上述步骤S110中,该视频可以是指一段视频,由一系列图像序列构成,可以利用对该段视频的采样结果对神经网络进行训练,以对视频进行行为识别。该第一中间帧可以是一段视频中的任一可能位置的中间帧,例如,可以是某一关键帧(例如第一个关键帧)的下一帧。其中,关键帧又可以称为i帧,中间帧又可以称为补帧、内帧或p帧。
视频的编码数据可以是指已编码的视频流,可以包含各帧图像的编码信息。对于编码后的视频,其中一帧图像可以被分为多个编码单元,那么,中间帧的编码信息可以是指该帧图像的各编码单元的编码信息。某一中间帧的编码信息可包含运动向量,该运动向量的信息可以是指该中间帧的某一编码单元对应的图像区域相对于该中间帧所基于的关键帧的移动信息,例如,视频中的挥动的手臂在第十帧图像中的位置相对于在第一帧图像中的位置的变化信息。
步骤S120:根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域。
上述步骤S120中,在提取的编码信息包含运动向量的情况下,对于同一中间帧而言,不同编码单元的编码信息之间的差异情况可以是指,某些编码单元的编码信息相对于其他编码单元更为相近,或者某一部分编码单元的编码信息明显不同于另一部分编码单元的编码信息。根据不同编码单元的编码信息之间的差异情况可以反映一帧图像中局部区域所呈现的共同特点,例如,一帧中间帧图像中的挥动的手臂图像区域相对于该中间帧的关键帧中的手臂图像区域,可以呈现相近的运动特点。所以,通过上述步骤S120提取的特征区域能够反映相应中间帧中图像区域的运动特征。其中,一帧图像的特征区域可以包含一个或两个以上编码单元对应的区域,而且,在包含多个区域的情况下,这些区域可以是连续或不连续的。
该步骤S120中,仅说明了其中一帧中间帧的特征区域提取过程,而在对视频采样的过程中,还可以对其他中间帧进行特征区域提取,提取过程均可以类似于该第一中间帧的提取方式。不同中间帧的特征区域提取方式可以相同或相近。
在一些实施例中,需要从第一中间帧中提取的编码信息包括运动向量,在此情况下,上述步骤S120,即,根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域,具体地,可包括步骤:S1211,在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值的情况下,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域。
在上述步骤S1211中,对于一帧中间帧图像,可以通过两两比较其各编码单元的运动向量,来得知运动向量两两之间的差异是否在设定运动差异阈值内。若第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值可以认为不同两个编码单元的运动向量相近。若只有一个编码单元的差别信息,可以直接作为特征区域。
该设定运动差异阈值可以根据图像中的运动区域相对于静止区域的普遍特点确定,还可考虑编码方式的影响因素。对于等于设定运动差异阈值,虽然该步骤S1211归于可以提取特征区域,但这是由于该情况属于分界情况,所以本发明并不排除对该分界情况归于另一种情形的保护。
该步骤S1211中,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域可以是直接将该编码单元对应的区域作为第一中间帧的特征区域的至少一部分,或者,第一中间帧的特征区域还可以包括该编码单元对应的区域的周边一定像素范围的区域,再或者,第一中间帧的特征区域可以包括从该编码单元对应的区域去掉周边一定像素范围后的区域。
例如,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域的具体实施方式,可包括步骤:S12110,将所述第一中间帧的所有所述编码单元对应的区域确定为所述第一中间帧的特征区域。包含该步骤S12110的实施例中,对于一个中间帧图像,其可以包括多个编码单元,这些编码单元中可以有多个编码单元对应的区域符合成为特征区域的条件,该些编码单元对应的区域可以是连续或不连续的,可以将所有符合条件的编码单元对应的这些区域作为一个特征区域。
包含上述步骤S1211的各实施例中,通过判断两两运动向量之间的差异是否小于或等于设定运动差异阈值,可以判断该两两运动向量是否相近。若一中间帧图像中的两个编码单元的运动向量相近,那么说明该两个编码单元对应的图像区域的运动情况相似。
进一步的一些实施例中,提取的中间帧的编码信息除了包括运动向量,还可以包括其他信息,例如,预测残差。在此情况下,可以进一步考虑不同编码单元的预测残差之间的差异情况。
示例性地,上述步骤S1211,即,在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值的情况下,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域,更具体地,可包括步骤:S12111,在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值,且所述第一中间帧的各所述编码单元的编码信息中的预测残差均小于或等于设定残差阈值的情况下,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域。或者,可以称上述步骤S120的具体实施方式包括上述步骤S12111。
上述步骤S12111中,中间帧的编码单元的预测残差一般是相对于该中间帧解码所基于的关键帧而言的,可以直接从编码数据中得到。预测残差的大小说明中间帧的预测结果与其真实情况之间的差异大小。预测残差越小说明中间帧的预测结果越准确。可以选择预测残差较小的编码单元或中间帧,提取特征区域。另外,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域的具体实施方式可以类似于上述步骤S12110。
包含上述步骤S12111的该些实施例中,编码单元不仅运动向量相近,而且预测残差较小的情况下,根据该编码单元对应的区域确定相应中间帧的特征区域,以此可以使得对中间帧的特征提取更准确。
另一示例中,在编码信息包括运动向量和预测残差的情况下,编码单元的预测残差较大,较大的预测残差有可能是由于编码方式导致的,此时,不同编码单元的预测残差可能呈现某些共性。在此情况下,上述步骤S1211,具体地,可包括步骤:S12112,在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值,但所述第一中间帧的各所述编码单元的编码信息中的预测残差大于设定残差阈值的情况下,若所述第一中间帧的所述不同编码单元的编码信息中的预测残差两两之间的差异小于或等于设定残差差异阈值,则根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域。或者,可以称上述步骤S120的具体实施方式包括上述步骤S12112。
上述步骤S12112中,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域的具体实施方式可以类似于上述步骤S12110。
包含上述步骤S12112的实施例中,在运动向量相近的情况下,若预测残差较大,则可以通过判断不同预测残差之间的差异是否小于或等于设定残差差异阈值,判断一中间帧图像中不同编码单元的预测残差是否相近。若预测残差相近,则较大的预测残差可能是由于编码造成的,所以据此编码单元提取相应中间帧的特征区域,可以使得提取的特征区域更全面,避免遗漏。
进一步的另一些实施例中,提取的中间帧的编码信息除了包括运动向量,还可包括其他信息,例如,帧间预测方式。在此情况下,可以进一步考虑不同编码单元的帧间预测方式之间的差异情况。
示例性地,该步骤S120,即,根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域,具体地,可包括步骤:S1221,在所述第一中间帧的部分编码单元的编码信息中的帧间预测方式不同于所述第一中间帧的其余编码单元的编码信息中的帧间预测方式的情况下,根据所述第一中间帧的所述部分编码单元对应的区域确定所述第一中间帧的特征区域。
上述步骤S1221中,对于一帧图像,可以通过比较两两编码单元的帧间预测方式来判断不同编码单元的帧间预测方式是否相同。其中,不同中间帧的不同编码单元的帧间预测方式可以直接从编码数据中获取。
包含上述步骤S1221的该些实施例中,对于一个中间帧图像,若其中不同编码单元的帧间预测方式不同,则该两个编码单元极有可能是特征区域,所以,据此确定相应中间帧的特征区域,可以使得所得特征区域更全面。
步骤S130:在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元。
在该步骤S130中,在提取出中间帧的特征区域之后,可以根据该中间帧的特征区域对应的各运动向量是否较大来判断该特征区域是否运动较大。若某中间帧的特征区域的运动较大,则可考虑用来确定为取样单元的内容。当然,在确定最终是否将该特征区域确定为取样单元的内容时,可以进一步附加其他判断条件。若该第一中间帧的特征区域符合被划为取样单元的内容时,可以为该特征区域设置取样标志,以便于最终一起获取采样数据,或者,可以每次判断特征区域可以作为取样内容后直接获取该特征区域的数据,并可以进行标记或划分至不同的单元。
该步骤S130是示例性说明了根据某一中间帧的特征区域确定取样单元的过程。而对于该确定取样单元的方式或具体实施过程可以同样适用于为其他特征区域划定取样单元。
步骤S140:根据所述第一取样单元确定对所述视频采样的数据。
如果视频包含的帧数非常少的,或者提取的所有中间帧的特征区域非常少,或者网络模型能够接收的输入很大,可以将一段视频的所有或大部分中间帧的特征区域划分至一个取样单元。反之,可以将视频的那些中间帧的特征区域划分成多个取样单元,每个取样单元可以作为网络模型的一个输入。一段视频对应的所有取样单元可以构成网络模型的一组输入,该组输入可以作为网络模型的一个训练样本,不同段视频可以形成网络模块的不同训练样本。
上述步骤S140中,可以根据划定好的取样单元,获取各取样单元中特征区域的数据。对网络模型进行训练的样本可以是直接获得的编码数据,或者可以是对获得的编码数据进行解码后的数据,具体地,可视网络模型所接收的输入数据的情况来确定。
在一些实施例中,该步骤S140之前,即,根据所述第一取样单元确定对所述视频采样的数据之前,各实施例所述视频行为数据采样方法还可包括步骤:S151,从所述视频的编码数据中提取所述视频的第二中间帧的包括运动向量的编码信息;S152,根据所述第二中间帧的不同编码单元的编码信息之间的差异情况确定所述第二中间帧的特征区域;S153,在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,则根据所述第二中间帧的特征区域更新所述第一取样单元。该步骤S140,即,根据所述第一取样单元确定对所述视频采样的数据,具体地,可包括步骤:S141,根据更新后的所述第一取样单元确定对所述视频采样的数据。
上述步骤S151和步骤S152可以类似于提取第一中间帧的特征区域的实施方式。上述步骤S153中,特征区域的范围可以是指边界范围,可以用于表示该特征区域的边界形状和范围大小,例如,视频中挥动的拳头若基本显示在帧图像中,则该拳头所占的区域的范围变化很小,若该拳头被身体遮挡或挥出相机镜头,则帧图像中拳头的图像区域范围发生了变化。通过判断一帧图像的特征区域的范围变化是否小于或等于设定范围变化阈值,可以判断该特征区域的范围是否未发生变化。
若第二中间帧的特征区域的范围未发生变化,则可以认为第二中间帧的特征区域与上述第一中间帧的特征区域为同一区域,例如,拳头的图像区域,则可化为同一取样单元,从而该取样单元包含多个帧的同一区域,以此,不仅可使该取样单元包含空间信息,还可使其包含时间信息。
包含上述步骤S151至步骤S153的该些实施例中,在提取完第一中间帧的特征区域,并根据该第一中间帧的特征区域确定了第一取样单元后,可以再提取第二中间帧的特征区域,若该第二中间帧符合条件,可以将该第二中间帧的特征区域划入第一取样单元,以此,不断提取新的中间帧的特征区域,若符合条件,可以划入第一取样单元。如此一来,一个取样单元可以包含至少一个中间帧的特征区域,该取样单元可以作为用来训练成视频行为识别模型的神经网络的一个输入单元。
进一步的一些实施例中,在视频中,可能会连续许多中间帧的特征区域的范围变化很小且运动明显,则均可以考虑划分到上第一取样单元中。但若取样单元的数据量太大,则不适合作为网络模型的输入。对此,可以通过限制取样单元的特征区域的个数或称为帧的数量,来限制取样单元的数据量。
示例性地,上述步骤S153,即,在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,则根据所述第二中间帧的特征区域更新所述第一取样单元,更具体地,可包括步骤:S1531,在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,且所述第一取样单元中的帧间隔范围小于设定帧间隔阈值范围,则根据所述第二中间帧的特征区域更新所述第一取样单元。
上述步骤S1531中,该设定帧间隔阈值范围可以用来限制一个取样单元中的特征区域的个数或称为帧的数量。在一帧一帧提取特征区域的情况下,该设定帧间隔阈值范围也可以用来限制用来提取特征区域的帧的数量,此种情况下,帧间隔内可以有部分帧没有成功提取出特征区域。该设定帧间隔阈值范围的大小可以根据视频中各帧特征区域的情况和网络模型所接收输入的情况来确定。
该实施例中,每次可以向第一取样单元中添加一个中间帧的特征区域,经过多次添加,该第一取样单元中可能包含多个中间帧的特征区域,随着该第一取样单元中中间帧的特征区域增多,该取样单元所占数据空间也越来越大,而神经网络模型所能接收的每个输入的大小往往是有限的,所以,通过设置帧间隔阈值范围,可以将每个取样单元中的中间帧的特征区域对应的帧的数量控制在一定范围内,从而保证取样单元不致过大。另外,若特征区域的范围变化不大,可以认为原特征区域仍显示在画面里,此时,很有可能是一个行为,所以放在一个取样单元里,使得取样划分更合理。
上述第一中间帧和上述第二中间帧仅是用来示例性说明的两个中间帧,其中,第一中间帧和第二中间帧可以相邻或不相邻,且先后顺序、是否是第一帧或最后一针均可不限定,具体地,例如,第一中间帧是第一个关键帧的下一帧,该第二中间帧是第一中间帧的下一帧。
提取第二中间帧的特征区域后,若尚未达到设定帧间隔阈值范围,可以通过上述步骤S1531,将提取第二中间帧的特征区域划入上述第一取样单元;若已达到设定帧间隔阈值范围,则可以将第二中间帧的特征区域划入新的取样单元。
示例性地,上述步骤S153之前,即,在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,则根据所述第二中间帧的特征区域更新所述第一取样单元之前,各实施例所述方法还可包括步骤:S1532,在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,但所述第一取样单元中的帧间隔范围等于设定帧间隔阈值范围,则根据所述第二中间帧的特征区域确定所述视频的第二取样单元。上述步骤S140,即,根据所述第一取样单元确定对所述视频采样的数据,具体地,可包括步骤:S1411,根据所述第一取样单元和所述第二取样单元确定对所述视频采样的数据。
上述步骤S1532中,根据所述第二中间帧的特征区域确定所述视频的第二取样单元的具体实施方式可以参照上述根据所述第一中间帧的特征区域确定所述视频的第一取样单元的实施例。该第二取样单元之前或之后还可划入其他中间帧的特征区域。上述步骤S1411中,第一取样单元仅是指某个取样单元,第二取样单元仅是表示相对于第一取样单元是一个新的取样单元。
包含上述步骤S1532的该些实施例中,若第一取样单元中的中间帧的数量已达到设定的帧间隔阈值范围,则可以将新的中间帧的特征区域划入第二取样单元,以防第一取样单元所占空间太大。
各实施例中,可以通过设置取样标志来标记取样单元。示例性地,该步骤S130中,根据所述第一中间帧的特征区域确定第一取样单元,具体地,可包括步骤:S131,为所述第一中间帧的特征区域设置第一取样标志,以标记所述视频的第一取样单元的内容。
该实施例中,根据取样标志能够便于在取样判断整个过程完成以后再获取最终的取样单元的结果。另外,根据取样标志还可以区分不同的取样单元,从而便于得到网络的不同输入。
在一些实施例中,上述步骤S1531,即,根据所述第二中间帧的特征区域更新所述第一取样单元,具体地,可包括步骤:S15311,为所述第二中间帧的特征区域设置所述第一取样标志,以增加标记所述第一取样单元的内容。上述步骤S141,即,根据更新后的所述第一取样单元确定对所述视频采样的数据,具体地,可包括步骤:根据所述第一取样标志确定对所述视频采样的数据。
该实施例中,更新取样单元意味着划入新的特征区域至该取样单元。通过添加新的取样标志来更新取样单元,能够便于标记特征区域,从而便于获取取样单元的数据。
第二中间帧的特征区域的范围相对于第一中间帧的特征区域的范围可能已经发生变化,例如,挥动的拳头挥出相机镜头。在此情况下,则特征区域很可能发生了变化,此时,可以将变化后的特征区域划入新的取样单元。
示例性地,上述步骤S1531之前,即,根据所述第二中间帧的特征区域更新所述第一取样单元之前,各实施例所述的方法还可包括步骤:S1533,在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化大于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,则根据所述第二中间帧的特征区域确定所述视频的第二取样单元。上述步骤S140,即,根据所述第一取样单元确定对所述视频采样的数据,具体地,可包括步骤:S142,根据所述第一取样单元和所述第二取样单元确定对所述视频采样的数据。
该实施例中,随着中间帧的推移,当特征区域的范围发生较大变化时,画面中的特征区域可能已经发生较大变化,在此情况下,将范围变化后的中间帧的特征区域划分至下一个取样单元,使得取样单元的划分更合理。
各实施例中,可以一帧一帧地读取中间帧的编码信息。示例性地,所述第二中间帧可以是所述第一中间帧的下一帧,所述第一中间帧和所述第二中间帧均是基于所述视频中的第一关键帧解码。
在一帧一帧读取编码信息的情况下,有时会读取到关键帧,那么关键帧不存在运动向量等信息,实际上关键帧的特征区域可以用各基于其的中间帧的特征区域来表示,在此情况下,可以跳过关键帧,继续读取中间帧来提取特征区域。当然,中间帧所基于的关键帧发生变化,那么,新的中间帧的特征区域也很可能发生了较大变化,在此情况下,可以将新的关键帧的中间帧的特征区域划入新的取样单元。
示例性地,通过上述步骤S151~S153对第二中间帧进行特征提取并确定取样单元。在此情况下,进一步地,上述步骤S140之前,即,根据所述第一取样单元确定对所述视频采样的数据之前,各实施例所述的方法还可包括步骤:S161,在所述第二中间帧的下一帧为第二关键帧的情况下,从所述视频的编码数据中提取位于所述第二中间帧的下一帧的下一帧的第三中间帧的包括运动向量的编码信息;S162,根据所述第三中间帧的不同编码单元的编码信息之间的差异情况确定所述第三中间帧的特征区域;S163,在确定的所述第三中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第三中间帧的特征区域确定第三取样单元。上述步骤S141,即,根据更新后的所述第一取样单元确定对所述视频采样的数据,更具体地,可包括步骤:S1421,根据所述第三取样单元和更新后的所述第一取样单元确定对所述视频采样的数据。
该实施例中,可以通过一帧一帧地去读帧的编码信息,来提取帧的特征区域,当遇到中间帧时,可以进行特征区域的提取,当遇到关键帧时,可以跳过该关键帧,继续读取下一帧的信息。当然,一般情况下,不同关键帧之后的中间帧解码所基于的关键帧不同,所以,一帧关键帧前后的中间帧的具体编码信息的基准可不同。
通过上述步骤S151~S153对第二中间帧进行特征提取并确定取样单元。对于相邻两关键帧之间的中间帧,若连续多帧的特征区域的运动变化都较小,则该些特征区域很有可能不能体现视频中的行为信息,在此情况下,可以舍弃该些特征区域。
示例性地,上述步骤S140之前,即,根据所述第一取样单元确定对所述视频采样的数据之前,各实施例所述的方法还可包括步骤:S171,在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量和确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量均小于设定运动阈值,且包括所述第一中间帧的特征区域和所述第二中间帧的特征区域的所有基于同一关键帧的中间帧的特征区域对应的帧数等于设定帧间隔阈值,则放弃根据所述第一中间帧的特征区域和所述第二中间帧的特征区域确定取样单元。
该步骤S171中,放弃根据所述第一中间帧的特征区域和所述第二中间帧的特征区域确定取样单元可以是指不将第一中间帧的特征区域和所述第二中间帧的特征区域纳入视频的采样数据。
该实施例中,若中间帧中编码单元的运动向量小于设定运动阈值,则可以认为该特征区域在画面中的运动较小,若设定帧间隔阈值内的中间帧的运动向量均较小,则可以认为帧的特征区域的运动连续较小。如果相邻两个关键帧之间的中间帧的特征区域连续运动较小,则该特征区域可能一直没有什么变化,对行为识别的帮助很可能很小,所以,可以放弃采集该种特征区域用来训练网络。
在一些实施例中,通过上述步骤S151~S153对第二中间帧进行特征提取并确定取样单元。在此情况下,进一步地,上述步骤S140之前,即,根据所述第一取样单元确定对所述视频采样的数据之前,各实施例所述的方法还可包括步骤:S181,从所述视频的编码数据中提取所述视频的设定帧间隔阈值范围内的其余所有中间帧相对于所述第一关键帧的包括运动向量的编码信息;所述其余所有中间帧的解码依据均包括所述第一关键帧;所述第一中间帧和所述第二中间帧均位于所述设定帧间隔阈值范围内;S182,根据所述其余所有中间帧中的每帧的至少一个编码单元的编码信息确定相应帧的特征区域;S183,根据所述其余所有中间帧对应的所有特征区域确定所述视频的至少一个第四取样单元。上述步骤S141,即,根据所述根据更新后的所述第一取样单元确定对所述视频采样的数据,更具体地,可包括步骤:S1431,根据所述至少一个第四取样单元和更新后的所述第一取样单元确定对所述视频采样的数据。
上述步骤S181至步骤S183,可以将两相邻关键帧之间的所有中间帧的特征区域都提取出来,这些中间帧的特征区域可以划分为多个取样单元,以此,可以对各相邻两关键帧之间的中间帧进行特征区域提取并划分取样单元。
该实施例中,可以针对相邻关键帧之间的所有中间帧都进行特征提取,根据存在特征区域的中间帧,可以根据具体情况划分取样单元,从而可以得到至少一个取样单元。
在视频中,由于拍摄该视频的相机发生移动,那么视频画面的绝大部分区域都在运动,那么这些运动是整体性的运动,对行为识别没有太大帮助,甚至会对网络训练造成干扰。所以,可以采取一些措施,避免从视频中采样到该些整体性的运动的数据。
示例性地,上述步骤S130,即,在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元,具体地,可包括步骤:S132,在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,若确定的所述第一中间帧的特征区域占所述第一中间帧的所有区域的比例小于或等于设定比例阈值,则根据所述第一中间帧的特征区域确定对所述视频采样的数据。
上述步骤S132中,该设定比例阈值可以根据视频中待识别行为的情况来确定。可以通过判断一帧中间帧的特征区域占整个图像的情况,来判断是否图像中的大部分区域都在运动。
该实施例中,通过判断从中间帧中提取的特征区域在整个画面中的占比,可以得知是否整个画面或其大部分区域发生了运动,从而可以判断中间帧的画面中的运动是否为相机移动,只有在中间帧的特征区域不属于不是相机移动的情况下,才采样这些特征区域,以此,可以便于避免采集到的这些由于相机运动而带来的特征区域。
在另一些实施例中,一帧图像的特征区域占整个图像的比例比较大,则可舍弃这样的特征区域。示例性地,上述步骤S130,即,在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元,具体地,可包括步骤:S133,在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,若确定的所述第一中间帧的特征区域占所述第一中间帧的所有区域的比例大于设定比例阈值,则放弃根据所述第一中间帧的特征区域确定第一取样单元。
该实施例中,若判断中间帧的特征区域存在或属于相机移动,则可以放弃该帧的特征区域,不做进一步处理。
本发明实施例还提供了一种视频行为识别模型生成方法,如图2所示,该方法可包括:
步骤S210,利用上述各实施例所述的视频行为数据采样方法分别对多个视频进行采样,并根据每个所述视频的采样结果生成一个训练样本;
步骤S220,利用所有所述视频对应形成的训练样本对初始神经网络进行训练,得到视频行为识别模型。
上述步骤S210中,对于一段视频,可以利用本发明实施例的视频行为数据采样方法进行采样,得到多个取样单元,用于形成一个训练样本。多段视频可以对应形成多个训练样本。视频中的行为是已知的,可以用来给训练样本添加行为内容的标签。
上述步骤S220中,该初始神经网络可以是各种能够用来进行图像识别的神经网络结构,例如,C3D网络结构。
类似于上述步骤S210,可以利用本发明实施例的视频行为数据采样方法进行采样形成多个测试样本,以对训练好的模型进行测试。
在一些实施例中,上述步骤S210中,根据每个所述视频的采样结果生成一个训练样本,具体地,可包括步骤:S211,根据从一个视频获取的包括第一取样单元的各取样单元的编码数据生成数据集,作为对该视频采样的数据;或者,根据从该视频获取的包括第一取样单元的各取样单元的编码数据的解码结果生成数据集,作为对该视频采样的数据。
本发明实施例另提供了一种视频行为识别方法,该方法可包括步骤:S310,利用上述各实施例所述的视频行为识别模型生成方法生成的视频行为识别模型识别设定视频中的行为。
本发明实施例又提供了一种电子设备,其上存储有计算机程序,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各实施例所述的采样方法、模型生成方法、或行为识别方法的步骤。
本发明实施例再提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各实施例所述的采样方法、模型生成方法、或行为识别方法的步骤。
为使本领域技术人员更好地了解本发明,下面将以具体实施例说明本发明的实施方式。
为了解决(克服)现有技术的问题(缺陷),一个实施例的面向视频行为识别的采用方法,可包含两部分:首先对高清视频流进行分析,提取关键帧和特征区域;随后使用关键帧和特征区域作为训练数据,搭建神经网络。算法核心可在于对视频流的分析,包括对编码方式和编码数据的联合分析,如根据运动向量和残差判断图像色块的运动状态,根据帧内编码方式和残差判断图像纹理以及图像纹理。通过上述分析,从视频流中提取出特征区域并解码获得区域图像,作为神经网络的输入数据,从而获得更好的训练效果。在使用神经网络进行动作识别时,使用同样的分析方法,选取特征区域作为输入的识别图像。
图3是本发明一实施例的整体流程示意图。参见图3,一实施例中,整体流程可包括:首先对视频数据集进行采样,再使用采样的数据集作为深度学习的输入数据,对神经网络进行训练,最后再使用采样后的验证集对神经网络进行验证。
图4是本发明一具体实施例的视频采样方法的流程示意图。参见图4,采样之前可以设置设定残差阈值Rth,运动阈值MVth,帧间隔阈值Fth,变化阈值Cth,然后,对视频进行采样,可包括以下步骤:
S1:获取编码后的视频数据:以视频的第一帧(i帧)为取样起点,取该i帧后的第一个p帧,并根据残差以及运动向量划定特征区域;
S2:判断是否存在特征区域:如果不存在特征区域,获取视频编码后的第一个i帧和第一个p帧,设定i帧为第一个取样起点,遍历p帧的帧间预测方式、预测残差以及运动向量;将运动向量以及预测残差相近的编码单元视为一个特征区域,并对特征区域进行标记(可能存在多个特征区域);
S3:如果存在特征区域,判断是否存在摄像机移动:i帧密集或大部分编码单元有运动向量;如果存在i帧密集或大部分编码单元有运动向量,则相机移动,则等待到达相机稳定的帧;如果不存在i帧密集或大部分编码单元有运动向量,则认为相机稳定,继续执行后续识别步骤;
S4:判断特征区域范围和运动变化情况:如果变化大于变化阈值Cth则标记为新的取样标志;如果变化小于变化阈值Cth则沿用上一个取样标志;
S5:对于沿用取样起点的区域,判断区域阈值:如果运动向量在帧间隔阈值Fth范围里连续小于运动阈值MVth,则认为该特征区域中没有运动,并抛弃该区域;如果运动向量在帧间隔阈值Fth范围里大于运动阈值MVth,则该特征区域中存在运动,将上一帧的特征区域与本帧的特征区域取并集,作为新的特征区域;
S6:判断此时特征区域的积累数量,当到达帧间隔阈值Fth时则设立取样标志;
S7:如果视频未结束则取下一帧,返回步骤S1继续提取新的帧的特征区域;
S8:提取每两个取样标志之间的特征区域作为视频取样结果。
该些实施例中,以编码后的视频数据作为输入,能够减少冗余信息对行为识别的影响;对相机移动进行判定,判断相机是否移动,能够减少相机移动对行为识别的影响;对特征区域进行识别,通过分析帧间预测方式、预测残差以及运动向量来识别运动特征明确的区域;对特征区域进行筛选,根据残差阈值、运动阈值、帧间隔阈值判断特征区域的保留或者合并;对取样标志进行确定,子取样区间的分隔符,最终在取样标志之间选取特征区域作为该范围的取样结果。
与现有技术相比,本些实施例的视频采样方法使智能视频行为识别算法使用更高清的输入作为输入数据,扩大了智能行为识别算法的数据集,并且能有效提升现有算法的识别精度。主要原因包括:第一,使用视频编码数据作为输入,减小了视频中的冗余信息对神经网络训练的影响;第二,使用特征区域作为图像的表达方式,输入图片相较于原视频帧大大减小,因此可以更快速识别高清视频;第三,获得的视频采样集图片为运动的核心区域,因此输入神经网络的无效信息更少,从而提升学习精度。
综上所述,本发明实施例的视频行为数据采样方法、视频行为识别模型生成方法、视频行为识别方法、电子设备及计算机可读存储介质,通过从视频的编码数据中提取所述视频的第一中间帧的编码信息,根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域,在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元,以及根据所述第一取样单元确定对所述视频采样的数据,能够获得的视频采样图像集的运动核心区域,减少视频中的冗余信息对神经网络训练的影响,并能保留视频中对神经网络训练最有效的信息,因此,能够实现对视频进行有效采样,从而提升神经网络的学习精度,从而提高视频行为识别的效果。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (22)

1.一种视频行为数据采样方法,其特征在于,包括:
从视频的编码数据中提取所述视频的第一中间帧的编码信息;所述编码信息包括运动向量;
根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域;
在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元;
根据所述第一取样单元确定对所述视频采样的数据。
2.如权利要求1所述的视频行为数据采样方法,其特征在于,根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域,包括:
在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值的情况下,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域。
3.如权利要求2所述的视频行为数据采样方法,其特征在于,所述编码信息还包括预测残差;
在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值的情况下,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域,包括:
在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值,且所述第一中间帧的各所述编码单元的编码信息中的预测残差均小于或等于设定残差阈值的情况下,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域。
4.如权利要求3所述的视频行为数据采样方法,其特征在于,在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值的情况下,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域,包括:
在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值,但所述第一中间帧的各所述编码单元的编码信息中的预测残差大于设定残差阈值的情况下,若所述第一中间帧的所述不同编码单元的编码信息中的预测残差两两之间的差异小于或等于设定残差差异阈值,则根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域。
5.如权利要求2所述的视频行为数据采样方法,其特征在于,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域,包括:
将所述第一中间帧的所有所述编码单元对应的区域确定为所述第一中间帧的特征区域。
6.如权利要求1所述的视频行为数据采样方法,其特征在于,所述编码信息还包括帧间预测方式;
根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域,包括:
在所述第一中间帧的部分编码单元的编码信息中的帧间预测方式不同于所述第一中间帧的其余编码单元的编码信息中的帧间预测方式的情况下,根据所述第一中间帧的所述部分编码单元对应的区域确定所述第一中间帧的特征区域。
7.如权利要求1至6任一项所述的视频行为数据采样方法,其特征在于,
根据所述第一取样单元确定对所述视频采样的数据之前,所述方法还包括:
从所述视频的编码数据中提取所述视频的第二中间帧的包括运动向量的编码信息;
根据所述第二中间帧的不同编码单元的编码信息之间的差异情况确定所述第二中间帧的特征区域;
在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,则根据所述第二中间帧的特征区域更新所述第一取样单元;
根据所述第一取样单元确定对所述视频采样的数据,包括:
根据更新后的所述第一取样单元确定对所述视频采样的数据。
8.如权利要求7所述的视频行为数据采样方法,其特征在于,在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,则根据所述第二中间帧的特征区域更新所述第一取样单元,包括:
在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,且所述第一取样单元中的帧间隔范围小于设定帧间隔阈值范围,则根据所述第二中间帧的特征区域更新所述第一取样单元。
9.如权利要求8所述的视频行为数据采样方法,其特征在于,在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,则根据所述第二中间帧的特征区域更新所述第一取样单元之前,所述方法还包括:
在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,但所述第一取样单元中的帧间隔范围等于设定帧间隔阈值范围,则根据所述第二中间帧的特征区域确定所述视频的第二取样单元;
根据所述第一取样单元确定对所述视频采样的数据,包括:
根据所述第一取样单元和所述第二取样单元确定对所述视频采样的数据。
10.如权利要求7所述的视频行为数据采样方法,其特征在于,
根据所述第一中间帧的特征区域确定第一取样单元,包括:
为所述第一中间帧的特征区域设置第一取样标志,以标记所述视频的第一取样单元的内容;
根据所述第二中间帧的特征区域更新所述第一取样单元,包括:
为所述第二中间帧的特征区域设置所述第一取样标志,以增加标记所述第一取样单元的内容;
根据更新后的所述第一取样单元确定对所述视频采样的数据,包括:
根据所述第一取样标志确定对所述视频采样的数据。
11.如权利要求7所述的视频行为数据采样方法,其特征在于,根据所述第二中间帧的特征区域更新所述第一取样单元之前,所述方法还包括:
在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化大于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,则根据所述第二中间帧的特征区域确定所述视频的第二取样单元;
根据所述第一取样单元确定对所述视频采样的数据,包括:
根据所述第一取样单元和所述第二取样单元确定对所述视频采样的数据。
12.如权利要求7所述的视频行为数据采样方法,其特征在于,所述第二中间帧是所述第一中间帧的下一帧,所述第一中间帧和所述第二中间帧均是基于所述视频中的第一关键帧解码。
13.如权利要求12所述的视频行为数据采样方法,其特征在于,
根据所述第一取样单元确定对所述视频采样的数据之前,所述方法还包括:
在所述第二中间帧的下一帧为第二关键帧的情况下,从所述视频的编码数据中提取位于所述第二中间帧的下一帧的下一帧的第三中间帧的包括运动向量的编码信息;
根据所述第三中间帧的不同编码单元的编码信息之间的差异情况确定所述第三中间帧的特征区域;
在确定的所述第三中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第三中间帧的特征区域确定第三取样单元;
根据更新后的所述第一取样单元确定对所述视频采样的数据,包括:
根据所述第三取样单元和更新后的所述第一取样单元确定对所述视频采样的数据。
14.如权利要求7所述的视频行为数据采样方法,其特征在于,根据所述第一取样单元确定对所述视频采样的数据之前,所述方法还包括:
在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量和确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量均小于设定运动阈值,且包括所述第一中间帧的特征区域和所述第二中间帧的特征区域的所有基于同一关键帧的中间帧的特征区域对应的帧数等于设定帧间隔阈值,则放弃根据所述第一中间帧的特征区域和所述第二中间帧的特征区域确定取样单元。
15.如权利要求12所述的视频行为数据采样方法,其特征在于,
根据所述第一取样单元确定对所述视频采样的数据之前,所述方法还包括:
从所述视频的编码数据中提取所述视频的设定帧间隔阈值范围内的其余所有中间帧相对于所述第一关键帧的包括运动向量的编码信息;所述其余所有中间帧的解码依据均包括所述第一关键帧;所述第一中间帧和所述第二中间帧均位于所述设定帧间隔阈值范围内;
根据所述其余所有中间帧中的每帧的至少一个编码单元的编码信息确定相应帧的特征区域;
根据所述其余所有中间帧对应的所有特征区域确定所述视频的至少一个第四取样单元;
根据所述根据更新后的所述第一取样单元确定对所述视频采样的数据,包括:
根据所述至少一个第四取样单元和更新后的所述第一取样单元确定对所述视频采样的数据。
16.如权利要求1至6任一项所述的视频行为数据采样方法,其特征在于,在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元,包括:
在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,若确定的所述第一中间帧的特征区域占所述第一中间帧的所有区域的比例小于或等于设定比例阈值,则根据所述第一中间帧的特征区域确定对所述视频采样的数据。
17.如权利要求16所述的视频行为数据采样方法,其特征在于,在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元,还包括:
在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,若确定的所述第一中间帧的特征区域占所述第一中间帧的所有区域的比例大于设定比例阈值,则放弃根据所述第一中间帧的特征区域确定第一取样单元。
18.一种视频行为识别模型生成方法,其特征在于,包括:
利用如权利要求1至17所述的视频行为数据采样方法分别对多个视频进行采样,并根据每个所述视频的采样结果生成一个训练样本;
利用所有所述视频对应形成的训练样本对初始神经网络进行训练,得到视频行为识别模型。
19.如权利要求18所述的视频行为识别模型生成方法,其特征在于,根据每个所述视频的采样结果生成一个训练样本,包括:
根据从一个视频获取的包括第一取样单元的各取样单元的编码数据生成数据集,作为对该视频采样的数据;或者,根据从该视频获取的包括第一取样单元的各取样单元的编码数据的解码结果生成数据集,作为对该视频采样的数据。
20.一种视频行为识别方法,其特征在于,包括:
利用如权利要求18或19所述的视频行为识别模型生成方法生成的视频行为识别模型识别设定视频中的行为。
21.一种电子设备,其上存储有计算机程序,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至20任一项所述方法的步骤。
22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至20任一项所述方法的步骤。
CN201911190802.2A 2019-11-28 2019-11-28 采样方法、模型生成方法、视频行为识别方法及装置 Active CN111079567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911190802.2A CN111079567B (zh) 2019-11-28 2019-11-28 采样方法、模型生成方法、视频行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911190802.2A CN111079567B (zh) 2019-11-28 2019-11-28 采样方法、模型生成方法、视频行为识别方法及装置

Publications (2)

Publication Number Publication Date
CN111079567A true CN111079567A (zh) 2020-04-28
CN111079567B CN111079567B (zh) 2020-11-13

Family

ID=70312174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911190802.2A Active CN111079567B (zh) 2019-11-28 2019-11-28 采样方法、模型生成方法、视频行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN111079567B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112565763A (zh) * 2020-11-30 2021-03-26 北京达佳互联信息技术有限公司 异常图像样本生成方法及装置、图像检测方法及装置
CN113014923A (zh) * 2021-03-03 2021-06-22 西北工业大学 一种基于压缩域表征运动向量的行为识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060193387A1 (en) * 2001-01-08 2006-08-31 Canon Kabushiki Kaisha Extracting key frames from a video sequence
US20070025442A1 (en) * 2005-07-28 2007-02-01 Sanyo Electric Co., Ltd. Coding method for coding moving images
CN103618900A (zh) * 2013-11-21 2014-03-05 北京工业大学 基于编码信息的视频感兴趣区域提取方法
CN105095866A (zh) * 2015-07-17 2015-11-25 重庆邮电大学 一种快速行为识别方法和系统
CN108717703A (zh) * 2018-03-26 2018-10-30 杭州电子科技大学 一种基于hevc的运动目标检测和跟踪方法
CN108886639A (zh) * 2016-02-02 2018-11-23 弗劳恩霍夫应用研究促进协会 视频流传输中的场景部分和感兴趣区域处理

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060193387A1 (en) * 2001-01-08 2006-08-31 Canon Kabushiki Kaisha Extracting key frames from a video sequence
US20070025442A1 (en) * 2005-07-28 2007-02-01 Sanyo Electric Co., Ltd. Coding method for coding moving images
CN103618900A (zh) * 2013-11-21 2014-03-05 北京工业大学 基于编码信息的视频感兴趣区域提取方法
CN105095866A (zh) * 2015-07-17 2015-11-25 重庆邮电大学 一种快速行为识别方法和系统
CN108886639A (zh) * 2016-02-02 2018-11-23 弗劳恩霍夫应用研究促进协会 视频流传输中的场景部分和感兴趣区域处理
CN108717703A (zh) * 2018-03-26 2018-10-30 杭州电子科技大学 一种基于hevc的运动目标检测和跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHAO-YUAN WU,ET AL.: "Compressed Video Action Recognition", 《ARXIV:1712.00636V2》 *
尹烁: "基于HEVC压缩域的车辆行为事件检测研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *
李宏亮: "基于MPEG压缩域的快速、鲁棒的全局运动信息提取方法", 《电子学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112565763A (zh) * 2020-11-30 2021-03-26 北京达佳互联信息技术有限公司 异常图像样本生成方法及装置、图像检测方法及装置
CN113014923A (zh) * 2021-03-03 2021-06-22 西北工业大学 一种基于压缩域表征运动向量的行为识别方法
CN113014923B (zh) * 2021-03-03 2022-12-06 西北工业大学 一种基于压缩域表征运动向量的行为识别方法

Also Published As

Publication number Publication date
CN111079567B (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
Khatoonabadi et al. Video object tracking in the compressed domain using spatio-temporal Markov random fields
JP2809659B2 (ja) ビデオ画像処理
US7616782B2 (en) Mesh based frame processing and applications
JP4004653B2 (ja) 動きベクトル検出方法および装置、記録媒体
Biswas et al. Real time anomaly detection in H. 264 compressed videos
CN111079567B (zh) 采样方法、模型生成方法、视频行为识别方法及装置
CN112561951B (zh) 一种基于帧差绝对误差和sad的运动和亮度检测方法
Ujiie et al. Interpolation-based object detection using motion vectors for embedded real-time tracking systems
dos Santos et al. CV-C3D: action recognition on compressed videos with convolutional 3d networks
CN110944201A (zh) 一种视频去重压缩的方法、装置、服务器及存储介质
CN116363554A (zh) 一种监控视频关键帧提取方法、系统、介质、设备及终端
CN112883940A (zh) 静默活体检测方法、装置、计算机设备及存储介质
KR20110099047A (ko) 영상 디스크립터 생성 장치
Cao et al. Compressed video action recognition with refined motion vector
CN114359333A (zh) 运动目标提取方法、装置、计算机设备和存储介质
KR100453222B1 (ko) 카메라 움직임 판별 장치 및 방법
Laumer et al. Moving object detection in the H. 264/AVC compressed domain
EP2309452A1 (en) Method and arrangement for distance parameter calculation between images
CN113422959A (zh) 视频编解码的方法、装置、电子设备及存储介质
CN116233479A (zh) 基于数据处理的直播信息内容审核系统及方法
Moura et al. A spatiotemporal motion-vector filter for object tracking on compressed video
CN115439367A (zh) 一种图像增强方法、装置、电子设备及存储介质
CN105357494B (zh) 视频编解码方法、装置
CN112861698B (zh) 一种基于多尺度时序感受野的压缩域行为识别方法
CN115239551A (zh) 视频增强方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant