CN111209774B - 目标行为识别及显示方法、装置、设备、可读介质 - Google Patents

目标行为识别及显示方法、装置、设备、可读介质 Download PDF

Info

Publication number
CN111209774B
CN111209774B CN201811392087.6A CN201811392087A CN111209774B CN 111209774 B CN111209774 B CN 111209774B CN 201811392087 A CN201811392087 A CN 201811392087A CN 111209774 B CN111209774 B CN 111209774B
Authority
CN
China
Prior art keywords
target
behavior
video
target object
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811392087.6A
Other languages
English (en)
Other versions
CN111209774A (zh
Inventor
赵飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201811392087.6A priority Critical patent/CN111209774B/zh
Publication of CN111209774A publication Critical patent/CN111209774A/zh
Application granted granted Critical
Publication of CN111209774B publication Critical patent/CN111209774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种目标行为识别及显示方法、装置、设备、可读介质,该方法包括:跟踪视频中待进行行为识别的目标对象,以确定目标对象在视频的各视频帧中的位置信息;从视频中确定出至少一个目标子序列;目标子序列包含与目标对象的行为相关的视频帧;针对每个目标子序列,依据目标对象的位置信息截取目标子序列的视频帧中目标对象所处的目标区域,并确定目标子序列对应的包含多个目标区域的时空立方序列;将各个时空立方序列分别输入至已训练的第一神经网络中,以由第一神经网络对时空立方序列执行行为分类处理、并输出对应的分类置信度;依据分类置信度确定目标对象在视频中的行为。可避免在目标对象占比较小时出现识别准确度明显下降的问题。

Description

目标行为识别及显示方法、装置、设备、可读介质
技术领域
本发明涉及监控技术领域,尤其涉及的是一种目标行为识别及显示方法、装置、设备、可读介质。
背景技术
目标行为识别可以应用在视频监控领域中,应用场景很广泛,可包括安防系统,病人监护系统,人机交互,虚拟现实,智能家居,运动员辅助训练等。目标行为识别即从视频或者是图像序列中分析出目标进行的行为。
相关的目标行为识别方式中,将需要进行目标行为识别的视频帧串成视频帧序列,将视频帧序列输入至已训练的神经网络中,通过神经网络对视频帧序列进行特征提取并利用提取的特征识别出目标对象的行为,实现端到端的行为识别。
上述目标行为识别方式中,提取特征描述时往往要求目标对象占比较大,一旦目标对象占比较小就无法提取出合适的序列特征,出现识别准确度明显下降的问题。
发明内容
有鉴于此,本发明提供一种目标行为识别及显示方法、装置、设备、可读介质,可避免在目标对象占比较小时出现识别准确度明显下降的问题。
本发明第一方面提供一种目标行为识别方法,包括:
跟踪视频中待进行行为识别的目标对象,以确定所述目标对象在视频的各视频帧中的位置信息;
从所述视频中确定出至少一个目标子序列;所述目标子序列包含与所述目标对象的行为相关的视频帧;
针对每个所述目标子序列,依据所述目标对象的位置信息截取所述目标子序列的视频帧中目标对象所处的目标区域,并确定所述目标子序列对应的包含多个所述目标区域的时空立方序列;
将各个所述时空立方序列分别输入至已训练的第一神经网络中,以由所述第一神经网络对输入的时空立方序列执行行为分类处理、并输出对应的分类置信度;
依据所述第一神经网络输出的分类置信度确定所述目标对象在所述视频中的行为。
根据本发明的一个实施例,从所述视频中确定出至少一个目标子序列,包括:
遍历所述视频中的指定视频帧,每个指定视频帧之间相隔一定数量L的视频帧;
针对遍历到的视频帧,判断目标对象在所述指定视频帧与所述指定视频帧的前N视频帧中的与行为相关的指定特征是否发生了变化,若是,则将所述指定视频帧及其之后的M个视频帧确定为一目标子序列,所述N大于等于1且小于所述L,所述M大于0。
根据本发明的一个实施例,依据所述目标对象的位置信息截取所述目标子序列的视频帧中目标对象所处的目标区域,包括:
确定所述目标子序列中已跟踪到目标对象的目标视频帧;
依据目标对象在所述目标视频帧中的位置信息确定一区域截取范围;
依次截取出所述目标子序列的各视频帧中处于所述区域截取范围内的区域,并将每次截取出的区域确定为一所述目标区域。
根据本发明的一个实施例,依据目标对象在各目标视频帧中的位置信息确定一区域截取范围,包括:
依据目标对象的位置信息确定出目标对象在各个目标视频帧中水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值;
依据所述水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值确定所述区域截取范围。
根据本发明的一个实施例,所述由所述第一神经网络对输入的时空立方序列执行行为分类处理、并输出对应的分类置信度,包括:
由所述第一神经网络的至少一个3D卷积层对输入的时空立方序列进行特征提取而输出特征向量至所述第一神经网络的全连接层;
由所述第一神经网络的全连接层对所述特征向量执行行为分类处理而确定所述特征向量对应的行为类别,计算并输出所述行为类别对应的分类置信度。
根据本发明的一个实施例,依据所述第一神经网络输出的分类置信度确定各个目标对象在所述视频中的行为,包括:
将所述目标对象对应的所有分类置信度分别进行排序;
将最高分类置信度对应的行为确定为所述目标对象的行为。
本发明第二方面提供一种显示方法,包括:
确定目标时空立方序列,所述目标时空立方序列是如权利要求1-6中任一项所述的目标行为识别方法确定出的行为所对应的时空立方序列;
在目标时空立方序列包含的目标区域所对应的视频帧上标记出对应目标对象;
将标记后的视频帧所在视频进行显示。
本发明第三方面提供一种目标行为识别装置,包括:
目标跟踪模块,用于跟踪视频中待进行行为识别的目标对象,以确定所述目标对象在视频的各视频帧中的位置信息;
子序列确定模块,用于从所述视频中确定出至少一个目标子序列;所述目标子序列包含与所述目标对象的行为相关的视频帧;
时空立方确定模块,用于针对每个所述目标子序列,依据所述目标对象的位置信息截取所述目标子序列的每个视频帧中目标对象所处的目标区域,并确定所述目标子序列对应的包含多个所述目标区域的时空立方序列;
分类计算模块,用于将各个所述时空立方序列分别输入至已训练的第一神经网络中,以由所述第一神经网络对输入的时空立方序列执行行为分类处理、并输出对应的分类置信度;
行为确定模块,用于依据所述第一神经网络输出的分类置信度确定所述目标对象在所述视频中的行为。
根据本发明的一个实施例,所述子序列确定模块包括:
遍历单元,用于遍历所述视频中的指定视频帧,每个指定视频帧之间相隔一定数量L的视频帧;
行为检测单元,用于针对遍历到的视频帧,判断目标对象在所述指定视频帧与所述指定视频帧的前N视频帧中的与行为相关的指定特征是否发生了变化,若是,则将所述指定视频帧及其之后的M个视频帧确定为一目标子序列,所述N大于等于1且小于所述L,所述M大于0。
根据本发明的一个实施例,所述时空立方确定模块包括:
目标视频帧确定单元,用于确定所述目标子序列中已跟踪到目标对象的目标视频帧;
区域截取范围确定单元,用于依据目标对象在所述目标视频帧中的位置信息确定一区域截取范围;
目标区域截取单元,用于依次截取出所述目标子序列的各视频帧中处于所述区域截取范围内的区域,并将每次截取出的区域确定为一所述目标区域。
根据本发明的一个实施例,所述区域截取范围确定单元包括:
坐标确定子单元,用于依据目标对象的位置信息确定出目标对象在各个目标视频帧中水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值;
范围确定子单元,用于依据所述水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值确定所述区域截取范围。
根据本发明的一个实施例,所述分类计算模块包括:
第一计算单元,用于由所述第一神经网络的至少一个3D卷积层对输入的时空立方序列进行特征提取而输出特征向量至所述第一神经网络的全连接层;
第二计算单元,用于由所述第一神经网络的全连接层对所述特征向量执行行为分类处理而确定所述特征向量对应的行为类别,计算并输出所述行为类别对应的分类置信度。
根据本发明的一个实施例,所述行为确定模块包括:
置信度排序单元,用于将所述目标对象对应的所有分类置信度分别进行排序;
行为确定单元,用于将最高分类置信度对应的行为确定为所述目标对象的行为。
本发明第四方面提供一种显示装置,包括:
目标时空立方确定模块,用于确定目标时空立方序列,所述目标时空立方序列是如前述实施例所述的目标行为识别装置确定出的行为所对应的时空立方序列;
目标对象标记模块,用于在目标时空立方序列包含的目标区域所对应的视频帧上标记出对应目标对象;
视频显示模块,用于将标记后的视频帧所在视频进行显示。
本发明第五方面提供一种电子设备,包括处理器及存储器;所述存储器存储有可被处理器调用的程序;其中,所述处理器执行所述程序时,实现如前述实施例所述的目标行为识别方法、或如前述实施例所述的显示方法。
本发明第六方面提供一种机器可读存储介质,其上存储有程序,该程序被处理器执行时,实现如前述实施例所述的目标行为识别方法、或如前述实施例所述的显示方法。
本发明实施例具有以下有益效果:
本发明实施例中,确定出目标对象在视频的各视频帧中的位置信息后,先从视频中初选出与目标对象行为相关的目标子序列,再依据目标对象的位置信息从这些目标子序列中截取目标对象所处的多个目标区域,据此确定时空立方序列,相比于直接对视频进行计算,第一神经网络对时空立方序列进行计算可以大大减少资源损耗,再依据第一神经网络输出的分类置信度确定目标对象的行为有利于提高行为识别的准确度,并且,由于目标区域是去除了视频帧中的大部分背景区域后的区域,也即去除了大部分背景噪声,即使目标对象在视频帧中占比较小,也不会出现识别准确度明显下降的问题。
附图说明
图1是本发明一实施例的目标行为识别方法的流程示意图;
图2是本发明一实施例的目标行为识别装置的结构框图;
图3和图4是本发明一实施例的目标子序列包含的两个视频帧;
图5是本发明一实施例的针对图3和图4示出的目标子序列中视频帧的区域截取范围;
图6是本发明一实施例的显示方法的流程示意图;
图7是本发明一实施例的显示装置的结构框图;
图8是本发明一实施例的电子设备的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种器件,但这些信息不应限于这些术语。这些术语仅用来将同一类型的器件彼此区分开。例如,在不脱离本发明范围的情况下,第一器件也可以被称为第二器件,类似地,第二器件也可以被称为第一器件。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本发明实施例的目标行为识别方法可以应用在视频监控的场景中,比如监控报警系统中,当通过目标行为识别方法从视频中识别出需要报警的行为时,可针对相应行为进行报警。当然具体应用场景可视需要而定,并不限于此。监控所针对的目标对象例如可以是人、车或动物等,可从视频中识别出目标对象所发生的指定行为。
下面对本发明实施例的目标行为识别方法进行具体的描述,但不应以此为限。在一个实施例中,参看图1,目标行为识别方法可以包括以下步骤:
S100:跟踪视频中待进行行为识别的目标对象,以确定所述目标对象在视频的各视频帧中的位置信息;
S200:从所述视频中确定出至少一个目标子序列;所述目标子序列包含与所述目标对象的行为相关的视频帧;
S300:针对每个所述目标子序列,依据所述目标对象的位置信息截取所述目标子序列的视频帧中目标对象所处的目标区域,并确定所述目标子序列对应的包含多个所述目标区域的时空立方序列;
S400:将各个所述时空立方序列分别输入至已训练的第一神经网络中,以由所述第一神经网络对输入的时空立方序列执行行为分类处理、并输出对应的分类置信度;
S500:依据所述第一神经网络输出的分类置信度确定所述目标对象在所述视频中的行为。
本发明实施例的目标行为识别方法的执行主体可以为电子设备,进一步地可以为电子设备的处理器,其中,所述处理器可以为一个或多个,所述处理器可以为通用处理器或者专用处理器。
电子设备例如是可拍摄视频的摄像设备;当然还可以是其他电子设备,可与外部摄像设备连接,获取外部摄像设备所拍摄的视频进行相应的处理。电子设备具体不限,比如可以是计算机设备、可移动机器人设备等,只要能够具备图像处理能力即可。
步骤S100中,跟踪视频中待进行行为识别的目标对象,以确定所述目标对象在视频的各视频帧中的位置信息。
视频可以是一个针对某个场景所拍摄的完整视频、或者是该完整视频中的一个视频段、或者是将两个场景的视频段进行拼接后的视频,具体不限,只要该视频中存在待进行行为识别的目标对象即可。
可采用目标跟踪算法来实现跟踪视频的各视频帧中的目标对象。目标跟踪算法可以包括基于主动轮廓的跟踪、基于特征的跟踪、基于区域的跟踪和基于模型的跟踪等,能够实现目标对象的跟踪即可,在跟踪之后,便可确定目标对象在各视频帧中的位置信息。
比如,基于特征进行目标跟踪时,可先检测出视频帧中的目标对象,再进行帧间目标对象特征的匹配,并以最优匹配来跟踪目标。检测视频帧中的目标对象,可以确定目标对象在该视频帧中的位置信息,但当视频帧中存在多个目标对象时,不同视频帧之间的目标对象就需要进行特征匹配,经过对检测出的目标对象进行特征匹配而实现跟踪后,便可确定出目标对象在视频中的运动轨迹(即在各个视频帧中的位置信息)。
检测视频帧中目标对象的方式比如可以包括:HOG(Histogram of OrientedGridients,方向梯度直方图)特征算法、DPM(Deformable Part Model,可变形的组件模型)算法、Faster-RCNN(一种基于深度学习的目标检测技术)、YOLO算法(You Only Look Once,采用一个单独的CNN模型实现端到端的目标检测)、SSD算法(single shot multiboxdetector,一种直接预测目标框的坐标和类别的目标检测算法)等。
在视频中存在多个目标对象(目标对象的类型可相同或不同)的情况下,在进行目标跟踪后,可以为每个目标对象配置一个对象标识D1,将从每个视频帧中跟踪到的目标对象的位置信息与该目标对象的D1对应地保存,从而可依据D1查找出各个目标对象的运动轨迹。当然,视频中也可仅存在一个目标对象,此时可以为其配置D1,也可以无需配置该D1。
当步骤S100中确定出一个目标对象的位置信息时,可针对该目标对象执行步骤S200-S500;当步骤S100中确定出两个以上目标对象的位置信息时,可针对每个目标对象执行步骤S200-S500。
在步骤S200中,从所述视频中确定出至少一个目标子序列;所述目标子序列包含与所述目标对象的行为相关的视频帧。
目标对象的一个行为可能不会贯穿整个视频,目标对象在一个视频中可能发生不同的行为,比如出现先奔跑再跌倒再奔跑这一系列动作,而且一个视频的数据量太大,所述将整个视频直接用于目标识别是不合适的。
本发明实施例中,从视频中确定出至少一个目标子序列,只要每个目标子序列中包含与目标对象的行为相关的视频帧即可,用目标子序列进行后续步骤处理,在能够实现目标行为识别的情况下,可以减少处理量,并且对行为识别来说更具针对性。
优选来说,从一个视频中可以确定出多个目标子序列。不同目标子序列中发生的可以是相同的行为,也可以是不同的行为。不同目标子序列中所包括的视频帧可以有相同和不同的、也可以全部不同。
可以对视频进行初步的行为检测,每隔几帧检测一次,若检测到则依据检测结果确定一个目标子序列。当然,具体如何确定目标子序列的方式不做限定,比如还可以将视频进行分割成若干视频段,选取其中的视频段作为目标子序列。
具体的,视频比如包括1000个视频帧,帧号为0-999,确定出的目标对象的三个目标子序列分别为:包括帧号为1-60(目标对象发生了奔跑行为)的视频帧的目标子序列、包括帧号为101-160帧(目标对象发生了跌倒行为)的视频帧的目标子序列、包括帧号为401-460帧(目标对象发生了奔跑行为)的视频帧的目标子序列。
步骤S300中,针对每个所述目标子序列,依据所述目标对象的位置信息截取所述目标子序列的视频帧中目标对象所处的目标区域,并确定所述目标子序列对应的包含多个所述目标区域的时空立方序列。
在确定出目标子序列后,对每个目标子序列均进行目标区域的截取处理,依据目标对象的位置信息截取目标子序列的视频帧中目标对象所处的目标区域。
对于每个目标子序列来说,可以从目标子序列的每个视频帧中均截取出一个目标区域,再将截取出的所有目标区域或者从中选取出几个目标区域确定为时空立方序列;或者,可以先从目标子序列中选取出几个视频帧,再从选取出的每个视频帧中截取出目标区域,将截取出的所有目标区域确定为时空立方序列,具体不限。
每个时空立方序列包含多个目标区域。若确定时空立方序列所需的目标区域所在视频帧的帧号不连续,可将这些目标区域先进行序列化,得到序号连续的时空立方序列。
步骤S400中,将各个所述时空立方序列分别输入至已训练的第一神经网络中,以由所述第一神经网络对输入的时空立方序列执行行为分类处理、并输出对应的分类置信度。
时空立方序列的长度可以是统一的,比如都包括16个目标区域,以便共用神经网络。不同时空立方序列中的目标区域的尺寸可视目标对象在对应目标子序列的各个视频帧中的位置及尺寸而定,同一个时空立方序列中各个目标区域的尺寸可以是相同的。
第一神经网络例如可以采用基于网络架构(包含但不限于LSTM,双流网络,C3D,P3D,ArtNet)搭建起来的神经网络(包含但不限于resnet18,resnet50,resnet101,resnet152,inception-v1,VGG)。
第一神经网络是预先训练好的,可以预存在执行本实施例方法的电子设备上并在使用时调用即可,或者在需要使用时从外部进行获取,具体不限。通过训练初始化的第一神经网络,使得第一神经网络可实现对输入的时空立方序列执行行为分类处理、并输出对应的分类置信度的功能。
将每个时空立方序列输入到第一神经网络后,第一神经网络会对输入的时空立方序列执行行为分类处理,也就是对时空立方序列中目标对象的行为进行识别,计算出分类后的行为所对应的分类置信度后输出该分类置信度。
步骤S400中得到的是各个时空立方序列中所发生的行为对应的分类置信度。
步骤S500中,依据所述第一神经网络输出的分类置信度确定所述目标对象在所述视频中的行为。
由于分类置信度代表第一神经网络对行为分类的可靠程度,因而可确定对应行为发生的可能性高低。依据分类置信度确定目标对象发生的行为,比如可以将对应分类置信度较高的行为确定为目标对象发生的行为,或者可以对所有分类置信度进行一定统计之后确定目标对象发生的行为,确定的方式具体不限,所确定出的行为可以是一个或者更多。
当然,第一神经网络还可以将行为类别和对应的分类置信度一并输出,确定出最高分类置信度或者对分类置信度统计之后,方便确定出对应的行为类别。
每个目标对象都有至少一个时空立方序列,对应便会得到第一神经网络输出的相应数量的分类置信度,可依据这些分类置信度确定出目标对象的一个行为或两个以上行为,在两个以上行为时,可以是相同行为或不同行为。
本发明实施例中,确定出目标对象在视频的各视频帧中的位置信息后,先从视频中初选出与目标对象行为相关的目标子序列,再依据目标对象的位置信息从这些目标子序列中截取目标对象所处的多个目标区域,据此确定时空立方序列,相比于直接对视频进行计算,第一神经网络对时空立方序列进行计算可以大大减少资源损耗,再依据第一神经网络输出的分类置信度确定目标对象的行为有利于提高行为识别的准确度,并且,由于目标区域是去除了视频帧中的大部分背景区域后的区域,也即去除了大部分背景噪声,即使目标对象在视频帧中占比较小,也不会出现识别准确度明显下降的问题。
在一个实施例中,上述方法流程可由目标行为识别装置100执行,如图2所示,目标行为识别装置100主要包含5个模块:目标跟踪模块101,子序列确定模块102,时空立方确定模块103,分类计算模块104和行为确定模块105。目标跟踪模块101用于执行上述步骤S100,子序列确定模块102用于执行上述步骤S200,时空立方确定模块103用于执行上述步骤S300,分类计算模块104用于执行上述步骤S400,行为确定模块105用于执行上述步骤S500。
在一个实施例中,步骤S200中,从所述视频中确定出至少一个目标子序列,包括:
S201:遍历所述视频中的指定视频帧,每个指定视频帧之间相隔一定数量L的视频帧;
S202:针对遍历到的视频帧,判断目标对象在所述指定视频帧与所述指定视频帧的前N视频帧中的与行为相关的指定特征是否发生了变化,若是,则将所述指定视频帧及其之后的M个视频帧确定为一目标子序列,所述N大于等于1且小于所述L,所述M大于0。
可以设置一个长度为M+1帧的时间窗口,每次滑动时间窗口后,处于该时间窗口中的起始帧作为指定视频帧,每次滑动的帧数为L。当然,每次滑动的帧数也可以是可变的。
滑窗的方式包括但不限于无重叠帧滑窗、有重叠帧滑窗、固定帧间隔滑窗、变化帧间隔滑窗。当M小于L时,为无重叠帧滑窗;当M大于等于L时,为有重叠滑窗;当L固定时,为固定帧间隔滑窗;当L可变时,为变化帧间隔滑窗。L和M的具体取值不限,当然小于视频的总帧数。
每次滑动一次时间窗口,便是遍历到一个指定视频帧,针对该指定视频帧执行步骤S202。若目标对象在所述指定视频帧与所述指定视频帧的前N视频帧中的与行为相关的指定特征发生了变化,说明目标对象在该指定帧和该前N视频帧中发生了行为,将所述指定视频帧及其之后的M个视频帧确定为一目标子序列,即将处于时间窗口内的视频帧确定为目标子序列。
优选来说,N=1,即,指定视频帧与其前一帧视频帧中的指定特征进行比较,若发生变化,则说明目标对象在该指定帧和该前N视频帧中发生了行为。当然,N的具体取值不做限定。
具体的,以M=59、L=100、N=1为例,时间窗口的长度为60帧,将时间窗口从起始帧为第1帧滑动至起始帧为第101帧,判断第101帧与第100帧中目标对象的指定特征是否发生变化,若发生了变化,那么便将101-160帧确定为目标子序列。
指定特征发生的变化可以包括以下的一种或几种:目标对象的速度变化(目标对象位移较大)、目标对象的大小变化、目标对象的宽高比变化、目标对象的直方图变化等。每次可选上述的一种或几种进行判断,变化的程度可以自定义。
比如,当宽高比变化时,可能发生倒地、弯腰等行为;当速度发生变化时,可能发生奔跑、骑车等行为;当大小发生变化时,可能发生骑车等行为;当直方图发生变化时,可能发生换衣服等行为,上述方式及行为只是示例性的,当然还可以是其他。
由于确定了指定特征发生变化,只是粗略地检测到了目标对象发生行为,并不能直接确定目标对象发生了什么行为,因而需要执行后续的步骤。但是,本实施例,先粗略地确定出发生行为的目标子序列,可以减少后续处理所需的资源损耗,也有利于提高识别准确度。
在一个实施例中,步骤S300中,依据所述目标对象的位置信息截取所述目标子序列的视频帧中目标对象所处的目标区域,可以包括以下步骤:
S301:确定所述目标子序列中已跟踪到目标对象的目标视频帧;
S302:依据目标对象在所述目标视频帧中的位置信息确定一区域截取范围;
S303:依次截取出所述目标子序列的各视频帧中处于所述区域截取范围内的区域,并将每次截取出的区域确定为一所述目标区域。
步骤S301中,确定所述目标子序列中已跟踪到目标对象的目标视频帧。
由于步骤S100中进行目标跟踪时,可能存在丢帧的情况,因而确定出的目标子序列中可能包含未跟踪到目标对象的视频帧,相应的,便没有对应该视频帧的位置信息。所以,本实施例中,在确定区域截取范围时,去掉未跟踪到目标对象的视频帧。
同时本实施例中,保留目标子序列中所有已跟踪到目标对象的目标视频帧,目标对象在这些目标视频帧中的位置信息用来确定区域截取范围。一方面,可保证目标子系列中尽可能多的目标区域都处于确定出的区域截取范围内,有利于第一神经网络计算的准确性;另一方面,如果只需要目标子序列的一部分视频帧中的目标区域作为时空立方序列的目标区域时,采用统一的区域截取范围进行截取,便于更换不同的采样策略,以通过多次试验得到最佳的目标区域组合。
步骤S302中,依据目标对象在确定出的这些目标视频帧中的位置信息确定一区域截取范围,使得目标对象在各个目标视频帧中都处于区域截取范围内,从而步骤S303中截取出的各个目标区域中都包含目标对象。
以确定出的区域截取范围为在视频帧中心位置的矩形范围为例,对于目标子序列的各视频帧来说,都截取该矩形范围内的区域,即每个视频帧都截取出处于矩形范围内的中心位置区域,每个截取出的区域为一个目标区域,尺寸是相同的。
优选的,步骤S302中,依据目标对象在各目标视频帧中的位置信息确定一区域截取范围,包括以下步骤:
S3021:依据目标对象的位置信息确定出目标对象在各个目标视频帧中水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值;
S3022:依据所述水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值确定所述区域截取范围。
在实际处理时,在跟踪到目标对象后,可用目标框来选中目标对象(可以显示在视频帧中,也可以不显示在视频帧中),用这个目标框来表示该目标对象,目标框的位置信息即目标对象的位置信息。该目标框可以是圆形、矩形、多边形等各种形状,而无论是什么形状,都可以确定该目标在各个目标视频帧中水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值。
依据所述水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值,可以确定出对于目标子序列中所有视频帧来说能够包含目标对象的区域截取范围。
以目标框为矩形为例,从目标子序列f1,…,fn中,确定出m个目标视频帧(n-m个是未被跟踪到目标对象的视频帧),m个目标视频帧中的目标框分别为R1,…,Rm,其中m<=n,每个目标框的左上角坐标值设为(left_top_x,left_top_y),右下角坐标值设为(right_bottom_x,right_bottom_y)。
相应的,区域截取范围呈矩形区域,该矩形区域的左上角坐标值可以为(min({left_top_x}),min({left_top_y})),该矩形区域的右下角坐标值可以为(max({right_bottom_x}),max({right_bottom_y}))。
依据区域截取范围从目标子序列f1,…,fn中依次截取目标区域,可采样截取的目标区域中的若干目标区域构成时空立方序列,在保留目标对象的行为信息不损失情况下,大幅减少了背景信息,更利于第一神经网络对行为的分类。
参看图3-5,具体来说确定区域截取范围的方式,假设图3和图4是目标子序列中所有的目标视频帧(图3的目标视频帧简称为第一目标视频帧,图4的目标视频帧简称为第二目标视频帧),目标对象T1在第一目标视频帧中的左上角坐标为A1,目标对象T1在第一目标视频帧中的右下角坐标为B1,目标对象T1在第二目标视频帧中的左上角坐标为A2,目标对象T1在第二目标视频帧中的左上角坐标为B2,A1的竖直方向和水平方向的坐标值都小于A2,B1的竖直方向和水平方向的坐标值都小于B2,那么,确定出的区域截取范围为左上角坐标为A1、右下角坐标为B2的范围Z1。截取第一目标视频帧中处于区域截取范围内的目标区域时,T1处于该目标区域中;截取第二目标视频帧中处于区域截取范围内的目标区域时,T1也处于该目标区域中。
在一个实施例中,步骤S400中,所述由所述第一神经网络对输入的时空立方序列执行行为分类处理、并输出对应的分类置信度,包括:
S401:由所述第一神经网络的至少一个3D卷积层对输入的时空立方序列进行特征提取而输出特征向量至所述第一神经网络的全连接层;
S402:由所述第一神经网络的全连接层对所述特征向量执行行为分类处理而确定所述特征向量对应的行为类别,计算并输出所述行为类别对应的分类置信度。
3D卷积,即三维卷积,在普通二维卷积核的基础上增加一维用于在时间尺度上对特征卷积,用以提高对视频特征的表征能力。采用3D卷积层可以提取时间域和空间域上的信息,因而3D卷积层输出的特征向量可表征目标对象的行为特征。
第一神经网络的3D卷积层执行的是3D卷积,将3D卷积核与输入的时空立方序列执行卷积处理,即对输入的时空立方序列执行三维特征提取处理,输出表征目标对象特征的三维特征向量。
第一神经网络的全连接层对表征行为特征的三维特征向量进行分类并计算对应的分类置信度,从而可对时空立方序列中目标对象的行为进行分类及该行为类别的可信度。
对于第一神经网络的训练,可以用时空立方序列样本作为训练样本集,将每个时空立方序列样本作为输入,并将输出标记为与输入的时空立方序列样本对应的行为类别及分类置信度,对初始化的第一神经网络进行训练,得到训练后的第一神经网络。关于时空立方序列样本的获取,可以通过在视频样本中选取出相应数量的视频帧,并截取出所需的样本区域构成时空立方序列样本。采用端到端的训练方式,提升了自动化程度。
在一个实施例中,步骤S500中,依据所述第一神经网络输出的分类置信度确定各个目标对象在所述视频中的行为,包括:
S501:将所述目标对象对应的所有分类置信度分别进行排序;
S502:将最高分类置信度对应的行为确定为所述目标对象的行为。
步骤S501中,将第一神经网络输出的关于该对象的所有分类置信度进行排序,排序方式可以是从高到低,也可以是从低到高。步骤S502中,从排序后的所有分类置信度中确定出最高分类置信度,将该最高置信度对应的行为确定为目标对象的行为。
本发明第二方面提供一种显示方法,在一个实施例中,参看图6,该显示方法可以包括以下步骤:
T100:确定目标时空立方序列,所述目标时空立方序列是如前述实施例所述的目标行为识别方法确定出的行为所对应的时空立方序列;
T200:在目标时空立方序列包含的目标区域所对应的视频帧上标记出对应目标对象;
T300:将标记后的视频帧所在视频进行显示。
步骤T100中,确定目标时空立方序列。由于前述实施例的目标时空立方序列中,步骤300中,确定出的时空立方序列有至少一个,而最终确定出的行为会对应其中的一个时空立方序列,即由第一神经网络对该时空立方序列进行计算得到的置信度为最高置信度,相应行为被最终确定为目标对象的行为,因而,该时空立方序列为目标时空立方序列。
步骤T200中,在目标时空立方序列包含的目标区域所对应的视频帧上标记出对应目标对象,一方面,可确定出目标对象的位置信息,另一方面可确定出目标对象发生的时间,可方便用户进行查看管理,帮助用户关注了长时间视频流中发生的感兴趣行为,能够直观观测报警事件进行响应,提高了智能化水平。
比如识别出的行为是需要报警的行为,在对应视频帧上标记出目标对象后,便于用户确认,同时用户可以查看报警时间附近的其他行为识别结果,以便进行更全面的关联。标记的方式包含但不限于:对时空立方序列相关的视频帧中的目标对象添加报警用的矩形框。
在一个实施例中,上述显示方法流程可由显示装置200执行,如图7所示,显示装置200主要包含3个模块:目标时空立方确定模块201,目标对象标记模块202和视频显示模块203。目标时空立方确定模块201用于执行上述步骤T100,目标对象标记模块202用于执行上述步骤T200,视频显示模块203用于执行上述步骤T300。
本发明第三方面提供一种目标行为识别装置,参看图2,该装置包括:
目标跟踪模块,用于跟踪视频中待进行行为识别的目标对象,以确定所述目标对象在视频的各视频帧中的位置信息;
子序列确定模块,用于从所述视频中确定出至少一个目标子序列;所述目标子序列包含与所述目标对象的行为相关的视频帧;
时空立方确定模块,用于针对每个所述目标子序列,依据所述目标对象的位置信息截取所述目标子序列的每个视频帧中目标对象所处的目标区域,并确定所述目标子序列对应的包含多个所述目标区域的时空立方序列;
分类计算模块,用于将各个所述时空立方序列分别输入至已训练的第一神经网络中,以由所述第一神经网络对输入的时空立方序列执行行为分类处理、并输出对应的分类置信度;
行为确定模块,用于依据所述第一神经网络输出的分类置信度确定所述目标对象在所述视频中的行为。
根据本发明的一个实施例,所述子序列确定模块包括:
遍历单元,用于遍历所述视频中的指定视频帧,每个指定视频帧之间相隔一定数量L的视频帧;
行为检测单元,用于针对遍历到的视频帧,判断目标对象在所述指定视频帧与所述指定视频帧的前N视频帧中的与行为相关的指定特征是否发生了变化,若是,则将所述指定视频帧及其之后的M个视频帧确定为一目标子序列,所述N大于等于1且小于所述L,所述M大于0。
根据本发明的一个实施例,所述时空立方确定模块包括:
目标视频帧确定单元,用于确定所述目标子序列中已跟踪到目标对象的目标视频帧;
区域截取范围确定单元,用于依据目标对象在所述目标视频帧中的位置信息确定一区域截取范围;
目标区域截取单元,用于依次截取出所述目标子序列的各视频帧中处于所述区域截取范围内的区域,并将每次截取出的区域确定为一所述目标区域。
根据本发明的一个实施例,所述区域截取范围确定单元包括:
坐标确定子单元,用于依据目标对象的位置信息确定出目标对象在各个目标视频帧中水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值;
范围确定子单元,用于依据所述水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值确定所述区域截取范围。
根据本发明的一个实施例,所述分类计算模块包括:
第一计算单元,用于由所述第一神经网络的至少一个3D卷积层对输入的时空立方序列进行特征提取而输出特征向量至所述第一神经网络的全连接层;
第二计算单元,用于由所述第一神经网络的全连接层对所述特征向量执行行为分类处理而确定所述特征向量对应的行为类别,计算并输出所述行为类别对应的分类置信度。
根据本发明的一个实施例,所述行为确定模块包括:
置信度排序单元,用于将所述目标对象对应的所有分类置信度分别进行排序;
行为确定单元,用于将最高分类置信度对应的行为确定为所述目标对象的行为。
本发明第三方面提供的装置中各个单元的功能和作用的实现过程具体详见本发明第一方面提供的方法中对应步骤的实现过程,在此不再赘述。
本发明第四方面提供一种显示装置,包括:
目标时空立方确定模块,用于确定目标时空立方序列,所述目标时空立方序列是如前述实施例所述的目标行为识别装置确定出的行为所对应的时空立方序列;
目标对象标记模块,用于在目标时空立方序列包含的目标区域所对应的视频帧上标记出对应目标对象;
视频显示模块,用于将标记后的视频帧所在视频进行显示。
本发明第四方面提供的装置中各个单元的功能和作用的实现过程具体详见本发明第二方面提供的方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元。
本发明第五方面提供一种电子设备,包括处理器及存储器;所述存储器存储有可被处理器调用的程序;其中,所述处理器执行所述程序时,实现如前述实施例所述的目标行为识别方法、或如前述实施例所述的显示方法。
本发明目标行为识别装置及显示装置的实施例可以应用在电子设备上。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图8所示,图8是本发明根据一示例性实施例示出的目标行为识别装置100所在电子设备的一种硬件结构图,除了图8所示的处理器510、内存530、接口520、以及非易失性存储器540之外,实施例中装置10所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
本发明第六方面提供一种机器可读存储介质,其上存储有程序,该程序被处理器执行时,实现如前述实施例所述的目标行为识别方法、或如前述实施例所述的显示方法。
本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。机器可读存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种目标行为识别方法,其特征在于,包括:
跟踪视频中待进行行为识别的目标对象,以确定所述目标对象在视频的各视频帧中的位置信息;
通过判断所述目标对象在指定视频帧与所述指定视频帧的前N视频帧中的与行为相关的指定特征是否发生了变化,从所述视频中确定出至少一个目标子序列;所述目标子序列包含与所述目标对象的行为相关的视频帧;
针对每个所述目标子序列,确定所述目标子序列中已跟踪到目标对象的目标视频帧;依据目标对象的位置信息确定出目标对象在各个目标视频帧中水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值;依据所述水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值确定区域截取范围;依次截取出所述目标子序列的各视频帧中处于所述区域截取范围内的区域,并将每次截取出的区域确定为一目标区域,并确定所述目标子序列对应的包含多个所述目标区域的时空立方序列;
将各个所述时空立方序列分别输入至已训练的第一神经网络中,以由所述第一神经网络对输入的时空立方序列执行行为分类处理、并输出对应的分类置信度;
依据所述第一神经网络输出的分类置信度确定所述目标对象在所述视频中的行为。
2.如权利要求1所述的目标行为识别方法,其特征在于,所述通过判断所述目标对象在指定视频帧与所述指定视频帧的前N视频帧中的与行为相关的指定特征是否发生了变化,从所述视频中确定出至少一个目标子序列,包括:
遍历所述视频中的指定视频帧,每个指定视频帧之间相隔一定数量L的视频帧;
针对遍历到的视频帧,判断目标对象在所述指定视频帧与所述指定视频帧的前N视频帧中的与行为相关的指定特征是否发生了变化,若是,则将所述指定视频帧及其之后的M个视频帧确定为一目标子序列,所述N大于等于1且小于所述L,所述M大于0。
3.如权利要求1所述的目标行为识别方法,其特征在于,所述由所述第一神经网络对输入的时空立方序列执行行为分类处理、并输出对应的分类置信度,包括:
由所述第一神经网络的至少一个3D卷积层对输入的时空立方序列进行特征提取而输出特征向量至所述第一神经网络的全连接层;
由所述第一神经网络的全连接层对所述特征向量执行行为分类处理而确定所述特征向量对应的行为类别,计算并输出所述行为类别对应的分类置信度。
4.如权利要求3所述的目标行为识别方法,其特征在于,依据所述第一神经网络输出的分类置信度确定各个目标对象在所述视频中的行为,包括:
将所述目标对象对应的所有分类置信度分别进行排序;
将最高分类置信度对应的行为确定为所述目标对象的行为。
5.一种显示方法,其特征在于,包括:
确定目标时空立方序列,所述目标时空立方序列是如权利要求1-4中任一项所述的目标行为识别方法确定出的行为所对应的时空立方序列;
在目标时空立方序列包含的目标区域所对应的视频帧上标记出对应目标对象;
将标记后的视频帧所在视频进行显示。
6.一种目标行为识别装置,其特征在于,包括:
目标跟踪模块,用于跟踪视频中待进行行为识别的目标对象,以确定所述目标对象在视频的各视频帧中的位置信息;
子序列确定模块,用于通过判断所述目标对象在指定视频帧与所述指定视频帧的前N视频帧中的与行为相关的指定特征是否发生了变化,从所述视频中确定出至少一个目标子序列;所述目标子序列包含与所述目标对象的行为相关的视频帧;
时空立方确定模块,用于针对每个所述目标子序列,确定所述目标子序列中已跟踪到目标对象的目标视频帧;依据目标对象的位置信息确定出目标对象在各个目标视频帧中水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值;依据所述水平方向的最小坐标值、最大坐标值及竖直方向的最小坐标值、最大坐标值确定区域截取范围;依次截取出所述目标子序列的各视频帧中处于所述区域截取范围内的区域,并将每次截取出的区域确定为一目标区域,并确定所述目标子序列对应的包含多个所述目标区域的时空立方序列;
分类计算模块,用于将各个所述时空立方序列分别输入至已训练的第一神经网络中,以由所述第一神经网络对输入的时空立方序列执行行为分类处理、并输出对应的分类置信度;
行为确定模块,用于依据所述第一神经网络输出的分类置信度确定所述目标对象在所述视频中的行为。
7.如权利要求6所述的目标行为识别装置,其特征在于,所述子序列确定模块包括:
遍历单元,用于遍历所述视频中的指定视频帧,每个指定视频帧之间相隔一定数量L的视频帧;
行为检测单元,用于针对遍历到的视频帧,判断目标对象在所述指定视频帧与所述指定视频帧的前N视频帧中的与行为相关的指定特征是否发生了变化,若是,则将所述指定视频帧及其之后的M个视频帧确定为一目标子序列,所述N大于等于1且小于所述L,所述M大于0。
8.如权利要求6所述的目标行为识别装置,其特征在于,所述分类计算模块包括:
第一计算单元,用于由所述第一神经网络的至少一个3D卷积层对输入的时空立方序列进行特征提取而输出特征向量至所述第一神经网络的全连接层;
第二计算单元,用于由所述第一神经网络的全连接层对所述特征向量执行行为分类处理而确定所述特征向量对应的行为类别,计算并输出所述行为类别对应的分类置信度。
9.如权利要求8所述的目标行为识别装置,其特征在于,所述行为确定模块包括:
置信度排序单元,用于将所述目标对象对应的所有分类置信度分别进行排序;
行为确定单元,用于将最高分类置信度对应的行为确定为所述目标对象的行为。
10.一种显示装置,其特征在于,包括:
目标时空立方确定模块,用于确定目标时空立方序列,所述目标时空立方序列是如权利要求6-9中任一项所述的目标行为识别装置确定出的行为所对应的时空立方序列;
目标对象标记模块,用于在目标时空立方序列包含的目标区域所对应的视频帧上标记出对应目标对象;
视频显示模块,用于将标记后的视频帧所在视频进行显示。
11.一种电子设备,其特征在于,包括处理器及存储器;所述存储器存储有可被处理器调用的程序;其中,所述处理器执行所述程序时,实现如权利要求1-4中任意一项所述的目标行为识别方法、或如权利要求5所述的显示方法。
12.一种机器可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现如权利要求1-4中任意一项所述的目标行为识别方法、或如权利要求5所述的显示方法。
CN201811392087.6A 2018-11-21 2018-11-21 目标行为识别及显示方法、装置、设备、可读介质 Active CN111209774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811392087.6A CN111209774B (zh) 2018-11-21 2018-11-21 目标行为识别及显示方法、装置、设备、可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811392087.6A CN111209774B (zh) 2018-11-21 2018-11-21 目标行为识别及显示方法、装置、设备、可读介质

Publications (2)

Publication Number Publication Date
CN111209774A CN111209774A (zh) 2020-05-29
CN111209774B true CN111209774B (zh) 2024-03-26

Family

ID=70786970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811392087.6A Active CN111209774B (zh) 2018-11-21 2018-11-21 目标行为识别及显示方法、装置、设备、可读介质

Country Status (1)

Country Link
CN (1) CN111209774B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382808A (zh) * 2020-05-29 2020-07-07 浙江大华技术股份有限公司 一种车辆检测处理方法及装置
CN111898518B (zh) * 2020-07-28 2024-09-17 中移(杭州)信息技术有限公司 一种摔倒检测方法、电子设备和存储介质
CN111985617B (zh) * 2020-08-14 2023-09-26 杭州海康威视数字技术股份有限公司 3d卷积神经网络在神经网络处理器上的处理方法和装置
CN114155594A (zh) * 2020-08-17 2022-03-08 中移(成都)信息通信科技有限公司 行为识别方法、装置、设备和存储介质
CN112686114A (zh) * 2020-12-23 2021-04-20 杭州海康威视数字技术股份有限公司 一种行为检测方法、装置及设备
CN115917589A (zh) * 2021-07-22 2023-04-04 京东方科技集团股份有限公司 攀爬行为预警方法和装置、电子设备、存储介质
CN114549591B (zh) * 2022-04-27 2022-07-08 南京甄视智能科技有限公司 时空域行为的检测和跟踪方法、装置、存储介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722715A (zh) * 2012-05-21 2012-10-10 华南理工大学 一种基于人体姿势状态判决的跌倒检测方法
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN107742097A (zh) * 2017-09-30 2018-02-27 长沙湘计海盾科技有限公司 一种基于深度相机的人体行为识别方法
CN108416797A (zh) * 2018-02-27 2018-08-17 鲁东大学 一种检测行为变化的方法、设备及存储介质
CN108665476A (zh) * 2017-03-31 2018-10-16 华为数字技术(苏州)有限公司 一种行人跟踪方法以及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008057107A2 (en) * 2005-12-05 2008-05-15 University Of Maryland Method and system for object surveillance and real time activity recognition
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722715A (zh) * 2012-05-21 2012-10-10 华南理工大学 一种基于人体姿势状态判决的跌倒检测方法
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN108665476A (zh) * 2017-03-31 2018-10-16 华为数字技术(苏州)有限公司 一种行人跟踪方法以及电子设备
CN107742097A (zh) * 2017-09-30 2018-02-27 长沙湘计海盾科技有限公司 一种基于深度相机的人体行为识别方法
CN108416797A (zh) * 2018-02-27 2018-08-17 鲁东大学 一种检测行为变化的方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘嘉莹 ; 张孙杰 ; .融合视频时空域运动信息的3D CNN人体行为识别.电子测量技术.2018,(07),第1.2节-第3.1节. *

Also Published As

Publication number Publication date
CN111209774A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN111209774B (zh) 目标行为识别及显示方法、装置、设备、可读介质
WO2020259481A1 (zh) 定位方法及装置、电子设备、可读存储介质
CN109035304B (zh) 目标跟踪方法、介质、计算设备和装置
JP5422018B2 (ja) 画像処理方法および画像処理装置
US20180284777A1 (en) Method, control apparatus, and system for tracking and shooting target
CN105405150B (zh) 基于融合特征的异常行为检测方法和装置
US20160012597A1 (en) Feature trackability ranking, systems and methods
CN111581423B (zh) 一种目标检索方法及装置
US9147114B2 (en) Vision based target tracking for constrained environments
CN104573706A (zh) 一种物体图像识别方法及其系统
CN111612822B (zh) 对象跟踪方法、装置、计算机设备和存储介质
JP7417631B2 (ja) 畳み込みニューラルネットワークベースのランドマークトラッカ
CN108229456A (zh) 目标跟踪方法和装置、电子设备、计算机存储介质
Li et al. Robust event-based object tracking combining correlation filter and CNN representation
CN111680678A (zh) 目标区域识别方法、装置、设备及可读存储介质
CN111091025B (zh) 图像处理方法、装置和设备
CN107578424B (zh) 一种基于时空分类的动态背景差分检测方法、系统及装置
JP5674550B2 (ja) 状態追跡装置、方法、及びプログラム
CN109636828A (zh) 基于视频图像的物体跟踪方法及装置
CN115115825B (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
CN106033613B (zh) 目标跟踪方法及装置
CN111814653B (zh) 一种视频中异常行为的检测方法、装置、设备及存储介质
WO2024022301A1 (zh) 视角路径获取方法、装置、电子设备及介质
CN115527083B (zh) 图像标注方法、装置和电子设备
CN116433722A (zh) 目标跟踪方法、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant