CN110942009B - 基于时空混合卷积网络的跌倒检测方法与系统 - Google Patents
基于时空混合卷积网络的跌倒检测方法与系统 Download PDFInfo
- Publication number
- CN110942009B CN110942009B CN201911152346.2A CN201911152346A CN110942009B CN 110942009 B CN110942009 B CN 110942009B CN 201911152346 A CN201911152346 A CN 201911152346A CN 110942009 B CN110942009 B CN 110942009B
- Authority
- CN
- China
- Prior art keywords
- network
- cnn
- fall detection
- model
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于时空混合卷积网络的跌倒检测方法与系统,采用时空混合卷积网络的检测方法,把检测分为定位(坐标回归)和分类两部分,结合2D CNN和3D CNN的时空混合卷积网络,同时获取到优质的位置特征和类别特征,坐标回归完的特征全由2D CNN生成,分类的特征则是由3D CNN特征生成。然后将位置特征和类别特征进行融合,进行模型训练得到预测模型。利用预测模型对视频流输入进行检测最终得到预测结果,即是否有人跌倒。本发明具有便捷的扩充网络的识别能力,解决了现有检测方法的精度低,速度慢,扩展性差的问题。
Description
技术领域
本发明涉及人脸与行为识别技术领域,具体而言涉及一种基于时空混合卷积网络的跌倒检测方法与系统。
背景技术
现有跌倒检测技术主要有两种,第一种是通过单张图片进行检测,这种技术只考虑单张图片信息,即只考虑空域信息,没有考虑到时序信息,通常很难得到较好的精度。第二种是基于二阶段的单帧目标检测器进行设计,将二阶段检测器的2D CNN主干网络用3DCNN主干网络替换,3D CNN用于提取视频序列的时序特征,区域提出网络直接使用独立的单帧目标检测器在关键帧上回归出的坐标进行替换,然后把坐标映射到提取的视频流特征上,最后通过三维区域降采样进行行为分类,即识别出是否跌倒。这种方法存在会丢失过多的目标上下文信息、不能端到端训练,以及计算量大的缺点。
因此可见,目前的检测方法的缺陷都给跌倒检测的应用都造成了很大的障碍。
发明内容
本发明目的在于提供一种基于时空混合卷积网络的跌倒检测方法,包括:
步骤1、通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片,
步骤2、将图片的最后一帧,即第N张图片作为关键帧,只对关键帧里面的人进行标注;
步骤3、特征融合,包括两个分支,第一个分支作用是人体定位,使用2D CNN网络,第二个分支是作用是分类,采用3D CNN网络,其中2D CNN网络提取位置特征,3D CNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;
步骤4、基于行为分类和位置回归进行模型训练,模型输入图片数量为L,从步骤1得到的第1至第N-1张图片进行随机采样,同时确保最后一帧被选到,之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练,得到预测模型;
步骤5、利用测试集对训练的预测模型进行评估,选择模型精度最高的作为最终的跌倒检测模型;
步骤6、基于步骤5输出的跌倒检测模型,输入用户的视频和/或图片进行跌倒检测。
优选地,所述步骤2中,标注信息包含坐标和类别,坐标信息为人所在矩形区域左上角(xmin,ymin)和矩形区域的右下角(xmax,ymax),类别为跌倒(fall down),跌倒的标注取决于关键帧之前的动作。
优选地,所述步骤3中,所述2D CNN网络采用ResNet50作为主干网络,定位分支的输入为一张视频帧,即关键帧。
优选地,所述步骤3中,所述3D CNN网络采用SlowFast网络作为主干网络,SlowFast网络分别由slow和fast两部分组成,输入视频帧数分别为4帧和32帧,slow和fast部分提取到的特征维度均为1x1024x10x10,将slow和fast部分提取到的特征合并到一起得到1x2048x10x10维的特征,再将得到1x2048x10x10维的特征通过两层2D卷积Conv1和Conv2,使得3D CNN部分最终得到的特征维度为1x30x10x10。
优选地,所述步骤3中,图片输入尺寸缩放为320x320,3D CNN网络和2D CNN网络使用五次最大池化(Max pooling),2D CNN网络和3D CNN网络最终提取的特征均为1x30x10x10,其中在特征融合过程中采用YOLO一阶段检测器。
优选地,所述步骤4中的模型训练过程中,优化器采用ADAM,并对2D CNN网络和3DCNN网络的初始学习率(learning rate)和权重衰减参数(weight decay)进行单独设置:
2D CNN的基础学习率设置为0.0001,权重衰减参数设置为0.00005;
3D CNN的基础学习率设置为0.00006,权重衰减参数设置为0.0001;
其中,在随机采样和初始化训练过程中,批大小(batch size)设置成64,一共迭代90轮,每30轮两个分支的学习率同时降低一半。
根据本发明,还提出一种基于时空混合卷积网络的跌倒检测系统,包括:
用于通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片的模块;
用于将图片的最后一帧,即第N张图片作为关键帧的模块,其中只对关键帧里面的人进行标注的模块;
用于特征融合的模块,所述特征融合包括两个分支,第一个分支作用是人体定位,使用2D CNN网络,第二个分支是作用是分类,采用3D CNN网络,其中2D CNN网络提取位置特征,3D CNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;
用于基于行为分类和位置回归进行模型训练的模块,模型输入图片数量为L,从步骤1得到的第1至第N-1张图片进行随机采样,同时确保最后一帧被选到,之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练,得到预测模型;
用于利用测试集对训练的预测模型进行评估,选择模型精度最高的作为最终的跌倒检测模型的模块;
用于基于输出的跌倒检测模型,输入用户的视频和/或图片进行跌倒检测的模块。
根据本发明,还提出一种基于时空混合卷积网络的跌倒检测系统,包括:
一个或多个处理器;
存储器,存储可被操作的指令,所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括:
步骤1、通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片,
步骤2、将图片的最后一帧,即第N张图片作为关键帧,只对关键帧里面的人进行标注;
步骤3、特征融合,包括两个分支,第一个分支作用是人体定位,使用2D CNN网络,第二个分支是作用是分类,采用3D CNN网络,其中2D CNN网络提取位置特征,3D CNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;
步骤4、基于行为分类和位置回归进行模型训练,模型输入图片数量为L,从步骤1得到的第1至第N-1张图片进行随机采样,同时确保最后一帧被选到,之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练,得到预测模型;
步骤5、利用测试集对训练的预测模型进行评估,选择模型精度最高的作为最终的跌倒检测模型;
步骤6、基于步骤5输出的跌倒检测模型,输入用户的视频和/或图片进行跌倒检测。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1是本发明的基于时空混合卷积网络的跌倒检测的流程图。
图2是本发明的基于时空混合卷积网络的跌倒检测的原理框图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是应为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
本发明所提出的跌倒检测属于时空域的行为检测。时空域行为检测就是需要在视频中识别出目标在某段时间内发生的行为并给出目标的具体位置。跌倒检测在学校,医院,家庭等场景都具有非常广泛的应用前景,但是目前的算法都存在精度低以及计算量大等缺陷导致跌倒检测很难应用。本发明提出时空混合卷积网络来解决上述存在的问题,同时时空混合卷积网络可拓展到其它行为识别,比如走路、跑步、打架、谈话等行为。
下面结合图1-2所示,更加具体地说明本发明的示例性实施例的基于时空混合卷积网络的跌倒检测的实现过程。
步骤1、通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片,
步骤2、将图片的最后一帧,即第N张图片作为关键帧,只对关键帧里面的人进行标注;
步骤3、特征融合,包括两个分支,第一个分支作用是人体定位,使用2D CNN网络,第二个分支是作用是分类,采用3D CNN网络,其中2D CNN网络提取位置特征,3D CNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;
步骤4、基于行为分类和位置回归进行模型训练,模型输入图片数量为L,从步骤1得到的第1至第N-1张图片进行随机采样,同时确保最后一帧被选到,之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练,得到预测模型;
步骤5、利用测试集对训练的预测模型进行评估,选择模型精度最高的作为最终的跌倒检测模型;
步骤6、基于步骤5输出的跌倒检测模型,输入用户的视频和/或图片进行跌倒检测。
结合图1所示,上述过程整体上包括跌倒检测模型生成以及跌倒行为检测。其中结合图2所示,跌倒检测模型训练生成流程包括图片数据截取、数据标注、数据融合以及模型训练和验证。
如此,本发明所采用的跌倒检测采用时空混合卷积网络的检测方法,把检测分为定位(坐标回归)和分类两部分,单纯采用单张图片用过2D CNN进行跌倒检测会出现难以被准确识别,采用3D CNN又会损失了目标的大量位置信息,本发明提出的结合2D CNN和3DCNN的时空混合卷积网络,同时获取到优质的位置特征和类别特征,坐标回归完的特征全由2D CNN生成,分类的特征则是由3D CNN特征生成。然后将位置特征和类别特征进行融合,融合操作包含了特征映射和NMS等后处理,最终得到预测结果,即是否有人跌倒。
优选地,所述步骤2中,标注信息包含坐标和类别,坐标信息为人所在矩形区域左上角(xmin,ymin)和矩形区域的右下角(xmax,ymax),类别为跌倒(fall down),跌倒的标注取决于关键帧之前的动作。
优选地,所述步骤3中,所述2D CNN网络采用ResNet50作为主干网络,定位分支的输入为一张视频帧,即关键帧。
优选地,所述步骤3中,所述3D CNN网络采用SlowFast网络作为主干网络,SlowFast网络分别由slow和fast两部分组成,输入视频帧数分别为4帧和32帧,slow和fast部分提取到的特征维度均为1x1024x10x10,将slow和fast部分提取到的特征合并到一起得到1x2048x10x10维的特征。
更加优选地,为了slow和fast部分提取到的特征有效融合,可再将得到1x2048x10x10维的特征通过两层2D卷积Conv1和Conv2,使得3D CNN部分最终得到的特征维度为1x30x10x10。
优选地,所述步骤3中,图片输入尺寸缩放为320x320,3D CNN网络和2D CNN网络使用五次最大池化(Max pooling),2D CNN网络和3D CNN网络最终提取的特征均为1x30x10x10,其中在特征融合过程中采用YOLO一阶段检测器。优选地,损失函数部分也可以采用YOLO一阶段检测器的方法。
优选地,所述步骤4中的模型训练过程中,优化器采用ADAM,并针对3D CNN参数量大,容易产生过拟合的问题,可对2D CNN网络和3D CNN网络的初始学习率(learning rate)和权重衰减参数(weight decay)进行单独设置:
2D CNN的基础学习率设置为0.0001,权重衰减参数设置为0.00005;
3D CNN的基础学习率设置为0.00006,权重衰减参数设置为0.0001;
其中,在随机采样和初始化训练过程中,批大小(batch size)设置成64,一共迭代90轮,每30轮两个分支的学习率同时降低一半。
作为示例,本发明中采用了使用8块NVIDIA 2080TI GPU的硬件环境进行随机初始化训练。
如此,通过本发明的实施例可得到优选的检测模型。
结合图1、2,跌倒行为检测部分示例性的实施例中,包括视频流输入模块、图像预处理模块、模型前向计算模块以及后处理模块。具体流程如下:
第一步、视频流输入模块将采集到的视频帧按照每隔一帧的频率压入(push)到一个Q队列里面,直到Q的长度等于L;
第二步、图像预处理,将Q里面的图片序列进行归一化,得到归一化之后的图片序列Q-Norm;
第三步、将第二步归一化之后的图片序列Q-Norm输入到模型进行前向计算;
第四步、对前向计算的结果进行后处理,后处理主要是通过设定阈值来判断否有人跌倒,同时将Q里面最先压入(push)的视频帧取出(pop),然后按照步骤一里的规则继续压入新的视频帧,Q等待下一次的预测。
如此,通过本发明的基于时空混合卷积方法的跌倒检测,在数据标注部分只需要标注一张关键帧,数据标注的成本将会更低。在网络训练部分,可以实现端到端的训练。在精度部分,通过时空混合卷积让网络可以提取到高质量的特征,从而可以有着较好的召回率和精度。在可拓展方面,本发明还可以扩展加入其它行为,便捷的扩充网络的识别能力,解决了现有检测方法的精度低,速度慢,扩展性差的问题。
结合图示,本发明的前述实施例还可以根据具体实施配置如下。
{跌倒检测系统}
一种基于时空混合卷积网络的跌倒检测系统,包括:
用于通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片的模块;
用于将图片的最后一帧,即第N张图片作为关键帧的模块,其中只对关键帧里面的人进行标注的模块;
用于特征融合的模块,所述特征融合包括两个分支,第一个分支作用是人体定位,使用2D CNN网络,第二个分支是作用是分类,采用3D CNN网络,其中2D CNN网络提取位置特征,3D CNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;
用于基于行为分类和位置回归进行模型训练的模块,模型输入图片数量为L,从步骤1得到的第1至第N-1张图片进行随机采样,同时确保最后一帧被选到,之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练,得到预测模型;
用于利用测试集对训练的预测模型进行评估,选择模型精度最高的作为最终的跌倒检测模型的模块;
用于基于输出的跌倒检测模型,输入用户的视频和/或图片进行跌倒检测的模块。
{跌倒检测系统}
一种基于时空混合卷积网络的跌倒检测系统,包括:
一个或多个处理器;
存储器,存储可被操作的指令,所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括:
步骤1、通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片,
步骤2、将图片的最后一帧,即第N张图片作为关键帧,只对关键帧里面的人进行标注;
步骤3、特征融合,包括两个分支,第一个分支作用是人体定位,使用2D CNN网络,第二个分支是作用是分类,采用3D CNN网络,其中2D CNN网络提取位置特征,3D CNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;
步骤4、基于行为分类和位置回归进行模型训练,模型输入图片数量为L,从步骤1得到的第1至第N-1张图片进行随机采样,同时确保最后一帧被选到,之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练,得到预测模型;
步骤5、利用测试集对训练的预测模型进行评估,选择模型精度最高的作为最终的跌倒检测模型;
步骤6、基于步骤5输出的跌倒检测模型,输入用户的视频和/或图片进行跌倒检测。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (6)
1.一种基于时空混合卷积网络的跌倒检测方法,其特征在于,包括:
步骤1、通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片,
步骤2、将图片的最后一帧,即第N张图片作为关键帧,只对关键帧里面的人进行标注,其中标注信息包含坐标和类别,坐标信息为人所在矩形区域左上角(xmin,ymin)和矩形区域的右下角(xmax,ymax),类别为跌倒(fall down),跌倒的标注取决于关键帧之前的动作;
步骤3、特征融合,包括两个分支,第一个分支作用是人体定位,使用2D CNN网络,第二个分支是作用是分类,采用3D CNN网络,其中2D CNN网络提取位置特征,3D CNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;所述2D CNN网络采用ResNet50作为主干网络,定位分支的输入为一张视频帧,即关键帧;
步骤4、基于行为分类和位置回归进行模型训练,模型输入图片数量为L,从步骤1得到的第1至第N-1张图片进行随机采样,同时确保最后一帧被选到,之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练,得到预测模型;
步骤5、利用测试集对训练的预测模型进行评估,选择模型精度最高的作为最终的跌倒检测模型;
步骤6、基于步骤5输出的跌倒检测模型,输入用户的视频和/或图片进行跌倒检测;
其中,在所述步骤3中,所述3D CNN网络采用SlowFast网络作为主干网络,SlowFast网络分别由slow和fast两部分组成,输入视频帧数分别为4帧和32帧,slow和 fast部分提取到的特征维度均为1x1024x10x10,将slow和fast部分提取到的特征合并到一起得到1x2048x10x10维的特征,再将得到1x2048x10x10维的特征通过两层2D卷积Conv1和Conv2,使得3D CNN部分最终得到的特征维度为1x30x10x10。
2.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法,其特征在于,所述步骤1中,对于视频片段的截取,得到的N张图片,其中N=3*M,M为视频片段的帧率。
3.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法,其特征在于,所述步骤3中,图片输入尺寸缩放为320x320,3D CNN网络和2D CNN网络使用五次最大池化(Maxpooling),2D CNN网络和3D CNN网络最终提取的特征均为1x30x10x10,其中在特征融合过程中采用YOLO一阶段检测器。
4.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法,其特征在于,所述步骤4中的模型训练过程中,优化器采用ADAM,并对2D CNN网络和3D CNN网络的初始学习率(learning rate)和权重衰减参数(weight decay)进行单独设置:
2D CNN的基础学习率设置为0.0001,权重衰减参数设置为0.00005;
3D CNN的基础学习率设置为0.00006,权重衰减参数设置为0.0001;
其中,在随机采样和初始化训练过程中,批大小(batch size)设置成64,一共迭代90轮,每30轮两个分支的学习率同时降低一半。
5.一种基于时空混合卷积网络的跌倒检测系统,其特征在于,包括:
用于通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片的模块;
用于将图片的最后一帧,即第N张图片作为关键帧的模块,其中只对关键帧里面的人进行标注的模块;
用于特征融合的模块,所述特征融合包括两个分支,第一个分支作用是人体定位,使用2D CNN网络,第二个分支是作用是分类,采用3D CNN网络,其中2D CNN网络提取位置特征,3D CNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;
用于基于行为分类和位置回归进行模型训练的模块,模型输入图片数量为L,从步骤1得到的第1至第N-1张图片进行随机采样,同时确保最后一帧被选到,之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练,得到预测模型;
用于利用测试集对训练的预测模型进行评估,选择模型精度最高的作为最终的跌倒检测模型的模块;
用于基于输出的跌倒检测模型,输入用户的视频和/或图片进行跌倒检测的模块。
6.一种基于时空混合卷积网络的跌倒检测系统,其特征在于,包括:
一个或多个处理器;
存储器,存储可被操作的指令,所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括:
步骤1、通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片,
步骤2、将图片的最后一帧,即第N张图片作为关键帧,只对关键帧里面的人进行标注;
步骤3、特征融合,包括两个分支,第一个分支作用是人体定位,使用2D CNN网络,第二个分支是作用是分类,采用3D CNN网络,其中2D CNN网络提取位置特征,3D CNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;
步骤4、基于行为分类和位置回归进行模型训练,模型输入图片数量为L,从步骤1得到的第1至第N-1张图片进行随机采样,同时确保最后一帧被选到,之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练,得到预测模型;
步骤5、利用测试集对训练的预测模型进行评估,选择模型精度最高的作为最终的跌倒检测模型;
步骤6、基于步骤5输出的跌倒检测模型,输入用户的视频和/或图片进行跌倒检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911152346.2A CN110942009B (zh) | 2019-11-22 | 2019-11-22 | 基于时空混合卷积网络的跌倒检测方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911152346.2A CN110942009B (zh) | 2019-11-22 | 2019-11-22 | 基于时空混合卷积网络的跌倒检测方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110942009A CN110942009A (zh) | 2020-03-31 |
CN110942009B true CN110942009B (zh) | 2021-06-08 |
Family
ID=69908030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911152346.2A Active CN110942009B (zh) | 2019-11-22 | 2019-11-22 | 基于时空混合卷积网络的跌倒检测方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110942009B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291707B (zh) * | 2020-02-24 | 2021-03-23 | 南京甄视智能科技有限公司 | 异常行为的识别方法、装置、存储介质及服务器 |
CN111487624A (zh) * | 2020-04-23 | 2020-08-04 | 上海眼控科技股份有限公司 | 一种预测降雨量的方法与设备 |
CN111915556B (zh) * | 2020-06-22 | 2024-05-14 | 杭州深睿博联科技有限公司 | 一种基于双分支网络的ct图像病变检测方法、系统、终端及存储介质 |
CN111563488A (zh) * | 2020-07-14 | 2020-08-21 | 成都市映潮科技股份有限公司 | 一种视频主题内容识别方法、系统及存储介质 |
CN112183313B (zh) * | 2020-09-27 | 2022-03-11 | 武汉大学 | 一种基于SlowFast的电力作业现场动作识别方法 |
CN112215185B (zh) * | 2020-10-21 | 2022-08-05 | 成都信息工程大学 | 一种从监控视频中检测跌倒行为的系统及方法 |
CN112307978B (zh) * | 2020-10-30 | 2022-05-24 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、电子设备及可读存储介质 |
CN112507792B (zh) * | 2020-11-04 | 2024-01-23 | 华中师范大学 | 在线视频关键帧定位方法、定位系统、设备及存储介质 |
CN113435306B (zh) * | 2021-06-24 | 2022-07-19 | 三峡大学 | 一种基于混合级联卷积的跌倒检测方法和装置 |
CN114220169A (zh) * | 2021-12-16 | 2022-03-22 | 山东大学 | 一种基于Yolo-TSM的轻量级实时监控异常行为检测方法 |
CN114549591B (zh) * | 2022-04-27 | 2022-07-08 | 南京甄视智能科技有限公司 | 时空域行为的检测和跟踪方法、装置、存储介质及设备 |
CN114724230A (zh) * | 2022-06-10 | 2022-07-08 | 湖北微模式科技发展有限公司 | 一种签字人身份识别的方法与系统 |
CN116363761B (zh) * | 2023-06-01 | 2023-08-18 | 深圳海清智元科技股份有限公司 | 基于图像的行为识别方法、装置及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308444A (zh) * | 2018-07-16 | 2019-02-05 | 重庆大学 | 一种室内环境下的异常行为识别方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306290B (zh) * | 2011-10-14 | 2013-10-30 | 刘伟华 | 一种基于视频的人脸跟踪识别方法 |
CN102722721A (zh) * | 2012-05-25 | 2012-10-10 | 山东大学 | 一种基于机器视觉的人体跌倒检测方法 |
CN103218825B (zh) * | 2013-03-15 | 2015-07-08 | 华中科技大学 | 一种尺度不变的时空兴趣点快速检测方法 |
CN104732208B (zh) * | 2015-03-16 | 2018-05-18 | 电子科技大学 | 基于稀疏子空间聚类的视频人体行为识别方法 |
CN108549841A (zh) * | 2018-03-21 | 2018-09-18 | 南京邮电大学 | 一种基于深度学习的老人跌倒行为的识别方法 |
CN109410242B (zh) * | 2018-09-05 | 2020-09-22 | 华南理工大学 | 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质 |
CN109522793B (zh) * | 2018-10-10 | 2021-07-23 | 华南理工大学 | 基于机器视觉的多人异常行为检测与识别方法 |
CN109635721B (zh) * | 2018-12-10 | 2020-06-30 | 山东大学 | 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统 |
CN109934111B (zh) * | 2019-02-12 | 2020-11-24 | 清华大学深圳研究生院 | 一种基于关键点的健身姿态估计方法及系统 |
CN109919122A (zh) * | 2019-03-18 | 2019-06-21 | 中国石油大学(华东) | 一种基于3d人体关键点的时序行为检测方法 |
-
2019
- 2019-11-22 CN CN201911152346.2A patent/CN110942009B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308444A (zh) * | 2018-07-16 | 2019-02-05 | 重庆大学 | 一种室内环境下的异常行为识别方法 |
Non-Patent Citations (2)
Title |
---|
"SlowFast Networks for Video Recognition";Christoph Feichtenhofer et al.;《arXiv:1812.03982v1》;20181231;第1-11页 * |
"基于深度学习和WebRTC的智能跌倒监控系统研究";袁智;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215(第2期);正文第22-35页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110942009A (zh) | 2020-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110942009B (zh) | 基于时空混合卷积网络的跌倒检测方法与系统 | |
CN110472531B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN109919031B (zh) | 一种基于深度神经网络的人体行为识别方法 | |
CN113301430B (zh) | 视频剪辑方法、装置、电子设备以及存储介质 | |
CN107943837B (zh) | 一种前景目标关键帧化的视频摘要生成方法 | |
CN112597941B (zh) | 一种人脸识别方法、装置及电子设备 | |
CN109919977B (zh) | 一种基于时间特征的视频运动人物跟踪与身份识别方法 | |
CN113963445B (zh) | 一种基于姿态估计的行人摔倒动作识别方法及设备 | |
CN113807276B (zh) | 基于优化的YOLOv4模型的吸烟行为识别方法 | |
CN113365147B (zh) | 基于音乐卡点的视频剪辑方法、装置、设备及存储介质 | |
US11868738B2 (en) | Method and apparatus for generating natural language description information | |
CN112200041B (zh) | 视频动作识别方法、装置、存储介质与电子设备 | |
CN108229338A (zh) | 一种基于深度卷积特征的视频行为识别方法 | |
CN109063643B (zh) | 一种用于脸部信息部分隐藏条件下的面部表情痛苦度识别方法 | |
WO2021103474A1 (zh) | 图像的处理方法和装置、存储介质及电子装置 | |
CN112801068B (zh) | 一种视频多目标跟踪与分割系统和方法 | |
CN114333070A (zh) | 一种基于深度学习的考生异常行为检测方法 | |
CN110942456B (zh) | 篡改图像检测方法、装置、设备及存储介质 | |
CN109614896A (zh) | 一种基于递归卷积神经网络的视频内容语义理解的方法 | |
CN111046213B (zh) | 一种基于图像识别的知识库构建方法 | |
CN113033524A (zh) | 遮挡预测模型训练方法、装置、电子设备及存储介质 | |
CN117058595A (zh) | 视频语义特征和可扩展粒度感知时序动作检测方法及装置 | |
CN115311111A (zh) | 课堂参与度评价方法及系统 | |
US20240177525A1 (en) | Multi-view human action recognition method based on hypergraph learning | |
CN108597172A (zh) | 一种森林火灾识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: No.568 longmian Avenue, gaoxinyuan, Jiangning District, Nanjing City, Jiangsu Province, 211000 Patentee after: Xiaoshi Technology (Jiangsu) Co.,Ltd. Address before: No.568 longmian Avenue, gaoxinyuan, Jiangning District, Nanjing City, Jiangsu Province, 211000 Patentee before: NANJING ZHENSHI INTELLIGENT TECHNOLOGY Co.,Ltd. |