CN109635721B - 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统 - Google Patents

基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统 Download PDF

Info

Publication number
CN109635721B
CN109635721B CN201811506075.1A CN201811506075A CN109635721B CN 109635721 B CN109635721 B CN 109635721B CN 201811506075 A CN201811506075 A CN 201811506075A CN 109635721 B CN109635721 B CN 109635721B
Authority
CN
China
Prior art keywords
convolution
track
video
weighted
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811506075.1A
Other languages
English (en)
Other versions
CN109635721A (zh
Inventor
马昕
张智勐
宋锐
荣学文
田新诚
田国会
李贻斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201811506075.1A priority Critical patent/CN109635721B/zh
Publication of CN109635721A publication Critical patent/CN109635721A/zh
Application granted granted Critical
Publication of CN109635721B publication Critical patent/CN109635721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统,包括:得到每一帧的卷积特征图;提出了一种新的轨迹注意力图,可以用于定位视频中的人物区域;视频帧的卷积特征图与轨迹注意力图相加权可以得到轨迹加权卷积特征,该特征可以有效地描述视频中人物区域的视觉特征;提出聚类池化的方法,消除序列中的冗余。最后,我们使用次序池化的方法编码轨迹加权卷积特征序列,得到的结果就是轨迹加权深度卷积次序池化描述子。使用该描述子,在SDUFall数据集上获得了目前最高的准确率,在UR数据集和多视角数据集上也获得了不错的效果。

Description

基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测 方法及系统
技术领域
本发明属于人体跌倒检测技术领域,尤其涉及一种基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统。
背景技术
在世界范围内,年龄超过60岁的人群增长速度要远远超过其他年龄段,从2006年到2050年,预计人数将从688万增长到20亿。在中国,2010年65岁以上的老人大约占总人口的8.87%,但是到2050年,65岁以上的老人预计增长到30%。正如WHO报告中所描述的那样,跌倒是老年人中非常严重的一个问题。大约28-35%65岁以上的老人每年都会跌倒。大约32-42%的70岁以上的老人每年都会跌倒。跌倒是造成79岁以上老人死亡的主要原因.老年人普遍独自生活,所以如果发生跌倒而且缺少及时的救治会更容易造成死亡。跌倒不仅会对老年人造成身体的伤害,同时也会给老年人留下心理阴影。但是,人体跌倒检测技术可以解决这些问题。
目前主流的人体跌倒检测方法大致可以分为两类:基于可佩戴的传感器(最常见的是加速度计)和基于摄像头采集的视频。其中可佩戴的传感器需要老年人时刻穿戴在身上,往往会给老年人带来不便。然而基于视觉的方法通过视频分析老年人是否发生跌倒,不会对老年人的日常生活造成任何影响,所以目前大多采用视频流分析的方法。
采集视频的摄像头可以分为RGB彩色摄像头和深度摄像头。基于这些摄像头采集的视频我们可以实现视频流的跌倒检测分析。传统的人体跌倒检测方法通过分析人物轮廓或运动轨迹来判断人物是否发生跌倒。人体轮廓可以被近似为一个椭圆,从而可以进一步提取人体轮廓的几何特征,比如横纵比、轮廓方向、边缘点、曲率尺度空间等。人物运动轨迹则可以通过光流等方法提取,然后根据人物轨迹的变化来判断是否发生跌倒。
上述传统的人体跌倒检测方法需要从背景环境中提取出人物前景,很容易受到图像噪声、光照变化以及遮挡的影响。近些年来,深度学习技术在计算机视觉领域获得了极大的成功,其在跌倒检测中也逐渐被应用。深度学习直接从视频帧中学习有效地视觉特征,不需要任何的背景检测和前景提取等预处理。例如:
现有技术中,快速R-CNN被用于检测视频中的人和家具,然后通过计算人物轮廓的形状特征和判断人和最近家具之间的关系来判断是否发生跌倒行为。
现有技术中,3D卷积神经网络被用于编码视频中的时空信息,同时提出了一种基于长短时记忆网络的注意力图用于定位视频中的人物区域,但是这种注意力图是通过端到端网络训练计算而来,需要大量的训练数据来计算,而且不够稳定。
目前基于深度学习的人体跌倒检测方法仍旧存在很多问题,首先,对于人体跌倒检测,我们只需要关注视频中的人物的行为而不需要关注视频中的背景。虽然现在的跌倒检测数据集大都在简单的室内环境下采集,深度学习的方法很容易提取视频中的人物特征。然而,在实际情况下采集的视频中很有可能包含相机抖动或者其他更加复杂的情况。所以视频中人物特征的编码会存在很多的问题。为了解决这个问题,当前的大多数方法是使用端到端训练计算的注意力图来帮助定位视频中的人物。然而,这些注意力图不够足够的稳定,它们会经常关注错误的区域,比如在简单的环境下关注背景而忽略人物。除此之外,端到端训练的注意力图也需要大量的数据训练才能够更加的精准。第二,视频中通常都包含大量的冗余信息,这非常不利于视频的时空特征编码。
发明内容
为了解决上述问题,本发明提出了一种基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统,通过获得轨迹加权深度卷积次序池化描述子,能够有效地描述长时冗余视频中复杂背景环境下的人物行为动态。
为了实现上述目的,本发明采用如下技术方案:
在一个或多个实施方式中公开的基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法,包括:
获取视频图像信息;
将视频的所有帧输入到卷积网络中,计算卷积特征图,并对卷积特征图进行归一化;
根据获得的视频图像信息,计算每一帧的轨迹注意力图,以定位视频中的人物区域;
将每一帧的轨迹注意力图加权到对应的卷积特征图中,得到每一帧人物区域的轨迹加权卷积特征,视频所有帧的轨迹加权卷积特征组成轨迹加权卷积特征时间序列;
使用聚类池化方法减少轨迹加权卷积特征时间序列中的冗余信息;
将次序池化作用于消除冗余的轨迹加权卷积特征时间序列,得到轨迹加权深度卷积次序池化描述子;
根据轨迹加权深度卷积次序池化描述子进行人体跌倒判断。
进一步地,根据获得的视频图像信息,计算每一帧的轨迹注意力图,具体为:
计算改进稠密轨迹子,所述改进稠密轨迹子首先通过估计相邻两帧之间的平移变换矩阵来消除相机抖动的影响,然后密集采样视频帧中的特征点,根据光流来跟踪这些特征点,从而获得视频中运动目标的运动轨迹;
基于每一帧计算得到的改进稠密轨迹子,计算轨迹注意力图;
通过统计轨迹注意力图中每一个像素点对应的感受野中的轨迹点的个数来确定像素值的大小。
进一步地,将每一帧的轨迹注意力图加权到对应的卷积特征图中,得到每一帧人物区域的轨迹加权卷积特征,具体为:
每一帧的轨迹加权卷积特征是轨迹注意力图与对应卷积特征图的加权;
第t帧中的轨迹加权卷积特征具体为:
Figure BDA0001899484950000031
其中,
Figure BDA0001899484950000032
表示第t帧轨迹注意力图中(i,j)位置的像素值,
Figure BDA0001899484950000033
表示第t帧卷积特征图中(i,j,c)位置的像素值;整个视频所有帧的轨迹加权卷积特征可以表示为U={U1,U2,...,UT},i=1,...,H;j=1,...,W;t=1,...,T;H和W表示轨迹注意力图的高和宽,T是视频的时间长度;c为卷积特征图的通道数。
进一步地,使用聚类池化方法减少轨迹加权卷积特征时间序列中的冗余信息,具体为:
假设冗余的轨迹加权卷积特征序列表示为U={U1,U2,...UT},
初始化第一个序列段
Figure BDA0001899484950000034
它的均值向量为
Figure BDA0001899484950000035
其中M表示为均值函数;
遍历下一个序列元素U2并且计算该元素与当前序列段的均值向量的欧式距离d;
设置一个距离阈值σ,如果d≤σ,那么将元素U2添加到当前的序列段中,即
Figure BDA0001899484950000036
并且重新计算当前序列段的均值向量;如果d≥σ,那么重新创建一个新的序列段,即
Figure BDA0001899484950000037
遍历完整个长度的轨迹加权卷积特征序列并得到了多个不相交的序列段,取每一个序列段的均值向量组成新的时间序列,该新的时间序列中不包含视频信息中的冗余信息。
进一步地,将次序池化作用于消除冗余的轨迹加权卷积特征时间序列,具体为:
时间序列中的每一元素都是一个向量,通过线性变换函数对每一个元素做线性变换,将向量映射为1个数值;
次序池化约束映射的值保持其时间顺序性,即时间靠后的映射值要大于时间靠前的映射值;
线性变换函数的参数值作为整个时间序列的表示。
进一步地,假设消除冗余后的轨迹加权卷积特征序列表示为
Figure BDA0001899484950000038
对其进行平滑操作,
Figure BDA0001899484950000041
是平滑后的序列;
整个次序池化的目标函数为:
Figure BDA0001899484950000042
其中,
Figure BDA0001899484950000043
表示的是正则项,εij为松弛变量,δ为一个任意的正数,d是线性变换函数的参数,C是权重衰减系数,求得最优的参数d*作为轨迹加权深度卷积次序池化描述子。
在一个或多个实施方式中公开的基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测系统,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法。
在一个或多个实施方式中公开的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述的基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法。
与现有技术相比,本发明的有益效果是:
(1)提出一种轨迹注意力图用来定位视频中的人物区域,这种轨迹注意力图基于稠密轨迹子计算而来,它不需要大量的训练数据来帮助计算而且对视频中复杂多变的情况具有鲁棒性。
(2)提出一种聚类池化的方法,这种池化方法通过沿着时间聚类的方式来减少时间序列中的冗余。
(3)引入次序池化的方法来进一步生成我们新的轨迹加权深度卷积次序池化描述子。该描述子由深度卷积网络、轨迹注意力图、聚类池化和次序池化计算而来,并且可以有效地描述长时冗余视频中的人物行为动态。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是轨迹加权深度卷积次序池化描述子计算流程图;
图2是轨迹注意力图的计算示意图;
图3是聚类池化方法示意图;
图4是次序池化示意图;
图5是轨迹注意力图的可视化结果;
图6(a)、(b)分别是聚类池化阈值的探索性结果;
图7是轨迹加权深度卷积次序池化描述子在SDUFall数据集上的分类混淆矩阵。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
在一个或多个实施方式中公开了一种基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法,如图1所示,主要包括以下步骤:
(1)采集到的RGB视频的所有帧输入到VGG-16卷积网络中用来计算卷积特征图,然后这些卷积特征图使用空间时间归一化的方法进行归一化;
(2)根据采集到的RGB视频来计算改进稠密轨迹子,这些轨迹子可以描述视频中运动人物的运动轨迹。根据这些改进稠密轨迹子,计算轨迹注意力图,轨迹注意力图可以帮助定位视频中的人物区域;
(3)将每一帧的轨迹注意力图加权到对应的卷积特征图中,得到每一帧人物区域的轨迹加权卷积特征,视频所有帧的轨迹加权卷积特征组成的时间序列可以反映人物运动的动态变化;
(4)使用聚类池化方法来减少轨迹加权卷积特征时间序列中的冗余信息;
(5)将次序池化作用于消除冗余的轨迹加权卷积特征时间序列,得到最终的轨迹加权深度卷积次序池化描述子。
接下来的部分,对上面的五个步骤分别进行详细的介绍。
A.卷积神经网络和卷积特征图
因为目前的跌倒检测数据集都比较简单而且规模也比较小,VGG-1卷积神经网络足够表达其中的视觉特征,所以使用VGG-16作为基本的卷积神经网络。VGG-16包含有5个卷积组与3个全连接层,在每一个卷积组之后都连接着最大池化层。该网络的输入图像的分辨率为224x224。同时为了减少网络的尺寸并且减弱全连接层的作用,使用一个只包含1024个单元的全连接层来替代2个全连接层。
然后CNN卷积网络被用作特征提取器,提取视频中每一帧的卷积特征图。卷积特征图中的每一个像素点可以编码其对应感受野中的色彩和纹理特征。在卷积网络的第五个卷积组之后提取卷积特征图,因为网络层数越深,可以编码的色彩和纹理越丰富。归一化在设计特征的过程中是非常有效的,所以使用空间时间归一化方法对提取的卷积特征图进行归一化。
卷积特征图经过归一化后可以被写成一个四维的张量F∈R^(H×W×C×T),其中H,W,C和T分别表示卷积特征图的高,宽,通道数以及时间长度。
B.轨迹注意力图
人的跌倒行为可能会发生在视频帧的不同区域。卷积特征图中包含了输入图片的空间结构,所以我们进一步提出了一种轨迹注意力图,该注意力图可以在卷积特征图上定位视频中的人物区域,轨迹注意力图如图2所示。
注意力图被广泛地应用于视频中人物区域的定位,它与卷积特征图是等长与等宽的,每一帧中的卷积特征图和注意力图是相互对应的。目前的注意力图是通过端到端的网络训练的,所以需要大量的训练数据,而且在非常复杂的环境之中也不是那么地精准。轨迹注意力图是由稠密轨迹子和改进稠密轨迹子计算而来,稠密轨迹子可以描述复杂环境中的人物运动轨迹,所以这些轨迹点总是分布在视频中的人物区域。
通过统计轨迹注意力图中的每一个像素点所对应的感受野中的轨迹子的个数来确定其像素值,所以如果感受野中的轨迹个数越多,其对应的像素值就会越大。因此,轨迹注意力图在人物定位方面更具优势。
计算稠密轨迹子的过程如下:第一,在初始的视频帧中,使用密集网格采样的形式每隔5个像素点采样,采样出来密集特征点;第二,计算每一个密集特征点的对应的自相关矩阵的特征值,如果特征值偏低,则说明这些点在平缓的背景区域,设置一个阈值将这类点去除掉。第三,对于留下来的每一个特征点,将其视为轨迹的起始点,沿着时间跟踪这些轨迹起始点就可以得到稠密轨迹子。假设
Figure BDA0001899484950000061
表示第t帧中第l个位于(x,y)处的轨迹起始点,而下一个跟踪的轨迹点为t+1帧中的点
Figure BDA0001899484950000062
其计算过程如式(1)表示。
(xt+1,yt+1)=(xt,yt)+(M*ωt)|(xt,yt) (1)
其中,ωt=(ut,vt)表示第t帧中的密集光流,ut和vt分别表示光流的水平分量和垂直分量。M表示中值滤波器的核,它可以帮助计算轨迹的方向。为了避免轨迹漂移,设置每一条轨迹最长的长度为15;最后,那些没有位移的轨迹将会被移除。
改进稠密轨迹子是稠密轨迹子的改进版本,它可以克服视频中的相机运动的影响。它假设两个相邻帧之间的关系可以被一个变换矩阵所描述,为了计算出来这个变换矩阵的值,它首先计算两个相邻帧中的SURF特征和光流特征,然后使用RANSAC算法来匹配这些特征。从而可以计算出变换矩阵的值。从t帧开始的第l条轨迹可以写为如下形式:
Figure BDA0001899484950000071
其中N表示轨迹的长度,第t帧所有的改进稠密轨迹子可以表示为
Figure BDA0001899484950000072
基于每一帧计算得到的稠密轨迹点,进一步计算轨迹注意力图。通过统计轨迹注意力图中每一个像素点对应的感受野中的轨迹点的个数来确定像素值的大小。一段视频的轨迹注意力图可以表示为A∈RH×W×T,其中H和W表示轨迹注意力图的高和宽,T表示视频的时间长度。
Figure BDA0001899484950000073
表示第t帧对应的轨迹注意力图中(i,j)位置的值。
Figure BDA0001899484950000074
的值计算如式(2)所示。
Figure BDA0001899484950000075
其中,
Figure BDA0001899484950000076
表示轨迹注意力图中
Figure BDA0001899484950000077
像素点对应的感受野。N表示统计函数,可以统计感受野中的轨迹点的个数。然后我们通过式(3)来归一化轨迹注意力图,归一化后的轨迹注意力图可以表示为
Figure BDA0001899484950000078
Figure BDA0001899484950000079
C.轨迹加权卷积特征
为了计算视频中每一帧人物区域的卷积特征,我们将轨迹注意力图加权到卷积特征图中得到轨迹加权卷积特征。每一帧中的轨迹加权卷积特征都只会编码人物区域的视觉特征。
整个视频的轨迹注意力图可以表示为
Figure BDA00018994849500000710
整个视频的卷积特征图可以表示为
Figure BDA00018994849500000711
视频中每一帧的轨迹注意力图与卷积特征图是相互一一对应的,因为每一帧的轨迹加权卷积特征是轨迹注意力图与对应卷积特征图的加权,所以第t帧中的轨迹加权卷积特征的计算如式(4)所示,可以表示为Ut∈RC
Figure BDA00018994849500000712
其中,
Figure BDA00018994849500000713
表示第t帧轨迹注意力图中(i,j)位置的像素值,
Figure BDA00018994849500000714
表示第t帧卷积特征图中(i,j,c)位置的像素值。整个视频所有帧的轨迹加权卷积特征可以表示为U={U1,U2,...UT},T是视频的长度。该轨迹加权卷积特征序列可以有效地描述视频中的人物行为动态。
D.聚类池化
视频中通常都会包含有大量的冗余信息,这些冗余信息会大大增加人物行为动态的编码难度。所以我们提出了一种新的聚类池化的方法,该方法可以有效消除视频中的冗余信息。聚类池化方法作用于视频帧级的特征序列,它沿着时间维度对序列聚类从而达到消除冗余的作用。
聚类池化首先将时间序列聚类成多个不相交的序列段,然后计算每一个序列段的均值向量作为对应序列段的表示,最后所有序列段的均值向量组成的新的序列作为结果序列,该序列减少了原始时间序列中的冗余信息。将聚类池化的方法作用于轨迹加权卷积特征序列中获得消除了冗余的轨迹加权卷积特征序列,如图3所示,假设冗余的轨迹加权卷积特征序列表示为U={U1,U2,...UT},聚类池化方法首先初始化第一个序列段
Figure BDA0001899484950000081
它的均值向量为
Figure BDA0001899484950000082
其中M表示为均值函数。然后遍历下一个序列元素U2并且计算该元素与当前序列段的均值向量的欧式距离,如式(5)所示。
d=D(μ1,U2) (5)
其中,D表示计算欧式距离的函数,然后设置一个距离阈值σ来判断我们是否将U2添加到当前的序列段中,如果d≤σ,那么我们将元素U2添加到当前的序列段中,即
Figure BDA0001899484950000083
并且重新计算当前序列段的均值向量。如果d≥σ,那么重新创建一个新的序列段,即
Figure BDA0001899484950000084
最后遍历完整个长度的轨迹加权卷积特征序列并得到了多个不相交的序列段,取每一个序列段的均值向量组成新的时间序列,该新的时间序列中不包含视频信息中的冗余信息。其过程如表1所示。
表1:聚类池化算法
Figure BDA0001899484950000085
Figure BDA0001899484950000091
E.轨迹加权深度卷积次序池化描述子
最后,通过引入次序池化的方法来编码轨迹加权卷积序列中的动态信息,最终得到轨迹加权深度卷积次序池化描述子,如图4所示。与其他时间序列编码的方法相比,次序池化在编码速度与长时序列编码方面都存在很大的优势。新的描述子TDRD由深度卷积网络、轨迹注意力图、聚类池化和次序池化计算而来,所以其能够有效地描述长时冗余视频中的人物行为动态。
次序池化的核心是线性变换函数,因为时间序列中的每一元素都是一个向量,所以对每一个元素做线性变换可以将向量映射为1个数值。次序池化约束映射的值保持其时间顺序性,即时间靠后的映射值要大于时间靠前的映射值。最后,线性变换函数的参数值作为整个时间序列的表示。假设消除冗余后的轨迹加权卷积特征序列可以表示为
Figure BDA0001899484950000092
它首先经过式(7)的平滑操作。
Figure BDA0001899484950000093
其中,
Figure BDA0001899484950000094
是平滑后的序列,而且vt∈RC。线性变换函数可以写为
Figure BDA0001899484950000095
所以整个线性变换可以表示为
Figure BDA0001899484950000096
其中线性变换函数的参数为d∈RC。因为时间序列的元素经过线性变换后仍旧保持其时间顺序性,所以当ti>tj时,存在
Figure BDA0001899484950000097
Figure BDA0001899484950000098
整个次序池化的目标函数如式(8)所示。
Figure BDA0001899484950000099
其中
Figure BDA00018994849500000910
表示的是正则项,εij为松弛变量,δ为一个任意的正数,本文中设置为1。C是权重衰减系数,d是线性变换函数的参数,求得最优的参数d*作为轨迹加权深度卷积次序池化描述子。
实验部分
在本章中,我们首先介绍人体跌倒检测数据集。其次,我们会介绍一些实验的详细细节。再次,我们会根据本文的创新点再做一些探索性的实验,比如轨迹注意力图的可视化、聚类池化中的阈值的探索、以及轨迹注意力图的有效性评估等。我们在SDUFall数据集、UR数据集以及多视角相机数据集上做了相关的实验。
A.数据集
SDUFall数据集:SDUFall数据集是由一个1.5米高的kinect摄像头采集,该数据集一共包含六种行为:跌倒、弯腰、蹲下、坐下、躺下和行走。所有的行为由20名志愿者在不同的环境下分别做了10次,所以整个数据集一共包含1200个彩色视频和1200个深度视频,而且该数据集包含有丰富的背景环境,包括光照变化、视角改变以及丰富的姿态变换。
UR数据集:UR数据集由两个kinect摄像头从不同的视角采集,一共包含30种不同的跌倒行为,我们将两种不同视角的视频合并在一起,所以一共包含60个跌倒行为视频。除此之外,该数据集中还包含40个日常行为的视频。
多视角相机数据集:多视角相机数据集由8个不同视角的kinect摄像头采集,一共包含24个不同场景,在每一种场景下都包含躺着、弯腰、坐在沙发上、行走等行为。
B.实验细节
在我们的实验中,选择支持向量机(SVM)作为基本的分类器,并且在SDUFall数据集、UR数据集以及多视角相机数据集上测试了提出的轨迹加权深度卷积次序池化描述子。
在SDUFall数据集上,随机采样了3/5的数据作为训练集,剩下的2/5作为测试集。因为SDUFall数据集中的每一个视频只包含视频标签,所以从训练集视频的末端开始,以每隔两帧抽取一帧的方式,采集10帧视频帧来训练卷积神经网络。SDUFall数据集中的视频长度为120-250,计算整个完整视频的轨迹加权深度卷积次序池化描述子(TDRD)。在UR数据集中,视频的平均长度为100-150,使用五折交叉验证并且也是计算整个完整视频的轨迹加权深度卷积次序池化描述子(TDRD)。因为视频中的每一帧都包含标签,所以使用视频中所有的帧来训练卷积神经网络。在多视角相机数据集中,每一个长时视频都包含跌倒与非跌倒行为,所以裁剪了184个只包含有跌倒行为的视频段和216个只包含有非跌倒行为的视频段,其中的非跌倒行为包括80个行走、40个弯腰、48个坐下和48个其他行为。所有视频段的平均长度为50帧,同样采用五折交叉验证的方法。多视角相机数据集中视频的每一帧都包含有标签,所以同样使用视频中的所有帧来训练卷积神经网络。在UR数据集与多视角相机数据集中,使用了跌倒-非跌倒二分类方案并且计算了敏感性与特异性两种评价标准,在SDUFall数据集中,计算了六种行为的平均准确率。敏感性和特异性的计算方式如式(9)和式(10)所示。
Figure BDA0001899484950000101
Figure BDA0001899484950000111
在训练阶段,使用随机梯度下降算法微调在ImageNet上预训练的卷积神经网络。学习率初始化为0.001,如果测试集上的准确率不再增加,则学习率乘以0.1,动量、权重衰减以及批处理的值分别设置为0.9,0.0001和50。为了防止训练的过程之中发生过拟合,使用了50%的随机丢弃神经元的方法和数据增强的方法,提取第五层卷积组之后的卷积特征图,其尺寸大小为7×7。
C.探索性实验
(1)轨迹注意力图的可视化
首先可视化了一部分在SDUFall数据集上计算的轨迹注意力图,如图5所示。从图5中可以看到在轨迹注意力图中,像素值主要分布在人物区域,背景环境中的像素值基本为0,所以轨迹注意力图可以在不同的背景环境中有效地定位人物区域。
(2)聚类池化中的阈值
聚类池化中很重要的一个参数是阈值,它决定了聚类序列段的长度与数量。首先统计在SDUFall数据集中随着阈值的变换时间序列长度减少的比例。然后我们测试了阈值在0-1范围内取不同值时对应的SDUFall数据集上的识别准确率,从而可以选取最优的阈值。从图6(a)中我们可以看到聚类池化的阈值越大,去除冗余后的时间序列的长度越短,所以我们的聚类池化方法可以有效地减少时间序列中的冗余。图6(b)中显示当阈值的值为0.7时准确率得到最大值96.04%,所以在以后所有的实验中我们设置阈值的值为0.7。
(3)轨迹注意力图的评估
为了进一步评估我们的轨迹注意力图,我们做了相关的对比实验。在对比实验中,移除了轨迹注意力图并且使用其他三种特征代替轨迹加权卷积特征。第一种对比特征为最大池化特征,它是卷积特征图直接最大池化的结果。第二种对比特征为平均池化特征,它是卷积特征图直接全局平均池化的结果。第三种特征为全连接特征。这三种对比特征没有考虑视频中运动人物的位置,所以不能有针对性地编码人物区域的视觉特征。然后这三种对比特征分别经过聚类池化和次序池化,可以获得三种对比描述子,分别称为最大卷积次序池化描述子(MDRD)、平均卷积次序池化描述子(ADRD)、全连接次序池化描述子(FDRD)。表2中为三种对比描述子与轨迹加权深度卷积次序池化描述子在SDUFall数据集上的结果。从表二中我们可以看到我们的TDRD描述子获得了最好的结果为96.04%,它比三种对比的描述子MDRD、ADRD和FDRD分别高出4%,2.1%和1.5%的准确率。我们认为主要的原因是在人体跌倒检测中,人物行为是判断人体是否产生跌倒行为的关键,但是三种对比描述子都没有考虑到视频中人物区域的位置,所以他们不能编码人物区域的视觉特征。我们的轨迹加权深度卷积次序池化描述子能够有效地定位视频中的人物区域并编码视觉特征,所以我们的描述子比那三种对比描述子更加有效。
表2 TDRD与3种对比描述子的比较结果
Figure BDA0001899484950000121
(4)与其他方法的对比
我们首先给出了轨迹加权深度卷积次序池化描述子在SDUFall数据集上的分类结果混淆矩阵。如图7所示,从图7中可以看到轨迹加权深度卷积次序池化描述子在SDUFall数据集上取得了非常好的结果。然后在表3,表4,表5中,与其他的方法做了对比,从表3中可以看出,我们的方法取得了RGB彩色视频和深度视频中最优的分类准确率、敏感性和特异性。在SDUFall数据集上取得了96.04%的分类准确率,这比之前最好的RGB彩色的方法要高14.71%,比之前最好的深度视频的方法要高1.04%,也获得了最高的敏感性和特异性,其中特异性的值几乎到了100%。
在表4中可以看到在UR数据集中我们的方法获得了100%的敏感性与95.00%的特异性。UR数据集中只有100个视频,所以我们的方法在非常小的数据集上也可以取得很好的效果。
本发明方法首先提出了一种轨迹注意力图,这种轨迹注意力图基于稠密轨迹子计算而来,而且可以帮助定位视频中的人物区域,并且对复杂的背景环境具有鲁棒性;然后,基于轨迹注意力图、卷积特征图、聚类池化和次序池化,进一步提出了一种轨迹加权深度卷积次序池化描述子,该描述子能够有效地描述长时冗余视频中复杂背景环境下的人物行为动态。通过实验验证,该描述子在SDUFall数据集上获得了非常好的效果,在UR数据集和多视角相机数据集中也取得了不错的效果。
表3与SDUFALL数据集的方法对比
Figure BDA0001899484950000122
表4与UR数据集的方法对比
Figure BDA0001899484950000131
实施例二
在一个或多个实施方式中公开的一种基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测系统,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一所述的一种基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法,。
实施例三
在一个或多个实施方式中公开的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行实施例一所述的一种基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (7)

1.基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法,其特征在于,包括:
获取视频图像信息;
将视频的所有帧输入到卷积网络中,计算卷积特征图,并对卷积特征图进行归一化;
根据获得的视频图像信息,计算每一帧的轨迹注意力图,以定位视频中的人物区域;
所述根据获得的视频图像信息,计算每一帧的轨迹注意力图,具体为:
计算改进稠密轨迹子,所述改进稠密轨迹子首先通过估计相邻两帧之间的平移变换矩阵来消除相机抖动的影响,然后密集采样视频帧中的特征点,根据光流来跟踪这些特征点,从而获得视频中运动目标的运动轨迹;
基于每一帧计算得到的改进稠密轨迹子,计算轨迹注意力图;
通过统计轨迹注意力图中每一个像素点对应的感受野中的轨迹点的个数来确定像素值的大小;
将每一帧的轨迹注意力图加权到对应的卷积特征图中,得到每一帧人物区域的轨迹加权卷积特征,视频所有帧的轨迹加权卷积特征组成轨迹加权卷积特征时间序列;
使用聚类池化方法减少轨迹加权卷积特征时间序列中的冗余信息;
将次序池化作用于消除冗余的轨迹加权卷积特征时间序列,得到轨迹加权深度卷积次序池化描述子;
根据轨迹加权深度卷积次序池化描述子进行人体跌倒判断。
2.如权利要求1所述的基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法,其特征在于,将每一帧的轨迹注意力图加权到对应的卷积特征图中,得到每一帧人物区域的轨迹加权卷积特征,具体为:
每一帧的轨迹加权卷积特征是轨迹注意力图与对应卷积特征图的加权;
第t帧中的轨迹加权卷积特征具体为:
Figure FDA0002489915420000011
其中,
Figure FDA0002489915420000012
表示第t帧轨迹注意力图中(i,j)位置的像素值,
Figure FDA0002489915420000013
表示第t帧卷积特征图中(i,j,c)位置的像素值;整个视频所有帧的轨迹加权卷积特征可以表示为U={U1,U2,...UT},i=1,...,H;j=1,...,W;t=1,...,T;H和W表示轨迹注意力图的高和宽,T是视频的时间长度;c为卷积特征图的通道数。
3.如权利要求1所述的基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法,其特征在于,使用聚类池化方法减少轨迹加权卷积特征时间序列中的冗余信息,具体为:
假设冗余的轨迹加权卷积特征序列表示为U={U1,U2,...UT},
初始化第一个序列段
Figure FDA0002489915420000021
它的均值向量为
Figure FDA0002489915420000022
其中M表示为均值函数;
遍历下一个序列元素U2并且计算该元素与当前序列段的均值向量的欧式距离d;
设置一个距离阈值σ,如果d≤σ,那么将元素U2添加到当前的序列段中,即
Figure FDA0002489915420000023
并且重新计算当前序列段的均值向量;如果d≥σ,那么重新创建一个新的序列段,即
Figure FDA0002489915420000024
遍历完整个长度的轨迹加权卷积特征序列并得到了多个不相交的序列段,取每一个序列段的均值向量组成新的时间序列,该新的时间序列中不包含视频信息中的冗余信息。
4.如权利要求1所述的基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法,其特征在于,将次序池化作用于消除冗余的轨迹加权卷积特征时间序列,具体为:
时间序列中的每一元素都是一个向量,通过线性变换函数对每一个元素做线性变换,将向量映射为1个数值;
次序池化约束映射的值保持其时间顺序性,即时间靠后的映射值要大于时间靠前的映射值;
线性变换函数的参数值作为整个时间序列的表示。
5.如权利要求1所述的基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法,其特征在于,假设消除冗余后的轨迹加权卷积特征序列表示为
Figure FDA0002489915420000025
对其进行平滑操作,
Figure FDA0002489915420000026
是平滑后的序列;
整个次序池化的目标函数为:
Figure FDA0002489915420000027
其中,
Figure FDA0002489915420000028
表示的是正则项,εij为松弛变量,δ为一个任意的正数,d是线性变换函数的参数,C是权重衰减系数,求得最优的参数d*作为轨迹加权深度卷积次序池化描述子。
6.基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测系统,其特征在于,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-5任一项所述的基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法。
7.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行权利要求1-5任一项所述的基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法。
CN201811506075.1A 2018-12-10 2018-12-10 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统 Active CN109635721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811506075.1A CN109635721B (zh) 2018-12-10 2018-12-10 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811506075.1A CN109635721B (zh) 2018-12-10 2018-12-10 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统

Publications (2)

Publication Number Publication Date
CN109635721A CN109635721A (zh) 2019-04-16
CN109635721B true CN109635721B (zh) 2020-06-30

Family

ID=66072472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811506075.1A Active CN109635721B (zh) 2018-12-10 2018-12-10 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统

Country Status (1)

Country Link
CN (1) CN109635721B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059662B (zh) * 2019-04-26 2021-03-23 山东大学 一种深度视频行为识别方法及系统
CN110472614B (zh) * 2019-08-22 2023-06-30 四川自由健信息科技有限公司 一种晕倒行为的识别方法
CN110942009B (zh) * 2019-11-22 2021-06-08 南京甄视智能科技有限公司 基于时空混合卷积网络的跌倒检测方法与系统
CN111126620B (zh) * 2019-12-10 2020-11-03 河海大学 一种用于时间序列的特征指纹生成方法及应用
CN112219224B (zh) * 2019-12-30 2024-04-26 商汤国际私人有限公司 图像处理方法及装置、电子设备和存储介质
SG10201913744SA (en) * 2019-12-30 2020-12-30 Sensetime Int Pte Ltd Image processing method and apparatus, electronic device, and storage medium
CN111046847A (zh) * 2019-12-30 2020-04-21 北京澎思科技有限公司 一种视频处理方法、装置、电子设备以及介质
US11450021B2 (en) 2019-12-30 2022-09-20 Sensetime International Pte. Ltd. Image processing method and apparatus, electronic device, and storage medium
SG10201913754XA (en) * 2019-12-30 2020-12-30 Sensetime Int Pte Ltd Image processing method and apparatus, electronic device, and storage medium
CN111259751B (zh) * 2020-01-10 2023-08-29 北京百度网讯科技有限公司 基于视频的人体行为识别方法、装置、设备及存储介质
CN111833380B (zh) * 2020-09-17 2020-12-15 武汉光谷信息技术股份有限公司 一种多视角影像融合的空间目标跟踪系统及方法
CN112998697B (zh) * 2021-02-22 2022-06-14 电子科技大学 一种基于骨架数据的跌倒伤害程度预测方法、系统及终端
CN117408760B (zh) * 2023-12-14 2024-02-27 成都亚度克升科技有限公司 基于人工智能的图片显示方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830529B2 (en) * 2016-04-26 2017-11-28 Xerox Corporation End-to-end saliency mapping via probability distribution prediction
CN108230355A (zh) * 2017-06-14 2018-06-29 北京市商汤科技开发有限公司 目标跟踪及神经网络训练方法、装置、存储介质和电子设备
CN108780522A (zh) * 2016-03-11 2018-11-09 高通股份有限公司 用于视频理解的使用基于运动的注意力的递归网络

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262996A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Action localization in sequential data with attention proposals from a recurrent network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108780522A (zh) * 2016-03-11 2018-11-09 高通股份有限公司 用于视频理解的使用基于运动的注意力的递归网络
US9830529B2 (en) * 2016-04-26 2017-11-28 Xerox Corporation End-to-end saliency mapping via probability distribution prediction
CN108230355A (zh) * 2017-06-14 2018-06-29 北京市商汤科技开发有限公司 目标跟踪及神经网络训练方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN109635721A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635721B (zh) 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统
Adeyanju et al. Machine learning methods for sign language recognition: A critical review and analysis
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
Wang et al. Salient object detection based on multi-scale contrast
CN106778687B (zh) 基于局部评估和全局优化的注视点检测方法
Shi et al. Multiscale multitask deep NetVLAD for crowd counting
CN108133188A (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
Ren et al. Regularized feature reconstruction for spatio-temporal saliency detection
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN109949341B (zh) 一种基于人体骨架结构化特征的行人目标跟踪方法
CN109685037B (zh) 一种实时动作识别方法、装置及电子设备
CN109902565B (zh) 多特征融合的人体行为识别方法
CN112329685A (zh) 一种融合型卷积神经网络人群异常行为检测的方法
CN106157330B (zh) 一种基于目标联合外观模型的视觉跟踪方法
Fang et al. Deep3DSaliency: Deep stereoscopic video saliency detection model by 3D convolutional networks
CN112464730B (zh) 一种基于域无关前景特征学习的行人再识别方法
CN112990052A (zh) 基于人脸修复的部分遮挡人脸识别方法及装置
Zheng et al. A feature-adaptive semi-supervised framework for co-saliency detection
Zhang et al. A swarm intelligence based searching strategy for articulated 3D human body tracking
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
CN106529441B (zh) 基于模糊边界分片的深度动作图人体行为识别方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
Zhang et al. A novel framework for background subtraction and foreground detection
CN111881818B (zh) 医疗行为细粒度识别装置及计算机可读存储介质
CN116884067B (zh) 一种基于改进的隐式语义数据增强的微表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant