CN111523378A - 一种基于深度学习的人体行为预测方法 - Google Patents

一种基于深度学习的人体行为预测方法 Download PDF

Info

Publication number
CN111523378A
CN111523378A CN202010165527.5A CN202010165527A CN111523378A CN 111523378 A CN111523378 A CN 111523378A CN 202010165527 A CN202010165527 A CN 202010165527A CN 111523378 A CN111523378 A CN 111523378A
Authority
CN
China
Prior art keywords
human
scene
action
person
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010165527.5A
Other languages
English (en)
Other versions
CN111523378B (zh
Inventor
吴哲夫
吕晓哲
李玮毅
肖新宇
蒋岳锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010165527.5A priority Critical patent/CN111523378B/zh
Publication of CN111523378A publication Critical patent/CN111523378A/zh
Application granted granted Critical
Publication of CN111523378B publication Critical patent/CN111523378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Human Computer Interaction (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于深度学习的人体行为预测方法,通过视频图像的帧序列,处理视频场景,之后系统进行上下文感知和动作感知,并利用场景中丰富的语义特征进行编码,最后通过系统获得的视觉信息来预测人体行为,包括了未来动作的类型以及活动的路径。该预测方法使用了深度学习网络的方法来处理视频中所含有的丰富的视觉信息,同时可以实现动作类型的预测以及活动路径的预测。该方法使用到了几个联合模型,提高了视频分析能力,从而提高了行为预测的准确率和效率,实现了智能化个性服务,尤其是在安全领域的应用可以降低事故发生率。

Description

一种基于深度学习的人体行为预测方法
技术领域
本发明涉及识别预测技术领域,特别涉及一种基于深度学习的人体行为预测方法。
背景技术
随着社会技术的发展,解密人类的想法以预测他们未来的行为,包括未来行动的路径,在实际应用中凸显出了重要作用,尤其是在各种安全应用中。
对于人的行为分析并进行未来人体行为和活动路径的预测已经在计算机视觉领域得到了大量的引用。这项技术在实际中表现出了非常重要的作用,例如视频检测,异常行为检测和人机交互。虽然已经有了很多工作,但是这项技术仍然具有挑战性。与行为观察不同,行为预测需要在行为尚未发生之前,通过部分观察到的视频序列推测出未来将要发生的行为,以尽早做出抉择。然而,人的思想有时是多变的,这就加大了预测的难度。
近些年来,由于深度学习的发展,人们现在能够通过计算机解析图像或者视频中所含有的大量的视觉信息。使用这些视觉信息来预测未来的人体行为以及活动路径在很多领域中都有非常广泛的作用,通过这项技术有效提高了预测的效率和准确性,可以降低事故发生率,实现智能化服务。
发明内容
为了克服现有技术的不足,本发明通过一种基于深度学习的人体行为预测方法,该方法可以有效地提高人体动作类型预测的效率和精确率。
为达到上述目的,本发明提供如下的技术方案:
一种基于深度学习的人体行为预测方法,该方法包括以下步骤:
步骤1:通过给定的人物视频图像的帧序列,处理视频场景;
步骤2:系统首先关注于提取上下文感知特征,对有关场景的全局信息进行编码;
步骤3:将上下文感知特征与关注于动作本身的动作感知特征结合起来,以此来预测人体动作类型;
步骤4:使用了两个名为人体行为模块和交互模块来识别场景中人体的动作以及人与周围环境的互动关系;
步骤5:分析两种关系,将获得的视觉信息传递给LSTM编码器,将其压缩编码成“视觉特征张量”Q;
步骤6:轨迹生成器总结编码后的视觉特征并通过LSTM解码器来预测活动的轨迹路径。
进一步,所述步骤1中,视频中每个场景被处理以获得所有人在不同时刻的空间坐标,基于这些坐标,可以提取出它们的边界框;利用这些边界框,来预测在未来时间内对象的活动路径。
再进一步,所述步骤2和步骤3中,对上下文和动作感知信息进行建模,引入了一种两流体系结构,网络的第一部分由两个流共享,在ImageNet上进行了预训练,可用于物体识别,该层的输出连接到两个子模型:一个用于上下文感知特征功能,另一个用于动作感知特征功能,然后,使用在每个流的输出上定义的交叉熵损失函数,从单个图像训练这两个子模型来完成相同的动作识别任务,为了针对行动预期训练模型,利用了一种的新损失:
Figure BDA0002407314740000021
其中,N为动作类数,T为输入序列的长度(帧数),yt(k)在时间t处编码真实的动作标签,即如果样本属于k类,则yt(k)=1,否则为0,
Figure BDA0002407314740000028
表示由给定模型预测的相应动作标签;
第一类损失函数为:
Figure BDA0002407314740000022
其中,yi是样本i的地面真相类标签;
Figure BDA0002407314740000023
是样本i的第一阶段预测的所有类和所有时间步长的概率向量,第二类损失函数为:
Figure BDA0002407314740000024
其中
Figure BDA0002407314740000025
为第二阶段预测的所有类的概率向量,模型的整体损失为:
Figure BDA0002407314740000026
其中,V为训练序列总数。
所述步骤4中,使用人体行为模块对场景中每个人的视觉信息进行编码,除了标记人的轨迹点,它还对人体的外貌和身体运动进行建模,以上两部分分别输入LSTM编码器,以获得外观和运动特征,为了模拟人的外观变化,使用带有“RoIAlign”的预训练对象检测模型为每个人的边界框提取固定大小的CNN特征,为了捕获人体运动,利用在MSCOCO数据集上训练的人员关键点检测模型来提取人员关键点信息,应用线性变换将关键点坐标嵌入到LSTM编码器中,除了使用人体行为模块,还使用了交互模块,着眼于人与周围环境之间的相互作用,包括人与场景之间的相互作用以及人与物体之间的相互作用。
所述步骤5中,分析人与场景之间的关系,使用预训练的场景分割模型为每帧提取像素级场景语义类,每次查看人体3×3周围的区域,一个人的人与场景交互关系表示为RTobs×C,其中C是卷积层中通道的数量,将一个人的人与场景交互关系输入到到LSTM编码器中,以捕获时间信息并获得RTobs×d的最终人与场景交互特征,其中d表示LSTM的隐藏尺寸;
分析人与对象之间的关系,根据几何距离计算几何关系,对对象与人之间的几何关系以及场景中所有对象的类型进行建模,其中,在任何时刻,给定观察到的一个人的边界框(xb,yb,wb,hb)和场景中的K个其他对象/人({(xk,yk,wk,hk)|k∈[1,K]}),将这种几何关系编码为G∈RK×4,其中第k行等价于:
Figure BDA0002407314740000027
所述步骤6中,使用轨迹生成器,将四种类型的视觉特征,即外观,身体运动,人物于场景和人物于对象,由单独的LSTM编码器编码到相同的维度;利用LSTM解码器处理解码后的视觉特征,并实现未来人体活动路径的预测,给定一个人最近一次的轨迹输出,通过下式提取嵌入的轨迹:et-1=tanh(We[xt-1,yt-1])+be∈Rd,其中,[xt-1,yt-1]是时间t-1内的人体的轨迹预测,而We和be是可学习的参数。
本发明的有益效果为:使用了深度学习网络的方法来处理视频中所含有的丰富的视觉信息,同时可以实现动作类型的预测以及活动路径的预测。该方法使用到了几个联合模型,提高了视频分析能力,从而提高了行为预测的准确率和效率,实现了智能化个性服务,尤其是在安全领域的应用可以降低事故发生率。
附图说明
图1为本发明技术方案的整体流程图;
图2为本发明公开一实施例的预测人体动作类型的方法的简要示意图;
图3为本发明公开一实施例用于预测人体动作类型的网络架构的简要示意图;
图4为本发明公开一实施例在预测动作类型时用于提取动作感知特征的子网络模型简要示意图;
图5为本发明公开一实施例的人体活动路径预测的方法的示意性流程图。
具体实施方式
为了更清楚地说明本公开实施例的方法,下面将结合实施例的附图作书名,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非本发明的限制。
参照图1~图4,一种基于深度学习的人体行为预测方法,该方法包括以下步骤:
步骤1:通过给定的人物视频图像的帧序列,处理视频场景;
步骤2:系统首先关注于提取上下文感知特征,对有关场景的全局信息进行编码;
步骤3:将上下文感知特征与关注于动作本身的动作感知特征结合起来,以此来预测人体动作类型;
步骤4:使用了两个名为人体行为模块和交互模块来识别场景中人体的动作以及人与周围环境的互动关系;
步骤5:分析两种关系,将获得的视觉信息传递给LSTM编码器,将其压缩编码成“视觉特征张量”Q;
步骤6:轨迹生成器总结编码后的视觉特征并通过LSTM解码器来预测活动的轨迹路径。
本发明基于深度学习领域,提出了一种基于深度学习的人体行为预测方法,包括未来动作类型的预测以及活动路径的预测。
图2是本发明公开一实施例的预测人体动作类型的方法的简要示意图。
在本发明的一个实施例中,给定一串视频顺序数据,为了应对行动预期,开发了新颖的多阶段循环架构。该架构由上下文和动作感知信息的阶段组合组成。
进一步地,在本发明的一个实施例中,系统预测出未来动作的类型。在第一个阶段,系统首先通过从整个RGB场景图像中提取特征来关注全局、上下文感知的特征信息,通过LSTM编码器对有关场景的全局信息进行编码。然后在第二个阶段,利用LSTM将这些上下文感知特征与通过利用特定于类的激活而获得的动作感知特征结合在一起,这些激活通常对应于动作发生的区域。动作感知只关注于动作本身。简而言之,系统首先提取上下文信息特征,然后将其与动作感知特征合并,以预测动作类型。其中,T为视频帧序列的长度,如果人体动作在t时刻的样本标签属于k类,那么yt(k)=1,否则为0。
图3是本发明一实施例用于预测人体动作类型的网络架构的简要示意图。
进一步地,在本发明的这个实施例中,为了对上下文和动作感知信息进行建模,引入了一种两流体系结构。该网络的第一部分由两个流共享,并且直到conv5-2都对应于VGG-16网络,在ImageNet上进行了预训练,可用于物体识别。该层的输出连接到两个子模型:一个用于上下文特征提取功能,另一个用于动作特征提取功能。然后,使用在每个流的输出上定义的交叉熵损失函数,从单个图像训练这两个子模型来完成相同的动作识别任务。
其中,第一个模型从conv5-3到最后一个完全连接的层,此子模型类似于VGG-16,最后一个完全连接的层中的单元数从1000(原始的1000路ImageNet分类模型)更改为活动数N。此子模型着重于为每个活动提取整个场景的深层表示,并因此结合了上下文。然后,将其fc7层的输出作为上下文感知特征。
图4为本发明公开一实施例在预测动作类型时用于提取动作感知特征的子网络模型(即第二个子模型)的简要示意图。
给定经过微调的特征提取网络,引入了一个新层来更改conv5-3的输出。这使得系统可以筛选出不相关的conv5-3特征,从而专注于动作特征本身。动作感知特征将作为最后一个完全连接层的输出。
第二个子模型旨在提取着重于动作本身的特征。受到前人工作的启发,在上下文中,用类激活映射(CAM)表示输入图像中对预测每个类别标签贡献最大的区域。换句话说,它提供有关动作位置的信息。这使得无需任何其他注释即可实现此目的。
令fl(x,y)表示在空间位置(x,y)最后一个卷积层中单位l的激活。通过执行全局平均池来获得每个类k的分数Sk,对于每个单位l,特征为:
Fl=∑x,yfl(x,y),其次是具有权重
Figure BDA0002407314740000041
的线性层。
于是,
Figure BDA0002407314740000042
在(x,y)位置为k类的CAM可以计算为:
Figure BDA0002407314740000043
利用CAM提取动作感知特征。将CAM与模型的conv5-3层的输出结合使用。conv5-3层提取了高级特征,这些特征提供了非常丰富的图像表示,并且通常对应于对象的最有区别的部分。因此,将新层合并到子模型中,其输出可以表示为:
Ak(x,y)=conv5-3(x,y)×ReLU(Mk(x,y)),
其中,ReLU(Mk(x,y))=max(0,Mk(x,y))。
这个新层是完全连接的层,将动作感知特性作为相应的fc7层的输出。
为了有效地结合上述上下文感知和动作感知特征中包含的信息,设计了一个多阶段LS TM模型。该模型首先关注于上下文感知功能,该功能对有关整个图像的全局信息进行编码。然后,它将第一阶段的输出与动作感知功能相结合,以提供完善的类预测。
为了针对行动预期训练此模型,利用了一种的新损失:
Figure BDA0002407314740000051
其中,N为动作类数,T为输入序列的长度(帧数),yt(k)在时间t处编码真实的动作标签,即如果样本属于k类,则yt(k)=1,否则为0。
Figure BDA0002407314740000052
表示由给定模型预测的相应动作标签。
在模型的第一阶段将上下文感知特征作为输入,并使其通过LSTM单元层,然后经过完全连接的层,该层通过softmax操作输出每个动作类的概率。这一阶段单样本i的损失为:
Figure BDA0002407314740000053
式中,yi是样本i的地面真相类标签;
Figure BDA0002407314740000054
是样本i的第一阶段预测的所有类和所有时间步长的概率向量。
第二阶段旨在结合上下文感知和动作感知特征信息。它的结构与第一阶段的结构相同,以通过softmax操作输出类概率。通过将LS TM层的隐藏激活与动作感知特征连接起来来,实现了它的输入将第一阶段的输出与我们的动作感知特征合并。这一阶段样本i的损失表示为:
Figure BDA0002407314740000055
其中
Figure BDA0002407314740000056
为第二阶段预测的所有类的概率向量。
模型的整体损失为:
Figure BDA0002407314740000057
其中,V为训练序列总数。
输入的RGB帧通过模型进行正向传播。在每个帧上获得每个类别的概率向量。通过利用直到时间t的所有帧的预测提高了鲁棒性。
在本发明的另一个实施例中,提供了一种人体活动路径的预测方法。
图5为本发明公开一实施例的人体活动路径预测的方法的示意性流程图。
在本发明的这个实施例中,通过视频图像的帧序列,处理视频场景并提取出人物边界框,进一步包括了:利用Social-LSTM,首先处理视频中每个场景,以获得不同时刻所有人的空间坐标。基于这些坐标,自动提取人物的边界框。从一开始到Tobs这段时间内系统观察所有人的边界框,并将在后续的步骤内预测他们在未来Tobs+1到Tpred这段时间内的行为标签和活动路径。
在提取得到人物的边界框之后,通过一个端到端的多任务学习系统,利用场景中丰富的语义特征对人进行编码,同时涉及到了人体行为模块和交互模块。
人体行为模块对场景中每个人的视觉信息进行编码,并对人体的外表和身体运动进行建模。对于一个人的模型外观变化,利用预先训练好的具有“RoIAlign”的对象检测模型为每个人的边界框提取固定大小的CNN特征。沿着每个人的空间维度对特征进行平均,并将它们输入到LSTM编码器。最后,得到了Tobs×d的特征表示,其中d表示LSTM的隐藏尺寸。为了捕捉人身体的运动,利用在MSCOCO数据集上训练的人体关键点检测模型来提取人体的关键点信息。在输入LSTM编码器之前,应用线性变换来嵌入关键点坐标。
交互模块负责查看人与周围环境的相互关系,包括了人与场景的交互以及人与物体的交互。
其中,在观察人与场景的交互时,为了编码一个人的附近场景,首先使用预先训练的场景分割模型来提取每个帧的像素级场景语义类。这些场景的语义特征是Tobs×h×w的整数(类索引),这里的h,w用来表示空间分辨率。将整数张量转换为NS二进制掩码,每个类对应一个掩码,并沿时间维度平均,最终产生了NS个实值掩码,并且每个掩码的大小为h×w。接着在掩码特征上应用了两个卷积层,步长为2,以得到两个比例的场景CNN特征。
根据之前给定的一个人的坐标,从卷积特征映射中将场景特征集中在人的当前位置。在每个时刻特征的接收场,即模型所查看的人周围的空间窗口的大小,取决于从中汇集的比例以及卷积核的尺寸。在此将标度设置为1,核大小设置为3,这意味着模型在每个时间瞬间查看人员的3×3周围区域。一个人的人与场景交互关系表示为RTobs×C,其中C是卷积层中通道的数量。将其输入到LSTM编码器中,以捕获时间信息并获得RTobs×d的最终人与场景交互特征。
对于在观察人与物体的交互关系特征时,系统的模块显式地建模场景中所有对象与人的几何关系和对象类型。在任何时刻,给定观察到的一个人的边界框(xb,yb,wb,hb)和场景中的K个其他对象/人({(xk,yk,wk,hk)|k∈[1,K]}),将这种几何关系编码为G∈RK×4,其中第k行等价于:
Figure BDA0002407314740000061
这种编码根据几何距离和框的大小来计算几何关系。使用对数函数来反映观察到的交互,也就是说人体的运动轨迹更有可能受到近距离物体或人的影响。至于对象类型,仅使用一种热编码即可获得RK×No的特征,其中No是对象类的总数。
然后,将当前的几何特征和对象类型特征嵌入到三维矢量中,并将嵌入的特征馈送到LSTM编码器中,以RTobs×d的形式获得最终特征。
人体外观,身体运动,人物场景和人物对象这四种视觉特征,由单独的LSTM编码器编码成相同的尺寸。
此外,给定一个人最近一次的轨迹输出,通过下式提取嵌入的轨迹:
et-1=tanh(We[xt-1,yt-1])+be∈Rd
其中,[xt-1,yt-1]是时间t-1内的人体的轨迹预测,而We和be是可学习的参数。
然后,将其嵌入到该轨迹的另一个LSTM编码器中。所有编码器的隐藏状态都打包到一个名为Q∈RM×Tobs×d的张量中,其中M=5,用于表示特征总数,d表示LSTM的隐藏尺寸。
使用LSTM解码器直接预测XY坐标西中人体的未来的运动轨迹。该解码器的隐藏状态是使用人员轨迹LSTM编码器的最后状态初始化的。在每个时刻,将根据解码器状态并通过完全连接的层来计算xy坐标。
解码器的状态表示为:
ht=LSTM(ht-1,[et-1,qt]),
其中,qt是一个重要的关注特征向量,它总结了输入特征Q中的显着线索。系统采用了有效的注意力机制,其关键思想是将多个特征投影到相关空间中,通过注意机制可以更轻松地捕获区分性特征。在每个时刻t计算相关矩阵为:
St∈RM×Tobs
其中:
Figure BDA0002407314740000071
使用点积相似性来测量,并且符号:表示一个切片运算符,可从该维中提取所有元素。
然后计算两个注意矩阵:
Figure BDA0002407314740000072
Figure BDA0002407314740000073
其中所涉及到的特征向量由以下表达式给出:
Figure BDA0002407314740000074
焦点注意力对不同特征之间的相关性进行建模,并将它们概括为低维参与向量。
在本发明的描述中,需要理解的是,本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的部分或者方法涵盖出现在该词后面列举的部分或者方法及其等同,而不排除其他部分。“上”、“下”、“左”、“右”、“前”、“后”等仅用于表示相对位置关系。上述为了便于描述本发明和简化描述,本公开省略了部分已知的详细说明。因此不能理解为对本发明的限制。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改。

Claims (6)

1.一种基于深度学习的人体行为预测方法,其特征在于,该方法包括以下步骤:
步骤1:通过给定的人物视频图像的帧序列,处理视频场景;
步骤2:系统首先关注于提取上下文感知特征,对有关场景的全局信息进行编码;
步骤3:将上下文感知特征与关注于动作本身的动作感知特征结合起来,以此来预测人体动作类型;
步骤4:使用了两个名为人体行为模块和交互模块来识别场景中人体的动作以及人与周围环境的互动关系;
步骤5:分析两种关系,将获得的视觉信息传递给LSTM编码器,将其压缩编码成“视觉特征张量”Q;
步骤6:轨迹生成器总结编码后的视觉特征并通过LSTM解码器来预测活动的轨迹路径。
2.根据权利要求1所述的基于深度学习的人体行为预测方法,其特征在于,所述步骤1中,视频中每个场景被处理以获得所有人在不同时刻的空间坐标,基于这些坐标,可以提取出它们的边界框;利用这些边界框,来预测在未来时间内对象的活动路径。
3.根据权利要求1或2所述的基于深度学习的人体行为预测方法,其特征在于,所述步骤2和步骤3中,对上下文和动作感知信息进行建模,引入了一种两流体系结构,网络的第一部分由两个流共享,在ImageNet上进行了预训练,可用于物体识别,该层的输出连接到两个子模型:一个用于上下文感知特征功能,另一个用于动作感知特征功能,然后,使用在每个流的输出上定义的交叉熵损失函数,从单个图像训练这两个子模型来完成相同的动作识别任务,为了针对行动预期训练模型,利用了一种的新损失:
Figure FDA0002407314730000011
其中,N为动作类数,T为输入序列的长度(帧数),yt(k)在时间t处编码真实的动作标签,即如果样本属于k类,则yt(k)=1,否则为0,
Figure FDA0002407314730000012
表示由给定模型预测的相应动作标签;
第一类损失函数为:
Figure FDA0002407314730000013
其中,yi是样本i的地面真相类标签;
Figure FDA0002407314730000014
是样本i的第一阶段预测的所有类和所有时间步长的概率向量,第二类损失函数为:
Figure FDA0002407314730000015
其中
Figure FDA0002407314730000016
为第二阶段预测的所有类的概率向量,模型的整体损失为:
Figure FDA0002407314730000017
其中,V为训练序列总数。
4.根据权利要求1或2所述的基于深度学习的人体行为预测方法,其特征在于,所述步骤4中,使用人体行为模块对场景中每个人的视觉信息进行编码,除了标记人的轨迹点,它还对人体的外貌和身体运动进行建模,以上两部分分别输入LSTM编码器,以获得外观和运动特征,为了模拟人的外观变化,使用带有“RoIAlign”的预训练对象检测模型为每个人的边界框提取固定大小的CNN特征,为了捕获人体运动,利用在MSCOCO数据集上训练的人员关键点检测模型来提取人员关键点信息,应用线性变换将关键点坐标嵌入到LSTM编码器中,除了使用人体行为模块,还使用了交互模块,着眼于人与周围环境之间的相互作用,包括人与场景之间的相互作用以及人与物体之间的相互作用。
5.根据权利要求1或2所述的基于深度学习的人体行为预测方法,其特征在于,所述步骤5中,分析人与场景之间的关系,使用预训练的场景分割模型为每帧提取像素级场景语义类,每次查看人体3×3周围的区域,一个人的人与场景交互关系表示为RTobs×C,其中C是卷积层中通道的数量,将一个人的人与场景交互关系输入到到LSTM编码器中,以捕获时间信息并获得RTobs×d的最终人与场景交互特征,其中d表示LSTM的隐藏尺寸;
分析人与对象之间的关系,根据几何距离计算几何关系,对对象与人之间的几何关系以及场景中所有对象的类型进行建模,其中,在任何时刻,给定观察到的一个人的边界框(xb,yb,wb,hb)和场景中的K个其他对象/人({(xk,yk,wk,hk)|k∈[1,K]}),将这种几何关系编码为G∈RK×4,其中第k行等价于:
Figure FDA0002407314730000021
6.根据权利要求1或2所述的基于深度学习的人体行为预测方法,其特征在于,所述步骤6中,使用轨迹生成器,将四种类型的视觉特征,即外观,身体运动,人物于场景和人物于对象,由单独的LSTM编码器编码到相同的维度;利用LSTM解码器处理解码后的视觉特征,并实现未来人体活动路径的预测,给定一个人最近一次的轨迹输出,通过下式提取嵌入的轨迹:et-1=tanh(We[xt-1,yt-1])+be∈Rd,其中,[xt-1,yt-1]是时间t-1内的人体的轨迹预测,而We和be是可学习的参数。
CN202010165527.5A 2020-03-11 2020-03-11 一种基于深度学习的人体行为预测方法 Active CN111523378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010165527.5A CN111523378B (zh) 2020-03-11 2020-03-11 一种基于深度学习的人体行为预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010165527.5A CN111523378B (zh) 2020-03-11 2020-03-11 一种基于深度学习的人体行为预测方法

Publications (2)

Publication Number Publication Date
CN111523378A true CN111523378A (zh) 2020-08-11
CN111523378B CN111523378B (zh) 2023-07-28

Family

ID=71900470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010165527.5A Active CN111523378B (zh) 2020-03-11 2020-03-11 一种基于深度学习的人体行为预测方法

Country Status (1)

Country Link
CN (1) CN111523378B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733930A (zh) * 2021-01-07 2021-04-30 北京邮电大学 人体行为感知系统、方法及存储介质
CN112802303A (zh) * 2021-02-09 2021-05-14 成都视海芯图微电子有限公司 一种基于3d视觉的实时风险预测方法及系统
CN114120439A (zh) * 2021-10-12 2022-03-01 江苏大学 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法
CN115170704A (zh) * 2022-07-06 2022-10-11 北京信息科技大学 一种三维场景动画自动生成方法、系统
CN116386145A (zh) * 2023-04-17 2023-07-04 浙江金融职业学院 一种基于双摄像头的银行内人员异常行为识别方法
CN117649676A (zh) * 2024-01-29 2024-03-05 杭州德睿智药科技有限公司 一种基于深度学习模型的化学结构式的识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180124423A1 (en) * 2016-10-28 2018-05-03 Nec Laboratories America, Inc. Dynamic scene prediction with multiple interacting agents
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN108509880A (zh) * 2018-03-21 2018-09-07 南京邮电大学 一种视频人物行为语义识别方法
CN108805080A (zh) * 2018-06-12 2018-11-13 上海交通大学 基于上下文的多层次深度递归网络群体行为识别方法
CN110717098A (zh) * 2019-09-20 2020-01-21 中国科学院自动化研究所 基于元路径的上下文感知用户建模方法、序列推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
US20180124423A1 (en) * 2016-10-28 2018-05-03 Nec Laboratories America, Inc. Dynamic scene prediction with multiple interacting agents
CN108509880A (zh) * 2018-03-21 2018-09-07 南京邮电大学 一种视频人物行为语义识别方法
CN108805080A (zh) * 2018-06-12 2018-11-13 上海交通大学 基于上下文的多层次深度递归网络群体行为识别方法
CN110717098A (zh) * 2019-09-20 2020-01-21 中国科学院自动化研究所 基于元路径的上下文感知用户建模方法、序列推荐方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733930A (zh) * 2021-01-07 2021-04-30 北京邮电大学 人体行为感知系统、方法及存储介质
CN112733930B (zh) * 2021-01-07 2022-10-18 北京邮电大学 人体行为感知系统、方法及存储介质
CN112802303A (zh) * 2021-02-09 2021-05-14 成都视海芯图微电子有限公司 一种基于3d视觉的实时风险预测方法及系统
CN114120439A (zh) * 2021-10-12 2022-03-01 江苏大学 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法
CN115170704A (zh) * 2022-07-06 2022-10-11 北京信息科技大学 一种三维场景动画自动生成方法、系统
CN115170704B (zh) * 2022-07-06 2024-04-02 北京信息科技大学 一种三维场景动画自动生成方法、系统
CN116386145A (zh) * 2023-04-17 2023-07-04 浙江金融职业学院 一种基于双摄像头的银行内人员异常行为识别方法
CN116386145B (zh) * 2023-04-17 2023-11-03 浙江金融职业学院 一种基于双摄像头的银行内人员异常行为识别方法
CN117649676A (zh) * 2024-01-29 2024-03-05 杭州德睿智药科技有限公司 一种基于深度学习模型的化学结构式的识别方法

Also Published As

Publication number Publication date
CN111523378B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN111523378A (zh) 一种基于深度学习的人体行为预测方法
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
Adeli et al. Socially and contextually aware human motion and pose forecasting
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
Ludl et al. Simple yet efficient real-time pose-based action recognition
Ullah et al. Intelligent dual stream CNN and echo state network for anomaly detection
CN112464807A (zh) 视频动作识别方法、装置、电子设备和存储介质
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
Su et al. Key facial components guided micro-expression recognition based on first & second-order motion
CN115512103A (zh) 多尺度融合遥感图像语义分割方法及系统
CN114220154A (zh) 一种基于深度学习的微表情特征提取与识别方法
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
Xu et al. Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction
CN103500456A (zh) 一种基于动态贝叶斯模型网络的对象跟踪方法和设备
Du et al. Adaptive visual interaction based multi-target future state prediction for autonomous driving vehicles
CN114913342A (zh) 融合事件和图像的运动模糊图像线段检测方法及系统
Hussain et al. AI-driven behavior biometrics framework for robust human activity recognition in surveillance systems
CN113033283B (zh) 一种改进的视频分类系统
CN115798055B (zh) 一种基于cornersort跟踪算法的暴力行为检测方法
CN117392578A (zh) 基于两阶段时空注意力的动作检测方法及系统
CN114120076B (zh) 基于步态运动估计的跨视角视频步态识别方法
CN114038067B (zh) 煤矿人员行为检测方法、设备及存储介质
CN114419729A (zh) 一种基于轻量双流网络的行为识别方法
Caetano et al. Magnitude-Orientation Stream network and depth information applied to activity recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant