CN111523378B - 一种基于深度学习的人体行为预测方法 - Google Patents

一种基于深度学习的人体行为预测方法 Download PDF

Info

Publication number
CN111523378B
CN111523378B CN202010165527.5A CN202010165527A CN111523378B CN 111523378 B CN111523378 B CN 111523378B CN 202010165527 A CN202010165527 A CN 202010165527A CN 111523378 B CN111523378 B CN 111523378B
Authority
CN
China
Prior art keywords
person
scene
human
lstm
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010165527.5A
Other languages
English (en)
Other versions
CN111523378A (zh
Inventor
吴哲夫
吕晓哲
李玮毅
肖新宇
蒋岳锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010165527.5A priority Critical patent/CN111523378B/zh
Publication of CN111523378A publication Critical patent/CN111523378A/zh
Application granted granted Critical
Publication of CN111523378B publication Critical patent/CN111523378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Social Psychology (AREA)
  • Game Theory and Decision Science (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于深度学习的人体行为预测方法,通过视频图像的帧序列,处理视频场景,之后系统进行上下文感知和动作感知,并利用场景中丰富的语义特征进行编码,最后通过系统获得的视觉信息来预测人体行为,包括了未来动作的类型以及活动的路径。该预测方法使用了深度学习网络的方法来处理视频中所含有的丰富的视觉信息,同时可以实现动作类型的预测以及活动路径的预测。该方法使用到了几个联合模型,提高了视频分析能力,从而提高了行为预测的准确率和效率,实现了智能化个性服务,尤其是在安全领域的应用可以降低事故发生率。

Description

一种基于深度学习的人体行为预测方法
技术领域
本发明涉及识别预测技术领域,特别涉及一种基于深度学习的人体行为预测方法。
背景技术
随着社会技术的发展,解密人类的想法以预测他们未来的行为,包括未来行动的路径,在实际应用中凸显出了重要作用,尤其是在各种安全应用中。
对于人的行为分析并进行未来人体行为和活动路径的预测已经在计算机视觉领域得到了大量的引用。这项技术在实际中表现出了非常重要的作用,例如视频检测,异常行为检测和人机交互。虽然已经有了很多工作,但是这项技术仍然具有挑战性。与行为观察不同,行为预测需要在行为尚未发生之前,通过部分观察到的视频序列推测出未来将要发生的行为,以尽早做出抉择。然而,人的思想有时是多变的,这就加大了预测的难度。
近些年来,由于深度学习的发展,人们现在能够通过计算机解析图像或者视频中所含有的大量的视觉信息。使用这些视觉信息来预测未来的人体行为以及活动路径在很多领域中都有非常广泛的作用,通过这项技术有效提高了预测的效率和准确性,可以降低事故发生率,实现智能化服务。
发明内容
为了克服现有技术的不足,本发明通过一种基于深度学习的人体行为预测方法,该方法可以有效地提高人体动作类型预测的效率和精确率。
为达到上述目的,本发明提供如下的技术方案:
一种基于深度学习的人体行为预测方法,该方法包括以下步骤:
步骤1:通过给定的人物视频图像的帧序列,处理视频场景;
步骤2:系统首先关注于提取上下文感知特征,对有关场景的全局信息进行编码;
步骤3:将上下文感知特征与关注于动作本身的动作感知特征结合起来,以此来预测人体动作类型;
步骤4:使用了两个名为人体行为模块和交互模块来识别场景中人体的动作以及人与周围环境的互动关系;
步骤5:分析两种关系,将获得的视觉信息传递给LSTM编码器,将其压缩编码成“视觉特征张量”Q;
步骤6:轨迹生成器总结编码后的视觉特征并通过LSTM解码器来预测活动的轨迹路径。
进一步,所述步骤1中,视频中每个场景被处理以获得所有人在不同时刻的空间坐标,基于这些坐标,可以提取出它们的边界框;利用这些边界框,来预测在未来时间内对象的活动路径。
再进一步,所述步骤2和步骤3中,对上下文和动作感知信息进行建模,引入了一种两流体系结构,网络的第一部分由两个流共享,在ImageNet上进行了预训练,可用于物体识别,该层的输出连接到两个子模型:一个用于上下文感知特征功能,另一个用于动作感知特征功能,然后,使用在每个流的输出上定义的交叉熵损失函数,从单个图像训练这两个子模型来完成相同的动作识别任务,为了针对行动预期训练模型,利用了一种的新损失:
其中,N为动作类数,T为输入序列的长度(帧数),yt(k)在时间t处编码真实的动作标签,即如果样本属于k类,则yt(k)=1,否则为0,表示由给定模型预测的相应动作标签;
第一类损失函数为:其中,yi是样本i的地面真相类标签;/>是样本i的第一阶段预测的所有类和所有时间步长的概率向量,第二类损失函数为:/>其中/>为第二阶段预测的所有类的概率向量,模型的整体损失为:/>其中,V为训练序列总数。
所述步骤4中,使用人体行为模块对场景中每个人的视觉信息进行编码,除了标记人的轨迹点,它还对人体的外貌和身体运动进行建模,以上两部分分别输入LSTM编码器,以获得外观和运动特征,为了模拟人的外观变化,使用带有“RoIAlign”的预训练对象检测模型为每个人的边界框提取固定大小的CNN特征,为了捕获人体运动,利用在MSCOCO数据集上训练的人员关键点检测模型来提取人员关键点信息,应用线性变换将关键点坐标嵌入到LSTM编码器中,除了使用人体行为模块,还使用了交互模块,着眼于人与周围环境之间的相互作用,包括人与场景之间的相互作用以及人与物体之间的相互作用。
所述步骤5中,分析人与场景之间的关系,使用预训练的场景分割模型为每帧提取像素级场景语义类,每次查看人体3×3周围的区域,一个人的人与场景交互关系表示为RTobs×C,其中C是卷积层中通道的数量,将一个人的人与场景交互关系输入到到LSTM编码器中,以捕获时间信息并获得RTobs×d的最终人与场景交互特征,其中d表示LSTM的隐藏尺寸;
分析人与对象之间的关系,根据几何距离计算几何关系,对对象与人之间的几何关系以及场景中所有对象的类型进行建模,其中,在任何时刻,给定观察到的一个人的边界框(xb,yb,wb,hb)和场景中的K个其他对象/人({(xk,yk,wk,hk)|k∈[1,K]}),将这种几何关系编码为G∈RK×4,其中第k行等价于:
所述步骤6中,使用轨迹生成器,将四种类型的视觉特征,即外观,身体运动,人物于场景和人物于对象,由单独的LSTM编码器编码到相同的维度;利用LSTM解码器处理解码后的视觉特征,并实现未来人体活动路径的预测,给定一个人最近一次的轨迹输出,通过下式提取嵌入的轨迹:et-1=tanh(We[xt-1,yt-1])+be∈Rd,其中,[xt-1,yt-1]是时间t-1内的人体的轨迹预测,而We和be是可学习的参数。
本发明的有益效果为:使用了深度学习网络的方法来处理视频中所含有的丰富的视觉信息,同时可以实现动作类型的预测以及活动路径的预测。该方法使用到了几个联合模型,提高了视频分析能力,从而提高了行为预测的准确率和效率,实现了智能化个性服务,尤其是在安全领域的应用可以降低事故发生率。
附图说明
图1为本发明技术方案的整体流程图;
图2为本发明公开一实施例的预测人体动作类型的方法的简要示意图;
图3为本发明公开一实施例用于预测人体动作类型的网络架构的简要示意图;
图4为本发明公开一实施例在预测动作类型时用于提取动作感知特征的子网络模型简要示意图;
图5为本发明公开一实施例的人体活动路径预测的方法的示意性流程图。
具体实施方式
为了更清楚地说明本公开实施例的方法,下面将结合实施例的附图作书名,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非本发明的限制。
参照图1~图4,一种基于深度学习的人体行为预测方法,该方法包括以下步骤:
步骤1:通过给定的人物视频图像的帧序列,处理视频场景;
步骤2:系统首先关注于提取上下文感知特征,对有关场景的全局信息进行编码;
步骤3:将上下文感知特征与关注于动作本身的动作感知特征结合起来,以此来预测人体动作类型;
步骤4:使用了两个名为人体行为模块和交互模块来识别场景中人体的动作以及人与周围环境的互动关系;
步骤5:分析两种关系,将获得的视觉信息传递给LSTM编码器,将其压缩编码成“视觉特征张量”Q;
步骤6:轨迹生成器总结编码后的视觉特征并通过LSTM解码器来预测活动的轨迹路径。
本发明基于深度学习领域,提出了一种基于深度学习的人体行为预测方法,包括未来动作类型的预测以及活动路径的预测。
图2是本发明公开一实施例的预测人体动作类型的方法的简要示意图。
在本发明的一个实施例中,给定一串视频顺序数据,为了应对行动预期,开发了新颖的多阶段循环架构。该架构由上下文和动作感知信息的阶段组合组成。
进一步地,在本发明的一个实施例中,系统预测出未来动作的类型。在第一个阶段,系统首先通过从整个RGB场景图像中提取特征来关注全局、上下文感知的特征信息,通过LSTM编码器对有关场景的全局信息进行编码。然后在第二个阶段,利用LSTM将这些上下文感知特征与通过利用特定于类的激活而获得的动作感知特征结合在一起,这些激活通常对应于动作发生的区域。动作感知只关注于动作本身。简而言之,系统首先提取上下文信息特征,然后将其与动作感知特征合并,以预测动作类型。其中,T为视频帧序列的长度,如果人体动作在t时刻的样本标签属于k类,那么yt(k)=1,否则为0。
图3是本发明一实施例用于预测人体动作类型的网络架构的简要示意图。
进一步地,在本发明的这个实施例中,为了对上下文和动作感知信息进行建模,引入了一种两流体系结构。该网络的第一部分由两个流共享,并且直到conv5-2都对应于VGG-16网络,在ImageNet上进行了预训练,可用于物体识别。该层的输出连接到两个子模型:一个用于上下文特征提取功能,另一个用于动作特征提取功能。然后,使用在每个流的输出上定义的交叉熵损失函数,从单个图像训练这两个子模型来完成相同的动作识别任务。
其中,第一个模型从conv5-3到最后一个完全连接的层,此子模型类似于VGG-16,最后一个完全连接的层中的单元数从1000(原始的1000路ImageNet分类模型)更改为活动数N。此子模型着重于为每个活动提取整个场景的深层表示,并因此结合了上下文。然后,将其fc7层的输出作为上下文感知特征。
图4为本发明公开一实施例在预测动作类型时用于提取动作感知特征的子网络模型(即第二个子模型)的简要示意图。
给定经过微调的特征提取网络,引入了一个新层来更改conv5-3的输出。这使得系统可以筛选出不相关的conv5-3特征,从而专注于动作特征本身。动作感知特征将作为最后一个完全连接层的输出。
第二个子模型旨在提取着重于动作本身的特征。受到前人工作的启发,在上下文中,用类激活映射(CAM)表示输入图像中对预测每个类别标签贡献最大的区域。换句话说,它提供有关动作位置的信息。这使得无需任何其他注释即可实现此目的。
令fl(x,y)表示在空间位置(x,y)最后一个卷积层中单位l的激活。通过执行全局平均池来获得每个类k的分数Sk,对于每个单位l,特征为:
Fl=∑x,yfl(x,y),其次是具有权重的线性层。
于是,
在(x,y)位置为k类的CAM可以计算为:
利用CAM提取动作感知特征。将CAM与模型的conv5-3层的输出结合使用。conv5-3层提取了高级特征,这些特征提供了非常丰富的图像表示,并且通常对应于对象的最有区别的部分。因此,将新层合并到子模型中,其输出可以表示为:
Ak(x,y)=conv5-3(x,y)×ReLU(Mk(x,y)),
其中,ReLU(Mk(x,y))=max(0,Mk(x,y))。
这个新层是完全连接的层,将动作感知特性作为相应的fc7层的输出。
为了有效地结合上述上下文感知和动作感知特征中包含的信息,设计了一个多阶段LS TM模型。该模型首先关注于上下文感知功能,该功能对有关整个图像的全局信息进行编码。然后,它将第一阶段的输出与动作感知功能相结合,以提供完善的类预测。
为了针对行动预期训练此模型,利用了一种的新损失:
其中,N为动作类数,T为输入序列的长度(帧数),yt(k)在时间t处编码真实的动作标签,即如果样本属于k类,则yt(k)=1,否则为0。表示由给定模型预测的相应动作标签。
在模型的第一阶段将上下文感知特征作为输入,并使其通过LSTM单元层,然后经过完全连接的层,该层通过softmax操作输出每个动作类的概率。这一阶段单样本i的损失为:
式中,yi是样本i的地面真相类标签;是样本i的第一阶段预测的所有类和所有时间步长的概率向量。
第二阶段旨在结合上下文感知和动作感知特征信息。它的结构与第一阶段的结构相同,以通过softmax操作输出类概率。通过将LS TM层的隐藏激活与动作感知特征连接起来来,实现了它的输入将第一阶段的输出与我们的动作感知特征合并。这一阶段样本i的损失表示为:
其中/>为第二阶段预测的所有类的概率向量。
模型的整体损失为:
其中,V为训练序列总数。
输入的RGB帧通过模型进行正向传播。在每个帧上获得每个类别的概率向量。通过利用直到时间t的所有帧的预测提高了鲁棒性。
在本发明的另一个实施例中,提供了一种人体活动路径的预测方法。
图5为本发明公开一实施例的人体活动路径预测的方法的示意性流程图。
在本发明的这个实施例中,通过视频图像的帧序列,处理视频场景并提取出人物边界框,进一步包括了:利用Social-LSTM,首先处理视频中每个场景,以获得不同时刻所有人的空间坐标。基于这些坐标,自动提取人物的边界框。从一开始到Tobs这段时间内系统观察所有人的边界框,并将在后续的步骤内预测他们在未来Tobs+1到Tpred这段时间内的行为标签和活动路径。
在提取得到人物的边界框之后,通过一个端到端的多任务学习系统,利用场景中丰富的语义特征对人进行编码,同时涉及到了人体行为模块和交互模块。
人体行为模块对场景中每个人的视觉信息进行编码,并对人体的外表和身体运动进行建模。对于一个人的模型外观变化,利用预先训练好的具有“RoIAlign”的对象检测模型为每个人的边界框提取固定大小的CNN特征。沿着每个人的空间维度对特征进行平均,并将它们输入到LSTM编码器。最后,得到了Tobs×d的特征表示,其中d表示LSTM的隐藏尺寸。为了捕捉人身体的运动,利用在MSCOCO数据集上训练的人体关键点检测模型来提取人体的关键点信息。在输入LSTM编码器之前,应用线性变换来嵌入关键点坐标。
交互模块负责查看人与周围环境的相互关系,包括了人与场景的交互以及人与物体的交互。
其中,在观察人与场景的交互时,为了编码一个人的附近场景,首先使用预先训练的场景分割模型来提取每个帧的像素级场景语义类。这些场景的语义特征是Tobs×h×w的整数(类索引),这里的h,w用来表示空间分辨率。将整数张量转换为NS二进制掩码,每个类对应一个掩码,并沿时间维度平均,最终产生了NS个实值掩码,并且每个掩码的大小为h×w。接着在掩码特征上应用了两个卷积层,步长为2,以得到两个比例的场景CNN特征。
根据之前给定的一个人的坐标,从卷积特征映射中将场景特征集中在人的当前位置。在每个时刻特征的接收场,即模型所查看的人周围的空间窗口的大小,取决于从中汇集的比例以及卷积核的尺寸。在此将标度设置为1,核大小设置为3,这意味着模型在每个时间瞬间查看人员的3×3周围区域。一个人的人与场景交互关系表示为RTobs×C,其中C是卷积层中通道的数量。将其输入到LSTM编码器中,以捕获时间信息并获得RTobs×d的最终人与场景交互特征。
对于在观察人与物体的交互关系特征时,系统的模块显式地建模场景中所有对象与人的几何关系和对象类型。在任何时刻,给定观察到的一个人的边界框(xb,yb,wb,hb)和场景中的K个其他对象/人({(xk,yk,wk,hk)|k∈[1,K]}),将这种几何关系编码为G∈RK×4,其中第k行等价于:
这种编码根据几何距离和框的大小来计算几何关系。使用对数函数来反映观察到的交互,也就是说人体的运动轨迹更有可能受到近距离物体或人的影响。至于对象类型,仅使用一种热编码即可获得RK×No的特征,其中No是对象类的总数。
然后,将当前的几何特征和对象类型特征嵌入到三维矢量中,并将嵌入的特征馈送到LSTM编码器中,以RTobs×d的形式获得最终特征。
人体外观,身体运动,人物场景和人物对象这四种视觉特征,由单独的LSTM编码器编码成相同的尺寸。
此外,给定一个人最近一次的轨迹输出,通过下式提取嵌入的轨迹:
et-1=tanh(We[xt-1,yt-1])+be∈Rd
其中,[xt-1,yt-1]是时间t-1内的人体的轨迹预测,而We和be是可学习的参数。
然后,将其嵌入到该轨迹的另一个LSTM编码器中。所有编码器的隐藏状态都打包到一个名为Q∈RM×Tobs×d的张量中,其中M=5,用于表示特征总数,d表示LSTM的隐藏尺寸。
使用LSTM解码器直接预测XY坐标西中人体的未来的运动轨迹。该解码器的隐藏状态是使用人员轨迹LSTM编码器的最后状态初始化的。在每个时刻,将根据解码器状态并通过完全连接的层来计算xy坐标。
解码器的状态表示为:
ht=LSTM(ht-1,[et-1,qt]),
其中,qt是一个重要的关注特征向量,它总结了输入特征Q中的显着线索。系统采用了有效的注意力机制,其关键思想是将多个特征投影到相关空间中,通过注意机制可以更轻松地捕获区分性特征。在每个时刻t计算相关矩阵为:
St∈RM×Tobs
其中:使用点积相似性来测量,并且符号:表示一个切片运算符,可从该维中提取所有元素。
然后计算两个注意矩阵:
其中所涉及到的特征向量由以下表达式给出:
焦点注意力对不同特征之间的相关性进行建模,并将它们概括为低维参与向量。
在本发明的描述中,需要理解的是,本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的部分或者方法涵盖出现在该词后面列举的部分或者方法及其等同,而不排除其他部分。“上”、“下”、“左”、“右”、“前”、“后”等仅用于表示相对位置关系。上述为了便于描述本发明和简化描述,本公开省略了部分已知的详细说明。因此不能理解为对本发明的限制。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改。

Claims (4)

1.一种基于深度学习的人体行为预测方法,其特征在于,该方法包括以下步骤:
步骤1:通过给定的人物视频图像的帧序列,处理视频场景;
步骤2:系统首先关注于提取上下文感知特征,对有关场景的全局信息进行编码;
步骤3:将上下文感知特征与关注于动作本身的动作感知特征结合起来,以此来预测人体动作类型;
步骤4:使用了两个名为人体行为模块和交互模块来识别场景中人体的动作以及人与周围环境的互动关系;
步骤5:分析两种关系,将获得的视觉信息传递给LSTM编码器,将其压缩编码成“视觉特征张量”Q;
步骤6:轨迹生成器总结编码后的视觉特征并通过LSTM解码器来预测活动的轨迹路径;
所述步骤2和步骤3中,对上下文和动作感知信息进行建模,引入了一种两流体系结构,深度学习网络的第一部分由两个流共享,在ImageNet上进行了预训练,可用于物体识别,该共享部分的输出连接到两个子模型:一个用于上下文感知特征功能,另一个用于动作感知特征功能,然后,使用在每个流的输出上定义的交叉熵损失函数,从单个图像训练这两个子模型来完成相同的动作识别任务,为了针对行动预期训练模型,利用了一种的新损失:
其中,N为动作类数,T为输入序列的长度(帧数),yt(k)在时间t处编码真实的动作标签,即如果样本属于k类,则yt(k)=1,否则为0,表示由给定模型预测的相应动作标签;
第一类损失函数为:其中,yi是样本i的地面真相类标签;/>是样本i的第一阶段预测的所有类和所有时间步长的概率向量,第二类损失函数为:/>其中/>为第二阶段预测的所有类的概率向量,模型的整体损失为:/>其中,V为训练序列总数;
所述步骤5中,分析人与场景之间的关系,使用预训练的场景分割模型为每帧提取像素级场景语义类,每次查看人体3×3周围的区域,一个人的人与场景交互关系表示为RTobs×C,其中,Tobs是捕获时间,C是卷积层中通道的数量,将一个人的人与场景交互关系输入到到LSTM编码器中,以捕获时间信息并获得RTobs×d的最终人与场景交互特征,其中d表示LSTM的隐藏尺寸;
分析人与对象之间的关系,根据几何距离计算几何关系,对对象与人之间的几何关系以及场景中所有对象的类型进行建模,其中,在任何时刻,给定观察到的一个人的边界框(xb,yb,wb,hb)和场景中的K个其他对象/人({(xk,yk,wk,hk)|k∈[1,K]}),将这种几何关系编码为G∈RK×4,其中第k行等价于:
2.根据权利要求1所述的基于深度学习的人体行为预测方法,其特征在于,所述步骤1中,视频中每个场景被处理以获得所有人在不同时刻的空间坐标,基于这些坐标,可以提取出它们的边界框;利用这些边界框,来预测在未来时间内对象的活动路径。
3.根据权利要求1或2所述的基于深度学习的人体行为预测方法,其特征在于,所述步骤4中,使用人体行为模块对场景中每个人的视觉信息进行编码,除了标记人的轨迹点,它还对人体的外貌和身体运动进行建模,分别输入LSTM编码器,以获得外观和运动特征,为了模拟人的外观变化,使用带有“RoIAlign”的预训练对象检测模型为每个人的边界框提取固定大小的CNN特征,为了捕获人体运动,利用在MSCOCO数据集上训练的人员关键点检测模型来提取人员关键点信息,应用线性变换将关键点坐标嵌入到LSTM编码器中,除了使用人体行为模块,还使用了交互模块,着眼于人与周围环境之间的相互作用,包括人与场景之间的相互作用以及人与物体之间的相互作用。
4.根据权利要求1或2所述的基于深度学习的人体行为预测方法,其特征在于,所述步骤6中,使用轨迹生成器,将四种类型的视觉特征,即外观,身体运动,人物于场景和人物于对象,由单独的LSTM编码器编码到相同的维度;利用LSTM解码器处理解码后的视觉特征,并实现未来人体活动路径的预测,给定一个人最近一次的轨迹输出,通过下式提取嵌入的轨迹:et-1=tanh(We[xt-1,yt-1])+be∈Rd,其中,[xt-1,yt-1]是时间t-1内的人体的轨迹预测,而We和be是可学习的参数。
CN202010165527.5A 2020-03-11 2020-03-11 一种基于深度学习的人体行为预测方法 Active CN111523378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010165527.5A CN111523378B (zh) 2020-03-11 2020-03-11 一种基于深度学习的人体行为预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010165527.5A CN111523378B (zh) 2020-03-11 2020-03-11 一种基于深度学习的人体行为预测方法

Publications (2)

Publication Number Publication Date
CN111523378A CN111523378A (zh) 2020-08-11
CN111523378B true CN111523378B (zh) 2023-07-28

Family

ID=71900470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010165527.5A Active CN111523378B (zh) 2020-03-11 2020-03-11 一种基于深度学习的人体行为预测方法

Country Status (1)

Country Link
CN (1) CN111523378B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733930B (zh) * 2021-01-07 2022-10-18 北京邮电大学 人体行为感知系统、方法及存储介质
CN112802303A (zh) * 2021-02-09 2021-05-14 成都视海芯图微电子有限公司 一种基于3d视觉的实时风险预测方法及系统
CN114120439A (zh) * 2021-10-12 2022-03-01 江苏大学 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法
CN115170704B (zh) * 2022-07-06 2024-04-02 北京信息科技大学 一种三维场景动画自动生成方法、系统
CN116386145B (zh) * 2023-04-17 2023-11-03 浙江金融职业学院 一种基于双摄像头的银行内人员异常行为识别方法
CN117649676A (zh) * 2024-01-29 2024-03-05 杭州德睿智药科技有限公司 一种基于深度学习模型的化学结构式的识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US10595037B2 (en) * 2016-10-28 2020-03-17 Nec Corporation Dynamic scene prediction with multiple interacting agents
CN108509880A (zh) * 2018-03-21 2018-09-07 南京邮电大学 一种视频人物行为语义识别方法
CN108805080A (zh) * 2018-06-12 2018-11-13 上海交通大学 基于上下文的多层次深度递归网络群体行为识别方法
CN110717098B (zh) * 2019-09-20 2022-06-24 中国科学院自动化研究所 基于元路径的上下文感知用户建模方法、序列推荐方法

Also Published As

Publication number Publication date
CN111523378A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111523378B (zh) 一种基于深度学习的人体行为预测方法
Cao et al. An attention enhanced bidirectional LSTM for early forest fire smoke recognition
Adeli et al. Socially and contextually aware human motion and pose forecasting
CN110781838A (zh) 一种复杂场景下行人的多模态轨迹预测方法
Ullah et al. Intelligent dual stream CNN and echo state network for anomaly detection
CN112464807A (zh) 视频动作识别方法、装置、电子设备和存储介质
Chen et al. End-to-end learning of object motion estimation from retinal events for event-based object tracking
Zeng et al. A hierarchical spatio-temporal graph convolutional neural network for anomaly detection in videos
CN111931549B (zh) 一种基于多任务非自回归解码的人体骨架的动作预测方法
Munir et al. LDNet: End-to-end lane marking detection approach using a dynamic vision sensor
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN112036379A (zh) 基于注意力时间池化图卷积的骨架动作识别方法
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN113947702A (zh) 一种基于情境感知的多模态情感识别方法和系统
CN111914731A (zh) 一种基于自注意力机制的多模态lstm的视频动作预测方法
CN115861383A (zh) 一种拥挤空间下多信息融合的行人轨迹预测装置及方法
CN103500456A (zh) 一种基于动态贝叶斯模型网络的对象跟踪方法和设备
CN116229531A (zh) 一种协作渐进生成对抗网络的人脸正面图像合成方法
CN115100684A (zh) 基于姿态与样式归一化的换衣行人重识别方法
CN115188066A (zh) 基于协同注意力和多尺度融合的运动目标检测系统及方法
Du et al. Adaptive visual interaction based multi-target future state prediction for autonomous driving vehicles
Jin et al. Human interaction recognition based on transformation of spatial semantics
CN114038067B (zh) 煤矿人员行为检测方法、设备及存储介质
CN114120076B (zh) 基于步态运动估计的跨视角视频步态识别方法
Wang et al. Human Action Recognition of Autonomous Mobile Robot Using Edge-AI

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant