CN114377398A - 一种实体轨迹的反事实预测方法及装置 - Google Patents

一种实体轨迹的反事实预测方法及装置 Download PDF

Info

Publication number
CN114377398A
CN114377398A CN202111478788.3A CN202111478788A CN114377398A CN 114377398 A CN114377398 A CN 114377398A CN 202111478788 A CN202111478788 A CN 202111478788A CN 114377398 A CN114377398 A CN 114377398A
Authority
CN
China
Prior art keywords
entity
position information
sequence
game
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111478788.3A
Other languages
English (en)
Inventor
雷震
朱翔昱
李宗钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111478788.3A priority Critical patent/CN114377398A/zh
Publication of CN114377398A publication Critical patent/CN114377398A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • A63F13/57Simulating properties, behaviour or motion of objects in the game world, e.g. computing tyre load in a car race game
    • A63F13/573Simulating properties, behaviour or motion of objects in the game world, e.g. computing tyre load in a car race game using trajectories of game objects, e.g. of a golf ball according to the point of impact
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种实体轨迹的反事实预测方法及装置,该方法包括:获取游戏过程中的历史视频序列和待测视频帧;其中,待测视频帧为游戏过程中加扰动时刻对应的图像数据;提取历史视频序列和待测视频帧中各实体的3D位置信息;将各实体的3D位置信息输入至反事实预测模型,得到加扰动后游戏中各实体的运动轨迹的预测结果;其中,反事实预测模型包括混杂因子估计模型和混杂因子传输模型,混杂因子估计模型用于根据历史视频序列中各实体的3D位置信息得到游戏中的混杂因子;混杂因子传输模型用于根据待测视频帧中各实体的3D位置信息和混杂因子,得到加扰动后游戏中各实体的运动轨迹的预测结果。本发明泛化能力强,有效降低了计算资源的消耗。

Description

一种实体轨迹的反事实预测方法及装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种实体轨迹的反事实预测方法及装置。
背景技术
在物理世界中,发现潜在的因果关联是推断周围环境和预测未来状态的重要能力。从视觉输入进行的反事实预测需要基于过去未发生的场景来模拟未来状态,这属于因果关联任务研究的重要组成部分,并得到了越来越多的关注。同时,该项预测技术还能够广泛地应用于动力学游戏,例如积木堆积与轨迹预测游戏。
动力学游戏场景中,通常会受到外界扰动,如单机游戏中玩家执行的动作,而外界扰动将造成游戏中各实体的运动轨迹发生变化,如何在受到外界扰动后,对各实体进行运动轨迹预测是提升游戏体验感的关键因素。为了能在受到外界扰动后,准确预测各实体的运动轨迹,发现游戏场景中隐藏的因果关联并建模各实体之间的联系,是十分重要的。现有方法虽然能够在一些特定的游戏场景中学习到有限的直观物理信息,但是却依赖于对游戏中潜在物理属性的直接监督信息,这会让模型受限于特定游戏场景而缺乏泛化能力,即只能针对特定的游戏场景设计特定模型,这将大大增加计算资源的消耗。
发明内容
本发明提供一种实体轨迹的反事实预测方法及装置,用以解决现有技术中用于实体轨迹预测的反事实预测模型泛化能力差的缺陷,实现用于实体轨迹预测的反事实预测模型对不同的游戏场景的适用性,泛化能力强。
本发明提供一种实体轨迹的反事实预测方法,包括:
获取游戏过程中的历史视频序列和待测视频帧;其中,所述待测视频帧为游戏过程中加扰动时刻对应的图像数据;
将所述历史视频序列和所述待测视频帧输入至感知模型,得到所述历史视频序列和所述待测视频帧中各实体的3D位置信息;
将所述历史视频序列和所述待测视频帧中各所述实体的3D位置信息输入至反事实预测模型,得到加扰动后游戏中各所述实体的运动轨迹的预测结果;
其中,所述反事实预测模型包括混杂因子估计模型和混杂因子传输模型,所述混杂因子估计模型用于根据所述历史视频序列中各所述实体的3D位置信息得到游戏中的混杂因子;所述混杂因子传输模型用于根据所述待测视频帧中各所述实体的3D位置信息和所述混杂因子,得到加扰动后游戏中各所述实体的运动轨迹的预测结果。
根据本发明提供的一种实体轨迹的反事实预测方法,所述混杂因子估计模型的结构包括:
绝对位置编码层,用于计算所述历史视频序列中各所述实体的绝对位置信息;
全局因果关联注意力层,用于根据所述历史视频序列中各所述实体的3D位置信息和绝对位置信息,采用缩放点积自注意力机制建模游戏中各所述实体之间的因果关系,基于所述因果关系得到游戏中的所述混杂因子。
根据本发明提供的一种实体轨迹的反事实预测方法,所述计算所述历史视频序列中各所述实体的绝对位置信息,包括:
获取各所述实体在所述历史视频序列中的顺序信息;
根据各所述实体在所述历史视频序列中的顺序信息,使用正弦函数计算得到各所述实体的绝对位置信息。
根据本发明提供的一种实体轨迹的反事实预测方法,所述采用缩放点积自注意力机制建模游戏中各实体之间的因果关系,包括:
采用缩放点积自注意力机制计算各所述实体两两之间的关联度,得到所述历史视频序列中所有实体之间的因果关系;所述关联度的计算如式1所示:
Figure BDA0003394625790000031
式中,
Figure BDA0003394625790000032
分别为查询向量、键向量和值向量,所述查询向量、键向量和值向量分别通过3D位置矩阵和/或绝对位置矩阵与对应的权重矩阵Wqsi、Wkrj、Wvrj相乘得到;所述3D位置矩阵、所述绝对位置矩阵分别用于存储所述历史视频序列中各实体的3D位置信息、绝对位置信息;
Figure BDA0003394625790000033
表示所述历史视频序列的视频帧s中的实体i与视频帧r中的实体j的关联度;dk表示所述键向量的维度,softmax()表示基于概率的多分类函数。
根据本发明提供的一种实体轨迹的反事实预测方法,所述混杂因子传输模型的结构包括:
拼接层,用于对因果图和物体图进行叠加,得到叠加图;其中,所述因果图基于所述混杂因子进行构建,所述物体图基于所述待测视频帧中各所述实体的3D位置信息和未来各时刻所述实体的位置预测结果进行构建;
空序信息加强层,用于在空序维度上对所述叠加图进行特征提取;
时序信息聚合层,用于根据所述叠加图在所述空序维度上的特征提取结果,在时序维度上对所述叠加图进行特征提取;
时空信息传输层,用于根据所述叠加图在所述时序维度上的特征提取结果,预测各所述实体在下一时刻的3D位置信息。
根据本发明提供的一种实体轨迹的反事实预测方法,所述空序信息加强层、所述时序信息聚合层、所述时空信息传输层的表达式分别如式2-式4所示:
Figure BDA0003394625790000041
Figure BDA0003394625790000042
Figure BDA0003394625790000043
式中,
Figure BDA0003394625790000044
f()、
Figure BDA0003394625790000045
分别表示空序特征提取函数、时序特征提取函数、时空信息传输函数;
Figure BDA0003394625790000046
分别表示t时刻的叠加图通过空序特征提取后,实体i对应的节点、实体i与实体j对应的节点之间的连边;
Figure BDA0003394625790000047
分别表示叠加图通过时序特征提取后,实体i对应的节点、实体i与实体j对应的节点之间的连边;
Figure BDA0003394625790000048
表示实体i在t+1时刻的3D位置信息预测结果;
Figure BDA0003394625790000049
表示t时刻的物体图,
Figure BDA00033946257900000410
表示t时刻的因果图。
本发明还提供一种实体轨迹的反事实预测装置,包括:
数据获取模块,用于获取游戏过程中的历史视频序列和待测视频帧;其中,所述待测视频帧为游戏过程中加扰动时刻对应的图像数据;
位置信息提取模块,用于将所述历史视频序列和所述待测视频帧输入至感知模型,得到所述历史视频序列和所述待测视频帧中各实体的3D位置信息;
轨迹预测模块,用于将所述历史视频序列和所述待测视频帧中各所述实体的3D位置信息输入至反事实预测模型,得到加扰动后游戏中各所述实体的运动轨迹的预测结果;
其中,所述反事实预测模型包括混杂因子估计模型和混杂因子传输模型,所述混杂因子估计模型用于根据所述历史视频序列中各所述实体的3D位置信息得到游戏中的混杂因子;所述混杂因子传输模型用于根据所述待测视频帧中各所述实体的3D位置信息和所述混杂因子,得到加扰动后游戏中各所述实体的运动轨迹的预测结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述实体轨迹的反事实预测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述实体轨迹的反事实预测方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述实体轨迹的反事实预测方法的步骤。
本发明提供的实体轨迹的反事实预测方法及装置,根据游戏过程中的历史视频序列获取游戏场景中的混杂因子,并根据混杂因子和加扰动时刻对应的游戏图像中各实体的3D位置信息,对加扰动后各实体的运动轨迹进行预测,预测过程不依赖场游戏场景中的物理信息,能够适用于各种不同的游戏场景,无需针对特定的游戏场景设计特定的预测模型,泛化能力强,有效降低了计算资源的消耗。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的实体轨迹的反事实预测方法的流程示意图;
图2是本发明提供的实体轨迹的反事实预测装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的实体轨迹的反事实预测方法,如图1所示,该方法包括:
S100、获取游戏过程中的历史视频序列和待测视频帧;其中,所述待测视频帧为游戏过程中加扰动时刻对应的图像数据。
具体地,历史视频序列是指游戏场景中加扰动之前的一段视频序列,历史视频序列中包括多个实体,多个实体可能在同一帧图像中,也可能在不同帧图像中,历史视频序列在获取过程中,尽可能包括游戏中所有的实体。待测视频帧即为游戏过程中加扰动时刻所对应的图像数据。扰动即为游戏过程中相关因素的变化,或人为施加的一些能够对实体运动轨迹造成影响的动作。其中,历史视频序列与待测视频帧属于同一游戏场景。
S200、将所述历史视频序列和所述待测视频帧输入至感知模型,得到所述历史视频序列和所述待测视频帧中各实体的3D位置信息。
具体地,将历史视频序列和待测视频帧输入至训练好的感知模型,通过感知模型对历史视频序列中的图像进行逐帧处理,得到每一帧图像中所有实体的3D位置信息,同时,通过感知模型提取待测视频帧中各实体的3D位置信息。其中,该处对感知模型的具体结构不做具体要求,能够实现实体3D位置信息的识别即可,例如,可以采用ResNet18作为主干网络。
S300、将所述历史视频序列和所述待测视频帧中各所述实体的3D位置信息输入至反事实预测模型,得到加扰动后游戏中各所述实体的运动轨迹的预测结果;
其中,所述反事实预测模型包括混杂因子估计模型和混杂因子传输模型,所述混杂因子估计模型用于根据所述历史视频序列中各所述实体的3D位置信息得到游戏中的混杂因子;所述混杂因子传输模型用于根据所述待测视频帧中各所述实体的3D位置信息和所述混杂因子,得到加扰动后游戏中各所述实体的运动轨迹的预测结果。
具体地,将历史视频序列的每一帧图像中各实体的3D位置信息输入至混杂因子估计模型,得到游戏场景中的混杂因子;其中,混杂因子是影响历史视频序列中各实体的运动轨迹,且难以直接观测到的游戏场景信息,其根据特定的游戏场景具有特定的含义,例如,木块的摩擦系数,小球的形变系数。将得到的混杂因子与待测视频帧中各实体的3D位置信息输入至混杂因子传输模型,得到未来各时刻实体3D位置信息的预测结果,根据各时刻实体3D位置信息的预测结果,得到加扰动后各实体的运动轨迹的预测结果。
由此可见,本发明实施例根据游戏过程中的历史视频序列获取游戏场景中的混杂因子,并根据混杂因子和加扰动时刻对应的游戏图像中各实体的3D位置信息,对加扰动后各实体的运动轨迹进行预测,预测过程不依赖场游戏场景中的物理信息,能够适用于各种不同的游戏场景,无需针对特定的游戏场景设计特定的预测模型,泛化能力强,有效降低了计算资源的消耗。
基于上述实施例,所述混杂因子估计模型的结构包括:
绝对位置编码层,用于计算所述历史视频序列中各所述实体的绝对位置信息;
全局因果关联注意力层,用于根据所述历史视频序列中各所述实体的3D位置信息和绝对位置信息,采用缩放点积自注意力机制建模游戏中各所述实体之间的因果关系,基于所述因果关系得到游戏中的所述混杂因子。
具体地,历史视频序列中各实体的绝对位置信息即表征了历史视频序列的每一帧图像中的各实体的顺序信息,如红色1号、蓝色2号。游戏中各实体之间的因果关系即为游戏中各实体的相互关联;自注意力机制中,实体的顺序信息对各实体之间的因果关系具有较大的影响,因此,通过实体的3D位置信息和绝对位置信息,能够准确建模游戏中各实体之间的因果关系。
由此可见,本发明实施例通过计算历史视频序列中各实体的绝对位置信息来表征各实体顺序信息,基于各实体的3D位置信息和绝对位置信息,采用缩放点积自注意力机制建模游戏中各实体之间的因果关系,能够充分挖掘并利用实体之间的间接因果链来进行混杂因子的估计,有效提高了反事实预测模型对复杂游戏场景中混杂因子的估计能力;同时,混杂因子估计过程中仅需要历史视频序列的每一帧图像中各实体的3D位置信息和绝对位置信息,无需依赖游戏场景中的物理信息,能够适用于各种不同的游戏场景,无需针对特定的游戏场景设计特定的预测模型,泛化能力强,有效降低了计算资源的消耗。
基于上述任一实施例,所述计算所述历史视频序列中各所述实体的绝对位置信息,包括:
获取各所述实体在所述历史视频序列中的顺序信息;
根据各所述实体在所述历史视频序列中的顺序信息,使用正弦函数计算得到各所述实体的绝对位置信息。
具体地,历史视频序列中各实体的顺序信息,如红色1号、蓝色2号,在不同的游戏场景中存在不同的格式,且没有固定的值域范围,因此,本发明实施例使用正弦函数对历史视频序列中各实体的顺序信息进行绝对位置编码,得到绝对位置信息,使得各实体的绝对位置信息能够全部落入区间[-1,1],保证了各实体的绝对位置信息具有相同的格式和值域范围,且能够有效体现不同实体之间的先后顺序。
基于上述任一实施例,采用缩放点积自注意力机制建模游戏中各实体之间的因果关系,包括:
采用缩放点积自注意力机制计算各实体两两之间的关联度,得到所述历史视频序列中所有实体之间的因果关系;所述关联度的计算如式(1)所示:
Figure BDA0003394625790000091
式中,
Figure BDA0003394625790000092
分别为查询向量、键向量和值向量,所述查询向量、键向量和值向量分别通过3D位置矩阵和/或绝对位置矩阵与对应的权重矩阵Wqsi、Wkrj、Wvrj相乘得到;所述3D位置矩阵、所述绝对位置矩阵分别用于存储所述历史视频序列中各实体的3D位置信息、绝对位置信息;
Figure BDA0003394625790000093
表示所述历史视频序列的视频帧s中的实体i与视频帧r中的实体j的关联度;dk表示所述键向量的维度,softmax()表示基于概率的多分类函数;T表示矩阵的转置。
具体地,现有的混杂因子估计方法忽略了不同帧不同实体之间的因果关联,无法有效建模各实体之间的关联,尤其是在长时间序列中各实体之间的关联。而本发明实施例基于历史视频序列的每一帧图像中各实体的3D位置信息和绝对位置信息,编码了长距离视频序列中不同帧不同实体之间的关联信息,挖掘并利用间接的因果链建模各实体之间的关联;根据式(1)可知,本发明实施例在采用缩放点积自注意力机制计算各实体两两之间的关联度的过程中,引入了帧间与帧内的注意力机制,能够促使混杂因子估计模型建模长距离视频序列中各实体之间的因果关联,从而能够有效建模长时间序列中各实体之间的关联,进一步提升对复杂游戏环境中混杂因子的估计能力,为游戏中加扰动后各实体运动轨迹的准确预测提供了数据基础。
另外,本发明实施例扩展了基于transformer的模型进行混杂因子估计模型的构建,采用缩放点积自注意力机制来计算不同物体间的关联性,通过自注意力机制,能够关联各实体的3D位置信息和绝对位置信息,以计算不同帧中各实体的关联机制,基于全局因果关联的自注意力机制,能够帮助混杂因子估计模型更充分地建模各实体之间的相关性。而缩放点积自注意力机制使用高度优化的矩阵乘法来实现,计算速度快,占用空间少,能够有效提高混杂因子估计的效率。
其中,本发明实施例中扩展的基于transformer的模型包括绝对位置编码块、实体信息编码块和实体信息解码块;绝对位置编码模块即绝对位置编码层,用于根据各实体在历史视频序列的每一帧图像中的顺序信息,使用正弦函数计算得到各实体的绝对位置信息;实体信息编码块通过对实体间的因果关系进行充分挖掘,输出实体间的潜在因果关系;实体信息解码块对该因果关系进行解码,输出游戏中的混杂因子的估计结果。其中,实体信息编码块和实体信息解码块均包括依次连接的多头自注意力层、前馈神经网络层和归一化层,用于编解码物体之间的因果链条,从而提升对混杂因子的预估准确度。
现有的混杂因子估计方法主要以循环神经网络为主,只考虑在首个时刻更新空序信息,在后续过程中不能及时利用并更新空序信息。本发明实施例将历史视频序列不同帧不同实体的3D位置信息和绝对位置信息输入transformer模型进行混杂因子的估计,从而通过transformer模型能够对时序和空序信息进行多次更新,且时序和空序信息是同时更新的,避免了现有的混杂因子估计方法只在首个时刻更新空序信息的缺陷,有效提升了混杂因子估计模型对复杂游戏场景中混杂因子的估计能力。
基于上述任一实施例,所述混杂因子传输模型的结构包括:
拼接层,用于对因果图和物体图进行叠加,得到叠加图;其中,所述因果图基于所述混杂因子进行构建,所述物体图基于所述待测视频帧中各所述实体的3D位置信息和未来各时刻所述实体的位置预测结果进行构建;
空序信息加强层,用于在空序维度上对所述叠加图进行特征提取;
时序信息聚合层,用于根据所述叠加图在所述空序维度上的特征提取结果,在时序维度上对所述叠加图进行特征提取;
时空信息传输层,用于根据所述叠加图在所述时序维度上的特征提取结果,预测各所述实体在下一时刻的3D位置信息。
具体地,现有游戏系统中所设计的反事实预测模型,在前向传播子模块中往往不能够充分有效地利用已经预估获得的复杂游戏环境中的混杂因子,对于空序信息的更新次数有限,容易忽略实体间潜在的关联信息。此外,现有反事实预测模型还缺乏对潜在因果图的发掘认知,这也导致了最终游戏系统中物体轨迹的模拟预测结果不够准确。
本发明实施例通过拼接层对因果图和物体图进行叠加,其中,因果图基于混杂因子进行构建;物体图通过对待测视频帧中各实体的3D位置信息和未来各时刻各实体的位置预测结果进行拼接得到,即物体图由各实体的3D位置信息构成,例如在加扰动后,预测第二帧图像中实体的3D位置信息时,根据待测视频帧(第一帧,也就是加扰动的视频帧)中各实体的3D位置信息构建物体图,在预测第三帧图像中实体的3D位置信息时,对待测视频帧中各实体的3D位置信息和预测得到的第二帧图像中各实体的3D位置信息进行拼接。通过对因果图和物体图进行叠加,得到叠加图,并通过空序信息加强层、时序信息聚合层和时空信息传输层来高效编码和传输物体图与因果图信息,实现了对实体之间的关联性的进一步抽取和加强,有效提高了混杂因子传输模型对混杂因子的理解和利用能力,进而提高了反事实预测模型对游戏中各实体的运动轨迹的预测精度。
基于上述任一实施例,所述空序信息加强层、所述时序信息聚合层、所述时空信息传输层的表达式分别如式(2)-式(4)所示:
Figure BDA0003394625790000121
Figure BDA0003394625790000122
Figure BDA0003394625790000123
式中,
Figure BDA0003394625790000124
f()、
Figure BDA0003394625790000125
分别表示空序特征提取函数、时序特征提取函数、时空信息传输函数;
Figure BDA0003394625790000126
分别表示t时刻的叠加图通过空序特征提取后,实体i对应的节点、实体i与实体j对应的节点之间的连边;
Figure BDA0003394625790000127
分别表示叠加图通过时序特征提取后,实体i对应的节点、实体i与实体j对应的节点之间的连边;
Figure BDA0003394625790000128
表示实体i在t+1时刻的3D位置信息预测结果;
Figure BDA0003394625790000129
表示t时刻的物体图,
Figure BDA00033946257900001210
表示t时刻的因果图。
具体地,物体图由各实体的3D位置信息(位置坐标)构成,物体图上的节点由各实体的3D位置信息的嵌入编码构成,物体图上的边由相邻节点堆叠获得,堆叠形式如式(5)所示;因果图中的节点表示混杂因子信息,边表示实体之间的接触信息,为可学习的向量,被随机初始化。空序特征提取函数
Figure BDA00033946257900001211
时空信息传输函数
Figure BDA00033946257900001212
均采用传统的图神经网络结构,时序特征提取函数f()采用GRU(Gate Recurrent Unit,门控循环单元)结构。
Figure BDA00033946257900001213
其中,
Figure BDA00033946257900001214
为实体i与实体j对应的节点之间的连边,
Figure BDA00033946257900001215
分别为实体i、实体j对应的节点。
在不同时刻实体3D位置信息的预测过程中,不断迭代使用式(2)-式(4),使得物体图信息和因果图信息在空序和时序维度上都得到了充分的利用更新,进而确保混杂因子传输模型能够有效利用实体之间潜在的因果链和已经预估得到的混杂因子,从而有效提升了游戏中实体轨迹预测结果的准确性。
另外,在对反事实预测模型进行训练的过程中,依次基于获取的训练样本集合中的每一个样本,通过构建好的损失函数对反事实预测模型进行训练,直至模型收敛或达到预设训练次数,从而得到训练好的反事实预测模型。其中,损失函数Le2e如式(6)所示:
Figure BDA0003394625790000131
式中,
Figure BDA0003394625790000132
分别为t时刻实体m的预测3D位置信息和真实3D位置信息;T表示训练样本的总时长(即训练样本包括T帧图像);M为训练样本中实体的总数量;Lmse()表示均方误差损失。
由此可见,本发明实施例基于全局因果关联的自注意力机制,帮助反事实预测模型更充分地建模物体之间的相关性。接着,为了强化反事实预测模型对于混杂因子的编码利用能力,本发明实施例提出了混杂因子传输架构,显著提升了模型利用混杂因子的能力,并增强了模型的鲁棒性,使得反事实预测模型能够更好地泛化部署在不同的游戏系统中,并对游戏系统进行动力学模拟,最终有利于游戏系统中实体运动轨迹的预测准确率的提升。
下面对本发明提供的实体轨迹的反事实预测装置进行描述,下文描述的实体轨迹的反事实预测装置与上文描述的实体轨迹的反事实预测方法可相互对应参照。如图2所示,该装置包括:
数据获取模块210,用于获取游戏过程中的历史视频序列和待测视频帧;其中,所述待测视频帧为游戏过程中加扰动时刻对应的图像数据;
位置信息提取模块220,用于将所述历史视频序列和所述待测视频帧输入至感知模型,得到所述历史视频序列和所述待测视频帧中各实体的3D位置信息;
轨迹预测模块230,用于将所述历史视频序列和所述待测视频帧中各所述实体的3D位置信息输入至反事实预测模型,得到加扰动后游戏中各所述实体的运动轨迹的预测结果;
其中,所述反事实预测模型包括混杂因子估计模型和混杂因子传输模型,所述混杂因子估计模型用于根据所述历史视频序列中各所述实体的3D位置信息得到游戏中的混杂因子;所述混杂因子传输模型用于根据所述待测视频帧中各所述实体的3D位置信息和所述混杂因子,得到加扰动后游戏中各所述实体的运动轨迹的预测结果。
基于上述实施例,所述混杂因子估计模型的结构包括:
绝对位置编码层,用于计算所述历史视频序列中各所述实体的绝对位置信息;
全局因果关联注意力层,用于根据所述历史视频序列中各所述实体的3D位置信息和绝对位置信息,采用缩放点积自注意力机制建模游戏中各所述实体之间的因果关系,基于所述因果关系得到游戏中的所述混杂因子。
基于上述任一实施例,所述计算所述历史视频序列中各所述实体的绝对位置信息,包括:
获取各所述实体在所述历史视频序列中的顺序信息;
根据各所述实体在所述历史视频序列中的顺序信息,使用正弦函数计算得到各所述实体的绝对位置信息。
基于上述任一实施例,所述采用缩放点积自注意力机制建模游戏中各实体之间的因果关系,包括:
采用缩放点积自注意力机制计算各所述实体两两之间的关联度,得到所述历史视频序列中所有实体之间的因果关系;所述关联度的计算如式(1)所示:
Figure BDA0003394625790000141
式中,
Figure BDA0003394625790000142
分别为查询向量、键向量和值向量,所述查询向量、键向量和值向量分别通过3D位置矩阵和/或绝对位置矩阵与对应的权重矩阵Wqsi、Wkrj、Wvrj相乘得到;所述3D位置矩阵、所述绝对位置矩阵分别用于存储所述历史视频序列中各实体的3D位置信息、绝对位置信息;
Figure BDA0003394625790000151
表示所述历史视频序列的视频帧s中的实体i与视频帧r中的实体j的关联度;dk表示所述键向量的维度,softmax()表示基于概率的多分类函数。
基于上述任一实施例,所述混杂因子传输模型的结构包括:
拼接层,用于对因果图和物体图进行叠加,得到叠加图;其中,所述因果图基于所述混杂因子进行构建,所述物体图基于所述待测视频帧中各所述实体的3D位置信息和未来各时刻所述实体的位置预测结果进行构建;
空序信息加强层,用于在空序维度上对所述叠加图进行特征提取;
时序信息聚合层,用于根据所述叠加图在所述空序维度上的特征提取结果,在时序维度上对所述叠加图进行特征提取;
时空信息传输层,用于根据所述叠加图在所述时序维度上的特征提取结果,预测各所述实体在下一时刻的3D位置信息。
基于上述任一实施例,所述空序信息加强层、所述时序信息聚合层、所述时空信息传输层的表达式分别如式(2)-式(4)所示:
Figure BDA0003394625790000152
Figure BDA0003394625790000153
Figure BDA0003394625790000154
式中,
Figure BDA0003394625790000155
f()、
Figure BDA0003394625790000156
分别表示空序特征提取函数、时序特征提取函数、时空信息传输函数;
Figure BDA0003394625790000157
分别表示t时刻的叠加图通过空序特征提取后,实体i对应的节点、实体i与实体j对应的节点之间的连边;
Figure BDA0003394625790000158
分别表示叠加图通过时序特征提取后,实体i对应的节点、实体i与实体j对应的节点之间的连边;
Figure BDA0003394625790000159
表示实体i在t+1时刻的3D位置信息预测结果;
Figure BDA0003394625790000161
表示t时刻的物体图,
Figure BDA0003394625790000162
表示t时刻的因果图。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行实体轨迹的反事实预测方法,该方法包括:获取游戏过程中的历史视频序列和待测视频帧;其中,所述待测视频帧为游戏过程中加扰动时刻对应的图像数据;
将所述历史视频序列和所述待测视频帧输入至感知模型,得到所述历史视频序列和所述待测视频帧中各实体的3D位置信息;
将所述历史视频序列和所述待测视频帧中各所述实体的3D位置信息输入至反事实预测模型,得到加扰动后游戏中各所述实体的运动轨迹的预测结果;
其中,所述反事实预测模型包括混杂因子估计模型和混杂因子传输模型,所述混杂因子估计模型用于根据所述历史视频序列中各所述实体的3D位置信息得到游戏中的混杂因子;所述混杂因子传输模型用于根据所述待测视频帧中各所述实体的3D位置信息和所述混杂因子,得到加扰动后游戏中各所述实体的运动轨迹的预测结果。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的实体轨迹的反事实预测方法,该方法包括:获取游戏过程中的历史视频序列和待测视频帧;其中,所述待测视频帧为游戏过程中加扰动时刻对应的图像数据;
将所述历史视频序列和所述待测视频帧输入至感知模型,得到所述历史视频序列和所述待测视频帧中各实体的3D位置信息;
将所述历史视频序列和所述待测视频帧中各所述实体的3D位置信息输入至反事实预测模型,得到加扰动后游戏中各所述实体的运动轨迹的预测结果;
其中,所述反事实预测模型包括混杂因子估计模型和混杂因子传输模型,所述混杂因子估计模型用于根据所述历史视频序列中各所述实体的3D位置信息得到游戏中的混杂因子;所述混杂因子传输模型用于根据所述待测视频帧中各所述实体的3D位置信息和所述混杂因子,得到加扰动后游戏中各所述实体的运动轨迹的预测结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的实体轨迹的反事实预测方法,该方法包括:获取游戏过程中的历史视频序列和待测视频帧;其中,所述待测视频帧为游戏过程中加扰动时刻对应的图像数据;
将所述历史视频序列和所述待测视频帧输入至感知模型,得到所述历史视频序列和所述待测视频帧中各实体的3D位置信息;
将所述历史视频序列和所述待测视频帧中各所述实体的3D位置信息输入至反事实预测模型,得到加扰动后游戏中各所述实体的运动轨迹的预测结果;
其中,所述反事实预测模型包括混杂因子估计模型和混杂因子传输模型,所述混杂因子估计模型用于根据所述历史视频序列中各所述实体的3D位置信息得到游戏中的混杂因子;所述混杂因子传输模型用于根据所述待测视频帧中各所述实体的3D位置信息和所述混杂因子,得到加扰动后游戏中各所述实体的运动轨迹的预测结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种实体轨迹的反事实预测方法,其特征在于,包括:
获取游戏过程中的历史视频序列和待测视频帧;其中,所述待测视频帧为游戏过程中加扰动时刻对应的图像数据;
将所述历史视频序列和所述待测视频帧输入至感知模型,得到所述历史视频序列和所述待测视频帧中各实体的3D位置信息;
将所述历史视频序列和所述待测视频帧中各所述实体的3D位置信息输入至反事实预测模型,得到加扰动后游戏中各所述实体的运动轨迹的预测结果;
其中,所述反事实预测模型包括混杂因子估计模型和混杂因子传输模型,所述混杂因子估计模型用于根据所述历史视频序列中各所述实体的3D位置信息得到游戏中的混杂因子;所述混杂因子传输模型用于根据所述待测视频帧中各所述实体的3D位置信息和所述混杂因子,得到加扰动后游戏中各所述实体的运动轨迹的预测结果。
2.根据权利要求1所述的一种实体轨迹的反事实预测方法,其特征在于,所述混杂因子估计模型的结构包括:
绝对位置编码层,用于计算所述历史视频序列中各所述实体的绝对位置信息;
全局因果关联注意力层,用于根据所述历史视频序列中各所述实体的3D位置信息和绝对位置信息,采用缩放点积自注意力机制建模游戏中各所述实体之间的因果关系,基于所述因果关系得到游戏中的所述混杂因子。
3.根据权利要求2所述的一种实体轨迹的反事实预测方法,其特征在于,所述计算所述历史视频序列中各所述实体的绝对位置信息,包括:
获取各所述实体在所述历史视频序列中的顺序信息;
根据各所述实体在所述历史视频序列中的顺序信息,使用正弦函数计算得到各所述实体的绝对位置信息。
4.根据权利要求2所述的一种实体轨迹的反事实预测方法,其特征在于,所述采用缩放点积自注意力机制建模游戏中各实体之间的因果关系,包括:
采用缩放点积自注意力机制计算各所述实体两两之间的关联度,得到所述历史视频序列中所有实体之间的因果关系;所述关联度的计算如式1所示:
Figure FDA0003394625780000021
式中,
Figure FDA0003394625780000022
分别为查询向量、键向量和值向量,所述查询向量、键向量和值向量分别通过3D位置矩阵和/或绝对位置矩阵与对应的权重矩阵Wqsi、Wkrj、Wvrj相乘得到;所述3D位置矩阵、所述绝对位置矩阵分别用于存储所述历史视频序列中各实体的3D位置信息、绝对位置信息;
Figure FDA0003394625780000023
表示所述历史视频序列的视频帧s中的实体i与视频帧r中的实体j的关联度;dk表示所述键向量的维度,softmax()表示基于概率的多分类函数。
5.根据权利要求1所述的一种实体轨迹的反事实预测方法,其特征在于,所述混杂因子传输模型的结构包括:
拼接层,用于对因果图和物体图进行叠加,得到叠加图;其中,所述因果图基于所述混杂因子进行构建,所述物体图基于所述待测视频帧中各所述实体的3D位置信息和未来各时刻所述实体的位置预测结果进行构建;
空序信息加强层,用于在空序维度上对所述叠加图进行特征提取;
时序信息聚合层,用于根据所述叠加图在所述空序维度上的特征提取结果,在时序维度上对所述叠加图进行特征提取;
时空信息传输层,用于根据所述叠加图在所述时序维度上的特征提取结果,预测各所述实体在下一时刻的3D位置信息。
6.根据权利要求5所述的一种实体轨迹的反事实预测方法,其特征在于,所述空序信息加强层、所述时序信息聚合层、所述时空信息传输层的表达式分别如式2-式4所示:
Figure FDA0003394625780000031
Figure FDA0003394625780000032
Figure FDA0003394625780000033
式中,
Figure FDA0003394625780000034
f()、
Figure FDA0003394625780000035
分别表示空序特征提取函数、时序特征提取函数、时空信息传输函数;
Figure FDA0003394625780000036
分别表示t时刻的叠加图通过空序特征提取后,实体i对应的节点、实体i与实体j对应的节点之间的连边;
Figure FDA0003394625780000037
分别表示叠加图通过时序特征提取后,实体i对应的节点、实体i与实体j对应的节点之间的连边;
Figure FDA0003394625780000038
表示实体i在t+1时刻的3D位置信息预测结果;
Figure FDA0003394625780000039
表示t时刻的物体图,
Figure FDA00033946257800000310
表示t时刻的因果图。
7.一种实体轨迹的反事实预测装置,其特征在于,包括:
数据获取模块,用于获取游戏过程中的历史视频序列和待测视频帧;其中,所述待测视频帧为游戏过程中加扰动时刻对应的图像数据;
位置信息提取模块,用于将所述历史视频序列和所述待测视频帧输入至感知模型,得到所述历史视频序列和所述待测视频帧中各实体的3D位置信息;
轨迹预测模块,用于将所述历史视频序列和所述待测视频帧中各所述实体的3D位置信息输入至反事实预测模型,得到加扰动后游戏中各所述实体的运动轨迹的预测结果;
其中,所述反事实预测模型包括混杂因子估计模型和混杂因子传输模型,所述混杂因子估计模型用于根据所述历史视频序列中各所述实体的3D位置信息得到游戏中的混杂因子;所述混杂因子传输模型用于根据所述待测视频帧中各所述实体的3D位置信息和所述混杂因子,得到加扰动后游戏中各所述实体的运动轨迹的预测结果。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述实体轨迹的反事实预测方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述实体轨迹的反事实预测方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述实体轨迹的反事实预测方法的步骤。
CN202111478788.3A 2021-12-06 2021-12-06 一种实体轨迹的反事实预测方法及装置 Pending CN114377398A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111478788.3A CN114377398A (zh) 2021-12-06 2021-12-06 一种实体轨迹的反事实预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111478788.3A CN114377398A (zh) 2021-12-06 2021-12-06 一种实体轨迹的反事实预测方法及装置

Publications (1)

Publication Number Publication Date
CN114377398A true CN114377398A (zh) 2022-04-22

Family

ID=81195411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111478788.3A Pending CN114377398A (zh) 2021-12-06 2021-12-06 一种实体轨迹的反事实预测方法及装置

Country Status (1)

Country Link
CN (1) CN114377398A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618733A (zh) * 2022-10-24 2023-01-17 大连理工大学 针对航空发动机剩余使用寿命预测的多尺度混杂注意力机制建模方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618733A (zh) * 2022-10-24 2023-01-17 大连理工大学 针对航空发动机剩余使用寿命预测的多尺度混杂注意力机制建模方法

Similar Documents

Publication Publication Date Title
US20220270370A1 (en) Temporally distributed neural networks for video semantic segmentation
CN114332135B (zh) 一种基于双模型交互学习的半监督医学图像分割方法及装置
Yang et al. An improving faster-RCNN with multi-attention ResNet for small target detection in intelligent autonomous transport with 6G
CN111742345A (zh) 通过着色的视觉跟踪
CN111539290A (zh) 视频动作识别方法、装置、电子设备及存储介质
US11804043B2 (en) Detecting objects in a video using attention models
CN110569706A (zh) 一种基于时间和空间网络的深度集成目标跟踪算法
CN110163052B (zh) 视频动作识别方法、装置和机器设备
CN114377398A (zh) 一种实体轨迹的反事实预测方法及装置
CN114743027B (zh) 弱监督学习引导的协同显著性检测方法
Ding et al. Simultaneous body part and motion identification for human-following robots
Zhang et al. Semi-supervised semantic segmentation network via learning consistency for remote sensing land-cover classification
CN114445684A (zh) 车道线分割模型的训练方法、装置、设备及存储介质
CN110717384B (zh) 一种视频交互式行为识别方法及装置
CN113392689A (zh) 视频文字跟踪方法、视频处理方法、装置、设备及介质
CN116682271A (zh) 基于u形多尺度时空图卷积网络的交通流量预测方法
CN112579824A (zh) 视频数据分类方法、装置、电子设备及存储介质
Zhang et al. A scale adaptive network for crowd counting
Wu et al. RSF: a novel saliency fusion framework for image saliency detection
CN115035173A (zh) 基于帧间相关性的单目深度估计方法及系统
CN115100559A (zh) 一种基于格点光流的动作预测方法与系统
CN114494999A (zh) 一种双分支联合型目标密集预测方法及系统
Gupta et al. Towards an interpretable latent space in structured models for video prediction
Cui et al. Analysis of Behavioral Image Recognition of Pan‐Entertainment of Contemporary College Students’ Network
Chen et al. Real-Time Generic Object Tracking via Recurrent Regression Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination