CN106504266A - 行走行为的预测方法和装置、数据处理装置和电子设备 - Google Patents
行走行为的预测方法和装置、数据处理装置和电子设备 Download PDFInfo
- Publication number
- CN106504266A CN106504266A CN201610868343.9A CN201610868343A CN106504266A CN 106504266 A CN106504266 A CN 106504266A CN 201610868343 A CN201610868343 A CN 201610868343A CN 106504266 A CN106504266 A CN 106504266A
- Authority
- CN
- China
- Prior art keywords
- walking
- information
- destination object
- cnn
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明实施例公开了一种行走行为的预测方法和装置、数据处理装置和电子设备,其中,方法包括:对目标场景中至少一目标对象在一个历史时间段M内的行走行为信息进行编码,获得用于表示所述至少一目标对象在历史时间段M内行走行为信息的第一偏移量信息;将所述第一偏移量信息输入至深度神经网络CNN,由所述CNN输出用于表示所述至少一目标对象在未来时间段M’内行走行为信息的第二偏移量信息;对所述第二偏移量信息进行解码,获得所述至少一目标对象在未来时间段M’内的行走行为预测信息。本发明实施例对目标对象在未来一段时间内行走行为的预测更加准确、可靠,并且可以一次完成对目标场景中所有目标对象行走行为的预测任务,预测效率高。
Description
技术领域
本发明涉及计算机视觉技术,尤其是一种行走行为的预测方法和装置、数据处理装置和电子设备。
背景技术
行人行走行为的建模是计算机视觉以及智能视频监控领域的重要问题。行人行走行为模型在很多领域可以进行重要应用,例如:应用于行走行为预测、行人检测与跟踪、人群行为分析、以及异常行为的检测等。
发明内容
本发明实施例提供一种用于进行行人行走行为预测的技术方案。
根据本发明实施例的一个方面,提供一种行走行为的预测方法,包括:
对目标场景中至少一目标对象在一个历史时间段M内的行走行为信息进行编码,获得用于表示所述至少一目标对象在历史时间段M内行走行为信息的第一偏移量信息;
将所述第一偏移量信息输入至深度神经网络CNN,由所述CNN输出用于表示所述至少一目标对象在未来时间段M’内行走行为信息的第二偏移量信息;
对所述第二偏移量信息进行解码,获得所述至少一目标对象在未来时间段M’内的行走行为预测信息。
基于上述方法的另一个实施例中,所述偏移量信息具体为偏移量矩阵。
基于上述方法的另一个实施例中,所述目标场景为需要进行行走行为预测的目标对象所在的场景;
所述至少一个目标对象包括所述目标场景中的部分目标对象或者所有目标对象,所述至少一目标对象包括所述需要进行行走行为预测的目标对象。
基于上述方法的另一个实施例中,所述目标对象包括行人。
基于上述方法的另一个实施例中,所述行走行为信息或所述行走行为预测信息包括以下任意一种或多种:行走路径信息、行走方向信息、行走速度信息。
基于上述方法的另一个实施例中,所述对目标场景中至少一个目标对象在一个历史时间段M内的行走行为信息进行编码,获得第一偏移量矩阵包括:
分别获取所述目标场景中各目标对象在历史时间段M内的行走行为信息;
分别针对各目标对象在历史时间段M内的行走行为信息,以一个位移向量表示目标对象在历史时间段M内的行走行为信息;
根据各目标对象的位移向量确定所述第一偏移量矩阵。
基于上述方法的另一个实施例中,所述CNN包括第一子CNN、按位相加单元和第二子CNN;
所述将所述第一偏移量矩阵输入至CNN,由所述CNN输出第二偏移量矩阵包括:
将所述第一偏移量矩阵作为第一子CNN的输入,利用所述第一子CNN对所述至少一目标对象在历史时间段M内的行走行为信息进行分类,获得行走行为特征图;
利用按位相加单元,将预先设置的所述目标场景的位置信息图与所述行走行为特征图基于对应位置相加,获得场景行走行为信息;所述位置信息图包括所述目标场景中空间结构的位置信息;
将所述场景行走行为信息作为所述第二子CNN的输入,利用所述第二子CNN分别确定所述至少一目标对象在历史时间段M内的各类行走行为在未来时间段M’内对所述第一偏移量矩阵的影响信息,并根据所述影响信息确定所述第二偏移量矩阵。
基于上述方法的另一个实施例中,还包括:
预先根据所述目标场景的空间结构信息确定所述目标场景的位置信息图。
基于上述方法的另一个实施例中,所述第一子CNN包括级联的多个CNN层;所述第一子CNN中的每个CNN层分别包括多个卷积滤波器;和/或
所述第二子CNN包括级联的多个CNN层;所述第二子CNN中的每个CNN层分别包括多个卷积滤波器。
基于上述方法的另一个实施例中,所述CNN还包括第一池化单元和第二池化单元;
所述获得行走行为特征图之后,还包括:利用第一池化单元,对所述行走行为特征图进行最大值下采样,获得新行走行为特征图,所述新行走行为特征图的空间大小小于所述行走行为特征图;
获得所述第二偏移量矩阵之后,还包括:利用第二池化单元,对所述第二偏移量矩阵进行卷积上采样,获得与所述第一偏移量矩阵的大小相同的第二偏移量矩阵。
基于上述方法的另一个实施例中,对所述第二偏移量矩阵进行解码,获得所述至少一个目标对象在未来时间段M’内的行走行为预测信息包括:
对所述第二偏移量矩阵进行解码,获得用于表示所述至少一目标对象在未来时间段M’内的行走行为的位移向量;
分别获取表示所述所有至少一对象在未来时间段M’内的行走行为的位移向量对应的行走行为信息;
分别根据所述至少一目标对象在未来时间段M’内的行走行为的位移向量对应的行走行为信息,获取至少一目标对象在未来时间段M’内的行走行为的预测信息。
基于上述方法的另一个实施例中,还包括:
预先对初始CNN进行网络训练,获得所述CNN,所述初始CNN包括:初始第一子CNN、初始第二子CNN、初始第一池化单元和初始第二池化单元、初始按位相加单元。
基于上述方法的另一个实施例中,所述对初始CNN进行网络训练,获得所述CNN包括:
依次对初始第一子CNN、初始第二子CNN、初始第一池化单元和初始第二池化单元、初始按位相加单元进行迭代训练,在当前训练单元的训练结果满足预定收敛条件时对下一单元进行迭代训练。
基于上述方法的另一个实施例中,所述训练结果满足预定收敛条件包括:
当前训练单元的输出结预设输出结果之间的偏差小于第一预设阈值;和/或
当前训练单元进行迭代训练的次数达到第二预设阈值。
根据本发明实施例的一个方面,提供一种行走行为的预测装置,包括:
行为编码单元,用于对目标场景中至少一个目标对象在一个历史时间段M内的行走行为信息进行编码,获得用于表示所述至少一个目标对象在历史时间段M内行走行为信息的第一偏移量信息;
深度神经网络CNN,用于接收所述第一偏移量信息进行处理,输出用于表示所述至少一个目标对象在未来时间段M’内行走行为信息的第二偏移量信息;
行为解码单元,用于对所述第二偏移量信息进行解码,获得所述至少一个目标对象在未来时间段M’内的行走行为预测信息。
基于上述装置的另一个实施例中,所述偏移量信息具体为偏移量矩阵。
基于上述装置的另一个实施例中,所述行走行为信息或所述行走行为预测信息包括以下任意一种或多种:行走路径信息、行走方向信息、行走速度信息。
基于上述装置的另一个实施例中,所述行为编码单元具体用于:
分别获取所述目标场景中各目标对象在历史时间段M内的行走行为信息;
分别针对各目标对象在历史时间段M内的行走行为信息,以一个位移向量表示目标对象在历史时间段M内的行走行为;
根据各目标对象的位移向量,确定所述第一偏移量矩阵。
基于上述装置的另一个实施例中,所述CNN包括:
所述第一子CNN,用于接收所述第一偏移量矩阵,对所述至少一个目标对象在历史时间段M内的行走行为信息进行分类,获得行走行为特征图;
所述按位相加单元,用于将预先设置的所述目标场景的位置信息图与所述行走行为特征图基于对应位置相加,获得场景行走行为信息;所述位置信息图包括所述目标场景中空间结构的位置信息;
所述第二子CNN,用于接收所述场景行走行为信息,分别确定所述至少一个目标对象在历史时间段M内的各类行走行为在未来时间段M’内对所述第一偏移量矩阵的影响信息,,并根据所述影响信息确定。
基于上述装置的另一个实施例中,所述第一子CNN包括级联的多个CNN层;所述第一子CNN中每个CNN层中的各CNN层分别包括多个卷积滤波器;和/或
所述第二子CNN包括级联的多个CNN层;所述第二子CNN中每个CNN层中的各CNN层分别包括多个卷积滤波器。
基于上述装置的另一个实施例中,所述CNN还包括:
所述第一池化单元,用于对所述第一子CNN获得的所述行走行为特征图进行最大值下采样,获得新行走行为特征图,所述新行走行为特征图的空间大小小于所述行走行为特征图;
所述第二池化单元,用于在所述第二子CNN获得所述第二偏移量矩阵之后,对所述第二偏移量矩阵进行卷积上采样,获得与所述第一偏移量矩阵的大小相同的第二偏移量矩阵。
基于上述装置的另一个实施例中,所述行为解码单元具体用于:
对所述第二偏移量矩阵进行解码,获得用于表示所述至少一个目标对象在未来时间段M’内的行走行为的位移向量;
分别获取表示所述至少一个目标对象在未来时间段M’内的行走行为的位移向量对应的行走行为信息;
分别根据至少一个目标对象在未来时间段M’内的行走行为的位移向量对应的行走行为信息,获取至少一个目标对象在未来时间段M’内的行走行为预测信息。
基于上述装置的另一个实施例中,还包括:
网络训练单元,用于对初始CNN进行网络训练,获得所述CNN,所述初始CNN包括:初始第一子CNN、初始第二子CNN、初始第一池化单元和初始第二池化单元、初始按位相加单元。
基于上述装置的另一个实施例中,所述网络训练单元具体用于:
依次对初始第一子CNN、初始第二子CNN、初始第一池化单元和初始第二池化单元、初始按位相加单元进行迭代训练,在当前训练单元的训练结果满足预定收敛条件时对下一单元进行迭代训练。
根据本发明实施例的又一个方面,提供一种数据处理装置,包括行走行为的预测装置。
基于上述数据处理装置的另一个实施例中,所述数据处理装置包括进阶精简指令集机器ARM、中央处理单元CPU或图形处理单元GPU。
根据本发明实施例的再一个方面,提供一种电子设备,包括上述实施例所述的数据处理装置。
根据本发明实施例的再一个方面,提供的一种计算机存储介质,用于存储计算机可读取的指令,所述指令包括:
对目标场景中至少一目标对象在一个历史时间段M内的行走行为信息进行编码,获得用于表示所述至少一目标对象在历史时间段M内行走行为信息的第一偏移量信息的指令;
将所述第一偏移量信息输入至深度神经网络CNN,由所述CNN输出用于表示所述至少一目标对象在未来时间段M’内行走行为信息的第二偏移量信息的指令;
对所述第二偏移量信息进行解码,获得所述至少一目标对象在未来时间段M’内的行走行为预测信息的指令。
根据本发明实施例的再一个方面,提供一种计算机设备,包括:
存储器,存储可执行指令;
一个或多个处理器,与存储器通信以执行可执行指令从而完成本发明上述任一实施例的行走行为的预测方法对应的操作。
基于本发明上述实施例提供的行走行为的预测方法和装置、数据处理装置和电子设备、计算机存储介质和计算机设备,提出了基于深度学习的方法,对目标场景中的至少一个目标对象在一个历史时间段M内的行走行为进行编码,获得用于表示该至少一个目标对象在历史时间段M内行走行为的第一偏移量信息并输入CNN,获得用于表示上述至少一个目标对象在未来时间段M’内行走行为的第二偏移量信息;对第二偏移量信息进行解码,获取上述至少一个目标对象在未来时间段M’内的行走行为。
本发明实施例考虑了目标对象过去一段时间的行走行为对其未来一段时间的行走行为的影响,因为同一场景中的各目标对象之间的行走行为可能会产生相互影响,本发明实施例同时考虑了同一场景中其他可能的目标对象(例如:行人)的行走行为对某一个目标对象(例如:需要预测未来行为行走的当前行人)的行走行为的影响,使得可能影响某一目标对象未来行走行为的因素能够同时被考虑,使得对目标对象在未来一段时间内行走行为的预测更加准确、可靠;另,本发明实施例可以同时对场景内至少一个目标对象的行走行为进行分析,一次给出上述至少一个目标对象未来的行走轨迹预测结果,预测效率高。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明行走行为的预测方法一个实施例的流程图。
图2为本发明实施例中获取第一偏移量矩阵的一个实施例的流程图。
图3为本发明实施例中获取第二偏移量矩阵的一个实施例的流程图。
图4为本发明实施例中获取所有目标对象在未来时间段M’内的行走行为的一个实施例的流程图。
图5为本发明行走行为的预测方法另一个实施例的流程图。
图6为本发明实施例中进行CNN网络训练一个实施例的流程图。
图7为本发明行走行为的预测装置一个实施例的结构示意图。
图8为本发明行走行为的预测装置另一个实施例的结构示意图。
图9为本发明电子设备一个应用实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
在实现本发明的过程中,本发明人经过研究发现,进行行人行走行为的建模是很复杂的,行人的行走行为能够被很多因素所影响。一方面,行人的行走行为能被场景的结构、场景中其他行走的行人、场景中静止的行人、以及行人主观上对目的地的选择因素所影响;另一方面,场景中过去一段时间的行走模式也可能影响当前行人行为。然而,很多现有的行人行走行为建模的方法只局限于以上提到的一部分因素,并且利用一些简化的模型或者能量函数对行人行为进行建模。
图1为本发明行走行为的预测方法一个实施例的流程图。如图1所示,该实施例行走行为的预测方法包括:
102,对目标场景中至少目标对象在一个历史时间段M内的行走行为信息进行编码,获得用于表示该至少一个目标对象在历史时间段M内行走行为的第一偏移量信息。
其中,目标场景为需要进行行走行为预测的目标对象所在的场景,例如车站、工厂等。
作为本发明各实施例的一个具体示例而非限制,本发明各实施例的目标对象具体是行人,另外也可以是其他一切需要进行行走行为预测的物体或动物,例如,电商仓库中的商品搬运装置(例如,机器人)。
104,将第一偏移量信息输入至深度神经网络(CNN),由该CNN对该第一偏移量信息进行处理,输出用于表示上述至少一个目标对象在未来时间段M’内行走行为信息的第二偏移量信息。
106,对第二偏移量信息进行解码,获取上述至少一个目标对象在未来时间段M’内的行走行为预测信息。
基于本发明上述实施例提供的行走行为的预测方法,提出了基于深度学习的方法,对目标场景中的至少一个目标对象在一个历史时间段M内的行走行为进行编码,获得用于表示该至少一个目标对象在历史时间段M内行走行为的第一偏移量信息并输入CNN,获得用于表示上述至少一个目标对象在未来时间段M’内行走行为的第二偏移量信息;对第二偏移量信息进行解码,获取上述至少一个目标对象在未来时间段M’内的行走行为。本发明实施例考虑了目标对象过去一段时间的行走行为对其未来一段时间的行走行为的影响,因为同一场景中的各目标对象之间的行走行为可能会产生相互影响,本发明实施例同时考虑了同一场景中其他可能的目标对象(例如:行人)的行走行为对某一个目标对象(例如:需要预测未来行为行走的当前行人)的行走行为的影响,使得可能影响某一目标对象未来行走行为的因素能够同时被考虑,使得对目标对象在未来一段时间内行走行为的预测更加准确、可靠;另,本发明实施例可以同时对场景内至少一个目标对象的行走行为进行分析,一次给出上述至少一个目标对象未来的行走轨迹预测结果,预测效率高。
在本发明各行走行为的预测方法实施例的另一个具体示例中,上述至少一目标对象包括需要进行行走行为预测的目标对象,需要进行行走行为预测的目标对象具体可以是一个,也可以是多个,即:本发明实施例可以实现同时对多个目标对象在未来时间段M’内的行走行为预测,一次完成对多个目标对象行走行为的预测任务,而不需要分别通过多次来完成多个目标对象在未来时间段M’内的行走行为预测,预测效率高。
本发明各行走行为的预测方法实施例中,偏移量信息,包括第一偏移量信息、第二偏移量信息,具体以矩阵形式表示,也称为偏移量矩阵。为方便起见,本发明以下各实施例行走行为的预测方法中,以第一偏移量信息具体为第一偏移量矩阵、第二偏移量信息具体为第二偏移量矩阵为例进行说明,本领域技术人员基于本发明实施例的记载可以理解,偏移量信息以其他形式表示时的具体实现。
另外,上述至少一个目标对象可以包括目标场景中的部分目标对象或者所有目标对象。上述至少一个目标对象包括目标场景中的所有目标对象时,同时考虑了同一场景中其他所有目标对象(例如:行人)的行走行为对某一个目标对象(例如:需要预测未来行为行走的当前行人)的行走行为的影响,同时对场景中的所有目标对象进行预测,使得所有可能影响某一目标对象未来行走行为的因素能够同时被考虑,使得对目标对象在未来一段时间内行走行为的预测更加准确、可靠;并且可以一次完成对所有目标对象行走行为的预测任务,从而全面预测目标场景中的每一个目标对象在未来时间段M’内可能的行走行为。作为本发明各行走行为的预测方法实施例的又一个具体示例,行走行为信息或行走行为预测信息例如可以包括但不限于以下任意一种或多种:行走路径信息、行走方向信息、行走速度信息。其中,操作102中进编码的行走行为信息与操作106中解码获得行走行为预测信息可以相同,也可以不同。例如,操作102中进编码的行走行为信息可以是行走路径信息,而操作106中解码获得行走行为预测信息可以是行走路径信息,也可以是行走方向信息或行走速度信息,即:基于本发明实施例,可以通过目标场景中各目标对象在历史时间段M内行走行为信息预测目标场景中各目标对象在未来时间段M’内的行走路径信息、行走方向信息和/或行走速度信息。本发明如下实施例中,以操作102中进编码的行走行为信息和操作106中解码获得的行走行为编码信息是行走路径信息为例进行说明,由于目标场景中所有目标对象包括上述至少一个目标对象,行走路径信息可以按照单位时间采集,并且包含了方向信息,本领域技术人员基于本发明实施例的记载可以知悉,操作102中编码的行走行为信息和操作106中解码获得行走行为预测信息为行走方向信息或行走速度信息时,本发明实施例同样适用。
基于本发明实施例获取的目标对象在未来时间段M’内的行走路径信息、行走方向信息、行走速度信息,可以获知目标场景中各目标对象的行走轨迹,在不同时刻的行走快慢、何时转弯等信息。图2为本发明实施例中获取第一偏移量矩阵的一个实施例的流程图。如图2所示,作为本发明行走行为的预测方法实施例的一个示例,操作102具体可以通过如下方式实现:
202,分别获取目标场景中各目标对象在历史时间段M内的行走路径信息。
204,分别针对各目标对象在历史时间段M内的行走路径信息,以一个位移向量表示目标对象在历史时间段M内的行走行为信息,将该位移向量的值赋予该目标对象当前的位置。
206,根据各目标对象的位移向量确定第一偏移量矩阵。
例如,综合各目标对象的位移向量,获得第一偏移量矩阵。
在本发明的另一个实施例中,目标对象所在的位置被赋予将目标对象的位移向量的值,为了区分目标场景中有目标对象和无目标对象(即:目标场景中的背景)的位置,可以选择性地将所有的位移向量中所有的元素都加1,以保证所有位移向量的元素都大于0,以区分目标场景中的目标对象和背景,有助于后续从目标场景中识别出目标对象。
在本发明各行走行为的预测方法实施例的又一个具体示例中,上述对第一偏移量矩阵进行处理的CNN具体可以包括第一子CNN、按位相加单元和第二子CNN。
图3为本发明实施例中获取第二偏移量矩阵的一个实施例的流程图。如图3所示,作为本发明行走行为的预测方法实施例的一个示例,操作104具体可以通过如下方式实现:
302,将第一偏移量矩阵作为第一子CNN的输入,利用第一子CNN对上述至少一个目标对象在历史时间段M内的行走行为进行分类,获得行走行为特征图。
304,利用按位相加单元,将预先设置的目标场景的位置信息图与行走行为特征图基于对应位置相加,获得场景行走行为信息。
其中,位置信息图包括目标场景中空间结构的位置信息,此处的空间结构具体可以是对目标场景中目标对象的行走行为产生影响的空间结构,例如,目标场景的入口、出口的位置信息,目标场景中的障碍物的位置信息等,另外也可以是目标场景中的全部空间结构该位置信息图基于对目标场景样本的训练获得。
将目标场景的位置信息图与行走行为特征图基于对应位置相加,获得的场景行走行为信息便包含了整个目标场景的位置信息,从而考虑了目标场景中的各具体场景对目标对象行走行为的影响。
306,将场景行走行为信息作为第二子CNN的输入,利用第二子CNN分别获取上述至少一个目标对象在历史时间段M内的各类行走行为在未来时间段M’内对第一偏移量矩阵的影响信息,根据该信息确定第二偏移量矩阵,例如,综合上述至少一个目标对象在历史时间段M内的各类行走行为在未来时间段M’内对第一偏移量矩阵的影响信息,获得第二偏移量矩阵。
基于上述图3所示实施例的进一步实施例中,还可以包括预先对目标场景的空间结构信息进行建模,获得目标场景的位置信息图的操作。
在基于上述本发明各行走行为的预测方法实施例的进一步具体示例中,第一子CNN具体可以包括级联的多个CNN层,例如三个CNN层;第一子CNN中三个CNN层中的各CNN层可以分别包括多个卷积滤波器,例如64个卷积滤波器;每个卷积滤波器的大小可以是3*3;和/或,第二子CNN具体也可以包括多个CNN层,例如三个CNN层;第二子CNN中多个CNN层中的各CNN层也可以分别包括多个卷积滤波器,例如64个卷积滤波器;每个卷积滤波器的大小可以是3*3。
示例性地,第一子CNN中的底层CNN层,可以对上述至少一个目标对象的行走行为进行粗略的划分,例如,划分为向上走的和向下走的目标对象;次底层CNN层,可以对底层CNN层粗略划分的结果进行更进一步的划分,例如,划分为向左上、向正上、向右上的目标对象;上层CNN层,可以筛选出具有不同性质的行走行为,例如:迅速奔跑的行人、迅速拐弯的行人。第一子CNN中,越向顶层,CNN层筛选出来的行走行为就会越具体。
第二子CNN可以对第一子CNN层的分类结果进行进一步的整理、整合,即:将具有每类行走行为的目标对象对需要进行行走行为预测的目标对象的影响进行整合,第二子CNN中的各CNN层按照每一小类行走行为进行信息融合,越向顶层融合度越高。例如,第二子CNN中的底层CNN层,可能会把所有向左上走的目标对象的影响综合起来,次底层CNN层可能会把所有向左上、右上、正上走的目标对象的影响综合起来,上层CNN层可能会把目标场景中所有目标对象的的行走行为综合起来,得到第二子CNN的输出结果。
即,第一子CNN中的各层CNN层和第二子CNN中的各层CNN层,完成了将所有目标对象的行走行为的逐步细分类,之后再逐步整合起来。
CNN的网络结构约复杂,即层数越多、参数越多,训练起来就会困难,容易导致网络不收敛,且占用存储资源;而网络结构约简单,即层数越少、参数越少,计算、分析能力就会下降,无法保证处理性能。本发明人通过实验尝试发现,第一子CNN和第二子CNN三个CNN层时,可以同时保证网络模型训练效果和处理性能,实现二者之间的均衡。
一般来说,卷积滤波器的个数是2的整数次幂,例如32、64、128。滤波器个数越多,网络越复杂,处理能力越强,但是网络训练时对样本数量的要求也会比较多。本发明实施例中,各CNN层分别包括64个卷积滤波器,可以同时满足网络处理性能、网络结构的复杂性以及样本数量方面的要求。
另外,上述CNN还可以包括第一池化单元和第二池化单元。在基于图3所示行走行为的预测方法的又一个实施例中,通过操作302获得行走行为特征图之后,还可以利用第一池化单元(即:Max-Pooling层),对行走行为特征图进行最大值下采样,获得新行走行为特征图,该新行走行为特征图的空间大小小于行走行为特征图。
相应地,通过操作306获得第二偏移量矩阵之后,还可以利用第二池化单元,对第二偏移量矩阵进行卷积上采样,获得与第一偏移量矩阵的大小相同的第二偏移量矩阵。
示例性地,第一偏移量矩阵的大小、以及位置信息图与行走行为特征图的空间大小可以表示为X*Y;最大值下采样的一个示例性尺度例如是2,则新行走行为特征图的空间大小为X/2*Y/2;卷积上采样的尺度相应也是2,进行卷积上采样获得的第二偏移量矩阵的大小又恢复为X*Y。
通过对行走行为特征图进行最大值下采样,可以缩小行走行为特征图的大小,从而使得CNN可以处理更多的行走行为数据;在获得第二偏移量矩阵后进行卷积上采样,可以恢复为与原始空间大小相同的第二偏移量矩阵,从而使得本发明实施例最终获得的行走行为输出结果和输入行走行为的空间大小一致。
位置信息图与行走行为特征图的大小一致,可以实现将目标场景的位置信息图与行走行为特征图基于对应位置的相加。例如:行走行为特征图的最大值上采样结果是1 2 34 5 6,位置信息图是111111,则二者相加的结果为:1+1 2+1 3+1 4+1 5+1 6+1=2 3 4 56 7。
图4为本发明实施例中获取所有目标对象在未来时间段M’内的行走行为的一个实施例的流程图。如图4所示,在基于上述本发明各行走行为的预测方法实施例的又一个具体示例中,操作106具体可以通过如下方式实现:
402,对第二偏移量矩阵进行解码,获得用于表示上述至少一个目标对象在未来时间段M’内的行走行为的位移向量。
404,分别获取表示上述至少一个目标对象在未来时间段M’内的行走行为的位移向量对应的行走路径信息。
406,分别根据上述至少一个目标对象在未来时间段M’内的行走行为的位移向量对应的行走路径信息,获取上述至少一个目标对象在未来时间段M’内的行走行为。
图5为本发明行走行为的预测方法另一个实施例的流程图。本发明实施例以目标对象为行人、将目标场景中所有目标对象在历史时间段M内行走行为信息作为第一偏移量矩阵的输入、行走行为信息为行走路径信息为例,对本发明上述各实施例的具体实现进行进一步说明。如图5所示,该实施例包括:
502,分别获取目标场景中各目标对象在历史时间段M内的行走路径信息。
504,分别针对各目标对象在历史时间段M内的行走路径信息,以一个位移向量表示目标对象在历史时间段M内的行走路径信息。
506,综合各目标对象的位移向量,获得第一偏移量矩阵。
508,将第一偏移量矩阵输入第一子CNN,利用第一子CNN对所有目标对象在历史时间段M内的行走路径信息进行分类,获得行走行为特征图。
510,利用第一池化单元,对行走行为特征图进行最大值下采样,获得新行走行为特征图,该新行走行为特征图的空间大小小于行走行为特征图。
512,利用按位相加单元,将预先设置的目标场景的位置信息图与行走行为特征图基于对应位置相加,获得场景行走行为信息。
其中,位置信息图包括目标场景中可能对行人行走行为有影响的空间结构的位置信息。
514,将场景行走行为信息输入第二子CNN,利用第二子CNN,分别确定所有目标对象在历史时间段M内的各类行走行为在未来时间段M’内对第一偏移量矩阵的影响信息,综合所有目标对象在历史时间段M内的各类行走行为在未来时间段M’内对第一偏移量矩阵的影响信息,获得第二偏移量矩阵。
516,利用第二池化单元,对第二偏移量矩阵进行卷积上采样,获得与第一偏移量矩阵的大小相同的第二偏移量矩阵。
518,对第二偏移量矩阵进行解码,获得用于表示所有目标对象在未来时间段M’内的行走行为的位移向量。
520,分别获取表示所有目标对象在未来时间段M’内的行走行为的位移向量对应的行走路径信息。
522,分别根据所有目标对象在未来时间段M’内的行走行为的位移向量对应的行走路径信息,获取目标场景中的所有目标对象在未来时间段M’内的行走路径。
进一步地,在本发明行走行为的预测方法的又一个实施例中,还可以包括对初始CNN进行网络训练,获得上述CNN的操作。其中的初始CNN包括如下单元:初始第一子CNN、初始第二子CNN、初始第一池化单元和初始第二池化单元、初始按位相加单元。
在一个具体实例中,可以依次对初始第一子CNN、初始第二子CNN、初始第一池化单元和初始第二池化单元、初始按位相加单元进行迭代训练,在当前训练单元的训练结果满足预定收敛条件时对下一单元进行迭代训练。
其中,训练结果满足预定收敛条件,例如可以是:当前训练单元的输出结预设输出结果之间的偏差小于第一预设阈值;和/或,当前训练单元进行迭代训练的次数达到第二预设阈值。
图6为本发明实施例中进行CNN网络训练一个实施例的流程图。如图6所示,该实施例中,具体采用如下方式对初始CNN进行网络训练:
602,对初始CNN中的初始第一子CNN进行网络训练。
604,响应于初始第一子CNN的训练结果满足预先设置的收敛条件,由初始第一子CNN获得第一子CNN,保持第一子CNN的网络参数不变,开始对初始第二子CNN进行网络训练。
606,响应于初始第二子CNN的训练结果满足预先设置的收敛条件,由初始第二子CNN获得第二子CNN,保持第一子CNN和第二子CNN的网络参数不变,开始对初始第一池化单元和初始第二池化单元进行网络训练。
608,响应于初始第一池化单元和初始第二池化单元的训练结果满足预先设置的收敛条件,分别由初始第一池化单元和初始第二池化单元获得第一池化单元和第二池化单元,保持持第一子CNN、第二子CNN、第一池化单元和第二池化单元的网络参数不变,开始对初始按位相加单元进行网络训练。
由于第一池化单元会将行走行为特征图的大小减小,第二池化单元会将输入信息恢复为与原始空间大小相同的信息,同时对初始第一池化单元和初始第二池化单元进行训练,保证了本发明实施例最终获得的行走行为输出结果和输入行走行为的空间大小一致。
610,响应于初始按位相加单元的训练结果满足预先设置的收敛条件,初始按位相加单元获得按位相加单元,保持持第一子CNN、第二子CNN、第一池化单元、第二池化单元和按位相加单元的网络参数不变,完成对初始CNN的网络训练,获得CNN。
通过上述实施例,依次训练初始第一子CNN,初始第二子CNN,初始第一池化单元和初始第二池化单元,初始按位相加单元,在每一层收敛后保持已训练好的网络层的网络参数不变,再逐步增加对下一次序网络层的训练,在训练样本错误率已经不能继续下降时,说明已经收敛条件,需要进行下一步训练,才能使得错误率进一步下降,使得训练过程更加稳定,不会导致加入新的网络层后破坏之前训练好的网络结构。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图7为本发明行走行为的预测装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各行走行为的预测方法实施例。如图7所示,该实施例的行走行为的预测装置包括:行为编码单元,CNN和行为解码单元。其中:
行为编码单元,用于对目标场景中至少一个目标对象在一个历史时间段M内的行走行为信息进行编码,获得用于表示至少一个目标对象在历史时间段M内行走行为信息的第一偏移量信息。
其中,目标场景为需要进行行走行为预测的目标对象所在的场景,例如车站、工厂等。上述至少一目标对象包括需要进行行走行为预测的目标对象,需要进行行走行为预测的目标对象具体可以是一个,也可以是多个,即:本发明实施例可以实现同时对多个目标对象在未来时间段M’内的行走行为预测,一次完成对多个目标对象行走行为的预测任务。另外,上述至少一个目标对象可以包括目标场景中的部分目标对象或者所有目标对象。作为本发明各实施例的一个具体示例而非限制,本发明各实施例的目标对象具体是行人,另外也可以是其他一切需要进行行走行为预测的物体或动物。其中的行走行为信息或者行走行为预测信息例如可以包括但不限于以下任意一种或多种:行走路径信息、行走方向信息、行走速度信息。示例性地,行为编码单元具体可用于:分别获取目标场景中各目标对象在历史时间段M内的行走行为信息;分别针对各目标对象在历史时间段M内的行走行为信息,以一个位移向量表示目标对象在历史时间段M内的行走行为信息;以及根据各目标对象的位移向量,确定第一偏移量信息。
深度神经网络CNN,用于接收第一偏移量信息,输出用于表示至少一个目标对象在未来时间段M’内行走行为信息的第二偏移量信息。
行为解码单元,用于对第二偏移量信息进行解码,获取至少一个目标对象在未来时间段M’内的行走行为预测信息。其中的行走行为预测信息例如可以包括但不限于以下任意一种或多种:行走路径信息、行走方向信息、行走速度信息。
示例性地,行为解码单元具体可用于:对第二偏移量信息进行解码,获得用于表示至少一个目标对象在未来时间段M’内的行走行为的位移向量;分别获取表示至少一个目标对象在未来时间段M’内的行走行为的位移向量对应的行走行为信息;以及分别根据至少一个目标对象在未来时间段M’内的行走行为的位移向量对应的行走行为信息,获取至少一个目标对象在未来时间段M’内的行走行为预测信息。
基于本发明上述实施例提供的行走行为的预测装置,对目标场景中的至少一个目标对象在一个历史时间段M内的行走行为进行编码,获得用于表示该至少一个目标对象在历史时间段M内行走行为的第一偏移量信息并输入CNN,获得用于表示上述至少一个目标对象在未来时间段M’内行走行为的第二偏移量信息;对第二偏移量信息进行解码,获取上述至少一个目标对象在未来时间段M’内的行走行为。本发明实施例考虑了目标对象过去一段时间的行走行为对其未来一段时间的行走行为的影响,因为同一场景中的各目标对象之间的行走行为可能会产生相互影响,本发明实施例同时考虑了同一场景中其他可能的目标对象(例如:行人)的行走行为对某一个目标对象(例如:需要预测未来行为行走的当前行人)的行走行为的影响,使得可能影响某一目标对象未来行走行为的因素能够同时被考虑,使得对目标对象在未来一段时间内行走行为的预测更加准确、可靠;另,本发明实施例可以同时对场景内至少一个目标对象的行走行为进行分析,一次给出上述至少一个目标对象未来的行走轨迹预测结果,预测效率高。
本发明各行走行为的预测装置实施例中,偏移量信息,包括第一偏移量信息、第二偏移量信息,具体以矩阵形式表示,也称为偏移量矩阵。为方便起见,本发明以下各实施例行走行为的预测装置中,以第一偏移量信息具体为第一偏移量矩阵、第二偏移量信息具体为第二偏移量矩阵为例进行说明,本领域技术人员基于本发明实施例的记载可以理解,偏移量信息以其他形式表示时的具体实现。
图8为本发明行走行为的预测装置另一个实施例的结构示意图。如图8所示,与图7所示实施例相比,该实施例中的CNN包括:第一子CNN,按位相加单元和第二子CNN。其中:
第一子CNN,用于接收第一偏移量矩阵,对上述至少一个目标对象在历史时间段M内的行走行为信息进行分类,获得行走行为特征图。
示例性地,第一子CNN具体可以包括多个CNN层,例如三个CNN层;第一子CNN中多个CNN层中的各CNN层可以分别包括多个卷积滤波器,例如64个卷积滤波器,每个卷积滤波器的大小可以为3*3。
按位相加单元,用于将预先设置的目标场景的位置信息图与行走行为特征图基于对应位置相加,获得场景行走行为信息;位置信息图包括目标场景中空间结构的位置信息,此处的空间结构具体可以是对目标场景中目标对象的行走行为产生影响的空间结构,例如目标场景中的障碍物、出入口等;也可以是目标场景中的全部空间结构。
第二子CNN,用于接收场景行走行为信息,分别确定上述至少一个目标对象在历史时间段M内的各类行走行为在未来时间段M’内对第一偏移量矩阵的影响信息,并根据‘该影响信息确定第二偏移量矩阵。
示例性地,第二子CNN具体也可以包括多个CNN层,例如三个CNN层;第二子CNN中多个CNN层中的各CNN层可以分别包括多个卷积滤波器,例如64个卷积滤波器,每个卷积滤波器的大小可以为3*3。
进一步地,再参见图8,在本发明行走行为的预测装置的又一个实施例中,CNN还可以包括第一池化单元和第二池化单元。其中:
第一池化单元,用于对第一子CNN获得的行走行为特征图进行最大值下采样,获得新行走行为特征图,该新行走行为特征图的空间大小小于行走行为特征图。
第二池化单元,用于在第二子CNN获得第二偏移量矩阵之后,对第二偏移量矩阵进行卷积上采样,获得与第一偏移量矩阵的大小相同的第二偏移量矩阵。
例如,第一偏移量矩阵的大小、以及位置信息图与行走行为特征图的空间大小可以表示为X*Y;在一个具体示例中,最大值下采样的尺度是2,则新行走行为特征图的空间大小为X/2*Y/2;卷积上采样的尺度是2,进行卷积上采样获得的第二偏移量矩阵的大小又恢复为X*Y。
进一步地,在本发明上述各行走行为的预测装置的再一个实施例中,还可以包括网络训练单元,用于对初始CNN进行网络训练,获得CNN。其中的初始CNN包括如下单元:初始第一子CNN、初始第二子CNN、初始第一池化单元和初始第二池化单元、初始按位相加单元。在一个具体实例中,网络训练单元具体可用于依次对初始第一子CNN、初始第二子CNN、初始第一池化单元和初始第二池化单元、初始按位相加单元进行迭代训练,在当前训练单元的训练结果满足预定收敛条件时对下一单元进行迭代训练。
进一步示例性地,该网络训练单元具体可用于通过图6所示的方式对初始CNN进行网络训练。
本发明实施例还提供了一种数据处理装置,包括本发明上述任一实施例提供的行走行为的预测装置。
具体地,本发明实施例的数据处理装置可以是任意具有数据处理功能的装置,例如可以包括但不限于:进阶精简指令集机器(ARM)、中央处理单元(CPU)或图形处理单元(GPU)等。
基于本发明上述实施例提供的数据处理装置,包括本发明上述任一实施例提供的行走行为的预测装置,考虑了目标对象过去一段时间的行走行为对其未来一段时间的行走行为的影响,同时考虑了同一场景中其他可能的目标对象的行走行为对某一个目标对象的行走行为的影响,同时对场景中的至少一个目标对象进行预测,使得至少一个可能影响某一目标对象未来行走行为的因素能够同时被考虑使得对目标对象在未来一段时间内行走行为的预测更加准确、可靠;另,本发明实施例同时对场景内至少一个目标对象的行走行为进行分析,能够统一给出至少一个目标对象未来的行走轨迹预测结果,并不是基于单个目标对象进行预测的,预测效率高,能够一次完成对至少一个目标对象行走行为的预测任务。
另外,本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等,该电子设备设置有本发明上述任一实施例的数据处理装置。
基于本发明上述实施例提供的电子设备,包括本发明上述数据处理装置,从而包括本发明上述任一实施例提供的行走行为的预测装置,考虑了目标对象过去一段时间的行走行为对其未来一段时间的行走行为的影响,同时考虑了同一场景中其他可能的目标对象的行走行为对某一个目标对象的行走行为的影响,同时对场景中的至少一个目标对象进行预测,使得至少一个可能影响某一目标对象未来行走行为的因素能够同时被考虑使得对目标对象在未来一段时间内行走行为的预测更加准确、可靠;另,本发明实施例同时对场景内至少一个目标对象的行走行为进行分析,能够统一给出至少一个目标对象未来的行走轨迹预测结果,并不是基于单个目标对象进行预测的,预测效率高,能够一次完成对至少一个目标对象行走行为的预测任务。
图9为本发明电子设备一个应用实施例的结构示意图。如图9所示,用于实现本发明实施例的电子设备包括中央处理单元(CPU)或者图形处理单元(GPU),其可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。中央处理单元或者图形处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本发明实施例提供的行走行为的预测方法对应的操作,例如:对目标场景中至少一目标对象在一个历史时间段M内的行走行为信息进行编码,获得用于表示所述至少一目标对象在历史时间段M内行走行为信息的第一偏移量信息;将所述第一偏移量信息输入至深度神经网络CNN,由所述CNN输出用于表示所述至少一目标对象在未来时间段M’内行走行为信息的第二偏移量信息;对所述第二偏移量信息进行解码,获得所述至少一目标对象在未来时间段M’内的行走行为预测信息。
此外,在RAM中,还可存储有系统操作所需的各种程序和数据。CPU、GPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,所述程序代码可包括对应执行本发明实施例提供的任一项行走行为的预测方法步骤对应的指令,例如,对目标场景中至少一目标对象在一个历史时间段M内的行走行为信息进行编码,获得用于表示所述至少一目标对象在历史时间段M内行走行为信息的第一偏移量信息的指令;将所述第一偏移量信息输入至深度神经网络CNN,由所述CNN输出用于表示所述至少一目标对象在未来时间段M’内行走行为信息的第二偏移量信息的指令;对所述第二偏移量信息进行解码,获得所述至少一目标对象在未来时间段M’内的行走行为预测信息的指令。该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)或图形处理单元(GPU)执行时,执行本发明的方法中限定的上述功能。
本发明实施例还提供了一种计算机存储介质,用于存储计算机可读取的指令,所述指令包括:对目标场景中至少一目标对象在一个历史时间段M内的行走行为信息进行编码,获得用于表示所述至少一目标对象在历史时间段M内行走行为信息的第一偏移量信息的指令;将所述第一偏移量信息输入至深度神经网络CNN,由所述CNN输出用于表示所述至少一目标对象在未来时间段M’内行走行为信息的第二偏移量信息的指令;对所述第二偏移量信息进行解码,获得所述至少一目标对象在未来时间段M’内的行走行为预测信息的指令。
另外,本发明实施例还提供了一种计算机设备,包括:
存储器,存储可执行指令;
一个或多个处理器,与存储器通信以执行可执行指令从而完成本发明上述任一实施例的行走行为的预测方法对应的操作。
本发明实施例进行行走行为预测的技术方案,例如可以应用于如下场景:
1,可用于对视频监控下的场景中,所有行人的未来的行走行为进行预测;
2,可将本发明实施例的行走行为预测结果作为CNN的输入,预测更长时间内目标场景中所有行人的行走行为;
具体来说,可以迭代本发明各行走行为的预测方法实施例的流程,将输出的在未来时间段M’内的行走行为预测信息进一步编码,之后再输入到CNN,再对第二偏移量矩阵进行解码输出,就能得到更长时间之后的行人行走行为的预测结果。
3,可利用本发明实施例的行走行为预测结果,估计一段时间之后目标场景中所有行人的位置信息;
4,可以利用一段时间之后目标场景中所有行人的位置信息,可以利用该信息修正跟踪算法中出现的错误,帮助取得更好的跟踪结果;
具体来说,因为大部分跟踪算法在跟踪算法可信度不高时,是依据行人的外观信息进行匹配并找到未来的行人的。跟踪算法经常会把过去一段时间内a行人的行走轨迹与未来一段时间内b行人的轨迹错误的链接起来。借助于本发明实施例对行人行走路径的预测,可以综合考虑将行人的外观以及行走路径的预测结果,使得结果更加准确。当跟踪算法的结果可信度不高时,可以利用行人行走轨迹的预测信息辅助找回当前需要跟踪的行人。
5,可以利用本算法,对场景中发生的一些异常行为进行检测。
由于本发明实施例可以根据过去一段时间内目标场景中行人的行走路线,对这些行人未来的行走路线以及目的地进行预测。当发现这个行人真正的行走路线与预测结果不符合的时候,或者这个行人的目的地与预测的目的地很不一致的时候,说明这个行人的行走行为已经超出了预期,可以推行这个行人出现了异常的行为,例如,突然转弯,突然加速跑,或者突然停止等。
本发明实施例具有以下有益技术效果:
为了能将深度学习的框架应用到行人行为的建模中来,我们提出了行为编码概念,利用行为编码,可以将行人行走行为信息没有歧义的编码成深度神经网络的输入输出,这种编码方式能够很容易的扩展到其他的领域;
利用深度学习技术,使得行人行走行为预测的结果更加准确,能够更好地对各种影响因素进行综合分析;
另外,现有的很多方法只能进行单目标的行人行为预测,本发明实施例能够同时对目标场景内的至少一个行人、甚至全部行人的行走行为进行预测分析。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统、装置、设备实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法、系统、装置和设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法、系统、装置和设备。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (10)
1.一种行走行为的预测方法,其特征在于,包括:
对目标场景中至少一目标对象在一个历史时间段M内的行走行为信息进行编码,获得用于表示所述至少一目标对象在历史时间段M内行走行为信息的第一偏移量信息;
将所述第一偏移量信息输入至深度神经网络CNN,由所述CNN输出用于表示所述至少一目标对象在未来时间段M’内行走行为信息的第二偏移量信息;
对所述第二偏移量信息进行解码,获得所述至少一目标对象在未来时间段M’内的行走行为预测信息。
2.根据权利要求1所述的方法,其特征在于,所述偏移量信息具体为偏移量矩阵。
3.根据权利要求1或2所述的方法,其特征在于,所述目标场景为需要进行行走行为预测的目标对象所在的场景;
所述至少一个目标对象包括所述目标场景中的部分目标对象或者所有目标对象,所述至少一目标对象包括所述需要进行行走行为预测的目标对象。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述目标对象包括行人。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述行走行为信息或所述行走行为预测信息包括以下任意一种或多种:行走路径信息、行走方向信息、行走速度信息。
6.根据权利要求2至5任意一项所述的方法,其特征在于,所述对目标场景中至少一个目标对象在一个历史时间段M内的行走行为信息进行编码,获得第一偏移量矩阵包括:
分别获取所述目标场景中各目标对象在历史时间段M内的行走行为信息;
分别针对各目标对象在历史时间段M内的行走行为信息,以一个位移向量表示目标对象在历史时间段M内的行走行为信息;
根据各目标对象的位移向量确定所述第一偏移量矩阵。
7.根据权利要求2至6任意一项所述的方法,其特征在于,所述CNN包括第一子CNN、按位相加单元和第二子CNN;
所述将所述第一偏移量矩阵输入至CNN,由所述CNN输出第二偏移量矩阵包括:
将所述第一偏移量矩阵作为第一子CNN的输入,利用所述第一子CNN对所述至少一目标对象在历史时间段M内的行走行为信息进行分类,获得行走行为特征图;
利用按位相加单元,将预先设置的所述目标场景的位置信息图与所述行走行为特征图基于对应位置相加,获得场景行走行为信息;所述位置信息图包括所述目标场景中空间结构的位置信息;
将所述场景行走行为信息作为所述第二子CNN的输入,利用所述第二子CNN分别确定所述至少一目标对象在历史时间段M内的各类行走行为在未来时间段M’内对所述第一偏移量矩阵的影响信息,并根据所述影响信息确定所述第二偏移量矩阵。
8.一种行走行为的预测装置,其特征在于,包括:
行为编码单元,用于对目标场景中至少一个目标对象在一个历史时间段M内的行走行为信息进行编码,获得用于表示所述至少一个目标对象在历史时间段M内行走行为信息的第一偏移量信息;
深度神经网络CNN,用于接收所述第一偏移量信息,输出用于表示所述至少一个目标对象在未来时间段M’内行走行为信息的第二偏移量信息;
行为解码单元,用于对所述第二偏移量信息进行解码,获得所述至少一个目标对象在未来时间段M’内的行走行为预测信息。
9.一种数据处理装置,其特征在于,包括权利要求8所述的行走行为的预测装置。
10.一种电子设备,其特征在于,设置有权利要求9所述的数据处理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610868343.9A CN106504266B (zh) | 2016-09-29 | 2016-09-29 | 行走行为的预测方法和装置、数据处理装置和电子设备 |
PCT/CN2017/102706 WO2018059300A1 (zh) | 2016-09-29 | 2017-09-21 | 行走行为的预测方法和装置、数据处理装置和电子设备 |
US16/174,852 US10817714B2 (en) | 2016-09-29 | 2018-10-30 | Method and apparatus for predicting walking behaviors, data processing apparatus, and electronic device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610868343.9A CN106504266B (zh) | 2016-09-29 | 2016-09-29 | 行走行为的预测方法和装置、数据处理装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106504266A true CN106504266A (zh) | 2017-03-15 |
CN106504266B CN106504266B (zh) | 2019-06-14 |
Family
ID=58290085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610868343.9A Active CN106504266B (zh) | 2016-09-29 | 2016-09-29 | 行走行为的预测方法和装置、数据处理装置和电子设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10817714B2 (zh) |
CN (1) | CN106504266B (zh) |
WO (1) | WO2018059300A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018059300A1 (zh) * | 2016-09-29 | 2018-04-05 | 北京市商汤科技开发有限公司 | 行走行为的预测方法和装置、数据处理装置和电子设备 |
CN108960160A (zh) * | 2018-07-10 | 2018-12-07 | 深圳地平线机器人科技有限公司 | 基于非结构化预测模型来预测结构化状态量的方法和装置 |
CN109815969A (zh) * | 2019-03-05 | 2019-05-28 | 上海骏聿数码科技有限公司 | 一种基于人工智能图像识别的特征提取方法及装置 |
CN109878512A (zh) * | 2019-01-15 | 2019-06-14 | 北京百度网讯科技有限公司 | 自动驾驶控制方法、装置、设备及计算机可读存储介质 |
CN109948528A (zh) * | 2019-03-18 | 2019-06-28 | 南京砺剑光电技术研究院有限公司 | 一种基于视频分类的机器人行为识别方法 |
CN110751325A (zh) * | 2019-10-16 | 2020-02-04 | 中国民用航空总局第二研究所 | 一种建议生成方法、交通枢纽部署方法、装置及存储介质 |
CN111524318A (zh) * | 2020-04-26 | 2020-08-11 | 中控华运(厦门)集成电路有限公司 | 一种基于行为识别的健康状况智能监控方法和系统 |
CN112785075A (zh) * | 2021-01-31 | 2021-05-11 | 江苏商贸职业学院 | 一种基于rfid定位的行人行为预测方法及系统 |
CN115394024A (zh) * | 2022-08-10 | 2022-11-25 | 武汉烽理光电技术有限公司 | 一种基于光栅阵列的步行监测和预测方法及装置 |
CN115512479A (zh) * | 2022-09-09 | 2022-12-23 | 北海市冠标智慧声谷科技有限责任公司 | 管理接待信息的方法以及后端设备 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4095637A1 (en) * | 2016-12-12 | 2022-11-30 | Alarm.com Incorporated | Drone pre-surveillance |
EP3495220B1 (en) * | 2017-12-11 | 2024-04-03 | Volvo Car Corporation | Path prediction for a vehicle |
US10593321B2 (en) * | 2017-12-15 | 2020-03-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for multi-lingual end-to-end speech recognition |
US10937310B2 (en) * | 2017-12-29 | 2021-03-02 | Intel IP Corporation | Control device and method for controlling a vehicle |
CN111127510B (zh) * | 2018-11-01 | 2023-10-27 | 杭州海康威视数字技术股份有限公司 | 一种目标对象位置的预测方法及装置 |
US11636681B2 (en) * | 2018-11-21 | 2023-04-25 | Meta Platforms, Inc. | Anticipating future video based on present video |
CN111027487B (zh) * | 2019-12-11 | 2023-04-28 | 山东大学 | 基于多卷积核残差网络的行为识别系统、方法、介质及设备 |
US11878684B2 (en) * | 2020-03-18 | 2024-01-23 | Toyota Research Institute, Inc. | System and method for trajectory prediction using a predicted endpoint conditioned network |
CN111639624B (zh) * | 2020-06-10 | 2023-09-29 | 深圳市时海科技有限公司 | 一种基于人工智能的课堂教学及时强化能力评估方法及系统 |
CN113128772B (zh) * | 2021-04-24 | 2023-01-17 | 中新国际联合研究院 | 一种基于序列到序列模型的人群数量预测方法以及装置 |
CN113052401A (zh) * | 2021-04-26 | 2021-06-29 | 青岛大学 | 盲人行走轨迹预测方法、电子设备及存储介质 |
CN113362367B (zh) * | 2021-07-26 | 2021-12-14 | 北京邮电大学 | 一种基于多精度交互的人群轨迹预测方法 |
CN113869170B (zh) * | 2021-09-22 | 2024-04-23 | 武汉大学 | 一种基于图划分卷积神经网络的行人轨迹预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104850846A (zh) * | 2015-06-02 | 2015-08-19 | 深圳大学 | 一种基于深度神经网络的人体行为识别方法及识别系统 |
CN105069413A (zh) * | 2015-07-27 | 2015-11-18 | 电子科技大学 | 一种基于深度卷积神经网络的人体姿势识别方法 |
CN105488794A (zh) * | 2015-11-26 | 2016-04-13 | 中山大学 | 一种基于空间定位和聚类的动作预测方法及系统 |
CN105740773A (zh) * | 2016-01-25 | 2016-07-06 | 重庆理工大学 | 基于深度学习和多尺度信息的行为识别方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7330566B2 (en) * | 2003-05-15 | 2008-02-12 | Microsoft Corporation | Video-based gait recognition |
US7212651B2 (en) * | 2003-06-17 | 2007-05-01 | Mitsubishi Electric Research Laboratories, Inc. | Detecting pedestrians using patterns of motion and appearance in videos |
EP1671216B1 (en) * | 2003-10-09 | 2016-12-07 | Honda Motor Co., Ltd. | Moving object detection using low illumination depth capable computer vision |
JP4623135B2 (ja) * | 2008-05-08 | 2011-02-02 | 株式会社デンソー | 画像認識装置 |
JP6242563B2 (ja) * | 2011-09-09 | 2017-12-06 | 株式会社メガチップス | 物体検出装置 |
JP5786947B2 (ja) * | 2011-09-20 | 2015-09-30 | トヨタ自動車株式会社 | 歩行者行動予測装置および歩行者行動予測方法 |
JP5964108B2 (ja) * | 2012-03-30 | 2016-08-03 | 株式会社メガチップス | 物体検出装置 |
JP6184877B2 (ja) * | 2014-01-09 | 2017-08-23 | クラリオン株式会社 | 車両用外界認識装置 |
CN104915628B (zh) * | 2014-03-14 | 2018-09-25 | 株式会社理光 | 基于车载相机的场景建模进行运动行人预测的方法和装置 |
JP6454554B2 (ja) * | 2015-01-20 | 2019-01-16 | クラリオン株式会社 | 車両用外界認識装置およびそれを用いた車両挙動制御装置 |
CN105976400B (zh) * | 2016-05-10 | 2017-06-30 | 北京旷视科技有限公司 | 基于神经网络模型的目标跟踪方法及装置 |
CN106504266B (zh) * | 2016-09-29 | 2019-06-14 | 北京市商汤科技开发有限公司 | 行走行为的预测方法和装置、数据处理装置和电子设备 |
-
2016
- 2016-09-29 CN CN201610868343.9A patent/CN106504266B/zh active Active
-
2017
- 2017-09-21 WO PCT/CN2017/102706 patent/WO2018059300A1/zh active Application Filing
-
2018
- 2018-10-30 US US16/174,852 patent/US10817714B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104850846A (zh) * | 2015-06-02 | 2015-08-19 | 深圳大学 | 一种基于深度神经网络的人体行为识别方法及识别系统 |
CN105069413A (zh) * | 2015-07-27 | 2015-11-18 | 电子科技大学 | 一种基于深度卷积神经网络的人体姿势识别方法 |
CN105488794A (zh) * | 2015-11-26 | 2016-04-13 | 中山大学 | 一种基于空间定位和聚类的动作预测方法及系统 |
CN105740773A (zh) * | 2016-01-25 | 2016-07-06 | 重庆理工大学 | 基于深度学习和多尺度信息的行为识别方法 |
Non-Patent Citations (2)
Title |
---|
NITISH SRIVASTAVA 等: "Unsupervised Learning of Video Representations using LSTMs", 《PROCESSINGS OF THE 32ND INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 * |
管皓 等: "深度学习在视频目标跟踪中的应用进展与展望", 《自动化学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018059300A1 (zh) * | 2016-09-29 | 2018-04-05 | 北京市商汤科技开发有限公司 | 行走行为的预测方法和装置、数据处理装置和电子设备 |
US10817714B2 (en) | 2016-09-29 | 2020-10-27 | Beijing Sensetime Technology Development Co., Ltd | Method and apparatus for predicting walking behaviors, data processing apparatus, and electronic device |
CN108960160A (zh) * | 2018-07-10 | 2018-12-07 | 深圳地平线机器人科技有限公司 | 基于非结构化预测模型来预测结构化状态量的方法和装置 |
CN109878512A (zh) * | 2019-01-15 | 2019-06-14 | 北京百度网讯科技有限公司 | 自动驾驶控制方法、装置、设备及计算机可读存储介质 |
CN109815969A (zh) * | 2019-03-05 | 2019-05-28 | 上海骏聿数码科技有限公司 | 一种基于人工智能图像识别的特征提取方法及装置 |
CN109948528B (zh) * | 2019-03-18 | 2023-04-07 | 南京砺剑光电技术研究院有限公司 | 一种基于视频分类的机器人行为识别方法 |
CN109948528A (zh) * | 2019-03-18 | 2019-06-28 | 南京砺剑光电技术研究院有限公司 | 一种基于视频分类的机器人行为识别方法 |
CN110751325A (zh) * | 2019-10-16 | 2020-02-04 | 中国民用航空总局第二研究所 | 一种建议生成方法、交通枢纽部署方法、装置及存储介质 |
CN111524318A (zh) * | 2020-04-26 | 2020-08-11 | 中控华运(厦门)集成电路有限公司 | 一种基于行为识别的健康状况智能监控方法和系统 |
CN112785075B (zh) * | 2021-01-31 | 2022-11-25 | 江苏商贸职业学院 | 一种基于rfid定位的行人行为预测方法及系统 |
CN112785075A (zh) * | 2021-01-31 | 2021-05-11 | 江苏商贸职业学院 | 一种基于rfid定位的行人行为预测方法及系统 |
CN115394024A (zh) * | 2022-08-10 | 2022-11-25 | 武汉烽理光电技术有限公司 | 一种基于光栅阵列的步行监测和预测方法及装置 |
CN115394024B (zh) * | 2022-08-10 | 2024-02-23 | 武汉烽理光电技术有限公司 | 一种基于光栅阵列的步行监测和预测方法及装置 |
CN115512479A (zh) * | 2022-09-09 | 2022-12-23 | 北海市冠标智慧声谷科技有限责任公司 | 管理接待信息的方法以及后端设备 |
CN115512479B (zh) * | 2022-09-09 | 2024-04-09 | 北海市冠标智慧声谷科技有限责任公司 | 管理接待信息的方法以及后端设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2018059300A1 (zh) | 2018-04-05 |
CN106504266B (zh) | 2019-06-14 |
US10817714B2 (en) | 2020-10-27 |
US20190073524A1 (en) | 2019-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106504266A (zh) | 行走行为的预测方法和装置、数据处理装置和电子设备 | |
Yang et al. | Hierarchical deep reinforcement learning for continuous action control | |
Kuutti et al. | A survey of deep learning applications to autonomous vehicle control | |
US11699295B1 (en) | Machine learning for computing enabled systems and/or devices | |
CN110587606B (zh) | 一种面向开放场景的多机器人自主协同搜救方法 | |
US10102449B1 (en) | Devices, systems, and methods for use in automation | |
US11514363B2 (en) | Using a recursive reinforcement model to determine an agent action | |
Habib | Hands-on Q-learning with python: Practical Q-learning with openai gym, Keras, and tensorflow | |
Sheh et al. | Behavioural cloning for driving robots over rough terrain | |
Hu et al. | Sim2real and digital twins in autonomous driving: A survey | |
Saito et al. | Python reinforcement learning projects: eight hands-on projects exploring reinforcement learning algorithms using TensorFlow | |
Alfarisi et al. | Automated Artificial Intelligence Algorithm Adoption AAIAA | |
Feng et al. | Mobile robot obstacle avoidance based on deep reinforcement learning | |
Ghimire et al. | Lane Change Decision-Making through Deep Reinforcement Learning | |
Tanner | Multi-agent car parking using reinforcement learning | |
Guo et al. | A deep reinforcement learning approach for autonomous car racing | |
Penkov et al. | Explaining transition systems through program induction | |
Zhang et al. | Learning Neural Traffic Rules | |
Muñoz Ferran | A new Deep Reinforcement Learning architecture for autonomous UAVs | |
García Villegas | Driving trainer with ML-Agents | |
Stefano De Blasi | Machine Learning for Industrial Process Optimization | |
De Blasi | Machine Learning for Industrial Process Optimization | |
Patel et al. | DREAM: Decentralized Reinforcement Learning for Exploration and Efficient Energy Management in Multi-Robot Systems | |
Chakraborty et al. | On a Reference Architecture to Build Deep‐Q Learning‐Based Intelligent IoT Edge Solutions | |
Azayev | Hluboké učení pro autonomní řízení fliperů robotu v simulaci |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |