CN110210417A

CN110210417A - 一种行人运动轨迹的预测方法、终端及可读存储介质

Info

Publication number: CN110210417A
Application number: CN201910485011.6A
Authority: CN
Inventors: 华敏杰; 南一冰; 廉士国
Original assignee: Cloudminds Shenzhen Robotics Systems Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-09-06
Anticipated expiration: 2039-06-05
Also published as: CN110210417B

Abstract

本发明实施例涉及计算机视觉领域，公开了一种行人运动轨迹的预测方法、终端及可读存储介质。本发明中行人运动轨迹的预测方法，应用于终端，包括：获取包括N张第一图像的图像数据，N为大于1的整数；根据图像数据，确定图像数据中行人的运动数据，行人的运动数据用于表征行人在所述图像数据中的姿态和位置；根据行人的运动数据以及预设的运动轨迹预测模型，预测行人在预设时间段内的运动轨迹，运动轨迹预测模型根据样本训练库中各行人的运动数据，以及与各行人在预设时间段内的运动轨迹训练获得。本实施方式，能够准确地预测行人的运动轨迹。

Description

一种行人运动轨迹的预测方法、终端及可读存储介质

技术领域

本发明实施例涉及计算机视觉领域，特别涉及一种行人运动轨迹的预测方法、终端及可读存储介质。

背景技术

随着科技的不断进步，出现了各种无人驾驶汽车，智能机器人、智能轮椅等智能终端。在智能终端移动过程中，通过预测前方行人的运动轨迹，进而进行避障操作。可见，对行人运动轨迹的准确预设是智能终端自主避障的核心问题。

发明人发现相关技术中至少存在如下问题：目前对行人的运动轨迹的预测方式如社会力模型(Social Force,简称“SF”)、社会长短期记忆网络(Social LSTM)、社会生成式对抗网络(Social GAN)等，通常通过行人的位置，预测该行人未来一段时间的运动轨迹，但是预测的运动轨迹不准确。

发明内容

本发明实施方式的目的在于提供一种行人运动轨迹的预测方法、终端及可读存储介质，能够准确地预测行人的运动轨迹。

为解决上述技术问题，本发明的实施方式提供了一种行人运动轨迹的预测方法，应用于终端，包括：获取包括N张第一图像的图像数据，N为大于1的整数；根据图像数据，确定图像数据中行人的运动数据，行人的运动数据用于表征行人在所述图像数据中的姿态和位置；根据行人的运动数据以及预设的运动轨迹预测模型，预测行人在预设时间段内的运动轨迹，运动轨迹预测模型根据样本训练库中各行人的运动数据，以及与各行人在预设时间段内的运动轨迹训练获得。

本发明的实施方式还提供了一种终端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的行人运动轨迹的预测方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述的行人运动轨迹的预测方法。

本发明实施方式相对于现有技术而言，由于行人在运动过程中，行人的姿态可以反映出当前行人的运动趋势，如：行人的迈步动作或者眼神等；在行人的运动数据中不仅包括了行人在图像数据中位置，还包括了该行人在图像数据中的姿态，从而丰富了该行人的运动数据；使得可以通过该行人的运动数据准确预测行人在预设时间段内的运动轨迹；同时，预设的运动轨迹预测模型是根据样本训练库中各行人的运动数据，以及与各行人在预设时间段内的运动轨迹训练获得，由于该运动轨迹预测模型是通过大量数据训练获得，也进一步提高了该预测行人在预测时间段内的运动轨迹的准确性。

另外，获取包括N张第一图像的图像数据，具体包括：在采集时间段内按照第一视角采集视频图像的集合，第一视角为终端从运动正方向上采集图像的角度；从视频图像的集合中选取N张第一图像，将选取的N张第一图像组成图像数据。通过终端自身采集第一图像，且第一视角为终端从运动正方向(即终端前进的方向)上采集图像的角度，可以保证终端在前进过程中，采集的视频图像中的行人均位于该终端的前进的方向上，从而确保了获取的第一图像的准确性，且由于无需在终端的运动区域内设置多个用于采集第一图像的摄像头，从而减小了布设摄像头的难度，提高了行人运动轨迹的预测方法的适用范围。

另外，根据图像数据，确定图像数据中行人的运动数据，具体包括：根据每个第一图像，确定每个第一图像中行人的运动特征数据，运动特征数据包括第一图像中行人的姿态特征数据和位置特征数据；将确定的行人的N个运动特征数据，组成行人的运动数据。通过获取每个第一图像中行人的运动特征数据，将N个运动特征数据组成行人的运动数据，丰富了运动数据，从而确保后续预测行人的运动轨迹的准确性。

另外，根据每个第一图像，确定每个第一图像中行人的运动特征数据，具体包括：针对每个第一图像进行以下处理：从第一图像中提取行人的各肢体关键点坐标；根据各肢体关键点坐标，确定第一图像中行人的姿态特征数据；获取第一图像中行人的边界框位置信息，并将行人的边界框位置信息作为行人的位置特征数据；将姿态特征数据和位置特征数据进行融合，组成第一图像中行人的运动特征数据。人的肢体动作是通过各关节实现的，因而通过提取行人各肢体关节点的坐标，可以准确反映出该行人的姿态；由于人的图像不是简单的点坐标，而是具有一定面积的区域，边界框用于表示该行人的图像区域，因而将该边界框信息作为该行人的位置特征数据，更加符合实际，使得该行人的位置特征数据更加准确。

另外，根据各肢体关键点坐标，确定第一图像中行人的姿态特征数据，具体包括：将各肢体关键点坐标按照预设规则构建行人的关键点特征向量；对行人的关键点特征向量进行归一化处理，将归一化处理后的行人的关键点特征向量作为行人的姿态特征数据。通过构建关键点向量，可以反映出各个肢体关键点之间的相对位置关系，更加准确地反映出行人的姿态；同时，进行归一化处理，可以消除图像中用于表征行人与终端距离的图像信息对行人的姿态特征数据的影响。

另外，边界框位置信息包括边界框的尺寸信息以及边界框的至少两个互为对角的顶点的坐标信息；获取第一图像中行人的边界框位置信息，并将边界框位置信息作为行人的位置特征数据，具体包括：根据两个互为对角的顶点的坐标信息，确定边界框的中心位置的坐标信息；根据边界框的中心位置的坐标信息以及边界框的尺寸信息，构建边界框的位置特征向量；将边界框的位置特征向量作为行人的位置特征数据。边界框的尺寸信息可以用于表征行人与终端之间的距离，根据边界框的中心位置的坐标信息以及边界框的尺寸信息，将构建的边界框的位置特征向量作为行人的位置特征数据，可以准确地反映行人的位置信息。

另外，将确定的行人的N个运动特征数据，组成行人的运动数据，具体包括：排列行人的N个运动特征数据，形成行人的运动特征数据序列；将行人的运动特征数据序列作为行人的运动数据。由于行人动作具有连续性，构建运动特征数据序列可以准确反映行人的连续的姿态动作。

另外，行人在预设时间段内的运动轨迹包括：行人在预设时间段内预设个数的运动特征数据。预设个数的运动特征数据，可以简化确定运动轨迹的速度。

另外，在预测行人在预设时间段内的运动轨迹之后，行人运动轨迹的预测方法还包括：根据行人在预设时间段内的运动轨迹，对图像数据中的行人进行碰撞检测，碰撞检测用于预测在预设时间段内行人的运动轨迹是否会与终端的运动轨迹发生重合；根据碰撞检测结果，执行对应的指令。根据预测的行人的运动轨迹，对图像数据中的行人进行碰撞检测，从而控制终端执行对应的指令，如减速、绕行指令，避免终端在运动过程中与前方的行人发生碰撞。

另外，根据预测的碰撞检测结果，执行对应的指令，具体包括：若确定碰撞检测结果为发生重合，则执行碰撞应急操作指令；若确定碰撞检测结果为未发生重合，则获取预测的图像数据中未进行碰撞检测的未检测行人在预设时间段内的运动轨迹，并根据预测的未检测行人在预设时间段内的运动轨迹进行碰撞检测，其中，在检测到图像数据中不存在未检测行人，则终止碰撞检测。当碰撞检测结果为重合时，表明该行人在预设时间段内存在与终端碰撞的概率，终端执行碰撞应急操作指令，可以避免碰撞行人；在未重合时，表明该行人在预设时间段内不存在与终端碰撞的概率，则对图像数据中的其他未检测行人进行碰撞检测，避免终端在运动过程中发生碰撞其他行人的情况。

另外，根据行人在预设时间段内的运动轨迹，对图像数据中的行人进行碰撞检测，具体包括：判断行人的运动轨迹中是否存在满足碰撞条件的位置特征数据，其中，碰撞条件包括边界框的中心位置处于第一图像的中间位置且边界框的面积大于预设阈值；若确定存在满足碰撞条件的边界框位置信息，则确定碰撞检测结果为发生重合；否则，确定碰撞结果为未发生重合。预测的行人的位置特征数据中包含了与终端之间的距离信息，通过对预测的边界框的判断，可以快速且准确地预测出行人的运动轨迹是否与终端的运动轨迹发生重合。

另外，根据行人在预设时间段内的运动轨迹，对图像数据中的行人进行碰撞检测，具体包括：分别将预设时间段内行人的各位置特征数据输入预设的碰撞检测模型，获得行人在各预测的图像中与终端之间的距离，碰撞检测模型根据各行人的位置特征数据，以及各行人与终端之间的距离训练获得；判断在获得的各距离中是否存在超过预设距离阈值的距离，若确定存在，则确定碰撞检测为发生重合，否则，确定碰撞检测为未发生重合。通过确定行人在预测的各图像中与终端之间的距离，通过将各距离与预设距离阈值进行比较后，可以准确确定出碰撞检测结果。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式提供的一种行人运动轨迹的预测方法的具体流程示意图；

图2是根据本发明第一实施方式提供的一种行人运动轨迹的预测方法中运动正方向的示意图；

图3是根据本发明第一实施方式提供中针对每个第一图像处理的具体流程示意图；

图4是根据本发明第一实施方式中一种边界框的示意图；

图5是根据本发明第二实施方式提供的一种行人运动轨迹的预测方法的具体流程示意图；

图6是根据本发明第三实施方式提供的一种终端的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种行人运动轨迹的预测方法。应用于终端，该终端为可运动的智能终端，如：机器人、智能轮椅、无人驾驶汽车等。该行人运动轨迹的预测方法的具体流程如图1所示。

步骤101：获取包括N张第一图像的图像数据，N为大于1的整数。

具体的说，第一图像可以为拍摄该终端当前所处环境的图像，图像数据可以是拍摄获得的连续的N张第一图像的集合，图像数据也可以是拍摄获取的非连续的N张第一图像的集合。终端可以从云端获取图像数据，云端的图像数据可以由设置在终端的运动区域内的摄像头采集后上传，其中，终端的运动区域可以是固定场景下，终端可移动的区域，例如，整个银行大厅作为该终端的运动区域。

在另一个具体的实现中，终端上设置有图像采集装置，在采集时间段内按照第一视角采集视频图像的集合，第一视角为终端从运动正方向上采集图像的角度；从视频图像的集合中选取N张第一图像，将选取的N张第一图像组成图像数据。

具体的说，采集时间段可以根据实际情况进行设置，例如，采集时间段T_obs可以设置为1秒。运动正方向为终端在运动时前进的方向，例如，如图2所示，智能机器人A按照箭头所指方向前进，图2中箭头所指方向即为运动正方向。视频图像的集合中包括M张第一图像，M≥N，N为大于1的整数，其中N可以预先设定，设定的方式有多种，例如，可以按照时间间隔Δt从视频图像的集合中选取第一图像，若Δt＝0.2S，T_obs＝1S，则确定N为5；若视频帧率为25fps，若时间间隔Δt＝0.2S，T_obs＝1S，则可以从视频图像的集合中每隔5帧抽取1帧图像作为第一图像。

上述选取N张第一图像的方式仅为举例，实际应用中可以采用其他的方式选取N张第一图像。

步骤102：根据图像数据，确定图像数据中行人的运动数据，行人的运动数据用于表征行人在图像数据中的姿态和位置。

具体的说，根据每个第一图像，确定每个第一图像中行人的运动特征数据，运动特征数据包括第一图像中行人的姿态特征数据和位置特征数据；将确定的行人的N个运动特征数据，组成行人的运动数据。由于图像数据中每个第一图像的采集时间相距时间短，因而同一个行人在不同的第一图像中的姿态和位置不同。根据N张第一图像，即可得到该行人的N个运动特征数据。

一个具体的实现中，针对每个第一图像进行如图3所示的处理，具体子流程包括：

子步骤1021：从第一图像中提取行人的各肢体关键点坐标。

具体的说，人体的姿态与人体的关节点有关联性，可以通过提取第一图像中的行人的各个关节点作为该行人各肢体关键点。人体全身有17个关节点，具体包括：2个眼睛、2个耳朵、1个鼻子、左肩、右肩、2个手肘、2个手腕、左胯、右胯、2个膝盖以及2个脚踝。可以将人体的17个关节点作为行人的各肢体关键点，还可以从17个关节点中选取预设个数的关节点作为该行人的肢体关键点。本实施方式中，选取17个关节点作为行人对应的肢体关键点。

从第一图像中提取行人的各肢体关键点，并获取每个肢体关键点的坐标，由于第一图像为二维图像，则每个肢体关键点的坐标可以用2个数值表示，如在直角坐标系中，用x表示肢体关键点在横轴上的坐标和用y表示肢体关键点在纵轴上坐标。可以理解的是，由于拍摄角度的问题，存在从第一图像中不能提取行人全部的肢体关键点的情况，此时，对不能提取的肢体关键点坐标均置0。

子步骤1022：根据各肢体关键点坐标，确定第一图像中行人的姿态特征数据。

一个具体的实现中，将各肢体关键点坐标按照预设规则，构建行人的关键点特征向量；对行人的关键点特征向量进行归一化处理，将归一化处理后的行人的关键点特征向量作为行人的姿态特征数据。

具体的说，行人有17个肢体关键点，为了便于后续的应用，可以根据17个肢体关键点坐标构建34维的肢体关键点向量，以第j张第一图像为例，该第一图像中第i个行人的肢体关键点向量表示如下：

其中，中下标数为肢体关键点的编号。

本实施方式中，为了更好地反映各个肢体关键点向量之间的相对位置关系，可以通过相邻肢体关键点连线的方式构建反映行人动作姿态的关键点特征向量。相邻肢体关键点定义为：中心点->鼻子，鼻子->左眼/右眼，左眼/右眼->左耳朵/右耳朵；中心点->左肩/右肩，左肩/右肩->左手肘/右手肘，左手肘/右手肘->左手腕/右手腕；中心点->左胯/右胯，左胯/右胯->左膝盖/右膝盖，左膝盖/右膝盖->左脚踝/右脚踝(“b->a”是指a的相邻肢体关键点是b)，其中，中心点可以通过左肩的坐标和右肩的坐标计算获得。连接相邻肢体关键点之后，每个肢体关键点向量的表示方式从原来的坐标值变为从相邻的肢体关键点指向该肢体关键点的向量值，例如，肢体关键点a的坐标为(x_a,y_a)，其相邻肢体关键点b的坐标为(x_b,y_b)，则肢体关键点a的特征向量表示为(x_a-x_b,y_a-y_b)。

为了构建的关键点特征向量不受拍摄距离的影响，对行人的关键点特征向量进行归一化处理，归一化处理的过程为：分别将每组关键点特征向量归一化至单位长度，例如，构建的关键点特征向量表示为：每组关键点特征向量为则归一化公式为：

归一化处理后的行人的关键点特征向量表示为：

将归一化处理后的行人的关键点特征向量作为该行人的姿态特征数据。

子步骤1023：获取第一图像中行人的边界框位置信息，并将行人的边界框位置信息作为行人的位置特征数据。

具体的说，在第一图像中行人并不是单一的点，为了更好对行人进行识别，引入边界框(bounding box)概念，边界框是用体积稍大且特性简单的几何体来近似地代替复杂的几何对象，通常边界框为简单的矩形，如图4所示，边界框为20，j表示第j张第一图像。通过图像识别技术，确定出第一图像中行人的边界框位置信息，边界框位置信息包括边界框的尺寸信息以及边界框的至少两个互为对角的顶点的坐标信息。边界框的尺寸信息为该边界框的长宽信息，

一个具体实现中，获取第一图像中该行人的边界框信息的过程为：根据两个互为对角的顶点的坐标信息，确定边界框的中心位置的坐标信息；根据边界框的中心位置的坐标信息以及边界框的尺寸信息，构建边界框的位置特征向量；将边界框的位置特征向量作为行人的位置特征数据。

具体的说，本实施方式中以选取边界框的左上角的坐标信息和边界框的右下角信息为例，详解介绍获取该行人的边界框信息的过程。同该行人的肢体关键点向量类似，边界框的顶点坐标用2个数值表示。根据两个顶点的坐标，构建该行人的边界框位置的4维向量，如：在第j张第一图像中第i个行人的边界框的位置向量表示为：

其中，下标“lt”表示该行人的边界框的左上角，“rb”表示该边界框的右下角。

由于边界框的大小会对边界框的顶点坐标产生影响，不利于确定行人的位置，本实施方式中利用相对比较鲁棒的“中心点”坐标来表征行人的位置。根据边界框的左上角的坐标信息和边界框的右下角的坐标信息可以确定出该边界框的尺寸信息，如，在第j张第一图像中第i个行人的边界框的位置向量为：则边界框的中心位置的坐标表示为：同理，也可计算出该边界框的长宽信息，那么该边界框的位置特征向量表示为：

将该边界框的位置特征向量作为该行人的位置特征数据。

子步骤1024：将姿态特征数据和位置特征数据进行融合，组成第一图像中行人的运动特征数据。

具体的说，由于该行人的姿态特征数据和位置特征数据均为向量，直接将位置特征数据加入行人的姿态特征数据中即可完成融合，例如，以表示第j张第一图像中第i个行人的运动特征数据，则其中，如公式(2)所示，如公式(4)所示；其中，为38维向量。

需要说明的是，对每个第一图像处理之后，得到该行人的N个运动特征数据，排列行人的N个运动特征数据，形成该行人的运动特征数据序列；将行人的运动特征数据序列作为行人的运动数据。

具体的说，由于相邻的第一图像之间具有关联性，按照第一图像排列顺序，排列对应的N个运动特征数据，形成该行人的运动特征数据序列。例如，图像数据中5张第一图像是按照时间顺序排列，则排列5个运动特征数据，得到向量序列将该向量序列作为该行人的运动数据。

步骤103：根据行人的运动数据以及预设的运动轨迹预测模型，预测行人在预设时间段内的运动轨迹，运动轨迹预测模型根据样本训练库中各行人的运动数据，以及与各行人在预设时间段内的运动轨迹训练获得。

具体的说，训练库中存储的各行人的运动数据作为该运动轨迹预测模型的输入数据，根据与各行人在预设时间段内的运动轨迹作为真实值，可以采用序列到序列(Seq2Seq)的模型结构，对输入数据和真实值进行训练，得到运动轨迹预测模型。

例如，可以采集4.5小时的视频，共拍摄到超过5000的行人。对采集的视频进行切割，得到用于训练的图像数据，采用上述方式获取行人的运动数据。对第i个行人，将前5帧图像中构建的第i个行人的运动数据输入该运动轨迹预测模型，将后10帧图像中构建的第i个行人的运动数据作为真实值，根据运动根轨迹预测模型输出的向量序列和真实值，计算损失函数。在实施方式中，损失函数可以采用均方误差函数：

通过随机梯度下降(Stochastic Gradient Descent，简称“SGD”)算法优化该运动轨迹预测模型中的可训练参数，在模型收敛后，完成该运动轨迹预测模型的训练。

该Seq2Seq模型采用编码器-解码器结构，编码器可以对输入向量序列进行编码，提取出单个特征向量，然后，解码器对所得到的特征向量进行解码，从而生成输出向量序列。这种编码器-解码器结构，使得Seq2Seq网络能接受不同长度的输入和输出序列。编码器和解码器是通过长短期记忆(Long Short Term Memory，简称“LSTM”)网络实现的。一个LSTM网络由若干LSTM单元组成，每个LSTM单元接受一个特征向量，因此输入向量序列的长度与编码器LSTM包含的LSTM单元数一致，同理，输出向量序列的长度与解码器LSTM包含的LSTM单元数一致。本实施方式中，行人在预设时间段内的运动轨迹包括：行人在预设时间段内预设个数的运动特征数据，则解码器的个数为预设个数。

下面以一个具体的例子详细说明得到运动轨迹的过程：

例如，第i个行人的运动数据为该运动轨迹预测模型中的编码器包括5个LSTM单元，可得编码特征向量Eⁱ。解码器包含的LSTM单元数取决于预测时间段T_pred。假设预设时间段为T_pred＝2s，在保持时间间隔Δt＝0.2s不变的情况下，预测个数为10，即解码器应包含10个LSTM单元。将编码特征向量Eⁱ输入解码器，除第一个LSTM单元接受Eⁱ作为输入外，后续的LSTM均将上一个LSTM的输出向量作为输入，并产生输出。假设解码器的第j个LSTM单元的输出为则输出向量序列即为输出的向量序列即为预测的运动轨迹。

本发明的第二实施方式涉及一种行人运动轨迹的预测方法。第二实施方式是对第一实施方式的进一步改进，主要改进之处在于：在本发明第二实施方式中，在预测行人在预设时间段内的运动轨迹之后，还包括根据该预测的行人的运动轨迹，对图像数据中的行人进行碰撞检测，并根据碰撞检测结果执行对应的指令。该行人运动轨迹的预测方法的具体流程如图5所示。

步骤201：获取包括N张第一图像的图像数据，N为大于1的整数。

步骤202：根据图像数据，确定图像数据中行人的运动数据，行人的运动数据用于表征行人在图像数据中的姿态和位置。

步骤203：根据行人的运动数据以及预设的运动轨迹预测模型，预测行人在预设时间段内的运动轨迹。

步骤204：根据行人在预设时间段内的运动轨迹，对图像数据中的行人进行碰撞检测。

一个具体的实现中，判断行人的运动轨迹中是否存在满足碰撞条件的位置特征数据，其中，碰撞条件包括边界框的中心位置处于第一图像的中间位置且边界框的面积大于预设阈值；若确定存在满足碰撞条件的边界框位置信息，则确定碰撞检测结果为发生重合；否则，确定碰撞结果为未发生重合。

具体的说，若边界框的面积越大，表明该行人在实际中与终端之间的距离越短。基于此原理，获取预测的该行人的运动轨迹中的位置特征数据，例如，预测的该行人i的运动轨迹为：其中每个表示为j表示预测的第j个图像；的边界框的中心点(x,y)处于第j个图像的中间位置且该边界框的面积大于阈值T时，则确定该行人i的运动轨迹与终端的运动轨迹发生重合。

用公式表示即为：若w×h>T时，则可能发生碰撞，这里的W,H分别表示第j个图像的宽和高；w,h分别表示边界框的宽和高。可以理解的是，在实际应用中碰撞条件还可以根据实际需要进行设置，即以上x的取值范围，以及y的取值范围，仅为举例说明。

另一个具体的实现中，分别将预设时间段内行人的各位置特征数据输入预设的碰撞检测模型，获得行人在各预测的图像中与终端之间的距离，碰撞检测模型根据各行人的位置特征数据，以及各行人与终端之间的距离训练获得；判断在获得的各距离中是否存在超过预设距离阈值的距离，若确定存在，则确定碰撞检测为发生重合，否则，确定碰撞检测为未发生重合。

具体的说，碰撞检测模型可以采用机器学习的方式，根据各行人的位置特征数据，以及各行人与终端之间的距离训练获得；该碰撞检测模型输出在预测的行人的位置特征数据中该行人与该终端之间的距离。在实际运用时，预设距离阈值为T_d，并将输入训练好的碰撞检测模型中，计算第i个行人在预测的第j个图像中与终端之间的距离若则判定在预设时间段内该行人的运动轨迹与该终端的运动轨迹发生重合。

步骤205：判断碰撞检测结果是否为发生重合，若确定碰撞检测结果为发生重合，则执行步骤206；否则，执行步骤207。

步骤206：执行碰撞应急操作指令。

具体的说，碰撞应急操作指令可以根据实际需要设置，例如可以是指示终端减速、停止运动的指令，或者指示终端绕行的指令。

步骤207：检测该图像数据中是否存在未进行碰撞检测的未检测行人，若存在，则执行步骤208，若检测到图像数据中不存在未检测行人，则终止所述碰撞检测。

步骤208：获取预测的图像数据中未进行碰撞检测的未检测行人在预设时间段内的运动轨迹，并返回步骤204，根据预测的未检测行人在预设时间段内的运动轨迹进行碰撞检测。

具体的说，获取该图像数据中其他未进行碰撞检测的行人所预测的运动轨迹，则返回步骤204，根据未检测行人在预设时间段内的运动轨迹，对该未检测行人进行碰撞检测。

本实施方式，根据预测的行人的运动轨迹，对图像数据中的行人进行碰撞检测，从而控制终端执行对应的指令，如减速、绕行指令，避免出现终端在运动过程中与前方的行人发生碰撞的情况。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种终端30，该终端的具体结构如图6所示，包括：至少一个处理器301；以及，与至少一个处理器301通信连接的存储器302；其中，存储器302存储有可被至少一个处理器301执行的指令，指令被至少一个处理器301执行，以使至少一个处理器301能够执行如第一实施方式或第二实施方式的行人运动轨迹的预测方法。

其中，存储器302和处理器301采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器301和存储器302的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器301负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第四实施方式涉及一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现第一实施方式或第二实施方式的行人运动轨迹的预测方法的行人运动轨迹的预测方法。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种行人运动轨迹的预测方法，其特征在于，应用于终端，包括：

获取包括N张第一图像的图像数据，N为大于1的整数；

根据所述图像数据，确定所述图像数据中行人的运动数据，所述行人的运动数据用于表征所述行人在所述图像数据中的姿态和位置；

根据所述行人的运动数据以及预设的运动轨迹预测模型，预测所述行人在预设时间段内的运动轨迹，所述运动轨迹预测模型根据样本训练库中各行人的运动数据，以及与各行人在预设时间段内的运动轨迹训练获得。

2.根据权利要求1所述的行人运动轨迹的预测方法，其特征在于，所述获取包括N张第一图像的图像数据，具体包括：

在采集时间段内按照第一视角采集视频图像的集合，所述第一视角为所述终端从运动正方向上采集图像的角度；

从所述视频图像的集合中选取N张第一图像，将选取的N张所述第一图像组成所述图像数据。

3.根据权利要求1或2所述的行人运动轨迹的预测方法，其特征在于，根据所述图像数据，确定所述图像数据中行人的运动数据，具体包括：

根据每个所述第一图像，确定每个所述第一图像中所述行人的运动特征数据，所述运动特征数据包括所述第一图像中行人的姿态特征数据和位置特征数据；

将确定的所述行人的N个运动特征数据，组成所述行人的运动数据。

4.根据权利要求3所述的行人运动轨迹的预测方法，其特征在于，根据每个所述第一图像，确定每个所述第一图像中所述行人的运动特征数据，具体包括：

针对每个所述第一图像进行以下处理：

从所述第一图像中提取所述行人的各肢体关键点坐标；

根据各肢体关键点坐标，确定所述第一图像中所述行人的姿态特征数据；

获取所述第一图像中所述行人的边界框位置信息，并将所述行人的边界框位置信息作为所述行人的位置特征数据；

将所述姿态特征数据和所述位置特征数据进行融合，组成所述第一图像中所述行人的运动特征数据。

5.根据权利要求4所述的行人运动轨迹的预测方法，其特征在于，根据各肢体关键点坐标，确定所述第一图像中所述行人的姿态特征数据，具体包括：

将各所述肢体关键点坐标按照预设规则构建所述行人的关键点特征向量；

对所述行人的关键点特征向量进行归一化处理，将归一化处理后的行人的关键点特征向量作为所述行人的姿态特征数据。

6.根据权利要求4所述的行人运动轨迹的预测方法，其特征在于，所述边界框位置信息包括所述边界框的尺寸信息以及所述边界框的至少两个互为对角的顶点的坐标信息；

获取所述第一图像中所述行人的边界框位置信息，并将所述边界框位置信息作为所述行人的位置特征数据，具体包括：

根据所述两个互为对角的顶点的坐标信息，确定所述边界框的中心位置的坐标信息；

根据所述边界框的中心位置的坐标信息以及所述边界框的尺寸信息，构建所述边界框的位置特征向量；

将所述边界框的位置特征向量作为所述行人的位置特征数据。

7.权利要求3-6中任一项所述的行人运动轨迹的预测方法，其特征在于，将确定的所述行人的N个运动特征数据，组成所述行人的运动数据，具体包括：

排列所述行人的N个运动特征数据，形成所述行人的运动特征数据序列；

将所述行人的运动特征数据序列作为所述行人的运动数据。

8.权利要求4至7中任一项所述的行人运动轨迹的预测方法，其特征在于，所述行人在预设时间段内的运动轨迹包括：所述行人在预设时间段内预设个数的运动特征数据。

9.权利要求8所述的行人运动轨迹的预测方法，其特征在于，在所述预测所述行人在预设时间段内的运动轨迹之后，所述行人运动轨迹的预测方法还包括：

根据所述行人在预设时间段内的运动轨迹，对所述图像数据中的行人进行碰撞检测，所述碰撞检测用于预测在预设时间段内所述行人的运动轨迹是否会与所述终端的运动轨迹发生重合；

根据碰撞检测结果，执行对应的指令。

10.根据权利要求9所述的行人运动轨迹的预测方法，其特征在于，根据预测的碰撞检测结果，执行对应的指令，具体包括：

若确定所述碰撞检测结果为发生重合，则执行碰撞应急操作指令；

若确定所述碰撞检测结果为未发生重合，则获取预测的所述图像数据中未进行所述碰撞检测的未检测行人在预设时间段内的运动轨迹，并根据预测的未检测行人在预设时间段内的运动轨迹对所述未检测行人进行碰撞检测，其中，在检测到所述图像数据中不存在未检测行人，则终止所述碰撞检测。

11.根据权利要求9所述的行人运动轨迹的预测方法，其特征在于，根据所述行人在预设时间段内的运动轨迹，对所述图像数据中的行人进行碰撞检测，具体包括：

判断所述行人的运动轨迹中是否存在满足碰撞条件的位置特征数据，其中，所述碰撞条件包括边界框的中心位置处于所述第一图像的中间位置且所述边界框的面积大于所述预设阈值；

若确定存在满足所述碰撞条件的边界框位置信息，则确定碰撞检测结果为发生重合；否则，确定所述碰撞结果为未发生重合。

12.根据权利要求9所述的行人运动轨迹的预测方法，其特征在于，根据所述行人在预设时间段内的运动轨迹，对所述图像数据中的行人进行碰撞检测，具体包括：

分别将所述预设时间段内所述行人的各位置特征数据输入预设的碰撞检测模型，获得所述行人在各预测的图像中与所述终端之间的距离，所述碰撞检测模型根据各行人的位置特征数据，以及各所述行人与终端之间的距离训练获得；

判断在获得的各所述距离中是否存在超过预设距离阈值的距离，若确定存在，则确定所述碰撞检测为发生重合，否则，确定所述碰撞检测为未发生重合。

13.一种终端，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至12任一所述的行人运动轨迹的预测方法。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的行人运动轨迹的预测方法。