CN111695497B

CN111695497B - 基于运动信息的行人识别方法、介质、终端和装置

Info

Publication number: CN111695497B
Application number: CN202010525650.3A
Authority: CN
Inventors: 揭择群
Original assignee: Shanghai Yogo Robot Co Ltd
Current assignee: Shanghai Yogo Robot Co Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2024-04-09
Anticipated expiration: 2040-06-10
Also published as: CN111695497A

Abstract

本发明公开一种基于运动信息的行人识别方法、介质、终端和装置，方法包括以下步骤：对当前时刻的点云数据和过去多个时刻的点云数据进行融合，生成环境信息中的物体运动信息；采用预先训练好的深度卷积神经网络模型对所述物体运动信息进行目标检测，输出环境信息中行人的位置。本发明针对激光点云图的天然缺陷，对历史时刻的运动信息和当前时刻的形状信息进行叠加，从而有效过滤形状类似人腿但保持静止的柱状物的干扰，提高了行人检测的准确性，为机器人的后续导航避障、运动行为以及交互行为等提供了更准确的指导，提高了机器人的运动效率和服务质量。

Description

基于运动信息的行人识别方法、介质、终端和装置

【技术领域】

本发明涉及智能机器人领域，尤其涉及一种基于运动信息的行人识别方法、介质、终端和装置。

【背景技术】

机器人或无人车在移动过程中，往往需要利用激光雷达扫描周围环境，得到周围环境的点云图，从而实现对周围物体的感知。激光点云图通常可用来指导机器人导航过程中的路径规划和运动策略，例如避障等。由于激光雷达原理是通过发射激光遇到障碍物后返回障碍物的距离值，因此激光点云图中的物体缺少物体类别的信息，同时由于在激光雷达扫描得到的点云图中，行人经过俯视投影后以两个弧形的人腿方式呈现，这种弧形人腿与环境中形状类似的柱状物，例如桌腿、栏杆、椅子腿等难以区分，仅靠单帧点云图易把这种柱状物误识别为人腿，从而造成行人误检，影响后续对机器人导航避障以及交互行为进行设计。

【发明内容】

本发明提供了一种基于运动信息的行人识别方法、介质、终端和装置，解决了以上所述的技术问题。

本发明解决上述技术问题的技术方案如下：一种基于运动信息的行人识别方法，包括以下步骤：

步骤1，对当前时刻的点云数据和过去多个时刻的点云数据进行融合，生成环境信息中的物体运动信息；

步骤2，采用预先训练好的深度卷积神经网络模型对所述物体运动信息进行目标检测，输出所述环境信息中行人的位置。

在一个优选实施方式中，所述对当前时刻的点云数据和过去多个时刻的点云数据进行融合包括以下步骤：

步骤101，根据对应时间长度内机器人本体的相对位移将过去N个时刻的点云数据分别映射到当前时刻的机器人坐标系，所述N≥2；

步骤102，将当前时刻的点云数据和经坐标映射后的N帧点云数据进行相叠，生成包括所述物体运动信息的N+1维张量；或者将当前时刻的点云数据与经坐标映射后的N帧点云数据分别相减，得到全部时刻的N帧点云差图，然后把所述当前时刻的点云数据和所述N帧点云差图进行相叠，生成包括所述物体运动信息的N+1维张量。

在一个优选实施方式中，所述根据对应时间长度内机器人本体的相对位移将过去N个时刻的点云数据分别映射到当前时刻的机器人坐标系所采用的坐标变换公式为：

x'＝(x-Δx)cosΔθ-(y-Δy)sinΔθ，

y'＝(x-Δx)sinΔθ+(y-Δy1)cosΔθ，

其中，x、y为过去时刻对应点云数据中激光点的坐标，Δx、Δy、Δθ为过去时刻到当前时刻机器人本体的相对位移，x'、y'为所述激光点在当前时刻的机器人坐标系的位置。

在一个优选实施方式中，所述步骤2具体为：将所述N+1维张量输入预先训练好的YOLO神经网络模型、SSD神经网络模型或FCOS神经网络模型进行目标检测，输出所述环境信息中行人的位置。

本发明实施例的第二方面提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现以上所述的基于运动信息的行人识别方法。

本发明实施例的第三方面提供了一种基于运动信息的行人识别终端，包括所述的计算机可读存储介质和处理器，所述处理器执行所述计算机可读存储介质上的计算机程序时实现以上所述基于运动信息的行人识别方法的步骤。

本发明实施例的第四方面提供了一种基于运动信息的行人识别装置，包括融合模块和检测模块，

所述融合模块用于对当前时刻的点云数据和过去多个时刻的点云数据进行融合，生成环境信息中的物体运动信息；

所述检测模块用于采用预先训练好的深度卷积神经网络模型对所述物体运动信息进行目标检测，输出所述环境信息中行人的位置。

在一个优选实施方式中，所述融合模块包括坐标变换单元和叠加单元，

所述坐标变换单元用于根据对应时间长度内机器人本体的相对位移将过去N个时刻的点云数据分别映射到当前时刻的机器人坐标系，所述N≥2；

所述叠加单元用于将当前时刻的点云数据和经坐标映射后的N帧点云数据进行相叠，生成包括所述物体运动信息的N+1维张量；以及用于将当前时刻的点云数据与经坐标映射后的N帧点云数据分别相减，得到全部时刻的N帧点云差图，然后把所述当前时刻的点云数据和所述N帧点云差图进行相叠，生成包括所述物体运动信息的N+1维张量。

在一个优选实施方式中，所述坐标变换单元所采用的坐标变换公式为：

x'＝(x-Δx)cosΔθ-(y-Δy)sinΔθ，

y'＝(x-Δx)sinΔθ+(y-Δy1)cosΔθ，

在一个优选实施方式中，所述检测模块具体用于将所述N+1维张量输入预先训练好的YOLO神经网络模型、SSD神经网络模型或FCOS神经网络模型进行目标检测，输出所述环境信息中行人的位置。

本发明具有以下有益效果：针对激光点云图的天然缺陷，对历史时刻的运动信息和当前时刻的形状信息进行叠加，从而有效过滤形状类似人腿但保持静止的柱状物的干扰，提高了行人检测的准确性，为机器人的后续导航避障、运动行为以及交互行为等提供了更准确的指导，提高了机器人的运动效率和服务质量。

为使发明的上述目的、特征和优点能更明显易懂，下文特举本发明较佳实施例，并配合所附附图，作详细说明如下。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是实施例1提供的基于运动信息的行人识别方法的流程示意图；

图2是实施例1提供的基于运动信息的行人识别方法中当前时刻和过去时刻的可视样例图；

图3是实施例2提供的基于运动信息的行人识别装置的结构示意图；

图4是实施例3提供的基于运动信息的行人识别终端的结构示意图。

【具体实施方式】

为了使本发明的目的、技术方案和有益技术效果更加清晰明白，以下结合附图和具体实施方式，对本发明进行进一步详细说明。应当理解的是，本说明书中描述的具体实施方式仅仅是为了解释本发明，并不是为了限定本发明。

图1是实施例1提供的基于运动信息的行人识别方法的流程示意图，如图1所示，包括以下步骤：

步骤1，对当前时刻的点云数据和过去多个时刻的点云数据进行融合，即将过去时刻的点云图经过坐标映射，变换到当前时刻的机器人坐标系，使不同时刻的点云图能在空间上对齐，从而有效提取这段时间跨度内的物体运动信息。具体来说，点云映射依赖于对应时间长度内机器人本体的相对位移，利用该相对位移可以将过去N个时刻的点云数据分别映射到当前时刻的机器人坐标系，N大于等于2。例如，假设当前时刻为t，考虑过去时刻t-1，及t-2时刻的点云，意图将t-1与t-2时刻的点云图经过坐标映射，得到t-1和t-2时刻点云图在当前时刻t下的点云图。设t-1到t时刻机器人本体相对位移为(Δx1,Δy1,Δθ1),t-1时刻的点云图为d(t-1)，把d(t-1)映射到当前时刻的点云图具体做法为：对d(t-1)中任意一点(x,y)，利用机器人位移(Δx1,Δy1,Δθ1)对其进行坐标变换，变换后在d'(t-1)中的坐标为：

x'＝(x-Δx1)cosΔθ1-(y-Δy1)sinΔθ1

y'＝(x-Δx1)sinΔθ1+(y-Δy1)cosΔθ1。

类似地，可以把t-2时刻的点云图d(t-2)通过t-2到t时刻的相对位移(Δx2,Δy2,Δθ2)映射得到d'(t-2)。

然后将当前时刻t的点云图d(t)和过去时刻映射到当前时刻的点云d'(t-1)、d'(t-2),…d'(t-n)进行融合。本发明实施例提出两种融合方法。第一种直接把当前时刻的点云数据和经坐标映射后的N帧点云数据进行相叠得到一个N+1维张量，比如将当前时刻的点云数据和上述经坐标映射后的两帧点云数据进行相叠得到一个三维张量，其大小为n*H*W(H、W为单个点云图的宽度和高度)。第二种为先将d(t)与d'(t-1)、

d'(t-2),…d'(t-n)分别相减，得到点云差图r。具体而言，d(t)与d'(t-n)的差图r(t-n)＝d(t)-d'(t-n)。然后再把全部时刻的点云差图r(t-1),r(t-2),…r(t-n)与d(t)进行相叠，亦得到一个N+1维张量，比如将当前时刻的点云数据和2个过去时刻的点云差图进行相叠得到一个三维张量，其大小为n*H*W(H、W为单个点云图的宽度和高度)，两种方法得到的N+1维张量均可作为第二步的输出。如图2a-2c所示，2a为当前时刻t的可视样例图，2b为t-1时刻的可视样例图，2c为t-2时刻的可视样例图，从图上可以看出，经过映射变换后，只有人腿在图中位于不同位置，静止物体位置比较固定。

然后执行步骤2，采用预先训练好的深度卷积神经网络模型对所述物体运动信息进行目标检测，输出所述环境信息中行人的位置，具体可以采用预先训练好的YOLO神经网络模型、SSD神经网络模型或FCOS神经网络模型进行目标检测。

优选实施例采用YOLO神经网络模型具有较好的效果。YOLO是近年来提出的一种物体检测方法。它将一张待检测图片分为若干个小的区域，通过单个卷积神经网络得出每个区域所包含的物体及其属性，包括物体所占区域的中心位置、长宽等，从而达到目标检测的目的，在物体检测中得到了良好的效果。相比于其他检测系统，YOLO神经网络的优势在于其网络结构简单，可以达到远高于常用视频帧数30帧以上的检测速度，同时拥有良好的检测准确率。本发明实施例将上述得到的N+1通道的张量作为训练好的YOLO神经网络模型的输入，输出为行人框信息，行人框信息记录为(p，x,y,w,h)，p为该小块检测为行人区域一部分的概率，x、y分别表示行人框中心区域的横坐标、纵坐标，h、w分别表示行人框的长和宽。一个实施例中，所述YOLO神经网络模型的训练方法包括以下步骤：

S1、收集训练集，所述训练集为对以上融合得到N+1维张量的行人区域进行人工标注的结果；

S2、采用公共图像数据库，比如ImageNet数据集上的模型参数对YOLO神经网络进行初始化，然后再使用上述标注的训练集对所述YOLO神经网络的模型参数进行训练优化，得到训练完成的YOLO神经网络模型。其他实施例也可以采用SSD神经网络模型或FCOS神经网络模型进行目标检测，具体的训练和检测方法在现有相关专利和技术资料中均有描述，在此不进行详细说明。

以上实施例提供了一种基于运动信息的行人识别方法，方法包括两步，第一步根据不同时刻的多帧激光点云图有效提取周围环境中的运动信息。具体做法提供两种可选方案，第一种将过去时刻的点云图依靠机器人本体相对位移进行坐标映射，得到当前时刻坐标系下的多帧空间对齐点云图，这些空间对齐点云图直接作为深度卷积神经网络的多通道输入，进行人体识别。第二种将过去时刻的点云图依靠机器人本体相对位移进行坐标映射，得到当前时刻坐标系下的多帧空间对齐点云图，然后再进行点对点的点云图相减，得到当前时刻点云图与过去时刻点云图的点云差图，并将多个点云差图与当前时刻点云图作为深度卷积神经网络的多通道输入，进行人体识别。采用上述方法有效过滤形状类似人腿但保持静止的柱状物的干扰，提高了行人检测的准确性，为机器人的后续导航避障、运动行为以及交互行为等提供了更准确的指导，提高了机器人的运动效率和服务质量。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现以上所述的基于运动信息的行人识别方法。

图3是实施例2提供的基于运动信息的行人识别装置的结构示意图，如图3所示，包括融合模块100和检测模块200，

所述融合模块100用于对当前时刻的点云数据和过去多个时刻的点云数据进行融合，生成环境信息中的物体运动信息；

所述检测模块200用于采用预先训练好的深度卷积神经网络模型对所述物体运动信息进行目标检测，输出所述环境信息中行人的位置。

在一个优选实施方式中，所述融合模块100包括坐标变换单元101和叠加单元102，

所述坐标变换单元101用于根据对应时间长度内机器人本体的相对位移将过去N个时刻的点云数据分别映射到当前时刻的机器人坐标系；

所述叠加单元102用于将当前时刻的点云数据和经坐标映射后的N帧点云数据进行相叠，生成包括所述物体运动信息的N+1维张量；以及用于将当前时刻的点云数据与经坐标映射后的N帧点云数据分别相减，得到全部时刻的N帧点云差图，然后把所述当前时刻的点云数据和所述N帧点云差图进行相叠，生成包括所述物体运动信息的N+1维张量。

在一个优选实施方式中，所述坐标变换单元101所采用的坐标变换公式为：

x'＝(x-Δx)cosΔθ-(y-Δy)sinΔθ，

y'＝(x-Δx)sinΔθ+(y-Δy1)cosΔθ，

在一个优选实施方式中，所述检测模块200具体用于将所述N+1维张量输入预先训练好的YOLO神经网络模型、SSD神经网络模型或FCOS神经网络模型进行目标检测，输出所述环境信息中行人的位置。

本发明实施例还提供了一种基于运动信息的行人识别终端，包括所述的计算机可读存储介质和处理器，所述处理器执行所述计算机可读存储介质上的计算机程序时实现以上所述基于运动信息的行人识别方法的步骤。图4是本发明实施例3提供的基于运动信息的行人识别终端的结构示意图，如图4所示，该实施例的基于运动信息的行人识别终端8包括：处理器80、可读存储介质81以及存储在所述可读存储介质81中并可在所述处理器80上运行的计算机程序82。所述处理器80执行所述计算机程序82时实现上述各个方法实施例中的步骤，例如图1所示的步骤1至步骤2。或者，所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块的功能，例如图3所示模块100至200的功能。

示例性的，所述计算机程序82可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述可读存储介质81中，并由所述处理器80执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序82在所述基于运动信息的行人识别终端8中的执行过程。

所述基于运动信息的行人识别终端8可包括，但不仅限于，处理器80、可读存储介质81。本领域技术人员可以理解，图4仅仅是基于运动信息的行人识别终端8的示例，并不构成对基于运动信息的行人识别终端8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于运动信息的行人识别终端还可以包括电源管理模块、运算处理模块、输入输出设备、网络接入设备、总线等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述可读存储介质81可以是所述基于运动信息的行人识别终端8的内部存储单元，例如基于运动信息的行人识别终端8的硬盘或内存。所述可读存储介质81也可以是所述基于运动信息的行人识别终端8的外部存储设备，例如所述基于运动信息的行人识别终端8上配备的插接式硬盘，智能存储卡(Smart MediaCard，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述可读存储介质81还可以既包括所述基于运动信息的行人识别终端8的内部存储单元也包括外部存储设备。所述可读存储介质81用于存储所述计算机程序以及所述基于运动信息的行人识别终端所需的其他程序和数据。所述可读存储介质81还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本发明并不仅仅限于说明书和实施方式中所描述，因此对于熟悉领域的人员而言可容易地实现另外的优点和修改，故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下，本发明并不限于特定的细节、代表性的设备和这里示出与描述的图示示例。

Claims

1.一种基于运动信息的行人识别方法，其特征在于，包括以下步骤：

步骤2，采用预先训练好的深度卷积神经网络模型对所述物体运动信息进行目标检测，输出所述环境信息中行人的位置；

所述对当前时刻的点云数据和过去多个时刻的点云数据进行融合包括以下步骤：

2.根据权利要求1所述基于运动信息的行人识别方法，其特征在于，所述根据对应时间长度内机器人本体的相对位移将过去N个时刻的点云数据分别映射到当前时刻的机器人坐标系所采用的坐标变换公式为：

x′＝(x-Δx)cosΔθ-(y-Δy)sinΔθ，

y′＝(x-Δx)sinΔθ+(y-Δy1)cosΔθ，

其中，x、y为过去时刻对应点云数据中激光点的坐标，Δx、Δy、Δθ为过去时刻到当前时刻机器人本体的相对位移，x′、y′为所述激光点在当前时刻的机器人坐标系的位置。

3.根据权利要求2所述基于运动信息的行人识别方法，其特征在于，所述步骤2具体为：将所述N+1维张量输入预先训练好的YOLO神经网络模型、SSD神经网络模型或FCOS神经网络模型进行目标检测，输出所述环境信息中行人的位置。

4.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-3任一所述基于运动信息的行人识别方法。

5.一种基于运动信息的行人识别终端，其特征在于，包括计算机可读存储介质和处理器，所述处理器执行所述计算机可读存储介质上的计算机程序时实现权利要求1-3任一所述基于运动信息的行人识别方法的步骤。

6.一种基于运动信息的行人识别装置，其特征在于，包括融合模块和检测模块，

所述检测模块用于采用预先训练好的深度卷积神经网络模型对所述物体运动信息进行目标检测，输出所述环境信息中行人的位置；

所述融合模块包括坐标变换单元和叠加单元，

7.根据权利要求6所述基于运动信息的行人识别装置，其特征在于，所述坐标变换单元所采用的坐标变换公式为：

x′＝(x-Δx)cosΔθ-(y-Δy)sinΔθ，

y′＝(x-Δx)sinΔθ+(y-Δy1)cosΔθ，

8.根据权利要求7所述基于运动信息的行人识别装置，其特征在于，所述检测模块具体用于将所述N+1维张量输入预先训练好的YOLO神经网络模型、SSD神经网络模型或FCOS神经网络模型进行目标检测，输出所述环境信息中行人的位置。