CN114820799A

CN114820799A - 一种用于行人位置估计的数据自动标注方法、装置及系统

Info

Publication number: CN114820799A
Application number: CN202210720928.1A
Authority: CN
Inventors: 刘景泰; 吴仕超; 翟晓琳; 胡郑希; 孙月
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-07-29
Anticipated expiration: 2042-06-24
Also published as: CN114820799B

Abstract

本发明公开了一种用于行人位置估计的数据自动标注方法、装置及系统，该方法包括：获取行人的非视觉信号以及与所述非视觉信号处于同一采样时间的视觉信号；根据所述视觉信号得到与所述非视觉信号对应的行人位置信息；将所述行人位置信息作为位置真值对所述非视觉信号进行标注，从而实现对非视觉信号的行人位置的自动标注，以构建包含大量样本的标注数据集，有利于实现基于非视觉信号对行人位置进行估计，提高行人位置估计精度，保护行人隐私安全。

Description

一种用于行人位置估计的数据自动标注方法、装置及系统

技术领域

本发明涉及人工智能技术领域，特别是涉及一种用于行人位置估计的数据自动标注方法、装置、系统及计算机可读存储介质。

背景技术

在机器人跟随等技术领域中对行人进行位置估计是一个重要环节，目前，通常运用机器学习法/深度学习法基于视觉信号实现行人位置估计。但是，由于视觉信号中存在的因视线遮挡而导致的局部视野盲区等不足，影响了对行人位置估计的精确度；并且通过相机设备采集视觉信号，存在行人隐私泄露的问题。

由于非视觉信号也能够很好地反映行人位置，因此为了提高行人位置估计的准确度和更好地保护行人的隐私安全，可以基于非视觉信号实现行人位置估计。而构建包含大量样本的标注数据集是运用机器学习/深度学习方法进行行人位置估计的关键。由于行人行走过程中的位置标注是一个连续过程，其不像构建面向目标检测任务数据样本那样是简单的离散标签标注，因此基于人工手动的标注过程太过繁琐、且难度较大不能够适用于对行人行走过程中的位置标注。

鉴于此，如何提供一种能够实现基于非视觉信号进行行人位置估计任务的数据自动标注方法、装置、系统及计算机可读存储介质成为本领域技术人员需要解决的问题。

发明内容

本发明实施例的目的是提供一种用于行人位置估计的数据自动标注方法、装置、系统及计算机可读存储介质，在使用过程中实现对非视觉信号的行人位置的自动标注，以构建包含大量样本的标注数据集，有利于实现基于非视觉信号对行人位置进行估计，提高行人位置估计精度，保护行人隐私安全。

为解决上述技术问题，本发明实施例提供了一种用于行人位置估计的数据标注方法，包括：

获取行人的非视觉信号以及与所述非视觉信号处于同一采样时间的视觉信号；

根据所述视觉信号得到与所述非视觉信号对应的行人位置信息；

将所述行人位置信息作为位置真值对所述非视觉信号进行标注。

可选的，所述获取行人的非视觉信号以及与所述非视觉信号处于同一时刻的视觉信号，包括：

通过非视觉信号传感器采集行人的非视觉序列信号；

通过图像采集设备采集所述行人的各个视觉信号；

检测所述非视觉序列信号中的峰值点，并根据各个峰值点分割得到各个非视觉信号；

基于所述非视觉信号的采样时间，从各个所述视觉信号中确定出与所述非视觉信号处于同一采样时间的视觉信号。

可选的，所述图像采集设备为单目相机；

所述根据所述视觉信号得到与所述非视觉信号对应的行人位置信息，包括：

对所述视觉信号进行分析，得出所述行人在相机坐标系下的三维位置信息；

根据非视觉传感器坐标系与相机坐标系之间的变换关系，对所述相机坐标系下的位置信息进行变换得到所述行人相对于所述非视觉信号传感器的行人位置信息。

可选的，所述对所述视觉信号进行分析，得出所述行人在相机坐标系下的三维位置信息，包括：

根据所述视觉信号中的彩色图像和深度图像，识别所述行人在图像中的站立位置；

根据所述深度图像、像素坐标系与相机坐标系之间的变换关系，得到所述行人在所述相机坐标系下的三维位置信息。

可选的，所述图像采集设备为双目相机，所述视觉信号包括所述双目相机各自获取的图像信息；

对所述双目相机各自获取的图像信息进行检测，得到与每个所述图像信息分别对应的各个骨骼关键点；

根据所述双目相机与所述行人之间的三角位置关系，得到各个所述骨骼关键点分别相对于相机坐标系的三维位置；

根据非视觉传感器坐标系与相机坐标系之间的变换关系，对各个所述骨骼关键点分别相对于相机坐标系的三维位置进行变换，得到各个所述骨骼关键点分别相对于所述非视觉传感器坐标系的位置信息；

根据各个所述骨骼关键点分别相对于所述非视觉传感器坐标系的位置信息，计算出与所述非视觉信号对应的行人位置信息。

可选的，所述非视觉信号传感器包括麦克风阵列和振动检测传感器；

所述非视觉信号包括行人脚步声音信号和地面振动信号。

本发明实施例还提供了一种用于行人位置估计的数据自动标注装置，包括：

获取模块，用于获取行人的非视觉信号以及与所述非视觉信号处于同一采样时间的视觉信号；

分析模块，用于根据所述视觉信号得到与所述非视觉信号对应的行人位置信息；

标注模块，用于将所述行人位置信息作为位置真值对所述非视觉信号进行标注。

可选的，所述获取模块包括：

第一采集单元，用于通过非视觉信号传感器采集行人的非视觉序列信号；

第二采集单元，用于通过图像采集设备采集所述行人的各个视觉信号；

分割单元，用于检测所述非视觉序列信号中的峰值点，并根据各个峰值点分割得到各个非视觉信号；

本发明实施例还提供了一种用于行人位置估计的数据自动标注系统，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述用于行人位置估计的数据标注方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述用于行人位置估计的数据标注方法的步骤。

本发明实施例提供了一种用于行人位置估计的数据自动标注方法、装置、系统及计算机可读存储介质，该方法包括：获取行人的非视觉信号以及与所述非视觉信号处于同一采样时间的视觉信号；根据所述视觉信号得到与所述非视觉信号对应的行人位置信息；将所述行人位置信息作为位置真值对所述非视觉信号进行标注。

可见，本发明实施例中通过获取行人的非视觉信号和与该非视觉信号处于同时采样时间的视觉信号，并通过该视觉信号得到与非视觉信号对应的行人位置信息，然后将该行人位置信息作为位置真值对该非视觉信号进行标注，从而实现对非视觉信号的行人位置的自动标注，以构建包含大量样本的标注数据集，有利于实现基于非视觉信号对行人位置进行估计，提高行人位置估计精度，保护行人隐私安全。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于行人位置估计的数据自动标注方法的流程示意图；

图2为本发明实施例提供的一种同步采集行人在行走过程中的非视觉信号和视觉信号的场景设置示意图；

图3为本发明实施例提供的另一种用于行人位置估计的数据自动标注方法的流程示意图；

图4为本发明实施例提供的一种相机坐标系与非视觉传感器所在世界坐标系的示意图；

图5为本发明实施例提供的另一种用于行人位置估计的数据自动标注方法的流程示意图；

图6为本发明实施例提供的一种用于行人位置估计的数据自动标注装置的结构示意图。

具体实施方式

本发明实施例提供了一种用于行人位置估计的数据自动标注方法、装置、系统及计算机可读存储介质，在使用过程中实现对非视觉信号的行人位置的自动标注，以构建包含大量样本的标注数据集，有利于实现基于非视觉信号对行人位置进行估计，提高行人位置估计精度，保护行人隐私安全。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，基于非视觉信号对行人位置进行估计的方法，可有效缓解基于视觉信号对行人位置进行估计的方法中存在的因视线遮挡而导致的局部视野盲区等不足，还可避免因相机引起的行人隐私被侵犯的隐患。能够简单、高效地建立包含大量样本的标注数据集，是运用机器学习或深度学习方法进行行人位置估计任务的关键。由于行人行走过程中的位置标注是一个连续过程，其不像构建面向目标检测任务数据样本那样是简单的离散标签标注，实现自动进行数据标注相对于人工手动标注具有较大的优势。因此，本发明提出一种用于行人位置估计的数据标注方法，可以自动快速构建包含大量样本的数据集。

请参照图1，图1为本发明实施例提供的一种用于行人位置估计的数据自动标注方法的流程示意图。该方法包括：

S110：获取行人的非视觉信号以及与非视觉信号处于同一采样时间的视觉信号；

需要说明的是，本发明实施例中可以同步采集行人在行走过程中的非视觉信号以及视觉信号，也即在采集非视觉信号的同时采集视觉信号。其中，非视觉信号可以包括行人脚步声音信号、地面振动信号等，例如图2所示的同步采集行人在行走过程中的非视觉信号和视觉信号（具体可以为视觉图像序列信号）的场景设置示意图，具体可以通过非视觉信号传感器（例如麦克风阵列和振动检测传感器）采集非视觉信号，通过图像采集设备（例如相机）采集视觉信号。在实际应用中，在非视觉信号和视觉信号采集过程中行人围绕麦克风阵列或振动传感器等非视觉信号传感器按照正常行走速度和方式行走即可，其中，可以预先确定出行人活动区域，麦克风阵列和震动检测传感器等非视觉信号传感设备均放置于地面，麦克风阵列可以设置于行人活动区域的中心，振动传感器可以分布于整个行人活动区域，具体可以围绕麦克风阵列周围分布，图像采集器可以设置于三脚架上，并放置在行人活动区域的一侧，以使数据采集过程中行人以及行人的行走范围处于图像采集器合适的视野范围内。其中，图2所示的场景可以应用于实验室场景中，并且可以根据实际需求设置麦克风阵列和振动传感器的数量和位置。

进一步的，上述S110中获取行人的非视觉信号以及与非视觉信号处于同一时刻的视觉信号的过程，具体可以包括：

通过非视觉信号传感器采集行人的非视觉序列信号；

通过图像采集设备采集行人的各个视觉信号；

检测非视觉序列信号中的峰值点，并根据各个峰值点分割得到各个非视觉信号；

基于非视觉信号的采样时间，从各个视觉信号中确定出与非视觉信号处于同一采样时间的视觉信号。

具体的，在实际应用中可以通过非视觉信号传感器（也即，麦克风阵列和振动检测传感器）采集非视觉序列信号，通过图像采集设备同步采集行人的视觉信号。其中，非视觉序列信号包括行人脚步声音序列信号和地面振动序列信号，可以通过麦克风阵列传感器采集行人脚步声音序列信号，通过振动检测传感器采集的是地面振动序列信号。由于在行人的行走过程中，脚步触地、滑动摩擦、分离等一系列动作呈周期性地重复出现，由此产生的行人行走相关的非视觉信号，如脚步声音和地面振动等，也是呈周期性分布的，由于脚步触地产生的瞬时震动较大，反映在声音和振动信号上即为局部的峰值点，在采集到行人的行走脚步声音序列信号和地面振动序列信号后，可以针对每一类非视觉序列信号检测信号中的各个峰值点，并根据每个峰值点分割得到各个非视觉信号。例如，对于行人脚步声音序列信号可以根据检测到的各个峰值点，对该行人脚步声音序列信号进行分割得到各个行人脚步声音信号，对于地面振动序列信号可以根据检测到的各个峰值点，对该地面振动序列信号进行分割得到各个地面振动信号，可以理解的，在非视觉传感器包括麦克风阵列和振动检测传感器时，非视觉信号包括行人脚步声音信号和地面振动信号。然后再基于各个非视觉信号的采样时间，从各个视觉信号中确定出与该非视觉信号处于同一采样时间的视觉信号，例如，针对每个行人脚步声音信号，确定出与每个行人脚步声音信号的采样时间各自一致的各个视觉信号，针对每个地面振动信号，确定出与每个地面振动信号的采样时间各自一致的各个视觉信号。

S120：根据视觉信号得到与非视觉信号对应的行人位置信息；

具体的，针对每个非视觉信号，根据与该非视觉信号对应的视觉信号进一步得到该非视觉信号的行人位置信息。

S130：将行人位置信息作为位置真值对非视觉信号进行标注。

具体的，在基于视觉信号得到行人位置信息后，即可将其作为位置真值对该非视觉信号进行标注，从而实现对非视觉信号的行人位置自动标注，以便快速构建包含大量标注样本的数据集，用于运用机器学习或深度学习方法基于该数据集进行模型训练，以实现对行人位置的估计。

可见，本发明实施例中通过获取行人的非视觉信号和与该非视觉信号处于同一采样时间的视觉信号，并通过该视觉信号得到与非视觉信号对应的行人位置信息，然后将该行人位置信息作为位置真值对该非视觉信号进行标注，从而实现对非视觉信号的行人位置的自动标注，以构建包含大量样本的标注数据集，有利于实现基于非视觉信号对行人位置进行估计，提高行人位置估计精度，保护行人隐私安全。

相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

请参照图3，在图像采集设备为单目相机的情况下；该方法包括：

S210：获取行人的非视觉信号以及与非视觉信号处于同一采样时间的视觉信号；

需要说明的是，本发明实施例中的S210的实现过程与上述实施例中的S110相同，具体介绍请参照上述实施例的相应部分，本发明在此不再赘述。

S220：对视觉信号进行分析，得出行人在相机坐标系下的三维位置信息；

具体的，通过对与非视觉信号对应的视觉信号进行分析，得出行人在相机坐标系{C}下的三维位置信息，具体的在实际应用中所采用的单目相机可以为能够提供所拍摄图像深度信息的相机（例如RGBD相机），然后根据视觉信号中的彩色图像和深度图像，识别行人在图像中的站立位置。之后，根据深度图像、像素坐标系与相机坐标系{C}之间的变换关系，得到行人在相机坐标系下的三维位置信息。

S230：根据非视觉传感器坐标系与相机坐标系之间的变换关系，对相机坐标系下的位置信息进行变换得到行人相对于非视觉信号传感器的行人位置信息；

具体的，在得到行人在相机坐标系{C}下的三维位置信息后，可以进一步根据非视觉传感器坐标系与相机坐标系{C}之间的变换关系，对相机坐标系{C}下的位置信息进行变换，从而得到行人相对于非视觉信号传感器的行人位置信息。其中，非视觉传感器坐标系具体为世界坐标系{W}，也即，通过麦克风阵列或振动传感器等非视觉传感器所在的世界坐标系{W}与相机坐标系{C}之间的变换关系以及行人相对于相机坐标系{C}的位置信息，得到该行人相对于非视觉传感器的位置信息，该位置信息即对应的行人位置信息。其中，相机坐标系与非视觉传感器所在的世界坐标系{W}的示意图如图4所示，其中，每个相机对应的一个相机坐标系，分别为相机坐标系{C}和相机坐标系{C1}。

还需要说明的是，根据相机的小孔成像模型以及世界坐标系、相机坐标系、图像坐标系和像素坐标系之间的转换关系，其中，世界坐标系下的一点

可通过如下变换得到其在像素坐标系下的位置

：

其中，

为目标点在相机坐标系下Z轴方向的距离，

为图像坐标系的原点在像素坐标系下的坐标，

和

分别表示每个像素点在图像坐标系x轴和y轴方向的尺寸，f为相机的焦距，R和t分别表示相机坐标系和世界坐标系之间进行变换的旋转矩阵和平移向量。其中，与相机和实验设置相关的参数可以通过相机标定得到。通过上述变换关系式能够得到像素坐标系与世界坐标系之间的变换，从而得到行人在世界坐标系下的位置。

S240：将行人位置信息作为位置真值对非视觉信号进行标注。

具体的，在基于视觉信号得到行人位置信息后，即可将其作为位置真值对该非视觉信号进行标注，从而实现对非视觉信号的行人位置自动标注。

请参照图5，在图像采集设备为双目相机的情况下，视觉信号包括双目相机各自获取的图像信息；该方法包括：

S310：获取行人的非视觉信号以及与非视觉信号处于同一采样时间的视觉信号；

S320：对双目相机各自获取的图像信息进行检测，得到与每个图像信息分别对应的各个骨骼关键点；

需要说明的是，本发明实施例中的图像采集设备可以为双目相机，具体的可以采用两个普通的相机（RGB相机），即该相机不需要其具备能提供图像深度信息的能力。具体的在通过双目相机获取各自的图像信息后，可以分别对每个图像信息进行检测，得到每个图像信息中各个骨骼关键点。其中，可以预先建立人体姿态检测模型，通过该人体姿态检测模型分别检测出每个图像信息中行人的各个骨骼关键点。在实际应用中，不同方法检测出的人体骨骼关键点所有不同，例如有15、18或25个骨骼关键点。对于检测到25个骨骼关键点时，主要包括鼻子、脖子、右肩、右肘、右手腕、左肩、左肘、左手腕、胯中心、右跨、右膝、右踝、左胯、左膝、左踝、右眼、左眼、右耳、左耳、左脚内、左脚外、左脚跟、右脚内、右脚外、右脚跟等骨骼关键点，具体检测到哪些人体骨骼关键点可以根据实际需要进行确定。

S330：根据双目相机与行人之间的三角位置关系，得到各个骨骼关键点分别相对于相机坐标系的三维位置；

具体的，由于双目相机与行人之间构成的是三角位置关系，因此在得到每个图像信息中行人的各个骨骼关键点后，可以根据双目相机与行人之间构成的三角位置关系，利用三角原理得到各个骨骼关键点相对于相机坐标系的三维位置。

S340：根据非视觉传感器坐标系与相机坐标系之间的变换关系，对各个骨骼关键点分别相对于相机坐标系的三维位置进行变换，得到各个骨骼关键点分别相对于非视觉传感器坐标系的位置信息；

具体的，在得到每个骨骼关键点相对于相机坐标系的三维位置后，可以根据非视觉传感器坐标系（也即世界坐标系）与相机坐标系之间的变换关系，以及各个骨骼关键点相对于相机坐标系的三维位置，对各个骨骼关键点相对于相机坐标系的三维位置进行变换，得到每个骨骼关键点各自相对于非视觉传感器坐标系的位置信息。

S350：根据各个骨骼关键点分别相对于非视觉传感器坐标系的位置信息，计算出与非视觉信号对应的行人位置信息；

需要说明的是，为了进一步提高精确度，可以根据各个骨骼关键点分别相对于非视觉传感器坐标系的位置信息，计算出各个骨骼关键点与地面之间的距离，并根据各个距离选择当前时刻行人触地那只脚的4个目标骨骼关键点（脚踝、脚跟、脚内、脚外），根据各个目标骨骼关键点分别相对于非视觉传感器坐标系的位置信息，计算出平均位置信息，该平均位置信息即为与非视觉信号对应的行人位置信息。

例如，通过关系式

，计算出平均位置信息作为位置真值

，

为脚踝坐标，

为脚跟坐标，

为脚内坐标，

为脚外坐标。

S360：将行人位置信息作为位置真值对非视觉信号进行标注。

在上述实施例的基础上，本发明实施例还提供了一种用于行人位置估计的数据自动标注装置，请参照图6，该装置包括：

获取模块21，用于获取行人的非视觉信号以及与非视觉信号处于同一采样时间的视觉信号；

分析模块22，用于根据视觉信号得到与非视觉信号对应的行人位置信息；

标注模块23，用于将行人位置信息作为位置真值对非视觉信号进行标注。

可选的，获取模块21包括：

第二采集单元，用于通过图像采集设备采集行人的各个视觉信号；

分割单元，用于检测非视觉序列信号中的峰值点，并根据各个峰值点分割得到各个非视觉信号；

需要说明的是，本发明实施例中的用于行人位置估计的数据自动标注装置具有与上述实施例中所提供的用于行人位置估计的数据自动标注方法相同的有益效果，并且对于本发明实施例中所涉及到的用于行人位置估计的数据自动标注方法的具体介绍请参照上述实施例，本发明在此不再赘述。

在上述实施例的基础上，本发明实施例还提供了一种用于行人位置估计的数据自动标注系统，该系统包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述用于行人位置估计的数据自动标注方法的步骤。

例如，本发明实施例中的处理器具体可以用于实现获取行人的非视觉信号以及与非视觉信号处于同一采样时间的视觉信号；根据视觉信号得到与非视觉信号对应的行人位置信息；将行人位置信息作为位置真值对非视觉信号进行标注。

在上述实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述用于行人位置估计的数据标注方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述得比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用于行人位置估计的数据自动标注方法，其特征在于，包括：

2.根据权利要求1所述的用于行人位置估计的数据自动标注方法，其特征在于，所述获取行人的非视觉信号以及与所述非视觉信号处于同一时刻的视觉信号，包括：

通过非视觉信号传感器采集行人的非视觉序列信号；

通过图像采集设备采集所述行人的各个视觉信号；

3.根据权利要求2所述的用于行人位置估计的数据自动标注方法，其特征在于，所述图像采集设备为单目相机；

4.根据权利要求3所述的用于行人位置估计的数据自动标注方法，其特征在于，所述对所述视觉信号进行分析，得出所述行人在相机坐标系下的三维位置信息，包括：

5.根据权利要求2所述的用于行人位置估计的数据自动标注方法，其特征在于，所述图像采集设备为双目相机，所述视觉信号包括所述双目相机各自获取的图像信息；

6.根据权利要求2至5任意一项所述的用于行人位置估计的数据自动标注方法，其特征在于，所述非视觉信号传感器包括麦克风阵列和振动检测传感器；

所述非视觉信号包括行人脚步声音信号和地面振动信号。

7.一种用于行人位置估计的数据自动标注装置，其特征在于，包括：

8.根据权利要求7所述的用于行人位置估计的数据标自动标注装置，其特征在于，所述获取模块包括：

9.一种用于行人位置估计的数据标注自动系统，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述用于行人位置估计的数据自动标注方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述用于行人位置估计的数据自动标注方法的步骤。