CN112633074B

CN112633074B - 行人信息的检测方法和装置、存储介质及电子设备

Info

Publication number: CN112633074B
Application number: CN202011377082.3A
Authority: CN
Inventors: 缪其恒; 许炜
Original assignee: Zhejiang Huaruijie Technology Co ltd
Current assignee: Zhejiang Huaruijie Technology Co ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2024-01-30
Anticipated expiration: 2040-11-30
Also published as: CN112633074A

Abstract

本发明公开了一种行人信息的检测方法和装置、存储介质及电子设备。其中，该方法包括：将目标图像输入到第一目标神经网络中的预处理模块，得到预处理模块输出的目标图像的第一卷积特征和第二卷积特征；将第二卷积特征输入到第一目标神经网络中的区域预估模块，得到区域预估模块输出的目标预估区域，其中，目标预估区域为在目标图像中识别到的目标行人所在的预估区域；将第一卷积特征、第二卷积特征和第三卷积特征以及目标预估区域输入到第一目标神经网络中的分类预估模块，得到分类预估模块输出的目标行人的预估行人类别以及目标行人的关键点在目标图像中的预估坐标，解决了现有技术中对于行人信息进行检测的准确度不高的技术问题。

Description

行人信息的检测方法和装置、存储介质及电子设备

技术领域

本发明涉及机器学习及图像处理领域，具体而言，涉及一种行人信息的检测方法和装置、存储介质及电子设备。

背景技术

智能化是如今汽车行业发展的重要趋势之一，当前智能驾驶技术与系统在世界范围内快速发展。目前自动驾驶技术与系统的研究与开发大多基于高速公路与泊车两种应用场景，其系统组成通常包括感知、定位、规划以及决策控制等子模块。随着智能驾驶系统自动化等级的增强，相应系统对感知模块的能力以及精度要求日益提升。

视觉系统依靠其丰富的应用场景与成本优势成为目前量产车载感知系统的主要输入传感器件。相关技术中就视觉目标检测算法而言，现有算法主要针对车载前视相机图像输入进行场景基本语义与几何分析，包括行人、非机动车、各类车辆以及交通标识的识别、定位及分类等。深度神经网络的广泛应用，提升了已有算法的准确性但并未丰富已有视觉系统的输出维度，因而无法满足日益复杂的自动驾驶应用需求。随着车载相机sensor以及镜头技术的发展、边缘计算平台算力以及自动驾驶应用复杂程度的提升，算法改善需求主要体现在目标类别、目标检测范围以及目标运动与状态等方面，进一步的，为了保证自动驾驶的安全性，行人目标检测对于自动驾驶以及辅助驾驶系统而言，有着至关重要的作用，但是由于行人目标反射率低，目标体积小且相对运动弱，因而毫米波雷达的检测准确性不高。

针对上述的问题，现有技术中对于行人信息进行检测的准确度不高等问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种行人信息的检测方法和装置、存储介质及电子设备，以至少解决现有技术中对于行人信息进行检测的准确度不高的技术问题。

根据本发明实施例的一个方面，提供了一种行人信息的检测方法，包括：将目标图像输入到第一目标神经网络中的预处理模块，得到所述预处理模块输出的所述目标图像的第一卷积特征和第二卷积特征，其中，所述预处理模块包括级联的多个卷积模块，所述第一卷积特征是所述级联的多个卷积模块中的非最后一级的卷积模块输出的卷积特征，所述第二卷积特征是所述级联的多个卷积模块中的最后一级的卷积模块输出的卷积特征；将所述第二卷积特征输入到所述第一目标神经网络中的区域预估模块，得到所述区域预估模块输出的目标预估区域，其中，所述目标预估区域为在所述目标图像中识别到的目标行人所在的预估区域；将所述第一卷积特征、所述第二卷积特征和第三卷积特征以及所述目标预估区域输入到所述第一目标神经网络中的分类预估模块，得到所述分类预估模块输出的所述目标行人的预估行人类别以及所述目标行人的关键点在所述目标图像中的预估坐标，其中，所述第三卷积特征是所述区域预估模块中的卷积模块根据重构特征输出的卷积特征，所述重构特征是对所述第二卷积特征进行重构得到的特征。

根据本发明实施例的另一方面，还提供了一种行人信息的检测方法装置，包括：预处理模块，用于将目标图像输入到第一目标神经网络中的预处理模块，得到所述预处理模块输出的所述目标图像的第一卷积特征和第二卷积特征，其中，所述预处理模块包括级联的多个卷积模块，所述第一卷积特征是所述级联的多个卷积模块中的非最后一级的卷积模块输出的卷积特征，所述第二卷积特征是所述级联的多个卷积模块中的最后一级的卷积模块输出的卷积特征；第一输出模块，用于将所述第二卷积特征输入到所述第一目标神经网络中的区域预估模块，得到所述区域预估模块输出的目标预估区域，其中，所述目标预估区域为在所述目标图像中识别到的目标行人所在的预估区域；第二输出模块，用于将所述第一卷积特征、所述第二卷积特征和第三卷积特征以及所述目标预估区域输入到所述第一目标神经网络中的分类预估模块，得到所述分类预估模块输出的所述目标行人的预估行人类别以及所述目标行人的关键点在所述目标图像中的预估坐标，其中，所述第三卷积特征是所述区域预估模块中的卷积模块根据重构特征输出的卷积特征，所述重构特征是对所述第二卷积特征进行重构得到的特征。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行任一项方法实施例中的方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的任一项方法实施例中的方法。

在本发明实施例中，采用第一目标神经网络进行分析的方式，对目标图像进行预处理后进行多任务行人信息检测，从而得到目标图像中的目标行人所在的预估区域，以及目标行人的预估行人类别以及目标行人的关键点在目标图像中的预估坐标，进一步的确定目标行人的行人属性类别，通过第二目标神经网络对预定时长内n个采集时刻上采集到的n个图像、且在n个图像中均识别出目标行人的情况下，获取分类预估模块中的第一池化模块输出的n个第一池化特征进行时序关系分析，对目标行人的行为状态进行预测，通过第三目标神经网络对确定的目标行人的行人属性类别以及目标行人的关键点在目标图像中的预估坐标构成的姿态位图进行处理，得到目标行人的预估距离，进而达到了准确检测行人信息的目的，从而实现了提升行人信息的检测效率的技术效果，进而解决了现有技术中对于行人信息进行检测的准确度不高的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种行人信息的检测方法的计算机终端的硬件结构框图；

图2为根据本发明实施例的行人信息的检测方法的流程图；

图3为根据本发明可选实施例的基于车载视觉输入的行人目标检测与行为、运动分析预测方法的算法流程示意图；

图4为根据本发明可选实施例的行人检测神经网络拓扑示意图；

图5为根据本发明可选实施例的时序特征的神经网络拓扑示意图；

图6为根据本发明可选实施例的行人运动分析神经网络拓扑示意图；

图7是根据本发明实施例的一种行人信息的检测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例所提供的方法实施例可以在计算机终端、移动终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种行人信息的检测方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的行人信息的检测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

根据本发明实施例的一个方面，提供了一种行人信息的检测方法，可选地，作为一种可选的实施方式，上述行人信息的检测方法可以但不限于应用于如图1所示的环境中。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图2所示，上述行人信息的检测方法包括：

步骤S202，将目标图像输入到第一目标神经网络中的预处理模块，得到所述预处理模块输出的所述目标图像的第一卷积特征和第二卷积特征，其中，所述预处理模块包括级联的多个卷积模块，所述第一卷积特征是所述级联的多个卷积模块中的非最后一级的卷积模块输出的卷积特征，所述第二卷积特征是所述级联的多个卷积模块中的最后一级的卷积模块输出的卷积特征；

步骤S204，将所述第二卷积特征输入到所述第一目标神经网络中的区域预估模块，得到所述区域预估模块输出的目标预估区域，其中，所述目标预估区域为在所述目标图像中识别到的目标行人所在的预估区域；

步骤S206，将所述第一卷积特征、所述第二卷积特征和第三卷积特征以及所述目标预估区域输入到所述第一目标神经网络中的分类预估模块，得到所述分类预估模块输出的所述目标行人的预估行人类别以及所述目标行人的关键点在所述目标图像中的预估坐标，其中，所述第三卷积特征是所述区域预估模块中的卷积模块根据重构特征输出的卷积特征，所述重构特征是对所述第二卷积特征进行重构得到的特征。

通过上述步骤，采用第一目标神经网络进行分析的方式，对目标图像进行预处理后进行多任务行人信息检测，从而得到目标图像中的目标行人所在的预估区域，以及目标行人的预估行人类别以及目标行人的关键点在目标图像中的预估坐标，进一步的确定目标行人的行人属性类别，进而达到了准确检测行人信息的目的，从而实现了提升行人信息的检测效率的技术效果，进而解决了现有技术中对于行人信息进行检测的准确度不高的技术问题。

上述步骤S202从目标图像中获取目标图像的卷积特征的方式有多种，在一个可选实施例中，可以通过以下方案实现：将目标图像输入到预处理模块中包括级联的第1级卷积模块，得到第1级卷积模块输出的第1级卷积特征；将第1级卷积特征输入到预处理模块中包括级联的第2级卷积模块，得到第2级卷积模块输出的第2级卷积特征，其中，第一卷积特征为第2级卷积特征；将第2级卷积特征输入到预处理模块中包括级联的第3级卷积模块，得到第3级卷积模块输出的第3级卷积特征，其中，第二卷积特征为第3级卷积特征。

可选的，第1级卷积特征的特征尺寸小于第2级卷积特征的特征尺寸，第1级卷积特征的通道数小于第2级卷积特征的通道数，第2级卷积特征的特征尺寸等于第3级卷积特征的特征尺寸，第2级卷积特征的通道数大于第3级卷积特征的通道数。

也就是说，为了的得到符合第一目标神经网络处理要求的卷积特征，通过预处理方式对目标图像的特征尺寸及通道数进行调整，可以将图像采集装置获取到的目标图像中的行人特征进行处理，例如，曝光参数、增益参数以及白平衡参数自适应调节，目标图像3D降噪以及数字宽动态参数调节，得到信息内容不同的目标图像的卷积特征，并选择符合第一目标神经网络处理要求的卷积特征进一步处理。

可选地，将第二卷积特征输入到第一目标神经网络中的区域预估模块，得到区域预估模块输出的目标预估区域，包括：将第二卷积特征输入到区域预估模块中的重构模块，得到重构模块输出的重构特征；将重构特征输入到区域预估模块中的卷积模块，得到区域预估模块中的卷积模块输出的第三卷积特征；将第三卷积特征输入到区域预估模块中的第一全连接模块，得到第一全连接模块输出的目标预估区域。

可选的，将第三卷积特征输入到区域预估模块中的第一全连接模块，得到第一全连接模块输出的目标预估区域包括：根据第三卷积特征，确定目标行人所在的多个预估区域中每个预估区域的置信度；根据多个预估区域中每个预估区域的置信度，在多个预估区域中确定出目标预估区域。

简而言之，由于训练需求的不同，在通过第一目标神经网络对第二卷积特征进行处理时，需要根据不同的任务通多重构模块对第二卷积特征进行重构，并通过预估模块中的卷积模块提取出线的第三卷积特征，通过第一全连接模块确定出第三卷积特征中存在目标行人的多个预估区域中每个预估区域的置信度，进而根据置信度确定出存在目标行人的行人类别的以及目标行人的目标预估区域，并输出行人类别与目标预估区域的最终结果，进一步的，还可以将目标预估区域转换成参数信息，得到目标预估区域中心横坐标x，目标预估区域中心纵坐标y，目标预估区域的宽度w，目标预估区域的高度h，进而更加清楚地确定目标行人所在目标预估区域的范围大小。

可选的，上述步骤S206的具体实施方式为：将第一卷积特征、第二卷积特征和第三卷积特征输入到分类预估模块中的特征级联模块，得到特征级联模块输出的级联特征，其中，特征级联模块用于将第一卷积特征、第二卷积特征和第三卷积特征转换为第一目标特征尺寸和目标通道数的卷积特征，并将转换后的卷积特征进行级联，得到级联特征；将级联特征输入到分类预估模块中的卷积模块，得到分类预估模块中的卷积模块输出的第四卷积特征；将第四卷积特征和目标预估区域输入到分类预估模块中的第一池化模块，得到第一池化模块输出的第一池化特征，其中，第一池化模块用于在第四卷积特征中获取与目标预估区域对应的卷积特征，并将获取到的卷积特征转换成第二目标特征尺寸的特征，得到第一池化特征；将第一池化特征输入到分类预估模块中的第二全连接模块，得到第二全连接模块输出的目标行人的预估行人类别以及目标行人的关键点在目标图像中的预估坐标。

可选的，所述第一池化特征输入到所述分类预估模块中的第二全连接模块，得到所述第二全连接模块输出的所述目标行人的预估行人类别以及所述目标行人的关键点在所述目标图像中的预估坐标，包括：根据所述第一池化特征，确定所述目标行人的多个行人类别中每个行人类别的置信度、以及所述目标行人的关键点在所述目标图像中的多个坐标中的每个坐标的置信度；根据所述多个行人类别中每个行人类别的置信度，在所述多个行人类别中确定出所预估行人类别，并根据所述目标行人的关键点在所述目标图像中的多个坐标中的每个坐标的置信度，在所述多个坐标中确定所述目标行人的关键点在所述目标图像中的预估坐标。

为了更加准确对目标行人进行确定，还可以将多种卷积特征通过分类预估模块中的特征级联模块进行级联特征处理，将不同尺度、不同通道的多种卷积特征转换为同一特征尺寸，并将多种卷积特征的通道进行合并，使得统一后的特征尺寸中可存在细粒度的目标行人特征描述，进一步通过分类预估模块中的卷积模块输出包含细粒度的目标行人特征描述的第四卷积特征，进而通过第一池化模块获取第四卷积特征中获取与目标预估区域对应的卷积特征，使用第二全连接模块根据第一池化特征，确定目标行人的多个行人类别中每个行人类别的置信度、以及目标行人的关键点在目标图像中的多个坐标中的每个坐标的置信度；根据多个行人类别中每个行人类别的置信度，在多个行人类别中确定出所预估行人类别，并根据目标行人的关键点在目标图像中的多个坐标中的每个坐标的置信度，在多个坐标中确定目标行人的关键点在目标图像中的预估坐标，通过置信度阈值过滤，输出细粒度的预估行人类别(如：0-背景，1-正面行人，2-左向行人，3-右向行人，4-背面行人)、目标行人的关键点在目标图像中的预估坐标(如：1-头部、2，3-肩部、4-腰部、5，6-脚部、7,8-手部)、细粒度的目标预估区域。

可选的，使用预设的第一样本图像集合对待训练的第一训练神经网络进行训练，得到所述第一目标神经网络，其中，对所述第一训练神经网络进行训练的过程中采用的第一目标损失函数是根据第一损失函数L₁和/或第二损失函数L₂确定得到的损失函数：

其中，k1，k2为相应损失的权重系数；n1和n2分别表示输入到所述第一训练神经网络中的区域预估模块的样本的个数；p_cls,i和g_cls,i分别表示与输入的第i个样本对应的行人类别预估值与真实值；p_bbox,i和g_bbox,i分别表示与输入的第i个样本对应的行人所在的区域预估值与真实值。

其中，l₁，l₂，l₃为相应损失的权重系数；m1，m2和m3分别表示输入到所述第一训练神经网络中的分类预估模块的样本的个数；p_cls,i和g_cls,i分别表示与输入的第i个样本对应的行人类别预估值与真实值；p_bbox,i和g_bbox,i分别表示与输入的第i个样本对应的行人所在的区域预估值与真实值；p_kpts,i和g_kpts,i分别表示与输入的第i个样本对应的行人的关键点的坐标预估值与真实值。

需要说明的是，在通过第一样本图像集合对第一训练神经网络进行训练时，根据所要区分的置信度分类不同时，在用的训练样本也是不同的，第一目标损失函数中的n₁和n₂是在训练不同特征时所用的样本数量，例如，在训练时，输入了n个样本数量，其中n₁样本个数被用于训练对行人所在的区域的确认，n₂样本个数被用于训练行人的关键点的确认，二者的先后训练顺序是根据样本的实际情况确认的，第二目标损失函数中的m₁，m₂和m₃的确认方式与第一目标损失函数的n₁和n₂相同，此外，在第一训练神经网络进行训练过程中通过计算每一个样本的基础损失函数的值并加权求和进而求取平均值，进而得到用于可用于预测目标行人的损失函数，L_{cross-entropy}(p_cls,i,g_cls,i)表示了行人类别预估值与真实值距离，即p_cls,i和g_cls,i二者相似的概率分布值，L1_smooth(p_bbox,i,g_bbox,i)表示了行人所在的区域预估值与真实值距离，即p_kpts,i和g_kpts,i二者相似的概率分布值，并且当交叉熵值越小时，说明预估值与真实值的概率分布越接近。

可选的，将目标行人的关键点在目标图像中的预估坐标和第四卷积特征输入到第一目标神经网络中的属性预估模块，得到属性预估模块输出的目标行人的预估行人属性类别，其中，第四卷积特征是分类预估模块中的卷积模块根据第一卷积特征、第二卷积特征和第三卷积特征输出的卷积特征。

在一个实施例中，目标行人的关键点在目标图像中的预估坐标和第四卷积特征输入到第一目标神经网络中的属性预估模块，得到属性预估模块输出的目标行人的预估行人属性类别，包括：将预估坐标和第四卷积特征输入到属性预估模块中的第二池化模块，得到第二池化模块输出的第二池化特征，其中，第二池化模块用于在第四卷积特征中获取与预估坐标对应的卷积特征，并将获取到的卷积特征转换成第三目标特征尺寸的特征，得到第二池化特征；将第二池化特征输入到属性预估模块中的第三全连接模块，得到第三全连接模块输出的目标行人的预估行人属性类别。

可选的，所述第二池化特征输入到所述属性预估模块中的第三全连接模块，得到所述第三全连接模块输出的所述目标行人的预估行人属性类别，包括：根据所述第二池化特征，确定所述目标行人的多个行人属性类别中每个行人属性类别的置信度；根据所述多个行人属性类别中每个行人属性类别的置信度，在所述多个行人属性类别中确定所述目标行人的预估行人属性类别。

也就是说，还可以通过目标行人的关键点在目标图像中的预估坐标以及第四卷积特征实现目标行人的预估行人属性类别的确定，利用第二池化模块从第四卷积特征中获取与预估坐标对应的卷积特征，并将获取到的卷积特征转换成第三目标特征尺寸的特征，通过第三全连接模块确定出第三目标特征尺寸的特征中目标行人的多个行人属性类别中每个行人属性类别的置信度，根据预设的置信度阈值进行过滤度，以确定目标行人的预估行人属性类别。

例如，细粒度的预估行人类别中确定目标区域中存在正面行人、左向行人、右向行人，背面行人，进一步，结合获取目标图像的目标相机中的配置参数可以对目标行人中的类别进行年龄(0-未知，1-成年，2-未成年)以性别(0-未知，1-男性，2-女性)的分析，得到目标区域内行人的属性类别。

在一个可选实施例中，上述方法还包括：在所述目标图像包括预定时长内n个采集时刻上采集到的n个图像、且在所述n个图像中均识别出所述目标行人的情况下，获取所述分类预估模块中的所述第一池化模块输出的n个第一池化特征，其中，所述n个第一池化特征与所述n个图像具有一一对应的关系，n为自然数；将所述n个第一池化特征分别输入到第二目标神经网络中的n个卷积模块中对应的卷积模块，得到所述n个卷积模块共同输出的n个第五卷积特征；将所述n个第五卷积特征分别输入到所述第二目标神经网络中的n个长短期记忆模块中对应的长短期记忆模块，得到所述n个长短期记忆模块共同输出的n个行人行为状态；根据所述n个行人行为状态，确定所述目标行人在所述n个采集时刻上的预估行为状态。

可选的，所述根据所述n个行人行为状态，确定所述目标行人在所述n个采集时刻上的预估行为状态，包括：根据所述n个第五卷积特征中的第1个第五卷积特征，确定所述n个采集时刻中的第1个采集时刻上的预估行为状态；根据在所述n个采集时刻中的第i-1个采集时刻上的预估行为状态、所述n个第五卷积特征中的第i-1个第五卷积特征，确定所述n个采集时刻中的第i个采集时刻上的预估行为状态，其中，i大于1，小于等于n。

在一个可选实施例中，上述方法还包括：使用预设的第二样本图像集合对待训练的第二训练神经网络进行训练，得到所述第二目标神经网络，其中，对所述第二训练神经网络进行训练的过程中采用的第二目标损失函数是根据第三损失函数L₃确定得到的损失函数：

其中，N为所述第二样本图像集合中包括的样本图像子集的数量，在每个样本图像子集中均识别出一个样本行人，T为在预设时长内的采集时刻的数量，每个样本图像子集包括在所述预设时长内的T个采集时刻上采集到的T个样本图像，B_i,j和g_b,ij分别表示根据第i个样本图像子集中第j个采集时刻上的样本图像，得到的第i个样本行人的行为状态预估值与真实值。

在一个可选实施例中，上述方法还包括：根据所述目标行人的关键点在所述目标图像中的预估坐标，生成所述目标行人的姿态位图；将所述姿态位图、所述预估行人属性类别以及目标相机的相机参数输入到第三目标神经网络，得到所述第三目标神经网络输出的所述目标行人与所述目标相机之间的预估距离，其中，所述目标相机为采集所述目标图像的相机。

可选的，使用预设的第三样本图像集合对待训练的第三训练神经网络进行训练，得到所述第三目标神经网络，其中，对所述第三训练神经网络进行训练的过程中采用的第三目标损失函数是根据第四损失函数L₄确定得到的损失函数：

其中，j1，j2为预设的权重系数；q1，q2分别表示输入到所述第三训练神经网络中的样本的个数；d_i和g_i分别表示与输入的第i个样本对应的行人与相机之间的距离预估值与真实值；b_i为与输入的第i个样本对应的行人与相机之间的距离预估偏差值。

为了更好的理解本发明实施例以及可选实施例的技术方案，以下结合示例对上述的行人信息的检测方法的流程进行解释说明，但不用于限定本发明实施例的技术方案。

本发明可选实施例提出了一种基于车载视觉输入的行人目标检测与行为、运动分析预测方法，适用于前视、盲区以及环视等场景输入，其输出结果可用于各级别智能驾驶系统的行人相关应用，算法流程如图3所示，车载场景图像经采集与预处理后送入多任务级联行人分析神经网络，经行人检测、行为分析以及运动预测后，输出相应结果至结构化数据后处理模块，最终输出应用所需行人结构化数据，具体内容如下：

步骤S302、图像采集与预处理；图像采集主要包括，分辨率以及采集频率设置，通过修改相机sensor出厂化配置参数实现。图像预处理主要包括曝光参数、增益参数以及白平衡参数自适应调节，图像3D降噪以及数字宽动态参数调节，可通过调节相机固化ISP模块算法参数实现。预处理后图像经裁剪、缩放以及归一化等操作后，送入后续级联神经网络分析模块。

步骤S304、行人及关键点检测；采用二阶卷积神经网络进行行人检测，一阶段网络用于生成粗粒度行人区域建议，二阶段网络用于细粒度行人分类、关键点提取以及基本属性分析。

可选的，行人检测神经网络拓扑示意图，如图4所示，详细内容如下：

步骤S402、行人区域建议，输入为预处理后RGB图像，利用卷积神经网络对环视系统图像输入进行多尺度场景特征描述，生成3尺度卷积特征图谱，主要包括卷积、池化、激活、上采样以及通道级联等神经网络运算操作。基于先验行人目标尺度以及高宽比对行人检测感兴趣区域进行潜在行人目标分类与位置回归，网络输出经置信度阈值过滤，极大值抑制等后处理操作后，输出行人建议目标区域(x-中心横坐标，y-中心纵坐标，w-宽度，h-高度)。训练过程所采用损失函数L1如下：

其中，k1，k2为相应损失的权重系数；n1，n2为各批量中相应训练任务的样本数；p_cls,i，g_cls,i为目标类别预测值与真实值；p_bbox,i,g_bbox,i为目标位置预测值与真实值。

步骤S404、行人分类与关键点提取，利用行人区域建议神经网络浅层特征基于一阶行人位置输出进行细粒度行人分析感兴趣区域池化，对于池化后浅层行人特征图谱，级联细粒度行人特征描述后送入行人分类以及关键点回归分支，输出行人类别(0-背景，1-正面行人，2-左向行人，3-右向行人，4-背面行人)以及行人关键点图像坐标位置(1-头部，2，3-肩部，4-腰部，5，6-脚部，7,8-手部)。训练过程所采用损失函数L2如下：

其中，l₁，l₂，l₃为相应损失的权重系数；m1，m2，m3为各批量中相应训练任务的样本数；p_cls,i，g_cls,i为目标类别预测值与真实值；

步骤S406、行人属性分析，基于步骤S404中的细粒度行人特征描述以及细粒度行人分类结果，级联行人属性分类器对行人目标(即类别为1-4的输出目标区域)进行年龄(0-未知，1-成年，2-未成年)以及性别分类(0-未知，1-男性，2-女性)。训练过程采用分类交叉熵损失函数，年龄与性别损失权重系数为可配置参数，默认相同。

需要说明的是，为了保证行人匹配的时效性，通过时序行人匹配，将基于相邻时刻行人图像坐标重合系数(IOU)以及相应时刻行人细粒度特征图谱的相关系数(COR)阈值过滤，匹配时序行人目标。若目标时序重合度以及相似性均大于预设阈值，则匹配为同一目标，IOU以及COR计算方法如下：COR＝fm_i*fm_j；其中，area_i，area_j为目标i与j的图像区域面积；fm_i，fm_j为目标i，j的图像区域卷积特征描述；*为相关运算算子。

步骤306、行人行为状态分析。基于S404中的细粒度行人特征描述，利用长短期记忆神经网络进行行人状态分析，时序特征的神经网络拓扑，如图5所示。输入时序序列片段长度为2秒(时序递归单元数为25，默认频率12.5Hz)，在池化后细粒度行人特征描述基础上进行1x1卷积以适应行为分析特征与S404中应用的区别，之后送入长短期记忆模块，输出时序片段对应的特定行为状态(0-静止，1-正常行走，2-接打电话，3-头戴耳机)。训练过程所采用损失函数L3如下：其中，N为批量时序片段样本数，T为时序片段长度，B_i,j，g_b,ij为批量i，时刻j相应的行人行为预测值与真实值。

需要说明的是，本发明可选实施例中长短期记忆(LSTM)模块所使用公式如下：

f_t＝sigmoid(σ_f(x_t,h_t-1))；

i_t＝sigmoid(σ_i(x_t,h_t-1))；

o_t＝sigmoid(σ_o(x_t,h_t-1))；

其中，x_t为输入向量，f_t为遗忘门向量，i_t为更新门向量，h_t为隐层向量，o_t为输出门向量，c_t为元组状态向量。

基础损失函数计算方式如下：

L_{cross-entropy}(Y,G)＝GlogY+(1-G)log(1-Y)；

步骤308、行人运动分析；基于S404中行人八个关键点定位输出，构造抽象的行人姿态位图，仅保留重要关键点位置信息，省略图像纹理信息，将其作为行人运动分析神经网络输入；基于行人属性分析结果(分为9类)，读取相应行人目标身高先验信息。综合利用相机内参以及行人属性信息归一化上述神经网络输入，利用轻量卷积神经网络实现行人位置估计，输出行人距离以及距离测量的不确定性。行人运动分析神经网络拓扑示意图，如图6所示，训练所用损失函数L4如下：其中，j1，j2为相应损失的权重系数；q1，q2为各批量中相应训练任务的样本数；d_i，g_i为距离预测值与真实值；b_i为距离预测偏差值。

步骤310、融合步骤S304至S308中神经网络行人分析输出结果，并结合时序行人匹配，构造行人类目标结构化数据，可主要包括行人身份编号、行为状态以及运动状态；

可选的，行人身份编号是基于上述步骤S304中行人检测结果，每一时刻检测生成的行人目标自动赋予ID序号，并存储相应位置与属性信息，时序行人目标匹配方法如步骤S306中所述，每匹配成功一次则新行人目标生命周期增加1，原目标ID传递给与之匹配的新目标，并从队列中清除原目标；

可选的，行人状态后处理是基于上述步骤S306中行人状态分析结果，对于任意时刻t行人状态置信度输出，将其与上一时刻t-1相应行为状态信息按预设权重累加的方式进行融合，计算方式如下：

B_i,t＝αB_i,t+(1-α)B_i,t-1；其中，α为t时刻时序行为状态推理权重系数。

可选的，行人运动后处理，根据步骤S310中行人位置分析结果，利用匀速运动模型基于自适应卡尔曼滤波更新行人运动信息，行人目标运动状态量为[x,V_x,y,V_y],距离输出d用于测量更新，距离测量不确定性b用于自适应更新观测噪声矩阵R。

通过上述实施例，通过单一时刻图像输入卷积神经网络分析，获得行人姿态与属性信息，并依此作为先验信息确定行人目标距离以及距离不确定性，同时，通过长短期记忆网络对时序图像特征输入进行行人行为状态预测；车载场景图像输入经预处理后，进行多任务行人分类、定位、关键点以及属性联合分析生成距离分析以及时序行为分析依据；距离分析通过提取抽象的人体关键点检测结果作为输入，以性别、年龄属性分析结果为先验信息，通过相应子神经网络输出行人距离预测结果以及该结果的不确定性；提取部分池化浅层行人特征，通过时序长短期记忆网络模型进行行人行为预测，进一步的，通过增加行人分类类别以及关键点输出分支，利用多任务训练提升行人特征描述鲁棒性，从而提升行人检测准确性，使得输出的行人准确性更高且语义信息更多；采用卷积神经网络特征，通过多任务联合训练的方式集成于其他视觉应用(车辆目标、可行驶区域以及车道等相关应用)，级联行为分析子网络，为行人行为分析提供可行性，为非专注行走的行人提示等应用提供依据；综合依据时序图像纹理以及几何信息，输出行人行为以及运动状态，提升行人运动预测的准确性，为高等级自动驾驶决策提供感知依据，使得应用场景更广泛。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述行人信息的检测方法的行人信息的检测方法装置。如图7所示，该装置包括：

预处理模块72，用于将目标图像输入到第一目标神经网络中的预处理模块，得到所述预处理模块输出的所述目标图像的第一卷积特征和第二卷积特征，其中，所述预处理模块包括级联的多个卷积模块，所述第一卷积特征是所述级联的多个卷积模块中的非最后一级的卷积模块输出的卷积特征，所述第二卷积特征是所述级联的多个卷积模块中的最后一级的卷积模块输出的卷积特征；

第一输出模块74，用于将所述第二卷积特征输入到所述第一目标神经网络中的区域预估模块，得到所述区域预估模块输出的目标预估区域，其中，所述目标预估区域为在所述目标图像中识别到的目标行人所在的预估区域；

第二输出模块76，用于将所述第一卷积特征、所述第二卷积特征和第三卷积特征以及所述目标预估区域输入到所述第一目标神经网络中的分类预估模块，得到所述分类预估模块输出的所述目标行人的预估行人类别以及所述目标行人的关键点在所述目标图像中的预估坐标，其中，所述第三卷积特征是所述区域预估模块中的卷积模块根据重构特征输出的卷积特征，所述重构特征是对所述第二卷积特征进行重构得到的特征。

在一个可选实施例中，上述预处理模块，还用于将目标图像输入到预处理模块中包括级联的第1级卷积模块，得到第1级卷积模块输出的第1级卷积特征；将第1级卷积特征输入到预处理模块中包括级联的第2级卷积模块，得到第2级卷积模块输出的第2级卷积特征，其中，第一卷积特征为第2级卷积特征；将第2级卷积特征输入到预处理模块中包括级联的第3级卷积模块，得到第3级卷积模块输出的第3级卷积特征，其中，第二卷积特征为第3级卷积特征。其中，第1级卷积特征的特征尺寸小于第2级卷积特征的特征尺寸，第1级卷积特征的通道数小于第2级卷积特征的通道数，第2级卷积特征的特征尺寸等于第3级卷积特征的特征尺寸，第2级卷积特征的通道数大于第3级卷积特征的通道数。

可选地，上述第一输出模块，还用于将第二卷积特征输入到区域预估模块中的重构模块，得到重构模块输出的重构特征；将重构特征输入到区域预估模块中的卷积模块，得到区域预估模块中的卷积模块输出的第三卷积特征；将第三卷积特征输入到区域预估模块中的第一全连接模块，得到第一全连接模块输出的目标预估区域。

可选的，上述第一输出模块，还用于根据第三卷积特征，确定目标行人所在的多个预估区域中每个预估区域的置信度；根据多个预估区域中每个预估区域的置信度，在多个预估区域中确定出目标预估区域。

可选的，上述第二输出模块，用于将第一卷积特征、第二卷积特征和第三卷积特征输入到分类预估模块中的特征级联模块，得到特征级联模块输出的级联特征，其中，特征级联模块用于将第一卷积特征、第二卷积特征和第三卷积特征转换为第一目标特征尺寸和目标通道数的卷积特征，并将转换后的卷积特征进行级联，得到级联特征；将级联特征输入到分类预估模块中的卷积模块，得到分类预估模块中的卷积模块输出的第四卷积特征；将第四卷积特征和目标预估区域输入到分类预估模块中的第一池化模块，得到第一池化模块输出的第一池化特征，其中，第一池化模块用于在第四卷积特征中获取与目标预估区域对应的卷积特征，并将获取到的卷积特征转换成第二目标特征尺寸的特征，得到第一池化特征；将第一池化特征输入到分类预估模块中的第二全连接模块，得到第二全连接模块输出的目标行人的预估行人类别以及目标行人的关键点在目标图像中的预估坐标。

可选的，上述第二输出模块，还用于根据所述第一池化特征，确定所述目标行人的多个行人类别中每个行人类别的置信度、以及所述目标行人的关键点在所述目标图像中的多个坐标中的每个坐标的置信度；根据所述多个行人类别中每个行人类别的置信度，在所述多个行人类别中确定出所预估行人类别，并根据所述目标行人的关键点在所述目标图像中的多个坐标中的每个坐标的置信度，在所述多个坐标中确定所述目标行人的关键点在所述目标图像中的预估坐标。

可选的，上述装置还包含：第一训练模块，用于使用预设的第一样本图像集合对待训练的第一训练神经网络进行训练，得到所述第一目标神经网络，其中，对所述第一训练神经网络进行训练的过程中采用的第一目标损失函数是根据第一损失函数L₁和/或第二损失函数L₂确定得到的损失函数：

需要说明的是，在通过第一样本图像集合对第一训练神经网络进行训练时，根据所要区分的置信度分类不同时，在用的训练样本也是不同的，第一目标损失函数中的n₁和n₂是在训练不同特征时所用的样本数量，例如，在训练时，输入了n个样本数量，其中n₁样本个数被用于训练对行人所在的区域的确认，n₂样本个数被用于训练行人的关键点的确认，二者的先后训练顺序是根据样本的实际情况确认的，第二目标损失函数中的m₁，m₂和m₃的确认方式与第一目标损失函数的n₁和n₂相同，本发明对此不做过多限定。

可选的，上述装置还包含：第三输出模块，用于将目标行人的关键点在目标图像中的预估坐标和第四卷积特征输入到第一目标神经网络中的属性预估模块，得到属性预估模块输出的目标行人的预估行人属性类别，其中，第四卷积特征是分类预估模块中的卷积模块根据第一卷积特征、第二卷积特征和第三卷积特征输出的卷积特征。

在一个实施例中，上述第三输出模块，还用于将预估坐标和第四卷积特征输入到属性预估模块中的第二池化模块，得到第二池化模块输出的第二池化特征，其中，第二池化模块用于在第四卷积特征中获取与预估坐标对应的卷积特征，并将获取到的卷积特征转换成第三目标特征尺寸的特征，得到第二池化特征；将第二池化特征输入到属性预估模块中的第三全连接模块，得到第三全连接模块输出的目标行人的预估行人属性类别。

可选的，上述第三输出模块，还用于根据所述第二池化特征，确定所述目标行人的多个行人属性类别中每个行人属性类别的置信度；根据所述多个行人属性类别中每个行人属性类别的置信度，在所述多个行人属性类别中确定所述目标行人的预估行人属性类别。

在一个可选实施例中，上述装置还包含：第四输出模块，用于在所述目标图像包括预定时长内n个采集时刻上采集到的n个图像、且在所述n个图像中均识别出所述目标行人的情况下，获取所述分类预估模块中的所述第一池化模块输出的n个第一池化特征，其中，所述n个第一池化特征与所述n个图像具有一一对应的关系，n为自然数；将所述n个第一池化特征分别输入到第二目标神经网络中的n个卷积模块中对应的卷积模块，得到所述n个卷积模块共同输出的n个第五卷积特征；将所述n个第五卷积特征分别输入到所述第二目标神经网络中的n个长短期记忆模块中对应的长短期记忆模块，得到所述n个长短期记忆模块共同输出的n个行人行为状态；根据所述n个行人行为状态，确定所述目标行人在所述n个采集时刻上的预估行为状态。

可选的，上述第四输出模块，还用于根据所述n个第五卷积特征中的第1个第五卷积特征，确定所述n个采集时刻中的第1个采集时刻上的预估行为状态；根据在所述n个采集时刻中的第i-1个采集时刻上的预估行为状态、所述n个第五卷积特征中的第i-1个第五卷积特征，确定所述n个采集时刻中的第i个采集时刻上的预估行为状态，其中，i大于1，小于等于n。

在一个可选实施例中，上述装置还包含：第二训练模块，用于使用预设的第二样本图像集合对待训练的第二训练神经网络进行训练，得到所述第二目标神经网络，其中，对所述第二训练神经网络进行训练的过程中采用的第二目标损失函数是根据第三损失函数L₃确定得到的损失函数：

在一个可选实施例中，上述装置还包含：第五输出模块，用于根据所述目标行人的关键点在所述目标图像中的预估坐标，生成所述目标行人的姿态位图；将所述姿态位图、所述预估行人属性类别以及目标相机的相机参数输入到第三目标神经网络，得到所述第三目标神经网络输出的所述目标行人与所述目标相机之间的预估距离，其中，所述目标相机为采集所述目标图像的相机。

可选的，上述装置还包含：第三训练模块，用于使用预设的第三样本图像集合对待训练的第三训练神经网络进行训练，得到所述第三目标神经网络，其中，对所述第三训练神经网络进行训练的过程中采用的第三目标损失函数是根据第四损失函数L₄确定得到的损失函数：

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1、将目标图像输入到第一目标神经网络中的预处理模块，得到所述预处理模块输出的所述目标图像的第一卷积特征和第二卷积特征，其中，所述预处理模块包括级联的多个卷积模块，所述第一卷积特征是所述级联的多个卷积模块中的非最后一级的卷积模块输出的卷积特征，所述第二卷积特征是所述级联的多个卷积模块中的最后一级的卷积模块输出的卷积特征；

S2、将所述第二卷积特征输入到所述第一目标神经网络中的区域预估模块，得到所述区域预估模块输出的目标预估区域，其中，所述目标预估区域为在所述目标图像中识别到的目标行人所在的预估区域；

S3、将所述第一卷积特征、所述第二卷积特征和第三卷积特征以及所述目标预估区域输入到所述第一目标神经网络中的分类预估模块，得到所述分类预估模块输出的所述目标行人的预估行人类别以及所述目标行人的关键点在所述目标图像中的预估坐标，其中，所述第三卷积特征是所述区域预估模块中的卷积模块根据重构特征输出的卷积特征，所述重构特征是对所述第二卷积特征进行重构得到的特征。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

本发明的实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种行人信息的检测方法，其特征在于，包括：

将目标图像输入到第一目标神经网络中的预处理模块，得到所述预处理模块输出的所述目标图像的第一卷积特征和第二卷积特征，其中，所述预处理模块包括级联的多个卷积模块，所述第一卷积特征是所述级联的多个卷积模块中的非最后一级的卷积模块输出的卷积特征，所述第二卷积特征是所述级联的多个卷积模块中的最后一级的卷积模块输出的卷积特征；

将所述第二卷积特征输入到所述第一目标神经网络中的区域预估模块，得到所述区域预估模块输出的目标预估区域，其中，所述目标预估区域为在所述目标图像中识别到的目标行人所在的预估区域；

将所述第一卷积特征、所述第二卷积特征和第三卷积特征以及所述目标预估区域输入到所述第一目标神经网络中的分类预估模块，得到所述分类预估模块输出的所述目标行人的预估行人类别以及所述目标行人的关键点在所述目标图像中的预估坐标，其中，所述第三卷积特征是所述区域预估模块中的卷积模块根据重构特征输出的卷积特征，所述重构特征是对所述第二卷积特征进行重构得到的特征。

2.根据权利要求1所述的方法，其特征在于，所述将目标图像输入到第一目标神经网络中的预处理模块，得到所述预处理模块输出的所述目标图像的第一卷积特征和第二卷积特征，包括：

将所述目标图像输入到所述预处理模块中包括级联的第1级卷积模块，得到所述第1级卷积模块输出的第1级卷积特征；

将所述第1级卷积特征输入到所述预处理模块中包括级联的第2级卷积模块，得到所述第2级卷积模块输出的第2级卷积特征，其中，所述第一卷积特征为所述第2级卷积特征；

将所述第2级卷积特征输入到所述预处理模块中包括级联的第3级卷积模块，得到所述第3级卷积模块输出的第3级卷积特征，其中，所述第二卷积特征为所述第3级卷积特征。

3.根据权利要求2所述的方法，其特征在于，所述第1级卷积特征的特征尺寸小于所述第2级卷积特征的特征尺寸，所述第1级卷积特征的通道数小于所述第2级卷积特征的通道数，所述第2级卷积特征的特征尺寸等于所述第3级卷积特征的特征尺寸，所述第2级卷积特征的通道数大于所述第3级卷积特征的通道数。

4.根据权利要求1所述的方法，其特征在于，所述第二卷积特征输入到所述第一目标神经网络中的区域预估模块，得到所述区域预估模块输出的目标预估区域，包括：

将所述第二卷积特征输入到所述区域预估模块中的重构模块，得到所述重构模块输出的所述重构特征；

将所述重构特征输入到所述区域预估模块中的卷积模块，得到所述区域预估模块中的卷积模块输出的所述第三卷积特征；

将所述第三卷积特征输入到所述区域预估模块中的第一全连接模块，得到所述第一全连接模块输出的所述目标预估区域。

5.根据权利要求4所述的方法，其特征在于，将所述第三卷积特征输入到所述区域预估模块中的第一全连接模块，得到所述第一全连接模块输出的所述目标预估区域包括：

根据所述第三卷积特征，确定所述目标行人所在的多个预估区域中每个预估区域的置信度；

根据所述多个预估区域中每个预估区域的置信度，在所述多个预估区域中确定出所述目标预估区域。

6.根据权利要求1所述的方法，其特征在于，所述第一卷积特征、所述第二卷积特征和第三卷积特征以及所述目标预估区域输入到所述第一目标神经网络中的分类预估模块，得到所述分类预估模块输出的所述目标行人的预估行人类别以及所述目标行人的关键点在所述目标图像中的预估坐标，包括：

将所述第一卷积特征、所述第二卷积特征和所述第三卷积特征输入到所述分类预估模块中的特征级联模块，得到所述特征级联模块输出的级联特征，其中，所述特征级联模块用于将所述第一卷积特征、所述第二卷积特征和所述第三卷积特征转换为第一目标特征尺寸和目标通道数的卷积特征，并将转换后的卷积特征进行级联，得到所述级联特征；

将所述级联特征输入到所述分类预估模块中的卷积模块，得到所述分类预估模块中的卷积模块输出的第四卷积特征；

将所述第四卷积特征和所述目标预估区域输入到所述分类预估模块中的第一池化模块，得到所述第一池化模块输出的第一池化特征，其中，所述第一池化模块用于在所述第四卷积特征中获取与所述目标预估区域对应的卷积特征，并将获取到的卷积特征转换成第二目标特征尺寸的特征，得到所述第一池化特征；

将所述第一池化特征输入到所述分类预估模块中的第二全连接模块，得到所述第二全连接模块输出的所述目标行人的预估行人类别以及所述目标行人的关键点在所述目标图像中的预估坐标。

7.根据权利要求6所述的方法，其特征在于，所述第一池化特征输入到所述分类预估模块中的第二全连接模块，得到所述第二全连接模块输出的所述目标行人的预估行人类别以及所述目标行人的关键点在所述目标图像中的预估坐标，包括：

根据所述第一池化特征，确定所述目标行人的多个行人类别中每个行人类别的置信度、以及所述目标行人的关键点在所述目标图像中的多个坐标中的每个坐标的置信度；

根据所述多个行人类别中每个行人类别的置信度，在所述多个行人类别中确定出所预估行人类别，并根据所述目标行人的关键点在所述目标图像中的多个坐标中的每个坐标的置信度，在所述多个坐标中确定所述目标行人的关键点在所述目标图像中的预估坐标。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

使用预设的第一样本图像集合对待训练的第一训练神经网络进行训练，得到所述第一目标神经网络，其中，对所述第一训练神经网络进行训练的过程中采用的第一目标损失函数是根据第一损失函数L₁和/或第二损失函数L₂确定得到的损失函数：

其中，k₁，k₂为相应损失的权重系数；n₁和n₂分别表示输入到所述第一训练神经网络中的区域预估模块的样本的个数；p_cls,i和g_cls,i分别表示与输入的第i个样本对应的行人类别预估值与真实值；

p_bbox,i和g_bbox,i分别表示与输入的第i个样本对应的行人所在的区域预估值与真实值；

其中，l₁，l₂，l₃为相应损失的权重系数；m₁，m₂和m₃分别表示输入到所述第一训练神经网络中的分类预估模块的样本的个数；p_cls,i和g_cls,i分别表示与输入的第i个样本对应的行人类别预估值与真实值；p_bbox,i和g_bbox,i分别表示与输入的第i个样本对应的行人所在的区域预估值与真实值；p_kpts,i和g_kpts,i分别表示与输入的第i个样本对应的行人的关键点的坐标预估值与真实值。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述目标行人的关键点在所述目标图像中的预估坐标和第四卷积特征输入到所述第一目标神经网络中的属性预估模块，得到所述属性预估模块输出的所述目标行人的预估行人属性类别，其中，所述第四卷积特征是所述分类预估模块中的卷积模块根据所述第一卷积特征、所述第二卷积特征和第三卷积特征输出的卷积特征。

10.根据权利要求9所述的方法，其特征在于，所述目标行人的关键点在所述目标图像中的预估坐标和第四卷积特征输入到所述第一目标神经网络中的属性预估模块，得到所述属性预估模块输出的所述目标行人的预估行人属性类别，包括：

将所述预估坐标和所述第四卷积特征输入到所述属性预估模块中的第二池化模块，得到所述第二池化模块输出的第二池化特征，其中，所述第二池化模块用于在所述第四卷积特征中获取与所述预估坐标对应的卷积特征，并将获取到的卷积特征转换成第三目标特征尺寸的特征，得到所述第二池化特征；

将所述第二池化特征输入到所述属性预估模块中的第三全连接模块，得到所述第三全连接模块输出的所述目标行人的预估行人属性类别。

11.根据权利要求10所述的方法，其特征在于，所述第二池化特征输入到所述属性预估模块中的第三全连接模块，得到所述第三全连接模块输出的所述目标行人的预估行人属性类别，包括：

根据所述第二池化特征，确定所述目标行人的多个行人属性类别中每个行人属性类别的置信度；

根据所述多个行人属性类别中每个行人属性类别的置信度，在所述多个行人属性类别中确定所述目标行人的预估行人属性类别。

12.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在所述目标图像包括预定时长内n个采集时刻上采集到的n个图像、且在所述n个图像中均识别出所述目标行人的情况下，获取所述分类预估模块中的所述第一池化模块输出的n个第一池化特征，其中，所述n个第一池化特征与所述n个图像具有一一对应的关系，n为自然数；

将所述n个第一池化特征分别输入到第二目标神经网络中的n个卷积模块中对应的卷积模块，得到所述n个卷积模块共同输出的n个第五卷积特征；

将所述n个第五卷积特征分别输入到所述第二目标神经网络中的n个长短期记忆模块中对应的长短期记忆模块，得到所述n个长短期记忆模块共同输出的n个行人行为状态；

根据所述n个行人行为状态，确定所述目标行人在所述n个采集时刻上的预估行为状态。

13.根据权利要求12所述的方法，其特征在于，所述根据所述n个行人行为状态，确定所述目标行人在所述n个采集时刻上的预估行为状态，包括：

根据所述n个第五卷积特征中的第1个第五卷积特征，确定所述n个采集时刻中的第1个采集时刻上的预估行为状态；

根据在所述n个采集时刻中的第i-1个采集时刻上的预估行为状态、所述n个第五卷积特征中的第i-1个第五卷积特征，确定所述n个采集时刻中的第i个采集时刻上的预估行为状态，其中，i大于1，小于等于n。

14.根据权利要求12所述的方法，其特征在于，所述方法还包括：

使用预设的第二样本图像集合对待训练的第二训练神经网络进行训练，得到所述第二目标神经网络，其中，对所述第二训练神经网络进行训练的过程中采用的第二目标损失函数是根据第三损失函数L₃确定得到的损失函数：

15.根据权利要求9所述的方法，其特征在于，所述方法还包括：

根据所述目标行人的关键点在所述目标图像中的预估坐标，生成所述目标行人的姿态位图；

将所述姿态位图、所述预估行人属性类别以及目标相机的相机参数输入到第三目标神经网络，得到所述第三目标神经网络输出的所述目标行人与所述目标相机之间的预估距离，其中，所述目标相机为采集所述目标图像的相机。

16.根据权利要求15所述的方法，其特征在于，所述方法还包括：

使用预设的第三样本图像集合对待训练的第三训练神经网络进行训练，得到所述第三目标神经网络，其中，对所述第三训练神经网络进行训练的过程中采用的第三目标损失函数是根据第四损失函数L₄确定得到的损失函数：

17.一种行人信息的检测装置，其特征在于，包括：

预处理模块，用于将目标图像输入到第一目标神经网络中的预处理模块，得到所述预处理模块输出的所述目标图像的第一卷积特征和第二卷积特征，其中，所述预处理模块包括级联的多个卷积模块，所述第一卷积特征是所述级联的多个卷积模块中的非最后一级的卷积模块输出的卷积特征，所述第二卷积特征是所述级联的多个卷积模块中的最后一级的卷积模块输出的卷积特征；

第一输出模块，用于将所述第二卷积特征输入到所述第一目标神经网络中的区域预估模块，得到所述区域预估模块输出的目标预估区域，其中，所述目标预估区域为在所述目标图像中识别到的目标行人所在的预估区域；

第二输出模块，用于将所述第一卷积特征、所述第二卷积特征和第三卷积特征以及所述目标预估区域输入到所述第一目标神经网络中的分类预估模块，得到所述分类预估模块输出的所述目标行人的预估行人类别以及所述目标行人的关键点在所述目标图像中的预估坐标，其中，所述第三卷积特征是所述区域预估模块中的卷积模块根据重构特征输出的卷积特征，所述重构特征是对所述第二卷积特征进行重构得到的特征。

18.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至16任一项中所述的方法。

19.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至16任一项中所述的方法。