CN108491795B

CN108491795B - 轨道交通场景的行人检测方法与装置

Info

Publication number: CN108491795B
Application number: CN201810240221.4A
Authority: CN
Inventors: 曹先彬; 甄先通; 李岩; 肖泽昊
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2022-05-13
Anticipated expiration: 2038-03-22
Also published as: CN108491795A

Abstract

本发明提供了一种轨道交通场景的行人检测方法与装置，所述方法，包括：在视频帧图像中检测并获取铁轨区域的图像；其中，所述铁轨区域为所述视频帧图像中表征铁轨的区域；放大所述铁轨区域的图像；在放大后的铁轨区域的图像中检测行人目标；根据所述行人目标在所述铁轨区域中的位置，以及所述铁轨区域在所述视频帧图像中的位置，在所述视频帧图像中标识所述行人目标。本发明改善了行人检测的检测结果，提高了检测的准确率。

Description

轨道交通场景的行人检测方法与装置

技术领域

本发明涉及轨道交通领域，尤其涉及一种轨道交通场景的行人检测方法与装置。

背景技术

在轨道交通场景下，轨道上的列车的行进速度快，惯性大，一旦启动很难刹车。因此铁轨上的行人会对列车的行进造成很大的不良影响，甚至会威胁到人们的生命安全，带来危险。

为了避免这类不良影响与危险的发生，现有的相关技术中，可以利用机器采集铁轨的视频帧图像，并依据对视频帧图像中行人的检测，提前做好相关防范措施。

然而，所采集的视频帧图像中，包含铁轨的铁轨区域，以及铁轨区域中的行人目标的尺寸均较小，不利于对行人的检测，会造成行人检测的结果不佳。

发明内容

本发明提供了一轨道交通场景的行人检测方法与装置，以解决行人检测的结果不佳的问题。

根据本发明的第一方面，提供了一种轨道交通场景的行人检测方法，包括：

在视频帧图像中检测并获取铁轨区域的图像；其中，所述铁轨区域为所述视频帧图像中表征全部铁轨或铁轨的部分区段的区域；

放大所述铁轨区域的图像；

在放大后的铁轨区域的图像中检测行人目标；

根据所述行人目标在所述铁轨区域中的位置，以及所述铁轨区域在所述视频帧图像中的位置，在所述视频帧图像中标识所述行人目标。

可选的，所述在视频帧图像中检测并获取铁轨区域的图像，包括：

利用经训练的第一神经网络，得到第一标识信息；其中，所述第一标识信息用于标识所述视频帧图像中所述铁轨区域的位置与尺寸；

根据所述第一标识信息，获取所述视频帧图像中铁轨区域的图像。

可选的，所述第一神经网络是经过第一训练图像和第二训练图像训练得到的，所述第一训练图像为已标识铁轨区域的图像，所述第二训练图像为对所述第一训练图像进行缩放、裁剪、旋转后的图像。

可选的，所述第一标识信息的数量为N个，其中，N为大于或等于2的整数，不同的第一标识信息分别用于标识所述视频帧图像中不同铁轨区域的位置与尺寸。

可选的，所述铁轨区域为多边形区域；

所述放大所述铁轨区域的图像，包括：

根据所述铁轨区域的图像的第一坐标集合，以及预设的放大比例，确定放大后的铁轨区域的图像的第二坐标集合；

其中，所述第一坐标集合包括所述铁轨区域的图像的中心点在所述视频帧图像所处坐标系中的第一坐标，以及所述铁轨区域的图像的部分或全部顶点在所述坐标系中的第二坐标；所述第二坐标集合包括放大后的铁轨区域的图像的中心点在所述坐标系中的第三坐标，以及放大后的铁轨区域的图像的部分或全部顶点在所述坐标系中的第四坐标，所述第三坐标与所述第一坐标相同；

根据所述第二坐标集合，放大所述铁轨区域的图像。

可选的，所述根据所述铁轨区域的图像的第一坐标集合，以及预设的放大比例，确定放大后的铁轨区域的图像的第二坐标集合之后，包括：

若所述第二坐标集合中的至少一个第四坐标的位置处于所述视频帧图像的范围外，则在保证所述第三坐标不变的同时，调整所述第四坐标，以使所述至少一个第四坐标处于所述视频帧图像的范围内和/或处于所述视频帧图像的边缘。

可选的，所述在放大后的铁轨区域的图像中检测行人目标，包括：

利用经训练的第二神经网络，得到第二标识信息；其中，所述第二标识信息用于标识铁轨区域中所述行人目标的位置与尺寸；

所述根据所述行人目标在所述铁轨区域中的位置，以及所述铁轨区域在所述视频帧图像中的位置，在所述视频帧图像中标识所述行人目标，包括：

根据所述铁轨区域在所述视频帧图像中的位置，以及所述第二标识信息，确定第三标识信息；所述第三标识信息用于标识所述视频帧图像中所述行人目标的位置与尺寸；

根据所述第三标识信息，在所述视频帧图像中标识所述行人目标。

可选的，所述第二神经网络是经过第三训练图像和第四训练图像训练得到的，所述第三训练图像为已标识行人目标的图像，所述第四训练图像为对所述第三训练图像进行缩放、裁剪、旋转后的图像。

根据本发明的第二方面，提供了一种轨道交通场景的行人检测装置，包括：

第一检测模块，用于在视频帧图像中检测并获取铁轨区域的图像；其中，所述铁轨区域为所述视频帧图像中表征全部铁轨或铁轨的部分区段的区域；

放大模块，用于放大所述铁轨区域的图像；

第二检测模块，用于在放大后的铁轨区域的图像中检测行人目标；

标识模块，用于在所述视频帧图像中标识所述行人目标。

可选的，所述第一检测模块，具体用于：

可选的，所述第一标识信息的数量为N个，其中，N为大于或等于2的整数，不同的第一标识信息分别用于标识所述视频帧图像中不同铁轨区域的位置与尺寸，不同的铁轨区域具体为所述视频帧图像中表征铁轨的不同区段的区域。

可选的，所述铁轨区域为多边形区域；

所述放大模块，具体用于：

根据所述第二坐标集合，放大所述铁轨区域的图像。

可选的，所述放大模块，具体用于：

可选的，所述第二检测模块，具体用于：

所述标识模块，具体用于：

根据本发明的第三方面，提供了一种电子设备，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行第一方面及其可能涉及的方法。

根据本发明的第四方面，提供了一种存储介质，存储有计算机程序，所述计算机程序被执行时实现第一方面及其可能涉及的方法。

本发明提供的轨道交通场景的行人检测方法与装置，通过放大所述铁轨区域的图像，以及在放大后的铁轨区域的图像中检测行人目标；在所述视频帧图像中标识所述行人目标，实现了在放大后铁轨区域的图像中检测行人目标，通过铁轨区域的尺寸放大，避免了铁轨区域以及其中行人太小对行人目标检测的不良影响，改善了行人检测的检测结果，提高了检测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一轨道交通场景的行人检测方法的流程示意图；

图2是图1中步骤S11的流程示意图；

图3是图1中步骤S12的流程示意图；

图4是图1中步骤S13与S14的流程示意图；

图5是本发明一轨道交通场景的行人检测方法的处理过程示意图；

图6是本发明一轨道交通场景的行人检测装置的结构示意图；

图7是本发明一电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1是本发明一轨道交通场景的行人检测方法的流程示意图。

请参考图1，轨道交通场景的行人检测方法，包括：

S11：在视频帧图像中检测并获取铁轨区域的图像。

铁轨区域为所述视频帧图像中表征全部铁轨或铁轨的部分区段的区域，其可以包括视频帧图像中全部铁轨或部分区段的图像部分，还可以包括附近的图像部分，其中，若铁轨区域为矩形的，则附近的图像部分，也可理解为适于通过矩形框定的内容，该矩形由表征全部铁轨或铁轨的部分区段的区域，以及附近的图像部分组成，同时，由于对行人的检测可理解为具有危险探测作用，其中的危险可以包括列车对铁轨上行人产生的危险，也可以包括列车对铁轨附近行人产生的危险，故而：在一种实施方式中，铁轨附近的图像部分也可为除铁轨本身以外其他需要进行危险探测的部分，对于该部分，进一步可理解为：若人处于对应位置，也会因列车的行进带来危险。

视频帧图像，可以理解为机器采集的包含了铁轨以及铁轨以外其他对象的视频中的图像，通过视频帧图像的采集，可以有利于依据对视频帧图像中行人的检测，提前做好防范措施。其中的设备可以为无人机的摄像头、安装于探测车的摄像头等。

图2是图1中步骤S11的流程示意图。

请参考图2，步骤S11，包括：

S111：利用经训练的第一神经网络，得到第一标识信息。

其中，所述第一标识信息用于标识所述视频帧图像中所述铁轨区域的位置与尺寸。第一标识信息的数据形式可以是任意的，只要能够对位置与尺寸进行标识，就不脱离以上描述。

其中一种实施方式中，可以通过铁轨区域中特定点的位置表征铁轨区域的位置以及尺寸，例如：若铁轨区域为矩形的，第一标识信息可以包括铁轨区域中心点的坐标，用于表征铁轨区域中心点的位置，其可参照后文的第一坐标与第三坐标理解；进而可用于表征铁轨区域的位置，还可以包括铁轨区域顶点的坐标，具体可以为四个顶点的坐标，或者对角线对应的两个对角的顶点的坐标，其可参照后文列举的第二坐标与第四坐标理解。此外，铁轨区域也可采用其他任意的多边形区域。

图5是本发明一轨道交通场景的行人检测方法的处理过程示意图。

请参考图5，其示意了其中一个铁轨区域22放大并检测行人的过程，以上所称的坐标可理解为相对于视频帧图像的位置坐标，铁轨区域22的中心点的距离视频帧图像21上边缘的距离为H，中心点距离视频帧图像21左边缘的距离为L。

其中一种实施方式中，所述第一标识信息的数量可以为N个，其中，N为大于或等于2的整数，不同的第一标识信息分别用于标识所述视频帧图像中不同铁轨区域的位置与尺寸，不同的铁轨区域具体为表征所述视频帧图像中铁轨的不同区段的区域。

可见，轨道区域可进行分段标识，以使检测结果为分段的不同的轨道区域。具体实施过程中，标识过程中可尽量使标识的N个轨道区域覆盖图像中全部轨道，降低检测结果无法覆盖全部铁轨的可能性。

在其他可选实施方式中，也可采用一个第一标识信息标识整个轨道区域。

第一神经网络，可以理解为能够针对图像检测出铁轨区域的网络。

其中一种实施方式中，第一神经网络可在训练时输入已标识铁轨区域的图像，第一神经网络通过对图像中铁轨区域的标识方式进行学习，进而针对任意输入的图像，都能识别出其中的铁轨区域。

所述第一神经网络可以是经过第一训练图像和第二训练图像训练得到的，所述第一训练图像为已标识铁轨区域的图像，所述第二训练图像为对所述第一训练图像进行缩放、裁剪、旋转后的图像。可见，通过第二训练图像，可以在第一训练图像的基础上对训练素材进行有效扩充，提高训练的效率，进而可以增加网络的扛过拟合能力，提高检测的准确性。

第一神经网络采用的网络结构可以采用卷积神经网络，例如可以为ZF网络结构、VGG网络结构等，相比于VGG网络，本实施例可以采用ZF网络，ZF网络在检测精度足够的情况下，拥有更快的训练速度与检测速度，更适合于实时性要求较高的场景，即可具有较高的实时性。

S112：根据所述第一标识信息，获取所述视频帧图像中铁轨区域的图像。

S12：放大所述铁轨区域的图像。

图3是图1中步骤S12的流程示意图。

其中一种实施方式中，请参考图3，步骤S12可以包括：

S121：根据所述铁轨区域的图像的第一坐标集合，以及预设的放大比例，确定放大后的铁轨区域的图像的第二坐标集合。

其中，所述第一坐标集合包括所述铁轨区域的图像的中心点在所述视频帧图像所处坐标系中的第一坐标，以及所述铁轨区域的图像的部分或全部顶点在所述坐标系中的第二坐标；所述第二坐标集合包括放大后的铁轨区域的图像的中心点在所述坐标系中的第三坐标，以及放大后的铁轨区域的图像的部分或全部顶点在所述坐标系中的第四坐标，所述第三坐标与所述第一坐标相同。其中，若铁轨区域为矩形区域，则第二坐标与第四坐标可以采用矩形的对角的两个顶点的坐标。

预设的放大比例，可以为任意预设的放大比例，且该放大比例也可以为人为手调的。

针对矩形的铁轨区域，以1.44的放大比例为例，在保持中心点坐标不变的情况下，通过改变顶点坐标，可以根据第二坐标得到第四坐标，从而使得铁轨区域的图像的长与宽都扩大至1.2倍。

请参考图5，在放大过程中，铁轨区域22的中心点坐标的横坐标保持为与视频帧图像21的左边缘相距L，铁轨区域22的中心点坐标的竖坐标保持为与视频帧图像21的上边缘相距H。

通过图像的放大，可以使得其中的行人的尺寸变大，也可行人的轮廓可以更清晰，最终达到便于被识别的效果，从而提高行人检测的准确率。

若铁轨区域22放大后超出了视频帧图像的范围，也可实施步骤S122与步骤S123；若未超出，也可直接实施步骤S124。

S122：所述第二坐标集合中的至少一个第四坐标是否处于所述视频帧图像的范围外。

若是，则实施步骤S123：在保证所述第三坐标不变的同时，调整所述第四坐标的位置，以使所述至少一个第四坐标处于所述视频帧图像的范围内和/或处于所述视频帧图像的边缘。同时，在调整时还需保证多边形区域的形状保持不变。

可见，在该实施方式中，虽然预设有放大比例，若放大后超出视频帧图像的范围，则最终放大后的铁轨区域可能小于预设的放大比例，只要能满足铁轨区域处于视频帧图像的范围内即可。此外，对于同一视频帧图像的不同铁轨区域，也可能以不同的放大比例放大后进行行人检测。

具体实施过程中，请参考图5，也可不实际得到中间一张图，只需在计算过程中满足该过程，同时得到放大后尺寸的铁轨区域即可，例如，可以得到放大后铁轨区域的图像本身，以及其对应的第二坐标集合。

S124：根据所述第二坐标集合，放大所述铁轨区域的图像。

S13：在放大后的铁轨区域的图像中检测行人目标。

图4是图1中步骤S13与S14的流程示意图。

请参考图4，步骤S13，可以包括步骤S131：利用经训练的第二神经网络，得到第二标识信息。

其中，所述第二标识信息用于标识铁轨区域中所述行人目标的位置与尺寸；还可用于标识行人目标的轮廓等信息。其具体实现方式可以例如：通过四个标签表征行人目标对应的行人标识框的位置，通过该四个标签，可以表征行人对象的位置与尺寸，四个标签所表征位置还可确定行人标识框的形状，其可对应标识行人目标的轮廓。

第二神经网络，可在训练时输入已标识行人的铁轨区域的图像，第二神经网络通过对铁轨区域的图像中行人的标识方式进行学习，进而针对任意输入的铁轨区域的图像，都能识别出其中的行人。

第二神经网络采用的网络结构可以采用卷积神经网络，例如可以为ZF网络结构、VGG网络结构等，相比于VGG网络，本实施例可以采用ZF网络，ZF网络在检测精度足够的情况下，拥有更快的训练速度与检测速度，更适合于实时性要求较高的场景，即可具有较高的实时性，同时，还可具有较佳的精度。

所述第二神经网络可以是经过第三训练图像和第四训练图像训练得到的，所述第三训练图像为已标识行人目标的图像，所述第四训练图像为对所述第三训练图像进行缩放、裁剪、旋转后的图像。可见，通过第四训练图像，可以在第三训练图像的基础上对训练素材进行有效扩充，提高训练的效率，进而可以增加网络的扛过拟合能力，提高检测的准确性。第三训练图像和第四训练图像可以具体为标识了行人目标的铁轨区域的图像。

第一神经网络与第二神经网络可形成级联检测，将面向交通轨道的行人检测转化为由粗粒度，到细粒度的级联检测过程，应对任意具有光照、视角多变，大量遮挡等问题的多变图像，均可具有较佳的鲁棒性。

S14：根据所述行人目标在所述铁轨区域中的位置，以及所述铁轨区域在所述视频帧图像中的位置，在所述视频帧图像中标识所述行人目标。

步骤S14，可以包括：

S141：根据所述铁轨区域在所述视频帧图像中的位置，以及所述第二标识信息，确定第三标识信息。

其中，所述铁轨区域在所述视频帧图像中的位置可以利用第一标识信息表征。所述第三标识信息用于标识所述视频帧图像中所述行人目标的位置与尺寸，具体实施过程中，可以理解为用于将以上所述的行人标识框对应定位于视频帧图像中的信息。

S142：根据所述第三标识信息，在所述视频帧图像中标识所述行人目标。

具体可以为利用行人标识框在视频帧图像中标识行人目标，步骤S142采用的行人标识框可以与步骤S13中得到的行人标识框相同，也可根据放大后的铁轨区域与未放大的铁轨区域的尺寸比缩小步骤S13得到的行人标识框，从而得到步骤S142所采用的行人标识框。同时，根据放大后的铁轨区域与未放大的铁轨区域的尺寸比，可适应性调整行人标识框相对于铁轨区域的参考点位置，例如调整与铁轨区域的中心点位置之间的距离，以实现准确的定位。

本实施例提供的轨道交通场景的行人检测方法，通过放大所述铁轨区域的图像，以及在放大后的铁轨区域的图像中检测行人目标；在所述视频帧图像中标识所述行人目标，实现了在放大后铁轨区域的图像中检测行人目标，通过铁轨区域的尺寸放大，避免了铁轨区域以及其中行人太小对对行人目标检测的不良影响，改善了行人检测的检测结果，提高了检测的准确率。

图6是本发明一轨道交通场景的行人检测装置的结构示意图。

请参考图6，轨道交通场景的行人检测装置，包括：

第一检测模块301，用于在视频帧图像中检测并获取铁轨区域的图像；其中，所述铁轨区域为所述视频帧图像中表征铁轨的区域；

放大模块302，用于放大所述铁轨区域的图像；

第二检测模块303，用于在放大后的铁轨区域的图像中检测行人目标；

标识模块304，用于在所述视频帧图像中标识所述行人目标。

可选的，所述第一检测模块301，具体用于：

可选的，所述第一标识信息的数量为N个，其中，N为大于或等于2的整数，不同的第一标识信息分别用于标识所述视频帧图像中不同铁轨区域的位置与尺寸，不同的铁轨区域具体为表征铁轨的不同区段的区域。

可选的，所述铁轨区域为多边形区域；

所述放大模块302，具体用于：

其中，所述第一坐标集合包括所述铁轨区域的图像的中心点在所述视频帧图像所处坐标系中的第一坐标，以及所述铁轨区域的图像的部分或全部顶点在所述坐标系中的第二坐标；所述第二坐标集合包括放大后的铁轨区域的图像的中心点在所述坐标系中的第三坐标，以及放大后的铁轨区域的图像的部分或全部顶点在所述视频帧图像中的第四坐标，所述第三坐标与所述第一坐标相同；

根据所述第二坐标集合，放大所述铁轨区域的图像。

可选的，所述放大模块302，具体用于：

若所述第二坐标集合中的至少一个第四坐标处于所述视频帧图像的范围外，则在保证所述第三坐标不变的同时，调整所述第四坐标的位置，以使所述至少一个第四坐标处于所述视频帧图像的范围内和/或处于所述视频帧图像的边缘。

可选的，所述第二检测模块303，具体用于：

所述标识模块304，具体用于：

本实施例提供的轨道交通场景的行人检测装置，通过放大所述铁轨区域的图像，以及在放大后的铁轨区域的图像中检测行人目标；在所述视频帧图像中标识所述行人目标，实现了在放大后铁轨区域的图像中检测行人目标，通过铁轨区域的尺寸放大，避免了铁轨区域以及其中行人太小对对行人目标检测的不良影响，改善了行人检测的检测结果，提高了检测的准确率。

图7是本发明一电子设备的结构示意图。

请参考图7，本实施例还提供了一种电子设备50包括：处理器51以及存储器52；其中

存储器52，用于存储计算机程序，该存储器还可以是flash(闪存)。

处理器51，用于执行存储器存储的执行指令，以实现上述编码方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器52既可以是独立的，也可以跟处理器51集成在一起。

当所述存储器52是独立于处理器51之外的器件时，所述电子终端50还可以包括：

总线53，用于连接所述存储器52和处理器51。

本实施例还提供一种可读存储介质，可读存储介质中存储有计算机程序，当电子设备的至少一个处理器执行该计算机程序时，电子执行执行上述的各种实施方式提供的方法。

本实施例还提供一种程序产品，该程序产品包括计算机程序，该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种轨道交通场景的行人检测方法，其特征在于，包括：

放大所述铁轨区域的图像；

在放大后的铁轨区域的图像中检测行人目标；

根据所述行人目标在所述铁轨区域中的位置，以及所述铁轨区域在所述视频帧图像中的位置，在所述视频帧图像中标识所述行人目标；

所述铁轨区域为多边形区域；

所述放大所述铁轨区域的图像，包括：

根据所述第二坐标集合，放大所述铁轨区域的图像；

所述根据所述铁轨区域的图像的第一坐标集合，以及预设的放大比例，确定放大后的铁轨区域的图像的第二坐标集合之后，包括：

若所述第二坐标集合中的至少一个第四坐标的位置处于所述视频帧图像的范围外，则在保证所述第三坐标不变的同时，调整所述第四坐标，以使所述至少一个第四坐标处于所述视频帧图像的范围内和/或处于所述视频帧图像的边缘；

所述在放大后的铁轨区域的图像中检测行人目标，包括：

2.根据权利要求1所述的方法，其特征在于，所述在视频帧图像中检测并获取铁轨区域的图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一神经网络是经过第一训练图像和第二训练图像训练得到的，所述第一训练图像为已标识铁轨区域的图像，所述第二训练图像为对所述第一训练图像进行缩放、裁剪、旋转后的图像。

4.根据权利要求2所述的方法，其特征在于，所述第一标识信息的数量为N个，其中，N为大于或等于2的整数，不同的第一标识信息分别用于标识所述视频帧图像中不同铁轨区域的位置与尺寸，不同的铁轨区域具体为所述视频帧图像中表征铁轨的不同区段的区域。

5.根据权利要求1所述的方法，其特征在于，所述第二神经网络是经过第三训练图像和第四训练图像训练得到的，所述第三训练图像为已标识行人目标的图像，所述第四训练图像为对所述第三训练图像进行缩放、裁剪、旋转后的图像。

6.一种轨道交通场景的行人检测装置，其特征在于，包括：

放大模块，用于放大所述铁轨区域的图像；

标识模块，用于根据所述行人目标在所述铁轨区域中的位置，以及所述铁轨区域在所述视频帧图像中的位置，在所述视频帧图像中标识所述行人目标；

所述铁轨区域为多边形区域；

所述放大模块，具体用于：

根据所述第二坐标集合，放大所述铁轨区域的图像；

所述放大模块，还具体用于：

所述第二检测模块，具体用于：

所述标识模块，具体用于：

7.根据权利要求6所述的装置，其特征在于，所述第一检测模块，具体用于：