CN111582069B

CN111582069B - 一种空基监视平台的轨道障碍物零样本分类方法及装置

Info

Publication number: CN111582069B
Application number: CN202010322354.3A
Authority: CN
Inventors: 曹先彬; 罗晓燕; 沈佳怡
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2021-05-28
Anticipated expiration: 2040-04-22
Also published as: CN111582069A

Abstract

本发明是一种空基监视平台的轨道障碍物零样本分类方法及装置，涉及航空监视和轨道障碍物检测技术领域。本发明装置包括图片采集器、障碍物目标提取器、目标映射网络、语义向量生成器、语义向量映射网络、基于余弦度量的最近邻分类器和警报器。本发明方法通过无人机采集铁轨图片，提取障碍物目标区域，映射为固定维度的向量，作为视觉特征；对障碍物的类别名称使用Word2vec技术生成语义向量，再映射为同视觉特征相同维度的语义特征向量；建立基于余弦度量的最近邻分类器对障碍物分类；在训练阶段，利用可见类别障碍物样本训练映射网络。本发明实现了对铁轨上未知障碍物的检测，提高了轨道障碍物的分类准确率，降低了误检虚警率。

Description

一种空基监视平台的轨道障碍物零样本分类方法及装置

技术领域

本发明属于航空监视技术领域，尤其涉及一种空基监视平台的轨道障碍物零样本分类方法及装置。

背景技术

空基监视平台用于全天时大范围保障轨道交通系统的正常运行。该平台维护轨道交通系统的重要任务之一是准确进行轨道障碍物检测。

传统的轨道障碍物检测分为实时检测和非实时检测。非实时检测主要包括检测车排障和人工检查。这两种方法是在设备运行前进行故障排查保证轨道可以正常使用。但是如果在两次排查之间无法及时发现轨道故障，容易引发严重的车辆脱轨侧翻事故。实时检测主要包括固定的视频监控，红外摄像，检测雷达等技术。但是这些系统由于误检率高，容易产生虚警，造成列车紧急停车，严重降低铁路运输效率。目前的解决方案是在该实时系统上添加大量的人工判断，十分耗费人力物力。空基监视平台的机动性大大增加了实时轨道障碍物检测的灵活性，与传统实时检测相比可以实现轨道线路的全覆盖。

由于空基实时检测系统的机动性，不停变换的场景增加了检测系统中障碍物分类难度，训练一个可区分所有障碍物的检测器十分困难。主要原因在于以下两个方面：(1)轨道障碍物类别未知不确定。尽管轨道交通部分为了保障列车运行安全对部分线路进行了封闭，但是仍然有大量的自然因素和人为破坏造成轨道遮挡。轨道障碍物的种类繁多，传统深度学习分类器的类别不能覆盖所有可能的种类，因此会造成误检和虚警。(2)缺少训练样本。传统深度学习分类器在训练过程中每一个训练类别需要大量的训练样本防止过拟合。但是部分轨道障碍物的样本图片很难采集。这就直接导致传统深度学习分类器在缺少训练样本的类别上失效。在实际应用中，分类器不仅需要对可见类别进行分类，也需要对从不可见类别进行分类。不可见类别没有训练样本参与分类器的训练过程。因此，基于训练样本匮乏或没有的情况下，如何在空基实时检测系统上实现轨道障碍物检测，是一个亟待解决的问题。

发明内容

针对目前空基实时检测系统在检测轨道障碍物时，由于训练样本匮乏或缺失而导致障碍物检测困难的问题，本发明提出了一种空基监视平台的轨道障碍物零样本分类方法及装置，可以实现空基监视平台在障碍物目标类别不可见(没有训练样本)的极端情况下的轨道障碍物排查，并提高了轨道障碍物的分类准确率，降低了误检虚警率。

本发明的一种空基监视平台的轨道障碍物零样本分类方法，根据是否有训练样本将障碍物分为可见类别和不可见类别，在训练阶段，利用可见类别障碍物的样本训练分类器，在测试阶段，利用训练好的分类器对铁轨图片进行障碍物分类。本发明方法包括：

步骤(1)通过无人机采集铁轨的图片；图片输入前景检测器从中提取障碍物目标区域，并将提取的区域图片裁剪为统一的尺寸大小；

在训练阶段，由步骤(1)获取可见类别障碍物的样本，样本为设定大小的障碍物目标区域图片，样本的标签为障碍物的类别标签；

步骤(2)对障碍物的类别名称使用Word2vec技术生成相应的语义向量；

步骤(3)对剪裁后的障碍物目标区域进行映射，映射到一个维度为W的嵌入空间中，得到障碍物目标区域的视觉特征；W为正整数；所用到的映射网络为3层感知机网络；

步骤(4)对障碍物类别名称的语义向量进行映射，映射到维度为W的嵌入空间中，得到各障碍物类别名称的语义特征；所用到的映射网络为一个有20个卷积层和1个全局平均池化层的神经网络，每四个卷积层为一组卷积模块，每组卷积模块包含一次下采样；

在训练阶段，对可见类别障碍物的类别名称的语义向量提取语义特征；

步骤(5)设计基于余弦度量的最邻近分类器，将某障碍物目标区域的视觉特征和所有可见类别输入基于余弦度量的最邻近分类器，实现对障碍物分类；

步骤(6)使用训练样本对步骤(3)和步骤(4)中的映射网络进行训练，获取训练好的最邻近分类器；

在训练阶段，对可见类别障碍物的视觉特征和所有可见类别的语义特征进行球面匹配，优化映射网络中的所有网络参数，本发明一方面要求映射后的语义向量两两之间的距离尽可能的远，一方面要求映射前后的语义向量保持相同的几何结构信息；

步骤(7)利用训练好的最邻近分类器实时对无人机拍摄的图片进行障碍物分类。无人机采集的铁轨图片经前景检测器提取障碍物目标区域，并裁剪到统一的尺寸后，通过训练好的映射网络得到视觉特征，将不可见类别的类别名称的语义向量通过训练好的映射网络得到语义特征；将所得到的视觉特征与所有障碍物的类别名称的语义特征输入训练好的最邻近分类器，获取障碍物类别，进而判断该障碍物目标的危险等级并预警。

本发明的一种空基监视平台的轨道障碍物零样本分类装置，包括：图片采集器、障碍物目标提取器、目标映射网络、语义向量生成器、语义向量映射网络、基于余弦度量的最近邻分类器和警报器。

所述的图片采集器由无人机搭载摄像机实现，拍摄铁轨的图片并输入障碍物目标提取器。

所述的障碍物目标提取器利用前景检测器从图片中提取障碍物目标区域，并将提取的区域图片裁剪为统一的尺寸大小，输出到目标映射网络。

所述的目标映射网络对输入的障碍物目标区域进行映射，映射到一个维度为W的嵌入空间中，作为障碍物目标区域的视觉特征；目标映射网络为一个有20个卷积层和1个全局平均池化层的神经网络，每四个卷积层为一组卷积模块，每组卷积模块包含一次下采样。

所述的语义向量生成器使用Word2vec技术生成障碍物类别名称的语义向量。

所述的语义向量映射网络将所述的语义向量映射到维度为W的嵌入空间中，得到障碍物类别的语义特征；语义向量映射网络为3层感知机网络。

所述的基于余弦度量的最近邻分类器根据障碍物目标区域的视觉特征和障碍物类别的语义特征，对障碍物分类。

所述的警报器根据最近邻分类器对障碍物的分类结果，进行不同程度的预警。

在训练阶段，对目标映射网络和语义向量映射网络中的参数进行优化，获取训练好的最邻近分类器。然后利用训练好的目标映射网络、语义向量映射网络以及最邻近分类器对图片采集器采集的图片进行障碍物分类。

本发明与现有技术相比，具有以下优势和积极效果：

(1)与传统分类器相比，本发明方法及装置在实际应用中，可以对检测过程中发现的未知类别的障碍物进行分类，解决空基监视平台进行障碍物排查时，障碍物目标类别不可见(没有训练样本)的极端情况，并可根据轨道专家划分的危险等级进行不同程度的预警。

(2)本发明采用深度学习方法建立网络模型进行分类，采用球面匹配来优化模型中参数，一方面增大类间差距提高容错率，另一方面保留原始语义向量的几何结构，增强映射函数的鲁棒性，提高网络的泛化能力，从而实现在训练样本匮乏或缺失的情况下，实现对未知障碍物的检测，提高了轨道障碍物的分类准确率，降低了误检虚警率。

附图说明

图1是本发明实施例提供的一种空基监视平台的轨道障碍物零样本分类方法流程示意图；

图2是本发明障碍物目标区域的映射网络示意图；

图3是本发明障碍物目标区域的映射网络中的卷积模块的示意图；

图4是本发明实施例提供的一种空基监视平台的轨道障碍物零样本分类装置的示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细和深入描述。

如图1所示，本发明实施例实现的一种空基监视平台的轨道障碍物零样本分类方法，分如下S101～S109来说明。

S101：通过无人机获取待监测轨道的图片，并送入提取障碍物目标区域的视觉特征的网络中。

S102：从原始的监测图片中提取疑似障碍物的障碍物目标区域，并将该障碍物目标区域剪裁到统一的固定尺寸。

本发明采用预训练的前景检测器从原始的监测图片中提取疑似障碍物的障碍物目标区域。由于该前景检测器得到的障碍物目标区域的大小不一致，需要统一尺寸并输入到后续的映射网络中进行进一步处理。本发明实施例中，设置统一尺寸为224*224*3。224*224表示图片的大小，单位为像素，3表示图片的R、G、B三通道。本发明实施例中的前景检测器可以直接采用训练好的模型。

S103：在网络的训练过程中，使用Word2vec技术生成所有已知的可见障碍物类别的语义向量；在测试过程中，生成所有不可见类别的语义向量。

本发明实施例采用自然语言处理领域中预训练的Word2vec网络，该网络的输入是某一障碍物类别的名称，输出是可以代表该类别的一个语义向量。本发明设置输出的语义向量的长度是1024维。

可见类别是指有训练样本的障碍物类别，不可见类别是指没有训练样本的障碍物类别。

在训练阶段，采集能获得训练样本的可见类别障碍物的图片，并进行S102提取，获得障碍物目标区域作为训练样本。训练样本的标签为对应障碍物的类别标签。

S104：将裁剪后的障碍物目标区域映射到一个固定维度的嵌入空间中，得到障碍物目标区域的视觉特征。

本发明实施例设计的障碍物目标区域的映射网络为一个拥有20个卷积层和1个全局平均池化层的神经网络，如图2所示。每四个卷积层为一组卷积模块，共包括5个卷积模块，每个卷积模块中包含一次下采样。该神经网络的5个卷积模块输出特征图的尺寸分别为112*112*32，56*56*64，28*28*128，14*14*256和7*7*512。本发明使用全局平均池化层操作对最后一个卷积模块的输出进行处理，输出的视觉特征分布在一个维度为512的嵌入空间中。

如图3所示，每个卷积模块由四个卷积层组成。卷积层1，卷积层3和卷积层4的卷积核均为1*1的大小，卷积层2的卷积核为3*3的大小。其中卷积层2和卷积层4的卷积步长为2，其输出的特征图相对于输入的特征图长和宽的尺寸均减半，相当于进行了一次2*2的下采样。

S105：将语义向量映射到与步骤104相同维度的嵌入空间中，得到障碍物类别的语义特征。

本发明设计语义向量的映射网络为一个3层感知机网络，该网络每层的神经元个数分别为1024，512和512。该3层感知机网络输出的语义特征分布在一个维度为512的嵌入空间中。在训练阶段，3层感知机网络的输入是训练集中所有可见类别的语义向量，输出是语义特征。

S106：设计基于余弦度量的最近邻分类器，将障碍物目标区域归一化的视觉特征和障碍物的语义特征输入该分类器，以判断障碍物的类别。

设某障碍物目标区域样本为x，与该样本对应的视觉特征为

某一障碍物类别的语义向量为a，该可见类别对应的语义特征为ψ(a)，该语义特征对应的类别向量为y。类别向量是将障碍物类别标签采用one-hot的方法转换成的向量表示。设已知的障碍物类别的总数为N_seen。在训练阶段，N_seen为可见类别的总数；在测试阶段，或实际使用阶段，N_seen为已知的所有障碍物类别的总数。相应地，本发明设计基于余弦度量的最近邻分类器为f(x)如下：

其中，该分类器中κ表示余弦度量函数，j＝1，2，...，N_seen，a_j表示障碍物类别j的语义向量，ψ(a_j)为障碍物类别j的语义特征，y_j表示障碍物类别j的类别向量。根据最近邻分类器计算出样本x最接近的障碍物类别，将样本x划分为该类别。

在训练阶段，

描述训练样本x的视觉特征

和可见类别的语义特征ψ(a_j)的相似度；使用softmax函数将这一系列的相似度转化成概率p(j|x)，描述将

预测为障碍物类别j的概率大小；

然后将该一系列的概率和

的真实标签向量进行交叉熵计算。

真实标签y(x)重新表达为one-hot向量y(x)＝[0，...，1，...，0]，其中y_i＝1，表示第i类是样本的所属类别；其他类别对应的维度均为零，y_j＝0，j≠i。则涉及函数loss1如下：

则测试阶段，利用训练好的分类器，确定所采集的待测样本的类别：

将待测样本x的视觉特征

跟所有的障碍物类别的语义特征ψ(a_j)进行余弦相似度的计算，从中比较得出最高相似度的障碍物类别语义向量a_j，所对应的类别j就是为待测样本x的预测标签

S107：在训练过程中，对可见障碍物目标的视觉特征和所有可见类别的语义特征进行球面匹配，优化S104和S105中的映射网络中所有的网络参数。

本发明一方面要求映射后的语义特征两两之间的距离尽可能的远，一方面要求映射前后的语义向量保持相同的几何结构信息，因此设计了一个可调节的正则项约束网络的训练过程，该正则项的公式为：

其中，κ(ψ(a_i)，ψ(a_j))表示任意两个可见类别的语义特征ψ(a_i)、ψ(a_j)的相似度，i，j取值范围均为[1，2，...，N_seen]；κ表示余弦度量函数；η_i，j表示语义特征ψ(a_i)、ψ(a_j)的相似度的待匹配关系值，其计算如下：

其中，λ表示训练映射网络开始前设置的超参数；||·||表示取模操作，上角标T表示转置；a_i、a_j分别表示可见类别i、j的语义向量；当语义向量为同一类别，即i＝j时，其待匹配的关系值为1。当语义向量来自不同类别，即i≠j时，两个语义向量映射后相似度的待匹配关系值为-1和

的调和平均，||a_i||、||a_j||分别为a_i、a_j的模长。-1鼓励这两个语义向量映射后相似度越低越好，尽可能的分离，这么做的目的是为了增大类间差距，提高容错率。

鼓励这两个语义向量映射后的相似度与映射前的相似度保持一致，这么做的目的是保留原始语义向量的几何结构，增强映射函数的鲁棒性，提高网络的泛化能力。

在网络模型训练的时候，设置损失函数

输入标记的训练样本进行训练，更新网络参数。

本发明为了完成零样本分类任务的核心在于如何提高已知类别到未知类别的泛化能力。上面设计的正则项是球面匹配的核心，其不仅增加已知类别的类间差距，而且保留了原始的语义向量之间的相关性。所设计的正则项有效防止网络在已知类别的训练样本上过拟合，提高了在未知类别上的分类准确率，从而解决现有的轨道障碍物不确定和缺少训练样本的问题。

S108：在获得训练好的网络模型后，将无人机采集的图片经过S102提取障碍物目标区域，然后输入训练好的网络模型，根据最近邻分类器的分类结果，得到障碍物目标所属类别。

在训练阶段，利用已知可见类别的障碍物图片训练得到一个网络模型，得到一个好的分类器；那么在测试阶段，通过无人机采集的图片是包含未知障碍物类别的，即包括不可见障碍物类别，但未知障碍物类别的名称是已知的，可得到类别向量和语义向量，将S105映射得到语义特征，对图片经过S102截取、S104映射得到视觉特征，输入最近邻分类器，选取与视觉特征最相似的语义特征，该语义特征对应的类别即为该视觉特征所代表的障碍物目标的类别。本发明训练好的映射网络模型和分类器，可以通过对未知障碍物类别的语义向量进行映射，对未知类别的障碍物样本进行分类。

S109：判断该障碍物目标的危险等级，进行预警。

根据预先对各类障碍物的危险等级的划分，当检测到障碍物时，进行相应的预警。

如图4所示，相应地，本发明实现了一种空基监视平台的轨道障碍物零样本分类装置，包括：图片采集器、障碍物目标提取器、目标映射网络、语义向量生成器、语义向量映射网络、基于余弦度量的最近邻分类器和警报器。

图片采集器，是通过无人机搭载摄像机来实现，对待监测地面区域进行图像采集，获取待监测区域的图片，输出到障碍物目标提取器。

障碍物目标提取器，利用前景检测器从待监测图片中提取疑似障碍物的障碍物目标区域，并将该障碍物目标区域剪裁到固定尺寸224*224*3，输出到目标映射网络。

目标映射网络的结构如图2所示，用于将裁剪后的障碍物目标区域映射到一个固定维度的嵌入空间中，输出障碍物目标区域的视觉特征，输入到基于余弦度量的最近邻分类器。

语义向量生成器，用于使用Word2vec技术生成障碍物类别名称的语义向量。在网络的训练过程中使用Word2vec技术生成所有可见类别的语义向量，在测试过程中生成所有不可见类别的语义向量。

语义向量映射网络，将语义向量生成器输出的语义向量映射到与目标映射网络的输出特征相同的嵌入空间中，输出对应类别的语义特征。语义向量映射网络为一个3层感知机网络。

基于余弦度量的最近邻分类器，根据障碍物目标区域的视觉特征和障碍物类别的语义特征，对障碍物分类。最近邻分类器的公式如S106中所述。在训练阶段，利用训练样本对目标映射网络和语义向量映射网络中的参数进行优化，采用球面匹配模块来对训练样本的视觉特征和所有可见类别障碍物类别的语义特征进行球面匹配。训练阶段的损失函数如S107中所述。在测试阶段，通过图片采集器实时采集图片输入到障碍物目标提取器，然后将输入图片输入目标映射网络获得障碍物目标区域的视觉特征，再输入最近邻分类器，在最近邻分类器将所有所有可见和不可见类别的语义特征进行计算，输出障碍物目标的类别。

警报器，根据最近邻分类器对障碍物的分类结果，结合专家定义的危险等级，进行不同程度的预警。

本发明对于零样本分类任务的核心在于如何提高已知类别到未知类别的泛化能力。在分类问题的训练过程中，对可见障碍物目标的视觉特征和所有可见类别的语义特征进行球面匹配，优化所有的网络参数，然后再利用训练好的分类器来识别所有类别的障碍物。本发明设计的正则项不仅增加已知类别的类间差距，而且保留原始的语义向量之间的相关性。该正则项有效防止了网络在已知类别的训练样本上过拟合，提高了在未知类别上的分类准确率。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种空基监视平台的轨道障碍物零样本分类方法，其特征在于，包括：

步骤1：通过无人机采集铁轨的图片，输入前景检测器中；前景检测器从图片中提取障碍物目标区域，并将提取的区域图片裁剪为统一的尺寸大小；

步骤2：将障碍物类别分为可见类别和不可见类别，可见类别是指有训练样本的障碍物类别，不可见类别是指没有训练样本的障碍物类别；对所有障碍物的类别名称使用Word2vec技术生成相应的语义向量；在训练阶段，对所有可见类别障碍物的语义向量执行步骤3，由步骤1采集可见类别障碍物的样本；

步骤3：对障碍物类别名称的语义向量进行映射，映射到维度为W的嵌入空间中，得到障碍物类别的语义特征；其中，所用到的映射网络为3层感知机网络；W为正整数；

步骤4：对剪裁后的障碍物目标区域进行映射，映射到一个维度为W的嵌入空间中，得到障碍物目标区域的视觉特征；其中，所用到的映射网络为一个有20个卷积层和1个全局平均池化层的神经网络，每四个卷积层为一组卷积模块，每组卷积模块包含一次下采样；

在训练阶段，对可见类别障碍物的样本提取视觉特征；

步骤5：设计基于余弦度量的最邻近分类器，将障碍物目标区域的视觉特征和障碍物类别的语义特征，输入基于余弦度量的最邻近分类器，实现对障碍物分类；

步骤6：在训练阶段，对可见类别障碍物的样本的视觉特征和可见类别的语义特征进行球面匹配，优化步骤3和步骤4的映射网络中的网络参数，获取训练好的最邻近分类器；

所述的步骤6中，设计如下一个正则项约束网络的训练过程：

其中，在训练阶段，N_seen为可见类别的总数；κ表示余弦度量函数；a_i、a_j分别表示可见类别i、j的语义向量，ψ(a_i)，ψ(a_j)分别表示可见类别i、j的语义特征；η_i，j表示语义特征ψ(a_i)、ψ(a_j)的相似度的待匹配关系值，根据下式计算：

其中，λ表示训练映射网络开始前设置的超参数；||·||表示取模操作，上角标T表示转置；

在训练阶段，设置损失函数

利用训练样本对步骤3和步骤4中的映射网络中的网络参数进行优化，其中，x为障碍物目标区域，即训练样本，函数

y_j表示障碍物类别j的类别向量；

步骤7：在测试阶段，实时由无人机采集铁轨图片，经前景检测器提取障碍物目标区域，并裁剪到规定尺寸后，通过训练好的映射网络得到视觉特征，将不可见类别的类别名称的语义向量通过训练好的映射网络得到语义特征；将所得到的视觉特征与所有障碍物的类别名称的语义特征输入最邻近分类器，获取障碍物类别。

2.根据权利要求1所述的方法，其特征在于，所述的步骤3中，W设置为512。

3.根据权利要求1所述的方法，其特征在于，所述的步骤4中，每个卷积模块中的四个卷积层中，第一、第三和第四卷积层的卷积核均为1*1的大小，第二卷积层的卷积核为3*3的大小；第二卷积层和第四卷积层的卷积步长为2。

4.根据权利要求1所述的方法，其特征在于，所述的步骤5中，最邻近分类器表示为f(x)如下：

其中，κ表示余弦度量函数，j＝1，2，...，N_seen，N_seen为已知障碍物类别的总数；x为障碍物目标区域，

为x的视觉特征；a_j表示障碍物类别j的语义向量，ψ(a_j)为障碍物类别j的语义特征；y_j表示障碍物类别j的类别向量。

5.基于权利要求1～4任意一项所述的方法实现的一种空基监视平台的轨道障碍物零样本分类装置，其特征在于，包括：图片采集器、障碍物目标提取器、目标映射网络、语义向量生成器、语义向量映射网络、基于余弦度量的最近邻分类器和警报器；

所述的图片采集器由无人机搭载摄像机实现，拍摄铁轨的图片并输入障碍物目标提取器；

所述的障碍物目标提取器利用前景检测器从图片中提取障碍物目标区域，并将提取的区域图片裁剪为统一的尺寸大小，输出到目标映射网络；

所述的目标映射网络对输入的障碍物目标区域进行映射，映射到一个维度为W的嵌入空间中，作为障碍物目标区域的视觉特征；目标映射网络为一个有20个卷积层和1个全局平均池化层的神经网络，每四个卷积层为一组卷积模块，每组卷积模块包含一次下采样；W为正整数；

所述的语义向量生成器使用Word2vec技术生成障碍物类别名称的语义向量；

所述的语义向量映射网络将所述的语义向量映射到维度为W的嵌入空间中，得到障碍物类别的语义特征；语义向量映射网络为3层感知机网络；

所述的基于余弦度量的最近邻分类器根据障碍物目标区域的视觉特征和障碍物类别的语义特征，对障碍物分类；

所述的警报器根据最近邻分类器对障碍物的分类结果，进行不同程度的预警；

在训练阶段，对目标映射网络和语义向量映射网络中的参数进行优化，获取训练好的最邻近分类器；然后利用训练好的目标映射网络、语义向量映射网络以及最邻近分类器对图片采集器采集的图片进行障碍物分类。