CN111914710B

CN111914710B - 一种铁路机务段场景描述方法及系统

Info

Publication number: CN111914710B
Application number: CN202010720114.9A
Authority: CN
Inventors: 卫星; 李航; 翟琰; 盛典墨; 陆阳; 刘邵凡; 蒋婷; 谢金龙; 赵明; 张研; 周芳; 陈柏霖
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2024-02-13
Anticipated expiration: 2040-07-24
Also published as: CN111914710A

Abstract

本发明公开一种铁路机务段场景描述方法及系统。所述铁路机务段场景描述方法包括：获取铁路机务段场景图像数据，预处理铁路机务段场景图像数据为标记图像数据，将标记图像数据划分为训练样本和测试样本，对标记图像数据进行检验，以剔除标记图像数据中异常的图像数据，以得到数据集，通过跨语言图像描述模型训练训练样本，以得到训练后的跨语言图像描述模型，通过训练后的跨语言图像描述模型对所述测试样本进行图像描述，以得到图像描述结果。本发明不需要采用人工观测机务段场景，描述效果好。

Description

一种铁路机务段场景描述方法及系统

技术领域

本发明涉及图像描述技术领域，特别是涉及一种铁路机务段场景描述方法及系统。

背景技术

机务段是铁路运输系统的主要行车部门，主要负责铁路机车的运用、综合整备、整体检修(一般为中修、段修)的行车单位。简单说，机务段就是负责驾驶火车和检修火车的，属于一线行车单位。机务段一般设置在重要的铁路枢纽城市或重要的货运编组站附近，主要担当旅客列车、货运列车、行包列车或专运任务的动力牵引任务。铁路作为主要的陆上运输工具，有着运力大、成本低、适应性强、安全性好等优势，对世界的工业革命和经济发展起着重要推动作用。我国地域辽阔、人口众多、资源分布不均，运力巨大的铁路大大解决了能源、矿产等重要物资运输以及国民出行的庞大需求。

然而机务段作为传统铁路运输部门，机车行进途中的场景(包括轨道线，信号机等)主要依靠机车乘务员肉眼观察。频频发生的机务段事故造成了惨重的生命、经济损失和严重的社会影响，铁路发生的调车事故件数占全部行车事故总件数的半数以上，其中最主要的原因就是乘务员的疲劳驾驶以及对道岔、信号机状态的误判。近年来随着监控装置在机车上的应用，列车的“两冒一超”事故得到了很大程度的遏制，但由于复杂的道岔线路，机车调车“挤、撞、脱”惯性故障是当前机车监控盲区，近几年机车在调车状态下闯蓝灯、挤道岔事故频频发生，该问题到目前为止仍然没有有效解决的方法。

综上所述，传统的机务段场景下中存在大量人工操作、疲劳驾驶引起的认知失常、肉眼观测的误判、传统监控设备无法提供有效的场景信息等实际问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种铁路机务段场景描述方法及系统，用于解决现有技术中的机务段场景下中存在大量人工操作、疲劳驾驶引起的认知失常、肉眼观测的误判、传统监控设备无法提供有效的场景信息等问题。

为实现上述目的及其他相关目的，本发明提供一种铁路机务段场景描述方法，包括：

通过图像数据获取设备获取铁路机务段场景图像数据，预处理所述铁路机务段场景图像数据为标记图像数据；

通过检验设备将所述标记图像数据划分为训练样本和测试样本，对所述标记图像数据进行检验，以剔除所述标记图像数据中异常的图像数据，以得到数据集；

通过跨语言图像描述模型创建设备创建一跨语言图像描述模型；

利用训练设备通过所述跨语言图像描述模型训练所述训练样本，以得到训练后的跨语言图像描述模型；

利用图像描述设备通过所述训练后的跨语言图像描述模型对所述测试样本进行图像描述，以得到图像描述结果。

在本发明的一实施例中，所述获取铁路机务段场景图像数据，预处理所述铁路机务段场景图像数据为标记图像数据的步骤包括：

采集机务段机车的行进视频流数据；

按照设定的时间间隔提取所述行进视频流数据中的关键帧，保存所述关键帧为图像数据；

裁剪所述图像数据，以得到裁剪后的图像数据；

对所述裁剪后的图像数据进行标记，以得到标记图像数据。

在本发明的一实施例中，所述创建一跨语言图像描述模型的步骤包括：

选择一数据模型作为基线模型，将深度残差网络作为所述基线模型的编码器，将长短期记忆网络作为所述基线模型的解码器；

所述深度残差网络包括多个卷积层、平均池化层以及全连接层；

设置所述长短期记忆网络的隐藏层单元个数、网络层数目以及输入词的向量长度。

在本发明的一实施例中，所述通过所述跨语言图像描述模型训练所述训练样本，以得到训练后的跨语言图像描述模型的步骤包括：

设置所述跨语言图像描述模型的训练策略；

根据所述训练策略，以调整所述训练样本的图像大小与网络输入大小相同；

设置所述深度残差网络的网络参数；

设置所述跨语言图像描述模型的算法工作过程；

获取损失函数，以根据所述损失函数更新权重，通过最小化损失函数完成所述训练样本训练。

在本发明的一实施例中，所述设置所述深度残差网络的网络参数的步骤包括：

设置深度残差网络的传递函数，所述深度残差网络的传递函数公式为：

y＝F(x,{W_i})+x

F＝W₂*σ*(W₁x)

其中，x表示输入张量，F表示线性变换和非线性变换，σ表示激活函数，W表示权重；

根据公式调整所述深度残差网络的学习率LR，其中，iter表示迭代次数，max_iter表示最大迭代次数，power表示更新梯度。

在本发明的一实施例中，所述设置所述跨语言图像描述模型的算法工作过程的步骤包括：

所述解码器在t时刻的隐藏层状态h_t、图像向量Z_t以及上下文向量以预测当前词语的概率分布，并生成当前词；

使用来表示一个包含学习到参数的仿射变换：

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)

其中，i_t、f_t、c_t、o_t、h_t分别表示长短期记忆网络的输入、遗忘、记忆、输出、隐藏状态，g_t表示长短期记忆网络的候选，tanh表示激活函数，D表示长短期记忆网络获得的图像特征的维数，E表示嵌入矩阵，m和n分别表示嵌入维数、长短期记忆网络的维数，σ、⊙分别表示激活函数、元素相乘；

计算特征向量a_i融合时赋予位置i的相对重要性：α_ti＝soft max(e_ti)，其中，v、W_a、W_h、a_attn表示学习的参数；

计算图像向量z_t的期望值：其中，k表示特征向量的个数，a_t,i表示每个特征向量的权重，a_i表示特征向量；

在每个步骤t上，解码器计算注意力分布：β_t＝soft max(e_t)，其中v_t′、W_h′、W_s和b_a′_ttn表示学习到的参数，注意力分布用于产生解码器隐藏状态的加权和，称为上下文向量：/>

根据另一解码器的上下文向量图像向量z_t和当前解码器输入x_t计算步骤t的软注意力关注度：/>其中向量w_c,w_z,w_x和标量b_ptr表示可以学习的参数，σ表示S型函数；

利用深层输出层来计算给定解码器状态、当前隐藏层状态和基于软注意力开关的单词概率：通过该概率分布，从词汇表中生成当前词。

在本发明的一实施例中，所述设置所述跨语言图像描述模型的算法工作过程的步骤还包括：

定义覆盖向量

其中，/>表示图像特征上的分布，/>表示零向量；

对图像向量进行处罚，处罚公式为：

其中，/>

在本发明的一实施例中，所述获取损失函数，以根据所述损失函数更新权重的步骤包括：

设置损失函数计算跨语言图像描述模型的结果与标记图像数据之间的差异，所述损失函数为：

其中，/>表示在步骤t生成的中文目标单词、英文目标单词，P表示当前词的概率，λ表示超参数；

根据所述损失函数计算权重和偏置项的梯度，并更新权重，

其中，L表示损失函数，y表示网络输出值，/>表示真实值，W表示网络权重，b表示偏置项。

在本发明的一实施例中，所述通过所述训练后的跨语言图像描述模型对所述测试样本进行图像描述，以得到图像描述结果的步骤包括：

获取训练后的跨语言图像描述模型；

将所述测试样本输入至所述训练后的跨语言图像描述模型，并输出图像描述结果。

本发明还提供一种铁路机务段场景描述系统，所述铁路机务段场景描述系统包括：

图像数据获取设备，用于获取铁路机务段场景图像数据，预处理所述铁路机务段场景图像数据为标记图像数据；

检验设备，用于将所述标记图像数据划分为训练样本和测试样本，对所述标记图像数据进行检验，以剔除所述标记图像数据中异常的图像数据，以得到数据集；

跨语言图像描述模型创建设备，用于创建一跨语言图像描述模型；

训练设备，用于通过所述跨语言图像描述模型训练所述训练样本，以得到训练后的跨语言图像描述模型；

图像描述设备，用于通过所述训练后的跨语言图像描述模型对所述测试样本进行图像描述，以得到图像描述结果。

如上所述，本发明的一种铁路机务段场景描述方法及系统，具有以下有益效果：

本发明的铁路机务段场景描述方法通过采用标记的机务段场景图像样本，对跨语言图像描述模型进行训练，得到训练后的网络模型用于生成目标场景的中英双语描述，不需要采用人工观测机务段场景，描述效果好。

本发明的铁路机务段场景描述方法大大提高了系统识别机务段场景的准确率，本发明具有更加有利于复杂的工业的使用需求。

本发明的铁路机务段场景描述方法解决了传统的机务段场景下中存在大量人工操作、疲劳驾驶引起的认知失常、肉眼观测的误判、传统监控设备无法提供有效的场景信息等问题。

附图说明

图1为本申请实施例提供的一种铁路机务段场景描述方法的工作流程图。

图2为本申请实施例提供的图1中的一种铁路机务段场景描述方法的步骤S1的工作流程图。

图3为本申请实施例提供的图1中的一种铁路机务段场景描述方法的步骤S3的工作流程图。

图4为本申请实施例提供的图1中的一种铁路机务段场景描述方法的跨语言图像描述模型中Encoder网络深度残差网络的架构示意图。

图5为本申请实施例提供的图1中的一种铁路机务段场景描述方法的步骤S4的工作流程图。

图6为本申请实施例提供的图1中的一种铁路机务段场景描述方法的跨语言图像描述模型的构架示意图。

图7为本申请实施例提供的一种铁路机务段场景描述系统的结构原理框图。

图8为本申请实施例提供的一种电子设备的结构原理框图。

图9为本申请实施例提供的一种计算机可读存储介质的结构原理框图。

元件标号说明

1 输入图像

2 图像特征

3 英文解码器

4 中文解码器

10 图像数据获取设备

20 检验设备

30 跨语言图像描述模型创建设备

40 训练设备

50 图像描述设备

60 处理器

70 存储器

80 计算机指令

801 计算机可读存储介质

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，图1为本申请实施例提供的一种铁路机务段场景描述方法的工作流程图。本发明提供一种铁路机务段场景描述方法，本发明的铁路机务段场景描述方法解决了传统的机务段场景中存在大量人工操作、疲劳驾驶引起的认知失常、肉眼观测的误判、传统监控设备无法提供有效的场景信息等问题。所述铁路机务段场景描述方法包括：步骤S1、通过图像数据获取设备10获取铁路机务段场景图像数据，预处理所述铁路机务段场景图像数据为标记图像数据。步骤S2、通过检验设备20将所述标记图像数据划分为训练样本和测试样本，对所述标记图像数据进行检验，以剔除所述标记图像数据中异常的图像数据，以得到数据集。具体的，可以但不限于将所述标记图像数据按8:2分为训练样本和测试样本，可以但不限于对所述标记图像数据进行人工检验，异常的标记图像数据进行剔除后，得到训练用的数据集。具体的，剔除所述标记图像数据中异常的图像数据，以得到数据集包括：(1)、去除以下不符合要求的描述：a)、没有描述图像中所有重要部分(机务段场景对应为：机车、轨道、信号机、人、其他异物)；b)、描述不重要细节(如轨道线周围环境等)；c)、描述可能发生的事件；d)、给场景中对象命名；e)、场景描述语句少于8个字；(2)、剔除图像无明显对象的数据，删除相应的标注文件。

如图1所示，步骤S3、通过跨语言图像描述模型创建设备30创建一跨语言图像描述模型。步骤S4、利用训练设备40通过所述跨语言图像描述模型训练所述训练样本，以得到训练后的跨语言图像描述模型。步骤S5、利用图像描述设备50通过所述训练后的跨语言图像描述模型对所述测试样本进行图像描述(image captioning)，以得到图像描述结果。

请参阅图2，图2为本申请实施例提供的图1中的一种铁路机务段场景描述方法的步骤S1的工作流程图。步骤S1中的所述获取铁路机务段场景图像数据，预处理所述铁路机务段场景图像数据为标记图像数据的步骤包括：步骤S11、采集机务段机车的行进视频流数据。具体的，可以在机车前端安装摄像机，采集机务段的机车行进的视频流数据。步骤S12、按照设定的时间间隔提取所述行进视频流数据中的关键帧，保存所述关键帧为图像数据。具体的，可以按照一定的时间间隔提取视频中的关键帧，并保存为图像数据。具体的，可以在机车车头外侧的上方垂直距离为h的位置安装摄像机，摄像机焦距为f，可以在多个角度安装摄像机以达到对机务段场景多方位的观测。设置摄像机参数，由于工业现场环境较为复杂，对摄像机采集的图像有很大的干扰，因此设置摄像机采用较高的分辨率以捕捉图像的更多特性，设置摄像机帧率，在机车行进较快时采用较高的摄像机帧率可以使采集的图像更加清晰，根据工业现场的光线特性调整摄像机的饱和度，对比度等参数以达到对机务段场景的最佳拍摄。从视频帧中获取机务段场景图像，设置固定的时间间隔，按照指定时间间隔抽取关键帧并转换为图像。机务段场景图像为训练样本和测试样本的数据源。

如图2所示，步骤S13、裁剪所述图像数据，以得到裁剪后的图像数据。步骤S14、对所述裁剪后的图像数据进行标记，以得到标记图像数据。具体的，在步骤S13中，可以但不限于将所有的图像数据裁剪至512×512的大小。可以但不限于采用pycocotools包对所述图像数据进行标记，获得并保存标记图像数据。可以对所述训练样本和测试样本进行图像增强，其中包括对图像进行随机角度旋转和噪声处理。

请参阅图3，图3为本申请实施例提供的图1中的一种铁路机务段场景描述方法的步骤S3的工作流程图。步骤S3中的创建一跨语言图像描述模型的步骤包括：步骤S31、选择一数据模型作为基线模型，将深度残差网络作为所述基线模型的编码器，将长短期记忆网络作为所述基线模型的解码器。具体的，选择Soft-Attention(软注意力)模型作为基线模型，可以但不限于采用一个预训练的ResNet-101(深度残差网络)网络作为Encoder(编码器)提取输入图像特征，采用两个LSTM(长短期记忆)网络作为Decoder(解码器)获得图像描述结果。解码器网络有RNN(循环神经网络)、LSTM、GRU(门控单元网络)等。对于较长的序列输入，一般需要较深的神经网络，但是同一般的深度网络一样，RNN也存在优化困难的问题，如梯度消失与梯度爆炸。而对于梯度消失问题，由于相互作用的梯度呈指数减少，因此长期依赖信号将会变得非常微弱，而容易受到短期信号波动的影响。LSTM通过设计“门”结构实现保留信息和选择信息功能(遗忘门、输入门)，从而得以使输入信息长期传递下去。GRU是对LSTM的简化，将输入门和遗忘门合并为更新门(更新门决定隐状态保留或放弃部分)，然而在众多的LSTM变种中，其在很多任务中性能和鲁棒性均比不上RNN和LSTM。LSTM选择单层结构，设置hidden_size为512。设置训练神经网络的超参数，包括：优化方法、初始化学习率、权重衰减率等。

如图3所示，步骤S32、所述深度残差网络包括多个卷积层、平均池化层以及全连接层。步骤S33、设置所述长短期记忆网络的隐藏层单元个数、网络层数目以及输入词的向量长度。

请参阅图4，图4为本申请实施例提供的图1中的一种铁路机务段场景描述方法的跨语言图像描述模型中Encoder网络深度残差网络的架构示意图。所述深度残差网络可以但不限于包括一个conv1卷积层，三个conv2_x(三个卷积层)，四个conv3_x(三个卷积层)，二十三个conv4_x(三个卷积层)，三个conv5_x(三个卷积层)以及一个平均池化层组成，第一层是一个步长为2的7×7的卷积，最后一层是一个全连接层。其中四种不同大小残差块，分别为conv2_x(卷积核1×1，数量64；卷积核3×3，数量64；卷积核1×1，数量256)，conv3_x(卷积核1×1，数量128；卷积核3×3，数量128；卷积核1×1，数量512)，conv4_x(卷积核1×1，数量256；卷积核3×3，数量256；卷积核1×1，数量1024)，conv5_x(卷积核1×1，数量512；卷积核3×3，数量512；卷积核1×1，数量2048)。所述长短期记忆网络的hidden_size设置为512，num_layers设置为1，输入词向量长度为512。

请参阅图5，图5为本申请实施例提供的图1中的一种铁路机务段场景描述方法的步骤S4的工作流程图。所述通过所述跨语言图像描述模型训练所述训练样本，以得到训练后的跨语言图像描述模型的步骤包括：步骤S41、设置所述跨语言图像描述模型的训练策略。具体的，在步骤S41，训练batch(批次、批量)的大小、训练epoch(时期)数量、初始化学习率、权重衰减率、优化方法、loss(损失)函数。

如图5所示，步骤S42、根据所述训练策略，以调整所述训练样本的图像大小与网络输入大小相同。具体的，在步骤S42中，调整训练样本的图像大小与网络输入大小相同为512×512。输入图像经过ResNet-101编码器编码为k个与图像某个位置有关的D维特征向量，其中3×3的卷积核用于特征压缩。交互式解码器由两个解码器组成，每个解码器为长短期记忆网络，输入由输入图像卷积得到的特征向量，通过交互式解码算法，两个长短期记忆网络同步生成不同的两种语言(以下阐述中以英语为第一种语言l₁，汉语为第二种语言l₂，均以l₁解码器生成为例)的输入图像描述。采用BLEU(Bilingual Evaluation Understudy)和CIDEr(Consensus-based lmage Description Evaluation)指标用于进行imagecaptioning评分。

如图5所示，步骤S43、设置所述深度残差网络的网络参数，其包括：步骤S431、设置深度残差网络的传递函数，所述深度残差网络的传递函数公式为：

y＝F(x,{W_i})+x (1)

F＝W₂*σ*(W₁x) (2)

如图5所示，步骤S432、根据公式(3)调整所述深度残差网络的学习率LR，其中，iter表示迭代次数，max_iter表示最大迭代次数，power表示更新梯度。具体的，训练的批处理大小batchsize可以但不限于为4，最大迭代次数可以但不限于为30000次。动量momentum可以但不限于为0.9，设置初始学习率可以但不限于为0.001，在训练模型的时候采用inv策略来对学习率进行调整。

如图5所示，步骤S44、设置所述跨语言图像描述模型的算法工作过程，其包括：

如图5所示，步骤S44、获取损失函数，以根据所述损失函数更新权重，通过最小化损失函数完成所述训练样本训练.其包括：在t时刻两种语言的解码器根据自身t时刻的隐藏层状态h_t、图像向量Z_t和另一种语言的上下文向量预测当前词语的概率分布，从而生成当前词，这两个解码器并行预测每个单词并保持相互交互。每一时间步输入的h_t和Z_t采用基线模型的方法计算。使用/>来表示一个包含学习到参数的仿射变换：

c_t＝f_t⊙c_t-1+i_t⊙g_t (5)

h_t＝o_t⊙tanh(c_t) (6)

如图5所示，其中，i_t、f_t、c_t、o_t、h_t分别表示LSTM的输入、遗忘、记忆、输出和隐藏状态，向量表示图像向量，捕获与特定输入位置相关联的视觉信息，/>表示一个嵌入矩阵。设m和n分别表示嵌入维数和LSTM维数，σ和⊙分别表示logistic-sigmoid激活和元素相乘。根据在图像不同位置提取的特征相对应的注释向量a_i,i＝1,…,k计算图像向量z_t。对于每个位置i，该机制都会由注意力模型f_att，基于先前隐藏状态h_t-1计算正权重α_i，表示将特征向量a_i融合在一起时赋予位置i的相对重要性。

α_ti＝soft max(e_ti) (8)

如图5所示，其中v、W_a、W_h和a_attn表示可学习的参数。一旦计算了权重(总和为1)，可以直接取图像向量z_t的期望值：

如图5所示，输入信息不能充分利用是注意力模型的一个常见问题，往往注意力模型会重复关注某些重要位置而导致其他位置的信息没能得到充分利用。为了解决上述问题，提出了覆盖模型，定义了一个覆盖向量它是所有先前编码器每个时间步上图像注意力分布的总和：

如图5所示，表示图像特征上的(非规范化)分布，表示到目前为止这些特征向量在之前时间步获得的关注程度，/>表示零向量，因为在第一个时间步，输入即为源图像。覆盖向量用作注意力机制的额外输入，将公式(7)更改为：

如图5所示，其中，W_z表示长度与ν相同的可学习参数向量，确保了注意力机制的先前注意位置(通过体现)可以影响到注意力机制选择的当前注意位置。能使注意力机制尽可能避免重复关注相同的位置，从而尽可能地利用图像特征中的信息。定义覆盖范围损失，以对反复受到关注的图像向量进行处罚，覆盖范围损失是有限制的；/>

如图5所示，上下文向量：上下文向量是对两种语言已生成内容的语义信息的综合表示，也是本发明提出的交互式解码算法的关键内容。上下文向量是由l2解码器0～t-1时刻的隐藏层状态s_k，k∈{0，…，t-1}与l₁解码器t时刻的隐藏层状态h_t通过同步注意力机制得到。在每个步骤t上，解码器(单层单向LSTM)都会按照如下方法计算注意力分布：

β_t＝soft max(e_t) (14)

如图5所示，其中，v′_t、W′_h、W_s和b′_attn表示学习到的参数。该注意力分布可以看作源单词表上的概率分布，它告诉解码器在哪里寻找下一个单词的位置。接下来，注意力分布用于产生解码器隐藏状态的加权和，称为上下文向量C_t：

如图5所示，软开关：为了更加灵活地利用图像向量z_t和上下文向量C_t的语义信息，加入软注意力开关，可以调整对图像向量和上下文向量的关注度。其中时间步t的关注度p_gen∈[0，1]可以从l₂解码器的上下文向量图像向量z_t和l₁解码器输入x_t计算：

如图5所示，其中，向量w_c,w_z,w_x和标量b_ptr表示可学习的参数，而σ表示S型函数。生成当前词：最终模型使用深层输出层来计算给定LSTM状态、当前隐藏层状态和基于软注意力开关的单词概率：

如图5所示，通过该概率分布，从词汇表中生成当前词。

如图5所示，模型的损失是由中文目标单词的对数似然、英文目标单词/>的对数似然和覆盖损失(由超参数λ加权)组成，使用如下损失函数计算模型结果与标注真实值之间的差异：

如图5所示，通过最小化该损失函数实现端到端的训练。根据反向传播公式，计算权重和偏置项的梯度并更新权重：

如图5所示，其中，L表示损失函数，y表示网络输出值，表示真实值，W表示网络权重，b表示偏置项。

请参阅图6，图6为本申请实施例提供的图1中的一种铁路机务段场景描述方法的跨语言图像描述模型的构架示意图。机务段场景包括：主要目标为铁路机车、轨道线、信号机、描述围绕主要目标展开，描述内容为主要目标之间的关系以及各自状态。基于交互式解码算法的跨语言图像描述模型包括但不限于：1个基于CNN网络的Encoder、2个基于LSTM的Decoder、1个基于覆盖机制的图像自注意力模块、1个上下文向量自注意力模块以及1个基于软开关的单词自注意力模块。

请参阅图7，图7为本申请实施例提供的一种铁路机务段场景描述系统的结构原理框图。与本发明的一种铁路机务段场景描述方法原理相似的是，本发明还提供了一种铁路机务段场景描述系统，所述铁路机务段场景描述系统包括但不限于图像数据获取设备10、检验设备20、跨语言图像描述模型创建设备30、训练设备40以及图像描述设备50。所述图像数据获取设备10可以为摄像机。所述图像数据获取设备10用于获取铁路机务段场景图像数据，预处理所述铁路机务段场景图像数据为标记图像数据。所述检验设备20用于将所述标记图像数据划分为训练样本和测试样本，对所述标记图像数据进行检验，以剔除所述标记图像数据中异常的图像数据，以得到数据集。所述跨语言图像描述模型创建设备30用于创建一跨语言图像描述模型。所述训练设备40用于通过所述跨语言图像描述模型训练所述训练样本和测试样本，以得到训练后的跨语言图像描述模型。所述图像描述设备50用于通过所述训练后的跨语言图像描述模型对所述测试样本进行图像描述，以得到图像描述结果。

请参阅图8，图8为本申请实施例提供的一种电子设备的结构原理框图。本发明还提出一种电子设备，所述电子设备包括处理器60和存储器70，所述存储器70存储有程序指令，所述处理器60运行程序指令实现上述的铁路机务段场景描述方法。所述处理器60可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件；所述存储器70可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。所述存储器70也可以为随机存取存储器(Random Access Memory，RAM)类型的内部存储器，所述处理器60、存储器70可以集成为一个或多个独立的电路或硬件，如：专用集成电路(Application SpecificIntegratedCircuit，ASIC)。需要说明的是，上述的存储器70中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

请参阅图9，图9为本申请实施例提供的一种计算机可读存储介质的结构原理框图。本发明还提出一种计算机可读存储介质801，所述计算机可读存储介质801存储有计算机指令80，所述计算机指令80用于使所述计算机执行上述的铁路机务段场景描述方法。计算机可读存储介质801可以是，电子介质、磁介质、光介质、电磁介质、红外介质或半导体系统或传播介质。计算机可读存储介质801还可以包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘可以包括光盘-只读存储器(CD-ROM)、光盘-读/写(CD-RW)和DVD。

综上所述，本发明的铁路机务段场景描述方法通过采用标记的机务段场景图像样本，对跨语言图像描述模型进行训练，得到训练后的网络模型用于生成目标场景的中英双语描述，不需要采用人工观测机务段场景，描述效果好。本发明解决了传统的机务段场景下中存在大量人工操作、疲劳驾驶引起的认知失常、肉眼观测的误判、传统监控设备无法提供有效的场景信息等问题。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种铁路机务段场景描述方法，其特征在于，包括：

利用图像描述设备通过所述训练后的跨语言图像描述模型对所述测试样本进行图像描述，以得到图像描述结果；

其中，所述创建一跨语言图像描述模型的步骤包括：

设置所述长短期记忆网络的隐藏层单元个数、网络层数目以及输入词的向量长度；

所述利用训练设备通过所述跨语言图像描述模型训练所述训练样本，以得到训练后的跨语言图像描述模型的步骤包括：

设置所述跨语言图像描述模型的训练策略；

设置所述深度残差网络的网络参数；

设置所述跨语言图像描述模型的算法工作过程；

获取损失函数，以根据所述损失函数更新权重，通过最小化损失函数完成所述训练样本训练；

所述设置所述跨语言图像描述模型的算法工作过程包括：

使用T_s,t:来表示一个包含学习到参数的仿射变换：

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)

计算特征向量a_i融合时赋予位置i的相对重要性：α_ti＝softmax(e_ti)，其中，v、W_a、W_h、a_attn表示学习的参数；

在每个步骤t上，解码器计算注意力分布：β_t＝softmax(e_t)，其中v′_t、W′_h、W_s和b′_attn表示学习到的参数，注意力分布用于产生解码器隐藏状态的加权和，称为上下文向量：/>

利用深层输出层来计算给定解码器状态、当前隐藏层状态和基于软注意力开关的单词概率：通过该概率分布，从词汇表中生成当前词；

定义覆盖向量

其中，/>表示图像特征上的分布，/>表示零向量；

对图像向量进行处罚，处罚公式为：

其中，/>

2.根据权利要求1所述的一种铁路机务段场景描述方法，其特征在于，所述获取铁路机务段场景图像数据，预处理所述铁路机务段场景图像数据为标记图像数据的步骤包括：

采集机务段机车的行进视频流数据；

裁剪所述图像数据，以得到裁剪后的图像数据；

对所述裁剪后的图像数据进行标记，以得到标记图像数据。

3.根据权利要求1所述的一种铁路机务段场景描述方法，其特征在于，所述设置所述深度残差网络的网络参数的步骤包括：

y＝F(x,{W_i})+x

F＝W₂*σ*(W₁x)

4.根据权利要求1所述的一种铁路机务段场景描述方法，其特征在于，所述获取损失函数，以根据所述损失函数更新权重的步骤包括：

根据所述损失函数计算权重和偏置项的梯度，并更新权重，

5.根据权利要求1所述的一种铁路机务段场景描述方法，其特征在于，所述通过所述训练后的跨语言图像描述模型对所述测试样本进行图像描述，以得到图像描述结果的步骤包括：

获取训练后的跨语言图像描述模型；

6.一种铁路机务段场景描述系统，其特征在于，所述铁路机务段场景描述系统包括：

跨语言图像描述模型创建设备，用于选择一数据模型作为基线模型，将深度残差网络作为所述基线模型的编码器，将长短期记忆网络作为所述基线模型的解码器；所述深度残差网络包括多个卷积层、平均池化层以及全连接层；设置所述长短期记忆网络的隐藏层单元个数、网络层数目以及输入词的向量长度，以创建一跨语言图像描述模型；

训练设备，用于设置所述跨语言图像描述模型的训练策略；根据所述训练策略，以调整所述训练样本的图像大小与网络输入大小相同；设置所述深度残差网络的网络参数；设置所述跨语言图像描述模型的算法工作过程；获取损失函数，以根据所述损失函数更新权重，通过最小化损失函数完成所述训练样本训练，通过所述跨语言图像描述模型训练所述训练样本，以得到训练后的跨语言图像描述模型；

图像描述设备，用于通过所述训练后的跨语言图像描述模型对所述测试样本进行图像描述，以得到图像描述结果；

其中，所述训练设备还用以根据所述解码器在t时刻的隐藏层状态h_t、图像向量Z_t以及上下文向量以预测当前词语的概率分布，并生成当前词；

使用T_s,t:来表示一个包含学习到参数的仿射变换：

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)

定义覆盖向量

其中，/>表示图像特征上的分布，/>表示零向量；

对图像向量进行处罚，处罚公式为：

其中，/>