CN112597959A

CN112597959A - 基于人工智能和计算机视觉的火车安全监控方法和装置

Info

Publication number: CN112597959A
Application number: CN202011617566.0A
Authority: CN
Inventors: 祝斯佳; 陈雪磊
Original assignee: Zhengzhou Bohan Intelligent Technology Co ltd
Current assignee: Zhengzhou Bohan Intelligent Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-02

Abstract

本发明涉及一种基于人工智能和计算机视觉的火车安全监控方法和装置，获取火车驾驶员的手势识别语音启动指令，若手势识别语音启动指令是有效语音启动指令，则获取至少两帧火车驾驶员的手势动作图像，进而得到各帧手势动作图像的手势动作数据以及各帧手势动作数据的节点和边的特征向量，将各帧手势动作数据的节点和边的特征向量输入至预设的手势动作识别模型中，识别得到目标手势动作，将目标手势动作输入至预设的火车状态识别模型中，得到目标火车状态信息。本发明提供的火车安全监控方法能够准确得到与火车驾驶员的实际手势动作相对应的真实火车状态信息，提升火车状态信息获取的精度，进而提升火车监控的安全性。

Description

基于人工智能和计算机视觉的火车安全监控方法和装置

技术领域

本发明涉及一种基于人工智能和计算机视觉的火车安全监控方法和装置。

背景技术

火车驾驶员在火车行驶前或者行驶过程中，需要将行驶状态以及车内仪器检测情况等信息通过手势演示出来，传统的火车安全监控方式为：其他工作人员在看到手势之后，根据手势与火车状态之间的对应关系，获取到与手势相关的数据信息，并将数据信息输出给后台监控中心。后台监控中心实时掌握到火车的状态信息，以确保火车的安全行驶，防止事故的发生。后来，为了实现智能化控制，一些基于图像处理的手势识别方法相继被研发出来，但是目前的这些手势识别方法的手势识别精度比较低，若应用到火车安全监控中，可能会获取到错误的识别结果，进而根据错误的识别结果得到错误的火车状态信息，影响火车的安全监控。

发明内容

本发明提供一种基于人工智能和计算机视觉的火车安全监控方法和装置，用于解决现有的火车安全监控方法的准确性比较低，会影响火车的安全监控的技术问题。

本发明采用以下技术方案：

一种基于人工智能和计算机视觉的火车安全监控方法，包括如下步骤：

获取火车驾驶员的手势识别语音启动指令；

对所述手势识别语音启动指令进行判断，获取所述手势识别语音启动指令是否是有效语音启动指令的判别结果；

若所述判别结果为所述手势识别语音启动指令是有效语音启动指令，则获取至少两帧火车驾驶员的手势动作图像；

根据各帧手势动作图像，获取各帧手势动作图像的手势动作数据；

根据各帧手势动作数据，获取各帧手势动作数据的节点和边的特征向量；

将所述各帧手势动作数据的节点和边的特征向量输入至预设的手势动作识别模型中，识别得到目标手势动作；

将所述目标手势动作输入至预设的火车状态识别模型中，获取与所述目标手势动作相对应的目标火车状态信息。

更优地，所述对所述手势识别语音启动指令进行判断，获取所述手势识别语音启动指令是否是有效语音启动指令的判别结果具体为：

对所述手势识别语音启动指令进行语音识别，得到手势识别文字启动指令；

将所述手势识别文字启动指令与预设的手势识别文字启动标准指令进行比对，若所述手势识别文字启动指令是所述手势识别文字启动标准指令，则所述手势识别语音启动指令是有效语音启动指令，若所述手势识别文字启动指令不是所述手势识别文字启动标准指令，则所述手势识别语音启动指令不是有效语音启动指令。

更优地，所述各帧手势动作数据的节点的特征向量包括节点的三维世界坐标以及节点在三维坐标系中的速度；所述各帧手势动作数据的边的特征向量包括边所对应的两个节点之间的空间欧式距离以及边所对应的两个节点的连线与三维坐标系中三个坐标轴之间的夹角。

更优地，所述手势动作识别模型的创建过程具体为：

获取火车驾驶员的各个手势动作所对应的手势动作样本数据集，所述手势动作样本数据集包括与对应的手势动作相对应的至少两帧手势动作样本数据；

对于任意一个手势动作，获取该手势动作的手势动作样本数据集中各帧手势动作样本数据的节点和边的特征向量；

将该手势动作对应的节点和边的特征向量输入至预设的图网络结构进行计算；

对经过计算后的图网络结构进行训练，获取该手势动作的手势动作识别子模型；

获取火车驾驶员的所有手势动作对应的手势动作识别子模型，所述火车驾驶员的所有手势动作对应的手势动作识别子模型构成所述手势动作识别模型。

更优地，所述将该手势动作对应的节点和边的特征向量输入至预设的图网络结构进行计算具体为：

初始化该手势动作的每一帧手势动作样本数据的全局属性的特征向量；

构建与该手势动作的手势动作样本数据的帧数相同个数的图网络结构，将每一帧手势动作样本数据的节点和边的特征向量以及初始化的全局属性的特征向量输入到对应的图网络结构；

在每一帧手势动作样本数据的节点和边的特征向量以及初始化的全局属性的特征向量对应的图网络结构中，对每一帧手势动作样本数据的节点和边的特征向量以及初始化的全局属性的特征向量进行多次更新和聚合运算，输出该手势动作每一帧手势动作样本数据的全局属性的目标特征向量；

根据该手势动作所有帧的手势动作样本数据的全局属性的目标特征向量，获取该手势动作的目标分类向量。

更优地，所述对每一帧手势动作样本数据的节点和边的特征向量以及初始化的全局属性的特征向量进行多次更新和聚合运算中，采用多层感知机MLP模型进行更新运算，采用求和函数进行聚合运算。

更优地，所述输出该手势动作每一帧手势动作样本数据的全局属性的目标特征向量具体为：

获取该手势动作的每一帧手势动作样本数据的全局属性的初始特征向量；

将该手势动作的每一帧手势动作样本数据的全局属性的初始特征向量乘以预设的全局属性的输出层的权重矩阵，得到该手势动作的每一帧手势动作样本数据的全局属性的目标特征向量，或者，确定该手势动作的每一帧手势动作样本数据的全局属性的初始特征向量为该手势动作的每一帧手势动作样本数据的全局属性的目标特征向量；

相应地，所述根据该手势动作所有帧的手势动作样本数据的全局属性的目标特征向量，获取该手势动作的目标分类向量，包括：

将该手势动作所有帧的手势动作样本数据的全局属性的目标特征向量进行拼接，得到该手势动作的初始分类向量；

将该手势动作的初始分类向量乘以预设的全局属性的分类层的权重矩阵，得到该手势动作的目标分类向量，或者，确定该手势动作的初始分类向量为该手势动作的目标分类向量。

更优地，所述火车状态识别模型包括至少两个手势动作，以及与各手势动作相对应的火车状态信息；

相应地，所述将所述目标手势动作输入至预设的火车状态识别模型中，获取与所述目标手势动作相对应的目标火车状态信息具体为：

将所述目标手势动作输入至所述火车状态识别模型中，获取与所述目标手势动作相对应的火车状态信息，获取到的火车状态信息为所述目标火车状态信息。

更优地，所述火车安全监控方法还包括如下步骤：

获取预设时间段内的目标火车状态信息中的各正常火车状态信息和各异常火车状态信息；

将所述各正常火车状态信息和各异常火车状态信息填充入预设的火车安全监控初始表格中，得到火车安全监控目标表格。

一种基于人工智能和计算机视觉的火车安全监控装置，包括存储器和处理器，以及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述基于人工智能和计算机视觉的火车安全监控方法。

本发明的技术效果包括：首先获取火车驾驶员的手势识别语音启动指令，并对手势识别语音启动指令进行判断，只有当手势识别语音启动指令是有效语音启动指令时才获取火车驾驶员的手势动作图像，通过该判断过程能够避免在无需对火车驾驶员的手势动作图像进行获取的时间中获取火车驾驶员的手势，避免识别出一些错误的手势动作，进而避免根据错误的手势动作而对火车状态做出错误的判断，避免影响对火车的安全监控，提升火车状态信息获取的精度以及火车状态监控的可靠性；获取至少两帧火车驾驶员的手势动作图像，并获取各帧手势动作图像的手势动作数据，获取各帧手势动作数据的节点和边的特征向量，将各帧手势动作数据的节点和边的特征向量输入至预设的手势动作识别模型中，就能够识别得到火车驾驶员的目标手势动作，即火车驾驶员的实际手势动作，通过根据各帧手势动作数据的节点和边的特征向量进行手势识别，能够提升手势识别准确度，最后将识别得到的目标手势动作输入至预设的火车状态识别模型中，就能够得到与目标手势动作相对应的目标火车状态信息，因此，通过本发明提供的火车安全监控方法能够准确得到与火车驾驶员的实际手势动作相对应的真实火车状态信息，提升火车状态信息获取的精度，进而提升火车安全监控的可靠性。

附图说明

图1是本发明提供的一种基于人工智能和计算机视觉的火车安全监控方法的流程图。

具体实施方式

基于人工智能和计算机视觉的火车安全监控方法实施例：

本实施例提供一种基于人工智能和计算机视觉的火车安全监控方法，该火车安全监控方法可以应用于火车站后台监控中心的计算机设备或者服务器设备中。

如图1所示，该火车安全监控方法包括如下步骤：

(1)获取火车驾驶员的手势识别语音启动指令：

火车驾驶室设置有麦克风等语音采集设备，用于采集火车驾驶员的语音信号，当需要手势识别以进行火车安全监控时，火车驾驶员说出手势识别语音启动指令，语音采集设备采集到手势识别语音启动指令。

(2)对所述手势识别语音启动指令进行判断，获取所述手势识别语音启动指令是否是有效语音启动指令的判别结果：

获取到手势识别语音启动指令之后，对该手势识别语音启动指令进行判断，获取该手势识别语音启动指令是否是有效语音启动指令的判别结果。本实施例中，先对该手势识别语音启动指令进行语音识别，得到手势识别文字启动指令，然后将得到的手势识别文字启动指令与预设的手势识别文字启动标准指令进行比对，即将与手势识别语音启动指令相对应的实际文字信号与标准文字信号进行比对，判断实际文字信号是否是标准文字信号。应当理解，手势识别文字启动标准指令为表示确定需要进行手势识别的文字信号。因此，若手势识别文字启动指令是手势识别文字启动标准指令，则该手势识别语音启动指令是有效语音启动指令，若手势识别文字启动指令不是手势识别文字启动标准指令，则该手势识别语音启动指令不是有效语音启动指令。

作为其他的实施方式，还可以直接以手势识别语音启动指令这一语音信号作为检测对象，比如获取手势识别语音启动指令的波形数据，通过与标准波形进行比对，以判断该手势识别语音启动指令是否是有效语音启动指令。

(3)若所述判别结果为所述手势识别语音启动指令是有效语音启动指令，则获取至少两帧火车驾驶员的手势动作图像：

本实施例中，在火车驾驶室内设置图像采集设备，图像采集设备采集火车驾驶员的手势动作图像。通过调节图像采集设备的采集角度，图像采集设备可以只对火车驾驶员的手部区域进行采集，直接得到手势动作图像，也可以对火车驾驶员的上半身或者全身区域进行图像采集，然后根据图像分割处理或者图像识别处理，识别得到手部区域的图像。

若判别结果为手势识别语音启动指令是有效语音启动指令，则图像采集设备获取至少两帧火车驾驶员的手势动作图像。其中，图像采集设备按照预设的采样周期获取至少两帧火车驾驶员的手势动作图像，具体帧数由实际应用场景进行确定，而采样周期也根据实际需要进行设置。

应当理解，获取至少两帧火车驾驶员的手势动作图像是因为对于某一个手势动作而言，需要多帧连续的手势动作图像才能够表示该手势动作，进而才能够识别到。

(4)根据各帧手势动作图像，获取各帧手势动作图像的手势动作数据：

根据各帧手势动作图像，获取各帧手势动作图像的手势动作数据，得到各帧手势动作数据。手势动作数据可以为手势骨架数据，比如手掌上的若干个节点以及节点之间的线段，线段在图网络中称为边。应当理解，手掌上的各节点由实际需要进行设置，比如选取手掌的各个关节作为各个节点。

各帧的手势动作数据可以通过对采集到的手势动作图像进行图像处理得到，先获取手势动作图像的目标区域(即手掌)，然后对目标区域进行图像处理，识别得到手势动作的关键节点等数据，这一部分属于现有技术，不再赘述。应当理解，各帧的手势动作数据遵守各帧手势动作图像的时间顺序。

(5)根据各帧手势动作数据，获取各帧手势动作数据的节点和边的特征向量：

本实施例中，该火车安全监控方法采用图网络进行手势动作识别，以下对图网络进行说明。

图网络是一种用来对图进行操作和计算的神经网络，图网络的通用框架为：用“图”这一术语来代表具有全局属性的有向多图结构。在这一框架下，G＝(u,V,E)代表一张图，u代表图的全局属性，

代表节点集合(N^v为节点总数)，其中v_i为节点的属性；

代表边集合(N^e为边总数)，其中e_k为边的属性，r_k为接收节点的索引，s_k为发送节点的索引。图网络的构建都是基于图网络块(GN block)的，通常一个完整的GN block包含三个更新函数φ和三个聚合函数ρ，其具体计算过程如下：

对每一条边应用φ^e函数来进行更新得到更新的边属性e'_k；对E′_i应用ρ^e→v函数来进行边的属性聚合得到

对每一个节点应用φ^v函数来进行更新得到更新后的节点属性v′_i；对E'应用ρ^e→u函数来进行边的属性聚合得到

对更新后的节点集合应用ρ^v→u函数来进行边的聚合得到

对全局属性应用φ^u函数进行更新得到u′。

用公式表示如下：

其中，

为接收节点索引为i的所有边的集合，

为更新后边的集合，

为更新后节点的集合。

上述为一个完整GN block的计算过程，除此之外，还可以根据实际需要进行各种变化，比如：GraphIndependent block，只有对节点、边和全局属性的更新计算，而没有聚合计算，用公式表示如下：

e'_k＝φ^e(e_k)

v′_i＝φ^v(v_i)

g'＝φ^g(g)

基于上述两种GN block结构，提出了一种EncodeProcessDecode的图网络模型，包括编码模块、核心处理模块、解码模块和输出模块，其中编码和解码模块为GraphIndependent block结构，核心处理模块为完整的GN block结构，输出模块为一个全连接层。该模型对输入图依次进行编码、处理、解码和输出的操作，最终根据输出模块输出一个更新后的图。

根据上述中的节点集合得到各帧手势动作数据的节点的特征向量，根据上述中的手势动作数据的边集合计算得到边的特征向量。

其中，令

为第t个图的节点集合，t＝1,...,T，T表示帧数，T≥2。第t个图表示第t帧手势动作，第t个图的节点集合表示第t帧手势动作数据(即手势骨架数据)中的节点数据，其中

为第t帧手势动作数据中第i个关键点的节点属性。

根据节点集合得到节点的特征向量，节点的特征向量包括节点的三维世界坐标以及节点在三维坐标系中的速度。那么，节点的特征向量为D^v维向量

其中

为该节点的三维世界坐标，

为该点在三维坐标系中的速度，具体计算公式如下：

其中，Δt为均匀采样时间间隔，N^v为手势动作数据中关键点的个数。

令

为第t个图的边集合，t＝1,...,T，第t个图表示第t帧手势动作，第t个图的边集合表示第t帧手势动作数据(即手势骨架数据)中的边数据，其中

为第t帧手势动作数据中关键点之间的空间上自然连接的第k条边。

根据边集合得到边的特征向量，边的特征向量包括边所对应的两个节点之间的空间欧式距离以及边所对应的两个节点的连线与三维坐标系中三个坐标轴之间的夹角。那么，边的特征向量为D^e维向量

其中

为该边所对应的两个节点之间的空间欧式距离，

分别为该边所对应的两个节点的连线与三个坐标轴之间的夹角，具体计算公式如下：

(6)将所述各帧手势动作数据的节点和边的特征向量输入至预设的手势动作识别模型中，识别得到目标手势动作：

其中，手势动作识别模型用于识别得到手势动作，手势动作识别模型包括多种不同的手势动作，手势动作的种类越多，识别结果越准确。

作为一个具体实施方式，以下给出手势动作识别模型的一种具体创建过程：

获取火车驾驶员的各个手势动作所对应的手势动作样本数据集，应当理解，可以获取火车驾驶员的所有的手势动作所对应的手势动作样本数据集(所有的手势动作是指目前已存在的各种手势动作)，其中，对于任意一个手势动作样本数据集，包括与对应的手势动作相对应的至少两帧手势动作样本数据，具体帧数由实际需要进行设置。

对于任意一个手势动作：

(I)获取该手势动作的手势动作样本数据集中各帧手势动作样本数据的节点和边的特征向量。

(II)将该手势动作对应的节点和边的特征向量输入至预设的图网络结构进行计算。

其中，初始化该手势动作的每一帧手势动作样本数据的全局属性的特征向量，即将该手势动作的每一帧手势动作样本数据的的全局属性的特征向量初始化为0。令u^t为第t个图的全局属性，用于聚合节点和边的特征，其特征向量为N^u维向量

根据图网络计算得到，由于全局属性代表了图的全局特征，融合了节点和边的有效鉴别信息，因此，认为全局属性是对应帧手势动作样本数据的全局特征表示，最后可用于手势动作的分类。

构建与该手势动作的手势动作样本数据的帧数相同个数的图网络结构，即该手势动作的每一帧手势动作样本数据对应一个图网络结构，那么，对于T帧手势动作样本数据，设置T个并行化的图网络结构，本实施例中，单个图网络结构可以是EncodeProcessDecode模型，则构建T个EncodeProcessDecode模型分别对应T个图网络结构。

将每一帧手势动作样本数据的节点和边的特征向量以及初始化的全局属性的特征向量输入到对应的图网络结构。

在每一帧手势动作样本数据的节点和边的特征向量以及初始化的全局属性的特征向量对应的图网络结构中，对每一帧手势动作样本数据的节点和边的特征向量以及初始化的全局属性的特征向量进行多次更新和聚合运算，本实施例中，采用多层感知机MLP模型进行更新运算，采用求和函数进行聚合运算，用计算公式表示如下：

多次更新和聚合运算之后，输出该手势动作每一帧手势动作样本数据的全局属性的目标特征向量。作为一个具体实施方式，先获取该手势动作的每一帧手势动作样本数据的全局属性的初始特征向量g^t(即经过多次更新和聚合运算之后得到初始特征向量g^t)，然后每一帧手势动作数据的全局属性的目标特征向量

直接就是每一帧手势动作样本数据的全局属性的初始特征向量g^t。作为其他的实施方式，由于只需要根据全局属性进行分类，故只定义了全局属性的输出层，该输出层输出一个分类向量，其维数为预定义的手势动作类别总数，本实施例中，设置一个输出层的权重矩阵

那么，先获取该手势动作的每一帧手势动作样本数据的全局属性的初始特征向量g^t，然后，将该手势动作的每一帧手势动作样本数据的全局属性的初始特征向量g^t乘以输出层的权重矩阵

得到该手势动作的每一帧手势动作样本数据的全局属性的目标特征向量

计算公式如下：

特征向量乘以输出层的权重矩阵能够提升数据的准确性，进而提升识别准确性。

得到每一帧手势动作样本数据的全局属性的目标特征向量

之后，根据该手势动作所有帧的手势动作样本数据的全局属性的目标特征向量

获取该手势动作的目标分类向量。作为一个具体实施方式，先将该手势动作所有帧的手势动作样本数据的全局属性的目标特征向量

进行拼接，得到该手势动作的初始分类向量，确定该手势动作的初始分类向量直接就是该手势动作的目标分类向量。作为其他的实施方式，先将该手势动作所有帧的手势动作样本数据的全局属性的目标特征向量

进行拼接，形成该手势动作的全局特征表示，将这个全局特征输入给全局属性的分类层classifier进行分类，得到该手势动作的目标分类向量，其中，设置一个分类层的权重矩阵W_c，将该手势动作的初始分类向量乘以分类层的权重矩阵W_c，得到该手势动作的目标分类向量f_output，计算公式表示如下：

其中，

分别代表上述定义的第1，2，……，T个图网络输出的全局属性，concat代表向量的拼接操作，f_output的维数为模型中涉及到的手势动作的总数。

分类向量乘以分类层的权重矩阵W_c能够提升数据的准确性，进而提升识别准确性。

(III)对经过计算后的图网络结构进行训练，获取该手势动作的手势动作识别子模型。本实施例中，可以采用监督式的训练，损失函数定义为交叉熵损失，使用反向传播算法计算梯度，采用优化器对图网络进行训练，其中优化器可以是SGD、Adam、Momentum等常用的优化器，通过最小化损失函数实现训练，模型训练到收敛之后保存模型参数，获取该手势动作的手势动作识别子模型。

(IIII)通过上述过程能够得到火车驾驶员的所有手势动作对应的手势动作识别子模型，那么，得到的火车驾驶员的所有手势动作对应的手势动作识别子模型构成手势动作识别模型。

将各帧手势动作数据的节点和边的特征向量输入至该手势动作识别模型中，识别得到目标手势动作。

(7)将所述目标手势动作输入至预设的火车状态识别模型中，获取与所述目标手势动作相对应的目标火车状态信息：

预设有火车状态识别模型，该火车状态识别模型包括至少两个手势动作，以及与各手势动作相对应的火车状态信息，即各手势动作所指代的具体含义。将得到的目标手势动作输入至火车状态识别模型中，获取与目标手势动作相对应的火车状态信息，获取到的火车状态信息为目标火车状态信息。得到目标火车状态信息之后，可以将目标火车状态信息进行输出、存储或者后续的其他处理。

本实施例中，火车安全监控方法还包括如下步骤：

(8)获取预设时间段内的目标火车状态信息中的各正常火车状态信息和各异常火车状态信息：

目标火车状态信息整体上分为两种，分别是异常火车状态信息和正常火车状态信息，其中，异常火车状态信息表示对应的火车状态为异常状态，即对应的手势动作表示火车状态为异常状态的手势动作；正常火车状态信息表示对应的火车状态为正常状态，即对应的手势动作表示火车状态为正常状态的手势动作。应当理解，对目标火车状态信息是否正常的判断过程属于常规技术手段，比如设置有一个数据库，该数据库包括两个子数据库，分别是正常火车状态子数据库和异常火车状态子数据库，正常火车状态子数据库包括已有的所有正常火车状态信息，异常火车状态子数据库包括已有的所有异常火车状态信息。将各目标火车状态信息输入到该数据库中，以确定各目标火车状态信息是正常火车状态信息还是异常火车状态信息。

预设有一个时间段，该时间段的长度由实际需要进行设置。那么，预设时间段内包括多个目标火车状态信息，则获取预设时间段内的目标火车状态信息中的各正常火车状态信息和各异常火车状态信息，即将预设时间段内的目标火车状态信息按照正常与否进行分离。

(9)将所述各正常火车状态信息和各异常火车状态信息填充入预设的火车安全监控初始表格中，得到火车安全监控目标表格：

预设有一个火车安全监控初始表格，该火车安全监控初始表格包括模板部分和可填充部分，其中，模板部分中已填充入相关的模板文字，无需更改，可填充部分是空白的，需要填充入相关的数据。本实施例中，可填充部分包括两个区域，分别是用于填入正常火车状态信息的正常区域，以及用于填入异常火车状态信息的异常区域。

那么，将各正常火车状态信息和各异常火车状态信息填充入预设的火车安全监控初始表格中，具体是将各正常火车状态信息填充入火车安全监控初始表格中的可填充部分中的正常区域，将各异常火车状态信息填充入火车安全监控初始表格中的可填充部分中的异常区域，得到的表格为火车安全监控目标表格。

应当理解，火车安全监控目标表格可以用于后续对火车的状态进行监控和分析。

基于人工智能和计算机视觉的火车安全监控装置实施例：

本实施例还提供一种基于人工智能和计算机视觉的火车安全监控装置，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现本实施例提供的基于人工智能和计算机视觉的火车安全监控方法的步骤。因此，该基于人工智能和计算机视觉的火车安全监控装置本质仍旧是一种基于人工智能和计算机视觉的火车安全监控方法，由于该基于人工智能和计算机视觉的火车安全监控方法在上述实施例中已给出了具体描述，不再赘述。

Claims

1.一种基于人工智能和计算机视觉的火车安全监控方法，其特征在于，包括如下步骤：

获取火车驾驶员的手势识别语音启动指令；

2.根据权利要求1所述的基于人工智能和计算机视觉的火车安全监控方法，其特征在于，所述对所述手势识别语音启动指令进行判断，获取所述手势识别语音启动指令是否是有效语音启动指令的判别结果具体为：

3.根据权利要求1所述的基于人工智能和计算机视觉的火车安全监控方法，其特征在于，所述各帧手势动作数据的节点的特征向量包括节点的三维世界坐标以及节点在三维坐标系中的速度；所述各帧手势动作数据的边的特征向量包括边所对应的两个节点之间的空间欧式距离以及边所对应的两个节点的连线与三维坐标系中三个坐标轴之间的夹角。

4.根据权利要求1所述的基于人工智能和计算机视觉的火车安全监控方法，其特征在于，所述手势动作识别模型的创建过程具体为：

5.根据权利要求4所述的基于人工智能和计算机视觉的火车安全监控方法，其特征在于，所述将该手势动作对应的节点和边的特征向量输入至预设的图网络结构进行计算具体为：

6.根据权利要求5所述的基于人工智能和计算机视觉的火车安全监控方法，其特征在于，所述对每一帧手势动作样本数据的节点和边的特征向量以及初始化的全局属性的特征向量进行多次更新和聚合运算中，采用多层感知机MLP模型进行更新运算，采用求和函数进行聚合运算。

7.根据权利要求5所述的基于人工智能和计算机视觉的火车安全监控方法，其特征在于，所述输出该手势动作每一帧手势动作样本数据的全局属性的目标特征向量具体为：

8.根据权利要求1所述的基于人工智能和计算机视觉的火车安全监控方法，其特征在于，所述火车状态识别模型包括至少两个手势动作，以及与各手势动作相对应的火车状态信息；

9.根据权利要求1所述的基于人工智能和计算机视觉的火车安全监控方法，其特征在于，所述火车安全监控方法还包括如下步骤：

10.一种基于人工智能和计算机视觉的火车安全监控装置，包括存储器和处理器，以及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9任一项所述的基于人工智能和计算机视觉的火车安全监控方法。