CN117152156B

CN117152156B - 一种基于多模态数据融合的铁路异常检测方法及系统

Info

Publication number: CN117152156B
Application number: CN202311427216.1A
Authority: CN
Inventors: 罗静; 陈哲; 孔祥斌; 刘阳; 周铭坤
Original assignee: CRSC Communication and Information Group Co Ltd CRSCIC
Current assignee: CRSC Communication and Information Group Co Ltd CRSCIC
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-02-13
Anticipated expiration: 2043-10-31
Also published as: CN117152156A

Abstract

本发明涉及一种基于多模态数据融合的铁路异常检测方法及系统，其包括：对获取的铁路环境中各模态数据分别进行编码，并将编码后的各模态数据特征进行拼接；其中，各模态数据分别为1维振动信号、2维图像数据和3D点云信息；根据注意力机制将拼接后的多模态数据特征进行自动权重分类，得到加权并融合了多模态信息的特征向量；将特征向量加上位置编码后，作为SAM编码器的输入，得到分割结果，根据分割结果确定铁路的异常情况。本发明具有较高的监控准确性、实时响应能力及针对性。

Description

一种基于多模态数据融合的铁路异常检测方法及系统

技术领域

本发明涉及一种铁路图像分割和监控技术领域，特别是关于一种基于多模态数据融合的铁路异常检测方法及系统。

背景技术

在图像分割和监控领域，多模态数据处理已经成为一个重要的研究方向。然而，大多数现有的解决方案主要侧重于单一的数据类型，如图像或视频流，而缺乏对多种数据类型（例如，振动信号、图像和3D点云）的综合分析。

SAM（Segment Anything Model，分割任何事物模型）是一个先进的图像分割模型，具有以下主要特点：1、提示可编程（Promptable）: SAM模型可以通过提示（prompt）来进行零样本（zero-shot）或少样本（few-shot）迁移学习，从而适应新的图像分布和任务。2、高效性: SAM模型具有高效的图像编码器和提示编码器，能够在Web浏览器中实时生成分割掩码。3、模糊性感知（Ambiguity-aware）: 当给出模糊或多义性的提示时，SAM能够生成多个合理的分割掩码。4、规模数据集（SA-1B）: SAM使用了一个包含超过11百万张图像和10亿个分割掩码的大规模数据集进行训练，具有良好的泛化能力。然而，SAM模型主要是针对单一的图像数据设计的，没有考虑到多模态数据的综合处理。这一局限性在特定应用场景，如铁路监控中，可能导致信息的不完整和误判。

在SAM图像分割和视觉任务中，Vision Transformer（特别是其大型版本ViT-H）已经成为一种流行的模型架构。ViT-H通常使用预训练的图像编码器来处理2维图像数据。这些编码器将图像转换为一系列特征图，这些特征图随后用于生成分割掩码或进行其他视觉任务。ViT-H模型的基本处理流程包括图像预处理、打平和分块、线性嵌入、位置编码，以及通过Transformer编码器进行特征提取。

多模态数据的处理包括：1维振动信号、2维图像数据和3D点云信息。其中，1）1维振动信号：除了用于检测铁路轨道的物理状态，这种数据还可以用于实时监测列车的运行状态，例如通过分析振动模式来预测可能的故障。2）2维图像数据：这种数据不仅用于目标识别和追踪，还可以用于场景理解，例如通过图像分割来识别不同的地面或轨道条件。3）3D点云信息：除了提供空间结构信息，这种数据还可以用于更复杂的任务，例如3D重建或者与2维图像数据进行融合以提供更全面的视图。传统多模态数据融合方法通常采用静态权重，这在铁路监控中可能导致实时性和准确性的不足。

铁路防区通常是预先定义的特定区域，用于监控和保护铁路设施，如轨道、信号设备、交通枢纽等。这些防区可能面临多种安全风险，包括但不限于非法入侵、设备故障、轨道问题等。因此，铁路监控有着对实时性、准确性和安全性的特殊需求。这些局限性表明，有必要提供一个新的多模态数据处理方案，特别是针对铁路监控这一具有特殊需求和挑战的应用场景。

发明内容

针对上述问题，本发明的目的是提供一种基于多模态数据融合的铁路异常检测方法及系统，其具有较高的监控准确性、实时响应能力及针对性。

为实现上述目的，本发明采取以下技术方案：一种基于多模态数据融合的铁路异常检测方法，其包括：对获取的铁路环境中各模态数据分别进行编码，并将编码后的各模态数据特征进行拼接；其中，各模态数据分别为1维振动信号、2维图像数据和3D点云信息；根据注意力机制将拼接后的多模态数据特征进行自动权重分类，得到加权并融合了多模态信息的特征向量；将特征向量加上位置编码后，作为SAM编码器的输入，得到分割结果，根据分割结果确定铁路的异常情况。

进一步，对2维图像数据进行编码之前，还包括：

根据2维图像数据计算防区掩码，将防区掩码进行多模态预处理；

将预处理后的防区掩码与图像数据相乘，再进行图像数据的编码。

进一步，将防区掩码进行多模态预处理，包括：将防区外的所有像素值替换为0，以聚焦铁路防区内的重要信息。

进一步，防区掩码通过1维振动信号和/或3D点云信息进行动态调整，以形成动态防区。

进一步，防区掩码通过1维振动信号进行动态调整，包括：

通过1维振动信号设置一个动态阈值，当获取的振动信号超过该动态阈值时，则认为有异常情况发生，动态地扩大防区一个预设的固定比例范围，以便捕捉更多的上下文信息；

通过1维振动信号的历史数据判断当前的振动信号是否是一种持续的模式或者是一个突发事件，根据判断结果进一步调整防区。

进一步，防区掩码通过3D点云信息进行动态调整，包括：

通过比较连续时间帧内的点云数据，识别出新出现或移动的点集，根据识别出的点集动态地调整防区；

设置一个距离或密度阈值，当点云数据超过该阈值时，动态地调整防区；

根据3D点云信息，判断物体与铁路设施的空间关系，若检测到物体靠近铁路设施，则动态扩大防区；

通过3D点云的历史数据来进行上下文分析，若某个物体超过预设时间停留在一个区域，则扩大防区。

进一步，对获取的铁路环境中各模态数据分别进行编码，包括：将1维振动信号、2维图像数据和3D点云信息分别进行编码，分别编码成一维向量；

1维振动信号，采用一维卷积神经网络进行特征提取；

2维图像数据，采用2维卷积神经网络进行特征提取；

3D点云信息，采用三维卷积神经网络或点云网络进行特征提取。

进一步，根据注意力机制将拼接后的多模态数据特征进行自动权重分类，包括：

通过拼接后的多模态数据特征自动计算注意力分数，并从注意力分数中得到的多模态数据特征的权重；

将多模态数据特征的权重及多模态数据特征相乘，计算得到加权并融合了多模态信息的特征向量。

一种基于多模态数据融合的铁路异常检测系统，其包括：第一处理模块，对获取的铁路环境中各模态数据分别进行编码，并将编码后的各模态数据特征进行拼接；其中，各模态数据分别为1维振动信号、2维图像数据和3D点云信息；第二处理模块，根据注意力机制将拼接后的多模态数据特征进行自动权重分类，得到加权并融合了多模态信息的特征向量；异常检测模块，将特征向量加上位置编码后，作为SAM编码器的输入，得到分割结果，根据分割结果确定铁路的异常情况。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明能自适应权重分配：使用注意力机制，能自动学习如何分配不同模态数据的权重，提供灵活、自适应的多模态处理。

2、本发明能提高准确性：整合多模态数据（1维振动信号、2维图像、3D点云）增强了模型对铁路和防区状态的全面理解。

3、本发明能增强实时性：通过铁路防区的0替换操作和其他优化，模型能快速做出准确判断，关键于铁路安全。

4、本发明能降低误报率：多模态输入减少了对单一数据源的依赖，降低误报和漏报。

5、本发明具有可扩展性与节约成本：能适应多种输入和场景，减少人工监控需求，降低运营成本。

6、本发明能增强鲁棒性：多模态输入保证了在某一数据源出现问题时，模型依然保持高性能。

附图说明

图1是本发明实施例中基于多模态数据融合的铁路异常检测方法流程图；

图2是本发明实施例中基于多模态数据融合的铁路异常检测网络结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明提供一种基于多模态数据融合的铁路异常检测方法及系统，其能提高监控准确性、优化实时性，并增加针对性。

提高监控准确性：由于现有铁路监控系统主要依赖单一模态的数据输入，准确性受到限制。本发明通过整合多模态数据（1维振动信号、2维图像和3D点云信息）来提高监控准确性。同时要避免过去多模态数据结合僵硬的情况，自动学习权重分配。

优化实时性：大型图像分割模型如SAM在实时应用中可能会遇到延迟问题。本发明通过引入实时性优化措施，如铁路防区的0替换操作，来提高模型的实时响应能力。

增加针对性：现有的监控解决方案通常没有针对铁路防区进行优化。本发明通过特定的预处理来更好地适应铁路防区的特定需求。

在本发明的一个实施例中，提供一种基于多模态数据融合的铁路异常检测方法。本实施例中，该方法为计算机视觉和机器学习中，在图像分割和多模态数据处理方面的检测方法，图像分割技术通常用于将数字图像分割成多个部分或区域，这在许多应用场景中都是非常重要的。在铁路监控领域，图像分割技术可以用于识别和追踪列车、人员、障碍物等，从而提供更准确和实时的监控信息。如图1、图2所示，该方法包括以下步骤：

1）对获取的铁路环境中各模态数据分别进行编码，并将编码后的各模态数据特征进行拼接；其中，各模态数据分别为1维振动信号、2维图像数据和3D点云信息；

2）根据注意力机制将拼接后的多模态数据特征进行自动权重分类，得到加权并融合了多模态信息的新的特征向量，以实现多模态数据融合；

3）将新的特征向量加上位置编码后，作为SAM编码器的输入，得到分割结果，根据分割结果确定铁路的异常情况。

上述步骤1）中，1维振动信号：振动信号通常与机械设备的健康状况有关，如轮轴、轨道等。这种数据可以用于检测铁路轨道的物理状态，如是否有裂缝或其他缺陷。

2维图像数据：图像数据可以提供丰富的视觉信息，如物体识别、场景分割等。这是最常用的数据类型，用于识别和追踪目标对象。

3D点云信息：3D点云可以提供空间结构信息，这在铁路监控中尤为重要，例如用于检测障碍物或评估轨道状况。这种数据可以提供空间结构信息，有助于更准确地定位和识别目标。

本实施例通过整合这些不同类型的数据，以提供一个更全面、准确和实时的铁路防区监控方法。

上述步骤1）中，在对2维图像数据进行编码之前，还包括以下步骤：

1.1）根据2维图像数据计算防区掩码，将防区掩码进行多模态预处理；

具体的，铁路防区通常是预先定义的特定区域，用于监控和保护铁路设施，如轨道、信号设备、交通枢纽等。这些防区可能面临多种安全风险，包括但不限于非法入侵、设备故障、轨道问题等。

1.2）将预处理后的防区掩码与图像数据相乘，再进行图像数据的编码。

上述步骤1.1）中，将防区掩码进行多模态预处理，包括：将防区外的所有像素值替换为0，以聚焦铁路防区内的重要信息。

具体的，铁路防区的0替换操作可以用数学公式来表示。假设有一个2维图像数据,其大小为 />n，并且已经定义了一个与该图像大小相同的2维防区掩码 />。在这个防区掩码中，防区内的像素值为1，防区外的像素值为0。

通过以下公式来执行0替换操作：

（1）

式中，是经过0替换操作后的新图像，/> 表示逐元素乘法（Hadamard乘积）。

这样将会把防区外的所有像素值设置为0，而防区内的像素值保持不变。

数据包括其他维度或模态（例如，振动信号或3D点云），也可以扩展这个公式来适应更复杂的数据结构。这种0替换操作是一种简单但有效的方法，用于聚焦模型的注意力到特定的防区，从而提高模型在铁路监控应用中的性能和可靠性。

本实施例中，防区掩码通过1维振动信号和/或3D点云信息进行动态调整，以形成动态防区。

可选的，防区掩码通过1维振动信号进行动态调整，包括可以采用以下两种方式中的一种或两种的组合：

阈值判断：通过1维振动信号设置一个动态阈值，当获取的振动信号超过该动态阈值时，则认为有异常情况发生，动态地扩大防区一个预设的固定比例范围，以便捕捉更多的上下文信息；

上下文感知：通过1维振动信号的历史数据判断当前的振动信号是否是一种持续的模式或者是一个突发事件，根据判断结果进一步调整防区。如果震动持续出现，则扩大含有该震动持续区域的防区范围，以便更全面地监控可能的风险；对于突发事件，设置一个信号来源的临时防区，持续时间可以根据事件的强度来决定。

可选的，防区掩码通过3D点云信息进行动态调整，包括可以采用以下四种方式中的一种或两种以上的组合：

变化检测：通过比较连续时间帧内的点云数据，识别出新出现或移动的点集，根据识别出的点集动态地调整防区；

阈值判断：设置一个距离或密度阈值，当点云数据超过该阈值时，动态地调整防区；

空间分析：根据3D点云信息，判断物体与铁路设施的空间关系，若检测到物体靠近铁路设施，则动态扩大防区；

上下文感知：通过3D点云的历史数据来进行上下文分析，若某个物体超过预设时间停留在一个区域，则扩大防区。

上述步骤1）中，对获取的铁路环境中各模态数据分别进行编码，包括：将1维振动信号、2维图像数据和3D点云信息分别进行编码，分别编码成一维向量；

1维振动信号，采用一维卷积神经网络（1D-CNN）进行特征提取，得到1维振动信号特征：

（2）

2维图像数据，采用2维卷积神经网络（2D-CNN）进行特征提取，得到2维图像数据特征：

（3）

3D点云信息，采用三维卷积神经网络（3D-CNN）或点云网络进行特征提取，得到3D点云信息特征：

（4）

本实施例中采用注意力机制来动态地分配这些不同模态数据的权重，通常是通过一个或多个全连接层和激活函数（如Softmax）来实现的。

上述步骤2）中，根据注意力机制将拼接后的多模态数据特征进行自动权重分类，包括以下步骤：

2.1）通过拼接后的多模态数据特征计算注意力分数，并从注意力分数中得到的多模态数据特征的权重；

具体的，假设是权重矩阵，/> 是偏置项。计算注意力分数：

（5）

式中，是一个拼接（concatenated）的特征向量。

2.2）将多模态数据特征的权重及多模态数据特征相乘，计算得到加权并融合了多模态信息的特征向量。

具体的，使用注意力分数来计算加权的特征向量：

（6）

其中，是从“Attention Scores”中得到的权重。

由此，得到了一个加权的、融合了多模态信息的特征向量，再concat原来的位置编码后，它可以替换之前的模型输入。

上述各实施例中，本发明虽然采用多模态数据提供了更全面的信息，但是并不局限于此，在某些情况下，单一模态（如仅使用2维图像）也可能足够用于铁路和防区的监控。

综上，本发明采用多模态数据融合，高效的融合了1维振动信号、2维图像数据和3D点云信息；并通过引入自适应权重分配进行动态权重调整机制，本发明能够动态地优化各模态数据的贡献，以提升模型的准确性和鲁棒性。进一步，采用铁路防区零值替换方法，不仅增强了模型的准确性，还有助于提升实时响应能力。

在本发明的一个实施例中，提供一种基于多模态数据融合的铁路异常检测系统，其包括：

第一处理模块，对获取的铁路环境中各模态数据分别进行编码，并将编码后的各模态数据特征进行拼接；其中，各模态数据分别为1维振动信号、2维图像数据和3D点云信息；

第二处理模块，根据注意力机制将拼接后的多模态数据特征进行自动权重分类，得到加权并融合了多模态信息的特征向量；

异常检测模块，将特征向量加上位置编码后，作为SAM编码器的输入，得到分割结果，根据分割结果确定铁路的异常情况。

上述实施例中，对2维图像数据进行编码之前，还包括：

其中，将防区掩码进行多模态预处理，包括：将防区外的所有像素值替换为0，以聚焦铁路防区内的重要信息。

具体的，防区掩码通过1维振动信号进行动态调整，包括：

具体的，防区掩码通过3D点云信息进行动态调整，包括：

上述实施例中，对获取的铁路环境中各模态数据分别进行编码，包括：将1维振动信号、2维图像数据和3D点云信息分别进行编码，分别编码成一维向量；

1维振动信号，采用一维卷积神经网络进行特征提取；

2维图像数据，采用2维卷积神经网络进行特征提取；

上述实施例中，根据注意力机制将拼接后的多模态数据特征进行自动权重分类，包括：

通过拼接后的多模态数据特征计算注意力分数，并从注意力分数中得到的多模态数据特征的权重；

本实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

在本发明一实施例中提供的计算设备，该计算设备可以是终端，其可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中，处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序，该计算机程序被处理器执行时以实现上述各实施例中的方法；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏，该输入装置可以是显示屏上覆盖的触摸层，也可以是计算设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的一个实施例中，提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

在本发明的一个实施例中，提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法。

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多模态数据融合的铁路异常检测方法，其特征在于，包括：

对获取的铁路环境中各模态数据分别进行编码，并将编码后的各模态数据特征进行拼接；其中，各模态数据分别为1维振动信号、2维图像数据和3D点云信息；

根据注意力机制将拼接后的多模态数据特征进行自动权重分类，得到加权并融合了多模态信息的特征向量；

将特征向量加上位置编码后，作为SAM编码器的输入，得到分割结果，根据分割结果确定铁路的异常情况；

对2维图像数据进行编码之前，还包括：

将预处理后的防区掩码与图像数据相乘，再进行图像数据的编码；

将防区掩码进行多模态预处理，包括：将防区外的所有像素值替换为0，以聚焦铁路防区内的重要信息；

防区掩码通过1维振动信号和/或3D点云信息进行动态调整，以形成动态防区；

防区掩码通过1维振动信号进行动态调整，包括：

通过1维振动信号的历史数据判断当前的振动信号是否是一种持续的模式或者是一个突发事件，根据判断结果进一步调整防区；

防区掩码通过3D点云信息进行动态调整，包括：

2.如权利要求1所述基于多模态数据融合的铁路异常检测方法，其特征在于，对获取的铁路环境中各模态数据分别进行编码，包括：将1维振动信号、2维图像数据和3D点云信息分别进行编码，分别编码成一维向量；

1维振动信号，采用一维卷积神经网络进行特征提取；

2维图像数据，采用2维卷积神经网络进行特征提取；

3.如权利要求1所述基于多模态数据融合的铁路异常检测方法，其特征在于，根据注意力机制将拼接后的多模态数据特征进行自动权重分类，包括：

4.一种基于多模态数据融合的铁路异常检测系统，其特征在于，包括：

异常检测模块，将特征向量加上位置编码后，作为SAM编码器的输入，得到分割结果，根据分割结果确定铁路的异常情况；

对2维图像数据进行编码之前，还包括：

防区掩码通过1维振动信号进行动态调整，包括：

防区掩码通过3D点云信息进行动态调整，包括：

5.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至3所述方法中的任一方法。