CN115641493A

CN115641493A - 一种基于3d cnn的大型转体桥梁施工设备实时动作检测方法

Info

Publication number: CN115641493A
Application number: CN202211312333.9A
Authority: CN
Inventors: 杨学臻; 赵世杰; 许岩; 高步庭; 王勇; 陈辉; 赵俊浩; 管志建; 周健; 朱凯俊
Original assignee: China Railway No 10 Engineering Group Co Ltd; Fourth Engineering Co Ltd of China Railway No 10 Engineering Group Co Ltd
Current assignee: China Railway No 10 Engineering Group Co Ltd; Fourth Engineering Co Ltd of China Railway No 10 Engineering Group Co Ltd
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-01-24

Abstract

本发明提出了一种基于3DCNN的大型转体桥梁施工设备实时动作检测方法，该动作检测方法包括：用于视频中建筑设备的实时动作检测；基于3DCNN的单流特征，利用本文开发的三维注意模块和特征金字塔网络，设计了提取网络和检测网络学习以提高性能；该方法可以实现基于3DCNN的单阶段模型，用于在不同、可变和大型转体桥梁复杂施工现场的视频中实时检测施工设备的动作。提出的方法为改善建设项目的安全、生产力和环境管理铺平了道路；本发明通过分组的方式验证节点的安全性，能够快速检测出惰性节点和违法节点。

Description

一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法

技术领域

本发明涉及转体桥梁施工技术领域、三维卷积神经网络(3D CNN)技术，具体而言，涉及一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法。

背景技术

大型转体桥梁施工属于劳动密集型建筑业，劳动密集型建筑业施工现场常常由很多施工设备组成、以及建筑本身和人员构成了复杂的施工环境，使得远程检测施工设备的工作状态非常困难。

现阶段，劳动密集型建筑业相比于其他行业，远程工作率较低，并且仍然将面对面接触视为基本要求，但面对面就会增大人员接触，在一些情况下是不允许的(比如：疫情期间)，同时反应了自动化和无人操作在建设项目中的重要性；未来，使用新兴技术(如人工智能、智能、大数据等)的智能施工将成为施工现场的关键，以加强远程监控和管理，促进未来的场外施工，主要发展方向包括：

工作安全——通过认可施工设备的实时移动；施工生产率——通过对设备进行实时监控，从而增加边际生产劳动；环境管理——施工设备运营产生的污染物(噪音、振动、粉尘和温室气体)的环境管理。

传统上，施工设备监控由施工经理直接执行，同时覆盖大型施工项目中的所有现场需要花费大量时间和精力；同时，在一些研究中已经开发的使用传感器监测施工设备移动和位置的方法(如射频识别系统、全球定位系统、光探测和测距等)，所使用的方法均需要为单个施工设备配备传感器。

另一方面，基于计算机视觉的技术实时监控施工设备，该技术自动收集和分析施工现场信息；由于基于计算机视觉的方法不需要额外的传感器，除了用于图像捕获的设备，因此它既省时又省钱；同时，基于卷积神经网络(CNN)在施工现场的监测技术的应用也得到发展，关于CNN的研究分为两类：结合目标定位、分类的目标检测；动作检测；在动作检测的研究中目标检测模型使用基于图像的二维(2D CNN)预测施工设备的类型及其位置；然而，2D CNN仅提取空间特征，不适用于需要从图像序列中提取时间特征的动作的分类和检测；在其他研究中，提出的多阶段动作检测方法，其中，动作分类阶段使用长短时记忆或3D CNN来提取时空特征，代表从目标检测阶段提取的空间特征的时间序列变化；但是，多阶段动作检测方法的每个阶段都会产生错误，并且需要考虑可处理的时间；因此，在目标检测阶段的此类错误可能会对动作分类阶段的准确性造成巨大影响，从而使实时检测变得困难。

在计算机科学领域，基于3D CNN的单阶段模型已经得到了积极的研究，它可以同时提取空间和时间特征，并在人类行为检测中取得了很高的性能；与多阶段模型相比，单阶段模型计算速度快，需要较小的数据集，因为其目标检测和动作分类是端到端执行的；特别是，单流模型用于动作分类和对象检测的输入数据一起输入，具有简单的体系结构，并且需要较少的计算；尽管3D CNN的单阶段动作检测模型具有很多优先，但还没有研究将其用于大型转体桥梁的施工设备的实时动作检测上。

发明内容

本发明的目的在于克服现有技术存在的以上问题，以及在原有技术基础上大大提高其技术效果；为此，本发明提供了一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法，该方法包括：

在大型转体桥梁施工现场布置监测设备，通过监测设备采集施工现场的视频；

在大型转体桥梁施工过程中对采集的施工现场视频进行三维卷积神经网络(3DCN N)的施工设备实时动作检测；

对动作不规范的施工设备，及时通知施工人员进行调整，保证施工过程的安全性。

所述大型转体桥梁施工过程包括：

一)下部结构施工；

二)钢梁施工；

三)现浇混凝土梁施工；

四)转体施工；

其中，3D CNN的施工设备实时动作检测包括：单流特征提取网络和检测网络；

所述单流特征提取网络包括：所述单流特征提取网络从输入视频帧中提取时空特征；所述检测网络包括：所述检测网络根据时空特征生成检测结果；

所述单流特征提取网络包括：3D CNN架构和3D注意模块；所述检测网络包括：特征金字塔网络和输出层。

进一步地，所述监测设备包括：监测设备为视频传感器，用于采集施工现场的视频，并将采集到的视频传递给计算机。

进一步地，对采集的施工现场视频进行3D CNN的施工设备实时动作检测包括：对大型转体桥梁的每个施工步骤，即对大型转体桥梁的下部结构施工、钢梁施工、现浇混凝土梁施工和转体施工过程中采集的施工视频进行3D CNN的施工设备实时动作检测。

进一步地，单流特征提取网络用于从视频帧序列中提取三个子模块中的每一个子模块的时空特征，其中，三维注意模块应用于现有的3D CNN架构；所述三个子模块包括：深度、宽度和高度；所述3D CNN指三维卷积神经网络；所述检测网络通过检测网络的特征金字塔和输出层之后，从单流特征提取网络的时空特征中提取三个检测结果。

进一步地，3D CNN架构包括：将3D ResNeXt-101作为特征提取网络的基本结构，所述3DResNeXt-101是单流3D CNN结构之一，在现有的动作分类和检测中表现出优异的性能。

进一步地，3D注意模块包括：通过扩展处理后的4D特征的维度来细化时空特征；所述3D注意模块由两种类型的注意子模块组成：1D通道注意模块和3D时空注意模块；所述1D通道注意模块用于强调物体特征，生成通道细化特征图；所述3D时空注意模块用于强调时空特征，生成时空细化特征图。

进一步地，所述3D注意模块还包括：所述1D通道注意模块生成通道细化特征图的步骤为：

M_c(F)＝σ(MLP(Avg_c(F)))(+MLP(Max_c(F)))

其中，σ是sigmoid函数，M_c表示1D通道注意，Avg_c和Max_c对应于M_c的平均池化和最大池化，F和F′分别参考第一输入特征映射和通道细化特征映射；

所述3D时空注意模块包括：所述3D时空注意模块生成时空细化特征图的步骤为：

其中σ是sigmoid函数，M_s表示3D时空注意，Avg_s和Max_s分别对应于M_s中的平均池化和最大池化，F′和F″分别参考通道细化特征映射和时空细化特征映射。

进一步地，所述检测网络包括：所述检测网络是基于2D CNN的检测网络，由特征金字塔网络和输出层组成；所述特征金字塔网络用于检测多个不同规模的施工设备，所述特征金字塔网络可以被转换，以便连接到特征提取网络的第三、第四和最后几个子模块来提取时空特征；所述输出层用于解决建议末尾的多类问题，用于根据从特征金字塔网络中提取的三个不同尺度的特征生成结果。

进一步地，特征金字塔网络包括：提出了一种新的特征金字塔网络，将4D特征图通过添加3D CNN块进行输入；将新的特征金字塔网络应用于检测网络，以同时检测多个不同规模的施工设备；通过所述特征金字塔网络生成的三种不同尺度的特征图为：用于小目标检测的28×28×512特征图；用于中等目标检测的14×14×1024特征图；用于大目标检测的7×7×2048特征图。

进一步地，输出层包括：所述输出层位于检测网络末端，所述输出层包括三种不同大小的输出层，所述三种不同大小的输出层由1×1卷积层组成；所述输出层预测两个边界框，以及视频帧中相应网络单元的类；所述输出层根据YOLOv3的边界盒回归准则输出结果。

本发明的有益效果是：

本发明设计了一种基于3D CNN的用于检测大型转体桥梁施工设备实时动作的检测方法；该方法用于从远程检测大型转体桥梁施工过程中施工设备的动作是否规范，确保了施工过程的安全性；同时，给出了一个基于3D CNN的单阶段模型，该模型中基于3D CNN的单流特征提取网络可以提取视频帧中的时空特征，并且设计了检测网络生成检测结果；此外，本发明还开发了3D注意模块、特征金字塔网络和多类输出算法以提高模型性能，保持实时检测的推理速度；该模型能够同时检测大型转体桥梁施工现场的多个不同规模的施工设备。

附图说明

图1：本发明的一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法的流程图。

图2：3D CNN的施工设备实时动作检测的流程图。

图3：本发明的3D注意模块示意图。

图4：新的特征金字塔网络的体系结构示意图。

图5：检测网络的输出层示意图。

具体实施方式

以下结合附图对本发明的具体实施例进行详细说明。应当理解的是此处所给出的具体实施例仅用于说明和解释本发明，并不能用来限制本发明。

需要注意的是，在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以有其他实施方式以及其变形，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示，为根据本发明的实施例的一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法的流程图，该流程图包括：步骤S100，在大型转体桥梁施工现场布置监测设备，通过监测设备采集施工现场的视频；步骤S101，在大型转体桥梁施工过程中对采集的施工现场视频进行三维卷积神经网络(3D CNN)的施工设备实时动作检测；步骤S102，对动作不规范的施工设备，及时通知施工人员进行调整，保证施工过程的安全性。

在本实施例中，具体地，本发明通过安装监测设备采集大型转体桥梁施工现场的现场视频，随后，基于3D CNN的现场施工视频对施工设备进行实时动作检测；获取施工现场的施工设备的实时动作，对不规范的施工设备进行及时调整，保证施工设备施工的安全性。

步骤S100，在大型转体桥梁施工现场布置监测设备，通过监测设备采集施工现场的视频。

具体地，所述大型转体桥梁是一种通过平面转体法施工的桥梁，桥梁可以是单层和多层的。

优选地，在大型转体桥梁施工现场的适当位置安装视频传感器，该视频传感器用于采集施工现场的施工视频。

步骤S101，在大型转体桥梁施工过程中对采集的施工现场视频进行三维卷积神经网络(3D CNN)的施工设备实时动作检测。

具体地，根据在大型转体桥梁施工过程中采集的施工现场视频，通过三维卷积神经网络(3D CNN)对施工现场视频进行施工设备实时动作检测。

在上述实施例中，所述大型转体桥梁施工过程包括：下部结构施工；钢梁施工；现浇混凝土梁施工；转体施工。

在上述实施例中，优选地，以一种连续钢桁、腹板桁组合结构为例；下部结构施工的步骤为：桩基础施工，基坑围护，分层开挖，浇筑垫层，浇筑下承台第一次混凝土，安装滑道，浇筑下转盘混凝土，安装底座，安装下球铰，安装滑片并涂抹四氟乙烯黄油，安装上球铰，安装撑脚并浇筑威膨胀混凝土，安装卸荷沙箱，上转盘浇筑，墩身及盖梁施工。

在上述实施例中，优选地，下部结构施工完成后，进行钢梁施工，钢梁施工的步骤为：挖出场地内淤泥，换填片石、检测地基承载力，履带吊走形基础下设高压旋喷桩加固，上设路基箱，钢桁梁支撑基础采用凸形钢筋混凝土扩大基础，现浇梁盘扣支架设混凝土垫层，钢桁梁支架根据钢桁节点向两侧分别设置若干排支墩、并对支墩进行编号，钢桁梁在拼装场地内分节段完成拼装、焊缝进行超声波检验和磁粉检验，吊装前先将杆件和节点板、拼接板用冲钉及少量螺栓连结预拼，主桁斜杆和上弦杆场内预拼成T型和K型成三角桁架，安装第一联边主桁和中主桁预拼K型杆件、安装主墩处T型杆件，然后采用两台450吨履带吊同时由中间往两侧对称安装剩余部分的上弦杆和主桁斜杆，履带吊后退吊装第二联杆件、施工步骤同第一联。

在上述实施例中，优选地，现浇混凝土梁施工的步骤为：搭设盘扣式满堂支架并进行预压，分五个节段对下层混凝土采用盘扣支架现浇，随后由规律的拆除盘扣式满堂支架，并按照一定规律拆除钢支架、最边缘的混凝土钢管支撑采用千斤顶和钢垫板交替落梁，安装转体防倾覆临时钢支撑。

在上述实施例中，优选地，转体施工的步骤为：转体前拆除球铰位置沙箱并清理滑道，安装转盘刻度并进行称重平衡实验，转体选用两套ZLD型液压牵引系统；正式转体前先进行试转，检测整个系统的安全可靠性，转体角度为10度；试转并确定系统安全性后进行正式转体，转体角度为总施工转体角度减10度。

在上述实施例中，所述三维卷积神经网络(3D CNN)的施工设备实时动作检测是对大型转体桥梁的下部结构施工、钢梁施工、现浇混凝土梁施工和转体施工过程中采集的施工视频进行3D CNN的施工设备实时动作检测。

在上述实施例中，3D CNN的施工设备实时动作检测包括单流特征提取网络和检测网络；其中，单流特征提取网络用于从视频帧序列中提取三个子模块中的每一个子模块的时空特征；检测网络用于从单流特征提取网络的时空特征中提取三个检测结果，最终输出结果，检测施工设备的动作是否规范。

步骤S102，对动作不规范的施工设备，及时通知施工人员进行调整，保证施工过程的安全性。

具体地，通过3D CNN对施工设备进行实时动作检测，检测施工设备的动作是否规范，对不符合规范的动作，及时生成针对性的信号，发送到相应设备控制室，通知操作人员进行施工设备的动作调整。

优选地，在每个相应施工设备的操控室安装通讯设备，使得操作人员能够及时接收到对施工设备进行调整的命令。

如图2所示：根据本发明的3D CNN的施工设备实时动作检测的流程图；该流程图包括：步骤S200，单流特征提取网络；步骤S201，检测网络。

具体地，本发明的3D CNN的施工设备实时动作检测包括单流特征提取网络和检测网络；其中，单流特征提取网络由3D CNN架构和3D注意模块组成，检测网络由特征金字塔网络和输出层组成。

步骤S200，单流特征提取网络。

在上述实施例中，具体地，单流特征提取网络用于从输出视频帧中提取三个子模块深度、宽度和高度的每一个子模块的时空特征，将3D注意模块应用于现有的3D CNN架构。

在上述实施例中，具体地，在提取时空特征时，3D卷积层需要作为四维(4D)特征图输入，即：

其中，W、H、D和C分别是宽度、高度、深度和通道数，然后经过三维卷积计算生成输出特征图；3D注意模块能够通过关注时空和时间维度上的重要特征，在略微增加计算量的情况下提高施工设备动作检测性能；下述实施例将对单流特征提取网络的3D CNN架构和3D注意模块做具体介绍：

3D CNN架构过程：

具体地，本发明的3D CNN架构采用3D ResNeXt-101结构，3D ResNeXt-101是单流3D CNN的结构之一，在现有的动作分类和检测中表现出优异的性能。

在上述实施例中，优选地，本发明的3D CNN架构使用的3D ResNeXt-101由五个子模块组成；输入大小是通过将224×224×深度(输入帧的数量)来定义的；本发明的3D CNN架构使用的3D ResNeXt-101的架构如表1所示：

3D注意模块的建立：

具体地，为了在背景复杂的大型转体桥梁施工现场更准确地检测具有高度相似性的施工设备动作，有必要关注与每个对象动作相关的重要特征；注意机制已经被证明可以有效地提高各种计算机视觉任务的准确性，它可以细化输入特征图并强调重要特征；尤其是在设备行动的情况下，注意机制与周围物体相关，比如在挖掘机进行挖掘和卸土时，考虑到视频帧的整个背景，可以帮助区分其类别；现有的开发的3D注意模块，可以细化时空特征；然而，开发的模块大大增加了计算量和时间。

本发明受卷积块注意模块(CBAM)的启发，CBAM由用于空间特征注意的2D注意块组成，计算开销可以忽略不计，因此，基于CBAM卷积块注意模块，本发明开发了3D注意模块，通过利用最小的计算负载，帮助改进用于检测施工设备动作的时空特征。

本发明开发的3D注意模块通过扩展处理后的4D特征(即宽度、高度、深度和通道)的维度来细化时空特征；特别是，该模块被模块化为简单的池和卷积，因此它可以在不改变现有3D CNN架构(如3D ResNeXt-101)的情况下应用。

在上述实施例中，具体地，如图3所示为本发明开发的3D注意模块示意图；从该图中可以看出，本发明开发的3D注意模块由两个注意子模块组成：1.一维(1D)通道注意模块；2.3D时空注意模块；其中，1D通道注意模块用于强调物体特征，3D时空注意模块用于强调时空特征。

在上述实施例中，具体地，1D通道注意模块的执行过程为：它沿通道方向在特征图上执行平均池和最大池化，并将结果传递给多层感知器和sigmoid函数，执行过程为：

M_c(F)＝σ(MLP(Avg_c(F)))(+MLP(Max_c(F)))

其中σ是sigmoid函数，M_c是1D通道注意，Avg_c和Max_c分别为M_c的平均池化和最大值化，F为第一输入特征映射。

通过提取对F执行sigmoid函数的结果

与F进行相乘，生成通道细化特征图，执行过程为：

其中，F和F′分别为第一输入特征映射和通道细化特征映射，M_c为1D通道注意。

在上述实施例中，具体地，所述1D通道注意模块用于强调物体特征指当1D通道注意模块的每个通道充当给定输入视频帧的特征提取器时，该通道注意模块能够强调物体，即施工设备的有意义信息。

对于3D时空注意模块，该模块沿着时空方向(宽度、高度和深度)在F′上执行平均池化和最大池化，并将结果传递给尺寸为7×7×深度和σ的卷积(conv)过滤器，执行过程为：

其中，σ是sigmoid函数，M_s为三维时空注意，Avg_s和Max_s分别对应M_s的平均池化和最大池化，F′为通道细化特征映射。

和提取对F执行sigmoid函数的结果M_c(F)一样，通过对提取的

和F′相乘，最终生成时空细化特征图

执行过程为：

其中，F′、和F″分别参考通道细化特征映射和时空细化特征映射，M_s为三维时空注意。

在上述实施例中，通过对关于3D时空注意模块的介绍，3D时空注意能够强调建筑设备及其周围环境的背景，因为特征是从建筑设备的宽度、高度和深度中提取的给定输入视频帧。

需要指出的是，在3D ResNeXt-101中的每个ResNeXt区块都添加了开发的3D注意模块，与CBAM类似，本发明的应用顺序是通道注意模块，然后是时空注意模块。

步骤S201，检测网络。

具体地，本发明根据大型转体桥梁的施工规模和为了达到快速检测施工设备的实时动作，还设计了一种检测网络，该检测网络根据时空特征生成检测结果；该检测网络是基于二维(2D)CNN的检测网络由特征金字塔网络和输出层构成；其中，特征金字塔网络可以有效地同时检测多个不同规模的施工设备，它可以被转换，以便连接到特征提取网络的第三、第四和最后几个子模块来提取时空特征；此外，输出层用于解决建议末尾的多类问题，用于根据从特征金字塔网络中提取的三个不同尺度的特征生成结果。

下述实施例分别对本发明设计的特征金字塔网络和输出层做具体介绍。

在上述实施例中，本发明提出了一种新的特征金字塔网络，在本发明的特征金字塔网络中，4D特征图可以通过添加连接3D CNN块进行输入；如图4所示：为本发明的新的特征金字塔网络的体系结构示意图；将本发明的新的特征金字塔网络应用于检测网络，以同时检测多个不同规模的施工设备；所述不同规模指小目标检测、中等目标检测和大目标检测。

在上述实施例中，具体地，如图4中，本发明的特征金字塔网络中的特征提取是首先从自下而上的路径到从自上而下的路径进行的；首先，当输入特征映射通过几个子模块时，自下而上路径计算高级语义特征映射；在本研究中，自下而上的路径设计用于生成三种不同的4D特征图；同时，添加了滤波器大小为1×1×D×1的卷积层，以压缩4D特征图的深度轴；其次，自上而下的路径通过连接上采样的高级语义特征图和低级语义特征图来创建高分辨率特征图；为此，从特征提取网络的第三和第四个子模块(28×28×4×512和14×14×2×1024)中提取的特征映射通过卷积层，滤波器大小为1×1×10D×1，以便压缩深度轴并将其与上采样的特征图连接；最后，将连接的特征映射通过由三个1×1层序列组成的卷积层，以减少上采样造成的混叠效应。

最后，从子模块3、子模块4和子模块5中提取的特征图可以通过特征金字塔网络生成三种不同尺度的特征图：(1)用于小目标检测的28×28×512特征图；(2)用于中等目标检测的14×14×1024特征图；(3)用于大目标检测的7×7×2048特征图。

在上述实施例中，出了新的特征金字塔网络外，本发明的输出层位于检测网络末端；输出层由1×1卷积层组成三种不同大小的输出层，并根据YOLOv3的边界盒回归准则输出结果；如图5所示：为本发明的检测网络的输出层示意图；该图中输出层预测两个边界框，以及视频帧中相应网络单元的类。

在上述实施例中，具体地，首先，每个边界框的信息有五个值，由四个位置元素和一个置信度分数组成；位置元素包括边界框的中心x坐标(x)、中心y坐标(y)、宽度(w)和高度(h)，置信度得分(c)介于0和1之间，显示对象在相应边界框内的可能性。其次，类的概率是指网格中的对象属于每个类的概率，每个类的概率在0到1之间；现有的基于3D CNN的单阶段模型是针对一般人类行为检测问题开发的，它是一个关于动作类的二元类问题，不区分对象类；然而，根据施工设备的类型，可能采取的行动类型是有限的；同时，不同类型的施工设备可以执行(如空转或移动等)操作；因此，在本研究中，该问题被定义为一个多类问题，从而预测施工设备的类型(即对象类、对象)及其作用的类别(即其作用类)，每个P对象类和P动作类中得分最高的一个类可以被确定为最终输出。

需要注意的是，在上述实施例中，将对象类别中概率最高的预测类型的施工设备无法执行的动作类别的概率设置为0。

在上述实施例中，一个输出层产生的输出是一个三维立方体

W′×H′×(2×(4+1)+P_对象+P_动作)

三个输出层的输出被组合起来，以指示单个视频帧中的所有边界框和类。

在上述实施例中，通过上述3D CNN检测的方法对大型转体桥梁施工设备实时动作进行检测，通过输出层输出的结果可以获取施工现场每个施工设备的实时动作，对不规范的施工动作及时通知操作人员进行调整，能够有效预防因设备施工失误导致的工程事故的发生。

需要理解的是，上述实施例为本发明的一个或多个实施例，基于本发明还有很多其他实施例及其变形；本行业的普通技术人员在没有作出开拓性的创新的时候，通过本发明进行的变形和修改，均属于本发明的保护范围。

Claims

1.一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法，其特征在于，所述方法包括如下步骤：

在大型转体桥梁施工过程中对采集的施工现场视频进行3D CNN的施工设备实时动作检测，所述3D CNN为三维卷积神经网络；

对动作不规范的施工设备，及时通知施工人员进行调整，保证施工过程的安全性；

所述大型转体桥梁施工过程包括：

一)下部结构施工；

二)钢梁施工；

三)现浇混凝土梁施工；

四)转体施工；

所述3D CNN的施工设备实时动作检测包括：单流特征提取网络和检测网络；

2.根据权利要求1所述的一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法，其特征在于，所述监测设备包括：监测设备为视频传感器，用于采集施工现场的视频，并将采集到的视频传递给计算机。

3.根据权利要求1所述的一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法，其特征在于，所述对采集的施工现场视频进行3D CNN的施工设备实时动作检测包括：对大型转体桥梁的每个施工步骤，即对大型转体桥梁的下部结构施工、钢梁施工、现浇混凝土梁施工和转体施工过程中采集的施工视频进行3D CNN的施工设备实时动作检测。

4.根据权利要求1所述的一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法，其特征在于，所述单流特征提取网络用于从视频帧序列中提取三个子模块中的每一个子模块的时空特征，其中，三维注意模块应用于现有的3D CNN架构；所述三个子模块包括：深度、宽度和高度；所述3D CNN指三维卷积神经网络；所述检测网络通过检测网络的特征金字塔和输出层之后，从单流特征提取网络的时空特征中提取三个检测结果。

5.根据权利要求1所述的一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法，其特征在于，所述3D CNN架构包括：将3D ResNeXt-101作为特征提取网络的基本结构，所述3D ResNeXt-101是单流3D CNN结构之一，在现有的动作分类和检测中表现出优异的性能。

6.根据权利要求1所述的一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法，其特征在于，所述3D注意模块包括：通过扩展处理后的4D特征的维度来细化时空特征；所述3D注意模块由两种类型的注意子模块组成：1D通道注意模块和3D时空注意模块；所述1D通道注意模块用于强调物体特征，生成通道细化特征图；所述3D时空注意模块用于强调时空特征，生成时空细化特征图。

7.根据权利要求6所述的一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法，其特征在于，所述3D注意模块还包括：所述1D通道注意模块生成通道细化特征图的步骤为：

M_c(F)＝σ(MLP(Avg_c(F)))(+MLP(Max_c(F)))

其中σ是sigmoid函数，M_s表示3D时空注意，Avg_s和Max_s分别对应于M_s中的平均池化和最大池化，F′、和F″分别参考通道细化特征映射和时空细化特征映射。

8.根据权利要求1所述的一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法，其特征在于，所述检测网络包括：所述检测网络是基于2D CNN的检测网络，由特征金字塔网络和输出层组成；所述特征金字塔网络用于检测多个不同规模的施工设备，所述特征金字塔网络可以被转换，以便连接到特征提取网络的第三、第四和最后几个子模块来提取时空特征；所述输出层用于解决建议末尾的多类问题，用于根据从特征金字塔网络中提取的三个不同尺度的特征生成结果。

9.根据权利要求1所述的一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法，其特征在于，所述特征金字塔网络包括：提出了一种新的特征金字塔网络，将4D特征图通过添加3D CNN块进行输入；将新的特征金字塔网络应用于检测网络，以同时检测多个不同规模的施工设备；通过所述特征金字塔网络生成的三种不同尺度的特征图为：用于小目标检测的28×28×512特征图；用于中等目标检测的14×14×1024特征图；用于大目标检测的7×7×2048特征图。

10.根据权利要求1所述的一种基于3D CNN的大型转体桥梁施工设备实时动作检测方法，其特征在于，所述输出层包括：所述输出层位于检测网络末端，所述输出层包括三种不同大小的输出层，所述三种不同大小的输出层由1×1卷积层组成；所述输出层预测两个边界框，以及视频帧中相应网络单元的类；所述输出层根据YOLOv3的边界盒回归准则输出结果。