CN113780118A

CN113780118A - 一种基于视觉的建筑视频高光自动检测方法、设备和存储介质

Info

Publication number: CN113780118A
Application number: CN202110992806.3A
Authority: CN
Inventors: 蔡长青
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-12-10

Abstract

本发明公开了一种基于视觉的建筑视频高光自动检测方法，设备和存储介质，涉及图像处理领域。其中的方法包括：对输入视频进行机器跟踪，产生跟踪结果；根据预设规则分析跟踪结果，提取出目标关键帧；采用卷积神经网络对输入视频进行特征提取，提取出视频所有帧数中的高级特征帧；采用相似性评估手段评估高级特征帧，提取出特征关键帧；对目标关键帧和特征关键帧进行组合，去除重复的关键帧，并生成视频高光。本发明实现了有效视频片段的系统性、简洁性的获取；实现了对施工视频片段的有效索引，同时大幅度降低了存储空间的占用，提高了建筑工地的安全生产管理效率。

Description

一种基于视觉的建筑视频高光自动检测方法、设备和存储介质

技术领域

本发明涉及图像处理领域，尤其是一种基于视觉的建筑视频高光自动检测方法。

背景技术

在城市建设和发展的进程中，建筑工地的生产管理也在逐步进行现代化更新。相比于传统的人力监控，对施工过程进行录像分析就是一种现代化的安全生产管理手段。由于施工过程的持续时间通常很长，因此对工程师而言进行录像分析耗时耗力，难以甄别其中所包含的重要信息、且录像所占用的存储空间也较大。

发明内容

有鉴于此，本发明提供一种基于视觉的建筑视频高光自动检测方法、设备和存储介质。

本发明的第一方面提供了一种基于视觉的建筑视频高光自动检测方法，其特征在于，包括以下步骤：

对输入视频进行机器跟踪，产生跟踪结果，所述跟踪结果包括机器类别、机器标识和机器轨迹；

根据预设规则分析跟踪结果，提取出目标关键帧；

采用卷积神经网络对输入视频进行特征提取，提取出视频所有帧中的高级特征帧；

采用相似性评估手段评估高级特征帧，提取出特征关键帧；

对所述目标关键帧和特征关键帧进行组合，并生成视频高光。

进一步地，所述对输入视频进行机器跟踪，产生跟踪结果，具体包括：

采用CMT算法实时检测机器的特征点，与机器在上一时刻的特征点进行匹配；

将特征点的运动轨迹作为跟踪结果输出。

进一步地，所述预设规则包括工作区规则、工作状态规则和工作交互规则。

进一步地，所述工作区规则，具体包括对机器进入或离开工作区进行检测的规则。

进一步地，所述工作状态规则，具体包括对机器工作状态变化进行识别的规则。

进一步地，所述工作交互规则，具体包括对多台机器之间的交互进行检测的规则。

进一步地，所述对目标关键帧和特征关键帧进行组合之后，还包括：去除目标关键帧和特征关键帧中重复的关键帧，去除起止间隔小于五帧的目标关键帧和起止间隔小于五帧的特征关键帧。

进一步地，所述生成视频高光，包括：将目标关键帧与特征关键帧采用不同高光方式进行标记。

本发明还公开了一种设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现所述的一种基于视觉的建筑视频高光自动检测方法。

本发明还公开了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现所述的一种基于视觉的建筑视频高光自动检测方法。

本发明的有益效果为：通过对施工视频进行特征提取，实现了有效视频片段的系统性、简洁性的获取；将关键帧进行高亮处理，实现了对施工视频片段的有效索引，同时大幅度降低了存储空间的占用，提高了建筑工地的安全生产管理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种基于视觉的建筑视频高光自动检测方法的执行流程图。

图2为CMT方法的执行流程图。

图3，4，5为工作交互规则的检测方式，其中，图3表示机器对象m,n的初始状态，图4表示机器对象m,n所有被检测的部位，图5表示机器对象m,n被检测部位的重叠部分。

图6为ResNet50网络的残差学习示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

实施例1的总体框架如图1所示。包括五个主要部分，机器跟踪、基于规则的关键帧选择、CNN(Convolutional Neural Network，卷积神经网络)特征提取、相似度评估和视频编辑。

如图所示，生成视频高光涉及两种类型的关键帧：目标关键帧和特征关键帧。目标关键帧是包含与连续活动相关的重要施工管理信息的帧(例如，进入工作区的机器)。特征关键帧是图像特征因场景变化而显著变化的帧(例如，相机缩放、编辑切换、任务变化)。在本实施例中，利用目标关键帧从出现工程机械的视频片段中提取重要信息，而利用特征关键帧通过扫描整个视频来识别现场的显著发展。

首先，机器跟踪部分对输入的视频进行处理，产生跟踪结果，包括机器类别、机器标识(ID)以及机器在每一帧的相应像素位置。本实施例采用多目标跟踪方法，称为结构机跟踪器(CMT，Clustering of Static-Adaptive Correspondences for DeformableObject Tracking)。跟踪结果存储在数据库中，可以方便地用结构化查询语言(SQL)进行处理。然后，在分析跟踪结果时，采用基于规则的方法，通过应用预定义的构造规则来选择目标关键帧。这些规则用于探索施工机械的工作区域、工作状态和工作交互信息。对于特征关键帧的选择，采用resnet50cnn从输入视频的所有帧中提取高级特征。使用余弦相似性来评估帧间的特征，以选择表示场景变化的关键帧。最后，在视频编辑部分将目标关键帧和特征关键帧组合在一起，去除重复的关键帧并生成视频高光。

实施例2介绍了机器跟踪部分的工作流程。从输入的视频序列中跟踪建筑机器，以便生成诸如机器类别、ID和像素位置之类的信息。由于动态环境、遮挡和光照的变化，跟踪构造对象具有挑战性。建立工程机械精确边界盒的鲁棒跟踪方法是目标关键帧选择的基础。如上所述，采用CMT是为了实现这一目的，因为它在施工场景中具有强大的性能。

图2中提供了CMT跟踪算法的概述。如图所示，图像在被调整到416×416像素大小之后，由深度学习检测器YOLO-v3处理。然后，通过IoU(Intersection-over-Union，交并比)和图像散列特征将跨帧检测结果关联起来。根据关联结果，CMT将跟踪问题转化为一个线性分配问题，该问题将当前帧中每个单独的检测边界框与前一帧中的边界框相匹配。最后，用Jonker-volgent算法求解线性分配问题，得到跟踪结果。

关于YOLO-v3检测器的训练方法，本实施例采用艾伯塔省建筑图像数据集(ACID)作为带注释的图像数据集进行训练。ACID包含十种施工机械：挖掘机、压实机、推土机、平地机、自卸车、混凝土搅拌车、轮式装载机、反铲装载机、塔式起重机和移动式起重机。在某些施工场景(例如，施工大门场景)中，追踪通勤车辆也很重要；因此，本实施例从COCO数据集中随机选择了2000个汽车图像，其中包含3895个汽车物体，并与ACID结合进行训练。

实施例3介绍了基于规则的关键帧检测，通过集成预定义的构造规则和跟踪结果来选择目标关键帧。三种类型的构造规则是工作区规则、工作状态规则和工作交互规则。

关于工作区规则：工作区控制是施工管理中现场安全和资源保障的重要内容。例如，在某些情况下(例如道路维护施工)，当机器进入工作区时，机器和行人之间存在碰撞风险。机器进入工作区的时间戳也表示实际的调度信息，可以与计划的调度进行比较，以便进行物流管理。因此，本实施例选取感兴趣的机器进入或离开工作区的帧作为关键帧。

公式1显示了工作区规则的基本判断标准，其中A_ABCD是工作区多边形ABCD的面积，Pi是机器对象在帧i中的中心点的像素位置，fr是视频的帧速率。连接当前帧i的中心点位置和帧i-fr的位置可以生成一个片段P_iP_i-fr.如果片段P_iP_i-fr与多边形区域A_ABCD的交点超过0，帧i被选为关键帧。

Count(P_iP_i-fr∩A_ABCD)>0 (1)

关于工作状态规则：识别包含工程机械工作状态变化的机架是生产率分析的一项重要任务，因为这些信息可以用来自动计算机器的空转时间和效率系数。工作状态规则选择关键帧，其中感兴趣的机器的状态从怠速变为工作或从工作变为怠速。此规则仅对工作区内发生的机器状态变化感兴趣(即机器对象的质心点必须在工作区内)。当机器空转时，由于跟踪边界框的精度，这个物体的像素位置可能会略有变化。

帧i处的工作状态规则所依据的判断标准按公式2定义，其中cx_i和cy_i分别表示机器对象中心点的x和y坐标，fr是视频帧速率，k∈N。公式2计算当前帧i和前一帧i-1的中心点之间的平均距离，在fr连续帧中。当平均距离大于d₁时，机器状态被认为是“工作”。如果平均距离小于d₂，机器状态为“空转”。当平均距离介于d₁和d₂之间时，当前帧表示机器处于工作和怠速状态之间的过渡状态，因此应选择该帧作为关键帧。变量d₁和d₂是阈值，需要为给定的构造场景设置。

关于工作交互规则：两台施工机械之间的高水平相互作用通常意味着机组生产力分析和安全监控的重要时刻。例如，挖土机和自卸车在土方作业中的高度重叠表示装载活动，可用于循环生产率计算。同时，两辆自卸卡车之间的高度重叠可能意味着可能发生碰撞，并可能出于安全警示目的。在本实施例中，工作交互规则通过分析工作区域中两台感兴趣的施工机器之间的重叠来选择关键帧。为了应用工作交互规则，如图3所示，通过公式3计算帧i处两个机器对象m和n之间的IoU。如果fr连续帧中的平均IoU(参见公式4)大于阈值a(k∈N)，则当前帧被视为关键帧。

为了在构建场景中成功地应用上述规则，需要考虑两种策略：(1)每种类型的构建规则都应该被视为一个“蓝图”，通过改变感兴趣的机器类别(例如，土方场景中可以生成两个工作交互规则，一个是挖掘机和自卸汽车，另一个是轮式装载机和自卸汽车)；(2)没有必要将所有三种类型的构造规则应用于同一构造场景。生成单个规则的过程包括四个步骤：选择构造规则的类型、定义工作区、选择感兴趣的构造机以及设置阈值(如果需要)。每个单独规则检测到的关键帧简单地组合在一起并输入到视频编辑部分。

实施例4介绍了采用CNN特征提取和相似度评价的方法检测特征关键帧。在本实施例中，特征关键帧用于两个目的：(1)表示没有机器对象的视频片段；以及(2)作为对具有机器对象的视频剪辑中的对象关键帧的补充，因为特征关键帧比目标关键帧更有效地描述场景变化(例如，相机缩放、移动和长度变换)。与手工设计的特征(如SIFT，尺度不变特征变换)相比，CNN在先前的研究中被证明更有效地表现构造图像。

在CNN特征提取中，利用CNN神经网络对构建视频中的所有帧进行处理，生成特征向量，用于表示原始帧。在本实施例中，由于ResNet50神经网络在计算机视觉应用中的优异性能，它被用于特征提取。ResNet50具有50层用于实现残余块的神经网络，其中残余块根据公式5定义

y＝F(X)+X (5)

其中X是输入特征映射，F(X)是经过叠层处理的特征图，y是剩余块的输出特征图。

如图4所示，剩余块是“快捷连接”(X)输入要素图X的添加堆叠层F的输出,这种残差学习解决了深层神经网络训练中的梯度消失问题。本实施例中，首先将输入视频的所有帧调整为224×224分辨率。然后将调整大小的帧输入ResNet50，ResNet50已经在ImageNet数据集上预训练以进行前向传播。然后可以从展平层提取维数为2048×1的向量作为该部分的输出。

相似度评估的目的是基于每帧的平均特征相似度AS(i)来选择特征关键帧。为了计算AS，本实施例中首先将两帧(即a和b)的相似度S(a，b)定义为其对应特征向量的余弦相似度(如公式6所示)。

公式6中，v(a)和v(b)分别是ResNet50为帧a和帧b处理的特征向量，‖v(a)‖是向量v(a)的范数。

然后，在帧i处(在公式7中定义)的平均特征相似性AS(i)被计算为在连续一秒钟内当前帧i的特征向量和帧(i-fr)之间的平均相似性，其中k∈N

如果AS(i)小于阈值s，则当前帧i被认为是特征关键帧。这里，采用的s的值越小，检测到的特征关键帧就越少。在建筑视频中，连续帧通常具有很高的相似性，因为建筑活动是以相对渐进的方式变化的。在本实施例中，阈值s仅为0.9，相对较小。因为相似度评估部分的作用是检测由场景变化引起的显著特征变化。

实施例5介绍了视频编辑部分内容。视频编辑部分的功能是根据检测到的对象关键帧和视频关键帧生成视频远光，分为两个步骤：冗余消除和视频拼接。应该注意的是，检测到的目标关键帧和特征关键帧帧是帧集的间隔，而不是离散帧。对象关键帧可以表示为Tobject＝{[s，e]1，[s，e]2，…[s，e]i}，其中[s，e]i是关键帧的时间间隔，s和e分别是时间间隔的开始帧和结束帧编号。由于跟踪误差，时间间隔可能只有几个帧。因此，小于五帧的任何时间间隔(e-s<5)首先被移除。要生成有用且可理解的视频突出显示，每个视频剪辑的长度至少应为五秒钟，以便用户了解突出显示中发生的内容。考虑到这一点，我们根据式8将时间间隔[s，e]i扩展到[s′，e′]i。该方程计算时间间隔[s，e]i的中间帧，然后找到中心帧前后的n秒作为确定新时间间隔的基础，本实施例将n赋值为2。在此步骤之后，所有时间间隔都具有相同的4fr长度。不同的构造规则可能会定位相邻、重叠或相同的关键帧。换句话说，Tobject中的许多时间间隔是多余的，需要删除。对于两个连续的时间间隔，如果si+1′-si′≤fr，我们去掉第一个时间间隔[s′，e′]i.如果两个连续时间间隔彼此接近(2n×fr>si+1′-si′>fr)，它们被合并到一个新的区间[si′-n×fr,ei+1′+n×fr]。对特征关键帧Tfeature执行相同的过程。

处理后的Tobject和Tfeature可用于通过从原始构建视频中提取相应帧并将这些帧连接在一起来产生视频高光。应注意，目标关键帧和特征关键帧可能重叠。在本实施例中，目标关键帧和特征关键帧之间的重叠帧不会被移除。取而代之的是，所有目标关键帧和特征关键帧都保留在最终的视频远光灯中，用不同颜色的符号来注释每个关键帧。因此，用户能够识别给定的视频高亮帧是属于目标关键帧还是特征关键帧。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于视觉的建筑视频高光自动检测方法，其特征在于，包括以下步骤：

根据预设规则分析跟踪结果，提取出目标关键帧；

采用相似性评估手段评估高级特征帧，提取出特征关键帧；

2.根据权利要求1所述的一种基于视觉的建筑视频高光自动检测方法，其特征在于，所述对输入视频进行机器跟踪，产生跟踪结果，具体包括：

将特征点的运动轨迹作为跟踪结果输出。

3.根据权利要求1所述的一种基于视觉的建筑视频高光自动检测方法，其特征在于，所述预设规则包括工作区规则、工作状态规则和工作交互规则。

4.根据权利要求3所述的一种基于视觉的建筑视频高光自动检测方法，其特征在于，所述工作区规则，具体包括对机器进入或离开工作区进行检测的规则。

5.根据权利要求3所述的一种基于视觉的建筑视频高光自动检测方法，其特征在于，所述工作状态规则，具体包括对机器工作状态变化进行识别的规则。

6.根据权利要求3所述的一种基于视觉的建筑视频高光自动检测方法，其特征在于，所述工作交互规则，具体包括对多台机器之间的交互进行检测的规则。

7.根据权利要求1所述的一种基于视觉的建筑视频高光自动检测方法，其特征在于，所述对目标关键帧和特征关键帧进行组合之后，还包括：

去除目标关键帧和特征关键帧中重复的关键帧；

去除起止间隔小于五帧的目标关键帧和起止间隔小于五帧的特征关键帧。

8.根据权利要求1所述的一种基于视觉的建筑视频高光自动检测方法，其特征在于，所述生成视频高光，包括：将目标关键帧与特征关键帧采用不同高光方式进行标记。

9.一种设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-8中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-8中任一项所述的方法。