CN117423157A - 一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法 - Google Patents

一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法 Download PDF

Info

Publication number
CN117423157A
CN117423157A CN202311066530.1A CN202311066530A CN117423157A CN 117423157 A CN117423157 A CN 117423157A CN 202311066530 A CN202311066530 A CN 202311066530A CN 117423157 A CN117423157 A CN 117423157A
Authority
CN
China
Prior art keywords
mine
video
abnormal
miners
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311066530.1A
Other languages
English (en)
Inventor
段章领
夏浩源
郭蕾蕾
高洁
彭志
博梦云
刘倩倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Hegong Anchi Intelligent Technology Co ltd
Intelligent Manufacturing Institute of Hefei University Technology
Original Assignee
Hefei Hegong Anchi Intelligent Technology Co ltd
Intelligent Manufacturing Institute of Hefei University Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Hegong Anchi Intelligent Technology Co ltd, Intelligent Manufacturing Institute of Hefei University Technology filed Critical Hefei Hegong Anchi Intelligent Technology Co ltd
Priority to CN202311066530.1A priority Critical patent/CN117423157A/zh
Publication of CN117423157A publication Critical patent/CN117423157A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法,其中包括:通过摄像头获取井下包含矿工实时动作的视频数据;预处理视频数据进行视频剪裁与抽帧,通过迁移学习生成部分危险动作视频样本,将图片帧中的人物和轨道位置信息进行识别与标记;再将标记的人物目标绑定ID进行前后帧目标跟踪;将目标跟踪的结果送入3D卷积神经网络提取视频帧特征;将样本输入至SlowFast网络获得动作识别结果;根据追踪目标的具体动作,发现异常行为并发出警告。本发明解决了矿井下矿工异常动作判断智能化水平低的问题。

Description

一种结合迁移学习、区域入侵的矿井下异常视频动作理解 方法
技术领域
本发明涉及动作识别技术领域,具体指一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法。
背景技术
矿井安全生产是矿石企业经济效益得以保证的基础,也是其生产经营的主要内容和首要环节。矿产资源是经济社会发展的重要物质基础,开发利用矿产资源是现代化建设的必然要求。矿井下普遍有着环境错综复杂,矿工数量较多,机器设备庞大等特点,如果不能对矿工的行为进行有效监控,矿工在工作过程中很可能发生安全事故,对人员生命和设备安全造成危害。通过调查近些年的井下事故,我们发现大部分的事故都是作业人员行为不规范,做出异常动作或者站在危险位置导致的。国内行业对井下作业人员的行为监控仍采用传统人工监控方法,即监控人员通过采集到的监控视频对井下情况进行监测。但是,这种依靠人工的方法存在一系列问题。第一,监控人员长时间观看井下视频,身体容易产生疲劳,随着时间的增加,监控人员难以保持专注,反应力会下降,当发现井下工作人员异常行为动作或异常位置信息时,不能及时地对异常动作或异常位置做出反应,因此人工监测存在较大的安全隐患。第二,井下地形复杂、区域众多,监控人员无法同时对多处区域的视频进行有效监控,容易遗漏部分区域。并且,由于工人数量多,行为动作复杂,有时会在短时间内发生人数的变化以及较大的动作幅度,矿工所处的位置会发生大量变化,人工同时对多个视频的监测能力有限,与智能化监控相比,工作效率低。第三,井下的图像细节模糊、曝光不均,在光线弱、粉尘多的地方,监控人员的辨别能力会大幅减弱。同时因为井下巷道狭窄、矿石等障碍物多,易形成视野盲区,仅通过人眼观测,难以精准地监测到矿工行为动作与矿工所处的位置的细节,可能做出错误判断,因此监控效果不佳。
综上所述,传统的矿井下异常动作识别大量依赖人工处理,存在着无法保持高效监测、容易遗漏区域、图像辨别能力弱等技术问题。
发明内容
对于上述背景技术中存在的问题,本发明提出了一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法,目的为了避免矿井下工人处于危险位置或者异常行为的发生。包括:通过摄像头获取井下视频数据;预处理视频数据进行视频剪裁与抽帧,先将图片帧中的人物进行识别与标记;再将标记的人物目标绑定ID进行前后帧跟踪;视频结果送入预设的3D-Resnet网络并获得权重;将样本输入至SlowFast网络获得动作识别结果;根据追踪目标的具体动作,发现异常行为并发出警告。本发明解决了矿井下矿工异常动作判断智能化水平低的问题。
本发明的详细技术方案如下:
一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法,用于对矿井场景中矿工异常动作进行智能识别,具体按照以下步骤进行:
步骤a、样本准备阶段,从视频流中提取矿工的运动数据并进行预处理;
步骤b、使用YOLOv5模块检测矿工的位置,使用区域入侵识别算法模块将矿工的位置与矿井轨道联系起来,并当矿工进入轨道时,发出危险信号;
步骤c、使用DeepSORT模块来跟踪矿工的运动;
步骤d、使用SlowFast算法模块来分析矿工的动作并提高异常检测的准确性。
具体的,所述步骤a样本准备阶段获取矿井下工作环境的步骤,包括:
(1)在矿井车上或者井下工作区域安装摄像头采集有矿工出现的视频流数据;
(2)按照一定的时间间隔抽取视频中的关键帧并保存为图像数据。
具体的,所述步骤a样本准备阶段预处理步骤,包括:
(1)收集矿井下的监控视频,并进行标注,包括矿工的位置信息和动作信息。同时还需要收集矿井轨道的图像,并标注轨道的位置信息。
(2)对抽取的视频帧进行整合和缩减帧;
(3)训练过程中加入数据增强技术。随机裁剪:在原始图像中随机选取一个区域并裁剪出该区域,然后将其调整为固定的大小,以产生更多的图像样本。在本项目中,可以将矿工的异常动作发生在不同的区域进行随机裁剪。随机旋转:对原始图像进行随机旋转一定角度,以产生更多的样本。在本项目中,可以将矿工的异常动作在不同的旋转角度下进行随机旋转。调整亮度和对比度:对于原始图像进行亮度和对比度的随机调整,以产生更多的样本。在本项目中,可以将矿工的异常动作在不同的亮度和对比度条件下进行随机调整。
(4)在井下危险位置采集矿工异常动作具有困难性和危险性。由于数据集缺少异常动作样本,采用迁移学习的方法,通过微调预训练模型生成一些模拟的异常动作样本。选择一个与矿井下的场景相似的预训练模型SlowFast网络,然后使用已有的正常动作样本进行微调,得到一个针对矿工异常动作识别的自适应模型。首先准备矿井下矿工的数据集,并将其划分为训练集和验证集。这些数据集包含正常的动作,例如走路,但是缺少异常动作。之后使用训练集对预训练的SlowFast模型进行微调。因为SlowFast前面的卷积层通常提取的是通用特征,而后面的卷积层更加适合特定任务,因此对前6个卷积层不做处理,所有参数设置为不可训练,将ResBlock最后一个卷积层的权重参数设置为可训练。替换SlowFast的最后一层全连接层,以便输出适当的类别数,使用二元分类,分为两个类别:正常动作和异常动作以用于异常动作识别的Softmax层。接下来,在微调的模型上进行反向传播训练,使用标准反向传播算法来计算损失函数对每个可训练参数的导数,并且使用梯度下降法来更新参数,以最小化损失函数。更新参数的具体流程为:首先定义模型交叉熵损失函数优化器,在每个epoch中,迭代训练集并使用optimizer.zero_grad()清空梯度缓存,接着用模型进行正向传播并计算输出结果和损失值。然后调用loss.backward(),计算损失函数对每个可训练参数的导数。最后调用optimizer.step()来更新模型参数,这个过程一直重复直到模型收敛。通过调整模型的参数,使其更好地适应矿井下的特定任务。之后,利用微调后的模型生成一些模拟的异常动作样本,这些样本可以用于训练和测试异常动作识别模型。
(5)由于需要结合区域入侵识别,还需要生成一些轨道区域入侵的样本。使用矿井轨道图像,根据已有的标注信息,人工制作一些轨道区域入侵的样本,并对这些样本进行标注,即标明矿工进入了轨道区域。
(6)将已有的数据集划分为训练集、验证集和测试集,用于训练和测试异常动作识别和区域入侵识别模型。划分数据集时需要保证数据集的分布和实际应用场景一致,避免模型过拟合或欠拟合。
具体的,所述步骤a样本准备阶段对异常数据剔除步骤,包括:
(1)剔除没有矿工出现或轨道断裂等异常的数据;
(2)剔除人物目标出现但是人物信息不完整的数据。
所述步骤b对有矿工出现的视频进行人物识别和轨道识别,包括:
(1)主干网络部分由多个模块组成,其中包括Focus层、卷积块(CBL)、跨阶段局部网络(Cross Stage Partial Network,CSPNet)和空间金字塔池化(Spatial PyramidPooling,SPP)模块。Focus层通过切片操作对输入图像进行裁剪和堆叠,将图片长宽缩小到原始的一半,通道数为原来的4倍,从而有效减少模型计算量且不会带来信息损失。具体流程为:首先将输入的原始640×640×3通道的图像分成4个切片,每个切片的大小为320×320×3,接着将4个部分连接起来,通过32个卷积核的卷积操作,输出大小为320×320×32的特征图。CBL模块由Conv卷积层、BatchNorm层和LeakyReLU激活函数共同组成。首先,输入部分经过卷积层(conv),提取输入特征,找到特定的局部图像特征;接着通过BatchNorm层,进行归一化,使得每次的梯度分布都控制在原点附近,避免各个batch的偏差过大;最后,通过LeakyReLU激活函数将输出结果传递到下一层卷积。
LeakyReLU通过把x的非常小的线性分量给予负输入来调整负值的零梯度问题,通常a的值为0.01左右。CSP模块在YOLOv5s中有两种结构,其中CSP1_X在Backbone网络中实现特征提取,CSP2_X在Neck结构中使用进行预测。CSP1_X模块由支路1和支路2组成,支路1由卷积层、批量归一化和激活函数组成,支路2由卷积层、批量归一化、激活函数和X个残差单元组成;CSP2_X模块由支路3和支路4组成,两个支路均由卷积层、批量归一化和激活函数组成。经过两条支路,通道数都会减半,再经过Concat拼接起来,通道数保持不变。SPP模块先进行Conv卷积提取特征输出,接着采用1×1、5×5、9×9、13×13四种尺度的最大池化,然后由Concat进行拼接实现多尺度特征融合。Backbone网络得到尺寸为80×80×128、40×40×256、20×20×512三种不同尺度的特征图并送入Neck端。其中,尺寸为80×80×128的特征图包含的低级层特征占大多数,以加强模型小目标检测性能;尺寸为20×20×512的特征图包含高级层特征占大多数,以加强模型大目标检测性能;尺寸为40×40×256的特征图的低级和高级特征信息占比相当,用于中等目标检测。
(2)Neck网络采用了Feature Pyramid Networks(FPN)和Path AggregationNetwork(PAN)的结构,以获得丰富的语义特征和较强的定位能力。首先,FPN网络对经过图像金字塔和SPP处理后的特征图进行卷积操作,得到尺寸大小为20×20的特征图。该特征图经过2倍上采样与来自主干网络提取的相同大小的特征图融合,得到尺寸大小为40×40的特征图。然后,处理得到的40×40特征图再次进行卷积操作,得到尺寸大小为40×40的特征图。该特征图再次与来自主干网络提取的相同大小的特征图进行2倍上采样和融合,得到尺寸大小为80×80的特征图。接着,PAN网络对FPN提取的特征图进行3次卷积操作,得到三个尺寸为[80×80,40×40,20×20]的特征预测图。这三个特征预测图经过非极大值抑制(NMS)处理,输出置信度最高的预测框信息。
(3)在目标检测中,会出现大量重叠的候选框,因此需要使用NMS来筛选出最佳的目标边界框。具体操作流程为:首先对所有预测框按照置信度进行降序排序,然后选出置信度最高的预测框,并确认其为正确预测。接着计算该预测框与其他预测框的IOU,并根据计算得出的IOU去除重叠度高的框,即IOU大于预设阈值的框被删除。剩下的预测框继续进行第一步操作,直到没有剩余的预测框为止。最终,筛选出来的预测框即为最佳的目标边界框。
(4)YOLOv5s的损失函数包括置信度损失(Objectness Loss)、分类损失(Classification Loss)和边框回归损失(Bounding Box Regeression Loss)。
总损失公式定义为:
Loss=a1Lobj+a2Lcla+a3Lbbox
其中a1、a2、a3为权重系数。
Objectness Loss和Classification Loss由二元交叉熵损失函数(BCE Loss)计算得出:
其中xa是二元标签值0或者1,p(xa)是属于xa标签值的概率。
边框回归损失由CIoU函数(Complete Intersection over Union)计算得出:
式中:
IOU表示两个重叠矩形框之间的交并比;x和xgt表示两个重叠矩形框的中心点;d表示两个重叠矩形框之间的欧氏距离;y表示两个重叠矩形框的闭包区域的对角线距离;m衡量两个矩形框相对比例的一致性;β表示权重系数。损失函数考虑了两个框的重合面积、中心点的距离和长宽比的相似性,使预测框更加符合真实框,可以达到收敛速度更快、精度更高的效果。
评估指标:为了准确评估网络模型性能,使用精准率(Precision,P)和召回率(Recall,R)、平均精度均值(mean Average Precision,mAP)以及每秒传输帧数(FramesPer Second,FPS)作为评估指标,具体公式如下:
其中t为正确检测目标个数,f为错误检测目标个数,n为漏检目标个数,AP表示Precision-Recall曲线下的面积,对该图片每一类的平均精度求均值即mAP,n表示被测样本数,α表示测试全部样本所需的时间。
具体的,所述步骤c使用Deepsort算法对yolov5s网络的检测结果进行目标跟踪,包括:
(1)根据上述检测步骤得到检测框,采用一个CNN网络来提取目标的运动特征预测框坐标值、人物目标的坐标值,使用卡尔曼滤波进行轨迹预测,采用Deep AssociationMetric提取外观特征,采用级联匹配、IOU匹配的匹配机制;
(2)设置网络训练策略,包括:训练batch大小,初始化学习率,权重衰减率,优化方法,loss函数;
(3)将训练数据送入网络模型,得到新的特征提取网络。使用如下损失函数计算网络提取的外观特征与真实结果的差异:
其中ai为特征向量,(1)计算Softmax函数结果y(ai)即为预测结果,w(ai)真实结果。
(4)通过步骤(3)中训练的网络得到当前帧检测框的外观特征(记作bm),通过如下公式计算当前帧检测框的外观特征与所有的外观特征的最小距离:
其中属于所有帧的外观特征集合。
(5)通过如下公式加权融合外观特征信息和运动特征信息:
tm,n=αd1(m,n)+(1-α)d(m,n)
其中d1(m,n)为马氏距离,d(m,n)为余弦定理,α为权重系数。
具体的,所述步骤c构建网络模型;将所述的SlowFast网络对Deepsort的跟踪结果进行异常动作识别,包括:
(1)使用3D卷积神经网络(CNN)提取视频帧中的特征;设置resnet3d网络,主干网络分为慢速路径与快速路径。慢速路径使用resnet3d网络,第一层使用1个大小为7*7的卷积核,在低帧率下运行,捕获空间语义,获得环境信息;快速路径使用resnet3d网络,基础通道数目为8,第一层使用5个大小为7*7的卷积核,在高帧率下运行,以捕获精细时间分辨率的运动。头部分类网络使用SlowFast头,特征连接的通道数为2048+256。
(2)特征融合,网络采用将Fast通道的数据通过侧向连接被送入Slow通道,即将快速路径提取的信息融合到慢速路径中。卷积核的尺寸记作{T×S2,C},其中T、S和C分别表示采样次数、空间分辨率和卷积核数量。跳帧率为α=8,通道比为1/β=1/8。Fast通道的单一数据样本为{αT,S2,βC},Slow通道的单一数据样本为{T,S2,αβC}。本发明通过使用2βC输出通道和步幅为α对5×12内核进行三维卷积的方式进行数据变换。
(3)在每个通道的末端执行全局平均池化,之后组合快速慢速通道的结果并送入一个全连接分类层,该层使用Softmax来识别图像中矿井工人正在进行的动作。采用半监督方法提高模型性能,准备标记和未标记的数据集,其中标记的数据集包括视频和标签,未标记的数据集只包括视频。使用标记数据集来训练SlowFast模型,并保存训练好的模型参数。使用训练好的SlowFast模型来预测未标记数据集中的每个视频的标签,利用K means聚类算法来生成预测标签。
K means聚类算法:选择初始化的k个样本作为初始聚类中心a=a1,a2,…ak;针对数据集中每个样本计算它到k个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;针对每个类别am,重新计算它的聚类中心(即属于该类所有样本的质心);直到达到终止条件(迭代次数、最小误差变化等)。
将生成的预测标签与标记数据集合并,得到一个新的标记数据集。使用合并后的标记数据集来重新训练SlowFast模型,其中可以使用标记数据和未标记数据的预测标签来更新模型参数。
如上所述,通过本发明所提供的一种基于结合迁移学习、区域入侵的矿井下异常视频动作理解方法,通过摄像头获取井下视频数据;预处理视频数据进行视频剪裁与抽帧,先将图片帧中的人物进行识别与标记;再将标记的人物目标绑定ID进行前后帧跟踪;视频结果送入预设的resnet3d网络并获得权重;将样本输入至SlowFast网络获得动作识别结果;根据追踪目标的具体动作,发现异常行为并发出警告。不需要采用手工提取复杂特征,检测效率高。本发明突破了传统井下安全检测中大量人工观测和操作导致检测错误率高,提高了系统检测井下异常动作识别的准确率,并增强了针对恶劣条件下的检测能力,本发明提出的技术方案更加有利于复杂的工业的使用。
综上,本发明提供了基于视频理解的矿井下异常动作识别系统,解决了矿井下矿工异常动作判断智能化水平低、识别准确率低的问题。
附图说明
图1显示为本发明的结合迁移学习、区域入侵的矿井下异常视频动作理解方法步骤示意图。
图2显示为本发明的yolov5s和deepsort网络架构示意图。
图3显示为图1中步骤S1在一实施例中的具体流程图。
图4显示为图1中步骤S2在一实施例中的具体流程图。
图5显示为图1中步骤S3在一实施例中的具体流程图。
图6显示为图1中步骤S4在一实施例中的具体流程图。
图7显示为图1中步骤S5在一实施例中的具体流程图。
图8显示为图1中步骤S6在一实施例中的具体流程图。
图9显示为本发明的整体流程图。
步骤标号说明
S1~S6方法步骤
S11~S12方法步骤
S21~S23方法步骤
S31~S32方法步骤
S41~S43方法步骤
S51~S53方法步骤
S61~S64方法步骤
具体实施方式
请参阅图1和图2,显示为本发明的一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法步骤示意图和yolov5s、deepsort架构示意图,本发明目的在于提供一种结合迁移学习、区域入侵的矿井下异常动作识别系统,解决传统矿井下矿工异常动作判断智能化水平较低,效率不高,误检测率高等问题。传统的图像检测方法也存在准确率低的技术问题,一种基于视频理解的异常动作识别方法,包括:
S1、样本准备阶段,获取矿井下工作环境视频,按照一定时间间隔对视频进行取帧转换为图片对视频进行剪裁与抽帧,对矿工的位置信息和运动信息以及轨道信息进行标注;
S2、数据生成与数据清洗,对于异常动作样本数据缺少的情况时,采用迁移学习的方法生成异常动作样本,并对异常的标注图像进行数据剔除;
S3、数据集划分,将已有数据集划分为训练集、验证集和测试集,用以训练和测试异常动作识别和区域入侵识别的网络模型;
S4、使用处理后的训练样本训练Yolov5s网络;
S5、使用DeepSort算法对Yolov5s对矿工的目标的识别结果进行进行目标跟踪;
S6、通过所述的训练好并加入半监督学习的SlowFast网络对测试样本进行检测获得人物动作识别结果,识别到可能存在的异常动作。
请参阅图3,显示为图1中步骤S1在一实施例中的具体流程图,如图3所示,包括:
S11、设置摄像头参数,由于工业现场扬尘大,对摄像头采集的图像有很大的干扰,因此设置摄像头采用较高的分辨率以捕捉图像的更多特性;设置摄像头帧率,在无人车运行较快时采用较高的摄像头帧率可以使采集的图像更加清晰;根据工业现场的光线特性调整摄像头的饱和度,对比度等参数以达到对矿井下矿工动作的最佳拍摄;
S12、从视频帧中获取有矿工出现的图像,设置固定的时间间隔,按照指定时间间隔抽取关键帧并转换为图像,矿工出现的视频图像为训练样本和测试样本的数据源;
S13、对图像进行初步筛选,去除过度模糊、过度遮挡、曝光过度、曝光不足等不合格图像,处理图片大小分辨率统一为1280*720的大小。
S14、对合格的图像进行标注,可选的标注工具有via等工具。标注时采用多边形标注,尽量使标注框和人物躯体贴合,如果存在人物身体重叠的情况,标注未被遮挡的部分。标注后的标注数据保存为.xml格式并与原图像名相同。
请参阅图4,显示为图1中步骤S2在一实施例中的具体流程图,如图4所示,步骤S2包括:
S21、将矿井下的矿工的数据集划分为训练集和验证集,选取一个与矿井下场景相似的预训练模型SlowFast网络;
S22、将SlowFast网络的前六个卷积层的参数设置为不可训练,将ResBlock最后的一个卷积层的权重参数设置为可训练,替换SlowFast最后一层全连接层来输出适当的类别数并使用二元分类分为正常动作和异常动作以用于异常动作识别的Softmax层;
S23、训练过程中加入数据增强技术,采用随机剪裁,随机旋转,调整亮度和对比度来产生更多样本;
S24、在微调的模型上进行传播训练,使用反向传播算法计算损失函数对每个可训练参数的导数,并使用梯度下降法来更新模型参数;
S25、使用微调后的模型生成异常动作样本,用于训练和测试异常动作识别模型;
S26、由于检测方法用于检测完整的人体目标,因此可以删除只出现局部的人体躯干;
S27、剔除明显错误的数据,根据标注框每个顶点的位置坐标,剔除坐标位置颠倒的顶点所对应的标注框。
请参阅图5,显示为图1中步骤S3在一实施例中的具体流程图,如图5所示,步骤S3包括:
S31、对动作和轨道的数据集分别划分成训练集、验证集、测试集;
S32、将划分完成的数据集送入Yolov5s网络进行训练。
请参阅图6,显示为图1中步骤S4在一实施例中的具体流程图,如图6所示,步骤S4包括:
S41、输入端主要对输入的图片进行预处理,整个过程包括Mosaic数据增强、自适应锚框计算和自适应图片缩放。通过切片操作对输入图像进行裁剪和堆叠。
S42、输入部分先经过卷积层(Conv),提取输入特征,进行归一化,由LeakyRelu激活函数将输出结果传到下一层卷积。
S43、进行Conv卷积提取特征输出,然后由Concat进行拼接实现多尺度特征融合,预测端经过8倍下采样、16倍下采样和32倍下采样输出三个尺寸的特征图,并通过非极大值抑制(Non Maximum Suppression,NMS)输出置信度最高的预测框信息,从而获得检测结果。
请参阅图7,显示为图1中步骤S5在一实施例中的具体流程图,如图7所示,步骤S5包括:
S51、根据上述检测步骤得到检测框,采用一个CNN网络来提取目标的运动特征预测框坐标值、人物目标的坐标值,使用卡尔曼滤波进行轨迹预测,采用Deep AssociationMetric提取外观特征,采用级联匹配、IOU匹配的匹配机制。
S52、设置网络训练策略,包括:训练batch大小,初始化学习率,权重衰减率,优化方法,loss函数。
S53、将训练数据送入网络模型,得到新的特征提取网络。计算网络提取的外观特征与真实结果的差异。
S54、通过上一步骤中获得的新的特征提取网络得到当前帧检测框的外观特征,计算当前帧检测框的外观特征与所有的外观特征的最小距离。
S55、加权融合外观特征与运动特征信息。
请参阅图8,显示为图1中步骤S6在一实施例中的具体流程图,如图8所示,步骤S6包括:
S61、使用3D卷积神经网络(CNN)从视频帧中提取特征。
S62、设置resnet3d网络,主干网络分为慢速路径与快速路径。慢速路径使用resnet3d网络,第一层使用1个大小为7*7的卷积核,在低帧率下运行,捕获空间语义,获得环境信息;快速路径使用resnet3d网络,基础通道数目为8,第一层使用5个大小为7*7的卷积核,在高帧率下运行,以捕获精细时间分辨率的运动。头部分类网络使用SlowFast头,特征连接的通道数为2048+256。
S63、特征融合,网络采用将Fast通道的数据通过侧向连接被送入Slow通道,即将快速路径提取的信息融合到慢速路径中。卷积核的尺寸记作{T×S2,C},其中T、S和C分别表示采样次数、空间分辨率和卷积核数量。跳帧率为α=8,通道比为1/β=1/8。Fast通道的单一数据样本为{αT,S2,βC},Slow通道的单一数据样本为{T,S2,αβC}。本发明通过使用2βC输出通道和步幅为α对5×12内核进行三维卷积的方式进行数据变换。
S64、在每个通道的末端执行全局平均池化,之后组合快速慢速通道的结果并送入一个全连接分类层,该层使用Softmax来识别图像中矿井工人正在进行的动作。
S65、采用半监督方法提高模型性能,准备标记和未标记的数据集,其中标记的数据集包括视频和标签,未标记的数据集只包括视频;
S66、使用标记数据集来训练SlowFast模型,并保存训练好的模型参数。使用训练好的SlowFast模型来预测未标记数据集中的每个视频的标签,利用K means聚类算法来生成预测标签;
S67、将生成的预测标签与标记数据集合并,得到一个新的标记数据集。使用合并后的标记数据集来重新训练SlowFast模型,其中可以使用标记数据和未标记数据的预测标签来更新模型参数。

Claims (5)

1.一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法,用于对矿井场景中矿工异常动作进行智能识别,其特征是按以下步骤进行:
a、样本准备阶段,从视频流中提取矿工的运动数据并进行预处理;
b、使用YOLOv5模块检测矿工的位置,使用区域入侵识别算法模块将矿工的位置与矿井轨道联系起来,并当矿工进入轨道区域内时,发出危险信号;
c、使用DeepSORT模块来跟踪矿工的运动;
d、使用SlowFast算法模块来分析矿工的动作并提高异常检测的准确性。
2.如权利要求1所述一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法,其特征是所述步骤a样本准备阶段获取矿井下工作环境的步骤,包括:
(1)在矿井车上或者井下工作区域安装摄像头采集有矿工出现的视频流数据;
(2)按照一定的时间间隔抽取视频中的关键帧并保存为图像数据。
3.如权利要求1所述一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法,其特征是所述步骤a样本准备阶段预处理步骤,包括:
(1)收集矿井下的监控视频,并进行标注,包括矿工的位置信息和动作信息。同时还需要收集矿井轨道的图像,并标注轨道的位置信息。
(2)对抽取的视频帧进行整合和缩减帧;
(3)训练过程中加入数据增强技术,包括随机裁剪:在原始图像中随机选取一个区域并裁剪出该区域,然后将其调整为固定的大小,以产生更多的图像样本;随机旋转:对原始图像进行随机旋转一定角度,以产生更多的样本。
4.如权利要求1所述一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法,其特征是所述步骤a样本准备阶段对异常数据剔除步骤,包括:
(1)剔除没有矿工出现或轨道断裂等异常的数据;
(2)剔除人物目标出现但是人物信息不完整的数据。
5.如权利要求1所述一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法,其特征是所述步骤b对有矿工出现的视频进行人物识别以及轨道识别的组成部分和步骤包括:
(1)主干网络:由多个模块组成,其中包括Focus层、卷积块(CBL)、跨阶段局部网络(Cross Stage PartialNetwork,CSPNet)和空间金字塔池化(SpatialPyramid Pooling,SPP)模块;
(2)Neck网络:采用Feature Pyramid Networks(FPN)和Path Aggregation Network(PAN)的结构,以获得丰富的语义特征和较强的定位能力。
CN202311066530.1A 2023-08-23 2023-08-23 一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法 Pending CN117423157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311066530.1A CN117423157A (zh) 2023-08-23 2023-08-23 一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311066530.1A CN117423157A (zh) 2023-08-23 2023-08-23 一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法

Publications (1)

Publication Number Publication Date
CN117423157A true CN117423157A (zh) 2024-01-19

Family

ID=89529022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311066530.1A Pending CN117423157A (zh) 2023-08-23 2023-08-23 一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法

Country Status (1)

Country Link
CN (1) CN117423157A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690062A (zh) * 2024-02-02 2024-03-12 武汉工程大学 一种矿内矿工异常行为检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690062A (zh) * 2024-02-02 2024-03-12 武汉工程大学 一种矿内矿工异常行为检测方法
CN117690062B (zh) * 2024-02-02 2024-04-19 武汉工程大学 一种矿内矿工异常行为检测方法

Similar Documents

Publication Publication Date Title
CN109829429B (zh) 基于YOLOv3的监控场景下的安防敏感物品检测方法
CN108710868B (zh) 一种基于复杂场景下的人体关键点检测系统及方法
CN110084165B (zh) 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法
CN107016357B (zh) 一种基于时间域卷积神经网络的视频行人检测方法
Hosseini et al. Intelligent damage classification and estimation in power distribution poles using unmanned aerial vehicles and convolutional neural networks
CN111126325B (zh) 一种基于视频的智能人员安防识别统计方法
CN111598066A (zh) 一种基于级联预测的安全帽佩戴识别方法
KR20180135898A (ko) 기계 학습에 의해 객체 분류기를 훈련시키는 시스템 및 방법
CN111339883A (zh) 复杂场景下基于人工智能的变电站内异常行为识别与检测方法
CN106951889A (zh) 井下高危区域动目标监测和管理系统
CN110728252B (zh) 一种应用于区域人员运动轨迹监控的人脸检测方法
CN111931582A (zh) 基于图像处理的高速公路交通事件检测方法
CN102254394A (zh) 一种基于视频差异分析的输电线路杆塔防盗监控方法
CN110569843A (zh) 一种矿井目标智能检测与识别方法
CN110852179B (zh) 基于视频监控平台的可疑人员入侵的检测方法
CN111091110A (zh) 一种基于人工智能的反光背心穿戴识别方法
CN108664875A (zh) 基于图像识别的井下皮带运输监控方法
CN113361533A (zh) 重叠遮挡的目标物的分割识别方法及系统
CN115761537B (zh) 一种面向动态特征补充机制的输电线路异物入侵识别方法
CN117423157A (zh) 一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法
CN112131951A (zh) 一种自动化识别施工中违规使用梯子行为的系统
CN113191273A (zh) 基于神经网络的油田井场视频目标检测与识别方法及系统
CN116846059A (zh) 一种用于电网巡检和监控的边缘检测系统
CN104778699A (zh) 一种自适应对象特征的跟踪方法
CN111798435A (zh) 图像处理方法、工程车辆侵入输电线路监测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination