CN112348003A - 基于深度卷积神经网络的飞机加油场景识别方法及系统 - Google Patents
基于深度卷积神经网络的飞机加油场景识别方法及系统 Download PDFInfo
- Publication number
- CN112348003A CN112348003A CN202110027931.0A CN202110027931A CN112348003A CN 112348003 A CN112348003 A CN 112348003A CN 202110027931 A CN202110027931 A CN 202110027931A CN 112348003 A CN112348003 A CN 112348003A
- Authority
- CN
- China
- Prior art keywords
- neural network
- convolutional neural
- deep convolutional
- scene
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 109
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 230000003321 amplification Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 abstract description 16
- 238000004422 calculation algorithm Methods 0.000 abstract description 14
- 238000013480 data collection Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于深度卷积神经网络的飞机加油场景识别方法及系统,其中方法包括步骤:收集飞机加油场景和非飞机加油场景的图像数据形成训练数据集;根据飞机加油场景,设计深度卷积神经网络结构;参考所述训练数据集,选择模型训练参数;根据所述训练数据集合和所述模型训练参数对所述深度卷积神经网络结构训练,形成深度卷积神经网络模型;利用所述深度卷积神经网络模型对特征数据进行识别检测。根据本发明的方案,实现了基于深度神经网络自动化的飞机加油场景识别,提升了机场安全生产监管人员的工作效率。本发明算法训练需要的数据少,减少了数据收集的工作量。本发明对飞机加油场景识别准确率(mAP)高,能够匹配业务需要。
Description
技术领域
本发明涉及视频安全监管技术领域,尤其涉及一种基于深度卷积神经网络的飞机加油场景识别方法及系统。
背景技术
随着视频监控技术的迅猛发展以及国家和行业对安全生产监管日益重视,各大机场均建设了覆盖加油作业区域的视频监控系统,实现了安全生产管理人员实时查看各现场视频,监督机坪加油作业等关键生产作业活动。视频监控技术为安全生产监管便利性的同时,也对安全生产管理模式提出了新的课题和挑战。海量的视频流数据的接入,可以支持全方面实时查看机坪各停机位的情况。但是实际生产作业中,在某一时间段内,只有少数停机位正在开展加油作业,需要重点监管。鉴于各种现实条件的限制,监管人员无法直接获取到加油作业对应的摄像机信息,需要人工查找加油作业的视频流,效率相对低下。
目前国内外对深度卷积神经网络进行了较为深入的研究,广泛应用于安全生产、医疗等各大领域中。在特定场景的视频数据和图像数据的支持下,技术人员可以基于不同类型的深度卷积神经网络,训练出识别吸烟、值班人员脱岗等安全生产人员关注的特殊场景的算法,提升安全生产监管的效率。但目前尚未给出识别飞机加油场景的的方法。
飞机加油场景识别方法分为两类。一种是手动选取重要的摄像机,另一种是采用传统的机器学习方法,如支持向量机(SVM)、线性回归(LR)等或基于卷积神经网络(CNN)的深度学习(DL)方法来完成分类任务。
显然,采用人工方法是低效的。而对于机器学习或深度学习方法,图像分类的一般过程包括两个阶段:特征提取和分类。对于特征提取,应该捕捉不同类别之间的差异。然后,利用这些特征及其对应的分类标志训练出一个分类模型,常用的分类模型有SVM、LR、RF(Random Forest)和决策树等。这类传统模型存在的主要困难之一是,当图像及其标签发生变化时,特征提取过程中的参数不能自适应调整。如果选取的特征不足以区分不同的类别,模型的精度将大大降低。解决这一问题的常用方法是使用多种特征抽取器,然后将它们组合起来以获得更好的性能,但需要大量的启发式规则和人力根据不同的领域调整参数,以达到接近人类水平的良好精度。这就是为什么使用传统的计算机视觉技术来建立一个好的计算机视觉系统需要花费数年的时间。
深度学习已成功地应用于计算机视觉、语音识别和自然语言处理等各个领域。其中CNN成功地完成了许多具有挑战性的图像分类任务。CNN是一种前向神经网络,通常包括特征提取层和特征映射层,可以通过卷积来学习数据中的局部模式。CNN的一个显著特点是它适合于无需任何先验特征选择的端到端学习。因此,近年来出现了大量基于深度学习的分类研究和应用。然而,尚未见到飞机加油行为检测模型的相关报道。
发明内容
本发明的目的在于解决上述背景技术中的至少一个问题,提供一种基于深度卷积神经网络的飞机加油场景识别方法及系统。
为实现上述目的,本发明提供一种基于深度卷积神经网络的飞机加油场景识别方法,包括以下步骤:
收集飞机加油场景和非飞机加油场景的图像数据形成训练数据集;
根据飞机加油场景,设计深度卷积神经网络结构;
参考所述训练数据集,选择模型训练参数;
根据所述训练数据集合和所述模型训练参数对所述深度卷积神经网络结构训练,形成深度卷积神经网络模型;
利用所述深度卷积神经网络模型对特征数据进行识别检测。
根据本发明的一个方面,收集所述图像数据时,利用摄像机每间隔1小时拍摄一次图片。
根据本发明的一个方面,所述图像数据包括多种天气、时间和日照条件的图片。
根据本发明的一个方面,所述飞机加油场景的图像数据和所述非飞机加油场景的图像数据相同或者相近。
根据本发明的一个方面,所述深度卷积神经网络结构基于Inception V3网络进行修改,取Inception V3 mix 7的输出,将其降维为一维向量,并使用完全连接的层减少输出参数的数量到128个,并使用ReLU函数激活输出,最后,将128个输出参数通过完全连接层连接到1个参数,并通过Sigmoid函数进行激活;
Sigmoid函数将输出的结果转换为0到1之间的数值,代表所述深度卷积神经网络结构判断输入图像为正样本的概率;
所述深度卷积神经网络结构训练时使用公开的已经完成训练的Inception V3网络参数,仅训练新增的Flatten层和2个Full Conn层的参数。
根据本发明的一个方面,所述模型训练参数包括基本超级参数和数据扩增参数;
所述基本超级参数包括输入图像大小、学习率和批次大小;
所述数据扩增参数包括图像旋转范围、图像宽度移动范围、图像高度移动范围和图像缩放范围。
根据本发明的一个方面,所述输入图像的尺寸为352mm*288mm,所述学习率为0.001,所述批次大小为30。
根据本发明的一个方面,所述图像旋转角度范围为-5°-5°;
所述图像宽度移动范围为小于或者等于1.1倍的图像宽度,所述图像高度移动范围为小于或者等于1.1倍的图像高度;
所述图像缩放范围为图像缩小或放大-40%-40%。
为实现上述目的,本发明还提供一种基于深度卷积神经网络的飞机加油场景识别系统,包括:
数据获取模块,用于收集飞机加油场景和非飞机加油场景的图像数据形成训练数据集;
预设神经网络结构模块,用于根据飞机加油场景,设计深度卷积神经网络结构;
模型参数选择模块,参考所述训练数据集,选择模型训练参数;
模型构建模块,根据所述训练数据集合和所述模型训练参数对所述深度卷积神经网络结构训练,形成深度卷积神经网络模型;
识别检测模块,利用所述深度卷积神经网络模型对特征数据进行识别检测。
为实现上述目的,本发明还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于深度卷积神经网络的飞机加油场景识别方法。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的基于深度卷积神经网络的飞机加油场景识别方法。
根据本发明的方案,训练数据集、深度卷积神经网络结构和模型训练参数的收集、构建和选择尤为关键,对于本发明对飞机加油场景的识别和模型的应用起到至关重要的作用,使得本发明的基于深度卷积神经网络的飞机加油场景识别方法可以将安防摄像机拍摄的场景进行二分类,区分出正在拍摄飞机加油作业的热点摄像机和其他摄像机,便于机场安全监管人员快速定位到关注的热点视频流数据,更加有效的开展监管和指挥工作。
因为本发明主要由飞机加油场景识别模型训练数据集构建、飞机加油场景识别基础深度神经网络结构、飞机加油场景识别模型训练参数和应用系统设计组成。在本发明中,数据集的构建包括数据的采集方法,训练集、测试集比例的选择,正样本和负样本数据的收集方法和数量的选择等;深度神经网络结构设计决定了模型训练所需数据集的大小、训练周期长短和算法运行所需的资源等;模型训练参数则是训练过程中,根据理论分析和实践得出的训练参数的集合,基于这些参数进行训练可以得到较高的模型性能,本发明关注的核心参数为模型平均准确率(mAP)。
模型训练完成后,需要将模型与应用系统集成。应用系统将摄像机对应的视频数据提交给模型,模型则将识别的结果反馈给应用系统,若为飞机加油场景,则应用系统将对应的摄像机采用特殊方式展示并提示用户。用户则可以重点关注相应的实时视频数据,提升工作效率。
根据本发明的方案,实现了基于深度神经网络自动化的飞机加油场景识别,提升了机场安全生产监管人员的工作效率。本发明算法训练需要的数据少,有效减少了数据收集的工作量。本发明对飞机加油场景识别准确率(mAP)较高,能够匹配业务需要。
附图说明
图1示意性表示根据本发明的基于深度卷积神经网络的飞机加油场景识别方法的流程图;
图2示意性表示根据本发明的一种实施方式的深度卷积神经网络结构的结构图;
图3示意性表示根据本发明的基于深度卷积神经网络的飞机加油场景识别系统结构框图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护范围。
图1示意性表示根据本发明的基于深度卷积神经网络的飞机加油场景识别方法的流程图。如图1所示,根据本发明的基于深度卷积神经网络的飞机加油场景识别方法,包括以下步骤:
a. 收集飞机加油场景和非飞机加油场景的图像数据形成训练数据集;
b. 根据飞机加油场景,设计深度卷积神经网络结构;
c. 参考所述训练数据集,选择模型训练参数;
d. 根据所述训练数据集合和所述模型训练参数对所述深度卷积神经网络结构训练,形成深度卷积神经网络模型;
e. 利用所述深度卷积神经网络模型对特征数据进行识别检测。
根据本发明的一种实施方式,在上述a步骤中,收集飞机加油场景的图片以及不是飞机加油场景的图片,分别称之为正样本和负样本。并将正样本数据和负样本数据整理构建成合适的训练数据集。
在本实施方式中,为了提高数据收集的效率,本发明通过定期访问机坪摄像机来自动收集训练图像数据,并采用人工法对样本进行标记。除了自动化的收集数据外,此外还需要重点关注以下因素,具体包括:
1)避免类似数据。由于固定安装了停机坪相机,因此拍摄角度几乎不会改变。对于同一台摄像机,在大多数情况下,图片几乎保持不变。因此,在本实施方式这种,从同一台摄像机收集图像的时间间隔不应太短,间隔时间为1小时为宜,即收集所述图像数据时,利用摄像机每间隔1小时拍摄一次图片。
2)考虑由天气和时间引起的照明条件的变化。对于同一台摄像机,天气考虑由天气和时间引起的照明条件的变化。对于同一台摄像机,天气条件以及黎明和黑暗中的阳光角度将对图像产生一定的影响。在本实施方式中,收集的图像数据需要包括不同的天气,时间和日照条件。
3)正样本和负样本之间的不平衡。自动轮询脚本获取的正样本数量远小于负样本图像。正阳本数量通常大约为负样本数量的10%。不做处理将导致模型倾向于判断输入的图像为负样本。在本实施方式中,解决此问题的一种方法是简单地随机减少负样本的数量,使得负样本数量和正样本数量基本一致(即相同或者相近)。
除此以外,还需要重点关注:
4)机场停机位的繁忙程度。距离航站楼较远的机坪可能长时间没有到达航班,并且相应的加油场景图像极少或缺失。针对此问题,尽管深度学习算法具有良好的泛化能力,但仍然有必要在数据收集阶段尽可能避免此类问题,具体地,在本实施方式中,适当的减少一些繁忙机坪的数据量来保证数据的平衡。
在本实施方式中,收集整理完数据后,将数据分为训练数据集和验证数据集,训练数据集和验证数据集的比例约为6:1。验证数据集数量不少于200张,其中正样本和负样本各不少于100张。
根据上述设置,本发明在收集图像数据的过程中可以保证图像数据的分类均衡,并且图像数据齐全,全面覆盖各种环境中的场景状态,这样一来,可以有效提高后续算法和训练的准确性,提高识别检测的效果和效率。
进一步地,图2示意性表示根据本发明的一种实施方式的深度卷积神经网络结构的结构图。如图2所示,在本实施方式中,在上述b步骤中,深度卷积神经网络结构基于Inception V3网络进行修改,取Inception V3 mix 7的输出,将其降维为一维向量(图中的Flatten层),并使用完全连接的层减少输出参数的数量到128个(图中的Full Conn.[128]),并使用ReLU函数激活输出。最后,将128个输出参数通过完全连接层连接到1个参数,并通过Sigmoid函数进行激活(图中的Full Conn.(Sigmoid))。Sigmoid函数将输出的结果转换为0到1之间的数值,代表模型判断输入图像为正样本的概率。模型训练时使用公开的已经完成训练的Inception V3网络参数,仅训练新增的Flatten层和2个Full Conn层的参数。
进一步地,根据本发明的一种实施方式,在上述c步骤中,模型训练参数包括基本超级参数和数据扩增参数。其中,基本超级参数包括输入图像大小、学习率和批次大小,并且具体设置如下:
1)输入图像大小:输入模型的图像的尺寸默认为352mm * 288mm(即模拟摄像机画质),实际使用时图像画质不应低于此尺寸。
2)学习率:深度神经网络反向传播算法需要选择在权重参数空间中的沿最陡下降方向下降的速率。本发明的模型训练的学习率参数设置为0.001。
3)批次大小:本参数结合数据集大小和训练设备的性能来选择,会影响收敛速度。本发明的模型训练的批次大小参数设置为30。
此外,在本实施方式中,数据扩增参数包括图像旋转范围、图像宽度移动范围、图像高度移动范围和图像缩放范围。在本发明中,数据扩充的目的是增加数据量,丰富数据多样性并提高模型的泛化能力。数据扩充的一般方法是通过旋转,宽度/高度偏移,剪切,缩放和翻转等操作来更改原始数据。它可以缓解由于数据集相对不足而导致的过度拟合问题。
图像增强的效果还取决于本发明选择的参数。如果图像增强的结果与实际场景更加一致,则可以发挥更好的效果。在应用场景中,相机将调整角度或更改焦距以放大/缩小视图。飞机和加油车的位置通常会略有偏移。结合以上实际情况分析,在本实施方式中,给出数据扩充使用的一些参数:
1)图像旋转范围:训练图像随机旋转的角度范围为从-5度到5度。
2)图像宽度/高度移动范围:训练图像水平或垂直移动范围不会超过图像尺寸的10%。
3)图像缩放范围:训练图像随机放大或缩小的范围设置为-40%到40%。
在本发明中,上述训练数据集、深度卷积神经网络结构和模型训练参数的收集、构建和选择尤为关键,对于本发明对飞机加油场景的识别和模型的应用起到至关重要的作用,使得本发明的基于深度卷积神经网络的飞机加油场景识别方法可以将安防摄像机拍摄的场景进行二分类,区分出正在拍摄飞机加油作业的热点摄像机和其他摄像机,便于机场安全监管人员快速定位到关注的热点视频流数据,更加有效的开展监管和指挥工作。
因为本发明主要由飞机加油场景识别模型训练数据集构建、飞机加油场景识别基础深度神经网络结构、飞机加油场景识别模型训练参数和应用系统设计组成。在本发明中,数据集的构建包括数据的采集方法,训练集、测试集比例的选择,正样本和负样本数据的收集方法和数量的选择等;深度神经网络结构设计决定了模型训练所需数据集的大小、训练周期长短和算法运行所需的资源等;模型训练参数则是训练过程中,根据理论分析和实践得出的训练参数的集合,基于这些参数进行训练可以得到较高的模型性能,本发明关注的核心参数为模型平均准确率(mAP)。
模型训练完成后,需要将模型与应用系统集成。应用系统将摄像机对应的视频数据提交给模型,模型则将识别的结果反馈给应用系统,若为飞机加油场景,则应用系统将对应的摄像机采用特殊方式展示并提示用户。用户则可以重点关注相应的实时视频数据,提升工作效率。
在本发明中,训练完成的深度卷积神经网络模型可部署在Docker容器中,安全生产监管系统定期抓取每个摄像机的场景截图,将图片推送给深度卷积神经网络模型,然后深度卷积神经网络模型返回分类结果。在人机交互界面中,安全生产监管系统使用高光颜色标记被归类为加油操作的摄像机。系统用户可以在数百台摄像机中快速找到他们关注的摄像机。
基于上述方法,本发明还提供一种基于深度卷积神经网络的飞机加油场景识别系统,该系统的结构框图如图3所示,该系统包括:
数据获取模块,用于收集飞机加油场景和非飞机加油场景的图像数据形成训练数据集;
预设神经网络结构模块,用于根据飞机加油场景,设计深度卷积神经网络结构;
模型参数选择模块,参考训练数据集,选择模型训练参数;
模型构建模块,根据训练数据集合和模型训练参数对深度卷积神经网络结构训练,形成深度卷积神经网络模型;
识别检测模块,利用深度卷积神经网络模型对特征数据进行识别检测。
根据本发明的一种实施方式,数据获取模块收集飞机加油场景的图片以及不是飞机加油场景的图片,分别称之为正样本和负样本。并将正样本数据和负样本数据整理构建成合适的训练数据集。
在本实施方式中,为了提高数据收集的效率,本发明通过定期访问机坪摄像机来自动收集训练图像数据,并采用人工法对样本进行标记。除了自动化的收集数据外,此外还需要重点关注以下因素,具体包括:
1)避免类似数据。由于固定安装了停机坪相机,因此拍摄角度几乎不会改变。对于同一台摄像机,在大多数情况下,图片几乎保持不变。因此,在本实施方式这种,从同一台摄像机收集图像的时间间隔不应太短,间隔时间为1小时为宜,即收集所述图像数据时,利用摄像机每间隔1小时拍摄一次图片。
2)考虑由天气和时间引起的照明条件的变化。对于同一台摄像机,天气考虑由天气和时间引起的照明条件的变化。对于同一台摄像机,天气条件以及黎明和黑暗中的阳光角度将对图像产生一定的影响。在本实施方式中,收集的图像数据需要包括不同的天气,时间和日照条件。
3)正样本和负样本之间的不平衡。自动轮询脚本获取的正样本数量远小于负样本图像。正阳本数量通常大约为负样本数量的10%。不做处理将导致模型倾向于判断输入的图像为负样本。在本实施方式中,解决此问题的一种方法是简单地随机减少负样本的数量,使得负样本数量和正样本数量基本一致(即相同或者相近)。
除此以外,还需要重点关注:
4)机场停机位的繁忙程度。距离航站楼较远的机坪可能长时间没有到达航班,并且相应的加油场景图像极少或缺失。针对此问题,尽管深度学习算法具有良好的泛化能力,但仍然有必要在数据收集阶段尽可能避免此类问题,具体地,在本实施方式中,适当的减少一些繁忙机坪的数据量来保证数据的平衡。
在本实施方式中,收集整理完数据后,将数据分为训练数据集和验证数据集,训练数据集和验证数据集的比例约为6:1。验证数据集数量不少于200张,其中正样本和负样本各不少于100张。
根据上述设置,本发明在收集图像数据的过程中可以保证图像数据的分类均衡,并且图像数据齐全,全面覆盖各种环境中的场景状态,这样一来,可以有效提高后续算法和训练的准确性,提高识别检测的效果和效率。
进一步地,如图2所示,在本实施方式中,预设神经网络结构模块设计的深度卷积神经网络结构是基于Inception V3网络进行修改,取Inception V3 mix 7的输出,将其降维为一维向量(图中的Flatten层),并使用完全连接的层减少输出参数的数量到128个(图中的Full Conn.[128]),并使用ReLU函数激活输出。最后,将128个输出参数通过完全连接层连接到1个参数,并通过Sigmoid函数进行激活(图中的Full Conn.(Sigmoid))。Sigmoid函数将输出的结果转换为0到1之间的数值,代表模型判断输入图像为正样本的概率。模型训练时使用公开的已经完成训练的Inception V3网络参数,仅训练新增的Flatten层和2个Full Conn层的参数。
进一步地,根据本发明的一种实施方式,模型参数选择模块选择的模型训练参数包括基本超级参数和数据扩增参数。其中,基本超级参数包括输入图像大小、学习率和批次大小,并且具体设置如下:
1)输入图像大小:输入模型的图像的尺寸默认为352mm * 288mm(即模拟摄像机画质),实际使用时图像画质不应低于此尺寸。
2)学习率:深度神经网络反向传播算法需要选择在权重参数空间中的沿最陡下降方向下降的速率。本发明的模型训练的学习率参数设置为0.001。
3)批次大小:本参数结合数据集大小和训练设备的性能来选择,会影响收敛速度。本发明的模型训练的批次大小参数设置为30。
此外,在本实施方式中,数据扩增参数包括图像旋转范围、图像宽度移动范围、图像高度移动范围和图像缩放范围。在本发明中,数据扩充的目的是增加数据量,丰富数据多样性并提高模型的泛化能力。数据扩充的一般方法是通过旋转,宽度/高度偏移,剪切,缩放和翻转等操作来更改原始数据。它可以缓解由于数据集相对不足而导致的过度拟合问题。
图像增强的效果还取决于本发明选择的参数。如果图像增强的结果与实际场景更加一致,则可以发挥更好的效果。在应用场景中,相机将调整角度或更改焦距以放大/缩小视图。飞机和加油车的位置通常会略有偏移。结合以上实际情况分析,在本实施方式中,给出数据扩充使用的一些参数:
1)图像旋转范围:训练图像随机旋转的角度范围为从-5度到5度。
2)图像宽度/高度移动范围:训练图像水平或垂直移动范围不会超过图像尺寸的10%。
3)图像缩放范围:训练图像随机放大或缩小的范围设置为-40%到40%。
在本发明中,上述训练数据集、深度卷积神经网络结构和模型训练参数的收集、构建和选择尤为关键,对于本发明对飞机加油场景的识别和模型的应用起到至关重要的作用。使得本发明的基于深度卷积神经网络的飞机加油场景识别方法可以将安防摄像机拍摄的场景进行二分类,区分出正在拍摄飞机加油作业的热点摄像机和其他摄像机,便于机场安全监管人员快速定位到关注的热点视频流数据,更加有效的开展监管和指挥工作。
因为本发明主要由飞机加油场景识别模型训练数据集构建、飞机加油场景识别基础深度神经网络结构(即深度卷积神经网络结构)、飞机加油场景识别模型训练参数和应用系统设计组成。在本发明中,数据集的构建包括数据的采集方法,训练集、测试集比例的选择,正样本和负样本数据的收集方法和数量的选择等;深度神经网络结构设计决定了模型训练所需数据集的大小、训练周期长短和算法运行所需的资源等;模型训练参数则是训练过程中,根据理论分析和实践得出的训练参数的集合,基于这些参数进行训练可以得到较高的模型性能,本发明关注的核心参数为模型平均准确率(mAP)。
模型训练完成后(即模型构建模块构建完成深度卷积神经网络模型),需要将模型与应用系统集成。应用系统将摄像机对应的视频数据提交给模型,模型则将识别的结果反馈给应用系统,若为飞机加油场景,则应用系统将对应的摄像机采用特殊方式展示并提示用户。用户则可以重点关注相应的实时视频数据,提升工作效率。
在本发明中,训练完成的深度卷积神经网络模型可部署在Docker容器中,安全生产监管系统定期抓取每个摄像机的场景截图,将图片推送给深度卷积神经网络模型,然后深度卷积神经网络模型返回分类结果。在人机交互界面中,安全生产监管系统使用高光颜色标记被归类为加油操作的摄像机。系统用户可以在数百台摄像机中快速找到他们关注的摄像机。
此外,本发明还提供一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现上述基于深度卷积神经网络的飞机加油场景识别方法。
另外,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述的基于深度卷积神经网络的飞机加油场景识别方法。
根据本发明的上述方案,本发明实现了基于深度神经网络自动化的飞机加油场景识别,提升了机场安全生产监管人员的工作效率。本发明算法训练需要的数据少,仅需要600余张正样本即可满足训练需要,减少了数据收集的工作量。本发明对飞机加油场景识别准确率(mAP)达93%以上,能够匹配业务需要。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。
另外,在本发明实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
应理解,本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
Claims (11)
1.一种基于深度卷积神经网络的飞机加油场景识别方法,其特征在于,包括以下步骤:
收集飞机加油场景和非飞机加油场景的图像数据形成训练数据集;
根据飞机加油场景,设计深度卷积神经网络结构;
参考所述训练数据集,选择模型训练参数;
根据所述训练数据集合和所述模型训练参数对所述深度卷积神经网络结构训练,形成深度卷积神经网络模型;
利用所述深度卷积神经网络模型对特征数据进行识别检测。
2.根据权利要求1所述的基于深度卷积神经网络的飞机加油场景识别方法,其特征在于,收集所述图像数据时,利用摄像机每间隔1小时拍摄一次图片。
3.根据权利要求1所述的基于深度卷积神经网络的飞机加油场景识别方法,其特征在于,所述图像数据包括多种天气、时间和日照条件的图片。
4.根据权利要求1所述的基于深度卷积神经网络的飞机加油场景识别方法,其特征在于,所述飞机加油场景的图像数据和所述非飞机加油场景的图像数据相同或者相近。
5.根据权利要求1所述的基于深度卷积神经网络的飞机加油场景识别方法,其特征在于,所述深度卷积神经网络结构基于Inception V3网络进行修改,取Inception V3 mix 7的输出,将其降维为一维向量,并使用完全连接的层减少输出参数的数量到128个,并使用ReLU函数激活输出,最后,将128个输出参数通过完全连接层连接到1个参数,并通过Sigmoid函数进行激活;
Sigmoid函数将输出的结果转换为0到1之间的数值,代表所述深度卷积神经网络结构判断输入图像为飞机加油场景的概率;
所述深度卷积神经网络结构训练时使用公开的已经完成训练的Inception V3网络参数,仅训练新增的Flatten层和2个Full Conn层的参数。
6.根据权利要求1所述的基于深度卷积神经网络的飞机加油场景识别方法,其特征在于,所述模型训练参数包括基本超级参数和数据扩增参数;
所述基本超级参数包括输入图像大小、学习率和批次大小;
所述数据扩增参数包括图像旋转范围、图像宽度移动范围、图像高度移动范围和图像缩放范围。
7.根据权利要求6所述的基于深度卷积神经网络的飞机加油场景识别方法,其特征在于,所述输入图像的尺寸为352mm*288mm,所述学习率为0.001,所述批次大小为30。
8.根据权利要求6所述的基于深度卷积神经网络的飞机加油场景识别方法,其特征在于,所述图像旋转角度范围为-5°-5°;
所述图像宽度移动范围为小于或者等于1.1倍的图像宽度,所述图像高度移动范围为小于或者等于1.1倍的图像高度;
所述图像缩放范围为图像缩小或放大-40%-40%。
9.一种基于深度卷积神经网络的飞机加油场景识别系统,其特征在于,包括:
数据获取模块,用于收集飞机加油场景和非飞机加油场景的图像数据形成训练数据集;
预设神经网络结构模块,用于根据飞机加油场景,设计深度卷积神经网络结构;
模型参数选择模块,参考所述训练数据集,选择模型训练参数;
模型构建模块,根据所述训练数据集合和所述模型训练参数对所述深度卷积神经网络结构训练,形成深度卷积神经网络模型;
识别检测模块,利用所述深度卷积神经网络模型对特征数据进行识别检测。
10.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的基于深度卷积神经网络的飞机加油场景识别方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的基于深度卷积神经网络的飞机加油场景识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110027931.0A CN112348003B (zh) | 2021-01-11 | 2021-01-11 | 基于深度卷积神经网络的飞机加油场景识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110027931.0A CN112348003B (zh) | 2021-01-11 | 2021-01-11 | 基于深度卷积神经网络的飞机加油场景识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348003A true CN112348003A (zh) | 2021-02-09 |
CN112348003B CN112348003B (zh) | 2024-10-18 |
Family
ID=74428215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110027931.0A Active CN112348003B (zh) | 2021-01-11 | 2021-01-11 | 基于深度卷积神经网络的飞机加油场景识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348003B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111735A (zh) * | 2021-03-25 | 2021-07-13 | 西安电子科技大学 | 一种复杂环境下的快速场景识别方法及装置 |
CN113221908A (zh) * | 2021-06-04 | 2021-08-06 | 深圳龙岗智能视听研究院 | 一种基于深度卷积神经网络的数字识别方法及设备 |
CN113553985A (zh) * | 2021-08-02 | 2021-10-26 | 中再云图技术有限公司 | 一种基于人工智能高空烟雾检测识别方法,存储装置及服务器 |
CN116073446A (zh) * | 2023-03-07 | 2023-05-05 | 天津天元海科技开发有限公司 | 基于灯塔多能源环境集成供电系统的智能供电方法和装置 |
CN117094951A (zh) * | 2023-07-25 | 2023-11-21 | 中国医学科学院北京协和医院 | 一种新型的自动骨龄预测算法模型 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030110038A1 (en) * | 2001-10-16 | 2003-06-12 | Rajeev Sharma | Multi-modal gender classification using support vector machines (SVMs) |
CN109040708A (zh) * | 2018-09-20 | 2018-12-18 | 珠海瑞天安科技发展有限公司 | 一种基于全景视频的飞机坪监控方法及系统 |
CN109871786A (zh) * | 2019-01-30 | 2019-06-11 | 浙江大学 | 一种航班地面保障作业规范流程检测系统 |
CN109902662A (zh) * | 2019-03-20 | 2019-06-18 | 中山大学 | 一种行人重识别方法、系统、装置和存储介质 |
CN109951710A (zh) * | 2019-03-26 | 2019-06-28 | 中国民航大学 | 基于深度学习的机坪监控视频压缩方法及系统 |
CN111709292A (zh) * | 2020-05-18 | 2020-09-25 | 杭州电子科技大学 | 基于递归图和深度卷积网络的压气机振动故障检测法 |
CN111968171A (zh) * | 2020-08-13 | 2020-11-20 | 北京航空航天大学 | 基于人工智能的飞机油量测量方法及系统 |
CN112101253A (zh) * | 2020-09-18 | 2020-12-18 | 广东机场白云信息科技有限公司 | 一种基于视频动作识别的民用机场地面保障状态识别方法 |
-
2021
- 2021-01-11 CN CN202110027931.0A patent/CN112348003B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030110038A1 (en) * | 2001-10-16 | 2003-06-12 | Rajeev Sharma | Multi-modal gender classification using support vector machines (SVMs) |
CN109040708A (zh) * | 2018-09-20 | 2018-12-18 | 珠海瑞天安科技发展有限公司 | 一种基于全景视频的飞机坪监控方法及系统 |
CN109871786A (zh) * | 2019-01-30 | 2019-06-11 | 浙江大学 | 一种航班地面保障作业规范流程检测系统 |
CN109902662A (zh) * | 2019-03-20 | 2019-06-18 | 中山大学 | 一种行人重识别方法、系统、装置和存储介质 |
CN109951710A (zh) * | 2019-03-26 | 2019-06-28 | 中国民航大学 | 基于深度学习的机坪监控视频压缩方法及系统 |
CN111709292A (zh) * | 2020-05-18 | 2020-09-25 | 杭州电子科技大学 | 基于递归图和深度卷积网络的压气机振动故障检测法 |
CN111968171A (zh) * | 2020-08-13 | 2020-11-20 | 北京航空航天大学 | 基于人工智能的飞机油量测量方法及系统 |
CN112101253A (zh) * | 2020-09-18 | 2020-12-18 | 广东机场白云信息科技有限公司 | 一种基于视频动作识别的民用机场地面保障状态识别方法 |
Non-Patent Citations (1)
Title |
---|
王旖旎;: "基于Inception V3的图像状态分类技术", 液晶与显示, no. 04, 15 April 2020 (2020-04-15) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111735A (zh) * | 2021-03-25 | 2021-07-13 | 西安电子科技大学 | 一种复杂环境下的快速场景识别方法及装置 |
CN113221908A (zh) * | 2021-06-04 | 2021-08-06 | 深圳龙岗智能视听研究院 | 一种基于深度卷积神经网络的数字识别方法及设备 |
CN113221908B (zh) * | 2021-06-04 | 2024-04-16 | 深圳龙岗智能视听研究院 | 一种基于深度卷积神经网络的数字识别方法及设备 |
CN113553985A (zh) * | 2021-08-02 | 2021-10-26 | 中再云图技术有限公司 | 一种基于人工智能高空烟雾检测识别方法,存储装置及服务器 |
CN116073446A (zh) * | 2023-03-07 | 2023-05-05 | 天津天元海科技开发有限公司 | 基于灯塔多能源环境集成供电系统的智能供电方法和装置 |
CN116073446B (zh) * | 2023-03-07 | 2023-06-02 | 天津天元海科技开发有限公司 | 基于灯塔多能源环境集成供电系统的智能供电方法和装置 |
CN117094951A (zh) * | 2023-07-25 | 2023-11-21 | 中国医学科学院北京协和医院 | 一种新型的自动骨龄预测算法模型 |
Also Published As
Publication number | Publication date |
---|---|
CN112348003B (zh) | 2024-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348003A (zh) | 基于深度卷积神经网络的飞机加油场景识别方法及系统 | |
Rijal et al. | Ensemble of deep neural networks for estimating particulate matter from images | |
CN108022235B (zh) | 高压输电铁塔关键部件缺陷识别方法 | |
US9002060B2 (en) | Object retrieval in video data using complementary detectors | |
CN105930822A (zh) | 一种人脸抓拍方法及系统 | |
CN107239203A (zh) | 一种图像管理方法和装置 | |
CN106339657B (zh) | 基于监控视频的秸秆焚烧监测方法、装置 | |
CN110222592B (zh) | 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法 | |
CN102915432B (zh) | 一种车载微机图像视频数据提取方法及装置 | |
CN102915638A (zh) | 基于监控视频的智能停车场管理系统 | |
CN111368690A (zh) | 基于深度学习的海浪影响下视频图像船只检测方法及系统 | |
CN113850562B (zh) | 一种智能旁站监理方法及系统 | |
CN103020590B (zh) | 一种基于三维模型与图像匹配的车辆识别系统及其方法 | |
CN109523499A (zh) | 一种基于众包的多源融合全景建模方法 | |
CN115346169B (zh) | 一种睡岗行为检测方法及系统 | |
CN113516102A (zh) | 基于视频的深度学习抛物行为检测方法 | |
CN113269039A (zh) | 一种在岗人员行为识别方法和系统 | |
CN114494916A (zh) | 一种基于YOLO和DeepSORT的黑颈鹤监测追踪方法 | |
CN112802027A (zh) | 一种目标对象的分析方法、存储介质及电子装置 | |
Bhargava et al. | A study on potential of big visual data analytics in construction Arena | |
CN111797787B (zh) | 一种基于物联网技术的废弃物图像检测分类系统 | |
CN113139452A (zh) | 基于目标检测的使用手机行为的检测方法 | |
CN116189076A (zh) | 一种鸟类观测站的观测识别系统及其方法 | |
CN114724002A (zh) | 一种快速检测违禁品的方法 | |
CN112906679B (zh) | 基于人形语义分割的行人重识别方法、系统及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |