CN115359306A - 一种铁路货检高清图像智能识别方法和系统 - Google Patents

一种铁路货检高清图像智能识别方法和系统 Download PDF

Info

Publication number
CN115359306A
CN115359306A CN202211298769.7A CN202211298769A CN115359306A CN 115359306 A CN115359306 A CN 115359306A CN 202211298769 A CN202211298769 A CN 202211298769A CN 115359306 A CN115359306 A CN 115359306A
Authority
CN
China
Prior art keywords
truck
disease
image
loss
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211298769.7A
Other languages
English (en)
Other versions
CN115359306B (zh
Inventor
柴雪松
谢为民
张慧
辛向党
付峥锐
于国丞
时孝荣
薛峰
李晨冉
柴永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Railway Sciences Corp Ltd CARS
Railway Engineering Research Institute of CARS
China Railway Lanzhou Group Co Ltd
China Railway Science and Technology Development Co
Original Assignee
China Academy of Railway Sciences Corp Ltd CARS
Railway Engineering Research Institute of CARS
China Railway Lanzhou Group Co Ltd
China Railway Science and Technology Development Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Railway Sciences Corp Ltd CARS, Railway Engineering Research Institute of CARS, China Railway Lanzhou Group Co Ltd, China Railway Science and Technology Development Co filed Critical China Academy of Railway Sciences Corp Ltd CARS
Priority to CN202211298769.7A priority Critical patent/CN115359306B/zh
Publication of CN115359306A publication Critical patent/CN115359306A/zh
Application granted granted Critical
Publication of CN115359306B publication Critical patent/CN115359306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种铁路货检高清图像智能识别方法和系统,该方法包括如下步骤:(1)选取多个车型的货车拍摄货车场景图像,构建货车病害数据集;(2)获取待检测的货车过车图像;(3)基于全局多维度注意力机制对待检测的货车过车图像进行分类;(4)基于Faster‑RCNN深度学习神经网络,检测待检测的货车过车图像是否存在病害,并对病害进行定位;(5)识别病害。本发明涉及视觉技术在铁路货车病害识别中的应用,将深度神经网络技术与图像检测识别技术结合起来,应用于货车病害智能识别领域,可以克服传统货车病害图像检测识别技术的不足,能够解决传统货车病害检测识别中效率、成本、安全等问题。

Description

一种铁路货检高清图像智能识别方法和系统
技术领域
本发明涉及视觉技术领域,特别涉及一种铁路货检高清图像智能识别方法和系统。
背景技术
现有的货检识别工作主要以人工检测为主,例如,列车到站后,列检员需要从列车一端开始逐车进行现场检查,同时货检员通过查看视频及图片检查列车中存在的问题。该方法存在如下缺点:
(1)受主观影响大:该方法受列检员、货检员业务水平、安全意识以及身心状态等因素影响,可能导致漏检;
(2)检测效率低:人工货检工作劳动强度大、人力投入多且重复性强。
随着深度卷积神经网络(CNN)在计算机视觉领域的深入应用,基于区域建议(Region Proposal)的Faster-RCNN等算法在工业领域以及实际应用场景中发挥了很好的检测效果。但由于货物列车场景复杂,类型较多,例如:敞车、棚车以及罐车等,且不同的车型具有不同的病害场景,例如:敞车具有异物病害,棚车具有门开的病害以及罐车具有螺栓开的病害等。因此,上述对于不同车型的图片不加以区分直接使用深度卷积神经网络进行视觉方差较大的不同病害类型区域检测会降低检测的准确性。
因此,提供一种识别率较高、成本较低的货车病害检识别方法及系统,是提升货检自动化水平,提升货检作业质量,促进铁路货运安全的重要一环。
发明内容
本发明要解决的技术问题是针对上述不足,提供一种铁路货检高清图像智能识别方法和系统。
本发明是通过以下技术方案实现的:
一种铁路货检高清图像智能识别方法,该方法包括如下步骤:
(1)选取多个车型的货车拍摄货车场景图像,构建货车病害数据集;
(2)获取待检测的货车过车图像;
(3)基于全局多维度注意力机制对待检测的货车过车图像进行分类;
(4)基于Faster-RCNN深度学习神经网络,检测待检测的货车过车图像是否存在病害,并对病害进行定位;
(5)识别所述病害的类型。
进一步的,所述的铁路货检高清图像智能识别方法,该方法还包括如下步骤:
(6)将检测结果与识别结果反馈于所述深度学习神经网络,用于参数更新与自适应调整。
进一步的,所述的铁路货检高清图像智能识别方法,所述反馈采用以下损失函数:
Figure 213874DEST_PATH_IMAGE001
其中,LOSS cls 为车型分类损失,LOSS det 为目标检测损失,
Figure 571037DEST_PATH_IMAGE002
为超参,表示病害定位误差所占的权重;
其中,车型分类损失LOSS cls 采用交叉熵损失:
Figure 765127DEST_PATH_IMAGE003
其中,
Figure 435054DEST_PATH_IMAGE004
为预测标签,
Figure 423608DEST_PATH_IMAGE005
为ground truth标签,N为样本数量;
其中,目标检测损失LOSS det 包括异物分类损失LOSS cls-gc 和边界框回归损失LOSS box
Figure 674592DEST_PATH_IMAGE006
其中,
Figure 269DEST_PATH_IMAGE007
为第i个预设框的预测分类概率;当第i个预设框是正样本时,
Figure 518844DEST_PATH_IMAGE008
;当第i个预设框是负样本时,
Figure 773239DEST_PATH_IMAGE009
Figure 762053DEST_PATH_IMAGE010
为第i个预设框预测边框的参数化坐标;
Figure 127306DEST_PATH_IMAGE011
为第i个预设框的真实值边框的参数化坐标;
Figure 234808DEST_PATH_IMAGE012
为迷你批大小;
Figure 158640DEST_PATH_IMAGE013
为边框的数量;λ为边框回归损失的权重;
Figure 853057DEST_PATH_IMAGE014
,R是
Figure 786116DEST_PATH_IMAGE015
函数,
Figure 753984DEST_PATH_IMAGE016
,其中,
Figure 819023DEST_PATH_IMAGE017
为函数输入。
进一步的,所述的铁路货检高清图像智能识别方法,步骤(1)中,所述货车场景图像包括货车车型和病害标注边框。
进一步的,所述的铁路货检高清图像智能识别方法,步骤(1)还包括:对所述货车场景图像进行缩放、裁剪和/或翻转操作,获得货车场景图像数据增强增加样本集。
进一步的,所述的铁路货检高清图像智能识别方法,步骤(3)包括:对待检测的货车过车图像进行区域划分,对各区域图像进行位置编码,将各区域图像的位置编码信息与区域特征组合,计算多维度权重注意力,得到待检测的货车过车图像的全局特征并进行分类。
进一步的,所述的铁路货检高清图像智能识别方法,所述区域特征为:
Figure 296010DEST_PATH_IMAGE018
其中,
Figure 173705DEST_PATH_IMAGE019
为第i个区域特征,待检测的货车过车图像分成
Figure 22843DEST_PATH_IMAGE020
个区域,
Figure 288477DEST_PATH_IMAGE021
为图像特征的维度;
所述位置编码信息为:
Figure 981321DEST_PATH_IMAGE022
其中,
Figure 898593DEST_PATH_IMAGE023
为待检测的货车过车图像的宽度和高度,
Figure 677936DEST_PATH_IMAGE024
Figure 786576DEST_PATH_IMAGE025
分别为各区域图像的左上角和右下角的坐标;
所述将各区域图像的位置编码信息与区域特征组合是按照以下方式组合:
Figure 208461DEST_PATH_IMAGE026
Figure 168239DEST_PATH_IMAGE027
其中,
Figure 83980DEST_PATH_IMAGE028
为第i个编码信息,
Figure 333827DEST_PATH_IMAGE029
为含有位置信息的区域特征集合;
所述多维度权重注意力通过下式计算:
Figure 335018DEST_PATH_IMAGE030
其中,
Figure 92628DEST_PATH_IMAGE031
Figure 36444DEST_PATH_IMAGE032
为含有随机丢弃的全连接层,
Figure 238885DEST_PATH_IMAGE033
Figure 868318DEST_PATH_IMAGE034
分别为
Figure 695198DEST_PATH_IMAGE035
Figure 493520DEST_PATH_IMAGE036
的参数,
Figure 114864DEST_PATH_IMAGE037
Figure 503032DEST_PATH_IMAGE038
激活函数;
所述全局特征通过下式得到:
Figure 336864DEST_PATH_IMAGE039
进一步的,所述的铁路货检高清图像智能识别方法,步骤(4)包括:
使用RPN基于不同分类对待检测的货车过车图像中的病害进行粗定位,得到候选病害区域;
使用RCNN对所述候选病害区域进行筛选和精定位。
一种铁路货检高清图像智能识别系统,该系统包括:
构建模块,用于选取多个车型的货车拍摄货车场景图像,构建货车病害数据集;
获取模块,用于获取待检测的货车过车图像;
分类模块,用于基于全局多维度注意力机制对待检测的货车过车图像进行分类;
检测模块,用于基于Faster-RCNN深度学习神经网络,检测待检测的货车过车图像是否存在病害,并对病害进行定位;和
识别模块,用于识别所述病害的类型。
进一步的,所述的铁路货检高清图像智能识别系统,该系统还包括:
反馈模块,用于将检测结果与识别结果反馈于所述深度学习神经网络,用于参数更新与自适应调整。
本发明的优点与效果是:
(1)本发明提供的一种采用Keras深度学习框架铁路货检高清图像智能识别方法和系统,其涉及视觉技术在铁路货车病害识别中的应用,将深度神经网络技术与图像检测识别技术结合起来,应用于货车病害智能识别领域,可以克服传统货车病害图像检测识别技术的不足,能够解决传统货车病害检测识别中效率、成本、安全等问题。
(2)本发明针对不同货车场景类别所在区域视觉差异较大且相同场景下的各个类别区域整体视觉内容较为相似的特性,提出一种基于全局多维度注意力机制的软件场景分类的方法对货车图像进行场景识别。与传统注意力相比,多维度注意力以向量的方式对图片的各个区域进行注意,可以进一步提升分类的准确率,保障了货检作业质量,促进了铁路货运安全。
(3)本发明将货车车型和货车病害类别识别统一到一个整体深度学习框架中,并在训练过程中同时结合基于全局多维度注意力机制的货车车型分类损失与基于Faster-RCNN网络的货车病害检测损失联合优化。实现自动识别出货车病害名称以及位置,实现货车病害的自动检测,减少了货车视频监控人员的工作量,提高了工作效率与准确率。
(4)本发明提出的铁路货检高清图像智能识别方法及系统,该方法及系统的工程化、实用化代表了图像识别领域最前沿的工程研究方向。
附图说明
图1为本发明提供的实施例中货车病害检测识别训练框架图;
图2a为本发明提供的实施例中货车车型为敞车的示例图;
图2b为本发明提供的实施例中货车车型为棚车的示例图;
图2c为本发明提供的实施例中货车车型为罐车的示例图;
图3为本发明提供的实施例中基于全局多维度注意力机制的货车车型分类网络示意图;
图4为本发明提供的实施例中区域分割示例图;
图5为本发明提供的实施例中基于Faster-RCNN网络构建的货车病害检测网络示意图;
图6、图7、图8为本发明提供的实施例中敞车病害检测结果示例;
图9、图10为本发明提供的实施例中棚车病害检测结果示例;
图11、图12、图13为本发明提供的实施例中罐车病害检测结果示例。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。所描述的实施例是本发明的一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面结合附图对本发明的实施例进行详细说明:
深度学习:构建人工神经网络使得机器可以像人类一样具有听、看、思考等能力;其中深度指的是人工神经网络层数大。本发明是深度学习在视觉方面的应用,相当于教会机器来识别铁路货车中的病害(异物、车门开启、螺栓未入槽等)。
卷积神经网络(CNN):具有卷积操作的人工神经网络,它是当前深度学习用于图像识别领域的最常见方法。卷积操作是从原始图像中提取特征的过程,生成多个不同大小、不同抽象程度的特征图,特征图可作为后续识别、定位的基础。
Faster-RCNN:是一种CNN模型,可对目标(在本发明中是货车病害)进行分类和定位,在工业界应用广泛,但还未在铁路货车病害图像识别中有应用。它由VGG + RPN + RCNN三部分组成。
RPN(区域建议网络):是Faster-RCNN的一个组成部分,目的是从特征图中对不同形状、大小的病害在原图中进行粗定位。
RCNN网络:将RPN得到的粗定位结果进行微调得到精定位节结果。
VGG:即指VGG网络,是牛津Visual Geometry Group提出的网络结构。该网络结构是RPN网络的一部分,用于提取图像的特征。VGG16是一类VGG网络,16代表有16层。
Dropout:模型训练中减少运算量、防止过拟合的一个方法。训练模型相当于调整每一个参数的权重,但有时难免预设参数过多,导致人工神经网络学习到非目标的特征(即过拟合)。因此Dropout是每轮训练过程中,随机舍弃一些参数,从而减少运算量及过拟合现象。
Anchor:在训练前预设的不同形状、大小的边界框。
Ground truth:人工标记。例如人工标记的病害类别及病害位置。
Bounding Box:目标的边框。
Keras:最流行的开源深度学习框架之一,用来进行深度学习模型的设计、调试、评估、应用和可视化。
Anchor Location:预设框位置。
本发明提供的一种铁路货检高清图像智能识别方法包括如下步骤:
(1)选取多个车型的货车拍摄货车场景图像,构建货车病害数据集(包括病害图像、病害类别及位置)。
货车场景图像包括货车车型和病害标注边框。具体的是,货车病害数据集是通过铁路货车过车数据集的多组训练数据进行训练得到的,多组训练数据的每一组数据包括货车车型及货车病害图像中带有的病害标注边框。构造货车病害数据集时,选取不同的货车车型(如图2a、图2b、图2c所示)作为拍摄目标,比如可采用手机等常规移动设备拍摄货车过车场景。为保证数据的多样性,对某一具体场景目标区域拍摄时,要求在不同角度、焦距和光照等条件下拍摄多幅图像。人工筛选有效图像并对每一幅图像中的货车病害标注边框。
为进一步增加训练数据的多样性,对所述货车场景图像进行缩放、裁剪和/或翻转操作,获得货车场景图像数据增强增加样本集。具体的是:
缩放:例如,首先将短边缩放为224(分类检测任务的输入图像大小常常是224*224),长边同比例缩放。
裁剪:随后从缩放之后的图片中随机的裁剪224*244大小的区域。
翻转:然后对裁剪之后的图像进行随机水平翻转、随机颜色变化、随机仿射变换操作增加训练集图片的多样性。
(2)获取待检测的货车过车图像。
(3)基于全局多维度注意力机制对待检测的货车过车图像进行分类。
具体的是,如图3为本发明提供的实施例中基于全局多维度注意力机制的货车车型分类网络示意图.对待检测的货车过车图像进行区域划分,对各区域图像进行位置编码,将各区域图像的位置编码信息与区域特征组合,计算多维度权重注意力,得到待检测的货车过车图像的全局特征进行分类。
多维度注意力以向量的方式对图片的各个区域进行注意,并聚合得到全局特征。将含有异物的货车图片分成
Figure 848748DEST_PATH_IMAGE040
个区域,区域特征函数:
Figure 375413DEST_PATH_IMAGE041
其中,
Figure 245018DEST_PATH_IMAGE019
为第i个区域特征,
Figure 649586DEST_PATH_IMAGE042
为图像特征的维度,
Figure 977493DEST_PATH_IMAGE043
代表实数集合。全局多维度注意力机制拟训练出一组多维度权重注意力来对所有区域进行关注,聚合得到图片的全局特征。
对位置进行编码,将位置信息添加入深度学习网络框架中。对于一张含有异物的货车图片
Figure 143901DEST_PATH_IMAGE044
,其位置信息为
Figure 267846DEST_PATH_IMAGE045
Figure 709061DEST_PATH_IMAGE046
表示图像左上角的坐标,
Figure 162914DEST_PATH_IMAGE047
表示图像的宽度和高度。如图4所示,本发明一实施例中拟将图分割为16个区域。
对于图片的每一个区域,左上角和右下角坐标分别为
Figure 532846DEST_PATH_IMAGE048
Figure 445220DEST_PATH_IMAGE049
。本发明一实施例中使用原图像的宽度和区域的左上角和右下角坐标来编码位置信息,如下:
Figure 690125DEST_PATH_IMAGE050
其中,
Figure 499949DEST_PATH_IMAGE051
为待检测的货车过车图像的宽度和高度,
Figure 398373DEST_PATH_IMAGE052
Figure 434593DEST_PATH_IMAGE053
分别为各区域图像的左上角和右下角的坐标。
然后,本发明一实施例中将位置编码信息与区域特征组合:
Figure 217610DEST_PATH_IMAGE054
Figure 663633DEST_PATH_IMAGE055
其中,
Figure 234423DEST_PATH_IMAGE028
为第i个编码信息,
Figure 990895DEST_PATH_IMAGE056
为含有位置信息的区域特征集合,
Figure 672544DEST_PATH_IMAGE043
代表实数集合。
多维度权重注意力计算:
Figure 362020DEST_PATH_IMAGE057
其中,
Figure 602246DEST_PATH_IMAGE031
Figure 613058DEST_PATH_IMAGE032
为含有随机丢弃的全连接层,
Figure 602792DEST_PATH_IMAGE033
Figure 881195DEST_PATH_IMAGE034
分别为
Figure 793788DEST_PATH_IMAGE035
Figure 790432DEST_PATH_IMAGE036
的参数,
Figure 813882DEST_PATH_IMAGE037
Figure 212372DEST_PATH_IMAGE038
激活函数。
Softmax函数将输入值变换为[0, 1]之间的值,公式为:
Figure 522962DEST_PATH_IMAGE058
,类似于将各个输入ei归一化到(0, 1)区间,这样后续可以将归一后的ei作为多维度权重注意力大小。
Softmaxmasked是掩蔽的softmax函数,是指定某些ei为0,即掩蔽掉一些特征,将注意力放在主要特征上。
ELU激活函数是神经网络中一种神经元激活函数,其表达式为:
Figure 367421DEST_PATH_IMAGE059
,其中,
Figure 568464DEST_PATH_IMAGE060
为超参,本发明一实施例中
Figure 447558DEST_PATH_IMAGE060
可取0.7,
Figure 75855DEST_PATH_IMAGE061
为函数输入。
基于向量化的注意力权重
Figure 578249DEST_PATH_IMAGE062
,本发明一实施例中计算全局特征,得到:
Figure 854422DEST_PATH_IMAGE063
,用作车型分类。
sum_pooling函数是将输入特征图像按块求和并下采样的过程。
(4)基于Faster-RCNN深度学习神经网络,检测待检测的货车过车图像是否存在病害,并对病害进行定位。典型Faster-RCNN物体检测框架如图5所示。
使用RPN针对不同分类对病害在待检测的货车过车图像中进行粗定位,得到候选病害区域。具体的是,针对生成检测建议框的任务端到端地训练,直接预测出RegionProposal和分数。RPN网络的输入可以是任意大小(但还是有最小分辨率要求的,例如VGG网络输入是228*228)的图片。如果用VGG16进行特征提取,那么RPN网络的组成形式可以表示为VGG16+RPN。本发明一实施例中拟采用RPN候选框提取模块针对不同的场景提取可能的病害矩形区域。
使用RCNN对候选病害区域进行筛选和精定位。具体的是,Faster-RCNN检测模块是一个普通的RCNN网络,用于对RPN网络得到的候选框的筛选与精定位。检测包含深度特征提取、候选区域分类、候选目标区域矩形框坐标回归等步骤。本发明一实施例中拟采用此检测模块对异物区域进行精确定位以提取出有效子图像用于下一步的病害识别。
(5)识别病害的类型。
具体的是,利用货车病害数据集对待检测货车过车图像进行分类后,在对其是否具有病害、病害的定位及类型进行识别,从而得到识别结果。识别结果包括图像中是否有病害、病害类别及位置等。图6、图7、图8为敞车病害检测结果示例,图9、图10为棚车病害检测结果示例,图11、图12、图13为罐车病害检测结果示例。
(6)将检测结果与识别结果反馈于深度网络输入,用于深度网络的参数更新与自适应调整。
具体的是,反馈损失:
Figure 430765DEST_PATH_IMAGE064
其中,
Figure 262586DEST_PATH_IMAGE065
为超参,表示病害定位误差所占的权重。本发明一实施例中选取
Figure 580173DEST_PATH_IMAGE066
①车型分类损失采用交叉熵损失:
Figure 388598DEST_PATH_IMAGE067
其中,
Figure 976705DEST_PATH_IMAGE068
为预测标签,
Figure 495540DEST_PATH_IMAGE069
为ground truth标签,N为样本数量;
②目标检测损失包括异物分类损失和边界框回归损失,
Figure 441369DEST_PATH_IMAGE070
Figure 414004DEST_PATH_IMAGE071
其中,
Figure 496098DEST_PATH_IMAGE072
为第i个预设框的预测分类概率;当第i个预设框是正样本时,
Figure 902678DEST_PATH_IMAGE073
;当第i个预设框是负样本时,
Figure 430742DEST_PATH_IMAGE074
Figure 445884DEST_PATH_IMAGE075
为第i个预设框预测边框的参数化坐标;
Figure 883949DEST_PATH_IMAGE076
为第i个预设框的真实值边框的参数化坐标;
Figure 586064DEST_PATH_IMAGE077
为迷你批大小,训练时会将训练集图片分批送入网络进行训练, 迷你批大小为每次送入网络的图片数量;
Figure 709746DEST_PATH_IMAGE078
为边框的数量;λ为边框回归损失的权重,调节边界框回归损失占总损失的比例;
Figure 961867DEST_PATH_IMAGE079
,R是
Figure 549712DEST_PATH_IMAGE080
函数,
Figure 823393DEST_PATH_IMAGE081
函数是一种损失函数,描述真实值与预测值之间的差距,其表达式为:
Figure 699951DEST_PATH_IMAGE082
,其中,
Figure 552501DEST_PATH_IMAGE083
为函数输入。
本发明提供的对应上述铁路货检高清图像智能识别方法的系统包括构建模块、获取模块、分类模块、检测模块、识别模块和反馈模块。构建模块用于选取多个车型的货车拍摄货车场景图像,构建货车病害数据集。获取模块用于获取待检测的货车过车图像。分类模块用于基于全局多维度注意力机制对待检测的货车过车图像进行分类。检测模块用于基于Faster-RCNN网络架构检测待检测的货车过车图像是否存在病害,并对病害进行定位。识别模块,用于病害识别。反馈模块用于将检测结果与识别结果反馈于深度网络输入,用于深度网络的参数更新与自适应调整。
虽然在上述详细说明中已经介绍了至少一个示例实施方式,但是应当理解存在许多变化。也应当理解本文中描述的一个或多个示例实施方式不旨在以任何方式限制本主题的范围、适用性、或配置。相反,上述详细说明将为本领域中的技术人员提供用于实现描述的一个实施方式或多个实施方式的便利路线图。应当理解,在没有偏离权利要求定义的范围的情况下,在元件的功能和排列方面可以进行各种变化,其包括在申请本专利申请时已知的等同物和可预知的等同物。
在本文中使用的术语和短语和其变体,除非另外明确地陈述,否则应当解释为开放式的,而不是限制性的。作为上述的实例:术语“包括”应当理解为“包括,但不限于”等;术语“实例”用于提供所讨论项目的示例性实例,而不是其穷尽的或限制的清单;并且形容词诸如“惯用的”、“传统的”、“常规的”、“标准的”、“已知的”和类似含义的术语不应当解释为将描述的项目限制为特定时期的项目或特定时间可获得的项目,而是应当理解为包含现在或在将来任何时候可以获得或已知的惯用的、传统的、常规的、或标准的技术。
以上实施例仅用以说明本发明的技术方案,并非用来限定本发明的实施范围。但凡在本发明的保护范围内所做的等效变化及修饰,皆应认为落入了本发明的保护范围内。

Claims (10)

1.一种铁路货检高清图像智能识别方法,其特征在于,该方法包括如下步骤:
(1)选取多个车型的货车拍摄货车场景图像,构建货车病害数据集;
(2)获取待检测的货车过车图像;
(3)基于全局多维度注意力机制对待检测的货车过车图像进行分类;
(4)基于Faster-RCNN深度学习神经网络,检测待检测的货车过车图像是否存在病害,并对病害进行定位;
(5)识别所述病害的类型。
2.根据权利要求1所述的铁路货检高清图像智能识别方法,其特征在于,该方法还包括如下步骤:
(6)将检测结果与识别结果反馈于所述深度学习神经网络,用于参数更新与自适应调整。
3.根据权利要求2所述的铁路货检高清图像智能识别方法,其特征在于,所述反馈采用以下损失函数:
Figure DEST_PATH_IMAGE001
其中,LOSS cls 为车型分类损失,LOSS det 为目标检测损失;
Figure DEST_PATH_IMAGE002
为超参,表示病害定位误差所占的权重;
其中,车型分类损失LOSS cls 采用交叉熵损失:
Figure DEST_PATH_IMAGE003
其中,
Figure DEST_PATH_IMAGE004
为预测标签,
Figure DEST_PATH_IMAGE005
为ground truth标签,N为样本数量;
其中,目标检测损失LOSS det 包括异物分类损失LOSS cls-gc 和边界框回归损失LOSS box
Figure DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE007
为第i个预设框的预测分类概率;当第i个预设框是正样本时,
Figure DEST_PATH_IMAGE008
;当第i个预设框是负样本时,
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
为第i个预设框预测边框的参数化坐标;
Figure DEST_PATH_IMAGE011
为第i个预设框的真实值边框的参数化坐标;
Figure DEST_PATH_IMAGE012
为迷你批大小;
Figure DEST_PATH_IMAGE013
为边框的数量;λ为边框回归损失的权重;
Figure DEST_PATH_IMAGE014
,R是
Figure DEST_PATH_IMAGE015
函数,
Figure DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE017
为函数输入。
4.根据权利要求1至3任一项所述的铁路货检高清图像智能识别方法,其特征在于,步骤(1)中,所述货车场景图像包括货车车型和病害标注边框。
5.根据权利要求1至3任一项所述的铁路货检高清图像智能识别方法,其特征在于,步骤(1)还包括:对所述货车场景图像进行缩放、裁剪和/或翻转操作,获得货车场景图像数据增强增加样本集。
6.根据权利要求1至3任一项所述的铁路货检高清图像智能识别方法,其特征在于,步骤(3)包括:对待检测的货车过车图像进行区域划分,对各区域图像进行位置编码,将各区域图像的位置编码信息与区域特征组合,计算多维度权重注意力,得到待检测的货车过车图像的全局特征并进行分类。
7.根据权利要求6所述的铁路货检高清图像智能识别方法,其特征在于,
所述区域特征为:
Figure DEST_PATH_IMAGE018
其中,vi为第i个区域特征,待检测的货车过车图像分成
Figure DEST_PATH_IMAGE019
个区域,
Figure DEST_PATH_IMAGE020
为图像特征的维度;
所述位置编码信息为:
Figure DEST_PATH_IMAGE021
其中,
Figure DEST_PATH_IMAGE022
为待检测的货车过车图像的宽度和高度,
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
分别为各区域图像的左上角和右下角的坐标;
所述将各区域图像的位置编码信息与区域特征组合是按照以下方式组合:
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
其中,fi为第i个编码信息,
Figure DEST_PATH_IMAGE027
为含有位置信息的区域特征集合;
所述多维度权重注意力通过下式计算:
Figure DEST_PATH_IMAGE028
其中,
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
为含有随机丢弃的全连接层,
Figure DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
分别为
Figure DEST_PATH_IMAGE033
Figure 448437DEST_PATH_IMAGE030
的参数,
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
激活函数;
所述全局特征通过下式得到:
Figure DEST_PATH_IMAGE036
8.根据权利要求1至3任一项所述的铁路货检高清图像智能识别方法,其特征在于,步骤(4)包括:
使用RPN基于不同分类对待检测的货车过车图像中的病害进行粗定位,得到候选病害区域;
使用RCNN对所述候选病害区域进行筛选和精定位。
9.一种铁路货检高清图像智能识别系统,其特征在于,该系统包括:
构建模块,用于选取多个车型的货车拍摄货车场景图像,构建货车病害数据集;
获取模块,用于获取待检测的货车过车图像;
分类模块,用于基于全局多维度注意力机制对待检测的货车过车图像进行分类;
检测模块,用于基于Faster-RCNN深度学习神经网络,检测待检测的货车过车图像是否存在病害,并对病害进行定位;和
识别模块,用于识别所述病害的类型。
10.根据权利要求9所述的铁路货检高清图像智能识别系统,其特征在于,该系统还包括:
反馈模块,用于将检测结果与识别结果反馈于所述深度学习神经网络,用于参数更新与自适应调整。
CN202211298769.7A 2022-10-24 2022-10-24 一种铁路货检高清图像智能识别方法和系统 Active CN115359306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211298769.7A CN115359306B (zh) 2022-10-24 2022-10-24 一种铁路货检高清图像智能识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211298769.7A CN115359306B (zh) 2022-10-24 2022-10-24 一种铁路货检高清图像智能识别方法和系统

Publications (2)

Publication Number Publication Date
CN115359306A true CN115359306A (zh) 2022-11-18
CN115359306B CN115359306B (zh) 2023-04-07

Family

ID=84008591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211298769.7A Active CN115359306B (zh) 2022-10-24 2022-10-24 一种铁路货检高清图像智能识别方法和系统

Country Status (1)

Country Link
CN (1) CN115359306B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485729A (zh) * 2023-04-03 2023-07-25 兰州大学 基于transformer的多级桥梁缺陷检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079602A (zh) * 2019-12-06 2020-04-28 长沙千视通智能科技有限公司 基于多尺度区域特征约束的车辆细粒度识别方法及装置
CN111080617A (zh) * 2019-12-12 2020-04-28 哈尔滨市科佳通用机电股份有限公司 一种铁路货车制动梁支柱圆销丢失故障识别方法
CN113674216A (zh) * 2021-07-27 2021-11-19 南京航空航天大学 一种基于深度学习的地铁隧道病害检测方法
CN113989600A (zh) * 2021-09-28 2022-01-28 上海师范大学 一种图像异物检测方法
CN114187491A (zh) * 2022-02-17 2022-03-15 中国科学院微电子研究所 一种遮挡物体检测方法和装置
CN114266938A (zh) * 2021-12-23 2022-04-01 南京邮电大学 一种基于多模态信息和全局注意力机制的场景识别方法
WO2022073452A1 (zh) * 2020-10-07 2022-04-14 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079602A (zh) * 2019-12-06 2020-04-28 长沙千视通智能科技有限公司 基于多尺度区域特征约束的车辆细粒度识别方法及装置
CN111080617A (zh) * 2019-12-12 2020-04-28 哈尔滨市科佳通用机电股份有限公司 一种铁路货车制动梁支柱圆销丢失故障识别方法
WO2022073452A1 (zh) * 2020-10-07 2022-04-14 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法
CN113674216A (zh) * 2021-07-27 2021-11-19 南京航空航天大学 一种基于深度学习的地铁隧道病害检测方法
CN113989600A (zh) * 2021-09-28 2022-01-28 上海师范大学 一种图像异物检测方法
CN114266938A (zh) * 2021-12-23 2022-04-01 南京邮电大学 一种基于多模态信息和全局注意力机制的场景识别方法
CN114187491A (zh) * 2022-02-17 2022-03-15 中国科学院微电子研究所 一种遮挡物体检测方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
柴雪松: "基于深度学习技术的货检图像智能识别与测试研究", 《铁道货运》 *
王林等: "Faster R-CNN模型在车辆检测中的应用", 《计算机应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485729A (zh) * 2023-04-03 2023-07-25 兰州大学 基于transformer的多级桥梁缺陷检测方法
CN116485729B (zh) * 2023-04-03 2024-01-12 兰州大学 基于transformer的多级桥梁缺陷检测方法

Also Published As

Publication number Publication date
CN115359306B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN108171112B (zh) 基于卷积神经网络的车辆识别与跟踪方法
CN109816024B (zh) 一种基于多尺度特征融合与dcnn的实时车标检测方法
CN110363104B (zh) 一种柴油黑烟车的检测方法
CN111079640B (zh) 一种基于自动扩增样本的车型识别方法及系统
CN111652296A (zh) 一种基于深度学习的铁路货车下拉杆折断故障检测方法
CN114743119B (zh) 基于无人机的高铁接触网吊弦螺母缺陷检测方法
CN112464846B (zh) 一种车站货运列车车厢异常故障的自动识别方法
CN112633149B (zh) 一种域自适应雾天图像目标检测方法和装置
CN110991447B (zh) 基于深度学习的列车车号精确定位与识别方法
CN112990004A (zh) 一种基于光流法和深度学习卷积神经网络的黑烟车检测方法
CN113947731A (zh) 一种基于接触网安全巡检的异物识别方法及系统
CN111723704A (zh) 基于树莓派的厢式货车厢门开度监控方法
CN109191492B (zh) 一种基于轮廓分析的智能视频黑烟车检测方法
CN111723706A (zh) 基于树莓派的厢式货车厢门开度监控装置及系统
CN113450573A (zh) 基于无人机图像识别的交通监测方法和交通监测系统
CN115359306B (zh) 一种铁路货检高清图像智能识别方法和系统
CN114331949A (zh) 一种图像数据处理方法、计算机设备以及可读存储介质
CN111540203B (zh) 基于Faster-RCNN调节绿灯通行时间的方法
CN113788051A (zh) 列车在站运行状态监测分析系统
CN115294089A (zh) 一种基于改进YOLOv5的钢材表面缺陷检测方法
CN115546742A (zh) 一种基于单目热红外摄像头的铁轨异物识别方法及系统
CN114772208A (zh) 一种基于图像分割的非接触式皮带撕裂检测系统及方法
CN114627286A (zh) 基于PSPNet和改进YOLOv4的地磅人员入侵的检测方法
CN111597939B (zh) 一种基于深度学习的高铁线路鸟窝缺陷检测方法
CN113762144A (zh) 一种基于深度学习的黑烟车检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant