CN113362285B

CN113362285B - 一种钢轨表面伤损细粒度图像分类与检测方法

Info

Publication number: CN113362285B
Application number: CN202110556248.6A
Authority: CN
Inventors: 周宇; 张子豪
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2023-02-07
Anticipated expiration: 2041-05-21
Also published as: CN113362285A

Abstract

本发明涉及一种钢轨表面伤损细粒度图像分类与检测方法，包括以下步骤：1)构建细粒度轨面伤损目标检测数据集；2)采用YOLOV5算法进行轨面伤损目标检测；3)根据检测结果进行轨面伤损视觉测量与量化评价，并进行伤损分布的交互式地图可视化展示。与现有技术相比，本发明具有轨面伤损自动化、智能化图像识别、数字化存储管理、有助于指导制定钢轨养护维修策略等优点。

Description

一种钢轨表面伤损细粒度图像分类与检测方法

技术领域

本发明涉及钢轨表面伤损检测领域，尤其是涉及一种钢轨表面伤损细粒度图像分类与检测方法。

背景技术

随着轨道交通运营里程、运营速度、机车轴重、行车密度和客货运量的大幅提升，作为铁路运输主要载体的轮轨结构承受了循环、高速、重载的荷载状态，轮轨关系和应力状态逐渐恶化，表现为车轮和钢轨伤损，钢轨伤损可能发生在钢轨内外各部位，尤其以轮轨直接接触的轨头踏面表面伤损(本发明简称轨面伤损)最为典型，常见轨面伤损包括疲劳裂纹、剥离掉块、磨耗、波浪形磨耗(本发明简称波磨)、焊缝接头伤损、锈蚀、轨头缺陷等。

各类钢轨伤损对行车安全性、舒适性，以及养护维修带来挑战，如疲劳裂纹恶化为剥离掉块、核伤，甚至脆断；波磨引发轨道不平顺和啸叫；轨头横向断裂和揭盖导致列车脱轨；钢轨伤损还会诱发扣件弹条断裂、螺栓缺失、车轮不均匀磨耗、振动噪声等次生问题。铁路工务部门需定期巡检、打磨、铣磨，甚至换轨，带来养护维修成本，影响运营效率和服务质量。

现有的轨面伤损检测通过人工目测或者车载照相进行。前者效率低，仅靠方尺等量具进行个别严重点的主观定性记录，无法对全线轨面伤损量化统计；后者的目的是发现轨面伤损，但限于镜头距轨面距离远和随车体的高速运动，轨面图像不够丰富清晰，尚未达到精细化区分和量化统计的程度。此外，上述现有技术数字化、自动化、智能化程度低，无法从统计学意义反映全区段轨面伤损萌生发育、扩散恶化的发展过程及时空分布规律，且均为事后被动应激检修，无法为钢轨养护维修提供预测性决策信息。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种钢轨表面伤损细粒度图像分类与检测方法。

本发明的目的可以通过以下技术方案来实现：

一种钢轨表面伤损细粒度图像分类与检测方法，包括以下步骤：

1)构建细粒度轨面伤损目标检测数据集；

2)采用YOLOV5算法进行轨面伤损目标检测；

3)根据检测结果进行轨面伤损视觉测量与量化评价，并进行伤损分布的交互式地图可视化展示。

所述的步骤1)具体包括以下步骤：

11)拍摄细粒度轨面伤损图像，构建轨面伤损图集：

12)对轨面伤损进行实例级细粒度目标检测标注；

13)将标注出类别和标注框的图像构成轨面伤损目标检测数据集。

所述的步骤11)具体为：

拍摄包含多种地铁工况下的多幅彩色图像并进行损伤标注，然后与未标注的不同伤损时期、不同养修时期以及不同拍摄工况的轨面照片共同构成轨面伤损图集，所述的地铁工况包括隧道、高架、直线、曲线、内轨、外轨、打磨前后以及铣磨前后，具体拍摄方式为：在两股钢轨中间采用相机使镜头距轨面垂直距离200mm竖直向下聚焦拍摄，侧面补光使图像没有暗影和轨面反光，光线入射角度为30°，拍摄的图片长度或宽度方向与轨面纵向边缘平行，轨面占据图幅60％以上。

所述的步骤12)中，各轨面损伤的标注范式为：

轨面(RW)：将钢轨轨头踏面外接矩形作为标注框，包含轨距角和轨头侧面在图像中的投影区域；

光带(GD)：以轨面光亮带和褐暗带边界的外接矩形框作为标注框，若边界存在暗光带模糊过渡区，则以边界最内侧光亮带外接矩形框作为标注框，并单独标注暗光带；

疲劳裂纹(LW)：标注时，用多个仅包含裂纹且彼此不重叠的较小密集标注框，组块成大片裂纹区域；

剥离掉块(DK)：标注时，以光带为背景，剥离掉块为前景的二值灰度图中，把每一处前景连通域的外接矩形作为标注框；

波磨(BM)：标注时，以光带为背景，波磨波谷为前景的二值灰度图中，把每处波磨波谷边缘轮廓区域的外接矩形作为标注框。

在步骤12)中，对于难例图像，包括背景黑暗、聚焦模糊和反光图像的标注采用基于CLAHE直方图均衡化方法进行图像增强辅助标注，具体包括以下步骤：

121)将RGB色彩空间转换到HSI色彩空间；

122)对于黑暗图像，将亮度分量I分成多个6×6矩形子块，对反光图像，将亮度分量I分成多个8×8矩形子块，并对每个子块分别应用直方图均衡化；

123)对于图像角落子块，保留输出灰度值，对于边缘子块，通过邻近2个子块的映射函数线性插值，对于中间区域子块的每个像素，根据邻近子块的直方图均衡化灰度变换函数对其的映射值进行双线性插值。

所述的步骤2)具体包括以下步骤：

根据轨面伤损目标检测数据集，在YOLOV5的S预训练模型基础上对轨面伤损目标检测基准模型进行迁移学习训练。

在对轨面伤损目标检测基准模型进行迁移学习训练过程中，对于超参数的训练，则有：

引入图像扩增，对于防止过拟合，增加模型鲁棒性和泛化能力，YOLOV5的S 预训练模型的输入图像大小采用640像素。

在对轨面伤损目标检测基准模型进行迁移学习训练过程中，对于超参数的调优，则有：

对边缘明显的掉块、波磨目标，过滤掉置信度小于0.3的预测框，对大片存在的裂纹、打磨目标，过滤掉置信度小于0.1的预测框；

采用非极大值抑制过滤掉IOU超过设定阈值的低置信度同类预测框，防止多个预测框重复识别同一个目标，对于波磨、掉块和扣件，IOU阈值设置为0.05，防止重复识别，对于裂纹、打磨大片存在的类别，IOU阈值设置为0.8；

测试图像增强时，将测试集图片放大30％，并进行水平镜像翻转，在三个不同分辨率下预测三个结果，并且将三个预测结果集成提升训练精度。

所述的步骤3)中，轨面伤损视觉测量与量化评价具体包括光带、剥离掉块、裂纹以及波磨的测量与评价。

对于光带的测量与评价，根据光带预测框与轨面预测框的几何关系，提取轨面和光带中心线，配合测距标尺获取光带指标包括光带宽度、光带长度、光带面积、光带占轨面比例、光带偏心、多光带个数和光带异常；

对于剥离掉块的的测量与评价，根据剥离掉块目标检测预测框和测距标尺，测量每一处剥离掉块的长、宽、面积、轨面占比和轻重伤等级，并统计总数；

对于裂纹的测量与评价，根据裂纹测量结果获取裂纹区面积及占光带和轨面比例、掉块总数、轻重伤掉块个数、掉块区面积及占光带和轨面比例，并用不同颜色将裂纹、普通剥离掉块、轻伤剥离掉块、重伤剥离掉块区别展示在待测图像中；

对于波磨的测量与评价，根据波磨预测框和测距标尺，测量得到每一处波磨波谷区域的长、宽、中心点坐标、波谷区域面积、占光带和轨面比例信息。

与现有技术相比，本发明具有以下优点：

本发明结合铁路工务和计算机视觉技术，提出轨面伤损细粒度图像识别与智能评价方法，包含目标检测数据集、目标检测算法、视觉测量和量化评价、多尺度数据分析与地图可视化。实现了轨面伤损自动化、智能化图像识别、伤损数据的数字化存储管理；对识别结果视觉测量，得到伤损尺寸、轻重伤个数、密度、面积、波长等量化评价指标；统计线路区段各层次尺度伤损信息，展示伤损时空分布和发展趋势。

本发明有助于指导制定钢轨养护维修策略，确定打磨、铣磨和换轨周期，降低成本，减振降噪，提升行车安全性和舒适性。从被动的事后应激检修、人工主观定性抽样巡检，升级为主动的事前监控预测、全线路自动化定量评价，为实现智慧工务提供底层数据决策依据。

附图说明

图1为本发明的技术路线示意图。

图2为YOLOV5模型结构图。

图3为训练和测试超参数调优流程图。

图4为训练和测试超参数调优部分对比实验结果。

图5为光带的视觉测量结果，其中，图(5a)为内轨顶面光带，图(5b)为工作边轨距角光带。

图6为剥离掉块的视觉测量结果，其中，图(6a)为密集细小剥离掉块，图 (6b)为波磨与掉块共存。

图7为内轨顶面的疲劳裂纹视觉测量结果，其中，图(7a)为目标检测结果，图(7b)为裂纹区形态学并集处理结果，图(7c)为疲劳裂纹和剥离掉块测量统计。

图8为内轨轨距角的疲劳裂纹视觉测量结果，其中，图(8a)为内轨轨距角横裂纹和轨面斜裂纹，图(8b)为轨面多片斜裂纹区。

图9为外轨轨距角的疲劳裂纹视觉测量结果，其中，图(9a)为目标检测结果，图(9b)为裂纹区形态学并集处理结果，图(9c)为疲劳裂纹和剥离掉块测量统计。

图10为上海地铁A线隧道曲线内轨单排波磨和B线高架曲线内轨双排波磨的视觉测量结果，其中，图(10a)为上海地铁A线隧道内轨单排波磨，图(10b) 为上海地铁B线高架内轨双排波磨。

图11为上海地铁B线某圆曲线中短波不平顺1/3倍频程图。

图12为A表局部图。

图13为区段光带异常分布地图。

图14为区段剥离掉块分布地图。

图15为区段波磨分布地图，其中，图(15a)为波磨总数，图(15b)为行车时出现啸叫区段。

图16为波长分布直方图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，本发明提供一种钢轨表面伤损细粒度图像分类与检测方法，包括以下内容：

(1)构建目标检测数据集：提出构建钢轨表面伤损目标检测数据集的标准流程，包括拍摄方法、伤损类别界定、实例级细粒度目标检测标注范式、针对低对比度难例图像的辅助增强方法，进而提出Subway-1094轨面伤损目标检测数据集。该数据集在图像数量、图像质量、伤损类别、标注质量、目标密度等方面优于现有数据集，能够驱动深度学习算法训练。

(2)训练目标检测算法：基于上述数据集训练YOLOV5深度学习目标检测算法。评估各类别识别性能，通过一系列对比实验对训练和测试超参数调优，输出每处伤损目标的预测类别、预测位置坐标和定量的预测置信度

3)视觉测量和量化评价：基于目标检测输出结果，提出针对轨面、光带、剥离掉块、疲劳裂纹、波磨的视觉测量和量化评价图像分析方法。测量轨面各类伤损尺寸、轻重伤个数、密度、面积、波长等量化评价指标。

4)多尺度数据分析和可视化：汇总实例尺度微观伤损形位、图像尺度中观视觉测量、线路尺度宏观区段统计各层次多尺度信息，构建Web GIS米级伤损分布地图，展示区段内伤损时空分布。

下面分步骤进行技术内容介绍

一、轨面伤损目标检测数据集

以机器学习和深度学习为代表的监督学习算法，依赖于大规模标注样本进行模型训练和数据挖掘。因此，拍摄采集不同线路位置、不同发展时期、不同工况环境下的各类轨面伤损时空维度图像数据，能够为后续深度学习、图像识别、视觉测量和统计分析提供学习样本。

本发明首先给出轨面图像拍摄方法，然后提出轨面伤损实例级细粒度目标检测标注范式和针对低对比度难例图像的辅助增强方法，进而提出Subway-1094轨面伤损目标检测数据集和Subway-3913轨面伤损图集，数据集在图像数量、图像质量、伤损类别、标注质量、目标密度等方面优于现有数据集，能够驱动深度学习算法训练。

1.1轨面图像拍摄方法

现有轨面伤损图像数据集多使用车载线扫描相机拍摄，限于镜头距轨面距离远和车体高速运动，轨面和光带不够清晰，无法对伤损实例精准区分、识别、测量和量化评价。且在图像数量、空间分辨率、幅度分辨率、类别数量、标注质量、目标代表性(特别是小目标)等方面均有待提升，不足以驱动泛化性能鲁棒的深度学习算法训练。因此，应首先给出细粒度轨面伤损目标检测数据集对应的拍摄方法

拍摄者站在两股钢轨中间，手持单反相机或智能手机，使镜头距轨面垂直距离200mm，竖直向下聚焦拍摄。侧面补光以图像没有暗影和轨面反光为佳，光线入射角度约30°。图片长度或宽度方向与轨面纵向边缘平行，轨面应占据图幅60％以上。

以地铁轨面伤损为例，采用智能手机和单反相机按上述拍摄方法，拍摄得到 1094张一千万像素级别的彩色图像(大小为3648x2736像素)和41段1080p高清视频(大小为1920x1080像素)，命名为Subway-1094数据集。数据中包含隧道、高架、直线、曲线、内轨、外轨、打磨前后、铣磨前后等各类地铁工况，数据来源如表1所示。

表1 Subway-1094数据集数据来源

根据数据来源分层采样，按4：1比例划分训练集和测试集。训练集877张图像，测试集217张图像。

除测试集用于评估识别性能之外，另收集了2819张地铁、高铁、重载铁路线路的不同伤损时期、不同养修时期、不同拍摄工况的轨面照片，如表2所示。

表2未经标注的各类轨面照片

表2中，未经标注的2819张图片，连同Subway-1094数据集中经过标注的1094 张图片，共同构成Subway-3913轨面伤损图集

1.2轨面伤损实例级细粒度目标检测标注范式

本发明综合多位地铁工务专家和钢轨伤损规范，提出轨面伤损实例级细粒度目标检测标注范式，并用于Subway-1094数据集的标注，具体标注方法如下：

1)轨面(数据集中简称RW)：把钢轨轨头踏面外接矩形作为标注框，包含轨距角和轨头侧面在图像中的投影区域。

2)光带(数据集中简称GD)：轮轨在轨头表面接触作用产生的光亮接触区称为光带。以轨面光亮带和褐暗带边界的外接矩形框作为标注框。若边界存在暗光带模糊过渡区，则以边界最内侧光亮带外接矩形框作为标注框，并单独标注暗光带(数据集中简称GD2)。

3)疲劳裂纹(数据集中简称LW)：轮轨作用下，在轨面形成的沿钢轨全长分布的裂纹称为接触疲劳裂纹，也称剥离裂纹。标注时，用若干仅包含裂纹且彼此不重叠的较小密集标注框，组块成大片裂纹区域。绕过剥离掉块等其它类别。

4)剥离掉块(数据集中简称DK)：剥离裂纹进一步发展为剥离掉块。标注时，以光带为背景，剥离掉块为前景的二值灰度图中，把每一处前景连通域的外接矩形作为标注框。

5)波磨(数据集中简称BM)：钢轨轨头踏面在垂直方向上出现周期性的不均匀塑性变形和磨耗，波谷处踏面辗宽。通常呈现周期、规律的团块状明暗变化，有时还会出现对称、双排分布。标注时，以光带为背景，波磨波谷为前景的二值灰度图中，把每处波磨波谷边缘轮廓区域的外接矩形作为标注框。

该标注范式反映了每一处伤损的细粒度类别及形位信息，有助于目标检测算法训练，以及后续尺寸、面积、波长测量和量化评价。

标注在Labelimg、Labelme等开源软件中完成，标注完成可得到Pascal VOC、Tensorflow、YOLO DarkNet、MS COCO等格式的标注文件，不同标注格式可相互转换，本质上都记录了每个标注矩形框的类别和像素位置坐标信息。

对于低对比度难例图像辅助标注，由于数据集中还包括了较多对比度低、肉眼不易标注的图像，如背景黑暗、聚焦模糊、反光等。拍摄时在轨面涂抹荧光渗透剂增强图像成本高、效果有限，本例中给出了基于CLAHE直方图均衡化的轨面伤损难例图像增强辅助标注方法。经过该方法处理后，原来集中在极暗区、极亮区的像素峰值较均匀地拉伸分布于0-255全部灰度空间，在保留色调、饱和度的基础上，对比度提升，轨面细节特征增强。例如从光带背景中凸显波磨轮廓前景，从疲劳裂纹中凸显早期剥离掉块，便于观察标注。

该方法的基本思路是将图像由RGB色彩空间转为HSI色彩空间，对亮度分量 I单独使用CLAHE直方图均衡化，再合并输出HSI图像。具体算法流程如下：

第一步：将RGB色彩空间转换到HSI色彩空间。

对图像中任何3个归一化到[0,1]范围内的R、G、B值，其对应的H、S、I分量由下式计算：

式中，H为色调分量，S为饱和度分量，I为亮度分量。

保留H、S分量不变，仅对I分量运用后续变换。

第二步：对黑暗图像，将亮度分量I分成若干6×6矩形子块，对反光图像，将亮度分量I分成若干8×8矩形子块。对每个子块分别应用直方图均衡化。单个子块的直方图均衡化过程如下：

(1)计算像素灰度直方图

式中，r_k是归一化的灰度值，n为子块像素个数。

(2)计算累计直方图

(3)用累计直方图作为灰度变换函数，对原始像素灰度值进行变换

r′_k＝255×s_k (7)

(4)设定ClipLimit阈值，将直方图频率超过该阈值的灰度裁剪，并将削去的峰值平均填补到各个灰度。反复执行该过程，限制对比度过大、突出噪声导致的失真。

第三步：对于图像角落子块，保留输出灰度值。对于边缘子块，通过邻近2 个子块的映射函数线性插值。对于大部分中间区域子块，对每个像素，根据邻近子块的直方图均衡化灰度变换函数(即累计直方图)对其的映射值，进行双线性插值：

f(x,y)＝Δx(1-Δy)f_右上(x,y)+(1-Δx)Δyf_左下(x,y)+ ΔxΔyf_右下(x,y)·(1-δx)(1-Δy)f_左上(x,y) (8)

式中，(x,y)代表中间区域子块内的像素坐标，(Δx,Δy)是像素点(x,y)相对于左上角子块中心的距离与子块窗口大小的比值。f_左上(x,y)、f_左下(x,y)、f_右上(x,y)、 f_右下(x,y)分别对应左上角、左下角、右上角、右下角子块内的直方图均衡化灰度变换函数(即累计直方图)对当前像素点(x,y)的灰度映射值。

1.3Subway-1094轨面伤损目标检测数据集

通过前述拍摄、分类、标注，得到轨面各类目标的25036个矩形标注框，典型类别信息如表3所示，各类别目标数量不均衡，后续算法训练可使用数据扩增、引入Focal Loss损失函数等方法。剥离掉块和疲劳裂纹细小目标多，算法训练可采取马赛克数据扩增，设置较小的预设Anchor等方法。

表3 Subway-1094数据集典型类别信息

与动物、交通工具、建筑等自然图像目标检测数据集相比，钢轨伤损领域需特定的工务知识、拍摄方法、类别界定和标注技巧，并存在背景黑暗、聚焦模糊、轨面反光等标注困难图像。与现有钢轨伤损图像数据集相比，本数据集在图像数量、空间分辨率、幅度分辨率，以及伤损类别数量、轨面和光带清晰度、小目标数量、目标密度、目标长宽多样性等细粒度方面优于现有数据集，本发明的Subway-1094 数据集达到了22.9个/图，远远超过了自然图像数据集和同类轨面伤损数据集，体现了实例级细粒度标注的特点。

2、基于YOLOV5的轨面伤损目标检测算法

在获得轨面伤损目标检测数据集之后，本步骤中，以此训练基于YOLOV5的轨面伤损深度学习目标检测基准模型，建立轨面伤损图像识别算法。

在基准模型基础上，评估测试集中各类别的识别性能。通过一系列对比实验，调优训练超参数和测试超参数，并分析预测错误类型分布。

2.1YOLOV5预训练模型

YOLOV5在MS COCO 2017竞赛数据集上预训练了S、M、L、X四个模型，对自然图像的80个类别进行目标检测。四个模型尺寸逐渐增大，推理速度逐渐减慢，准确率逐渐提升。既可以在保留预训练模型结构和权重的基础上进行微调迁移学习，将模型泛化到Subway-1094数据集，也可仅保留模型结构，重新初始化权重，在Subway-1094数据集上从头训练模型。其中，S模型前向计算运算量小 (10880bflops)，权重少(7.3M)，便于迁移学习，且推断速度快(GPU上FPS达到100以上)，便于实时检测和终端部署，本发明选取在S预训练模型基础上迁移学习训练轨面伤损目标检测基准模型。

2.2YOLOV5模型结构

YOLOV5由Backbone骨干网络、Neck颈部网络、Head检测头网络三部分组成，如图2所示。Backbone骨干网络用于提取图像特征。Neck颈部网络用于整合各尺度特征，生成特征金字塔。Head检测头网络用于回归输出预测框的位置和类别。

图2中，Focus代表Focus切片操作，CBL代表卷积-BN-Leaky Relu序列操作， CSP代表跨阶段局部网络(Cross Stage Partial Network)，SPP代表空间金字塔池化 (SpatialPyramid Pooling)，Concat代表沿通道方向堆叠数据操作，conv代表1x1 卷积操作(Convolution)。

YOLOV5使用CSPDarknet和SPP作为Backbone骨干网络。CSPNet解决了大型Backbone骨干网络优化时的梯度信息重复问题，将梯度变化从头到尾集成在特征图中，减少了模型的参数量、前向推断计算量、内存占用，加快推理速度。YOLOV5 中包含CSP1_X和CSP2_X两种CSP结构，分别用于Backbone主干网络和Neck 颈部网络。

YOLOV5在Backbone骨干网络第一层通过Focus结构，把长度和宽度方向的空间维度信息切片并堆叠至通道维度。长宽缩小为原来的一半，通道数增加为原来的4倍，节省计算量。

YOLOV5使用FPN和PAN作为Neck颈部网络，生成特征金字塔。把不同尺度的特征整合汇总，增强模型对不同尺度目标的识别能力。

FPN特征金字塔通过融合高低层特征，提升不同尺度，特别是小尺寸目标的检测效果，而PAN在FPN特征金字塔的基础上进一步增加自底向上的特征增强。究其原理，在于底层卷积神经网络主要提取边缘、轮廓、颜色等底层视觉特征，而这些特征往往与目标边缘和轮廓密切相关。因此PAN自底向上的特征增强可以让顶层特征图也可充分共享网络底层提取的特征，提升大目标的检测效果。

YOLOV5中包含3组Anchor，每组有3个尺度，分别检测不同长宽比和大小的目标。对训练集使用Kmeans聚类计算Anchor大小和比例。采用跨网格匹配规则，增加正样本数量。提高不同长宽比目标的识别准确率。

YOLOV5的Head检测头网络，通过1x1卷积运算，输出三组特征图，每组特征图包含了对应尺度提取出的预测框类别、置信度、像素坐标信息。三组特征图的张量数据尺寸分别为：batch_size×54×80×80、batch_size×54×40×40、 batch_size×54×20×20。其中，batch_size为批样本数。式中的54＝[na×(nc+1+4)]，具体参数含义如下：

na(number of Anchor)为每组anchor的尺度数量，本发明为3。

nc(number of class)为类别数量，Subway-1094数据集的类别总数为13。

1为预测框在对应标注类别上的置信度。

4为预测框坐标，包含中心点横纵坐标和宽高。

2.3YOLOV5损失函数

损失函数衡量模型在训练集上的训练性能，性能指标衡量模型在测试集上的预测性能，下面逐一介绍。

YOLOV5的损失函数分为三个部分：

Loss＝L_bbox+L_obj+L_cls (9)

式中，L_bbox为GIOU定位损失函数，反映预测框坐标定位错误带来的误差，适用于不同尺度预测框。如下式所示，C为能包络预测框和标注框的最小外接矩形框面积。

L_bbox＝1-GIOU (11)

式中，L_obj为置信度损失函数，反映预测框的置信度误差，使用交叉熵损失函数计算。L_cls为分类损失函数，反映预测框的类别错误带来的误差，使用交叉熵损失函数计算。

二分类交叉熵损失函数由概率论中的极大似然估计推导求出，按下式计算：

式中，N为样本个数，y_i为标注类别对应的置信度，正类为1，负类为0。p_i表示模型训练期间算法给出的对应预测框在标注类别上的置信度。y_i和p_i差距越大，损失函数L_obj和L_cls越大。

对于L_obj损失函数和L_cls损失函数，可通过激活Focal Loss损失函数减少类别不均衡影响。在本发明基准模型中，L_bbox、L_cls、L_obj的权重分别为0.05、0.5、1，不激活Focal Loss损失函数。

2.4目标检测性能指标

目标检测模型的性能指标分为速度指标和准确度指标。速度指标通常用每秒推断帧数FPS(Frames Per Second)衡量，但受硬件影响较大，本发明重点研究准确度指标。

目标检测输入图像，输出图像中各个目标预测框的矩形坐标及各类别预测置信度Conf。

采用交并比IOU衡量预测框和标注框的重合程度，即预测框的定位是否准确。

式中，B_p为预测框，B_gt为标注框。

根据与标注框的关系，可将某一预测框划分为下式四类中的某一类：

TP:{Conf＞P_thresh且IOU＞IOU_thresh} (14)

FP:{Conf＞P_thresh且IOU＜IOU_thresh} (15)

FN:{Conf＜P_thresh且IOU＞IOU_thresh} (16)

TN:{Conf＜P_thresh且IOU＜IOU_thresh} (17)

式中，IOU_thresh为0-1之间的常数，需人工指定。

对于某一特定类别，TP、FP、FN、TN四种预测框的个数构成混淆矩阵 (ConfusionMatrix)，例如波磨类别的混淆矩阵如表4所示。

表4混淆矩阵示例(以波磨类别为例)

进一步定义以下参数：

(1)Precision(查准率)是指所有预测框中预测正确的比例，反映了模型“不把背景冤枉为目标”的准确性。

(2)Recall(查全率、敏感性、召回率)是指所有标注框中被正确预测的比例，反映了模型“不把目标放过为背景”的敏感性。

(3)Average Precision(平均精度，简称AP)：将P_threshold阈值从0到1变化，计算每个P_threshold阈值对应的Precision和Recall，绘制成某类别的PR性能曲线，其围成的面积为该类别的AP。取所有类别的AP和不同的IOU_thresh，可分别计算 mAP@0.5和mAP@0.5:0.95。mAP@0.5为IOU_thresh取0.5时，各类别AP的平均值。 mAP@0.5:0.95为IOU_thresh分别取以0.05为步长，从0.5增大至0.95的10个数时，各类别AP的平均值。如下式所示，式(3-14)中，j分别取0.5、0.55、0.6、0.65、 0.7、0.75、0.8、0.85、0.9、0.95，N为类别总数13。

本阀门以Precision、Recall、AP、mAP@0.5、mAP@0.5:0.95作为性能指标。

2.5基准模型

本发明根据基准模型在训练过程中的损失函数和性能指标变化，训练过程中，训练集和测试集上三类损失函数均逐渐降低，测试集上各类性能指标稳步提升至收敛，没有发生过拟合，证明基准模型的训练超参数和训练策略是有效的。

2.6训练和测试超参数调优

在基准模型基础上进行一系列对比调参实验，对训练超参数和测试超参数调优，流程如图3所示，部分对比实验结果如图4所示。

训练超参数设置原则：

1)S、M、L、X四个预训练模型容量逐渐增大，模型性能逐渐提升，但推断速度逐渐下降。在原有预训练权重基础上迁移学习训练得到的模型，相比于仅保留模型骨架结构重新训练权重得到的模型，性能普遍优秀。

2)训练时引入图像扩增，对于防止过拟合，增加模型鲁棒性和泛化能力是十分必要的，特别的，马赛克拼贴数据扩增能有效降低测试集上的L_obj损失函数，提升波磨、剥离掉块等小目标识别性能，但对轨面、光带等大目标提升效果一般，可能的原因是马赛克图像拼贴会随机破坏并重组标注框，对轨面、光带等大目标影响较大，而小目标得益于细粒度标注，被破坏的概率低，对最终性能提升帮助较大。

3)对于YOLOV5的S模型，输入图像大小为640像素时训练效果最优，对于YOLOV5的M、L、X模型，输入图像大小为960像素时的训练效果最优。

测试超参数设置原则：

1)对边缘明显的掉块、波磨等目标，可过滤掉置信度小于0.3的预测框，尽可能将高置信度目标检出。对大片存在的裂纹、打磨等目标，可过滤掉置信度小于 0.1的预测框，尽可能将疑似目标检出。

2)NMS(Non-Maximum Suppression)非极大值抑制，过滤掉IOU超过某个阈值的低置信度同类预测框，防止多个预测框重复识别同一个目标。对于波磨、掉块、扣件，应使IOU阈值较小(0.05)，加强NMS，防止重复识别，从而对后续细粒度指标计算造成影响，对于裂纹、打磨等大片存在的特殊类别，不需防止重复识别，应使IOU阈值较大(0.8)，减弱NMS。

3)TTA(Test Time Augmentation)，也称测试图像增强，将测试集图片放大30％，并进行水平镜像翻转，在三个不同分辨率下预测三个结果，在NMS之前将三个预测结果集成。TTA会降低Precision，提高Recall。对于掉块、裂纹等长宽大致相同的密集方形目标，TTA能显著提升mAP。

4)将YOLOV5的S、M、L、X四个预训练迁移学习模型得到的预测结果集成，对各类目标识别性能均有提升，集成学习是指将多个基学习器的预测结果投票成最终预测结果。构成集成学习的基学习器应“好而不同”，即基学习器的性能应足够好，且基学习器之间应有足够的差异，才能有效优势互补，起到正则化和“博采众长、兼听则明”的作用，防止过拟合，提升泛化能力。

2.7预测结果错误类型分析

将测试集上模型的预测结果与测试集的标注框进行比较，不仅可以计算Precision、Recall、mAP等准确度评估指标，还可以对模型在测试集上的各类预测错误定量分析。错误分析有助于增进对模型适用范围、鲁棒性和泛化性的了解，避免潜在的过拟合，赋予可信和可解释性。指导后续数据采集、标注和模型改进。

按预测框与标注框(Ground Truth，简称GT)的IOU与类别关系，可将各类目标检测预测错误分为六类，如表5所示，表5中，t_b＝0.1,t_f＝0.5，是人为设置的两个IOU阈值。

表5六类目标检测错误，及其与IOU、预测框类别的关系

3、轨面伤损视觉测量与量化评价

在目标检测模型输出结果基础上，提出测量轨面光带形位、伤损尺寸、轻重伤总数、裂纹面积、波磨波长等量化评价指标的视觉测量图像分析方法。并对比其它测量方法和不同伤损时期，验证了准确性。为后续的轨面伤损多尺度数据分析与展示提供数据源。

该步骤使用的算法为基准模型，使用的图像不来自Subway-1094数据集的训练集，没有参与模型训练。

3.1像素距离与物理距离换算

每张待测图像镜头距轨面距离不同，轨头物理宽度也不一定相同，因此对每张待测图像都需分别换算测距标尺，保证后续与尺寸、面积、波长等距离相关指标计算的准确性。

3.2光带测量与评价

轮轨相互作用，在轨头表面产生的光亮接触区称为光带。现有的光带提取和测量工作均针对车载拍摄得到的黑白图像，虽然也可获得测距标尺，得到光带宽度、偏心和异常信息，但轨面图像窄小模糊，测量相对误差大，且缺乏与疲劳裂纹、剥离掉块、波磨等其它伤损对照分析。

本发明根据光带预测框与轨面预测框的几何关系，提取轨面和光带中心线，配合测距标尺，计算如下光带指标：

光带宽度＝光带预测框宽度像素个数×测距标尺 (23)

光带长度＝光带预测框长度像素个数×测距标尺 (24)

光带面积＝光带预测框像素个数×测距标尺 (25)

光带偏心＝轨面与光带中心线像素距离×测距标尺 (27)

多光带＝光带预测框个数+多光带预测框个数 (28)

光带异常＝长宽面积形位异常OR偏心异常OR其它伤损异常 (29)

其中，式(29)为组合判定条件，可根据不同工况设置判定条件。

如图5所示，图5展示了光带宽度、面积、轨面占比、偏心距离的视觉测量结果，图中外侧方框为轨面，内侧方框为光带。粗线外接矩形预测框，细线为中心线。图(5a)为内轨顶面光带，光带宽度37.00mm，占轨面50.60％，偏心距离为6.33mm。图(5b)为工作边轨距角光带，光带宽度37.24mm，占轨面51.47％，偏心距离 16.22mm。

3.3剥离掉块测量与评价

轮轨作用下，在轨面形成的沿钢轨全长分布的表面裂纹称为接触疲劳裂纹，也称剥离裂纹。剥离裂纹进一步发展为剥离掉块，掉块深度一般为2～4mm。掉块底部的残余裂纹可能继续向钢轨内部疲劳扩展，导致钢轨横向断裂。

中国铁路总公司TG GW102-2019《普速铁路线路修理规则》规定，对长度或宽度超过15mm和30mm的剥离掉块，分别判为轻伤和重伤，剥离掉块深度超过 3mm时应进行修理性打磨(或铣磨)。本发明中，根据实际工程需要，轻重伤判定设置地更加严格。

本发明根据剥离掉块目标检测预测框和测距标尺，测量每一处剥离掉块的长、宽、面积、轨面占比、轻重伤等级，并统计总数，如图(6a)所示，识别出的42 个掉块中包含1个重伤掉块，宽16.8mm，高33.3mm，识别出的46个掉块中包含 5个轻伤以上掉块，3个重伤掉块，如图(6b)所示，识别出的44个掉块中包含3 个轻伤以上掉块，1个重伤掉块，宽34.9mm，高15.6mm。识别出的36个掉块中包含6个轻伤以上掉块，4个重伤掉块，与方尺测量结果一致。

3.4裂纹测量与评价

根据裂纹测量结果可测得裂纹区面积及占光带和轨面比例、掉块总数、轻重伤掉块个数、掉块区面积及占光带和轨面比例，并用不同颜色将裂纹、普通剥离掉块、轻伤剥离掉块、重伤剥离掉块展示在待测图像中。图中包括疲劳裂纹区和剥离掉块区。

如图7所示的内轨顶面，疲劳裂纹区面积共1853.2mm²，占轨面14.12％，占光带28.11％。左侧有3个单支裂纹区，右侧裂纹成片。识别出30个剥离掉块，其中6块达到轻伤，剥离掉块区面积为1038.3mm²，占轨面7.91％，占光带15.75％。

图(8a)所示的内轨轨距角横裂纹和轨面斜裂纹面积共4065.16mm²，占轨面38.34％，占光带74.89％，识别出32个剥离掉块，总面积602.08mm²，占轨面5.68％，占光带11.09％，其中5个达到轻伤以上，1个达到重伤。图4.6b所示的内轨轨距角，两片斜裂纹面积共2411.64mm²，占轨面21.63％，占光带42.81％，识别出16 个剥离掉块，总面积1358.58mm²，占轨面12.19％，占光带24.12％，其中7个达到轻伤以上，4个达到重伤。

图9所示的外轨轨距角，疲劳裂纹区面积共826.8mm²，占轨面8.98％，占光带18.00％，出现2个普通剥离掉块，剥离掉块区面积为4.01mm²，占轨面0.04％，占光带0.09％。

裂纹可能出现在钢轨轨头表面、轨头下颚、焊缝、轨腰、螺栓孔、轨底，甚至钢轨内部。本发明仅研究轨头踏面表面的疲劳裂纹(滚动接触疲劳裂纹)。

疲劳裂纹呈尖细状大片分布，没有明确的凸块边界轮廓，使得目标检测模型输出的裂纹预测框个数、长宽、位置极不稳定，且存在大量重叠。得益于细粒度标注方法，目标检测模型能够充分学习到裂纹的纹理特征，且对低置信度阈值的细密裂纹预测框取并集获得的区域较稳定。预测阶段取较低的置信度阈值和较高的 IOU-NMS阈值时，能够尽可能将疑似裂纹区域检出。本步骤中取置信度阈值为0.1， IOU-NMS阈值为0.45，并将面积占轨面比例超过1/10的大裂纹预测框舍弃，仅保留较小的细密裂纹预测框。

根据裂纹测量结果可测得裂纹区面积及占光带和轨面比例、掉块总数、轻重伤掉块个数、掉块区面积及占光带和轨面比例，并用不同颜色将裂纹、普通剥离掉块、轻伤剥离掉块、重伤剥离掉块展示在待测图像中

3.5波磨测量与评价

对于城市轨道交通曲线内轨的中短波波，根据得到的每个波磨波谷的实例信息，根据波磨预测框和测距标尺，可测量得到每一处波磨波谷区域的长、宽、中心点坐标、波谷区域面积、占光带和轨面比例等信息

3.5.1波磨波长视觉测量

本发明提出了一种基于聚类的波磨波长视觉测量算法，可兼容单排、双排波磨工况，具体包括以下步骤：

对所有波磨预测框中心点沿轨面横向宽度方向的坐标二簇聚类(本例选用Kmeans聚类)，如果两簇中心距离超过某阈值(本例选用200像素)，即判定为双排波磨，否则为单排波磨。对双排波磨，分别计算每一侧波长平均数和中位数，再根据每一侧波磨个数汇总得最终波长。也可直接以全部波长的中位数作为波长。

图10展示了上海地铁A线隧道曲线内轨单排波磨和B线高架曲线内轨双排波磨的视觉测量结果。对于图(10a)，10跨单排波磨平均波长为23.14mm，中位数波长为23.32mm。对于图(10b)，4跨双排波磨中，左排波磨平均波长为35.62mm，右排波磨平均波长为36.69mm，双排平均波长为36.16mm，中位数波长为35.86mm。而使用CAT波磨测量小车测量图(10b)同一曲线，内轨中短波不平顺谱(1/3倍频程)在31-40mm出现峰值，如图11所示，与视觉测量结果吻合。

中国铁路总公司TG GW102-2019《普速铁路线路修理规则》规定：行驶速度小于120km/h的钢轨，波磨深度超过0.3mm时应进行修理性打磨(或铣磨)，波磨深度超过0.5mm，判定为轻伤。本发明提出的波磨尺寸、面积、波长图像识别和视觉测量方法，为早期波磨判定和预防、扣件刚度调节、打磨铣磨、润滑、换轨等养护维修提供了新的数据驱动依据。

4、轨面伤损多尺度数据分析与地图可视化

在目标检测和视觉测量结果基础上，定义实例尺度的微观伤损形位、图像尺度的中观视觉测量、线路尺度的宏观区段统计等各层次多尺度轨面伤损信息数据结构，生成地铁区段Web GIS米级光带异常、掉块、波磨量化分布地图。

4.1图像EXIF信息

可交换图像文件格式(Exchangeable Image File Format，简称EXIF信息)，记录了数码照片的拍摄时间、经纬度、拍照设备等元数据信息，附加在图像二进制文件中。

以华为Mate 30Pro智能手机拍摄的图片解析出的EXIF信息为例，包含下列四类信息：

(1)图像基础信息：图片文件名、是否横幅、图片高、图片宽、缩略图。

(2)拍摄时空信息：拍摄时间、拍摄地经纬度、海拔高度。

(3)拍摄设备信息：相机型号、相机制造商、GPS经纬度。

(4)镜头信息：是否开启闪光灯、快门、视角、光圈、最大光圈值、光圈补偿、曝光、曝光补偿、ISO、对比度、饱和度、锐度、数码变焦比、白平衡、焦距、 35mm等效焦距。

EXIF信息中的GPS经纬度信息，由智能手机卫星定位模块，通过和多颗卫星的距离推算自身位置，主流智能手机都已支持美国GPS、俄罗斯格洛纳斯、中国北斗导航、欧盟伽利略等GNSS系统。我国自主研发的北斗导航系统，经过二十年积累和三次迭代，定位精度从几十米提升至亚米级，并针对亚太地区做了信号增强。2020年7月，北斗三号全球卫星导航系统正式开通，在定位准确度、定位速度、抗干扰能力、短报文通信等方面具有较大优势。

智能硬件、传感器、移动互联网、物联网、云计算、5G通信、北斗导航等新基建数字网络不断完善，为钢轨表面伤损米级精准定位和细粒度时空分布可视化提供可能。

4.2实例尺度的微观伤损形位信息A表

将单张图像中每一处伤损目标的识别测量结果汇总，得到实例尺度的微观伤损形位信息A表，如图12所示。

A表中每一行对应一个伤损目标实例的识别及视觉测量结果，包括类别、置信度、预测框左上角像素坐标、预测框右下角像素坐标，以及由测距标尺换算得到的宽高尺寸(mm)和面积(mm²)。对于剥离掉块，判定轻重伤等级

4.3图像尺度的中观视觉测量信息B表

将A表的实例尺度伤损形位信息，与组合多个伤损计算得到的量化评价指标汇总，得到图像尺度的中观视觉测量信息B表。每张图像对应一个B表。

B表仅有两列，一列记录特征字段，一行记录值。B表记录以下七类信息：

(1)图像基础信息：文件名、宽高、是否横幅。

(2)图像EXIF信息：拍摄时间、经纬度、设备及镜头信息。

(3)像素距离与物理距离换算的测距标尺。

(4)光带信息：长、宽、面积、偏心、多光带、占轨面比例。

(5)剥离掉块统计汇总：总数、总面积、占轨面比例、轻伤和重伤总数。

(6)裂纹统计汇总：总面积、占轨面比例。

(7)波磨统计汇总：总数、总面积、占轨面比例、波长。

4.4线路尺度的宏观区段统计信息C表

将所有图像的B表堆叠，得到线路尺度的宏观区段统计信息C表。一条线路区段对应一个C表。

由C表可汇总得到区段内光带异常分布、剥离掉块总数及尺寸分布、波磨总数及波长分布等统计信息。由经纬度可绘制Web GIS米级伤损分布地图。

4.5Web GIS米级伤损分布地图

智能手机拍摄的图像EXIF信息中包含统一格式的经纬度，在上海地铁B线的高架段和露天段实测，定位误差在3m以内，达到米级定位要求，因此可借助网络地理信息系统(Web GIS)和数字孪生技术，以交互式地图的形式对轨面伤损图像识别和视觉测量数据可视化。

本发明使用Python第三方工具包Folium绘制交互式轨面伤损分布地图，展示线路区段轨面伤损量化评价指标。图表类型支持气泡图、热力图、聚类图、等值线图、时序图等，用户可在浏览器内缩放、拖拽、平移，也可点击每一个数据点查看图像及伤损详情。本发明使用高德地图开发者平台绘制三维立体城市数据大屏，用户可自定义需展示的数据特征。

下文使用以冗余视觉编码的可视化方法展示的轨面伤损量化指标气泡地图，气泡越大，颜色越红，表示该点数值越大。

值得说明的是，当列车行驶至地下或隧道时，经纬度定位误差增大，地图上可能会出现中断。且由于数据量有限，以下所示的地图仅用于展示交互式地图原理和理论上的可视化效果，数据来源为Subway-1094数据集中上海地铁B线某上行 1.6km区段内轨1081张图像及标注，而非真实图像识别和视觉测量结果生成的C 表。

本发明通过可视化的交互式地图展示区段内光带、剥离掉块、波磨等伤损分布，包括区段光带异常分布地图、区段剥离掉块分布地图、区段波磨分布地图。

图13为区段光带异常分布地图，展示了上海地铁B线某直线段和小半径曲线段内轨，光带占轨面面积比例分布。从图中可以看出，邻近车站车速较慢的253 米直线段、直缓点135米区段、小半径曲线190米区段，光带占轨面比例较大。随着列车加速并进入小半径曲线段，光带收窄，波磨分布于光带较窄的曲线区段。

图14为区段剥离掉块分布地图，展示了上海地铁B线某直线段和小半径曲线段内轨，各拍摄点剥离掉块总数分布，从图中可以看出，车速较高的直线段，以及与缓和曲线的过渡区共372米的区段出现了密集剥离掉块分布，占测试区段全长 23.3％，且这类剥离掉块并非由疲劳裂纹萌生扩展而成，而是硌伤或砸伤导致。对 C表进行统计，可知该区段有1095个测点出现12582处掉块，其中228个测点出现624处轻伤掉块，84个测点出现123处重伤掉块。

图15为区段波磨分布地图，展示了上海地铁B线某直线段和小半径曲线段内轨，各拍摄测点波磨总数分布，从图中可以看出，该区段存在三个波磨密集分布区：直缓点过渡区273米、缓圆点过渡区110米、小半径圆曲线185米，占测试区段全长35.5％。对C表进行统计，可知该区段有1095个测点出现3349处波磨波谷，其中单个测点最多拍摄到14个波磨波谷，波磨波谷总面积为1.4m²，波磨波长中位数34.3mm，波长分布直方图如图16所示。

综合光带、剥离掉块、波磨分布地图和C表，该区段在直缓点、缓圆点和小半径曲线已发展出数量可观的掉块和波长稳定的波磨，伤损区段占测试区段全长 50.1％。该线路距上一次铣磨已有16个月，行车出现了啸叫噪声，因此应及时安排维护性打磨。

Claims

1.一种钢轨表面伤损细粒度图像分类与检测方法，其特征在于，包括以下步骤：

1)构建细粒度轨面伤损目标检测数据集；

2)采用YOLOV5算法进行轨面伤损目标检测；

3)根据检测结果进行轨面伤损视觉测量与量化评价，并进行伤损分布的交互式地图可视化展示；

所述的步骤1)具体包括以下步骤：

11)拍摄细粒度轨面伤损图像，构建轨面伤损图集：

12)对轨面伤损进行实例级细粒度目标检测标注；

13)将标注出类别和标注框的图像构成轨面伤损目标检测数据集；

所述的步骤11)具体为：

拍摄包含多种地铁工况下的多幅彩色图像并进行损伤标注，然后与未标注的不同伤损时期、不同养修时期以及不同拍摄工况的轨面照片共同构成轨面伤损图集，所述的地铁工况包括隧道、高架、直线、曲线、内轨、外轨、打磨前后以及铣磨前后，具体拍摄方式为：在两股钢轨中间采用相机使镜头距轨面垂直距离200mm竖直向下聚焦拍摄，侧面补光使图像没有暗影和轨面反光，光线入射角度为30°，拍摄的图片长度或宽度方向与轨面纵向边缘平行，轨面占据图幅60％以上；

所述的步骤12)中，各轨面损伤的标注范式为：

波磨(BM)：标注时，以光带为背景，波磨波谷为前景的二值灰度图中，把每处波磨波谷边缘轮廓区域的外接矩形作为标注框；

121)将RGB色彩空间转换到HSI色彩空间；

2.根据权利要求1所述的一种钢轨表面伤损细粒度图像分类与检测方法，其特征在于，所述的步骤2)具体包括以下步骤：

3.根据权利要求2所述的一种钢轨表面伤损细粒度图像分类与检测方法，其特征在于，在对轨面伤损目标检测基准模型进行迁移学习训练过程中，对于超参数的训练，则有：

引入图像扩增，对于防止过拟合，增加模型鲁棒性和泛化能力，YOLOV5的S预训练模型的输入图像大小采用640像素。

4.根据权利要求2所述的一种钢轨表面伤损细粒度图像分类与检测方法，其特征在于，在对轨面伤损目标检测基准模型进行迁移学习训练过程中，对于超参数的调优，则有：

5.根据权利要求1所述的一种钢轨表面伤损细粒度图像分类与检测方法，其特征在于，所述的步骤3)中，轨面伤损视觉测量与量化评价具体包括光带、剥离掉块、裂纹以及波磨的测量与评价。

6.根据权利要求5所述的一种钢轨表面伤损细粒度图像分类与检测方法，其特征在于，