CN110246134A

CN110246134A - 一种钢轨伤损分类装置

Info

Publication number: CN110246134A
Application number: CN201910549783.1A
Authority: CN
Inventors: 黄梦莹; 罗江平; 王文星; 曹经纬; 夏浪
Original assignee: Zhuzhou CSR Times Electric Co Ltd
Current assignee: Zhuzhou CRRC Times Electric Co Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-09-17

Abstract

本发明公开了一种钢轨伤损分类装置，包括：伤损图库建立模块、特征提取模块、伤损分类模块及分类结果显示模块。伤损图库建立模块基于标定的伤损图像数据创建伤损图库。特征提取模块提取伤损图库中伤损图像的特征值并组成特征向量。伤损分类模块对每类伤损图像的特征向量进行训练，得到伤损图像的最优分类函数，并将未经训练的伤损图像的特征向量输入最优分类函数进行测试。分类结果显示模块对伤损图像的分类测试结果进行可视化输出。本发明能够解决现有伤损判别方法在面对复杂的环境，无法囊括所有伤损的判别规则，从而导致部分伤损无法识别和误报率高，以及响应时间长、效率低的技术问题。

Description

一种钢轨伤损分类装置

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种应用于钢轨探伤的钢轨伤损分类装置，通过选择恰当的特征提取算法和分类模型能够实现较高的分类准确率。

背景技术

钢轨探伤车即为配备钢轨探伤检测系统的专用工程车辆，其具备自动检测和识别钢轨内部伤损的能力，在国内已被各大路局广为使用。钢轨探伤车采用超声波的探伤原理，由6个探轮内(共计30个)不同入射角度的换能器发射出超声波，当遇到钢轨中的障碍物时，超声波脉冲将会被其反射，并由换能器接收。换能器接收后传递给系统处理及分析，最后系统将采集的数据和算法识别结果以B型图的形式显示。B型图中横坐标表示探头的扫查轨迹，纵坐标表示超声波的传播时间(或距离)，钢轨中障碍物的位置可根据换能器发射与接收超声波的时间进行定位，并以栅格的形式显示在B型图中，其中，不同栅格颜色表示由不同角度的换能器定位后的障碍物位置。

如果说钢轨探伤检测系统是钢轨探伤车的大脑，那么识别算法则是钢轨探伤检测系统的神经单元。在钢轨探伤检测系统的实际使用过程中，由于其采用固定的决策树规则进行判伤，面对复杂的环境，无法囊括判别所有伤损的规则，因此造成部分伤损无法识别和误报率高的问题。并且，由于地域性因素，在与厂商交流反馈的过程中，存在响应时间长、效率低等问题。以GTC80Ⅱ型探伤车在兴平标定线上采集到的数据为例，其中标定线上的伤损由人工设定。附图1和附图2表示左右轨上相同位置处的轨腰通孔的B显片段示例，若算法识别出伤损，则会在伤损外用框标记。如附图1所示，算法未能识别出该伤损，附图2中算法识别出了此伤损。其原因在于B显图像不同于自然图像，前者受外界因素干扰大，即便检测同类型的伤损，受速度、对中情况等因素的影响，将会导致超声波传播时间不一致，因此难以形成一模一样的栅格图像。面对变化众多的栅格图像，一旦栅格图像的变化超过软件自身算法识别规则，则容易出现漏报、误报问题。

在现有技术中，主要由以下技术方案与本发明申请相关：

该现有技术为哈尔滨工业大学(威海)于2015年01月10日申请，并于2015年07月01日公开，公开号为CN104751169A的中国发明申请《高铁钢轨伤损分类方法》。该发明申请提供了一种高铁钢轨伤损分类方法，其首先利用小波分析方法提取有损信号的时域和频域局部特征，对同一测量点结合不同车厢建立三维张量信号，将数据扩展到多维空间得到非负张量，采用交替最小二乘算法作为非负张量分解的迭代准则，接着引入奇异值分解对非负张量的初始化进行改进，利用改进的非负张量分解方法提取隐藏的特征，最后引入极限学习机算法实现对钢轨伤损的实时分类。该发明方法可以准确对钢轨伤损信号进行分类，提高了伤损分类的速度和准确性且具有较好鲁棒性。

首先，现有技术采用小波分析方法对振动信号特征进行提取，并采用极限学习机(ELM)进行分类，特征提取算法较为简单，且提取的特征不具有代表性。其次，现有技术先将原始数据集A分为两部分，得到一大一小两个数据集，其中将较大的数据集作为训练样本集B，将较小的数据集当作测试样本集C，而未进行交叉验证，人为划分训练集和测试集存在主观性。再次，现有技术主要是基于传统超声技术探伤车的探测速度无法满足高铁的伤损检测速度需求，而传统超声技术探伤车已实现80km/h的检测速度，能满足高铁伤损的检测需求。且现有技术仅凭收集高铁在钢轨上的振动信号探测出钢轨内部的伤损，这种方式存在振动信号干扰因素过多，分类结果不准确等技术缺陷。

发明内容

有鉴于此，本发明的目的在于提供一种钢轨伤损分类装置，以解决现有伤损判别方法面对复杂的环境，无法囊括所有伤损的判别规则，从而导致部分伤损无法识别和误报率高，以及响应时间长、效率低的技术缺陷。

为了实现上述发明目的，本发明具体提供了一种钢轨伤损分类装置的技术实现方案，钢轨伤损分类装置，包括：伤损图库建立模块、特征提取模块、伤损分类模块及分类结果显示模块。所述伤损图库建立模块基于标定的伤损图像数据创建伤损图库。所述特征提取模块提取伤损图库中伤损图像的特征值并组成特征向量。所述伤损分类模块对每类伤损图像的特征向量进行训练，得到伤损图像的最优分类函数，并将未经训练的伤损图像的特征向量输入最优分类函数进行测试。所述分类结果显示模块对伤损图像的分类测试结果进行可视化输出。

进一步的，所述装置还包括设置于所述特征提取模块与伤损分类模块之间的数据归一化模块，所述数据归一化模块将伤损图像的特征向量归一化至[0，1]区间。

优选的，所述装置还包括设置于所述数据归一化模块与伤损分类模块之间的数据降维处理模块，所述数据降维处理模块将经过归一化处理后的伤损图像的特征向量进行PCA降维处理，降维处理后的特征向量用于输出至所述伤损分类模块进行训练。

进一步的，输入至所述伤损分类模块的伤损图像的特征向量被划分为训练样本集和测试样本集。

进一步的，所述伤损分类模块采用支持向量机作为分类器对训练样本集中每类伤损图像的特征向量进行训练，并利用未训练过的伤损图像的特征向量作为测试样本集来检验分类器训练后的模型性能。

进一步的，所述伤损图库建立模块针对钢轨伤损的具体类型，在标定的伤损图像数据中选取伤损图像，并形成伤损图库。所述训练样本集中伤损图像的特征向量具有钢轨伤损类型标签。所述测试样本集中伤损图像的特征向量不具有钢轨伤损类型标签，但钢轨伤损类型为人工已知。

优选的，所述伤损分类模块从每类伤损图像中各随机选取一部分作为训练样本集进行训练，而余下部分的伤损图像作为测试样本集进行验证。当再次进行重复试验时，所述伤损分类模块再从每类伤损图像中各随机选取一部分进行训练，而余下部分的伤损图像数据进行验证。如此进行若干次的交叉验证，每次试验相互独立，每次验证的训练样本集或测试样本集部分重合，以评估最优分类函数的预测性能。

优选的，进行训练的伤损图像数量大于进行验证的伤损图像数量。

进一步的，测试样本集输入所述伤损分类模块的最优化分类函数后，得到预测的测试样本集标签，该测试样本集标签输出至所述分类结果显示模块与人工已知标签形成可视化的对比结果，以此判断分类结果是否准确。

进一步的，所述伤损分类模块根据输入的训练样本集、训练样本集标签，并设置惩罚参数和径向基核参数的变化范围以及步进大小，通过交叉验证和网格划分，得到交叉验证下训练样本集验证分类准确率最高的全局最优惩罚参数和最优径向基核参数。全局最优惩罚参数及最优径向基核参数根据以下公式计算：

K(x_i·x)＝exp[-(x_i-x)²/2σ₁ ²]＝exp[-g(x_i-x)²]

其中，min代表最小化，ω为系数向量，C为惩罚参数，§_i为松弛变量，x_i和x为伤损图像的特征向量，K(x_i·x)为径向基核函数，σ₁、g为径向基核参数，i为训练样本集编号，l为训练样本集总数，exp代表以自然常数e为底的指数函数。

进一步的，所述伤损分类模块的最优化分类函数根据以下公式计算：

式中，sgn(x)代表符号函数，l为训练样本集总数，i为训练样本集编号，y_i为伤损图像的类别标签，a_i为拉格朗日算子，K(x_i·x)代表径向基核函数，·代表点积，b为偏移向量。

优选的，所述特征提取模块包括Tamura纹理特征提取模块和局部二值特征提取模块，并采用Tamura纹理特征与局部二值模式相结合的算法提取伤损图像的特征值。

进一步的，所述Tamura纹理特征提取模块根据以下公式提取伤损图像的粗糙度特征值F_crs：

先根据式1)计算伤损图像中大小为2^k×2^k像素的活动窗口中像素的平均亮度值A_k(x′，y′)。

式中，g(i′，j′)代表活动窗口中第(i′，j′)点的像素亮度值，通过k来确定活动窗口的范围，(x′，y′)代表伤损图像中的某个像素点。

然后，根据式2)分别计算每个像素在水平和垂直方向上互不重叠的活动窗口之间的平均亮度差。

E_k，h代表该像素点的水平方向差值，E_k，v代表该像素点的垂直方向差值；对于每个像素点，选择合适的k值使E值最大，同时设置活动窗口的最佳尺寸S_best(x′，y)＝2^k。

最后，通过式3)计算整幅伤损图像中的平均值以得到伤损图像的粗糙度特征值F_crs：

式中，m、n分别代表伤损图像的长和宽。

所述Tamura纹理特征提取模块根据式4)提取伤损图像的对比度特征值F_con：

式中，σ代表伤损图像灰度值的标准方差，μ₄代表四次矩，σ²代表伤损图像灰度值的方差。

所述Tamura纹理特征提取模块根据以下公式提取伤损图像的方向性特征值F_dir：

首先，计算每个像素处的梯度向量，根据式5)计算该向量的模|ΔG|和方向角θ。

式中，Δ_H和Δ_V分别为伤损图像与两个Prewitt算子卷积得到的水平和垂直方向上的变化量，arctan()代表反正切函数，π代表圆周率。

然后，构造用于表达θ值的直方图H_D：

式中，H_θ(k)代表当|ΔG|≥T，(2k-1)π/2n≤θ≤(2k+1)π/2n时像素的数量，T代表设定的阈值，n代表方向角度的量化等级。

最后，计算直方图H_D中峰值的尖锐程度获得伤损图像的方向性特征值F_dir：

式中，p代表直方图H_D中的峰值，n_p代表直方图中峰值的数量，对于某个峰值p，ω_p代表该峰值包含的量化值范围，φ_p是ω_p中具有最大直方图值的量化数值。

所述Tamura纹理特征提取模块根据以下公式提取伤损图像的线像度特征值F_lin：

式中，P_Dd代表n×n局部方向共生矩阵的距离点。

所述Tamura纹理特征提取模块根据以下公式提取伤损图像的粗略度特征值F_rgh：

F_rgh＝F_crs+F_con 9)

式中，F_crs代表伤损图像的粗糙度特征值，F_con代表伤损图像的对比度特征值。

进一步的，所述局部二值特征提取模块根据以下公式提取伤损图像的局部二值模式特征值：

式中，上标riu2代表使用旋转不变统一模式，ROR(LBP_P，R，q)代表将LBP_P，R循环右移q位，P为圆形邻域的数量，R为圆形的半径，U(LBP_P，R)为一致性测度，min代表最小化。

通过实施上述本发明提供的钢轨伤损分类装置的技术方案，具有如下有益效果：

(1)本发明钢轨伤损分类装置，通过将图像处理算法应用于钢轨内部伤损识别领域，并且该算法区别于图像匹配，既不是简单地与已知类别的伤损模板进行相似度比较，也不是根据固定的规则进行伤损判断，能够囊括所有的钢轨伤损类型，对于伤损的识别准确率大幅提升，同时响应时间短、效率高；

(2)本发明钢轨伤损分类装置，采用Tamura纹理特征提取+局部二值特征提取的方法提取伤损图库中伤损图像的特征值用于分类器的训练，能够更加全面地提取钢轨伤损图像的特征，从而实现更加良好、准确的分类；

(3)本发明钢轨伤损分类装置，采用基于伤损特征训练出的分类器具有针对性与变化性，可根据提供的训练集不同而不断进行学习训练，从而找到适合当前训练集的最优分类器；

(4)本发明钢轨伤损分类装置，采用训练样本集和测试样本集交叉训练和验证，能够消除人为选择样本集的主观性，通过将普通检测作业中已复核的伤损和专家判伤经验添加进来，逐渐形成基于大数据的伤损图库，以此训练分类器，从而可以获得更为理想的分类检测率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的实施例。

图1是现有技术由钢轨探伤设备采集到的一种B型显示伤损图像示意图；

图2是现有技术由钢轨探伤设备采集到的另一种B型显示伤损图像示意图；

图3是本发明钢轨伤损分类装置一种具体实施例的系统结构框图；

图4是本发明钢轨伤损分类装置另一种具体实施例的系统结构框图；

图5是本发明钢轨伤损分类装置一种具体实施例中通过局部二值模式进行特征提取几种不同P和R值对应的圆环形邻域示意图；

图6是本发明钢轨伤损分类装置一种具体实施例中伤损分类模块划分最优分类超平面的示意图；

图7是基于本发明装置的钢轨伤损分类方法一种具体实施例的程序流程图；

图8是基于本发明装置的钢轨伤损分类方法另一种具体实施例的程序流程图；

图9是基于本发明装置的钢轨伤损分类方法一种具体实施例中五类典型伤损图像的示意图；

图10是本发明钢轨伤损分类装置一种具体实施例中伤损图库的Tamura纹理特征图像；

图11是本发明钢轨伤损分类装置一种具体实施例中伤损图库的部分特征图像；

图12是本发明钢轨伤损分类装置一种具体实施例中伤损分类模块分类结果的示意图；

图13是现有技术由钢轨探伤设备对实际线路进行识别的结果示意图；

图14是现有技术另一由钢轨探伤设备对实际线路进行识别的结果示意图；

图15是一种实施例中利用本发明钢轨伤损分类装置进行伤损预测的结果界面示意图；

图中：1-伤损图库建立模块，2-特征提取模块，3-伤损分类模块，4-分类结果显示模块，5-数据归一化模块，6-数据降维处理模块，21-Tamura纹理特征提取模块，22-局部二值特征提取模块。

具体实施方式

为了引用和清楚起见，将下文中使用的技术名词、简写或缩写记载如下：

PCA：Principal Components Analysis，主成分分析的简称；

SVM：SupportVector Machine，支持向量机的简称；

RBF：Radial Basis Function，径向基的简称。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如附图3至12，及附图15所示，给出了本发明钢轨伤损分类装置的具体实施例，下面结合附图和具体实施例对本发明作进一步说明。

实施例1

如附图3所示，一种本发明钢轨伤损分类装置的实施例，具体包括：伤损图库建立模块1、特征提取模块2、伤损分类模块3及分类结果显示模块4。

伤损图库建立模块1基于标定的伤损图像数据创建伤损图库。

特征提取模块2提取伤损图库中伤损图像的特征值并组成特征向量。

伤损分类模块3对每类伤损图像的特征向量进行训练，得到伤损图像的最优分类函数，并将未经训练的伤损图像的特征向量输入最优分类函数进行测试。

分类结果显示模块4对伤损图像的分类测试结果进行可视化输出。

如附图4所示，钢轨伤损分类装置还进一步包括设置于特征提取模块2与伤损分类模块3之间的数据归一化模块5，数据归一化模块5将伤损图像的特征向量归一化至[0，1]区间。钢轨伤损分类装置还包括设置于数据归一化模块5与伤损分类模块3之间的数据降维处理模块6，数据降维处理模块6将经过归一化处理后的伤损图像的特征向量进行PCA降维处理，降维处理后的特征向量用于输出至伤损分类模块3进行训练。

输入至伤损分类模块3的伤损图像的特征向量被划分为训练样本集和测试样本集。训练样本集和测试样本集的划分过程可以在数据归一化和数据降维处理之前，也可以在数据归一化和数据降维处理之后。伤损分类模块3采用支持向量机作为分类器对训练样本集中每类伤损图像的特征向量进行训练，并利用未训练过的伤损图像的特征向量作为测试样本集来检验分类器训练后的模型性能。

伤损图库建立模块1针对钢轨伤损的具体类型，在标定的伤损图像数据中选取伤损图像，并形成伤损图库。训练样本集中伤损图像的特征向量具有钢轨伤损类型标签。测试样本集中伤损图像的特征向量不具有钢轨伤损类型标签，但钢轨伤损类型为人工已知。

伤损分类模块3从每类伤损图像中各随机选取一部分作为训练样本集进行训练，而余下部分的伤损图像作为测试样本集进行验证。当再次进行重复试验时，再从每类伤损图像中各随机选取一部分进行训练，而余下部分的伤损图像数据进行验证。如此进行若干次的交叉验证，每次试验相互独立，每次验证的训练样本集或测试样本集部分重合，以评估最优分类函数的预测性能。

伤损分类模块3根据输入的训练样本集、训练样本集标签，并设置惩罚参数和径向基核参数的变化范围以及步进大小，通过交叉验证和网格划分，得到交叉验证下训练样本集验证分类准确率最高的全局最优惩罚参数和最优径向基核参数。全局最优惩罚参数及最优径向基核参数根据以下公式计算：

K(x_i·x)＝exp[-(x_i-x)²/2σ1²]＝exp[-g(x_i-x)²]

伤损分类模块3的最优化分类函数根据以下公式计算：

测试样本集输入伤损分类模块3的最优化分类函数后，得到预测的测试样本集标签，该测试样本集标签输出至分类结果显示模块4与人工已知标签形成可视化的对比结果，以此判断分类结果是否准确。作为本发明一种较佳的具体实施例，进行训练的伤损图像数量大于进行验证的伤损图像数量。

特征提取模块2包括Tamura纹理特征提取模块21和局部二值特征提取模块22，并采用Tamura纹理特征与局部二值模式相结合的算法提取伤损图像的特征值。

Tamura纹理特征提取模块21根据以下公式提取伤损图像的粗糙度特征值F_crs：

式中，g(i′，j′)代表活动窗口中第(i′，j′)点的像素亮度值，通过k来确定活动窗口的范围，x′，y′)代表伤损图像中的某个像素点。

E_k，h代表该像素点的水平方向差值，E_k，v代表该像素点的垂直方向差值。对于每个像素点，选择合适的k值使E值最大，同时设置活动窗口的最佳尺寸S_best(x′，y′)＝2^k。

式中，m、n分别代表伤损图像的长和宽。

Tamura纹理特征提取模块21根据式4)提取伤损图像的对比度特征值F_con：

Tamura纹理特征提取模块21根据以下公式提取伤损图像的方向性特征值F_dir：

然后，构造用于表达θ值的直方图H_D：

Tamura纹理特征提取模块21根据以下公式提取伤损图像的线像度特征值F_lin：

式中，P_Dd代表n×n局部方向共生矩阵的距离点。

Tamura纹理特征提取模块21根据以下公式提取伤损图像的粗略度特征值F_rgh：

F_rgh＝F_crs+F_con 9)

局部二值特征提取模块22根据以下公式提取伤损图像的局部二值模式特征值：

本实施例提出的基于图像处理的钢轨伤损分类装置通过对训练样本集提取具有代表性的特征，并对特征进行训练，通过反复验证找到适合当前训练样本集的最优分类器，既没有简单地与已知类别的伤损模板进行相似度匹配，也没有根据固定的规则进行伤损判断，实现了变化性与灵活性的有机统一，大幅提高了对钢轨伤损分类的准确性和识别速度。

实施例2

如附图7所示，一种基于实施例1所述装置的钢轨伤损分类方法的实施例，具体包括以下步骤：

S101)基于标定的伤损图像数据创建伤损图库；

S102)提取伤损图库中伤损图像的特征值并组成特征向量；

S104)对每类伤损图像的特征向量进行训练，得到伤损图像的最优分类函数；

S105)将未经训练的伤损图像的特征向量输入最优分类函数进行测试；

S106)对伤损图像的分类测试结果进行可视化输出。

如附图8所示，钢轨伤损分类方法还进一步包括步骤S1031)，将伤损图像的特征向量划分为训练样本集和测试样本集。钢轨伤损分类方法还包括步骤S1032)，通过该步骤将伤损图像的特征向量归一化至[0，1]区间。具体说就是将训练样本集特征向量和测试样本集特征向量归一化至[0，1]区间，分别得到train_rail数据集和test_rail数据集。归一化就是把需要处理的数据经过算法处理后限制在需要的一定范围内。通过归一化处理不仅方便了后续数据的处理，还充分保证了算法运行时的加快收敛。

钢轨伤损分类方法还进一步包括步骤S1033)，通过该步骤将经过归一化处理后的伤损图像的特征向量进行PCA降维处理，降维处理后的特征向量用于训练。具体地说，就是将train_rail数据集和test_rail数据集输入至pcaforSVM降维预处理函数中，得到PCA降维预处理后的训练样本集train_pca和测试样本集test_pca。经过降维处理后的数据可以实现对原始数据90％的解释程度。在此需要特别说明的是，步骤S1031)的训练样本集和测试样本集划分过程也可以在步骤S1032)归一化处理和步骤S1033)PCA降维处理之后进行。

在步骤S101)中，针对钢轨伤损的具体类型，在标定的伤损图像数据中选取伤损图像，并形成伤损图库。训练样本集中伤损图像的特征向量具有钢轨伤损类型标签。测试样本集中伤损图像的特征向量不具有钢轨伤损类型标签，但钢轨伤损类型为人工已知。

在步骤S102)中，通过Tamura纹理特征与局部二值模式相结合的算法提取伤损图像的特征值。

特征提取即从图像中提取有用的数据或信息，得到图像的非图像表示或描述，如数值、向量和符号等。提取出来的非图像表示或描述即为特征。本实施例采用Tamura纹理特征和局部二值模式提取特征，能够提取到区别不同类别最为重要的特征，而舍去对分类并无多大贡献的特征。

Tamura纹理特征：Tamura纹理特征有六种基本属性，分别为：粗糙度、对比度、方向性、线像度、规整度和粗略度。这六种基本属性的计算如下：

粗糙度特征值提取：首先，计算伤损图像中大小为2^k×2^k像素的活动窗口中像素的平均亮度值，如式(1)所示：

式(1)中，g(i′，j′)代表活动窗口中第(i′，j′)点的像素亮度值，通过k来确定活动窗口的范围，(x′，y′)代表伤损图像中的某个像素点。

然后，分别计算每个像素在水平和垂直方向上互不重叠的活动窗口之间的平均亮度差，如式(2)所示：

E_k，h代表该像素点的水平方向差值，E_k，v代表该像素点的垂直方向差值。对于每个像素点，选择合适的k值使E值最大，同时设置窗口的最佳尺寸S_best(x′，y′)＝2^k。

最后，通过计算整幅图像中的平均值就可以得到伤损图像的粗糙度F_crs：

式(3)中，m、n分别表示伤损图像的长和宽。

对比度特征值提取：其通过对像素强度分布情况的统计而获得。其计算如式(4)所示：

式(4)中，σ代表伤损图像灰度值的标准方差，μ₄代表四次矩，σ²代表伤损图像灰度值的方差。

方向性特征值提取：首先，计算每个像素处的梯度向量，根据式5)计算该向量的模|ΔG|和方向角θ。

式(5)中，Δ_H和Δ_V分别为伤损图像与两个Prewitt算子卷积得到的水平和垂直方向上的变化量，arctan()代表反正切函数，π代表圆周率。

然后，构造用于表达θ值的直方图H_D：

式(6)中，H_θ(k)代表当|ΔG|≥T，(2k-1)π/2n≤θ≤(2k+１)π/2n时像素的数量，T代表设定的阈值，n代表方向角度的量化等级。

式(7)中，p代表直方图H_D中的峰值，n_p代表直方图中峰值的数量，对于某个峰值p，ω_p代表该峰值包含的量化值范围，φ_p是ω_p中具有最大直方图值的量化数值。

线像度特征值提取：其计算如下：

式(8)中，P_Dd代表n×n局部方向共生矩阵的距离点。

规整度特征值提取：由于图像纹理特征具有不规律性，因此把整个图像分区成多个子图像并计算每个子图像的方差。本实施例综合分区子图像的4个特性来衡量纹理的规整度。

F_reg＝1-r(σ_crs+σ_con+σ_dir+σ_lin) (9)

式(9)中，σ_xxx表示F_xxx的标准差，r表示归一化因子。

粗略度特征值提取：其计算如下：

F_rgｈ＝F_crs+F_con (10)

在本实施例中，选取Tamura纹理特征中的五种基本属性(不提取规整度特征)。

局部二值模式特征提取：根据中心像素的灰度值对其邻域像素的灰度值进行局部阈值化来形成一个二值模式，从而作为中心像素的响应。本实施例采用任意半径的圆环形邻域而非传统的3×3邻域。

在伤损灰度图像中，定义一个半径为R(R＞0)的圆环形邻域，P(P＞0)个邻域像素均匀分布在圆周上，如附图5所示。在附图5中，没有落在像素中心邻域上的灰度值可通过双线性插值得出。设邻域的局部纹理特征为T0，则T0可以用该邻域中P+1个像素的函数来定义，即：

T0＝t(g_c，g₀，…，g_P-1) (11)

式(11)中，g_c是该邻域的中心像素灰度值。g_q(q＝0，1，...，P-1)对应P个等距离分布于以中心像素为圆心，半径为R的圆周上的像素点的灰度值。

将中心像素点的灰度值g_c作为阈值，对其邻域像素点的灰度值进行二值化，如式(12)和式(13)所示，其中s(x)代表一个符号函数：

T0≈t(s(g₀-g_c)，...，s(g_P-1-g_c)) (12)

对得到的P位二进制数进行不同位置的加权求和，即可得到表征局部纹理特征的LBP值：

经过阈值计算后的无符号二进制数由于选取的初始位和方向不同，会产生2^P种模式的LBP_PR。并且随着邻域取样点个数的增加，二值模式的种类也会急剧增加。为解决此问题以及消除图像旋转产生的影响，本实施例提出统一模式与旋转不变的LBP描述方式：

式(15)中，上标riu2表示使用了旋转不变统一模式，ROR(LBP_P，R，q)表示将LBP_P，R循环右移q位。

在步骤S104)中，采用支持向量机作为分类器对训练样本集中每类伤损图像的特征向量进行训练，并利用未训练过的伤损图像的特征向量作为测试样本集来检验分类器训练后的模型性能。更具体地，从每类伤损图像中各随机选取一部分作为训练样本集进行训练，而余下部分的伤损图像作为测试样本集进行验证。当再次进行重复试验时，再从每类伤损图像中各随机选取一部分进行训练，而余下部分的伤损图像数据进行验证。如此进行若干次的交叉验证，每次试验相互独立，每次验证的训练样本集或测试样本集部分重合，以评估最优分类函数的预测性能。

将测试样本集输入最优化分类函数后，得到预测的测试样本集标签，通过将该测试样本集标签与人工已知标签形成可视化的对比结果，以此判断分类结果是否准确。作为本发明一种较佳的具体实施例，进行训练的伤损图像数量大于进行验证的伤损图像数量。

提取特征后，采用支持向量机(SupportVector Machine，SVM)作为分类器进行分类。SVM属于监督学习模型，其将向量映射到一个更高维的空间中，在这个空间里建立一个最大间隔超平面来分开数据，并在超平面的两侧建立两个互相平行的超平面，若使两个平行超平面的距离最大化，则此时对应于最小距离值的向量称为支持向量。平行超平面间的距离越大，分类器的总误差越小。

SVM的主要思想是建立一个N维超平面作为决策曲面，使得正负样本集之间的分类间隔被最大化。对于二维线性可分情况，假设大小为l的训练样本集{(x_i，yi)，i＝1，2，...，l}由两类组成，若x_i∈R(^N)属于第1类，则标记为正(y_i＝1)。若属于第2类，则标记为负(y_i＝-1)。学习的目标即构造一个分类函数，使测试数据尽可能正确地分类。

其中，x表示一幅图像的特征向量，y表示类别标签，i表示图像的数量。如：选取200幅图像的特征向量进行训练，就是由五种伤损类型组成大小为l＝200的训练样本集(x_i，y_i)，i＝1，2，...，200}，0～40是同一类伤损，41～80又是另一类伤损。x₁表示第一幅图像的特征向量，即205个特征，y₁表示x₁属于五种伤损类型中的哪一类，x_i为205*1的列向量。

若存在分类超平面：

ω·x+b＝0 (16)

使得：

则称训练集是线性可分的，ω·x表示向量ω∈R^(N)与x∈R^(N)的内积。式(17)中，ω和b都进行了规范化，使每类样本集中与分类超平面距离最近的数据点满足式(16)。

若训练样本集没有被超平面错误分开，且距超平面最近的样本集数据与超平面之间的间距最大，则该超平面为最优分类超平面，如附图6所示。

假设x₁为第1类的支持向量，x₂为第2类的支持向量，即：

则超平面间隔为：

联立式(18)和式(19)可得：

若求平行超平面的最大间隔，即求在满足式(17)的条件下式(20)的最大值，即||ω||的最小值，也就是(目标函数)，利用拉格朗日乘子法将目标函数转换为：

式(21)中，ω^Tω＝||ω||²，a_i为拉格朗日算子且a_i≥0。对ω和b求偏导数，由此可得：

将式(22)与式(23)代入式(21)得：

由式(24)可看出，此时拉格朗日目标函数只包含了变量a_i，因此只要通过最大化式(24)求出a_i，便能求出ω，b的解，也就可得出最优化分类函数为：

式(25)中，sgn(x)代表符号函数，l为训练样本集总数，i为训练样本集编号，y_i为伤损图像的类别标签，a_i为拉格朗日算子，·代表点积，b为偏移向量。

当训练集线性不可分时，核函数K(x_i·x)通过与其相联系的非线性变换将训练样本集特征向量映射至高维特征空间，使训练样本集成为线性可分的。

本实施例采用径向基(Radial Basis Function，RBF)核函数：

K(x_i·x)＝exp[-(x_i-x)²/2σ₁ ²]＝exp[-g(x_i-x)²] (26)

式(26)中，x_i和x为伤损图像的特征向量，K(x_i·x)为RBF核函数，σ₁、g为RBF核参数，exp代表以自然常数e为底的指数函数。σ₁越小，分的类别会越细，也就是说越容易导致过拟合。σ₁越大，分的类别会越粗，导致无法将数据区分开来。g越大，支持向量越少。g越小，支持向量越多。支持向量的个数影响训练与预测的速度。

同时，加入松弛变量§_i(§_i≥0)，松弛变量§_i表示允许数据点x_i偏离的量。若§_i任意大的话，则任意的超平面都符合条件，因此，在原来的目标函数上加上一项，使得这些§_i的总和也要最小：

式(27)中，min代表最小化，ω为系数向量，l为训练样本集总数，i为训练样本集编号，§_i为松弛变量。C为惩罚参数，用于控制二者(在目标函数中寻找超平面间隔最大和保证数据点偏差量最小)之间的权重。C越大，说明越不能容忍出现误差，容易过拟合。C越小，容易欠拟合。C过大或过小，泛化能力会变差。

同样，利用拉格朗日乘子法将式(27)转换为：

式(28)中，r_i为新加入的拉格朗日乘子。

对ω、b和§_i求偏导，得到：

将式(29)、式(30)和式(31)代入式(28)得：

因此，只要通过最大化式(32)便能求出a_i，最终得到的最优化分类函数为：

式(33)中，y_i为伤损图像的类别标签，a_i为拉格朗日算子，b为偏移向量，sgn(x)代表符号函数，K(x_i·x)代表径向基核函数。

3)以训练集线性不可分的情况为例，伤损图像分类模型的实现主要包括以下步骤：

1)参数寻优：输入训练集train_pca、训练集标签train_rail_labels、设置惩罚参数C(相关公式：)和RBF核参数g(相关公式：K(x_i·x)＝

exp[-(x_i-x)²/2σ₁ ²]

＝exp[-g(x_i-x)²])的变化范围以及步进大小，通过交叉验证和网格划分，得到交叉验证意义下训练样本集验证分类准确率最高的全局最优惩罚参数C和最优RBF核参数g。

2)SVM训练：输入训练集train_pca、训练集标签train_rail_labels以及最优的惩罚参数C和RBF核参数g，用最优的参数C和g训练数据得到模型(即最优化分类函数)(相关公式：

3)SVM预测：将测试集test_pca输入训练模型，得到预测的测试集标签ptest_label，将其与已知标签test_rail_labels形成可视化的对比结果，以此判断是否分类准确。

SVM分类器的分类流程如附7和附图8所示。在附图7和附图8中，训练样本集表示具有明确标签，可用于开发分类器的特征向量集。测试样本集表示无明确标签，在训练阶段尚未使用，用于验证分类器预测其分类准确性的特征向量集。需注意的是，测试样本集的标签是人工已知的。

分类器训练的过程即为学习的过程，若分类器发现当前采用的分类函数会造成分类错误，那么利用错误提供应该如何纠正的信息，就可以使分类函数朝正确的方向前进，如此往复形成迭代的过程，若分类函数及其参数使得出错的情况越来越少，则说明分类函数在逐渐收敛，学习过程有成效。

分类器预测的过程即为验证的过程，若SVM分类器将测试集按照人工已知的类别分类完成的话，则说明达到预期效果。一旦根据分类准确率确定模型是可靠的，就可以采用该模型进行实际线路的钢轨伤损分类预测。

实施例3

本实施例结合上述实施例1和2对本发明钢轨伤损分类装置的具体应用过程和实施效果进行详细分析。

在钢轨的多类伤损中选取五类典型的伤损进行算法验证，分别为轨头斜孔、轨头横孔、螺孔左下裂纹、轨腰通孔、轨底月牙伤，如附图9所示。针对每类伤损，在标定数据中各截取50张大小为512像素×512像素的图像，从而组成一个总数为250张图像的伤损图库。为便于试验，A(1～50)、B(51～100)、C(101～150)、D(151～200)、E(201～250)类依次表示附图6中从左至右的五类伤损图像。

采用Tamura纹理特征与相结合的算法提取五类伤损图像的特征值，根据实际试验结果，本实施例只选取Tamura纹理特征中的五种基本属性(不提取规整度属性)，采用特征提取算法提取250幅图像的特征值，每幅图像提取了205个特征组成一个特征向量，附图10和附图11展示了250幅图像的205个特征向量中的前8个特征值。其中，附图10是Tamura纹理特征，附图11是特征。从附图10和附图11所示的两种特征属性值规律发现，的属性值存在着较强的规律性，其中C、D、E这三类伤损的属性值比较接近，不易区分。而Tamura纹理特征的五个属性值表现出来的差异都很明显，很好地弥补了特征的不足，定性地说明了本发明实施例采用二者相结合的方法能更好地提取图像的特征。

依据交叉验证规律，随机选取每类伤损特征中的80％用于训练(40张图像的特征向量)，20％用于测试(10张图像的特征向量)。多次重复试验，取交叉验证的平均值作为最终的分类结果，能够排除人为选择的主观性。如下表1、表2和表3所示，分别展示了采用Tamura纹理特征、采用特征以及采用二者相结合的特征进行7次交叉验证的SVM分类结果。表1-表3中，每次交叉验证的结果取均值即可得到最终分类结果的准确率，将7次分类结果的准确率取均值即可得到最终的总分类结果准确率。由总分类结果的准确率可知，分类效果最好的是采用Tamura纹理特征和相结合的特征进行的SVM分类的实施例，可达99.71％的分类准确率。而单独采用Tamura纹理特征或特征进行分类的效果都不如前者，定量地说明了采用二者相结合的方法能更全面地提取图像的特征，从而实现良好分类。

表1 Tamura纹理特征的分类结果

表2的分类结果

表3 Tamura纹理特征与相结合的分类结果

如附图12所示，展示了某一次交叉验证后SVM分类器的预测结果，其中，横坐标表示由50张图像的特征向量组成的测试样本集，1-10、11-20、21-30、31-40、41-50分别表示从A、B、C、D、E类伤损图像的特征向量中随机选取的10张图像的特征向量。纵坐标表示测试集属于A或B或C或D或E类。圆圈标识表示人工已知的类别标签。*型标识表示学习后的SVM分类器对测试集类别的预测结果。由附图12可知，A类伤损图像中有一幅被分类器错分为B类伤损，分类准确率为90％。B-E类伤损分类结果准确，分类准确率为100％。因此，可得此次的交叉验证分类结果为98％。

将以标定线的伤损特征向量为训练样本集训练后的SVM分类器预测实际线路的伤损分类，实际线路的伤损信息如附图13和附图14所示。采用附图13和附图14两个实例来验证分类器预测的准确性，结果如附图15所示。在附图15中，分类器预测的类别标签与实际的伤损类型吻合，说明分类器也能够成功预测实际线路的伤损分类。

本发明具体实施例提出了基于图像处理的钢轨伤损分类装置，该装置具有自主学习能力，不会根据固定的规则实现伤损分类，分类结果的好坏依赖于给定的训练集和所选的分类器分类模型。因此，通过选择恰当的特征提取算法和分类模型便能实现较好的分类准确率。而本发明具体实施例采用Tamura纹理特征与局部二值模式相结合的算法提取伤损图像的特征值，并采用SVM进行模型训练和分类识别，训练样本集和测试样本集交叉训练和验证消除人为主观干扰。本发明具体实施例描述的钢轨伤损分类装置打破了钢轨探伤车常规的伤损识别算法，提出了基于图像处理的钢轨伤损分类算法，通过试验结果表明，本发明具体实施例描述的技术方案在伤损图像分类方面实现了较高的分类准确率，为钢轨探伤领域提供了新的研究方向。。

专业人员还可以进一步意识到，结合本发明具体实施例中所公开的实施例描述的各示例的单元及步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。至于这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法可以直接采用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、各种可编程逻辑器件、寄存器、硬盘、可移动磁盘、CD-ROM、或本技术领域内所公知的任意其它形式的存储介质中。执行软件模块的处理器可以是中央处理器(CPU)、嵌入式处理器、微控制器(MCU)、数字信号处理器(DSP)、单片机、片上系统(SOC)、可编程逻辑器件，以及本技术领域内所公知的任意其它形式具有控制、处理功能的器件。

通过实施本发明具体实施例描述的钢轨伤损分类装置的技术方案，能够产生如下技术效果：

(1)本发明具体实施例描述的钢轨伤损分类装置，通过将图像处理算法应用于钢轨内部伤损识别领域，并且该算法区别于图像匹配，既不是简单地与已知类别的伤损模板进行相似度比较，也不是根据固定的规则进行伤损判断，能够囊括所有的钢轨伤损类型，对于伤损的识别准确率大幅提升，同时响应时间短、效率高；

(2)本发明具体实施例描述的钢轨伤损分类装置，采用Tamura纹理特征提取+局部二值特征提取的方法提取伤损图库中伤损图像的特征值用于分类器的训练，能够更加全面地提取钢轨伤损图像的特征，从而实现更加良好、准确的分类；

(3)本发明具体实施例描述的钢轨伤损分类装置，采用基于伤损特征训练出的分类器具有针对性与变化性，可根据提供的训练集不同而不断进行学习训练，从而找到适合当前训练集的最优分类器；

(4)本发明具体实施例描述的钢轨伤损分类装置，采用训练样本集和测试样本集交叉训练和验证，能够消除人为选择样本集的主观性，通过将普通检测作业中已复核的伤损和专家判伤经验添加进来，逐渐形成基于大数据的伤损图库，以此训练分类器，从而可以获得更为理想的分类检测率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明的精神实质和技术方案的情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同替换、等效变化及修饰，均仍属于本发明技术方案保护的范围。

Claims

1.一种钢轨伤损分类装置，其特征在于，包括：伤损图库建立模块(1)、特征提取模块(2)、伤损分类模块(3)及分类结果显示模块(4)；所述伤损图库建立模块(1)基于标定的伤损图像数据创建伤损图库；所述特征提取模块(2)提取伤损图库中伤损图像的特征值并组成特征向量；所述伤损分类模块(3)对每类伤损图像的特征向量进行训练，得到伤损图像的最优分类函数，并将未经训练的伤损图像的特征向量输入最优分类函数进行测试；所述分类结果显示模块(4)对伤损图像的分类测试结果进行可视化输出。

2.根据权利要求1所述的钢轨伤损分类装置，其特征在于：所述装置还包括设置于所述特征提取模块(2)与伤损分类模块(3)之间的数据归一化模块(5)，所述数据归一化模块(5)将伤损图像的特征向量归一化至[0，1]区间。

3.根据权利要求2所述的钢轨伤损分类装置，其特征在于：所述装置还包括设置于所述数据归一化模块(5)与伤损分类模块(3)之间的数据降维处理模块(6)，所述数据降维处理模块(6)将经过归一化处理后的伤损图像的特征向量进行PCA降维处理，降维处理后的特征向量用于输出至所述伤损分类模块(3)进行训练。

4.根据权利要求3所述的钢轨伤损分类装置，其特征在于：输入至所述伤损分类模块(3)的伤损图像的特征向量被划分为训练样本集和测试样本集。

5.根据权利要求2、3或4所述的钢轨伤损分类装置，其特征在于：所述伤损分类模块(3)采用支持向量机作为分类器对训练样本集中每类伤损图像的特征向量进行训练，并利用未训练过的伤损图像的特征向量作为测试样本集来检验分类器训练后的模型性能。

6.根据权利要求5所述的钢轨伤损分类装置，其特征在于：所述伤损图库建立模块(1)针对钢轨伤损的具体类型，在标定的伤损图像数据中选取伤损图像，并形成伤损图库；所述训练样本集中伤损图像的特征向量具有钢轨伤损类型标签；所述测试样本集中伤损图像的特征向量不具有钢轨伤损类型标签，但钢轨伤损类型为人工已知。

7.根据权利要求2、3、4或6所述的钢轨伤损分类装置，其特征在于：所述伤损分类模块(3)从每类伤损图像中各随机选取一部分作为训练样本集进行训练，而余下部分的伤损图像作为测试样本集进行验证；当再次进行重复试验时，所述伤损分类模块(3)再从每类伤损图像中各随机选取一部分进行训练，而余下部分的伤损图像数据进行验证；如此进行若干次的交叉验证，每次试验相互独立，每次验证的训练样本集或测试样本集部分重合，以评估最优分类函数的预测性能。

8.根据权利要求7所述的钢轨伤损分类装置，其特征在于：进行训练的伤损图像数量大于进行验证的伤损图像数量。

9.根据权利要求2、3、4、6或8所述的钢轨伤损分类装置，其特征在于：测试样本集输入所述伤损分类模块(3)的最优化分类函数后，得到预测的测试样本集标签，该测试样本集标签输出至所述分类结果显示模块(4)与人工已知标签形成可视化的对比结果，以此判断分类结果是否准确。

10.根据权利要求9所述的钢轨伤损分类装置，其特征在于，所述伤损分类模块(3)根据输入的训练样本集、训练样本集标签，并设置惩罚参数和径向基核参数的变化范围以及步进大小，通过交叉验证和网格划分，得到交叉验证下训练样本集验证分类准确率最高的全局最优惩罚参数和最优径向基核参数；全局最优惩罚参数及最优径向基核参数根据以下公式计算：

K(x_i·x)＝exp[-(x_i-x)²/2σ₁ ²]＝exp[-g(x_i-x)²]

11.根据权利要求10所述的钢轨伤损分类装置，其特征在于，所述伤损分类模块(3)的最优化分类函数根据以下公式计算：

12.根据权利要求1、2、3、4、6、8、10或11所述的钢轨伤损分类装置，其特征在于：所述特征提取模块(2)包括Tamura纹理特征提取模块(21)和局部二值特征提取模块(22)，并采用Tamura纹理特征与局部二值模式相结合的算法提取伤损图像的特征值。

13.根据权利要求12所述的钢轨伤损分类装置，其特征在于，所述Tamura纹理特征提取模块(21)根据以下公式提取伤损图像的粗糙度特征值F_crs：

先根据式1)计算伤损图像中大小为2^k×2^k像素的活动窗口中像素的平均亮度值A_k(x′，y′)；

式中，g(i′，j′)代表活动窗口中第(i′，j′)点的像素亮度值，通过k来确定活动窗口的范围，(x′，y′)代表伤损图像中的某个像素点；

然后，根据式2)分别计算每个像素在水平和垂直方向上互不重叠的活动窗口之间的平均亮度差；

E_k，h代表该像素点的水平方向差值，E_k，v代表该像素点的垂直方向差值；对于每个像素点，选择合适的k值使E值最大，同时设置活动窗口的最佳尺寸S_best(x′，y′)＝2^k；

式中，m、n分别代表伤损图像的长和宽；所述Tamura纹理特征提取模块(21)根据式4)提取伤损图像的对比度特征值F_con：

式中，σ代表伤损图像灰度值的标准方差，μ₄代表四次矩，σ²代表伤损图像灰度值的方差；

所述Tamura纹理特征提取模块(21)根据以下公式提取伤损图像的方向性特征值F_dir：

首先，计算每个像素处的梯度向量，根据式5)计算该向量的模|ΔG|和方向角θ；

式中，Δ_H和Δ_V分别为伤损图像与两个Prewitt算子卷积得到的水平和垂直方向上的变化量，arctan()代表反正切函数，π代表圆周率；

然后，构造用于表达θ值的直方图H_D：

式中，H_θ(k)代表当|ΔG|≥T，(2k-1)π/2n≤θ≤(2k+1)π/2n时像素的数量，T代表设定的阈值，n代表方向角度的量化等级；

式中，p代表直方图H_D中的峰值，n_p代表直方图中峰值的数量，对于某个峰值p，ω_p代表该峰值包含的量化值范围，φ_p是ω_p中具有最大直方图值的量化数值；

所述Tamura纹理特征提取模块(21)根据以下公式提取伤损图像的线像度特征值F_lin：

式中，P_Dd代表n×n局部方向共生矩阵的距离点；

所述Tamura纹理特征提取模块(21)根据以下公式提取伤损图像的粗略度特征值F_rgh：

F_rgh＝F_crs+F_con 9)

14.根据权利要求12所述的钢轨伤损分类装置，其特征在于，所述局部二值特征提取模块(22)根据以下公式提取伤损图像的局部二值模式特征值：

式中，上标riu2代表使用旋转不变统一模式，ROR(LBP_P，R，q)代表将LBP_P，R循环右移q位，P为圆形邻域的数量，R为圆形的半径，U(LBP_P，R）为一致性测度，min代表最小化。