CN111160582B

CN111160582B - 设备故障识别方法、装置及计算机可读存储介质

Info

Publication number: CN111160582B
Application number: CN201911417331.4A
Authority: CN
Inventors: 陈海蛟; 陈涛; 张友国; 吴自成; 徐永圣; 王益涛; 高凤; 信传龙; 韩啸; 何潇颖
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-04-20
Anticipated expiration: 2039-12-31
Also published as: CN111160582A

Abstract

本申请公开了一种设备故障识别方法、装置及计算机可读存储介质，其中，设备故障识别方法包括：获取设备的故障率数据，故障率数据包括第一故障率数组及对应的时间数组；对故障率数据进行拟合得到第二故障率数组；利用时间数组及第二故障率数组绘制故障曲线；将故障曲线输入识别模型得到第一识别结果；至少利用第一识别结果获取故障曲线的最终分类结果。上述方案，能够准确且低成本地确定设备故障类型。

Description

设备故障识别方法、装置及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种设备故障识别方法、装置及计算机可读存储介质。

背景技术

随着信息技术的发展，大数据、人工智能等技术逐渐应用到工业界的各种业务中。而在各种业务中，由于在设备生命周期阶段设备故障的诊断分类对于设备维修、保护而言尤为重要，故确定设备故障类型成为工业界中广受关注的业务之一。

目前，对于设备故障类型的确定过多地依赖领域专家或维修人员的判断，通过人工分析设备故障率数据，依靠领域专家或维修人员的专业知识及相关经验，确定设备故障类型。然而，人工分析的方式不可避免地为设备故障类型确定带来主观不确定性，且成本较高。有鉴于此，如何准确且低成本地确定设备故障类型成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种设备故障识别方法、装置及计算机可读存储介质，能够准确且低成本地确定设备故障类型。

为了解决上述问题，本申请第一方面提供了一种设备故障识别方法，包括：获取设备的故障率数据，故障率数据包括第一故障率数组及对应的时间数组；对故障率数据进行拟合得到第二故障率数组；利用时间数组及第二故障率数组绘制故障曲线；将故障曲线输入识别模型得到第一识别结果；至少利用第一识别结果获取故障曲线的最终分类结果。

为了解决上述问题，本申请第二方面提供了一种设备故障识别装置，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的设备故障识别方法。

为了解决上述问题，本申请第三方面提供了一种计算机可读存储介质，存储有程序指令，程序指令被处理器执行时实现上述第一方面中的设备故障识别方法。

上述方案，通过对获取到的包括第一故障率数组及对应的时间数组的故障率数组进行拟合，得到第二故障率数组，并利用第二故障率数组和时间数组绘制故障曲线，从而能够将故障曲线输入识别模型进行识别，得到第一识别结果，进而能够至少利用第一识别结果获取故障曲线的最终分类结果，而无需再依赖于领域专家或维修人员的专业知识及相关经验，故能够降低成本，且由于能够排除人工分析的主观不确定性对于设备故障类型确定的影响，故能够有助于提高设备故障类型确定的准确性，从而能够准确且低成本地确定设备故障类型。

附图说明

图1是本申请设备故障识别方法一实施例的流程示意图；

图2是浴盆曲线BA一实施例的示意图；

图3是早期失效曲线EF一实施例的示意图；

图4是故障增加型曲线FI一实施例的示意图；

图5是先增后平曲线FITF一实施例的示意图；

图6是后期失效型曲线LF一实施例的示意图；

图7是随机曲线RA一实施例的示意图；

图8是图1中识别模型的训练方法一实施例的流程示意图；

图9是图8中步骤S82一实施例的流程示意图；

图10是本申请设备故障识别装置一实施例的框架示意图；

图11是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请设备故障识别方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取设备的故障率数据。

本实施例中，故障率数据包括第一故障率数组及对应的时间数组。在一个实施场景中，故障率数据可以包括设备在预设时间段内每天发生的故障率及其对应的时间，从而在预设时间段内对设备故障率进行持续采集，可以得到设备的第一故障率数组以及对应的时间数组。上述预设时间段可以与对应类型设备的生命周期平均值相匹配，例如，一个月、三个月、半年、一年等等。在一个实施场景中，设备故障可以统计的范畴可以包括设备故障和设备报废。

在一个实施场景中，为了提高后续故障类型确定的准确性，可以统计设备在多个时间范围内的故障数据，对应地，时间数组可以由多个时间范围组成，以30天为例，多个时间范围可以是1天内、2天内、3天内、……、30天内，则时间数组可以表示为arrayX＝[1,2,3,4,5,6,7……，28,29,30]，分别表示1天内、2天内、3天内、4天内、5天内、6天内、7天内……、28天内、29天内、30天内。在此基础上，可以利用故障数据计算设备在多个时间范围内的第三故障率，具体地，第三故障率可以通过下式计算得到：

上式中，C表示时间范围Δt内统计得到的某类型设备故障和报废的数量总和，N表示该类型设备总量，在一个实施场景中，为了能够准确地表示故障率，在固定周期内N保持不变。

仍以30天为例，通过上式，可以求得对应时间范围内的第三故障率，可以表示为：λ(1),λ(2),λ(3),λ(4),λ(5),λ(6),λ(7),……λ(28),λ(29),λ(30)，分别表示1天内的第三故障率、2天内的第三故障率、3天内的第三故障率、4天内的第三故障率、5天内的第三故障率、6天内的第三故障率、7天内的第三故障率、……、28天内的第三故障率、29天内的第三故障率、30天内的第三故障率。

在得到第三故障率之后，可以利用时间范围及第三故障率获取故障率数据，其中故障率数据中的时间数组即由多个时间范围组成，而第一故障率数组中的每个元素可以为时间数组中对应位置的时间范围内的第三故障率。仍以30天为例，1天内的第一故障率可以是1天内的第三故障率、2天内的第一故障率可以是2天内的第三故障率，以此类推，在此不再一一举例。或者，在一个实施场景中，为了保证数据的完整性和不确定性，还可以在通过上述公式得到的第三故障率的基础上再赋值随机数r_i得到第一故障率，即第一故障率数组中的每个元素还可以为时间数组中对应位置的时间范围内的第三故障率与随机数的乘积，也就是将

作为第一故障率。仍以30天为例，1天内的第一故障率可以是1天内的第三故障率与随机数r₁的乘积，2天捏的第一故障率可以是2天内的第三故障率与随机数r₂的乘积，以此类推，在此不再一一举例。在一个具体的实施场景中，为了提高确定设备故障类型的自动化程度，可以采用编程语言(如，java、C、C++等等)编写计算机程序，以通过计算机程序自动执行，在此情况下，可以基于所采用的编程语言，采用编程语言的程序库中内置的随机函数来生成对应的随机数，例如，当采用java时，可以采用Math.random()来生成随机数，其他编程语言可以以此类推，在此不再一一举例。

在一个实施场景中，当应用于建筑领域时，上述设备可以是指建筑设备，例如，电梯、闸机、中央空调等等；或者当应用于物流领域时，上述设备可以是指物流设备，例如，龙门吊、叉车等等，当应用于其他领域时，可以以此类推，本实施例在此不再一一举例。在一个具体的实施场景中，当需要确定小区内的电梯的故障类型时，可以获取电梯的故障率数据；或者，当需要确定写字楼的中央空调的故障类型时，可以获取中央空调的故障率数据，其他应用场景可以以此类推，在此不再一一举例。

步骤S12：对故障率数据进行拟合得到第二故障率数组。

本实施例中，为了通过故障率数据绘制得到故障曲线，可以进一步对故障率数据进行拟合，具体地，为了使后续拟合得到的曲线与原始数据之间的误差尽可能地小，可以对故障率数据进行多项式拟合得到多项式系数，再利用多项式系数及时间数组计算得到第二故障率数组。上述多项式可以包括但不限于一次多项式、二次多项式、三次多项式、四次多项式。在一个具体的实施场景中，为了提高自动化程度，可以采用计算机程序对故障率数据进行拟合，例如，可以采用matlab对故障率数据进行拟合，具体地，可以采用下述函数进行多项式拟合：

a＝ployfit(arrayX,arrayY,n)

上式中，n表示多项式的最高阶数，arrayX、arrayY分别表示故障率数据所包含的时间数组以及第一故障率数组，a表示拟合得到的多项式系数。例如，对于多项式y＝a₁xⁿ+…+a_nx+a中共n+1个系数。

在此基础上，通过下述函数可以获得拟合得到的第二故障率数组：

metaY＝ployval(a,arrayX,m)

上式中，a表示拟合得到的多项式系数，即上式ployfit函数的输出，arrayX表示时间数组，m表示多项式次数，例如，m＝1表示一次多项式，m＝2表示二次多项式，以此类推，在此不再一一举例。

当采用诸如C、C++、java等其他编程语言时，可以以此类推，采用与matlab中的ployfit、ployval功能相同的函数，或者用户也可以自定义与其功能相同的函数，在此不做限定。

在一个具体的实施场景中，具体可以对故障率数据进行四次多项式拟合得到四次多项式系数，从而利用四次多项式系数及时间数组计算得到第二故障率数组，通过将多项式设置为四次多项式能够拟合尽可能多种的故障曲线。

步骤S13：利用时间数组及第二故障率数组绘制故障曲线。

本实施例中，可以利用时间数组以及上述拟合得到的第二故障率数组绘制故障曲线。在一个具体的实施场景中，为了提高自动化程度，可以采用计算机程序进行曲线绘制，例如，可以采用python绘图库中的matplotlib绘制故障曲线，由于在利用计算机绘制故障曲线的过程中，因每步绘图与绘图点数呈线性相关的趋势，且随着点数的增加，时间消耗也随之越来越多，故可以在绘制得到故障曲线之后，将故障曲线进行保存，并在每次绘制前，采用plt.cla()函数清除之前绘制的故障曲线。

步骤S14：将故障曲线输入识别模型得到第一识别结果。

在一个实施场景中，为了使识别结果尽可能地准确，识别模型可以是利用获取到的多个训练样本训练原始的识别模型而得到，且每个训练样本包括一组训练故障率数据及对应的故障曲线的真实分类结果。识别模型可以是神经网络模型，如VGG16等等，识别模型的训练方式在此暂不赘述。VGG中根据卷积核大小和卷积层数目的不同，分为A、A-LRN、B、C、D、E共6种配置，其中以D、E两种配置较为常用，分别称为VGG16和VGG19，其中，VGG16的网络结构具体可以参阅下表1：

表1 VGG16的网络结构

序号	网络层	序号	网络层
				1	卷积层(conv3-64)	14	最大池化层(maxpool)
2	卷积层(conv3-64)	15	卷积层(conv3-512)
				3	最大池化层(maxpool)	16	卷积层(conv3-512)
4	卷积层(conv3-128)	17	卷积层(conv3-512)
				5	卷积层(conv3-128)	18	最大池化层(maxpool)
6	最大池化层(maxpool)	19	全连接层(FC-4096)
				7	卷积层(conv3-256)	20	全连接层(FC-4096)
8	卷积层(conv3-256)	21	全连接层(FC-1000)
				9	卷积层(conv3-256)	22	Soft-max
10	最大池化层(maxpool)
				11	卷积层(conv3-512)
12	卷积层(conv3-512)
				13	卷积层(conv3-512)

如表1所示，VGG16包括13个卷积层，分别采用conv3-xxx表示，其中3代表卷积核的尺寸，xxx表示卷积层的通道数；VGG16还包括3个全连接层。VGG16的模型权重包括卷积核权重和全连接层权重。

在一个实施场景中，通过python绘图库中的matplotlib绘制故障曲线得到的故障曲线可以是数据格式在0～255范围内的BGR格式图像，为了使故障曲线更适于工业标准，以及便于后续交流之用，还可以将BGR图像转换为RGB图像之后，再将转换后的故障曲线的图像输入识别模型进行识别。在一个具体的实施场景中，为了提高自动化程度，可以采用颜色空间转换函数将BGR格式转换为RGB格式，在此不做限定。

在一个实施场景中，为了使输入的故障曲线匹配识别模型，可以将故障曲线的图像缩放至预设尺寸，预设尺寸可以与识别模型的输入尺寸匹配，例如，224*224，在此不做限定。

在一个实施场景中，为了使用户便于了解故障曲线所代表的故障的分类以及识别的可信度，第一识别结果可以包括至少一种预设类别及其置信度。在一个具体的实施场景中，预设类别可以包括不限于：浴盆曲线BA(Bathtub curve)、早期失效曲线EF(EarlyFailure curve)、故障增加型曲线FI(Failure Increasing curve)、先增后平曲线FITF(First Increase Then Flat)、后期失效型曲线LF(Later Failure curve)、随机曲线RA(Random curve)。

具体地，请结合参阅图2～图7。图2是浴盆曲线BA一实施例的示意图，如图2所示，浴盆曲线BA是一条在形态上类似浴盆的曲线，曲线首先向右下倾斜(类似于浴盆的一侧)，然后曲线趋于平坦(类似于浴盆的底部)，最后曲线变化向右上方倾斜(类似于浴盆的另一侧)。浴盆曲线所揭示的故障模式是设施设备中最常见的故障模式。请继续参阅图3，图3是早期失效曲线EF一实施例的示意图，如图3所示，早期失效曲线EF是一条向右下倾斜的曲线，或者逐渐向右下倾斜，演变成一条平直的直线。早期失效曲线EF开始时故障频率高，然后降到平均水平或随机水平。在实际实施过程中，许多电气设备或电元器件在最初的烧机试验阶段呈现出较高的故障率，然后故障频率特征呈随机故障曲线的趋势。请继续参阅图4，图4是故障增加型曲线FI一实施例的示意图，如图4所示，故障增加型曲线FI是一条向右上方倾斜的直线(或曲线)，故障概率随着时间或设备的使用而缓慢增加。在实际应用过程中，这类曲线特征反映的是直接发生磨损的设备。请继续参阅图5，图5是先增后平曲线FITF一实施例的示意图，如图5所示，先增后平曲线FITF是一条首先向右上方倾斜，然后趋于平坦的曲线。请继续参阅图6，图6是后期失效型曲线LF一实施例的示意图，如图5所示，后期失效型曲线LF是一条开始时平坦，过度到后期突然向右上方急剧倾斜的曲线。故障率在设备寿命之前是随机发生的，表现形式就是故障率比较稳定，在达到或者接近使用寿命，或者接近某个临界点时，故障率大大增加，在实际应用过程中，机械系统发生的故障率基本符合后期失效型曲线(又称死亡曲线)揭示的规律。请参阅图7，图7是随机曲线RA一实施例的示意图，如图7所示，随机曲线RA描述的是那些不发生磨损的设施设备的故障趋势，或者说相对于设施设备的生命周期而言，用户只是用相对较短的一段时间间隔而发生的故障频率现象。简单描述就是，与设备及其部件磨损无关的故障事件都呈现出随机故障曲线的特征。此外，随机曲线RA的表现形式不限于图7所示的平直线，还可以是略有波动但整体平稳的曲线，在此不做限定。

步骤S15：至少利用第一识别结果获取故障曲线的最终分类结果。

通过利用识别模型对故障曲线进行识别，能够得到故障曲线的第一识别结果。在一个实施场景中，为了使用户便于了解故障曲线所代表的故障的分类以及识别的可信度，第一识别结果可以包括至少一种预设类别及其置信度，此时可以选择置信度最高的预设类别作为最终分类结果。例如，当预设类别包括上述类别时，可以分别获取故障曲线属于浴盆曲线BA、早期失效曲线EF、故障增加型曲线FI、先增后平曲线FITF、后期失效型曲线LF、随机曲线RA的置信度，以选择其中置信度最高的作为故障曲线的最终分类结果。

本实施例中，为了进一步提高设备故障类型确定的准确性，还至少利用第一识别结果获取故障曲线的最终分类结果。例如，可以分别在故障曲线的前段、中段和后段取至少一个数值，通过分析这些数值之间的大小关系，结合第一识别结果，确定故障曲线的最终分类结果。

其中，在一个实施例中，可以结合上述识别模型识别得到的第一识别结果及第二识别结果获取故障曲线的分类结果，第一识别结果可以包括第一候选类别和第二候选类别，即第一识别结果包括上述预设类别中的至少两种，其中，第一候选类别为置信度最高的预设类别，第二候选类别为置信度次高的预设类别。此外，第二识别结果是利用第二故障率数组得到的，具体可以对第二故障率数组中指定位置的元素进行比较得到比较结果，并利用比较结果获取第二识别结果。在一个实施场景中，指定位置的元素可以包括首位元素(即第二故障率数组中的第一个元素)、中位元素(即第二故障率数组中间位置的元素)和末位元素(即第二故障率数组中的最后一个元素)，请结合参阅图3，若比较结果为首位元素大于中位元素，且中位元素大于或等于末位元素，则第二识别结果为早期失效曲线EF；请结合参阅图6，若比较结果为首位元素小于或等于中位元素，且中位元素小于末位元素，则第二识别结果为后期失效型曲线LF；请结合参阅图2，若比较结果为首位元素大于中位元素，且中位元素小于末位元素，则第二识别结果为浴盆曲线BA，除此之外，在其他情况下，第二识别结果为无法识别。

在第一候选类别、第二候选类别以及第二识别结果的基础上，具体可以通过下述方式结合第一识别结果及第二识别结果获取故障曲线的分类结果：

若第一候选类别为浴盆曲线BA、早期失效曲线EF和后期失效型曲线LF中的一种，第二识别结果为无法识别或与第一候选类别相同，则说明两次识别结果(第一候选类别和第二识别结果)相同，或第二次识别无效，则可以确定故障曲线的分类结果为第一候选类别；

若第一候选类别和第二识别结果均为浴盆曲线BA、早期失效曲线EF和后期失效型曲线LF中的一种，且第二识别结果与第一候选类别不同，则由于第一次识别结果(第一候选类别)为容易识别错误的类别，且第二次识别结果又不同于第一次识别结果，则说明第一次识别(第一候选类别)有可能发生了错误，则可以确定故障曲线的分类结果为第二识别结果；

若第一候选类别为故障增加型曲线FI、先增后平曲线FITF和随机曲线RA中的一种，且第一候选类别的置信度大于第一阈值(例如，80％)，则说明第一次识别结果(第一候选类别)并非容易识别错误的类别，且置信度也较高，则可以确定故障曲线的分类结果为第一候选类别；

若第一候选类别为故障增加型曲线FI、先增后平曲线FITF和随机曲线RA中的一种，第一候选类别的置信度小于或等于第一阈值(例如，80％)，第二候选类别和第二识别结果均为浴盆曲线BA、早期失效曲线EF和后期失效型曲线LF中的一种，且第一候选类别的置信度大于第二阈值(例如，70％)，第一阈值大于第二阈值，则说明虽然第一候选类别并非是容易识别错误的类别，但其置信度较低，且第二候选类别和第二次识别结果虽然均为容易识别错误的类别，但置信度都较高，故可以确定故障曲线的分类结果为第二候选类别；

若第一候选类别为故障增加型曲线FI、先增后平曲线FITF和随机曲线RA中的一种，第一候选类别的置信度小于或等于第一阈值(例如，80％)，并且不满足以下条件的至少一个：a.第二候选类别和第二识别结果均为浴盆曲线BA、早期失效曲线EF和后期失效型曲线LF中的一种，b.第一候选类别的置信度大于第二阈值(例如，70％)，则由于第一候选类别虽然并非容易识别错误的类别，但其置信度较低，且第二候选类别和第二次识别结果均为容易识别错误的类别，和/或，置信度较低，故可以确定故障曲线的分类结果为无法识别。

在一个实施场景中，若通过上述步骤仍然无法识别故障曲线的分类，则可以对该故障曲线进行人工标识，并把包括人工标识结果的故障曲线加入到训练样本中继续优化训练识别模型，从而能够重新组织已有的知识结构，不断改善性能，进而能够提高识别模型的泛化能力，最终能够提高识别模型的识别精度。

区别于前述实施例，通过结合第一识别结果及第二识别结果获取故障曲线的分类结果，能够结合两次识别最终确定故障曲线的分类结果，从而能够进一步提高故障识别准确率。

其中，在一个实施例中，还可以基于故障曲线的分类结果，输出与分类结果对应的设备管理建议。例如，当故障曲线的分类结果是随机曲线RA时，可以建议管理者通过规范流程，提高管理效率，降低随机故障率，如制定目标，将随机故障率降低至0.5％或者更低；或者，当故障曲线的分类结果是早期失效曲线EF时，可以建议管理者在设备接管验收期间严格标准，留下缺陷档案和整改记录，在设备调试阶段需要由制造商或销售商进行质量保证，要求厂家在质量保证期内对大部分类似故障进行消除和整治，确保设备在1-2年的期限内，故障率下降到平稳水平；或者，当故障曲线的分类结果是故障增加型曲线FI时，可以建议管理者确定磨损部件，通常在其生命周期67％～75％时进行更换；或者，当故障曲线的分类结果是先增后平曲线FITF时，可以如随机曲线RA，建立管理者通过规范流程，提高管理效率，降低随机故障率，如可以制定目标，将随机故障率降低至0.5％或者更低；或者，当故障曲线的分类结果是后期失效型曲线LF时，可以及时建议管理者对这一类的设备重点关注，确定使用周期，及时更换部件，保证正常运行，比如电梯钢丝绳，当外层钢丝磨损达到其直径的40％时，钢丝应该报废，或者钢丝直径相对应公称直径减少7％时，即使未发现短丝，也要进行报废；或者，当故障曲线的识别结果是浴盆曲线BA时，其建议可以如后期失效型曲线LF，在此不再赘述。

区别于前述实施例，能够基于故障曲线的分类结果，输出与分类结果对应的设备管理建议，从而能够提升用户体验。

请参阅图8，图8是图1中识别模型的训练方法一实施例的流程示意图。具体而言，在将故障曲线输入识别模型得到第一识别结果之前，执行如下步骤以得到识别模型：

步骤S81：获取多个训练样本。

本实施例中，每个训练样本包括一组训练故障率数据及对应的故障曲线的真实分类结果。真实分类结果可以是通过人工标注得到的，例如，可以包括：浴盆曲线BA、早期失效曲线EF、故障增加型曲线FI、先增后平曲线FITF、后期失效型曲线LF、随机曲线RA。

在一个实施场景中，为了克服因设备领域缺少大量的标注数据而可能造成的训练不精确或过拟合等问题，可以按照故障曲线特征生成训练样本。具体可以通过下式离线计算得到多个时间范围内的故障率：

具体可以参阅前述实施例中的相关步骤，在此不再赘述。此外，为了保证数据的完整性和不确定性，上述公式中的

可以为符合既定规范计算比例(例如，0.1、0.2、0.3等)基础上再赋值随机函数，具体地，随机函数可以用Math.random()，最后还可以对离线生成的数据进行函数拟合，并绘制得到故障曲线，即为训练样本，具体可以参阅前述实施例中的相关步骤，在此不再赘述。

在另一个实施场景中，为了使识别模型尽可能地学习到真实故障曲线的特征，从而提升识别模型的准确性，还可以对设备的历史故障数据进行采样以得到训练样本。具体地，可以对每种已生产调试结束投入工业使用的设备，厂商交付设备前根据运行测试情况，给出设备普遍运行寿命规律，作为客户使用参考，结合上述公式计算时间周期Δt，按照时间周期划分采样数据集D＝{D₁,D₂,D₃,…,D_k,D_n}，并预设六类标签类型(即上述浴盆曲线BA、早期失效曲线EF、故障增加型曲线FI、先增后平曲线FITF、后期失效型曲线LF、随机曲线RA)，以便后续标注之用，此外，数据集中每个采集样本数量保持一致，如，D_k、D_n的样本数量可以均为m，其他采集样本可以以此类推，在此不再一一举例，则采样数据集的总样本数量为m*n。最后还可以对上述采集得到的数据进行函数拟合，并绘制得到故障曲线，即为训练样本。具体可以参考前述实施例中的相关步骤，在此不再赘述。

在又一个实施场景中，为了避免训练样本的片面性，训练样本一方面可以按照故障曲线特征生成，另一方面可以对设备的历史故障数据进行采集得到，从而混合两方面得到的训练样本。

在又一个实施场景中，每种类别可以准备500个训练样本，使用GPU(GraphicProcessing Unit，图形处理器)进行训练，在此不做限定。

步骤S82：利用训练样本对不同深度的预设模型进行微调训练，选择训练效果最好的微调后的预设模型作为第一模型。

不同深度的预设模型可以是截取预设网络模型不同深度的卷积层而得到的，预设网络模型可以是基于预设大数据集训练得到的。例如，预设网络模型可以是基于大数据集ImageNet训练得到的VGG16网络模型，VGG16网络模型经过ImageNet训练之后，其13个卷积层和3个全连接层的模型权重已进行调整，在此基础上，可以分别截取经训练的VGG16模型的第一层卷积层作为一种深度的预设模型，记为net₁，并截取第一层至第二层卷积层作为另一种深度的预设模型，记为net₂，并截取第一层至第三层卷积层作为又一种深度的预设模型，记为net₃，以此类推，最终可以得到不同深度的预设模型，记为[net₁,net₂,…,net_depth]，在截取时，可以保留经训练的VGG16网络模型中各个卷积层、全连接层中的模型权重。在对上述不同深度的预设模型进行训练时，选择训练效果最好的微调后的预设模型作为第一模型。

在一个实施场景中，为了客观地对训练效果进行评价，可以将用于评价训练效果的指标设置为准确率、接受者操作特征曲线下方面积(Area Under Receiver OperatingCharacteristic Curve，即ROC曲线下的面积)和损失函数中的至少一种。ROC曲线的机理是根据预测结果对样本进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，并分别以这两个重要量为横、纵坐标作图，这两个重要量分别是假正率(FalsePositive Rate，FPR)和真正率(True Positive Rate，TPR)，其中，假正率表示被预测为正的负样本，而真正率表示被预测为正的正样本。ROC曲线的具体获取过程在此不再赘述。此外，损失函数可以是二分类交叉熵损失函数，也可以是均方误差函数，在此不做限定。

步骤S83：利用第一模型对训练样本进行测试得到测试结果。

测试结果可以包括每个训练样本的识别概率，例如，90％、80％、70％等等。

步骤S84：利用测试结果对训练样本进行处理。

在一个实施场景中，为了进一步提高后续训练得到的识别模型的准确性，对训练样本的处理可以包括去除测试结果为错分的训练样本，具体地，可以去除识别概率小于90％的训练样本。

在一个实施场景中，为了避免过拟合，对训练样本的处理还可以包括添加新的训练样本；或者，还可以对所有训练样本进行数据增广，例如，旋转、平移等操作，在此不做限定。在一个具体的实施场景中，为了便于后续进一步训练，还可以将处理之后的训练样本划分为训练集、验证集和测试集。

步骤S85：利用处理后的训练样本对经过稀疏化的第一模型进行迁移学习训练得到识别模型。

对第一模型的模型权重进行分析，绝大多数模型权重集中在0附近，绝对值低于0.01的模型权重的数量占模型权重总数量的1/3以上，而90％以上的模型权重的绝对值都小于0.1。具体地，可以对第一模型的卷积层中的模型权重进行稀疏化，使得大多数接近于0的神经元连接置为0，将无用的模型权重设置为0，使得模型更加侧重于相对重要的模型权重，从而能够得到更好的泛化性能。在一个实施场景中，稀疏化参数可以参考L0范数，在此不再赘述。

迁移学习是一种机器学习方法，能够把为某一任务开发的模型作为初始点，重新使用在为另一任务开发模型的过程中。通过处理后的训练样本对第一模型进行迁移学习，迁移学习的具体过程在此不再赘述。

区别于前述实施例，通过获取到的多个训练样本对不同深度的预设模型进行微调训练，选择训练效果最好的微调后的预设模型作为第一模型，利用第一模型对训练样本进行测试得到测试结果，并利用测试结果对训练样本进行处理，从而利用处理后的训练样本对经稀疏化的第一模型进行迁移学习训练得到识别模型，能够在少量训练样本的基础上，快速达到训练效果，提升训练得到的识别模型识别故障曲线的准确性。

其中，在一个实施例中，在训练过程中，还可以按照识别模型的训练结果调整采样参数。在一个具体的实施场景中，可以根据设备故障率浴盆曲线设定设备生命周期阶段为磨合期、健壮期、衰退期三个阶段，设备处于磨合期或衰退期，容易发生故障，而设备处于健壮期时，设备运行状态较为平稳，故可以提高训练结果中故障曲线的磨合期和/或衰退期对应的时段的采样率，从而能够覆盖更多的设备故障类型，较大程度上提升小样本类别在训练样本中的占比。在另一个具体的实施场景中，还可以根据训练结果统计各个时间周期中准确识别的样本数量T＝{T₁,T₂,T₃,…,T_k,T_n}，并对各个时间周期的识别准确率进行计算

进而确定其中识别准确率最高的至少一个时间周期，并提高确定得到的至少一个时间周期的采样率，从而有利于提高识别模型的准确性。在又一个具体的实施场景中，还可以统计每种故障类型的样本所占的比例，从而提升训练结果中小概率样本(例如，FI、RA)识别准确率最高的至少一个时段的采样率，从而能够缓解小样本类型不均衡的问题。在又一个具体的实施场景中，为了提高自动化程度，还可以将上述采样调整的方式设计为脚本程序，从而在训练过程中，自动调整采样率。通过上述采样率的调整，整体上能够缓解样本偏倚问题，尽可能地确保全面、均衡地采样，提高识别模型的准确性。

其中，在另一个实施例中，还可以根据样本的预测结果，把所有样本按照故障类别进行筛选分类，识别正确的作为正样本，识别错误的作为负样本，在下次迭代训练时，混合正样本和负样本作为训练样本，从而能够增强模型识别的泛化能力。

请参阅图9，图9是图8中步骤S82一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S821：从多个不同深度的预设模型中选择两个。

以不同深度的预设模型包括[net₁,net₂,…,net_depth]为例，可以从其中选择不同深度的预设模型net_x和net_y。其中，在第一次训练时，x的初始值可以设置为1，y的初始值可以设置为2。

步骤S822：利用训练样本对两个不同深度的预设模型进行p次迭代微调训练得到2*p个中间模型。

每次迭代训练时，均会计算损失值，从而利用损失值对选择的两个预设模型的模型权重进行调整，从而对于其中一个预设模型，能够得到p个中间模型，而对于另一个预设模型而言，也能够得到p个中间模型，故一共能够得到2*p个中间模型。

仍以上述net_x和net_y为例，利用训练样本对这两个预设模型进行p次迭代微调训练，得到2*p个中间模型。

步骤S823：对每个中间模型的训练效果进行评估。

评估训练效果的具体指标可以参考前述实施例中的相关步骤，在此不再赘述。

步骤S824：保留训练效果最好的中间模型，并从剩余的未经微调的不同深度的预设模型中选择一个后跳转至迭代微调训练及其之后的步骤，直至迭代微调训练的总次数达到预设阈值。

仍以上述net_x和net_y为例，在上述2*p个中间模型中保留训练效果最好的中间模型，该中间模型具有net_x和net_y中任一者的网络层次，但是其模型权重已经经过训练调整，从而从剩余的未经微调的不同深度的预设模型中选择一个，具体地，可以按照网络深度的逐渐递增的顺序选择，从而可以在迭代微调训练过程中，不断加深网络的微调训练深度，从高层语义向低层语义逼近。在选择未经微调的预设模型之后，继续进行上述步骤S82的迭代微调训练及其之后的步骤，直至迭代微调训练的总次数达到预设阈值。例如，当x为1，y为2时，若保留的中间模型的深度与net₂一致，则可以保留该中间模型，并从[net₁,net₂,…,net_depth]中选择net_y+1，以继续和该保留的中间模型进行迭代微调，从而在预设阈值次迭代到达时，选择出训练效果最好的一个中间模型，将其保留。

本实施例中所指的“保留”不仅指保留网络结构，还指保留该中间模型的模型权重。在一个实施场景中，为了抑制模型中产生过拟合的模型权重，还可以对模型权重采用L2范数进行约束。具体地，L2范数是对各模型权重的平方和求平方根，采用L2范数对模型权重进行约束，能够使得模型权重都很小，并接近于0，使得模型越简单，从而越不容易产生过拟合。

区别于前述实施例，从多个不同深度的预设模型中选择两个，利用训练样本对不同深度的预设模型进行p次迭代微调训练得到2*p个中间模型，并对每个中间模型的训练效果进行评估，从而保留训练效果最好的中间模型，进而从剩余的未经微调的不同深度的预设模型中选择一个后跳转至迭代微调训练及其之后的步骤，直至迭代微调训练的总次数达到预设阈值，能够选择出网络深度合适的模型，进而能够有利于降低后续迁移学习训练的复杂度，并提高训练得到的识别模型的准确性。

请参阅图10，图10是本申请设备故障识别装置100一实施例的框架示意图。设备故障识别装置100包括相互耦接的存储器101和处理器102，存储器101中存储有程序指令，处理器102用于执行程序指令以实现上述任一设备故障识别方法实施例中的步骤。

具体而言，处理器102用于控制其自身以及存储器101以实现上述任一设备故障识别方法实施例中的步骤。处理器102还可以称为CPU(Central Processing Unit，中央处理单元)。处理器102可能是一种集成电路芯片，具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器102可以由多个集成电路芯片共同实现。

本实施例中，处理器102用于获取设备的故障率数据，故障率数据包括第一故障率数组及对应的时间数组；处理器102还用于对故障率数据进行拟合得到第二故障率数组；处理器102还用于利用时间数组及第二故障率数组绘制故障曲线；处理器102还用于将故障曲线输入识别模型得到第一识别结果；处理器102还用于至少利用第一识别结果获取故障曲线的最终分类结果。

在一些实施例中，处理器102还用于统计设备在多个时间范围内的故障数据；处理器102还用于利用故障数据计算设备在多个时间范围内的第三故障率；处理器102还用于利用时间范围及第三故障率获取故障率数据，时间数组由多个时间范围组成；第一故障率数组中的每个元素为时间数组中对应位置的时间范围内的第三故障率或第三故障率与随机数的乘积。

区别于前述实施例，通过统计设备在多个时间范围内的故障数据，从而利用故障数据计算设备在多个时间范围内的第三故障率，并利用时间范围及第三故障率获取故障率数据，能够综合评判设备在生命周期的情况，有利于后续形成类型对比分析；此外通过将第一故障率数组中的每个元素设置为时间数组中对应位置的时间范围内的第三故障率与随机数的乘积，能够保证数据的完整性和不确定性，进一步提升识别模型的准确性。

在一些实施例中，处理器102还用于对故障率数据进行多项式拟合得到多项式系数，处理器102还用于利用多项式系数及时间数组计算得到第二故障率数组。

区别于前述实施例，通过多项式拟合得到多项式系数，并利用多项式系数及时间数组计算得到第二故障率数组，能够使后续拟合得到的曲线与原始数据之间的误差尽可能地小。

在一些实施例中，第一识别结果包括至少一种预设类别及其置信度，预设类别包括浴盆曲线BA、早期失效曲线EF、故障增加型曲线FI、先增后平曲线FITF、后期失效型曲线LF、随机曲线RA中的至少二种，

在一些实施例中，处理器102还用于选择置信度最高的预设类别作为最终分类结果。

在一些实施例中，处理器102还用于结合第一识别结果及第二识别结果获取故障曲线的分类结果，其中第二识别结果是利用第二故障率数组得到的。

区别于前述实施例，通过结合第一识别结果及第二识别结果获取故障曲线的分类结果，能够进一步提高识别准确性。

在一些实施例中，第一识别结果包括第一候选类别和第二候选类别，第一候选类别为置信度最高的预设类别，第二候选类别为置信度次高的预设类别，处理器102还用于在第一候选类别为浴盆曲线BA、早期失效曲线EF和后期失效型曲线LF中的一种，第二识别结果为无法识别或与第一候选类别相同时，确定分类结果为第一候选类别；处理器102还用于在第一候选类别和第二识别结果均为浴盆曲线BA、早期失效曲线EF和后期失效型曲线LF中的一种，且第二识别结果与第一候选类别不同时，确定分类结果为第二识别结果；处理器102还用于在第一候选类别为故障增加型曲线FI、先增后平曲线FITF和随机曲线RA中的一种，且第一候选类别的置信度大于第一阈值时，确定分类结果为第一候选类别；处理器102还用于在第一候选类别为故障增加型曲线FI、先增后平曲线FITF和随机曲线RA中的一种，第一候选类别的置信度小于或等于第一阈值，第二候选类别和第二识别结果均为浴盆曲线BA、早期失效曲线EF和后期失效型曲线LF中的一种，且第一候选类别的置信度大于第二阈值，第一阈值大于第二阈值时，确定分类结果为第二候选类别；处理器102还用于在第一候选类别为故障增加型曲线FI、先增后平曲线FITF和随机曲线RA中的一种，第一候选类别的置信度小于或等于第一阈值，并且不满足以下条件的至少一个时：a.第二候选类别和第二识别结果均为浴盆曲线BA、早期失效曲线EF和后期失效型曲线LF中的一种，b.第一候选类别的置信度大于第二阈值，确定分类结果为无法识别。

区别于前述实施例，上述识别过程能够在第一候选类别和第二候选类别，以及第二识别结果的基础上，对故障曲线进行进一步识别，从而能够提高识别准确性。

在一些实施例中，处理器102还用于对第二故障率数组中指定位置的元素进行比较得到比较结果；利用比较结果获取第二识别结果。

区别于前述实施例，通过对第二故障率数组中指定位置的元素进行比较得到比较结果，并利用比较结果获取第二识别结果，能够降低获取第二识别结果的复杂度。

在一些实施例中，指定位置的元素包括首位元素、中位元素和末位元素，处理器102还用于在比较结果为首位元素大于中位元素且中位元素大于或等于末位元素时，确定第二识别结果为早期失效曲线EF；处理器102还用于在比较结果为首位元素小于或等于中位元素且中位元素小于末位元素时，确定第二识别结果为后期失效型曲线LF；处理器102还用于在比比较结果为首位元素大于中位元素且中位元素小于末位元素时，确定第二识别结果为浴盆曲线BA；处理器102还用于在其他情况下，确定第二识别结果为无法识别。

在一些实施例中，处理器102还用于获取多个训练样本，每个训练样本包括一组训练故障率数据及对应的故障曲线的真实分类结果，处理器102还用于利用训练样本对不同深度的预设模型进行微调训练，选择训练效果最好的微调后的预设模型作为第一模型；处理器102还用于利用第一模型对训练样本进行测试得到测试结果；处理器102还用于利用测试结果对训练样本进行处理；处理器102还用于利用处理后的训练样本对经过稀疏化的第一模型进行迁移学习训练得到识别模型。

在一些实施例中，处理器102还用于从多个不同深度的预设模型中选择两个；处理器102还用于利用训练样本对两个不同深度的预设模型进行p次迭代微调训练得到2*p个中间模型；处理器102还用于对每个中间模型的训练效果进行评估；处理器102还用于保留训练效果最好的中间模型，并从剩余的未经微调的不同深度的预设模型中选择一个后跳转至迭代微调训练及其之后的步骤，直至迭代微调训练的总次数达到预设阈值。

在一些实施例中，处理器102还用于按照故障曲线特性生成训练样本，和/或，处理器102还用于对设备的历史故障数据进行采样以得到训练样本。

区别于前述实施例，按照故障曲线特性生成训练样本，能够克服因设备领域缺少大量的标注数据而可能造成的训练不精确或过拟合等问题，对设备的历史故障数据进行采样以得到训练样本，能够使识别模型尽可能地学习到真实故障曲线的特征，从而提升识别模型的准确性。

请参阅图11，图11是本申请计算机可读存储介质110一实施例的框架示意图。计算机可读存储介质110存储程序指令111，程序指令111被处理器执行时实现上述任一设备故障识别方法实施例中的步骤。

上述方案，能够无需再依赖于领域专家或维修人员的专业知识及相关经验，故能够降低成本，且由于能够排除人工分析的主观不确定性对于设备故障类型确定的影响，故能够有助于提高设备故障类型确定的准确性，从而能够准确且低成本地确定设备故障类型。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种设备故障识别方法，其特征在于，包括：

获取设备的故障率数据，所述故障率数据包括第一故障率数组及对应的时间数组；

对所述故障率数据进行拟合得到第二故障率数组；

利用所述时间数组及所述第二故障率数组绘制故障曲线；

将所述故障曲线输入识别模型得到第一识别结果；其中，所述第一识别结果包括至少一种预设类别及其置信度，所述预设类别包括浴盆曲线BA、早期失效曲线EF、故障增加型曲线FI、先增后平曲线FITF、后期失效型曲线LF、随机曲线RA，所述识别模型为神经网络模型，所述识别模型是利用处理后的训练样本对经过稀疏化的第一模型进行迁移学习训练得到的，且所述第一模型是预先训练好的模型；

至少利用所述第一识别结果获取所述故障曲线的最终分类结果。

2.根据权利要求1所述的方法，其特征在于，所述获取设备的故障率数据包括：

统计所述设备在多个时间范围内的故障数据；

利用所述故障数据计算所述设备在多个所述时间范围内的第三故障率；

利用所述时间范围及所述第三故障率获取所述故障率数据，所述时间数组由所述多个时间范围组成；所述第一故障率数组中的每个元素为所述时间数组中对应位置的所述时间范围内的所述第三故障率或所述第三故障率与随机数的乘积。

3.根据权利要求1所述的方法，其特征在于，所述对所述故障率数据进行拟合得到第二故障率数组包括：

对所述故障率数据进行多项式拟合得到多项式系数；

利用所述多项式系数及所述时间数组计算得到所述第二故障率数组。

4.根据权利要求1所述的方法，其特征在于，所述至少利用所述第一识别结果获取所述故障曲线的最终分类结果包括：

选择所述置信度最高的预设类别作为所述最终分类结果。

5.根据权利要求1所述的方法，其特征在于，所述至少利用所述第一识别结果获取所述故障曲线的最终分类结果包括：

结合所述第一识别结果及第二识别结果获取所述故障曲线的分类结果，其中所述第二识别结果是利用所述第二故障率数组得到的。

6.根据权利要求5所述的方法，其特征在于，所述第一识别结果包括第一候选类别和第二候选类别，所述第一候选类别为所述置信度最高的预设类别，所述第二候选类别为所述置信度次高的预设类别；

所述结合所述第一识别结果及第二识别结果获取所述故障曲线的分类结果包括：

若所述第一候选类别为浴盆曲线BA、早期失效曲线EF和后期失效型曲线LF中的一种，所述第二识别结果为无法识别或与所述第一候选类别相同，所述分类结果为所述第一候选类别；

若所述第一候选类别和所述第二识别结果均为浴盆曲线BA、早期失效曲线EF和后期失效型曲线LF中的一种，且所述第二识别结果与所述第一候选类别不同，所述分类结果为所述第二识别结果；

若所述第一候选类别为故障增加型曲线FI、先增后平曲线FITF和随机曲线RA中的一种，且所述第一候选类别的置信度大于第一阈值，所述分类结果为所述第一候选类别；

若所述第一候选类别为故障增加型曲线FI、先增后平曲线FITF和随机曲线RA中的一种，所述第一候选类别的置信度小于或等于所述第一阈值，所述第二候选类别和所述第二识别结果均为浴盆曲线BA、早期失效曲线EF和后期失效型曲线LF中的一种，且所述第一候选类别的置信度大于第二阈值，所述第一阈值大于所述第二阈值，所述分类结果为所述第二候选类别。

7.根据权利要求6所述的方法，其特征在于，所述结合所述第一识别结果及第二识别结果获取所述故障曲线的分类结果之前进一步包括：

对所述第二故障率数组中指定位置的元素进行比较得到比较结果；

利用所述比较结果获取所述第二识别结果。

8.根据权利要求1所述的方法，其特征在于，所述将所述故障曲线输入识别模型得到第一识别结果之前进一步包括：

获取多个训练样本，每个所述训练样本包括一组训练故障率数据及对应的故障曲线的真实分类结果；

利用所述训练样本对不同深度的预设模型进行微调训练，选择训练效果最好的微调后的所述预设模型作为第一模型；

利用所述第一模型对所述训练样本进行测试得到测试结果；

利用所述测试结果对所述训练样本进行处理；

利用处理后的所述训练样本对经过稀疏化的所述第一模型进行迁移学习训练得到所述识别模型。

9.根据权利要求8所述的方法，其特征在于，所述获取多个训练样本包括：

按照故障曲线特性生成所述训练样本；和/或

对设备的历史故障数据进行采样以得到所述训练样本。

10.一种设备故障识别装置，其特征在于，所述设备故障识别装置包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，

所述处理器用于执行所述程序指令以实现如权利要求1-9中任一项所述的方法。

11.一种计算机可读存储介质，存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1-9中任一项所述的方法。