CN108009647A

CN108009647A - 设备记录处理方法、装置、计算机设备和存储介质

Info

Publication number: CN108009647A
Application number: CN201711397566.2A
Authority: CN
Inventors: 马寒; 陈龙; 江泽浩
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-05-08
Anticipated expiration: 2037-12-21
Also published as: CN108009647B

Abstract

本发明提出一种设备记录处理方法、装置、计算机设备和存储介质，其中，方法包括：根据各条设备记录中的传感器测量值生成第一向量空间内的第一特征向量，根据各条设备记录中的维保描述，生成第二向量空间内的第二特征向量；根据第一向量空间和第二向量空间之间的映射关系，确定第一映射向量和第二映射向量；选取第二映射向量添加到包含第一特征向量的第一向量集内，选取第一映射向量添加到包含第二特征向量的第二向量集内；对第一向量集内和第二向量集内的向量进行聚类得到第一和第二目标聚簇；对第一目标聚簇和第二目标聚簇中的相似聚簇进行组合，并确定设备记录所属的类别。通过本方法，能够增加信息量，弥补设备记录中可用特征不足的弊端。

Description

设备记录处理方法、装置、计算机设备和存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种设备记录处理方法、装置、计算机设备和存储介质。

背景技术

同一生产厂商生产的同型号设备，可能会应用在各个不同的地方，以消防设备或者空调设备为例，几乎每一座楼宇都会布设消防设备和空调设备，在一个市区内的同一生产厂生产的同型号设备就会有很多。这些设备在使用过程中需要定期或不定期地保养，当存在故障时还需要对其进行维修，并在保养和维修后由人工填写用于对本次维修或保养进行简要说明的维保描述。但这些维保描述由于是人工填写的，针对相似的维修或保养可能采用了不同的文字，如何对这些海量的维保描述进行归类，以针对同一类的维修或保养采用统一的表述方式进行描述，以备后续进行故障分析使用是亟待解决的技术问题。

现有技术中，对维保描述进行归类的方法主要包括基于关键字的方法和基于词向量的方法两种。其中，基于关键字的方法是抽取维保描述中的关键字，将具有相同关键字的维保描述进行合并；基于词向量的方法是将维保描述中的词转为词向量，计算词向量的相似度，将相似度较大的词向量对应的维保描述进行合并。

然而，上述归类方法是基于文本挖掘实现的。文本挖掘不仅需要构造语料库，还需要对中文语料库进行分词，采用文本挖掘方式对维保描述归类的准确性依赖于该语料库中维保描述的丰富程度。此外，分词也会带来更多的误差，且维保描述主要通过人工录入，信息较为杂乱，可用特征较少。在采用文本挖掘方式直接对维保描述进行归类，并对同一类维保描述采用统一表述方式进行描述时，存在维保描述归类不准确，导致无法统一表述方式的技术问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种设备记录处理方法，以通过采集设备记录对应的设备传感器数据增加信息量，弥补设备记录中可用特征不足的弊端；通过将设备记录数据转换为数值向量形式，避免文本挖掘方法需要构造语料库的复杂工作；通过结合设备记录和传感器数据进行聚类，能够对因人为主观因素造成的复杂数据进行有效归类。

本发明的第二个目的在于提出一种设备记录处理装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种设备记录处理方法，该方法用于确定各条设备记录所属的类别，以根据所述类别统一所述设备记录中的维保描述，包括：

根据各条设备记录中的传感器测量值生成第一向量空间内的第一特征向量，并根据各条设备记录中的维保描述，生成第二向量空间内的第二特征向量；

根据所述第一向量空间和所述第二向量空间之间的映射关系，确定各第一特征向量在第二向量空间内的第一映射向量，以及各第二特征向量在第一向量空间内的第二映射向量；

选取所述第二映射向量添加到包含所述第一特征向量的第一向量集内，并选取所述第一映射向量添加到包含所述第二特征向量的第二向量集内；选取的第二映射向量与其对应的第二特征向量分别属于不同向量空间的相似向量聚簇，选取的第一映射向量与其对应的第一特征向量分别属于不同向量空间的相似向量聚簇；

对所述第一向量集内的向量进行聚类得到第一目标聚簇，以及对所述第二向量集内的向量进行聚类得到第二目标聚簇；

对所述第一目标聚簇和所述第二目标聚簇中的相似聚簇进行组合，并根据每一条设备记录的第一特征向量、第二特征向量、第一映射向量和第二映射向量所属的组合，确定所述设备记录所属的类别。

本发明实施例的设备记录处理方法，通过根据各条设备记录中的传感器测量值生成第一向量空间内的第一特征向量，并根据各条设备记录中的维保描述，生成第二向量空间内的第二特征向量，根据第一向量空间和第二向量空间之间的映射关系，确定各第一特征向量在第二向量空间内的第一映射向量，以及各第二特征向量在第一向量空间内的第二映射向量，选取第二映射向量添加到包含第一特征向量的第一向量集内，并选取第一映射向量添加到包含第二特征向量的第二向量集内，对第一向量集内的向量进行聚类得到第一目标聚簇，对第二向量集内的向量进行聚类得到第二目标聚簇，对第一目标聚簇和第二目标聚簇中的相似聚簇进行组合，并根据每一条设备记录的第一特征向量、第二特征向量、第一映射向量和第二映射向量所属的组合，确定设备记录所属的类别，以实现对设备记录的有效归类。通过采集设备记录对应的设备传感器数据增加信息量，弥补了设备记录中可用特征不足的弊端；通过将设备记录数据转换为数值向量形式，避免了文本挖掘方法需要构造语料库的复杂工作；通过结合设备记录和传感器数据，从两个角度对同一问题进行聚类，能够对因人为主观因素造成的复杂数据进行有效归类，提高故障识别的准确率。

为达上述目的，本发明第二方面实施例提出了一种设备记录处理装置，用于确定各条设备记录所属的类别，以根据所述类别统一所述设备记录中的维保描述，该装置包括：

生成模块，用于根据各条设备记录中的传感器测量值生成第一向量空间内的第一特征向量，并根据各条设备记录中的维保描述，生成第二向量空间内的第二特征向量；

确定模块，用于根据所述第一向量空间和所述第二向量空间之间的映射关系，确定各第一特征向量在第二向量空间内的第一映射向量，以及各第二特征向量在第一向量空间内的第二映射向量；

选取模块，用于选取所述第二映射向量添加到包含所述第一特征向量的第一向量集内，并选取所述第一映射向量添加到包含所述第二特征向量的第二向量集内；选取的第二映射向量与其对应的第二特征向量分别属于不同向量空间的相似向量聚簇，选取的第一映射向量与其对应的第一特征向量分别属于不同向量空间的相似向量聚簇；

聚类模块，用于对所述第一向量集内的向量进行聚类得到第一目标聚簇，以及对所述第二向量集内的向量进行聚类得到第二目标聚簇；

分类模块，用于对所述第一目标聚簇和所述第二目标聚簇中的相似聚簇进行组合，并根据每一条设备记录的第一特征向量、第二特征向量、第一映射向量和第二映射向量所属的组合，确定所述设备记录所属的类别。

本发明实施例的设备记录处理装置，通过根据各条设备记录中的传感器测量值生成第一向量空间内的第一特征向量，并根据各条设备记录中的维保描述，生成第二向量空间内的第二特征向量，根据第一向量空间和第二向量空间之间的映射关系，确定各第一特征向量在第二向量空间内的第一映射向量，以及各第二特征向量在第一向量空间内的第二映射向量，选取第二映射向量添加到包含第一特征向量的第一向量集内，并选取第一映射向量添加到包含第二特征向量的第二向量集内，对第一向量集内的向量进行聚类得到第一目标聚簇，第二向量集内的向量进行聚类得到第二目标聚簇，对第一目标聚簇和第二目标聚簇中的相似聚簇进行组合，并根据每一条设备记录的第一特征向量、第二特征向量、第一映射向量和第二映射向量所属的组合，确定设备记录所属的类别，以实现对设备记录的有效归类。通过采集设备记录对应的设备传感器数据增加信息量，弥补了设备记录中可用特征不足的弊端；通过将设备记录数据转换为数值向量形式，避免了文本挖掘方法需要构造语料库的复杂工作；通过结合设备记录和传感器数据，从两个角度对同一问题进行聚类，能够对因人为主观因素造成的复杂数据进行有效归类，提高故障识别的准确率。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如第一方面实施例所述的设备记录处理方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的设备记录处理方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如第一方面实施例所述的设备记录处理方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例一所提供的设备记录处理方法的流程示意图；

图2为将特征向量转换为映射向量的过程示意图；

图3为本发明实施例二所提供的设备记录处理方法的流程示意图；

图4为本发明实施例三所提供的设备记录处理方法的流程示意图；

图5为本发明实施例四所提供的设备记录处理方法的流程示意图；

图6为本发明实施例一所提供的设备记录处理装置的结构示意图；

图7为本发明实施例二所提供的设备记录处理装置的结构示意图；

图8为本发明实施例三所提供的设备记录处理装置的结构示意图；

图9为本发明实施例四所提供的设备记录处理装置的结构示意图；以及

图10为本发明一实施例提出的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的设备记录处理方法、装置、计算机设备和存储介质。

图1为本发明实施例一所提供的设备记录处理方法的流程示意图，该方法可以确定各条设备记录所属的类别。由于每一条设备记录包括两部分数据，一部分用于指示设备中各传感器在故障发生前或保养前的固定时长内采集到的传感器测量值，另一部分为人工填写的维保描述，用于对发生的故障或者进行的保养进行语言描述。因此，在确定各条设备记录所属的类别后，可以对属于同一类的设备记录中的维保描述采用统一的表述方式进行表述，从而达到根据类别统一维保描述，以备后续进行故障分析的目的。

如图1所示，该设备记录处理方法包括以下步骤：

步骤101，根据各条设备记录中的传感器测量值生成第一向量空间内的第一特征向量，并根据各条设备记录中的维保描述，生成第二向量空间内的第二特征向量。

本实施例中，每一条设备记录对应一次故障维修或者一次设备保养，该设备记录具体包括各传感器的传感器测量值和维保描述。

其中，传感器测量值是在发生故障或者进行设备保养之前的固定时长内采集到的，例如：设备包含分别用于测量时间、温度、压力、转速、电压、电流等多个参量的传感器，其中，时间参量的传感器测量值为2017-12-13 10:30:45；温度参量的传感器测量值为60；压力参量的传感器测量值为40；转速参量的传感器测量值为100；电压参量的传感器测量值为220；电流参量的传感器测量值为40。

对每一条设备记录中的多个传感器测量值，在第一向量空间内进行向量化，得到该条设备记录的第一特征向量。例如，前述的多个传感器测量值可以在第一向量空间中进行向量化，得到1*6矩阵形式的第一特征向量(2017-12-13 10:30:45，60，40，100，220，40)。第一向量空间规定了每一元素的含义(时间、温度、压力、转速、电压、电流)。需要说明的是，各条设备记录的多个传感器测量值，在同一个第一向量空间内进行向量化，得到对应的第一特征向量。

对每一条设备记录中的维保描述，在第二向量空间内通过对维保描述中作为主要特征的实词进行向量化，得到第二向量空间内的第二特征向量，这里的第二特征向量具体可以是对维保描述经过哑元化、word2vector处理后得到的数字化的向量。

以哑元化为例，统计全部维保记录中作为“故障类型”、“故障级别”、“解决方式”、“故障原因”这四个特征的取值的实词，假定这些特征的取值是10个可能的实词中的至少一个，那么维保记录的第二特征向量为4*10的矩阵形式，第二向量空间规定了矩阵的行指示的特征，以及矩阵的列所指示的实词。在每一维保记录对应的矩阵中，每个元素采用0或1表示，元素为1表示矩阵对应的维保记录中，该元素所在行指示的特征，取值为该元素所在列指示的实词；元素为零表示矩阵对应的维保记录中，该元素所在行指示的特征，取值不为该元素所在列指示的实词。

假设维保记录为“空调不制冷，零件老化引起，更换零件后正常运行”。故障类型是不制冷，故障级别是需维修，解决方式是更换零件，故障原因是零件老化。该维保记录对应的矩阵中，以下元素取值为1，其余元素均为零：

特征“故障类型”对应行，实词“不制冷”对应列的元素取值为1；

特征“故障级别”对应行，实词“维修”对应列的元素取值为1；

特征“解决方式”对应行，实词“更换零件”对应列的元素取值为1；

特征“故障原因”对应行，实词“零件老化”对应列的元素取值为1。

步骤102，根据第一向量空间和第二向量空间之间的映射关系，确定各第一特征向量在第二向量空间内的第一映射向量，以及各第二特征向量在第一向量空间内的第二映射向量。

第一向量空间中存放的是根据设备记录中的传感器测量值生成的第一特征向量，第二向量空间中存放的是根据设备记录中的维保描述生成的第二特征向量，第一向量空间和第二向量空间之间存在映射关系，两者可以进行相互转换。

这里的转换是通过公式进行向量变换实现的。具体来说，用到的是线性代数中的矩阵乘法原理。如：一个2*3的矩阵A与一个3*4的矩阵V相乘,得到一个2*4的矩阵V’，此时3*4向量空间中的矩阵V通过矩阵A转化为2*4向量空间中的矩阵V’。这里的矩阵A就是从3*4向量空间的V映射到2*4向量空间的V’的映射关系。本实施例中，可以根据第一向量空间和第二向量空间之间的映射关系，针对每个第一特征向量，确定第一特征向量在第二向量空间内的第一映射向量，以及，针对每个第二特征向量，确定第二特征向量在第一向量空间内的第二映射向量。

具体地，为了使得第一向量空间中的不同向量在映射至第二向量空间后仍为不同向量，相似地，第二向量空间中的不同向量在映射至第一向量空间后仍为不同向量，映射关系往往不是前述较为简单的V’＝AV的关系，而是设定为以下公式(1)形式，也就是说，在确定特征向量的映射向量时，可以根据如下公式(1)进行计算。

V'＝σ(w*V+b) (1)

其中，w为系数，b为偏置，V表示特征向量，V’表示映射向量，σ可以是sigmoid函数。

公式(1)中，w和b的取值可以通过多次迭代后确定，在进行迭代计算时，可以以交叉熵公式作为损失函数，损失函数如公式(2)所示，并且，可以为损失函数设置阈值或者设置最大迭代次数，以作为迭代终止的条件。

其中，x_j表示第j个第一特征向量，表示x_j的估计值，是在迭代过程中将x_j作为V的取值代入公式(1)中得到的V’的取值，n表示第一向量空间中第一特征向量的个数；y_j表示第j个第二特征向量，表示y_j的估计值，是在迭代过程中将x_j作为V的取值代入公式(1)中得到的V’的取值，m表示第二向量空间中第二特征向量的个数。Loss_s2d表示第一特征向量向第一映射向量转换的损失函数；Loss_d2s表示第二特征向量向第二映射向量转换的损失函数。

利用公式(2)所示的损失函数进行迭代计算确定参数w和b的公式如公式(3)所示。

其中，表示本次迭代过程中第一特征向量转换为第一映射向量时公式(1)中w和b的取值，θ_s表示上一次迭代过程中第一特征向量转换为第一映射向量时公式(1)中w和b的取值；表示本次迭代过程中第二特征向量转换为第二映射向量时公式(1)中w和b的取值，θ_d表示上一次迭代过程中第二特征向量转换为第二映射向量时公式(1)中w和b的取值。lr表示学习率(learning rate)，决定了参数移动至最优值的速度快慢，lr过大可能导致参数越过最优值，而lr过小可能导致算法长时间无法收敛。lr取值范围为(0,1)，在实际应用中，通常取10^-4～10^-3。

图2为将特征向量转换为映射向量的过程示意图。如图2所示，在经过前述多次迭代过程后，可以确定出第一特征向量向第一映射向量转化时的w和b的取值，以及第二特征向量向第二映射向量转化时的w和b的取值，这两种不同的转化情况下的w和b的取值是不同的。将第一特征向量向第一映射向量转化时的w和b的取值代入公式(1)得到第一向量空间向第二向量空间转化的映射关系，将第二特征向量向第二映射向量转化时的w和b的取值代入公式(1)得到第二向量空间向第一向量空间转化的映射关系。

根据以上两种映射关系，可以对第一向量空间(记为DS(v_s))中的各个第一特征向量(记为v_s)进行转换，得到第一映射向量(记为v_d’)，以及对第二向量空间(记为DS(v_d))中的第二特征向量(记为v_d)进行转换，得到第二映射向量(记为v_s’)。

步骤103，选取第二映射向量添加到包含第一特征向量的第一向量集内，并选取第一映射向量添加到包含第二特征向量的第二向量集内。

其中，选取的第二映射向量与其对应的第二特征向量分别属于不同向量空间的相似向量聚簇，选取的第一映射向量与其对应的第一特征向量分别属于不同向量空间的相似向量聚簇。

本实施例中，可以采用相关的聚类算法(比如k-means算法)对第一向量空间中的全部第一特征向量进行聚类，并对第二向量空间中的全部第二特征向量进行聚类，得到两组聚类结果，将第一向量空间中得到的聚簇标记为将第二向量空间中得到的聚簇标记为其中，同一个聚簇中包含的第一特征向量是根据设备处于相似状态时的传感器测量值生成的，同一个聚簇中包含的第二特征向量是根据设备处于相似状态时的维保记录生成的。也就是说，同一聚簇对应了相似的设备状态，不同聚簇对应了不同设备状态。

设备在进行维修保养时会产生维保记录，同时还会有传感器测量值，这样就有了两种数据类型。为了获得多个设备产生的传感器测量值以及与这些传感器测量值中的至少一个对应相似设备状态的维保记录，需要首先得到用于记录传感器测量值的集合，进而，若维保记录与这个集合中的至少一个传感器测量值对应的设备状态相似，则将这个维保记录添加到这个集合中。具体来说，计算第二映射向量在中所属的聚簇，以及计算第一映射向量在中所属的聚簇。如果第二映射向量在中所属的聚簇与对应的第二特征向量在中所属的聚簇是相似向量聚簇，则将第二映射向量添加到包含第一特征向量的第一向量集内。同理，为了获得多个设备产生的维保记录以及与这些维保记录中的至少一个对应相似设备状态的传感器测量值，首先得到用于记录维保记录的集合，进而，若传感器测量值与这个集合中的至少一个维保记录对应的设备状态相似，则将这个传感器测量值添加到这个集合中。具体来说，如果第一映射向量在中所属的聚簇与对应的第一特征向量在中所属的聚簇是相似向量聚簇，则将第一映射向量添加到包含第二特征向量的第二向量集内。

此处需要说明的是，选取第二映射向量添加至第一向量集内，以及选取第一映射向量添加至第二向量集内的具体实现过程将在后续内容中给出，为避免重复，此处不作详细描述。

步骤104，对第一向量集内的向量进行聚类得到第一目标聚簇，以及对第二向量集内的向量进行聚类得到第二目标聚簇。

上一步骤中，已生成了第一向量集和第二向量集，具体来说，第一向量集基于第一向量空间，用于指示多个设备产生的传感器测量值以及与这些传感器测量值中的至少一个对应相似设备状态的维保记录；第二向量集基于第二向量空间，用于指示多个设备产生的维保记录以及与这些维保记录中的至少一个对应相似设备状态的传感器测量值。可以再次采用相关的聚类方法分别对第一向量集和第二向量集进行聚类，得到第一目标聚簇和第二目标聚簇。这里，同一第一目标聚簇包含第一向量空间中相似的第一特征向量和第二映射向量，第一特征向量指示的传感器测量值，与第二映射向量指示的维保记录对应相似的设备状态；同一第二目标聚簇包含第二向量空间中相似的第二特征向量和第一映射向量，第一映射向量指示的传感器测量值，与第二映射向量指示的维保记录对应相似的设备状态。

步骤105，对第一目标聚簇和第二目标聚簇中的相似聚簇进行组合，并根据每一条设备记录的第一特征向量、第二特征向量、第一映射向量和第二映射向量所属的组合，确定设备记录所属的类别。

具体地，在得到第一目标聚簇(记为)和第二目标聚簇(记为)之后，可以先计算两个目标聚簇中各个聚簇的质心之间的相似距离，具体计算不同向量空间聚簇的质心之间的相似距离可以采用以下方式：

将第一目标聚簇的质心向量映射至第二向量空间后，可以计算与第二空间中第二目标聚簇质心向量之间的第一距离；以及，在将第二目标聚簇的质心向量映射至第一向量空间后，计算与第一向量空间中第一目标聚簇质心向量之间的第二距离。将第一距离加上第二距离，得到不同向量空间聚簇的质心之间的相似距离。计算公式如公式(4)所示。

sim(x,y)＝sim(x→y)+sim(y→x)(4)

其中，表示第二目标聚簇的质心，表示第一目标聚簇的质心。sim(y→x)表示第一目标聚簇的质心向量映射至第二向量空间后，与第二空间中第二目标聚簇质心向量之间的第一距离；sim(x→y)表示第二目标聚簇的质心向量映射至第一向量空间后，与第一向量空间中第一目标聚簇质心向量之间的第二距离；sim(x,y)不同向量空间的第一目标聚簇和第二目标聚簇的质心之间的相似距离。

本实施例中，可以预先设定阈值，并将两个聚簇的相似距离小于阈值的两个聚簇进行组合。假设第一目标聚簇和第二目标聚簇中的相似聚簇组合之后，得到z个聚簇，则对应z个类别，记为c∈(c₁,c₂,…c_z)。不同类别对应了不同的设备状态，同一类别对应了相似的设备状态。

每一个第一特征向量、第二特征向量、第一映射向量和第二映射向量分别属于类别c_i中的一种，对该设备记录对应的类别进行统计，选择出现次数最多的类别作为该设备记录所属的类别。如果各个类别出现的次数相同，则将置信度最大的类别确定为该设备记录所属的类别。

例如：对一个设备记录(此时设备处于某一种设备状态)，包括维保记录，同时还包括设备运行时的传感器测量值。维保记录由上文的向量化过程，可得到第二向量空间的第二特征向量和第一向量空间的第二映射向量；传感器测量值由上文的向量化过程，可得到第一向量空间的第一特征向量和第二向量空间的第一映射向量。已经获得前述4个向量，尽管处于不同向量空间，但都是对同一设备状态的不同形式的描述，经过在不同向量空间聚类后，在对不同向量空间的相似聚簇进行组合，可得到对应同一类别的组合，根据各向量所属的类别来判断该设备记录所属的类别。

在确定出各设备记录的类别后，该类别中的设备记录是在相似设备状态下产生的，根据同一类别的设备记录中出现频率最高的维保描述，对该类别进行命名，采用该类别的命名方式命名同一类别内的各条设备记录的维保描述。

本实施例的设备记录处理方法，通过根据各条设备记录中的传感器测量值生成第一向量空间内的第一特征向量，并根据各条设备记录中的维保描述，生成第二向量空间内的第二特征向量，根据第一向量空间和第二向量空间之间的映射关系，确定各第一特征向量在第二向量空间内的第一映射向量，以及各第二特征向量在第一向量空间内的第二映射向量，选取第二映射向量添加到包含第一特征向量的第一向量集内，并选取第一映射向量添加到包含第二特征向量的第二向量集内，对第一向量集内的向量进行聚类得到第一目标聚簇，对第二向量集内的向量进行聚类得到第二目标聚簇，对第一目标聚簇和第二目标聚簇中的相似聚簇进行组合，并根据每一条设备记录的第一特征向量、第二特征向量、第一映射向量和第二映射向量所属的组合，确定设备记录所属的类别，以实现对设备记录的有效归类。通过采集设备记录对应的设备传感器数据增加信息量，弥补了设备记录中可用特征不足的弊端；通过将设备记录数据转换为数值向量形式，避免了文本挖掘方法需要构造语料库的复杂工作；通过结合设备记录和传感器数据，从两个角度对同一问题进行聚类，能够对因人为主观因素造成的复杂数据进行有效归类，提高故障识别的准确率。

为了更加清楚地描述前述实施例中根据各条设备记录中的传感器测量值生成第一向量空间内的第一特征向量，并根据各条设备记录中的维保描述，生成第二向量空间内的第二特征向量的具体实现过程，本发明实施例提出了另一种设备记录处理方法，图3为本发明实施例二所提供的设备记录处理方法的流程示意图。

如图3所示，在如图1所示实施例的基础上，步骤101可以包括以下步骤：

步骤201，将每一种传感器测量值作为向量的一个维度，进行向量化，得到第一特征向量。

其中，传感器测量值例如可以包括温度值、转速和压力值中的至少一个。

本实施例中，可以预先设定时间长度为T个时间点，针对每一条设备记录，利用该设备记录的故障时间点之前的T个时间点对应的传感器测量值，组成T×S的矩阵M＝(x_t,s),t<T,s<S，其中，矩阵M的行用于指示时间点，列用于指示传感器测量值对应的传感器，S为该设备的传感器个数，即采集到的传感器测量值的维度，一种测量值对应一个维度。

针对传感器测量值组成的矩阵M，可以采用求均值的方式对每一列元素求平均值，将各列的平均值作为第一特征向量中对应列的元素的取值，计算得到第一特征向量(用v_s表示)，计算公式如公式(5)所示。

其中，b_i(i＝1,2,…,S)表示矩阵M中第i列的传感器T个时间点的测量值的平均值。

在本发明实施例一种可能的实现方式中，在对传感器测量值进行向量化之前，还可以先对同一传感器在不同时刻的测量值进行平均，得到一种传感器测量值，进而利用均值计算后所得的各个维度的传感器测量值，生成第一特征向量。

步骤202，将每一种维保描述作为向量的一个维度，进行向量化，得到第二特征向量。

其中，维保记录中的维保描述例如可以包括维保时间、设备类型、故障类别、故障级别、厂家名称和故障来源中的至少一个。

本实施例中，针对每一条设备记录中的维保描述，采用哑元化方式进行向量化，得到第二特征向量，记为v_d＝[a₁,a₂,...,a_n]，其中，n为向量维度，表示该设备记录中维保描述的种类数。具体哑元化方式参见前述实施例，本实施例中对此不再赘述。

本实施例的设备记录处理方法，通过采集设备记录对应的传感器测量值，能够增加信息量，弥补设备记录特征不足的弊端；通过将维保描述转换为特征向量，避免了文本挖掘需要构建语料库的复杂工作，减少了工作量。

需要说明的是，前述步骤201和步骤202可以先后执行，或者并行，本发明实施例对于步骤201和步骤202的执行顺序不作限定。图3中用不同的连接方式示出了步骤201和步骤202的执行顺序，其中，右边的箭头由步骤201指向步骤202表示先执行步骤201后再执行步骤202；左边的箭头由步骤202指向步骤201表示先执行步骤202后再执行步骤201；中间的双向箭头表示步骤201和步骤202并行执行。

为了更加清楚地描述前述实施例中选取第二映射向量添加到包含第一特征向量的第一向量集内，并选取第一映射向量添加到包含第二特征向量的第二向量集内的具体实现过程，本发明实施例提出了另一种设备记录处理方法，图4为本发明实施例三所提供的设备记录处理方法的流程示意图。

如图4所示，在如图1所示实施例已经介绍了各步骤及公式的物理含义的的基础上，后续实施例中将重点对运算过程进行细致描述。步骤103可以包括以下步骤：

步骤301，在第一向量空间内，对第一特征向量进行聚类得到各第一向量聚簇；在第二向量空间内，对第二特征向量进行聚类得到各第二向量聚簇。

本实施例中，可以采用相关的聚类算法对第一特征向量和第二特征向量分别进行聚类，比如，可以采用k-means算法对第一特征向量进行聚类得到各第一向量聚簇，以及对第二特征向量进行聚类得到各第二向量聚簇。

步骤302，根据第一向量空间和第二向量空间之间的映射关系，确定第一向量聚簇和第二向量聚簇之间的相似性。

具体地，根据第一向量空间和第二向量空间之间的映射关系，确定第一向量聚簇和第二向量聚簇之间的相似性时，可以先获取第一向量空间和第二向量空间之间的映射关系。

本实施例中，获取第一向量空间和第二向量空间之间的映射关系时，可以分别获取第一向量空间向第二向量空间映射的映射关系，以及第二向量空间向第一向量空间映射的映射关系。

具体地，可以将第一特征向量v_s代入转换函数V'＝σ(w*V+b)进行迭代运算，以得到w和b取不同值时的第一映射向量v_d’，以及根据第一映射向量v_d’和对应的第二特征向量v_d确定损失函数取值；其中，σ为S型函数，比如，σ可以为sigmoid函数。当损失函数取值小于阈值或达到最大迭代次数时停止迭代，将停止迭代时的w和b值代入转换函数中，作为第一向量空间转化为第二向量空间的映射关系。

获取第二向量空间向第一向量空间映射的映射关系时，可以将第二特征向量v_d代入转换函数V'＝σ(w*V+b)进行迭代运算，以得到w和b取不同值时的第二映射向量v_s’，以及根据第二映射向量v_s’和对应的第一特征向量v_s确定损失函数取值；其中，σ为S型函数。当损失函数取值小于阈值或达到最大迭代次数时停止迭代，将停止迭代时的w和b值代入转换函数，作为第二向量空间转化为第一向量空间的映射关系。

本实施例中，获取了第一向量空间和第二向量空间之间的映射关系后，可以根据映射关系，将第一向量聚簇的质心向量映射至第二向量空间，以及将第二向量聚簇的质心向量映射至第一向量空间，映射过程可以参见前述实施例的相关描述，以及如图2所示的映射过程示意图。

进一步地，将第一向量聚簇的质心向量映射至第二向量空间后，可以计算与第二向量空间中第二向量聚簇质心向量之间的第一距离；以及，在将第二向量聚簇的质心向量映射至第一向量空间后，计算与第一向量空间中第一向量聚簇质心向量之间的第二距离。其中，可以根据欧式距离公式计算第一距离和第二距离。

最终，根据第一距离和第二距离，可以确定第一向量聚簇和第二向量聚簇之间的相似性。比如，可以预先设定距离阈值，将距离阈值范围内距离较近的两个聚簇确定为存在相似性。

步骤303，若第一特征向量所属的第一向量聚簇，与第一特征向量对应的第一映射向量所属的第二向量聚簇之间存在相似性，将第一映射向量添加到第二向量集内。

步骤304，若第二特征向量所属的第二向量聚簇，与第二特征向量对应的第二映射向量所属的第一向量聚簇之间存在相似性，将第二映射向量添加到第一向量集内。

本实施例中，针对每一个第一特征向量以及对应的第一映射向量，如果第一特征向量所属的第一向量聚簇与第一映射向量所属的第二向量聚簇之间存在相似性，则将第一映像向量添加到第二向量集内。同样地，针对每一个第二特征向量以及对应的第二映射向量，如果第二特征向量所属的第二向量聚簇与第二映射向量所属的第一向量聚簇之间存在相似性，则将第二映像向量添加到第一向量集内。

本实施例的设备记录处理方法，通过分别对第一特征向量和第二特征向量进行聚类得到第一向量聚簇和第二向量聚簇，根据第一向量空间和第二向量空间之间的映射关系，确定第一向量聚簇和第二向量聚簇之间的相似性，并在第一特征向量所属的第一向量聚簇与第一特征向量对应的第一映射向量所属的第二向量聚簇之间存在相似性时，将第一映射向量添加到第二向量集内，在第二特征向量所属的第二向量聚簇与第二特征向量对应的第二映射向量所属的第一向量聚簇之间存在相似性，将第二映射向量添加到第一向量集内，能够增加信息量，增加特征信息，为准确进行故障识别奠定基础。

在本发明实施例一种可能的实现方式中，如图5所示，在如图1所示实施例的基础上，在步骤105之前，还包括：

步骤401，获取第一向量空间和第二向量空间之间的映射关系。

步骤402，根据映射关系，将第一目标聚簇的质心向量映射至第二向量空间后，计算与第二向量空间中第二目标聚簇质心向量之间的第三距离。

步骤403，根据映射关系，将第二目标聚簇的质心向量映射至第一向量空间后，计算与第一向量空间中第一目标聚簇质心向量之间的第四距离。

需要说明的是，对步骤401-步骤403的描述，可以参见前述实施例中对步骤302的描述，其实现原理类似，此处不再赘述。

步骤404，根据第三距离和第四距离，确定第一目标聚簇和第二目标聚簇之间的相似性。

本实施例中，计算得到第一距离和第二距离之后，可以计算第一距离与第二距离的距离之和，将所得距离之和与预设的阈值进行比较，并在距离之和大于阈值时，确定第一目标聚簇和第二目标聚簇之间存在相似性。

本实施例的设备记录处理方法，通过获取第一向量空间和第二向量空间之间的映射关系，根据映射关系将第一目标聚簇的质心向量映射至第二向量空间后，计算与第二向量空间中第二目标聚簇质心向量之间的第三距离，以及将第二目标聚簇的质心向量映射至第一向量空间后，计算与第一向量空间中第一目标聚簇质心向量之间的第四距离，根据第三距离和第四距离确定第一目标聚簇与第二目标聚簇之间的相似性，以根据相似性对第一目标聚簇和第二目标聚簇之间的相似聚簇进行组合，能够增加聚簇个数，进而增加类别个数，为识别更多类型的故障奠定基础。

为了实现上述实施例，本发明还提出一种设备记录处理装置。

图6为本发明实施例一所提供的设备记录处理装置的结构示意图，该装置用于确定各条设备记录所属的类别，以根据类别统一设备记录中的维保描述。

如图6所示，该设备记录处理装置60包括：生成模块610、确定模块620、选取模块630、聚类模块640，以及分类模块650。其中，

生成模块610，用于根据各条设备记录中的传感器测量值生成第一向量空间内的第一特征向量，并根据各条设备记录中的维保描述，生成第二向量空间内的第二特征向量。

确定模块620，用于根据第一向量空间和第二向量空间之间的映射关系，确定各第一特征向量在第二向量空间内的第一映射向量，以及各第二特征向量在第一向量空间内的第二映射向量。

选取模块630，用于选取第二映射向量添加到包含第一特征向量的第一向量集内，并选取第一映射向量添加到包含第二特征向量的第二向量集内；其中，选取的第二映射向量与其对应的第二特征向量分别属于不同向量空间的相似向量聚簇，选取的第一映射向量与其对应的第一特征向量分别属于不同向量空间的相似向量聚簇。

聚类模块640，用于对第一向量集内的向量进行聚类得到第一目标聚簇，以及对第二向量集内的向量进行聚类得到第二目标聚簇。

分类模块650，用于对第一目标聚簇和第二目标聚簇中的相似聚簇进行组合，并根据每一条设备记录的第一特征向量、第二特征向量、第一映射向量和第二映射向量所属的组合，确定设备记录所属的类别。

进一步地，在本发明实施例一种可能的实现方式中，如图7所示，在如图6所示实施例的基础上，生成模块610包括：

第一生成单元611，用于将每一种传感器测量值作为向量的一个维度，进行向量化，得到第一特征向量；传感器测量值包括温度值、转速和压力值中的至少一个。

可选地，在本发明实施例一种可能的实现方式中，第一生成单元611在生成第一特征向量之前，还可以先对同一传感器在不同时刻的测量值进行平均，得到一种传感器测量值。

第二生成单元612，用于将每一种维保描述作为向量的一个维度，进行向量化，得到第二特征向量；维保描述包括维保时间、设备类型、故障类别、故障级别、厂家名称和故障来源中的至少一个。

在本发明实施例一种可能的实现方式中，如图8所示，在如图6所示实施例的基础上，选取模块630包括：

聚类单元631，用于在第一向量空间内，对第一特征向量进行聚类得到各第一向量聚簇；在第二向量空间内，对第二特征向量进行聚类得到各第二向量聚簇。

确定单元632，用于根据第一向量空间和第二向量空间之间的映射关系，确定第一向量聚簇和第二向量聚簇之间的相似性。

具体地，确定单元632可以先获取第一向量空间和第二向量空间之间的映射关系。确定单元632获取第一向量空间和第二向量空间之间的映射关系时，可以将第一特征向量v_s代入转换函数V'＝σ(w*V+b)进行迭代运算，以得到w和b取不同值时的第一映射向量v_d’，以及根据第一映射向量v_d’和对应的第二特征向量v_d确定损失函数取值；σ为S型函数；当损失函数取值小于阈值或达到最大迭代次数时停止迭代，将停止迭代时的w和b值代入转换函数，作为第一向量空间转化为第二向量空间的映射关系；以及，将第二特征向量v_d代入转换函数V'＝σ(w*V+b)进行迭代运算，以得到w和b取不同值时的第二映射向量v_s’，以及根据第二映射向量v_s’和对应的第一特征向量v_s确定损失函数取值；σ为S型函数；当损失函数取值小于阈值或达到最大迭代次数时停止迭代，将停止迭代时的w和b值代入转换函数，作为第二向量空间转化为第一向量空间的映射关系。

进一步地，确定单元632获取了第一向量空间和第二向量空间之间的映射关系之后，可以根据映射关系，将第一向量聚簇的质心向量映射至第二向量空间后，计算与第二向量空间中第二向量聚簇质心向量之间的第一距离；以及，根据映射关系，将第二向量聚簇的质心向量映射至第一向量空间后，计算与第一向量空间中第一向量聚簇质心向量之间的第二距离。最终，确定单元632根据第一距离和第二距离，确定第一向量聚簇和第二向量聚簇之间的相似性。

添加单元633，用于在第一特征向量所属的第一向量聚簇，与第一特征向量对应的第一映射向量所属的第二向量聚簇之间存在相似性时，将第一映射向量添加到第二向量集内；以及，在第二特征向量所属的第二向量聚簇，与第二特征向量对应的第二映射向量所属的第一向量聚簇之间存在相似性时，将第二映射向量添加到第一向量集内。

在本发明实施例的一种可能的实现方式中，如图9所示，在如图6所示实施例的基础上，该设备记录处理装置60还可以包括：

处理模块660，用于对第一目标聚簇和第二目标聚簇中的相似聚簇进行组合之前，获取第一向量空间和第二向量空间之间的映射关系；根据映射关系，将第一目标聚簇的质心向量映射至第二向量空间后，计算与第二向量空间中第二目标聚簇质心向量之间的第三距离；根据映射关系，将第二目标聚簇的质心向量映射至第一向量空间后，计算与第一向量空间中第一目标聚簇质心向量之间的第四距离；根据第三距离和第四距离，确定第一目标聚簇和第二目标聚簇之间的相似性。

需要说明的是，前述对设备记录处理方法实施例的解释说明也适用于该实施例的设备记录处理装置，其实现原理类似，此处不再赘述。

本实施例的设备记录处理装置，通过根据各条设备记录中的传感器测量值生成第一向量空间内的第一特征向量，并根据各条设备记录中的维保描述，生成第二向量空间内的第二特征向量，根据第一向量空间和第二向量空间之间的映射关系，确定各第一特征向量在第二向量空间内的第一映射向量，以及各第二特征向量在第一向量空间内的第二映射向量，选取第二映射向量添加到包含第一特征向量的第一向量集内，并选取第一映射向量添加到包含第二特征向量的第二向量集内，对第一向量集内的向量进行聚类得到第一目标聚簇，第二向量集内的向量进行聚类得到第二目标聚簇，对第一目标聚簇和第二目标聚簇中的相似聚簇进行组合，并根据每一条设备记录的第一特征向量、第二特征向量、第一映射向量和第二映射向量所属的组合，确定设备记录所属的类别，以实现对设备记录的有效归类。通过采集设备记录对应的设备传感器数据增加信息量，弥补了设备记录中可用特征不足的弊端；通过将设备记录数据转换为数值向量形式，避免了文本挖掘方法需要构造语料库的复杂工作；通过结合设备记录和传感器数据，从两个角度对同一问题进行聚类，能够对因人为主观因素造成的复杂数据进行有效归类，提高故障识别的准确率。

为了实现上述实施例，本发明还提出一种计算机设备。

图10为本发明一实施例提出的计算机设备的结构示意图。如图10所示，该计算机设备100包括：存储器110、处理器120及存储在存储器110上并可在处理器120上运行的计算机程序130，处理器120执行计算机程序130时，实现如前述实施例所述的设备记录处理方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述实施例所述的设备记录处理方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令由处理器执行时，执行如前述实施例所述的设备记录处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种设备记录处理方法，其特征在于，用于确定各条设备记录所属的类别，以根据所述类别统一所述设备记录中的维保描述，包括以下步骤：

2.根据权利要求1所述的设备记录处理方法，其特征在于，所述根据各条设备记录中的传感器测量值生成第一向量空间内的第一特征向量，并根据各条设备记录中的维保描述，生成第二向量空间内的第二特征向量，包括：

将每一种传感器测量值作为向量的一个维度，进行向量化，得到所述第一特征向量；所述传感器测量值包括温度值、转速和压力值中的至少一个；

将每一种维保描述作为向量的一个维度，进行向量化，得到所述第二特征向量；所述维保描述包括维保时间、设备类型、故障类别、故障级别、厂家名称和故障来源中的至少一个。

3.根据权利要求2所述的设备记录处理方法，其特征在于，所述将每一种传感器测量值作为向量的一个维度，进行向量化，得到所述第一特征向量之前，还包括：

对同一传感器在不同时刻的测量值进行平均，得到一种传感器测量值。

4.根据权利要求1所述的设备记录处理方法，其特征在于，所述选取所述第二映射向量添加到包含所述第一特征向量的第一向量集内，并选取所述第一映射向量添加到包含所述第二特征向量的第二向量集内，包括：

在第一向量空间内，对所述第一特征向量进行聚类得到各第一向量聚簇；在第二向量空间内，对所述第二特征向量进行聚类得到各第二向量聚簇；

根据第一向量空间和第二向量空间之间的映射关系，确定第一向量聚簇和第二向量聚簇之间的相似性；

若第一特征向量所属的第一向量聚簇，与所述第一特征向量对应的第一映射向量所属的第二向量聚簇之间存在相似性，将所述第一映射向量添加到所述第二向量集内；

若所述第二特征向量所属的第二向量聚簇，与所述第二特征向量对应的第二映射向量所属的第一向量聚簇之间存在相似性，将所述第二映射向量添加到所述第一向量集内。

5.根据权利要求4所述的设备记录处理方法，其特征在于，所述根据第一向量空间和第二向量空间之间的映射关系，确定第一向量聚簇和第二向量聚簇之间的相似性，包括：

获取第一向量空间和第二向量空间之间的映射关系；

根据所述映射关系，将所述第一向量聚簇的质心向量映射至所述第二向量空间后，计算与所述第二向量空间中第二向量聚簇质心向量之间的第一距离；

根据所述映射关系，将所述第二向量聚簇的质心向量映射至所述第一向量空间后，计算与所述第一向量空间中第一向量聚簇质心向量之间的第二距离；

根据所述第一距离和所述第二距离，确定所述第一向量聚簇和所述第二向量聚簇之间的相似性。

6.根据权利要求5所述的设备记录处理方法，其特征在于，所述获取第一向量空间和第二向量空间之间的映射关系，包括：

将第一特征向量v_s代入转换函数V'＝σ(w*V+b)进行迭代运算，以得到w和b取不同值时的第一映射向量v_d’，以及根据第一映射向量v_d’和对应的第二特征向量v_d确定损失函数取值；σ为S型函数；当损失函数取值小于阈值或达到最大迭代次数时停止迭代，将停止迭代时的w和b值代入所述转换函数，作为所述第一向量空间转化为第二向量空间的映射关系；

将第二特征向量v_d代入转换函数V'＝σ(w*V+b)进行迭代运算，以得到w和b取不同值时的第二映射向量v_s’，以及根据第二映射向量v_s’和对应的第一特征向量v_s确定损失函数取值；σ为S型函数；当损失函数取值小于阈值或达到最大迭代次数时停止迭代，将停止迭代时的w和b值代入所述转换函数，作为所述第二向量空间转化为第一向量空间的映射关系。

7.根据权利要求1所述的设备记录处理方法，其特征在于，所述对第一目标聚簇和所述第二目标聚簇中的相似聚簇进行组合之前，还包括：

获取第一向量空间和第二向量空间之间的映射关系；

根据所述映射关系，将所述第一目标聚簇的质心向量映射至所述第二向量空间后，计算与所述第二向量空间中第二目标聚簇质心向量之间的第三距离；

根据所述映射关系，将所述第二目标聚簇的质心向量映射至所述第一向量空间后，计算与所述第一向量空间中第一目标聚簇质心向量之间的第四距离；

根据所述第三距离和所述第四距离，确定所述第一目标聚簇和所述第二目标聚簇之间的相似性。

8.一种设备记录处理装置，其特征在于，用于确定各条设备记录所属的类别，以根据所述类别统一所述设备记录中的维保描述，包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一项所述的设备记录处理方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的设备记录处理方法。