CN113918723A

CN113918723A - 一种设备信息的分类方法及装置

Info

Publication number: CN113918723A
Application number: CN202111415304.0A
Authority: CN
Inventors: 孟子杰; 董锴; 崔艳林; 蔡新雷; 郝文焕; 傅伟豪; 郭俊宏
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-01-11

Abstract

本发明公开了一种设备信息的分类方法及装置，所述方法包括：获取待处理二次设备的运行数据；采用最大概率路径算法对所述运行数据进行分词处理得到分词数据；利用所述分词数据计算所述待处理二次设备与在先存储的设备相互之间的数据相似值；根据所述数据相似值分类存储所述待处理二次设备的运行数据。本发明可以获取设备的运行数据，基于设备的运行数据对设备进行分词，最后根据分词数据确定设备的运行数据是否为已存储设备的运行数据，以实现数据的整合和分类的效果，从而减轻用户处理数据的负担，提高数据的处理效率。

Description

一种设备信息的分类方法及装置

技术领域

本发明涉及设备信息整理的技术领域，尤其涉及一种设备信息的分类方法及装置。

背景技术

电力二次设备(简称二次设备)是对电力系统内一次设备进行监察，测量，控制，保护，调节的辅助设备。即不直接和电能产生联系的设备。随着电力系统规模的逐渐扩大，对电力系统的安全性和可靠性方面的要求日益严格，因此，对电力二次设备的维护和管理变得尤为重要。

由于二次设备种类繁多，数量庞大，需要对二次设备的数据进行及时更新和维护。传统的数据更新和维护方法是通过人工对设备进行现场检修，并在检修后填写对应的单据，最后再录入管理系统(如计算机)中，再有管理系统统一处理。

但目前常用的数据管理方法有如下技术问题：由于早期所记录积累的关于二次设备的缺陷、检修、定值单等运行数据通常采用非结构化的数据格式存储，导致各个信息相互之间存储较混乱，信息与信息之间的没有任何关联度，用户查用信息困难，而且往后录入的信息往往容易覆盖在先的信息，容易导致不同二次设备的信息出现缺漏和遗失等情况，使得技术人员无法查看设备的在先工作情况，进而增加了技术人员对设备的维修保养的难度。

发明内容

本发明提出一种设备信息的分类方法及装置，所述方法可以对设备的运行数据进行分词识别，以确定运行数据所对应的设备类型，从而实现整合和分类数据的效果。

本发明实施例的第一方面提供了一种设备信息的分类方法，所述方法包括：获取待处理二次设备的运行数据；

采用最大概率路径算法对所述运行数据进行分词处理得到分词数据；

利用所述分词数据计算所述待处理二次设备与在先存储的设备相互之间的数据相似值；

根据所述数据相似值分类存储所述待处理二次设备的运行数据。

在第一方面的一种可能的实现方式中，所述运行数据包括历史运行数据；

所述采用最大概率路径算法对所述运行数据进行分词处理得到分词数据，包括：

从所述历史运行数据中查找用于描述待处理二次设备的状态的描述文本数据；

按照预设的词库从所述描述文本数据中提取若干个词组，并获取所述若干个词组的词组顺序；

将所述词组顺序中的每一个词组作为一个顶点，按所述词组顺序将所述若干个词组绘制成词组有向图，并对所述词组有向图中每两个直接相连的顶点的路径赋上权值，得到若干个权值；

采用最大概率路径算法计算所述若干个权值与预设分词组内每一个分词方案对应的分词概率值，得到多个分词概率值，所述预设分词组内存有多个分词方案；

从所述多个分词概率值中筛选数值最大的目标分词概率值，以所述目标分词概率值对应的分词方案划分所述历史运行数据得到分词数据。

在第一方面的一种可能的实现方式中，所述运行数据包括实时运行数据；

获取所述实时运行数据对应的数据类型；

按照所述数据类型查找对应的分词规则；

按照所述分词规则划分所述实时运行数据得到分词数据。

在第一方面的一种可能的实现方式中，所述利用所述分词数据计算所述待处理二次设备与在先存储的设备相互之间的数据相似值，包括：

采用相似度计算算法计算所述分词数据与每个在先存储的设备对应的在先数据相互之间的数据相似值。

在第一方面的一种可能的实现方式中，所述根据所述数据相似值分类存储所述待处理二次设备的运行数据，包括：

当所述数据相似值大于预设阈值，则将所述待处理二次设备的运行数据分类存储至所述预设阈值对应的在先存储设备的在先设备数据库中；

当所述数据相似值小于预设阈值，则创建与所述待处理二次设备对应的待处理存储数据库，并将所述待处理二次设备的运行数据分类存储至所述待处理存储数据库中。

本发明实施例的第二方面提供了一种设备信息的分类装置，所述装置包括：获取模块，用于获取待处理二次设备的运行数据；

分词模块，用于采用最大概率路径算法对所述运行数据进行分词处理得到分词数据；

计算模块，用于利用所述分词数据计算所述待处理二次设备与在先存储的设备相互之间的数据相似值；

分类模块，用于根据所述数据相似值分类存储所述待处理二次设备的运行数据。

在第二方面的一种可能的实现方式中，所述运行数据包括历史运行数据；

所述分词模块还用于：

在第二方面的一种可能的实现方式中，所述运行数据包括实时运行数据；

所述分词模块还用于：

获取所述实时运行数据对应的数据类型；

按照所述数据类型查找对应的分词规则；

按照所述分词规则划分所述实时运行数据得到分词数据。

在第二方面的一种可能的实现方式中，所述计算模块还用于：

在第二方面的一种可能的实现方式中，所述分类模块还用于：

相比于现有技术，本发明实施例提供的一种设备信息的分类方法及装置，其有益效果在于：本发明可以获取设备的运行数据，基于设备的运行数据对设备进行分词，最后根据分词数据确定设备的运行数据是否为已存储设备的运行数据，以实现数据的整合和分类的效果，从而减轻用户处理数据的负担，提高数据的处理效率。

附图说明

图1是本发明一实施例提供的一种设备信息的分类方法的流程示意图；

图2是本发明一实施例提供的一种设备信息的分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前常用的数据管理方法有如下技术问题：由于早期所记录积累的关于二次设备的缺陷、检修、定值单等运行数据通常采用非结构化的数据格式存储，导致各个信息相互之间存储较混乱，信息与信息之间的没有任何关联度，用户查用信息困难，而且往后录入的信息往往容易覆盖在先的信息，容易导致不同二次设备的信息出现缺漏和遗失等情况，使得技术人员无法查看设备的在先工作情况，进而增加了技术人员对设备的维修保养的难度。

为了解决上述问题，下面将通过以下具体的实施例对本申请实施例提供的一种设备信息的分类方法进行详细介绍和说明。

参照图1，示出了本发明一实施例提供的一种设备信息的分类方法的流程示意图。

其中，作为示例的，所述设备信息的分类方法，可以包括：

S11、获取待处理二次设备的运行数据。

待处理的二次设备可以是并为分类存储的二次设备。运行数据可以是关于二次设备在运行时的各种状态数据，例如，可以是检修信息、报警信息、监控信息、各种定值信息、缺陷信息等等。

可以通过实时检测和反查以往记录的数据得到待处理二次设备的运行数据。

S12、采用最大概率路径算法对所述运行数据进行分词处理得到分词数据。

由于待处理二次设备的运行数据包含多种信息内容，若对所有信息内容逐一筛查和判断，会增加处理时间，降低处理效率，可以对运行数据进行对应的分词，从而得到运行数据中的关键词，最后可以基于其关键词进行设备的分类，以提高数据的处理效率。

在一可选的实施例中，所述运行数据包括历史运行数据。

由于以往的历史数据均可能通过不同的维修人员填写或处理，不同的人填写时的格式和数据结构均不同，为了实现对不同结构或不同格式的数据进行分词，其中，作为示例的，步骤S12可以包括以下子步骤：

子步骤S121、从所述历史运行数据中查找用于描述待处理二次设备的状态的描述文本数据。

可选地，描述文本数据可以是以往的检修人员对二次设备进行维修或保养时对二次设备的评价内容。例如，可以是漏电、良好、老化等等；又例如，设备使用10年，已出现电压不稳的情况等等。

子步骤S122、按照预设的词库从所述描述文本数据中提取若干个词组，并获取所述若干个词组的词组顺序。

预设的词库可以包含多个用户预设的词语，每个词语可以对应一个词组。

在应用时，可以按照预设的词库中所包含的各种词语对描述文本数据进行词组提取，从而可以得到若干个词组。

在获取若干个词组后，可以按照获取若干个词组的时间顺序对若干个词组进行排序，并获取其排列顺序，得到词组顺序。

子步骤S123、将所述词组顺序中的每一个词组作为一个顶点，按所述词组顺序将所述若干个词组绘制成词组有向图，并对所述词组有向图中每两个直接相连的顶点的路径赋上权值，得到若干个权值。

如顶点A→顶点B，则AB两个顶点间的路径权值为B的权值(若B为结束顶点，则权值为0)。

此时原问题就转化成了单源最短路径问题，通过动态规划解出最优解即可。

子步骤S124、采用最大概率路径算法计算所述若干个权值与预设分词组内每一个分词方案对应的分词概率值，得到多个分词概率值，所述预设分词组内存有多个分词方案。

在一实施例中，用户可以设置多个分词方案，每个分词方案可以对应一个分词规则，由于以往的历史运行数据可能有不同的维修人员填写，而不同的维修人员可能有不同的书写习惯，可以根据每个维修人员的书写习惯对应划分一个分词方案，最后将多个分词方案集合得到预设分词组。

在应用时，可以利用最大概率路径算法分别计算所述若干个权值与每个分词方案相互之间相近的分词概率值，从而可以得到多个分词概率值。

子步骤S125、从所述多个分词概率值中筛选数值最大的目标分词概率值，以所述目标分词概率值对应的分词方案划分所述历史运行数据得到分词数据。

由于每个分词概率值表示所述若干个权值与分词方案的相近距离，从多个分词概率值中筛选数值最大的目标分词概率值，可以得到最接近的分词方案，从而可以利用该分词方案所包含的分词规则对历史运行数据进行分词，最后得到对应的分词数据。

具体地，在分词过程中，输入的若干个词组可以是一个字符串T₁,T₂,...,T_n，输出的分词数据可以是一个词串S＝W₁,W₂,...,W_m，其中m<＝n。对于一个特定的字符串T，可能会有多个对应的分词方案S，其分词操作就是在这些分词方案S中找出概率最大的一个分词方案，也就是对输入的字符串切分出最有可能的词序列。

计算目标句子T的分词方案为S的概率，其中S＝{s₁,s₂,...,s_m}：

求取令概率最大的分词方案S，其计算公式如下所示：

其算法方式可以是：先对一个待分词的子串T，按照从左到右的顺序取出全部候选词s₁,s₂,...,s_m，然后到词典中查出每个候选词的概率值P(s_i)，并记录每个候选词的全部左邻词；接着按照计算的每个累计概率，同时比较得到每个候选词的最佳左邻词；如果当前词s_m是字串T的尾词，且累计概率P(s_m)最大，则s_m就是T的终点词；从s_m开始，按照从右到左顺序，依次将每个词的最佳左邻词输出，即T的分词结果。

通过筛选对应的分词规则进行分词，可以有效对历史运行数据进行对应分词，以提高分词的准确率。

在一实施例中，所述运行数据包括实时运行数据。

所述实时运行数据为二次设备在实时运行时检测的数据，该数据可以是维护人员在当时时间节点在现场实时检测得到的数据。

由于二次设备的类型有很多，可能有新增加的用于维护的二次设备，而新增加的二次设备可能未进行分类，需要对二次设备的实时运行数据进行对应的分词，以确定该二次设备的类型，从而可以根据其设备类型进行相应的信息存储管理。

在一可选的实施例中，步骤S12可以包括以下子步骤：

子步骤S126、获取所述实时运行数据对应的数据类型。

具体地，数据类型可以是输入的数据格式类型。

子步骤S127、按照所述数据类型查找对应的分词规则。

在一实施例中，维修人员对在后新增的二次设备进行保养维护时，其填写数据的方式是用户预先设定的，所以新增的实时运行数据可以按照用户预先设定的方式进行添加并采集得到。因此，可以通过获取该数据类型，可以获取得到其对应的数据格式类型。

在得到其数据格式类型后，可以基于数据格式类型查找对应的分词规则。分词规则也可以是用户预先设定的。不同的分词规则可以对应不同的数据格式类型。

子步骤S128、按照所述分词规则划分所述实时运行数据得到分词数据。

在确定分词规则，可以按照分词规则划分实时运行数据，从而得到对应的分词数据。

通过快速查找新增二次设备的实时运行数据的数据类型，可以快速确定该实时运行数据的分词规则，最后可以按此分词规则进行分词，以提高分词效率。

S13、利用所述分词数据计算所述待处理二次设备与在先存储的设备相互之间的数据相似值。

在获取分词数据后，可以基于分词数据与在先存储的二次设备的数据进行相似值计算，从而可以确定当前的待处理二次设备是否为在先存储的二次设备。

由于相同设备的各种状态数据大同小异，通过数据的相似值计算，可以有效确定数据之间的关联，快速确定当前的待处理二次设备是否为在先存储的二次设备。

在其中一种的实施例中，步骤S13可以包括以下子步骤：

子步骤S131、采用相似度计算算法计算所述分词数据与每个在先存储的设备对应的在先数据相互之间的数据相似值。

具体地，每个在先存储的二次设备均有其对应的存储空间存储其对应的数据，可以计算分词数据与每个在先存储的二次设备对应的数据之间的数据相似值。

S14、根据所述数据相似值分类存储所述待处理二次设备的运行数据。

在确定数据相似值后，可以根据数值的大小确定当前的待处理二次设备是否为在先存储的二次设备，从而可以对应存储当前的待处理二次设备的运行数据。

为了准确存储当前的待处理二次设备的运行数据，在一实施例中，步骤S14可以包括以下子步骤：

步骤S141、当所述数据相似值大于预设阈值，则将所述待处理二次设备的运行数据分类存储至所述预设阈值对应的在先存储设备的在先设备数据库中。

步骤S142、当所述数据相似值小于预设阈值，则创建与所述待处理二次设备对应的待处理存储数据库，并将所述待处理二次设备的运行数据分类存储至所述待处理存储数据库中。

在又一实施例中，由于分词数据会与多个在先二次设备的数据进行相似值计算，可以计算得到多个数据相似值，若有多个数据相似值大于预设阈值时，则从多个数据相似值中筛选数值最大的数据相似值，基于数值最大的数据相似值确定存储的区域。

在本实施例中，本发明实施例提供了一种设备信息的分类方法，其有益效果在于：本发明可以获取设备的运行数据，基于设备的运行数据对设备进行分词，最后根据分词数据确定设备的运行数据是否为已存储设备的运行数据，以实现数据的整合和分类的效果，从而减轻用户处理数据的负担，提高数据的处理效率。

本发明实施例还提供了一种设备信息的分类装置，参见图2，示出了本发明一实施例提供的一种设备信息的分类装置的结构示意图。

其中，作为示例的，所述设备信息的分类装置可以包括：

获取模块201，用于获取待处理二次设备的运行数据；

分词模块202，用于采用最大概率路径算法对所述运行数据进行分词处理得到分词数据；

计算模块203，用于利用所述分词数据计算所述待处理二次设备与在先存储的设备相互之间的数据相似值；

分类模块204，用于根据所述数据相似值分类存储所述待处理二次设备的运行数据。

可选地，所述运行数据包括历史运行数据；

所述分词模块还用于：

可选地，所述运行数据包括实时运行数据；

所述分词模块还用于：

获取所述实时运行数据对应的数据类型；

按照所述数据类型查找对应的分词规则；

按照所述分词规则划分所述实时运行数据得到分词数据。

可选地，所述计算模块还用于：

可选地，所述分类模块还用于：

进一步的，本申请实施例还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的设备信息的分类方法。

进一步的，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述实施例所述的设备信息的分类方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种设备信息的分类方法，其特征在于，所述方法包括：

获取待处理二次设备的运行数据；

2.根据权利要求1所述的设备信息的分类方法，其特征在于，所述运行数据包括历史运行数据；

3.根据权利要求1所述的设备信息的分类方法，其特征在于，所述运行数据包括实时运行数据；

获取所述实时运行数据对应的数据类型；

按照所述数据类型查找对应的分词规则；

按照所述分词规则划分所述实时运行数据得到分词数据。

4.根据权利要求2或3任意一项所述的设备信息的分类方法，其特征在于，所述利用所述分词数据计算所述待处理二次设备与在先存储的设备相互之间的数据相似值，包括：

5.根据权利要求4所述的设备信息的分类方法，其特征在于，所述根据所述数据相似值分类存储所述待处理二次设备的运行数据，包括：

6.一种设备信息的分类装置，其特征在于，所述装置包括

获取模块，用于获取待处理二次设备的运行数据；

7.根据权利要求6所述的设备信息的分类装置，其特征在于，所述运行数据包括历史运行数据；

所述分词模块还用于：

8.根据权利要求6所述的设备信息的分类装置，其特征在于，所述运行数据包括实时运行数据；

所述分词模块还用于：

获取所述实时运行数据对应的数据类型；

按照所述数据类型查找对应的分词规则；

按照所述分词规则划分所述实时运行数据得到分词数据。

9.根据权利要求7或8任意一项所述的设备信息的分类装置，其特征在于，所述计算模块还用于：

10.根据权利要求9所述的设备信息的分类装置，其特征在于，所述分类模块还用于：