CN113704470A

CN113704470A - 用于设备缺陷分类的实现方法及系统

Info

Publication number: CN113704470A
Application number: CN202110988404.6A
Authority: CN
Inventors: 刘建华; 孟禹; 刘良洁; 林涛
Original assignee: Brilliant Data Analytics Inc
Current assignee: Brilliant Data Analytics Inc
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-11-26
Anticipated expiration: 2041-08-26
Also published as: CN113704470B

Abstract

本发明涉及设备缺陷数据分析领域，为用于设备缺陷分类的实现方法及系统，其方法包括：获取文本数据，并对文本数据进行预处理，所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息；基于BERT模型对预处理后的文本数据进行训练得到初始化BERT模型；通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化；利用优化后的BERT模型对设备缺陷数据进行预测得到设备缺陷分类结果；基于约束规则对BERT模型预测后的结果进行二次优化得到最终的分类结果。本发明首先根据已标注的设备缺陷数据训练通用的缺陷分类模型，再利用该模型对未标注的设备缺陷数据进行预测，能够快速准确的实现缺陷分类，为数据分析应用实时响应奠定基础。

Description

用于设备缺陷分类的实现方法及系统

技术领域

本发明涉及设备缺陷数据分析领域，具体涉及用于设备缺陷分类的实现方法及系统。

背景技术

企业信息系统存储着大量的设备缺陷数据，此数据日积月累，已成为公司重要的数据资产。企业管理由原先的粗放式管理逐步转化为精细化管理，设备管理部门需通过设备的历史缺陷来管理供应商的供货质量，制定设备巡检计划和设备防护措施来避免设备缺陷的发生，从而达到设备管理的精细化管理。由于设备类别众多，设备缺陷数据存在数据填写不规范、存在歧义、填写内容无实际价值等特点，给设备管理部门对该缺陷数据的利用率不高。目前设备管理部门使用设备缺陷数据时，主要是通过人工标注来实现，而人工标注耗时耗力，标注易出错，对设备缺陷数据的分析应用带来很大的困难。

发明内容

本发明提出用于设备缺陷分类的实现方法来解决上述现有技术所存在的问题，首先根据已标注的设备缺陷数据训练通用的缺陷分类模型，再利用该模型对未标注的设备缺陷数据进行预测，能够快速准确的实现缺陷分类，为数据分析应用实时响应奠定基础。

本发明还提出用于设备缺陷分类的系统。

本发明用于设备缺陷分类的实现方法，包括以下步骤：

步骤S1、获取文本数据，并对文本数据进行预处理，所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息；

步骤S2、基于BERT模型对预处理后的文本数据进行训练，得到初始化BERT模型；

步骤S3、通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化；

步骤S4、利用优化后的BERT模型对设备缺陷数据进行预测，得到设备缺陷分类结果；

步骤S5、基于约束规则对BERT模型预测后的结果进行二次优化，得到最终的分类结果。

基于相同的发明构思，本发明用于设备缺陷分类的系统，包括：

数据预处理模块，用于获取文本数据，并对文本数据进行预处理，所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息；

模型训练模块，基于BERT模型对预处理后的文本数据进行训练，得到初始化BERT模型；

模型优化模块，通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化；

模型预测模块，基于BERT模型对设备缺陷数据进行预测，得到设备缺陷分类结果。

预测结果优化模块，基于缺陷类型对应的关键词库对模型预测的结果进行二次优化，输出最终的分类结果。

与现有技术相比，本发明提出的技术方案取得的技术效果包括：

本发明首先利用BERT模型对已标注的设备缺陷数据进行模型训练，然后对未标注的设备缺陷数据进行模型预测，从而提高数据清洗效率，为开展数据分析应用实时响应奠定基础。

附图说明

图1为本发明实施例中基于BERT模型实现缺陷类型分类的整体流程图；

图2为本发明实施例中BERT模型预测输出各个缺陷类型的得分示意图；

图3为本发明实施例中基于BERT模型实现缺陷类型分类的系统框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行详细说明，但本发明的实施方式并不限于此。

实施例

如图1所示，本实施例中，用于设备缺陷分类的实现方法包括以下步骤：

步骤S1、获取文本数据，并基于正则分析对文本数据进行预处理，以提升数据质量，所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息。

由于文本数据的描述存在数据填写不规范、歧义、填写内容无实际价值等问题，因此需要对文本数据进行预处理，将其规范化，其处理步骤如下：

S11、建立缺陷词库，例如：树障、生锈、放电、发热、雷击、积水、倒塌等。

S12、将文本数据的内容按分隔符进行切分，切分后得到多个分段文本，其中分隔符为常用标点符号。

S13、判断切分后的各分段文本是否为有价值的内容描述。假如某分段文本不包含缺陷词库的描述，则该分段文本的内容被视为无价值的描述，将其舍弃。

S14、将有价值的分段文本重新组合，在分段文本组合时需参考BERT模型的输入文本长度(输入文本长度为128个字符)，假如在分段文本组合过程中，组合后的文本长度超过BERT模型的输入文本长度，则舍弃最后一节分段文本，得到最终预处理后的文本数据。

步骤S2、基于BERT模型对预处理后的文本数据进行训练，得到初始化BERT模型。本实施例使用的预训练模型为Google预训练好的chinese_L-12_H-768_A-12，其训练步骤如下：

S21、获取步骤S1预处理后的文本数据，包括缺陷描述信息和缺陷类型信息；将缺陷类型信息按预设数量划分，得到均匀分布的样本数据；最后将均匀分布的样本数据按比例分为训练集、验证集和测试集。

S22、利用BERT模型下的file_based_convert_examples_to_features将缺陷描述信息转换为BERT模型所需的特征向量，所述特征向量包括了词向量、分段向量和位置向量。

S23、输入特征向量和相应的模型参数，用BERT模型对文本数据进行训练，得到文本数据的标签得分，其表现形式如图2所示，一共有10个缺陷类型(鸟害、鼠患、密封不严、漏气、积水、门损伤、放电、机器异响、装置故障、锈蚀),输入文本描述，经BERT模型训练得到每个缺陷类型的分数，每条记录的分数求和等于1。

S24、根据设备类别和标签得分对分类结果进行优化。

现有模型采用得分最高的标签为分类结果。由于缺陷类型的划分还需考虑设备类别因素，一个设备类别含有多个缺陷类型，所以本实施例采用指定设备类别下得分最高的缺陷类型作为分类结果。例如：设备类别A对应的缺陷类型为A1、A2、A3、A4；设备类别B对应的缺陷类型为B1、B2、B3、B4；在对设备类别A的文本数据进行预测时，会得到设备类别B的缺陷类型，这显然是不合理的，因此需采用设备类别A下得分最高的缺陷类型作为分类结果。

S25、验证模型的准确率，并保存模型。训练模型时，每隔一定次数(例如5000次)在验证集上进行验证，并计算出准确率，假如准确率大于前一次验证的准确率，则保存模型，直到迭代停止，迭代停止条件是通过迭代次数控制。准确率的计算方式如下：

其中TP表示真正例样本数，FP表示实际为假正例样本数，FN表示实际为假负例样本数，TN表示实际为真负例样本数。

步骤S3、优化初始化BERT模型，保存优化后的BERT模型，此模型供后续做预测使用。

主要是通过调整模型参数和修改样本标注数据来实现初始化BERT模型的优化。由于样本标注数据是人工标注，易出现错误，因此需对其修改。样本数据经手工标注调整后形成样本标注数据，再通过调整模型参数来对模型调优，每调整一次参数均记录对应的准确率，假如准确率达到人工设定的阈值，则此模型可用，保存最优模型，否则再进行优化。

步骤S4、利用优化后的BERT模型对设备缺陷数据进行预测，可得到设备缺陷分类结果，其步骤如下：

S401、获取原始数据，其数据字段包含设备类别、缺陷描述信息。

S402、通过读取步骤S11所建立的缺陷词库(例如：树障、生锈、放电、发热、雷击、积水、倒塌等等)，将缺陷词库定义为一个集合P(keywords)。

S403、读取BERT模型下的file_based_convert_examples_to_features缺陷描述信息转换后的特征向量，此特征包含了词向量、分段向量和位置向量。依据转换成向量的方法，把集合P(keywords)的所有缺陷词库都转化为向量值。

S404、读取步骤S1对文本数据预处理后需要预测的词语，对其进行向量化(向量化操作和步骤S403相同)，定义集合Q(seewords)。

S405、定义相关性算法，通过计算角度距离判断词语的相关性，算法如下：

公式(1)中，P代表集合P(keywords)里面某个缺陷词的向量，Q代表集合Q(seewords)里面某个需要预测的词语的向量,β为P、Q两个向量的夹角。

S406、针对需要预测的词语和缺陷词语进行逐个判断，找出相关性大的词语，即找出角度距离排在前50的词语；然后通过反向溯源找到它们(缺陷词语)所在的句子。

以上步骤401-406记为方法1。

S407、定义与出现在句子中的缺陷词库里的词语相关的词语作为相关词，例如“树障”通常会关联“茂密、”“修剪”、“砍伐”；“生锈”通常会关联“钢铁”、“油漆”；“积水”通常会关联“暴雨”、“疏通”等。

S408、根据相关词定义相关词的词库集合CP(closewords)，并对词库集合CP进行向量化(向量化操作和步骤S403相同)；

S409、针对句子拆分出来的词集合W(words)，删除缺陷词库的词语(集合P(keywords)出现的词)，把剩余的词与相关词库即CP(closewords)集合进行相关性计算，也就是利用公式(1)进行角度距离大小的计算，设拆分出来的词集合为W(words)也是进行了向量处理：

公式(2)中，CP代表集合CP(closewords)里面某个相关词的向量、W代表集合W(words)里面某个拆分出来的词的向量,β为CP、W两个向量的夹角。

S410、对某个句子，根据角度距离大小判断相关性，对符合相关性要求的角度距离小于10度的词语，采用记1分的方式进行登记和加分，对角度距离大于10度的词语统统抛弃，从而筛选出有接近相关性词语的词的句子。

以上步骤S407-410记为方法2。

通过这样的方法(方法1+方法2)，最终找出那些既有接近相关性词语的词，也有接近缺陷词语的词的句子。

S411、有了上述句子基础，就可以对缺陷词语的频度进行调查，统计出含有缺陷词语和相关性词语在这一批句子中的频度Hertz_i,实现方式如下：

定义一个频度集合Z(F_i)，设出现缺陷词语的句子条数为n，这些出现缺陷词语的句子中含有多个相关缺陷词语个数为L，相关词在全文中出现的次数为num，所统计的句子总条数为fnum，被标记为告警级别和以上级别的句子条数(排除级别为信息记录级别的条数)为T，定义公式如下：

其中，i＝1,2,3，…，n，通过以上公式，统计出含有缺陷词语和相关词语在这一批句子中的频度Hertz_i。

对应的伪代码为：

a)读取方法1+方法2所统计出来的句子，设置集合Z(F_i)总个数为N；

b)初始化集合Z(F_i)；

c)统计n、L、num、fnum、T的值；

d)for i＝1 to n do：

e)读取一个F_i的初始参数；

f)根据公式(3)计算得到集合Z(F_i)；

g)end for

h)for j＝0 to n do：

i)根据公式(4)计算频度；

j)end for

k)return含有缺陷和相关词语在这一批句子中的频度集Hertz_i。

通过以上的方法，可对那些没有通过训练的文本，评判它的缺陷频度集，从而找出含有高度设备缺陷的句子，对这些句子进行训练，可以得到训练模型需要的结果。

步骤S5、基于约束规则对BERT模型预测后的结果进行二次优化，得到最终的分类结果，提高文本分类的准确性。

在模型预测环节中，模型预测的准确率达到一定程度就无法提升，为了提高预测准确率，需利用约束规则对缺陷类型进行微调优化，其步骤如下：

S51、总结缺陷类型对应的缺陷词语和短文本，一个缺陷类型可对应多个不同的缺陷词语和短文本。

S52、利用正则表达式对设备缺陷描述文本做出判断，假如文本描述包含某缺陷类型的缺陷词语和短文本，则输出该缺陷类型，否则输出预测的缺陷类型。

基于相同的发明构思，本实施例还提供用于设备缺陷分类的系统，如图3所示，具体包括以下模块：

数据预处理模块，用于实现步骤S1,获取文本数据，并对文本数据进行预处理，所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息；

模型训练模块，用于实现步骤S2,基于BERT模型对预处理后的文本数据进行训练，得到初始化BERT模型；

模型优化模块，用于实现步骤S3,通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化；

模型预测模块，用于实现步骤S4,基于BERT模型对设备缺陷数据进行预测，得到设备缺陷分类结果。

预测结果优化模块，用于实现步骤S5,基于缺陷类型对应的关键词库对模型预测的结果进行二次优化，输出最终的分类结果。

数据预处理模块首先建立缺陷词库；将文本数据的内容按分隔符进行切分，切分后得到多个分段文本；判断切分后的各分段文本是否为有价值的内容描述，假如某分段文本不包含缺陷词库的描述，则该分段文本的内容被视为无价值的描述，将其舍弃；将有价值的分段文本重新组合，得到最终预处理后的文本数据。

而模型训练模块通过获取预处理后的文本数据，将缺陷类型信息按预设数量划分得到均匀分布的样本数据，将样本数据按比例分为训练集、验证集和测试集；将缺陷描述信息转换为BERT模型所需的特征向量，所述特征向量包括词向量、分段向量和位置向量；输入特征向量和相应的模型参数，用BERT模型对文本数据进行训练，得到文本数据的标签得分；根据设备类别和标签得分对分类结果进行优化；验证模型的准确率，并保存模型。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.用于设备缺陷分类的实现方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的实现方法，其特征在于，步骤S1包括：

S11、建立缺陷词库；

S12、将文本数据的内容按分隔符进行切分，切分后得到多个分段文本；

S13、判断切分后的各分段文本是否为有价值的内容描述；假如某分段文本不包含缺陷词库的描述，则该分段文本的内容被视为无价值的描述，将其舍弃；

S14、将有价值的分段文本重新组合，得到最终预处理后的文本数据。

3.根据权利要求1所述的实现方法，其特征在于，步骤S2包括：

S21、获取预处理后的文本数据，将缺陷类型信息按预设数量划分得到均匀分布的样本数据，将样本数据按比例分为训练集、验证集和测试集；

S22、将缺陷描述信息转换为BERT模型所需的特征向量，所述特征向量包括词向量、分段向量和位置向量；

S23、输入特征向量和相应的模型参数，用BERT模型对文本数据进行训练，得到文本数据的标签得分；

S24、根据设备类别和标签得分对分类结果进行优化；

S25、验证模型的准确率，并保存模型。

4.根据权利要求3所述的实现方法，其特征在于，步骤S4包括：

S401、获取原始数据，其数据字段包含设备类别、缺陷描述信息；

S402、读取缺陷词库，并将缺陷词库定义为一个集合P；

S403、读取缺陷描述信息转换后的特征向量，依据转换成向量的方法，把集合P的所有缺陷词库都转化为向量值；

S404、读取对文本数据预处理后需要预测的词语，对其进行向量化，定义集合Q；

S405、定义相关性算法，通过计算角度距离判断词语的相关性；

S406、针对需要预测的词语和缺陷词语进行逐个判断，找出相关性大的词语，然后通过反向溯源找到缺陷词语所在的句子；

S407、定义与出现在句子中的缺陷词库里的词语相关的词语作为相关词；

S408、根据相关词定义相关词的词库集合CP，并对词库集合CP进行向量化；

S409、针对句子拆分出来的词集合W，删除缺陷词库的集合P出现的词，把剩余的词与词库集合CP进行角度距离大小的计算；

S410、对某个句子，根据角度距离大小判断相关性，筛选出有接近相关性词语的词的句子；

S411、对缺陷词语的频度进行调查，统计出含有缺陷词语和相关性词语在一批句子中的频度。

5.根据权利要求4所述的实现方法，其特征在于，步骤S405的相关性算法计算如下：

式中P代表集合P里某个缺陷词的向量，Q代表集合Q里某个需要预测的词语的向量，β为P、Q两个向量的夹角。

6.根据权利要求4所述的实现方法，其特征在于，步骤S411中频度的统计方法为：

定义一个频度集合Z(F_i)，设出现缺陷词语的句子条数为n，这些出现缺陷词语的句子中含有多个相关缺陷词语个数为L，相关词在全文中出现的次数为num，所统计的句子总条数为fnum，被标记为告警级别和以上级别的句子条数为T，定义公式如下：

其中，i＝1，2，3，...，n，通过以上公式统计出含有缺陷和相关词语在一批句子中的频度Hertz_i。

7.根据权利要求1所述的实现方法，其特征在于，步骤S5包括：

S51、总结缺陷类型对应的缺陷词语和短文本；

8.用于设备缺陷分类的系统，其特征在于，包括：

9.根据权利要求8所述的系统，其特征在于，数据预处理模块建立缺陷词库；将文本数据的内容按分隔符进行切分，切分后得到多个分段文本；判断切分后的各分段文本是否为有价值的内容描述，假如某分段文本不包含缺陷词库的描述，则该分段文本的内容被视为无价值的描述，将其舍弃；将有价值的分段文本重新组合，得到最终预处理后的文本数据；

模型训练模块获取预处理后的文本数据，将缺陷类型信息按预设数量划分得到均匀分布的样本数据，将样本数据按比例分为训练集、验证集和测试集；将缺陷描述信息转换为BERT模型所需的特征向量，所述特征向量包括词向量、分段向量和位置向量；输入特征向量和相应的模型参数，用BERT模型对文本数据进行训练，得到文本数据的标签得分；根据设备类别和标签得分对分类结果进行优化；验证模型的准确率，并保存模型。

10.根据权利要求8所述的系统，其特征在于，模型预测模块的预测过程为：

获取原始数据，其数据字段包含设备类别、缺陷描述信息；

读取缺陷词库，并将缺陷词库定义为一个集合P；

读取缺陷描述信息转换后的特征向量，依据转换成向量的方法，把集合P的所有缺陷词库都转化为向量值；

读取对文本数据预处理后需要预测的词语，对其进行向量化，定义集合Q；

定义相关性算法，通过计算角度距离判断词语的相关性；

针对需要预测的词语和缺陷词语进行逐个判断，找出相关性大的词语，然后通过反向溯源找到缺陷词语所在的句子；

定义与出现在句子中的缺陷词库里的词语相关的词语作为相关词；

根据相关词定义相关词的词库集合CP，并对词库集合CP进行向量化；

针对句子拆分出来的词集合W，删除缺陷词库的集合P出现的词，把剩余的词与词库集合CP进行角度距离大小的计算；

对某个句子，根据角度距离大小判断相关性，筛选出有接近相关性词语的词的句子；

对缺陷词语的频度进行调查，统计出含有缺陷词语和相关性词语在一批句子中的频度，其中频度的统计方法为：