CN116484262A

CN116484262A - 一种基于文本分类对纺织设备故障辅助处理方法

Info

Publication number: CN116484262A
Application number: CN202310502606.4A
Authority: CN
Inventors: 华亮; 顾金玺; 袁银龙; 叶鸿飞; 陈鹏; 施可昕; 程赟
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-07-25
Anticipated expiration: 2043-05-06
Also published as: CN116484262B

Abstract

本发明涉及故障诊断技术领域，尤其涉及一种基于文本分类对纺织设备故障辅助处理方法，包括：S1、根据目标文本的历史文本维修检测等关联数据获取初始提示特征、样本文本，样本文本的标注类别得到训练文本；S2、将训练文本输入预先构建的文本分类模型，利用文本分类模型的词特征提取网络对训练文本进行处理，得到词特征融合向量；S3、根据初始文本分类模型和初始提示特征，对样本文本进行文本分类，得到样本文本的预测类别，纺织设备通过文本分类辅助处理故障方法布置应用。本发明能够辅助维修人员依据故障现象快速准确定位设备的故障位置及原因，大大降低了人工依赖度，有利于提高基于知识的故障诊断的自主化程度、可解释性和诊段。

Description

一种基于文本分类对纺织设备故障辅助处理方法

技术领域

本发明涉及故障诊断技术领域，尤其涉及一种基于文本分类对纺织设备故障辅助处理方法。

背景技术

考虑到纺织络筒机机电在日常维修中会积累大量的维修记录，以文本的形式保存在数据库中，包含了故障问题信息、故障检修方法及故障原因等关键特征。目前这些维修文本数据由于自身的复杂性还未被充分利用，如果从这些数据中提取知识，能够辅助维修人员依据故障现象快速准确定位设备的故障位置及原因，大大降低了人工依赖度，有利于提高基于知识的故障诊断的自主化程度、可解释性和诊段。因此，本申请提出采用收集络筒机维修记录，整合成故障文本，进行故障文本分类，辅助维修人员快速定位故障位置，提高维修效率。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于文本分类对纺织设备故障辅助处理方法，能够辅助维修人员依据故障现象快速准确定位设备的故障位置及原因，大大降低了人工依赖度，有利于提高基于知识的故障诊断的自主化程度、可解释性和诊段。

为了实现上述目的，本发明采用了如下技术方案：

一种基于文本分类对纺织设备故障辅助处理方法，具体步骤如下：

S1、根据目标文本的历史文本维修检测关联数据获取初始提示特征和样本文本，样本文本的标注类别得到训练文本；

S2、将训练文本输入预先构建的文本分类模型，利用文本分类模型的词特征提取网络对所述训练文本进行处理，得到词特征融合向量；

S3、根据文本分类模型和初始提示特征，对样本文本进行文本分类，得到样本文本的预测类别,纺织设备通过文本分类辅助处理故障方法布置应用。

通过采用上述技术方案：首先依据纺织设备故障维修文本获取设备故障信息；接着构建纺织设备ERNIE-TEXTCNN-LightGBM模型结构；其次依据预训练连续方法进行模型学习；最后纺织设备通过文本分类辅助处理故障方法布置应用。

优选地，在步骤S1中，具体包括如下步骤：

S11：构建故障数据库和故障原因数据库，首先需要将络筒机原始维修文本根据专家知识及人工经验人工标注故障原因，构建故障数据库和故障原因数据库；

S12：对于络筒机维修文本故障进行预处理，如不同描述的同一故障进行归一化处理，对文本进行清洗，停用词过滤作以便后续整体分析；将语料库根据故障特性分成五大类：传动系统、机头控制箱与机架、络纱锭、辅助控制装置、自动换管装置，得到训练文本。

优选地，在步骤S2中，具体包括如下步骤：

S21：首先将故障文本中单个汉字分为最小分割单位，利用特定符号在故障文本中进行替换，让模型对于替换内容进行预测，通过初始化模块可以使模型更好学习到故障文本的上下文逻辑关系，能够分辨同一名称中不同位置的零件故障；

S22：利用多层转换器的自注意力双向建模性能，采用转换器的编码器部分，将矩阵间的计算来获得络筒机故障信息，抑制其他无用的信息，获得每个词新的表征，从而实现自注意力机制；

S23：由于词向量训练模块整体会进行多层堆叠，即将上一层的输出作为下一层的输入进行迭代训练，因此较深的网络模型层数可能会导致模型梯度消失,而前馈神经网络模块则通过残差连接的方式，在保障词向量维度不变的基础上解决梯度消失的问题；

S24：通过上述S21、S22、S23三个步骤，ERNIE层输出向量与外部语义信息输入/>分别进行处理，经信息融合后得到新的语义信息输出向量与语义信息输出/>ERNIE层输出的维度为(batch_size，hidden_size)，其中batch_size为每批次训练样本大小，hidden_size为ERNIE隐藏层的层数；

S25：采用步骤S24语料表从非数据结构转化为数据结构形式输入到TEXTCNN中再次进行特征提取。

优选地，在步骤S3中，具体包括TEXTCNN和LightGBM两个部分：

S31：所述的TEXTCNN特征在于通过设置不同大小的过滤核对文本序列中不同大小的局部特征进行提取，字向量矩阵为作为TEXTCNN的输入，在经过将文字转换为向量后，故障文本中所有字可以按照语句顺序依次堆叠起来，形成一个长宽分别为序列长度和词向量维度的文本矩阵，为后续的卷积操作提供维度支持；

S32：通过文本序列的方向进行滑动，每经过一次滑动都会在对应位置进行点击运算，获得相应的局部特征；通过不同尺寸以及不同数值的卷积核，通过卷积运算来获得更多维度的局部特征信息，进一步提取故障文本信息；

S33：经过每一个卷积核的卷积运算之后，都会生成一个对应的特征图，为了获得最为突出的特征，可以通过提取每个特征图中最大的数值，作为对应的替换目标，并将所有的池化结果进行拼接，该过程同时也起到了降维的作用，最终可以获得故障文本所对应的特征提取向量；

通过步骤S33所提取到的向量，将TEXTCNN的特征输出变成特征输入到LightGBM中进行类别分类；

S34：LightGBM算法输入的训练数据集为：{(m₁,y₁)，(m₂,y₂)，…，(m_n,y_n)}为提取的维修本文的特征向量，m_i是所发生的故障，y_i是对应的故障原因；通过LightGBM采用基于梯度的单边采样GOSS和互斥特征捆EFB再次进行特征提取进行分类；

S35：通过GOSS对训练数据的有选择地采样，通过抛弃一些对最终计算影响较小的样本；之后根据信息增益大小对样本进行排序，并选择前r×100％贡献较大的样本；然后，从剩余的样本随机抽取t×100％的样本，并将这些样本的信息增益乘以一个大小为的常数值；通过以上操作，可以将算法注意力放在那些缺乏训练的样本上，而不改变原始的数据分布，较大程度地提升了计算效率；

S36：考虑到故障文本具有稀疏性的特点，通过EFB可以减少输入数据的特征数量而不牺牲算法的精准度。采用冲突比来量化不同特征的互斥性，通过特征的冲突比的大小来决定是否对不同的特征进行捆绑，在尽可能保留原有特征信息的基础上，很大程度上减少数据的特征数量，提高了算法的效率；

S37：最后LightGBM使用直方图方法减少数据分割次数，增强了算法的泛化能力；采用带深度限制的按叶生长策略降低了算法的误差，得到了更好的精确度。以上两种方法都为减少算法的运行时间做出了较大的贡献，大大缓解了络筒机停机影响生产效率的问题，用于快速定位到故障原因，故障位置，并给出维修建议对于故障进行及时维修。

与现有技术相比，本发明具有以下有益效果：

1、本发明能够对于纺织络筒机机电在日常维修中会积累大量的维修记录进行充分利用，从这些数据中提取知识，能够辅助维修人员依据故障现象快速准确定位设备的故障位置及原因，大大降低了人工依赖度，有利于提高基于知识的故障诊断的自主化程度、可解释性和诊段。

2、本发明可以解决传统分类算法分类时间长的劣势，利用LightGBM算法并行化处理快速进行分类，并且提高准确率。

3、本发明适用于短文本的分类任务，通过ERNIE和TEXTCNN特征提取可以解决短文本特征不足的问题，而且增强了上下文的联系，提高了分类准确率，具有更广泛的应用场景。

4、本发明包含文本信息获取、模型构造与训练、模型部署与应用三个方面的内容，系统框架完整可靠，有益于直接部署到相应的纺织设备中进行快速应用。

附图说明

图1为本发明的整体流程图；

图2为本发明中构建训练文本的流程图；

图3为本发明中Transformer编码层内部结构模型的结构图；

图4为本发明中TEXTCNN再次提取特征的流程图；

图5为本发明中轻量级梯度机(LightGBM)分类算法的流程图；

图6为本发明训练流程图。

具体实施方式

下面结合附图将对本发明实施例中的技术方案进行清楚、完整地描述，以使本领域的技术人员能够更好的理解本发明的优点和特征，从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1-图6，一种基于文本分类对纺织设备故障辅助处理方法，具体步骤如下：

具体的，如图2所示，在步骤S1中，具体包括如下步骤：

S12：对于络筒机维修文本故障进行预处理，如不同描述的同一故障进行归一化处理，对文本进行清洗，停用词过滤作以便后续整体分析；

S13：将原始的句子转化为大小为(batch_size,padding_size)的词嵌入表示{t₁，t₂，，t_n}，其中，batch_size为每批次训练样本大小，padding_size为句子最大序列长度,本发明batch_size设置为16，padding_size为64。

S14：将语料库根据故障特性手动分成五大类：传动系统、机头控制箱与机架、络纱锭、辅助控制装置、自动换管装置，得到训练文本。

具体的，如图3所示，在步骤S2中，具体包括如下步骤：

S21：其中针对字的遮蔽训练，主要是将中文文本中的汉字作为最小分割单位，使用tokenizer.tokenize()函数对句子进行分词；每个token字符，使用tokenizer.convert_tokens_to_ids()返回token字符在ERNIE内部词表的索引词，之后通过给定的特殊符号或者其它汉字进行随机替换，让模型对于替换内容进行预测，通过初始化模块可以使模型更好学习到故障文本的上下文逻辑关系，能够分辨同一名称中不同位置的零件故障；

S22：通过ERNIE层利用多层转换器的自注意力双向建模性能，采用了转换器的编码器部分，将矩阵间的计算来获得络筒机故障信息，抑制其他无用的信息，获得每个词新的表征，从而实现自注意力机制。首先将输入向量矩阵T通过位置编码后得到矩阵X，与各自权重矩阵W_q、W_k、W_v相乘，用于获得词语之间的相互关联程度，得到查询矩阵Q、键矩阵K和值矩阵V：

Q＝XW_q (1)

K＝XW_k (2)

V＝XW_v (3)

S23：然后将查询矩阵与键矩阵相乘，将乘积的结果除以键矩阵的秩d的算术平方根以保证训练过程具有更稳定的梯度，从而获得络筒机故障中新的关联度；

S24：ERNIE层输出与外部语义信息输入/>分别进行处理，经信息融合后得到新的语义信息输出/>与语义信息输出ERNIE层输出的维度为(batch_size，hidden_size)，其中hidden_size为ERNIE隐藏层的层数。

S25：步骤S24预料表从非数据结构转化为向量化形式输入到S31中进行特征提取。

具体的，如图4和图5所示，在步骤S3中，具体包括TEXTCNN和LightGBM两个部分：

S31：TEXTCNN通过设置不同大小的过滤核对文本序列中不同大小的局部特征进行提取。字向量矩阵为作为TEXTCNN的输入，TEXTCNN的整个过程分为卷积层、池化层、输出层。

S32：在卷积层对上一层的输出进行卷积运算，得到多个尺寸不同的特征图。卷积运算的过程可以表达为：

其中，C_j指卷积运算得到的一个特征，b为偏置，W为卷积核矩阵，f为一个非线性函数。多个尺寸不同的卷积核在故障文本上形成多个跨度不同的滑动窗口，用来计算各个窗口内的单词之间的联系。本发明采用卷积核数量为2、3、4进行运算；

S33：池化层，在池化层，将特征图作为输入，进行维数降低。本发明使用maxpooling的方式处理特征图，从中选取最大值。

S34：输出层，通过sigmoid函数得到络筒机故障诊断属于哪种故障的概率，并在输出层输出：

构建深度学习模型之后，首先设定模型的损失函数为binary crossentropy。

其中，y_i是真实值，y_i′是预测值。

S35：将步骤S34所提取到的特征输出当作特征输入到步骤S36中进行文本分类；

S36：使用LightGBM模型实现语义特征的分类。将TEXTCNN模型提取的维修文本特征以及故障原因标签作为该模型的输入。

S37：LightGBM算法输入的训练数据集为：{(m₁,y₁)，(m₂,y₂)，…，(m_n,y_n)}为提取的维修本文的特征向量，y_i是对应的故障原因。在模型训练添加决策树时第t步的损失表示形式如式(7)，每轮迭代的目标为找到一个弱学习器，使得本轮损失函数最小。

式中，f_t-1(m)为上一轮强学习器学习的结果。计算第t轮第i个样本的损失函数的负梯度：

每次训练迭代学习r_ti来拟合残差。利用m_i和r_ti进行决策树最优节点分裂拟合第k棵回归树。对于所有叶子节点中的数据样本，计算出使得损失函数最小的输出值C_ti：

从而得到h_t(m)：

式中，R_tj,j＝1,2,,j表示第t棵回归树的j个叶子节点的区间；I为示性函数。

则强学习器表示为：

由于决策树在计算分割节点的信息增益时会对每个特征遍历所有数据点，为了快速找到一个最优特征分割点作为叶子节点，使得在分割之后整棵树的增益值最大，在上述步骤中融合了GOSS和EFB两种方法。再次进行特征提取进行分类；

S38：通过GOSS对训练数据的有选择地采样，通过抛弃一些对最终计算影响较小的样本。GOSS首先根据信息增益大小对样本进行排序，并选择前r×100％贡献较大的样本。然后，从剩余的样本随机抽取t×100％的样本，并将这些样本的信息增益乘以一个大小为的常数值。通过以上操作，可以将算法注意力放在那些缺乏训练的样本上，而不改变原始的数据分布，较大程度地提升了计算效率；

S39：考虑到故障文本具有稀疏性的特点，通过EFB可以减少输入数据的特征数量而不牺牲算法的精准度。采用冲突比这个概念来量化不同特征的互斥性,通过特征的冲突比的大小来决定是否对不同的特征进行捆绑，在尽可能保留原有特征信息的基础上，很大程度上减少数据的特征数量，提高了算法的效率；

S310：最后LightGBM使用直方图方法减少数据分割次数，增强了算法的泛化能力；采用带深度限制的按叶生长策略降低了算法的误差，得到了更好的精确度。以上两种方法都为减少算法的运行时间做出了较大的贡献，大大缓解了络筒机停机影响工作效率的问题，快速定位到故障原因，故障位置，并且给出维修建议对于故障进行维修；

S311：通过LightGBM完成分类。

S312：结束实验。

将测试集数据输入到用训练集训练好的预训练模型中，得到最终分类结果，如表1所示。为了验证提出的不断修正的故障诊断流程可以提高故障诊断结果的准确率，本申请逐渐递增历史维修记录并将其输入到

ERNIE-TEXTCNN-LightGBM模型中，采用准确率(accurary)、精确度(precision)、召回率(recall)及F1值作为评价指标，观察模型输出评价指标的变化情况。同时将与处理好的文本分别输入到ERNIE、TEXTCNN、LightGBM模型中：

表1实验结果

模型	accurary	precision	recall	F1
					ERNIE	0.5631	0.53	0.562	0.527
TEXTCNN	0.6893	0.721	0.688	0.695
					LightGBM	0.7379	0.749	0.736	0.739
ERNIE-TEXTCNN-LightGBM	0.9806	0.982	0.98	0.98

经过实验可以得出，ERNIE-TEXTCNN-LightGBM比原始ERNIE模型精确率高了0.4175％，比TEXTCNN高了0.2913％，比LightGBM高了0.2427％。

本发明中披露的说明和实践，对于本技术领域的普通技术人员来说，都是易于思考和理解的，且在不脱离本发明原理的前提下，还可以做出若干改进和润饰。因此，在不偏离本发明精神的基础上所做的修改或改进，也应视为本发明的保护范围。

Claims

1.一种基于文本分类对纺织设备故障辅助处理方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的一种基于文本分类对纺织设备故障辅助处理方法，其特征在于，在步骤S1中，具体包括如下步骤：

3.根据权利要求2所述的一种基于文本分类对纺织设备故障辅助处理方法，其特征在于，在步骤S2中，具体包括如下步骤：

S21：首先将故障文本中单个汉字分为最小分割单位，利用特定符号在故障文本中进行替换，让模型对于替换内容进行预测，通过初始化模块使模型更好学习到故障文本的上下文逻辑关系，能够分辨同一名称中不同位置的零件故障；

S23：由于词向量训练模块整体会进行多层堆叠，即将上一层的输出作为下一层的输入进行迭代训练，因此网络模型层数会导致模型梯度消失,而前馈神经网络模块则通过残差连接的方式，在保障词向量维度不变的基础上解决梯度消失的问题；

S24：通过上述S21、S22、S23三个步骤，ERNIE层输出向量与外部语义信息输入/>分别进行处理，经信息融合后得到新的语义信息输出向量与语义信息输出/>ERNIE层输出的维度为batch_size和hidden_size，其中batch_size为每批次训练样本大小，hidden_size为ERNIE隐藏层的层数；

4.根据权利要求3所述的一种基于文本分类对纺织设备故障辅助处理方法，其特征在于，在步骤S3中，具体包括TEXTCNN和LightGBM两个部分：

S31：所述的TEXTCNN特征在于通过设置不同大小的过滤核对文本序列中不同大小的局部特征进行提取，字向量矩阵为作为TEXTCNN的输入，在经过将文字转换为向量后，故障文本中所有字按照语句顺序依次堆叠起来，形成一个长宽分别为序列长度和词向量维度的文本矩阵，为后续的卷积操作提供维度支持；

S33：经过每一个卷积核的卷积运算之后，都会生成一个对应的特征图，通过提取每个特征图中最大的数值，作为对应的替换目标，并将所有的池化结果进行拼接，最终获得故障文本所对应的特征提取向量；

S35：通过GOSS对训练数据的有选择地采样，通过抛弃对最终计算影响较小的样本；之后根据信息增益大小对样本进行排序，并选择前r×100％贡献较大的样本；然后，从剩余的样本随机抽取t×100％的样本，并将这些样本的信息增益乘以一个大小为的常数值；

S36：采用冲突比来量化不同特征的互斥性，通过特征的冲突比的大小来决定是否对不同的特征进行捆绑，在保留原有特征信息的基础上，减少数据的特征数量，提高算法的效率；

S37：最后LightGBM使用直方图方法减少数据分割次数，增强算法的泛化能力；采用带深度限制的按叶生长策略降低算法的误差，得到更好的精确度。