CN114819999A

CN114819999A - 一种bert融合胶囊网络的电梯故障投诉文本分类方法

Info

Publication number: CN114819999A
Application number: CN202210532499.5A
Authority: CN
Inventors: 周娟; 吴宗欢; 王强
Original assignee: China University of Metrology
Current assignee: China University of Metrology
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-07-29

Abstract

本发明公开了一种BERT融合胶囊网络的电梯故障投诉文本分类方法，所述方法首先利用预训练语言模型BERT强大的词句表达能力和抽取长距离依赖关系的能力对文本进行语义特征提取，取BERT最后一层输出层中的第一个字符对应的向量，将其经过一个线性层和Tanh激活层处理后得到投诉文本句向量表示，从而降低句向量维度，提高分类效率；然后利用过采样与欠采样结合的混合采样方法解决数据类别分布不均衡的问题；最后借助胶囊网络实现特征二次提取及融合，获取文本局部与整体的关系并保留词语顺序和语义，最终实现对电梯故障投诉文本的智能分类，为电梯定期维护提供参考价值，也为故障投诉文本数据的高效利用提供了解决方案。

Description

一种BERT融合胶囊网络的电梯故障投诉文本分类方法

技术领域

本发明涉及一种BERT融合胶囊网络的电梯故障投诉文本分类方法。

背景技术

2021年中国电梯保有量达844.7万台同比增长5.6％，电梯的安全运维成为一个至关重要的课题。智慧电梯管理系统是一种线上的电梯监控和维保服务系统，可实现电梯的实时监控、故障事件记录、电梯维保管理和用户投诉等功能，处理好用户投诉的问题是保证电梯安全运维的关键。用户投诉信息往往暴露出电梯运行过程中存在的问题或故障，对调整电梯相关单位的决策以及改进电梯质量和服务有着重要导向作用。传统上，电梯用户投诉文本主要依靠人工进行分类，线上工作人员接收用户的投诉，根据投诉内容提炼出电梯主要存在的问题或故障，然后安排维修人员处理。一般投诉文本的记录篇幅短，不同用户的不同语言习惯，有的有强烈情感因素，有的语言逻辑混乱，有的内容模糊，有的是不正常投诉，导致难以判断问题根源或浪费了大量的人力、物力，这种传统处理方式不仅效率低且极易出错。尤其投诉信息众多时，运维相关单位更显得力不从心。因此，如何科学高效地对电梯故障投诉文本进行自动化分类显得极为迫切和重要。

实现投诉文本自动分类的关键在于文本表示和分类器这两方面的选择。传统文本表示方法大多依赖于词袋模型，如独热编码、词频-逆文档频率等，此类方法虽简单直观，但难以对词序及上下文依赖信息进行有效编码，且具有维度灾难、特征稀疏等问题。词嵌入模型(如 Word2vec和Glove模型)能将字词表示成更低维度的向量，同时将上下文特征融入到字词向量中从而有效避免这些问题，但词嵌入模型在表达多义词方面存在一定缺陷。ELMo(Embeddings from Language Models)模型利用双向长短时记忆网络(Bi-LSTM)生成词的上下文表示，通过结合前后文语境理解多义词，从而很好地解决多义词的问题。为进一步提高文本表示能力，基于Transformer的双向编码器模型(Bidirectional EncoderRepresentations from Transformers，BERT),吸收了ELMo和GPT模型(Generative Pre-Training)的优势，其中Transformer编码器的self-attention结构在计算当前词时可同时利用它上下文的词，具有抽取长距离依赖关系和并行计算的能力。BERT已广泛用于语句对分类、情感分类、阅读理解等各项自然语言处理任务中，然而，BERT作为预训练语言模型，目前关于其作为中文投诉文本向量的应用和研究并没有。

在构建文本分类器时，基于统计模型的支持向量机(Support Vector Machine，SVM)、基于概率模型的朴素贝叶斯(Naive Bayes，NB)、基于向量空间模型的K最近邻(K-Nearest Neighbor,KNN)等机器学习方法已取得了不错的效果，但上述传统机器学习算法为浅层学习算法，直接利用向量化后的文本进行分类，所用向量无法表达出语义的深层含义，分类能力受到限制。深度学习模型则依赖于自身的深层模型结构，重点抽取隐藏特征和高维度特征，利用语义合成性原理通过不同深度模型将低层词向量合成高层文本语义特征向量从而得到文本的高层次语义表达，有效提升模型的推广能力。近年来出现了胶囊网络(Capsule network, CapsNet)，它是在卷积网络(Convolutional Neural Networks,CNN)的基础上将传统神经网络架构的输入输出从标量变成向量，用动态路由代替CNN中的池化操作，并在MNIST数据集上获得了不错的效果。但是胶囊网络用于文本分类时存在缺乏编码文本中远距离依赖关系的问题。

发明内容

为解决背景技术提出的技术问题，本发明提出了一种BERT融合胶囊网络(BERT-CapsNet) 的电梯故障投诉文本分类方法。

本发明采用的技术方案是：

本发明包括如下步骤：

步骤1：准备和处理数据集。首先收集并整理电梯用户投诉文本内容，投诉文本大都是 100字以内的中文短文本，投诉内容为用户在使用电梯过程中碰到的问题和故障，这些给用户带来不好的体验或对用户的生命健康和财产安全产生威胁或伤害，其中也包括一些不正常投诉，在整理数据集时先剔除这些不正常投诉；然后对样本进行预处理，一个样本就是一个句子，设置句子的最大长度，每个句子要以[CLS]开头，以[SEP]结尾，不足最大长度的以[PAD] 进行填充，这样的形式是为了能正确输入到BERT模型中；最后确定电梯故障类型，用户投诉的故障类型共计9种，分别是开关门不正常、电梯运行异响、操作按钮失灵、其他、电梯运行抖动、电梯管理差、运行中出现下坠情况、紧急呼叫按钮无人接听和使用登记标记超期，给故障类型进行编号，样本与故障类型一一对应。

步骤2：BERT文本句向量表示。将处理后的样本输入到BERT模型中生成最终的句向量。

步骤3：数据集的采样与划分。经过BERT文本句向量表示后的数据集，一个句向量表示一个用户的投诉样本，利用过采样与欠采样结合的混合采样方式解决数据类别分布不均衡的问题；将采样后的数据集以7:1:2的比例随机划分为训练集、验证集和测试集，训练集和验证集用于训练BERT-CapsNet模型，测试集用于评估BERT-CapsNet模型的分类性能。

步骤4：构建胶囊网络结构，设置各项参数。

步骤5：利用训练集和验证集训练建立好的胶囊网络，计算损失函数(误差),利用误差反向传播来更新CapsNet网络权重，得到性能较好的BERT-CapsNet投诉文本分类模型。

步骤6：利用测试集评估BERT-CapsNet模型的分类性能，评价分类性能的指标通常有准确率A、精确率P、召回率R和F值等，假设共有M个故障类型，n_ij表示把真实类型i预测为类型j的样本个数，评价指标的计算公式如下：

F_i＝2P_iR_i/(P_i+R_i) (4)

本发明取准确率和Macro F1为模型分类性能的评价指标。

本发明在BERT文本句向量表示中，采用的是BERT-Base-Chinese模型(Chinese_L-21_H- 768_A-12),模型具有12层Transformer层，隐含层具有768个结点，12头注意力机制，取最后一层transformer层的第一个Token也就是[CLS]对应的向量作为BERT输出的句向量(维度为768)，将此句向量输入到线性层并经过Tanh函数激活最终得到维度为100的句向量，此句向量就代表对应投诉文本的语义信息。

本发明采用混合采样方法，采样步骤如下：

(1)统计数据集中每种故障类型对应的样本量，假设经过处理后的电梯故障投诉数据集共有M种故障类型，N_i表示类型i采样前的样本量；

(2)确定各类型的采样方式，N_mean表示采样前总样本量的均值，若N_i大于N_mean则采取欠采样方式，采样标记为0，反之采取过采样方式，采样标记为1；

(3)确定各类型采样后的理论样本量，对于需要欠采样的类型进行随机采样，对于需要过采样的类型进行SMOTE(Synthetic Minority Oversampling Technique，SMOTE)采样，各故障类型采样后的理论样本量如式(6)所示：

N_new_i表示类型i采样后的样本量，a表示采样平衡系数，此处取a＝0.5。

本发明中胶囊网络的损失函数计算方法采用的是间隔损失(margin loss)函数，间隔损失表示为：

L_i＝T_i·max(0,m⁺-‖v_i‖)²+λ(1-T_i)max(0,‖v_i‖-m^-)² (7)

式(7)中v_i表示类别i的输出向量，L_i表示类别i的损失，T_i是分类的指示函数(存在为 1,不存在为0)；m⁺为上界，惩罚假阳性；m^-为下界，惩罚假阴性；λ是比例系数，调整两者比重，本发明取m⁺＝0.9,m^-＝0.1,λ＝0.5。

重构是用预测的类别构造出该类别的实际数据，重构损失计算方法为胶囊层后构造出3 层全连接层，得到重构后的输出数据；将原数据与输出数据距离平方和作为损失值，总体损失＝间隔损失+α·重构损失，本发明取α＝0.01。

本发明具有的有益效果是：利用预训练语言模型BERT强大的词句表达能力和抽取长距离依赖关系的能力对文本进行语义特征提取，取BERT模型的最后一层输出层中的第一个token 的输出向量，将其经过一个线性层和Tanh激活层处理后得到投诉文本句向量表示，从而降低句向量维度，提高分类效率；采取过采样与欠采样结合的混合采样方法解决故障投诉文本数据类别分布不平衡问题；借助CapsNet实现特征二次提取及融合，获取文本局部与整体的关系并保留词语顺序和语义，最终实现对故障投诉文本的智能分类，为电梯定期维护提供参考价值，也为故障投诉文本数据的高效利用提供了解决方案。

附图说明

图1是基于BERT-CapsNet模型的电梯故障投诉文本分类流程图。

图2是本发明构建的BERT-CapsNet文本分类模型图。

图3是混合采样流程图。

图4是训练过程中BERT-CapsNet的损失值和准确率变化图。

具体实施方式

下面结合附图和实施案例对本发明作进一步说明。

图2展示了本发明构建的BERT-CapsNet投诉文本分类模型的网络结构，模型的输入是处理后的投诉文本，经过嵌入层编码再输入到Bert的双向Transformer，本发明取BERT最后一层Transformer的第一个Token对应的向量作为输出(维度为768的向量)，将其输入到线性层并经过Tanh函数激活生成最终的句向量，线性层主要是为了降低句向量的维度，从而降低后续文本分类的计算复杂度以及提高文本分类效率。Reshape层改变句向量的形状使其适合输入到下游的胶囊网络中进行文本分类，胶囊网络主要由卷积层、主胶囊层和数字胶囊层组成，主要包含三种运算，Reshape层与卷积层(ReLU Convolution)之间的常规卷积运算，卷积层与主胶囊层(Primary Capsule)之间的初级胶囊生成运算，主胶囊层与数字胶囊层 (Digit Capsule)之间的高级胶囊生成运算。卷积层和主胶囊层构成初级胶囊，胶囊网络在构建初级胶囊时，将卷积层提取出的标量文本特征排列为向量文本特征，并生成初级胶囊u_i，其中i表示第i个文本特征胶囊。数字胶囊层与初级胶囊层之间通过动态路由算法(Routing) 实现的信息通讯。最终输出一个9维向量(因为有9个类别)，向量中每个数值代表该种类别存在的概率，取概率值最大的类别作为模型预测的结果。如图1所示是BERT-CapsNet文本分类流程，一种BERT融合胶囊网络的电梯故障投诉文本分类方法的具体实现如下：

步骤1：准备和处理数据集，首先收集整理电梯用户投诉文本内容，投诉文本大都是100 字以内的中文短文本，投诉内容为用户在使用电梯过程中碰到的问题和故障，这些给用户带来不好的体验或对用户的生命健康和财产安全产生威胁或伤害，这其中也包括一些不正常投诉，在整理数据集时先剔除这些不正常投诉；然后对样本进行预处理，一个样本就是一个句子，设置句子的最大长度为100，每个句子要以[CLS]开头，以[SEP]结尾，不足最大长度的以 [PAD]进行填充，这样的形式是为了能正确输入到BERT模型中；最后确定电梯故障类型，给故障类型进行编号，样本与故障类型一一对应。文本以及对应的故障类型示例如表1。

表1.预处理后的投诉文本示例

步骤2：BERT文本句向量表示，将处理后的样本输入到BERT模型中，本发明采用的是 BERT-Base-Chinese模型(Chinese_L-21_H-768_A-12),模型具有12层Transformer层，隐含层具有768个结点，12头注意力机制，取最后一层transformer层的第一个Token也就是[CLS]对应的向量作为BERT输出的句向量(维度为768)，将此句向量输入到线性层并经过Tanh函数激活最终得到维度为100的句向量，该向量就代表对应投诉文本的语义信息。本发明所提方法的代码均基于PyCharm软件，深度学习框架主要利用Tensorflow2.6.0和Pytorch1.11.0，计算机配置为Intel i5的6核处理器，GPU显卡为一张Nvidia 2060，运行内存12G。

步骤3：数据集的采样与划分，经过BERT文本句向量表示后的数据集，一个句向量表示一个用户的投诉样本，利用过采样与欠采样结合的混合采样方式解决数据类别分布不均衡的问题。混合采样流程如图3所示，首先统计处理后数据集各类别样本量，发现故障编号0-3 的样本量占77％，而剩余五种故障类型样本量仅占23％，并且故障0样本量最多，占比22.52％，故障8样本量最少，占比2.89％，两者差距近十倍。利用本发明提出的混合采样方法解决数据类别分布不平衡问题，采样前后各类别样本量如表2所示。

表2.采样前后各类别的样本量

从表2可以看出，混合采样后的少数类样本量得到提升，最多样本量与最少样本量的差距明显缩小，故障类别总体分布较为均衡。将混合采样后的数据集按7:1:2的比例随机划分为训练集，验证集和测试集。训练集和验证集用来训练胶囊网络文本分类模型，测试集用来评价模型分类性能。

步骤4：构建胶囊网络结构，设置各项参数。多次试探、寻找最佳的网络结构和参数，以提高投诉文本分类器的精度。经数据处理和混合采样后，输入层是1×100的句向量；Reshape 层将句向量形状变为10×10；建立包含一个卷积层和一个胶囊层的胶囊网络；由于研究的电梯投诉故障类型有9个，所以输出层是1×9的向量，表示输入样本的故障类型。网络训练的迭代次数为200，训练时批尺寸为20，优化器选择Adam算法，学习率为0.009，动态路由的迭代次数设置为3。胶囊网络的重构网络的结构有三层全连接层，各层具有的神经元结点个数分别为512，1024，100。具体的CapsNet网络结构和参数设置如表3所示。

表3. CapsNet的网络结构及参数设置

步骤5：利用训练集和验证集训练建立好的胶囊网络，计算损失函数(误差),利用误差反向传播来更新CapsNet网络权重，得到性能较好的BERT-CapsNet投诉文本分类模型。训练过程中的损失值和准确率变化情况如图4所示。

由图4可知训练集和验证集的损失值随着迭代次数的增加而下降，当迭代次数达到170 时，CapsNet的损失值趋于平稳不再继续下降，这表明CapsNet已经收敛。训练集和验证集的文本分类准确率随迭代次数的增加而增加，在CapsNet收敛后，准确率也趋于平稳不再上升。对比训练集和验证集的损失值及准确率，发现他们的值非常接近，在迭代200次后，损失值都稳定在0.03附近，准确率稳定在0.98附近，说明CapsNet的泛化能力较强，没有出现过拟合。在迭代200次后，将训练好的CapsNet用于后续的电梯投诉文本分类任务中。

步骤6：利用测试集评估BERT-CapsNet模型的投诉文本分类性能，评价分类性能的指标通常有准确率A、精确率P、召回率R和F值等，假设共有M个故障类型，n_ij表示把真实类型i预测为类型j的样本个数，则有：

F_i＝2P_iR_i/(P_i+R_i) (4)

最终Bert-CapsNet文本分类的准确率为0.9838，Macro F1为0.9889。各类别的精确率、召回率和F1值如表4所示。

表4.Bert-CapsNet分类结果的精确率、召回率和F值

从表4中可以看出Bert-CapsNet模型对各类别的预测效果都很好，F值均在0.97以上，精确率和召回率都在0.95以上，故障类型4-8的精确率和召回率都接近于1。说明Bert-CapsNet模型抽取到电梯投诉文本的深层语义信息和主要特征，能很好地进行文本分类。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种BERT融合胶囊网络的电梯故障投诉文本分类方法，其特征在于，包括以下步骤：

步骤1：准备和处理数据集，首先收集并整理电梯用户投诉文本内容，投诉文本大都是100字以内的中文短文本，投诉内容为用户在使用电梯过程中碰到的问题或故障，这些给用户带来不好的体验或对用户的生命健康和财产安全产生威胁或伤害。不同用户有不同的语言习惯，有的有强烈情感因素，有的语言逻辑混乱，有的内容模糊，其中也包括一些恶意或错误的投诉。在整理数据集时先剔除恶意或错误的投诉；然后对样本进行预处理，一个样本就是一个句子，设置句子的最大长度，每个句子要以[CLS]开头，以[SEP]结尾，不足最大长度的以[PAD]进行填充，这样的形式是为了能正确输入到BERT模型中；最后确定电梯故障类型，用户投诉的故障类型共计9种，分别是开关门不正常、电梯运行异响、操作按钮失灵、其他、电梯运行抖动、电梯管理差、运行中出现下坠情况、紧急呼叫按钮无人接听和使用登记标记超期，给故障类型进行编号，样本与故障类型一一对应；

步骤2：BERT文本句向量表示，将处理后的样本输入到BERT模型中生成最终的句向量；

步骤3：数据集的采样与划分，经过BERT文本句向量表示后的数据集，一个句向量表示一个用户的投诉样本，利用过采样与欠采样结合的混合采样方式解决数据类别分布不均衡的问题；将采样后的数据集以7：1：2的比例随机划分为训练集、验证集和测试集，训练集和验证集用于训练本发明建立的BERT融合胶囊网络(BERT-CapsNet)的电梯故障投诉文本分类模型，测试集用于评估BERT-CapsNet投诉文本分类模型的性能；

步骤4：构建胶囊网络(capsule network，CapsNet)结构，设置各项参数；

步骤5：利用训练集和验证集训练建立好的胶囊网络，计算损失函数(误差)，利用误差反向传播来更新CapsNet网络权重，得到性能较好的BERT-CapsNet投诉文本分类模型；

步骤6：利用测试集评估BERT-CapsNet模型的投诉文本分类性能，评价分类性能的指标通常有准确率A、精确率P、召回率R和F值等，假设共有M种故障类型，n_ij表示把真实类型i预测为类型j的样本个数，评价指标计算公式如下：

F_i＝2P_iR_i/(P_i+R_i) (4)

本发明取准确率和Macro F1为模型分类性能的评价指标。

2.根据权利要求1所述的一种BERT融合胶囊网络的电梯故障投诉文本分类方法，其特征在于，所述步骤2中BERT文本句向量表示，采用的是BERT-Base-Chinese模型(Chinese_L-21_H-768_A-12)，模型具有12层Transformer层，隐含层具有768个结点，12头注意力机制，取最后一层transformer层的第一个Token也就是[CLS]对应的向量作为BERT输出的句向量(维度为768)，将此句向量输入到线性层并经过Tanh函数激活最终得到维度为100的句向量，该句向量就代表对应投诉文本的语义信息。

3.根据权利要求1所述的一种BERT融合胶囊网络的电梯故障投诉文本分类方法，其特征在于，所述步骤3中数据集的混合采样方法，采样步骤如下：

(2)确定各故障类型的采样方式，N_mean表示采样前总样本量的均值，若N_i大于N_mean则采取欠采样方式，采样标记为0，反之采取过采样方式，采样标记为1；

(3)确定各故障类型采样后的理论样本量，对于需要欠采样的故障类型进行随机采样，对于需要过采样的故障类型进行SMOTE(Synthetic Minority Oversampling Technique，SMOTE)采样，各故障类型采样后的理论样本量如式(6)所示：

4.根据权利要求1所述的一种BERT融合胶囊网络的电梯故障投诉文本分类方法，其特征在于，所述步骤5中损失函数计算方法，由于胶囊网络允许多个分类同时存在，故采用间隔损失(margin loss)函数，间隔损失表示为：

L_i＝T_i·max(0，m⁺-||v_i||)²+λ(1-T_i)max(0，||v_i||-m^-)² (7)

式(7)中v_i表示类别i的输出向量，L_i表示类别i的损失，T_i是分类的指示函数(存在为1，不存在为0)；m⁺为上界，惩罚假阳性；m^-为下界，惩罚假阴性；λ是比例系数，调整两者比重，本发明取m⁺＝0.9，m^-＝0.1，λ＝0.5；

重构是用预测的类别构造出该类别的实际数据，重构损失计算方法为胶囊层后构造出3层全连接层，得到重构后的输出数据；将原数据与输出数据距离平方和作为损失值，总体损失＝间隔损失+α·重构损失，本发明取α＝0.01。