CN111460164B

CN111460164B - 一种基于预训练语言模型的电信工单智能判障方法

Info

Publication number: CN111460164B
Application number: CN202010443046.6A
Authority: CN
Inventors: 龙安杰; 高阳
Original assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Current assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-11-03
Anticipated expiration: 2040-05-22
Also published as: CN111460164A

Abstract

本发明公开了一种新的基于预训练语言模型的电信工单智能判障方法，属于计算机技术领域。其中，包括如下步骤：首先先对工单信息进行预处理，从描述信息中提取出告警信息和关键描述文本，以及系统中的定位信息；使用基于预训练语言模型BERT进行文本匹配，判断工单定位与工单描述是否对应；根据文本匹配模型的结果再进行文本分类任务，使用DPCNN模型预测出定位不准确的工单可能对应的故障类别，从而实现工单的自动智能判障。本发明能够有效地解决电信业务中传统人工判障方法存在的效率和精度问题，使用深度学习方法不仅能够大大减少业务人员工作量，实现自动化解析判断，同时判断精度也非常准确，整体准确率能够达到95%以上。

Description

一种基于预训练语言模型的电信工单智能判障方法

技术领域

本发明属于计算机技术领域，具体地涉及一种基于预训练语言模型的电信工单智能判障方法。

背景技术

为了减轻一线维护人员的工作负荷，电信公司自2015年左右开展了障碍工单自动定位工作，简单实现了对障碍原因的初步判断。在这个过程中，自动判断障碍原因是否是实际的故障原因，同步进行了人工核查和判断，发现部分工单的实际处理故障过程与初步定位内容不一致，需要对这部分定位不准确的工单进行后续原因核查，并且实现迭代优化。这个定位错误工单的发现过程一直严重依赖于人工核查，需要业务人员从工单的回单反馈、回单原因、告警等大量数据信息中找到定位是否准确的依据，耗时冗长，极大地影响了维护工作效率。因此，如何应用海量的历史数据，从历史数据中学习相关内容，实现自动判断当前工单定位的准确性，成为一个迫在眉睫的问题。

工单判障的任务可以抽象为自然语言处理中的文本分类任务，可以使用相关算法实现自动判障代替人工操作。文本分类是指对给定的文本数据，根据相应的分类算法或模型，得到文本对应的类别，用于相关判断。传统的基于机器学习或者循环神经网络的文本分类算法在速度和精度上都存在一定问题，需要研究选择一种更加准确有效的分类算法用于实现智能判障。

发明内容

发明目的：本发明针对电信业务系统中的工单判障任务，在传统方法的基础上提出了一种基于预训练语言模型的电信工单智能判障方法。实现对系统中工单进行自动判障，结合多种指标判断工单所属类别是否正确。对系统中的工单数据进行自动预处理，加载预训练语言模型BERT进行文本匹配，根据匹配结果再选择加载文本分类模型，预测出工单对应的正确类别，从而实现自动智能判障。

技术方案：为实现上述发明目的，本发明的一种基于预训练语言模型的电信工单智能判障方法，采用的技术方案包括如下步骤：

步骤(1)：对已有的历史工单数据进行数据预处理，利用正则表达式进行文本替换、抽取，得到工单信息中的有效数据；

步骤(2)：将清洗过的有效数据进行标签化和数据集划分，按照7:2:1的比例划分为训练集、验证集、测试集，以tsv文件的格式进行存储；

步骤(3)：使用划分好的数据进行模型预训练，文本匹配模型选择对BERT-WWM模型进行fine-tune，文本分类模型则选择预训练DPCNN模型，将对应的模型参数保存；

步骤(4)：对综调系统传输的工单数据，经过解析后，根据定位信息是否一致选择是否需要加载智能判障模型，如果三次定位信息一致，则认为定位准确，执行步骤(7)；如果不一致，则需要执行第五步加载文本匹配模型进行判断；

步骤(5)：加载预训练好的BERT-WWM模型进行文本匹配，将工单故障定位字段和工单操作信息字段输入模型进行匹配判断，如果判断结果为准确，则认为工单定位准确，执行第七步；如果判断结果为不准确，则执行第六步加载文本分类模型预测故障类别；

步骤(6)：加载DPCNN分类模型进行文本分类，对上一步匹配结果为不准确的工单，根据其工单操作信息字段，进行模型运算，预测其应该对应的故障类别，作为最终的工单故障类别输出；

步骤(7)：将上述步骤的判断结果自动导出为Excel文件，供业务人员下载进行最终核对，并将对应的数据添加到历史数据集中，不断迭代优化模型效果。

在进一步的实施例中，所述步骤(1)中预处理方式是通过编写正则表达式对文本进行过滤，识别出指定字段的内容，再对字段内容进行清洗，得到有效数据。

在进一步的实施例中，所述步骤(2)对清洗好的数据，根据工单障碍的类别进行标签化工作，工单障碍类别共有30种，将数据和正确的障碍类别一一对应，实现标签化。

在进一步的实施例中，所述步骤(3)BERT-WWM预训练模型针对中文语料(维基百科、微博、新闻等)，采用Whole Word Masking(wwm,全词Mask)方法，使用中文“词”粒度进行训练，更适合中文NLP任务；DPCNN模型以TextCNN模型的多核卷积层作为多尺寸卷积滤波器，生成Region Embedding，同时堆叠等长卷积层增加Embedding层的表示丰富性，经过Pooling/2(1/2池化)将感受视野加倍，将提取的特征经过残差连接(residual-connection)，加速信息流动和缓解深层网络的梯度弥散情况；采用FocalLoss代替传统的交叉熵损失函数，解决工单样本不均衡问题，提升模型效果。

在进一步的实施例中，所述步骤(5)文本匹配过程将“工单故障定位”作为Sentence1，使用“工单操作信息”文本作为Sentence2，以[SEP]分割，送入模型，进行Sentence PairClassification Task，将模型输出Label作为定位是否准确的判断。

有益效果：通过使用深度学习技术，能够不断地从历史数据中学习故障判断的规则，不断进行迭代优化，对后续的工单实现自动计算，判断定位的准确性，能够大大减轻业务维护人员的工作量，进一步提高工作效率。同时深度学习模型能够达到很高的识别准确率，系统的整体识别判断准确率达到95％以上。

附图说明

图1是本发明的总体结构说明图。

图2是本发明的整体流程图。

图3是工单文本匹配流程图。

图4是BERT模型句对匹配任务原理图。

图5是TEXTCNN模型原理图。

图6是DPCNN模型原理图。

图7是FocalLoss效果示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明的一种基于预训练语言模型的电信工单智能判障方法，采用的技术方案包括如下步骤：

步骤(1)：对已有的历史工单数据进行数据预处理，利用正则表达式进行文本替换、抽取，得到工单信息中的有效数据。

原始工单数据中存在大量无效字段，需要先进行数据预处理，具体的预处理方式是通过编写正则表达式对文本进行过滤，识别出指定字段的内容，再对字段内容进行清洗，去除标点符号、语气词等内容，得到有效数据。

步骤(2)：将清洗过的有效数据进行标签化和数据集划分，按照7:2:1的比例划分为训练集、验证集、测试集，以tsv文件的格式进行存储。

对清洗好的数据，根据工单障碍的类别进行标签化工作，工单障碍类别共有30种，根据业务人员的已有经验，将数据和正确的障碍类别一一对应，实现标签化。对完成标签化的数据进行划分，按照7:2:1的比例划分为训练集、验证集、测试集，用于模型训练和测试。

步骤(3)：使用划分好的数据进行模型预训练，文本匹配模型选择对BERT-WWM模型进行fine-tune，文本分类模型则选择预训练DPCNN模型，将对应的模型参数保存。

在处理完数据后，还需要对使用的深度学习模型进行预训练，用于对新的工单数据进行自动判断和预测。本发明中文本匹配模型选择BERT-WWM模型，BERT(BidirectionalEncoder Representations from Transformers)是由谷歌开源的NLP预训练模型(pre-training model)，使用海量语料进行无监督训练得到一个蕴含海量语义信息的语言模型，在多项任务中都达到state-of-the-art。本发明中使用BERT变体BERT-WWM，在下游文本匹配计算任务中进行Fine-Tuning，以计算工单故障定位与操作信息之间的匹配关系，模型结构见说明书附图4。BERT-WWM预训练模型针对中文语料(维基百科、微博、新闻等)，采用WholeWordMasking(wwm,全词Mask)方法，使用中文“词”粒度进行训练，更适合中文NLP任务。

DPCNN模型以TextCNN模型的多核卷积层作为多尺寸卷积滤波器，生成RegionEmbedding(说明书附图5)，同时堆叠等长卷积层增加Embedding层的表示丰富性，经过Pooling/2(1/2池化)将感受视野加倍，将提取的特征经过残差连接(residual-connection)，加速信息流动和缓解深层网络的梯度弥散情况，相关原理见说明书附图6。

由于工单数据存在样本不均衡问题，某些类别数据量较少，对比通常在分类任务中使用的交叉熵损失，在训练中采用FocalLoss能让模型更多关注样本较少的故障种类，提高对小比例故障种类的预测准确度。

多分类情况下目标函数：

其中为第t种故障种类预测概率，γ用于调整权重的陡峭程度，α用于调整不同类别之间的比例。

负样本远比正样本多的话，模型会倾向于数目多的负类(全部样本都判为负类)，这时候，负类的很小，而正类的/>很大，这时候模型就会开始集中精力关注正样本。FocalLoss与其他损失函数效果对比见说明书附图7。经过对比，使用FocalLoss能够有效解决样本不均衡问题，提升模型效果。

步骤(4)：对综调系统传输的工单数据，经过解析后，根据定位信息是否一致选择是否需要加载智能判障模型，如果三次定位信息一致，则认为定位准确，执行步骤(7)；如果不一致，则需要执行第五步加载文本匹配模型进行判断。

步骤(5)：加载预训练好的BERT-WWM模型进行文本匹配，将工单故障定位字段和工单操作信息字段输入模型进行匹配判断，如果判断结果为准确，则认为工单定位准确，执行第七步；如果判断结果为不准确，则执行第六步加载文本分类模型预测故障类别。

文本匹配过程将“工单故障定位”作为Sentence1，使用“工单操作信息”文本作为Sentence2，以[SEP]分割，送入模型，进行Sentence Pair ClassificationTask，将模型输出Label作为定位是否准确的判断。如果模型输出为匹配一致，则认为当前工单定位准确，如果输出为匹配不一致，则认为当前工单定位不准确，需要再使用文本分类模型判断可能对应的障碍类别。

步骤(6)：加载DPCNN分类模型进行文本分类。对上一步匹配结果为不准确的工单，使用DPCNN(Deep Pyramid Convolutional Neural Networks)文本分类模型输出每个种类可能概率，预测其最可能的故障定位类别，作为最终的工单故障类别输出。

通过使用深度学习技术，能够不断地从历史数据中学习故障判断的规则，不断进行迭代优化，对后续的工单实现自动计算，判断定位的准确性，能够大大减轻业务维护人员的工作量，进一步提高工作效率。同时深度学习模型能够达到很高的识别准确率，系统的整体识别判断准确率达到95％以上。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于预训练语言模型的电信工单智能判障方法，其特征在于，包括如下步骤：

步骤(1)：对已有的历史工单数据进行数据预处理，利用正则表达式进行文本替换、抽取，得到工单信息中的有效数据，包括工单告警信息、工单关键描述文本和工单三次定位信息；

步骤(3)：使用划分好的数据进行模型预训练，文本匹配模型选择对BERT-WWM模型进行fine-tune(微调)，使其适用于电信工单数据，文本分类模型则选择预训练DPCNN模型，将对应的模型参数保存；

步骤(4)：对综调系统传输的工单数据，经过解析后，根据工单的三次定位信息是否一致选择是否需要加载智能判障模型，如果三次定位信息一致，则认为定位准确，可以作为正样本，执行步骤(7)，用于迭代优化模型；如果不一致，则需要执行第五步加载文本匹配模型进行判断；

2.如权利要求1所述的一种基于预训练语言模型的电信工单智能判障方法，其特征在于，所述步骤(1)中预处理方式是通过编写正则表达式对文本进行过滤，识别出指定字段的内容，再对字段内容进行清洗，得到有效数据。

3.如权利要求1所述的一种基于预训练语言模型的电信工单智能判障方法，其特征在于，所述步骤(2)对清洗好的数据，根据工单障碍的类别进行标签化工作，工单障碍类别共有30种，将数据和正确的障碍类别一一对应。

4.如权利要求1所述的一种基于预训练语言模型的电信工单智能判障方法，其特征在于，所述步骤(3)BERT-WWM预训练模型针对中文语料，采用Whole Word Masking(wwm,全词Mask)方法，使用中文“词”粒度进行训练；DPCNN模型以TextCNN模型的多核卷积层作为多尺寸卷积滤波器，生成Region Embedding，同时堆叠等长卷积层，经过Pooling/2(1/2池化)将感受视野加倍，将提取的特征经过残差连接(residual-connection)，加速信息流动和缓解深层网络的梯度弥散情况；采用Focal Loss代替传统的交叉熵损失函数。

5.如权利要求1所述的一种基于预训练语言模型的电信工单智能判障方法，其特征在于，所述步骤(5)文本匹配过程将“工单故障定位”作为Sentence1，使用“工单操作信息”文本作为Sentence2，以SEP分割，送入模型，进行Sentence Pair Classification Task，将模型输出Label作为定位是否准确的判断。