CN116204643A

CN116204643A - 一种基于多任务学习知识增强的级联标签分类方法

Info

Publication number: CN116204643A
Application number: CN202310217721.7A
Authority: CN
Inventors: 李飞; 王颜颜; 陈政伊; 冯强中; 范文斌; 周源; 黄友志; 丁常坤; 程磊
Original assignee: Kedaduochuang Cloud Technology Co ltd
Current assignee: Kedaduochuang Cloud Technology Co ltd
Priority date: 2023-01-06
Filing date: 2023-03-08
Publication date: 2023-06-02

Abstract

本发明公开了一种基于多任务学习知识增强的级联标签分类方法，属于自然语言处理技术领域，包括以下步骤：S1：语义表征；S2：多任务分类。本发明将预训练模型得到的上下文语义表征和义原知识表征相融合，同时加入了多任务学习的方法使得模型能够迭代训练，学习到不同标签之间的关系，提高了通用预训练语言模型在运营商投诉工单分类任务上的准确率。

Description

一种基于多任务学习知识增强的级联标签分类方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于多任务学习知识增强的级联标签分类方法。

背景技术

运营商领域存在丰富的业务文本或语音数据，其中运营商电话投诉是一项影响客户满意度的关键服务，广泛服务于全国各地的用户。在之前的实际工作中，一般通过客服坐席人员人工标注每一条投诉工单的分类标签，而且需要进行多级标注，每一级代表不同的含义。“级联标签分类”是利用模型对文本进行级联分类，级联标签之间具有相关关系或因果关系，模型需要既理解文本内容又理解级联标签之间的相关关系。

传统的级联标签分类通常采用多标签分类的方法，即将其作为单标签同时分类，而没有考虑到标签之间的语义关系。为此，提出一种基于多任务学习知识增强的级联标签分类方法。

发明内容

本发明所要解决的技术问题在于：如何解决目前运营商投诉工单文本分类模型准确率低下，无法很好地完成级联标签分类任务的问题，提供了一种基于多任务学习知识增强的级联标签分类方法，通过多任务学习使模型学习到标签之间的关系信息，通过知识增强加深模型对投诉工单文本的理解深度，提升投诉工单级联标签分类的准确率。

如图1所示，本发明是通过以下技术方案解决上述技术问题的，本发明包括以下步骤：

S1：语义表征

对投诉工单文本利用上下文编码器、知识增强编码器分别从上下文语境的角度和义原知识的角度进行语义表征，得到投诉工单文本的语义表征向量；

S2：多任务分类

通过多任务学习分类器中四个对应于不同任务的分类器，根据不同分类器迭代的训练编码器所得到的共享语义表征，得到不同级别的分类标签。

更进一步地，在所述步骤S1中，上下文编码器为运营商领域投诉分类模型preBert，也即预训练模型preBert，利用预训练模型preBert对投诉工单数据进行训练得到基于上下文的语义表征，对于投诉工单文本序列t，通过已有的预训练模型preBert编码获得文本序列t的上下文语义表征向量

定义如下：

其中，preBert(·)表示基于BERT模型的向量编码器。

更进一步地，在所述步骤S1中，知识增强编码器包括基于义原的知识学习模块和基于序列的知识编码模块，其中，基于义原的知识学习模块用于习得每一个词语基于义原层面的词表征，然后再基于序列的知识编码模块聚合获取知识增强的句子表征。

更进一步地，所述基于义原的知识学习模块的具体处理过程如下：

S101：知识获取

统计所有文本序列中的词汇，构建词汇表V，其中包括N个词语，第i个词语表示为w_i；通过查询中文知识库Hownet，可以获得第i个词语w_i拥有p个词义

第j个词义s_j拥有q个义原/>

S102：义原表征获取

基于预训练模型preBert对义原

进行编码获取对应的义原表征向量，分别为/>

S103：词义表征获取

假设

代表词语w_i的第j个词义/>

嵌入，其是由该词义下所有义原嵌入向量表征组合获得，定义如下：

其中，

是指词义s_j中所有义原的集合，/>

表示义原表征在组合成词语w_i的第j个词义/>

语义表征时每一个义原的重要性权重，/>

表示词语w_i基于预训练模型preBert编码获取的上下文向量表征，/>

是词语w_i中第j个词义/>

的第k个义原的语义表征向量；

S104：知识增强的词语表征获取

第i个词语基于知识的语义表征

是通过整合词语的每一个词义的表征获取的；第i个词语基于知识的语义表征/>

定义如下：

其中，

表示词语w_i的词义集合，/>

表示在组合成单词w_i语义表征时第j个词义的重要性权重，最终通过基于义原-词义的两层注意力的加权组合，获取每一个词语知识增强的语义表征；

S105：构建知识表征向量矩阵

将词汇表V中所有词语都进行步骤S101～S104的操作，得到词汇表V中每一个词语知识增强的语义表征，构建词向量矩阵M，其中M∈R^N×D，N是词典的大小，D是每一个词向量的维度。

更进一步地，所述基于序列的知识编码模块的具体处理过程如下：

S201：通过聚合词语的知识增强的语义表征获取文本序列t的语义表征；

S202：通过一个池化层将句子嵌入向量转换成与上下文编码器输出的表示向量相同的形式，定义为：

其中Pooler(·)表示池化函数。

更进一步地，在所述步骤S201中，文本序列t包含n个词汇，基于词向量矩阵M映射序列t中的n个词语对应的词向量{ew₁,ew₂,...,ew_n}，聚合词向量获得文本序列t增强知识表征的语义向量

定义如下：

更进一步地，在所述步骤S2中，多任务学习分类器的输入是将运营商投诉工单文本数据输入上下文编码器和知识增强编码器后得到的嵌入向量融合构成的，定义如下：

其中，t代表运营商投诉工单文本输入。

更进一步地，在所述步骤S2中，每个分类器均是一个全连接层，通过Argmax函数取最大概率值得到预测标签l_max，每个分类器的具体流程为：

logits＝Classifier_z(r(t))

l_max＝Argmax(logits)

其中，Classifier_z(·)表示第z个分类器，Argmax(·)表示取最大概率的函数。

更进一步地，在所述步骤S2中，不同级别的分类标签包括第一级～第四级，其中第一级代表该投诉所属业务的粗分类，第二级标签代表所属业务的细分类，第三级代表该投诉的具体问题大类，第四级代表该投诉的具体问题细分类。

本发明相比现有技术具有以下优点：该基于多任务学习知识增强的级联标签分类方法，将预训练模型得到的上下文语义表征和义原知识表征相融合，同时加入了多任务学习的方法使得模型能够迭代训练，学习到不同标签之间的关系，提高了通用预训练语言模型在运营商投诉工单分类任务上的准确率。

附图说明

图1是本发明实施例一中基于多任务学习知识增强的级联标签分类模型的实施流程示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例一

本实施例提供一种技术方案：一种基于多任务学习知识增强的级联标签分类方法，提出了一种基于多任务学习知识增强的级联标签分类模型，具体包括以下内容：

本文针对运营商领域投诉工单分类数据基本特性，将人工客服给投诉工单的打标进行分割，如表1所示，第一级代表该投诉所属业务的大致分类(粗分类)，第二级标签代表所属业务的细分类，第三级代表该投诉的具体问题大类，第四级代表该投诉的具体问题细分类。本发明对投诉工单文本通过两个编码器(上下文编码器、知识增强编码器)分别从上下文语境的角度和义原知识的角度进行语义表征，得到投诉工单文本的语义表征向量。然后接多任务模块，通过四个不同的分类器，根据不同分类器迭代的训练编码器所产生的共享的语义表征，得到不同级别的分类标签。

表1一个运营商投诉工单分类数据实例

(1)上下文编码器(运营商领域的预训练语言模型)

由于通用的预训练语言模型在运营商领域的数据上执行分类任务的表现较差，因此，本发明整理了200多万条运营商领域的文本数据在RoBERTa通用模型上继续预训练得到运营商领域的预训练语言模型。本发明又使用19万条数据进行微调，训练出了运营商领域投诉分类模型preBert。本发明使用这个模型preBert对投诉工单数据进行训练得到基于上下文的语义表征。其中对于投诉工单文本序列t，通过已有的预训练模型preBert编码可以获得文本序列t的上下文语义表征向量

定义如下：

其中，preBert(·)表示基于BERT模型的向量编码器。

(2)知识增强编码器

知识增强编码器是用于进一步从知识层面丰富文本语义。本发明解决中文运营商投诉场景问题，使用的知识是来自一个中文知识库HowNet，它将义原定义为最小知识单元。它里面每一个词语都包含多个词义，每一个词义又包含多个义原，例如“包袱”这个词在Hownet中有五个词义“cloth-wrapper”、“parcel”、“burden”、“load”、“bundle”。每个词义又有不同数量的义原，如表2所示。

表2一个HowNet知识库的实例

知识增强编码器包含两个部分：基于义原的知识学习模块和基于序列的知识编码模块；其中，基于义原的知识学习模块用来习得每一个词语基于义原层面的词表征，然后再基于序列的知识编码模块聚合获取知识增强的句子表征，下面对上述两个模块进行详细说明：

1)基于义原的知识学习模块

目前上下文编码器是从语境中学习句子的表征，但是仅依赖语境的话，语言模型经常无法正确理解同一个词语在不同领域的真实含义。针对以上问题，本发明通过上下文编码器习得的语义表征来聚合来自知识库的义原信息，用于生成基于知识的词向量。

具体包括以下过程：

第一步：知识获取。首先统计所有文本序列中的词汇，构建词汇表V，其中包括N个词语，第i个词语表示为w_i；通过查询中文知识库Hownet，可以获得第i个词语w_i拥有p个词义

第j个词义s_j拥有q个义原/>

第二步：义原表征获取。由于义原是知识库Hownet中知识的最小单元，本质也是词语，因此基于preBert模型对这些义原

进行编码可以获取对应的义原表征向量，分别为/>

第三步：词义表征获取。假设

代表词语w_i的第j个词义/>

嵌入，它是由该词义下所有义原嵌入向量表征组合获得，定义如下：

其中，

是指词义s_j中所有义原的集合，/>

表示义原表征在组合成词语w_i的第j个词义/>

语义表征时每一个义原的重要性权重，/>

表示词语w_i基于preBert模型编码获取的上下文向量表征，/>

是词语w_i中第j个词义/>

的第k个义原的语义表征向量。

第四步：知识增强的词语表征获取。第i个词语基于知识的语义表征

定义如下：

其中，

表示词语w_i的词义集合，/>

表示在组合成单词w_i语义表征时第j个词义的重要性权重；最终通过基于义原-词义的两层注意力的加权组合，获取了每一个词语知识增强的语义表征。

第五步：构建知识表征向量矩阵。将词汇表V中所有词语都进行上述一到四步操作，得到V中每一个词语知识增强的语义表征，构建词向量矩阵M，其中M∈R^N×D，N是词典的大小，D是每一个词向量的维度。

2)基于序列的知识编码模块

以上模块获取了每一个词语知识增强的语义表征。本发明再通过聚合词语的知识增强的语义表征获取文本序列t的语义表征。假设文本序列t包含n个词汇，基于词向量矩阵M映射序列t中的n个词语对应的词向量{ew₁,ew₂,...,ew_n}。然后再聚合词向量获得文本序列t增强知识表征的语义向量

定义如下：

本发明通过知识增强编码器可以通过义原知识库来增强语言模型理解语言的广度，辅助语言模型精确的分析词语在不同领域下的不同含义。例如：“取消”和“退费“在本发明的业务场景下，表示同一个意思——“取消订购业务，退还费用”。如果没有知识库的辅助，仅依赖上下文语言模型无法直接理解“取消”和“退费”是同义。

最后，连接一个池化层，将句子嵌入向量组成与上下文编码器输出的表示向量相同的形式，定义为：

其中Pooler(·)表示池化函数。

(3)多任务学习分类器(如图1所示)

在运营商投诉工单数据中，每个样本数据都有多个标签，它们是从不同的角度对文本示例数据的理解。这些标签是相关的甚至其中蕴含丰富的逻辑关系。因此，充分利用标签相关性来构建具有强大泛化性能的多标签分类模型是关键的。多任务学习分类器的输入是将运营商投诉工单文本数据输入上下文编码器和知识增强编码器后得到的嵌入向量融合构成的，定义如下：

其中，t代表这个运营商投诉工单文本输入。

然后设置了四个对应于不同任务的分类器，每个分类器(CrossEntropyLoss作为损失函数)均是一个全连接层，而后通过Argmax函数取最大概率值得到预测标签l_max，具体来说，每个分类器的具体流程为：

logits＝Classifier_z(r(t)) (9)

l_max＝Argmax(logits) (10)

实施例二

本实施例采用的数据使来自运营商的投诉工单数据，共计10万条，为了进行模型训练，将按照8:1:1分为训练集、测试集和验证集。通过与传统机器学习模型、常见预训练语言模型相比较，结果如表3所示：

机器学习方法(传统机器学习模型)：基本思路是用TF-IDF提取特征，然后用各种机器学习分类模型进行训练，这里选择了朴素贝叶斯、决策树和XGBoost三个模型作为基线方法。朴素贝叶斯模型有稳定的分类效率，能处理多分类任务，适合增量式训练，对缺失数据不太敏感，算法也比较简单，常用于文本分类。决策树模型具有优秀的可解释性，计算复杂度低。XGBoost模型在代价函数里加入了正则项，有效控制了模型的复杂度，并且支持并行处理，另外它从从顶到底建立所有可以建立的子树，再从底到顶反向机芯剪枝，比起GBM，这样不容易陷入局部最优解。

预训练语言模型：2017年谷歌提出预训练语言模型BERT，它基于自注意力机制计算语言的表征向量。在中文领域，基础模型是bert-base-chinese，在其之上采用全词掩码构建了bert-base-wwm-ext。Facebook提出的chinese-roberta-wwm-ext采用去掉下一句预测(NSP)任务、动态掩码、文本编码三个技术改进BERT模型，谷歌提出albert-base-chinese在保持性能的基础上，大大减少了模型的参数。百度提出的ERNIE系列模型改进了掩码策略，通过学习不同范式的各种预训练任务，使模型能够有效地从训练数据中捕获通用词汇和句法信息。SKEP模型执行情感词掩蔽，构建三个情感知识预测目标，将词级、极性级和方面级的情感信息嵌入到预训练的情感表示中。

表3运营商投诉工单分类任务在不同模型上的实验

/>

由表3中实验结果可以看出，机器学习方法的整体准确率低于57.2％，精确率，召回率，F1-score也是低于57％，而第5行至第11行的通用预训练语言模型的准确率最高是AlBERT模型有64.6％，而精确率，召回率，F1-score均是RoBERTa模型最佳，但也只有64％左右。第12行是本发明提出的模型，可以看出无论是准确率，精确率，召回率，F1-score都取得了最好的效果，基本都在72％左右，相对于通用预训练语言模型提升了8％左右，相对于传统的机器学习模型提升了15％左右。

综上所述，上述实施例的基于多任务学习知识增强的级联标签分类模型，通过多任务学习的迭代训练使模型既能够从文本和标签之间学习知识，也能够从标签和标签之间学习知识；此外增加的知识增强模块又使模型既能够从上下文来学习语义表征，又能够从义原这个更细粒度的角度学习一个语义表征，进而能够在运营商投诉工单分类数据集上的准确率为70％，相对于通用预训练语言模型提升了8％左右，相对于传统的机器学习模型提升了15％左右。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于多任务学习知识增强的级联标签分类方法，其特征在于，包括以下步骤：

S1：语义表征

S2：多任务分类

2.根据权利要求1所述的一种基于多任务学习知识增强的级联标签分类方法，其特征在于：在所述步骤S1中，上下文编码器为运营商领域投诉分类模型preBert，也即预训练模型preBert，利用预训练模型preBert对投诉工单数据进行训练得到基于上下文的语义表征，对于投诉工单文本序列t，通过已有的预训练模型preBert编码获得文本序列t的上下文语义表征向量