CN116204643A - 一种基于多任务学习知识增强的级联标签分类方法 - Google Patents
一种基于多任务学习知识增强的级联标签分类方法 Download PDFInfo
- Publication number
- CN116204643A CN116204643A CN202310217721.7A CN202310217721A CN116204643A CN 116204643 A CN116204643 A CN 116204643A CN 202310217721 A CN202310217721 A CN 202310217721A CN 116204643 A CN116204643 A CN 116204643A
- Authority
- CN
- China
- Prior art keywords
- word
- knowledge
- sense
- semantic
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012512 characterization method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 description 7
- 230000008451 emotion Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多任务学习知识增强的级联标签分类方法,属于自然语言处理技术领域,包括以下步骤:S1:语义表征;S2:多任务分类。本发明将预训练模型得到的上下文语义表征和义原知识表征相融合,同时加入了多任务学习的方法使得模型能够迭代训练,学习到不同标签之间的关系,提高了通用预训练语言模型在运营商投诉工单分类任务上的准确率。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于多任务学习知识增强的级联标签分类方法。
背景技术
运营商领域存在丰富的业务文本或语音数据,其中运营商电话投诉是一项影响客户满意度的关键服务,广泛服务于全国各地的用户。在之前的实际工作中,一般通过客服坐席人员人工标注每一条投诉工单的分类标签,而且需要进行多级标注,每一级代表不同的含义。“级联标签分类”是利用模型对文本进行级联分类,级联标签之间具有相关关系或因果关系,模型需要既理解文本内容又理解级联标签之间的相关关系。
传统的级联标签分类通常采用多标签分类的方法,即将其作为单标签同时分类,而没有考虑到标签之间的语义关系。为此,提出一种基于多任务学习知识增强的级联标签分类方法。
发明内容
本发明所要解决的技术问题在于:如何解决目前运营商投诉工单文本分类模型准确率低下,无法很好地完成级联标签分类任务的问题,提供了一种基于多任务学习知识增强的级联标签分类方法,通过多任务学习使模型学习到标签之间的关系信息,通过知识增强加深模型对投诉工单文本的理解深度,提升投诉工单级联标签分类的准确率。
如图1所示,本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:语义表征
对投诉工单文本利用上下文编码器、知识增强编码器分别从上下文语境的角度和义原知识的角度进行语义表征,得到投诉工单文本的语义表征向量;
S2:多任务分类
通过多任务学习分类器中四个对应于不同任务的分类器,根据不同分类器迭代的训练编码器所得到的共享语义表征,得到不同级别的分类标签。
更进一步地,在所述步骤S1中,上下文编码器为运营商领域投诉分类模型preBert,也即预训练模型preBert,利用预训练模型preBert对投诉工单数据进行训练得到基于上下文的语义表征,对于投诉工单文本序列t,通过已有的预训练模型preBert编码获得文本序列t的上下文语义表征向量定义如下:
其中,preBert(·)表示基于BERT模型的向量编码器。
更进一步地,在所述步骤S1中,知识增强编码器包括基于义原的知识学习模块和基于序列的知识编码模块,其中,基于义原的知识学习模块用于习得每一个词语基于义原层面的词表征,然后再基于序列的知识编码模块聚合获取知识增强的句子表征。
更进一步地,所述基于义原的知识学习模块的具体处理过程如下:
S101:知识获取
S102:义原表征获取
S103:词义表征获取
其中,是指词义sj中所有义原的集合,/>表示义原表征在组合成词语wi的第j个词义/>语义表征时每一个义原的重要性权重,/>表示词语wi基于预训练模型preBert编码获取的上下文向量表征,/>是词语wi中第j个词义/>的第k个义原的语义表征向量;
S104:知识增强的词语表征获取
S105:构建知识表征向量矩阵
将词汇表V中所有词语都进行步骤S101~S104的操作,得到词汇表V中每一个词语知识增强的语义表征,构建词向量矩阵M,其中M∈RN×D,N是词典的大小,D是每一个词向量的维度。
更进一步地,所述基于序列的知识编码模块的具体处理过程如下:
S201:通过聚合词语的知识增强的语义表征获取文本序列t的语义表征;
S202:通过一个池化层将句子嵌入向量转换成与上下文编码器输出的表示向量相同的形式,定义为:
其中Pooler(·)表示池化函数。
更进一步地,在所述步骤S201中,文本序列t包含n个词汇,基于词向量矩阵M映射序列t中的n个词语对应的词向量{ew1,ew2,...,ewn},聚合词向量获得文本序列t增强知识表征的语义向量定义如下:
更进一步地,在所述步骤S2中,多任务学习分类器的输入是将运营商投诉工单文本数据输入上下文编码器和知识增强编码器后得到的嵌入向量融合构成的,定义如下:
其中,t代表运营商投诉工单文本输入。
更进一步地,在所述步骤S2中,每个分类器均是一个全连接层,通过Argmax函数取最大概率值得到预测标签lmax,每个分类器的具体流程为:
logits=Classifierz(r(t))
lmax=Argmax(logits)
其中,Classifierz(·)表示第z个分类器,Argmax(·)表示取最大概率的函数。
更进一步地,在所述步骤S2中,不同级别的分类标签包括第一级~第四级,其中第一级代表该投诉所属业务的粗分类,第二级标签代表所属业务的细分类,第三级代表该投诉的具体问题大类,第四级代表该投诉的具体问题细分类。
本发明相比现有技术具有以下优点:该基于多任务学习知识增强的级联标签分类方法,将预训练模型得到的上下文语义表征和义原知识表征相融合,同时加入了多任务学习的方法使得模型能够迭代训练,学习到不同标签之间的关系,提高了通用预训练语言模型在运营商投诉工单分类任务上的准确率。
附图说明
图1是本发明实施例一中基于多任务学习知识增强的级联标签分类模型的实施流程示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例一
本实施例提供一种技术方案:一种基于多任务学习知识增强的级联标签分类方法,提出了一种基于多任务学习知识增强的级联标签分类模型,具体包括以下内容:
本文针对运营商领域投诉工单分类数据基本特性,将人工客服给投诉工单的打标进行分割,如表1所示,第一级代表该投诉所属业务的大致分类(粗分类),第二级标签代表所属业务的细分类,第三级代表该投诉的具体问题大类,第四级代表该投诉的具体问题细分类。本发明对投诉工单文本通过两个编码器(上下文编码器、知识增强编码器)分别从上下文语境的角度和义原知识的角度进行语义表征,得到投诉工单文本的语义表征向量。然后接多任务模块,通过四个不同的分类器,根据不同分类器迭代的训练编码器所产生的共享的语义表征,得到不同级别的分类标签。
表1一个运营商投诉工单分类数据实例
(1)上下文编码器(运营商领域的预训练语言模型)
由于通用的预训练语言模型在运营商领域的数据上执行分类任务的表现较差,因此,本发明整理了200多万条运营商领域的文本数据在RoBERTa通用模型上继续预训练得到运营商领域的预训练语言模型。本发明又使用19万条数据进行微调,训练出了运营商领域投诉分类模型preBert。本发明使用这个模型preBert对投诉工单数据进行训练得到基于上下文的语义表征。其中对于投诉工单文本序列t,通过已有的预训练模型preBert编码可以获得文本序列t的上下文语义表征向量定义如下:
其中,preBert(·)表示基于BERT模型的向量编码器。
(2)知识增强编码器
知识增强编码器是用于进一步从知识层面丰富文本语义。本发明解决中文运营商投诉场景问题,使用的知识是来自一个中文知识库HowNet,它将义原定义为最小知识单元。它里面每一个词语都包含多个词义,每一个词义又包含多个义原,例如“包袱”这个词在Hownet中有五个词义“cloth-wrapper”、“parcel”、“burden”、“load”、“bundle”。每个词义又有不同数量的义原,如表2所示。
表2一个HowNet知识库的实例
知识增强编码器包含两个部分:基于义原的知识学习模块和基于序列的知识编码模块;其中,基于义原的知识学习模块用来习得每一个词语基于义原层面的词表征,然后再基于序列的知识编码模块聚合获取知识增强的句子表征,下面对上述两个模块进行详细说明:
1)基于义原的知识学习模块
目前上下文编码器是从语境中学习句子的表征,但是仅依赖语境的话,语言模型经常无法正确理解同一个词语在不同领域的真实含义。针对以上问题,本发明通过上下文编码器习得的语义表征来聚合来自知识库的义原信息,用于生成基于知识的词向量。
具体包括以下过程:
其中,是指词义sj中所有义原的集合,/>表示义原表征在组合成词语wi的第j个词义/>语义表征时每一个义原的重要性权重,/>表示词语wi基于preBert模型编码获取的上下文向量表征,/>是词语wi中第j个词义/>的第k个义原的语义表征向量。
第五步:构建知识表征向量矩阵。将词汇表V中所有词语都进行上述一到四步操作,得到V中每一个词语知识增强的语义表征,构建词向量矩阵M,其中M∈RN×D,N是词典的大小,D是每一个词向量的维度。
2)基于序列的知识编码模块
以上模块获取了每一个词语知识增强的语义表征。本发明再通过聚合词语的知识增强的语义表征获取文本序列t的语义表征。假设文本序列t包含n个词汇,基于词向量矩阵M映射序列t中的n个词语对应的词向量{ew1,ew2,...,ewn}。然后再聚合词向量获得文本序列t增强知识表征的语义向量定义如下:
本发明通过知识增强编码器可以通过义原知识库来增强语言模型理解语言的广度,辅助语言模型精确的分析词语在不同领域下的不同含义。例如:“取消”和“退费“在本发明的业务场景下,表示同一个意思——“取消订购业务,退还费用”。如果没有知识库的辅助,仅依赖上下文语言模型无法直接理解“取消”和“退费”是同义。
最后,连接一个池化层,将句子嵌入向量组成与上下文编码器输出的表示向量相同的形式,定义为:
其中Pooler(·)表示池化函数。
(3)多任务学习分类器(如图1所示)
在运营商投诉工单数据中,每个样本数据都有多个标签,它们是从不同的角度对文本示例数据的理解。这些标签是相关的甚至其中蕴含丰富的逻辑关系。因此,充分利用标签相关性来构建具有强大泛化性能的多标签分类模型是关键的。多任务学习分类器的输入是将运营商投诉工单文本数据输入上下文编码器和知识增强编码器后得到的嵌入向量融合构成的,定义如下:
其中,t代表这个运营商投诉工单文本输入。
然后设置了四个对应于不同任务的分类器,每个分类器(CrossEntropyLoss作为损失函数)均是一个全连接层,而后通过Argmax函数取最大概率值得到预测标签lmax,具体来说,每个分类器的具体流程为:
logits=Classifierz(r(t)) (9)
lmax=Argmax(logits) (10)
其中,Classifierz(·)表示第z个分类器,Argmax(·)表示取最大概率的函数。
实施例二
本实施例采用的数据使来自运营商的投诉工单数据,共计10万条,为了进行模型训练,将按照8:1:1分为训练集、测试集和验证集。通过与传统机器学习模型、常见预训练语言模型相比较,结果如表3所示:
机器学习方法(传统机器学习模型):基本思路是用TF-IDF提取特征,然后用各种机器学习分类模型进行训练,这里选择了朴素贝叶斯、决策树和XGBoost三个模型作为基线方法。朴素贝叶斯模型有稳定的分类效率,能处理多分类任务,适合增量式训练,对缺失数据不太敏感,算法也比较简单,常用于文本分类。决策树模型具有优秀的可解释性,计算复杂度低。XGBoost模型在代价函数里加入了正则项,有效控制了模型的复杂度,并且支持并行处理,另外它从从顶到底建立所有可以建立的子树,再从底到顶反向机芯剪枝,比起GBM,这样不容易陷入局部最优解。
预训练语言模型:2017年谷歌提出预训练语言模型BERT,它基于自注意力机制计算语言的表征向量。在中文领域,基础模型是bert-base-chinese,在其之上采用全词掩码构建了bert-base-wwm-ext。Facebook提出的chinese-roberta-wwm-ext采用去掉下一句预测(NSP)任务、动态掩码、文本编码三个技术改进BERT模型,谷歌提出albert-base-chinese在保持性能的基础上,大大减少了模型的参数。百度提出的ERNIE系列模型改进了掩码策略,通过学习不同范式的各种预训练任务,使模型能够有效地从训练数据中捕获通用词汇和句法信息。SKEP模型执行情感词掩蔽,构建三个情感知识预测目标,将词级、极性级和方面级的情感信息嵌入到预训练的情感表示中。
表3运营商投诉工单分类任务在不同模型上的实验
由表3中实验结果可以看出,机器学习方法的整体准确率低于57.2%,精确率,召回率,F1-score也是低于57%,而第5行至第11行的通用预训练语言模型的准确率最高是AlBERT模型有64.6%,而精确率,召回率,F1-score均是RoBERTa模型最佳,但也只有64%左右。第12行是本发明提出的模型,可以看出无论是准确率,精确率,召回率,F1-score都取得了最好的效果,基本都在72%左右,相对于通用预训练语言模型提升了8%左右,相对于传统的机器学习模型提升了15%左右。
综上所述,上述实施例的基于多任务学习知识增强的级联标签分类模型,通过多任务学习的迭代训练使模型既能够从文本和标签之间学习知识,也能够从标签和标签之间学习知识;此外增加的知识增强模块又使模型既能够从上下文来学习语义表征,又能够从义原这个更细粒度的角度学习一个语义表征,进而能够在运营商投诉工单分类数据集上的准确率为70%,相对于通用预训练语言模型提升了8%左右,相对于传统的机器学习模型提升了15%左右。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种基于多任务学习知识增强的级联标签分类方法,其特征在于,包括以下步骤:
S1:语义表征
对投诉工单文本利用上下文编码器、知识增强编码器分别从上下文语境的角度和义原知识的角度进行语义表征,得到投诉工单文本的语义表征向量;
S2:多任务分类
通过多任务学习分类器中四个对应于不同任务的分类器,根据不同分类器迭代的训练编码器所得到的共享语义表征,得到不同级别的分类标签。
3.根据权利要求2所述的一种基于多任务学习知识增强的级联标签分类方法,其特征在于:在所述步骤S1中,知识增强编码器包括基于义原的知识学习模块和基于序列的知识编码模块,其中,基于义原的知识学习模块用于习得每一个词语基于义原层面的词表征,然后再基于序列的知识编码模块聚合获取知识增强的句子表征。
4.根据权利要求3所述的一种基于多任务学习知识增强的级联标签分类方法,其特征在于:所述基于义原的知识学习模块的具体处理过程如下:
S101:知识获取
S102:义原表征获取
S103:词义表征获取
其中,是指词义sj中所有义原的集合,/>表示义原表征在组合成词语wi的第j个词义/>语义表征时每一个义原的重要性权重,/>表示词语wi基于预训练模型preBert编码获取的上下文向量表征,/>是词语wi中第j个词义/>的第k个义原的语义表征向量;
S104:知识增强的词语表征获取
S105:构建知识表征向量矩阵
将词汇表V中所有词语都进行步骤S101~S104的操作,得到词汇表V中每一个词语知识增强的语义表征,构建词向量矩阵M,其中M∈RN×D,N是词典的大小,D是每一个词向量的维度。
8.根据权利要求7所述的一种基于多任务学习知识增强的级联标签分类方法,其特征在于:在所述步骤S2中,每个分类器均是一个全连接层,通过Argmax函数取最大概率值得到预测标签lmax,每个分类器的具体流程为:
logits=Classtfierz(r(t))
lmax=Argmax(logits)
其中,Classifierz(·)表示第z个分类器,Argmax(·)表示取最大概率的函数。
9.根据权利要求8所述的一种基于多任务学习知识增强的级联标签分类方法,其特征在于:在所述步骤S2中,不同级别的分类标签包括第一级~第四级,其中第一级代表该投诉所属业务的粗分类,第二级标签代表所属业务的细分类,第三级代表该投诉的具体问题大类,第四级代表该投诉的具体问题细分类。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310018469 | 2023-01-06 | ||
CN2023100184697 | 2023-01-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116204643A true CN116204643A (zh) | 2023-06-02 |
Family
ID=86519047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310217721.7A Pending CN116204643A (zh) | 2023-01-06 | 2023-03-08 | 一种基于多任务学习知识增强的级联标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116204643A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648933A (zh) * | 2024-01-29 | 2024-03-05 | 杭州智芯科微电子科技有限公司 | 基于深度学习和知识库的自然语言歧义消解方法和系统 |
-
2023
- 2023-03-08 CN CN202310217721.7A patent/CN116204643A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648933A (zh) * | 2024-01-29 | 2024-03-05 | 杭州智芯科微电子科技有限公司 | 基于深度学习和知识库的自然语言歧义消解方法和系统 |
CN117648933B (zh) * | 2024-01-29 | 2024-05-03 | 杭州智芯科微电子科技有限公司 | 基于深度学习和知识库的自然语言歧义消解方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284506A (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN112115238A (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN110232439B (zh) | 一种基于深度学习网络的意图识别方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN112163429B (zh) | 结合循环网络及bert的句子相关度获取方法、系统及介质 | |
CN112101010A (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及系统 | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN116204643A (zh) | 一种基于多任务学习知识增强的级联标签分类方法 | |
CN112948588B (zh) | 一种用于情报快速整编的中文文本分类方法 | |
CN110941958A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN114154504A (zh) | 一种基于多信息增强的中文命名实体识别算法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
CN115994220A (zh) | 一种基于语义挖掘的接触网文本数据缺陷识别方法及设备 | |
Li et al. | Relation extraction of chinese fundamentals of electric circuits textbook based on cnn | |
CN113705194A (zh) | 简称抽取方法及电子设备 | |
CN113076424A (zh) | 一种面向不平衡文本分类数据的数据增强方法及系统 | |
Fan et al. | Multi-label Chinese question classification based on word2vec | |
Wang et al. | Weakly supervised Chinese short text classification algorithm based on ConWea model | |
Zhou et al. | Short-spoken language intent classification with conditional sequence generative adversarial network | |
Liu et al. | Text Analysis of Community Governance Case based on Entity and Relation Extraction | |
CN114818644B (zh) | 文本模板生成方法、装置、设备及存储介质 | |
Wu et al. | Dialog acts classification with semantic and structural information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |