CN113515632B

CN113515632B - 基于图路径知识萃取的文本分类方法

Info

Publication number: CN113515632B
Application number: CN202110730540.5A
Authority: CN
Inventors: 赵昱杰
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-03-19
Anticipated expiration: 2041-06-30
Also published as: CN113515632A

Abstract

本发明提出的一种基于图路径知识萃取的文本分类方法，分类效率高效，能够减小大型文本语言模型体积。本发明可以通过下述方案予以实现：首先对待训练的文本分类模型的语料进行有监督数据清洗和人机配合打标，并对当前领域的标签体系构建层次策略图；其次建立图路径检索过程中的中央节点处理机制算法，辅助中央节点将待分类文本精确投影到其对应的单节点领域标签，并完成单节点领域标签的文本分类任务；然后基于自然语言处理领域Bert文本分类模型为母模型进行单节点领域标签的知识萃取，蒸馏出单节点领域的小体量子文本分类模型，按照上述方式训练出的单节点领域标签分类子模型部署到层次策略图中的各个节点中，完成文本分类。

Description

基于图路径知识萃取的文本分类方法

技术领域

本发明涉及文本分类领域结合标签、图构建方法和知识蒸馏技术，形成的一种基于图路径知识萃取的文本分类方法。

背景技术

随着网络社交媒体和电子商务的快速发展，网络新闻、舆情、查询、评论、推文等文本在互联网上越来越普遍。文本分类可以广泛应用于许多领域中，如情感分析、新闻标签分类、意图分类等。在实际场景中，标记数据是稀缺的，此时需要人工进行文本分类打标，而人工标记的成本是非常高昂的，需要一定数量且具备专家知识的专业人士才能完成高质量的数据打标工作，而自然语言处理中的文本分类技术可在一定程度上运用智能算法减小人工打标的成本，进而达到减轻人力代价的核心目的。目前,在知识图谱领域的研究主要是针对知识图谱构建技术和基于知识图谱的应用两大方面。在知识图谱应用方面,最近几年利用知识图谱来实现文本自动生成也是人工智能研究的一个重要方面。随着网络的普及对中文文本语义相似度计算方法的关注也越来越多。中文是表意的文字,相对英文,中文没有严格的语法；文本具有长度较短、表达方式多样化、文法结构不规范的特点。传统的处理方法存在文本特征表示稀疏、语义信息丢失等问题；现有深度学习方法解决了传统方法的部分问题,但忽略了中文短文本的特点。在中文文本自动分类中，高词频对分类贡献很大。当特征的出现只依赖于某一个类别时，特征与该类型的互信息很大；当特征很少在该类型文本中出现时，它们之间的互信息为负数，即负相关。度小的特征对互信息的影响大，使得低频特征具有较大的互信息。特征项出现的类别数越少，权重应该越大。在文本分类领域中，由于不同的文本语料，可能对应相同的标签。然而有些需求要精确到某个细节领域，比如A、B两篇文本同时分到了一类别标签下，有时候这样太模糊，本文希望如果A能分到潜艇这个类别标签下，B能分到舰船这个类别标签下，这样就使得分类结果更加精确。然而现有的研究大多集中在长文本上，而对短文本的研究由于数据的稀疏性和标注量的限制，效果并不理想。

文本生成整体上是由编码和解码两个部分构成，其中，编码结果由两个编码输入整合得到，分别为图谱编码(来自graph transformer)与主题/标题(Title)编码(来自biRNN)。主题编码的目的是给多句文本的生成提供一个顺序指导，假设多句连贯文本本质上是一条三元组构成的路径，主题编码则是表示路径的起点，以及生成过程必须经过的某些节点。本文使用的图路径是由文本中的信息抽取构造而成，并不是对现有知识图谱的应用，这一做法避免了图谱中实体/关系节点表示形式与自然语言表达差异性带来的影响，是一种“文本->图路径->文本”的过程，图路径中节点的表达都明显倾向自然语言。换言之，这种图路径结构的稳定性(歧义性)是需要讨论的，此外，直接用于已有图谱(如DBpedia，YAGO)到文本的生成，则需要解决实体关系描述倾向非自然语言的情况。目前大部分文件由语言描述，语言没有严格的语法限制，也没有清晰的语义标签；通常在页面中除了表达主题的内容外，有的还为了维持页面的链接关系而进行导航设计或出于商业目的等进行广告等。一个典型的网页是由导航信息、网页正文、广告信息，相关链接等部分组成的。这些噪音数据分散了网页主题增加了搜索引擎的处理难度，引起搜索时的“主题偏移”降低了搜索的准确性，造成人们难以获取有效信息的现象。为了将其文本信息准确快速地抽取出来，同时要移除无用的网页噪音数据，需要人工对于抽取设计进行分类优化处理。

常用文本分类方法有贝叶斯分类方法、决策树方法、KNN方法、支撑向量机SVM、神经网络方法、LIST VotedClassfication方法等。这些方法除决策树方法外追求的是较高的文本分类精度,却很难抽取出使人易于理解的文本分类规则，规则抽取也是文本分类中的一个难题,虽然也有基于规则抽取的文本分类技术，但这种分类方法抽取易于理解的分类规则依然是困难的。例如基于粗糙集的文本分类规则抽取方法就存在着明显的缺陷：决策表十分庞大,因而离散化和基于粗糙集的属性约简的工作量巨大；若分类规则包含特征项具有实型权值,则规则不易理解，并且分类时不能直接利用,从而缺少决策树分类方法具有的出色数据分析效率,这是其他方法无法比拟的优势；但是决策树也存在着弱点：决策树方法在文本特征维数过高、数据量过大时建立决策树需要消耗大量时间且分类精度降低，而且类别过多时容易出错。目前文本分类过程中最常用的是用BoW和TF-IDF模型进行文本表征。最近的一些研究将文本建模为图形，提取基于路径的特征进行分类。文本分类过程中存在的Bert模型体积较大、推理速度慢和标签语义可能存在的语意交叉现象，尽管这些方法在正式文本和编辑良好的文本上都取得了初步的成功，但由于短文本所具有的特征不足，这些方法在短文本分类上都未能取得令人满意的效果。这些方法不能捕获语义关系(如实体关系)，并且严重依赖于训练数据的数量。显然，缺乏训练数据仍然是阻碍它们成功应用的关键瓶颈。为了解决这一问题，人们努力丰富短文本的语义。例如Phan等人利用外部语料库提取短文本的潜在主题。Wang等从知识库等引入外部实体信息。然而，由于特征工程步骤依赖于领域知识，这些方法不能取得很好的性能。因此如何更好地消除网页噪音并准确快速地对文本信息抽取是一个重要的研究课题。

发明内容

本发明的任务是针对文本分类过程中存在的Bert模型体积较大、推理速度慢和标签语义可能存在的语意交叉现象，提出的一种可执行性强，分类效率高，能够节省计算机硬件资源，减小大型文本语言模型体积，基于图路径知识萃取的文本分类方法。以解决标签中可能存在的语意交叉现象和由于子节点文本分类模型体积大而导致的占用过多计算机资源、响应推理速率慢等问题，并形成一套新的文本分类方法。

本发明的上述目的可以通过以下措施来达到，一种基于图路径知识萃取文本分类方法，其特征在于包括如下步骤：

(1)首先对待训练的文本分类模型的语料进行有监督数据清洗和人机配合打标，将收集到的语料数据集处理成为文本分类任务需要的标准输入格式，根据采集到的语料集进行标签系统划分，将本文层级结构划分为3～5个层次等级，并对当前领域的标签体系构建层次策略图，基于上述层等级构建文本分类方案的有向无环图DAG图，对图中子节点进行单节点标签领域的子模型训练和文本分类任务；

(2)在每个节点处使用现有中文基础版Bert语言模型训练，并采用迁移学习中的知识蒸馏技术萃取出轻量级文本分类模型，将训练的文本分类模型的语料存储在已构建方案中的有向无环图DAG图子节点中；

(3)按照特征词的权重值，提取文本关键词项，辅助优化领域词典，利用图路径哈希编码存储算法建立单节点标签领域路径存储矩阵，辅助中央节点，将待分类文本精确投影到其对应的单节点领域标签，完成单节点领域标签的文本分类任务，然后建立图路径检索过程中的中央节点处理机制算法，将新语料精准归纳映射到DAG图中的对应单节点标签领域，进而进行文本分类任务模型的训练和预测，完成语料从中央节点到DAG图中单节点标签领域的精准映射，将上述DAG图中各单节点标签领域模型进行集成发布；

(4)基于自然语言处理领域Bert文本分类模型，为母模型进行单节点领域标签的知识萃取，蒸馏出单节点领域的小体量子文本分类模型，以此子模型精准地分类预测当前节点领域标签下的多类别；形成一套基于图路径知识萃取的文本分类方法；

(5)按照上述方式训练出的单节点领域标签分类子模型，部署到层次策略图中的各个节点中，形成一套完整的文本分类方法。

本发明相比于现有技术具有如下有益效果。

本发明针对文本分类的需求，在基于Bert文本分类模型架构的基础上，结合知识萃取、蒸馏技术和图路径检索技术，形了一套基于图路径知识萃取的文本分类方法，对分类标签进行特征工程选择，构建领域标签下的图路径层次结构；采取自然语言处理领域中的知识蒸馏技术，达到在不失精度的情况下，减轻了中文版Bert基础模型的自身体积、节约计算机硬件资源，提高了单节点子模型的分类效率。效果上一方面提升了文本分类的精确性，另一方面，在一定程度上解决了分类标签存在的领域语意交叉现象。

本发明采用早停的推理思想设计，一方面基于中文基础版本Bert语言模型，结合迁移学习中的知识蒸馏技术，在进行模型训练和分类过程中，达到给大型文本语言模型减小体积的同时，不丢失原大型语言模型推理精度，进而节省计算机硬件资源，从而使得萃取蒸馏出的子模型，可以完全胜任当前标签领域的文本分类任务，且自身模型轻巧不占用过多计算机硬件资源和推理计算时间；另一方面结合构建层次图路径检索思想，将基于Bert模型萃取蒸馏好的子模型，分别部署在已设计好的层次图路径节点中，进而完成相应单节点领域标签下的文本分类任务，在一定程度上可以优化文本分类过程中存在的标签语意交叉现象。通过标签路径聚类和自动获取三个阈值来获取网页的主要部分减小了模板计算复杂度。进而解决了标签中可能存在的语意交叉现象和由于子节点文本分类模型体积大而导致的占用过多计算机资源、响应推理速率慢等问题。

本发明文本分类方法思路清晰，可执行性强，当文本语料集具有一定规模和待分类语料集标签较多的情况下，改善效果比较明显。

附图说明

图1为本发明基于图路径知识萃取文本分类架构的流程框图；

图2为实验结果图。

具体实施方式

参阅图1。根据本发明，通过以下步骤实现，

一种基于图路径知识萃取的文本分类方法，其特征在于包括如下步骤：

(2)在模型训练阶段，每个节点处使用现有中文基础版Bert语言模型训练，并采用迁移学习中的知识蒸馏技术萃取出轻量级文本分类模型，将训练的文本分类模型的语料存储在已构建方案中的有向无环图DAG图子节点中；

(5)按照上述方式训练出的单节点领域标签分类子模型，部署到层次策略图中的各个节点中，在预训练和微调阶段形成一套完整的文本分类方法。

本实施例在收集语料数据集中，基于搜狗实验室全网公开数据集，采集文本语料数据集，将人工爬取数据集作为文本分类模型进行训练、验证和测试语料集，对采集到的文本内容进行分词、去停用词处理，用处理后的文本内容作为语言模型的训练集语料，对数据预处理。

在标签系统划分中，划分单节点领域标签层次，通过对新闻情报数据的文本标题的标签体系进行图路径层级结构划分。给定文档集合及相关的层级标签结构，转成学习一个分类模型进行标签预测，将第一层级划分为第i层标签集合，进行文本和层级标签的表征学习；使用注意力机制，让学习的文本向量和标签向量进行循环学习和交互，采用混合方式进行标签预测，获取词向量，然后使用Bi-LSTM网络进行表征学习，学习得到序列向量V；基于词的平均池化操作,将V变换成短文本内容的词向量根据图路径检索中央节点处理机制算法，建立层级结构中第i层第j个标签对应的分类模l_ij；

a∈N⁺,b∈N⁺，对于输入向量，用M_ij模型去做分类预测；在层级标签表征上，使用lookup方式生成初始化矩阵标S，S＝(S¹，S²…Sⁿ)，然后，将表征学习到的V和S进行拼接，进入下一个layer进行学习；式中，l表示待预测标签，l_i为第i层标签集合，/>是表示短文本内容的词向量，Min函数表示取输入函数的最小值，取向量夹角的最小值认定为相似度最高，Cos函数表示求输入向量的余弦值，/>函数表示对M_ab(l_ab)的逆运算，a,b表示预测第i层第j个标签的搜索路径上的第a层，b表示第b个标签,N表示序列词数集。

对M_ab(l_ab)函数的逆运算可取出当下模型M_ab中预测l_ab标签，求解Cos函数。

基于层级记忆单元将第一个layer学习的向量接入一个rnn网络，为把学习到的信息作为记忆信息，一层接着一层进行递进式学习，然后对矢量空间中函数的向量/>和/>作内积运算，对输入Text文本进行向量化V函数表示,得到Text文本在向量空间中小的词向量。

其中，||*||表示向量的模运算，这里a表示预测第i层第j个标签的搜索路径上的第a层，b表示第b个标签。

以上公式中的下角标a,b,i,j均属于正整数，代表某个层级中的节点编号。通过上述1、2、3和4四个公式，可以完整地描述出整个图路径检索中央节点处理机制算法的全过程，完成了对算法的数学语言建模任务。

模型训练阶段，基于中央节点中文基础版本Bert语言模型进行图路径单节点模型的知识萃取蒸馏与训练在初始文本表征向量s＝[word₀,word₁,...word_n]中，经过Embedding编码层投影到文本向量e中，为下一步特征提取准备待输入的文本表征。

e＝Embedding(s) (5)

Transformer特征提取。

h_i＝Transformer_i(h_i-1) (6)

式中，h_i(i＝-1,0,1,...,L-1)表示第i层隐层的输出特征，并且h_-1＝e，其中-1层是输入的向量空间中的文本向量e。

文本向量e经过Transformer特征提取器的多层特征提取，尾部加上多分类器Softmax进行文本分类任务，输出分类器结果p_t，p_t＝Teacher(h_L-1)，为保证pretrain和finetune阶段学习的知识不被影响，然后从主模型蒸馏萃取出相应的子模型，输出蒸馏后的子模型

公式8中，在预训练和微调阶段更新主干参数，利用上一层的信息进行更新，计算输入的文本与第h层标签的权重值attention和带标签的文本信息，以平均方式得到最终的文本表征信息。基于注意力机制的循环网络进行层级性多元标签文本分类，将原始文本语义表示与引入前一层信息的关联文本类别表征相结合，生成整体的表征并预测每一层的类别，通过保留各层级的层次信息，对不同层次之间的依赖关系进行交互传递学习，学习到文本中每个序列的词对各级label的关联程度，并将信息进行循环学习。利用第二层的信息进行混合预测，将每次的信息融合起来进行一个全局的预测，将局部预测值和全局预测值加权作为最终预测的值。蒸馏原理在于如果某样本预测结果的置信度很高，就不用继续推理计算了，就是自适应调整每个样本的计算量，容易的样本通过一两层就可以预测出来，较难的样本则需要走完全程，以此来提高计算效率。

用KL散度衡量蒸馏前后母模型跟子模型之间的分布距离。

得到包含所有子模型跟母模型的KL散度总和Loss损失函数。

用预测结果的熵来衡量分类预测过程中的不确定性指标U模型。

熵越大则不确定性越大。模型部署。基于样本预测的结果和分类器结果，进行模型的节点部署，中文基础版Bert语言模型训练并采用迁移学习中的知识蒸馏技术萃取出轻量级文本分类模型并集中存储在已构建方案中的有向无环图DAG图子节点中。其中在单节点子标签领域的蒸馏训练过程中，epochs＝7、batch_size＝16、data_load_num_works＝2；测试中，inference_speed＝0.7、data_load_num_works＝2。

通过文本关键词提取，领域词典辅助优化，图路径哈希编码存储等算法建立单节点标签领域路径存储矩阵，形成中央节点处理机制算法，完成语料从中央节点到DAG图中单节点标签领域的精准映射，其中存储矩阵为500*500维的空间矩阵，可采取矩阵压缩存储法，存储内容为1*128维0、1路径向量。

将上述DAG图中各单节点标签领域模型进行集成发布，形成一套基于图路径知识萃取的文本分类方法。

收集语料数据集，接收文本语料数据，判断当前是否是训练任务，是则对文本分类语料进行数据清洗和人机打标，判断本次训练数据是否打标，若没有打标，返回数据清洗和人机打标，是则针对当前标签体系构建层次策略图，并判定标签层次策略图是否构建完成，若没有完成，返回构建层次策略图，若已完成，建立图路径检索的中央节点处理机制算法，并判断中央节点处理机制算法是否完成，若没有完成，返回建立中央节点处理机制算法，若已完成，针对待分类语料进行图路径检索至单节点领域标签，然后判断是否正确映射到该单节点领域标签，否则优化基于图路径检索的中央节点处理机制算法的超参数，继续进行图路径检索，是则基于Bert语言模型进行单节点领域标签的知识萃取，判断蒸馏萃取是否完成，否则返回继续知识萃取，是则部署蒸馏后的单节点领域标签子模型到标签层次策略图中的相应位置，作为响应文本分类任务的单节点领域标签子模型。在判断当前是否是训练中，如果不是训练，则，基于中央节点处理机制算法定位到领域标签子模型，然后判断是否正确映射到该单节点领域标签，是则，完成单节点领域标签下的文本分类任务，否则，优化基于图路径检索的中央节点处理机制算法的超参数。

以上结合附图对本发明进行了详细描述，但需要指出的是，上述实例所描述的是仅为本发明的优选实例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化，比如可以结合具体的实现改变处理流程和处理顺序、可以选设识别过程中的不同参数来实现本发明的技术方法。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于图路径知识萃取的文本分类方法，其特征在于，包括如下步骤：

(1)首先对待训练的文本分类模型的语料进行有监督数据清洗和人机配合打标，将收集到的语料数据集处理成为文本分类任务需要的标准输入格式，根据采集到的语料集进行标签系统划分，将本文层级结构划分为3～5个层次等级，并对当前领域的标签体系构建层次策略图，基于上述层次等级构建文本分类方案的有向无环图DAG图，对图中子节点进行单节点标签领域的子模型训练和文本分类任务；

(5)按照训练出的单节点领域标签分类子模型，部署到层次策略图中的各个节点中，在预训练和微调阶段形成一套完整的文本分类方法；

根据图路径检索中央节点处理机制算法，建立层级结构中第i层第j个标签对应的分类模型l_ij；对于输入/>向量，用M_ij模型去做分类预测；在层级标签表征上，使用lookup方式生成初始化矩阵标S，S＝(S¹，S²…Sⁿ)，然后，将表征学习到的V和S进行拼接，进入下一个layer进行学习；式中，l表示待预测标签，l_i为第i层标签集合，/>是表示短文本内容的词向量，Min函数表示取输入函数的最小值，取向量夹角的最小值认定为相似度最高，Cos函数表示求输入向量的余弦值，函数表示对M_ab(l_ab)的逆运算，a,b表示预测第i层第j个标签的搜索路径上的第a层，b表示第b个标签,N表示序列词数集；

对M_ab(l_ab)函数的逆运算取出当下模型M_ab中预测l_ab标签，求解Cos函数，基于层级记忆单元将第一个layer学习的向量接入一个rnn网络，为把学习到的信息作为记忆信息，一层接着一层进行递进式学习，然后对矢量空间中/>函数的向量/>和/>作内积运算，对输入Text文本进行向量化V函数表示,得到Text文本在向量空间中小的词向量/>其中，||*||表示向量的模运算，这里a表示预测第i层第j个标签的搜索路径上的第a层，b表示第b个标签。

2.如权利要求1所述的基于图路径知识萃取的文本分类方法，其特征在于：在收集语料数据集过程中，基于搜狗实验室全网公开数据集，采集文本语料数据集，将人工爬取数据集作为文本分类模型进行训练、验证和测试语料集，对采集到的文本内容进行分词、去停用词处理，用处理后的文本内容作为语言模型的训练集语料，对数据预处理；在标签系统划分中，划分单节点领域标签层次，通过对新闻情报数据的文本标题的标签体系进行图路径层级结构划分；给定文档集合及相关的层级标签结构，转成学习一个分类模型进行标签预测，将第一层级划分为第i层标签集合，进行文本和层级标签的表征学习；使用注意力机制，让学习的文本向量和标签向量进行循环学习和交互，采用混合方式进行标签预测，获取词向量，然后使用Bi-LSTM网络进行表征学习，学习得到序列向量V；基于词的平均池化操作,将V变换成短文本内容的词向量

3.如权利要求2所述的基于图路径知识萃取的文本分类方法，其特征在于：模型训练阶段，基于中央节点中文基础版本Bert语言模型进行图路径单节点模型的知识萃取蒸馏与训练，在初始文本表征向量s＝[word₀,word₁,…word_n]中，经过Embedding编码层投影到文本向量e中，为下一步特征提取准备待输入的文本表征e＝Embedding(s)，Transformer特征提取h_i＝Transformer_i(h_i-1)，式中，h_i表示第i层隐层的输出特征，i＝-1,0,1,…,L-1，并且h_-1＝e，其中-1层是输入的向量空间中的文本向量e。

4.如权利要求3所述的基于图路径知识萃取的文本分类方法，其特征在于：文本向量e经过Transformer特征提取器的多层特征提取，尾部加上多分类器Softmax进行文本分类任务，输出分类器结果p_t，p_t＝Teacher(h_L-1)，为保证pretrain和finetune阶段学习的知识不被影响，然后从主模型蒸馏萃取出相应的子模型，输出蒸馏后的子模型，

5.如权利要求1所述的基于图路径知识萃取的文本分类方法，其特征在于：通过文本关键词提取，领域词典辅助优化，图路径哈希编码存储算法建立单节点标签领域路径存储矩阵，形成中央节点处理机制算法，完成语料从中央节点到DAG图中单节点标签领域的精准映射，中存储矩阵为500*500维的空间矩阵，可采取矩阵压缩存储法，存储内容为1*128维0、1路径向量。

6.如权利要求1所述的基于图路径知识萃取的文本分类方法，其特征在于：在预训练和微调阶段更新主干参数，利用上一层的信息进行更新，计算输入的文本与第h层标签的权重值attention和带标签的文本信息，以平均方式得到最终的文本表征信息。

7.如权利要求1所述的基于图路径知识萃取的文本分类方法，其特征在于：基于注意力机制的循环网络进行层级性多元标签文本分类，将原始文本语义表示与引入前一层信息的关联文本类别表征相结合，生成整体的表征并预测每一层的类别，通过保留各层级的层次信息，对不同层次之间的依赖关系进行交互传递学习，学习到文本中每个序列的词对各级label的关联程度，并将信息进行循环学习；利用第二层的信息进行混合预测，将每次的信息融合起来进行一个全局的预测，将局部预测值和全局预测值加权作为最终预测的值。

8.如权利要求1所述的基于图路径知识萃取的文本分类方法，其特征在于：用KL散度衡量蒸馏前后母模型跟子模型之间的分布距离得到包含所有子模型跟母模型的KL散度总和Loss损失函数，/>用预测结果的熵来衡量分类预测过程中的不确定性指标U模型/>基于样本预测的结果和分类器结果，进行模型的节点部署，对中文基础版Bert语言模型训练，采用迁移学习中的知识蒸馏技术，萃取出轻量级文本分类模型，并集中存储在已构建方案中的有向无环图DAG图子节点中。/>