CN115982369B

CN115982369B - 一种融入标签语义的文本分类改进方法

Info

Publication number: CN115982369B
Application number: CN202310245899.2A
Authority: CN
Inventors: 成卫青; 韩博
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-08-22
Anticipated expiration: 2043-03-15
Also published as: CN115982369A

Abstract

本发明公开了一种融入标签语义的文本分类改进方法包括，对数据集中的文本和标签分别进行向量编码；处理文本编码向量得到预测标签分布和损失；处理标签编码向量得到标签向量表征和损失；采用LCM，将文本向量表征和标签向量表征作相似度分析；将得到的损失使用KLDivLoss损失函数衡量差异。本发明是基于标签混淆学习（LCM）提高文本分类任务的准确率，LCM使得标签分布变成软标签分布，对one‑hot这种暴力标签的一种优化，让相近的标签距离更加相近，不相关的标签距离更加变远。

Description

一种融入标签语义的文本分类改进方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种融入标签语义的文本分类改进方法。

背景技术

目前，越来越多的人们通过手机、平板等便携式电子设备接触到各式各样的互联网信息。随着互联网的普及和发展，信息传播的速度也越来越快，不仅互联网信息的数量在逐渐增多，而且种类也越来越多。电子设备在接收和传输数据时给人们的生活带来了便利。但与此同时对于互联网上需要处理的庞大信息和海量的数据，如何准确地进行过滤、抽取等来为人们实现更高质量的服务，做到错误率尽可能低的程度，成为了现在必须要面对的一种新的技术挑战。

文本分类是自然语言处理常见的任务之一，在互联网处理庞大数据中扮演着重要的角色，主要应用于垃圾邮件识别、情感分析、主题分类、问答任务、意图识别（天气查询、歌曲搜索）等方面。传统方法在中文文本分类上的应用仍然存在挑战，例如具体应用在真正落地的时候往往会遇到数据量不足的问题；其次是传统基于BERT模型的大多数方法都采用使用BERT迁就下游任务的形式，首先将预训练模型应用到下游任务上，然后再通过微调预训练语言模型提升性能。但随着预训练语言模型参数不断地增多，对其微调的硬件要求和实际代价也在变得更艰难。

另外，从标签层面看，传统的分类模型是将真实的标签表示为一个one-hot向量，并用于与预测做对比。但是，有些时候，one-hot并不能完全充分地反映文本和标签之间的关系，很多有用的知识无法学到。比如：“鸟”和“飞机”本来也比较像，因此如果模型预测觉得二者更接近，那么应该给予更小的损失。因为标签通常不是完全独立的。这种不充分的one-hot表示容易使得模型过度自信，即“非黑即白”，导致模型泛化能力差。特别是对于混淆数据集(标签非常相似的数据集)或噪声数据集(标签错误的数据集)。

从文本层面看，BERT模型除去第一层输入层，有12个encoder层，每个encoder层的第一个token（CLS）向量都可以当作句子向量，encode层越浅，句子向量越能代表低级别语义信息，越深，代表更高级别语义信息。BERT对句子进行编码的向量存在各向异性，向量值会受句子中词在所有训练语料里的词频影响，导致高频词编码的句向量距离更近，更集中在原点附近。这会导致即使一个高频词和一个低频词的语义是等价的，但词频的差异也会带来很大的距离偏差，从而词向量的距离就不能很好地代表语义相关性。传统分类模型都是只把最后一层接入分类器进行预测，这个输出不是对输入的语义内容的一个很好的总结，可能损失了一些底层的语义信息以及一些关键词的特征。

本发明针对上述问题，主要通过对标签进行特征提取来充分发挥标签混淆学习（LCM）的学习能力并且把BERT的句向量通过BiLSTM进行特征提取，再与BERT的词向量特征融合来提高文本分类的性能。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明提供了一种融入标签语义的文本分类改进方法，分别使用BiLSTM实现BERT的深层和浅层语义特征的提取以及将文本的句向量和词向量特征融合，在标签编码后通过BiLSTM和Self-Attention相结合来进一步提取标签的特征使标签混淆学习（LCM）的学习能力得以充分发挥。

为解决上述技术问题，本发明提供如下技术方案，一种融入标签语义的文本分类改进方法，包括：

对数据集中的文本和标签分别进行向量编码；

处理文本编码向量得到预测标签分布和处理文本编码向量得到预测标签分布；

处理标签编码向量得到标签向量表征和处理标签编码向量得到标签向量表征；

采用LCM，将文本向量表征和标签向量表征作相似度分析，得到模拟标签分布；

将得到的预测标签分布和模拟标签分布使用KLDivloss损失函数衡量差异。

作为本发明所述的一种融入标签语义的文本分类改进方法的一种优选方案，其中：所述向量编码包括，对输入的文本x，处理成BERT的输入形式，将所有标签v采用Embedding进行编码，由函数、/>将/>和/>转化成编码向量的形式/>、/>，计算公式为，

。

作为本发明所述的一种融入标签语义的文本分类改进方法的一种优选方案，其中：所述处理文本编码向量包括，将文本编码向量传入BERT中，BERT的输出有sequence_output向量和all_hidden_states向量，sequence_output是BERT最后一层整个句子中每个词所对应的词向量，all_hidden_states是BERT每层的输出向量，把all_hidden_states中每层的CLS向量作为输入传入到BiLSTM中，最后把BiLSTM的输出和词向量进行特征融合，接入全连接层得到文本向量表征，传入分类器，得到预测标签分布，预测真实标签。

作为本发明所述的一种融入标签语义的文本分类改进方法的一种优选方案，其中：所述处理文本编码向量还包括，将得到的文本编码向量传入到BERT预训练模型中，通过函数/>得到BERT的sequence_output和all_hidden_states；

计算公式为，

，

其中，n表示词向量个数，表示BERT每一层的输出向量，S代表BERT的最后一层输出，/>表示BERT每一层的CLS向量，L表示所有CLS向量拼接成的新的输入向量，CLS向量每一层的每个文本的第一个向量携带了分类信息，它可以代表整个句子的句向量，且第一层是Embedding编码向量；

通过BiLSTM，将BERT浅层和深层的特征信息遗忘和记忆传递后续的正确信息，提取每一层的CLS向量的特征信息，将BiLSTM的输出和词向量进行特征融合，接入全连接层得到文本向量特征，传入分类器，得到预测标签分布，计算公式如下，

，

其中，是双向的长短时记忆网络，t⁽ⁱ⁾表示文本向量表征，FCN代表全连接层，Concat代表特征融合，/>是归一化指数函数得到的值映射到（0,1），H代表融合后的语义特征，y^(p)表示为分类器预测标签分布。

作为本发明所述的一种融入标签语义的文本分类改进方法的一种优选方案，其中：所述处理标签编码向量包括，将标签编码向量传入到BiLSTM中进行特征提取得到输出向量，然后将BiLSTM的输出向量与原始标签编码向量进行自注意力编码，得到最终的标签向量表征。

作为本发明所述的一种融入标签语义的文本分类改进方法的一种优选方案，其中：所述处理标签编码向量还包括，将得到的标签编码向量传入到BiLSTM中进行特征提取得到输出向量c，将输出向量c和标签编码向量/>进行自注意力编码得到最终的标签向量表征V，计算公式为，

，

其中，是自注意力网络，/>是双向的长短时记忆网络。

作为本发明所述的一种融入标签语义的文本分类改进方法的一种优选方案，其中：所述采用LCM包括，通过相似层和模拟标签分布计算层组成，相似层以标签表示形式和当前文本向量表示形式作为输入，通过点积计算相似性值，得到标签混淆向量分布，将原有的one-hot标签向量以控制参数α加入到LCD中，得到最终的模拟标签分布，控制参数α决定LCD改变one-hot的标签向量权重，是决定LCM对原始模型重要性的控制超参数，计算公式如下，

，

其中，y^c表示标签混淆向量分布，y^t表示one-hot向量，y^s表示模拟标签向量分布，是归一化指数函数得到的值映射到（0,1）。

作为本发明所述的一种融入标签语义的文本分类改进方法的一种优选方案，其中：所述将得到的损失使用KLDivLoss损失函数衡量差异包括，将模拟标签分布计算层作为新的训练目标，取代one-hot向量，监督模型训练，计算过程如下，

，

其中，是发散损失函数，y^s表示为模拟标签向量分布，y^c表示为标签混淆向量分布，/>是KLDivloss损失函数。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现融入标签语义的文本分类改进方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现融入标签语义的文本分类改进方法的步骤。

本发明的有益效果：本发明是基于标签混淆学习（LCM）提高文本分类任务的准确率，LCM使得标签分布变成软标签分布，对one-hot这种暴力标签的一种优化。标签表征在进入LCM之前，采用BiLSTM对标签进行特征提取，让标签之间获得一些相似关系，在将原标签表征和BiLSTM输出的标签表征通过自注意力（Self-Attention）进一步优化标签之间的一些关联程度。让相近的标签距离更加相近，不相关的标签距离更加变远。

把BERT的每层句向量的语义信息用BiLSTM进行特征提取，再和词向量进行语义融合，这样既可以得到有关词的特征，又能得到句子特征，并且也关注了一些底层的有用的语义信息，克服了BERT在编码向量存在各向异性问题，使得低频词汇也得到了关注，从而提取到更有用的文本特征，使得模型预测的准确率进一步提高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种融入标签语义的文本分类改进方法流程示意图；

图2为本发明一个实施例提供的一种融入标签语义的文本分类改进方法的融入标签语义模型的文本特征提取结构图；

图3为本发明一个实施例提供的一种融入标签语义的文本分类改进方法的融入标签语义模型的标签特征提取结构图；

图4为本发明一个实施例提供的一种融入标签语义的文本分类改进方法的融入标签语义模型的整体结构图。

实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1-4，为本发明的第一个实施例，该实施例提供了一种融入标签语义的文本分类改进方法，包括：

S1：对数据集中的文本和标签分别进行向量编码。

更进一步的，所述向量编码包括，对输入的文本x，处理成BERT的输入形式，将所有标签v采用Embedding进行编码，由函数由函数、/>将和转化成编码向量的形式/>、，计算公式为，

。

S2：处理文本编码向量得到预测标签分布和损失。

更进一步的，所述处理文本编码向量包括，将文本编码向量传入BERT中，BERT的输出有sequence_output向量和all_hidden_states向量，sequence_output是BERT最后一层整个句子中每个词所对应的词向量，all_hidden_states是BERT每层的输出向量，把all_hidden_states中每层的CLS向量作为输入传入到BiLSTM中，最后把BiLSTM的输出和词向量进行特征融合，接入全连接层得到文本向量表征，传入分类器，得到预测标签分布，预测真实标签。

应说明的是，BERT为Bidirectional Encoder Representation fromTransformers，是一个预训练的语言表征模型。

应说明的是，所述处理文本编码向量还包括，将得到的文本编码向量传入到BERT预训练模型中，通过函数所述处理文本编码向量还包括，将得到的文本编码向量传入到BERT预训练模型中，通过函数/>得到BERT的sequence_output和all_hidden_states，计算公式为，

，

其中，n表示词向量个数，表示BERT每一层的输出向量，S代表BERT的最后一层输出，/>表示BERT每一层的CLS向量，L表示所有CLS向量拼接成的新的输入向量，CLS向量每一层的每个文本的第一个向量携带了分类信息代表整个句子的句向量，且第一层是Embedding编码向量；

，

其中，是双向的长短时记忆网络，t⁽ⁱ⁾表示文本向量表征，FCN代表全连接层，Concat代表特征融合，/>是归一化指数函数得到的值映射到（0,1），H代表融合后的语义特征，y^（p）表示为分类器预测标签分布。

S3：处理标签编码向量得到标签向量表征和损失。

更进一步的，所述处理标签编码向量包括，将标签编码向量传入到BiLSTM中进行特征提取得到输出向量，然后将BiLSTM的输出向量与原始编码向量进行自注意力编码，得到最终的标签向量表征。

应说明的是，所述处理标签编码向量还包括，将得到的原始标签编码向量传入到BiLSTM中进行特征提取得到输出向量c，将输出向量c和标签编码向量/>进行自注意力编码得到最终的标签向量表征V，计算公式为，

，

其中，是自注意力网络，/>是双向的长短时记忆网络。

S4：采用LCM，将文本向量表征和标签向量表征作相似度分析。

更进一步的，所述采用LCM包括，通过相似层和模拟标签分布计算层计算层组成，相似层以标签表示形式和当前文本向量表示形式作为输入，通过点积计算相似性值，得到标签混淆向量分布，将原有的one-hot标签向量以控制参数α加入到LCD中，得到最终的模拟标签分布，控制参数α决定LCD改变one-hot的标签向量权重，是决定LCM对原始模型重要性的控制超参数，计算公式如下，

，

其中，y^c表示标签混淆向量分布，y^t表示one-hot向量，y^s表示模拟标签向量分布。

S5：将得到的损失使用KLDivLoss损失函数衡量差异。

应说明的是，所述将得到的损失使用KLDivLoss损失函数衡量差异包括，将模拟标签分布计算层作为新的训练目标，取代one-hot向量，监督模型训练，计算过程如下，

，

实施例2

本发明第二个实施例，其不同于前一个实施例的是：

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置）、便携式计算机盘盒（磁装置）、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编辑只读存储器（EPROM或闪速存储器）、光纤装置以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

实施例3

本发明的文本分类方法流程示意图如图1-4所示，一种融入标签语义的文本分类改进方法，包括输入文本预处理、标签预处理；将文本向量和标签向量分别进行特征提取；采用LCM标签混淆模型方法将标签语义和文本语义融合；通过预测标签分布和模拟标签分布（SLD）预测标签。

图2为融入标签语义模型的文本特征提取结构图。首先是将文本传入BERT预训练模型中，得到BERT的两个输出sequence_output和all_hidden_states。然后，将all_hidden_states（除编码层）每一层的CLS向量传入到BiLSTM中进行特征提取，最后将sequence_output和BiLSTM的输出进行特征融合，得到最终的文本表征，传入Softmax分类器中进行预测真实标签。

图3为融入标签语义模型的标签特征提取结构图。首先是把标签的映射传入到Embedding层中，得到标签向量，接着向上传入到BiLSTM中，再将BiLSTM的输出向量和原来的标签向量做一个自注意力（Self-Attention），得到最终的标签表征。

图4为融入标签语义模型的整体结构图。其中，左方为图2的文本处理，右下方为图3的标签处理。将处理好的文本表征和标签表征传入到右上方的LCM模块中进行处理。LCM模块包括一个相似度层和一个SLD计算模块。首先，将文本表征和标签表征放入相似度层进行相似度计算，得到标签混淆向量（LCD）；再结合原有one-hot标签向量以一个控制参数加入到LCD中，再通过softmax函数归一化得到模拟标签分布（SLD）。控制参数决定了LCD将改变多少one-hot标签向量，是决定LCM对原始模型重要性的控制超参数。较大的会在生成SLD时赋予原有的one-hot标签向量更多的权重，从而降低LCM的影响。最后，SLD代替one-hot标签分布与PLD文本编码向量得到预测标签分布进行预测标签。

综上，本发明是在标签混淆学习（LCM）的基础上对文本分类任务预测的准确率进行了提升。对BERT预训练模型输出的特征通过BiLSTM进行进一步的提取和处理，得到更多的词特征和语义特征；对于标签向量，通过BiLSTM和Self-Attention相结合，使得标签彼此得到了一种依赖关系。

应说明的是，以上实施例仅用于说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种融入标签语义的文本分类改进方法，其特征在于：包括，

对数据集中的文本和标签分别进行向量编码；

处理文本编码向量得到预测标签分布和损失；

处理标签编码向量得到标签向量表征和损失；

将得到的预测标签分布和模拟标签分布使用KLDivloss损失函数衡量差异；

所述处理文本编码向量包括，将文本编码向量传入BERT中，BERT的输出有sequence_output向量和all_hidden_states向量，sequence_output是BERT最后一层整个句子中每个词所对应的词向量，all_hidden_states是BERT每层的输出向量，把all_hidden_states中每层的CLS向量作为输入传入到BiLSTM中，最后把BiLSTM的输出和词向量进行特征融合，接入全连接层得到文本向量表征，传入分类器，得到预测标签分布，预测真实标签；

所述处理文本编码向量还包括，将得到的文本编码向量x'传入到BERT预训练模型中，通过函数f_bert(x')得到BERT的all_hidden_states；

计算公式为，

l_i＝f_bert(x′)＝f_bert(x′₁,x′₂,x′₃…,x′_n)

其中，n表示词向量个数，l_i表示BERT每一层的输出向量，表示BERT每一层的CLS向量，L表示所有CLS向量拼接成的新的输入向量，CLS向量每一层的每个文本的第一个向量携带了分类信息代表整个句子的句向量，且第一层是Embedding编码向量；

t⁽ⁱ⁾＝BiLSTM(L)

H＝FCN(Concat(t⁽ⁱ⁾，S))

y^(p)＝softmax(H)

其中，BiLSTM是双向的长短时记忆网络，t⁽ⁱ⁾表示文本向量表征，FCN代表全连接层，Concat代表特征融合，softmax是归一化指数函数得到的值映射到(0,1)，H代表融合后的语义特征，y^(p)表示为分类器预测标签分布，S表示BERT最后一层整个句子中每个词所对应的词向量。

2.如权利要求1所述的一种融入标签语义的文本分类改进方法，其特征在于：所述向量编码包括，对输入的文本x，处理成BERT的输入形式，将所有标签v采用Embedding进行编码，由函数I(x)、E(v)将x和v转化成编码向量的形式x'、v'，计算公式为，

x′＝I(x)

v′＝E(v)。

3.如权利要求2所述的一种融入标签语义的文本分类改进方法，其特征在于：所述处理标签编码向量包括，将标签编码向量传入到BiLSTM中进行特征提取得到输出向量，然后将BiLSTM的输出向量与原始标签的编码向量进行自注意力编码，得到最终的标签向量表征。

4.如权利要求3所述的一种融入标签语义的文本分类改进方法，其特征在于：所述处理标签编码向量还包括，将得到的标签编码向量v'传入到BiLSTM中进行特征提取得到输出向量c，将输出向量c和标签编码向量v'进行自注意力编码得到最终的标签向量表征V，计算公式为，

c＝BiLSTM(v′)

V＝Attention(c,v′)

其中，Attention是自注意力网络，BiLSTM是双向的长短时记忆网络。

5.如权利要求4所述的一种融入标签语义的文本分类改进方法，其特征在于：所述采用LCM包括，通过相似层和模拟标签分布计算层组成，相似层以标签表示形式和当前文本向量表示形式作为输入，通过点积计算相似性值，得到标签混淆向量分布，将原有的one-hot标签向量以控制参数α加入到LCD中，得到最终的模拟标签分布，控制参数α决定LCD改变one-hot的标签向量权重，是决定LCM对原始模型重要性的控制超参数，计算公式如下，

y^c＝softmax(H·V)

y^s＝softmax(αy^t+y^c)

其中，y^c表示标签混淆向量分布，y^t表示one-hot向量，y^s表示模拟标签向量分布，softmax是归一化指数函数得到的值映射到(0,1)。

6.如权利要求5所述的一种融入标签语义的文本分类改进方法，其特征在于：所述将得到的损失使用KLDivLoss损失函数衡量差异包括，将模拟标签分布计算层作为新的训练目标，取代one-hot向量，监督模型训练，计算过程如下，

loss＝KL-divergence(y^s,y^(p))

其中，divergence是发散损失函数，y^s表示为模拟标签向量分布，y^(p)表示为分类器预测标签分布，KL是KLDivloss损失函数。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。