CN115391525A

CN115391525A - 文本标签预测模型训练方法、文本标签预测方法、装置、设备及介质

Info

Publication number: CN115391525A
Application number: CN202210941916.1A
Authority: CN
Inventors: 覃晓; 元昌安; 龙珑; 郑宏春; 蒋建辉; 陈龙
Original assignee: Guangxi Academy of Sciences
Current assignee: Guangxi Academy of Sciences
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-25

Abstract

本发明公开了文本标签预测模型训练方法、文本标签预测方法、装置、设备及介质，涉及人工智能技术领域，其中，文本标签预测模型训练方法包括如下步骤：S110，获取训练文本集合以及和其相应的真实标签；S120，使用第一Bert模型的文本分词及单词映射模块初始化训练文本集合中的文本，得到训练文本集合中每一个单词的特征表示，并以每一个单词的特征表示为节点构建文本级图；S130，训练预测模型。本发明提供的方法，能够解决现有Text‑Level‑GCN文本分类方法难以提取到含有语义的文本特征，从而分类效果不佳的问题。

Description

文本标签预测模型训练方法、文本标签预测方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其一种文本标签预测模型训练方法、文本标签预测方法、装置、设备及介质。

背景技术

文本分类是自然语言处理中很重要的一个任务，在现实中已经应用到很多地方，如邮件检测、意见挖掘等。GCN是基于图结构的卷积神经网络，是近年来被证明效果很好的文本分类方法。

GCN在处理文档数据时，是对文本集做整体构图处理。即，GCN将一个语料库看成一个大图，每一个文本是该图的一个节点。这种构图方式，能够获得语料库的全局信息，但却忽略词与词的关系，以及词与文本的关系，因而，其对于包含大量长文本的文档的语料库，还不能取得令人满意的分类效果，为此，基于文本级图的神经网络Text-Level-GCN得到了一定的发展，但现有的文本级图神经网络Text-Level-GCN难以从文本级图的节点提取到含有语义的文本特征，从而还存在分类效果不佳的问题。

发明内容

针对现有技术存在的问题，本发明提供了基于大规模预训练的文本标签预测方法，解决现有Text-Level-GCN文本分类方法难以提取到含有语义的文本特征，从而分类效果不佳的问题。

为实现上述发明目的，本发明的技术方案如下：

本发明提供了一种文本标签预测模型训练方法，包括如下步骤：

S110，获取训练文本集合以及和所述训练文本集合相应的真实标签；

S120，使用第一Bert模型的文本分词及单词映射模块初始化所述训练文本集合中的文本，得到所述训练文本集合中每一个单词的特征表示，并以每一个单词的所述特征表示为节点构建文本级图，其中：每一个单词的所述特征表示携带有所述第一Bert模型提取的相应单词的语义特征信息；

S130，训练预测模型，训练预测模型步骤如下：

所述预测模型输出分类预测；

根据所述分类预测和所述真实标签迭代训练所述预测模型，得到训练完成的预测模型；

其中：所述预测模型包括Text-level-BertGCN模型，所述Text-level-BertGCN模型包括第二Bert模型和Text-level-GCN模型，

所述预测模型输出分类预测包括以下步骤：

使用第二Bert模型的文本分类模块对所述文本级图中每个节点的特征表示进行计算，获得每个节点的文本分类特征；

Text-level-GCN模型汇聚所述文本分类特征，利用softmax模块得到GCN分类预测y_gcn。

进一步地，所述步骤S130中，所述预测模型还包括第三Bert模型，

所述预测模型输出分类预测还包括以下步骤：

所述第三Bert模型处理所述训练文本集合中的文本，得到文本特征，再经过softmax模块处理，得到Bert分类预测y_bert；

将所述Bert分类预测y_bert和GCN分类预测y_gcn进行加权合成得到分类预测。

进一步地，所述步骤S130中，所述根据所述分类预测和所述真实标签迭代训练所述预测模型，包括：

根据所述分类预测和所述真实标签计算交叉熵损失，当所述交叉熵损失值大于等于预设的损失阈值时，对所述预测模型进行迭代训练，直至所述交叉熵损失值小于所述损失阈值时，停止训练，得到训练完成的预测模型。

进一步地，所述加权合成方法为：

其中：

是可变参数，取值范围[0.1,1]，用于平衡所述Bert分类预测y_bert和GCN分类预测y_gcn的作用，y是所述分类预测。

进一步地，所述交叉熵损失计算公式如下：

loss＝-glogy，其中：Loss为交叉熵损失，g是所述真实标签，y是所述分类预。

本发明还提供了一种文本标签预测方法，包括：

S210，获取待标签预测的文本集合；

S220，使用第一Bert模型的文本分词及单词映射模块初始化所述待标签预测的文本集合中的文本，得到所述待标签预测的文本集合中每一个单词的特征表示，并以每一个单词的所述特征表示为节点构建文本级图，其中：每一个单词的所述特征表示携带有所述第一Bert模型提取的相应单词的语义特征信息；

S230，将所述文本级图和待标签预测的文本集合中的文本输入预测模型，得到文本标签预测，所述预测模型是所述文本标签预测模型训练方法训练得到的。

本发明还提供了一种文本标签预测训练装置，包括如下模块：

获取模块，用于获取训练文本集合以及和所述训练文本集合相应的真实标签；

构图模块，用于使用第一Bert模型的文本分词及单词映射模块初始化所述训练文本集合中的文本，得到所述训练文本集合中每一个单词的特征表示，并以每一个单词的所述特征表示为节点构建文本级图，其中：每一个单词的所述特征表示携带有所述第一Bert模型提取的相应单词的语义特征信息；

训练模块，用于训练预测模型，训练预测模型步骤如下：

所述预测模型输出分类预测；

所述预测模型输出分类预测包括以下步骤：

使用第二Bert模型的文本分类模块对所述文本级图中每个节点的特征表示进行计算，获得每个节点的文本分类特证；

本发明还提供了一种文本标签预测装置，包括：

获取模块，用于获取待标签预测的文本集合；

构图模块，用于使用第一Bert模型的文本分词及单词映射模块初始化所述待标签预测的文本集合中的文本，得到所述待标签预测的文本集合中每一个单词的特征表示，并以每一个单词的所述特征表示为节点构建文本级图，其中：每一个单词的所述特征表示携带有所述第一Bert模型提取的相应单词的语义特征信息；

预测模块，用于将所述文本级图和待标签预测的文本集合中的文本输入预测模型，得到文本标签预测，所述预测模型是所述文本标签预测模型训练方法训练得到的。

本发明还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述文本标签预测模型训练方法，或所述文本标签预测方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述文本标签预测模型训练方法，或所述文本标签预测方法。

与现有技术相比，本发明具有如下有益效果：

1、本发明提供的文本标签预测模型训练方法，使用第一Bert模型的文本分词及单词映射模块初始化所述训练文本集合中的文本，得到所述训练文本集合中每一个单词的特征表示，并以每一个单词的所述特征表示为节点构建文本级图，其中：每一个单词的所述特征表示携带有所述第一Bert模型提取的相应单词的语义特征信息；然后用所述预测模型Text-level-BertGCN模型进行分类预测训练，先用第二Bert模型的文本分类模块对所述文本级图中的每个节点的特征表示进行计算，获得每个节点的文本分类特征，Text-level-GCN模型再汇聚所述文本分类特征，利用softmax模块得到所述GCN分类预测；最后根据所述Text-level-BertGCN模型输出的分类预测和真实标签迭代训练所述预测模型，得到训练完成的预测模型。利用第一Bert模型，初始化训练文本集合中的文本，得到所述训练文本集合中的每一个单词的特征表示，并以每一个单词的所述特征表示为节点构建文本级图，其中：每一个单词的所述特征表示携带有所述第一Bert模型提取的相应单词的语义特征信息；再用第二Bert模型的文本分类模块对所述文本级图中的每个节点的特征表示进行计算，获得每个节点的文本分类特征，再将文本分类特征输入Text-level-GCN模型，解决现有Text-Level-GCN文本分类方法难以提取到含有语义的文本特征，从而分类效果不佳的问题。

2、联合训练Text-level-BertGCN模型和第三Bert模型两个模型，将所述Bert分类预测y_bert和GCN分类预测y_gcn进行加权合成得到分类预测，根据所述分类预测和所述真实标签迭代训练所述Text-level-BertGCN模型和第三Bert模型两个模型，得到训练完成的预测模型，进一步提高了文本分类的准确性。

附图说明

图1为本发明实施例一种文本标签预测模型训练方法流程图。

图2为本发明实施例一种文本标签预测模型训练方法整体模型图。

图3为本发明实施例一种文本标签预测模型训练方法模型流程图。

图4为本发明实施例一种文本标签预测方法流程图。

图5为本发明实施例一种文本标签预测训练装置结构示意图。

图6为本发明实施例一种文本标签预测装置结构示意图。

图7为本发明实施例计算机设备结构示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施例并配合附图予以说明。

实施例一

如图1所示，文本标签预测模型训练方法，包括如下步骤：

设D为训练文本集合，T为训练文本集合D中的文本，对于文本T，T＝{v₁，v₂，...，v_n}，v是文本T中的单词，即文本T含有n个单词；使用第一Bert模型的文本分词及单词映射模块初始化文本T之后，有T′＝Bert(T)，文本T′特征表示为

X_b∈R^|v|*d，R表示文本T′特征的欧式空间，|v|表示文本T′中单词的特征表示个数，数量上与v_n中的n相等，d是单词映射为向量之后的维度大小，

是文本T中第i个单词对应的特征表示，携带有第一Bert模型提取的第i个单词的语义特征信息。文本级图定义为G_T‘＝{V，E，A}，V是图中节点集合，E是边集合，A是全局共享互信息矩阵。使用PMI算法对训练文本集合D构建全局共享互信息矩阵A＝PMI(D)，当PMI值大于0时，表示词之间的语义关联度较高，A[i,j]表示单词i和单词j之间的权重；将文本T中所有的单词的特征表示

作为文本级图的节点，这样，所述文本级图中节点还携带有所述第一Bert模型提取的相应单词的语义特征信息；同时在文本级图G_T′＝{V，E，A}的节点i和节点j之间连接一条边e_ij，边集合

边e_ij的权重值来自A，即

表示文本级图中相邻单词的连接个数，也就是滑动窗口的大小。构建文本级图时，使用固定的滑动小窗口来构建文本级图。

S130，训练预测模型，训练预测模型步骤如下：

所述预测模型输出分类预测；

其中：所述预测模型包括Text-level-BertGCN模型，所述Text-level-BertGCN模型包括第二Bert模型和Text-level-GCN模型，所述Text-level-BertGCN模型用于输出GCN分类预测y_gcn，

所述预测模型输出分类预测包括以下步骤：

Text-level-GCN模型汇聚所述文本分类特征，利用softmax模块得到所述GCN分类预测y_gcn。

使用第二Bert模型的分类模块输出的文本分类特征作用为Text-level-GCN模型的输入。第二Bert模型计算所述文本级图中的每个分类特征，使用信息传递机制(MPM)(Gilmer et al.,2017)进行特征更新，节点可以从局部提取结构特征。信息传递机制通过一种非谱方法来进行卷积。文本级图中的节点(即源节点)首先从邻居节点收集信息，然后将源节点信息和邻居节点信息聚合并更新。

m_i∈R^d是节点i从邻居节点汇聚的特征信息，Rd表示d维的欧式空间，max是一个函数，它将每个维度上最大值组合成一个新的特征向量作为输出。

表示离节点i最近的

个邻居节点。

表示连接节点i和节点j的权重值，R1表示1维的欧式空间，e的权值来自全局互信息矩阵A。

表示源节点i的前一种特征表示，

表示邻居节点的特征表示，x′_i表示节点i汇聚邻居信息的新的特征表示，也即文本级图中节点i的更新后的文本分类特征，η_i∈R¹是节点i的可训练参数，表示应该保留多少

的信息。

Text-level-GCN模型汇聚训练文本集合D的文本级图所有点的所述文本分类特征，使用文本级图中所有节点的所述文本分类特征来预测文本的标签，即得到所述GCN分类预测y_gcn:

其中W是将所述文本分类特征映射到输出空间的矩阵。N_T是文本T的节点集，b是偏置，softmax是分类函数，是深度学习最后一步使用的常规函数，是把分类的结果变成概率值，relu是激活函数。

综上所述，本发明提供的方法，使用第一Bert模型的文本分词及单词映射模块初始化所述训练文本集合D中的文本，得到所述训练文本集合D中每一个单词的特征表示，并以每一个单词的所述特征表示为节点构建文本级图，其中：每一个单词的所述特征表示携带有所述第一Bert模型提取的相应单词的语义特征信息；然后用所述预测模型Text-level-BertGCN模型进行分类预测训练，先用第二Bert模型的文本分类模块对所述文本级图中的每个节点的特征表示进行计算，获得每个节点的文本分类特征，Text-level-GCN模型再汇聚所述文本分类特征，利用softmax模块得到所述GCN分类预测；最后根据所述Text-level-BertGCN模型输出的分类预测和真实标签迭代训练所述预测模型，得到训练完成的预测模型。利用第一Bert模型，初始化训练文本集合D中的文本，得到所述训练文本集合D中的每一个单词的特征表示，并以每一个单词的所述特征表示为节点构建文本级图，其中：每一个单词的所述特征表示携带有所述第一Bert模型提取的相应单词的语义特征信息；再用第二Bert模型的文本分类模块对所述文本级图中的每个节点的特征表示进行计算，获得每个节点的文本分类特征，再将文本分类特征输入Text-level-GCN模型，解决现有Text-Level-GCN文本分类方法难以提取到含有语义的文本特征，从而分类效果不佳的问题。

本实施例，所述步骤S130中，所述根据所述分类预测和所述真实标签迭代训练所述预测模型，包括：

所述交叉熵损失计算公式如下：

loss＝-glogy，其中：Loss为交叉熵损失，g是所述真实标签，y是所述分类预测。

对比实施例一

在第一Bert模型的文本分词及单词映射模块初始化所述训练文本集合中的文本基础上，将Text-level-BertGCN模型进行迭代训练，提高了文本分类的准确性，与现有的Text-GCN模型和Text-Level-GCN模型对比，结果如表1所示，

表1 Text-level-BertGCN模型、Text-GCN模型和Text-Level-GCN模型分类准确率(％)对比

其中，R8、R52和Ohsumed是公共的英文文本分类数据集，由表1可知，Text-level-BertGCN模型的分类准确率比Text-Level-GCN模型要高，因为Text-level-BertGCN模型结合了Bert模型和Text-Level-GCN模型的优势，能够提取文本深层语义以及提取文本结构特征。

实施例二，

在实施例一的基础上，所述步骤S130中，所述预测模型还包括第三Bert模型，用于输出Bert分类预测y_bert，

所述预测模型输出分类预测还包括以下步骤：

所述第三Bert模型处理所述训练文本集合中的文本，得到文本的文本特征，再经过softmax模块处理，得到Bert分类预测y_bert；

具体地，所述第三Bert模型利用自带的分类器作用于文本T，将训练文本集合D中的文本T，输入到第三Bert模型的softmax层，获取分类预测y_bert。计算方法如下：

Q＝W^Q*X_T

K＝W^K*X_T

V＝W^v*X_T

Q、K和V分别是查询、键和值的矩阵。W^Q、W^K和W^V是将X_T线性映射到Q、K和V的参数矩阵，X_T为文本T的向量表示，K^T表示K的转置矩阵，D_k是K矩阵的维数，

表示第i次迭代的文本特征，

是可训练权重矩阵。

联合训练Text-level-BertGCN模型和第三Bert模型两个模型，将所述Bert分类预测y_bert和GCN分类预测y_gcn进行加权合成得到分类预测，根据所述分类预测和所述真实标签确定交叉熵损失，当所述交叉熵损失值大于等于预设的损失阈值时，对所述预测模型进行迭代训练，直至所述交叉熵损失值小于所述损失阈值时，停止训练，得到训练完成的预测模型；

本实施，所述加权合成方法为：

其中：

是可变参数，取值范围[0.1,1]，用于平衡所述Bert分类预测y_bert和GCN分类预测y_gcn的作用，y是所述分类预测。可通过迭代训练来确定

的最优值。

整体模型图和模型流程图分别如图2、图3所示。

对比实施例二

将Text-level-BertGCN模型和第三Bert模型融合，并进行迭代训练，进一步提高了文本分类的准确性，以Text-level-BertGCN模型对比，结果如表2所示，

表2融合模型和Text-Level-GCN模型分类准确率(％)对比

其中，R8、R52和Ohsumed是公共的英文文本分类数据集，融合模型是迭代训练后的Text-level-BertGCN模型和第三Bert模型的融合模型。

网络信息量正在迅猛增加，而这些信息基本都是非结构化的海量文本，该方法通过图神经网络能有效处理各类应用中非结构化文本，提高文本处理效率。现方案模型与非图结构化的模型做了对比，结果如表3所示：

表3融合模型、Bi-LSTM模型和fast-Text模型分类准确率(％)对比

实施例三

本发明提供了一种文本标签预测方法，如图4所示，包括：

S210，获取待标签预测的文本集合；

S230，将所述文本级图和待标签预测的文本集合中的文本输入预测模型，得到文本标签预测，所述预测模型是实施例一或实施例二中的文本标签预测模型训练方法训练得到的。

实施例四

本发明提供了一种文本标签预测训练装置，如图5所示，该装置包括：

训练模块，用于训练预测模型，训练预测模型步骤如下：

所述预测模型输出分类预测；

所述预测模型输出分类预测包括以下步骤：

进一步地，在所述训练模块中，所述预测模型还包括第三Bert模型，用于输出Bert分类预测y_bert，

所述预测模型输出分类预测还包括以下步骤：

实施例五

如图6所示，本发明还提供了一种文本标签预测装置，包括：

获取模块，用于获取待标签预测的文本集合；

预测模块，用于将所述文本级图和待标签预测的文本集合中的文本输入预测模型，得到文本标签预测，所述预测模型是实施例一或实施例二所述的文本标签预测模型训练方法训练得到的。

实施例六

本发明提供了一种计算机设备，该计算机设备可以是服务器，如图7所示，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器用于提供计算和控制能力、运行计算机程序，所述存储器包括非易失性存储介质、内存储器等。该非易失性存储介质存储有操作系统、计算机程序和数据库等，所述存储器和处理器通过系统总线连接。所述处理器执行所述计算机程序时实现实施例一或实施例二中的文本标签预测模型训练方法，或实施例三中的文本标签预测方法。

实施例七

本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现实施例一或实施例二中的文本标签预测模型训练方法，或实施例三中的文本标签预测方法。

虽然，上文中已经用具体实施方式，对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种文本标签预测模型训练方法，其特征在于，包括以下步骤：

S130，训练预测模型，训练预测模型步骤如下：

所述预测模型输出分类预测；

所述预测模型输出分类预测包括以下步骤：

2.根据权利要求1所述的文本标签预测模型训练方法，其特征在于，所述步骤S130中，所述预测模型还包括第三Bert模型，

所述预测模型输出分类预测还包括以下步骤：

3.根据权利要求1或2所述的文本标签预测模型训练方法，其特征在于，所述步骤S130中，所述根据所述分类预测和所述真实标签迭代训练所述预测模型，包括：

4.根据权利要求2所述的文本标签预测模型训练方法，其特征在于，所述加权合成方法为：

其中：

5.根据权利要求3所述的文本标签预测模型训练方法，其特征在于，所述交叉熵损失计算公式如下：

6.一种文本标签预测方法，其特征在于，包括：

S210，获取待标签预测的文本集合；

S230，将所述文本级图和待标签预测的文本集合中的文本输入预测模型，得到文本标签预测，所述预测模型是权利要求1至5任一项所述的文本标签预测模型训练方法训练得到的。

7.一种文本标签预测训练装置，其特征在于，包括如下模块：

训练模块，用于训练预测模型，训练预测模型步骤如下：

所述预测模型输出分类预测；

所述预测模型输出分类预测包括以下步骤：

8.一种文本标签预测装置，其特征在于，包括：

获取模块，用于获取待标签预测的文本集合；

预测模块，用于将所述文本级图和待标签预测的文本集合中的文本输入预测模型，得到文本标签预测，所述预测模型是权利要求1至5任一项所述的文本标签预测模型训练方法训练得到的。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述文本标签预测模型训练方法，或如权利要求6所述文本标签预测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文本标签预测模型训练方法，或如权利要求6所述文本标签预测方法。