CN113139051B

CN113139051B - 文本分类模型训练方法、文本分类方法、设备和介质

Info

Publication number: CN113139051B
Application number: CN202110332411.0A
Authority: CN
Inventors: 王连喜; 林楠铠; 林晓钿; 蒋越
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2023-02-10
Anticipated expiration: 2041-03-29
Also published as: CN113139051A

Abstract

本发明公开了一种文本分类模型训练方法、文本分类方法、设备和介质，可应用于文本分类技术领域。训练方法包括以下步骤：获取第一训练数据，所述第一训练数据包括带标签的文本数据；采用所述第一训练数据对第一文本分类模型进行训练，得到第二文本分类模型；获取第二训练数据，所述第二训练数据包括不带标签的文本数据；采用所述第二文本分类模型预测所述第二训练数据的若干个标签；将若干个所述标签中满足预设要求的标签作为所述第二训练数据的伪标签；采用带有伪标签的第二训练数据和所述第一训练数据对所述第二文本分类模型进行训练，得到目标文本分类模型。本发明能节省标签标注时间和人工成本，并有效提高多标签分类结果的准确性。

Description

文本分类模型训练方法、文本分类方法、设备和介质

技术领域

本发明涉及文本分类技术领域，尤其是一种文本分类模型训练方法、文本分类方法、设备和介质。

背景技术

随着互联网的迅速普及和社交媒体的盛行，大量的新闻文本在互联网上堆积。对于大量的新闻文本，如何使受众能够有效寻找、感知、确认以及标签化社会事件和信息，对新闻进行准确分类成为人们日益关注的话题。目前，新闻分类的方式大多是将其视为单标签的有监督学习任务，然而，实际的文本对象通常是复杂的，且同时具有多种语义意义，例如一篇文章往往同时覆盖与社会事件和信息相关的多个类别，对于这种多类型的文本单标签分类往往不适用。针对单标签无法适用的场景，目前提出了多标签分类方式，然而多标签分类模型的训练过程需要大量带有标签的数据进行训练，而构建大规模的带标签的数据费时且成本巨大，从而导致多标签分类模型要么分类结果准确性不高，要么耗时耗力。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种文本分类模型训练方法、文本分类方法、设备和介质，能够在节省时间和成本的前提下，有效提高多标签分类结果的准确性。

本发明第一方面实施例提供了一种文本分类模型训练方法，包括以下步骤：

获取第一训练数据，所述第一训练数据包括带标签的文本数据；

采用所述第一训练数据对第一文本分类模型进行训练，得到第二文本分类模型；

获取第二训练数据，所述第二训练数据包括不带标签的文本数据；

采用所述第二文本分类模型预测所述第二训练数据的若干个标签；

将若干个所述标签中满足预设要求的标签作为所述第二训练数据的伪标签；

采用带有伪标签的第二训练数据和所述第一训练数据对所述第二文本分类模型进行训练，得到目标文本分类模型。

本发明实施例提供的一种文本分类模型训练方法，具有以下有益效果：

本实施例通过先采用带有标签的文本数据对文本分类模型进行训练，然后采用训练后的文本分类模型对不带有标签的文本数据进行标签预测，并将满足预设要求的预测标签作为不带有标签的文本数据的伪标签，接着通过带有伪标签的文本数据和带有标签的文本数据对文本分类模进行再次训练，从而得到目标文本分类模型，以节省标签标注时间和人工成本，同时使得在通过该目标文本分类模型进行文本分类时，有效提高多标签分类结果的准确性。

可选地，所述将若干个所述标签中满足预设要求的标签作为所述第二训练数据的伪标签，包括：

获取第一分类阈值和第二分类阈值，所述第一分类阈值大于所述第二分类阈值；

确定若干个所述标签的第一标签概率和第二标签概率，所述第二标签概率小于所述第一标签概率且大于剩余标签概率，所述剩余标签概率为若干个所述标签中不包括第一标签和第二标签的标签概率；

当所述第一标签概率大于所述第一分类阈值，则将所述第一标签概率对应的标签作为所述第二训练数据的伪标签；

当所述第一标签概率小于等于所述第一分类阈值，则执行以下步骤：

当所述第一标签概率大于所述第二分类阈值且所述第一标签概率与所述第二标签概率之和大于所述第一分类阈值，则将所述第一标签概率对应的标签和所述第二标签概率对应的标签作为所述第二训练数据的伪标签。

可选地，所述将若干个所述标签中满足预设要求的标签作为所述第二训练数据的伪标签，还包括：

确定所述第一训练数据的第一句向量，以及确定第二训练数据的第二句向量；

计算所述第二句向量与所述第一句向量的第一相似度；

当所述第一相似度中最大的相似度大于第三分类阈值，将所述最大的相似度对应第一句向量的第一训练数据的标签作为所述第二训练数据的伪标签。

可选地，在所述将若干个所述标签中满足预设要求的标签作为所述第二训练数据的伪标签这一步骤后，还包括以下步骤：

获取伪标签文本预设个数；

当带有伪标签的第二训练数据大于伪标签文本预设个数，获取与伪标签文本预设个数相等数量的带有伪标签的第二训练数据作为伪标签训练数据。

可选地，在执行所述采用带有伪标签的第二训练数据和所述第一训练数据对所述第二文本分类模型进行训练时，还包括以下步骤：

获取标签类别权重和平衡系数；

根据所述标签类别权重和所述平衡系数计算训练过程的损失权重。

本发明第二方面实施例提供了一种文本分类方法，包括以下步骤：

采用带有伪标签的第二训练数据和所述第一训练数据对所述第二文本分类模型进行训练，得到目标文本分类模型；

获取待分类文本数据；

采用所述目标文本分类模型预测所述待分类文本数据标签。

可选地，所述采用所述目标文本分类模型预测所述待分类文本数据标签，包括：

获取所述目标文本分类模型的所有训练数据的第三句向量；

将所述待分类文本数据转换为第四句向量；

计算所述第四句向量与所有所述第三句向量的第二相似度；

将最大的所述第二相似度对应的训练数据的标签作为所述待分类文本数据的预测标签。

可选地，所述第三句向量和所述第四句向量的表示均包括令牌嵌入、分段嵌入和位置嵌入。

本发明第三方面实施例提供了一种设备，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行第一方面实施例提供的文本分类模型训练方法或第二方面实施例提供的文本分类方法。

本发明第四方面实施例提供了一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行第一方面实施例提供的文本分类模型训练方法或第二方面实施例提供的文本分类方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实施例对本发明做进一步的说明，其中：

图1为本发明实施例的一种文本分类模型训练方法的流程图；

图2为本发明实施例的一种阈值匹配的流程示意图；

图3为本发明实施例的一种相似度匹配的流程示意图；

图4为本发明实施例的一种文本分类方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

随着互联网上新闻文本数据的增加，为用户提供快速且准确的文本搜索方式能够有效提高用户的体验效果。为用户提供良好的文本搜索方式的前提是提供一个文本搜索模式。目前，基于单标签的文本搜索模型对于多标签的新闻文本搜索并不是很适用。基于单标签无法适用的问题，提出了多标签的方式，然而，多标签的方式需要依赖于大量的带有标签的文本数据，但是，带标签的文本数据需要人为的进行大量标注，费时费力，而基于少量的带标签的文本数据对分类模型进行训练，则使得训练得到的分类模型的适用性不强。

基于此，参照图1，本发明实施例提供了一种文本分类模型训练方法。该方法可应用于服务端、各类应用平台对应的后台处理器。本实施例通过先采用带有标签的文本数据对文本分类模型进行训练，然后采用训练后的文本分类模型对不带有标签的文本数据进行标签预测，并将满足预设要求的预测标签作为不带有标签的文本数据的伪标签，接着通过带有伪标签的文本数据和带有标签的文本数据对文本分类模进行再次训练，从而得到目标文本分类模型，以节省标签标注时间和人工成本，同时使得在通过该目标文本分类模型进行文本分类时，有效提高多标签分类结果的准确性。

在应用于过程中，本实施例包括以下步骤S110至步骤S160：

S110、获取第一训练数据，第一训练数据包括带标签的文本数据。

在本申请实施例中，可通过获取已有的带有标签的文本数据作为第一训练数据。已有的带有标签的文本数据可以是认为进行标签标注的数据。也可以是通过标注算法进行自动标签标注的数据。其中，一个文本数据可以包括一个标签或者多个标签。

S120、采用第一训练数据对第一文本分类模型进行训练，得到第二文本分类模型。

在本申请实施例中，文本分类模型包括为标签生成模块、文本标签匹配模块和文本表示模块。文本表示模块可采用基于双向器表征的语言表示模型BERT，通过BERT获取文本数据的句子表示。其中，将未进行任何训练的文本分类模型作为第一文本分类模型，将通过第一训练数据对第一文本分类模型进行训练后的文本分类模型作为第二文本分类模型。在本实施例的训练过程中，先通过第一训练数据对文本标签匹配模块和文本表示模块进行训练，以得到初始化的文本分类模型。

S130、获取第二训练数据，第二训练数据包括不带标签的文本数据。

在本申请实施例中，由于随着互联网的发展，网页上存在大量的为进行标签标注的文本数据，因此，可通过采集网页上的所有未进行标签标注的新闻数据作为第二训练数据。

S140、采用第二文本分类模型预测第二训练数据的若干个标签。

本申请实施例通过初始化训练后的文本分类模型对不带标签的文本数据进行标签预测，以得到不带标签的文本数据的预测标签。其中，预测的标签可以包括一个标签，也可以包括多个标签。

S150、将若干个标签中满足预设要求的标签作为第二训练数据的伪标签。

在本申请实施例中，由于采用初始化后的文本分类模型对第二训练数据进行标签预测得到的标签数可以是多个，因此，可通过对预测的标签进行筛选，以得到最接近的标签作为该第二训练数据的伪标签。

在一些实施例中，通过设定标签的分类阈值来对标签进筛选。如图2所示，通过设置两个大小不相同的第一分类阈值α和第二分类阈值β来对预测的标签进行筛选，并设定第一分类阈值大于第二分类阈值。预测的第二训练数据的标签可以包括多个，同一个训练数据中多个标签的概率之和为1，因此，从多个预测的标签中获取两个标签概率最大的标签进行判断，其中，获取的两个标签概率之间也存在一定的大小关系，为了便于判断，假设第一标签概率A大于第二标签概率B。具体地，当第一标签概率A大于第一分类阈值α，则将第一标签概率A对应的标签作为第二训练数据的伪标签；当第一标签概率A小于等于第一分类阈值α，则继续判断：当第一标签概率A大于第二分类阈值β且第一标签概率A与第二标签概率B之和大于第一分类阈值α，则将第一标签概率A对应的标签和第二标签概率B对应的标签作为第二训练数据的伪标签。例如，假设第一分类阈值α为0.7，第二分类阈值β为0.5，若此时标签“1”对应的第一标签概率A为0.8，标签“2”对应的第二标签概率B为0.5，由于0.8>0.7，即A>B，因此，将标签“1”作为对应训练数据的为标签；若标签“1”对应的第一标签概率A为0.6，标签“2”对应的第二标签概率B为0.35，由于0.6>0.5且0.6+0.35>0.8，即A>β且A+B>α，则将标签“1”和标签“2”共同作为对应训练数据的为标签。其中，标签“1”和标签“2”在类别上相关。

在一些实施例中，当最大的两个标签概率近似相等时，则通过上述方式进行判断可能会出现判断出错的情况。基于此，本实施例通过引入相似度和设定第三分类阈值μ来进行判断。具体地，如图3所示，将带标签的第一训练数据和不带标签的第二训练数据分别输入BERT模块中，以分别得到第一训练数据的第一句向量和第二训练数据的第二句向量，接着计算第一句向量和第二句向量的第一相似度，该相似度计算过程可通过余弦相似度代替。然后判断该相似度中最大的相似度是否大于第三分类阈值μ，若是，则将最大的相似度对应的第一训练数据的标签作为第二训练数据的伪标签，反之，则舍弃该第二训练数据。

在一些实施例中，在通过上述方式获取到不带标签的训练数据的伪标签后，为了提高训练速度，可对带伪标签的训练数据的量进行控制。具体地，如图3所示，将所有带有伪标签的训练数据加入伪标签候选语料库，同时获取每个类型的伪标签文本预设个数k，判断伪标签候选语料库中每个类别的文本数量是否大于伪标签文本预设个数k，若是，则从伪标签候选语料库中获取对应类型的k个样本添加到伪标签语料库中，反之，则将伪标签候选语料库中所有的样本添加到伪标签语料库中，并将伪标签语料库中的数据作为伪标签训练数据。

S160、采用带有伪标签的第二训练数据和第一训练数据对第二文本分类模型进行训练，得到目标文本分类模型。

在本申请实施例中，将伪标签语料库中的样本和第一训练数据组成最终的训练样本数据，并通过最终的训练样本数据对文本分类模型进行再次训练，以得到目标文本分类模型。在一些实施例中，为了解决数据的类别不平衡问题，并减少真实标签数据与伪标签数据数量的差异对模型训练带来的影响，在训练过程中在损失函数L(x_i,y_i)中加入伪标签数据的损失函数进行训练，并进一步引入了损失权重，提出了类别权重调整方法和平衡系数λ。其中，损失函数L(x_i,y_i)如公式1所示：

在公式1中，x_i表示样本的第i个数据的预测标签，y_i表示样本的第i个数据的真实标签。在得到单个数据的损失函数后，通过公式2计算所有的数据的损失函数：

公式2中，

表示原始训练语料的第i个标签的预测标签；

表示原始训练语料的第i个真实标签；

表示伪标签语料第i个标签的预测标签；

表示伪标签语料第i个标签的真实标签；n表示训练样本的总数；和C表示某一个类别的个数，例如新闻类别数。

在分类过程中，类别权重主要用于解决误分类代价很大和样本高度失衡的问题。为了解决数据的类别不平衡的问题，本申请实施例提出了类别权重调整方法。假设给定的各标签数量为c＝(c₁,c₂,...,c_k)，k也表示某一个类别的个数，例如新闻类别数，则第i个标签的类别权重w_i如公式3所示：

公式3中，mu的值为e。

引入类别权重后，单个数据的损失函数如公式4所示：

根据引入类别权重后单个数据的损失函数，通过公式5计算所有的数据的损失函数：

由于标记数据和伪标签数据的总数往往存在很大的不同，且他们之间的训练平衡对于网络性能却相当重要。因此，在标记数据和伪标签数据的损失函数之间加入平衡系数λ，以缓解训练平衡的问题。在公式5中加入平衡系数λ后得到公式6：

由上可知，本申请实施例通过加入类别权重和平衡系数，以提高模型训练的精度和准确度。

参照图4，本发明实施例提供了一种文本分类方法。该方法可应用于服务端、各类应用平台对应的后台处理器。本实施例通过先采用带有标签的文本数据对文本分类模型进行训练，然后采用训练后的文本分类模型对不带有标签的文本数据进行标签预测，并将满足预设要求的预测标签作为不带有标签的文本数据的伪标签，接着通过带有伪标签的文本数据和带有标签的文本数据对文本分类模进行再次训练，得到目标文本分类模型，最后通过该目标文本分类模型对待分类文本数据进行标签预测，以提高文本数据分类结果的准确性。

在应用过程中，本实施例包括以下步骤S410至步骤S480：

S410、获取第一训练数据，第一训练数据包括带标签的文本数据。

S420、采用第一训练数据对第一文本分类模型进行训练，得到第二文本分类模型。

S430、获取第二训练数据，第二训练数据包括不带标签的文本数据。

S440、采用第二文本分类模型预测第二训练数据的若干个标签。

S450、将若干个标签中满足预设要求的标签作为第二训练数据的伪标签。

S460、采用带有伪标签的第二训练数据和第一训练数据对所述第二文本分类模型进行训练，得到目标文本分类模型。

在本申请实施例中，步骤S410-S460与图1所示的文本分类模型训练方法过程相同之处，此处不在赘述。

在文本分类模型中，基于双向器表征的语言表示模型BERT，抛弃了目前的卷积神经网络模型CNN和循环神经网络模型RNN，整个网络结构完全由注意力机制构成，使模型很好地解决了长距离依赖和并行问题。对于分类问题，其输入句子中的第一个位置会被赋予一个特殊的单词，且其令牌token对应的最终隐藏状态通常被作为分类任务的聚合序列表示。对于给定句子中的每一个token，它的输入表示是通过对相应的token、片段segment和位置position嵌入进行求和来构造的。基于此，本实施例使用BERT模型作为语言特征的编码器，通过获取最终隐藏状态的第一个token，来表示其句子编码S，获得文本的句向量表示，第i个句子的句子编码S_i表示如公式7所示：

S_i＝BERT(h_i) 公式7

h_i为令牌嵌入、片段嵌入和位置嵌入的总和。

S470、获取待分类文本数据。该待分类文本数据为当前用户需要进行标签分类的文本数据，可以是时事新闻。

S480、采用目标文本分类模型预测待分类文本数据标签。

在本申请实施例中，首选或者目标文本分类模型的所有训练数据的第三句向量；同时采用BERT将待分类文本数据转换为第四句向量。具体地，假设经过BERT预训练语言模型输出的所有训练数据的句向量表示为H＝(H₁,H₂,...,H_l)，H_j∈R^m表示第j个训练数据的句向量，m表示句向量的维度，l为训练即的文本数量。待分类文本数据的序列为s＝(s₁,s₂,...,s_m)，将该文本序列s和所有训练数据文本序列h经过BERT预训练语言模型得到该序列的句向量表示为公式8和公式9所示：

S＝BERT(s_i) 公式8

H_j＝BERT(h_j) 公式9

接着将得到的句向量s_i与所有训练数据的句向量H通过公式10分别做余弦相似度计算，以表示文本之间的相似度：

然后选取相似度最大的训练数据对应的标签作为该待分类文本数据的预测标签。

综上可知，本申请实施例的分类方法通过固定类别权重和引入伪标签损失函数平衡系数，避免数据的类不平衡问题以及原始数据和伪标签数据的样本数量差异对模型训练带来的影响，消除添加伪标签数据带来的负面影响，从而提高文本分类的准确性。

本发明实施例提供了一种设备，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行图1所示的文本分类模型训练方法或图4所示的文本分类方法。

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例提供了一种存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于执行图1所示的文本分类模型训练方法或图4所示的文本分类方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1或者图4所示的方法。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.一种文本分类模型训练方法，其特征在于，包括以下步骤：

其中，所述第一文本分类模型和所述第二文本分类模型均包括标签生成模块、文本标签匹配模块和文本表示模块，文本表示模块采用基于双向器表征的语言表示模型BERT，通过BERT获取文本数据的句子表示；

确定若干个所述标签的第一标签概率和第二标签概率，其中，若干个所述标签的标签概率之和为1，所述第一标签概率和所述第二标签概率对应两个标签概率最大的标签，所述第二标签概率小于所述第一标签概率且大于剩余标签概率，所述剩余标签概率为若干个所述标签中不包括第一标签和第二标签的标签概率；

当所述第一标签概率和所述第二标签概率不近似相等时，获取第一分类阈值和第二分类阈值，所述第一分类阈值大于所述第二分类阈值；当所述第一标签概率大于所述第一分类阈值，则将所述第一标签概率对应的标签作为所述第二训练数据的伪标签；当所述第一标签概率小于等于所述第一分类阈值，则执行以下步骤：当所述第一标签概率大于所述第二分类阈值且所述第一标签概率与所述第二标签概率之和大于所述第一分类阈值，则将所述第一标签概率对应的标签和所述第二标签概率对应的标签作为所述第二训练数据的伪标签；

当所述第一标签概率和所述第二标签概率近似相等时，确定所述第一训练数据的第一句向量，以及确定第二训练数据的第二句向量；计算所述第二句向量与所述第一句向量的第一相似度；当所述第一相似度中最大的相似度大于第三分类阈值，将所述最大的相似度对应第一句向量的第一训练数据的标签作为所述第二训练数据的伪标签；

2.根据权利要求1所述的一种文本分类模型训练方法，其特征在于，在所述将若干个所述标签中满足预设要求的标签作为所述第二训练数据的伪标签这一步骤后，还包括以下步骤：

获取伪标签文本预设个数；

3.根据权利要求1所述的一种文本分类模型训练方法，其特征在于，在执行所述采用带有伪标签的第二训练数据和所述第一训练数据对所述第二文本分类模型进行训练时，还包括以下步骤：

获取标签类别权重和平衡系数；

4.一种文本分类方法，其特征在于，包括以下步骤：

获取待分类文本数据；

采用所述目标文本分类模型预测所述待分类文本数据标签。

5.根据权利要求4所述的一种文本分类方法，其特征在于，所述采用所述目标文本分类模型预测所述待分类文本数据标签，包括：

获取所述目标文本分类模型的所有训练数据的第三句向量；

将所述待分类文本数据转换为第四句向量；

计算所述第四句向量与所有所述第三句向量的第二相似度；

6.根据权利要求5所述的一种文本分类方法，其特征在于，所述第三句向量和所述第四句向量的表示均包括令牌嵌入、分段嵌入和位置嵌入。

7.一种设备，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行如权利要求1-3任一项所述的文本分类模型训练方法或权利要求4-6任一项所述的文本分类方法。

8.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-3任一项所述的文本分类模型训练方法或权利要求4-6任一项所述的文本分类方法。