CN112241454B

CN112241454B - 一种处理样本倾斜的文本分类方法

Info

Publication number: CN112241454B
Application number: CN202011467463.0A
Authority: CN
Inventors: 刘世林; 罗镇权; 张学锋; 康青杨; 杨李伟; 吴桐; 曾途
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-02-19
Anticipated expiration: 2040-12-14
Also published as: CN112241454A

Abstract

本发明涉及一种处理样本倾斜的文本分类方法，包括以下步骤：将N个样本类别的数据集重组为M个样本类别的数据集，其中M=N‑n+1，n为少样本的类别数量；使用第一模型对M个样本类别的数据集进行训练，得到以CLS向量表示的V_cls类别向量；使用第二模型对N个样本类别的数据集进行分类，在分类输入前将所述V_cls类别向量作为第一个输入的特征字符；根据所述第一模型、第二模型，得到N个样本类别的数据集的分类；使用所述第一模型、第二模型对新的文本进行分类。本方案采用全部的数据集进行计算训练，从硬标签的形式转成模型来判断软标签的形式，不会因为模型判断而丢失部分数据，可以很好的解决数据不均衡的问题，对不均衡的数据集取得较好的分类效果。

Description

一种处理样本倾斜的文本分类方法

技术领域

本发明涉及大数据处理技术领域，特别涉及一种处理样本倾斜的文本分类方法。

背景技术

文本分类，或称为自动文本分类，是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别中的过程。

样本倾斜，是指参与分类的两个类别或多个类别的样本数据差异很大，也就是不平衡数据集。一般的分类研究主要针对平衡数据集，但在实际应用中样本大多都是不平衡的数据集。所以，对不平衡数据集的分类研究更具实用价值。

通常的文本分类研究是以提高数据集整体的分类准确率为目标，但对于不平衡数据集，以分类准确率为目标的话，则会使分类效果偏向于样本数量多的类别额，导致分类模型的效果明显下降。

为了解决这个问题，通常人们尝试将多个小样本数据合并在一起作为一个“其他类”或“小样本类”，先用一个文本分类模型训练改造后的数据集，识别出这个“其他类”，再用另一个模型专门训练这些“小样本类”。比如有20个类别，其中有8个小类别，则将这8个小类别当成一个“其他类”，当文本被分到这8个类别的“其他类”时，再通过这8个类别训练好的模型去具体区别是这8个类别中的哪一个类别，其公式描述如下：

P(y|x)=P(y|c,x)P(c|x)+P(c|x)

但是通过这种方式分类的话，当第一个模型认为该文本不是“小样本类”的数据时则会被丢弃，不会进入到下一个模型中，即认为第一模型的准确率是100%。实际上这是不合理的，不符合实际数据分布，如果该文本确实是“小样本类”的数据，则会因为第一个模型的判断，而失去进入第二个模型进行进一步判断的机会。

发明内容

本发明的目的在于能够对不均衡的数据集进行准确的分类，提供一种处理样本倾斜的文本分类方法。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一种处理样本倾斜的文本分类方法，其特征在于：包括以下步骤：

将N个样本类别的数据集重组为M个样本类别的数据集，其中M=N-n+1，n为少样本的类别数量；

使用第一模型对M个样本类别的数据集进行训练，得到以CLS向量表示的V_cls类别向量；

使用第二模型对N个样本类别的数据集进行分类，在分类输入前将所述V_cls类别向量作为第一个输入的特征字符；

根据所述第一模型、第二模型，得到N个样本类别的数据集的分类；使用所述第一模型、第二模型对新的文本进行分类。

在本方案中，将多个小样本数据合并在一起作为一个“其他样本”或“小样本”，但数据集不变，只是该数据集由N个样本类别重组为M个样本类别了；通过第一模型训练得到M个样本类别的类别向量，然后再M个样本类别的类别向量输入所述第二模型作为对N个样本类别数据集进行分类的判断信息，避免数据集经过模型后，会直接丢弃不属于类别的数据集，造成数据分类不准确的问题；最终得到这N个样本类别的数据集的分类；在以后对新的文本，比如新的数据集进行分类时，将这些数据集根据本方案的方法输入第一模型、第二模型后，即可得到这些数据集的分类。

所述第一模型为BERT预训练模型。

所述第二模型为TextCNN模型。

所述使用第一模型对M个样本类别的数据集进行训练，得到以CLS向量表示的V_cls类别向量的步骤，包括：

使用所述第一模型分别对M个样本类别的数据集进行训练，得到M个与样本类别对应的分类标签，以及用CLS向量表示的与各分类标签相对应的M个V_cls类别向量。

在本方案中，将所述第一模型定义为“大模型”，第二模型定义为“小模型”，使用“大模型”为M个样本类别提供一个软标签，即M个样本类别对应的分类标签和V_cls类别向量，而不像传统的分类方式那样，当数据进入第一个模型后直接得到硬标签，就会丢弃不属于模型类别的数据，因此将传统的硬标签的形式转成模型来判断软标签的形式；再将“大模型”得到的V_cls类别向量作为一种判断信息输入“小模型”作为参考，使得数据集再输入“小模型”时，能够更加准确的对其进行分类。

所述在分类输入前将所述V_cls向量作为第一个输入的特征字符，其输入的计算公式为：

即：

P(y|x)=Σ_cP(y|x;V_c)P(c|x)

=Σ_cP(y|x;V_cls)P(c|x)

=P(y|x;V_cls)Σ_cP(c|x)

=P(y|x;V_cls)（2）

其中，x代表第二模型的输入，y代表第二模型的输出，V_c代表类别向量，V_cls表示V_cls类别向量。

在分类输入前将用CLS向量表示的与各分类标签相对应的M个V_cls类别向量作为第一个输入的特征字符，将N个样本类别的数据集随即输入。

与现有技术相比，本发明的有益效果：

本方案采用全部的数据集进行计算训练，从硬标签的形式转成模型来判断软标签的形式，不会因为模型判断而丢失部分数据，同时采用“小模型-大模型”相结合的方式来完成整个分类过程，通过本方案可以很好的解决数据不均衡的问题，对不均衡的数据集取得较好的分类效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明文本分类方法流程图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本发明通过下述技术方案实现，如图1所示，一种处理样本倾斜的文本分类方法，包括以下步骤：

步骤S1：将N个样本类别的数据集重组为M个样本类别的数据集，其中M=N-n+1，n为少样本的类别数量。

现有的分类数据集a有N个样本类别，其中有n个少样本类别，将这N个样本类别重组为M个类别的分类数据集，M=N-n+1，得到M个样本类别的分类数据集b。所述少样本类别可以通过预先设定的样本数量阈值来判定该样本类别是否为少样本类别，比如将小于5000的样本数据判定为少样本类别。

步骤S2：使用第一模型对M个样本类别的数据集进行训练，得到以CLS向量表示的V_cls类别向量。

本方案中所述第一模型使用BERT预训练模型，分别对M个样本类别的分类数据集b进行训练，得到M个与样本类别对应的分类标签，以及用CLS向量表示的与各分类标签相对应的M个V_cls类别向量。

由于所述BERT预训练模型的固有特性，能对数据进行完整的监督模型，可视为一个“大模型”，用于完成整个样本数据集的绝大部分分类，但本方案不限于所述第一模型仅使用BERT预训练模型，比如其他的大型预训练模型也可以。

步骤S3：使用第二模型对N个样本类别的数据集进行分类，在分类输入前将所述V_cls类别向量作为第一个输入的特征字符。

本方案中所述第二模型使用TextCNN模型，对N个样本类别的样本数据集a进行分类，在分类前先输入步骤S2得到的V_cls类别向量作为第一个输入的特征字符x，其输入的计算公式为：

即：

P(y|x)=Σ_cP(y|x;V_c)P(c|x)

=Σ_cP(y|x;V_cls)P(c|x)

=P(y|x;V_cls)Σ_cP(c|x)

=P(y|x;V_cls)（2）

其中，x代表第二模型的输入，y代表第二模型的输出，c表示大样本类别和少样类别（其他类别），即M个样本类别的数量；V_c代表类别向量，V_cls表示V_cls类别向量，比如：

现有N个样本类别的数据集a，N为10，其中有5个少样本类别，则将这10个样本类别的数据集a重组为M个样本类别的数据集b，即M=10-5+1=6。将这6个样本类别的数据集b输入第一模型进行训练后，得到6个与样本类别对应的分类标签，以及用CLS向量表示的与这6个分类标签相对应的6个V_cls类别向量。

在输入式（1）、（2）进行计算时，首先输入这6个V_cls类别向量作为第一个输入第二模型的特征字符，然后这6个样本类别的数据集b紧随其后输入第二模型。其中V_c代表类别向量，比如现V_c为[0,0,1,0,0,0]，则表示该类别向量V_c为第3个样本类别所对应的类别向量；V_cls表示V_cls类别向量，比如紧接着V_cls为[0,0.1,0.8,0.1,0,0]，则表示该V_cls类别向量更趋近于第三个样本类别所对应的V_cls类别向量。相当于将“硬标签”所表示的绝对性转换为“软标签”表示的相对性，而不是直接将不属于类别向量V_c的数据集舍弃，而是提供相对性的判断信息，使得第二模型能够更加准确的对N个样本类别进行分类判断，以保证分类的准确性。

传统的方式是通过类别标签进行筛选直接得到分类结果，而本方案先通过所述第一模型训练得到M个样本类别判断结果的类别向量，然后通过将N个样本类别的数据集a和M个样本类别对应的所有V_cls类别向量一并输入所述第二模型中以对N个样本类别的数据集a进行判断分类，在输入时，首先输入V_cls类别向量进入第二模型，再输入数据集a。所述第二模型可视为一个“小模型”，相比于步骤S2中的“大模型”具有更少的模型参数，网络层次也相对较少。在第一模型中分类得到的分类标签下，再使用第二模型网按成剩下的分类工作。本方案所使用的所述第二模型不限于TextCNN模型，比如结构简单的分类模型也可以。

步骤S4：根据所述第一模型、第二模型，得到N个样本类别的数据集的分类；使用所述第一模型、第二模型对新的文本进行分类。

对所述BERT预训练模型和TextCNN模型完成分类训练后，即可得到N个样本类别的数据集a的分类，同时完成对第一模型、第二模型的训练。在以后的实际使用中，即可按照本方案的方法使用第一模型和第二模型对新的文本进行分类，比如新的数据集等，这些文本即包括了不均衡的数据集。

本方案采用全部的数据集进行计算训练，从传统的硬标签的形式转成模型来判断软标签的形式，相当于先使用预训练的“大模型”为M个样本类别提供一个软标签，提供这M个类别的分类判断信息，比如类别标签和类别向量，但此时不会直接得出分类结果，而是把这个判断信息输入“小模型”中，“小模型”根据原始的N个样本类别和“大模型”输入的判断信息，进行更加准确的判断，不会因为模型判断而丢失部分数据。采用“小模型-大模型”相结合的方式来完成整个分类过程，通过本方案可以很好的解决数据不均衡的问题，对不均衡的数据集取得较好的分类效果。

需要说明的是，所述“硬标签”表达一个明确的信息，比如直接得到这是什么类别，相当于100%确定类别标签；所述“软标签”表示提供一个相对的信息，比如这个类别70-80%可能是某类别，并非硬标签这么绝对。而传统的方式，就是将数据或数据集输入分类模型后，直接得到数据的硬标签，将不属于该硬标签类别的数据直接舍弃。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种处理样本倾斜的文本分类方法，其特征在于：包括以下步骤：

根据所述第一模型、第二模型，得到N个样本类别的数据集的分类；使用所述第一模型、第二模型对新的文本进行分类；

使用所述第一模型分别对M个样本类别的数据集进行训练，得到M个与样本类别对应的分类标签，以及用CLS向量表示的与各分类标签相对应的M个V_cls类别向量；

所述在分类输入前将所述V_cls类别向量作为第一个输入的特征字符，其输入的计算公式为：

即：

P(y|x)=Σ_cP(y|x;V_c)P(c|x)

=Σ_cP(y|x;V_cls)P(c|x)

=P(y|x;V_cls)Σ_cP(c|x)

=P(y|x;V_cls)（2）

其中，x代表第二模型的输入，y代表第二模型的输出，c表示M个样本类别的数量，V_c代表类别向量，V_cls表示V_cls类别向量。

2.根据权利要求1所述的处理样本倾斜的文本分类方法，其特征在于：所述第一模型为BERT预训练模型。

3.根据权利要求1所述的处理样本倾斜的文本分类方法，其特征在于：所述第二模型为TextCNN模型。