CN112463972A

CN112463972A - 一种基于类别不均衡的样本分类方法

Info

Publication number: CN112463972A
Application number: CN202110114681.4A
Authority: CN
Inventors: 张发展; 刘世林; 罗镇权; 祝凯
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-03-09
Anticipated expiration: 2041-01-28
Also published as: CN112463972B

Abstract

本发明涉及一种基于类别不均衡的样本分类方法，包括以下步骤：将M个多样本类别作为一个类别整体进行训练，得到第一分类器；联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练，得到第二分类器；将待分类样本输入第二分类器，输出第一次分类结果；若第一次分类结果与少样本类别相似，则直接输出本次分类结果为最终分类结果；若第一次分类结果与多样本类别相似，则将待分类样本再输入第一分类器，输出第二次分类结果为最终分类结果。本方案相比传统的依次二分类方法，提高了文本分类的效率，降低文本分类成本，并且也能达到对类别不均衡文本的准确分类。

Description

一种基于类别不均衡的样本分类方法

技术领域

本发明涉及文本分类技术领域，特别涉及一种基于类别不均衡的样本分类方法。

背景技术

文本分类是指给文本数据（即样本）打上特定的标签，通常需要各个类别的训练样本尽量均衡，才能使文本数据被分类到确切的类别。但是实际数据分布往往存在不均衡的现象。比如，“事件”类别的样本数据中，“企业合作”的文本数据相比“企业破产”的文本数据会多很多。再比如，“体育”类别的样本数据中，有“篮球”、“足球”、“羽毛球”等样本，在不同的时期也会存在不均衡的现象。

现有对数据不均衡的处理方法有过采样或欠采样，过采样就是对文本数据量较少的类别进行多次采样；欠采样就是对文本数据较多的类别减少采样。但过采样会导致训练样本存在线性相关现象，欠采样会对收集的文本数据不充分利用。因此，现有对数据不均衡的处理方法还不成熟。

有学者使用二分类的方法对不均衡类别进行分类，是每次将待分类文本与一个少样本类别和一个多样本类别进行分类比较，下一次继续与另一少样本类别和另一多样本类别进行分类比较，这样使得分类效率极低。

发明内容

本发明的目的在于对不均衡样本数据进行分类，且提高分类效率，提供一种基于类别不均衡的样本分类方法。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一种基于类别不均衡的样本分类方法，包括以下步骤：

将M个多样本类别作为一个类别整体进行训练，得到第一分类器；联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练，得到第二分类器；

将待分类样本输入第二分类器，输出第一次分类结果；若第一次分类结果与少样本类别相似，则直接输出本次分类结果为最终分类结果；若第一次分类结果与多样本类别相似，则将待分类样本再输入第一分类器，输出第二次分类结果为最终分类结果。

在本方案中，对于文本分类中的类别不均衡的问题，特别是包含多个少样本类别时，类别不均衡的问题，首先对多个多样本作为一个整体进行训练得到第一分类器，再联合多个多样本类别的整体类别与多个少样本类别同时进行训练，得到第二分类器，将待分类样本输入第二分类器，如果输出结果为任一少样本类别，则说明该待分类样本属于该少样本类别，如果输出结果为多样本类别的整体类别，则说明该待分类样本属于任一多样本类别，则再将待分类样本输入第一分类器，输出的结果即为任一多样本类别。本方案可同时将待分类样本与所有的少样本类别和多个多样本类别合成的一个整体类别进行分类比较，解决了传统将待分类样本与每个少样本类别和每个多样本类别进行依次分类比较所带来的麻烦，降低了文本分类的成本，相比传统的依次二分类方法，提高了文本分类的效率，并且也能达到对类别不均衡文本的准确分类。

所述联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练，得到第二分类器的步骤，包括：

在每一个少样本类别中选取一个代表样本，则有N个代表样本；

将N个代表样本以向量的形式表示，作为N个少样本类别的向量，则有N个向量；

将M个多样本类别中的抽样样本分别与少样本类别的N个代表样本做比较，得到N个多样本的代表样本；将N个多样本的代表样本以向量的形式表示，则有N个多样本的向量；

对N个多样本的向量求均值，得到M个多样本类别形成的一个类别整体的向量。

所述在每一个少样本类别中选取一个代表样本的步骤，包括：

将每一个少样本类别中的抽样样本以向量编码的形式表示，求抽样样本的向量编码的均值，将最接近该均值的向量编码所对应的样本作为该少样本类别的代表样本。

所述将M个多样本类别中的抽样样本分别与少样本类别的N个代表样本做比较，得到N个多样本的代表样本的步骤，包括：

将M个多样本类别中的抽样样本以向量编码的形式表示，将抽样样本的向量编码分别与少样本类别中每一个代表样本的向量做差值，并对这些差值求均值，得到M个多样本类别作为一个类别整体时，相对于每一个少样本类别的代表样本，则有N个相对于少样本类别的代表样本。

所述将待分类样本输入第二分类器，输出第一次分类结果的步骤，包括：

将所述待分类样本以向量的形式表示为待分类样本向量；

将所述待分类样本向量与N个少样本类别的向量以及M个多样本类别形成的一个类别整体的向量进行比较，输出与该待分类样本最接近的向量。

所述将M个多样本类别作为一个类别整体进行训练，得到第一分类器的步骤，包括：

使用预训练模型BERT fine-tuning对M个多样本类别进行训练，将[cls]作为特殊标记输入BERT，将tok作为输入样本进行分词后的单词输入BERT，[cls]、tok以向量表示为E_[cls]、E_tok；经过BERT后单词的向量表示为C、T_tok，将[cls]的向量C输入到全连接层FC进行分类，从而得到训练后的第一分类器。

与现有技术相比，本发明的有益效果：

本方案可同时将待分类样本与所有的少样本类别和多个多样本类别合成的一个整体类别进行分类比较，解决了传统需将待分类样本与每个少样本类别和每个多样本类别进行依次分类比较所带来的麻烦，降低了文本分类的成本，相比传统的依次二分类方法，提高了文本分类的效率，并且也能达到对类别不均衡文本的准确分类。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例样本分类方法流程图；

图2为本发明实施例选取少样本类别的代表样本的示意图；

图3为本发明实施例得到多样本类别的向量表示的示意图；

图4为本发明实施例训练第一分类器的示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性，或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

本发明通过下述技术方案实现，一种基于类别不均衡的样本分类方法，包括以下方法：

步骤S1：将M个多样本类别作为一个类别整体进行训练，得到第一分类器；联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练，得到第二分类器。

假设现一共有十个样本类别的文本数据，表示为Q1、Q2、Q3、Q4、Q5、Q6、Q7、Q8、Q9、Q10，其中Q1、Q2、Q3为少样本类别，Q4、Q5、Q6、Q7、Q8、Q9、Q10为多样本类型，即N=3，M=7。

将7个多样本类别作为一个类别整体进行训练，请参见图4，使用预训练模型BERTfine-tuning对M个多样本类别进行训练，其中[cls]是BERT输入中的特殊标记，经过BERT后，该字符的向量可代表整个句子含义，tok1~tokn是输入文本分词后的单词，一般按字进行分割；E_[cls]、E_tok1~E_tokn是[cls]、tok1~tokn的向量表示，为词嵌入向量加位置嵌入向量；C、T_tok1~T_tokn为经过BERT后单词的向量表示，将[cls]的向量输入到全连接层（FC）进行分类，最终回归函数（softmax）从而得到训练后的第一分类器，可将第一分类器标记为BERT_Maj。

在联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练时，首先在每一个少样本类别中选取一个代表样本，则有3个代表样本。请参见图2，圆形即表示少样本类别中的样本，其中少样本类别Q1、Q2、Q3可分别表示为Min1、Min2、Min3，7个多样本类别形成的一个类别整体可表示为Maj。

在少样本类别Min1、Min2、Min3中选取代表样本时，将每一个少样本类别中的一个或若干样本以向量编码的形式表示，求这些样本的向量编码的均值，将最接近该均值的向量编码所对应的样本作为该少样本类别的代表样本。

请继续参见图2，五角形即表示少样本类别中的代表样本，分别为Anchor1、Anchor2、Anchor3，其代表样本的向量编码分别为Y1、Y2、Y3。假设少样本类别Min1中有若干样本，分别以圆形表示，提取其中两个样本的向量编码为X1、X2，求出均值后选出最接近均值的样本作为代表样本，选出的最接近均值的样本即为少样本类别Min1中最具代表性的一个样本Anchor1。同理，选择出少样本类别Min2、Min3中的代表样本Anchor2、Anchor3。基于SetConv Layer（卷积层），可以得到少样本类别Min1的向量表示Min Re1；同理，也得到少样本类别Min2、Min3的向量表示Min Re2、Min Re3，在图2中分别以菱形表示，比如以g(Y1-X1)来表示SetConv Layer卷积层，从而得到向量表示的形式。

将7个多样本类别中的抽样样本分别与少样本类别的这3个代表样本Anchor1、Anchor2、Anchor3做比较，以得到3个多样本的代表样本。请参见图3，将7个多样本类别中抽样样本的向量编码X1、X2、X3、X4、X5输入SetConv Layer，得到7个多样本作为一个类别整体时，相对于少样本类别Min1的代表样本，在图3中以三角形表示；同理，得到相对于少样本类别Min2的代表样本，以及相对于少样本类别Min3的代表样本。

则7个多样本类别作为一个类别整体时，得到相对于3个少样本类别的代表样本，均以三角形表示。将这3个多样本的代表样本以向量的形式表示，然后对3个多样本的向量求均值，得到这7个多样本类别形成的一个类别整体时的向量Maj Re，在图3中以六边形表示。

此时便得到了以菱形表示的3个少样本类别的向量Min Re1、Min Re2、Min Re3，以及以六边形表示的7个多样本类别形成的一个类别整体的向量Maj Re。

步骤S2：将待分类样本输入第二分类器，输出第一次分类结果；若第一次分类结果与少样本类别相似，则直接输出本次分类结果为最终分类结果；若第一次分类结果与多样本类别相似，则将待分类样本再输入第一分类器，输出第二次分类结果为最终分类结果。

请参见图1，待分类样本以圆形表示，将待分类样本输入第二分类器进行分类，同时将待分类样本以向量的形式表示，即图1中的椭圆形，进入分类层（ClassificationLayer）,在第二分类器中进行分类时，计算待分类样本的向量与向量Min Re1、Min Re2、MinRe3、Maj Re的距离，若待分类样本的向量与向量Min Re1、Min Re2、Min Re3中的任一向量距离最近，则判断该待分类样本与该向量对应的样本类别相似。比如，若待分类样本的向量与向量Min Re2的距离最近，则判断该待分类样本与样本类别Min2相似，此时则直接输出该待分类样本属于样本类别Min2。若待分类样本的向量与向量Maj的距离最近，则判断该待分类样本与7个多样本类别相似，此时则将待分类样本再输入第一分类器，即可直接输出该待分类样本具体属于这7个多样本类别中的哪一个样本。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于类别不均衡的样本分类方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于类别不均衡的样本分类方法，其特征在于：所述联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练，得到第二分类器的步骤，包括：

3.根据权利要求2所述的一种基于类别不均衡的样本分类方法，其特征在于：所述在每一个少样本类别中选取一个代表样本的步骤，包括：

4.根据权利要求2所述的一种基于类别不均衡的样本分类方法，其特征在于：所述将M个多样本类别中的抽样样本分别与少样本类别的N个代表样本做比较，得到N个多样本的代表样本的步骤，包括：

5.根据权利要求2所述的一种基于类别不均衡的样本分类方法，其特征在于：所述将待分类样本输入第二分类器，输出第一次分类结果的步骤，包括：

将所述待分类样本以向量的形式表示为待分类样本向量；

6.根据权利要求1-5任一项所述的一种基于类别不均衡的样本分类方法，其特征在于：所述将M个多样本类别作为一个类别整体进行训练，得到第一分类器的步骤，包括：