CN112241454B - 一种处理样本倾斜的文本分类方法 - Google Patents
一种处理样本倾斜的文本分类方法 Download PDFInfo
- Publication number
- CN112241454B CN112241454B CN202011467463.0A CN202011467463A CN112241454B CN 112241454 B CN112241454 B CN 112241454B CN 202011467463 A CN202011467463 A CN 202011467463A CN 112241454 B CN112241454 B CN 112241454B
- Authority
- CN
- China
- Prior art keywords
- model
- cls
- sample
- classification
- classes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 title claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种处理样本倾斜的文本分类方法,包括以下步骤:将N个样本类别的数据集重组为M个样本类别的数据集,其中M=N‑n+1,n为少样本的类别数量;使用第一模型对M个样本类别的数据集进行训练,得到以CLS向量表示的V_cls类别向量;使用第二模型对N个样本类别的数据集进行分类,在分类输入前将所述V_cls类别向量作为第一个输入的特征字符;根据所述第一模型、第二模型,得到N个样本类别的数据集的分类;使用所述第一模型、第二模型对新的文本进行分类。本方案采用全部的数据集进行计算训练,从硬标签的形式转成模型来判断软标签的形式,不会因为模型判断而丢失部分数据,可以很好的解决数据不均衡的问题,对不均衡的数据集取得较好的分类效果。
Description
技术领域
本发明涉及大数据处理技术领域,特别涉及一种处理样本倾斜的文本分类方法。
背景技术
文本分类,或称为自动文本分类,是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别中的过程。
样本倾斜,是指参与分类的两个类别或多个类别的样本数据差异很大,也就是不平衡数据集。一般的分类研究主要针对平衡数据集,但在实际应用中样本大多都是不平衡的数据集。所以,对不平衡数据集的分类研究更具实用价值。
通常的文本分类研究是以提高数据集整体的分类准确率为目标,但对于不平衡数据集,以分类准确率为目标的话,则会使分类效果偏向于样本数量多的类别额,导致分类模型的效果明显下降。
为了解决这个问题,通常人们尝试将多个小样本数据合并在一起作为一个“其他类”或“小样本类”,先用一个文本分类模型训练改造后的数据集,识别出这个“其他类”,再用另一个模型专门训练这些“小样本类”。比如有20个类别,其中有8个小类别,则将这8个小类别当成一个“其他类”,当文本被分到这8个类别的“其他类”时,再通过这8个类别训练好的模型去具体区别是这8个类别中的哪一个类别,其公式描述如下:
P(y|x)=P(y|c,x)P(c|x)+P(c|x)
但是通过这种方式分类的话,当第一个模型认为该文本不是“小样本类”的数据时则会被丢弃,不会进入到下一个模型中,即认为第一模型的准确率是100%。实际上这是不合理的,不符合实际数据分布,如果该文本确实是“小样本类”的数据,则会因为第一个模型的判断,而失去进入第二个模型进行进一步判断的机会。
发明内容
本发明的目的在于能够对不均衡的数据集进行准确的分类,提供一种处理样本倾斜的文本分类方法。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种处理样本倾斜的文本分类方法,其特征在于:包括以下步骤:
将N个样本类别的数据集重组为M个样本类别的数据集,其中M=N-n+1,n为少样本的类别数量;
使用第一模型对M个样本类别的数据集进行训练,得到以CLS向量表示的V_cls类别向量;
使用第二模型对N个样本类别的数据集进行分类,在分类输入前将所述V_cls类别向量作为第一个输入的特征字符;
根据所述第一模型、第二模型,得到N个样本类别的数据集的分类;使用所述第一模型、第二模型对新的文本进行分类。
在本方案中,将多个小样本数据合并在一起作为一个“其他样本”或“小样本”,但数据集不变,只是该数据集由N个样本类别重组为M个样本类别了;通过第一模型训练得到M个样本类别的类别向量,然后再M个样本类别的类别向量输入所述第二模型作为对N个样本类别数据集进行分类的判断信息,避免数据集经过模型后,会直接丢弃不属于类别的数据集,造成数据分类不准确的问题;最终得到这N个样本类别的数据集的分类;在以后对新的文本,比如新的数据集进行分类时,将这些数据集根据本方案的方法输入第一模型、第二模型后,即可得到这些数据集的分类。
所述第一模型为BERT预训练模型。
所述第二模型为TextCNN模型。
所述使用第一模型对M个样本类别的数据集进行训练,得到以CLS向量表示的V_cls类别向量的步骤,包括:
使用所述第一模型分别对M个样本类别的数据集进行训练,得到M个与样本类别对应的分类标签,以及用CLS向量表示的与各分类标签相对应的M个V_cls类别向量。
在本方案中,将所述第一模型定义为“大模型”,第二模型定义为“小模型”,使用“大模型”为M个样本类别提供一个软标签,即M个样本类别对应的分类标签和V_cls类别向量,而不像传统的分类方式那样,当数据进入第一个模型后直接得到硬标签,就会丢弃不属于模型类别的数据,因此将传统的硬标签的形式转成模型来判断软标签的形式;再将“大模型”得到的V_cls类别向量作为一种判断信息输入“小模型”作为参考,使得数据集再输入“小模型”时,能够更加准确的对其进行分类。
所述在分类输入前将所述V_cls向量作为第一个输入的特征字符,其输入的计算公式为:
P(y|x)=ΣcP(y|c,x)P(c|x)=ΣcP(y|x;Vc)P(c|x)(1)
即:
P(y|x)=ΣcP(y|x;Vc)P(c|x)
=ΣcP(y|x;Vcls)P(c|x)
=P(y|x;Vcls)ΣcP(c|x)
=P(y|x;Vcls)(2)
其中,x代表第二模型的输入,y代表第二模型的输出,Vc代表类别向量,Vcls表示V_cls类别向量。
在分类输入前将用CLS向量表示的与各分类标签相对应的M个V_cls类别向量作为第一个输入的特征字符,将N个样本类别的数据集随即输入。
与现有技术相比,本发明的有益效果:
本方案采用全部的数据集进行计算训练,从硬标签的形式转成模型来判断软标签的形式,不会因为模型判断而丢失部分数据,同时采用“小模型-大模型”相结合的方式来完成整个分类过程,通过本方案可以很好的解决数据不均衡的问题,对不均衡的数据集取得较好的分类效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明文本分类方法流程图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本发明通过下述技术方案实现,如图1所示,一种处理样本倾斜的文本分类方法,包括以下步骤:
步骤S1:将N个样本类别的数据集重组为M个样本类别的数据集,其中M=N-n+1,n为少样本的类别数量。
现有的分类数据集a有N个样本类别,其中有n个少样本类别,将这N个样本类别重组为M个类别的分类数据集,M=N-n+1,得到M个样本类别的分类数据集b。所述少样本类别可以通过预先设定的样本数量阈值来判定该样本类别是否为少样本类别,比如将小于5000的样本数据判定为少样本类别。
步骤S2:使用第一模型对M个样本类别的数据集进行训练,得到以CLS向量表示的V_cls类别向量。
本方案中所述第一模型使用BERT预训练模型,分别对M个样本类别的分类数据集b进行训练,得到M个与样本类别对应的分类标签,以及用CLS向量表示的与各分类标签相对应的M个V_cls类别向量。
由于所述BERT预训练模型的固有特性,能对数据进行完整的监督模型,可视为一个“大模型”,用于完成整个样本数据集的绝大部分分类,但本方案不限于所述第一模型仅使用BERT预训练模型,比如其他的大型预训练模型也可以。
步骤S3:使用第二模型对N个样本类别的数据集进行分类,在分类输入前将所述V_cls类别向量作为第一个输入的特征字符。
本方案中所述第二模型使用TextCNN模型,对N个样本类别的样本数据集a进行分类,在分类前先输入步骤S2得到的V_cls类别向量作为第一个输入的特征字符x,其输入的计算公式为:
P(y|x)=ΣcP(y|c,x)P(c|x)=ΣcP(y|x;Vc)P(c|x)(1)
即:
P(y|x)=ΣcP(y|x;Vc)P(c|x)
=ΣcP(y|x;Vcls)P(c|x)
=P(y|x;Vcls)ΣcP(c|x)
=P(y|x;Vcls)(2)
其中,x代表第二模型的输入,y代表第二模型的输出,c表示大样本类别和少样类别(其他类别),即M个样本类别的数量;Vc代表类别向量,Vcls表示V_cls类别向量,比如:
现有N个样本类别的数据集a,N为10,其中有5个少样本类别,则将这10个样本类别的数据集a重组为M个样本类别的数据集b,即M=10-5+1=6。将这6个样本类别的数据集b输入第一模型进行训练后,得到6个与样本类别对应的分类标签,以及用CLS向量表示的与这6个分类标签相对应的6个V_cls类别向量。
在输入式(1)、(2)进行计算时,首先输入这6个V_cls类别向量作为第一个输入第二模型的特征字符,然后这6个样本类别的数据集b紧随其后输入第二模型。其中Vc代表类别向量,比如现Vc为[0,0,1,0,0,0],则表示该类别向量Vc为第3个样本类别所对应的类别向量;Vcls表示V_cls类别向量,比如紧接着Vcls为[0,0.1,0.8,0.1,0,0],则表示该V_cls类别向量更趋近于第三个样本类别所对应的V_cls类别向量。相当于将“硬标签”所表示的绝对性转换为“软标签”表示的相对性,而不是直接将不属于类别向量Vc的数据集舍弃,而是提供相对性的判断信息,使得第二模型能够更加准确的对N个样本类别进行分类判断,以保证分类的准确性。
传统的方式是通过类别标签进行筛选直接得到分类结果,而本方案先通过所述第一模型训练得到M个样本类别判断结果的类别向量,然后通过将N个样本类别的数据集a和M个样本类别对应的所有V_cls类别向量一并输入所述第二模型中以对N个样本类别的数据集a进行判断分类,在输入时,首先输入V_cls类别向量进入第二模型,再输入数据集a。所述第二模型可视为一个“小模型”,相比于步骤S2中的“大模型”具有更少的模型参数,网络层次也相对较少。在第一模型中分类得到的分类标签下,再使用第二模型网按成剩下的分类工作。本方案所使用的所述第二模型不限于TextCNN模型,比如结构简单的分类模型也可以。
步骤S4:根据所述第一模型、第二模型,得到N个样本类别的数据集的分类;使用所述第一模型、第二模型对新的文本进行分类。
对所述BERT预训练模型和TextCNN模型完成分类训练后,即可得到N个样本类别的数据集a的分类,同时完成对第一模型、第二模型的训练。在以后的实际使用中,即可按照本方案的方法使用第一模型和第二模型对新的文本进行分类,比如新的数据集等,这些文本即包括了不均衡的数据集。
本方案采用全部的数据集进行计算训练,从传统的硬标签的形式转成模型来判断软标签的形式,相当于先使用预训练的“大模型”为M个样本类别提供一个软标签,提供这M个类别的分类判断信息,比如类别标签和类别向量,但此时不会直接得出分类结果,而是把这个判断信息输入“小模型”中,“小模型”根据原始的N个样本类别和“大模型”输入的判断信息,进行更加准确的判断,不会因为模型判断而丢失部分数据。采用“小模型-大模型”相结合的方式来完成整个分类过程,通过本方案可以很好的解决数据不均衡的问题,对不均衡的数据集取得较好的分类效果。
需要说明的是,所述“硬标签”表达一个明确的信息,比如直接得到这是什么类别,相当于100%确定类别标签;所述“软标签”表示提供一个相对的信息,比如这个类别70-80%可能是某类别,并非硬标签这么绝对。而传统的方式,就是将数据或数据集输入分类模型后,直接得到数据的硬标签,将不属于该硬标签类别的数据直接舍弃。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
Claims (3)
1.一种处理样本倾斜的文本分类方法,其特征在于:包括以下步骤:
将N个样本类别的数据集重组为M个样本类别的数据集,其中M=N-n+1,n为少样本的类别数量;
使用第一模型对M个样本类别的数据集进行训练,得到以CLS向量表示的V_cls类别向量;
使用第二模型对N个样本类别的数据集进行分类,在分类输入前将所述V_cls类别向量作为第一个输入的特征字符;
根据所述第一模型、第二模型,得到N个样本类别的数据集的分类;使用所述第一模型、第二模型对新的文本进行分类;
所述使用第一模型对M个样本类别的数据集进行训练,得到以CLS向量表示的V_cls类别向量的步骤,包括:
使用所述第一模型分别对M个样本类别的数据集进行训练,得到M个与样本类别对应的分类标签,以及用CLS向量表示的与各分类标签相对应的M个V_cls类别向量;
所述在分类输入前将所述V_cls类别向量作为第一个输入的特征字符,其输入的计算公式为:
P(y|x)=ΣcP(y|c,x)P(c|x)=ΣcP(y|x;Vc)P(c|x)(1)
即:
P(y|x)=ΣcP(y|x;Vc)P(c|x)
=ΣcP(y|x;Vcls)P(c|x)
=P(y|x;Vcls)ΣcP(c|x)
=P(y|x;Vcls)(2)
其中,x代表第二模型的输入,y代表第二模型的输出,c表示M个样本类别的数量,Vc代表类别向量,Vcls表示V_cls类别向量。
2.根据权利要求1所述的处理样本倾斜的文本分类方法,其特征在于:所述第一模型为BERT预训练模型。
3.根据权利要求1所述的处理样本倾斜的文本分类方法,其特征在于:所述第二模型为TextCNN模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011467463.0A CN112241454B (zh) | 2020-12-14 | 2020-12-14 | 一种处理样本倾斜的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011467463.0A CN112241454B (zh) | 2020-12-14 | 2020-12-14 | 一种处理样本倾斜的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112241454A CN112241454A (zh) | 2021-01-19 |
CN112241454B true CN112241454B (zh) | 2021-02-19 |
Family
ID=74175269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011467463.0A Active CN112241454B (zh) | 2020-12-14 | 2020-12-14 | 一种处理样本倾斜的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241454B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587493A (zh) * | 2009-06-29 | 2009-11-25 | 中国科学技术大学 | 文本分类方法 |
WO2014147542A1 (en) * | 2013-03-21 | 2014-09-25 | Koninklijke Philips N.V. | View classification-based model initialization |
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN111581385A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种不平衡数据采样的中文文本类别识别系统及方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526805B (zh) * | 2017-08-22 | 2019-12-24 | 杭州电子科技大学 | 一种基于权重的ML-kNN多标签中文文本分类方法 |
CN110309302B (zh) * | 2019-05-17 | 2023-03-24 | 江苏大学 | 一种结合svm和半监督聚类的不平衡文本分类方法及系统 |
CN110889443A (zh) * | 2019-11-21 | 2020-03-17 | 成都数联铭品科技有限公司 | 无监督文本分类系统及方法 |
CN111078885B (zh) * | 2019-12-18 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种标签分类的方法、相关装置、设备以及存储介质 |
CN111737476B (zh) * | 2020-08-05 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
-
2020
- 2020-12-14 CN CN202011467463.0A patent/CN112241454B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587493A (zh) * | 2009-06-29 | 2009-11-25 | 中国科学技术大学 | 文本分类方法 |
WO2014147542A1 (en) * | 2013-03-21 | 2014-09-25 | Koninklijke Philips N.V. | View classification-based model initialization |
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN111581385A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种不平衡数据采样的中文文本类别识别系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112241454A (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108628971B (zh) | 不均衡数据集的文本分类方法、文本分类器及存储介质 | |
CN110222771B (zh) | 一种零样本图片的类别识别方法 | |
CN106855853A (zh) | 基于深度神经网络的实体关系抽取系统 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN106651057A (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN107391760A (zh) | 用户兴趣识别方法、装置及计算机可读存储介质 | |
CN107766371A (zh) | 一种文本信息分类方法及其装置 | |
CN109993057A (zh) | 语义识别方法、装置、设备及计算机可读存储介质 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN107169086A (zh) | 一种文本分类方法 | |
CN103473231A (zh) | 分类器构建方法和系统 | |
CN109766911A (zh) | 一种行为预测方法 | |
CN109960727A (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN110134792A (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN110472067A (zh) | 知识图谱表示学习方法、装置、计算机设备及存储介质 | |
CN111860671A (zh) | 分类模型训练方法、装置、终端设备和可读存储介质 | |
CN110232128A (zh) | 题目文本分类方法及装置 | |
CN113360647A (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
WO2020135054A1 (zh) | 视频推荐方法、装置、设备及存储介质 | |
CN113806483B (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
CN111984790B (zh) | 一种实体关系抽取方法 | |
CN110532570A (zh) | 一种命名实体识别的方法和装置及模型训练的方法和装置 | |
CN110309513A (zh) | 一种文本依存分析的方法和装置 | |
CN108428234B (zh) | 基于图像分割结果评价的交互式分割性能优化方法 | |
Saha et al. | The corporeality of infotainment on fans feedback towards sports comment employing convolutional long-short term neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210119 Assignee: Shansikaiwu Technology (Chengdu) Co.,Ltd. Assignor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd. Contract record no.: X2023510000034 Denomination of invention: A Text Classification Method for Handling Sample Skew Granted publication date: 20210219 License type: Common License Record date: 20231219 |
|
EE01 | Entry into force of recordation of patent licensing contract |