CN112765359A - 一种基于少样本的文本分类方法 - Google Patents
一种基于少样本的文本分类方法 Download PDFInfo
- Publication number
- CN112765359A CN112765359A CN202110370999.9A CN202110370999A CN112765359A CN 112765359 A CN112765359 A CN 112765359A CN 202110370999 A CN202110370999 A CN 202110370999A CN 112765359 A CN112765359 A CN 112765359A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- model
- text
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于少样本的文本分类方法,包括以下步骤:使用z个翻译工具将数据集a中的每条数据分别翻译z次,以得到扩充后的数据集b;使用BERT预训练模型对扩充后的数据集b进行编码,得到向量集V;将向量集V作为训练集x,将数据集a的标签作为训练集y,将所述训练集x和训练集y共同输入分类模型,对分类模型进行训练,直到得到收敛的分类模型。本发明将原始少样本的数据进行大量扩充,以增加训练的样本,但并没有增加人工标注,因此一方面解决了少样本训练分类不准确的问题,另一方面也避免了需要人工标注所耗费的人力和时间。
Description
技术领域
本发明涉及文本分类技术领域,特别涉及一种基于少样本的文本分类方法。
背景技术
文本分类,或者称为自动文本分类,是指计算机将再有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。文本包括新闻、文章、文字作品、小说、通知等,比如对一条新闻的文本进行分类时,可以判断将其分为体育新闻、娱乐新闻、时事政治新闻或天气预报等类别;再比如对一部小说的文本进行分类时,可以将其分为言情小说、武侠小说或悬疑小说等。可见,文本分类也属于对自然语言的处理过程,是对语义信息进行处理的技术应用领域。
主流的针对样本分类的传统深度学习技术需要大量的数据来训练一个好的模型,即需要大量的样本来训练模型,从而使用该模型对文本进行测试,以得到对该文本的分类结果。但是由于需要标记大量的数据,费时费力,因此少样本分类的学习是一个不错的选择。
少样本分类的学习是指使用较少的数据样本(即文本)达到准确分类的结果。少样本分类的学习关键是解决过拟合(overfitting)的问题,由于训练的数据样本太少,训练出的模型可能在训练集上的作用效果还行,但是在测试集上则会面临灾难性的打击,使得文本分类不准确。
为了解决现有技术中少样本分类学习的缺陷,人们的想法直接简单,既然训练集的数据样本不够,那就增加训练集的数据样本。但是增加训练集的数据样本后,又回到了传统深度学习的方式,需要对大量的训练集数据样本进行标记,仍然存在费时费力的问题。
所以,现在急需一种既可以增加训练集的数据样本,又节省人力、节省时间的方法。
发明内容
本发明的目的在于解决两个问题,一是少样本训练分类不准确,二是增加训练集但需要大量人工标注,提供一种基于少样本的文本分类方法。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种基于少样本的文本分类方法,包括以下步骤:
步骤S1:使用z个翻译工具将数据集a中的每条数据分别翻译z次,以得到扩充后的数据集b;
步骤S2:使用预训练模型对扩充后的数据集b进行编码,得到向量集V;
步骤S3:将向量集V作为训练集x,将数据集a的标签作为训练集y,将所述训练集x和训练集y共同输入分类模型,对分类模型进行训练,直到得到收敛的分类模型。
在步骤S1中,所述数据集a中包括m类数据,平均每类数据中包括n条数据;
使用z个翻译工具将数据集a中m*n条数据分别翻译z次后,得到翻译数据z*m*n条;扩充后的数据集b包括z*m*n条翻译数据和m*n条数据集a。
所述预训练模型为BERT预训练模型。
分别使用每个翻译工具所对应的BERT预训练模型对各翻译工具翻译后对应的翻译数据进行编码。
还包括步骤S4:将待分类文本输入收敛的分类模型,得到该待分类文本的分类结果。
所述数据集a和/或待分类文本为文本,包括新闻、文章、文字、作品、小说、通知。
对所述训练集x和训练集y共同进行训练的分类模型为TextCNN文本分类模型。
与现有技术相比,本发明的有益效果:
本发明提出的基于少样本的文本分类方法,将原始少样本的数据进行大量扩充,以增加训练的样本,但并没有增加人工标注,因此一方面解决了少样本训练分类不准确的问题,另一方面也避免了需要人工标注所耗费的人力和时间。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明文本分类方法的流程图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性,或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
本发明通过下述技术方案实现,如图1所示,一种基于少样本的文本分类方法,包括以下步骤:
步骤S1:使用z个翻译工具将数据集a中的每条数据分别翻译z次,以得到扩充后的数据集b。
所述数据集a中包括m类数据,平均每类数据中包括n条数据;使用z个翻译工具将数据集a中m*n条数据分别翻译z次后,得到翻译数据z*m*n条,具有几个翻译工具,就意味着可以将数据翻译为几种语言;扩充后的数据集b包括z*m*n条翻译数据和m*n条数据集a。
作为举例,数据集a中包括两类数据,第一类数据中有2条数据,第二类数据中有4条数据,因此平均每类数据中包括3条数据,那么数据集a中一共有6条数据。
接着使用三个翻译工具,比如中文-英文翻译工具、中文-日本翻译工具、中文-韩文翻译工具,对数据集a中的6条数据分别进行翻译,那么可以得到18条翻译数据。
这18条翻译数据再加上原始的数据集a中的6条数据,则构成数据集b,该数据集b即是本方案对少样本的数据集a进行扩充后的数据集。使用公式可以表达为数据集b=m*n*(z+1),其中m为数据集a的类别数量,n为数据集a平均每类数据中包含的数据条数,z为翻译工具的个数。
再作为举例,假设数据集a中包括1类数据,该类数据中包含1条数据,该条数据为“今天天气真好!”,使用中文-英文、中文-日本、中文-韩文这三个翻译工具对该条数据进行翻译后,得到:
“It's a nice day!”
“今日はいい天気ですね!”
“오늘 날씨 좋다!”
那么翻译后的3条数据再加上原始的数据集a中的一条数据,构成对数据集a扩充后的数据集b。
再作为举例,假设数据集a中包括15类数据,平均每类数据中包含50条数据,则数据集a中总共包含750条数据;使用10个翻译工具对数据集a中的数据分别进行翻译,得到翻译数据7500条数据;最后得到数据集b中的数据有8250条。
可见,本方案对数据集a进行翻译扩充后,即使数据集a是少样本类别,经过扩充后也能得到数据量翻倍的数据集b;并且不需要对数据集a或数据集b进行人工标注,也能用于后续的模型训练,既节省了人力,也节省了时间,大大降低了文本分类的成本。
步骤S2:使用BERT预训练模型对扩充后的数据集b进行编码,得到向量集V。
所述BERT预训练模型是基于双向Transformer的大规模预训练语言模型,该预训练模型能分别捕捉词语和句子级别的表示,高效抽取文本信息,并应用于各种NLP任务。
需要说明的是,本方案所述预训练模型采用BERT预训练模型只是一种较优的实施方式,所述预训练模型还可以使用其他可对语言进行预训练的模型,不过所述BERT预训练模型可以对各种语言(语种)进行训练,因此BERT预训练模型是最优选择。
在步骤S1中使用z个翻译工具对数据集a进行翻译后,会得到z种语言的翻译数据,每个翻译工具对应一个BERT预训练模型,比如在本方案中使用了中文-英文、中文-日本、中文-韩文这三个翻译工具,那么中文-英文翻译工具对应一个BERT预训练模型,中文-日文翻译工具对应一个BERT预训练模型,中文-韩文翻译工具对应一个BERT预训练模型。
接着使用中文-英文翻译工具对应的BERT预训练模型对中文-英文翻译工具翻译了数据集a后的翻译数据进行编码,假设经过对应的BERT预训练模型编码后得到英文语言下的向量V_Eng;使用中文-日文翻译工具对应的BERT预训练模型对中文-日文翻译工具翻译了数据集a后的翻译数据进行编码,假设经过对应的BERT预训练模型编码后得到日文语言下的向量V_Jap;使用中文-韩文翻译工具对应的BERT预训练模型对中文-韩文翻译工具翻译了数据集a后的翻译数据进行编码,假设经过对应的BERT预训练模型编码后得到韩文语言下的向量V_Kor。
还要使用中文对应的BERT预训练模型对数据集a进行编码,假设经过对应的BERT预训练模型编码后得到中文语言下的向量V_Chs。因此,使用各自对应的BERT预训练模型对扩充后的数据集b进行编码后,得到的向量集V即包括向量V_Eng、向量V_Jap、向量V_Kor、向量V_Chs。
步骤S3:将向量集V作为训练集x,将数据集a的标签作为训练集y,使用分类模型对所述训练集x和训练集y共同进行训练,直到得到收敛的分类模型。
本步骤是对通用的分类模型进行训练的过程,对分类模型进行训练的训练集包括训练集x和训练集y,其中:
训练集x=向量V_Eng+向量V_Jap+向量V_Kor+向量V_Chs;
训练集y=数据集a;
所述分类模型使用传统通用的分类模型即可,比如可以使用TxetCNN文本分类模型,将训练集x和训练集y输入该TxetCNN文本分类模型中进行训练,直到模型收敛,即得到收敛的分类模型,完成分类模型训练。
需要说明的是,所述文本分类模型不限于使用TxetCNN文本分类模型,还可以使用一般的逻辑回归模型、svm模型、深度学习的lstm模型及各种相关变体。
步骤S4:将待分类文本输入收敛的分类模型,得到该待分类文本的分类结果。
步骤S3中训练完成的分类模型即可用于实际测试,将待分类文本输入收敛的分类模型后,即可得到该待分类文本的分类结果。
综上所述,本发明提出的基于少样本的文本分类方法,将原始少样本的数据进行大量扩充,以增加训练的样本,但并没有增加人工标注,因此一方面解决了少样本训练分类不准确的问题,另一方面也避免了需要人工标注所耗费的人力和时间。
实施例2:
在实施例1的基础上,本实施例给出示意性的案例:
目前有标注好的金融相关数据作为数据集a,可得知数据集a中包括的类别,即表1中具有9个类别(m=9),一共有数据量873条(n=879/9=97)。在实际使用中,每类数据中包括的数据量不是相等的,因此n为平均每类数据中包括的数据条数。
使用中文-英文、中文-日文、中文-韩文这三种翻译工具对表1中的数据集a进行翻译,得到数据集b=9*97*(3+1)=3492条数据,如表2所示:
使用各翻译工具对应的BERT预训练模型对数据集b进行编码后,得到向量集V,然后将向量集V输入TextCNN分类模型中进行新联直至模型收敛,训练好的模型可用于对待分类文本进行分类。
本实施例其他方案与实施例1相同,故不赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种基于少样本的文本分类方法,其特征在于:包括以下步骤:
步骤S1:使用z个翻译工具将数据集a中的每条数据分别翻译z次,以得到扩充后的数据集b;
步骤S2:使用预训练模型对扩充后的数据集b进行编码,得到向量集V;
步骤S3:将向量集V作为训练集x,将数据集a的标签作为训练集y,将所述训练集x和训练集y共同输入分类模型,对分类模型进行训练,直到得到收敛的分类模型。
2.根据权利要求1所述的一种基于少样本的文本分类方法,其特征在于:在步骤S1中,所述数据集a中包括m类数据,平均每类数据中包括n条数据;
使用z个翻译工具将数据集a中m*n条数据分别翻译z次后,得到翻译数据z*m*n条;扩充后的数据集b包括z*m*n条翻译数据和m*n条数据集a。
3.根据权利要求1所述的一种基于少样本的文本分类方法,其特征在于:所述预训练模型为BERT预训练模型。
4.根据权利要求3所述的一种基于少样本的文本分类方法,其特征在于:分别使用每个翻译工具所对应的BERT预训练模型对各翻译工具翻译后对应的翻译数据进行编码。
5.根据权利要求1所述的一种基于少样本的文本分类方法,其特征在于:还包括步骤S4:将待分类文本输入收敛的分类模型,得到该待分类文本的分类结果。
6.根据权利要求5所述的一种基于少样本的文本分类方法,其特征在于:所述数据集a和/或待分类文本为文本,包括新闻、文章、文字、作品、小说、通知。
7.根据权利要求1所述的一种基于少样本的文本分类方法,其特征在于:对所述训练集x和训练集y共同进行训练的分类模型为TextCNN文本分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110370999.9A CN112765359B (zh) | 2021-04-07 | 2021-04-07 | 一种基于少样本的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110370999.9A CN112765359B (zh) | 2021-04-07 | 2021-04-07 | 一种基于少样本的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765359A true CN112765359A (zh) | 2021-05-07 |
CN112765359B CN112765359B (zh) | 2021-06-18 |
Family
ID=75691220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110370999.9A Active CN112765359B (zh) | 2021-04-07 | 2021-04-07 | 一种基于少样本的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765359B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516196A (zh) * | 2021-07-20 | 2021-10-19 | 云知声智能科技股份有限公司 | 命名实体识别数据增强的方法、装置、电子设备和介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130138430A1 (en) * | 2009-08-14 | 2013-05-30 | Tal Eden | Methods and apparatus to classify text communications |
CN108536756A (zh) * | 2018-03-16 | 2018-09-14 | 苏州大学 | 基于双语信息的情绪分类方法及系统 |
CN111460162A (zh) * | 2020-04-11 | 2020-07-28 | 科技日报社 | 一种文本分类方法、装置、终端设备及计算机可读存储介质 |
CN111723209A (zh) * | 2020-06-28 | 2020-09-29 | 上海携旅信息技术有限公司 | 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质 |
CN112214604A (zh) * | 2020-11-04 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本分类方法、装置及设备 |
CN112463968A (zh) * | 2020-12-11 | 2021-03-09 | 中国工商银行股份有限公司 | 文本分类方法、装置和电子设备 |
CN112597766A (zh) * | 2020-12-29 | 2021-04-02 | 杭州电子科技大学 | 一种基于BERT-base网络的带噪半监督文本分类方法 |
-
2021
- 2021-04-07 CN CN202110370999.9A patent/CN112765359B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130138430A1 (en) * | 2009-08-14 | 2013-05-30 | Tal Eden | Methods and apparatus to classify text communications |
CN108536756A (zh) * | 2018-03-16 | 2018-09-14 | 苏州大学 | 基于双语信息的情绪分类方法及系统 |
CN111460162A (zh) * | 2020-04-11 | 2020-07-28 | 科技日报社 | 一种文本分类方法、装置、终端设备及计算机可读存储介质 |
CN111723209A (zh) * | 2020-06-28 | 2020-09-29 | 上海携旅信息技术有限公司 | 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质 |
CN112214604A (zh) * | 2020-11-04 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本分类方法、装置及设备 |
CN112463968A (zh) * | 2020-12-11 | 2021-03-09 | 中国工商银行股份有限公司 | 文本分类方法、装置和电子设备 |
CN112597766A (zh) * | 2020-12-29 | 2021-04-02 | 杭州电子科技大学 | 一种基于BERT-base网络的带噪半监督文本分类方法 |
Non-Patent Citations (1)
Title |
---|
徐彤彤 等: "基于双向长效注意力特征表达的少样本文本分类", 《数据分析与知识发现》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516196A (zh) * | 2021-07-20 | 2021-10-19 | 云知声智能科技股份有限公司 | 命名实体识别数据增强的方法、装置、电子设备和介质 |
CN113516196B (zh) * | 2021-07-20 | 2024-04-12 | 云知声智能科技股份有限公司 | 命名实体识别数据增强的方法、装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112765359B (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN110298033B (zh) | 关键词语料标注训练提取系统 | |
KR20210116379A (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN107977362B (zh) | 一种用于中文文本定级以及计算中文文本难度评分的方法 | |
CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN109325112A (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN112395858B (zh) | 融合试题数据和解答数据的多知识点标注方法和系统 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
González-Corbelle et al. | Dealing with hallucination and omission in neural Natural Language Generation: A use case on meteorology. | |
CN113282701B (zh) | 作文素材生成方法、装置、电子设备及可读存储介质 | |
CN112541337A (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
Fauziah et al. | Lexicon Based Sentiment Analysis in Indonesia Languages: A Systematic Literature Review | |
Chen et al. | Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network | |
CN116151220A (zh) | 分词模型训练方法、分词处理方法和装置 | |
CN109190099A (zh) | 句模提取方法及装置 | |
CN112765359B (zh) | 一种基于少样本的文本分类方法 | |
CN113609840B (zh) | 一种汉语法律判决摘要生成方法及系统 | |
CN114118113A (zh) | 一种基于语境识别的机器翻译方法 | |
Van Enschot et al. | Taming our wild data: On intercoder reliability in discourse research | |
Park et al. | Automatic analysis of thematic structure in written English |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |