CN111104510A - 一种基于词嵌入的文本分类训练样本扩充方法 - Google Patents
一种基于词嵌入的文本分类训练样本扩充方法 Download PDFInfo
- Publication number
- CN111104510A CN111104510A CN201911119076.5A CN201911119076A CN111104510A CN 111104510 A CN111104510 A CN 111104510A CN 201911119076 A CN201911119076 A CN 201911119076A CN 111104510 A CN111104510 A CN 111104510A
- Authority
- CN
- China
- Prior art keywords
- text
- training
- words
- keyword
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于词嵌入的文本分类训练样本扩充方法,包括如下步骤:从小样本类中获取关键词,形成关键词集合;将非小样本类的所有文本分词,随机抽掉一半的词,并从关键词集合中有放回地随机选取相应数量的词,替换非小样本类文本中被抽掉的词,形成新的语段;用文本相似度计算新语段与已知训练样本的K最近邻;将经过K最近邻分类后归为小样本类的新语段筛选出来,与文本分类训练样本集合并,形成扩充后的训练样本集。本发明利用文本外的词来扩展已有的训练样本,使得新增样本中的词的表达更具丰富性;利用K最近邻文本分类将基于词嵌入所生成的候选样本进行筛选,剔除掉错误的候选训练样本,获得可用训练样本,达到扩充训练样本的目的。
Description
技术领域
本发明涉及文本数据处理技术领域,尤其是一种基于词嵌入的文本分类训练样本扩充方法。
背景技术
虽然文本分类在过去的几十年中取得了很大的成绩,已在许多领域成功应用。但文本分类仍然面临着诸多问题,如:机器学习方法中的高维稀疏问题,样本不均衡问题,分类器效率等。因此,文本分类领域依然是一个亟待研究和突破的重点领域。
文本分类是一种典型的有监督学习问题,有监督学习面临的一个主要问题就是需要通过大量的人工标记的训练样本来进行学习。然而在实际应用中,获得有标签的训练样本通常需要耗费巨大的人力物力,这就是所谓的“标注瓶颈”。因此,有监督学习所能获得的有标签的训练样本往往是有限的,它表现为训练样本的数量有限,以及训练样本所包含的信息不足。由于有限(数量和分布信息有限)的训练样本不能很好地刻画出数据的总体分布特性,因而导致学习得到的分类器泛化能力差,这就是所谓的“小样本”问题。
目前,针对小样本的解决方案主要分两大类,一是通过分类器算法提高分类效率,二是通过简单的样本扩充方式提供分类效率。简单的样本扩充方式主要包括:随机打乱训练样本、随机给训练样本插入额外词以此增加训练样本噪声,发挥一定程度的分类泛化能力。但不管是提高分类器算法能力还是简单样本扩充都未能很好的解决小样本问题,因此还需深入研究以求缓解该问题。
发明内容
本发明所要解决的技术问题在于,提供一种基于词嵌入的文本分类训练样本扩充方法,能够获得高概率的可用训练样本,达到扩充训练样本的目的。
为解决上述技术问题,本发明提供一种基于词嵌入的文本分类训练样本扩充方法,包括如下步骤:
(1)从小样本类中获取关键词,形成关键词集合;
(2)将非小样本类的所有文本分词,随机抽掉一半的词,并从关键词集合中有放回地随机选取相应数量的词,替换非小样本类文本中被抽掉的词,形成新的语段;
(3)用文本相似度计算新语段与已知训练样本的K最近邻;
(4)将经过K最近邻分类后归为小样本类的新语段筛选出来,与文本分类训练样本集合并,形成扩充后的训练样本集。
优选的,步骤(1)中,小样本类中每篇文本的自动关键词抽取包括有监督、半监督和无监督三大类;有监督方法,将关键词抽取看做是二元分类问题,判断文本中的词或短语是或不是关键词,提供已经标注关键词的训练语料,利用训练语料训练关键词抽取模型,利用得到的模型对需要抽取关键词的文本进行自动关键词抽取;半监督方法,只需要少量的训练语料,利用这些语料训练抽取模型,利用模型进行未标注文本的关键词抽取,人工对抽取结果进行甄别,将正确的标注加到训练语料中再训练模型;无监督方法,利用抽取系统完成文本或文本集合的自动关键词抽取,自动关键词抽取方法有:TFIDF、LDA主题词、图网络、深度学习。
优选的,步骤(2)中,分词算法分为以下几种:基于词典、基于统计以及基于深度学习的语义理解中文分词。
优选的,步骤(3)中,文本相似度计算方法包括:基于字符串的方法、基于语料库的方法、基于知识库的方法和混合方法。由于K最近邻方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,K最近邻方法较其他方法更为适合。
本发明的有益效果为:本发明利用文本外的词来扩展已有的训练样本,使得新增样本中的词的表达更具丰富性;利用K最近邻文本分类将基于词嵌入所生成的候选样本进行筛选,剔除掉无关的、错误的候选训练样本,获得高概率的可用训练样本,达到扩充训练样本的目的。
附图说明
图1为本发明的方法流程示意图。
图2为本发明基于PositionRank算法的关键词抽取示意图。
图3为本发明K最近邻算法分类新语段示意图。
具体实施方式
一种基于词嵌入的文本分类训练样本扩充方法,包括如下步骤:
第一步,获取小样本关键词,构建小样本关键词集合。如图1所示,文本分类训练样本集分为小样本类和非小样本类。小样本类经过关键词提取获得关键词集合。本实施例中,获取关键词的方法采用PositionRank算法。PositionRank提取关键词算法与TextRank算法相似,都是基于PageRank的图关系计算词的得分。用表示词的重要性得分,其公式如下:
其中,α表示阻尼因子,一般设为0.75;w表示图的边的权重,即词之间的相似度;O(vj)表示词vj所有出向边的权重和。词的初始得分跟词在文本中的位置成反比,跟词频成正比:
如图2所示,一篇文本分词后,得到A、B、C、D、E、F 6个词,经过PositionRank算法后,A、B、C、D、E、F各词的权重分别为0.025、0.34、0.12、0.036、0.032、0.047,然后从该篇文本选3个关键词,得到权重靠前的3个关键词:B、C、F。实施中,每一篇文本所选取的关键词个数与文本自身长度n有关,用f(n)表示文本需要选取的关键词个数,其表达式如下:
第二步,将非小样本类的所有文本分词,随机抽掉一半的词,并从小样本关键词集合中有放回地随机选取相应数量的词,替换非小样本类文本中被抽掉的词,形成新的语段。分词算法采用中科院的ICTCLAS中文分词实现。
第三步,用文本相似度计算新语段与已知训练样本的K最近邻。两文本相似度采用DSSM模型计算。DSSM(Deep Structured Semantic Models)的原理是,通过搜索引擎里查询和标题的海量的点击曝光日志,用DNN(深度神经网络)把查询和标题表达为低维语义向量,并通过余弦距离来计算两个语义向量的距离,最终训练出语义相似度模型该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低纬语义向量表达。
如图3所示,K最近邻算法分类新语段所示,训练样本集包括3个类别:类1、类2、类3,在K=5时,与待分类新语段最相似的前5个类分别是类1、类1、类1、类2和类3,由于类1数量最多,所以把待分类新语段归为类1。实施中,K的个数与小样本量有关,设定其中λ∈(0,1]是一个超参数,根据经验来设定,符号表示下界取整,如
第四步,将经过K最近邻分类后归为小样本类的新语段筛选出来,与文本分类训练样本集合并,形成扩充后的训练样本集。
实施中发现,基于词嵌入的文本分类训练样本扩充方法能有效提升小样本情况下的分类准确性,在本实施例中的实验语料下,调和平均值F1比直接采用TextCNN文本分类方法可提高约8%。本实施例中的实验语料为复旦文本分类语料库,该语料库总共包含2815篇文本,其中政治类505篇,艺术类248篇,医药类204篇,体育类450篇,军事类249篇,经济类325篇,教育类220篇,交通类214篇,计算机类200篇,环境类200篇。实验时时通过多次交叉验证得到F1值。举个例子,以政治类为例,实验时,从政治类中随机选取100篇作为小样本,余下的405篇作为待预测样本,政治外的其他类当作大样本。分别直接采用TextCNN和通过本实施方案扩充样本后采用TextCNN来预测405篇待预测样本,得到对应的预测F1值,可见F1值在本实施方案扩充样本后可提高约8%。
Claims (4)
1.一种基于词嵌入的文本分类训练样本扩充方法,其特征在于,包括如下步骤:
(1)从小样本类中获取关键词,形成关键词集合;
(2)将非小样本类的所有文本分词,随机抽掉一半的词,并从关键词集合中有放回地随机选取相应数量的词,替换非小样本类文本中被抽掉的词,形成新的语段;
(3)用文本相似度计算新语段与已知训练样本的K最近邻;
(4)将经过K最近邻分类后归为小样本类的新语段筛选出来,与文本分类训练样本集合并,形成扩充后的训练样本集。
2.如权利要求1所述的基于词嵌入的文本分类训练样本扩充方法,其特征在于,步骤(1)中,小样本类中每篇文本的自动关键词抽取包括有监督、半监督和无监督三大类;有监督方法,将关键词抽取看做是二元分类问题,判断文本中的词或短语是或不是关键词,提供已经标注关键词的训练语料,利用训练语料训练关键词抽取模型,利用得到的模型对需要抽取关键词的文本进行自动关键词抽取;半监督方法,只需要少量的训练语料,利用这些语料训练抽取模型,利用模型进行未标注文本的关键词抽取,人工对抽取结果进行甄别,将正确的标注加到训练语料中再训练模型;无监督方法,利用抽取系统完成文本或文本集合的自动关键词抽取,自动关键词抽取方法有:TFIDF、LDA主题词、图网络、深度学习。
3.如权利要求1所述的基于词嵌入的文本分类训练样本扩充方法,其特征在于,步骤(2)中,分词算法分为以下几种:基于词典、基于统计以及基于深度学习的语义理解中文分词。
4.如权利要求1所述的基于词嵌入的文本分类训练样本扩充方法,其特征在于,步骤(3)中,文本相似度计算方法包括:基于字符串的方法、基于语料库的方法、基于知识库的方法和混合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911119076.5A CN111104510B (zh) | 2019-11-15 | 2019-11-15 | 一种基于词嵌入的文本分类训练样本扩充方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911119076.5A CN111104510B (zh) | 2019-11-15 | 2019-11-15 | 一种基于词嵌入的文本分类训练样本扩充方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111104510A true CN111104510A (zh) | 2020-05-05 |
CN111104510B CN111104510B (zh) | 2023-05-09 |
Family
ID=70420852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911119076.5A Active CN111104510B (zh) | 2019-11-15 | 2019-11-15 | 一种基于词嵌入的文本分类训练样本扩充方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104510B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914253A (zh) * | 2020-08-10 | 2020-11-10 | 中国海洋大学 | 一种入侵检测的方法、系统、设备及可读存储介质 |
CN112000807A (zh) * | 2020-09-07 | 2020-11-27 | 辽宁国诺科技有限公司 | 一种建议提案精确分类方法 |
CN112183096A (zh) * | 2020-08-21 | 2021-01-05 | 南京中新赛克科技有限责任公司 | 基于无监督模型与状态感知机的命名实体抽取系统及方法 |
CN113590764A (zh) * | 2021-09-27 | 2021-11-02 | 智者四海(北京)技术有限公司 | 训练样本构建方法、装置、电子设备和存储介质 |
CN113743096A (zh) * | 2020-05-27 | 2021-12-03 | 南京大学 | 一种基于自然语言处理的众包测试报告相似度检测的方法 |
CN113779959A (zh) * | 2021-08-31 | 2021-12-10 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 小样本文本数据混合增强方法 |
CN114724162A (zh) * | 2022-03-15 | 2022-07-08 | 平安科技(深圳)有限公司 | 文本识别模型的训练方法、装置、计算机设备及存储介质 |
CN115168600A (zh) * | 2022-06-23 | 2022-10-11 | 广州大学 | 一种个性化定制下的价值链知识发现方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1535433A (zh) * | 2001-07-04 | 2004-10-06 | 库吉萨姆媒介公司 | 基于分类的可扩展交互式文档检索系统 |
CN105426426A (zh) * | 2015-11-04 | 2016-03-23 | 北京工业大学 | 一种基于改进的K-Medoids的KNN文本分类方法 |
CN108804512A (zh) * | 2018-04-20 | 2018-11-13 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN109299276A (zh) * | 2018-11-15 | 2019-02-01 | 阿里巴巴集团控股有限公司 | 一种将文本转化为词嵌入、文本分类方法和装置 |
-
2019
- 2019-11-15 CN CN201911119076.5A patent/CN111104510B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1535433A (zh) * | 2001-07-04 | 2004-10-06 | 库吉萨姆媒介公司 | 基于分类的可扩展交互式文档检索系统 |
CN105426426A (zh) * | 2015-11-04 | 2016-03-23 | 北京工业大学 | 一种基于改进的K-Medoids的KNN文本分类方法 |
CN108804512A (zh) * | 2018-04-20 | 2018-11-13 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN109299276A (zh) * | 2018-11-15 | 2019-02-01 | 阿里巴巴集团控股有限公司 | 一种将文本转化为词嵌入、文本分类方法和装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743096A (zh) * | 2020-05-27 | 2021-12-03 | 南京大学 | 一种基于自然语言处理的众包测试报告相似度检测的方法 |
CN111914253A (zh) * | 2020-08-10 | 2020-11-10 | 中国海洋大学 | 一种入侵检测的方法、系统、设备及可读存储介质 |
CN111914253B (zh) * | 2020-08-10 | 2022-05-17 | 中国海洋大学 | 一种入侵检测的方法、系统、设备及可读存储介质 |
CN112183096A (zh) * | 2020-08-21 | 2021-01-05 | 南京中新赛克科技有限责任公司 | 基于无监督模型与状态感知机的命名实体抽取系统及方法 |
CN112000807A (zh) * | 2020-09-07 | 2020-11-27 | 辽宁国诺科技有限公司 | 一种建议提案精确分类方法 |
CN113779959A (zh) * | 2021-08-31 | 2021-12-10 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 小样本文本数据混合增强方法 |
CN113590764A (zh) * | 2021-09-27 | 2021-11-02 | 智者四海(北京)技术有限公司 | 训练样本构建方法、装置、电子设备和存储介质 |
CN114724162A (zh) * | 2022-03-15 | 2022-07-08 | 平安科技(深圳)有限公司 | 文本识别模型的训练方法、装置、计算机设备及存储介质 |
CN115168600A (zh) * | 2022-06-23 | 2022-10-11 | 广州大学 | 一种个性化定制下的价值链知识发现方法 |
CN115168600B (zh) * | 2022-06-23 | 2023-07-11 | 广州大学 | 一种个性化定制下的价值链知识发现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111104510B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104510B (zh) | 一种基于词嵌入的文本分类训练样本扩充方法 | |
CN109783818B (zh) | 一种企业行业分类方法 | |
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN111046179B (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
CN110175246B (zh) | 一种从视频字幕中提取概念词的方法 | |
CN105389379A (zh) | 一种基于文本分布式特征表示的垃圾稿件分类方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN111859961B (zh) | 一种基于改进TopicRank算法的文本关键词抽取方法 | |
CN106844349A (zh) | 基于协同训练的垃圾评论识别方法 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN110188195A (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN112860889A (zh) | 一种基于bert的多标签分类方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
Patel et al. | Dynamic lexicon generation for natural scene images | |
CN111506728A (zh) | 基于hd-mscnn的层次结构文本自动分类框架 | |
Helmy et al. | Applying deep learning for Arabic keyphrase extraction | |
CN114970523B (zh) | 一种基于文本语义增强的主题提示式关键词提取方法 | |
CN114970536A (zh) | 一种分词、词性标注和命名实体识别的联合词法分析方法 | |
Tegegnie et al. | A comparative study of flat and hierarchical classification for amharic news text using svm | |
Li et al. | bi-hptm: An effective semantic matchmaking model for web service discovery | |
Liu | Automatic argumentative-zoning using word2vec | |
Mars et al. | Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |