CN111104510A

CN111104510A - 一种基于词嵌入的文本分类训练样本扩充方法

Info

Publication number: CN111104510A
Application number: CN201911119076.5A
Authority: CN
Inventors: 卓可秋
Original assignee: NANJING SINOVATIO TECHNOLOGY CO LTD
Current assignee: NANJING SINOVATIO TECHNOLOGY CO LTD
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-05-05
Anticipated expiration: 2039-11-15
Also published as: CN111104510B

Abstract

本发明公开了一种基于词嵌入的文本分类训练样本扩充方法，包括如下步骤：从小样本类中获取关键词，形成关键词集合；将非小样本类的所有文本分词，随机抽掉一半的词，并从关键词集合中有放回地随机选取相应数量的词，替换非小样本类文本中被抽掉的词，形成新的语段；用文本相似度计算新语段与已知训练样本的K最近邻；将经过K最近邻分类后归为小样本类的新语段筛选出来，与文本分类训练样本集合并，形成扩充后的训练样本集。本发明利用文本外的词来扩展已有的训练样本，使得新增样本中的词的表达更具丰富性；利用K最近邻文本分类将基于词嵌入所生成的候选样本进行筛选，剔除掉错误的候选训练样本，获得可用训练样本，达到扩充训练样本的目的。

Description

一种基于词嵌入的文本分类训练样本扩充方法

技术领域

本发明涉及文本数据处理技术领域，尤其是一种基于词嵌入的文本分类训练样本扩充方法。

背景技术

虽然文本分类在过去的几十年中取得了很大的成绩，已在许多领域成功应用。但文本分类仍然面临着诸多问题，如：机器学习方法中的高维稀疏问题，样本不均衡问题，分类器效率等。因此，文本分类领域依然是一个亟待研究和突破的重点领域。

文本分类是一种典型的有监督学习问题，有监督学习面临的一个主要问题就是需要通过大量的人工标记的训练样本来进行学习。然而在实际应用中，获得有标签的训练样本通常需要耗费巨大的人力物力，这就是所谓的“标注瓶颈”。因此，有监督学习所能获得的有标签的训练样本往往是有限的，它表现为训练样本的数量有限，以及训练样本所包含的信息不足。由于有限(数量和分布信息有限)的训练样本不能很好地刻画出数据的总体分布特性，因而导致学习得到的分类器泛化能力差，这就是所谓的“小样本”问题。

目前，针对小样本的解决方案主要分两大类，一是通过分类器算法提高分类效率，二是通过简单的样本扩充方式提供分类效率。简单的样本扩充方式主要包括：随机打乱训练样本、随机给训练样本插入额外词以此增加训练样本噪声，发挥一定程度的分类泛化能力。但不管是提高分类器算法能力还是简单样本扩充都未能很好的解决小样本问题，因此还需深入研究以求缓解该问题。

发明内容

本发明所要解决的技术问题在于，提供一种基于词嵌入的文本分类训练样本扩充方法，能够获得高概率的可用训练样本，达到扩充训练样本的目的。

为解决上述技术问题，本发明提供一种基于词嵌入的文本分类训练样本扩充方法，包括如下步骤：

(1)从小样本类中获取关键词，形成关键词集合；

(2)将非小样本类的所有文本分词，随机抽掉一半的词，并从关键词集合中有放回地随机选取相应数量的词，替换非小样本类文本中被抽掉的词，形成新的语段；

(3)用文本相似度计算新语段与已知训练样本的K最近邻；

(4)将经过K最近邻分类后归为小样本类的新语段筛选出来，与文本分类训练样本集合并，形成扩充后的训练样本集。

优选的，步骤(1)中，小样本类中每篇文本的自动关键词抽取包括有监督、半监督和无监督三大类；有监督方法，将关键词抽取看做是二元分类问题，判断文本中的词或短语是或不是关键词，提供已经标注关键词的训练语料，利用训练语料训练关键词抽取模型，利用得到的模型对需要抽取关键词的文本进行自动关键词抽取；半监督方法，只需要少量的训练语料，利用这些语料训练抽取模型，利用模型进行未标注文本的关键词抽取，人工对抽取结果进行甄别，将正确的标注加到训练语料中再训练模型；无监督方法，利用抽取系统完成文本或文本集合的自动关键词抽取，自动关键词抽取方法有：TFIDF、LDA主题词、图网络、深度学习。

优选的，步骤(2)中，分词算法分为以下几种：基于词典、基于统计以及基于深度学习的语义理解中文分词。

优选的，步骤(3)中，文本相似度计算方法包括：基于字符串的方法、基于语料库的方法、基于知识库的方法和混合方法。由于K最近邻方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，K最近邻方法较其他方法更为适合。

本发明的有益效果为：本发明利用文本外的词来扩展已有的训练样本，使得新增样本中的词的表达更具丰富性；利用K最近邻文本分类将基于词嵌入所生成的候选样本进行筛选，剔除掉无关的、错误的候选训练样本，获得高概率的可用训练样本，达到扩充训练样本的目的。

附图说明

图1为本发明的方法流程示意图。

图2为本发明基于PositionRank算法的关键词抽取示意图。

图3为本发明K最近邻算法分类新语段示意图。

具体实施方式

一种基于词嵌入的文本分类训练样本扩充方法，包括如下步骤：

第一步，获取小样本关键词，构建小样本关键词集合。如图1所示，文本分类训练样本集分为小样本类和非小样本类。小样本类经过关键词提取获得关键词集合。本实施例中，获取关键词的方法采用PositionRank算法。PositionRank提取关键词算法与TextRank算法相似，都是基于PageRank的图关系计算词的得分。用表示词的重要性得分，其公式如下：

其中，α表示阻尼因子，一般设为0.75；w表示图的边的权重，即词之间的相似度；O(v_j)表示词v_j所有出向边的权重和。词的初始得分跟词在文本中的位置成反比，跟词频成正比：

假定词v在文本的第2、第3、第8位置出现，则

如图2所示，一篇文本分词后，得到A、B、C、D、E、F 6个词，经过PositionRank算法后，A、B、C、D、E、F各词的权重分别为0.025、0.34、0.12、0.036、0.032、0.047，然后从该篇文本选3个关键词，得到权重靠前的3个关键词：B、C、F。实施中，每一篇文本所选取的关键词个数与文本自身长度n有关，用f(n)表示文本需要选取的关键词个数，其表达式如下：

第二步，将非小样本类的所有文本分词，随机抽掉一半的词，并从小样本关键词集合中有放回地随机选取相应数量的词，替换非小样本类文本中被抽掉的词，形成新的语段。分词算法采用中科院的ICTCLAS中文分词实现。

第三步，用文本相似度计算新语段与已知训练样本的K最近邻。两文本相似度采用DSSM模型计算。DSSM(Deep Structured Semantic Models)的原理是，通过搜索引擎里查询和标题的海量的点击曝光日志，用DNN(深度神经网络)把查询和标题表达为低维语义向量，并通过余弦距离来计算两个语义向量的距离，最终训练出语义相似度模型该模型既可以用来预测两个句子的语义相似度，又可以获得某句子的低纬语义向量表达。

如图3所示，K最近邻算法分类新语段所示，训练样本集包括3个类别：类1、类2、类3，在K＝5时，与待分类新语段最相似的前5个类分别是类1、类1、类1、类2和类3，由于类1数量最多，所以把待分类新语段归为类1。实施中，K的个数与小样本量有关，设定

其中λ∈(0,1]是一个超参数，根据经验来设定，符号

表示下界取整，如

第四步，将经过K最近邻分类后归为小样本类的新语段筛选出来，与文本分类训练样本集合并，形成扩充后的训练样本集。

实施中发现，基于词嵌入的文本分类训练样本扩充方法能有效提升小样本情况下的分类准确性，在本实施例中的实验语料下，调和平均值F1比直接采用TextCNN文本分类方法可提高约8％。本实施例中的实验语料为复旦文本分类语料库，该语料库总共包含2815篇文本，其中政治类505篇，艺术类248篇，医药类204篇，体育类450篇，军事类249篇，经济类325篇，教育类220篇，交通类214篇，计算机类200篇，环境类200篇。实验时时通过多次交叉验证得到F1值。举个例子，以政治类为例，实验时，从政治类中随机选取100篇作为小样本，余下的405篇作为待预测样本，政治外的其他类当作大样本。分别直接采用TextCNN和通过本实施方案扩充样本后采用TextCNN来预测405篇待预测样本，得到对应的预测F1值，可见F1值在本实施方案扩充样本后可提高约8％。

Claims

1.一种基于词嵌入的文本分类训练样本扩充方法，其特征在于，包括如下步骤：

(1)从小样本类中获取关键词，形成关键词集合；

(3)用文本相似度计算新语段与已知训练样本的K最近邻；

2.如权利要求1所述的基于词嵌入的文本分类训练样本扩充方法，其特征在于，步骤(1)中，小样本类中每篇文本的自动关键词抽取包括有监督、半监督和无监督三大类；有监督方法，将关键词抽取看做是二元分类问题，判断文本中的词或短语是或不是关键词，提供已经标注关键词的训练语料，利用训练语料训练关键词抽取模型，利用得到的模型对需要抽取关键词的文本进行自动关键词抽取；半监督方法，只需要少量的训练语料，利用这些语料训练抽取模型，利用模型进行未标注文本的关键词抽取，人工对抽取结果进行甄别，将正确的标注加到训练语料中再训练模型；无监督方法，利用抽取系统完成文本或文本集合的自动关键词抽取，自动关键词抽取方法有：TFIDF、LDA主题词、图网络、深度学习。

3.如权利要求1所述的基于词嵌入的文本分类训练样本扩充方法，其特征在于，步骤(2)中，分词算法分为以下几种：基于词典、基于统计以及基于深度学习的语义理解中文分词。

4.如权利要求1所述的基于词嵌入的文本分类训练样本扩充方法，其特征在于，步骤(3)中，文本相似度计算方法包括：基于字符串的方法、基于语料库的方法、基于知识库的方法和混合方法。