CN108897769A

CN108897769A - 基于生成式对抗网络实现文本分类数据集扩展方法

Info

Publication number: CN108897769A
Application number: CN201810531534.5A
Authority: CN
Inventors: 崔晓晖; 田斐菡; 杨威; 关景; 曹佳敏; 唐艺豪; 李启琛
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-11-27

Abstract

本发明公开了一种基于生成式对抗网络实现文本分类数据集扩展方法，该方法包括以下步骤：确定需要进行数据扩展的原始数据类别；对相应数据进行预处理，使用word2vec与TFIDF将数据表示成词向量矩阵的形式；使用生成式对抗网路生成扩展的矩阵向量，将原数据的矩阵向量与扩展的矩阵向量合并即实现对数据集的扩展。本发明方法通过扩展稀有类别的数据，有利于研究者对难以获得的数据集进行扩展，提高稀有类别数据的分类精度，方便科学研究。

Description

基于生成式对抗网络实现文本分类数据集扩展方法

技术领域

本发明涉及大数据分析技术，尤其涉及一种基于生成式对抗网络实现文本分类数据集扩展方法。

背景技术

随着互联网的高速发展，网络上的信息量呈指数形式增长，其中非结构化文本数据所占比率最大，如何从纷繁的文本数据中挖掘用户感兴趣的信息变得日益重要。文本分类是网络文本数据挖掘的基础，分类结果是好是坏直接影响文本数据挖掘效果，因此如何构建正确率高的文本分类算法是网络信息数据挖掘研究中的重点。

针对文本分类问题，国内外学者和专家投入了大量的时间和精力，进行了深入的研究。一般进行分类有两种方法：人工分类和自动分类。人工分类就是依靠人力对文本进行类别的划分，这种方法费时费力，不过人工分类的一个优点是准确率一般可以得到保证。另一种方法是自动分类，通过计算机采用一定的算法进行自动文本分类，分类复杂度降低，效率大大提高，但是准确率依赖于算法的好坏。

目前最著名的机器学习数据库是由美国加州大学的Irvine分校维护的UCI数据库，其中有各国研究者贡献的在不同时期从不同应用领域收集的数据集。数据集的收集有时是代价昂贵的(如核实验)，有时则是样本稀少的(如航空飞机的着陆控制数据集)，有时则由于涉及个人隐私而难以获得，有时则包含有缺值。因此，数据集是所有研究者共享的宝贵财富。

由于信息资源分布的特点，有些类别的信息明显匮乏，称为稀有类别，这些类别的信息资源有限，导致训练集中稀有类别的文本数量无法和普通类别相比。在现有的文本自动分类技术中，参与分类的各个类别在分类过程中都是平等的，并不会因为某个类是稀有类别就在分类时区别对待。这样，分类时貌似公平的处理在实际应用中其实有着一定程度的不公平。如何相对公平地对待稀有类别，提高稀有类别的分类精度，成为分类过程中需要迫切解决的一个问题。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于生成式对抗网络实现文本分类数据集扩展方法。

本发明解决其技术问题所采用的技术方案是：一种基于生成式对抗网络实现文本分类数据集扩展方法，包括以下步骤：

1)将文本数据集转化为词向量表示；

获取待扩展的文本分类数据集，对数据集中的文本进行特征词提取，用词向量表示特征词，获取特征词的词向量矩阵；

2)利用生成式对抗网络生成文本数据扩展数据集，将步骤1)获得的特征词词向量矩阵作为生成式对抗网络的输入，输出生成的文本数据，获得扩展数据集；

2.1)将步骤1得到的词向量矩阵作为生成式对抗网络的输入，经训练后输出设定数目的模拟数据，输出格式为词向量矩阵；

2.2)将待扩展的文本分类数据与经数据扩展得到的扩展数据合并为新的数据，经过生成式对抗网络得到词向量表现形式的矩阵，即是模拟的该类别下的扩展数据，将原始数据与扩展数据合并，即能满足需要的数据量要求。

按上述方案，所述步骤2.1)中生成式对抗网络如下：

代价函数：

可微分函数D表示判别器，G表示生成器,判别器输入为真实数据x，生成器的输入为随机变量z，G(z)则为由G生成的尽量服从真实数据分布pdata的样本；这里D的目标是实现对数据来源的二分类判别:真，若来源于真实数据x的分布；或者伪，若来源于生成器的伪数据G(z)；而G的目标是使自己生成的伪数据G(z)在D上的表现D(G(z))和真实数据x在D上的表现D(x)一致,这两个相互对抗并迭代优化的过程使得D和G的性能不断提升,当最终D的判别能力提升到一定程度,并且无法正确判别数据来源时,认为这个生成器G已经学到了真实数据的分布，用于生成模拟数据。

按上述方案，所述步骤1)中对数据集中的文本进行特征词提取，用词向量表示特征词，获取特征词词向量矩阵的方法具体如下：

步骤1.1)对数据进行预处理，所述预处理包括：去掉链接、标点符号和停用词以及分词处理；

步骤1.2)使用维基百科中文语料库，利用FastText开源工具训练word2vec词向量；

步骤1.3)基于TF-IDF，对获取的所有微博数据进行特征值提取；

步骤1.4)基于TF-IDF，计算每一条数据的TFIDF矩阵；

步骤1.5)对每一条数据的TFIDF矩阵进行检查，如果某个特征词的TFIDF值为0，基于词向量提取特征词相似度高于85％的相近词，相近词按照相似度排列的集合为(C₁，C2…Ck)，依据相似度从高到低计算其TFIDF值，使用相似度最高且TFIDF值不为0的相近词替换该特征词，如果所有相近词TFIDF值都为0，就用0向量替换。如果某个特征词的TFIDF值不为0，则不用替换该特征词；

步骤1.6)将每一个特征值换成词向量表示，形成一个由词向量组成的矩阵。

按上述方案，所述步骤1)中获取待扩展的文本分类数据集的具体步骤如下：

统计分类问题中各个类别数据集数量，获得数据集较少的类别作为待扩展的文本分类数据集的类别；

针对研究问题，确定所有数据集类别；

对每个类别数据数量进行统计,获得统计后的数据量较小的类别。

本发明产生的有益效果是：

1.通过将文本数据表示成词向量矩阵可以直接获得标准化的数据集；

2.通过扩展稀有类别的数据，有利于研究者对难以获得的数据集进行扩展，提高稀有类别数据的分类精度，方便科学研究。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供了一种基于生成式对抗网络实现文本分类数据集扩展方法，

本发明方法对所有的文本分类都是可行的，但是为了方便表达，我们以扩展微博用户兴趣分类的数据集为实例进行阐述。

根据对大型门户网站新闻类型的统计与筛选，我们假设新闻类别与微博用户的兴趣类别是一样，确定微博用户兴趣类别。

将特征化的微博用户文本数据集转化为词向量表示，作为生成式对抗网络的输入，输出为生成的文本数据，输出形式为向量矩阵。包括以下几个步骤：

步骤1)确定需要扩展的类别数据：统计数据集中各类数据集数量，将数量较少的类别数据作为待处理类别数据。

步骤1.1)确定数据来源于微博，确定数据集类别，将所有的微博内容类别划分为社会、财经、娱乐、体育、文化、教育、时尚、汽车、科技、宗教、游戏、政治、儿童、国际、军事、情感、健康17类，基于类别标签对数据集进行人工标注；

步骤1.2)基于步骤1.1，对每个类别数据数量进行统计，获得数量较少的数据类别；

假设经统计得到的结果是类别宗教和军事的数据量较小，则接下来对宗教与军事类数据进行处理；

步骤2)根据宗教与军事类数据，获取词向量矩阵；

步骤2.1)对数据进行预处理，所述预处理包括：去掉链接、标点符号和停用词，分词处理等；

由于微博中经常涉及到转发，爬取的信息得到的就是转发的链接，但是我们只是对原始信息进行分析，所以需要去除链接；去标点和停用词是为了剔除对信息无用的信息；我们获取的微博信息是短句子，但是现在的自然语言处理都是对句子中的词语进行处理，所以分词是预处理的一部分，在这个例子中，我们处理中文文本，所以使用成熟的中文分词器结巴分词。

步骤2.2)基于TF-IDF，对每一条宗教与军事类微博信息进行特征词提取；(TFIDF值计算)

特征词是文本中具有代表性的词语，一般通过词出现的频率TF和这个词在其他文档中不出现的逆频率IDF表现。

TF-IDF算法及公式说明如下：

公式分成两项，TFIDF＝TF*IDF，词频(TF)＝某个词在文章中的出现次数；逆文档词频(IDF)＝log(语料库的文档总数/(包含该词的文档数+1))；

步骤2.3)使用维基百科中文语料库，利用FastText开源工具训练word2vec词向量，将获得的特征词用词向量进行表示；

word2vec的思想是将每一个词映射为一个向量，例如开心可以用(0，1，3，4，1，3)来表示；

步骤2.4)基于TF-IDF，计算每一条微博数据的TFIDF矩阵；

基于步骤2.2)计算出每条微博分词后词语的TFIDF值，按TFIDF值从高到低取前5个词语作为每条微博的特征值，所有数据形成TFIDF矩阵。

步骤2.5)将每一个特征词换成词向量表示，形成一个由词向量组成的矩阵；

步骤3)数据库扩展，采用生成式对抗网络对输入数据进行扩展。

步骤3.1)将步骤2)得到的词向量矩阵作为生成式对抗网络的输入，经训练后输出需要数目的模拟数据，输出格式为词向量矩阵；

生成式对抗网络的原理如下：

代价函数：

可微分函数D和G分别表示判别器和生成器,它们的输入分别为真实数据x和随机变量z.G(z)则为由G生成的尽量服从真实数据分布pdata的样本。这里D的目标是实现对数据来源的二分类判别:真(来源于真实数据x的分布)或者伪(来源于生成器的伪数据G(z)),而G的目标是使自己生成的伪数据G(z)在D上的表现D(G(z))和真实数据x在D上的表现D(x)一致,这两个相互对抗并迭代优化的过程使得D和G的性能不断提升,当最终D的判别能力提升到一定程度,并且无法正确判别数据来源时,可以认为这个生成器G已经学到了真实数据的分布.

步骤3.2)将数据量较小的类别数据与经数据扩展得到的扩展数据合并为新的数据，经过生成式对抗网络得到的词向量表现形式的矩阵，即是模拟的该类别下的扩展数据，将原始数据与扩展数据合并，即能满足需要的数据量要求。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于生成式对抗网络实现文本分类数据集扩展方法，其特征在于，包括以下步骤：

1)将文本数据集转化为词向量表示；

获取待扩展的文本分类数据集，对数据集中的文本进行特征词提取，将特征词用特征向量表示，获取特征词的词向量矩阵；

2.1)将步骤1)得到的词向量矩阵作为生成式对抗网络的输入，经训练后输出设定数目的模拟数据，输出格式为词向量矩阵；

2.根据权利要求1所述的基于生成式对抗网络实现文本分类数据集扩展方法，其特征在于，所述步骤2.1)中生成式对抗网络如下：

代价函数：

3.根据权利要求1所述的基于生成式对抗网络实现文本分类数据集扩展方法，其特征在于，所述步骤1)中对数据集中的文本进行特征词提取，将特征词替换成词向量表示，获取特征词词向量矩阵的方法具体如下：

步骤1.3)基于TF-IDF，对获取的所有微博数据进行特征值提取；

步骤1.4)基于TF-IDF，计算每一条数据的TFIDF矩阵；

4.根据权利要求1所述的基于生成式对抗网络实现文本分类数据集扩展方法，其特征在于，所述步骤1)中获取待扩展的文本分类数据集的具体步骤如下：

针对研究问题，确定所有数据集类别；