CN108897769A - 基于生成式对抗网络实现文本分类数据集扩展方法 - Google Patents
基于生成式对抗网络实现文本分类数据集扩展方法 Download PDFInfo
- Publication number
- CN108897769A CN108897769A CN201810531534.5A CN201810531534A CN108897769A CN 108897769 A CN108897769 A CN 108897769A CN 201810531534 A CN201810531534 A CN 201810531534A CN 108897769 A CN108897769 A CN 108897769A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- matrix
- classification
- term vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于生成式对抗网络实现文本分类数据集扩展方法,该方法包括以下步骤:确定需要进行数据扩展的原始数据类别;对相应数据进行预处理,使用word2vec与TFIDF将数据表示成词向量矩阵的形式;使用生成式对抗网路生成扩展的矩阵向量,将原数据的矩阵向量与扩展的矩阵向量合并即实现对数据集的扩展。本发明方法通过扩展稀有类别的数据,有利于研究者对难以获得的数据集进行扩展,提高稀有类别数据的分类精度,方便科学研究。
Description
技术领域
本发明涉及大数据分析技术,尤其涉及一种基于生成式对抗网络实现文本分类数据集扩展方法。
背景技术
随着互联网的高速发展,网络上的信息量呈指数形式增长,其中非结构化文本数据所占比率最大,如何从纷繁的文本数据中挖掘用户感兴趣的信息变得日益重要。文本分类是网络文本数据挖掘的基础,分类结果是好是坏直接影响文本数据挖掘效果,因此如何构建正确率高的文本分类算法是网络信息数据挖掘研究中的重点。
针对文本分类问题,国内外学者和专家投入了大量的时间和精力,进行了深入的研究。一般进行分类有两种方法:人工分类和自动分类。人工分类就是依靠人力对文本进行类别的划分,这种方法费时费力,不过人工分类的一个优点是准确率一般可以得到保证。另一种方法是自动分类,通过计算机采用一定的算法进行自动文本分类,分类复杂度降低,效率大大提高,但是准确率依赖于算法的好坏。
目前最著名的机器学习数据库是由美国加州大学的Irvine分校维护的UCI数据库,其中有各国研究者贡献的在不同时期从不同应用领域收集的数据集。数据集的收集有时是代价昂贵的(如核实验),有时则是样本稀少的(如航空飞机的着陆控制数据集),有时则由于涉及个人隐私而难以获得,有时则包含有缺值。因此,数据集是所有研究者共享的宝贵财富。
由于信息资源分布的特点,有些类别的信息明显匮乏,称为稀有类别,这些类别的信息资源有限,导致训练集中稀有类别的文本数量无法和普通类别相比。在现有的文本自动分类技术中,参与分类的各个类别在分类过程中都是平等的,并不会因为某个类是稀有类别就在分类时区别对待。这样,分类时貌似公平的处理在实际应用中其实有着一定程度的不公平。如何相对公平地对待稀有类别,提高稀有类别的分类精度,成为分类过程中需要迫切解决的一个问题。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于生成式对抗网络实现文本分类数据集扩展方法。
本发明解决其技术问题所采用的技术方案是:一种基于生成式对抗网络实现文本分类数据集扩展方法,包括以下步骤:
1)将文本数据集转化为词向量表示;
获取待扩展的文本分类数据集,对数据集中的文本进行特征词提取,用词向量表示特征词,获取特征词的词向量矩阵;
2)利用生成式对抗网络生成文本数据扩展数据集,将步骤1)获得的特征词词向量矩阵作为生成式对抗网络的输入,输出生成的文本数据,获得扩展数据集;
2.1)将步骤1得到的词向量矩阵作为生成式对抗网络的输入,经训练后输出设定数目的模拟数据,输出格式为词向量矩阵;
2.2)将待扩展的文本分类数据与经数据扩展得到的扩展数据合并为新的数据,经过生成式对抗网络得到词向量表现形式的矩阵,即是模拟的该类别下的扩展数据,将原始数据与扩展数据合并,即能满足需要的数据量要求。
按上述方案,所述步骤2.1)中生成式对抗网络如下:
代价函数:
可微分函数D表示判别器,G表示生成器,判别器输入为真实数据x,生成器的输入为随机变量z,G(z)则为由G生成的尽量服从真实数据分布pdata的样本;这里D的目标是实现对数据来源的二分类判别:真,若来源于真实数据x的分布;或者伪,若来源于生成器的伪数据G(z);而G的目标是使自己生成的伪数据G(z)在D上的表现D(G(z))和真实数据x在D上的表现D(x)一致,这两个相互对抗并迭代优化的过程使得D和G的性能不断提升,当最终D的判别能力提升到一定程度,并且无法正确判别数据来源时,认为这个生成器G已经学到了真实数据的分布,用于生成模拟数据。
按上述方案,所述步骤1)中对数据集中的文本进行特征词提取,用词向量表示特征词,获取特征词词向量矩阵的方法具体如下:
步骤1.1)对数据进行预处理,所述预处理包括:去掉链接、标点符号和停用词以及分词处理;
步骤1.2)使用维基百科中文语料库,利用FastText开源工具训练word2vec词向量;
步骤1.3)基于TF-IDF,对获取的所有微博数据进行特征值提取;
步骤1.4)基于TF-IDF,计算每一条数据的TFIDF矩阵;
步骤1.5)对每一条数据的TFIDF矩阵进行检查,如果某个特征词的TFIDF值为0,基于词向量提取特征词相似度高于85%的相近词,相近词按照相似度排列的集合为(C1,C2…Ck),依据相似度从高到低计算其TFIDF值,使用相似度最高且TFIDF值不为0的相近词替换该特征词,如果所有相近词TFIDF值都为0,就用0向量替换。如果某个特征词的TFIDF值不为0,则不用替换该特征词;
步骤1.6)将每一个特征值换成词向量表示,形成一个由词向量组成的矩阵。
按上述方案,所述步骤1)中获取待扩展的文本分类数据集的具体步骤如下:
统计分类问题中各个类别数据集数量,获得数据集较少的类别作为待扩展的文本分类数据集的类别;
针对研究问题,确定所有数据集类别;
对每个类别数据数量进行统计,获得统计后的数据量较小的类别。
本发明产生的有益效果是:
1.通过将文本数据表示成词向量矩阵可以直接获得标准化的数据集;
2.通过扩展稀有类别的数据,有利于研究者对难以获得的数据集进行扩展,提高稀有类别数据的分类精度,方便科学研究。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供了一种基于生成式对抗网络实现文本分类数据集扩展方法,
本发明方法对所有的文本分类都是可行的,但是为了方便表达,我们以扩展微博用户兴趣分类的数据集为实例进行阐述。
根据对大型门户网站新闻类型的统计与筛选,我们假设新闻类别与微博用户的兴趣类别是一样,确定微博用户兴趣类别。
将特征化的微博用户文本数据集转化为词向量表示,作为生成式对抗网络的输入,输出为生成的文本数据,输出形式为向量矩阵。包括以下几个步骤:
步骤1)确定需要扩展的类别数据:统计数据集中各类数据集数量,将数量较少的类别数据作为待处理类别数据。
步骤1.1)确定数据来源于微博,确定数据集类别,将所有的微博内容类别划分为社会、财经、娱乐、体育、文化、教育、时尚、汽车、科技、宗教、游戏、政治、儿童、国际、军事、情感、健康17类,基于类别标签对数据集进行人工标注;
步骤1.2)基于步骤1.1,对每个类别数据数量进行统计,获得数量较少的数据类别;
假设经统计得到的结果是类别宗教和军事的数据量较小,则接下来对宗教与军事类数据进行处理;
步骤2)根据宗教与军事类数据,获取词向量矩阵;
步骤2.1)对数据进行预处理,所述预处理包括:去掉链接、标点符号和停用词,分词处理等;
由于微博中经常涉及到转发,爬取的信息得到的就是转发的链接,但是我们只是对原始信息进行分析,所以需要去除链接;去标点和停用词是为了剔除对信息无用的信息;我们获取的微博信息是短句子,但是现在的自然语言处理都是对句子中的词语进行处理,所以分词是预处理的一部分,在这个例子中,我们处理中文文本,所以使用成熟的中文分词器结巴分词。
步骤2.2)基于TF-IDF,对每一条宗教与军事类微博信息进行特征词提取;(TFIDF值计算)
特征词是文本中具有代表性的词语,一般通过词出现的频率TF和这个词在其他文档中不出现的逆频率IDF表现。
TF-IDF算法及公式说明如下:
公式分成两项,TFIDF=TF*IDF,词频(TF)=某个词在文章中的出现次数;逆文档词频(IDF)=log(语料库的文档总数/(包含该词的文档数+1));
步骤2.3)使用维基百科中文语料库,利用FastText开源工具训练word2vec词向量,将获得的特征词用词向量进行表示;
word2vec的思想是将每一个词映射为一个向量,例如开心可以用(0,1,3,4,1,3)来表示;
步骤2.4)基于TF-IDF,计算每一条微博数据的TFIDF矩阵;
基于步骤2.2)计算出每条微博分词后词语的TFIDF值,按TFIDF值从高到低取前5个词语作为每条微博的特征值,所有数据形成TFIDF矩阵。
步骤2.5)将每一个特征词换成词向量表示,形成一个由词向量组成的矩阵;
步骤3)数据库扩展,采用生成式对抗网络对输入数据进行扩展。
步骤3.1)将步骤2)得到的词向量矩阵作为生成式对抗网络的输入,经训练后输出需要数目的模拟数据,输出格式为词向量矩阵;
生成式对抗网络的原理如下:
代价函数:
可微分函数D和G分别表示判别器和生成器,它们的输入分别为真实数据x和随机变量z.G(z)则为由G生成的尽量服从真实数据分布pdata的样本。这里D的目标是实现对数据来源的二分类判别:真(来源于真实数据x的分布)或者伪(来源于生成器的伪数据G(z)),而G的目标是使自己生成的伪数据G(z)在D上的表现D(G(z))和真实数据x在D上的表现D(x)一致,这两个相互对抗并迭代优化的过程使得D和G的性能不断提升,当最终D的判别能力提升到一定程度,并且无法正确判别数据来源时,可以认为这个生成器G已经学到了真实数据的分布.
步骤3.2)将数据量较小的类别数据与经数据扩展得到的扩展数据合并为新的数据,经过生成式对抗网络得到的词向量表现形式的矩阵,即是模拟的该类别下的扩展数据,将原始数据与扩展数据合并,即能满足需要的数据量要求。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (4)
1.一种基于生成式对抗网络实现文本分类数据集扩展方法,其特征在于,包括以下步骤:
1)将文本数据集转化为词向量表示;
获取待扩展的文本分类数据集,对数据集中的文本进行特征词提取,将特征词用特征向量表示,获取特征词的词向量矩阵;
2)利用生成式对抗网络生成文本数据扩展数据集,将步骤1)获得的特征词词向量矩阵作为生成式对抗网络的输入,输出生成的文本数据,获得扩展数据集;
2.1)将步骤1)得到的词向量矩阵作为生成式对抗网络的输入,经训练后输出设定数目的模拟数据,输出格式为词向量矩阵;
2.2)将待扩展的文本分类数据与经数据扩展得到的扩展数据合并为新的数据,经过生成式对抗网络得到词向量表现形式的矩阵,即是模拟的该类别下的扩展数据,将原始数据与扩展数据合并,即能满足需要的数据量要求。
2.根据权利要求1所述的基于生成式对抗网络实现文本分类数据集扩展方法,其特征在于,所述步骤2.1)中生成式对抗网络如下:
代价函数:
可微分函数D表示判别器,G表示生成器,判别器输入为真实数据x,生成器的输入为随机变量z,G(z)则为由G生成的尽量服从真实数据分布pdata的样本;这里D的目标是实现对数据来源的二分类判别:真,若来源于真实数据x的分布;或者伪,若来源于生成器的伪数据G(z);而G的目标是使自己生成的伪数据G(z)在D上的表现D(G(z))和真实数据x在D上的表现D(x)一致,这两个相互对抗并迭代优化的过程使得D和G的性能不断提升,当最终D的判别能力提升到一定程度,并且无法正确判别数据来源时,认为这个生成器G已经学到了真实数据的分布,用于生成模拟数据。
3.根据权利要求1所述的基于生成式对抗网络实现文本分类数据集扩展方法,其特征在于,所述步骤1)中对数据集中的文本进行特征词提取,将特征词替换成词向量表示,获取特征词词向量矩阵的方法具体如下:
步骤1.1)对数据进行预处理,所述预处理包括:去掉链接、标点符号和停用词以及分词处理;
步骤1.2)使用维基百科中文语料库,利用FastText开源工具训练word2vec词向量;
步骤1.3)基于TF-IDF,对获取的所有微博数据进行特征值提取;
步骤1.4)基于TF-IDF,计算每一条数据的TFIDF矩阵;
步骤1.5)对每一条数据的TFIDF矩阵进行检查,如果某个特征词的TFIDF值为0,基于词向量提取特征词相似度高于85%的相近词,相近词按照相似度排列的集合为(C1,C2…Ck),依据相似度从高到低计算其TFIDF值,使用相似度最高且TFIDF值不为0的相近词替换该特征词,如果所有相近词TFIDF值都为0,就用0向量替换。如果某个特征词的TFIDF值不为0,则不用替换该特征词;
步骤1.6)将每一个特征值换成词向量表示,形成一个由词向量组成的矩阵。
4.根据权利要求1所述的基于生成式对抗网络实现文本分类数据集扩展方法,其特征在于,所述步骤1)中获取待扩展的文本分类数据集的具体步骤如下:
统计分类问题中各个类别数据集数量,获得数据集较少的类别作为待扩展的文本分类数据集的类别;
针对研究问题,确定所有数据集类别;
对每个类别数据数量进行统计,获得统计后的数据量较小的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810531534.5A CN108897769A (zh) | 2018-05-29 | 2018-05-29 | 基于生成式对抗网络实现文本分类数据集扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810531534.5A CN108897769A (zh) | 2018-05-29 | 2018-05-29 | 基于生成式对抗网络实现文本分类数据集扩展方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108897769A true CN108897769A (zh) | 2018-11-27 |
Family
ID=64343910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810531534.5A Pending CN108897769A (zh) | 2018-05-29 | 2018-05-29 | 基于生成式对抗网络实现文本分类数据集扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108897769A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109698017A (zh) * | 2018-12-12 | 2019-04-30 | 中电健康云科技有限公司 | 医疗病历数据生成方法及装置 |
CN109933670A (zh) * | 2019-03-19 | 2019-06-25 | 中南大学 | 一种基于组合矩阵计算语义距离的文本分类方法 |
CN110008335A (zh) * | 2018-12-12 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 自然语言处理的方法及装置 |
CN110188824A (zh) * | 2019-05-31 | 2019-08-30 | 重庆大学 | 一种小样本植物病害识别方法及系统 |
CN112347253A (zh) * | 2020-11-04 | 2021-02-09 | 新智数字科技有限公司 | 一种文本信息识别模型的建立方法、装置及终端设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN106952239A (zh) * | 2017-03-28 | 2017-07-14 | 厦门幻世网络科技有限公司 | 图像生成方法和装置 |
CN107016406A (zh) * | 2017-02-24 | 2017-08-04 | 中国科学院合肥物质科学研究院 | 基于生成式对抗网络的病虫害图像生成方法 |
CN107133601A (zh) * | 2017-05-13 | 2017-09-05 | 五邑大学 | 一种基于生成式对抗网络图像超分辨率技术的行人再识别方法 |
CN107590531A (zh) * | 2017-08-14 | 2018-01-16 | 华南理工大学 | 一种基于文本生成的wgan方法 |
CN107679465A (zh) * | 2017-09-20 | 2018-02-09 | 上海交通大学 | 一种基于生成网络的行人重识别数据生成和扩充方法 |
CN107844770A (zh) * | 2017-11-03 | 2018-03-27 | 东北大学 | 一种基于视频的电熔镁炉异常工况自动识别系统 |
CN108491497A (zh) * | 2018-03-20 | 2018-09-04 | 苏州大学 | 基于生成式对抗网络技术的医疗文本生成方法 |
-
2018
- 2018-05-29 CN CN201810531534.5A patent/CN108897769A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN107016406A (zh) * | 2017-02-24 | 2017-08-04 | 中国科学院合肥物质科学研究院 | 基于生成式对抗网络的病虫害图像生成方法 |
CN106952239A (zh) * | 2017-03-28 | 2017-07-14 | 厦门幻世网络科技有限公司 | 图像生成方法和装置 |
CN107133601A (zh) * | 2017-05-13 | 2017-09-05 | 五邑大学 | 一种基于生成式对抗网络图像超分辨率技术的行人再识别方法 |
CN107590531A (zh) * | 2017-08-14 | 2018-01-16 | 华南理工大学 | 一种基于文本生成的wgan方法 |
CN107679465A (zh) * | 2017-09-20 | 2018-02-09 | 上海交通大学 | 一种基于生成网络的行人重识别数据生成和扩充方法 |
CN107844770A (zh) * | 2017-11-03 | 2018-03-27 | 东北大学 | 一种基于视频的电熔镁炉异常工况自动识别系统 |
CN108491497A (zh) * | 2018-03-20 | 2018-09-04 | 苏州大学 | 基于生成式对抗网络技术的医疗文本生成方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109698017A (zh) * | 2018-12-12 | 2019-04-30 | 中电健康云科技有限公司 | 医疗病历数据生成方法及装置 |
CN110008335A (zh) * | 2018-12-12 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 自然语言处理的方法及装置 |
CN109933670A (zh) * | 2019-03-19 | 2019-06-25 | 中南大学 | 一种基于组合矩阵计算语义距离的文本分类方法 |
CN109933670B (zh) * | 2019-03-19 | 2021-06-04 | 中南大学 | 一种基于组合矩阵计算语义距离的文本分类方法 |
CN110188824A (zh) * | 2019-05-31 | 2019-08-30 | 重庆大学 | 一种小样本植物病害识别方法及系统 |
CN112347253A (zh) * | 2020-11-04 | 2021-02-09 | 新智数字科技有限公司 | 一种文本信息识别模型的建立方法、装置及终端设备 |
CN112347253B (zh) * | 2020-11-04 | 2023-09-08 | 新奥新智科技有限公司 | 一种文本信息识别模型的建立方法、装置及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108897769A (zh) | 基于生成式对抗网络实现文本分类数据集扩展方法 | |
CN107193801B (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
CN106202518B (zh) | 基于chi和分类别关联规则算法的短文本分类方法 | |
CN105022725B (zh) | 一种应用于金融Web领域的文本情感倾向分析方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN111143479A (zh) | 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法 | |
CN108197144B (zh) | 一种基于BTM和Single-pass的热点话题发现方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN108763348A (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN106528528A (zh) | 文本情感分析的方法及装置 | |
CN106202372A (zh) | 一种网络文本信息情感分类的方法 | |
CN105786991A (zh) | 结合用户情感表达方式的中文情感新词识别方法和系统 | |
CN101587493A (zh) | 文本分类方法 | |
CN102750316A (zh) | 基于语义共现模型的概念关系标签抽取方法 | |
Lou et al. | Multilabel subject-based classification of poetry | |
CN104281653A (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
CN101673306B (zh) | 网页信息查询方法及其系统 | |
CN102629272A (zh) | 一种基于聚类的考试系统试题库优化方法 | |
CN109558587A (zh) | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 | |
Li et al. | An improved KNN algorithm for text classification | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
Gadek et al. | An interpretable model to measure fakeness and emotion in news | |
Shetty et al. | Auto text summarization with categorization and sentiment analysis | |
Ayadi et al. | A Survey of Arabic Text Representation and Classification Methods. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181127 |
|
WD01 | Invention patent application deemed withdrawn after publication |