CN110008338A

CN110008338A - 一种融合gan和迁移学习的电商评价情感分析方法

Info

Publication number: CN110008338A
Application number: CN201910159199.5A
Authority: CN
Inventors: 陶乾; 黄浩建; 王振宇; 蒋道宁; 陶哲瀚
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2019-07-12
Anticipated expiration: 2039-03-04
Also published as: CN110008338B

Abstract

本发明公开了一种融合GAN和迁移学习的电商评价情感分析方法，该方法基于GAN构建迁移学习框架，通过标注的源领域文本数据和少量标注的目标领域文本数据训练生成模型和鉴别模型，生成模型生成数据训练分类器用于特定的分类任务来实现源领域到目标领域的迁移。本发明在进行特定的电子商务评价情感分析任务时，减少了模型训练的数据收集处理工作，用户只需使用标注的源领域文本数据和少量标注的目标领域文本数据训练即可，而不需要进行大量目标领域文本数据的标注工作。本发明提出的方法使迁移架构和任务结构分离，对传统的迁移学习方法进行了突破，可实现跨领域迁移学习和异构迁移学习，提升数据分析的智能化水平。

Description

一种融合GAN和迁移学习的电商评价情感分析方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种融合GAN和迁移学习的电商评价情感分析方法。

背景技术

在对电子商务评价进行情感分析时，通常通过机器学习训练分类模型对评价数据进行分类。但分类模型需要大量的标注数据进行训练，而标注大量数据的工作非常费时，且代价高昂。

迁移学习是一个新兴领域，其基本思想为实现源领域知识到目标领域的迁移，以减少数据标注工作或避免新模型从零开始训练学习。在算法研究方面，迁移学习主要划分为以下几种技术：1.半监督学习：学习算法在学习过程中无需人工干预，基于自身对无标签数据进行利用；2.基于特征选择：利用源领域与目标领域中共有的特征表示进行知识迁移；3.基于特征映射：将各个领域的数据从原始高维特征空间映射到低维特征空间，使它们有相同的数据分布。然后利用低维度特征空间表示的源领域样本训练分类器，根据特定任务进行分类；4.基于权重：根据训练样本和测试样本的相似度分配源领域样本的采集权重。根据源领域和目标领域文本数据是否标注以及是否为相同任务来划分，可以将迁移学习分为三类：1.无监督学习：源领域和目标领域文本数据都没有标签样本；2.直推式迁移学习：只有源领域文本数据有标签样本；3.归纳式迁移学习：目标领域中有少量标签样本。

生成对抗网络是通过生成模型和鉴别模型相互对抗博弈，生成类似真实数据的深度学习模型。通过对抗进行迭代训练，使对抗的两个模型逼近纳什均衡。它为无监督学习模型的构建提供了强有力的框架。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种融合GAN和迁移学习的电商评价情感分析方法，该分析方法基于迁移策略思想以及GAN，通过强化学习和对抗思想的结合，生成模型生成使源领域和目标领域的数据特征分布处于同一分布的文本数据。最终生成文本数据和有标注的源领域文本数据一起用于训练分类器模型，进行特定的情感分析任务。该分析方法通过使用有标注的源领域文本数据和少量有标注的目标领域文本数据进行迁移，减少了训练分类器模型时标注数据的工作。

本发明的目的可以通过采取如下技术方案达到：

一种融合GAN和迁移学习的电商评价情感分析方法，所述的分析方法包括以下步骤：

S1、数据预处理，将源领域文本数据和目标领域文本数据合成为一份语料训练word2vec模型，训练后通过词索引字典将两个领域的文本数据进行序列化处理转换为数字表示；

S2、构建基于GAN的迁移学习框架，其中，基于GAN的迁移学习框架包括生成模型、鉴别模型、分类器模型；

S3、训练基于GAN的迁移学习框架中的生成模型和鉴别模型，其中，随机噪声和源领域有标注的文本数据作为生成模型的输入，生成模型生成的文本数据和目标领域少量有标注的文本数据作为鉴别模型的输入，在对抗训练过程中，生成模型基于每个词进行蒙特卡洛树搜索，得到一批完整序列，鉴别模型对这批完整序列进行鉴别，并反馈给生成模型，得到反馈后，生成模型通过策略梯度的方式进行训练，同时，鉴别模型使用对数损失函数进行训练，对抗训练完成后，生成模型生成使源领域和目标领域的数据特征分布处于同一分布的文本数据，实现源领域到目标领域的迁移；

S4、所述的生成模型生成数据，并结合少量标注的目标领域文本数据，训练基于GAN的迁移学习框架中的分类器模型，所述的分类器模型对特定的分类任务实现源领域到目标领域的迁移；

S5、根据特定的任务对目标领域文本数据进行分类。

进一步地，所述的步骤S1过程如下：

对用于模型训练的文本数据进行预处理，假设已有足够的标注的源领域文本数据和少量标注的目标领域文本数据，

首先筛选源领域文本数据和目标领域文本数据中句子的词长为18到20的文本数据，然后对筛选后的源领域文本数据和目标领域文本数据进行大小写统一，分词处理，接下来将处理后的源领域文本数据和目标领域文本数据合为一份语料训练word2vec模型，以获得词向量，word2vec模型训练完毕后，保存语料中词频超过10的词到以数字为索引的字典，以及将词向量保存到以词为索引的字典，最后通过保存的以数字为索引的字典，将文本数据中的每个词转换为对应的数字索引表示。

进一步地，所述的word2vec模型应用Distriuted表示法，即将词表示为一个限定在一定维度的实数向量，通过欧式距离或余弦距离求得词之间的距离来判断它们语义的相似性；

所述的word2vec模型采用CBOW网络结构模型和/或Skip-Gram网络结构模型，其中，所述的CBOW网络结构模型的目标是根据上下文来预测当前词语，包括输入层、投影层和输出层，输入层输入上下文的词向量，且词向量初始为随机值，伴随着训练不断更新，投影层则是对输入层中上下文的词向量进行向量加法求和，输出层最后输出出现概率最高的词w，CBOW网络结构模型的学习目标为一个最大化对数似然函数，所述的Skip-Gram网络结构模型根据当前词语预测上下文，包括输入层、投影层和输出层，输入层只有一个词向量，投影层直接将输入层的词向量传给输出层，输出层最后输出上下文，对于任意一段语料来说，若Context(w)表示一个词的所有上下文，w表示语料中的一个词，u表示Context(w)包含的一个词,p(u|w)表示已知一个词为w时，上下文词为u的概率，p(Context(w)|w)表示对于词w，其上下文为Context(w)的概率，则Skip-Gram网络结构模型的概率函数表述式如下：

进一步地，所述的生成模型由长短期记忆网络LSTM构成，作用为生成文本数据；所述的鉴别模型由卷积神经网络CNN构成，作用为对生成模型生成的文本数据的真实度进行鉴别；所述的分类器模型由长短期记忆网络LSTM构成，作用为对目标领域文本数据进行特定的情感分析任务。

进一步地，所述的生成模型使用长短期记忆网络LSTM，通过递归更新函数将输入嵌入表示序列映射到隐藏状态序列，其中，递归更新函数公式如下：h_t＝g(h_t-1,x_t)

其中，x₁…x_t表示输入嵌入序列，h₁…h_t表示隐藏状态序列，g为递归函数，该函数通过当前的输入嵌入x_t，以及上一个输入嵌入对应的隐藏状态h_t-1，输出当前的隐藏状态h_t；

然后通过softmax输出层将隐藏状态序列映射到一个输出状态分布，表述式如下：p(y_t|x₁…x_t)＝softmax(c+Vh_t)

其中，x₁…x_t表示输入嵌入序列，h₁…h_t表示隐藏状态序列，y₁…y_t表示隐藏状态序列表示输出概率，c表示偏差向量，V表示权重矩阵；

所述的鉴别模型使用卷积神经网络CNN，它将长度为T的序列的嵌入层表达x₁,……,x_T，通过连接操作组成大小为T×k的矩阵ε_1:T，并使用大小为l×k的卷积核ω在矩阵ε_1:T上卷积，得到新的特征映射。

进一步地，所述的步骤S3过程如下：

S31、通过随机权重初始化生成模型和鉴别模型的参数；

S32、利用最大似然估计MLE预训练生成模型，之后生成模型生成文本数据作为鉴别模型的输入，然后基于最小化交叉熵预训练鉴别模型，接着进行模型对抗训练，在模型对抗训练过程中，生成模型基于每个词进行蒙特卡洛树搜索，即在生成模型生成的词序列当前位置开始进行采样，从而得到一批完整序列；

鉴别模型对这批完整序列进行鉴别，并反馈给生成模型，得到反馈后，生成模型通过策略梯度的方式进行训练，同时，鉴别模型基于对数损失函数进行对抗训练；

S33、对抗训练后，生成模型生成的数据使得鉴别模型判断类别的正确率最小化，此时，生成的文本数据使得源领域和目标领域的文本数据处于同一特征分布。

进一步地，所述的步骤S4过程如下：

将生成模型最终生成的文本数据和标注的源领域文本数据合成一份训练数据，对分类器模型进行训练。

本发明相对于现有技术具有如下的优点及效果：

本发明公开的一种融合GAN和迁移学习的电商评价情感分析方法通过将迁移架构和任务结构分离，即迁移生成的文本数据可用于不同的情感分析任务中；通过改变输入的源领域和随机噪声，生成无限的文本来训练分类器，以减少标注数据的工作。

附图说明

图1是本发明公开的一种融合GAN和迁移学习的电商评价情感分析方法的流程示意图；

图2是本发明公开的一种融合GAN和迁移学习的电商评价情感分析方法的系统结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种融合GAN和迁移学习的电商评价情感分析方法，专用于电子商务评价领域中源领域和目标领域文本数据的知识迁移。通过强化学习和对抗思想，生成对抗模型中的生成模型生成使源领域和目标领域的数据特征分布处于同一分布的文本数据。最终生成文本数据和标注的源领域文本数据一起用于训练分类器模型，进行特定的情感分析任务。

该方法的迁移架构由生成模型、鉴别模型、分类器模型组成。其中，生成模型由长短期记忆网络(LSTM)构成，主要作用为生成文本数据；鉴别模型由卷积神经网络(CNN)构成，主要作用为对生成模型生成的文本数据的真实度进行鉴别；分类器模型由长短期记忆网络(LSTM)构成，主要作用为对目标领域文本数据进行特定的情感分析任务。

源领域文本数据和目标领域文本数据合成为一份语料训练word2vec模型，训练后通过词索引字典将两个领域的文本数据转换为数字表示。随机噪声和源领域有标注的文本数据作为生成模型的输入；生成模型生成的文本数据和目标领域少量有标注的文本数据作为鉴别模型的输入。在对抗训练过程中，生成模型基于每个词进行蒙特卡洛树搜索，得到一批完整序列。鉴别模型对这批完整序列进行鉴别，并反馈(reward)给生成模型。得到反馈后，生成模型通过策略梯度的方式进行训练。同时，鉴别模型使用对数损失函数进行训练。对抗训练完成后，生成模型生成使源领域和目标领域的数据特征分布处于同一分布的文本数据，实现了源领域到目标领域的迁移。最终生成文本数据和标注的源领域文本数据一起用于训练分类器模型，进行特定的情感分析任务。

如附图1和图2所示，本实施例公开的融合GAN和迁移学习的电商评价情感分析方法具体步骤如下：

S1、数据预处理，训练word2vec模型并将文本数据进行序列化处理；具体如下：

本方法假设已有足够的标注的源领域文本数据和少量标注的目标领域文本数据。

word2vec模型应用了Distriuted表示法，即将词表示为一个限定在一定维度的实数向量。这样的表示使得语义相近的词语在向量空间里距离相近。通过欧式距离或余弦距离可以求得词之间的距离来判断它们语义的相似性。word2vec模型使用两种网络结构模型，分别为CBOW和Skip-Gram。CBOW(Continuous Bag-Of-Words)，它的目标是根据上下文来预测当前词语。在CBOW中，输入层输入上下文的词向量。词向量一开始为随机值，伴随着训练不断更新；投影层则是对输入层中上下文的词向量进行简单的向量加法求和；输出层最后输出出现概率最高的词w。它的学习目标为一个最大化对数似然函数。Skip-Gram根据当前词语预测上下文。输入层只有一个词向量，投影层直接将输入层的词向量传给输出层，输出层最后输出上下文。若Context(w)表示一个词的所有上下文，w表示语料中的一个词，u表示Context(w)包含的一个词,p(u|w)表示已知一个词为w时，上下文词为u的概率，p(Context(w)|w)表示对于词w，其上下文为Context(w)的概率。则Skip-Gram网络结构模型的概率函数表述式如下：

首先筛选源领域文本数据和目标领域文本数据中句长较短(词长为18到20)的文本数据。然后对筛选后的源领域文本数据和目标领域文本数据进行大小写统一，分词处理。接下来将处理后的源领域文本数据和目标领域文本数据合为一份语料训练word2vec模型，以获得词向量。word2vec模型训练完毕后，保存语料中词频超过10的词到以数字为索引的字典，以及将词向量保存到以词为索引的字典。最后通过保存的以数字为索引的字典，将文本数据中的每个词转换为对应的数字索引表示。

S2、构建基于GAN的迁移学习框架，其中，基于GAN的迁移学习框架包括生成模型、鉴别模型、分类器模型，具体如下：

本方法基于GAN构建迁移学习框架。生成模型使用的是长短期记忆网络(LSTM)。它通过递归更新函数(等式1)将输入嵌入表示序列映射到隐藏状态序列；然后通过softmax输出层将隐藏状态序列映射到一个输出状态分布(等式2)。

等式1:x1…xt表示输入嵌入序列，h1…ht表示隐藏状态序列，g为递归函数，该函数通过当前的输入嵌入x_t，以及上一个输入嵌入对应的隐藏状态h_t-1，输出当前的隐藏状态h_t。则生成模型将输入嵌入表示序列映射到隐藏状态序列时所用递归更新函数为：

h_t＝g(h_t-1,x_t)

等式2:x1…xt表示输入嵌入序列，h1…ht表示隐藏状态序列，y1…yt表示输出概率，p表示概率函数，c表示偏差向量，V表示权重矩阵，则：

p(y_t|x₁…x_t)＝softmax(c+Vh_t)

鉴别模型使用的是卷积神经网络CNN。它将长度为T的序列的嵌入层表达x₁,……,x_T，通过连接操作组成大小为T×k的矩阵ε_1:T，并使用大小为l×k的卷积核ω在矩阵ε_1:T上卷积，得到新的特征映射。

S3、训练基于GAN的迁移学习框架中的生成模型和鉴别模型，具体如下：在进行数据的预处理后，已处理好的一定维数的源领域文本数据加一定维数的随机噪声作为生成模型的输入。少量标注的目标领域文本数据和生成模型生成的文本数据作为鉴别模型的输入。流程如下。

S31、通过随机权重初始化生成模型和鉴别模型的参数；

S32、利用最大似然估计(MLE)预训练生成模型。之后生成模型生成文本数据作为鉴别模型的输入，然后基于最小化交叉熵预训练鉴别模型；接着进行模型对抗训练。在这过程中，生成模型基于每个词进行蒙特卡洛树搜索，即在生成模型生成的词序列当前位置开始进行采样，从而得到一批完整序列。鉴别模型对这批完整序列进行鉴别，并反馈给生成模型。得到反馈后，生成模型通过策略梯度的方式进行训练。同时，鉴别模型基于对数损失函数进行训练。

S33、对抗训练后，生成模型生成的数据使得鉴别模型判断类别的正确率最小化。此时，生成的文本数据已经使得两个领域的数据处于同一特征分布。

S4、基于GAN的迁移学习框架中的生成模型生成数据，和少量标注的目标领域文本数据训练分类器模型，具体为将生成模型最终生成的文本数据和标注的源领域文本数据合成一份训练数据，对分类器模型进行训练。

S5、根据特定的任务对目标领域文本数据进行分类。

为了保证将源领域和目标领域的特征分布映射到同一特征分布，以及保证生成文本带有某一类别的极性，输入的源领域文本数据和目标领域文本数据的类别需要保持一致且唯一。举个例子，使用亚马逊影视产品评价数据集作为源领域文本数据集，每一条数据都已经被标注了正面评价或负面评价两类标签；亚马逊电子产品评价数据集作为目标领域文本数据集，有少量数据已经被标注了正面评价或负面评价两类标签。那么在进行迁移的过程中，进行两次文本生成。第一次将标注为正面的影视产品评价数据和随机噪声作为生成模型的输入，标注为正面的电子产品评价数据和生成模型生成的文本数据作为鉴别模型的输入。同理，第二次将标注为负面的影视产品评价数据和随机噪声作为生成模型的输入，标注为负面的电子产品评价数据和生成模型生成的文本数据作为鉴别模型的输入。

通过上述方法，可以使迁移架构和任务结构分离，即迁移生成的文本数据可用于不同的情感分析任务中；以及通过改变输入的源领域和随机噪声，生成无限的文本来训练分类器，以减少标注大量数据用于训练分类器的工作。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种融合GAN和迁移学习的电商评价情感分析方法，其特征在于，所述的分析方法包括以下步骤：

S5、根据特定的任务对目标领域文本数据进行分类。

2.根据权利要求1所述的一种融合GAN和迁移学习的电商评价情感分析方法，其特征在于，所述的步骤S1过程如下：

首先筛选源领域文本数据和目标领域文本数据中选取词数为18到20的句子，然后对筛选后的源领域文本数据和目标领域文本数据进行大小写统一，分词处理，接下来将处理后的源领域文本数据和目标领域文本数据合为一份语料训练word2vec模型，以获得词向量，word2vec模型训练完毕后，保存语料中词频超过10的词到以数字为索引的字典，以及将词向量保存到以词为索引的字典，最后通过保存的以数字为索引的字典，将文本数据中的每个词转换为对应的数字索引表示。

3.根据权利要求2所述的一种融合GAN和迁移学习的电商评价情感分析方法，其特征在于，所述的word2vec模型应用Distriuted表示法，即将词表示为一个限定在一定维度的实数向量，通过欧式距离或余弦距离求得词之间的距离来判断它们语义的相似性；

4.根据权利要求1所述的一种融合GAN和迁移学习的电商评价情感分析方法，其特征在于，所述的生成模型由长短期记忆网络LSTM构成，作用为生成文本数据；所述的鉴别模型由卷积神经网络CNN构成，作用为对生成模型生成的文本数据的真实度进行鉴别；所述的分类器模型由长短期记忆网络LSTM构成，作用为对目标领域文本数据进行特定的情感分析任务。

5.根据权利要求4所述的一种融合GAN和迁移学习的电商评价情感分析方法，其特征在于，所述的生成模型使用长短期记忆网络LSTM，通过递归更新函数将输入嵌入表示序列映射到隐藏状态序列，其中，递归更新函数公式如下：h_t＝g(h_t-1,x_t)

所述的鉴别模型使用卷积神经网络CNN，它将长度为T的序列x₁,......,x_T，通过连接操作组成大小为T×k的矩阵ε_1:T，并使用大小为l×k的卷积核ω在矩阵ε_1:T上卷积，得到新的特征映射。

6.根据权利要求1所述的一种融合GAN和迁移学习的电商评价情感分析方法，其特征在于，所述的步骤S3过程如下：

S31、通过随机权重初始化生成模型和鉴别模型的参数；

7.根据权利要求1所述的一种融合GAN和迁移学习的电商评价情感分析方法，其特征在于，所述的步骤S4过程如下：