CN111538841B

CN111538841B - 基于知识互蒸馏的评论情感分析方法、装置及系统

Info

Publication number: CN111538841B
Application number: CN202010654137.4A
Authority: CN
Inventors: 邬昌兴; 曹柳文
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-16
Anticipated expiration: 2040-07-09
Also published as: CN111538841A

Abstract

本发明提出一种基于知识互蒸馏的评论情感分析方法、装置及系统，所述方法包括：从训练数据集中确定一当前训练实例，基于第一分类器计算得到第一情感预测结果；基于第二分类器计算得到第二情感预测结果，基于第三分类器计算得到第三情感预测结果；根据第一、第二、第三情感预测结果以及真实类别标记，分别计算三个分类器各自对应的总体代价函数并对各总体代价函数进行最小化处理，以对各分类器进行参数迭代更新实现最终收敛。本发明中的三个分类器基于知识互蒸馏的方法互相学习、共同提高，同时利用用户和产品两种属性对评论文本情感的共同影响以及各自的单独影响，从实质上提高不同场合下评论情感分析的性能。

Description

基于知识互蒸馏的评论情感分析方法、装置及系统

技术领域

本发明涉及计算机智能分析处理技术领域，特别涉及一种基于知识互蒸馏的评论情感分析方法、装置及系统。

背景技术

文档级的情感分类是情感分析和意见挖掘领域一项基本且重要的任务。如何从实质上提高情感分析的性能，成为了专家学者们研究的主要课题。例如：某购物网站用户“张三”针对其购买的产品“华为P30”手机发表了评论“这个手机拍的照片挺清晰”，其中“张三”是这条评论的用户属性，“华为P30”是这条评论的产品属性。不同用户的用词习惯可能不同，其对不同产品的喜好程度也可能不同，因此在评论文本情感分析模型中有必要考虑上述两种属性信息。大量的研究工作已经证实，在用户针对产品的评论中，用户属性和产品属性对评论文本的情感影响很大，考虑这两种属性信息的模型比仅考虑评论文本的模型的性能更好。

目前，各种基于深度学习集成用户和产品属性信息的模型可以被粗略地分为两大类：（1）如图1（a）所示，此类模型通常基于一个神经网络把两种属性信息融合到一个评论文本特征表示

中，其被用作特征预测分类概率

。一般通过基于注意力机制的方法或者基于记忆网络的方法实现。从本质上来看，此类模型重点建模了两种属性对评论文本情感的共同影响。（2）如图1（b）所示，此类模型通常先通过两个单独的子网络分别学习一个融合了用户属性信息的文本特征表示

和一个融合了产品属性信息的文本特征表示

，然后融合

和

用于情感分类。此类模型可以认为是更有效地建模了单个属性对评论文本情感的影响，其出发点是：用户和产品属性信息对评论文本的影响本质上是不同的，应该分开集成。

对现有的评论分析模型而言，存在以下两个方面的缺陷：（1）三种评论文本表示

、

和

可以看成从三个不同的角度对评论文本的描述，包含的信息是互补的。然而，现有模型没有有效地整合这三种文本表示，从而未能同时利用两种属性对文本情感的共同影响以及每种属性的单独影响进行综合评价。（2）不能很好地用于现实中常见的某一属性缺失的评论文本。例如，当一个网站允许用户匿名评论的时候或者因为用户隐私的问题，用户属性信息就无法获得。

发明内容

鉴于上述状况，有必要解决现有的情感分析模型中，由于没有整合三种文本表示，从而未能同时利用两种属性对文本情感的共同影响以及每种属性的单独影响进行综合评价，导致影响评论情感分析质量的问题。

本发明实施例提供了一种基于知识互蒸馏的评论情感分析方法，其中，所述方法包括如下步骤：

步骤一：从训练数据集中确定一当前训练实例，基于第一分类器计算得到第一情感预测结果，其中所述第一分类器以带有用户属性以及产品属性的评论文本作为输入，其中所述用户属性表示发表评论文本所对应的不同用户，所述产品属性表示评论文本中的评论对象所指向的不同产品；

步骤二：在忽略所述当前训练实例的产品属性的情况下，基于第二分类器计算得到第二情感预测结果，以及在忽略所述当前训练实例的用户属性的情况下，基于第三分类器计算得到第三情感预测结果，其中所述第二分类器以仅有用户属性的评论文本作为输入，所述第三分类器以仅有产品属性的评论文本作为输入；

步骤三：根据所述第一情感预测结果、所述第二情感预测结果、所述第三情感预测结果以及真实类别标记，分别计算三个分类器各自对应的总体代价函数并对各所述总体代价函数进行最小化处理，以对各分类器进行参数迭代更新实现最终收敛，其中所述真实类别标记为训练数据集中人工标注的情感类别，以用作分类器的训练目标之一，所述第一分类器用于带有用户和产品两种属性的评论情感分析，所述第二分类器用于仅有用户属性的评论情感分析，所述第三分类器用于仅有产品属性的评论情感分析。

所述基于知识互蒸馏的评论情感分析方法，其中，在所述步骤一中，所述当前训练实例表述为：

表示当前训练实例，

表示当前训练实例的评论文本，

表示当前训练实例的用户属性，

表示当前训练实例的产品属性。

所述基于知识互蒸馏的评论情感分析方法，其中，基于第一分类器

计算得到当前训练实例对应的第一情感预测结果表示为：

其中，

为融合了用户和产品属性的评论文本的特征表示，

为第一分类器

中分类层的参数，softmax为用于输出分类概率的归一化函数，

为基于第一分类器

计算得到的当前训练实例对应的第一情感预测结果；

第二分类器

的输入为仅带有用户属性的评论文本

，对应的第二情感预测结果为

；

第三分类器

的输入为仅带有产品属性的评论文本

，对应的第三情感预测结果为

；

其中，

和

均为占位符，分别用于表示缺失的产品属性和用户属性。

所述基于知识互蒸馏的评论情感分析方法，其中，在所述步骤三中，所述第一分类器对应的总体代价函数的计算方法包括如下步骤：

根据所述第一情感预测结果计算得到第一基础代价函数，并根据所述第一基础代价函数以及第一额外代价函数计算得到与所述第一分类器对应的总体代价函数；

所述第一基础代价函数表示为：

其中，

为所述第一基础代价函数，

为第一分类器

的参数集，

表示真实类别标记

的第

个分量，

表示第一情感预测结果

的第

个分量，

指整个训练数据集，

对应的真实类别标记为

,

为一个M维的one-hot编码向量，

表示情感类别的数量；

所述第一额外代价函数表示为：

其中，

为第一额外代价函数，

以及

均指KL距离，

用于衡量第一分类器

与第二分类器

的情感预测结果之间的匹配程度，

用于衡量第一分类器

与第三分类器

的情感预测结果之间的匹配程度，

表示第二情感预测结果

的第

个分量，

表示第三情感预测结果

的第

个分量；

所述第一分类器

对应的总体代价函数表示为：

其中，

为第一分类器

对应的总体代价函数，

表示第一额外代价函数占的比重，即第二分类器

以及第三分类器

提供的情感预测结果在第一分类器

对应的总体代价函数中所占的比重。

所述基于知识互蒸馏的评论情感分析方法，其中，在所述步骤三中，所述第二分类器对应的总体代价函数的计算方法包括如下步骤：

根据第二情感预测结果计算得到第二基础代价函数，并根据所述第二基础代价函数以及第二额外代价函数计算得到与所述第二分类器对应的总体代价函数；

所述第二基础代价函数表示为：

其中，

为所述第二基础代价函数，

是第二分类器

的参数集，

表示真实类别标记

的第

个分量，

表示第二情感预测结果

的第

个分量，

指代整个训练数据集，

对应的真实类别标记为

,

为一个M维的one-hot编码向量，M表示情感类别的数量；

所述第二额外代价函数表示为：

其中，

为第二额外代价函数，

以及

均指KL距离，

用于衡量第二分类器

与第一分类器

的情感预测结果之间的匹配程度，

用于衡量第二分类器

与第三分类器

的情感预测结果之间的匹配程度。

所述基于知识互蒸馏的评论情感分析方法，其中，在所述步骤三中，所述第二分类器对应的总体代价函数表示为：

其中，

为第二分类器

对应的总体代价函数，

为第二分类器

的参数集，

表示第二额外代价函数占的比重，即第一分类器

以及第三分类器

提供的情感预测结果在第二分类器

对应的总体代价函数中所占的比重。

所述基于知识互蒸馏的评论情感分析方法，其中，在所述步骤三中，所述第三分类器对应的总体代价函数的计算方法包括如下步骤：

根据第三情感预测结果计算得到第三基础代价函数，并根据所述第三基础代价函数以及第三额外代价函数计算得到与所述第三分类器对应的总体代价函数；

所述第三基础代价函数表示为：

其中，

为所述第三基础代价函数，

是第三分类器

的参数集，

表示真实类别标记

的第

个分量，

表示第三情感预测结果

的第

个分量，

指整个训练数据集，

对应的真实类别标记为

,

为一个M维的one-hot编码向量，

表示情感类别的数量；

所述第三额外代价函数表示为：

其中，

为第三额外代价函数，

及

均指KL距离，

用于衡量第三分类器

与第一分类器

的情感预测结果之间的匹配程度，

用于衡量第三分类器

与第二分类器

的情感预测结果之间的匹配程度。

所述基于知识互蒸馏的评论情感分析方法，其中，在所述步骤三中，所述第三分类器对应的总体代价函数表示为：

其中，

为第三分类器

对应的总体代价函数，

表示第三额外代价函数占的比重，即第一分类器

以及第二分类器

提供的情感预测结果在第三分类器

对应的总体代价函数中所占的比重。

本发明还提出一种基于知识互蒸馏的评论情感分析装置，其中，所述装置执行如所述的基于知识互蒸馏的评论情感分析方法，所述装置包括：

第一计算模块，用于从训练数据集中确定一当前训练实例，基于第一分类器计算得到第一情感预测结果，其中所述第一分类器以带有用户属性以及产品属性的评论文本作为输入，其中所述用户属性表示发表评论文本所对应的不同用户，所述产品属性表示评论文本中的评论对象所指向的不同产品；

第二计算模块，用于在忽略所述当前训练实例的产品属性的情况下，基于第二分类器计算得到第二情感预测结果，以及在忽略所述当前训练实例的用户属性的情况下，基于第三分类器计算得到第三情感预测结果，其中所述第二分类器以仅有用户属性的评论文本作为输入，所述第三分类器以仅有产品属性的评论文本作为输入；

更新收敛模块，用于根据所述第一情感预测结果、所述第二情感预测结果、所述第三情感预测结果以及真实类别标记，分别计算三个分类器各自对应的总体代价函数并对各所述总体代价函数进行最小化处理，以对各分类器进行参数迭代更新实现最终收敛，其中所述真实类别标记为训练数据集中人工标注的情感类别，以用作分类器的训练目标之一，所述第一分类器用于带有用户和产品两种属性的评论情感分析，所述第二分类器用于仅有用户属性的评论情感分析，所述第三分类器用于仅有产品属性的评论情感分析。

本发明还提出一种基于知识互蒸馏的评论情感分析系统，其中，所述系统包括一控制器，所述控制器执行如上所述的基于知识互蒸馏的评论情感分析方法。

本发明提出的基于知识互蒸馏的评论情感分析方法，综合第一分类器、第二分类器以及第三分类器，分别计算得到对应的第一情感预测结果、第二情感预测结果以及第三情感预测结果，再综合第一情感预测结果、第二情感预测结果以及第三情感预测结果，通过互蒸馏的方式，得到对应的总体代价函数，根据总体代价函数对对应的分类器的参数进行更新直至分析模型收敛，最后将分类器进行发布。与此同时，本发明提出的基于知识互蒸馏的评论情感分析方法，具有如下技术效果：

（1）能够同时利用用户和产品两种属性对评论文本情感的共同影响，以及每种属性对评论文本情感的单独影响，从而实质性地提高情感分析的性能；

（2）既能够用于预测具有用户和产品两种属性的评论文本的情感分类，又能够预测实际场景中常见的缺失了某种属性的评论文本的情感分类；

（3）不依赖于所采用的分类器，且可以很容易扩展到包含两种以上属性的分类任务，具有很强的适用性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为现有的情感评论模型示意图；

图2为本发明第一实施例提出的基于知识互蒸馏的评论情感分析方法的流程图；

图3为本发明第一实施例中集成用户和产品属性的评论文本表示学习神经网络的结构示意图；

图4为本发明第一实施例中知识互蒸馏模型的结构示意图；

图5为本发明第一实施例中知识互蒸馏模型的工作原理示意图；

图6为本发明第二实施例提出的基于知识互蒸馏的评论情感分析装置的结构示意图；

图7为本发明第三实施例提出的基于知识互蒸馏的评论情感分析系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

现有技术中，由于没有整合三种文本表示，从而未能同时利用两种属性对文本情感的共同影响以及每种属性的单独影响进行综合评价，导致影响评论分析的质量。

实施例一：

对于该技术问题，本发明提出一种基于知识互蒸馏的评论情感分析方法，请参阅图2至图5，本发明第一实施例提出的基于知识互蒸馏的评论情感分析方法。

在此需要说明的是，本发明提出的基于知识互蒸馏的评论情感分析方法，是基于集成用户和产品属性的评论文本表示学习神经网络实现的。如图3所示，层次注意力网络（Hierarchical Attention Network, HAN）用于学习评论文本（文档级）的语义表示；简单的多层前馈神经网络（Feed Forward Network, FFN）用于在词级别、句子级别和文档级别把用户属性信息集成到文本表示中；注意力机制（Attention Mechanism）用于把产品属性信息集成到文本表示中，以选择对当前产品重要的词和句子。

具体的，假设一个评论文本

中有

个句子

，每个句子中含有

个词。

表示第i个句子中的所有词，这些词通过预训练好的词向量初始化为

。用户属性

映射为一个可学习的向量

。类似地，产品属性

也映射为一个可学习的向量

。其中，

和

是分类模型的参数，在训练时随机进行初始化。

给定句子中词的向量表示

，一个前馈神经网络

和一个双向长短时记忆网络

分别用于把用户信息和词所在句子中的上下文信息编码到词的表示

中，如以下公式所示：

基于词的表示

，一个融合了产品信息的词级别的注意力机制用于计算句子的向量表示

，如下所示：

其中，

表示第

个句子中的第

个词与当前产品的相关性权重，

表示词级别注意力机制的参数矩阵，

表示对应的参数向量，可学习的词级别的上下文向量

用于衡量句子中的词与当前产品的相关程度，

表示其转置；“；”表示向量的拼接操作，

是计算得到的每个词的相关程度。

给定评论文本中句子的向量表示

，另一个前馈神经网络（

）和另一个双向长短时记忆网络（

）分别用于把用户信息和句子所在文档中的上下文信息编码到句子的表示中，如以下公式所示：

其中，

表示融合了用户属性信息但尚未整合上下文信息的句子表示。

基于句子的表示

，一个融合了产品信息的句子级别的注意力机制用于计算评论文本的向量表示

，如下所示：

其中，

表示第

个句子与当前产品的相关性权重，

表示注意力机制的参数矩阵，

表示对应的参数向量，可学习的句子级别的上下文向量

用于衡量评论文本中的句子与当前产品的相关性程度，

表示其转置，

是计算得到的每个句子的相关程度。

学习到融合了用户和产品信息的评论文本的表示

后，层叠一个softmax层用于计算分类的结果

，如下所示：

其中，

表示分类层的参数矩阵，

表示对应的参数向量。

上述分类模型同时使用了用户和产品两种属性，我们称之为

，对应的参数集

包括：所有用户属性对应的参数向量

，所有产品属性对应的参数向量

，训练数据集中不同用户属性的数量

，训练数据集中不同产品属性的数量

，双向长短时记忆网络

和

中的参数，多层前馈神经网络

、

和

中的参数，注意力机制中的参数

和

，以及分类层参数

。其中，双向长短时记忆网络和多层前馈神经网络都是常用的神经网络结构，它们包含的具体参数在此不再赘述。

第二分类器

同样采用上述网络结构，只需要以

作为输入，学习评论文本的表示

，并计算分类的结果

；用参数向量

代替

中所有产品属性的参数向量表示

即可得到

的参数集

。

类似地，第三分类器

同样采用上述网络结构，只需要以

作为输入，学习评论文本的表示

，并计算分类的结果

；用参数向量

代替

中所有用户属性的参数向量表示

即可得到

的参数集

。需要说明的是，本发明提出模型不依赖于采用的分类器，具有很强的适用性。

进一步的，请参阅图2，本发明提出的基于知识互蒸馏的评论情感分析方法，包括如下步骤：

S101，从训练数据集中确定一当前训练实例，基于第一分类器计算得到第一情感预测结果，其中所述第一分类器以带有用户属性以及产品属性的评论文本作为输入。

在本步骤中，上述当前训练实例对应的表达式为：

表示当前训练实例，

表示当前训练实例的评论文本，

表示当前训练实例的用户属性，

表示当前训练实例的产品属性。在此需要说明的是，用户属性指的是发表评论文本的不同用户，对情感预测结果的影响。产品属性指的是评论文本中的评论对象所指向的不同产品对情感预测结果的影响。

基于第一分类器

计算得到当前训练实例对应的第一情感预测结果表示为：

其中，

为融合了用户和产品属性的评论文本的特征表示，

为第一分类器

中分类层的参数，softmax为用于输出分类概率的归一化函数，

为基于第一分类器

计算得到的当前训练实例对应的第一情感预测结果。

S102，在忽略所述当前训练实例的产品属性的情况下，基于第二分类器计算得到第二情感预测结果，以及在忽略所述当前训练实例的用户属性的情况下，基于第三分类器计算得到第三情感预测结果，其中所述第二分类器以仅有用户属性的评论文本作为输入，所述第三分类器以仅有产品属性的评论文本作为输入。

在本步骤中，需要指出的是，第二分类器

的输入为仅带有用户属性的评论文本

，对应的第二预测结果为

。第三分类器

的输入为仅带有用户属性的评论文本

，对应的第三预测结果为

。

在此需要说明的是，

和

均为占位符，分别用于表示缺失的产品属性和用户属性。

S103，根据所述第一情感预测结果、所述第二情感预测结果、所述第三情感预测结果以及真实类别标记，分别计算三个分类器各自对应的总体代价函数并对各所述总体代价函数进行最小化处理，以对各分类器进行参数迭代更新实现最终收敛。

其中上述的真实类别标记为训练数据集中人工标注的情感类别，用作分类器的训练目标之一。如上述步骤S101所述，在得到了第一分类器

预测的第一情感预测结果

之后，对于多分类任务，通常把预测的概率分布和真实的概率分布之间的交叉熵作为分类器的代价函数。在此对于第一分类器

而言，约定称为第一基础代价函数。

第一基础代价函数表示为：

其中，

为第一基础代价函数，

为第一分类器

的参数集，

表示真实类别标记

的第

个分量，

表示第一情感预测结果

的第

个分量，

指整个训练数据集。其中，训练实例对应的真实类别标记为

,

为一个M维的one-hot(一位)有效编码向量，

表示情感类别的数量。

的取值视具体情况而定，例如，如果是用于2分类（正向情感和负向情感），则M＝2；如果是用于5分类（给评论文本打1~5星），则M＝5；如果是用于10分类（给评论文本打1~10星），则M＝10。

为了更好地训练第一分类器

，使其能够捕获用户属性对评论文本情感的单独影响以及产品属性的单独影响。模型利用第二分类器

和第三分类器

，以知识蒸馏的形式为第一分类器

提供额外的情感预测结果。换言之，同时使用人工标记的类别和第二分类器

和第三分类器

预测的结果引导第一分类器

的训练。因此，可以为第一分类器

定义一个额外的代价函数，在此称为第一额外代价函数，可表示为：

其中，

为第一额外代价函数，

以及

均指KL距离，

用于衡量第一分类器

与第二分类器

的情感预测结果之间的匹配程度，

用于衡量第一分类器

与第三分类器

的情感预测结果之间的匹配程度，

、

以及

分别为第一分类器

、第二分类器

以及第三分类器

的情感预测结果，

表示对应情感预测结果的第

个分量。

最终，第一分类器

对应的总体代价函数表示为：

其中，

为第一分类器

对应的总体代价函数，

表示第一额外代价函数占的比重，即第二分类器

以及第三分类器

提供的情感预测结果在第一分类器

对应的总体代价函数中所占的比重。

类似地，第二分类器

对应的总体代价函数的计算方法包括如下步骤：

根据第二情感预测结果计算得到第二基础代价函数，并根据第二基础代价函数以及第二额外代价函数计算得到与所述第二分类器

对应的总体代价函数。

具体的，第二基础代价函数表示为：

其中，

为所述第二基础代价函数，

是第二分类器

的参数集，

表示真实类别标记

的第

个分量，

表示第二情感预测结果

的第

个分量，

指代整个训练数据集。

第二额外代价函数表示为：

其中，

为第二额外代价函数，

以及

均指KL距离，

用于衡量第二分类器

与第一分类器

的情感预测结果之间的匹配程度，

用于衡量第二分类器

与第三分类器

的情感预测结果之间的匹配程度，

、

以及

分别为第一分类器

、第二分类器

以及第三分类器

的情感预测结果，

表示对应情感预测结果的第

个分量。

最终，第二分类器

对应的总体代价函数表示为：

其中，

为第二分类器

对应的总体代价函数，

表示第二额外代价函数占的比重，即第一分类器

以及第三分类器

提供的情感预测结果在第二分类器

对应的总体代价函数中所占的比重。

类似地，第三分类器

对应的总体代价函数的计算方法包括如下步骤：

根据第三情感预测结果计算得到第三基础代价函数，并根据第三基础代价函数以及第三额外代价函数计算得到与所述第三分类器对应的总体代价函数。

具体的，第三基础代价函数表示为：

其中，

为所述第三基础代价函数，

是第三分类器

的参数集，

表示真实类别标记

的第

个分量，

表示第三情感预测结果

的第

个分量，

指整个训练数据集，

对应的真实类别标记为

,

为一个M维的one-hot编码向量，

表示情感类别的数量；

第三额外代价函数表示为：

其中，

为第三额外代价函数，

及

均指KL距离，

用于衡量第三分类器

与第一分类器

的情感预测结果之间的匹配程度，

用于衡量第三分类器

与第二分类器

的情感预测结果之间的匹配程度。

其中，

为第三分类器

对应的总体代价函数，

表示第三额外代价函数占的比重，即第一分类器

以及第二分类器

提供的情感预测结果在第三分类器

对应的总体代价函数中所占的比重。

如上所述，在计算得到了第一分类器、第二分类器以及第三分类器对应的总体代价函数之后，根据总体代价函数对对应的分类器进行训练。如图4以及图5所示，在整个训练过程中，模型中的三个分类器协同进行训练。

具体地，为了节省训练时间，知识互蒸馏模型基于每组小批量（mini-batch）训练实例，而不是基于每个训练实例，计算梯度并更新一次参数。具体的，训练分类器的目标为最小化各总体代价函数，其具体方式为：根据各自的总体代价函数（最小化处理），利用后向传播算法计算分类器中参数对应的梯度，最后基于所得梯度以及给定的学习率，对分类器中的参数进行更新。在此需要补充说明的是，上述计算梯度并更新参数的步骤，类似于通过计算函数y基于自身变量x的导数。若函数中存在多个自变量，则求偏导数，将多个偏导数组合到一个向量中，则称为梯度。上述的函数指代的为各分类器对应的总体代价函数，上述的自变量指代的为各分类器中的参数。

在每一次迭代过程中，首先分别计算第一分类器

、第二分类器

以及第三分类器

在当前批训练数据上的情感预测结果；然后根据训练数据的真实类别标记和任意两个分类器的情感预测结果计算第三个分类器的代价函数，最小化代价函数并更新其参数。三个分类器同步进行优化，直到收敛。在此需要说明的是，收敛的条件是各分类器的总体代价函数无法再下降，或达到最大的训练轮数K，其中K为人为指定超参数。

模型的具体训练过程如下述算法1所示：如果只有一个GPU可用，训练过程主要包括6个顺序执行的步骤（第5~10步）。如果有三个GPU可用，整个训练过程可以很容易地并行化，从而成倍地提高训练速度。例如，并行地在第一个GPU上执行步骤5和步骤8，在第二个GPU上执行步骤6和步骤9，在第3个GPU执行步骤7和步骤10；在三个GPU之间，仅需要交换分类器预测的结果。

算法1：

步骤1、输入人工标注好的训练数据集

；

步骤2、 /*训练*/

步骤3、重复以下步骤：

步骤4、随机从训练数据中选择一批训练实例；

步骤5、基于第一分类器

计算评论文本情感预测结果

；

步骤6、忽略这一批训练实例的产品属性，并基于第二分类器

计算评论文本情感预测结果

；

步骤7、忽略这一批训练实例的用户属性，并基于第三分类器

计算评论文本情感预测结果

；

步骤8、基于三个情感预测结果

、

和

以及真实的类别标记，计算第一分类器

的总体代价函数

，最小化

并更新

的参数；

步骤9、基于三个情感预测结果

、

和

以及真实的类别标记，计算第二分类器

的总体代价函数

，最小化

并更新

的参数；

步骤10、基于三个情感预测结果

、

和

以及真实的类别标记，计算第三分类器

的总体代价函数

，最小化

并更新

的参数；

步骤11、直到三个分类器均收敛，则结束训练；

步骤12、/*发布*/

步骤13、发布分类器

用于带有用户和产品属性的评论文本；

步骤14、发布分类器

用于仅有用户的评论文本；

步骤15、发布分类器

用于仅有产品属性的评论文本。

本发明提出的基于知识互蒸馏的评论情感分析方法，综合第一分类器、第二分类器以及第三分类器，分别计算得到对应的第一情感预测结果、第二情感预测结果以及第三情感预测结果；再综合第一情感预测结果、第二情感预测结果以及第三情感预测结果，通过互蒸馏的方式，得到对应的总体代价函数，根据总体代价函数对对应的分类器的参数进行更新直至分析模型收敛，最后发布三个分类器。本发明提出的基于知识互蒸馏的评论情感分析方法，具有如下技术效果：（1）能够同时利用用户和产品两种属性对评论文本情感的共同影响，以及每种属性对评论文本情感的单独影响，从而实质性地提高情感分析的性能；（2）既能够用于预测具有用户和产品两种属性的评论文本的情感得分，又能够预测实际场景中常见的缺失了某种属性的评论文本的情感得分；（3）不依赖于所采用的分类器，且可以很容易扩展到包含两种以上属性的分类任务，具有很强的适用性。

实施例二：

请参阅图6，本发明还提出一种基于知识互蒸馏的评论情感分析装置，其中，所述装置包括依次连接的第一计算模块111、第二计算模块112以及更新收敛模块113；

其中所述第一计算模块111具体用于：

用于从训练数据集中确定一当前训练实例，基于第一分类器计算得到第一情感预测结果，其中所述第一分类器以带有用户属性以及产品属性的评论文本作为输入，其中所述用户属性表示发表评论文本所对应的不同用户，所述产品属性表示评论文本中的评论对象所指向的不同产品；

所述第二计算模块112具体用于：

在忽略所述当前训练实例的产品属性的情况下，基于第二分类器计算得到第二情感预测结果，以及在忽略所述当前训练实例的用户属性的情况下，基于第三分类器计算得到第三情感预测结果，其中所述第二分类器以仅有用户属性的评论文本作为输入，所述第三分类器以仅有产品属性的评论文本作为输入；

所述更新收敛模块113具体用于：

根据所述第一情感预测结果、所述第二情感预测结果、所述第三情感预测结果以及真实类别标记，分别计算三个分类器各自对应的总体代价函数并对各所述总体代价函数进行最小化处理，以对各分类器进行参数迭代更新实现最终收敛，其中所述真实类别标记为训练数据集中人工标注的情感类别，以用作分类器的训练目标之一，所述第一分类器用于带有用户和产品两种属性的评论情感分析，所述第二分类器用于仅有用户属性的评论情感分析，所述第三分类器用于仅有产品属性的评论情感分析。

实施例三：

请参阅图7，本发明第三实施例还提出一种基于知识互蒸馏的评论情感分析系统，其中，所述系统包括一控制器11，所述控制器11与第一分类器21、第二分类器22以及第三分类器23电性连接，且各分类器与控制器11之间为双向数据传输。可以理解的，本实施例中中的控制器11，指代的即为第二实施例中的基于知识互蒸馏的评论情感分析装置。在本实施例中，控制器11执行如上述第一实施例所述的的基于知识互蒸馏的评论情感分析方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于知识互蒸馏的评论情感分析方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于知识互蒸馏的评论情感分析方法，其特征在于，在所述步骤一中，所述当前训练实例表述为：

表示当前训练实例，

表示当前训练实例的评论文本，

表示当前训练实例的用户属性，

表示当前训练实例的产品属性。

3.根据权利要求2所述的基于知识互蒸馏的评论情感分析方法，其特征在于，基于第一分类器

计算得到当前训练实例对应的第一情感预测结果表示为：

其中，

为融合了用户和产品属性的评论文本的特征表示，

为第一分类器

中分类层的参数，softmax为用于输出分类概率的归一化函数，

为基于第一分类器

计算得到的当前训练实例对应的第一情感预测结果；

第二分类器

的输入为仅带有用户属性的评论文本

，对应的第二情感预测结果为

；

第三分类器

的输入为仅带有产品属性的评论文本

，对应的第三情感预测结果为

；

其中，

和

均为占位符，分别用于表示缺失的产品属性和用户属性。

4.根据权利要求3所述的基于知识互蒸馏的评论情感分析方法，其特征在于，在所述步骤三中，所述第一分类器对应的总体代价函数的计算方法包括如下步骤：

所述第一基础代价函数表示为：

其中，

为所述第一基础代价函数，

为第一分类器

的参数集，

表示真实类别标记

的第

个分量，

表示第一情感预测结果

的第

个分量，

指整个训练数据集，

对应的真实类别标记为

,

为一个M维的one-hot编码向量，M表示情感类别的数量；

所述第一额外代价函数表示为：

其中，

为第一额外代价函数，

以及

均指KL距离，

用于衡量第一分类器

与第二分类器

的情感预测结果之间的匹配程度，

用于衡量第一分类器

与第三分类器

的情感预测结果之间的匹配程度，

表示第二情感预测结果

的第

个分量，

表示第三情感预测结果

的第

个分量；

所述第一分类器

对应的总体代价函数表示为：

其中，

为第一分类器

对应的总体代价函数，

表示第一额外代价函数占的比重，即第二分类器

以及第三分类器

提供的情感预测结果在第一分类器

对应的总体代价函数中所占的比重。

5.根据权利要求3所述的基于知识互蒸馏的评论情感分析方法，其特征在于，在所述步骤三中，所述第二分类器对应的总体代价函数的计算方法包括如下步骤：

所述第二基础代价函数表示为：

其中，

为所述第二基础代价函数，

是第二分类器

的参数集，

表示真实类别

的第

个分量，

表示第二情感预测结果

的第

个分量，

指代整个训练数据集，

对应的真实类别标记为

,

为一个M维的one-hot编码向量，M表示情感类别的数量；

所述第二额外代价函数表示为：

其中，

为第二额外代价函数，

以及

均指KL距离，

用于衡量第二分类器

与第一分类器

的情感预测结果之间的匹配程度，

用于衡量第二分类器

与第三分类器

的情感预测结果之间的匹配程度，

表示第一情感预测结果

的第

个分量，

表示第三情感预测结果

的第

个分量。

6.根据权利要求5所述的基于知识互蒸馏的评论情感分析方法，其特征在于，在所述步骤三中，所述第二分类器对应的总体代价函数表示为：

其中，

为第二分类器

对应的总体代价函数，

为第二分类器

的参数集，

表示第二额外代价函数占的比重，即第一分类器

以及第三分类器

提供的情感预测结果在第二分类器

对应的总体代价函数中所占的比重。

7.根据权利要求3所述的基于知识互蒸馏的评论情感分析方法，其特征在于，在所述步骤三中，所述第三分类器对应的总体代价函数的计算方法包括如下步骤：

所述第三基础代价函数表示为：

其中，

为所述第三基础代价函数，

是第三分类器

的参数集，

表示真实类别

的第

个分量，

表示第三情感预测结果

的第

个分量，

指整个训练数据集，

对应的真实类别标记为

,

为一个M维的one-hot编码向量，M表示情感类别的数量；

所述第三额外代价函数表示为：

其中，

为第三额外代价函数，

及

均指KL距离，

用于衡量第三分类器

与第一分类器

的情感预测结果之间的匹配程度，

用于衡量第三分类器

与第二分类器

的情感预测结果之间的匹配程度，

表示第一情感预测结果

的第

个分量，

表示第二情感预测结果

的第

个分量。

8.根据权利要求7所述的基于知识互蒸馏的评论情感分析方法，其特征在于，在所述步骤三中，所述第三分类器对应的总体代价函数表示为：

其中，

为第三分类器

对应的总体代价函数，

表示第三额外代价函数占的比重，即第一分类器

以及第二分类器

提供的情感预测结果在第三分类器

对应的总体代价函数中所占的比重。

9.一种基于知识互蒸馏的评论情感分析装置，其特征在于，所述装置执行如上述权利要求1至8任意一项所述的基于知识互蒸馏的评论情感分析方法，所述装置包括：

10.一种基于知识互蒸馏的评论情感分析系统，其特征在于，所述系统包括一控制器，所述控制器执行如上述权利要求1至8任意一项所述的基于知识互蒸馏的评论情感分析方法。