CN112329869A

CN112329869A - 一种冷启动情况下的垃圾评论检测分类系统及方法

Info

Publication number: CN112329869A
Application number: CN202011247482.2A
Authority: CN
Inventors: 司成良; 展华益; 王欣; 骆敏; 蒋伟
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-02-05

Abstract

本发明公开了一种冷启动情况下的垃圾评论检测分类系统及方法，其利用拥有大量数据的老用户上，运用老用户的行为特征和易得信息训练生成对抗网络。然后运用新用户的易得信息用训练好的生成器生成新用户的行为特征，最后将经过领域自适应的生成行为特征对用户进行分类。该方法支持垃圾评论分类，能够在可利用数据十分匮乏时，即冷启动情况下进行垃圾评论检测，并取得良好的效果。

Description

一种冷启动情况下的垃圾评论检测分类系统及方法

技术领域

本发明涉及数据分析技术领域，具体涉及一种冷启动情况下的垃圾评论检测分类系统及方法。

背景技术

随着人工智能的发展，运用人工智能技术进行数据分析成为了一个重要的应用方向。特别是近年来，随着移动互联网技术的迅速发展，在线点评网站拥有大量的评论，而这些评论有可能是垃圾评论，相关技术中，主流方法是基于语言特征和基于行为特征的垃圾评论检测。但是，基于语言学特征进行垃圾评论检测的准确度通常不高；而基于行为特征的垃圾评论检测需要长时间的观察与大量的数据支持，不适用于冷启动问题这样数据匮乏的情况。因此，相关技术中的文本语义理解方法的效果在冷启动情况下并不理想。因此，急需提供一种可以在冷启动情况下进行垃圾评论检测的方法。

发明内容

本发明的目的在于提供一种冷启动情况下的垃圾评论检测分类系统及方法，。该方法支持垃圾评论分类，能够在可利用数据十分匮乏时，即冷启动情况下进行垃圾评论检测，且准确度高，能够对垃圾评论进行精准筛查检测。

为了达到上述技术效果，本发明提供了如下技术方案：

一种冷启动情况下的垃圾评论检测分类系统，包括易得信息生产模块，用于生成新用户与老用户的易得信息；真实行为特征提取模块，用于从老用户的大量数据中提取老用户的真实行为特征；

生成对抗网络模块，用于利用老用户的真实行为特征作为生成对抗网络判别器的真实数据，通过老用户的易得信息作为生成器的限制条件，训练生成对抗网络；

特征生成模块，用于利用在老用户数据集上训练好的生成对抗网络生成器生成新用户的行为特征；

领域自适应模块，用于进行领域自适应，提取其他相关但不同领域的信息；

分类模块，用于将用户通过特征进行分类，判断是否是垃圾评论的生产者。

本发明还提供了一种冷启动情况下的垃圾评论检测分类方法，包括以下步骤：

步骤s1：对于老用户，预处理易得信息；

步骤s2：对于老用户，通过长时间收集到的老用户评论信息生成老用户的行为特征；

步骤s3：对于老用户，利用老用户的行为特征作为生成对抗网络判别器的真实数据，通过老用户的易得信息作为生成器的限制条件，训练生成对抗网络；

步骤s4：对于新用户，预处理易得信息；

步骤s5：将新用户的易得信息都放入步骤s3在老用户数据上得到的生成器，生成新用户的行为特征；

步骤s6：运用迁移学习的方法，对相关但不同领域的评论信息进行自适应操作，得到领域自适应后的新用户行为特征；

步骤s7：将通过s4，s5，s6步骤后得到的新用户行为特征放入分类模型，进行分类，完成垃圾评论检测分类系统。；

进一步的技术方案为，所述步骤s1包括提取老用户的易得特征，具体包括评分信息，属性信息和评论文本信息。

进一步的技术方案为，所述步骤s2包括计算老用户的真实行为特征，具体包括活动窗口期，最大评论数，评论数量，正向评论数，评论者偏移，最大评论内容相似度。

进一步的技术方案为，所述步骤s3具体为：首先，利用老用户的易得信息作为约束，从随机向量生成行为特征，生成对抗网络的判别器则区分输入是来自真实数据还是生成的行为特征，并返回结果，并再次训练生成器，生成器的目的是最大程度生成判别器无法区分的数据，而判别器的目的是最大程度的区分出输入来自真实数据还是生成器，重复这一过程，不断优化生成对抗网络。

进一步的技术方案为，所述步骤s4包括，提取新用户的易得特征，具体包括评分信息，属性信息和评论文本信息。

进一步的技术方案为，所述步骤s5包括，通过新用户的易得信息做约束，生成新用户的行为特征。

进一步的技术方案为，所述步骤s6包括，通过迁移学习中的TCA方法，将相关但不同的领域信息互相利用，来补充信息，从而提高垃圾检测的准确率。

进一步的技术方案为，所述步骤s7包括，将新用户的行为特征放入分类器进行分类，得到垃圾评论检测模型的结果。

与现有技术相比，本发明具有如下有益效果：本发明听出一种可以在冷启动情况下，进行垃圾评论检测的方法和系统，冷启动情况是指在一个新用户发表它的第一条评论时检测是否是垃圾评论，冷启动情况的主要的难点在于可利用的信息较少，无法对用户的行为特征进行很好的描述，而生成对抗网络能够在有限的信息中进行挖掘，得到更多的信息。本发明中选取的有限的信息诸如评论的评分，文本等即使在冷启动情况下也能够轻易获取的信息。通过能够轻易获取的信息利用生成对抗网络来生成用户的行为特征。于是，当本发明面临每一个新的用户撰写的新评论的时候，都运用训练好的生成对抗网络的生成器生成该用户的行为特征，再运用在已经拥有大量行为特征的老用户中训练好的分类器对生成的行为特征进行分类。由此判断该用户是否为垃圾评论生产者。

本发明采用的方法能够在冷启动情况下，也就是新用户发表的第一条评论，判断该评论是否是垃圾评论。利用老用户的数据训练生成对抗网络，再将能够获取到的新用户的信息通过训练好的生成对抗网络的生成器生成新用户的行为特征，该系统成功解决了冷启动情况下新用户数据少的问题，且分类精确准确，应用场景广。

附图说明

图1为本发明冷启动情况下垃圾评论检测分类系统图；

图2为冷启动情况下垃圾评论检测分类系统技术流程图；

图3为生成对抗网络的网络结构。

具体实施方式

下面结合附图和具体实施例对本发明进行进一步的解释和说明。

实施例1

如图1所示，图1为本发明冷启动情况下垃圾评论检测分类系统结构示意图，包括：

易得信息生成模块，用于生成新用户与老用户的易得信息；

真实行为特征特征提取模块，用于从老用户的大量数据中提取老用户的真实行为特征；

实施例2

如图2、图3所示，提供了一种冷启动情况下垃圾评论检测分类方法，具体包括以下步骤：

步骤s1：对于老用户，预处理易得信息；

步骤s4：对于新用户，重复步骤s1；

步骤s7：将通过s4，s5，s6步骤后得到的新用户行为特征放入分类模型，进行分类，完成垃圾评论检测分类系统；

进一步的所述步骤s1的步骤包括：

步骤s11：对于评分信息，设定一个阈值d，若该评论评分r_r与平均评分r_a的差大于阈值，则设为1，小于阈值则设为0，表示为式

步骤s12：提取用户预设属性信息；

步骤s13：运用卷积神经网络提取词向量的方法将评论的文本提取为向量表示；

进一步的所述步骤s2的步骤包括：

步骤s21：计算活动窗口期用户最后一条评论的发表日期d_e和第一条评论发表日期d_s的差：AW＝d_e-d_s；

步骤s22：统计最大评论数最大评论数MNR＝max(R_i)，其中R_i为第i天用户的评论数；

步骤s23：计算评论数量评论数量RC＝∑R_i，其中R_i为第i天用户的评论数；

步骤s24：计算正向评论数

其中R_p积极评论数，R_n为消极评论数；

步骤s25：计算评论者偏移RD为用户发表的每一条评论的评分与该评论评论的商品的平均评分的差值的平均数：

其中r_ri为用户第i条评论的评分，r_pi为用户第i条评论评价的商品的平均评分；

步骤s26：计算最大评论内容相似度MCS＝max(cos(V_ti，V_tj))(i≠j)。其中cos(.)表示向量间的余弦相似度，V_ti，V_tj表示一个用户的第i条和第j条评论，自然，i≠j。注意，如果用户只有一条评论，MCS致为1。

进一步的所述步骤s3的步骤包括：

为了方便叙述，做出以下定义和阐述，将步骤s1中得到的易得信息简写为EAF，将步骤s2中选取并计算的真实行为特征(real behavior features)简写为RBF，相应的，将生成器中生成的生成行为特征(synthetic behavior features)简写为SBF。

生成器：一个生成网络G(.)，通过密度为p_z的随机输入z训练具有目标相似概率分布的输出x_g＝G(z)。

判别器：一个判别网络D(.)，判别输入x是来自与生成器G或真实数据，其中x可能是具有密度p_t的真实数据或由生成器G生成的密度为p_z的“假”数据。

步骤s31：以易得信息作为约束条件训练生成对抗网络的生成器，生成器的损失函数L_G由两部分组成，一个是用来误导判别器的任务损失函数L_t，而另一个则是使生成的SBFs与RBFs拥有更相似的分布的相近损失函数L_c。我们使用交叉熵来定义整个生成器的损失函数：

其中D(.)是一个由tanh激活的判别函数，EAF₊是与RBF或SBF对应的正向EAF，

表示两个向量表示的卷积和。

步骤s32：以老用户的真实行为特征作为生成对抗网络判别器的真实数据，判别器应该能够判别出来源于真实训练数据的(EAF₊，RBF)对为真，而来自于生成器的(EAF₊，SBF)对为假。因此，我们定义两个损失

函数

以及

来满足这个目的。在判别器中的另一个误差来源可能是非真实的行为特征。为了分开两种误差的来源，我们添加了由RBFs和不与这个RBFs对应的EAFs组成的第三种输入，显然，判别器应该能狗判别出这种输入为假。我们将这个损失函数表示为

所以，整个判别器的损失函数为：

步骤s33：训练生成器生成SBFs，运用判别器判断判别器的输入来自生成器还是真实数据，并返回结果，也就是训练判别器；

步骤s34：重复步骤s33的过程，优化生成器和判别器，生成器的目的是误导判别器，而判别器的目标则是区分出生成器生成的数据。所以，训练生成器时，我们想要最大化上述误差而训练判别器时则想要最小化上述误差。用公式表示这一博弈过程max_G(min_D E(G，D))。

进一步的所述步骤s5的步骤包括：

步骤s51：提取s3中训练好的生成对抗网络的生成器；

步骤s52：在步骤s4中得到的新用户易得信息上运用步骤s51中的生成器，得到新用户的生成行为特征。

进一步的所述步骤s6的步骤包括：

步骤s61：运用迁移学习中TCA领域自适应的方法找到相关但不同的两个领域的跨域分量；

步骤s62：最小化两领域之间的距离，保留两个相关但不同领域的独特性的同时，提取另一领域的信息。

采用上述步骤：能够在冷启动情况下，也就是新用户发表的第一条评论，判断该评论是否是垃圾评论。利用老用户的数据训练生成对抗网络，再将能够获取到的新用户的信息通过训练好的生成对抗网络的生成器生成新用户的行为特征，该方法成功解决了冷启动情况下新用户数据少的问题，且分类精确准确，应用场景广。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种冷启动情况下的垃圾评论检测分类系统，其特征在于，包括易得信息生产模块，用于生成新用户与老用户的易得信息；真实行为特征提取模块，用于从老用户的大量数据中提取老用户的真实行为特征；

生成对抗网络模块，利用老用户的真实行为特征作为生成对抗网络判别器的真实数据，通过老用户的易得信息作为生成器的限制条件，训练生成对抗网络；

特征生成模块，利用在老用户数据集上训练好的生成对抗网络生成器生成新用户的行为特征；

2.一种冷启动情况下的垃圾评论检测分类方法，其特征在于，包括以下步骤：

步骤s1：对于老用户，预处理易得信息；

步骤s4：对于新用户，预处理易得信息；

步骤s7：将通过s4，s5，s6步骤后得到的新用户行为特征放入分类模型，进行分类，完成垃圾评论检测分类系统。

3.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法，其特征在于，所述步骤s1包括提取老用户的易得特征，具体包括评分信息，属性信息和评论文本信息。

4.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法，其特征在于，所述步骤s2包括计算老用户的真实行为特征，具体包括活动窗口期，最大评论数，评论数量，正向评论数，评论者偏移，最大评论内容相似度。

5.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法，其特征在于，所述步骤s3具体为：首先，利用老用户的易得信息作为约束，从随机向量生成行为特征，生成对抗网络的判别器则区分输入是来自真实数据还是生成的行为特征，并返回结果，并再次训练生成器，生成器的目的是最大程度生成判别器无法区分的数据，而判别器的目的是最大程度的区分出输入来自真实数据还是生成器，重复这一过程，不断优化生成对抗网络。

6.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法，其特征在于，所述步骤s4包括，提取新用户的易得特征，具体包括评分信息，属性信息和评论文本信息。

7.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法，其特征在于，所述步骤s5包括，通过新用户的易得信息做约束，生成新用户的行为特征。

8.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法，其特征在于，所述步骤s6包括，通过迁移学习中的TCA方法，将相关但不同的领域信息互相利用，来补充信息，从而提高垃圾检测的准确率。

9.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法，其特征在于，所述步骤s7包括，将新用户的行为特征放入分类器进行分类，得到垃圾评论检测模型的结果。