CN112329869A - 一种冷启动情况下的垃圾评论检测分类系统及方法 - Google Patents

一种冷启动情况下的垃圾评论检测分类系统及方法 Download PDF

Info

Publication number
CN112329869A
CN112329869A CN202011247482.2A CN202011247482A CN112329869A CN 112329869 A CN112329869 A CN 112329869A CN 202011247482 A CN202011247482 A CN 202011247482A CN 112329869 A CN112329869 A CN 112329869A
Authority
CN
China
Prior art keywords
information
comment
spam
user
behavior characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011247482.2A
Other languages
English (en)
Inventor
司成良
展华益
王欣
骆敏
蒋伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202011247482.2A priority Critical patent/CN112329869A/zh
Publication of CN112329869A publication Critical patent/CN112329869A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种冷启动情况下的垃圾评论检测分类系统及方法,其利用拥有大量数据的老用户上,运用老用户的行为特征和易得信息训练生成对抗网络。然后运用新用户的易得信息用训练好的生成器生成新用户的行为特征,最后将经过领域自适应的生成行为特征对用户进行分类。该方法支持垃圾评论分类,能够在可利用数据十分匮乏时,即冷启动情况下进行垃圾评论检测,并取得良好的效果。

Description

一种冷启动情况下的垃圾评论检测分类系统及方法
技术领域
本发明涉及数据分析技术领域,具体涉及一种冷启动情况下的垃圾评论检测分类系统及方法。
背景技术
随着人工智能的发展,运用人工智能技术进行数据分析成为了一个重要的应用方向。特别是近年来,随着移动互联网技术的迅速发展,在线点评网站拥有大量的评论,而这些评论有可能是垃圾评论,相关技术中,主流方法是基于语言特征和基于行为特征的垃圾评论检测。但是,基于语言学特征进行垃圾评论检测的准确度通常不高;而基于行为特征的垃圾评论检测需要长时间的观察与大量的数据支持,不适用于冷启动问题这样数据匮乏的情况。因此,相关技术中的文本语义理解方法的效果在冷启动情况下并不理想。因此,急需提供一种可以在冷启动情况下进行垃圾评论检测的方法。
发明内容
本发明的目的在于提供一种冷启动情况下的垃圾评论检测分类系统及方法,。该方法支持垃圾评论分类,能够在可利用数据十分匮乏时,即冷启动情况下进行垃圾评论检测,且准确度高,能够对垃圾评论进行精准筛查检测。
为了达到上述技术效果,本发明提供了如下技术方案:
一种冷启动情况下的垃圾评论检测分类系统,包括易得信息生产模块,用于生成新用户与老用户的易得信息;真实行为特征提取模块,用于从老用户的大量数据中提取老用户的真实行为特征;
生成对抗网络模块,用于利用老用户的真实行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
特征生成模块,用于利用在老用户数据集上训练好的生成对抗网络生成器生成新用户的行为特征;
领域自适应模块,用于进行领域自适应,提取其他相关但不同领域的信息;
分类模块,用于将用户通过特征进行分类,判断是否是垃圾评论的生产者。
本发明还提供了一种冷启动情况下的垃圾评论检测分类方法,包括以下步骤:
步骤s1:对于老用户,预处理易得信息;
步骤s2:对于老用户,通过长时间收集到的老用户评论信息生成老用户的行为特征;
步骤s3:对于老用户,利用老用户的行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
步骤s4:对于新用户,预处理易得信息;
步骤s5:将新用户的易得信息都放入步骤s3在老用户数据上得到的生成器,生成新用户的行为特征;
步骤s6:运用迁移学习的方法,对相关但不同领域的评论信息进行自适应操作,得到领域自适应后的新用户行为特征;
步骤s7:将通过s4,s5,s6步骤后得到的新用户行为特征放入分类模型,进行分类,完成垃圾评论检测分类系统。;
进一步的技术方案为,所述步骤s1包括提取老用户的易得特征,具体包括评分信息,属性信息和评论文本信息。
进一步的技术方案为,所述步骤s2包括计算老用户的真实行为特征,具体包括活动窗口期,最大评论数,评论数量,正向评论数,评论者偏移,最大评论内容相似度。
进一步的技术方案为,所述步骤s3具体为:首先,利用老用户的易得信息作为约束,从随机向量生成行为特征,生成对抗网络的判别器则区分输入是来自真实数据还是生成的行为特征,并返回结果,并再次训练生成器,生成器的目的是最大程度生成判别器无法区分的数据,而判别器的目的是最大程度的区分出输入来自真实数据还是生成器,重复这一过程,不断优化生成对抗网络。
进一步的技术方案为,所述步骤s4包括,提取新用户的易得特征,具体包括评分信息,属性信息和评论文本信息。
进一步的技术方案为,所述步骤s5包括,通过新用户的易得信息做约束,生成新用户的行为特征。
进一步的技术方案为,所述步骤s6包括,通过迁移学习中的TCA方法,将相关但不同的领域信息互相利用,来补充信息,从而提高垃圾检测的准确率。
进一步的技术方案为,所述步骤s7包括,将新用户的行为特征放入分类器进行分类,得到垃圾评论检测模型的结果。
与现有技术相比,本发明具有如下有益效果:本发明听出一种可以在冷启动情况下,进行垃圾评论检测的方法和系统,冷启动情况是指在一个新用户发表它的第一条评论时检测是否是垃圾评论,冷启动情况的主要的难点在于可利用的信息较少,无法对用户的行为特征进行很好的描述,而生成对抗网络能够在有限的信息中进行挖掘,得到更多的信息。本发明中选取的有限的信息诸如评论的评分,文本等即使在冷启动情况下也能够轻易获取的信息。通过能够轻易获取的信息利用生成对抗网络来生成用户的行为特征。于是,当本发明面临每一个新的用户撰写的新评论的时候,都运用训练好的生成对抗网络的生成器生成该用户的行为特征,再运用在已经拥有大量行为特征的老用户中训练好的分类器对生成的行为特征进行分类。由此判断该用户是否为垃圾评论生产者。
本发明采用的方法能够在冷启动情况下,也就是新用户发表的第一条评论,判断该评论是否是垃圾评论。利用老用户的数据训练生成对抗网络,再将能够获取到的新用户的信息通过训练好的生成对抗网络的生成器生成新用户的行为特征,该系统成功解决了冷启动情况下新用户数据少的问题,且分类精确准确,应用场景广。
附图说明
图1为本发明冷启动情况下垃圾评论检测分类系统图;
图2为冷启动情况下垃圾评论检测分类系统技术流程图;
图3为生成对抗网络的网络结构。
具体实施方式
下面结合附图和具体实施例对本发明进行进一步的解释和说明。
实施例1
如图1所示,图1为本发明冷启动情况下垃圾评论检测分类系统结构示意图,包括:
易得信息生成模块,用于生成新用户与老用户的易得信息;
真实行为特征特征提取模块,用于从老用户的大量数据中提取老用户的真实行为特征;
生成对抗网络模块,用于利用老用户的真实行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
特征生成模块,用于利用在老用户数据集上训练好的生成对抗网络生成器生成新用户的行为特征;
领域自适应模块,用于进行领域自适应,提取其他相关但不同领域的信息;
分类模块,用于将用户通过特征进行分类,判断是否是垃圾评论的生产者。
实施例2
如图2、图3所示,提供了一种冷启动情况下垃圾评论检测分类方法,具体包括以下步骤:
步骤s1:对于老用户,预处理易得信息;
步骤s2:对于老用户,通过长时间收集到的老用户评论信息生成老用户的行为特征;
步骤s3:对于老用户,利用老用户的行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
步骤s4:对于新用户,重复步骤s1;
步骤s5:将新用户的易得信息都放入步骤s3在老用户数据上得到的生成器,生成新用户的行为特征;
步骤s6:运用迁移学习的方法,对相关但不同领域的评论信息进行自适应操作,得到领域自适应后的新用户行为特征;
步骤s7:将通过s4,s5,s6步骤后得到的新用户行为特征放入分类模型,进行分类,完成垃圾评论检测分类系统;
进一步的所述步骤s1的步骤包括:
步骤s11:对于评分信息,设定一个阈值d,若该评论评分rr与平均评分ra的差大于阈值,则设为1,小于阈值则设为0,表示为式
Figure BDA0002770510680000051
步骤s12:提取用户预设属性信息;
步骤s13:运用卷积神经网络提取词向量的方法将评论的文本提取为向量表示;
进一步的所述步骤s2的步骤包括:
步骤s21:计算活动窗口期用户最后一条评论的发表日期de和第一条评论发表日期ds的差:AW=de-ds
步骤s22:统计最大评论数最大评论数MNR=max(Ri),其中Ri为第i天用户的评论数;
步骤s23:计算评论数量评论数量RC=∑Ri,其中Ri为第i天用户的评论数;
步骤s24:计算正向评论数
Figure BDA0002770510680000061
其中Rp积极评论数,Rn为消极评论数;
步骤s25:计算评论者偏移RD为用户发表的每一条评论的评分与该评论评论的商品的平均评分的差值的平均数:
Figure BDA0002770510680000062
其中rri为用户第i条评论的评分,rpi为用户第i条评论评价的商品的平均评分;
步骤s26:计算最大评论内容相似度MCS=max(cos(Vti,Vtj))(i≠j)。其中cos(.)表示向量间的余弦相似度,Vti,Vtj表示一个用户的第i条和第j条评论,自然,i≠j。注意,如果用户只有一条评论,MCS致为1。
进一步的所述步骤s3的步骤包括:
为了方便叙述,做出以下定义和阐述,将步骤s1中得到的易得信息简写为EAF,将步骤s2中选取并计算的真实行为特征(real behavior features)简写为RBF,相应的,将生成器中生成的生成行为特征(synthetic behavior features)简写为SBF。
生成器:一个生成网络G(.),通过密度为p_z的随机输入z训练具有目标相似概率分布的输出x_g=G(z)。
判别器:一个判别网络D(.),判别输入x是来自与生成器G或真实数据,其中x可能是具有密度p_t的真实数据或由生成器G生成的密度为p_z的“假”数据。
步骤s31:以易得信息作为约束条件训练生成对抗网络的生成器,生成器的损失函数LG由两部分组成,一个是用来误导判别器的任务损失函数Lt,而另一个则是使生成的SBFs与RBFs拥有更相似的分布的相近损失函数Lc。我们使用交叉熵来定义整个生成器的损失函数:
Figure BDA0002770510680000071
其中D(.)是一个由tanh激活的判别函数,EAF+是与RBF或SBF对应的正向EAF,
Figure BDA0002770510680000072
表示两个向量表示的卷积和。
步骤s32:以老用户的真实行为特征作为生成对抗网络判别器的真实数据,判别器应该能够判别出来源于真实训练数据的(EAF+,RBF)对为真,而来自于生成器的(EAF+,SBF)对为假。因此,我们定义两个损失
函数
Figure BDA0002770510680000073
以及
Figure BDA0002770510680000074
来满足这个目的。在判别器中的另一个误差来源可能是非真实的行为特征。为了分开两种误差的来源,我们添加了由RBFs和不与这个RBFs对应的EAFs组成的第三种输入,显然,判别器应该能狗判别出这种输入为假。我们将这个损失函数表示为
Figure BDA0002770510680000075
所以,整个判别器的损失函数为:
Figure BDA0002770510680000076
步骤s33:训练生成器生成SBFs,运用判别器判断判别器的输入来自生成器还是真实数据,并返回结果,也就是训练判别器;
步骤s34:重复步骤s33的过程,优化生成器和判别器,生成器的目的是误导判别器,而判别器的目标则是区分出生成器生成的数据。所以,训练生成器时,我们想要最大化上述误差而训练判别器时则想要最小化上述误差。用公式表示这一博弈过程maxG(minD E(G,D))。
进一步的所述步骤s5的步骤包括:
步骤s51:提取s3中训练好的生成对抗网络的生成器;
步骤s52:在步骤s4中得到的新用户易得信息上运用步骤s51中的生成器,得到新用户的生成行为特征。
进一步的所述步骤s6的步骤包括:
步骤s61:运用迁移学习中TCA领域自适应的方法找到相关但不同的两个领域的跨域分量;
步骤s62:最小化两领域之间的距离,保留两个相关但不同领域的独特性的同时,提取另一领域的信息。
采用上述步骤:能够在冷启动情况下,也就是新用户发表的第一条评论,判断该评论是否是垃圾评论。利用老用户的数据训练生成对抗网络,再将能够获取到的新用户的信息通过训练好的生成对抗网络的生成器生成新用户的行为特征,该方法成功解决了冷启动情况下新用户数据少的问题,且分类精确准确,应用场景广。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (9)

1.一种冷启动情况下的垃圾评论检测分类系统,其特征在于,包括易得信息生产模块,用于生成新用户与老用户的易得信息;真实行为特征提取模块,用于从老用户的大量数据中提取老用户的真实行为特征;
生成对抗网络模块,利用老用户的真实行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
特征生成模块,利用在老用户数据集上训练好的生成对抗网络生成器生成新用户的行为特征;
领域自适应模块,用于进行领域自适应,提取其他相关但不同领域的信息;
分类模块,用于将用户通过特征进行分类,判断是否是垃圾评论的生产者。
2.一种冷启动情况下的垃圾评论检测分类方法,其特征在于,包括以下步骤:
步骤s1:对于老用户,预处理易得信息;
步骤s2:对于老用户,通过长时间收集到的老用户评论信息生成老用户的行为特征;
步骤s3:对于老用户,利用老用户的行为特征作为生成对抗网络判别器的真实数据,通过老用户的易得信息作为生成器的限制条件,训练生成对抗网络;
步骤s4:对于新用户,预处理易得信息;
步骤s5:将新用户的易得信息都放入步骤s3在老用户数据上得到的生成器,生成新用户的行为特征;
步骤s6:运用迁移学习的方法,对相关但不同领域的评论信息进行自适应操作,得到领域自适应后的新用户行为特征;
步骤s7:将通过s4,s5,s6步骤后得到的新用户行为特征放入分类模型,进行分类,完成垃圾评论检测分类系统。
3.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s1包括提取老用户的易得特征,具体包括评分信息,属性信息和评论文本信息。
4.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s2包括计算老用户的真实行为特征,具体包括活动窗口期,最大评论数,评论数量,正向评论数,评论者偏移,最大评论内容相似度。
5.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s3具体为:首先,利用老用户的易得信息作为约束,从随机向量生成行为特征,生成对抗网络的判别器则区分输入是来自真实数据还是生成的行为特征,并返回结果,并再次训练生成器,生成器的目的是最大程度生成判别器无法区分的数据,而判别器的目的是最大程度的区分出输入来自真实数据还是生成器,重复这一过程,不断优化生成对抗网络。
6.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s4包括,提取新用户的易得特征,具体包括评分信息,属性信息和评论文本信息。
7.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s5包括,通过新用户的易得信息做约束,生成新用户的行为特征。
8.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s6包括,通过迁移学习中的TCA方法,将相关但不同的领域信息互相利用,来补充信息,从而提高垃圾检测的准确率。
9.根据权利要求2所述的冷启动情况下的垃圾评论检测分类方法,其特征在于,所述步骤s7包括,将新用户的行为特征放入分类器进行分类,得到垃圾评论检测模型的结果。
CN202011247482.2A 2020-11-10 2020-11-10 一种冷启动情况下的垃圾评论检测分类系统及方法 Pending CN112329869A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011247482.2A CN112329869A (zh) 2020-11-10 2020-11-10 一种冷启动情况下的垃圾评论检测分类系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011247482.2A CN112329869A (zh) 2020-11-10 2020-11-10 一种冷启动情况下的垃圾评论检测分类系统及方法

Publications (1)

Publication Number Publication Date
CN112329869A true CN112329869A (zh) 2021-02-05

Family

ID=74317368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011247482.2A Pending CN112329869A (zh) 2020-11-10 2020-11-10 一种冷启动情况下的垃圾评论检测分类系统及方法

Country Status (1)

Country Link
CN (1) CN112329869A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442781A (zh) * 2019-06-28 2019-11-12 武汉大学 一种基于生成对抗网络的对级排序项目推荐方法
CN111767403A (zh) * 2020-07-07 2020-10-13 腾讯科技(深圳)有限公司 一种文本分类方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442781A (zh) * 2019-06-28 2019-11-12 武汉大学 一种基于生成对抗网络的对级排序项目推荐方法
CN111767403A (zh) * 2020-07-07 2020-10-13 腾讯科技(深圳)有限公司 一种文本分类方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
??.0427: "利用GAN来为冷启动用户生成行为特征完成yelp数据集上,冷启动垃圾识别的问题", 《HTTPS://BLOG.CSDN.NET/LILY960427/ARTICLE/DETAILS/92095912》 *
XIAOYA TANG等: "Generating Behavior Features for Cold-Start Spam Review Detection", 《DASFAA 2019: DATABASE SYSTEMS FOR ADVANCED APPLICATIONS》 *

Similar Documents

Publication Publication Date Title
CN104268197B (zh) 一种行业评论数据细粒度情感分析方法
CN105022805B (zh) 一种基于so-pmi商品评价信息的情感分析方法
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN107908715A (zh) 基于Adaboost和分类器加权融合的微博情感极性判别方法
Probierz et al. Rapid detection of fake news based on machine learning methods
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN105005553A (zh) 基于情感词典的短文本情感倾向分析方法
CN111831790A (zh) 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
CN110990564A (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
Sujana et al. Rumor detection on Twitter using multiloss hierarchical BiLSTM with an attenuation factor
Baria et al. Theoretical evaluation of machine and deep learning for detecting fake news
CN115309860B (zh) 基于伪孪生网络的虚假新闻检测方法
Islam et al. Deep learning for multi-labeled cyberbully detection: Enhancing online safety
Jin et al. Image credibility analysis with effective domain transferred deep networks
Marulli et al. Exploring a federated learning approach to enhance authorship attribution of misleading information from heterogeneous sources
Rajesh et al. Fraudulent news detection using machine learning approaches
Kang et al. Utilization strategy of user engagements in korean fake news detection
Zhao et al. Fuzzy sentiment membership determining for sentiment classification
Mathur et al. Analysis of tweets for cyberbullying detection
Guo et al. In opinion holders’ shoes: Modeling cumulative influence for view change in online argumentation
Hamida et al. Hybrid-MELAu: A Hybrid Mixing Engineered Linguistic Features Framework Based on Autoencoder for Social Bot Detection.
CN112329869A (zh) 一种冷启动情况下的垃圾评论检测分类系统及方法
Subhash et al. Fake News Detection Using Deep Learning and Transformer-Based Model
Liang et al. THU-HCSI at SemEval-2019 task 3: hierarchical ensemble classification of contextual emotion in conversation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205