CN109241518B - 一种基于情感分析的检测网络水军方法 - Google Patents

一种基于情感分析的检测网络水军方法 Download PDF

Info

Publication number
CN109241518B
CN109241518B CN201710559558.7A CN201710559558A CN109241518B CN 109241518 B CN109241518 B CN 109241518B CN 201710559558 A CN201710559558 A CN 201710559558A CN 109241518 B CN109241518 B CN 109241518B
Authority
CN
China
Prior art keywords
data
comment
emotion
feature
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710559558.7A
Other languages
English (en)
Other versions
CN109241518A (zh
Inventor
陈彤
相迎宵
刘京京
王盈地
白肖璇
彭紫荆
孙志巍
关哲林
牛温佳
刘吉强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201710559558.7A priority Critical patent/CN109241518B/zh
Publication of CN109241518A publication Critical patent/CN109241518A/zh
Application granted granted Critical
Publication of CN109241518B publication Critical patent/CN109241518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于情感分析的检测网络水军方法,其特征在于,包括:获取网页评论数据,将所述评论数据进行数据预处理,将预处理过的数据分为测试数据集和训练数据集,将两种数据集构建成语料库,并进行手动情感分类,将两种数据集进行文本预处理后,运用设定分类器对训练数据集进行数据处理,生成分类模型,利用测试数据集测试分类模型精确度,然后运用已生成精确度高的分类模型对待检测数据进行自动情感分类;最后进行数据规则匹配,检测出网络水军。本发明集成了数据爬取、数据预处理、词袋模型建立、分类器构建以及规则设置五个功能模块,实现对网络水军进行快速检测的算法,在提高算法检测速度的同时,保证对用户评论的情感分类精确度。

Description

一种基于情感分析的检测网络水军方法
技术领域
本发明涉及网络水军检测技术领域,尤其涉及一种基于情感分析的检测网络水军方法。
背景技术
近年来随着互联网技术的快速发展,人与人之间的联系变得日益密切起来。而像社交网络与电子商务,这样的网络服务平台以其高效便利性,渐渐进入人们的生活。微博、微信、推特、Facebook等社交网络的使用越来越普遍,我们可以进行网上购物,甚至利用互联网预订机票以及酒店。随着互联网技术的发展,出现了一种新兴的职业——网络水军,成为了近几年的一个研究的重点话题。在大多数的案例中,网络水军是支持其雇佣者言论或声明,对其竞争对手进行打击的,受雇群体或个人。为了避免这种不公平甚至是违法现象的出现,研究对网络水军的检测、识别技术是非常必要的。
对网络水军进行检测的方法主要有基于内容的检测方法,和基于行为的检测方法两种。针对网络水军的一些早期研究主要集中在对其内容的研究上,这是因为在早期的网络环境中,网络水军的内容有非常容易进行辨认的显著特征。基于内容的方法主要适用于对电子邮件以及网上论坛上网络水军的检测,通过内容的特征对网络水军进行检测,例如内容的词语以及主题、词语的标签以及内容的点击率等等。与此同时,网络水军的行为与一般用户是不相同的,因此基于行为特征的检测方法对网络水军进行检测,例如转发频率、回复时间频率以及活跃等级等等。
近几年,基于内容特征对网络水军进行检测方法中的一个新兴的趋势,是基于情感分析对网络水军进行检测。而这种情感是与网络水军的“隐蔽性”密不可分的。众所周知,“对抗性”是网络水军一个最基本的行为特征,“对抗性”指的是网络水军固有的,与当前存在的各种各样的网络水军检测识别技术的对抗特性,以达到在不被公众发现的前提条件下完成对舆论导向控制的目的。如果网络水军被系统检测到,这些网络水军的帐号就会被网站查封,而再次汇集到如此众多的网络水军帐号的代价是非常高昂的。因此,网络水军在采取行动的时候会非常注重“隐蔽性”,而网络水军的“情感”与“隐蔽性”也有着非常密切的联系,网络水军可以在好评如潮的产品下加入消极的评价,或者在差评如潮的产品下加入积极的评价。这种主流的网络水军行为是非常容易被发现的,但是如果网络水军在好评如潮的产品下,同样给出一个好评的评价,但是却在评论的内容中给出一个消极的评论,通过这种方式网络水军就能够在不那么容易被发现的前提条件下实现对公主舆论的控制。这种网络水军的工作方式,与主流的网络水军工作方式不同,但确实是网络水军工作的一个新趋势。这种评价打分与评论内容不一致的线索,是我们对网络水军进行检测的新线索。
通过观察淘宝网站的商品评论,发现淘宝商品信息页面可以通过用户的评分等级对评论内容进行分类,分为“好评”、“中评”、“差评”三类,每件商品的中评和差评数量都很少,好评的评论数量占绝大部分。但是通过浏览评论内容可以发现,在好评中却夹杂着很多负面的评价。这种评级与评论内容情感的不匹配是违背正常的评论模式的,我们可以认为这是一种异常评论,而这种异常评论有极大的可能不是正常的购物用户所发表的,而是水军为了诋毁对手商品而故意发表的负面评论。这些评论水军通过给予好评而隐藏在大量好评分类评论中,通过页面上所提供的评论分类的数量不易发现。而当用户在实际浏览好评分类的过程中必然会遇到很多负面评价,而这种诋毁性评论会削弱消费者的购买倾向,并且会导致用户对于产品的不信任,甚至怀疑其它好评内容的真实性。所以本发明旨在针对淘宝网站中这些评分与评论内容不匹配的隐式网络水军行为进行检测。
发明内容
本发明的实施例提供了一种基于情感分析的检测网络水军方法,集成包括数据爬取、数据预处理、词袋模型建立、分类器构建以及规则设置五个功能模块,提出一种实现对网络水军进行快速检测的算法,在提高算法检测速度的同时,保证其对用户评论的情感分类精确度。
为了实现上述目的,本发明采取了如下技术方案:
一种基于情感分析的检测网络水军方法,包括:
S1:获取网页评论数据,将所述评论数据进行数据预处理,得到精简数据;
S2:将所述精简数据分为第一数据集、第二数据集,将所述第一数据集和所述第二数据集进行手动数据情感分析处理后构建成语料库;
S3:将所述第一数据集和第二数据集进行文本预处理,得到第一文本特征向量和第二文本特征向量;
S4:读取所述语料库,运用设定分类器对所述第一文本特征向量进行数据处理,生成分类模型,利用所述第二文本特征向量测试所述分类模型精确度;
S5:所述分类模型精确度测试合格后,运用所述分类模型对待检测数据进行数据处理,得出具有情感类别标签的数据;
S6:运用设定规则对所述具有情感类别标签的数据进行分析匹配,检测出网络水军。
进一步地,所述的S1包括:
选取热门平台下的评论数据进行爬取,去除所述评论数据中的系统默认评论数据,去除所述评论数据中的评论等级为“中评”的评论数据。
进一步地,所述的S2包括:
所述第一数据集为训练数据集,所述第二数据集为测试数据集,所述的数据情感分析为将数据划分消极或积极两个情感类别,将所述训练数据集和所述测试数据集进行手动数据情感分析处理后,构建成语料库。
进一步地,所述的S3包括:
所述的特征向量生成过程分为如下步骤:
(1)中文分词
运用ICTCLAS中文分词器对评论数据进行分词并统计每一个词汇的词频,将评论数据的文本内容进行拆分成若干词汇,将所述若干词汇及所述若干词汇的词频代表一个文档;
(2)特征选取
运用CHI卡方检验对所述词汇进行特征选择,通过计算每个所述词汇的CHI值,按照从大到小进行排序,得出具有特征词汇,计算公式如下:
Figure BDA0001346703070000051
将公式应用到检测算法中的计算过程即为:c表示两个情感类别,t表示每个情感类别下的词汇,通过计算t和c的CHI值,得到每个词汇与对应情感类别的相关程度,然后通过排序选择出每个情感类别的特征词汇;以e表示特征词汇,则每个情感类别最终的特征词汇集表示如下:
{e1,e2,e3,……,em}
(3)计算特征权重
利用CHI卡方检验选取特征词汇后,运用TF-IDF权重计算公式计算得到每条评论数据中各特征的权重值,公式如下:
Figure BDA0001346703070000052
将TF-IDF公式应用到检测算法中的计算过程为:m表示该特征词在该条评论中出现的次数;M表示该条评论中的词汇总数;N表示评论总数;n表示包含该特征词的评论条数;
进一步地,通过每条评论数据内容计算各特征词的权重值,将每条评论转化为一个多维特征向量,以
Figure BDA0001346703070000053
表示每条评论生成的特征向量,s表示每条评论,则得到的数据格式为:
Figure BDA0001346703070000054
Figure BDA0001346703070000055
……
Figure BDA0001346703070000061
进一步地,所述的S4包括:
所述设定分类器是通过利用集成的LibSVM软件包实现构建,利用LibSVM包含的核函数处理特征向量文件,训练生成SVM分类模型。
进一步地,所述的S4包括:
利用测试数据集对所述SVM分类模型进行精确度测试,通过调节所述核函数的参数优化训练过程,用于提高所述SVM分类模型的精确度。
进一步地,所述的S5包括:
将待检测数据进行文本预处理,得到第三文本特征向量,利用已生成的SVM分类模型对所述第三文本特征向量数据进行数据处理,自动完成情感分类,得到具有情感类别标签的数据。
进一步地,所述的S6包括:
通过编程设置规则,对所述具有情感类别标签的数据进行所述规则匹配,得出的不相符数据视为检测出的网络水军。
由上述本发明提供的技术方案可以看出,本发明集成包括数据爬取、数据预处理、词袋模型建立、分类器构建以及规则设置五个功能模块,提出一种实现对网络水军进行快速检测的算法,在提高算法检测速度的同时,还保证了对用户评论的情感分类精确度。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于情感分析的检测网络水军方法的整体算法流程构架图;
图2为本发明实施例提供的一种基于情感分析的检测网络水军方法的未优化的SVM分类结果ROC曲线图;
图3为本发明实施例提供的一种基于情感分析的检测网络水军方法的优化后的SVM分类结果ROC曲线图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明提供一种基于情感分析的检测网络水军方法,该方法包括:
S1:获取网页评论数据,将所述评论数据进行数据预处理,得到精简数据;
S2:将所述精简数据分为第一数据集、第二数据集,将所述第一数据集和所述第二数据集进行手动数据情感分析处理后构建成语料库;
S3:将所述第一数据集和第二数据集进行文本预处理,得到第一文本特征向量和第二文本特征向量;
S4:读取所述语料库,运用设定分类器对所述第一文本特征向量进行数据处理,生成分类模型,利用所述第二文本特征向量测试所述分类模型精确度;
S5:所述分类模型精确度测试合格后,运用所述分类模型对待检测数据进行数据处理,得出具有情感类别标签的数据;
S6:运用设定规则对所述具有情感类别标签的数据进行分析匹配,检测出网络水军。
所述的S1包括:
选取热门平台下的评论数据进行爬取,去除所述评论数据中的系统默认评论数据,去除所述评论数据中的评论等级为“中评”的评论数据。
所述的S2包括:
所述第一数据集为训练数据集,所述第二数据集为测试数据集,所述的数据情感分析为将数据划分消极或积极两个情感类别,将所述训练数据集和所述测试数据集进行手动数据情感分析处理后,构建成语料库。
所述的S3包括:
所述的特征向量生成过程分为如下步骤:
(1)中文分词
运用ICTCLAS中文分词器对评论数据进行分词并统计每一个词汇的词频,将评论数据的文本内容进行拆分成若干词汇,将所述若干词汇及所述若干词汇的词频代表一个文档;
(2)特征选取
运用CHI卡方检验对所述词汇进行特征选择,通过计算每个所述词汇的CHI值,按照从大到小进行排序,得出具有特征词汇,计算公式如下:
Figure BDA0001346703070000091
将公式应用到检测算法中的计算过程即为:c表示两个情感类别,t表示每个情感类别下的词汇,通过计算t和c的CHI值,得到每个词汇与对应情感类别的相关程度,然后通过排序选择出每个情感类别的特征词汇;以e表示特征词汇,则每个情感类别最终的特征词汇集表示如下:
{e1,e2,e3,……,em}
(3)计算特征权重
利用CHI卡方检验选取特征词汇后,运用TF-IDF权重计算公式计算得到每条评论数据中各特征的权重值,公式如下:
Figure BDA0001346703070000101
将TF-IDF公式应用到检测算法中的计算过程为:m表示该特征词在该条评论中出现的次数;M表示该条评论中的词汇总数;N表示评论总数;n表示包含该特征词的评论条数。
通过每条评论数据内容计算各特征词的权重值,将每条评论转化为一个多维特征向量,得到的数据格式为:
Figure BDA0001346703070000102
Figure BDA0001346703070000103
……
Figure BDA0001346703070000104
其中,以
Figure BDA0001346703070000105
表示每条评论生成的特征向量,s表示每条评论。
所述的S4包括:
所述设定分类器是通过利用集成的LibSVM软件包实现构建,利用LibSVM包含的核函数处理特征向量文件,训练生成SVM分类模型。
利用测试数据集对所述SVM分类模型进行精确度测试,通过调节所述核函数的参数优化训练过程,用于提高所述SVM分类模型的精确度。
所述的S5包括:
所述待检测数据为获取的网页评论数据,将所述网页评论数据按照S1中的方式进行预处理,得到精简数据,将精简数据按照S3中的方式进行文本预处理,得到第三文本特征向量,利用已生成的SVM分类模型对所述第三文本特征向量数据进行数据处理,自动完成情感分类,得到具有情感类别标签的数据。
所述的S6包括:
通过编程设置规则,对所述具有情感类别标签的数据进行所述规则匹配,得出的不相符数据视为检测出的网络水军。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例:
图1为本发明实施例提供的一种基于情感分析的检测网络水军方法的整体算法流程构架图;结合图1所示,对实施例进行以下叙述:
1、数据库准备
淘宝是中国最大的电子商务平台,每天有几百万的交易流量,所以在淘宝网站上存在着大量有价值的用户评论数据,其中包括用户给予商品的评价等级与评论内容等信息。由于淘宝网站中存在大量的商家店铺并产生强烈竞争,所以有大量的淘宝评论水军为了提升自身知名度或者打击对手商家而产生。所以我们选择从淘宝网站上获取用户评论数据,并以之作为本实施例的数据库。
在淘宝中每一种商品都有一个单独的页面,其中包含着商品的价格、类别、详细介绍等信息,也包括用户评价界面。每一个购买过商品的用户可以填写用户评价,每一条用户评价都包括着评论内容、评价等级、评论时间、用户信息等基本内容,根据用户的选择、用户还可以上传图片作为评价内容或是在使用一段时间后再次评价商品作为追评。
根据本文检测算法的数据要求,利用编程实现的网页爬虫并获取淘宝网站上的评论数据,其中每条评论记录都包含(1)商店ID;(2)商品名称;(3)用户ID;(4)评价时间;(5)评价等级;(6)评论内容等必要的数据项在内。
2、数据预处理
对于从淘宝网站上获取的评论数据并不能直接作为实验数据使用,在此之前还需要对原始数据进行数据与处理,与处理过程主要包括以下三个步骤:
(1)去评论数量少得商品评论记录
水军的一个基本特性就是,一般存在于大量评论中,而且淘宝作为最大的电商平台网站,交易流量更是很高,所以评论少的商品不仅表示其购买用户少,而且在其评论中存在评论水军的可能性是非常低的。所以为了提高分类的精确度,并在一定程度上提高后期处理速度,将非热销的产品评论去除。
(2)去除系统默认好评的评论记录
系统默认好评对于算法后期的训练流程及检测流程都是无意义的,不能代表用户的观点,也不在本算法所检测的异常评论范围内,所以可以认为是冗杂数据并且在原始数据集中直接删除。
(3)去除好评等级为“中评”的评论记录
由于中评的评价等级处于中间的情感态度,所以评论等级并不能体现用户的情感倾向。而本算法最终的检测目标是评论等级与评论内容情感不相符的异常评论,所以中评不仅不在检测范围内,而且评论内容的情感倾向也极有可能影响分类器的分类精确度,所以为了更好的训练结果将中评从原始数据集中删除。
经过预处理后,去除了原始数据集中的冗杂数据,得到了精简后的实验数据集。数据预处理过程不仅使得评论数据在数据量上有所减少,而且去除干扰数据也有利于SVM训练过程中精确度的提高。
在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。
3、语料库构建
在数据收集及预处理阶段得到了可使用的实验数据集后,并不能直接进行SVM分类器的训练,还需要为训练SVM分类器构建语料库。训练SVM分类器需要已知类别的数据作为训练集和测试集,其中使用训练集进行训练生成模型文件,使用测试集对分类模型进行精确度的测试。
根据检测算法的分类需求,分类器需将评论内容分为积极(positive)/消极(negative)两类情感倾向,所以构建SVM分类器所需的语料库是已知评论内容情感的评论数据。然后SVM分类器才能够根据语料库中的分类情况通过训练学习生成分类模型。
针对评论内容情感分类任务构建语料库的过程如下:
(1)在实验数据集中随机选取若干条评论内容;
(2)人工标注评论内容的情感倾向,分为积极(positive)/消极(negative)两类;
(2)将语料库中的已分类数据分为训练集和测试集两部分。
4、文本预处理过程
虽然完成语料库的构建,但是还不能进行SVM分类器的训练。由于中文文本的特殊性,分类器并不能直接处理中文文本,所以需要对评论内容转化为文本特征向量。本实施例中的本文特征向量生成过程可以分为以下三个步骤:
(1)中文分词
评论内容是一段连续的文本,而SVM分类器无法直接对文本内容进行分类,所以首先需要对文本内容进行分词。利用ICTCLAS中文分词器对评论内容进行分词并统计每一个词汇的词频,将每一段评论的文本内容进行拆分成若干词汇,使用这些词汇及各词汇的词频来代表一个文档。
经过分词后每一条评论变成很多独立的词汇,而每一个分类中的词汇叠合起来数量是庞大的,无法作为类别的特征值对SVM进行训练。所以还需要从中挑选出有意义、具代表性的词汇作为各类别的特征词汇。
(2)特征选取
经过分词后的词汇数量是巨大的,且每个词汇不一定是具有意义的。所以首先需要去掉停用词,其中包括一些无意义的词汇,还有可能会干扰分类器训练过程的噪声词汇。经过去停用词处理后可以部分减少词汇数量。接下来就是从这些词汇中选取特征词汇构建每个类别的特征向量。
此时,选择使用CHI卡方检验进行特征选择。每一个词汇的CHI值可以表示该词汇与某类别的相关程度,CHI值越大,相关程度越高,则越能代表该类别。所以通过计算每一个词汇的CHI值,并且将其按照从大到小进行排序,则可以选出每一个类别中最具代表性的前N个词汇。
卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
CHI卡方检验公式如下所示:
Figure BDA0001346703070000151
将公式应用到检测算法中的计算过程即为:c表示两个情感类别,分别为积极和消极;t表示每一个类别下的词汇。通过计算t和c的CHI值,则可以得到每一个词汇与该类别的相关程度。最后通过排序可以选择出每一个类别的特征词汇。
以e表示特征词汇,则每个类别最终的特征词汇集可以表示如下:
{e1,e2,e3,……,em}
(3)计算特征权重
利用CHI卡方检验选取特征词汇后,每个类别的特征词汇量大大缩减,得到有限个特征词汇。但是中文词汇仍然不是SVM分类器可以处理的数据文件格式,所以还需要利用TF-IDF权重计算公式计算得到每条评论中各特征的权重值;
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。计算公式如下:
Figure BDA0001346703070000161
将TF-IDF公式应用到检测算法中的计算过程为:m表示该特征词在该条评论中出现的次数;M表示该条评论中的词汇总数;N表示评论总数;n表示包含该特征词的评论条数。通过每条评论内容计算各特征词的权重值,可以将每条评论转化为一个多维特征向量,以
Figure BDA0001346703070000162
表示每条评论生成的特征向量,s表示每条评论,则最后得到的数据格式为:
Figure BDA0001346703070000163
Figure BDA0001346703070000164
........
Figure BDA0001346703070000165
5、构建SVM分类模型
经过文本预处理过程后得到了每条评论的特征向量,将每个特征向量上加上类标签,则可以得到训练SVM分类所需的数据文件。利用训练集数据生成的特征向量对SVM分类器进行训练,SVM分类器则生成一个多维空间中的最优超平面,即最优的分类模型。
此时,利用已经集成的LibSVM软件包实现SVM分类器的构建。利用LibSVM包含的核函数处理特征向量文件,最后训练生成SVM分类模型。然后利用测试集数据对SVM分类模型进行精确度测试(测试集数据同样需要生成文本特征向量),并可以通过调节核函数参数优化训练过程,进而提高SVM分类模型的精确度。
LIBSVM是台湾大学林智仁教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验(Cross Validation)的功能。该软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题。
6、情感分类
利用已生成的SVM分类模型对除语料库外的剩余实验数据进行分类,将实验数据中的评论内容分为积极(positive)/消极(negative)两类情感倾向。根据本实施例所讲述的SVM分类原理可知,SVM分类器通过对评论内容的特征向量数据进行空间向量距离计算,判断该向量属于超平面的哪一侧,从而完成对评论内容的情感分类任务。最终得到带有情感类别标签的评论数据。
7、用户行为特征
对评论内容完成情感分类后,则需要根据异常评论特征对评论水军的行为特征进行分析匹配。为了检测出评分等级与评论内容不相符的异常评论,应设置以下匹配规则:
IF(rating=high rating)AND(emotion
=negatuve)THEN(output the user's ID)
ELSE IF(rating=low rating)AND(emotion
=positive)THEN(output the user's ID)
通过设置匹配规则,完成对用户行为的分析,最终输出检测到的异常评论。
经过上述各步骤的算法处理,可将基于用户行为特征的异常检测算法总结如下:
输入:原始数据库Dcomments
输出:异常评论Runusual
1、数据预处理:Dcomments→Dpre
2、语料库构建:Dpre→(Dcorous+Dexperiment)
Dcorpus→(Dtrain+Dtest)
3、文本预处理:
Figure BDA0001346703070000181
4、构建SVM分类模型:
Figure BDA0001346703070000182
5、情感分类:
Figure BDA0001346703070000183
6、用户行为匹配:FORDexperiment
IF(emotion=negative)AND(rating=highrating)
ELSE IF(emotion=positive)AND(rating=low rating)
THEN output users′ID Runusual
在检测算法中,输入Dcomments是通过爬取淘宝网站上的评论获取的原始数据库,输出Runusual是最终检测得到的异常评论。首先将Dcomments经数据预处理步骤得到实验数据Dpre;接下来进行语料库构建,将实验数据分为语料库Dcorpus和实验数据Dexperiment两部分,并进行人工标注情感,以及将语料库中的数据分为训练集和测试集;第三步将语料库中的评论文本经过文本与处理得到每条评论的特征向量
Figure BDA0001346703070000191
并生成向量数据文件;第四步利用LibSVM软件包生成分类模型MSVM;然后利用分类模型对剩余数据进行情感分类,在评论数据中增添情感倾向标签affection;最后对数据进行用户行为匹配,输出不相符的异常评论。
本实施例实验结果及分析如下所示:
实验环境:
实验平台硬件环境是Intel酷睿i5处理器,2.50GHz,4G内存,软件环境采用Windows7操作系统,Eclipse语言编程环境,并集成ICALAS中文分词系统以及LibSVM库进行集成环境的实现。
实验数据集:
首先获取原始评论数据,通过架设在云端的服务器上的爬虫程序对淘宝网页上的评论数据进行爬取。本实施例选取了十个店铺中的十个热销商品进行了评论数据的爬取,这十个商品分别为五件男装、五件女装。选取同一类别的商品更有利于在评论内容中挖掘情感信息,而热销商品拥有巨大的评论量,检测到异常评论的可能性更高。由于淘宝网站的限制,每一种商品最多获取25页评论内容。最终获取到44,948条原始数据。其中每一条评论记录都包含(1)商店ID;(2)商品名称;(3)用户ID;(4)评价时间;(5)评价等级;(6)评论内容六个数据项。详细的评论情况见表1。
Figure BDA0001346703070000201
表1各商店获取的评论数量
然后对原始数据进行预处理。去除系统默认好评5156条,中评1531条。最后剩余38,261条数据。可以看到,经过预处理阶段,数据量减少至原始数据的85%。
实验过程:
首先从实验数据集中随机选取数据构建语料库。已有文献证明10,000条数据构建的语料库足以达到理想的分类结果,所以在本实施例中选取了9990条评论数据构建语料库。然后对这些评论内容进行人工的情感标注,为了提高标注的准确性,找到三位常使用淘宝网站,购物的大学生分别对评论内容进行标注,并且为了排除其他信息的干扰,语料库中的每条记录只包含评论内容。最后将标注完成的语料库分为训练集和测试集,按照机器学习选取80%~90%的数据作为训练集的一般情况,本文随机选取了语料库中10%的数据作为测试集,则剩余90%的数据作为训练集。
接下来完成对训练集评论文本的预处理后,得到特征向量文件,利用LibSVM软件包进行SVM分类器的训练,得到分类模型。然后利用分类模型对剩余28,271条实验数据进行情感分类,在每一条评论数据后添加情感倾向标签,将所有的评论内容分为积极(positive)/消极(negative)两类。
最后根据匹配规则对数据进行评价等级和情感倾向的匹配,如果(评价等级=“好评”且评论内容=“消极”)或(评分等级=“差评”且评论内容=“积极”)则输出该条记录。最终输出了154条异常评论,即在28,271条评论数据中检测发现154条异常评论。部分检测结果如表2所示。可以看到表2中的评价等级是好评但是情感倾向是negative(消极),这样的异常评论则最后显示在输出界面。根据所检测到的结果可以看到,绝大部分的异常评论都属于(评价等级=“好评”且评论内容=“消极”)的情况,也就是说绝大部分的异常评论都隐藏在“好评”分类中。
Figure BDA0001346703070000211
表2异常评论检测结果示意图
数据集与处理结果分析:
在本实施例中对每一件商品进行了统计分析,利用网络水军的基本特性,分析每件商品评论数量随时间变化的曲线,找到在一定时间阈值内,评论数量超过设定阈值的统计区域内的评论,作为我们实验关注的用户评论数据。
通过这种方法,可以对从淘宝网站上,爬取的原始数据集合进行过滤筛选,减少后续工组处理的数据量,在提高检测速度的同时提高评论情感分类精确度。
可行性分析:
本实施例中所述的检测算法在实际实验过程中是有检测结果输出的,在28,271条评论数据中最终检测发现154条异常评论。说明本发明所设计的检测算法是可行的,是可以应用于淘宝评论水军检测系统的。最终输出的检测结果也说明了在淘宝评论中的确存在着这种异常评论。
所以从可行性角度分析检测算法,可以知道本发明设计的异常评论检测算法能够应用于淘宝评论水军检测系统。
精确度分析:
虽然实验得到的异常评论数量无法与已有的统计结果进行比对,无法判断检测结果数量的优劣,但是可以通过SVM分类器对评论内容的情感分类过程所得到的ROC曲线进行情感分类过程的精确度分析,以此代表检测算法的精确度。
ROC曲线和AUC值可以用来评价一个二元分类器的优劣。如表4、表5的ROC曲线中所示,横坐标为负正类率FPT,纵坐标为真正类率TPR。AUC则表示ROC曲线覆盖的面积,AUC的值可以直观的衡量一个二元分类器的优劣,评估一个分类算法的精确度。
图2为本发明实施例提供的一种基于情感分析的检测网络水军方法的未优化的SVM分类结果ROC曲线图;图3为本发明实施例提供的一种基于情感分析的检测网络水军方法的优化后的SVM分类结果ROC曲线图,如图2、图3所示:
图2中的AUC=0.8820,图3中的AUC=0.9248。可见经过调整SVM分类过程中的参数,使分类精确度得到了有效的提高,并且达到了92.5%的精确度。
利用ROC曲线进行精确度的分析可知,检测算法的主要情感分类过程的精确度达到了92.5%,因为只有情感分类过程影响了检测算法的精确度,所以可以认为最后的异常评论的输出结果精确度也为92.5%。
所以从精确度角度分析检测算法,可以得知的本文设计的异常评论检测算法在结果精确度上是有保障的,可以投入检测系统应用中。
可用性分析:
对实验过程中检测算法的运行时间统计,发现检测算法的运行时间在4s~5s之间,这个时间是非常可观的,证明检测算法可以在很短的时间的对大量评论数据完成异常评论的检测。这不仅依赖于数据的预处理过程,而且高效率的分类过程和匹配过程也提高了检测算法的运行速度。
所以从可用性角度分析,检测算法的运行时间短、效率高,可以应用于淘宝评论水军检测系统中,并且能够减少用户的等待时间。
综上所述,本发明实施例通过可行性、精确度、可用性三个角度对基于用户行为特征的异常评论检测算法进行评估可以判定,该算法具备可行性且可用性强、精确度高,可以应用于淘宝评论水军的检测系统中。
本发明实施例集成包括数据爬取、数据预处理、词袋模型建立、分类器构建以及规则设置五个功能模块,提出一种实现对网络水军进行快速检测的算法,在提高算法检测速度的同时,保证其对用户评论的情感分类精确度。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种基于情感分析的检测网络水军方法,其特征在于,包括:
S1:获取网页评论数据,将所述评论数据进行数据预处理,得到精简数据;
S2:将所述精简数据分为第一数据集、第二数据集,将所述第一数据集和所述第二数据集进行手动数据情感分析处理后构建成语料库;
S3:将所述第一数据集和第二数据集进行文本预处理,得到第一文本特征向量和第二文本特征向量;所述的特征向量生成过程分为如下步骤:
(1)中文分词
运用ICTCLAS中文分词器对评论数据进行分词并统计每一个词汇的词频,将评论数据的文本内容进行拆分成若干词汇,将所述若干词汇及所述若干词汇的词频代表一个文档;
(2)特征选取
运用CHI卡方检验对所述词汇进行特征选择,通过计算每个所述词汇的CHI值,按照从大到小进行排序,得出具有特征词汇,计算公式如下:
Figure FDA0002586087660000011
将公式应用到检测算法中的计算过程即为:c表示两个情感类别,t表示每个情感类别下的词汇,通过计算t和c的CHI值,得到每个词汇与对应情感类别的相关程度,然后通过排序选择出每个情感类别的特征词汇;以e表示特征词汇,则每个情感类别最终的特征词汇集表示如下:
{e1,e2,e3,……,em}
(3)计算特征权重
利用CHI卡方检验选取特征词汇后,运用TF-IDF权重计算公式计算得到每条评论数据中各特征的权重值,公式如下:
Figure FDA0002586087660000021
将TF-IDF公式应用到检测算法中的计算过程为:m表示该特征词在该条评论中出现的次数;M表示该条评论中的词汇总数;N表示评论总数;n表示包含该特征词的评论条数;
S4:读取所述语料库,运用设定分类器对所述第一文本特征向量进行数据处理,生成分类模型,利用所述第二文本特征向量测试所述分类模型精确度;
S5:所述分类模型精确度测试合格后,运用所述分类模型对待检测数据进行数据处理,得出具有情感类别标签的数据;
S6:运用设定规则对所述具有情感类别标签的数据进行分析匹配,检测出网络水军。
2.根据权利要求1所述的方法,其特征在于,所述的S1包括:
选取热门平台下的评论数据进行爬取,去除所述评论数据中的系统默认评论数据,去除所述评论数据中的评论等级为“中评”的评论数据。
3.根据权利要求1所述的方法,其特征在于,所述的S2包括:
所述第一数据集为训练数据集,所述第二数据集为测试数据集,所述的数据情感分析为将数据划分消极或积极两个情感类别,将所述训练数据集和所述测试数据集进行手动数据情感分析处理后,构建成语料库。
4.根据权利要求1所述的方法,其特征在于,
通过每条评论数据内容计算各特征词的权重值,将每条评论转化为一个多维特征向量,得到的数据格式为:
Figure FDA0002586087660000031
其中,以
Figure FDA0002586087660000032
表示每条评论生成的特征向量,s表示每条评论。
5.根据权利要求1所述的方法,其特征在于,所述的S4包括:
所述设定分类器是通过利用集成的LibSVM软件包实现构建,利用LibSVM包含的核函数处理特征向量文件,训练生成SVM分类模型。
6.根据权利要求5所述的方法,其特征在于,所述的S4包括:
利用测试数据集对所述SVM分类模型进行精确度测试,通过调节所述核函数的参数优化训练过程,用于提高所述SVM分类模型的精确度。
7.根据权利要求1所述的方法,其特征在于,所述的S5包括:
所述待检测数据为获取的网页评论数据,将所述网页评论数据按照S1中的方式进行预处理,得到精简数据,将精简数据按照S3中的方式进行文本预处理,得到第三文本特征向量,利用已生成的SVM分类模型对所述第三文本特征向量数据进行数据处理,自动完成情感分类,得到具有情感类别标签的数据。
8.根据权利要求1所述的方法,其特征在于,所述的S6包括:
通过编程设置规则,对所述具有情感类别标签的数据进行所述规则匹配,得出的不相符数据视为检测出的网络水军。
CN201710559558.7A 2017-07-11 2017-07-11 一种基于情感分析的检测网络水军方法 Active CN109241518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710559558.7A CN109241518B (zh) 2017-07-11 2017-07-11 一种基于情感分析的检测网络水军方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710559558.7A CN109241518B (zh) 2017-07-11 2017-07-11 一种基于情感分析的检测网络水军方法

Publications (2)

Publication Number Publication Date
CN109241518A CN109241518A (zh) 2019-01-18
CN109241518B true CN109241518B (zh) 2021-01-22

Family

ID=65083700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710559558.7A Active CN109241518B (zh) 2017-07-11 2017-07-11 一种基于情感分析的检测网络水军方法

Country Status (1)

Country Link
CN (1) CN109241518B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162621B (zh) * 2019-02-22 2023-05-23 腾讯科技(深圳)有限公司 分类模型训练方法、异常评论检测方法、装置及设备
CN109949103B (zh) * 2019-03-29 2021-10-22 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN111159399A (zh) * 2019-12-13 2020-05-15 天津大学 一种汽车垂直网站水军甄别方法
CN111400617B (zh) * 2020-06-02 2020-09-08 四川大学 基于主动学习的社交机器人检测数据集扩展方法及系统
CN111784492B (zh) * 2020-07-10 2024-08-02 讯飞智元信息科技有限公司 舆情分析和财务预警方法、装置、电子设备和存储介质
CN111966944B (zh) * 2020-08-17 2024-04-09 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法
CN112906383B (zh) * 2021-02-05 2022-04-19 成都信息工程大学 一种基于增量学习的集成式自适应水军识别方法
CN113127640B (zh) * 2021-03-12 2022-11-29 嘉兴职业技术学院 一种基于自然语言处理的恶意垃圾评论攻击识别方法
CN113505223B (zh) * 2021-07-06 2022-01-28 青海师范大学 一种网络水军识别方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
CN105975594A (zh) * 2016-05-09 2016-09-28 清华大学 基于组合特征向量和SVMperf的情感分类方法及装置
CN106844743A (zh) * 2017-02-14 2017-06-13 国网新疆电力公司信息通信公司 维吾尔语文本的情感分类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
CN105975594A (zh) * 2016-05-09 2016-09-28 清华大学 基于组合特征向量和SVMperf的情感分类方法及装置
CN106844743A (zh) * 2017-02-14 2017-06-13 国网新疆电力公司信息通信公司 维吾尔语文本的情感分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"电子商务网络水军的智能识别研究";杨珂;《中国优秀硕士学位论文全文数据库信息科技辑》;20160415(第4期);正文第5、57页 *

Also Published As

Publication number Publication date
CN109241518A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109241518B (zh) 一种基于情感分析的检测网络水军方法
CN108874768B (zh) 一种基于主题情感联合概率的电子商务虚假评论识别方法
Bhardwaj et al. Sentiment analysis for Indian stock market prediction using Sensex and nifty
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
KR20120109943A (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법
Khalid et al. Style matters! Investigating linguistic style in online communities
CN108845986A (zh) 一种情感分析方法、设备及系统、计算机可读存储介质
CN110706028A (zh) 基于属性特征的商品评价情感分析系统
Buntoro et al. The Implementation of the machine learning algorithm for the sentiment analysis of Indonesia’s 2019 Presidential election
Qu et al. Review helpfulness assessment based on convolutional neural network
CN108733652A (zh) 基于机器学习的影评情感倾向性分析的测试方法
Abd Rahman et al. Classification of customer feedbacks using sentiment analysis towards mobile banking applications
Younis et al. Applying machine learning techniques for performing comparative opinion mining
US20170186083A1 (en) Data mining a transaction history data structure
KR20240111294A (ko) 미리 학습된 평가모델을 이용한 사용자의 피드백 반영 제품계획 결정 장치
Purba et al. A hybrid convolutional long short-term memory (CNN-LSTM) based natural language processing (NLP) model for sentiment analysis of customer product reviews in Bangla
Akber et al. Personality prediction based on contextual feature embedding SBERT
Syn et al. Using latent semantic analysis to identify quality in use (qu) indicators from user reviews
CN108717450A (zh) 影评情感倾向性分析算法
Al Mahmud et al. A New Approach to Analysis of Public Sentiment on Padma Bridge in Bangla Text
Krishnaiah Predicting Fake Online Reviews: A Comprehensive Study of Supervised and Semi-Supervised Learning Models
Kulkarni et al. Effective product ranking method based on opinion mining
CN112417858A (zh) 一种实体权重评分方法、系统、电子设备及存储介质
CN108763203A (zh) 影评情感分析中使用特征词集将影评以特征向量表示的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant