CN103176984B - 一种用户生成内容中欺骗性垃圾意见检测方法 - Google Patents

一种用户生成内容中欺骗性垃圾意见检测方法 Download PDF

Info

Publication number
CN103176984B
CN103176984B CN201110430978.8A CN201110430978A CN103176984B CN 103176984 B CN103176984 B CN 103176984B CN 201110430978 A CN201110430978 A CN 201110430978A CN 103176984 B CN103176984 B CN 103176984B
Authority
CN
China
Prior art keywords
suggestion
duplicity
rubbish
user
generated content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110430978.8A
Other languages
English (en)
Other versions
CN103176984A (zh
Inventor
杨风雷
黎建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201110430978.8A priority Critical patent/CN103176984B/zh
Publication of CN103176984A publication Critical patent/CN103176984A/zh
Application granted granted Critical
Publication of CN103176984B publication Critical patent/CN103176984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户生成内容中欺骗性垃圾意见检测方法,属于信息技术领域。本方法为:1)对设定用户生成内容信息源中的信息进行爬取并生成用户生成内容网页集合,然后对用户生成内容网页进行标注,得到候选欺骗性垃圾意见集合;2)对集合中的样本进行过滤,形成准确欺骗性垃圾意见集合;3)从意见作者、意见内容、内容分布、链接四个纬度对准确欺骗性垃圾意见集合及无标注用户生成内容网页集合样本进行特征提取,生成每一维度的特征向量;4)采用机器学习方法建立每一维度的欺骗性垃圾意见检测模型;5)利用所述欺骗性垃圾意见检测模型等对新爬取的用户生成内容网页进行欺骗性垃圾意见检测。本发明大大提高了欺骗性垃圾意见的检测效率。

Description

一种用户生成内容中欺骗性垃圾意见检测方法
技术领域
本发明属于信息技术领域,尤其涉及一种用户生成内容中欺骗性垃圾意见检测方法,主要应用于互联网信息监控、信息预警、情感分析、信息过滤等领域中。
背景技术
互联网环境下,互联网用户可以通过BBS论坛、博客、微博、社交网站等场所,借助于互联网信息的浏览、转发、发表评论、发布博客文章及评论等手段来表达自己对于感兴趣话题的关注和意见,也可以和相关的人员进行交流,这种模式已经成为互联网用户表达意见、相互交流的重要模式。在这种模式下用户所产生的观点、意见等内容被称为用户生成内容(User-Generated-Content),这和传统的由网站所有者提供内容的模式完全相反。目前,人们已经认识到对这些用户生成内容进行挖掘可以得到很多宝贵的可应用于很多领域的知识。
由于越来越多的用户在互联网上发布自己的观点或意见,这类用户生成内容越来越多,仅靠人工的方法难以应对网上的海量信息,为了使用计算机帮助用户快速获取和整理(挖掘)这些用户生成内容,就需要用到意见挖掘(OpinionMining)技术。意见挖掘也称为观点挖掘、情感分析等,是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,这是一个虽然新兴、但很活跃的多学科交叉的研究领域,与文本挖掘、信息检索、机器学习、本体学、自然语言理解等均有着较强的相关性。之前,意见挖掘研究领域中的研究工作主要集中在采用自然语言处理、数据挖掘等技术完成情感信息的抽取(意见所有者、意见对象、意见词语等)、情感信息的分类(主客观、倾向性)以及情感信息结果的呈现等。
但目前,一些研究者在研究工作中发现,由于互联网上的用户生成内容没有质量控制机制,网民可以在互联网上发布任何观点,用户生成内容中存在很多噪声内容或者虚假的内容,这在很大程度上影响了意见挖掘的效果。即用户意见的有用性、可信性问题在很大程度上影响了意见挖掘的质量和效果。为此,垃圾意见研究工作开始得到关注并成为意见挖掘的一个重要组成部分;同时,作为情感分析工作的应用场景之一,此工作也开始得到信息监控、信息过滤等领域的关注。垃圾意见指的是用户生成内容中不请自来的、和话题无关的(广告等)或者虽然和话题相关但是虚假性的内容,因为这些内容一般出现在论坛、博客、社交网站等所谓的web2.0应用中,所以也称为垃圾2.0(或者web2.0垃圾)。目前,垃圾意见的相关研究工作已经开始得到空前的重视。
按照不同的角度,可对用户生成内容中的垃圾意见进行不同的归类,比如按照垃圾意见的产生方式、表现形式、目的等进行不同的分类。其中,按照垃圾意见的负面影响大小,可将其分为不可信意见、低质量意见、无关意见。不可信意见,也就是欺骗性的意见,一方面表现为对特定的对象、事件、人物等给出不符合实际情况的超高评价、恭维等;另一方面也可能表现为对特定的对象、事件、人物等给出不符合实际情况的超低评价、谩骂、攻击等。低质量意见,此种意见内容一般长度较短,其内容可能是有用的,也可能是无用的,但是由于其内容对特定的话题/产品描述不详细,不能非常确定其对特定话题/产品的意见挖掘的意义,因此也认为是一种垃圾意见(针对计算机而言)。无关意见,此种意见主要表现为广告或者和话题无关的内容。
总体上,用户生成内容中的垃圾意见检测问题可以看作是一个分类问题,更准确的可以看作是一个二值分类问题(是垃圾意见、不是垃圾意见),原则上这可以通过各种基于规则或机器学习的方法完成。但相对传统的垃圾页面、垃圾邮件检测工作而言,考虑到不可信意见的识别难度问题(传统的垃圾页面、垃圾邮件中的垃圾特征相对比较明显,而不可信意见的特征不明显,同时也没有一个明确的、通用的、可操作的不可信垃圾意见判断标准,故此判别起来比较困难),用户生成内容中的垃圾意见,尤其是不可信意见的检测相对更难。如何对用户生成内容中的欺骗性垃圾意见进行准确检测问题一直未得到有效解决。
考虑到欺骗性垃圾意见的获取难度问题,有研究采取将用户生成内容中重复的意见信息作为欺骗性垃圾意见的样本,将其它的意见信息作为非欺骗性垃圾意见的样本,根据此标准对用户生成内容进行处理、标注,并在此基础上采取有监督的机器学习方法建立分类器进行欺骗性垃圾意见判别、检测。对此种做法,注意到这里面存在两个重要的问题:(1)重复的意见并非一定是欺骗性垃圾意见;(2)欺骗性垃圾意见并非都是重复的。这意味着上述研究工作中,欺骗性垃圾意见正例集合中可能存在反例样本,而欺骗性垃圾意见反例集合中可能存在正例样本。这可能是已有文献显示,采用同样的方法检测得到的欺骗性垃圾意见准确度相对较低的原因之一。同时,对于欺骗性垃圾意见,尤其是非欺骗性垃圾意见而言,尽管它们各自存在一些共同的特征,但其内部分布特点也是多种多样,此种情况下,如果训练样本选择不当,采用一般机器学习方法得到的检测模型准确度会因为应用场景不合适而使得准确度下降。因此,用户生成内容中的欺骗性垃圾意见的检测是一个极为困难的问题。
发明内容
为解决上述的问题,本发明的目的在于提供一种采取特定策略、步骤对用户生成内容中的欺骗性垃圾意见进行检测识别的方法。方法中借鉴智能系统思路,形成的步骤如下所述。
(1)对某一特定用户生成内容信息源(比如某一个论坛),启动互联网信息爬虫软件对其中的信息进行爬取,对互联网信息爬虫爬取得到的网页进行预处理等步骤后,形成用户生成内容网页集合。
(2)对用户生成内容网页集合中的网页进行判断,将可能是欺骗性垃圾意见的网页信息进行整理、标注(根据意见作者行为、所发布内容的特征等判断),形成候选欺骗性垃圾意见集合。
(3)对候选欺骗性垃圾意见集合中的每一个网页信息,根据其相关的特征(比如意见作者的行为、意见的内容等)审核其是欺骗性垃圾意见的可能性,对确定的欺骗性垃圾意见(通过正向、反向确认的方式确定)进行整理、标注,形成准确的欺骗性垃圾意见样本集合。
(4)对整理形成的准确欺骗性垃圾意见样本集合和无标注的用户生成内容网页集合(排除准确的欺骗性垃圾意见)抽取样本的特征(包括意见作者、内容、内容分布、及链接特征四个维度的特征),在此基础上选择“从正例和无标注数据中学习”的机器学习方法,并建立欺骗性垃圾意见检测模型。
(5)在建立欺骗性垃圾意见检测模型的基础上,对互联网信息爬虫新爬取的用户生成内容网页进行欺骗性垃圾意见检测识别(包括黑名单识别、反向识别以及模型识别等)。
(6)对于经过检测模型等识别判断为欺骗性垃圾意见的网页信息进行明确的标注。
(7)将检测过程判断为欺骗性垃圾意见的网页信息补充到候选欺骗性垃圾意见集合中。
(8)对新的候选欺骗性垃圾意见集合信息进行审核判断,对确定的欺骗性垃圾意见进行整理、标注(根据意见作者的行为、意见内容等),形成新的准确的欺骗性垃圾意见样本集合;同时形成新的无标注的用户生成内容网页集合。
(9)在新形成的准确欺骗性垃圾意见样本集合和无标注的用户生成内容网页集合基础上,对检测模型进行更新。
(10)在对准确欺骗性垃圾意见集合和无标注的用户生成内容网页集合、检测模型进行补充、更新的同时,将经过欺骗性垃圾意见检测判断、标注的用户生成内容推送到后续的环节进行后续处理(处理过程中依据标注类别的不同采取不同的处理方式)。
本发明通过采取启发式的方法,对互联网信息爬虫爬取的用户生成内容信息进行选择,对可能是欺骗性垃圾意见的网页进行标注、整理,形成候选的欺骗性垃圾意见集合。具体为依据意见作者的行为、意见内容等特征进行选择。
本发明对候选欺骗性垃圾意见集合中的每一个样本,根据“宁缺勿滥”的原则进行整理标注,形成一个准确的欺骗性垃圾意见集合,具体采用的方式包括正向、反向确认。
本发明通过首先对用户生成内容网页集合样本进行选择形成候选的欺骗性垃圾意见集合、之后通过正反向确认的方式形成准确欺骗性垃圾意见集合的方式,保证了准确欺骗性垃圾意见样本标注的效率。
本发明在对样本进行标注过程中,考虑到反例样本可能存在的多样性特点,为提高检测模型的检测准确度、避免反例样本标注的工作量等,未标注反例样本。
本发明在建立欺骗性垃圾意见检测模型过程中,选择了一种“从正例和无标注数据中学习”的机器学习方法,具体的依据上述的准确欺骗性垃圾意见集合和无标注的用户生成内容网页集合完成。适应了样本标注困难以及非欺骗性垃圾意见样本特征分布多样性问题。
本发明在建立欺骗性垃圾意见检测模型过程中,主要从意见作者、所生成内容、内容分布、及链接特征四个纬度考虑,选择意见作者、所生成内容、内容分布、及链接相关的特征作为建立欺骗性垃圾意见检测模型的基础,避免了抽取特征不全面等问题。
本发明在欺骗性垃圾意见的检测过程中采用了黑名单识别、反向识别、模型检测识别等相结合的方法,保证了欺骗性垃圾意见检测的准确。其中在采用模型对信息的检测过程中,分别采用了上述建立的基于意见作者、所生成内容、内容分布、及链接特征的四个检测模型进行检测,如果至少有三个模型判断信息为正例,则识别结果为欺骗性垃圾意见。
本发明结合欺骗性垃圾意见判别后的补充措施,保证了准确的欺骗性垃圾意见样本集合的逐步扩大和集合中欺骗性垃圾意见类型的增多,因此,基于此建立的检测模型适应性会逐步提高;同时,在此基础上及时更新欺骗性垃圾意见检测模型,也能保证在欺骗性垃圾意见分布特征发生变化时检测模型的鲁棒性。
与现有技术相比,本发明的优点:
(1)采取启发式方法建立候选欺骗性垃圾意见集合,并基于此采取正向、反向确认的方式建立准确欺骗性垃圾意见集合,从而解决了无法收集到准确的欺骗性垃圾意见的问题。但未建立非欺骗性垃圾意见样本集合,减少了工作量和提高了检测方法的准确度。
(2)建立检测模型过程中,基于意见作者、所生成内容、内容分布、及链接四个纬度的特征,采取了“从正例和无标注数据中学习”的机器学习方法,解决了抽取特征不全和非欺骗性垃圾意见特征分布多样性等问题导致的检测模型识别准确度低等问题。
(3)在欺骗性垃圾意见检测工作中,采取检测模型识别、黑名单识别和反向识别结合的检测模式,进一步提高了欺骗性垃圾意见的识别准确度。
(4)采取了随时间逐步增加样本的方式,保证了欺骗性垃圾意见集合逐步扩大、集合中欺骗性垃圾意见类型的增多和持续更新,基于此更新检测模型从而保证了检测模型的鲁棒性。
附图说明
图1用户生成内容中欺骗性垃圾意见检测方法流程图;
图2候选欺骗性垃圾意见收集方法示意图;
图3准确欺骗性垃圾意见审核方法示意图;
图4欺骗性垃圾意见检测模型建立示意图;
图5欺骗性垃圾意见识别方法示意图。
具体实施方式
本发明的具体实施方式如图1所示。下面详细叙述各步骤。
(1)用户生成内容网页集合产生
对某一特定用户生成内容信息源(比如某一个论坛),启动互联网信息爬虫软件对其中的信息进行爬取,对互联网信息爬虫爬取得到的网页进行预处理等步骤后,形成用户生成内容网页集合。
(2)候选欺骗性垃圾意见收集
考虑到欺骗性垃圾意见的目的是为了不切实际的抬高或降低特定对象比如网站、网页、产品、人物等的形象,具体的表现为对特定的对象、事件、人物等给出不符合实际情况的超高评价、恭维等;另一方面也可能表现为对特定的对象、事件、人物等给出不符合实际情况的超低评价、谩骂、攻击等。由此出发,考虑到实际中欺骗性垃圾意见所具有的一些分布特征,采取启发式方法对可能是欺骗性垃圾意见的用户生成内容进行收集。具体的,此过程中主要关注用户生成内容中内容重复或者近似重复的意见、一定时间范围内发布意见量最高的top-N1个作者所发布的意见、一定时间范围内意见量最高的top-N2个特定对象相关的意见、一定时间范围内发布意见量最高的top-N3个IP地址相关的意见、针对特定对象发布意见最早的top-N4个用户所发布的意见和针对特定对象的意见修正次数最多的top-N5个用户所发布的意见。
依据上述规则,对用户生成内容网页集合中符合以上条件的意见信息进行整理,形成候选欺骗性垃圾意见集合(如图2所示)。
(3)欺骗性垃圾意见审核确认
总体上,此过程中遵循宁缺勿滥的原则(即要保证欺骗性垃圾意见样本的准确性),结合审核、排查等方式对候选的欺骗性垃圾意见进行审核确认。具体的采取了两种方法进行确认,一种是正向确认,一种是反向确认。所谓正向确认,即如果意见信息内容和欺骗性垃圾意见知识库中的信息描述的是同一件事情,即信息内容与欺骗性垃圾意见知识库中的某信息描述相匹配,则为欺骗性垃圾意见。欺骗性垃圾意见知识库中的信息条目增加规则为:对于一条意见信息,经过一段时间的过程或者事后证明,某用户所发布的信息的确是欺骗性的意见,加入知识库中。比如在某论坛有人发布信息说某品牌牛奶中含有三聚氰胺,但后来有人举出种种理由说明这是不可能的,事后证明后者是某品牌牛奶公司的内部员工欺骗所致。由此即可确认此意见信息是欺骗性垃圾信息,加入知识库中(知识库事先构建并定期更新)。所谓反向确认,即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗性垃圾意见。比如反向确认知识库(事先构建并定期更新)中的一条规则为:某一用户id在设定时间中(比如1分钟)对一种或多种产品发布了多于N(比如10条)条意见信息,则将该用户所发表的这些意见信息标注为欺骗性垃圾意见信息。能匹配此规则的一个例子是:某一论坛中某一用户id在不到1分钟的时间中对3种不同产品发布了15条评价信息,从一个正常人的角度考虑这是不可能的。因此,从反向的角度证明了此用户所发布的这些信息的欺骗性(如图3所示)。
将通过上述方法确认的信息进行标注,并形成准确欺骗性垃圾意见集合,同时对于经常发布欺骗性垃圾意见的用户,即发布欺骗性垃圾意见最多的N个用户,将其加到黑名单以备后期识别使用;另外,依据准确的欺骗性垃圾意见集合等,总结归纳意见作者的反常行为(比如上述用户在1分钟内针对3种产品发布了15条信息等)形成规则,以备后用。
注意到明确的确认一意见是非欺骗性垃圾意见也存在相当的困难(对于一条信息,不能明确的表明是欺骗性垃圾意见也可能意味着不能明确的说明其不是欺骗性垃圾意见),考虑到时间、工作量、以及非欺骗性垃圾意见存在的多样性等因素,这里没有对非欺骗性垃圾意见进行标注。
(4)建立欺骗性垃圾意见检测模型(如图4所示)
建立了准确欺骗性垃圾意见集合后,从判断识别欺骗性垃圾意见的角度看,目前需要选择机器学习方法、抽取样本特征后建立检测模型。注意到经过上述的过程得到了经过标注的欺骗性垃圾意见集合,但没有非欺骗性垃圾意见集合。这就意味着不能简单地采用一般的有监督机器学习方法,因为它建立分类模型需要同时具备正例、反例集合。所以我们这里采用了一种“从正例和无标注数据中学习”的机器学习方法-偏置SVM(Liu,B.,Y.Dai,X.Li,W.Lee,andP.Yu.Buildingtextclassifiersusingpositiveandunlabeledexamples.ProceedingsofIEEEInternationalConferenceonDataMining,2003.)。
关于检测模型建立过程中样本特征的确定,本发明中主要从四个纬度考虑:意见作者、意见内容、意见内容分布、链接特征四个纬度。其中关于意见内容特征的确定方法是:对抽取出来的意见信息进行分词,去掉停用词,并经过降维(可采用文档频率法、信息增益法等)后形成内容特征向量(权数为词语频率);关于意见内容分布特征的选择方法是选择:意见段落数、段落长度(均值)、句子数、句子长度(均值)、词数、第一人称代词数、第二人称代词数、第三人称代词数等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);对于意见作者纬度的特征选择方法是选择:意见用户名(字符数)、意见发布时间(距离当天零点的时间间隔)、意见发布时间间隔(和上一条信息相比)、意见字数、意见数/小时(截至此条信息为止)、意见字数变化比率(和上一条信息相比)、意见数变化比率(截至此条信息为止,和上一小时相比)等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);对于意见信息的链接特征纬度的选择方法是选择:意见信息的网站内入链数、意见信息的网站内出链数、意见信息的网站外入链数、意见信息的网站外出链数、意见信息链接准确欺骗性垃圾意见集合内的信息数、准确欺骗性垃圾意见集合内信息链接意见信息的数量等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);针对上述四个维度的特征,基于步骤(3)建立的准确欺骗性垃圾意见集合和无标注样本集合(即用户生成内容网页集合中的其他样本组成的集合),分别形成特征向量并建立检测模型(四个)。
(5)欺骗性垃圾意见检测识别
欺骗性垃圾意见检测模型建立完毕后,即可对互联网信息爬虫新爬取的用户生成内容进行欺骗性垃圾意见的判断识别。整体上,欺骗性垃圾意见的判断识别按照三个步骤进行:黑名单识别、反向识别、模型检测识别(如图5所示)。首先进行黑名单识别,对属于黑名单中用户发布的信息,直接识别为欺骗性垃圾意见;对于剩余意见,依据步骤(3)归纳的规则按照反向确认(即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗性垃圾意见)的方式进行识别,对于不正常的意见,识别为欺骗性垃圾意见;对于剩余的意见按照步骤(4)建立的模型进行识别,识别过程为,对意见信息分别进行四个模型的判断,如果至少有三个模型判断为正例,则对此信息识别为欺骗性垃圾意见。
(6)欺骗性垃圾意见标识
对于经过步骤(5)识别为欺骗性垃圾意见的用户生成内容,统一标注为欺骗性垃圾意见。
(7)候选欺骗性垃圾意见补充
对于经过步骤(5)识别、并经过步骤(6)标注为欺骗性垃圾意见的用户生成内容补充增加到候选的欺骗性垃圾意见集合中,形成新的候选欺骗性垃圾意见集合。
(8)欺骗性垃圾意见审核确认
按照和步骤(3)相同的方式,对新的候选欺骗性垃圾意见集合信息进行审核确认,将通过上述方法确认的信息进行标注,并形成新的准确欺骗性垃圾意见集合(对于经常发布欺骗性垃圾意见的用户,将其加到黑名单以备后期识别使用;同时对新的准确欺骗性垃圾意见集合中意见作者的行为规律进行总结形成规则,以备后用);同时也形成新的无标注的用户生成内容网页集合。
(9)欺骗性垃圾意见检测模型更新
以新的准确欺骗性垃圾意见集合和无标注的用户生成内容网页集合为基础(含更新的max参数),按照和步骤(4)相同的方式,建立新的欺骗性垃圾意见检测模型,完成模型的更新。
(10)用户生成内容后续处理
在对准确欺骗性垃圾意见集合和无标注用户生成内容网页集合、检测模型进行补充、更新的同时,将经过欺骗性垃圾意见检测过程判断、标注的用户生成内容推送到后续的环节进行后续处理(处理过程中依据标注类别的不同采取不同的处理方式)。
由此,完整的实现了对欺骗性垃圾意见进行比较完全、准确的识别的全过程。方法中解决了无法建立准确的欺骗性垃圾意见样本集合、样本抽取特征不全、反例样本特征多样性等导致的识别准确度低、欺骗性垃圾意见分布特征发生变化时识别方法失效等问题,保证了欺骗性垃圾意见的准确识别、检测,从而为后续准确的信息处理奠定了基础。

Claims (9)

1.一种用户生成内容中欺骗性垃圾意见检测方法,其步骤为:
1)对设定用户生成内容信息源中的信息进行爬取并生成用户生成内容网页集合,然后对用户生成内容网页进行过滤、标注,得到候选欺骗性垃圾意见集合;
2)对候选欺骗性垃圾意见集合中的每一个样本进行正向确认和反向确认;然后对确认的样本进行标注,得到准确欺骗性垃圾意见集合;
3)从意见作者、意见内容、意见内容分布、链接特征四个纬度对所述准确欺骗性垃圾意见集合和无标注的用户生成内容网页集合样本进行特征提取,生成每一维度的特征向量;
4)采用机器学习方法基于所述准确欺骗性垃圾意见集合和无标注用户生成内容网页集合建立每一维度的欺骗性垃圾意见检测模型;
5)利用所述欺骗性垃圾意见检测模型对新爬取的用户生成内容网页进行欺骗性垃圾意见检测识别。
2.如权利要求1所述的方法,其特征在于依据意见作者的行为、意见内容采用启发式方法对用户生成内容网页进行过滤、标注,得到候选欺骗性垃圾意见集合。
3.如权利要求1或2所述的方法,其特征在于所述候选欺骗性垃圾意见集合的生成方法为:将用户生成内容中内容重复或者近似重复的意见、或一定时间范围内发布意见量最高的top-N1个作者所发布的意见、或一定时间范围内意见量最高的top-N2个对象相关的意见、或一定时间范围内发布意见量最高的top-N3个IP地址相关的意见、或针对特定对象发布意见最早的top-N4个用户所发布的意见、或针对特定对象的意见修正次数最多的top-N5个用户所发布的意见,识别为候选欺骗性垃圾意见,得到所述候选欺骗性垃圾意见集合。
4.如权利要求1所述的方法,其特征在于提取所述意见内容特征的方法为:对抽取出来的意见信息进行分词,去掉停用词,并经过降维后得到内容特征向量;提取所述意见内容分布特征的方法为:提取意见段落数、段落长度均值、句子数、句子长度均值、词数、第一人称代词数、第二人称代词数、第三人称代词数后经过归一化过程得到意见内容分布特征向量;提取所述意见作者特征的方法为:提取意见用户名字符数、意见发布时间距离当天零点的时间间隔、和上一条意见相比的意见发布时间间隔、意见字数、截至当前意见为止的意见数/小时、和上一条意见相比的意见字数变化比率、截至当前信息为止和上一小时相比的意见数变化比率,然后经过归一化过程得到意见作者纬度的特征向量;提取意见信息链接特征的方法为:提取意见信息的网站内入链数、意见信息的网站内出链数、意见信息的网站外入链数、意见信息的网站外出链数、意见信息链接准确欺骗性垃圾意见集合内的信息数、准确欺骗性垃圾意见集合内信息链接意见信息数量后经过归一化过程得到意见信息链接纬度的特征向量。
5.如权利要求1或4所述的方法,其特征在于采用偏置SVM机器学习方法基于所述准确欺骗性垃圾意见集合和无标注用户生成内容网页集合建立基于每一维度特征的欺骗性垃圾意见检测模型。
6.如权利要求1所述的方法,其特征在于所述步骤2)中,统计所述准确欺骗性垃圾意见集合中发布欺骗性垃圾意见最多的N个用户加入到一黑名单中;步骤5)对新爬取的用户生成内容网页进行欺骗性垃圾意见检测识别之前,首先判断用户生成内容网页的用户信息,如果为所述黑名单中的用户,则直接将该用户生成内容网页识别为欺骗性垃圾意见。
7.如权利要求6所述的方法,其特征在于所述步骤5)中,采用反向确认方法对未识别的用户生成内容网页进行识别,然后利用所述欺骗性垃圾意见检测模型对新爬取的未识别用户生成内容网页进行欺骗性垃圾意见检测识别。
8.如权利要求1所述的方法,其特征在于所述步骤5)中,利用所述欺骗性垃圾意见检测模型对新爬取的未识别用户生成内容网页进行欺骗性垃圾意见检测识别过程中,对意见信息分别进行四个纬度特征检测模型的判断,如果至少有三个模型判断为正例,则将此信息识别为欺骗性垃圾意见。
9.如权利要求1所述的方法,其特征在于将步骤5)识别为欺骗性垃圾意见的用户生成内容补充到所述候选欺骗性垃圾意见集合中;然后采取正反向确认方法对更新的候选欺骗性垃圾意见集合的每一用户生成内容信息进行过滤,对确定的欺骗性垃圾意见进行标注,更新所述准确欺骗性垃圾意见集合和无标注用户生成内容网页集合;然后利用更新后的所述准确欺骗性垃圾意见集合和无标注用户生成内容网页集合更新欺骗性垃圾意见检测模型。
CN201110430978.8A 2011-12-20 2011-12-20 一种用户生成内容中欺骗性垃圾意见检测方法 Active CN103176984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110430978.8A CN103176984B (zh) 2011-12-20 2011-12-20 一种用户生成内容中欺骗性垃圾意见检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110430978.8A CN103176984B (zh) 2011-12-20 2011-12-20 一种用户生成内容中欺骗性垃圾意见检测方法

Publications (2)

Publication Number Publication Date
CN103176984A CN103176984A (zh) 2013-06-26
CN103176984B true CN103176984B (zh) 2016-01-20

Family

ID=48636865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110430978.8A Active CN103176984B (zh) 2011-12-20 2011-12-20 一种用户生成内容中欺骗性垃圾意见检测方法

Country Status (1)

Country Link
CN (1) CN103176984B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104580100B (zh) * 2013-10-23 2018-12-07 腾讯科技(深圳)有限公司 一种恶意消息的识别方法及装置、服务器
CN105808580B (zh) * 2014-12-29 2019-08-13 中国移动通信集团公司 一种基于先验模型的信息判定方法及设备
CN107657286B (zh) * 2017-10-19 2020-05-05 北京字节跳动网络技术有限公司 一种广告识别方法及计算机可读存储介质
CN107871088B (zh) * 2017-11-14 2020-07-03 百度在线网络技术(北京)有限公司 一种信息处理方法、装置、终端和计算机可读存储介质
CN108628923A (zh) * 2017-11-28 2018-10-09 南京莱斯信息技术股份有限公司 一种基于互联网大数据的网络违法视频广告识别方法及系统
CN108228837A (zh) * 2018-01-04 2018-06-29 北京百悟科技有限公司 客户挖掘处理方法及装置
CN108647309B (zh) * 2018-05-09 2021-08-10 达而观信息科技(上海)有限公司 基于敏感词的聊天内容审核方法及系统
CN109284467A (zh) * 2018-09-14 2019-01-29 阿里巴巴集团控股有限公司 一种用户生成内容ugc重复次数确定方法及装置
CN109376182A (zh) * 2018-09-26 2019-02-22 上海睿翎法律咨询服务有限公司 基于计算机软件系统实现关联公司识别处理的方法
CN110830489B (zh) * 2019-11-14 2022-09-13 国网江苏省电力有限公司苏州供电分公司 基于内容抽象表示的对抗式欺诈网站检测方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8103727B2 (en) * 2007-08-30 2012-01-24 Fortinet, Inc. Use of global intelligence to make local information classification decisions

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
用户生成内容中的垃圾意见研究综述;杨风雷 等;《计算机应用研究》;20111031;第28卷(第10期);3601-3605 *

Also Published As

Publication number Publication date
CN103176984A (zh) 2013-06-26

Similar Documents

Publication Publication Date Title
CN103176984B (zh) 一种用户生成内容中欺骗性垃圾意见检测方法
CN103176983B (zh) 一种基于互联网信息的事件预警方法
CN103176981B (zh) 一种事件信息挖掘并预警的方法
CN103853744B (zh) 一种面向用户生成内容的欺骗性垃圾意见检测方法
CN106055541A (zh) 一种新闻内容敏感词过滤方法及系统
CN106294619A (zh) 舆情智能监管方法
CN107122432A (zh) 企业社会责任分析方法、装置和系统
EP2863592A1 (en) Spammer group extraction apparatus and method
CN102946331A (zh) 一种社交网络僵尸用户检测方法及装置
Ngai et al. A review of the literature on applications of text mining in policy making
CN106779278A (zh) 资产信息的评价系统及其信息的处理方法和装置
CN109492219A (zh) 一种基于特征分类和情感语义分析的诈骗网站识别方法
CN113239130A (zh) 一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质
CN103853700A (zh) 一种基于区域和对象信息发现的事件预警方法
KR102135074B1 (ko) 인공지능 기반의 팩트 체크 가이드라인을 이용한 가짜 뉴스 판별 시스템
Samonte Polarity analysis of editorial articles towards fake news detection
CN112395513A (zh) 一种舆情传播力分析方法
van den Besselaar et al. Influence of cognitive distance on grant decisions
Watrianthos et al. Exploring research trends and impact: A bibliometric analysis of RESTI Journal from 2018 to 2022
Thi et al. A novel solution for anti-money laundering system
Vydra et al. Big data ethics: A life cycle perspective
CN106934040B (zh) 团队信息的确定方法和确定装置
Rashida et al. Social Media Mining to Detect Mental Health Disorders Using Machine Learning
Deng Analysis and Countermeasures of College Students’ Sentimental Tendency Based on Network Behavior Data
Pajo et al. Analysis of Automatic Online Lead User Identification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant