CN103853744B - 一种面向用户生成内容的欺骗性垃圾意见检测方法 - Google Patents

一种面向用户生成内容的欺骗性垃圾意见检测方法 Download PDF

Info

Publication number
CN103853744B
CN103853744B CN201210501986.1A CN201210501986A CN103853744B CN 103853744 B CN103853744 B CN 103853744B CN 201210501986 A CN201210501986 A CN 201210501986A CN 103853744 B CN103853744 B CN 103853744B
Authority
CN
China
Prior art keywords
sample
information
fraudulence
suggestion
rubbish
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210501986.1A
Other languages
English (en)
Other versions
CN103853744A (zh
Inventor
杨风雷
黎建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201210501986.1A priority Critical patent/CN103853744B/zh
Publication of CN103853744A publication Critical patent/CN103853744A/zh
Application granted granted Critical
Publication of CN103853744B publication Critical patent/CN103853744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向用户生成内容的欺骗性垃圾意见检测方法,本方法为:1)对爬取的网页建立一用户意见信息集合,并进行聚类,得到若干个信息区域;2)计算每一信息区域的标志向量并抽样得到其样本集合;3)对每一样本集合中的样本进行标注,得到每个信息区域的欺骗性垃圾意见样本集合和无标注意见信息样本集合;4)对每一样本,寻找各信息区域的样本集合中与其最相似的P个样本,计算该样本的最终特征向量;5)基于每个样本的最终特征向量,选择机器学习方法针对每个信息区域建立欺骗性垃圾意见检测模型;6)利用欺骗性垃圾意见检测模型对新爬取的用户生成内容网页进行欺骗性垃圾意见检测。本发明提高了欺骗性垃圾意见的检测效率。

Description

一种面向用户生成内容的欺骗性垃圾意见检测方法
技术领域
本发明属于信息技术领域,尤其涉及一种面向用户生成内容的欺骗性垃圾意见检测方法,主要应用于互联网信息监控、信息预警、情感分析、信息过滤、垂直搜索等领域中。
背景技术
随着Web2.0应用的兴起,互联网用户可以通过BBS论坛、博客、微博、社交网站等场所,借助于互联网信息的浏览、转发、发表评论、发布博客文章及评论等手段来表达自己对于感兴趣话题的关注和意见,也可以和相关的人员进行交流。在这种模式下用户所产生的观点、意见等内容被称为用户生成内容(User-Generated-Content)。人们已经认识到对这些用户生成内容进行挖掘可以得到很多宝贵的可应用于很多领域的知识。
但目前,一些研究者在研究工作中发现,由于互联网上的用户生成内容没有质量控制机制,网民可以在互联网上发布任何观点,用户生成内容中存在很多噪声内容或者虚假的内容,这在很大程度上影响了挖掘的效果。即用户意见的有用性、可信性问题在很大程度上影响了所挖掘知识的质量和效果。
为此,垃圾意见研究工作开始得到多方面的关注并成为一个重要的研究领域;其中,此工作也得到了信息监控、信息过滤等领域的关注。垃圾意见指的是用户生成内容中不请自来的、和话题无关的(广告等)或者虽然和话题相关但是虚假性的内容,因为这些内容一般出现在论坛、博客、社交网站等所谓的web2.0应用中,所以也称为垃圾2.0(或者web2.0垃圾)。
按照不同的角度,可对用户生成内容中的垃圾意见进行不同的归类,比如按照垃圾意见的产生方式、表现形式、目的等进行不同的分类。其中,按照垃圾意见的负面影响大小,可将其分为不可信意见、低质量意见、无关意见。不可信意见,也就是欺骗性的意见,一方面表现为对特定的对象、事件、人物等给出不符合实际情况的超高评价、恭维等;另一方面也可能表现为对特定的对象、事件、人物等给出不符合实际情况的超低评价、谩骂、攻击等。低质量意见,此种意见内容一般长度较短,其内容可能是有用的,也可能是无用的,但是由于其内容对特定的话题/产品描述不详细,不能非常确定其对特定话题/产品的意见挖掘的意义,因此也认为是一种垃圾意见(针对计算机而言)。无关意见,此种意见主要表现为广告或者和话题无关的内容。
总体上,考虑到不可信意见的识别难度问题(不可信意见的特征不明显,同时也没有一个明确的、通用的、可操作的不可信垃圾意见判断标准,故此判别起来比较困难),用户生成内容中的垃圾意见,尤其是不可信意见的检测相对更难(相对传统的垃圾页面、垃圾邮件检测而言)。如何对用户生成内容中的欺骗性垃圾意见进行准确检测问题一直未得到有效解决。
考虑到欺骗性垃圾意见的获取难度问题,有研究采取将用户生成内容中重复的意见信息作为欺骗性垃圾意见的样本,将其它的意见信息作为非欺骗性垃圾意见的样本,根据此标准对用户生成内容进行处理、标注,并在此基础上采取有监督的机器学习方法建立分类器进行欺骗性垃圾意见判别、检测。对此种做法,注意到这里面存在两个重要的问题:(1)重复的意见并非一定是欺骗性垃圾意见;(2)欺骗性垃圾意见并非都是重复的。这意味着上述研究工作中,欺骗性垃圾意见正例集合中可能存在反例样本,而欺骗性垃圾意见反例集合中可能存在正例样本。同时,上述研究工作中存在建立分类器时未考虑样本的代表性、未考虑抽取的样本特征是否全面和准确,以及未考虑建立的模型的适应性等问题。这些原因可能是已有文献显示,采用同样的方法检测得到的欺骗性垃圾意见准确度相对较低的原因之一。
发明内容
为解决上述的问题,本发明的目的在于提供一种采取特定步骤对用户生成内容中的欺骗性垃圾意见进行检测识别的新方法。方法形成的步骤如下所述。
(1)对某一特定用户生成内容信息源(比如某一个论坛),启动互联网信息爬虫软件对其中的信息进行爬取,对互联网信息爬虫爬取得到的网页进行预处理等步骤后,形成用户意见信息集合。
(2)对用户意见信息集合中的网页信息进行判断,将可能是欺骗性垃圾意见的网页信息进行整理、标注(根据意见作者行为、所发布内容的特征等判断),并根据其相关的特征(比如意见作者的行为、意见的内容等)审核其是欺骗性垃圾意见的可能性,对确定的欺骗性垃圾意见(通过正向、反向确认的方式确定)进行整理、标注,形成准确的欺骗性垃圾意见信息集合。
(3)对步骤(1)、(2)形成、标注的用户意见信息集合中的每一信息,提取其用于分区的特征向量,进行聚类,得到若干个信息区域(分区),并计算得到每个分区的标志向量(即各分区中计算所有信息的特征向量均值得到的向量)。
(4)对步骤(3)形成的各个用户意见信息分区,采取随机抽样的方法进行样本抽样,得到每个分区的样本集合。
(5)对抽取得到的每个分区的样本,进行二次整理、标注,区分为欺骗性垃圾意见、其他意见,从而将每个分区抽取的样本形成为欺骗性垃圾意见、无标注意见信息样本集合。
(6)对每个分区抽样得到并经过二次标注的样本集合中的每个样本计算其特征向量,其方法为:首先为每一样本建立基于内容和链接的初始特征向量;之后,对某一样本寻找各分区抽取得到的样本中和其最相似的P个样本,基于这P个样本的类别标识、及和其之间的相似度值,得到该样本的最终特征向量;据此循环可得到所有样本的最终特征向量。
(7)对每个分区抽取的样本,基于其最终特征向量,并选择“从正例和无标注数据中学习”的机器学习方法,针对每个分区建立欺骗性垃圾意见检测模型。
(8)在建立欺骗性垃圾意见检测模型的基础上,对互联网信息爬虫新爬取的用户生成内容网页进行欺骗性垃圾意见检测识别(包括黑名单识别、反向识别以及模型识别等);在采用模型对意见信息进行检测过程中,以意见信息和各分区的距离为基础建立加权系数,综合各分区检测模型对意见信息的检测结果,综合加权得到最终的检测结果。之后根据检测结果对意见信息进行标注。
(9)在定期对准确欺骗性垃圾意见集合和无标注的用户意见信息集合进行补充、更新的同时,计算新的用户意见信息集合的分区标志向量和原分区标志向量之间的距离之和,当大于事先设定的阈值时按照步骤(3)-(7)相同的方法执行模型的更新。
本发明通过采取启发式的方法,对互联网信息爬虫爬取的用户意见信息进行选择,对可能是欺骗性垃圾意见的网页进行标注、整理,之后根据“宁缺勿滥”的原则进行整理标注,形成一个准确的欺骗性垃圾意见集合,具体采用的方式包括正向、反向确认。
本发明在对意见信息进行标注过程中,考虑到反例信息可能存在的多样性特点,为提高检测模型的检测准确度、避免反例信息标注的工作量等,未标注反例。
本发明为了保证建立检测模型时样本的代表性,首先建立了意见信息基于内容分布的用于分区的特征向量,并采用聚类的方法对意见信息进行分区,之后在每个分区中采用随机抽样的方法得到了用于建立模型的样本,保证了样本的代表性。
本发明为建立欺骗性垃圾意见检测模型,在抽取样本特征过程中,采用的方法是:首先对每个样本建立基于内容、链接的初始特征向量;之后寻找和某一样本最相似的P个样本,基于这P个样本的类别标识以及和该样本的相似度值得到该样本的最终特征向量;依此循环得到每个样本的最终特征向量。特征向量综合了内容、链接以及相似样本的类别等,保证了样本特征提取的全面、完整。
本发明在建立欺骗性垃圾意见检测模型过程中,选择了一种“从正例和无标注数据中学习”的机器学习方法,适应了样本标注困难以及非欺骗性垃圾意见特征分布多样性问题。
本发明在采用模型对意见信息进行检测过程中,以意见信息和各分区的距离为基础建立加权系数,综合各分区检测模型对意见信息的检测结果,综合加权得到最终的检测结果。保证了检测结果的准确度。
本发明结合欺骗性垃圾意见判别后的补充措施,保证了准确的欺骗性垃圾意见集合的逐步扩大和集合中欺骗性垃圾意见类型的增多-检测模型适应性会逐步提高;同时,基于新的意见信息分区和原有意见信息分区标志向量之间的距离之和的变化情况决定是否更新欺骗性垃圾意见检测模型,即能保证在意见分布特征发生变化时检测模型的适应性,同时也减少了不必要的模型更新工作量。
与现有技术相比,本发明的优点:
(1)采取启发式方法建立候选欺骗性垃圾意见集合,并基于此采取正向、反向确认的方式建立准确欺骗性垃圾意见集合,从而解决了无法收集到准确的欺骗性垃圾意见的问题。但未建立非欺骗性垃圾意见集合,减少了工作量和提高了检测方法的准确度。
(2)为保证建立模型时样本的代表性,过程中首先建立了意见信息基于内容分布的用于分区的特征向量,并采用聚类的方法对意见信息进行分区,之后在每个分区中采用随机抽样的方法得到了用于建立模型的样本,保证了样本的代表性。
(3)在抽取样本特征过程中,首先对每个样本建立基于内容、链接的初始特征向量,之后寻找和某样本最相似的P个样本,基于这P个样本的类别标识以及和该样本的相似度值得到该样本的最终特征向量,依此循环得到每个样本的最终特征向量。特征向量综合了内容、链接以及相似样本的类别等,并采取了“从正例和无标注数据中学习”的机器学习方法,解决了抽取特征不全和非欺骗性垃圾意见特征分布多样性等问题导致的检测模型识别准确度低等问题。
(4)在采用模型对意见信息进行检测过程中,以意见信息和各分区的距离为基础建立加权系数,综合各分区检测模型对意见信息的检测结果,综合加权得到最终的检测结果。保证了检测结果的准确度。
(5)通过欺骗性垃圾意见判别后的补充措施,保证了欺骗性垃圾意见集合逐步扩大、集合中欺骗性垃圾意见类型的增多和持续更新,基于此更新检测模型从而保证了检测模型的适应性。同时,基于新的意见信息分区和原有意见信息分区标志向量之间的距离之和的变化情况决定是否更新欺骗性垃圾意见检测模型,即能保证在意见信息分布特征发生变化时检测模型的适应性,同时也减少了不必要的模型更新工作量。
附图说明
图1一种面向用户生成内容的欺骗性垃圾意见检测方法流程图;
图2意见信息分区方法示意图;
图3意见信息抽样方法示意图;
图4意见信息抽取特征向量方法示意图;
图5欺骗性垃圾意见检测模型建立示意图;
图6欺骗性垃圾意见的模型识别方法示意图。
具体实施方式
本发明的具体实施方式如图1所示。下面详细叙述各步骤。
(1)意见集合产生
对某一特定用户生成内容信息源(比如某一个论坛),启动互联网信息爬虫软件对其中的意见信息进行爬取,并对其进行预处理(包括网页信息作者等元数据提取、正文提取、分词、词性标注、命名实体抽取、句子统计、段落统计、标点符号统计等)步骤后形成用户意见信息集合。
(2)欺骗性垃圾意见标注
考虑到欺骗性垃圾意见的目的是为了不切实际的抬高或降低特定对象比如网站、网页、产品、人物等的形象,具体的表现为对特定的对象、事件、人物等给出不符合实际情况的超高评价、恭维等;另一方面也可能表现为对特定的对象、事件、人物等给出不符合实际情况的超低评价、谩骂、攻击等。由此出发,考虑到实际中欺骗性垃圾意见所具有的一些分布特征,采取启发式方法对可能是欺骗性垃圾意见的用户生成内容进行收集。具体的,此过程中主要关注用户生成内容中内容重复或者近似重复的意见、一定时间范围内发布意见量最高的top-N1个作者所发布的意见、一定时间范围内意见量最高的top-N2个特定对象相关的意见、一定时间范围内发布意见量最高的top-N3个IP地址相关的意见、针对特定对象发布意见最早的top-N4个用户所发布的意见和针对特定对象的意见修正次数最多的top-N5个用户所发布的意见。
依据上述规则,对用户意见信息集合中符合以上条件的意见信息进行整理,形成候选欺骗性垃圾意见集合。之后,遵循宁缺勿滥的原则(即要保证欺骗性垃圾意见样本的准确性)并结合审核、排查等方式对候选的欺骗性垃圾意见进行审核确认。具体的采取了两种方法进行确认,一种是正向确认,一种是反向确认。所谓正向确认,即如果意见信息内容和欺骗性垃圾意见知识库中的信息描述的是同一件事情,即信息内容与欺骗性垃圾意见知识库中的某信息描述相匹配,则为欺骗性垃圾意见。欺骗性垃圾意见知识库中的信息条目增加规则为:对于一条意见信息,经过一段时间的过程或者事后证明,某用户所发布的信息的确是欺骗性的意见,加入知识库中。比如在某论坛有人发布信息说某品牌牛奶中含有三聚氰胺,但后来有人举出种种理由说明这是不可能的,事后证明后者是某品牌牛奶公司的内部员工欺骗所致。由此即可确认此意见信息是欺骗性垃圾信息,加入知识库中(知识库事先构建并定期更新)。所谓反向确认,即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗性垃圾意见。比如反向确认知识库(事先构建并定期更新)中的一条规则为:某一用户id在设定时间中(比如1分钟)对一种或多种产品发布了多于N(比如10条)条意见信息,则将该用户所发表的这些意见信息标注为欺骗性垃圾意见信息。能匹配此规则的一个例子是:某一论坛中某一用户id在不到1分钟的时间中对3种不同产品发布了15条评价信息,从一个正常人的角度考虑这是不可能的。因此,从反向的角度证明了此用户所发布的这些信息的欺骗性。
将通过上述方法确认的信息进行标注,并形成准确欺骗性垃圾意见集合,同时对于经常发布欺骗性垃圾意见的用户,即发布欺骗性垃圾意见最多的N个用户,将其加到黑名单以备后期识别使用;另外,依据准确的欺骗性垃圾意见集合等,总结归纳意见作者的反常行为(比如上述用户在1分钟内针对3种产品发布了15条信息等)形成规则,以备后用。
注意到明确的确认一意见是非欺骗性垃圾意见也存在相当的困难(对于一条信息,不能明确的表明是欺骗性垃圾意见也可能意味着不能明确的说明其不是欺骗性垃圾意见),考虑到时间、工作量、以及非欺骗性垃圾意见存在的多样性等因素,这里没有对非欺骗性垃圾意见进行标注。
(3)意见信息分区(如图2所示)
对步骤(1)、(2)形成、标注的用户意见信息集合中的每一个信息,提取其用于分区的特征向量,进行聚类,得到若干个信息区域,并计算得到每个区域的标志向量。计算过程如下所述。
对意见信息集合中每一信息提取用于分区的特征向量的具体过程如下所述:提取意见信息的字数、词数、意见段落数、段落长度(均值)、句子数、句子长度(均值)、第一人称代词数、第二人称代词数、第三人称代词数、形容词数、副词数、动词数、人名数、地名数、机构名数、时间数、感叹号数、问号数、标题字数等(过程中对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对用户意见信息集合内信息统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1)形成归一化的分区特征向量。
之后即可对意见信息进行聚类处理,聚类过程中可采用谱系聚类、非谱系聚类等方法完成具体过程。
通过此过程,基于用户意见信息用于分区的特征向量,将原始的用户意见信息集合分为若干个子区域(分区)。分别计算每一个分区的标志向量Marki(i为分区编号)-通过计算该分区中所有信息的特征向量均值得到。
(4)意见信息抽样(如图3所示)
对步骤(3)形成的各个用户意见信息分区,进行样本抽样(样本量事先确定)。采取随机抽样的方法,具体过程如下:
设要抽取的样本数为S(事先确定),各分区的信息数为Ii,则各分区应抽取的样本数为Si=S*Ii/∑Ii(此数值为大概的数字,在保证每个分区的样本数都大于事先设定的阈值以及满足S=∑Si的基础上,各分区的样本数可以适度调整)。
对每一分区中的信息进行编号,编号方法是从1开始,依次增长直到所有信息都有一个编号,设最大编号值为MAXi,之后利用随机函数产生Si个1-MAXi之间的随机数,则这Si个随机数对应的意见信息即为相应分区抽中的样本。
抽样过程中,对每一分区按照上述规则进行10次抽取,并选择所抽取样本中欺骗性垃圾意见数最多的一次抽取为最终样本,以保证尽可能多的欺骗性垃圾意见信息能抽取为样本。
从而得到每个意见信息分区的抽样样本集合。
(5)意见信息样本二次标注
对每个分区抽取得到的样本,进行二次整理、标注,区分为欺骗性垃圾意见、其他意见,从而将每个分区抽取的样本形成为欺骗性垃圾意见、无标注意见信息样本集合。
(6)样本特征抽取(如图4所示)
对每个分区中经过二次标注的样本进行样本特征提取、算法选择等是建立检测模型的必须步骤。其中样本特征抽取是一个非常关键的步骤,本方法中的具体步骤如下所述:
A)首先对抽取出来的样本意见信息内容进行分词,去掉停用词,并经过降维(可采用文档频率法、信息增益法等)后形成内容特征向量(权数为词语频率)Qj(j为样本编号)。
B)之后计算样本意见信息的链接特征包括信息的网站内出链数占总出链数比例、信息的网站外出链数占总出链数比例、信息链接准确欺骗性垃圾意见集合内的信息数占总出链数比例、准确欺骗性垃圾意见集合内链接信息的数量占总页面数比例等,并将各项参数加权(权数事先通过统计分析法确定,但须保证权数之和为1)计算得到总的数值,设为Lj
C)最后计算Mj=Lj*Qj,得到基于内容、链接的表征样本意见信息的初始特征向量Mj
D)对分区中的某一个样本Sample,基于该样本的初始特征向量,计算其和各分区中各样本信息的相似值(采用余弦函数),并将各样本信息按照相似值从大到小排序,得到其相似样本序列。
E)将序列中前P(事先通过分析确定)个样本信息的二次标注的类别标识(1表示是欺骗性垃圾意见样本,-1表示无标注样本)和相似值(和该样本之间)分别相乘,并形成一个纬数为P的向量N,作为样本Sample的最终特征向量。
依此循环步骤D)-E),直到计算得到所有样本的特征向量。
(7)建立欺骗性垃圾意见检测模型(如图5所示)
对每个样本意见信息建立了特征向量后,从判断识别欺骗性垃圾意见的角度看,目前需要选择机器学习方法建立检测模型。注意到上述过程(步骤(5))中得到的样本集合中包括经过标注的欺骗性垃圾意见,以及未经标注的意见信息,但没有经过标注的非欺骗性垃圾意见。这就意味着不能简单地采用一般的有监督机器学习方法,因为它建立模型需要同时具备正例、反例集合。所以我们这里采用了一种“从正例和无标注数据中学习”的机器学习方法-偏置SVM(Liu,B.,Y.Dai,X.Li,W.Lee,and P.Yu.Building text classifiersusing positive andunlabeled examples.Proceedings of IEEE InternationalConference on Data Mining,2003.)。
对每个分区,基于上述计算得到的样本的特征向量和所选择的“从正例和无标注数据中学习”的机器学习方法,即可建立识别检测欺骗性垃圾意见的检测模型(每个分区一个模型)。
(8)欺骗性垃圾意见检测识别
每个分区的欺骗性垃圾意见检测模型建立完毕后,即可对互联网信息爬虫新爬取的用户生成内容进行欺骗性垃圾意见的判断识别。整体上,欺骗性垃圾意见的判断识别按照三个步骤进行:黑名单识别、反向识别、模型检测识别。首先进行黑名单识别,对属于黑名单中用户发布的信息,直接识别为欺骗性垃圾意见;对于剩余意见,依据步骤(2)归纳的规则按照反向确认(即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗性垃圾意见)的方式进行识别,对于不正常的意见,识别为欺骗性垃圾意见;对于剩余的意见按照步骤(7)建立的模型进行识别,识别过程为:
首先计算意见信息的分区用特征向量(按照步骤(3)所述方法计算),并计算意见信息和各个分区的距离(通过计算意见信息的特征向量和各分区标志向量的距离得到)di(i表示分区编号)。由此,计算得到对此意见信息而言各分区检测模型的权数ei=di/∑di
对意见信息分别采用各分区的检测模型进行检测识别,得到检测结果Oi(过程为首先建立意见信息的初始特征向量,之后寻找和意见信息相似的样本,得到最终特征向量-过程同步骤(6),之后采用步骤(7)建立的模型得到检测结果),从而得到最终的检测结果O=∑ei*Oi,如果最终的检测结果O大于事先确定的阈值,则对此意见信息识别为欺骗性垃圾意见(如图6所示)。
将经过上述步骤识别为欺骗性垃圾意见的用户意见信息,按照标准统一标注为欺骗性垃圾意见。
(9)欺骗性垃圾意见检测模型更新
考虑到欺骗性垃圾意见、非欺骗性垃圾意见动态变化所带来的影响,在执行欺骗性垃圾意见的检测过程中定期执行检测模型和意见信息集合更新工作(含更新max参数)。过程如下所述:
将经过步骤(8)识别、标注的欺骗性垃圾意见按照和步骤(2)相同的方式进行审核确认,将通过上述方法确认的信息进行标注,并形成新的准确欺骗性垃圾意见集合(对于经常发布欺骗性垃圾意见的用户,将其加到黑名单以备后期识别使用;同时对新的准确欺骗性垃圾意见集合中意见作者的行为规律进行总结形成规则,以备后用);同时也形成新的无标注的用户意见信息集合。
对于新的用户意见信息集合,以和原来各分区中标志向量(为区别,此处的Marki用Markoldi标识)距离最近的向量作为初始中心,采用非谱系聚类方法执行聚类过程,得到新的用户意见信息分区,计算各新分区的标志向量Marknewi,并计算新、老分区标志向量之间的距离之和Dis=∑Distance(Marknewi,Markoldi),如果Dis大于事先设定的阈值,则执行模型更新过程(同步骤(3)-(7)),完成模型的更新。
由此,实现了对欺骗性垃圾意见进行比较准确识别的全过程。方法中解决了无法建立准确的欺骗性垃圾意见集合、样本代表性不强、样本标注工作量大、样本抽取特征不全、检测模型适应性低等导致的识别准确度低、意见信息分布特征发生变化时识别方法失效等问题,保证了欺骗性垃圾意见的准确检测。

Claims (9)

1.一种面向用户生成内容的欺骗性垃圾意见检测方法,其步骤为:
1)爬取所选用户生成内容信息源的网页,并根据爬取的网页建立一用户意见信息集合;
2)对用户意见信息集合进行聚类,得到若干个信息区域,并计算每一信息区域中所有信息的特征向量均值,作为该信息区域的标志向量;
3)对每一信息区域中的用户意见信息进行样本抽样,得到每个信息区域的样本集合;
4)对每一信息区域的样本集合中的样本进行标注,得到每个信息区域的欺骗性垃圾意见信息样本集合和无标注意见信息样本集合;
5)对每一样本,寻找各信息区域的样本集合中与其最相似的P个样本,基于该P个样本标注的类别标识、及其与该样本之间的相似度值,得到该样本的最终特征向量;
6)基于每个样本的最终特征向量,选择机器学习方法针对每个信息区域建立欺骗性垃圾意见检测模型;
7)利用欺骗性垃圾意见检测模型对新爬取的用户生成内容网页进行欺骗性垃圾意见检测识别。
2.如权利要求1所述的方法,其特征在于先对所述用户意见信息集合中确定为欺骗性垃圾意见的信息进行标注,建立一准确的欺骗性垃圾意见信息集合;然后对意见信息分区后,在样本抽样过程中对每一分区按照随机抽样的方法进行多次抽取,并根据所建欺骗性垃圾意见信息集合选择所抽取样本中欺骗性垃圾意见数最多的一次抽取为该分区的最终样本,得到每个信息区域的样本集合。
3.如权利要求1或2所述的方法,其特征在于对每一样本,以样本的内容和链接纬度的特征参数形成其初始特征向量,寻找各信息区域的样本集合中与其最相似的P个样本。
4.如权利要求1或2所述的方法,其特征在于所述样本最终特征向量的计算方法为:
A)首先对抽取出来的样本意见信息内容进行分词,去掉停用词,并经过降维后形成内容特征向量Qj,j为样本编号;
B)计算样本意见信息的链接特征,并将各项链接特征参数加权计算得到总的数值,设为Lj
C)计算Mj=Lj*Qj,得到基于内容、链接的表征样本意见信息的初始特征向量Mj
D)对信息区域中的每一样本Sample,基于该样本的初始特征向量,计算其与各信息区域中每一样本信息的相似值,并将各样本信息按照相似值从大到小排序,得到其相似样本序列;
E)将样本序列中前P个样本信息的类别标识与对应相似值分别相乘,形成一个纬数为P的向量N,作为样本Sample的最终特征向量。
5.如权利要求1所述的方法,其特征在于利用欺骗性垃圾意见检测模型对新爬取的用户生成内容网页进行检测过程中,以意见信息和各信息区域的距离为基础建立加权系数,将每一欺骗性垃圾意见检测模型对用户意见信息的检测结果进行综合加权,得到最终的检测结果;根据最终的检测结果对用户意见信息进行标注。
6.如权利要求1或5所述的方法,其特征在于执行步骤7)之前,首先进行黑名单识别,对属于黑名单中用户发布的信息,直接识别为欺骗性垃圾意见;然后按照反向确认的方式对剩余信息进行识别,将不正常的意见识别为欺骗性垃圾意见;然后利用欺骗性垃圾意见检测模型对剩余的新爬取的用户生成内容网页进行欺骗性垃圾意见检测识别。
7.如权利要求1所述的方法,其特征在于定期对准确欺骗性垃圾意见信息集合和无标注的用户意见信息集合进行补充、更新,然后对更新后的用户意见信息集合进行聚类,计算每一信息区域当前标志向量与上一次标志向量之间的距离并求和得到累加值Dis,当Dis值大于事先设定的阈值时,更新每个信息区域的欺骗性垃圾意见检测模型。
8.如权利要求1所述的方法,其特征在于对用户意见信息集合进行聚类分析的特征向量为:提取意见信息的字数、词数、意见段落数、段落长度均值、句子数、句子长度均值、第一人称代词数、第二人称代词数、第三人称代词数、形容词数、副词数、动词数、人名数、地名数、机构名数、时间数、感叹号数、问号数以及标题字数,并对其进行归一化得到对用户意见信息集合进行聚类分析的特征向量。
9.如权利要求1所述的方法,其特征在于所述机器学习方法为偏置SVM机器学习方法。
CN201210501986.1A 2012-11-29 2012-11-29 一种面向用户生成内容的欺骗性垃圾意见检测方法 Active CN103853744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210501986.1A CN103853744B (zh) 2012-11-29 2012-11-29 一种面向用户生成内容的欺骗性垃圾意见检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210501986.1A CN103853744B (zh) 2012-11-29 2012-11-29 一种面向用户生成内容的欺骗性垃圾意见检测方法

Publications (2)

Publication Number Publication Date
CN103853744A CN103853744A (zh) 2014-06-11
CN103853744B true CN103853744B (zh) 2017-02-22

Family

ID=50861411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210501986.1A Active CN103853744B (zh) 2012-11-29 2012-11-29 一种面向用户生成内容的欺骗性垃圾意见检测方法

Country Status (1)

Country Link
CN (1) CN103853744B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106817472B (zh) * 2015-12-02 2020-03-10 华为技术有限公司 一种通讯账号确定方法、终端设备及服务器
CN107423319B (zh) * 2017-03-29 2020-07-03 天津大学 一种垃圾网页检测方法
US11086948B2 (en) 2019-08-22 2021-08-10 Yandex Europe Ag Method and system for determining abnormal crowd-sourced label
US11710137B2 (en) 2019-08-23 2023-07-25 Yandex Europe Ag Method and system for identifying electronic devices of genuine customers of organizations
US11108802B2 (en) 2019-09-05 2021-08-31 Yandex Europe Ag Method of and system for identifying abnormal site visits
RU2757007C2 (ru) 2019-09-05 2021-10-08 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для определения вредоносных действий определенного вида
US11334559B2 (en) 2019-09-09 2022-05-17 Yandex Europe Ag Method of and system for identifying abnormal rating activity
US11128645B2 (en) 2019-09-09 2021-09-21 Yandex Europe Ag Method and system for detecting fraudulent access to web resource
RU2752241C2 (ru) 2019-12-25 2021-07-23 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для выявления вредоносной активности предопределенного типа в локальной сети

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171868A1 (en) * 2007-12-27 2009-07-02 Nec Laboratories America, Inc. Method and Apparatus for Early Termination in Training of Support Vector Machines

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"用户生成内容中的垃圾意见研究综述";杨风雷 等;《计算机应用研究》;20111015;第28卷(第10期);3601-3605 *

Also Published As

Publication number Publication date
CN103853744A (zh) 2014-06-11

Similar Documents

Publication Publication Date Title
CN103853744B (zh) 一种面向用户生成内容的欺骗性垃圾意见检测方法
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN103854063B (zh) 一种基于互联网开放信息的事件发生风险预测并预警方法
CN103176981B (zh) 一种事件信息挖掘并预警的方法
TWI438637B (zh) 用於擷取及管理社群智慧資訊的系統及方法
CN107437038B (zh) 一种网页篡改的检测方法及装置
CN103854064B (zh) 一种面向特定区域的事件发生风险预测并预警方法
US9519718B2 (en) Webpage information detection method and system
CN103176984B (zh) 一种用户生成内容中欺骗性垃圾意见检测方法
CN102609407B (zh) 一种网络不良文本内容的细粒度语义检测方法
Hristakieva et al. The spread of propaganda by coordinated communities on social media
CN106354845A (zh) 基于传播结构的微博谣言识别方法和系统
CN106294619A (zh) 舆情智能监管方法
CN109033200A (zh) 事件抽取的方法、装置、设备及计算机可读介质
WO2017084205A1 (zh) 一种网络用户身份认证方法及系统
CN110727766A (zh) 敏感词的检测方法
CN106446124B (zh) 一种基于网络关系图的网站分类方法
Deng et al. Sentiment analysis based online restaurants fake reviews hype detection
CN103853700A (zh) 一种基于区域和对象信息发现的事件预警方法
Raja et al. Fake news detection on social networks using Machine learning techniques
Priyoko et al. Implementation of naive Bayes algorithm for spam comments classification on Instagram
Kanazawa et al. Improving retrieval of future-related information in text collections
Schulz et al. Evaluating multi-label classification of incident-related tweets
Liu et al. An illegal billboard advertisement detection framework based on machine learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant