CN104484330A - 基于分档关键词阈值组合评估的垃圾评论预选方法及装置 - Google Patents

基于分档关键词阈值组合评估的垃圾评论预选方法及装置 Download PDF

Info

Publication number
CN104484330A
CN104484330A CN201410607948.3A CN201410607948A CN104484330A CN 104484330 A CN104484330 A CN 104484330A CN 201410607948 A CN201410607948 A CN 201410607948A CN 104484330 A CN104484330 A CN 104484330A
Authority
CN
China
Prior art keywords
keyword
frequent
comment
spam
stepping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410607948.3A
Other languages
English (en)
Other versions
CN104484330B (zh
Inventor
徐斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201410607948.3A priority Critical patent/CN104484330B/zh
Publication of CN104484330A publication Critical patent/CN104484330A/zh
Application granted granted Critical
Publication of CN104484330B publication Critical patent/CN104484330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于分档关键词阈值组合评估的垃圾评论预选方法及装置,所述基于分档关键词阈值组合评估的垃圾评论预选方法,包括:获取评论信息的关键词集的最小支持度;根据最小支持度获得频繁关键词和次频繁关键词;根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。本发明利用评论的关键词信息进行统计分析,对主要关键词进行分档,根据各个关键词所属档次,评判每条评论中关键词信息,按照一定的判定规则,进行评论的区分,从而完成预选,做到了简单快速有效的识别,从而维护社交平台或网商平台的可信度,同时也让商品评论信息更高效的为我们服务。

Description

基于分档关键词阈值组合评估的垃圾评论预选方法及装置
技术领域
本发明涉及一种互联网领域的网络信息管理技术,尤其是一种基于分档关键词阈值组合评估的垃圾评论预选方法及装置。
背景技术
随着通讯设备和技术的更新,以及计算机网络在电子商务、电子政务、娱乐、生活等方面的普及,网络的社交性越来越明显。在日常生活中,人们花费越来越多的时间在网络上进行交流,相互交易。其中的网络评论反映着已完成交易买家各自的购物诉求也影响着正在交易买家的购物选择。
商品的网络评论信息包含了消费者对商品和服务的各种观点,不仅会影响潜在消费者的购买,也会对商品制造者造成一定的影响。但是由于无限制性,人们可以随意在网络上发表自己的观点,这样就会出现一些无意义甚至不真实的评论信息。用户难以识别出对自己有用的评论内容。为了净化网络环境,避免用户受骗上当,电子商务平台有必要引入垃圾评论筛选技术,从海量的商品评论信息中识别出垃圾评论,提取出有价值的信息资源。
发明内容
本发明的主要目的在于提供一种基于分档关键词阈值组合评估的垃圾评论预选方法及装置,能够简单快速地预选出垃圾评论,维护社交平台的可信度,同时也让商品评论信息更高效地为商家和顾客服务。
为此,本发明实施例提供一种基于分档关键词阈值组合评估的垃圾评论预选方法,包括:
获取评论信息的关键词集的最小支持度;
根据最小支持度获得频繁关键词和次频繁关键词;
根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。
可选的,还包括:获得评论信息中的全局关键词,形成关键词集。
可选的,获取全局关键词的具体方法包括:确定评论领域以及全局评论信息,对全局评论信息进行分词,计算每个词汇的单次频度、重复频度以及权值,忽略掉权值较小的词,抽取出全局关键词。
可选的,获取关键词集的最小支持度的具体方法包括:获取垃圾评论的比例x,而关键词集的最小支持度为(100-x)%。
可选的,利用Apriori算法获得频繁关键词和次频繁关键词。
可选的,获得频繁关键词的方法包括:令包含k个关键词的频繁关键词集为频繁k-关键词集,记为Lk,进行迭代计算:在第一次迭代过程中,候选集为所有1-关键词集,在这些关键词集中找到支持度大于等于指定的最小支持度阀值的1-关键词集,成为频繁1-关键词集L1,不再考虑其他关键词;第二次迭代过程在L1基础上进行,通过Lk*Lk产生候选集,计算候选集中所有2-关键词集的支持度,支持度大于等于最小支持度阀值的2-关键词集选中为频繁2-关键词集L2;重复上述过程,直到无法产生候选关键词集为止。
可选的,获得次频繁关键词的方法包括:在获得频繁关键词后,在全局关键词中除去频繁关键词,在剩下的关键词进行搜索,计算每个关键词的支持度,将支持度大于等于(100-x)%的关键词提取,得出次频繁关键词。
可选的,当频繁关键词在评论中全部出现且次频繁关键词在评论中至少出现一个时,该评论为正常评论,其余评论都为垃圾评论。
本发明实施例还提供了一种基于分档关键词阈值组合评估的垃圾评论预选装置,包括:
最小支持度获取模块,用于获取评论信息的关键词集的最小支持度;
频繁关键词获取模块,根据最小支持度获得频繁关键词和次频繁关键词;
规则应用模块,根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。
可选的,还包括关键词集获取单元,获得评论信息中的全局关键词,形成关键词集。
与现有技术相比,本发明至少具有如下技术效果:
本发明利用评论的关键词信息进行统计分析,对主要关键词进行分档,根据各个关键词所属档次,评判每条评论中关键词信息,按照一定的判定规则,进行评论的区分,从而完成预选,做到了简单快速有效的识别,从而维护社交平台或网商平台的可信度,同时也让商品评论信息更高效的为我们服务。
附图说明
图1为本发明实施例的基于分档关键词阈值组合评估的垃圾评论预选方法的流程示意图;
图2为本发明实施例的基于分档关键词阈值组合评估的垃圾评论预选装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明实施例首先提供了一种基于分档关键词阈值组合评估的垃圾评论预选方法的流程示意图,请参考图1,包括:
步骤S101,获得评论信息中的全局关键词,形成关键词集;
步骤S102,获取关键词集的最小支持度;
步骤S103,根据最小支持度获得频繁关键词和次频繁关键词;
步骤S104,根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。
下面以手机的电商评论信息为例,对本发明技术方案进行说明。
具体的,执行步骤S101,获得评论信息中的全局关键词,形成关键词集。
首先获取电商平台或社交平台中的评论信息,通过自动分词的方式或人工分词的方式对所有的评论信息进行分词。然后通过算法或人工判定,根据词性简单过滤掉无关的连接词,对过滤后剩下的词语以词汇聚合的形式记录为
M={m1,m2,m3,…,mn}。
根据上述方法分析具体目标商品(某一款某一型号的手机)的评论信息,针对具体目标商品的评论词汇集合表示为M1(含有n1个词汇),其中统计具体目标商品的评论词汇的单次频度和重复频度(单次频度是出现词语mi的评论数,不超过N,N为所分析的全部评论数;重复频度指的是词语mi在N条评论中的出现次数,,利用单次频度计算该词汇的相对信息量(此处相对信息量的计算与常规信息量计算不同,区别在于样本数仅限于所分析的N条评论,而非所有出现词语mi的评论集合,利用重复频度计算该词汇的密度,利用词语的相对信息量和密度,计算该词语的权重值,当词汇集合中的词语表示为mi,在N条评论中出现的单次频度表示为fi,重复频度表示为di,则Pi表示该词的相对信息量,Qi表示该词的权重值;
Pi = log N f i + 1 , Qi = d i N × P i
以键值对的形式(关键词,权重值)记录该目标物下的评论词汇以及权重,并按照权重值的大小进行排序如下形式:
{(mi,Qi)}i,其中{Qi}i满足Qi>Qj对于任意i<j
在此基础上,忽略掉键值对中权重值较小的键值对,得出全局关键词集合,并记录为:
W={w1,w2,…,wh},含有h个关键词,其中
在其他实施例中,也可以不忽略键值对中权重值较小的键值对,列出全局关键词,形成关键词集。
执行步骤S102,获取关键词集的最小支持度。
关键词集为包含某些关键词的词集,把含有该词集中某些关键词的评论的数量占总评论数量的比例定义为支持度S,即
给定最小支持度Smin。当关键词集的支持度S≥Smin则称为频繁关键词集。
假定我们需要处理的商品评论中,垃圾评论的比例为x%,则正常评论的比例为(100-x)%,由于正常评论中肯定包含关键词集中的某些关键词,因此,给定最小支持度Smin为(100-x)%,通过获取垃圾评论的比例为x%,即可获得最小支持度Smin。所述垃圾评论的百分比x%依赖于不同的评论环境和评论目标,可通过抽样方法来测定,采用人工判断、选用软件对垃圾评论比例进行评估或者两种方法结合来进行评估。
执行步骤S103,根据最小支持度获得频繁关键词和次频繁关键词。
在本实施例中,选取的频繁关键词需要满足的条件为:含有频繁关键词集中全部关键词的评论数占全部评论数的比例应该大于等于(100-x)%;选取的次频繁关键词需要满足的条件为:含有至少一个次频繁关键词的评论数占全部评论数的比例应该大于等于(100-x)%;利用数据挖掘方法中的Apriori算法,采用自底向上的方法,从包含少量关键词的关键词集开始依次向包含多个关键词的关键词集搜索。
获得频繁关键词的方法包括:令包含k个关键词的频繁关键词集为频繁k-关键词集,记为Lk,进行迭代计算:在第一次迭代过程中,候选集为所有1-关键词集,在这些关键词集中找到支持度大于等于指定的最小支持度阀值的1-关键词集,成为频繁1-关键词集L1,不再考虑其他关键词;第二次迭代过程在L1基础上进行,通过Lk*Lk产生候选集,计算候选集中所有2-关键词集的支持度,支持度大于等于最小支持度阀值的2-关键词集选中为频繁2-关键词集L2;重复上述过程,直到无法产生候选关键词集为止。
获得次频繁关键词的方法包括:在获得频繁关键词后,在全局关键词中除去频繁关键词,在剩下的关键词进行搜索,计算每个关键词的支持度,将支持度大于等于(100-x)%的关键词提取,得出次频繁关键词。
执行步骤S104,根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。
在本实施例中,根据频繁关键词和次频繁关键词两档关键词在评论中出现情况来判别是否垃圾评论,从而完成垃圾评论的预选,具体判断标准如下表所示:
在其中一个实施例中,按本专利的算法得到的频繁和次频繁两档关键词为:
Word(频繁)={w1,w2,w3}
Word(次频繁)={w4,w5,w6,w7,w8,w9,w10}
并且评论d1,d2,d3的特征向量为
V(d1)=(w1 w2 w3 w4 w5 w6)
V(d2)=(w1 w2 w3 w4 w5 w6 w7 w8 w9 w10)
V(d3)=(w2 w3 w4 w5 w6 w7)
根据每条评论信息与频繁和次频繁两档关键词的符合程度,以此规则判定:
评论d1的特征向量中频繁关键词全有,次频繁关键词出现部分,符合上述规则中的正常评论;
评论d2的特征向量中频繁关键词全有,次频繁关键词全有,符合上述规则中的正常评论;
评论d3的特征向量中频繁关键词出现部分,次频繁关键词出现部分,符合上述评论中的垃圾评论。
据此,本发明实施例还提供一种基于分档关键词阈值组合评估的垃圾评论预选装置,请参考图2,包括:
关键词集获取单元10,用于获得评论信息中的全局关键词,形成关键词集;
最小支持度获取模块20,用于获取评论信息的关键词集的最小支持度;
频繁关键词获取模块30,根据最小支持度获得频繁关键词和次频繁关键词;
规则应用模块40,根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims (10)

1.一种基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在于,包括:
获取评论信息的关键词集的最小支持度;
根据最小支持度获得频繁关键词和次频繁关键词;
根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。
2.如权利要求1所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在于,还包括:获得评论信息中的全局关键词,形成关键词集。
3.如权利要求2所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在于,获取全局关键词的具体方法包括:确定评论领域以及全局评论信息,对全局评论信息进行分词,计算每个词汇的单次频度、重复频度以及权值,忽略掉权值较小的词,抽取出全局关键词。
4.如权利要求1所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在于,获取关键词集的最小支持度的具体方法包括:获取垃圾评论的比例x,而关键词集的最小支持度为(100-x)%。
5.如权利要求1所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在于,利用Apriori算法获得频繁关键词和次频繁关键词。
6.如权利要求5所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在于,获得频繁关键词的方法包括:令包含k个关键词的频繁关键词集为频繁k-关键词集,记为Lk,进行迭代计算:在第一次迭代过程中,候选集为所有1-关键词集,在这些关键词集中找到支持度大于等于指定的最小支持度阀值的1-关键词集,成为频繁1-关键词集L1,不再考虑其他关键词;第二次迭代过程在L1基础上进行,通过Lk*Lk产生候选集,计算候选集中所有2-关键词集的支持度,支持度大于等于最小支持度阀值的2-关键词集选中为频繁2-关键词集L2;重复上述过程,直到无法产生候选关键词集为止。
7.如权利要求5所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在于,获得次频繁关键词的方法包括:在获得频繁关键词后,在全局关键词中除去频繁关键词,在剩下的关键词进行搜索,计算每个关键词的支持度,将支持度大于等于(100-x)%的关键词提取,得出次频繁关键词。
8.如权利要求1所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在于,当频繁关键词在评论中全部出现且次频繁关键词在评论中至少出现一个时,该评论为正常评论,其余评论都为垃圾评论。
9.一种基于分档关键词阈值组合评估的垃圾评论预选装置,其特征在于,包括:
最小支持度获取模块,用于获取评论信息的关键词集的最小支持度;
频繁关键词获取模块,根据最小支持度获得频繁关键词和次频繁关键词;
规则应用模块,根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。
10.如权利要求9所述的基于分档关键词阈值组合评估的垃圾评论预选装置,其特征在于,还包括关键词集获取单元,获得评论信息中的全局关键词,形成关键词集。
CN201410607948.3A 2014-10-31 2014-10-31 基于分档关键词阈值组合评估的垃圾评论预选方法及装置 Active CN104484330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410607948.3A CN104484330B (zh) 2014-10-31 2014-10-31 基于分档关键词阈值组合评估的垃圾评论预选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410607948.3A CN104484330B (zh) 2014-10-31 2014-10-31 基于分档关键词阈值组合评估的垃圾评论预选方法及装置

Publications (2)

Publication Number Publication Date
CN104484330A true CN104484330A (zh) 2015-04-01
CN104484330B CN104484330B (zh) 2019-07-23

Family

ID=52758871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410607948.3A Active CN104484330B (zh) 2014-10-31 2014-10-31 基于分档关键词阈值组合评估的垃圾评论预选方法及装置

Country Status (1)

Country Link
CN (1) CN104484330B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183715A (zh) * 2015-08-31 2015-12-23 南京大学 一种基于词分布和文档特征的垃圾评论自动分类方法
CN108319582A (zh) * 2017-12-29 2018-07-24 北京城市网邻信息技术有限公司 文本消息的处理方法、装置和服务器
CN109933775A (zh) * 2017-12-15 2019-06-25 腾讯科技(深圳)有限公司 Ugc内容处理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
许少岩等: "《互联网产品评论信息中垃圾评论的识别方法浅析》", 《科技广场》 *
邱云飞等: "《基于Web评论的用户个人信息提取方法研究》", 《计算机应用与软件》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183715A (zh) * 2015-08-31 2015-12-23 南京大学 一种基于词分布和文档特征的垃圾评论自动分类方法
CN105183715B (zh) * 2015-08-31 2018-02-09 南京大学 一种基于词分布和文档特征的垃圾评论自动分类方法
CN109933775A (zh) * 2017-12-15 2019-06-25 腾讯科技(深圳)有限公司 Ugc内容处理方法及装置
CN109933775B (zh) * 2017-12-15 2022-02-18 腾讯科技(深圳)有限公司 Ugc内容处理方法及装置
CN108319582A (zh) * 2017-12-29 2018-07-24 北京城市网邻信息技术有限公司 文本消息的处理方法、装置和服务器

Also Published As

Publication number Publication date
CN104484330B (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN107657048B (zh) 用户识别方法及装置
CN107122369B (zh) 一种业务数据处理方法、装置和系统
CN105787025B (zh) 网络平台公共账号分类方法及装置
CN109388743B (zh) 语言模型的确定方法和装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN108027814B (zh) 停用词识别方法与装置
CN103455411B (zh) 日志分类模型的建立、行为日志分类方法及装置
CN101609472A (zh) 一种基于问答平台的关键词评价方法和装置
CN109993448A (zh) 一种企业网络舆情潜在风险的评估方法及系统
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
CN103218368B (zh) 一种挖掘热词的方法与装置
CN104484330A (zh) 基于分档关键词阈值组合评估的垃圾评论预选方法及装置
CN107330709B (zh) 确定目标对象的方法及装置
CN105808602B (zh) 一种垃圾信息的检测方法及装置
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN107480126B (zh) 一种工程材料类别智能识别方法
CN113407584A (zh) 标签抽取方法、装置、设备及存储介质
CN108241682B (zh) 确定文本情感的方法及装置
CN115687790B (zh) 基于大数据的广告推送方法、系统及云平台
CN115423600B (zh) 数据筛选方法、装置、介质及电子设备
KR102078541B1 (ko) 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체
CN114780712B (zh) 一种基于质量评价的新闻专题生成方法及装置
CN103186573B (zh) 一种确定搜索需求强度的方法、需求识别的方法及其装置
CN113220741A (zh) 互联网广告虚假流量识别方法、系统、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant