CN104484330A

CN104484330A - 基于分档关键词阈值组合评估的垃圾评论预选方法及装置

Info

Publication number: CN104484330A
Application number: CN201410607948.3A
Authority: CN
Inventors: 徐斌
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2015-04-01
Anticipated expiration: 2034-10-31
Also published as: CN104484330B

Abstract

一种基于分档关键词阈值组合评估的垃圾评论预选方法及装置，所述基于分档关键词阈值组合评估的垃圾评论预选方法，包括：获取评论信息的关键词集的最小支持度；根据最小支持度获得频繁关键词和次频繁关键词；根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。本发明利用评论的关键词信息进行统计分析，对主要关键词进行分档，根据各个关键词所属档次，评判每条评论中关键词信息，按照一定的判定规则，进行评论的区分，从而完成预选，做到了简单快速有效的识别，从而维护社交平台或网商平台的可信度，同时也让商品评论信息更高效的为我们服务。

Description

基于分档关键词阈值组合评估的垃圾评论预选方法及装置

技术领域

本发明涉及一种互联网领域的网络信息管理技术，尤其是一种基于分档关键词阈值组合评估的垃圾评论预选方法及装置。

背景技术

随着通讯设备和技术的更新，以及计算机网络在电子商务、电子政务、娱乐、生活等方面的普及，网络的社交性越来越明显。在日常生活中，人们花费越来越多的时间在网络上进行交流，相互交易。其中的网络评论反映着已完成交易买家各自的购物诉求也影响着正在交易买家的购物选择。

商品的网络评论信息包含了消费者对商品和服务的各种观点，不仅会影响潜在消费者的购买，也会对商品制造者造成一定的影响。但是由于无限制性，人们可以随意在网络上发表自己的观点，这样就会出现一些无意义甚至不真实的评论信息。用户难以识别出对自己有用的评论内容。为了净化网络环境，避免用户受骗上当，电子商务平台有必要引入垃圾评论筛选技术，从海量的商品评论信息中识别出垃圾评论，提取出有价值的信息资源。

发明内容

本发明的主要目的在于提供一种基于分档关键词阈值组合评估的垃圾评论预选方法及装置，能够简单快速地预选出垃圾评论，维护社交平台的可信度，同时也让商品评论信息更高效地为商家和顾客服务。

为此，本发明实施例提供一种基于分档关键词阈值组合评估的垃圾评论预选方法，包括：

获取评论信息的关键词集的最小支持度；

根据最小支持度获得频繁关键词和次频繁关键词；

根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。

可选的，还包括：获得评论信息中的全局关键词，形成关键词集。

可选的，获取全局关键词的具体方法包括：确定评论领域以及全局评论信息，对全局评论信息进行分词，计算每个词汇的单次频度、重复频度以及权值，忽略掉权值较小的词，抽取出全局关键词。

可选的，获取关键词集的最小支持度的具体方法包括：获取垃圾评论的比例x，而关键词集的最小支持度为(100-x)％。

可选的，利用Apriori算法获得频繁关键词和次频繁关键词。

可选的，获得频繁关键词的方法包括：令包含k个关键词的频繁关键词集为频繁k-关键词集，记为L_k，进行迭代计算：在第一次迭代过程中，候选集为所有1-关键词集，在这些关键词集中找到支持度大于等于指定的最小支持度阀值的1-关键词集，成为频繁1-关键词集L₁，不再考虑其他关键词；第二次迭代过程在L₁基础上进行，通过L_k*L_k产生候选集，计算候选集中所有2-关键词集的支持度，支持度大于等于最小支持度阀值的2-关键词集选中为频繁2-关键词集L₂；重复上述过程，直到无法产生候选关键词集为止。

可选的，获得次频繁关键词的方法包括：在获得频繁关键词后，在全局关键词中除去频繁关键词，在剩下的关键词进行搜索，计算每个关键词的支持度，将支持度大于等于(100-x)％的关键词提取，得出次频繁关键词。

可选的，当频繁关键词在评论中全部出现且次频繁关键词在评论中至少出现一个时，该评论为正常评论，其余评论都为垃圾评论。

本发明实施例还提供了一种基于分档关键词阈值组合评估的垃圾评论预选装置，包括：

最小支持度获取模块，用于获取评论信息的关键词集的最小支持度；

频繁关键词获取模块，根据最小支持度获得频繁关键词和次频繁关键词；

规则应用模块，根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。

可选的，还包括关键词集获取单元，获得评论信息中的全局关键词，形成关键词集。

与现有技术相比，本发明至少具有如下技术效果：

本发明利用评论的关键词信息进行统计分析，对主要关键词进行分档，根据各个关键词所属档次，评判每条评论中关键词信息，按照一定的判定规则，进行评论的区分，从而完成预选，做到了简单快速有效的识别，从而维护社交平台或网商平台的可信度，同时也让商品评论信息更高效的为我们服务。

附图说明

图1为本发明实施例的基于分档关键词阈值组合评估的垃圾评论预选方法的流程示意图；

图2为本发明实施例的基于分档关键词阈值组合评估的垃圾评论预选装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明实施例首先提供了一种基于分档关键词阈值组合评估的垃圾评论预选方法的流程示意图，请参考图1，包括：

步骤S101，获得评论信息中的全局关键词，形成关键词集；

步骤S102，获取关键词集的最小支持度；

步骤S103，根据最小支持度获得频繁关键词和次频繁关键词；

步骤S104，根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。

下面以手机的电商评论信息为例，对本发明技术方案进行说明。

具体的，执行步骤S101，获得评论信息中的全局关键词，形成关键词集。

首先获取电商平台或社交平台中的评论信息，通过自动分词的方式或人工分词的方式对所有的评论信息进行分词。然后通过算法或人工判定，根据词性简单过滤掉无关的连接词，对过滤后剩下的词语以词汇聚合的形式记录为

M＝{m₁,m₂,m₃,…,m_n}。

根据上述方法分析具体目标商品(某一款某一型号的手机)的评论信息，针对具体目标商品的评论词汇集合表示为M₁(含有n₁个词汇)，其中统计具体目标商品的评论词汇的单次频度和重复频度(单次频度是出现词语m_i的评论数，不超过N，N为所分析的全部评论数；重复频度指的是词语m_i在N条评论中的出现次数，，利用单次频度计算该词汇的相对信息量(此处相对信息量的计算与常规信息量计算不同，区别在于样本数仅限于所分析的N条评论，而非所有出现词语m_i的评论集合，利用重复频度计算该词汇的密度，利用词语的相对信息量和密度，计算该词语的权重值，当词汇集合中的词语表示为m_i，在N条评论中出现的单次频度表示为f_i,重复频度表示为d_i,则P_i表示该词的相对信息量，Q_i表示该词的权重值；

Pi = \log \frac{N}{f_{i} + 1}, Qi = \frac{d_{i}}{N} \times P_{i}

以键值对的形式(关键词，权重值)记录该目标物下的评论词汇以及权重，并按照权重值的大小进行排序如下形式：

{(m_i,Q_i)}_i，其中{Q_i}_i满足Q_i＞Q_j对于任意i＜j

在此基础上，忽略掉键值对中权重值较小的键值对，得出全局关键词集合，并记录为：

W＝{w₁,w₂,…,w_h}，含有h个关键词，其中

在其他实施例中，也可以不忽略键值对中权重值较小的键值对，列出全局关键词，形成关键词集。

执行步骤S102，获取关键词集的最小支持度。

关键词集为包含某些关键词的词集，把含有该词集中某些关键词的评论的数量占总评论数量的比例定义为支持度S，即

给定最小支持度S_min。当关键词集的支持度S≥S_min则称为频繁关键词集。

假定我们需要处理的商品评论中，垃圾评论的比例为x％，则正常评论的比例为(100-x)％，由于正常评论中肯定包含关键词集中的某些关键词，因此，给定最小支持度S_min为(100-x)％，通过获取垃圾评论的比例为x％，即可获得最小支持度S_min。所述垃圾评论的百分比x％依赖于不同的评论环境和评论目标，可通过抽样方法来测定，采用人工判断、选用软件对垃圾评论比例进行评估或者两种方法结合来进行评估。

执行步骤S103，根据最小支持度获得频繁关键词和次频繁关键词。

在本实施例中，选取的频繁关键词需要满足的条件为：含有频繁关键词集中全部关键词的评论数占全部评论数的比例应该大于等于(100-x)％；选取的次频繁关键词需要满足的条件为:含有至少一个次频繁关键词的评论数占全部评论数的比例应该大于等于(100-x)％；利用数据挖掘方法中的Apriori算法，采用自底向上的方法，从包含少量关键词的关键词集开始依次向包含多个关键词的关键词集搜索。

获得频繁关键词的方法包括：令包含k个关键词的频繁关键词集为频繁k-关键词集，记为L_k，进行迭代计算：在第一次迭代过程中，候选集为所有1-关键词集，在这些关键词集中找到支持度大于等于指定的最小支持度阀值的1-关键词集，成为频繁1-关键词集L₁，不再考虑其他关键词；第二次迭代过程在L₁基础上进行，通过L_k*L_k产生候选集，计算候选集中所有2-关键词集的支持度，支持度大于等于最小支持度阀值的2-关键词集选中为频繁2-关键词集L₂；重复上述过程，直到无法产生候选关键词集为止。

获得次频繁关键词的方法包括：在获得频繁关键词后，在全局关键词中除去频繁关键词，在剩下的关键词进行搜索，计算每个关键词的支持度，将支持度大于等于(100-x)％的关键词提取，得出次频繁关键词。

执行步骤S104，根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。

在本实施例中，根据频繁关键词和次频繁关键词两档关键词在评论中出现情况来判别是否垃圾评论，从而完成垃圾评论的预选，具体判断标准如下表所示：

在其中一个实施例中，按本专利的算法得到的频繁和次频繁两档关键词为：

Word_(频繁)＝{w₁,w₂,w₃}

Word_(次频繁)＝{w₄,w₅,w₆,w₇,w₈,w₉,w₁₀}

并且评论d₁,d₂,d₃的特征向量为

V(d₁)＝(w₁ w₂ w₃ w₄ w₅ w₆)

V(d₂)＝(w₁ w₂ w₃ w₄ w₅ w₆ w₇ w₈ w₉ w₁₀)

V(d₃)＝(w₂ w₃ w₄ w₅ w₆ w₇)

根据每条评论信息与频繁和次频繁两档关键词的符合程度，以此规则判定：

评论d₁的特征向量中频繁关键词全有，次频繁关键词出现部分，符合上述规则中的正常评论；

评论d₂的特征向量中频繁关键词全有，次频繁关键词全有，符合上述规则中的正常评论；

评论d₃的特征向量中频繁关键词出现部分，次频繁关键词出现部分，符合上述评论中的垃圾评论。

据此，本发明实施例还提供一种基于分档关键词阈值组合评估的垃圾评论预选装置，请参考图2，包括：

关键词集获取单元10，用于获得评论信息中的全局关键词，形成关键词集；

最小支持度获取模块20，用于获取评论信息的关键词集的最小支持度；

频繁关键词获取模块30，根据最小支持度获得频繁关键词和次频繁关键词；

规则应用模块40，根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：本发明虽然以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims

1.一种基于分档关键词阈值组合评估的垃圾评论预选方法，其特征在于，包括：

获取评论信息的关键词集的最小支持度；

根据最小支持度获得频繁关键词和次频繁关键词；

2.如权利要求1所述的基于分档关键词阈值组合评估的垃圾评论预选方法，其特征在于，还包括：获得评论信息中的全局关键词，形成关键词集。

3.如权利要求2所述的基于分档关键词阈值组合评估的垃圾评论预选方法，其特征在于，获取全局关键词的具体方法包括：确定评论领域以及全局评论信息，对全局评论信息进行分词，计算每个词汇的单次频度、重复频度以及权值，忽略掉权值较小的词，抽取出全局关键词。

4.如权利要求1所述的基于分档关键词阈值组合评估的垃圾评论预选方法，其特征在于，获取关键词集的最小支持度的具体方法包括：获取垃圾评论的比例x，而关键词集的最小支持度为(100-x)％。

5.如权利要求1所述的基于分档关键词阈值组合评估的垃圾评论预选方法，其特征在于，利用Apriori算法获得频繁关键词和次频繁关键词。

6.如权利要求5所述的基于分档关键词阈值组合评估的垃圾评论预选方法，其特征在于，获得频繁关键词的方法包括：令包含k个关键词的频繁关键词集为频繁k-关键词集，记为L_k，进行迭代计算：在第一次迭代过程中，候选集为所有1-关键词集，在这些关键词集中找到支持度大于等于指定的最小支持度阀值的1-关键词集，成为频繁1-关键词集L₁，不再考虑其他关键词；第二次迭代过程在L₁基础上进行，通过L_k*L_k产生候选集，计算候选集中所有2-关键词集的支持度，支持度大于等于最小支持度阀值的2-关键词集选中为频繁2-关键词集L₂；重复上述过程，直到无法产生候选关键词集为止。

7.如权利要求5所述的基于分档关键词阈值组合评估的垃圾评论预选方法，其特征在于，获得次频繁关键词的方法包括：在获得频繁关键词后，在全局关键词中除去频繁关键词，在剩下的关键词进行搜索，计算每个关键词的支持度，将支持度大于等于(100-x)％的关键词提取，得出次频繁关键词。

8.如权利要求1所述的基于分档关键词阈值组合评估的垃圾评论预选方法，其特征在于，当频繁关键词在评论中全部出现且次频繁关键词在评论中至少出现一个时，该评论为正常评论，其余评论都为垃圾评论。

9.一种基于分档关键词阈值组合评估的垃圾评论预选装置，其特征在于，包括：

10.如权利要求9所述的基于分档关键词阈值组合评估的垃圾评论预选装置，其特征在于，还包括关键词集获取单元，获得评论信息中的全局关键词，形成关键词集。