CN103473262B

CN103473262B - 一种基于关联规则的Web评论观点自动分类系统及分类方法

Info

Publication number: CN103473262B
Application number: CN201310301065.5A
Authority: CN
Inventors: 欧阳元新; 袁满; 皇甫垚; 熊璋
Original assignee: Beihang University
Current assignee: Zhuhai haotengzhisheng Technology Co., Ltd
Priority date: 2013-07-17
Filing date: 2013-07-17
Publication date: 2016-12-28
Anticipated expiration: 2033-07-17
Also published as: CN103473262A

Abstract

本发明公开了一种基于关联规则的Web评论观点自动分类系统及分类方法，可分为四个模块：频繁特征词提取模块，频繁特征词优化模块，关联规则提取与挖掘模块以及观点分类模块。本发明克服了现有系统（如一些基于机器学习和情感分类的系统）精度低或者是需要大量人工参与或者过分依赖自然语言处理和专业知识的缺点。并且在关联规则集提取的过程中进行了优化，去除了冗余，区分度不高的关联规则，这样一来就提高了整个系统运行和获取结果的效率。本系统为多种情况，如电商商品评价，电子政务回馈，网民民意调查等提供了一种精确便捷的解决方案。

Description

一种基于关联规则的Web评论观点自动分类系统及分类方法

技术领域

本发明涉及一种基于关联规则的Web评论观点自动分类系统及分类方法，属于语义处理技术领域。

背景技术

传统的文本观点分类方法有基于机器学习的观点分类，基于情感分析的观点分类。

基于机器学习的方法将文本分类中的机器学习算法直接用于观点分类，观点分类任务上的准确率通常要低于面向其它类别主题的文本分类任务的准确率。其原因是Web中的观点文本涉及到人的情感表述，是一种主题很特殊的文本内容，其语义隐晦程度要高于客观描述性的文本，例如，表述“批评”观点的评论往往可能带有表示讽刺意义的褒义词，相反的情况也同样存在，这些特殊的模式是统计学习方法很难判断的。

基于情感分析的观点分类是将文本中的单元例如单词或短语的情感倾向量化为一个实数值测度，然后通过分析文本中所有单词或短语的情感倾向来确定句子和整个文档所表达的观点倾向。单词和短语的情感分析除了考虑单词权重和高阶词之外，还要考虑位置、词性、句法结构等属性，因此本类方法的特点是高度依赖于自然语言处理工具和人工知识。自然语言处理的结果好坏和人工知识的完备程度直接影响分类结果。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于关联规则的Web评论观点自动分类系统及分类方法，不需要大量的人工参与，自动性高，也不过分依赖中文语言的处理优劣，并且保证了分类系统结果输出的精度。

本发明技术解决方案之一，包括四个模块：频繁词集提取模块，频繁词集优化模块，最优关联规则挖掘模块，文本观点分类模块。系统结构图如图1所示，虚线内为本系统范畴。

频繁词集提取模块：数据预处理，把网页中获取的文本除去“是”“我”等常见却无用的词语（降噪），并且用有代表性的词语表示，该部分不是本发明的发明，本发明只是使用了该部分将原始文本用特征词表示出来，得到候选词集。该模块的输入为候选词集，这一部分词集是从文本中提取的能代表观点的词语的集合。对候选词集采用Apriori算法，这一算法是数据挖掘中的经典算法。通过宽度优先的策略自底向上逐级生成各项频繁项目集。算法由初始的一维频繁集开始迭代，在每一轮迭代中，k项集均由k‐1项集生成。Apriori算法中的频繁集的剪枝依赖于“向下封闭属性”：频繁项集的所有非空子集都是频繁的，即如果一个项集不是频繁项集，那么它的所有超集必然不是频繁项集。这一性质大大减少了候选频繁项集的数目。尽管如此，由于Apriori需要多次搜索数据库，其时间复杂度仍然较大，并且如果结果直接用于关联规则挖掘，效果并不理想，所以需要进行下一步优化。

频繁词集优化模块：假定文本集合包含n个文本类别{class₁,…class_j,…class_n}，在上一步产生的频繁词集中，令FS表示频繁词集，t为频繁词集FS中的词条。计算每一个词条t在类别中i中的支持度Sup(t)_i。而一个频繁词集的在类别i中的支持度就是其所有包含词条在该类中的最低支持度：Sup(FS)_i=min{Sup(t)₁,Sup(t)₂....Sup(t)_n}。算出每个Sup(FS)_i之后，根据公式(2.1)计算AD‐Sup：

AD - Sup ({FS}_{i}) = \frac{\sqrt{Σ_{0}^{n} {Sup {(FS)}_{j} - Ave (Sup ({FS}_{i}))}^{2}}}{Ave (Sup ({FS}_{i}))} - - - (2.1)

Ave为平均值函数，i=1……n表示文本类别，

计算所有频繁词集的AD‐Sup。（公式中Ave为平均值函数），按照得分的由高到低排序，以得分最高的N项作为候选特征。最终得到了优化过后的频繁词集。

最优关联集挖掘模块：从已获得的频繁项目集中，逐行扫描每一条频繁项目集，并在每一条频繁项目集中计算由其推导出正面和负面观点的置信度，若该置信度高于指定阈值则将其加入相应分类规则子集，当扫描结束后，共有正面规则集和负面规则集两个规则子集。例如假定已获取所有项数的频繁词集FS，对于一条频繁词集FS_i，这里设置最低支持度阈值min_conf>0.5，则只需计算该频繁词集在正面样本支持数Support(FS_i,PosDocs)和负面样本中的支持数Support(FS_i,NegDocs)，可得：

Conf ({FS}_{i}, Pos) = \frac{Support ({FS}_{i}, PosDocs)}{(Support ({FS}_{i}, PosDocs) + Support ({FS}_{i}, NegDocs))} - - - (2.2)

若Conf(FS_i,Pos)>0.5则将加入到正面规则集中，反之将加入到负面规则集中。

对于一个规则集，如果该规则集的所有规则都没有比他们更普遍且支持度和置信度更高的规则（这里的所说的一个规则比另一个规则更普遍是指：对于两个规则和如果，则更具普遍性）那么该规则集就是最优的。最后生成的关联规则集就是整个系统的核心部分。它是文本观点分类的最终依据。

文本评论观点分类模块：在上一个模块生成的关联规则集的基础上，对于一个分类目标test_review_i，使用多参数测试的规则判断首先需要从正面规则集和负面规则集中分别寻找目标包含的规则先导部分，然后从包含的正面规则子集和负面规则子集中计算参与投票评分的四个参数值：最大置信度(Max-conf)，规则覆盖长度(Covered Len)，次要置信度(Minor-conf)，最大单词权重(MTW)。

最大置信度(Max-conf)：如果在所有正面规则子集的最大置信度与所有负面规则子集的最大置信度差值的绝对值大于预设值ε（0＜ε＜1），那么最大置信度的分值Vote(Max-conf)。小于则为1，相等为0。就如公式2.3：

Vote (Max - {Conf}_{j}) = \begin{matrix} 1 & if (Max - {Conf}_{j} (PR) - Max - {Conf}_{j} (NR) > ϵ) \\ 0 & if (| Max - {Conf}_{j} (PR) - Max - {Conf}_{j} (NR) | < ϵ) \\ - 1 & if (Max - {Conf}_{j} (NR) - Max - {Conf}_{j} (PR) > ϵ) \end{matrix} - - - (2.3)

公式(2.3)中，PR代表正面规则，NR代表负面规则。Max-Conf(PR)为所有正面规则的置信度中最大值。Max-Conf(NR)为所有负面规则的置信度中最大值。

规则覆盖长度(Covered Len)：分类目标所包含的规则中的规则数。

次要置信度(Minor-conf)：除了置信度最大的规则以外其它规则的置信度均值。

最大单词权重(MTW)：从权重最大的单词开始，如果某一规则包含该单词则将其加入到该单词对应的规则簇中，规则簇指的是先导部分包含同一单词的规则子集。，并将其从候选规则中删除，每个规则簇的权值等于其中包含单词的权重。最终MTW的值等于各规则簇权重的平均值。

对每个参数metric_j分别对比在正面规则子集和负面规则子集中的大小，如果正面得分更大，则Vote(metric_j)=1，反之Vote(metric_j)=‐1，相等则为0。

最终的数值为最大置信度的得分Vote(Max‐conf),规则覆盖长度的得分Vote(Cover‐len),次要置信长度的得分Vote(Minor‐conf),最大单词权重的得分Vote(MTW)之和。如果此和大于零。则分类目标test_review_i属于正面观点。反之为反面观点。

本发明与现有技术相比的优点在于：

（1）本发明克服了现有系统（如一些基于机器学习和情感分类的系统）精度低或者是需要大量人工参与或者过分依赖自然语言处理和专业知识的缺点，并且在关联规则集提取的过程中进行了优化，去除了冗余，区分度不高的关联规则，这样一来就提高了整个系统运行和获取结果的效率。

（2）横向比较而言：本发明较其他基于机器学习或者情感分类方法的系统，需要人工参与量少，分类精度高。应用场合更广泛。纵向比较而言：本发明分别在原有的频繁词提取和普通关联规则挖掘方面有更突出的表现，优化后的频繁词区分度更高，去除冗余后的关联规则使得最后系统输出的结果更加精确。

（3）本发明可以应用为多种情况，如电商商品评价，电子政务回馈，网民民意调查等提供了一种精确便捷的解决方案。

附图说明

图1为本发明系统的组成框图；

图2为本发明中最优关联集挖掘模块的实现流程图。

具体实施方式

为了更好地理解本发明，先对一些基本概念进行一下解释说明。

置信度(Confidence)：置信度揭示了项目A出现时，项目B是否也会出现或有多大概率出现。如果置信度度为100%，则A和B可以捆绑销售了。如果置信度太低，则说明A的出现与B是否出现关系不大。

支持度(Support)：支持度揭示了项目A与项目B同时出现的概率。如果A与B同时出现的概率小，说明A与B的关系不大；如果A与B同时出现的非常频繁，则说明A与B总是相关的。

AD-Sup:AD-Sup可看作是一种支持度均方差，在上述公式中，Sup(t)_i是词条t在类别i中的支持数，Sup(FS_i)_j指的是FS_i在类别j中的局部支持数，而Ave(Sup(FS_i))为Sup(FS_i)在所有类别中的均值。此外，由于当某个词集有较高的支持度时，即使该词集在多个类别中的分布十分均匀，其标准支持数偏差仍会大于分布不均匀但是出现频度较低的词集，而这些词集往往比前者有更高的类别区分能力。

最优关联规则集：对于指定的规则评价参数，如果关联规则集内的所有规则不存在比规则集内的规则更具普遍性且其评价参数值更大的规则，那么该规则集就是最优的。

规则簇:先导部分包含同一单词的规则子集。因此一个规则簇即是围绕最重要的单词分布的一个规则子集，该单词的权重值反应了这个规则簇所包含的单词的重要性。

整个实现过程如下：

本发明包括四个步骤：特征频繁词提取，关联规则挖掘，关联规则优化，目标分类。

步骤（1）：首先对原始数据进行特征选择，使用Apriori算法在选取的单词特征集上挖掘频繁词集。从词数为1的候选词集开始筛选，筛选出词数为1的频繁词集，接着在词数为1的频繁词集的基础上，计算词数为2的频繁词集，以此类推，直到计算出所有的频繁词集。

步骤（2）测试支持度均方差AD-Sup对由Apriori算法来提取的评论文本频繁词集的选择效果。在步骤（1）所有频繁词集生成之后，再计算所有频繁词集的AD-Sup，按照得分的由高到低排序，以得分最高的N项作为候选特征。

步骤（3）关联规则挖掘，逐行扫描每一条频繁项目集，并在每一条频繁项目集中计算由其推导出正面和负面观点的置信度，若该置信度高于指定阈值则将其加入相应分类规则子集，当扫描结束后，共有正面规则集和负面规则集两个规则子集。在此基础上，挖掘最优分类管理规则集，将最优关联规则集和原规则集进行对比，考察最优规则集提取对规则集冗余性的降低效果。最后使用最优分类规则集对测试样本进行分类，如图2所示。

步骤（4）对于一个分类目标test_review_i，使用多参数计算的规则判断首先需要从正面规则集和负面规则集中分别寻找目标包含的规则先导部分，然后从包含的正面规则子集和负面规则子集中计算各个参数值所对应的分值。

（4.1）对于一个分类目标test_review_i计算最大置信度(Max-conf)。取最小差值ε为0.1。Max-Conf的投票得分判断式修正为：

Vote (Max - {Conf}_{j}) = \begin{matrix} 1 & if (Max - {Conf}_{j} (PR) - Max - {Conf}_{j} (NR) > ϵ) \\ 0 & if (| Max - {Conf}_{j} (PR) - Max - {Conf}_{j} (NR) | < ϵ) \\ - 1 & if (Max - {Conf}_{j} (NR) - Max - {Conf}_{j} (PR) > ϵ) \end{matrix};

（4.2）计算规则覆盖长度(Covered Len)，也就是分类目标所包含的规则中的规则数；

（4.3）计算次要置信度(Minor-conf)，也就是除了置信度最大的规则以外其它规则的置信度均值；

（4.4）计算最大单词权重(MTW)；

（4.4.1）将所有rules的前项所包含单词的集合（不重复，Set）放入single term set(TS)，例如r1的前项包括{a,b}，r2为{b,c},r3为{b,d},那么TS={a,b,c,d}；

（4.4.2）将TS中的单词按照权重值从大到小排序（在本文中，按照每个单词的IG排序）例如TS排序后为{c,b,a,d}；

（4.4.3）从c开始建立“规则簇”，将包含4.4.2步骤中TS集合中的每一个元素的rule（规则）加入对应的RC规则簇中，并且赋予相应的权值，把该rule从covered rules（所有覆盖的规则集中删除），重复循环直到covered rules中不包含任何元素；

（4.4.4）计算TS中所有元素对应的规则簇的权值的均值。就得到了最后要求的最大单词权重；

例如假设只有r2中包含c，所以RC1=r2然后将r2从covered rules中剔除，同时将c加入weight集，假设包含b的规则有r1和r3，那么RC2={r1,r3}然后将r1和r3从covered rules中剔除，同时将b加入weight集，这时covered rules已空，算法终止最终所有匹配到的规则covered rules的MTW值是计算weight集中单词的均值，在此例中，即为c和b的权值的均值；

（4.5）对于一个分类目标test_review_i，对每个参数metric_j分别对比在正面规则子集和负面规则子集中的大小，如果正面得分更大，则Vote(metric_j)=1，反之Vote(metric_j)=-1，相等则为0。公式如下：

Score (test_{review}_{i}) = Σ_{0}^{m} Vote ({metric}_{j})

Vote(metric_j)＝{1,-1,0}

若Score(test_review_i)＞0，test_review_i判定为正面评论，如果Score(test_review_i)＜0则判定为负面评论。

本发明应用于电商商品评价，电子政务回馈，网民民意调查等，请给出一个或两个的具体实施例。如京东和淘宝等一些电商和网店可以把买家对某件商品的评论作为该系统的输入，得出评论的观点分类（正面或者负面），从而得知该商品的质量和用户满意度。一些行政机关的网站通过网民对某一民意调查的回复也套用此系统，得出网民对民意调查内容的支持度和反对度。

总之，本发明使用了多参数计算和处理文本观点类别。最大置信度，最长覆盖度，次要置信度，最大单词权重。这四个参数如果单一的衡量文本观点倾向无疑单一片面，综合的考虑这个四个因素，能得到更全面的结果。此外，系统在处理频繁词集的时候，使用了AD-Sup支持度偏差值这一衡量准则。去除了区分能力低的频繁词之后，在系统之后计算关联规则和文本观点时更加快速准确。

本发明未详细描述的部分属于本领域公知技术。

Claims

1.一种基于关联规则的Web评论观点自动分类系统，其特征在于包括：频繁词集提取模块，频繁词集优化模块，最优关联规则挖掘模块，文本观点分类模块，其中：

频繁词集提取模块，输入候选词集，所述候选词集是从文本中提取的能代表观点的词语的集合，对候选词集采用Apriori算法，通过宽度优先的策略自底向上逐级生成各项频繁项目集，送至频繁词集优化模块；

频繁词集优化模块：在频繁词集提取模块产生的频繁词集中，令FS表示频繁词集，t为频繁词集FS中的词条，计算每一个词条t在类别i中的支持度Sup(t)_i，而一个频繁词集的在类别i中的支持度就是其所有包含词条在该类中的最低支持度：Sup(FS)_i＝min{Sup(t)₁,Sup(t)₂....Sup(t)_n}，计算出每个Sup(FS)_i之后，根据公式(2.1)计算支持度均方差AD-Sup：

Ave为平均值函数，i＝1……n表示文本类别，计算所有频繁词集的AD-Sup，按照得分的由高到低排序，以得分最高的N项作为候选特征，最终得到了优化频繁词集；

最优关联集挖掘模块：从已获得的优化频繁项目集中，逐行扫描每一条频繁项目集，并在每一条频繁项目集中计算由其推导出正面和负面观点的置信度，若该置信度高于指定阈值则将该规则加入相应分类规则子集，当扫描结束后，共有正面规则集和负面规则集两个规则子集；如果某规则集的所有规则都没有比他们更普遍且支持度和置信度更高的规则，所述的一个规则比另一个规则更普遍是指：对于两个规则和如果则更具普遍性，那么该规则集就是最优的；最后生成的关联规则集就是整个系统的核心部分，它是文本观点分类的最终依据；

文本评论观点分类模块：在最优关联集挖掘模块生成的关联规则集的基础上，对于一个分类目标test_review_i，使用多参数测试的规则判断，首先需要从正面规则集和负面规则集中分别寻找目标包含的规则先导部分，然后从包含的正面规则子集和负面规则子集中计算参与投票评分的多个参数值，所述多个参数值包括最大置信度(Max-conf)、规则覆盖长度(Covered Len)、次要置信度(Minor-conf)和最大单词权重(MTW)；

所述最大置信度(Max-conf)：如果在所有正面规则子集的最大置信度与所有负面规则子集的最大置信度差值的绝对值大于预设值ε，0<ε<1，那么最大置信度的分值 Vote(Max-conf)如公式2.3所示，

公式(2.3)中，PR代表正面规则，NR代表负面规则，Max-Conf(PR)为所有正面规则的置信度中最大值，Max-Conf(NR)为所有负面规则的置信度中最大值；j表示类别；

规则覆盖长度(Covered Len)：分类目标所包含的规则中的规则数；

次要置信度(Minor-conf)：除了置信度最大的规则以外其它规则的置信度均值；

最大单词权重(MTW)：从权重最大的单词开始，如果某一规则包含该单词则将其加入到该单词对应的规则簇中，规则簇指的是先导部分包含同一单词的规则子集，并将该规则从候选规则中删除，每个规则簇的权值等于其中包含单词的权重，最终MTW的值等于各规则簇权重的平均值；

对每个参数metric_j分别对比在正面规则子集和负面规则子集中的大小，如果正面得分更大，则Vote(metric_j)＝1，反之Vote(metric_j)＝-1，相等则为0；最终的数值为最大置信度的得分Vote(Max-conf),规则覆盖长度的得分Vote(Cover-len),次要置信长度的得分Vote(Minor-conf),最大单词权重的得分Vote(MTW)之和；如果此和大于零，则分类目标test_review_i属于正面观点，反之为反面观点。

2.一种基于关联规则的Web评论观点自动分类方法，其特征在于实现步骤如下：

(1)频繁词集提取

将候选词集输入，所述候选词集是从文本中提取的能代表观点的词语的集合，对候选词集采用Apriori算法，通过宽度优先的策略自底向上逐级生成各项频繁项目集；

(2)频繁词集优化：在步骤(1)产生的频繁词集中，令FS表示频繁词集，t为频繁词集FS中的词条，计算每一个词条t在类别i中的支持度Sup(t)_i，而一个频繁词集的在类别i中的支持度就是其所有包含词条在该类中的最低支持度：Sup(FS)_i＝min{Sup(t)₁,Sup(t)₂....Sup(t)_n}，计算出每个Sup(FS)_i之后，根据公式(2.1)计算支持度均方差AD-Sup：

(3)进行最优关联集挖掘

从得到的优化频繁项目集中，逐行扫描每一条频繁项目集，并在每一条频繁项目集中计算由其推导出正面和负面观点的置信度，若该置信度高于指定阈值则将该规则集加入相应分类规则子集，当扫描结束后，共有正面规则集和负面规则集两个规则子集；对于一个规则集，如果该规则集的所有规则都没有比他们更普遍且支持度和置信度更高的规则；所述的一个规则比另一个规则更普遍是指：对于两个规则和如果则更具普遍性，那么该规则集就是最优的；最后生成的关联规则集就是整个系统的核心部分，它是文本观点分类的最终依据；

(4)文本评论观点分类

在步骤(3)生成的关联规则集的基础上，对于一个分类目标test_review_i，使用多参数测试的规则判断，首先需要从正面规则集和负面规则集中分别寻找目标包含的规则先导部分，然后从包含的正面规则子集和负面规则子集中计算参与投票评分的多个参数值，所述多个参数值包括最大置信度(Max-conf)、规则覆盖长度(Covered Len)、次要置信度(Minor-conf)和最大单词权重(MTW)；

所述最大置信度(Max-conf)：如果在所有正面规则子集的最大置信度与所有负面规则子集的最大置信度差值的绝对值大于预设值ε，0<ε<1，那么最大置信度的分值Vote(Max-conf)如公式2.3所示，