CN104572623A

CN104572623A - 一种在线lda模型的高效数据总结分析方法

Info

Publication number: CN104572623A
Application number: CN201510014471.2A
Authority: CN
Inventors: 程书欣; 马俊; 姚建国; 管海兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-01-12
Filing date: 2015-01-12
Publication date: 2015-04-29
Anticipated expiration: 2035-01-12
Also published as: CN104572623B

Abstract

本发明公开一种在线LDA模型的高效数据总结分析方法，包括步骤如下：第一步，基于在线LDA模型进行主题提取；第二步，在第一步基础上，基于ROC方法进行主题分类；第三步，在第二步基础上，进行意见总结或二值分类。本发明所提供的方法，解决了实时处理数据集的可扩展性问题。在线LDA模型被应用于从海量和不断增长的评论集中提取信息，达到了与传统LDA模型相近的生成水平并拥有较低的计算消耗。

Description

一种在线LDA模型的高效数据总结分析方法

技术领域

本发明涉及一种网络数据处理，具体地，涉及一种基于在线LDA模型的高效数据总结分析方法。

背景技术

Web2.0技术的迅速发展，在互联网上生产出了海量多样的信息数据。这些数据的含义如此丰富，我们很难在没有总结的情况下提取出数据所包含的信息。如何对这些丰富含义的海量数据进行处理并有效地提取出结论，已成为一个挑战。从信息的消费者的角度来看，由用户生产的内容是最有意义的，因为这些内容基于用户的真实体验。互联网产生了越来越多的用户评论内容，这些内容反映了用户对事物的真实兴趣和态度，与之相应的网站也成为了提取用户兴趣分析的丰富资源。

为了从这些信息中提取出有用的信息，例如情绪分类，文本规约以及主题建模等方法被开发出来。但是，网络上的用户内容不断在更新和增长，利用这些已有的技术很难进行在线分析。尽管这些用户内容非常有价值，但如何有效的理解和应用仍然很困难。

举个例子，当我们在电子产品，例如手机或者笔记本电脑中作比较和选择时，会考虑产品通用的属性例如易用性，电池寿命，音质等，而这些属性在大部分电子商务网站上是预定义的；但是即使对于相同的硬件配置的笔记本电脑，用户体验也可能完全不同。而且，这种售后体验只能在商品的用户评论中获得反应，这些宝贵的用户评论需要得到分析和总结。

对于商务型网站，例如酒店或者销售网站，用户评论比广告更为真实和可信。在销售领域，从这些用户评论中总结出的信息有利于顾客做出决定，也有利于公司提升服务水平和做出市场决策。总结信息的目标是从尽可能简易的情况下帮助用户理解海量，丰富多样的用户评论数据。

在tripadvisor网站上，为了使用户更易于比较酒店，应用了反馈评分技术。这种反馈评分技术(分数由1到5)，对于酒店经理或旅客并无太大参考意义，因为这些评分并不能从用户体验角度反馈主观的建议或意见；这种评分通常也不具备可比性，例如，一个三星酒店得到了10个用户的高分评价而一个四星酒店仅仅得到1个用户的中间评价，这并不表明四星酒店的服务水平会比三星酒店差。在这种情况下，如何从用户评论中获取有价值的信息就显得尤为重要。

酒店的用户评论内容随着个人的经历不同而具有多样性。在图1所示的两个经典的酒店评论内容中，显示了酒店的不同主题，例如价格，房间和食物等。显然地，这些用户评论中的主题与电子产品评论更为丰富和多样，几乎不可能去列出所有可能的主题，因而从这些用户评论中提取出有意义的信息会更加困难。

酒店的用户评论内容展示出了一种有趣的不平衡现象。有更多用户评论的酒店往往是更受欢迎的，用户也乐于在上面分享酒店的体验，所以正面评价也远多于负面评价；而这些不受欢迎的酒店则有很少的用户评论。这个是二值评价方法所不能解决的数据不平衡问题。

发明内容

针对上述现有技术中存在的技术问题，本发明提供一种在线LDA模型的高效数据总结分析方法，解决了实时处理数据集的可扩展性问题。在线LDA模型被应用于从海量和不断增长的评论集中提取信息，达到了与传统LDA模型相近的生成水平并拥有较低的计算消耗。

为达到上述目的，本发明所采用的技术方案如下：

一种在线LDA模型的高效数据总结分析方法，其特征在于，包括步骤如下：

第一步，基于在线LDA模型进行主题提取；

第二步，在第一步基础上，基于ROC方法进行主题分类；

第三步，在第二步基础上，进行意见总结或二值分类。

所述第一步中，采用在线推断LDA算法对基于在线LDA模型的评论集合进行数据处理并建模，所述在线推断LDA算法是一种在线变分推断方法，是在变分方法上使用了彻底的因式分解变量，因此算法的下界为：

上式中λ是主题β的参数，φ，γ是特定主题z、狄利克雷优先标量θ的参数，是算法的下界。

在线变分推断由主题λ决定，通过其参数值估计γ(n_d，λ)和φ(n_d，λ)，最大化下述公式，

该式子是式(6)代入参数的结果。

所述第二步中，在主题提取的数据平衡时，通过ROC方法对主题进行逆向排序，然后选择前l个主题。

包括散射矩阵方法：

J_{3} = trace {S_{w}^{- 1} S_{b}} - - - (8)

其中P_i是分类ω的先验概率，S_i是分类ω的平均矢量，S_ω是分类内散射矩阵，S_b是分类间散射矩阵。

所述第二步中，在主题提取的数据平衡时，通过计算主题之间的交叉相关系数进行主题分类，首先，通过ROC方法对主题进行逆向排序，设i₁是排序选择出的最好的主题，

i_{2} = \max_{j} {a_{1} R_{j} - a_{2} | ρ_{i_{1}, j} |}, j &NotEqual; i_{1} - - - (9)

上述等式考虑了最好的主题以及其他主题之间的交叉相关系数其他主题根据下式排序，

i_{k} = \max_{j} {a_{1} R_{j} - \frac{a_{2}}{k - 1} Σ_{r = 1}^{k - 1} | ρ_{i_{r}, j} |}, - - - (10)

j≠i_r，r＝1，2，...，k-1。

上式中i_k是主题的排序，是该主题与其他主题之间的交叉相关系数。

所述第二步中，在主题提取的数据不平衡时，采用FAST方法进行主题提取分类，主题提取矩阵基于简单的线性判别生成的ROC曲线，主题根据其AUC(曲线下面积大小)进行排序，选取最高的；所述ROC曲线是主题排序的标准，所述FAST方法是用一种阈值决定方法，修正了不同点被分配到不同数据分离的宽度的数量，在高密度数据上使用更多的数据分离宽度，而在稀疏数据上使用较少的数据分离宽度，每个数据分离宽度包含相同的数据量，因此每个数据分离宽度计算出的较多的阈值被用于高密度数据的ROC计算，较少的阈值被用于稀疏数据的ROC计算。

所述第一步中，使用perplexity值来评估在线LDA模型的生成性能，越低的perplexity值表明模型更具有适用性，对于N个评论的测试集，perplexity值为：

perplexity (C_{test}) = \exp {- \frac{Σ_{i = 1}^{N} \log p (c_{i})}{Σ_{i = 1}^{N} c_{i}} - - - (11)

上式中c_i是评论i，该评论出现的概率是p(c_i)，perplexity(C_test)中是评论集合C_test的perplexity值。

所述第二步中，使用平衡错误率(BER)评估主题选取的性能，定义如下，

BER &equiv; \frac{1}{2} (\frac{# positive comments classified wrong}{# positive comments} + \frac{# negative comments classified wrong}{# negative comments}) . - - - (12)

BER是正面评价和负面评价的平均错误率。

本发明所提供的数据总结技术多用于互联网应用。可扩展性是在该应用总要解决的最重要的任务。通过将在线LDA模型被应用于从海量和不断增长的评论集中提取信息，达到了与传统LDA模型相近的生成水平并拥有较低的计算消耗。解决了评论数据的不平衡问题，并且使用FAST方法提升了分类性能。通过本发明方法选取的主题，更易于被用户理解。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明应用于酒店用户评论中的不同主题；

图2是模型框架；

图3是LDA矩阵分解插值；

图4是评论集合的统计信息；

图5是pLSI、LDA和在线LDA的perplexity值；

图6是k＝20时使用SVM的BER值；

图7是k＝30时使用SVM的BER值；

图8是ROC性能总结图；

图9是主题提取时间性能图；

图10是分类时间性能图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明所提供的方法结合了LDA算法和基于ROC的主题分析技术。

基于方面的方法是一种常用主题分析技术，包括三个不同的步骤：方面识别，情感预测和生成总结。通过预定义的积极或消极的方面，读者可以轻易地从大量用户的评论中理解用户的基本情绪和意见。但是这种方法并不适合使用LDA的主题提取技术，因为在LDA模型中无需预定义主题，因为主题无法被直观的理解。

数据总结分析技术包括三步。第一步是主题提取，LDA模型的在线推断用于提升主题提取的可扩展性。由于LDA方法的主题数量k是由用户预先定义的，所以用户评论中潜在的主题可能不会全部被正确的提取出来。这意味着并不是所有提取出的主题对于意见总结和区分积极评论和消极评论有意义，所以在第二步执行主题选取，即主题分类(提取出的主题是分类特征)。第三步是意见总结或二值分类。如图2所示，所收集到的评论显示出了不平衡的特征，这种特征导致了分类的难题。本发明中使用了基于ROC的主题选取技术进行更为精确地分类。

常用的提取主题模型有单字组模型，多字组模型，策略模型以及LDA模型。这些模型的基本思想是待分析的评论具有一个或多个预定义的主题，差别是它们基于不同的统计假设。

LDA模型被认为是一种具有诸多优点的生成模型。生成模型的最简单形式基于一个简单地假设，该假设认为评论中的每一个单词可以被独立抽取，

p (c_{i}) = Π_{n = 1}^{N} p (w_{n}) . - - - (1)

上式中c_i是评论i，该评论出现的概率是P(c_i)，w_n是评论的一个单词，其出现概率为p(w_n)。对于单字组模型的一个适当扩展是单字组的混合。在这个模型中，仍然沿用了主题的概念。从生成的角度来看，单字组混合模型是首先通过选取一个主题，类似于词语组，然后从主题中独立的生成词语。这个模型基于一个简单地假设，每条评论c_i只从一个主题中生成。一条评论的概率是，

p (c_{i}) = \underset{z}{Σ} p (z) Π_{n = 1}^{N} p (w_{n} | z) . - - - (2)

上式中c_i是评论i，该评论出现的概率是p(c_i)，w_n是评论的一个单词，其出现概率为p(w_n)，p(z)是特定主题的概率。概率潜在语义索引模型(pLSI)试图解决单个主题问题，

p (d, w_{n}) = p (d) \underset{z}{Σ} p (w_{n} | z) p (z | d) . - - - (3)

上式中符号与之前相同，其中p(z|d)是对于某个评论集合C_N的主题的混合权重。但是这些混合主题只能用于训练过的主题而不能用于之前没有出现过的主题。并且，pLSI模型在训练中易于过度拟合，所以这种模型也不是一种合适的生成模型。

LDA是pLSI模型的扩展，在主题上引入了狄利克雷优先的概念。设其值为θ。生成过程包括两步：第一步为主题的狄利克雷优先选取θ，第二步根据p(ω_n|θ，β)选取一个单词。这个过程包括一个如图所示矩阵分解插值，例如图3所示，θ是狄利克雷优先的标量，β是单词属于主题的概率，C指comments。

该过程是一个连续混合分布，

p (c_{i} | α, β) = &Integral; p (θ | α) (Π_{n = 1}^{N} p (w_{n} | θ, β)) dθ, - - - (4)

上式符号的意义同前，其中p(θ|α)是主题的混合权重。

LDA模型被用来从酒店的用户评论集合中选取主题。通过合并多个评论内容的文本值，训练一个统一的主题模型。对于给定的评论集合C＝c₁，c₂，，c_N，N表示评论总数，每一条评论c_i服从从评论集合训练得到的K个主题的分布，其中K表示预定义的主题数量。

网页上的酒店评论更新很频繁，因此使用监督式学习算法的模型很难处理新的评论内容的数据。LDA模型可以用于处理更新的评论，也可以通过后验分布以非监督学习方法分析评论。通常这种后验分布无法被直接计算，大部分由马尔科夫链蒙特卡罗方法(MCMC)或变分推断近似得到。一种特定的MCMC方法的实现，Gibbs采样算法被广泛应用在基于LDA模型的评论集合建模。

Gibbs采样算法的可用性取决于，采样过程为每个观测到的数据所建立的独立变量以及修正它们的观测值的难易程度，而非从这些变量中进行采样。Gibbs采样算法生成了马尔科夫链的变量，每个变量与其相邻变量相关。Gibbs采样过程的每一个步骤都包括了一次变量替换，从该变量的分布到其它变量的值中。因此当处理多维数据时，该算法速度十分的低效。

变分方法相对于采样方法来说，是一种确定性的方法。变分方法的唯一假设为，隐藏变量和已知变量的因式分解。因此，变分推断问题可以转换成一个优化问题，例如，

φ，γ是z，θ的参数，λ是主题β的参数。变分推断方法比Gibbs采样方法更为高效，但它需要在每次迭代中遍历整个集合，这样会在评论集合的处理过程消耗大量的内存和时间。

Hoffman et al.(M.D.Hoffman,D.M.Blei and F.Bach,”On-line learning for LatentDirichlet Allocation,”In NIPS2010,Lake Tahoe,Nevada,USA,2010.)为LDA模型变分推断方法提出了一个更高效的在线算法，使用了彻底的因式分解变量，因此算法的下界为，

上式中λ是主题β的参数，φ，γ是式(5)中z，θ的参数，是算法的下界。

在线变分推断由主题λ决定，通过估计其参数值γ(n_d，λ)和φ(n_d，λ)最大化下述公式，

该式子是式(6)代入参数的结果。

该在线算法被证明收敛要远快于其他变分方法。

Tripadvisor网站上的用户评论仍在不断地增长，扩展性是实时处理数据集时一个不可避免的挑战。LDA在线变分推断在处理大量数据时具有更多的优势，并且在线LDA算法不需要事先把数据收集并存储到本地，它可以处理流数据。

上述说明了主题分析提取技术，接下来将说明主题总结性能的影响。

从Tripadvisor网站所爬取的用户评论集合明显地表示出来数据的不平衡性：偏多的正面评价以及较少的负面评价。因此造成难以对主题的评论进行分类，这种数据不平衡性成为了一个挑战。分类算法的评价标准取决于准确率和召回率，对一个类别其准确率是所有判定正确属于该类的数量除以所有标记为该类的数量，其召回率是所有判定正确属于该类的数量除以所有实际上属于该类的数量。考虑文本分类中的两个主题集，有可能存在的情况是其中一个主题集的准确率高于另一个，但其召回率却低于另一个；通过调整决策阈值，则有可能出现相反的情况。因此，单一的阈值无法决定哪个主题集更好，主题选择技术需要进一步考虑。

通常，有两种方法进行主题选择：第一种方法是通过相关准则对主题进行逆向排序，例如ROC(receiver operating characteristic curve，接收者操作特征曲线)，然后选择前个主题；第二种方法较为复杂些，通过计算主题之间的交叉相关系数得到。

散射矩阵属于第一种方法，

J_{3} = trace {S_{w}^{- 1} S_{b}} - - - (8)

交叉相关系数是第二种主题选择方法。设i₁是使用第一种方法选择的最好的主题。

i_{2} = \max_{j} {a_{1} R_{j} - a_{2} | ρ_{i_{1}, j} |}, j &NotEqual; i_{1} - - - (9)

这个等式考虑了最好的主题以及其他主题之间的交叉相关系数其他主题根据下式排序，

i_{k} = \max_{j} {a_{1} R_{j} - \frac{a_{2}}{k - 1} Σ_{r = 1}^{k - 1} | ρ_{i_{r}, j} |}, - - - (10)

j≠i_r，r＝1，2，...，k-1

这两种方法设计用于平衡性较好的数据，如果数据维度较高，则主题选择的效率成为分类的瓶颈。从Tripadvisor网站所爬取的评论数据平均长度为150个单词，因而在使用LDA模型对评论数据进行处理时，预定义的主题数量k值分别被设置成20,30，而不是100。即使这种较为保守的k值设置，也会导致主题选择的高维度问题。同时，计算消耗也是一个瓶颈，即使使用在线LDA算法进行主题提取。主题提取分类是一个较为消耗时间的过程，因为需要计算矩阵的逆。所以在本发明中，采用FAST方法进行主题提取分类，主题提取矩阵基于简单的线性判别生成的ROC曲线。主题根据其AUC(曲线下面积大小)进行排序，选取最高的。这种方法应用于不平衡数据的主题提取分类。

ROC曲线是主题排序的标准，FAST方法是用一种新的阈值决定方法，修正了不同点被分配到不同数据分离的宽度的数量。在高密度数据上使用了更多的数据分离宽度，而在稀疏数据上使用了较少的数据分离宽度，每个数据分离宽度包含了相同的数据量。因此每个数据分离宽度计算出的较多的阈值被用于高密度数据的ROC计算，较少的阈值被用于稀疏数据的ROC计算。这种算法如下所示。

该算法不仅可以用于主题分类，而且还降低了其计算成本，因为其不需要计算逆矩阵。ROC曲线下的面积大小，对于不平衡数据问题，可以作为其分类的评价，可以使用该数值用于主题选取：选取拥有较大的ROC曲线下面积的主题因为它们对评论集有着较好的预测能力。

为使本发明的目的、技术方案和优点更加清楚，下面将给出相关实验对本发明作进一步详细描述。

实验通过对从大量评论中自动总结出使用户理解的结论的过程，对模型进行评估。

从Tripadvisor网站爬取了跨度一个月(从2012年11月到2012年12月)的250,004个酒店评论数据。数据集中的评论数据按5个星级进行分类(1分和2分被认为负面评价，4分和5分被认为是正面评价)。通过这样的分类方法，把评论内容分成两种情绪(正面和负面)，中立评论(评分3分)被排除。图4显示了评论的统计信息，大部分评论内容不足150个单词。

第一个实验用来评估在线LDA模型的生成性能。正如之前所提到的，在线推断LDA算法可以比变分推断，Gibbs采样方法更为高效地处理大规模数据集。需要验证在线推断LDA算法的性能。对基于pLSI模型的在线LDA模型和LDA模型进行了比较，在实验中，使用了从Tripadvisor网站爬取的全部250,004条评论，其中10％用于测试，90％用于训练模型。通过实验，发现α＝50/T和β＝0.01时LDA模型和在线LDA模型的效果达到最佳。

使用perplexity值来评估模型，因为它是用于评估模型生成未知数据的能力的一个标准的评估矩阵；越低的perplexity值表明模型更具有适用性。对于N个评论的测试集，perplexity值为，

perplexity (C_{test}) = \exp {- \frac{Σ_{i = 1}^{N} \log p (c_{i})}{Σ_{i = 1}^{N} c_{i}} - - - (11)

使用EM训练这三个模型，其停止迭代的阈值低于0.001％。

使用perplexity值是评估模型的第一步。图5显示了每个模型对应评论数量的perplexity值。这三个模型在进行训练时，对每条评论仅使用一次。可以看出，在相同评论数量的情况下，在线LDA模型相比于pLSI和LDA模型来说，具有较低的perplexity值，这是因为在线变分推断比变分贝叶斯的速度要快很多。完成全部评论集的分析后，两个LDA模型达到了基本相同的perplexity值1700。在线LDA模型能够达到LDA模型的同等的生成性能，同时处理评论时速度更快；pLSI模型的perplexity值是1900。所以实验结果显示在线LDA模型更适应于动态的评论获取分析场景。

除了更快的主题提取速度，模型针对不平衡数据集应用了更为高效的主题选取技术。接下来的一个实验用于评估主题选取性能。平衡错误率(BER)是主题选取的评价标准，定义如下，

BER &equiv; \frac{1}{2} (\frac{# positive comments classified wrong}{# positive comments} + \frac{# negative comments classified wrong}{# negative comments}) . - - - (12)

BER是正面评价和负面评价的平均错误率。如果这两种评论数量是平衡的，则BER等于各自的错误率。对所使用的FAST方法，散射矩阵(SM)以及交叉相关系数(CCC)方法所选取的主题进行了评估和比较。由于主要关心主题选取矩阵的性能，因此仅选择了著名的SVM分类器对性能进行评估。表1显示BER评估中所使用的评论描述，

表1

	Number of Topics	Ratio
			Positive Comments	180,0239	5.5％
Negative Comments	8,053	4.5％

这些评论集合有效地证明评论集合中的不平衡性，负面评论仅仅不到总评论数量的5％。根据之前对数据集的分析，评论的长度大多少于260个单词。因此针对在线LDA模型分别设置k＝20和k＝30，使用了本发明所提出的方法对提取到的评论进行BER评估。

图6和图7，显示了根据BER的评估结果，SVM是机器学习方法中的支持向量机。可以看出BER值根据主题数量的变化而变化，当主题数量小于9时主题数量越多BER值越低，直到BER值到达一个稳定值(SM是0.15，CC是0.1，FAST是0.08)。这种现象的原因是重复的主题对于分类器几乎没有影响。这种鲁棒性对重复主题分类非常有用，但是由于目标是评论总结而不是分类。重复的主题仍然具有一定的信息量。

从实验结果可以看出，使用FAST方法的结果明显优于使用SM或CCC方法的结果。几个实验显示出最低的BER值来自于9个被选择的主题，但是分类器的性能在某一级别趋于稳定，这说明LDA方法所提取的主题并不是一个具有足够代表性的总结评论，因此，使用基于ROC的主题选取技术可以得到更好的结果。

本发明与已有的主题选取和分类方法相比，一个显著的优点是在主题提取时更低的计算消耗，以及可以出不平衡数据集。仅仅考虑数据集中的正面和负面评论，而忽略了其中中立的评论。这里有两个原因。首先，把酒店评论总结问题看成一个二值分类问题，例如评论被分为正面和负面，而没有中立；其次，所选择的主题只是基于正面和负面单词，因而会对总结的正面和负面评论有更多的影响；并且，拥有较少的负面评论的分类器显示出了与孤立点检测独特的相似性。因此，通过对选择的主题进行孤立点检测以评价整体的意见总结技术，具体来说，对选择的主题使用了单类SVM分类器，

f(x)＝sign((ω·Φ(x))-_ρ). (13)

归一化参数ω和ρ解决了v-SVM的二次规划问题。使用该方法进行分类在计算上十分简单，使用较少的内存即可。

在使用本发明方法时遇到的主要问题是需要词汇表，一个问题是，评论中往往存在不符合语法规则的句子或者是错误拼写的单词，这使得很难使用传统的标准数据进行处理。尽管如此，在实验中，在线LDA生成模型处理多样的输入数据时具有鲁棒性，不仅是针对多样的输入数据，也对不同领域的评论数据。实验中使用了具有10,314个单词的单词表。

表2是意见总结的结果。

表2

Topics	Positive Comments Detection Rates	Negative Comments Detection Rates
			Selected Topies	89％	91％
20 topics	80％	77％
			30 topics	80％	79％

值得注意的是意见总结模型在进行分类时比单独的LDA模型要更为优秀，后者存在的问题其准确度较低。原因是在进行主题选择时负面评价的例子较少(不平衡问题)。

这些结果显示出了模型有能力检测负面评价，如图8所示。可以看出使用FAST进行主题选择在分类准确率上有5.3％的提升效果。

同时对主题提取和分类的时间进行了评估。使用在线LDA模型分别提取出10,20,30和40个主题，然后使用两个主题集(20和30)进行主题选取。用两种方法对评论进行了分类：第一个方法是使用原有主题进行分类，第二个方法是使用选取的主题进行分类。第二个方法的时间性能是计算两个主题的平均值。

主题选取相对来说消耗了更多的时间，但是分类时间并没有增到，因为数据维度较低，如图9、图10所示。结果显示10个主题的情况下由于主题选取的过程时间增加了28秒。在对200,000条评论进行意见总结时28秒是一个可以接受的延迟。

在本发明中所提出的数据总结分析方法，常用于互联网应用。可扩展性是在设计框架时最重要的任务，在框架中在线LDA模型被应用于从海量和不断增长的评论集中提取信息，达到了与传统LDA模型相近的生成水平并拥有较低的计算消耗。不仅解决了评论数据的不平衡问题，并且使用FAST方法提升了分类性能。通过本发明方法选取的主题，更易于被用户理解。

尽管本发明的内容已经通过上述实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种在线LDA模型的高效数据总结分析方法，其特征在于，包括步骤如下：

第一步，基于在线LDA模型进行主题提取；

第二步，在第一步基础上，基于ROC方法进行主题分类；

第三步，在第二步基础上，进行意见总结或二值分类。

2.根据权利要求1所述的在线LDA模型的高效数据总结分析方法，其特征在于，所述第一步中，采用在线推断LDA算法对基于在线LDA模型的评论集合进行数据处理并建模，在线推断LDA算法是一种在线变分推断方法，是在变分方法上使用彻底的因式分解变量，因此算法的下界为：

上式中λ是主题β的参数，φ、γ是特定主题z、狄利克雷优先标量θ的参数，是算法的下界，

在线变分推断由主题λ决定，通过估计参数值γ(n_d，λ)和φ(n_d，λ)，最大化下述公式，

3.根据权利要求1所述的在线LDA模型的高效数据总结分析方法，其特征在于，所述第二步中，在主题提取的数据平衡时，通过ROC方法对主题进行逆向排序，然后选择前l个主题。

4.根据权利要求3所述的在线LDA模型的高效数据总结分析方法，其特征在于，包括散射矩阵方法：

J_{3} = trace {S_{ω}^{- 1} S_{b}} - - - (8)

5.根据权利要求1所述的在线LDA模型的高效数据总结分析方法，其特征在于，所述第二步中，在主题提取的数据平衡时，通过计算主题之间的交叉相关系数进行主题分类，首先，通过ROC方法对主题进行逆向排序，设i₁是排序选择出的最好的主题，

i_{2} = \max_{i} {a_{1} R_{j} - a_{2} | ρ_{i_{1}, j} |}, j &NotEqual; i_{1} - - - (9)

i_{k} = \max_{j} {a_{1} R_{j} - \frac{a_{2}}{k - 1} Σ_{r = 1}^{k - 1} | ρ_{i_{r}, j} |}, - - - (10)

j≠i_r，r＝1，2，...，k-1

6.根据权利要求1所述的在线LDA模型的高效数据总结分析方法，其特征在于，所述第二步中，在主题提取的数据不平衡时，采用FAST方法进行主题提取分类，主题提取矩阵基于简单的线性判别生成的ROC曲线，主题根据曲线下面积大小进行排序，选取最高的；所述ROC曲线是主题排序的标准，所述FAST方法是用一种阈值决定方法，修正了不同点被分配到不同数据分离的宽度的数量，在高密度数据上使用更多的数据分离宽度，而在稀疏数据上使用较少的数据分离宽度，每个数据分离宽度包含相同的数据量，因此每个数据分离宽度计算出的较多的阈值被用于高密度数据的ROC计算，较少的阈值被用于稀疏数据的ROC计算。

7.根据权利要求1所述的在线LDA模型的高效数据总结分析方法，其特征在于，所述第一步中，使用用于评估模型生成未知数据的能力的一个标准的评估矩阵perplexity值来评估在线LDA模型的生成性能，越低的perplexity值表明模型更具有适用性，对于N个评论的测试集，perplexity值为：

perplexity (C_{test}) = \exp {- \frac{Σ_{i = 1}^{N} \log p (c_{i})}{Σ_{i = 1}^{N} c_{i}}} - - - (11)

8.根据权利要求1所述的在线LDA模型的高效数据总结分析方法，其特征在于，所述第二步中，使用平衡错误率BER评估主题选取的性能，定义如下，

BER &equiv; \frac{1}{2} (\frac{# positive comments classified wrong}{# positive comments} + \frac{# negative comments classified wrong}{# negative comments}) . - - - (12)

BER是正面评价和负面评价的平均错误率。