CN103365997A - 一种基于集成学习的观点挖掘方法 - Google Patents

一种基于集成学习的观点挖掘方法 Download PDF

Info

Publication number
CN103365997A
CN103365997A CN2013102937885A CN201310293788A CN103365997A CN 103365997 A CN103365997 A CN 103365997A CN 2013102937885 A CN2013102937885 A CN 2013102937885A CN 201310293788 A CN201310293788 A CN 201310293788A CN 103365997 A CN103365997 A CN 103365997A
Authority
CN
China
Prior art keywords
classifier
sample
meta
integrated
meta classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102937885A
Other languages
English (en)
Other versions
CN103365997B (zh
Inventor
林煜明
王晓玲
周傲英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201310293788.5A priority Critical patent/CN103365997B/zh
Publication of CN103365997A publication Critical patent/CN103365997A/zh
Application granted granted Critical
Publication of CN103365997B publication Critical patent/CN103365997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于集成学习的观点挖掘方法,根据训练的元分类器选择一组元分类器组,将元分类器组的预测结果整合为训练集成分类器的样本,从而得到集成分类器,通过集成分类器的集成学习,对样本进行预测。本发明选择最优的元分类器组对观点进行第一次预测,将预测结果训练集成分类器进行二次学习和预测,生成最终的观点挖掘结果,本发明分类结果的多样性互补,其分类效果优于最好的单分类器,增强了整个分类模型的泛化能力,从而进一步提高了观点挖掘的准确度。

Description

一种基于集成学习的观点挖掘方法
技术领域
本发明涉及数据库技术领域和信息检索技术领域,具体设计一种基于集成学习的观点挖掘方法。
背景技术
随着Web2.0技术的普及与发展,越来越多的用户在各种网络社交平台上发布内容,以此描述、分享和传播身边发生的事情。这富含用户观点的些用户生成内容(User GeneratedContent,UGC)逐渐在网络数据中占据主导的地位,自动识别用户的观点对很多的现实应用具有重要的价值,例如网络舆情分析与监控、商务/政务智能系统、推荐系统等。
观点挖掘也称观点分析、情感分类,其主要目标在于识别用户对目标对象所持的总体情感倾向。目前这一领域的技术主要集中在机器学习的方法,在词袋(bag-of-words)模型的基础上,由多种的特征表示(如unigram、bigram等)和学习方法(如最大熵分类、支持向量机等)通过训练得到的分类模型被用于识别用户的观点。然而,由于每个分类模型都有自身的针对性和局限性,没有一个分类模型能够在所有的分析领域中都达到最佳的效果,例如对于电影评论的观点识别,效果最佳的是支持向量机分类器,但对于电子产品而言,最大熵分类器达到的分类性能最优。甚至存在某个分类模型对于一个分析领域效果优越,但是在另一个分析领域的应用中却很差的情况。由此可见,对于普通用户而言,面对某一特定的领域时往往很难在众多的模型中做出一个最佳的选择。因此,需要设计一种有效的方法使用户在不需要具备特定领域知识的情况下,对于不同的分析领域都能够达到最佳的用户观点识别效果。
发明内容
本发明克服了现有技术中无法在所有分析领域中达到最优效果的缺陷,提出了一种基于集成学习的观点挖掘方法。
本发明提出了一种基于集成学习的观点挖掘方法,用于统筹分析每个分类器对不同分析领域进行预测时的不同预测结果,提升观点分析的效果,包括如下步骤:样本获取步骤,将已标注样本分为互不相交的大小不相等的第一集合T1和第二集合T2;元分类器训练步骤,在所述第一集合T1上分别训练多个概念分类器,得到多个元分类器;元分类器选取步骤,根据所述元分类器的准确度与分类结果的多样性,选取一组元分类器作为元分类器组;样本预测步骤,利用所述元分类器组对所述第二集合T2中的已标注样本进行预测,生成的预测结果与已标注样本的已有标签相整合,得到新的已标注样本;集成分类器训练步骤,使用所述新的已标注样本确定集成分类模型的参数,得到集成分类器;观点挖掘步骤,对于一个观点挖掘实例,通过所述元分类器组分别对所述观点挖掘实例进行预测,得到多个预测结果,将所述多个预测结果合并后作为所述集成分类器的输入,由所述集成分类器进行预测产生最终的观点挖掘结果。
本发明提出了一种基于集成学习的观点挖掘方法,其中,样本获取步骤中的所述已标注样本为根据特征类型与特征加权法经向量化处理的样本。
本发明提出了一种基于集成学习的观点挖掘方法,其中,所述第一集合T1中的已标注样本数量大于所述第二集合T2中的已标注样本数量,即|T1|>|T2|。
本发明提出了一种基于集成学习的观点挖掘方法,其中,选取所述元分类器组的要求如下式表示:
max S ⊆ D | S | = k Ψ ( S ) , Ψ ( S ) = λ Σ C i ∈ S A ( C i ) + ( 1 - λ ) Σ C i , C j ∈ S ( 1 - κ ( C i , C j ) ) ;
式中,D表示元分类器的集合,Ci表示一个元分类器,A(Ci)表示元分类器Ci的准确度,dist(Ci,Cj)表示元分类器Ci和Cj间分类结果的差异度,κ(Ci,Cj)为元分类器Ci和Cj间分类结果的Fleiss Kappa值,λ为调整准确度与多样性的权重,λ为0到1间的实数。
本发明提出了一种基于集成学习的观点挖掘方法,其中,进一步包括:样本获取步骤中通过k折交叉验证方法生成多个不同的已标注样本。
本发明提出了一种基于集成学习的观点挖掘方法,其中,进一步包括:所述元分类器组中至少包括三个元分类器。
本发明提出了一种基于集成学习的观点挖掘方法,其中,所述元分类器选取步骤中,根据设定的特征类型、特征函数以及分类方法自动选择元分类器组进行观点预测。
本发明提出了一种基于集成学习的观点挖掘方法,其中,进一步包括:在所述元分类器选取步骤中,通过贪心方法选择元分类器作为所述元分类器组。
本发明观点挖掘方法具有优越的预测效果。只需要指定可选用的特征类型、特征加权方法和分类方法,本发明观点挖掘方法自动选择和集成一组优化的元分类器。本发明的预测效果优越于传统单分类器方法的效果,解决了用户面临的分类器难以选择的问题。
本发明观点挖掘方法在不同的分析领域中部能发挥优越的预测效果,不需要针对特定的分析领域对分类模型进行调整。
在元分类器的选择中,本发明通过2-近似的贪心方法,有效地解决了元分类器的组合爆炸问题,使本发明观点挖掘方法现实可用。
本发明观点挖掘方法中可添加不同的分类器,本发明观点挖掘方法可应用到其他的分类问题,例如传统文本分类、图像识别等。
本发明观点挖掘方法中,各元分类器的训练过程相互独立,各元分类器之间具有良好的并行性,在元分类器组的选择方法甚至可以采用map-reduce的模式进行,进一步提高了本发明观点挖掘方法的预测性能。
附图说明
图1是本发明基于集成学习的观点挖掘方法的流程图。
图2是本发明基于集成学习的观点挖掘方法的示意图。
图3是实施例中不同领域上的情感分类准确度比较的柱状图。
图4是实施例中使用ACS集成时分类器个数对分类准确度影响的示意图。
图5是实施例中使用投票集成时分类器个数对分类准确度影响的示意图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明的基于集成学习的观点挖掘方法,针对每个分类器对不同的分析领域预测时具有各自的特点和适用性,充分利用预测结果间的多样性进行相互补充,以进一步提升用户观点识别的效果。本发明的基于集成学习的观点挖掘方法能够有效地解决用户面对不同的分析领域时难以选择最优的分类模型,同时能够达到比传统单分类器方法更高的预测准确度。如图1与图2所示,本发明观点挖掘方法包括如下步骤:
S1,样本获取步骤,将已标注样本分为互不相交的大小不相等的第一集合T1和第二集合T2
S2,元分类器训练步骤,在所述第一集合T1上分别训练多个概念分类器,得到多个元分类器;
S3,元分类器选取步骤,根据所述元分类器的准确度与分类结果的多样性,选取一组元分类器作为元分类器组;
S4,样本预测步骤,利用所述元分类器组对所述第二集合T2中的已标注样本进行预测,生成的预测结果与已标注样本的已有标签相整合,得到新的已标注样本;
S5,集成分类器训练步骤,使用所述新的已标注样本确定集成分类模型的参数,得到集成分类器;
S6,观点挖掘步骤,对于一个观点挖掘实例,通过所述元分类器组分别对所述观点挖掘实例进行预测,得到多个预测结果,将所述多个预测结果合并后作为所述集成分类器的输入,由所述集成分类器进行预测产生最终的观点挖掘结果。
本发明中,概念分类器不能直接用于观点分析,需要通过一些已标注样本进行训练,这些已标注样本称为训练集。概念分类器的训练即在训练集上通过计算确定分类模型的各种参数。经过训练后则可得到分类器实例,这些分类器实例可以用来识别用户的观点倾向。这种用于预测的观点的分类器称为元分类器,这些元分类器产生的结果在集成分类器的作用下整合得到最终的预测结果。
在S1样本获取步骤中的样本包括文本或图像等已标注样本。在分析观点前必须对样本进行常用的预处理。例如,对于英文的文本需要将所有单词小写化、词干化、否定词的处理等,中文的文本需要分词、词性标注等。再根据概念分类器的其中两个基本因素(特征类型和特征加权方法)将该文本向量化,结合样本的已有标签生成符合分类方法的待分析样本。具体地,在对于文本的分析过程中,本发明根据文本在指定的特征类型和特征加权方法的基础上采用词袋框架进行矩阵化。一个概念分类器的构成包括三个基本的因素:特征类型、特征加权方法和分类方法。特征是描述文本的基本单元,观点分析中常用的特征类型包括一元文法(unigram)和二元文法(bigram)等。在表示文本的矩阵中,一个分量表示一种特征在该文本中的值,这个值可用特征在文本中出现的频率(Term Frequency,TF)表示,也可以只描述该特征是否在文本中是否出现过,还可以通过其它观点分析中特有的加权方法来刻画,例如deltatfidf等。表1描述了5个文档采用unigram的特征和TF进行矩阵化后的结果,其中,矩阵中的每一行表示一个文档,每一列的值描述了该特征在每个文档中出现的频率,例如最左上角的“3”表示特征“opinion”在文档1中出现了3次。在文本矩阵化的基础上,通过特定分类方法可识别用户的观点类型,常用的分类方法包括朴素贝叶斯分类、最大熵分类和支持向量机等。
表1 文本矩阵化结果
Figure BDA00003504162300041
本发明采用称为stacking的集成学习技术,该技术主要将元分类器的预测结果作为第二级分类器的训练样本。假设T为所有标注样本的集合,将T划分为大小不等的两个不相交子集:第一集合T1和第二集合T2,其中,第一集合T1中所含已标注样本的数量大于第二集合T2中所含已标注样本的数量,即|T1|>|T2|。第一集合T1作为训练集用于训练元分类器,为了能够尽可能提高元分类器的准确度,通常第一集合T1占所有已标注样本T中的大部分。
本发明基于集成学习的观点挖掘方法的关键在于如何选择一组最优的元分类器。本发明中选取准确度高、差异性大的分类器,能够是集成模型具有更好的泛化能力。因为准确度高的元分类器能够保证基本的预测准确度,而利用分类器间的差异性则能进一步提高最终的预测效果。由于本发明在元分类器的预测结果基础上训练集成分类器,因此通过元分类器的预测结果的多样性来衡量分类器的差异性。具体实施过程中,预先设定特征类型、特征函数以及分类方法等信息,系统根据设定的特征类型、特征函数以及分类方法自动选择一组最优地元分类器作为元分类器组进行观点预测。
假设选取k个元分类器,经过训练后得到的分类器实体集合D={Ci|i=1..N},A(Ci)表示分类器Ci的准确度,dist(Ci,Cj)表示分类器Ci和Cj间分类结果的差异度,则选择的分类器集合S应该满足以下目标函数:
max S ⊆ D | S | = k Ψ ( S ) ,
其中, Ψ ( S ) = λ Σ C i ∈ S A ( C i ) + ( 1 - λ ) Σ C i , C j ∈ S dist ( C i , C j ) ;
本发明中采用Fleiss Kappa值度量分类结果的相似度,因此上式可变为:
Ψ ( S ) = λ Σ C i ∈ S A ( C i ) + ( 1 - λ ) Σ C i , C j ∈ S ( 1 - κ ( C i , C j ) ) ;    (式1)
上式中,D表示元分类器的集合,Ci表示一个元分类器,A(Ci)表示元分类器Ci的准确度,dist(Ci,Cj)表示元分类器Ci和Cj间分类结果的差异度,κ(Ci,Cj)为元分类器Ci和Cj间分类结果的Fleiss Kappa值,λ为调整准确度与多样性的权重,λ为0到1间的实数。当λ为1时,则表示只选出k个准确度最高的元分类器。反之,当λ为0时表示选出k个分类结果最不一致的元分类器。实际上这两种极端的情况部不是最理想的。直观上,应该侧重准确度的同时结合分类器的多样性,例如λ设置为0.8。
对于上述目标函数的求解,当k增大时,组合的数量呈指数级增长。这种组合爆炸问题使得求最优解需要的时间急剧增长,造成方法在现实中不可使用的情况。本发明根据元分类器的准确度和分类结果的多样性采用贪心方法求取近似解,该贪心方法可证明是2-近似的。贪心方法如下方法1所示。具体地,贪心方法中,2是一个紧的上界,通常由该方法得到的近似解与最优解非常接近。此外,对于元分类器个数的选择,当元分类器个数超过3时,分类器个数对整个模型的分类准确度影响不大(<1%)。这是因为当元分类器的个数越多,在考虑元分类器准确度的基础上,其预测结果在多样性提高的方面就越来越难以获取,因此即使增加更多的元分类器,也不会很大程度上提高分类的效果。另一方面,增加元分类器意味着需要训练更多的概念分类器,这会产生时间和计算资源方面的开销。本发明可根据具体的情况在预测准确度和开销之间选择平衡点。
Figure BDA00003504162300061
进一步地,在训练集成分类器时,首先对于第二集合T2中的每个已标注样本,每个元分类器都可产生一个预测结果,因此需要经过有效地整合为新的已标注样本,用来训练集成分类器。采用将步骤S1中划分出来的较小的第二集合T2通过步骤S4选择出来的k个元分类器的每个元分类器对第二集合T2中的每个样本进行测试,得到k个预测结果。将预测结果与其本身相对应的样本的真实标签形成一个新的已标注样本作为集成分类器的输入,用于集成分类器进行二次学习和预测。具体描述如方法2所示:
Figure BDA00003504162300062
Figure BDA00003504162300071
在实际的应用中,本发明采用最大熵分类方法作为集成分类的方法。因为T2中样本较少,由此产生的训练样本也偏少。因此,为了提高集成分类器的泛化能力,本发明采用交叉验证的方式为集成分类器产生更多的训练样本。例如采用10折交叉验证产生训练样本时,首先将所有已标注样本划分成大小相等且不相交的10部份,其中9份已标注样本作为第一集合T1,剩余1份作为第二集合T2,按照方法2中的步骤4~6生成新的训练集,然后将第二集合T2与第一集合T1中的一份进行交换,重复上面的过程,直到每份样本部被预测一次。
为了验证本发明提出基于集成学习的观点识别方法的有效性,本实施例中将Amazon上的评论作为观点分析的对象,包括四类商品:书籍(B)、厨房用具(K)、电子产品(E)、DVD(D)。将四和五星的评论作为肯定的评论,一和二星的评论作为否定的评论,由此可得到关于每类商品的肯定和否定评论各1000个。通过5折交叉验证的方法进行二次学习时的训练样本生成和观点分析实验。
本实施例中采用多分类器集成学习来解决用户难以选择分类器进行观点挖掘的问题。首先使用文中提出的CSGA贪心方法(Classifier Selection Greedy Algorithm)选择一组元分类器,将这组元分类器的预测结果通过方法ACS(Assembling Classifiers by Stacking)整合为最后的观点挖掘结果。投票的方式是最常用的多分类器集成方法,因此将其与方法ACS进行比较,以此来验证方法ACS的有效性。另一方面,为了验证本发明观点挖掘方法在不同的分析领域中都能发挥好的效果,我们针对上面提到的多个不同领域的评论进行实验。
图3显示的是在不同的领域中情感分类准确度的比较,图3中,avg_single表示24个分类器的平均预测准确度;best_single表示最好的单分类器观点挖掘结果;random_ACS表示随机选择一组元分类器后使用ACS方法集成;CSGA_voting表示使用CSGA方法选择优化的元分类器组后通过投票的方式进行集成;CSGA_ACS表示本发明使用CSGA方法选择优化的元分类器组后通过ACS集成分类得到的观点挖掘结果。如图3所示,采用多个分类器集成的方法比单分类器方法对于所有领域在分类准确度上都有较大的提高,但是由于对于不同的分析领域,效果最好的单分类器往往不是固定的,通常较难选取分类效果最好的分类器,而本发明提出采用多分类器集成方法的效果在不同的分析领域均优于最好的单分类器方法。对于使用ACS方法集成的两种途径,通过随机选择元分类器组的方法得到的观点挖掘结果的准确度低于使用CSGA方法选择元分类器组的方法,以证明本发明中通过CSGA方法能够选出更好的元分类器组。此外,对于CSGA方法选择的元分类器组,在大多数情况下通过ACS方法集成优于通过投票方式集成,除了在各别(例如,厨房用具)领域,两种集成方法的效果基本一致。以上结果可能由于对于此领域中的数据单分类器的性能部比较高,元分类器的分类结果间差异性不大,因此两者的效果基本一致。但对于单分类器性能不是很高的领域,例如书籍和DVD的评论,通过ACS方法集成的准确度比投票的准确度有较大的提升。
本发明中元分类器的数量对于分类准确度也会产生影响。使用ACS方法进行多分类器的集成时分类器数量对最终分类准确度的影响如图4所示。在所有的领域中,选择的分类器数量从3增加到7时并未使分类效果发生大的变化(变化范围在1%内)。其中,5个选择的分类器即可达到理想的效果。这是因为元分类器数量的增多使分类器间的差异性会越来越难以获取,因此分类的效果也不会发生大的变化。当采用投票的方式进行集成时,由图5可以看出不同的分类器数量对最后预测的准确度影响较大(在所有领域中变化范围均大于1%)。从这个角度看,使用ACS方法进行集成要优越于使用投票的方式进行集成。衡量近似方法的一个最重要的指标就是近似率(最优值/近似值)。根据目标函数(式1)计算出24个分类器中所有5个分类器组的值,选择其中的最大值作为最优值。表2显示了四个领域中采用不同λ值时CSGA方法选出的成员分类器组对应近似值的近似率。表2中的实验结果表明,在本文的观点分析实验中CSGA方法选择的成员分类器组对应的目标函数值非常接近最优值,进一步说明了文中提出的贪心方法的有效性。
表2 采用不同λ值时CSGA方法的近似率
Figure BDA00003504162300081
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (8)

1.一种基于集成学习的观点挖掘方法,用于统筹分析每个分类器对不同分析领域进行预测时的不同预测结果,提升观点分析的效果,其特征在于,包括如下步骤:
样本获取步骤,将已标注样本分为互不相交的大小不相等的第一集合T1和第二集合T2
元分类器训练步骤,在所述第一集合T1上分别训练多个概念分类器,得到多个元分类器;
元分类器选取步骤,根据所述元分类器的准确度与分类结果的多样性,选取一组元分类器作为元分类器组;
样本预测步骤,利用所述元分类器组对所述第二集合T2中的已标注样本进行预测,生成的预测结果与已标注样本的已有标签相整合,得到新的已标注样本;
集成分类器训练步骤,使用所述新的已标注样本确定集成分类模型的参数,得到集成分类器;
观点挖掘步骤,对于一个观点挖掘实例,通过所述元分类器组对所述观点挖掘实例进行预测,得到多个预测结果,将所述多个预测结果合并后作为所述集成分类器的输入,由所述集成分类器进行预测产生最终的观点挖掘结果。
2.如权利要求1所述的基于集成学习的观点挖掘方法,具特征在于,样本获取步骤中的所述已标注样本为根据特征类型与特征加权法经向量化处理的样本。
3.如权利要求1所述的基于集成学习的观点挖掘方法,其特征在于,所述第一集合T1中的已标注样本数量大于所述第二集合T2中的已标注样本数量。
4.如权利要求1所述的基于集成学习的观点挖掘方法,其特征在于,选取所述元分类器组的要求如下式表示:
max S ⊆ D | S | = k Ψ ( S ) , Ψ ( S ) = λ Σ C i ∈ S A ( C i ) + ( 1 - λ ) Σ C i , C j ∈ S ( 1 - κ ( C i , C j ) ) ;
式中,D表示元分类器的集合,Ci表示一个元分类器,A(Ci)表示元分类器Ci的准确度,dist(Ci,Cj)表示元分类器Ci和Cj间分类结果的差异度,κ(Ci,Cj)为元分类器Ci和Cj间分类结果的Fleiss Kappa值,λ为调整准确度与多样性的权重,λ为0到1间的实数。
5.如权利要求1所述的基于集成学习的观点挖掘方法,其特征在于,进一步包括:样本获取步骤中通过k折交叉验证方法生成多个不同的已标注样本。
6.如权利要求1所述的基于集成学习的观点挖掘方法,其特征在于,进一步包括:所述元分类器组中至少包括三个元分类器。
7.如权利要求1所述的基于集成学习的观点挖掘方法,其特征在于,所述元分类器选取步骤中,根据设定的特征类型、特征函数以及分类方法自动选择元分类器组进行观点预测。
8.如权利要求1所述的基于集成学习的观点挖掘方法,其特征在于,进一步包括:在所述元分类器选取步骤中,通过贪心方法选择元分类器作为所述元分类器组。
CN201310293788.5A 2013-07-12 2013-07-12 一种基于集成学习的观点挖掘方法 Active CN103365997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310293788.5A CN103365997B (zh) 2013-07-12 2013-07-12 一种基于集成学习的观点挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310293788.5A CN103365997B (zh) 2013-07-12 2013-07-12 一种基于集成学习的观点挖掘方法

Publications (2)

Publication Number Publication Date
CN103365997A true CN103365997A (zh) 2013-10-23
CN103365997B CN103365997B (zh) 2016-12-28

Family

ID=49367338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310293788.5A Active CN103365997B (zh) 2013-07-12 2013-07-12 一种基于集成学习的观点挖掘方法

Country Status (1)

Country Link
CN (1) CN103365997B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN104035996A (zh) * 2014-06-11 2014-09-10 华东师范大学 基于Deep Learning的领域概念抽取方法
CN104331498A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
US9672475B2 (en) 2014-12-19 2017-06-06 International Business Machines Corporation Automated opinion prediction based on indirect information
CN107066442A (zh) * 2017-02-15 2017-08-18 阿里巴巴集团控股有限公司 情绪值的检测方法、装置及电子设备
CN108281192A (zh) * 2017-12-29 2018-07-13 诺仪器(中国)有限公司 基于集成学习算法的人体成分预测方法及系统
CN109274439A (zh) * 2018-09-30 2019-01-25 南昌航空大学 无线传感器网络链路质量评估方法
CN109903840A (zh) * 2019-02-28 2019-06-18 数坤(北京)网络科技有限公司 一种模型整合方法及设备
CN110019777A (zh) * 2017-09-05 2019-07-16 腾讯科技(深圳)有限公司 一种信息分类的方法及设备
CN110059183A (zh) * 2019-03-22 2019-07-26 重庆邮电大学 一种基于大数据的汽车行业用户观点情感分类方法
CN110162594A (zh) * 2019-01-04 2019-08-23 腾讯科技(深圳)有限公司 文本数据的观点生成方法、装置及电子设备
CN111612260A (zh) * 2020-05-27 2020-09-01 华东师范大学 基于集成学习模型的轨道交通车载数据预测方法
CN112949713A (zh) * 2021-03-01 2021-06-11 武汉工程大学 一种基于复杂网络的集成学习的文本情感分类方法
CN112995202A (zh) * 2021-04-08 2021-06-18 昆明理工大学 一种基于SDN的DDoS攻击检测方法
CN114169440A (zh) * 2021-12-08 2022-03-11 北京百度网讯科技有限公司 模型训练方法、数据处理方法、装置、电子设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609424A (zh) * 2011-01-21 2012-07-25 日电(中国)有限公司 评价信息抽取方法和设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609424A (zh) * 2011-01-21 2012-07-25 日电(中国)有限公司 评价信息抽取方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUMING LIN ET AL.: "Assembling the Optimal Sentiment Classifiers", 《WEB INFORMATION SYSTEMS ENGINEERING-WISE2012》 *
张少佳: "多分类器组合及其遥感分类研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN103793503B (zh) * 2014-01-24 2017-02-08 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN104035996A (zh) * 2014-06-11 2014-09-10 华东师范大学 基于Deep Learning的领域概念抽取方法
CN104035996B (zh) * 2014-06-11 2017-06-16 华东师范大学 基于Deep Learning的领域概念抽取方法
CN104331498A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
CN104331498B (zh) * 2014-11-19 2017-08-01 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
US9672475B2 (en) 2014-12-19 2017-06-06 International Business Machines Corporation Automated opinion prediction based on indirect information
US9697466B2 (en) 2014-12-19 2017-07-04 International Business Machines Corporation Automated opinion prediction based on indirect information
CN107066442A (zh) * 2017-02-15 2017-08-18 阿里巴巴集团控股有限公司 情绪值的检测方法、装置及电子设备
CN110019777A (zh) * 2017-09-05 2019-07-16 腾讯科技(深圳)有限公司 一种信息分类的方法及设备
CN108281192B (zh) * 2017-12-29 2022-03-22 一诺仪器(中国)有限公司 基于集成学习算法的人体成分预测方法及系统
CN108281192A (zh) * 2017-12-29 2018-07-13 诺仪器(中国)有限公司 基于集成学习算法的人体成分预测方法及系统
CN109274439A (zh) * 2018-09-30 2019-01-25 南昌航空大学 无线传感器网络链路质量评估方法
CN110162594A (zh) * 2019-01-04 2019-08-23 腾讯科技(深圳)有限公司 文本数据的观点生成方法、装置及电子设备
CN110162594B (zh) * 2019-01-04 2022-12-27 腾讯科技(深圳)有限公司 文本数据的观点生成方法、装置及电子设备
CN109903840A (zh) * 2019-02-28 2019-06-18 数坤(北京)网络科技有限公司 一种模型整合方法及设备
CN110059183A (zh) * 2019-03-22 2019-07-26 重庆邮电大学 一种基于大数据的汽车行业用户观点情感分类方法
CN110059183B (zh) * 2019-03-22 2022-08-23 重庆邮电大学 一种基于大数据的汽车行业用户观点情感分类方法
CN111612260B (zh) * 2020-05-27 2022-03-25 华东师范大学 基于集成学习模型的轨道交通车载数据预测方法
CN111612260A (zh) * 2020-05-27 2020-09-01 华东师范大学 基于集成学习模型的轨道交通车载数据预测方法
CN112949713A (zh) * 2021-03-01 2021-06-11 武汉工程大学 一种基于复杂网络的集成学习的文本情感分类方法
CN112949713B (zh) * 2021-03-01 2023-11-21 武汉工程大学 一种基于复杂网络的集成学习的文本情感分类方法
CN112995202A (zh) * 2021-04-08 2021-06-18 昆明理工大学 一种基于SDN的DDoS攻击检测方法
CN114169440A (zh) * 2021-12-08 2022-03-11 北京百度网讯科技有限公司 模型训练方法、数据处理方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN103365997B (zh) 2016-12-28

Similar Documents

Publication Publication Date Title
CN103365997A (zh) 一种基于集成学习的观点挖掘方法
Ruder et al. Learning to select data for transfer learning with bayesian optimization
Manek et al. Aspect term extraction for sentiment analysis in large movie reviews using Gini Index feature selection method and SVM classifier
Peddinti et al. Domain adaptation in sentiment analysis of twitter
CN103164463B (zh) 推荐标签的方法和装置
Zhila et al. Combining heterogeneous models for measuring relational similarity
Nagamma et al. An improved sentiment analysis of online movie reviews based on clustering for box-office prediction
Li et al. Sentiment analysis based on clustering: a framework in improving accuracy and recognizing neutral opinions
CN107256494B (zh) 一种物品推荐方法及装置
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
Ngo-Ye et al. Analyzing online review helpfulness using a Regressional ReliefF-enhanced text mining method
Gkotsis et al. It's all in the content: state of the art best answer prediction based on discretisation of shallow linguistic features
CN106202481A (zh) 一种感知数据的评价方法和系统
CN104794500A (zh) 一种tri-training半监督学习方法及装置
Moghaddam et al. Opinion polarity identification through adjectives
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
Noailly et al. Heard the news? Environmental policy and clean investments
Tahmasebi A Study on Word2Vec on a Historical Swedish Newspaper Corpus.
CN106227802A (zh) 一种基于中文自然语言处理和多核分类器的多信源股价预测方法
Tongman et al. Classifying positive or negative text using features based on opinion words and term frequency-inverse document frequency
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Polpinij et al. Comparing of multi-class text classification methods for automatic ratings of consumer reviews
CN104572623A (zh) 一种在线lda模型的高效数据总结分析方法
Syn et al. Using latent semantic analysis to identify quality in use (qu) indicators from user reviews

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant