CN103903164A - 基于领域信息的半监督方面自动提取方法及其系统 - Google Patents

基于领域信息的半监督方面自动提取方法及其系统 Download PDF

Info

Publication number
CN103903164A
CN103903164A CN201410114328.6A CN201410114328A CN103903164A CN 103903164 A CN103903164 A CN 103903164A CN 201410114328 A CN201410114328 A CN 201410114328A CN 103903164 A CN103903164 A CN 103903164A
Authority
CN
China
Prior art keywords
word
seed
semi
engine
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410114328.6A
Other languages
English (en)
Other versions
CN103903164B (zh
Inventor
蔡毅
王涛
梁浩锋
闵华清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201410114328.6A priority Critical patent/CN103903164B/zh
Publication of CN103903164A publication Critical patent/CN103903164A/zh
Application granted granted Critical
Publication of CN103903164B publication Critical patent/CN103903164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于领域信息的半监督方面自动提取方法,包括:网络信息爬取、信息预处理、关键词提取、评论文档重组和细粒度的标记LDA学习;本发明还公开了一种基于领域信息的半监督方面自动提取系统,包括:网络信息爬取模块、信息预处理模块、关键词提取模块、评论文档重组模块和细粒度的标记LDA学习模块。本发明可以使得提取出来的商品各个方面的描述更加明确、方面之间的区别更加清晰;另外,本发明生成的方面结构(顺序和内容)能与预先定义在种子词集中的商品方面结构保持一致,从而,本发明具有能有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预等优点。

Description

基于领域信息的半监督方面自动提取方法及其系统
技术领域
本发明涉及一种商品观点挖掘技术,特别涉及一种基于领域信息的半监督方面自动提取方法及其系统。
背景技术
随着电子商务的日益普及,越来越多的消费者都选择在网上购买商品和服务,尤其是近几年的蓬勃发展,不同模式(B2B、B2C、C3C等)、不同领域的各类型电子商务网站不断涌现,竞争不断加剧,用户需求也不断提高。生产和销售厂商总是试图及时获取公众或消费者对它们产品和服务的评价观点以提升产品质量及销量;而潜在的消费者在享受一种服务或购买一种产品之前,也想知道当前消费者的评价观点,以便选择真正适合自身的产品。通过对网络上大量的消费者评论反馈进行自动化的观点挖掘有助于解决上述问题,自动化的观点挖掘有以下三个方面的优势:首先,该方法总结的结果可以避免用手工阅卷中公司的人员变动使得评价结果出现不一致的现象。其次,该类系统可以近实时地从网上吸收大量的信息进行分析,这使得调查成本相对较低。第三,观点挖掘系统还可以处理多种语言的文档,这在传统方法中,对于一般人员是很难达到掌握多种语言的要求。然而,在当前主流的观点挖掘框架中,对于商品方面的提取往往是整个框架的瓶颈,因为该步骤需要将描述相同商品方面的不同用语进行语义归类。此问题是目前该领域的一个研究热点。
当前商品方面提取的方法主要有:基于频繁字符串和基于主题模型(topicmodel)的挖掘算法。前者的主要不足是不能将描述同一商品方面的语义相关的用语进行归类,这导致该类方法无法用一种有结构的方式帮助用户快速、直观地了解商品的各个方面特征;对于后者,大部分方法采用的是无监督式的学习方式,这导致了以下的缺点与不足:
1.模型生成方面的粒度和分类标准可能与人的认知习惯相悖,使得结果难以被理解。
2.无监督模型每次生成的方面序列不能保持一个稳定的结构,导致难以在自动化的分析算法中应用。
3.由于大部分评论都包含相同或相似的商品方面,这将使得基于单词共现性原理的主题模型方法难以将各个相关但不同的方面清晰地加以区分。
因此,为了更有效地从商品评论中提取商品方面,需要引入一些先验知识来监督主题模型的学习过程,使得模型提取出来的商品方面分类更加清晰、更好地满足人们的认知习惯、并以一种较稳定的结构输出。
发明内容
本发明的首要目的在于克服现有技术的缺点与不足,提供一种基于领域信息的半监督方面自动提取方法,该方法通过同时在文档层次和词层次对LDA模型进行标记学习,可以使得提取出来的各个商品方面的相关的信息描述得更加明确,方面之间的区别更加清晰。
本发明的另一目的在于克服现有技术的缺点与不足,提供一种基于领域信息的半监督方面自动提取系统,该系统能与预先定义的方面种子词的结构保持一致,从而有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预。
本发明的首要目的通过下述技术方案实现:基于领域信息的半监督方面自动提取方法,包括:
网络信息爬取,从电子商务网站上爬取消费者对于关注商品的评论,以及电子商务网站中对于商品半结构化的商品细节描述信息;
信息预处理,将爬取到的评论进行分词、词性标注和去除停顿词处理,并提取评论中的特征单词;
关键词提取,从电子商务网站中半结构化的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识;
评论文档重组,将评论中各个句子利用提取的所述关键词进行标记,然后将含有相同关键词的句子重新组合成新的文档,得到主题鲜明、共现商品方面较少的学习文档;
细粒度的标记LDA学习,通过半监督的LDA主题模型识别评论中的产品特征,将所述的产品特征的属于同一方面的特征进行归类;所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成更加易于理解、清晰的分类,并获得顺序和种子词集中定义相一致的商品方面集;所述的方面-词的约束关系是指在评论中,关键词具有特定的方面倾向,如:“LCD”更多的是用来描述“屏幕”方面;
其中,所述方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以下三种定义中的任意一种定义:
第一种定义: &ForAll; w m &Element; p i , j , m &NotEqual; t , TFIDF m , i < TFIDF t , i ;
第二种定义: &ForAll; w m &Element; p i , j , m &NotEqual; t ( TFIDF m , i = TFIDF t , i ) &cap; ( TF m , i < TF t , i ) ;
第三种定义: &Exists; w m &Element; p i , j , TFIDF t , i = 1 ;
式中,TFIDFm,i表示单词wt在ci中的TFIDF(term frequency–inverse documentfrequency)值,TFt,i表示单词wt在ci中的词频(term frequency),DF表示单词wt在所有方面类别中的总词频。
所述的细粒度的标记LDA学习包括以下步骤:
(5a)利用种子词集初始化词-主题相关性变量
Figure BDA0000481801750000031
相关性变量
Figure BDA0000481801750000032
的设置表达式如下:
&rho; k w = &lambda; ( 1 + &epsiv; k w ) + ( 1 - &lambda; ) , &gamma; k w = 1 , 1 , &gamma; k w = 0 ,
其中,
Figure BDA0000481801750000034
表示单词w在种子方面集sk的词频,λ是松弛因子,所述松弛因子用于控制的影响强度,
Figure BDA0000481801750000036
表示单词w是否种子方面集sk的指示函数,如果字符w属于种子方面集sk,则为1,否则为0,指示函数
Figure BDA0000481801750000037
的定义如下:
Figure BDA0000481801750000038
式中,sk表示种子方面集;
(5b)初始化狄利克雷(Dirichlet)先验概率参数:对于文档d的文档-方面狄利克雷先验参数αd
&alpha; d = &alpha; &times; &gamma; l d ,
其中,α=(α1,…,αk),αi=50/K+Δi,K是种子方面的个数,Δi是[0,5]之间的随机数,
Figure BDA0000481801750000039
对于种子词的方面–词的狄利克雷先验参数βs=0.5;对于普通词的方面-词的狄利克雷先验参数βg=0.1;
(5c)初始化后验概率
Figure BDA0000481801750000041
随机初始化单词在方面变量上的分布Z;
(5d)采用吉布斯采样方法估计概率P(w,z|α,β,γ)的值,所述概率P(w,z|α,β,γ)的计算公式如下:
P ( w , z | &alpha; , &beta; , &gamma; ) = &rho; k w i n - i , k w i + &beta; s n - i , k ( &CenterDot; ) + V&beta; s n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d , w i &Element; S , n - i , k w i + &beta; g n - i , k ( &CenterDot; ) + V&beta; g n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d , w i &NotElement; S ,
式中,
Figure BDA0000481801750000043
是单词wi与种子方面sk的相关性,αd是文档d的狄利克雷先验参数,V是单词的数目,K表示方面的个数,即种子集中方面的个数,βs是种子词的狄利克雷先验参数,βg是普通词的狄利克雷先验参数,
Figure BDA0000481801750000044
表示单词wi在方面zk的出现数目减去wi出现的数目,
Figure BDA0000481801750000045
表示文档d中的单词出现在方面zk的次数减去wi出现的数目,
Figure BDA0000481801750000046
表示所有单词在方面zk的出现数目减去wi出现的数目,
Figure BDA0000481801750000047
表示文档d中的单词出现在所有方面的次数减去wi出现的数目;
(5e)根据分布变量Z,计算后验概率,所述后验概率包括
所述
Figure BDA00004818017500000410
的计算公式如下:
&theta; k d = n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d ,
式中,
Figure BDA00004818017500000412
表示方面k在文档d中的概率;
所述
Figure BDA00004818017500000413
的计算公式如下:
Figure BDA00004818017500000414
式中,
Figure BDA00004818017500000415
表示单词wi属于方面k的概率。
所述的评论文档重组包括以下步骤:
(4a)将评论拆分为句子,并对包含了细节描述或种子词的句子,使用细节描述短语和种子词进行标记,如果某个句子同时包含了单词ti和tj,当tj为ti的字串时,该句子只会被标记为ti
(4b)将包含了相同字符串标记的句子重新组合成新的文档。
所述的网络信息爬取包括以下步骤:
(1a)利用Scrapy爬虫引擎打开一个域名,定位出处理该域名的蜘蛛,所述的蜘蛛指用户自定义的类,用于从解析回应、提取网页中相应的项或者提取出特定的URL用于后续爬取,Scrapy爬虫引擎再请求蜘蛛提供种子URL;
(1b)引擎从蜘蛛获取种子URL,再包装为请求在调度器中进行调度,引擎从调度器获取下一个待爬取的请求;
(1c)调度器将下一个待爬取的请求返回给引擎,然后引擎将它们发送到下载器;
(1d)当网页被下载器下载完成以后,把响应内容发送到引擎;
(1e)引擎在收到下载器的响应内容后,将响应内容发送到蜘蛛进行处理;
(1f)蜘蛛处理响应内容并返回爬取到的项,然后给引擎发送新的请求;
(1g)引擎将抓取到的项放入项目流水线,并向调度器发送请求。
(1h)重复执行步骤(1b)至(1g),直到调度器中所有请求都完成为止,最后断开引擎与域之间的联系。
所述的信息预处理包括以下步骤:
(2a)对于英文,首先将所有字符转换为小写,再将所有评论进行分词及词性标注;对于中文,直接对评论进行分词及词性标注;
(2b)对于英文,去除停顿词、包含数字和URL的字符串,再将所有单词进行词干化以得到单词原型,最后提取词性为名词或名词短语的单词作为评论文档的特征词;对于中文,直接提取词性为名词或名词短语的单词作为评论文档的特征词;
所述的关键词提取包括以下步骤:
(3a)对于每一个商品细节描述短语进行分词、去除数字、标点符号和停顿词处理;
(3b)遍历所有细节描述短语中的各个单词,计算出每个单词wm在各个方面类别ci中的词频、TFIDF值,并记录下每个类别ci中的最大词频和TFIDF值;
(3c)遍历每个商品方面ci中每个描述短语pi,j中各个单词wt,判断wt是否是pi,j中拥有最大TFIDF值的词且pi,j中只有唯一的单词拥有最大的TFIDF值,如果是,则将wt加入到方面ci的种子词集si;否则,判断wt是否是pi,j中拥有最大TF值的词且pi,j中只有唯一的单词拥有最大的TF值,如果是,则将wt加入到方面ci的种子词集si;否则,判断wt的TFIDF值是否等于1,如果是,则将wt加入到方面cx的种子词集si;否则,将wt排除在方面ci的种子词集si之外。
本发明的另一目的通过下述技术方案实现:基于领域信息的半监督方面自动提取系统,包括:
网络信息爬取模块,用于从电子商务网站上爬取消费者对于关注商品的评论,以及电子商务网站中对于商品的半结构化的商品细节描述信息;
信息预处理模块,用于将爬取到的评论进行分词、词性标注、去除停顿词,提取评论中的特征单词;
关键词提取模块,用于从电子商务网站中半结构的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识;
评论文档重组模块,用于将评论中各个句子利用提取的所述关键词进行标记,然后将含有相同关键词的句子重新组合成新的文档,得到主题鲜明、共现商品方面较少的学习文档;
细粒度的标记LDA学习模块,用于通过半监督的LDA主题模型识别评论中的产品特征并将所述的产品特征的属于同一方面的特征进行归类;所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成更加易于理解、清晰的分类,并获得顺序和种子词集中定义相一致的商品方面集;所述的方面-词的约束关系是指在评论中,关键词具有特定的方面倾向,如:“LCD”更多的是用来描述“屏幕”方面;
其中,所述方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以下三种定义中的任意一种定义:
第一种定义: &ForAll; w m &Element; p i , j , m &NotEqual; t , TFIDF m , i < TFIDF t , i ;
第二种定义: &ForAll; w m &Element; p i , j , m &NotEqual; t ( TFIDF m , i = TFIDF t , i ) &cap; ( TF m , i < TF t , i ) ;
第三种定义: &Exists; w m &Element; p i , j , TFIDF t , i = 1 ;
式中,TFIDFm,i表示单词wt在ci中的TFIDF(term frequency–inverse documentfrequency)值,TFt,i表示单词wt在ci中的词频(term frequency),DF表示单词wt在所有方面类别中的总词频。
所述的细粒度的标记LDA学习模块具体用于:
利用种子词集初始化词-主题相关性变量
Figure BDA0000481801750000061
所述相关性变量
Figure BDA0000481801750000062
的设置表达式如下:
&rho; k w = &lambda; ( 1 + &epsiv; k w ) + ( 1 - &lambda; ) , &gamma; k w = 1 , 1 , &gamma; k w = 0 ,
其中,
Figure BDA0000481801750000072
表示单词w在种子方面集sk的词频,λ是松弛因子用于控制的影响强度,表示单词w是否种子方面集sk的指示函数,如果字符w属于种子方面集sk,则为1,否则为0,指示函数
Figure BDA0000481801750000075
的定义如下:
Figure BDA0000481801750000076
式中,sk表示种子方面集;
初始化狄利克雷(Dirichlet)先验概率参数,对于文档d的文档-方面狄利克雷先验参数
Figure BDA00004818017500000720
其中α=(α1,…,αk),αi=50/K+Δi,K是种子方面的个数,Δi是[0,5]之间的随机数,对于种子词的方面–词的狄利克雷先验参数βs=0.5;对于普通词的方面-词的狄利克雷先验参数βg=0.1;
初始化后验概率
Figure BDA0000481801750000078
随机初始化单词在方面变量上的分布Z;
采用吉布斯采样方法估计概率P(w,z|α,β,γ)的值,所述概率P(w,z|α,β,γ)的计算公式如下:
P ( w , z | &alpha; , &beta; , &gamma; ) = &rho; k w i n - i , k w i + &beta; s n - i , k ( &CenterDot; ) + V&beta; s n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d , w i &Element; S , n - i , k w i + &beta; g n - i , k ( &CenterDot; ) + V&beta; g n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d , w i &NotElement; S ,
其中,
Figure BDA00004818017500000710
是单词wi与种子方面sk的相关性,αd是文档d的狄利克雷先验参数,V是单词的数目,K表示方面的个数,即种子集中方面的个数,βs是种子词的狄利克雷先验参数,βg是普通词的狄利克雷先验参数,
Figure BDA00004818017500000711
表示单词wi在方面zk的出现数目减去wi出现的数目,表示文档d中的单词出现在方面zk的次数减去wi出现的数目,表示所有单词在方面zk的出现数目减去wi出现的数目,
Figure BDA00004818017500000714
表示文档d中的单词出现在所有方面的次数减去wi出现的数目;
根据分布变量Z,计算后验概率,所述后验概率包括
Figure BDA00004818017500000715
Figure BDA00004818017500000716
所述的计算公式如下:
&theta; k d = n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d ,
式中,
Figure BDA00004818017500000719
表示方面k在文档d中的概率;
所述
Figure BDA0000481801750000081
的计算公式如下:
Figure BDA0000481801750000082
式中,
Figure BDA0000481801750000083
表示单词wi属于方面k的概率。
所述的评论文档重组模块具体用于:
将评论拆分为句子,并对包含了细节描述或种子词的句子使用细节描述短语和种子词进行标记,如果某个句子同时包含了单词ti和tj,当tj为ti的字串时,该句子只会被标记为ti
将包含了相同字符串标记的句子重新组合成新的文档。
所述的网络信息爬取模块具体用于:
利用Scrapy爬虫引擎打开一个域名,定位出处理该域名的蜘蛛,再请求蜘蛛提供种子URL,所述的蜘蛛指用户自定义的类,用于从解析回应、提取网页中相应的项或者提取出特定的URL用于后续爬取;
引擎从蜘蛛获取种子URL,再包装为请求在调度器中进行调度,最后引擎从调度器获取下一个待爬取的请求;
调度器将下一个待爬取的请求返回给引擎,然后引擎将它们发送到下载器;
当网页被下载器下载完成以后,把响应内容发送到引擎;
引擎在收到下载器的响应内容后,将响应内容发送到蜘蛛进行处理;
蜘蛛处理响应内容并返回爬取到的项,然后给引擎发送新的请求;
引擎将抓取到的项放入项目流水线并向调度器发送请求;
依次重复执行
引擎蜘蛛获取种子URL,再包装为请求在调度器中进行调度,引擎从调度器获取下一个待爬取的请求;
调度器将下一个待爬取的请求返回给引擎,然后引擎将它们发送到下载器;
当网页被下载器下载完成以后,把响应内容发送到引擎;
引擎在收到下载器的响应内容后,将响应内容发送到蜘蛛进行处理;
蜘蛛处理响应内容并返回爬取到的项,然后给引擎发送新的请求;以及
引擎将抓取到的项放入项目流水线并向调度器发送请求,直到调度器中所有请求都完成为止,最后断开引擎与域之间联系。
所述的信息预处理模块具体用于:
对于英文,首先将所有字符转换为小写,再将所有评论进行分词及词性标注;对于中文,直接对评论进行分词及词性标注;
对于英文,去除停顿词、包含数字和URL的字符串,再将所有单词进行词干化以得到单词原型,最后提取词性为名词或名词短语的单词作为评论文档的特征词;对于中文,直接提取词性为名词或名词短语的单词作为评论文档的特征词;
所述的关键词提取模块具体用于:
对于每一个商品细节描述短语进行分词、去除数字、标点符号和停顿词处理;
遍历所有细节描述短语中的各个单词,计算出每个单词wm在各个方面类别ci中的词频、TFIDF值,并记录下每个类别ci中的最大词频和TFIDF值;
遍历每个商品方面ci中每个描述短语pi,j中各个单词wt,判断wt是否是pi,j中拥有最大TFIDF值的词且pi,j中只有唯一的单词拥有最大的TFIDF值,如果是,则将wt加入到方面ci的种子词集si;否则,判断wt是否是pi,j中拥有最大TF值的词且pi,j中只有唯一的单词拥有最大的TF值,如果是,则将wt加入到方面ci的种子词集si;否则,判断wt的TFIDF值是否等于1,如果是,则将wt加入到方面ci的种子词集si;否则,将wt排除在方面ci的种子词集si之外。
本发明的工作原理:本发明是一种基于领域信息的半监督商品方面(Aspect)提取方法,方法利用电子商务网站中半结构化的商品描述信息中提取商品各个描述方面的关键词,将其作为半监督主题模型的种子词引导模型的方面提取和归类。通过同时在文档层次和词层次对LDA模型进行标记学习,可以使得提取出来的商品各个方面的描述更加明确、方面之间的区别更加清晰。另外,本发明生成的方面结构(顺序和内容)能与预先定义在种子词集中的商品方面结构保持一致,从而有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预。由于关于某一商品的评论集是一个确定领域的语料库,评论中有些词语含有确定的方面类别,如:“LCD”在相机评论中更多的是描述相机的屏幕而不是电池。因此,本发明利用少许方面种子词来对主题模型进行标记,使其能够生成接近人们认知习惯的产品方面分类;为避免现有方法中人工标注种子词,并增加方法在海量商品处理的可行性,本发明利用电子商务网站上半结构化的描述信息中提取各个方面类别的种子词,并在主题模型加入种子词的“方面—词”分布标记以产生与种子词集结构一致的方面;另外,通过将含有相同种子词的句子组合成一个新的文档作为主题模型的输入文件,获得主题鲜明并且具有充足共现上下文的学习文档,减少各个不同方面的共现频率以提高模型生成出的各个方面之间的区分度;在模型设计方面,本发明通过加入种子词的方面-词相关权重信息,使得模型能够生产与种子集方面内容及顺序保持一致的方面分类,并可在实际自动化的应用中省去人工鉴别工作。
本发明相对于现有技术具有如下的优点及效果:
1、本发明利用电子商务网站上半结构化的商品细节描述信息提取方面分类并通过自动的提取算法获得相应的种子词,避免了传统半监督方法的人工标注。
2、本发明通过文档重组过程减轻了主题模型在评论语料库中常见的两个问题:原始评论级别上文档的方面分布高度相似以及在句子级别上共现上下文不充足的问题。重组后的文档拥有更集中的方面分布以及较充足的共现上下文,能够更好地发挥主题模型的性能。
3、本发明采用一种细粒度的标记主题模型,通过利用种子词在词级别对主题模型进行监督,使其能够生成和种子集中定义保持一致的方面类别及次序。从而,减少了在实际应用中,人工对各个方面进行鉴别。
附图说明
图1为本发明的总体结构图。
图2为本发明的总体流程图。
图3为细粒度的标记LDA模型的贝叶斯图模型图。
图4为细粒度的标记LDA模型的后验概率计算流程。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示的总体结构图和图2所示的总体数据流程图,一种基于领域信息的半监督方面自动提取方法,包括:
网络信息爬取,从电子商务网站上爬取消费者对于关注商品的评论,以及电子商务网站中对于商品的半结构化的商品细节描述信息。
信息预处理,将爬取到的评论进行分词、词性标注、去除停顿词,提取评论中的特征单词。
关键词提取,从电子商务网站中半结构的商品细节描述信息中提取每个方面的关键词作为半监督主题模型的种子词集,获取由电商网站中的领域专家定义的、符合人认知习惯的商品方面分类作为半监督方法的先验知识。
其中,方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以下任意一种:
1、 &ForAll; w m &Element; p i , j , m &NotEqual; t , TFIDF m , i < TFIDF t , i ;
2、 &ForAll; w m &Element; p i , j , m &NotEqual; t ( TFIDF m , i = TFIDF t , i ) &cap; ( TF m , i < TF t , i ) ;
3、 &Exists; w m &Element; p i , j , TFIDF t , i = 1 ;
TFIDFm,i表示单词wt在ci中的TFIDF(term frequency–inverse documentfrequency)值,TFt,i表示单词wt在ci中的词频(term frequency)。其中,DF表示单词wt在所有方面类别中的总词频。
评论文档重组,将评论中各个句子利用上步提取的关键词进行标记,然后将含有相同关键词的句子重新组合成新的文档,得到主题鲜明、共现商品方面较少的学习文档。
细粒度的标记LDA学习,通过半监督的LDA主题模型识别评论中的产品特征并将其属于同一方面的特征进行归类;所述半监督的主题模型是通过加入方面-词的约束关系来监督模型生成更加易于理解、清晰的分类,并获得顺序和种子词集中定义相一致的商品方面集;所述的方面-词的约束关系是指在评论中,某些词具有特定的方面倾向,如:“LCD”更多的是描述“屏幕”方面。
下面对本发明提供的一种基于领域信息的半监督方面自动提取方法作详细说明:
首先介绍本发明中网络信息爬取模块。利用爬虫引擎对商品的评论进行爬取并进行结构化保存。利用商品名、型号等信息在含有半结构化商品描述信息的电子商务网站,如ebay、newegg、京东等,将商品描述信息爬取下来。考虑到很多页面使用AJAX技术来动态加载评论,本发明利用WebKit模拟用户的一般浏览行为,并利用Scrapy爬虫框架进行信息的收集。数据流动由Scrapy内部的引擎进行控制,数据处理流程为:1.引擎打开一个域名,定位出处理该域名的蜘蛛(用户自定义的类,用于从解析回应、提取相应的项或者提取出特定的URL用于后续爬取),然后请求蜘蛛提供种子URL;2.引擎从蜘蛛获取种子URL,然后包装为请求在调度器中进行调度;3.引擎从调度器获取接下来进行爬取的请求;4.调度器将下一个待爬取的请求返回给引擎,然后引擎将它们发送到下载器;5.当网页被下载器下载完成以后,响应内容被发送到引擎;6.引擎在收到下载器的响应后,将响应发送到蜘蛛进行处理;7.蜘蛛处理响应并返回爬取到的项,然后给引擎发送新的请求;8.引擎将抓取到的项放入项目流水线,并向调度器发送请求。重复第二步和后面的操作,调度器中所有请求都完成,然后断开引擎与域之间的联系。
所述评信息预处理模块,首先将评论的文本利用分词工具进行分词和词性标注。英文分词工具有:Stanford POS Tagger;中文分词工具有:中科院的ICTCLAS、开源Java分词工具IKAnalyzer和开源python分词工具结巴分词等。
其中,对于英文,为降低文档词向量的维度,还需对不同语态形式的单词提取词干(Stemming),常用的方法是Porter stemmer。最后,利用语言学中的停顿词表将文本中的停顿词(stop word)去除。
所述关键词提取模块,首先对于每一个商品细节描述短语进行分词、去除数字、标点符号和停顿词,对于英文类似于评论预处理模块,将其转化为小写,然后进行分词、去停顿词并词干化;然后,遍历所有细节描述短语中的各个单词,计算出每个单词wm在各个方面类别ci中的词频、TFIDF值,并记录下每个类别ci中的最大词频和TFIDF值;最后,遍历每个商品方面ci中每个描述短语pi,j中各个单词wt,判断wt是否是pi,j中拥有最大TFIDF值的词且pi,j中只有唯一的单词拥有最大的TFIDF值,如果是,则将wt加入到方面ci的种子词集si;否则,判断wt是否是pi,j中拥有最大TF值的词且pi,j中只有唯一的单词拥有最大的TF值,如果是,则将wt加入到方面ci的种子词集si;否则,判断wt的TFIDF值是否等于1,如果是,则将将wt加入到方面ci的种子词集si;否则,将wt排除在方面ci的种子词集si之外。
所述评论文档重组模块,首先,将评论拆分为句子,并对包含了细节描述或种子词的句子,使用细节描述短语和种子词进行标记,如果某个句子同时包含了单词ti和tj,当tj为ti的字串时,该句子只会被标记为ti;然后,将包含了相同字符串标记的句子重新组合成新的文档。
如图3所示,为所述细粒度的标记LDA模型学习模块的基本流程。本发明中的LDA模型利用吉布斯采样进行后验推导,采用的是3000次采样迭代以及200次预模拟(burn-in)迭代。对于主题模型K是根据电子商务网站中细节描述信息中方面的个数进行确定。对于文档-方面的狄利克雷先验αi=50//+Δi,其中Δi是[0,5]之间的随机数。对于种子词的方面-词狄利克雷先验βs=0.5,普通词的方面-词狄利克雷先验βs=0.1。对于种子词的方面-词相关权重中的松弛因子λ=0.8。但本发明的实施方式及模型参数不限于此,可根据实际情况进行参数调节。
如图4所示,为所述细粒度的标记LDA模型的后验概率计算流程。基于吉布斯采样的模型推导算法详述如下:
变量定义:
设z为单词变量在方面变量上的分布;
设θ为模型中文档与方面的联合分布变量;
Figure BDA0000481801750000137
为模型中单词与方面的联合分布变量(模型中种子词集S和普通词集g中单词与方面的联合分布变量);
设α(αd)为θ的狄利克雷先验参数(在文档d中θ的狄利克雷先验参数);
设β(βs,βg)为
Figure BDA0000481801750000138
的狄利克雷先验参数(在种子词集S和普通词集g中
Figure BDA0000481801750000139
的狄利克雷先验参数);
Figure BDA0000481801750000131
是单词wi与种子方面sk的相关性;
Figure BDA0000481801750000132
为种子词wi是否属于种子方面sk的指示函数;
设V是单词的数目;
设K表示方面的个数,即种子集中方面的个数;
设D表示预料库中所有文档的全集;
设N为文档d中词的总个数;
设S为种子词集;
Figure BDA0000481801750000133
表示单词wi在方面zk的出现数目减去wi出现的数目;
Figure BDA0000481801750000134
表示文档d中的单词出现在方面zk的次数减去wi出现的数目;
Figure BDA0000481801750000135
表示所有单词在方面zk的出现数目减去wi出现的数目;
Figure BDA0000481801750000136
表示文档d中的单词出现在所有方面的次数减去去wi出现的数目。
1、初始化:对于第m篇文档中第n个词的方面进行分配,zm,n初始化为[1,K]之间的某个随机数k。根据文档标记l的方面类别初始化
Figure BDA00004818017500001310
其中α=(α1,…,αk),αi=50/K+Δi,K是种子方面的个数,Δi是[0,5]之间的随机数,
Figure BDA0000481801750000141
依次循环读入所有文档中的各个词,随机初始化各个词的方面类别k,然后文档-方面计数矩阵
Figure BDA0000481801750000142
“文档-所有方面”矩阵方面-词计数矩阵
Figure BDA0000481801750000144
以及“方面-所有词”矩阵
Figure BDA0000481801750000145
都自增1,此为马尔可夫链的初始状态。
吉布斯采样:对语料库中所有文档中的所有词进行循环迭代采样,对于第m篇文档中第n个词,首先获得上次采样时赋值的方面k;然后
Figure BDA0000481801750000146
都自减1并更新各个矩阵;接着根据公式:
P ( w , z | &alpha; , &beta; , &gamma; ) = &rho; k w i n - i , k w i + &beta; s n - i , k ( &CenterDot; ) + V&beta; s n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d , w i &Element; S , n - i , k w i + &beta; g n - i , k ( &CenterDot; ) + V&beta; g n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d , w i &NotElement; S ,
2、获得多项分布概率:该过程中,如果词w属于种子词,计算时需考虑方面-词的相关权重
Figure BDA0000481801750000148
采用上式中的第一个分式进行计算;如果w是普通词,则采用上式中的第二分式进行计算。接着,获取马尔可夫链的下一个状态,随机生成对于当前词的新方面分配
Figure BDA0000481801750000149
最后四个矩阵的值都自增1。
3、迭代收敛:迭代步骤2,采样前预模拟(burn-in)次迭代以便收敛到目标分布函数,此时对于各个词采样出来的方面类别不更新后验概率
Figure BDA00004818017500001412
在迭代数大于前预模拟后,采用下式对于各个词采样出的方面类别更新后验概率值
Figure BDA00004818017500001413
&theta; k d = n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d ,
Figure BDA00004818017500001416
为获得分布的期望,需继续迭代预定的总迭代次数进行多次样本采样,并以样本均值作为分布期望的近似值。
4、模型输出:当采样分布函数收敛或者预定的采样次数完成时,根据公式:
&theta; k d = n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d ,
获得各个文档文档-方面分布,根据公式:
Figure BDA0000481801750000151
获得各个方面中方面-词的分布,每个方面中的概率最大的一些词就是该方面中较典型的词。
本发明的目的是提取商品评论中商品的特征并将描述相同方面的消费者表达用语进行归类。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于领域信息的半监督方面自动提取方法,其特征在于,包括:
网络信息爬取,从电子商务网站上爬取消费者对于关注商品的评论,以及电子商务网站中对于商品半结构化的商品细节描述信息;
信息预处理,将爬取到的评论进行分词、词性标注和去除停顿词处理,并提取评论中的特征单词;
关键词提取,从电子商务网站中半结构化的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识;
评论文档重组,将评论中各个句子利用提取的所述关键词进行标记,然后将含有相同关键词的句子重新组合成新的文档,得到学习文档;
细粒度的标记LDA学习,通过半监督的LDA主题模型识别评论中的产品特征,将所述的产品特征的属于同一方面的特征进行归类;所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成分类,并获得顺序与种子词集中定义相一致的商品方面集;所述的方面-词的约束关系是指在评论中,关键词具有特定的方面倾向;
其中,所述方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以下三种定义中的任意一种定义:
第一种定义: &ForAll; w m &Element; p i , j , m &NotEqual; t , TFIDF m , i < TFIDF t , i ;
第二种定义: &ForAll; w m &Element; p i , j , m &NotEqual; t , ( TFIDF m , i = TFIDF t , i ) &cap; ( TF m , i < TF t , i ) ;
第三种定义: &Exists; w m &Element; p i , j , TFIDF t , i = 1 ;
式中,TFIDFm,i表示单词wt在ci中的TFIDF值,TFt,i表示单词wt在ci中的词频,DF表示单词wt在所有方面类别中的总词频。
2.根据权利要求1所述的基于领域信息的半监督方面自动提取方法,其特征在于,所述的细粒度的标记LDA学习包括以下步骤:
(5a)利用种子词集初始化词-主题相关性变量
Figure FDA0000481801740000011
相关性变量的设置表达式如下:
&rho; k w = &lambda; ( 1 + &epsiv; k w ) + ( 1 - &lambda; ) , &gamma; k w = 1 , 1 , &gamma; k w = 0 ,
其中,
Figure FDA0000481801740000021
表示单词w在种子方面集sk的词频,λ是松弛因子,所述松弛因子用于控制
Figure FDA0000481801740000022
的影响强度,
Figure FDA0000481801740000023
表示单词w是否属于种子方面集sk的指示函数,如果字符w属于种子方面集sk,则为1,否则为0,所述指示函数
Figure FDA0000481801740000024
的定义如下:
Figure FDA0000481801740000025
式中,sk表示种子方面集;
(5b)初始化狄利克雷先验概率参数:对于文档d的文档-方面狄利克雷先验参数αd
&alpha; d = &alpha; &times; &gamma; l d ,
其中,α=(α1,…,αk),αi=50/K+Δi,K是种子方面的个数,Δi是[0,5]之间的随机数,
Figure FDA0000481801740000026
对于种子词的方面–词的狄利克雷先验参数βs=0.5;对于普通词的方面-词的狄利克雷先验参数βg=0.1;
(5c)初始化后验概率
Figure FDA0000481801740000027
Figure FDA0000481801740000028
随机初始化单词在方面变量上的分布Z;
(5d)采用吉布斯采样方法估计概率P(w,z|α,β,γ)的值,所述概率P(w,z|α,β,γ)的计算公式如下:
P ( w , z | &alpha; , &beta; , &gamma; ) = &rho; k w i n - i , k w i + &beta; s n - i , k ( &CenterDot; ) + V&beta; s n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d , w i &Element; S , n - i , k w i + &beta; g n - i , k ( &CenterDot; ) + V&beta; g n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d , w i &NotElement; S ,
式中,
Figure FDA00004818017400000210
是单词wi与种子方面sk的相关性,αd是文档d的狄利克雷先验参数,V是单词的数目,K表示方面的个数,即种子集中方面的个数,βs是种子词的狄利克雷先验参数,βg是普通词的狄利克雷先验参数,
Figure FDA00004818017400000211
表示单词wi在方面zk的出现数目减去wi出现的数目,
Figure FDA00004818017400000212
表示文档d中的单词出现在方面zk的次数减去wi出现的数目,
Figure FDA00004818017400000213
表示所有单词在方面zk的出现数目减去wi出现的数目,
Figure FDA00004818017400000214
表示文档d中的单词出现在所有方面的次数减去wi出现的数目;
(5e)计算后验概率,所述后验概率包括
Figure FDA00004818017400000215
Figure FDA00004818017400000216
所述
Figure FDA00004818017400000217
的计算公式如下:
&theta; k d = n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d ,
式中,
Figure FDA0000481801740000032
表示方面k在文档d中的概率;
所述
Figure FDA0000481801740000033
的计算公式如下:
Figure FDA0000481801740000034
式中,
Figure FDA0000481801740000035
表示单词wi属于方面k的概率。
3.根据权利要求1所述的基于领域信息的半监督方面自动提取方法,其特征在于,所述的评论文档重组包括以下步骤:
(4a)将评论拆分为句子,并对包含了细节描述或种子词的句子,使用细节描述短语和种子词进行标记,如果某个句子同时包含了单词ti和tj,当tj为ti的字串时,该句子只会被标记为ti
(4b)将包含了相同字符串标记的句子重新组合成新的文档。
4.根据权利要求1所述的基于领域信息的半监督方面自动提取方法,其特征在于,所述的网络信息爬取包括以下步骤:
(1a)利用Scrapy爬虫引擎打开一个域名,定位出处理该域名的蜘蛛,所述蜘蛛指用户自定义的类,用于从解析回应、提取网页中相应的项或者提取出特定的URL用于后续爬取,Scrapy爬虫引擎再请求蜘蛛提供种子URL;
(1b)引擎从蜘蛛获取种子URL,再包装为请求在调度器中进行调度,引擎从调度器获取下一个待爬取的请求;
(1c)调度器将下一个待爬取的请求返回给引擎,引擎将下一个待爬取的请求发送到下载器;
(1d)当网页被下载器下载完成以后,把响应内容发送到引擎;
(1e)引擎在收到下载器的响应内容后,将响应内容发送到蜘蛛进行处理;
(1f)蜘蛛处理响应内容并返回爬取到的项,然后给引擎发送新的请求;
(1g)引擎将抓取到的项放入项目流水线,并向调度器发送请求;
(1h)重复执行步骤(1b)至(1g),直到调度器中所有请求都完成为止,最后断开引擎与域之间的联系。
5.根据权利要求1所述的基于领域信息的半监督方面自动提取方法,其特征在于,所述的信息预处理包括以下步骤:
(2a)对于英文,首先将所有字符转换为小写,再将所有评论进行分词及词性标注;对于中文,直接对评论进行分词及词性标注;
(2b)对于英文,去除停顿词、包含数字和URL的字符串,再将所有单词进行词干化以得到单词原型,最后提取词性为名词或名词短语的单词作为评论文档的特征词;对于中文,直接提取词性为名词或名词短语的单词作为评论文档的特征词;
所述的关键词提取包括以下步骤:
(3a)对于每一个商品细节描述短语进行分词、去除数字、标点符号和停顿词处理;
(3b)遍历所有细节描述短语中的各个单词,计算出每个单词wm在各个方面类别ci中的词频、TFIDF值,并记录下每个类别ci中的最大词频和TFIDF值;
(3c)遍历每个商品方面ci中每个描述短语pi,j的单词wt,判断wt是否是pi,j中拥有最大TFIDF值的词且pi,j中只有唯一的单词拥有最大的TFIDF值,如果是,则将wt加入到方面类别ci的种子词集si;否则,判断wt是否是pi,j中拥有最大TF值的词且pi,j中只有唯一的单词拥有最大的TF值,如果是,则将wt加入到方面类别ci的种子词集si;否则,判断wt的TFIDF值是否等于1,如果是,则将wt加入到方面类别ci的种子词集si;否则,将wt排除在方面ci的种子词集si之外。
6.基于领域信息的半监督方面自动提取系统,其特征在于,包括:
网络信息爬取模块,用于从电子商务网站上爬取消费者对于关注商品的评论,以及电子商务网站中对于商品的半结构化的商品细节描述信息;
信息预处理模块,用于将爬取到的评论进行分词、词性标注、去除停顿词,提取评论中的特征单词处理;
关键词提取模块,用于从电子商务网站中半结构的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识;
评论文档重组模块,用于将评论中各个句子利用提取的所述关键词进行标记,然后将含有相同关键词的句子重新组合成新的文档,得到学习文档;
细粒度的标记LDA学习模块,用于通过半监督的LDA主题模型识别评论中的产品特征并将所述的产品特征的属于同一方面的特征进行归类;所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成分类,并获得顺序和种子词集中定义相一致的商品方面集;所述的方面-词的约束关系是指在评论中,关键词具有特定的方面倾向;
其中,所述方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以下三种定义中的任意一种定义:
第一种定义: &ForAll; w m &Element; p i , j , m &NotEqual; t , TFIDF m , i < TFIDF t , i ;
第二种定义: &ForAll; w m &Element; p i , j , m &NotEqual; t ( TFIDF m , i = TFIDF t , i ) &cap; ( TF m , i < TF t , i ) ;
第三种定义: &Exists; w m &Element; p i , j , TFIDF t , i = 1 ;
式中,TFIDFm,i表示单词wt在ci中的TFIDF值,TFt,i表示单词wt在ci中的词频,DF表示单词wt在所有方面类别中的总词频。
7.根据权利要求6所述的基于领域信息的半监督方面自动提取系统,其特征在,所述的细粒度的标记LDA学习模块具体用于:
利用种子词集初始化词-主题相关性变量
Figure FDA0000481801740000051
所述相关性变量
Figure FDA0000481801740000052
的设置表达式如下:
&rho; k w = &lambda; ( 1 + &epsiv; k w ) + ( 1 - &lambda; ) , &gamma; k w = 1 , 1 , &gamma; k w = 0 ,
其中,表示单词w在种子方面集sk的词频,λ是松弛因子用于控制的影响强度,
Figure FDA0000481801740000056
表示单词w是否种子方面集sk的指示函数,如果字符w属于种子方面集sk,则为1,否则为0,所述指示函数的定义如下:
Figure FDA0000481801740000058
式中,sk表示种子方面集;
初始化狄利克雷先验概率参数,对于文档d的文档-方面狄利克雷先验参数
Figure FDA00004818017400000514
其中,α=(α1,…,αk),αi=50/K+Δi,K是种子方面的个数,Δi是[0,5]之间的随机数,
Figure FDA0000481801740000059
对于种子词的方面–词的狄利克雷先验参数βs=0.5;对于普通词的方面-词的狄利克雷先验参数βg=0.1;
初始化后验概率
Figure FDA00004818017400000510
随机初始化单词在方面变量上的分布Z;
采用吉布斯采样方法估计概率P(w,z|α,β,γ)的值,所述概率P(w,z|α,β,γ)的计算公式如下:
P ( w , z | &alpha; , &beta; , &gamma; ) = &rho; k w i n - i , k w i + &beta; s n - i , k ( &CenterDot; ) + V&beta; s n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d , w i &Element; S , n - i , k w i + &beta; g n - i , k ( &CenterDot; ) + V&beta; g n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d , w i &NotElement; S ,
其中,
Figure FDA0000481801740000062
是单词wi与种子方面sk的相关性,αd是文档d的狄利克雷先验参数,V是单词的数目,K表示方面的个数,即种子集中方面的个数,βs是种子词的狄利克雷先验参数,βg是普通词的狄利克雷先验参数,
Figure FDA0000481801740000063
表示单词wi在方面zk的出现数目减去wi出现的数目,
Figure FDA0000481801740000064
表示文档d中的单词出现在方面zk的次数减去wi出现的数目,
Figure FDA0000481801740000065
表示所有单词在方面zk的出现数目减去wi出现的数目,
Figure FDA0000481801740000066
表示文档d中的单词出现在所有方面的次数减去wi出现的数目;
计算后验概率,所述后验概率包括
Figure FDA0000481801740000067
Figure FDA0000481801740000068
所述
Figure FDA0000481801740000069
的计算公式如下:
&theta; k d = n - i , k d + &alpha; d n - i ( &CenterDot; ) d + K&alpha; d ,
式中,
Figure FDA00004818017400000611
表示方面k在文档d中的概率;
所述
Figure FDA00004818017400000612
的计算公式如下:
式中,
Figure FDA00004818017400000614
表示单词wi属于方面k的概率。
8.根据权利要求6所述的基于领域信息的半监督方面自动提取系统,其特征在,所述的评论文档重组模块具体用于:
将评论拆分为句子,并对包含了细节描述或种子词的句子使用细节描述短语和种子词进行标记,如果某个句子同时包含了单词ti和tj,当tj为ti的字串时,该句子只会被标记为ti
将包含了相同字符串标记的句子重新组合成新的文档。
9.根据权利要求6所述的基于领域信息的半监督方面自动提取系统,其特征在,所述的网络信息爬取模块具体用于:
利用Scrapy爬虫引擎打开一个域名,定位出处理该域名的蜘蛛,再请求蜘蛛提供种子URL,所述的蜘蛛指用户自定义的类,用于从解析回应、提取网页中相应的项或者提取出特定的URL用于后续爬取;
引擎从蜘蛛获取种子URL,再包装为请求在调度器中进行调度,最后引擎从调度器获取下一个待爬取的请求;
调度器将下一个待爬取的请求返回给引擎,引擎将下一个待爬取的请求发送到下载器;
当网页被下载器下载完成以后,把响应内容发送到引擎;
引擎在收到下载器的响应内容后,将响应内容发送到蜘蛛进行处理;
蜘蛛处理响应内容并返回爬取到的项,然后给引擎发送新的请求;
引擎将抓取到的项放入项目流水线并向调度器发送请求;
依次重复执行
引擎蜘蛛获取种子URL,再包装为请求在调度器中进行调度,引擎从调度器获取下一个待爬取的请求;
调度器将下一个待爬取的请求返回给引擎,引擎将下一个待爬取的请求发送到下载器;
当网页被下载器下载完成以后,把响应内容发送到引擎;
引擎在收到下载器的响应内容后,将响应内容发送到蜘蛛进行处理;
蜘蛛处理响应内容并返回爬取到的项,然后给引擎发送新的请求;以及
引擎将抓取到的项放入项目流水线并向调度器发送请求,直到调度器中所有请求都完成为止,最后断开引擎与域之间联系。
10.根据权利要求6所述的基于领域信息的半监督方面自动提取系统,其特征在,所述的信息预处理模块具体用于:
对于英文,首先将所有字符转换为小写,再将所有评论进行分词及词性标注;对于中文,直接对评论进行分词及词性标注;
对于英文,去除停顿词、包含数字和URL的字符串,再将所有单词进行词干化以得到单词原型,最后提取词性为名词或名词短语的单词作为评论文档的特征词;对于中文,直接提取词性为名词或名词短语的单词作为评论文档的特征词;
所述的关键词提取模块具体用于:
对于每一个商品细节描述短语进行分词、去除数字、标点符号和停顿词处理;
遍历所有细节描述短语中的各个单词,计算出每个单词wm在各个方面类别ci中的词频、TFIDF值,并记录下每个类别ci中的最大词频和TFIDF值;
遍历每个商品方面ci中每个描述短语pi,j的单词wt,判断wt是否是pi,j中拥有最大TFIDF值的词且pi,j中只有唯一的单词拥有最大的TFIDF值,如果是,则将wt加入到方面ci的种子词集si;否则,判断wt是否是pi,j中拥有最大TF值的词且pi,j中只有唯一的单词拥有最大的TF值,如果是,则将wt加入到方面ci的种子词集si;否则,判断wt的TFIDF值是否等于1,如果是,则将wt加入到方面ci的种子词集si;否则,将wt排除在方面ci的种子词集si之外。
CN201410114328.6A 2014-03-25 2014-03-25 基于领域信息的半监督方面自动提取方法及其系统 Active CN103903164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410114328.6A CN103903164B (zh) 2014-03-25 2014-03-25 基于领域信息的半监督方面自动提取方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410114328.6A CN103903164B (zh) 2014-03-25 2014-03-25 基于领域信息的半监督方面自动提取方法及其系统

Publications (2)

Publication Number Publication Date
CN103903164A true CN103903164A (zh) 2014-07-02
CN103903164B CN103903164B (zh) 2017-06-06

Family

ID=50994472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410114328.6A Active CN103903164B (zh) 2014-03-25 2014-03-25 基于领域信息的半监督方面自动提取方法及其系统

Country Status (1)

Country Link
CN (1) CN103903164B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361033A (zh) * 2014-10-27 2015-02-18 深圳职业技术学院 一种癌症相关信息自动收集方法及系统
CN105630788A (zh) * 2014-10-28 2016-06-01 佳能株式会社 用于确定具有区别性事实的近似判断的方法和装置
CN105912525A (zh) * 2016-04-11 2016-08-31 天津大学 基于主题特征的半监督学习情感分类方法
CN105938481A (zh) * 2016-04-07 2016-09-14 北京航空航天大学 一种城市多模式文本数据的异常检测方法
CN106919997A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
CN106970988A (zh) * 2017-03-30 2017-07-21 联想(北京)有限公司 数据处理方法、装置及电子设备
CN107657056A (zh) * 2017-10-18 2018-02-02 北京百度网讯科技有限公司 基于人工智能展示评论信息的方法和装置
CN108984532A (zh) * 2018-07-27 2018-12-11 福州大学 基于层次嵌入的方面抽取方法
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及系统
WO2019085332A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 金融数据分析方法、应用服务器及计算机可读存储介质
CN109857942A (zh) * 2019-03-14 2019-06-07 北京百度网讯科技有限公司 用于处理文档的方法、装置、设备和存储介质
CN109977094A (zh) * 2019-01-30 2019-07-05 中南大学 一种用于结构化数据的半监督学习的方法
CN110134934A (zh) * 2018-02-02 2019-08-16 普天信息技术有限公司 文本情感分析方法和装置
CN110188189A (zh) * 2019-05-21 2019-08-30 浙江工商大学 一种基于知识的自适应事件索引认知模型提取文档摘要的方法
CN110299206A (zh) * 2018-03-21 2019-10-01 华东师范大学 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法
CN111966888A (zh) * 2019-05-20 2020-11-20 南京大学 融合外部数据的基于方面类别的可解释性推荐方法及系统
CN112069807A (zh) * 2020-11-11 2020-12-11 平安科技(深圳)有限公司 文本数据的主题提取方法、装置、计算机设备及存储介质
CN112989056A (zh) * 2021-04-30 2021-06-18 中国人民解放军国防科技大学 基于方面特征的虚假评论识别方法及装置
CN113761911A (zh) * 2021-03-17 2021-12-07 中科天玑数据科技股份有限公司 一种基于弱监督的领域文本标注方法
US11281702B2 (en) 2018-09-28 2022-03-22 Wipro Limited System and method for retrieving one or more documents

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60318471T2 (de) * 2002-10-15 2008-12-24 Definiens Ag Extraktion von wissen mittels eines objektbasierten semantischen netzes
CN102346753A (zh) * 2010-08-01 2012-02-08 青岛理工大学 一种融合成对约束和关键词的半监督文本聚类方法及装置
TW201301117A (zh) * 2011-06-29 2013-01-01 Tai-Sheng Chen 即時反應資訊系統及其處理方法
CN103092956B (zh) * 2013-01-17 2016-02-10 上海交通大学 社交网络平台上话题关键词自适应扩充的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋施恩 等: "基于词共现和词上下文的领域观点词抽取方法", 《计算机工程与设计》 *
李素科 等: "基于情感特征聚类的半监督情感分类", 《计算机研究与发展》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361033A (zh) * 2014-10-27 2015-02-18 深圳职业技术学院 一种癌症相关信息自动收集方法及系统
CN104361033B (zh) * 2014-10-27 2017-06-09 深圳职业技术学院 一种癌症相关信息自动收集方法及系统
CN105630788A (zh) * 2014-10-28 2016-06-01 佳能株式会社 用于确定具有区别性事实的近似判断的方法和装置
CN105630788B (zh) * 2014-10-28 2019-05-03 佳能株式会社 用于确定具有区别性事实的近似判断的方法和装置
CN106919997A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
CN105938481A (zh) * 2016-04-07 2016-09-14 北京航空航天大学 一种城市多模式文本数据的异常检测方法
CN105912525A (zh) * 2016-04-11 2016-08-31 天津大学 基于主题特征的半监督学习情感分类方法
CN106970988A (zh) * 2017-03-30 2017-07-21 联想(北京)有限公司 数据处理方法、装置及电子设备
US11468108B2 (en) 2017-03-30 2022-10-11 Lenovo (Beijing) Limited Data processing method and apparatus, and electronic device thereof
CN107657056A (zh) * 2017-10-18 2018-02-02 北京百度网讯科技有限公司 基于人工智能展示评论信息的方法和装置
WO2019085332A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 金融数据分析方法、应用服务器及计算机可读存储介质
CN110134934A (zh) * 2018-02-02 2019-08-16 普天信息技术有限公司 文本情感分析方法和装置
CN110299206A (zh) * 2018-03-21 2019-10-01 华东师范大学 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法
CN108984532A (zh) * 2018-07-27 2018-12-11 福州大学 基于层次嵌入的方面抽取方法
US11281702B2 (en) 2018-09-28 2022-03-22 Wipro Limited System and method for retrieving one or more documents
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及系统
CN109977094B (zh) * 2019-01-30 2021-02-19 中南大学 一种用于结构化数据的半监督学习的方法
CN109977094A (zh) * 2019-01-30 2019-07-05 中南大学 一种用于结构化数据的半监督学习的方法
CN109857942A (zh) * 2019-03-14 2019-06-07 北京百度网讯科技有限公司 用于处理文档的方法、装置、设备和存储介质
CN111966888A (zh) * 2019-05-20 2020-11-20 南京大学 融合外部数据的基于方面类别的可解释性推荐方法及系统
CN111966888B (zh) * 2019-05-20 2023-12-15 南京大学 融合外部数据的基于方面类别的可解释性推荐方法及系统
CN110188189B (zh) * 2019-05-21 2021-10-08 浙江工商大学 一种基于知识的自适应事件索引认知模型提取文档摘要的方法
CN110188189A (zh) * 2019-05-21 2019-08-30 浙江工商大学 一种基于知识的自适应事件索引认知模型提取文档摘要的方法
CN112069807A (zh) * 2020-11-11 2020-12-11 平安科技(深圳)有限公司 文本数据的主题提取方法、装置、计算机设备及存储介质
CN113761911A (zh) * 2021-03-17 2021-12-07 中科天玑数据科技股份有限公司 一种基于弱监督的领域文本标注方法
CN112989056A (zh) * 2021-04-30 2021-06-18 中国人民解放军国防科技大学 基于方面特征的虚假评论识别方法及装置
CN112989056B (zh) * 2021-04-30 2021-07-30 中国人民解放军国防科技大学 基于方面特征的虚假评论识别方法及装置

Also Published As

Publication number Publication date
CN103903164B (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN103903164A (zh) 基于领域信息的半监督方面自动提取方法及其系统
Saad et al. Twitter sentiment analysis based on ordinal regression
Cao et al. A cross-media public sentiment analysis system for microblog
Barushka et al. Review spam detection using word embeddings and deep neural networks
Lai et al. Fine-grained emotion classification of Chinese microblogs based on graph convolution networks
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
Wahid et al. Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
Lin et al. Rumor detection with hierarchical recurrent convolutional neural network
Gao et al. CE-HEAT: an aspect-level sentiment classification approach with collaborative extraction hierarchical attention network
Shi et al. A hierarchical lstm model with multiple features for sentiment analysis of sina weibo texts
Yuan et al. Twitter sentiment analysis with recursive neural networks
Ahmed et al. Bangla document categorization using deep RNN model with attention mechanism
Aldoğan et al. A comparison study on active learning integrated ensemble approaches in sentiment analysis
CN111813939A (zh) 一种基于表征增强与融合的文本分类方法
Saha et al. Sentiment Classification in Bengali News Comments using a hybrid approach with Glove
Khanvilkar et al. Smart recommendation system based on product reviews using Random Forest
Bhuvan et al. Semantic sentiment analysis using context specific grammar
Farhangi et al. Protoformer: Embedding prototypes for transformers
Lim et al. Comparing Machine Learning and Deep Learning Based Approaches to Detect Customer Sentiment from Product Reviews
Kalaivani et al. Machine learning approach to analyze classification result for twitter sentiment
Khan et al. A customized deep learning-based framework for classification and analysis of social media posts to enhance the Hajj and Umrah services
Chen et al. Mining E-commercial data: A text-rich heterogeneous network embedding approach
Gadri et al. An efficient system to predict customers’ satisfaction on touristic services using ML and DL approaches
Wang et al. An Opinion Spam Detection Method Based on Multi-Filters Convolutional Neural Network.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant