CN103903164A

CN103903164A - 基于领域信息的半监督方面自动提取方法及其系统

Info

Publication number: CN103903164A
Application number: CN201410114328.6A
Authority: CN
Inventors: 蔡毅; 王涛; 梁浩锋; 闵华清
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2014-03-25
Filing date: 2014-03-25
Publication date: 2014-07-02
Anticipated expiration: 2034-03-25
Also published as: CN103903164B

Abstract

本发明公开了一种基于领域信息的半监督方面自动提取方法，包括：网络信息爬取、信息预处理、关键词提取、评论文档重组和细粒度的标记LDA学习；本发明还公开了一种基于领域信息的半监督方面自动提取系统，包括：网络信息爬取模块、信息预处理模块、关键词提取模块、评论文档重组模块和细粒度的标记LDA学习模块。本发明可以使得提取出来的商品各个方面的描述更加明确、方面之间的区别更加清晰；另外，本发明生成的方面结构（顺序和内容）能与预先定义在种子词集中的商品方面结构保持一致，从而，本发明具有能有效地将消费者描述同一商品方面的不同用语进行语义聚类，并可以在对商品进行观点挖掘时减少人工干预等优点。

Description

基于领域信息的半监督方面自动提取方法及其系统

技术领域

本发明涉及一种商品观点挖掘技术，特别涉及一种基于领域信息的半监督方面自动提取方法及其系统。

背景技术

随着电子商务的日益普及，越来越多的消费者都选择在网上购买商品和服务，尤其是近几年的蓬勃发展，不同模式（B2B、B2C、C3C等）、不同领域的各类型电子商务网站不断涌现，竞争不断加剧，用户需求也不断提高。生产和销售厂商总是试图及时获取公众或消费者对它们产品和服务的评价观点以提升产品质量及销量；而潜在的消费者在享受一种服务或购买一种产品之前，也想知道当前消费者的评价观点，以便选择真正适合自身的产品。通过对网络上大量的消费者评论反馈进行自动化的观点挖掘有助于解决上述问题，自动化的观点挖掘有以下三个方面的优势：首先，该方法总结的结果可以避免用手工阅卷中公司的人员变动使得评价结果出现不一致的现象。其次，该类系统可以近实时地从网上吸收大量的信息进行分析，这使得调查成本相对较低。第三，观点挖掘系统还可以处理多种语言的文档，这在传统方法中，对于一般人员是很难达到掌握多种语言的要求。然而，在当前主流的观点挖掘框架中，对于商品方面的提取往往是整个框架的瓶颈，因为该步骤需要将描述相同商品方面的不同用语进行语义归类。此问题是目前该领域的一个研究热点。

当前商品方面提取的方法主要有：基于频繁字符串和基于主题模型（topicmodel）的挖掘算法。前者的主要不足是不能将描述同一商品方面的语义相关的用语进行归类，这导致该类方法无法用一种有结构的方式帮助用户快速、直观地了解商品的各个方面特征；对于后者，大部分方法采用的是无监督式的学习方式，这导致了以下的缺点与不足：

1.模型生成方面的粒度和分类标准可能与人的认知习惯相悖，使得结果难以被理解。

2.无监督模型每次生成的方面序列不能保持一个稳定的结构，导致难以在自动化的分析算法中应用。

3.由于大部分评论都包含相同或相似的商品方面，这将使得基于单词共现性原理的主题模型方法难以将各个相关但不同的方面清晰地加以区分。

因此，为了更有效地从商品评论中提取商品方面，需要引入一些先验知识来监督主题模型的学习过程，使得模型提取出来的商品方面分类更加清晰、更好地满足人们的认知习惯、并以一种较稳定的结构输出。

发明内容

本发明的首要目的在于克服现有技术的缺点与不足，提供一种基于领域信息的半监督方面自动提取方法，该方法通过同时在文档层次和词层次对LDA模型进行标记学习，可以使得提取出来的各个商品方面的相关的信息描述得更加明确，方面之间的区别更加清晰。

本发明的另一目的在于克服现有技术的缺点与不足，提供一种基于领域信息的半监督方面自动提取系统，该系统能与预先定义的方面种子词的结构保持一致，从而有效地将消费者描述同一商品方面的不同用语进行语义聚类，并可以在对商品进行观点挖掘时减少人工干预。

本发明的首要目的通过下述技术方案实现：基于领域信息的半监督方面自动提取方法，包括：

网络信息爬取，从电子商务网站上爬取消费者对于关注商品的评论，以及电子商务网站中对于商品半结构化的商品细节描述信息；

信息预处理，将爬取到的评论进行分词、词性标注和去除停顿词处理，并提取评论中的特征单词；

关键词提取，从电子商务网站中半结构化的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集，获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识；

评论文档重组，将评论中各个句子利用提取的所述关键词进行标记，然后将含有相同关键词的句子重新组合成新的文档，得到主题鲜明、共现商品方面较少的学习文档；

细粒度的标记LDA学习，通过半监督的LDA主题模型识别评论中的产品特征，将所述的产品特征的属于同一方面的特征进行归类；所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成更加易于理解、清晰的分类，并获得顺序和种子词集中定义相一致的商品方面集；所述的方面-词的约束关系是指在评论中，关键词具有特定的方面倾向，如：“LCD”更多的是用来描述“屏幕”方面；

其中，所述方面类别c_i中的第j个细节描述短语p_i,j中的关键词w_t的定义为以下三种定义中的任意一种定义：

第一种定义：

{&ForAll; w}_{m} &Element; p_{i, j}, m &NotEqual; t, {TFIDF}_{m, i} < {TFIDF}_{t, i};

第二种定义：

{&ForAll; w}_{m} &Element; p_{i, j}, m &NotEqual; t ({TFIDF}_{m, i} = {TFIDF}_{t, i}) \cap ({TF}_{m, i} < {TF}_{t, i});

第三种定义：

{&Exists; w}_{m} &Element; p_{i, j}, {TFIDF}_{t, i} = 1;

式中，TFIDF_m,i表示单词w_t在c_i中的TFIDF（term frequency–inverse documentfrequency）值，TF_t,i表示单词w_t在c_i中的词频（term frequency），DF表示单词w_t在所有方面类别中的总词频。

所述的细粒度的标记LDA学习包括以下步骤：

（5a）利用种子词集初始化词-主题相关性变量

相关性变量

的设置表达式如下：

ρ_{k}^{w} = \{\begin{matrix} λ (1 + ϵ_{k}^{w}) + (1 - λ), γ_{k}^{w} = 1, \\ 1, γ_{k}^{w} = 0, \end{matrix}

其中，

表示单词w在种子方面集s_k的词频，λ是松弛因子，所述松弛因子用于控制的影响强度，

表示单词w是否种子方面集s_k的指示函数，如果字符w属于种子方面集s_k，则为1，否则为0，指示函数

的定义如下：

式中，s_k表示种子方面集；

（5b）初始化狄利克雷（Dirichlet）先验概率参数：对于文档d的文档-方面狄利克雷先验参数α_d：

α_{d} = α \times γ^{l_{d}},

其中，α＝(α₁,…,α_k)，α_i＝50/K+Δ_i，K是种子方面的个数，Δ_i是[0,5]之间的随机数，

对于种子词的方面–词的狄利克雷先验参数β^s＝0.5；对于普通词的方面-词的狄利克雷先验参数β^g＝0.1；

（5c）初始化后验概率

随机初始化单词在方面变量上的分布Z；

（5d）采用吉布斯采样方法估计概率P(w,z|α,β,γ)的值，所述概率P(w,z|α,β,γ)的计算公式如下：

P (w, z | α, β, γ) = \{\begin{matrix} ρ_{k}^{w_{i}} \frac{n_{- i, k}^{w_{i}} + β^{s}}{n_{- i, k}^{(\cdot)} + {Vβ}^{s}} \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}}, & w_{i} &Element; S, \\ \frac{n_{- i, k}^{w_{i}} + β^{g}}{n_{- i, k}^{(\cdot)} + {Vβ}^{g}} \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}}, & w_{i} &NotElement; S, \end{matrix}

式中，

是单词w_i与种子方面s_k的相关性，α_d是文档d的狄利克雷先验参数，V是单词的数目，K表示方面的个数，即种子集中方面的个数，β^s是种子词的狄利克雷先验参数，β^g是普通词的狄利克雷先验参数，

表示单词w_i在方面z_k的出现数目减去w_i出现的数目，

表示文档d中的单词出现在方面z_k的次数减去w_i出现的数目，

表示所有单词在方面z_k的出现数目减去w_i出现的数目，

表示文档d中的单词出现在所有方面的次数减去w_i出现的数目；

（5e）根据分布变量Z，计算后验概率，所述后验概率包括和

所述

的计算公式如下：

θ_{k}^{d} = \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}},

式中，

表示方面k在文档d中的概率；

所述

的计算公式如下：

式中，

表示单词w_i属于方面k的概率。

所述的评论文档重组包括以下步骤：

（4a）将评论拆分为句子，并对包含了细节描述或种子词的句子，使用细节描述短语和种子词进行标记，如果某个句子同时包含了单词t_i和t_j，当t_j为t_i的字串时，该句子只会被标记为t_i；

（4b）将包含了相同字符串标记的句子重新组合成新的文档。

所述的网络信息爬取包括以下步骤：

（1a）利用Scrapy爬虫引擎打开一个域名，定位出处理该域名的蜘蛛，所述的蜘蛛指用户自定义的类，用于从解析回应、提取网页中相应的项或者提取出特定的URL用于后续爬取，Scrapy爬虫引擎再请求蜘蛛提供种子URL；

（1b）引擎从蜘蛛获取种子URL，再包装为请求在调度器中进行调度，引擎从调度器获取下一个待爬取的请求；

（1c）调度器将下一个待爬取的请求返回给引擎，然后引擎将它们发送到下载器；

（1d）当网页被下载器下载完成以后，把响应内容发送到引擎；

（1e）引擎在收到下载器的响应内容后，将响应内容发送到蜘蛛进行处理；

（1f）蜘蛛处理响应内容并返回爬取到的项，然后给引擎发送新的请求；

（1g）引擎将抓取到的项放入项目流水线，并向调度器发送请求。

（1h）重复执行步骤（1b）至（1g），直到调度器中所有请求都完成为止，最后断开引擎与域之间的联系。

所述的信息预处理包括以下步骤：

（2a）对于英文，首先将所有字符转换为小写，再将所有评论进行分词及词性标注；对于中文，直接对评论进行分词及词性标注；

（2b）对于英文，去除停顿词、包含数字和URL的字符串，再将所有单词进行词干化以得到单词原型，最后提取词性为名词或名词短语的单词作为评论文档的特征词；对于中文，直接提取词性为名词或名词短语的单词作为评论文档的特征词；

所述的关键词提取包括以下步骤：

（3a）对于每一个商品细节描述短语进行分词、去除数字、标点符号和停顿词处理；

（3b）遍历所有细节描述短语中的各个单词，计算出每个单词w_m在各个方面类别c_i中的词频、TFIDF值，并记录下每个类别c_i中的最大词频和TFIDF值；

（3c）遍历每个商品方面c_i中每个描述短语p_i,j中各个单词w_t，判断w_t是否是p_i,j中拥有最大TFIDF值的词且p_i,j中只有唯一的单词拥有最大的TFIDF值，如果是，则将w_t加入到方面c_i的种子词集s_i；否则，判断w_t是否是p_i,j中拥有最大TF值的词且p_i,j中只有唯一的单词拥有最大的TF值，如果是，则将w_t加入到方面c_i的种子词集s_i；否则，判断w_t的TFIDF值是否等于1，如果是，则将w_t加入到方面cx的种子词集s_i；否则，将w_t排除在方面c_i的种子词集s_i之外。

本发明的另一目的通过下述技术方案实现：基于领域信息的半监督方面自动提取系统，包括：

网络信息爬取模块，用于从电子商务网站上爬取消费者对于关注商品的评论，以及电子商务网站中对于商品的半结构化的商品细节描述信息；

信息预处理模块，用于将爬取到的评论进行分词、词性标注、去除停顿词，提取评论中的特征单词；

关键词提取模块，用于从电子商务网站中半结构的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集，获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识；

评论文档重组模块，用于将评论中各个句子利用提取的所述关键词进行标记，然后将含有相同关键词的句子重新组合成新的文档，得到主题鲜明、共现商品方面较少的学习文档；

细粒度的标记LDA学习模块，用于通过半监督的LDA主题模型识别评论中的产品特征并将所述的产品特征的属于同一方面的特征进行归类；所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成更加易于理解、清晰的分类，并获得顺序和种子词集中定义相一致的商品方面集；所述的方面-词的约束关系是指在评论中，关键词具有特定的方面倾向，如：“LCD”更多的是用来描述“屏幕”方面；

第一种定义：

{&ForAll; w}_{m} &Element; p_{i, j}, m &NotEqual; t, {TFIDF}_{m, i} < {TFIDF}_{t, i};

第二种定义：

{&ForAll; w}_{m} &Element; p_{i, j}, m &NotEqual; t ({TFIDF}_{m, i} = {TFIDF}_{t, i}) \cap ({TF}_{m, i} < {TF}_{t, i});

第三种定义：

{&Exists; w}_{m} &Element; p_{i, j}, {TFIDF}_{t, i} = 1;

所述的细粒度的标记LDA学习模块具体用于：

利用种子词集初始化词-主题相关性变量

所述相关性变量

的设置表达式如下：

ρ_{k}^{w} = \{\begin{matrix} λ (1 + ϵ_{k}^{w}) + (1 - λ), γ_{k}^{w} = 1, \\ 1, γ_{k}^{w} = 0, \end{matrix}

其中，

表示单词w在种子方面集s_k的词频，λ是松弛因子用于控制的影响强度，表示单词w是否种子方面集s_k的指示函数，如果字符w属于种子方面集s_k，则为1，否则为0，指示函数

的定义如下：

式中，s_k表示种子方面集；

初始化狄利克雷（Dirichlet）先验概率参数，对于文档d的文档-方面狄利克雷先验参数

其中α=(α₁,…,α_k)，α_i＝50/K+Δ_i，K是种子方面的个数，Δ_i是[0,5]之间的随机数，对于种子词的方面–词的狄利克雷先验参数β^s＝0.5；对于普通词的方面-词的狄利克雷先验参数β^g＝0.1；

初始化后验概率

随机初始化单词在方面变量上的分布Z；

采用吉布斯采样方法估计概率P(w,z|α,β,γ)的值，所述概率P(w,z|α,β,γ)的计算公式如下：

P (w, z | α, β, γ) = \{\begin{matrix} ρ_{k}^{w_{i}} \frac{n_{- i, k}^{w_{i}} + β^{s}}{n_{- i, k}^{(\cdot)} + {Vβ}^{s}} \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}}, & w_{i} &Element; S, \\ \frac{n_{- i, k}^{w_{i}} + β^{g}}{n_{- i, k}^{(\cdot)} + {Vβ}^{g}} \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}}, & w_{i} &NotElement; S, \end{matrix}

其中，

表示单词w_i在方面z_k的出现数目减去w_i出现的数目，表示文档d中的单词出现在方面z_k的次数减去w_i出现的数目，表示所有单词在方面z_k的出现数目减去w_i出现的数目，

根据分布变量Z，计算后验概率，所述后验概率包括

和

所述的计算公式如下：

θ_{k}^{d} = \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}},

式中，

表示方面k在文档d中的概率；

所述

的计算公式如下：

式中，

表示单词w_i属于方面k的概率。

所述的评论文档重组模块具体用于：

将评论拆分为句子，并对包含了细节描述或种子词的句子使用细节描述短语和种子词进行标记，如果某个句子同时包含了单词t_i和t_j，当t_j为t_i的字串时，该句子只会被标记为t_i；

将包含了相同字符串标记的句子重新组合成新的文档。

所述的网络信息爬取模块具体用于：

利用Scrapy爬虫引擎打开一个域名，定位出处理该域名的蜘蛛，再请求蜘蛛提供种子URL，所述的蜘蛛指用户自定义的类，用于从解析回应、提取网页中相应的项或者提取出特定的URL用于后续爬取；

引擎从蜘蛛获取种子URL，再包装为请求在调度器中进行调度，最后引擎从调度器获取下一个待爬取的请求；

调度器将下一个待爬取的请求返回给引擎，然后引擎将它们发送到下载器；

当网页被下载器下载完成以后，把响应内容发送到引擎；

引擎在收到下载器的响应内容后，将响应内容发送到蜘蛛进行处理；

蜘蛛处理响应内容并返回爬取到的项，然后给引擎发送新的请求；

引擎将抓取到的项放入项目流水线并向调度器发送请求；

依次重复执行

引擎蜘蛛获取种子URL，再包装为请求在调度器中进行调度，引擎从调度器获取下一个待爬取的请求；

当网页被下载器下载完成以后，把响应内容发送到引擎；

蜘蛛处理响应内容并返回爬取到的项，然后给引擎发送新的请求；以及

引擎将抓取到的项放入项目流水线并向调度器发送请求，直到调度器中所有请求都完成为止，最后断开引擎与域之间联系。

所述的信息预处理模块具体用于：

对于英文，首先将所有字符转换为小写，再将所有评论进行分词及词性标注；对于中文，直接对评论进行分词及词性标注；

对于英文，去除停顿词、包含数字和URL的字符串，再将所有单词进行词干化以得到单词原型，最后提取词性为名词或名词短语的单词作为评论文档的特征词；对于中文，直接提取词性为名词或名词短语的单词作为评论文档的特征词；

所述的关键词提取模块具体用于：

对于每一个商品细节描述短语进行分词、去除数字、标点符号和停顿词处理；

遍历所有细节描述短语中的各个单词，计算出每个单词w_m在各个方面类别c_i中的词频、TFIDF值，并记录下每个类别c_i中的最大词频和TFIDF值；

遍历每个商品方面c_i中每个描述短语p_i,j中各个单词w_t，判断w_t是否是p_i,j中拥有最大TFIDF值的词且p_i,j中只有唯一的单词拥有最大的TFIDF值，如果是，则将w_t加入到方面c_i的种子词集s_i；否则，判断w_t是否是p_i,j中拥有最大TF值的词且p_i,j中只有唯一的单词拥有最大的TF值，如果是，则将w_t加入到方面c_i的种子词集s_i；否则，判断w_t的TFIDF值是否等于1，如果是，则将w_t加入到方面c_i的种子词集s_i；否则，将w_t排除在方面c_i的种子词集s_i之外。

本发明的工作原理：本发明是一种基于领域信息的半监督商品方面（Aspect）提取方法，方法利用电子商务网站中半结构化的商品描述信息中提取商品各个描述方面的关键词，将其作为半监督主题模型的种子词引导模型的方面提取和归类。通过同时在文档层次和词层次对LDA模型进行标记学习，可以使得提取出来的商品各个方面的描述更加明确、方面之间的区别更加清晰。另外，本发明生成的方面结构（顺序和内容）能与预先定义在种子词集中的商品方面结构保持一致，从而有效地将消费者描述同一商品方面的不同用语进行语义聚类，并可以在对商品进行观点挖掘时减少人工干预。由于关于某一商品的评论集是一个确定领域的语料库，评论中有些词语含有确定的方面类别，如：“LCD”在相机评论中更多的是描述相机的屏幕而不是电池。因此，本发明利用少许方面种子词来对主题模型进行标记，使其能够生成接近人们认知习惯的产品方面分类；为避免现有方法中人工标注种子词，并增加方法在海量商品处理的可行性，本发明利用电子商务网站上半结构化的描述信息中提取各个方面类别的种子词，并在主题模型加入种子词的“方面—词”分布标记以产生与种子词集结构一致的方面；另外，通过将含有相同种子词的句子组合成一个新的文档作为主题模型的输入文件，获得主题鲜明并且具有充足共现上下文的学习文档，减少各个不同方面的共现频率以提高模型生成出的各个方面之间的区分度；在模型设计方面，本发明通过加入种子词的方面-词相关权重信息，使得模型能够生产与种子集方面内容及顺序保持一致的方面分类，并可在实际自动化的应用中省去人工鉴别工作。

本发明相对于现有技术具有如下的优点及效果：

1、本发明利用电子商务网站上半结构化的商品细节描述信息提取方面分类并通过自动的提取算法获得相应的种子词，避免了传统半监督方法的人工标注。

2、本发明通过文档重组过程减轻了主题模型在评论语料库中常见的两个问题：原始评论级别上文档的方面分布高度相似以及在句子级别上共现上下文不充足的问题。重组后的文档拥有更集中的方面分布以及较充足的共现上下文，能够更好地发挥主题模型的性能。

3、本发明采用一种细粒度的标记主题模型，通过利用种子词在词级别对主题模型进行监督，使其能够生成和种子集中定义保持一致的方面类别及次序。从而，减少了在实际应用中，人工对各个方面进行鉴别。

附图说明

图1为本发明的总体结构图。

图2为本发明的总体流程图。

图3为细粒度的标记LDA模型的贝叶斯图模型图。

图4为细粒度的标记LDA模型的后验概率计算流程。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示的总体结构图和图2所示的总体数据流程图，一种基于领域信息的半监督方面自动提取方法，包括：

网络信息爬取，从电子商务网站上爬取消费者对于关注商品的评论，以及电子商务网站中对于商品的半结构化的商品细节描述信息。

信息预处理，将爬取到的评论进行分词、词性标注、去除停顿词，提取评论中的特征单词。

关键词提取，从电子商务网站中半结构的商品细节描述信息中提取每个方面的关键词作为半监督主题模型的种子词集，获取由电商网站中的领域专家定义的、符合人认知习惯的商品方面分类作为半监督方法的先验知识。

其中，方面类别c_i中的第j个细节描述短语p_i,j中的关键词w_t的定义为以下任意一种：

1、

{&ForAll; w}_{m} &Element; p_{i, j}, m &NotEqual; t, {TFIDF}_{m, i} < {TFIDF}_{t, i};

2、

{&ForAll; w}_{m} &Element; p_{i, j}, m &NotEqual; t ({TFIDF}_{m, i} = {TFIDF}_{t, i}) \cap ({TF}_{m, i} < {TF}_{t, i});

3、

{&Exists; w}_{m} &Element; p_{i, j}, {TFIDF}_{t, i} = 1;

TFIDF_m,i表示单词w_t在c_i中的TFIDF（term frequency–inverse documentfrequency）值，TF_t,i表示单词w_t在c_i中的词频（term frequency）。其中，DF表示单词w_t在所有方面类别中的总词频。

评论文档重组，将评论中各个句子利用上步提取的关键词进行标记，然后将含有相同关键词的句子重新组合成新的文档，得到主题鲜明、共现商品方面较少的学习文档。

细粒度的标记LDA学习，通过半监督的LDA主题模型识别评论中的产品特征并将其属于同一方面的特征进行归类；所述半监督的主题模型是通过加入方面-词的约束关系来监督模型生成更加易于理解、清晰的分类，并获得顺序和种子词集中定义相一致的商品方面集；所述的方面-词的约束关系是指在评论中，某些词具有特定的方面倾向，如：“LCD”更多的是描述“屏幕”方面。

下面对本发明提供的一种基于领域信息的半监督方面自动提取方法作详细说明：

首先介绍本发明中网络信息爬取模块。利用爬虫引擎对商品的评论进行爬取并进行结构化保存。利用商品名、型号等信息在含有半结构化商品描述信息的电子商务网站，如ebay、newegg、京东等，将商品描述信息爬取下来。考虑到很多页面使用AJAX技术来动态加载评论，本发明利用WebKit模拟用户的一般浏览行为，并利用Scrapy爬虫框架进行信息的收集。数据流动由Scrapy内部的引擎进行控制，数据处理流程为：1.引擎打开一个域名，定位出处理该域名的蜘蛛（用户自定义的类，用于从解析回应、提取相应的项或者提取出特定的URL用于后续爬取），然后请求蜘蛛提供种子URL；2.引擎从蜘蛛获取种子URL，然后包装为请求在调度器中进行调度；3.引擎从调度器获取接下来进行爬取的请求；4.调度器将下一个待爬取的请求返回给引擎，然后引擎将它们发送到下载器；5.当网页被下载器下载完成以后，响应内容被发送到引擎；6.引擎在收到下载器的响应后，将响应发送到蜘蛛进行处理；7.蜘蛛处理响应并返回爬取到的项，然后给引擎发送新的请求；8.引擎将抓取到的项放入项目流水线，并向调度器发送请求。重复第二步和后面的操作，调度器中所有请求都完成，然后断开引擎与域之间的联系。

所述评信息预处理模块，首先将评论的文本利用分词工具进行分词和词性标注。英文分词工具有：Stanford POS Tagger；中文分词工具有：中科院的ICTCLAS、开源Java分词工具IKAnalyzer和开源python分词工具结巴分词等。

其中，对于英文，为降低文档词向量的维度，还需对不同语态形式的单词提取词干（Stemming），常用的方法是Porter stemmer。最后，利用语言学中的停顿词表将文本中的停顿词（stop word）去除。

所述关键词提取模块，首先对于每一个商品细节描述短语进行分词、去除数字、标点符号和停顿词，对于英文类似于评论预处理模块，将其转化为小写，然后进行分词、去停顿词并词干化；然后，遍历所有细节描述短语中的各个单词，计算出每个单词w_m在各个方面类别c_i中的词频、TFIDF值，并记录下每个类别c_i中的最大词频和TFIDF值；最后，遍历每个商品方面c_i中每个描述短语p_i,j中各个单词w_t，判断w_t是否是p_i,j中拥有最大TFIDF值的词且p_i,j中只有唯一的单词拥有最大的TFIDF值，如果是，则将w_t加入到方面c_i的种子词集s_i；否则，判断w_t是否是p_i,j中拥有最大TF值的词且p_i,j中只有唯一的单词拥有最大的TF值，如果是，则将w_t加入到方面c_i的种子词集s_i；否则，判断w_t的TFIDF值是否等于1，如果是，则将将w_t加入到方面c_i的种子词集s_i；否则，将w_t排除在方面c_i的种子词集s_i之外。

所述评论文档重组模块，首先，将评论拆分为句子，并对包含了细节描述或种子词的句子，使用细节描述短语和种子词进行标记，如果某个句子同时包含了单词t_i和t_j，当t_j为t_i的字串时，该句子只会被标记为t_i；然后，将包含了相同字符串标记的句子重新组合成新的文档。

如图3所示，为所述细粒度的标记LDA模型学习模块的基本流程。本发明中的LDA模型利用吉布斯采样进行后验推导，采用的是3000次采样迭代以及200次预模拟（burn-in）迭代。对于主题模型K是根据电子商务网站中细节描述信息中方面的个数进行确定。对于文档-方面的狄利克雷先验α_i＝50//+Δ_i,其中Δ_i是[0,5]之间的随机数。对于种子词的方面-词狄利克雷先验β^s＝0.5，普通词的方面-词狄利克雷先验β^s＝0.1。对于种子词的方面-词相关权重中的松弛因子λ＝0.8。但本发明的实施方式及模型参数不限于此，可根据实际情况进行参数调节。

如图4所示，为所述细粒度的标记LDA模型的后验概率计算流程。基于吉布斯采样的模型推导算法详述如下：

变量定义：

设z为单词变量在方面变量上的分布；

设θ为模型中文档与方面的联合分布变量；

设

为模型中单词与方面的联合分布变量（模型中种子词集S和普通词集g中单词与方面的联合分布变量）；

设α（α_d）为θ的狄利克雷先验参数（在文档d中θ的狄利克雷先验参数）；

设β（β^s，β^g）为

的狄利克雷先验参数（在种子词集S和普通词集g中

的狄利克雷先验参数）；

设

是单词w_i与种子方面s_k的相关性；

设

为种子词w_i是否属于种子方面s_k的指示函数；

设V是单词的数目；

设K表示方面的个数，即种子集中方面的个数；

设D表示预料库中所有文档的全集；

设N为文档d中词的总个数；

设S为种子词集；

设

表示单词w_i在方面z_k的出现数目减去w_i出现的数目；

设

表示文档d中的单词出现在方面z_k的次数减去w_i出现的数目；

设

表示所有单词在方面z_k的出现数目减去w_i出现的数目；

设

表示文档d中的单词出现在所有方面的次数减去去w_i出现的数目。

1、初始化：对于第m篇文档中第n个词的方面进行分配，z_m,n初始化为[1,K]之间的某个随机数k。根据文档标记l的方面类别初始化

其中α＝(α₁,…,α_k)，α_i＝50/K+Δ_i，K是种子方面的个数，Δ_i是[0,5]之间的随机数，

依次循环读入所有文档中的各个词，随机初始化各个词的方面类别k，然后文档-方面计数矩阵

“文档-所有方面”矩阵方面-词计数矩阵

以及“方面-所有词”矩阵

都自增1，此为马尔可夫链的初始状态。

吉布斯采样：对语料库中所有文档中的所有词进行循环迭代采样，对于第m篇文档中第n个词，首先获得上次采样时赋值的方面k；然后

都自减1并更新各个矩阵；接着根据公式：

P (w, z | α, β, γ) = \{\begin{matrix} ρ_{k}^{w_{i}} \frac{n_{- i, k}^{w_{i}} + β^{s}}{n_{- i, k}^{(\cdot)} + {Vβ}^{s}} \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}}, & w_{i} &Element; S, \\ \frac{n_{- i, k}^{w_{i}} + β^{g}}{n_{- i, k}^{(\cdot)} + {Vβ}^{g}} \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}}, & w_{i} &NotElement; S, \end{matrix}

2、获得多项分布概率：该过程中，如果词w属于种子词，计算时需考虑方面-词的相关权重

采用上式中的第一个分式进行计算；如果w是普通词，则采用上式中的第二分式进行计算。接着，获取马尔可夫链的下一个状态，随机生成对于当前词的新方面分配

最后四个矩阵的值都自增1。

3、迭代收敛：迭代步骤2，采样前预模拟（burn-in）次迭代以便收敛到目标分布函数，此时对于各个词采样出来的方面类别不更新后验概率和

在迭代数大于前预模拟后，采用下式对于各个词采样出的方面类别更新后验概率值

和

θ_{k}^{d} = \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}},

为获得分布的期望，需继续迭代预定的总迭代次数进行多次样本采样，并以样本均值作为分布期望的近似值。

4、模型输出：当采样分布函数收敛或者预定的采样次数完成时，根据公式：

θ_{k}^{d} = \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}},

获得各个文档文档-方面分布，根据公式：

获得各个方面中方面-词的分布，每个方面中的概率最大的一些词就是该方面中较典型的词。

本发明的目的是提取商品评论中商品的特征并将描述相同方面的消费者表达用语进行归类。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于领域信息的半监督方面自动提取方法，其特征在于，包括：

评论文档重组，将评论中各个句子利用提取的所述关键词进行标记，然后将含有相同关键词的句子重新组合成新的文档，得到学习文档；

细粒度的标记LDA学习，通过半监督的LDA主题模型识别评论中的产品特征，将所述的产品特征的属于同一方面的特征进行归类；所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成分类，并获得顺序与种子词集中定义相一致的商品方面集；所述的方面-词的约束关系是指在评论中，关键词具有特定的方面倾向；

第一种定义：

{&ForAll; w}_{m} &Element; p_{i, j}, m &NotEqual; t, {TFIDF}_{m, i} < {TFIDF}_{t, i};

第二种定义：

{&ForAll; w}_{m} &Element; p_{i, j}, m &NotEqual; t, ({TFIDF}_{m, i} = {TFIDF}_{t, i}) \cap ({TF}_{m, i} < {TF}_{t, i});

第三种定义：

{&Exists; w}_{m} &Element; p_{i, j}, {TFIDF}_{t, i} = 1;

式中，TFIDF_m,i表示单词w_t在c_i中的TFIDF值，TF_t,i表示单词w_t在c_i中的词频，DF表示单词w_t在所有方面类别中的总词频。

2.根据权利要求1所述的基于领域信息的半监督方面自动提取方法，其特征在于，所述的细粒度的标记LDA学习包括以下步骤：

（5a）利用种子词集初始化词-主题相关性变量

相关性变量的设置表达式如下：

ρ_{k}^{w} = \{\begin{matrix} λ (1 + ϵ_{k}^{w}) + (1 - λ), γ_{k}^{w} = 1, \\ 1, γ_{k}^{w} = 0, \end{matrix}

其中，

表示单词w在种子方面集s_k的词频，λ是松弛因子，所述松弛因子用于控制

的影响强度，

表示单词w是否属于种子方面集s_k的指示函数，如果字符w属于种子方面集s_k，则为1，否则为0，所述指示函数

的定义如下：

式中，s_k表示种子方面集；

（5b）初始化狄利克雷先验概率参数：对于文档d的文档-方面狄利克雷先验参数α_d：

α_{d} = α \times γ^{l_{d}},

（5c）初始化后验概率

随机初始化单词在方面变量上的分布Z；

P (w, z | α, β, γ) = \{\begin{matrix} ρ_{k}^{w_{i}} \frac{n_{- i, k}^{w_{i}} + β^{s}}{n_{- i, k}^{(\cdot)} + {Vβ}^{s}} \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}}, & w_{i} &Element; S, \\ \frac{n_{- i, k}^{w_{i}} + β^{g}}{n_{- i, k}^{(\cdot)} + {Vβ}^{g}} \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}}, & w_{i} &NotElement; S, \end{matrix}

式中，

表示单词w_i在方面z_k的出现数目减去w_i出现的数目，

表示文档d中的单词出现在方面z_k的次数减去w_i出现的数目，

表示所有单词在方面z_k的出现数目减去w_i出现的数目，

（5e）计算后验概率，所述后验概率包括

和

所述

的计算公式如下：

θ_{k}^{d} = \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}},

式中，

表示方面k在文档d中的概率；

所述

的计算公式如下：

式中，

表示单词w_i属于方面k的概率。

3.根据权利要求1所述的基于领域信息的半监督方面自动提取方法，其特征在于，所述的评论文档重组包括以下步骤：

4.根据权利要求1所述的基于领域信息的半监督方面自动提取方法，其特征在于，所述的网络信息爬取包括以下步骤：

（1a）利用Scrapy爬虫引擎打开一个域名，定位出处理该域名的蜘蛛，所述蜘蛛指用户自定义的类，用于从解析回应、提取网页中相应的项或者提取出特定的URL用于后续爬取，Scrapy爬虫引擎再请求蜘蛛提供种子URL；

（1c）调度器将下一个待爬取的请求返回给引擎，引擎将下一个待爬取的请求发送到下载器；

（1g）引擎将抓取到的项放入项目流水线，并向调度器发送请求；

5.根据权利要求1所述的基于领域信息的半监督方面自动提取方法，其特征在于，所述的信息预处理包括以下步骤：

所述的关键词提取包括以下步骤：

（3c）遍历每个商品方面c_i中每个描述短语p_i,j的单词w_t，判断w_t是否是p_i,j中拥有最大TFIDF值的词且p_i,j中只有唯一的单词拥有最大的TFIDF值，如果是，则将w_t加入到方面类别c_i的种子词集s_i；否则，判断w_t是否是p_i,j中拥有最大TF值的词且p_i,j中只有唯一的单词拥有最大的TF值，如果是，则将w_t加入到方面类别c_i的种子词集s_i；否则，判断w_t的TFIDF值是否等于1，如果是，则将w_t加入到方面类别c_i的种子词集s_i；否则，将w_t排除在方面c_i的种子词集s_i之外。

6.基于领域信息的半监督方面自动提取系统，其特征在于，包括：

信息预处理模块，用于将爬取到的评论进行分词、词性标注、去除停顿词，提取评论中的特征单词处理；

评论文档重组模块，用于将评论中各个句子利用提取的所述关键词进行标记，然后将含有相同关键词的句子重新组合成新的文档，得到学习文档；

细粒度的标记LDA学习模块，用于通过半监督的LDA主题模型识别评论中的产品特征并将所述的产品特征的属于同一方面的特征进行归类；所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成分类，并获得顺序和种子词集中定义相一致的商品方面集；所述的方面-词的约束关系是指在评论中，关键词具有特定的方面倾向；

第一种定义：

{&ForAll; w}_{m} &Element; p_{i, j}, m &NotEqual; t, {TFIDF}_{m, i} < {TFIDF}_{t, i};

第二种定义：

{&ForAll; w}_{m} &Element; p_{i, j}, m &NotEqual; t ({TFIDF}_{m, i} = {TFIDF}_{t, i}) \cap ({TF}_{m, i} < {TF}_{t, i});

第三种定义：

{&Exists; w}_{m} &Element; p_{i, j}, {TFIDF}_{t, i} = 1;

7.根据权利要求6所述的基于领域信息的半监督方面自动提取系统，其特征在，所述的细粒度的标记LDA学习模块具体用于：

利用种子词集初始化词-主题相关性变量

所述相关性变量

的设置表达式如下：

ρ_{k}^{w} = \{\begin{matrix} λ (1 + ϵ_{k}^{w}) + (1 - λ), γ_{k}^{w} = 1, \\ 1, γ_{k}^{w} = 0, \end{matrix}

其中，表示单词w在种子方面集s_k的词频，λ是松弛因子用于控制的影响强度，

表示单词w是否种子方面集s_k的指示函数，如果字符w属于种子方面集s_k，则为1，否则为0，所述指示函数的定义如下：

式中，s_k表示种子方面集；

初始化狄利克雷先验概率参数，对于文档d的文档-方面狄利克雷先验参数

初始化后验概率

随机初始化单词在方面变量上的分布Z；

P (w, z | α, β, γ) = \{\begin{matrix} ρ_{k}^{w_{i}} \frac{n_{- i, k}^{w_{i}} + β^{s}}{n_{- i, k}^{(\cdot)} + {Vβ}^{s}} \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}}, & w_{i} &Element; S, \\ \frac{n_{- i, k}^{w_{i}} + β^{g}}{n_{- i, k}^{(\cdot)} + {Vβ}^{g}} \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}}, & w_{i} &NotElement; S, \end{matrix}

其中，

表示单词w_i在方面z_k的出现数目减去w_i出现的数目，

表示文档d中的单词出现在方面z_k的次数减去w_i出现的数目，

表示所有单词在方面z_k的出现数目减去w_i出现的数目，

计算后验概率，所述后验概率包括

和

所述

的计算公式如下：

θ_{k}^{d} = \frac{n_{- i, k}^{d} + α_{d}}{n_{- i (\cdot)}^{d} + {Kα}_{d}},

式中，

表示方面k在文档d中的概率；

所述

的计算公式如下：

式中，

表示单词w_i属于方面k的概率。

8.根据权利要求6所述的基于领域信息的半监督方面自动提取系统，其特征在，所述的评论文档重组模块具体用于：

将包含了相同字符串标记的句子重新组合成新的文档。

9.根据权利要求6所述的基于领域信息的半监督方面自动提取系统，其特征在，所述的网络信息爬取模块具体用于：

调度器将下一个待爬取的请求返回给引擎，引擎将下一个待爬取的请求发送到下载器；

当网页被下载器下载完成以后，把响应内容发送到引擎；

引擎将抓取到的项放入项目流水线并向调度器发送请求；

依次重复执行

当网页被下载器下载完成以后，把响应内容发送到引擎；

10.根据权利要求6所述的基于领域信息的半监督方面自动提取系统，其特征在，所述的信息预处理模块具体用于：

所述的关键词提取模块具体用于：

遍历每个商品方面c_i中每个描述短语p_i,j的单词w_t，判断w_t是否是p_i,j中拥有最大TFIDF值的词且p_i,j中只有唯一的单词拥有最大的TFIDF值，如果是，则将w_t加入到方面c_i的种子词集s_i；否则，判断w_t是否是p_i,j中拥有最大TF值的词且p_i,j中只有唯一的单词拥有最大的TF值，如果是，则将w_t加入到方面c_i的种子词集s_i；否则，判断w_t的TFIDF值是否等于1，如果是，则将w_t加入到方面c_i的种子词集s_i；否则，将w_t排除在方面c_i的种子词集s_i之外。