CN105447206A

CN105447206A - 基于word2vec算法的新评论对象识别方法及系统

Info

Publication number: CN105447206A
Application number: CN201610009698.2A
Authority: CN
Inventors: 吴扬; 王平; 石增华
Original assignee: Shenzhen Zhongyi Technology Co Ltd
Current assignee: Shenzhen Zhongyi Technology Co Ltd
Priority date: 2016-01-05
Filing date: 2016-01-05
Publication date: 2016-03-30
Anticipated expiration: 2036-01-05
Also published as: CN105447206B

Abstract

本发明提供了一种基于word2vec算法的新评论对象识别方法及系统，该新评论对象识别方法包括数据获取步骤、评论数据处理步骤、计算词向量步骤、观点提取步骤、新评论对象获取步骤、过滤步骤、更新步骤，重复依次执行观点提取步骤、新评论对象获取步骤、过滤步骤、和更新步骤，直到不出现新评论对象或达到迭代次数后，执行观点提取步骤，从而得到最新的观点提取结果。本发明的有益效果是：本发明通过word2vec计算词向量来自动过滤新评论对象识别结果，相对于传统的CRF模型而言，提升了新评论对象发现的准确性，相比于人工维护词典的方法，本发明实施相对简单，具有更高的效率。

Description

基于word2vec算法的新评论对象识别方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及基于word2vec算法的新评论对象识别方法及系统。

背景技术

观点挖掘是指从文本中发现带有作者主观情感的内容。一个观点通常包括观点对象、观点情感、观点所有者、发表时间等信息。其中，观点对象词五花八门，并且更新迅速。因此新对象识别技术很有意义。

CRF是条件随机场(ConditionalRandomFields)的简称。最初由Lafferty等人于2001年提出，是一种无向图模型。近年来，CRF模型被广泛应用于各种命名实体识别和新词发现任务中，取得了不错的效果。

在实际生产中，为了提高观点识别的准确性，需要维护相应领域的观点对象词典。对于扩充词典这类任务，新词的准确性至关重要。但CRF模型的新词识别结果是不可预期的。直接使用CRF模型的标注结果无法达到较高的准确性，而对标注结果进行人工过滤的工作量极大，同时也需要过滤者具备一定的相关领域知识。

尤其在电子商务领域，产品的新特点层出不穷，新特点的出现会导致买家关注全新的对象。要提高对当前评论的观点挖掘的准确性，就必须识别这些新评论对象。

CRF(条件随机场)模型是一个监督学习模型，使用CRF模型可以进行命名实体识别、特定领域对象识别等处理，但这些功能的实现都需要依赖正确标注完成的训练集(具体标注格式和训练集格式视不同模板类型而定)。

但对于互联网上不断更新的海量信息，商品评论中会出现很多新观点，在这个领域里不容易维护专业语料库(即使有也容易过时)，人工维护语料库需要耗费大量人力，而且人工标注语料效率低下。

发明内容

本发明提供了一种基于word2vec算法的新评论对象识别方法，包括如下步骤：

数据获取步骤，获取网页上的评论数据；

评论数据处理步骤，对评论数据进行分词、词性标注、及去停用词处理从而得到分词结果；

计算词向量步骤，使用word2vec算法，输入分词结果，计算评论数据中每个词的词向量；

观点提取步骤，使用种子词典结合观点提取规则处理评论数据，获得观点提取结果，观点提取结果包括评论对象和评论观点信息；

新评论对象获取步骤，结合评论数据和观点提取结果，使用CRF模型发现新评论对象，并将新评论对象添加到新词候选集中；

过滤步骤，使用词向量和过滤规则对新词候选集中的评论对象进行过滤，形成新词词集；

更新步骤，将新词词集中的评论对象添加到种子词典中，从而更新种子词典；

重复依次执行观点提取步骤、新评论对象获取步骤、过滤步骤、和更新步骤，直到不出现新评论对象或达到迭代次数后，执行观点提取步骤，从而得到最新的观点提取结果。

作为本发明的进一步改进，在所述新评论对象获取步骤中包括如下步骤：

(1).构造训练语料步骤，从观点提取结果中得到评论对象，生成CRF模型的训练语料；

(2).训练集建立步骤，建立交叉验证训练集，并使用交叉验证方法把训练语料分成规定份数，并按规定比例组合成训练集和测试集，然后对训练集和测试集分别进行训练，从而得到CRF模型；

(3).提取步骤，使用CRF模型进行新评论对象提取；

(4).交叉训练判断步骤，判断是否完成交叉训练，如果是，那么执行步骤(5)，否则执行步骤(3)；

(5).新词候选集生成步骤，生成新词候选集，并将新评论对象添加到新词候选集中。

作为本发明的进一步改进，在所述过滤步骤中包括如下步骤：

A.计算相似度步骤，计算新词候选集中的新评论对象与种子词典中的分类中心词的相似度；

B.处理判断步骤，若相似度高于阈值且新词候选集中的新评论对象不在种子词典内，那么执行步骤C，否则从新词候选集中将该新评论对象删除后再执行步骤C；

C.判断是否完成对新词候选集的过滤，若是，那么执行步骤D，否则执行步骤A；

D.将新词候选集中的评论对象添加到新词词集中。

作为本发明的进一步改进，在所述计算词向量步骤中，Word2vec算法计算评论数据中每个词的词向量使用向量余弦值来度量词语之间的相似性，具体公式如下：

{sim}_{i, c} = \cos (V_{i}, V_{c}) = \frac{(v_{i 1}, v_{i 2}, ..., v_{i n}) \cdot (v_{c 1}, v_{c 2}, ..., v_{c n})}{\sqrt{{(v_{i 1}, v_{i 2}, ..., v_{i n})}^{2}} \cdot \sqrt{{(v_{c 1}, v_{c 2}, ..., v_{c n})}^{2}}},

其中V_i＝(v_i1,v_i2,...,v_in)表示第i个词的词向量，V_c＝(v_c1,v_c2,...,v_cn)表示分类c中心词的词向量，分类中心词取每个分类在评论数据中出现频率最高的词语，由于使用word2vec算法获得的词向量的模为1，上述公式可以简化为：

{sim}_{i, c} = \underset{c}{Σ} \underset{i}{Σ} v_{i} \cdot v_{c} .

作为本发明的进一步改进，在所述计算词向量步骤中，对属于每个类别的相似性加上偏移修正，修正后的相似性计算公式如下：

{sim}_{i, c} = θ_{c} \underset{c}{Σ} \underset{i}{Σ} v_{i} \cdot v_{c},

其中Max(sim_c)表示与分类c中心词的相似度最大值；

第i个新评论对象的判定函数为：

f_{i} = {M a x}_{c}^{m} (θ_{c} Σ_{c}^{m} Σ_{i}^{n} v_{i} \cdot v_{c}),

其中m是分类总数，n是CRF模型得到的新评论对象总数。

本发明还提供了一种基于word2vec算法的新评论对象识别系统，包括：

数据获取模块，用于获取网页上的评论数据；

评论数据处理模块，用于对评论数据进行分词、词性标注、及去停用词处理从而得到分词结果；

计算词向量模块，用于使用word2vec算法，输入分词结果，计算评论数据中每个词的词向量；

观点提取模块，用于使用种子词典结合观点提取规则处理评论数据，获得观点提取结果，观点提取结果包括评论对象和评论观点信息；

新评论对象获取模块，用于结合评论数据和观点提取结果，使用CRF模型发现新评论对象，并将新评论对象添加到新词候选集中；

过滤模块，用于使用词向量和过滤规则对新词候选集中的评论对象进行过滤，形成新词词集；

更新模块，用于将新词词集中的评论对象添加到种子词典中，从而更新种子词典；

重复依次执行观点提取模块、新评论对象获取模块、过滤模块、和更新模块，直到不出现新评论对象或达到迭代次数后，执行观点提取模块，从而得到最新的观点提取结果。

作为本发明的进一步改进，在所述新评论对象获取模块中包括：

构造训练语料模块，用于从观点提取结果中得到评论对象，生成CRF模型的训练语料；

训练集建立模块，用于建立交叉验证训练集，并使用交叉验证方法把训练语料分成规定份数，并按规定比例组合成训练集和测试集，然后对训练集和测试集分别进行训练，从而得到CRF模型；

提取模块，用于使用CRF模型进行新评论对象提取；

交叉训练判断模块，用于判断是否完成交叉训练，如果是，那么执行新词候选集生成模块，否则执行提取模块；

新词候选集生成模块，用于生成新词候选集，并将新评论对象添加到新词候选集中。

作为本发明的进一步改进，在所述过滤模块中包括：

计算相似度模块，计算新词候选集中的新评论对象与种子词典中的分类中心词的相似度；

处理判断模块，若相似度高于阈值且新词候选集中的新评论对象不在种子词典内，那么执行过滤判断模块，否则从新词候选集中将该新评论对象删除后再执行过滤判断模块；

过滤判断模块，用于判断是否完成对新词候选集的过滤，若是，那么执行添加模块，否则执行计算相似度模块；

添加模块，用于将新词候选集中的评论对象添加到新词词集中。

作为本发明的进一步改进，在所述计算词向量模块中，Word2vec算法计算评论数据中每个词的词向量使用向量余弦值来度量词语之间的相似性，具体公式如下：

{sim}_{i, c} = \cos (V_{i}, V_{c}) = \frac{(v_{i 1}, v_{i 2}, ..., v_{i n}) \cdot (v_{c 1}, v_{c 2}, ..., v_{c n})}{\sqrt{{(v_{i 1}, v_{i 2}, ..., v_{\overset{\cdot}{m}})}^{2}} \cdot \sqrt{{(v_{c 1}, v_{c 2}, ..., v_{c n})}^{2}}},

{sim}_{i, c} = \underset{c}{Σ} \underset{i}{Σ} v_{i} \cdot v_{c} .

作为本发明的进一步改进，在所述计算词向量模块中，对属于每个类别的相似性加上偏移修正，修正后的相似性计算公式如下：

{sim}_{i, c} = θ_{c} \underset{c}{Σ} \underset{i}{Σ} v_{i} \cdot v_{c},

其中Max(sim_c)表示与分类c中心词的相似度最大值；

第i个新评论对象的判定函数为：

f_{i} = {M a x}_{c}^{m} (θ_{c} Σ_{c}^{m} Σ_{i}^{n} v_{i} \cdot v_{c}),

其中m是分类总数，n是CRF模型得到的新评论对象总数。

本发明的有益效果是：本发明通过word2vec计算词向量来自动过滤新评论对象识别结果，相对于传统的CRF模型而言，提升了新评论对象发现的准确性，相比于人工维护词典的方法，本发明实施相对简单，具有更高的效率。

附图说明

图1是本发明的新评论对象获取步骤流程图；

图2是本发明的过滤步骤流程图。

具体实施方式

本发明公开了一种基于word2vec算法的新评论对象识别方法，包括如下步骤：

数据获取步骤，获取网页上的评论数据，例如可以用爬虫获取网页上的评论数据；

在评论数据处理步骤中，分词指的是中文分词，即把整段连续的文本按照词语为单位进行切分；词性标注指的是标注每个词语的词性，例如：名词，动词，形容词等；去停用词指的是从分词结果中去除无意义的词，例如：啊，在，如果，以致于等。

首先词性标注要建立在分词的基础上；其次，词性是CRF模型训练集的组成部分，旨在提高CRF模型效果。

去停用词处理提高了word2vec算法的准确性，也减少了观点提取步骤的时间开销。

在观点提取步骤中，观点提取规则是指一些判断观点的规则，例如：把观点看成一个四元组{iPhone6(产品),屏幕(观点对象),大(情感词),[不能有标点符号,间隔不能太大](条件)}，也可以是一个三元组{iPhone6(产品),美观(隐含对象的情感词),间隔不能太大(条件)}等，发现规则是对分词、词性标注、去停用词结果的一个匹配过程。

如图1所示，在所述新评论对象获取步骤中包括如下步骤：

S1.构造训练语料步骤，从观点提取结果中得到评论对象，生成CRF模型的训练语料；

S2.训练集建立步骤，建立交叉验证训练集，并使用交叉验证方法把训练语料分成规定份数，并按规定比例组合成训练集和测试集，然后对训练集和测试集分别进行训练，从而得到CRF模型，例如把训练语料分成10份，并按9:1组合成10组训练、测试集；

S3.提取步骤，使用CRF模型进行新评论对象提取；

S4.交叉训练判断步骤，判断是否完成交叉训练，如果是，那么执行步骤S5，否则执行步骤S3；

S5.新词候选集生成步骤，生成新词候选集，并将新评论对象添加到新词候选集中。

在CRF模型训练部分，本发明使用K折交叉验证的方法，即把训练集分成K份，每次取其中K-1份作为训练集，用于训练模型；把剩下的1份作为测试集，用于发现新对象词。为了提高结果的覆盖率，可以重新划分训练集，多次重复交叉验证训练。

如图2所示，在所述过滤步骤中包括如下步骤：

Q1.计算相似度步骤，计算新词候选集中的新评论对象与种子词典中的分类中心词的相似度；

Q2.处理判断步骤，若相似度高于阈值且新词候选集中的新评论对象不在种子词典内，那么执行步骤Q3，否则从新词候选集中将该新评论对象删除后再执行步骤Q3；

Q3.判断是否完成对新词候选集的过滤，若是，那么执行步骤Q4，否则执行步骤Q1；

Q4.将新词候选集中的评论对象添加到新词词集中。

评论数据包括评论对象、评论观点、评论对象类别，评论对象类别是用于区分观点对象的类别，在词典中有标注，每个类别拥有一个类别中心词，类别中心词最能代表属于该类别的对象，最初始的类别数和类别中心词是人为设定的。

CRF模型是一种识别评论文本新观点对象的监督学习方法，评论对象是评论描述内容的载体，如：在“价格便宜”中，“价格”就是评论对象。

词向量是文本分类技术中的一种词的表示方法。

在所述计算词向量步骤中，Word2vec算法能够根据上下文信息，计算评论数据中每个词的词向量使用向量余弦值来度量词语之间的相似性(余弦相似性)，具体公式如下：

{sim}_{i, c} = \cos (V_{i}, V_{c}) = \frac{(v_{i 1}, v_{i 2}, ..., v_{i n}) \cdot (v_{c 1}, v_{c 2}, ..., v_{c n})}{\sqrt{{(v_{i 1}, v_{i 2}, ..., v_{i n})}^{2}} \cdot \sqrt{{(v_{c 1}, v_{c 2}, ..., v_{c n})}^{2}}},

{sim}_{i, c} = \underset{c}{Σ} \underset{i}{Σ} v_{i} \cdot v_{c} .

但是，仅用上述公式的计算结果作为判定标准还不准确。由于分类中心按词语频率选取，可能存在选定的分类中心词偏离以词向量表示的类别中心。在所述计算词向量步骤中，对属于每个类别的相似性加上偏移修正，修正后的相似性计算公式如下：

{sim}_{i, c} = θ_{c} \underset{c}{Σ} \underset{i}{Σ} v_{i} \cdot v_{c},

其中Max(sim_c)表示与分类c中心词的相似度最大值；

第i个新评论对象的判定函数为：

f_{i} = {M a x}_{c}^{m} (θ_{c} Σ_{c}^{m} Σ_{i}^{n} v_{i} \cdot v_{c}),

其中m是分类总数，n是CRF模型得到的新评论对象总数。

综上，设定相似性阈值(通常取0.5)，再计算新评论对象获取步骤的结果中的每个对象词i的f_i值，从中过滤掉函数f_i结果小于阈值的词语，即可得到最终的新评论对象词，从而形成新词词集。用新评论对象更新原有的种子词典，完成一次迭代。

与原有的种子词典相比，更新后的种子词典能够更好地适应当前互联网上人们的评论习惯，更准确地提取出评论中的观点，即准确地提取新评论对象。

本发明提出了一种通过较小的种子训练集，使用CRF模型识别评论对象，并使用word2vec算法过滤识别结果的迭代方法。

基于种子训练集的机器学习模型在反复迭代过程中通常会造成模型精度的损失。本发明在模型迭代训练中，加入基于word2vec算法得到的词向量，计算词语的余弦相似性，自动过滤非对象词，确保迭代模型的精度，并在此基础上节约了人力，提高了生成训练集的效率。

下面举例说明：

可以看到更新的种子词典加入了新评论对象“手感”，新模型结果增加了“手感也不错”这一个观点提取结果。

本发明还公开了一种基于word2vec算法的新评论对象识别系统，包括：

数据获取模块，用于获取网页上的评论数据；

在所述新评论对象获取模块中包括：

提取模块，用于使用CRF模型进行新评论对象提取；

在所述过滤模块中包括：

在所述计算词向量模块中，Word2vec算法计算评论数据中每个词的词向量使用向量余弦值来度量词语之间的相似性，具体公式如下：

{sim}_{i, c} = \cos (V_{i}, V_{c}) = \frac{(v_{i 1}, v_{i 2}, ..., v_{i n}) \cdot (v_{c 1}, v_{c 2}, ..., v_{c n})}{\sqrt{{(v_{i 1}, v_{i 2}, ..., v_{i n})}^{2}} \cdot \sqrt{{(v_{c 1}, v_{c 2}, ..., v_{c n})}^{2}}},

{sim}_{i, c} = \underset{c}{Σ} \underset{i}{Σ} v_{i} \cdot v_{c} .

在所述计算词向量模块中，对属于每个类别的相似性加上偏移修正，修正后的相似性计算公式如下：

{sim}_{i, c} = θ_{c} \underset{c}{Σ} \underset{i}{Σ} v_{i} \cdot v_{c},

其中Max(sim_c)表示与分类c中心词的相似度最大值；

第i个新评论对象的判定函数为：

f_{i} = {M a x}_{c}^{m} (θ_{c} Σ_{c}^{m} Σ_{i}^{n} v_{i} \cdot v_{c}),

其中m是分类总数，n是CRF模型得到的新评论对象总数。

本发明通过word2vec计算词向量来自动过滤新评论对象识别结果，相对于传统的CRF模型而言，提升了新评论对象发现的准确性，相比于人工维护词典的方法，本发明实施相对简单，具有更高的效率。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于word2vec算法的新评论对象识别方法，其特征在于，包括如下步骤：

数据获取步骤，获取网页上的评论数据；

2.根据权利要求1所述的新评论对象识别方法，其特征在于，在所述新评论对象获取步骤中包括如下步骤：

(3).提取步骤，使用CRF模型进行新评论对象提取；

3.根据权利要求1所述的新评论对象识别方法，其特征在于，在所述过滤步骤中包括如下步骤：

D.将新词候选集中的评论对象添加到新词词集中。

4.根据权利要求1所述的新评论对象识别方法，其特征在于，在所述计算词向量步骤中，Word2vec算法计算评论数据中每个词的词向量使用向量余弦值来度量词语之间的相似性，具体公式如下：

{sim}_{i, c} = \cos (V_{i}, V_{c}) = \frac{(v_{i 1}, v_{i 2}, ..., v_{i n}) \cdot (v_{c 1}, v_{c 2}, ..., v_{c n})}{\sqrt{{(v_{i 1}, v_{i 2}, ..., v_{i n})}^{2}} \cdot \sqrt{{(v_{c 1}, v_{c 2}, ..., v_{c n})}^{2}}},

{sim}_{i, c} = \underset{c}{Σ} \underset{i}{Σ} v_{i} \cdot v_{c} .

5.根据权利要求4所述的新评论对象识别方法，其特征在于，在所述计算词向量步骤中，对属于每个类别的相似性加上偏移修正，修正后的相似性计算公式如下：

{sim}_{i, c} = θ_{c} \underset{c}{Σ} \underset{i}{Σ} v_{i} \cdot v_{c},

其中Max(sim_c)表示与分类c中心词的相似度最大值；

第i个新评论对象的判定函数为：

f_{i} = {M a x}_{c}^{m} (θ_{c} Σ_{c}^{m} Σ_{i}^{n} v_{i} \cdot v_{c}),

其中m是分类总数，n是CRF模型得到的新评论对象总数。

6.一种基于word2vec算法的新评论对象识别系统，其特征在于，包括：

数据获取模块，用于获取网页上的评论数据；

7.根据权利要求6所述的新评论对象识别系统，其特征在于，在所述新评论对象获取模块中包括：

提取模块，用于使用CRF模型进行新评论对象提取；

8.根据权利要求6所述的新评论对象识别系统，其特征在于，在所述过滤模块中包括：

9.根据权利要求6所述的新评论对象识别系统，其特征在于，在所述计算词向量模块中，Word2vec算法计算评论数据中每个词的词向量使用向量余弦值来度量词语之间的相似性，具体公式如下：

{sim}_{i, c} = \cos (V_{i}, V_{c}) = \frac{(v_{i 1}, v_{i 2}, ..., v_{i n}) \cdot (v_{c 1}, v_{c 2}, ..., v_{c n})}{\sqrt{{(v_{i 1}, v_{i 2}, ..., v_{i n})}^{2}} \cdot \sqrt{{(v_{c 1}, v_{c 2}, ..., v_{c n})}^{2}}},

{sim}_{i, c} = \underset{c}{Σ} \underset{i}{Σ} v_{i} \cdot v_{c} .

10.根据权利要求9所述的新评论对象识别系统，其特征在于，在所述计算词向量模块中，对属于每个类别的相似性加上偏移修正，修正后的相似性计算公式如下：

{sim}_{i, c} = θ_{c} \underset{c}{Σ} \underset{i}{Σ} v_{i} \cdot v_{c},

其中Max(sim_c)表示与分类c中心词的相似度最大值；

第i个新评论对象的判定函数为：

f_{i} = {M a x}_{c}^{m} (θ_{c} Σ_{c}^{m} Σ_{i}^{n} v_{i} \cdot v_{c}),

其中m是分类总数，n是CRF模型得到的新评论对象总数。