CN106355455A

CN106355455A - 一种从网购用户评论中抽取产品特征信息的方法

Info

Publication number: CN106355455A
Application number: CN201611014472.8A
Authority: CN
Inventors: 吕学强; 董志安; 张恒
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2017-01-25

Abstract

本发明涉及一种从网购用户评论中抽取产品特征信息的方法，包括以下步骤：步骤1)对用户评论进行浅层句法分析，识别出用户评论中的多个组块；步骤2)对所述多个组块进行组块分析；步骤3)抽取名词性信息；步骤4)搜索频繁项集；步骤5)过滤频繁项集中的非产品特征。本发明提供的从网购用户评论中抽取产品特征信息的方法，在充分考虑名词块也可能是产品特征的基础上，采用基于CRF的浅层句法分析来进行组块分析，为了提高效率采用了FP‑growth算法，在过滤的时候采用了TF‑IDF和TextRank相结合的过滤方法，正确率高，适用于分析不同领域的用户评论文本，普遍适用性强，效率高，可以很好地满足实际应用的需要。

Description

一种从网购用户评论中抽取产品特征信息的方法

技术领域

本发明属于中文信息处理技术领域，具体涉及一种从网购用户评论中抽取产品特征信息的方法。

背景技术

近几年，我国电子商务发展迅速，而且前景也十分明朗。2015年我国电子商务交易额达到了18万亿元，网购用户规模也达到了4.13亿人。挖掘出用户评论中有价值的信息，对生成厂商和用户都有重要意义。厂商可以针对性的改进产品、制定更加精准的营销策略。用户可以根据评论做出更加合理的购买决策。

用户和厂商更关心的是针对具体产品特征的评价。产品特征提取是从用户产品评论中提取出备受关注的特征，包括产品的组成部分、功能、性质、或者与之相关的概念等。产品特征提取是评论挖掘的第一步，是进行细粒化情感分析的基础。

现有技术中，采用人工方法或机器学习法来抽取产品特征。人工方法是依靠人工去建立词典，然后再根据词典去抽取产品特征。人工方法抽取产品特征容易出错、可移植性差，而且费时费力，在大数据时代下是不合理的。常用的利用机器学习法自动抽取产品特征的方法有：1)选定BNP结构的名词短语作为产品特征候选项集，然后利用信息检索算法判断该特征是否是产品特征；其缺陷在于其采用规则的提取方法，限制了试验结果的正确率；2)采用Apriori算法来提取产品特征，其缺陷在于它会产生大量的产品特征候选项集，并且需要频繁的扫描事物数据项，运算效果不高，准确率不够高。

因此，现在亟待发明一种准确率高、可移植性好、运算效果好的产品特征信息抽取方法。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的从网购用户评论中抽取产品特征信息的方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种从网购用户评论中抽取产品特征信息的方法，包括以下步骤：

步骤1)对用户评论进行浅层句法分析，识别出用户评论中的多个组块；

步骤2)对所述多个组块进行组块分析；

步骤3)抽取名词性信息；

步骤4)搜索频繁项集；

步骤5)过滤频繁项集中的非产品特征。

进一步地，所述步骤1)包括以下步骤：

步骤一，确定组块的成分标记；

步骤二，确定组块边界：将相同成分的词语归并到一起，形成一个组块，并打上边界标记；

步骤三，确定组块成分：确定某一组块的类别，并对其赋予一个组块成分标记。

进一步地，所述步骤1)具体为采用中国科学院计算所提供的分词系统ICTCLAS对用户评论进行分词。

进一步地，所述步骤2)具体为基于CRF对所述多个组块进行组块分析。

进一步地，所述步骤3)中的名词性信息包括名词块和自由名词。

进一步地，所述步骤4)具体为通过FP-growth算法搜索频繁项集。

进一步地，所述步骤5)具体为：采用TF-IDF和TextRank协同过滤的方法来过滤频繁项集中的非产品特征。

进一步地，所述TF-IDF的计算公式为：W_i，j＝tf_i，j×idf_i，其中， D表示文件总和；

所述TF的计算公式为：其中，n_i，j是某个词在用户评论中出现的次数，∑_kn_k，j是在该用户评论中所出现的词语的数量总和。

本发明提供的从网购用户评论中抽取产品特征信息的方法，在充分考虑名词块也可能是产品特征的基础上，采用基于CRF的浅层句法分析来进行组块分析，为了提高效率采用了FP-growth算法，在过滤的时候采用了TF-IDF和TextRank相结合的过滤方法，正确率高，适用于分析不同领域的用户评论文本，普遍适用性强，效率高，可以很好地满足实际应用的需要。

附图说明

图1为本发明提供的从网购用户评论中抽取产品特征信息的方法的流程图；

图2为训练语料示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，本发明提出了一种从网购用户评论中抽取产品特征信息的方法，其主要包括的步骤有：

步骤2)对所述多个组块进行组块分析；

步骤3)抽取名词性信息；

步骤4)搜索频繁项集；

步骤5)过滤频繁项集中的非产品特征。

具体如下：

首先对用户评论进行浅层句法分析，识别出用户评论中的多个组块。浅层句法分析，只需要分析出句子中某些结构相对简单的独立成分，比如名词短语、动词短语、形容词短语等。这些被识别出的结构称为组块，因此浅层句法分析又叫组块分析或语块分析。

浅层句法分析包括以下步骤：

首先要确定组块的成分标记；

本发明主要采用如表1所示的组块标记；

表1 汉语组块成分标记描述集

组块成分标记	标记内容描述
		np	名词块
ap	形容词块

然后确定组块边界：将相同成分的词语归并到一起，形成一个组块，并打上边界标记；

最后确定组块成分：确定某一组块的类别，比如名词块，动词块，并赋予一个组块成分标记。

本发明主要是利用浅层句法分析的方法，识别出句子中的名词块。因为产品特征主要是由名词和名词短语来表述，名词通过分词就可以识别出来，而名词短语的提取要依靠浅层句法分析。

接下来，基于CRF对所述多个组块进行组块分析。CRF(Conditional RandomField)是一种用来标注和划分序列结构数据的概率化结构模型。用该模型挖掘产品特征时，且能考虑产品特征的各个方面，不需要条件独立假设，因此，基于CRF的浅层句法分析在产品特征识别中具有独特的优势。所以，本发明利用条件随机场(CRF)来进行名词组块的分析。

浅层句法分析其实就是识别出句子中的属于同一组块词语的边界，并赋予一个成分标记。下面，来看一个例子。例如，从互联网上抓取的一条关于酒店的用户评论：房间设施不错，服务态度也不错，周边饮食也很方便，值得推荐。

首先，采用中国科学院计算所提供的分词系统ICTCLAS对用户评论进行分词。本文采用的是二级词性标注。分词后为：房间/n不错/a，/w服务员/n态度/n也/d不错/a，周边/n饮食/n也/d很/d方便/a，/w值得/v推荐/v。/w

然后，对分词后的评论进行基于CRF的组块分析，得到如下结果：房间/n不错/a，/w[服务员/n态度/n]np也/d不错/a，[周边/n饮食/n]np也/d很/d方便/a，/w值得/v推荐/v。/w

从上诉例子中，“服务员”和“态度”、“周边”和“饮食”两个名词在句子中构成了名词性描述信息，因此可以形成一个组块。

本发明采用CRF++工具来进行组块分析。条件随机场是一种图模型，也是一种有监督的机器学习算法。因此，需要利用已标注的语料来对CRF模型的参数进行训练。这样，就需要准备标记符号和特征模板。

本发明在实验中，采用字一级的标注，标注集中主要定义了组块的开始、内部、非组块块这几种类型，如表2所示。

表2 组块内部标注集

标注	含义
		B	当前词为组块的首部
I	当前词为组块的内部
		O	当前词不是组块的组成部分

另外，为了区别名词组块和形容词组块，额外定义如表3所示标注集：

表3 组块类别内部标注集

标注	含义
		B-N	当前词为名词组块的首部
I-N	当前词为名词组块的内部
		B-A	当前词为形容词组块的首部
I-A	当前词为形容词组块的内部
		O	当前词不是组块的组成部分

例如某酒店的用户评论为“酒店位置很好，就是早餐品种少了点”。进行分词和人工标注后为：[酒店/n位置/n]np很/d好/a就/d是/v[早餐/n品种/n]np少/v了/u点/n。

按照标注体系，此时的输入序列为：

X＝{酒，店，位，置，很，好，就，是，早，餐，品，种，少，了点}

对应的标注序列为：

Y＝{B-N，I-N，I-N，I-N，O，O，O，O，B-N，I-N，I-N，I-N，O，O，O}

CRF模型的训练文件就是由输入和标注对序列{x(k)，y(k)}构成。

为了充分考虑用户评论的文本特征，生成符合文本内在规律的模型，可以通过一些模板来筛选特征。本发明采用Unigram类型的模板，每个模板都是由％x[row，col]来指定输入数据中的一个token。row指定到当前token的行偏移，col指定列位置。特征选取的行是相对的，列是绝对的。例如图2中的语料。假如，当前行为“态”字这一行，那么特征的选取就如表4所示：

表4 特征模板说明表

特征模板窗口的大小会影响到模型的执行效果，本发明通过实验，发现窗口长度设为3时，模型的效果最好。因此，本发明选取的特征模板窗口的长度为3。

接下来，进行步骤3)，抽取名词性信息。

经过组块分析后，每一条用户评论，都可以形成如下类似标记：“房间/n不错/a，/w[服务员/n态度/n]np也/d不错/a，[周边/n饮食/n]np也/d很/d方便/a，/w值得/v推荐/v。/w”能够描述产品特征的主要以下两类名词性信息：

(1)名词块：通过浅层句法分析，可以将某一名词及其附属修饰信息或者相邻的名词短语归纳到一个组块中，例如：[服务员/n态度/n]。

(2)自由名词。这些名词性信息，在汉语组块之外，同样具有描述产品特征的作用，例如短句“房间/n不错/a”之中的“房间”。

按照上述分析，本发明在组块分析后，进行名词和名词块的提取。以上部分是本发明对评论文本的预处理阶段。抽取出来的名词和名词块，并不是都是产品特征，所以还要进行进一步的处理。

接下来，进行步骤4)，搜索频繁项集。

目前，计算机还无法自动识别某一名词或名词组块是否是产品特征，但是，基于评价对象会在评论文本中重复出现的假设，通过FP-growth算法来搜索频繁项集来筛选产品特征是合适的。Fp-growth算法是一种结合了深度优先和直接计数的高效算法。

本发明使用FP-growth算法来提高产生频繁项集的效率，是因为，FP-growth算法经过两次次扫描事物项就能把频繁事物项压缩到一棵FP-tree中，避免了采用Apriori算法需要频繁扫描事物项和产生大量候选项集的缺点，从而大幅度的提高了效率。这在大数据时代是非常有意义的。

项集与支持度是FP-growth算法的重要参数。本发明使用的语料是产品的用户评论文本，项集X定义为：使用CRF模型分析后的初始化集合。事物集合T定义为从网络上爬去的用户评论集合。

这样，其中的一条用户评论计为ti(1＝＜i＜＝n)，集合T＝{t1，t2…ti…tn}。项集的支持度计数表示为：支持度可以衡量项集的频繁程度，可以用来过滤频繁项集。支持度的计算公式为：其中X和Y是互不相交的项集，N为用户评论的词条个数。最小支持度在设定可以用来过滤非频繁的项集，在经过试验后发现，采用最小支持度计数设为2的时候，试验效果最好。

通过FP-growth算法就可以快速高效的得到频繁项集，也就是产品特征候选项集。产品特征候选集中包括了不少非产品信息，本发明为了提高产品特征抽取的准确率，下一步需要过滤频繁项集中的非产品特征。

接下来，进行步骤5)，过滤频繁项集中的非产品特征。

本发明主要采用TF-IDF和TextRank协同过滤的方法来过滤非产品特征。通过对产品特征候选项的观察，这些非产品特征主要可以分为以下几类：

(1)一些人称名词。例如：“朋友”，“家人”，“阿姨”等。

(2)常见的酒店品牌。例如：“如家”，“四季”，“汉庭”等。

(3)一些常见的口语化名词。“酒店”，“时候”，“商务”等。

由于服务类产品用户评论语料的特殊性，本发明分别从词的自身频度(IF-IDF)和用户评论内部语义关系(TextRank)两方面进行考虑并根据权值大小来过滤非产品特征。TF-IDF是一种常用的信息检索与数据挖掘的常用加权技术。用以评估一个字词对于一个文件集或者一个语料库中的其中一份文件的重要程度。

TF-IDF的计算公式为：W_i，j＝tf_i，j×idf_i；

W_i，j是产品特征的TF-IDF值，具体的i代表某篇文章，j代表某个词，i，j就是i这篇文章中的j这个词。

TF表示的是词频(Term Frequency，TF)，计算公式为：其中，n_i，j是某个词在用户评论中出现的次数，∑_kn_k，j代表词语的总数，K是代表i这篇文档中不重复词的个数。

IDF是逆向文档数(Inverse Document Frequent)，计算公式为：其中，D表示文件总和，由于本发明计算的是文档内的IF-IDF，所以取值为1；分母表示的是包含检索词t_i的评论词条的总个数。

TextRank是基于PageRank发展而来的，根据用户评论的文本中的句子设计的权重算法。TextRank采用矩阵迭代收敛的方式，让每一个词或词语给相邻的词或短语投票，票的权重取决于该词或短语得到的票数。本文，利用TextRank算法来提取关键词。TextRank模型可以用有向图G＝(V，E)进行表示，V代表点集合，E代表边集合。点V_i的TextRank值的迭代公式为：

WS(V_i)＝(1-d)+d*A，

A = Σ_{V_{j} &Element; \ln (V_{i})} \frac{w_{j i}}{Σ_{V_{k} &Element; o u t (V_{j})} w_{j k}} W S (V_{j});

其中WS(V_i)为节点V_i的权重，W_ji为V_j到V_i的权重，out(V_j)为点V_j指向的点集，ln(V_i)为指向V_i的点集合，d是阻尼系数，一般设置为0.85。

这种算法相协同过滤的方法，充分考虑了词自身频度和评论中词间语义关系，比单独使用其中一种过滤方法的效果要好。通过观察实验结果，大多数非产品特征的TF-IDF值在0.0075以下，因此本发明以0.0075作为过滤阈值。同样的方法，TextRank以0.0235作为过滤阈值。

选取多种产品的用户评论作为实验语料，采用正确率(Precision)和召回率(Recal)来评估本发明的有效性，正确率(Precision)和召回率(Recal)是在文本挖掘领域普遍使用的评估指标，计算公式如下：

正确率：召回率：其中，A代表通过本发明挖掘出来的真正产品特征的个数，B代表非真正产品特征个数，C代表本发明未挖掘出来的产品特征个数。

通过实验得到的数据，本发明的平均正确率很高，适用于分析不同领域的用户评论文本，普遍适用性强，效率高。

本发明采用的浅层句法分析对评论语料进行组块分析，充分考虑了名词词组是产品特征的可能性，并且采用了两种过滤算法相协同过滤的方法对产品特征候选项集进行过滤，从而使正确率、召回率都得到了很大的提高。本发明采用FP-growth算法来提取产品特征的频繁项，大大提高了有效性。

本发明采用基于CRF的浅层句法分析的方法来提取名词性信息，能充分考虑评论语料的各个方面，相对于现有技术具有很大的优势。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种从网购用户评论中抽取产品特征信息的方法，其特征在于，包括以下步骤：

1)对用户评论进行浅层句法分析，识别出用户评论中的多个组块。

2)对所述多个组块进行组块分析。

3)抽取名词性信息。

4)搜索频繁项集。

5)过滤频繁项集中的非产品特征。

2.根据权利要求1所述的步骤1)，其特征在于，所述步骤1)包括以下步骤：

步骤一，确定组块的成分标记；

3.根据权利要求1所述的步骤1)，其特征在于，所述步骤1)具体为采用中国科学院计算所提供的分词系统ICTCLAS对用户评论进行分词。

4.根据权利要求1所述的步骤2)，其特征在于，所述步骤2)具体为基于CRF对所述多个组块进行组块分析。

5.根据权利要求1所述的步骤3)，其特征在于，所述步骤3)中的名词性信息包括名词块和自由名词。

6.根据权利要求1所述的步骤4)，其特征在于，所述步骤4)具体为通过FP-growth算法搜索频繁项集。

7.根据权利要求1所述的步骤5)，其特征在于，所述步骤5)具体为：采用TF-IDF和TextRank协同过滤的方法来过滤频繁项集中的非产品特征。

8.根据权利要求7所述的步骤5)，其特征在于，所述TF-IDF的计算公式为：W_i，j＝tf_i，j×idf_i，其中，D表示文件总和。