CN104699766B

CN104699766B - 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法

Info

Publication number: CN104699766B
Application number: CN201510082519.3A
Authority: CN
Inventors: 张宇; 刘妙
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2015-02-15
Filing date: 2015-02-15
Publication date: 2018-01-02
Anticipated expiration: 2035-02-15
Also published as: CN104699766A

Abstract

本发明公开了一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法，包括：构建语料库，并利用语料库构建当前品类产品的参考评论数据集、属性词词典、情感词词典、实词词典、属性词‑情感词修饰矩阵和属性词‑实词共现矩阵；利用构建的参考评论数据集、属性词词典、情感词词典、实词词典、属性词‑情感词修饰矩阵和属性词‑实词共现矩阵，结合分句的上下文语境依次对待分析评论数据集中需要进行隐式属性挖掘的每一条分句进行挖掘，从而得到隐式属性挖掘的结果。本发明综合利用了两种不同的词语关联关系：属性词与情感词之间的修饰关系、属性词与实词之间的共现关系，并融合分句的上下文语境进行推断，从而大大提高了隐式属性挖掘的准确率。

Description

一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法。

背景技术

在观点挖掘领域，属性词挖掘和情感词挖掘是两个基本的子任务。通过属性词挖掘，能够对用户观点进行分类汇总，从而为用户提供更好的决策支持。目前，面向产品评论的属性词挖掘技术，主要分为显式属性挖掘和隐式属性挖掘两大类。显式属性挖掘相对简单，学者们已经开展了大量的研究工作。而隐式属性挖掘则十分复杂，目前相关研究工作较少。

在隐式属性挖掘方面，Liu等人在文献《Opinion observer：analyzing andcomparing opinions on the Web》中提出了通过规则挖掘(rule mining)的方式建立产品属性和属性值间的映射，比如将“heavy”映射到属性“weight”，将“big”映射到属性“size”，然后通过上述映射关系进行隐式属性的挖掘。然而，映射规则的建立需要一定的人工标注，因此，隐式属性挖掘的准确率受限于规则标注的数量和质量。此外，针对新的领域，映射规则需要重新进行人工标注，时间成本高且准确率也难以保证。

Su等人在文献《Hidden sentiment association in Chinese Web opinionmining》中提出了一种基于属性词和情感词共现关系的隐式属性挖掘方法，通过迭代地在属性词和情感词上应用相互加强聚类的算法，得到属性词簇和情感词簇，从而将单个属性词和单个情感词之间的关联关系扩展为属性词簇和情感词簇之间的关联关系。但是她们的方法并未考虑情感词之外的其它词语与属性词之间的关联关系。

仇光等人在文献《基于正则化主题建模的隐式产品属性抽取》中提出了一种基于正则化主题建模(regularized topic modeling)思想的隐式属性挖掘方法。在不需要先验知识的前提下，根据属性相关词实现隐式属性的挖掘，但是该方法并没有考虑评论分句的上下文语境。

发明内容

针对现有技术的不足，本发明提出了一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法。

一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法，包括如下步骤：

(1)构建语料库，并利用所述的语料库构建当前品类产品的参考评论数据集、属性词词典、情感词词典、实词词典、属性词-情感词修饰矩阵和属性词-实词共现矩阵，具体如下：

(1-1)获取不同品类产品的评论数据，并对获取的评论数据进行预处理；

具体过程如下：

(1-11)对评论数据的规范化处理：将评论数据中的繁体字转换为简体字，识别其中的错别字并进行更正，并对存在乱码和包含无法识别的外文单词的评论语句进行删除；

(1-12)垃圾评论过滤：利用正则表达式对含有QQ号、手机号、网站网址等信息的评论语句进行过滤；

(1-13)对评论数据进行中文分词和词性标注，然后进行停用词过滤，最后删除通篇无标点和分句过长的评论语句。

(1-2)利用预处理后的评论数据构建语料库；

本发明中构建的语料库应理解为所有预处理后的评论数据的集合。

(1-3)针对当前品类的产品，将语料库中当前品类产品的评论数据作为当前品类产品的参考评论数据集，并基于所述的参考评论数据集构建当前品类产品的属性词词典、情感词词典和实词词典；

本发明根据各个属性词、情感词和实词在所述的参考评论数据集中的出现情况构建属性词词典、情感词词典和实词词典，具体如下：

(a)通过如下操作构建属性词词典：

根据所述的参考评论数据集，利用双向迭代的方法构建初始属性词词集F和初始情感词词集O：

针对初始属性词词集F中的任意一个属性词，根据该属性词在参考评论数据集中的出现次数，利用如下公式计算出初始属性词词集F中每个属性词的TF-IDF权值：

其中，为初始属性词词集F中第i个属性词f_i的TF-IDF权值，1≤i≤n_F，n_F为初始属性词词集F中属性词的个数。tf_i为属性词f_i在参考评论数据集中的归一化词频(归一化词频为属性词f_i在参考评论数据集中出现次数与参考评论数据集中所有实词出现次数的比值)；idf_i为语料库中包含属性词f_i的评论数据数量的倒数，即逆文档频率；N为所述语料库中所有品类产品评论数据的总数量，n_i为所述语料库中包含属性词f_i的评论数据的总数量。

将TF-IDF权值大于第一阈值的属性词筛选出来，构建出领域属性词词集，然后从初始属性词词集F剩余的属性词中人工筛选出20～30个词频较大的属性词，构建出公共属性词词集；

将所述的领域属性词词集和公共属性词词集合并(即求并集)，构建出属性词词典。

本发明根据初始属性词词集F中每个属性词的TF-IDF权值，能够筛选出区分度高、领域特有的属性词。

第一阈值的取值直接影响到领域属性词词集的构建，作为优选，所述的第一阈值为0.01～0.02，进一步优选，所述的第一阈值为0.015。

最优地，从初始属性词词集F剩余的属性词中选择25个词频较大的组成公共属性词词集。具体实现时，将初始属性词词集F剩余的属性词按照词频由高到低排序，人工筛选出25个词频较高且领域通用的属性词构建出公共属性词词集。

(b)通过如下操作构建情感词词典：

利用知网的“情感分析用词语集”、大连理工大学的“情感词汇本体库”和初始情感词词集O进行交叉筛选，构建出情感词词典。

(c)通过如下操作构建实词词典：

统计所述的参考评论数据集中所有实词的词频并按降序排列，筛选出词频大于第二阈值的实词，构建出实词词典。

作为优选，第二阈值为50。

(1-4)基于所述的参考评论数据集，利用所述的属性词词典、情感词词典和实词词典构建属性词-情感词修饰矩阵和属性词-实词共现矩阵；

所述的属性词-情感词修饰矩阵中的值表示任意一个属性词与任意一个情感词在参考评论数据集中共现的次数，所述的属性词-实词共现矩阵中的值表示任意一个属性词与任意一个实词在参考评论数据集中共现的次数。

构建属性词-情感词修饰矩阵和属性词-实词共现矩阵具体包括如下操作：

(1-41)遍历所述的参考评论数据集，利用所述的属性词词典、情感词词典和实词词典，对所有出现了属性词的分句，抽取属性词-情感词修饰对和属性词-实词共现对；

(1-42)根据抽取的属性词-情感词修饰对，构建属性词-情感词修饰矩阵；根据抽取的属性词-实词共现对，构建属性词-实词共现矩阵。

本发明中抽取属性词-情感词修饰对与属性词-实词共现对时，是以分句为单位进行，依次对所述的参考评论数据集中的每一条分句进行抽取。

本发明的隐式属性挖掘方法针对不同品类的产品需要构建专有的参考评论数据集、属性词词典、情感词词典和实词词典、属性词-情感词修饰矩阵和属性词-实词共现矩阵，确保了属性词的领域相关性，并提高了隐式属性挖掘结果的准确率。

(2)依次对待分析评论数据集中的每一条分句进行处理，对当前分句进行处理时，首先利用所述的属性词词典判断当前分句是否需要进行隐式属性挖掘，若不需要，则直接处理下一条分句，否则，则进行如下操作：

(2-1)利用所述的情感词词典和属性词-情感词修饰矩阵确定当前分句的候选属性词数组A_f；

(2-2)分析当前分句的上下文语境，如果其前一条分句或后一条分句中存在显式属性词f_i，且则将f_i加入到当前分句的候选属性词数组A_f中，并将f_i的上下文权值赋值为1；若f_i∈A_f，则增大f_i的上下文权值1≤i≤n_f，n_f表示候选属性词数组A_f中属性词的个数；

(2-3)利用所述的情感词词典和实词词典构建当前分句的实词数组A_t，针对当前分句的候选属性词数组A_f中的每一个属性词，根据属性词和实词的共现次数、实词数组A_t中每个实词在参考评论数据集中的出现情况以及属性词的上下文权值计算该属性词与实词数组A_t中每个实词的加权关联值，并选取加权关联值最大的候选属性词作为当前分句的隐式挖掘结果。

本发明通过以下方法判断当前分句是否需要进行隐式属性挖掘：

首先判断该分句是否为观点句，如果不是观点句，则不需要进行隐式属性挖掘；如果是观点句，则利用正则表达式判断该分句是否表期望、祝愿或假想：如果是，则不需要进行隐式属性挖掘；如果不是，则需要进行隐式属性挖掘。

本发明中根据待分析评论文本自身的停顿、断句情况，确定每一条分句的范围。

所述步骤(2-1)包括如下操作：

(2-11)利用所述的情感词词典，抽取当前分句中所有的情感词形成情感词数组A_o；

(2-12)利用如下公式计算当前分句的情感词数组A_o中每一个情感词与其修饰的任意一个属性词f_i之间的点态互信息值：

其中，1≤i≤n，n为属性词词典中属性词的个数，o_j为情感词数组A_o中的情感词，1≤j≤n_o，n_o表示情感词数组A_o中情感词的个数，P(f_i,o_j)为属性词f_i和情感词o_j在所述的参考评论数据集中共现的次数，P(f_i,o_j)是从所述的属性词-情感词修饰矩阵读取得到的，P(f_i)、P(o_j)分别为属性词f_i和情感词o_j在所述的参考评论数据集中出现的次数；

(2-13)根据情感词数组A_o中每个情感词与其修饰的属性词之间的点态互信息值，选取点态互信息值最高的3个属性词作为候选属性词，然后将根据情感词数组A_o中所有情感词选取的候选属性词进行融合，删除其中重复的属性词构建出当前分句的候选属性词数组A_f，并将A_f中每一个属性词f_i的上下文权值的初值赋为1。

本发明步骤(2-2)中，如果f_i∈A_f，则说明利用词语关联关系挖掘出来的候选属性词数组A_f中包含了利用上下文语境推断出来的属性词f_i，f_i成为当前分句隐式属性词的可能性较大，因此增大f_i的上下文权值，作为优选，所述步骤(2-2)中，若f_i∈A_f，则增大f_i的上下文权值为原来的2倍。

(2-31)利用所述的实词词典，抽取当前分句中所有的实词形成实词数组A_t，并删除实词数组A_t中的情感词；

(2-32)利用如下公式计算候选属性词数组A_f中的每一个属性词与实词数组A_t中所有实词的关联值：

其中，T(f_i)为属性词f_i与实词数组A_t中所有实词的关联值，t_k为实词数组A_t中的实词，1≤i≤n_f，n_f表示候选属性词数组A_f中属性词的个数，1≤k≤v，v表示实词数组A_t中实词的个数，P(f_i|t_k)为所述的参考评论数据集中属性词f_i与实词数组A_t中实词t_k共现情况下的条件概率，根据如下公式计算：

其中，n_c表示所述的参考评论数据集中属性词f_i和实词t_k的共现次数，n_c从所述属性词-实词共现矩阵中读取得到，表示实词t_k在参考评论数据集中出现的次数，n_n表示实词词典中所有实词在参考评论数据集中出现的次数；

(2-33)对于候选属性词数组A_f中的每一个候选属性词f_i，用如下公式计算其与实词数组A_t中所有实词的加权关联值T'(f_i)：

其中，为每个候选属性词f_i的上下文权值，1≤i≤n_f，n_f表示候选属性词数组A_f中属性词的个数。并根据计算结果选取加权关联值最大的候选属性词作为当前分句的隐式属性挖掘结果。

未作特殊说明，本发明中某词(包括实词、情感词和属性词)的词频为该词在当前品类产品评论数据集中出现的次数。

未作特殊说明，本发明中的评论语句指的是获取的一条评论，评论数据则是指若干条评论语句的集合。

与现有技术相比，本发明具有如下优点：

(1)首先对分句进行非观点句以及表期望、祝愿或假想的语句的识别，对上述几类分句不进行隐式属性推断，不仅减少了工作量，还提高了隐式属性挖掘的准确率；

(2)利用情感词与属性词之间的修饰关系获得多个候选属性词，再根据候选属性词与实词的共现关系进行隐式属性挖掘，这种方法综合利用了两种不同的词语关联关系，能够有效地提高隐式属性挖掘的准确率；

(3)综合考虑分句的上下文语境，通过调整候选属性词的上下文权值，能够进一步提高隐式属性挖掘的准确率。

附图说明

图1为本实施例的融合词语关联关系和上下文语境推断的隐式属性挖掘方法的流程图；

图2为对评论数据进行预处理的流程图；

图3为构建属性词词典、情感词词典和实词词典的流程图；

图4为计算候选属性词上下文权值的流程图；

图5为计算候选属性词加权关联值的流程图。

具体实施方式

下面结合附图和具体实施例，对本发明的具体实施方式做进一步详细描述。

本实施例中以淘宝网上抓取的手机类产品评论为例进行说明。

如图1所示，本实施例的融合词语关联关系和上下文语境推断的隐式属性挖掘方法包括以下步骤：

(1)从网站(本实施例中为淘宝网)上抓取不同品类产品的评论数据，包括服装、珠宝、家电、手机、数码等不同品类，并对获取的评论数据进行预处理，形成语料库S。针对评论数据的预处理流程如图2所示，包括如下步骤：

(1-1)评论数据的规范化处理：将评论数据中的繁体字转换为简体字，识别其中的错别字并进行更正，并对存在乱码和包含无法识别的外文单词的的评论语句进行删除。

下面分别举例进行说明：

(a)繁简体转换：“爸爸非常喜歡这个手机”，分句中的“歡”为繁体字，经过繁简体转换后，输出为“爸爸非常喜欢这个手机”。

(b)错别字识别及更正：“手机反映很慢”，分句中的“反映”应为“反应”，经过识别更正后，输出为“手机反应很慢”。

(c)乱码语句的识别与删除：“簲璇ュお蹇欎简锛岃伞镣硅兘鐞呜В銆备笉澶氲锛屽緢婊℃剰镄勪竴娆喘鐗+纴濂借瘎锛屽叏5鍒嗐？”，该评论语句中包含乱码，直接将其删除。

(1-2)垃圾评论过滤：利用正则表达式对含有QQ号、手机号、网站网址等信息的评论语句进行过滤。其中识别手机号码的正则表达式为“(13|18|15|17)[0-9]{9}”，该表达式能识别出包含以13、18、15、17开头的11位数字串的评论语句。识别QQ号的正则表达式为“.*qq.*[1-9][0-9]{4,}|.*QQ.*[1-9][0-9]{4,}|.*扣扣.*[1-9][0-9]{4,}”，其中“[1-9][0-9]{4,}”表示5位以上的连续数字串，如果连续数字串前面出现“QQ”、“qq”或“扣扣”等关键字时，即判定该连续数字串为QQ号码，该评论语句为垃圾评论，并进行删除。

例如：“在【321fanli.cn】拿了返利，通过【321fanli.cn】找到这款宝贝返了不少钱！记住【网址:321fanli.cn】直接输入到浏览器里-----帮他们宣传评价还有奖励，联系QQ:15325973793。”这条评论语句中出现了网站网址和QQ号，属于垃圾评论，利用上述正则表达式将其识别并删除。

(1-3)对评论数据进行中文分词和词性标注，然后进行停用词过滤，最后删除通篇无标点和分句过长的评论语句。

例如：“手机/n买/v了/u好/d久/a了/u才/d来/v评论/v不好意思/a啊/y手机/n很/d好用/a用/v了/u几/m天/q了/u爸爸/n很/d喜欢/a”，这条评论语句通篇没有标点而且长度过长，很容易产生错误的分析结果，因此将其删除。

(2)根据步骤(1)中构建的语料库S，利用其中手机类产品的参考评论数据集S_phone，构建手机类的属性词词典Dic_F、情感词词典Dic_O和实词词典Dic_T，具体步骤如图3所示：

(2-1)利用双向迭代的方法构建初始属性词词集F和初始情感词词集O：

首先人工选定1～2个(本实施例中为2个)种子属性词加入到初始属性词词集F中。对于F中的每一个属性词f_i，遍历手机类产品的参考评论数据集S_phone中的评论语句，逐个找出修饰属性词f_i的情感词o_j。如果则将o_j加入到初始情感词词集O中；

反之，对于初始情感词词集O中的每一个情感词o_j，遍历手机类产品的参考评论数据集S_phone中的评论语句，逐个找出被它修饰的属性词f_i。如果则将f_i加入到初始属性词词集F中。如此反复迭代，直到F和O中的词数都不再增加为止。

本实施例中构建的语料库实际上为所获取的全部品类产品的、预处理后的评论数据集合，手机类参考评论数据集实际上为语料库中所有手机类产品评论数据的集合。

例如：选择“手机”、“服务”作为种子词进行双向迭代，最终可以获得初始属性词词集F和初始情感词词集O。

(2-2)利用如下公式：

计算出初始属性词词集F中每个属性词的TF-IDF权值，其中，为初始属性词词集F中第i个属性词f_i的TF-IDF权值，1≤i≤n_F，n_F为初始属性词词集F中属性词的个数。tf_i为属性词f_i在手机类产品参考评论数据集S_phone中的归一化词频(归一化词频为属性词f_i在参考评论数据集S_phone中出现次数与参考评论数据集S_phone中所有实词出现次数的比值)；idf_i为语料库S中包含属性词f_i的评论数据数量的倒数，即逆文档频率；N为语料库S中所有品类产品评论数据的总数量，n_i为语料库S中包含属性词f_i的评论数据的总数量。

接下来，根据计算结果(各个属性词的TF-IDF权值)利用阈值进行筛选，将大于第一阈值0.015的属性词筛选出来，构建成领域属性词词集。将小于或等于第一阈值的属性词加入到公共属性词候选词集，并对公共属性词候选词集进行人工筛选得到公共属性词词集。

人工筛选方法如下：将初始属性词词集F中剩余的全部属性词(即公共属性词候选词集中的属性词)按词频(即该属性词在手机类产品参考评论数据集S_phone中出现的次数)排序(本实施例中按降序排列，即按由高至低的顺序排列)，并人工筛选出领域通用的属性词成公共属性词词集。

最后，将领域属性词词集和公共属性词词集合并，构建出属性词词典Dic_F。

例如：“手机”、“屏幕”、“按键”等词的TF-IDF权值高于第一阈值，将其筛选出来加入到领域属性词词集中。“宝贝”、“物流”等词的TF-IDF权值低于第一阈值，经过人工筛选后将其加入到公共属性词词集中。最后将领域属性词词集和公共属性词词集合并，构建出属性词词典Dic_F。

(2-3)利用知网的“情感分析用词语集”、大连理工大学的“情感词汇本体库”和初始情感词词集O进行交叉筛选，构建出情感词词典Dic_O。

将同时出现在初始情感词词集O和知网“情感分析用词语集”中的情感词加入到情感词词典Dic_O中。同理，将同时出现在初始情感词词集O和大连理工大学“情感词汇本体库”中的情感词也加入到情感词词典Dic_O中。删除情感词词典Dic_O中重复的情感词，完成情感词词典Dic_O的构建。

(2-4)统计手机类产品的参考评论数据集S_phone中所有实词的词频(即每个实词在S_phone中出现的次数)并按降序排列，筛选出词频大于第二阈值(本实施例中第二阈值为50)的实词，构建出实词词典Dic_T。

(3)利用手机类产品的参考评论数据集S_phone构建属性词-情感词修饰矩阵M^FO和属性词-实词共现矩阵M^FT：

(3-1)遍历手机类产品的参考评论数据集S_phone，利用步骤(2)中构建的词典(包括属性词词典Dic_F、情感词词典Dic_O和实词词典Dic_T)，抽取出属性词-情感词修饰对和属性词-实词共现对。

本实施例中以“电池/n充电/v的/u时候/n很/d不/d稳定/a，/w”为例，抽取结果如下：

属性词-情感词修饰对：“电池-稳定”；

属性词-实词共现对：“电池-充电”、“电池-时候”、“电池-稳定”。

(3-2)根据抽取出的属性词-情感词修饰对，构建属性词-情感词修饰矩阵M^FO；根据抽取出的属性词-实词共现对，构建属性词-实词共现矩阵M^FT。

本实施例中：如上文抽取出的属性词-情感词修饰对“电池-稳定”，找到“电池”在属性词词典Dic_F中的位置i，找到“稳定”在情感词词典Dic_O中的位置j。每当抽取出“电池-稳定”这个属性词-情感词修饰对时，则将矩阵M^FO第i行第j列上元素的值加1。同理，根据抽取出的属性词-实词共现对，每当抽取出相应的属性词-实词对时，则将属性词-实词共现矩阵M^FT中相应位置上元素的值加1。

(4)重新从淘宝网抓取少量的手机类产品评论数据(本实施例中为5000条，这部分评论数据并不包含在S_phone中)，并按照步骤(1)中的方法进行预处理，构建待分析评论数据集D。逐条读取待分析评论数据集D中的评论分句，并按照如下步骤进行分析，直到最后一条分句处理完为止：

处理当前评论分句时，首先读入当前评论分句(即分句)，逐词匹配属性词词典Dic_F，如果该评论分句中没有出现显式属性词，则按照以下步骤获得候选属性词数组A_f；

显式属性词指的是评论分句中显式出现的产品属性词，例如：“价格太贵”中的“价格”显式地出现在分句中，根据属性词词典Dic_F能够直接被抽取出来，因此为显式属性词。在“手机很好，就是太贵了！”这条评论的第二个分句中，“贵”是修饰“价格”的，但是“价格”这个属性词并没有显式地出现在该分句中，需要进行隐式属性挖掘才能获得，因此为隐式属性词。

(4-1)首先判断该评论分句是否为观点句：

若是非观点句，则不进行隐式属性挖掘，继续读入下一条分句；

若是观点句，则利用正则表达式进行如下判断：

如果该评论分句表期望、祝愿或假想，则该分句也不进行隐式属性挖掘，继续读入下一条分句；

否则进行隐式属性挖掘，并根据情感词词典Dic_O抽取该分句中所有的情感词，形成该分句的情感词数组A_o。

下面分别举例进行说明：

(a)非观点句：“我/r这/r几/m天/q出差/v了/y。”当前分句没有情感词，因此为非观点句，不进行隐式属性挖掘。

(b)观点句：“要是/c再/d便宜/a一点/m就/d好/a了/u。/w”，分句中出现了表假想的句式“要是……就……”，因此不进行隐式属性挖掘。

(c)对于需要进行隐式属性挖掘的分句，抽取其中所有的情感词，构成该分句的情感词数组，例如：“很/d不/d耐用/a。/w”，该分句出现了情感词“耐用”，但是没有显式属性词，因此需要进行隐式属性挖掘。从分句中抽取出“耐用”，构成该分句的情感词数组A_o＝{耐用}。

(4-2)根据步骤(3)中构建的属性词-情感词修饰矩阵M^FO，利用如下公式计算该分句的情感词数组A_o中每个情感词与其修饰的任意一个属性词f_i之间的点态互信息值PMI(f_i,o_j)(PMI值，Point Mutual Information)：

其中，1≤i≤n，n为属性词词典中属性词的个数，o_j为情感词数组A_o中的情感词，P(f_i,o_j)为属性词f_i和情感词o_j在手机类产品的参考评论数据集S_phone中共现的次数(从属性词-情感词修饰矩阵M^FO中读取得到)，P(f_i)、P(o_j)分别为属性词f_i和情感词o_j在手机类产品参考评论数据集S_phone中出现的次数(即词频)。

根据计算结果(每个情感词与其修饰的属性词之间的PMI值)，针对该分句的情感词数组A_o中的每一个情感词，将与其PMI值最高的3个属性词加入到该分句的候选属性词数组A_f中。全部加入完成后，删除其中重复的属性词，构建得到该分句的候选属性词数组A_f，并将该分句的候选属性词数组A_f中每个候选属性词f_i的上下文权值的初值赋为1。

例如：计算“耐用”与其有修饰关系的所有属性词的PMI值，并筛选出PMI值最高的3个属性词作为该分句的候选属性词：

PMI(电池)＝log(918/6242)＝-0.8325，

PMI(电板)＝log(24/337)＝-1.1474，

PMI(机子)＝log(6/9616)＝-3.2048。

最终构建出的候选属性词数组A_f＝[电池，电板，机子]。

(5)计算属性词f_i的上下文权重，如图4所示，首先读入上下文分句(即当前分句的前一条分句和后一条分句)，判断上下文分句中是否存在显式属性词：

如果其上下文分句中存在某个显式属性词f_i且则抽取该显式属性词f_i，并将属性词f_i加入到候选属性词数组A_f中，并将其上下文权值赋值为1。如果f_i∈A_f，则将f_i的上下文权值翻倍。

例如：“电池/n充电/v的/u时候/n很/d不/d稳定/a，/w很/d不/d耐用/a。/w”，针对分句“很/d不/d耐用/a。/w”，根据上下文语境，可得其上下文属性词为“电池”，“电池”∈A_f，则将“电池”的上下文权值翻倍，即w_电池＝2。

(6)计算候选属性词数组A_f中的每一个候选属性词与当前分句中出现的实词之间的关联值，如图5所示，具体步骤如下：

(6-1)利用步骤(2)中构建的实词词典Dic_T抽取当前分句中所有的实词，并根据情感词词典Dic_O删除其中所有的情感词，形成实词数组A_t。

例如：“电池/n太/d不/d给力/a，/w一下/m就/d没/v电/n了/u很/d不/d耐用/a。/w”，抽取出第二个分句中所有的实词：“一下”、“没”、“电”、“耐用”，并删除其中的情感词“耐用”，形成实词数组A_t＝[一下，没，电]。

(6-2)对于候选属性词数组A_f中的每一个属性词f_i，根据如下公式计算其与实词数组A_t中所有实词的关联值T(f_i)：

其中，1≤i≤n_f，n_f表示候选属性词数组A_f中候选属性词的个数，1≤k≤v，v表示实词数组A_t中实词的个数，P(f_i|t_k)表示手机类产品的参考评论数据集S_phone中属性词f_i与实词数组A_t中的实词t_k共现情况下的条件概率。

本实施例中，P(f_i|t_k)根据如下公式进行计算：

其中，n_c表示属性词f_i和实词t_k共现的次数(从属性词-实词共现矩阵M^FT中读取得到)，表示实词t_k在参考评论数据集S_phone中出现的次数(即词频)，n_n表示实词词典Dic_T中所有实词的在参考评论数据集S_phone中出现的次数。

(6-3)对于候选属性词数组A_f中的每一个候选属性词f_i，用如下公式计算其与实词数组A_t中所有实词的加权关联值T'(f_i)：

其中，为候选属性词f_i的上下文权值，1≤i≤n_f，n_f表示候选属性词数组A_f中属性词的个数。根据计算结果，选取加权关联值最大的候选属性词作为隐式属性的挖掘结果，并输出。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法，其特征在于，包括如下步骤：

(1)构建语料库，并利用所述的语料库构建当前品类产品的参考评论数据集、属性词词典、情感词词典、实词词典、属性词-情感词修饰矩阵和属性词-实词共现矩阵；

(2)依次对待分析评论数据集中的每一条分句进行处理，对当前分句进行处理时，首先利用所述的属性词词典判断当前分句是否需要进行隐式属性挖掘，通过以下方法判断当前分句是否需要进行隐式属性挖掘：

首先判断该分句是否为观点句，如果不是观点句，则不需要进行隐式属性挖掘；如果是观点句，则利用正则表达式判断该分句是否表期望、祝愿或假想：如果是，则不需要进行隐式属性挖掘；如果不是，则需要进行隐式属性挖掘；

若不需要，则直接处理下一条分句，否则，进行如下操作：

步骤(2-1)包括如下操作：

其中，1≤i≤n，n为属性词词典中属性词的个数，o_j为情感词数组A_o中的情感词，1≤j≤n_o，n_o为情感词数组A_o中情感词的个数，P(f_i,o_j)为属性词f_i和情感词o_j在所述的参考评论数据集中共现的次数，P(f_i,o_j)是从所述的属性词-情感词修饰矩阵中读取得到的，P(f_i)、P(o_j)分别为属性词f_i和情感词o_j在所述的参考评论数据集中出现的次数；

(2-13)根据情感词数组A_o中每个情感词与其修饰的属性词之间的点态互信息值，选取点态互信息值最高的3个属性词作为候选属性词，然后将根据情感词数组A_o中所有情感词选取的候选属性词进行融合，删除其中重复的属性词构建出当前分句的候选属性词数组A_f，并将A_f中每一个属性词f_i的上下文权值的初值赋为1；

(2-3)利用所述的情感词词典和实词词典构建当前分句的实词数组A_t，针对当前分句的候选属性词数组A_f中的每一个属性词，根据属性词和实词的共现次数、实词数组A_t中每个实词在参考评论数据集中的出现情况以及属性词的上下文权值计算该属性词与实词数组A_t中所有实词的加权关联值，并选取加权关联值最大的候选属性词作为当前分句的隐式属性挖掘结果；

步骤(2-3)包括如下操作：

(2-32)利用如下公式计算候选属性词数组A_f中的每一个属性词f_i与实词数组A_t中所有实词的关联值：

<mrow> <mi>T</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>v</mi> </munderover> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>t</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mi>v</mi> </mfrac> <mo>,</mo> </mrow>

<mrow> <msup> <mi>T</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>w</mi> <msub> <mi>f</mi> <mi>i</mi> </msub> </msub> <mo>&times;</mo> <mi>T</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中，为每个候选属性词f_i的上下文权值，1≤i≤n_f，n_f表示候选属性词数组A_f中属性词的个数，并根据计算结果选取加权关联值最大的候选属性词作为当前分句的隐式属性挖掘结果。

2.如权利要求1所述的融合词语关联关系和上下文语境推断的隐式属性挖掘方法，其特征在于，所述步骤(1)包括如下操作：

(1-2)利用所有预处理后的评论数据构建语料库；

3.如权利要求2所述的融合词语关联关系和上下文语境推断的隐式属性挖掘方法，其特征在于，所述步骤(1-1)对评论数据进行预处理如下：

(1-12)垃圾评论过滤：利用正则表达式对含有QQ号、手机号、网站网址信息的评论语句进行过滤；

4.如权利要求2所述的融合词语关联关系和上下文语境推断的隐式属性挖掘方法，其特征在于，所述步骤(1-3)根据各个实词、属性词和情感词在所述的参考评论数据集中的出现情况构建属性词词典、情感词词典和实词词典。

5.如权利要求2所述的融合词语关联关系和上下文语境推断的隐式属性挖掘方法，其特征在于，所述步骤(1-4)包括如下操作：