CN113641788A

CN113641788A - 一种基于无监督的长短影评细粒度观点挖掘方法

Info

Publication number: CN113641788A
Application number: CN202110904457.5A
Authority: CN
Inventors: 秦涛; 刘炉林; 刘博豪; 李悦; 史镇光; 靳国庆
Original assignee: People Co Ltd
Current assignee: Konami Sports Club Co Ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-11-12
Anticipated expiration: 2041-08-06
Also published as: CN113641788B

Abstract

本发明公开了一种基于无监督的长短影评细粒度观点挖掘方法，其特征在于：1)从社交平台和电影平台进行多维度的影评文本信息获取；2)基于开源中文情感词典，采用SO‑PMI词典扩展方法构建影评情感词典；3)采用基于关联规则方法和word2vec挖掘全局评价对象和个性化评价对象，再通过K‑means形成完整短影评评价对象；4)采用MG‑LDA结合word2vec发现长影评的主题分布以及词分布，构建长影评评价对象；5)对评价对象进行情感分析并形成影评观点摘要。本发明所公开无监督长短影评细粒度观点挖掘方法，较现有的影评挖掘方法相比，可以获取更丰富的影评文本数据，充分挖掘影评文本信息，针对影评长短采用不同的模型获取评价对象，使得本发明的观点挖掘和情感分析效果更佳。

Description

一种基于无监督的长短影评细粒度观点挖掘方法

技术领域

本发明涉及中文文本情感分析领域，具体涉及一种基于无监督的长短影评细粒度观点挖掘方法。

背景技术

近年来，互联网作为一个聚集了海量主观性文本的平台，已经成为决策支持的一个具有极其重要价值的资源。在电影领域，网络平台上的影评数量占了电影影评的绝大部分，这些影评文本反映了用户对电影及其特征属性的观点看法和情感态度，具有巨大的潜在价值，如何从海量的网络影评文本中挖掘细粒度的评价对象和对应观点成为该领域的一大挑战。能够精准的挖掘出影评中细粒度观点，是对该领域提供决策支持和导向的现实需要。

针对中文电影评论语料的观点挖掘研究，常见的方法有基于词频的方法、基于语言规则的方法以及基于监督学习的方法，其中基于词频方法的最大优点就是简洁有效，但该方法也有其局限性，即使用该方法可能产生太多的非频繁方面词，还可能遗漏低频的方面词，并且需要人工调整各种参数等；基于语言规则的方法改进了基于频率的方法在处理低频方面词上的局限性，但同时也会产生许多不相关的方面观点模式匹配；而基于监督学习的方法虽然学习模型能力强，但是需要大量的人工标注成本。同时，很多观点挖掘方法的效果也依赖于领域特征词(方面词)词典的构建，通常需要专家知识来给出一些领域特征词作为种子词，可移植性较差。本发明主要研究细粒度观点挖掘的方法在中文电影评论上的应用，根据从中文社交网络中获取到的电影评论文本数据(包括短影评和长影评)，应用无监督的细粒度观点挖掘的方法，分别对短影评和长影评进行评价对象的抽取，并生成用户影评的观点摘要，得到用户对电影的各个方面的观点和情感倾向，为电影业组织提供用户观点以支撑相关行业的商业决策。

现在已经存在大量的利用社交网络平台为主的中文文本观点挖掘的工作，在影评方面也有研究。申请人经过查新，检索了本发明领域中2篇相关专利，分别为：

1.基于词向量的针对电影评论信息的情感分析系统及方法，专利申请公布号为：CN106156004A；

2.电影评论观点情感倾向性分析方法，专利申请公布号为：CN110825876A。

专利1提出了一种基于词向量的针对电影评论信息的情感分析系统及方法，其主要包括：采集电影评论，形成评论文本库；对评论文本进行处理分词；对分词后的评论文本转换为基于词向量的评论向量以及特征提取；最后将评论进行分类，获取每条评论的类别。

专利2提出了一种电影评论观点情感倾向性分析方法，其主要包括：爬取多部影片的描述信息和评论信息；对信息文本进行预处理；为评论观点指定多条提取规则获取观点词和情感词；通过关键词匹配打标或人工标注的方式进行评论标签标注和情感倾向性标注；生成评论观点情感分析模型；最后针对目标影评通过该模型自动生成评论标签类别和情感倾向。

上述2篇专利所介绍的方法，都具有很大的局限性。专利1只依靠词向量进行评论的分类，词向量模型体现的信息较为局限，不能够充分地利用影评文本数据信息；专利2是基于监督学习的一种方式，需要人工制定提取规则以及人工标注数据标签，其过程需要耗费大量的人工成本和时间成本。

发明内容

本发明的目的是提供一种基于无监督的长短影评细粒度观点挖掘方法，通过应用无监督的细粒度观点挖掘方法对长影评和短影评进行观点抽取和情感分析。首先，对社交网络平台和在线电影社区平台从文本、评分、推荐数等多个信息维度获取影评，构建长影评数据集和短影评数据集；然后根据现有的情感基准词典，并通过应用词典扩展方法在长短影评文本数据集的基础之上扩展出合适的情感词典；接下来针对短影评数据集，采用关联规则挖掘算法和 word2vec构造出评价对象，再用聚类算法进一步聚合评价对象；针对长影评数据集，采用主题模型MG-LDA算法获取全局和局部评价对象，利用word2cev 进一步补充成完整的影评评价对象；最后，利用构建的情感词典对评价对象进行情感分析，结合评分数、推荐数等信息，生成影评的观点摘要。本发明充分考虑并获取了网络影评的多维度信息，构建适合电影领域的情感词典，并针对影评长短采取不同的方法获取评价对象，具有信息挖掘充分、性能稳健、专业性强、挖掘效果显著等优点，使得本发明和其它影评观点挖掘和情感分析方法相比，具有明显的优势。

为了实现上述目的，本发明采取的技术方案为：

步骤1，影评文本数据采集：以社交网络平台和在线电影社区平台的历史数据为数据源，获取热门电影的评论文本信息、评论电影评分信息和评论文本投票数，根据影评的长短，分别得到由n部电影组成的短影评集合M_S＝ {m_s1，m_s2，...，m_si…，m_sn}以及长影评集合M_l＝{m_l1，m_l2，...，m_li…，m_ln}，其中， m_si表示第i部电影的短影评集合，m_li表是第i部电影的长影评集合。

具体地，可通过对不同社交网络平台和在线电影社区平台，利用网络爬虫或网站提供的应用程序接口进行长短影评的爬取，每条影评获取的主要内容包括：

(1)评论文本信息：获取评论正文文本以及评论发布时间；

(2)评论电影评分信息：获取用户对电影的评分或者推荐数；

(3)评论文本投票数：获取该条评论的点赞数或者赞同数。

将获取的影评通过文本去重、分句、分词、词性标注以及去停用词等数据预处理方式，根据影评的长短，分别得到短影评集合M_S和长影评集合M_l。

步骤2，情感词典的构建：将开源的中文情感词典作为基准情感词典。根据从基准情感词典中选出的在步骤1采集的影评数据中出现次数最多的正面和负面情感词，采用情感词典扩展方法，在影评文本中识别出在情感词典中没有出现过的观点词并判断其情感倾向，最终构建出一个适用于影评文本的情感词典D＝{w_positive，w_negative}，其中，w_positive表示正面情感词，w_negative表示负面情感词。主要包括：

(1)获取基础情感词典：情感词的研究和分析是研究情感分析和观点挖掘基础且重要的环节，采用的情感词典主要包括知网(HowNet)情感词典、台湾大学简体中文情感极性词典以及清华大学中文褒贬义词典，将以上情感词典合并去重，生成基础情感词典；

(2)基础情感词典扩展：基础情感词典比较通用，但在特定领域的情感分析的效果比较一般，将采用情感点互信息算法(SO-PMI)提取出一定数量的步骤1所采集的影评语料作为情感词扩展到情感词典中，情感点互信息值 SOPMI(c_i)的计算公式为：

其中，从基础情感词典中取出k个正面情感种子词 w_positive＝{p₁，p₂，...，p_j...，p_k}和k个负面情感种子词 w_negative＝{r₁，r₂，...，r_j…，r_k}，p_j是第j个正面情感种子词，r_j是第j个负面情感种子词，c_i是从步骤1的影评文本数据获取的候选情感词，i＝1，2，...，k，count(c_i，p_j)为c_i与p_j在影评文本中共现的句子数，count(c_i，r_j)为c_i与r_j在影评文本中共现的句子数，当SOPMI(c_i)＞0时，c_i为正面情感词；SOPMI(c_i)＜0 时，c_i为负面情感词；SOPMI(c_i)＝0时，c_i为中性词，将候选情感词c_i按照情感点互信息值扩展到基础情感词典中。

通过上述方法，构建一个适合于所采集的影评文本数据的情感词典 D＝{w_positive，w_negative}。

步骤3，短影评评价对象识别：在传统的基于关联规则的观点挖掘方法基础之上进行了调整，结合word2vec词向量训练模型和K-means聚类算法，提出一种无监督的评价对象抽取方法。具体地，针对从步骤1所构建的短影评集合，挖掘出全部电影短影评数据中共有的全局评价对象和每部电影影评独有的个性化评价对象，利用词向量模型扩展出上下文语义相似的词补充到全局评价对象和个性化评价对象，再通过机器学习聚类算法将表达形式不同但意义相近的评价对象词归为同一类，形成完整的全局评价对象和个性化评价对象，结合两者生成每部电影的短影评评价对象。主要包括：

(1)用FP-growth算法替换Apriori算法进行关联规则挖掘，使得频繁项集的查找变得更加高效，较好地区分全局评价特征和个性化评价特征：

首先，对全部短影评文本应用FP-growth算法，找出名词频繁项集，定义一个领域一致度的概念来衡量它们在领域内各个语料文本中分布的均匀程度，分布均匀的可以认为是候选全局特征，特征f的领域一致度DC_f定义如下：

(p_f，i的估计值为：

M为采集到的全部影评语料，m_i为电影i的影评语料，p_f，i表示f的支持度， sup_f，i表示f在m_i中的支持度计数，sup_f表示f在M中的支持度计数， card(M)表示评论集合M中不同电影数并用于归一化，DC_f值越高，表明f在M 中分布越均匀，越有可能是全局频繁特征，将DC_f＞0的特征列为候选全局特征；

然后，对每一步影片的短影评文本应用FP-growth算法以同样的方式获取每部影片的候选个性化特征；

最后，对获取的候选全局特征和候选个性化特征进行剪枝筛选：单字名词过滤、删除无意义不构成名词短语的候选特征词、删除冗余候选特征词以及删除领域无关候选特征词以形成最终的全局特征和个性化特征，其中特征f的领域相关度：

DR_f＝lg(|{d∈M|f∈d}|)(lg(|{d∈M|f∈d}|/|M|) -lg(|{d∈G|f∈d}|/|G|))

式中：d代表任意一条评论文本，M代表采集到的影评语料，G代表综合领域的中文语料，|{d∈M|f∈d}|/|M|是影评文本中包含特征f的文本的条件概率，|{d∈G|f∈d}|/|G|是中文语料中包含特征f的文本的条件概率，DR_f越大，相关度越高，高于一个设定的阈值时可以认为f是该领域的特征，形成短影评文本的评价对象词，否则认为f与领域不相关，不将f作为领域特征；

(2)采用word2vec扩展短影评文本的评价对象，用word2vec对全局短影评文本和每部电影的短影评文本分别训练生成词向量模型，利用模型发现与已识别的评价对象词语语义距离最近的n个词语作为评价对象词语的扩充，对这些近义词的词性进行筛选，保留名词、形容词和动词，最后生成扩充后的评价对象；

(3)采用K-means聚类算法对评价对象进行聚类，通过关联规则挖掘和 word2vec词向量模型已经生成基本的短影评文本评价对象，再采用聚类算法对众多描述相同评价对象的词聚类选出一个最具代表性的词作为评价对象的标准表达方式有助于影评观点挖掘的准确性和凝练性：

第一步：计算已得到的全局评价对象词语在全局影评文本中的词频，和个性化评价对象词语在对应的局部影评文本中的词频；

第二步：应用K-means算法对word2vec训练好的评价对象词向量聚类，由于word2vec中词向量的距离采用余弦相似度进行计算，因此聚类时也用余弦相似度进行词向量的语义距离计算：

同时，K-means采用手肘法来选择聚簇数k，手肘法的核心指标是误差平方和(Sumof The Squared Errors，SSE)，随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么SSE自然会逐渐变小，SSE的定义式如下：

式中：C_i是第i个簇，p是C_i中的样本点，m_i是C_i的质心(C_i中所有样本的均值)，SSE是所有样本的聚类误差，代表了聚类效果的好坏；

第三步：聚类完成后，根据聚类结果，最终形成每部影片包含的全局评价对象和个性化评价对象。

步骤4，长影评评价对象识别：针对从步骤1所构建的长影评集合，使用主题模型LDA的变式模型多粒度LDA(MG-LDA)发现长影评的主题以及每个主题下的词分布，再结合词向量模型进一步发现具有大于设定语义相似性的词，从而获取每部电影的长影评评价对象。

具体地，使用主题模型LDA的变式模型多粒度LDA(MG-LDA)抽取长影评文本的评价对象，再结合基于word2vec词向量模型的评价对象词扩展和词性筛选生成长影评文本目标评价对象，具体步骤如下：

(1)采用MG-LDA模型挖掘长影评文本的可评价对象和方面特征，与适用于发现全局主题类型的LDA模型不同的是，MG-LDA模型能够产生全局主题和局部主题，即评价对象和方面特征：

第一步：将长影评文本处理成长影评文档列表docs，文档中的句子列表 sents，文档中的词汇列表vocab，初始随机化vocab中每个词对应主题编号和窗口编号，窗口即局部主题在长影评文档中所占的区域，并且初始化vocab中所有词汇的各项计数，包括每个词被分配全局主题和局部主题多少次，被分配给某个全局主题和局部主题多少次以及被分配给某篇文档的某个窗口多少次；

第二步：为得到长影评文本中每个词对应的主题，在一定的迭代次数下进行Gibbs采样迭代，对文档列表docs中的每个文档d中的每个窗口v进行全局主题采样和局部主题采样，主题采样的条件概率为

其中，

表示除去文档d中第i个词外所有词所对应的窗口，

表示除去文档d中第i个词外所有词所对应的对于全局主题和局部主题的偏好，

表示除去文档d中第i个词外所有词所对应的主题。要求得条件概率，必须计算联合概率分布：

该式分解如下：

W是词汇个数，r为gl时，

表示词w出现在全局主题z中的次数，n^r，z表示词w属于全局主题z的次数，r为loc时，

表示词w出现在局部主题z中的次数，n^r，z表示词w属于局部主题的次数；β^r表示主题下的单词分布的狄利克雷参数，K^r表示主题数量；

N_s表示文档集里的句子数，n^d，s表示文档d中句子s的长度，

表示文档 d中句子s里出现在窗口v中的词数；T表示窗口覆盖句子的数量，γ表示句子分布的狄利克雷参数；

N_v表示文档集里的窗口数，n^d，v表示文档d中分配给窗口v的词数，r为gl 时，

表示文档d里的窗口v中属于全局主题的词数；r为loc时，

表示文档d里的窗口v中属于局部主题的词数；

表示主题偏好分布的狄利克雷参数；

D是文档数，

表示文档d中属于全局主题的词数，

表示文档d中属于全局主题z的词数，

表示文档d里窗口v中属于局部主题的词数，

表示文档d里窗口v中属于局部主题z的词数；K^gl和K^loc分别表示全局主题和局部主题的主题数量，α^gl和α^loc分别表示全局主题和局部主题的主题分布狄利克雷参数。

得到全局主题采样公式为：

其中，

的四个因子的物理意义分别为生成词w_d，i、选择窗口v、选择w_d，i对应的是全局主题以及从全局主题中选择主题z；

局部主题采样公式为：

由上述的采样公式进行采样，可以获取到文档中的全局和局部主题分布、主题对应的词分布以及方面特征，从中筛选出概率较高的名词，作为长影评文本的评价对象词；

第三步：采用word2vec扩展长影评文本的评价对象词，与步骤3相似，利用word2vec训练出的长影评的词向量空间，利用模型发现与已识别的评价对象词语语义距离最近的n个词语作为评价对象词语的扩充，对这些近义词的词性进行筛选，保留名词、形容词和动词，最后生成扩充后的评价对象，构建完整的长影评评价对象。

步骤5，细粒度观点挖掘分析：将步骤2所采集的影评文本数据的情感词典，分别应用在步骤3所获取的短影评评价对象与步骤4所获取的长影评评价对象，提取细粒度观点并对其进行分析统计，结合影评的电影评分数和该影评的推荐数，形成影评观点摘要，为电影制作的决策支持提供建设性意见。

具体地，将步骤2构建的情感词典应用于步骤3和4获取的评价对象的初步情感分析，加以考虑步骤1构建的长短影评中包含评价对象的影评评分数以及该影评的推荐数，形成每部影片的评价对象以及观点的情感极性，提取出每部影片中的每个评价对象的积极观点和消极观点，生成观点摘要，为电影制片方和内容供应商提供决策支持。

与现有的电影影评的观点挖掘和情感分析方法相比，本发明的有益效果是：

(1)现有的方法影评文本数据来源较为单一，而影评文本数据存在大量的网络平台上，本发明不仅从在线电影社区平台获取影评文本数据，而且包括主流的社交网络平台，获取的数据更加丰富多样；

(2)现有的方法大多基于词向量、聚类算法等，本发明将这些方法很好地综合在一起，使影评文本数据信息被更充分地利用挖掘；

(3)由于常用的模型对文本长度比较敏感，而影评的文本长短相差较大，对短影评和长影评采用不同的模型方法进行评价对象抽取，使得本发明具有更加的观点挖掘和情感分析效果。

附图说明

图1是本发明基于无监督的长短影评细粒度观点挖掘方法框图。

图2是影评文本采集过程的流程图。

图3是影评情感词典构建过程的流程图。

图4是短影评评价对象识别过程的流程图。

图5是长影评评价对象识别过程的流程图。

图6是情感分析及观点摘要生成过程的流程图。

具体实施方式

以下结合附图及实施例对本发明的实施方式进行详细说明。需要说明的是，此处描述的实施例只用以解释本发明，并不用于限定本发明。此外，在不冲突的情况下，本发明中的实施例涉及的技术特征可以相互结合。

本发明的具体实施过程包括影评文本采集过程、影评情感词典构建过程、短影评评价对象识别过程、长影评评价对象识别过程、情感分析及观点摘要生成过程。图1是本发明基于无监督的长短影评细粒度观点挖掘方法框图。

1.影评文本采集过程

影评文本获取的具体过程如下：

(1)确定影评采集的电影：可以选择目标电影，也可以选择热门电影，或者新上映的电影；

(2)确定影评爬取网站：考虑到不同网络平台信息的异质性，线上影评存在多个网络平台，不同网络平台的数据有不同的特点，获取不同网络平台的数据，扩充丰富影评文本数据集；

(3)获取影评文本：利用网络爬虫或网站提供的应用程序接口，根据目标网站制定数据获取方案，按照电影名称进行影评的获取；

(4)影评文本数据预处理：在原始文本中，对重复的评论数据进行文本去重，对文本中的标点符号或正则表达式进行分局，对句子进行分词和词性标注，对文本中没有实际意义的词进行去停用词操作；

(5)构建影评文本数据集：根据影评的长短或者影评网站给出的长影评短影评标签，将影评文本分别归类为长影评文本数据集和短影评文本数据集。

影评获取的主要内容包括：

(1)评论文本信息：获取评论正文文本以及评论发布时间；

(2)评论电影评分信息：获取用户对电影的评分或者推荐数；

(3)评论文本投票数：获取该条评论的点赞数或者赞同数。

2.影评情感词典构建过程

将开源的中文情感词典作为基准情感词典，采用情感词典扩展方法，在影评文本中识别出在情感词典中没有出现过的观点词并判断其情感倾向，最终构建出一个影评情感词典，其主要过程包括：

(1)获取情感词典资源：情感词的研究和分析是研究情感分析和观点挖掘基础且重要的环节，采用的情感词典主要包括知网(HowNet)情感词典、台湾大学简体中文情感极性词典、清华大学中文褒贬义词典；

(2)构建基础情感词典：将上述情感词典进行合并和去重，得到基础情感词典，并统计其中的正面情感词和负面情感词的数量；

(3)构建影评情感词典：采用情感点互信息算法(SO-PMI)提取出一定数量的所采集的影评语料作为情感词扩展到情感词典中，SO-PMI值的计算公式为：

其中，从基础情感词典中取出k个正面情感种子词 w_positive＝{p₁，p₂，...，p_j...，p_k}和k个负面情感种子词 w_negative＝{r₁，r₂，...，r_j…，r_k}，p_j是第j个正面情感种子词，r_j是第j个负面情感种子词，c_i是从步骤1的影评文本数据获取的候选情感词，i＝1，2，...，k，count(c_i，p_j)为c_i与p_j在影评文本中共现的句子数，count(c_i，r_j)为c_i与r_j在影评文本中共现的句子数，当SOPMI(c_i)＞0时，c_i为正面情感词；SOPMI(c_i)＜0 时，c_i为负面情感词；SOPMI(c_i)＝0时，c_i为中性词，将候选情感词c_i按照情感点互信息值扩展到基础情感词典中，构建情感词典D。

该过程的流程图如图2所示，依此构建出影评情感词典。

3.短影评评价对象识别

采用基于关联规则的方法挖掘出全部电影影评共有的全局评价对象和每部电影影评独有的个性化评价对象，利用word2vec扩展出上下文语义相似的词补充到全局评价对象和个性化评价对象，再通过K-means聚类算法将表达形式不一但意义相近的评价对象词归为同一类，形成完整的全局评价对象和个性化评价对象，结合两者生成每部电影的影评评价对象，其主要过程包括：

(p_f，i的估计值为：

M为本文采集到的全部影评语料，m_i为电影i的影评语料，sup_f，i表示f在 m_i中的支持度计数，sup_f表示f在M中的支持度计数，card(M)表示评论集合 M中不同电影数并用于归一化，DC_f值越高，表明f在M中分布越均匀，越有可能是全局频繁特征，将DC_f＞0的特征列为候选全局特征；

DR_f＝lg(|{d∈M|f∈d}|)(lg(|{d∈M|f∈d}|/|M|) -lg(|{d∈G|f∈d}|/|G|))

式中：d代表任意一条评论文本，M代表本文采集到的影评语料，G代表综合领域的中文语料，|{d∈M|f∈d}|/|M|是影评文本中包含特征f的文本的条件概率，|{d∈G|f∈d}|/|G|是中文语料中包含特征f的文本的条件概率， DR_f越大，相关度越高，高于一个阈值时可以认为f是该领域的特征，形成短影评文本的评价对象词，否则认为f与领域不相关，不将f作为领域特征；

短影评评价对象识别过程流程图如图4所示，依此便可识别短影评评价对象。

4.长影评评价对象识别

用主题模型LDA的变种模型MG-LDA发现长影评的主题分布以及每个主题下的词分布，再结合词向量模型word2vec进一步发现具有较大语义相似性的词，从而获取每部电影的影评评价对象，其主要过程包括：

其中，

表示除去文档d中第i个词外所有词所对应的窗口，

表示除去文档d中第i个词外所有词所对应的主题，要求得条件概率，先计算联合概率分布：

该式分解如下：

W是词汇个数，r为gl时，

N_s表示文档集里的句子数，n^d，s表示文档d中句子s的长度，

表示文档d里的窗口v中属于全局主题的词数；r为loc时，

表示文档d里的窗口v中属于局部主题的词数；

表示主题偏好分布的狄利克雷参数；

D是文档数，

表示文档d中属于全局主题的词数，

表示文档d中属于全局主题z的词数，

表示文档d里窗口v中属于局部主题的词数，

得到全局主题采样公式为：

其中，

的，四个因子的物理意义分别为生成词w_d，i、选择窗口v、选择w_d，i对应的是全局主题以及从全局主题中选择主题z；

得到局部主题采样公式为：

长影评评价对象识别过程流程图如图5所示，依此便可识别长影评评价对象。

5.情感分析及观点摘要生成过程

图6就是情感分析及观点摘要生成过程的流程图，其主要过程包括：

(1)统计长短影评评价对象对应的好评差评数：获取评价对象对应的影评的电影评分数，统计出评价对象的好评数和差评数，从而找到电影的优缺点以及争议性观点；

(2)对评论进行情感分析：获取评价对象优缺点以及争议性的评论，且挑选赞同数高的评论，将这些评论运用情感词典进行情感极性的分析，再结合评论对电影的评分数，将获得评论的情感分析结果；

(3)形成观点摘要：将上述结果综合，获取最受好评评价对象及其好评观点摘要，最受差评评价对象及其差评观点摘要，最具争议性评价对象及其争议性观点摘要，细粒度观点可为电影制片方和内容提供方提供决策性参考意见。

Claims

1.一种基于无监督的长短影评细粒度观点挖掘方法，其特征在于，包括以下步骤：

步骤1，影评文本数据采集：以社交网络平台和在线电影社区平台的历史数据为数据源，获取热门电影的评论文本信息、评论电影评分信息和评论文本投票数，根据影评的长短，分别得到由n部电影组成的短影评集合M_S＝{m_s1，m_s2，...，m_si...，m_sn}以及长影评集合M_l＝{m_l1，m_l2，...，m_li...，m_ln}，其中，m_si表示第i部电影的短影评集合，m_li表是第i部电影的长影评集合；

步骤2，情感词典的构建：将开源的中文情感词典作为基准情感词典，根据从基准情感词典中选出的在步骤1采集的影评数据中出现次数最多的正面和负面情感词，采用情感词典扩展方法，在影评文本中识别出在情感词典中没有出现过的观点词并判断其情感倾向，最终构建出一个适用于影评文本的情感词典D＝{w_positive，w_negative}，其中，w_positive表示正面情感词，w_negative表示负面情感词；

步骤3，短影评评价对象识别：针对从步骤1所构建的短影评集合，挖掘出全部电影短影评数据中共有的全局评价对象和每部电影影评独有的个性化评价对象，利用词向量模型扩展出上下文语义相似的词补充到全局评价对象和个性化评价对象，再通过机器学习聚类算法将表达形式不同但意义相近的评价对象词归为同一类，形成完整的全局评价对象和个性化评价对象，结合两者生成每部电影的短影评评价对象；

步骤4，长影评评价对象识别：针对从步骤1所构建的长影评集合，采用主题模型LDA的变种模型多粒度LDA发现长影评的主题以及每个主题下的词分布，再结合词向量模型进一步发现具有大于设定语义相似性的词，从而获取每部电影的长影评评价对象；

步骤5，细粒度观点挖掘分析：将步骤2所采集的影评文本数据的情感词典，分别应用在步骤3所获取的短影评评价对象与步骤4所获取的长影评评价对象，提取细粒度观点并对其进行分析统计，结合影评的电影评分数和该影评的推荐数，形成影评观点摘要。

2.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法，其特征在于，所述步骤1影评文本数据采集中，通过对不同社交网络平台和在线电影社区平台，利用网络爬虫或网站提供的应用程序接口进行长短影评的爬取，每条影评获取的内容包括：

(1)评论文本信息：获取评论正文文本以及评论发布时间；

(2)评论电影评分信息：获取用户对电影的评分或者推荐数；

(3)评论文本投票数：获取该条评论的点赞数或者赞同数；

将获取的影评进行数据预处理，根据影评的长短，分别得到短影评集合M_S和长影评集合M_l。

3.根据权利要求2中所述的基于无监督的长短影评细粒度观点挖掘方法，其特征在于，所述数据预处理包括文本去重、分句、分词、词性标注以及去停用词。

4.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法，其特征在于，所述步骤2情感词典构建中，主要包括：

(1)获取基础情感词典：将知网(HowNet)情感词典、台湾大学简体中文情感极性词典以及清华大学中文褒贬义词典合并去重，生成基础情感词典；

(2)基础情感词典扩展：将采用情感点互信息算法提取出的步骤1所采集的若干影评语料作为情感词扩展到所述基础情感词典中，情感点互信息值SOPMI(c_i)的计算公式为：

其中，从基础情感词典中取出k个正面情感种子词w_positive＝{p₁，p₂，...，p_j...，p_k}和k个负面情感种子词w_negative＝{r₁，r₂，...，r_j...，r_k}，p_j是第j个正面情感种子词，r_j是第j个负面情感种子词，c_i是从步骤1的影评文本数据获取的候选情感词，i＝1，2，...，k，count(c_i，p_j)为c_i与p_j在影评文本中共现的句子数，count(c_i，r_j)为c_i与r_j在影评文本中共现的句子数，当SOPMI(c_i)＞0时，c_i为正面情感词；SOPMI(c_i)＜0时，c_i为负面情感词；SOPMI(c_i)＝0时，c_i为中性词，将候选情感词c_i按照情感点互信息值扩展到基础情感词典中，构建情感词典D。

5.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法，其特征在于，所述步骤3包括：

(1)用FP-growth算法进行关联规则挖掘；

(2)采用word2vec扩展短影评文本的评价对象，用word2vec对全局短影评文本和每部电影的短影评文本分别训练生成词向量模型，利用模型发现与已识别的评价对象词语语义距离最近的r个词语作为评价对象词语的扩充，并对词性进行筛选，保留名词、形容词和动词，最后生成扩充后的评价对象；

(3)采用K-means聚类算法对评价对象进行聚类，选出一个最具代表性的词作为评价对象的标准表达方式。

6.根据权利要求5中所述的基于无监督的长短影评细粒度观点挖掘方法，其特征在于，所述步骤(1)包括：

首先，对全部短影评文本应用FP-growth算法，找出名词频繁项集，以领域一致度衡量名词频繁项集在领域内各个语料文本中分布的均匀程度，将分布均匀的名词频繁项集定义为候选全局特征，特征f的领域一致度DC_f定义如下：

M为全部影评语料，m_i为电影i的影评语料，p_f，i表示f的支持度，其估计值为：

sup_f，i表示f在m_i中的支持度计数，sup_f表示f在M中的支持度计数，card(M)表示M中不同电影数并用于归一化，DC_f值越高，表明f在M中分布越均匀，越有可能是全局频繁特征，将DC_f＞0的特征列为候选全局特征；

DR_f＝lg(|{d∈M|f∈d}|)(lg(|{d∈M|f∈d}|/|M|)-lg(|{d∈G|f∈d}|/|G|))

式中：d代表任意一条评论文本，G代表综合领域的中文语料，|{d∈M|f∈d}|/|M|是影评文本中包含特征f的文本的条件概率，|{d∈G|f∈d}|/|G|是中文语料中包含特征f的文本的条件概率，DR_f越大，相关度越高，高于设定阈值时认为f是该领域的特征，形成短影评文本的评价对象词，否则认为f与领域不相关，不将f作为领域特征。

7.根据权利要求5中所述的基于无监督的长短影评细粒度观点挖掘方法，其特征在于，所述步骤(3)包括：

第一步：计算已得到的全局评价对象词语在全局长影评数据中的词频，和个性化评价对象词语在对应的单个电影长影评数据的词频；

第二步：应用K-means算法对word2vec训练好的评价对象词向量聚类；

8.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法，其特征在于，所述步骤4长影评评价对象识别中，使用主题模型LDA的变式模型多粒度LDA(MG-LDA)抽取长影评文本的评价对象，再结合基于word2vec词向量模型的评价对象词扩展和词性筛选生成长影评文本目标评价对象，具体步骤如下：

(1)采用多粒度LDA模型挖掘长影评文本的可评价对象和方面特征：

第一步：将长影评文本处理成长影评文档列表docs，文档中的句子列表sents，文档中的词汇列表vocab，初始随机化vocab中每个词对应主题编号和窗口编号，窗口即局部主题在长影评文档中所占的区域，并且初始化vocab中所有词汇的各项计数，包括每个词被分配全局主题和局部主题次数，被分配给某个全局主题和局部主题多少次以及被分配给某篇文档的某个窗口多少次；

第二步：在设定的迭代次数下进行Gibbs采样迭代，以得到长影评文本中每个词对应的主题，对文档列表docs中的每个文档d中的每个窗口v进行全局主题采样和局部主题采样，主题采样的条件概率为

其中，

表示除去文档d中第i个词外所有词所对应的窗口，

表示除去文档d中第i个词外所有词所对应的主题，先计算联合概率分布：

则全局主题采样公式为：

其中，

局部主题的采样公式为：

由上述的采样公式进行采样，获取到文档中的全局和局部主题分布、主题对应的词分布以及方面特征，从中筛选出概率高于设定值的名词，作为长影评文本的评价对象词；

第三步：采用word2vec扩展长影评文本的评价对象词，利用word2vec训练出的长影评的词向量空间，利用模型发现与已识别的评价对象词语语义距离最近的n个词语作为评价对象词语的扩充，对词性进行筛选，保留名词、形容词和动词，最后生成扩充后的评价对象，构建完整的长影评评价对象。

9.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法，其特征在于，所述步骤5细粒度观点挖掘分析，将步骤2构建的情感词典应用于步骤3和4获取的评价对象的初步情感分析，加以考虑步骤1构建的长短影评中包含评价对象的影评评分数以及该影评的推荐数，形成每部影片的评价对象以及观点的情感极性，提取出每部影片中的每个评价对象的积极观点和消极观点，生成观点摘要，为电影制片方和内容供应商提供决策支持。