CN102708164B

CN102708164B - 电影期望值的计算方法及系统

Info

Publication number: CN102708164B
Application number: CN201210126129.8A
Authority: CN
Inventors: 李寿山; 庞磊; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2012-04-26
Filing date: 2012-04-26
Publication date: 2014-11-05
Anticipated expiration: 2032-04-26
Also published as: CN102708164A

Abstract

本发明揭示了一种电影期望值的计算方法，其方法包括：收集微博上即将上映电影的评论信息并进行人工标注获得训练样本，使用机器学习的方法，用获得的标注样本训练最大熵分类器，从而完成对即将上影电影评论的自动分类，最后，通过对某一电影评论的分类结果进行计算获得该电影的期望值。本发明还公开了一种电影期望值的计算系统。本发明的方法和系统简单可行、省时省力，而且电影期望值的计算结果真实可靠。

Description

电影期望值的计算方法及系统

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种电影期望值的计算方法及系统。

背景技术

目前，人们越来越习惯于在网络上表达自己的观点和情感。在网络上存在大量的带有情感倾向性的文本，这些倾向性文本往往以商品评论、论坛评论、或博客的形式存在。为了自动获取和分析此类主观信息，文本情感分析(Sentiment Analysis)的研究得到了迅速发展，受到学术界和商业界的密切关注。

众所周知，电影信息库的建立对于人们了解和查找众多电影信息来说极为重要。而电影信息通常包括电影导演、主要演员、投资情况、电影期望值等，其中，电影期望值是指，某一电影即将上映之前，大众对这一电影的期待程度。通过此期望值人们可推断这部即将上映的电影值不值的去看。

然而，现有的电影期望值计算方法主要是通过问卷调查形式进行的，此方法需要设计问卷，然后组织被调查者进行问卷回答，再根据统计的问卷结果进行计算出电影期望值，此方法不免造成额外的人力成本，工作效率低，且由于被调查的人群相对集中，因而不具有代表性，基于此方法建立的电影信息库中，电影期望值这一指标也往往也实际情况不尽相符。

发明内容

本发明的目的在于提供一种计算结果真实可靠、简单可行、省时省力的电影期望值的计算方法及系统。

为解决上述技术问题，本发明的技术方案是这样实现的：

一种电影期望值的计算方法，包括如下步骤：

S1、采集待上映电影一的评论信息；

S2、将所述评论信息按情感分类标注为正面评论或负面评论，以获得训练样本；

S3、利用所述训练样本作为训练语料训练最大熵分类器；

S4、采集待上映电影二的评论信息；

S5、利用所述最大熵分类器对待上映电影二的评论信息进行分类；

S6、获取所述最大熵分类器的分类结果，计算待上映电影二的期望值。

优选的，在上述电影期望值的计算方法中，所述待上映电影一的评论信息和待上映电影二的评论信息来自微博。

优选的，在上述电影期望值的计算方法中，所述步骤S2中，还包括将所述评论信息标注为中立评论。

优选的，在上述电影期望值的计算方法中，所述步骤S2中，还包括对所述待上映电影一的评论信息进行分词。

优选的，在上述电影期望值的计算方法中，所述步骤S1中，还包括对所述评论信息进行文字预处理，该文字预处理包括：去掉所述评论信息所对应的用户名、去掉所述评论信息中的网络链接以及将所述评论信息中的表情图片替换成相应的文本。

本发明还公开了一种电影期望值的计算系统，该系统包括：

样本采集单元，用于采集待上映电影一的评论信息；

样本标注单元，用于将所述评论信息按情感分类标注为正面评论或负面评论，以获得训练样本；

最大熵分类器训练单元，利用所述训练样本作为训练语料训练最大熵分类器；

评论信息采集单元，用于采集待上映电影二的评论信息；

最大熵分类器，用于对待上映电影二的评论信息进行分类；

电影期望值计算单元，获取所述最大熵分类器的分类结果，计算待上映电影二的期望值。

优选的，在上述电影期望值的计算系统中，所述待上映电影一的评论信息和待上映电影二的评论信息来自微博。

优选的，在上述电影期望值的计算系统中，所述样本标注单元还用于将所述评论信息标注为中立评论。

优选的，在上述电影期望值的计算系统中，所述电影期望值的计算系统还包括分词单元，所述分词单元用以对所述待上映电影一的评论信息进行分词。

优选的，在上述电影期望值的计算系统中，所述电影期望值的计算系统还包括文字预处理单元，所述文字预处理单元用于对所述待上映电影一的评论信息进行文字预处理，该文字预处理包括：去掉所述评论信息所对应的用户名、去掉所述评论信息中的网络链接以及将所述评论信息中的表情图片替换成相应的文本。

与现有技术相比，本发明所使用的微博平台可以提供极其丰富的文本资源并能够提供最现实可靠的样本。使用本发明的方法和系统进行电影期望值的计算，有助于电影发行厂商准确的了解该电影的票房预期以及当前的宣传情况，对以后的宣传策略有很大帮助。本发明是利用自然语言处理技术对微博文本进行情感分类，来计算电影的期望值，该方法简单可行，比传统的统计方法省时省力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明具体实施方式中电影期望值的计算方法的流程图；

图2是图1所示的实施方式中电影期望值计算方法的工作原理图。

具体实施方式

为了便于叙述，先将本发明涉及的术语与标记介绍如下：

电影期望值(Movie expected value)：某一电影即将上映之前，大众对这一电影的期待程度。

情感分类(Sentiment Classification)：一种将文本按照所表达的情感极性分为褒、贬的分类任务；

机器学习(Machine Learning)：是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

结合图1和图2所示，在本实施方式中，电影期望值的计算方法包括如下步骤：

S1、采集待上映电影一的评论信息；

S3、利用所述训练样本作为训练语料训练最大熵分类器；

S4、采集待上映电影二的评论信息；

步骤S1中，待上映电影一的名称并不做限制，可以任意选取，待上映电影一也可以包括多部待上映的电影。待上映电影一的评论信息优选来自微博平台，例如新浪微博、腾讯微博等。搜索引擎可根据待上映电影一的名称在微博评论文本中搜索到相应的电影评论信息，并随机抽取一定数量的评论信息进行汇总。易于想到，评论信息汇总的越多，电影期望值的计算结果越可靠。

微博是web2.0时代新兴起的一种集成化、开放化的互联网社交服务。它打通了移动通信网和互联网的界限，用户可以通过手机、IM软件和外部API接口等途径，即时向外发布140字以内的文本，越来越受到互联网用户的青睐。随着微博用户的迅速增长，微博的发布量也在急速增长，如此大规的微博文本中包括大量的评论文本。微博平台用户数量庞大，有海量的微博评论，使得电影期望值的计算结果真实可靠。

本实施方式所使用的分类方法是基于机器学习的文本分类方法，所以，语料的准备是本技术方案的基础。数量充足，质量可靠的语料对于训练一个性能优越的分类器具有重要意义。由于，没有现成的公用语料，我们所使用的语料都是人工标注的。

语料的选取应当忠实于语言的原貌。本实施例是基于微博的电影期望值计算方法，所以所用到的语料(待上映电影一的评论信息)都是从微博平台上获取的，由于本文是针对中文文本的情感分类，所以我们可以选择目前最大的中文微博平台——新浪微博，来获取相应的微博评论作为语料。微博语料格式非常自由，特别是在新浪微博平台上，由于加入了很多多媒体的应用，使得微博内容变得非常丰富，但是，在另一方面便给自然语言处理带来了困难。为了确保语料的格式统一，还需要对语料进行预处理。

微博主要涉及三类比较明显的特征，在这些特征中，有些特征对文本的情感分类有所帮助，有些特征反而会影响情感分类的效果。所以在标注语料前，我们需要对这些特征进行预处理。这三类特征为：

1)用户名(Usernames)：微博用户在发布微博时，经常为了回复其他用户，在所发布的微博中会包含其他用户的名字。例如，“小仙安娜丽丝：sinjio乖乖:汤唯的气质和气场越来越强大我喜欢他俩，气质般配。气场超合！”其中“+用户名：”是用来回复该用户的。用户名对分类没有任何帮助，如果用一个有意义的词来作为用户名，反而会影响分类效果，所以，在预处理过程中要直接去掉微博评论中的用户名。

2)网页链接(Link)：在新浪微博平台上，为了使信息共享丰富化，微博用户在发布微博时经常引用一些新闻、文章、图片或视频，通常是将链接地址放在微博末端，以http开头，如：http://t.cn/zO5wbFu。一条微博文本中可以包含一个或多个网页链接。这些特征对文本情感分类没有任何帮助，所以，在预处理过程中要直接将其过滤。

3)表情图片(Emoticon)：表情图片在微博评论中经常出现，表情图片对评论文本的情感分类是很有帮助的，所以，在预处理过程中，将表情图片替换为文本表示。然后作为文本情感特征进行情感分类。例如，“就算冲着演员也得去欣赏呐在预处理阶段，我们将替换为文本“[太开心]”。

步骤S2用以对步骤S1中的评论信息进行分类，以获得训练样本。具体地将，评论信息被人工分类为正面评论(很期待)和负面评论(表示反感)，在其他实施方式中，评论信息还可以分类有中立评论，即没有标明立场。

为了使人工标注语料达到非常高的准确率，所有语料可以由两人分别标注一遍，然后将两人标注一致的语料选取为最终语料。本实施例中，待上映电影一的评论信息共采集到1850篇，人工标注将语料分为三类：正面评论、负面评论、中立评论，其中，中立评论文本有819篇，正面评论文本有523篇，负面评论文本有508篇。

所述步骤S2中，还包括对所述待上映电影一的评论信息进行分词。本发明针对中文文本没有明显分词信息的问题，使用现有分词工具对收集到的语料进行分词。分词可以采用各种方法，如最大概率法、最大匹配法、条件随机场方法等。施例采用实验室开发的基于100M训练样本和条件随机场分词方法的分词软件，来实现语料的分词。条件随机场分词方法在新词识别方面有独特的优势，有利于帮助在微博文本中识别新出现的词，进而保证分词的准确率。

步骤S3利用步骤S2中的训练样本作为训练语料训练最大熵分类器。最大熵模型能够较为容易地对多类分类问题进行建模，并且给各个类别输出一个相对客观的概率值结果，便于后续推理步骤使用。同时，最大熵的训练效率相对较高。

在预测时，假设X就是一个由特征构成的向量，变量y的值为样本的类别。p(y|X)是指系统对某个样本预测为某一类别的概率。最大熵模型要求p(y|X)在满足一定约束的条件下,必须使下面定义的熵取得最大值：

H (p) = - \underset{X, y}{Σ} p (y | X) \log (y | X)

这里的约束条件实际上就是指所有已知的事实，一般可以用以下的方式来表述：

f_{i} (X, y) = \{\begin{matrix} 1, if (X, y) satisifies certain condition \\ 0, else \end{matrix}, i = 1,2,3, . . ., n

其中，f_i(X,y)为最大熵模型的特征，n为所有特征的总数，可以看到：这些特征描述了向量X与类别y的联系，最终概率输出为：

p (y | Z) = \frac{1}{Z (X)} \exp (\underset{i}{Σ} λ_{i} f_{i} (X, y))

Z (X) = \underset{y}{Σ} \exp (\underset{i}{Σ} λ_{i} f_{i} (X, y))

由于最大熵分类器是一个二元分类，所以对于一个三元分类问题要训练两个分类器，中立评论与正面评论+负面评论做为二元分类来训练分类器，正面评论与负面评论做为二元分类来训练分类器。

步骤S4～S6是采用步骤S3中的最大熵分类器对待上映电影二的评论信息进行分类，最后通过分类结果进行计算待上映电影二的期望值。电影期望值＝正面评论数目/(正面评论数目+负面评论数目)*100％。

为了检测本实施例的方法在计算电影期望值方面的准确率，本发明对分类器的分类结果做了测试实验。测试样本是经过人工标注了某一特定电影的评论，其中，中立评论有150篇，正面评论有150篇，负面评论有150篇。其中，“准确率”代表在测试过程中，分类器能正确的将测试语料分到所属类别中去(即在分类结果中，准确率表示正确分类结果占所有测试语料的比例)。由于在人工标注语料中，中立评论文本有819篇，正面评论+负面评论有1031篇。为了使训练语料数据达到平衡，我们随机的从两类评论中各抽取出800篇语料。在训练过程中本发明使用词的Unigram+Bigram作为特征进行分类器训练，分类器模型选用最大熵分类器模型。实验结果表明，在中立评论、正面评论+负面评论分类中，使用该分类器准确率能达到94.3％。在人工标注语料中，正面评论523篇，负面评论508篇。为了使训练语料数据达到平衡，正面评论与负面评论的分类也叫做情感极性分类，我们随机的从两类评论中各抽取出500篇语料。使用最大熵分类器模型，训练中使用Unigram+Bigram作为特征进行分类器训练，实验结果表明，在情感极性分类中，使用该方法训练的分类器的准确率能达到88.6％。可以看出上述分类中，最终分类准确率为94.3％*88.6％，即83.5％。所以本发明在计算电影期望值方面，能达到较高的准确率。

本发明中，待上映电影一和待上映电影二可以为同一部电影，也可以是不同的电影。待上映电影一目的在于作为样本以训练最大熵分类器。

本发明实施例还提供了一种电影期望值的计算系统，该系统包括：样本采集单元，用于采集待上映电影一的评论信息；

评论信息采集单元，用于采集待上映电影二的评论信息；

最大熵分类器，用于对待上映电影二的评论信息进行分类；

在上述电影期望值的计算系统中，所述待上映电影一的评论信息和待上映电影二的评论信息优选来自微博；所述样本标注单元还用于将所述评论信息标注为中立评论；所述电影期望值的计算系统还包括分词单元，所述分词单元用以对所述待上映电影一的评论信息进行分词；所述电影期望值的计算系统还包括文字预处理单元，所述文字预处理单元用于对所述待上映电影一的评论信息进行文字预处理，该文字预处理包括：去掉所述评论信息所对应的用户名、去掉所述评论信息中的网络链接以及将所述评论信息中的表情图片替换成相应的文本。

综上所述，本发明通过收集微博上即将上映电影的评论信息并进行人工标注获得训练样本，使用机器学习的方法，用获得的标注样本训练最大熵分类器，从而完成对即将上影电影评论的自动分类，最后，通过对某一电影评论的分类结果进行计算获得该电影的期望值。与现有技术相比，本发明的优点在于：本发明所使用的微博平台可以提供极其丰富的文本资源并能够提供最现实可靠的样本。使用本发明的方法和系统进行电影期望值的计算，有助于电影发行厂商准确的了解该电影的票房预期以及当前的宣传情况，对以后的宣传策略有很大帮助。本发明是利用自然语言处理技术对微博文本进行情感分类，来计算电影的期望值，该方法简单可行，比传统的统计方法省时省力。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种电影期望值的计算方法，其特征在于，包括如下步骤：

S1、采集待上映电影一的评论信息,对所述评论信息进行文字预处理，该文字预处理包括：去掉所述评论信息所对应的用户名、去掉所述评论信息中的网络链接以及将所述评论信息中的表情图片替换成相应的文本；

S2、对所述待上映电影一的评论信息进行分词,将所述评论信息按情感分类标注为正面评论或负面评论，以获得训练样本；

S3、利用所述训练样本作为训练语料训练最大熵分类器,其中，

假设X是一个由特征构成的向量，变量y的值为样本的类别，p(y|X)是指系统对某个样本预测为某一类别的概率，最大熵模型要求p(y|X)在满足一定约束的条件下,必须使下面定义的熵取得最大值：

H (p) = - \underset{X, y}{Σ} p (y | X) \log (y | X)

所述的约束条件是指所有已知的事实，用以下的方式来表述：

f_{i} (X, y) = \{\begin{matrix} 1, if (X, y) satisifies certain condition \\ 0, else, i = 1,2,3, . . ., n \end{matrix}

其中，f_i(X,y)为最大熵模型的特征，n为所有特征的总数，最终概率输出为：

p (y | Z) = \frac{1}{Z (X)} \exp (\underset{i}{Σ} λ_{i} f_{i} (X, y))

Z (X) = \underset{y}{Σ} \exp (\underset{i}{Σ} λ_{i} f_{i} (X, y))

；

S4、采集待上映电影二的评论信息；

2.根据权利要求1所述的电影期望值的计算方法，其特征在于，所述待上映电影一的评论信息和待上映电影二的评论信息来自微博。

3.根据权利要求1所述的电影期望值的计算方法，其特征在于，所述步骤S2中，还包括将所述评论信息标注为中立评论。

4.一种电影期望值的计算系统，其特征在于，该系统包括：

样本采集单元，用于采集待上映电影一的评论信息；

文字预处理单元，所述文字预处理单元用于对所述待上映电影一的评论信息进行文字预处理，该文字预处理包括：去掉所述评论信息所对应的用户名、去掉所述评论信息中的网络链接以及将所述评论信息中的表情图片替换成相应的文本;

分词单元，所述分词单元用以对所述待上映电影一的评论信息进行分词;

最大熵分类器训练单元，利用所述训练样本作为训练语料训练最大熵分类器,其中，

H (p) = - \underset{X, y}{Σ} p (y | X) \log (y | X)

f_{i} (X, y) = \{\begin{matrix} 1, if (X, y) satisifies certain condition \\ 0, else, i = 1,2,3, . . ., n \end{matrix}

p (y | Z) = \frac{1}{Z (X)} \exp (\underset{i}{Σ} λ_{i} f_{i} (X, y))

Z (X) = \underset{y}{Σ} \exp (\underset{i}{Σ} λ_{i} f_{i} (X, y))

；

评论信息采集单元，用于采集待上映电影二的评论信息；

最大熵分类器，用于对待上映电影二的评论信息进行分类；

5.根据权利要求4所述的电影期望值的计算系统，其特征在于，所述待上映电影一的评论信息和待上映电影二的评论信息来自微博。

6.根据权利要求4所述的电影期望值的计算系统，其特征在于，所述样本标注单元还用于将所述评论信息标注为中立评论。