CN109034908A

CN109034908A - 一种结合排序学习的电影排名预测方法

Info

Publication number: CN109034908A
Application number: CN201810892082.3A
Authority: CN
Inventors: 杨亮; 周逢清; 林原; 林鸿飞; 滕琳
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2018-12-18

Abstract

一种结合排序学习的电影排名预测方法，属于数据挖掘技术领域，用于对电影的排名进行预测，要点是包括S1、电影数据获取与解析；S2、多类电影特征的抽取与拓展；S3、数据规整及标注对齐；S4、数据格式化以及评价指标领域化迁移；S5、利用排序学习模型预测电影排名结果。本发明针对电影排名预测主题，构建了从原始数据获取、特征工程、模型构建等完整的技术方案，提高了电影排名预测的性能。

Description

一种结合排序学习的电影排名预测方法

技术领域

本发明涉及数据挖掘技术领域，是一种结合排序学习的电影排名预测方法。

背景技术

随着现代社会的发展，电影已深入到人类生活的方方面面，成为人们在精神娱乐上不可或缺的一部分。电影票房排行作为一个比较同期上映电影的票房排名情况，不仅会影响影迷的观影选择，也对各大影视院线排场排片具有指导作用。面对上述海量的电影数据、资讯及评价等内容，如何从中挖掘相关信息，进而对电影票房实现预测一直是许多研究人员所热衷于探索的问题。

现阶段多数的研究成果主要集中于对电影票房的预测，或是对电影的盈亏或者票房成绩进行分类任务的探索。电影票房预测一直是研究的热点问题，而电影排名预测任务是电影票房预测的一个核心问题。电影票房排名指标对投资机构的投资回报风险评估以及投资决策有着重要的战略意义；能给影院提供排片工作的参考与指导，通过增加同期排名靠前的电影的排片率，提高上座率来最大化影院收益；以及为观影者提供优质的热门电影推荐，但是目前电影排名预测的效果还不是很令人满意。排序学习是基于机器学习提高排序结果的有效方法，不仅在信息检索领域有广泛的应用，也被许多其他研究领域所认同。从问题适用性和性能方面考虑，排序学习可为电影排名预测提供理论基础。

发明内容

本发明的目的是提供一整套完整的技术方案，从数据获取、数据解析与清洗、特征工程、标注对齐与划分以及结合排序学习方法实现对电影排名进行预测。

本发明解决现有技术问题所采用的技术方案：一种结合排序学习的电影排名预测方法，包括以下步骤：

S1、电影数据获取与解析：通过编写爬虫程序，利用HTML解析工具对网页中的有用数据信息进行解析并将其结构化进行存储，其处理方法如下：

A1、数据获取：确定获取电影数据的媒体网站，指定要获取电影排名数据的时间粒度以及时间跨度范围。通过编写网页爬虫程序，于目标电影媒体网站上按照指定的时间粒度和时间范围顺序爬取电影信息、排名数据以及相关媒体资讯网页。

A2、网页解析：借助BeautifulSoup工具解析将爬取的网页中的数据，通过HTML标签和属性信息，解析出于电影排名相关的信息，如电影当前排名，电影名称、电影上映时间等。

S2、多类电影特征抽取与拓展：结合排名的时序变化特征以及电影领域特征，抽取并拓展相关的时序、影院、出版单位三大类特征，具体特征描述如下：

B1、时序特征：电影排名作为一个比较同期电影票房高低的指标，会随着时间推移进行波动。因此时序在电影排名预测任务中是一类重要因素，可抽取如电影在当前时间粒度的排名、电影截止当前时间粒度上映的时长等特征作为时序特征。

B2、影院特征：电影票房统计的过程常以影院为单位将票房数据按照一定时间间隔上报至影片发行方，再由发行单位对票房数据进行分析、汇总和公布。如果电影在院线的上映时间长，或总的上映影院数量多，必然会对电影票房成绩乃至票房排名起到推进作用，以此可抽取某部电影在当前时间粒度下上映影院的数量、或者当前时间粒度上映影院的平均收益等特征作为影院特征。

B3、出版单位特征：许多影迷偏好选择口碑良好或者著名的出版单位的电影作品进行观看。排除合同的因素影响，各影视院线在排片排场时，也会综合电影工作室的制作水平、评价指标，优化这些工作室出版电影的排场时段、排片比率来提高上座率，从而增加收益。因此可以抽取电影对应的出版单位、电影制作的成本等特征作为出版单位特征。

S3、数据规整以及标注对齐：对数据缺失问题以及数据取值区间过大的问题进行处理，以及对数据的标注对齐和划分，具体处理方式如下：

C1、数据缺失处理：处理电影特征数据的过程中，存在着数值缺失问题，如果简单地舍弃这些数据，会造成大量数据的损失。因此针对不同的特征数据，可以采用不同的特征缺失值处理方式，如将缺失值置零、将缺失值置为特征的平均值、中位数、众数等，或者将缺失值置为与上一个时序置为一样的数值等，基本原则就是尽可能减少对数据集样本产生的影响。

C2、数据归一化：为了减小某些特征取值范围过大，而导致其他相对取值范围较小的特征的影响被忽略，通过下列线性函数将电影特征数据取值转换到[0,1]的范围，以提高排序学习模型训练的准确度和速度，归一化公式如下：

其中Feature_max为数据集中某个特征的最大值，Feature_min为数据集中某个特征的最小值。oldFeature为待归一化的特征数值，newFeature为归一化后的特征数值。

C3、数据标注的对齐与划分：电影媒体网站提供的电影票房排名可以作为数据标注。为实现电影排名预测的目标，标注对齐方式为：将某部电影的下一个时间粒度排名作为当前时间粒度相关特征数据的标注。标注的划分规则为：某个时间粒度电影的票房排名将电影划分成四档。排名在第1位为第一档。标注等级为3。排名在2-3名的电影划分为第二档，标注等级为2。排名处于4-10的电影划分为第三档，标注等级为1。排名在10名之后电影划分为第四档，标注等级分别为0。

S4、数据格式化以及评价指标领域化解释：将经过S3步骤处理后的数据转化成排序学习中常用的数据格式，以便构建排序学习模型，并将排序学习领域中相关的评价指标迁移值电影排名预测领域中，并重新进行解释，具体如下：

D1、数据格式化：排序学习中常用的数据格式定义如下：

其中参数<line>表示一条数据，每条数据占一行的位置。其中<label>表示电影的标注信息；<qid>表示电影的排名数据对应的时间信息；<feature>表示为特征的序号；<value>代表特征对应的数值；<remark>是备注信息(如设置为电影名称)；qid:是一个标识，表明这个字段标识的是<qid>的值，#是一个分隔符。

D2、信息检索(常有排序学习方法的应用)领域的常见的评价指标有P@n、MAP以及NDCG@n。

P@n在信息检索领域计算过程定义如下：

P@n指标对文档的相关性判定是二值(相关或不相关)，电影标注划分规则可知排名处于前10的电影被认为是“相关“。P@n指标迁移到电影排名预测任务中的意义可以理解为：在预测结果中排在前n的电影中真实排在前10的电影所占的比例。

上式为AP(平均准确率，Average Precision)的计算公式，其中AP_q表示某个查询q的平均准确率，其中I为指示函数。MAP(Mean Average Precision)指标则是所有查询的AP的均值，计算公式如下：

其中|Q|表示所有查询的数量，因此MAP指标迁移到电影排名预测任务中的意义就可以理解为：所有真实排名处于前10的电影在预测结果中排名靠前的平均集中程度。

DCG(Discounted Cumulative Gain)是信息检索领域内一种衡量检索结果质量的指标，计算公式定义为：

其中r(i)表示在检索结果中排在第i的文档的相关性等级。分子与文档相关性呈正相关关系，分母是根据文档排序位置的降权因子，所以相关性越高文档的排在越靠前的位置，DCG的值会越高。IDCG(Ideal Discounted Cumulative Gain)表示在理想排序状态下DCG的值。DCG指标经过正则化后就变成了NDCG，计算公式定义为：

C3中将电影依据票房排名划分成四档，标识不同排名区间的电影排名等级，与信息检索领域中“相关性”的概念对应，结合NDCG指标的计算方式可知，该指标能够更加准确地描述模型的排名预测效果。因此，NDCG指标迁移到电影排名预测任务中的意义重新解释为：电影排名预测结果的质量。

S5、利用排序学习模型预测电影排名结果：对S1-S4中构建的数据集进行训练集和测试集划分，利用排序学习方法于在训练集上训练电影排名预测模型，再于测试集上对电影排名预测模型进行预测性能的检测。

本发明的有效效果在于：本发明首次在电影排名预测中引入了排序学习方法，结合排序学习算法在电影排名预测的问题适用性和优秀性能，在电影排名预测任务上表现出良好的效果。同时，本发明还提供了一种从原始数据获取与解析、特征工程、数据规整到模型构建的完整流程框架，为电影排名预测任务的实施例提供了便利。在实施例(选取BoxOfficeMojo电影媒体网站，选取以“周”为时间粒度，时间范围为2015-2017年的电影排名网页数据)上，利用排序学习方法(MART、LambdaMART、Random Forests)在数据集上构建电影排名预测模型，在预测结果上得到了75.15％的P@10值(Random Forests)，98.53％的MAP值(LambdaMART)，以及97.58％的NDCG@10值(Random Forests)，这些指标均高于基本的线性回归模型及神经网络模型，验证了本文发明的面向电影排名预测的排序学习模型的有效性。

附图说明

图1为本发明面向电影排名预测的排序学习模型的流程示意图

图2为本发明数据处理流程示意图

图3为本发明实施例中选取的BoxOfficeMojo电影媒体网站的数据获取示例页面

图4为本发明实施例中格式化后的部分数据示意截图

具体实施方式

以下结合附图及具体实施方式对本发明进行说明：

实施例：

根据上述针对于本发明所涉及方法和系统具体实施方式的描述，结合具体实施例进行说明。

本实施例选取的电影媒体网站是BOM(BoxOfficeMojo，网址：www.boxofficemojo.com)，选取以“周”为时间粒度，时间范围为2015-2017年。面向电影排名预测的排序学习模型构建的具体步骤如下：

1、电影数据获取与解析：选取的抓取数据的时间粒度为“周”，通过BOM网站提供的URL链接:

http://www.boxofficemojo.com/weekend/chart/？view＝main&yr＝2017&wknd＝12&p＝.htm，可以访问到电影周末票房排名数据，如图3所示。分析该电影媒体网站的统一资源定位符(URL)得到其中各个参数的含义，具体解释如表1所示

表1 BOM网站URL链接参数意义

根据表1中对URL进行参数设置，通过编写爬虫采集了2015-2017年三年的电影周末票房排名网页内容(view、yr、wknd三个参数的组合共4*3*52＝624个页面)，分析网页文本的源代码，结合BeautifulSoup网页文本解析工具，主要利用table标签以及相应的子标签如th、tr、td等标签，解析出图2中呈现在表格内部的电影数据。

2、多类电影特征的抽取与拓展：在第1步中获得的数据的基础上，对每周的电影周末票房数据，结合排名的时序变化特征以及电影领域特征，抽取并拓展相关的时序、影院、出版单位三大类特征，其中时序特征包括但不限于：“本周排名”、“上周排名”、“电影票房较上周变化百分比”、“本周周末电影票房”、“电影总票房”和“电影上映周数”；影院特征包括但不限于：“电影上映影院数”、“电影上映影院数较上周变化量”和“影院平均票房”；出版单位特征包括但不限于：“工作室名称”和“电影成本”。出版单位特征中的“工作室名称”是通过文本形式呈现，而数据集需要数值化特征。通过统计分析方法对“工作室名称”文本进行拓展。具体对数据集所处的时间范围(2015-2017年)内的所有工作室出版电影数量和票房进行统计分析，从而拓展出“工作室上映电影数”、“工作室上映电影总票房”和“工作室上映电影平均票房”三个数值特征。具体特征描述如表2所示：

表2 电影排名相关特征描述

3、数据规整及标注对齐：当某一部电影是首周上映，那么该电影的“上周排名”、“电影票房较上周变化百分比”以及“电影上映影院数较上周变化量”三个特征会存在数据缺失，为了充分利用这部分数据并减小缺失值带来的影响，处理策略为：将“电影票房较上周变化百分比”和“电影上映影院数较上周变化量”两个数据置零，即默认该电影的本周票房和上映影院数与“上周”的数据保持持平；同时将该电影的“上周排名”排名置为取值区间的中间值。还有一些电影没有提供“电影成本”数据因而存在缺失的情况，这里统一将对应的缺失值置为所有电影成本的平均值，其他存在缺失的数据也统一使用特征平均值进行处理，以尽可能减少对数据集样本产生的影响。

根据数据归一化公式

将数据转换到[0,1]区间，以提高排序学习模型训练的准确度和速度。

为实现电影排名预测的目的，对数据标注对齐的方式为：将下一周的电影排名作为当前周的数据特征的标注信息。按照下表的标注规则，对标注进行更具体的划分处理。

4、数据格式化：将处理好的电影排名预测数据、特征、标注等信息，按照<line>:＝<label>qid:<qid><feature>:<value><feature>:<value>...<feature>:<value>#<remark>所示的格式，进行格式化，处理之后的部分数据样例如图4所示。

5、利用排序学习模型预测电影排名：通过对数据的分析、处理与整合，最终的数据集有总共超过16000条的结构化数据。在保证四档电影排名类别分布均匀的前提下将整个数据集划分成训练集(约12400条数据)和测试集(约3600条数据)，其中测试集包括(按照年份和周数)：1502，1505，1506，1514，1516，1519，1520，1521，1525，1528，1546，1602，1616，1621，1624，1631，1632，1635，1643，1644，1646，1647，1708，1717，1718，1719，1721，1724，1733，1738，1742，1743，1744。基础对比实验采用的模型是线性回归模型和单隐藏层前馈神经网络模型。本实施例中使用的排序学习模型包括MART、LambdaMART和Random Forests模型。电影排名预测的实验结果如表3所示。

表3 实验P@n、MAP、NDCG@n指标结果

从电影排名预测结果对比中可以看出MART、LambdaMART和Random Forests这三种排序学习方法的预测结果的P@n指标都要高于线性回归和神经网络模型。从MAP指标上来看，排序学习模型对前10电影预测结果相比线性回归方法提高了4～5个百分点，即预测排序结果中少有将真实排名在10名开外的电影预测到前10之中，对真实排在前十电影的排名预测结果总体更加集中和靠前。从NDCG@1和NDCG@10指标可以看出Random Forests模型的对电影排名预测质量最高，特别是在对排名第一的电影的预测结果上。

表4 各预测模型对电影的排序结果

表4是BOM网站在2017年第42周发布的电影周末票房排名结果以及各排序学习模型的预测结果。通过和官方发布数据对比可知，线性回归模型在这周的电影预测中表现不佳，将排在第一位的电影预测错误，而且在4-10的预测结果中，将一些10名开外的电影排进了前10。Random Forests模型对排名靠前的电影预测最为准确，排名在前8的都预测正确，9-10名的预测虽然出现了偏差，不过整体效果仍然最好。MART模型的预测效果次之。LambdaMART方法的模型对前2名都预测正确(TylerPerry's Boo 2！A Madea Halloween：黑疯婆子的万圣节2、Geostorm：全球风暴)，而在3、4名的电影预测结果与真实排名相反(Blade Runner 2049：银翼杀手2049、Happy Death Day：忌日快乐)。

以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种结合排序学习的电影排名预测方法，其特征在于，包括以下步骤：

S1、电影数据获取与解析；

S2、多类电影特征的抽取与拓展；

S3、数据规整及标注对齐；

S4、数据格式化及评价指标领域化迁移；

S5、利用排序学习模型预测电影排名结果。

2.根据权利要求1所述的一种结合排序学习的电影排名预测方法，其特征在于，所述的步骤S1、电影数据获取与解析：通过编写爬虫程序，利用HTML解析工具对网页中的有用数据信息进行解析，所述用数据信息包括媒体网站数据的获取及电影相关信息的解析。

3.根据权利要求1所述的一种结合排序学习的电影排名预测方法，其特征在于，所述的步骤S2、多类电影特征抽取与拓展：结合排名的时序变化特征以及电影领域特征，抽取并拓展相关的时序、影院、出版单位三类特征。

4.根据权利要求1所述的一种结合排序学习的电影排名预测方法，其特征在于，所述的步骤S3、数据规整以及标注对齐：解决数据缺失问题、对数据取值区间过大进行归一化处理，以及对数据的标注对齐和划分。

5.根据权利要求1所述的一种结合排序学习的电影排名预测方法，其特征在于，所述的步骤S4、数据格式化以及评价指标领域化解释：将电影的相关特征和排名标注数据转化成排序学习中常用的数据格式，以便构建排序学习模型，并将排序学习领域中相关的评价指标迁移至电影排名预测任务中，结合领域知识进行重新解释。

6.根据权利要求1所述的一种结合排序学习的电影排名预测方法，其特征在于，所述步骤S5、利用排序学习模型预测电影排名结果：基于构建的电影排名相关的数据集，利用排序学习方法对电影进行排名预测，排序学习模型包含MART、LambdaMART和Random Forests模型。

7.根据权利要求4所述的一种结合排序学习的电影排名预测方法，其特征在于，步骤S3具体包括：

C1、数据缺失处理：针对不同类型的电影特征数据，采用不同的特征缺失值处理方式，所述处理方式包括将缺失值置零或者将缺失值置为特征的平均值、中位数、众数或者将缺失值置为与上一个时间粒度相同的数值；

C2、数据归一化：通过下列线性函数将电影特征数据取值转换到[0,1]的范围，以提高排序学习模型训练的准确度和速度，归一化公式如下：

其中Feature_max为数据集中某个特征的最大值，Feature_min为数据集中某个特征的最小值，oldFeature为待归一化的特征数值，newFeature为归一化后的特征数值；

C3、数据标注的对齐与划分：将某部电影的下一个时间粒度排名作为当前时间粒度相关特征数据的标注，根据特定时间粒度电影的票房排名将电影划分成四档。

8.根据权利要求3所述的一种结合排序学习的电影排名预测方法，其特征在于步骤S2中，所述的时序特征包含：本周排名、上周排名、电影票房较上周变化百分比、本周周末电影票房、电影总票房和电影上映周数；影院特征包含：电影上映影院数、电影上映影院数较上周变化量和影院平均票房；出版单位特征包含：工作室名称和电影成本。

9.根据权利要求7或8所述的一种结合排序学习的电影排名预测方法，其特征在于步骤S4中，所述的数据格式化表示为：

其中参数<line>表示一条数据，每条数据占一行的位置，其中<label>表示电影的标注信息；<qid>表示电影的排名数据对应的时间信息；<feature>表示为特征的序号；<value>代表特征对应的数值；<remark>是备注信息。

10.根据权利要求9所述的一种结合排序学习的电影排名预测方法，其特征在于，步骤S3中，对数据标注对齐和划分的方法为：排名在第1位为第一档，标注等级为3；排名在2-3名的电影划分为第二档，标注等级为2；排名处于4-10的电影划分为第三档，标注等级为1；排名在10名之后电影划分为第四档，标注等级分别为0。