CN111523943A

CN111523943A - 一种电影票房预测模型的构建方法及电影票房预测方法

Info

Publication number: CN111523943A
Application number: CN202010334504.2A
Authority: CN
Inventors: 李玉华; 唐天元; 李瑞轩; 辜希武
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-11

Abstract

本发明属于电影票房时间序列预测领域，具体涉及一种电影票房预测模型的构建方法及电影票房预测方法，包括：采用自注意力机制，提取历史每天对待预测电影所有评论信息的特征矩阵并将其转换为评论特征向量；对历史每天的评论特征向量和票房实际数据进行向量拼接，构建训练样本集，并采用双向编码器，得到训练样本集对应的历史票房事件特征；采用解码器，基于历史票房事件特征计算每个样本的注意力分，并基于每个样本的注意力分，计算该样本的事件特征；基于每个样本的事件特征，预测得到该样本内每天的票房预测值。本发明使用了短评论的自注意力机制以及编码器解码器模型，提取更具相关性的数据特征，有效提高电影票房预测精度。

Description

一种电影票房预测模型的构建方法及电影票房预测方法

技术领域

本发明属于电影票房时间序列预测领域，更具体地，涉及一种电影票房预测模型的构建方法及电影票房预测方法。

背景技术

时间序列主要研究的是随着时间变化而变化的，并且含有规律的数字序列。时间序列预测分析研究就是对这些变化的数字进行处理、分析并发现其中的变化规律从而达到预测后续走势的目的。在实际生活中，含有时间序列的现象有很多，比如股票的走势，商场物品价格的变化，火车站进出人流量的变化等。

时间序列预测问题是根据分析某现象的历史数据变化得出规律来推断未来一段时间内该现象的变化趋势。时间序列预测分析研究主要有两个关键点：特征融合和预测模型。特征融合中的特征主要包含结构化的数据和非结构化的媒体数据。结构化数据是指相关现象统计的结构化指标，而非结构化的媒体数据主要指视频，音频文本等。对非结构化的媒体数据进行特征融合是提高时间序列预测准确性的关键。

传统的时间序列预测模型以统计学方法为主，主要有回归分析和移动平均法，而自回归求和移动平均模型(ARIMA)是统计学方法中运用于时间序列预测的最广泛的方法之一，但它的缺点十分明显，ARIMA模型要求时序数据是稳定的，或者是通过差分化后是稳定，并且本质上是只能模拟线性关系的时序数据，对非线性关系的数据不能拟合。所以比如股票等非稳定的时序数据无法用ARIMA进行预测。

所以随着神经网络技术的发展，时间序列预测模型不再局限于传统的统计学模型，卷积神经网络也是一种有效预测时间序列的网络，卷积神经网络有四个特点：局部连接，权值共享，池化，多层链接。它比较于传统的机器学习能够处理多维数据的输入。但是因为卷积神经网络的强先验假设即在使用当前数据样本进行训练时，模型的学习结果只会受到当前样本输入的影响，与历史的输入样本毫无关系。但是这是不符合实际情况的，特别是在时间序列的样本学习中，未来的趋势变化和历史趋势有着紧密的关系，无法人为的假定割裂，所以循环神经网络孕育而生。循环神经网络最大创新在于当前时刻的输入不仅仅是当前时刻的样本，还有从历史样本中提取的特征。

然而，现有的电影票房预测分析技术主要根据电影宣发技术与票房数据进行预测，没有考虑到电影评论对票房的影响，以及票房历史数据对票房有分时间段的偏重影响，严重影响电影票房预测的精度。

发明内容

本发明提供一种电影票房预测模型的构建方法及电影票房预测方法，用以解决现有电影票房预测方法中因考虑因素不全面导致票房预测精度不高的技术问题。

本发明解决上述技术问题的技术方案如下：一种电影票房预测模型的构建方法，包括：

S1、采用自注意力机制，提取历史每天对待预测电影的所有评论信息的特征矩阵，并对每天的所述特征矩阵进行矩阵转换，得到评论特征向量；

S2、对历史每天的所述评论特征向量和票房实际数据进行向量拼接，以构建训练样本集，每个样本由相邻多天对应的所述拼接形成的向量构成，并采用基于正向神经网络和后向神经网络的编码器，编码得到由最终隐含层输出和最终输出构成的所述训练样本集对应的历史票房事件特征；

S3、采用解码器，基于所述历史票房事件特征，计算每个样本的注意力分，并基于每个样本的注意力分对历史各天对应的所述最终输出之间进行加权计算，得到该样本的事件特征；基于每个样本的事件特征，预测得到该样本内每天的票房预测值；

S4、基于损失函数，计算历史每天的所述票房预测值相对票房实际值的损失，以优化所述编码器和所述解码器的参数，重复执行S2，直至达到损失预设要求，得到由编码器和解码器构成的票房预测模型。

本发明的有益效果是：本方法提供的基于电影评论和注意力机制的电影票房预测预模型构建方法，通过自注意力机制对具有文本长度短但情感内容丰富的电影评论进行特征提取，排除了基础attention所需要较多的长依赖信息的问题，采用自注意力机制从文本的各个角度出发，提取尽可能多的不同的特征向量，为后续编码提取中间结果提供更准确的信息。其次，在编码器中采用了双向编码器神经网络，前向和后向能充分考虑时间序列的历史特点和未来变化影响，最大限度的保证了最终的输出结果具有全面的信息。另外，在解码过程中引入注意力机制和每个时间步的事件特征(即解码的中间结果)，充分考虑编码器中每个时间步的输出结果与解码器的最终输出结果之间的关联程度，避免固定长度的造成的中间结果不完整。

上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述S1包括：

采用分词模型和预训练中文词向量包对每条评论信息分词并转化为向量格式，并将每天对应的各向量格式的评论信息拼接构成每天的评论矩阵；

采用双层LSTM模型，对每天的所述评论矩阵浓缩含义，提取该评论矩阵的高级特征矩阵M；

采用自注意力机制，基于所述高级特征矩阵M，得到注意力分配矩阵A；

将每天对应的注意力分配矩阵A和高级特征矩阵M相乘并进行矩阵变换，得到该天所有评论信息的评论特征向量。

进一步，所述注意力分配矩阵A中的元素分布在对角线上。

本发明的进一步有益效果是：矩阵A中的元素需要尽可能地分布在对角线上，非对角线元素越小越好。这样就能保证r个向量的概率分布是不同的，即每个向量代表对于此评价的关注角度不同。

进一步，所述S2包括：

对每天的票房信息和所述评论特征向量拼接，构成该天的票房样本，对历史各票房样本规格化处理，形成训练样本集，该训练样本集的形状为由样本数、时间步长、输入维度三个方面构成的立体矩阵，其中，所述输入维度为每天的票房样本的维度，所述时间步长为每个样本中的天数；

采用神经元个数与所述时间步长相等的双向LSTM模型，基于所述训练样本集，编码得到包括最终隐含层输出和按时间步分割的最终输出的历史票房事件特征。

进一步，所述票房信息包括上映天数、排片场次、排片占比、场均人次、上座率、票房占比和累计总票房中的任一项或多项。

进一步，每天的所述票房样本还拼接该天内观众对所述待预测电影的搜索指数。

本发明的进一步有益效果是：电影票房预测方法主要以电影评论的特征为辅、票房数据及百度搜索指数为主，使用编码器解码器结构模型预测，提高模型的适应性，保证模型的预测精度。

进一步，所述S3包括：

在解码器的框架下，采用注意力机制，基于所述历史票房事件特征，计算每个样本的注意力分，基于每个样本的注意力分对历史各天对应的所述最终输出之间进行加权计算，得到该样本的事件特征；

将每个样本的事件特征依次与该样本内每天的日票房实际值拼接并将拼接结果与隐含层模型状态一同输入单层LSTM模型，得到该天日票房预测值以及用于下一天预测的隐含层模型状态，其中，该隐含层模型状态的初始值为所述最终隐含层输出。

本发明还提供一种电影票房预测方法，包括：

S2、采用如上所述的任一种电影票房预测模型的构建方法构建得到的预测模型，预测得到未来一天或多天的票房。

本发明的有益效果是：本方法提供了一种基于电影评论分析和注意力机制的电影票房预测方法，该方法采用上述电影票房预测模型构建方法构建的预测模型，不仅能够考虑到电影评论对电影票房走势的影响还能考虑到历史数据的权重分析，保证了票房预测精度。

本发明还提供一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如上所述的任一种电影票房预测模型的构建方法和/或如上所述的任一种电影票房预测方法。

附图说明

图1为本发明实施例提供的一种电影票房预测模型的构建方法的流程框图；

图2为本发明实施例提供的一种电影票房预测模型的构建方法的流程示意图；

图3为本发明实施例提供的一种电影票房预测模型的构建方法中各天对应的评论特征向量的构建流程图；

图4为本发明实施例提供的一种电影票房预测模型的构建方法中采用基于注意力机制的解码器进行票房预测的电影票房预测模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例一

一种电影票房预测模型的构建方法100，如图1所示，包括：

步骤110、采用自注意力机制，提取历史每天对待预测电影的所有评论信息的特征矩阵，并对每天的特征矩阵进行矩阵转换，得到评论特征向量；

步骤120、对历史每天的评论特征向量和票房实际数据进行向量拼接，以构建训练样本集，每个样本由相邻多天对应的上述拼接形成的向量构成，并采用基于正向神经网络和后向神经网络的编码器，编码得到由最终隐含层输出和最终输出构成的训练样本集对应的历史票房事件特征；

步骤130、采用解码器，基于历史票房事件特征，计算每个样本的注意力分，并基于每个样本的注意力分对历史各天对应的最终输出之间进行加权计算，得到该样本的事件特征；基于每个样本的事件特征，预测得到该样本内每天的票房预测值；

步骤140、基于损失函数，计算历史每天的票房预测值相对票房实际值的损失，以优化编码器和解码器的参数，重复执行步骤120，直至达到损失预设要求，得到由编码器和解码器构成的票房预测模型。

可利用爬虫访问猫眼网收集目标电影的票房数据，接着访问豆瓣网、猫眼网等搜集相关电影评论以及下载公开的评论数据集。

对电影评论数据进行特征提取，本方法中文本的评论分析主要基于深度学习方法self-Attention机制(自注意力机制)对文本进行特征提取，原因在于电影评论是长度偏短的句子，没有额外的信息去计算句子的注意力分，因此需要从尽量多的角度解读这个句子。

为了排除普通seq2seq框架中只有一个最终结果c即编码器输出的最终隐含层为唯一的c，在解码器中引入attention机制(注意机制)，每个时间步的隐含层输出都会被看作是一个c。

电影票房预测方法主要以电影评论的特征为辅，票房数据为主，使用编码器解码器结构模型预测。该模型学习的是电影票房时间序列，最长的上映周期有90天，最短的有几天，对于越长的时间序列，模型虽然训练难度越大，但是最终的预测结果会更加准确。

以电影评论的特征为基础，采用注意力机制，对票房数据进行权重分析，训练一种基于编码器与解码器结构的电影票房预测模型，该训练方法不仅能够考虑到电影评论对电影票房走势的影响还能考虑到历史数据的权重分析，扩展了模型适用性，有效用于电影票房预测，方便电影院排片以及电影公司预估电影利润。

本实施例提供的基于电影评论和注意力机制的电影票房预测预模型构建方法，通过自注意力机制对具有文本长度短但情感内容丰富的电影评论进行特征提取，排除了基础注意所需要较多的长依赖信息的问题，采用自注意力机制从文本的各个角度出发，提取尽可能多的不同的特征向量，为后续编码提取中间结果提供更准确的信息。其次，在编码器中采用了双向编码器神经网络，前向和后向能充分考虑时间序列的历史特点和未来变化影响，最大限度的保证了最终的输出结果具有全面的信息。另外，在解码过程中引入注意力机制和每个时间步的事件特征(即解码的中间结果)，充分考虑编码器中每个时间步的输出结果与解码器的最终输出结果之间的关联程度。

优选的，如图2所示的构建方法流程示意图，其中，步骤110包括：采用分词模型和预训练中文词向量包对每条评论信息分词并转化为向量格式，并将每天对应的各向量格式的评论信息拼接构成每天的评论矩阵；采用双层长短时记忆网络(Long Short-TermMemory Network，LSTM)模型，对每天的评论矩阵浓缩含义，提取该评论矩阵的高级特征矩阵M；采用self-Attention机制，基于高级特征矩阵M，得到注意力分配矩阵A；将每天对应的注意力分配矩阵A和高级特征矩阵M相乘并进行矩阵变换，得到该天所有评论信息的评论特征向量。

首先将电影评论数据利用jieba分词工具和预训练中文词向量包分词并转化为向量格式，再将向量格式按照日期转化为矩阵格式。如图3所示，其中，w＝{w₁,w₂,……w_n}表示电影评论信息，例如w₂为评论w中的某一分词，对应的h₂为分词w₂的向量格式，n表示双层LSTM网络隐含层输出的个数，u表示双层LSTM网络隐含层输出向量的维度，r表示r个注意力分配向量。

对于电影评论分析，需要采用双层LSTM模型。具体的，将矩阵格式的电影评论输入双层LSTM模型，接着矩阵M是第二个LSTM层的各个时刻隐含层的输出并拼接的结果，以及一个矩阵A代表由r个注意力分配向量组成的矩阵。输入层是一个三维矩阵，形状为[batch_size,num_steps,word_dim]，矩阵A的公式如下式(1)，其中，w₁、w₂为权重矩阵，形状分别为p*u和r*p，p为自定义的任意维度。

A＝softmax(w₂tanh(w₁M^T)) (1)

矩阵A中的元素需要尽可能地分布在对角线上，非对角线元素越小越好。这样就能保证r个向量的概率分布是不同的，即每个向量代表对于此评价的关注角度不同，所以模型的损失函数里面包含如公式2所示的正则项。

其中，I为单位矩阵；F为frobenius范数，定义如公式3所示。

矩阵A和矩阵M相乘后，所得结果就是句子从不同的角度所提取出来的特征矩阵，然后将该矩阵进行矩阵变换，所得结果为某天所有评论信息的评论特征向量，可用向量E表示。

优选的，步骤120包括：对每天的票房信息和评论特征向量拼接，构成该天的票房样本，对历史各票房样本规格化处理，形成训练样本集，该训练样本集的形状为由样本数、时间步长、输入维度三个方面构成的立体矩阵，其中，输入维度为每天的票房样本的维度，时间步长为每个样本中的天数；采用神经元个数与时间步长相等的双向LSTM模型，基于训练样本集，编码得到包括最终隐含层输出和按时间步分割的最终输出的历史票房事件特征。

具体的，对票房相关数据(包括上映天数、排片场次、排片占比、场均人次、上座率、票房占比、总票房)、向量E和搜索指数相拼接，然后进行规格化处理，形成可以训练的数据集，形状为[批次数，时间步长，输入维度]，并处理后续测试的测试集，以及进行比较的预测结果，其中，批次数即为上述训练样本集中的样本数。

电影票房预测方法主要以电影评论的特征为辅，票房数据及百度搜索指数为主，使用编码器解码器结构模型预测。

编码器模块需要使用双向LSTM神经网络模型，因为当前时刻的数据是会显著影响后续数据，且当前数据也会受到之前的数据的影响。LSTM的细胞个数与输入的时间步长相等，输出的结果有四个，分别是前向最终输出，后向最终输出，前向隐含层输出以及后向隐含层输出。前向最终输出和后向最终输出拼接后得到总的最终输出，然后按照时间步数分割，得到每个时间步的输出。同理，前向隐含层输出和后向隐含层输出拼接后得到总的最终隐含层输出。其中，最终隐含层输出和已按时间步分割的最终输出为票房的事件特征。

优选的，步骤130包括：在解码器的框架下，采用注意力机制，基于历史票房事件特征，计算每个样本的注意力分，基于每个样本的注意力分对历史各天对应的最终输出之间进行加权计算，得到该样本的事件特征；将每个样本的事件特征依次与该样本内每天的日票房实际值拼接并将拼接结果与隐含层模型状态一同输入单层LSTM模型，得到该天日票房预测值以及用于下一天预测的隐含层模型状态，其中，该隐含层模型状态的初始值为所述最终隐含层输出。如图4所示的预测示意图，其中，x₁,x₂,x₃,…,x_n表示为概念上的输入序列，y₁,y₂,y₃,…,y_n表示为解码器最终预测结果序列。

解码器是由单层LSTM网络组成，细胞个数为数据长度*2。Seq2Seq即序列到序列，是一种Encoder-Decoder(编码器解码器模型)结构的模型，在自然语言处理中运用较多，比如机器翻译，人机对话等，输入是一个序列，输出也是一个序列。在本方法中，票房相关数据作为一个输入序列，票房每日票房数据作为一个输出序列。为了排除普通seq2seq中只有一个最终结果c即编码器输出的最终隐含层为唯一的c，在解码器中引入attention机制，每个时间步的隐含层输出都会被看作是一个c。

attention的注意力分计算，有W，U，V三个注意力矩阵，W与最终隐含层输出结果相乘与矩阵U与编码器中每个时间步的输出相乘，两个乘积再相加，再进行tanh函数操作得到atten_hidden，然后将atten_hidden与矩阵V相乘得到。然后将进行softmax归一化得到。其中V,W,U都是待学习参数，c_i可以理解为关于h_j的一个加权平均值，表示为每个样本的事件特征(中间结果)，权重(注意力分)为a_i，s_t为编码器输出的最终隐含层输出，h_j为编码器的最终输出的第j时间步(第j天)的输出，i表示样本编码，j为每个样本中的天数编码。

a_i＝softmax(∑e_ij) (4)

e_ij＝a(s_t,h_j)＝tanh(s_tW+h_jU)V (5)

c_i为注意力分乘上每一时间步output的结果的加权平均。c_i定义如公式(6)。

c_i＝∑a_ih_j (6)

c_i与解码器输入的日票房数据相拼接得到单层LSTM网络模型的输入，初始的LSTM的状态为编码器的最终隐含层输出，输出当前时间步结果output与当前时间步隐含层状态并作为下一步状态输入。

对解码器结果输出进行处理，与实际结果进行损失函数计算，主要采用均方误差。

综上，本实施例的基于电影评论和注意力机制的电影票房预测模型的构建方法包括了数据收集与处理、电影评论特征提取、票房数据与电影评论编码、基于注意力机制的票房解码以及预测后续票房走势五个步骤。

实施例二

一种电影票房预测方法，包括：采用自注意力机制，提取历史每天对待预测电影的所有评论信息的特征矩阵，并对每天的特征矩阵进行矩阵转换，得到评论特征向量；采用如上实施例一所述的任一种电影票房预测模型的构建方法构建得到的预测模型，预测得到未来一天或多天的票房。

本实施例提供了一种基于电影评论分析和注意力机制的电影票房预测方法，该方法不仅能够考虑到电影评论对电影票房走势的影响还能考虑到历史数据的权重分析，具体的，利用电影评论为主要的人群观看电影倾向，提取电影票房中评论的重要程度，然后结合票房的历史数据及百度搜索指数进行编码，之后利用含有注意力机制的解码器解码，得到后续票房走势，为电影院或电影公司提供参考。同现有的技术相比，使用了短评论的自注意力机制以及编码器解码器模型，提取了更具相关性的数据特征，提高了票房预测精度。

相关技术方案同实施例一，在此不再赘述。

实施例三

一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如上实施例一所述的任一种电影票房预测模型的构建方法和/或如上实施例二所述的任一种电影票房预测方法。

相关技术方案同实施例一和实施例二，在此不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电影票房预测模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的一种电影票房预测模型的构建方法，其特征在于，所述S1包括：

3.根据权利要求2所述的一种电影票房预测模型的构建方法，其特征在于，所述注意力分配矩阵A中的元素分布在对角线上。

4.根据权利要求1所述的一种电影票房预测模型的构建方法，其特征在于，所述S2包括：

5.根据权利要求4所述的一种电影票房预测模型的构建方法，其特征在于，所述票房信息包括上映天数、排片场次、排片占比、场均人次、上座率、票房占比和累计总票房中的任一项或多项。

6.根据权利要求4所述的一种电影票房预测模型的构建方法，其特征在于，每天的所述票房样本还拼接该天内观众对所述待预测电影的搜索指数。

7.根据权利要求1至6任一项所述的一种电影票房预测模型的构建方法，其特征在于，所述S3包括：

8.一种电影票房预测方法，其特征在于，包括：

S2、采用如权利要求1至7任一项所述的一种电影票房预测模型的构建方法构建得到的预测模型，预测得到未来一天或多天的票房。

9.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如权利要求1至7任一项所述的一种电影票房预测模型的构建方法和/或如权利要求8所述的一种电影票房预测方法。