CN111523943A - 一种电影票房预测模型的构建方法及电影票房预测方法 - Google Patents
一种电影票房预测模型的构建方法及电影票房预测方法 Download PDFInfo
- Publication number
- CN111523943A CN111523943A CN202010334504.2A CN202010334504A CN111523943A CN 111523943 A CN111523943 A CN 111523943A CN 202010334504 A CN202010334504 A CN 202010334504A CN 111523943 A CN111523943 A CN 111523943A
- Authority
- CN
- China
- Prior art keywords
- day
- office
- box
- box office
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于电影票房时间序列预测领域,具体涉及一种电影票房预测模型的构建方法及电影票房预测方法,包括:采用自注意力机制,提取历史每天对待预测电影所有评论信息的特征矩阵并将其转换为评论特征向量;对历史每天的评论特征向量和票房实际数据进行向量拼接,构建训练样本集,并采用双向编码器,得到训练样本集对应的历史票房事件特征;采用解码器,基于历史票房事件特征计算每个样本的注意力分,并基于每个样本的注意力分,计算该样本的事件特征;基于每个样本的事件特征,预测得到该样本内每天的票房预测值。本发明使用了短评论的自注意力机制以及编码器解码器模型,提取更具相关性的数据特征,有效提高电影票房预测精度。
Description
技术领域
本发明属于电影票房时间序列预测领域,更具体地,涉及一种电影票房预测模型的构建方法及电影票房预测方法。
背景技术
时间序列主要研究的是随着时间变化而变化的,并且含有规律的数字序列。时间序列预测分析研究就是对这些变化的数字进行处理、分析并发现其中的变化规律从而达到预测后续走势的目的。在实际生活中,含有时间序列的现象有很多,比如股票的走势,商场物品价格的变化,火车站进出人流量的变化等。
时间序列预测问题是根据分析某现象的历史数据变化得出规律来推断未来一段时间内该现象的变化趋势。时间序列预测分析研究主要有两个关键点:特征融合和预测模型。特征融合中的特征主要包含结构化的数据和非结构化的媒体数据。结构化数据是指相关现象统计的结构化指标,而非结构化的媒体数据主要指视频,音频文本等。对非结构化的媒体数据进行特征融合是提高时间序列预测准确性的关键。
传统的时间序列预测模型以统计学方法为主,主要有回归分析和移动平均法,而自回归求和移动平均模型(ARIMA)是统计学方法中运用于时间序列预测的最广泛的方法之一,但它的缺点十分明显,ARIMA模型要求时序数据是稳定的,或者是通过差分化后是稳定,并且本质上是只能模拟线性关系的时序数据,对非线性关系的数据不能拟合。所以比如股票等非稳定的时序数据无法用ARIMA进行预测。
所以随着神经网络技术的发展,时间序列预测模型不再局限于传统的统计学模型,卷积神经网络也是一种有效预测时间序列的网络,卷积神经网络有四个特点:局部连接,权值共享,池化,多层链接。它比较于传统的机器学习能够处理多维数据的输入。但是因为卷积神经网络的强先验假设即在使用当前数据样本进行训练时,模型的学习结果只会受到当前样本输入的影响,与历史的输入样本毫无关系。但是这是不符合实际情况的,特别是在时间序列的样本学习中,未来的趋势变化和历史趋势有着紧密的关系,无法人为的假定割裂,所以循环神经网络孕育而生。循环神经网络最大创新在于当前时刻的输入不仅仅是当前时刻的样本,还有从历史样本中提取的特征。
然而,现有的电影票房预测分析技术主要根据电影宣发技术与票房数据进行预测,没有考虑到电影评论对票房的影响,以及票房历史数据对票房有分时间段的偏重影响,严重影响电影票房预测的精度。
发明内容
本发明提供一种电影票房预测模型的构建方法及电影票房预测方法,用以解决现有电影票房预测方法中因考虑因素不全面导致票房预测精度不高的技术问题。
本发明解决上述技术问题的技术方案如下:一种电影票房预测模型的构建方法,包括:
S1、采用自注意力机制,提取历史每天对待预测电影的所有评论信息的特征矩阵,并对每天的所述特征矩阵进行矩阵转换,得到评论特征向量;
S2、对历史每天的所述评论特征向量和票房实际数据进行向量拼接,以构建训练样本集,每个样本由相邻多天对应的所述拼接形成的向量构成,并采用基于正向神经网络和后向神经网络的编码器,编码得到由最终隐含层输出和最终输出构成的所述训练样本集对应的历史票房事件特征;
S3、采用解码器,基于所述历史票房事件特征,计算每个样本的注意力分,并基于每个样本的注意力分对历史各天对应的所述最终输出之间进行加权计算,得到该样本的事件特征;基于每个样本的事件特征,预测得到该样本内每天的票房预测值;
S4、基于损失函数,计算历史每天的所述票房预测值相对票房实际值的损失,以优化所述编码器和所述解码器的参数,重复执行S2,直至达到损失预设要求,得到由编码器和解码器构成的票房预测模型。
本发明的有益效果是:本方法提供的基于电影评论和注意力机制的电影票房预测预模型构建方法,通过自注意力机制对具有文本长度短但情感内容丰富的电影评论进行特征提取,排除了基础attention所需要较多的长依赖信息的问题,采用自注意力机制从文本的各个角度出发,提取尽可能多的不同的特征向量,为后续编码提取中间结果提供更准确的信息。其次,在编码器中采用了双向编码器神经网络,前向和后向能充分考虑时间序列的历史特点和未来变化影响,最大限度的保证了最终的输出结果具有全面的信息。另外,在解码过程中引入注意力机制和每个时间步的事件特征(即解码的中间结果),充分考虑编码器中每个时间步的输出结果与解码器的最终输出结果之间的关联程度,避免固定长度的造成的中间结果不完整。
上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述S1包括:
采用分词模型和预训练中文词向量包对每条评论信息分词并转化为向量格式,并将每天对应的各向量格式的评论信息拼接构成每天的评论矩阵;
采用双层LSTM模型,对每天的所述评论矩阵浓缩含义,提取该评论矩阵的高级特征矩阵M;
采用自注意力机制,基于所述高级特征矩阵M,得到注意力分配矩阵A;
将每天对应的注意力分配矩阵A和高级特征矩阵M相乘并进行矩阵变换,得到该天所有评论信息的评论特征向量。
进一步,所述注意力分配矩阵A中的元素分布在对角线上。
本发明的进一步有益效果是:矩阵A中的元素需要尽可能地分布在对角线上,非对角线元素越小越好。这样就能保证r个向量的概率分布是不同的,即每个向量代表对于此评价的关注角度不同。
进一步,所述S2包括:
对每天的票房信息和所述评论特征向量拼接,构成该天的票房样本,对历史各票房样本规格化处理,形成训练样本集,该训练样本集的形状为由样本数、时间步长、输入维度三个方面构成的立体矩阵,其中,所述输入维度为每天的票房样本的维度,所述时间步长为每个样本中的天数;
采用神经元个数与所述时间步长相等的双向LSTM模型,基于所述训练样本集,编码得到包括最终隐含层输出和按时间步分割的最终输出的历史票房事件特征。
进一步,所述票房信息包括上映天数、排片场次、排片占比、场均人次、上座率、票房占比和累计总票房中的任一项或多项。
进一步,每天的所述票房样本还拼接该天内观众对所述待预测电影的搜索指数。
本发明的进一步有益效果是:电影票房预测方法主要以电影评论的特征为辅、票房数据及百度搜索指数为主,使用编码器解码器结构模型预测,提高模型的适应性,保证模型的预测精度。
进一步,所述S3包括:
在解码器的框架下,采用注意力机制,基于所述历史票房事件特征,计算每个样本的注意力分,基于每个样本的注意力分对历史各天对应的所述最终输出之间进行加权计算,得到该样本的事件特征;
将每个样本的事件特征依次与该样本内每天的日票房实际值拼接并将拼接结果与隐含层模型状态一同输入单层LSTM模型,得到该天日票房预测值以及用于下一天预测的隐含层模型状态,其中,该隐含层模型状态的初始值为所述最终隐含层输出。
本发明还提供一种电影票房预测方法,包括:
S1、采用自注意力机制,提取历史每天对待预测电影的所有评论信息的特征矩阵,并对每天的所述特征矩阵进行矩阵转换,得到评论特征向量;
S2、采用如上所述的任一种电影票房预测模型的构建方法构建得到的预测模型,预测得到未来一天或多天的票房。
本发明的有益效果是:本方法提供了一种基于电影评论分析和注意力机制的电影票房预测方法,该方法采用上述电影票房预测模型构建方法构建的预测模型,不仅能够考虑到电影评论对电影票房走势的影响还能考虑到历史数据的权重分析,保证了票房预测精度。
本发明还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现如上所述的任一种电影票房预测模型的构建方法和/或如上所述的任一种电影票房预测方法。
附图说明
图1为本发明实施例提供的一种电影票房预测模型的构建方法的流程框图;
图2为本发明实施例提供的一种电影票房预测模型的构建方法的流程示意图;
图3为本发明实施例提供的一种电影票房预测模型的构建方法中各天对应的评论特征向量的构建流程图;
图4为本发明实施例提供的一种电影票房预测模型的构建方法中采用基于注意力机制的解码器进行票房预测的电影票房预测模型示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例一
一种电影票房预测模型的构建方法100,如图1所示,包括:
步骤110、采用自注意力机制,提取历史每天对待预测电影的所有评论信息的特征矩阵,并对每天的特征矩阵进行矩阵转换,得到评论特征向量;
步骤120、对历史每天的评论特征向量和票房实际数据进行向量拼接,以构建训练样本集,每个样本由相邻多天对应的上述拼接形成的向量构成,并采用基于正向神经网络和后向神经网络的编码器,编码得到由最终隐含层输出和最终输出构成的训练样本集对应的历史票房事件特征;
步骤130、采用解码器,基于历史票房事件特征,计算每个样本的注意力分,并基于每个样本的注意力分对历史各天对应的最终输出之间进行加权计算,得到该样本的事件特征;基于每个样本的事件特征,预测得到该样本内每天的票房预测值;
步骤140、基于损失函数,计算历史每天的票房预测值相对票房实际值的损失,以优化编码器和解码器的参数,重复执行步骤120,直至达到损失预设要求,得到由编码器和解码器构成的票房预测模型。
可利用爬虫访问猫眼网收集目标电影的票房数据,接着访问豆瓣网、猫眼网等搜集相关电影评论以及下载公开的评论数据集。
对电影评论数据进行特征提取,本方法中文本的评论分析主要基于深度学习方法self-Attention机制(自注意力机制)对文本进行特征提取,原因在于电影评论是长度偏短的句子,没有额外的信息去计算句子的注意力分,因此需要从尽量多的角度解读这个句子。
为了排除普通seq2seq框架中只有一个最终结果c即编码器输出的最终隐含层为唯一的c,在解码器中引入attention机制(注意机制),每个时间步的隐含层输出都会被看作是一个c。
电影票房预测方法主要以电影评论的特征为辅,票房数据为主,使用编码器解码器结构模型预测。该模型学习的是电影票房时间序列,最长的上映周期有90天,最短的有几天,对于越长的时间序列,模型虽然训练难度越大,但是最终的预测结果会更加准确。
以电影评论的特征为基础,采用注意力机制,对票房数据进行权重分析,训练一种基于编码器与解码器结构的电影票房预测模型,该训练方法不仅能够考虑到电影评论对电影票房走势的影响还能考虑到历史数据的权重分析,扩展了模型适用性,有效用于电影票房预测,方便电影院排片以及电影公司预估电影利润。
本实施例提供的基于电影评论和注意力机制的电影票房预测预模型构建方法,通过自注意力机制对具有文本长度短但情感内容丰富的电影评论进行特征提取,排除了基础注意所需要较多的长依赖信息的问题,采用自注意力机制从文本的各个角度出发,提取尽可能多的不同的特征向量,为后续编码提取中间结果提供更准确的信息。其次,在编码器中采用了双向编码器神经网络,前向和后向能充分考虑时间序列的历史特点和未来变化影响,最大限度的保证了最终的输出结果具有全面的信息。另外,在解码过程中引入注意力机制和每个时间步的事件特征(即解码的中间结果),充分考虑编码器中每个时间步的输出结果与解码器的最终输出结果之间的关联程度。
优选的,如图2所示的构建方法流程示意图,其中,步骤110包括:采用分词模型和预训练中文词向量包对每条评论信息分词并转化为向量格式,并将每天对应的各向量格式的评论信息拼接构成每天的评论矩阵;采用双层长短时记忆网络(Long Short-TermMemory Network,LSTM)模型,对每天的评论矩阵浓缩含义,提取该评论矩阵的高级特征矩阵M;采用self-Attention机制,基于高级特征矩阵M,得到注意力分配矩阵A;将每天对应的注意力分配矩阵A和高级特征矩阵M相乘并进行矩阵变换,得到该天所有评论信息的评论特征向量。
首先将电影评论数据利用jieba分词工具和预训练中文词向量包分词并转化为向量格式,再将向量格式按照日期转化为矩阵格式。如图3所示,其中,w={w1,w2,……wn}表示电影评论信息,例如w2为评论w中的某一分词,对应的h2为分词w2的向量格式,n表示双层LSTM网络隐含层输出的个数,u表示双层LSTM网络隐含层输出向量的维度,r表示r个注意力分配向量。
对于电影评论分析,需要采用双层LSTM模型。具体的,将矩阵格式的电影评论输入双层LSTM模型,接着矩阵M是第二个LSTM层的各个时刻隐含层的输出并拼接的结果,以及一个矩阵A代表由r个注意力分配向量组成的矩阵。输入层是一个三维矩阵,形状为[batch_size,num_steps,word_dim],矩阵A的公式如下式(1),其中,w1、w2为权重矩阵,形状分别为p*u和r*p,p为自定义的任意维度。
A=softmax(w2tanh(w1MT)) (1)
矩阵A中的元素需要尽可能地分布在对角线上,非对角线元素越小越好。这样就能保证r个向量的概率分布是不同的,即每个向量代表对于此评价的关注角度不同,所以模型的损失函数里面包含如公式2所示的正则项。
其中,I为单位矩阵;F为frobenius范数,定义如公式3所示。
矩阵A和矩阵M相乘后,所得结果就是句子从不同的角度所提取出来的特征矩阵,然后将该矩阵进行矩阵变换,所得结果为某天所有评论信息的评论特征向量,可用向量E表示。
优选的,步骤120包括:对每天的票房信息和评论特征向量拼接,构成该天的票房样本,对历史各票房样本规格化处理,形成训练样本集,该训练样本集的形状为由样本数、时间步长、输入维度三个方面构成的立体矩阵,其中,输入维度为每天的票房样本的维度,时间步长为每个样本中的天数;采用神经元个数与时间步长相等的双向LSTM模型,基于训练样本集,编码得到包括最终隐含层输出和按时间步分割的最终输出的历史票房事件特征。
具体的,对票房相关数据(包括上映天数、排片场次、排片占比、场均人次、上座率、票房占比、总票房)、向量E和搜索指数相拼接,然后进行规格化处理,形成可以训练的数据集,形状为[批次数,时间步长,输入维度],并处理后续测试的测试集,以及进行比较的预测结果,其中,批次数即为上述训练样本集中的样本数。
电影票房预测方法主要以电影评论的特征为辅,票房数据及百度搜索指数为主,使用编码器解码器结构模型预测。
编码器模块需要使用双向LSTM神经网络模型,因为当前时刻的数据是会显著影响后续数据,且当前数据也会受到之前的数据的影响。LSTM的细胞个数与输入的时间步长相等,输出的结果有四个,分别是前向最终输出,后向最终输出,前向隐含层输出以及后向隐含层输出。前向最终输出和后向最终输出拼接后得到总的最终输出,然后按照时间步数分割,得到每个时间步的输出。同理,前向隐含层输出和后向隐含层输出拼接后得到总的最终隐含层输出。其中,最终隐含层输出和已按时间步分割的最终输出为票房的事件特征。
优选的,步骤130包括:在解码器的框架下,采用注意力机制,基于历史票房事件特征,计算每个样本的注意力分,基于每个样本的注意力分对历史各天对应的最终输出之间进行加权计算,得到该样本的事件特征;将每个样本的事件特征依次与该样本内每天的日票房实际值拼接并将拼接结果与隐含层模型状态一同输入单层LSTM模型,得到该天日票房预测值以及用于下一天预测的隐含层模型状态,其中,该隐含层模型状态的初始值为所述最终隐含层输出。如图4所示的预测示意图,其中,x1,x2,x3,…,xn表示为概念上的输入序列,y1,y2,y3,…,yn表示为解码器最终预测结果序列。
解码器是由单层LSTM网络组成,细胞个数为数据长度*2。Seq2Seq即序列到序列,是一种Encoder-Decoder(编码器解码器模型)结构的模型,在自然语言处理中运用较多,比如机器翻译,人机对话等,输入是一个序列,输出也是一个序列。在本方法中,票房相关数据作为一个输入序列,票房每日票房数据作为一个输出序列。为了排除普通seq2seq中只有一个最终结果c即编码器输出的最终隐含层为唯一的c,在解码器中引入attention机制,每个时间步的隐含层输出都会被看作是一个c。
attention的注意力分计算,有W,U,V三个注意力矩阵,W与最终隐含层输出结果相乘与矩阵U与编码器中每个时间步的输出相乘,两个乘积再相加,再进行tanh函数操作得到atten_hidden,然后将atten_hidden与矩阵V相乘得到。然后将进行softmax归一化得到。其中V,W,U都是待学习参数,ci可以理解为关于hj的一个加权平均值,表示为每个样本的事件特征(中间结果),权重(注意力分)为ai,st为编码器输出的最终隐含层输出,hj为编码器的最终输出的第j时间步(第j天)的输出,i表示样本编码,j为每个样本中的天数编码。
ai=softmax(∑eij) (4)
eij=a(st,hj)=tanh(stW+hjU)V (5)
ci为注意力分乘上每一时间步output的结果的加权平均。ci定义如公式(6)。
ci=∑aihj (6)
ci与解码器输入的日票房数据相拼接得到单层LSTM网络模型的输入,初始的LSTM的状态为编码器的最终隐含层输出,输出当前时间步结果output与当前时间步隐含层状态并作为下一步状态输入。
对解码器结果输出进行处理,与实际结果进行损失函数计算,主要采用均方误差。
综上,本实施例的基于电影评论和注意力机制的电影票房预测模型的构建方法包括了数据收集与处理、电影评论特征提取、票房数据与电影评论编码、基于注意力机制的票房解码以及预测后续票房走势五个步骤。
实施例二
一种电影票房预测方法,包括:采用自注意力机制,提取历史每天对待预测电影的所有评论信息的特征矩阵,并对每天的特征矩阵进行矩阵转换,得到评论特征向量;采用如上实施例一所述的任一种电影票房预测模型的构建方法构建得到的预测模型,预测得到未来一天或多天的票房。
本实施例提供了一种基于电影评论分析和注意力机制的电影票房预测方法,该方法不仅能够考虑到电影评论对电影票房走势的影响还能考虑到历史数据的权重分析,具体的,利用电影评论为主要的人群观看电影倾向,提取电影票房中评论的重要程度,然后结合票房的历史数据及百度搜索指数进行编码,之后利用含有注意力机制的解码器解码,得到后续票房走势,为电影院或电影公司提供参考。同现有的技术相比,使用了短评论的自注意力机制以及编码器解码器模型,提取了更具相关性的数据特征,提高了票房预测精度。
相关技术方案同实施例一,在此不再赘述。
实施例三
一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现如上实施例一所述的任一种电影票房预测模型的构建方法和/或如上实施例二所述的任一种电影票房预测方法。
相关技术方案同实施例一和实施例二,在此不再赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种电影票房预测模型的构建方法,其特征在于,包括:
S1、采用自注意力机制,提取历史每天对待预测电影的所有评论信息的特征矩阵,并对每天的所述特征矩阵进行矩阵转换,得到评论特征向量;
S2、对历史每天的所述评论特征向量和票房实际数据进行向量拼接,以构建训练样本集,每个样本由相邻多天对应的所述拼接形成的向量构成,并采用基于正向神经网络和后向神经网络的编码器,编码得到由最终隐含层输出和最终输出构成的所述训练样本集对应的历史票房事件特征;
S3、采用解码器,基于所述历史票房事件特征,计算每个样本的注意力分,并基于每个样本的注意力分对历史各天对应的所述最终输出之间进行加权计算,得到该样本的事件特征;基于每个样本的事件特征,预测得到该样本内每天的票房预测值;
S4、基于损失函数,计算历史每天的所述票房预测值相对票房实际值的损失,以优化所述编码器和所述解码器的参数,重复执行S2,直至达到损失预设要求,得到由编码器和解码器构成的票房预测模型。
2.根据权利要求1所述的一种电影票房预测模型的构建方法,其特征在于,所述S1包括:
采用分词模型和预训练中文词向量包对每条评论信息分词并转化为向量格式,并将每天对应的各向量格式的评论信息拼接构成每天的评论矩阵;
采用双层LSTM模型,对每天的所述评论矩阵浓缩含义,提取该评论矩阵的高级特征矩阵M;
采用自注意力机制,基于所述高级特征矩阵M,得到注意力分配矩阵A;
将每天对应的注意力分配矩阵A和高级特征矩阵M相乘并进行矩阵变换,得到该天所有评论信息的评论特征向量。
3.根据权利要求2所述的一种电影票房预测模型的构建方法,其特征在于,所述注意力分配矩阵A中的元素分布在对角线上。
4.根据权利要求1所述的一种电影票房预测模型的构建方法,其特征在于,所述S2包括:
对每天的票房信息和所述评论特征向量拼接,构成该天的票房样本,对历史各票房样本规格化处理,形成训练样本集,该训练样本集的形状为由样本数、时间步长、输入维度三个方面构成的立体矩阵,其中,所述输入维度为每天的票房样本的维度,所述时间步长为每个样本中的天数;
采用神经元个数与所述时间步长相等的双向LSTM模型,基于所述训练样本集,编码得到包括最终隐含层输出和按时间步分割的最终输出的历史票房事件特征。
5.根据权利要求4所述的一种电影票房预测模型的构建方法,其特征在于,所述票房信息包括上映天数、排片场次、排片占比、场均人次、上座率、票房占比和累计总票房中的任一项或多项。
6.根据权利要求4所述的一种电影票房预测模型的构建方法,其特征在于,每天的所述票房样本还拼接该天内观众对所述待预测电影的搜索指数。
7.根据权利要求1至6任一项所述的一种电影票房预测模型的构建方法,其特征在于,所述S3包括:
在解码器的框架下,采用注意力机制,基于所述历史票房事件特征,计算每个样本的注意力分,基于每个样本的注意力分对历史各天对应的所述最终输出之间进行加权计算,得到该样本的事件特征;
将每个样本的事件特征依次与该样本内每天的日票房实际值拼接并将拼接结果与隐含层模型状态一同输入单层LSTM模型,得到该天日票房预测值以及用于下一天预测的隐含层模型状态,其中,该隐含层模型状态的初始值为所述最终隐含层输出。
8.一种电影票房预测方法,其特征在于,包括:
S1、采用自注意力机制,提取历史每天对待预测电影的所有评论信息的特征矩阵,并对每天的所述特征矩阵进行矩阵转换,得到评论特征向量;
S2、采用如权利要求1至7任一项所述的一种电影票房预测模型的构建方法构建得到的预测模型,预测得到未来一天或多天的票房。
9.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现如权利要求1至7任一项所述的一种电影票房预测模型的构建方法和/或如权利要求8所述的一种电影票房预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010334504.2A CN111523943A (zh) | 2020-04-24 | 2020-04-24 | 一种电影票房预测模型的构建方法及电影票房预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010334504.2A CN111523943A (zh) | 2020-04-24 | 2020-04-24 | 一种电影票房预测模型的构建方法及电影票房预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111523943A true CN111523943A (zh) | 2020-08-11 |
Family
ID=71911080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010334504.2A Pending CN111523943A (zh) | 2020-04-24 | 2020-04-24 | 一种电影票房预测模型的构建方法及电影票房预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523943A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016002A (zh) * | 2020-08-17 | 2020-12-01 | 辽宁工程技术大学 | 融合评论文本层级注意力和时间因素的混合推荐方法 |
CN113190734A (zh) * | 2021-04-27 | 2021-07-30 | 中国科学院计算技术研究所 | 基于单平台的网络事件流行度预测方法与系统 |
CN113379448A (zh) * | 2021-05-28 | 2021-09-10 | 西安影视数据评估中心有限公司 | 一种电影票房的映前预测方法 |
CN115808944A (zh) * | 2023-02-09 | 2023-03-17 | 国能大渡河枕头坝发电有限公司 | 一种定子温升试验控制方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764972A (zh) * | 2018-05-08 | 2018-11-06 | 中国电影科学技术研究所 | 一种影片票房预测方法及装置 |
CN110717316A (zh) * | 2019-09-24 | 2020-01-21 | 清华大学 | 字幕对话流的主题分割方法及装置 |
-
2020
- 2020-04-24 CN CN202010334504.2A patent/CN111523943A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764972A (zh) * | 2018-05-08 | 2018-11-06 | 中国电影科学技术研究所 | 一种影片票房预测方法及装置 |
CN110717316A (zh) * | 2019-09-24 | 2020-01-21 | 清华大学 | 字幕对话流的主题分割方法及装置 |
Non-Patent Citations (5)
Title |
---|
张志远: "基于自注意力机制的双向分层语义模型", 计算机工程与设计 * |
王晓耘;袁媛;史玲玲;: "基于微博的电影首映周票房预测建模", 现代图书情报技术 * |
甘雨涵: "基于Stacking方法的电影票房预测", 中国优秀硕士学位论文全文数据库 哲学与人文科学辑 * |
贾乐: "基于LSTM和社交媒体文本信息的股票趋势预测研究", 中国优秀硕士学位论文全文数据库 信息科技辑 * |
郑颖颖: "基于深度学习的时间序列预测研究", 中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016002A (zh) * | 2020-08-17 | 2020-12-01 | 辽宁工程技术大学 | 融合评论文本层级注意力和时间因素的混合推荐方法 |
CN113190734A (zh) * | 2021-04-27 | 2021-07-30 | 中国科学院计算技术研究所 | 基于单平台的网络事件流行度预测方法与系统 |
CN113379448A (zh) * | 2021-05-28 | 2021-09-10 | 西安影视数据评估中心有限公司 | 一种电影票房的映前预测方法 |
CN115808944A (zh) * | 2023-02-09 | 2023-03-17 | 国能大渡河枕头坝发电有限公司 | 一种定子温升试验控制方法 |
CN115808944B (zh) * | 2023-02-09 | 2023-06-02 | 国能大渡河枕头坝发电有限公司 | 一种定子温升试验控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832400B (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
CN111274398B (zh) | 一种方面级用户产品评论情感分析方法及系统 | |
CN107229610B (zh) | 一种情感数据的分析方法及装置 | |
CN111523943A (zh) | 一种电影票房预测模型的构建方法及电影票房预测方法 | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN111026869B (zh) | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 | |
CN110491416A (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN109214003A (zh) | 基于多层注意力机制的循环神经网络生成标题的方法 | |
CN111144448A (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN111400469A (zh) | 针对语音问答的智能生成系统及其方法 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN112667818A (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN110532395B (zh) | 一种基于语义嵌入的词向量改进模型的建立方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN112434161B (zh) | 一种采用双向长短期记忆网络的方面级情感分析方法 | |
CN116975256B (zh) | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 | |
CN113806547A (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN114579741B (zh) | 融合句法信息的gcn-rn方面级情感分析方法和系统 | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
CN116910190A (zh) | 多任务感知模型获取方法、装置、设备及可读存储介质 | |
CN114707829A (zh) | 基于结构化数据线性展开的目标人员再犯风险预测方法 | |
CN114896969A (zh) | 一种基于深度学习的方面词提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |