CN111768037A - 一种基于ls-svmr的电影票房预测方法及系统 - Google Patents

一种基于ls-svmr的电影票房预测方法及系统 Download PDF

Info

Publication number
CN111768037A
CN111768037A CN202010614191.6A CN202010614191A CN111768037A CN 111768037 A CN111768037 A CN 111768037A CN 202010614191 A CN202010614191 A CN 202010614191A CN 111768037 A CN111768037 A CN 111768037A
Authority
CN
China
Prior art keywords
office
box
svmr
prediction
movie
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010614191.6A
Other languages
English (en)
Inventor
王智文
李秋玲
王宇航
安晓宁
庚佳颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Science and Technology
Original Assignee
Guangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Science and Technology filed Critical Guangxi University of Science and Technology
Priority to CN202010614191.6A priority Critical patent/CN111768037A/zh
Publication of CN111768037A publication Critical patent/CN111768037A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)

Abstract

本发明公开了一种基于LS‑SVMR的电影票房预测方法及系统,采集电影票房相关原始数据进行预处理,构建样本数据集;基于社交网络策略分析样本数据集中的电影主创网络结构特征人物关系;利用特征选择将样本数据集和人物关系进行融合,形成特征组合数据;基于LS‑SVMR和神经网络策略构建预测模型,将特征组合数据、平均相对误差分别作为预测模型的输入变量和评估指标并进行训练;当预测模型输出的MAPE满足精度阈值要求时结束训练,利用训练完成的预测模型对电影票房进行预测。本发明通过构建的LS‑SVMR预测模型将不等式约束改为等式,加快运算速度和工作效率,通过社交网络找出人物关系作为预测模型的输入变量,以获得最优的MAPE值,实现精准的对电影票房的预测。

Description

一种基于LS-SVMR的电影票房预测方法及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于LS-SVMR的电影票房预测方法及系统。
背景技术
电影是由活动照相术和幻灯放映术结合发展起来的一种连续的影像画面,是一门视觉和听觉的现代艺术,也是一门可以容纳戏剧、摄影、绘画、音乐、舞蹈、文字、雕塑、建筑等多种艺术的现代科技与艺术的综合体。电影具有独自的特征,在艺术表现力上不但具有其它各种艺术的特征,又因可以运用蒙太奇这种艺术性突跃的电影组接技巧,具有超越其它一切艺术的表现手段。电影可以大量复制放映,随着现代社会的发展,电影已深入到人类社会生活的方方面面,是人们日常生活不可或缺的一部分。
抛开对电影所抱有的艺术情怀,将其看成一个纯粹的商品,定义一部影片成功与否就是看票房的多少。随着国内电影市场繁荣,资本纷纷投向电影。但是电影行业的风险高,不可控因素多是众所周知的,并不是高投资就一定会有高回报的。以2018年上映的《阿修罗》为例,该片号称投资7.5亿,但是票房却不到5千万,电影上映三天就主动撤档了,豆瓣评分只有3.1分。相反同样在2018年上映的电影《无名之辈》作为一部低成本文艺片,上映前宣传少,最终却获7.5亿票房。所以研究票房的影响因素,了解如何规避风险,获得投资利润最大化就显得十分重要。本文就是通过收集电影的相关信息,建立合理的模型并进行分析,最后通过分析结果给出合理的意见和建议,希望对电影的投资和决策提供参考。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种基于LS-SVMR的电影票房预测方法及系统,能够规避电影投资风险,获得最大化投资利润。
为解决上述技术问题,本发明提供如下技术方案:包括,采集电影票房相关原始数据进行预处理,构建样本数据集;基于社交网络策略分析所述样本数据集中的电影主创网络结构特征人物关系;利用特征选择将所述样本数据集和所述人物关系进行融合,形成特征组合数据;基于LS-SVMR和神经网络策略构建预测模型,将所述特征组合数据、平均相对误差分别作为所述预测模型的输入变量和评估指标并进行训练;当所述预测模型输出的MAPE满足精度阈值要求时结束训练,利用训练完成的所述预测模型对电影票房进行预测。
作为本发明所述的一种基于LS-SVMR的电影票房预测方法的一种优选方案,其中:构建所述预测模型包括,利用RBF径向基函数作为所述预测模型的目标函数,基于对偶关系求解最优参数aj,以对线性和非线性的最小二乘支持向量机回归模型进行预测,如下,
Figure BDA0002563189910000021
其中,Ω=k(xi,xj),i、j=1、2,b:参数变量,f(xi):所述预测模型。
作为本发明所述的一种基于LS-SVMR的电影票房预测方法的一种优选方案,其中:训练所述预测模型包括,不断调整sigma和gama参数,当所述sigma=0.9、所述gama=600时,所述MAPE最小;设置所述预测模型的所述sigma=0.9、所述gama=600,输入训练集训练所述变量参数,直至所述MAPE=0.025%时结束训练;其中,所述sigma参数是高维空间中点分布的离散程度,所述gama参数是对目标函数的两项之间的衡量。
作为本发明所述的一种基于LS-SVMR的电影票房预测方法的一种优选方案,其中:计算所述MAPE包括,将平均绝对百分比误差作为所述预测模型的评价指标,以此判定票房预测精度大小,如下,
Figure BDA0002563189910000022
其中,i:票房序号,n:总的票房数,boxT:真实票房,boxp:预测票房。
作为本发明所述的一种基于LS-SVMR的电影票房预测方法的一种优选方案,其中:所述变量参数包括,电影票房、电影类型、片长、关注度、制作公司、发行公司、上映档期、电影评分以及主创价值。
作为本发明所述的一种基于LS-SVMR的电影票房预测方法的一种优选方案,其中:所述预处理包括,从时光网、猫眼电影、微博网站中选择票房数据大于1000万的430条数据作为所述电影票房相关原始数据;将所述原始数据转换为430*133矩阵数据且利用R语言自定义线性归一函数进行归一化处理,如下,
Figure BDA0002563189910000031
其中,xnormal:归一之后的数据,x:所述原始数据,xmax、xmin分别为所述原始数据的最大值和最小值。
作为本发明所述的一种基于LS-SVMR的电影票房预测方法的一种优选方案,其中:所述样本数据集包括,所述训练集、验证集和测试集;分别对所述样本数据集进行类别划分,包括爱情片、动作片、剧情片、喜剧片、动画片、悬疑片、奇幻片和其他类型。
作为本发明所述的一种基于LS-SVMR的电影票房预测方法的一种优选方案,其中:分析所述人物关系包括,导演和编剧、导演和制作人、导演和演员、编剧和制作人、编剧和演员、制作人和演员。
作为本发明所述的一种基于LS-SVMR的电影票房预测方法的一种优选方案,其中:所述特征组合数据包括,将归一化处理后的数据的特征指标进行二维、三维加权求和,形成所述特征组合数据;组合之后,所述预测模型的所述输入变量包括,22个一维变量、30个二维变量和30个三维变量;所述特征指标包括,获奖数、历史票房、作品总数。
作为本发明所述的一种基于LS-SVMR的电影票房预测系统的一种优选方案,其中:包括,采样模块,用于采集各网站资源中的所述电影票房相关原始数据,形成所述样本数据集;分析模块连接于所述采样模块,其用于分析所述导演和所述编剧、所述导演和所述制作人、所述导演和所述演员、所述编剧和所述制作人、所述编剧和所述演员、所述制作人和所述演员的特征关系,生成分析报告;融合模块与所述分析模块相连接,其用于调用所述特征选择策略提取所述样本数据集与所述人物关系之间的特征并进行加权求和运算,得到所述特征组合数据;预测模块连接于所述采样模块、所述分析模块和所述融合模块,其用于搭建、训练、输出所述预测模型,通过所述预测模型运算结果判定评估结果和精度,对所述电影票房进行预测并给出所述预测结果;输入输出管理模块与各模块相连接,其用于传输各模块的信息和指令,为各模块提供通信服务。
本发明的有益效果:本发明以电影主创团队的获奖数、历史票房数、历史作品数作为样本主题数据,深入研究利用团队信息对于电影上映前的票房进行预测,一方面,本发明通过构建的LS-SVMR预测模型将不等式约束改为等式,加快运算速度和工作效率,同时收集与电影相关的基础变量并对主创团队评价信息进行二维和三维组合,使得变量的考虑更加具有可靠性、实用性和适用性,另一方面,本发明通过社交网络找出人物关系作为预测模型的输入变量,以获得最优的MAPE值,实现精准的对电影票房的预测。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的一种基于LS-SVMR的电影票房预测方法的流程示意图;
图2为本发明第一个实施例所述的一种基于LS-SVMR的电影票房预测方法的两种方法对比测试输出曲线示意图;
图3为本发明第二个实施例所述的一种基于LS-SVMR的电影票房预测系统的模块结构分布示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
电影业务是当今竞争激烈的世界中投资者最冒险的尝试之一,电影市场有许多不可控的风险,而且高投资不一定有高回报,虽然由于电影不可预测的特性为电影投资带来的许多困难,但一些研究人员已尝试开发相关模型,主要使用基于统计的预测方法来预测电影的财务成功。
参照图1和图2,为本发明的第一个实施例,该实施例提供了一种基于LS-SVMR的电影票房预测方法,包括:
S1:采集电影票房相关原始数据进行预处理,构建样本数据集。其中需要说明的是,预处理包括:
从时光网、猫眼电影、微博网站中选择票房数据大于1000万的430条数据作为电影票房相关原始数据;
将原始数据转换为430*133矩阵数据且利用R语言自定义线性归一函数进行归一化处理,如下,
Figure BDA0002563189910000061
其中,xnormal:归一之后的数据,x:原始数据,xmax、xmin分别为原始数据的最大值和最小值。
具体的,样本数据集包括:
将近五年的电影票房相关历史数据定义为训练集;
将近两年的电影票房相关历史数据定义为验证集;
将待预测的电影票房相关数据定义为测试集;
分别对样本数据集进行类别划分,包括爱情片、动作片、剧情片、喜剧片、动画片、悬疑片、奇幻片和其他类型。
S2:基于社交网络策略分析样本数据集中的电影主创网络结构特征人物关系。本步骤需要说明的是,分析人物关系包括:
利用社交网络中的双模分析、结合Gephi数据处理(度中心度、接近中心度和中介中心度)数据关系图谱;
具体人物关系描述如下表所示:
表1:导演-编剧双模中心度描述统计表。
Figure BDA0002563189910000062
参照表1,导演的平均度中心度为1.72,表示一个导演平均和一个编剧合作过,其中合作最多的是8个编剧,编剧的平均度中心度为1.44,表示一个编剧平均和一个导演合作过,合作人数最多的8次;导演的接近中心度大于编剧,则说明在导演-演员的双模网络中,导演作为信息的交流者效率更加明显,与编剧相比会更快地与其他节点产生内在的联系,导演的平均中介中心度大于编剧,则导演的地位重于编剧,导演比编剧掌握更多的资源。
表2:导演-制作人双模中心度描述统计表。
Figure BDA0002563189910000071
参照表2,导演的平均度中心度为2.53,表示一个导演平均约2个制作人合作,其中合作最多的是9个制作人,制作人的平均度中心度为4.45,表示一个制作人平均和4个导演合作过,合作过最多的是一个制作人和18个导演合作过;导演的接近中心度和制作人的接近中心度几乎相同,则说明在导演-制作人的双模网络中,导演和制作人的作为信息的交流者,二者的与彼此产生内在联系的效率一致,但是制作人的中介中心度明显大于导演,说明制作人在二者的双模网络中处于更为重要的作用,制作人掌握资源信息的控制能力更强。表3:导演-演员双模中心度描述统计表。
Figure BDA0002563189910000072
参照表3,导演的平均度中心度为2.68,表示一个导演平均和约2个演员人合作,最多的合作过12个演员,主演的平均度中心度为5.16,表示一个演员平均和5个导演合作过,合作过最多的是一个演员和16个导演合作过;演员的平均接近中心度高于导演,演员的平均中介中心度要大于导演,说明演员在担任“中介”将两个点连接起来的次数要远大于导演,即演员的互动能力强,具备较高的媒介性。
表4:编剧-制作人双模中心度描述统计表。
Figure BDA0002563189910000081
参照表4,编剧的平均度中心度为2.05,表示一个编剧平均和2个制作人合作,合作次数最多的与18个制作人合作过,制作人的平均中心度为4.69,表示一个制作人平均和4个编剧合作过,合作过最多的是一个制作人和22个编剧合作过;制作人的中介中心度远大于编剧的中介中心度,说明在编剧和制作人的双模模型中,制作人更具备主动性,以及掌控信息资源的能力会比编剧强,其中,因为电影中存在编剧同事担任制作人的情况,所以在最小的中心度中,存在最小值为0的情况。
表5:编剧-演员双模中心度描述统计表。
Figure BDA0002563189910000082
参照表5,在编剧-演员的双模网络中,编剧的平均中心度是2.04,表示1个编剧平均和2个演员合作,演员的平均度中心度为5.47,表示一个演员平均和5个编剧有过合作且合作次数最多的演员和20个编剧有合作;演员的平均接近中心度高于编剧,表示在编剧-演员的网络结构中演员在信息交流中更有效率,且更容易和其他的节点产生内在的联系,演员的中介中心度明显高于编剧的中介中心度,这也符合演员更具备“媒介”能力的特性。
表6:制作人-演员双模中心度描述统计表。
Figure BDA0002563189910000091
参照表6,在制作人-演员的双模网络中,制作人的平均度中心度为4.91,表示一个制作人平均和4个演员合作,其中合作最多的制作人最多与23个演员合作过,演员的平均度中心度为5.29,表示一个演员平均与5个制作人合作,其中合作最多的演员平均与16个制作人合作过,制作人的平均中介中心度大于演员的平均中介中心度,说明在制作人和演员的合作中制作人对信息的掌控能力更加强。
S3:利用特征选择将样本数据集和人物关系进行融合,形成特征组合数据。其中还需要说明的是,特征组合数据包括:
将归一化处理后的数据的特征指标进行二维、三维加权求和,形成特征组合数据,如下表所示:
表7:基础变量组合表。
Figure BDA0002563189910000092
组合之后,预测模型的输入变量包括,22个一维变量、30个二维变量和30个三维变量;
特征指标包括,获奖数、历史票房、作品总数。
S4:基于LS-SVMR和神经网络策略构建预测模型,将特征组合数据、平均相对误差分别作为预测模型的输入变量和评估指标并进行训练。本步骤还需要说明的是,构建预测模型包括:
利用RBF径向基函数作为预测模型的目标函数,基于对偶关系求解最优参数aj,以对线性和非线性的最小二乘支持向量机回归模型进行预测,如下,
Figure BDA0002563189910000101
其中,Ω=k(xi,xj),i、j=1、2,b:参数变量,f(xi):预测模型。
进一步的,训练预测模型包括:
不断调整sigma和gama参数,当sigma=0.9、gama=600时,MAPE最小;
设置预测模型的sigma=0.9、gama=600,输入训练集训练变量参数,直至MAPE=0.025%时结束训练;
其中,sigma参数是高维空间中点分布的离散程度,gama参数是对目标函数的两项之间的衡量。
具体的,变量参数包括:
电影票房、电影类型、片长、关注度、制作公司、发行公司、上映档期、电影评分以及主创价值。
S5:当预测模型输出的MAPE满足精度阈值要求时结束训练,利用训练完成的预测模型对电影票房进行预测。其中还需要说明的是,计算MAPE包括:
将平均绝对百分比误差作为预测模型的评价指标,以此判定票房预测精度大小,如下,
Figure BDA0002563189910000102
其中,i:票房序号,n:总的票房数,boxT:真实票房,boxp:预测票房。
优选的,本实施例还需要说明的是,现有的基于模糊线性回归电影票房预测方法是对电影票房的影响因素进行权值量化,得到该因素的权值以进行聚类过程,将量化后的权值通过模糊线性回归模型进行求解,输入训练样本,求解回归系数,得到训练后的回归方程,输入测试样本以得到预测值,根据样本的预测值计算样本与真值之间的相对百分误差并计算样本相对百分误差的概率分布,该方法主要解决的技术问题是如何解决现有预测方法中预测不稳定、收敛速度慢、预测效果不理想的问题,其不能规划现有电影投资风险,也无法准确的对现有电影票房的预测进行快速运算,并不具有可靠性和实用性;而本发明方法主要是基于现有原始数据的特征提取、利用社会网络找到人物关系以作为基于LS-SVMR构建的预测模型的输入变量,以平均相对误差作为该模型的指标,经过调整参数进行训练优化,输出准确度较高的预测结果,其通过构建的LS-SVMR预测模型将不等式约束改为等式,加快运算速度和工作效率,同时收集与电影相关的基础变量并对主创团队评价信息进行二维和三维组合,使得变量的考虑更加具有可靠性、实用性和适用性,另一方面,本发明通过社交网络找出人物关系作为预测模型的输入变量,以获得最优的MAPE值,实现精准的对电影票房的预测。
优选的是,为了更好地对本发明方法中采用的技术效果加以验证说明,本实施例中选择以传统的模糊线性回归电影票房预测方法和本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本发明方法所具有的真实效果;传统的模糊线性回归电影票房预测方法运算速度较低、预测结果准确度相对不高、存在一定的误差,不具有可靠性和实用性,为验证本发明方法相较于传统方法具有较高的预测准确度和运算效率,本实施例中将采用传统方法与本发明方法分别对100部电影票房进行预测的实时测试。
测试环境:(1)Python3.7、时光网、猫眼电影、微博网站、MATLB、C++程序、GPU;
(2)选取近五年票房超过1000万的电影票房相关数据作为训练集,根据时间、人物关系、影片种类、观众喜爱度进行划分;
(3)随机选择100组数据作为测试集,统一输入两种方法运行的计算程序中进行测试,输出最终数据对比曲线。
参照图2,实线为本发明方法对应输出的曲线,虚线为传统方法对应输出的曲线,根据图2的示意,能够直观地看出实线与虚线在电影数量较少的情况下预测电影票房的精度是较高的,但是随着电影数量的增加,实线相较于虚线逐渐拉开间距,且实线始终保持着高于虚线的走势,由此可见,本发明方法的预测精度是远远高于传统方法的预测精度的,验证了本发明方法所具有的真实效果。
实施例2
参照图3,为本发明的第二个实施例,该实施例不同于第一个实施例的是,提供了一种基于LS-SVMR的电影票房预测系统,包括:
采样模块100,用于采集各网站资源中的电影票房相关原始数据,形成样本数据集。
分析模块200连接于采样模块100,其用于分析导演和编剧、导演和制作人、导演和演员、编剧和制作人、编剧和演员、制作人和演员的特征关系,生成分析报告。
融合模块300与分析模块200相连接,其用于调用特征选择策略提取样本数据集与人物关系之间的特征并进行加权求和运算,得到特征组合数据。
预测模块400连接于采样模块100、分析模块200和融合模块300,其用于搭建、训练、输出预测模型,通过预测模型运算结果判定评估结果和精度,对电影票房进行预测并给出预测结果。
输入输出管理模块500与各模块相连接,其用于传输各模块的信息和指令,为各模块提供通信服务。
本实施例还需要说明的是,预测模块400主要分为三个层次,包括控制层、运算层及存储层,控制层是预测模块400的指挥控制中心,由指令寄存器IR、指令译码器ID和操作控制器OC组成,控制层能够根据用户预先编好的程序,依次从存储器中取出各条指令,放在指令寄存器IR中,通过指令译码器分析确定,通知操作控制器OC进行操作,按照确定的时序向相应的部件发出微操作控制信号;运算层是预测模块400的核心,能够执行算术运算(如加减乘除及其附加运算)和逻辑运算(如移位、逻辑测试或两个值比较),其连接于控制层,通过接受控制层的控制信号进行运算操作;存储层是预测模块400的数据库,能够存放数据(待处理及已经处理过的数据)。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于LS-SVMR的电影票房预测方法,其特征在于:包括,
采集电影票房相关原始数据进行预处理,构建样本数据集;
基于社交网络策略分析所述样本数据集中的电影主创网络结构特征人物关系;
利用特征选择将所述样本数据集和所述人物关系进行融合,形成特征组合数据;
基于LS-SVMR和神经网络策略构建预测模型,将所述特征组合数据、平均相对误差分别作为所述预测模型的输入变量和评估指标并进行训练;
当所述预测模型输出的MAPE满足精度阈值要求时结束训练,利用训练完成的所述预测模型对电影票房进行预测。
2.根据权利要求1所述的基于LS-SVMR的电影票房预测方法,其特征在于:构建所述预测模型包括,
利用RBF径向基函数作为所述预测模型的目标函数,基于对偶关系求解最优参数aj,以对线性和非线性的最小二乘支持向量机回归模型进行预测,如下,
Figure FDA0002563189900000011
其中,Ω=k(xi,xj),i、j=1、2,b:参数变量,f(xi):所述预测模型。
3.根据权利要求1或2所述的基于LS-SVMR的电影票房预测方法,其特征在于:训练所述预测模型包括,
不断调整sigma和gama参数,当所述sigma=0.9、所述gama=600时,所述MAPE最小;
设置所述预测模型的所述sigma=0.9、所述gama=600,输入训练集训练所述变量参数,直至所述MAPE=0.025%时结束训练;
其中,所述sigma参数是高维空间中点分布的离散程度,所述gama参数是对目标函数的两项之间的衡量。
4.根据权利要求3所述的基于LS-SVMR的电影票房预测方法,其特征在于:计算所述MAPE包括,
将平均绝对百分比误差作为所述预测模型的评价指标,以此判定票房预测精度大小,如下,
Figure FDA0002563189900000021
其中,i:票房序号,n:总的票房数,boxT:真实票房,boxp:预测票房。
5.根据权利要求4所述的基于LS-SVMR的电影票房预测方法,其特征在于:所述变量参数包括,
电影票房、电影类型、片长、关注度、制作公司、发行公司、上映档期、电影评分以及主创价值。
6.根据权利要求1或5所述的基于LS-SVMR的电影票房预测方法,其特征在于:所述预处理包括,
从时光网、猫眼电影、微博网站中选择票房数据大于1000万的430条数据作为所述电影票房相关原始数据;
将所述原始数据转换为430*133矩阵数据且利用R语言自定义线性归一函数进行归一化处理,如下,
Figure FDA0002563189900000022
其中,xnormal:归一之后的数据,x:所述原始数据,xmax、xmin分别为所述原始数据的最大值和最小值。
7.根据权利要求6所述的基于LS-SVMR的电影票房预测方法,其特征在于:所述样本数据集包括,
所述训练集、验证集和测试集;
分别对所述样本数据集进行类别划分,包括爱情片、动作片、剧情片、喜剧片、动画片、悬疑片、奇幻片和其他类型。
8.根据权利要求7所述的基于LS-SVMR的电影票房预测方法,其特征在于:分析所述人物关系包括,
导演和编剧、导演和制作人、导演和演员、编剧和制作人、编剧和演员、制作人和演员。
9.根据权利要求8所述的基于LS-SVMR的电影票房预测方法,其特征在于:所述特征组合数据包括,将归一化处理后的数据的特征指标进行二维、三维加权求和,形成所述特征组合数据;
组合之后,所述预测模型的所述输入变量包括,22个一维变量、30个二维变量和30个三维变量;
所述特征指标包括,获奖数、历史票房、作品总数。
10.一种基于LS-SVMR的电影票房预测系统,其特征在于:包括,
采样模块(100),用于采集各网站资源中的所述电影票房相关原始数据,形成所述样本数据集;
分析模块(200)连接于所述采样模块(100),其用于分析所述导演和所述编剧、所述导演和所述制作人、所述导演和所述演员、所述编剧和所述制作人、所述编剧和所述演员、所述制作人和所述演员的特征关系,生成分析报告;
融合模块(300)与所述分析模块(200)相连接,其用于调用所述特征选择策略提取所述样本数据集与所述人物关系之间的特征并进行加权求和运算,得到所述特征组合数据;
预测模块(400)连接于所述采样模块(100)、所述分析模块(200)和所述融合模块(300),其用于搭建、训练、输出所述预测模型,通过所述预测模型运算结果判定评估结果和精度,对所述电影票房进行预测并给出所述预测结果;
输入输出管理模块(500)与各模块相连接,其用于传输各模块的信息和指令,为各模块提供通信服务。
CN202010614191.6A 2020-06-30 2020-06-30 一种基于ls-svmr的电影票房预测方法及系统 Pending CN111768037A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010614191.6A CN111768037A (zh) 2020-06-30 2020-06-30 一种基于ls-svmr的电影票房预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010614191.6A CN111768037A (zh) 2020-06-30 2020-06-30 一种基于ls-svmr的电影票房预测方法及系统

Publications (1)

Publication Number Publication Date
CN111768037A true CN111768037A (zh) 2020-10-13

Family

ID=72723044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010614191.6A Pending CN111768037A (zh) 2020-06-30 2020-06-30 一种基于ls-svmr的电影票房预测方法及系统

Country Status (1)

Country Link
CN (1) CN111768037A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330368A (zh) * 2020-11-16 2021-02-05 腾讯科技(深圳)有限公司 一种数据处理方法、系统及存储介质和终端设备
CN113379448A (zh) * 2021-05-28 2021-09-10 西安影视数据评估中心有限公司 一种电影票房的映前预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980909A (zh) * 2017-03-30 2017-07-25 重庆大学 一种基于模糊线性回归的电影票房预测方法
CN107038494A (zh) * 2017-03-06 2017-08-11 中国电影科学技术研究所 一种影院票房预测方法及装置
CN107133699A (zh) * 2017-05-12 2017-09-05 百度国际科技(深圳)有限公司 电影票房趋势预测方法和装置、设备、存储介质
CN107404671A (zh) * 2017-06-13 2017-11-28 中国传媒大学 电影内容特征获取系统及应用系统
CN108734329A (zh) * 2017-04-21 2018-11-02 北京微影时代科技有限公司 一种预测电影次日票房的方法及装置
CN109087146A (zh) * 2018-08-15 2018-12-25 深圳快购科技有限公司 影院票房收入的预测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038494A (zh) * 2017-03-06 2017-08-11 中国电影科学技术研究所 一种影院票房预测方法及装置
CN106980909A (zh) * 2017-03-30 2017-07-25 重庆大学 一种基于模糊线性回归的电影票房预测方法
CN108734329A (zh) * 2017-04-21 2018-11-02 北京微影时代科技有限公司 一种预测电影次日票房的方法及装置
CN107133699A (zh) * 2017-05-12 2017-09-05 百度国际科技(深圳)有限公司 电影票房趋势预测方法和装置、设备、存储介质
CN107404671A (zh) * 2017-06-13 2017-11-28 中国传媒大学 电影内容特征获取系统及应用系统
CN109087146A (zh) * 2018-08-15 2018-12-25 深圳快购科技有限公司 影院票房收入的预测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330368A (zh) * 2020-11-16 2021-02-05 腾讯科技(深圳)有限公司 一种数据处理方法、系统及存储介质和终端设备
CN113379448A (zh) * 2021-05-28 2021-09-10 西安影视数据评估中心有限公司 一种电影票房的映前预测方法

Similar Documents

Publication Publication Date Title
Gordon et al. Jury learning: Integrating dissenting voices into machine learning models
CN111291266B (zh) 基于人工智能的推荐方法、装置、电子设备及存储介质
WO2021093821A1 (zh) 智能助理评价、推荐方法、系统、终端及可读存储介质
CN112153426B (zh) 一种内容账号管理方法、装置、计算机设备及存储介质
CN110337016A (zh) 基于多模态图卷积网络的短视频个性化推荐方法及系统
CN112418525B (zh) 社交话题群体行为的预测方法、装置及计算机存储介质
CN108322317A (zh) 一种账号识别关联方法及服务器
Wu et al. Continuous fuzzy kano model and fuzzy AHP model for aesthetic product design: case study of an electric scooter
CN112036483B (zh) 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质
CN114118192A (zh) 用户预测模型的训练方法、预测方法、装置及存储介质
Liao et al. Early box office prediction in China’s film market based on a stacking fusion model
Roy et al. iMusic: a session-sensitive clustered classical music recommender system using contextual representation learning
CN111768037A (zh) 一种基于ls-svmr的电影票房预测方法及系统
KR102429788B1 (ko) 아이템반응객체를 이용한 컨텐츠 추천 큐레이션 방법
Wu A Field Analysis of Immersive Technologies and Their Impact on Journalism: Technologist Perspectives on the Potential Transformation of the Journalistic Field
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
Martinez et al. Towards estimating and predicting user perception on software product variants
CN113065321B (zh) 基于lstm模型和超图的用户行为预测方法及系统
Rezaee et al. A data-driven decision support framework for DEA target setting: an explainable AI approach
Kumar et al. Movie Success Prediction using Data Mining
Viana et al. Pick the right team and make a blockbuster: a social analysis through movie history
CN117786234B (zh) 一种基于两阶段对比学习的多模态资源推荐方法
CN117788122B (zh) 一种基于异质图神经网络商品推荐方法
Gordon Human-Ai Interaction Under Societal Disagreement
Hou et al. Research on the elements of future holographic scene design based on card sorting-fuzzy comprehensive evaluation method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination