CN106980909A - 一种基于模糊线性回归的电影票房预测方法 - Google Patents
一种基于模糊线性回归的电影票房预测方法 Download PDFInfo
- Publication number
- CN106980909A CN106980909A CN201710200957.4A CN201710200957A CN106980909A CN 106980909 A CN106980909 A CN 106980909A CN 201710200957 A CN201710200957 A CN 201710200957A CN 106980909 A CN106980909 A CN 106980909A
- Authority
- CN
- China
- Prior art keywords
- box office
- weights
- film
- box
- linear regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012417 linear regression Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000000694 effects Effects 0.000 claims abstract description 14
- 238000013139 quantization Methods 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 5
- 238000005315 distribution function Methods 0.000 claims description 11
- 238000000205 computational method Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 6
- 235000009696 Murraya paniculata Nutrition 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 241001656896 Buxus sinica Species 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000011160 research Methods 0.000 description 8
- 230000007935 neutral effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 244000188192 Murraya paniculata Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005553 drilling Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 244000131316 Panax pseudoginseng Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 240000006394 Sorghum bicolor Species 0.000 description 1
- 235000011684 Sorghum saccharatum Nutrition 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000003455 independent Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000005622 photoelectricity Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- VBUBYMVULIMEHR-UHFFFAOYSA-N propa-1,2-diene;prop-1-yne Chemical compound CC#C.C=C=C VBUBYMVULIMEHR-UHFFFAOYSA-N 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Computational Mathematics (AREA)
- Economics (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Fuzzy Systems (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Automation & Control Theory (AREA)
- Biomedical Technology (AREA)
- Complex Calculations (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
Abstract
本发明提供了一种基于模糊线性回归的电影票房预测方法,包括如下步骤:S1,对电影票房的影响因素进行权值量化,得到该影响因素的权值,进行聚类过程;S2,将量化后的权值通过模糊线性回归模型进行求解;S3,输入训练样本,求解回归系数,得到训练后的回归方程,输入测试样本,得到预测值。S4,根据样本的预测值,计算样本与真值之间的相对百分误差,并计算样本相对百分误差的概率分布,直观反映预测效果。
Description
技术领域
本发明涉及计算机领域,其中涉及一种基于聚类的模糊线性回归(FLR,FuzzyLinear Regression)的票房预测方法,尤其涉及一种基于模糊线性回归的电影票房预测方法。
背景技术
根据国家新闻出版光电总局电影局数据,2016年全国电影总票房为457.12亿元,同比增长3.73%,相较于2015年48.7%的增幅大幅跳水。多家上市公司新入战局,票房市场竞争愈发激烈。2016年全国票房总数微超去年。中国已经成为世界第二大电影市场,并在不断缩小与北美市场的差距,中国电影业迸发出强劲活力。国产电影产量增加,质量不断提升,类型进一步丰富。从票房和电影评论来看,国产电影受到了市场的认可和观众的广泛欢迎。电影产业的快速发展也吸引了大量的投资者投资,但现在电影市场的盈亏确实不容乐观。每年投拍的电影只是部分上映,且上映的电影中,大约只有20%左右是盈利,10%收支平衡,剩下的70%处于亏损状态。如何提前预估票房,确保电影发行投资回报率,控制发行风险,对电影票房的预测就显得尤为重要。但是,由于电影票房的样本不一致性,比如,著名导演王晶2016拍摄的电影《澳门风云3》票房收入高达11.17亿,而其2013年拍摄的电影《百家乐翻天》票房仅222万。对于同一个导演,或者演员,并不能保证其所有电影都具有高收入,且影响票房的因素众多,如导演、演员、电影类型、档期、同档期的竞争作品、制作公司,观众评价等,它们都与票房收入密不可分,这些因素与票房之间并非单纯的一一映射关系,因此极难进行精确预测。
电影票房的研究从20世纪四十年代的“观众研究”开始,初期研究目的是解释票房成败,提高票房成绩。后有巴瑞·李特曼的票房预测模型《电影经济成功预测:基于八十年代人的经验》的发表,成为电影票房预测的标志性起点,其论文给出了电影票房研究的基本方法和模型。21世纪后,随着数据库的发展及大数据的兴起,使得对历史数据的挖掘利用成为可能。这也促使美国相关电影市场分析公司大量出现,如Box office Mojo,他们的票房预测结果为全美超过半数的影院提供决策与参考。
据不完全统计,已有将近300余种预测方法应用于各个科学领域中,这些预测方法目前在电影票房的预测研究中也得到广泛应用,根据目前研究文献,用于电影票房预测模型和方法主要分为以下几类:基于反馈神经网络的方法、基于多元线性网络的方法、基于多层神经网络的方法。
2006年Sharda等在《Predicting box-office success of motion pictureswith neural networks》一文中提出使用神经网络的方法来预测电影票房所属的分类(文中将电影从烂片到超级大片划分为9类)。但其简单使用0和1来量化影响电影票房的众多影响因素,处理方式粗糙模糊,不能明确体现不同因素对电影票房产生的作用的差异性。且神经网络容易陷入局部最优,收敛速度较慢,甚至不收敛,网络训练效率低。2009年,张玉松等以2000年至2007年在中国大陆上映的103部进口影片为研究对象,根据国内市场情况,采用了电影投资、电影质量、导演、演员、电影续集和盗版等六个自变量,建立了影响因子和票房之间的线性回归模型。2013年,Google在一份名为《Quantifying Movie Magic withGoogle Search》的白皮书中公布了其基于线性回归分析的电影票房预测模型,Google在文中宣称其模型对于电影票房预测的准确度达到了94%。但它是基于电影上映前一周的系列数据来预测电影票房,并非电影未拍摄时票房预估。目前更多的研究是基于电影制作完成后,网络口碑,微博数据,营销宣传力度,MAPP评分等因素的,不能为电影拍摄前期投资与制作提供决策参考。而在2014年郑坚的《基于神经网络的电影票房预测建模》一文中,使用的是导演、演员、类型等属性,在电影拍摄前便可以获得。采用反馈神经网络的算法对电影票房进行预测,可为电影上映前对投资者的决策、电影宣传以及风险评估提供较可靠的参考。然而数据源于中国票房网,由于中国票房网固定每周日更新数据,使得第一周票房显示数据可能仅为周日一天的数据,也可能是周一至周日总票房收入,与原始数据差距大,将这些记录数据用于模型的分析将导致量化误差大,且由于BP神经网络的不稳定性,导致该算法波动很大,算法预测效果不理想。这就亟需本领域技术人员解决相应的技术问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于模糊线性回归的电影票房预测方法。
本发明旨在解决现有技术中预测不稳定,收敛速度慢,预测效果不理想的问题,特别提出一种稳定的、且有效的电影票房预测算法。
为了实现本发明的上述目的,本发明提供了一种基于模糊线性回归的电影票房预测方法,包括如下步骤:
S1,对电影票房的影响因素进行权值量化,得到该影响因素的权值,进行聚类过程;
S2,将量化后的权值通过模糊线性回归模型进行求解;
S3,输入训练样本,求解回归系数,得到训练后的回归方程,输入测试样本,得到预测值。
S4,根据样本的预测值,计算样本与真值之间的相对百分误差,并计算样本相对百分误差的概率分布,直观反映预测效果。
所述的基于模糊线性回归的电影票房预测方法,优选的,所述影响因素包括:
本文中所使用的电影票房都是经过通货膨胀调整后的票房。
导演权值量化:导演影响因子取值为该导演平均票房值,计算方法:
其中,i表示第i名导演;j表示第i名导演参与拍摄的第j部电影;m表示第i名导演参与拍摄的所有电影数目;δ为衰减系数;year表示当前参考年份;yearj表示第j部电影上映的年份;bj表示考虑通货膨胀后折算成当前参考年份的票房。
所述的基于模糊线性回归的电影票房预测方法,优选的,所述影响因素还包括:
演员权值量化:演员影响因子取值为该演员的平均票房值,计算方法为:
其中,i表示第i名演员;k表示第i名演员参与拍摄的第k部电影;n表示第i名演员参与拍摄的所有电影数目;δ为衰减系数;year表示当前参考年份;yeark表示第k部电影上映的年份;bk表示考虑通货膨胀后折算成当前参考年份的票房。
所述的基于模糊线性回归的电影票房预测方法,优选的,所述影响因素还包括:
发行地区权值量化:定义发行地区i的票房影响力指标Ni:
其中,i(i=1,2,…,5)为发行地区序号表示,i的取值与地区的对应关系如表1所示;k表示上映的周次;m表示发行地区属于地区i的电影总数;j表示发行地区属于地区i的第j部电影;bjk表示发行地区为i的第j部电影在上映的第k周内产生的票房收入;
对各地区的权值Nation_weight进一步量化,
其中,i为发行地区序号的表示;Ni、Nj分别表示发行地区i、j的影响力。
所述的基于模糊线性回归的电影票房预测方法,优选的,所述影响因素还包括:
电影类型权值量化:给出各类型的电影票房影响力指标Gi:
其中,i表示第i类型(i=1,2,…,13,对应上述的13种电影类型分类);k表示某部电影上映的第k周(k=1,2,3);m表示第i类型电影总量;j表示第i类型的第j部电影;则bjk表示为第i类型下的第j部电影上映后的第k周内产生的票房收入。通过类型的电影票房影响Gi计算得到各类型的权值
Genre_weighti,计算方法如下:
Gmax=max{G1,G2...},
Gmin=min{G1,G2...}。
其中,i表示类型序号;Gi表示电影为类型i的影响力。
所述的基于模糊线性回归的电影票房预测方法,优选的,所述影响因素还包括:
定义新导演i的权值的缺省值New_dir_weighti:
其中,Actor_weighti表示新导演i作为演员时的影响力权值;表示训练数据中所有演员的影响力权值的平均值;表示训练数据中所有导演的影响力权值的平均值。σ(0<σ<1)表示一个系数,用于调整新导演的初始权值。
所述的基于模糊线性回归的电影票房预测方法,优选的,所述影响因素还包括:
定义新晋演员i的票房影响力缺省权值New_actor_weighti:
其中,Dir_weighti表示新演员i作为导演时的影响力权值;表示训练数据中所有导演的影响力权值的平均值;表示训练数据中所有演员的影响力权值的平均值。σ(0<σ<1)表示一个系数,用于调整新演员的初始权值
所述的基于模糊线性回归的电影票房预测方法,优选的,所述S1包括:
S1-1,随机选取k个中心;
S1-2,遍历所有数据,将每个数据划分到最近的中心点中;
S1-3,计算每个聚类的平均值,并作为新的中心;
S1-4,重复S1-2至S1-3,直到这k个中心点不再变化或者已经收敛),或迭代次数达到上限。
所述的基于模糊线性回归的电影票房预测方法,优选的,所述S2包括:
三角模糊数定义:
隶属度函数
L(x)满足以下特征:
(1)L(x)=L(-x)
(2)L(c)=1
模糊多元线性回归具体模型如下:
c(xp)=c0+c1xp1+c2xp2+···+cnxpn
w(xp)=w0+w1|xp1|+w2|xp2|+···+wn|xpn|
xp=(xp1,xp2,...,xpn),是输入的一个n维向量
模糊线性回归模型求解:
(1)属于模糊集的隶属度不低于h;
(2)使得w(xp)的求和最小化。
因此,模糊线性回归的求解可以转化为一个线性规划问题的求解。
满足于如下公式:
yp≤c(xp)+|L-1(h)|w(xp)
yp≥c(xp)-|L-1(h)|w(xp)
w(xp)≥0(L(x)=max(0,1-|x|))
建模:
输入变量(xp):在对中国电影票房历史数据统计分析的基础上,结合中国电影市场的实际情况,选取第一导演、第二导演、第一主演、第二主演、第三主演、第一类型、第二类型、发行地区、上映档期作为影响电影票房收入的特征属性,有9个特征属性,并赋予各特征属性不同的权重,组成的输入向量形式如下:
(xp,yp),p=1,2,...,m
xp=(xp1,xp2,...,xpn)。
此处m=9。
所述的基于模糊线性回归的电影票房预测方法,优选的,所述S3包括:
输入训练样本,求解回归系数,得到训练后的回归方程:
输入测试样本,得到预测值,并将其与真实值做比较,计算相对百分误差;
所述S4包括:性能评价指标:
电影票房收入存在较大的不确定性,偶尔还会出现黑马,票房收入很高,以及电影爆冷票房极低等现象,这就造成采用的相应模型无法预测这些偶然因素造成的高票房或者很低的票房,但采用此模型若能较为准确预测绝大多数票房,我们认为所采用的模型是有效的。但黑马与爆冷电影的出现,使得相对百分误差较大,平均相对百分误差大。
因此,采用了一种新的性能评价指标,基于相对百分误差的概率分布函数的性能评价指标。
设P为概率测度,X为随机变量,则函数:
F(x)=P(X≤x)(x∈R)
称为X的概率分布函数。此处,F(x)表示预测样本的相对百分误差X≤x的概率。
此处样本的相对百分误差为一个离散分布,即分布函数的值域是离散的,如果X的取值只有x1≤x2≤...≤xn,则
综上所述,由于采用了上述技术方案,本发明的有益效果是:
(1)针对电影拍摄前投资制作的提供预测参考,选择有效影响因素及其权值化策略。就目前许多电影票房预测方法是基于微博互动、豆瓣评分、口碑等电影上映后的社会反馈数据,不能达到提前预测票房,做好投资准备的目的。电影票房预测时,合理而有效的影响因素与权值量化将显著提升算法的预测效果。由于本发明用于电影拍摄前投资制作的参考。因此,选择导演、演员、电影类型、发行国家、上映档期等重要影响因素。在量化导演、演员影响力时,利用导演、演员参与的历史票房数据,使用通货膨胀调整票房数据,考虑随时间的衰减系数,使其进行权值量化得到的衡量导演与演员的尺度更为合理。同时,对电影类型,电影发行地区、发行公司等因素进行更为有效的权值量化,得到模型使用的影响指标,以此预测的结果可对电影前期投资与建设提供有力参考。
(2)根据电影票房数据集的特点,设计基于聚类的模糊线性回归预测算法。利用Kmeans聚类算法,将电影分为几个大类,在每一类中,对模糊线性回归的参数进行求解,再对相应类的测试数据进行测试。相比使用神经网络的方法进行预测拥有更快的计算机速度,以及更好的稳定性。且预测结果为区间预测,更为合理。
(3)提出一种合理的电影票房预测的评估方法。传统的电影票房预测的评估,如果是预测电影票房分类(将电影分为从烂片到超级大片等几类)的方法中,使用的是分类准确率进行性能评估,如果预测的电影票房为连续值时,多使用的是平均相对百分误差比进行性能评估。当预测值始终保持较小值时,可以保证相对百分误差小于100%,以此性能评估方法存在不合理性。因此,本发明中提出了一种新的性能评估方法——相对百分误差的概率分布函数,来评价模型的效果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明的总体方法示意图;
图2是三角模糊数函数图像;
图3是本发明FuzzyLR效果对比图,BPNN与FuzzyLR算法相对百分误差概率分布对比图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
下面详细描述本发明的实施过程,所述方法包括如下步骤:
如图1所示,数据获取
一部电影放映的周期通常为3周到4周左右,且电影票房主要集中在前3周,因此本发明所使用的电影票房数据为每部电影上映前21天的票房总收入。以7天为一个周期,依次记为第一周票房收入,第二周票房收入,第三周票房收入。其中的票房收入,是指将每一年票房收入进行通货膨胀调整后的票房收入。
由于电影票房影响因素众多,预测难度大,本发明中综合已有的相关研究,发现导演与演员对于票房有显著影响,电影的类型,制作国家、以及电影发行公司都对电影票房有着关联性,因此本发明将其都纳入影响因素中。本发明中使用的影响因子:第一导演Dir1,第一导演Dir2,第一演员Actor1,第二演员Actor2,第三演员Actor3,制片国家Nation,影片第一类型Type1,影片第二类型Type2,上映档期Date。
影响因素权值量化:本发明中对上述影响因子进行量化处理,量化过程直接影响着算法的预测效果。好的量化过程会明显提高算法预测的准确度。
票房值:本发明中提到的,一部电影的票房收入,是指一部电影正式上映后,前三周(21天)票房收入总和。每一周票房,指从电影上映当天开始,以7天为一个周期,累计的票房记为一周票房。并且,排除通货膨胀的影响,将其转换为同一年份下的票房数据。
1)导演权值(Dir_weight)量化:由于本发明采用模糊线性回归进行预测,因此权值不宜量化得过于集中,若人为缩小样本间的差距,将使预测结果集中,失去差异性。导演影响因子取值为该导演平均票房表现,计算方法:
其中,i表示第i名导演;j表示第i名导演参与拍摄的第j部电影;m表示第i名导演参与拍摄的所有电影数目;δ为衰减系数;year表示当前参考年份;yearj表示第j部电影上映的年份;bj表示考虑通货膨胀后折算成当前参考年份的票房。
2)演员权值(Actor_weight)量化:参与演出的演员知名度不仅是衡量电影品质的重要指标,更是吸引观众走进影院的筹码,对电影第一周的票房收入有着较大影响,这也在历史统计的电影数据样本中得到验证。一部电影中主演知名度越高,票房收入也相对越高。众多电影爱好者的观影更看重明星,而对其他信息的关注相对较少。因此本发明中,将电影主演也作为了预测电影票房收入的影响因素。演员影响因子取值为该演员的平均票房,计算方法为:
其中,i表示第i名演员;k表示第i名演员参与拍摄的第k部电影;n表示第i名演员参与拍摄的所有电影数目;δ为衰减系数;year表示当前参考年份;yeark表示第k部电影上映的年份;bk表示考虑通货膨胀后折算成当前参考年份的票房。
3)发行地区权值(Nation_weight)量化:通过历史数据统计发现,电影的发行地区在一定程度上对电影票房收入产生影响。换句话说,在票房收入问题上,好莱坞大片是自带光环的。发行地区主要分为欧美、日韩、港台、大陆、其他5类。实验表明,国外进口的欧美大片,票房收入通常较高。据此,定义
发行地区i的票房影响力指标Ni:
其中,i(i=1,2,…,5)为发行地区序号表示,i的取值与地区的对应关系如表1所示;k表示上映的周次;m表示发行地区属于地区i的电影总数;j表示发行地区属于地区i的第j部电影;bjk表示发行地区为i的第j部电影在上映的第k周内产生的票房收入。
表1 i的取值与电影发行地区的对应关系
Table 1 Relation between i and nation of movie
对各地区的权值Nation_weight进一步量化。
其中,i为发行地区序号的表示;Ni、Nj分别表示发行地区i、j的影响力。
4)电影类型权值(Genre_weight)(如果有多个,取前两个)量化:有学者曾分析了电影题材的选择对电影票房的影响,发现了不同类型电影票房收入的差异性。不同题材类型会有相对较为固定的受众群,但不同类型的受众群也会随着市场的变化而变化。本发明中,电影类型的分类方法,参考了互联网电影资料库((Internet Movie Database,IMDB)的电影类型分类方法,分为以下13类型:爱情、卡通(动画、儿童)、灾难、悬疑(冒险、犯罪)、恐怖(惊悚、惊秫)、战争、纪录(传记、历史)、家庭、戏剧(音乐、戏曲)、科幻(音乐、戏曲)、喜剧、动作(武侠、古装故事(剧情))。首先,给出各类型的电影票房影响力指标Gi:
其中,i表示第i类型(i=1,2,…,13,对应上述的13种电影类型分类);k表示某部电影上映的第k周(k=1,2,3);m表示第i类型电影总量;j表示第i类型的第j部电影;则bjk表示为第i类型下的第j部电影上映后的第k周内产生的票房收入。通过类型的电影票房影响Gi计算得到各类型的权值
Genre_weighti,计算方法如下:
Gmax=max{G1,G2...},
Gmin=min{G1,G2...}。
其中,i表示类型序号;Gi表示电影为类型i的影响力。
5)档期权值(Date_weight)量化:由于电影的观影群众多为青年群体,因此电影上映的档期对票房收入也有影响,即使是一部普通电影,如果选择在贺岁档或者暑期档上映,也能获得不错的票房收入。因此,本发明中,根据电影上映日期前后三天是否处于节假日,将上映档期分为5个,分别是暑期档、五一档、国庆档、贺岁档、其他。其档期日期分别如下所示:
表2 i的取值与上映档期的对应关系
Table 2 Relation between i and date of movie
档期i的票房影响力指标Di的定义如下:
其中,i(i=1,2,…,5)档期序号的表示,i的取值与地区的对应关系如表3.2所示;k为电影上映的周次表示;m为上映日期在档期i的电影总数的表示;j为上映日期在档期i的第j部电影的表示;bjk表示上映日期在档期i的第j部电影在上映的第k周内产生的票房收入数据。
档期的权值Date_weighti的计算,有如下公式:
Dmax=max{D1,D2...}
Dmin=min{D1,D2...}
其中,i为档期序号,Di为档期i的影响力。
6)票房特征的缺省值处理
当需要预测某部电影票房收入时,极有可能出现该部电影的某些特征属性值在训练集中未出现的情况,譬如,新晋的导演、演员,须为其指定缺省的权值。
众所周知,除了新晋的导演,有许多演员在获得一定知名度后,会进一步参与执导新的电影作品(如徐峥,2012年,自编、自导、自演《人再囧途之泰囧》,最终获得12.69亿的票房表现),他们作为演员时所产生的影响力,为其执导的电影带来更多关注,获得更高票房,符合中国国情,“演而优则导”。因此,定义新导演i的权值的缺省值New_dir_weighti:
其中,Actor_weighti表示新导演i作为演员时的影响力权值;表示训练数据中所有演员的影响力权值的平均值;表示训练数据中所有导演的影响力权值的平均值。σ(0<σ<1)表示一个系数,用于调整新导演的初始权值,本发明中取值为0.2,目的在于选择一个更为合适的新导演权值。
主演缺省值,
与导演影响i,定义新晋演员i的票房影响力缺省权值New_actor_weighti:
其中,Dir_weighti表示新演员i作为导演时的影响力权值;表示训练数据中所有导演的影响力权值的平均值;表示训练数据中所有演员的影响力权值的平均值。σ(0<σ<1)表示一个系数,用于调整新演员的初始权值,本发明中取值为0.2,目的在于选择一个更为合适的新演员权值。
Kmeans聚类方法
Kmeans是最简单的聚类算法,用于数据分析前期,选取适当的k,将数据分类后,分别研究不同聚类下数据的特点。
算法计算方法如下:
1)随机选取k个中心;
2)遍历所有数据,将每个数据划分到最近的中心点中;
3)计算每个聚类的平均值,并作为新的中心;
4)重复2)-3),直到这k个中心点不再变化(已经收敛),或迭代次数达到上限。
根据实验效果,本发明中k值选取值10,将所有数据分为10类。
模糊线性回归的步骤包括:
三角模糊数定义:
隶属度函数
L(x)满足以下特征:
(1)L(x)=L(-x)
(2)L(c)=1
L(x)的具体函数图像如图2所示。
模糊多元线性回归具体模型如下:
c(xp)=c0+c1xp1+c2xp2+···+cnxpn
w(xp)=w0+w1|xp1|+w2|xp2|+···+wn|xpn|
xp=(xp1,xp2,...,xpn),是输入的一个n维向量
模糊线性回归模型求解:
(1)属于模糊集的隶属度不低于h;
(2)使得w(xp)的求和最小化。
因此,模糊线性回归的求解可以转化为一个线性规划问题的求解。
满足于如下公式:
yp≤c(xp)+|L-1(h)|w(xp)
yp≥c(xp)-|L-1(h)|w(xp)
w(xp)≥0(L(x)=max(0,1-|x|))
建模:
输入变量(xp):在对中国电影票房历史数据统计分析的基础上,结合中国电影市场的实际情况,选取第一导演、第二导演、第一主演、第二主演、第三主演、第一类型、第二类型、发行地区、上映档期作为影响电影票房收入的特征属性,并赋予各特征属性不同的权重,组成的输入向量形式如下:
(xp,yp),p=1,2,...,m
xp=(xp1,xp2,...,xpn)
针对电影第一周和前三周票房分别进行预测,
表3预测模型的输入以及输出值域
Table 3 The input and output of BRP model
输入训练样本,求解回归系数,得到训练后的回归方程:
输入测试样本,得到预测值,并将其与真实值做比较,计算相对百分误差。
性能评价指标:
电影票房收入存在较大的不确定性,偶尔还会出现黑马,票房收入很高,这就造成采用的相应模型无法预测这些偶然因素造成的高票房,但采用此模型若能较为准确预测绝大多数票房,我们认为所采用的模型是有效的。但黑马的出现,使得相对百分误差较大,平均相对百分误差大。
因此,本发明采用了一种新的性能评价指标,基于相对百分误差的概率分布函数的性能评价指标。
设P为概率测度,X为随机变量,则函数:
F(x)=P(X≤x)(x∈R)
称为X的概率分布函数。此处,F(x)表示预测样本的相对百分误差X≤x的概率。
此处样本的相对百分误差为一个离散分布,即分布函数的值域是离散的,如果X的取值只有x1≤x2≤...≤xn,则
因此,若采用基于相对百分误差的概率分布函数的评价方法,可以直观显示出样本相对百分误差的概率分布情况,比如预测样本的相对百分误差在20%以下的样本概率值,样本离群点,此性能评价指标方法更为合理、直观。
如图3所示,实验结果表明:由于现有预测方法中,较多基于神经网络的预测方法,因此本发明方法选择了BP神经神经网络进行对比分析。本发明中提出的基于分类的模糊线性回归方法,预测得到一个电影票房收入可能的区间。电影票房收入预测区间的中心值与票房收入真值之间的平均相对百分误差为80%,相对百分误差小于50%的概率为40%,而BP神经网络算法的平均相对误差为93%,相对百分误差小于50%的概率仅为30%,因此,本发明中拥有更好的预测效果。对电影前期宣传投资具有参考价值。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种基于模糊线性回归的电影票房预测方法,其特征在于,包括如下步骤:
S1,对电影票房的影响因素进行权值量化,得到该影响因素的权值,进行聚类过程;
S2,将量化后的权值通过模糊线性回归模型进行求解;
S3,输入训练样本,求解回归系数,得到训练后的回归方程,输入测试样本,得到预测值。
S4,根据样本的预测值,计算样本与真值之间的相对百分误差,并计算样本相对百分误差的概率分布,直观反映预测效果。
2.根据权利要求1所述的基于模糊线性回归的电影票房预测方法,其特征在于,所述影响因素包括:
本文中所使用的电影票房都是经过通货膨胀调整后的票房。
导演权值量化:导演影响因子取值为该导演平均票房值,计算方法:
其中,i表示第i名导演;j表示第i名导演参与拍摄的第j部电影;m表示第i名导演参与拍摄的所有电影数目;δ为衰减系数;year表示当前参考年份;yearj表示第j部电影上映的年份;bj表示考虑通货膨胀后折算成当前参考年份的票房。
3.根据权利要求1所述的基于模糊线性回归的电影票房预测方法,其特征在于,所述影响因素还包括:
演员权值量化:演员影响因子取值为该演员的平均票房值,计算方法为:
其中,i表示第i名演员;k表示第i名演员参与拍摄的第k部电影;n表示第i名演员参与拍摄的所有电影数目;δ为衰减系数;year表示当前参考年份;yeark表示第k部电影上映的年份;bk表示考虑通货膨胀后折算成当前参考年份的票房。
4.根据权利要求1所述的基于模糊线性回归的电影票房预测方法,其特征在于,所述影响因素还包括:
发行地区权值量化:定义发行地区i的票房影响力指标Ni:
其中,i(i=1,2,…,5)为发行地区序号表示,i的取值与地区的对应关系如表1所示;k表示上映的周次;m表示发行地区属于地区i的电影总数;j表示发行地区属于地区i的第j部电影;bjk表示发行地区为i的第j部电影在上映的第k周内产生的票房收入;
对各地区的权值Nation_weight进一步量化,
其中,i为发行地区序号的表示;Ni、Nj分别表示发行地区i、j的影响力。
5.根据权利要求1所述的基于模糊线性回归的电影票房预测方法,其特征在于,所述影响因素还包括:
电影类型权值量化:给出各类型的电影票房影响力指标Gi:
其中,i表示第i类型(i=1,2,…,13,对应上述的13种电影类型分类);k表示某部电影上映的第k周(k=1,2,3);m表示第i类型电影总量;j表示第i类型的第j部电影;则bjk表示为第i类型下的第j部电影上映后的第k周内产生的票房收入。通过类型的电影票房影响Gi计算得到各类型的权值
Genre_weighti,计算方法如下:
Gmax=max{G1,G2...},
Gmin=min{G1,G2...}。
其中,i表示类型序号;Gi表示电影为类型i的影响力。
6.根据权利要求1所述的基于模糊线性回归的电影票房预测方法,其特征在于,所述影响因素还包括:
定义新导演i的权值的缺省值New_dir_weighti:
其中,Actor_weighti表示新导演i作为演员时的影响力权值;表示训练数据中所有演员的影响力权值的平均值;表示训练数据中所有导演的影响力权值的平均值。σ(0<σ<1)表示一个系数,用于调整新导演的初始权值。
7.根据权利要求1所述的基于模糊线性回归的电影票房预测方法,其特征在于,所述影响因素还包括:
定义新晋演员i的票房影响力缺省权值New_actor_weighti:
其中,Dir_weighti表示新演员i作为导演时的影响力权值;表示训练数据中所有导演的影响力权值的平均值;表示训练数据中所有演员的影响力权值的平均值。σ(0<σ<1)表示一个系数,用于调整新演员的初始权值。
8.根据权利要求1所述的基于模糊线性回归的电影票房预测方法,其特征在于,所述S1包括:
S1-1,随机选取k个中心;
S1-2,遍历所有数据,将每个数据划分到最近的中心点中;
S1-3,计算每个聚类的平均值,并作为新的中心;
S1-4,重复S1-2至S1-3,直到这k个中心点不再变化或者已经收敛),或迭代次数达到上限。
9.根据权利要求1所述的基于模糊线性回归的电影票房预测方法,其特征在于,所述S2包括:
三角模糊数定义:
隶属度函数
L(x)满足以下特征:
(1) L(x)=L(-x)
(2) L(c)=1
模糊多元线性回归具体模型如下:
c(xp)=c0+c1xp1+c2xp2+…+cnxpn
w(xp)=w0+w1|xp1|+w2|xp2|+…+wn|xpn|
xp=(xp1,xp2,...,xpn),是输入的一个n维向量
模糊线性回归模型求解:
(1)属于模糊集的隶属度不低于h;
(2)使得w(xp)的求和最小化。
因此,模糊线性回归的求解可以转化为一个线性规划问题的求解。
满足于如下公式:
yp≤c(xp)+|L-1(h)|w(xp)
yp≥c(xp)-|L-1(h)|w(xp)
w(xp)≥0(L(x)=max(0,1-|x|))
建模:
输入变量(xp):在对中国电影票房历史数据统计分析的基础上,结合中国电影市场的实际情况,选取第一导演、第二导演、第一主演、第二主演、第三主演、第一类型、第二类型、发行地区、上映档期作为影响电影票房收入的特征属性,有9个特征属性,并赋予各特征属性不同的权重,组成的输入向量形式如下:
(xp,yp),p=1,2,...,m
xp=(xp1,xp2,...,xpn)。
此处m=9。
10.根据权利要求1所述的基于模糊线性回归的电影票房预测方法,其特征在于,所述S3包括:
输入训练样本,求解回归系数,得到训练后的回归方程:
输入测试样本,得到预测值,并将其与真实值做比较,计算相对百分误差;
所述S4包括:性能评价指标:
电影票房收入存在较大的不确定性,偶尔还会出现黑马,票房收入很高,以及电影爆冷票房极低等现象,这就造成采用的相应模型无法预测这些偶然因素造成的高票房或者很低的票房,但采用此模型若能较为准确预测绝大多数票房,我们认为所采用的模型是有效的。但黑马与爆冷电影的出现,使得相对百分误差较大,平均相对百分误差大。
因此,采用了一种新的性能评价指标,基于相对百分误差的概率分布函数的性能评价指标。
设P为概率测度,X为随机变量,则函数:
F(x)=P(X≤x)(x∈R)
称为X的概率分布函数。此处,F(x)表示预测样本的相对百分误差X≤x的概率。
此处样本的相对百分误差为一个离散分布,即分布函数的值域是离散的,如果X的取值只有x1≤x2≤...≤xn,则
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710200957.4A CN106980909A (zh) | 2017-03-30 | 2017-03-30 | 一种基于模糊线性回归的电影票房预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710200957.4A CN106980909A (zh) | 2017-03-30 | 2017-03-30 | 一种基于模糊线性回归的电影票房预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106980909A true CN106980909A (zh) | 2017-07-25 |
Family
ID=59339678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710200957.4A Pending CN106980909A (zh) | 2017-03-30 | 2017-03-30 | 一种基于模糊线性回归的电影票房预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106980909A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862415A (zh) * | 2017-11-30 | 2018-03-30 | 成都飞机工业(集团)有限责任公司 | 一种产量预测方法 |
CN108764972A (zh) * | 2018-05-08 | 2018-11-06 | 中国电影科学技术研究所 | 一种影片票房预测方法及装置 |
CN108921380A (zh) * | 2018-05-29 | 2018-11-30 | 深圳市小蛙数据科技有限公司 | 影视作品和演职人员的潜力指数评价方法和装置 |
CN109146543A (zh) * | 2018-07-12 | 2019-01-04 | 北京猫眼文化传媒有限公司 | 一种影片首映日票房预测方法及装置 |
WO2019200742A1 (zh) * | 2018-04-17 | 2019-10-24 | 平安科技(深圳)有限公司 | 短期盈利的预测方法、装置、计算机设备和存储介质 |
CN111081334A (zh) * | 2019-12-18 | 2020-04-28 | 鲁东大学 | 一种基于风险因素概率组合分析的慢性疾病早期预警方法 |
CN111222915A (zh) * | 2019-12-31 | 2020-06-02 | 上海昌投网络科技有限公司 | 一种基于线性回归模型的公众号roi预估方法及装置 |
CN111768037A (zh) * | 2020-06-30 | 2020-10-13 | 广西科技大学 | 一种基于ls-svmr的电影票房预测方法及系统 |
CN112416782A (zh) * | 2020-11-25 | 2021-02-26 | 上海信联信息发展股份有限公司 | 测试结果的验证方法、装置和电子设备 |
CN113705873A (zh) * | 2021-08-18 | 2021-11-26 | 中国科学院自动化研究所 | 影视作品评分预测模型的构建方法及评分预测方法 |
US11704495B2 (en) | 2019-05-20 | 2023-07-18 | Sony Group Corporation | Prediction of film success-quotient |
-
2017
- 2017-03-30 CN CN201710200957.4A patent/CN106980909A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862415A (zh) * | 2017-11-30 | 2018-03-30 | 成都飞机工业(集团)有限责任公司 | 一种产量预测方法 |
WO2019200742A1 (zh) * | 2018-04-17 | 2019-10-24 | 平安科技(深圳)有限公司 | 短期盈利的预测方法、装置、计算机设备和存储介质 |
CN108764972A (zh) * | 2018-05-08 | 2018-11-06 | 中国电影科学技术研究所 | 一种影片票房预测方法及装置 |
CN108921380A (zh) * | 2018-05-29 | 2018-11-30 | 深圳市小蛙数据科技有限公司 | 影视作品和演职人员的潜力指数评价方法和装置 |
CN109146543A (zh) * | 2018-07-12 | 2019-01-04 | 北京猫眼文化传媒有限公司 | 一种影片首映日票房预测方法及装置 |
US11704495B2 (en) | 2019-05-20 | 2023-07-18 | Sony Group Corporation | Prediction of film success-quotient |
CN111081334B (zh) * | 2019-12-18 | 2023-04-18 | 鲁东大学 | 一种基于风险因素概率组合分析的慢性疾病早期预警方法 |
CN111081334A (zh) * | 2019-12-18 | 2020-04-28 | 鲁东大学 | 一种基于风险因素概率组合分析的慢性疾病早期预警方法 |
CN111222915A (zh) * | 2019-12-31 | 2020-06-02 | 上海昌投网络科技有限公司 | 一种基于线性回归模型的公众号roi预估方法及装置 |
CN111768037A (zh) * | 2020-06-30 | 2020-10-13 | 广西科技大学 | 一种基于ls-svmr的电影票房预测方法及系统 |
CN112416782A (zh) * | 2020-11-25 | 2021-02-26 | 上海信联信息发展股份有限公司 | 测试结果的验证方法、装置和电子设备 |
CN113705873A (zh) * | 2021-08-18 | 2021-11-26 | 中国科学院自动化研究所 | 影视作品评分预测模型的构建方法及评分预测方法 |
CN113705873B (zh) * | 2021-08-18 | 2024-01-19 | 中国科学院自动化研究所 | 影视作品评分预测模型的构建方法及评分预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980909A (zh) | 一种基于模糊线性回归的电影票房预测方法 | |
Zaghini | Evolution of trade patterns in the new EU member states | |
CN104063481B (zh) | 一种基于用户实时兴趣向量的电影个性化推荐方法 | |
Nelson et al. | Movie stars and box office revenues: an empirical analysis | |
CN107256241B (zh) | 基于网格与差异替换改进多目标遗传算法的电影推荐方法 | |
US20140229510A1 (en) | Method of temporal bipartite projection | |
Eita | Determinants of Namibian Exports: A gravity model approach | |
CN108132964A (zh) | 一种基于用户对项目类评分的协同过滤方法 | |
Hsu et al. | Predicting movies user ratings with imdb attributes | |
Eita | Estimating export potential for a small open economy using a gravity model approach: evidence from Namibia | |
Eom et al. | Deterministic factors of stock networks based on cross-correlation in financial market | |
Mukherjee et al. | The competitive dynamics of new DVD releases | |
CN107633332A (zh) | 一种金融电子资源预测方法和系统 | |
Kalgotra et al. | Predictive modeling in sports leagues: an application in Indian Premier League | |
Zhang et al. | Research on movie box office forecasting based on internet data | |
Chen et al. | Consensus manipulation in social network group decision making with value-based opinion evolution | |
Chandran | Trade impact of the India-Asean free trade agreement (FTA): an augmented gravity model analysis | |
Zou | Endogenous production networks and gains from trade | |
Selvaretnam et al. | Factors affecting the financial success of motion pictures: what is the role of star power? | |
Beaulieu et al. | Integrating expenditure and income data: what to do with the statistical discrepancy? | |
CN104636489B (zh) | 描述属性数据的处理方法和装置 | |
CN109493065A (zh) | 一种基于行为增量更新的欺诈交易检测方法 | |
McKenzie | Bayesian information transmission and stable distributions: Motion picture revenues at the Australian box office | |
Mainar-Causapé et al. | Estimating regional social accounting matrices to analyse rural development | |
Tipoy | Real convergence using TAR panel unit root tests: an application to Southern African Development Community |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170725 |