CN108764972A - 一种影片票房预测方法及装置 - Google Patents
一种影片票房预测方法及装置 Download PDFInfo
- Publication number
- CN108764972A CN108764972A CN201810431551.1A CN201810431551A CN108764972A CN 108764972 A CN108764972 A CN 108764972A CN 201810431551 A CN201810431551 A CN 201810431551A CN 108764972 A CN108764972 A CN 108764972A
- Authority
- CN
- China
- Prior art keywords
- film
- predicted
- content
- box
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 36
- 238000011156 evaluation Methods 0.000 claims description 28
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 238000012417 linear regression Methods 0.000 description 5
- 238000012552 review Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000000044 Amnesia Diseases 0.000 description 1
- 208000026139 Memory disease Diseases 0.000 description 1
- 208000009233 Morning Sickness Diseases 0.000 description 1
- 208000034850 Vomiting in pregnancy Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006984 memory degeneration Effects 0.000 description 1
- 208000023060 memory loss Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种影片票房预测方法及装置,方法包括:获取待预测影片的内容关键词;根据所述待预测影片的内容关键词,获取所述待预测影片的票房。本发明通过待预测影片的内容关键词预测影片的票房,由于体现影片内容的内容关键词是影响影片票房的根本因素,因此采用影片的内容关键词预测影片的票房,预测结果更准确。
Description
技术领域
本发明涉及计算机处理技术领域,特别涉及一种影片票房预测方法及装置。
背景技术
随着近几年电影行业的蓬勃发展,电影票房逐年增长,精品力作不断涌现,文化消费更加旺盛,我国电影质量正在从“高原”向“高峰”迈进。为了创作出更多优秀、更具价值和票房号召力的影片,必须分析影片内容与影片票房的关联性,并能通过影片内容预测影片票房以指导电影的生产创作。
现有的票房预测方法和影片内容分析方法通过收集影片编剧、导演、主演或是影片排片率、上座率、新闻热度等数据,定性分析这些因素对票房的影响;或者通过电影制作和发行阶段与当前电影相关的票房影响因素数据进行建模,对票房进行预测;或者通过对影片剧本的类比来评估一部电影的优劣。目前单从影片主创人员或制作发行环节的相关因素进行预测,未抓住影响影片票房的根本因素,预测结果不够准确。
发明内容
本发明提供一种解决上述技术问题的影片票房预测方法及装置。
第一方面,本发明提供一种影片票房预测方法,包括:
获取待预测影片的内容关键词;
根据所述待预测影片的内容关键词,获取所述待预测影片的票房。
优选的,内容关键词包括用于表示第一类影片内容的第一内容关键词和用于表示第二类影片内容的第二内容关键词;
则,获取待预测影片的内容关键词,包括:
获取所述待预测影片的影评信息;
根据所述影评信息,获取所述待预测影片的第一内容关键词;
将所述第一内容关键词和预先获取的第二内容关键词作为所述待预测影片的内容关键词。
优选的,所述第一内容关键词至少包括一个动词、一个名词和一个形容词;
则,根据所述影评信息,获取所述待预测影片的第一内容关键词,包括:
对所述影评信息提取关键词;
对提取出的关键词进行聚类,以获取动词、名词和形容词各预设数量的中心词,并将各个中心词作为所述待预测影片的第一内容关键词。
优选的,根据所述待预测影片的内容关键词,获取所述待预测影片的票房,包括:
对所述待预测影片的内容关键词进行预处理,获取所述待预测影片的内容关键词对应的特征向量;
根据所述待预测影片的内容关键词对应的特征向量和预先建立的影片票房预测模型,获取所述待预测影片的票房对数值;所述影片票房预测模型为影片的内容关键词对应的特征向量和影片的票房对数值的关系模型;
根据所述待预测影片的票房对数值获取所述待预测影片的票房。
优选的,获取待预测影片的内容关键词之后,对所述待预测影片的内容关键词进行预处理,获取所述待预测影片的内容关键词对应的特征向量之前,所述方法还包括:
对所述待预测影片的内容关键词进行预处理并降维,获取降维后的内容关键词;
则,对所述待预测影片的内容关键词进行预处理,获取所述待预测影片的内容关键词对应的特征向量,包括:
对所述降维后的内容关键词进行预处理,获取降维后的内容关键词对应的特征向量。
优选的,所述预处理为将预设比例的噪声词语删除。所述噪声词语为出现最高频和最低频的内容关键词。
优选的,获取待预测影片的内容关键词之前,所述方法还包括:
获取多部影片的内容关键词和所述多部影片的票房;
对所述多部影片的内容关键词进行预处理,获取所述多部影片的内容关键词对应的特征向量;
根据所述多部影片的票房,计算多部影片的票房对数值;
根据所述多部影片的内容关键词对应的特征向量和所述多部影片的票房对数值,计算预设模型中各个内容关键词的系数;所述预设模型为影片的各个内容关键词对应的特征向量和影片的票房对数值的关系模型;
根据所述预设模型和所述各个内容关键词的系数,获取所述影片票房预测模型。
第二方面,本发明还提供一种影片票房预测装置,包括:
第一获取单元,用于获取待预测影片的内容关键词;
第二获取单元,用于根据所述待预测影片的内容关键词,获取所述待预测影片的票房。
第三方面,本发明还提供一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行所述的方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行所述的方法。
由上述技术方案可知,本发明通过待预测影片的内容关键词预测影片的票房,由于体现影片内容的内容关键词是影响影片票房的根本因素,因此采用影片的内容关键词预测影片的票房,预测结果更准确。
附图说明
图1为本发明一实施例提供的一种影片票房预测方法的流程图;
图2为本发明另一种实施例提供的一种影片票房预测装置的原理框图;
图3是本发明一实施例提供的电子设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的一种影片票房预测方法的流程图。
如图1所示的一种影片票房预测方法,包括:
S101、获取待预测影片的内容关键词;
值得说明的是,影片的内容关键词体现的是影片内容。在本步骤中,可以采用对影片标注的标签后得出的如下影片微类型体现影片的内容:
影片微类型=地区+形容词+影片类型+创作来源+设定时间+故事情节+内容+适宜观看人群;
这个“微类型”公式包含了影片内容的方方面面,一个公式基本能够完整地描述一部影片,因此本步骤可以按照这个微类型公式中的各个类别来提取影片的内容关键词。
S102、根据所述待预测影片的内容关键词,获取所述待预测影片的票房。
值得说明的是,在如今电影制作技术发展日趋成熟的情况下,随着近几年热映影片的不断变化,观众越来越趋于为电影内容“买单”,优质的电影内容成为票房主导,是影响电影票房的首要因素。本发明实施例通过待预测影片的内容关键词预测影片的票房,由于体现影片内容的内容关键词是影响影片票房的根本因素,因此采用影片的内容关键词预测影片的票房,预测结果更准确。
目前是采用人工打标签的方式为每部影片打标签,但人工打标签的方式费时间,效率低,受标注人员主观感情色彩的严重影响,而且对于上述微类型公式中的地区、创作来源、设定时间、适宜观看人群这几个参数采用人工标注,影片类型、形容词、故事情节、内容可以采用自然语言处理的方式获取,因此,作为一种优选实施例,所述待预测影片的内容关键词包括用于表示第一类影片内容的第一内容关键词和用于表示第二类影片内容的第二内容关键词;
值得说明说明的是,第一内容关键词包括上述微公式中的影片类型、形容词、故事情节、内容;第二内容关键词包括上述微公式中的地区、创作来源、设定时间、适宜观看人群。
则,所述步骤S101,包括:
获取所述待预测影片的影评信息;
值得说明的是,一些影片在上映前就有媒体或一些专业电影或影评人士或电影发烧友进行提前观影产生影评信息,如片方举行的点映场或看片会,这些影评是专业影评人士撰写,一般会对电影情节、内容,尤其是重要情节进行深度评论与描述,而且描述的比较客观和公正,因此,从他们做的影评中提取内容关键词可信度比较高,预测结果会比较准确,因此,本步骤中可以将这些专业影评人士做的影评信息作为影评信息。
根据所述影评信息,获取所述待预测影片的第一内容关键词;
将所述第一内容关键词和预先获取的第二内容关键词作为所述待预测影片的内容关键词。
本发明实施例可以通过影评信息自动提取第一内容关键词,节省人力、时间,提高了效率。
对于上述微公式中的可通过自然语言处理得到的分类(将这些分类分为三个方面:背景与类型、情节内容和感情基调)进一步划分为三个主类,即动词、名词和形容词,其中,通过名词可以看出电影的背景与类型,通过动词可以判断出电影的情节内容,通过形容词可以判断出电影的感情基调,因此,作为一种优选实施例,所述第一内容关键词至少包括一个动词、一个名词和一个形容词;
则,根据所述影评信息,获取所述待预测影片的第一内容关键词,包括:
对所述影评信息提取关键词;
在一种具体实施例中,采用中文开源分词算法Jieba分词将所述影评信息中每句话分成自然词语。该分词算法基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);采用动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用基于汉字成词能力的HMM模型,使用Viterbi算法。这一步将影评信息中每句话分成自然词语,并且删去了一些连词助词:是、然后、接着等。然后将一部影片的所有影评信息在逻辑上看成一篇文章,使用TextRank算法将影评信息的关键词提取出来。TextRank算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。和LDA、HMM等模型不同,TextRank不需要事先对多篇文档进行学习训练,简洁有效。
在实际应用中,上述方法提取出的关键词数量较多,需要将关键词进行聚类,找出这些词语的中心词。首先,为了提高关键词的代表性,把最高频和最低频出现的5%的词语都认为是噪声予以删除(例如男人、女人、剧本、主角、爱情)。因此,执行下述步骤:
对提取出的关键词进行聚类,以获取动词、名词和形容词各预设数量的中心词,并将各个中心词作为所述待预测影片的第一内容关键词。
在本步骤中,采用word2vec做聚类(5类),取出上述每个词性的类中心词,将这3种词性15个类中心词语共同看作这部电影的内容标签(第一内容关键词)。
由于聚类的结果常常随着初始点的选择而变化。可以进行多次(如七次)聚类,在每次聚类中得到类中心最接近电影的名词、动词、形容词组合的作为每部电影的标签,最后再通过观察、评价选取与电影的故事内容、剧情发展和情感基调最吻合的一组聚类结果作为第一内容关键词。
本发明实施例每种词性都有5个词语同时描述一部电影,在内容表达上的效果更加准确。
由于获取的内容关键词都是字符,模型无法根据字符进行计算,因此,作为一种优选实施例,所述步骤S102,包括:
对所述待预测影片的内容关键词进行预处理,获取所述待预测影片的内容关键词对应的特征向量;
值得说明的是,本步骤中使用0/1特征向量来表示内容关键词。
根据所述待预测影片的内容关键词对应的特征向量和预先建立的影片票房预测模型,获取所述待预测影片的票房对数值;所述影片票房预测模型为影片的内容关键词对应的特征向量和影片的票房对数值的关系模型;
可以理解的是,所述影片票房预测模型中以多个内容关键词作为自变量,影片的票房作为因变量,在对某影片的票房进行预测时,对于该影片的内容关键词对应的自变量转换成特征向量1,对不是该影片的内容关键词对应的自变量转换成特征向量0,并带入所述影片票房预测模型中计算出该影片的票房。
下面举例说明:
影片票房预测模型中包括30个自变量,分别为惊魂、浪漫、妖怪、欢乐、毕业、离奇、暗杀、恐吓、苍凉、表白、圆满、诡谲、悲痛、丑恶、漫画改编、孤魂、北海道、失忆等,而待预测影片中的内容关键词只包括惊魂、浪漫、妖怪、欢乐、毕业、离奇、暗杀、恐吓、苍凉,则将影片票房预测模型中与惊魂、浪漫、妖怪、欢乐、毕业、离奇、暗杀、恐吓、苍凉对应的自变量转换成特征向量1,其他自变量转换为特征向量0,带入影片票房预测模型中,计算该待预测影片的票房。
根据所述待预测影片的票房对数值获取所述待预测影片的票房。
作为一种优选实施例,所述步骤S101之前,所述方法还包括:
获取多部影片的内容关键词和所述多部影片的票房;
值得说明的是,本步骤中的内容关键词的获取方式与上述实施例相同,此处不再详述。
为了获得预测结果更精确的模型,对影片的数量、票房、影评数量以及每条影评的字数均有一定要求,如影片的数量大于400部,每部影片的票房大于100万,总影评数量大于600万条,每条影评的字数超过100字。
对所述多部影片的内容关键词进行预处理,获取所述多部影片的内容关键词对应的特征向量;
值得说明的是,本步骤与上述实施例相同,此处不再详述。
根据所述多部影片的票房,计算多部影片的票房对数值;
本实施例中由于影片的选取范围比较广,有的影片票房高达数十亿,有的则只有几百万,相差很大,导致在回归中收敛速度变慢,最终的拟合效果不理想,因此对票房进行对数处理可使整体上票房的差距不超过两个数量级,使得最终的影片票房预测模型有较好的回归效果。
根据所述多部影片的内容关键词对应的特征向量和所述多部影片的票房对数值,计算预设模型中各个内容关键词的系数;所述预设模型为影片的各个内容关键词对应的特征向量和影片的票房对数值的关系模型;
根据所述预设模型和所述各个内容关键词的系数,获取所述影片票房预测模型。
下面详细说明训练得到影片票房预测模型的具体方法:
将上述多部影片的内容关键词和所述多部影片的票房作为一个总的数据集,将每部影片的内容关键词和该部影片的票房作为一个数据单元,即数据集中包括与影片数量相等数量的数据单元。在总的数据集中抽取20%作为测试集进行测试,剩下的80%作为训练集进行训练。
对于训练集中的自变量(训练集中每个内容关键词)和因变量(训练集中每个票房),采用一般的线性回归(LinearRegression)进行训练,得到一个模型。
对于训练得到的模型用测试集的数据进行验证,具体是采用公式(1)计算评测指标1,采用公式(2)计算评测指标2,采用评测指标(3)计算评测指标3;
其中,score1为评测指标1,test_y为实际票房(数据单元中的票房),predict_y为预测的票房。
其中,score2为评测指标2,m为测试集中数据单元的数量,test_yi为第i个实际票房(第i个数据单元中的票房),predict_yi为预测的票房。
评测指标3(score3):皮尔逊相关系数,皮尔逊相关系数可以评估预测值与真实值之间的相关性,其值介于-1和1之间,负值表示负相关,正值表示正相关,皮尔逊相关系数绝对值越大,代表两者的相关性越强,如果皮尔逊相关系数绝对值大于0.8,表明两者之间具有极强的相关性。
公式(3)中参数含义与上述公式(1)和公式(2)相同。
经过测试集验证后,证实线性回归法的模型得到的预测的票房符合误差范围要求的数据占整个测试集比重相对于其他方法的模型高,因此,将线性回归法的模型作为最终的影片票房预测模型。最终的影片票房预测模型为公式(4)所示
y=b0+b1x1+b2x2+…+bkxk+c (4)
其中,y为待预测影片的票房,x1为第一个内容关键词对应的特征向量,x2为第二个内容关键词对应的特征向量,xk为第k个内容关键词对应的特征向量,b0、b1、b2、bk和c均为常数。在实际操作中,由于选取的影片数据一般较多,因此,最终得到的各主类别的内容关键词一般会比较多,即,影片的内容关键词维数较高,而且内容关键词有很大概率存在多重共线性,相关性过高从而不适用一般的线性回归模型,因此为提高模型预测的精准性,作为一种优选实施例,获取多部影片的内容关键词和所述多部影片的票房之后,对所述多部影片的内容关键词进行预处理,获取所述多部影片的内容关键词对应的特征向量之前,所述方法还包括:
对所述多部影片的内容关键词进行降维,获取降维后的内容关键词;
则,对所述多部影片的内容关键词进行预处理,获取所述多部影片的内容关键词对应的特征向量,包括:
对所述降维后的内容关键词进行预处理,获取降维后的内容关键词对应的特征向量。
在一种具体实施例中,可采用PCA主成分分析法进行降维,以将维数降到预设维数,如降到30维,则上述公式(3)中的自变量x为30个。
对降维前和降维后的内容关键词分别采用上述方法训练获取影片票房预测模型,并计算上述评测指标1和评测指标2,确定降维后得到的影片票房预测模型的预测精度接近90%,且使模型优化了很多。
图2是本发明另一实施例提供的影片票房预测装置的原理框图。
如图2所示的一种影片票房预测装置,包括:
第一获取单元201,用于获取待预测影片的内容关键词;
第二获取单元202,用于根据所述待预测影片的内容关键词,获取所述待预测影片的票房。
本发明通过待预测影片的内容关键词预测影片的票房,由于体现影片内容的内容关键词是影响影片票房的根本因素,因此采用影片的内容关键词预测影片的票房,预测结果更准确。
作为一种优选实施例,所述待预测影片的内容关键词包括用于表示第一类影片内容的第一内容关键词和用于表示第二类影片内容的第二内容关键词;
则,第一获取单元201,还用于:
获取所述待预测影片的影评信息;
根据所述影评信息,获取所述待预测影片的第一内容关键词;
将所述第一内容关键词和预先获取的第二内容关键词作为所述待预测影片的内容关键词。
本发明实施例提供的影片票房预测装置适用于上述各实施例中的影片票房预测方法,在此不再赘述。
图3是本发明一实施例提供的电子设备的结构框图。
如图3所示的一种电子设备,包括:处理器301(processor)、存储器302(memory)和总线303;其中,
所述处理器301、存储器302通过所述总线303完成相互间的通信;
所述处理器301用于调用所述存储器302中的程序指令,以执行上述方法实施例所提供的方法,例如包括:获取待预测影片的内容关键词;根据所述待预测影片的内容关键词,获取所述待预测影片的票房。
本发明还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取待预测影片的内容关键词;根据所述待预测影片的内容关键词,获取所述待预测影片的票房。
应当注意的是,在本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合,例如,可以将一些部件组合为单个部件,或者可以将一些部件进一步分解为更多的子部件。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上实施方式仅适于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (10)
1.一种影片票房预测方法,其特征在于,包括:
获取待预测影片的内容关键词;
根据所述待预测影片的内容关键词,获取所述待预测影片的票房。
2.根据权利要求1所述的方法,其特征在于,所述待预测影片的内容关键词包括用于表示第一类影片内容的第一内容关键词和用于表示第二类影片内容的第二内容关键词;
则,获取待预测影片的内容关键词,包括:
获取所述待预测影片的影评信息;
根据所述影评信息,获取所述待预测影片的第一内容关键词;
将所述第一内容关键词和预先获取的第二内容关键词作为所述待预测影片的内容关键词。
3.根据权利要求2所述的方法,其特征在于,所述第一内容关键词至少包括一个动词、一个名词和一个形容词;
则,根据所述影评信息,获取所述待预测影片的第一内容关键词,包括:
对所述影评信息提取关键词;
对提取出的关键词进行聚类,以获取动词、名词和形容词各预设数量的中心词,并将各个中心词作为所述待预测影片的第一内容关键词。
4.根据权利要求1所述的方法,其特征在于,根据所述待预测影片的内容关键词,获取所述待预测影片的票房,包括:
对所述待预测影片的内容关键词进行预处理,获取所述待预测影片的内容关键词对应的特征向量;
根据所述待预测影片的内容关键词对应的特征向量和预先建立的影片票房预测模型,获取所述待预测影片的票房对数值;所述影片票房预测模型为影片的内容关键词对应的特征向量和影片的票房对数值的关系模型;
根据所述待预测影片的票房对数值获取所述待预测影片的票房。
5.根据权利要求4所述的方法,其特征在于,获取待预测影片的内容关键词之后,对所述待预测影片的内容关键词进行预处理,获取所述待预测影片的内容关键词对应的特征向量之前,所述方法还包括:
对所述待预测影片的内容关键词进行预处理并降维,获取降维后的内容关键词;
则,对所述待预测影片的内容关键词进行预处理,获取所述待预测影片的内容关键词对应的特征向量,包括:
对所述降维后的内容关键词进行预处理,获取降维后的内容关键词对应的特征向量。
6.根据权利要求5所述的方法,其特征在于,所述预处理为将预设比例的噪声词语删除。所述噪声词语为出现最高频和最低频的内容关键词。
7.根据权利要求4所述的方法,其特征在于,获取待预测影片的内容关键词之前,所述方法还包括:
获取多部影片的内容关键词和所述多部影片的票房;
对所述多部影片的内容关键词进行预处理,获取所述多部影片的内容关键词对应的特征向量;
根据所述多部影片的票房,计算多部影片的票房对数值;
根据所述多部影片的内容关键词对应的特征向量和所述多部影片的票房对数值,计算预设模型中各个内容关键词的系数;所述预设模型为影片的各个内容关键词对应的特征向量和影片的票房对数值的关系模型;
根据所述预设模型和所述各个内容关键词的系数,获取所述影片票房预测模型。
8.一种影片票房预测装置,其特征在于,包括:
第一获取单元,用于获取待预测影片的内容关键词;
第二获取单元,用于根据所述待预测影片的内容关键词,获取所述待预测影片的票房。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7中任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810431551.1A CN108764972A (zh) | 2018-05-08 | 2018-05-08 | 一种影片票房预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810431551.1A CN108764972A (zh) | 2018-05-08 | 2018-05-08 | 一种影片票房预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108764972A true CN108764972A (zh) | 2018-11-06 |
Family
ID=64009441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810431551.1A Pending CN108764972A (zh) | 2018-05-08 | 2018-05-08 | 一种影片票房预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108764972A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222315A (zh) * | 2019-12-31 | 2020-06-02 | 天津外国语大学 | 一种电影剧本情节预测方法 |
CN111523943A (zh) * | 2020-04-24 | 2020-08-11 | 华中科技大学 | 一种电影票房预测模型的构建方法及电影票房预测方法 |
CN113705873A (zh) * | 2021-08-18 | 2021-11-26 | 中国科学院自动化研究所 | 影视作品评分预测模型的构建方法及评分预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708164A (zh) * | 2012-04-26 | 2012-10-03 | 苏州大学 | 电影期望值的计算方法及系统 |
CN103279549A (zh) * | 2013-06-07 | 2013-09-04 | 苏州大学 | 一种目标对象的目标数据的获取方法及装置 |
CN106469335A (zh) * | 2016-08-31 | 2017-03-01 | 北京百度网讯科技有限公司 | 一种影片票房预测方法和装置 |
CN106980909A (zh) * | 2017-03-30 | 2017-07-25 | 重庆大学 | 一种基于模糊线性回归的电影票房预测方法 |
CN107038494A (zh) * | 2017-03-06 | 2017-08-11 | 中国电影科学技术研究所 | 一种影院票房预测方法及装置 |
CN107169585A (zh) * | 2017-03-29 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的影片票房预测方法、装置及存储介质 |
-
2018
- 2018-05-08 CN CN201810431551.1A patent/CN108764972A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708164A (zh) * | 2012-04-26 | 2012-10-03 | 苏州大学 | 电影期望值的计算方法及系统 |
CN103279549A (zh) * | 2013-06-07 | 2013-09-04 | 苏州大学 | 一种目标对象的目标数据的获取方法及装置 |
CN106469335A (zh) * | 2016-08-31 | 2017-03-01 | 北京百度网讯科技有限公司 | 一种影片票房预测方法和装置 |
CN107038494A (zh) * | 2017-03-06 | 2017-08-11 | 中国电影科学技术研究所 | 一种影院票房预测方法及装置 |
CN107169585A (zh) * | 2017-03-29 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的影片票房预测方法、装置及存储介质 |
CN106980909A (zh) * | 2017-03-30 | 2017-07-25 | 重庆大学 | 一种基于模糊线性回归的电影票房预测方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222315A (zh) * | 2019-12-31 | 2020-06-02 | 天津外国语大学 | 一种电影剧本情节预测方法 |
CN111222315B (zh) * | 2019-12-31 | 2023-04-18 | 天津外国语大学 | 一种电影剧本情节预测方法 |
CN111523943A (zh) * | 2020-04-24 | 2020-08-11 | 华中科技大学 | 一种电影票房预测模型的构建方法及电影票房预测方法 |
CN113705873A (zh) * | 2021-08-18 | 2021-11-26 | 中国科学院自动化研究所 | 影视作品评分预测模型的构建方法及评分预测方法 |
CN113705873B (zh) * | 2021-08-18 | 2024-01-19 | 中国科学院自动化研究所 | 影视作品评分预测模型的构建方法及评分预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009228B (zh) | 一种内容标签的设置方法、装置及存储介质 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
CN110888990B (zh) | 文本推荐方法、装置、设备及介质 | |
CN106503192B (zh) | 基于人工智能的命名实体识别方法及装置 | |
KR20210104571A (ko) | 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체 | |
US20180107636A1 (en) | Method and apparatus for establishing sentence editing model, sentence editing method and apparatus | |
EP1840764A1 (en) | Hybrid audio-visual categorization system and method | |
WO2020155750A1 (zh) | 基于人工智能的语料收集方法、装置、设备及存储介质 | |
CN111046225B (zh) | 音频资源处理方法、装置、设备及存储介质 | |
Tanveer et al. | Awe the audience: How the narrative trajectories affect audience perception in public speaking | |
CN104111925B (zh) | 项目推荐方法和装置 | |
CN111090771B (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN113157727B (zh) | 提供召回结果的方法、设备和存储介质 | |
CN110263854A (zh) | 直播标签确定方法、装置及存储介质 | |
CN108764972A (zh) | 一种影片票房预测方法及装置 | |
CN109325124A (zh) | 一种情感分类方法、装置、服务器和存储介质 | |
JP6486165B2 (ja) | 候補キーワード評価装置及び候補キーワード評価プログラム | |
CN112188312A (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN110196941B (zh) | 一种资讯推荐方法、装置、服务器与存储介质 | |
CN111046172A (zh) | 一种舆情分析方法、装置、设备和存储介质 | |
KR102345401B1 (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체 | |
CN113407775A (zh) | 视频搜索方法、装置及电子设备 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN114090756B (zh) | 一种舆情信息的智能化处理方法、设备、存储介质 | |
CN110399494A (zh) | 用于生成信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |
|
RJ01 | Rejection of invention patent application after publication |