CN106326356B - 一种确定影片的实时票房数据的方法及装置 - Google Patents
一种确定影片的实时票房数据的方法及装置 Download PDFInfo
- Publication number
- CN106326356B CN106326356B CN201610649172.0A CN201610649172A CN106326356B CN 106326356 B CN106326356 B CN 106326356B CN 201610649172 A CN201610649172 A CN 201610649172A CN 106326356 B CN106326356 B CN 106326356B
- Authority
- CN
- China
- Prior art keywords
- data
- play
- box office
- seat occupancy
- film
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种确定影片的实时票房数据的方法及装置,其中,该方法包括:采用流式滚动抓取数据的方式从监控的售票系统中抓取当日多个影院的多个场次座位占用数据,并将抓取到的场次座位占用数据依次存入数据库中;将数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,对场次座位占用数据进行清洗,得到清洗后的场次座位占用数据;将清洗后的场次座位占用数据输入至预先训练的票房数据计算模型,利用票房数据计算模型根据清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据。本发明实施例保证了确定出的影片票房数据的实时性和准确性,进而满足了用户实时获取准确的影片全国票房数据的需求。
Description
技术领域
本发明涉及电影票房统计的技术领域,具体而言,涉及一种确定影片的实时票房数据的方法及装置。
背景技术
目前,随着中国电影市场的快速发展,电影上映量也随之增加,用户的选择越来越多,用户可以根据影片的票房数据初步判断影片质量及影片热度,从而指导用户的选择观看哪部电影,因而,获取准确的影片的票房数据显得十分重要。
当前,相关技术中提供了一种获取影片的票房数据的方法,主要是查看专资办发布的前一日的各个影片的票房数据,或者通过关注票吧等相关网站查看一些专业影评人根据经验预估的当日影片的票房数据。在实现本发明的过程中,发明人发现相关技术中至少存在以下问题:目前获取各个影片的全国票房数据的方法存在实时性差、准确度低的问题,无法满足实时获取准确的影片的全国票房数据的需求。
发明内容
有鉴于此,本发明实施例的目的在于提供一种确定影片的实时票房数据的方法及装置,以保证确定出的影片票房数据的实时性和准确性,进而满足用户实时获取准确的影片全国票房数据的需求。
第一方面,本发明实施例提供了确定影片的实时票房数据的方法,该方法包括:
采用流式滚动抓取数据的方式从监控的售票系统中抓取当日多个影院的多个场次座位占用数据,并将抓取到的所述场次座位占用数据依次存入数据库中;
将所述数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,对所述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据;
将清洗后的场次座位占用数据输入至预先训练的票房数据计算模型,利用所述票房数据计算模型根据所述清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,上述将所述数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,对所述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据,包括:
按照第一预设时间间隔将所述数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,采用多进程滚动迭代方式对所述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据;
上述利用所述票房数据计算模型根据所述清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据,包括:
采用多进程滚动迭代方式根据所述清洗后的场次座位占用数据和所述票房数据计算模型分别确定各个影片截止目前时刻的当日全国票房数据。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,上述采用流式滚动抓取数据的方式从监控的售票系统中抓取当日多个影院的多个场次座位占用数据之前,还包括:
获取专资办发布的预设时间段内所有影院的场次票房数据列表,其中,所述场次票房数据列表包含上映日期、影院名称、场次编号、影片名称、以及票房数据的对应关系;
从监控的售票系统中抓取所述预设时间段内多个影院的场次座位占用数据列表;
根据所述场次票房数据列表和所述场次座位占用数据列表确定不可信影院名单;和/或,根据所述场次票房数据列表和所述场次座位占用数据列表确定不可信场次数据特性;
根据所述不可信影院名单和/或所述不可信场次数据特性训练得到票房数据清洗模型;
将所述场次票房数据列表和所述场次座位占用数据列表输入至所述票房数据清洗模型,得到清洗后的场次票房数据列表和场次座位占用数据列表;
根据清洗后的场次票房数据列表和场次座位占用数据列表训练得到票房数据计算模型,其中,所述票房数据计算模型包含每部影片的各个特征参量对应的特征系数。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,上述根据所述场次票房数据列表和所述场次座位占用数据列表确定不可信影院名单,包括:
在所述售票系统的多个影院中逐一选取一个影院作为当前检测影院;
从所述场次票房数据列表中,提取所述当前检测影院的多个场次票房数据,并计算所述当前检测影院的总场次票房数据;
根据所述场次座位占用数据列表计算所述当前检测影院的总场次座位占用数据;
判断所述当前检测影院的所述总场次座位占用数据与所述总场次票房数据的差值是否大于第一预设阈值;
若大于,则确定所述当前检测影院为不可信影院,并将所述影院添加至不可信影院名单,选取下一个当前检测影院,重复执行上述步骤,直到所述售票系统的多个影院选取完毕。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,上述根据所述场次票房数据列表和所述场次座位占用数据列表确定不可信场次数据特性,包括:
从所述场次票房数据列表中,查找与所述场次座位占用数据列表中各个场次对应的场次票房数据;
分别判断每个场次的场次座位占用数据与查找到的所述场次的场次票房数据的差值是否大于第二预设阈值;
若大于,则提取所述场次的场次数据特性,并将提取到的所述场次数据特性作为不可信场次数据特性。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,对所述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据,包括:
根据所述票房数据清洗模型中的不可信影院名单从所述场次座位占用数据中剔除不可信影院对应的场次占用数据;和/或,根据所述票房数据清洗模型中的不可信场次数据特性从所述场次座位占用数据中剔除不可信场次对应的场次占用数据;
将剔除后的场次座位占用数据作为清洗后的各个影院的场次座位占用数据。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,利用所述票房数据计算模型根据所述清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据,包括:
根据清洗后的场次座位占用数据计算各个影片的特征参量的实际数值,其中,所述特征参量包括以下中的一种或者多种:当日抓取的影片的场次数、当日抓取的影片的总场次座位占用数、前一日抓取的影片的场次数、或者前一日抓取的影片的总场次座位占用数;
当影片为非首映影片时,从票房数据计算模型中调取所述影片对应的特征参量的特征系数,以及当影片为首映影片时,将票房数据计算模型中所有首映影片的各个特征参量的特征系数的平均值作为所述影片对应的各个特征参量的特征系数;
根据公式所述各个特征参量的特征系数和各个所述特征参量的实际数值,计算得到所述影片截止目前时刻的当日全国票房数据,其中,Y表示影片的当日全国票房数据,i表示影片各个特征参量的序号,wi表示第i个特征参量对应的特征系数,Xi表示第i个特征参量的实际数值。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第七种可能的实施方式,其中,上述方法还包括:
按照第二预设时间间隔定期获取所述场次票房数据列表和所述场次座位占用数据列表;
根据所述场次票房数据列表和所述场次座位占用数据列表更新不可信影院列表和/或不可信场次数据特性;
根据更新后的不可信影院列表和/或不可信场次数据特性更新所述票房数据清洗模型;
将所述场次票房数据列表和所述场次座位占用数据列表输入至更新后的票房数据清洗模型,得到清洗后的场次票房数据列表和场次座位占用数据列表;
根据清洗后的场次票房数据列表和场次座位占用数据列表更新所述票房数据计算模型。
第二方面,本发明实施例还提供了一种确定影片的实时票房数据的装置,该装置包括:
数据抓取模块,用于采用流式滚动抓取数据的方式从监控的售票系统中抓取当日多个影院的多个场次座位占用数据,并将抓取到的所述场次座位占用数据依次存入数据库中;
数据清洗模块,用于将所述数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,对所述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据;
票房确定模块,用于将清洗后的场次座位占用数据输入至预先训练的票房数据计算模型,利用所述票房数据计算模型根据所述清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,上述装置还包括:
第一样本数据获取模块,用于获取专资办发布的预设时间段内所有影院的场次票房数据列表,其中,所述场次票房数据列表包含上映日期、影院名称、场次编号、影片名称、以及票房数据的对应关系;
第二样本数据获取模块,用于从监控的售票系统中抓取所述预设时间段内多个影院的场次座位占用数据列表;
不可信数据确定模块,用于根据所述场次票房数据列表和所述场次座位占用数据列表确定不可信影院名单;和/或,根据所述场次票房数据列表和所述场次座位占用数据列表确定不可信场次数据特性;
清洗模型训练模块,用于根据所述不可信影院名单和/或所述不可信场次数据特性训练得到票房数据清洗模型;
训练样本清洗模块,用于将所述场次票房数据列表和所述场次座位占用数据列表输入至所述票房数据清洗模型,得到清洗后的场次票房数据列表和场次座位占用数据列表;
票房计算模型训练模块,用于根据清洗后的场次票房数据列表和场次座位占用数据列表训练得到票房数据计算模型,其中,所述票房数据计算模型包含每部影片的各个特征参量对应的特征系数。
在本发明实施例提供的确定影片的实时票房数据的方法及装置中,首先,采用流式滚动抓取数据的方式从监控的售票系统中抓取当日多个影院的多个场次座位占用数据,并将抓取到的场次座位占用数据依次存入数据库中;然后,将数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,对场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据;最后,将清洗后的场次座位占用数据输入至预先训练的票房数据计算模型,利用票房数据计算模型根据清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据。本发明实施例先利用预先训练好的票房数据清洗模型对输入数据进行不可信数据清洗,再利用预先训练的票房数据计算模型确定影片的当日全国票房数据,从而保证了确定出的影片票房数据的实时性和准确性,进而满足了用户实时获取准确的影片全国票房数据的需求。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种确定影片的实时票房数据的方法的流程示意图;
图2示出了本发明实施例所提供的确定影片的实时票房数据的方法中训练票房数据计算模型具体实现方式的流程示意图;
图3示出了本发明实施例所提供的一种确定影片的实时票房数据的装置的结构示意图;
图4示出了本发明实施例所提供的确定影片的实时票房数据的装置中训练票房数据计算模型具体实现方式的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到目前获取各个影片的全国票房数据的方法存在实时性差、准确度低的问题,无法满足实时获取准确的影片的全国票房数据的需求。基于此,本发明实施例提供了一种确定影片的实时票房数据的方法及装置,下面通过实施例进行描述。
如图1所示,本发明实施例提供了一种确定影片的实时票房数据的方法,该方法包括步骤S102-S106,具体如下:
步骤S102:采用流式滚动抓取数据的方式从监控的售票系统中抓取当日多个影院的多个场次座位占用数据,并将抓取到的上述场次座位占用数据依次存入数据库中,具体的,每个影院对应多个场次座位占用的数据,采用流式滚动抓取数据的方式进行数据的抓取,即以影院为数据抓取单位,从监控的售票系统中依次抓取各个影院的场次座位占用数据,采用流式滚动抓取数据的方式保证了数据库内的场次座位占用数据实时更新;
步骤S104:将上述数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,对上述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据,具体的,由于考虑到抓取到的多个影院的多个场次座位占用数据中可能存在不可信数据,因而,需要先对场次座位占用数据进行不可信数据清洗,剔除掉不可信数据,从而保证计算得到的票房数据的准确度;
步骤S106:将清洗后的场次座位占用数据输入至预先训练的票房数据计算模型,利用上述票房数据计算模型根据上述清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据,具体的,将剔除不可信数据后的场次座位占用数据作为票房数据计算模型的输入参数,进而利用该票房数据计算模型计算得到各个影片的全国票房数据。
其中,专资办的数据是目前国内唯一精准的电影票房数据来源,但专资办数据的发布时间具有延迟性,一般情况下,专资办在次日公布前一日各个影片的全国票房数据,因而,无法实现实时获取当前各个影片的全国票房数据,因而,在本发明提供的实施例中,将专资办发布的票房数据作为训练样本数据之一,采用机器学习方法训练得到票房数据计算模型,并且给出了利用该票房数据计算模型计算得到各个影片的实时票房数据。
在本发明提供的实施例中,先利用预先训练好的票房数据清洗模型对输入数据进行不可信数据清洗,再利用预先训练的票房数据计算模型确定影片的当日全国票房数据,从而保证了确定出的影片票房数据的实时性和准确性,进而满足了用户实时获取准确的影片全国票房数据的需求。
进一步的,考虑到每次进行数据清洗与票房计算时数据量比较大,需要耗费一定的时间才能输出相应的票房数据结果,为了缩短票房数据结果更新的时间间隔,基于此,上述将数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,对上述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据,具体包括:
按照第一预设时间间隔将上述数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,采用多进程滚动迭代方式对上述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据,其中,该第一预设时间间隔可以根据票房数据结果更新的时间间隔来确定;
相应的,上述利用上述票房数据计算模型根据所述清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据,具体包括:
采用多进程滚动迭代方式根据上述清洗后的场次座位占用数据和上述票房数据计算模型分别确定各个影片截止目前时刻的当日全国票房数据。
在本发明提供的实施例中,采用多线程滚动迭代方式进行数据清洗与票房计算,即采用多个并列的线程分别进行数据的清洗,同样的,也采用多个并列的线程分别进行票房数据的计算,从而缩短了票房数据结果更新的时间间隔。
进一步的,考虑到从监控的售票系统中抓取的数据可能存在不可信数据,因而,在训练票房数据计算模型时,首先需要训练票房数据清洗模型,然后利用该票房数据清洗模型对样本数据进行不可信数据清洗,最后根据清洗后的样本数据训练得到票房数据计算模型,从而进一步保证了后续进行实时票房数据计算时的准确度,基于此,如图2所述,上述采用流式滚动抓取数据的方式从监控的售票系统中抓取当日多个影院的多个场次座位占用数据之前,还包括:
步骤S202:获取专资办发布的预设时间段内所有影院的场次票房数据列表,其中,上述场次票房数据列表包含上映日期、影院名称、场次编号、影片名称、以及票房数据的对应关系;
步骤S204:从监控的售票系统中抓取上述预设时间段内多个影院的场次座位占用数据列表;
步骤S206:根据上述场次票房数据列表和上述场次座位占用数据列表确定不可信影院名单;和/或,根据上述场次票房数据列表和上述场次座位占用数据列表确定不可信场次数据特性;
步骤S208:根据上述不可信影院名单和/或上述不可信场次数据特性训练得到票房数据清洗模型;
步骤S210:将上述场次票房数据列表和上述场次座位占用数据列表输入至上述票房数据清洗模型,得到清洗后的场次票房数据列表和场次座位占用数据列表;
步骤S212:根据清洗后的场次票房数据列表和场次座位占用数据列表训练得到票房数据计算模型,其中,上述票房数据计算模型包含每部影片的各个特征参量对应的特征系数。
其中,专资办的数据是目前国内唯一精准的电影票房数据来源,在进行模型训练过程中,将专资办发布的预设时间段内所有影院的场次票房数据和从监控的售票系统中抓取上述预设时间段内多个影院的场次座位占用数据作为训练样本数据,对专资办的数据和从监控的售票系统中抓取场次座位占用数据进行比对,确定各个影院数据的可信度、以及各个场次数据的可信度。
需要说明的是,专资办的数据包括所有影院的前一日票房数据,而从监控的售票系统中抓取的数据仅包括部分影院的数据,根据影院标识对专资办的数据和从监控的售票系统中抓取场次座位占用数据进行比对。
在本发明提供的实施例中,首先根据获取的样本数据训练得到票房数据清洗模型,然后利用该票房数据清洗模型对样本数据进行不可信数据清洗,最后根据清洗后的样本数据训练得到票房数据计算模型,从而进一步保证了后续进行实时票房数据计算时的准确度。
在本发明提供的确定影片的实时票房数据的方法中,主要包括:离线模型训练部分和在线票房数据预测部分,其中,通过上述步骤S202-步骤S212来实现离线模型训练,通过上述步骤S102-步骤S106来实现在线票房数据预测。
具体的,考虑到可能存在个别影院对票房数据进行做假的现象,导致该影院的座位占用数据可信度低,因此,需要将该影院确定为不可信影院,在在线预测过程中需要将该影院的数据作为不可信数据剔除掉,基于此,上述根据上述场次票房数据列表和上述场次座位占用数据列表确定不可信影院名单,具体包括:
在上述售票系统的多个影院中逐一选取一个影院作为当前检测影院;
从上述场次票房数据列表中,提取上述当前检测影院的多个场次票房数据,并计算上述当前检测影院的总场次票房数据;
根据上述场次座位占用数据列表计算上述当前检测影院的总场次座位占用数据;
判断上述当前检测影院的上述总场次座位占用数据与上述总场次票房数据的差值是否大于第一预设阈值;
若大于,则确定上述当前检测影院为不可信影院,并将上述影院添加至不可信影院名单,选取下一个当前检测影院,重复执行上述步骤,直到上述售票系统的多个影院选取完毕。
具体的,同样的,考虑到可能存在由于某种需求(如,包场或者某些营销需要提前锁定某些场次的座位不做销售等)影院将某个场次的座位全部锁住,因此,需要将此类不满足一般场次数据特性的场次作为不可信场次数据,在在线预测过程中需要将该场次的数据作为不可信数据剔除掉,基于此,上述根据上述场次票房数据列表和上述场次座位占用数据列表确定不可信场次数据特性,具体包括:
从上述场次票房数据列表中,查找与上述场次座位占用数据列表中各个场次对应的场次票房数据;
分别判断每个场次的场次座位占用数据与查找到的上述场次的场次票房数据的差值是否大于第二预设阈值;
若大于,则提取上述场次的场次数据特性,并将提取到的上述场次数据特性作为不可信场次数据特性。
进一步的,由于考虑到抓取到的多个影院的多个场次座位占用数据中可能存在上述给出的不可信数据中的一种或者多种,因而,需要先对场次座位占用数据进行不可信数据清洗,剔除掉不可信数据,从而保证计算得到的票房数据的准确度,基于此,上述对上述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据,具体包括:
根据上述票房数据清洗模型中的不可信影院名单从上述场次座位占用数据中剔除不可信影院对应的场次占用数据;和/或,根据上述票房数据清洗模型中的不可信场次数据特性从上述场次座位占用数据中剔除不可信场次对应的场次占用数据;
将剔除后的场次座位占用数据作为清洗后的各个影院的场次座位占用数据。
进一步的,考虑到对于首映影片而言,不具有历史数据,在票房数据计算模型中并未记录该影片的各个特征参量对应的特征系数,基于此,上述利用上述票房数据计算模型根据上述清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据,具体包括:
根据清洗后的场次座位占用数据计算各个影片的特征参量的实际数值,其中,所述特征参量包括以下中的一种或者多种:当日抓取的影片的场次数、当日抓取的影片的总场次座位占用数、前一日抓取的影片的场次数、或者前一日抓取的影片的总场次座位占用数;
当影片为非首映影片时,从票房数据计算模型中调取所述影片对应的特征参量的特征系数,以及当影片为首映影片时,将票房数据计算模型中所有首映影片的各个特征参量的特征系数的平均值作为所述影片对应的各个特征参量的特征系数;
根据公式所述各个特征参量的特征系数和各个所述特征参量的实际数值,计算得到所述影片截止目前时刻的当日全国票房数据,其中,Y表示影片的当日全国票房数据,i表示影片各个特征参量的序号,wi表示第i个特征参量对应的特征系数,Xi表示第i个特征参量的实际数值。
需要说明的是,对于非首映影片,可以选用当日抓取的影片的场次数、当日抓取的影片的总场次座位占用数、前一日抓取的影片的场次数、以及前一日抓取的影片的总场次座位占用数作为影片的特征参数;而对于首映影片,可以选用当日抓取的影片的场次数、当日抓取的影片的总场次座位占用数作为影片的特征参数。
进一步的,考虑到专资办每日均发布新的票房数据,因此,可以每日预设时间点根据新的专资办发布的数据对数据清洗模型和票房数据计算模型进行更新,以保证数据清洗模型和票房数据计算模型的时效性,基于此,上述方法还包括:
按照第二预设时间间隔定期获取上述场次票房数据列表和上述场次座位占用数据列表,其中,该第二预设时间间隔可以根据专资办发布数据的时间间隔来确定;
根据上述场次票房数据列表和上述场次座位占用数据列表更新不可信影院列表和/或不可信场次数据特性;
根据更新后的不可信影院列表和/或不可信场次数据特性更新上述票房数据清洗模型;
将上述场次票房数据列表和上述场次座位占用数据列表输入至更新后的票房数据清洗模型,得到清洗后的场次票房数据列表和场次座位占用数据列表;
根据清洗后的场次票房数据列表和场次座位占用数据列表更新上述票房数据计算模型。
在本发明提供的实施例中,先利用预先训练好的票房数据清洗模型对输入数据进行不可信数据清洗,再利用预先训练的票房数据计算模型确定影片的当日全国票房数据,从而保证了确定出的影片票房数据的实时性和准确性,进而满足了用户实时获取准确的影片全国票房数据的需求;进一步的,采用多线程滚动迭代方式进行数据清洗与票房计算,即采用多个并列的线程分别进行数据的清洗,同样的,也采用多个并列的线程分别进行票房数据的计算,从而缩短了票房数据结果更新的时间间隔;更进一步的,通过每日预设时间点根据新的专资办发布的数据对数据清洗模型和票房数据计算模型进行更新,以保证数据清洗模型和票房数据计算模型的时效性。
本发明实施例还提供一种确定影片的实时票房数据的装置,如图3所示,该装置包括:
数据抓取模块302,用于采用流式滚动抓取数据的方式从监控的售票系统中抓取当日多个影院的多个场次座位占用数据,并将抓取到的上述场次座位占用数据依次存入数据库中;
数据清洗模块304,用于将上述数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,对上述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据;
票房确定模块306,用于将清洗后的场次座位占用数据输入至预先训练的票房数据计算模型,利用上述票房数据计算模型根据上述清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据。
进一步的,如图4所示,上述装置还包括:
第一样本数据获取模块402,用于获取专资办发布的预设时间段内所有影院的场次票房数据列表,其中,上述场次票房数据列表包含上映日期、影院名称、场次编号、影片名称、以及票房数据的对应关系;
第二样本数据获取模块404,用于从监控的售票系统中抓取上述预设时间段内多个影院的场次座位占用数据列表;
不可信数据确定模块406,用于根据上述场次票房数据列表和上述场次座位占用数据列表确定不可信影院名单;和/或,根据上述场次票房数据列表和上述场次座位占用数据列表确定不可信场次数据特性;
清洗模型训练模块408,用于根据上述不可信影院名单和/或上述不可信场次数据特性训练得到票房数据清洗模型;
训练样本清洗模块410,用于将上述场次票房数据列表和上述场次座位占用数据列表输入至上述票房数据清洗模型,得到清洗后的场次票房数据列表和场次座位占用数据列表;
票房计算模型训练模块412,用于根据清洗后的场次票房数据列表和场次座位占用数据列表训练得到票房数据计算模型,其中,上述票房数据计算模型包含每部影片的各个特征参量对应的特征系数。
基于上述分析可知,本发明实施例提供的确定影片的实时票房数据的装置中,先利用预先训练好的票房数据清洗模型对输入数据进行不可信数据清洗,再利用预先训练的票房数据计算模型确定影片的当日全国票房数据,从而保证了确定出的影片票房数据的实时性和准确性,进而满足了用户实时获取准确的影片全国票房数据的需求;进一步的,采用多线程滚动迭代方式进行数据清洗与票房计算,即采用多个并列的线程分别进行数据的清洗,同样的,也采用多个并列的线程分别进行票房数据的计算,从而缩短了票房数据结果更新的时间间隔;更进一步的,通过每日预设时间点根据新的专资办发布的数据对数据清洗模型和票房数据计算模型进行更新,以保证数据清洗模型和票房数据计算模型的时效性。
本发明实施例所提供的确定影片的实时票房数据的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种确定影片的实时票房数据的方法,其特征在于,所述方法包括:
采用流式滚动抓取数据的方式从监控的售票系统中抓取当日多个影院的多个场次座位占用数据,并将抓取到的所述场次座位占用数据依次存入数据库中;
将所述数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,对所述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据;
将清洗后的场次座位占用数据输入至预先训练的票房数据计算模型,利用所述票房数据计算模型根据所述清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据;
所述利用所述票房数据计算模型根据所述清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据,包括:
根据清洗后的场次座位占用数据计算各个影片的特征参量的实际数值,其中,所述特征参量包括以下中的一种或者多种:当日抓取的影片的场次数、当日抓取的影片的总场次座位占用数、前一日抓取的影片的场次数、或者前一日抓取的影片的总场次座位占用数;
当影片为非首映影片时,从票房数据计算模型中调取所述影片对应的特征参量的特征系数,以及当影片为首映影片时,将票房数据计算模型中所有首映影片的各个特征参量的特征系数的平均值作为所述影片对应的各个特征参量的特征系数;
根据公式所述各个特征参量的特征系数和各个所述特征参量的实际数值,计算得到所述影片截止目前时刻的当日全国票房数据,其中,Y表示影片的当日全国票房数据,i表示影片各个特征参量的序号,wi表示第i个特征参量对应的特征系数,xi表示第i个特征参量的实际数值。
2.根据权利要求1所述的方法,其特征在于,所述将所述数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,对所述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据,包括:
按照第一预设时间间隔将所述数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,采用多进程滚动迭代方式对所述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据;
所述利用所述票房数据计算模型根据所述清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据,包括:
采用多进程滚动迭代方式根据所述清洗后的场次座位占用数据和所述票房数据计算模型分别确定各个影片截止目前时刻的当日全国票房数据。
3.根据权利要求1所述的方法,其特征在于,所述采用流式滚动抓取数据的方式从监控的售票系统中抓取当日多个影院的多个场次座位占用数据之前,还包括:
获取专资办发布的预设时间段内所有影院的场次票房数据列表,其中,所述场次票房数据列表包含上映日期、影院名称、场次编号、影片名称、以及票房数据的对应关系;
从监控的售票系统中抓取所述预设时间段内多个影院的场次座位占用数据列表;
根据所述场次票房数据列表和所述场次座位占用数据列表确定不可信影院名单;和/或,根据所述场次票房数据列表和所述场次座位占用数据列表确定不可信场次数据特性;
根据所述不可信影院名单和/或所述不可信场次数据特性训练得到票房数据清洗模型;
将所述场次票房数据列表和所述场次座位占用数据列表输入至所述票房数据清洗模型,得到清洗后的场次票房数据列表和场次座位占用数据列表;
根据清洗后的场次票房数据列表和场次座位占用数据列表训练得到票房数据计算模型,其中,所述票房数据计算模型包含每部影片的各个特征参量对应的特征系数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述场次票房数据列表和所述场次座位占用数据列表确定不可信影院名单,包括:
步骤1:在所述售票系统的多个影院中逐一选取一个影院作为当前检测影院;
步骤2:从所述场次票房数据列表中,提取所述当前检测影院的多个场次票房数据,并计算所述当前检测影院的总场次票房数据;
步骤3:根据所述场次座位占用数据列表计算所述当前检测影院的总场次座位占用数据;
步骤4:判断所述当前检测影院的所述总场次座位占用数据与所述总场次票房数据的差值是否大于第一预设阈值;
步骤5:若大于,则确定所述当前检测影院为不可信影院,并将所述影院添加至不可信影院名单,选取下一个当前检测影院,执行上述步骤2,直到所述售票系统的多个影院选取完毕。
5.根据权利要求3所述的方法,其特征在于,所述根据所述场次票房数据列表和所述场次座位占用数据列表确定不可信场次数据特性,包括:
从所述场次票房数据列表中,查找与所述场次座位占用数据列表中各个场次对应的场次票房数据;
分别判断每个场次的场次座位占用数据与查找到的所述场次的场次票房数据的差值是否大于第二预设阈值;
若大于,则提取所述场次的场次数据特性,并将提取到的所述场次数据特性作为不可信场次数据特性。
6.根据权利要求1所述的方法,其特征在于,所述对所述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据,包括:
根据所述票房数据清洗模型中的不可信影院名单从所述场次座位占用数据中剔除不可信影院对应的场次占用数据;和/或,根据所述票房数据清洗模型中的不可信场次数据特性从所述场次座位占用数据中剔除不可信场次对应的场次占用数据;
将剔除后的场次座位占用数据作为清洗后的各个影院的场次座位占用数据。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
按照第二预设时间间隔定期获取所述场次票房数据列表和所述场次座位占用数据列表;
根据所述场次票房数据列表和所述场次座位占用数据列表更新不可信影院列表和/或不可信场次数据特性;
根据更新后的不可信影院列表和/或不可信场次数据特性更新所述票房数据清洗模型;
将所述场次票房数据列表和所述场次座位占用数据列表输入至更新后的票房数据清洗模型,得到清洗后的场次票房数据列表和场次座位占用数据列表;
根据清洗后的场次票房数据列表和场次座位占用数据列表更新所述票房数据计算模型。
8.一种确定影片的实时票房数据的装置,其特征在于,所述装置包括:
数据抓取模块,用于采用流式滚动抓取数据的方式从监控的售票系统中抓取当日多个影院的多个场次座位占用数据,并将抓取到的所述场次座位占用数据依次存入数据库中;
数据清洗模块,用于将所述数据库中的场次座位占用数据输入至预先训练的票房数据清洗模型,对所述场次座位占用数据进行不可信数据清洗,得到清洗后的场次座位占用数据;
票房确定模块,用于将清洗后的场次座位占用数据输入至预先训练的票房数据计算模型,利用所述票房数据计算模型根据所述清洗后的场次座位占用数据分别确定各个影片截止目前时刻的当日全国票房数据;
特征参量计算模块,用于根据清洗后的场次座位占用数据计算各个影片的特征参量的实际数值,其中,所述特征参量包括以下中的一种或者多种:当日抓取的影片的场次数、当日抓取的影片的总场次座位占用数、前一日抓取的影片的场次数、或者前一日抓取的影片的总场次座位占用数;
特征系数调取模块,用于当影片为非首映影片时,从票房数据计算模型中调取所述影片对应的特征参量的特征系数,以及当影片为首映影片时,将票房数据计算模型中所有首映影片的各个特征参量的特征系数的平均值作为所述影片对应的各个特征参量的特征系数;
当日全国票房数据确定模块,用于根据公式所述各个特征参量的特征系数和各个所述特征参量的实际数值,计算得到所述影片截止目前时刻的当日全国票房数据,其中,Y表示影片的当日全国票房数据,i表示影片各个特征参量的序号,wi表示第i个特征参量对应的特征系数,xi表示第i个特征参量的实际数值。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一样本数据获取模块,用于获取专资办发布的预设时间段内所有影院的场次票房数据列表,其中,所述场次票房数据列表包含上映日期、影院名称、场次编号、影片名称、以及票房数据的对应关系;
第二样本数据获取模块,用于从监控的售票系统中抓取所述预设时间段内多个影院的场次座位占用数据列表;
不可信数据确定模块,用于根据所述场次票房数据列表和所述场次座位占用数据列表确定不可信影院名单;和/或,根据所述场次票房数据列表和所述场次座位占用数据列表确定不可信场次数据特性;
清洗模型训练模块,用于根据所述不可信影院名单和/或所述不可信场次数据特性训练得到票房数据清洗模型;
训练样本清洗模块,用于将所述场次票房数据列表和所述场次座位占用数据列表输入至所述票房数据清洗模型,得到清洗后的场次票房数据列表和场次座位占用数据列表;
票房计算模型训练模块,用于根据清洗后的场次票房数据列表和场次座位占用数据列表训练得到票房数据计算模型,其中,所述票房数据计算模型包含每部影片的各个特征参量对应的特征系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610649172.0A CN106326356B (zh) | 2016-08-09 | 2016-08-09 | 一种确定影片的实时票房数据的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610649172.0A CN106326356B (zh) | 2016-08-09 | 2016-08-09 | 一种确定影片的实时票房数据的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106326356A CN106326356A (zh) | 2017-01-11 |
CN106326356B true CN106326356B (zh) | 2019-09-20 |
Family
ID=57739794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610649172.0A Active CN106326356B (zh) | 2016-08-09 | 2016-08-09 | 一种确定影片的实时票房数据的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106326356B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038494A (zh) * | 2017-03-06 | 2017-08-11 | 中国电影科学技术研究所 | 一种影院票房预测方法及装置 |
CN108932556A (zh) * | 2017-05-27 | 2018-12-04 | 北京微影时代科技有限公司 | 一种锁定座位的方法及装置 |
CN107392571A (zh) * | 2017-07-26 | 2017-11-24 | 北京微影时代科技有限公司 | 一种电影排期有效性测试方法及装置 |
CN109165240A (zh) * | 2018-07-12 | 2019-01-08 | 北京猫眼文化传媒有限公司 | 一种列表生成方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392267A (zh) * | 2014-11-26 | 2015-03-04 | 李霞 | 电影票房统计装置及其票房数据统计方法和系统 |
CN104754382A (zh) * | 2013-12-25 | 2015-07-01 | 胡正东 | 一种实现多媒体即时同步影院的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070265892A1 (en) * | 2006-05-15 | 2007-11-15 | Valentino Valeno J | Method and system for automated ticketing for events in a venue |
-
2016
- 2016-08-09 CN CN201610649172.0A patent/CN106326356B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104754382A (zh) * | 2013-12-25 | 2015-07-01 | 胡正东 | 一种实现多媒体即时同步影院的方法 |
CN104392267A (zh) * | 2014-11-26 | 2015-03-04 | 李霞 | 电影票房统计装置及其票房数据统计方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106326356A (zh) | 2017-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106326356B (zh) | 一种确定影片的实时票房数据的方法及装置 | |
CN108197532B (zh) | 人脸识别的方法、装置及计算机装置 | |
CN106020715B (zh) | 存储池容量管理 | |
CN108960119B (zh) | 一种用于无人售货柜的多角度视频融合的商品识别算法 | |
CN107850889A (zh) | 管理系统及管理方法 | |
CN104515503B (zh) | 停留持续时间测量装置、测量系统及测量方法 | |
CN104220979B (zh) | 时空压缩感知方法及装置 | |
TWI772673B (zh) | 行業識別模型確定方法和裝置 | |
CN109766234A (zh) | 基于时间序列模型的磁盘存储容量预测方法 | |
CN109389599A (zh) | 一种基于深度学习的缺陷检测方法及装置 | |
CN103197623B (zh) | 一种流水线监控管理方法及装置 | |
CN108256431A (zh) | 一种手部位置标识方法及装置 | |
CN110417591A (zh) | 投票节点配置方法及系统 | |
CN109189762A (zh) | 一种工业物联网数据分析方法、系统及相关设备 | |
CN110415521A (zh) | 交通数据的预测方法、装置和计算机可读存储介质 | |
JP2017049983A (ja) | 分析システム及び方法 | |
CN110147745A (zh) | 一种视频关键帧检测方法及装置 | |
CN110490181A (zh) | 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质 | |
CN110070106A (zh) | 烟雾检测方法、装置及电子设备 | |
CN110349013A (zh) | 风险控制方法及装置 | |
CN110399822A (zh) | 基于深度学习的举手动作识别方法、装置及存储介质 | |
CN110163683A (zh) | 价值用户关键指标确定方法、广告投放方法及装置 | |
CN103218411B (zh) | 网站关联信息获取方法与装置 | |
CN109062769A (zh) | It系统性能风险趋势预测的方法、装置和设备 | |
CN109766962A (zh) | 一种商品识别方法、存储介质及商品识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200927 Address after: Room 1156, area a, 11th floor office, reader's new media building, 105 Wensan Road, national animation Park, Zhongxin eco city, Binhai New Area, Tianjin 300480 Patentee after: Tianjin cat's eye shadow Technology Co., Ltd Address before: 100000, Beijing, Wangjing, Chaoyang District East Road, No. 6, building 6, -2 to 4, 01, 1, 02 Patentee before: BEIJING CAT EYES CULTURE MEDIA Co.,Ltd. |