CN113052375A - 一种预测剧集播放量的方法和装置 - Google Patents

一种预测剧集播放量的方法和装置 Download PDF

Info

Publication number
CN113052375A
CN113052375A CN202110295894.1A CN202110295894A CN113052375A CN 113052375 A CN113052375 A CN 113052375A CN 202110295894 A CN202110295894 A CN 202110295894A CN 113052375 A CN113052375 A CN 113052375A
Authority
CN
China
Prior art keywords
episode
program
playing
play
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110295894.1A
Other languages
English (en)
Inventor
李鹏
唐柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yusen Culture Media Co ltd
Original Assignee
Shanghai Yusen Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yusen Culture Media Co ltd filed Critical Shanghai Yusen Culture Media Co ltd
Priority to CN202110295894.1A priority Critical patent/CN113052375A/zh
Publication of CN113052375A publication Critical patent/CN113052375A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请提供了一种预测剧集播放量的方法,该方法包括:将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,输出所述目标剧集节目的后续每一集的预测播放量,其中,所述剧集播放量预测模型是通过收集到的多个剧集的剧集相关信息及每个剧集的每一集的播放量进行模型训练得到的;根据所述第一集的播放量以及所述后续每一集的预测播放量,估计得到所述目标剧集节目对应的总播放量。本申请能够基于第一集的实际播放量对目标剧集节目的整体播放量进行预测,由此,能够通过播放量预测数据提前知晓用户受众对目标剧集节目的喜好程度,使得从早期即可获知目标剧集节目的较为准确的最终用户评级。

Description

一种预测剧集播放量的方法和装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种预测剧集播放量的技术方案。
背景技术
现有技术中,对视频类资源播放量的预测通常采用尝试抽取特征,进而对特征进行建模并预测整体播放量的方式,而现有的序列预测方案,通常采用自回归的朴素模型。然而,现有的序列预测方案已不适合目前的互联网环境,随着互联网智能推荐技术的大规模应用,内容/平台/用户群体等对视频的播放量具有重大的影响,而自回归朴素模型,不能捕获上述内容,因而其只适合在单个平台内部进行播放量预测。
发明内容
本申请的目的是针对连续性剧集节目提供一种预测剧集播放量的技术方案,以通过整体播放量预测提前知晓用户受众对目标剧集节目的喜好程度,由此能够从早期便获知目标剧集节目的较为准确的最终用户评级。
根据本申请的一个实施例,提供一种预测剧集播放量的方法,其中,所述方法包括:
将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,输出所述目标剧集节目的后续每一集的预测播放量,其中,所述剧集播放量预测模型是通过收集到的多个剧集的剧集相关信息及每个剧集的每一集的播放量进行模型训练得到的;
根据所述第一集的播放量以及所述后续每一集的预测播放量,估计得到所述目标剧集节目对应的总播放量。
根据本申请的另一个实施例,还提供了一种预测剧集播放量的装置,其中,所述装置包括:
用于将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,输出所述目标剧集节目的后续每一集的预测播放量的装置,其中,所述剧集播放量预测模型是通过收集到的多个剧集的剧集相关信息及每个剧集的每一集的播放量进行模型训练得到的;
用于根据所述第一集的播放量以及所述后续每一集的预测播放量,估计得到所述目标剧集节目对应的总播放量的装置。
根据本申请的另一个实施例,还提供了一种计算机设备,其中,所述计算机设备包括:存储器,用于存储一个或多个程序;一个或多个处理器,与所述存储器相连,当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器执行如下操作:
将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,输出所述目标剧集节目的后续每一集的预测播放量,其中,所述剧集播放量预测模型是通过收集到的多个剧集的剧集相关信息及每个剧集的每一集的播放量进行模型训练得到的;
根据所述第一集的播放量以及所述后续每一集的预测播放量,估计得到所述目标剧集节目对应的总播放量。
根据本申请的另一个实施例,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行如下操作:
将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,输出所述目标剧集节目的后续每一集的预测播放量,其中,所述剧集播放量预测模型是通过收集到的多个剧集的剧集相关信息及每个剧集的每一集的播放量进行模型训练得到的;
根据所述第一集的播放量以及所述后续每一集的预测播放量,估计得到所述目标剧集节目对应的总播放量。
与现有技术相比,本申请具有以下优点:通过基于收集到的多个剧集节目的剧集相关信息及每个剧集节目的每一集的播放量进行模型训练得到的剧集播放量预测模型,能够在目标剧集节目的第一集播出后,通过将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,来得到目标剧集节目的后续每一集的预测播放量,从而实现基于第一集的实际播放量对目标剧集节目的整体播放量进行预测,由此,能够通过播放量预测数据提前知晓用户受众对目标剧集节目的喜好程度,使得从早期即可获知目标剧集节目的较为准确的最终用户评级。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了本申请一个实施例的用于预测剧集播放量的方法的流程示意图;
图2示出了本申请一个实施例的用于预测剧集播放量的装置的结构示意图;
图3示出了可被用于实施本申请中所述的各个实施例的示例性系统。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“设备”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的程序指令来执行预定处理过程,或是由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)等硬件执行预定处理过程,或是由上述二者组合来实现。
本申请的技术方案主要由计算机设备来实现。其中,所述计算机设备包括网络设备和用户设备。所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于PC机、平板电脑、智能手机、IPTV、PDA、可穿戴设备等。其中,所述计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。
需要说明的是,上述计算机设备仅为举例,其他现有的或今后可能出现的计算机设备如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。
本文后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本申请作进一步详细描述。
图1示出了本申请一个实施例的用于预测剧集播放量的方法的流程示意图。根据本实施例的方法包括步骤S11和步骤S12。在步骤S11中,计算机设备将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,输出所述目标剧集节目的后续每一集的预测播放量,其中,所述剧集播放量预测模型是通过收集到的多个剧集的剧集相关信息及每个剧集的每一集的播放量进行模型训练得到的;在步骤S12中,计算机设备根据所述第一集的播放量以及所述后续每一集的预测播放量,估计得到所述目标剧集节目对应的总播放量。
在步骤S11中,计算机设备将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,输出所述目标剧集节目的后续每一集的预测播放量,其中,所述剧集播放量预测模型是通过收集到的多个剧集节目的剧集相关信息及每个剧集节目的每一集的播放量进行模型训练得到的。
在一些实施例中,所述目标剧集节目是指连续性的剧集节目,例如,目标剧集节目为一部周播电视剧,总集数为12集,每周播出一集。其中,所述目标剧集节目的第一集的播放量是指该第一集的实际播放量,可通过多种方式获得该第一集的播放量,例如通过统计第一集在各种播放平台上的播放量得到该第一集的实际播放量,又例如,获得该第一集在特定播放平台上的实际播放量,再例如,从其他设备或者特定应用程序中请求获得该第一集的实际播放量。在一些实施例中,所述剧集相关信息包括与目标剧集节目相关的任何信息,例如,剧集总数、节目体裁、演员、导演、编剧、剧本评级、投资金额、投资方、演员热度(可能为热度值或者热度等级)等信息。在一些实施例中,可从其他设备获得已训练的剧集播放量预测模型;在一些实施例中,所述计算机设备在步骤S11之前训练得到所述剧情播放量预测模型,具体训练过程将在后续实施例中予以详述,在此不再赘述。
在步骤S12中,计算机设备根据所述第一集的播放量以及所述后续每一集的预测播放量,估计得到所述目标剧集节目对应的总播放量。在一些实施例中,对所述第一集的播放量以及所述后续每一集的预测播放量进行求和,得到所述目标剧集节目对应的总播放量。在一些实施例中,若已获得所述目标剧集节目第一集之后的至少一集的实际播放量,根据所述至少一集的实际播放量对预测的总播放量进行调整,确定最新预测的总播放量。由此,当目标剧集节目的第一集播出后,能够通过该第一集的播放量来准确地评估后续各集的播放量,进而估算目标剧集节目的总播放量。
在一些实施例中,若所述目标剧集节目对应的剧集相关信息中的特定信息(如演员热度)发生变化,可重新执行步骤S11和步骤S12,来基于新的剧集相关信息来重新进行剧集播放量预测。
在一些实施例中,所述方法还包括:收集得到多个剧集节目的剧集播放信息,其中,所述剧集播放信息包括所述多个剧集节目的剧集相关信息及每个剧集节目的每一集的播放量;对所述剧集播放信息进行数据处理,得到可用于训练剧集播放量预测模型的训练数据集;通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型。在一些实施例中,所述剧集节目是指已完成所有集的播放的连续性剧集节目,所述剧集播放信息包括任何与剧集节目的实际播放情况香瓜的信息,如每个剧集节目的剧集相关信息、每个剧集节目的每一集的实际播放量等,其中,前述实施例中对剧集相关信息的描述均以引用方式包含与此,在此不再赘述。作为一个示例,获取历史播放过的多部电视剧中每部电视剧的剧集相关信息,如体裁、演员、导演、编剧、剧本评级、投资金额、演员热度等,并获取每部电视剧的每一集的实际播放量;之后,对上述所获取的数据(即剧集相关信息以及每部电视剧的每一集的实际播放量)进行处理,得到可用于训练剧集播放量预测模型的训练数据集;之后,通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型。
在一些实施例中,所述对所述剧集播放信息进行数据处理,包括:对所述剧集播放信息进行数据清理,删除所述剧集播放信息中的异常数据和/或冗余数据。在一些实施例中,所述对所述剧集播放信息进行数据处理,还包括:对于所述剧集播放信息中的空数据,通过均值策略填补所述空数据。作为一个示例,获取历史播放过的多部电视剧中每部电视剧的剧集相关信息,如体裁、演员、导演、编剧、剧本评级、投资金额、演员热度等,并获取每部电视剧的每一集的实际播放量;之后,对上述所获取的数据(即剧集相关信息以及每部电视剧的每一集的实际播放量)进行数据清理,删除其中的异常数据,并通过均值策略填补其中的空数据。
在一些实施例中,所述对所述剧集播放信息进行数据处理,包括:构造可用于训练剧集播放量预测模型的训练数据集,其中,所述训练数据集包括多个数据条目,每个数据条目由两个维度的数据构成,对于每个数据条目,其中一个维度的数据包括一个剧集节目的剧集相关信息、该剧集节目的第一集的播放量、该剧集节目除第一集之外的一集的序号信息,另一个维度的数据包括该除第一集之外的一集的播放量。在一些实施例中,一个剧集节目对应N个数据条目(N=M-1,M为该剧集节目的总集数),该N个数据条目中的每个数据条目对应一个剧集节目中的不同集。作为一个示例,数据集的每个数据条目由<x,y>构成,向量x=<核心体裁表示,演员表示,编剧表示,导演表示,男1表示,女1表示,男2表示,女2表示,剧本评级,总集数,总时长,平台表示,首集播放量,本集序号>,y=本集播放量,由此来训练一个机器学习模型,以建立各因素对各集播放量的影响关系,模型通过学习,可以掌握剧集播放量与内容、演员、投入、首集播放量等重要变量之间的一个多向式拟合关系。
在一些实施例中,先对所述剧集播放信息进行数据清理,删除所述剧集播放信息中的异常数据和/或冗余数据,之后,再构造可用于训练剧集播放量预测模型的训练数据集。在一些实施例中,先对所述剧集播放信息进行数据清理,删除所述剧集播放信息中的异常数据和/或冗余数据,并通过均值策略填补所述剧集播放信息中的空数据,之后,再构造可用于训练剧集播放量预测模型的训练数据集。
在一些实施例中,所述通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型,包括:根据随机森林预测算法通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型,其中,所述剧集播放量预测模型为集成模型,所述剧集播放量预测模型包括多个决策树;其中,所述步骤S11包括:对于每个决策树,将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入该决策树,输出该决策树对应的预测结果,其中,所述预测结果包括所述目标剧集节目的后续每一集的预测播放量;根据所述多个决策树对应的多个预测结果,确定最终预测结果,其中,所述最终预测结果包括所述目标剧集节目的后续每一集的预测播放量。本实施例中由于采用集成训练模型,比起非集成模型会有更好的效果。在一些实施例中,根据所述多个决策树对应的多个预测结果,并基于预定算法,确定最终预测结果,例如,针对第一集之后的每一集,将多个决策树针对该集的所有预测结果进行求和运算或者方差运算,来确定该集对应的最终预测结果。
在一些实施例中,所述根据随机森林预测算法通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型,包括:通过Bootstrap方法对所述训练数据集进行随机采样,生成多个训练数据子集;对于每个训练数据子集,通过该训练数据子集进行模型训练,得到已训练的该训练数据子集对应的决策树。
在一些实施例中,所述方法还包括:通过AUTOML(自动机器学习)方法从所述多个决策树中确定至少一个决策树,其中,所述至少一个决策树中的每个决策树的泛化能力满足预定条件。在一些实施例中,从所述多个决策树中选择泛化能力大于或等于预定阈值的至少一个决策树。在一些实施例中,从所述多个决策树中选择泛化能力最强的预定数量个决策树。由此能够使用训练集数据对模型进行训练,并使用AUTOML对参数空间进行自动探索和优化。
图2示出了本申请一个实施例的用于预测剧集播放量的装置的结构示意图。该用于预测剧集播放量的装置(以下简称为“预测装置”)包括装置11和装置12。
装置11用于将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,输出所述目标剧集节目的后续每一集的预测播放量,其中,所述剧集播放量预测模型是通过收集到的多个剧集节目的剧集相关信息及每个剧集节目的每一集的播放量进行模型训练得到的。
在一些实施例中,所述目标剧集节目是指连续性的剧集节目,例如,目标剧集节目为一部周播电视剧,总集数为12集,每周播出一集。其中,所述目标剧集节目的第一集的播放量是指该第一集的实际播放量,可通过多种方式获得该第一集的播放量,例如通过统计第一集在各种播放平台上的播放量得到该第一集的实际播放量,又例如,获得该第一集在特定播放平台上的实际播放量,再例如,从其他设备或者特定应用程序中请求获得该第一集的实际播放量。在一些实施例中,所述剧集相关信息包括与目标剧集节目相关的任何信息,例如,剧集总数、节目体裁、演员、导演、编剧、剧本评级、投资金额、投资方、演员热度(可能为热度值或者热度等级)等信息。在一些实施例中,可从其他设备获得已训练的剧集播放量预测模型;在一些实施例中,所述计算机设备在装置11执行操作之前训练得到所述剧情播放量预测模型,具体训练过程将在后续实施例中予以详述,在此不再赘述。
装置12用于根据所述第一集的播放量以及所述后续每一集的预测播放量,估计得到所述目标剧集节目对应的总播放量。在一些实施例中,对所述第一集的播放量以及所述后续每一集的预测播放量进行求和,得到所述目标剧集节目对应的总播放量。在一些实施例中,若已获得所述目标剧集节目第一集之后的至少一集的实际播放量,根据所述至少一集的实际播放量对预测的总播放量进行调整,确定最新预测的总播放量。由此,当目标剧集节目的第一集播出后,能够通过该第一集的播放量来准确地评估后续各集的播放量,进而估算目标剧集节目的总播放量。
在一些实施例中,若所述目标剧集节目对应的剧集相关信息中的特定信息(如演员热度)发生变化,可重新触发所述装置11和装置12执行操作,来基于新的剧集相关信息来重新进行剧集播放量预测。
在一些实施例中,所述预测装置还包括装置13(图未示)、装置14(图未示)和装置15(图未示)。装置13用于收集得到多个剧集节目的剧集播放信息,其中,所述剧集播放信息包括所述多个剧集节目的剧集相关信息及每个剧集节目的每一集的播放量;装置14用于对所述剧集播放信息进行数据处理,得到可用于训练剧集播放量预测模型的训练数据集;装置15用于通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型。在一些实施例中,所述剧集节目是指已完成所有集的播放的连续性剧集节目,所述剧集播放信息包括任何与剧集节目的实际播放情况香瓜的信息,如每个剧集节目的剧集相关信息、每个剧集节目的每一集的实际播放量等,其中,前述实施例中对剧集相关信息的描述均以引用方式包含与此,在此不再赘述。作为一个示例,获取历史播放过的多部电视剧中每部电视剧的剧集相关信息,如体裁、演员、导演、编剧、剧本评级、投资金额、演员热度等,并获取每部电视剧的每一集的实际播放量;之后,对上述所获取的数据(即剧集相关信息以及每部电视剧的每一集的实际播放量)进行处理,得到可用于训练剧集播放量预测模型的训练数据集;之后,通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型。
在一些实施例中,所述对所述剧集播放信息进行数据处理,包括:对所述剧集播放信息进行数据清理,删除所述剧集播放信息中的异常数据和/或冗余数据。在一些实施例中,所述对所述剧集播放信息进行数据处理,还包括:对于所述剧集播放信息中的空数据,通过均值策略填补所述空数据。作为一个示例,获取历史播放过的多部电视剧中每部电视剧的剧集相关信息,如体裁、演员、导演、编剧、剧本评级、投资金额、演员热度等,并获取每部电视剧的每一集的实际播放量;之后,对上述所获取的数据(即剧集相关信息以及每部电视剧的每一集的实际播放量)进行数据清理,删除其中的异常数据,并通过均值策略填补其中的空数据。
在一些实施例中,所述对所述剧集播放信息进行数据处理,包括:构造可用于训练剧集播放量预测模型的训练数据集,其中,所述训练数据集包括多个数据条目,每个数据条目由两个维度的数据构成,对于每个数据条目,其中一个维度的数据包括一个剧集节目的剧集相关信息、该剧集节目的第一集的播放量、该剧集节目除第一集之外的一集的序号信息,另一个维度的数据包括该除第一集之外的一集的播放量。在一些实施例中,一个剧集节目对应N个数据条目(N=M-1,M为该剧集节目的总集数),该N个数据条目中的每个数据条目对应一个剧集节目中的不同集。作为一个示例,数据集的每个数据条目由<x,y>构成,向量x=<核心体裁表示,演员表示,编剧表示,导演表示,男1表示,女1表示,男2表示,女2表示,剧本评级,总集数,总时长,平台表示,首集播放量,本集序号>,y=本集播放量,由此来训练一个机器学习模型,以建立各因素对各集播放量的影响关系,模型通过学习,可以掌握剧集播放量与内容、演员、投入、首集播放量等重要变量之间的一个多向式拟合关系。
在一些实施例中,先对所述剧集播放信息进行数据清理,删除所述剧集播放信息中的异常数据和/或冗余数据,之后,再构造可用于训练剧集播放量预测模型的训练数据集。在一些实施例中,先对所述剧集播放信息进行数据清理,删除所述剧集播放信息中的异常数据和/或冗余数据,并通过均值策略填补所述剧集播放信息中的空数据,之后,再构造可用于训练剧集播放量预测模型的训练数据集。
在一些实施例中,所述装置15用于:根据随机森林预测算法通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型,其中,所述剧集播放量预测模型为集成模型,所述剧集播放量预测模型包括多个决策树;其中,所述装置11用于:对于每个决策树,将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入该决策树,输出该决策树对应的预测结果,其中,所述预测结果包括所述目标剧集节目的后续每一集的预测播放量;根据所述多个决策树对应的多个预测结果,确定最终预测结果,其中,所述最终预测结果包括所述目标剧集节目的后续每一集的预测播放量。本实施例中由于采用集成训练模型,比起非集成模型会有更好的效果。在一些实施例中,根据所述多个决策树对应的多个预测结果,并基于预定算法,确定最终预测结果,例如,针对第一集之后的每一集,将多个决策树针对该集的所有预测结果进行求和运算或者方差运算,来确定该集对应的最终预测结果。
在一些实施例中,所述根据随机森林预测算法通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型,包括:通过Bootstrap方法对所述训练数据集进行随机采样,生成多个训练数据子集;对于每个训练数据子集,通过该训练数据子集进行模型训练,得到已训练的该训练数据子集对应的决策树。
在一些实施例中,所述预测装置还包括用于通过AUTOML(自动机器学习)方法从所述多个决策树中确定至少一个决策树的装置,其中,所述至少一个决策树中的每个决策树的泛化能力满足预定条件。在一些实施例中,从所述多个决策树中选择泛化能力大于或等于预定阈值的至少一个决策树。在一些实施例中,从所述多个决策树中选择泛化能力最强的预定数量个决策树。由此能够使用训练集数据对模型进行训练,并使用AUTOML对参数空间进行自动探索和优化。
根据本申请的方案,通过基于收集到的多个剧集节目的剧集相关信息及每个剧集节目的每一集的播放量进行模型训练得到的剧集播放量预测模型,能够在目标剧集节目的第一集播出后,通过将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,来得到目标剧集节目的后续每一集的预测播放量,从而实现基于第一集的实际播放量对目标剧集节目的整体播放量进行预测,由此,能够通过播放量预测数据提前知晓用户受众对目标剧集节目的喜好程度,使得从早期即可获知目标剧集节目的较为准确的最终用户评级。
本申请还提供了一种计算机设备,其中,所述计算机设备包括:存储器,用于存储一个或多个程序;一个或多个处理器,与所述存储器相连,当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器执行本申请所述的预测剧集播放量的方法。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行本申请所述的预测剧集播放量的方法。
本申请还提供了一种计算机程序产品,当所述计算机程序产品被设备执行时,使得所述设备执行本申请所述的预测剧集播放量的方法。
图3示出了可被用于实施本申请中所述的各个实施例的示例性系统。
在一些实施例中,系统1000能够作为本申请实施例中的任意一个处理设备。在一些实施例中,系统1000可包括具有指令的一个或多个计算机可读介质(例如,系统存储器或NVM/存储设备1020)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如,(一个或多个)处理器1005)。
对于一个实施例,系统控制模块1010可包括任意适当的接口控制器,以向(一个或多个)处理器1005中的至少一个和/或与系统控制模块1010通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块1010可包括存储器控制器模块1030,以向系统存储器1015提供接口。存储器控制器模块1030可以是硬件模块、软件模块和/或固件模块。
系统存储器1015可被用于例如为系统1000加载和存储数据和/或指令。对于一个实施例,系统存储器1015可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器1015可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块1010可包括一个或多个输入/输出(I/O)控制器,以向NVM/存储设备1020及(一个或多个)通信接口1025提供接口。
例如,NVM/存储设备1020可被用于存储数据和/或指令。NVM/存储设备1020可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1020可包括在物理上作为系统1000被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备1020可通过网络经由(一个或多个)通信接口1025进行访问。
(一个或多个)通信接口1025可为系统1000提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统1000可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器(例如,存储器控制器模块1030)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统1000可以但不限于是:服务器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统1000可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统1000包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (18)

1.一种预测剧集播放量的方法,其中,所述方法包括:
将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,输出所述目标剧集节目的后续每一集的预测播放量,其中,所述剧集播放量预测模型是通过收集到的多个剧集节目的剧集相关信息及每个剧集节目的每一集的播放量进行模型训练得到的;
根据所述第一集的播放量以及所述后续每一集的预测播放量,估计得到所述目标剧集节目对应的总播放量。
2.根据权利要求1所述的方法,其中,所述方法还包括:
收集得到多个剧集节目的剧集播放信息,其中,所述剧集播放信息包括所述多个剧集节目的剧集相关信息及每个剧集节目的每一集的播放量;
对所述剧集播放信息进行数据处理,得到可用于训练剧集播放量预测模型的训练数据集;
通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型。
3.根据权利要求2所述的方法,其中,所述对所述剧集播放信息进行数据处理,包括:
对所述剧集播放信息进行数据清理,删除所述剧集播放信息中的异常数据和/或冗余数据。
4.根据权利要求3所述的方法,其中,所述对所述剧集播放信息进行数据处理,还包括:
对于所述剧集播放信息中的空数据,通过均值策略填补所述空数据。
5.根据权利要求2所述的方法,其中,所述对所述剧集播放信息进行数据处理,包括:
构造可用于训练剧集播放量预测模型的训练数据集,其中,所述训练数据集包括多个数据条目,每个数据条目由两个维度的数据构成,对于每个数据条目,其中一个维度的数据包括一个剧集节目的剧集相关信息、该剧集节目的第一集的播放量、该剧集节目除第一集之外的一集的序号信息,另一个维度的数据包括该除第一集之外的一集的播放量。
6.根据权利要求2所述的方法,其中,所述通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型,包括:
根据随机森林预测算法通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型,其中,所述剧集播放量预测模型为集成模型,所述剧集播放量预测模型包括多个决策树;
其中,所述将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,输出所述目标剧集节目的后续每一集的预测播放量,包括:
对于每个决策树,将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入该决策树,输出该决策树对应的预测结果,其中,所述预测结果包括所述目标剧集节目的后续每一集的预测播放量;
根据所述多个决策树对应的多个预测结果,确定最终预测结果,其中,所述最终预测结果包括所述目标剧集节目的后续每一集的预测播放量。
7.根据权利要求6所述的方法,其中,所述根据随机森林预测算法通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型,包括:
通过Bootstrap方法对所述训练数据集进行随机采样,生成多个训练数据子集;
对于每个训练数据子集,通过该训练数据子集进行模型训练,得到已训练的该训练数据子集对应的决策树。
8.根据权利要求6所述的方法,其中,所述方法还包括:
通过AUTOML方法从所述多个决策树中确定至少一个决策树,其中,所述至少一个决策树中的每个决策树的泛化能力满足预定条件。
9.一种预测剧集播放量的装置,其中,所述装置包括:
用于将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,输出所述目标剧集节目的后续每一集的预测播放量的装置,其中,所述剧集播放量预测模型是通过收集到的多个剧集节目的剧集相关信息及每个剧集节目的每一集的播放量进行模型训练得到的;
用于根据所述第一集的播放量以及所述后续每一集的预测播放量,估计得到所述目标剧集节目对应的总播放量的装置。
10.根据权利要求9所述的装置,其中,所述装置还包括:
用于收集得到多个剧集节目的剧集播放信息的装置,其中,所述剧集播放信息包括所述多个剧集节目的剧集相关信息及每个剧集节目的每一集的播放量;
用于对所述剧播放信息进行数据处理,得到可用于训练剧集播放量预测模型的训练数据集的装置;
用于通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型的装置。
11.根据权利要求10所述的装置,其中,所述对所述剧集播放信息进行数据处理,包括:
对所述剧集播放信息进行数据清理,删除所述剧集播放信息中的异常数据和/或冗余数据。
12.根据权利要求11所述的装置,其中,所述对所述剧集播放信息进行数据处理,还包括:
用于对于所述剧集播放信息中的空数据,通过均值策略填补所述空数据的装置。
13.根据权利要求10所述的装置,其中,所述对所述剧集播放信息进行数据处理,包括:
用于构造可用于训练剧集播放量预测模型的训练数据集的装置,其中,所述训练数据集包括多个数据条目,每个数据条目由两个维度的数据构成,对于每个数据条目,其中一个维度的数据包括一个剧集节目的剧集相关信息、该剧集节目的第一集的播放量、该剧集节目除第一集之外的一集的序号信息,另一个维度的数据包括该除第一集之外的一集的播放量。
14.根据权利要求10所述的装置,其中,所述用于通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型的装置,用于:
根据随机森林预测算法通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型,其中,所述剧集播放量预测模型为集成模型,所述剧集播放量预测模型包括多个决策树;
其中,所述用于将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入已训练的剧集播放量预测模型,输出所述目标剧集节目的后续每一集的预测播放量的装置,用于:
对于每个决策树,将目标剧集节目的剧集相关信息及所述目标剧集节目的第一集的播放量输入该决策树,输出该决策树对应的预测结果,其中,所述预测结果包括所述目标剧集节目的后续每一集的预测播放量;
根据所述多个决策树对应的多个预测结果,确定最终预测结果,其中,所述最终预测结果包括所述目标剧集节目的后续每一集的预测播放量。
15.根据权利要求14所述的装置,其中,所述根据随机森林预测算法通过所述训练数据集进行模型训练,得到已训练的剧集播放量预测模型,包括:
通过Bootstrap方法对所述训练数据集进行随机采样,生成多个训练数据子集;
对于每个训练数据子集,通过该训练数据子集进行模型训练,得到已训练的该训练数据子集对应的决策树。
16.根据权利要求14所述的装置,其中,所述装置还包括:
用于通过AUTOML方法从所述多个决策树中确定至少一个决策树的装置,其中,所述至少一个决策树中的每个决策树的泛化能力满足预定条件。
17.一种计算机设备,其中,所述计算机设备包括:
存储器,用于存储一个或多个程序;
一个或多个处理器,与所述存储器相连,
当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行如权利要求1至8中任一项所述的方法。
CN202110295894.1A 2021-03-19 2021-03-19 一种预测剧集播放量的方法和装置 Pending CN113052375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110295894.1A CN113052375A (zh) 2021-03-19 2021-03-19 一种预测剧集播放量的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110295894.1A CN113052375A (zh) 2021-03-19 2021-03-19 一种预测剧集播放量的方法和装置

Publications (1)

Publication Number Publication Date
CN113052375A true CN113052375A (zh) 2021-06-29

Family

ID=76514078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110295894.1A Pending CN113052375A (zh) 2021-03-19 2021-03-19 一种预测剧集播放量的方法和装置

Country Status (1)

Country Link
CN (1) CN113052375A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113676770A (zh) * 2021-07-13 2021-11-19 北京奇艺世纪科技有限公司 会员权益预测方法、装置、电子设备及存储介质
CN116170618A (zh) * 2022-12-29 2023-05-26 北京奇树有鱼文化传媒有限公司 播放量计算的方法、装置、电子设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898415A (zh) * 2018-05-29 2018-11-27 北京奇艺世纪科技有限公司 一种视频剧集的流量相关指标预测方法及装置
CN109522470A (zh) * 2018-11-06 2019-03-26 汪浩 一种视频热度预测方法、装置、设备及存储介质
WO2020008919A1 (ja) * 2018-07-04 2020-01-09 株式会社エイシング 機械学習装置及び方法
CN110705683A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN111565316A (zh) * 2020-07-15 2020-08-21 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN112004120A (zh) * 2019-05-27 2020-11-27 广州虎牙信息科技有限公司 平台网络资源播放量的预测方法、装置、设备及存储介质
CN112511901A (zh) * 2020-12-07 2021-03-16 北京秒针人工智能科技有限公司 综艺剧目播放量预测方法、系统、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898415A (zh) * 2018-05-29 2018-11-27 北京奇艺世纪科技有限公司 一种视频剧集的流量相关指标预测方法及装置
WO2020008919A1 (ja) * 2018-07-04 2020-01-09 株式会社エイシング 機械学習装置及び方法
CN109522470A (zh) * 2018-11-06 2019-03-26 汪浩 一种视频热度预测方法、装置、设备及存储介质
CN112004120A (zh) * 2019-05-27 2020-11-27 广州虎牙信息科技有限公司 平台网络资源播放量的预测方法、装置、设备及存储介质
CN110705683A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN111565316A (zh) * 2020-07-15 2020-08-21 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN112511901A (zh) * 2020-12-07 2021-03-16 北京秒针人工智能科技有限公司 综艺剧目播放量预测方法、系统、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113676770A (zh) * 2021-07-13 2021-11-19 北京奇艺世纪科技有限公司 会员权益预测方法、装置、电子设备及存储介质
CN116170618A (zh) * 2022-12-29 2023-05-26 北京奇树有鱼文化传媒有限公司 播放量计算的方法、装置、电子设备及可读存储介质
CN116170618B (zh) * 2022-12-29 2023-11-14 北京奇树有鱼文化传媒有限公司 播放量计算的方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110321958B (zh) 神经网络模型的训练方法、视频相似度确定方法
US11868904B2 (en) Prediction model training management system, method of the same, master apparatus and slave apparatus for the same
US11522938B2 (en) Feature generation for online/offline machine learning
WO2020087979A1 (zh) 生成模型的方法和装置
CN113052375A (zh) 一种预测剧集播放量的方法和装置
CN114580263A (zh) 基于知识图谱的信息系统故障预测方法及相关设备
US20230102640A1 (en) System and methods for machine learning training data selection
CN113987119A (zh) 一种数据检索方法、跨模态数据匹配模型处理方法和装置
US11620537B2 (en) Optimizing gradient boosting feature selection
CN111079944A (zh) 迁移学习模型解释实现方法及装置、电子设备、存储介质
CN112182281B (zh) 一种音频推荐方法、装置及存储介质
CN116958267B (zh) 位姿处理方法、装置、电子设备及存储介质
CN113902540A (zh) 一种用于风险识别的方法和装置
CN116433050A (zh) 应用于农业大数据管理系统的异常报警方法及系统
WO2019179252A1 (zh) 一种样本回放数据存取方法及装置
CN115841068A (zh) 一种针对用户的干预执行方法、装置以及设备
CN115600666A (zh) 面向输配电线路缺陷检测模型的自学习方法及装置
CN114419322A (zh) 一种图像实例分割方法、装置、电子设备及存储介质
CN110413800B (zh) 一种提供小说信息的方法与设备
CN110019068B (zh) 一种日志文本处理方法和装置
CN111491198B (zh) 一种小视频搜索方法和装置
US11501172B2 (en) Accurately identifying members of training data in variational autoencoders by reconstruction error
CN110880005B (zh) 向量索引建立方法及装置和向量检索方法及装置
CN116567350B (zh) 全景视频数据处理方法及系统
WO2023087234A1 (en) Artificial intelligence (ai) -assisted context-aware pipeline creation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination