CN110933492B - 一种播放时长预测方法及装置 - Google Patents

一种播放时长预测方法及装置 Download PDF

Info

Publication number
CN110933492B
CN110933492B CN201911257186.8A CN201911257186A CN110933492B CN 110933492 B CN110933492 B CN 110933492B CN 201911257186 A CN201911257186 A CN 201911257186A CN 110933492 B CN110933492 B CN 110933492B
Authority
CN
China
Prior art keywords
value
video
playing
predicted
playing time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911257186.8A
Other languages
English (en)
Other versions
CN110933492A (zh
Inventor
姚尧
叶田田
周莹
孙斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing IQIYI Science and Technology Co Ltd
Original Assignee
Beijing IQIYI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing IQIYI Science and Technology Co Ltd filed Critical Beijing IQIYI Science and Technology Co Ltd
Priority to CN201911257186.8A priority Critical patent/CN110933492B/zh
Publication of CN110933492A publication Critical patent/CN110933492A/zh
Application granted granted Critical
Publication of CN110933492B publication Critical patent/CN110933492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44204Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种播放时长预测方法及装置,该方法在对目标视频的播放时长进行预测时,将目标视频针对预设特征项的特征值的统计值,分别输入至多个预设的播放时长预测模型中进行播放时长预测,获得多个预测值,并对所获得的多个预测值进行融合,得到目标视频的播放时长。可见,应用本发明实施例提供的方法能够在引进新的视频之前,预测到该视频的播放时长,从而根据预测得到的播放时长评估将要引进的视频是否对用户具有吸引力。

Description

一种播放时长预测方法及装置
技术领域
本发明涉及大数据处理技术领域,特别是涉及一种播放时长预测方法及装置。
背景技术
各个视频网站在准备引进一部新的影视剧或者一个新的综艺节目之前,一般会评估所引进影视剧或者综艺节目对用户的吸引力,对用户的吸引力越大,引进的概率会越高。
由于用户观看影视剧或者综艺节目的时间越长,表示影视剧或者综艺节目对用户的吸引力越大,反之,用户观看影视剧或者综艺节目的时间越短,表示影视剧或者综艺节目对用户的吸引力越小。
鉴于此,在引进新的影视剧或者综艺节目之前,需要对影视剧或者综艺节目的播放时长进行预测,从而根据预测得到的播放时长评估将要引进的影视剧或者综艺节目是否对用户具有吸引力。
发明内容
本发明实施例的目的在于提供一种播放时长预测方法及装置,以评估视频对用户的吸引力。具体技术方案如下:
第一方面,本发明实施例提供一种播放时长预测方法,所述方法包括:
获取目标视频针对预设特征项的特征值;
针对每一所述特征值,对所述特征值所具有的所述目标视频之前上线的视频的受欢迎程度进行统计,获得所述特征值对应的统计值;
针对每一预设的播放时长预测模型,将所获得的统计值分别输入至所述播放时长预测模型中进行播放时长预测,获得多个预测值;其中,每一播放时长预测模型为:利用样本视频的统计值对该播放时长预测模型对应的初始回归模型进行训练后得到的、用于预测视频的播放时长的模型,各个播放时长预测模型对应的初始回归模型不同;
对所获得的多个预测值进行融合,得到所述目标视频的播放时长。
本发明的一个实施例中,所述对所述特征值所具有的所述目标视频之前上线的视频的受欢迎程度进行统计,获得所述特征值对应的统计值,包括:
对所述特征值在不同时间窗口所具有的所述目标视频之前上线的视频的受欢迎程度进行统计,获得所述特征值在每一所述时间窗口对应的统计值;其中,所述时间窗口为:按照时间长度对当前时刻之前的时间进行划分得到的时间段;
对获得的每一统计值进行融合,得到所述特征值对应的统计值。
本发明的一个实施例中,所述对所获得的多个预测值进行融合,得到所述目标视频的播放时长,包括:
计算所获得的预测值的中值和表征各个预测值的离散程度的离散值;
利用所述中值和离散值,计算所述目标视频对应的离群值;
从所获得的预测值中,剔除所述离群值;
获得剩余预测值对应播放时长模型的训练误差,并将所述训练误差最小对应的播放时长模型预测得到的预测值作为所述目标视频的播放时长。
本发明的一个实施例中,通过以下方式训练得到每一播放时长预测模型:
获取已上线的第一样本视频针对预设特征项的特征值;
针对每一所述特征值,对所述特征值所具有的所述第一样本视频之前上线的视频的受欢迎程度进行统计,获得所述第一样本视频对应的统计值;
获得所述第一样本视频的已播放时长;
利用交叉验证法,以所获得的第一样本视频对应的统计值为播放时长预测模型对应的初始回归模型的输入信息,以所述已播放时长为训练基准,对初始回归模型进行训练,得到播放时长预测模型。
本发明的一个实施例中,通过以下方式确定所述预设特征项:
获得所述目标视频的初选特征项,如果所初选特征项的数量大于第二样本视频的数量时,利用向前逐步选择技术,从所述初选特征项中筛选所述特征项。
本发明的一个实施例中,在得到各个播放时长预测模型之后,还包括:
获得每一播放时长预测模型的训练误差,其中,所述训练误差为:训练过程中得到的预测时长与所述训练基准之间的相对误差的绝对值的平均值;
剔除所述训练误差大于预设阈值的播放时长预测模型。
第二方面,本发明实施例提供一种播放时长预测装置,所述装置包括:
特征值获取模块,用于获取目标视频针对预设特征项的特征值;
统计值获得模块,用于针对每一所述特征值,对所述特征值所具有的所述目标视频之前上线的视频的受欢迎程度进行统计,获得所述特征值对应的统计值;
预测值获得模块,用于针对每一预设的播放时长预测模型,将所获得的统计值分别输入至所述播放时长预测模型中进行播放时长预测,获得多个预测值;其中,每一播放时长预测模型为:利用样本视频的统计值对该播放时长预测模型对应的初始回归模型进行训练后得到的、用于预测视频的播放时长的模型,各个播放时长预测模型对应的初始回归模型不同;
融合模块,用于对所获得的多个预测值进行融合,得到所述目标视频的播放时长。
本发明的一个实施例中,所述统计值获得模块包括:
统计值获得子模块,用于对所述特征值在不同时间窗口所具有的所述目标视频之前上线的视频的受欢迎程度进行统计,获得所述特征值在每一所述时间窗口对应的统计值;其中,所述时间窗口为:按照时间长度对当前时刻之前的时间进行划分得到的时间段;
统计值融合子模块,用于对获得的每一统计值进行融合,得到所述特征值对应的统计值。
本发明的一个实施例中,所述融合模块,包括:
离散值计算子模块,用于计算所获得的预测值的中值和表征各个预测值的离散程度的离散值;
离群值计算子模块,用于利用所述中值和离散值,计算所述目标视频对应的离群值;
离群值剔除子模块,用于从所获得的预测值中,剔除所述离群值;
播放时长获得子模块,用于获得剩余预测值对应播放时长模型的训练误差,并将所述训练误差最小对应的播放时长模型预测得到的预测值作为所述目标视频的播放时长。
本发明的一个实施例中,所述装置还包括:模型预测模块,用于训练得到每一播放时长预测模型;
其中,所述模型预测模块,具体用于:
获取已上线的第一样本视频针对预设特征项的特征值;
针对所获得的特征值在所述第一样本视频之前上线的视频的表现情况,获得各个样本视频对应的特征值的统计值;
获得所述第一样本视频的已播放时长;
利用交叉验证法,以所获得的第一样本视频对应的统计值为播放时长预测模型对应的初始回归模型的输入信息,以所述已播放时长为训练基准,对初始回归模型进行训练,得到播放时长预测模型。
本发明的一个实施例中,所述装置还包括:
预设特征项确定模块,用于获得所述目标视频的初选特征项,如果所初选特征项的数量大于第二样本视频的数量时,利用向前逐步选择技术,从所述初选特征项中筛选所述特征项。
本发明的一个实施例中,所述装置还包括:
平均值获得模块,用于获得每一播放时长预测模型的训练误差,其中,所述训练误差为:训练过程中得到的预测时长与所述训练基准之间的相对误差的绝对值的平均值;
剔除模块,用于剔除所述训练误差大于预设阈值的播放时长预测模型。
在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上任一所述的播放时长预测方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的播放时长预测方法。
应用本实施例提供的方案在对目标视频的播放时长进行预测时,将目标视频针对预设特征项的特征值的统计值,分别输入至多个预设的播放时长预测模型中进行播放时长预测,获得多个预测值,并对所获得的多个预测值进行融合,得到目标视频的播放时长。应用本发明实施例提供的方案能够在引进新的视频之前,预测到该视频的播放时长,从而根据预测得到的播放时长评估将要引进的视频是否对用户具有吸引力。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的第一种播放时长预测方法的流程示意图;
图2为本发明实施例提供的特征值对应的统计值获得方式的流程示意图;
图3为本发明实施例提供的一种对预测值进行融合的流程示意图;
图4为本发明实施例提供的第二种播放时长预测方法的流程示意图;
图5为本发明实施例提供的预测一部电视剧播放时长的流程的示意图;
图6为本发明实施例提供的第一种播放时长预测装置的结构示意图;
图7为本发明实施例提供的第二种播放时长预测装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在引进新的影视剧或者综艺节目之前,需要对影视剧或者综艺节目的播放时长进行预测,从而根据预测得到的播放时长评估将要引进的影视剧或者综艺节目是否对用户具有吸引力,为解决这一技术问题,本发明实施例提供了一种播放时长预测方法及装置。
本发明的一个实施例中,提供了一种播放时长预测方法,该方法包括:
获取目标视频针对预设特征项的特征值;
针对每一特征值,对特征值所具有的目标视频之前上线的视频的受欢迎程度进行统计,获得特征值对应的统计值;
针对每一预设的播放时长预测模型,将所获得的统计值分别输入至播放时长预测模型中进行播放时长预测,获得多个预测值;其中,每一播放时长预测模型为:利用样本视频的统计值对该播放时长预测模型对应的初始回归模型进行训练后得到的、用于预测视频的播放时长的模型,各个播放时长预测模型对应的初始回归模型不同;
对所获得的多个预测值进行融合,得到目标视频的播放时长。
由以上可见,应用本实施例提供的方案在对目标视频的播放时长进行预测时,将目标视频针对预设特征项的特征值的统计值,分别输入至多个预设的播放时长预测模型中进行播放时长预测,获得多个预测值,并对所获得的多个预测值进行融合,得到目标视频的播放时长。因此,应用本实施例提供的方案能够在引进新的视频之前,预测到该视频的播放时长,从而根据预测得到的播放时长评估将要引进的视频是否对用户具有吸引力。
参见图1,图1为本发明实施例提供的一种播放时长预测方法的流程示意图,该方法包括:
步骤1,获取目标视频针对预设特征项的特征值。
其中,目标视频可以是单个视频,也可以是一个视频集。
本发明的一个实施例中,视频集可以是具有同一主题的单个视频的集合。
具体的,上述主题可以是基于以下信息中的至少一种确定的:视频集的名称、视频的发布时间段等。其中,视频的发布时间段可以依据视频发布的绝对时间确定,例如,发布时间为2000年1月1日等,还可以是依据视频所属的系列确定,例如,第一季、第二季等等。
鉴于上述情况,一种实现方式中,上述具有同一主题的单个视频的集合可以为:名称中包含同一视频集名称的视频的集合。
具体的,一部电视剧的每集视频的名称中均包含该电视剧的名称,而一般以电视剧的名称作为视频集的名称,因此,上述电视剧的每集视频的集合为具有同一主题的单个视频的集合,也就是,上述电视剧的每集视频的集合为上述电视剧对应的视频集。如,“红楼梦”这一电视剧包含50集视频,每一集视频的名称分别为“红楼梦_1”、“红楼梦_2”、……、“红楼梦_50”,这50集视频的名称中均包含电视剧的名称“红楼梦”,可以认为这50集视频是具有同一主题的单个视频,则这50集视频的集合为“红楼梦”这一电视剧对应的视频集。
基于此,应用本实施例提供的方案可以对单一视频的播放时长进行预测,也可以对一个视频集进行播放时长预测。
上述特征项为影响视频的受欢迎程度的对象。
预设特征项可以为从上述特征项中事先选择的、与该视频的受欢迎程度相关性较大的对象。针对获取上述预设特征项的具体实施方式将在后面实施例中进行一一详细描述,这里暂不详述。
上述特征项可以为:演员、导演、类型、系列、题材、集数、集时长、网络平台、电视台情况、竞手情况等等,预设特征项就是从类型、系列、题材、集数、集时长、网络平台、电视台情况、竞手情况等等中选取与该视频的受欢迎程度相关性较大的对象,如预设特征项可以为演员、导演、编剧、剧集时长、题材或集数、竞手情况。
示例性的,当目标视频为一部电视剧时,则该特征项可以为演员、导演、编剧、剧集时长、题材、集数或竞手情况等。
当目标视频为一部仅有一个视频的电影时,则该特征项可以为演员、导演、编剧、视频时长或题材等。
上述特征值为预设特征项所包含的用于影响视频的热度的对象,一个预设特征项可以包含一个对象,也可以包含多个对象。
基于上述示例,当目标视频为一部电视剧时,上述预设特征项为演员、导演、编剧、剧集时长、题材、集数、竞手情况,分别对应的特征值为:张一和张二、张三、张四、40分钟、喜剧、12集,具体见表1。
表1上述电视剧的预设特征项和特征值的对应关系
预设特征项 演员 导演 编剧 剧集时长 题材 集数 竞手情况
特征值 张一、张二 张三 张四 40分钟 喜剧 12集 电视剧X
当目标视频为一部仅有一个视频的电影时,上述预设特征项为演员、导演、编剧、视频时长、题材,分别对应的特征值为:孙一和孙二、孙三、孙四、100分钟、情感、竞手情况,具体见表2。
表2上述电影的预设特征项和特征值的对应关系
预设特征项 演员 导演 编剧 视频时长 题材 竞手情况
特征值 孙一、孙二 孙三 孙四 100分钟 情感 电影X
步骤2,针对每一特征值,对特征值所具有的目标视频之前上线的视频的受欢迎程度进行统计,获得特征值对应的统计值。
在目标视频上线之前上线的视频是与目标视频具有同一特征值的视频,这些上线的视频与目标视频所共有的特征值可以是部分相同,也可以是全部相同。例如,这些上线的视频的导演与目标视频的导演为同一导演,这些上线的视频的部分演员与目标视频的演员为同一演员,这些上线的视频的编剧与目标视频的编剧为同一编剧。
鉴于,这些上线的视频的受欢迎程度是造成这些上线的视频所具有的特征值的受欢迎程度的主要原因,基于此,本实施例对这些上线的视频的受欢迎程度进行了统计,以确定用于表征特征值受欢迎程度的统计值,如,上线的视频为一部名称为“亲爱的热度的”的电视剧,则电视剧“亲爱的热爱的”的火爆,引起主演李现的受欢迎程度越来越高。
本发明的一个实施例中,步骤2的具体实施方式可以包括如下步骤A~步骤B:
步骤A,从目标视频之前上线的视频中获取在预设时间段内的视频。
上述预设时间段是在将预测目标视频播放时长的时间作为观测日之前的时间段,这个时间段可以为720天,也可以为360天。
示例性的,若目标视频的观测日为2019.10.12,则上述预设时间段为2019.10.12之前的360天,即2018.10.12~2019.10.12,本步骤就是从目标视频之前上线的视频中获取2018.10.12~2019.10.12内的视频。
步骤B,针对每一特征值,分别从预设数据库中查询所获取的视频与目标视频具有该特征值对应的用于反映该特征值的受欢迎程度的数据,并对该特征值对应的数据进行聚类,得到该特征值对应的统计值。
上述预设数据库可以包括百度指数、微博指数、大盘指数、前作数据、艺恩数据和豆瓣数据。
其中,原IP名是指上述上线的视频来源的作品,例如,电视剧《亲爱的热爱的》来源于《蜜汁炖鱿鱼》。
上述特征值可以为主演名、导演名、编剧名、原IP(Intellectual property,知识产权)名、原IP作者名和视频名。
其中,上述视频名是竞争对手在同一时间段可能播放的视频的名称。
具体的,分别从百度指数中获得特征值为主演名、导演名、编剧名、原IP名、原IP作者名分别对应的最大百度指数、最小百度指数或平均百指数据,作为第一数据。
从微博指数中获得特征值为主演名、导演名、编剧名、原IP名、原IP作者名分别对应的最大微博微指数、最小微博微指数或平均微博微指数,作为第二数据。
从前作数据中获得特征值为主演名、导演名、编剧名分别在720天内的视频对应的最大流量数据、最小流量数据和平均流量数据,作为第三数据。
从大盘数据中获得预设时间间隔分别为30天和7天内对应的最大爱奇艺平台整体流量日数据、收入日数据、电视剧频道流量日数据,最爱奇艺平台整体流量日数据、收入日数据、电视剧频道流量日数据,以及,平均爱奇艺平台整体流量日数据、收入日数据、电视剧频道流量日数据,作为第四数据。
从艺恩数据中获得观测日前180天演员、导演及编剧影响力最大日数据、最小日数据和平均日数据,作为第五数据。
从豆瓣数据中获得观测日原IP的评分及评论数,作为第六数据。
获得每一视频的制作耗资数据和制作耗时数据等,作为第七数据。
按照上述步骤,从上述微博指数、前作数据、大盘数据、从艺恩数据和豆瓣数据中获得上述视频名受欢迎程度的数据,作为第八数据。
从第一数据到第八数据中选取同一特征值所具有的数据,并对所选取的数据进行聚类,得到该特征值对应的统计值。
在对所选取的数据进行聚类进行聚类之前,可以对提取的数据按照如下步骤进行上述预处理:
具体的,首先,去除上述提取数据的噪声数据,并对去除噪声后的数据进行缺失值填充、四则运算、ln变换、离散化等初步处理,上述ln变换是对数据变换成底数为e的对数。
其次,计算初步处理的数据,得到新的数据。
步骤3,针对每一预设的播放时长预测模型,将所获得的统计值分别输入至上述播放时长预测模型中进行播放时长预测,获得多个预测值;其中,每一播放时长预测模型为:利用样本视频的统计值对该播放时长预测模型对应的初始回归模型进行训练后得到的、用于预测视频的播放时长的模型,各个播放时长预测模型对应的初始回归模型不同。
其中,播放时长预测模型的输入参数为步骤2所获得的统计值,播放时长预测模型的输出参数为多个用于表征目标视频的播放时长的预测值。
上述初始回归模型包括线性回归模型和非线性回归模型。其中,线性回归模型可以包括:线性回归、lasso(Least Absolute Shrinkage and Selection Operator,套索算法)回归、岭回归和偏最小二乘回归等,非线性回归模型可以包括决策回归树,随机森林,KNN(k-NearestNeighbor,k最邻近分类算法)等。
针对每一样本视频,该样本视频可以是单一视频,也可以是样本视频集,样本视频选取单一视频作为样本还是样本视频集作为样本,这与播放时长预测模型的预测目标有关系。
为了保证播放时长预测模型在预测视频的播放时长的准确度,本发明的一个实施例中,当预测目标为预测包含一个单视频的视频时,则样本视频均为单视频,当预测目标为预测一部包含多个单视频的样本视频集时,则样本视频均为包含多个单视频的样本视频集。
例如,当预测目标为包含一个单视频的电影时,则样本视频均为包含一个单视频的电影,相对利用包含多个单视频的视频集作为样本视频训练得到的播放时长预测模型而言,利用包含一个单视频的电影作为样本视频训练得到的播放时长预测模型,预测该电影的播放时长的准确度更高,同理,预测目标为包含多个单视频的电视剧时,相对利用包含单视频的视频作为样本视频训练得到的播放时长预测模型而言,利用包含多个单视频的电视剧作为样本视频训练得到的播放时长预测模型,预测该电视剧的播放时长的准确度更高。
上述样本视频的统计值为:针对每一样本视频的特征值,对该样本视频的特征值所具有的样本视频之前上线的视频的受欢迎程度进行统计获得的统计值。
上述样本视频的特征值为:样本视频针对预设特征项的特征值。
上述每一播放时长预测模型以样本视频的样本统计值为输入信息,对该播放时长预测模型对应的初始回归模型进行训练后得到的模型,具体实施方式将在后面实施例中详细描述,这里暂不详述。
步骤4,对所获得的多个预测值进行融合,得到上述目标视频的播放时长。
在通过步骤3中播放时长预测模型预测出表征目标视频的播放时长的预测值后,需对这些预测值进行融合,以获得一个作为目标视频的播放时长的预测值。
本发明的一个实施例中,计算所获得的多个预测值进行融合的均值,并将均值作为目标视频的播放时长,以提高预测得到的目标视频的播放时长的准确度。
本发明的另一个实施例中,对所述获得的多个预测值进行去噪处理,并从去噪处理后的预测值对应的播放时长模型中确定训练误差最小的播放时长模型,将训练误差最小的播放时长模型输出的预测值作为目标视频的播放时长,本实施例通过在对预测值进行去噪处理后,从处理后的播放时长模型中筛选训练误差最小的播放时长模型,能够进一步提高目标视频的播放时长的准确度。
由此可见,相对于现有技术而言,本上述各个实施例提供的方案中,能够在引进新的视频之前,预测到该视频的播放时长,从而根据预测得到的播放时长评估将要引进的视频是否对用户具有吸引力。
本发明的一个实施例中,如图2所示,步骤2的具体实现方式包括如下步骤21~步骤22:
步骤21,对上述特征值在不同时间窗口所具有的目标视频之前上线的视频的受欢迎程度进行统计,获得特征值在每一时间窗口对应的统计值;其中,时间窗口为:按照时间长度对当前时刻之前的时间进行划分得到的时间段。
各个时间窗口的时间长度可以相同,也可以不同,本实施例对此不进行限定。
示例性的,如目标视频之前上线的视频为2017年3月1日上映的一部电视剧,且当前时刻为2019年11月3日,则当前时刻到该电视剧的上映时间之间的时间段划分为近期时间窗口、中期时间窗口或远期时间窗口,也就是,对2019年11月3日到2017年3月1日之间的时间段进行划分,2019年11月3日到2019年1月1日,记为近期时间窗口,2019年1月1日到2018年1月1日,记为中期时间窗口,2018年1月1日到2017年3月1日,记为远期时间窗口。
步骤22,对获得的每一统计值进行融合,得到该特征值对应的统计值。
上述上线的视频在不同时间窗口所受欢迎程度可能不同,可见,各个时间窗口对应的权重也可能存在不同。
一般而言,针对上线的视频对应的各个时间窗口而言,近期时间窗口的权重大于中期时间窗口的权重,中期时间窗口的权重大于远期时间窗口的权重。
具体的,按照如下表达式对获得的每一统计值进行融合,得到该特征值对应的统计值。
所述表达式为
Figure BDA0002310596970000131
其中,F为融合后的统计值,n为时间窗口序号,当n=1时,λn为短期时间窗口的权重,当n=2时,λn表示中期时间窗口的权重,当n=3时,λn表示长期时间窗口的权重,αm为第m个统计值,m为统计值序号。
可见,本实施例提供的方案中,在统计每一特征值的统计值时,考虑了上述特征值在不同时间窗口所具有的目标视频之前上线的视频的受欢迎程度,并对统计得到的各个特征值在每一时间窗口的统计值进行融合,得到该特征值对应的统计值,使得融合后的特征值对应的统计值更能够准确地反映出在目标视频之前上线的视频受用户的欢迎程度。
本发明的一个实施例中,如图3所示,步骤22的实现方式具体可以包括如下步骤221~步骤224:
步骤221,计算所获得的预测值的中值和表征各个预测值的离散程度的离散值。
本发明的一个实施例中,可以按照如下方式确定上述所获得的各个预测值的中值,具体为:按照大小对所获得的各个预测值进行排序,当所获得的预测值的数量为奇数时,将排序后居于中间位置的预测值作为所获得的预测值的中值,当所获得的预测值的数量为偶数时,将排序后居于中间位置的两个预测值的均值作为所获得的预测值的中值。
本发明的一个实施例中,可以按照公式确定所获得的预测值的离散值,上述公式
Figure BDA0002310596970000132
其中,A为离散值,U为所获得的预测值的数量,i为预测值所属的序号,r为所获得的预测值的均值,xi的值为所获得的预测值中序号为i的预测值。
由于上述中值以及离散值为所获得的预测值的统计量,能够反映出所获得的预测值之间的统计关系,例如,一个预测值接近于所获得的预测值的聚集中心、一个预测值远离于上述聚集中心等,因此,借助上述中值以及离散值可以确定出所获得的预测值中与其他预测值之间差异较大的预测值。
步骤222,利用上述中值和离散值,计算目标视频对应的离群值。
其中,上述离群值是指所获得的预测值的取值与其他预测值差异较大的预测值。
本发明的一个实施例中,可以通过如下步骤2221~步骤2223计算待预测视频集对应的离群值:
步骤2221,按照以下第一表达式计算下限值。
第一表达式为:P1=N-f·A。
其中,P1表示上述下限值,N表示所获得的预测值的中值,A表示所获得的预测值的离散值,f表示倍数。
步骤2222,按照第二表达式计算上限值。
第二表达式为:P2=N+f·A。
其中,P2表示上述上限值。
具体的,上述f可以是预先设定的,其取值为3或4。
步骤2223,将大于上限值P2或小于下限值P1的范围内的预测值,确定离群值。
这样按照上述第一表达式和第二表达式分别计算上限值和下限值后,能够较为准确的确定出目标视频对应的离群值。
步骤223,从所获得的预测值中,剔除所述离群值。
步骤224,获得剩余预测值对应播放时长模型的训练误差,并将上述训练误差最小对应的播放时长模型预测得到的预测值作为目标视频的播放时长。
基于上述步骤2223,上述剩余预测值可以为大于等于P1以及小于或等于P2的预测值。
可见,本实施例提供的方案中,从所获得的预测值中剔除离群值,也就是,剔除了所获得的预测值中的噪声,剩余的预测值能够更加真实的反映目标视频的播放时长。因此,应用本实施例提供的方案预测出的目标视频的播放时长,能够更加真实和准确反映目标视频的播放时长。
本发明的一个实施例中,通过步骤31~步骤34训练得到每一播放时长预测模型:
步骤31,获取已上线的第一样本视频针对预设特征项的特征值。
其中,第一样本视频是全部均已经上线视频的样本视频集合,例如:上述样本视频集合可以是从某一视频网站上获取大于预设数量的电视剧,该预设数量可以为200。
步骤32,针对每一特征值,对特征值所具有的第一样本视频之前上线的视频的受欢迎程度进行统计,获得第一样本视频对应的统计值。
在第一样本视频上线之前上线的视频是与第一样本视频具有同一特征值的视频,这些上线的视频与第一样本视频所共有的特征值可以是部分相同,也可以是全部相同。例如,这些上线的视频与第一样本视频可以为同一导演的视频,也可以与第一样本视频中的某一演员为同一演员的视频,还可以与第一样本视频为同一编剧的视频。
示例性的,当第一样本视频包括名称为“包青天”的电视剧,样本特征值为演员张三,第一样本视频之前上线的视频包括张三之前曾经演过的视频。
本步骤可以将第一样本视频包括的样本视频作为目标视频,按照步骤A~B的实现方式获得第一样本视频对应的统计值。
步骤33,获得第一样本视频的已播放时长。
鉴于第一样本视频中每一样本视频均为已经上线视频,基于此,可以直接获得每一样本视频的已播放时长。
步骤34,利用交叉验证法,以所获得的第一样本视频对应的统计值为播放时长预测模型对应的初始回归模型的输入信息,以已播放时长为训练基准,对初始回归模型进行训练,得到播放时长预测模型。
其中,上述交叉验证法的基本思想是对第一样本视频中的样本视频进行分组,一部分做为训练样本,另一部分做为验证样本,首先用训练样本对每一播放时长预测模型对应的初始回归模型进行训练,再利用验证样本来测试训练得到的模型,以此来做为评价训练后的初始回归模型的性能指标。
上述交叉验证法包括K折交叉验证和留一交叉验证法。
以留一交叉验证法为例,设第一样本视频包括5个样本视频,任选4个样本视频作为训练样本,1个样本视频作为测试样本,将获得的上述训练样本的对应的统计值输入至初始回归模型中,得到4个样本视频的播放时长的预测时长,并利用4个训练样本对应的已播放时长即训练基准,对初始回归模型进行修正,利用测试样本对修正后的初始回归模型进行测试,得到预测值,利用测试样本的测试值和该测试样本的已播放时长,按照如下公式计算该初始回归模型的训练误差,将测试样本替换训练样本中的1个训练样本,将替换出的训练样本作为测试样本,重复上述训练步骤和测试步骤,一直持续到每个样本均被作为一次测试样本为止。
上述训练误差的计算公式为:训练误差为:
Figure BDA0002310596970000161
其中,Ls为第s次测试样本的预测时长、Ks为第s次测试样本的训练基准,s为测试样本次数序号,k为作为测试样本的总次数。
可见,本实施例提供的方案中,每一播放时长预测模型是利用第一样本视频对应的样本统计值对该播放时长预测模型对应的初始回归模型进行训练后得到的、用于预测视频的播放时长的模型,每一播放时长预测模型对应的初始回归模型均不同,且所使用的第一样本视频信息既丰富又全面,从而利用训练获得的播放时长预测模型能够准确地预测视频的播放时长。
本发明的一个实施例中,步骤32的具体实现方式包括步骤321~步骤322:
步骤321,对特征值在不同时间窗口所具有的第一样本视频之前上线的视频的受欢迎程度进行统计,获得第一样本视频在每一时间窗口对应的统计值。
步骤322,对获得的第一样本视频对应的每一统计值进行融合,得到第一样本视频对应的统计值。
可见,本实施例提供的方案中,在统计第一样本视频对应的每一统计值时,考虑了上述特征值在不同时间窗口所具有的第一样本视频之前上线的视频的受欢迎程度,并对统计得到的各个特征值在每一时间窗口的统计值进行融合,得到该特征值对应的统计值,使得获得的特征值对应的统计值更能够准确地反映出在目标视频之前上线的视频受用户的欢迎程度。
本发明的一个实施例中,通过以下方式确定上述预设特征项:
获得目标视频的初选特征项,如果所初选特征项的数量大于第二样本视频的数量时,利用向前逐步选择技术,从初选特征项中筛选特征项。
初选特征项为用于表征能够影响目标视频的受欢迎程度的对象。这些对象可以是从视频集信息相关指标中提取的对象,如类型、系列、题材、集数、集时长、网络平台、电视台情况和竞手情况等等,还可以是从视频集排播信息相关指标,如开播时间、完结时间、更新天、更新周、首周会员集、首周非会员集、会员提前集数、周更新转免天和周更新转免集等等。
本发明的一种事实例中,上述利用向前逐步选择技术,从初选特征项中筛选特征项的实现方式可以包括如下步骤C~步骤F:
步骤C,获得第三样本视频。
其中,第三样本视频是全部均已经上线视频的样本视频集合,例如:上述样本视频集合可以是从某一视频网站上获取大于预设数量的电视剧,该预设数量可以为120。
上述第三样本视频可以与第一样本视频相同的样本视频,也可以是与第一样本视频不同的样本视频。
步骤D,获取第三样本视频针对特征项集合中每一特征项的特征值。
上述特征项集合包括了预设特征项。也就是,特征项集合中的特征项数量大于或等于预设特征项数量。
步骤E,针对每一特征值,对特征值所具有的第三样本视频之前上线的视频的受欢迎程度进行统计,获得上述第三样本视频对应的统计值。
上述第三样本视频之前上线的视频是与第三样本视频中的样本视频相关的视频,这些视频与样本视频可以为同一导演的视频,也可以与样本视频中的某一演员为同一演员的视频,还可以与样本视频为同一编剧的视频。
步骤F,从第三样本视频对应的统计值中确定出使预设的时长预测模型的拟合优度达到最高的统计值,并将所确定的统计值对应的特征项作为预测视频播放时长的特征项;其中,时长预测模型为:利用第二样本视频的统计值和第二样本视频已播放时长进行线性拟合得到的、用于预测视频的播放时长的模型。
上述第二样本视频的统计值为:针对每一特征值,对第二样本视频之前上线的视频的受欢迎程度进行统计,获得的第二样本视频的特征值对应的统计值。
本发明的一个实施例中,上述第二样本视频的统计值具体为:针对每一特征吸,对第二样本视频之前上线的视频在不同时间窗口的受欢迎程度进行统计,获得的第二样本视频的特征值对应的统计值。以通过统计第二样本视频之前上线的视频在不同时间窗口的受欢迎程度,提高第二样本视频对应的统计值的准确性。
上述第二样本视频的特征值为:第二样本视频中针对特征项集合中每一特征项的特征值。
上述拟合优度是时长预测模型预测出的预测值对已播放时长的拟合程度。度量拟合优度的统计量是可决系数(亦称确定系数)R2。R2最大值为1。R2的值越接近1,说明预测值对已播放时长的拟合程度越好;反之,R2的值越小,说明预测值对已播放时长的拟合程度越差。
本发明的一个实施例中,上述第二样本视频可以为与上述第三样本视频和上述第一样本视频均不同的视频,相对于上述第二样本视频为与上述第三样本视频和上述第一样本视频中任一样本视频均相同的视频而言,应用本实施例的方案获得的时长预测模型更加能够提高预测目标视频的播放时长的准确性。
示例性的,设特征项集合中包括的特征项分别为导演、编剧、演员和视频个数,先利用样本视频的导演对应的统计值输入至时长预测模型中,得到样本视频的预测值,利用样本视频的预测值和已播放时长,计算样本视频的第一拟合优度,在利用导演和编剧分别对应的统计值输入至时长预测模型中,得到样本视频的预测值,并利用样本视频的预测值和已播放时长,计算样本视频的第二拟合优度,如果拟合优度一直呈现上升趋势,则在利用导演、编剧和演员分别对应的统计值输入至时长预测模型中,得到样本视频的预测值,并利用样本视频的预测值和已播放时长,计算样本视频的第三拟合优度,如果第三拟合优度大于第二拟合优度,则继续利用导演、编剧、演员和视频个数分别对应的样本统计值输入至时长预测模型中,得到样本视频的预测值,并利用样本视频的预测值和已播放时长,计算样本视频的第四拟合优度,如果第四拟合优度小于第三拟合优度,则将第三拟合优度对应的特征项,即导演、编剧和演员作为预测播放时长的特征项。
可见,本实施例提供的方案中,在选取预设特征项时,是从第三样本视频对应的统计值中确定出使时长预测模型的拟合优度达到最高的统计值,并将所确定的统计值对应的特征项作为预测视频播放时长的特征项,且在获得时长预测模型时所使用的第二样本视频的信息既丰富又全面,进而使得应用本实施例获得的预设特征项,能够进一步提高预测视频播放时长的准确性。
本发明的一个实施例中,如图4所示,在步骤3和步骤4之间,还包括步骤5~步骤6:
步骤5,获得每一播放时长预测模型的训练误差,其中,训练误差为:训练过程中得到的预测时长与训练基准之间的相对误差的绝对值的平均值。
上述相对误差为预测时长与训练基准之间的差与训练基准的比值。
步骤6,剔除该训练误差大于预设阈值的播放时长预测模型。
上述预设阈值可以为100%。当一个播放时长预测模型的训练误差大于100%,则认为该播放时长预测模型预测一个视频的播放时长的误差较大,也就是,准确率较低。
可见,在本实施例提供的方案中,通过剔除训练误差大于预设阈值的播放时长预测模型,使得余下的播放时长预测模型能够在误差较低的情况下获得一个视频的播放时长,能够提高预测视频的播放时长的准确率。
基于上述目标视频播放时长预测方法的描述,本发明实施例提供一个具体示例进行详细描述,该示例为预测电视剧的播放时长,设该电视剧现未上线,且初始回归模型分别为:线性回归、lasso(Least Absolute Shrinkage and Selection Operato,套索算法)回归、岭回归和偏最小二乘回归、决策回归树、随机森林和KNN,如图5所示,具体方法为:
首先,按照如下步骤进行选取上述特性项集合,得到预测播放时长的预设特征项。
第一步,从某一视频网站上获取已经上线的120部电视剧作为样本。
第二步,针对每一部已上线电视剧,获取该已上线电视剧针对特征项集合中包括导演、编剧、演员和视频个数等特征项的特征值,如,导演的特征值为导演的姓名,编剧的特征值为编剧的姓名,演员的特征值为演员的姓名,视频个数为该上线电视剧中包含单个视频的数量。
第三步,针对每一特征值,对特征值所具有的该已上线电视剧之前上线的视频的受欢迎程度进行统计,获得该上线的电视剧对应的统计值。
第四步,按照如下的实现方式获取预设特征项:特征项集合包括的特征项分别为导演、编剧、演员和视频个数等,先利用已上线电视剧的导演对应的统计值输入至时长预测模型中,得到已上线的电视剧用于预测已上线电视剧的播放时长的预测值,利用已上线电视剧的预测值和已播放时长,计算已上线电视剧的第一拟合优度,在利用导演和编剧分别对应的统计值输入至时长预测模型中,得到已上线电视剧的预测值,并利用已上线电视剧的预测值和已播放时长,计算已上线电视剧的第二拟合优度,如果第二拟合优度一直呈现上升趋势,则在利用导演、编剧和演员分别对应的统计值输入至时长预测模型中,得到已上线电视剧的预测值,并利用已上线电视剧的预测值和已播放时长,计算已上线电视剧的第三拟合优度,如果第三拟合优度大于第二拟合优度,则继续利用导演、编剧、演员和视频个数分别对应的统计值输入至时长预测模型中,得到已上线电视剧的预测值,并利用已上线电视剧的预测值和已播放时长,计算已上线电视剧的第四拟合优度,如果第四拟合优度小于第三拟合优度,则将第三拟合优度对应的特征项,即导演、编剧和演员作为预测播放时长的预设特征项,同理,将特征项集合包括的特征项均按照上述方式,从已上线的电视剧对应的统计值中确定出使预设的时长预测模型的拟合优度达到最高的统计值,并将所确定的样本统计值对应的特征项作为预设特征项。
其次,对上述每一初始回归模型按照如下步骤进行训练,得到多个播放时长预测模型。
第五步,从某一视频网站上获取与上述120部电视剧完全不同的已经上线的200部电视剧作为样本。
第六步,针对样本中每一部已上线电视剧,获取该已上线电视剧针对特征项集合中包括导演、编剧、演员和视频个数等特征项的特征值,如,导演的特征值为导演的姓名,编剧的特征值为编剧的姓名,演员的特征值为演员的姓名,视频个数为该上线电视剧中包含单个视频的数量。
第七步,针对每一特征值,对该特征值所具有的已上线电视剧之前上线的视频的受欢迎程度进行统计,获得该已上线电视剧对应的统计值。
第八步,获得上述200部已上线电视剧中每一电视剧的播放时长。
第九步,从上述200部已上线电视剧中任选199部电视剧作为训练样本,1部电视剧作为测试样本,将获得的上述训练样本的对应的统计值输入至初始回归模型中,得到199部电视剧的播放时长的预测时长,并利用199部训练样本对应的已播放时长即训练基准,对初始回归模型进行修正,利用测试样本对修正后的初始回归模型进行测试,得到预测值,利用测试样本的测试值和该测试样本的已播放时长,按照公式
Figure BDA0002310596970000221
计算该初始回归模型的训练误差,将测试样本替换训练样本中的1个训练样本,将替换出的训练样本作为测试样本,重复上述训练步骤和测试步骤,一直持续到每部电视剧均被作为一次测试样本为止,最终按照上述方式对初始回归模型进行训练,得到播放时长预测模型。
第十步,按照公式
Figure BDA0002310596970000222
获得每一播放时长预测模型的训练误差,得到如图7中分别对lasso回归、岭回归、……、决策回归树和随机森林进行训练的播放时长预测模型。
第十一步,剔除该训练误差大于100%的播放时长预测模型。
最后,在训练后得到播放时长预测模型后,对电视剧按照如下步骤预测该电视剧的播放时长,具体包括如下步骤:
第十二步,获取该电视剧针对预设特征项为导演、编剧、演员和原IP等的特征值,这些特征值为导演名、编剧名、主演名和原IP名等。
第十三步,针对上述的导演名、编剧名、主演名和原IP名,分别从百度指数中获得特征值为主演名、导演名、编剧名、原IP名分别对应的最大百度指数、最小百度指数或平均百指数据,作为第一数据。
从微博指数中获得特征值为导演名、编剧名、主演名和原IP名分别对应的最大微博微指数、最小微博微指数或平均微博微指数,作为第二数据。
从前作数据中获得特征值为主演名、导演名、编剧名分别在720天内的视频对应的最大流量数据、最小流量数据和平均流量数据,作为第三数据。
从大盘数据中获得预设时间间隔分别为30天和7天内对应的最大爱奇艺平台整体流量日数据、收入日数据、电视剧频道流量日数据,最爱奇艺平台整体流量日数据、收入日数据、电视剧频道流量日数据,以及,平均爱奇艺平台整体流量日数据、收入日数据、电视剧频道流量日数据,作为第四数据。
从艺恩数据中获得观测日前180天演员、导演及编剧影响力最大日数据、最小日数据和平均日数据,作为第五数据。
从豆瓣数据中获得观测日原IP的评分及评论数,作为第六数据。
获得每一视频的制作耗资数据和制作耗时数据等,作为第七数据。
从第一数据到第七数据中选取同一特征值所具有的数据,并对所选取的数据进行聚类,得到该特征值对应的统计值。
第十四步,将所获得的统计值分别输入至分别对线性回归、lasso回归、岭回归和偏最小二乘回归、决策回归树、随机森林和KNN训练后获得的播放时长预测模型中进行播放时长预测,获得多个预测值。
第十五步,按照P1=N-f·A计算下限值。
第十六步,按照P2=N+f·A计算上限值。
第十七步,将大于上限值P2或小于下限值P1的范围内的预测值,确定离群值。
第十八步,从所获得的预测值中,剔除离群值。
第十九步,获得剩余播放时长对应播放时长模型的训练误差,并将训练误差最小对应的播放时长模型预测得到的播放时长作为该电视剧的播放时长。
与上述播放时长预测相对应,本发明实施例还提供了播放时长预测装置。
参加图6,本发明实施例提供一种播放时长预测的结构示意图,具体可以包括:
特征值获取模块601,用于获取目标视频针对预设特征项的特征值。
统计值获得模块602,用于针对每一上述特征值,对上述特征值所具有的上述目标视频之前上线的视频的受欢迎程度进行统计,获得上述特征值对应的统计值。
预测值获得模块603,用于针对每一预设的播放时长预测模型,将所获得的统计值分别输入至上述播放时长预测模型中进行播放时长预测,获得多个预测值;其中,每一播放时长预测模型为:利用样本视频的统计值对该播放时长预测模型对应的初始回归模型进行训练后得到的、用于预测视频的播放时长的模型,各个播放时长预测模型对应的初始回归模型不同。
融合模块604,用于对所获得的多个预测值进行融合,得到上述目标视频的播放时长。
本发明的一个实施例中,统计值获得模块602可以包括:
统计值获得子模块,用于对上述特征值在不同时间窗口所具有的上述目标视频之前上线的视频的受欢迎程度进行统计,获得上述特征值在每一上述时间窗口对应的统计值;其中,上述时间窗口为:按照时间长度对当前时刻之前的时间进行划分得到的时间段。
统计值融合子模块,用于对获得的每一统计值进行融合,得到上述特征值对应的统计值。
本发明的一个实施例中,如图7所示,上述融合模块604可以包括:
离散值计算子模块6041,用于计算所获得的预测值的中值和表征各个预测值的离散程度的离散值;
离群值计算子模块6042,用于利用上述中值和离散值,计算上述目标视频对应的离群值;
离群值剔除子模块6043,用于从所获得的预测值中,剔除上述离群值;
播放时长获得子模块6044,用于获得剩余预测值对应播放时长模型的训练误差,并将上述训练误差最小对应的播放时长模型预测得到的预测值作为上述目标视频的播放时长。
本发明的一个实施例中,上述装置还包括:模型预测模块,用于训练得到每一播放时长预测模型;
其中,上述模型预测模块,具体用于:
获取已上线的第一样本视频针对预设特征项的特征值;
针对每一上述特征值,对上述特征值所具有的上述第一样本视频之前上线的视频的受欢迎程度进行统计,获得上述第一样本视频对应的统计值;
获得上述第一样本视频的已播放时长;
利用交叉验证法,以所获得的第一样本视频对应的统计值为播放时长预测模型对应的初始回归模型的输入信息,以上述已播放时长为训练基准,对初始回归模型进行训练,得到播放时长预测模型。
本发明的一个实施例中,上述装置还可以包括:
预设特征项确定模块,用于获得上述目标视频的初选特征项,如果所初选特征项的数量大于第二样本视频的数量时,利用向前逐步选择技术,从上述初选特征项中筛选上述特征项。
本发明的一个实施例中,上述装置还可以包括:
平均值获得模块,用于获得每一播放时长预测模型的训练误差,其中,上述训练误差为:训练过程中得到的预测时长与上述训练基准之间的相对误差的绝对值的平均值;
剔除模块,用于剔除上述训练误差大于预设阈值的播放时长预测模型。
由此可见,本发明实施例提供的装置在对目标视频的播放时长进行预测时,将目标视频针对预设特征项的特征值的统计值,分别输入至多个预设的播放时长预测模型中进行播放时长预测,获得多个预测值,并对所获得的多个预测值进行融合,得到目标视频的播放时长。应用本发明实施例提供的方案能够在引进新的视频之前,预测到该视频的播放时长,从而根据预测得到的播放时长评估将要引进的视频是否对用户具有吸引力。
本发明实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现本发明实施例提供的一种播放时长预测方法。
具体的,上述一种播放时长预测方法,包括:
获取目标视频针对预设特征项的特征值;
针对每一特征值,对特征值所具有的目标视频之前上线的视频的受欢迎程度进行统计,获得特征值对应的统计值;
针对每一预设的播放时长预测模型,将所获得的统计值分别输入至播放时长预测模型中进行播放时长预测,获得多个预测值;其中,每一播放时长预测模型为:利用样本视频的统计值对该播放时长预测模型对应的初始回归模型进行训练后得到的、用于预测视频的播放时长的模型,各个播放时长预测模型对应的初始回归模型不同;
对所获得的多个预测值进行融合,得到目标视频的播放时长。
由此可见,执行本实施例提供的电子设备,通过在对目标视频的播放时长进行预测时,将目标视频针对预设特征项的特征值的统计值,分别输入至多个预设的播放时长预测模型中进行播放时长预测,获得多个预测值,并对所获得的多个预测值进行融合,得到目标视频的播放时长。应用本发明实施例提供的方案能够在引进新的视频之前,预测到该视频的播放时长,从而根据预测得到的播放时长评估将要引进的视频是否对用户具有吸引力。
上述的相关内容播放时长预测方法的实施方式与前述方法实施例部分提供的播放时长预测方式相同,这里不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的播放时长预测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法、装置、电子设备和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (13)

1.一种播放时长预测方法,其特征在于,所述方法包括:
获取目标视频针对预设特征项的特征值;
针对每一所述特征值,对所述特征值所具有的所述目标视频之前上线的视频的受欢迎程度进行统计,获得所述特征值对应的统计值;
针对每一预设的播放时长预测模型,将所获得的统计值分别输入至所述播放时长预测模型中进行播放时长预测,获得多个预测值;其中,每一播放时长预测模型为:利用样本视频的统计值对该播放时长预测模型对应的初始回归模型进行训练后得到的、用于预测视频的播放时长的模型,各个播放时长预测模型对应的初始回归模型不同;
对所获得的多个预测值进行融合,得到所述目标视频的播放时长。
2.如权利要求1所述的方法,其特征在于,所述对所述特征值所具有的所述目标视频之前上线的视频的受欢迎程度进行统计,获得所述特征值对应的统计值,包括:
对所述特征值在不同时间窗口所具有的所述目标视频之前上线的视频的受欢迎程度进行统计,获得所述特征值在每一所述时间窗口对应的统计值;其中,所述时间窗口为:按照时间长度对当前时刻之前的时间进行划分得到的时间段;
对获得的每一统计值进行融合,得到所述特征值对应的统计值。
3.如权利要求2所述的方法,其特征在于,所述对所获得的多个预测值进行融合,得到所述目标视频的播放时长,包括:
计算所获得的预测值的中值和表征各个预测值的离散程度的离散值;
利用所述中值和离散值,计算所述目标视频对应的离群值;
从所获得的预测值中,剔除所述离群值;
获得剩余预测值对应播放时长模型的训练误差,并将所述训练误差最小对应的播放时长模型预测得到的预测值作为所述目标视频的播放时长。
4.如权利要求2所述的方法,其特征在于,通过以下方式训练得到每一播放时长预测模型:
获取已上线的第一样本视频针对预设特征项的特征值;
针对每一所述特征值,对所述特征值所具有的所述第一样本视频之前上线的视频的受欢迎程度进行统计,获得所述第一样本视频对应的统计值;
获得所述第一样本视频的已播放时长;
利用交叉验证法,以所获得的第一样本视频对应的统计值为播放时长预测模型对应的初始回归模型的输入信息,以所述已播放时长为训练基准,对初始回归模型进行训练,得到播放时长预测模型。
5.如权利要求1或4所述的方法,其特征在于,通过以下方式确定所述预设特征项:
获得所述目标视频的初选特征项,如果所初选特征项的数量大于第二样本视频的数量时,利用向前逐步选择技术,从所述初选特征项中筛选所述特征项。
6.如权利要求5所述的方法,其特征在于,在得到各个播放时长预测模型之后,还包括:
获得每一播放时长预测模型的训练误差,其中,所述训练误差为:训练过程中得到的预测时长与所述训练基准之间的相对误差的绝对值的平均值;
剔除所述训练误差大于预设阈值的播放时长预测模型。
7.一种播放时长预测装置,其特征在于,所述装置包括:
特征值获取模块,用于获取目标视频针对预设特征项的特征值;
统计值获得模块,用于针对每一所述特征值,对所述特征值所具有的所述目标视频之前上线的视频的受欢迎程度进行统计,获得所述特征值对应的统计值;
预测值获得模块,用于针对每一预设的播放时长预测模型,将所获得的统计值分别输入至所述播放时长预测模型中进行播放时长预测,获得多个预测值;其中,每一播放时长预测模型为:利用样本视频的统计值对该播放时长预测模型对应的初始回归模型进行训练后得到的、用于预测视频的播放时长的模型,各个播放时长预测模型对应的初始回归模型不同;
融合模块,用于对所获得的多个预测值进行融合,得到所述目标视频的播放时长。
8.如权利要求7所述的装置,其特征在于,所述统计值获得模块包括:
统计值获得子模块,用于对所述特征值在不同时间窗口所具有的所述目标视频之前上线的视频的受欢迎程度进行统计,获得所述特征值在每一所述时间窗口对应的统计值;其中,所述时间窗口为:按照时间长度对当前时刻之前的时间进行划分得到的时间段;
统计值融合子模块,用于对获得的每一统计值进行融合,得到所述特征值对应的统计值。
9.如权利要求8所述的装置,其特征在于,所述融合模块,包括:
离散值计算子模块,用于计算所获得的预测值的中值和表征各个预测值的离散程度的离散值;
离群值计算子模块,用于利用所述中值和离散值,计算所述目标视频对应的离群值;
离群值剔除子模块,用于从所获得的预测值中,剔除所述离群值;
播放时长获得子模块,用于获得剩余预测值对应播放时长模型的训练误差,并将所述训练误差最小对应的播放时长模型预测得到的预测值作为所述目标视频的播放时长。
10.如权利要求8所述的装置,其特征在于,所述装置还包括:模型预测模块,用于训练得到每一播放时长预测模型;
其中,所述模型预测模块,具体用于:
获取已上线的第一样本视频针对预设特征项的特征值;
针对每一所述特征值,对所述特征值所具有的所述第一样本视频之前上线的视频的受欢迎程度进行统计,获得所述第一样本视频对应的统计值;
获得所述第一样本视频的已播放时长;
利用交叉验证法,以所获得的第一样本视频对应的统计值为播放时长预测模型对应的初始回归模型的输入信息,以所述已播放时长为训练基准,对初始回归模型进行训练,得到播放时长预测模型。
11.如权利要求7或10所述的装置,其特征在于,所述装置还包括:
预设特征项确定模块,用于获得所述目标视频的初选特征项,如果所初选特征项的数量大于第二样本视频的数量时,利用向前逐步选择技术,从所述初选特征项中筛选所述特征项。
12.如权利要求11所述的装置,其特征在于,所述装置还包括:
平均值获得模块,用于获得每一播放时长预测模型的训练误差,其中,所述训练误差为:训练过程中得到的预测时长与所述训练基准之间的相对误差的绝对值的平均值;
剔除模块,用于剔除所述训练误差大于预设阈值的播放时长预测模型。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
CN201911257186.8A 2019-12-10 2019-12-10 一种播放时长预测方法及装置 Active CN110933492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911257186.8A CN110933492B (zh) 2019-12-10 2019-12-10 一种播放时长预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911257186.8A CN110933492B (zh) 2019-12-10 2019-12-10 一种播放时长预测方法及装置

Publications (2)

Publication Number Publication Date
CN110933492A CN110933492A (zh) 2020-03-27
CN110933492B true CN110933492B (zh) 2022-03-04

Family

ID=69859377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911257186.8A Active CN110933492B (zh) 2019-12-10 2019-12-10 一种播放时长预测方法及装置

Country Status (1)

Country Link
CN (1) CN110933492B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639111A (zh) * 2020-06-09 2020-09-08 天津大学 面向调水工程的多源监测数据深度挖掘和智能分析方法
CN112507163B (zh) * 2020-12-02 2023-07-21 北京奇艺世纪科技有限公司 时长预测模型训练方法、推荐方法、装置、设备及介质
CN113132803B (zh) * 2021-04-23 2022-09-16 Oppo广东移动通信有限公司 视频观看时长预测方法、装置、存储介质以及终端
CN113411644B (zh) * 2021-05-28 2022-10-04 北京达佳互联信息技术有限公司 样本数据的处理方法、装置、服务器及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1166140A (ja) * 1997-08-27 1999-03-09 Nippon Telegr & Teleph Corp <Ntt> ネットワーク自動設計方法及び装置、並びに、ネットワーク自動設計プログラムを格納した記憶媒体
CN106604137A (zh) * 2016-12-29 2017-04-26 Tcl集团股份有限公司 一种预测视频观看时长的方法及装置
CN109451352A (zh) * 2018-12-11 2019-03-08 北京奇艺世纪科技有限公司 一种视频播放流量预测方法及装置
CN109522470A (zh) * 2018-11-06 2019-03-26 汪浩 一种视频热度预测方法、装置、设备及存储介质
CN109587515A (zh) * 2018-12-11 2019-04-05 北京奇艺世纪科技有限公司 一种视频播放流量预测方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019939A (zh) * 2017-12-28 2019-07-16 Tcl集团股份有限公司 视频热度预测方法、装置、终端设备及介质
CN108898415A (zh) * 2018-05-29 2018-11-27 北京奇艺世纪科技有限公司 一种视频剧集的流量相关指标预测方法及装置
CN110222231B (zh) * 2019-06-11 2022-10-18 成都澳海川科技有限公司 一种视频片段的热度预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1166140A (ja) * 1997-08-27 1999-03-09 Nippon Telegr & Teleph Corp <Ntt> ネットワーク自動設計方法及び装置、並びに、ネットワーク自動設計プログラムを格納した記憶媒体
CN106604137A (zh) * 2016-12-29 2017-04-26 Tcl集团股份有限公司 一种预测视频观看时长的方法及装置
CN109522470A (zh) * 2018-11-06 2019-03-26 汪浩 一种视频热度预测方法、装置、设备及存储介质
CN109451352A (zh) * 2018-12-11 2019-03-08 北京奇艺世纪科技有限公司 一种视频播放流量预测方法及装置
CN109587515A (zh) * 2018-12-11 2019-04-05 北京奇艺世纪科技有限公司 一种视频播放流量预测方法及装置

Also Published As

Publication number Publication date
CN110933492A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110933492B (zh) 一种播放时长预测方法及装置
WO2021042826A1 (zh) 一种视频播放完整度预测方法及装置
US10860860B1 (en) Matching videos to titles using artificial intelligence
CN108304512B (zh) 一种视频搜索引擎粗排序方法、装置及电子设备
US9779356B2 (en) Method of machine learning classes of search queries
CN109189990B (zh) 一种搜索词的生成方法、装置及电子设备
CN108810642B (zh) 一种弹幕显示方法、装置及电子设备
CN110909205A (zh) 一种视频封面确定方法、装置、电子设备及可读存储介质
CN109862397A (zh) 一种视频分析方法、装置、设备和存储介质
JP2005521144A (ja) 複数の推薦スコアを用いる推薦システム
CN111062527B (zh) 一种视频集流量预测方法及装置
CN110991187A (zh) 一种实体链接的方法、装置、电子设备及介质
CN110991476A (zh) 决策分类器的训练、音视频的推荐方法、装置及存储介质
CN108335131B (zh) 一种预估用户年龄段的方法、装置及电子设备
CN113656681B (zh) 一种对象评价方法、装置、设备及存储介质
CN111125429A (zh) 一种视频推送方法、装置和计算机可读存储介质
CN112464100A (zh) 信息推荐模型训练方法、信息推荐方法、装置及设备
US8688716B1 (en) Recommending pairwise video comparisons to improve ranking
CN116958320A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN109063080B (zh) 一种视频推荐方法及装置
US20210200799A1 (en) System and method for improved content discovery
CN109740621B (zh) 一种视频分类方法、装置及设备
CN111639696A (zh) 一种用户分类方法及装置
CN111314790A (zh) 一种视频播放记录的排序方法、装置和电子设备
Yeung et al. A framework of interpretable match results prediction in football with FIFA ratings and team formation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant