CN112261448A

CN112261448A - 视频播放时长的确定方法、装置、设备及介质

Info

Publication number: CN112261448A
Application number: CN202011074691.1A
Authority: CN
Inventors: 郑多如; 彭冲
Original assignee: Hanhai Information Technology Shanghai Co Ltd
Current assignee: Hanhai Information Technology Shanghai Co Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-01-22

Abstract

本申请公开了一种视频播放时长的确定方法，其特征在于，所述方法包括：获取输入视频；提取所述输入视频的视频特征为特征张量；将所述特征张量输入时长预测模型，输出所述输入视频的预测视频播放时长分布，所述预测视频播放时长分布包括与n个视频播放完成度对应的预测概率；根据与所述n个视频播放完成度对应的预测概率，计算得到所述输入视频的预测视频播放时长。该方法无需使用历史播放次数，只需在提取输入视频的特征张量后，将特征张量输入时长预测模型即可，在历史播放次数不足的情况下，本申请方案仍能获得准确的预测视频播放时长。

Description

视频播放时长的确定方法、装置、设备及介质

技术领域

本申请涉及视频播放领域，特别涉及一种视频播放时长的确定方法、装置、设备及介质。

背景技术

在视频推送的场景中，服务器向多个终端推送视频。每个终端的用户可以观看或不观看视频，每个用户观看视频时的视频播放时长也不同。

相关技术中，服务器会统计每个视频的视频平均播放时长。比如：对于视频A存在120个用户的历史播放记录，将120个用户的播放记录中的视频播放时长求平均，得到该视频A的视频平均播放时长。

但是上述技术需要视频的历史播放次数足够多，当播放次数不够多时，视频平均播放时长的准确率很差。

发明内容

本申请实施例提供了一种视频播放时长的确定方法、装置及介质，不需要输入视频有大量的历史播放次数，就能获得较高准确率的视频平均播放时长。所述技术方案如下：

根据本申请的一个方面，提供了一种视频播放时长的确定方法，所述方法包括：

获取输入视频；

提取所述输入视频的视频特征为特征张量；

将所述特征张量输入时长预测模型，输出所述输入视频的预测视频播放时长分布，所述预测视频播放时长分布包括与n个视频播放完成度对应的预测概率；

根据与所述n个视频播放完成度对应的预测概率，计算得到所述输入视频的预测视频播放时长。

根据本申请的另一方面，提供了一种视频播放时长的确定装置，所述装置包括：

获取模块，用于获取输入视频；

特征提取模块，提取所述输入视频的视频特征为特征张量；

预测模块，用于将所述特征张量输入时长预测模型，输出所述输入视频的预测视频播放时长分布，所述预测视频播放时长分布包括与n个视频播放完成度对应的预测概率；

计算模块，用于根据与所述n个视频播放完成度对应的预测概率，计算得到所述输入视频的预测视频播放时长。

可选地，所述特征提取模块，还用于将所述输入视频按照预设的视频总时长进行截取，得到视频片段；提取所述视频片段的帧数特征、宽度特征、高度特征和通道数特征中的至少一种视频特征；根据所述视频特征生成所述输入视频的特征张量。

可选地，所述特征提取模块，还用于按照抽帧帧率抽取所述视频片段中的目标视频帧；根据所述目标视频帧确定所述视频片段的帧数特征。

可选地，所述计算模块，还用于计算所述输入视频的总时长、每个所述输入视频的预测播放完成度与对应的所述预测概率之间的乘积，得到n个乘积；

将所述n个乘积的和，确定为所述输入视频的预测视频播放时长。

可选地，所述装置还包括：

模型训练模块，用于获取样本视频集中的目标样本视频；提取所述目标样本视频的视频特征为样本特征张量；将所述样本特征张量输入所述时长预测模型，输出所述目标样本视频的预测视频播放时长分布；统计所述目标样本视频的实际播放时长分布；计算所述目标样本视频的实际播放时长分布和所述目标样本视频的预测视频播放时长分布的损失差值；根据所述损失差值，优化所述时长预测模型的参数；重复上六个步骤，直至满足训练结束条件，完成所述时长预测模型的训练。

可选地，所述模型训练模块，还用于将所述目标样本视频的实际播放时长分布和所述目标样本视频的预测播放时长分布代入预设损失函数，获得所述损失差值。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的视频播放时长的确定方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的视频播放时长的确定方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取输入视频，根据输入视频确定该输入视频的特征张量，将所述特征张量输入时长预测模型，获得预测视频播放时长分布，再根据预测视频播放时长分布计算获得预测视频播放时长。该方法无需使用历史播放次数，只需在提取输入视频的特征张量后，将特征张量输入时长预测模型即可，在历史播放次数不足的情况下，本申请方案仍能获得准确的预测视频播放时长。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的一种二维初始模型的流程框图；

图2是本申请一个示例性实施例提供的一种三维初始模型的流程框图；

图3是本申请一个示例性实施例提供的一种时长预测模型的流程框图；

图4是本申请一个示例性实施例提供的一种视频播放时长的确定方法的流程图；

图5是本申请一个示例性实施例提供的一种视频播放时长的确定方法的流程图；

图6是本申请一个示例性实施例提供的一种时长预测模型训练方法的流程图；

图7是本申请一个示例性实施例提供的一种视频播放时长的预测装置的结构示意图；

图8本申请一个实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行介绍：

播放完成度：指视频的播放时长和视频总时长的比值。示例性的，单次点击视频被播放的时长为40秒，视频总时长为80秒，则播放完成度为40/80＝0.5。

张量：在深度学习中，可以被认为是一个多维数组。示例性的，一个视频的张量的维度为帧数*宽*高*颜色通道数。

深度学习(Deep Learning，DL)：是强化学习的一种，学习数据的内在规律和表示层次，其概念源于人工神经网络。示例性的，深度学习包括：基于卷积运算的神经网络系统、基于多层神经元的自编码神经网络和基于优化神经网络权值的深度置信网络中的至少一种。

损失函数：又可以被称为代价函数，用于估算模型的预测值与真实值的不一致程度。损失函数是一个非负实值函数。损失函数越小，模型的鲁棒性就越好。

累积分布函数：又被称为分布函数，通常用F(x)＝P{X≤x}来表示。将x视为数轴上的任一点，则累积分布函数F(x)在x处的函数值就表示x落在区间(-∞，x)上的概率。

最大池化：将输入依次拆分为不同的区域，并取各个区域内的最大值，将得到最大值按照拆分的顺序进行组合。示例性的，对预设区域进行a×b×c的最大池化，表示将预设区域分为若干个a×b×c的区域，取出各个区域中的最大值，并进行组合。

平均池化：将输入依次拆分为不同的区域，并取各个区域内的平均值，将得到平均值按照拆分的顺序进行组合。示例性的，对预设区域进行a×b×c的平均池化，其中预设区域为，表示将预设区域分为若干个a×b×c的区域，计算出各个区域中的平均值，并进行组合。

二维初始模型(2DimensionsInception，2DInc.)是一种神经网络的结构模型，该模型用于提取二维矩阵的特征。图1示出了本申请一个示例性实施例的一种二维初始模型的流程框图。该流程可分为以下几个步骤：

在完成数据输入后，数据会同时进入四条流程分支，为简化说明流程，将图1中从左往右的分支依次记为第一分支、第二分支、第三分支和第四分支。在第一分支内，对输入进行以1×1×1为卷积核的卷积运算101，将得到的结果送入下一层神经网络；在第二分支内，对输入进行以1×1×1为卷积核的卷积运算102，卷积后的结果进行以1×3×3为卷积核的卷积运算103，将得到的结果送入下一层神经网络；在第三分支内，对输入进行以1×1×1为卷积核的卷积运算104，卷积后的结果进行以1×3×3为卷积核的卷积运算105，将得到的结果送入下一层神经网络；在第四分支内，对输入进行1×3×3的最大池化106，对最大池化后的结果进行以1×1×1为卷积核的卷积运算，将得到的结果送入下一层神经网络。将上述四个分支的输出汇聚到连接(concatenate，concat.)层108中，连接层108用于融合四个分支所输出的特征。在连接层108完成特征融合的操作后，输出二维矩阵的特征。

三维初始模型(3DimensionsInception，3DInc.)是一种神经网络的结构模型，该模型用于提取三维矩阵的特征。图2示出了本申请一个示例性实施例的一种三维初始模型的流程框图。该流程可分为以下几个步骤：

在完成数据输入后，数据会同时进入四条流程分支，为简化说明流程，将图2中从左往右的分支依次记为第五分支、第六分支、第三七分支和第八分支。在第五分支内，对输入进行以1×1×1为卷积核的卷积运算201，将得到的结果送入下一层神经网络；在第六分支内，对输入进行以1×1×1为卷积核的卷积运算202，卷积后的结果进行以3×3×3为卷积核的卷积运算203，将得到的结果送入下一层神经网络；在第七分支内，对输入进行以1×1×1为卷积核的卷积运算204，卷积后的结果进行以3×3×3为卷积核的卷积运算205，将得到的结果送入下一层神经网络；在第八分支内，对输入进行3×3×3的最大池化206，对最大池化后的结果进行以1×1×1为卷积核的卷积运算207，将得到的结果送入下一层神经网络。将上述四个分支的输出汇聚到连接层中，连接层也用于融合四个分支所输出的特征。在连接层完成特征融合的操作后，输出三维矩阵的特征。

图3示出了本申请一个示例性实施例的一种时长预测模型的流程框图。该时长预测模型可由计算机设备300加载和执行，该模型可分为以下步骤：

在该模型中，用K代表时长预测模型中神经网络的层数。在第0层神经网络，对输入的特征张量进行以1×7×7为卷积核的卷积运算，该卷积运算所用的步长为2，将卷积后的结果进行1×3×3的最大池化，所用的步长为1,2,2，其中，在步长中，1表示在视频的帧数上所用的步长为1，第一个2表示在视频的宽上所用的步长为2,第二个2表示在视频的高上所用的步长为2，再将最大池化后结果进行以1×1×1为卷积核的卷积运算，将得到的结果送入下一层神经网络；在第1层神经网络，对输入进行以1×3×3为卷积核的卷积运算，再将卷积后的结果进行1×3×3的最大池化，所用的步长为1,2,2，将得到的结果送入下一层神将网络；在第2层神经网络，对输入进行2DInc.操作，将获得的结果送入下一层神经网络；在第3层神经网络，对输入2DInc.操作，将2DInc.操作后的结果进行3×3×3的最大池化，所用的步长为2,2,2，将最大池化后的结果送入下一层神经网络；在第4层神经网络，对输入进行2DInc.操作，将获得的结果送入下一层神经网络；在第5层神经网络，对输入进行2DInc.操作，将获得的结果送入下一层神经网络；在第6层神经网络，对输入进行3DInc.操作，将获得的结果送入下一层神经网络；在第7层神经网络，对输入进行3DInc.操作，将获得的结果送入下一层神经网络；在第8层神经网络，对输入进行3DInc.操作，将3DInc.操作后的结果进行2×2×2的最大池化，所用的步长为2,2,2，将最大池化后的结果送入下一层神经网络；在第9层神经网络，对输入进行3DInc.操作，将获得的结果送入下一层神经网络；在第10层神经网络，对输入进行3DInc.操作，将3DInc.操作后的结果进行2×7×7的平均池化，将平均池化后的结果进行以1×1×1为卷积核的卷积运算，完成卷积运算之后，获得待测视频的预测播放时长分布。

图4示出了本申请一个示例性实施例提供的一种视频播放时长的确定方法的流程图。该方法可应用于如图3中所示的计算机设备300。该方法包括如下步骤：

步骤401，获取输入视频。

计算机设备获取输入视频，计算机设备可以读取本地的历史数据以获取输入视频，也可以向服务器发送请求以获取输入视频，也可以向其他计算机设备发出请求以获取输入视频。

输入视频可以是任意种类的视频，示例性的，输入视频可以是动画视频、真人视频、合成视频和剪辑视频中的至少一种。输入视频的时长可以是任意值，示例性的，输入视频的时长可以是10秒，可以是10分钟，也可以是2小时。

步骤402，提取输入视频的视频特征为特征张量。

计算机设备提取输入视频的视频特征为特征张量。

视频特征用于描述视频的基本信息。示例性的，前述的基本信息可以是视频的帧率、视频的帧数、视频的宽和高、视频的灰度和视频的通道数中的至少一种。

特征张量指由视频特征组成的张量。示例性的，取视频的帧数、视频的帧率和视频的宽为视频特征，则特征张量可表示为(帧数，帧率，宽)，若其中帧数为360，帧率为12赫兹，宽为1920像素，则特征向量可进一步表示为(360，12，1920)。示例性的，取视频的帧数、视频的宽、视频的高和视频的通道数为视频特征，则特征张量可表示为(帧数，宽，高，通道数)，若其中帧数为4500，宽为1920像素，长为1080像素，通道数为3，则特征向量可进一步表示为(4500，1920，1080，3)。

步骤403，将特征张量输入时长预测模型，输出输入视频的预测视频播放时长分布，预测视频播放时长分布包括与n个视频播放完成度对应的预测概率。

计算机设备将特征张量输入时长预测模型，输出输入视频的预测视频播放时长分布。

时长预测模型是一种用于预测视频时长的神经网络模型，该模型的输入为输入视频的特征张量，输出为输入视频的预测视频播放时长分布。

播放完成度指输入视频通过时长预测模型后获得的输入视频的预测播放时长和输入视频总时长的比值。示例性的，输入视频的预测播放时长为60秒，输入视频的总时长为240秒，则预测播放完成度为60/240＝0.25。而n个视频播放完成度指将视频可能出现的播放完成度按其数值从小到大排列，所形成的矩阵或集合或数列。

预测概率指当确定输入视频的播放完成度为某一定值时，时长预测模型所预测的该确定的播放完成度可能出现的概率。示例性的，当视频播放完成度为10％，预测概率为0.34。

视频播放时长分布包括与n个视频播放完成度对应的概率，播放完成度和预测概率一一对应。示例性的，将视频播放时长分布记为y∈R^1×d，其中y表示视频播放时长分布。d为播放完成度的个数。将视频的播放完成度记为x，其中，

且1≤n≤d，n为整数，则当d＝5时，将n个播放完成度x用集合表示为(20％，40％，60％，80％，100％)。R^1×d表示一个1×d的矩阵。示例性的，当d＝20时，视频播放时长分布y＝R^1×20＝(0.01，0.09，……，0.21)，播放完成度x＝(5％，10％，……，100％)，则在视频播放时长分布y中第一位0.01表示该视频被播放到前5％的预测概率为0.01，第二位0.09表示该视频被播放到前10％的预测概率为0.09，最后一位0.21表示该视频播放完毕的预测概率为0.21。

步骤404，根据与n个视频播放完成度对应的预测概率，计算得到输入视频的预测视频播放时长。

计算机设备根据与n个视频播放完成度对应的预测概率，计算得到输入视频的预测视频播放时长。

综上所述，本实施例通过获取输入视频，根据输入视频确定该输入视频的特征张量，将所述特征张量输入时长预测模型，获得预测视频播放时长分布，再根据预测视频播放时长分布计算获得预测视频播放时长。该方法无需使用历史播放次数，只需在提取输入视频的特征张量后，将特征张量输入时长预测模型即可，在历史播放次数不足的情况下，本方案仍能获得准确的预测视频播放时长。

在上一个实施例中，给出了一种视频播放时长的确定方法，下面对该预测方法进行进一步的说明，图5示出了本申请一个示例性实施例提供的一种视频播放时长的确定方法的流程图。该方法可应用于如图3中所示的计算机设备300。该方法包括如下步骤：

步骤501，获取输入视频。

计算机设备获取输入视频。

步骤502，将输入视频按照预设的视频总时长进行截取，得到视频片段。

计算机设备将输入视频按照预设的视频总时长进行截取，得到视频片段。

由于可能会出现输入视频总时长小于预设的视频总时长的情况，将步骤502分为两种情况：

1、当输入视频总时长大于或等于预设的视频总时长时，将输入视频按照预设的视频总时长进行截取，得到视频片段。

经过统计，大部分视频只会播放部分片段，故为了简化计算，截取输入视频的片段，而截取的片段长度为预设的视频总时长。示例性的，预设的视频总时长为20秒。示例性的，预设的视频总时长为60秒。

2、当输入视频总时长小于预设的视频总时长时，对输入视频的帧数进行补帧处理，直至输入视频的总时长达到预设的视频总时长，得到视频片段。

示例性的，若预设的视频总时长为20秒，输入视频为16秒，则对输入视频做补帧处理，用零将输入视频填补至20秒。

步骤503，提取视频片段的帧数特征、宽度特征、高度特征和通道数特征中的至少一种视频特征。

计算机设备提取视频片段的帧数特征、宽度特征、高度特征和通道数特征中的至少一种视频特征。

帧数特征指输入视频中帧的数量。示例性的，输入视频共有20秒，每秒有24帧，则帧数特征为20×24＝480。其中，计算机提取视频片段的帧数特征还可以包括以下子步骤：

1、按照抽帧帧率抽取视频片段中的目标视频帧。

计算机设备按照抽帧帧率抽取视频片段中的目标视频帧。

抽帧帧率指计算机设备每秒从视频片段中抽取的帧数。示例性的，抽帧帧率为3，则表示计算机设备每秒从视频片段中抽取3帧的图像。

目标视频帧指被抽取的视频帧。对于输入视频，其每秒的帧数是确定的，例如，每秒的帧数为10、12和24。目标视频帧可以是从输入视频中被均匀地抽取，示例性的，输入视频共1秒，每秒的帧数为12，抽帧帧率为3，则目标视频帧可以是输入视频的第4帧，第8帧和第12帧；目标视频帧也可以被不均匀地抽取，示例性的，输入视频共2秒，每秒的帧数为12，抽帧帧率为3，则目标视频帧可以是输入视频的第1帧，第6帧，第12帧，第17帧，第帧和第24帧。

2、根据目标视频帧确定视频片段的帧数特征。

计算机设备根据目标视频帧确定视频片段的帧数特征。

示例性的，输入视频共20秒，抽帧帧率为3，则目标视频帧为20×3＝60，确定视频片段的帧数特征为60。

宽度特征指输入视频在宽上的像素点数量，示例性的，输入视频的宽度特征为1920个像素。

长度特征指输入视频在长上的像素点数量，示例性的，输入视频的长度特征为1080个像素。

通道数特征指输入视频中每个像素点所能存放的像素值。示例性的，输入视频的通道数特征为3。

步骤504，根据视频特征生成输入视频的特征向量。

计算机设备根据视频特征生成输入视频的特征向量。

示例性的，将特征张量表示为(帧数，宽，高，通道数)，若其中帧数为4500，宽为1920像素，长为1080像素，通道数为3，则特征向量可进一步表示为(4500，1920，1080，3)。

步骤505，将特征向量输入时长预测模型，输出输入视频的预测视频播放时长分布。

计算机设备将特征向量输入时长预测模型，输出输入视频的预测视频播放时长分布。

步骤506，计算输入视频的总时长、每个视频播放完成度与对应的预测概率之间的乘积，到n个乘积。

计算机设备计算输入视频的总时长、每个视频播放完成度与对应的预测概率之间的乘积，到n个乘积。

步骤507，将n个乘积的和，确定为输入视频的预测视频播放时长。

计算机设备将n个乘积的和，确定为输入视频的预测视频播放时长。

在上一个实施例中已经说明了每个视频播放完成度都有与之对应的预测概率，且视频播放完成度是一个区间，例如[0，20％]。当进行步骤506时，所用的视频播放完成度可以是该区间的左端点，也可以是该区间的右端点，也可以是该区间内任意一点。示例性的，取区间的左端点进行计算，输入视频的总时长为200秒、视频播放完成度记为(20％，40％，60％，80％，100％)，则与视频播放完成度对应的预测概率依次记为(0.15，0.25，0.10，0.30，0.20)，所以输入视频的预测视频播放时长为(0.15×20％+0.25×40％+0.10×60％+0.30×80％+0.20×100％)×200＝126秒。示例性的，取区间的中点进行计算，输入视频的总时长为200秒、视频播放完成度记为(20％，40％，60％，80％，100％)，则与视频播放完成度对应的预测概率依次记为(0.15，0.25，0.10，0.30，0.20)，所以输入视频的预测视频播放时长为(0.15×10％+0.25×30％+0.10×50％+0.30×70％+0.20×90％)×200＝106秒。

综上所述本实施例，通过获取输入视频，根据输入视频确定视频片段，再由视频片段得到特征向量，将所述特征张量输入时长预测模型，获得预测视频播放时长分布，再根据预测视频播放时长分布计算获得预测视频播放时长。该方法无需使用历史播放次数，只需在提取输入视频的特征张量后，将特征张量输入时长预测模型即可，而且，仅采用了输入视频中的片段视频，同时对帧数特征采用了抽帧策略，减少了计算量。

下面介绍时长预测模型的训练方法。图6示出了本申请一个示例性实施例提供的一种时长预测模型训练方法的流程图。该方法可应用于如图3中所示的计算机设备300。该方法包括如下步骤：

步骤601，获取样本视频集中的目标样本视频。

计算机设备获取样本视频集中的目标样本视频。计算机设备可以读取本地的历史数据以获取样本视频集，也可以向服务器发送请求以获取样本视频集，也可以向其他计算机设备发出请求以获取样本视频集。

样本视频集是由样本视频组成的集合，样本视频是除输入视频外任意种类的视频，示例性的，样本视频可以是动画视频、真人视频、合成视频和剪辑视频中的至少一种。样本视频的时长可以是任意值，示例性的，样本视频的时长可以是10秒，可以是10分钟，也可以是2小时。

目标样本视频是样本视频中的任意一个样本视频。

步骤602，提取目标样本视频的视频特征为样本特征张量。

计算机设备提取目标样本视频的视频特征为样本特征张量。

样本特征张量指目标样本视频的特征张量，用于和输入视频的特征张量做区分。

步骤603将样本特征张量输入时长预测模型，输出目标样本视频的预测播放时长分布。

计算机设备将样本特征张量输入时长预测模型，输出目标样本视频的预测播放时长分布。

步骤604，统计目标样本视频的实际视频播放时长分布。

计算机设备统计目标样本视频的实际视频播放时长分布。

实际视频播放时长分布指以统计的方法，获得目标样本视频在现实中的播放完成度和与其对应的实际概率，该实际概率与预测概率相对，表示当确定目标样本视频的播放完成度为某一定值下，该确定的播放完成度实际出现的概率。示例性的，目标样本视频在现实中的播放完成度用集合记为(20％，40％，60％，80％，100％)，而与其对应的实际概率为(0.30，0.25，0.15，0.20，0.10)。

步骤605，将目标样本视频的实际播放时长分布和目标样本视频的预测播放时长分布输入预设损失函数，获得损失差值。

计算机设备将目标样本视频的实际播放时长分布和目标样本视频的预测播放时长分布输入预设损失函数，获得损失差值。

预设损失函数用于计算目标样本视频的实际播放时长分布和目标样本视频的预测播放时长分布之间的损失差值。损失差值用于量化目标样本视频的实际播放时长分布和目标样本视频的预测播放时长分布之间的差异。损失差值和前述差异呈正相关，即损失差值越小，两者的差异越小；而损失差值越大，两者的差异也越大。

示例性的，损失函数E(p，t)为

其中，d表示播放完成度的个数，p为目标样本视频的预测播放时长分布，t为目标样本视频的实际播放时长分布，CDF表示累积分布函数。CDF_i(p)表示当播放完成度为i时，目标样本视频所对应的预测概率的累积分布函数。CDF_i(t)表示当播放完成度为i时，目标样本视频所对应的实际概率的累积分布函数。

步骤606，判断时长预测模型是否满足训练结束条件。

若时长预测模型满足训练结束条件，则执行步骤608。

若时长预测模型不满足训练结束条件，则执行步骤607。

训练结束条件包括迭代次数达到最大迭代阈值和模型参数收敛中的至少一种。

示例性的，当模型参数收敛时，说明该时长预测模型所预测出的视频时长准确率达到预设要求。示例性的，模型参数收敛值为0.1。示例性的，模型参数收敛值为1。示例性的，模型参数收敛值为10。

步骤607，根据损失差值，优化时长预测模型的参数。

计算机设备根据损失差值，优化时长预测模型的参数。

在步骤607中，若时长预测模型不满足训练结束条件，说明该时长预测模型所预测出的视频时长准确率未达到预设要求。

其中，在本申请中，时长预测模型参数包括学习率、卷积核的种类、神经网络权重和正则化参数中的至少一种。

在完成市场预测模型的优化后，返回步骤601，重新执行步骤601指步骤606。

步骤608，完成训练。

计算机设备完成对时长预测模型的训练。

在完成步骤608后，时长预测模型所预测出的视频时长准确率达到预设要求。

综上所述，本实施例给出了一种时长预测模型的训练方法，保证预测出的视频时长准确率可以达到预设要求。在经过足够多次数的训练后，时长预测模型可以获得较为准确的时长预测结果。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。

图7示出了本申请的一个示例性实施例提供的一种视频播放时长的预测装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分，该装置700包括：

获取模块701，用于获取输入视频；

特征提取模块702，用于提取所述输入视频的视频特征为特征张量；

预测模块703，用于将所述特征张量输入时长预测模型，输出所述输入视频的预测视频播放时长分布，所述预测视频播放时长分布包括与n个视频播放完成度对应的预测概率；

计算模块704，用于根据与所述n个视频播放完成度对应的预测概率，计算得到所述输入视频的预测视频播放时长。

可选地，所述特征提取模块702，还用于将所述输入视频按照预设的视频总时长进行截取，得到视频片段；提取所述视频片段的帧数特征、宽度特征、高度特征和通道数特征中的至少一种视频特征；根据所述视频特征生成所述输入视频的特征张量。

可选地，所述特征提取模块702，还用于按照抽帧帧率抽取所述视频片段中的目标视频帧；根据所述目标视频帧确定所述视频片段的帧数特征。

可选地，所述计算模块704，还用于计算所述输入视频的总时长、每个所述输入视频的预测播放完成度与对应的所述预测概率之间的乘积，得到n个乘积；

可选地，所述装置700还包括：

模型训练模块705，用于获取样本视频集中的目标样本视频；提取所述目标样本视频的视频特征为样本特征张量；将所述样本特征张量输入所述时长预测模型，输出所述目标样本视频的预测视频播放时长分布；统计所述目标样本视频的实际播放时长分布；计算所述目标样本视频的实际播放时长分布和所述目标样本视频的预测视频播放时长分布的损失差值；根据所述损失差值，优化所述时长预测模型的参数；重复上六个步骤，直至满足训练结束条件，完成所述时长预测模型的训练。

可选地，所述模型训练模块705，还用于将所述目标样本视频的实际播放时长分布和所述目标样本视频的预测播放时长分布代入预设损失函数，获得所述损失差值。

下面是对本申请实施例的服务器结构进行说明，请参考图8，

图8是本申请一个实施例提供的服务器的结构示意图。具体来讲：服务器800包括中央处理单元(英文：Central Processing Unit，简称：CPU)801、包括随机存取存储器(英文：random access memory，简称：RAM)802和只读存储器(英文：read-only memory，简称：ROM)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。所述服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。

所述基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到系统总线805的输入/输出控制器810连接到中央处理单元801。所述基本输入/输出系统806还可以包括输入/输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，所述大容量存储设备807可以包括诸如硬盘或者只读光盘(英文：Compact Disc Read-Only Memory，简称：CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文：erasable programmable read-only memory，简称：EPROM)、电可擦除可编程只读存储器(英文：electrically erasable programmableread-only memory，简称：EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(英文：Digital Versatile Disc，简称：DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

根据本申请的各种实施例，所述服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在所述系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

本申请还提供了一种计算机设备，该计算机设备包括：处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的视频播放时长的确定方法。

本申请还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述各方法实施例提供的视频播放时长的确定方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频播放时长的确定方法，其特征在于，所述方法包括：

获取输入视频；

提取所述输入视频的视频特征为特征张量；

2.根据权利要求1所述的方法，其特征在于，所述提取所述输入视频的视频特征为特征张量，包括：

将所述输入视频按照预设的视频总时长进行截取，得到视频片段；

提取所述视频片段的帧数特征、宽度特征、高度特征和通道数特征中的至少一种视频特征；

根据所述视频特征生成所述输入视频的特征张量。

3.根据权利要求2所述的方法，其特征在于，所述提取所述视频片段的帧数特征，包括：

按照抽帧帧率抽取所述视频片段中的目标视频帧；

根据所述目标视频帧确定所述视频片段的帧数特征。

4.根据权利要求1至3任一所述的方法，其特征在于，所述视频播放完成度包括：视频播放时长与视频总时长之间的比值；

所述根据n个所述输入视频的预测播放完成度对应的预测概率，计算得到所述输入视频的预测视频播放时长，包括：

计算所述输入视频的总时长、每个所述输入视频的预测播放完成度与对应的所述预测概率之间的乘积，得到n个乘积；

5.根据权利要求1至3任一所述的方法，其特征在于，所述时长预测模型由如下方法训练获得：

获取样本视频集中的目标样本视频；

提取所述目标样本视频的视频特征为样本特征张量；

将所述样本特征张量输入所述时长预测模型，输出所述目标样本视频的预测视频播放时长分布；

统计所述目标样本视频的实际播放时长分布；

计算所述目标样本视频的实际播放时长分布和所述目标样本视频的预测视频播放时长分布的损失差值；

根据所述损失差值，优化所述时长预测模型的参数；

重复上述六个步骤，直至满足训练结束条件，完成所述时长预测模型的训练。

6.根据权利要求3所述的方法，所述计算所述目标样本视频的实际播放时长分布和所述目标样本视频的预测视频播放时长分布的损失差值，包括：

将所述目标样本视频的实际播放时长分布和所述目标样本视频的预测播放时长分布代入预设损失函数，获得所述损失差值。

7.一种视频播放时长的确定装置，其特征在于，所述装置包括：

获取模块，用于获取输入视频；

特征提取模块，提取所述输入视频的视频特征为特征张量；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一项所述的视频播放时长的确定方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一项所述的视频播放时长的确定方法。