CN106686403B

CN106686403B - 一种视频预览图生成方法、装置、服务器以及系统

Info

Publication number: CN106686403B
Application number: CN201611116814.7A
Authority: CN
Inventors: 于海
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2019-03-08
Anticipated expiration: 2036-12-07
Also published as: CN106686403A

Abstract

本发明提出一种视频预览图生成方法、装置、服务器以及系统。所述方法包括如下步骤：接收视频预览请求；获取所述视频预览请求所对应的视频列表；获取所述视频列表中视频的视频截图集合；将所述视频截图集合输入到二分类深度神经网络模型，并获得所述模型的输出的概率结果；依据所述概率结果对所述视频截图集合中的视频截图进行选择，确定所述视频预览图。

Description

一种视频预览图生成方法、装置、服务器以及系统

技术领域

本发明属于计算机图像处理领域，具体涉及一种视频预览图生成方法、装置、服务器以及系统。

背景技术

用户通过网络观看视频时，若不了解视频的相关情况想通过预览的方式了解该视频的大概内容，以决定是否继续观看。这种情况下，用户往往通过随意的不断拖动来了解一个视频，这种拖动很有随意性，大部分情况下，用户拖动的位置不一定就是整个视频的关键部分，这种方式对用户快速了解整个视频的内容起到的效果有限。因此，在这种情况下，用户急需一个自动产生电影的预告片一样功能，给用户提供快速影片的内容预览功能，即视频预览图。

目前，视频预览图大多采用人工选定或者机器自动生成的方式。使用人工选定的方式，视频预览图的生成会耗费较多的人力成本和时间成本，尤其是当前网络信息爆炸式膨胀，面临着海量的视频信息，人工筛选的方式弊端逐渐展现。此外，人工选定的视频预览图收到选定者主观因素影响较为严重，未必能准确地反映视频的主要内容。而机器自动生成的方式则主要依靠计算机在视频中对视频进行随机截取，这种方式可以节约人工成本，但是生成的预览图随机性高，智能性差，并且往往无法体现出视频所以表达的信息。

发明内容

为了解决现有技术中预览图生成过程耗费人工和时间成本高，预览图反映视频内能可能不够准确的问题，本发明实施例提供了一种视频预览图生成方法、装置、服务器以及系统。所述技术方案如下：

第一方面，提供了视频预览图生成方法，所述方法包括：

接收视频预览请求；

获取所述视频预览请求所对应的视频列表；

获取所述视频列表中视频的视频截图集合；

将所述视频截图集合输入到二分类深度神经网络模型，并获得所述模型的输出的概率结果；

依据所述概率结果对所述视频截图集合中的视频截图进行选择，确定所述视频预览图。

第二方面，提供了视频预览图生成装置，所述装置包括：

预览请求接收模块，用于接收视频预览请求；

视频列表获取模块，用于获取所述视频预览请求所对应的视频列表；

视频截图获取模块，用于获取所述视频列表中视频的视频截图集合；

概率结果获取模块，用于将所述视频截图集合输入到二分类深度神经网络模型，并获得所述模型的输出的概率结果；

视频预览图确定模块，用于依据所述概率结果对所述视频截图集合中的视频截图进行选择，确定所述视频预览图。

第三方面，提供了一种服务器，包括视频预览图生成装置。

第四方面，提供了一种系统，用于生成视频预览图，所述系统包括：客户端，服务器，标引客户端；所述服务器包含视频预览图生成装置。

本发明能够达到的有益效果：

利用二分类深度神经网络模型获得视频截图作为视频预览图的概率，进而获得视频预览图。相较于人工筛选的方法能够大大节省时间和人力成本，相较于机器筛选方法具有更多的人工智能性，能够从视频截图中甄选出更合适的截图作为视频预览图。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明；

图1是本发明一个实施例提供的实施环境的示意图。

图2是本发明一个实施例提供的后台服务器的架构图。

图3是本发明一个实施例提供的视频预览图生成方法流程图。

图4是本发明另一个实施例提供的视频预览图生成方法流程图。

图5是本发明实施例提供的二分类神经网络结构图。

图6是本发明另一实施例提供的视频截图标准化流程图。

图7是本发明一个实施例提供的视频预览图生成装置框图。

图8是本发明另一个实施例提供的视频预览图生成装置框图。

图9是本发明实施例提供的二分类深度神经网络模型训练模块框图。

图10是本发明实施例提供的概率结果获取模块框图。

图11是本发明一个实施例提供的终端的结构示意图。

图12是本发明一个实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

请参考图1，其示出了本发明一个实施例提供的实施环境的示意图。该实施环境包括：用户终端120、后台服务器140。

用户终端120中运行有发送方客户端。用户终端120可以是手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

后台服务器140可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

后台服务器140可以通过网络分别与用户终端120建立通信连接。该网络可以是无线网络，也可以是有线网络。

在本发明实施例中，客户端可以是任何具备视频播放功能的客户端。例如，客户端可以是社交类应用客户端、即时通信客户端、支付类应用客户端、游戏客户端、阅读客户端、专用于视频或音视频播放的客户端等等。客户端可以在播放视频之前以视频封面和视频预览图的方式向用户展示视频的部分内容和信息。

在一个示例中，如图2所示，当后台服务器140为集群架构时，后台服务器140可以包括：通讯服务器142、训练服务器144、视频服务器146和数据服务器148。

通讯服务器142用于提供客户端和服务器之间的通讯服务。

例如，通讯服务器142用于提供客户端和服务器组群之间进行文字、图片、视频等消息的收发功能。

训练服务器144用于提供深度神经网络的训练，得出训练深度神经网络模型，并且对客户端请求进行训练的视频进行提取，然后生成视频的封面图和预览图。

视频服务器146，用于向客户端提供视频。

数据服务器148用于提供初始训练集合。例如，数据服务器148用于收集和提取来自训练集视频的视频截图，发往客户端进行标引，接收并存储标引值，在训练服务器提出数据请求时，提取一定数量的训练集元素发往训练服务器。

上述各个服务器之间可通过网络建立通信连接。该网络可以是无线网络，也可以是有线网络。

请参考图3，其示出了本发明一个实施例提供的视频预览图生成方法。该方法可应用于图1所示实施环境中。该方法可以包括如下步骤：

S310，接收来自客户端的视频预览请求。

当用户打开视频浏览页面时，客户端会展示出该页面内所包含的视频，此时服务器端对应地收到客户端对于该页面内视频的预览请求。

S320，获取所述视频预览图生成请求所对应的视频列表。

当服务器接收到视频预览请求时，会获取视频浏览请求所对应的视频列表，例如，当用户打开某视频网站的某页面时，展示在页面内的视频集合即为视频列表。当然，在某些情况下，例如即时通信客户端中传送的视频，视频列表中可能只有一个视频存在。

S330，获取所述视频列表中视频的视频截图集合。

服务器端会获取视频列表中视频的截图集合，截图来自视频的不同时段。例如，服务器会以秒为单位获取某视频中的一系列帧，即视频截图。视频截图集合与视频列表中一个视频对应。

S340，将所述视频截图集合输入到二分类深度神经网络模型，并获得输出结果。

将视频截图集合输入到预先训练好的二分类深度神经网络模型，并获得输出结果。对于每一幅输入图片该二分类深度神经网络模型会输出一个0-1之间的概率值，该值越接近“1”表示该视频截图适合作为视频预览图的概率越高，该值越接近“0”表示该视频截图适合作为视频预览图的概率越低。那么对于输入到二分类深度神经网络模型的图片，服务器会对应地获得一系列概率值组成的集合，这些概率值表示视频截图集合中各视频截图适合作为视频预览图的可能性。

S350，依据所述概率结果对所述视频截图集合中的视频截图进行选择，确定所述视频预览图。

依据获得的一系列概率对视频截图集合中的视频截图进行选择，将概率值最高的视频截图作为视频预览图。

在一个示例中，可以对获得的截图集合中各视频截图所对应的二分类深度神经网络模型输出值进行排序，将输出值最大，即作为视频截图概率最高的视频截图作为视频封面，即视频预览图。

综上所述，本实施例提供的方法，由于利用了二分类深度神经网络模型获得视频截图作为视频预览图的概率，相较于人工筛选的方法能够大大节省时间和人力成本；相较于机器筛选方法具有更多的人工智能性，能够从视频截图中甄选出更合适的截图作为视频预览图。

请参考图4，其示出了本发明一个实施例提供的视频预览图生成方法。该方法可应用于图2所示实施环境中。该方法可以包括如下步骤：

S400，准备二分类标引的训练集元素。

训练数据来自训练集视频，训练集视频随机抽取自需要生成视频预览图的视频文件。自每个训练集视频中截取一定数量的视频截图，组成训练元素集合。训练元素集数量是可变的，例如在一个可选择的实施过程中，训练元素集中包含10000幅来自训练集视频的视频截图。

在准备训练集元素的最后一个步骤，需要对训练集元素进行二分类标引。在一个可选择的实施过程中，将训练集元素标引为二分类的布尔型，如果适合作为封面图，则以布尔型算符“1”来标引，如果不适合作为封面图，则以布尔型算符“0”来标引。

在一个示例中，训练集元素通过数据服务器148进行收集。数据服务器与获取训练集视频，截取训练集视频的视频帧，将视频帧发送至用于标引的客户端，在所述用于标引的客户端完成标引，标引的格式是以“适合为1”、“不适合为0”的二分类标存储的。标引完成之后，数据服务器148接收所述标引客户端返回的数据。

S410，处理二分类标引的训练集元素。

处理训练集元素的过程是对训练集元素进行标准化的过程。在一个可选的实施例中，将训练集元素缩放为统一的大小的像素阵列，例如,“M像素x N像素”。经过该步骤，训练集元素中的图片被标准化为统一大小。

训练集元素标准化还包括对训练集元素值的标准化。可选地，该标准化是使用该元素值减去该像素在训练集上的平均值。如果以Aij表示某一训练集元素的元素值，那么对训练集元素值的标准化表示为:

A’ij＝＝Aij-SUM(Aij)/N

其中，A’ij表示标准化完成的训练集元素值；SUM(Aij)表示训练集上所有的Aij像素值求和，N表示训练集中元素的总数量。

在一个示例中，处理训练集元素在训练服务器144上完成，训练服务器144首先从数据服务器获取到二分类标引的训练集元素，然后在训练服务器上将取得训练集元素标准化为M像素xN像素的标准格式图片。例如255像素x255像素，然后对于其中某个像素的值，例如A_10，10,首先取得训练集对应像素的平均值，并在该像素值中减去该平均值：

A_10，10’＝＝A_10，10-SUM(Aij)/N。

处理后的训练集元素存储在训练服务器144上。

S420，构建二分类深度神经网络结构。

在对训练集元素处理完成之后，建立深度神经网络结构，这个深度神经网络结构是基于二分类的。如图5所示，二分类神经网络构架包括：

第一卷积输出模块，其中包含两个卷积模块和一个Maxpool模块，在64位输出滤波器上进行卷积。

第二卷积输出模块，其中包含两个卷积模块和一个Maxpool模块，在128位输出滤波器上进行卷积。

第三卷积输出模块，其中包含三个卷积模块一个Maxpool模块，在256位输出滤波器上进行卷积。

第四卷积输出模块，其中包含三个卷积模块一个Maxpool模块，在512位输出滤波器上进行卷积。

第五卷积输出模块，其中包含三个卷积模块一个Maxpool模块，在512位输出滤波器上进行卷积。

输出模块，在其中包含训练值分类子模块(FC-1)和Sigmoid输出触发子模块。该模块中，训练值分类模块FC-1只进行“0”和“1”二分类，那么Sigmoid触发输出的值是一个0-1之间的概率值。

在使用二分类标引的训练集元素训练之后，该神经网络结构输出的值也将是一个表述输入图片适合作为视频预览图概率的概率值。

当然，本实施例并不限制使用的二分类深度神经网络结构，例如deep residualnetworks、leNet等神经网络结构，在进行Sigmoid输出前，进行输出处理，使输出的结果表示为“0-1”之间的概率值，均落入本实施例的保护范围。

在一个示例中，二分类深度神经网络结构的构建在训练服务器144上完成。

S430，选择二分类损失函数。

在建立二分类深度神经网络结构之后，需要选择合适的损失函数。在一个可选的实施过程中，损失函数被选择为适合二分类的损失函数。

可选地，损失函数选择为对数损失函数(log-loss)，对数损失函数能够在分类输出不是0-1，而是实数值，即属于每个类别的概率时对分类结果进行评价。对数损失函数(log-loss)是一个相对的分类准确率度量方法，这种方法使用概率来表示其所属的类别的置信度。对数损失函数(log-loss)的数学表达式可以为：

在该表达式中，M表示对于样本的分类，N表示分类中样本的个数，y_ij是指集合中样本所属的真实类别0或者1，p_ij表示集合中样本属于类别1的概率，这样上式中的两个部分对于每个样本只会选择其一，因为有一个一定为0，当预测与实际类别完全匹配时，则两个部分都是0，当然，在初始化时即设定0log0＝0。

在某些情况下，当样本的分类数M＝2时，对数损失函数(log-loss)可以表示为二值对数函数(Binary log-loss)，其数学表达式可以表示为：

在该表达式中，yi是指第i个样本所属的真实类别0或者1，pi表示第i个样本属于类别1的概率，这样上式中的两个部分对于每个样本只会选择其一，因为有一个一定为0，当预测与实际类别完全匹配时，则两个部分都是0，当然，在初始化时即设定0log0＝0。

使用二分类的损失函数对于构建二分类深度神经网络结构，有着非常重要的意义。因为对数损失函数以0到1之间的输出概率表示该记录所属样本对应的类别的置信度，它恰好与二分类的布尔型分类相匹配。

除此之外，对数损失函数(log-loss)是对额外噪声(extra noise)的度量，这个噪声是由于预测值域实际值不同而产生的。可以通过信息论中的交叉熵(Cross Entropy)进行解释，交叉熵即真实值与预测值的交叉熵，它和相对熵(Relative Entropy)类似。因为信息熵是对事情的不确定性进行度量，不确定越大，熵越大。交叉熵包含了真实分布的熵加上假设与真实分布不同的分布的不确定性。因此最小化交叉熵，便是最大化分类器的准确率。

在一个示例中，二分类损失函数的构建在训练服务器144上完成。

S440，训练二分类深度神经网络模型。

在构建二分类深度神经网络结构，确定损失函数之后。将训练元素集带入到构建的二分类深度神经网络结构进行校验。示例性地，校验使用十折交叉校验(10-fold cross-validation)，利用后向传播算法进行训练。

十折交叉校验(10-fold cross-validation)的校验过程包括，将数据集分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率(或差错率)，10次的结果的正确率(或差错率)的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证(例如10次10折交叉验证)，再求其均值，作为对算法准确性的估计。之所以选择将数据集分为10份，是因为通过利用大量数据集、使用不同学习技术进行的大量试验，表明十折校验是获得最好误差估计的恰当选择。

本实施例提供校验方法也不限于十折校验，在不同的实施过程中，亦可使用五折交叉校验或者二十折交叉校验等方式。

反向传播算法(Backpropagation algorithm)主要由两个环节(激励传播、权重更新)反复循环迭代，直到网络的对输入的响应达到预定的目标范围为止。

随着硬件速度的提升和运算量的逐步加大,GPU(Graphic Processing Unit)已经在图像相关处理方法逐步替代CPU或者与CPU联合使用。使用GPU来执行BP算法能否带来运算速度的大大提升。当然，本实施例所提供的方法并不限制在GPU上执行，亦在在CPU或者CPU/GPU联合使用的硬件上实现。

经过上述步骤，本实施例可以得到训练完成的二分类深度神经网络模型，该模型基于输入的视频图片可以输出0-1之间的概率值，该输出的概率值表示输入的视频图片适合作为视频预览图的概率。

在一个示例中，二分类深度神经网络模型的构建在训练服务器144上完成。

S450，接收视频预览请求。

在一个示例中，视频预览请求在客户端生成，并通过通信链路被通信服务器142接收。

S460，获取所述视频预览图生成请求所对应的视频列表。

在一个示例中，训练服务器144在接收到视频预览请求后，会向视频服务器146调用所述视频预览请求所对应的视频列表。

S470，获取所述视频列表中视频的视频截图集合。

在一个示例中，视频服务器146会获取视频列表中视频所对应的截图集合，并将该截图集合发送至训练服务器144。

S480，将所述视频截图集合输入到二分类深度神经网络模型，并获得输出结果。

如图6所示，在将视频截图输入到二分类深度神经网络模型前，还需要进行对视频截图标准化的步骤：

S4801，将所述视频截图标准化为预定像素大小。

对所述视频截图标准化的过程与对其训练过程类似，在一个可选的实施例中，将视频截图缩放为统一的大小，例如,“M像素x N像素”。经过该步骤，视频截图中的图片被标准化为统一大小。在一个示例中，视频截图被统一标准化为255像素x255像素。

S4802，将视频截图的每个像素值标准化。

由于在训练过程中，训练集元素经过了标准化过程，因此，需要对视频截图进行同样的标准化过程。

在一个示例中，使用视频元素在某个像素的平均值作为标准化值。

如果以Bij表示某一训练集元素的元素值，那么对训练集元素值的标准化表示为:

B’ij＝＝Bij-SUM(Bij)/m

其中，B’ij表示标准化完成的训练集元素值；SUM(Bij)表示视频截图集上所有的Bij像素值求和，m表示视频截图集中的总截图数量。

在一个示例中，使用像素在训练集上的平均值作为标准化值。

B’ij＝＝Bij-SUM(Aij)/n

其中，B’ij表示标准化完成的训练集元素值；SUM(Aij)表示视频截图集上所有的Aij像素值求和，n表示视频截图集中的总截图数量,SUM(Aij)/n即像素在训练集上的平均值。

在一个示例中，处理训练集元素在训练服务器144上完成，训练服务器144首先从数据服务器获取到二分类标引的训练集元素，然后在训练服务器上将取得训练集元素标准化为M像素x N像素的标准格式图片。例如255像素x255像素，然后对于其中某个像素的值，例如B_10，10,首先取得训练集对应像素的平均值，并在该像素值中减去该平均值：

B_10，10’＝＝B_10，10-SUM(Aij)/n

S490，依据获得的一系列概率对视频截图集合中的视频截图进行选择，将概率值最高的视频截图作为视频预览图。

综上所述，本实施例提供的方法，对现有的深度申请网络模型进行了改进，使其训练结果输出为“0-1”之间的概率值，从而实现了二分类神经网络模型，将神经网络模型的输出结果由解决分类问题转化为解决回归问题。基于该二分类神经网络模型，对视频截图进行筛选，相较于人工筛选的方法能够大大节省时间和人力成本；相较于已有的机器筛选方法具有更多的智能性，能够从视频截图中甄选出更合适的截图作为视频预览图。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参考图7，其示出了本发明一个实施例提供的视频预览图生成装置的框图。该装置具有实现上述方法示例中服务器侧的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

预览请求接收模块710，执行步骤310，用于接收视频预览请求；

视频列表获取模块720，执行步骤320，用于获取所述视频预览请求所对应的视频列表；

视频截图获取模块730，执行步骤330，用于获取所述视频列表中视频的视频截图集合；

概率结果获取模块740，执行步骤340，用于将所述视频截图集合输入到二分类深度神经网络模型，并获得所述模型的输出的概率结果；

视频预览图确定模块750，执行步骤350，用于依据所述概率结果对所述视频截图集合中的视频截图进行选择，确定所述视频预览图。

相关细节可以参考图3所对应的方法实施例。

请参考图8，其示出了本发明一个实施例提供的视频预览图生成装置的框图。该装置具有实现上述方法示例中服务器侧的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

预览请求接收模块810，执行步骤450，用于接收视频预览请求；

视频列表获取模块820，执行步骤460，用于获取所述视频预览请求所对应的视频列表；

视频截图获取模块830，执行步骤470，用于获取所述视频列表中视频的视频截图集合；

概率结果获取模块840，执行步骤480，用于将所述视频截图集合输入到二分类深度神经网络模型，并获得所述模型的输出的概率结果；

视频预览图确定模块850，执行步骤490，用于依据所述概率结果对所述视频截图集合中的视频截图进行选择，确定所述视频预览图。

该装置中还包含了二分类深度神经网络模型训练模块860，如图9所示，该模块进一步包含如下子模块：

二分类训练集元素获取子模块910，执行步骤400，用于获取二分类标引的训练集元素；

二分类训练集元素处理子模块920，执行步骤410，用于处理所述二分类标引的训练集元素；

二分类深度神经网络结构构建子模930,执行步骤420，用于构建二分类深度神经网络结构；

二分类损失函数选择子模块940，执行步骤430，用于选择二分类损失函数；

模型训练子模块950，执行步骤440，用于基于所述二分类深度神经网络结构和所述二分类损失函数，训练二分类深度神经网络模型。

如图10所示，概率结果获取模块包括视频截图集合标准化模块，视频截图在该模块内经过截图像素标准化子模块和截图像素值标准化子模块。

截图像素标准化子模块将输入的截图标准化为指定的像素，例如255*255像素。

截图像素值标准化子模块，用于标准化经过截图像素标准化后截图的每一个像素值，例如，其可以采用如下方式进行标准化：

B’ij＝＝Bij-SUM(Aij)/n

其中，B’ij表示标准化完成的训练集元素值；SUM(Bij)表示视频截图集上所有的Bij像素值求和，n表示视频截图集中的总截图数量。

输入的截图经过标准化之后转换为标准化视频截图，将标准化视频截图输入到已经训练好的二分类深度神经网络模型。所述二分类深度神经网络模型的FC值为1，即其已经被设置为概率回归模块，在Sigmoid触发输出时，其输出标准化截图适合作为视频预览图的概率。

相关细节可以参考图4所对应的方法实施例。

请参考图11，其示出了本发明一个实施例提供的终端的结构示意图。该终端用于实施上述实施例中提供的发送方客户端侧的虚拟物品发送方法，或者用于实施上述实施例中提供的接收方客户端侧的虚拟物品接收方法。具体来讲：

终端1100可以包括RF(Radio Frequency，射频)电路1110、包括有一个或一个以上计算机可读存储介质的存储器1120、输入单元1130、显示单元1140、视频传感器1150、音频电路1160、WiFi(wireless fidelity，无线保真)模块1170、包括有一个或者一个以上处理核心的处理器1180、以及电源990等部件。本领域技术人员可以理解，图11中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1180处理；另外，将涉及上行的数据发送给基站。通常，RF电路1110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路1110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端1100的使用所创建的数据(比如视频数据、电话本等)等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1120还可以包括存储器控制器，以提供处理器1180和输入单元1130对存储器1120的访问。

输入单元1130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1130可包括图像输入设备1131以及其他输入设备1132。图像输入设备1131可以是摄像头，也可以是光电扫描设备。除了图像输入设备1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及终端1100的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1140可包括显示面板1141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，15有机发光二极管)等形式来配置显示面板1141。

终端1100可包括至少一种视频传感器1150，视频传感器用于获取用户的视频信息。终端1100还可以包括其它传感器(未示出)，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在终端1100移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端1100还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

视频电路1160、扬声器1161，传声器1162可提供用户与终端1100之间的视频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1111以发送给比如另一终端，或者将音频数据输出至存储器1120以便进一步处理。音频电路1160还可能包括耳塞插孔，以提供外设耳机与终端1100的通信。

WiFi属于短距离无线传输技术，终端1100通过WiFi模块70可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170，但是可以理解的是，其并不属于终端1100的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1180是终端1100的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行终端1100的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1180可包括一个或多个处理核心；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。

可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

终端1100还包括给各个部件供电的电源990(比如电池)，优选的，电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源990还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端1100还可以包括蓝牙模块等，在此不再赘述。

具体在本实施例中，终端1100还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述发送方客户端侧或者接收方客户端侧的方法的指令。

请参考图12，其示出了本发明一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的后台服务器侧的虚拟物品发送方法。具体来讲：

所述服务器1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说，所述大容量存储设备1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

根据本发明的各种实施例，所述服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述后台服务器侧的方法的指令。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由终端的处理器执行以完成上述方法实施例中发送方客户端或接收方客户端侧的各个步骤，或者上述指令由服务器的处理器执行以完成上述方法实施例中后台服务器侧的各个步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频预览图生成方法，其特征在于，所述方法包括如下步骤：

接收视频预览请求；

获取所述视频预览请求所对应的视频列表；

获取所述视频列表中视频的视频截图集合；

将所述视频截图集合输入到二分类深度神经网络模型，并获得所述模型的输出的概率结果，所述二分类深度神经网络模型的输出的概率结果表示视频截图集合中的视频截图适合作为视频预览图的概率；

2.根据权利要求1所述的方法，其特征在于，在获取所述视频列表中视频的视频截图集合后，还包括标准化视频截图集合步骤：

将所述视频截图标准化为预定大小的像素阵列；

将所述像素阵列中每个像素的像素值标准化。

3.根据权利要求1所述的方法，其特征在于：在所述接收视频预览请求步骤前还包括训练二分类深度神经网络模型：

获取二分类标引的训练集元素；

处理所述二分类标引的训练集元素；

构建二分类深度神经网络结构；

选择二分类损失函数；

基于所述二分类深度神经网络结构和所述二分类损失函数，训练二分类深度神经网络模型。

4.根据权利要求3所述的方法，其特征在于，所述获取二分类标引的训练集元素包括：

获取来自视频文件的训练集元素；

将所述训练集元素发送至标引客户端，以使得所述训练集元素在所述标引客户端被以二分类形式标引；

接收来自标引客户端的附带有二分类标引信息的训练集元素。

5.根据权利要求3所述的方法，其特征在于，所述处理二分类标引的训练集元素包括：

将所述二分类标引的训练集元素标准化为预定大小的像素阵列；

将所述像素阵列中每个像素的像素值标准化。

6.根据权利要求3所述的方法，其特征在于,所述二分类损失函数为对数损失函数(log-loss)。

7.一种视频预览图生成装置，其特征在于，所述装置包括如下模块：

预览请求接收模块，用于接收视频预览请求；

概率结果获取模块，用于将所述视频截图集合输入到二分类深度神经网络模型，并获得所述模型的输出的概率结果，所述模型的输出的概率结果表示视频截图集合中的视频截图适合作为视频预览图的概率；

8.根据权利要求7所述的装置，其特征在于，概率结果获取模块中，所述装置还包括视频截图集合标准化模块，用于标准化所述视频截图，所述模块包括如下子模块：

截图像素标准化子模块，用于将所述视频截图标准化为预定大小的像素阵列；

截图像素值标准化子模块，用于将所述像素阵列中每个像素的像素值标准化。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括二分类深度神经网络模型训练模块，其包括如下子模块：

二分类训练集元素获取子模块，用于获取二分类标引的训练集元素；

二分类训练集元素处理子模块，用于处理所述二分类标引的训练集元素；

二分类深度神经网络结构构建子模块，用于构建二分类深度神经网络结构；

二分类损失函数选择子模块，用于选择二分类损失函数；

模型训练子模块，用于基于所述二分类深度神经网络结构和所述二分类损失函数，训练二分类深度神经网络模型。

10.根据权利要求9所述的装置，其特征在于，所述训练集元素获取子模块包括：

训练集元素获取子模块，用于获取来自视频文件的训练集元素；

发送子模块，用于将所述训练集元素发送至标引客户端，以使得所述训练集元素在所述标引客户端被以二分类形式标引；

接收子模块，用于接收来自标引客户端的附带有二分类标引信息的训练集元素。

11.根据权利要求9所述的装置，其特征在于，所述处理二分类标引的训练集元素包括：

训练集像素标准化子模块，用于将所述二分类标引的训练集元素标准化为预定大小的像素阵列；

训练集像素值标准化子模块，用于将所述像素阵列中每个像素的像素值标准化。

12.根据权利要求9所述的装置，其特征在于,所述二分类损失函数选择子模块选择对数损失函数(log-loss)。

13.一种服务器，包括权利要求7-12之一所述的装置。

14.一种视频预览图生成系统，用于生成视频预览图，其特征在于，所述系统包括：客户端，服务器，标引客户端；所述服务器包含权利要求7-12之一所述的装置。