CN116033259A

CN116033259A - 生成短视频方法、装置、计算机设备及存储介质

Info

Publication number: CN116033259A
Application number: CN202211639034.6A
Authority: CN
Inventors: 张文文; 陈海江; 张良友
Original assignee: Zhejiang Lishi Technology Co Ltd
Current assignee: Zhejiang Lishi Technology Co Ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-04-28
Anticipated expiration: 2042-12-20
Also published as: CN116033259B

Abstract

本发明属于图像处理领域，涉及一种生成短视频方法、装置、计算机设备及存储介质，方法包括步骤：获取目标人物人脸角度和人体姿态信息，判断目标人物人脸角度和人体姿态信息是否满足录制条件，是则开始录制视频；计算所录制的视频质量得分；对质量得分最高的视频中目标人物进行评价，获得目标人物评价得分列表，对评价得分列表按照得分高低进行排序，从质量得分最高的视频中，按照目标人物评价得分列表高低顺序，截取多段含有目标人物的视频帧；将多段含有目标人物的视频帧连接在一起，生成短视频。可实时处理视频流，录制游客游玩视频，并筛选出较为优质的视频；生成短视频效率高、稳定性好，提升游客使用满意度，可普遍适用于各种景区。

Description

生成短视频方法、装置、计算机设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种生成短视频方法、装置、计算机设备及存储介质。

背景技术

随着人们生活水平的提高，全民旅游、大众旅游越来越普及化。其次，旅游观念，旅游意识形态攀升普遍化；而且，旅游成为了人的追求与梦想，越来越多的人在实践着。目前大多数景区都提供了拍照服务，提供给游客的基本都是参观过程中的照片，有的是已经拍好的电子照片，有的是已经打印好的纸质照片，供游客挑选。照片都是静态展示。游客旅游是一个动态过程，静态的照片无法记录完整的游玩瞬间。依靠人工拍照无法为大量游客提供服务，并且这种服务成本较高。

发明内容

本发明实施例的目的在于提出一种生成短视频方法、装置、计算机设备及存储介质，以解决现有技术中景区依靠人工拍照无法为大量游客提供服务，并且这种服务成本较高的问题。

为了解决上述技术问题，本发明提供一种生成短视频方法，采用了如下所述的技术方案，包括下述步骤：

获取目标人物人脸角度和人体姿态信息，判断所述目标人物人脸角度和人体姿态信息是否满足录制条件，是则开始录制视频；

计算所录制的视频质量得分；

对质量得分最高的视频中所述目标人物进行评价，获得所述目标人物评价得分列表，对所述评价得分列表按照得分高低进行排序，从所述质量得分最高的视频中，按照所述目标人物评价得分列表高低顺序，截取多段含有目标人物的视频帧；

将多段含有目标人物的视频帧连接在一起，生成短视频。

进一步的，所述获取目标人物人脸角度和人体姿态信息，判断所述目标人物人脸角度和人体姿态信息是否满足录制条件，是则开始录制视频的步骤具体包括：

开启摄像头，实时录制所述目标人物的活动状态；

从所述活动状态实时获取所述目标人物人脸角度和人体姿态信息；

调用人脸检测算法、人脸角度检测算法及姿态检测算法，判断所述目标人物人脸角度是否满足录制角度阈值，并且所述目标人物人体姿态是否也满足录制姿态阈值；

是则开始录制视频。

进一步的，所述计算所录制的视频质量得分的步骤具体包括：

逐帧检测所述目标人物在视频中的人脸角度、人脸大小、人脸位置及人体姿态；

依据所述人脸角度、人脸大小、人脸位置及人体姿态信息，计算所述目标人物质量得分；

计算整个录制视频的质量，得出视频质量得分；

将所述目标人物质量得分与视频质量得分，进行加权求和，得出优选视频的最终得分。

进一步的，所述对质量得分最高的视频中所述目标人物进行评价，获得所述目标人物评价得分列表，对所述评价得分列表按照得分高低进行排序，从所述质量得分最高的视频中，按照所述目标人物评价得分列表高低顺序，截取多段含有目标人物的视频的步骤具体包括：

设置所述人脸角度、人脸大小、人脸位置及人体姿态计分规则；

根据所述计分规则，对质量得分最高的视频中所述目标人物进行评价，得到所述人脸角度、人脸大小、人脸位置及人体姿态评价得分列表；

将同一时刻的所述人脸角度、人脸大小、人脸位置及人体姿态评价得分相乘，得到同一时刻的所述目标人物态势得分；

将不同时刻的所述目标人物态势得分按照高低顺序进行排序；

从所述质量得分最高的视频中，按照所述目标人物态势得分高低顺序，截取多个时刻含有目标人物的视频帧。

进一步的，所述计算整个录制视频的质量，得出视频质量得分的步骤具体包括：

对所述整个录制视频进行数据预处理；

对经过数据预处理的所述整个录制视频进行数据建模；

对经过数据建模的所述整个录制视频进行模型训练。

进一步的，所述对所述整个录制视频进行数据预处理的步骤具体包括：

把每一视频帧均分割为G_f*G_f方格，在每一个方格内随机采样一个采样块，所述采样块的大小为S_f*S_f；

把每个所述采样块按照方格的上下左右关系拼接为一个整体，则采样后的画面大小为(G_f*S_f)*(G_f*S_f)；

把(G_f*S_f)*(G_f*S_f)画面输入至深度神经网络评估视频质量；

所述对经过数据预处理的所述整个录制视频进行数据建模的步骤具体包括：

使用Swin-Tiny Transformer作为骨干网络，Swin-Tiny Transformer网络的输出为B*768*7*7的张量，B表示批量大小；

对该输出进行降维，先通过一个1*1的卷积核把通道维降低到64输出B*64*7*7的张量，再通过一个1*1的卷积核把通道维降低到1输出B*1*7*7的张量，再通过一个全局平均池化层把输出的维度降低到B*1*1*1，则每个样本可输出一个质量分数；

使用PLCC、SRCC作为损失函数：loss＝0.7*plcc_loss+0.3*Srcc_loss；

所述对经过数据建模的所述整个录制视频进行模型训练的步骤具体包括：

在Kinetics-400数据集上做预训练，再在收集的数据集上进行微调；

训练时批量大小为16，方格数为7*7，小块大小(patchsize)为32*32，视频帧序列长度为32；

当训练次数到预设的迭代次数或损失降低到预设的损失阈值则停止训练。

进一步的，所述将多段含有目标人物的视频帧连接在一起，生成短视频的步骤具体包括：

设置短视频的时间；

按照所述短视频的时间，将多段含有目标人物的视频帧连接在一起，生成短视频。

为了解决上述技术问题，本发明还提供一种生成短视频装置，采用了如下所述的技术方案，包括：

录制模块，用于获取目标人物人脸角度和人体姿态信息，判断所述目标人物人脸角度和人体姿态信息是否满足录制条件，是则开始录制视频；

计算模块，用于计算所录制的视频质量得分；

评价模块，用于对质量得分最高的视频中所述目标人物进行评价，获得所述目标人物评价得分列表，对所述评价得分列表按照得分高低进行排序，从所述质量得分最高的视频中，按照所述目标人物评价得分列表高低顺序，截取多段含有目标人物的视频帧；

生成模块，用于将多段含有目标人物的视频帧连接在一起，生成短视频。

为了解决上述技术问题，本发明还提供一种计算机设备，采用了如下所述的技术方案，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述的生成短视频方法的步骤。

为了解决上述技术问题，本发明还提供一种计算机可读存储介质，采用了如下所述的技术方案，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的生成短视频方法的步骤。

与现有技术相比，本发明主要有以下有益效果：依据景区监控摄像头，录制目标人物活动视频，使用人脸检测、人脸识别、姿态检测等，对活动视频进行质量评价及目标人物质量评价，选取视频质量高、目标人物质量高的片段生成游客游玩短视频；生成短视频效率高、稳定性好，节省时间，提升游客使用满意度，可普遍适用于各种景区。

附图说明

为了更清楚地说明本发明中的方案，下面将对本发明实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明可以应用于其中的示例性系统架构图；

图2是本发明的生成短视频方法的一个实施例的流程图；

图3是本发明的生成短视频方法中步骤S1的一种具体实施方式的流程图；

图4是本发明的生成短视频方法中步骤S2的一种具体实施方式的流程图；

图5是本发明的生成短视频方法中步骤S3的一种具体实施方式的流程图；

图6是本发明的生成短视频方法中步骤S4的一种具体实施方式的流程图；

图7是本发明的生成短视频方法的另一个实施例的流程图；

图8是本发明的生成短视频方法的另一个实施例中的录制视频流程图；

图9是本发明的生成短视频方法的另一个实施例中的视频优选流程图；

图10是本发明的生成短视频方法的另一个实施例中的视频采样流程图；

图11是本发明的生成短视频装置的一个实施例的结构示意图；

图12是本发明的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明；本发明的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本发明的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本发明方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用第一终端设备101、第二终端设备102或者第三终端设备103通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对第一终端设备101、第二终端设备102、第三终端设备103上显示的页面提供支持的后台服务器。

需要说明的是，本发明实施例所提供的生成短视频方法一般由服务器/终端设备执行，相应地，生成短视频装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

实施例一

继续参考图2，示出了本发明的生成短视频方法的一个实施例的流程图。生成短视频方法，包括以下步骤：

步骤S1，获取目标人物人脸角度和人体姿态信息，判断目标人物人脸角度和人体姿态信息是否满足录制条件，是则开始录制视频。

在本实施例中，生成短视频方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收生成短视频请求。需要指出的是，上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAXX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

图3是本发明的生成短视频方法中步骤S1的一种具体实施方式的流程图。在本实施例的一些可选的实现方式中，如图3所示，步骤S1具体包括：

步骤S11、开启摄像头，实时录制目标人物的活动状态。

可以通过摄像头拍摄目标人物的静态图片，根据静态图片分析目标人物的活动状态；也可以通过摄像头录制一段目标人物的活动状态视频，用于下一步目标人物人脸角度和人体姿态信息获得的依据。

步骤S12、从活动状态中实时获取目标人物人脸角度和人体姿态信息。

根据过摄像头拍摄目标人物的静态图片，或者从摄像头录制的一段目标人物的活动状态视频中截图多个连续的视频帧；判断静态图片或者多个连续的视频帧是否有目标人物，如果有，则保留静态图片或者多个连续的视频帧，如果没有，则为了节省空间，及时删除静态图片或者多个连续的视频帧。直到所拍摄的静态图片或者截图的视频帧中出现目标人物为止。

步骤S13、调用人脸检测算法、人脸角度检测算法及姿态检测算法，判断目标人物人脸角度是否满足录制角度阈值，并且目标人物人体姿态是否也满足录制姿态阈值。

通过现有技术中使用的深度学习神经网络进行人脸识别。如深度学习神经网络的多角度人脸识别算法，包括流程：构建深度学习训练数据集；训练一个深度人脸分类器；应用深度人脸分类器进行人脸检测。如可以将侧面图像作为输入，相应的正面图像作为输出，监督模型学习出从不同姿态的侧面图像到正面图像的映射，增加了识别中的有效面部信息。

具体实施时，可以设置录制角度阈值为30～150°，录制角度阈值也可以根据实际需要设置。录制姿态阈值可以根据实际需要选择。判断目标人物人脸角度是否在录制角度阈值范围内，且目标人物人体姿态是否也在录制姿态阈值范围内。

步骤S14、是则开始录制视频。

如果目标人物人脸角度在录制角度阈值范围内，且目标人物人体姿态也在录制姿态阈值范围内，则开始录制视频，并且存储所录制的视频。否则为了节省存储空间，删除不符合条件的视频。

步骤S2，计算所录制的视频质量得分。

为了生成更清晰，目标人物角度及姿态等更优的短视频，则对所录制的视频质量进行进一步的评价。

图4是本发明的生成短视频方法中步骤S2的一种具体实施方式的流程图。在本实施例的一些可选的实现方式中，如图4所示，步骤S2具体包括：

步骤S21、逐帧检测目标人物在视频中的人脸角度、人脸大小、人脸位置及人体姿态。

步骤S22、依据人脸角度、人脸大小、人脸位置及人体姿态信息，计算目标人物质量得分。

步骤S23、计算整个录制视频的质量，得出视频质量得分。

在本实施例的一些可选的实现方式中，步骤S23具体包括：

步骤S231、对整个录制视频进行数据预处理。

具体实施时，把每一视频帧均分割为G_f*G_f方格，在每一个方格内随机采样一个采样块，采样块的大小为S_f*S_f；把每个采样块按照方格的上下左右关系拼接为一个整体，则采样后的画面大小为(G_f*S_f)*(G_f*S_f)；把(G_f*S_f)*(G_f*S_f)画面输入至深度神经网络评估视频质量

步骤S232、对经过数据预处理的整个录制视频进行数据建模。

具体实施时，使用Swin-Tiny Transformer作为骨干网络，Swin-TinyTransformer网络的输出为B*768*7*7的张量，B表示批量大小；对该输出进行降维，先通过一个1*1的卷积核把通道维降低到64输出B*64*7*7的张量，再通过一个1*1的卷积核把通道维降低到1输出B*1*7*7的张量，再通过一个全局平均池化层把输出的维度降低到B*1*1*1，则每个样本可输出一个质量分数；使用PLCC、SRCC作为损失函数：loss＝0.7*plcc_loss+0.3*srcc_loss。

步骤S233、对经过数据建模的整个录制视频进行模型训练。

具体实施时，在Kinetics-400数据集上做预训练，再在收集的数据集上进行微调；训练时批量大小为16，方格数为7*7，小块大小(patch size)为32*32，视频帧序列长度为32；当训练次数到预设的迭代次数或损失降低到预设的损失阈值则停止训练。

步骤S24、将目标人物质量得分与视频质量得分，进行加权求和，得出优选视频的最终得分。

步骤S3，对质量得分最高的视频中目标人物进行评价，获得目标人物评价得分列表，对评价得分列表按照得分高低进行排序，从质量得分最高的视频中，按照目标人物评价得分列表高低顺序，截取多段含有目标人物的视频帧。

图5是本发明的生成短视频方法中步骤S3的一种具体实施方式的流程图。在本实施例的一些可选的实现方式中，如图5所示，步骤S3具体包括：

步骤S31、设置人脸角度、人脸大小、人脸位置及人体姿态计分规则；

步骤S32、根据计分规则，对质量得分最高的视频中目标人物进行评价，得到人脸角度、人脸大小、人脸位置及人体姿态评价得分列表；

步骤S33、将同一时刻的人脸角度、人脸大小、人脸位置及人体姿态评价得分相乘，得到同一时刻的目标人物态势得分；

步骤S34、将不同时刻的目标人物态势得分按照高低顺序进行排序；

步骤S35、从质量得分最高的视频中，按照目标人物态势得分高低顺序，截取多个时刻含有目标人物的视频帧。

步骤S4，将多段含有目标人物的视频帧连接在一起，生成短视频。

图6是本发明的生成短视频方法中步骤S4的一种具体实施方式的流程图。在本实施例的一些可选的实现方式中，如图6所示，步骤S4具体包括：

设置短视频的时间；按照短视频的时间，将多段含有目标人物的视频帧连接在一起，生成短视频。

为了更加人性化，可以设置短视频的时间，例如10s、15s、20s等，可以根据实际需要进行设置。

实施本实施例，依据景区监控摄像头，录制目标人物活动视频，使用人脸检测、人脸识别、姿态检测等，对活动视频进行质量评价及目标人物质量评价，选取视频质量高、目标人物质量高的片段生成游客游玩短视频；生成短视频效率高、稳定性好，节省时间，提升游客使用满意度，可普遍适用于各种景区。

需要强调的是，为进一步保证上述短视频信息的私密和安全性，上述短视频信息还可以存储于一区块链的节点中。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

实施例二

图7是本发明的生成短视频方法的另一个实施例的流程图。如图7所示，在实施例一的基础上，一种生成短视频方法，包括步骤：

拉取摄像头实时RTSP流，实时地调用人脸检测算法、人脸角度检测算法、姿态检测算法。如果发现人脸角度较正并且姿态满足一定要求(比如举手状态)，则认为游客在触发打卡操作，开始录制游客视频，并且为该游客生成一个专属的人物id，注册该游客人脸到人脸库中。

对后续的视频帧调用人脸识别算法，以判断该游客是否从画面中消失。如果该游客从画面中消失一段时间则停止录制视频，并且在数据库中记录游客人物id和视频的对应关系。游客可以在多个打卡点下录制多个视频。

当游客想要找到他的打卡视频时，可上传包含游客人脸的照片。后台对该照片调用人脸识别算法，找到该游客的人物id，再通过id找到录制的多个视频。

找到多个视频后，再调用视频优选算法选出最优的5s视频片段返回给游客。

图8是本发明的生成短视频方法的另一个实施例中的录制视频流程图。如图8所示，开始录像：开始录像的条件可以是目标人物的人脸角度和姿态满足一定要求。使用人脸检测算法、人脸角度检测算法、姿态检测算法来做判断。继续录像：继续录像的条件是目标人物的人脸还在视频帧中。使用人脸检测算法、人脸识别算法来做判断。停止录像：停止录像的条件是人物的人脸从画面中消失一定时间，例如5s等。使用人脸检测算法、人脸识别算法来做判断。

图9是本发明的生成短视频方法的另一个实施例中的视频优选流程图。如图9所示，视频优选主要包含两部分，一个是逐帧检测目标人物在视频中人脸角度、人脸大小、人脸位置、人体姿态等，依据这些指标得出人物质量得分。另一个是计算整个视频的质量，得出视频质量得分。这两个质量得分加权求和得出优选视频的最终得分。最终得分用于多个视频比较时，选出最优的一个视频。

人物质量评价主要依据人脸角度、人脸大小、人脸位置、人体姿态等。人脸角度越正，得分越高；人脸大小越大，得分越高；人脸位置越靠近画面中心，得分越高；人体姿态与预设的几个姿态越接近，得分越高。

视频质量评价包括数据采集、数据预处理、数据建模、模型训练等步骤。数据采集：保存各个景区监控摄像头下游客游玩的视频，采样机器打标的方式对视频做出评价，标出每个视频的质量得分，组成视频质量评价数据集。

图10是本发明的生成短视频方法的另一个实施例中的视频采样流程图。如图10所示，为减少计算量，对高分辨率的视频采用如下采样方法进行采样：把每一帧视频帧均为分割为G_f*G_f方格，在每一个方格内随机采样一个小块，小块的大小为S_f*S_f，然后把每个小块按照方格的上下左右关系拼接为一个整体，因此最终采样后的画面大小为(G_f*S_f)*(G_f*S_f)。把最终采样后的画面输入深度神经网络评估视频质量。在采样时，同一帧画面内，小块的位置是随机的。但为了保留时序信息，相邻两帧小块的位置是要对齐的。即视频帧t和视频帧t+1小块的位置要保持一致。数据建模：使用Swin-Tiny Transformer作为骨干网络。该网络为现有技术，此处不再赘述该网络结构。该网络的输出为B*768*7*7的张量，B表示批量大小。接下来对该输出进行降维，先通过一个1*1的卷积核把通道维降低到64输出B*64*7*7的张量，再通过一个1*1的卷积核把通道维降低到1输出B*1*7*7的张量，再通过一个全局平均池化层把输出的维度降低到B*1*1*1。由此，每个样本可输出一个质量分数。使用PLCC、SRCC作为损失函数：loss＝0.7*plcc_loss+0.3*srcc_loss。

模型训练：先在Kinetics-400数据集上做预训练，在再自己的收集的数据集上做微调。训练时批量大小为16，方格数为7*7，小块大小(patch size)为32*32，视频帧序列长度为32。当训练次数到预设的迭代次数或损失降低到预设的损失阈值则停止训练。

实施例三

进一步参考图11，作为对上述图2或者图7所示方法的实现，本发明提供了一种生成短视频装置的一个实施例，该装置实施例与图2或者图7所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图11所示，本实施例生成短视频装置40包括：录制模块41、计算模块42、评价模块43以及生成模块44。其中：

录制模块41，用于获取目标人物人脸角度和人体姿态信息，判断目标人物人脸角度和人体姿态信息是否满足录制条件，是则开始录制视频；

计算模块42，用于计算所录制的视频质量得分；

评价模块43，用于对质量得分最高的视频中目标人物进行评价，获得目标人物评价得分列表，对评价得分列表按照得分高低进行排序，从质量得分最高的视频中，按照目标人物评价得分列表高低顺序，截取多段含有目标人物的视频帧；

生成模块44，用于将多段含有目标人物的视频帧连接在一起，生成短视频。

实施例四

为解决上述技术问题，本发明实施例还提供计算机设备。具体请参阅图12，图12为本实施例计算机设备基本结构框图。

计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有组件存储器61、处理器62和网络接口63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field -Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器61至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器61可以是计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，存储器61也可以是计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，存储器61还可以既包括计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，存储器61通常用于存储安装于计算机设备6的操作系统和各类应用软件，例如生成短视频方法的计算机可读指令等。此外，存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器62在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制计算机设备6的总体操作。本实施例中，处理器62用于运行存储器61中存储的计算机可读指令或者处理数据，例如运行生成短视频方法的计算机可读指令。

网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在计算机设备6与其他电子设备之间建立通信连接。

实施例五

本发明还提供了另一种实施方式，即提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可读指令，计算机可读指令可被至少一个处理器执行，以使至少一个处理器执行如上述的生成短视频方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例方法。

显然，以上所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，附图中给出了本发明的较佳实施例，但并不限制本发明的专利范围。本发明可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。

Claims

1.一种生成短视频方法，其特征在于，包括下述步骤：

计算所录制的视频质量得分；

将多段含有目标人物的视频帧连接在一起，生成短视频。

2.根据权利要求1所述的生成短视频方法，其特征在于，所述获取目标人物人脸角度和人体姿态信息，判断所述目标人物人脸角度和人体姿态信息是否满足录制条件，是则开始录制视频的步骤具体包括：

开启摄像头，实时录制所述目标人物的活动状态；

是则开始录制视频。

3.根据权利要求1所述的生成短视频方法，其特征在于，所述计算所录制的视频质量得分的步骤具体包括：

计算整个录制视频的质量，得出视频质量得分；

4.根据权利要求3所述的生成短视频方法，其特征在于，所述对质量得分最高的视频中所述目标人物进行评价，获得所述目标人物评价得分列表，对所述评价得分列表按照得分高低进行排序，从所述质量得分最高的视频中，按照所述目标人物评价得分列表高低顺序，截取多段含有目标人物的视频的步骤具体包括：

5.根据权利要求3所述的生成短视频方法，其特征在于，所述计算整个录制视频的质量，得出视频质量得分的步骤具体包括：

对所述整个录制视频进行数据预处理；

对经过数据预处理的所述整个录制视频进行数据建模；

对经过数据建模的所述整个录制视频进行模型训练。

6.根据权利要求5所述的生成短视频方法，其特征在于，所述对所述整个录制视频进行数据预处理的步骤具体包括：

把(G_f*S_f)*(G_f*S_f)画面输入至深度神经网络评估视频质量；

使用PLCC、SRCC作为损失函数：loss＝0.7*plcc_loss+0.3*srcc_loss；

7.根据权利要求1至6任意一项所述的生成短视频方法，其特征在于，所述将多段含有目标人物的视频帧连接在一起，生成短视频的步骤具体包括：

设置短视频的时间；

8.一种生成短视频装置，其特征在于，包括：

计算模块，用于计算所录制的视频质量得分；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的生成短视频方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的生成短视频方法的步骤。