CN114500879A

CN114500879A - 视频数据处理方法、装置、设备及存储介质

Info

Publication number: CN114500879A
Application number: CN202210122805.8A
Authority: CN
Inventors: 尚焱
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-05-13

Abstract

本申请提供了一种视频数据处理方法、装置、设备及存储介质，该方法包括：获取待处理视频中的视频流与音频流，使用时空域双流检测模型获取视频流中的每个视频帧的显著性区域，时空域双流检测模型包括时间流网络模型和空间流网络模型，根据每个视频帧的显著性区域对每个视频帧进行裁剪，得到裁剪后视频流，裁剪后视频流中的每个视频帧均包括显著性区域，对音频流进行音频片段筛选，得到音频输出片段，对裁剪后视频流和音频输出片段进行重新编码，得到短视频。从而，提高了短视频的生成效率和短视频生成效果的可控度。

Description

视频数据处理方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其一种视频数据处理方法、装置、设备及存储介质。

背景技术

短视频是指在各种新媒体上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容，时长在几秒到几分钟不等。随着各类视频播放平台的普及，衍生出了各式各样的短视频。由于移动互联网平台的快速发展，短视频需求日益扩大。如何使用传统的多媒体视频内容，高效、快速地生成短视频，是当前互联网制作领域最迫切的需求。

目前，短视频的制作一般是依靠编辑人员进行视频内容编辑生成短视频，往往需要人工剪辑、人工合成视频以及人工配乐等，短视频的生成效率较低，且短视频生成效果的可控度也较低。

发明内容

本申请提供一种视频数据处理方法、装置、设备及存储介质，以提高短视频的生成效率以及提高短视频生成效果的可控度。

第一方面，提供一种视频数据处理方法，包括：

获取待处理视频中的视频流与音频流；

使用时空域双流检测模型获取所述视频流中的每个视频帧的显著性区域，所述时空域双流检测模型包括时间流网络模型和空间流网络模型；

根据所述每个视频帧的显著性区域对所述每个视频帧进行裁剪，得到裁剪后视频流，所述裁剪后视频流中的每个视频帧均包括显著性区域；

对所述音频流进行音频片段筛选，得到音频输出片段；

对所述裁剪后视频流和所述音频输出片段进行重新编码，得到短视频。

第二方面，提供一种视频数据处理装置，包括：

第一获取模块，用于获取待处理视频中的视频流与音频流；

第二获取模块，用于使用时空域双流检测模型获取所述视频流中的每个视频帧的显著性区域，所述时空域双流检测模型包括时间流网络模型和空间流网络模型；

视频裁剪模块，用于根据所述每个视频帧的显著性区域对所述每个视频帧进行裁剪，得到裁剪后视频流，所述裁剪后视频流中的每个视频帧均包括显著性区域；

音频筛选模块，用于对所述音频流进行音频片段筛选，得到音频输出片段；

编码模块，用于对所述裁剪后视频流和所述音频输出片段进行重新编码，得到短视频。

第三方面，提供一种计算机设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，执行如第一方面或其各实现方式中的方法。

第四方面，提供一种计算机可读存储介质，用于存储计算机程序，计算机程序使得计算机执行如第一方面或其各实现方式中的方法。

第五方面，提供一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行如第一方面或其各实现方式中的方法。

综上，在本申请中，通过先获取待处理视频中的视频流与音频流，对视频流和音频流分开进行处理，对于视频流，使用时空域双流检测模型获取视频流中的每个视频帧的显著性区域，时空域双流检测模型包括时间流网络模型和空间流网络模型，根据每个视频帧的显著性区域对每个视频帧进行裁剪，得到裁剪后视频流；对于音频流，对音频流进行音频片段筛选，得到音频输出片段，最后对裁剪后视频流和音频输出片段进行重新编码，得到短视频。从而，实现了自动生成短视频，提高了短视频的生成效率，由于是根据每个视频帧的显著性区域进行裁剪，裁剪后视频流中的每个视频帧均包括显著性区域，因此可保证短视频生成效果，因此提高了短视频生成效果的可控度。

进一步地，通过在对视频流进行裁剪之前，对视频流进行时域片段切分与筛选，得到M个候选视频片段，再对这M个候选视频片段进行视频裁剪，可实现时域的片段选择和裁剪，避免了智能裁剪只能在空域上进行裁剪的局限性。通过在时域上进行视频片段的选择可以产生任意时长的短视频，输出的短视频内容更加符合人的主观兴趣，提高短视频的生成效果。

进一步地，通过对裁剪后视频流中的每一视频帧进行目标物检测并去除，可进一步提高所生成的短视频的主观效果，例如，去除黑边、字幕或水印等目标物，可避免这些目标物对画面的遮挡。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频数据处理方法的应用场景示意图；

图2为本申请实施例提供的一种视频数据处理方法的流程示意图；

图3为本申请实施例提供的一种视频数据处理方法的流程图；

图4为本申请实施例提供的一种视频数据处理方法中获取显著性区域的示意图；

图5为本申请实施例提供的一种视频数据处理方法中获取显著性区域的示意图；

图6为本申请实施例提供的一种视频数据处理方法的流程图；

图7为本申请实施例提供的一种视频数据处理方法的流程示意图；

图8为通过时空域双流检测模型获取视频流中一个视频帧的显著性区域的流程示意图；

图9为本申请实施例提供的一种视频数据处理方法的流程图；

图10为本申请实施例提供的一种视频数据处理装置的结构示意图；

图11是本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在介绍本申请技术方案之前，下面先对本申请相关知识进行介绍：

1、人工智能(Artificial Intelligence,AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2、计算机视觉技术(Computer Vision,CV)，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例提供的技术方案主要涉及计算机视觉技术中的图像识别、视频处理、人脸识别等技术。具体可以通过下述实施例进行说明。

3、显著性区域，也称为感兴趣区域(Region of Interest)，指的是在计算机视觉和图像处理中，人类主观重点关注的图像区域。

如上，现有的短视频的制作方法中，主要是依靠人工进行，短视频的生成效率较低，且短视频生成效果的可控度也较低。为了解决这一技术问题，本申请中，通过短视频智能生产，实现短视频的自动生成。具体是通过先获取待处理视频中的视频流与音频流，使用时空域双流检测模型获取视频流中的每个视频帧的显著性区域，时空域双流检测模型包括时间流网络模型和空间流网络模型，根据每个视频帧的显著性区域对每个视频帧进行裁剪，得到裁剪后视频流，对音频流进行音频片段筛选，得到音频输出片段，最后对裁剪后视频流和音频输出片段进行重新编码，得到短视频。从而实现了短视频的自动生成，提高了短视频的生成效率和短视频生成效果的可控度。

在一种可实施的方式中，待处理视频可以是专业生产内容(ProfessionalGenerated Content，PGC)视频，本申请实施例提供的视频数据处理方法，可以根据PGC视频生成短视频。通过根据PGC视频生成短视频，一方面增加了短视频平台的内容多样性，另一方面增加了短视频平台的分发量，同时还可以改变移动端的交互体验，可以提高用户体验，比如一音乐应用程序(APP)中的音乐影片功能，通过短视频与播放音乐的结合使得用户在听音乐的同时也能看到精彩的MV短片。

应理解的是，本申请技术方案可以应用于如下场景，但不限于：

示例性的，图1为本申请实施例提供的一种视频数据处理方法的应用场景示意图，如图1所示，终端设备110可以与服务器120进行通信，其中，终端设备110具有流媒体播放功能，服务器120具有图形处理功能，例如：图像分割、图像融合功能，服务器120还具有视频流和音频流的数据传输功能，例如：视频编码功能。

在一些可实现方式中，图1所示的应用场景中还可以包括：基站、核心网侧设备等，此外，图1示例性地示出了一个终端设备、一台服务器，实际上可以包括其他数量的终端设备和服务器，本申请对此不做限制。

在一些可实现方式中，图1中的服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器。本申请对此不做限制。

在一些可实现方式中，如图1所示的终端设备110可以安装有应用客户端，当该应用客户端运行于终端设备中时，可以与服务器120进行数据交互。其中，该应用客户端可以为一种能够加载并显示视频数据的应用，例如，这里的的客户端具体可以包括：车载客户端、智能家居客户端、游戏客户端、多媒体客户端(如视频客户端)、社交客户端以及资讯类客户端(如新闻客户端)。

可选的，本申请实施例中，终端设备可以是一类具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作系统、具有较强处理能力的设备。终端设备可以是智能手机、客厅电视、平板电脑、车载终端、玩家游戏终端，如掌上游戏主机等，但不限于此。

在一种可实现的方式中，服务器120和终端设备110分别可以执行本申请实施例提供的视频数据处理方法，或者，可选的，服务器120承担主要的视频数据处理工作，终端设备110承担次要的视频数据处理工作。

示例性的，图2为本申请实施例提供的一种视频数据处理方法的流程示意图，如图2所示，在一种可实现的方式中，终端设备110将待处理视频发送至服务器120，服务器120接收到待处理视频后，执行本申请实施例提供的视频数据处理方法，根据待处理视频生成短视频，然后将该短视频发送至其它终端设备130，也可以发送至终端设备110和其它终端设备130，可以理解的是，终端设备130可以是一个或多个。可选的，上述待处理视频可以是专业生产内容(ProfessionalGenerated Content，PGC)视频。

下面将对本申请技术方案进行详细阐述：

图3为本申请实施例提供的一种视频数据处理方法的流程图，该方法例如可以由如图1或图2所示的服务器120执行，但不限于此，如图3所示，该方法包括如下步骤：

S101、获取待处理视频中的视频流与音频流。

可选的，本申请实施例中，待处理视频可以是PGC视频。在获取待处理视频中的视频流与音频流时，可以使用音视频处理工具(例如FFmpeg)，将音频流与视频流剥离。得到音频流与视频流后，对音频流与视频流分别进行处理。

S102、使用时空域双流检测模型获取视频流中的每个视频帧的显著性区域，时空域双流检测模型包括时间流网络模型和空间流网络模型。

S103、根据每个视频帧的显著性区域对每个视频帧进行裁剪，得到裁剪后视频流，裁剪后视频流中的每个视频帧均包括显著性区域。

具体地，本申请实施例中的显著性区域可以为人眼观看图像时关注的区域，例如可以为感兴趣区域。例如，人眼在观看图像时关注的是人物。则人物对应的区域即为感兴趣区域。又例如，有关动物主题的视频里，动物对应的区域即为感兴趣区域。显著性区域还可以预设，本实施例对此不做限制。

可选的，本实施例中的时空域双流检测模型可以是预先训练的神经网络模型，可以通过样本数据训练时空域双流检测模型的参数，进而得到时空域双流检测模型，样本数据包括输入视频和输出视频，输入视频可以标定每个视频帧的显著性区域。

具体地，使用时空域双流检测模型获取视频流中的每个视频帧的显著性区域，可以是：将视频流输入时空域双流检测模型，输出该视频流中每个视频帧的显著性区域。

通过时空域双流检测模型获取到视频流中每个视频帧的显著性区域后，即可根据每个视频帧的显著性区域对每个视频帧进行裁剪，例如，对于每个视频帧，可以以该视频帧的显著性区域的边缘或者围绕显著性区域延拓预设长度和预设宽度的边缘为裁剪界限，对该视频帧进行裁剪，得到裁剪后的视频帧，根据视频流中所有视频帧对应的裁剪后的视频帧得到裁剪后视频流，通过上述裁剪，裁剪后视频流中的每个视频帧均包括显著性区域。

在一种可实施的方式中，时空域双流检测模型包括时间流网络模型和空间流网络模型，S102中使用时空域双流检测模型获取视频流中的每个视频帧的显著性区域，可以包括：

S1021、对于视频流中的当前视频帧，若当前视频帧之前的视频帧的数量大于或等于n-1，根据时间流网络模型、空间流网络模型、当前视频帧之前的n-1个视频帧和当前视频帧，获取当前视频帧的显著性区域，n为预设正整数。

S1022、若当前视频帧之前的视频帧的数量小于n-1，根据空间流网络模型和当前视频帧，获取当前视频帧的显著性区域。

具体地，当前视频帧为上述视频流中的任一视频帧，对于视频流中的每一视频帧(称为当前视频帧)，若该当前视频帧之前的视频帧的数量大于或等于n-1，则根据时间流网络模型、空间流网络模型以及包括该当前视频帧在内的n个视频帧(其中有n-1个历史视频帧)获取当前视频帧的显著性区域。若当前视频帧之前的视频帧的数量小于n-1，则根据空间流网络模型和当前视频帧，获取当前视频帧的显著性区域。可以理解的是，例如n＝7，视频流中的第1个视频帧、第2个视频帧、第3个视频帧、第4个视频帧、第5个视频帧和第6个视频帧均是根据空间流网络模型来获取每个视频帧的显著性区域。可选的，本申请实施例中，n为奇数，如3、5、7或9等等。

进一步地，作为一种可实施的方式，请结合图4，图4为本申请实施例提供的一种视频数据处理方法中获取显著性区域的示意图，S1021中的根据时间流网络模型、空间流网络模型、当前视频帧之前的n-1个视频帧和当前视频帧，获取当前视频帧的显著性区域，具体可以包括：

S1、将当前视频帧之前的n-1个视频帧和当前视频帧输入时间流网络模型，输出时间显著性特征序列，时间显著性特征序列包括当前视频帧之前的n-1个视频帧中每个视频帧的时间显著性特征和当前视频帧的时间显著性特征。

S2、将当前视频帧输入空间流网络模型，输出当前视频帧的空间显著性特征。

S3、接着，对时间显著性特征序列和当前视频帧的空间显著性特征进行融合，得到当前视频帧的显著性区域。

作为一种可实施的方式，S1022中的根据空间流网络模型和当前视频帧，获取当前视频帧的显著性区域，具体可以为：

将当前视频帧输入空间流网络模型，输出当前视频帧的空间显著性特征，根据当前视频帧的空间显著性特征，得到当前视频帧的显著性区域。即，可以将当前视频帧的空间显著特征作为当前视频帧的显著性区域。

进一步地，作为一种可实施的方式，图5为本申请实施例提供的一种视频数据处理方法中获取显著性区域的示意图，如图5所示，时间流网络模型包括第一特征提取网络模型和时间显著性预测网络模型，S1中将当前视频帧之前的n-1个视频帧和当前视频帧输入时间流网络模型，输出时间显著性特征序列，具体可以为：

通过第一特征提取网络模型对当前视频帧之前的n-1个视频帧和当前视频帧分别进行视觉特征提取，得到n个视频帧的视觉特征，将n个视频帧的视觉特征输入时间显著性预测网络模型，输出时间显著性特征序列。

可选的，时间显著性预测网络模型具体用于：对n个视频帧的视觉特征进行3D卷积，得到第一卷积结果，对当前视频帧之前的n-1个视频帧和当前视频帧分别进行2D卷积，得到第二卷积结果，对第一卷积结果和第二卷积结果进行2D卷积，得到第三卷积结果，对第三卷积结果进行3D卷积，得到时间显著性特征序列。

作为一种可实施的方式，如图5所示，空间流网络模型可以包括第二特征提取网络模型和空间显著性预测网络模型，S2中将当前视频帧输入空间流网络模型，输出当前视频帧的空间显著性特征，具体可以为：

通过第二特征提取网络模型对当前视频帧进行视觉特征提取，得到当前视频帧的视觉特征，将当前视频帧的视觉特征输入空间显著性预测网络模型，输出当前视频帧的空间显著性特征。

可选的，空间显著性预测网络模型具体用于：对当前视频帧的视觉特征进行2D卷积，得到第四卷积结果，对当前视频帧进行2D卷积，得到第五卷积结果，对第四卷积结果和第五卷积结果进行2D卷积，得到第六卷积结果，对第六卷积结果进行2D卷积，得到当前视频帧的空间显著性特征。

本申请实施例中，可选的，第一特征提取网络模型和第二特征提取网络模型的参数相同。

S104、对音频流进行音频片段筛选，得到音频输出片段。

具体地，在对音频流进行音频片段筛选时，可以根据业务需求进行音频片段筛选方式。本实施例中以筛选MV视频时采用的饮片片段筛选方式为例，具体可以为：从待处理视频中抽取完整的音乐音频，然后对音频进行人声的起始点检测和音乐的高潮检测，人声的起始点检测会输出在每秒的人声置信度，音乐高潮检测会输出时间区间并且评估每个区间的置信度分值，结合人声的起始点和音乐高潮区间的重叠区域作为最终的音乐输出片段。

S105、对裁剪后视频流和音频输出片段进行重新编码，得到短视频。

可选的，为了适配业务方不同的编码要求，并且将裁剪后视频流和音频输出片段合并为完整的短视频，可以使用音视频处理工具(FFmpeg)对视频和音频进行重新编码，业务方可以指定码率、帧率、编码器类型和文件格式等常用的音视频编码参数。例如，终端设备在发送待处理视频至服务器时，还可以发送码率、帧率、编码器类型和文件格式等常用的音视频编码参数至服务器。服务器收到这些音视频编码参数后，可根据这些音视频编码参数对裁剪后视频流和音频输出片段进行重新编码，得到短视频。

本申请提供的视频数据处理方法，通过先获取待处理视频中的视频流与音频流，对视频流和音频流分开进行处理，对于视频流，使用时空域双流检测模型获取视频流中的每个视频帧的显著性区域，时空域双流检测模型包括时间流网络模型和空间流网络模型，根据每个视频帧的显著性区域对每个视频帧进行裁剪，得到裁剪后视频流；对于音频流，对音频流进行音频片段筛选，得到音频输出片段，最后对裁剪后视频流和音频输出片段进行重新编码，得到短视频。从而，实现了自动生成短视频，提高了短视频的生成效率，由于是根据每个视频帧的显著性区域进行裁剪，裁剪后视频流中的每个视频帧均包括显著性区域，因此可保证短视频生成效果，因此提高了短视频生成效果的可控度。

本申请实施例中，通过使用基于显著性区域进行视频裁剪，使得画面的裁剪不受具体检测目标的限制，可应用的视频品类更加广泛。

图6为本申请实施例提供的一种视频数据处理方法的流程图，该方法例如可以由如图1或图2所示的服务器120执行，但不限于此，如图6所示，本实施例的方法在图3所示方法的基础上，进一步地，在S102之前，还可以包括：

S106、对视频流进行时域片段切分与筛选，得到M个候选视频片段，M为正整数。

相应的，S102可以为：S102’、对M个候选视频片段中的每个候选视频片段，使用时空域双流检测模型获取每个候选视频片段中的每个视频帧的显著性区域。

相应的，S103可以为：S103’、根据每个视频帧的显著性区域对每个视频帧进行裁剪，得到M个裁剪后候选视频片段，将M个裁剪后候选视频片段组成裁剪后视频流。

即就是说，对于M个候选视频片段中的每个候选视频片段，均根据其包括的视频帧的显著性区域进行裁剪，例如有2个候选视频片段，对第1个候选视频片段，根据其包括的视频帧的显著性区域进行裁剪，得到第1个裁剪后候选视频片段，对第2个候选视频片段，根据其包括的视频帧的显著性区域进行裁剪，得到第2个裁剪后候选视频片段，将第1个裁剪后候选视频片段和第2个候选视频片段组成裁剪后视频流。

其中，可选的，S106具体可以包括：

S1061、根据视频场景，对视频流进行时域片段切分，得到多个视频片段。

一般地，待处理视频大都是基于多个场景组成的，因此剥离出的视频流也是基于多个场景组成的，因此可根据视频场景对视频流进行片段切分，片段切分的算法可以使用基于内容相似度的方法或者基于深度特征的深度学习方法。

S1062、根据预设筛选方式，从多个视频片段中选择出M个候选视频片段。

具体地，对视频流进行片段切分后，可以根据预设的筛选方式从多个视频片段中选择出所需的候选视频片段。

可选的，预设筛选方式可以包括：跳过片头片尾、基于人脸检测的方式和美学评估筛选方式中的至少一种。预设筛选方式还可以是其它方式，本实施例对此不做限制。

可选的，人脸检测可以根据待处理视频对应的业务需求对人脸位置信息、人脸大小和人脸角度等进行预先设置。

可选的，预设筛选方式为基于人脸检测的方式时，根据预设筛选方式，从多个视频片段中选择出M个候选视频片段，具体可以为：

根据预设条件对多个视频片段中的每个视频片段中的视频帧，筛选出满足预设条件的视频帧，预设条件包括人脸位置信息、人脸大小和人脸角度中的至少一项，根据多个视频片段中满足预设条件的视频帧，得到M个候选视频片段，每个视频片段中满足预设条件的视频帧组成一个候选视频片段。

可选的，预设筛选方式为美学评估筛选方式时，根据预设筛选方式，从多个视频片段中选择出M个候选视频片段，具体可以为：

对多个视频片段中的每个视频片段中的视频帧，筛选出画面美学分数大于预设阈值的视频帧，根据多个视频片段中画面美学分数大于预设阈值的视频帧，得到M个候选视频片段，每个视频片段中画面美学分数大于预设阈值的视频帧组成一个候选视频片段。

可以理解的是，根据上述可选的预设筛选方式，从多个视频片段中选择出M个候选视频片段，M可能小于切分的多个视频片段的数量，也可能等于切分的多个视频片段的数量。

本实施例提供的视频数据处理方法，通过在对视频流进行裁剪之前，对视频流进行时域片段切分与筛选，得到M个候选视频片段，再对这M个候选视频片段进行视频裁剪，可实现时域的片段选择和裁剪，避免了智能裁剪只能在空域上进行裁剪的局限性。通过在时域上进行视频片段的选择可以产生任意时长的短视频，输出的短视频内容更加符合人的主观兴趣，提高短视频的生成效果。

进一步地，在上述实施例的基础上，本申请实施例的方法还可以包括：

对裁剪后视频流中的每一视频帧进行目标物检测，目标物包括黑边、字幕和水印中的至少一种，去除检测到的目标物，得到新的裁剪后视频流。

例如，目标物为水印时，可以采用基于OCR的字符识别技术检测到画面中的文字区域并对文字区域进行水印的关键词匹配和位置统计，最后去除水印，达到更好的主观效果。

相应的，S105中对裁剪后视频流和音频输出片段进行重新编码，得到短视频，具体可以为：对新的裁剪后视频流和音频输出片段进行重新编码，得到短视频。

本申请实施例中，通过对裁剪后视频流中的每一视频帧进行目标物检测并去除，可进一步提高所生成的短视频的主观效果，例如，去除黑边、字幕或水印等目标物，可避免这些目标物对画面的遮挡。

下面结合一个具体的实施例，对本申请提供的视频数据处理方法的技术方案进行详细说明。

图7为本申请实施例提供的一种视频数据处理方法的流程示意图，如图7所示，本实施例的方法可以包括：

S201、获取待处理视频中的视频流与音频流。

本实施例中，待处理视频可以是PGC视频。可以使用音视频处理工具将音频流与视频流剥离。得到音频流与视频流后，对音频流与视频流分别进行处理。

S202、对视频流进行时域片段切分与筛选，得到M个候选视频片段，M为正整数。

具体地，在本实施例中，S202具体可以为：先根据视频场景，对视频流进行时域片段切分，得到多个视频片段。接着根据预设筛选方式，从多个视频片段中选择出M个候选视频片段。

其中，预设筛选方式可以包括：跳过片头片尾、基于人脸检测的方式和美学评估筛选方式中的至少一种。预设筛选方式还可以是其它方式，本实施例对此不做限制。基于人脸检测的方式中，可以根据待处理视频对应的业务需求对人脸位置信息、人脸大小和人脸角度等进行预先设置。

S203、对M个候选视频片段中的每个候选视频片段，使用时空域双流检测模型获取每个候选视频片段中的每个视频帧的显著性区域，时空域双流检测模型包括时间流网络模型和空间流网络模型，根据每个视频帧的显著性区域对每个视频帧进行裁剪，得到M个裁剪后候选视频片段，将M个裁剪后候选视频片段组成裁剪后视频流。

具体地，本实施例中，对M个候选视频片段中的每个候选视频片段，使用时空域双流检测模型获取每个候选视频片段中的每个视频帧的显著性区域，根据每个视频帧的显著性区域对每个视频帧进行裁剪，得到M个裁剪后候选视频片段，具体可以是：对于每个候选视频片段，以一个候选视频片段(当前候选视频片段)为例，将当前的候选视频片段输入时空域双流检测模型，输出该候选视频片段中每个视频帧的显著性区域。获取到该候选视频片段中每个视频帧的显著性区域后，根据每个视频帧的显著性区域对每个视频帧进行裁剪，例如，对于每个视频帧，可以以该视频帧的显著性区域的边缘或者围绕显著性区域延拓预设长度和预设宽度的边缘为裁剪界限，对该视频帧进行裁剪，得到裁剪后的视频帧，根据该候选视频片段中所有视频帧对应的裁剪后的视频帧得到一个裁剪后候选视频片段，通过上述裁剪，裁剪后候选视频片段中的每个视频帧均包括显著性区域。

具体地，在一种可实施的方式中，时空域双流检测模型包括时间流网络模型和空间流网络模型，下面结合图8详细说明通过时空域双流检测模型获取当前候选视频片段中的每个视频帧的显著性区域的详细过程，图8为通过时空域双流检测模型获取视频流中一个视频帧的显著性区域的流程示意图，如图8所示，时空域双流检测模型包括时间流网络模型和空间流网络模型，时间流网络模型包括第一特征提取网络模型和时间显著性预测网络模型，空间流网络模型包括第二特征提取网络模型和空间显著性预测网络模型，t₁、t₂、......t_n为当前候选视频片段中的连续的n个视频帧，t_n视频帧为当前视频帧。其中，第一特征提取网络模型和第二特征提取网络模型共享参数，即二者的参数相同。可选的，第一特征提取网络模型可以是基于VGG-16模型的骨干网络，空间显著性预测网络模型用于整合空间特征和不同尺度的高斯先验特征。

具体地，若当前视频帧之前的视频帧的数量大于或等于n-1，根据时间流网络模型、空间流网络模型、当前视频帧之前的n-1个视频帧和当前视频帧，获取当前视频帧的显著性区域，n为预设正整数。若当前视频帧之前的视频帧的数量小于n-1，根据空间流网络模型和当前视频帧，获取当前视频帧的显著性区域。

图8所示的是当前视频帧之前的视频帧的数量大于n-1的情况，如图8所示，将当前视频帧之前的n-1个视频帧和当前视频帧(即t₁视频帧、t₂视频帧、......t_n视频帧)输入时间流网络模型，第一特征提取网络模型对当前视频帧之前的n-1个视频帧和当前视频帧分别进行视觉特征提取，得到n个视频帧的视觉特征，接着将n个视频帧的视觉特征输入时间显著性预测网络模型，时间显著性预测网络模型具体对该n个视频帧的视觉特征进行3D卷积，得到第一卷积结果，对当前视频帧之前的n-1个视频帧和当前视频帧分别进行2D卷积(即图8中所示的时间卷积高斯层进行的2D卷积)，得到第二卷积结果，对第一卷积结果和第二卷积结果进行2D卷积，得到第三卷积结果，对第三卷积结果进行3D卷积，得到时间显著性特征序列，其中，时间显著性特征序列包括t₁视频帧的时间显著性特征、t₂视频帧的时间显著性特征、......和t_n视频帧的时间显著性特征。

同时，将当前视频帧(即t_n视频帧)输入空间流网络模型，输出当前视频帧的空间显著性特征。具体地，第二特征提取网络模型对当前视频帧进行视觉特征提取，得到当前视频帧的视觉特征，接着将当前视频帧的视觉特征输入空间显著性预测网络模型，空间显著性预测网络模型具体对当前视频帧的视觉特征进行2D卷积，得到第四卷积结果，对当前视频帧进行2D卷积(即图8中所示的空间卷积高斯层进行的2D卷积)，得到第五卷积结果，对第四卷积结果和第五卷积结果进行2D卷积，得到第六卷积结果，对第六卷积结果进行2D卷积，得到当前视频帧的空间显著性特征。

然后，对时间显著性特征序列和当前视频帧的空间显著性特征进行融合，得到当前视频帧的显著性区域。融合时，可以是对时间显著性特征序列和当前视频帧的空间显著性特征进行2D卷积，得到当前视频帧的显著性区域。

S204、对裁剪后视频流中的每一视频帧进行目标物检测，目标物包括黑边、字幕和水印中的至少一种，去除检测到的目标物，得到新的裁剪后视频流。

S205、对音频流进行音频片段筛选，得到音频输出片段。

S206、对新的裁剪后视频流和音频输出片段进行重新编码，得到短视频。

可选的，为了适配业务方不同的编码要求，并且将裁剪后视频流和音频输出片段合并为完整的短视频，可以使用音视频处理工具(FFmpeg)对视频和音频进行重新编码，业务方可以指定码率、帧率、编码器类型和文件格式等常用的音视频编码参数。例如，终端设备在发送待处理视频至服务器时，还可以发送码率、帧率、编码器类型和文件格式等常用的音视频编码参数至服务器。服务器收到这些音视频编码参数后，可根据这些音视频编码参数对新的裁剪后视频流和音频输出片段进行重新编码，得到短视频。

图9为本申请实施例提供的一种视频数据处理方法的流程图，如图9所示，本实施例的方法可以由视频数据处理装置执行，可选的，本实施例中的视频数据处理装置可以包括时域片段选择模块1、空域裁剪模块2、音乐片段选择模块3和重编码模块4。本实施例的方法可以包括：

S301、时域片段选择模块1待处理视频中的视频流进行时域片段切分与筛选，得到M个候选视频片段，M为正整数。

S302、空域裁剪模块2对M个候选视频片段中的每个候选视频片段，使用时空域双流检测模型获取每个候选视频片段中的每个视频帧的显著性区域，时空域双流检测模型包括时间流网络模型和空间流网络模型，根据每个视频帧的显著性区域对每个视频帧进行裁剪，得到M个裁剪后候选视频片段，将M个裁剪后候选视频片段组成裁剪后视频流。

可选的，空域裁剪模块2还对裁剪后视频流中的每一视频帧进行目标物检测，目标物包括黑边、字幕和水印中的至少一种，去除检测到的目标物，得到新的裁剪后视频流。

S303、音乐片段选择模块3对音频流进行音频片段筛选，得到音频输出片段。

S304、重编码模块4对新的裁剪后视频流和音频输出片段进行重新编码，得到短视频。

本实施例中，每个步骤的具体的实施过程描述可参见上述实施例，此处不再赘述。

图10为本申请实施例提供的一种视频数据处理装置的结构示意图，如图10所示，该视频数据处理装置可以包括：第一获取模块11、第二获取模块12、视频裁剪模块13、音频筛选模块14和编码模块15。

其中，第一获取模块11用于获取待处理视频中的视频流与音频流；

第二获取模块12用于使用时空域双流检测模型获取视频流中的每个视频帧的显著性区域，时空域双流检测模型包括时间流网络模型和空间流网络模型；

视频裁剪模块13用于使用时空域双流检测模型获取视频流中的每个视频帧的显著性区域，根据每个视频帧的显著性区域对每个视频帧进行裁剪，得到裁剪后视频流，裁剪后视频流中的每个视频帧均包括显著性区域；

音频筛选模块14用于对音频流进行音频片段筛选，得到音频输出片段；

编码模块15用于对裁剪后视频流和音频输出片段进行重新编码，得到短视频。

可选的，第二获取模块12用于对于视频流中的当前视频帧，若当前视频帧之前的视频帧的数量大于或等于n-1，根据时间流网络模型、空间流网络模型、当前视频帧之前的n-1个视频帧和当前视频帧，获取当前视频帧的显著性区域，n为预设正整数；

若当前视频帧之前的视频帧的数量小于n-1，根据空间流网络模型和当前视频帧，获取当前视频帧的显著性区域。

可选的，第二获取模块12用于：将当前视频帧之前的n-1个视频帧和当前视频帧输入时间流网络模型，输出时间显著性特征序列，时间显著性特征序列包括当前视频帧之前的n-1个视频帧中每个视频帧的时间显著性特征和当前视频帧的时间显著性特征；

将当前视频帧输入空间流网络模型，输出当前视频帧的空间显著性特征；

对时间显著性特征序列和当前视频帧的空间显著性特征进行融合，得到当前视频帧的显著性区域。

可选的，第二获取模块12具体用于：将当前视频帧输入空间流网络模型，输出当前视频帧的空间显著性特征；

根据当前视频帧的空间显著性特征，得到当前视频帧的显著性区域。

可选的，时间流网络模型包括第一特征提取网络模型和时间显著性预测网络模型，第二获取模块12具体用于：通过第一特征提取网络模型对当前视频帧之前的n-1个视频帧和当前视频帧分别进行视觉特征提取，得到n个视频帧的视觉特征；

将n个视频帧的视觉特征输入时间显著性预测网络模型，输出时间显著性特征序列。

可选的，时间显著性预测网络模型用于：

对n个视频帧的视觉特征进行3D卷积，得到第一卷积结果；

对当前视频帧之前的n-1个视频帧和当前视频帧分别进行2D卷积，得到第二卷积结果；

对第一卷积结果和第二卷积结果进行2D卷积，得到第三卷积结果；

对第三卷积结果进行3D卷积，得到时间显著性特征序列。

可选的，空间流网络模型包括第二特征提取网络模型和空间显著性预测网络模型，第二获取模块12具体用于：通过第二特征提取网络模型对当前视频帧进行视觉特征提取，得到当前视频帧的视觉特征；

将当前视频帧的视觉特征输入空间显著性预测网络模型，输出当前视频帧的空间显著性特征。

可选的，空间显著性预测网络模型用于：

对当前视频帧的视觉特征进行2D卷积，得到第四卷积结果；

对当前视频帧进行2D卷积，得到第五卷积结果；

对第四卷积结果和第五卷积结果进行2D卷积，得到第六卷积结果；

对第六卷积结果进行2D卷积，得到当前视频帧的空间显著性特征。

可选的，第一获取模块11还用于：对视频流进行时域片段切分与筛选，得到M个候选视频片段，M为正整数。

第二获取模块12具体用于：对M个候选视频片段中的每个候选视频片段，使用时空域双流检测模型获取每个候选视频片段中的每个视频帧的显著性区域；

视频裁剪模块13具体用于：根据每个视频帧的显著性区域对每个视频帧进行裁剪，得到M个裁剪后候选视频片段；

将M个裁剪后候选视频片段组成裁剪后视频流。

可选的，第一获取模块11具体用于：根据视频场景，对视频流进行时域片段切分，得到多个视频片段；

根据预设筛选方式，从多个视频片段中选择出M个候选视频片段。

可选的，预设筛选方式包括：跳过片头片尾、基于人脸检测的方式和美学评估筛选方式中的至少一种。

可选的，预设筛选方式包括基于人脸检测的方式，第一获取模块11具体用于：

根据预设条件对多个视频片段中的每个视频片段中的视频帧，筛选出满足预设条件的视频帧，预设条件包括人脸位置信息、人脸大小和人脸角度中的至少一项；

根据多个视频片段中满足预设条件的视频帧，得到M个候选视频片段，每个视频片段中满足预设条件的视频帧组成一个候选视频片段。

可选的，预设筛选方式包括美学评估筛选方式，获取模块11具体用于：

对多个视频片段中的每个视频片段中的视频帧，筛选出画面美学分数大于预设阈值的视频帧；

根据多个视频片段中画面美学分数大于预设阈值的视频帧，得到M个候选视频片段，每个视频片段中画面美学分数大于预设阈值的视频帧组成一个候选视频片段。

进一步地，视频裁剪模块13还用于：

对裁剪后视频流中的每一视频帧进行目标物检测，目标物包括黑边、字幕和水印中的至少一种；

去除检测到的目标物，得到新的裁剪后视频流；

编码模块14用于：对新的裁剪后视频流和音频输出片段进行重新编码，得到短视频。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图10所示的视频数据处理装置可以执行图3对应的方法实施例，并且视频数据处理装置中的各个模块的前述和其它操作和/或功能分别为了实现图3对应的方法实施例中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的视频数据处理装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件编码处理器执行完成，或者用编码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图11是本申请实施例提供的计算机设备的示意性框图。该计算机设备可以是上述方法实施例中的服务器。

如图11所示，该计算机设备可包括：

存储器210和处理器220，该存储器210用于存储计算机程序，并将该程序代码传输给该处理器220。换言之，该处理器220可以从存储器210中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器220可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器220可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器210包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器210中，并由该处理器220执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该计算机设备中的执行过程。

如图11所示，该计算机设备还可包括：

收发器230，该收发器230可连接至该处理器220或存储器210。

其中，处理器220可以控制该收发器230与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器230可以包括发射机和接收机。收发器230还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该计算机设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上该，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种视频数据处理方法，其特征在于，包括：

获取待处理视频中的视频流与音频流；

对所述音频流进行音频片段筛选，得到音频输出片段；

2.根据权利要求1所述的方法，其特征在于，所述使用时空域双流检测模型获取所述视频流中的每个视频帧的显著性区域，包括：

对于所述视频流中的当前视频帧，若所述当前视频帧之前的视频帧的数量大于或等于n-1，根据所述时间流网络模型、所述空间流网络模型、所述当前视频帧之前的n-1个视频帧和所述当前视频帧，获取所述当前视频帧的显著性区域，所述n为预设正整数；

若所述当前视频帧之前的视频帧的数量小于所述n-1，根据所述空间流网络模型和所述当前视频帧，获取所述当前视频帧的显著性区域。

3.根据权利要求2所述的方法，其特征在于，所述根据所述时间流网络模型、所述空间流网络模型、所述当前视频帧之前的n-1个视频帧和所述当前视频帧，获取所述当前视频帧的显著性区域，包括：

将所述当前视频帧之前的n-1个视频帧和所述当前视频帧输入所述时间流网络模型，输出时间显著性特征序列，所述时间显著性特征序列包括所述当前视频帧之前的n-1个视频帧中每个视频帧的时间显著性特征和所述当前视频帧的时间显著性特征；

将所述当前视频帧输入所述空间流网络模型，输出所述当前视频帧的空间显著性特征；

对所述时间显著性特征序列和所述当前视频帧的空间显著性特征进行融合，得到所述当前视频帧的显著性区域。

4.根据权利要求2所述的方法，其特征在于，所述根据所述空间流网络模型和所述当前视频帧，获取所述当前视频帧的显著性区域，包括：

根据所述当前视频帧的空间显著性特征，得到所述当前视频帧的显著性区域。

5.根据权利要求3所述的方法，其特征在于，所述时间流网络模型包括第一特征提取网络模型和时间显著性预测网络模型，所述将所述当前视频帧之前的n-1个视频帧和所述当前视频帧输入所述时间流网络模型，输出时间显著性特征序列，包括：

通过所述第一特征提取网络模型对所述当前视频帧之前的n-1个视频帧和所述当前视频帧分别进行视觉特征提取，得到n个视频帧的视觉特征；

将所述n个视频帧的视觉特征输入所述时间显著性预测网络模型，输出所述时间显著性特征序列。

6.根据权利要求5所述的方法，其特征在于，所述时间显著性预测网络模型用于：

对所述n个视频帧的视觉特征进行3D卷积，得到第一卷积结果；

对所述当前视频帧之前的n-1个视频帧和所述当前视频帧分别进行2D卷积，得到第二卷积结果；

对所述第一卷积结果和所述第二卷积结果进行2D卷积，得到第三卷积结果；

对所述第三卷积结果进行3D卷积，得到所述时间显著性特征序列。

7.根据权利要求3或4所述的方法，其特征在于，所述空间流网络模型包括第二特征提取网络模型和空间显著性预测网络模型，所述将所述当前视频帧输入所述空间流网络模型，输出所述当前视频帧的空间显著性特征，包括：

通过所述第二特征提取网络模型对所述当前视频帧进行视觉特征提取，得到所述当前视频帧的视觉特征；

将所述当前视频帧的视觉特征输入所述空间显著性预测网络模型，输出所述当前视频帧的空间显著性特征。

8.根据权利要求7所述的方法，其特征在于，所述空间显著性预测网络模型用于：

对所述当前视频帧的视觉特征进行2D卷积，得到第四卷积结果；

对所述当前视频帧进行2D卷积，得到第五卷积结果；

对所述第四卷积结果和所述第五卷积结果进行2D卷积，得到第六卷积结果；

对所述第六卷积结果进行2D卷积，得到所述当前视频帧的空间显著性特征。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述视频流进行时域片段切分与筛选，得到M个候选视频片段，所述M为正整数；

所述使用时空域双流检测模型获取所述视频流中的每个视频帧的显著性区域，包括：

对所述M个候选视频片段中的每个候选视频片段，使用所述时空域双流检测模型获取所述每个候选视频片段中的每个视频帧的显著性区域；

所述根据所述每个视频帧的显著性区域对所述每个视频帧进行裁剪，得到裁剪后视频流，包括：

根据所述每个视频帧的显著性区域对所述每个视频帧进行裁剪，得到所述M个裁剪后候选视频片段；

将所述M个裁剪后候选视频片段组成所述裁剪后视频流。

10.根据权利要求9所述的方法，其特征在于，所述对所述视频流进行时域片段切分与筛选，得到M个候选视频片段，包括：

根据视频场景，对所述视频流进行时域片段切分，得到多个视频片段；

根据预设筛选方式，从所述多个视频片段中选择出所述M个候选视频片段。

11.根据权利要求10所述的方法，其特征在于，所述预设筛选方式包括：跳过片头片尾、基于人脸检测的方式和美学评估筛选方式中的至少一种。

12.根据权利要求11所述的方法，其特征在于，所述预设筛选方式包括所述基于人脸检测的方式，所述根据预设筛选方式，从所述多个视频片段中选择出所述M个候选视频片段，包括：

根据预设条件对所述多个视频片段中的每个视频片段中的视频帧，筛选出满足预设条件的视频帧，所述预设条件包括人脸位置信息、人脸大小和人脸角度中的至少一项；

根据所述多个视频片段中满足所述预设条件的视频帧，得到所述M个候选视频片段，所述每个视频片段中满足所述预设条件的视频帧组成一个所述候选视频片段。

13.根据权利要求11所述的方法，其特征在于，所述预设筛选方式包括所述美学评估筛选方式，所述根据预设筛选方式，从所述多个视频片段中选择出所述M个候选视频片段，包括：.对所述多个视频片段中的每个视频片段中的视频帧，筛选出画面美学分数大于预设阈值的视频帧；

根据所述多个视频片段中所述画面美学分数大于所述预设阈值的视频帧，得到所述M个候选视频片段，所述每个视频片段中画面美学分数大于所述预设阈值的视频帧组成一个所述候选视频片段。

14.根据权利要求1-13任一项所述的方法，其特征在于，所述方法还包括：

对所述裁剪后视频流中的每一视频帧进行目标物检测，所述目标物包括黑边、字幕和水印中的至少一种；

去除检测到的所述目标物，得到新的裁剪后视频流；

所述对所述裁剪后视频流和所述音频输出片段进行重新编码，得到短视频，包括：

对所述新的裁剪后视频流和所述音频输出片段进行重新编码，得到短视频。

15.一种视频数据处理装置，其特征在于，包括：

第一获取模块，用于获取待处理视频中的视频流与音频流；

16.一种计算机设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至14中任一项所述的方法。

17.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至14中任一项所述的方法。