CN112995666A

CN112995666A - 一种结合场景切换检测的视频横竖屏转换方法及装置

Info

Publication number: CN112995666A
Application number: CN202110197163.3A
Authority: CN
Inventors: 曾荣; 徐蕾; 吴三阳; 王伟; 陆赞信
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-06-18
Anticipated expiration: 2041-02-22
Also published as: CN112995666B

Abstract

本发明公开了一种结合场景切换检测的视频横竖转换方法及装置，方法包括：获取待转换视频；对所述待转换视频进行场景切换检测，确定分类场景；根据所述分类场景对所述待转换视频进行分割处理，确定初始片段；对所述初始片段的每一帧图像进行检测处理，确定关键元素得分；根据所述关键元素得分对所述初始片段的每一帧图像进行截取处理，确定目标片段；对所述目标片段进行拼接处理，确定所述待转换视频的横竖屏转换。本发明能够大幅提升转换性能和观影体验；还能在极低成本的前提下，有效应对不同用户对横竖屏转换的不同需求，从而大幅提升系统的用户体验，可广泛应用于视频处理技术领域。

Description

一种结合场景切换检测的视频横竖屏转换方法及装置

技术领域

本发明涉及视频处理技术领域，尤其是一种结合场景切换检测的视频横竖转换方法及装置。

背景技术

视频类产品中，存在着泾渭分明的两种视频形态：横版视频和竖版视频。总体而言，横版视频内容丰富度更高，内容种类更多，因其时间长度，普通用户习惯于将手机横过来观看以获得更佳的观影体验；而竖版视频趣味性更强，时间较短、剧情更为聚焦和简洁，用户通常习惯于直接在竖屏状态下观看。

目前的横竖屏视频的互相转换及显示(如横屏状态下显示竖版视频或竖屏状态下显示横版视频)，有着如下三种方法，一是不经过任何转换直接显示，这种做法几乎没有成本，但视频显示留下了巨大的黑边，观影体验最差；二是人工进行转换，这种做法成本极高，但质量有保证，观影体验最佳；三是利用视频处理技术进行自动转换，这种做法在成本和观影体验之间取得了很好的平衡，既可以用极低的成本对海量的视频进行自动化的转换，也可以通过视频处理技术尽可能地保留视频的完整信息，为用户提供更好的观影体验。

其中，第三种做法中，由于视频内容越来越丰富，为了保证观影体验，通常视频处理技术会使用不同的处理设置或流程应对不同类别的视频。然而这种做法，存在以下问题：随着视频内容的丰富，视频中的场景也越来越多(如MV中，可能第一段场景是景色片段，第二段转为人物片段，第三段有转为车辆片段)，对单个视频应用单一的处理设置或处理流程已经无法最大化地保证视频的观影体验。

发明内容

有鉴于此，本发明实施例提供一种结合场景切换检测的视频横竖屏转换方法及装置，以降低转换时的成本，提升转换性能和提高观影体验。

一方面，本发明提供了一种结合场景切换检测的视频横竖屏转换方法，包括：

获取待转换视频；

对所述待转换视频进行场景切换检测，确定分类场景；

根据所述分类场景对所述待转换视频进行分割处理，确定初始片段；

对所述初始片段的每一帧图像进行检测处理，确定关键元素得分；

根据所述关键元素得分对所述初始片段的每一帧图像进行截取处理，确定目标片段；

对所述目标片段进行拼接处理，确定所述待转换视频的横竖屏转换。

进一步，所述对所述待转换视频进行场景切换检测，确定分类场景，包括以下之一：

根据人物或物体变换，确定第一场景切换；

根据背景变换，确定第二场景切换；

根据亮度变换，确定第三场景切换。

进一步，所述根据人物或物体变换，确定第一场景切换的具体步骤为：

根据识别模型识别所述待转换视频中每一帧图像中的人物或物体的属性信息，其中，所述属性信息包括位置信息以及数量信息；

根据所述识别模型识别所述待转换视频的任意相邻两帧图像中所述人物或物体的属性信息发生的差异，确定第一场景切换。

进一步，所述根据背景变换，确定第二场景切换的具体步骤为：

获取待转换视频的每一帧图像；

根据所述图像进行分类识别，确定所述图像的背景；

根据所述图像的背景发生的差异，确定第二场景切换。

进一步，所述根据亮度变换，确定第三场景切换的具体步骤为：

获取所述待转换视频每一帧的亮度值；

根据所述待转换视频任意相邻两帧的亮度值差距大于预设的亮度差异阈值，确定第三场景切换。

进一步，所述根据所述分类场景对所述待转换视频进行分割处理，确定初始片段，包括：

获取所述分类情景的时间戳；

根据所述时间戳对所述待转换视频进行分割，确定初始片段。

进一步，所述关键元素包括：人脸，人体，车辆，动物以及其他物体；所述对所述初始片段的每一帧图像进行检测处理，确定关键元素得分，包括：

对所述初始片段的每一帧图像进行关键元素检测，确定关键元素；

根据所述初始片段的内容或者任务需求，确定所述关键元素的注意力权重；

根据物体检测技术获取所述关键元素的置信度；

根据所述关键元素的注意力权重和所述关键元素的置信度计算所述关键元素得分，所述得分为注意力权重与置信度的乘积。

进一步，所述根据所述关键元素得分对所述初始片段的每一帧图像进行截取处理，确定目标片段，包括：

根据转换目标采用截取框对所述初始片段的每一帧图像进行遍历,确定框体集合；

从所述框体集合中选取所述关键元素得分比例最高的框体作为最优截取框；

根据所述最优截取框从所述初始片段的每一帧图像中截取出所述目标片段。

另一方面，本发明实施例还公开了一种结合场景切换检测的视频横竖转换装置，该装置包括：

获取模块：用于获取待转换视频；

第一检测模块：用于对所述待转换视频进行场景切换检测，确定分类场景；

分割模块：用于根据所述分类场景对所述待转换视频进行分割处理，确定初始片段；

第二检测模块：用于对所述初始片段的每一帧图像进行检测处理，确定关键元素得分；

截取模块：用于根据所述关键元素得分对所述初始片段的每一帧图像进行截取处理，确定目标片段；

拼接模块：用于对所述目标片段进行拼接处理，确定所述待转换视频的横竖屏转换。

另一方面，本发明实施例还公开了一种结合场景切换检测的视频横竖屏转换装置，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

另一方面，本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明采用以上的技术方案与现有技术相比，具有以下效果：本发明实施例通过获取待转换视频，对所述待转换视频进行场景切换检测，确定分类场景，能够大幅提升转换性能和提高观影体验。另外,本发明实施例根据所述分类场景对所述待转换视频进行分割处理，确定初始片段，对所述初始片段的每一帧图像进行检测处理，确定关键元素得分，根据所述关键元素得分对所述初始片段的每一帧图像进行截取处理，确定目标片段，能在极低成本的前提下，有效应对不同用户对横竖屏转换的不同需求，从而大幅提升系统的用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的具体实施流程。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明实施例通过提供一种结合场景切换检测的视频横竖屏转换方法及装置，实现了提升转换性能和观影体验的效果。

针对现有技术存在的问题，本发明实施例提供了一种结合场景切换检测的视频横竖屏转换方法，包括：

获取待转换视频；

对所述待转换视频进行场景切换检测，确定分类场景；

优选地，对所述待转换视频进行场景切换检测，确定分类场景，包括以下之一：

根据人物或物体变换，确定第一场景切换；

根据背景变换，确定第二场景切换；

根据亮度变换，确定第三场景切换。

其中，当待转换视频出现了以上任一变换时即可定义出现了视频场景切换。

优选地，所述根据人物或物体变换，确定第一场景切换的具体步骤为：

其中，人物或物体的变换主要体现在人物或物体的位置变换及数量变换，本发明实施例使用识别模型对待转换视频进行识别，得到每一帧图像中的人物、物体的位置及数量。其中，所述识别模型可以为YOLOv3模型；YOLOv3模型使用单个神经网络将图像划分为多个区域，并预测每个区域的届框和概率。通过YOLOv3模型的处理分析，得到图像中人物或物体的属性信息。系统管理员指定人物或物体的属性信息差异阈值；例如，当人物位置差异阈值设为X时，图像的人物位置对比相邻的图像的人物位置相差超过X像素点时，即可判定该图像的人物位置信息出现了差异，确定为第一场景切换。

优选地，所述根据背景变换，确定第二场景切换的具体步骤为：

获取待转换视频的每一帧图像；

根据所述图像进行分类识别，确定所述图像的背景；

根据所述图像的背景发生的差异，确定第二场景切换。

其中，背景变换的检测使用了背景类别识别技术识别每一帧图像中所处的背景类别，背景类别包括室内、车内、马路、草地、树林、办公室等。当图像的背景与相邻图像背景出现差异，确定第二场景切换。背景类别识别技术将视频的每一帧图像输入到分类模型中，输出是每个背景类别的概率分布，其中概率最大的背景分类就是该帧图像的背景分类。具体的，上述分类模型：分类模型依次利用骨架网络块和注意力块提取特征，后面接一个全连接层进行分类，全连接层神经元的个数是分类个数，对全连接层的输出进行softmax激活后，得到输入图像在各背景分类上的概率分布。骨架网络块可以使用各种现有的卷积神经网络的骨架网络，包括但不限于使用VGG、ResNet、DenseNet等；注意力块通过卷积操作自适应学习一个权重图，与输入特征图相乘进行加权，帮助模型更关注与受损区域相关的特征向量。训练模型时，将模型输出的概率分布和真实等级标签进行比对，计算交叉熵损失值。

优选地，所述根据亮度变换，确定第三场景切换的具体步骤为：

获取所述待转换视频每一帧的亮度值；

其中，亮度变换使用视频亮度值作为衡量标准，系统管理员设置亮度差异阈值，当图像的亮度值与相邻图像的亮度值差值超过亮度差异阈值时，确定第三场景切换。

优选地，所述根据所述分类场景对所述待转换视频进行分割处理，确定初始片段，包括：

获取所述分类情景的时间戳；

其中，获取待转换视频中每个场景的时间戳，根据时间戳对待转换视频进行分割，形成多个视频片段。

优选地，所述关键元素包括：人脸，人体，车辆，动物以及其他物体；所述对所述初始片段的每一帧图像进行检测处理，确定关键元素得分，包括：

根据物体检测技术获取所述关键元素的置信度；

其中，物体检测技术可以为YOLOv3技术；使用YOLOv3技术对分割后的初始片段中每一帧图像进行关键元素检测，关键元素包括人脸、人体、车辆、动物以及其他物体。根据不同的分类场景或者手动设置，可以设置不同的关键元素的注意力权重，YOLOv3技术可以获取到图像中每个关键元素的置信度。根据注意力权重和置信度可以计算关键元素的得分，关键元素的得分为注意力权重与置信度的乘积。

优选地，所述根据所述关键元素得分对所述初始片段的每一帧图像进行截取处理，确定目标片段，包括：

其中，采用转换目标的屏幕比例大小的截取框，对每一帧图像进行自左向右的遍历，遍历得到框体集合，在框体集合中选取出关键元素得分最高的框体为最优截取框体，从视频中截取出目标片段。

下面结合图1，详细描述本发明实施例的一种结合场景切换检测的视频横竖屏转换方法的具体实现过程：

首先获取待转换视频，根据场景切换检测对待转换视频分类出不同的场景，根据分类出的场景将待转换视频分割成初始片段，对初始片段进行检测和截取处理，获得目的片段，对目的片段合并即可得到转换后的视频。对初始片段的检测为，检测初始片段中的关键元素，然后根据初始片段的内容或场景类型设置关键元素的注意力权重，也可以手动根据不同的任务需求设置关键元素的注意力权重。然后对初始片段的每一帧图像用指定尺寸的截取框进行遍历，取含有关键元素得分最高的截取框作为该帧图像的转换图像，把图像拼接起来得到目的片段，把目的片段合并即可得到转换后的图像。

本发明实施例还公开了一种结合场景切换检测的视频横竖转换装置，该装置包括：

获取模块：用于获取待转换视频；

本发明实施例还公开了一种结合场景切换检测的视频横竖屏转换装置，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种结合场景切换检测的视频横竖转换方法，其特征在于，包括：

获取待转换视频；

对所述待转换视频进行场景切换检测，确定分类场景；

2.根据权利要求1所述的一种结合场景切换检测的视频横竖屏转换方法，其特征在于，所述对所述待转换视频进行场景切换检测，确定分类场景，包括以下之一：

根据人物或物体变换，确定第一场景切换；

根据背景变换，确定第二场景切换；

根据亮度变换，确定第三场景切换。

3.根据权利要求2所述的一种结合场景切换检测的视频横竖屏转换方法，其特征在于，所述根据人物或物体变换，确定第一场景切换的具体步骤为：

根据识别模型识别所述待转换视频中每一帧图像中的人物或物体的属性信息，其中，

所述属性信息包括位置信息以及数量信息；

4.根据权利要求2所述的一种结合场景切换检测的视频横竖屏转换方法，其特征在于，所述根据背景变换，确定第二场景切换的具体步骤为：

获取待转换视频的每一帧图像；

根据所述每一帧图像进行分类识别，确定所述图像的背景；

根据所述每一帧图像的背景发生的差异，确定第二场景切换。

5.根据权利要求2所述的一种结合场景切换检测的视频横竖屏转换方法，其特征在于，所述根据亮度变换，确定第三场景切换的具体步骤为：

获取所述待转换视频每一帧的亮度值；

6.根据权利要求1所述的一种结合场景切换检测的视频横竖屏转换方法，其特征在于，所述根据所述分类场景对所述待转换视频进行分割处理，确定初始片段，包括：

获取所述分类情景的时间戳；

7.根据权利要求1所述的一种结合场景切换检测的视频横竖屏转换方法，其特征在于，所述关键元素包括：人脸，人体，车辆，动物以及其他物体；所述对所述初始片段的每一帧图像进行检测处理，确定关键元素得分，包括：

根据物体检测技术获取所述关键元素的置信度；

根据所述关键元素的注意力权重以及所述关键元素的置信度计算所述关键元素得分，

所述得分为注意力权重与置信度的乘积。

8.根据权利要求1所述的一种结合场景切换检测的视频横竖屏转换方法，其特征在于，所述根据所述关键元素得分对所述初始片段的每一帧图像进行截取处理，确定目标片段，包括：

9.一种结合场景切换检测的视频横竖转换装置，其特征在于，该装置包括：

获取模块：用于获取待转换视频；

10.一种结合场景切换检测的视频横竖屏转换装置，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-8中任一项所述的方法。