CN114155255A

CN114155255A - 一种基于特定人物时空轨迹的视频横屏转竖屏方法

Info

Publication number: CN114155255A
Application number: CN202111523572.4A
Authority: CN
Inventors: 袁琦; 温序铭
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-08
Anticipated expiration: 2041-12-14
Also published as: CN114155255B

Abstract

本发明公开了一种基于特定人物时空轨迹的视频横屏转竖屏方法，包括步骤：S1，基于low‑level颜色特征差异和high‑level语义特征差异进行镜头分割；S2，基于分割后的镜头，进行跨场景目标人物时空轨迹估计；S3，基于估计结果，进行目标人物展示区域重构。本发明可以自动高效的从横屏视频中，以该特定人物为展示目的，将原16:9的横屏视频转换为9:16的竖屏视频，针对手机端短视频app进行发布，不需要使用者具备视频编辑能力，有效降低人工编辑成本。

Description

一种基于特定人物时空轨迹的视频横屏转竖屏方法

技术领域

本发明涉及视频编辑领域，更为具体的，涉及一种基于特定人物时空轨迹的视频横屏转竖屏方法。

背景技术

随着手机的飞速发展并凭借其便捷的单手持握方式，越来越多的用户习惯于使用手机观看视频，手指轻轻地上下一划，便可快速切换到其他视频，正是伴随着这一简单的操作逻辑，各种短视频app爆火全球，而短视频的火爆，又反过来带动对竖屏视频的需求，但并非所有视频从制作之初便是针对竖屏条件下观看而设计拍摄的。一般的，此类横屏视频需要在后期人工使用视频编辑软件进行编辑转换，难免费时费力。

发明内容

本发明的目的在于克服现有技术的不足，针对背景技术中提出的问题，提供一种基于特定人物时空轨迹的视频横屏转竖屏方法，可以自动高效的从横屏视频中，以该特定人物为展示目的，将原16:9的横屏视频转换为9:16的竖屏视频，针对手机端短视频app进行发布，不需要使用者具备视频编辑能力，有效降低人工编辑成本。

本发明的目的是通过以下方案实现的：

一种基于特定人物时空轨迹的视频横屏转竖屏方法，包括步骤：

S1，基于low-level颜色特征差异和high-level语义特征差异进行镜头分割；

S2，基于分割后的镜头，进行跨场景目标人物时空轨迹估计；

S3，基于估计结果，进行目标人物展示区域重构。

进一步地，步骤S1包括子步骤：

S101，设有已解码的总共

张

图像序列

，其中

表示第

张图像，将每张

图像颜色空间转换到

颜色空间，记作

，再计算上一张

图像与当前

图像的颜色特征差异

，即：

其中

表示计算均值，

表示求和，

表示取绝对值，

和

分别表示当前

图像和上一张

图像；

S102，使用在imagenet上预训练的VGG19分类模型，通过替换原始模型中的末尾的池化层和全连接层为一个全局平均池化层，使得模型输出宽、高均为1的特征图，对

图像序列中的每一张图像

使用该模型进行特征提取，得图像语义特征集合

，其中

为第

张

图像提取到的图像语义特征，通过计算当前

图像与上一张

图像的特征差异

，即：

其中

表示上一张

图像的图像语义特征，

表示特征的膜；

S103，通过设计以下公式来融合low-level颜色特征差异和high-level语义特征差异，得到最终的图像表征差异

，即：

，

其中

为权重，用于平衡两种差异；

S104，对

图像序列

中的每相邻两帧

和

，计算图像表征差异

，当

时，表明第

张图像是新镜头的第一张图像，则

即为当前镜头的出点，以此类推，得到分割好的镜头序列

，其中

表示第

个镜头，

为镜头总数，

为判断阈值。

进一步地，步骤S2包括子步骤：

S201，在单一镜头中对目标人物时空轨迹进行估计，设当前镜头

共有图像

张，使用基于深度学习的目标跟踪器对在当前镜头的每一帧预测目标人物位置，对在当前镜头的每一帧预测目标人物位置，得目标人物在当前镜头的跟踪边框序列

，其中

为当前镜头

的初始目标人物边框，用于设定跟踪器在当前镜头的跟踪对象；

S202，使用当前镜头的跟踪边框序列

，利用行人重识别模型提取目标人物空间特征并融合得到目标人物在当前镜头的时空特征；

S203，使用基于深度学习的行人检测器，在下一镜头的首张图像中生成下一镜头跟踪目标人物候选，并使用S202中的行人重识别模型对每个候选提取空间特征，并使用当前镜头的目标人物时空特征进行比对，取相似度最高的候选为下一镜头的跟踪对象；

S204，在下一镜头中，执行步骤S201，S202，S203，以此类推，直到对所有镜头处理完毕，得到目标人物在总计

张

图像序列

中的所有跟踪边框，记作

。

进一步地，步骤S3包括子步骤：

S301，获取每个镜头的目标人物时空轨迹，具体地，对当前镜头

的跟踪边框序列

，设第

个边框

在其对应图像中的坐标为

，则计算得到当前镜头的第

个轨迹点

则当前镜头中目标人物的轨迹点表示为

；

S302，根据步骤S301中所得当前镜头目标人物的平滑轨迹，重构以目标人物为展示目的的9:16竖屏画面序列。

进一步地，步骤S103中，包括子步骤：

通过在互联网搜集各种类型的视频片段，使用人工标记各视频中相邻张两帧图像是否属于同一镜头，构造训练集；其中，相同镜头的图像使用同一数字进行标记，即标记为所属镜头序号，此外，设计一个卷积模型，名为weighting CNN，记作

，通过输入相邻两张

图像，通过在训练集上构建最小化损失函数：

使得模型收敛，得到权重

，其中

为目标标签，当输入两帧

图像属于同一镜头时，

，否则

，max为最大值函数，

为超参数。

进一步地，在步骤S201中，所述使用基于深度学习的目标跟踪器包括SiamRPN跟踪器。

进一步地，步骤S202包括子步骤：

S2021，使用基于深度学习的行人重识别模型，对当前镜头的每个边框

提取空间特征，得到目标人物在当前镜头的空间特征序列

；

S2022，将空间特征序列输入聚类器，将其划分为2个类别，取样本个数较多的一类为正样例并保留，

S2023，对保留的空间特征序列正样本取均值，作为当前镜头中目标人物的时空特征，记作

。

进一步地，步骤203中，所述基于深度学习的行人检测器包括yolov5通用目标检测器，仅使用行人预测结果。

进一步地，在步骤S301中，包括子步骤：对所述当前镜头所有轨迹点使用滑动均值滤波器进行滤波。

进一步地，步骤S302包括子步骤：

对当前镜头的第

个平滑轨迹点

和边框

的对应坐标

，根据其边框原始高度调整得到重构后的目标边框宽高，

为重构后的目标边框高度，

为重构后的目标边框宽度，

为向下取整操作。

进一步地，在步骤S2021中，所述基于深度学习的行人重识别模型包括Reid-strong-baseline重识别模型。

进一步地，所述滑动均值滤波器包括SG滤波器，窗口大小为15，得到较为平滑的轨迹

。

本发明的有益效果包括：

本发明实施例提供了一种高效、自动化的以目标人物为展示目的的16:9横屏转9:16竖屏方法；具体地，通过设计了一种结合low-level颜色差异以及high-level语义特征差异的镜头分割方法，并结合行人跟踪和行人重识别方法，自动高效地进行跨镜头估计目标人物的时空轨迹，最后基于目标人物时空轨迹重构出以目标人物为展示目的的9:16竖屏视频。

本发明实施例可以自动高效的从横屏视频中，以该特定人物为展示目的，将原16:9的横屏视频转换为9:16的竖屏视频，针对手机端短视频app进行发布，不需要使用者具备视频编辑能力，有效降低人工编辑成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的第一步骤流程图；

图2为本发明实施例中的

网络结构；

图3为本发明实施例中的第二步骤流程图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1~图3所示，一种基于特定人物时空定位的视频横屏转竖屏方法，包括步骤：

S1，基于low-level颜色特征差异和high-level语义特征差异的镜头分割子步骤；

S2，跨场景目标人物时空轨迹估计子步骤；

S3，目标人物展示区域重构子步骤；

在本发明其他可选的实施例中，步骤S1包括：

S101，设有已解码的总共

张

图像序列

，其中

表示第

张图像，首先，将每张

图像颜色空间转换到

颜色空间，记作

，再计算上一张

图像与当前

图像的颜色特征差异

，即：

其中

表示计算均值，

表示求和，

表示取绝对值，

和

分别表示当前

图像和上一张

图像。

图像序列中的每一张图像

使用该模型进行特征提取，得图像语义特征集合

，其中

为第

张

图像提取到的图像语义特征，通过计算当前

图像与上一张

图像的特征差异

，即：

其中

表示上一张

图像的图像语义特征，

表示特征的膜。

，即：

，

其中

为权重，用于平衡两种差异。

在本发明其他可选的实施例中，通过在互联网搜集各种类型的视频片段，比如新闻、体育、电影等类型，总计共2000个不同镜头，序号为0～1999；使用人工标记各视频中相邻张两帧图像是否属于同一镜头，构造训练集，其中，相同镜头的图像使用同一数字进行标记，即标记为所属镜头序号，此外，额外设计一个卷积模型，名为weighting CNN，记作

，模型结构如图2所示，通过输入相邻两张

图像，并通过在训练集上构建最小化损失函数：

使得模型收敛，构建训练数据集和损失函数对这个wCNN模型进行训练，得到让图像自适应的权重

，其中

为目标标签，当输入两帧

图像属于同一镜头时，

，否则

，

为超参数，本实施方案中取值0.4。

S104，对

图像序列

中的每相邻两帧

和

，计算图像表征差异

，当

时，表明第

张图像是新镜头的第一张图像，则

即为当前镜头的出点，以此类推，得到分割好的镜头序列

，其中

表示第

个镜头，

为镜头总数，

为判断阈值，本实施方案中取值0.8。

在本发明其他可选的实施例中，步骤S2包括：

共有图像

张，使用基于深度学习的目标跟踪器，本实施方案中采用SiamRPN跟踪器，对在当前镜头的每一帧预测目标人物位置，得目标人物在当前镜头的跟踪边框序列

，其中

为当前镜头

的初始目标人物边框，用于设定跟踪器在当前镜头的跟踪对象，特别的，

为步骤S104中镜头序列

中的第一个镜头的跟踪对象边框，需要人工标定。

S202，使用当前镜头的跟踪边框序列

，提取目标人物空间特征并融合得到目标人物在当前镜头的时空特征，具体地，使用基于深度学习的行人重识别模型，本实施方案中采用Reid-strong-baseline重识别模型，对当前镜头的每个边框

提取空间特征，得到目标人物在当前镜头的空间特征序列

，在本发明其他可选的实施例中，将空间特征序列输入聚类器，将其划分为2个类别，取样本个数较多的一类为正样例并保留，在本发明其他可选的实施例中，对保留的空间特征序列正样本取均值，作为当前镜头中目标人物的时空特征，记作

。

S203，使用基于深度学习的行人检测器，本实例中采用yolov5通用目标检测器，仅使用行人预测结果，在下一镜头的首张图像中生成下一镜头跟踪目标人物候选，并使用S202中的行人重识别模型对每个候选提取空间特征，并使用当前镜头的目标人物时空特征进行比对，取相似度最高的候选为下一镜头的跟踪对象。

在下一镜头中，执行步骤S201，S202，S203，以此类推，直到对所有镜头处理完毕，得到目标人物在总计

张

图像序列

中的所有跟踪边框，记作

。

在本发明其他可选的实施例中，步骤S3包括：

的跟踪边框序列

，设第

个边框

在其对应图像中的坐标为

，则可计算得到当前镜头的第

个轨迹点

则当前镜头中目标人物的轨迹点表示为

，在本发明其他可选的实施例中，对当前镜头所有轨迹点使用滑动均值滤波器进行滤波，本实施方案中采用SG滤波器，窗口大小为15，得到较为平滑的轨迹

，避免最终重构结果出现抖动现象。

S302，根据步骤S301中所得当前镜头目标人物的平滑轨迹，重构以目标人物为展示目的的9:16竖屏画面序列，具体地，对当前镜头的第

个平滑轨迹点

和边框

的对应坐标

，根据其边框原始高度调整得到重构后的目标边框宽高，

为重构后的目标边框高度，

为重构后的目标边框宽度，

为向下取整操作。

通过以上步骤S1，S2，S3，即可从原始16:9横屏视频中得到已特定目标为展示目的的9:16竖屏视频。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于特定人物时空轨迹的视频横屏转竖屏方法，其特征在于，包括步骤：

S3，基于估计结果，进行目标人物展示区域重构。

2.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法，其特征在于，步骤S1包括子步骤：

S101，设有已解码的总共

张

图像序列

，其中

表示第

张图像，将每张

图像颜色空间转换到

颜色空间，记作

，再计算上一张

图像与当前

图像的颜色特征差异

，即：

其中

表示计算均值，

表示求和，

表示取绝对值，

和

分别表示当前

图像和上一张

图像；

图像序列中的每一张图像

使用该模型进行特征提取，得图像语义特征集合

，其中

为第

张

图像提取到的图像语义特征，通过计算当前

图像与上一张

图像的特征差异

，即：

其中

表示上一张

图像的图像语义特征，

表示特征的膜；

，即：

，

其中

为权重，用于平衡两种差异；

S104，对

图像序列

中的每相邻两帧

和

，计算图像表征差异

，当

时，表明第

张图像是新镜头的第一张图像，则

即为当前镜头的出点，以此类推，得到分割好的镜头序列

，其中

表示第

个镜头，

为镜头总数，

为判断阈值。

3.根据权利要求1或2任一所述的基于特定人物时空轨迹的视频横屏转竖屏方法，其特征在于，步骤S2包括子步骤：

共有图像

，其中

为当前镜头

S202，使用当前镜头的跟踪边框序列

张

图像序列

中的所有跟踪边框，记作

。

4.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法，其特征在于，步骤S3包括子步骤：

S301，获取每个镜头的目标人物时空轨迹，对当前镜头

的跟踪边框序列

，设第

个边框

在其对应图像中的坐标为

，则计算得到当前镜头的第

个轨迹点:

则当前镜头中目标人物的轨迹点表示为

；

5.根据权利要求2所述的基于特定人物时空轨迹的视频横屏转竖屏方法，其特征在于，步骤S103中，包括子步骤：

通过在互联网搜集各种类型的视频片段，使用人工标记各视频中相邻张两帧图像是否属于同一镜头，构造训练集；其中，相同镜头的图像使用同一数字进行标记，即标记为所属镜头序号，此外，设计一个卷积模型，记作

，通过输入相邻两张

图像，并通过在训练集上构建最小化损失函数：

使得模型收敛，得到权重

，其中

为目标标签，当输入两帧

图像属于同一镜头时，

，否则

，max为最大值函数，

为超参数。

6.根据权利要求3所述的基于特定人物时空轨迹的视频横屏转竖屏方法，其特征在于，在步骤S201中，所述使用基于深度学习的目标跟踪器包括SiamRPN跟踪器。

7.根据权利要求3所述的基于特定人物时空轨迹的视频横屏转竖屏方法，其特征在于，步骤S202包括子步骤：

提取空间特征，得到目标人物在当前镜头的空间特征序列

；

。

8.根据权利要求3所述的基于特定人物时空轨迹的视频横屏转竖屏方法，其特征在于，步骤203中，所述基于深度学习的行人检测器包括yolov5通用目标检测器，仅使用行人预测结果。

9.根据权利要求4所述的基于特定人物时空轨迹的视频横屏转竖屏方法，其特征在于，在步骤S301中，包括子步骤：对所述当前镜头所有轨迹点使用滑动均值滤波器进行滤波。

10.根据权利要求4所述的基于特定人物时空轨迹的视频横屏转竖屏方法，其特征在于，步骤S302包括子步骤：

对当前镜头的第

个平滑轨迹点

和边框

的对应坐标

，根据其边框原始高度调整得到重构后的目标边框宽高，

为重构后的目标边框高度，

为重构后的目标边框宽度，

为向下取整操作。

11.根据权利要求7所述的基于特定人物时空轨迹的视频横屏转竖屏方法，其特征在于，在步骤S2021中，所述基于深度学习的行人重识别模型包括Reid-strong-baseline重识别模型。

12.根据权利要求9所述的基于特定人物时空轨迹的视频横屏转竖屏方法，其特征在于，所述滑动均值滤波器包括SG滤波器，窗口大小为15，得到较为平滑的轨迹

。