CN114155255A - 一种基于特定人物时空轨迹的视频横屏转竖屏方法 - Google Patents

一种基于特定人物时空轨迹的视频横屏转竖屏方法 Download PDF

Info

Publication number
CN114155255A
CN114155255A CN202111523572.4A CN202111523572A CN114155255A CN 114155255 A CN114155255 A CN 114155255A CN 202111523572 A CN202111523572 A CN 202111523572A CN 114155255 A CN114155255 A CN 114155255A
Authority
CN
China
Prior art keywords
image
shot
space
current
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111523572.4A
Other languages
English (en)
Other versions
CN114155255B (zh
Inventor
袁琦
温序铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN202111523572.4A priority Critical patent/CN114155255B/zh
Publication of CN114155255A publication Critical patent/CN114155255A/zh
Application granted granted Critical
Publication of CN114155255B publication Critical patent/CN114155255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • H04N21/440272Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA for performing aspect ratio conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特定人物时空轨迹的视频横屏转竖屏方法,包括步骤:S1,基于low‑level颜色特征差异和high‑level语义特征差异进行镜头分割;S2,基于分割后的镜头,进行跨场景目标人物时空轨迹估计;S3,基于估计结果,进行目标人物展示区域重构。本发明可以自动高效的从横屏视频中,以该特定人物为展示目的,将原16:9的横屏视频转换为9:16的竖屏视频,针对手机端短视频app进行发布,不需要使用者具备视频编辑能力,有效降低人工编辑成本。

Description

一种基于特定人物时空轨迹的视频横屏转竖屏方法
技术领域
本发明涉及视频编辑领域,更为具体的,涉及一种基于特定人物时空轨迹的视频横屏转竖屏方法。
背景技术
随着手机的飞速发展并凭借其便捷的单手持握方式,越来越多的用户习惯于使用手机观看视频,手指轻轻地上下一划,便可快速切换到其他视频,正是伴随着这一简单的操作逻辑,各种短视频app爆火全球,而短视频的火爆,又反过来带动对竖屏视频的需求,但并非所有视频从制作之初便是针对竖屏条件下观看而设计拍摄的。一般的,此类横屏视频需要在后期人工使用视频编辑软件进行编辑转换,难免费时费力。
发明内容
本发明的目的在于克服现有技术的不足,针对背景技术中提出的问题,提供一种基于特定人物时空轨迹的视频横屏转竖屏方法,可以自动高效的从横屏视频中,以该特定人物为展示目的,将原16:9的横屏视频转换为9:16的竖屏视频,针对手机端短视频app进行发布,不需要使用者具备视频编辑能力,有效降低人工编辑成本。
本发明的目的是通过以下方案实现的:
一种基于特定人物时空轨迹的视频横屏转竖屏方法,包括步骤:
S1,基于low-level颜色特征差异和high-level语义特征差异进行镜头分割;
S2,基于分割后的镜头,进行跨场景目标人物时空轨迹估计;
S3,基于估计结果,进行目标人物展示区域重构。
进一步地,步骤S1包括子步骤:
S101,设有已解码的总共
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
图像序列
Figure DEST_PATH_IMAGE006
,其中
Figure DEST_PATH_IMAGE008
表示第
Figure DEST_PATH_IMAGE010
张图像,将每张
Figure 323726DEST_PATH_IMAGE004
图像颜色空间转换到
Figure DEST_PATH_IMAGE012
颜色空间,记作
Figure DEST_PATH_IMAGE014
,再计算上一张
Figure 429086DEST_PATH_IMAGE012
图像与当前
Figure 253953DEST_PATH_IMAGE012
图像的颜色特征差异
Figure DEST_PATH_IMAGE016
,即:
Figure DEST_PATH_IMAGE018
其中
Figure DEST_PATH_IMAGE020
表示计算均值,
Figure DEST_PATH_IMAGE022
表示求和,
Figure DEST_PATH_IMAGE024
表示取绝对值,
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
分别表示当前
Figure 798592DEST_PATH_IMAGE012
图像和上一张
Figure 921268DEST_PATH_IMAGE012
图像;
S102,使用在imagenet上预训练的VGG19分类模型,通过替换原始模型中的末尾的池化层和全连接层为一个全局平均池化层,使得模型输出宽、高均为1的特征图,对
Figure 84397DEST_PATH_IMAGE004
图像序列中的每一张图像
Figure 329433DEST_PATH_IMAGE008
使用该模型进行特征提取,得图像语义特征集合
Figure DEST_PATH_IMAGE030
,其中
Figure DEST_PATH_IMAGE032
为第
Figure 889596DEST_PATH_IMAGE010
Figure 878281DEST_PATH_IMAGE004
图像提取到的图像语义特征,通过计算当前
Figure 895915DEST_PATH_IMAGE004
图像与上一张
Figure 328165DEST_PATH_IMAGE004
图像的特征差异
Figure DEST_PATH_IMAGE034
,即:
Figure DEST_PATH_IMAGE036
其中
Figure DEST_PATH_IMAGE038
表示上一张
Figure 225890DEST_PATH_IMAGE004
图像的图像语义特征,
Figure DEST_PATH_IMAGE040
表示特征的膜;
S103,通过设计以下公式来融合low-level颜色特征差异和high-level语义特征差异,得到最终的图像表征差异
Figure DEST_PATH_IMAGE042
,即:
Figure DEST_PATH_IMAGE044
其中
Figure DEST_PATH_IMAGE046
为权重,用于平衡两种差异;
S104,对
Figure 300156DEST_PATH_IMAGE004
图像序列
Figure 172297DEST_PATH_IMAGE006
中的每相邻两帧
Figure 24716DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE048
,计算图像表征差异
Figure 825050DEST_PATH_IMAGE042
,当
Figure DEST_PATH_IMAGE050
时,表明第
Figure 296483DEST_PATH_IMAGE010
张图像是新镜头的第一张图像,则
Figure DEST_PATH_IMAGE052
即为当前镜头的出点,以此类推,得到分割好的镜头序列
Figure DEST_PATH_IMAGE054
,其中
Figure DEST_PATH_IMAGE056
表示第
Figure DEST_PATH_IMAGE058
个镜头,
Figure DEST_PATH_IMAGE060
为镜头总数,
Figure DEST_PATH_IMAGE062
为判断阈值。
进一步地,步骤S2包括子步骤:
S201,在单一镜头中对目标人物时空轨迹进行估计,设当前镜头
Figure 757551DEST_PATH_IMAGE056
共有图像
Figure DEST_PATH_IMAGE064
张,使用基于深度学习的目标跟踪器对在当前镜头的每一帧预测目标人物位置,对在当前镜头的每一帧预测目标人物位置,得目标人物在当前镜头的跟踪边框序列
Figure DEST_PATH_IMAGE066
,其中
Figure DEST_PATH_IMAGE068
为当前镜头
Figure 564227DEST_PATH_IMAGE056
的初始目标人物边框,用于设定跟踪器在当前镜头的跟踪对象;
S202,使用当前镜头的跟踪边框序列
Figure DEST_PATH_IMAGE070
,利用行人重识别模型提取目标人物空间特征并融合得到目标人物在当前镜头的时空特征;
S203,使用基于深度学习的行人检测器,在下一镜头的首张图像中生成下一镜头跟踪目标人物候选,并使用S202中的行人重识别模型对每个候选提取空间特征,并使用当前镜头的目标人物时空特征进行比对,取相似度最高的候选为下一镜头的跟踪对象;
S204,在下一镜头中,执行步骤S201,S202,S203,以此类推,直到对所有镜头处理完毕,得到目标人物在总计
Figure 87743DEST_PATH_IMAGE002
Figure 221921DEST_PATH_IMAGE004
图像序列
Figure DEST_PATH_IMAGE072
中的所有跟踪边框,记作
Figure DEST_PATH_IMAGE074
进一步地,步骤S3包括子步骤:
S301,获取每个镜头的目标人物时空轨迹,具体地,对当前镜头
Figure 442556DEST_PATH_IMAGE056
的跟踪边框序列
Figure 246564DEST_PATH_IMAGE066
,设第
Figure DEST_PATH_IMAGE076
个边框
Figure DEST_PATH_IMAGE078
在其对应图像中的坐标为
Figure DEST_PATH_IMAGE080
,则计算得到当前镜头的第
Figure 382010DEST_PATH_IMAGE076
个轨迹点
Figure DEST_PATH_IMAGE082
则当前镜头中目标人物的轨迹点表示为
Figure DEST_PATH_IMAGE084
S302,根据步骤S301中所得当前镜头目标人物的平滑轨迹,重构以目标人物为展示目的的9:16竖屏画面序列。
进一步地,步骤S103中,包括子步骤:
通过在互联网搜集各种类型的视频片段,使用人工标记各视频中相邻张两帧图像是否属于同一镜头,构造训练集;其中,相同镜头的图像使用同一数字进行标记,即标记为所属镜头序号,此外,设计一个卷积模型,名为weighting CNN,记作
Figure DEST_PATH_IMAGE086
,通过输入相邻两张
Figure 306497DEST_PATH_IMAGE004
图像,通过在训练集上构建最小化损失函数:
Figure DEST_PATH_IMAGE088
使得模型收敛,得到权重
Figure 945420DEST_PATH_IMAGE046
,其中
Figure DEST_PATH_IMAGE090
为目标标签,当输入两帧
Figure 513804DEST_PATH_IMAGE004
图像属于同一镜头时,
Figure DEST_PATH_IMAGE092
,否则
Figure DEST_PATH_IMAGE094
,max为最大值函数,
Figure DEST_PATH_IMAGE096
为超参数。
进一步地,在步骤S201中,所述使用基于深度学习的目标跟踪器包括SiamRPN跟踪器。
进一步地,步骤S202包括子步骤:
S2021,使用基于深度学习的行人重识别模型,对当前镜头的每个边框
Figure 776027DEST_PATH_IMAGE078
提取空间特征,得到目标人物在当前镜头的空间特征序列
Figure DEST_PATH_IMAGE098
S2022,将空间特征序列输入聚类器,将其划分为2个类别,取样本个数较多的一类为正样例并保留,
S2023,对保留的空间特征序列正样本取均值,作为当前镜头中目标人物的时空特征,记作
Figure DEST_PATH_IMAGE100
进一步地,步骤203中,所述基于深度学习的行人检测器包括yolov5通用目标检测器,仅使用行人预测结果。
进一步地,在步骤S301中,包括子步骤:对所述当前镜头所有轨迹点使用滑动均值滤波器进行滤波。
进一步地,步骤S302包括子步骤:
对当前镜头的第
Figure 65057DEST_PATH_IMAGE076
个平滑轨迹点
Figure DEST_PATH_IMAGE102
和边框
Figure 214279DEST_PATH_IMAGE078
的对应坐标
Figure 625669DEST_PATH_IMAGE080
,根据其边框原始高度调整得到重构后的目标边框宽高,
Figure DEST_PATH_IMAGE104
Figure DEST_PATH_IMAGE106
Figure DEST_PATH_IMAGE108
为重构后的目标边框高度,
Figure DEST_PATH_IMAGE110
为重构后的目标边框宽度,
Figure DEST_PATH_IMAGE112
为向下取整操作。
进一步地,在步骤S2021中,所述基于深度学习的行人重识别模型包括Reid-strong-baseline重识别模型。
进一步地,所述滑动均值滤波器包括SG滤波器,窗口大小为15,得到较为平滑的轨迹
Figure DEST_PATH_IMAGE114
本发明的有益效果包括:
本发明实施例提供了一种高效、自动化的以目标人物为展示目的的16:9横屏转9:16竖屏方法;具体地,通过设计了一种结合low-level颜色差异以及high-level语义特征差异的镜头分割方法,并结合行人跟踪和行人重识别方法,自动高效地进行跨镜头估计目标人物的时空轨迹,最后基于目标人物时空轨迹重构出以目标人物为展示目的的9:16竖屏视频。
本发明实施例可以自动高效的从横屏视频中,以该特定人物为展示目的,将原16:9的横屏视频转换为9:16的竖屏视频,针对手机端短视频app进行发布,不需要使用者具备视频编辑能力,有效降低人工编辑成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的第一步骤流程图;
图2为本发明实施例中的
Figure 112538DEST_PATH_IMAGE086
网络结构;
图3为本发明实施例中的第二步骤流程图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
如图1~图3所示,一种基于特定人物时空定位的视频横屏转竖屏方法,包括步骤:
S1,基于low-level颜色特征差异和high-level语义特征差异的镜头分割子步骤;
S2,跨场景目标人物时空轨迹估计子步骤;
S3,目标人物展示区域重构子步骤;
在本发明其他可选的实施例中,步骤S1包括:
S101,设有已解码的总共
Figure 1997DEST_PATH_IMAGE002
Figure 317309DEST_PATH_IMAGE004
图像序列
Figure 368442DEST_PATH_IMAGE006
,其中
Figure 887148DEST_PATH_IMAGE008
表示第
Figure 580297DEST_PATH_IMAGE010
张图像,首先,将每张
Figure 172953DEST_PATH_IMAGE004
图像颜色空间转换到
Figure 801511DEST_PATH_IMAGE012
颜色空间,记作
Figure 682880DEST_PATH_IMAGE014
,再计算上一张
Figure 773196DEST_PATH_IMAGE012
图像与当前
Figure 423620DEST_PATH_IMAGE012
图像的颜色特征差异
Figure 736263DEST_PATH_IMAGE016
,即:
Figure DEST_PATH_IMAGE018A
其中
Figure 167244DEST_PATH_IMAGE020
表示计算均值,
Figure 998934DEST_PATH_IMAGE022
表示求和,
Figure 379231DEST_PATH_IMAGE024
表示取绝对值,
Figure 474226DEST_PATH_IMAGE026
Figure 189241DEST_PATH_IMAGE028
分别表示当前
Figure 762305DEST_PATH_IMAGE012
图像和上一张
Figure 761223DEST_PATH_IMAGE012
图像。
S102,使用在imagenet上预训练的VGG19分类模型,通过替换原始模型中的末尾的池化层和全连接层为一个全局平均池化层,使得模型输出宽、高均为1的特征图,对
Figure 27119DEST_PATH_IMAGE004
图像序列中的每一张图像
Figure 901534DEST_PATH_IMAGE008
使用该模型进行特征提取,得图像语义特征集合
Figure 871764DEST_PATH_IMAGE030
,其中
Figure 226653DEST_PATH_IMAGE032
为第
Figure 663451DEST_PATH_IMAGE010
Figure 353058DEST_PATH_IMAGE004
图像提取到的图像语义特征,通过计算当前
Figure 64662DEST_PATH_IMAGE004
图像与上一张
Figure 664271DEST_PATH_IMAGE004
图像的特征差异
Figure 648801DEST_PATH_IMAGE034
,即:
Figure DEST_PATH_IMAGE036A
其中
Figure 763387DEST_PATH_IMAGE038
表示上一张
Figure 91732DEST_PATH_IMAGE004
图像的图像语义特征,
Figure 545847DEST_PATH_IMAGE040
表示特征的膜。
S103,通过设计以下公式来融合low-level颜色特征差异和high-level语义特征差异,得到最终的图像表征差异
Figure 449081DEST_PATH_IMAGE042
,即:
Figure 988646DEST_PATH_IMAGE044
其中
Figure 884796DEST_PATH_IMAGE046
为权重,用于平衡两种差异。
在本发明其他可选的实施例中,通过在互联网搜集各种类型的视频片段,比如新闻、体育、电影等类型,总计共2000个不同镜头,序号为0~1999;使用人工标记各视频中相邻张两帧图像是否属于同一镜头,构造训练集,其中,相同镜头的图像使用同一数字进行标记,即标记为所属镜头序号,此外,额外设计一个卷积模型,名为weighting CNN,记作
Figure 990155DEST_PATH_IMAGE086
,模型结构如图2所示,通过输入相邻两张
Figure 939657DEST_PATH_IMAGE004
图像,并通过在训练集上构建最小化损失函数:
Figure DEST_PATH_IMAGE088A
使得模型收敛,构建训练数据集和损失函数对这个wCNN模型进行训练,得到让图像自适应的权重
Figure 638622DEST_PATH_IMAGE046
,其中
Figure 964561DEST_PATH_IMAGE090
为目标标签,当输入两帧
Figure 986744DEST_PATH_IMAGE004
图像属于同一镜头时,
Figure 107147DEST_PATH_IMAGE092
,否则
Figure 418042DEST_PATH_IMAGE094
Figure 862187DEST_PATH_IMAGE096
为超参数,本实施方案中取值0.4。
S104,对
Figure 676559DEST_PATH_IMAGE004
图像序列
Figure 358076DEST_PATH_IMAGE006
中的每相邻两帧
Figure 93951DEST_PATH_IMAGE008
Figure 105900DEST_PATH_IMAGE048
,计算图像表征差异
Figure 243621DEST_PATH_IMAGE042
,当
Figure 96039DEST_PATH_IMAGE050
时,表明第
Figure 850368DEST_PATH_IMAGE010
张图像是新镜头的第一张图像,则
Figure 321801DEST_PATH_IMAGE052
即为当前镜头的出点,以此类推,得到分割好的镜头序列
Figure 687929DEST_PATH_IMAGE054
,其中
Figure 55457DEST_PATH_IMAGE056
表示第
Figure 890557DEST_PATH_IMAGE058
个镜头,
Figure 900102DEST_PATH_IMAGE060
为镜头总数,
Figure 543573DEST_PATH_IMAGE062
为判断阈值,本实施方案中取值0.8。
在本发明其他可选的实施例中,步骤S2包括:
S201,在单一镜头中对目标人物时空轨迹进行估计,设当前镜头
Figure 488526DEST_PATH_IMAGE056
共有图像
Figure 420710DEST_PATH_IMAGE064
张,使用基于深度学习的目标跟踪器,本实施方案中采用SiamRPN跟踪器,对在当前镜头的每一帧预测目标人物位置,得目标人物在当前镜头的跟踪边框序列
Figure 358579DEST_PATH_IMAGE066
,其中
Figure 59819DEST_PATH_IMAGE068
为当前镜头
Figure 411559DEST_PATH_IMAGE056
的初始目标人物边框,用于设定跟踪器在当前镜头的跟踪对象,特别的,
Figure DEST_PATH_IMAGE116
为步骤S104中镜头序列
Figure DEST_PATH_IMAGE118
中的第一个镜头的跟踪对象边框,需要人工标定。
S202,使用当前镜头的跟踪边框序列
Figure 955673DEST_PATH_IMAGE070
,提取目标人物空间特征并融合得到目标人物在当前镜头的时空特征,具体地,使用基于深度学习的行人重识别模型,本实施方案中采用Reid-strong-baseline重识别模型,对当前镜头的每个边框
Figure 307020DEST_PATH_IMAGE078
提取空间特征,得到目标人物在当前镜头的空间特征序列
Figure 738132DEST_PATH_IMAGE098
,在本发明其他可选的实施例中,将空间特征序列输入聚类器,将其划分为2个类别,取样本个数较多的一类为正样例并保留,在本发明其他可选的实施例中,对保留的空间特征序列正样本取均值,作为当前镜头中目标人物的时空特征,记作
Figure 883943DEST_PATH_IMAGE100
S203,使用基于深度学习的行人检测器,本实例中采用yolov5通用目标检测器,仅使用行人预测结果,在下一镜头的首张图像中生成下一镜头跟踪目标人物候选,并使用S202中的行人重识别模型对每个候选提取空间特征,并使用当前镜头的目标人物时空特征进行比对,取相似度最高的候选为下一镜头的跟踪对象。
在下一镜头中,执行步骤S201,S202,S203,以此类推,直到对所有镜头处理完毕,得到目标人物在总计
Figure 915353DEST_PATH_IMAGE002
Figure 867128DEST_PATH_IMAGE004
图像序列
Figure 542960DEST_PATH_IMAGE072
中的所有跟踪边框,记作
Figure 499153DEST_PATH_IMAGE074
在本发明其他可选的实施例中,步骤S3包括:
S301,获取每个镜头的目标人物时空轨迹,具体地,对当前镜头
Figure 627646DEST_PATH_IMAGE056
的跟踪边框序列
Figure 445429DEST_PATH_IMAGE066
,设第
Figure 241347DEST_PATH_IMAGE076
个边框
Figure 791277DEST_PATH_IMAGE078
在其对应图像中的坐标为
Figure 282432DEST_PATH_IMAGE080
,则可计算得到当前镜头的第
Figure 779272DEST_PATH_IMAGE076
个轨迹点
Figure DEST_PATH_IMAGE082A
则当前镜头中目标人物的轨迹点表示为
Figure 591546DEST_PATH_IMAGE084
,在本发明其他可选的实施例中,对当前镜头所有轨迹点使用滑动均值滤波器进行滤波,本实施方案中采用SG滤波器,窗口大小为15,得到较为平滑的轨迹
Figure 515640DEST_PATH_IMAGE114
,避免最终重构结果出现抖动现象。
S302,根据步骤S301中所得当前镜头目标人物的平滑轨迹,重构以目标人物为展示目的的9:16竖屏画面序列,具体地,对当前镜头的第
Figure 8938DEST_PATH_IMAGE076
个平滑轨迹点
Figure 43890DEST_PATH_IMAGE102
和边框
Figure 345559DEST_PATH_IMAGE078
的对应坐标
Figure 315920DEST_PATH_IMAGE080
,根据其边框原始高度调整得到重构后的目标边框宽高,
Figure DEST_PATH_IMAGE104A
Figure DEST_PATH_IMAGE106A
Figure 280203DEST_PATH_IMAGE108
为重构后的目标边框高度,
Figure 977900DEST_PATH_IMAGE110
为重构后的目标边框宽度,
Figure 602917DEST_PATH_IMAGE112
为向下取整操作。
通过以上步骤S1,S2,S3,即可从原始16:9横屏视频中得到已特定目标为展示目的的9:16竖屏视频。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (12)

1.一种基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,包括步骤:
S1,基于low-level颜色特征差异和high-level语义特征差异进行镜头分割;
S2,基于分割后的镜头,进行跨场景目标人物时空轨迹估计;
S3,基于估计结果,进行目标人物展示区域重构。
2.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤S1包括子步骤:
S101,设有已解码的总共
Figure DEST_PATH_IMAGE001
Figure 998898DEST_PATH_IMAGE002
图像序列
Figure DEST_PATH_IMAGE003
,其中
Figure 181617DEST_PATH_IMAGE004
表示第
Figure 243245DEST_PATH_IMAGE006
张图像,将每张
Figure 435192DEST_PATH_IMAGE002
图像颜色空间转换到
Figure DEST_PATH_IMAGE007
颜色空间,记作
Figure 311881DEST_PATH_IMAGE008
,再计算上一张
Figure 914770DEST_PATH_IMAGE007
图像与当前
Figure 712962DEST_PATH_IMAGE007
图像的颜色特征差异
Figure DEST_PATH_IMAGE009
,即:
Figure DEST_PATH_IMAGE011
其中
Figure 708600DEST_PATH_IMAGE012
表示计算均值,
Figure DEST_PATH_IMAGE013
表示求和,
Figure 190528DEST_PATH_IMAGE014
表示取绝对值,
Figure DEST_PATH_IMAGE015
Figure 511788DEST_PATH_IMAGE016
分别表示当前
Figure 49473DEST_PATH_IMAGE007
图像和上一张
Figure 317643DEST_PATH_IMAGE007
图像;
S102,使用在imagenet上预训练的VGG19分类模型,通过替换原始模型中的末尾的池化 层和全连接层为一个全局平均池化层,使得模型输出宽、高均为1的特征图,对
Figure 372187DEST_PATH_IMAGE002
图像序 列中的每一张图像
Figure 333189DEST_PATH_IMAGE004
使用该模型进行特征提取,得图像语义特征集合
Figure DEST_PATH_IMAGE017
,其中
Figure 591127DEST_PATH_IMAGE018
为 第
Figure 397408DEST_PATH_IMAGE006
Figure 572038DEST_PATH_IMAGE002
图像提取到的图像语义特征,通过计算当前
Figure 438363DEST_PATH_IMAGE002
图像与上一张
Figure 947710DEST_PATH_IMAGE002
图像的特征差 异
Figure DEST_PATH_IMAGE019
,即:
Figure DEST_PATH_IMAGE021
其中
Figure 885579DEST_PATH_IMAGE022
表示上一张
Figure 665448DEST_PATH_IMAGE002
图像的图像语义特征,
Figure DEST_PATH_IMAGE023
表示特征的膜;
S103,通过设计以下公式来融合low-level颜色特征差异和high-level语义特征差异, 得到最终的图像表征差异
Figure 499411DEST_PATH_IMAGE024
,即:
Figure DEST_PATH_IMAGE025
其中
Figure 715629DEST_PATH_IMAGE026
为权重,用于平衡两种差异;
S104,对
Figure 381490DEST_PATH_IMAGE002
图像序列
Figure 265133DEST_PATH_IMAGE003
中的每相邻两帧
Figure 738839DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE027
,计算图像表征差异
Figure 255402DEST_PATH_IMAGE024
,当
Figure 207178DEST_PATH_IMAGE028
时,表明第
Figure 210906DEST_PATH_IMAGE006
张图像是新镜头的第一张图像,则
Figure DEST_PATH_IMAGE029
即为当前镜头的出点,以此类推, 得到分割好的镜头序列
Figure 635940DEST_PATH_IMAGE030
,其中
Figure DEST_PATH_IMAGE031
表示第
Figure 623488DEST_PATH_IMAGE032
个镜头,
Figure DEST_PATH_IMAGE033
为镜头总数,
Figure 113375DEST_PATH_IMAGE034
为判断阈值。
3.根据权利要求1或2任一所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤S2包括子步骤:
S201,在单一镜头中对目标人物时空轨迹进行估计,设当前镜头
Figure 456762DEST_PATH_IMAGE031
共有图像
Figure DEST_PATH_IMAGE035
张,使用 基于深度学习的目标跟踪器对在当前镜头的每一帧预测目标人物位置,对在当前镜头的每 一帧预测目标人物位置,得目标人物在当前镜头的跟踪边框序列
Figure 803430DEST_PATH_IMAGE036
,其中
Figure DEST_PATH_IMAGE037
为当前镜头
Figure 518752DEST_PATH_IMAGE031
的初始目标人物边框,用于设定跟踪器在当前镜头的跟踪对象;
S202,使用当前镜头的跟踪边框序列
Figure 77910DEST_PATH_IMAGE038
,利用行人重识别模型提取目标人物空间特征 并融合得到目标人物在当前镜头的时空特征;
S203,使用基于深度学习的行人检测器,在下一镜头的首张图像中生成下一镜头跟踪目标人物候选,并使用S202中的行人重识别模型对每个候选提取空间特征,并使用当前镜头的目标人物时空特征进行比对,取相似度最高的候选为下一镜头的跟踪对象;
S204,在下一镜头中,执行步骤S201,S202,S203,以此类推,直到对所有镜头处理完毕, 得到目标人物在总计
Figure 56230DEST_PATH_IMAGE001
Figure 777061DEST_PATH_IMAGE002
图像序列
Figure DEST_PATH_IMAGE039
中的所有跟踪边框,记作
Figure 489934DEST_PATH_IMAGE040
4.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤S3包括子步骤:
S301,获取每个镜头的目标人物时空轨迹,对当前镜头
Figure 587203DEST_PATH_IMAGE031
的跟踪边框序列
Figure 623292DEST_PATH_IMAGE036
,设第
Figure DEST_PATH_IMAGE041
个边框
Figure 295450DEST_PATH_IMAGE042
在其对应图像中的坐标为
Figure DEST_PATH_IMAGE043
,则计算得 到当前镜头的第
Figure 10465DEST_PATH_IMAGE041
个轨迹点:
Figure DEST_PATH_IMAGE045
则当前镜头中目标人物的轨迹点表示为
Figure 193316DEST_PATH_IMAGE046
S302,根据步骤S301中所得当前镜头目标人物的平滑轨迹,重构以目标人物为展示目的的9:16竖屏画面序列。
5.根据权利要求2所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤S103中,包括子步骤:
通过在互联网搜集各种类型的视频片段,使用人工标记各视频中相邻张两帧图像是否 属于同一镜头,构造训练集;其中,相同镜头的图像使用同一数字进行标记,即标记为所属 镜头序号,此外,设计一个卷积模型,记作
Figure DEST_PATH_IMAGE047
,通过输入相邻两张
Figure 146229DEST_PATH_IMAGE002
图像,并通过在训 练集上构建最小化损失函数:
Figure DEST_PATH_IMAGE049
使得模型收敛,得到权重
Figure 208863DEST_PATH_IMAGE026
,其中
Figure 601054DEST_PATH_IMAGE050
为目标标签,当输入两帧
Figure 305705DEST_PATH_IMAGE002
图像属于同一镜头时,
Figure DEST_PATH_IMAGE051
,否则
Figure 378703DEST_PATH_IMAGE052
,max为最大值函数,
Figure DEST_PATH_IMAGE053
为超参数。
6.根据权利要求3所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,在步骤S201中,所述使用基于深度学习的目标跟踪器包括SiamRPN跟踪器。
7.根据权利要求3所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤S202包括子步骤:
S2021,使用基于深度学习的行人重识别模型,对当前镜头的每个边框
Figure 159709DEST_PATH_IMAGE042
提取空间特 征,得到目标人物在当前镜头的空间特征序列
Figure 52578DEST_PATH_IMAGE054
S2022,将空间特征序列输入聚类器,将其划分为2个类别,取样本个数较多的一类为正样例并保留,
S2023,对保留的空间特征序列正样本取均值,作为当前镜头中目标人物的时空特征, 记作
Figure DEST_PATH_IMAGE055
8.根据权利要求3所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤203中,所述基于深度学习的行人检测器包括yolov5通用目标检测器,仅使用行人预测结果。
9.根据权利要求4所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,在步骤S301中,包括子步骤:对所述当前镜头所有轨迹点使用滑动均值滤波器进行滤波。
10.根据权利要求4所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤S302包括子步骤:
对当前镜头的第
Figure 75767DEST_PATH_IMAGE041
个平滑轨迹点
Figure 472113DEST_PATH_IMAGE056
和边框
Figure 345391DEST_PATH_IMAGE042
的对应坐标
Figure 459978DEST_PATH_IMAGE043
,根据其 边框原始高度调整得到重构后的目标边框宽高,
Figure 240852DEST_PATH_IMAGE058
Figure 508016DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE061
为重构后的目标边框高度,
Figure 880092DEST_PATH_IMAGE062
为重构后的目标边框宽度,
Figure DEST_PATH_IMAGE063
为向下取整操作。
11.根据权利要求7所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,在步骤S2021中,所述基于深度学习的行人重识别模型包括Reid-strong-baseline重识别模型。
12.根据权利要求9所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在 于,所述滑动均值滤波器包括SG滤波器,窗口大小为15,得到较为平滑的轨迹
Figure 530909DEST_PATH_IMAGE064
CN202111523572.4A 2021-12-14 2021-12-14 一种基于特定人物时空轨迹的视频横屏转竖屏方法 Active CN114155255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111523572.4A CN114155255B (zh) 2021-12-14 2021-12-14 一种基于特定人物时空轨迹的视频横屏转竖屏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111523572.4A CN114155255B (zh) 2021-12-14 2021-12-14 一种基于特定人物时空轨迹的视频横屏转竖屏方法

Publications (2)

Publication Number Publication Date
CN114155255A true CN114155255A (zh) 2022-03-08
CN114155255B CN114155255B (zh) 2023-07-28

Family

ID=80450843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111523572.4A Active CN114155255B (zh) 2021-12-14 2021-12-14 一种基于特定人物时空轨迹的视频横屏转竖屏方法

Country Status (1)

Country Link
CN (1) CN114155255B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739686A (zh) * 2009-02-11 2010-06-16 北京智安邦科技有限公司 运动目标跟踪方法及其系统
US20160269645A1 (en) * 2015-03-09 2016-09-15 Apple Inc. Automatic cropping of video content
CN108710863A (zh) * 2018-05-24 2018-10-26 东北大学 基于深度学习的无人机航拍场景语义分割方法及系统
WO2020052319A1 (zh) * 2018-09-14 2020-03-19 腾讯科技(深圳)有限公司 目标跟踪方法、装置、介质以及设备
GB202007918D0 (en) * 2020-05-27 2020-07-08 Tomtom Global Content Bv Neutral network model for image segmentation
CN112131984A (zh) * 2020-09-11 2020-12-25 咪咕文化科技有限公司 视频裁剪方法、电子设备和计算机可读存储介质
CN112135188A (zh) * 2020-09-16 2020-12-25 咪咕文化科技有限公司 视频裁剪方法、电子设备及计算机可读存储介质
CN112492388A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 视频处理方法、装置、设备以及存储介质
CN113160283A (zh) * 2021-03-23 2021-07-23 河海大学 一种基于sift的多摄像头场景下的目标跟踪方法
CN113362331A (zh) * 2020-03-04 2021-09-07 阿里巴巴集团控股有限公司 图像分割方法、装置、电子设备及计算机存储介质
CN113438550A (zh) * 2020-03-23 2021-09-24 阿里巴巴集团控股有限公司 一种视频播放方法、视频会议方法、直播方法及相关装置
CN113591527A (zh) * 2021-01-14 2021-11-02 腾讯科技(深圳)有限公司 一种对象轨迹识别方法、装置、电子设备和存储介质
CN113689440A (zh) * 2021-08-23 2021-11-23 腾讯音乐娱乐科技(深圳)有限公司 一种视频处理方法、装置、计算机设备以及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739686A (zh) * 2009-02-11 2010-06-16 北京智安邦科技有限公司 运动目标跟踪方法及其系统
US20160269645A1 (en) * 2015-03-09 2016-09-15 Apple Inc. Automatic cropping of video content
CN108710863A (zh) * 2018-05-24 2018-10-26 东北大学 基于深度学习的无人机航拍场景语义分割方法及系统
WO2020052319A1 (zh) * 2018-09-14 2020-03-19 腾讯科技(深圳)有限公司 目标跟踪方法、装置、介质以及设备
CN113362331A (zh) * 2020-03-04 2021-09-07 阿里巴巴集团控股有限公司 图像分割方法、装置、电子设备及计算机存储介质
CN113438550A (zh) * 2020-03-23 2021-09-24 阿里巴巴集团控股有限公司 一种视频播放方法、视频会议方法、直播方法及相关装置
GB202007918D0 (en) * 2020-05-27 2020-07-08 Tomtom Global Content Bv Neutral network model for image segmentation
CN112131984A (zh) * 2020-09-11 2020-12-25 咪咕文化科技有限公司 视频裁剪方法、电子设备和计算机可读存储介质
CN112135188A (zh) * 2020-09-16 2020-12-25 咪咕文化科技有限公司 视频裁剪方法、电子设备及计算机可读存储介质
CN112492388A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 视频处理方法、装置、设备以及存储介质
CN113591527A (zh) * 2021-01-14 2021-11-02 腾讯科技(深圳)有限公司 一种对象轨迹识别方法、装置、电子设备和存储介质
CN113160283A (zh) * 2021-03-23 2021-07-23 河海大学 一种基于sift的多摄像头场景下的目标跟踪方法
CN113689440A (zh) * 2021-08-23 2021-11-23 腾讯音乐娱乐科技(深圳)有限公司 一种视频处理方法、装置、计算机设备以及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
RABIA A. MINHAS等: "Shot Classification of Field Sports Videos Using AlexNet Convolutional Neural Network", vol. 9, no. 3, pages 1 - 21 *
宋中兴: "多主体智能跟踪技术在春晚新媒体制作中的探索应用", no. 05, pages 27 - 30 *
张考等: "轻松生产短视频——腾讯多媒体实验室横屏转竖屏技术", pages 1 *
曹建荣: "一种基于语义的视频场景分割算法", no. 11, pages 1657 - 1660 *

Also Published As

Publication number Publication date
CN114155255B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
US11095833B2 (en) Automatic composition of composite images or videos from frames captured with moving camera
CN107943837B (zh) 一种前景目标关键帧化的视频摘要生成方法
Bai et al. Video snapcut: robust video object cutout using localized classifiers
Liu et al. A hierarchical visual model for video object summarization
US20200371535A1 (en) Automatic image capturing method and device, unmanned aerial vehicle and storage medium
WO2023077821A1 (zh) 基于多清晰度集成自训练的小样本低质量图像目标检测方法
CN107273895B (zh) 用于头戴式智能设备的视频流实时文本识别及翻译的方法
CN107194948B (zh) 基于集成式预测与时空域传播的视频显著性检测方法
US11468571B2 (en) Apparatus and method for generating image
CN113850135A (zh) 一种基于时间移位框架的动态手势识别方法及系统
CN116977774A (zh) 图像生成方法、装置、设备和介质
CN114170558A (zh) 用于视频处理的方法、系统、设备、介质和产品
Park et al. Tracking non-rigid objects using probabilistic Hausdorff distance matching
CN117253110A (zh) 一种基于扩散模型的目标检测模型泛化能力提升方法
CN112837323A (zh) 一种基于人像分割的视频处理方法、系统和存储介质
CN114155255A (zh) 一种基于特定人物时空轨迹的视频横屏转竖屏方法
US20220385810A1 (en) Panoramic Video Data Process
CN107798687B (zh) 一种基于稀疏时变图的幻灯片切换检测方法
KR102151748B1 (ko) 비디오 영상에서 사람과 배경을 분리하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
Oreifej et al. Robust subspace estimation using low-rank optimization
CN112784648B (zh) 一种优化视频行人重识别系统特征提取的方法及装置
WO2022110033A1 (zh) 视频处理方法、装置及终端设备
WO2023025063A1 (zh) 图像信号处理器优化方法及设备
Kumano et al. Video editing support system based on video content analysis
Peng et al. Teaching Assistant and Class Attendance Analysis Using Surveillance Camera

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant