CN114155255B - 一种基于特定人物时空轨迹的视频横屏转竖屏方法 - Google Patents

一种基于特定人物时空轨迹的视频横屏转竖屏方法 Download PDF

Info

Publication number
CN114155255B
CN114155255B CN202111523572.4A CN202111523572A CN114155255B CN 114155255 B CN114155255 B CN 114155255B CN 202111523572 A CN202111523572 A CN 202111523572A CN 114155255 B CN114155255 B CN 114155255B
Authority
CN
China
Prior art keywords
image
space
shot
current
target person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111523572.4A
Other languages
English (en)
Other versions
CN114155255A (zh
Inventor
袁琦
温序铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN202111523572.4A priority Critical patent/CN114155255B/zh
Publication of CN114155255A publication Critical patent/CN114155255A/zh
Application granted granted Critical
Publication of CN114155255B publication Critical patent/CN114155255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • H04N21/440272Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA for performing aspect ratio conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特定人物时空轨迹的视频横屏转竖屏方法,包括步骤:S1,基于low‑level颜色特征差异和high‑level语义特征差异进行镜头分割;S2,基于分割后的镜头,进行跨场景目标人物时空轨迹估计;S3,基于估计结果,进行目标人物展示区域重构。本发明可以自动高效的从横屏视频中,以该特定人物为展示目的,将原16:9的横屏视频转换为9:16的竖屏视频,针对手机端短视频app进行发布,不需要使用者具备视频编辑能力,有效降低人工编辑成本。

Description

一种基于特定人物时空轨迹的视频横屏转竖屏方法
技术领域
本发明涉及视频编辑领域,更为具体的,涉及一种基于特定人物时空轨迹的视频横屏转竖屏方法。
背景技术
随着手机的飞速发展并凭借其便捷的单手持握方式,越来越多的用户习惯于使用手机观看视频,手指轻轻地上下一划,便可快速切换到其他视频,正是伴随着这一简单的操作逻辑,各种短视频app爆火全球,而短视频的火爆,又反过来带动对竖屏视频的需求,但并非所有视频从制作之初便是针对竖屏条件下观看而设计拍摄的。一般的,此类横屏视频需要在后期人工使用视频编辑软件进行编辑转换,难免费时费力。
发明内容
本发明的目的在于克服现有技术的不足,针对背景技术中提出的问题,提供一种基于特定人物时空轨迹的视频横屏转竖屏方法,可以自动高效的从横屏视频中,以该特定人物为展示目的,将原16:9的横屏视频转换为9:16的竖屏视频,针对手机端短视频app进行发布,不需要使用者具备视频编辑能力,有效降低人工编辑成本。
本发明的目的是通过以下方案实现的:
一种基于特定人物时空轨迹的视频横屏转竖屏方法,包括步骤:
S1,基于low-level颜色特征差异和high-level语义特征差异进行镜头分割;
S2,基于分割后的镜头,进行跨场景目标人物时空轨迹估计;
S3,基于估计结果,进行目标人物展示区域重构。
进一步地,步骤S1包括子步骤:
S101,设有已解码的总共张/>图像序列/>,其中/>表示第/>张图像,将每张/>图像颜色空间转换到/>颜色空间,记作/>,再计算上一张/>图像与当前/>图像的颜色特征差异/>,即:
其中表示计算均值,/>表示求和,/>表示取绝对值,/>和/>分别表示当前图像和上一张/>图像;
S102,使用在imagenet上预训练的VGG19分类模型,通过替换原始模型中的末尾的池化层和全连接层为一个全局平均池化层,使得模型输出宽、高均为1的特征图,对图像序列中的每一张图像/>使用该模型进行特征提取,得图像语义特征集合/>,其中为第/>张/>图像提取到的图像语义特征,通过计算当前/>图像与上一张/>图像的特征差异/>,即:
其中表示上一张/>图像的图像语义特征,/>表示特征的膜;
S103,通过设计以下公式来融合low-level颜色特征差异和high-level语义特征差异,得到最终的图像表征差异,即:
其中为权重,用于平衡两种差异;
S104,对图像序列/>中的每相邻两帧/>和/>,计算图像表征差异/>,当/>时,表明第/>张图像是新镜头的第一张图像,则/>即为当前镜头的出点,以此类推,得到分割好的镜头序列/>,其中/>表示第/>个镜头,/>为镜头总数,/>为判断阈值。
进一步地,步骤S2包括子步骤:
S201,在单一镜头中对目标人物时空轨迹进行估计,设当前镜头共有图像/>张,使用基于深度学习的目标跟踪器对在当前镜头的每一帧预测目标人物位置,对在当前镜头的每一帧预测目标人物位置,得目标人物在当前镜头的跟踪边框序列/>,其中/>为当前镜头/>的初始目标人物边框,用于设定跟踪器在当前镜头的跟踪对象;
S202,使用当前镜头的跟踪边框序列,利用行人重识别模型提取目标人物空间特征并融合得到目标人物在当前镜头的时空特征;
S203,使用基于深度学习的行人检测器,在下一镜头的首张图像中生成下一镜头跟踪目标人物候选,并使用S202中的行人重识别模型对每个候选提取空间特征,并使用当前镜头的目标人物时空特征进行比对,取相似度最高的候选为下一镜头的跟踪对象;
S204,在下一镜头中,执行步骤S201,S202,S203,以此类推,直到对所有镜头处理完毕,得到目标人物在总计张/>图像序列/>中的所有跟踪边框,记作/>
进一步地,步骤S3包括子步骤:
S301,获取每个镜头的目标人物时空轨迹,具体地,对当前镜头的跟踪边框序列,设第/>个边框/>在其对应图像中的坐标为/>,则计算得到当前镜头的第/>个轨迹点
则当前镜头中目标人物的轨迹点表示为
S302,根据步骤S301中所得当前镜头目标人物的平滑轨迹,重构以目标人物为展示目的的9:16竖屏画面序列。
进一步地,步骤S103中,包括子步骤:
通过在互联网搜集各种类型的视频片段,使用人工标记各视频中相邻张两帧图像是否属于同一镜头,构造训练集;其中,相同镜头的图像使用同一数字进行标记,即标记为所属镜头序号,此外,设计一个卷积模型,名为weighting CNN,记作,通过输入相邻两张/>图像,通过在训练集上构建最小化损失函数:
使得模型收敛,得到权重,其中/>为目标标签,当输入两帧/>图像属于同一镜头时,/>,否则/>,max为最大值函数,/>为超参数。
进一步地,在步骤S201中,所述使用基于深度学习的目标跟踪器包括SiamRPN跟踪器。
进一步地,步骤S202包括子步骤:
S2021,使用基于深度学习的行人重识别模型,对当前镜头的每个边框提取空间特征,得到目标人物在当前镜头的空间特征序列/>
S2022,将空间特征序列输入聚类器,将其划分为2个类别,取样本个数较多的一类为正样例并保留,
S2023,对保留的空间特征序列正样本取均值,作为当前镜头中目标人物的时空特征,记作
进一步地,步骤203中,所述基于深度学习的行人检测器包括yolov5通用目标检测器,仅使用行人预测结果。
进一步地,在步骤S301中,包括子步骤:对所述当前镜头所有轨迹点使用滑动均值滤波器进行滤波。
进一步地,步骤S302包括子步骤:
对当前镜头的第个平滑轨迹点/>和边框/>的对应坐标/>,根据其边框原始高度调整得到重构后的目标边框宽高,
为重构后的目标边框高度,/>为重构后的目标边框宽度,/>为向下取整操作。
进一步地,在步骤S2021中,所述基于深度学习的行人重识别模型包括Reid-strong-baseline重识别模型。
进一步地,所述滑动均值滤波器包括SG滤波器,窗口大小为15,得到较为平滑的轨迹
本发明的有益效果包括:
本发明实施例提供了一种高效、自动化的以目标人物为展示目的的16:9横屏转9:16竖屏方法;具体地,通过设计了一种结合low-level颜色差异以及high-level语义特征差异的镜头分割方法,并结合行人跟踪和行人重识别方法,自动高效地进行跨镜头估计目标人物的时空轨迹,最后基于目标人物时空轨迹重构出以目标人物为展示目的的9:16竖屏视频。
本发明实施例可以自动高效的从横屏视频中,以该特定人物为展示目的,将原16:9的横屏视频转换为9:16的竖屏视频,针对手机端短视频app进行发布,不需要使用者具备视频编辑能力,有效降低人工编辑成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的第一步骤流程图;
图2为本发明实施例中的网络结构;
图3为本发明实施例中的第二步骤流程图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
如图1~图3所示,一种基于特定人物时空定位的视频横屏转竖屏方法,包括步骤:
S1,基于low-level颜色特征差异和high-level语义特征差异的镜头分割子步骤;
S2,跨场景目标人物时空轨迹估计子步骤;
S3,目标人物展示区域重构子步骤;
在本发明其他可选的实施例中,步骤S1包括:
S101,设有已解码的总共张/>图像序列/>,其中/>表示第/>张图像,首先,将每张/>图像颜色空间转换到/>颜色空间,记作/>,再计算上一张/>图像与当前/>图像的颜色特征差异/>,即:
其中表示计算均值,/>表示求和,/>表示取绝对值,/>和/>分别表示当前图像和上一张/>图像。
S102,使用在imagenet上预训练的VGG19分类模型,通过替换原始模型中的末尾的池化层和全连接层为一个全局平均池化层,使得模型输出宽、高均为1的特征图,对图像序列中的每一张图像/>使用该模型进行特征提取,得图像语义特征集合/>,其中为第/>张/>图像提取到的图像语义特征,通过计算当前/>图像与上一张/>图像的特征差异/>,即:
其中表示上一张/>图像的图像语义特征,/>表示特征的膜。
S103,通过设计以下公式来融合low-level颜色特征差异和high-level语义特征差异,得到最终的图像表征差异,即:
其中为权重,用于平衡两种差异。
在本发明其他可选的实施例中,通过在互联网搜集各种类型的视频片段,比如新闻、体育、电影等类型,总计共2000个不同镜头,序号为0~1999;使用人工标记各视频中相邻张两帧图像是否属于同一镜头,构造训练集,其中,相同镜头的图像使用同一数字进行标记,即标记为所属镜头序号,此外,额外设计一个卷积模型,名为weighting CNN,记作,模型结构如图2所示,通过输入相邻两张/>图像,并通过在训练集上构建最小化损失函数:
使得模型收敛,构建训练数据集和损失函数对这个wCNN模型进行训练,得到让图像自适应的权重,其中/>为目标标签,当输入两帧/>图像属于同一镜头时,/>,否则,/>为超参数,本实施方案中取值0.4。
S104,对图像序列/>中的每相邻两帧/>和/>,计算图像表征差异/>,当/>时,表明第/>张图像是新镜头的第一张图像,则/>即为当前镜头的出点,以此类推,得到分割好的镜头序列/>,其中/>表示第/>个镜头,/>为镜头总数,/>为判断阈值,本实施方案中取值0.8。
在本发明其他可选的实施例中,步骤S2包括:
S201,在单一镜头中对目标人物时空轨迹进行估计,设当前镜头共有图像/>张,使用基于深度学习的目标跟踪器,本实施方案中采用SiamRPN跟踪器,对在当前镜头的每一帧预测目标人物位置,得目标人物在当前镜头的跟踪边框序列/>,其中/>为当前镜头/>的初始目标人物边框,用于设定跟踪器在当前镜头的跟踪对象,特别的,/>为步骤S104中镜头序列/>中的第一个镜头的跟踪对象边框,需要人工标定。
S202,使用当前镜头的跟踪边框序列,提取目标人物空间特征并融合得到目标人物在当前镜头的时空特征,具体地,使用基于深度学习的行人重识别模型,本实施方案中采用Reid-strong-baseline重识别模型,对当前镜头的每个边框/>提取空间特征,得到目标人物在当前镜头的空间特征序列/>,在本发明其他可选的实施例中,将空间特征序列输入聚类器,将其划分为2个类别,取样本个数较多的一类为正样例并保留,在本发明其他可选的实施例中,对保留的空间特征序列正样本取均值,作为当前镜头中目标人物的时空特征,记作/>
S203,使用基于深度学习的行人检测器,本实例中采用yolov5通用目标检测器,仅使用行人预测结果,在下一镜头的首张图像中生成下一镜头跟踪目标人物候选,并使用S202中的行人重识别模型对每个候选提取空间特征,并使用当前镜头的目标人物时空特征进行比对,取相似度最高的候选为下一镜头的跟踪对象。
在下一镜头中,执行步骤S201,S202,S203,以此类推,直到对所有镜头处理完毕,得到目标人物在总计张/>图像序列/>中的所有跟踪边框,记作/>
在本发明其他可选的实施例中,步骤S3包括:
S301,获取每个镜头的目标人物时空轨迹,具体地,对当前镜头的跟踪边框序列,设第/>个边框/>在其对应图像中的坐标为/>,则可计算得到当前镜头的第/>个轨迹点
则当前镜头中目标人物的轨迹点表示为,在本发明其他可选的实施例中,对当前镜头所有轨迹点使用滑动均值滤波器进行滤波,本实施方案中采用SG滤波器,窗口大小为15,得到较为平滑的轨迹/>,避免最终重构结果出现抖动现象。
S302,根据步骤S301中所得当前镜头目标人物的平滑轨迹,重构以目标人物为展示目的的9:16竖屏画面序列,具体地,对当前镜头的第个平滑轨迹点/>和边框/>的对应坐标/>,根据其边框原始高度调整得到重构后的目标边框宽高,
为重构后的目标边框高度,/>为重构后的目标边框宽度,/>为向下取整操作。
通过以上步骤S1,S2,S3,即可从原始16:9横屏视频中得到已特定目标为展示目的的9:16竖屏视频。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,包括步骤:
S1,基于low-level颜色特征差异和high-level语义特征差异进行镜头分割;
S2,基于分割后的镜头,进行跨场景目标人物时空轨迹估计;
步骤S2包括子步骤:
S201,在单一镜头中对目标人物时空轨迹进行估计,设当前镜头sj共有图像K张,使用基于深度学习的目标跟踪器对在当前镜头的每一帧预测目标人物位置,对在当前镜头的每一帧预测目标人物位置,得目标人物在当前镜头的跟踪边框序列其中为当前镜头sj的初始目标人物边框,用于设定跟踪器在当前镜头的跟踪对象;
S202,使用当前镜头的跟踪边框序列利用行人重识别模型提取目标人物空间特征并融合得到目标人物在当前镜头的时空特征;
S203,使用基于深度学习的行人检测器,在下一镜头的首张图像中生成下一镜头跟踪目标人物候选,并使用S202中的行人重识别模型对每个候选提取空间特征,并使用当前镜头的目标人物时空特征进行比对,取相似度最高的候选为下一镜头的跟踪对象;
S204,在下一镜头中,执行步骤S201,S202,S203,以此类推,直到对所有镜头处理完毕,得到目标人物在总计N张RGB图像序列V中的所有跟踪边框,记作
J代表分割好的镜头序列的总数;
S3,基于估计结果,进行目标人物展示区域重构;
步骤S3包括子步骤:
S301,获取每个镜头的目标人物时空轨迹,具体地,对当前镜头sj的跟踪边框序列设第k个边框/>在其对应图像中的坐标为{x1,y1,x2,y2},则计算得到当前镜头的第k个轨迹点:
则当前镜头中目标人物的轨迹点表示为
S302,根据步骤S301中所得当前镜头目标人物的平滑轨迹,重构以目标人物为展示目的的9:16竖屏画面序列。
2.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤S1包括子步骤:
S101,设有已解码的总共N张RGB图像序列其中xi表示第i张图像,将每张RGB图像颜色空间转换到HSV颜色空间,记作/>再计算上一张HSV图像与当前HSV图像的颜色特征差异Dc,即:
Dc=avg(sum(abs(hi-hi-1)))
其中avg表示计算均值,sum表示求和,abs表示取绝对值,hi和hi-1分别表示当前HSV图像和上一张HSV图像;
S102,使用在imagenet上预训练的VGG19分类模型,通过替换原始模型中的末尾的池化层和全连接层为一个全局平均池化层,使得模型输出宽、高均为1的特征图,对RGB图像序列中的每一张图像xi使用该模型进行特征提取,得图像语义特征集合其中fi为第i张RGB图像提取到的图像语义特征,通过计算当前RGB图像与上一张RGB图像的特征差异Ds,即:
其中fi-1表示上一张RGB图像的图像语义特征,‖·‖表示特征的膜;
S103,通过设计以下公式来融合low-level颜色特征差异和high-level语义特征差异,得到最终的图像表征差异Dr,即:
Dr=α*Dc+(1-α)*Ds
其中α为权重,用于平衡两种差异;
S104,对RGB图像序列中的每相邻两帧xi和xi-1,计算图像表征差异Dr,当Dr≥t时,表明第i张图像是新镜头的第一张图像,则i-1即为当前镜头的出点,以此类推,得到分割好的镜头序列/>其中sj表示第j个镜头,J为镜头总数,t为判断阈值。
3.根据权利要求2所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤S103中,包括子步骤:
通过在互联网搜集各种类型的视频片段,使用人工标记各视频中相邻张两帧图像是否属于同一镜头,构造训练集;其中,相同镜头的图像使用同一数字进行标记,即标记为所属镜头序号,此外,设计一个卷积模型,记作wCNN,通过输入相邻两张RGB图像,并通过在训练集上构建最小化损失函数:
使得模型收敛,得到权重α,其中y为目标标签,当输入两帧RGB图像属于同一镜头时,y=1,否则y=0,max为最大值函数,margin为超参数。
4.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,在步骤S201中,所述使用基于深度学习的目标跟踪器包括SiamRPN跟踪器。
5.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤S202包括子步骤:
S2021,使用基于深度学习的行人重识别模型,对当前镜头的每个边框提取空间特征,得到目标人物在当前镜头的空间特征序列/>
S2022,将空间特征序列输入聚类器,将其划分为2个类别,取样本个数较多的一类为正样例并保留,
S2023,对保留的空间特征序列正样本取均值,作为当前镜头中目标人物的时空特征,记作
6.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤203中,所述基于深度学习的行人检测器包括yolov5通用目标检测器,仅使用行人预测结果。
7.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,在步骤S301中,包括子步骤:对所述当前镜头所有轨迹点使用滑动均值滤波器进行滤波。
8.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤S302包括子步骤:
对当前镜头的第k个平滑轨迹点和边框/>的对应坐标{x1,y1,x2,y2},根据其边框原始高度调整得到重构后的目标边框宽高,
H=(y2-y1)+(16-(y2-y1)%16)
H为重构后的目标边框高度,W为重构后的目标边框宽度,为向下取整操作。
9.根据权利要求5所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,在步骤S2021中,所述基于深度学习的行人重识别模型包括Reid-strong-baseline重识别模型。
10.根据权利要求7所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,所述滑动均值滤波器包括SG滤波器,窗口大小为15,得到较为平滑的轨迹
CN202111523572.4A 2021-12-14 2021-12-14 一种基于特定人物时空轨迹的视频横屏转竖屏方法 Active CN114155255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111523572.4A CN114155255B (zh) 2021-12-14 2021-12-14 一种基于特定人物时空轨迹的视频横屏转竖屏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111523572.4A CN114155255B (zh) 2021-12-14 2021-12-14 一种基于特定人物时空轨迹的视频横屏转竖屏方法

Publications (2)

Publication Number Publication Date
CN114155255A CN114155255A (zh) 2022-03-08
CN114155255B true CN114155255B (zh) 2023-07-28

Family

ID=80450843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111523572.4A Active CN114155255B (zh) 2021-12-14 2021-12-14 一种基于特定人物时空轨迹的视频横屏转竖屏方法

Country Status (1)

Country Link
CN (1) CN114155255B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113438550A (zh) * 2020-03-23 2021-09-24 阿里巴巴集团控股有限公司 一种视频播放方法、视频会议方法、直播方法及相关装置
CN113689440A (zh) * 2021-08-23 2021-11-23 腾讯音乐娱乐科技(深圳)有限公司 一种视频处理方法、装置、计算机设备以及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739686B (zh) * 2009-02-11 2012-05-30 北京智安邦科技有限公司 运动目标跟踪方法及其系统
US10244175B2 (en) * 2015-03-09 2019-03-26 Apple Inc. Automatic cropping of video content
CN108710863A (zh) * 2018-05-24 2018-10-26 东北大学 基于深度学习的无人机航拍场景语义分割方法及系统
CN109325967B (zh) * 2018-09-14 2023-04-07 腾讯科技(深圳)有限公司 目标跟踪方法、装置、介质以及设备
CN113362331A (zh) * 2020-03-04 2021-09-07 阿里巴巴集团控股有限公司 图像分割方法、装置、电子设备及计算机存储介质
GB202007918D0 (en) * 2020-05-27 2020-07-08 Tomtom Global Content Bv Neutral network model for image segmentation
CN112131984A (zh) * 2020-09-11 2020-12-25 咪咕文化科技有限公司 视频裁剪方法、电子设备和计算机可读存储介质
CN112135188A (zh) * 2020-09-16 2020-12-25 咪咕文化科技有限公司 视频裁剪方法、电子设备及计算机可读存储介质
CN112492388B (zh) * 2020-11-30 2023-01-10 北京百度网讯科技有限公司 视频处理方法、装置、设备以及存储介质
CN113591527A (zh) * 2021-01-14 2021-11-02 腾讯科技(深圳)有限公司 一种对象轨迹识别方法、装置、电子设备和存储介质
CN113160283B (zh) * 2021-03-23 2024-04-16 河海大学 一种基于sift的多摄像头场景下的目标跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113438550A (zh) * 2020-03-23 2021-09-24 阿里巴巴集团控股有限公司 一种视频播放方法、视频会议方法、直播方法及相关装置
CN113689440A (zh) * 2021-08-23 2021-11-23 腾讯音乐娱乐科技(深圳)有限公司 一种视频处理方法、装置、计算机设备以及存储介质

Also Published As

Publication number Publication date
CN114155255A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
US11637971B2 (en) Automatic composition of composite images or videos from frames captured with moving camera
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
CN110473164B (zh) 一种基于注意力机制的图像美学质量评价方法
EP3758359A1 (en) Focusing method and device, electronic device and computer-readable storage medium
CN110147702B (zh) 一种实时视频的目标检测与识别方法和系统
US9646227B2 (en) Computerized machine learning of interesting video sections
US20140010409A1 (en) Object tracking device, object tracking method, and control program
EP3001354A1 (en) Object detection method and device for online training
CN111918130A (zh) 视频封面确定方法、装置、电子设备及存储介质
CN112487978A (zh) 一种视频中说话人定位的方法、装置及计算机存储介质
CN110929099A (zh) 一种基于多任务学习的短视频帧语义提取方法及系统
CN116977774A (zh) 图像生成方法、装置、设备和介质
CN113850135A (zh) 一种基于时间移位框架的动态手势识别方法及系统
CN110147724B (zh) 用于检测视频中的文本区域的方法、装置、设备以及介质
CN112383824A (zh) 视频广告过滤方法、设备及存储介质
CN112784745B (zh) 基于置信度自适应和差分增强的视频显著物体检测方法
CN114155255B (zh) 一种基于特定人物时空轨迹的视频横屏转竖屏方法
US11647294B2 (en) Panoramic video data process
CN116095363A (zh) 基于关键行为识别的移动端短视频高光时刻剪辑方法
CN112949777B (zh) 相似图像确定方法及装置、电子设备和存储介质
Prabakaran et al. Key frame extraction analysis based on optimized convolution neural network (ocnn) using intensity feature selection (ifs)
CN114066841A (zh) 一种天空检测方法、装置、计算机设备和存储介质
CN107798687B (zh) 一种基于稀疏时变图的幻灯片切换检测方法
Kim et al. Design and implementation of a lip reading system in smart phone environment
Kim Lifelong Learning Architecture of Video Surveillance System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant