CN114155255A - 一种基于特定人物时空轨迹的视频横屏转竖屏方法 - Google Patents
一种基于特定人物时空轨迹的视频横屏转竖屏方法 Download PDFInfo
- Publication number
- CN114155255A CN114155255A CN202111523572.4A CN202111523572A CN114155255A CN 114155255 A CN114155255 A CN 114155255A CN 202111523572 A CN202111523572 A CN 202111523572A CN 114155255 A CN114155255 A CN 114155255A
- Authority
- CN
- China
- Prior art keywords
- image
- shot
- space
- current
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000006243 chemical reaction Methods 0.000 title claims description 5
- 230000011218 segmentation Effects 0.000 claims abstract description 5
- 238000013135 deep learning Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006748 scratching Methods 0.000 description 1
- 230000002393 scratching effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440218—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440263—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
- H04N21/440272—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA for performing aspect ratio conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特定人物时空轨迹的视频横屏转竖屏方法,包括步骤:S1,基于low‑level颜色特征差异和high‑level语义特征差异进行镜头分割;S2,基于分割后的镜头,进行跨场景目标人物时空轨迹估计;S3,基于估计结果,进行目标人物展示区域重构。本发明可以自动高效的从横屏视频中,以该特定人物为展示目的,将原16:9的横屏视频转换为9:16的竖屏视频,针对手机端短视频app进行发布,不需要使用者具备视频编辑能力,有效降低人工编辑成本。
Description
技术领域
本发明涉及视频编辑领域,更为具体的,涉及一种基于特定人物时空轨迹的视频横屏转竖屏方法。
背景技术
随着手机的飞速发展并凭借其便捷的单手持握方式,越来越多的用户习惯于使用手机观看视频,手指轻轻地上下一划,便可快速切换到其他视频,正是伴随着这一简单的操作逻辑,各种短视频app爆火全球,而短视频的火爆,又反过来带动对竖屏视频的需求,但并非所有视频从制作之初便是针对竖屏条件下观看而设计拍摄的。一般的,此类横屏视频需要在后期人工使用视频编辑软件进行编辑转换,难免费时费力。
发明内容
本发明的目的在于克服现有技术的不足,针对背景技术中提出的问题,提供一种基于特定人物时空轨迹的视频横屏转竖屏方法,可以自动高效的从横屏视频中,以该特定人物为展示目的,将原16:9的横屏视频转换为9:16的竖屏视频,针对手机端短视频app进行发布,不需要使用者具备视频编辑能力,有效降低人工编辑成本。
本发明的目的是通过以下方案实现的:
一种基于特定人物时空轨迹的视频横屏转竖屏方法,包括步骤:
S1,基于low-level颜色特征差异和high-level语义特征差异进行镜头分割;
S2,基于分割后的镜头,进行跨场景目标人物时空轨迹估计;
S3,基于估计结果,进行目标人物展示区域重构。
进一步地,步骤S1包括子步骤:
S102,使用在imagenet上预训练的VGG19分类模型,通过替换原始模型中的末尾的池化层和全连接层为一个全局平均池化层,使得模型输出宽、高均为1的特征图,对图像序列中的每一张图像使用该模型进行特征提取,得图像语义特征集合,其中为第张图像提取到的图像语义特征,通过计算当前图像与上一张图像的特征差异,即:
进一步地,步骤S2包括子步骤:
S201,在单一镜头中对目标人物时空轨迹进行估计,设当前镜头共有图像张,使用基于深度学习的目标跟踪器对在当前镜头的每一帧预测目标人物位置,对在当前镜头的每一帧预测目标人物位置,得目标人物在当前镜头的跟踪边框序列,其中为当前镜头的初始目标人物边框,用于设定跟踪器在当前镜头的跟踪对象;
S203,使用基于深度学习的行人检测器,在下一镜头的首张图像中生成下一镜头跟踪目标人物候选,并使用S202中的行人重识别模型对每个候选提取空间特征,并使用当前镜头的目标人物时空特征进行比对,取相似度最高的候选为下一镜头的跟踪对象;
进一步地,步骤S3包括子步骤:
S302,根据步骤S301中所得当前镜头目标人物的平滑轨迹,重构以目标人物为展示目的的9:16竖屏画面序列。
进一步地,步骤S103中,包括子步骤:
通过在互联网搜集各种类型的视频片段,使用人工标记各视频中相邻张两帧图像是否属于同一镜头,构造训练集;其中,相同镜头的图像使用同一数字进行标记,即标记为所属镜头序号,此外,设计一个卷积模型,名为weighting CNN,记作,通过输入相邻两张图像,通过在训练集上构建最小化损失函数:
进一步地,在步骤S201中,所述使用基于深度学习的目标跟踪器包括SiamRPN跟踪器。
进一步地,步骤S202包括子步骤:
S2022,将空间特征序列输入聚类器,将其划分为2个类别,取样本个数较多的一类为正样例并保留,
进一步地,步骤203中,所述基于深度学习的行人检测器包括yolov5通用目标检测器,仅使用行人预测结果。
进一步地,在步骤S301中,包括子步骤:对所述当前镜头所有轨迹点使用滑动均值滤波器进行滤波。
进一步地,步骤S302包括子步骤:
进一步地,在步骤S2021中,所述基于深度学习的行人重识别模型包括Reid-strong-baseline重识别模型。
本发明的有益效果包括:
本发明实施例提供了一种高效、自动化的以目标人物为展示目的的16:9横屏转9:16竖屏方法;具体地,通过设计了一种结合low-level颜色差异以及high-level语义特征差异的镜头分割方法,并结合行人跟踪和行人重识别方法,自动高效地进行跨镜头估计目标人物的时空轨迹,最后基于目标人物时空轨迹重构出以目标人物为展示目的的9:16竖屏视频。
本发明实施例可以自动高效的从横屏视频中,以该特定人物为展示目的,将原16:9的横屏视频转换为9:16的竖屏视频,针对手机端短视频app进行发布,不需要使用者具备视频编辑能力,有效降低人工编辑成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的第一步骤流程图;
图3为本发明实施例中的第二步骤流程图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
如图1~图3所示,一种基于特定人物时空定位的视频横屏转竖屏方法,包括步骤:
S1,基于low-level颜色特征差异和high-level语义特征差异的镜头分割子步骤;
S2,跨场景目标人物时空轨迹估计子步骤;
S3,目标人物展示区域重构子步骤;
在本发明其他可选的实施例中,步骤S1包括:
S102,使用在imagenet上预训练的VGG19分类模型,通过替换原始模型中的末尾的池化层和全连接层为一个全局平均池化层,使得模型输出宽、高均为1的特征图,对图像序列中的每一张图像使用该模型进行特征提取,得图像语义特征集合,其中为第张图像提取到的图像语义特征,通过计算当前图像与上一张图像的特征差异,即:
在本发明其他可选的实施例中,通过在互联网搜集各种类型的视频片段,比如新闻、体育、电影等类型,总计共2000个不同镜头,序号为0~1999;使用人工标记各视频中相邻张两帧图像是否属于同一镜头,构造训练集,其中,相同镜头的图像使用同一数字进行标记,即标记为所属镜头序号,此外,额外设计一个卷积模型,名为weighting CNN,记作,模型结构如图2所示,通过输入相邻两张图像,并通过在训练集上构建最小化损失函数:
S104,对图像序列中的每相邻两帧和,计算图像表征差异,当时,表明第张图像是新镜头的第一张图像,则即为当前镜头的出点,以此类推,得到分割好的镜头序列,其中表示第个镜头,为镜头总数,为判断阈值,本实施方案中取值0.8。
在本发明其他可选的实施例中,步骤S2包括:
S201,在单一镜头中对目标人物时空轨迹进行估计,设当前镜头共有图像张,使用基于深度学习的目标跟踪器,本实施方案中采用SiamRPN跟踪器,对在当前镜头的每一帧预测目标人物位置,得目标人物在当前镜头的跟踪边框序列,其中为当前镜头的初始目标人物边框,用于设定跟踪器在当前镜头的跟踪对象,特别的,为步骤S104中镜头序列中的第一个镜头的跟踪对象边框,需要人工标定。
S202,使用当前镜头的跟踪边框序列,提取目标人物空间特征并融合得到目标人物在当前镜头的时空特征,具体地,使用基于深度学习的行人重识别模型,本实施方案中采用Reid-strong-baseline重识别模型,对当前镜头的每个边框提取空间特征,得到目标人物在当前镜头的空间特征序列,在本发明其他可选的实施例中,将空间特征序列输入聚类器,将其划分为2个类别,取样本个数较多的一类为正样例并保留,在本发明其他可选的实施例中,对保留的空间特征序列正样本取均值,作为当前镜头中目标人物的时空特征,记作。
S203,使用基于深度学习的行人检测器,本实例中采用yolov5通用目标检测器,仅使用行人预测结果,在下一镜头的首张图像中生成下一镜头跟踪目标人物候选,并使用S202中的行人重识别模型对每个候选提取空间特征,并使用当前镜头的目标人物时空特征进行比对,取相似度最高的候选为下一镜头的跟踪对象。
在本发明其他可选的实施例中,步骤S3包括:
则当前镜头中目标人物的轨迹点表示为,在本发明其他可选的实施例中,对当前镜头所有轨迹点使用滑动均值滤波器进行滤波,本实施方案中采用SG滤波器,窗口大小为15,得到较为平滑的轨迹,避免最终重构结果出现抖动现象。
S302,根据步骤S301中所得当前镜头目标人物的平滑轨迹,重构以目标人物为展示目的的9:16竖屏画面序列,具体地,对当前镜头的第个平滑轨迹点和边框的对应坐标,根据其边框原始高度调整得到重构后的目标边框宽高,
通过以上步骤S1,S2,S3,即可从原始16:9横屏视频中得到已特定目标为展示目的的9:16竖屏视频。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (12)
1.一种基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,包括步骤:
S1,基于low-level颜色特征差异和high-level语义特征差异进行镜头分割;
S2,基于分割后的镜头,进行跨场景目标人物时空轨迹估计;
S3,基于估计结果,进行目标人物展示区域重构。
2.根据权利要求1所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤S1包括子步骤:
S102,使用在imagenet上预训练的VGG19分类模型,通过替换原始模型中的末尾的池化
层和全连接层为一个全局平均池化层,使得模型输出宽、高均为1的特征图,对图像序
列中的每一张图像使用该模型进行特征提取,得图像语义特征集合,其中为
第张图像提取到的图像语义特征,通过计算当前图像与上一张图像的特征差
异,即:
3.根据权利要求1或2任一所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤S2包括子步骤:
S201,在单一镜头中对目标人物时空轨迹进行估计,设当前镜头共有图像张,使用
基于深度学习的目标跟踪器对在当前镜头的每一帧预测目标人物位置,对在当前镜头的每
一帧预测目标人物位置,得目标人物在当前镜头的跟踪边框序列,其中为当前镜头的初始目标人物边框,用于设定跟踪器在当前镜头的跟踪对象;
S203,使用基于深度学习的行人检测器,在下一镜头的首张图像中生成下一镜头跟踪目标人物候选,并使用S202中的行人重识别模型对每个候选提取空间特征,并使用当前镜头的目标人物时空特征进行比对,取相似度最高的候选为下一镜头的跟踪对象;
6.根据权利要求3所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,在步骤S201中,所述使用基于深度学习的目标跟踪器包括SiamRPN跟踪器。
8.根据权利要求3所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,步骤203中,所述基于深度学习的行人检测器包括yolov5通用目标检测器,仅使用行人预测结果。
9.根据权利要求4所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,在步骤S301中,包括子步骤:对所述当前镜头所有轨迹点使用滑动均值滤波器进行滤波。
11.根据权利要求7所述的基于特定人物时空轨迹的视频横屏转竖屏方法,其特征在于,在步骤S2021中,所述基于深度学习的行人重识别模型包括Reid-strong-baseline重识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111523572.4A CN114155255B (zh) | 2021-12-14 | 2021-12-14 | 一种基于特定人物时空轨迹的视频横屏转竖屏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111523572.4A CN114155255B (zh) | 2021-12-14 | 2021-12-14 | 一种基于特定人物时空轨迹的视频横屏转竖屏方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114155255A true CN114155255A (zh) | 2022-03-08 |
CN114155255B CN114155255B (zh) | 2023-07-28 |
Family
ID=80450843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111523572.4A Active CN114155255B (zh) | 2021-12-14 | 2021-12-14 | 一种基于特定人物时空轨迹的视频横屏转竖屏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114155255B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739686A (zh) * | 2009-02-11 | 2010-06-16 | 北京智安邦科技有限公司 | 运动目标跟踪方法及其系统 |
US20160269645A1 (en) * | 2015-03-09 | 2016-09-15 | Apple Inc. | Automatic cropping of video content |
CN108710863A (zh) * | 2018-05-24 | 2018-10-26 | 东北大学 | 基于深度学习的无人机航拍场景语义分割方法及系统 |
WO2020052319A1 (zh) * | 2018-09-14 | 2020-03-19 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、装置、介质以及设备 |
GB202007918D0 (en) * | 2020-05-27 | 2020-07-08 | Tomtom Global Content Bv | Neutral network model for image segmentation |
CN112131984A (zh) * | 2020-09-11 | 2020-12-25 | 咪咕文化科技有限公司 | 视频裁剪方法、电子设备和计算机可读存储介质 |
CN112135188A (zh) * | 2020-09-16 | 2020-12-25 | 咪咕文化科技有限公司 | 视频裁剪方法、电子设备及计算机可读存储介质 |
CN112492388A (zh) * | 2020-11-30 | 2021-03-12 | 北京百度网讯科技有限公司 | 视频处理方法、装置、设备以及存储介质 |
CN113160283A (zh) * | 2021-03-23 | 2021-07-23 | 河海大学 | 一种基于sift的多摄像头场景下的目标跟踪方法 |
CN113362331A (zh) * | 2020-03-04 | 2021-09-07 | 阿里巴巴集团控股有限公司 | 图像分割方法、装置、电子设备及计算机存储介质 |
CN113438550A (zh) * | 2020-03-23 | 2021-09-24 | 阿里巴巴集团控股有限公司 | 一种视频播放方法、视频会议方法、直播方法及相关装置 |
CN113591527A (zh) * | 2021-01-14 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 一种对象轨迹识别方法、装置、电子设备和存储介质 |
CN113689440A (zh) * | 2021-08-23 | 2021-11-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种视频处理方法、装置、计算机设备以及存储介质 |
-
2021
- 2021-12-14 CN CN202111523572.4A patent/CN114155255B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739686A (zh) * | 2009-02-11 | 2010-06-16 | 北京智安邦科技有限公司 | 运动目标跟踪方法及其系统 |
US20160269645A1 (en) * | 2015-03-09 | 2016-09-15 | Apple Inc. | Automatic cropping of video content |
CN108710863A (zh) * | 2018-05-24 | 2018-10-26 | 东北大学 | 基于深度学习的无人机航拍场景语义分割方法及系统 |
WO2020052319A1 (zh) * | 2018-09-14 | 2020-03-19 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、装置、介质以及设备 |
CN113362331A (zh) * | 2020-03-04 | 2021-09-07 | 阿里巴巴集团控股有限公司 | 图像分割方法、装置、电子设备及计算机存储介质 |
CN113438550A (zh) * | 2020-03-23 | 2021-09-24 | 阿里巴巴集团控股有限公司 | 一种视频播放方法、视频会议方法、直播方法及相关装置 |
GB202007918D0 (en) * | 2020-05-27 | 2020-07-08 | Tomtom Global Content Bv | Neutral network model for image segmentation |
CN112131984A (zh) * | 2020-09-11 | 2020-12-25 | 咪咕文化科技有限公司 | 视频裁剪方法、电子设备和计算机可读存储介质 |
CN112135188A (zh) * | 2020-09-16 | 2020-12-25 | 咪咕文化科技有限公司 | 视频裁剪方法、电子设备及计算机可读存储介质 |
CN112492388A (zh) * | 2020-11-30 | 2021-03-12 | 北京百度网讯科技有限公司 | 视频处理方法、装置、设备以及存储介质 |
CN113591527A (zh) * | 2021-01-14 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 一种对象轨迹识别方法、装置、电子设备和存储介质 |
CN113160283A (zh) * | 2021-03-23 | 2021-07-23 | 河海大学 | 一种基于sift的多摄像头场景下的目标跟踪方法 |
CN113689440A (zh) * | 2021-08-23 | 2021-11-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种视频处理方法、装置、计算机设备以及存储介质 |
Non-Patent Citations (4)
Title |
---|
RABIA A. MINHAS等: "Shot Classification of Field Sports Videos Using AlexNet Convolutional Neural Network", vol. 9, no. 3, pages 1 - 21 * |
宋中兴: "多主体智能跟踪技术在春晚新媒体制作中的探索应用", no. 05, pages 27 - 30 * |
张考等: "轻松生产短视频——腾讯多媒体实验室横屏转竖屏技术", pages 1 * |
曹建荣: "一种基于语义的视频场景分割算法", no. 11, pages 1657 - 1660 * |
Also Published As
Publication number | Publication date |
---|---|
CN114155255B (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11095833B2 (en) | Automatic composition of composite images or videos from frames captured with moving camera | |
CN107943837B (zh) | 一种前景目标关键帧化的视频摘要生成方法 | |
Bai et al. | Video snapcut: robust video object cutout using localized classifiers | |
Liu et al. | A hierarchical visual model for video object summarization | |
US20200371535A1 (en) | Automatic image capturing method and device, unmanned aerial vehicle and storage medium | |
WO2023077821A1 (zh) | 基于多清晰度集成自训练的小样本低质量图像目标检测方法 | |
CN107273895B (zh) | 用于头戴式智能设备的视频流实时文本识别及翻译的方法 | |
CN107194948B (zh) | 基于集成式预测与时空域传播的视频显著性检测方法 | |
US11468571B2 (en) | Apparatus and method for generating image | |
CN113850135A (zh) | 一种基于时间移位框架的动态手势识别方法及系统 | |
CN116977774A (zh) | 图像生成方法、装置、设备和介质 | |
CN114170558A (zh) | 用于视频处理的方法、系统、设备、介质和产品 | |
Park et al. | Tracking non-rigid objects using probabilistic Hausdorff distance matching | |
CN117253110A (zh) | 一种基于扩散模型的目标检测模型泛化能力提升方法 | |
CN112837323A (zh) | 一种基于人像分割的视频处理方法、系统和存储介质 | |
CN114155255A (zh) | 一种基于特定人物时空轨迹的视频横屏转竖屏方法 | |
US20220385810A1 (en) | Panoramic Video Data Process | |
CN107798687B (zh) | 一种基于稀疏时变图的幻灯片切换检测方法 | |
KR102151748B1 (ko) | 비디오 영상에서 사람과 배경을 분리하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
Oreifej et al. | Robust subspace estimation using low-rank optimization | |
CN112784648B (zh) | 一种优化视频行人重识别系统特征提取的方法及装置 | |
WO2022110033A1 (zh) | 视频处理方法、装置及终端设备 | |
WO2023025063A1 (zh) | 图像信号处理器优化方法及设备 | |
Kumano et al. | Video editing support system based on video content analysis | |
Peng et al. | Teaching Assistant and Class Attendance Analysis Using Surveillance Camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |