CN112800805A - 视频剪辑方法、系统、计算机设备及计算机存储介质 - Google Patents

视频剪辑方法、系统、计算机设备及计算机存储介质 Download PDF

Info

Publication number
CN112800805A
CN112800805A CN201911033267.XA CN201911033267A CN112800805A CN 112800805 A CN112800805 A CN 112800805A CN 201911033267 A CN201911033267 A CN 201911033267A CN 112800805 A CN112800805 A CN 112800805A
Authority
CN
China
Prior art keywords
image
frame
human body
video
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911033267.XA
Other languages
English (en)
Inventor
蔡鹤鸣
钱龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN201911033267.XA priority Critical patent/CN112800805A/zh
Priority to US17/079,662 priority patent/US11495264B2/en
Publication of CN112800805A publication Critical patent/CN112800805A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明实施例公开了一种视频剪辑方法,包括:获取待处理视频,对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中的包含的所有物体;采用预先训练好的分类模型对框选出的所有物体进行分类识别,以从所述所有物体中挑选出人体区域图像;计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度;将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像;将各帧图像的所述剪辑图像按时间顺序进行合成,得到剪辑视频。本发明实施例还公开了一种视频剪辑系统。本发明的有益效果在于:可以针对待处理视频中的目标人物进行精确剪辑,并合成视频。

Description

视频剪辑方法、系统、计算机设备及计算机存储介质
技术领域
本发明实施例涉及视频处理领域,尤其涉及一种视频剪辑方法、系统、计算机设备及计算机存储介质。
技术背景
近年来,随着各种自媒体业务的飞速发展,各种自媒体视频越来越多,因而涌现出了许许多多的视频剪辑应用,这些视频剪辑应用是对视频片段或图像进行裁剪、叠加、拼接,以形成一个新的视频(如短视频、视频集锦等)。
本专利申请发明人发现,现有的视频剪辑方式功能较为有限,仅能实现裁剪、叠加、拼接等简单的功能,对于特殊功能的视频剪辑(如横版素材改竖版视频的剪辑)仍然极大的依赖人工,效率低,成本高。
发明内容
有鉴于此,本发明实施例的目的是提供一种视频剪辑方法、系统、计算机设备及计算机存储介质,以解决现有竖版视频剪辑极大依赖人工的问题。
为实现上述目的,本发明实施例提供了一种视频剪辑方法,包括:
获取待处理视频,对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中的包含的所有物体,其中,通过检测框框选出各个物体所在的区域;
采用预先训练好的分类模型对框选出的所有物体进行分类识别,以从所述所有物体中挑选出人体区域图像;
计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度;
将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像;
将各帧图像的所述剪辑图像按时间顺序进行合成,得到剪辑视频。
进一步地,对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中的包含的所有物体的步骤,包括:
采用预先训练好的物体检测模型对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中的包含的所有物体。
进一步地,所述分类模型的训练步骤,包括:
以样本人物图像为参照对象,对待处理图像进行分类;
将与所述样本人物图像为同类的待处理图像作为正样本数据,与所述样本人物图像为不同类的待处理图像作为负样本数据;
根据Triplet loss对正样本数据与负样本数据进行类间距离调整,以扩大所述正样本数据与负样本数据的差距。
进一步地,计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度的步骤,包括:
提取每一帧图像中的各个人体区域图像的多个第一特征向量,得到n维第一特征向量;
提取所述目标人物图像的多个第二特征向量,得到m维第二特征向量,其中,n≤m,n与m均为正整数;
计算所述第一特征向量与所述第二特征向量的欧式距离,所述欧式距离即为相似度。
进一步地,将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像的步骤,包括:
根据所述人体区域图像对应的检测框设置剪辑框,所述剪辑框包括剪辑图像及所述剪辑图像对应的相似度;
识别每帧所述待处理视频中的剪辑框及对应的相似度,选取所述剪辑框中相似度大于预设阈值的剪辑图像。
进一步地,根据所述人体区域图像对应的检测框设置剪辑框的步骤,包括:
获取所述人体区域图像对应的检测框的移动速度,选取单位帧内所述人体区域图像对应的检测框的平均速度,作为所述人体区域图像对应的检测框的移动速度;
将所述人体区域图像对应的检测框的移动速度作为所述剪辑框的移动速度。
进一步地,获取所述人体区域图像对应的检测框的移动速度,选取单位帧内所述人体区域图像对应的检测框的平均速度,作为剪辑框的移动速度的步骤,包括:
锚定所述人体区域图像对应的检测框的中心点,判断相邻帧的所述人体区域图像对应的检测框的中心点的距离是否大于预设距离值;
若相邻帧的所述人体区域图像对应的检测框的中心点的距离大于预设距离值,以单位帧内所述人体区域图像对应的检测框的平均速度作为所述人体区域图像对应的检测框的移动速度。
为实现上述目的,本发明实施例还提供了一种视频剪辑系统,包括:
检测模块,用于获取待处理视频,对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中的包含的所有物体,其中,通过检测框标记各个物体所在的区域;
分类模块,用于采用预先训练好的分类模型对框选出的所有物体进行分类识别,以从所述所有物体中挑选出人体区域图像;
计算模块,用于计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度;
选取模块,用于将每一帧图像中的各个人体区域图像与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像;
组合模块,用于将所述剪辑图像按时间顺序进行合成,得到剪辑视频。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的视频剪辑系统,所述视频剪辑系统被所述处理器执行时实现如上所述的视频剪辑方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的视频剪辑方法的步骤。
本发明实施例提供的视频剪辑方法、系统、计算机设备及计算机存储介质,通过对待处理视频进行物体检测识别出每一帧图像中的所有人体,计算每一帧图像中的所有人体与目标人物图像进行相似度计算,最后将相似度大于预设阈值的剪辑图像进行按时间顺序合成,得到目标人物的剪辑视频。本实施例可以在单人或多人场景中,根据待剪辑的目标人物图像,自动针对某一个特定人物进行视频剪辑,避免了人工进行剪辑所导致的效率低、成本高的情况。
附图说明
图1示意性示出了根据本申请实施例的环境应用示意图。
图2为本发明视频剪辑方法实施例一的流程图。
图3为本发明实施例图1中所述分类模型的训练步骤流程图。
图4为本发明实施例图2中步骤S104的流程图。
图5为本发明实施例图2中步骤S106的流程图。
图6为本发明实施例图6中步骤S106A的流程图。
图7为本发明实施例图7中步骤S106A1的流程图。
图8为本发明视频剪辑系统实施例二的程序模块示意图。
图9为本发明计算机设备实施例三的硬件结构示意图。
图10为本发明实施例剪辑框示意图。
图11为本发明实施例相似度排序的示意图。
图12为本发明实施例剪辑图像的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示意性示出了根据本申请实施例的环境应用示意图。在示例性的实施例中,计算机设备2可以通过一个或多个网络40获取待处理视频30,计算机设备2还可以通过一个或多个网络40连接多个客户终端50。
多个客户终端50可以被配置为访问计算机设备2的内容和服务。多个客户终端50可以包括可执行视频剪辑方法的计算设备,诸如移动设备,平板设备,膝上型计算机器等。多个客户终端50可以与一个或多个用户相关联。每个用户可以使用客户终端50来访问计算机设备2,且每个用户可以使用客户终端50来访问计算机设备2获取待处理视频30。多个客户终端50可以使用不同的网络40来访问计算机设备2。计算机设备2处理用户通过客户终端50输入的任何指令,不难理解,计算机设备2可以用于执行本文描述的任何方面。
示例性的,客户终端50可以向用户输出(例如,显示或呈现)进行处理(视频剪辑)后内容。
实施例一
参阅图2,示出了一种视频剪辑方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100,获取待处理视频,对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中包含的所有物体,其中,通过检测框框选出各个物体所在的区域。
具体地,用户可以将待处理视频上传或下载至计算机设备2,以便计算机设备2获取待处理视频。而后,计算机设备2进行物体检测,将待处理视频中的每一帧图像中的所有物体识别出来,并利用检测框标记各物体所在的区域。
更具体地说,检测框可以将各个物体所在区域进行识别标记,检测框将各个物体标出,可以为后续人体区域剪裁提供参考,以便将人体更精确的进行剪裁,实现较好的剪裁效果。
需要说明的是,本实施例中的物体检测算法可以为Haar+Adaboost(哈尔特征+分类器)的检测方法来进行物体检测,也可以为基于深度学习技术的检测算法,比如Fast R-CNN(快速区域检测的卷积网络算法)和Faster R-CNN(高速区域检测的卷积网络算法)等两阶段检测算法来进行物体检测。
示例性地,步骤S100进一步包括:
采用预先训练好的物体检测模型对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中的包含的所有物体。
具体地,本实施例中的物体检测模型为基于深度学习技术进行训练得到,比如基于Fast R-CNN(快速区域检测的卷积网络)模型训练得到的物体检测模型,或者基于R-CNN(区域检测的卷积网络)模型训练得到的物体检测模型。
在训练得到物体检测模型之后,将待识别的帧图像输入至该物体检测模型中,通过该物体检测模型即可输出通过检测框框选出所有物体的帧图像。
步骤S102,采用预先训练好的分类模型对框选出的所有物体进行分类识别,以从所述所有物体中挑选出人体区域图像。
具体地,检测框框选的内容包括物体、人体,通过预先训练的分类模型识别检测框框选的每一帧图像,若识别到人体,则该人体的人体区域进行保留,以实现物体内容的去除。
示例性地,参阅图3,所述分类模型的训练步骤,包括:
步骤S102A,以样本人物图像为参照对象,对待处理图像进行分类。
具体地,获取大量样本视频,样本视频为包含有样本人物图像的视频;样本人物图像指的是包含待检测人物的图像,可以为动漫人物。选取样本人物图像时,为了加快运行速度,可以在该样本视频中截取样本人物图像,将每个样本视频中的样本人物图像作为参照对象,对待处理图像进行分类。
步骤S102B,将与所述样本人物图像为同类的待处理图像作为正样本数据,与所述样本人物图像为不同类的待处理图像作为负样本数据。
具体地,样本人物图像为人体区域图像,与样本人物图像为同类的待处理图像指的是包含人体区域图像,与样本人物图像为不同类的待处理图像指的是不包含人体的其他物体图像。
步骤S102C,根据Triplet loss对正样本数据与负样本数据进行类间距离调整,以扩大所述正样本数据与负样本数据的差距。
具体地,所述Triplet Loss函数用于进一步缩小类内差距。将x作为样本人物图像,x1属于与x的同一类别,x2属于与x的不同类别。
为了规范分类模型,采用一种自适应阈值设定策略,阈值设定为同类距离均值与异类距离均值之差,进一步调整正负样本数据之间的差值大小,对样本数据的约束条件如下:
x=x1,x≠x2;
用损失函数进行训练,直至最终结果小于预设值,得到对应的样本人物图像的分类算法。
步骤S104,计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度。
具体地,将每一帧图像的人体区域图像进行特征提取,与待剪辑的目标人物图像进行特征提取,再计算两者特征之间的相似度。如图10所示,将人体区域图像与目标人物图像的相似度进行显示,为了便于查看,还可如图11所示,将人体区域图像按照相似度大小进行排序。
示例性地,参阅图4,步骤S104进一步包括:
步骤S104A,提取每一帧图像中的人体区域图像的多个第一特征向量,得到n维第一特征向量。
具体地,将所述各个人体区域图像中的特征进行向量化处理,得到第一特征向量,将每个特征向量进行组合得到第一特征矩阵。提取的特征不限于各个人体区域图像中人物图像的人脸大小、眼睛间距、嘴巴特征、头发特征、穿着服饰等,每个特征对应一个维度的第一特征向量。
步骤S104B,提取所述目标人物图像的多个第二特征向量,得到m维第二特征向量,其中,n≤m,n与m均为正整数。
具体地,将目标人物图像中的特征进行向量化处理,得到第二特征向量,将每个特征向量进行组合得到第一特征矩阵。提取的特征不限于目标人物图像的人脸大小、眼睛间距、嘴巴特征、头发特征、穿着服饰等,每个特征对应一个维度的第二特征向量。由于目标人物在视频中是运动的,因此,提取的特征可能不完整,提取的特征即n≤m。
步骤S104C,计算所述第一特征向量与所述第二特征向量的欧式距离,所述欧式距离即为相似度。
具体地,局部特征对于局部特征提取,首先在水平方向对图像特征进行逐行提取,然后再进行1x1的卷积操作。这样得到的特征代表人体区域图像的一个水平部分。在局部特征的学习中,通过计算最短路径进行对齐操作。
F和G分别是人体区域图像与目标人物图像的两个图像的局部特征,每个距离矩阵D的计算公式:
D=|Fi-Gi|-|Fj-Gj|;
其中,D是人体区域图像的第i个特征和目标人物图像的第j个特征之间的距离,定义两幅图像之间的局部距离为从(1,1)到(H,H)的最短路径的总距离,再求出最短路径Dmin;D越大,表示相似度越大。
步骤S106,将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像。
具体地,预设阈值可以将与目标人物图像不相似的人体区域图像进行筛选,尤其当该帧图像没有目标人物时。
示例性地,参阅图5,步骤S106进一步包括:
步骤S106A,根据所述人体区域图像对应的检测框设置剪辑框,所述剪辑框包括人体区域图像及所述人体区域图像对应的相似度。
具体地,剪辑框用于将每一帧图像中的人体区域图像进行框选,并且在将人体区域图像的相似度进行显示,如图10所示。
步骤S106B,识别每帧所述待处理视频中的剪辑框及对应的相似度,选取所述剪辑框中相似度大于预设阈值的人体区域图像作为剪辑图像。
具体地,对剪辑框上标识的相似度进行筛选,将待处理视频的每一帧图像中相似度大于预设阈值的人体区域图像作为剪辑图像,其中,预设阈值为预先进行设置的,比如,设置为99%,在相似度大于或者等于99%时,才将该人体区域图像作为剪辑图像。剪辑框设置时,可根据检测框进行设置,以将剪辑图像与人体区域图像相适应,即,将人物抠出,后续可贴背景,实现视频的正常观看。剪辑框也可以固定尺寸,剪辑出部分背景,实现剪辑后视频的直接观看,例如图12所示,为剪辑图像。
示例性地,参阅图6,步骤S106A进一步包括:
步骤S106A1,获取所述人体区域图像对应的检测框的移动速度,选取单位帧内所述人体区域图像对应的检测框的平均速度,作为所述人体区域图像对应的检测框的移动速度。
具体地,为了防止剪辑视频抖动,单位帧可以自定义,例如3帧、5帧等。
步骤S106A2,将所述人体区域图像对应的检测框的移动速度作为所述剪辑框的移动速度。
具体地,若剪辑框的移动速度与人体区域图像对应的检测框的移动速度一致,会出现剪辑视频抖动的情况;但如果剪辑框的移动速度太慢,会导致目标人物出现在剪辑框外面的情况;因此,需调参调出一个合适的速度值,在二者之间取得平衡。取单位帧(例如5帧)图像的人体区域图像对应的检测框的平均速度作为剪辑框的移动速度。
示例性地,参阅图7,步骤S106A1进一步包括:
步骤S106AA,锚定所述人体区域图像对应的检测框的中心点,判断相邻帧的所述人体区域图像对应的检测框的中心点的距离是否大于预设距离值。
具体地,所有的人体区域图像对应的检测框的中心点都进行锚定,可以以首帧图像的人体区域图像对应的检测框的中心点为起点,依次判断相邻帧的人体区域图像对应的检测框的中心点的距离是否大于预设距离值。对所有帧图像的人体区域图像对应的检测框都进行检测,后续的人体区域图像对应的检测框的移动速率就很好调整。
步骤S106AB,若相邻帧的所述人体区域图像对应的检测框的中心点的距离大于预设距离值,以单位帧内所述人体区域图像对应的检测框的平均速度作为所述人体区域图像对应的检测框的移动速度。
具体地,将大于预设距离值的人体区域图像对应的检测框个数进行统计,若个数过多,则取单位帧的人体区域图像对应的检测框的平均速度作为人体区域图像对应的检测框的移动速度,以使剪辑框选取的剪辑图像清晰。单位帧可以预先进行设置,若相邻帧的人体区域图像对应的检测框的中心点的距离与预设距离值之间的差值过大,则将单位帧的取值相应的调大,反之调小。
步骤S108,将各帧图像的所述剪辑图像按时间顺序进行合成,得到剪辑视频。
具体地,按时间顺序将剪辑图像进行合成,使用视频合成技术进行合成,得到剪辑视频。可以对剪辑视频进行相应的渲染,得到所需的视频效果。
实施例二
请继续参阅图8,示出了本发明视频剪辑系统实施例二的程序模块示意图。在本实施例中,视频剪辑系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于海量数据的风险识别方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述视频剪辑系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
检测模块200,用于获取待处理视频,对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中包含的所有物体,其中,通过检测框框选出各个物体所在的区域。
具体地,用户可以将待处理视频上传或下载至计算机设备2,以便计算机设备2获取待处理视频。而后,计算机设备2进行物体检测,将待处理视频中的每一帧图像中的所有物体识别出来,并利用检测框标记各物体所在的区域。
更具体地说,检测框可以将各个物体所在区域进行识别标记,检测框将各个物体标出,可以为后续人体区域剪裁提供参考,以便将人体更精确的进行剪裁,实现较好的剪裁效果。
需要说明的是,本实施例中的物体检测算法可以为Haar+Adaboost(哈尔特征+分类器)的检测方法来进行物体检测,也可以为基于深度学习技术的检测算法,比如Fast R-CNN(快速区域检测的卷积网络算法)和Faster R-CNN(高速区域检测的卷积网络算法)等两阶段检测算法来进行物体检测。
示例性地,检测模块200还用于:
采用预先训练好的物体检测模型对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中的包含的所有物体。
具体地,本实施例中的物体检测模型为基于深度学习技术进行训练得到,比如基于Fast R-CNN(快速区域检测的卷积网络)模型训练得到的物体检测模型,或者基于R-CNN(区域检测的卷积网络)模型训练得到的物体检测模型。
在训练得到物体检测模型之后,将待识别的帧图像输入至该物体检测模型中,通过该物体检测模型即可输出通过检测框框选出所有物体的帧图像。
分类模块202,用于采用预先训练好的分类模型对框选出的所有物体进行分类识别,以从所述所有物体中挑选出人体区域图像。
具体地,检测框框选的内容包括物体、人体,通过预先训练的分类模型识别检测框框选的每一帧图像,若识别到人体,则该人体的人体区域进行保留,以实现物体内容的去除。
示例性地,所述分类模块202还用于训练所述分类算法:
以样本人物图像为参照对象,对待处理图像进行分类。
具体地,获取大量样本视频,样本视频为包含有样本人物图像的视频;样本人物图像指的是包含待检测人物的图像,可以为动漫人物。选取样本人物图像时,为了加快运行速度,可以在该样本视频中截取样本人物图像,将每个样本视频中的样本人物图像作为参照对象,对待处理图像进行分类。
将与所述样本人物图像为同类的待处理图像作为正样本数据,与所述样本人物图像为不同类的待处理图像作为负样本数据。
具体地,样本人物图像为人体区域图像,与样本人物图像为同类的待处理图像指的是包含人体区域图像,与样本人物图像为不同类的待处理图像指的是不包含人体的其他物体图像。
根据Triplet loss对正样本数据与负样本数据进行类间距离调整,以扩大所述正样本数据与负样本数据的差距。
具体地,所述Triplet Loss函数用于进一步缩小类内差距。将x作为样本人物图像,x1属于与x的同一类别,x2属于与x的不同类别。
为了规范分类模型,采用一种自适应阈值设定策略,阈值设定为同类距离均值与异类距离均值之差,进一步调整正负样本数据之间的差值大小,对样本数据的约束条件如下:
x=x1,x≠x2;
用损失函数进行训练,直至最终结果小于预设值,得到对应的样本人物图像的分类算法。
计算模块204,用于计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度。
具体地,将每一帧图像的人体区域图像进行特征提取,与待剪辑的目标人物图像进行特征提取,再计算两者特征之间的相似度。如图10所示,将人体区域图像与目标人物图像的相似度进行显示,为了便于查看,还可如图11所示,将人体区域图像按照相似度大小进行排序。
示例性地,计算模块204进一步用于:
提取每一帧图像中的人体区域图像的多个第一特征向量,得到n维第一特征向量。
具体地,将所述各个人体区域图像中的特征进行向量化处理,得到第一特征向量,将每个特征向量进行组合得到第一特征矩阵。提取的特征不限于各个人体区域图像中人物图像的人脸大小、眼睛间距、嘴巴特征、头发特征、穿着服饰等,每个特征对应一个维度的第一特征向量。
提取所述目标人物图像的多个第二特征向量,得到m维第二特征向量,其中,n≤m,n与m均为正整数。
具体地,将目标人物图像中的特征进行向量化处理,得到第二特征向量,将每个特征向量进行组合得到第一特征矩阵。提取的特征不限于目标人物图像的人脸大小、眼睛间距、嘴巴特征、头发特征、穿着服饰等,每个特征对应一个维度的第二特征向量。由于目标人物在视频中是运动的,因此,提取的特征可能不完整,提取的特征即n≤m。
计算所述第一特征向量与所述第二特征向量的欧式距离,所述欧式距离即为相似度。
具体地,局部特征对于局部特征提取,首先在水平方向对图像特征进行逐行提取,然后再进行1x1的卷积操作。这样得到的特征代表人体区域图像的一个水平部分。在局部特征的学习中,通过计算最短路径进行对齐操作。
F和G分别是人体区域图像与目标人物图像的两个图像的局部特征,每个距离矩阵D的计算公式:
D=|Fi-Gi|-|Fj-Gj|;
其中,D是人体区域图像的第i个特征和目标人物图像的第j个特征之间的距离,定义两幅图像之间的局部距离为从(1,1)到(H,H)的最短路径的总距离,再求出最短路径Dmin;D越大,表示相似度越大。
选取模块206,将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像。
具体地,预设阈值可以将与目标人物图像不相似的人体区域图像进行筛选,尤其当该帧图像没有目标人物时。
示例性地,选取模块206还用于:
根据所述人体区域图像对应的检测框设置剪辑框,所述剪辑框包括人体区域图像及所述人体区域图像对应的相似度。
具体地,剪辑框用于将每一帧图像中的人体区域图像进行框选,并且在将人体区域图像的相似度进行显示,如图10所示。
识别每帧所述待处理视频中的剪辑框及对应的相似度,选取所述剪辑框中相似度大于预设阈值的人体区域图像作为剪辑图像。
具体地,对剪辑框上标识的相似度进行筛选,将待处理视频的每一帧图像中相似度大于预设阈值的人体区域图像作为剪辑图像,其中,预设阈值为预先进行设置的,比如,设置为99%,在相似度大于或者等于99%时,才将该人体区域图像作为剪辑图像。剪辑框设置时,可根据检测框进行设置,以将剪辑图像与人体区域图像相适应,即,将人物抠出,后续可贴背景,实现视频的正常观看。剪辑框也可以固定尺寸,剪辑出部分背景,实现剪辑后视频的直接观看,例如图12所示,为剪辑图像。
示例性地,选取模块206进一步用于:
获取所述人体区域图像对应的检测框的移动速度,选取单位帧内所述人体区域图像对应的检测框的平均速度,作为所述人体区域图像对应的检测框的移动速度。
具体地,为了防止剪辑视频抖动,单位帧可以自定义,例如3帧、5帧等。
获取所述人体区域图像对应的检测框的移动速度,选取单位帧内所述人体区域图像对应的检测框的平均速度,作为所述人体区域图像对应的检测框的移动速度。
具体地,为了防止剪辑视频抖动,单位帧可以自定义,例如3帧、5帧等。
将所述人体区域图像对应的检测框的移动速度作为所述剪辑框的移动速度。
具体地,若剪辑框的移动速度与人体区域图像对应的检测框的移动速度一致,会出现剪辑视频抖动的情况;但如果剪辑框的移动速度太慢,会导致目标人物出现在剪辑框外面的情况;因此,需调参调出一个合适的速度值,在二者之间取得平衡。取单位帧(例如5帧)图像的人体区域图像对应的检测框的平均速度作为剪辑框的移动速度。
示例性地,选取模块206进一步用于:
锚定所述人体区域图像对应的检测框的中心点,判断相邻帧的所述人体区域图像对应的检测框的中心点的距离是否大于预设距离值。
具体地,所有的人体区域图像对应的检测框的中心点都进行锚定,可以以首帧图像的人体区域图像对应的检测框的中心点为起点,依次判断相邻帧的人体区域图像对应的检测框的中心点的距离是否大于预设距离值。对所有帧图像的人体区域图像对应的检测框都进行检测,后续的人体区域图像对应的检测框的移动速率就很好调整。
若相邻帧的所述人体区域图像对应的检测框的中心点的距离大于预设距离值,以单位帧内所述人体区域图像对应的检测框的平均速度作为所述人体区域图像对应的检测框的移动速度。
具体地,将大于预设距离值的人体区域图像对应的检测框个数进行统计,若个数过多,则取单位帧的人体区域图像对应的检测框的平均速度作为人体区域图像对应的检测框的移动速度,以使剪辑框选取的剪辑图像清晰。单位帧可以预先进行设置,若相邻帧的人体区域图像对应的检测框的中心点的距离与预设距离值之间的差值过大,则将单位帧的取值相应的调大,反之调小。
组合模块208,用于将所述剪辑图像按时间顺序进行合成,得到剪辑视频。
具体地,按时间顺序将剪辑图像进行合成,使用视频合成技术进行合成,得到剪辑视频。可以对剪辑视频进行相应的渲染,得到所需的视频效果。
实施例三
参阅图9,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图9所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及视频剪辑系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的视频剪辑系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行视频剪辑系统20,以实现实施例一的视频剪辑方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述服务器2与外部终端相连,在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。需要指出的是,图9仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。在本实施例中,存储于存储器21中的所述视频剪辑系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图8示出了所述实现视频剪辑系统20实施例二的程序模块示意图,该实施例中,所述视频剪辑系统20可以被划分为检测模块200、分类模块202、计算模块204、选取模块206与组合模块208。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述视频剪辑系统20在所述计算机设备2中的执行过程。所述程序模块200-208的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储视频剪辑系统20,被处理器执行时实现实施例一的视频剪辑方法。
本发明实施例提供的视频剪辑方法、系统、计算机设备及计算机存储介质,通过对待处理视频进行物体检测识别出每一帧图像中的所有人体,计算每一帧图像中的所有人体与目标人物图像进行相似度计算,最后将相似度大于预设阈值的剪辑图像进行按时间顺序合成,得到目标人物的剪辑视频。可以在多人场景中,针对某一个特定人物进行视频剪辑,并且识别速度快,效率高,省时省力。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种视频剪辑方法,其特征在于,包括:
获取待处理视频,对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中的包含的所有物体,其中,通过检测框框选出各个物体所在的区域;
采用预先训练好的分类模型对框选出的所有物体进行分类识别,以从所述所有物体中挑选出人体区域图像;
计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度;
将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像;
将各帧图像的所述剪辑图像按时间顺序进行合成,得到剪辑视频。
2.根据权利要求1所述的视频剪辑方法,其特征在于,对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中的包含的所有物体的步骤,包括:
采用预先训练好的物体检测模型对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中的包含的所有物体。
3.根据权利要求1所述的视频剪辑方法,其特征在于,所述分类模型的训练步骤,包括:
以样本人物图像为参照对象,对待处理图像进行分类;
将与所述样本人物图像为同类的待处理图像作为正样本数据,与所述样本人物图像为不同类的待处理图像作为负样本数据;
根据Triplet loss对正样本数据与负样本数据进行类间距离调整,以扩大所述正样本数据与负样本数据的差距。
4.根据权利要求1所述的视频剪辑方法,其特征在于,计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度的步骤,包括:
提取每一帧图像中的人体区域图像的多个第一特征向量,得到n维第一特征向量;
提取所述目标人物图像的多个第二特征向量,得到m维第二特征向量,其中,n≤m,n与m均为正整数;
计算所述第一特征向量与所述第二特征向量的欧式距离,所述欧式距离即为相似度。
5.根据权利要求1所述的视频剪辑方法,其特征在于,将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像的步骤,包括:
根据所述人体区域图像对应的检测框设置剪辑框,所述剪辑框包括人体区域图像及所述人体区域图像对应的相似度;
识别每帧所述待处理视频中的剪辑框及对应的相似度,选取所述剪辑框中相似度大于预设阈值的人体区域图像作为剪辑图像。
6.根据权利要求5所述的视频剪辑方法,其特征在于,根据所述人体区域图像对应的检测框设置剪辑框的步骤,包括:
获取所述人体区域图像对应的检测框的移动速度,选取单位帧内所述人体区域图像对应的检测框的平均速度,作为所述人体区域图像对应的检测框的移动速度;
将所述人体区域图像对应的检测框的移动速度作为所述剪辑框的移动速度。
7.根据权利要求6所述的视频剪辑方法,其特征在于,获取所述人体区域图像对应的检测框的移动速度,选取单位帧内所述人体区域图像对应的检测框的平均速度,作为剪辑框的移动速度的步骤,包括:
锚定所述人体区域图像对应的检测框的中心点,判断相邻帧的所述人体区域图像对应的检测框的中心点的距离是否大于预设距离值;
若相邻帧的所述人体区域图像对应的检测框的中心点的距离大于预设距离值,以单位帧内所述人体区域图像对应的检测框的平均速度作为所述人体区域图像对应的检测框的移动速度。
8.一种视频剪辑系统,其特征在于,包括:
检测模块,用于获取待处理视频,对所述待处理视频中的每一帧图像进行物体检测,以得到每一帧图像中的包含的所有物体,其中,通过检测框标记各个物体所在的区域;
分类模块,用于采用预先训练好的分类模型对框选出的所有物体进行分类识别,以从所述所有物体中挑选出人体区域图像;
计算模块,用于计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度;
选取模块,用于将每一帧图像中的各个人体区域图像与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像;
组合模块,用于将所述剪辑图像按时间顺序进行合成,得到剪辑视频。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的视频剪辑系统,所述视频剪辑系统被所述处理器执行时实现如权利要求1-7中任一项所述的视频剪辑方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1-7中任一项所述的视频剪辑方法的步骤。
CN201911033267.XA 2019-10-28 2019-10-28 视频剪辑方法、系统、计算机设备及计算机存储介质 Pending CN112800805A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911033267.XA CN112800805A (zh) 2019-10-28 2019-10-28 视频剪辑方法、系统、计算机设备及计算机存储介质
US17/079,662 US11495264B2 (en) 2019-10-28 2020-10-26 Method and system of clipping a video, computing device, and computer storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911033267.XA CN112800805A (zh) 2019-10-28 2019-10-28 视频剪辑方法、系统、计算机设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN112800805A true CN112800805A (zh) 2021-05-14

Family

ID=75586051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911033267.XA Pending CN112800805A (zh) 2019-10-28 2019-10-28 视频剪辑方法、系统、计算机设备及计算机存储介质

Country Status (2)

Country Link
US (1) US11495264B2 (zh)
CN (1) CN112800805A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113301408A (zh) * 2021-05-21 2021-08-24 北京大米科技有限公司 视频数据处理方法、装置、电子设备和可读存储介质
CN113393487A (zh) * 2021-05-26 2021-09-14 深圳市宏电技术股份有限公司 运动目标检测方法、装置、电子设备及介质
CN113490049A (zh) * 2021-08-10 2021-10-08 深圳市前海动竞体育科技有限公司 一种基于人工智能的体育赛事视频剪辑方法和系统
CN113505737A (zh) * 2021-07-26 2021-10-15 浙江大华技术股份有限公司 前景图像的确定方法及装置、存储介质、电子装置
CN114286198A (zh) * 2021-12-30 2022-04-05 北京爱奇艺科技有限公司 一种视频关联方法、装置、电子设备和存储介质
CN114401440A (zh) * 2021-12-14 2022-04-26 北京达佳互联信息技术有限公司 视频剪辑及剪辑模型生成方法、装置、设备、程序和介质
CN114866839A (zh) * 2022-07-11 2022-08-05 深圳市鼎合丰科技有限公司 基于重复分帧图像归并的视频编辑软件系统
CN115278355A (zh) * 2022-06-20 2022-11-01 北京字跳网络技术有限公司 视频剪辑方法、装置、设备、计算机可读存储介质及产品
WO2023177350A3 (zh) * 2022-03-18 2023-11-16 脸萌有限公司 视频编辑方法、装置、设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085701B (zh) * 2020-08-05 2024-06-11 深圳市优必选科技股份有限公司 一种人脸模糊度检测方法、装置、终端设备及存储介质
KR20230011817A (ko) * 2021-07-14 2023-01-25 한국전자통신연구원 환경 매칭 기반 물체 인식 장치 및 방법
CN113989720A (zh) * 2021-10-29 2022-01-28 北京百度网讯科技有限公司 目标检测方法、训练方法、装置、电子设备及存储介质
CN114500871B (zh) * 2021-12-15 2023-11-14 山东信通电子股份有限公司 一种多路视频分析方法、设备及介质
CN116761035B (zh) * 2023-05-26 2024-05-07 武汉星巡智能科技有限公司 基于母婴喂食行为识别的视频智能剪辑方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300553A1 (en) * 2008-05-28 2009-12-03 Daniel Pettigrew Defining a border for an image
US20160071549A1 (en) * 2014-02-24 2016-03-10 Lyve Minds, Inc. Synopsis video creation based on relevance score
CN109902573A (zh) * 2019-01-24 2019-06-18 中国矿业大学 面向矿井下视频监控的多摄像机无标注行人重识别方法
CN110189378A (zh) * 2019-05-23 2019-08-30 北京奇艺世纪科技有限公司 一种视频处理方法、装置及电子设备
CN110347877A (zh) * 2019-06-27 2019-10-18 北京奇艺世纪科技有限公司 一种视频处理方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107509029A (zh) * 2013-01-07 2017-12-22 华为技术有限公司 一种图像处理方法及装置
JP6316023B2 (ja) * 2013-05-17 2018-04-25 キヤノン株式会社 カメラシステム及びカメラ制御装置
CN113766161B (zh) * 2014-12-14 2023-06-20 深圳市大疆创新科技有限公司 视频处理的方法和系统
TW201624320A (zh) * 2014-12-30 2016-07-01 富智康(香港)有限公司 影像片段搜尋方法及系統
US9542751B2 (en) * 2015-05-08 2017-01-10 Qualcomm Incorporated Systems and methods for reducing a plurality of bounding regions
US10713540B2 (en) * 2017-03-07 2020-07-14 Board Of Trustees Of Michigan State University Deep learning system for recognizing pills in images
US10565434B2 (en) * 2017-06-30 2020-02-18 Google Llc Compact language-free facial expression embedding and novel triplet training scheme
US10825227B2 (en) * 2018-04-03 2020-11-03 Sri International Artificial intelligence for generating structured descriptions of scenes

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300553A1 (en) * 2008-05-28 2009-12-03 Daniel Pettigrew Defining a border for an image
US20160071549A1 (en) * 2014-02-24 2016-03-10 Lyve Minds, Inc. Synopsis video creation based on relevance score
CN109902573A (zh) * 2019-01-24 2019-06-18 中国矿业大学 面向矿井下视频监控的多摄像机无标注行人重识别方法
CN110189378A (zh) * 2019-05-23 2019-08-30 北京奇艺世纪科技有限公司 一种视频处理方法、装置及电子设备
CN110347877A (zh) * 2019-06-27 2019-10-18 北京奇艺世纪科技有限公司 一种视频处理方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘伟: "基于卷积神经网络的视频分类检索", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
裔隽等: "《Python机器学习实战》", 31 January 2018 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113301408B (zh) * 2021-05-21 2023-01-10 北京大米科技有限公司 视频数据处理方法、装置、电子设备和可读存储介质
CN113301408A (zh) * 2021-05-21 2021-08-24 北京大米科技有限公司 视频数据处理方法、装置、电子设备和可读存储介质
CN113393487A (zh) * 2021-05-26 2021-09-14 深圳市宏电技术股份有限公司 运动目标检测方法、装置、电子设备及介质
CN113393487B (zh) * 2021-05-26 2023-12-29 深圳市宏电技术股份有限公司 运动目标检测方法、装置、电子设备及介质
CN113505737A (zh) * 2021-07-26 2021-10-15 浙江大华技术股份有限公司 前景图像的确定方法及装置、存储介质、电子装置
CN113490049A (zh) * 2021-08-10 2021-10-08 深圳市前海动竞体育科技有限公司 一种基于人工智能的体育赛事视频剪辑方法和系统
CN114401440A (zh) * 2021-12-14 2022-04-26 北京达佳互联信息技术有限公司 视频剪辑及剪辑模型生成方法、装置、设备、程序和介质
CN114286198B (zh) * 2021-12-30 2023-11-10 北京爱奇艺科技有限公司 一种视频关联方法、装置、电子设备和存储介质
CN114286198A (zh) * 2021-12-30 2022-04-05 北京爱奇艺科技有限公司 一种视频关联方法、装置、电子设备和存储介质
WO2023177350A3 (zh) * 2022-03-18 2023-11-16 脸萌有限公司 视频编辑方法、装置、设备及存储介质
CN115278355A (zh) * 2022-06-20 2022-11-01 北京字跳网络技术有限公司 视频剪辑方法、装置、设备、计算机可读存储介质及产品
CN115278355B (zh) * 2022-06-20 2024-02-13 北京字跳网络技术有限公司 视频剪辑方法、装置、设备、计算机可读存储介质及产品
CN114866839A (zh) * 2022-07-11 2022-08-05 深圳市鼎合丰科技有限公司 基于重复分帧图像归并的视频编辑软件系统

Also Published As

Publication number Publication date
US11495264B2 (en) 2022-11-08
US20210125639A1 (en) 2021-04-29

Similar Documents

Publication Publication Date Title
CN112800805A (zh) 视频剪辑方法、系统、计算机设备及计算机存储介质
CN111428581B (zh) 人脸遮挡检测方法及系统
CN111950723B (zh) 神经网络模型训练方法、图像处理方法、装置及终端设备
CN110489951B (zh) 风险识别的方法、装置、计算机设备和存储介质
WO2022078041A1 (zh) 遮挡检测模型的训练方法及人脸图像的美化处理方法
CN107798354B (zh) 一种基于人脸图像的图片聚类方法、装置及存储设备
JP2020515983A (ja) 対象人物の検索方法および装置、機器、プログラム製品ならびに媒体
US20220172476A1 (en) Video similarity detection method, apparatus, and device
CN103353881B (zh) 一种应用程序搜索方法及装置
US20220292394A1 (en) Multi-scale deep supervision based reverse attention model
WO2023035531A1 (zh) 文本图像超分辨率重建方法及其相关设备
CN110738262B (zh) 文本识别方法和相关产品
CN108021863B (zh) 电子装置、基于图像的年龄分类方法及存储介质
CN110378249B (zh) 文本图像倾斜角度识别方法、装置及设备
CN113496208B (zh) 视频的场景分类方法及装置、存储介质、终端
CN113627402B (zh) 一种图像识别方法及相关装置
CN110555439A (zh) 标识识别方法及其模型的训练方法、装置和电子系统
WO2023279799A1 (zh) 对象识别方法、装置和电子系统
CN114861241A (zh) 基于智能检测的防窥屏方法及其相关设备
CN112966687B (zh) 图像分割模型训练方法、装置及通信设备
CN112669244B (zh) 人脸图像增强方法、装置、计算机设备以及可读存储介质
JP4572175B2 (ja) 非定常映像検出装置,非定常映像検出方法及びその方法を実装したプログラム
US11106942B2 (en) Method and apparatus for generating learning data required to learn animation characters based on deep learning
CN112949629A (zh) 目标检测方法、装置、计算机设备及可读存储介质
CN113393477A (zh) 图像处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination