CN114449346B - 视频处理方法、装置、设备以及存储介质 - Google Patents

视频处理方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN114449346B
CN114449346B CN202210134565.3A CN202210134565A CN114449346B CN 114449346 B CN114449346 B CN 114449346B CN 202210134565 A CN202210134565 A CN 202210134565A CN 114449346 B CN114449346 B CN 114449346B
Authority
CN
China
Prior art keywords
video
target
video frame
target video
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210134565.3A
Other languages
English (en)
Other versions
CN114449346A (zh
Inventor
汤泽胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210134565.3A priority Critical patent/CN114449346B/zh
Publication of CN114449346A publication Critical patent/CN114449346A/zh
Application granted granted Critical
Publication of CN114449346B publication Critical patent/CN114449346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种视频处理方法、装置、设备以及存储介质,适用于计算机技术、视频处理、图像处理、人工智能、交通以及区块链等领域。该方法包括:确定目标视频的多个视频帧,确定每一视频帧包括的至少一个对象;从各视频帧中确定出目标对象所在的多个目标视频帧,基于各目标视频帧的播放时刻对各目标视频帧进行聚类,得到至少一个第一视频帧集合;基于各第一视频帧集合,从目标视频中确定目标对象对应的至少一个视频片段。采用本申请实施例,可提升视频片段的提取效果和效率,适用性高。

Description

视频处理方法、装置、设备以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种视频处理方法、装置、设备以及存储介质。
背景技术
目前基于长视频生产的短视频已成为当前主流的视频来源。现有的视频提取方法往往是通过视频帧之间的相似度来提取不同场景的视频片段,或者是通过确定目标对象所在的所有视频帧来提取关于目标对象的视频片段。
在视频内容的变化程度较大的情况下,如对于动作激烈或者镜头切换频繁的视频,基于视频帧时间的相似度进行视频提取的方法往往不能适应视频内容的剧烈变化,使得提取的视频片段的内容连续性较差。另一方面,若确定目标对象所在的所有视频帧来提取关于目标对象的视频片段,则会增加视频提取的复杂度,降低视频片段提取的效率。
因此,如何提升视频片段的提取效果和效率成为亟需解决的问题。
发明内容
本申请实施例提供一种视频处理方法、装置、设备以及存储介质,可提升视频片段的提取效果和效率,适用性高。
一方面,本申请实施例提供一种视频处理方法,该方法包括:
确定目标视频的多个视频帧,确定每一上述视频帧包括的至少一个对象;
从各上述视频帧中确定出目标对象所在的多个目标视频帧,上述目标对象为上述至少一个对象中的对象,基于各上述目标视频帧的播放时刻对各上述目标视频帧进行聚类,得到至少一个第一视频帧集合,其中,对于每一上述第一视频帧集合中的任一目标视频帧,该第一视频帧集合包括至少一个与该目标视频帧的播放时间间隔小于第一预设时间间隔的其他目标视频帧;
基于各上述第一视频帧集合,从上述目标视频中确定上述目标对象对应的至少一个视频片段。
另一方面,本申请实施例提供了一种视频处理装置,该装置包括:
对象确定模块,用于确定目标视频的多个视频帧,确定每一上述视频帧包括的至少一个对象;
视频帧聚类模块,用于从各上述视频帧中确定出目标对象所在的多个目标视频帧,上述目标对象为上述至少一个对象中的对象,基于各上述目标视频帧的播放时刻对各上述目标视频帧进行聚类,得到至少一个第一视频帧集合,其中,对于每一上述第一视频帧集合中的任一目标视频帧,该第一视频帧集合包括至少一个与该目标视频帧的播放时间间隔小于第一预设时间间隔的其他目标视频帧;
视频处理模块,用于基于各上述第一视频帧集合,从上述目标视频中确定上述目标对象对应的至少一个视频片段。
另一方面,本申请实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;
上述存储器用于存储计算机程序;
上述处理器被配置用于在调用上述计算机程序时,执行本申请实施例提供的视频处理方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现本申请实施例提供的视频处理方法。
另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,上述计算机程序被处理器执行时实现本申请实施例提供的视频处理方法。
在本申请实施例中,通过确定目标对象所在的多个目标视频帧,并基于各目标视频帧的播放时刻对目标视频帧进行聚类,可将集中出现在目标视频中的部分目标视频帧进行聚类,进而可高效确定目标对象集中出现于目标视频中的至少一个视频片段,提升视频片段的提取效果,适用性高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的视频处理方法的原理示意图;
图1b是本申请实施例提供的视频处理方法的应用环境示意图;
图2是本申请实施例提供的视频处理方法的流程示意图;
图3是本申请实施例提供的确定子视频帧集合的场景示意图;
图4是本申请实施例提供的确定第一视频帧集合的场景示意图;
图5是本申请实施例提供的确定待处理簇的场景示意图;
图6是本申请实施例提供的确定第一视频帧集合的另一场景示意图;
图7是本申请实施例对视频片段进行处理的一场景示意图;
图8是本申请实施例对视频片段进行处理的另一场景示意图;
图9是本申请实施例提供的视频处理装置的结构示意图;
图10是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的视频处理方法,可对视频进行提取得到关于某一对象的视频片段,如在短视频平台中,可基于本申请实施例提供的视频处理方法对影视剧进行提取得到关于某一角色的视频片段,进而进行短视频投放以及播放。
本申请实施例提供的视频处理方法还可以应用于交通领域,如应用于智能交通系统(Intelligent Traffic System,ITS)或智能车路协同系统(Intelligent VehicleInfrastructure Cooperative Systems,IVICS)中,基于本申请实施例提供的视频处理方法可对行车记录仪或交通设施采集的车辆行驶视频进行处理,以获取目标车辆的行驶视频片段,从而在目标车辆的行驶视频片段的基础上实现智能交通管理。
其中,ITS又称智能运输系统(Intelligent Transportation System),是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造,加强车辆、道路、使用者三者之间的联系,从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。
IVICS简称车路协同系统,是智能交通系统(ITS)的一个发展方向。车路协同系统是采用先进的无线通信和新一代互联网等技术,全方位实施车车、车路动态实时信息交互,在基于本申请实施例提供的视频处理方法所得到的目标车辆的行驶视频片段的基础上开展车辆主动安全控制和道路协同管理,充分实现人车路的有效协同,保证交通安全,提高通行效率,从而形成的安全、高效和环保的道路交通系统。
参见图1a,图1a是本申请实施例提供的视频处理方法的原理示意图。如图1a所示,在获取到目标视频之后,可获取目标视频的多个视频帧,如图1a中确定出目标视频中的第1帧、第5帧以及第9帧视频帧等等。对于确定出的视频帧而言,可确定每个视频帧包括的至少一个对象,如确定出第1帧视频帧中的对象A,确定出第5帧和第9帧视频帧中的对象B等等。
进一步地,在确定出各视频帧中包括的对象之后,可将各对象中的任一对象或指定对象确定为目标对象,并确定目标对象所在的目标视频帧。如图1中目标对象为对象B,则可从先前确定出的各视频帧中确定出目标对象B所在的目标视频帧:第5帧、第9帧、第12帧、第14帧、第33帧、第55帧、第591帧、第61帧以及第66帧视频帧。
进一步地,对于确定出的每个目标视频帧,可确定每个目标视频帧在目标视频中的播放时刻,以基于各目标视频帧的播放时刻对各目标视频帧进行聚类,得到至少一个第一视频帧集合。如图1a中通过对包括对象B的目标视频帧进行聚类得到两个第一视频帧集合,第一视频帧集合1中包括第5帧、第9帧、第12帧和第14帧目标视频帧,第一视频帧集合2中包括第55帧、第59帧、第61帧以及第66帧目标视频帧。
其中,对于将各目标视频帧聚类得到的每一第一视频帧集合中的任一目标视频帧,该第一视频帧集合包括至少一个与该目标视频帧的播放时间间隔小于第一预设时间间隔的其他目标视频帧。如对于第一视频帧集合1中的第5帧目标视频帧而言,第9帧、第12帧和第14帧目标视频帧中至少存在一个目标视频帧与第5帧目标视频帧的播放时间间隔小于第一预设时间间隔。同样地,对于第一视频帧集合2中的第59帧目标视频帧而言,第55帧、第61帧以及第66帧目标视频帧中至少存在一个目标视频帧与第59帧目标视频帧的播放时间间隔小于第一预设时间间隔。
在确定出至少一个第一视频帧集合之后,基于每一第一视频帧集合均可从目标视频中确定出一个视频片段,如基于第一视频帧集合1和第一视频帧集合2从目标视频中确定出视频片段1和视频片段2,视频片段1和视频片段2中的每一视频片段可以是对象B主要参与的视频片段,如对象B为主角的部分情景片段等。
本申请实施例提供的视频处理方法可基于服务器和/或终端实现,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
如图1b所示,图1b是本申请实施例提供的视频处理方法的应用环境示意图。其中,本申请实施例提供的视频处理方法可以由服务器11和终端12实现。如服务器11获取终端12上传的目标视频,并确定目标视频的多个视频帧中的至少一个对象,并将确定的对象返回至终端12。进一步地,服务器11可基于终端12的选择指示来确定各对象中的目标对象以及先前确定出的视频帧中目标对象所在的视频帧,并基于目标视频帧的播放时刻对各目标视频帧进行聚类,得到至少一个第一视频帧集合。服务器11可基于各第一视频帧集合,从目标视频中确定出目标对象对应的至少一个视频片段,并将确定出的视频片段返回至终端12,以通过终端12播放确定出的视频片段。
其中,本申请实施例提供的视频处理方法可以由服务器11或者终端12独立实现。以服务器11为例,服务器11可获取终端12上传的目标视频,基于本申请实施例提供的视频处理方法从目标视频中确定出目标对象对应的至少一个视频片段,并最终将确定出的视频片段返回至终端12,以使终端使用者得到关于目标对象的视频片段。
以终端12为例,终端12可从服务器11下载目标视频,如可从某视频平台的后台服务器中下载目标视频,进而基于本申请实施例提供的视频处理方法从目标视频中确定出目标对象对应的至少一个视频片段,进而将最终确定出的各个视频片段重新上传至服务器12,如上传至视频平台以使其他平台使用者观看其确定出视频片段。
参见图2,图2是本申请实施例提供的视频处理方法的流程示意图。如图2所示,本申请实施例提供的视频处理方法可包括如下步骤:
步骤S21、确定目标视频的多个视频帧,确定每一视频帧包括的至少一个对象。
在一些可行的实施方式中,目标视频可以为影视剧视频、车辆行驶视频、动画片以及摄像设备拍摄或基于视频制作工具所制作的视频等,具体可基于实际应用场景需求确定,在此不做限制。
在一些可行的实施方式中,在确定目标视频的多个视频帧时,可基于第二预设时间间隔对目标视频进行抽帧处理,得到目标视频的多个视频帧,即可基于第二预设时间间隔从目标视频中均匀抽取多个视频帧。其中,第二预设时间间隔具体可基于实际应用场景需求确定,在此不做限制。
可选地,在确定目标视频的多个视频帧时,由于目标视频是基于固定每秒传输帧数(Frames Per Second,FPS)播放视频帧的,因此可在每一单位时间从目标视频帧中抽取第二预设数量的视频帧。
其中,FPS是图像领域中的定义,是指画面每秒传输帧数,通俗来讲就是指动画或视频的画面数。例如,对于电影视频而言,其可以每秒24帧画面的速度播放,电视剧通常以24帧画面的速度进行播放,也就是一秒钟内在屏幕上连续投射出24张静止画面。
其中,上述单位时间可以为秒,也可以为其他时间单位,具体可基于实际应用场景需求确定,在此不做限制。并且上述第二预设数量同样可以基于实际应用场景需求确定,在此不做限制。
其中,目标视频在每一单位时间可播放多个视频帧,因此可从目标视频在每一时间单位所播放的多个视频帧中抽取第二预设数量的视频帧,具体可抽取前第二预设数量的视频帧,或随机抽取第二预设数量的视频帧,或均匀抽取第二预设数量的视频帧,在此不做限制。
例如,若上述单位时间为秒,第二预设数量为1,则可基于1FPS从目标视频中抽取多个目标视频帧,也即在目标视频帧中的每一秒播放的多个视频帧中抽取一个视频帧。
可选地,在确定目标视频的多个视频帧时,还可确定目标视频的抽取区间,在该抽取区间中确定目标视频的多个视频帧。
例如,可确定目标视频的多个播放进度标签,每一播放进度标签用于标识目标视频的主要视频内容(如高潮部分、主角出演部分等)的播放开始时刻或播放终止时刻,进而基于播放进度标签可以对应于主要视频内容的抽取区间,进而从对应于主要视频内容的目标视频片段中确定多个视频帧。
需要特别说明的是,上述确定目标视频的多个视频帧的实现方式仅为示例,具体可基于实际应用场景需求确定,在此不做限制。
在一些可行的实施方式中,每一视频帧中的对象可以为人物对象、动物对象或者非生命对象中的一项或者多项,具体可基于实际应用场景需求确定,在此不做限制。其中,非生命对象包括但不限于车辆、飞机、建筑、足球等等,在此同样不做限制。
在确定每一视频帧包括的至少一个对象时,可先确定指定的对象类型,进而确定每一视频帧中属于指定的对象类型的对象。例如,对于影视剧而言,需要从视频帧中确定出的对象为人物,因此可从每一视频帧中确定出其包括的人物对象。
或者,可先确定出每一视频帧包括的所有对象,进而从所有对象中筛选掉属于指定的对象类型的对象。例如,对于行车记录仪所记录的车辆行驶视频,其中出现的人物对象为干扰图像元素,因此在确定出各视频帧包括的所有对象后,筛选掉其中的人物对象,得到具有道路属性的其他对象,如车辆或指示牌等。
在一些可行的实施方式中,对于每一视频帧,在确定该视频帧中的对象时,可对该视频帧进行对象检测得到至少一个对象区域,进而对每一对象区域进行特提取得到对应的对象特征。进一步地,对于每一对象特征,可基于该对象特征确定对应的对象,从而确定出该视频帧包括的各对象。
其中,在对任一视频帧进行对象检测时,可基于人工智能领域的神经网络模型、对象检测算法或图像识别算法来检测出该视频帧中可能存在对象的对象区域。例如,若需要确定每一视频帧中的人物对象时,可基于人脸检测算法(如scrfd算法)来检测出视频帧中的人脸。
其中,在对每一对象区域进行特征提取时,可同样可以基于人工智能领域的神经网络模型、特征提取算法等来得到对应的对象特征,具体可基于实际应用场景需求确定,在此不做限制。例如,若需要确定每一视频帧中的人物对象时,可基于人脸特征提取模型(如arcface模型)得到人脸特征,并将人脸特征确定为一个对象特征。或者可基于标准正脸的无关位置对该人脸进行矫正,进一步提取矫正后的人脸的人脸特征,并将其作为一个对象特征。
对于每一对象特征,在基于该对象特征确定对应的对象时,可基于人工智能领域的神经网络模型和对象预测算法等,直接预测出该对象特征对应的对象。例如可将每一对象特征输入对象预测模型,基于对象预测模型得到各对象特征对应的对象。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
例如,可基于人工智能领域中的机器学习(Machine Learning,ML)技术,通过人工神经网络、置信网络、强化学习、迁移学习、归纳学习等方式训练得到具有对象区域建立和/或提取对象特征的神经网络模型,以基于确定出的神经网络模型确定每一视频帧对应的各对象特征。
在一些可行的实施方式中,对于每一视频帧,在基于该视频帧对应的各对象特征,确定该视频帧包括的至少一个对象时,可基于与对象特征库的各对象特征相匹配的方式确定。
其中,对象特征库中包括多个对象特征集合,每一对象特征集合包括一个候选对象的至少一个对象特征。例如,对象特征库中可包括张三的多个对象特征,也可同时包括李四的多个对象特征。
对于每一对象特征,可将该对象特征与对象特征库中的各对象特征进行匹配,以从中确定出与该对象特征相匹配的第三预设数量的候选对象特征,将对应于最多数量的候选对象特征的候选对象确定为该对象特征对应的对象。
例如,对于从任一目标视频帧中确定出的任一对象特征a,确定对象特征a与对象特征库中各对象特征的匹配度,并将与对象特征a相匹配的第三预设数量的对象特征确定为候选对象特征。
例如,若第三预设数量为5,且各候选对象特征中的3个候选对象特征为王五对应的对象特征,另外2个候选对象特征分别为毛六和李七对应的对象特征。由于王五对应的候选对象特征数量最多,此时可将对象特征a对应的对象确定为王五,进而更为准确地确定对象特征a对应的对象。
在一些可行的实施方式中,为进一步提升基于对象特征库确定对象的准确性,在确定出每一视频帧的所有对象特征后,可对每一视频帧对应的各对象特征进行归一化处理。在对象特征库中的各对象特征为归一化处理后的对象特征的情况下,将每一视频帧对应的每一个归一化处理后的对象特征与对象特征库中的各对象特征匹配,以确定出各视频帧对应的各对象特征所对应的对象。
在本申请实施例中,对象特征库可以为服务器、数据库、云存储空间或者区块链,具体可基于实际应用场景需求确定,在此不做限制。数据库简而言之可视为电子化的文件柜——存储电子文件的处所,在本申请中可用于存储各候选对象的对象特征。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块。在本申请中,区块链中的每一个数据块均可存储各候选对象的对象特征。云存储是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同存储各候选对象的对象特征。
步骤S22、从各视频帧中确定出目标对象所在的多个目标视频帧,基于各目标视频帧的播放时刻对各目标视频帧进行聚类,得到至少一个第一视频帧集合。
在一些可行的实施方式中,目标对象可以为各对象中的任意一个或者多个对象,也可以为指定的对象,具体可基于实际应用场景需求确定,在此不做限制。
例如,各视频帧包括的对象由演员1、演员2以及演员3,则可分别将演员1、演员2以及演员3确定为目标对象,并分别从目标视频中确定出各演员对应的视频片段。
在一些可行的实施方式中,可确定各目标视频帧在目标视频中的播放时刻,进而基于各目标视频帧的播放时刻对各目标视频帧进行聚类,得到至少一个视频帧集合。为方便描述,以下将对各目标视频帧进行聚类得到的视频帧集合称为第一视频帧集合。
其中,对于每一第一视频帧集合中的任一目标视频帧,该第一视频帧集合中包括至少一个与该目标视频帧的播放时间间隔小于第一预设时间间隔的其他目标视频帧。
基于此,通过对各目标视频进行聚类,可使得每一第一视频帧集合中的任意两个相邻的目标视频帧的播放时间间隔小于第一预设时间间隔,从而在时间维度上每一第一视频帧集合中的各目标视频帧在目标视频中分布较为集中。
具体地,在基于各目标视频的播放时刻对各目标视频进行聚类时,可基于各目标视频的播放时刻,确定至少一个子视频帧集合。
其中,每一子视频帧集合包括一个第一目标视频帧和至少第一预设数量的第二目标视频帧,且该子视频帧集合中的任一第二目标视频帧与第一目标视频帧的播放时间间隔小于第一预设时间间隔。
其中,任一两个目标视频帧的播放时间间隔小于第一预设时间间隔,说明目标对象处于同一场景或同一影视情节的视频内容。
其中,对于聚类得到的各子视频帧集合而言,各子视频帧集合中可能包括相同的一个或者多个目标视频帧。对于每一子视频帧集合,该子视频帧集合中的一个第二目标视频帧可能为另一子视频帧集合中的第一目标视频帧,也可以为另一子视频帧集合中的第二目标视频帧,也可以只为该子视频帧集合中的第二目标视频帧。
也即对于每一目标视频帧而言,可确定其他各目标视频帧与该目标视频帧的播放时间间隔,若存在至少第一预设数量的与该目标视频帧的播放时间间隔小于第一预设时间间隔的目标视频帧,则可将该目标视频帧确定为第一目标视频帧,将该第一目标视频帧和与该目标视频帧的播放时间间隔小于第一预设时间间隔的目标视频帧确定为一个子视频帧集合,且与该目标视频帧的播放时间间隔小于第一预设时间间隔的目标视频帧为该子视频帧集合中的第二目标视频帧。
参见图3,图3是本申请实施例提供的确定子视频帧集合的场景示意图。图3中f1-f6分别代表不同的目标视频帧、且分别对应于目标视频的播放时刻。
若第一预设数量为2,则在目标视频帧f1与目标视频帧f2的播放时间间隔、目标视频帧f2与目标视频帧f3的播放时间间隔小于第一预设时间间隔,且目标视频帧f2与目标视频帧f4的播放时间间隔大于第一预设时间间隔的情况下,则可将目标视频帧f1-f3确定为子视频帧集合1,目标视频帧f2为该子视频帧中的第一目标视频帧,目标视频帧f1和目标视频帧f3为该子视频帧集合中的第二子视频帧。
在目标视频帧f2与目标视频帧f3的播放时间间隔、目标视频帧f3与目标视频帧f4的播放时间间隔小于第一预设时间间隔,且目标视频帧f1与目标视频帧f3的播放时间间隔、目标视频帧f3与目标视频帧f5的播放时间间隔大于第一预设时间间隔的情况下,可将目标视频帧f2-f4确定为子视频帧集合2,目标视频帧f3为该子视频帧中的第一目标视频帧,目标视频帧f2和目标视频帧f4为该子视频帧集合中的第二子视频帧。
在目标视频帧f3与目标视频帧f4的播放时间间隔、目标视频帧f4与目标视频帧f5的播放时间间隔小于第一预设时间间隔,且目标视频帧f4与目标视频帧f6的播放时间间隔、目标视频帧f2与目标视频帧f4的播放时间间隔大于第一预设时间间隔的情况下,可将目标视频帧f3-f5确定为子视频帧集合3,目标视频帧f4为该子视频帧中的第一目标视频帧,目标视频帧f3和目标视频帧f5为该子视频帧集合中的第二子视频帧。
由上述可知,对于目标视频帧f1而言,目标视频帧f1与目标视频帧f3的播放时间间隔大于第一预设时间间隔,且只有目标视频帧f2与其播放时间间隔小于第一预设时间间隔,则目标视频帧f1不为任一子视频帧集合中的第一目标视频帧。对于目标视频帧f5而言,只有目标视频帧f4与其播放时间间隔小于第一预设时间间隔,则目标视频帧f5不为任一子视频帧集合中的第一目标视频帧。对于目标视频帧f6而言,不存在于其播放时间间隔小于第一预设时间间隔的目标视频帧帧,因此目标视频帧f6同样不为任一子视频帧集合中的第一目标视频帧,也不为任一子视频帧集合中的第二目标视频帧。
基于此,在目标对象所在的目标视频帧为f1-f6的情况下,基于上述实现方式确定出的子视频帧集合分别为子视频帧集合1、子视频帧集合2以及子视频帧集合3。
进一步地,在对各目标视频帧进行聚类得到各子视频帧集合后,可将各子视频帧集合进行分组,得到至少一个集合分组。
具体地,可将所有目标视频帧位于目标视频的同一预设播放区间的各子视频帧集合确定为一个集合分组,并将每一集合分组确定为一个第一视频帧集合。
例如,若目标视频为某一演员的影视集锦视频,则目标视频的一个预设播放区间对应于一种影视剧,基于上述方式可将位于同一播放区间的各子视频帧集合确定为一个集合分组,从而使得最终得到的一个集合分组中包括的目标视频帧为该演员在相同影视剧中的出演的视频帧。
可选地,在将各子视频帧集合进行分组时,若两个子视频帧集合包括至少一个相同的目标视频帧,则可将该两个子视频帧集合确定为一个临时集合分组。并进一步将与该临时集合分组包括至少一个相同的目标视频帧的子视频帧集合合并至该临时集合分组,以此类推直至临时集合分组中的目标视频帧不属于剩余的任一子视频帧为止,将此时的临时集合分组确定最终的一个集合分组。
若还剩余其他的子视频帧集合,则可基于上述方式确定出一个新的集合分组。若各子视频帧集合中存在包括的目标视频帧不属于其他任一子视频帧集合的子视频帧集合,则可将该子视频帧集合确定为一个集合分组。
基于上述分组方式所确定出的每一集合分组,该集合分组包括至少一个子视频帧集合,且该集合分组包括多个子视频帧集合时,对于其中的任一子视频帧集合,该集合分组包括至少一个与该子视频帧集合包括相同目标视频帧的其他子视频帧集合。基于此,可使得该集合分组中的各目标视频帧的播放时刻集中对应于目标视频的某一段视频内容,并可将每一集合分组确定为一个第一视频帧集合。
参见图4,图4是本申请实施例提供的确定第一视频帧集合的场景示意图。在基于图3确定出子视频帧集合1、子视频帧集合2以及子视频帧集合3,且目标视频帧f1-f3属于子视频帧集合1、目标视频帧f2-f4属于子视频帧集合2、目标视频帧f3-f5属于子视频帧集合3的情况下,由于图3中子视频帧集合1和子视频帧集合2中包括相同的目标视频帧f2和f3,子视频帧集合2和子视频帧集合3中包括相同的目标视频帧f3和f4,则可将子视频帧集合1、子视频帧集合2以及子视频帧集合3确定为一个集合分组,并将该集合分组确定为一个第一视频帧集合。对于目标视频帧f6而言,由于其不属于任一子视频帧集合,因此目标视频帧f6也不属于确定出的第一视频帧集合。
在一些可行的实施方式中,在基于各目标视频帧的播放时刻对各目标视频帧进行聚类时以得到至少一个第一视频帧集合时,可先确定第一预设时间间隔和第四预设数量,其中第四预设数量为上述第三预设数量加1。
进一步地,从各目标视频帧中选取目标视频帧i,并以目标视频帧i的播放时刻为圆心、第一预设时间间隔为半径确定出目标视频帧i的邻域Ni,并对目标视频帧i的邻域Ni中包括目标视频帧i在内的所有目标视频帧的数量。其中,若除目标视频帧i之外的其他任一目标视频帧与目标视频帧i的播放时间间隔小于第一预设时间间隔,则该目标视频帧位于目标视频帧i的邻域Ni内。
当目标视频帧i的邻域Ni内的目标视频帧的数量大于或等于第四预设数量时,此时可将目标视频帧i的邻域Ni确定为一个待处理簇C1。当目标视频帧i的邻域Ni内的目标视频帧的数量小于第四预设数量时,从各目标视频帧中重新选取一个目标视频帧j,并同样以目标视频帧j的播放时刻为圆心,以第一预设时间间隔为半径确定出目标视频帧j的邻域Nj
在确定出目标视频帧j邻域Nj之后,可再次确定目标视频帧j邻域Nj中包括目标视频帧j在内的所有目标视频帧的数量是否大于或等于第四预设数量。以此类推,直至从各目标视频帧中确定出邻域中目标视频帧的数量大于或等于第四预设数量的目标视频帧为止。
假设目标视频帧i的邻域Ni内的目标视频帧的数量大于或等于第四预设数量,且将目标视频帧i的邻域Ni确定为一个待处理簇C1之后,可确定待处理簇C1中除目标视频帧i以外的其他目标视频帧的邻域,即以其他每一目标视频帧的播放时刻为圆心,以第一预设时间间隔为半径确定其他每一目标视频帧的邻域。并进一步将待处理簇C1中除目标视频帧i以外的其他目标视频帧的邻域中,所包括的目标视频帧的数量大于第四预设数量的邻域确定为目标邻域。
基于上述实现方式,可确定待处理簇C2中除目标视频帧i以及待处理簇C1对应的目标邻域对应的目标视频帧之外的其他目标视频帧的邻域,并将其中目标视频帧的数量大于第四预设数量的邻域确定为待处理簇C2对应的目标邻域。在确定待处理簇C1对应的各目标邻域之后,可将各个目标邻域与待处理簇C1进行合并得到待处理簇C2。以此类推,直至无法确定出待处理簇Cn对应的目标邻域时,将待处理簇Cn确定为一个第一视频帧集合。其中,n为大于或者等于1的整数。
其中,上述第四预设数量和第一预设时间间隔具体可基于实际应用场景需求确定,在此不做限制。如第一预设时间间隔可以为50s,第三预设数量为2,即表示在50s以内包括相同对象的视频帧可以视为一个内容场景中的视频帧。
举例来说,请参见图5,图5是本申请实施例提供的确定待处理簇的场景示意图。图5中任意两个目标视频帧之间的距离为播放时间间隔。
目标视频帧i是从各目标视频帧中选取的任意一个目标视频帧,此时可以目标视频帧i的播放时刻为圆心,第一预设时间间隔为半径确定出目标哦视频帧i的邻域Ni。假设第四预设数量为4,此时目标视频帧i的邻域Ni中的目标视频帧的个数为4,即可将目标视频帧i的邻域Ni确定为待处理簇C1
进一步分别以待处理簇C1中目标视频帧a、目标视频帧b以及目标视频帧c的播放时刻为圆心,第一预设时间间隔为半径确定目标视频帧a、目标视频帧b以及目标视频帧c的邻域。其中,目标视频帧a的邻域中目标视频帧的数量为3、目标视频帧b和目标视频帧c的邻域中目标视频帧的数量均为4,此时可将目标视频帧b和目标视频帧c的邻域确定为待处理簇C1对应的目标邻域,并将目标视频帧b和目标视频帧c的邻域合并至待处理簇C1,得到待处理簇C2
进一步参见图6,图6是本申请实施例提供的确定第一视频帧集合的另一场景示意图。在图5的基础上,在分别以待处理簇C2中除目标视频帧i、目标视频帧a、目标视频帧b、目标视频帧c以外的目标视频帧d、目标视频帧e、目标视频帧f以及目标视频帧g的播放时刻为圆心,以第一预设时间间隔为半径确定出目标视频帧d、目标视频帧e、目标视频帧f以及目标视频帧g对应的邻域。
基于图6不难发现,目标视频帧g和目标视频帧f对应的邻域中目标视频帧的数量小于第四预设数量,目标视频帧d和目标视频帧e对应的邻域中目标视频帧的数量等于第四预设数量,因此可将目标视频帧d和目标视频帧e对应的邻域确定为待处理簇C2对应的目标邻域,并将目标视频帧d和目标视频帧e对应的邻域合并至待处理簇C2,得到待处理簇C3
以此类推,进一步确定待处理簇C3中剩余的目标视频帧r、目标视频帧s以及目标视频帧t对应的邻域,且基于图6可确定目标视频帧r、目标视频帧s以及目标视频帧t对应的邻域中目标视频帧的数量小于第四预设数量,因此可确定待处理簇C3不存在对应的目标邻域,进而可将待处理簇C3确定为第一视频帧集合。
其中,若目标对象所在的所有目标视频帧中还存在未确定过邻域的目标视频帧,可从剩余的目标视频帧中选取任意一个目标视频帧x,并以目标视频帧x的播放时刻为圆心,第一预设时间间隔为半径确定目标视频帧x的邻域Nx。若目标视频帧x的邻域Nx中目标视频帧的数量大于或者等于第四预设数量,则可基于目标视频帧x的邻域Nx确定出一个第一视频帧集合。
若目标视频帧x的邻域Nx中目标视频帧的数量小于第四预设数量,则重新从剩余的目标视频帧中选择其他目标视频帧,并重复上述过程以确定出目标对象所在的所有目标视频帧所对应的所有第一视频帧集合。
其中,上述基于目标视频帧的播放时刻对目标视频帧进行聚类以得到至少一个第一视频帧集合的过程可基于DBSCAN聚类算法实现,也可基于其他聚类算法对目标视频进行聚类得到至少一个第一视频帧集合,具体可基于实际应用场景需求确定,在此不做限制。
步骤S23、基于各第一视频帧集合,从目标视频中确定目标对象对应的至少一个视频片段。
在一些可行的实施方式中,在得到至少一个第一视频帧集合后,对于每一第一视频帧集合,可确定该第一视频帧集合中播放时刻最早的第一播放时刻和播放时刻最晚的第二播放时刻,进而从目标视频中确定第一播放时刻至第二播放时刻对应的视频频段。
或者,对于每一第一视频帧集合,可确定该第一视频帧集合中播放时刻最早的第三目标视频帧和播放时刻最晚的第四目标视频帧,并将目标视频中以第三目标视频帧为起始帧、以第四目标视频为终止帧的视频片段确定为该第一视频帧集合对应的视频片段。
基于此,可从目标视频帧确定出每一第一视频帧集合所对应的一个视频片段,每一个视频片段为以目标对象为主要视频内容的主要片段。例如,目标对象为演员A,则基于上述方式确定出的每一视频片段为关于演员A的主要剧情片段。
其中,在提取每一视频帧集合对应的视频片段时,可基于视频片段提取工具或程序等进行提取,如可使用ffmpeg工具或者python工具包moviePy进行视频片段的提取,在此不做限制。
在一些可行的实施方式中,由于第一视频帧集合中的各目标视频帧是采用抽取方式从目标视频中得到的,因此对于每一视频片段而言,目标视频帧中可能仍然存在与该视频片段属于相同视频内容、且包括目标对象的视频帧。
基于此,可将基于每一第一视频帧集合确定出的视频片段确定为第一视频片段。对于每一第一视频片段,若目标视频中对应于该第一视频片段之前的第一预设时间间隔内包括存在目标对象的至少一个第五目标视频帧,则将播放时刻最早的第五目标视频帧至该第一视频片段的第三目标视频帧(该第一视频片段的起始帧)之前的视频片段合并至该第一视频片段。
如图7所示,图7是本申请实施例对视频片段进行处理的一场景示意图。在目标对象为对象B的情况下,若基于一个第一视频帧集合所确定出的一个视频片段为目标视频中第7帧视频帧至第46帧视频帧所对应的视频片段。
在目标视频中第7帧视频帧之前的第一预设时间间隔内存在第3帧视频帧同样包括目标对象的情况下,则可将第3帧视频帧至第6帧视频帧合并至先前确定出的视频片段,即最终得到目标对象对应的第3帧视频帧至第46帧视频帧所对应的视频片段。
若目标视频中对应于该第一视频片段之后的第一预设时间间隔内包括存在目标对象的至少一个第六目标视频帧,则将播放时刻最晚的第六目标视频帧至该第一视频片段的第四目标视频帧(该第一视频片段的终止帧)之后的视频片段合并至该第一视频片段。
基于上述方式对第一视频片段进行处理之后可得到每一第一视频片段对应的第二视频片段。进一步可将包括相同视频帧的第二视频片段进行合并得到第三视频片段,从而可将第三视频片段和剩余的第二视频片段分别确定为目标对象对应的一个视频片段。
如图8所示,图8是本申请实施例对视频片段进行处理的另一场景示意图。若基于每一第一视频帧集合从目标视频帧确定出一个视频片段,并对每一视频片段进行处理后得到的对应第一视频片段为第7帧视频帧至第46帧视频帧对应的视频片段、以及第45帧视频帧至第78帧视频帧对应的视频片段。在图8中不难发现,图8中的两个第一视频片段中存在重合的第45帧视频帧和第46帧视频帧,因此可将图8中的两个第一视频片段进行合并得到第7帧视频帧至第78帧视频帧对应的第二视频片段,并最终将该第二视频片段确定为目标对象对应的一个视频片段。
在一些可行的实施方式中,在从目标视频中确定出目标对象对应的各视频片段后,可确定每一视频片段在目标视频中的播放时间区间,进而基于各视频片段在目标视频中的播放时间区间,确定各视频片段在目标视频中的第一时间分布信息。
对于目标对象而言,第一时间分布信息还可用于描述目标对象在目标视频中主要出现的时间区间,如可用于确定影视剧中以目标对象为主的剧情片段的播放时间区间。
其中,目标对象对应的第一时间分布信息可以表示为{[x1,y1],[x2,y2],...,[xn,yn]}。其中,n表示视频片段的索引,xn表示第n个视频片段在目标视频中的起始帧的帧号,yn表示第n个视频片段在目标视频帧中的终止帧的帧号。或者,xn表示第n个视频片段在目标视频中的播放开始时刻,yn表示第n个视频片段在目标视频帧中的播放终止时刻。
例如,目标对象为李四,则李四对应的视频片段的第一时间分布信息可以为:{[1,88],[464,1093],[1345,1492],[1619,1737],[1861,2027],[2187,2338],[2584,2730]]}。
进一步地,可基于第一时间分布信息和目标对象的对象信息,确定目标视频的视频标签,并通过视频标签对目标视频进行标记。
其中,目标对象的对象信息可以为任意可唯一对目标对象进行标识的相关信息,如名字等,具体可基于实际应用场景需求确定,在此不做限制。
其中,对于目标视频而言,可基于本申请实施例提供的视频处理方法确定出目标视频中所有对象对应的视频片段,并基于每一对象对应的视频片段的第二时间分布信息和对应的对象信息,生成每一对象对应的视频标签,进而基于每一对象对应的视频标签对目标视频进行标记。
也就是所,基于上述实现方式可基于目标视频中任意一个或者多个对象对应的视频标签对目标视频进行标记,从而可基于目标视频的各视频标签来确定对应对象在目标视频中出现的视频片段,从而提升视频观看效果。
在一些可行的实施方式中,可将目标视频与视频标签关联存储,并且基于上述实现方式将多个视频和对应的视频标签进行关联存储。当接收到用户针对某一目标对象的搜索请求时,通过与各视频关联存储的视频标签可确定包括目标对象的视频,并将包括目标对象的视频作为搜索结果返回至对应用户。
进一步地,对于每一包括目标对象的视频,可基于该视频对应的视频标签确定目标对象在该视频中的出现时长,并基于出现时长的长短顺序对各个包括目标对象的视频进行排序,以将排序结果作为搜索结果返回至对应用户。
其中,排序越靠前的视频,说明目标对象在该视频中的出现时长越长,越能说明该视频与目标对象的关联性较强,从而提升用户搜索体验。
例如,若交通部门需要确定某一车辆的车辆行驶画面,则可基于所有车辆行驶视频对应的视频标签从所有车辆行驶视频中确定出与该车辆的车辆信息对应的目标车辆行驶视频,并进一步根据对应的视频标签从目标车辆行驶视频中确定出该车辆的车辆行驶画面。
可选地,在确定目标视频中各对象对应的视频片段的第二时间分布信息之后,可基于每一对象对应的第二时间分布信息确定每一对象在目标视频中的出现时长,进而基于每一对象在目标视频中的出现时长确定各对象相对于目标视频的重要程度。
例如,对于目标视频中的任一对象,若该对象的出现时长最长,则目标视频为影视剧的情况下,可确定该对象为该影视剧中的主角。若该对象的出现时长位于所有对象的出现时长的中间,则可确定该对象为该影视剧中的配角。若该对象的出现时长最短,则可确定该对象为该影视剧中的龙套角色。
在一些可行的实施方式中,在获取到同样包括目标对象的第二视频时,可基于本申请实施例提供的视频处理方法从第二视频中确定出目标对象对应的各视频片段,并确定各视频片段对应的第三时间分布信息。
进一步可确定第三时间分布信息与第一时间分布信息的相似度,若相似度高于预设阈值,则可确定第二视频与目标视频为相似视频。
具体地,在确定第一时间分布信息和第三时间分布信息的相似度时,可确定第一时间分布信息对应的各播放时间区间与第三时间分布信息对应的各播放时间区间的时间间隔的相似度,也即确定目标视频中目标对象对应的视频片段的片段分布与第二视频中目标对象对应的视频片段的相似度,并以此确定出第一时间分布信息和第三时间分布信息的相似度。
若第一时间分布信息对应的各播放时间区间与第三时间分布信息对应的各播放时间区间的时间间隔的相似度越高,也即目标视频中目标对象对应的视频片段的片段分布与第二视频中目标对象对应的视频片段的相似度越高,进而可确定第二视频与目标视频的相似度越高。
例如,目标视频中目标对象对应的各视频片段的第一时间分布信息为:{[5,85],[1124,1157],[1507,1612]},第二视频中目标对象对应的各视频片段的第三时间分布信息为{[7,87],[1126,1159],[1509,1614]},由此可见目标视频中目标对象对应的各视频片段的第一时间分布信息为与第二视频中目标对象对应的各视频片段的第三时间分布信息相差2秒的时间偏移,此时可确定目标视频和第二视频中目标对象对应的视频片段为相同的视频片段,进而可确定目标视频和第二视频为相似视频。
可选地,对于任一第三视频,可确定第三视频中各对象对应的视频片段,并确定第三视频中各对象对应的视频片段的第四时间分布信息。进一步地,可确定每一第四时间分布信息与视频库中每一视频的每一第五时间分布信息的相似度,其中,视频库中的每一视频包括至少一个视频标签,一个标签由该视频所包括的一个对象以及该对象对应的视频片段的第五时间分布信息所确定。
对于任一第四时间分布信息,若视频库中存在第五视频对应的一个第五时间分布信息与该第四时间分布信息的相似度高于预设阈值,可确定第五视频和第三视频为相似视频。
基于此,若将视频库视为某一视频平台的正版视频库,则对于其他来源的任一第三视频而言,若视频库中存在与该第三视频相似的视频,则可确定该第四按视频为盗版视频。
本申请实施例中所涉及的特征处理以及视频帧处理等过程可基于云计算技术实现。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物,其将计算任务分布在大量计算机构成的资源池上,以进行视频帧处理或特征处理等过程。
在本申请实施中,通过确定目标对象所在的多个目标视频帧,并基于各目标视频帧的播放时刻对目标视频帧进行聚类,可将集中出现在目标视频中的部分目标视频帧进行聚类,进而可高效确定目标对象集中出现于目标视频中的至少一个视频片段,如确定同一演员在影视剧中不同场景下的完整片段,可更好地捕捉目标对象所在的完整视频片段,提升视频片段的提取效果。并且通过确定目标对象对应的各视频片段的第一时间分布信息以及目标对象的对象信息可确定视频标签,在通过视频标签对目标视频进行标记之后可便于对目标对象对应的视频或视频片段的获取,也可有利用识别与目标相似的其他视频,以实现视频版权保护等,适用性高。
参见图9,图9是本申请实施例提供的视频处理装置的结构示意图。本申请实施例提供的视频处理装置包括:
对象确定模块91,用于确定目标视频的多个视频帧,确定每一上述视频帧包括的至少一个对象;
视频帧聚类模块92,用于从各上述视频帧中确定出目标对象所在的多个目标视频帧,上述目标对象为上述至少一个对象中的对象,基于各上述目标视频帧的播放时刻对各上述目标视频帧进行聚类,得到至少一个第一视频帧集合,其中,对于每一上述第一视频帧集合中的任一目标视频帧,该第一视频帧集合包括至少一个与该目标视频帧的播放时间间隔小于第一预设时间间隔的其他目标视频帧;
视频处理模块93,用于基于各上述第一视频帧集合,从上述目标视频中确定上述目标对象对应的至少一个视频片段。
在一些可行的实施方式中,上述视频帧聚类模块92,用于:
基于各上述目标视频帧的播放时刻,确定至少一个子视频帧集合;
其中,对于每一上述子视频帧集合,该子视频帧集合包括一个第一目标视频帧和至少第一预设数量的第二目标视频帧,且任一上述第二目标视频帧与上述第一目标视频帧的播放时间间隔小于第一预设时间间隔;
基于各上述子视频帧集合,确定至少一个第一视频帧集合。
在一些可行的实施方式中,上述视频帧聚类模块92,用于:
将各上述子视频帧集合进行分组,得到至少一个集合分组;
其中,每一集合分组包括至少一个上述子视频帧集合,且该集合分组包括多个上述子视频帧集合时,对于该集合分组中的任一子视频帧集合,该集合分组包括至少一个与该子视频帧集合包括相同目标视频帧的其他子视频帧集合;
基于每一上述集合分组确定一个第一视频帧集合。
在一些可行的实施方式中,上述视频处理模块93,用于:
对于每一上述第一视频帧集合,确定该第一视频帧集合中播放时刻最早的第一播放时刻以及播放时刻最晚的第二播放时刻,将上述目标视频的上述第一播放时刻至上述第二播放时刻对应的视频片段确定为上述目标对象对应的一个视频片段。
在一些可行的实施方式中,上述对象确定模块91,用于:
基于第二预设时间间隔对上述目标视频进行抽帧处理,得到上述目标视频的多个视频帧;
在每一单位时间从上述目标视频中抽取第二预设数量的视频帧。
在一些可行的实施方式中,上述对象确定模块91,用于:
对于每一上述视频帧,对该视频帧进行对象检测,得到该视频帧对应的至少一个对象特征,基于该视频帧对应的各上述对象特征,确定该视频帧包括的至少一个对象。
在一些可行的实施方式中,上述对象确定模块91,用于:
对于每一上述对象特征,从对象特征库中的各对象特征确定出与该对象特征相匹配的第三预设数量的候选对象特征,将对应于最多数量的候选对象特征的候选对象确定为该对象特征对应的第一对象;
其中,上述对象特征库中包括多个对象特征集合,每一上述对象特征集合包括一个候选对象的至少一个对象特征。
在一些可行的实施方式中,上述视频处理模块93,还用于:
确定上述目标对象对应的各视频片段的第一时间分布信息;
基于各上述第一时间分布信息和上述目标对象的对象信息,确定上述目标视频的视频标签;
基于上述视频标签对上述目标视频进行标记。
在一些可行的实施方式中,上述视频处理模块93,还用于:
确定上述目标视频各上述对象对应的视频片段的第二时间分布信息;
基于各上述对象对应的第二时间分布信息,确定各上述对象相对于上述目标视频的重要程度。
在一些可行的实施方式中,上述视频处理模块93,还用于:
获取包括上述目标对象的第二视频,并从上述第二视频中确定上述目标对象对应的至少一个视频片段;
确定上述第二视频中上述目标对象对应的各视频片段的第三时间分布信息;
确定上述第一时间分布信息和上述第三时间分布信息的相似度,若相似度高于预设阈值,则确定上述第二视频与上述目标视频为相似视频。
具体实现中,上述装置可通过其内置的各个功能模块执行如上述图2中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
参见图10,图10是本申请实施例提供的电子设备的结构示意图。该电子设备可以为服务器或终端。如图10所示,本实施例中的电子设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,在一些实施例中,上述电子设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非易失性存储器(non-volatile memory,NVM),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的电子设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
确定目标视频的多个视频帧,确定每一上述视频帧包括的至少一个对象;
从各上述视频帧中确定出目标对象所在的多个目标视频帧,上述目标对象为上述至少一个对象中的对象,基于各上述目标视频帧的播放时刻对各上述目标视频帧进行聚类,得到至少一个第一视频帧集合,其中,对于每一上述第一视频帧集合中的任一目标视频帧,该第一视频帧集合包括至少一个与该目标视频帧的播放时间间隔小于第一预设时间间隔的其他目标视频帧;
基于各上述第一视频帧集合,从上述目标视频中确定上述目标对象对应的至少一个视频片段。
在一些可行的实施方式中,上述处理器1001用于:
基于各上述目标视频帧的播放时刻,确定至少一个子视频帧集合;
其中,对于每一上述子视频帧集合,该子视频帧集合包括一个第一目标视频帧和至少第一预设数量的第二目标视频帧,且任一上述第二目标视频帧与上述第一目标视频帧的播放时间间隔小于第一预设时间间隔;
基于各上述子视频帧集合,确定至少一个第一视频帧集合。
在一些可行的实施方式中,上述处理器1001用于:
将各上述子视频帧集合进行分组,得到至少一个集合分组;
其中,每一集合分组包括至少一个上述子视频帧集合,且该集合分组包括多个上述子视频帧集合时,对于该集合分组中的任一子视频帧集合,该集合分组包括至少一个与该子视频帧集合包括相同目标视频帧的其他子视频帧集合;
基于每一上述集合分组确定一个第一视频帧集合。
在一些可行的实施方式中,上述处理器1001用于:
对于每一上述第一视频帧集合,确定该第一视频帧集合中播放时刻最早的第一播放时刻以及播放时刻最晚的第二播放时刻,将上述目标视频的上述第一播放时刻至上述第二播放时刻对应的视频片段确定为上述目标对象对应的一个视频片段。
在一些可行的实施方式中,上述处理器1001用于:
基于第二预设时间间隔对上述目标视频进行抽帧处理,得到上述目标视频的多个视频帧;
在每一单位时间从上述目标视频中抽取第二预设数量的视频帧。
在一些可行的实施方式中,上述处理器1001用于:
对于每一上述视频帧,对该视频帧进行对象检测,得到该视频帧对应的至少一个对象特征,基于该视频帧对应的各上述对象特征,确定该视频帧包括的至少一个对象。
在一些可行的实施方式中,上述处理器1001用于:
对于每一上述对象特征,从对象特征库的各对象特征中确定出与该对象特征相匹配的第三预设数量的候选对象特征,将对应于最多数量的候选对象特征的候选对象确定为该对象特征对应的第一对象;
其中,上述对象特征库中包括多个对象特征集合,每一上述对象特征集合包括一个候选对象的至少一个对象特征。
在一些可行的实施方式中,上述处理器1001还用于:
确定上述目标对象对应的各视频片段的第一时间分布信息;
基于各上述第一时间分布信息和上述目标对象的对象信息,确定上述目标视频的视频标签;
基于上述视频标签对上述目标视频进行标记。
在一些可行的实施方式中,上述处理器1001还用于:
确定上述目标视频各上述对象对应的视频片段的第二时间分布信息;
基于各上述对象对应的第二时间分布信息,确定各上述对象相对于上述目标视频的重要程度。
在一些可行的实施方式中,上述处理器1001还用于:
获取包括上述目标对象的第二视频,并从上述第二视频中确定上述目标对象对应的至少一个视频片段;
确定上述第二视频中上述目标对象对应的各视频片段的第三时间分布信息;
确定上述第一时间分布信息和上述第三时间分布信息的相似度,若相似度高于预设阈值,则确定上述第二视频与上述目标视频为相似视频。
应当理解,在一些可行的实施方式中,上述处理器1001可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
具体实现中,上述电子设备1000可通过其内置的各个功能模块执行如上述图2中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,被处理器执行以实现图2中各个步骤所提供的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的装置或电子设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(randomaccess memory,RAM)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,上述计算机程序被处理器执行图2中各个步骤所提供的方法。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所揭露的仅为本申请较佳实施例而已,不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (11)

1.一种视频处理方法,其特征在于,所述方法包括:
确定目标视频的多个视频帧,确定每一所述视频帧包括的至少一个对象;
从各所述视频帧中确定出目标对象所在的多个目标视频帧,所述目标对象为所述至少一个对象中的对象,基于各所述目标视频帧的播放时刻对各所述目标视频帧进行聚类,得到至少一个第一视频帧集合,其中,对于每一所述第一视频帧集合中的任一目标视频帧,该第一视频帧集合包括至少一个与该目标视频帧的播放时间间隔小于第一预设时间间隔的其他目标视频帧;
基于各所述第一视频帧集合,从所述目标视频中确定所述目标对象对应的至少一个视频片段;
其中,所述第一视频帧集合是通过以下方式确定的:
将所述多个目标视频帧中的任一目标视频帧作为第一目标视频帧,以所述第一目标视频帧的播放时刻为圆心、所述第一预设时间间隔为半径,确定所述第一目标视频帧的第一邻域;
在所述第一邻域内的目标视频帧的数量大于或等于第四预设数量时,将所述第一邻域作为第一待处理簇;
依次将所述第一待处理簇中除所述第一目标视频帧外的任一目标视频帧作为第二目标视频帧,以所述第二目标视频帧的播放时刻为圆心、所述第一预设时间间隔为半径,确定所述第二目标视频帧的第二邻域;
在所述第二邻域内目标视频帧的数量大于或等于第四预设数量时,将所述第二邻域确定为所述第一待处理簇对应的目标邻域;
将所述第一待处理簇以及所述目标邻域合并得到第二待处理簇;
以此类推,直至无法确定出目标待处理簇对应的目标邻域时,将所述目标待处理簇作为所述第一视频帧集合。
2.根据权利要求1所述的方法,其特征在于,所述基于各所述第一视频帧集合,从所述目标视频中确定所述目标对象对应的至少一个视频片段,包括:
对于每一所述第一视频帧集合,确定该第一视频帧集合中播放时刻最早的第一播放时刻以及播放时刻最晚的第二播放时刻,将所述目标视频中所述第一播放时刻至所述第二播放时刻对应的视频片段确定为所述目标对象对应的一个视频片段。
3.根据权利要求1所述的方法,其特征在于,所述确定目标视频的多个视频帧,包括以下至少一项:
基于第二预设时间间隔对所述目标视频进行抽帧处理,得到所述目标视频的多个视频帧;
在每一单位时间从所述目标视频中抽取第二预设数量的视频帧。
4.根据权利要求1所述的方法,其特征在于,所述确定每一所述视频帧包括的至少一个对象,包括:
对于每一所述视频帧,对该视频帧进行对象检测,得到该视频帧对应的至少一个对象特征,基于该视频帧对应的各所述对象特征,确定该视频帧包括的至少一个对象。
5.根据权利要求4所述的方法,其特征在于,对于每一所述视频帧,所述基于该视频帧对应的各所述对象特征,确定该视频帧包括的至少一个对象,包括:
对于每一所述对象特征,从对象特征库的各对象特征中确定出与该对象特征相匹配的第三预设数量的候选对象特征,将对应于最多数量的候选对象特征的候选对象确定为该对象特征对应的第一对象;
其中,所述对象特征库包括多个对象特征集合,每一所述对象特征集合包括一个候选对象的至少一个对象特征。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标对象对应的各视频片段的第一时间分布信息;
基于各所述第一时间分布信息和所述目标对象的对象信息,确定所述目标视频的视频标签;
基于所述视频标签对所述目标视频进行标记。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标视频各所述对象对应的视频片段的第二时间分布信息;
基于各所述对象对应的第二时间分布信息,确定各所述对象相对于所述目标视频的重要程度。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取包括所述目标对象的第二视频,并从所述第二视频中确定所述目标对象对应的至少一个视频片段;
确定所述第二视频中所述目标对象对应的各视频片段的第三时间分布信息;
确定所述第一时间分布信息和所述第三时间分布信息的相似度,若相似度高于预设阈值,则确定所述第二视频与所述目标视频为相似视频。
9.一种视频处理装置,其特征在于,所述装置包括:
对象确定模块,用于确定目标视频的多个视频帧,确定每一所述视频帧包括的至少一个对象;
视频帧聚类模块,用于从各所述视频帧中确定出目标对象所在的多个目标视频帧,所述目标对象为所述至少一个对象中的对象,基于各所述目标视频帧的播放时刻对各所述目标视频帧进行聚类,得到至少一个第一视频帧集合,其中,对于每一所述第一视频帧集合中的任一目标视频帧,该第一视频帧集合包括至少一个与该目标视频帧的播放时间间隔小于第一预设时间间隔的其他目标视频帧;
视频处理模块,用于基于各所述第一视频帧集合,从所述目标视频中确定所述目标对象对应的至少一个视频片段;
其中,所述第一视频帧集合是通过以下方式确定的:
将所述多个目标视频帧中的任一目标视频帧作为第一目标视频帧,以所述第一目标视频帧的播放时刻为圆心、所述第一预设时间间隔为半径,确定所述第一目标视频帧的第一邻域;
在所述第一邻域内的目标视频帧的数量大于或等于第四预设数量时,将所述第一邻域作为第一待处理簇;
依次将所述第一待处理簇中除所述第一目标视频帧外的任一目标视频帧作为第二目标视频帧,以所述第二目标视频帧的播放时刻为圆心、所述第一预设时间间隔为半径,确定所述第二目标视频帧的第二邻域;
在所述第二邻域内目标视频帧的数量大于或等于第四预设数量时,将所述第二邻域确定为所述第一待处理簇对应的目标邻域;
将所述第一待处理簇以及所述目标邻域合并得到第二待处理簇;
以此类推,直至无法确定出目标待处理簇对应的目标邻域时,将所述目标待处理簇作为所述第一视频帧集合。
10.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序;
所述处理器被配置用于在调用所述计算机程序时,执行如权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至8任一项所述的方法。
CN202210134565.3A 2022-02-14 2022-02-14 视频处理方法、装置、设备以及存储介质 Active CN114449346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210134565.3A CN114449346B (zh) 2022-02-14 2022-02-14 视频处理方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210134565.3A CN114449346B (zh) 2022-02-14 2022-02-14 视频处理方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN114449346A CN114449346A (zh) 2022-05-06
CN114449346B true CN114449346B (zh) 2023-08-15

Family

ID=81374250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210134565.3A Active CN114449346B (zh) 2022-02-14 2022-02-14 视频处理方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114449346B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115103223B (zh) * 2022-06-02 2023-11-10 咪咕视讯科技有限公司 视频内容检测方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017008477A1 (zh) * 2015-07-14 2017-01-19 杭州海康威视数字技术股份有限公司 一种集群视频分析方法和系统
CN110909205A (zh) * 2019-11-22 2020-03-24 北京金山云网络技术有限公司 一种视频封面确定方法、装置、电子设备及可读存储介质
CN111400553A (zh) * 2020-04-26 2020-07-10 Oppo广东移动通信有限公司 视频搜索方法、视频搜索装置及终端设备
CN112101075A (zh) * 2019-06-18 2020-12-18 腾讯科技(深圳)有限公司 信息植入区域的识别方法、装置、存储介质及电子设备
CN113283480A (zh) * 2021-05-13 2021-08-20 北京奇艺世纪科技有限公司 一种对象识别方法、装置、电子设备及存储介质
CN113301385A (zh) * 2021-05-21 2021-08-24 北京大米科技有限公司 视频数据处理方法、装置、电子设备和可读存储介质
CN113542865A (zh) * 2020-12-25 2021-10-22 腾讯科技(深圳)有限公司 视频剪辑方法、装置及存储介质
CN113766268A (zh) * 2021-11-08 2021-12-07 阿里巴巴达摩院(杭州)科技有限公司 视频处理方法、装置、电子设备和可读介质
WO2021259322A1 (zh) * 2020-06-23 2021-12-30 广州筷子信息科技有限公司 一种生成视频的系统和方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677735B (zh) * 2015-12-30 2020-04-21 腾讯科技(深圳)有限公司 一种视频搜索方法及装置
CN108337532A (zh) * 2018-02-13 2018-07-27 腾讯科技(深圳)有限公司 演出片段的标注方法、视频播放方法、装置及系统
CN112153483B (zh) * 2019-06-28 2022-05-13 腾讯科技(深圳)有限公司 信息植入区域的检测方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017008477A1 (zh) * 2015-07-14 2017-01-19 杭州海康威视数字技术股份有限公司 一种集群视频分析方法和系统
CN112101075A (zh) * 2019-06-18 2020-12-18 腾讯科技(深圳)有限公司 信息植入区域的识别方法、装置、存储介质及电子设备
CN110909205A (zh) * 2019-11-22 2020-03-24 北京金山云网络技术有限公司 一种视频封面确定方法、装置、电子设备及可读存储介质
CN111400553A (zh) * 2020-04-26 2020-07-10 Oppo广东移动通信有限公司 视频搜索方法、视频搜索装置及终端设备
WO2021259322A1 (zh) * 2020-06-23 2021-12-30 广州筷子信息科技有限公司 一种生成视频的系统和方法
CN113542865A (zh) * 2020-12-25 2021-10-22 腾讯科技(深圳)有限公司 视频剪辑方法、装置及存储介质
CN113283480A (zh) * 2021-05-13 2021-08-20 北京奇艺世纪科技有限公司 一种对象识别方法、装置、电子设备及存储介质
CN113301385A (zh) * 2021-05-21 2021-08-24 北京大米科技有限公司 视频数据处理方法、装置、电子设备和可读存储介质
CN113766268A (zh) * 2021-11-08 2021-12-07 阿里巴巴达摩院(杭州)科技有限公司 视频处理方法、装置、电子设备和可读介质

Also Published As

Publication number Publication date
CN114449346A (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN112232293A (zh) 图像处理模型训练、图像处理方法及相关设备
CN116188821B (zh) 版权检测方法、系统、电子设备和存储介质
CN113395542B (zh) 基于人工智能的视频生成方法、装置、计算机设备及介质
US20130294642A1 (en) Augmenting video with facial recognition
US20130343600A1 (en) Self learning face recognition using depth based tracking for database generation and update
CN110784759A (zh) 弹幕信息处理方法、装置、电子设备及存储介质
US9021020B1 (en) Application recognition based on media analysis
CN103581705A (zh) 视频节目识别方法和系统
CN113515998B (zh) 一种视频数据处理方法、设备以及可读存储介质
CN112101304B (zh) 数据处理方法、装置、存储介质及设备
CN110457974B (zh) 图像叠加方法、装置、电子设备及可读存储介质
CN113344794B (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN114550070A (zh) 视频片段的识别方法、装置、设备以及存储介质
CN114449346B (zh) 视频处理方法、装置、设备以及存储介质
CN116665083A (zh) 一种视频分类方法、装置、电子设备及存储介质
US20170278130A1 (en) Method and Electronic Device for Matching Advertisement Data
CN114422698B (zh) 视频生成方法、装置、设备及存储介质
CN117014693A (zh) 视频处理方法、装置、设备以及存储介质
CN106407268A (zh) 一种基于覆盖率最优化法的内容检索方法及系统
CN113762040B (zh) 视频识别方法、装置、存储介质及计算机设备
CN114390368A (zh) 直播视频数据的处理方法及装置、设备、可读介质
US20230056531A1 (en) Methods and Systems for Utilizing Live Embedded Tracking Data within a Live Sports Video Stream
CN113808157B (zh) 图像处理方法、装置、及计算机设备
Hasper et al. Remote execution vs. simplification for mobile real-time computer vision
CN114501060A (zh) 直播背景的切换方法和装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40071912

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant