CN112714336A - 视频分割方法和装置、电子设备、计算机可读存储介质 - Google Patents

视频分割方法和装置、电子设备、计算机可读存储介质 Download PDF

Info

Publication number
CN112714336A
CN112714336A CN202011383450.5A CN202011383450A CN112714336A CN 112714336 A CN112714336 A CN 112714336A CN 202011383450 A CN202011383450 A CN 202011383450A CN 112714336 A CN112714336 A CN 112714336A
Authority
CN
China
Prior art keywords
video
segmentation
scene
image sequence
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011383450.5A
Other languages
English (en)
Other versions
CN112714336B (zh
Inventor
邹鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wanxing Technology Group Co ltd
Original Assignee
Wanxing Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wanxing Technology Group Co ltd filed Critical Wanxing Technology Group Co ltd
Priority to CN202011383450.5A priority Critical patent/CN112714336B/zh
Publication of CN112714336A publication Critical patent/CN112714336A/zh
Application granted granted Critical
Publication of CN112714336B publication Critical patent/CN112714336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234309Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4 or from Quicktime to Realvideo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开实施例提供的视频分割方法和装置、电子设备、计算机可读存储介质,属于视频处理技术领域。视频分割方法,包括:提取待分割视频中的关键帧信息;根据所述关键帧信息将所述待分割视频进行初步分割,得到初始视频段;对所述初始视频段中的关键帧信息进行解码,得到解码后的初始图像序列;对所述初始图像序列进行二次分割,得到当前图像序列,将所述当前图像序列融合场景,得到场景片段;对所述场景片段进行精确分割,提取压缩信息。通过本公开实施例,可以提高视频分割的精度和速度。

Description

视频分割方法和装置、电子设备、计算机可读存储介质
技术领域
本公开实施例涉及视频处理技术领域,尤其涉及视频分割方法和装置、电子设备、计算机可读存储介质。
背景技术
通常用户拍摄的视频中,包括多个场景的视频,在进行视频编辑时,通过人工进行分场景剪切,该人工剪切场景的方式效率低、出错率高;随着图像处理技术的发展,通常采用图像场景分割相关算法,进行自动分析与分割场景。然而,当前的技术方案会对导入的视频进行解码,不仅占用太多设备运算资源,而且时间成本也很高。
发明内容
本公开实施例的主要目的在于提出一种视频分割方法和装置、计算机可读存储介质,可以实现边玩边下载游戏,提高视频分割的精度。
为实现上述目的,本公开实施例的第一方面提出了一种视频分割方法,包括:
提取待分割视频中的关键帧信息;
根据所述关键帧信息将所述待分割视频进行初步分割,得到初始视频段;
对所述初始视频段中的关键帧信息进行解码,得到解码后的初始图像序列;
对所述初始图像序列进行二次分割,得到当前图像序列,将所述当前图像序列融合场景,得到场景片段;
对所述场景片段进行精确分割,提取压缩信息。
在一些实施例中,该方法还包括:
根据所述压缩信息,确定是否有新场景片段。
在一些实施例中,该方法还包括:
若确定有新场景片段,则继续进行所述精确分割。
在一些实施例中,所述压缩信息包括残差,所述方法还包括:
比较所述残差与预设阈值之间的大小关系,
根据所述残差与预设阈值之间的大小关系确定是否有新场景片段。
在一些实施例中,所述比较所述残差与预设阈值之间的大小关系包括:所述残差大于所述预设阈值,
所述根据所述残差与预设阈值之间的大小关系确定是否有新场景片段,包括:
若所述残差大于所述预设阈值,则确定有新场景片段。
在一些实施例中,所述压缩信息还包括运动矢量,所述方法还包括:
叠加所述运动矢量,形成视频帧的运动光流场。
在一些实施例中,该方法还包括:
根据所述运动光流场确定是否继续进行所述精确分割。
为实现上述目的,本公开实施例的第二方面提出了一种视频分割装置,包括:
提取模块,用于提取待分割视频中的关键帧信息;
初步分割模块,用于根据所述关键帧信息将所述待分割视频进行初步分割,得到初始视频段;
解码模块,用于对所述初始视频段中的关键帧信息进行解码,得到解码后的初始图像序列;
二次分割模块,用于对所述初始图像序列进行二次分割,得到当前图像序列,将所述当前图像序列融合场景,得到场景片段;
精确分割模块,用于对所述场景片段进行精确分割,提取压缩信息。
为实现上述目的,本公开实施例的第三方面提出了一种电子设备,包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
所述程序被存储在存储器中,处理器执行所述至少一个程序以实现本公开实施例如上述第一方面所述的方法。
为实现上述目的,本公开实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行:
上述第一方面所述的方法。
本公开实施例提出的视频分割方法和装置、计算机可读存储介质,通过提取待分割视频中的关键帧信息,根据所述关键帧信息将所述待分割视频进行初步分割,得到初始视频段;对所述初始视频段中的关键帧信息进行解码,得到解码后的初始图像序列,对所述初始图像序列进行二次分割,得到当前图像序列,将所述当前图像序列融合场景,得到场景片段,对所述场景片段进行精确分割,提取压缩信息。通过本公开实施例,可以根据实际需要,执行精确分割的次数,从而提高视频分割的精度和速度。
附图说明
图1是本公开实施例提供的视频分割方法的流程图。
图2是本公开实施例提供的关键帧的示意图。
图3是本公开又一实施例提供的视频分割方法的部分流程图。
图4是本公开又一实施例提供的视频分割方法的部分流程图。
图5是本公开实施例的视频分割方法应用于一具体应用场景的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
首先,对本申请中涉及的若干名词进行解析:
人工智能(Artificial Intelligence,AI):研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。也是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。
视频分辨率:用于度量图像内数据量多少的一个参数,通常表示成ppi(每英寸像素Pixel per inch),包括4K、8K视频。
场景分割:包括语义分割,是指将图像分割成几组具有某种特定语义含义的像素区域,并识别出每个区域的类别,最终获得一幅具有像素语义标注的图像,使图像更容易理解和分析。可以应用于深度网络的场景分割,例如全卷积网络、Deeplab、反卷积网络及SegNet、对抗网络等。
运动矢量(Motion Vector,MV):帧间编码中表示当前编码块与其参考图像中的最佳匹配块之间的相对位移。每个划分的块都有相应的运动信息需要传送到解码端。如果对每个块的MV进行独立编码和传输,特别是划分成小尺寸的块,需要消耗相当多的比特。为了降低用于编码运动信息的比特数,H.264/AVC利用相邻宏块之间的空间相关性,根据相邻已编码块的运动信息对当前待编码块的运动信息进行预测,然后对预测差进行编码。这样可以有效地降低表示运动信息的比特数。基于此,在对当前宏块的MV编码过程中,H.264/AVC首先使用相邻已编码块的MV预测当前宏块的MV,然后对MV的预测值(记为MVP(MotionVector Prediction))与MV的真正估值之间的差值(记为MVD(Motion VectorDifference))进行编码,从而有效降低MV的编码比特数。
帧内编码图像帧(Intra-coded picture,I帧):内部编码帧,也称为关键帧,I帧是一个完整的画面,解码时只需要本帧数据就可以完成(因为包含完整画面)。I帧又称为内部画面(intra picture),I帧通常是每个GOP(MPEG所使用的一种视频压缩技术)的第一个帧,经过适度地压缩,作为随机访问的参考点,可以当成图象。在MPEG编码的过程中,部分视频帧序列压缩成为I帧;部分压缩成P帧;还有部分压缩成B帧。I帧法是帧内压缩法,也称为“关键帧”压缩法。I帧法是基于离散余弦变换DCT(Discrete Cosine Transform)的压缩技术,这种算法与JPEG压缩算法类似。采用I帧压缩可达到1/6的压缩比而无明显的压缩痕迹。P帧是前向预测帧(前向参考帧),B帧是双向内插帧(双向参考帧)。简单地讲,I帧是一个完整的画面,而P帧和B帧记录的是相对于I帧的变化。如果没有I帧,P帧和B帧就无法解码。在H.264压缩标准中I帧、P帧、B帧用于表示传输的视频画面。I帧不需要考虑运动矢量;I帧所占数据的信息量比较大;I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);I帧描述了图像背景和运动主体的详情;I帧不需要参考其他画面而生成。
前向预测编码图像帧(Predictive-coded Picture,P帧)。P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。(也就是差别帧,P帧没有完整画面数据,只有与前一帧的画面差别的数据)。P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。
双向预测编码图像帧(Bidirectionally predicted picture,B帧):B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别,换言之,要解码B帧,不仅要取得之前的缓存画面,还要解码之后的画面,通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高。
IDR:在H264中图像以序列为单位进行组织,一个序列是一段图像编码后的数据流。一个序列的第一个图像叫做IDR图像(立即刷新图像),IDR图像都是I帧图像。H.264引入IDR图像是为了解码的重同步,当解码器解码到IDR图像时,立即将参考帧队列清空,将已解码的数据全部输出或抛弃,重新查找参数集,开始一个新的序列;这样,如果前一个序列出现重大错误,在这里可以获得重新同步的机会;IDR图像之后的图像永远不会使用IDR之前的图像的数据来解码;一个序列就是一段内容差异不太大的图像编码后生成的一串数据流;当运动变化比较少时,一个序列可以很长,因为运动变化少就代表图像画面的内容变动很小,所以就可以编一个I帧,然后一直P帧、B帧了;当运动变化多时,可能一个序列就比较短了,比如就包含一个I帧和3、4个P帧。
显示时间戳(Presentation Time Stamp,PTS):用于指导播放端的行为,用来告诉播放器该在什么时候显示这一帧的数据;在视频采集的时候是录制一帧就编码一帧发送一帧的,在编码的时候会生成PTS。通常的场景中,编解码器编码一个I帧,然后向后跳过几个帧,用编码I帧作为基准帧对一个未来P帧进行编码,然后跳回到I帧之后的下一个帧。编码的I帧和P帧之间的帧被编码为B帧。之后,编码器会再次跳过几个帧,使用第一个P帧作为基准帧编码另外一个P帧,然后再次跳回,用B帧填充显示序列中的空隙。这个过程不断继续,每12到15个P帧和B帧内插入一个新的I帧。P帧由前一个I帧或P帧图像来预测,而B帧由前后的两个P帧或一个I帧和一个P帧来预测,因而编解码和帧的显示顺序有所不同。
通常用户拍摄的视频中,包括多个场景的视频,在进行视频编辑时,通过人工进行分场景剪切,该人工剪切场景的方式效率低、出错率高;随着图像处理技术的发展,通常采用图像场景分割相关算法,进行自动分析与分割场景。
当前的场景分割技术,主要分为三类:一、基于传统的图像处理方法,提取场景区分特征值,通过特征值以及一定的判断阀值进行场景分割,例如基于颜色相似度场景分割;二、基于神经网络的特征学习的方法;三、基于当前人工智能(Artificial Intelligence,AI)技术,进行各种场景学习,形成场景特征模型,对后续输入视频进行自动场景分割。
然而,当前的技术方案会对导入的视频进行解码,然后对解码后的视频图像进行图像分析处理,这种处理方式虽然能够提供精确度比较高的场景分割,但是,由于当前4K视频/8K视频逐渐普及的情况下,视频解码本身可能会导致设备吃力,后期还需要进行图像特征提取与分类,不仅占用太多设备运算资源,而且时间成本也很高。
基于此,本公开实施例提供一种可以提高视频分割精度和速度的技术方案,能够降低时间成本。
本公开实施例提供视频分割方法和装置、电子设备、计算机可读存储介质,具体通过如下实施例进行说明,首先描述本公开实施例中的视频分割方法。
本公开实施例提供的视频分割方法,可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现视频分割方法的应用等,但并不局限于以上形式。
图1是本公开实施例提供的视频分割方法的一个可选的流程图,图1中的方法包括步骤101至步骤105。
步骤101、提取待分割视频中的关键帧信息;
步骤102、根据关键帧信息将待分割视频进行初步分割,得到初始视频段;
步骤103、对初始视频段中的关键帧信息进行解码,得到解码后的初始图像序列;
步骤104、对初始图像序列进行二次分割,得到当前图像序列,将当前图像序列融合场景,得到场景片段;
步骤105、对场景片段进行精确分割,提取压缩信息。
在一些实施例中,待分割视频可以是H.264/H.265数据,也可为其他类型的视频数据。关键帧信息可为IDR/I帧;请参图2所示,其中F1、F2、F3是待分割视频中的关键帧。
在一些实施例的步骤102中,初始视频段可以是video-1、video-2、video-3、……、video-N。
在一些实施例的步骤103中,初始图像序列可以是I-1、I-2、I-3、……、I-n。
在一些实施例的步骤104中,当前图像序列可以是(I-1,I-2)、I-3、(I-4,I-5,I-6)、……、I-n。
本公开实施例提供的视频分割方法,首先根据提取的关键帧信息将取待分割视频进行初步分割,然后对初步分割得到的对初始视频段中的关键帧信息进行解码,再对解码后的初始图像序列进行二次分割,接着将二次分割得到的当前图像序列融合场景,得到场景片段,再对场景片段进行精确分割,从而不用过多处理解码后的数据,只需要对解码后的初始图像序列进行二次分割,以实现快速场景分割;且由于待分割视频本身携带大量信息,因此本公开实施例中通过对待分割视频依次进行初步分割、二次分割和精确分割,可以充分利用待分割视频本身携带的大量信息,减少视频解码带来的不必要硬件资源占用,加快视频场景分割,提升用户进行视频场景分割体验。
请参阅图3,在一些实施例中,视频分割方法还包括:
步骤301、根据压缩信息,确定是否有新场景片段。具体地,若残差大于预设阈值,则确定有新场景片段。若残差小于或等于预设阈值,则确定没有新场景片段。在一些实施例中,视频分割方法还包括:
步骤302、若确定有新场景片段,则继续进行精确分割。
在一些实施例中,压缩信息包括残差,视频分割方法还包括:
比较残差与预设阈值之间的大小关系,
根据残差与预设阈值之间的大小关系确定是否有新场景片段。
在一些实施例中,比较残差与预设阈值之间的大小关系包括:残差大于预设阈值,根据残差与预设阈值之间的大小关系确定是否有新场景片段,包括:
若残差大于预设阈值,则确定有新场景片段。
具体地,若残差大于预设阈值,则确定有新场景片段,从而继续进行精确分割;例如,分割出更细的视频场景片段景I-1-1、(I-1-2,I-2-1)、I-2-2等等。
在一些实施例的步骤105中,压缩信息还包括运动矢量;本公开实施例对压缩信息不做限定。若压缩信息包括运动矢量,请参阅图4,视频分割方法还包括:
步骤401、叠加运动矢量,形成视频帧的运动光流场。
在一些实施例中,视频分割方法还包括:
步骤402、根据运动光流场确定是否继续进行精确分割。
在一些实施例中,视频分割方法还包括:
步骤403、若判断继续进行精确分割,则对场景片段继续进行精确分割,提取压缩信息,组成新的视频场景片段,例如,将(I-1,I-2)组成新的视频场景片段。
本公开实施例可以根据残差的变化情况,并与预设阈值进行比对,根据残差与预设阈值之间的大小关系,确定是否有新场景片段,若确定有新场景片段,则继续进行精确分割;例如,分割出更细的视频场景片段景I-1-1、(I-1-2,I-2-1)、I-2-2等。
本公开实施例还可以结合块运动矢量,通过叠加运动矢量,形成视频帧的运动光流场,结合光流场的变化剧烈程度,来进行约束场景细化分割。
本公开实施例提供的视频分割方法,通过提取待分割视频中的关键帧信息,根据关键帧信息将待分割视频进行初步分割,得到初始视频段,并对初始视频段中的关键帧信息进行解码,得到解码后的初始图像序列,再对初始图像序列进行二次分割,得到当前图像序列,将当前图像序列融合场景,得到场景片段,然后对场景片段进行精确分割,提取压缩信息,从而进行快速场景分割,不用过多处理解码后的数据,提高场景分割速度和精度,提升用户使用体验。
本公开实施例提供的技术方案,将待分割视频提供的压缩信息,进行快速场景分割,不用过多处理解码后的数据,提高场景分割速度,提升用户使用体验。
本公开实施例可以充分利用待分割视频本身携带的大量信息,减少视频解码带来的不必要硬件资源占用,加快视频场景分割,提升用户进行视频场景分割体验。
图5是本公开实施例提供的视频分割方法的一个可选的应用场景中的流程图,图5所示的视频分割方法包括以下步骤:
获取待分割视频;待分割视频可以是H.264/H.265数据;
提取待分割视频中的关键帧信息;可以提取IDR/I帧;请参图2所示;
对初始视频段中的关键帧信息进行解码,分割为初始视频片段;初始视频段可以是video-1、video-2、video-3、……、video-N;
判断是否进行精确分割;
若进行精确分割,则对初始视频段中的关键帧信息进行解码,得到解码后的初始图像序列;其中,初始图像序列可以是I-1、I-2、I-3、……、I-n;
对初始图像序列进行二次分割得到当前图像序列,将当前图像序列融合场景,得到场景片段;其中,当前图像序列可以是(I-1,I-2)、I-3、(I-4,I-5,I-6)、……、I-n;
若不需要进行二次分割,则将初始视频段应用于产品应用;
判断是否继续进行精确分割;
若判断继续进行精确分割,则对场景片段进行精确分割,提取压缩信息;例如,将(I-1,I-2)组成新的视频场景片段;在一些实施例中,压缩信息包括残差;在一些实施例中,压缩信息还包括运动矢量;
根据残差的变化,确定是否有新场景片段,若确定有新场景片段,则继续进行精确分割,分割出更细的视频场景片段;例如,分割出更细的视频场景片段,例如I-1-1、(I-1-2,I-2-1)、I-2-2等等。
本公开实施例提供的技术方案,可以根据残差的变化情况,与预设阈值进行比对,根据残差与预设阈值之间的大小关系,进行场景细化分割;也可以结合块运动矢量,通过叠加运动矢量,形成视频帧的运动光流场,结合光流场的变化剧烈程度,来进行约束场景细化分割。
本公开实施例提供的技术方案,将待分割视频提供的压缩信息,进行快速场景分割,不用过多处理解码后的数据,提高场景分割速度,提升用户使用体验。
本公开实施例提供一种视频分割方法,可以充分利用待分割视频本身携带的大量信息,减少视频解码带来的不必要硬件资源占用,加快视频场景分割,提升用户进行视频场景分割体验。
本公开实施例还提供一种视频分割装置,可以实现上述视频分割方法,该装置包括:
提取模块,用于提取待分割视频中的关键帧信息;
初步分割模块,用于根据关键帧信息将待分割视频进行初步分割,得到初始视频段;
解码模块,用于对初始视频段中的关键帧信息进行解码,得到解码后的初始图像序列;
二次分割模块,用于对初始图像序列进行二次分割,得到当前图像序列,将当前图像序列融合场景,得到场景片段;
精确分割模块,用于对场景片段进行精确分割,提取压缩信息。
本公开实施例还提供又一实施例的视频分割装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述计算机程序时实现以上描述的图1中的方法步骤101至步骤105、图3中的方法步骤301至步骤302、图4中的方法步骤401至步骤403、图5中的方法步骤。
本公开实施例还提供了一种电子设备,包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
所述程序被存储在存储器中,处理器执行所述至少一个程序以实现本公开实施例上述视频分割方法。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端。
本公开实施例还提供了一种计算机可读存储介质,所述计算机可执行指令用于执行上述视频分割方法。
本公开实施例提出的视频分割方法、视频分割装置、电子设备、计算机可读存储介质,通过提取待分割视频中的关键帧信息,根据关键帧信息将待分割视频进行初步分割,得到初始视频段,并对初始视频段中的关键帧信息进行解码,得到解码后的初始图像序列,再对初始图像序列进行二次分割,得到当前图像序列,将当前图像序列融合场景,得到场景片段,然后对场景片段进行精确分割,提取压缩信息,从而进行快速场景分割,不用过多处理解码后的数据,提高场景分割速度和精度,提升用户使用体验。本公开实施例还可以结合块运动矢量,通过叠加运动矢量,形成视频帧的运动光流场,结合光流场的变化剧烈程度,来进行约束场景细化分割。本公开实施例可以充分利用待分割视频本身携带的大量信息,减少视频解码带来的不必要硬件资源占用,加快视频场景分割,提升用户进行视频场景分割体验。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1、3-5中示出的视频分割方法并不构成对本公开实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本公开实施例的优选实施例,并非因此局限本公开实施例的权利范围。本领域技术人员不脱离本公开实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本公开实施例的权利范围之内。

Claims (10)

1.一种视频分割方法,其特征在于,包括:
提取待分割视频中的关键帧信息;
根据所述关键帧信息将所述待分割视频进行初步分割,得到初始视频段;
对所述初始视频段中的关键帧信息进行解码,得到解码后的初始图像序列;
对所述初始图像序列进行二次分割,得到当前图像序列,将所述当前图像序列融合场景,得到场景片段;
对所述场景片段进行精确分割,提取压缩信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据所述压缩信息,确定是否有新场景片段。
3.根据权利要求2所述的方法,其特征在于,还包括:
若确定有新场景片段,则继续进行所述精确分割。
4.根据权利要求2所述的方法,其特征在于,所述压缩信息包括残差,所述方法还包括:
比较所述残差与预设阈值之间的大小关系,
根据所述残差与预设阈值之间的大小关系确定是否有新场景片段。
5.根据权利要求4所述的方法,其特征在于,所述比较所述残差与预设阈值之间的大小关系包括:所述残差大于所述预设阈值,
所述根据所述残差与预设阈值之间的大小关系确定是否有新场景片段,包括:
若所述残差大于所述预设阈值,则确定有新场景片段。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述压缩信息包括运动矢量,所述方法还包括:
叠加所述运动矢量,形成视频帧的运动光流场。
7.根据权利要求6所述的方法,其特征在于,还包括:
根据所述运动光流场确定是否继续进行所述精确分割。
8.一种视频分割装置,其特征在于,包括:
提取模块,用于提取待分割视频中的关键帧信息;
初步分割模块,用于根据所述关键帧信息将所述待分割视频进行初步分割,得到初始视频段;
解码模块,用于对所述初始视频段中的关键帧信息进行解码,得到解码后的初始图像序列;
二次分割模块,用于对所述初始图像序列进行二次分割,得到当前图像序列,将所述当前图像序列融合场景,得到场景片段;
精确分割模块,用于对所述场景片段进行精确分割,提取压缩信息。
9.一种电子设备,其特征在于,包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
所述程序被存储在存储器中,处理器执行所述至少一个程序以实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行:
如权利要求1至7任一项所述的方法。
CN202011383450.5A 2020-12-01 2020-12-01 视频分割方法和装置、电子设备、计算机可读存储介质 Active CN112714336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011383450.5A CN112714336B (zh) 2020-12-01 2020-12-01 视频分割方法和装置、电子设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011383450.5A CN112714336B (zh) 2020-12-01 2020-12-01 视频分割方法和装置、电子设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112714336A true CN112714336A (zh) 2021-04-27
CN112714336B CN112714336B (zh) 2022-12-02

Family

ID=75542190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011383450.5A Active CN112714336B (zh) 2020-12-01 2020-12-01 视频分割方法和装置、电子设备、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112714336B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113453070A (zh) * 2021-06-18 2021-09-28 北京灵汐科技有限公司 视频关键帧压缩方法及装置、存储介质和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070147504A1 (en) * 2005-12-23 2007-06-28 Qualcomm Incorporated Selecting key frames from video frames
CN104394422A (zh) * 2014-11-12 2015-03-04 华为软件技术有限公司 一种视频分割点获取方法及装置
CN104869403A (zh) * 2015-05-18 2015-08-26 中国传媒大学 一种基于x264压缩视频的镜头分割方法
CN107590420A (zh) * 2016-07-07 2018-01-16 北京新岸线网络技术有限公司 视频分析中的场景关键帧提取方法及装置
CN110232357A (zh) * 2019-06-17 2019-09-13 深圳航天科技创新研究院 一种视频镜头分割方法及系统
CN110766711A (zh) * 2019-09-16 2020-02-07 天脉聚源(杭州)传媒科技有限公司 一种视频镜头分割方法、系统、装置和存储介质
CN111310594A (zh) * 2020-01-20 2020-06-19 浙江大学 一种基于残差纠正的视频语义分割方法
CN111985456A (zh) * 2020-09-10 2020-11-24 上海交通大学 视频实时识别分割及检测架构

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070147504A1 (en) * 2005-12-23 2007-06-28 Qualcomm Incorporated Selecting key frames from video frames
CN104394422A (zh) * 2014-11-12 2015-03-04 华为软件技术有限公司 一种视频分割点获取方法及装置
CN104869403A (zh) * 2015-05-18 2015-08-26 中国传媒大学 一种基于x264压缩视频的镜头分割方法
CN107590420A (zh) * 2016-07-07 2018-01-16 北京新岸线网络技术有限公司 视频分析中的场景关键帧提取方法及装置
CN110232357A (zh) * 2019-06-17 2019-09-13 深圳航天科技创新研究院 一种视频镜头分割方法及系统
CN110766711A (zh) * 2019-09-16 2020-02-07 天脉聚源(杭州)传媒科技有限公司 一种视频镜头分割方法、系统、装置和存储介质
CN111310594A (zh) * 2020-01-20 2020-06-19 浙江大学 一种基于残差纠正的视频语义分割方法
CN111985456A (zh) * 2020-09-10 2020-11-24 上海交通大学 视频实时识别分割及检测架构

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾庆萍: "视频镜头分割技术与基于内容的视频检索系统研究", 《优秀硕士论文》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113453070A (zh) * 2021-06-18 2021-09-28 北京灵汐科技有限公司 视频关键帧压缩方法及装置、存储介质和电子设备
CN113453070B (zh) * 2021-06-18 2023-01-03 北京灵汐科技有限公司 视频关键帧压缩方法及装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN112714336B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN109862391B (zh) 视频分类方法、介质、装置和计算设备
US20190261016A1 (en) Video compression through motion warping using learning-based motion segmentation
JP5116788B2 (ja) 動画像検索装置
US20220232222A1 (en) Video data processing method and apparatus, and storage medium
US8693547B2 (en) Apparatus and method for coding using motion vector segmentation
EP1022667A2 (en) Methods of feature extraction of video sequences
JP2000217117A (ja) 圧縮形式でのデジタル画像表現ビデオデ―タの処理方法
CN112913233B (zh) 基于hmvp构造预测候选的方法和设备
EP3175621B1 (en) Video-segment identification systems and methods
JP2000217121A (ja) ディジタル画像表示のビデオデ―タを圧縮した形で処理してシ―ン変化を検出する方法
CN111263243B (zh) 视频编码方法、装置、计算机可读介质及电子设备
US7733379B2 (en) Composite still-image creating device capable of creating a still image from moving images
KR101087194B1 (ko) 동영상 인코딩 시스템 및 방법
CN116233445B (zh) 视频的编解码处理方法、装置、计算机设备和存储介质
TW200305146A (en) Editing of encoded A/V sequences
CN112714336B (zh) 视频分割方法和装置、电子设备、计算机可读存储介质
KR101163774B1 (ko) 비디오 압축용 장치 및 프로세스
US20160127679A1 (en) Computed information for metadata extraction applied to transcoding
US10701365B2 (en) Systems and methods for scene categorization
CN117459733A (zh) 视频编码方法、装置、设备、可读存储介质及程序产品
US20070183673A1 (en) Video processing method and corresponding encoding device
CN111542858A (zh) 动态图像解析装置、动态图像解析系统、动态图像解析方法、以及程序
KR102072576B1 (ko) 데이터 인코딩 및 디코딩 장치와 방법
CN113115075A (zh) 一种视频画质增强的方法、装置、设备以及存储介质
JP2000194727A (ja) 動画像検索装置、動画像検索方法、及び動画像検索プログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant