CN108229363A - 关键帧调度方法和装置、电子设备、程序和介质 - Google Patents

关键帧调度方法和装置、电子设备、程序和介质 Download PDF

Info

Publication number
CN108229363A
CN108229363A CN201711455838.XA CN201711455838A CN108229363A CN 108229363 A CN108229363 A CN 108229363A CN 201711455838 A CN201711455838 A CN 201711455838A CN 108229363 A CN108229363 A CN 108229363A
Authority
CN
China
Prior art keywords
key frame
frame
present
low
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711455838.XA
Other languages
English (en)
Inventor
石建萍
李玉乐
林达华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201711455838.XA priority Critical patent/CN108229363A/zh
Publication of CN108229363A publication Critical patent/CN108229363A/zh
Priority to PCT/CN2018/123445 priority patent/WO2019128979A1/zh
Priority to MYPI2020000416A priority patent/MY182985A/en
Priority to US16/633,341 priority patent/US11164004B2/en
Priority to SG11202000578UA priority patent/SG11202000578UA/en
Priority to KR1020207005376A priority patent/KR102305023B1/ko
Priority to EP18897706.0A priority patent/EP3644221A4/en
Priority to JP2020519444A priority patent/JP6932254B2/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种关键帧调度方法和装置、电子设备、程序和介质,其中,方法包括:通过神经网络的第一网络层对当前帧进行特征提取,获得当前帧的低层特征;根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征,获取当前帧被调度为关键帧的调度概率值;根据当前帧的调度概率值确定当前帧是否被调度为关键帧;若确定当前帧被调度为关键帧,通过神经网络的第二网络层对当前关键帧的低层特征进行特征提取,获得当前关键帧的高层特征;其中,神经网络中,第一网络层的网络深度浅于第二网络层的网络深度。本发明实施例利用了视频中不同帧之间的低层特征的变化,从而可以快速、准确、自适应的进行关键帧调度,提高了关键帧的调度效率。

Description

关键帧调度方法和装置、电子设备、程序和介质
技术领域
本发明涉及计算机视觉技术,尤其是一种关键帧调度方法和装置、电子设备、程序和介质。
背景技术
视频语义分割是计算机视觉和视频语义理解任务中的重要问题。视频语义分割模型在很多领域,例如自动驾驶,视频监控,以及视频目标分析等领域,有重要的应用。
视频语义分割速度是视频语义分割任务中最为重要的一方面。由于视频中相邻帧之间的信息冗余,为了减少计算量,目前的快速视频语义分割方法,通常会通过关键帧调度算法稀疏的选择视频中的某些帧作为关键帧,在关键帧上运行代价高的网络进行语义分割,后续帧则使用代价小的网络融合关键帧的语义分割结果。
发明内容
本发明实施例供一种关键帧调度的技术方案
根据本发明实施例的一个方面,提供的一种关键帧调度方法,包括:
通过神经网络的第一网络层对当前帧进行特征提取,获得当前帧的低层特征;
根据所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征,获取所述当前帧被调度为关键帧的调度概率值;其中,所述前一关键帧的低层特征由所述第一网络层对所述前一关键帧进行特征提取得到;
根据所述当前帧的调度概率值确定所述当前帧是否被调度为关键帧;
若确定所述当前帧被调度为关键帧,通过所述神经网络的第二网络层对当前关键帧的低层特征进行特征提取,获得所述当前关键帧的高层特征;其中,所述神经网络中,所述第一网络层的网络深度浅于所述第二网络层的网络深度。
可选地,在本发明上述任一方法实施例中,还包括:
确定初始关键帧;
通过所述第一网络层对所述初始关键帧进行特征提取,获得所述初始关键帧的低层特征并缓存;
通过所述第二网络层对所述初始关键帧的低层特征进行特征提取,获得所述初始关键帧的高层特征。
可选地,在本发明上述任一方法实施例中,还包括:
对所述初始关键帧进行语义分割,输出所述初始关键帧的语义标签。
可选地,在本发明上述任一方法实施例中,若确定所述当前帧被调度为关键帧,还包括:
缓存所述当前关键帧的低层特征。
可选地,在本发明上述任一方法实施例中,根据所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征,获取所述当前帧被调度为关键帧的调度概率值,包括:
将所述前一关键帧的低层特征和所述当前帧的低层特征进行拼接,得到拼接特征;
通过关键帧调度网络,基于所述拼接特征获取所述当前帧是否应该被调度为关键帧的调度概率值。
可选地,在本发明上述任一方法实施例中,还包括:
对所述当前关键帧进行语义分割,输出所述关键帧的语义标签。
根据本发明实施例的另一个方面,提供的一种关键帧调度装置,包括:
第一特征提取单元,包括神经网络的第一网络层,用于对当前帧进行特征提取,获得
前帧的低层特征;
调度单元,用于根据所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征,获取所述当前帧被调度为关键帧的调度概率值;其中,所述前一关键帧的低层特征由所述第一网络层对所述前一关键帧进行特征提取得到;
确定单元,用于根据所述当前帧的调度概率值确定所述当前帧是否被调度为关键帧;
第二特征提取单元,包括所述神经网络的第二网络层,用于根据所述确定单元的确定结果,若确定所述当前帧被调度为关键帧,对当前关键帧的低层特征进行特征提取,获得所述当前关键帧的高层特征;其中,所述神经网络中,所述第一网络层的网络深度浅于所述第二网络层的网络深度。
可选地,在本发明上述任一装置实施例中,所述前一关键帧包括预先确定的初始关键帧;
所述装置还包括:
缓存单元,用于缓存关键帧的低层特征和高层特征,所述关键帧包括所述初始关键帧。
可选地,在本发明上述任一装置实施例中,所述第一特征提取单元,还用于根据所述确定单元的确定结果,在缓存单元中缓存所述当前关键帧的低层特征。
可选地,在本发明上述任一装置实施例中,所述调度单元包括:
拼接子单元,用于将所述前一关键帧的低层特征和所述当前帧的低层特征进行拼接,得到拼接特征;
关键帧调度网络,用于基于所述拼接特征获取所述当前帧是否应该被调度为关键帧的调度概率值。
可选地,在本发明上述任一装置实施例中,还包括:
语义分割单元,用于对所述关键帧进行语义分割,输出所述关键帧的语义标签,所述关键帧包括:初始关键帧、所述前一关键帧或者所述当前关键帧。
根据本发明实施例的又一个方面,提供的一种电子设备,包括:本发明任一实施例所述的关键帧调度装置。
根据本发明实施例的再一个方面,提供的一种电子设备,包括:
处理器和本发明任一实施例所述的关键帧调度装置;
在处理器运行所述关键帧调度装置时,本发明任一实施例所述的关键帧调度装置的单元被运行。
根据本发明实施例的再一个方面,提供的一种电子设备,包括:处理器和存储器;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本发明任一实施例所述的关键帧调度方法中各步骤的操作。
根据本发明实施例的再一个方面,提供的一种计算机程序,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现本发明任一实施例所述的车辆驾驶模拟方法中各步骤的指令。
根据本发明实施例的再一个方面,提供的一种计算机可读介质,用于存储计算机可读取的指令,所述指令被执行时实现本发明任一实施例所述的关键帧调度方法中各步骤的操作。
基于本发明上述实施例提供的关键帧调度方法和装置、电子设备、程序和介质,对当前帧进行特征提取,获得当前帧的低层特征,根据相邻的前一关键帧的低层特征和当前帧的低层特征,获取当前帧被调度为关键帧的调度概率值;根据当前帧的调度概率值确定当前帧是否被调度为关键帧;若确定当前帧被调度为关键帧,对当前关键帧的低层特征进行特征提取,获得当前关键帧的高层特征。本发明实施例可以根据前一关键帧的低层特征和当前帧的低层特征来获取当前帧相对于前一关键帧低层特征的变化,利用了视频中不同帧之间的低层特征的变化,从而可以快速、准确、自适应的进行关键帧调度,提高了关键帧的调度效率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明关键帧调度方法一个实施例的流程图。
图2为本发明关键帧调度方法另一个实施例的流程图。
图3为本发明关键帧调度装置一个实施例的结构示意图。
图4为本发明关键帧调度装置另一个实施例的结构示意图。
图5为本发明电子设备一个应用实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
在实现本发明的过程中,本发明人通过研究发现,目前的关键帧调度算法采用固定间隔调度算法,即每隔若干帧选择一个帧为关键帧,没有考虑视频中不同帧序列的变化,造成调度低效。
图1为本发明关键帧调度方法一个实施例的流程图。如图1所示,该实施例的关键帧调度方法包括:
102,通过神经网络的第一网络层对当前帧进行特征提取,获得当前帧的低层特征。
104,根据上述当前帧相邻的前一关键帧的低层特征和当前帧的低层特征,获取当前帧被调度为关键帧的调度概率值。
其中,前一关键帧的低层特征由上述第一网络层对该前一关键帧进行特征提取得到。
106,根据当前帧的调度概率值确定当前帧是否被调度为关键帧。
在本发明各实施例的一个可选示例中,可以根据当前帧的调度概率值是否大于预设阈值,例如80%,确定当前帧是否被调度为关键帧。如果当前帧的调度概率值大于该预设阈值,确定当前帧被调度为关键帧,即:认为该当前帧为关键帧。
108,若确定当前帧被调度为关键帧,将当前帧称为当前关键帧,通过上述神经网络的第二网络层对当前关键帧的低层特征进行特征提取,获得当前关键帧的高层特征。
其中,神经网络中,上述第一网络层的网络深度浅于上述第二网络层的网络深度。
本发明各实施例中,神经网络包括两个以上网络深度不同的网络层,神经网络包括的网络层中,用于进行特征提取的网络层可以称为特征层,神经网络接收到一个帧后,通过第一个特征层对输入的帧进行特征提取,并将其输入第二个特征层,从第二个特征层起,每个特征层依次对输入的特征进行特征提取,将提取到的特征输入至下一个网络层进行特征提取,直至得到用于进行语义分割的特征。神经网络中各特征层的网络深度依据特征提取的顺序由浅至深,依据网络深度,可以将神经网络中用于进行特征提取的特征层划分为低层特征层和高层特征层两部分,即上述第一网络层和第二网络层。其中,低层特征层中的各特征层依次进行特征提取最终输出的特征称为低层特征,高层特征层中的各特征层依次进行特征提取最终输出的特征称为高层特征。相对于同一神经网络中网络深度较浅的特征层,网络深度较深的特征层视野域较大,较多的关注空间结构信息,提取到的特征用于语义分割时,使得语义分割更准确,然而,网络深度越深,计算难度和复杂度越高。实际应用中,可以根据预设标准,例如计算量,将神经网络中的特征层划分为低层特征层和高层特征层,该预设标准可以根据实际需求调整。例如,对于一个包括101个依次连接的特征层的神经网络,可以根据预先设定,将该100个特征层中的第1个至第30个这前30个(也可以是其他数量)的特征层作为低层特征层,将第31个至第100个这后70个特征层作为高层特征层。例如,对于金字塔场景解析网络(Pyramid Scene Parsing Network,PSPN),该神经网络可以包括四部分卷积网络(conv1到conv4)和一个分类层,每一部分卷积网络又包括多个卷积层,可以依据计算量的大小,将该PSPN中从conv1到conv4_3中的卷积层作为低层特征层,其占了该PSPN约1/8的计算量,将该PSPN中从conv4_4到最后分类层前的各卷积层作为高层特征层,其占了PSPN约7/8的计算量;分类层用于对高层特征层输出的高层特征进行语义分割,以获得帧的语义标签,即:帧中至少一个像素的分类。
由于高层特征的提取需要网络深度较深的第二网络层,其计算难度和复杂度较高,而若要精确获得帧的语义标签,又需要基于帧的高层特征进行语义分割,因此,本发明实施例中仅对关键帧进行高层特征提取以用于语义分割,相对于对视频中逐帧进行高层特征提取,不仅有利于减小计算难度和复杂性,还可以获得视频的语义分割结果。
基于本发明上述实施例提供的关键帧调度方法,对当前帧进行特征提取,获得当前帧的低层特征,根据相邻的前一关键帧的低层特征和当前帧的低层特征,获取当前帧被调度为关键帧的调度概率值;根据当前帧的调度概率值确定当前帧是否被调度为关键帧;若确定当前帧被调度为关键帧,对当前关键帧的低层特征进行特征提取,获得当前关键帧的高层特征。本发明实施例可以根据前一关键帧的低层特征和当前帧的低层特征来获取当前帧相对于前一关键帧低层特征的变化,利用了视频中不同帧之间的低层特征的变化,从而可以快速、准确、自适应的进行关键帧调度,提高了关键帧的调度效率。
另外,在本发明关键帧调度方法的另一个实施例中,在上述图1所示实施例之前,还可以包括:
确定初始关键帧。例如,指定视频中的第一帧或其他任意一帧为初始关键帧;
通过上述第一网络层对初始关键帧进行特征提取,获得初始关键帧的低层特征并缓存,后续可以基于该关键帧的低层特征调度其他帧是否为关键帧;
通过上述第二网络层对初始关键帧的低层特征进行特征提取,获得初始关键帧的高层特征以便用于语义分割。
进一步地,在本发明关键帧调度方法的又一个实施例中,还可以包括:对上述初始关键帧进行语义分割,输出所述关键帧的语义标签。
另外,在本发明关键帧调度方法的又一个实施例中,确定当前帧被调度为关键帧之后,还可以包括:缓存当前关键帧的低层特征,以便用于确定视频中当前关键帧之后的其他帧是否被调度为关键帧使用。
另外,在本发明关键帧调度方法的再一个实施例中,确定当前帧被调度为关键帧之后,还可以包括:对该当前关键帧进行语义分割,输出该当前关键帧的语义标签。本发明各实施例中,对于关键帧,可以调用计算代价大的单帧模型,例如PSPN进行语义分割,从而获得高精度的语义分割结果。本发明各实施例中,关键帧和当前帧可以共享神经网络的低层特征层(即:第一网络层)进行低层特征提取,此处的神经网络可以采用金字塔场景解析网络(Pyramid Scene Parsing Network,PSPN),该神经网络可以包括四部分卷积网络(conv1到conv4)和一个分类层,每一部分卷积网络又分为多个卷积层,其中,神经网络的低层特征层可以包括PSPN中从conv1到conv4_3中的卷积层,占了PSPN约1/8的计算量;神经网络的高层特征层(即:第二网络层)可以包括从conv4_4到最后分类层前的各卷积层,占了PSPN约7/8的计算量,用于提取关键帧的高层特征;分类层用于基于关键帧的高层特征对应识别关键帧中至少一个像素的类别,从而实现对关键帧的语义分割。
图2为本发明关键帧调度方法另一个实施例的流程图。如图2所示,该实施例的关键帧调度方法包括:
202,通过神经网络的第一网络层对当前帧进行特征提取,获得当前帧的低层特征。
在本发明各实施例的一个示例中,可以通过神经网络的低层特征层对当前帧进行特征提取,获得当前帧的低层特征。
204,根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征,获取当前帧被调度为关键帧的调度概率值。
其中,前一关键帧的低层特征由上述第一网络层对该前一关键帧进行特征提取得到。
206,根据当前帧的调度概率值确定当前帧是否被调度为关键帧。
若确定当前帧被调度为关键帧,将当前帧称为当前关键帧,执行操作208。否则,若确定当前帧是否被调度为非关键帧,不执行本实施例的后续流程。
本发明人通过研究发现,两帧之间低层特征之间的差异性(定义为两帧的低层特征之间的差值)越大,对应的语义标签的差异性值(定义为两帧的语义标签中非重合部分所占的比例)越大,本发明实施例通过当前帧相邻的前一关键帧的低层特征和当前帧的低层特征之间的差异性,来确认当前帧是否被调度为关键帧。在两帧之间低层特征之间的差异性大于该预设阈值时,可以将当前帧设置为关键帧(即:调度为关键帧),以便获取较准确的语义结果。
208,通过上述神经网络的第二网络层对当前关键帧的低层特征进行特征提取,获得当前关键帧的高层特征,并缓存当前关键帧的低层特征。
210,对当前关键帧进行语义分割,输出当前关键帧的语义标签。
本发明人通过研究发现,视频中帧之间的低层特征变化大则其进行语义分割获得的语义标签之间抖动大,反之抖动小。本发明实施例中,可以利用深度学习方法,获取视频中各帧的特征信息,根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征之间的差异性确定低层特征的变化,分析视频中帧之间的抖动情况,通过计算当前帧和相邻的前一关键帧低层特征之间的重合程度,若低层特征变化大则标签抖动大,反之抖动小,从而通过低层特征回归语义标签的抖动程度,由此自适应的调度关键帧。
在本发明上述各实施例的一个可选示例中,操作104或204可以包括:
将前一关键帧的低层特征和当前帧的低层特征进行拼接,得到拼接特征;
通过关键帧调度网络,基于该拼接特征获取当前帧是否应该被调度为关键帧的调度概率值并输出。
本发明实施例可以用于自动驾驶场景、视频监控场景、人像分割等互联网娱乐产品等,例如:
1,在自动驾驶的场景下,可以利用本发明实施例将视频中的目标快速分割出来,例如人和车辆;
2,在视频监控场景中,可以将人快速的分割出来;
3,在人像分割等互联网娱乐产品中,可以快速的从视频帧中把人分割出来。
图3为本发明关键帧调度装置一个实施例的结构示意图。本发明各实施例的关键帧调度装置可用于实现本发明上述各实施例的关键帧调度方法。如图3所示,在关键帧调度装置的一个实施例中,包括:第一特征提取单元,调度单元,确定单元和第二特征提取单元。其中:
第一特征提取单元,包括神经网络的第一网络层,用于对当前帧进行特征提取,获得前帧的低层特征。
调度单元,用于根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征,获取当前帧被调度为关键帧的调度概率值。其中,前一关键帧的低层特征由第一网络层对前一关键帧进行特征提取得到。
确定单元,用于根据当前帧的调度概率值确定当前帧是否被调度为关键帧。
第二特征提取单元,包括神经网络的第二网络层,用于根据确定单元的确定结果,若确定当前帧被调度为关键帧,对当前关键帧的低层特征进行特征提取,获得当前关键帧的高层特征。其中,神经网络中,上述第一网络层的网络深度浅于第二网络层的网络深度。
基于本发明上述实施例提供的关键帧调度装置,对当前帧进行特征提取,获得当前帧的低层特征,根据相邻的前一关键帧的低层特征和当前帧的低层特征,获取当前帧被调度为关键帧的调度概率值;根据当前帧的调度概率值确定当前帧是否被调度为关键帧;若确定当前帧被调度为关键帧,对当前关键帧的低层特征进行特征提取,获得当前关键帧的高层特征。本发明实施例可以根据前一关键帧的低层特征和当前帧的低层特征来获取当前帧相对于前一关键帧低层特征的变化,利用了视频中不同帧之间的低层特征的变化,从而可以快速、准确、自适应的进行关键帧调度,提高了关键帧的调度效率。
在本发明关键帧调度装置各实施例的一个实施方式中,上述前一关键帧包括预先确定的初始关键帧。
图4为本发明关键帧调度装置另一个实施例的结构示意图。如图4所示,与图3所示实施例相比,在本发明关键帧调度装置的另一个实施例中,还包括:缓存单元,用于缓存关键帧的低层特征,本发明各实施例中的关键帧包括初始关键帧。
另外,在基于本发明上述各关键帧调度装置实施例的又一个实施例中,第一特征提取单元还可用于根据确定单元的确定结果,在缓存单元中缓存当前关键帧的低层特征。
在本发明关键帧调度装置各实施例的一个实施方式中,调度单元可以包括:拼接子单元,用于将前一关键帧的低层特征和当前帧的低层特征进行拼接,得到拼接特征;关键帧调度网络,用于基于拼接特征获取当前帧是否应该被调度为关键帧的调度概率值。
另外,再参见图4,本发明各实施例的关键帧调度装置还可以包括:语义分割单元,用于对关键帧进行语义分割,输出关键帧的语义标签,本发明各实施例中的关键帧可以包括:初始关键帧、前一关键帧或者当前关键帧。
另外,本发明实施例还提供了一种电子设备,包括本发明上述任一实施例的关键帧调度装置。
另外,本发明实施例还提供了另一种电子设备,包括:
处理器和本发明上述任一实施例的关键帧调度装置;
在处理器运行关键帧调度装置时,本发明上述任一实施例的关键帧调度装置中的单元被运行。
另外,本发明实施例还提供了又一种电子设备,包括:处理器和存储器;
存储器用于存放至少一可执行指令,可执行指令使处理器执行本发明上述任一实施例的关键帧调度方法中各步骤的操作。
图5为本发明电子设备一个应用实施例的结构示意图。下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图5所示,该电子设备包括一个或多个处理器、通信部等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU),和/或一个或多个图像处理器(GPU)等,处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令,通过总线与通信部相连、并经通信部与其他目标设备通信,从而完成本申请实施例提供的任一方法对应的操作,例如,通过神经网络的第一网络层对当前帧进行特征提取,获得当前帧的低层特征;
根据所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征,获取所述当前帧被调度为关键帧的调度概率值;其中,所述前一关键帧的低层特征由所述第一网络层对所述前一关键帧进行特征提取得到;根据所述当前帧的调度概率值确定所述当前帧是否被调度为关键帧;若确定所述当前帧被调度为关键帧,通过所述神经网络的第二网络层对当前关键帧的低层特征进行特征提取,获得所述当前关键帧的高层特征;其中,所述神经网络中,所述第一网络层的网络深度浅于所述第二网络层的网络深度。
此外,在RAM中,还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下,ROM为可选模块。RAM存储可执行指令,或在运行时向ROM中写入可执行指令,可执行指令使处理器执行本发明上述任一方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
需要说明的,如图5所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明公开的保护范围。
另外,本发明实施例还提供了一种计算机存储介质,用于存储计算机可读取的指令,该指令被执行时实现本发明上述任一实施例关键帧调度方法的操作。
另外,本发明实施例还提供了一种计算机程序,包括计算机可读取的指令,当计算机可读取的指令在设备中运行时,设备中的处理器执行用于实现本发明上述任一实施例关键帧调度方法中的步骤的可执行指令。
在一个可选实施方式中,所述计算机程序具体为软件产品,例如软件开发包(Software Development Kit,SDK),等等。
在一个或多个可选实施方式中,本发明实施例还提供了一种计算机程序程序产品,用于存储计算机可读指令,所述指令被执行时使得计算机执行上述任一可能的实现方式中所述的关键帧调度方法。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选例子中,所述计算机程序产品具体体现为软件产品,例如SDK等等。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于装置实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种关键帧调度方法,其特征在于,包括:
通过神经网络的第一网络层对当前帧进行特征提取,获得当前帧的低层特征;
根据所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征,获取所述当前帧被调度为关键帧的调度概率值;其中,所述前一关键帧的低层特征由所述第一网络层对所述前一关键帧进行特征提取得到;
根据所述当前帧的调度概率值确定所述当前帧是否被调度为关键帧;
若确定所述当前帧被调度为关键帧,通过所述神经网络的第二网络层对当前关键帧的低层特征进行特征提取,获得所述当前关键帧的高层特征;其中,所述神经网络中,所述第一网络层的网络深度浅于所述第二网络层的网络深度。
2.根据权利要求1所述的方法,其特征在于,还包括:
确定初始关键帧;
通过所述第一网络层对所述初始关键帧进行特征提取,获得所述初始关键帧的低层特征并缓存;
通过所述第二网络层对所述初始关键帧的低层特征进行特征提取,获得所述初始关键帧的高层特征。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
对所述初始关键帧进行语义分割,输出所述初始关键帧的语义标签。
4.根据权利要求1-3任一所述的方法,其特征在于,若确定所述当前帧被调度为关键帧,还包括:
缓存所述当前关键帧的低层特征。
5.一种关键帧调度装置,其特征在于,包括:
第一特征提取单元,包括神经网络的第一网络层,用于对当前帧进行特征提取,获得前帧的低层特征;
调度单元,用于根据所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征,获取所述当前帧被调度为关键帧的调度概率值;其中,所述前一关键帧的低层特征由所述第一网络层对所述前一关键帧进行特征提取得到;
确定单元,用于根据所述当前帧的调度概率值确定所述当前帧是否被调度为关键帧;
第二特征提取单元,包括所述神经网络的第二网络层,用于根据所述确定单元的确定结果,若确定所述当前帧被调度为关键帧,对当前关键帧的低层特征进行特征提取,获得所述当前关键帧的高层特征;其中,所述神经网络中,所述第一网络层的网络深度浅于所述第二网络层的网络深度。
6.一种电子设备,其特征在于,包括:权利要求5所述的关键帧调度装置。
7.一种电子设备,其特征在于,包括:
处理器和权利要求5所述的关键帧调度装置;
在处理器运行所述关键帧调度装置时,权利要求5所述的关键帧调度装置中的单元被运行。
8.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行权利要求1-4任一所述的关键帧调度方法中各步骤的操作。
9.一种计算机程序,包括计算机可读代码,其特征在于,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现权利要求1-4任一所述的关键帧调度方法中各步骤的指令。
10.一种计算机可读介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时实现权利要求1-4任一所述的关键帧调度方法中各步骤的操作。
CN201711455838.XA 2017-12-27 2017-12-27 关键帧调度方法和装置、电子设备、程序和介质 Pending CN108229363A (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201711455838.XA CN108229363A (zh) 2017-12-27 2017-12-27 关键帧调度方法和装置、电子设备、程序和介质
PCT/CN2018/123445 WO2019128979A1 (zh) 2017-12-27 2018-12-25 关键帧调度方法和装置、电子设备、程序和介质
MYPI2020000416A MY182985A (en) 2017-12-27 2018-12-25 Keyframe scheduling method and apparatus, electronic device, program and medium
US16/633,341 US11164004B2 (en) 2017-12-27 2018-12-25 Keyframe scheduling method and apparatus, electronic device, program and medium
SG11202000578UA SG11202000578UA (en) 2017-12-27 2018-12-25 Keyframe scheduling method and apparatus, electronic device, program and medium
KR1020207005376A KR102305023B1 (ko) 2017-12-27 2018-12-25 키 프레임 스케줄링 방법 및 장치, 전자 기기, 프로그램과 매체
EP18897706.0A EP3644221A4 (en) 2017-12-27 2018-12-25 KEY IMAGE PLANNING PROCESS AND APPARATUS, ELECTRONIC DEVICE, PROGRAM AND SUPPORT
JP2020519444A JP6932254B2 (ja) 2017-12-27 2018-12-25 キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711455838.XA CN108229363A (zh) 2017-12-27 2017-12-27 关键帧调度方法和装置、电子设备、程序和介质

Publications (1)

Publication Number Publication Date
CN108229363A true CN108229363A (zh) 2018-06-29

Family

ID=62648208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711455838.XA Pending CN108229363A (zh) 2017-12-27 2017-12-27 关键帧调度方法和装置、电子设备、程序和介质

Country Status (8)

Country Link
US (1) US11164004B2 (zh)
EP (1) EP3644221A4 (zh)
JP (1) JP6932254B2 (zh)
KR (1) KR102305023B1 (zh)
CN (1) CN108229363A (zh)
MY (1) MY182985A (zh)
SG (1) SG11202000578UA (zh)
WO (1) WO2019128979A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019128979A1 (zh) * 2017-12-27 2019-07-04 北京市商汤科技开发有限公司 关键帧调度方法和装置、电子设备、程序和介质
JP2021114313A (ja) * 2020-07-15 2021-08-05 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム
CN115908280A (zh) * 2022-11-03 2023-04-04 广东科力新材料有限公司 基于数据处理的pvc钙锌稳定剂的性能确定方法及系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7257756B2 (ja) * 2018-08-20 2023-04-14 キヤノン株式会社 画像識別装置、画像識別方法、学習装置、及びニューラルネットワーク
DE102021204846B4 (de) 2021-05-12 2023-07-06 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Steuern einer Robotervorrichtung
CN114222124B (zh) * 2021-11-29 2022-09-23 广州波视信息科技股份有限公司 一种编解码方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095862A (zh) * 2015-07-10 2015-11-25 南开大学 一种基于深度卷积条件随机场的人体动作识别方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003134450A (ja) 2001-10-24 2003-05-09 Ricoh Co Ltd 代表フレーム画像検出装置及びそのプログラム
JP4546157B2 (ja) * 2004-06-03 2010-09-15 キヤノン株式会社 情報処理方法、情報処理装置、撮像装置
CN102799684B (zh) 2012-07-27 2015-09-09 成都索贝数码科技股份有限公司 一种视音频文件编目标引、元数据存储索引与搜索方法
CN105849747B (zh) * 2013-11-30 2018-08-17 北京市商汤科技开发有限公司 用于人脸图像识别的方法和系统
US10387773B2 (en) * 2014-10-27 2019-08-20 Ebay Inc. Hierarchical deep convolutional neural network for image classification
US10062412B2 (en) * 2015-06-05 2018-08-28 Apple Inc. Hierarchical segmentation and quality measurement for video editing
US20160378863A1 (en) 2015-06-24 2016-12-29 Google Inc. Selecting representative video frames for videos
US9552520B1 (en) * 2015-07-07 2017-01-24 Disney Enterprises, Inc. Systems and methods for automatic key frame extraction and storyboard interface generation for video
CN105677735B (zh) * 2015-12-30 2020-04-21 腾讯科技(深圳)有限公司 一种视频搜索方法及装置
WO2017166019A1 (en) * 2016-03-28 2017-10-05 Xiaogang Wang Method and system for pose estimation
CN108229363A (zh) 2017-12-27 2018-06-29 北京市商汤科技开发有限公司 关键帧调度方法和装置、电子设备、程序和介质
US11577388B2 (en) * 2019-06-27 2023-02-14 Intel Corporation Automatic robot perception programming by imitation learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095862A (zh) * 2015-07-10 2015-11-25 南开大学 一种基于深度卷积条件随机场的人体动作识别方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
代东锋: "《基于超图模型的视频多语义标注方法研究》", 《万方学位论文数据库》 *
孙季丰: "《视频检索中关键帧选取的时间自适应算法》", 《计算机工程》 *
曹长青: "《基于内容的视频检索中关键帧提取算法研究》", 《万方学位论文数据库》 *
王合龙: "《机载光电系统及其控制技术》", 30 June 2016, 航空工业出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019128979A1 (zh) * 2017-12-27 2019-07-04 北京市商汤科技开发有限公司 关键帧调度方法和装置、电子设备、程序和介质
US11164004B2 (en) 2017-12-27 2021-11-02 Beijing Sensetime Technology Development Co., Ltd. Keyframe scheduling method and apparatus, electronic device, program and medium
JP2021114313A (ja) * 2020-07-15 2021-08-05 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム
JP7126586B2 (ja) 2020-07-15 2022-08-26 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム
US11881050B2 (en) 2020-07-15 2024-01-23 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for detecting face synthetic image, electronic device, and storage medium
CN115908280A (zh) * 2022-11-03 2023-04-04 广东科力新材料有限公司 基于数据处理的pvc钙锌稳定剂的性能确定方法及系统

Also Published As

Publication number Publication date
JP6932254B2 (ja) 2021-09-08
KR102305023B1 (ko) 2021-09-24
WO2019128979A1 (zh) 2019-07-04
JP2020536332A (ja) 2020-12-10
KR20200102409A (ko) 2020-08-31
US11164004B2 (en) 2021-11-02
EP3644221A1 (en) 2020-04-29
EP3644221A4 (en) 2020-10-28
MY182985A (en) 2021-02-05
US20200394414A1 (en) 2020-12-17
SG11202000578UA (en) 2020-02-27

Similar Documents

Publication Publication Date Title
CN108229363A (zh) 关键帧调度方法和装置、电子设备、程序和介质
CN108235116A (zh) 特征传播方法和装置、电子设备、程序和介质
CN111476871B (zh) 用于生成视频的方法和装置
US10437541B2 (en) Graphics engine and environment for efficient real time rendering of graphics that are not pre-known
US10762678B2 (en) Representing an immersive content feed using extended reality based on relevancy
WO2019212728A1 (en) Displaying a subset of menu items based on a prediction of the next user-actions
CN111539897A (zh) 用于生成图像转换模型的方法和装置
CN111709470A (zh) 图像生成方法、装置、设备及介质
CN111582477A (zh) 神经网络模型的训练方法和装置
CN111553428A (zh) 用于训练判别模型的方法、装置、设备及可读存储介质
US11951390B2 (en) Method and system for incremental topological update within a data flow graph in gaming
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
KR20220154816A (ko) 대규모 증강 현실을 위한 위치 매핑
CN112215243A (zh) 图像特征提取方法、装置、设备及存储介质
CN115170819A (zh) 目标识别方法及装置、电子设备和介质
CN114266937A (zh) 模型训练、图像处理方法,装置,设备以及存储介质
CN114529945A (zh) 一种情感识别方法、装置、设备及存储介质
CN111767059B (zh) 深度学习模型的部署方法、装置、电子设备和存储介质
CN115937380A (zh) 图形渲染方法、装置及存储介质
CN111832291A (zh) 实体识别模型的生成方法、装置、电子设备及存储介质
CN115511779A (zh) 图像检测方法、装置、电子设备和存储介质
CN115393514A (zh) 三维重建模型的训练方法、三维重建方法、装置、设备
CN111768007B (zh) 用于挖掘数据的方法和装置
CN113761416A (zh) 一种请求处理方法、装置、服务器和存储介质
CN113705461B (zh) 人脸清晰度检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629

RJ01 Rejection of invention patent application after publication