CN111666863B - 视频处理方法、装置、设备及存储介质 - Google Patents

视频处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111666863B
CN111666863B CN202010485351.1A CN202010485351A CN111666863B CN 111666863 B CN111666863 B CN 111666863B CN 202010485351 A CN202010485351 A CN 202010485351A CN 111666863 B CN111666863 B CN 111666863B
Authority
CN
China
Prior art keywords
current
video frame
processing
convolutional layer
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010485351.1A
Other languages
English (en)
Other versions
CN111666863A (zh
Inventor
张树业
项伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Singapore Pte Ltd
Original Assignee
Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baiguoyuan Information Technology Co Ltd filed Critical Guangzhou Baiguoyuan Information Technology Co Ltd
Priority to CN202010485351.1A priority Critical patent/CN111666863B/zh
Publication of CN111666863A publication Critical patent/CN111666863A/zh
Application granted granted Critical
Publication of CN111666863B publication Critical patent/CN111666863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明实施例公开了视频处理方法、装置、设备及存储介质。该方法包括获取当前视频帧,并确定当前视频帧与上一视频帧的视频帧相似度;根据视频帧相似度及设定个数的判定阈值,确定深度全卷积神经网络中各卷积层相对当前视频帧的卷积处理权限,深度全卷积神经网络预先训练获得,卷积处理权限包括允许处理和拒绝处理;根据各卷积处理权限,通过深度全卷积神经网络处理当前视频帧,获得当前视频帧对应的目标视频帧。该方法在保证已有深度全卷积神经网络拓扑结构不变的前提下,通过确定卷积层的卷积处理权限来限制了参与视频处理的卷积层的数量以此来降低深度全卷积神经网络处理时的运算量,进而在保证语义分割处理精度的前提下有效降低了处理时延。

Description

视频处理方法、装置、设备及存储介质
技术领域
本发明实施例涉及计算机视觉技术领域,尤其涉及视频处理方法、装置、设备及存储介质。
背景技术
视频语义分割处理是计算机视觉技术领域中一种常见的视频处理方式,具体来说,视频语义分割相当于对视频中各视频帧内的目标元素和背景元素进行抠分的操作,该技术在长/短视频特效、自动驾驶、视频监控以及虚拟现实等场景中有较广泛的应用前景。一般的,不同应用场景下进行视频语义分割处理的时延要求不同,比如在直播应用场景下,需要能够实时的对各视频帧进行视频语义分割处理。
目前,常见的视频语义分割处理主要基于深度全卷积网络的方式来实现,该种方式因所采用深度神经网络本身具备的特征表达能力、所提供待分割图像中有标签的数据越来越多、所依赖计算机设备中图像处理器的大规模应用,使得其在视频语义分割精准度方面有了较大提升。
然而,深度全卷积神经网络实现视频语义分割具备的运算量很大,由此会产生较高的时延,不适合直播等对视频语义分割处理速度有要求的应用场景,且高运算量需要耗费较多的计算资源,当计算机设备(如低配移动手机)本身计算资源不足时,将会影响视频语义分割的正常实现。
发明内容
有鉴于此,本发明实施例提供了视频处理方法、装置、设备及存储介质,以降低进行视频语义分割处理的处理时延。
第一方面,本发明实施例提供了一种视频处理方法,包括:
获取当前视频帧,并确定所述当前视频帧与上一视频帧的视频帧相似度;
根据所述视频帧相似度及设定个数的判定阈值,确定深度全卷积神经网络中各卷积层相对所述当前视频帧的卷积处理权限,所述深度全卷积神经网络预先训练获得,所述卷积处理权限包括允许处理和拒绝处理;
根据各所述卷积处理权限,通过所述深度全卷积神经网络处理所述当前视频帧,获得所述当前视频帧对应的目标视频帧。
第二方面,本发明实施例提供一种视频处理装置,包括:
相似度确定模块,用于获取当前视频帧,并确定所述当前视频帧与上一视频帧的视频帧相似度;
权限确定模块,用于根据所述视频帧相似度及设定个数的判定阈值,确定深度全卷积神经网络中各卷积层相对所述当前视频帧的卷积处理权限,所述深度全卷积神经网络预先训练获得,所述卷积处理权限包括允许处理和拒绝处理;
视频处理模块,用于根据各所述卷积处理权限,通过所述深度全卷积神经网络处理所述当前视频帧,获得所述当前视频帧对应的目标视频帧。
第三方面,本发明实施例提供了一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面实施例提供的视频处理方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面实施例提供的视频处理方法。
本发明实施例提供的视频处理方法、装置、设备及存储介质中,对视频进行语义分割处理时,首先确定所获取当前视频帧与上一视频帧的视频帧相似度;然后根据视频帧相似度与设定个数的判定阈值,确定深度全卷积神经网络中各卷积层相对该当前视频帧的卷积处理权限,卷积处理权限包括了允许处理和拒绝处理,最终根据各卷积处理权限,通过深度全卷积神经网络处理该当前视频帧,由此获得当前视频帧进行语义分割后的目标视频帧。上述技术方案,并未直接对现有用于视频语义分割的深度全卷积神经网络的拓扑结构进行改进,而是通过上一视频帧与当前视频帧的视频帧相似度,来确定深度全卷积神经网络中各卷积层的卷积处理权限,通过该卷积处理权限来限制参与处理的卷积层的数量,以此来降低深度全卷积神经网络处理时的运算量,由此在保证语义分割处理精度的前提下,有效降低处理时延。
附图说明
图1给出了本发明实施例一提供的一种视频处理方法的流程示意图;
图2给出了通过深度全卷积神经网络对视频帧进行常规分割处理的一种示意图;
图3给出了本发明实施例二提供的一种视频处理方法的流程示意图;
图4给出了本发明所提供视频处理方法中上采样处理获得目标视频帧的一种实现流程图;
图5给出了本发明实施例二所提供视频处理方法中通过深度全卷积神经网络进行视频处理的另一种示意图;
图6给出了本发明所提供视频处理方法中上采样处理获得目标视频帧的另一种实现流程图;
图7给出了本发明实施例三提供的一种视频处理装置的结构框图;
图8给出了本发明实施例四提供的一种计算机设备的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例方式作进一步地详细描述。应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
实施例一
图1给出了本发明实施例一提供的一种视频处理方法的流程示意图,该方法适用于对视频中各视频帧实时进行语义分割处理的情况,该方法可以由视频处理装置执行,其中,该装置可以由软件和/或硬件实现,并一般可集成在计算机设备上。
需要说明的是,本实施例可将所提供方法可以作为插件集成在直播应用软件或视频播放软件等能够对视频进行个性化或特效设置的多媒体应用类软件中,安装上述应用软件的执行主体可以通过可以对实时接收或者预先存储的视频进行语义分割处理。
如图1所示,本发明实施例一提供的一种视频处理方法,具体包括如下操作:
S101、获取当前视频帧,并确定所述当前视频帧与上一视频帧的视频帧相似度。
在本实施例中,可认为本实施例所提供方法能够实时接收所播放视频的视频帧,所述当前视频帧可认为是当前捕获到的视频中的视频帧。上一视频帧可认为是与当前视频帧相邻的前一视频帧。本步骤可以采用感知哈希算法来获得当前视频帧与上一视频帧的相似度值,并将该相似度值记为视频帧相似度。
S102、根据所述视频帧相似度及设定个数的判定阈值,确定深度全卷积神经网络中各卷积层相对所述当前视频帧的卷积处理权限。
在本实施例中,所述深度全卷积神经网络预先训练获得,所述卷积处理权限包括允许处理和拒绝处理,其中,所述深度全卷积神经网络用于对当前视频帧的视频语义分割处理,该深度全卷积神经网络的网络拓扑结构可以与现有用于视频语义分割处理的神经网络的拓扑结构相同,并预先进行训练。
可以理解的是,该深度全卷积神经网络的网络拓扑结构中可以包括一定数量通过卷积连接形成的卷积层,采用该深度全卷积神经网络常规进行语义分割处理时,所输入的当前视频帧将以数据流的形式流经各卷积层,即相当于常规情况下,各卷积层的卷积处理权限均为允许处理,由此可使得各卷积层均参与卷积处理,进而占用较多的运算耗时,增加语义分割处理时延。
在本实施例中,所述判定阈值可理解为一个用于判定深度全卷积神经网络中卷积层是否需要正常参与卷积运算的临界值,设定个数的判定阈值分别对应了深度全卷积神经网络中设定个数的卷积层,优选的,可以是深度全卷积神经网络中具备特征下采样功能的各卷积层。本步骤通过将视频帧相似度与预先设定的各判定阈值进行比较的方式,可以通过比较结果来确定出深度全卷积神经网络中与上述各判定阈值对应的各卷积层实际具备的卷积处理权限。
其中,卷积处理权限可理解为相应卷积层是否正常进行卷积处理的限制信息,当一个卷积层的卷积处理权限为允许处理时,可认为允许当前视频帧形成的数据流可以正常流入该卷积层,并在该卷积层上进行卷积处理;当一个卷积层的卷积处理权限为拒绝处理时,可认为拒绝当前视频帧所形成数据流流入该卷积层,同时也不需要在该卷积层上进行卷积处理。
本步骤优选认为当前视频帧相似度大于一个判定阈值时,认为当前视频帧与上一视频帧具备较高的相似度,此时,无需再重复确定当前视频帧在该判定阈值所对应卷积层上的进行卷积处理后的数据信息,由此将该卷积层的卷积处理权限设置为拒绝处理。
S103、根据各所述卷积处理权限,通过所述深度全卷积神经网络处理所述当前视频帧,获得所述当前视频帧对应的目标视频帧。
在本实施例中,本步骤可以通过深度全卷积神经网络来对当前视频帧进行语义分割处理,由此可以从当前视频帧中分割出实际所需的目标视频帧并输出。需要说明的是,可以通过上述S102来获得深度全卷积神经网络内具备特征下采样处理功能的各卷积层的卷积处理权限,受网络拓扑结构的限制,当一个卷积层的卷积处理权限为拒绝处理后,连接关系上处于其之后的其余各卷积层的卷积处理权限也均为拒绝处理。
由此可知,在当前视频帧作为输入数据进入深度全卷积神经网络后,可以先确定当前待进行特征下采样处理的当前卷积层,之后可以对流经的输入数据通过该当前卷积层进行下采样卷积处理,且在其对应的卷积处理权限为允许处理时,可以将下采样卷积处理后的输出数据再次作为输入数据流入下一个新的当前卷积层,并再次进行下采样卷积处理,进而只要当前卷积层的卷积处理权限为允许处理,就可以重复进行下采样卷积处理,直至当前卷积层的卷积处理权限为拒绝处理,或者当前卷积层为进行下采样处理的最后一个卷积层。
可以知道的是,如果当前卷积层的卷积处理权限为拒绝处理,可认为其后具备特征下采样处理功能的各卷积层的卷积处理权限也为拒绝处理,本步骤就可停止在其后各卷积层上的下采样卷积处理操作,之后直接采用上一视频帧在当前卷积层上对应的输出数据,来作为流向具备特征上采样处理功能的卷积层的输入数据,并由此基于该输入数据开始通过具备特征上采样处理功能的各卷积层进行上采样处理,最终在具备特征上采样处理功能的各卷积层完成上采样处理后,就可输出对应当前视频帧的目标视频帧。
本发明实施例一提供的一种视频处理方法,并未直接对现有用于视频语义分割的深度全卷积神经网络的拓扑结构进行改进,而是通过上一视频帧与当前视频帧的视频帧相似度,来确定深度全卷积神经网络中各卷积层的卷积处理权限,通过该卷积处理权限来限制参与卷积处理的卷积层的数量,以此来降低深度全卷积神经网络处理时的运算量,由此在保证语义分割处理精度的前提下,有效降低处理时延。
在上述实施例的基础上,本实施例进一步限定深度全卷积神经网络包括了用于视频帧特征下采样的编码器和用于视频帧特征上采样的解码器;所述编码器及所述解码器中分别包括所述设定个数的下采样卷积层和上采样卷积层,且一个下采样卷积层对应一个上采样卷积层并建立有跳连接;各所述判定阈值分别对应所述编码器中的一个下采样卷积层,且各所述判定阈值按照各下采样卷积层的连接顺序依次降低。
本可选实施例给出了深度全卷积神经网络的具体优化限定,即,深度全卷积神经网络上包括了编码器和解码器两部分,编码器主要用于对当前视频帧层层进行特征下采样,解码器主要用于对下采样后的特征图层层进行特征上采样,最终形成可输出图像帧,该图像帧可认为是对当前视频帧进行语义分割处理后形成的目标视频帧,其中,编码器中包括的下采样卷积层与解码器中包括的上采样卷积层的数量相同,且一个下采样卷积层对应一个上采样卷积层存在跳连接。
同时,上述所给定判定阈值的个数与编码器中所包括下采样卷积层的个数相同,且上述设定个数的判定阈值的具体值按照各下采样卷积层的连接顺序由大到小依次排列,即可认为与一个下采样卷积层对应的判定阈值大于该下采样卷积层之后的各下采样卷积层对应的判定阈值,其中,所述连接顺序为数据在各下采样卷积层中的数据流向顺序,数据先流向的下采样卷积层排序靠前。
本可选实施例给定的深度全卷积神经网络为进行视频语义分割处理的关键,本实施例可以通过对深度全卷积神经网络内部各卷积层具备的特点,来实现卷积层所具备卷积处理权限的确定,从而达到通过卷积处理权限来限制深度全卷积神经网络中参与处理的卷积层数量的目的,进而减少卷积层进行卷积处理操作的运行耗时,有效缓解了视频语义分割中处理延时的问题。
示例性的,为便于更好理解本实施例所提供视频处理方法与现有常规方法的区别,本实施例给出了通过深度全卷积神经网络采用现有常规方法对第t时刻出现的视频帧进行处理获得相应目标视频帧的示例性说明。具体的,图2给出了通过深度全卷积神经网络对视频帧进行常规分割处理的一种示意图。
如图2所示,假设该深度全卷积神经网络包括的编码器11和解码器12中分别具备5层下采样卷积层和5层上采样卷积层,按照深度全卷积神经网络中的数据流向可将为编码器11以及解码器12中的卷积层进行编号,可以看出编码器11中编号为1,2,3,4和5的下采样卷积层分别依次与解码器12中编号为5,4,3,2以及1的上采样卷积层建立跳连接。
需要说明的是,为便于对深度全卷积神经网络各下采样卷积层以及各上采样卷积层进行区分,通过各卷积层的编号来进行区分,如,将编码器中编号为1的下采样卷积层记为第1下采样卷积层,又如,将解码器中编号为1的上采样卷积层记为第1下采样卷积层。
接上述图2所示的深度全卷积神经网络,假设当前时刻为第t时刻,输入深度全卷积神经网络的视频帧可表示为Xt,首先视频帧Xt作为输入数据进入编码器11的第1下采样卷积层,在第1下采样卷积层在对输入数据进行下采样处理后形成的下采样特征图111流入第2下采样卷积层;同时,下采样处理后的下采样特征图111跳连接处理形成的跳连接特征图121流入第5上采样卷积层,第2下采样卷积层在对输入的下采样特征图111下采样处理后形成的新下采样特征图111又流入第3下采样卷积层;同时,下采样处理后的下采样特征图111跳连接处理形成的跳连接特征图121流入第4上采样卷积层,以此类推,整个深度全卷积神经网络的编码器11中包括1路从第1下采样卷积层开始,经第2下采样卷积层、第3下采样卷积层、第4下采样卷积层以及第5下采样卷积层进行下采样处理,最终流入解码器12第1上采样卷积层的数据流向,且流入第1上采样卷积层的特征图可记为待上采样特征图;同时还包括5路分别由第1下采样卷积层到第5上采样卷积层、第2下采样卷积层到第4上采样卷积层、第3下采样卷积层到第3上采样卷积层、第4下采样卷积层到第2上采样卷积层以及第5下采样卷积层到第1上采样卷积层的跳连接数据流向。
接上述图2,在解码器12的第1上采样卷积层中,第1上采样卷积层上的跳连接特征图121与待上采样特征图拼接后获得的特征图通过上采样处理后形成上采样特征图122,又作为第2上采样卷积层上的待上采样特征图,再次与存在于该层上的跳连接特征图121拼接,并同样又对拼接后获得的特征图通过上采样处理形成输入给第3上采样卷积层的待上采样特征图,以此类推,整个深度全卷积神经网络的解码器12中包括由第5下采样卷积层流入,经第1上采样卷积层、第2上采样卷积层、第3上采样卷积层、第4上采样卷积层以及第5上采样卷积层进行上采样处理的数据流向,该数据流向最终输出的灰度特征图123即可看做视频帧Xt的目标视频帧。
对上述图2所示的通过深度全卷积神经网络进行常规视频分割处理的实现进行分析,假设从视频帧Xt输入编码器到灰度特征图123输出的耗时为T,则若整个视频包含K个视频帧,则采用上述常规处理方式所需要的耗时可记为KT。如果视频帧个数较多,单个耗时T较大,整个处理耗时KT将是一个较大的数值。
实施例二
图3给出了本发明实施例二提供的一种视频处理方法的流程示意图,本实施例以上述实施例为基础进行优化,在本实施例中,进一步将根据所述视频帧相似度及设定个数的判定阈值,确定深度全卷积神经网络中各卷积层相对所述当前视频帧的卷积处理权限具体化为:按照所述编码器中各下采样卷积层的连接顺序,从各所述判定阈值中选取一个作为当前判定阈值;如果所述视频帧相似度小于或等于所述当前判定阈值,则确定所述当前判定阈值所对应目标下采样卷积层的卷积处理权限为允许处理,并返回执行新的当前判定阈值的选取操作。
同时,还优化包括了:如果所述视频帧相似度大于所述当前判定阈值,则确定所述当前判定阈值所对应当前下采样卷积层及所述目标下采样卷积层之后各下采样卷积层的卷积处理权限均为拒绝处理。
此外,本实施例进一步将根据各所述卷积处理权限,通过所述深度全卷积神经网络处理所述当前视频帧,获得所述当前视频帧对应的目标视频帧,具体优化为:通过所述编码器接收作为输入数据的所述当前视频帧,并记为首个待下采样的待下采样特征图;通过所述编码器中各下采样卷积层的连接顺序,选定一个下采样卷积层作为当前下采样卷积层;通过在所述当前下采样卷积层上对所述待下采样特征图的下采样处理,获得对应的当前下采样特征图;通过所述当前下采样卷积层与所述解码器上所对应目标上采样卷积层的跳连接,处理所述当前下采样特征图,获得所述目标上采样卷积层对应的跳连接特征图;如果所述当前下采样卷积层的卷积处理权限为拒绝处理,则从所述目标上采样卷积层开始,按照预设的第一上采样策略对所述跳连接特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧。
在上述基础上还优化包括了如果所述当前下采样卷积层的卷积处理权限为允许处理,则当所述当前下采样卷积层为非末尾下采样卷积层时,将所述当前下采样特征图作为新的待下采样特征图,返回执行当前下采样卷积层的选取操作;以及当所述当前下采样卷积层为末尾下采样卷积层时,从所述目标上采样卷积层开始,按照预设的第二上采样策略对所述当前下采样特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧,其中,所述第一上采样策略与所述第二上采样策略为预先设定的不同策略。
需要说明的是,本实施例所描述的第一上采样策略以及第二上采样策略,具体相当于卷积处理权限分别为拒绝处理和允许处理时对应的两种不同的上采样策略。
如图3所示,本发明实施例二提供的一种视频处理方法,具体包括如下操作:
S201、获取当前视频帧,并确定所述当前视频帧与上一视频帧的视频帧相似度。
在本实施例中,下述S202至S207为卷积处理权限的确定过程。
S202、按照所述编码器中各下采样卷积层的连接顺序,从各所述判定阈值中选取一个作为当前判定阈值。
根据上述描述,可知一个判定阈值对应了一个下采样卷积层的卷积处理权限判定,本步骤可首先从第一判定阈值开始作为当前判定阈值,之后可按顺序依次选取一个判定阈值作为新的当前判定阈值。
S203、判定所述视频帧相似度是否小于或等于所述当前判定阈值,若是,则执行S204;若否,则执行S206。
在本实施例中,当视频帧相似度大于当前判定阈值时,可认为当前视频帧与上一视频帧在该当前判定阈值所对应下采样卷积层上具备的特征信息匹配度较高,由此可执行S206的操作,相反的,若小于或等于当前判定阈值,则可认为当前视频帧与上一视频帧在该当前判定阈值所对应下采样卷积层上具备的特征信息匹配度较低,需要执行S204的操作。
S204、确定所述当前判定阈值所对应目标下采样卷积层的卷积处理权限为允许处理。
具体的,本步骤可以在视频帧相似度小于或等于所述当前判定阈值时,将当前判定阈值关联的目标下采样卷积层的卷积处理权限确定为允许处理。
S205、判定当前判定阈值是否为末个判定阈值,若是,则执行S207;若否;则返回执行S202。
本步骤可以在上述S204的确定后,再次判定该当前判定阈值是否为设定个数中的最后一个,如果是的话可以执行S207,否则需要返回S202再次选择新的当前判定阈值。
S206、确定所述当前判定阈值所对应当前下采样卷积层及所述目标下采样卷积层之后各下采样卷积层的卷积处理权限均为拒绝处理。
可以理解的是,本步骤可以在视频帧相似度大于所述当前判定阈值时,将当前判定阈值关联的目标下采样卷积层的卷积处理权限确定为拒绝处理,同时因为判定阈值的具体值逐渐减小,由此可直接将该目标下采样卷积层之后的各下采样卷积层的卷积处理权限一并确定为拒绝处理。
S207、汇总所述编码器中各下采样卷积层对应的卷积处理权限。
示例性的,假设用S表示包含设定个数卷积处理权限的集合,采用1表示卷积处理权限为允许处理,采用0表示卷积处理权限为拒绝处理,则S={1,1,0,0,0,0}可表示编辑器中包括了6个下采样卷积层,其中,位于第1和第2的两个下采样卷积层的卷积处理权限均为允许处理,后续的4个下采样卷积层的卷积处理权限均为拒绝处理。
下述S208至S216给出了通过深度全卷积神经网络结合下采样卷积层所对应卷积处理权限对当前视频帧进行语义分割获得目标视频帧的过程。
S208、通过所述编码器接收作为输入数据的所述当前视频帧,并记为首个待下采样的待下采样特征图。
可以理解的是,当前视频帧首先输入至编码器中,本实施例可以通过编码器中的下采样卷积层首先对当前视频帧进行特征下采样处理操作,首先可以通过本步骤将当前视频帧看作首个待下采样特征图。
S209、通过所述编码器中各下采样卷积层的连接顺序,选定一个下采样卷积层作为当前下采样卷积层。
示例性的,各下采样卷积层的连接顺序可以根据编码器中各下采样卷积层的实际拓扑连接关系来确定,本步骤可以从处于拓扑连接关系中的首个下采样卷积层开始作为第一个当前下采样卷积层。
S210、通过在所述当前下采样卷积层上对所述待下采样特征图的下采样处理,获得对应的当前下采样特征图。
示例性的,本实施例中各下采样卷积层上至少包含一次卷积处理,来实现对待下采样特征图的下采样处理,如可以对待下采样特征图连续进行两次卷积处理,最终在可获得对应该当前下采样卷积层的当前下采样特征图。
S211、通过所述当前下采样卷积层与所述解码器上所对应目标上采样卷积层的跳连接,处理所述当前下采样特征图,获得所述目标上采样卷积层对应的跳连接特征图。
根据上述描述,可知当前下采样卷积层在解码器中与一个上采样卷积层存在跳连接关系,本步骤可以将解码器中与该当前下采样卷积层存在跳连接关系的上采样卷积层记为目标上采样卷积层,并可通过对该当前下采样特征图的跳连接处理,获得流入该目标上采样卷积层的跳连接特征图。
其中,对所述当前下采样特征图的跳连接处理可看做将当前下采样特征图有当前下采样卷积层复制到所对应的目标上采样卷积层上。
S212、确定所述当前下采样卷积层的卷积处理权限,若为拒绝处理,则执行S213;若为允许处理,则执行S214。
在本实施例中,经过上述S210和S211的操作,相当于完成了待下采样特征图在当前下采样卷积层上的下采样卷积处理以及跳连接处理,依照常规思路,需要将当前下采样卷积层的下一下采样卷积层作为新的当前下采样卷积层重复进行上述操作。
本实施例则通过考虑当前下采样卷积层的卷积处理权限,来确定具体的执行步骤。示例性的,假设当前下采样卷积层的卷积处理权限为拒绝处理,则相当于可以终结后续下采样卷积层的下采样卷积处理操作,由此可以通过S213进入解码器中的特征上采样处理部分。假设当前下采样卷积层的卷积处理权限为允许处理,则相当于仍需要在编码器中进行下采样处理操作,由此可以通过S214判定是否持续后续的下采样处理。
S213、从所述目标上采样卷积层开始,按照预设的第一上采样策略对所述跳连接特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧。
示例性的,在上述S212判定当前下采样卷积层的卷积处理权限为拒绝处理时,可以通过本步骤进入解码器进行上采样处理部分,具体的,本步骤的上采样处理操作并不需要从解码器中的首个上采样卷积层开始,可以直接从与当前下采样卷积层关联的目标上采样卷积层开始进行上采样处理,其中,本实施例将按照数据的处理流向方向来确定解码器中各上采样卷积层的连接顺序,即,可以将从编码器内最后一个下采样卷积层输出的数据所流向的上采样卷积层记为解码器中的首个上采样卷积层,之后在按照已有的拓扑连接关系确定各上采样卷积层的执行顺序(连接顺序)。
在本实施例中,本步骤可以直接从目标上采样卷积层开始,按照给定的第一上采样策略对从编码器侧的当前下采样卷积层流入该目标上采样卷积层的特征图进行上采样处理,该特征图具体可以为跳连接处理后的跳连接特征图,最终通过解码器完成上采样处理后可以输出一个灰度特征图,该灰度特征图可以作为当前视频帧的目标视频帧。
具体的,本步骤中的第一上采样策略可概括为:获取上一视频帧在该目标上采样卷积层上所具备的上一上采样特征图,之后将跳连接特征图与上一上采样特征图相结合再次进行上采样处理,上采样处理后的特征图可作为目标上采样卷积层后续所邻接上采样卷积层的待上采样特征图,并再次进行后续的上采样处理,由此将待上采样特征图的数据流传递至解码器中连接顺序排在最后一个的上采样卷积层,以完成当前视频帧对应的上采样处理,即可输出灰度特征图,以获得所需的目标视频帧。
S214、判定所述当前下采样卷积层是否为非末尾下采样卷积层,若是,则执行S215;若否,则执行S216。
示例性的,在上述S212判定当前下采样卷积层的卷积处理权限为允许处理时,可以通过本步骤继续判定该当前下采样卷积层是否已经为最后一层,若为非末尾下采样卷积层,即不为最后一层,则可执行S215;否则相当于可以结束编码器部分的下采样处理操作,通过S216进入解码器部分的上采样操作。
S215、将所述当前下采样特征图作为新的待下采样特征图,返回执行S209。
示例性的,本步骤为下采样处理的循环步骤,可以将当前下采样特征图作为新的待下采样特征图,再次返回S209重新选定新的当前下采样卷积层开始新一轮的下采样处理操作。
S216、从所述目标上采样卷积层开始,按照预设的第二上采样策略对所述当前下采样特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧。
示例性的,在上述S214判定当前下采样卷积层为末尾下采样卷积层,即为最后一个下采样卷积层时,可以通过本步骤进入解码器进行上采样处理部分,具体的,本步骤的上采样处理操作相当于从解码器中的首个上采样卷积层开始进行。
在本实施例中,通过第二上采样策略实现的上采样处理可概括为:本步骤需要在编码器中的末尾下采样卷积完成下采样处理获得可输出的下采样特征图之后,将该下采样特征图作为首个待上采样特征图输入至解码器中的首个上采样卷积层,之后该待上采样特征图与该首个上采样卷积层所具备的跳连接特征图相结合,形成融合特征图,在该首个上采样卷积层上对该融合特征图进行上采样处理,上采样处理后的特征图可作为目标上采样卷积层后续所邻接上采样卷积层的待上采样特征图,并再次进行后续的上采样处理,由此将待上采样特征图的数据流传递至解码器中连接顺序排在最后一个的上采样卷积层,以完成上采样处理,即可输出灰度特征图,并获得所需的目标视频帧。
其中,上述首个上采样卷积层同样相当于编码器中末尾下采样卷积层存在跳连接的目标上采样卷积层,其上的跳连接特征图可以由末尾下采样卷积层对其进行下采样处理后获得的下采样特征图再次进行跳连接处理获得。
本发明实施例二提供的一种视频处理方法,具体优化了深度全卷积神经网络中卷积层所具备卷积处理权限的确定操作;同时还具体给出了通过深度全卷积神经网络结合各卷积处理权限获得当前视频帧的目标视频帧的实现过程。基于本实施例提供的视频处理方法,可以根据卷积处理权限的不同采用不同的方式进行目标视频帧的确定,且在卷积处理权限为拒绝处理时,可以有效减少视频语义分割处理中所参与卷积处理的卷积层的数,以此来降低深度全卷积神经网络处理时的运算量,由此在保证语义分割处理精度的前提下,有效降低处理时延。
作为本发明实施例二的一个可选实施例,进一步对上述S213的操作进行了优化,具体的,图4给出了本发明所提供视频处理方法中上采样处理获得目标视频帧的一种实现流程图。如图4所示,进一步优化从所述目标上采样卷积层开始,按照预设的第一上采样策略对所述跳连接特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧包括下述实现步骤:
S2130、获取所述上一视频帧在所述目标上采样卷积层上对应的上一待上采样特征图,并获得所述跳连接特征图与所述上一待上采样特征图拼接后的目标融合特征图。
在本实施例中,目标上采样卷积层为编码器中所选定当前下采样卷积层存在跳连接的上采样卷积层。上一视频帧已经通过深度全卷积神经网络完成了所对应目标视频帧的确定,本实施例可预先缓存上一视频帧在深度全卷积神经网络的各卷积层上待进行卷积处理所对应的待处理信息,所对应的待处理信息可以记为上一视频帧在相应卷积层上的上一待处理特征图,例如,若卷积层为上采样卷积层,则上一待处理特征图可具体是上一待上采样特征图。
可以理解的是,上一待上采样特征图相当于所对应上采样卷积层的前一上采样卷积层输出的上采样特征图,或者相当于最后一个下采样卷积层输出的下采样特征图。
同时,该目标上采样卷积层上还存在了编码器上所关联下采样卷积层传递的跳连接特征图,本步骤可以将其具备的跳连接特征图与获取到的上一待上采样特征图进行融合处理,以此获得目标融合特征图。
S2131、通过在所述目标上采样卷积层上对所述目标融合特征图的上采样处理,获得对应的目标上采样特征图,并将所述目标上采样特征图作为新的第一待上采样特征图。
在本实施例中,目标上采样卷积层上的上采样处理至少包含了一次卷积处理,如,可以对目标融合特征图连续进行两次卷积处理,最终获得对应该目标上采样卷积层的目标上采样特征图。为便于后续处理,本实施例记该目标上采样特征图为新的第一待上采样特征图。
S2132、判定所述目标上采样卷积层是否为非末尾上采样卷积层,若是,则执行S2133;若否,则执行S2137。
在本实施例中,进行上述S2131的上采样处理后,目标上采样卷积层本身存在两种可能,一是目标上采样卷积层为处于解码器中的最后一个上采样卷积层,二是目标上采样卷积层为解码器中的一个非末尾上采样卷积层(非最后一个上采样卷积层)。不同的可能对应不同的执行操作,例如,为非末尾上采样卷积层时,可以执行S2133的操作,为末尾上采样卷积层时,可以执行S2137的操作。
S2133、按照所述解码器中各上采样卷积层的连接顺序,选定一个上采样卷积层作为第一当前上采样卷积层。
在本实施例中,目标上采样卷积层为非末尾上采样卷积层时,相当于需要继续执行连接顺序在目标上采样卷积层之后的其他各上采样卷积层上的上采样处理,此时可以基于本步骤按照上采样卷积层的连接顺序,选定一个第一当前上采样卷积层,其中,首个第一上采样卷积层为目标上采样卷积层邻接的下一个上采样卷积层。
S2134、获得所述第一当前上采样卷积层所对应跳连接特征图与所述第一待上采样特征图拼接后的第一融合特征图。
本步骤实质与上述S2130相同,首先需要确定该第一当前上采样卷积层上的融合特征图,本步骤记为第一融合特征图。其中,该跳连接特征图由编码器中与第一当前上采样卷积层建立跳连接的下采样卷积层通过对其所具备下采样特征图的跳连接处理形成,首个第一待上采样特征图为上述S2131确定的目标上采样特征图。
S2135、通过在所述第一当前上采样卷积层上对所述第一融合特征图的上采样处理,获得对应的第一当前上采样特征图。
本步骤实质与S2131相同,可以用来确定第一当前上采样卷积层对第一融合特征图进行上采样处理后输出的第一当前上采样特征图。
S2136、将所述第一当前上采样特征图作为新的第一待上采样特征图,并在第一当前上采样卷积层为非末尾卷积层时返回执行S2133;否则执行S2137;
本步骤相当于一个上采样处理的循环判定操作,可以在第一当前上采样卷积层仍为非末尾卷积层时返回S2133再次选定新的第一当前上采样卷积层并重新进行相应的上采样处理。也可以在第一当前上采样卷积层为末尾卷积层时,结束上采样处理循环,通过S2137获得当前视频帧的目标视频帧。
S2137、卷积处理所述第一待上采样特征图,将输出的灰度特征图作为所述当前视频帧的目标视频帧。
经过末尾卷积层的上采样处理后,还需要通过本步骤再对上述确定的第一待上采样特征图再次进行卷积处理,以此获得可输出的灰度特征图,来作为当前视频帧的目标视频帧。
本可选实施例给出了采用第一上采样策略确定目标视频帧的具体实现过程,在该实现过程中,减少了解码器中上采样卷积层的卷积处理参与量,可以直接从合适的目标上采样卷积层开始,复用上一视频帧在该目标上采样卷积层对应的待上采样特征图实现后续的上采样处理。由此实现的目标视频帧确定,有效减少了深度全卷积神经网络中卷积层的参与量,从而降低了深度全卷积神经网络处理时的运算量,进而实现了在保证语义分割处理精度的前提下,有效降低处理时延的效果。
结合上述图4给出的实现目标视频帧确定的方式,本实施例给出一个通过深度全卷积神经网络但采用上述图4所对应的执行分支来实现视频帧分割处理的一个示例性说明。该示例性说明作为本实施例改进后所提供的视频处理方法的一种实现,与上述图2所提供常规分割处理的描述在具体实现上存在明显差异。具体的,图5给出了通过深度全卷积神经网络对视频帧进行本实施例所提供的视频处理的一种示意图。
在对图5进行分析前,本实施例中首先假设该深度全卷积神经网络包括的编码器21和解码器22中同样分别具备5层下采样卷积层和5层上采样卷积层,且已经确定出编码器11的5个下采样卷积层分别具备的卷积处理权限集合S表示为{0,0,0,0,0},即各下采样卷积层的卷积处理权限均为拒绝处理。
在该种前提下,如图5所示,假设当前时刻为第t时刻,输入深度全卷积神经网络的视频帧Xt首先进入编码器21的第1下采样卷积层,在第1下采样卷积层在对输入数据进行下采样处理后形成的下采样特征图211跳连接处理后形成跳连接特征图221流入第5上采样卷积层;但由于第1下采样卷积层的卷积处理权限为拒绝处理,下采样特征图211不再进行流入第2下采样卷积层进行下采样处理操作。而是直接进入解码器22,并从第1下采样卷积层在解码器22对应的第5上采样卷积层开始进行上采样处理(本图5以虚线连接表示不再进行处理),具体的,本示例图中直接获取了第t-1时刻所处理上一视频帧在第5上采样卷积层上待上采样的上一待上采样特征图222作为第t时刻下视频帧Xt在第5上采样卷积层上对应的待上采样特征图,之后将该待上采样特征图与跳连接特征图221拼接形成融合特征图,最终只需在第5上采样卷积层上对融合特征图进行上采样处理,并对上采样处理后上采样特征图223再进行1次卷积处理就可获得输出的灰度特征图224。
同样的,对上述图5所示的通过深度全卷积神经网络结合卷积处理权限进行改进的视频分割处理的实现进行分析,可以发现视频帧Xt从输入编码器到输出灰度特征图224,整个过程仅经过第1下采样卷积层以及第5上采样卷积层的处理,假设该次处理的耗时为T0(T0远小于上述时间耗时T),而整个视频包含K个视频帧,在K各视频帧均只进行上述T0的耗时处理时,整个视频的处理耗时仅为KT0,由此可以发现,相比于常规现有视频处理的处理耗时KT,采用本实施例提供的视频处理方法,在最优情况下可以节省K*(T-T0)的耗时,能够更好的降低处理时延。
作为本发明实施例二的另一个可选实施例,进一步对上述S216的操作进行了优化,具体的,图6给出了本发明所提供视频处理方法中上采样处理获得目标视频帧的另一种实现流程图。如图6所示,进一步优化从所述目标上采样卷积层开始,按照预设的第二上采样策略对所述当前下采样特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧包括下述实现步骤:
S2160、将所述当前下采样特征图作为第二待上采样特征图。
在本实施例中,该当前下采样特征图为编码器中所选定作为当前下采样卷积层的末尾下采样卷积层进过下采样处理后输出的下采样特征图,本步骤可以将该当前下采样特征图作为待进行上采样处理的第二待上采样特征图。
S2161、从所述目标上采样卷积层开始,按照所述解码器中各上采样卷积层的连接顺序,选定一个上采样卷积层作为第二当前上采样卷积层。
可以理解的是,本步骤中的目标上采样卷积层实际为解码器中的首个上采样卷积层。假设当前视频帧在编码器的下采样阶段由末尾下采样卷积层进行了下采样处理,可认为当前视频帧与上一视频帧的相似度太低,即两视频帧的差异程度太大,没有可省略的下采样处理操作,同样也没有可省略的上采样处理操作。由此只能在编码器中末尾下采样卷积层完成下采样处理后按网络拓扑结构的连接关系进入解码器中并从解码器的首个上采样卷积层开始进行上采样处理。
同样的,本步骤需要按照各上采样卷积层的连接顺序先选的一个当前上采样卷积层(此处记为第二当前上采样卷积层),其中,首个第二当前上采样卷积层为解码器中的首个首个上采样卷积层。
S2162、获得所述第二当前上采样卷积层所对应跳连接特征图与所述第二待上采样特征图拼接后的第二融合特征图。
本步骤实质与上述可选实施例中的S2134相同,首先需要确定该第二当前上采样卷积层上的融合特征图,本步骤记为第二融合特征图。其中,该跳连接特征图由编码器中与第二当前上采样卷积层建立跳连接的下采样卷积层通过对其所具备下采样特征图的跳连接处理形成,首个第二待上采样特征图为上述S2160中的当前下采样上采样特征图。
S2163、通过在所述当前上采样卷积层上对所述第二融合特征图的上采样处理,获得对应的第二当前上采样特征图。
本步骤实质与上述可选实施例中的S2135相同,可以用来确定第二当前上采样卷积层对第二融合特征图进行上采样处理后输出的第二当前上采样特征图。
S2164、将所述第二当前上采样特征图作为新的第二待上采样特征图,并在第二当前上采样卷积层为非末尾卷积层时返回执行S2161;否则执行S2165。
本步骤同样相当于一个上采样处理的循环判定操作,可以在第二当前上采样卷积层仍为非末尾卷积层时返回S2161再次选定新的第二当前上采样卷积层并重新进行相应的上采样处理。也可以在第二当前上采样卷积层仍为末尾卷积层时,结束上采样处理循环,通过S2165获得当前视频帧的目标视频帧
S2165、卷积处理所述第二待上采样特征图,将输出的灰度特征图作为所述当前视频帧的目标视频帧。
经过末尾卷积层的上采样处理后,也还需要通过本步骤再对上述确定的第二待上采样特征图再次进行一下卷积处理,以此获得可输出的灰度特征图,来作为当前视频帧的目标视频帧。
本实施例二上述的另一个可选实施例给出了第二上采样策略实现目标视频真确定的具体过程,该具体过程中体现了对于当前视频帧与上一视频帧在相似度较低时通过深度全卷积神经网络实现语义分割,考虑到整个视频的处理中即涉及前后视频帧相似度较低的情况,也涉及前后视频相似度较高的情况,在整个处理中上述两种上采样策略可能交替使用,该种视频的语义分割处理方式在整个处理过程中仍能具备降低处理延时的效果。
实施例三
图7为本发明实施例三提供的一种视频处理装置的结构框图,该装置适用于对视频中各视频帧实时进行语义分割处理的情况,其中,该装置可以由软件和/或硬件实现,并一般可集成在计算机设备上。如图7所示,该装置包括:相似度确定模块31、权限确定模块32和视频处理模块33。
其中,相似度确定模块31,用于获取当前视频帧,并确定所述当前视频帧与上一视频帧的视频帧相似度;
权限确定模块32,用于根据所述视频帧相似度及设定个数的判定阈值,确定深度全卷积神经网络中各卷积层相对所述当前视频帧的卷积处理权限,所述深度全卷积神经网络预先训练获得,所述卷积处理权限包括允许处理和拒绝处理;
视频处理模块33,用于根据各所述卷积处理权限,通过所述深度全卷积神经网络处理所述当前视频帧,获得所述当前视频帧对应的目标视频帧。
本发明实施例三提供的一种视频处理装置,并未直接对现有用于视频语义分割的深度全卷积神经网络的拓扑结构进行改进,而是通过上一视频帧与当前视频帧的视频帧相似度,来确定深度全卷积神经网络中各卷积层的卷积处理权限,通过该卷积处理权限来限制参与处理的卷积层的数量,以此来降低深度全卷积神经网络处理时的运算量,由此在保证语义分割处理精度的前提下,有效降低处理时延。
进一步地,深度全卷积神经网络包括:用于视频帧特征下采样的编码器和用于视频帧特征上采样的解码器;所述编码器及所述解码器中分别包括所述设定个数的下采样卷积层和上采样卷积层,且一个下采样卷积层对应一个上采样卷积层并建立有跳连接;各所述判定阈值分别对应所述编码器中的一个下采样卷积层,且各所述判定阈值按照各下采样卷积层的连接顺序依次降低。
进一步地,权限确定模块32具体可以用于按照所述编码器中各下采样卷积层的连接顺序,从各所述判定阈值中选取一个作为当前判定阈值;如果所述视频帧相似度小于或等于所述当前判定阈值,则确定所述当前判定阈值所对应目标下采样卷积层的卷积处理权限为允许处理,并返回执行新的当前判定阈值的选取操作直至当前判定阈值为末个判定阈值。
在上述优化的基础上,权限确定模块32具体还可以用于如果所述视频帧相似度大于所述当前判定阈值,则确定所述当前判定阈值所对应当前下采样卷积层及所述目标下采样卷积层之后各下采样卷积层的卷积处理权限均为拒绝处理。
进一步地,视频处理模块33具体可以用于通过所述编码器接收作为输入数据的所述当前视频帧,并记为首个待下采样的待下采样特征图;通过所述编码器中各下采样卷积层的连接顺序,选定一个下采样卷积层作为当前下采样卷积层;通过在所述当前下采样卷积层上对所述待下采样特征图的下采样处理,获得对应的当前下采样特征图;通过所述当前下采样卷积层与所述解码器上所对应目标上采样卷积层的跳连接,处理所述当前下采样特征图,获得所述目标上采样卷积层对应的跳连接特征图;如果所述当前下采样卷积层的卷积处理权限为拒绝处理,则从所述目标上采样卷积层开始,按照预设的第一上采样策略对所述跳连接特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧。
进一步地,视频处理模块33具体还可以用于如果所述当前下采样卷积层的卷积处理权限为允许处理,则当所述当前下采样卷积层为非末尾下采样卷积层时,将所述当前下采样特征图作为新的待下采样特征图,返回执行当前下采样卷积层的选取操作。
在上述优化的基础上,视频处理模块33具体还可以用于当所述当前下采样卷积层为末尾下采样卷积层时,从所述目标上采样卷积层开始,按照预设的第二上采样策略对所述当前下采样特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧;其中,所述第一上采样策略与所述第二上采样策略为预先设定的不同策略。
进一步地,所述从所述目标上采样卷积层开始,按照预设的第一上采样策略对所述跳连接特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧,包括:
a)获取所述上一视频帧在所述目标上采样卷积层上对应的上一待上采样特征图,并获得所述跳连接特征图与所述上一待上采样特征图拼接后的目标融合特征图;
b)通过在所述目标上采样卷积层上对所述目标融合特征图的上采样处理,获得对应的目标上采样特征图,并将所述目标上采样特征图作为新的第一待上采样特征图;
c)判定所述目标上采样卷积层是否为非末尾上采样卷积层,若是,则执行步骤d);若否,则执行步骤h);
d)按照所述解码器中各上采样卷积层的连接顺序,选定一个上采样卷积层作为第一当前上采样卷积层;
e)获得所述第一当前上采样卷积层所对应跳连接特征图与所述第一待上采样特征图拼接后的第一融合特征图;
f)通过在所述第一当前上采样卷积层上对所述第一融合特征图的上采样处理,获得对应的第一当前上采样特征图;
g)将所述第一当前上采样特征图作为新的第一待上采样特征图,并在第一当前上采样卷积层为非末尾卷积层时返回执行步骤d);否则执行步骤h);
h)卷积处理所述第一待上采样特征图,将输出的灰度特征图作为所述当前视频帧的目标视频帧。
进一步地,从所述目标上采样卷积层开始,按照预设的第二上采样策略对所述当前下采样特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧,包括:
a)将所述当前下采样特征图作为第二待上采样特征图;
b)从所述目标上采样卷积层开始,按照所述解码器中各上采样卷积层的连接顺序,选定一个上采样卷积层作为第二当前上采样卷积层;
c)获得所述第二当前上采样卷积层所对应跳连接特征图与所述第二待上采样特征图拼接后的第二融合特征图;
d)通过在所述当前上采样卷积层上对所述第二融合特征图的上采样处理,获得对应的第二当前上采样特征图;
e)将所述第二当前上采样特征图作为新的第二待上采样特征图,并在第二当前上采样卷积层为非末尾卷积层时返回执行步骤b);否则执行步骤f);
f)卷积处理所述第二待上采样特征图,将输出的灰度特征图作为所述当前视频帧的目标视频帧。
实施例四
图8给出了本发明实施例四提供的一种计算机设备的硬件结构示意图,具体地,该计算机设备包括:处理器和存储装置。存储装置中存储有至少一条指令,且指令由所述处理器执行,使得所述计算机设备执行如上述方法实施例所述的视频处理方法。
参照图8,该计算机设备具体可以包括:处理器40、存储装置41、显示屏42、输入装置43、输出装置44以及通信装置45。该计算机设备中处理器40的数量可以是一个或者多个,图8中以一个处理器40为例。该计算机设备中存储装置41的数量可以是一个或者多个,图8中以一个存储装置41为例。该计算机设备的处理器40、存储装置41、显示屏42、输入装置43、输出装置44以及通信装置45可以通过总线或者其他方式连接,图8中以通过总线连接为例。
存储装置41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例对应的程序指令/模块(例如,上述实施例所提供视频处理装置中的相似度确定模块31、权限确定模块32和视频处理模块33等)。存储装置41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储装置41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一般而言,显示屏42用于根据处理器40的指示显示数据,还用于接收作用于显示屏42的触摸操作,并将相应的信号发送至处理器40或其他装置。可选的,当显示屏42为红外屏时,其还包括红外触摸框,该红外触摸框设置在显示屏42的四周,其还可以用于接收红外信号,并将该红外信号发送至处理器40或者其他计算机设备。
通信装置45,用于与其他计算机设备建立通信连接,其可以是有线通信装置和/或无线通信装置。
输入装置43可用于接收输入的数字或者字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获取视频数据中音频的拾音计算机设备。输出装置44可以包括显示屏等视频计算机设备以及扬声器等音频计算机设备。需要说明的是,输入装置43和输出装置44的具体组成可以根据实际情况设定。
处理器40通过运行存储在存储装置41中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的视频处理方法。
具体的,实施例中,处理器40执行存储装置41中存储的一个或多个程序时,具体实现如下操作:获取当前视频帧,并确定所述当前视频帧与上一视频帧的视频帧相似度;根据所述视频帧相似度及设定个数的判定阈值,确定深度全卷积神经网络中各卷积层相对所述当前视频帧的卷积处理权限,所述深度全卷积神经网络预先训练获得,所述卷积处理权限包括允许处理和拒绝处理;根据各所述卷积处理权限,通过所述深度全卷积神经网络处理所述当前视频帧,获得所述当前视频帧对应的目标视频帧。
本发明实施例还提供一种计算机可读存储介质,所述存储介质中的程序由计算机设备的处理器执行时,使得计算机设备能够执行如上述实施例所述的视频处理方法。示例性的,上述实施例所述的视频处理方法包括:获取当前视频帧,并确定所述当前视频帧与上一视频帧的视频帧相似度;根据所述视频帧相似度及设定个数的判定阈值,确定深度全卷积神经网络中各卷积层相对所述当前视频帧的卷积处理权限,所述深度全卷积神经网络预先训练获得,所述卷积处理权限包括允许处理和拒绝处理;根据各所述卷积处理权限,通过所述深度全卷积神经网络处理所述当前视频帧,获得所述当前视频帧对应的目标视频帧。
需要说明的是,对于装置、计算机设备、存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明任意实施例所述的视频处理方法。
值得注意的是,上述视频处理装置中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种视频处理方法,其特征在于,包括:
获取当前视频帧,并确定所述当前视频帧与上一视频帧的视频帧相似度;
根据所述视频帧相似度及设定个数的判定阈值,确定深度全卷积神经网络中各卷积层相对所述当前视频帧的卷积处理权限,所述深度全卷积神经网络预先训练获得,所述卷积处理权限包括允许处理和拒绝处理;
根据各所述卷积处理权限,通过所述深度全卷积神经网络处理所述当前视频帧,获得所述当前视频帧对应的目标视频帧。
2.根据权利要求1所述的方法,其特征在于,所述深度全卷积神经网络包括:用于视频帧特征下采样的编码器和用于视频帧特征上采样的解码器;
所述编码器及所述解码器中分别包括所述设定个数的下采样卷积层和上采样卷积层,且一个下采样卷积层对应一个上采样卷积层并建立有跳连接;
各所述判定阈值分别对应所述编码器中的一个下采样卷积层,且各所述判定阈值按照各下采样卷积层的连接顺序依次降低。
3.根据权利要求2所述的方法,其特征在于,所述根据所述视频帧相似度及设定个数的判定阈值,确定深度全卷积神经网络中各卷积层相对所述当前视频帧的卷积处理权限,包括:
按照所述编码器中各下采样卷积层的连接顺序,从各所述判定阈值中选取一个作为当前判定阈值;
如果所述视频帧相似度小于或等于所述当前判定阈值,则确定所述当前判定阈值所对应目标下采样卷积层的卷积处理权限为允许处理,并返回执行新的当前判定阈值的选取操作直至当前判定阈值为末个判定阈值。
4.根据权利要求3所述的方法,其特征在于,还包括:
如果所述视频帧相似度大于所述当前判定阈值,则确定所述当前判定阈值所对应当前下采样卷积层及所述目标下采样卷积层之后各下采样卷积层的卷积处理权限均为拒绝处理。
5.根据权利要求4所述的方法,其特征在于,根据各所述卷积处理权限,通过所述深度全卷积神经网络处理所述当前视频帧,获得所述当前视频帧对应的目标视频帧,包括:
通过所述编码器接收作为输入数据的所述当前视频帧,并记为首个待下采样的待下采样特征图;
通过所述编码器中各下采样卷积层的连接顺序,选定一个下采样卷积层作为当前下采样卷积层;
通过在所述当前下采样卷积层上对所述待下采样特征图的下采样处理,获得对应的当前下采样特征图;
通过所述当前下采样卷积层与所述解码器上所对应目标上采样卷积层的跳连接,处理所述当前下采样特征图,获得所述目标上采样卷积层对应的跳连接特征图;
如果所述当前下采样卷积层的卷积处理权限为拒绝处理,则从所述目标上采样卷积层开始,按照预设的第一上采样策略对所述跳连接特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧。
6.根据权利要求5所述的方法,其特征在于,还包括:
如果所述当前下采样卷积层的卷积处理权限为允许处理,则当所述当前下采样卷积层为非末尾下采样卷积层时,将所述当前下采样特征图作为新的待下采样特征图,返回执行当前下采样卷积层的选取操作。
7.根据权利要求6所述的方法,还包括:
当所述当前下采样卷积层为末尾下采样卷积层时,从所述目标上采样卷积层开始,按照预设的第二上采样策略对所述当前下采样特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧;
其中,所述第一上采样策略与所述第二上采样策略为预先设定的不同策略。
8.根据权利要求5所述的方法,其特征在于,所述从所述目标上采样卷积层开始,按照预设的第一上采样策略对所述跳连接特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧,包括:
a)获取所述上一视频帧在所述目标上采样卷积层上对应的上一待上采样特征图,并获得所述跳连接特征图与所述上一待上采样特征图拼接后的目标融合特征图;
b)通过在所述目标上采样卷积层上对所述目标融合特征图的上采样处理,获得对应的目标上采样特征图,并将所述目标上采样特征图作为新的第一待上采样特征图;
c)判定所述目标上采样卷积层是否为非末尾上采样卷积层,若是,则执行步骤d);若否,则执行步骤h);
d)按照所述解码器中各上采样卷积层的连接顺序,选定一个上采样卷积层作为第一当前上采样卷积层;
e)获得所述第一当前上采样卷积层所对应跳连接特征图与所述第一待上采样特征图拼接后的第一融合特征图;
f)通过在所述第一当前上采样卷积层上对所述第一融合特征图的上采样处理,获得对应的第一当前上采样特征图;
g)将所述第一当前上采样特征图作为新的第一待上采样特征图,并在第一当前上采样卷积层为非末尾卷积层时返回执行步骤d);否则执行步骤h);
h)卷积处理所述第一待上采样特征图,将输出的灰度特征图作为所述当前视频帧的目标视频帧。
9.根据权利要求7所述的方法,其特征在于,从所述目标上采样卷积层开始,按照预设的第二上采样策略对所述当前下采样特征图进行上采样处理,将输出的灰度特征图作为所述当前视频帧的目标视频帧,包括:
a)将所述当前下采样特征图作为第二待上采样特征图;
b)从所述目标上采样卷积层开始,按照所述解码器中各上采样卷积层的连接顺序,选定一个上采样卷积层作为第二当前上采样卷积层;
c)获得所述第二当前上采样卷积层所对应跳连接特征图与所述第二待上采样特征图拼接后的第二融合特征图;
d)通过在所述当前上采样卷积层上对所述第二融合特征图的上采样处理,获得对应的第二当前上采样特征图;
e)将所述第二当前上采样特征图作为新的第二待上采样特征图,并在第二当前上采样卷积层为非末尾卷积层时返回执行步骤b);否则执行步骤f);
f)卷积处理所述第二待上采样特征图,将输出的灰度特征图作为所述当前视频帧的目标视频帧。
10.一种视频处理装置,其特征在于,包括:
相似度确定模块,用于获取当前视频帧,并确定所述当前视频帧与上一视频帧的视频帧相似度;
权限确定模块,用于根据所述视频帧相似度及设定个数的判定阈值,确定深度全卷积神经网络中各卷积层相对所述当前视频帧的卷积处理权限,所述深度全卷积神经网络预先训练获得,所述卷积处理权限包括允许处理和拒绝处理;
视频处理模块,用于根据各所述卷积处理权限,通过所述深度全卷积神经网络处理所述当前视频帧,获得所述当前视频帧对应的目标视频帧。
11.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9任一项所述的视频处理方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9任一项所述的视频处理方法。
CN202010485351.1A 2020-06-01 2020-06-01 视频处理方法、装置、设备及存储介质 Active CN111666863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010485351.1A CN111666863B (zh) 2020-06-01 2020-06-01 视频处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010485351.1A CN111666863B (zh) 2020-06-01 2020-06-01 视频处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111666863A CN111666863A (zh) 2020-09-15
CN111666863B true CN111666863B (zh) 2023-04-18

Family

ID=72385541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010485351.1A Active CN111666863B (zh) 2020-06-01 2020-06-01 视频处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111666863B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019136623A1 (en) * 2018-01-10 2019-07-18 Nokia Technologies Oy Apparatus and method for semantic segmentation with convolutional neural network
CN110060264A (zh) * 2019-04-30 2019-07-26 北京市商汤科技开发有限公司 神经网络训练方法、视频帧处理方法、装置及系统
CN110660023A (zh) * 2019-09-12 2020-01-07 中国测绘科学研究院 一种基于图像语义分割的视频拼接方法
CN110826684A (zh) * 2018-08-08 2020-02-21 北京交通大学 卷积神经网络的压缩方法、装置、电子设备和介质
CN110956219A (zh) * 2019-12-09 2020-04-03 北京迈格威科技有限公司 视频数据的处理方法、装置和电子系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019136623A1 (en) * 2018-01-10 2019-07-18 Nokia Technologies Oy Apparatus and method for semantic segmentation with convolutional neural network
CN110826684A (zh) * 2018-08-08 2020-02-21 北京交通大学 卷积神经网络的压缩方法、装置、电子设备和介质
CN110060264A (zh) * 2019-04-30 2019-07-26 北京市商汤科技开发有限公司 神经网络训练方法、视频帧处理方法、装置及系统
CN110660023A (zh) * 2019-09-12 2020-01-07 中国测绘科学研究院 一种基于图像语义分割的视频拼接方法
CN110956219A (zh) * 2019-12-09 2020-04-03 北京迈格威科技有限公司 视频数据的处理方法、装置和电子系统

Also Published As

Publication number Publication date
CN111666863A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN111327945B (zh) 用于分割视频的方法和装置
CN108805889B (zh) 边缘引导的精细化显著性物体分割方法与系统、设备
JP2005513967A (ja) 情報ストリーム内のコンテンツを検出するアルゴリズムを進化させるための方法、装置、およびプログラム
JP2005328105A (ja) 視覚的に代表するビデオサムネイルの生成
US20210211575A1 (en) Adjusting image capture parameters via machine learning
CN110611846A (zh) 一种短视频自动剪辑方法
CN106027893A (zh) 控制Live Photo生成的方法、装置及电子设备
CN110287877A (zh) 视频目标的处理方法及装置
CN113688832B (zh) 一种模型训练及图像处理方法、装置
KR20210087861A (ko) 비디오 생성 장치 및 이에 의한 비디오 생성 방법
CN111353957A (zh) 图像处理方法、装置、存储介质及电子设备
CN111666863B (zh) 视频处理方法、装置、设备及存储介质
CN114677394A (zh) 抠图方法、装置、摄像设备、会议系统、电子设备及介质
CN112383824A (zh) 视频广告过滤方法、设备及存储介质
CN113139924A (zh) 图像增强方法、电子设备及存储介质
CN117173037A (zh) 一种针对图像降噪的神经网络结构自动搜索方法
CN113542909A (zh) 视频处理方法、装置、电子设备及计算机存储介质
CN113010736A (zh) 一种视频分类方法、装置、电子设备及存储介质
CN110689478A (zh) 图像风格化处理方法、装置、电子设备及可读介质
CN114500879A (zh) 视频数据处理方法、装置、设备及存储介质
CN111583087B (zh) 一种图像去水印方法
CN114299415A (zh) 一种视频切分方法、装置、电子设备以及存储介质
CN114416863A (zh) 用于执行基于模型并行的分布式推理的方法、设备和介质
CN117834949B (zh) 基于边缘智能的实时交互预渲染方法及其装置
CN114422851B (zh) 视频剪辑方法、装置、电子设备和可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231008

Address after: 31a, 15th floor, building 30, maple commercial city, bangrang Road, Brazil

Patentee after: Baiguoyuan Technology (Singapore) Co.,Ltd.

Address before: 5-13 / F, West Tower, building C, 274 Xingtai Road, Shiqiao street, Panyu District, Guangzhou, Guangdong 510000

Patentee before: GUANGZHOU BAIGUOYUAN INFORMATION TECHNOLOGY Co.,Ltd.