CN111641831A - 帧内预测方法、装置、设备及存储介质 - Google Patents
帧内预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111641831A CN111641831A CN201910157695.7A CN201910157695A CN111641831A CN 111641831 A CN111641831 A CN 111641831A CN 201910157695 A CN201910157695 A CN 201910157695A CN 111641831 A CN111641831 A CN 111641831A
- Authority
- CN
- China
- Prior art keywords
- memory unit
- image block
- current image
- memory
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种帧内预测方法、装置、设备及存储介质,属于图像处理技术领域。所述方法包括:以块为单位对待处理图像进行块划分,得到多个图像块,基于当前图像块,通过第一记忆网络模型,确定当前图像块的预测像素值,当前图像块为多个图像块中的任意一个,第一记忆网络模型至少包括依次相连的多级第一记忆单元,多级第一记忆单元用于对多个图像块进行处理,每级第一记忆单元用于对输入的图像块进行处理并将处理结果和/或该第一记忆单元的网络状态参数传递给下一级第一记忆单元。由于该记忆网络模型可以自动学习最佳预测值生成方式,因此,提高了帧内预测的效率,并使得预测泛化能力更强。
Description
技术领域
本申请涉及图像处理技术领域,特别涉及一种帧内预测方法、装置、设备及存储介质。
背景技术
目前,主流的视频压缩编码基于视频图像块,通过预测、变换、量化、熵编码几个过程来实现。其中预测包括帧内预测和帧间预测,帧内预测可以用于消除每帧视频或图像中像素之间的空域冗余。
帧内预测的实现一般包括:从设计的多种帧内预测模式中,采用不断尝试的方式选择一种适用于当前图像块的纹理特性的帧内预测模式,比如选择使得RDO(Rate-Distortion Optimization,速率失真优化)最佳的帧内预测模式,然后利用当前图像块的周围已获得编码重建的像素值,通过所选择的帧内预测模式确定当前图像块的预测像素值,比如当选择的帧内预测模式为DC预测模式时,将周围已获得编码重建的像素值的均值确定为该当前图像块的预测像素值。
然而,为了满足不同的视频序列的纹理特性,当前设计了越来越多的帧内预测模式,比如亮度预测模式从原来的9种增加至35种,如此,上述实现方式中需要经过多次尝试才能确定最佳的帧内预测模式,导致帧内预测的效率较低,且泛化能力较差。
发明内容
本申请实施例提供了一种帧内预测方法、装置、设备及存储介质,可以解决相关技术中帧内预测的效率较低,且泛化能力较差的问题。所述技术方案如下:
第一方面,提供了一种帧内预测方法,所述方法包括:
以块为单位对待处理图像进行块划分,得到多个图像块;
基于当前图像块,通过第一记忆网络模型,确定所述当前图像块的预测像素值,所述当前图像块为所述多个图像块中的任意一个;其中,所述第一记忆网络模型至少包括依次相连的多级第一记忆单元,所述多级第一记忆单元用于对所述多个图像块进行处理,每级第一记忆单元用于对输入的图像块进行处理并将处理结果和/或该第一记忆单元的网络状态参数传递给下一级第一记忆单元。
在本申请的一种可能实现方式中,所述基于当前图像块,通过第一记忆网络模型,确定所述当前图像块的预测像素值,包括:
获取所述当前图像块的周围的相邻图像块中已重建的像素值,基于获取的像素值对所述当前图像块进行像素填充处理,得到所述当前图像块的目标像素值;
将所述当前图像块的目标像素值作为所述第一记忆网络模型的输入,通过所述第一记忆网络模型中所述当前图像块对应的第一记忆单元,输出所述当前图像块的预测像素值。
在本申请的一种可能实现方式中,所述基于当前图像块,通过第一记忆网络模型,确定所述当前图像块的预测像素值,包括:
使用填充像素值对所述当前图像块进行像素填充处理,得到所述当前图像块的目标像素值;
获取所述当前图像块的周围的相邻图像块中已重建的像素值;
将获取的像素值和所述当前图像块的目标像素值作为所述第一记忆网络模型的输入,通过所述第一记忆网络模型中所述当前图像块对应的第一记忆单元,输出所述当前图像块的预测像素值。
在本申请的一种可能实现方式中,所述每级第一记忆单元至少包括依次相连的多个第一子记忆单元,且所述每级第一记忆单元中的每个第一子记忆单元与下一级第一记忆单元中对应位置的第一子记忆单元相连;
对应的,所述通过所述第一记忆网络模型中所述当前图像块对应的第一记忆单元,输出所述当前图像块的预测像素值,包括:
依次通过所述当前图像块对应的第一记忆单元中的每个第一子记忆单元对输入数据进行预测处理,并由所述每个第一子记忆单元将处理结果和网络状态数据传输给下一级第一记忆单元中对应位置的第一子记忆单元;
将所述当前图像块对应的第一记忆单元中最后一个第一子记忆单元输出的处理结果作为所述当前图像块的预测像素值。
第二方面,提供了一种帧内预测方法,其特征在于,所述方法包括:
以块为单位对待处理图像进行块划分,得到多个图像块;
基于当前图像块,通过第二记忆网络模型,确定所述当前图像块的图像特征数据,所述当前图像块为所述多个图像块中的任意一个,所述图像特征数据是所述第二记忆网络模型对当前图像块进行特征提取处理后输出的数据;
其中,所述第二记忆网络模型至少包括依次相连的多级第二记忆单元,所述多级第二记忆单元用于对所述多个图像块进行处理,每级第二记忆单元用于对输入的图像块进行处理并将处理结果和/或该第二记忆单元的网络状态参数传递给下一级第二记忆单元。
在本申请的一种可能实现方式中,所述基于当前图像块,通过第二记忆网络模型,确定所述当前图像块的图像特征数据,包括:
获取当前图像块的原始像素值;
将所述当前图像块的原始像素值作为所述第二记忆网络模型的输入,通过所述第二记忆网络模型中所述当前图像块对应的第二记忆单元,输出所述当前图像块的图像特征数据。
在本申请的一种可能实现方式中,所述每级第二记忆单元至少包括依次相连的多个第二子记忆单元,且所述每级第二记忆单元中的每个第二子记忆单元与下一级第二记忆单元中对应位置的第二子记忆单元连接;
当对所述待处理图像进行编码处理时,所述通过所述第二记忆网络模型中所述当前图像块对应的第二记忆单元,输出所述当前图像块的图像特征数据,包括:
依次通过所述当前图像块对应的第二记忆单元中的每个第二子记忆单元对输入数据进行预测和下采样处理,并由所述每个第二子记忆单元将处理结果和网络状态数据传输给下一级第二记忆单元中对应位置的第二子记忆单元;
将所述当前图像块对应的第二记忆单元中最后一个第二子记忆单元输出的处理结果作为所述当前图像块的图像特征数据。
在本申请的一种可能实现方式中,所述每级第二记忆单元至少包括依次相连的多个第二子记忆单元,且所述每级第二记忆单元中的每个第二子记忆单元与下一级第二记忆单元中对应位置的第二子记忆单元连接;
当对所述待处理图像进行解码处理时,所述通过所述第二记忆网络模型中所述当前图像块对应的第二记忆单元,输出所述当前图像块的图像特征数据,包括:
依次通过所述当前图像块对应的第二记忆单元中的每个第二子记忆单元对输入数据进行预测和上采样处理,并由所述每个第二子记忆单元将处理结果和网络状态数据传输给下一级第二记忆单元中对应位置的第二子记忆单元;
将所述当前图像块对应的第二记忆单元中最后一个第二子记忆单元输出的处理结果作为所述当前图像块的图像特征数据。
第三方面,提供了一种帧内预测装置,所述装置包括:
第一块划分模块,用于以块为单位对待处理图像进行块划分,得到多个图像块;
第一确定模块,用于基于当前图像块,通过第一记忆网络模型,确定所述当前图像块的预测像素值,所述当前图像块为所述多个图像块中的任意一个;其中,所述第一记忆网络模型至少包括依次相连的多级第一记忆单元,所述多级第一记忆单元用于对所述多个图像块进行处理,每级第一记忆单元用于对输入的图像块进行处理并将处理结果和/或该第一记忆单元的网络状态参数传递给下一级第一记忆单元。
在本申请的一种可能实现方式中,所述第一确定模块用于:
获取所述当前图像块的周围的相邻图像块中已重建的像素值,基于获取的像素值对所述当前图像块进行像素填充处理,得到所述当前图像块的目标像素值;
将所述当前图像块的目标像素值作为所述第一记忆网络模型的输入,通过所述第一记忆网络模型中所述当前图像块对应的第一记忆单元,输出所述当前图像块的预测像素值。
在本申请的一种可能实现方式中,所述第一确定模块用于:
使用填充像素值对所述当前图像块进行像素填充处理,得到所述当前图像块的目标像素值;
获取所述当前图像块的周围的相邻图像块中已重建的像素值;
将获取的像素值和所述当前图像块的目标像素值作为所述第一记忆网络模型的输入,通过所述第一记忆网络模型中所述当前图像块对应的第一记忆单元,输出所述当前图像块的预测像素值。
在本申请的一种可能实现方式中,所述第一确定模块用于:
当所述每级第一记忆单元至少包括依次相连的多个第一子记忆单元,且所述每级第一记忆单元中的每个第一子记忆单元与下一级第一记忆单元中对应位置的第一子记忆单元相连时;
依次通过所述当前图像块对应的第一记忆单元中的每个第一子记忆单元对输入数据进行预测处理,并由所述每个第一子记忆单元将处理结果和网络状态数据传输给下一级第一记忆单元中对应位置的第一子记忆单元;
将所述当前图像块对应的第一记忆单元中最后一个第一子记忆单元输出的处理结果作为所述当前图像块的预测像素值。
第四方面,提供了一种帧内预测装置,其特征在于,所述装置包括:
第二块划分模块,用于以块为单位对待处理图像进行块划分,得到多个图像块;
第二确定模块,用于基于当前图像块,通过第二记忆网络模型,确定所述当前图像块的图像特征数据,所述当前图像块为所述多个图像块中的任意一个,所述图像特征数据是所述第二记忆网络模型对当前图像块进行特征提取处理后输出的数据;
其中,所述第二记忆网络模型至少包括依次相连的多级第二记忆单元,所述多级第二记忆单元用于对所述多个图像块进行处理,每级第二记忆单元用于对输入的图像块进行处理并将处理结果和/或该第二记忆单元的网络状态参数传递给下一级第二记忆单元。
在本申请的一种可能实现方式中,所述第二确定模块用于:
获取当前图像块的原始像素值;
将所述当前图像块的原始像素值作为所述第二记忆网络模型的输入,通过所述第二记忆网络模型中所述当前图像块对应的第二记忆单元,输出所述当前图像块的图像特征数据。
在本申请的一种可能实现方式中,所述第二确定模块用于:
所述每级第二记忆单元至少包括依次相连的多个第二子记忆单元,且所述每级第二记忆单元中的每个第二子记忆单元与下一级第二记忆单元中对应位置的第二子记忆单元连接;
当对所述待处理图像进行编码处理时,依次通过所述当前图像块对应的第二记忆单元中的每个第二子记忆单元对输入数据进行预测和下采样处理,并由所述每个第二子记忆单元将处理结果和网络状态数据传输给下一级第二记忆单元中对应位置的第二子记忆单元;
将所述当前图像块对应的第二记忆单元中最后一个第二子记忆单元输出的处理结果作为所述当前图像块的图像特征数据。
在本申请的一种可能实现方式中,所述第二确定模块用于:
所述每级第二记忆单元至少包括依次相连的多个第二子记忆单元,且所述每级第二记忆单元中的每个第二子记忆单元与下一级第二记忆单元中对应位置的第二子记忆单元连接;
当对所述待处理图像进行解码处理时,依次通过所述当前图像块对应的第二记忆单元中的每个第二子记忆单元对输入数据进行预测和上采样处理,并由所述每个第二子记忆单元将处理结果和网络状态数据传输给下一级第二记忆单元中对应位置的第二子记忆单元;
将所述当前图像块对应的第二记忆单元中最后一个第二子记忆单元输出的处理结果作为所述当前图像块的图像特征数据。
第五方面,提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为实现上述第一方面所述的帧内预测方法。
第六方面,提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为实现上述第二方面所述的帧内预测方法。
第七方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述第一方面所述的帧内预测方法。
第八方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述第二方面所述的帧内预测方法。
第九方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的帧内预测方法。
第十方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第二方面所述的帧内预测方法。
本申请实施例提供的技术方案带来的有益效果是:
以块为单位对待处理图像进行块划分,得到多个图像块,然后基于当前图像块,通过预先已训练的第一记忆网络模型确定当前图像块的预测像素值,该当前图像块为多个图像块中的任意一个。由于该第一记忆网络模型可以自动学习最佳预测值生成方式,因此提高了帧内预测效率,并使得预测泛化能力更强。另外,由于该第一记忆网络模型至少包括依次相连的多级第一记忆单元,每级第一记忆单元能够用于对输入的图像块进行处理并将处理结果和/或该第一记忆单元的网络状态参数传递给下一级第一记忆单元,即该第一记忆网络模型具有记忆功能,能够记忆当前时刻之前的数据,因此可以记忆图像或视频图像中已重建的图像块的结构信息和纹理特征,使得预测可利用的信息不仅局限于相邻的像素值,从而使得更大程度的降低冗余,提高了编解码效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种LSTM单元的展开示意图;
图2是根据一示例性实施例示出的一种视频编码的框架示意图;
图3是根据一示例性实施例示出的多种帧内预测模式的示意图;
图4是根据一示例性实施例示出的一种视频图像的纹理示意图;
图5是根据一示例性实施例示出的一种帧内预测方法的流程图;
图6是根据另一示例性实施例示出的一种帧内预测方法的流程图;
图7是根据一示例性实施例示出的一种前后块处理顺序的示意图;
图8是根据一示例性实施例示出的一种帧内预测的实现框架图;
图9是根据一示例性实施例示出的一种LSTM单元的内部结构示意图;
图10是根据另一示例性实施例示出的一种帧内预测方法的流程图;
图11是根据另一示例性实施例示出的一种帧内预测方法的流程图;
图12是根据另一示例性实施例示出的一种帧内预测的实现框架图;
图13是根据一示例性实施例示出的一种编解码过程的示意图;
图14是根据另一示例性实施例示出的一种帧内预测的实现框架图;
图15是根据一示例性实施例示出的一种帧内预测装置的结构示意图;
图16是根据另一示例性实施例示出的一种帧内预测装置的结构示意图;
图17是根据另一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例提供的帧内预测方法进行详细介绍之前,先对本申请实施例涉及的名词、应用场景和实施环境进行简单介绍。
首先,对本申请实施例涉及的名词进行简单介绍。
记忆神经网络:是一种具有记忆功能的神经网络,每一时刻的网络输入不仅包括当前时刻的输入数据,还依赖当前时刻之前的处理结果和/或网络状态参数。常见的记忆神经网络包括RNN(Recurrent Neural Network,循环神经网络)模型和LSTM(Long Short-Term Memory,长短期记忆)模型。
RNN模型:存储了前一时刻的网络信息(比如一些网络参数等),下一时刻处理中,前一时刻的网络信息会连同下一时刻的输入数据一起输入至网络模型中。
LSTM模型:是一种特殊的RNN模型,能够处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM网络模型中的LSTM单元包括记忆单元、输入门、输出门和遗忘门,输入门用来控制信息进入记忆单元,遗忘门用来控制记忆单元中信息的更新,输出门用来控制记忆单元中信息的输出。通过三个门控制了“记忆”影响。
图1是本发明实施例提供的一种LSTM网络模型的逻辑结构示意图,如图1左侧所示,该LSTM网络模型包括LSTM单元,且LSTM单元为环形结构,对于LSTM单元执行的任一时间步骤t来说,该LSTM单元可以对时间步骤t的输入数据xt和上一个时间步骤t-1的输出数据ft-1进行处理,得到时间步骤t的输出数据ft。
如图1右侧所示,在按照时间顺序展开之后的LSTM网络模型中,LSTM单元接收到时间步骤t1的输入数据x1之后,可以对x1进行处理得到时间步骤t1的输出数据f1,然后将f1再输入LSTM单元,LSTM单元接收到时间步骤t2的输入数据x2之后,可以对f1和x2进行处理,得到时间步骤t2的输出数据f2,直至基于时间步骤tn的输入数据xn和时间步骤tn-1的输出数据fn-1得到时间步骤tn的输出数据fn为止。其中,n为LSTM网络模型循环处理输入数据的次数。
其次,对本申请实施例涉及的应用场景进行简单介绍。
请参考图2,该图2是根据一示例性实施例示出的一种视频编码的架构示意图,该编码主要包括预测(帧内预测/帧间预测)、变换、量化、熵编码几个过程,以分别从不同维度去除冗余。譬如,帧内预测可以降低一帧视频图像中像素间的空域冗余,帧间预测可以降低像素间的时域冗余,变换技术可以将空域信号变换到频域,有效去除信号间的相关性,并将残差能量集中于低频,熵编码技术可以基于信息熵去除信源符号在信息表达上的表示冗余。在一种可能实现方式中,该视频编码还可以包括反量化/反变换、重建图像、环内滤波等过程,其中,该环内滤波又可以包括去方块滤波(deblocking filter)处理和SAO(sampleadaptive offset filter,样本自适应缩进滤波)处理,本申请实施例对此不做详细介绍。
本申请接下来主要针对帧内预测的实现进行详细介绍。传统的帧内预测技术通过设计不同的方向性的帧内预测模式(如图3所示,示例性的示出了H.265的35种帧内预测模式),充分挖掘当前图像块与相邻已重建的像素值之间的空间相关性。其中,帧内预测模式的设计考虑了视频图像的空间纹理特征,如平滑区域一般使用DC预测模式,垂直、水平纹理一般使用垂直、水平预测模式,其他还有一系列的方向性的帧内预测模式可以用于各种方向的纹理的预测。
在一些实施例中,一般可以利用当前图像块的上边最邻近图像块和左边最邻近图像块的已重建的像素值,选定最佳的帧内预测模式确定该当前图像块的预测像素值。然而,在选择最佳的帧内预测模式时需要不断尝试各种帧内预测模式,导致帧内预测效率较低,泛化能力较差,并且,在传输码流时还需要在该码流中传递所使用的帧内预测模式。另外,当仅利用上边和左边最邻近的一行的已重建的像素值时,在预测中会缺少结构化信息,可利用的信息比较少,使得帧内预测的结果可能不准确,而当利用上边和左边最邻近的多行已重建的像素值时,会增加记忆单元的开销。除此之外,传统的帧内预测模式对于非线性的纹理不能进行很好的预测,并且,由于传统的帧内预测模式依赖于有限的周围已重建的像素值,对重复纹理无跨区域的预测能力。如图4所示的重复的圆弧性纹理,利用方向性的帧内预测模式无法预测弧形线条,图像的纹理特征是基本元素的重复,传统的帧内预测模式也无法记忆。为此,本申请实施例提供了一种帧内预测方法,该方法可以解决上述存在的各种缺陷,其具体实现请参见如下各个实施例。
接下来,对本申请实施例涉及的实施环境进行简单介绍。
本申请实施例提供的帧内预测方法可以由电子设备来执行,该电子设备可以具有对任意图像或者视频图像进行压缩编码或者解码的功能。在一些实施例中,该电子设备可以为笔记本电脑、平板电脑、台式计算机、便携式计算机等等,本申请实施例对此不做限定。
在介绍完本申请实施例涉及的应用场景和实施环境后,接下来将结合附图对本申请实施例提供的帧内预测方法进行详细介绍。
图5是根据一示例性实施例示出的一种帧内预测方法的流程图,该帧内预测可以由电子设备来执行,该方法可以包括如下几个步骤:
其中,待处理图像可以是任意的图像,或者视频图像,或者是待编码图像或是待解码的图像数据。
步骤501:以块为单位对待处理图像进行块划分,得到多个图像块。
其中,块的尺寸可以为参考尺寸,该参考尺寸可以根据实际需求进行设置,且该参考尺寸的数量可以为一个,也可以为多个。在本申请的一种可能实现方式中,当该参考尺寸的数量为一个时意味着划分得到的多个图像块的尺寸相同,针对该种情况,在后续处理时可以使用同一个第一记忆网络模型进行处理;当该参考尺寸的数量为多个时意味着划分得到的多个图像块的尺寸不相同,针对该种情况,每种尺寸对应一个第一记忆网络模型,在后续处理时可以分别通过每种尺寸对应的第一记忆网络模型对该每种尺寸的图像块进行处理。
另外,这里不对块的形状做限定,该多个图像块的形状可以相同,也可以不同,同理,不同形状的图像块对应不同的第一记忆网络模型。
在一些实施例中,该电子设备可以将该待处理图像划分为多个大的图像块(比如2S*2S尺寸的),进一步可以将每个大的图像块划分为多个的小的图像块(比如S*S尺寸的),从而得到多个图像块进行处理,譬如,每个2S*2S的大的图像块包括4个S*S的小的图像块,此时,每个2S*2S的大的图像块可以单独作为一个图像单元进行处理,即在后续处理过程中不同大的图像块之间可以相互独立,互不影响。其中,该S为大于1的整数,比如该S可以为32。
需要说明的是,在本申请的一种可能实现方式中,当对该待处理图像的处理为编码处理时,该待处理图像是指该电子设备预发送给对端的图像,而当对该待处理图像的处理为解码处理时,该待处理图像是指由电子设备基于对端发送来的码流中携带的图像信息经过重建得到,其中,该码流携带的图像信息包括但不限于图像宽度、图像高度、图像像素值、图像编码规则。
步骤502:基于当前图像块,通过第一记忆网络模型,确定该当前图像块的预测像素值,该当前图像块为多个图像块中的任意一个,其中,该第一记忆网络模型至少包括依次相连的多级第一记忆单元,该多级第一记忆单元用于对该多个图像块进行处理,每级第一记忆单元用于对输入的图像块进行处理并将处理结果和/或该第一记忆单元的网络状态参数传递给下一级第一记忆单元。
在实施中,可以获取当前图像块的像素信息,将当前图像块的像素信息输入至该第一记忆网络模型中,使得该第一记忆网络模型基于当前图像块的像素信息,对该当前图像块进行预测处理,并输出当前图像块的预测像素值。
如前文所述,在划分时由于可以将图像或者视频图像可以先划分为多个大的图像块(比如每个大的图像块为2S*2S),然后进一步划分为每个大的图像块划分为多个小的图像块(比如每个小的图像块为S*S),得到该多个图像块,因此,电子设备可以按批对该多个图像块进行处理,每一批图像块包括多个小的图像块。在实施中,可以从多个图像块中选取该第一记忆单元的级数个图像块,得到第一批图像块,然后按照前后块处理顺序,分别将选取的每个图像块的像素信息依次输入至对应的第一记忆单元中,由对应的第一记忆单元分别进行预测处理,以确定选取的每个图像块的预测像素值。之后,该电子设备再继续按照上述实现方式选取下一批图像块进行处理,直到处理完所有图像块为止。
其中,该前后块处理顺序可以为光栅顺序,该光栅顺序又称为Z型顺序。或者,该前后块处理顺序也可以为回环顺序。
在本申请的一种可能实现方式中,在使用可以该第一记忆网络模型之前,可以基于训练样本对待训练的记忆神经网络模型进行训练,从而得到该第一记忆网络模型,使得该第一记忆网络模型能够基于任一图像或视频图像中的图像块确定该图像块的预测像素值。其中,该训练样本需要保证网络模型的泛化性,可以根据实际需求进行选取,譬如,该训练样本可以包括多个图像块样本和该多个图像块样本中每个图像块样本的原始像素值。
另外,在一些实施例中,记忆神经网络模型可以为LSTM模型,或者,还可以为RNN模型,本申请实施例对此不做限定。
在本申请实施例中,以块为单位对待处理图像进行块划分,得到多个图像块,然后基于当前图像块,通过预先已训练的第一记忆网络模型确定当前图像块的预测像素值,该当前图像块为多个图像块中的任意一个。由于该第一记忆网络模型可以自动学习最佳预测值生成方式,因此提高了帧内预测效率,并使得预测泛化能力更强。另外,由于该第一记忆网络模型至少包括依次相连的多级第一记忆单元,每级第一记忆单元能够用于对输入的图像块进行处理并将处理结果和/或该第一记忆单元的网络状态参数传递给下一级第一记忆单元,即该第一记忆网络模型具有记忆功能,能够记忆当前时刻之前的数据,因此可以记忆图像或视频图像中已重建的图像块的结构信息和纹理特征,使得预测可利用的信息不仅局限于相邻的像素值,从而使得更大程度的降低冗余,提高了编解码效率。
需要说明的是,在实施中,上述基于该多个图像块通过第一记忆网络模型确定该多个图像块中每个图像块的预测像素值的实现方式可以包括多种,根据实现方式不同,接下来将分别通过如下图6和图10实施例进行详细介绍。
图6是根据另一示例性实施例示出的一种帧内预测方法的流程图,本实施例以该帧内预测方法应用于电子设备中进行举例说明,该方法可以包括如下几个步骤:
步骤601:以块为单位对待处理图像进行块划分,得到多个图像块。
其中,待处理图像可以是任意的图像,或者视频图像,或者是待编码图像或是待解码的图像数据。
其中,块的尺寸可以为参考尺寸,该参考尺寸可以根据实际需求进行设置,且该参考尺寸的数量可以为一个,也可以为多个。在本申请的一种可能实现方式中,当该参考尺寸的数量为一个时意味着划分得到的多个图像块的尺寸相同,针对该种情况,在后续处理时可以使用同一个第一记忆网络模型进行处理;当该参考尺寸的数量为多个时意味着划分得到的多个图像块的尺寸不相同,针对该种情况,每种尺寸对应一个第一记忆网络模型,在后续处理时可以分别通过每种尺寸对应的第一记忆网络模型对该每种尺寸的图像块进行处理。
另外,这里不对块的形状做限定,该多个图像块的形状可以相同,也可以不同,同理,不同形状的图像块对应不同的第一记忆网络模型。
在一些实施例中,该电子设备可以将该待处理图像划分为2S*2S,进一步可以划分为S*S进行处理,即每个2S*2S的大的图像块包括多个S*S的小的图像块,此时,每个2S*2S的大的图像块可以单独作为一个图像单元进行处理,即在后续处理过程中不同大的图像块之间可以相互独立,互不影响。其中,该S为大于1的整数,比如该S可以为32。
需要说明的是,当对该待处理图像的处理为编码处理时,该待处理图像是指该电子设备预发送给对端的图像,而当对该待处理图像的处理为解码处理时,该待处理图像是指由电子设备基于对端发送来的码流中携带的图像信息经过重建得到,其中,该码流携带的图像信息包括但不限于图像宽度、图像高度、图像像素值、图像编码规则。
步骤602:获取该当前图像块的周围的相邻图像块中已重建的像素值,基于获取的像素值对该当前图像块进行像素填充处理,得到该当前图像块的目标像素值。
如前文所述,在划分时由于可以将图像或者视频图像可以先划分为大的图像块(比如每个大的图像块为2S*2S),然后进一步划分为多个小的图像块(比如每个小的图像块为S*S)进行处理,因此,电子设备可以按批对该多个图像块进行处理,每一批图像块包括多个小的图像块。在实施中,可以从多个图像块中选取该第一记忆单元的级数个图像块,得到第一批图像块,然后按照前后块处理顺序,分别对选取的每个图像块进行处理。
其中,该前后块处理顺序可以为光栅顺序,该光栅顺序又称为Z型顺序。或者,该前后块处理顺序也可以为回环顺序。其中,光栅顺序如图7中左侧的(a)所示,回环顺序如图7中右侧的(b)所示。譬如,请参考图8,假设该第一记忆网络模型包括4级记忆单元,电子设备第n批处理的多个图像块包括Block1、Block2、Block3和Block4,如果该前后块处理顺序为光栅顺序,则电子设备按照图7中左侧的(a)所示的顺序依次对图像块Block1、Block2、Block3和Block4进行处理。
在对当前图像块进行处理的过程中,该电子设备需要为该当前图像块设置目标像素值,在实施中,获取该当前图像块的周围的相邻图像块中已重建的像素值,基于获取的像素值对该当前图像块进行像素填充处理,得到该当前图像块的目标像素值。
其中,周围的相邻图像块中已重建的像素值可以根据实际需求来选取,比如,该周围的相邻图像块中已重建的像素值可以包括该当前图像块的上边和左边最邻近的图像块中已重建的多行像素值,或者,该周围的相邻图像块中已重建的像素值还可以包括该当前图像块的上边图像块和右上边图像块中已重建的多行像素值,等等。请参考图8,假设该当前图像块为Block3,该当前图像块的周围的相邻图像块中已重建的像素值可以包括Block1和Block2的像素值。然后,电子设备基于获取的像素值对该当前图像块进行像素填充处理,比如在一些实施例中,可以确定获取的像素值的平均值,使用确定的平均值对该当前图像块进行像素填充处理,从而得到该当前图像块的目标像素值。
需要说明的是,上述周围的相邻图像块中已重建的像素值包括大不限于相邻图像块,也即是,也可以是相邻区域内的一个或多个图像块,比如可以为次相邻图像块。
步骤603:将该当前图像块的目标像素值作为第一记忆网络模型的输入,通过该第一记忆网络模型中当前图像块对应的第一记忆单元,输出当前图像块的预测像素值。
该第一记忆网络模型包括多级第一记忆单元,该第一记忆网络模型每次通过其中的一级第一记忆单元对对应的图像块的目标像素值进行处理,比如,请参考图8,假设该当前图像块为Block1,则该第一记忆网络模型通过Block1对应的第一记忆单元对Block1的目标像素值进行处理输出Block1的预测像素值;下一时刻通过Block2对应的第一记忆单元对Block2的目标像素值进行处理,依次类推,直到处理完一批图像块后,针对下一批图像块继续按照上述执行过程依次进行处理。
其中,该第一记忆网络模型可以是基于多个图像块样本和该多个图像块样本中每个图像块样本的原始像素值,对待训练的记忆神经网络模型进行训练得到。也即是,通过该第一记忆网络模型确定该当前图像块的预测像素值之前,可以获取多个图像块样本和每个图像块样本的原始像素值。然后将该多个图像块样本和每个图像块样本的原始像素值输入至该待训练的记忆神经网络模型中进行深度学习,直到记忆神经网络模型输出的像素值与原始像素值十分接近时,将得到的记忆神经网络模型确定为第一记忆网络模型。
在本申请的一种可能实现方式中,记忆神经网络模型可以为LSTM模型,或者,还可以为RNN模型,本申请实施例对此不做限定。
当该待训练的记忆神经网络模型为LSTM模型时,经过训练后得到的第一记忆网络模型中的每级记忆单元包括多个LSTM单元,每个LSTM单元的内部结构如图9所示,其中,包括遗忘门、输入门和输出门,x表示每个LSTM单元的输入,xt表示t时刻的输入,h表示LSTM单元的输出,ht表示t时刻LSTM单元的输出,ht-1表示前一时刻LSTM单元的输出传输到当前时刻的LSTM单元中;C表示LSTM单元的网络状态参数,Ct表示t时刻LSTM单元的网络状态参数,σ表示带激活函数sigmoid的神经网络层,tanh表示带激活函数tanh的神经网络层。在实施中,当前时刻的LSTM单元中的ht和Ct可以基于上一时刻的LSTM单元输出的ht-1和Ct-1,通过如下6个公式确定:
Ct=ft*Ct-1+it*gt;
ht=ot*tanh(Ct-1);
ft=σ(Wf[ht-1,xt]+bf);
it=σ(Wi[ht-1,xt]+bi);
Ot=σ(Wo[ht-1,xt]+bo);
gt=tanh(Wg[ht-1,xt]+bg)
其中,W*表示对应层的权重系数,b*表示对应的偏移参数,该权重系统和该偏移参数可以通过训练确定。
在本申请的一种可能实现方式中,该第一记忆网络模型还可以包括CNN(Convolutional Neural Networks,卷积神经网络)层,以通过该CNN层对LSTM单元输出的预测像素值进行卷积处理,将卷积处理后的结果作为最终输出结果。其中,CNN层的卷积核和尺寸等参数可以根据实际需求进行设置,譬如,卷积核可以设为1024(32*32),尺寸可以设为3*3。
在本申请的一种可能实现方式中,该每级第一记忆单元至少包括依次相连的一个或多个第一子记忆单元,且该每级第一记忆单元中的每个第一子记忆单元与下一级第一记忆单元中对应位置的第一子记忆单元相连。对应的,通过该第一记忆网络模型中该当前图像块对应的第一记忆单元,输出该当前图像块的预测像素值,包括:依次通过该当前图像块对应的第一记忆单元中的每个第一子记忆单元对输入数据进行预测处理,并由该每个第一子记忆单元将处理结果和网络状态数据传输给下一级第一记忆单元中对应位置的第一子记忆单元;将该当前图像块对应的第一记忆单元中最后一个第一子记忆单元输出的处理结果作为该当前图像块的预测像素值。
在具体实施中,令e=1,通过该当前图像块对应的第一记忆单元中的第e个第一子记忆单元对输入数据进行预测处理,将处理结果和该第e个第一子记忆单元的网络状态参数传输给下一级第一记忆单元中对应位置的第一子记忆单元,以及将处理结果传输给该当前图像块对应的第一记忆单元中与该第e个第一子记忆单元连接的第e+1个第一子记忆单元,并将该处理结果重新确定为该输入数据;当该e小于该每级第一记忆单元包括的多个第一子记忆单元的数量时,令e=e+1,并返回该通过该当前图像块对应的第一记忆单元中的第e个第一子记忆单元对输入数据进行预测处理的操作;直到该e等于该每级第一记忆单元包括的多个第一子记忆单元的数量时,将处理结果作为该当前图像块的预测像素值输出。
譬如,请参考图8,假设当前图像块为Block3,将该Block3的目标像素值输入至该第一记忆网络模型后,该第一记忆网络模型通过Block3对应的第一记忆单元进行处理,该第一记忆单元包括3个LSTM单元(相当于第一子记忆单元)。首先,该目标像素值输入至该Block3对应的第一记忆单元中的第一个LSTM单元,该第一个LSTM单元进行预测处理,得到处理结果,将该处理结果传递给Block3对应的第一记忆单元中的第二个LSTM单元,并将该处理结果和第一个LSTM单元中的网络状态参数传递给Block4对应的第一记忆单元中的第一个LSTM单元。Block3对应的第一记忆单元中的第二个LSTM单元对接收的处理结果进行预测处理,将处理后得到的处理结果传输给Block3对应的第一记忆单元中的第三个LSTM单元,并将该处理结果和第二个LSTM单元中的网络状态参数传递给Block4对应的第一记忆单元中的第二个LSTM单元。Block3对应的第一记忆单元中的第三个LSTM单元对接收的处理结果进行预测处理,将处理后得到的处理结果传输给Block3对应的第一记忆单元中的CNN,并将该处理结果和第三个LSTM单元中的网络状态参数传递给Block4对应的第一记忆单元中的第三个LSTM单元。最终CNN将卷积处理后的数据输出,得到该Block3的预测像素值。
需要说明的是,上述步骤602和步骤603为基于当前图像块,通过第一记忆网络模型,确定当前图像块的预测像素值的具体实现。
在本申请实施例中,以块为单位对待处理图像进行块划分,得到多个图像块,然后基于当前图像块,通过预先已训练的第一记忆网络模型确定当前图像块的预测像素值,该当前图像块为多个图像块中的任意一个。由于该第一记忆网络模型可以自动学习最佳预测值生成方式,因此提高了帧内预测效率,并使得预测泛化能力更强。另外,由于该第一记忆网络模型至少包括依次相连的多级第一记忆单元,每级第一记忆单元能够用于对输入的图像块进行处理并将处理结果和/或该第一记忆单元的网络状态参数传递给下一级第一记忆单元,即该第一记忆网络模型具有记忆功能,能够记忆当前时刻之前的数据,因此可以记忆图像或视频图像中已重建的图像块的结构信息和纹理特征,使得预测可利用的信息不仅局限于相邻的像素值,从而使得更大程度的降低冗余,提高了编解码效率。
图10是根据另一示例性实施例示出的一种帧内预测方法的流程图,本实施例以该帧内预测方法应用于电子设备中进行举例说明,该方法可以包括如下几个步骤:
步骤1001:以块为单位对待处理图像进行块划分,得到多个图像块。
其中,待处理图像可以是任意的图像,或者视频图像,或者是待编码图像或是待解码的图像数据。
其中,块的尺寸可以为参考尺寸,该参考尺寸可以根据实际需求进行设置,且该参考尺寸的数量可以为一个,也可以为多个。在本申请的一种可能实现方式中,当该参考尺寸的数量为一个时意味着划分得到的多个图像块的尺寸相同,针对该种情况,在后续处理时可以使用同一个第一记忆网络模型进行处理;当该参考尺寸的数量为多个时意味着划分得到的多个图像块的尺寸不相同,针对该种情况,每种尺寸对应一个第一记忆网络模型,在后续处理时可以分别通过每种尺寸对应的第一记忆网络模型对该每种尺寸的图像块进行处理。
另外,这里不对块的形状做限定,该多个图像块的形状可以相同,也可以不同,同理,不同形状的图像块对应不同的第一记忆网络模型。
在一些实施例中,该电子设备可以将待处理图像划分为多个大的图像块(比如2S*2S尺寸的),进一步可以将每个大的图像块划分为多个的小的图像块(比如S*S尺寸的),从而得到多个图像块进行处理,譬如,每个2S*2S的大的图像块包括4个S*S的小的图像块,此时,每个2S*2S的大的图像块可以单独作为一个图像单元进行处理,即在后续处理过程中不同大的图像块之间可以相互独立,互不影响。其中,该S为大于1的整数,比如该S可以为32。
需要说明的是,当对该待处理图像的处理为编码处理时,该待处理图像是指该电子设备预发送给对端的图像,而当对该待处理图像的处理为解码处理时,该待处理图像是指由电子设备基于对端发送来的码流中携带的图像信息经过重建得到,其中,该码流携带的图像信息包括但不限于图像宽度、图像高度、图像像素值、图像编码规则。
步骤1002:使用填充像素值对该当前图像块进行像素填充处理,得到该当前图像块的目标像素值。
如前文所述,在划分时由于可以将图像或者视频图像可以先划分为大的图像块(比如每个大的图像块为2S*2S),然后进一步划分为多个小的图像块(比如每个小的图像块为S*S)进行处理,因此,电子设备可以按批对该多个图像块进行处理,每一批图像块包括多个小的图像块。在实施中,可以从多个图像块中选取该第一记忆单元的级数个图像块,得到第一批图像块,然后按照前后块处理顺序,分别对选取的每个图像块进行处理。
其中,该前后块处理顺序可以为光栅顺序,该光栅顺序又称为Z型顺序。或者,该前后块处理顺序也可以为回环顺序。其中,光栅顺序如图7中左侧的(a)所示,回环顺序如图7中右侧的(b)所示。譬如,请参考图8,假设该第一记忆网络模型包括4级记忆单元,电子设备第n批处理的多个图像块包括Block1、Block2、Block3和Block4,如果该前后块处理顺序为光栅顺序,则电子设备按照图7中左侧的(a)所示的顺序依次对图像块Block1、Block2、Block3和Block4进行处理。
在对当前图像块进行处理的过程中,该电子设备需要为该当前图像块设置目标像素值,电子设备可以使用填充像素值对该当前图像块进行像素填充处理,得到该当前图像块的目标像素值。也即是,可以使用默认的填充像素值来对当前图像块进行填充,从而得到该当前图像块的目标像素值。
其中,该填充像素值可以由用户根据实际需求自定义设置,也可以由该电子设备默认设置,譬如,该填充像素值可以为128等,本申请实施例对此不做限定。
步骤1003:获取当前图像块的周围的相邻图像块中已重建的像素值。
其中,该当前图像块的周围的相邻图像块中已重建的像素值可以根据实际需求来选取,比如,该周围的相邻图像块中已重建的像素值可以包括该当前图像块的上边和左边最邻近的图像块中已重建的多行像素值,或者,该周围的相邻图像块中已重建的像素值还可以包括该当前图像块的上边最邻近图像块和右上边最邻近图像块的像素值,等等。
需要说明的是,上述周围的相邻图像块中已重建的像素值包括大不限于相邻图像块,也即是,也可以是相邻区域内的一个或多个图像块,比如可以为次相邻图像块。
步骤1004:将获取的像素值和该当前图像块的目标像素值作为该第一记忆网络模型的输入,通过该第一记忆网络模型中该当前图像块对应的第一记忆单元,输出该当前图像块的预测像素值。
在本实施例中,不仅将当前图像块的目标像素值作为输入数据,还将该当前图像块的周围的相邻图像块中已重建的像素值也一起作为输入数据,如此可以提高对图像块的预测性能。
该第一记忆网络模型包括多级第一记忆单元,该第一记忆网络模型每次通过其中的一级第一记忆单元对对应的图像块的输入数据进行处理,其中,该输入数据包括获取的像素值和该当前图像块的目标像素值。比如,请参考图8,假设该当前图像块为Block1,则该第一记忆网络模型通过Block1对应的第一记忆单元对Block1的输入数据进行处理输出Block1的预测像素值;下一时刻通过Block2对应的第一记忆单元对Block2的输入数据进行处理,依次类推,直到处理完一批图像块后,针对下一批图像块继续按照上述执行过程依次进行处理。
其中,该第一记忆网络模型可以是基于多个图像块样本和该多个图像块样本中每个图像块样本的原始像素值,对待训练的记忆神经网络模型进行训练得到。也即是,通过该第一记忆网络模型确定该当前图像块的预测像素值之前,可以获取多个图像块样本和每个图像块样本的原始像素值。然后将该多个图像块样本和每个图像块样本的原始像素值输入至该待训练的记忆神经网络模型中进行深度学习,直到记忆神经网络模型输出的像素值与原始像素值十分接近时,将得到的记忆神经网络模型确定为第一记忆网络模型。
在本申请的一种可能实现方式中,记忆神经网络模型可以为LSTM模型,或者,还可以为RNN模型,本申请实施例对此不做限定。
当该待训练的记忆神经网络模型为LSTM模型时,经过训练后得到的第一记忆网络模型中的每级记忆单元包括多个LSTM单元,每个LSTM单元的内部结构如图9所示,其中,包括遗忘门、输入门和输出门,x表示每个LSTM单元的输入,xt表示t时刻的输入,h表示LSTM单元的输出,ht表示t时刻LSTM单元的输出,ht-1表示前一时刻LSTM单元的输出传输到当前时刻的LSTM单元中;C表示LSTM单元的网络状态参数,Ct表示t时刻LSTM单元的网络状态参数,σ表示带激活函数sigmoid的神经网络层,tanh表示带激活函数tanh的神经网络层。在实施中,当前时刻的LSTM单元中的ht和Ct可以基于上一时刻的LSTM单元输出的ht-1和Ct-1,通过如下6个公式确定:
Ct=ft*Ct-1+it*gt;
ht=ot*tanh(Ct-1);
ft=σ(Wf[ht-1,xt]+bf);
it=σ(Wi[ht-1,xt]+bi);
Ot=σ(Wo[ht-1,xt]+bo);
gt=tanh(Wg[ht-1,xt]+bg)
其中,W*表示对应层的权重系数,b*表示对应的偏移参数,该权重系统和该偏移参数可以通过训练确定。
在本申请的一种可能实现方式中,该第一记忆网络模型还可以包括CNN(Convolutional Neural Networks,卷积神经网络)层,以通过该CNN层对LSTM单元输出的预测像素值进行卷积处理,将卷积处理后的结果作为最终输出结果。其中,CNN层的卷积核和尺寸等参数可以根据实际需求进行设置,譬如,卷积核可以设为1024(32*32),尺寸可以设为3*3。
在本申请的一种可能实现方式中,该每级第一记忆单元至少包括依次相连的一个或多个第一子记忆单元,且该每级第一记忆单元中的每个第一子记忆单元与下一级第一记忆单元中对应位置的第一子记忆单元相连。对应的,通过该第一记忆网络模型中该当前图像块对应的第一记忆单元,输出该当前图像块的预测像素值,包括:依次通过该当前图像块对应的第一记忆单元中的每个第一子记忆单元对输入数据进行预测处理,并由该每个第一子记忆单元将处理结果和网络状态数据传输给下一级第一记忆单元中对应位置的第一子记忆单元;将该当前图像块对应的第一记忆单元中最后一个第一子记忆单元输出的处理结果作为该当前图像块的预测像素值。
在具体实施中,令e=1,通过该当前图像块对应的第一记忆单元中的第e个第一子记忆单元对输入数据进行预测处理,将处理结果和该第e个第一子记忆单元的网络状态参数传输给下一级第一记忆单元中对应位置的第一子记忆单元,以及将处理结果传输给该当前图像块对应的第一记忆单元中与该第e个第一子记忆单元连接的第e+1个第一子记忆单元,并将该处理结果重新确定为该输入数据;当该e小于该每级第一记忆单元包括的多个第一子记忆单元的数量时,令e=e+1,并返回该通过该当前图像块对应的第一记忆单元中的第e个第一子记忆单元对输入数据进行预测处理的操作;直到该e等于该每级第一记忆单元包括的多个第一子记忆单元的数量时,将处理结果作为该当前图像块的预测像素值输出。
譬如,请参考图8,假设当前图像块为Block3,将该Block3的输入数据输入至该第一记忆网络模型后,该第一记忆网络模型通过Block3对应的第一记忆单元进行处理,该第一记忆单元包括3个LSTM单元(相当于第一子记忆单元)和CNN。首先,该输入数据输入至该Block3对应的第一记忆单元中的第一个LSTM单元,该第一个LSTM单元进行预测处理,得到处理结果,将该处理结果传递给Block3对应的第一记忆单元中的第二个LSTM单元,并将该处理结果和第一个LSTM单元中的网络状态参数传递给Block4对应的第一记忆单元中的第一个LSTM单元。Block3对应的第一记忆单元中的第二个LSTM单元对接收的处理结果进行预测处理,将处理后得到的处理结果传输给Block3对应的第一记忆单元中的第三个LSTM单元,并将该处理结果和第二个LSTM单元中的网络状态参数传递给Block4对应的第一记忆单元中的第二个LSTM单元。Block3对应的第一记忆单元中的第三个LSTM单元对接收的处理结果进行预测处理,将处理后得到的处理结果传输给Block3对应的第一记忆单元中的CNN,并将该处理结果和第三个LSTM单元中的网络状态参数传递给Block4对应的第一记忆单元中的第三个LSTM单元。最终CNN将卷积处理后的数据输出,得到该Block3的预测像素值。
需要说明的是,上述步骤1002至步骤1004为基于当前图像块,通过第一记忆网络模型,确定当前图像块的预测像素值的具体实现。
在本申请实施例中,以块为单位对待处理图像进行块划分,得到多个图像块,然后基于当前图像块,通过预先已训练的第一记忆网络模型确定当前图像块的预测像素值,该当前图像块为多个图像块中的任意一个。由于该第一记忆网络模型可以自动学习最佳预测值生成方式,因此提高了帧内预测效率,并使得预测泛化能力更强。另外,由于该第一记忆网络模型至少包括依次相连的多级第一记忆单元,每级第一记忆单元能够用于对输入的图像块进行处理并将处理结果和/或该第一记忆单元的网络状态参数传递给下一级第一记忆单元,即该第一记忆网络模型具有记忆功能,能够记忆当前时刻之前的数据,因此可以记忆图像或视频图像中已重建的图像块的结构信息和纹理特征,使得预测可利用的信息不仅局限于相邻的像素值,从而使得更大程度的降低冗余,提高了编解码效率。
图11是根据另一示例性实施例示出的一种帧内预测方法的流程图,该方法可以应用于电子设备中,该帧内预测方法可以包括如下几个实现步骤:
步骤1100:以块为单位对待处理图像进行块划分,得到多个图像块。
其中,待处理图像可以是任意的图像,或者视频图像,或者是待编码图像或是待解码的图像数据。
其中,块的尺寸可以为参考尺寸,该参考尺寸可以根据实际需求进行设置,且该参考尺寸的数量可以为一个,也可以为多个。在本申请的一种可能实现方式中,当该参考尺寸的数量为一个时意味着划分得到的多个图像块的尺寸相同,针对该种情况,在后续处理时可以使用同一个第二记忆网络模型进行处理;当该参考尺寸的数量为多个时意味着划分得到的多个图像块的尺寸不相同,针对该种情况,每种尺寸对应一个第二记忆网络模型,在后续处理时可以分别通过每种尺寸对应的第二记忆网络模型对该每种尺寸的图像块进行处理。
另外,这里不对块的形状做限定,该多个图像块的形状可以相同,也可以不同,同理,不同形状的图像块对应不同的第二记忆网络模型。
在一些实施例中,该电子设备可以将该待处理图像划分为多个大的图像块(比如2S*2S尺寸的),进一步可以将每个大的图像块划分为多个的小的图像块(比如S*S尺寸的),从而得到多个图像块进行处理,譬如,每个2S*2S的大的图像块包括4个S*S的小的图像块,此时,每个2S*2S的大的图像块可以单独作为一个图像单元进行处理,即在后续处理过程中不同大的图像块之间可以相互独立,互不影响。其中,该S为大于1的整数,比如该S可以为32。
需要说明的是,当对该待处理图像的处理为编码处理时,该待处理图像是指该电子设备预发送给对端的图像,而当对该待处理图像的处理为解码处理时,该待处理图像是指由电子设备基于对端发送来的码流中携带的图像信息经过重建得到,其中,该码流携带的图像信息包括但不限于图像宽度、图像高度、图像像素值、图像编码规则。
步骤1102:基于当前图像块,通过第二记忆网络模型,确定该当前图像块的图像特征数据,该当前图像块为该多个图像块中的任意一个,该图像特征数据是第二记忆网络模型对当前图像块进行特征提取处理后输出的数据,其中,该第二记忆网络模型至少包括依次相连的多级第二记忆单元,该多级第二记忆单元用于对该多个图像块进行处理,每级第二记忆单元用于对输入的图像块进行处理并将处理结果和/或该第二记忆单元的网络状态参数传递给下一级第二记忆单元。
在具体实施中,获取当前图像块的原始像素值,将该当前图像块的原始像素值作为该第二记忆网络模型的输入,通过该第二记忆网络模型中该当前图像块对应的第二记忆单元,输出该当前图像块的图像特征数据。
如前文所述,在划分时由于可以将图像或者视频图像可以先划分为多个大的图像块(比如每个大的图像块为2S*2S),然后进一步划分为每个大的图像块划分为多个小的图像块(比如每个小的图像块为S*S),得到该多个图像块,因此,电子设备可以按批对该多个图像块进行处理,每一批图像块包括多个小的图像块。在实施中,可以从多个图像块中选取该第二记忆单元的级数个图像块,得到第一批图像块,然后按照前后块处理顺序,分别将选取的每个图像块的像素信息依次输入至对应的第二记忆单元中,由对应的第二记忆单元分别进行预测处理,以确定选取的每个图像块的图像特征数据。之后,该电子设备再继续按照上述实现方式选取下一批图像块进行处理,直到处理完所有图像块为止。
其中,该前后块处理顺序可以为光栅顺序,该光栅顺序又称为Z型顺序。或者,该前后块处理顺序也可以为回环顺序。
在本申请的一种可能实现方式中,该第二记忆网络模型可以是基于多个图像块样本和该多个图像块样本中每个图像块样本的原始像素值,对待训练的记忆神经网络模型进行训练得到。
也即是,使用该第二记忆网络模型之前,可以获取多个图像块样本和每个图像块样本的原始像素值,然后将该多个图像块样本输入至该待训练的记忆神经网络模型中进行深度学习,将输出的图像特征值转换为像素值,将转换后的像素值与该原始像素值进行比较,直到转换后的像素值与该原始像素值十分接近时,将当前的记忆神经网络模型确定为第二记忆网络模型。
在本申请的一种可能实现方式中,记忆神经网络模型可以为LSTM模型,或者,还可以为RNN模型,本申请实施例对此不做限定。
当该待训练的记忆神经网络模型为LSTM模型时,经过训练后得到的第二记忆网络模型中的每级记忆单元包括多个LSTM单元,每个LSTM单元的内部结构如图9所示,其中,包括遗忘门、输入门和输出门,x表示每个LSTM单元的输入,xt表示t时刻的输入,h表示LSTM单元的输出,ht表示t时刻LSTM单元的输出,ht-1表示前一时刻LSTM单元的输出传输到当前时刻的LSTM单元中;C表示LSTM单元的网络状态参数,Ct表示t时刻LSTM单元的网络状态参数,σ表示带激活函数sigmoid的神经网络层,tanh表示带激活函数tanh的神经网络层。在实施中,当前时刻的LSTM单元中的ht和Ct可以基于上一时刻的LSTM单元输出的ht-1和Ct-1,通过如下6个公式确定:
Ct=ft*Ct-1+it*gt;
ht=ot*tanh(Ct-1);
ft=σ(Wf[ht-1,xt]+bf);
it=σ(Wi[ht-1,xt]+bi);
Ot=σ(Wo[ht-1,xt]+bo);
gt=tanh(Wg[ht-1,xt]+bg)
其中,W*表示对应层的权重系数,b*表示对应的偏移参数,该权重系统和该偏移参数可以通过训练确定。
在本申请的一种可能实现方式中,该第二记忆网络模型还可以包括CNN(Convolutional Neural Networks,卷积神经网络)层,以通过该CNN层对最后一层LSTM单元输出的图像特征值进行卷积处理,将卷积处理后的结果作为最终输出结果。其中,CNN层的卷积核和尺寸等参数可以根据实际需求进行设置,譬如,卷积核可以设为1024(32*32),尺寸可以设为3*3。
编码处理过程中的帧内预测实现方式与解码过程中的帧内预测实现方式不同,通常包括如下两种情况:
第一种情况:该每级第二记忆单元至少包括依次相连的多个第二子记忆单元,且该每级第二记忆单元中的每个第二子记忆单元与下一级第二记忆单元中对应位置的第二子记忆单元连接;当对该待处理图像进行编码处理时,该通过该第二记忆网络模型中该当前图像块对应的第二记忆单元,输出该当前图像块的图像特征数据,包括:依次通过该当前图像块对应的第二记忆单元中的每个第二子记忆单元对输入数据进行预测和下采样处理,并由该每个第二子记忆单元将处理结果和网络状态数据传输给下一级第二记忆单元中对应位置的第二子记忆单元;将该当前图像块对应的第二记忆单元中最后一个第二子记忆单元输出的处理结果作为该当前图像块的图像特征数据。
具体地,令k=1;通过该当前图像块对应的第二记忆单元中的第k个第二子记忆单元对输入数据进行处理,并对处理后的数据按照参考采样频率进行下采样,得到处理结果,将该处理结果和该第k个第二子记忆单元的网络状态参数传输给下一级第二记忆单元中对应位置的第二子记忆单元,以及将该处理结果传输给该当前图像块对应的第二记忆单元中与该第k个第二子记忆单元连接的第k+1个第二子记忆单元,并将该处理结果重新确定为该输入数据;当该k小于该每级第二记忆单元包括的多个第二子记忆单元的数量时,令k=k+1,并返回该通过该当前图像块对应的第二记忆单元中的第k个第二子记忆单元对输入数据进行处理的步骤;直到该k等于该每级第二记忆单元包括的多个第二子记忆单元的数量时,将处理结果作为该当前图像块的图像特征数据输出。
也即是,在通过当前图像块对应的第二记忆单元中的多个第二子记忆单元进行预测处理时,每个第二子记忆单元除了对数据进行预测处理外,还按照参考采样频率进行下采样处理,以通过降低数据维度,使得提取特征数据远低于输入的像素数,相当于完成了传统编码框架中的预测和变换两个过程,从而提高编码效率。
其中,该参考采样频率可以由用户根据实际需求自定义设置,也可以由该电子设备默认设置,本申请实施例对此不作限定。
譬如,请参考图12,假设当前图像块为Block3,该Block3对应的第二记忆单元包括3个LSTM单元(相当于第二子记忆单元)和CNN,将该当前图像块的原始像素值输入至该记忆网络模型中,当前图像块对应的第二记忆单元中的第1个LSTM单元对该原始像素值进行预测处理,以及对预测处理得到的数据按照参考采样频率进行下采样处理,得到处理结果,将该处理结果传输给当前图像块对应的第二记忆单元中的第2个LSTM单元,并且,将该处理结果和当前图像块对应的第二记忆单元中的第1个LSTM单元的网络状态参数参数给下一级第二记忆单元中的第一个LSTM单元。该当前图像块对应的第二记忆单元中的第2个LSTM单元继续对第1个LSTM单元传输的处理结果进行预测处理,以及对预测处理得到的数据按照参考采样频率进行下采样处理,将得到的处理结果输出给当前图像块对应的第二记忆单元中的第3个LSTM单元,并且,将该处理结果和该第2个LSTM单元的网络状态参数传输给下一级第二记忆单元中的第2个LSTM单元。该当前图像块对应的第二记忆单元中的第3个LSTM单元继续对第2个LSTM单元传输的处理结果进行预测处理,以及对预测处理得到的数据按照参考采样频率进行下采样处理,将得到的处理结果输出给CNN,并且,将该处理结果和该第3个LSTM单元的网络状态参数传输给下一级第二记忆单元中的第3个LSTM单元,CNN对接收的数据进行卷积处理后输出,得到当前图像块的图像特征数据。
第二种情况:该每级第二记忆单元至少包括依次相连的多个第二子记忆单元,且该每级第二记忆单元中的每个第二子记忆单元与下一级第二记忆单元中对应位置的第二子记忆单元连接;当对该待处理图像进行解码处理时,该通过该第二记忆网络模型中该当前图像块对应的第二记忆单元,输出该当前图像块的图像特征数据,包括:依次通过该当前图像块对应的第二记忆单元中的每个第二子记忆单元对输入数据进行预测和上采样处理,并由该每个第二子记忆单元将处理结果和网络状态数据传输给下一级第二记忆单元中对应位置的第二子记忆单元;将该当前图像块对应的第二记忆单元中最后一个第二子记忆单元输出的处理结果作为该当前图像块的图像特征数据。
具体地,令j=1;通过该当前图像块对应的第二记忆单元中的第j个第二子记忆单元对输入数据进行处理,并对处理后的数据按照参考采样频率进行上采样,得到处理结果,将该处理结果和该第j个第二子记忆单元的网络状态参数传输给下一级第二记忆单元中对应位置的第二子记忆单元,以及将该处理结果传输给该当前图像块对应的第二记忆单元中与该第j个第二子记忆单元连接的第j+1个第二子记忆单元,并将该处理结果重新确定为该输入数据;当该j小于该每级第二记忆单元包括的多个第二子记忆单元的数量时,令j=j+1,并返回该通过该当前图像块对应的第二记忆单元中的第j个第二子记忆单元对输入数据进行处理的步骤;直到该j等于该每级第二记忆单元包括的多个第二子记忆单元的数量时,将处理结果作为该当前图像块的图像特征数据输出。
如图13所示,该图13是根据一示例性实施例示出的一种编解码过程的示意图,在解码过程中,帧内预测实现与编码过程中的帧内预测实现过程相反。也即是,在通过当前图像块对应的第二记忆单元中的多个第二子记忆单元进行预测处理时,每个第二子记忆单元除了对数据进行预测等处理外,还按照参考采样频率进行上采样处理,以通过提升维度逐步提高分辨率至原始图像块的分辨率,相当于完成了传统解码框架中的反变换和预测两个过程,从而提高解码效率。
譬如,请参考图14,假设当前图像块为Block3,该Block3对应的第二记忆单元包括CNN和3个LSTM单元(相当于第二子记忆单元),将该当前图像块的原始像素值输入至该记忆网络模型中,当前图像块对应的第二记忆单元中的CNN进行卷积处理,将卷积处理后的处理数据传输给当前图像块对应的第二记忆单元中的第1个LSTM单元,当前图像块对应的第二记忆单元中的第1个LSTM单元对接收的处理数据进行预测处理,以及对预测处理得到的数据按照参考采样频率进行上采样处理,得到处理结果,将该处理结果传输给当前图像块对应的第二记忆单元中的第2个LSTM单元,并且,将该处理结果和当前图像块对应的第二记忆单元中的第1个LSTM单元的网络状态参数参数给下一级第二记忆单元中的第一个LSTM单元。该当前图像块对应的第二记忆单元中的第2个LSTM单元继续对第1个LSTM单元传输的处理结果进行预测处理,以及对预测处理得到的数据按照参考采样频率进行上采样处理,将得到的处理结果输出给当前图像块对应的第二记忆单元中的第3个LSTM单元,并且,将该处理结果和该第2个LSTM单元的网络状态参数传输给下一级第二记忆单元中的第2个LSTM单元。该当前图像块对应的第二记忆单元中的第3个LSTM单元继续对第2个LSTM单元传输的处理结果进行预测处理,以及对预测处理得到的数据按照参考采样频率进行上采样处理,将得到的处理结果输出,并且,将该处理结果和该第3个LSTM单元的网络状态参数传输给下一级第二记忆单元中的第3个LSTM单元,并将该最终输出的数据确定为当前图像块的图像特征数据。
在本申请实施例中,以块为单位对待处理图像进行块划分,得到多个图像块,然后基于当前图像块,通过预先已训练的第二记忆网络模型确定当前图像块的图像特征数据,该当前图像块为多个图像块中的任意一个,该图像特征数据为第二记忆网络模型对当前图像块进行特征提取处理后输出的数据。由于该第二记忆网络模型可以自动学习最佳预测值生成方式,因此提高了帧内预测效率,并使得预测泛化能力更强。另外,由于该第二记忆网络模型至少包括依次相连的多级第二记忆单元,每级第二记忆单元能够用于对输入的图像块进行处理并将处理结果和/或该第二记忆网络模型的网络状态参数传递给下一级第二记忆单元,即该第二记忆网络模型具有记忆功能,能够记忆当前时刻之前的数据,因此可以记忆图像或视频图像中已重建的图像块的结构信息和纹理特征,使得预测可利用的信息不仅局限于相邻的像素值,从而使得更大程度的降低冗余,提高了编解码效率。
图15是根据一示例性实施例示出的一种帧内预测装置的结构示意图,该帧内预测装置可以由软件、硬件或者两者的结合实现。该帧内预测装置可以包括:
第一块划分模块1501,用于以块为单位对待处理图像进行块划分,得到多个图像块;
第一确定模块1502,用于基于当前图像块,通过第一记忆网络模型,确定当前图像块的预测像素值,所述当前图像块为所述多个图像块中的任意一个;其中,所述第一记忆网络模型至少包括依次相连的多级第一记忆单元,所述多级第一记忆单元用于对所述多个图像块进行处理,每级第一记忆单元用于对输入的图像块进行处理并将处理结果和/或该第一记忆单元的网络状态参数传递给下一级第一记忆单元。
在本申请的一种可能实现方式中,所述第一确定模块1502用于:
获取所述当前图像块的周围的相邻图像块中已重建的像素值,基于获取的像素值对所述当前图像块进行像素填充处理,得到所述当前图像块的目标像素值;
将所述当前图像块的目标像素值作为所述第一记忆网络模型的输入,通过所述第一记忆网络模型中所述当前图像块对应的第一记忆单元,输出所述当前图像块的预测像素值。
在本申请的一种可能实现方式中,所述第一确定模块1502用于:
使用填充像素值对所述当前图像块进行像素填充处理,得到所述当前图像块的目标像素值;
获取所述当前图像块的周围的相邻图像块中已重建的像素值;
将获取的像素值和所述当前图像块的目标像素值作为所述第一记忆网络模型的输入,通过所述第一记忆网络模型中所述当前图像块对应的第一记忆单元,输出所述当前图像块的预测像素值。
在本申请的一种可能实现方式中,所述第一确定模块1502用于:
当所述每级第一记忆单元至少包括依次相连的多个第一子记忆单元,且所述每级第一记忆单元中的每个第一子记忆单元与下一级第一记忆单元中对应位置的第一子记忆单元相连时;
依次通过所述当前图像块对应的第一记忆单元中的每个第一子记忆单元对输入数据进行预测处理,并由所述每个第一子记忆单元将处理结果和网络状态数据传输给下一级第一记忆单元中对应位置的第一子记忆单元;
将所述当前图像块对应的第一记忆单元中最后一个第一子记忆单元输出的处理结果作为所述当前图像块的预测像素值。
在本申请实施例中,以块为单位对待处理图像进行块划分,得到多个图像块,然后基于当前图像块,通过预先已训练的第一记忆网络模型确定当前图像块的预测像素值,该当前图像块为多个图像块中的任意一个。由于该第一记忆网络模型可以自动学习最佳预测值生成方式,因此提高了帧内预测效率,并使得预测泛化能力更强。另外,由于该第一记忆网络模型至少包括依次相连的多级第一记忆单元,每级第一记忆单元能够用于对输入的图像块进行处理并将处理结果和/或该第一记忆单元的网络状态参数传递给下一级第一记忆单元,即该第一记忆网络模型具有记忆功能,能够记忆当前时刻之前的数据,因此可以记忆图像或视频图像中已重建的图像块的结构信息和纹理特征,使得预测可利用的信息不仅局限于相邻的像素值,从而使得更大程度的降低冗余,提高了编解码效率。
图16是根据一示例性实施例示出的一种帧内预测装置的结构示意图,该帧内预测装置可以由软件、硬件或者两者的结合实现。该帧内预测装置可以包括:
第二块划分模块1510,用于以块为单位对待处理图像进行块划分,得到多个图像块;
第二确定模块1520,用于基于当前图像块,通过第二记忆网络模型,确定所述当前图像块的图像特征数据,所述当前图像块为所述多个图像块中的任意一个,所述图像特征数据是所述第二记忆网络模型对当前图像块进行特征提取处理后输出的数据;
其中,所述第二记忆网络模型至少包括依次相连的多级第二记忆单元,所述多级第二记忆单元用于对所述多个图像块进行处理,每级第二记忆单元用于对输入的图像块进行处理并将处理结果和/或该第二记忆单元的网络状态参数传递给下一级第二记忆单元。
在本申请的一种可能实现方式中,所述第二确定模块1520用于:
获取当前图像块的原始像素值;
将所述当前图像块的原始像素值作为所述第二记忆网络模型的输入,通过所述第二记忆网络模型中所述当前图像块对应的第二记忆单元,输出所述当前图像块的图像特征数据。
在本申请的一种可能实现方式中,所述第二确定模块1520用于:
所述每级第二记忆单元至少包括依次相连的多个第二子记忆单元,且所述每级第二记忆单元中的每个第二子记忆单元与下一级第二记忆单元中对应位置的第二子记忆单元连接;
当对所述待处理图像进行编码处理时,依次通过所述当前图像块对应的第二记忆单元中的每个第二子记忆单元对输入数据进行预测和下采样处理,并由所述每个第二子记忆单元将处理结果和网络状态数据传输给下一级第二记忆单元中对应位置的第二子记忆单元;
将所述当前图像块对应的第二记忆单元中最后一个第二子记忆单元输出的处理结果作为所述当前图像块的图像特征数据。
在本申请的一种可能实现方式中,所述第二确定模块1520用于:
所述每级第二记忆单元至少包括依次相连的多个第二子记忆单元,且所述每级第二记忆单元中的每个第二子记忆单元与下一级第二记忆单元中对应位置的第二子记忆单元连接;
当对所述待处理图像进行解码处理时,依次通过所述当前图像块对应的第二记忆单元中的每个第二子记忆单元对输入数据进行预测和上采样处理,并由所述每个第二子记忆单元将处理结果和网络状态数据传输给下一级第二记忆单元中对应位置的第二子记忆单元;
将所述当前图像块对应的第二记忆单元中最后一个第二子记忆单元输出的处理结果作为所述当前图像块的图像特征数据。
在本申请实施例中,以块为单位对待处理图像进行块划分,得到多个图像块,然后基于当前图像块,通过预先已训练的第二记忆网络模型确定当前图像块的图像特征数据,该当前图像块为多个图像块中的任意一个,该图像特征数据为第二记忆网络模型对当前图像块进行特征提取处理后输出的数据。由于该第二记忆网络模型可以自动学习最佳预测值生成方式,因此提高了帧内预测效率,并使得预测泛化能力更强。另外,由于该第二记忆网络模型至少包括依次相连的多级第二记忆单元,每级第二记忆单元能够用于对输入的图像块进行处理并将处理结果和/或该第二记忆单元的网络状态参数传递给下一级第二记忆单元,即该第二记忆网络模型具有记忆功能,能够记忆当前时刻之前的数据,因此可以记忆图像或视频图像中已重建的图像块的结构信息和纹理特征,使得预测可利用的信息不仅局限于相邻的像素值,从而使得更大程度的降低冗余,提高了编解码效率。
需要说明的是:上述实施例提供的帧内预测装置在实现帧内预测方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的帧内预测装置与帧内预测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图17示出了本申请一个示例性实施例提供的电子设备1600的结构框图。该电子设备600可以是:笔记本电脑或台式电脑。电子设备1600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,电子设备1600包括有:处理器1601和存储器1602。
处理器1601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1601所执行以实现本申请中方法实施例提供的帧内预测方法。
在一些实施例中,电子设备1600还可选包括有:外围设备接口1603和至少一个外围设备。处理器1601、存储器1602和外围设备接口1603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1603相连。具体地,外围设备包括:射频电路1604、触摸显示屏1605、摄像头1606、音频电路1607、定位组件1608和电源1609中的至少一种。
外围设备接口1603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1601和存储器1602。在一些实施例中,处理器1601、存储器1602和外围设备接口1603被集成在同一芯片或电路板上;在一些其他实施例中,处理器1601、存储器1602和外围设备接口1603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。在本申请的一种可能实现方式中,射频电路1604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1604可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(WirelessFidelity,无线保真)网络。在一些实施例中,射频电路1604还可以包括NFC(Near FieldCommunication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1605是触摸显示屏时,显示屏1605还具有采集在显示屏1605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1601进行处理。此时,显示屏1605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1605可以为一个,设置电子设备1600的前面板;在另一些实施例中,显示屏1605可以为至少两个,分别设置在电子设备1600的不同表面或呈折叠设计;在再一些实施例中,显示屏1605可以是柔性显示屏,设置在电子设备1600的弯曲表面上或折叠面上。甚至,显示屏1605还可以设置成非矩形的不规则图形,也即异形屏。显示屏1605可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1606用于采集图像或视频。在本申请的一种可能实现方式中,摄像头组件1606包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备的前面板,后置摄像头设置在电子设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(VirtualReality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1601进行处理,或者输入至射频电路1604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备1600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1601或射频电路1604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1607还可以包括耳机插孔。
定位组件1608用于定位电子设备1600的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件1608可以是基于美国的GPS(Global Positioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1609用于为电子设备1600中的各个组件进行供电。电源1609可以是交流电、直流电、一次性电池或可充电电池。当电源1609包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备1600还包括有一个或多个传感器1610。该一个或多个传感器1610包括但不限于:加速度传感器1611、陀螺仪传感器1612、压力传感器1613、指纹传感器1614、光学传感器1615以及接近传感器1616。
加速度传感器1611可以检测以电子设备1600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1611可以用于检测重力加速度在三个坐标轴上的分量。处理器1601可以根据加速度传感器1611采集的重力加速度信号,控制触摸显示屏1605以横向视图或纵向视图进行用户界面的显示。加速度传感器1611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1612可以检测电子设备1600的机体方向及转动角度,陀螺仪传感器1612可以与加速度传感器1611协同采集用户对电子设备1600的3D动作。处理器1601根据陀螺仪传感器1612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1613可以设置在电子设备1600的侧边框和/或触摸显示屏1605的下层。当压力传感器1613设置在电子设备1600的侧边框时,可以检测用户对电子设备1600的握持信号,由处理器1601根据压力传感器1613采集的握持信号进行左右手识别或快捷操作。当压力传感器1613设置在触摸显示屏1605的下层时,由处理器1601根据用户对触摸显示屏1605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1614用于采集用户的指纹,由处理器1601根据指纹传感器1614采集到的指纹识别用户的身份,或者,由指纹传感器1614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1614可以被设置电子设备1600的正面、背面或侧面。当电子设备1600上设置有物理按键或厂商Logo时,指纹传感器1614可以与物理按键或厂商Logo集成在一起。
光学传感器1615用于采集环境光强度。在一个实施例中,处理器1601可以根据光学传感器1615采集的环境光强度,控制触摸显示屏1605的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1605的显示亮度;当环境光强度较低时,调低触摸显示屏1605的显示亮度。在另一个实施例中,处理器1601还可以根据光学传感器1615采集的环境光强度,动态调整摄像头组件1606的拍摄参数。
接近传感器1616,也称距离传感器,通常设置在电子设备1600的前面板。接近传感器1616用于采集用户与电子设备1600的正面之间的距离。在一个实施例中,当接近传感器1616检测到用户与电子设备1600的正面之间的距离逐渐变小时,由处理器1601控制触摸显示屏1605从亮屏状态切换为息屏状态;当接近传感器1616检测到用户与电子设备1600的正面之间的距离逐渐变大时,由处理器1601控制触摸显示屏1605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图17中示出的结构并不构成对电子设备1600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本申请实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述各个实施例提供的帧内预测方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个实施例提供的帧内预测方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (18)
1.一种帧内预测方法,其特征在于,所述方法包括:
以块为单位对待处理图像进行块划分,得到多个图像块;
基于当前图像块,通过第一记忆网络模型,确定所述当前图像块的预测像素值,所述当前图像块为所述多个图像块中的任意一个;其中,所述第一记忆网络模型至少包括依次相连的多级第一记忆单元,所述多级第一记忆单元用于对所述多个图像块进行处理,每级第一记忆单元用于对输入的图像块进行处理并将处理结果和/或该第一记忆单元的网络状态参数传递给下一级第一记忆单元。
2.如权利要求1所述的方法,其特征在于,所述基于当前图像块,通过第一记忆网络模型,确定所述当前图像块的预测像素值包括:
获取所述当前图像块的周围的相邻图像块中已重建的像素值,基于获取的像素值对所述当前图像块进行像素填充处理,得到所述当前图像块的目标像素值;
将所述当前图像块的目标像素值作为所述第一记忆网络模型的输入,通过所述第一记忆网络模型中所述当前图像块对应的第一记忆单元,输出所述当前图像块的预测像素值。
3.如权利要求1所述的方法,其特征在于,所述基于当前图像块,通过第一记忆网络模型,确定所述当前图像块的预测像素值包括:
使用填充像素值对所述当前图像块进行像素填充处理,得到所述当前图像块的目标像素值;
获取所述当前图像块的周围的相邻图像块中已重建的像素值;
将获取的像素值和所述当前图像块的目标像素值作为所述第一记忆网络模型的输入,通过所述第一记忆网络模型中所述当前图像块对应的第一记忆单元,输出所述当前图像块的预测像素值。
4.如权利要求2或3所述的方法,其特征在于,所述每级第一记忆单元至少包括依次相连的多个第一子记忆单元,且所述每级第一记忆单元中的每个第一子记忆单元与下一级第一记忆单元中对应位置的第一子记忆单元相连;
对应的,所述通过所述第一记忆网络模型中所述当前图像块对应的第一记忆单元,输出所述当前图像块的预测像素值,包括:
依次通过所述当前图像块对应的第一记忆单元中的每个第一子记忆单元对输入数据进行预测处理,并由所述每个第一子记忆单元将处理结果和网络状态数据传输给下一级第一记忆单元中对应位置的第一子记忆单元;
将所述当前图像块对应的第一记忆单元中最后一个第一子记忆单元输出的处理结果作为所述当前图像块的预测像素值。
5.一种帧内预测方法,其特征在于,所述方法包括:
以块为单位对待处理图像进行块划分,得到多个图像块;
基于当前图像块,通过第二记忆网络模型,确定所述当前图像块的图像特征数据,所述当前图像块为所述多个图像块中的任意一个,所述图像特征数据是所述第二记忆网络模型对当前图像块进行特征提取处理后输出的数据;
其中,所述第二记忆网络模型至少包括依次相连的多级第二记忆单元,所述多级第二记忆单元用于对所述多个图像块进行处理,每级第二记忆单元用于对输入的图像块进行处理并将处理结果和/或该第二记忆单元的网络状态参数传递给下一级第二记忆单元。
6.如权利要求5所述的方法,其特征在于,所述基于当前图像块,通过第二记忆网络模型,确定所述当前图像块的图像特征数据,包括:
获取当前图像块的原始像素值;
将所述当前图像块的原始像素值作为所述第二记忆网络模型的输入,通过所述第二记忆网络模型中所述当前图像块对应的第二记忆单元,输出所述当前图像块的图像特征数据。
7.如权利要求6所述的方法,其特征在于,所述每级第二记忆单元至少包括依次相连的多个第二子记忆单元,且所述每级第二记忆单元中的每个第二子记忆单元与下一级第二记忆单元中对应位置的第二子记忆单元连接;
当对所述待处理图像进行编码处理时,所述通过所述第二记忆网络模型中所述当前图像块对应的第二记忆单元,输出所述当前图像块的图像特征数据,包括:
依次通过所述当前图像块对应的第二记忆单元中的每个第二子记忆单元对输入数据进行预测和下采样处理,并由所述每个第二子记忆单元将处理结果和网络状态数据传输给下一级第二记忆单元中对应位置的第二子记忆单元;
将所述当前图像块对应的第二记忆单元中最后一个第二子记忆单元输出的处理结果作为所述当前图像块的图像特征数据。
8.如权利要求6所述的方法,其特征在于,所述每级第二记忆单元至少包括依次相连的多个第二子记忆单元,且所述每级第二记忆单元中的每个第二子记忆单元与下一级第二记忆单元中对应位置的第二子记忆单元连接;
当对所述待处理图像进行解码处理时,所述通过所述第二记忆网络模型中所述当前图像块对应的第二记忆单元,输出所述当前图像块的图像特征数据,包括:
依次通过所述当前图像块对应的第二记忆单元中的每个第二子记忆单元对输入数据进行预测和上采样处理,并由所述每个第二子记忆单元将处理结果和网络状态数据传输给下一级第二记忆单元中对应位置的第二子记忆单元;
将所述当前图像块对应的第二记忆单元中最后一个第二子记忆单元输出的处理结果作为所述当前图像块的图像特征数据。
9.一种帧内预测装置,其特征在于,所述装置包括:
第一块划分模块,用于以块为单位对待处理图像进行块划分,得到多个图像块;
第一确定模块,用于基于当前图像块,通过第一记忆网络模型,确定所述当前图像块的预测像素值,所述当前图像块为所述多个图像块中的任意一个;其中,所述第一记忆网络模型至少包括依次相连的多级第一记忆单元,所述多级第一记忆单元用于对所述多个图像块进行处理,每级第一记忆单元用于对输入的图像块进行处理并将处理结果和/或该第一记忆单元的网络状态参数传递给下一级第一记忆单元。
10.如权利要求9所述的装置,其特征在于,所述第一确定模块用于:
获取所述当前图像块的周围的相邻图像块中已重建的像素值,基于获取的像素值对所述当前图像块进行像素填充处理,得到所述当前图像块的目标像素值;
将所述当前图像块的目标像素值作为所述第一记忆网络模型的输入,通过所述第一记忆网络模型中所述当前图像块对应的第一记忆单元,输出所述当前图像块的预测像素值。
11.如权利要求10所述的装置,其特征在于,所述第一确定模块用于:
使用填充像素值对所述当前图像块进行像素填充处理,得到所述当前图像块的目标像素值;
获取所述当前图像块的周围的相邻图像块中已重建的像素值;
将获取的像素值和所述当前图像块的目标像素值作为所述第一记忆网络模型的输入,通过所述第一记忆网络模型中所述当前图像块对应的第一记忆单元,输出所述当前图像块的预测像素值。
12.如权利要求10或11所述的装置,其特征在于,所述第一确定模块用于:
当所述每级第一记忆单元至少包括依次相连的多个第一子记忆单元,且所述每级第一记忆单元中的每个第一子记忆单元与下一级第一记忆单元中对应位置的第一子记忆单元相连时;
依次通过所述当前图像块对应的第一记忆单元中的每个第一子记忆单元对输入数据进行预测处理,并由所述每个第一子记忆单元将处理结果和网络状态数据传输给下一级第一记忆单元中对应位置的第一子记忆单元;
将所述当前图像块对应的第一记忆单元中最后一个第一子记忆单元输出的处理结果作为所述当前图像块的预测像素值。
13.一种帧内预测装置,其特征在于,所述装置包括:
第二块划分模块,用于以块为单位对待处理图像进行块划分,得到多个图像块;
第二确定模块,用于基于当前图像块,通过第二记忆网络模型,确定所述当前图像块的图像特征数据,所述当前图像块为所述多个图像块中的任意一个,所述图像特征数据是所述第二记忆网络模型对当前图像块进行特征提取处理后输出的数据;
其中,所述第二记忆网络模型至少包括依次相连的多级第二记忆单元,所述多级第二记忆单元用于对所述多个图像块进行处理,每级第二记忆单元用于对输入的图像块进行处理并将处理结果和/或该第二记忆单元的网络状态参数传递给下一级第二记忆单元。
14.如权利要求13所述的装置,其特征在于,所述第二确定模块用于:
获取当前图像块的原始像素值;
将所述当前图像块的原始像素值作为所述第二记忆网络模型的输入,通过所述第二记忆网络模型中所述当前图像块对应的第二记忆单元,输出所述当前图像块的图像特征数据。
15.如权利要求14所述的装置,其特征在于,所述第二确定模块用于:
所述每级第二记忆单元至少包括依次相连的多个第二子记忆单元,且所述每级第二记忆单元中的每个第二子记忆单元与下一级第二记忆单元中对应位置的第二子记忆单元连接;
当对所述待处理图像进行编码处理时,依次通过所述当前图像块对应的第二记忆单元中的每个第二子记忆单元对输入数据进行预测和下采样处理,并由所述每个第二子记忆单元将处理结果和网络状态数据传输给下一级第二记忆单元中对应位置的第二子记忆单元;
将所述当前图像块对应的第二记忆单元中最后一个第二子记忆单元输出的处理结果作为所述当前图像块的图像特征数据。
16.如权利要求14所述的装置,其特征在于,所述第二确定模块用于:
所述每级第二记忆单元至少包括依次相连的多个第二子记忆单元,且所述每级第二记忆单元中的每个第二子记忆单元与下一级第二记忆单元中对应位置的第二子记忆单元连接;
当对所述待处理图像进行解码处理时,依次通过所述当前图像块对应的第二记忆单元中的每个第二子记忆单元对输入数据进行预测和上采样处理,并由所述每个第二子记忆单元将处理结果和网络状态数据传输给下一级第二记忆单元中对应位置的第二子记忆单元;
将所述当前图像块对应的第二记忆单元中最后一个第二子记忆单元输出的处理结果作为所述当前图像块的图像特征数据。
17.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为实现权利要求1-4所述的任一项方法的步骤,或者实现权利要求5-8所述的任一项方法的步骤。
18.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现权利要求1-4所述的任一项方法的步骤,或者实现权利要求5-8所述的任一项方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910157695.7A CN111641831B (zh) | 2019-03-01 | 2019-03-01 | 帧内预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910157695.7A CN111641831B (zh) | 2019-03-01 | 2019-03-01 | 帧内预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111641831A true CN111641831A (zh) | 2020-09-08 |
CN111641831B CN111641831B (zh) | 2023-09-01 |
Family
ID=72330485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910157695.7A Active CN111641831B (zh) | 2019-03-01 | 2019-03-01 | 帧内预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111641831B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101426141A (zh) * | 2007-10-30 | 2009-05-06 | 株式会社日立制作所 | 图像编码装置和编码方法,图像译码装置和译码方法 |
US20110129016A1 (en) * | 2008-07-10 | 2011-06-02 | Shunichi Sekiguchi | Image encoding device, image decoding device, image encoding method, and image decoding method |
US20120294512A1 (en) * | 2011-05-19 | 2012-11-22 | Sony Corporation | Learning apparatus and method, image processing apparatus and method, program, and recording medium |
CN108184128A (zh) * | 2018-01-11 | 2018-06-19 | 安徽优思天成智能科技有限公司 | 基于深度神经网络的视频序列丢失帧预测恢复方法 |
CN108259897A (zh) * | 2018-01-23 | 2018-07-06 | 北京易智能科技有限公司 | 一种基于深度学习的帧内编码优化方法 |
CN108710904A (zh) * | 2018-05-10 | 2018-10-26 | 上海交通大学 | 基于递归神经网络的图像匹配方法及系统 |
CN108776832A (zh) * | 2018-06-05 | 2018-11-09 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
CN108833925A (zh) * | 2018-07-19 | 2018-11-16 | 哈尔滨工业大学 | 一种混合视频编解码系统中基于深度神经网络的帧间预测方法 |
CN109151475A (zh) * | 2017-06-27 | 2019-01-04 | 杭州海康威视数字技术股份有限公司 | 一种视频编码方法、解码方法、装置及电子设备 |
WO2019009452A1 (ko) * | 2017-07-06 | 2019-01-10 | 삼성전자 주식회사 | 영상을 부호화 또는 복호화하는 방법 및 장치 |
CN109257608A (zh) * | 2017-07-13 | 2019-01-22 | 华为技术有限公司 | 图像处理方法、设备及系统 |
-
2019
- 2019-03-01 CN CN201910157695.7A patent/CN111641831B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101426141A (zh) * | 2007-10-30 | 2009-05-06 | 株式会社日立制作所 | 图像编码装置和编码方法,图像译码装置和译码方法 |
US20110129016A1 (en) * | 2008-07-10 | 2011-06-02 | Shunichi Sekiguchi | Image encoding device, image decoding device, image encoding method, and image decoding method |
US20120294512A1 (en) * | 2011-05-19 | 2012-11-22 | Sony Corporation | Learning apparatus and method, image processing apparatus and method, program, and recording medium |
CN109151475A (zh) * | 2017-06-27 | 2019-01-04 | 杭州海康威视数字技术股份有限公司 | 一种视频编码方法、解码方法、装置及电子设备 |
WO2019009452A1 (ko) * | 2017-07-06 | 2019-01-10 | 삼성전자 주식회사 | 영상을 부호화 또는 복호화하는 방법 및 장치 |
CN109257608A (zh) * | 2017-07-13 | 2019-01-22 | 华为技术有限公司 | 图像处理方法、设备及系统 |
CN108184128A (zh) * | 2018-01-11 | 2018-06-19 | 安徽优思天成智能科技有限公司 | 基于深度神经网络的视频序列丢失帧预测恢复方法 |
CN108259897A (zh) * | 2018-01-23 | 2018-07-06 | 北京易智能科技有限公司 | 一种基于深度学习的帧内编码优化方法 |
CN108710904A (zh) * | 2018-05-10 | 2018-10-26 | 上海交通大学 | 基于递归神经网络的图像匹配方法及系统 |
CN108776832A (zh) * | 2018-06-05 | 2018-11-09 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
CN108833925A (zh) * | 2018-07-19 | 2018-11-16 | 哈尔滨工业大学 | 一种混合视频编解码系统中基于深度神经网络的帧间预测方法 |
Non-Patent Citations (2)
Title |
---|
COUTINHO, E: "Transfer Learning Emotion Manifestation Across Music and Speech", 《 PROCEEDINGS OF THE 2014 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 * |
高艳博: "基于率失真优化的视频编码方法研究", 《中国博士学位论文全文数据库》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111641831B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305236B (zh) | 图像增强处理方法及装置 | |
CN109978936B (zh) | 视差图获取方法、装置、存储介质及设备 | |
CN110288518B (zh) | 图像处理方法、装置、终端及存储介质 | |
CN108391127B (zh) | 视频编码方法、装置、存储介质及设备 | |
CN110110787A (zh) | 目标的位置获取方法、装置、计算机设备及存储介质 | |
CN110062246B (zh) | 对视频帧数据进行处理的方法和装置 | |
CN110933334B (zh) | 视频降噪方法、装置、终端及存储介质 | |
CN110766610B (zh) | 一种超分辨率图像的重建方法及电子设备 | |
CN111445392A (zh) | 图像处理方法及装置、计算机可读存储介质和电子设备 | |
CN111915481A (zh) | 图像处理方法、装置、电子设备及介质 | |
CN110991457A (zh) | 二维码处理方法、装置、电子设备及存储介质 | |
CN110807769B (zh) | 图像显示控制方法及装置 | |
CN111107357B (zh) | 一种图像处理的方法、装置、系统及存储介质 | |
CN113822955B (zh) | 图像数据处理方法、装置、计算机设备及存储介质 | |
CN111770339B (zh) | 视频编码方法、装置、设备及存储介质 | |
CN113379624B (zh) | 图像生成方法、图像生成模型的训练方法、装置及设备 | |
CN113012064B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111698512B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN111641831B (zh) | 帧内预测方法、装置、设备及存储介质 | |
CN114897688A (zh) | 视频处理方法、装置、计算机设备及介质 | |
CN110062226B (zh) | 一种视频编码方法、视频解码方法、装置、系统及介质 | |
CN109040753B (zh) | 预测模式选择方法、装置及存储介质 | |
CN110853704B (zh) | 蛋白质数据获取方法、装置、计算机设备及存储介质 | |
CN110460856B (zh) | 视频编码方法、装置、编码设备及计算机可读存储介质 | |
CN116935824B (zh) | 音频数据的滤波方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |