CN109842799A - 颜色分量的帧内预测方法及装置 - Google Patents

颜色分量的帧内预测方法及装置 Download PDF

Info

Publication number
CN109842799A
CN109842799A CN201711223298.2A CN201711223298A CN109842799A CN 109842799 A CN109842799 A CN 109842799A CN 201711223298 A CN201711223298 A CN 201711223298A CN 109842799 A CN109842799 A CN 109842799A
Authority
CN
China
Prior art keywords
color component
data
information
target area
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711223298.2A
Other languages
English (en)
Other versions
CN109842799B (zh
Inventor
王莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201711223298.2A priority Critical patent/CN109842799B/zh
Priority to PCT/CN2018/113779 priority patent/WO2019105179A1/zh
Publication of CN109842799A publication Critical patent/CN109842799A/zh
Application granted granted Critical
Publication of CN109842799B publication Critical patent/CN109842799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/192Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive
    • H04N19/194Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive involving only two passes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开是关于一种颜色分量的帧内预测方法及装置,属于视频编解码领域。所述方法包括:通过第一通道向卷积神经网络输入第一输入数据,所述第一输入数据包含待处理图像帧中目标区域的第一颜色分量的信息;获取所述卷积神经网络输出的第一输出数据,所述第一输出数据包含所述卷积神经网络对所述目标区域的第二颜色分量的信息的预测值;其中,所述第一颜色分量和所述第二颜色分量为所述目标区域具有的不同的颜色分量。本公开解决了相关的帧内预测技术预测的预测结果可靠性较低的问题。

Description

颜色分量的帧内预测方法及装置
技术领域
本公开涉及视频编解码领域,特别涉及一种颜色分量的帧内预测方法及装置。
背景技术
随着视频编解码技术的飞速发展,目前提出了一种高效的视频压缩编码技术,该视频压缩编码技术是指在图像帧的各种维度上去除冗余,采用帧内预测技术通过降低图像帧在空域和时域上的冗余来提高编码压缩率。
在YUV编码技术中,像素值包括:亮度分量Y、色度分量U和色度分量V,其中,色度分量的帧内预测技术是根据亮度分量和色度分量间的线性相关性,利用待处理图像帧的目标区域周边的已重建的亮度值来预测色度值,在这个过程中需要对目标区域周边的已重建的像素点的亮度值进行下采样得到下采样点的亮度值,然后根据下采样点的亮度值和已重建的像素点的色度值求得目标区域的缩放参数和偏置参数,再对目标区域中的已重建的亮度点进行下采样,并根据缩放参数和偏置参数来求得目标区域中的像素点的色度预测值。
但是,这种帧内预测技术是根据亮度分量和色度分量间的线性相关性来进行预测的,但实际上,线性关系无法准确地表达亮度分量和色度分量间的关系,因此基于该原理预测得到的色度分量的预测结果可靠性较低。
发明内容
本公开实施例提供了一种颜色分量的帧内预测方法及装置,可以解决现有技术中的颜色分量的预测结果可靠性较低的问题。所述技术方案如下:
根据本公开实施例的第一方面,提供一种颜色分量的帧内预测方法,所述方法包括:
通过第一通道向卷积神经网络输入第一输入数据,所述第一输入数据包含待处理图像帧中目标区域的第一颜色分量的信息;
获取所述卷积神经网络输出的第一输出数据,所述第一输出数据包含所述卷积神经网络对所述目标区域的第二颜色分量的信息的预测值;
其中,所述第一颜色分量和所述第二颜色分量为所述目标区域具有的不同的颜色分量。
可选的,所述第一输入数据包括所述第一周边区域中已重建的第二颜色分量的信息,与所述目标区域的已重建的第一颜色分量的信息,所述目标区域的第一周边区域为位于所述目标区域左侧和/或上方的带状区域。
可选的,在所述通过第一通道向卷积神经网络输入第一输入数据之前,所述方法还包括:
确定所述待处理图像帧中第一颜色分量和第二颜色分量的采样率关系;
基于所述采样率关系,确定所述第一输入数据,所述第一输入数据中,所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度。
可选的,所述基于所述采样率关系,确定所述第一输入数据,包括:
获取所述目标区域的第一周边区域中已重建的第二颜色分量的信息;
获取所述目标区域的已重建的第一颜色分量的信息;
基于所述采样率关系,根据所述第一周边区域中已重建的第二颜色分量的信息,与所述目标区域的已重建的第一颜色分量的信息,确定所述第一输入数据。
可选的,所述基于所述采样率关系,根据所述第一周边区域中已重建的第二颜色分量的信息,与所述目标区域的已重建的第一颜色分量的信息,确定所述第一输入数据,包括:
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例为1:1,将所述目标区域的第一周边区域中已重建的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据;
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例大于1:1,基于所述采样率比例,对所述第一周边区域中已重建的第二颜色分量的信息进行上采样,使得上采样后所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度,并将上采样得到的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据;
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例小于1:1,基于所述采样率比例,对所述第一周边区域中已重建的第二颜色分量的信息进行下采样,使得下采样后所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度,并将下采样得到的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据。
可选的,所述方法还包括:
对初始卷积神经网络进行训练以得到所述卷积神经网络,所述卷积神经网络的训练过程包括:
通过所述第一通道向所述初始卷积神经网络输入第二输入数据,所述第二输入数据包括第一指定图像帧中训练区域的第一颜色分量的信息,所述第一指定图像帧中训练区域与所述目标区域的尺寸相同,所述第二输入数据的获取方式与所述第一输入数据的获取方式相同;
将所述第一指定图像帧中训练区域对应的原始数据作为训练标签,对所述初始卷积神经网络进行训练以得到所述卷积神经网络,所述原始数据由所述第一指定图像帧中训练区域的已知的第二颜色分量的信息组成。
可选的,所述方法还包括:
确定至少一个第一边信息数据,每个所述第一边信息数据包含除所述第一输入数据包含的颜色分量的信息之外的信息;
通过至少一个第二通道分别向所述卷积神经网络输入所述至少一个第一边信息数据,所述至少一个第二通道与所述至少一个第一边信息数据一一对应。
可选的,所述确定至少一个第一边信息数据,包括:
基于所述目标区域中已重建的第一颜色分量的相关信息,确定所述至少一个第一边信息数据;
和/或,基于所述目标区域的第二周边区域中已重建的第二颜色分量的信息,确定所述至少一个第一边信息数据,所述目标区域的第二周边区域为位于所述目标区域左侧和/或上方的带状区域。
可选的,所述待处理图像帧的颜色编码格式为YUV格式,所述第一输入数据包括x行y列个第一采样块的颜色分量的信息,所述x和所述y均为大于或等于1的整数;
所述基于所述目标区域中已重建的第一颜色分量的相关信息,确定所述至少一个第一边信息数据,包括:
获取每个所述第一采样块上的已重建的第一颜色分量的帧内预测模式的标识值;
将所有所述帧内预测模式的标识值组成一个所述第一边信息数据。
可选的,所述第一输入数据包括x行y列个第一采样块的颜色分量的信息,所述x和所述y均为大于或等于1的整数;
所述基于所述目标区域的第二周边区域中已重建的第二颜色分量的信息,确定所述至少一个第一边信息数据,包括:
获取所述目标区域的第二周边区域中已重建的第二颜色分量的信息;
确定所述目标区域的第二周边区域中已重建的第二颜色分量的信息的平均值;
生成一个所述第一边信息数据,其中,所述第一边信息数据包括x行y列个的所述平均值。
可选的,所述方法还包括:
当所述至少一个第一边信息数据中任一边信息数据的取值范围与所述第一输入数据的取值范围不同时,对所述任一边信息数据进行标准化处理,使得处理后的所述任一边信息数据的取值范围与所述第一输入数据的取值范围相同。
可选的,所述方法还包括:
对初始卷积神经网络进行训练以得到所述卷积神经网络,所述卷积神经网络的训练过程包括:
通过所述第一通道向卷积神经网络输入包含第三输入数据,所述第三输入数据包括第二指定图像帧中训练区域的第一颜色分量的信息,所述第二指定图像帧中训练区域与所述目标区域的尺寸相同,所述第三输入数据的获取方式与所述第一输入数据的获取方式相同;
通过所述至少一个第二通道分别向所述初始卷积神经网络输入至少一个第二边信息数据,所述至少一个第二通道与所述至少一个第二边信息数据一一对应,所述至少一个第二边信息数据的获取方式与所述至少一个第一边信息数据的获取方式相同;
将所述第二指定图像帧中训练区域对应的第二颜色分量的原始数据作为训练标签,对所述初始卷积神经网络进行训练以得到所述卷积神经网络,所述原始数据由所述第二指定图像帧中训练区域的已知的第二颜色分量的信息组成。
可选的,所述卷积神经网络包括输入层、隐含层和输出层;
在所述获取所述卷积神经网络输出的第一输出数据之前,所述方法还包括:
当所述输入层有一个通道存在输入数据时,通过所述输入层对第一输入数据进行多维卷积滤波和非线性映射,得到所述输入层的输出数据;
当所述输入层有至少两个通道存在输入数据时,通过所述输入层对每个通道输入的数据分别进行多维卷积滤波和非线性映射,并将不同通道的所述多维卷积滤波和非线性映射后的输入数据进行合并,得到所述输入层的输出数据;
通过所述隐含层对所述输入层的输出数据进行多维卷积滤波和非线性映射,得到高维图像数据;
通过所述输出层对所述高维图像数据进行聚合(如求和),得到所述第一输出数据。
可选的,所述输入层包括分别与所述每个通道对应的依次连接的至少一个卷积层,以及合并层,每个所述卷积层包括一个特征提取层和一个特征映射层,
所述通过所述输入层对每个通道输入的数据分别进行多维卷积滤波和非线性映射,并将不同通道的所述多维卷积滤波和非线性映射后的输入数据进行合并,得到所述输入层的输出数据,包括:
在每个卷积层中:通过所述特征提取层对输入的数据进行多维卷积滤波,并通过所述特征映射层对所述输入的数据进行非线性映射;
通过所述合并层将经过不同通道对应的所述至少一个卷积层处理后的数据进行合并,得到所述输入层的输出数据。
可选的,所述隐含层包括依次连接的至少一个卷积层,每个所述卷积层包括一个特征提取层和一个特征映射层,
所述通过所述隐含层对所述输入层的输出数据进行多维卷积滤波和非线性映射,得到高维图像数据,包括:
在每个卷积层中:通过所述特征提取层对输入的数据进行多维卷积滤波,并通过所述特征映射层对所述输入的数据进行非线性映射;
将经过所述至少一个卷积层处理的数据作为所述高维图像数据。
可选的,所述待处理图像帧的颜色编码格式为YUV格式,所述第一颜色分量和所述第二颜色分量为亮度分量Y、色度分量U和色度分量V中的两种;
或者,所述待处理图像帧的颜色编码格式为RGB格式,所述第一颜色分量和所述第二颜色分量为红色分量、绿色分量和蓝色分量中的两种。
根据本公开实施例的第二方面,提供一种颜色分量的帧内预测装置,所述装置包括:
第一输入模块,用于通过第一通道向卷积神经网络输入第一输入数据,所述第一输入数据包含待处理图像帧中目标区域的第一颜色分量的信息;
获取模块,用于获取所述卷积神经网络输出的第一输出数据,所述第一输出数据包含所述卷积神经网络对所述目标区域的第二颜色分量的信息的预测值;
其中,所述第一颜色分量和所述第二颜色分量为所述目标区域具有的不同的颜色分量。
可选的,所述第一输入数据包括所述第一周边区域中已重建的第二颜色分量的信息,与所述目标区域的已重建的第一颜色分量的信息,所述目标区域的第一周边区域为位于所述目标区域左侧和/或上方的带状区域。
可选的,所述装置还包括:
第一确定模块,用于在所述通过第一通道向卷积神经网络输入第一输入数据之前,确定所述待处理图像帧中第一颜色分量和第二颜色分量的采样率关系;
第二确定模块,用于基于所述采样率关系,确定所述第一输入数据,所述第一输入数据中,所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度。
可选的,所述第二确定模块,包括:
第一获取子模块,用于获取所述目标区域的第一周边区域中已重建的第二颜色分量的信息;
第二获取子模块,用于获取所述目标区域的已重建的第一颜色分量的信息;
第一确定子模块,用于基于所述采样率关系,根据所述第一周边区域中已重建的第二颜色分量的信息,与所述目标区域的已重建的第一颜色分量的信息,确定所述第一输入数据。
可选的,所述第一确定子模块,用于:
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例为1:1,将所述目标区域的第一周边区域中已重建的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据;
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例大于1:1,基于所述采样率比例,对所述第一周边区域中已重建的第二颜色分量的信息进行上采样,使得上采样后所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度,并将上采样得到的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据;
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例小于1:1,基于所述采样率比例,对所述第一周边区域中已重建的第二颜色分量的信息进行下采样,使得下采样后所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度,并将下采样得到的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据。
可选的,所述装置还包括:
第一训练模块,用于对初始卷积神经网络进行训练以得到所述卷积神经网络,所述卷积神经网络的训练过程包括:
通过所述第一通道向所述初始卷积神经网络输入第二输入数据,所述第二输入数据包括第一指定图像帧中训练区域的第一颜色分量的信息,所述第一指定图像帧中训练区域与所述目标区域的尺寸相同,所述第二输入数据的获取方式与所述第一输入数据的获取方式相同;
将所述第一指定图像帧中训练区域对应的原始数据作为训练标签,对所述初始卷积神经网络进行训练以得到所述卷积神经网络,所述原始数据由所述第一指定图像帧中训练区域的已知的第二颜色分量的信息组成。
可选的,所述装置还包括:
第三确定模块,用于确定至少一个第一边信息数据,每个所述第一边信息数据包含除所述第一输入数据包含的颜色分量的信息之外的信息;
第二输入模块,用于通过至少一个第二通道分别向所述卷积神经网络输入所述至少一个第一边信息数据,所述至少一个第二通道与所述至少一个第一边信息数据一一对应。
可选的,所述第三确定模块,包括:
第二确定子模块,用于基于所述目标区域中已重建的第一颜色分量的相关信息,确定所述至少一个第一边信息数据;
和/或,第三确定子模块,用于基于所述目标区域的第二周边区域中已重建的第二颜色分量的信息,确定所述至少一个第一边信息数据,所述目标区域的第二周边区域为位于所述目标区域左侧和/或上方的带状区域。
可选的,所述待处理图像帧的颜色编码格式为YUV格式,所述第一输入数据包括x行y列个第一采样块的颜色分量的信息,所述x和所述y均为大于或等于1的整数;
所述第二确定子模块,用于:
获取每个所述第一采样块上的已重建的第一颜色分量的帧内预测模式的标识值;
将所有所述帧内预测模式的标识值组成一个所述第一边信息数据。
可选的,所述第一输入数据包括x行y列个第一采样块的颜色分量的信息,所述x和所述y均为大于或等于1的整数;
所述第三确定子模块,用于:
获取所述目标区域的第二周边区域中已重建的第二颜色分量的信息;
确定所述目标区域的第二周边区域中已重建的第二颜色分量的信息的平均值;
生成一个所述第一边信息数据,其中,所述第一边信息数据包括x行y列个的所述平均值。
可选的,所述装置还包括:
标准化模块,用于当所述至少一个第一边信息数据中任一边信息数据的取值范围与所述第一输入数据的取值范围不同时,对所述任一边信息数据进行标准化处理,使得处理后的所述任一边信息数据的取值范围与所述第一输入数据的取值范围相同。
可选的,所述装置还包括:
第二训练模块,用于对初始卷积神经网络进行训练以得到所述卷积神经网络,所述卷积神经网络的训练过程包括:
通过所述第一通道向卷积神经网络输入包含第三输入数据,所述第三输入数据包括第二指定图像帧中训练区域的第一颜色分量的信息,所述第二指定图像帧中训练区域与所述目标区域的尺寸相同,所述第三输入数据的获取方式与所述第一输入数据的获取方式相同;
通过所述至少一个第二通道分别向所述初始卷积神经网络输入至少一个第二边信息数据,所述至少一个第二通道与所述至少一个第二边信息数据一一对应,所述至少一个第二边信息数据的获取方式与所述至少一个第一边信息数据的获取方式相同;
将所述第二指定图像帧中训练区域对应的第二颜色分量的原始数据作为训练标签,对所述初始卷积神经网络进行训练以得到所述卷积神经网络,所述原始数据由所述第二指定图像帧中训练区域的已知的第二颜色分量的信息组成。
可选的,所述卷积神经网络包括输入层、隐含层和输出层;所述装置还包括:
第一处理模块,用于在所述获取所述卷积神经网络输出的第一输出数据之前,当所述输入层有一个通道存在输入数据时,通过所述输入层对第一输入数据进行多维卷积滤波和非线性映射,得到所述输入层的输出数据;
第二处理模块,用于当所述输入层有至少两个通道存在输入数据时,通过所述输入层对每个通道输入的数据分别进行多维卷积滤波和非线性映射,并将不同通道的所述多维卷积滤波和非线性映射后的输入数据进行合并,得到所述输入层的输出数据;
高维处理模块,用于通过所述隐含层对所述输入层的输出数据进行多维卷积滤波和非线性映射,得到高维图像数据;
聚合模块,用于通过所述输出层对所述高维图像数据进行聚合,得到所述第一输出数据。
可选的,所述输入层包括分别与所述每个通道对应的依次连接的至少一个卷积层,以及合并层,每个所述卷积层包括一个特征提取层和一个特征映射层,
所述第二处理模块,用于:
在每个卷积层中:通过所述特征提取层对输入的数据进行多维卷积滤波,并通过所述特征映射层对所述输入的数据进行非线性映射;
通过所述合并层将经过不同通道对应的所述至少一个卷积层处理后的数据进行合并,得到所述输入层的输出数据。
可选的,所述隐含层包括依次连接的至少一个卷积层,每个所述卷积层包括一个特征提取层和一个特征映射层,
所述高维处理模块,用于:
在每个卷积层中:通过所述特征提取层对输入的数据进行多维卷积滤波,并通过所述特征映射层对所述输入的数据进行非线性映射;
将经过所述至少一个卷积层处理的数据作为所述高维图像数据。
可选的,所述待处理图像帧的颜色编码格式为YUV格式,所述第一颜色分量和所述第二颜色分量为亮度分量Y、色度分量U和色度分量V中的两种;
或者,所述待处理图像帧的颜色编码格式为RGB格式,所述第一颜色分量和所述第二颜色分量为红色分量、绿色分量和蓝色分量中的两种。
根据本公开实施例的第三方面,提供一种计算机设备,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行上述第一方面提供的颜色分量的帧内预测方法,例如:
通过第一通道向卷积神经网络输入第一输入数据,所述第一输入数据包含待处理图像帧中目标区域的第一颜色分量的信息;
获取所述卷积神经网络输出的第一输出数据,所述第一输出数据包含所述卷积神经网络对所述目标区域的第二颜色分量的信息的预测值;
其中,所述第一颜色分量和所述第二颜色分量为所述目标区域具有的不同的颜色分量。
本公开的实施例提供的技术方案可以包括以下有益效果:
本发明实施例提供的颜色分量的帧内预测方法及装置,将包含待处理图像帧中目标区域的第一颜色分量的信息的第一输入数据输入至卷积神经网络,由卷积神经网络进行处理得到包含第二颜色分量的信息的第一输出数据,从而实现了卷积神经网络对颜色分量的帧内预测,由于卷积神经网络所具有的深度学习等特性,使得最终预测得到的第二颜色分量可靠性较高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚地说明本公开的实施例,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是根据相关技术示出的一种H.265的编码原理示意图;
图1B是根据相关技术示出的一种H.265的解码原理示意图;
图1C是根据一示例性实施例示出的一种颜色分量的帧内预测方法的流程图;
图1D是根据一示例性实施例示出的一种未进行编码的图像帧的示意图;
图1E是图1D所示的图像帧的亮度分量Y的信息的呈现效果示意图;
图1F是图1D所示的图像帧的色度分量U的信息的呈现效果示意图;
图1G是图1D所示的图像帧的色度分量V的信息的呈现效果示意图;
图2A是根据一示例性实施例示出的另一种颜色分量的帧内预测方法的流程图;
图2B是根据一示例性实施例示出的一种确定第一输入数据的方法流程图;
图2C是根据一示例性实施例示出的一种待处理图像帧中的区域示意图;
图2D是根据一示例性实施例示出的另一种待处理图像帧中的区域示意图;
图2E是根据一示例性实施例示出的一种上采样过程示意图;
图2F是根据一示例性实施例示出的一种第一输入数据的组成元素示意图;
图2G是根据一示例性实施例示出的一种下采样过程示意图;
图2H是根据一示例性实施例示出的另一种第一输入数据的组成元素示意图;
图2I是根据一示例性实施例示出的一种卷积神经网络的结构示意图;
图3A是根据一示例性实施例示出的又一种颜色分量的帧内预测方法的流程图;
图3B是根据一示例性实施例示出的另一种卷积神经网络的结构示意图;
图4A是根据一示例性实施例示出的一种颜色分量的帧内预测装置的结构示意图;
图4B是根据一示例性实施例示出的另一种颜色分量的帧内预测装置的结构示意图;
图4C是根据一示例性实施例示出的一种第二确定模块的结构示意图;
图4D是根据一示例性实施例示出的又一种颜色分量的帧内预测装置的结构示意图;
图4E是根据一示例性实施例示出的再一种颜色分量的帧内预测装置的结构示意图;
图4F是根据一示例性实施例示出的一种第三确定模块的结构示意图;
图4G是根据另一示例性实施例示出的一种颜色分量的帧内预测装置的结构示意图;
图4H是根据另一示例性实施例示出的又一种颜色分量的帧内预测装置的结构示意图;
图4I是根据另一示例性实施例示出的再一种颜色分量的帧内预测装置的结构示意图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,显然,所描述的实施例仅仅是本公开一部份实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
本发明实施例提供一种颜色分量的帧内预测方法,该颜色分量的帧内预测方法是通过卷积神经网络(英文:Convolutional Neural Network;简称:CNN)来进行帧内预测的,为了便于读者理解,下面对卷积神经网络进行简单的解释。
卷积神经网络是一种前馈神经网络,是深度学习技术中极具代表的网络架构之一,它的人工神经元(英文:Neuron)可以响应一部分覆盖范围内的周围单元,能根据图像特征进行处理。
一般地,卷积神经网络的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部接受域的特征。其二是特征映射层,网络的每个特征映射层由多个特征映射组成,每个特征映射为一个平面。特征映射层设置有激活函数(英文:activation function),通常的激活函数为非线性映射函数,可以为sigmoid函数或神经网络回顾(英文:Rectified linear unit;简称:ReLU)函数。需要说明的是,卷积神经网络由大量的节点(也称“神经元”或“单元”)相互连接而成,每个节点代表一种特定的输出函数。每两个节点之间的连接代表加权值,称之为权重(英文:weight)。不同的权重和激活函数,则会导致卷积神经网络不同的输出。
卷积神经网络相较于传统的图像处理算法的优点之一在于,避免了对图像复杂的前期预处理过程(提取人工特征等),可以直接输入原始图像,进行端到端的学习。卷积神经网络相较于传统的神经网络的优点之一在于,传统的神经网络都是采用全连接的方式,即输入层到隐藏层的神经元都是全部连接的,这样做将导致参数量巨大,使得网络训练耗时甚至难以训练,而卷积神经网络则通过局部连接和权值共享等方式避免了这一问题。
进一步的,本发明实施例所提供的颜色分量的帧内预测方法,可以应用于视频编解码领域,为了便于读者理解,下面对视频编码过程和解码过程进行简单的解释。
第一、视频编码过程。
目前的视频编码标准有H.261至H.265,以及MPEG-4V1至MPEG-4V3等多种,其中,H.264,又称视频编码(英文:Advanced Video Coding;简称:AVC),H.265,又称高效率视频编码(英文:High Efficiency Video Coding;简称:HEVC),两者均采用运动补偿混合编码算法,本发明实施例以H.265为例进行解释。
如图1A所示,图1A为H.265的编码原理示意图。H.265的编码架构大致上和H.264的编码架构相似,主要也包含:帧内预测(英文:intra prediction)模块、帧间预测(英文:inter prediction)模块、变换(英文:transform)模块、量化(英文:quantization)模块、熵编码(英文:entropy coding)模块、反变换模块、反量化模块、重建图像模块和环路滤波模块(也称环内滤波模块)等模块,其中,环路滤波模块包括去块滤波(英文:deblocking)模块(也称去块滤波器(英文:deblocking filter))和采样点自适应偏移(英文:SampleAdaptive Offset;简称:SAO)模块。
其中,在进行视频编码时,通常会将待编码图像划分为矩阵状排布的尺寸相等的多个区域,每个区域对应一个图像块(也称编码块),在进行编码时,通常是按照从上至下,从左至右的顺序对各个图像块依次进行处理。例如,上述帧内预测模块用于基于同一图像帧中的已重建的周围像素值对当前图像块的像素值进行预测,以去除空间冗余信息;上述帧间预测模块用于利用视频时域的相关性,使用邻近已重建的图像帧中的像素值预测待编码图像的像素值,以去除时间上的关联性;量化模块用于将图像块的连续取值映射成多个离散的幅值;上述去块滤波模块用于对图像块边界处的像素进行滤波以去除块效应;SAO模块用于进行像素值的补偿处理,重建图像模块将预测值和重建残差值相加获得重建像素值(未经环路滤波)。经过环路滤波模块得到的重建帧形成参考帧列表,用于帧间预测;熵编码模块对得到的模式信息和残差信息进行处理得到码流(英文:bitstream)。
在视频编码标准H.265中,帧内预测模块中对待处理图像帧的图像块的亮度分量和色度分量进行独立编码。其中,色度分量的编码过程涉及色度的帧内预测技术,该色度的帧内预测技术是跨分量的色度预测技术,是在编码并重建完图像块的亮度分量的信息后,也即在环路滤波模块在进行环路滤波前,利用已重建的亮度分量对色度分量进行预测。
第二、视频解码过程。
如图1B所示,图1B为H.265的解码原理示意图。H.265的解码架构大致上和H.264的解码架构相似,主要也包含:熵解码模块、帧内预测模块、帧间预测模块、反变换模块、反量化模块和环路滤波模块等模块,其中,环路滤波模块包括去块滤波模块和SAO模块。经过环路滤波模块得到的重建帧形成参考帧列表,用于帧间预测,熵解码模块对得到的码流进行处理得到模式信息和残差信息。
H.265的解码原理可以参考上述H.265的编码过程,本发明实施例对此不再赘述。
本发明实施例提供一种颜色分量的帧内预测方法,该帧内预测方法实质上是跨分量的帧内预测方法,其原理为基于卷积神经网络,通过第一颜色分量的信息来预测第二颜色分量的信息,如图1C所示,包括:
步骤101、通过第一通道向卷积神经网络输入第一输入数据,该第一输入数据包含待处理图像帧中目标区域的第一颜色分量的信息。
其中,目标区域为待处理图像帧中待进行第二颜色分量预测的区域。需要说明的是,本发明实施例中,颜色分量的信息是指颜色分量的数值,也称分量值,则上述目标区域的第一颜色分量的信息也即是目标区域的第一颜色分量的数值。
步骤102、获取卷积神经网络输出的第一输出数据,该第一输出数据包含卷积神经网络对所述目标区域的第二颜色分量的信息的预测值。
其中,第一颜色分量和第二颜色分量为目标区域具有的不同的颜色分量,两者属于同一颜色空间。该卷积神经网络用于基于第一输入数据预测得到第一输出数据。
值的说明的是,在不同的应用场景中,待处理图像帧的类型不同,第一输入数据相应不同。例如,当待处理图像帧为待编码图像帧时,第一输入数据为目标区域中编码后重建的第一颜色分量的信息,编码后重建的第一颜色分量的信息是基于已编码得到的第一颜色分量的信息恢复得到的,以图1A为例,该编码后重建的第一颜色分量的信息是将目标区域中已编码得到第一颜色分量的信息(也即是码流)通过反变化处理和反量化处理后,与目标区域的第一颜色分量的预测信息相加得到的信息,是由图1A中的重建图像模块处理得到的图像信息;当待处理图像帧为待解码图像帧时,第一输入数据为目标区域中解码得到的重建的第一颜色分量的信息,解码得到的重建的第一颜色分量的信息是基于已解码得到的第一颜色分量的信息恢复得到的,以图1B为例,该解码得到的重建的第一颜色分量的信息是将目标区域中已解码得到第一颜色分量的信息(也即是经过了熵解码模块的码流)通过反变化模块和反量化模块处理得到的信息,与帧内预测模块或帧间预测模块所预测得到的预测信息相加所得到的信息,其获取过程与图1B中所标示的重建信息的获取过程相同。编码后重建的第一颜色分量的信息和解码得到的重建的第一颜色分量的信息均可以称为已重建的第一颜色分量的信息。
综上所述,本发明实施例将包含待处理图像帧中目标区域的第一颜色分量的信息的第一输入数据输入至卷积神经网络,由卷积神经网络进行处理得到包含第二颜色分量的信息的第一输出数据,从而实现了卷积神经网络对颜色分量的帧内预测,由于卷积神经网络所具有的深度学习等特性,使得最终预测得到的第二颜色分量可靠性较高。
本发明实施例所提供的颜色分量的帧内预测方法针对不同的待处理图像帧的颜色编码格式可以实现不同的颜色分量的预测,目前较为常用的两种图像帧的颜色编码格式有YUV格式和RGB格式。
一方面,当颜色编码格式为YUV格式时,其基本编码原理可以为:采用三管彩色摄影机或彩色电荷耦合元件(英文:Charge-coupled Device;简称:CCD)摄影机进行取像,然后把取得的彩色图像信号经分色和分别放大校正后得到RGB信号,再将RGB信号经过矩阵变换电路得到亮度分量Y的信号和两个色差信号B-Y(即色度分量U的信号)、R-Y(即色度分量V的信号),最后将亮度分量Y的信号、色度分量U的信号和色度分量V的信号分别进行编码,采用同一信道发送出去。这种色彩的表示方法就是所谓的YUV色彩空间表示。采用YUV色彩空间表示的重要性是亮度分量Y的信号、色度分量U的信号和色度分量V的信号是分离的。当然,上述YUV格式也可以通过其他方式获取,本发明实施例对此不做限定。
实际应用中,由于YUV格式的图像(后文简称目标图像)通常是通过对摄像机拍摄的初始图像进行下采样得到的,亮度分量Y、色度分量U和色度分量V的采样率(也称抽样率)可能不同,初始图像中各个颜色分量的分布密度相同,即各个颜色分量的分布密度比例为1:1:1,由于各个颜色分量的采样率不同,最终得到的目标图像的不同颜色分量的分布密度不同,通常,目标图像中,各颜色分量的分布密度比例等于采样率比例,需要说明的是,一种颜色分量的分布密度指的是指单位尺寸中所包含的该种颜色分量的信息的个数。例如亮度分量的分布密度是指单位尺寸中所包含的亮度值的个数。
目前的YUV格式基于不同的采样率比例划分为多种采样格式,该采样格式可以采用采样率比例的方式进行表示,这种表示方式称为A:B:C表示法,目前的采样格式可以分为:4:4:4、4:2:2、4:2:0和4:1:1等。例如,采样格式为4:4:4表示目标图像中亮度分量Y,色度分量U和色度分量V的采样率相同,在原始图像上没有进行下采样,目标图像的各个颜色分量的分布密度比例为1:1:1;采样格式为4:2:2表示目标图像中每两个亮度分量Y共用一组色度分量U和色度分量V,目标图像的各个颜色分量的分布密度比例为2:1:1,即以像素点为采样单位,对原始图像的亮度分量未进行下采样,对原始图像的色度分量进行水平方向的2:1下采样,垂直方向未进行下采样得到目标图像;采样格式为4:2:0表示对目标图像中的色度分量U和色度分量V中每个色度分量来说,水平方向和竖直方向的采样率都是2:1,目标图像的亮度分量Y与色度分量U的分布密度比例为2:1,目标图像的亮度分量Y与色度分量V的分布密度比例为2:1,即以像素点为采样单位,对原始图像的亮度分量未进行下采样,对原始图像的色度分量进行水平方向的2:1下采样,以及垂直方向的2:1下采样得到目标图像。
在本发明实施例中,第一颜色分量和第二颜色分量为目标区域具有的不同类型的颜色分量。当待处理图像帧的颜色编码格式为YUV格式,该待处理图像帧中各个像素点的像素值包括亮度分量Y、色度分量U和色度分量V,则上述第一颜色分量和第二颜色分量可以为亮度分量Y、色度分量U和色度分量V中的任两种。
请参考图1D至图1G,图1D为一未进行编码的图像帧,图1E至图1G分别为该图像帧的亮度分量Y的信息(图1E也可以称为亮度图像帧)、色度分量U的信息(图1F也可以称为色度U图像帧)以及色度分量V的信息(图1G也可以称为色度V图像帧)的呈现效果示意图。其中,图1D为一彩色图像帧的示意图,图1E至图1G中的Y、U和V为标识信息,并不是图像帧中的内容。
另一方面,当待处理图像帧的颜色编码格式为RGB格式时,该待处理图像帧中各个像素点的像素值包括透明度分量和多个颜色分量,该多个颜色分量可以包括红色分量、绿色分量和蓝色分量,则第一颜色分量和第二颜色分量为红色分量、绿色分量和蓝色分量中的任两种。需要说明的是,当待处理图像帧的颜色编码格式为RGB格式时,红色分量、绿色分量和蓝色分量采样率比例为1:1:1,三者在待处理图像帧中的分布密度比例也为1:1:1。
值得说明的是,本发明实施例的保护范围并不局限于此,当待处理图像帧的颜色编码格式为其他格式时,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,也可以采用本发明实施例提供的颜色分量的帧内预测方法轻易想到变换或替换来进行相应的颜色分量的预测,因此,这些可轻易想到变化或替换,也涵盖在本发明实施例保护范围内。
在本发明实施例中,上述卷积神经网络包括输入层(英文:Input layer)、隐含层(英文:Hidden layer)和输出层(英文:Output layer)。可选的,该卷积神经网络可以包括一个输入层、一个隐含层和一个输出层。输入层可以包括至少一个通道,通过该至少一个通道可以向卷积神经网络输入数据,在本发明实施例中,向卷积神经网络输入数据来进行颜色分量的预测的过程可以有至少两种可实现方式,在不同的可实现方式中,颜色分量的帧内预测方法不同,具体如下:
第一种可实现方式,通过第一通道向卷积神经网络输入第一输入数据进行颜色分量的跨分量帧内预测,得到第一输出数据。
其中,该第一输入数据可以包括待处理图像帧中目标区域的多个第一采样块的第一颜色分量的信息,第一输出数据包括卷积神经网络输出的目标区域的多个第二采样块的第二颜色分量的信息,其中,第一采样块为针对第一颜色分量的采样单位,该第一采样块包括至少一个第一颜色分量点,第一颜色分量点为能够采集到第一颜色分量的信息的最小区域单位,该第一颜色分量点也可以称为第一颜色分量像素点或者第一颜色分量像素位置。
示例的,假设第一颜色分量为亮度分量,第一颜色分量点即为亮度点,若目标区域中每个像素点都具有一个亮度值,则一个亮度点的尺寸与一个像素点的尺寸相同,第一采样块由至少一个亮度点组成,也即是由至少一个像素点组成。
第二采样块为针对第二颜色分量的采样块,该第二采样块包括至少一个第二颜色分量点,该第二颜色分量点为能够采集到第二颜色分量的信息的最小区域单位,该第二颜色分量点也可以称为第二颜色分量像素点或者第二颜色分量像素位置。
示例的,假设第二颜色分量为色度分量,第二颜色分量点即为色度点,若目标区域中每两个像素点具有一个色度值(或者说共用一个色度值),则一个色度点的尺寸与两个像素点的尺寸相同,第二采样块由至少一个色度点组成,也即是由至少两个像素点组成。
则由上可知,每个第一采样块和每个第二采样块均可以由一个或多个像素点组成,例如,假设第一采样块由2×2个像素点组成,则第一输入数据可以包括待处理图像帧中目标区域的以每2×2个像素点为采样单位采样得到的第一颜色分量的信息,其中,每个第一采样块包含一个第一颜色分量的信息,该信息可以为该第一采样块中指定位置的第一颜色分量点的信息,也可以是该采样单位中所有第一颜色分量点的信息平均值。示例的,当第一颜色分量为亮度分量时,每个第一采样块包含一个亮度值,该亮度值可以为该第一采样块中指定亮度点的亮度值,也可以是该第一采样块中所有亮度点的亮度平均值。
假设第二采样块由2×2个像素点组成,则第二输入数据可以包括待处理图像帧中目标区域的以每2×2个像素点为采样单位采样得到的第二颜色分量的信息(该数据为一采样结果的预测数据),其中,每个第二采样块包含一个第二颜色分量的信息,该信息可以为该第二采样块中指定位置的第二颜色分量点的信息,也可以是该第二采样块中所有第二颜色分量点的信息平均值。示例的,当第二颜色分量为色度分量(如色度分量U或色度分量V)时,每个第二采样块包含一个色度值,该色度值可以为该第二采样块中指定色度点的色度值,也可以是该第二采样块中所有色度点的色度平均值。
当然,由于采样单位越精细,预测的颜色分量的细致程度越高,因此,实际应用中,该第一采样块由一个第一颜色分量点组成,第二采样块由一个第二颜色分量点组成。则第一输入数据包括待处理图像帧中目标区域的所有第一颜色分量的信息(也即所有像素点的第一颜色分量的信息),第一输出数据包括卷积神经网络对目标区域的所有第二颜色分量的信息(也即所有像素点的第二颜色分量的信息)。
请参考图2A,假设第一输入数据包括待处理图像帧中目标区域的所有第一颜色分量的信息,该第一输出数据包括卷积神经网络对目标区域的所有第二颜色分量的信息,例如,该待处理图像帧为视频图像帧,该颜色分量的帧内预测方法,可以包括:
步骤201、确定待处理图像帧中第一颜色分量和第二颜色分量的采样率关系。
示例性地,待处理图像帧通常会被划分为矩阵状排布的尺寸相等的多个区域,每个区域对应一个图像块(在视频编解码领域也称编码块),在进行图像处理时,通常是按照从上至下,从左至右的顺序对各个区域依次进行处理,本发明实施例中,目标区域为待处理图像帧中待进行第二颜色分量预测的区域,在对该目标区域的第二颜色分量进行预测时,该目标区域上方和左侧的区域的第二颜色分量已经完成相应的预测。示例的,在编解码领域,该目标区域为待处理图像帧中待进行第二颜色分量重建的区域,在对该目标区域的第二颜色分量进行重建时,该目标区域上方和左侧的区域的第二颜色分量已经完成相应的重建。
在同一区域中,不同颜色分量的采样率可以相同也可以不同,相应的,相互之间的采样率关系可以相同,也可以不同,该采样率关系是由实际的颜色编码格式的采样格式决定的,如前所述,例如颜色编码格式为YUV格式时,采样格式可以为YUV4:2:0或YUV4:4:4等,其中,采样格式为YUV4:2:0时,待编码图像帧中,同一区域中,亮度分量Y、色度分量U和色度分量V的采样率关系为:亮度分量Y和色度分量V在水平和垂直方向采样率比例各为2:1,亮度分量Y和色度分量U在水平和垂直方向采样率比例各为2:1;色度分量U和色度分量V的采样率比例为1:1;采样格式为YUV4:4:4时,待编码图像帧中,同一区域中,亮度分量Y、色度分量U和色度分量V的采样率关系为:亮度分量Y和色度分量U的采样率比例为1:1,亮度分量Y和色度分量V的采样率比例为1:1。当然,待编码图像帧还可以是其他采样格式,本发明实施例对此不再赘述。并且,上述采样率关系,最终反映了颜色分量的分布密度,例如,两个颜色分量的采样率比例为1:1时,该两个颜色分量在同一区域中的分布密度相同。
如果根据亮度分量和色度分量间的线性相关性来进行帧内预测,其原理是依据图像的局部亮度与色度线性相关,但实际上亮度分量的纹理特性会远强于色度分量的纹理特性,以图1D中人脸图像嘴角位置4x4个像素的区域W为例,假设采样格式为YUV4:4:4,则区域W中每个像素所具有的YUV颜色分量的采样率关系为:采样率比例为1:1:1,此时区域W中每个像素点具有1个亮度分量Y的信息(即数值),1个色度分量U的信息和1个色度分量V的信息,参见图1E至图1G,以及表1至表3,图1E至图1G分别为该图像帧的亮度分量Y的信息、色度分量U的信息以及色度分量V的信息的呈现效果示意图,表1至表3分别为该区域W中,像素点所分别具有的亮度分量Y的数值、色度分量U的数值以及色度分量V的数值。由图1E至图1G和表1至表3可知,在区域W中该亮度分量Y的信息有显著变化的情况下,对应区域的色度分量U的信息和色度分量V的信息并无明显变化。当包含亮度分量Y、色度分量U和色度分量V的信息的图像块分别呈现时,可以看出这三个图像块都有相似的轮廓信息,因此对应于同一帧图像的同一区域的亮度分量Y、色度分量U和色度分量V有一定的相关性。在本发明实施例中,通过卷积神经网络进行跨颜色分量的预测,可以实现通过在卷积网络的感知野范围内提取的纹理等图像特征生成预测结果,从而既可以避免亮度分量和色度分量被简单设定为具有线性相关的关系,又可以充分考虑亮度分量Y、色度分量U和色度分量V的相关性。
表1
表2
表3
在本发明实施例中,为了保证能够进行颜色分量的准确预测,有效分析亮度分量Y、色度分量U和色度分量V的相关性,简化卷积神经网络的网络架构,该第一输入数据不仅可以包括目标区域的已重建的第一颜色分量的信息,还可以包括目标区域的第一周边区域的已重建的第二颜色分量的信息,该已重建的第二颜色分量的信息可以反映第二颜色分量在待预测图像中的纹理特性,基于包含该已重建的第二颜色分量的信息,卷积神经网络可以更为准确地预测目标区域的第二颜色分量的信息,请参考上述步骤102对已重建的第一颜色分量的信息的解释,当待处理图像帧为待编码图像帧时,已重建的第二颜色分量的信息为编码后重建的第二颜色分量的信息,当待处理图像帧为待解码图像帧时,已重建的第二颜色分量的信息为解码得到的重建的第二颜色分量的信息。
其中,目标区域的第一周边区域为位于目标区域左侧和/或上方的带状区域,该带状区域与目标区域邻接。该带状区域的范围可以根据实际情况设定,示例的,该带状区域由位于目标区域左侧的至少一列像素和/或上方的至少一行像素组成,该p和q均为大于或等于1的整数。
由前述对颜色编码格式的介绍可知,由于目标图像是由初始图像进行下采样得到的,各个颜色分量的采样率比例决定了最终得到的目标图像中颜色分量的分布密度,而本发明实施例中帧内跨分量预测的对象:待处理图像,即为上述目标图像,其各个颜色分量的采样率比例可能不同,相应的,分布密度也可能不同,因此,第一输入数据包括的已重建的第一颜色分量的信息的分布密度和已重建的第二颜色分量的信息的分布密度也可能不同。
为了使得卷积神经网络的架构更简单,运算更简洁,在向卷积神经网络的输入第一输入数据之前,可以基于待处理图像帧中第一颜色分量和第二颜色分量的采样率关系,进行第一输入数据的分布密度的一致化处理,该一致化处理过程可以参考后续步骤2023,经过一致化处理后得到的第一输入数据中包含的第一周边区域的第二颜色分量的分布密度等于目标区域中的第一颜色分量的分布密度,使得第一输入数据中包含的各个颜色分量的分布密度均匀,并且,由于预测主要是以目标区域中的第一颜色分量的信息做参考,因此,在确定第一输入数据的过程中,是通过保持目标区域中第一颜色分量的分布密度不变,调整第一周边区域的第二颜色分量的分布密度来实现两者密度相等的。
步骤202、基于采样率关系,确定第一输入数据。
示例的,当本发明实施例所提供的颜色分量的帧内预测方法应用于编解码领域时,第一输入数据包含的待处理图像帧中目标区域的第一颜色分量的信息为目标区域的已重建的第一颜色分量的信息,则假设该第一采样块为一个第一颜色分量点,第二采样块为一个第二颜色分量点,基于采样率关系,确定第一输入数据的过程,如图2B所示,该过程可以包括:
步骤2021、获取目标区域的第一周边区域中已重建的第二颜色分量的信息。
例如,假设目标区域为图2C中的区域H,第一颜色分量为亮度分量Y,第二颜色分量为色度分量U,采样格式可以分为:YUV4:4:4,图2C的一个方格代表一个像素点,则第一周边区域K由位于目标区域左侧的2列像素和上方的2行像素组成,如图2C所示,第一周边区域K和目标区域H中,每个像素所具有的YUV颜色分量的采样率关系为1:1:1,则获取的第一周边区域中已重建的第二颜色分量的信息即为第一周边区域K中的色度分量U的信息。
步骤2022、获取目标区域的已重建的第一颜色分量的信息。
仍然以上述图2C的例子为例,目标区域的已重建的第一颜色分量的信息即为目标区域H中的亮度分量的信息。
步骤2023、基于采样率关系,根据第一周边区域中已重建的第二颜色分量的信息,与目标区域中已重建的第一颜色分量的信息,确定第一输入数据。
示例的,步骤2023包括:
S1、当目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例为1:1,将目标区域的第一周边区域中已重建的第二颜色分量的信息,与目标区域中已重建的第一颜色分量的信息确定为第一输入数据。
仍然以上述步骤2021中图2C的例子为例,由于亮度分量Y和色度分量U的采样关系为采样率比例为1:1,则如图2D所示,直接将第一周边区域K中已重建的色度分量的信息和目标区域H中已重建的亮度分量的信息确定为第一输入数据。假设,图2C的一个方格代表一个像素点,则第一周边区域K的色度分量U的分布密度为每个像素点上具有一个色度值,目标区域H中的亮度分量Y的分布密度为每个像素点上具有一个亮度值,此时,第一周边区域K的色度分量U的分布密度等于目标区域H中的亮度分量Y的分布密度。
S2、当目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例大于1:1,基于采样率比例,对第一周边区域中已重建的第二颜色分量的信息进行上采样(英文:upsampling),使得上采样后第一周边区域的第二颜色分量的分布密度等于目标区域中的第一颜色分量的分布密度,并将上采样得到的第二颜色分量的信息,与目标区域中已重建的第一颜色分量的信息确定为第一输入数据。
例如,颜色编码格式为颜色编码格式为YUV4:2:2,第一颜色分量为亮度分量Y和第二颜色分量为色度分量U,则亮度分量Y和色度分量U的采样率关系为:采样率比例为2:1,大于1:1,则需要基于采样率比例:2:1,对第一周边区域中已重建的色度分量U的信息进行上采样,并将上采样得到的色度分量U的信息,与目标区域中已重建的亮度分量Y的信息确定为第一输入数据。
示例的,本发明实施例中,可以使用上采样滤波器对第一周边区域中已重建的第二颜色分量的信息进行上采样,或者,在原有图像的第二颜色分量的信息的基础上采用合适的插值算法插入新的第二颜色分量的信息。
以采用插值算法为例,由于第一颜色分量和第二颜色分量的采样率比例大于1:1,即目标区域中的第一颜色分量对应的第一采样块的尺寸要小于第二颜色分量的第二采样块的尺寸,且需要保持目标区域中第一颜色分量的分布密度不变,则上采样后的图像的基本单位为第一采样块。
在本发明实施例中,当目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例等于r:1,该r为大于1的整数,则对第一周边区域中多个第二采样块的第二颜色分量的信息进行r倍的上采样,得到多个第一采样块的第二颜色分量的信息,也即是上采样后第一周边区域中第二颜色分量的分布密度和目标区域中的第一颜色分量的分布密度相等,并将上采样得到的第二颜色分量的信息,与目标区域中已重建的第一颜色分量的信息确定为第一输入数据。
进一步的,采用插值算法实现的上采样可以指的是,在第一周边区域的原有第二颜色分量的信息的基础上插入新的第二颜色分量的信息,以使得插值后的第一周边区域的第二颜色分量的分布密度等于目标区域的第一颜色分量的分布密度。其中,假设第一周边区域包括M×N-m×n个具有第二颜色分量的信息的第二采样块,则对该M×N-m×n个具有第二颜色分量的信息的第二采样块进行r倍上采样可以为:将第一周边区域中每个第二采样块上的第二颜色分量的信息复制,并将每个第二采样块划分为r2个第一采样块,将每个第一采样块所在位置填充复制得到的第二颜色分量的信息,即在该每个第二采样块相邻的r2-1个位置进行插值,最终上采样得到的第二颜色分量的信息实际上为[(M×N-m×n)×r2]个第二颜色分量的信息。
例如,假设目标区域为图2C中的区域H,第一颜色分量为亮度分量Y,第二颜色分量为色度分量U,采样格式可以分为:YUV4:2:2,第一周边区域K由位于目标区域左侧的2列像素和上方的2行像素组成,则如图2C所示,第一周边区域K和目标区域H中,每个像素所具有的YUV颜色分量的采样率关系为2:1:1,则如图2E所示,获取第一周边区域K中的色度分量U的信息,并进行2倍上采样,得到上采样后的第一周边区域K。以图2E上方的第一周边区域K中的第一行第一列的第二采样块的色度分量U的上采样为例,将该色度分量U的信息复制,将每个第二采样块划分为4个第一采样块,将每个第一采样块所在位置填充复制得到色度分量U的信息,也即是基于复制得到色度分量U的信息分别对其周围的3个位置进行插值,即该色度分量U所在采样块处的右侧、下侧和右下侧相邻位置插值,其他位置的插值方式同理,最终得到图2E下方的第一周边区域K。
如图2F所示,最终将上采样得到的色度分量的信息,与目标区域中已重建的亮度分量的信息确定为第一输入数据。
S3、当目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例小于1:1,基于采样率比例,对第一周边区域中已重建的第二颜色分量的信息进行下采样(英文:subsampled),使得下采样后第一周边区域的第二颜色分量的分布密度等于目标区域中的第一颜色分量的分布密度,并将下采样得到的第二颜色分量的信息,与目标区域中已重建的第一颜色分量的信息确定为第一输入数据。
例如,颜色编码格式为颜色编码格式为YUV4:2:2,第一颜色分量为色度分量U和第二颜色分量为亮度分量Y,则色度分量U和亮度分量Y的采样率关系为:采样率比例为1:2,小于1:1,则需要基于采样率比例1:2,对第一周边区域中已重建的亮度分量Y的信息进行下采样,并将下采样得到的亮度分量Y的信息,与目标区域中已重建的色度分量U的信息确定为第一输入数据。
示例的,本发明实施例中,可以使用下采样滤波器对第一周边区域中已重建的第二颜色分量的信息进行下采样,或者,基于原有图像的第二颜色分量的信息进行下采样得到采样后的第二颜色分量的信息。
以上述第二种下采样方式为例,由于第一颜色分量和第二颜色分量的采样率比例小于1:1,即目标区域中的第一颜色分量对应的第一采样块的尺寸要大于第二颜色分量的第二采样块的尺寸,且需要保持目标区域中第一颜色分量的分布密度不变,则下采样后的图像的基本单位应该为第一采样块。
在本发明实施例中,当目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例等于1:s,该s为大于1的整数,则对第一周边区域中多个第二采样块的第二颜色分量的信息进行s倍的下采样,得到多个第一采样块的第二颜色分量的信息,也即是下采样后第一周边区域中第二颜色分量的分布密度和第一颜色分量的分布密度相等,并将下采样得到的第二颜色分量的信息,与目标区域中已重建的第一颜色分量的信息确定为第一输入数据。
其中,假设第一周边区域包括M×N-m×n个具有第二颜色分量的信息的第二采样块,则对该M×N-m×n个具有第二颜色分量的信息的第二采样块进行s倍的下采样指的是,将第一周边区域中每s×s个第二采样块的第二颜色分量的信息的平均值确定为一个第一采样块的第二颜色分量的信息,将所有第一采样块的第二颜色分量的信息作为下采样得到的第二颜色分量的信息,最终下采样得到的第二颜色分量的信息实际上为[(M×N-m×n)/s2]个第一采样块的第二颜色分量的信息。
例如,假设第一周边区域包括图1D中的区域W,第一颜色分量为色度分量U,第二颜色分量为亮度分量Y,采样率比例为:1:2,区域W中亮度分量Y的信息如表1所示,区域W包括4×4个具有亮度分量Y的信息的第二采样块。则基于表2所示的亮度分量Y的信息进行下采样得到的下采样后的亮度分量Y的信息可以如表4所示,下采样后的亮度分量Y的信息包括2×2个具有亮度分量Y的信息的下采样点。请参见表4,表3所对应的下采样后的亮度分量Y包括4个第一采样块,对应的亮度分量Y的值,简称亮度值分别为128.25、97.5、119.25和100.5,其中,第一个第一采样块的亮度值128.25为区域W中第1行第1列、第1行第2列、第2行第1列和第2行第2列的亮度值的平均值;第二个第一采样块的亮度值97.5为区域W中第1行第3列、第1行第4列、第2行第3列和第2行第4列的亮度值的平均值;第三个第一采样块的亮度值119.25为区域W中第3行第3列、第3行第4列、第4行第3列和第4行第4列的亮度值的平均值;第四个第一采样块的亮度值100.5为区域W中第4行第3列、第4行第4列、第4行第3列和第4行第4列的亮度值的平均值。
表4
上述例子只是以第一周边区域中的部分区域W的下采样为例进行说明,实际应用中,以对图2G上方的第一周边区域K中的亮度分量Y的信息进行下采样为例,采样后得到的亮度分量Y的信息如图2G下方的第一周边区域K中的亮度分量Y的信息,如图2H所示,最终将下采样得到的亮度分量的信息,与目标区域中已重建的色度分量的信息确定为第一输入数据。
上述步骤201和步骤202是以待处理图像帧中第一颜色分量和第二颜色分量的采样率关系为依据,来进行第一输入数据的分布密度的一致化处理的,但实际应用中,也可以直接获取目标区域的第一周边区域中已重建的第二颜色分量的信息,获取目标区域的已重建的第一颜色分量的信息(参考上述步骤2021和步骤2022),然后确定已重建的第一颜色分量的信息在目标区域的第一分布密度,确定已重建的第二颜色分量的信息在目标区域的第二分布密度,然后基于第一分布密度与第二分布密度的比值(实际应用中,该比值与上述的第一颜色分量和第二颜色分量的采样率比例相等),来进行如步骤2023所提供的一致化处理过程。
实际实现时,也可以直接获取目标区域的第一周边区域中已重建的第二颜色分量的信息,获取目标区域的已重建的第一颜色分量的信息(参考上述步骤2021和步骤2022),并将两者作为第一输入数据,则无需执行上述步骤201和步骤2023。
步骤203、通过第一通道向卷积神经网络输入第一输入数据。
第一输入数据包含待处理图像帧中目标区域的第一颜色分量的信息。由步骤202可知,第一输入数据可以包括目标区域的第一周边区域中已重建的第二颜色分量的信息(该信息为上采样、下采样或者不采样得到的信息)和目标区域的已重建的第一颜色分量的信息。当然,实际应用中,也可以直接输入仅包含目标区域的已重建的第一颜色分量的信息的第一输入数据,则无需执行上述步骤201和步骤202。
步骤204、通过输入层对第一输入数据进行多维卷积滤波和非线性映射,得到输入层的输出数据。
可选的,输入层可以包含至少一个通道,该至少一个通道包括用于输入第一输入数据的第一通道,通过输入层可以对每个通道输入的数据分别进行多维卷积滤波和非线性映射,并将不同通道的多维卷积滤波和非线性映射后的输入数据进行合并,得到输入层的输出数据。当输入层有一个通道存在输入数据时,也即是当输入层仅包括第一通道,或者输入层包括多个通道,但是只通过第一通道进行了数据输入时,输入层可以无需执行上述合并动作,直接将对第一输入数据进行多维卷积滤波和非线性映射所得到的数据作为输入层的输出。
本发明实施例提供的卷积神经网络可以包括一个输入层、一个隐含层和一个输出层。该输入层可以包括与第一通道对应的依次连接的至少一个卷积层,本发明实施例中不对输入层中包含的卷积层层数、卷积层连接方式和卷积层属性等作限定。每个卷积层包括一个特征提取层和一个特征映射层。
假设输入层包含M个卷积层,M≥1,每个特征提取层包括一个卷积滤波器组,每个卷积滤波器组包括至少一个卷积滤波器(也称卷积核),特征映射层的非线性映射函数为r(),则第j个卷积层的输出数据满足:
其中,Fj(J)表示输入层中第j个卷积层的输出数据,J为第一输入数据,*为卷积操作,Wj为该输入层第j个卷积层中卷积滤波器组的权重系数,Bj为第j个卷积层中卷积滤波器组的偏移系数。
假设第j个卷积层的卷积滤波器组包括nj个卷积滤波器,该nj个卷积滤波器作用于第j个卷积层的输入数据后,输出nj个图像分块。可选的,第j个卷积层的每个卷积滤波器的大小为cj×fj×fj,其中,cj为第j个卷积层的输入通道数,fj×fj为第j个卷积层的每个卷积滤波器在空间上的大小(或者称为尺寸)。
示例的,如图2I所示,图2I为本发明实施例提供的一种卷积神经网络的结构示意图,输入层包括一个卷积层,该卷积层包括特征提取层X1和特征映射层X2。其中,特征映射层X2设置有激活函数,该激活函数为非线性映射函数。
假设特征提取层X1包括n1个卷积滤波器,n1为正整数,则通过特征提取层X1的n1个卷积滤波器对第一输入数据进行多维卷积滤波,得到n1个图像数据;通过特征映射层X2对该n1个图像数据进行非线性映射,得到n1个映射图像数据,则n1个映射图像数据即为输入层的输出数据。
相应的,输入层的输出数据F1(J)满足:
F1(J)=r(W1*J+B1);
其中,J为第一输入数据,*表示卷积,W1表示n1个卷积滤波器的权重系数,B1为该n1个卷积滤波器的偏移系数,r()为特征映射层的激活函数,该激活函数可以为sigmoid函数或ReLU函数等非线性映射函数。
进一步的,假设n1=64,每个卷积滤波器的参数为:c1=2,f1=5,使用ReLU函数作为上述非线性映射函数r(),r()的函数表达式为r(x)=max(0,x),则该输入层的输出数据满足:
F1(J)=max(0,W1*J+B1);
其中,J为第一输入数据,*表示卷积,W1表示64个卷积滤波器的权重系数,B1为该64个卷积滤波器的偏移系数,每个卷积滤波器的大小为2×5×5。
步骤205、通过隐含层对输入层的输出数据进行多维卷积滤波和非线性映射,得到高维图像数据(也称高维图像分块)。
可选的,隐含层包括依次连接的至少一个卷积层,本发明实施例中不对隐含层中包含的卷积层层数、卷积层连接方式和卷积层属性等作限定。每个卷积层包括一个特征提取层和一个特征映射层,该隐含层中每个卷积层的结构可以参考上述步骤204中输入层中卷积层的结构,隐含层中各个卷积层的功能也可以参考上述输入层中卷积层的功能。
则在每个卷积层中:可以通过特征提取层对输入的数据进行多维卷积滤波,并通过特征映射层对输入的数据进行非线性映射;然后将经过该至少一个卷积层处理的数据作为高维图像数据,该高维图像数据即为隐含层的输出数据。
假设隐含层包含N个卷积层,N≥1,每个特征提取层包括一个卷积滤波器组,每个卷积滤波器组包括至少一个卷积滤波器,特征映射层的非线性映射函数为g(),则第i个卷积层的输出数据满足:
其中,Hi(I)表示隐含层中第i个卷积层的输出数据,I为输入层的输出数据,即上述步骤204中的FM(J),*为卷积操作,Oi为该隐含层第i个卷积层中卷积滤波器组的权重系数,Ai为第i个卷积层中卷积滤波器组的偏移系数。
假设第i个卷积层的卷积滤波器组包括mi个卷积滤波器,该mi个卷积滤波器作用于第i个卷积层的输入数据后,输出mi个图像分块。可选的,第i个卷积层的每个卷积滤波器的大小为di×ki×ki,其中,di为第i个卷积层的输入通道数,ki×ki为第i个卷积层的每个卷积滤波器在空间上的大小。
例如,假设该隐含层包括1个卷积层,即上述N=1,该卷积层中的卷积滤波器组包括m2=32个卷积滤波器,每个卷积滤波器的参数为:d2=64,k2=1,使用ReLU函数作为上述非线性映射函数g(),g()的函数表达式为g(x)=max(0,x),则该隐含层的输出数据满足高维映射公式(也称卷积处理表达式),该高维映射公式为:
H1(I)=max(0,O1*I+A1);
其中,H1(I)为隐含层的输出数据,I为输入层的输出数据,即上述步骤204中的FM(J),*表示卷积,O1为该卷积层中32个卷积滤波器的权重系数,A1为32个卷积滤波器的偏移系数,每个卷积滤波器的大小为64×1×1。
步骤206、通过输出层对高维图像数据进行聚合,得到第一输出数据。
在本发明实施例中,当该颜色分量的帧内预测方法应用于视频编解码领域时,由于输出层输出的数据为第二颜色分量的重建数据,因此,输出层也称重建层,输出层可以对隐含层输出的高维图像数据进行聚合,输出最终的第一输出数据。本发明实施例不对输出层的结构作限定。
示例的,输出层的结构可以为直接学习(英文:Direct Learning)结构,当输出层的结构为Direct Learning结构时,输出层可以对隐含层输出的高维图像数据进行卷积操作后直接输出重建图像的数据,该重建图像的数据即为第一输出数据。输出层的输出数据满足第一重建公式,该第一重建公式为:
P(V)=Uv*V+Cv
其中,P(V)为输出层的输出数据,也即是第一输出数据,V为隐含层的输出数据,也即是步骤205中的HN(I),*为卷积操作,Uv为输出层的权重系数,Cv为输出层的偏移系数。
进一步的,输出层包括1个卷积滤波器,即有1个卷积滤波器作用于隐含层的输出数据,输出1个图像数据,从而实现高维图像数据的聚合;每个卷积滤波器的大小为e×t×t,其中,e为输入通道数,t×t为输出层的每个卷积滤波器在空间上的大小。
示例的,假设该输出层如图2I所示,输出层的结构为Residual Learning结构,输出层包括1个卷积层,该卷积层包括1个卷积滤波器,该输出层的卷积滤波器的参数为:e=32,t=3,则输出层的输出数据满足:
P(V)=Uv*V+Cv
其中,P(V)为输出层的输出数据,也即是第一输出数据,V为隐含层的输出数据,也即是步骤205中的HN(I),*为卷积操作,Uv为1个卷积滤波器的权重系数,Cv为1个卷积滤波器的偏移系数,该卷积滤波器的大小为32×3×3。
示例的,输出层的结构可以为残差学习(英文:Residual learning)结构,当输出层的结构为Residual learning结构时,输出层可以对隐含层输出的高维图像数据进行卷积操作后,将处理后的数据与输入层的输出数据进行聚合以输出重建图像的数据,该重建图像的数据即为第一输出数据。输出层的输出数据满足第二重建公式,该第二重建公式为:
P(V)=Uv*V+Cv+I;
其中,P(V)为输出层的输出数据,也即是第一输出数据,V为隐含层的输出数据,也即是步骤205中的HN(I),I为输入层的输出数据,即上述步骤204中的FM(J),*为卷积操作,Uv为输出层的权重系数,Cv为输出层的偏移系数。
步骤207、获取卷积神经网络输出的第一输出数据,第一输出数据包含卷积神经网络对目标区域的第二颜色分量的信息的预测值。
在视频编解码领域,获取的第一输出数据即为重建后的第二颜色分量的信息,可以基于该第一输出数据进行后续操作,其过程可以参考上述图1A和图1B的过程,本发明实施例对此不再赘述。
需要说明的是,上述图2I是以卷积神经网络包括一个输入层,一个隐含层和一个输出层,且目标区域为3×3像素点为例进行说明,实际应用中,卷积神经网络还可以有其他结构,本发明实施例对此不做限定。
对于一个图像块大小确定(比如在采用视频编码标准H.265进行编码时,最小的图像块(或称处理块)大小为4x4个像素点,本发明实施例提供的跨分量帧内预测方法可按照每4x4个像素点进行)的跨分量帧内预测,其对应的卷积神经网络的参数集需要通过训练(也称预训练)获得。在确定一初始卷积神经网络的网络架构后,比如卷积层数、卷积层的连接方式、每一层卷积层的卷积滤波器数量及其卷积核大小等参数,每个卷积层的权重系数(即各个卷积滤波器的权重系数)和每个卷积层的偏移系数(即各个卷积滤波器的偏移系数)需要通过训练获得,最终对初始卷积神经网络训练得到的网络为上述卷积神经网络。因此,为了保证卷积神经网络的预测准确性,在步骤201之前,需要对初始卷积神经网络进行训练以得到上述卷积神经网络,该初始卷积神经网络的网络架构与上述卷积神经网络相同,该卷积神经网络的训练过程包括:
步骤A1、通过第一通道向初始卷积神经网络输入第二输入数据。
初始卷积神经网络在设计时需充分考虑网络感知野、复杂度以及解决问题的能力等。本发明实施例并不对该初始卷积神经网络的网络架构进行限定。
其中,第二输入数据包括第一指定图像帧中训练区域的第一颜色分量的信息,该第一指定图像帧可以是预先设置的测试图像帧,也可以是随机选取的图像帧,该第一指定图像帧与上述待处理图像帧通常是不同的。第一指定图像帧中训练区域与目标区域的尺寸相同,第二输入数据的获取方式与第一输入数据的获取方式相同,具体过程请参考上述步骤201至202。
步骤B1、将第一指定图像帧中训练区域对应的原始数据作为训练标签,对初始卷积神经网络进行训练以得到卷积神经网络。
该原始数据由第一指定图像帧中训练区域的已知的第二颜色分量的信息组成。该训练区域的已知的第二颜色分量的信息是该训练区域中未进行处理的第二颜色分量的信息,训练区域的已知的第二颜色分量的信息是预测的理想结果,也即是若对训练区域的第二颜色分量的预测完全准确,得到的数据即为该原始数据。
目前可以通过指定训练平台对该初始卷积神经网络进行训练,该训练过程可以包括配置学习率等参数。示例的,上述训练过程可以基于监督学习算法(英文:supervisedlearning)的训练方式来实现,监督学习算法是通过已有的训练集(也称训练样本,即已知数据以及其对应的训练标签,该训练标签可以为明确的标识或者输出结果)来训练,以训练得到相应参数。示例的,训练过程还可以通过人工标定,或者无监督学习算法,或者半监督学习算法等方式实现,本发明实施例对此不作限定。
综上所述,本发明实施例将包含待处理图像帧中目标区域的第一颜色分量的信息的第一输入数据输入至卷积神经网络,由卷积神经网络进行处理得到包含第二颜色分量的信息的第一输出数据,从而实现了卷积神经网络对颜色分量的帧内预测,由于卷积神经网络所具有的深度学习等特性,使得最终预测得到的第二颜色分量可靠性较高。
第二种可实现方式,通过第一通道向卷积神经网络输入第一输入数据,并且通过至少一个第二通道分别向卷积神经网络输入至少一个第一边信息数据,以进行颜色分量的跨分量帧内预测,该卷积神经网络用于基于第一输入数据和至少一个第一边信息数据预测得到第一输出数据,边信息(英文:side information)是指待处理信息外的已有的先验知识,边信息数据为能够作为边信息的数据,比如在进行颜色分量的帧内预测时,待处理信息是第一输入数据,则第一边信息数据与第一输入数据不同,该第一边信息数据可以包含除第一输入数据包含的颜色分量的信息之外的信息,能够为卷积神经网络提供预测参考。例如,帧内预测模式(例如帧内预测的方向模式)便可以作为一种边信息,则上述帧内预测模式的数据即为边信息数据。本发明实施例中的第一边信息数据为输入至卷积神经网络中的边信息数据。
在第二种可实现方式中,第一输入数据和第一输出数据所包含的内容可以参考上述第一种可实现方式,本发明实施例对此不再赘述。
请参考图3A,假设第一输入数据包括待处理图像帧中目标区域的所有第一颜色分量的信息,该第一输出数据包括卷积神经网络对目标区域的所有第二颜色分量的信息,例如,该待处理图像帧为视频图像帧,该颜色分量的帧内预测方法,可以包括:
步骤301、确定待处理图像帧中第一颜色分量和第二颜色分量的采样率关系。
步骤301可以参考上述步骤201,本发明实施例对此不再赘述。
步骤302、基于采样率关系,根据目标区域中第一颜色分量的信息,确定第一输入数据。
步骤302可以参考上述步骤202,本发明实施例对此不再赘述。
步骤303、确定至少一个第一边信息数据,每个第一边信息数据包含除第一输入数据包含的颜色分量的信息之外的信息。
示例的,该至少一个第一边信息数据可以包括目标区域中已重建的第一颜色分量的相关信息和/或目标区域的第二周边区域中已重建的第二颜色分量的信息的平均值或加权平均值,只要起到提供额外信息(与第一输入数据包含的颜色分量的信息不同),提高预测准确度的作用即可。目标区域的第二周边区域为位于目标区域左侧和/或上方的带状区域,该带状区域与目标区域邻接,第二周边区域的定义可以参考上述步骤201的第一周边区域,本发明实施例对此不再赘述。
需要说明的是,每个第一边信息数据的尺寸和数值个数应该与第一输入数据的尺寸和数值个数对应一致,例如,第一输入数据包括x行y列个第一采样块的颜色分量的信息,且包括x×y个颜色分量的信息(也可以称为分量值或数值),相应的,每个第一边信息数据也包含x×y个信息,不过,第一边信息数据包含的信息不是颜色分量的信息,而是平均值或加权平均值等。
并且,参考上述步骤301和302可知,第一输入数据可以仅包含目标区域中第一颜色分量的信息,也可以同时包含目标区域中第一颜色分量的信息,以及第一周边区域中第二颜色分量的信息,因此,第一输入数据包含一种或两种颜色分量的信息,本发明实施例中,第一边信息数据无需区分第一输入数据所涉及的颜色分量,仅根据本发明实施例中所使用的卷积神经网络的需要,参考第一输入数据的尺寸和数值个数来生成。
实际应用中,第一边信息数据可以只有一个。上述确定至少一个第一边信息数据的方式有多种,本发明实施例以以下两种方式为例进行说明:
第一种方式,基于目标区域中已重建的第一颜色分量的相关信息,确定至少一个第一边信息数据。
可选的,待处理图像帧的颜色编码格式为YUV格式,第一输入数据包括x行y列个第一采样块的颜色分量的信息,该x和该y均为大于或等于1的整数,假设第一边信息数据可以只有一个。
则可以获取每个第一采样块上的已重建的第一颜色分量的帧内预测模式的标识值;将所有帧内预测模式的标识值组成一个第一边信息数据。最终得到的第一边信息数据包括x行y列个标识值,该标识值为数值。例如帧内预测模式可以为方向性模式。
例如,第一颜色分量为亮度分量,在H.265中有35种帧内预测模式,第一采样块为1个像素点,第一输入数据包括8×8个像素点,8x8块内每4×4个子块的亮度的帧内预测模式的标识值分别为3、17、22和33。则第一边信息可以如表5所示。
表5
3 3 3 3 17 17 17 17
3 3 3 3 17 17 17 17
3 3 3 3 17 17 17 17
3 3 3 3 17 17 17 17
22 22 22 22 33 33 33 33
22 22 22 22 33 33 33 33
22 22 22 22 33 33 33 33
22 22 22 22 33 33 33 33
第二种方式,基于目标区域的第二周边区域中已重建的第二颜色分量的信息,确定至少一个第一边信息数据。
可选的,假设第一边信息数据可以只有一个,第一输入数据包括x行y列个第一采样块的颜色分量的信息,该x和该y均为大于或等于1的整数。
则可以获取目标区域的第二周边区域中已重建的第二颜色分量的信息;确定目标区域的第二周边区域中已重建的第二颜色分量的信息的平均值(实际应用中也可以为加权平均值);并生成一个第一边信息数据,其中,第一边信息数据包括x行y列个的平均值。
例如,请参考图2C,假设第二周边区域可以与第一周边区域K的尺寸相同,均由位于目标区域左侧的2列像素点和上方的2行像素点组成,第二颜色分量为色度分量U,假设该第二周边区域中已重建的第二颜色分量的信息的平均值为117,则,若第一输入数据包括3行3列个第一采样块的颜色分量的数值,则如表6所示,第一边信息数据包括3行3列个色度分量U的数值,每个数值均为117。
表6
117 117 117
117 117 117
117 117 117
步骤304、通过第一通道向卷积神经网络输入第一输入数据,第一输入数据包含待处理图像帧中目标区域的第一颜色分量的信息。
步骤304可以参考上述步骤203,本发明实施例对此不再赘述。
步骤305、通过至少一个第二通道分别向卷积神经网络输入至少一个第一边信息数据,该至少一个第二通道与至少一个第一边信息数据一一对应。
步骤306、通过输入层对每个通道输入的数据分别进行多维卷积滤波和非线性映射,并将不同通道的多维卷积滤波和非线性映射后的输入数据进行合并(如相加),得到输入层的输出数据。
通常输入层可以包含至少一个通道,在本发明实施例中,由于需要向输入层分别输入第一输入数据和至少一个第一边信息数据,因此,该输入层包括至少两个通道,即一个第一通道和至少一个第二通道。上述步骤304和305可以同时执行,也可以依次执行,本发明实施例对此不做限定。颜色分量的帧内预测装置可以通过输入层对每个通道输入的数据分别进行多维卷积滤波和非线性映射,并将不同通道的多维卷积滤波和非线性映射后的输入数据进行合并(即相加),得到输入层的输出数据。
示例的,输入层包括分别与每个通道对应的依次连接的至少一个卷积层,以及合并层,每个卷积层包括一个特征提取层和一个特征映射层,则上述步骤306包括:
步骤A2、在每个卷积层中:通过特征提取层对输入的数据进行多维卷积滤波,并通过特征映射层对输入的数据进行非线性映射。
步骤306中所提供的输入层中卷积层的结构可以参考上述步骤204中所提供的卷积层的结构,本发明实施例对此不再赘述。
步骤B2、通过合并层将经过不同通道对应的至少一个卷积层处理后的数据进行合并,得到输入层的输出数据。
假设输入层包含M个卷积层,M≥1,每个特征提取层包括一个卷积滤波器组,每个卷积滤波器组包括至少一个卷积滤波器(也称卷积核),特征映射层的非线性映射函数为r(),则输入层的输出数据满足:
其中,FM(J)表示输入层中第M个卷积层的输出数据,也即是输入层的输出数据,J为第一输入数据,*为卷积操作,WM为该输入层第M个卷积层中卷积滤波器组的权重系数,BM为第M个卷积层中卷积滤波器组的偏移系数,Si为第i个第一边信息数据,Wsi为第i个第一边信息数据的权重系数,Bsi为第i个第一边信息数据的偏移系数,s1为第一边信息数据的个数。
示例的,如图3B所示,图3B为本发明实施例提供的另一种卷积神经网络的结构示意图,输入层包括第一输入通道和第二输入通道共两个通道,每个通道连接一个卷积层,每个卷积层包括特征提取层和特征映射层。其中,特征映射层设置有激活函数,该激活函数为非线性映射函数。输入层的输出数据满足:
F1(J)=r(W1*J+B1+Ws1*S1+Bs1)。
其中,各个参数的含义参考上述公式,本发明实施例对此不再赘述。
需要说明的是,若存在取值范围与第一输入数据的取值范围不同的边信息数据在上述步骤306中在将经过不同通道的输入数据进行卷积之前,检测至少一个第一边信息数据中是否存在取值范围与第一输入数据的取值范围不同的边信息数据,当至少一个第一边信息数据中任一边信息与第一输入数据的取值范围不同时,可以对该任一边信息数据进行标准化处理,使得处理后的该任一边信息数据的取值范围与第一输入数据的取值范围相同。
该标准化处理过程可以是线性映射过程,或者归一化过程。例如,该任一边信息数据的取值范围为[PredModeMIN,PredModeMAX],第一输入数据的取值范围的取值范围为[PixelMIN,PixelMAX],若该任一边信息数据中的第一信息为x,则对于该第一信息,相应的归一化公式为:
norm(x)=(x-PredModeMIN)×(PredModeMAX-PredModeMIN)/(PixelMAX-PixelMIN)+PixelMIN
其中,第一信息为该任一边信息数据包含的x行y列个信息中的任一信息,norm(x)为归一化后的第一信息。
例如,至少一个第一边信息数据中的某一第一边信息数据包含帧内预测模式的标识值,其取值范围为1-35,而第一输入数据的取值范围为0-255,则将该某一第一边信息数据中的所有信息分别代入上述归一化公式,以对该某一第一边信息数据进行标准化处理,使得处理后的该某一第一边信息数据的取值范围为0-255。
值的说明的是,上述标准化处理过程可以在第一输入数据输入卷积神经网络前执行,也可以在卷积神经网络中执行,本发明实施例对此不作限定。
步骤307、通过隐含层对输入层的输出数据进行多维卷积滤波和非线性映射,得到高维图像数据。
步骤307可以参考上述步骤205,本发明实施例对此不再赘述。
步骤308、通过输出层对高维图像数据进行聚合,得到第一输出数据。
步骤307可以参考上述步骤206,本发明实施例对此不再赘述。
步骤309、获取卷积神经网络输出的第一输出数据,第一输出数据包含卷积神经网络对目标区域的第二颜色分量的信息的预测值。
步骤307可以参考上述步骤207,本发明实施例对此不再赘述。
请参考第一种可实现方式,为了保证卷积神经网络的预测准确性,在步骤301之前,需要对初始卷积神经网络进行训练以得到上述卷积神经网络,该卷积神经网络的训练过程包括:
步骤A3、通过第一通道向卷积神经网络输入包含第三输入数据。
初始卷积神经网络在设计时需充分考虑网络感知野、复杂度以及解决问题的能力等。本发明实施例并不对该初始卷积神经网络的网络架构进行限定。
其中,第三输入数据包括第二指定图像帧中训练区域的第一颜色分量的信息,该第二指定图像帧可以是预先设置的测试图像帧,也可以是随机选取的图像帧,该第二指定图像帧与上述待处理图像帧通常是不同。第二指定图像帧中训练区域与目标区域的尺寸相同,第三输入数据的获取方式与第一输入数据的获取方式相同。具体过程请参考上述步骤201至202。
步骤B3、通过至少一个第二通道分别向初始卷积神经网络输入至少一个第二边信息数据。
至少一个第二通道与至少一个第二边信息数据一一对应,至少一个第二边信息数据的获取方式与至少一个第一边信息数据的获取方式相同。具体过程请参考上述步骤303。
步骤C3、将第二指定图像帧中训练区域对应的原始数据作为训练标签,对初始卷积神经网络进行训练以得到卷积神经网络。
原始数据由第二指定图像帧中训练区域的已知的第二颜色分量的信息组成。该训练区域的已知的第二颜色分量的信息是该训练区域中未进行处理的第二颜色分量的信息,训练区域的已知的第二颜色分量的信息是预测的理想结果,也即是若对训练区域的第二颜色分量的预测完全准确,得到的数据即为该原始数据。
上述步骤A3至C3可以参考第一种可实现方式中的A1至C1,本发明实施例对此不再赘述。
需要说明的是,上述图3B是以卷积神经网络包括一个输入层,一个隐含层和一个输出层,且目标区域为3×3像素点为例进行说明,实际应用中,卷积神经网络还可以有其他结构,本发明实施例对此不做限定。
综上所述,本发明实施例将包含待处理图像帧中目标区域的第一颜色分量的信息的第一输入数据输入至卷积神经网络,由卷积神经网络进行处理得到包含第二颜色分量的信息的第一输出数据,从而实现了卷积神经网络对颜色分量的帧内预测,由于卷积神经网络所具有的深度学习等特性,使得最终预测得到的第二颜色分量可靠性较高,并且,通过向卷积神经网络中输入至少一个第一边信息数据,进一步增加了预测的准确性。
本发明实施例提供一种颜色分量的帧内预测装置40,如图4A所示,所述装置40包括:
第一输入模块401,用于通过第一通道向卷积神经网络输入第一输入数据,所述第一输入数据包含待处理图像帧中目标区域的第一颜色分量的信息;
获取模块402,用于获取所述卷积神经网络输出的第一输出数据,所述第一输出数据包含所述卷积神经网络对所述目标区域的第二颜色分量的信息的预测值;
其中,所述第一颜色分量和所述第二颜色分量为所述目标区域具有的不同的颜色分量。
综上所述,本发明实施例第一输入模块将包含待处理图像帧中目标区域的第一颜色分量的信息的第一输入数据输入至卷积神经网络,由卷积神经网络进行处理得到包含第二颜色分量的信息的第一输出数据,从而实现了卷积神经网络对颜色分量的帧内预测,由于卷积神经网络所具有的深度学习等特性,使得最终预测得到的第二颜色分量可靠性较高。
可选的,所述第一输入数据包括所述第一周边区域中已重建的第二颜色分量的信息,与所述目标区域的已重建的第一颜色分量的信息,所述目标区域的第一周边区域为位于所述目标区域左侧和/或上方的带状区域。
如图4B所示,所述装置40还包括:
第一确定模块403,用于在所述通过第一通道向卷积神经网络输入第一输入数据之前,确定所述待处理图像帧中第一颜色分量和第二颜色分量的采样率关系;
第二确定模块404,用于基于所述采样率关系,确定所述第一输入数据,所述第一输入数据中,所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度。
可选的,如图4C所示,所述第二确定模块404,包括:
第一获取子模块4041,用于获取所述目标区域的第一周边区域中已重建的第二颜色分量的信息;
第二获取子模块4042,用于获取所述目标区域的已重建的第一颜色分量的信息;
第一确定子模块4043,用于基于所述采样率关系,根据所述第一周边区域中已重建的第二颜色分量的信息,与所述目标区域的已重建的第一颜色分量的信息,确定所述第一输入数据。
可选的,所述第一确定子模块4043,用于:
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例为1:1,将所述目标区域的第一周边区域中已重建的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据;
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例大于1:1,基于所述采样率比例,对所述第一周边区域中已重建的第二颜色分量的信息进行上采样,使得上采样后所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度,并将上采样得到的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据;
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例小于1:1,基于所述采样率比例,对所述第一周边区域中已重建的第二颜色分量的信息进行下采样,使得下采样后所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度,并将下采样得到的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据。
进一步的,如图4D所示,所述装置40还包括:
第一训练模块405,用于对初始卷积神经网络进行训练以得到所述卷积神经网络,所述卷积神经网络的训练过程包括:
通过所述第一通道向所述初始卷积神经网络输入第二输入数据,所述第二输入数据包括第一指定图像帧中训练区域的第一颜色分量的信息,所述第一指定图像帧中训练区域与所述目标区域的尺寸相同,所述第二输入数据的获取方式与所述第一输入数据的获取方式相同;
将所述第一指定图像帧中训练区域对应的原始数据作为训练标签,对所述初始卷积神经网络进行训练以得到所述卷积神经网络,所述原始数据由所述第一指定图像帧中训练区域的已知的第二颜色分量的信息组成。
可选的,如图4E所示,所述装置40还包括:
第三确定模块406,用于确定至少一个第一边信息数据,每个所述第一边信息数据包含除所述第一输入数据包含的颜色分量的信息之外的信息;
第二输入模块407,用于通过至少一个第二通道分别向所述卷积神经网络输入所述至少一个第一边信息数据,所述至少一个第二通道与所述至少一个第一边信息数据一一对应。
可选的,如图4F所示,所述第三确定模块406,包括:
第二确定子模块4061,用于基于所述目标区域中已重建的第一颜色分量的相关信息,确定所述至少一个第一边信息数据;
和/或,第三确定子模块4062,用于基于所述目标区域的第二周边区域中已重建的第二颜色分量的信息,确定所述至少一个第一边信息数据,所述目标区域的第二周边区域为位于所述目标区域左侧和/或上方的带状区域。
可选的,所述待处理图像帧的颜色编码格式为YUV格式,所述第一输入数据包括x行y列个第一采样块的颜色分量的信息,所述x和所述y均为大于或等于1的整数;
所述第二确定子模块4061,用于:
获取每个所述第一采样块上的已重建的第一颜色分量的帧内预测模式的标识值;
将所有所述帧内预测模式的标识值组成一个所述第一边信息数据。
可选的,所述第一输入数据包括x行y列个第一采样块的颜色分量的信息,所述x和所述y均为大于或等于1的整数;
所述第三确定子模块4062,用于:
获取所述目标区域的第二周边区域中已重建的第二颜色分量的信息;
确定所述目标区域的第二周边区域中已重建的第二颜色分量的信息的平均值;
生成一个所述第一边信息数据,其中,所述第一边信息数据包括x行y列个的所述平均值。
可选的,如图4G所示,所述装置40还包括:
标准化模块408,用于当所述至少一个第一边信息数据中任一边信息数据的取值范围与所述第一输入数据的取值范围不同时,对所述任一边信息数据进行标准化处理,使得处理后的所述任一边信息数据的取值范围与所述第一输入数据的取值范围相同。
可选的,如图4H所示,所述装置40还包括:
第二训练模块409,用于对初始卷积神经网络进行训练以得到所述卷积神经网络,所述卷积神经网络的训练过程包括:
通过所述第一通道向卷积神经网络输入包含第三输入数据,所述第三输入数据包括第二指定图像帧中训练区域的第一颜色分量的信息,所述第二指定图像帧中训练区域与所述目标区域的尺寸相同,所述第三输入数据的获取方式与所述第一输入数据的获取方式相同;
通过所述至少一个第二通道分别向所述初始卷积神经网络输入至少一个第二边信息数据,所述至少一个第二通道与所述至少一个第二边信息数据一一对应,所述至少一个第二边信息数据的获取方式与所述至少一个第一边信息数据的获取方式相同;
将所述第二指定图像帧中训练区域对应的第二颜色分量的原始数据作为训练标签,对所述初始卷积神经网络进行训练以得到所述卷积神经网络,所述原始数据由所述第二指定图像帧中训练区域的已知的第二颜色分量的信息组成。
可选的,如图4I所示,所述卷积神经网络包括输入层、隐含层和输出层;所述装置40还包括:
第一处理模块410,用于在所述获取所述卷积神经网络输出的第一输出数据之前,当所述输入层有一个通道存在输入数据时,通过所述输入层对第一输入数据进行多维卷积滤波和非线性映射,得到所述输入层的输出数据;
第二处理模块411,用于当所述输入层有至少两个通道存在输入数据时,通过所述输入层对每个通道输入的数据分别进行多维卷积滤波和非线性映射,并将不同通道的所述多维卷积滤波和非线性映射后的输入数据进行合并,得到所述输入层的输出数据;
高维处理模块412,用于通过所述隐含层对所述输入层的输出数据进行多维卷积滤波和非线性映射,得到高维图像数据;
聚合模块413,用于通过所述输出层对所述高维图像数据进行聚合,得到所述第一输出数据。
可选的,所述输入层包括分别与所述每个通道对应的依次连接的至少一个卷积层,以及合并层,每个所述卷积层包括一个特征提取层和一个特征映射层,
所述第二处理模块411,用于:
在每个卷积层中:通过所述特征提取层对输入的数据进行多维卷积滤波,并通过所述特征映射层对所述输入的数据进行非线性映射;
通过所述合并层将经过不同通道对应的所述至少一个卷积层处理后的数据进行合并,得到所述输入层的输出数据。
可选的,所述隐含层包括依次连接的至少一个卷积层,每个所述卷积层包括一个特征提取层和一个特征映射层,
所述高维处理模块412,用于:
在每个卷积层中:通过所述特征提取层对输入的数据进行多维卷积滤波,并通过所述特征映射层对所述输入的数据进行非线性映射;
将经过所述至少一个卷积层处理的数据作为所述高维图像数据。
可选的,所述待处理图像帧的颜色编码格式为YUV格式,所述第一颜色分量和所述第二颜色分量为亮度分量Y、色度分量U和色度分量V中的两种;
或者,所述待处理图像帧的颜色编码格式为RGB格式,所述第一颜色分量和所述第二颜色分量为红色分量、绿色分量和蓝色分量中的两种。
综上所述,本发明实施例第一输入模块将包含待处理图像帧中目标区域的第一颜色分量的信息的第一输入数据输入至卷积神经网络,由卷积神经网络进行处理得到包含第二颜色分量的信息的第一输出数据,从而实现了卷积神经网络对颜色分量的帧内预测,由于卷积神经网络所具有的深度学习等特性,使得最终预测得到的第二颜色分量可靠性较高。
本发明实施例还提供一种计算机设备,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
通过第一通道向卷积神经网络输入第一输入数据,所述第一输入数据包含待处理图像帧中目标区域的第一颜色分量的信息;
获取所述卷积神经网络输出的第一输出数据,所述第一输出数据包含所述卷积神经网络对所述目标区域的第二颜色分量的信息的预测值;
其中,所述第一颜色分量和所述第二颜色分量为所述目标区域具有的不同的颜色分量。
本发明实施例一种可读存储介质,该可读存储介质为非易失性可读存储介质,所述可读存储介质中存储有指令,当所述可读存储介质在处理组件上运行时,使得处理组件执行本发明实施例提供的任一所述的颜色分量的帧内预测方法。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (33)

1.一种颜色分量的帧内预测方法,其特征在于,所述方法包括:
通过第一通道向卷积神经网络输入第一输入数据,所述第一输入数据包含待处理图像帧中目标区域的第一颜色分量的信息;
获取所述卷积神经网络输出的第一输出数据,所述第一输出数据包含所述卷积神经网络对所述目标区域的第二颜色分量的信息的预测值;
其中,所述第一颜色分量和所述第二颜色分量为所述目标区域具有的不同的颜色分量。
2.根据权利要求1所述的方法,其特征在于,所述第一输入数据包括所述第一周边区域中已重建的第二颜色分量的信息,与所述目标区域的已重建的第一颜色分量的信息,所述目标区域的第一周边区域为位于所述目标区域左侧和/或上方的带状区域。
3.根据权利要求2所述的方法,其特征在于,在所述通过第一通道向卷积神经网络输入第一输入数据之前,所述方法还包括:
确定所述待处理图像帧中第一颜色分量和第二颜色分量的采样率关系;
基于所述采样率关系,确定所述第一输入数据,所述第一输入数据中,所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度。
4.根据权利要求3所述的方法,其特征在于,
所述基于所述采样率关系,确定所述第一输入数据,包括:
获取所述目标区域的第一周边区域中已重建的第二颜色分量的信息;
获取所述目标区域的已重建的第一颜色分量的信息;
基于所述采样率关系,根据所述第一周边区域中已重建的第二颜色分量的信息,与所述目标区域的已重建的第一颜色分量的信息,确定所述第一输入数据。
5.根据权利要求4所述的方法,其特征在于,
所述基于所述采样率关系,根据所述第一周边区域中已重建的第二颜色分量的信息,与所述目标区域的已重建的第一颜色分量的信息,确定所述第一输入数据,包括:
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例为1:1,将所述目标区域的第一周边区域中已重建的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据;
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例大于1:1,基于所述采样率比例,对所述第一周边区域中已重建的第二颜色分量的信息进行上采样,使得上采样后所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度,并将上采样得到的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据;
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例小于1:1,基于所述采样率比例,对所述第一周边区域中已重建的第二颜色分量的信息进行下采样,使得下采样后所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度,并将下采样得到的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据。
6.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
对初始卷积神经网络进行训练以得到所述卷积神经网络,所述卷积神经网络的训练过程包括:
通过所述第一通道向所述初始卷积神经网络输入第二输入数据,所述第二输入数据包括第一指定图像帧中训练区域的第一颜色分量的信息,所述第一指定图像帧中训练区域与所述目标区域的尺寸相同,所述第二输入数据的获取方式与所述第一输入数据的获取方式相同;
将所述第一指定图像帧中训练区域对应的原始数据作为训练标签,对所述初始卷积神经网络进行训练以得到所述卷积神经网络,所述原始数据由所述第一指定图像帧中训练区域的已知的第二颜色分量的信息组成。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定至少一个第一边信息数据,每个所述第一边信息数据包含除所述第一输入数据包含的颜色分量的信息之外的信息;
通过至少一个第二通道分别向所述卷积神经网络输入所述至少一个第一边信息数据,所述至少一个第二通道与所述至少一个第一边信息数据一一对应。
8.根据权利要求7所述的方法,其特征在于,所述确定至少一个第一边信息数据,包括:
基于所述目标区域中已重建的第一颜色分量的相关信息,确定所述至少一个第一边信息数据;
和/或,基于所述目标区域的第二周边区域中已重建的第二颜色分量的信息,确定所述至少一个第一边信息数据,所述目标区域的第二周边区域为位于所述目标区域左侧和/或上方的带状区域。
9.根据权利要求8所述的方法,其特征在于,所述待处理图像帧的颜色编码格式为YUV格式,所述第一输入数据包括x行y列个第一采样块的颜色分量的信息,所述x和所述y均为大于或等于1的整数;
所述基于所述目标区域中已重建的第一颜色分量的相关信息,确定所述至少一个第一边信息数据,包括:
获取每个所述第一采样块上的已重建的第一颜色分量的帧内预测模式的标识值;
将所有所述帧内预测模式的标识值组成一个所述第一边信息数据。
10.根据权利要求8所述的方法,其特征在于,所述第一输入数据包括x行y列个第一采样块的颜色分量的信息,所述x和所述y均为大于或等于1的整数;
所述基于所述目标区域的第二周边区域中已重建的第二颜色分量的信息,确定所述至少一个第一边信息数据,包括:
获取所述目标区域的第二周边区域中已重建的第二颜色分量的信息;
确定所述目标区域的第二周边区域中已重建的第二颜色分量的信息的平均值;
生成一个所述第一边信息数据,其中,所述第一边信息数据包括x行y列个的所述平均值。
11.根据权利要求8至10任一所述的方法,其特征在于,所述方法还包括:
当所述至少一个第一边信息数据中任一边信息数据的取值范围与所述第一输入数据的取值范围不同时,对所述任一边信息数据进行标准化处理,使得处理后的所述任一边信息数据的取值范围与所述第一输入数据的取值范围相同。
12.根据权利要求7所述的方法,其特征在于,所述方法还包括:
对初始卷积神经网络进行训练以得到所述卷积神经网络,所述卷积神经网络的训练过程包括:
通过所述第一通道向卷积神经网络输入包含第三输入数据,所述第三输入数据包括第二指定图像帧中训练区域的第一颜色分量的信息,所述第二指定图像帧中训练区域与所述目标区域的尺寸相同,所述第三输入数据的获取方式与所述第一输入数据的获取方式相同;
通过所述至少一个第二通道分别向所述初始卷积神经网络输入至少一个第二边信息数据,所述至少一个第二通道与所述至少一个第二边信息数据一一对应,所述至少一个第二边信息数据的获取方式与所述至少一个第一边信息数据的获取方式相同;
将所述第二指定图像帧中训练区域对应的第二颜色分量的原始数据作为训练标签,对所述初始卷积神经网络进行训练以得到所述卷积神经网络,所述原始数据由所述第二指定图像帧中训练区域的已知的第二颜色分量的信息组成。
13.根据权利要求1所述的方法,其特征在于,所述卷积神经网络包括输入层、隐含层和输出层;
在所述获取所述卷积神经网络输出的第一输出数据之前,所述方法还包括:
当所述输入层有一个通道存在输入数据时,通过所述输入层对第一输入数据进行多维卷积滤波和非线性映射,得到所述输入层的输出数据;
当所述输入层有至少两个通道存在输入数据时,通过所述输入层对每个通道输入的数据分别进行多维卷积滤波和非线性映射,并将不同通道的所述多维卷积滤波和非线性映射后的输入数据进行合并,得到所述输入层的输出数据;
通过所述隐含层对所述输入层的输出数据进行多维卷积滤波和非线性映射,得到高维图像数据;
通过所述输出层对所述高维图像数据进行聚合,得到所述第一输出数据。
14.根据权利要求13所述的方法,其特征在于,所述输入层包括分别与所述每个通道对应的依次连接的至少一个卷积层,以及合并层,每个所述卷积层包括一个特征提取层和一个特征映射层,
所述通过所述输入层对每个通道输入的数据分别进行多维卷积滤波和非线性映射,并将不同通道的所述多维卷积滤波和非线性映射后的输入数据进行合并,得到所述输入层的输出数据,包括:
在每个卷积层中:通过所述特征提取层对输入的数据进行多维卷积滤波,并通过所述特征映射层对所述输入的数据进行非线性映射;
通过所述合并层将经过不同通道对应的所述至少一个卷积层处理后的数据进行合并,得到所述输入层的输出数据。
15.根据权利要求13所述的方法,其特征在于,所述隐含层包括依次连接的至少一个卷积层,每个所述卷积层包括一个特征提取层和一个特征映射层,
所述通过所述隐含层对所述输入层的输出数据进行多维卷积滤波和非线性映射,得到高维图像数据,包括:
在每个卷积层中:通过所述特征提取层对输入的数据进行多维卷积滤波,并通过所述特征映射层对所述输入的数据进行非线性映射;
将经过所述至少一个卷积层处理的数据作为所述高维图像数据。
16.根据权利要求1所述的方法,其特征在于,所述待处理图像帧的颜色编码格式为YUV格式,所述第一颜色分量和所述第二颜色分量为亮度分量Y、色度分量U和色度分量V中的两种;
或者,所述待处理图像帧的颜色编码格式为RGB格式,所述第一颜色分量和所述第二颜色分量为红色分量、绿色分量和蓝色分量中的两种。
17.一种颜色分量的帧内预测装置,其特征在于,所述装置包括:
第一输入模块,用于通过第一通道向卷积神经网络输入第一输入数据,所述第一输入数据包含待处理图像帧中目标区域的第一颜色分量的信息;
获取模块,用于获取所述卷积神经网络输出的第一输出数据,所述第一输出数据包含所述卷积神经网络对所述目标区域的第二颜色分量的信息的预测值;
其中,所述第一颜色分量和所述第二颜色分量为所述目标区域具有的不同的颜色分量。
18.根据权利要求17所述的装置,其特征在于,所述第一输入数据包括所述第一周边区域中已重建的第二颜色分量的信息,与所述目标区域的已重建的第一颜色分量的信息,所述目标区域的第一周边区域为位于所述目标区域左侧和/或上方的带状区域。
19.根据权利要求18所述的装置,其特征在于,所述装置还包括:
第一确定模块,用于在所述通过第一通道向卷积神经网络输入第一输入数据之前,确定所述待处理图像帧中第一颜色分量和第二颜色分量的采样率关系;
第二确定模块,用于基于所述采样率关系,确定所述第一输入数据,所述第一输入数据中,所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度。
20.根据权利要求19所述的装置,其特征在于,
所述第二确定模块,包括:
第一获取子模块,用于获取所述目标区域的第一周边区域中已重建的第二颜色分量的信息;
第二获取子模块,用于获取所述目标区域的已重建的第一颜色分量的信息;
第一确定子模块,用于基于所述采样率关系,根据所述第一周边区域中已重建的第二颜色分量的信息,与所述目标区域的已重建的第一颜色分量的信息,确定所述第一输入数据。
21.根据权利要求20所述的装置,其特征在于,
所述第一确定子模块,用于:
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例为1:1,将所述目标区域的第一周边区域中已重建的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据;
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例大于1:1,基于所述采样率比例,对所述第一周边区域中已重建的第二颜色分量的信息进行上采样,使得上采样后所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度,并将上采样得到的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据;
当所述目标区域中第一颜色分量和第二颜色分量的采样率关系为:采样率比例小于1:1,基于所述采样率比例,对所述第一周边区域中已重建的第二颜色分量的信息进行下采样,使得下采样后所述第一周边区域的第二颜色分量的分布密度等于所述目标区域中的第一颜色分量的分布密度,并将下采样得到的第二颜色分量的信息,与所述目标区域中已重建的第一颜色分量的信息确定为所述第一输入数据。
22.根据权利要求17至21任一所述的装置,其特征在于,所述装置还包括:
第一训练模块,用于对初始卷积神经网络进行训练以得到所述卷积神经网络,所述卷积神经网络的训练过程包括:
通过所述第一通道向所述初始卷积神经网络输入第二输入数据,所述第二输入数据包括第一指定图像帧中训练区域的第一颜色分量的信息,所述第一指定图像帧中训练区域与所述目标区域的尺寸相同,所述第二输入数据的获取方式与所述第一输入数据的获取方式相同;
将所述第一指定图像帧中训练区域对应的原始数据作为训练标签,对所述初始卷积神经网络进行训练以得到所述卷积神经网络,所述原始数据由所述第一指定图像帧中训练区域的已知的第二颜色分量的信息组成。
23.根据权利要求17所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于确定至少一个第一边信息数据,每个所述第一边信息数据包含除所述第一输入数据包含的颜色分量的信息之外的信息;
第二输入模块,用于通过至少一个第二通道分别向所述卷积神经网络输入所述至少一个第一边信息数据,所述至少一个第二通道与所述至少一个第一边信息数据一一对应。
24.根据权利要求23所述的装置,其特征在于,所述第三确定模块,包括:
第二确定子模块,用于基于所述目标区域中已重建的第一颜色分量的相关信息,确定所述至少一个第一边信息数据;
和/或,第三确定子模块,用于基于所述目标区域的第二周边区域中已重建的第二颜色分量的信息,确定所述至少一个第一边信息数据,所述目标区域的第二周边区域为位于所述目标区域左侧和/或上方的带状区域。
25.根据权利要求24所述的装置,其特征在于,所述待处理图像帧的颜色编码格式为YUV格式,所述第一输入数据包括x行y列个第一采样块的颜色分量的信息,所述x和所述y均为大于或等于1的整数;
所述第二确定子模块,用于:
获取每个所述第一采样块上的已重建的第一颜色分量的帧内预测模式的标识值;
将所有所述帧内预测模式的标识值组成一个所述第一边信息数据。
26.根据权利要求24所述的装置,其特征在于,所述第一输入数据包括x行y列个第一采样块的颜色分量的信息,所述x和所述y均为大于或等于1的整数;
所述第三确定子模块,用于:
获取所述目标区域的第二周边区域中已重建的第二颜色分量的信息;
确定所述目标区域的第二周边区域中已重建的第二颜色分量的信息的平均值;
生成一个所述第一边信息数据,其中,所述第一边信息数据包括x行y列个的所述平均值。
27.根据权利要求24至26任一所述的装置,其特征在于,所述装置还包括:
标准化模块,用于当所述至少一个第一边信息数据中任一边信息数据的取值范围与所述第一输入数据的取值范围不同时,对所述任一边信息数据进行标准化处理,使得处理后的所述任一边信息数据的取值范围与所述第一输入数据的取值范围相同。
28.根据权利要求23所述的装置,其特征在于,所述装置还包括:
第二训练模块,用于对初始卷积神经网络进行训练以得到所述卷积神经网络,所述卷积神经网络的训练过程包括:
通过所述第一通道向卷积神经网络输入包含第三输入数据,所述第三输入数据包括第二指定图像帧中训练区域的第一颜色分量的信息,所述第二指定图像帧中训练区域与所述目标区域的尺寸相同,所述第三输入数据的获取方式与所述第一输入数据的获取方式相同;
通过所述至少一个第二通道分别向所述初始卷积神经网络输入至少一个第二边信息数据,所述至少一个第二通道与所述至少一个第二边信息数据一一对应,所述至少一个第二边信息数据的获取方式与所述至少一个第一边信息数据的获取方式相同;
将所述第二指定图像帧中训练区域对应的第二颜色分量的原始数据作为训练标签,对所述初始卷积神经网络进行训练以得到所述卷积神经网络,所述原始数据由所述第二指定图像帧中训练区域的已知的第二颜色分量的信息组成。
29.根据权利要求17所述的装置,其特征在于,所述卷积神经网络包括输入层、隐含层和输出层;所述装置还包括:
第一处理模块,用于在所述获取所述卷积神经网络输出的第一输出数据之前,当所述输入层有一个通道存在输入数据时,通过所述输入层对第一输入数据进行多维卷积滤波和非线性映射,得到所述输入层的输出数据;
第二处理模块,用于当所述输入层有至少两个通道存在输入数据时,通过所述输入层对每个通道输入的数据分别进行多维卷积滤波和非线性映射,并将不同通道的所述多维卷积滤波和非线性映射后的输入数据进行合并,得到所述输入层的输出数据;
高维处理模块,用于通过所述隐含层对所述输入层的输出数据进行多维卷积滤波和非线性映射,得到高维图像数据;
聚合模块,用于通过所述输出层对所述高维图像数据进行聚合,得到所述第一输出数据。
30.根据权利要求29所述的装置,其特征在于,所述输入层包括分别与所述每个通道对应的依次连接的至少一个卷积层,以及合并层,每个所述卷积层包括一个特征提取层和一个特征映射层,
所述第二处理模块,用于:
在每个卷积层中:通过所述特征提取层对输入的数据进行多维卷积滤波,并通过所述特征映射层对所述输入的数据进行非线性映射;
通过所述合并层将经过不同通道对应的所述至少一个卷积层处理后的数据进行合并,得到所述输入层的输出数据。
31.根据权利要求29所述的装置,其特征在于,所述隐含层包括依次连接的至少一个卷积层,每个所述卷积层包括一个特征提取层和一个特征映射层,
所述高维处理模块,用于:
在每个卷积层中:通过所述特征提取层对输入的数据进行多维卷积滤波,并通过所述特征映射层对所述输入的数据进行非线性映射;
将经过所述至少一个卷积层处理的数据作为所述高维图像数据。
32.根据权利要求17所述的装置,其特征在于,所述待处理图像帧的颜色编码格式为YUV格式,所述第一颜色分量和所述第二颜色分量为亮度分量Y、色度分量U和色度分量V中的两种;
或者,所述待处理图像帧的颜色编码格式为RGB格式,所述第一颜色分量和所述第二颜色分量为红色分量、绿色分量和蓝色分量中的两种。
33.一种计算机设备,其特征在于,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
通过第一通道向卷积神经网络输入第一输入数据,所述第一输入数据包含待处理图像帧中目标区域的第一颜色分量的信息;
获取所述卷积神经网络输出的第一输出数据,所述第一输出数据包含所述卷积神经网络对所述目标区域的第二颜色分量的信息的预测值;
其中,所述第一颜色分量和所述第二颜色分量为所述目标区域具有的不同的颜色分量。
CN201711223298.2A 2017-11-29 2017-11-29 颜色分量的帧内预测方法、装置及计算机设备 Active CN109842799B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711223298.2A CN109842799B (zh) 2017-11-29 2017-11-29 颜色分量的帧内预测方法、装置及计算机设备
PCT/CN2018/113779 WO2019105179A1 (zh) 2017-11-29 2018-11-02 颜色分量的帧内预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711223298.2A CN109842799B (zh) 2017-11-29 2017-11-29 颜色分量的帧内预测方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN109842799A true CN109842799A (zh) 2019-06-04
CN109842799B CN109842799B (zh) 2021-02-09

Family

ID=66664687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711223298.2A Active CN109842799B (zh) 2017-11-29 2017-11-29 颜色分量的帧内预测方法、装置及计算机设备

Country Status (2)

Country Link
CN (1) CN109842799B (zh)
WO (1) WO2019105179A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602491A (zh) * 2019-08-30 2019-12-20 中国科学院深圳先进技术研究院 帧内色度预测方法、装置、设备及视频编解码系统
WO2021035717A1 (zh) * 2019-08-30 2021-03-04 中国科学院深圳先进技术研究院 帧内色度预测方法、装置、设备及视频编解码系统
CN114073094A (zh) * 2019-06-27 2022-02-18 联发科技股份有限公司 视频编码的跨元件适应性回路滤波方法和装置
WO2022088101A1 (zh) * 2020-10-30 2022-05-05 Oppo广东移动通信有限公司 编码方法、解码方法、编码器、解码器及存储介质
WO2022155923A1 (zh) * 2021-01-22 2022-07-28 Oppo广东移动通信有限公司 编码方法、解码方法、编码器、解码器以及电子设备
WO2022188582A1 (zh) * 2021-03-12 2022-09-15 腾讯科技(深圳)有限公司 点云中邻居点的选择方法、装置及编解码器
CN115422986A (zh) * 2022-11-07 2022-12-02 深圳传音控股股份有限公司 处理方法、处理设备及存储介质
CN116343708A (zh) * 2023-05-30 2023-06-27 深圳市深远通科技有限公司 一种消除动态图像色彩偏移的方法及系统
WO2024022390A1 (en) * 2022-07-27 2024-02-01 Mediatek Inc. Method and apparatus of improving performance of convolutional cross-component model in video coding system
WO2024077520A1 (zh) * 2022-10-12 2024-04-18 Oppo广东移动通信有限公司 编解码方法、码流、编码器、解码器以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254879A (zh) * 2016-08-31 2016-12-21 广州精点计算机科技有限公司 一种应用自编码神经网络的有损图像压缩方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3459256A4 (en) * 2016-05-16 2019-11-13 Telefonaktiebolaget LM Ericsson (publ) PIXEL PROCESSING WITH COLOR COMPONENT
CN107277520B (zh) * 2017-07-11 2020-05-12 中国科学技术大学 帧内预测的码率控制方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254879A (zh) * 2016-08-31 2016-12-21 广州精点计算机科技有限公司 一种应用自编码神经网络的有损图像压缩方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAL KALCHBRENNER等: "Video Pixel Networks", 《ARXIV》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114073094B (zh) * 2019-06-27 2023-05-23 寰发股份有限公司 视频编解码的方法和装置
CN114073094A (zh) * 2019-06-27 2022-02-18 联发科技股份有限公司 视频编码的跨元件适应性回路滤波方法和装置
WO2021035717A1 (zh) * 2019-08-30 2021-03-04 中国科学院深圳先进技术研究院 帧内色度预测方法、装置、设备及视频编解码系统
CN110602491B (zh) * 2019-08-30 2022-07-19 中国科学院深圳先进技术研究院 帧内色度预测方法、装置、设备及视频编解码系统
CN110602491A (zh) * 2019-08-30 2019-12-20 中国科学院深圳先进技术研究院 帧内色度预测方法、装置、设备及视频编解码系统
WO2022088101A1 (zh) * 2020-10-30 2022-05-05 Oppo广东移动通信有限公司 编码方法、解码方法、编码器、解码器及存储介质
WO2022155923A1 (zh) * 2021-01-22 2022-07-28 Oppo广东移动通信有限公司 编码方法、解码方法、编码器、解码器以及电子设备
WO2022188582A1 (zh) * 2021-03-12 2022-09-15 腾讯科技(深圳)有限公司 点云中邻居点的选择方法、装置及编解码器
WO2024022390A1 (en) * 2022-07-27 2024-02-01 Mediatek Inc. Method and apparatus of improving performance of convolutional cross-component model in video coding system
WO2024077520A1 (zh) * 2022-10-12 2024-04-18 Oppo广东移动通信有限公司 编解码方法、码流、编码器、解码器以及存储介质
CN115422986A (zh) * 2022-11-07 2022-12-02 深圳传音控股股份有限公司 处理方法、处理设备及存储介质
CN115422986B (zh) * 2022-11-07 2023-08-22 深圳传音控股股份有限公司 处理方法、处理设备及存储介质
WO2024098873A1 (zh) * 2022-11-07 2024-05-16 深圳传音控股股份有限公司 处理方法、处理设备及存储介质
CN116343708A (zh) * 2023-05-30 2023-06-27 深圳市深远通科技有限公司 一种消除动态图像色彩偏移的方法及系统

Also Published As

Publication number Publication date
WO2019105179A1 (zh) 2019-06-06
CN109842799B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN109842799A (zh) 颜色分量的帧内预测方法及装置
CN110059796A (zh) 卷积神经网络的生成方法及装置
CN108184129A (zh) 一种视频编解码方法、装置及用于图像滤波的神经网络
EP3746944A1 (en) Use of non-linear function applied to quantization parameters in machine-learning models for video coding
CN108464002A (zh) 视频译码中具有非正方形预测单元的线性模型预测
CN109804625A (zh) 对图像编码/解码的方法和装置及存储比特流的记录介质
CN104219525B (zh) 基于显著性和最小可察觉失真的感知视频编码方法
CN107211150A (zh) 动态更新质量至较高的色度采样率
CN108293125A (zh) 一种数字图像处理系统和方法
WO2015096647A1 (en) Method and apparatus for major color index map coding
CN104853211A (zh) 使用多种形式的参考像素存储空间的图像压缩方法和装置
CN104754362B (zh) 使用精细划分块匹配的图像压缩方法
CN104581177B (zh) 一种结合块匹配和串匹配的图像压缩方法和装置
CN107257458A (zh) 采用回路内滤波处理来处理视频的方法和装置
CN106797468A (zh) 高效视频编码(hevc)屏幕内容编码(scc)中改进的调色板模式
WO2020061008A1 (en) Receptive-field-conforming convolution models for video coding
US20230262212A1 (en) Picture prediction method, encoder, decoder, and computer storage medium
CN109996083B (zh) 帧内预测方法及装置
JP6794364B2 (ja) 画像符号化方法及び装置並びに画像復号方法及び装置
CN109257605A (zh) 图像处理方法、设备及系统
EP2955920A1 (en) Method and system for encoding and decoding, encoder and decoder
CN108632610A (zh) 一种基于插值重建的彩色图像压缩方法
CN107040778A (zh) 环路滤波方法以及环路滤波装置
CN104935945B (zh) 扩展参考像素样值集的图像编码或解码方法
CN108353193A (zh) 基于多个基于图的模型通过使用优化转换编码/解码视频信号的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant