CN116113985A - 利用基于深度学习的环内滤波器进行视频编码和解码 - Google Patents

利用基于深度学习的环内滤波器进行视频编码和解码 Download PDF

Info

Publication number
CN116113985A
CN116113985A CN202180052718.3A CN202180052718A CN116113985A CN 116113985 A CN116113985 A CN 116113985A CN 202180052718 A CN202180052718 A CN 202180052718A CN 116113985 A CN116113985 A CN 116113985A
Authority
CN
China
Prior art keywords
frame
current frame
detection
flag
reference region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180052718.3A
Other languages
English (en)
Inventor
姜制遠
金挪茔
李订炅
朴胜煜
林和平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Motor Co
Industry Collaboration Foundation of Ewha University
Kia Corp
Original Assignee
Hyundai Motor Co
Industry Collaboration Foundation of Ewha University
Kia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Motor Co, Industry Collaboration Foundation of Ewha University, Kia Corp filed Critical Hyundai Motor Co
Priority claimed from KR1020210111724A external-priority patent/KR20220025689A/ko
Publication of CN116113985A publication Critical patent/CN116113985A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提供一种视频编码方法和视频解码方法,以为当前帧生成改善的图片质量,并提高编码效率。该视频编码方法和视频解码方法进一步包括环内滤波器,该环内滤波器通过利用基于深度学习的检测模型从当前帧和参考帧检测参考区域,然后将检测到的参考区域与当前帧组合。

Description

利用基于深度学习的环内滤波器进行视频编码和解码
技术领域
本公开涉及视频的编码和解码。更具体地,本公开涉及一种视频编码方法和视频解码方法。该视频编码方法和视频解码方法进一步包括环内滤波器,该环内滤波器利用基于深度学习的检测模型从当前帧和参考帧检测参考区域,然后将检测到的参考区域与当前帧组合。
背景技术
下面的描述仅提供与本公开相关的背景信息,不构成现有技术。
由于视频数据与音频或静止图像数据相比具有大量的数据,因此需要包括存储器的大量硬件资源,以存储或发送视频数据而不进行压缩处理。
因此,通常,在存储或发送视频数据时使用编码器进行压缩。解码器接收压缩后的视频数据,对接收的压缩视频数据进行解压,并播放解压缩后的视频数据。视频压缩技术包括H.264/AVC、高效视频编码(HEVC)和多功能视频编码(VVC),与HEVC相比,VVC的编码效率提高了约30%以上。
然而,由于图像尺寸、分辨率和帧速率逐渐增加,因此需要编码的数据量也增加。因此,需要一种提供比现有压缩技术更高的编码效率和改进的图像增强效果的新的压缩技术。
最近,一种基于深度学习的视频处理技术被应用于现有的编码元件技术中。基于深度学习的视频处理技术被应用于现有编码技术中的间预测(inter prediction)、内预测(intra prediction)、环内滤波或变换等压缩技术,以便提高编码效率。代表性的应用实例包括基于深度学习模型生成的虚拟参考帧的间预测,以及基于图像修复模型的环内滤波器(见非专利文献1)。因此,在视频编码或解码中,有必要考虑持续应用基于深度学习的视频处理技术,以提高编码效率。
(非专利文献)
非专利文献1:Ren Yang,Mai Xu,Zulin Wang and Tianyi Li,Multi-FrameQuality Enhancement for Compressed Video,Arxiv:1803.04680。
非专利文献2:Jongchan Park,Sanghyun Woo,Joon-Young Lee,and In SoKweon,BAM:Bottleneck Attention Module,Arxiv:1807.06514。
发明内容
(一)要解决的技术问题
本公开的目的是提供一种视频编码方法和视频解码方法。该视频编码方法和视频解码方法通过进一步包括环内滤波器来增强当前帧的图像质量并提高编码效率,该环内滤波器利用基于深度学习检测模型从当前帧和参考帧检测参考区域后将检测到的参考区域与当前帧组合。
(二)技术方案
本公开的一方面提供一种由视频解码装置执行以增强当前帧的质量的方法。该方法包括获得当前帧和至少一个参考帧的步骤。该方法还包括利用基于深度学习的检测模型从参考帧和当前帧检测参考帧上的参考区域,并生成检测图的步骤。该方法还包括基于检测图将参考区域与当前帧组合以生成增强帧的步骤。
本公开的另一方面提供一种图像质量增强装置,其包括输入单元,该输入单元被配置为获得当前帧和至少一个参考帧。该图像质量增强装置还包括参考区域检测器,该参考区域检测器被配置为利用基于深度学习的检测模型从参考帧和当前帧检测参考帧上的参考区域,并被配置为生成检测图。该图像质量增强装置还包括参考区域组合器,该参考区域组合器被配置为基于检测图将参考区域与当前帧组合以增强当前帧的图像质量。
(三)有益效果
如上所述,根据本实施例,可以提供一种视频编码方法和视频解码方法。该视频编码方法和该视频解码方法通过进一步包括环内滤波器来增强当前帧的图像质量并提高编码效率,该环内滤波器利用基于深度学习检测模型从当前帧和参考帧检测参考区域后将检测到的参考区域与当前帧组合。
附图说明
图1是可以实现本公开技术的视频编码装置的框图。
图2是示出利用四叉树加二叉树三叉树(QTBTTT)结构划分块的方法的图。
图3A和图3B是示出包括广角内预测模式的多个内预测模式的图。
图4是示出当前块的相邻块的示图。
图5是可以实现本公开技术的视频解码装置的框图。
图6是根据本公开的实施例的图像质量增强装置的示意性框图。
图7是示出根据本公开的实施例的随机访问结构的示图。
图8是示出根据本公开的实施例的参考区域的示图。
图9是示出根据本公开的实施例的检测模型的示图。
图10是根据本公开的实施例的利用基于CNN模型的环内滤波器的图像质量增强装置的示意性框图。
图11是根据本公开的另一实施例的利用基于CNN模型的环内滤波器的图像质量增强装置的示意性框图。
图12是示出根据本公开的实施例的图像质量增强装置和现有环内滤波器的组件之间的布置的示图。
图13是根据本公开的实施例的图像质量增强方法的流程图。
具体实施方式
在下文中,参照附图详细描述本公开的实施例。当附图标记指代各图中的组件时,应当注意的是,尽管在不同的图中示出了相同或等同的组件,但相同或等同的组件可以用相同的附图标记表示。此外,在描述实施例时,可以省略对已知相关配置和功能的详细描述,以避免不必要地混淆实施例的主旨。
图1是可以实现本公开技术的视频编码装置的框图。在下文中,参照图1的表示,描述视频编码装置和该装置的子组件。
编码装置可以包括图片分割器110、预测器120、减法器130、变换器140、量化器145、重排单元150、熵编码器155、反量化器160、反变换器165、加法器170、循环滤波器单元180和存储器190。
编码装置的每个组件可以实现为硬件或软件,或者实现为硬件和软件的组合。此外,每个组件的功能可以由软件实现,并且微处理器还可以实现为执行与每个组件对应的软件的功能。
一个视频由一个或多个包括多个图片的序列构成。每个图片被分割成多个区域,并为每个区域执行编码。例如,一个图片被分割成一个或多个片(tile)或/和条带(slice)。此处,一个或多个片可以被定义为片组。每个片或/和条带被分割成一个或多个编码树单元(Coding Tree Unit,CTU)。另外,每个CTU通过树结构被分割成一个或多个编码单元(Coding Unit,CU)。应用于每个CU的信息被编码为CU的语法,共同应用于一个包括在CTU中的CU的信息被编码为CTU的语法。此外,共同应用于一个条带中所有块的信息被编码为条带头的语法,应用于构成一个或多个图片的所有块的信息被编码为图片参数集(PictureParameter Set,PPS)或图片头。此外,多个图片共同所指的信息被编码到序列参数集(Sequence Parameter Set,SPS)中。另外,一个或多个SPS共同所指的信息被编码到视频参数集(Video Parameter Set,VPS)。此外,共同应用于一个片或片组的信息也可以被编码为片或片组头的语法。包括在SPS、PPS、条带头、片或片组头中的语法可以被称为高层语法。
图片分割器110确定编码树单元(CTU)的大小。关于CTU的大小的信息(CTU size)被编码为SPS或PPS的语法并传递到视频解码装置。
图片分割器110将构成视频的每个图片分割成具有预定大小的多个编码树单元(CTU),然后通过利用树结构递归地分割CTU。树结构中的叶子节点(leaf node)成为编码单元(coding unit,CU),作为编码的基本单位。
树结构可以是四叉树(Quad Tree,QT),其中较高的节点(或父节点)被分割成具有相同大小的四个较低的节点(或子节点)。树结构也可以是二叉树(Binary Tree,BT),其中较高的节点被分割成两个较低的节点。树结构也可以是三叉树(Ternary Tree,TT),其中较高的节点以1:2:1的比例被分成三个较低的节点。树结构也可以是QT结构、BT结构和TT结构之中的两个或多个结构混合的结构。例如,可以利用四叉树加二叉树(Quad Tree plusBinary Tree,QTBT)结构,或者可以利用四叉树加二叉树三叉树(Quad Tree plus BinaryTree Ternary Tree,QTBTTT)结构。此处,BTTT被添加到树结构中,以被称为多类型树(Multiple Type Tree,MTT)。
图2是用于描述通过利用QTBTTT结构分割块的方法的示图。
如图2所示,CTU可以首先分割成QT结构。四叉树分割可以是递归的,直到分割块(splitting block)的大小达到QT中允许的叶子节点的最小块大小(MinQTSize)。指示QT结构的每个节点是否被分割成下层的四个节点的第一标志(QT_split_flag)由熵编码器155编码并信号传递给视频解码装置。当QT的叶子节点不大于BT中允许的根节点的最大块大小(MaxBTSize)时,叶子节点可被进一步分割成BT结构或TT结构中的至少一个。在BT结构和/或TT结构中可以存在多个分割方向。例如,可以有两个方向,即相应节点的块被水平分割的方向和相应节点的块被垂直分割的方向。如图2所示,当MTT分割开始时,指示节点是否被分割的第二标志(mtt_split_flag)以及如果节点被分割则另外指示分割方向(垂直或水平((vertical/horizontal)))的标志和/或指示分割类型(二元或三元(binary/ternary))的标志由熵编码器155编码并信号传递给视频解码装置。
可选地,在对指示每个节点是否被分割成下层的四个节点的第一标志(QT_split_flag)进行编码之前,也可以对指示节点是否被分割的CU分割标志(split_cu_flag)进行编码。当CU分割标志(split_cu_flag)的值表示每个节点不被分割时,相应节点的块成为分割树结构中的叶子节点,并成为编码单元(CU),作为编码的基本单位。当CU分割标志(split_cu_flag)的值指示每个节点被分割时,视频编码装置通过上述方案首先开始对第一标志进行编码。
当QTBT被用作树结构的另一示例时,可以有两种类型,即,相应节点的块被水平分割成具有相同大小的两个块的类型(即,对称水平分割(symmetric horizontalsplitting))以及相应节点的块被垂直分割成具有相同大小的两个块的类型(即,对称垂直分割(symmetric vertical splitting))。指示BT结构的每个节点是否被分割成下层的块的分割标志(split_flag)和指示分割类型的分割类型信息由熵编码器155编码并传递给视频解码装置。另一方面,可以另外存在相应节点的块被分割成两个相互不对称的形式的块的类型。不对称的形式可以包括相应节点的块分割成具有1:3的大小比的两个矩形块的形式,或者还包括相应节点的块沿对角线方向被分割的形式。
根据基于CTU的QTBT或QTBTTT分割,CU可以具有各种大小。在下文中,对应于待编码或解码的CU(即,QTBTTT的叶子节点)的块被称为“当前块”。由于采用了QTBTTT分割,因此当前块的形状除了方形之外,还可以是矩形形状。
预测器120预测当前块以生成预测块。预测器120包括内预测器122和间预测器124。
通常,图片中的每个当前块可以被预测性编码。通常,当前块的预测可以通过利用内预测技术(利用来自包括当前块的图片的数据)或间预测技术(利用来自在包括当前块的图片之前编码的图片的数据)执行。间预测包括单向预测和双向预测。
内预测器122通过利用定位在包括当前块的当前图片中的当前块的相邻位置的像素(参考像素)来预测当前块中的像素。根据预测方向,有多个内预测模式。例如,如图3A所示,多个内预测模式可以包括具有平面模式和DC模式的2种非方向性模式,并且可以包括65种方向性模式。根据每个预测模式,待使用的相邻的像素和算术等式被不同地定义。
为了对具有矩形形状的当前块进行有效的方向性预测,可以另外使用图3B中以虚线箭头表示的方向性模式(#67至#80,内预测模式#-1至#14)。该方向模式可被称为“广角内预测模式(wide angle intra-prediction modes)”。在图3B中,箭头指示用于预测的相应参考样本,不代表预测方向。预测方向与箭头所示的方向相反。在当前块具有矩形形状时,广角内预测模式是指在与特定方向性模式相反的方向上进行预测而不需要附加的比特发送的模式。在这种情况下,在广角内预测模式中,可用于当前块的一些广角内预测模式可以由具有矩形形状的当前块的宽度和高度的比率确定。例如,在当前块具有高度小于宽度的矩形形状时,可使用角度小于45度的广角内预测模式(内预测模式#67至#80)。在当前块具有宽度大于高度的矩形形状时,可使用角度大于-135度的广角内预测模式。
内预测器122可以确定将用于对当前块进行编码的内预测。在一些示例中,内预测器122可以通过利用多个内预测模式来编码当前块,并且还从测试的模式中选择待使用的适当的内预测模式。例如,内预测器122可以通过利用针对多个测试的内预测模式的速率失真分析来计算速率失真值,并且还在测试的模式之中选择具有最佳速率失真特征的内预测模式。
内预测器122在多个内预测模式之中选择一种内预测模式,并通过利用根据所选的内预测模式确定的相邻的像素(参考像素)和算术等式来预测当前块。关于选择的内预测模式的信息由熵编码器155编码并传递到视频解码装置。
间预测器124通过利用运动补偿过程生成当前块的预测块。间预测器124在比当前图片更早编码和解码的参考图片中搜索与当前块最相似的块,并通过利用搜索到的块来生成当前块的预测块。另外,生成运动矢量(Motion Vector,MV),该运动矢量对应于当前图片中的当前块和参考图片中的预测块之间的位移。通常,运动估计是针对亮度分量执行的,而基于亮度分量计算的运动矢量则用于亮度分量和色度分量。包括用于预测当前块的关于参考图片的信息和关于运动矢量的信息的运动信息由熵编码器155编码并传递到视频解码装置。
间预测器124还可以对参考图片或参考块执行插值,以增加预测的准确性。换言之,通过将滤波器系数应用于包括两个整数样本的多个连续整数样本,对两个连续整数样本之间的子样本进行插值。当针对内插的参考图片搜索与当前块最相似的块的过程时,可以针对运动矢量表示的不是整数样本单位精度而是小数单位精度。运动矢量的精度或分辨率可以针对每个待编码的目标区域,例如,诸如条带、片、CTU、CU等单位不同地设置。当应用这种自适应运动矢量分辨率(AMVR)时,应该为每个目标区域发出关于待应用于每个目标区域的运动矢量分辨率的信息的信号。例如,当目标区域是CU时,发出为每个CU应用的运动矢量分辨率的信息的信号。关于运动矢量分辨率的信息可以是表示将在下面描述的运动矢量差的精度的信息。
另一方面,间预测器124可以通过利用双预测(bi-prediction)执行间预测。在双预测的情况下,利用两张参考图片和表示在每张参考图片中与当前块最相似的块位置的两个运动矢量。间预测器124分别从参考图片列表0(RefPicList0)和参考图片列表1(RefPicList1)中选择第一参考图片和第二参考图片。间预测器124还在各自的参考图片中搜索与当前块最相似的块,以生成第一参考块和第二参考块。另外,当前块的预测块是通过对第一参考块和第二参考块进行平均或加权平均而生成的。另外,包括为预测当前块而使用的、关于两张参考图片的信息和关于两个运动矢量的信息的运动信息被传递到熵编码器155。此处,参考图片列表0可以由在预恢复的图片中显示顺序在当前图片之前的图片构成,而参考图片列表1可以由在预恢复的图片中显示顺序在当前图片之后的图片构成。然而,尽管不限于此,但显示顺序在当前图片之后的预恢复图片可以附加地包括在参考图片列表0中。反之,在当前图片之前的预恢复图片也可以附加地包括在参考图片列表1中。
为了使用于对运动信息进行编码的比特量最小化,可以利用各种方法。
例如,在当前块的参考图片和运动矢量与相邻块的参考图片和运动矢量相同时,能够识别相邻块的信息被编码以将当前块的运动信息传递到视频解码装置。这样的方法被称为合并模式(merge mode)。
在合并模式中,间预测器124从当前块的相邻块中选择预定数量的合并候选块(以下,称为“合并候选”)。
作为得出合并候选的相邻块,如图4所示,可以使用在当前图片中与当前块相邻的左块L、顶块A、顶右块AR、底左块BL和顶左块AL的全部或部分。此外,位于参考图片(可以与用于预测当前块的参考图片相同或不同)而不是当前块所在的当前图片内的块也可以用作合并候选。例如,在参考图片内与当前块位于相同位置的块或与位于相同位置的块相邻的块可以附加地用作合并候选。如果通过上述方法选择的合并候选的数量小于预设的数量,则向合并候选添加零矢量。
间预测器124通过利用相邻的块配置包括预定数量的合并候选的合并列表。从包括在合并列表中的合并候选中选择待用作当前块的运动信息的合并候选,并且生成用于识别所选候选的合并索引信息。生成的合并索引信息由熵编码器155编码并传递到视频解码装置。
合并跳过模式(merge skip)是合并模式的一个特例。在量化之后,当用于熵编码的所有变换系数接近于零时,仅发送相邻块选择信息而不发送剩余信号。通过利用合并跳过模式,对于有轻微运动的图像、静止图像、屏幕内容图像等,可以实现相对较高的编码效率。
在下文中,合并模式和合并跳过模式被统称为合并/跳过模式。
对运动信息进行编码的另一种方法是高级运动矢量预测(Advanced MotionVector Prediction,AMVP)模式。
在AMVP模式中,间预测器124通过利用当前块的相邻块来得出当前块的运动矢量的预测运动矢量候选。作为用于得出预测运动矢量候选的相邻块,可以利用图4中示出的当前图片中与当前块相邻的左块L、顶块A、顶右块AR、底左块BL和顶左块AL的全部或部分。此外,位于参考图片(可以与用于预测当前块的参考图片相同或不同)而不是当前块所在的当前图片内的块,也可以用作用于得出预测运动矢量候选的相邻块。例如,可以利用参考图片中与当前块位于相同位置的块或与位于相同位置的块相邻的块。如果通过上述方法选择的运动矢量候选的数量小于预设数量,则向运动矢量候选添加零矢量。
间预测器124通过利用相邻块的运动矢量得出预测运动矢量候选,并且通过使用预测运动矢量候选确定针对当前块的运动矢量的预测运动矢量。另外,通过从当前块的运动矢量中减去预测运动矢量来计算运动矢量差。
预测运动矢量可以通过对预测运动矢量候选应用预先定义的函数(例如,中心值和平均值计算等)来获得。在这种情况下,视频解码装置也知道预定义的函数。此外,由于用于得出预测运动矢量候选的相邻块是已经完成编码和解码的块,因此视频解码装置也可能已经知道相邻块的运动矢量。因此,视频编码装置不需要对用于识别预测运动矢量候选的信息进行编码。因此,在这种情况下,关于运动矢量差的信息和关于用于预测当前块的参考图片的信息被编码。
另一方面,预测运动矢量也可以通过选择预测运动矢量候选中的任何一个的方案来确定。在这种情况下,用于识别所选择的预测运动矢量候选的信息与关于运动矢量差的信息和关于用于预测当前块的参考图片的信息共同被附加编码。
减法器130通过从当前块中减去由内预测器122或间预测器124生成的预测块来生成剩余块。
变换器140将剩余块中具有空间域的像素值的剩余信号变换为频域的变换系数。变换器140可以通过利用剩余块的总大小作为变换单元来变换剩余块中的剩余信号,或者也可以将剩余块分割成多个子块并通过利用子块作为变换单元来执行变换。可选地,将剩余块划分为作为变换区域和非变换区域的两个子块,以通过仅利用变换区域子块作为变换单元来变换剩余信号。此处,变换区域子块可以是具有基于水平轴(或垂直轴)的大小比为1:1的两个矩形块中的一个。在这种情况下,标志(cu_sbt_flag)指示只有子块被变换,并且方向性(垂直/水平(vertical/horizontal))信息(cu_sbt_horizontal_flag)和/或位置信息(cu_sbt_pos_flag)由熵编码器155编码并信号传递给视频解码装置。此外,变换区域子块的大小可以具有基于水平轴(或垂直轴)的1:3的大小比,在这种情况下,划分相应分割的标志(cu_sbt_quad_flag)另外由熵编码器155编码并信号传递给视频解码装置。
另一方面,变换器140可以在水平方向和垂直方向上单独执行对剩余块的变换。对于变换,可以使用各种类型的变换函数或变换矩阵。例如,用于水平变换和垂直变换的一对变换函数可以被定义为多个变换集(Multiple Transform Set,MTS)。变换器140可以在MTS中选择一个具有最高变换效率的变换函数对,并在水平方向和垂直方向中的每个方向上变换剩余块。关于选自MTS中的变换函数对的信息(mts_idx)由熵编码器155编码并信号传递给视频解码装置。
量化器145利用量化参数对从变换器140输出的变换系数进行量化并将量化的变换系数输出到熵编码器155。量化器145也可以对任意块或帧立即量化相关剩余块,而没有变换。量化器145也可以根据变换块中变换系数的位置应用不同的量化系数(缩放值)。应用于以2维量化排列的变换系数的量化矩阵可以被编码并信号传递给视频解码装置。
重排单元150可以为量化的剩余值执行系数值的重新排列。
重排单元150可以通过利用系数扫描将2D系数阵列变为1D系数序列。例如,重排单元150可以通过利用之字形(zig-zag)扫描或对角线扫描从DC系数到高频域系数进行扫描来输出1D系数序列。根据变换单元的大小和内预测模式,也可以用在列方向上扫描2D系数阵列的垂直扫描和在行方向上扫描2D块型系数的水平扫描来代替之字形扫描。换言之,根据变换单元的大小和内预测模式,可以在之字形扫描、对角线扫描、垂直扫描和水平扫描中确定待使用的扫描方法。
熵编码器155通过利用包括基于上下文的自适应二元算术代码(Context-basedAdaptive Binary Arithmetic Code,CABAC)、指数Golomb(Exponential Golomb)等的各种编码方案对从重排单元150输出的1D量化变换系数序列进行编码而生成比特流。
此外,熵编码器155对与块分割相关的信息,例如CTU大小、CTU分割标志、QT分割标志、MTT分割类型、MTT分割方向等进行编码,以使视频解码装置与视频编码装置相同地分割块。此外,熵编码器155对关于指示当前块是由内预测还是间预测编码的预测类型的信息进行编码。熵编码器155根据预测类型对内预测信息(即,关于内预测模式的信息)或间预测信息(在合并模式的情况下,间预测信息是合并索引,在AMVP模式的情况下,间预测信息是关于参考图片索引和运动矢量差的信息)进行编码。此外,熵编码器155对与量化有关的信息,即关于量化参数的信息和关于量化矩阵的信息进行编码。
反量化器160对从量化器145输出的量化变换系数进行反量化,以生成变换系数。反变换器165将从反量化器160输出的变换系数从频域变换到空间域以恢复剩余块。
加法器170将恢复的剩余块和由预测器120产生的预测块相加以恢复当前块。当对下一个顺序的块进行内预测时,恢复的当前块中的像素被用作参考像素。
循环滤波器单元180执行恢复的像素的滤波,以减少由于基于块的预测和变换/量化而发生的阻塞伪像(blocking artifact)、振铃伪像(ringing artifact)、模糊伪像(blurring artifact)等。作为环内滤波器的循环滤波器单元180可以包括解锁滤波器182、采样自适应偏移(Sample Adaptive Offset,SAO)滤波器184和自适应循环滤波器(Adaptive Loop Filter,ALF)186的全部或部分。
解锁滤波器182对恢复的块之间的边界进行滤波,以消除由于块单元编码/解码而发生的阻塞伪像,并且SAO滤波器184和ALF 186对解锁滤波的视频执行附加的滤波。SAO滤波器184和ALF 186是用于补偿由于有损编码而产生的恢复的像素和原始像素之间的差异的滤波器。SAO滤波器184应用偏移量作为CTU单位,以提高主观图像质量和编码效率。与此相反,ALF 186执行块单元滤波,并通过划分相应块的边界和变化量的程度,应用不同的滤波器来补偿失真。关于待用于ALF的滤波器系数的信息可以被编码并信号传递给视频解码装置。
通过解锁滤波器182、SAO滤波器184和ALF 186滤波的恢复块被存储在存储器190中。当一张图片中的所有块被恢复时,恢复的图片可以被用作参考图片,用于间预测之后待编码的图片中的块。
图5是可以实现本公开技术的视频解码装置的功能框图。在下文中,参照图5,描述视频解码装置和该装置的子组件。
视频解码装置可以被配置为包括熵解码器510、重排单元515、反量化器520、反变换器530、预测器540、加法器550、循环滤波器单元560和存储器570。
类似于图1的视频编码装置,视频解码装置的每个组件可以实现为硬件或软件,或者实现为硬件和软件的组合。此外,每个组件的功能可以实现为软件,并且微处理器还可以实现为执行与每个组件对应的软件的功能。
熵解码器510通过解码由视频编码装置生成的比特流提取与块分割有关的信息以确定待解码的当前块,并提取恢复当前块所需的预测信息和关于剩余信号的信息。
熵解码器510通过从序列参数集(Sequence Parameter Set,SPS)或图片参数集(Picture Parameter Set,PPS)中提取关于CTU大小的信息来确定CTU的大小,并且将图片分割成具有确定大小的CTU。另外,CTU被确定为树结构的最高层,即根节点,并且通过利用树结构提取CTU的分割信息以分割CTU。
例如,当通过使用QTBTTT结构分割CTU时,首先提取与QT的分割有关的第一标志(QT_split_flag)以将每个节点分割成下层的四个节点。另外,针对对应于QT的叶子节点的节点,提取与MTT的分割有关的第二标志(MTT_split_flag)、分割方向(垂直/水平(vertical/horizontal))和/或分割类型(二元/三元(binary/ternary)),信息以将相应的叶子节点分割成MTT结构。因此,QT的叶子节点下面的每个节点被递归地分割成BT或TT结构。
作为另一示例,当通过利用QTBTTT结构分割CTU时,首先提取指示CU是否被分割的CU分割标志(split_cu_flag)。当相应的块被分割时,也可以提取第一标志(QT_split_flag)。在分割过程中,针对每个节点,在递归QT分割0次或更多次之后,可能会发生递归MTT分割0次或更多次。例如,针对CTU,可以发生MTT分割,或者相反,也可以只发生多次的QT分割。
作为另一示例,当通过利用QTBT结构分割CTU时,提取与QT的分割有关的第一标志(QT_split_flag)以将每个节点分割成下层的四个节点。另外,还提取指示与QT的叶子节点对应的节点是否被进一步分割为BT的分割标志(split_flag)和分割方向信息。
另一方面,当熵解码器510通过利用树结构的分割确定待解码的当前块时,熵解码器510提取关于指示当前块是内预测还是间预测的预测类型的信息。当预测类型信息指示内预测时,熵解码器510提取用于当前块的内预测信息(内预测模式)的语法元素。当预测类型信息指示间预测时,熵解码器510提取代表间预测信息的语法元素,即运动矢量和运动矢量所指向的参考图片的信息。
此外,熵解码器510提取量化相关信息,并提取关于当前块的量化变换系数的信息作为关于剩余信号的信息。
重排单元515可以再次以与视频编码装置执行的系数扫描顺序相反的顺序将由熵解码器510熵解码的1D量化变换系数的序列改变为2D系数阵列(即,块)。
反量化器520对量化的变换系数进行反量化并通过利用量化参数对量化的变换系数进行反量化。反量化器520还可以将不同的量化系数(缩放值)应用于以2D排列的量化变换系数。反量化器520可以通过将来自视频编码装置的量化系数(缩放值)的矩阵应用于量化变换系数的2D阵列来执行反量化。
反变换器530通过将反量化的变换系数从频域反变换到空间域来恢复剩余信号,从而生成当前块的剩余块。
此外,当反变换器530反变换变换块的部分区域(子块)时,反变换器530提取仅变换变换块的子块的标志(cu_sbt_flag)、子块的方向(垂直/水平)信息(cu_sbt_horizontal_flag)和/或子块的位置信息(cu_sbt_pos_flag)。反变换器530还将相应子块的变换系数从频域反变换到空间域,以恢复剩余信号,并用“0”值填充未被反变换的区域作为剩余信号,以生成当前块的最终剩余块。
此外,当应用MTS时,反变换器530通过利用从视频编码装置发出的MTS信息(mts_idx)来确定在水平方向和垂直方向中的每个方向上待应用的变换函数或变换矩阵。反变换器530还通过利用确定的变换函数在水平方向和垂直方向上对变换块中的变换系数执行反变换。
预测器540可以包括内预测器542和间预测器544。在当前块的预测类型是内预测时,内预测器542被激活,并且在当前块的预测类型是间预测时,间预测器544被激活。
内预测器542在从熵解码器510中提取的用于内预测模式的语法元素中确定多个内预测模式之中的当前块的内预测模式。内预测器542还根据内预测模式通过利用当前块的相邻参考像素来预测当前块。
间预测器544通过利用从熵解码器510提取的用于间预测模式的语法元素来确定当前块的运动矢量和该运动矢量所指向的参考图片,并利用运动矢量和参考图片预测当前块。
加法器550通过添加从反变换单元输出的剩余块和从间预测单元或内预测单元输出的预测块来恢复当前块。恢复的当前块内的像素被用作在内预测之后待解码的块时的参考像素。
作为环内滤波器的循环滤波器单元560可以包括解锁滤波器562、SAO滤波器564和ALF 566。解锁滤波器562对恢复的块之间的边界执行解锁滤波,以消除因块单元解码而发生的阻塞伪像。SAO滤波器564和ALF 566在解锁滤波后对恢复的块执行附加的滤波,以补偿因有损编码而产生的恢复的像素和原始像素之间的差异。ALF的滤波系数通过利用从比特流解码的滤波系数的信息来确定。
通过解锁滤波器562、SAO滤波器564和ALF 566滤波的恢复块被存储在存储器570中。当一张图片中的所有块被恢复时,恢复的图片可以被用作参考图片,用于间预测之后待编码的图片中的块。
本实施例涉及如上所述的视频的编码和解码。更具体地,本实施例提供进一步包括环内滤波器的视频编码方法和视频解码方法,该环内滤波器利用基于深度学习的检测模型从当前帧和参考帧中检测参考区域,然后将检测到的参考区域与当前帧组合。
在以下描述中,视频编码装置和方法与编码装置和方法一起使用,并且视频解码装置和方法与解码装置和方法一起使用。
图6是根据本公开的实施例的图像质量增强装置的示意性框图。
根据本实施例的图像质量增强装置600利用基于深度学习的检测模型从当前帧和参考帧检测参考区域,然后将检测到的区域与当前帧组合以增强当前帧的图像质量。图像质量增强装置600在增强当前帧的图像质量方面具有类似于环内滤波器180和560的功能。图像质量增强装置600包括输入单元602、参考区域检测器604和参考区域组合器606的全部或部分。
在下文中,图像质量增强装置600可以同样应用于编码装置和解码装置。然而,在根据本实施例的编码装置的情况下,图像质量增强装置600中包括的组件不一定限于此。例如,图像质量增强装置600可以另外包括用于训练检测模型的训练单元(未示出),或者可以以与外部训练单元联动的形式实现。
在视频编码过程中,参考图片可以编码为具有不同的图像质量。例如,如图7所示,当假定为随机访问(RA)结构时,利用小量化参数(Quantization Parameter,QP)压缩用作关键帧的内帧(I帧),以具有高质量和高峰值信噪比(Peak Signal to Noise Ratio,PSNR)。另一方面,可以利用相对较大的QP将参照I帧执行间预测的帧压缩成具有低PSNR。
除了I帧之外,执行间预测的帧之中具有较低时间层的帧也可以成为关键帧。例如,在图7的示例中,在帧3的情况下,帧4或帧2可以被用作关键帧。当选择参考帧时,解码装置可以选择在一组图片(Group of Picture,GOP)内具有最小量化参数的帧,或者可以选择具有比当前帧更低的时间层同时最接近当前帧的帧。解码装置可以选择一个或多个参考帧,可以在两个方向以及一个方向上选择参考帧。图7的示例描述对RA结构的应用,但如上所述选择参考帧的方案也适用于低延迟(LD)结构。
在根据本公开的实施例中,通过利用具有高图像质量的参考帧来增强当前帧的图像质量,该参考帧被用于间预测,包括I帧。在现有的基于参考帧的图像恢复模型的情况下,需要大量的学习数据和大量的相应模型参数,以便普遍地增强各种块的图像质量,例如包括平滑区域的块、包括复杂纹理的块和具有大量运动的块。尽管如此,要消除在统计学上均匀分布的量化噪声并不是一件容易的任务。
在本实施例中,为了增强当前帧的图像质量,解码装置从对应于关键帧的参考帧中检测参考区域。用于检测参考区域的基于深度学习的检测模型可以预先学习为从当前帧和关键帧检测参考区域。在这种情况下,检测到的参考区域可以包括与当前帧相同的区域,但是可以利用较小的量化参数进行编码,并且具有相对较小的量化噪声。
图像质量增强装置600获得指示是否使用检测模型的标志(在下文中,“检测模型使用标志”)。例如,编码装置可以获得预设的检测模型使用标志,并将检测模型使用标志发送到解码装置。因此,解码装置可以从比特流解码检测模型使用标志。
当检测模型使用标志为1时,图像质量增强装置600执行以下图像质量改善功能。另一方面,当检测模型使用标志为0时,编码装置或解码装置可以使用现有的环内滤波器180和560。
输入单元602获取当前帧和参考帧。输入单元602可以根据以下条件在参考图片列表中包括的参考帧候选之中选择参考帧。
当I帧被包括在参考图片列表中时,输入单元602可以选择I帧作为参考帧。
输入单元602可以在参考图片列表中包括的参考帧候选之中选择指示时间层的时间ID最低的帧作为参考帧。
输入单元602可以在参考图片列表中包括的参考帧候选之中选择具有最接近当前帧的图片顺序计数(POC)的帧,即在时间上最接近的帧作为参考帧。
输入单元602可以在参考图片列表中包括的参考帧候选之中选择指示时间层的时间标识符最低且POC最接近的帧作为参考帧。
输入单元602可以在参考图片列表中包括的参考帧候选之中选择以最小的QP编码的帧作为参考帧。
当有两个或更多的参考帧满足如上所述的条件时,输入单元602可以选择时间上在前的帧作为参考帧。
在根据本公开的另一实施例中,当有两个或更多的参考帧满足如上所述的条件时,输入单元602可以选择它们作为多个参考帧。
参考区域检测器604利用基于深度学习的检测模型从参考帧和当前帧检测参考帧上的参考区域,并生成用于指示参考区域的检测图(参考区域检测图;在下文中称为“检测图”)。
在下文中,利用图8的示例描述参考区域检测器604的操作。
图8是示出根据本公开的实施例的参考区域的示图。
参考帧包括平滑的背景和具有复杂纹理和大量运动的前景。在当前帧中,背景区域和前景区域可以例如根据摄像机的运动而从虚线边界变为实线边界。在图8的示例中,在参考区域检测图中指示为“参考区域”的区域是可以用于增强当前帧的图像质量的区域。
参考区域检测器604可以检测包括一个或多个区域的参考区域。在这种情况下,参考区域检测器604生成指示参考区域的二元图作为检测图。在二元图中,参考区域被标记为标志1,而不包括在参考区域中的剩余区域(在下文中称为“非参考区域”)被标记为标志0。此后,可以基于二元图来确定是否在参考帧中使用像素。
在根据本公开的另一实施例中,参考区域检测器604可以生成像素单元的检测图而不是二元图,其概率性地将参考区域和非参考区域指示为像素值“0至255(28-1)”。换言之,参考区域检测器604可以基生成像素单元的检测图,其以一个像素指示一个区域的方式指示对应于整个参考帧的区域。因此,在像素单元的检测图中,亮区的像素(数值接近255的像素)随机地代表更确定的参考区域,而暗区的像素(数值接近0的像素)随机地代表更确定的非参考区域。此后,像素单元的检测图可用于当前帧的像素和参考帧的信息之间的加权求和。图像质量增强装置600可以在接近参考区域时进一步使用参考帧的信息,并在接近非参考区域时进一步使用当前帧的信息。
上述描述表明,像素单元的检测图的像素值包括在“0至255”的范围内,但是像素值不一定限于此。换言之,当像素的比特深度被设置为N(其中N是自然数)个比特时,检测图的像素值可以具有“0到2N-1”的范围。
在根据本公开的另一实施例中,参考区域可以基于块单元而不是像素单元。换言之,参考区域可以具有与CTU相同的大小或与CU或子CU相同的大小。可选地,参考区域可以是一组块,并具有与片或子图片相同的大小。
因此,当参考区域基于块单元时,块单元的标志可以作为检测模型使用标志在编码装置和解码装置之间共享。检测模型可以生成二元图或像素单元的检测图作为块的检测图。
特别地,当参考区域是基于块单元并且检测图是二元图时,块单元的标志也可以作为块的二元图。换言之,当该块被检测模型检测为参考区域时,编码装置可以发送块单元的标志,以取代二元图。在这种情况下,解码装置可以解码块单元的标志,并将其用作该块的二元图,其中省略了使用检测模型的步骤。换言之,当解码的块单元的标志为1时,这指示该块是参考区域,并且指示该块的二元图的标志也是1。
另一方面,指示检测图的类型的信息,例如二元图或像素单元的检测图,应该在编码装置和解码装置之间共享。例如,编码装置可以获得预设的检测图类型,并将检测图类型发送到解码装置。因此,解码装置可以从比特流中解码检测图的类型。
在根据本公开的另一实施例中,如上所述,当有多个(例如M;M是等于或大于2的自然数)参考帧时,参考区域检测器604可以利用检测模型M次来检测每个参考帧的参考区域。换言之,参考区域检测器604可以向检测模型输入当前帧和一个参考帧,检测每个参考帧的参考区域,并生成M个相应的检测图。在这种情况下,所有M个检测图可以是二元图。可选地,所有M个检测图可以是像素单元的检测图。
图9是示出根据本公开的实施例的检测模型的示图。
如图9所示的卷积神经网络(CNN)模型可以被用作基于深度学习的检测模型。当前帧和参考帧可以被结合并输入到检测模型。检测模型可以具有组合n(n是自然数)个卷积层的结构。
用于检测参考区域的检测模型可以具有比用于改善图像质量或估计运动的模型更简单的配置。此外,检测模型可以通过利用卷积层的内核(kernel)和跨步(stride)的大小的变化以及池化(pooling)来表示各种分辨率。
当最后一层用诸如sigmoid函数的激活函数实现时,检测模型可以生成像素单元的检测图作为输出。可选地,例如,在由像素值“0至255”表示的像素单元的检测图的情况下,“0至127”的范围被分配给标志0,“128至255”的范围被分配给标志1,使得检测模型可以生成二元图。
另一方面,检测模型可以利用如图9所示的卷积层生成检测图,但也可以生成注意图(attention map)(见非专利文献2)。在根据本公开的另一实施例中,检测模型可以依次将下采样、上采样和softmax层应用于卷积层生成的特征图以生成注意图。
另一方面,训练单元可以基于学习数据和相应的标签对检测模型进行预训练,使得检测模型可以检测参考区域。此处,学习数据包括用于学习的当前帧和参考帧,标签可以是对应于经历了如上所述的选择过程的参考帧的二元图。
参考区域组合器606基于检测图将参考区域与当前帧组合,以改善图像质量。
当检测图是二元图时,参考区域组合器606可以增强当前帧的图像质量并生成增强帧pim(i,j),如等式1所示。
[等式1]
Figure BDA0004094626490000221
此处,p(i,j)是当前帧的(i,j)像素,pref(i,j)是参考帧的(i,j)像素。此外,map(i,j)是检测图并指示参考区域在位置(i,j)的二元标志。如等式(1)所示,当检测图的二元标志为1时,参考区域组合器606将当前帧的像素替换为参考区域的像素,并且当二元标志为0时,保持当前帧的像素值。
在根据本公开的另一实施例中,当如上所述参考区域是块单元并且检测图是二元图时,块单元的标志可以替换该块的二元图的功能。参考区域组合器606可以在该块的块单元的标志为1时将该块用作参考区域,并在块单元的标志为0时将当前块原样使用。此外,解码装置通过块单元的标志利用参考区域来组合当前块,其中省略了利用检测模型来生成检测图的步骤,从而降低解码装置的复杂性。
在根据本公开的另一实施例中,当如上所述对于多个(例如,M;M是大于或等于2的自然数)参考帧中的每一个检测到参考区域时,参考区域组合器606可以利用每个参考区域特定的检测图mapm(i,j)(其中,1≤m≤M)生成增强帧pim(i,j),如等式2中所示。
【等式2】
Figure BDA0004094626490000222
此处,MM(1≤MM≤M)是满足“mapm(i,j)=1”的参考帧的数量,pref,m(i,j)是第m个参考帧的(i,j)像素。此外,am是权重,MM权重之和为1。当M个检测图的MM二元标志为1时(即,当至少有一个参考区域的标志为1时),参考区域组合器606可以对MM参考区域的像素值执行加权求和以替换当前帧的像素,如等式2所示。另一方面,当M个检测图的所有二元标志为0时,参考区域组合器606保持当前帧的像素值。
另一方面,如上所述,可以根据在参考图片列表中包括的参考帧候选之中选择参考帧的方法顺序地选择M个参考帧。例如,当“M=4”时,I帧被选择为第一参考帧。作为第二参考帧,在剩余的候选之中选择具有最低时间标识符的帧。作为第三参考帧,在剩余的候选之中选择POC与当前帧最接近的帧。作为第四参考帧,可以在剩余的候选之中选择用较小的QP编码的帧,然后可以从这些帧中选择在前的帧。
在根据本公开的另一实施例中,当map(i,j)是由“0至255”的像素值表示的像素单元的检测图时,参考区域组合器606可以将“0至127”的范围用作标志0,并将“128至255”的范围用作标志1。
可选地,参考区域组合器606可以原原本本地利用检测图上的“0到255”的像素值执行加权求和,以生成增强的帧pim(i,j),如等式3所示。
【等式3】
Figure BDA0004094626490000231
当为M个参考帧中的每一个检测到参考区域时,参考区域组合器606可以利用每个参考区域特定的检测图mapm(i,j)(其中1≤m≤M)来生成增强帧pim(i,j),如等式4所示。
【等式4】
Figure BDA0004094626490000232
此处,mapm(i,j)是由像素值“0到255”表示的像素单元的检测图。
在根据本公开的另一实施例中,图像质量增强装置600可以与编码装置或解码装置中的现有环内滤波器相结合。例如,图像质量增强装置600可以将单独的函数f和g分别应用于p(i,j)和pref(i,j),然后利用像素单元的检测图上的“0至255”的像素值执行加权求和,以生成增强的帧pim(i,j),如等式5所示。
【等式5】
Figure BDA0004094626490000241
在等式5中,图像质量增强装置600可以同时应用函数f和g,或者应用f或g。此外,f和g可以是同一个函数。
函数f和g可以是现有环内滤波器的至少一个组件的组合。此外,函数f和g可以是基于CNN模型的环内滤波器(见非专利文献1),如图10所示。
在根据本公开的另一实施例中,图像质量增强装置600可以利用检测图上的二元标志生成增强帧pim(i,j),如等式6所示。
【等式6】
Figure BDA0004094626490000242
当二元标志为1时,图像质量增强装置600通过利用参考区域来增强图像质量,并且当二元标志为0时,图像质量增强装置600通过将函数f应用于当前帧的像素来增强图像质量。
在根据本公开的另一实施例中,图像质量增强装置600可以接收分别应用了单独的函数f和g的当前帧和参考帧作为输入,检测参考区域,并生成检测图,如图11所示。图像质量增强装置600可以根据生成的检测图的特征生成等式5或等式6中所示的增强帧pim(i,j)。
图像质量增强装置600可以被设置在现有环内滤波器的后端,如等式5或等式6所示。此外,由图像质量增强装置600产生的增强帧可以作为输入提供给现有环内滤波器。换言之,根据本实施例的图像质量增强装置600在增强当前帧的图像质量方面与环内滤波器的功能相似。因此,图像质量增强装置600可以与现有环内滤波器的组件一起被布置为环内滤波器的一个组件,如图12所示。可以最终选择在图12中示出的布置之中具有最高编码效率的布置。
根据本公开的图像质量增强装置600可以具有固定参数。换言之,编码装置和解码装置可以使用具有相同内核,即固定参数的参考区域检测器604和参考区域组合器606。因此,在编码装置或外部训练单元训练一次基于深度学习的检测模型之后,检测模型的参数可以在编码装置和解码装置之间共享。
在根据本公开的另一实施例中,图像质量增强装置600可以具有可变参数。编码装置将具有作为用于检测参考区域的、全部参数中的部分参数作为可变参数的检测模型的内核发送到解码装置。解码装置利用先前恢复的参考帧和检测模型生成检测图,然后通过利用检测图增强当前帧的图像质量。
在这种情况下,编码装置可以为每个GOP发送一次参数,但是可以根据关键帧选择方案为每个GOP发送两次或更多次参数。例如,在图7的示例中,当具有POC 1至3的帧使用帧0和4作为关键帧并且具有POC 5至7的帧使用帧4和8作为关键帧时,编码装置可以发送待应用于帧1至3的参数和待应用于帧5至7的参数。另一方面,训练单元可以根据这样的参数发送场景,通过更新检测模型的全部参数中的部分参数来生成可变参数。
在下文中,利用图13的流程图描述由图像质量增强装置600执行以增强当前帧的图像质量的图像质量增强方法。当如上所述检测模型使用标志为1时,图像质量增强方法可以由解码装置和编码装置同样地执行。编码装置也可以执行用于增强图像质量的检测模型的训练。
此外,指示检测图的类型的信息应该在编码装置和解码装置之间共享。例如,编码装置可以获得预设的检测图的类型并将检测图的类型发送到解码装置。因此,解码装置可以从比特流中解码检测图的类型。
图13是根据本公开的实施例的图像质量增强方法的流程图。
图像质量增强装置600获得当前帧和参考帧(S1300)。
图像质量增强装置600可以根据以下条件在参考图片列表中包括的参考帧候选之中选择至少一个参考帧。
当I帧被包括在参考图片列表中时,图像质量增强装置600选择I帧作为参考帧。
图像质量增强装置600可以在参考图片列表中包括的参考帧候选之中选择指示时间层的时间ID最低的帧作为参考帧。图像质量增强装置600还可以选择POC最接近当前帧的帧作为参考帧。图像质量增强装置600还可以选择时间标识符最低且POC最接近当前帧的帧作为参考帧。图像质量增强装置600还可以选择以最小的量化参数编码的帧作为参考帧。
当有两个或更多的参考帧满足如上所述的条件时,图像质量增强装置600可以选择时间上在前的帧作为参考帧。
在根据本公开的另一实施例中,当有两个或更多的参考帧满足如上所述的条件时,图像质量增强装置600可以选择它们作为多个参考帧。
图像质量增强装置600利用基于深度学习的检测模型从参考帧和当前帧检测参考帧上的参考区域,并生成检测图(S1302)。
图像质量增强装置600可以检测包括一个或多个区域的参考区域。在这种情况下,图像质量增强装置600生成二元图作为检测图。在二元图中,参考区域被标记为标志1,非参考区域被标记为标志0。
在根据本公开内容的另一实施例中,图像质量增强装置600可以生成像素单元的检测图而不是二元图,其用预设范围内的像素值概率地指示参考区域和非参考区域。换言之,参考区域检测器604可以生成像素单元的检测图,其以一个像素指示一个区域的方式指示对应于整个参考帧的区域。
在根据本公开的另一实施例中,参考区域可以是块单元而不是像素单元。换言之,参考区域可以具有与CTU相同的大小,或者与CU或子CU相同的大小。可选地,参考区域可以是一组块并具有与片或子图片相同的大小。
可以利用CNN模型作为基于深度学习的检测模型。当前帧和参考帧可以被结合并输入到检测模型。检测模型可以具有n(n是一个自然数)个卷积层被组合的结构。如上所述,检测模型可以生成二元图或像素单元的检测图作为输出。
另一方面,训练单元可以基于学习数据和相应的标签对检测模型进行预训练,使得检测模型能够检测参考区域。此处,学习数据可以包括用于学习的当前帧和参考帧,标签可以是对应于经历了如上所述的选择过程的参考帧的二元图。
在根据本公开的另一实施例中,当有M个(M是等于或大于2的自然数)参考帧时,图像质量增强装置600可以利用检测模型M次检测M个参考帧中的每个参考区域,并生成M个相应的检测图。在这种情况下,所有的M个检测图可以是二元图。可选地,所有的M个检测图可以是像素单元的检测图。
图像质量增强装置600基于检测图将参考区域与当前帧结合以生成增强帧(S1304)。
当基于二元图生成增强帧时,图像质量增强装置600在检测图的二元标志为1时用参考区域的像素替换当前帧的像素,并且在二元标志不为1时保持当前帧的像素值。
作为根据本公开的另一实施例,当基于二元图生成增强帧时,图像质量增强装置600在检测图的二元标志为1时用参考区域的像素替换当前帧的像素,并且在二元标志不为1时将单独函数应用于当前帧以生成像素值。此处,单独函数可以是环内滤波器的至少一个组件的结合,或者可以是基于CNN模型的环内滤波器。
另一方面,当利用像素单元的检测图时,图像质量增强装置600可以利用检测图上的像素值对当前帧和参考帧以像素单元执行加权求和,以生成增强帧。
在根据本公开的另一实施例中,当利用像素单元的检测图时,图像质量增强装置600可以利用检测图上的像素值对分别应用了单独函数的当前帧和参考帧以像素单元执行加权求和,以生成增强帧。
在根据本公开的另一实施例中,当在M个检测图是二元图的情况下生成增强帧时,图像质量增强装置600对具有二元标志为1的参考区域的像素值执行加权求和以替换当前帧的像素,并且当M个检测图的所有二元标志为0时保持当前帧的像素值。
如上所述,根据本实施例,通过提供利用基于深度学习的检测模型从当前帧和参考帧检测参考区域后将检测到的参考区域与当前帧组合的图像质量增强装置,可以增强当前帧的图像质量并提高编码效率。
在根据本实施例的每个流程图中,描述了各个过程是依次执行的,但是本公开不限于此。换言之,由于流程图中描述的过程可以被改变或者一个或多个过程被并行执行是适用的,所以流程图不限于时间序列的顺序。
另一方面,本公开中描述的各种功能或方法也可以通过存储在非暂时性记录介质中的指令来实现,该指令可以由一个或多个处理器读取和执行。非暂时性记录介质包括例如以计算机系统可读的形式存储数据的所有类型的记录装置。例如,非暂时性记录介质包括诸如可擦除可编程只读存储器(EPROM)、闪存驱动器、光学驱动器、磁性硬盘驱动器和固态驱动器(SSD)等存储介质。
尽管为说明目的描述了本公开的实施例,但本领域普通技术人员应该理解的是,在不脱离本公开的本质特性的范围的情况下,各种修改、添加和替换是可能的。因此,本实施例并非用于限定本实施例的技术思想而是为了说明而提出的,本公开的技术思想的范围不受说明的限制。因此,本公开的保护范围应解释为由权利要求书来解释,并应解释为与其等同范围内的所有技术思想包括在本实施例的权利范围内。
(附图标记)
180:环内滤波器
600:图像质量增强装置
602:输入单元
604:参考区域检测器
606:参考区域组合器
560:环内滤波器
相关申请的交叉引用
本申请要求2021年8月24日提交的申请号为10-2020-0106103的韩国专利申请和2021年8月24日提交的申请号为10-2021-0111724的韩国专利申请的优先权,每件韩国专利申请的全部公开内容作为参考文献并入本专利申请中。

Claims (16)

1.一种由视频解码装置执行以增强当前帧的质量的方法,其特征在于,包括以下步骤:
获得所述当前帧和至少一个参考帧;
利用基于深度学习的检测模型从所述参考帧和所述当前帧检测所述参考帧上的参考区域,并生成检测图;以及
基于所述检测图将所述参考区域与所述当前帧组合以生成增强帧。
2.根据权利要求1所述的方法,其特征在于,获得所述参考帧的步骤包括:当内帧即I帧被包括在参考图片列表中时,选择所述内帧作为所述参考帧。
3.根据权利要求2所述的方法,其特征在于,获得所述参考帧的步骤包括:在所述参考图片列表中包括的参考帧候选之中选择时间层最低的帧作为所述参考帧,或者选择图片顺序计数即POC最接近所述当前帧的帧作为所述参考帧,或者选择以最小的量化参数编码的帧作为所述参考帧。
4.根据权利要求1所述的方法,其特征在于,生成所述检测图的步骤包括:生成二元图,在所述二元图中,所述参考区域被标记为标志1并且不包括在所述参考区域中的剩余区域被标记为标志0。
5.根据权利要求4所述的方法,其特征在于,生成所述增强帧的步骤包括:当所述检测图的二元标志为1时用所述参考区域的像素替换所述当前帧的像素,并且当所述二元标志不为1时保持所述当前帧的像素值。
6.根据权利要求4所述的方法,其特征在于,生成所述增强帧的步骤包括:当所述检测图的二元标志为1时用所述参考区域的像素替换所述当前帧的像素,并且当所述二元标志不为1时将预设函数应用于所述当前帧以生成像素值。
7.根据权利要求1所述的方法,其特征在于,生成所述检测图的步骤包括:用预设范围内的像素值表示所述参考区域和不包括在所述参考区域中的剩余区域的像素,以生成像素单元的检测图。
8.根据权利要求7所述的方法,其特征在于,生成所述增强帧的步骤包括:利用所述像素单元的检测图上的像素值对所述当前帧和所述参考帧以像素单元执行加权求和,以生成所述增强帧。
9.根据权利要求7所述的方法,其特征在于,生成所述增强帧的步骤包括:利用所述像素单元的检测图的像素值对分别应用了预设函数的所述当前帧和所述参考帧以像素单元执行加权求和,以生成所述增强帧。
10.根据权利要求1所述的方法,其特征在于,生成所述检测图的步骤包括:当有M个(M是等于或大于2的自然数)参考帧时,利用所述检测模型M次检测M个所述参考帧中的每一个的参考区域,并生成M个相应的检测图。
11.根据权利要求10所述的方法,其特征在于,生成所述增强帧的步骤包括:当M个检测图为二元图时,对具有二元标志为1的参考区域的像素值执行加权求和以代替所述当前帧的像素,并且当所述M个检测图的所有二元标志为0时,保持所述当前帧的像素值。
12.根据权利要求1所述的方法,其特征在于,所述检测模型被实现为卷积神经网络模型即CNN模型,所述检测模型接收所述当前帧和所述参考帧的结合作为输入并生成所述检测图。
13.一种图像质量增强装置,其特征在于,包括:
输入单元,获得当前帧和至少一个参考帧;
参考区域检测器,利用基于深度学习的检测模型从所述参考帧和所述当前帧检测所述参考帧上的参考区域,并生成检测图;以及
参考区域组合器,基于所述检测图将所述参考区域与所述当前帧组合以增强所述当前帧的所述图像质量。
14.根据权利要求13所述的图像质量增强装置,其特征在于,所述参考区域检测器生成二元图,在所述二元图中,所述参考区域被标记为标志1并且不包括在所述参考区域中的剩余区域被标记为标志0。。
15.根据权利要求14所述的图像质量增强装置,其特征在于,所述参考区域组合器在所述检测图的二元标志为1时用所述参考区域的像素替换所述当前帧的像素,并且在所述二元标志不为1时保持所述当前帧的像素值。
16.根据权利要求14所述的图像质量增强装置,其特征在于,所述参考区域组合器在所述检测图的二元标志为1时用所述参考区域的像素替换所述当前帧的像素,并且所述参考区域组合器在所述二元标志不为1时将预设函数应用于所述当前帧以生成像素值。
CN202180052718.3A 2020-08-24 2021-08-24 利用基于深度学习的环内滤波器进行视频编码和解码 Pending CN116113985A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR10-2020-0106103 2020-08-24
KR20200106103 2020-08-24
KR10-2021-0111724 2021-08-24
PCT/KR2021/011302 WO2022045738A1 (ko) 2020-08-24 2021-08-24 딥러닝 기반 인루프 필터를 이용하는 영상 부호화 및 복호화
KR1020210111724A KR20220025689A (ko) 2020-08-24 2021-08-24 딥러닝 기반 인루프 필터를 이용하는 영상 부호화 및 복호화

Publications (1)

Publication Number Publication Date
CN116113985A true CN116113985A (zh) 2023-05-12

Family

ID=80353652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180052718.3A Pending CN116113985A (zh) 2020-08-24 2021-08-24 利用基于深度学习的环内滤波器进行视频编码和解码

Country Status (3)

Country Link
US (1) US20230269399A1 (zh)
CN (1) CN116113985A (zh)
WO (1) WO2022045738A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693759B (zh) * 2022-03-31 2023-08-04 电子科技大学 一种基于编解码网络的轻量级快速图像深度估计方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2909566C (en) * 2013-04-17 2018-07-03 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
KR102648464B1 (ko) * 2018-06-25 2024-03-15 에스케이텔레콤 주식회사 지도 학습을 이용한 영상 개선 방법 및 장치
CN111819856A (zh) * 2018-03-07 2020-10-23 华为技术有限公司 用于视频编码的环路滤波装置及方法
KR20190116067A (ko) * 2018-04-03 2019-10-14 한국전자통신연구원 딥 러닝에 기반하여 생성된 참조 프레임을 이용하는 인터 예측을 위한 방법 및 장치

Also Published As

Publication number Publication date
WO2022045738A1 (ko) 2022-03-03
US20230269399A1 (en) 2023-08-24

Similar Documents

Publication Publication Date Title
KR20210018137A (ko) 동영상 데이터의 인트라 예측 코딩을 위한 방법 및 장치
US20240015308A1 (en) Apparatus and method for video encoding and decoding
CN113812147B (zh) 使用块内复制的图像编码和解码
US20210368191A1 (en) Method and device for encoding and decoding image
US20230239462A1 (en) Inter prediction method based on variable coefficient deep learning
CN115104307A (zh) 基于重采样色度信号的视频编码和解码
CN113892268A (zh) 基于预测模式估计的帧内预测装置和方法
US20230269399A1 (en) Video encoding and decoding using deep learning based in-loop filter
KR20220071939A (ko) 비디오 부호화 및 복호화를 위한 장치 및 방법
US20230283768A1 (en) Method for predicting quantization parameter used in a video encoding/decoding apparatus
US20230291926A1 (en) Video encoding and decoding using deep learning based inter prediction
US20230308662A1 (en) Method and apparatus for video coding using block merging
US20230412811A1 (en) Method and apparatus for video coding using spiral scan order
US20240031558A1 (en) Method and apparatus for video coding using block vector with adaptive spatial resolution
US20240031564A1 (en) Method and apparatus for video coding using adaptive intra prediction precision
EP4258667A1 (en) Video codec using block-based deep learning model
US20240007620A1 (en) Image encoding and decoding method using adaptive alternative mode
US20230421752A1 (en) Method and apparatus for video coding using matrix based cross-component prediction
US20230300347A1 (en) Video codec using deep learning model based on block
US20240007656A1 (en) Method and apparatus for video coding using segmentation
US20240129491A1 (en) Video encoding/decoding method and apparatus
US20230308671A1 (en) Method and device for encoding and decoding image involving gradual refresh technique
US20240137490A1 (en) Video encoding/decoding method and apparatus
US20220353516A1 (en) Method for adaptively setting resolution, and image decoding apparatus
US20230055497A1 (en) Image encoding and decoding based on reference picture having different resolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination