CN111107357A - 一种图像处理的方法、装置及系统 - Google Patents

一种图像处理的方法、装置及系统 Download PDF

Info

Publication number
CN111107357A
CN111107357A CN201811253559.XA CN201811253559A CN111107357A CN 111107357 A CN111107357 A CN 111107357A CN 201811253559 A CN201811253559 A CN 201811253559A CN 111107357 A CN111107357 A CN 111107357A
Authority
CN
China
Prior art keywords
video data
frequency domain
information component
distortion
side information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811253559.XA
Other languages
English (en)
Other versions
CN111107357B (zh
Inventor
王莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201811253559.XA priority Critical patent/CN111107357B/zh
Priority to PCT/CN2019/113356 priority patent/WO2020083385A1/zh
Publication of CN111107357A publication Critical patent/CN111107357A/zh
Application granted granted Critical
Publication of CN111107357B publication Critical patent/CN111107357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/567Motion estimation based on rate distortion criteria

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请是关于一种图像处理的方法、装置及系统,属于视频编解码领域。所述方法包括:获取已处理视频数据对应的频域信息分量和边信息分量,所述已处理视频数据相对于输入编码系统的原始视频数据存在失真,所述边信息分量表示所述已处理视频数据相对所述原始视频数据的失真特征;将所述频域信息分量和所述边信息分量输入卷积神经网络模型进行滤波处理得到去失真频域信息分量,所述去失真频域信息分量是以所述边信息分量为引导对所述频域信息分量进行滤波之后得到的;根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像。本申请能够去除图像的失真。

Description

一种图像处理的方法、装置及系统
技术领域
本申请涉及视频编解码领域,特别涉及一种图像处理的方法、装置及系统。
背景技术
在视频编码系统中,在对原始视频图像进行编码时,原始视频图像会被进行多次处理得到重构图像。在视频编码的过程中,该重构图像又可以作为参考图像,被用于对原始视频图像进行编码。
原始视频图像会被进行多次处理后得到的重构图像相对原始视频图像可能已经发生像素偏移,即重构图像存在失真,影响重构图像的主客观质量。
发明内容
为了去除图像的失真,本申请实施例提供了一种图像处理的方法、视频解码方法、装置及系统。所述技术方案如下:
第一方面,本申请提供了一种图像处理的方法,所述方法包括:
获取已处理视频数据对应的频域信息分量和边信息分量,所述已处理视频数据相对于输入编码系统的原始视频数据存在失真,所述边信息分量表示所述已处理视频数据相对所述原始视频数据的失真特征;
将所述频域信息分量和所述边信息分量输入卷积神经网络模型进行滤波处理得到去失真频域信息分量,所述去失真频域信息分量是以所述边信息分量为引导对所述频域信息分量进行滤波之后得到的;
根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像。
可选的,所述获取所述已处理视频数据对应的频域信息分量,包括:
从所述编码系统中获取所述已处理视频数据,所述已处理视频数据是所述原始视频数据的初始残差数据经变换和量化之后产生的待编码视频数据;
对所述已处理视频数据进行反量化处理,生成所述已处理视频数据经过反量化之后产生的第一残差系数;
根据所述第一残差系数,生成所述频域信息分量;
所述获取所述已处理视频数据对应的边信息分量,包括:
获取所述原始视频数据在编码中产生的初始残差数据经变换处理之后进行量化处理时采用的量化参数,所述量化参数用于表征量化步长;
从所述编码系统中获取所述已处理视频数据对应的帧间模式信息;
根据所述量化参数和所述帧间模式信息,生成所述边信息分量。
可选的,所述根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像,包括:
对所述去失真频域分量进行反变换,根据反变换之后的频域信息生成所述已处理视频数据对应的去失真重建视频数据;
将所述去失真重建视频数据确定为所述去失真图像。
可选的,所述根据所述量化参数和所述帧间模式信息,生成所述边信息分量,包括:
根据所述量化参数,生成边信息引导图,所述边信息引导图是根据所述量化参数生成的与所述原始视频数据等高等宽的引导图;
根据所述帧间模式信息,对所述边信息引导图进行更新,生成与所述帧间模式信息匹配的边信息引导图;
将与所述帧间模式信息匹配的边信息引导图确定为所述边信息分量。
可选的,所述已处理视频数据为所述原始视频数据对应的失真重建视频数据;
所述获取所述已处理视频数据对应的频域信息分量,包括:
对所述已处理视频数据进行变换处理,根据变换处理之后得到的视频数据频域信息生成所述频域信息分量;
所述获取所述已处理视频数据对应的边信息分量,包括:
获取所述原始视频数据在编码中产生的初始残差数据经变换处理之后进行量化处理时采用的量化参数,所述量化参数用于表征量化步长;
根据所述量化参数,生成所述边信息分量。
可选的,所述根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像,包括:
对所述去失真频域分量进行反变换,将反变换之后的视频数据确定所述去失真图像。
第二方面,本申请提供了一种图像处理的方法,所述方法包括:
获取已处理视频数据对应的频域信息分量和边信息分量,所述已处理视频数据相对于输入解码系统的视频比特流对应的编码前的原始视频数据存在失真,所述边信息分量表示所述已处理视频数据相对所述原始视频数据的失真特征;
将所述频域信息分量和所述边信息分量输入卷积神经网络模型进行卷积滤波处理得到去失真频域信息分量,所述去失真频域信息分量是以所述边信息分量为引导对所述频域信息分量进行滤波之后得到的;
根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像。
可选的,所述获取已处理视频数据对应的频域信息分量和边信息分量,包括:
从所述解码系统中获取所述已处理视频数据,所述已处理视频数据是所述解码系统对视频比特流进行熵解码输出的量化残差信息;
对所述已处理视频数据进行反量化处理,生成所述已处理视频数据经过反量化之后产生的第二残差系数;
根据所述第二残差系数,生成所述频域信息分量;
所述获取所述已处理视频数据对应的边信息分量,包括:
获取所述解码系统对视频比特流进行熵解码输出的量化残差信息量化参数和帧间模式信息,所述量化参数用于表征量化步长;
根据所述量化参数和所述帧间模式信息,生成所述边信息分量。
可选的,所述根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像,包括:
对所述去失真频域分量进行反变换,根据反变换之后的频域信息生成所述已处理视频数据对应的去失真重建视频数据;
将所述去失真重建视频数据确定为所述去失真图像。
可选的,所述根据所述量化参数和所述帧间模式信息,生成所述边信息分量,包括:
根据所述量化参数,生成边信息引导图,所述边信息引导图是根据所述量化参数生成的与所述原始视频数据等高等宽的引导图;
根据所述帧间模式信息,对所述边信息引导图进行更新,生成与所述帧间模式信息匹配的边信息引导图;
将与所述帧间模式信息匹配的边信息引导图确定为所述边信息分量。
可选的,所述已处理视频数据为所述原始视频数据对应的失真重建视频数据;
所述获取所述已处理视频数据对应的频域信息分量,包括:
对所述已处理视频数据进行变换处理,根据变换处理之后得到的视频数据频域信息生成所述频域信息分量;
所述获取所述已处理视频数据对应的边信息分量,包括:
获取所述解码系统对视频比特流进行熵解码输出的量化残差信息量化参数,所述量化参数用于表征量化步长;
根据所述量化参数,生成所述边信息分量。
可选的,所述根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像,包括:
对所述去失真频域分量进行反变换,将反变换之后的视频数据确定所述去失真图像。
第三方面,本申请提供了一种图像处理的装置,所述装置包括:
获取模块,用于获取已处理视频数据对应的频域信息分量和边信息分量,所述已处理视频数据相对于输入编码系统的原始视频数据存在失真,所述边信息分量表示所述已处理视频数据相对所述原始视频数据的失真特征;
滤波模块,用于将所述频域信息分量和所述边信息分量输入卷积神经网络模型进行滤波处理得到去失真频域信息分量,所述去失真频域信息分量是以所述边信息分量为引导对所述频域信息分量进行滤波之后得到的;
生成模块,用于根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像。
可选的,所述获取模块,用于:
从所述编码系统中获取所述已处理视频数据,所述已处理视频数据是所述原始视频数据的初始残差数据经变换和量化之后产生的待编码视频数据;
对所述已处理视频数据进行反量化处理,生成所述已处理视频数据经过反量化之后产生的第一残差系数;
根据所述第一残差系数,生成所述频域信息分量;
获取所述原始视频数据在编码中产生的初始残差数据经变换处理之后进行量化处理时采用的量化参数,所述量化参数用于表征量化步长;
从所述编码系统中获取所述已处理视频数据对应的帧间模式信息;
根据所述量化参数和所述帧间模式信息,生成所述边信息分量。
可选的,所述生成模块,用于:
对所述去失真频域分量进行反变换,根据反变换之后的频域信息生成所述已处理视频数据对应的去失真重建视频数据;
将所述去失真重建视频数据确定为所述去失真图像。
可选的,所述获取模块,用于:
根据所述量化参数,生成边信息引导图,所述边信息引导图是根据所述量化参数生成的与所述原始视频数据等高等宽的引导图;
根据所述帧间模式信息,对所述边信息引导图进行更新,生成与所述帧间模式信息匹配的边信息引导图;
将与所述帧间模式信息匹配的边信息引导图确定为所述边信息分量。
可选的,所述已处理视频数据为所述原始视频数据对应的失真重建视频数据;
所述获取模块,用于:
对所述已处理视频数据进行变换处理,根据变换处理之后得到的视频数据频域信息生成所述频域信息分量;
获取所述原始视频数据在编码中产生的初始残差数据经变换处理之后进行量化处理时采用的量化参数,所述量化参数用于表征量化步长;
根据所述量化参数,生成所述边信息分量。
可选的,所述生成模块,用下:
对所述去失真频域分量进行反变换,将反变换之后的视频数据确定所述去失真图像。
第四方面,本申请提供了一种图像处理的装置,所述装置包括:
获取模块,用于获取已处理视频数据对应的频域信息分量和边信息分量,所述已处理视频数据相对于输入解码系统的视频比特流对应的编码前的原始视频数据存在失真,所述边信息分量表示所述已处理视频数据相对所述原始视频数据的失真特征;
滤波模块,用于将所述频域信息分量和所述边信息分量输入卷积神经网络模型进行卷积滤波处理得到去失真频域信息分量,所述去失真频域信息分量是以所述边信息分量为引导对所述频域信息分量进行滤波之后得到的;
生成模块,用于根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像。
可选的,所述获取模块,用于:
从所述解码系统中获取所述已处理视频数据,所述已处理视频数据是所述解码系统对视频比特流进行熵解码输出的量化残差信息;
对所述已处理视频数据进行反量化处理,生成所述已处理视频数据经过反量化之后产生的第二残差系数;
根据所述第二残差系数,生成所述频域信息分量;
获取所述解码系统对视频比特流进行熵解码输出的量化残差信息量化参数和帧间模式信息,所述量化参数用于表征量化步长;
根据所述量化参数和所述帧间模式信息,生成所述边信息分量。
可选的,所述生成模块,用于:
对所述去失真频域分量进行反变换,根据反变换之后的频域信息生成所述已处理视频数据对应的去失真重建视频数据;
将所述去失真重建视频数据确定为所述去失真图像。
可选的,所述获取模块,用于:
根据所述量化参数,生成边信息引导图,所述边信息引导图是根据所述量化参数生成的与所述原始视频数据等高等宽的引导图;
根据所述帧间模式信息,对所述边信息引导图进行更新,生成与所述帧间模式信息匹配的边信息引导图;
将与所述帧间模式信息匹配的边信息引导图确定为所述边信息分量。
可选的,所述已处理视频数据为所述原始视频数据对应的失真重建视频数据;
所述获取模块,用于:
对所述已处理视频数据进行变换处理,根据变换处理之后得到的视频数据频域信息生成所述频域信息分量;
获取所述解码系统对视频比特流进行熵解码输出的量化残差信息量化参数,所述量化参数用于表征量化步长;
根据所述量化参数,生成所述边信息分量。
可选的,所述生成模块,用于:
对所述去失真频域分量进行反变换,将反变换之后的视频数据确定所述去失真图像。
第五方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现所述第一方面或第一方面任可选的方式提供的方法步骤或实现所述第二方面或第二方面任可选的方式提供的方法步骤。
第九方面,本申请实施例提供了一种图像处理的系统,所述系统包括所述第三方面提供的视频编码装置和如所述第四方面提供的视频解码装置。
本申请实施例提供的技术方案可以包括以下有益效果:
通过已处理视频数据对应的频域信息分量和边信息分量,通过卷积神经网络模型对该频域信息分量和边信息分量进行滤波处理,得到去失真频域信息分量,由于去失真频域信息分量去除了在频域上发生的失真,所以根据去失真频域信息分量生成的图像去除了失真,提高了图像的主观质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请实施例提供的一种图像处理的方法流程图;
图2-1是本申请实施例提供的另一种图像处理的方法流程图;
图2-2是本申请实施例提供的一种视频编码系统的结构框图;
图2-3是本申请实施例提供的另一种视频编码系统的结构框图;
图2-4是本申请实施例提供的边信息分量的示意图之一;
图2-5是本申请实施例提供的边信息分量的示意图之二;
图2-6是本申请实施例提供的技术方案的系统架构图;
图2-7是本申请实施例提供的技术方案的数据流示意图;
图2-8是本申请实施例获得去失真频域信息分量的示意图;
图2-9是本申请实施例提供的去失真方法的流程图;
图2-10是本申请实施例提供的去失真方法的数据流图;
图3是本申请实施例提供的一种图像处理的方法流程图;
图4-1是本申请实施例提供的另一种图像处理的方法流程图;
图4-2是本申请实施例提供的一种视频解码系统的结构框图;
图4-3是本申请实施例提供的另一种视频解码系统的结构框图;
图4-4是本申请实施例提供的另一种视频解码系统的结构框图;
图5是本申请实施例提供的一种图像处理的装置结构示意图;
图6是本申请实施例提供的一种图像处理的装置结构示意图;
图7是本申请实施例提供的一种图像处理的系统结构示意图;
图8是本申请实施例提供的一种装置结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
参见图1,本申请实施例提供了一种图像处理的方法,所述方法包括:
步骤101:获取已处理视频数据对应的频域信息分量和边信息分量,已处理视频数据相对于输入编码系统的原始视频数据存在失真,该边信息分量表示已处理视频数据相对原始视频数据的失真特征。
步骤102:将该频域信息分量和该边信息分量输入卷积神经网络模型进行滤波处理得到去失真频域信息分量,该去失真频域信息分量是以该边信息分量为引导对该频域信息分量进行滤波之后得到的。
步骤103:根据该去失真频域信息分量,生成已处理视频数据对应的去失真图像。
在本申请实施例中,在视频编码过程中,获取已处理视频数据对应的频域信息分量和边信息分量,通过卷积神经网络模型对视频编码系统产生的频域信息分量和边信息分量进行滤波处理,得到去失真频域信息分量,由于滤波后的去失真频域信息分量去除了在频域上发生的失真,所以使用去失真频域信息分量生成的图像去除了失真,提高生成的图像的主观质量,还可以使用生成的去失真图像作为参考图像并对当前原始视频数据之后的原始视频数据进行编码,提高了后续编码视频数据的准确性,提高了在视频编码过程中去失真性能。
对于图1所示的图像处理的方法,参见图2-1,该方法的详细实现过程,可以包括:
步骤201:获取已处理视频数据对应的频域信息分量和边信息分量。
可选的,可以使用视频编码系统进行视频编码,从视频编码系统中获取已处理视频数据对应的频域信息分量和边信息分量。视频编码系统有多种,在本步骤中列举了如下两种视频编码系统。
第一种视频编码系统,参见图2-2所示的第一种视频编码系统的结构示意图,第一种视频编码系统包括预测模块、加法器、第一变换单元、量化单元、熵编码器、反量化单元、第一反变换单元、重建单元、第二变换单元、CNN(卷积神经网络模型)、第二反变换单元和缓存器等部分组成。
该视频编码系统编码的过程为:将当前原始视频数据输入到预测模块和加法器中,预测模块根据缓存器中的参考图像对输入的当前原始视频数据进行预测得到模式信息,并将该模式信息输入到加法器、熵编码器和重建单元。其中,预测模块包括帧内预测单元、运动估计与运动补偿单元和开关。帧内预测单元可以对当前原始视频数据进行帧内预测得到帧内模式信息,将该帧内模式信息输入到熵编码器,运动估计与运动补偿单元根据缓存器中缓存的参考图像对当前原始视频数据进行帧间预测得到帧间模式信息,将该帧间模式信息输入到熵编码器,开关选择将帧内模式信息或将帧间模式信息输出给加法器和重建单元。
加法器根据该模式信息和当前原始视频数据产生初始残差数据,第一变换单元对初始残差数据进行变换处理,将变换处理的结果输出给量化单元;量化单元根据量化参数对变换处理的结果进行量化得到量化残差信息,将该量化残差信息输出给熵编码器和反量化单元;熵编码器根对该量化残差信息和模式信息等信息(模式信息包括帧内模式信息和帧间模式信息)进行编码形成视频比特流,该视频比较流中可以包括原始视频数据中的每个编码单元的编码信息。
同时,反量化单元对该量化残差信息进行反量化处理得到第一残差系数,将第一残差系数输入到第一反变换单元,第一反变换单元对第一残差系数进行反变换处理得到第二残差信息,将第二残差信息输入到重建单元中;重建单元根据第二残差信息和该模式信息(帧内模式信息和帧间模式信息)生成失真重建视频数据,将失真重建视频数据作为已处理视频数据输入到第二变换单元,第二变换单元对已处理视频数据进行变换得到已处理视频数据对应的视频数据频域信息。相应的,在本步骤中,可以获取该视频数据频域信息,根据该视频数据频域信息生成已处理视频数据对应的频域信息分量,以及获取量化单元采用的量化参数,该量化参数用于表征量化步长,根据该量化参数生成已处理视频数据对应的边信息分量。
第二种视频编码系统,参见图2-3所示的第二种视频编码系统的结构示意图,第二种视频编码系统与第一种视频编码系统的区别在于:在第二种视频编码系统中,卷积神经网络模型可以串联在反量化单元和第一反变化单元之间,并且在第二种视频编码系统省去第二变化单元和第二反变化单元。
该视频编码系统编码的过程为:将当前原始视频数据输入到预测模块和加法器中,预测模块根据缓存器中的参考图像对输入的当前原始视频数据进行预测得到模式信息,并将该模式信息输入到加法器、熵编码器和重建单元。其中,预测模块包括的帧内预测单元可以对当前原始视频数据进行帧内预测得到帧内模式信息,将该帧内模式信息输入到熵编码器,预测模块包括的运动估计与运动补偿单元根据缓存器中缓存的参考图像对当前原始视频数据进行帧间预测得到帧间模式信息,将该帧间模式信息输入到熵编码器,预测模块包括的开关选择将帧内模式信息或将帧间模式信息输出给加法器和重建单元。
加法器根据该模式信息和当前原始视频数据产生初始残差数据,第一变换单元对初始残差数据进行变换处理,将变换处理的结果输出给量化单元;量化单元根据量化参数对变换处理的结果进行量化得到待编码视频数据,待编码视频数据就是已处理视频数据,其也是量化残差信息,将该已处理视频数据输出给熵编码器和反量化单元;熵编码器根对该已处理视频数据和模式信息等信息(模式信息包括帧内模式信息和帧间模式信息)进行编码形成视频比特流,该视频比较流中可以包括原始视频数据中的每个编码单元的编码信息。
同时,反量化单元对该已处理视频数据进行反量化处理得到第一残差系数,然后再根据第一残差系数生成已处理视频数据对应的频域信息分量,其中,该生成过程可以为:将第一残差系数输入到第一反变换单元,第一反变换单元对第一残差系数进行反变换处理得到第二残差系数,将第二残差系数输入到重建单元中;重建单元根据第二残差系数和该模式信息(帧内模式信息和帧间模式信息)生成失真重建视频数据,将失真重建视频数据输入到第二变换单元,第二变换单元对失真重建视频数据进行变换得到已处理视频数据对应的视频数据频域信息。相应的,在本步骤中,可以获取该视频数据频域信息,根据该视频数据频域信息生成已处理视频数据对应的频域信息分量,以及获取量化单元采用的量化参数,该量化参数用于表征量化步长,获取已处理视频数据对应的帧间模式信息,根据该量化参数和该帧间模式信息,生成边信息分量。
可选的,根据该量化参数和该帧间模式信息,生成边信息分量的操作,可以为:
根据该量化参数,生成边信息引导图,该边信息引导图是根据该量化参数生成的与当前原始视频数据等高等宽的引导图;
根据该帧间模式信息,对该边信息引导图进行更新,生成与该帧间模式信息匹配的边信息引导图;
将与该帧间模式信息匹配的边信息引导图确定为该边信息分量。
步骤202:将该频域信息分量和该边信息分量输入卷积神经网络模型进行滤波处理得到去失真频域信息分量。
已处理视频数据对应的边信息分量表示已处理视频数据相对原始视频数据的失真特征。
可选的,失真特征可以至少包括如下失真特征之一:
失真程度、失真位置,失真类型:
边信息分量可以表示已处理视频数据相对原始视频数据的失真程度。
边信息分量也可以表示已处理视频数据相对原始视频数据的失真类型,例如在视频编解码应用中,图像中不同编码单元可能采用不同预测模式,不同预测模式会影响残差数据的分布,从而影响失真的目标图像块的特征,因此,编码单元的模式信息可以作为一种表征失真类型的边信息。
如图2-4所示,边信息分量的矩阵结构与频域信息分量的矩阵结构相同,其中,坐标[0,0]、[0,1]表示失真位置,矩阵的元素值1表示失真程度,即边信息分量同时能表示失真程度与失真位置。
又如图2-5所示,坐标[0,0]、[0,1]、[2,0]、[2,4]表示失真位置,矩阵的元素值1、2表示失真类型,即边信息分量同时能表示失真类型与失真位置。
并且,本申请实施例提供的上述解决方案中,可以同时包括图2-4和图2-5分别所示意的两个边信息分量。
进一步的,根据方案的实际应用情况和需要,当频域信息分量包括多种时,边信息分量可以包括分别与每种频域信息分量对应的边信息分量。
本申请实施例提供的上述解决方案,可以应用于目前已知的各种实际应用场景中,例如,可应用于对图像进行超分辨率处理的应用场景中,本发明在此不做限定。
可选的,参见图2-6,卷积神经网络模型,包括:边信息分量生成模块11,卷积神经网络12,网络训练模块13;
边信息分量生成模块11可以用于生成边信息分量;网络训练模块13可以根据预设的原始样本图像对卷积神经网络模型进行训练,使得训练后的卷积神经网络模型可以对输入的频域信息分量和边信息分量进行滤波得到去失真频域信息分量。
其中,卷积神经网络12可以包括如下三层结构:
输入层处理单元121,用于接收卷积神经网络的输入,本方案中包括频域信息分量,以及边信息分量;并对输入的数据进行第一层的卷积滤波处理;
隐含层处理单元122,对输入层处理单元121的输出数据,进行至少一层的卷积滤波处理;
输出层处理单元123,对隐含层处理单元122的输出数据,进行最后一层的卷积滤波处理,输出结果作为去失真频域信息分量,用于生成去失真图像。
图2-7为实现该解决方案的数据流的示意图,其中,频域信息分量以及边信息分量作为输入数据,输入到预先训练的卷积神经网络模型中;或者,根据边信息生成边信息引导图,该边信息可以为量化参数和/或帧间模式信息,频域信息分量以及边信息引导图作为输入数据,输入到预先训练的卷积神经网络模型中。卷积神经网络模型可以由预设结构的卷积神经网络和配置的网络参数集进行表示,输入数据经过输入层、隐含层和输出层的卷积滤波处理之后,得到去失真频域信息分量。
作为卷积神经网络模型的输入数据,根据实际需要,可以包括一种或多种边信息分量,也可以包括一种或多种频域信息分量。
一个图像的每个像素点的存储数据,包括该像素点的所有颜色分量的值,在获得已处理视频数据对应的频域信息分量时,可以根据需要,从每个像素点的存储数据中,提取出需要的一种或多种颜色分量的值,从而得到已处理视频数据对应的频域信息分量。
参见图2-8,本步骤可以具体包括如下处理步骤:
本发明实施例中,以卷积神经网络模型包括输入层、隐含层和输出层的结构为例,对方案进行描述。
步骤61、将该频域信息分量以及该边信息分量,作为预先建立的卷积神经网络模型的输入数据,由输入层进行第一层的卷积滤波处理,具体可以如下:
参见图2-9,在卷积神经网络模型中,输入数据可以是通过各自的通道输入到网络中,本步骤中,可以将cy通道的频域信息分量Y与cm通道的边信息分量M,在通道的维度上进行合并,共同组成cy+cm通道的输入数据I,并采用如下公式对输入数据I进行多维卷积滤波和非线性映射,产生n1个以稀疏形式表示的图像块:
F1(I)=g(W1*I+B1);
其中,F1(I)为输入层的输出,I为输入层中卷积层的输入,*为卷积操作,W1为输入层的卷积层滤波器组的权重系数,B1为输入层的卷积层滤波器组的偏移系数,g()为非线性映射函数。
其中,W1对应于n1个卷积滤波器,即有n1个卷积滤波器作用于输入层的卷积层的输入,输出n1个图像块;每个卷积滤波器的卷积核的大小为c1×f1×f1,其中c1为输入通道数,f1为每个卷积核在空间上的大小。
在一个具体的实施例中,该输入层的参数可以为:c1=2,f1=5,n1=64,使用ReLU(Rectified linear unit)函数作为g(),它的函数表达式为:
g(x)=max(0,x);
则该实施例中输入层卷积处理表达式为:
F1(I)=max(0,W1*I+B1);
步骤62、隐含层对输入层输出的稀疏表示的图像块F1(I)进行进一步的高维映射。
本发明实施例中,不对隐含层中包含的卷积层层数、卷积层连接方式、卷积层属性等作限定,可以采用目前已知的各种结构,但隐含层中包含至少1个卷积层。
例如,参见图2-9,隐含层包含N-1(N≥2)层卷积层,隐含层处理由下式表示:
Fi(I)=g(Wi*Fi-1(I)+Bi),i∈{2,3,…,N};
其中,Fi(I)表示卷积神经网络中第i层卷积层的输出,*为卷积操作,Wi为第i层卷积层滤波器组的权重系数,Bi为第i层卷积层滤波器组的偏移系数,g()为非线性映射函数。
其中,Wi对应于ni个卷积滤波器,即有ni个卷积滤波器作用于第i层卷积层的输入,输出ni个图像块;每个卷积滤波器的卷积核的大小为ci×fi×fi,其中ci为输入通道数,fi为每个卷积核在空间上的大小。
在一个具体的实施例中,该隐含层可以包括1个卷积层,该卷积层的卷积滤波器参数为:c2=64,f2=1,n2=32,使用ReLU(Rectified linear unit)函数作为g(),则该实施例中隐含层的卷积处理表达式为:
F2(I)=max(0,W2*F1(I)+B2);
步骤63、输出层对隐含层输出的高维图像块FN(I)进行聚合,输出去失真频域信息分量,用于生成去失真图像。
本发明实施例中不对输出层的结构作限定,输出层可以是Residual Learning结构,也可以是Direct Learning结构,或者其他的结构。
采用Residual Learning结构的处理如下:
对隐含层的输出进行卷积操作获取补偿残差,再与输入的频域信息分量相加,得到去失真频域信息分量。输出层处理可由下式表示:
F(I)=WN+1*FN(I)+BN+1+Y;
其中,F(I)为输出层输出,FN(I)为隐含层的输出,*为卷积操作,WN+1为输出层的卷积层滤波器组的权重系数,BN+1为输出层的卷积层滤波器组的偏移系数,Y为未经过卷积滤波处理、欲进行去失真处理的频域信息分量。
其中,WN+1对应于nN+1个卷积滤波器,即有nN+1个卷积滤波器作用于第N+1层卷积层的输入,输出nN+1个图像块,nN+1为输出的去失真频域信息分量个数,一般与输入的频域信息分量的个数相等,如果只输出一种去失真频域信息分量,则nN+1一般取值为1;每个卷积滤波器的卷积核的大小为cN+1×fN+1×fN+1,其中cN+1为输入通道数,fN+1为每个卷积核在空间上的大小。
采用Direct Learning结构的处理如下:
对隐含层的输出进行卷积操作后直接输出去失真频域信息分量,即得到去失真的第二图像块。输出层处理可由下式表示:
F(I)=WN+1*FN(I)+BN+1
其中,F(I)为输出层输出,FN(I)为隐含层的输出,*为卷积操作,WN+1为输出层的卷积层滤波器组的权重系数,BN+1为输出层的卷积层滤波器组的偏移系数。
其中,WN+1对应于nN+1个卷积滤波器,即有nN+1个卷积滤波器作用于第N+1层卷积层的输入,输出nN+1个图像块,nN+1为输出的去失真频域信息分量个数,一般与输入的频域信息分量的个数相等,如果只输出一种去失真频域信息分量,则nN+1一般取值为1;每个卷积滤波器的卷积核的大小为cN+1×fN+1×fN+1,其中cN+1为输入通道数,fN+1为每个卷积核在空间上的大小。
在一个具体的实施例中,该输出层采用Residual Learning结构,输出层包括1个卷积层,该输出层的卷积滤波器参数为:c3=32,f3=3,n3=1,则该实施例中输出层的卷积处理表达式为:
F(I)=W3*F3(I)+B3+Y。
在本发明实施例提供的上述解决方案中,还提出了一种卷积神经网络模型训练方法,如图2-10所示,具体包括如下处理步骤:
步骤71、获取预设训练集,预设训练集包括原始样本图像,以及原始样本图像对应的多个已处理视频数据对应的频域信息分量,以及每个已处理视频数据对应的边信息分量,其中,已处理视频数据对应的边信息分量表示该已处理视频数据相对原始样本图像的失真特征。该多个失真图像的失真特征不同。
本步骤中,可以预先对原始样本图像(即未失真的自然图像),进行不同失真程度的一种图像处理,得到各自对应的已处理视频数据,并按照上述去失真方法中的步骤,针对每个已处理视频数据,生成对应的边信息分量,从而将每个原始样本图像、对应的已处理视频数据以及对应的边信息分量组成图像对,由这些图像对组成预设训练集Ω。
进一步的,训练集可以包括一个原始样本图像,针对该原始样本图像进行上述图像处理,得到失真特征不同的多个已处理视频数据,以及每个已处理视频数据对应的边信息分量;
训练集也可以包括多个原始样本图像,分别针对每个原始样本图像进行上述图像处理,得到失真特征不同的多个已处理视频数据,以及每个已处理视频数据对应的边信息分量。
步骤72、针对预设结构的卷积神经网络CNN,初始化该卷积神经网络CNN的网络参数集中的参数,初始化的参数集可以由θ1表示,初始化的参数可以根据实际需要和经验进行设置。
本步骤中,还可以对训练相关的高层参数如学习率、梯度下降算法等进行合理的设置,具体可以采用现有技术中的各种方式,在此不再进行详细描述。
步骤73、进行前向计算,具体如下:
将预设训练集中的每个已处理视频数据对应的频域信息分量以及对应的边信息分量,输入预设结构的卷积神经网络进行卷积滤波处理,得到该已处理视频数据对应的去失真频域信息分量。
本步骤中,具体可以为对预设训练集Ω进行参数集为θi的卷积神经网络CNN的前向计算,获取卷积神经网络的输出F(Y),即每个已处理视频数据对应的去失真频域信息分量。
第一次进入本步骤处理时,当前参数集为θ1,后续再次进入本步骤处理时,当前参数集θi为对上一次使用的参数集θi-1进行调整后得到的,详见后续描述。
步骤74、基于多个原始样本图像的原始图像颜色分量和得到的去失真频域信息分量,确定多个原始样本图像的损失值。
具体可以使用均方误差(MSE)公式作为损失函数,得到损失值L(θi),详见如下公式:
Figure BDA0001842246190000171
其中,H表示单次训练中从预设训练集中选取的图像对个数,Ih表示第h个已处理视频数据对应的由边信息分量和频域信息分量合并后的输入数据,F(Ihi)表示针对第h个已处理视频数据,卷积神经网络CNN在参数集θi下前向计算得到的去失真频域信息分量,Xh表示第h个已处理视频数据对应的原始图像颜色分量,i为当前已进行前向计算的次数计数。
步骤75、基于损失值确定采用当前参数集的该预设结构的卷积神经网络是否收敛,如果不收敛,进入步骤76,如果收敛,进入步骤77。
具体的,可以当损失值小于预设损失值阈值时,确定收敛;也可以当本次计算得到损失值与上一次计算得到的损失值之差,小于预设变化阈值时,确定收敛,本发明在此不做限定。
步骤76,对当前参数集中的参数进行调整,得到调整后的参数集,然后进入步骤73,用于下一次前向计算。
具体可以利用反向传播算法对当前参数集中的参数进行调整。
步骤77、将当前参数集作为输出的最终参数集θfinal,并将采用最终参数集θfinal的该预设结构的卷积神经网络,作为训练完成的卷积神经网络模型。
步骤203:根据去失真频域信息分量生成已处理视频数据对应的去失真图像。
可选的,可以将去失真图像作为参考图像,使用参考图像对当前原始视频数据之后的原始视频数据进行编码得到视频比特流。
可选的,当采用第一种视频编码系统进行视频编码时,去失真频域信息分量是频域重建图像。所以在本步骤中,通过第二反变换单元对去失真频域信息分量进行反变换,将反变换后的视频数据确定为去失真图像,还可以将去失真图像作为参考图像保存在缓存器中。这样运动估计与运动补偿单元根据缓存器中缓存的参考图像对当前原始视频数据之后的原始视频数据进行帧间预测得到帧间模式信息,以实现使用参考图像对当前原始视频数据之后的原始视频数据进行编码得到视频比特流。
可选的,当采用第二种视频编码系统进行视频编码时,去失真频域信息分量是频域残差系数。所以在本步骤中,通过第一反变换单元对去失真频域信息分量进行反变换,将反变换之后的频域信息输入到重建单元,通过重建单元根据反变换之后的频域信息和模式信息(帧内模式信息和帧间模式信息)输出去失真重建视频数据,该去失真重建视频数据为去失真图像,可以将该去失真图像作为参考图像并保存在缓存器中。这样运动估计与运动补偿单元根据缓存器中缓存的参考图像对当前原始视频数据之后的原始视频数据进行帧间预测得到帧间模式信息,以实现使用参考图像对当前原始视频数据之后的原始视频数据进行编码得到视频比特流。
在本申请实施例中,在视频编码过程中,获取视频编码过程中视频编码系统产生的频域信息分量和边信息分量,通过CNN对视频编码系统产生的频域信息分量和边信息分量进行滤波处理,得到去失真频域信息分量,由于滤波后的去失真频域信息分量去除了在频域上发生的失真,所以使用去失真频域信息分量生成去失真图像并作为参考图像,可以提高参考图像的主观质量,进而使用参考图像对当前原始视频数据之后的原始视频数据进行编码,提高了后续编码视频数据的准确性。
参见图3,本申请实施例提供了一种图像处理的方法,所述方法包括:
步骤301:获取已处理视频数据对应的频域信息分量和边信息分量,已处理视频数据相对于输入解码系统的视频比特流对应的编码前的原始视频数据存在失真,该边信息分量表示已处理视频数据相对原始视频数据的失真特征。
步骤302:将该频域信息分量和该边信息分量输入卷积神经网络模型进行卷积滤波处理得到去失真频域信息分量,该去失真频域信息分量是以该边信息分量为引导对该频域信息分量进行滤波之后得到的。
步骤303:根据该去失真频域信息分量,生成已处理视频数据对应的去失真图像。
在本申请实施例中,在视频解码过程中,获取视频解码过程中视频解码系统产生的频域信息分量和边信息分量,通过CNN对视频编码系统产生的频域信息分量和边信息分量进行滤波处理,得到去失真频域信息分量,由于滤波后的去失真频域信息分量去除了在频域上发生的失真,所以使用去失真频域信息分量生成去除失真的图像,可以提高该图像的主观质量。
对于图3所示的图像处理的方法,参见图4-1,该方法的详细实现过程,可以包括:
步骤401:对接收的视频比特流进行熵解码,得到当前熵解码数据。
步骤402:获取已处理视频数据对应的频域信息分量和边信息分量。
其中,频域信息分量和边信息分量为对当前熵解码数据进行解码时生成的,边信息分量表示已处理视频数据相对原始视频数据的失真特征,原始视频数据是当前熵解码数据对应的视频数据。
可选的,可以使用视频解码系统进行视频解码,从视频解码系统中获取频域信息分量和边信息分量。视频解码系统有多种,在本步骤中列举了如下三种视频编码系统。
第一种视频解码系统,参见图4-2所示的第一种视频解码系统的结构示意图,第一种视频解码系统包括预测模块、熵解码器、反量化单元、第一反变换单元、重建单元、CNN(卷积神经网络模型)和缓存器等部分组成。
使用第一种视频解码系统解码的过程为:将接收的视频比特流输入到熵解码器中,熵解码器对该比特流进行熵解码得到熵解码数据,该熵解码数据包括模式信息、量化参数、量化残差信息等,该量化残差信息即为已处理视频数据,将该模式信息输入到预测模块中,将该量化残差信息输入到反量化单元中,反量化单元对该量化残差信息进行反量化处理得到第二残差系数。预测模块根据缓存器中的参考图像对输入的该模式信息进行预测得到预测模式信息,并将该预测模式信息输入重建单元。其中,预测模块包括帧内预测单元、运动补偿单元和开关,模式信息可以包括帧内模式信息和帧间模式信息,加法器选择将帧内模式信息或帧间模式信息输入到重建单元。帧内预测单元可以对帧内模式信息进行预测得到帧内预测模式信息,运动补偿单元根据缓存器中缓存的参考图像对帧间模式信息进行帧间预测得到帧间预测模式信息,开关选择将帧内预测模式信息或将帧间预测模式信息输出给重建单元。相应的,在本步骤中,获取反量化单元产生的第二残差系数作为已处理视频数据对应的频域信息分量以及获取熵解码器产生的量化参数和帧间模式信息,根据该量化参数和帧间模式信息生成已处理视频数据对应的边信息分量。
可选的,根据该量化参数和帧间模式信息,生成边信息分量的操作,可以为:
根据该量化参数,生成边信息引导图,该边信息引导图是根据该量化参数生成的与当前原始视频数据等高等宽的引导图;
根据该帧间模式信息,对该边信息引导图进行更新,生成与该帧间模式信息匹配的边信息引导图;
将与该帧间模式信息匹配的边信息引导图确定为该边信息分量。
第二种视频解码系统,参见图4-3,第二种视频解码系统与第一种视频解码系统的差别在于:在第二种视频解码系统中,反量化单元与第一反变换单元相连,在重建单元和缓存器之间串联变换单元、CNN和第二反变换单元。使用第二种视频解码系统解码的过程与使用第一种视频解码系统的过程不同在于:反量化单元对熵解码器输入的量化残差信息进行反量化处理得到第二残差系数,向第一反变换单元输入第二残差系数;第一反变换单元对第二残差系数进行反变换处理得到第五残差信息,将第五残差信息输入到重建单元;重建单元根据输入的第五残差信息和帧内预测模式信息或者根据第五残差信息和帧间预测模式,生成失真重建视频数据,该失真重建视频数据为已处理视频数据,将失真重建视频数据输入到变换单元;变换单元对失真重建视频数据进行变换处理得到频域信息分量。相应的,在本步骤中,获取对失真重建视频数据进行变换得到已处理视频数据对应的频域信息分量以及获取熵解码器产生的量化参数,根据该量化参数生成已处理视频数据对应的边信息分量。
第三种视频解码系统,参见图4-4所示的第三种视频解码系统的结构示意图,第三种视频解码系统包括帧内预测模块、熵解码器、反量化单元、第一反变换单元、重建单元、变换单元、CNN(卷积神经网络模型)、第二反变换单元和缓存器等部分组成。
使用第三种视频解码系统解码的过程为:将接收的视频比特流输入到熵解码器中,熵解码器对该比特流进行解码得到熵解码数据,该熵解码数据包括帧内模式信息、量化参数、量化残差信息等,将该模式信息输入到帧内预测模块中,将该量化残差信息输入到反量化单元中,反量化单元对该量化残差信息进行反量化处理得到第二残差系数,向第一反变换单元输入第二残差系数;第一反变换单元对第二残差系数进行反变换处理得到第五残差信息,将第五残差信息输入到重建单元。帧内预测模块根据缓存器中的参考图像对输入的该帧内模式信息进行预测得到帧内预测模式信息,并将该帧内预测模式信息输入到重建单元。重建单元根据输入的第五残差信息和帧内预测模式信息,生成失真重建视频数据,该失真重建视频数据为已处理视频数据,将失真重建视频数据输入到变换单元;变换单元对失真重建视频数据进行变换处理得到频域信息分量。相应的,在本步骤中,获取对失真重建视频数据进行变换得到已处理视频数据对应的频域信息分量以及获取熵解码器产生的量化参数,根据该量化参数生成已处理视频数据对应的边信息分量。
步骤403:将频域信息分量和边信息分量输入卷积神经网络模型进行卷积滤波处理,得到已处理视频数据对应的去失真频域信息分量。
卷积神经网络模型为基于预设训练集进行训练得到的,预设训练集包括原始样本图像的图像信息,原始样本图像对应的多个频域信息分量,以及每个原始样本图像对应的已处理视频数据所对应的边信息分量。
步骤404:根据去失真频域信息分量生成去失真图像。
可选的,当采用第一种视频编码系统进行视频编码时,去失真频域信息分量是频域重建图像。所以在本步骤中,第一反变换单元对CNN输出的去失真频域信息分量进行反变换得到第五残差信息,向重建单元输入第五残差信息;重建单元根据帧内预测模式信息和第五残差信息或者根据帧间预测模式信息和第五残差信息,生成去失真重建视频数据,该去失真重建视频数据为去失真图像。
可选的,当采用第二或第三种视频解码系统进行视频编码时,去失真频域信息分量是频域残差系数。所以在本步骤中,第二反变换单元对CNN输出的去失真频域信息分量进行反变换得到去失真图像。
步骤405:将该去失真图像作为参考图像,根据该参考图像,对后续接收的视频比特流进行解码。
在本步骤中,将得到的去失真图像作为参考图像,保存在缓存器中。或者,当采用第三种视频解码系统进行视频编码时,可以直接显示去失真图像。
在本申请实施例中,在视频解码过程中,获取视频解码过程中视频解码系统产生的频域信息分量和边信息分量,通过CNN对视频编码系统产生的频域信息分量和边信息分量进行滤波处理,得到已处理视频数据对应的去失真频域信息分量,由于滤波后的去失真频域信息分量去除了在频域上发生的失真,所以使用去失真频域信息分量生成参考图像,提高参考图像的主观质量,使用参考图像对当前原始视频数据之后的视频比特流进行编码,提高了解码的准确性。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
参见图5,本申请实施例提供了本申请提供了一种图像处理的装置500,所述装置500包括:
获取模块501,用于获取已处理视频数据对应的频域信息分量和边信息分量,所述已处理视频数据相对于输入编码系统的原始视频数据存在失真,所述边信息分量表示所述已处理视频数据相对所述原始视频数据的失真特征;
滤波模块502,用于将所述频域信息分量和所述边信息分量输入卷积神经网络模型进行滤波处理得到去失真频域信息分量,所述去失真频域信息分量是以所述边信息分量为引导对所述频域信息分量进行滤波之后得到的;
生成模块503,用于根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像。
可选的,所述获取模块501,用于:
从所述编码系统中获取所述已处理视频数据,所述已处理视频数据是所述原始视频数据的初始残差数据经变换和量化之后产生的待编码视频数据;
对所述已处理视频数据进行反量化处理,生成所述已处理视频数据经过反量化之后产生的第一残差系数;
根据所述第一残差系数,生成所述频域信息分量;
获取所述原始视频数据在编码中产生的初始残差数据经变换处理之后进行量化处理时采用的量化参数,所述量化参数用于表征量化步长;
从所述编码系统中获取所述已处理视频数据对应的帧间模式信息;
根据所述量化参数和所述帧间模式信息,生成所述边信息分量。
可选的,所述生成模块503,用于:
对所述去失真频域分量进行反变换,根据反变换之后的频域信息生成所述已处理视频数据对应的去失真重建视频数据;
将所述去失真重建视频数据确定为所述去失真图像。
可选的,所述获取模块501,用于:
根据所述量化参数,生成边信息引导图,所述边信息引导图是根据所述量化参数生成的与所述原始视频数据等高等宽的引导图;
根据所述帧间模式信息,对所述边信息引导图进行更新,生成与所述帧间模式信息匹配的边信息引导图;
将与所述帧间模式信息匹配的边信息引导图确定为所述边信息分量。
可选的,所述已处理视频数据为所述原始视频数据对应的失真重建视频数据;
所述获取模块501,用于:
对所述已处理视频数据进行变换处理,根据变换处理之后得到的视频数据频域信息生成所述频域信息分量;
获取所述原始视频数据在编码中产生的初始残差数据经变换处理之后进行量化处理时采用的量化参数,所述量化参数用于表征量化步长;
根据所述量化参数,生成所述边信息分量。
可选的,所述生成模块503,用下:
对所述去失真频域分量进行反变换,将反变换之后的视频数据确定所述去失真图像。
在本申请实施例中,在视频编码过程中,获取视频编码过程中视频编码系统产生的频域信息分量和边信息分量,通过CNN对视频编码系统产生的频域信息分量和边信息分量进行滤波处理,得到去失真频域信息分量,由于滤波后的去失真频域信息分量去除了在频域上发生的失真,所以使用去失真频域信息分量生成的图像去除了失真,使用该图像作为参考图像,使用参考图像对当前原始视频数据之后的原始视频数据进行编码,提高了后续编码图像的确定性。
参见图6,本申请实施例提供了一种图像处理的装置600,所述装置600包括:
获取模块601,用于获取已处理视频数据对应的频域信息分量和边信息分量,所述已处理视频数据相对于输入解码系统的视频比特流对应的编码前的原始视频数据存在失真,所述边信息分量表示所述已处理视频数据相对所述原始视频数据的失真特征;
滤波模块602,用于将所述频域信息分量和所述边信息分量输入卷积神经网络模型进行卷积滤波处理得到去失真频域信息分量,所述去失真频域信息分量是以所述边信息分量为引导对所述频域信息分量进行滤波之后得到的;
生成模块603,用于根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像。
可选的,所述获取模块601,用于:
从所述解码系统中获取所述已处理视频数据,所述已处理视频数据是所述解码系统对视频比特流进行熵解码输出的量化残差信息;
对所述已处理视频数据进行反量化处理,生成所述已处理视频数据经过反量化之后产生的第二残差系数;
根据所述第二残差系数,生成所述频域信息分量;
获取所述解码系统对视频比特流进行熵解码输出的量化残差信息量化参数和帧间模式信息,所述量化参数用于表征量化步长;
根据所述量化参数和所述帧间模式信息,生成所述边信息分量。
可选的,所述生成模块603,用于:
对所述去失真频域分量进行反变换,根据反变换之后的频域信息生成所述已处理视频数据对应的去失真重建视频数据;
将所述去失真重建视频数据确定为所述去失真图像。
可选的,所述获取模块601,用于:
根据所述量化参数,生成边信息引导图,所述边信息引导图是根据所述量化参数生成的与所述原始视频数据等高等宽的引导图;
根据所述帧间模式信息,对所述边信息引导图进行更新,生成与所述帧间模式信息匹配的边信息引导图;
将与所述帧间模式信息匹配的边信息引导图确定为所述边信息分量。
可选的,所述已处理视频数据为所述原始视频数据对应的失真重建视频数据;
所述获取模块601,用于:
对所述已处理视频数据进行变换处理,根据变换处理之后得到的视频数据频域信息生成所述频域信息分量;
获取所述解码系统对视频比特流进行熵解码输出的量化残差信息量化参数,所述量化参数用于表征量化步长;
根据所述量化参数,生成所述边信息分量。
可选的,所述生成模块603,用于:
对所述去失真频域分量进行反变换,将反变换之后的视频数据确定所述去失真图像。
在本申请实施例中,在视频解码过程中,获取视频解码过程中视频解码系统产生的频域信息分量和边信息分量,通过CNN对视频编码系统产生的频域信息分量和边信息分量进行滤波处理,得到去失真频域信息分量,由于滤波后的去失真频域信息分量去除了在频域上发生的失真,所以使用去失真频域信息分量可以生成去失真图像,使用去失真图像作为参考图像对当前原始视频数据之后的视频比特流进行编码,提高了解码的确定性。
参见图7,本申请实施例提供了一种图像处理的系统700,所述系统700包括如图5所示实施例提供的视频编码装置701和如图6所示实施例提供的视频解码装置702。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8示出了本发明一个示例性实施例提供的终端800的结构框图。该终端800可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的视频编码方法或视频解码方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在再一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
定位组件808用于定位终端800的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器812可以检测终端800的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时,可以检测用户对终端800的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时,由处理器801根据用户对触摸显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时,指纹传感器814可以与物理按键或厂商Logo集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制触摸显示屏805的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏805的显示亮度;当环境光强度较低时,调低触摸显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器816,也称距离传感器,通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时,由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (25)

1.一种图像处理的方法,其特征在于,所述方法包括:
获取已处理视频数据对应的频域信息分量和边信息分量,所述已处理视频数据相对于输入编码系统的原始视频数据存在失真,所述边信息分量表示所述已处理视频数据相对所述原始视频数据的失真特征;
将所述频域信息分量和所述边信息分量输入卷积神经网络模型进行滤波处理得到去失真频域信息分量,所述去失真频域信息分量是以所述边信息分量为引导对所述频域信息分量进行滤波之后得到的;
根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像。
2.如权利要求1所述的方法,其特征在于,所述获取所述已处理视频数据对应的频域信息分量,包括:
从所述编码系统中获取所述已处理视频数据,所述已处理视频数据是所述原始视频数据的初始残差数据经变换和量化之后产生的待编码视频数据;
对所述已处理视频数据进行反量化处理,生成所述已处理视频数据经过反量化之后产生的第一残差系数;
根据所述第一残差系数,生成所述频域信息分量;
所述获取所述已处理视频数据对应的边信息分量,包括:
获取所述原始视频数据在编码中产生的初始残差数据经变换处理之后进行量化处理时采用的量化参数,所述量化参数用于表征量化步长;
从所述编码系统中获取所述已处理视频数据对应的帧间模式信息;
根据所述量化参数和所述帧间模式信息,生成所述边信息分量。
3.如权利要求2所述的方法,其特征在于,所述根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像,包括:
对所述去失真频域分量进行反变换,根据反变换之后的频域信息生成所述已处理视频数据对应的去失真重建视频数据;
将所述去失真重建视频数据确定为所述去失真图像。
4.如权利要求3所述的方法,其特征在于,所述根据所述量化参数和所述帧间模式信息,生成所述边信息分量,包括:
根据所述量化参数,生成边信息引导图,所述边信息引导图是根据所述量化参数生成的与所述原始视频数据等高等宽的引导图;
根据所述帧间模式信息,对所述边信息引导图进行更新,生成与所述帧间模式信息匹配的边信息引导图;
将与所述帧间模式信息匹配的边信息引导图确定为所述边信息分量。
5.如权利要求1所述的方法,其特征在于,所述已处理视频数据为所述原始视频数据对应的失真重建视频数据;
所述获取所述已处理视频数据对应的频域信息分量,包括:
对所述已处理视频数据进行变换处理,根据变换处理之后得到的视频数据频域信息生成所述频域信息分量;
所述获取所述已处理视频数据对应的边信息分量,包括:
获取所述原始视频数据在编码中产生的初始残差数据经变换处理之后进行量化处理时采用的量化参数,所述量化参数用于表征量化步长;
根据所述量化参数,生成所述边信息分量。
6.如权利要求5所述的方法,其特征在于,所述根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像,包括:
对所述去失真频域分量进行反变换,将反变换之后的视频数据确定所述去失真图像。
7.一种图像处理的方法,其特征在于,所述方法包括:
获取已处理视频数据对应的频域信息分量和边信息分量,所述已处理视频数据相对于输入解码系统的视频比特流对应的编码前的原始视频数据存在失真,所述边信息分量表示所述已处理视频数据相对所述原始视频数据的失真特征;
将所述频域信息分量和所述边信息分量输入卷积神经网络模型进行卷积滤波处理得到去失真频域信息分量,所述去失真频域信息分量是以所述边信息分量为引导对所述频域信息分量进行滤波之后得到的;
根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像。
8.如权利要求7所述的方法,其特征在于,所述获取已处理视频数据对应的频域信息分量和边信息分量,包括:
从所述解码系统中获取所述已处理视频数据,所述已处理视频数据是所述解码系统对视频比特流进行熵解码输出的量化残差信息;
对所述已处理视频数据进行反量化处理,生成所述已处理视频数据经过反量化之后产生的第二残差系数;
根据所述第二残差系数,生成所述频域信息分量;
所述获取所述已处理视频数据对应的边信息分量,包括:
获取所述解码系统对视频比特流进行熵解码输出的量化残差信息量化参数和帧间模式信息,所述量化参数用于表征量化步长;
根据所述量化参数和所述帧间模式信息,生成所述边信息分量。
9.如权利要求8所述的方法,其特征在于,所述根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像,包括:
对所述去失真频域分量进行反变换,根据反变换之后的频域信息生成所述已处理视频数据对应的去失真重建视频数据;
将所述去失真重建视频数据确定为所述去失真图像。
10.如权利要求8所述的方法,其特征在于,所述根据所述量化参数和所述帧间模式信息,生成所述边信息分量,包括:
根据所述量化参数,生成边信息引导图,所述边信息引导图是根据所述量化参数生成的与所述原始视频数据等高等宽的引导图;
根据所述帧间模式信息,对所述边信息引导图进行更新,生成与所述帧间模式信息匹配的边信息引导图;
将与所述帧间模式信息匹配的边信息引导图确定为所述边信息分量。
11.如权利要求7所述的方法,其特征在于,所述已处理视频数据为所述原始视频数据对应的失真重建视频数据;
所述获取所述已处理视频数据对应的频域信息分量,包括:
对所述已处理视频数据进行变换处理,根据变换处理之后得到的视频数据频域信息生成所述频域信息分量;
所述获取所述已处理视频数据对应的边信息分量,包括:
获取所述解码系统对视频比特流进行熵解码输出的量化残差信息量化参数,所述量化参数用于表征量化步长;
根据所述量化参数,生成所述边信息分量。
12.如权利要求11所述的方法,其特征在于,所述根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像,包括:
对所述去失真频域分量进行反变换,将反变换之后的视频数据确定所述去失真图像。
13.一种图像处理的装置,其特征在于,所述装置包括:
获取模块,用于获取已处理视频数据对应的频域信息分量和边信息分量,所述已处理视频数据相对于输入编码系统的原始视频数据存在失真,所述边信息分量表示所述已处理视频数据相对所述原始视频数据的失真特征;
滤波模块,用于将所述频域信息分量和所述边信息分量输入卷积神经网络模型进行滤波处理得到去失真频域信息分量,所述去失真频域信息分量是以所述边信息分量为引导对所述频域信息分量进行滤波之后得到的;
生成模块,用于根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像。
14.如权利要求13所述的装置,其特征在于,所述获取模块,用于:
从所述编码系统中获取所述已处理视频数据,所述已处理视频数据是所述原始视频数据的初始残差数据经变换和量化之后产生的待编码视频数据;
对所述已处理视频数据进行反量化处理,生成所述已处理视频数据经过反量化之后产生的第一残差系数;
根据所述第一残差系数,生成所述频域信息分量;
获取所述原始视频数据在编码中产生的初始残差数据经变换处理之后进行量化处理时采用的量化参数,所述量化参数用于表征量化步长;
从所述编码系统中获取所述已处理视频数据对应的帧间模式信息;
根据所述量化参数和所述帧间模式信息,生成所述边信息分量。
15.如权利要求14所述的装置,其特征在于,所述生成模块,用于:
对所述去失真频域分量进行反变换,根据反变换之后的频域信息生成所述已处理视频数据对应的去失真重建视频数据;
将所述去失真重建视频数据确定为所述去失真图像。
16.如权利要求15所述的装置,其特征在于,所述获取模块,用于:
根据所述量化参数,生成边信息引导图,所述边信息引导图是根据所述量化参数生成的与所述原始视频数据等高等宽的引导图;
根据所述帧间模式信息,对所述边信息引导图进行更新,生成与所述帧间模式信息匹配的边信息引导图;
将与所述帧间模式信息匹配的边信息引导图确定为所述边信息分量。
17.如权利要求13所述的装置,其特征在于,所述已处理视频数据为所述原始视频数据对应的失真重建视频数据;
所述获取模块,用于:
对所述已处理视频数据进行变换处理,根据变换处理之后得到的视频数据频域信息生成所述频域信息分量;
获取所述原始视频数据在编码中产生的初始残差数据经变换处理之后进行量化处理时采用的量化参数,所述量化参数用于表征量化步长;
根据所述量化参数,生成所述边信息分量。
18.如权利要求17所述的装置,其特征在于,所述生成模块,用下:
对所述去失真频域分量进行反变换,将反变换之后的视频数据确定所述去失真图像。
19.一种图像处理的装置,其特征在于,所述装置包括:
获取模块,用于获取已处理视频数据对应的频域信息分量和边信息分量,所述已处理视频数据相对于输入解码系统的视频比特流对应的编码前的原始视频数据存在失真,所述边信息分量表示所述已处理视频数据相对所述原始视频数据的失真特征;
滤波模块,用于将所述频域信息分量和所述边信息分量输入卷积神经网络模型进行卷积滤波处理得到去失真频域信息分量,所述去失真频域信息分量是以所述边信息分量为引导对所述频域信息分量进行滤波之后得到的;
生成模块,用于根据所述去失真频域信息分量,生成所述已处理视频数据对应的去失真图像。
20.如权利要求19所述的装置,其特征在于,所述获取模块,用于:
从所述解码系统中获取所述已处理视频数据,所述已处理视频数据是所述解码系统对视频比特流进行熵解码输出的量化残差信息;
对所述已处理视频数据进行反量化处理,生成所述已处理视频数据经过反量化之后产生的第二残差系数;
根据所述第二残差系数,生成所述频域信息分量;
获取所述解码系统对视频比特流进行熵解码输出的量化残差信息量化参数和帧间模式信息,所述量化参数用于表征量化步长;
根据所述量化参数和所述帧间模式信息,生成所述边信息分量。
21.如权利要求20所述的装置,其特征在于,所述生成模块,用于:
对所述去失真频域分量进行反变换,根据反变换之后的频域信息生成所述已处理视频数据对应的去失真重建视频数据;
将所述去失真重建视频数据确定为所述去失真图像。
22.如权利要求20所述的装置,其特征在于,所述获取模块,用于:
根据所述量化参数,生成边信息引导图,所述边信息引导图是根据所述量化参数生成的与所述原始视频数据等高等宽的引导图;
根据所述帧间模式信息,对所述边信息引导图进行更新,生成与所述帧间模式信息匹配的边信息引导图;
将与所述帧间模式信息匹配的边信息引导图确定为所述边信息分量。
23.如权利要求19所述的装置,其特征在于,所述已处理视频数据为所述原始视频数据对应的失真重建视频数据;
所述获取模块,用于:
对所述已处理视频数据进行变换处理,根据变换处理之后得到的视频数据频域信息生成所述频域信息分量;
获取所述解码系统对视频比特流进行熵解码输出的量化残差信息量化参数,所述量化参数用于表征量化步长;
根据所述量化参数,生成所述边信息分量。
24.如权利要求23所述的装置,其特征在于,所述生成模块,用于:
对所述去失真频域分量进行反变换,将反变换之后的视频数据确定所述去失真图像。
25.一种图像处理的系统,其特征在于,所述系统包括如权利要求13至18任一项所述的视频编码装置和如权利要求19至24任一项所述的视频解码装置。
CN201811253559.XA 2018-10-25 2018-10-25 一种图像处理的方法、装置、系统及存储介质 Active CN111107357B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811253559.XA CN111107357B (zh) 2018-10-25 2018-10-25 一种图像处理的方法、装置、系统及存储介质
PCT/CN2019/113356 WO2020083385A1 (zh) 2018-10-25 2019-10-25 图像处理的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811253559.XA CN111107357B (zh) 2018-10-25 2018-10-25 一种图像处理的方法、装置、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111107357A true CN111107357A (zh) 2020-05-05
CN111107357B CN111107357B (zh) 2022-05-31

Family

ID=70330942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811253559.XA Active CN111107357B (zh) 2018-10-25 2018-10-25 一种图像处理的方法、装置、系统及存储介质

Country Status (2)

Country Link
CN (1) CN111107357B (zh)
WO (1) WO2020083385A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787187A (zh) * 2020-07-29 2020-10-16 上海大学 利用深度卷积神经网络进行视频修复的方法、系统、终端
CN113177451A (zh) * 2021-04-21 2021-07-27 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、电子设备及存储介质
TWI779957B (zh) * 2021-12-09 2022-10-01 晶睿通訊股份有限公司 影像分析模型建立方法及其影像分析設備

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060228027A1 (en) * 2001-03-28 2006-10-12 Canon Kabushiki Kaisha Dynamically reconfigurable signal processing circuit, pattern recognition apparatus, and image processing apparatus
CN105850136A (zh) * 2013-12-22 2016-08-10 Lg电子株式会社 使用预测信号和变换编译信号预测视频信号的方法和装置
CN107197260A (zh) * 2017-06-12 2017-09-22 清华大学深圳研究生院 基于卷积神经网络的视频编码后置滤波方法
CN107925762A (zh) * 2015-09-03 2018-04-17 联发科技股份有限公司 基于神经网络的视频编解码处理方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI624804B (zh) * 2016-11-07 2018-05-21 盾心科技股份有限公司 利用超解析重建法生成高解析度影像的方法與系統
WO2018099579A1 (en) * 2016-12-02 2018-06-07 Huawei Technologies Co., Ltd. Apparatus and method for encoding an image
CN108491926B (zh) * 2018-03-05 2022-04-12 东南大学 一种基于对数量化的低比特高效深度卷积神经网络硬件加速设计方法、模块及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060228027A1 (en) * 2001-03-28 2006-10-12 Canon Kabushiki Kaisha Dynamically reconfigurable signal processing circuit, pattern recognition apparatus, and image processing apparatus
CN105850136A (zh) * 2013-12-22 2016-08-10 Lg电子株式会社 使用预测信号和变换编译信号预测视频信号的方法和装置
CN107925762A (zh) * 2015-09-03 2018-04-17 联发科技股份有限公司 基于神经网络的视频编解码处理方法和装置
US20180249158A1 (en) * 2015-09-03 2018-08-30 Mediatek Inc. Method and apparatus of neural network based processing in video coding
CN107197260A (zh) * 2017-06-12 2017-09-22 清华大学深圳研究生院 基于卷积神经网络的视频编码后置滤波方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LULU ZHOU等: "CE5-related: Convolutional Neural Network Filter (CNNF) for intra frame(JVET-I0022)", 《JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 9TH MEETING: GWANGJU, KOREA, 20–26 JANUARY 2018》 *
MATEJ ULICNY等: "On using CNN with DCT based Image Data", 《PROCEEDINGS OF THE 19TH IRISH MACHINE VISION AND IMAGE PROCESSING CONFERENCE, IMVIP 2017》 *
VINAY VERMA等: "DCT-domain Deep Convolutional Neural Networks for Multiple JPEG Compression Classification", 《ARXIV》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787187A (zh) * 2020-07-29 2020-10-16 上海大学 利用深度卷积神经网络进行视频修复的方法、系统、终端
CN111787187B (zh) * 2020-07-29 2021-07-02 上海大学 利用深度卷积神经网络进行视频修复的方法、系统、终端
CN113177451A (zh) * 2021-04-21 2021-07-27 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、电子设备及存储介质
CN113177451B (zh) * 2021-04-21 2024-01-12 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、电子设备及存储介质
TWI779957B (zh) * 2021-12-09 2022-10-01 晶睿通訊股份有限公司 影像分析模型建立方法及其影像分析設備

Also Published As

Publication number Publication date
CN111107357B (zh) 2022-05-31
WO2020083385A1 (zh) 2020-04-30

Similar Documents

Publication Publication Date Title
CN108810538B (zh) 视频编码方法、装置、终端及存储介质
CN110062246B (zh) 对视频帧数据进行处理的方法和装置
CN108391127B (zh) 视频编码方法、装置、存储介质及设备
CN112449192A (zh) 解码方法、编码方法及装置
CN110933334B (zh) 视频降噪方法、装置、终端及存储介质
CN111107357B (zh) 一种图像处理的方法、装置、系统及存储介质
CN110503160B (zh) 图像识别方法、装置、电子设备及存储介质
CN111445392A (zh) 图像处理方法及装置、计算机可读存储介质和电子设备
CN112907725A (zh) 图像生成、图像处理模型的训练、图像处理方法和装置
CN111586413B (zh) 视频调整方法、装置、计算机设备及存储介质
CN110572710B (zh) 视频生成方法、装置、设备及存储介质
CN110991457A (zh) 二维码处理方法、装置、电子设备及存储介质
CN112614500A (zh) 回声消除方法、装置、设备及计算机存储介质
CN110062226B (zh) 一种视频编码方法、视频解码方法、装置、系统及介质
CN113822955B (zh) 图像数据处理方法、装置、计算机设备及存储介质
CN110543403A (zh) 一种功耗评估的方法及装置
CN111698512B (zh) 视频处理方法、装置、设备及存储介质
CN110460856B (zh) 视频编码方法、装置、编码设备及计算机可读存储介质
CN111310701B (zh) 手势识别方法、装置、设备及存储介质
CN114332709A (zh) 视频处理方法、装置、存储介质以及电子设备
CN110853704B (zh) 蛋白质数据获取方法、装置、计算机设备及存储介质
CN109040753B (zh) 预测模式选择方法、装置及存储介质
CN113379624A (zh) 图像生成方法、图像生成模型的训练方法、装置及设备
CN112750449A (zh) 回声消除方法、装置、终端、服务器及存储介质
CN110062225B (zh) 一种图片滤波的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant