CN110677649B - 基于机器学习的去伪影方法、去伪影模型训练方法及装置 - Google Patents
基于机器学习的去伪影方法、去伪影模型训练方法及装置 Download PDFInfo
- Publication number
- CN110677649B CN110677649B CN201910984591.3A CN201910984591A CN110677649B CN 110677649 B CN110677649 B CN 110677649B CN 201910984591 A CN201910984591 A CN 201910984591A CN 110677649 B CN110677649 B CN 110677649B
- Authority
- CN
- China
- Prior art keywords
- sample
- feature
- image frame
- feature vector
- calling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/86—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/587—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于机器学习的去伪影方法、去伪影模型训练方法及装置,涉及人工智能领域。上述方法包括:通过获取待处理的视频;调用去伪影模型预测视频的第i个原始图像帧的残差,得到第i个原始图像帧的预测残差;调用去伪影模型将预测残差与对应的原始图像帧相加,得到去伪影处理后的目标图像帧;将若干个目标图像帧按序进行编码压缩,得到去伪影后的视频帧序列。该方法通过采用残差学习结构的去伪影模型对视频压缩过程中可能产生的伪影进行预处理,避免编码压缩后视频明显地出现多类伪影,可以解决对多类伪影统一处理的难题。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种基于机器学习的去伪影方法、去伪影模型训练方法及装置。
背景技术
互联网视频数据急剧增长,为了降低视频的存储和传输成本,会采用较高的压缩率对视频进行编码压缩。
在视频编码压缩的过程中,由于量化、分块等移除高频信息的操作导致信息损失,从而出现伪影这一负面效果,比如,块效应、振铃效应和边缘毛刺等。上述伪影会严重降低视频画质,影响用户的观看体验。因此,需要在视频编码压缩的过程中加入去伪影这一步骤。传统的视频去伪影是通过视频增强滤波器进行图像的亮度调整、饱和度调整、锐化以及去噪等操作来实现的。
但是,视频增强滤波器的主要功能是对平坦像素区域的随机噪声的去除,对于视频伪影的去除效果有限。
发明内容
本申请实施例提供了一种基于机器学习的去伪影方法、去伪影模型训练方法及装置,可以解决滤波器无法对视频中的多类伪影进行有效去除的问题。所述技术方案如下:
根据本申请的一个方面,提供了一种基于机器学习的去伪影方法,该方法包括:
获取待处理的视频;
调用去伪影模型预测视频的第i个原始图像帧与对应的压缩后的图像帧之间的残差,得到第i个原始图像帧的预测残差,i为正整数;
调用去伪影模型将预测残差与对应的原始图像帧相加,得到去伪影处理后的目标图像帧;
将若干个目标图像帧按序进行编码压缩,得到去伪影后的视频帧序列。
根据本申请的另一个方面,提供了一种基于机器学习的去伪影模型训练方法,该方法包括:
获取训练样本,每组训练样本包括视频样本的每一个原始图像帧样本和对应的编码压缩后的图像帧样本;
调用去伪影模型预测每组训练样本中编码压缩后的图像帧样本的残差,得到样本残差;
调用去伪影模型将样本残差与对应的编码压缩后的图像帧样本相加,得到去伪影处理后的目标图像帧样本;
确定目标图像帧样本与对应的原始图像帧样本之间的损失,并根据损失对去伪影模型中的模型参数进行调整,训练去伪影模型的残差学习能力。
根据本申请的另一方面,提供了一种基于机器学习的去伪影装置,该装置包括:
第一获取模块,用于获取待处理的视频;
第一调用模块,用于调用去伪影模型预测视频的第i个原始图像帧与对应的压缩后的图像帧之间的残差,得到第i个原始图像帧的预测残差,i为正整数;
第一调用模块,用于调用去伪影模型将预测残差与对应的原始图像帧相加,得到去伪影处理后的目标图像帧;
编码模块,用于将若干个目标图像帧按序进行编码压缩,得到去伪影后的视频帧序列。
根据本申请的另一方面,提供了一种基于机器学习的去伪影模型训练装置,该装置包括:
第二获取模块,用于获取训练样本,每组训练样本包括视频样本的每一个原始图像帧样本和对应的编码压缩后的图像帧样本;
第二调用模块,用于调用去伪影模型预测每组训练样本中编码压缩后的图像帧样本的残差,得到样本残差;
第二调用模块,用于调用去伪影模型将样本残差与对应的编码压缩后的图像帧样本相加,得到去伪影处理后的目标图像帧样本;
训练模块,用于确定目标图像帧样本与对应的原始图像帧样本之间的损失,并根据损失对去伪影模型中的模型参数进行调整,训练去伪影模型的残差学习能力。
根据本申请的另一方面,提供了一种电子设备,该电子设备包括:
存储器;
与存储器相连的处理器;
其中,处理器被配置为加载并执行可执行指令以实现如上述一个方面及其可选实施例所述的基于机器学习的去伪影方法,以及如上述另一方面及其可选实施例所述的基于机器学习的去伪影模型训练方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,上述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述一个方面及其可选实施例所述的基于机器学习的去伪影方法,以及如上述另一方面及其可选实施例所述的基于机器学习的去伪影模型训练方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
上述基于机器学习的去伪影方法,通过获取待处理的视频;调用去伪影模型预测视频的第i个原始图像帧的残差,得到第i个原始图像帧的预测残差;调用去伪影模型将预测残差与对应的原始图像帧相加,得到去伪影处理后的目标图像帧;将若干个目标图像帧按序进行编码压缩,得到去伪影后的视频帧序列。
该方法通过采用残差学习结构的去伪影模型对视频压缩过程中可能产生的伪影进行预处理,通过残差学习准确的在视频帧的特征抽取过程中保留更多的视频帧的纹理细节,从而使压缩并解压后的视频帧的质量更高;通过去伪影模型来预处理视频编码压缩过程中可能出现的伪影,避免编码压缩后的视频明显地出现多类伪影,相比于传统的去伪影方式需要对不同的滤波器进行串行组合以及大量测试来确定出想要的去伪影效果,能够节省大量的测试成本,可以解决对多类伪影统一处理的难题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的基于机器学习的去伪影模型框架的结构示意图;
图2是本申请一个示例性实施例提供的基于机器学习的去伪影模型的应用框架的结构示意图;
图3是本申请一个示例性实施例提供的计算机系统的结构示意图;
图4是本申请一个示例性实施例提供的基于机器学习的去伪影模型训练方法的流程图;
图5是本申请一个示例性实施例提供的训练样本的生成流程的示意图;
图6是本申请一个示例性实施例提供的基于机器学习的去伪影方法的流程图;
图7是本申请一个示例性实施例提供的对未经去伪影模型处理的视频帧解压缩后的显示示意图;
图8是本申请一个示例性实施例提供的对经去伪影模型处理的视频帧解压缩后的显示示意图;
图9是本申请一个示例性实施例提供的未经去伪影模型处理的视频帧与经去伪影模型处理的视频帧分别解压缩后的对比显示示意图;
图10是本申请一个示例性实施例提供的基于机器学习的去伪影装置的框图;
图11是本申请一个示例性实施例提供的基于机器学习的去伪影模型训练装置的框图;
图12是本申请一个示例性实施例提供的终端的结构示意图;
图13是本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请涉及的若干个名词进行解释:
视频编解码:是一种视频压缩技术,实质上是通过减少视频图像中的冗余像素来实现对视频的压缩。其中,最为重要的视频编解码标准包括国际电信联盟的视频编码标准H.261、H.263、H.264,运动静止图像专家组(Motion-Joint Photographic Exoerts Group,M-JPEG),以及国际标准化组织的运动图像专家组(Moving Picture Experts Group,MPEG)系列标准;此外,视频编解码标准还包括互联网上的RealVideo视频格式,Windows媒体视频格式(Windows Media Video,WMV),以及QuickTime等。
一般情况下,视频压缩包括:有损压缩。也就是说,在视频编码压缩的过程中,由于像素的量化、分块等移除高频信息的操作会导致视频图像的信息损失,出现包括块效应、振铃效应和边缘毛刺等的负面效果。上述负面效果即为伪影。
上述“块效应”是指在视频编码过程中,由于对视频图像划分宏块进行编码压缩的方式导致视频图像的相关性被破坏,从而产生可见的小块边界处的不连续。
上述“振铃效应”是指通过滤波器对视频图像处理的过程中,滤波器具有陡峭的变化,导致滤波器输出视频图像的灰度剧烈变化处产生震荡。
上述“边缘毛刺”是指由于对相同视频图像进行了多次编码,导致视频图像内容严重损失,在视频图像的主体边缘处产生的随机刺状效应。
在视频编码压缩的过程中,需要对视频去伪影处理,传统的视频去伪影是通过视频增强滤波器进行视频图像的亮度调整、饱和度调整、锐化以及去噪等操作来实现的。对于不同质量的视频的去伪影处理需要对各种滤波器进行不同的排列组合才能够实现较佳的处理效果,但是,上述传统的去伪影方法在真实的业务场景中无法动态的对各种滤波器进行排列组合,从而对不同质量的视频进行处理。因此,本申请提供了一种基于机器学习的去伪影模型,能够在视频编码压缩的过程中达到更佳地对视频图像的去伪影效果。示意性的,如图1,上述基于机器学习的去伪影模型包括:
输入层101、特征提取模块102、特征重建模块103和输出层104;
特征提取模块102包括至少两个特征提取单元11与第一特征融合层12;至少两个特征提取单元11顺次连接,顺次连接的至少两个特征提取单元11中首部的特征提取单元11的输入端还与输入层101的输出端连接;每一个特征提取单元11的输出端与第一特征融合层12的输入端相连。
特征重建模块103包括降维单元21与特征重建单元22;降维单元21的输入端与第一特征融合层12的输出端相连、降维单元21的输出端与特征重建单元22的输入端相连;特征重建单元22的输出端与输出层104的输入端相连;输出层104的输入端还与输入层101的输出端相连。
在一些实施例中,降维单元21包括第一1×1卷积层31。
在一些实施例中,降维单元21包括第一1×1卷积层31、第二1×1卷积层32、第一特征提取层33和第二特征融合层34;
第一1×1卷积层31的输入端与第一特征融合层12的输出端相连,第一1×1卷积层31的输出端与第二特征融合层34的输入端相连;
第二1×1卷积层32的输入端与第一特征融合层12的输出端相连,第二1×1卷积层32的输出端与第一特征提取层33的输入端相连,特征提取层33的输出端与第二特征融合层34的输入端相连。
在一些实施例中,每一个特征提取单元11对应的卷积层中模型参数量是按照远离输入层101的方向逐层递减的。示意性的,模型参数量可以包括卷积核的尺寸、卷积核的通道数中的至少一种。
在一些实施例中,特征重建单元22包括特征重建层41;特征重建层41的输入端与第二特征融合层34的输出端相连,特征重建层41的输出端与输出层104的输入端相连。示意性的,特征重建层41可以是3×3卷积层。
在一些实施例中,特征重建单元22还包括第二特征提取层42;第二特征提取层42与特征重建层41连接,第二特征提取层42的输入端与第二特征融合层34的输出端相连,第二特征提取层的输出端与特征重建层41的输入端相连。
示意性的,图1中特征重建单元22包括了两个特征重建层41和一个第二特征提取层42,上述两个特征重建层41与第二特征提取层42连接,第二特征提取层42的输入端与第二特征融合层34的输出端相连,远离第二特征提取层42的特征重建层41的输出端与输出层104的输入端相连。
上述基于机器学习的去伪影模型的整体架构采用了残差学习的结构,通过残差学习在视频帧的特征抽取过程中保留更多的视频帧的纹理细节,从而使解压后的视频帧的质量更高;且通过训练基于机器学习的去伪影模型来预处理视频编码压缩过程中可能出现的伪影,避免编码压缩后的视频明显地出现多类伪影,相比于传统的去伪影方式需要对不同的滤波器进行串行组合以及大量测试来确定出想要的去伪影效果,能够节省大量的测试成本,且可以解决对多类伪影统一处理的难题。
示意性的,应用上述基于机器学习的去伪影模型进行视频编码压缩的实现框架200,如图2所示,包括了前处理模块201和压缩模块202。基于机器学习的去伪影模型51设置在前处理模块201中,用于对图像帧进行压缩前的去伪影处理;前处理模块201还包括去噪单元52、以及增强单元53,其中,去噪单元52用于去除图像帧中的噪声,增强单元53用于增强图像帧中像素点的信号强度。
压缩模块202包括了信号整形单元61、比特率确定单元62、区域压缩单元63、以及编码器64。信号整形单元61用于对经过前处理模块201压缩前处理过的图像帧的信号进行整形,比如,将波形缩小;比特率确定单元62用于确定图像帧压缩的比率;区域压缩单元63用于通过编码器64对图像帧进行分区域压缩。
经过上述前处理模块201与压缩模块202的编码压缩处理,得到视频的压缩帧。
在一些业务应用场景中,上述实现框架200被设置于服务器中,由服务器通过上述实现框架200实现对视频的编码压缩,如图3,示出了本申请一示例性实施例提供的计算机系统的结构示意图,该计算机系统包括第一终端301、服务器302、第二终端303。
第一终端301、第二终端303分别与服务器302之间通过有线或者无线网络相互连接。
可选地,第一终端301可以包括笔记本电脑、台式电脑、智能手机、平板电脑中的至少一种。第一终端301通过无线或者无线网络将拍摄得到的视频上传至服务器302。
服务器302包括存储器和处理器。存储器中存储有程序,上述程序被处理器调用来实现本申请提供的基于机器学习的去伪影方法中服务器侧执行的步骤。可选地,存储器中存储有基于机器学习的去伪影模型,上述基于机器学习的去伪影模型被处理器调用以实现上述基于机器学习的去伪影方法中服务器侧执行的步骤。
可选地,存储器可以包括但不限于以下几种:随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(ProgrammableRead-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)。
示意性的,服务器302在接收到第一终端301上传的视频之后,调用实现框架200中的前处理模块201对视频进行压缩前处理;关于对视频的去伪影处理,服务器302调用基于机器学习的去伪影模型预测视频的第i个原始图像帧的残差,得到第i个原始图像帧的预测残差;调用去伪影模型将预测残差与对应的原始图像帧相加,得到去伪影处理后的目标图像帧。在经过前处理模块201的压缩前处理之后,服务器302调用实现框架200中的压缩模块202对上述目标图像帧进行压缩,得到压缩视频;其中,i为正整数。
服务器302通过无线或无线网络将上述压缩视频发送至第二终端303中,第二终端303可以通过解压缩对上述压缩视频进行播放。
请参考图4,示出了本申请一个示例性实施例提供的基于机器学习的去伪影模型的训练方法的流程图,该方法应用于电子设备中,上述电子设备可以是终端或者服务器,该方法包括:
步骤401,电子设备获取训练样本。
每组训练样本包括视频样本的每一个原始图像帧样本和对应的编码压缩后的图像帧样本。其中,上述电子设备可以是终端,也可以是服务器。
上述每组训练样本是对原始视频进行压缩,得到压缩视频;从上述原始视频中随机抽取n个原始图像帧样本,并从上述压缩视频中抽取n个原始图像帧样本对应的n个编码压缩后的图像帧样本;n个原始图像帧样本与n个编码压缩后的图像帧样本对应组合成为n组训练样本;n为正整数。
示意性的,如图5,电子设备调用基于H.264编码标准设置的解码器71对高清视频进行解封装,得到YUV格式的视频帧流;其中,Y表示明亮度(Lnminance或Luma),也就是灰阶值;U和V表示色度(Chrominance或Chrome),用于描述影像色彩及饱和度,指定像素的颜色。其次,电子设备调用基于H.264编码标准设置的编码器72对上述视频帧流进行编码压缩,得到压缩视频。电子设备对应抽取原始高清视频和压缩视频中的图像帧;其中,从压缩视频中抽取得到的图像帧中包括伪影,比如,块效应、振铃效应、以及边缘毛刺等负面效应。再次,电子设备通过色彩空间转换引擎73提取每组图像帧的YUV格式中Y通道数据作为训练样本。
需要说明的是,在上述编码阶段中,电子设备在预设范围内随机选取固定码率系数(Constant Rate Factor,CRF)进行压缩,在保证压缩质量的同时,使压缩图像帧包括的伪影更加多样化。比如,CRF的预设范围为30至60,电子设备在编码阶段从30至60这一范围内选取一个值作为本次编码压缩的CRF。
还需要说明的是,电子设备还通过数据增广的方式增加训练样本的数据量;比如,电子设备通过上述图5所示的方法得到训练样本之后,对训练样本进行垂直翻转、水平翻转、或者90度旋转等方式得到更多的训练样本。
步骤402,电子设备调用去伪影模型预测每组训练样本中编码压缩后的图像帧样本的残差,得到样本残差。
可选地,电子设备通过去伪影模型学习样本残差的示意性步骤如下:
1)电子设备调用去伪影模型对编码压缩后的图像帧样本进行特征提取,得到编码压缩后的图像帧样本的样本特征向量。
可选地,去伪影模型包括至少两个特征提取单元和第一特征融合层;至少两个特征提取单元顺次连接,每一个特征提取单元的输出端还与第一特征融合层的输入端连接。电子设备调用至少两个特征提取单元中的每一个特征提取单元对原始图像帧样本进行特征提取,得到至少两个样本特征子向量;调用第一特征融合层将至少两个样本特征子向量进行融合,得到样本特征向量。
示意性的,去伪影模型中包括5个特征提取单元和1个特征融合层,电子设备将每组训练样本输入第1个特征提取单元,第1个特征提取单元对训练样本进行特征提取,得到样本特征子向量A1;将样本特征子向量A1输入第2个特征提取单元,第2个特征提取单元对样本特征子向量A1进行特征提取,得到样本特征子向量A2;以此类推,第3个特征提取单元对样本特征子向量A2进行特征提取得到样本特征子向量A3,第4个特征提取单元对样本特征子向量A3进行特征提取得到样本特征子向量A4,第5个特征提取单元对样本特征子向量A4进行特征提取得到样本特征子向量A5;将上述样本特征子向量A1、A2、A3、A4和A5输入特征融合层中进行特征融合,得到样本特征向量A1A2A3A4A5,其中,上述样本特征向量A1A2A3A4A5是样本特征子向量A1、A2、A3、A4和A5级联得到的。
可选地,顺次连接的至少两个特征提取单元中每一个特征提取单元中的模型参数量是按照靠近第一特征融合层的方向逐层递减的。
2)电子设备调用去伪影模型对样本特征向量降维,得到降维后的样本特征向量。
电子设备调用去伪影模型对样本特征向量降维,可选地,去伪影模型中可以包括第一1×1卷积层;通过第一1×1卷积层对样本特征向量降维,得到降维后的样本特征向量。
可选地,去伪影模型中可以包括第一1×1卷积层、第二1×1卷积层、特征提取层和第二特征融合层;调用第一1×1卷积层对样本特征向量降维,得到降维后的第一样本特征向量;调用第二1×1卷积层对样本特征向量降维,得到降维后的第二样本特征向量;调用特征提取层对第二样本特征向量进行特征提取,得到特征提取后的第二样本特征向量;调用第二特征融合层将第一样本特征向量与特征提取后的第二样本特征向量进行融合,得到降维后的样本特征向量。
示意性的,电子设备调用去伪影模型中的第一1×1卷积层对样本特征向量A1A2A3A4A5进行降维,得到降维后的第一样本特征向量B1;调用第二1×1卷积层对样本特征向量A1A2A3A4A5进行降维,得到降维后的第二样本特征向量B2,调用特征提取层对第二样本特征向量B2进行特征提取,得到特征提取后的第二样本特征向量B3;调用第二特征融合层将第一样本特征向量B1与特征提取后的第二样本特征向量B3进行融合,得到降维后的样本特征向量B1B3。
3)电子设备调用去伪影模型对降维后的样本特征向量进行特征重建,得到样本残差。
可选地,去伪影模型中包括3×3卷积层;通过3×3卷积层对降维后的样本特征向量进行特征重建,得到样本残差。
可选地,去伪影模型中包括顺次连接的至少两个3×3卷积层;通过上述顺次连接的至少两个3×3卷积层对降维后的样本特征向量进行特征重建,得到样本残差。
步骤403,电子设备调用去伪影模型将样本残差与对应的编码压缩后的图像帧样本相加,得到去伪影处理后的目标图像帧样本。
步骤404,电子设备确定目标图像帧样本与对应的原始图像帧样本之间的损失。
电子设备调用去伪影模型中的损失函数计算目标图像帧样本与对应的原始图像帧样本之间的损失,比如,目标图像帧样本与对应的原始图像帧样本之间的平均绝对误差、或者均方误差、或者平均偏差误差。
步骤405,电子设备根据损失对去伪影模型中的模型参数进行调整,训练去伪影模型的残差学习能力。
电子设备中去伪影模型对上述损失进行反向传播,通过上述损失对去伪影模型中的模型参数进行调整,训练去伪影模型的残差学习能力。比如,电子设备中去伪影模型对平均绝对误差进行反向传播,通过上述平均绝对误差对去伪影模型中的模型参数进行调整,训练去伪影模型的残差学习能力。
综上所述,本实施例提供的基于机器学习的去伪影模型训练方法,通过获取训练样本;调用去伪影模型预测每组训练样本中编码压缩后的图像帧样本的残差,得到样本残差;调用去伪影模型将样本残差与对应的编码压缩后的图像帧样本相加,得到去伪影处理后的目标图像帧样本;确定目标图像帧样本与对应的原始图像帧样本之间的损失;根据损失对去伪影模型中的模型参数进行调整,训练去伪影模型的残差学习能力。该方法对采用了残差学习结构的去伪影模型进行训练,使去伪影模型经过训练,能够通过残差学习准确的在视频帧的特征抽取过程中保留更多的视频帧的纹理细节,从而使解压后的视频帧的质量更高;通过训练得到的去伪影模型来预处理视频编码压缩过程中可能出现的伪影,避免编码压缩后的视频明显地出现多类伪影,相比于传统的去伪影方式需要对不同的滤波器进行串行组合以及大量测试来确定出想要的去伪影效果,能够节省大量的测试成本,可以解决对多类伪影统一处理的难题。
其次,对于上述训练样本的获取,是通过自动化程序生成的,能够减少人工标注所消耗的人力成本。
请参考图6,示出了本申请一个示例性实施例提供的基于机器学习的去伪影方法的流程图,该方法应用于电子设备中,上述电子设备可以是终端或者服务器,上述电子设备中存储有去伪影模型,该方法包括:
步骤501,电子设备获取待处理的视频。
上述待处理的视频可以是通过该电子设备上的物理接口上传至该电子设备的视频,也可以是通过有线或者无线网络传输至该电子设备的视频。比如,该电子设备可以是服务器,终端通过有线或者无线网络向服务器发送视频,服务器接收得到视频。
步骤502,电子设备调用去伪影模型预测视频的第i个原始图像帧与对应的压缩后的图像帧之间的残差,得到第i个原始图像帧的预测残差。
可选地,电子设备调用去伪影模型对视频进行残差学习,示意性步骤如下:
1)电子设备调用去伪影模型对第i个原始图像帧进行特征提取,得到第i个原始图像帧的特征向量。
可选地,去伪影模型包括至少两个特征提取单元和第一特征融合层;至少两个特征提取单元顺次连接,每一个特征提取单元的输出端还与第一特征融合层的输入端连接。电子设备调用至少两个特征提取单元中的每一个特征提取单元对第i个原始图像帧进行特征提取,得到至少两个特征子向量;调用第一特征融合层将至少两个特征子向量进行融合,得到特征向量。
示意性的,去伪影模型中包括3个特征提取单元和1个特征融合层,电子设备将每一个原始图像帧输入第1个特征提取单元,第1个特征提取单元对原始图像帧进行特征提取,得到特征子向量C1;将特征子向量C1输入第2个特征提取单元,第2个特征提取单元对特征子向量C1进行特征提取,得到特征子向量C2;将特征子向量C2输入第3个特征提取单元,第3个特征对特征子向量C2进行特征提取得到特征子向量C3;将上述特征子向量C1、C2和C3输入特征融合层中进行特征融合,得到样本特征向量C1C2C3。
可选地,顺次连接的至少两个特征提取单元中每一个特征提取单元对应的卷积层中模型参数量是按照靠近特征融合层的方向逐层递减的,比如,上述顺次连接的3个特征提取单元中,第1个特征提取单元对应的卷积层中有10000个模型参数,第2个特征提取单元对应的卷积层中有5000个模型参数,第3个特征提取单元对应的卷积层中有3000个模型参数。电子设备中去伪影模型通过上述顺次连接的至少两个特征提取单元提取得到特征向量。
2)电子设备调用去伪影模型对特征向量降维,得到降维后的特征向量。
可选地,去伪影模型中包括第一1×1卷积层;电子设备通过去伪影模型中的第一1×1卷积层对每一个特征向量进行降维,得到降维后的特征向量。
可选地,去伪影模型中包括第一1×1卷积层、第二1×1卷积层、特征提取层和第二特征融合层;电子设备调用第一1×1卷积层对特征向量降维,得到降维后的第一特征向量;调用第二1×1卷积层对特征向量降维,得到降维后的第二特征向量;调用特征提取层对第二特征向量进行特征提取,得到特征提取后的第二特征向量;调用第二特征融合层将第一特征向量与特征提取后的第二特征向量进行融合,得到降维后的特征向量。
3)电子设备调用去伪影模型对降维后的特征向量进行特征重建,得到第i个原始图像帧与对应的压缩后的图像帧之间的预测残差。
可选地,去伪影模型中包括3×3卷积层;电子设备通过去伪影模型中的3×3卷积层对降维后的特征向量进行特征重建,得到第i个原始图像帧与对应的压缩后的图像帧之间的预测残差。
可选地,去伪影模型中包括顺次连接的至少两个3×3卷积层;电子设备通过去伪影模型中的至少两个3×3卷积层对降维后的特征向量进行特征重建,得到预测残差。可选地,去伪影模型中还包括一个特征提取层;电子设备通过去伪影模型中的特征提取层对降维后的特征向量进行特征提取,得到候选特征向量;将候选特征向量输入至少两个3×3卷积层对候选特征向量进行特征重建,得到第i个原始图像帧与对应的压缩后的图像帧之间的预测残差。
步骤503,电子设备调用去伪影模型将预测残差与对应的原始图像帧相加,得到去伪影处理后的目标图像帧。
需要说明的是,电子设备调用去伪影模型将预测残差与对应的原始图像帧相加得到的目标图像帧的步骤是电子设备对视频进行压缩前处理的一个步骤。也就是说,电子设备在对视频进行压缩前,需要进行去伪影处理。
步骤504,电子设备将若干个目标图像帧按序进行编码压缩,得到去伪影后的视频帧序列。
电子设备中设置有编码压缩模块,通过上述编码压缩模块对若干个目标图像帧按序进行编码压缩,得到去伪影后的视频帧序列。需要说明的是,上述去伪影后的视频帧序列即是编码压缩后的视频帧,用户在终端上播放的视频是通过对上述去伪影后的视频帧序列解压缩得到的。
综上所述,本实施例提供的基于机器学习的去伪影方法,通过获取待处理的视频;调用去伪影模型预测视频的第i个原始图像帧的残差,得到第i个原始图像帧的预测残差;调用去伪影模型将预测残差与对应的原始图像帧相加,得到去伪影处理后的目标图像帧;将若干个目标图像帧按序进行编码压缩,得到去伪影后的视频帧序列。该方法通过采用残差学习结构的去伪影模型对视频压缩过程中可能产生的伪影进行预处理,通过残差学习准确的在视频帧的特征抽取过程中保留更多的视频帧的纹理细节,从而使压缩并解压后的视频帧的质量更高;通过去伪影模型来预处理视频编码压缩的过程中可能出现的伪影,避免编码压缩后的视频明显地出现多类伪影,相比于传统的去伪影方式需要对不同的滤波器进行串行组合以及大量测试来确定出想要的去伪影效果,能够节省大量的测试成本,可以避免对多类伪影统一处理的难题;还可以通过模型本身的泛化能力达到自适应强度目的。
示意性的,峰值信噪比(Peak Signal to Noise Ratio,PSNR)用于衡量图像质量,结构相似性(Structural SIMilarity index,SSIM)用于衡量两幅图像之间的相似度;在实验中用PSNR和SSIM两个指标进行去伪影模型的性能测试,首先,在CRF值处于20至40的压缩视频中,对应每一个值随机选取一帧作为测试集;其次,观察在模型参数量限制在26436个的情况下,去伪影模型对视频去伪影的客观指标的变化,如表1,客观指标均有提升,主观质量评测明显提升,即PSNR与SSIM均有所提升。
表1
如图7,示出了经过去伪影模型进行去伪影处理前的解压缩效果,如图8,示出了去伪影处理后的解压缩下效果,可以明显的看出,图像中的毛刺显著减少,轮廓更加干净,主观质量明显增强。还以去伪影模型对振铃效应的去除效果进行举例说,如图9,左图是未经去伪影模型处理的原始图像帧,右图是经过去伪影模型处理的图像帧,通过对比可以明显看出图像的上半部分和下半部分的中心区域存在大量的振铃效应,经过去伪影模型处理能够有效的去除了振铃效应。
还需要说明的是,上述基于机器学习的去伪影方法可以广泛的应用于在线视频、在线游戏、视频监控、视频发布等不同的有关视频的应用场景中。
若以上述去伪影方法应用于多人在线的游戏场景中为例进行说明,示意性的,第一游戏终端接收到用户触发的操作事件,将操作时间上报至服务器;服务器根据第一游戏终端上报的操作事件对在线游戏的视频画面进行更新;服务器中设置有去伪影模型,服务器调用去伪影模型对更新后的视频画面进行去伪影处理,对经过去伪影处理的视频画面进行编码压缩,并将编码压缩后的视频画面发送至第一游戏终端和第二游戏终端;第一游戏终端和第二游戏终端分别对上述编码压缩后的视频画面进行解压缩并播放。
若以上述去伪影方法应用于在线视频会议的场景中为例进行说明,示意性的,第一终端通过摄像头对拍摄范围内的画面进行录制,并将录制得到的视频上传至服务器;服务器中设置有去伪影模型,服务器调用去伪影模型对第一终端上传的视频进行去伪影处理,对经过去伪影处理的视频画面进行编码压缩,并将编码压缩后的视频画面发送至第二终端;第二终端对上述编码压缩后的视频画面进行解压缩并播放。与此同时,第二终端也在录制视频,对应的服务器将经去伪影处理的编码压缩视频发送至第一终端进行播放。
若以上述去伪影方法应用于视频发布的场景中为例进行说明,示意性的,第一终端将存储的视频上传至服务器;服务器中设置有去伪影模型,服务器调用去伪影模型对第一终端上传的视频进行去伪影处理,对经过去伪影处理的视频画面进行编码压缩,并将编码压缩后的视频画面发送至第二终端;第二终端在接收到用户针对该视频触发的播放操作后对该视频进行播放。
在上述不同的应用场景中,基于机器学习的去伪影方法均能够有效的去除编码压缩后视频中的多类伪影,提高用户的视觉体验。
请参考图10,示出了本申请一个示例性实施例提供的基于机器学习的去伪影装置的框图,该装置通过软件、硬件或者二者的结合实现成为终端或者服务器的部分或者全部,该装置包括:
第一获取模块601,用于获取待处理的视频;
第一调用模块602,用于调用去伪影模型预测视频的第i个原始图像帧与对应的压缩后的图像帧之间的残差,得到第i个原始图像帧的预测残差,i为正整数;
第一调用模块602,用于调用去伪影模型将预测残差与对应的原始图像帧相加,得到去伪影处理后的目标图像帧。
在一些实施例中,第一调用模块602,用于调用去伪影模型对第i个原始图像帧进行特征提取,得到第i个原始图像帧的特征向量;调用去伪影模型对特征向量降维,得到降维后的特征向量;调用去伪影模型对降维后的特征向量进行特征重建,得到预测残差。
在一些实施例中,去伪影模型包括至少两个特征提取单元和第一特征融合层,至少两个特征提取单元顺次连接,每一个特征提取单元的输出端还与第一特征融合层的输入端连接;
第一调用模块602,用于调用至少两个特征提取单元中的每一个特征提取单元对第i个原始图像帧进行特征提取,得到至少两个特征子向量;调用第一特征融合层将至少两个特征子向量进行融合,得到特征向量。
在一些实施例中,去伪影模型包括第一1×1卷积层、第二1×1卷积层、特征提取层和第二特征融合层;
第一调用模块602,用于调用第一1×1卷积层对特征向量降维,得到降维后的第一特征向量;调用第二1×1卷积层对特征向量降维,得到降维后的第二特征向量;调用特征提取层对第二特征向量进行特征提取,得到特征提取后的第二特征向量;调用第二特征融合层将第一特征向量与特征提取后的第二特征向量进行融合,得到降维后的特征向量。
综上所述,本实施例提供的基于机器学习的去伪影装置,通过获取待处理的视频;调用去伪影模型预测视频的第i个原始图像帧的残差,得到第i个原始图像帧的预测残差;调用去伪影模型将预测残差与对应的原始图像帧相加,得到去伪影处理后的目标图像帧;将若干个目标图像帧按序进行编码压缩,得到去伪影后的视频帧序列。该装置通过采用残差学习结构的去伪影模型对视频压缩过程中可能产生的伪影进行预处理,通过残差学习准确的在视频帧的特征抽取过程中保留更多的视频帧的纹理细节,从而使压缩并解压后的视频帧的质量更高;通过去伪影模型来预处理视频编码压缩的过程中可能出现的伪影,避免编码压缩后的视频明显地出现多类伪影,相比于传统的去伪影方式需要对不同的滤波器进行串行组合以及大量测试来确定出想要的去伪影效果,能够节省大量的测试成本,可以避免对多类伪影统一处理的难题;还可以通过模型本身的泛化能力达到自适应强度目的。
请参考图11,示出了本申请一个示例性实施例提供的基于机器学习的去伪影模型训练装置的框图,该装置通过软件、硬件或者二者的结合实现成为终端或者服务器的部分或者全部,该装置包括:
第二获取模块701,用于获取训练样本,每组训练样本包括视频样本的每一个原始图像帧样本和对应的编码压缩后的图像帧样本;
第二调用模块702,用于调用去伪影模型预测每组训练样本中编码压缩后的图像帧样本的残差,得到样本残差;
第二调用模块702,用于调用去伪影模型将样本残差与对应的编码压缩后的图像帧样本相加,得到去伪影处理后的目标图像帧样本;
训练模块703,用于确定目标图像帧样本与对应的原始图像帧样本之间的损失,并根据损失对去伪影模型中的模型参数进行调整,训练去伪影模型的残差学习能力。
在一些实施例中,第二调用模块702,用于调用去伪影模型对编码压缩后的图像帧样本进行特征提取,得到编码压缩后的图像帧样本的样本特征向量;调用去伪影模型对样本特征向量降维,得到降维后的样本特征向量;调用去伪影模型对降维后的样本特征向量进行特征重建,得到样本残差。
在一些实施例中,去伪影模型包括至少两个特征提取单元和第一特征融合层,至少两个特征提取单元顺次连接,每一个特征提取单元的输出端还与第一特征融合层的输入端连接;
第二调用模块702,用于调用至少两个特征提取单元中的每一个特征提取单元对原始图像帧样本进行特征提取,得到至少两个样本特征子向量;调用第一特征融合层将至少两个样本特征子向量进行融合,得到样本特征向量。
在一些实施例中,去伪影模型包括第一1×1卷积层、第二1×1卷积层、特征提取层和第二特征融合层;
第二调用模块702,用于调用第一1×1卷积层对样本特征向量降维,得到降维后的第一样本特征向量;调用第二1×1卷积层对样本特征向量降维,得到降维后的第二样本特征向量;调用特征提取层对第二样本特征向量进行特征提取,得到特征提取后的第二样本特征向量;调用第二特征融合层将第一样本特征向量与特征提取后的第二样本特征向量进行融合,得到降维后的样本特征向量。
综上所述,本实施例提供的基于机器学习的去伪影模型训练装置,通过获取训练样本;调用去伪影模型预测每组训练样本中编码压缩后的图像帧样本的残差,得到样本残差;调用去伪影模型将样本残差与对应的编码压缩后的图像帧样本相加,得到去伪影处理后的目标图像帧样本;确定目标图像帧样本与对应的原始图像帧样本之间的损失;根据损失对去伪影模型中的模型参数进行调整,训练去伪影模型的残差学习能力。该装置对采用了残差学习结构的去伪影模型进行训练,使去伪影模型经过训练,能够通过残差学习准确的在视频帧的特征抽取过程中保留更多的视频帧的纹理细节,从而使解压后的视频帧的质量更高;通过训练得到的去伪影模型来预处理视频编码压缩的过程中可能出现的伪影,避免编码压缩后的视频明显地出现多类伪影,相比于传统的去伪影方式需要对不同的滤波器进行串行组合以及大量测试来确定出想要的去伪影效果,能够节省大量的测试成本,可以避免对多类伪影统一处理的难题。
请参考图12,示出了本申请一个示例性实施例提供的终端800的结构框图。该终端800可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的基于机器学习的去伪影方法、以及去伪影模型训练方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、显示屏805、音频电路806、定位组件807和电源808中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置终端800的前面板;在另一些实施例中,显示屏805可以为至少一个,分别设置在终端800的不同表面或呈折叠设计;在一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
音频电路806可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路806还可以包括耳机插孔。
定位组件807用于定位终端800的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件807可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源808用于为终端800中的各个组件进行供电。电源808可以是交流电、直流电、一次性电池或可充电电池。当电源808包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图12中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
请参考图13,示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的基于机器学习的去伪影方法、以及去伪影模型训练方法。具体来讲:
所述服务器900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。所述服务器900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906,和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。
所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说,所述大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。
根据本申请的各种实施例,所述服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种基于机器学习的去伪影方法,其特征在于,所述方法包括:
获取待处理的视频;
调用去伪影模型对所述视频的第i个原始图像帧进行特征提取,得到所述第i个原始图像帧的特征向量;所述去伪影模型包括第一1×1卷积层、第二1×1卷积层、特征提取层和第二特征融合层;
调用所述第一1×1卷积层对所述特征向量降维,得到降维后的第一特征向量;调用所述第二1×1卷积层对所述特征向量降维,得到降维后的第二特征向量;调用所述特征提取层对所述第二特征向量进行特征提取,得到特征提取后的第二特征向量;调用所述第二特征融合层将所述第一特征向量与所述特征提取后的第二特征向量进行融合,得到降维后的特征向量;
调用所述去伪影模型对所述降维后的特征向量进行特征重建,得到所述第i个原始图像帧与对应的压缩后的图像帧之间的预测残差,i为正整数;
调用所述去伪影模型将所述预测残差与对应的所述原始图像帧相加,得到去伪影处理后的目标图像帧;
将若干个所述目标图像帧按序进行编码压缩,得到去伪影后的视频帧序列。
2.根据权利要求1所述的方法,其特征在于,所述去伪影模型包括至少两个特征提取单元和第一特征融合层,至少两个所述特征提取单元顺次连接,每一个所述特征提取单元的输出端还与所述第一特征融合层的输入端连接;
所述调用所述去伪影模型对所述视频的第i个原始图像帧进行特征提取,得到所述第i个原始图像帧的特征向量,包括:
调用至少两个所述特征提取单元中的每一个所述特征提取单元对第i个所述原始图像帧进行特征提取,得到至少两个特征子向量;
调用所述第一特征融合层将至少两个所述特征子向量进行融合,得到所述特征向量。
3.根据权利要求1或2所述的方法,其特征在于,所述去伪影模型是通过如下方式训练得到的:
获取训练样本,每组训练样本包括视频样本的每一个原始图像帧样本和对应的编码压缩后的图像帧样本;
调用所述去伪影模型预测所述每组训练样本中所述编码压缩后的图像帧样本的残差,得到样本残差;
调用所述去伪影模型将所述样本残差与对应的所述编码压缩后的图像帧样本相加,得到去伪影处理后的目标图像帧样本;
确定所述目标图像帧样本与对应的所述原始图像帧样本之间的损失,并根据所述损失对所述去伪影模型中的模型参数进行调整,训练所述去伪影模型的残差学习能力。
4.根据权利要求3所述的方法,其特征在于,所述调用所述去伪影模型预测所述每组训练样本中所述编码压缩后的图像帧样本的残差,得到样本残差,包括:
调用所述去伪影模型对所述编码压缩后的图像帧样本进行特征提取,得到所述编码压缩后的图像帧样本的样本特征向量;
调用所述去伪影模型对所述样本特征向量降维,得到降维后的样本特征向量;
调用所述去伪影模型对所述降维后的样本特征向量进行特征重建,得到所述样本残差。
5.根据权利要求4所述的方法,其特征在于,所述去伪影模型包括至少两个特征提取单元和第一特征融合层,至少两个所述特征提取单元顺次连接,每一个所述特征提取单元的输出端还与所述第一特征融合层的输入端连接;
所述调用所述去伪影模型对所述编码压缩后的图像帧样本进行特征提取,得到所述编码压缩后的图像帧样本的样本特征向量,包括:
调用至少两个所述特征提取单元中的每一个所述特征提取单元对所述原始图像帧样本进行特征提取,得到至少两个样本特征子向量;
调用所述第一特征融合层将至少两个所述样本特征子向量进行融合,得到所述样本特征向量。
6.根据权利要求4所述的方法,其特征在于,所述去伪影模型包括第一1×1卷积层、第二1×1卷积层、特征提取层和第二特征融合层;
所述调用所述去伪影模型对所述样本特征向量降维,得到降维后的样本特征向量,包括:
调用所述第一1×1卷积层对所述样本特征向量降维,得到降维后的第一样本特征向量;
调用所述第二1×1卷积层对所述样本特征向量降维,得到降维后的第二样本特征向量;调用所述特征提取层对所述第二样本特征向量进行特征提取,得到特征提取后的第二样本特征向量;
调用所述第二特征融合层将所述第一样本特征向量与所述特征提取后的第二样本特征向量进行融合,得到所述降维后的样本特征向量。
7.一种基于机器学习的去伪影模型训练方法,其特征在于,所述方法包括:
获取训练样本,每组训练样本包括视频样本的每一个原始图像帧样本和对应的编码压缩后的图像帧样本;
调用去伪影模型对所述编码压缩后的图像帧样本进行特征提取,得到所述编码压缩后的图像帧样本的样本特征向量;所述去伪影模型包括第一1×1卷积层、第二1×1卷积层、特征提取层和第二特征融合层;
调用所述第一1×1卷积层对所述样本特征向量降维,得到降维后的第一样本特征向量;调用所述第二1×1卷积层对所述样本特征向量降维,得到降维后的第二样本特征向量;调用所述特征提取层对所述第二样本特征向量进行特征提取,得到特征提取后的第二样本特征向量;调用所述第二特征融合层将所述第一样本特征向量与所述特征提取后的第二样本特征向量进行融合,得到降维后的样本特征向量;
调用所述去伪影模型对所述降维后的样本特征向量进行特征重建,得到样本残差;
调用所述去伪影模型将所述样本残差与对应的所述编码压缩后的图像帧样本相加,得到去伪影处理后的目标图像帧样本;
确定所述目标图像帧样本与对应的所述原始图像帧样本之间的损失,并根据所述损失对所述去伪影模型中的模型参数进行调整,训练所述去伪影模型的残差学习能力。
8.一种基于机器学习的去伪影装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理的视频;
第一调用模块,用于调用去伪影模型对所述视频的第i个原始图像帧进行特征提取,得到所述第i个原始图像帧的特征向量;所述去伪影模型包括第一1×1卷积层、第二1×1卷积层、特征提取层和第二特征融合层;
所述第一调用模块,用于调用所述第一1×1卷积层对所述特征向量降维,得到降维后的第一特征向量;调用所述第二1×1卷积层对所述特征向量降维,得到降维后的第二特征向量;调用所述特征提取层对所述第二特征向量进行特征提取,得到特征提取后的第二特征向量;调用所述第二特征融合层将所述第一特征向量与所述特征提取后的第二特征向量进行融合,得到降维后的特征向量;
所述第一调用模块,用于调用所述去伪影模型对所述降维后的特征向量进行特征重建,得到所述第i个原始图像帧与对应的压缩后的图像帧之间的预测残差,i为正整数;
所述第一调用模块,用于调用所述去伪影模型将所述预测残差与对应的所述原始图像帧相加,得到去伪影处理后的目标图像帧;
编码模块,用于将若干个所述目标图像帧按序进行编码压缩,得到去伪影后的视频帧序列。
9.一种基于机器学习的去伪影模型训练装置,其特征在于,所述装置包括:
第二获取模块,用于获取训练样本,每组训练样本包括视频样本的每一个原始图像帧样本和对应的编码压缩后的图像帧样本;
第二调用模块,用于调用去伪影模型对所述编码压缩后的图像帧样本进行特征提取,得到所述编码压缩后的图像帧样本的样本特征向量;所述去伪影模型包括第一1×1卷积层、第二1×1卷积层、特征提取层和第二特征融合层;
所述第二调用模块,用于调用所述第一1×1卷积层对所述样本特征向量降维,得到降维后的第一样本特征向量;调用所述第二1×1卷积层对所述样本特征向量降维,得到降维后的第二样本特征向量;调用所述特征提取层对所述第二样本特征向量进行特征提取,得到特征提取后的第二样本特征向量;调用所述第二特征融合层将所述第一样本特征向量与所述特征提取后的第二样本特征向量进行融合,得到降维后的样本特征向量;
所述第二调用模块,用于调用所述去伪影模型对所述降维后的样本特征向量进行特征重建,得到样本残差;
所述第二调用模块,用于调用所述去伪影模型将所述样本残差与对应的所述编码压缩后的图像帧样本相加,得到去伪影处理后的目标图像帧样本;
训练模块,用于确定所述目标图像帧样本与对应的所述原始图像帧样本之间的损失,并根据所述损失对所述去伪影模型中的模型参数进行调整,训练所述去伪影模型的残差学习能力。
10.一种电子设备,其特征在于,所述电子设备包括:
存储器;
与所述存储器相连的处理器;
其中,所述处理器被配置为加载并执行可执行指令以实现如权利要求1至6任一所述的基于机器学习的去伪影方法,以及如权利要求7所述的基于机器学习的去伪影模型训练方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集;所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至6任一所述的基于机器学习的去伪影方法,以及如权利要求7所述的基于机器学习的去伪影模型训练方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910984591.3A CN110677649B (zh) | 2019-10-16 | 2019-10-16 | 基于机器学习的去伪影方法、去伪影模型训练方法及装置 |
PCT/CN2020/120006 WO2021073449A1 (zh) | 2019-10-16 | 2020-10-09 | 基于机器学习的去伪影方法、去伪影模型训练方法及装置 |
EP20876460.5A EP3985972A4 (en) | 2019-10-16 | 2020-10-09 | MACHINE LEARNING-BASED ARTIFACT REMOVAL METHOD AND APPARATUS, AND MACHINE LEARNING-BASED ARTIFACT REMOVAL MODEL TRAINING METHOD AND APPARATUS |
US17/501,217 US11985358B2 (en) | 2019-10-16 | 2021-10-14 | Artifact removal method and apparatus based on machine learning, and method and apparatus for training artifact removal model based on machine learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910984591.3A CN110677649B (zh) | 2019-10-16 | 2019-10-16 | 基于机器学习的去伪影方法、去伪影模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110677649A CN110677649A (zh) | 2020-01-10 |
CN110677649B true CN110677649B (zh) | 2021-09-28 |
Family
ID=69082807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910984591.3A Active CN110677649B (zh) | 2019-10-16 | 2019-10-16 | 基于机器学习的去伪影方法、去伪影模型训练方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11985358B2 (zh) |
EP (1) | EP3985972A4 (zh) |
CN (1) | CN110677649B (zh) |
WO (1) | WO2021073449A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110677649B (zh) * | 2019-10-16 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 基于机器学习的去伪影方法、去伪影模型训练方法及装置 |
EP3938998A1 (en) * | 2020-05-19 | 2022-01-19 | Google LLC | Debanding using a novel banding metric |
CN113256529B (zh) * | 2021-06-09 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN114240787A (zh) * | 2021-12-20 | 2022-03-25 | 北京市商汤科技开发有限公司 | 压缩图像修复方法及装置、电子设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106204489A (zh) * | 2016-07-12 | 2016-12-07 | 四川大学 | 结合深度学习与梯度转换的单幅图像超分辨率重建方法 |
CN107463989A (zh) * | 2017-07-25 | 2017-12-12 | 福建帝视信息科技有限公司 | 一种基于深度学习的图像去压缩伪影方法 |
CN107871332A (zh) * | 2017-11-09 | 2018-04-03 | 南京邮电大学 | 一种基于残差学习的ct稀疏重建伪影校正方法及系统 |
US10083499B1 (en) * | 2016-10-11 | 2018-09-25 | Google Llc | Methods and apparatus to reduce compression artifacts in images |
CN109064521A (zh) * | 2018-07-25 | 2018-12-21 | 南京邮电大学 | 一种使用深度学习的cbct去伪影方法 |
CN109166161A (zh) * | 2018-07-04 | 2019-01-08 | 东南大学 | 一种基于噪声伪影抑制卷积神经网络的低剂量ct图像处理系统 |
EP3451670A1 (en) * | 2017-08-28 | 2019-03-06 | Thomson Licensing | Method and apparatus for filtering with mode-aware deep learning |
EP3451293A1 (en) * | 2017-08-28 | 2019-03-06 | Thomson Licensing | Method and apparatus for filtering with multi-branch deep learning |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201119206D0 (en) * | 2011-11-07 | 2011-12-21 | Canon Kk | Method and device for providing compensation offsets for a set of reconstructed samples of an image |
CN103999466B (zh) * | 2011-12-17 | 2017-08-15 | 杜比实验室特许公司 | 多层交错帧相容增强分辨率视频传输 |
KR101871098B1 (ko) * | 2017-01-12 | 2018-06-25 | 포항공과대학교 산학협력단 | 이미지 처리 방법 및 장치 |
CN108710950A (zh) * | 2018-05-11 | 2018-10-26 | 上海市第六人民医院 | 一种图像量化分析方法 |
CN109257600B (zh) * | 2018-11-28 | 2020-11-17 | 福建帝视信息科技有限公司 | 一种基于深度学习的视频压缩伪影自适应去除方法 |
CN109785249A (zh) * | 2018-12-22 | 2019-05-21 | 昆明理工大学 | 一种基于持续性记忆密集网络的图像高效去噪方法 |
CN110276736B (zh) * | 2019-04-01 | 2021-01-19 | 厦门大学 | 一种基于权值预测网络的磁共振图像融合方法 |
US11017506B2 (en) * | 2019-05-03 | 2021-05-25 | Amazon Technologies, Inc. | Video enhancement using a generator with filters of generative adversarial network |
EP3973498A1 (en) * | 2019-06-18 | 2022-03-30 | Huawei Technologies Co., Ltd. | Real-time video ultra resolution |
CN110677649B (zh) * | 2019-10-16 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 基于机器学习的去伪影方法、去伪影模型训练方法及装置 |
US11405626B2 (en) * | 2020-03-03 | 2022-08-02 | Qualcomm Incorporated | Video compression using recurrent-based machine learning systems |
-
2019
- 2019-10-16 CN CN201910984591.3A patent/CN110677649B/zh active Active
-
2020
- 2020-10-09 WO PCT/CN2020/120006 patent/WO2021073449A1/zh unknown
- 2020-10-09 EP EP20876460.5A patent/EP3985972A4/en active Pending
-
2021
- 2021-10-14 US US17/501,217 patent/US11985358B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106204489A (zh) * | 2016-07-12 | 2016-12-07 | 四川大学 | 结合深度学习与梯度转换的单幅图像超分辨率重建方法 |
US10083499B1 (en) * | 2016-10-11 | 2018-09-25 | Google Llc | Methods and apparatus to reduce compression artifacts in images |
CN107463989A (zh) * | 2017-07-25 | 2017-12-12 | 福建帝视信息科技有限公司 | 一种基于深度学习的图像去压缩伪影方法 |
EP3451670A1 (en) * | 2017-08-28 | 2019-03-06 | Thomson Licensing | Method and apparatus for filtering with mode-aware deep learning |
EP3451293A1 (en) * | 2017-08-28 | 2019-03-06 | Thomson Licensing | Method and apparatus for filtering with multi-branch deep learning |
CN107871332A (zh) * | 2017-11-09 | 2018-04-03 | 南京邮电大学 | 一种基于残差学习的ct稀疏重建伪影校正方法及系统 |
CN109166161A (zh) * | 2018-07-04 | 2019-01-08 | 东南大学 | 一种基于噪声伪影抑制卷积神经网络的低剂量ct图像处理系统 |
CN109064521A (zh) * | 2018-07-25 | 2018-12-21 | 南京邮电大学 | 一种使用深度学习的cbct去伪影方法 |
Non-Patent Citations (1)
Title |
---|
人工智能在医学影像中的研究与应用;韩冬等;《大数据》;20190228;全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP3985972A1 (en) | 2022-04-20 |
US20220038749A1 (en) | 2022-02-03 |
US11985358B2 (en) | 2024-05-14 |
CN110677649A (zh) | 2020-01-10 |
EP3985972A4 (en) | 2022-11-16 |
WO2021073449A1 (zh) | 2021-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110677649B (zh) | 基于机器学习的去伪影方法、去伪影模型训练方法及装置 | |
CN111698504B (zh) | 编码方法、解码方法及装置 | |
WO2018001207A1 (zh) | 编解码的方法及装置 | |
US8665943B2 (en) | Encoding device, encoding method, encoding program, decoding device, decoding method, and decoding program | |
JP7085014B2 (ja) | ビデオ符号化方法並びにその装置、記憶媒体、機器、及びコンピュータプログラム | |
CN111770340B (zh) | 视频编码方法、装置、设备以及存储介质 | |
CN108810552B (zh) | 图像预测方法和相关产品 | |
CN109168032B (zh) | 视频数据的处理方法、终端、服务器及存储介质 | |
CN109413152B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN1914925A (zh) | 为了在移动网络上传输而进行的图像压缩 | |
CN113099233A (zh) | 视频编码方法、装置、视频编码设备及存储介质 | |
CN110418209B (zh) | 一种应用于视频传输的信息处理方法及终端设备 | |
US9997132B2 (en) | Data transmission method, data transmission system and portable display device of transmitting compressed data | |
CN116847087A (zh) | 视频处理方法、装置、存储介质及电子设备 | |
CN116563771A (zh) | 图像识别方法、装置、电子设备及可读存储介质 | |
CN114422782B (zh) | 视频编码方法、装置、存储介质及电子设备 | |
US20230105436A1 (en) | Generative adversarial network for video compression | |
WO2021073336A1 (en) | A system and method for creating real-time video | |
CN116055778B (zh) | 视频数据的处理方法、电子设备及可读存储介质 | |
CN117676170A (zh) | 块效应检测的方法、装置、设备和存储介质 | |
WO2024078403A1 (zh) | 图像处理方法、装置及设备 | |
CN117768650A (zh) | 图像块的色度预测方法、装置、电子设备及存储介质 | |
WO2020181540A1 (zh) | 一种视频处理方法、装置、编码设备及解码设备 | |
CN116600117A (zh) | 量化参数的确定方法、装置、设备及存储介质 | |
CN117834887A (zh) | 图像编码方法、解码方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40018776 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |