CN116847087A - 视频处理方法、装置、存储介质及电子设备 - Google Patents

视频处理方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116847087A
CN116847087A CN202310957583.6A CN202310957583A CN116847087A CN 116847087 A CN116847087 A CN 116847087A CN 202310957583 A CN202310957583 A CN 202310957583A CN 116847087 A CN116847087 A CN 116847087A
Authority
CN
China
Prior art keywords
video
neural network
loss function
sample
reversible neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310957583.6A
Other languages
English (en)
Inventor
凌强
王健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Advanced Technology University of Science and Technology of China
Original Assignee
Institute of Advanced Technology University of Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Advanced Technology University of Science and Technology of China filed Critical Institute of Advanced Technology University of Science and Technology of China
Priority to CN202310957583.6A priority Critical patent/CN116847087A/zh
Publication of CN116847087A publication Critical patent/CN116847087A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请公开了一种视频处理方法、装置、存储介质及电子设备,该视频处理方法包括:获取具有第一分辨率的待编码视频;将该待编码视频输入已训练的可逆神经网络进行处理,得到该可逆神经网络正向输出的具有第二分辨率的下采样视频,该第二分辨率小于该第一分辨率,其中,该可逆神经网络中的损失函数是根据样本视频中的目标感知区域设定的;对该下采样视频进行编码,得到该待编码视频对应的编码视频,从而能适用于各种分辨率视频图像的编解码,避免出现方块效应和振铃效应,有效提高了编解码视频质量。

Description

视频处理方法、装置、存储介质及电子设备
技术领域
本申请属于图像处理技术领域,尤其涉及一种视频处理方法、装置、存储介质及电子设备。
背景技术
视频在日常生活中具有重要的作用,视频通话、短视频拍摄、视频观看等。随着网络技术的发展,海量的视频数据对视频的传输、存储以及处理带来了巨大挑战,视频编解码技术变得至关重要。
视频编解码是计算机视觉领域的一项基础任务,能够极大的减少存储视频所需的存储空间,并降低网络通信的带宽。近年来,视频压缩技术得到了快速的发展,AVC视频编解码标准和HEVC视频编解码标准是目前广泛使用的视频编解码标准,其是采用率失真优化的方法来平衡码率和失真之间的关系。但是,在利用这两种视频编解码方法对高分辨率的视频图像进行编解码时,容易出现方块效应和振铃效应,严重影响了编解码视频质量。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种视频处理方法、装置、存储介质及电子设备,适用于各种分辨率视频图像的编解码,能有效提高编解码视频质量。
第一方面,本申请提供了一种视频处理方法,包括:
获取具有第一分辨率的待编码视频;
将所述待编码视频输入已训练的可逆神经网络进行处理,得到所述可逆神经网络正向输出的具有第二分辨率的下采样视频,所述第二分辨率小于所述第一分辨率,其中,所述可逆神经网络中的损失函数是根据样本视频中的目标感知区域设定的;
对所述下采样视频进行编码,得到所述待编码视频对应的编码视频。
在一些实施例中,所述视频处理方法还包括:
对所述编码视频进行解码,得到解码视频;
将所述解码视频输入所述可逆神经网络进行处理,得到所述可逆神经网络反向输出的具有所述第一分辨率的上采样视频。
在一些实施例中,所述视频处理方法还包括:
提取所述样本视频中的目标感知区域;
根据所述目标感知区域设定所述可逆神经网络的损失函数;
根据所述样本视频和所述损失函数对所述可逆神经网络进行训练。
在一些实施例中,所述根据所述样本视频和所述损失函数对所述可逆神经网络进行训练,包括:
将所述样本视频输入所述可逆神经网络进行处理,得到所述可逆神经网络正向输出的第一处理视频,所述第一处理视频的分辨率小于所述样本视频的分辨率,且包含所述样本视频中的高频信息和低频信息;
对所述第一处理视频进行编码压缩,得到视频码流;
对所述视频码流进行解码,得到第二处理视频;
将所述第二处理视频输入所述可逆神经网络进行处理,得到所述可逆神经网络反向输出的重建视频,所述重建视频和所述样本视频具有相同的分辨率;
根据所述损失函数,确定所述重建视频中每个像素点与所述样本视频中相应像素点之间的像素差值,作为损失值;
根据所述损失值反向调整所述可逆神经网络的模型参数,以对所述可逆神经网络进行训练。
在一些实施例中,所述损失函数包括第一损失函数和第二损失函数,所述根据所述目标感知区域设定所述可逆神经网络的损失函数,包括:
设定第一损失函数,所述第一损失函数用于计算重建视频中的目标像素点和所述样本视频中相应像素点之间的像素差值,所述目标像素点与所述目标感知区域相对应;
设定第二损失函数,所述第二损失函数用于计算所述重建视频中除所述目标像素点之外的其它像素点与所述样本视频中相应像素点之间的像素差值。
在一些实施例中,所述提取所述样本视频中的目标感知区域,包括:
利用预设的边缘检测算法,提取所述样本视频中的边缘区域;
利用预设的对象检测算法,提取所述样本视频中运动对象所在的区域;
将所述边缘区域和所述运动对象所在的区域作为目标感知区域。
在一些实施例中,所述利用预设的对象检测算法,提取所述样本视频中运动对象所在的区域,包括:
将所述样本视频中的第一帧视频图像作为背景图像,并获取所述样本视频中的剩余帧视频图像;
确定所述剩余帧视频图像中每帧视频图像中的像素点与所述背景图像中相应像素点之间的像素差值,得到差分值;
根据所述差分值提取所述样本视频中运动对象所在的区域。
在一些实施例中,所述根据所述差分值提取所述样本视频中运动对象所在的区域,包括:
提取所述剩余帧视频图像中所述差分值大于预设阈值的所述像素点;
将提取的所述像素点构成的区域,作为运动对象所在的区域。
第二方面,本申请提供了一种视频处理装置,包括:
获取模块,用于获取具有第一分辨率的待编码视频;
输入模块,用于将所述待编码视频输入已训练的可逆神经网络进行处理,得到所述可逆神经网络正向输出的具有第二分辨率的下采样视频,所述第二分辨率小于所述第一分辨率,其中,所述可逆神经网络中的损失函数是根据样本视频中的目标感知区域设定的;
编码压缩模块,用于对所述下采样视频进行编码压缩,得到所述待编码视频对应的编码视频。
在一些实施例中,所述视频处理装置还包括解码重建模块,用于:
对所述编码视频进行解码,得到解码视频;
将所述解码视频输入所述可逆神经网络进行处理,得到所述可逆神经网络反向输出的具有所述第一分辨率的上采样视频。
在一些实施例中,所述视频处理装置还包括训练模块,用于:
提取所述样本视频中的目标感知区域;
根据所述目标感知区域设定所述可逆神经网络的损失函数;
根据所述样本视频和所述损失函数对所述可逆神经网络进行训练。
在一些实施例中,所述训练模块具体用于:
将所述样本视频输入所述可逆神经网络进行处理,得到所述可逆神经网络正向输出的第一处理视频,所述第一处理视频的分辨率小于所述样本视频的分辨率,且包含所述样本视频中的高频信息和低频信息;
对所述第一处理视频进行编码压缩,得到视频码流;
对所述视频码流进行解码,得到第二处理视频;
将所述第二处理视频输入所述可逆神经网络进行处理,得到所述可逆神经网络反向输出的重建视频,所述重建视频和所述样本视频具有相同的分辨率;
根据所述损失函数,确定所述重建视频中每个像素点与所述样本视频中相应像素点之间的像素差值,作为损失值;
根据所述损失值反向调整所述可逆神经网络的模型参数,以对所述可逆神经网络进行训练。
在一些实施例中,所述损失函数包括第一损失函数和第二损失函数,所述训练模块具体用于:
设定第一损失函数,所述第一损失函数用于计算重建视频中的目标像素点和所述样本视频中相应像素点之间的像素差值,所述目标像素点与所述目标感知区域相对应;
设定第二损失函数,所述第二损失函数用于计算所述重建视频中除所述目标像素点之外的其它像素点与所述样本视频中相应像素点之间的像素差值。
在一些实施例中,所述训练模块具体用于:
利用预设的边缘检测算法,提取所述样本视频中的边缘区域;
利用预设的对象检测算法,提取所述样本视频中运动对象所在的区域;
将所述边缘区域和所述运动对象所在的区域作为目标感知区域。
在一些实施例中,所述训练模块具体用于:
将所述样本视频中的第一帧视频图像作为背景图像,并获取所述样本视频中的剩余帧视频图像;
确定所述剩余帧视频图像中每帧视频图像中的像素点与所述背景图像中相应像素点之间的像素差值,得到差分值;
根据所述差分值提取所述样本视频中运动对象所在的区域。
在一些实施例中,所述训练模块具体用于:
提取所述剩余帧视频图像中所述差分值大于预设阈值的所述像素点;
将提取的所述像素点构成的区域,作为运动对象所在的区域。
第三方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述的视频处理方法。
第四方面,本申请提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述任一项所述的视频处理方法。
本申请实施例提供的视频处理方法、装置、存储介质及电子设备,通过获取具有第一分辨率的待编码视频;将所述待编码视频输入已训练的可逆神经网络进行处理,得到所述可逆神经网络正向输出的具有第二分辨率的下采样视频,所述第二分辨率小于所述第一分辨率,其中,所述可逆神经网络中的损失函数是根据样本视频中的目标感知区域设定的;对所述下采样视频进行编码,得到所述待编码视频对应的编码视频,从而能适用于各种分辨率视频图像的编解码,避免出现方块效应和振铃效应,有效提高了编解码视频质量。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请实施例提供的视频处理方法的流程示意图;
图2是本申请实施例提供的视频处理方法的另一流程示意图;
图3是本申请实施例提供的视频处理方法的网络架构示意图;
图4是本申请实施例提供的视频处理装置的结构示意图;
图5是本申请实施例提供的电子设备的结构示意图;
图6是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
本申请实施例提供一种视频处理方法、装置、存储介质及电子设备。
视频在传输前需要先进行编码,将原始的视频数据编码为适合传输和保存的二进制码流,电子设备才能对其进行传输和保存。同样的,电子设备中的视频是以二进制码流的格式进行保存的,在播放视频时,还需要对该二进制码流进行解码,重建出视频进行播放。电子设备可以通过本实施例提供的视频处理方法来实现上述编码或解码功能。
请参见图1,图1是本申请实施例提供的视频处理方法的流程图。该视频处理方法应用于电子设备中,该电子设备包括手机、平板电脑、个人计算机(personal computer,PC)、可穿戴电子设备(如智能手表)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备和车载设备等。该视频处理方法包括编码和解码两个部分,本实施例将按照编码、解码的顺序对这两部分分别进行说明。电子设备可以同时实现编码和解码,也可以单独只实现其中一个部分,本实施方式对此不作限定。
具体的,该视频处理方法包括以下步骤101-103,其中:
101.获取具有第一分辨率的待编码视频。
其中,待编码视频包括连续的多帧视频图像,其可以是电子设备内置摄像头拍摄的,也可以是从其它设备获取的。分辨率是图像分辨率,是指图像中每单位长度显示的像素数目。第一分辨率可以是高分辨率,具有高分辨率的视频通常无法直接在超低带宽场景下进行传输,带宽指网络传输速度,比如1Mbps的意思是一兆比特每秒,这个数值就是指带宽,超低带宽是指数值比较小的带宽。
102.将该待编码视频输入已训练的可逆神经网络进行处理,得到该可逆神经网络正向输出的具有第二分辨率的下采样视频,该第二分辨率小于该第一分辨率,其中,该可逆神经网络中的损失函数是根据样本视频中的目标感知区域设定的。
其中,第二分辨率可以是低分辨率,其数值小于第一分辨率,比如可以是第一分辨率的一半。可逆神经网络(Invertible Neural Networks,INN)的前向网络和反向网络由相同的多个可逆块构成,多个可逆块顺序连接,通过前向网络输出的为前向输出,通过反向网络输出的为反向输出。目标感知区域可以主要指人眼敏感的区域,可以结合人眼敏感区域对可逆神经网络进行训练,从而训练好的可逆神经网络后续在进行视频处理时,能实现人眼敏感区域的优先比特率分配。
具体的,在可逆神经网络作为前向网络进行前向输出时,每个可逆块将其输入按照一定方式划分成两个相同大小的矢量,比如和/>本实施例中的可逆块可以利用频率分解的方式,比如小波变换,分别得到其输入对应的高频信息和低频信息,然后将低频信息定义为/>将高频信息定义为/>和/>的宽度和高度分别为输入的一半,从而实现了视频的下采样,这种采样方式能同时保留低频和高频信息。
103.对该下采样视频进行编码压缩,得到该待编码视频对应的编码视频。
其中,可以通过AVC视频编解码标准或HEVC视频编解码标准对下采样视频进行编码压缩,得到编码视频,编码视频也即比特流。
需要指出的是,由于下采样视频是通过可逆神经网络对原始的待编码视频下采样得到的,是低分辨率视频,故一方面,在采用AVC或HEVC视频编解码标准对下采样视频进行编码压缩后,得到的编码视频能适应超低带宽的网络传输环境,能在超低带宽环境下实现视频的有效传输,不容易出现方块效应和振铃效应。另一方面,由于可逆神经网络保留了原视频的高频和低频信息,且上采样方法和下采样方法是对称的,故不会损失上采样视频重构的精度,有利于提高编解码视频的质量,与此同时,由于可逆神经网络的损失函数是根据人眼感知区域(目标感知区域)定义的,损失函数可以为人眼感知区域定义比较大的权重,故基于该损失函数训练得到的可逆神经网络后续在进行视频处理时,能优先保障人眼感知区域的图像处理,实现对人眼感知区域的优先比特率分配。
相应地,对于上述已编码的编码视频,后续若需要对该视频进行播放,则还需要进行解码,也即,请参见图2,图2是本申请实施例提供的视频处理方法的另一流程示意图,其中,该视频处理方法还可以包括:
104.对该编码视频进行解码,得到解码视频;
105.将该解码视频输入该可逆神经网络进行处理,得到该可逆神经网络反向输出的具有该第一分辨率的上采样视频。
其中,解码是编码的逆过程,编码和解码采用相同的视频编解码标准,比如上述AVC或HEVC标准。当将解码视频输入可逆神经网络时,可逆神经网络作为反向网络进行反向输出,且反向输出的视频和原始的待编码视频具有相同的分辨率,相当于对解码视频进行了上采样,上采样的过程也即视频重构的过程。由于可逆神经网络具有良好的对称性,上采样倍数和下采样倍数一致,并且所有模型参数都是可训练的,故可逆神经网络能够更好的重构视频图像,该上采样视频和原始的待编码视频之间的差别比较小。
具体的,当可逆神经网络作为前向网络时可以表示成:
其中,F和G表示任意的函数,l表示网络的层数。
对于给定的输入可逆神经网络作为反向网络时可以表示成:
为了增强网络表达,对上述的输入和/>分别增强如下:
增强后的反向变换表示如下:
由于上述定义的F,G,M,K函数可以是任意的,本申请实施例采用残差网络来分别实现上述四个函数:
xout=xin+conv3x3(RELU(conv3x3(xin)))
其中,xin和xout分别是残差网络的输入和输出,conv3x3表示3x3的卷积,RELU是激活函数。
容易理解的是,可逆神经网络训练需要提前训练好,也即请继续参见图2,在上述步骤101之前,该视频处理方法还包括:
106.提取该样本视频中的目标感知区域;
107.根据该目标感知区域设定该可逆神经网络的损失函数;
108.根据该样本视频和该损失函数对该可逆神经网络进行训练。
例如,请参见图3,图3是本申请实施例提供的视频处理方法的网络架构示意图,其中,可逆神经网络的训练过程是损失函数不断迭代的过程,训练过程会涉及前向网络的前向输出和反向网络的反向输出,且在前向网络处理之后、反向网络处理之前,需要对相应视频进行编码和解码。
具体的,上述步骤108进一步可以包括:
将该样本视频输入该可逆神经网络进行处理,得到该可逆神经网络正向输出的第一处理视频,该第一处理视频的分辨率小于该样本视频的分辨率,且包含该样本视频中的高频信息和低频信息;
对该第一处理视频进行编码压缩,得到视频码流;
对该视频码流进行解码,得到第二处理视频;
将该第二处理视频输入该可逆神经网络进行处理,得到该可逆神经网络反向输出的重建视频,该重建视频和该样本视频具有相同的分辨率;
根据该损失函数,确定该重建视频中每个像素点与该样本视频中相应像素点之间的像素差值,作为损失值;
根据该损失值反向调整该可逆神经网络的模型参数,以对该可逆神经网络进行训练。
其中,请继续参见图3,可以通过大量样本视频对可逆神经网络进行训练,且前向网络处理得到第一处理视频的过程和上述步骤102类似,反向网络处理得到重建视频的过程和上述步骤105类似,此处不再赘述。编码压缩和解码可以采用上述AVC或HEVC视频编解码标准。重建视频中的视频图像和样本视频中的视频图像具有相同的尺寸以及分辨率。
进一步地,该损失函数可以包括第一损失函数和第二损失函数,上述步骤“根据该目标感知区域设定该可逆神经网络的损失函数”,具体可以包括:
设定第一损失函数,该第一损失函数用于计算该重建视频中的目标像素点和该样本视频中相应像素点之间的像素差值,该目标像素点与该目标感知区域相对应;
设定第二损失函数,该第二损失函数用于计算该重建视频中除该目标像素点之外的其它像素点与该样本视频中相应像素点之间的像素差值。
例如,损失函数loss可以表达如下:
其中,R为目标感知区域。s(i)表示样本视频中第i个像素点的像素值,r(i)表示重建视频中的第i个像素点的像素值,W表示图像的宽度,H表示图像的高度,λ控制了人眼敏感区域的重建图像的质量,越大的λ表示重建的人眼敏感区域图像质量越高,比如λ可以设定为10。
也即,上述第一损失函数为loss(i)=(r(i)-s(i))2,第二损失函数为loss(i)=λ(r(i)-s(i))2,像素值即为像素点的RGB值或HSV值。
进一步地,上述步骤“提取该样本视频中的目标感知区域”,具体可以包括:
利用预设的边缘检测算法,提取该样本视频中的边缘区域;
利用预设的对象检测算法,提取该样本视频中运动对象所在的区域;
将该边缘区域和该运动对象所在的区域作为目标感知区域。
其中,边缘检测算法和对象检测算法均是用来检测人眼重点关注的区域,边缘检测算法用于检测图像边缘区域,而非平坦区域,对象检测算法用于检测图像中的运动对象,这两种算法可以人为根据需求设定。
例如,请继续参见图3,边缘检测算法可以是Canny算子边缘检测算法,在图像的边缘区域一般分布的是图像的高频分量,因此包含更多的信息,也是人眼重点关注的区域,需要使用更多的比特进行编码,而图像的平坦区域通常具有更少的信息,可以使用较少的比特进行编码。Canny算子的边缘检测算法具有简单高效,定位精准的特点,它主要包括以下四个步骤:
(a)对输入的样本视频中的图像进行高斯平滑滤波;
(b)计算滤波后图像的梯度幅值和方向;
(c)对上述的幅值图像进行非极大值抑制;
(d)采用双阈值算法检测和连接边缘。
上述Canny算子边缘检测算法能够尽可能多的识别图像的边缘,同时识别的边缘可以跟实际图像中的边缘尽可能的接近,并且具有单响应的特点,图像中的噪声不会被标识为边缘。
例如,请继续参见图3,对象检测算法可以是显著性区域检测算法,此时,上述步骤“利用预设的对象检测算法,提取该样本视频中运动对象所在的区域”,具体可以包括:
将该样本视频中的第一帧视频图像作为背景图像,并获取该样本视频中的剩余帧视频图像;
确定该剩余帧视频图像中每帧视频图像中的像素点与该背景图像中相应像素点之间的像素差值,得到差分值;
根据该差分值提取该样本视频中运动对象所在的区域。
其中,由于样本视频图像中的边缘区域已经通Canny算子算法检测出来,故显著性区域检测算法主要聚焦于图像中的运动物体检测。本实施例中的显著性区域检测算法采用背景减除法来实现运动物体检测,背景减除法适用于背景相对静止情况下的运动目标检测,这与多数的超低带宽场景下摄像头静止的场景是一致的,且背景减除法计算简单、实时性好,能够获取比较完整的运动目标轮廓。
在利用背景减除法检测运动物体的过程中,首先需要确定背景帧,这里将样本视频中的第一帧视频图像作为背景帧(背景图像),将其它帧与背景帧作差分运算,并且用阈值和差分值进行对比,以区分出像素点属于前景还是背景。也即,上述步骤“根据该差分值提取该样本视频中运动对象所在的区域”具体可以包括:
提取该剩余帧视频图像中该差分值大于预设阈值的该像素点;
将提取的该像素点构成的区域,作为运动对象所在的区域。
其中,差分值大于预设阈值的像素点可以归类为前景,差分值小于预设阈值的像素点可以归类为背景,所有前景的像素点构成的区域即为运动对象所在的区域。
由上述可知,本申请实施例提供的视频处理方法,通过获取具有第一分辨率的待编码视频;将该待编码视频输入已训练的可逆神经网络进行处理,得到该可逆神经网络正向输出的具有第二分辨率的下采样视频,该第二分辨率小于该第一分辨率,其中,该可逆神经网络中的损失函数是根据样本视频中的目标感知区域设定的;对该下采样视频进行编码,得到该待编码视频对应的编码视频,从而不仅能适用于各种分辨率视频图像的编解码,避免出现方块效应和振铃效应,有效提高了编解码视频质量,而且还能在编码过程中实现对人眼敏感区域的优先比特分配。
根据上述实施例描述的方法,本申请实施例还提供了一种视频处理装置,用于执行上述视频处理方法中的步骤。请参见图4,图4是本申请实施例提供的视频处理装置的结构示意图。该视频处理装置200应用于电子设备中,包括获取模块201、输入模块202和编码压缩模块203,其中:
获取模块201,用于获取具有第一分辨率的待编码视频;
输入模块202,用于将该待编码视频输入已训练的可逆神经网络进行处理,得到该可逆神经网络正向输出的具有第二分辨率的下采样视频,该第二分辨率小于该第一分辨率,其中,该可逆神经网络中的损失函数是根据样本视频中的目标感知区域设定的;
编码压缩模块203,用于对该下采样视频进行编码压缩,得到该待编码视频对应的编码视频。
在一些实施例中,该视频处理装置200还包括解码重建模块,用于:
对该编码视频进行解码,得到解码视频;
将该解码视频输入该可逆神经网络进行处理,得到该可逆神经网络反向输出的具有该第一分辨率的上采样视频。
在一些实施例中,该视频处理装置200还包括训练模块,用于:
提取该样本视频中的目标感知区域;
根据该目标感知区域设定该可逆神经网络的损失函数;
根据该样本视频和该损失函数对该可逆神经网络进行训练。
在一些实施例中,该训练模块具体用于:
将该样本视频输入该可逆神经网络进行处理,得到该可逆神经网络正向输出的第一处理视频,该第一处理视频的分辨率小于该样本视频的分辨率,且包含该样本视频中的高频信息和低频信息;
对该第一处理视频进行编码压缩,得到视频码流;
对该视频码流进行解码,得到第二处理视频;
将该第二处理视频输入该可逆神经网络进行处理,得到该可逆神经网络反向输出的重建视频,该重建视频和该样本视频具有相同的分辨率;
根据该损失函数,确定该重建视频中每个像素点与该样本视频中相应像素点之间的像素差值,作为损失值;
根据该损失值反向调整该可逆神经网络的模型参数,以对该可逆神经网络进行训练。
在一些实施例中,该损失函数包括第一损失函数和第二损失函数,该训练模块具体用于:
设定第一损失函数,该第一损失函数用于计算该重建视频中的目标像素点和该样本视频中相应像素点之间的像素差值,该目标像素点与该目标感知区域相对应;
设定第二损失函数,该第二损失函数用于计算该重建视频中除该目标像素点之外的其它像素点与该样本视频中相应像素点之间的像素差值。
在一些实施例中,该训练模块具体用于:
利用预设的边缘检测算法,提取该样本视频中的边缘区域;
利用预设的对象检测算法,提取该样本视频中运动对象所在的区域;
将该边缘区域和该运动对象所在的区域作为目标感知区域。
在一些实施例中,该训练模块具体用于:
将该样本视频中的第一帧视频图像作为背景图像,并获取该样本视频中的剩余帧视频图像;
确定该剩余帧视频图像中每帧视频图像中的像素点与该背景图像中相应像素点之间的像素差值,得到差分值;
根据该差分值提取该样本视频中运动对象所在的区域。
在一些实施例中,该训练模块具体用于:
提取该剩余帧视频图像中该差分值大于预设阈值的该像素点;
将提取的该像素点构成的区域,作为运动对象所在的区域。
需要说明的是,上述视频处理装置200中各模块单元的具体细节已经在上述视频处理方法的实施例中进行了详细描述,这里不再赘述。
在一些实施例中,本申请实施例中的视频处理装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(MobileInternet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
在一些实施例中,如图5所示,本申请实施例还提供一种电子设备300,包括处理器301、存储器302及存储在存储器302上并可在处理器301上运行的计算机程序,该程序被处理器301执行时实现上述视频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图6为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备400包括但不限于:射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409以及处理器410等部件。
本领域技术人员可以理解,电子设备400还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
应理解的是,本申请实施例中,输入单元404可以包括图形处理器(GraphicsProcessing Unit,GPU)4041和麦克风4042,图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元406可包括显示面板4061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板4061。用户输入单元407包括触控面板4071以及其他输入设备4072中的至少一种。触控面板4071,也称为触摸屏。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器409可以包括易失性存储器或非易失性存储器,或者,存储器409可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器409包括但不限于这些和任意其它适合类型的存储器。
处理器410可包括一个或多个处理单元;处理器410集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
本申请实施例还提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述视频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述视频处理方法。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请的描述中,“多个”的含义是两个或两个以上。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施例,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。

Claims (18)

1.一种视频处理方法,其特征在于,包括:
获取具有第一分辨率的待编码视频;
将所述待编码视频输入已训练的可逆神经网络进行处理,得到所述可逆神经网络正向输出的具有第二分辨率的下采样视频,所述第二分辨率小于所述第一分辨率,其中,所述可逆神经网络中的损失函数是根据样本视频中的目标感知区域设定的;
对所述下采样视频进行编码,得到所述待编码视频对应的编码视频。
2.根据权利要求1所述的视频处理方法,其特征在于,所述视频处理方法还包括:
对所述编码视频进行解码,得到解码视频;
将所述解码视频输入所述可逆神经网络进行处理,得到所述可逆神经网络反向输出的具有所述第一分辨率的上采样视频。
3.根据权利要求1所述的视频处理方法,其特征在于,所述视频处理方法还包括:提取所述样本视频中的目标感知区域;
根据所述目标感知区域设定所述可逆神经网络的损失函数;
根据所述样本视频和所述损失函数对所述可逆神经网络进行训练。
4.根据权利要求3所述的视频处理方法,其特征在于,所述根据所述样本视频和所述损失函数对所述可逆神经网络进行训练,包括:
将所述样本视频输入所述可逆神经网络进行处理,得到所述可逆神经网络正向输出的第一处理视频,所述第一处理视频的分辨率小于所述样本视频的分辨率,且包含所述样本视频中的高频信息和低频信息;
对所述第一处理视频进行编码压缩,得到视频码流;
对所述视频码流进行解码,得到第二处理视频;
将所述第二处理视频输入所述可逆神经网络进行处理,得到所述可逆神经网络反向输出的重建视频,所述重建视频和所述样本视频具有相同的分辨率;
根据所述损失函数,确定所述重建视频中每个像素点与所述样本视频中相应像素点之间的像素差值,作为损失值;
根据所述损失值反向调整所述可逆神经网络的模型参数,以对所述可逆神经网络进行训练。
5.根据权利要求3所述的视频处理方法,其特征在于,所述损失函数包括第一损失函数和第二损失函数,所述根据所述目标感知区域设定所述可逆神经网络的损失函数,包括:
设定第一损失函数,所述第一损失函数用于计算重建视频中的目标像素点和所述样本视频中相应像素点之间的像素差值,所述目标像素点与所述目标感知区域相对应;
设定第二损失函数,所述第二损失函数用于计算所述重建视频中除所述目标像素点之外的其它像素点与所述样本视频中相应像素点之间的像素差值。
6.根据权利要求3所述的视频处理方法,其特征在于,所述提取所述样本视频中的目标感知区域,包括:
利用预设的边缘检测算法,提取所述样本视频中的边缘区域;
利用预设的对象检测算法,提取所述样本视频中运动对象所在的区域;
将所述边缘区域和所述运动对象所在的区域作为目标感知区域。
7.根据权利要求6所述的视频处理方法,其特征在于,所述利用预设的对象检测算法,提取所述样本视频中运动对象所在的区域,包括:
将所述样本视频中的第一帧视频图像作为背景图像,并获取所述样本视频中的剩余帧视频图像;
确定所述剩余帧视频图像中每帧视频图像中的像素点与所述背景图像中相应像素点之间的像素差值,得到差分值;
根据所述差分值提取所述样本视频中运动对象所在的区域。
8.根据权利要求7所述的视频处理方法,其特征在于,所述根据所述差分值提取所述样本视频中运动对象所在的区域,包括:
提取所述剩余帧视频图像中所述差分值大于预设阈值的所述像素点;
将提取的所述像素点构成的区域,作为运动对象所在的区域。
9.一种视频处理装置,其特征在于,包括:
获取模块,用于获取具有第一分辨率的待编码视频;
输入模块,用于将所述待编码视频输入已训练的可逆神经网络进行处理,得到所述可逆神经网络正向输出的具有第二分辨率的下采样视频,所述第二分辨率小于所述第一分辨率,其中,所述可逆神经网络中的损失函数是根据样本视频中的目标感知区域设定的;
编码压缩模块,用于对所述下采样视频进行编码压缩,得到所述待编码视频对应的编码视频。
10.根据权利要求9所述的视频处理装置,其特征在于,所述视频处理装置还包括解码重建模块,用于:
对所述编码视频进行解码,得到解码视频;
将所述解码视频输入所述可逆神经网络进行处理,得到所述可逆神经网络反向输出的具有所述第一分辨率的上采样视频。
11.根据权利要求9所述的视频处理装置,其特征在于,所述视频处理装置还包括训练模块,用于:
提取所述样本视频中的目标感知区域;
根据所述目标感知区域设定所述可逆神经网络的损失函数;
根据所述样本视频和所述损失函数对所述可逆神经网络进行训练。
12.根据权利要求11所述的视频处理装置,其特征在于,所述训练模块具体用于:
将所述样本视频输入所述可逆神经网络进行处理,得到所述可逆神经网络正向输出的第一处理视频,所述第一处理视频的分辨率小于所述样本视频的分辨率,且包含所述样本视频中的高频信息和低频信息;
对所述第一处理视频进行编码压缩,得到视频码流;
对所述视频码流进行解码,得到第二处理视频;
将所述第二处理视频输入所述可逆神经网络进行处理,得到所述可逆神经网络反向输出的重建视频,所述重建视频和所述样本视频具有相同的分辨率;
根据所述损失函数,确定所述重建视频中每个像素点与所述样本视频中相应像素点之间的像素差值,作为损失值;
根据所述损失值反向调整所述可逆神经网络的模型参数,以对所述可逆神经网络进行训练。
13.根据权利要求11所述的视频处理装置,其特征在于,所述损失函数包括第一损失函数和第二损失函数,所述训练模块具体用于:
设定第一损失函数,所述第一损失函数用于计算重建视频中的目标像素点和所述样本视频中相应像素点之间的像素差值,所述目标像素点与所述目标感知区域相对应;
设定第二损失函数,所述第二损失函数用于计算所述重建视频中除所述目标像素点之外的其它像素点与所述样本视频中相应像素点之间的像素差值。
14.根据权利要求11所述的视频处理装置,其特征在于,所述训练模块具体用于:
利用预设的边缘检测算法,提取所述样本视频中的边缘区域;
利用预设的对象检测算法,提取所述样本视频中运动对象所在的区域;
将所述边缘区域和所述运动对象所在的区域作为目标感知区域。
15.根据权利要求14所述的视频处理装置,其特征在于,所述训练模块具体用于:
将所述样本视频中的第一帧视频图像作为背景图像,并获取所述样本视频中的剩余帧视频图像;
确定所述剩余帧视频图像中每帧视频图像中的像素点与所述背景图像中相应像素点之间的像素差值,得到差分值;
根据所述差分值提取所述样本视频中运动对象所在的区域。
16.根据权利要求15所述的视频处理装置,其特征在于,所述训练模块具体用于:
提取所述剩余帧视频图像中所述差分值大于预设阈值的所述像素点;
将提取的所述像素点构成的区域,作为运动对象所在的区域。
17.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-8中任一项所述的视频处理方法。
18.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的视频处理方法。
CN202310957583.6A 2023-07-28 2023-07-28 视频处理方法、装置、存储介质及电子设备 Pending CN116847087A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310957583.6A CN116847087A (zh) 2023-07-28 2023-07-28 视频处理方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310957583.6A CN116847087A (zh) 2023-07-28 2023-07-28 视频处理方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN116847087A true CN116847087A (zh) 2023-10-03

Family

ID=88161794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310957583.6A Pending CN116847087A (zh) 2023-07-28 2023-07-28 视频处理方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116847087A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117425013A (zh) * 2023-12-19 2024-01-19 杭州靖安防务科技有限公司 一种基于可逆架构的视频传输方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117425013A (zh) * 2023-12-19 2024-01-19 杭州靖安防务科技有限公司 一种基于可逆架构的视频传输方法和系统
CN117425013B (zh) * 2023-12-19 2024-04-02 杭州靖安防务科技有限公司 一种基于可逆架构的视频传输方法和系统

Similar Documents

Publication Publication Date Title
KR102535098B1 (ko) 이미지 프로세싱 및 비디오 압축 방법
RU2653314C2 (ru) Способ и устройство сжатия изображений и сервер
US11410275B2 (en) Video coding for machine (VCM) based system and method for video super resolution (SR)
TWI834087B (zh) 用於從位元流重建圖像及用於將圖像編碼到位元流中的方法及裝置、電腦程式產品
CN112419219A (zh) 图像增强模型训练方法、图像增强方法以及相关装置
CN111429357B (zh) 训练数据确定方法、视频处理方法、装置、设备及介质
CN116803079A (zh) 视频和相关特征的可分级译码
EP4365820A1 (en) Video super-resolution network, and video super-resolution, encoding and decoding processing method and device
CN114339260A (zh) 图像处理方法及装置
CN115606179A (zh) 用于使用学习的下采样特征进行图像和视频编码的基于学习的下采样的cnn滤波器
Narayanan et al. Multiframe adaptive Wiener filter super-resolution with JPEG2000-compressed images
CN116847087A (zh) 视频处理方法、装置、存储介质及电子设备
CN112150400A (zh) 图像增强方法、装置和电子设备
CN115552905A (zh) 用于图像和视频编码的基于全局跳过连接的cnn滤波器
WO2022266955A1 (zh) 图像解码及处理方法、装置及设备
CN113658073A (zh) 图像去噪处理方法、装置、存储介质与电子设备
US20230326086A1 (en) Systems and methods for image and video compression
Xia et al. Visual sensitivity-based low-bit-rate image compression algorithm
US10405003B2 (en) Image compression based on semantic relevance
EP4287110A1 (en) Method and device for correcting image on basis of compression quality of image in electronic device
EP3926584A1 (en) Method, computer program and system for detecting changes and moving objects in a video view
KR20230145096A (ko) 신경망 기반 픽처 프로세싱에서의 보조 정보의 독립적 위치결정
WO2023133888A1 (zh) 图像处理方法、装置、遥控设备、系统及存储介质
WO2023133889A1 (zh) 图像处理方法、装置、遥控设备、系统及存储介质
CN116055778B (zh) 视频数据的处理方法、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination