CN111988621A - 视频处理器训练方法、装置、视频处理装置及视频处理方法 - Google Patents

视频处理器训练方法、装置、视频处理装置及视频处理方法 Download PDF

Info

Publication number
CN111988621A
CN111988621A CN202010704473.5A CN202010704473A CN111988621A CN 111988621 A CN111988621 A CN 111988621A CN 202010704473 A CN202010704473 A CN 202010704473A CN 111988621 A CN111988621 A CN 111988621A
Authority
CN
China
Prior art keywords
video
difference value
processor
decoded
image frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010704473.5A
Other languages
English (en)
Inventor
李世泰
贾宜霖
杨旭雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eto Singapore Ltd Private
Original Assignee
Eto Singapore Ltd Private
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eto Singapore Ltd Private filed Critical Eto Singapore Ltd Private
Publication of CN111988621A publication Critical patent/CN111988621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs

Abstract

本发明提供一种视频处理器训练方法,包括:将解码视频作为训练样本,输入至视频处理器;视频处理器对解码视频进行处理,输出预计差值;根据预计差值和理想差值的差确定损失函数;根据损失函数的数值对视频处理器参数进行调整,得到训练好的视频处理器。本申请训练方法的视频处理器输出预计差值,且和理想差值进行比较确定损失函数,极大的减少了数据处理量,提高训练效率。本申请视频处理方法,通过深度学习网络训练视频处理器,利用训练好的视频处理器输出预计差值,将预计差值与输入视频叠加,将压缩后解压的视频恢复为原始视频,避免了现有技术由于采用运动估计和运动补偿进行帧间预测而导致的较大的运动估计残差和编码残差,提高了视频恢复的效果。

Description

视频处理器训练方法、装置、视频处理装置及视频处理方法
技术领域
本发明涉及数据处理领域,特别涉及视频处理器训练方法、装置、视频处理装置及视频处理方法、设备及计算机可读存储介质。
背景技术
数据传输在现代工业生产和生活中被大量应用,但数据的传输通常受到带宽的限制,不能在极短的时间内发送或接收无限的数据。为了使传输的信息的质量和数量达到最大化,在某些情况下,数据传输之前将被压缩或编码,而在接收时则被解压缩或解码。
数据传输中,视频数据传输更是占重要的地位,同样视频数据的传输也必须进行数据压缩,而视频数据却包含色度,亮度以及经常包含立体声音频信息,即使是很短的视频片段也需要占用大量数据。为了使视频数据在硬盘上占用更少的空间,以及减少视频传输的网络延迟,视频压缩技术越来越重要。
进行视频压缩,会不同程度的损失原始视频数据。由于视频数据中图像中的详细信息被损失,对某些对图像清晰度或者真实度要求高的应用场景会带来不便。现有技术提出多种方法解决视频数据压缩的损失,例如基于研究的图像先验信息基于视频序列的弥补损失的方法,如帧预测方法。现有技术采用帧预测的方法,主要采用运动估计和运动补偿,通过先前的局部图像来预测、补偿当前的局部图像,当视频场景内出现较激烈的运动区域或者镜头切换时,对于画面中突然出现新的视频内容信息,当前编码块无法在参考帧规定的搜索区域内找到率失真意义上的最佳匹配块,或者经过帧间预测后,得到的运动估计残差和编码残差都很大,从而导致视频恢复失真较大。除了导致视频恢复失真较大之外,现有技术的算法的计算复杂度较高,难以应用于实时性要求较高的场景。
发明内容
为了解决现有技术存在的问题,本发明的至少一个实施例提供了视频处理器训练方法、装置、视频处理装置及视频处理方法、设备,解决以上背景技术部分提到的各种问题。
第一方面,本发明实施例提出一种视频处理器训练方法,所述方法包括:将解码视频作为训练样本,输入至视频处理器,其中,所述解码视频为对原始视频进行编码之后再进行解码形成的解码视频;所述视频处理器对所述解码视频进行处理,输出预计差值;根据所述预计差值和理想差值的差确定损失函数,所述理想差值为所述原始视频与所述解码视频之间的差值;根据所述损失函数的数值对所述视频处理器参数进行调整;当所述损失函数数值趋向收敛时,停止训练,得到训练好的视频处理器。
在一些实施例中,所述理想差值根据所述原始视频和所述解码视频各对应图像帧之间差值确定。
在一些实施例中,所述根据所述原始视频和所述解码视频各对应图像帧之间差值确定理想差值,包括:用预设方式对所述原始视频进行分解,获取所述原始视频各图像帧;用所述同一预设方式对所述解码视频进行分解,获取所述解码视频分解的各图像帧;获取对应的解码视频分解的各图像帧和原始视频分解的各图像帧之间的差值;对所述各图像帧之间的差值进行处理,得到所述理想差值。
在一些实施例中,所述各图像帧之间的差值为各图像帧像素值差值。
第二方面,本发明实施例还提供视频处理器训练装置,所述装置包括:输入模块,用于将解码视频作为训练样本,输入至视频处理器,其中,所述解码视频为对原始视频进行编码之后再进行解码形成的解码视频;视频处理器,用于对所述解码视频进行处理,得到预计差值;损失函数确定模块,用于根据所述预计差值和理想差值的差确定损失函数,所述理想差值为所述原始视频与所述解码视频之间的差值;调整模块,用于根据所述损失函数的数值对所述视频处理器的参数进行调整,当所述损失函数数值趋向收敛时,停止训练,得到训练好的视频处理器。
在一些实施例中,所述损失函数确定模块,包括:第一分解单元,用于用预设方式对所述原始视频进行分解,获取所述原始视频各图像帧;第二分解单元,用于用所述同一预设方式对所述解码视频进行分解,获取所述解码视频分解的各图像帧;图像帧差值获取单元,用于获取对应的解码视频分解的各图像帧和原始视频分解的各图像帧之间的差值;理想差值确定单元,对所述各图像帧之间的差值进行处理,得到所述理想差值。
在一些实施例中,所述视频处理器包括卷积神经网络,所述卷积神经网络至少具备以下特征之一:所述卷积神经网络为浅层神经网络,所述卷积神经网络的参数少于预设数值。
在一些实施例中,所述卷积神经网络为mobinet或shufflenet网络。
在一些实施例中,所述卷积神经网络采用非饱和激活函数。
第三方面,本发明实施例还提供一种视频处理方法,包括:获取待处理视频,所述视频为经过编码和解码后的解码视频;视频处理器对所述待处理视频进行处理,得到预计差值,所述视频处理器为根据第一方面方法训练得到的,或者,所述视频处理器为根据第二方面装置训练得到的;根据所述预计差值和所述待处理视频确定新视频。
在一些实施例中,根据所述预计差值和所述待处理视频确定新视频,包括:将所述预计差值与所述待处理视频叠加形成新视频。
在一些实施例中,所述将预计差值与所述待处理视频叠加形成新视频,包括:用预设方式对所述待处理视频进行分解,获取所述待处理视频分解图像帧;用所述同一预设方式对所述预计差值进行分解,获取所述预计差值分解图像帧;叠加所述待处理视频分解图像帧和所述预计差值分解图像帧对应的图像帧,形成新视频。
第四方面,本发明实施例还提供一种视频处理装置,包括:获取模块,用于获取待处理视频,所述视频为经过编码和解码后的解码视频;视频处理器,用于对所述待处理视频进行处理,得到预计差值,所述视频处理器为根据第一方面方法训练得到的,或者,所述视频处理器为根据第二方面装置训练得到的;新视频确定模块,用于根据所述预计差值和所述待处理视频确定新视频。
在一些实施例中,所述新视频确定模块用于将所述预计差值与所述待处理视频叠加形成新视频,新视频确定模块包括:第三分解单元,用于用预设方式对所述待处理视频进行分解,获取所述待处理视频分解图像帧;第四分解单元,用于用所述同一预设方式对所述预计差值进行分解,获取所述预计差值分解图像帧;新视频形成单元,用于叠加所述待处理视频分解图像帧和所述预计差值分解图像帧对应的图像帧,形成新视频。
第五方面,本发明实施例还提供一种计算机设备,包括:至少一个处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;与所述至少一个处理器耦合的存储器,所述存储器存储有可执行指令,其中,所述可执行指令在被所述至少一个处理器执行时使得实现上述第一方面或第三方面中的任一项的方法。
第六方面,本发明实施例还提供一种芯片,用于执行上述第一方面中的方法。具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备用于执行上述第一方面或第三方面中的任一项的方法。
第七方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面或第三方面中的任一项所述的方法。
第八方面,本发明实施例还提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行上述第一方面或第三方面中的任一项所述的方法。
可见,本申请实施例通过对视频处理器进行训练,将经过编码和解码后的视频作为输入,视频处理器对视频进行处理之后输出预计差值,以输出的预计差值和理想差值确定损失函数,对视频处理器参数进行调整,使得视频处理器输出的差值接近理想差值,由于本申请训练方法的视频处理器输出预计差值,且和理想差值进行比较确定损失函数,极大的减少了数据处理量,提高训练效率。本申请视频处理方法,通过深度学习网络训练视频处理器,利用训练好的视频处理器输出预计差值,将预计差值与输入视频叠加,将压缩后解压的视频恢复为原始视频,避免了现有技术由于采用运动估计和运动补偿进行帧间预测而导致的较大的运动估计残差和编码残差,提高了视频恢复的效果,且由于本申请视频处理方法为在预计差值基础上进行视频恢复,减少了需要处理的数据量,减少运算时间,提高运算能力和视频处理效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明视频处理器训练方法的一具体实施例的流程图;
图2为本发明视频处理器训练装置一具体实施例的结构框图;
图3为本发明视频处理方法的一具体实施例的流程图;
图4为本发明视频处理装置一具体实施例的结构框图;
图5为本实施例计算机设备基本结构框图。
具体实施方案
以下结合附图和具体实施例对本申请作详细描述,以便更清楚理解本申请的目的、特点和优点。应理解的是,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本申请的保护范围进行任何限制。除非上下文明确地另外指明,否则单数形式“一”和“所述”包括复数指代物。如本申请中所使用的,用语“第一” 和“第二”可互换使用,以将一个或一类构件分别与另一个或另一类区分开,且不旨在表示独立构件的位置或重要性。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
未经编码的源视频数据量巨大,例如输出一路1920×1080分辨率、24位色、每秒30帧的高清视频,这样一秒钟的视频,它的码率达就到了1.5Gbps。因此需要编码,尽最大可能将其压缩至最低。采用不同算法和策略进行视频压缩,会产生不同的结果,也因此产生了不同的视频编码标准。但无论怎么样的视频编码技术,都是通过对视频的空间冗余、时间冗余和编码冗余等三种冗余数据进行压缩。而解码则是反其道而行之。
目前有许多编码标准,以H.265为例,H.265是现有的最好的视频压缩行业标准。H.265基本原理是压缩相邻两帧之间的重复信息,通过调节H.265参数,可以将采集的视频用压缩到期望的大小(比如说100M压缩到 1M),但可能导致对压缩后的视频进行解码之后所得到的解码后的视频质量过差。
第一方面,本申请提供一种视频处理器训练方法,图1为本发明视频处理器训练方法一具体实施例的流程图,根据图1所示,视频处理器训练方法包括:
步骤110,将解码视频作为训练样本,输入至视频处理器,其中,所述解码视频为对原始视频进行编码之后再进行解码形成的解码视频;
本申请的训练目的是使得视频处理器对经过解码后的视频进行处理后形成预计差值,在训练完成之后该预计差值能够无限接近理想差值,从而在将该视频处理器输出的差值和解码视频叠加之后得到的视频能够无限贴近原始视频,在本申请中所采用的训练样本是对原始视频进行编码得到压缩视频,再对该压缩视频进行解码之后得到的解码视频。将该经过原始视频编码解码之后的视频作为训练方法的样本,输入至视频处理器。在本申请中,对视频编码解码标准并不进行限定,可以采用现有技术或未来技术的任一种编解码方式对原始视频进行编码和解码,得到的解码视频作输入至视频处理器。
步骤120,所述视频处理器对所述解码视频进行处理,输出预计差值。在本申请中,可以采用深度学习网络,输入是作为训练样本的解码视频,经过深度学习网络之后,输出为预计差值。该预计差值可以是与作为输入的解码视频相同或类似格式的文件。具体而言,在一些实施例中,该视频处理器可以包括卷积神经网络。例如一些浅层神经网络以及一些参数较少的神经网络。在本实施例中,该视频处理器是训练的对象。
步骤130,根据所述预计差值和理想差值的差确定损失函数,所述理想差值为所述原始视频与所述解码视频之间的差值。可以理解的是,视频是包含一定序列的连续的图像,相应的,可以根据预设的时间间隔提取视频中的图像帧。在本申请中 ,形成的预计差值可以是包含一定序列的连续的图像帧信息,其中,具体的图像帧信息可以是二维图像帧信息,也可以是三维图像帧信息等现有或未来的图像帧信息。
其中,所述理想差值根据所述原始视频和所述解码视频各对应图像帧之间差值确定。具体获取理想差值的方法可以包括:用预设方式对所述原始视频进行分解,获取所述原始视频各图像帧;用所述同一预设方式对所述解码视频进行分解,获取所述解码视频分解的各图像帧;获取对应的解码视频分解的各图像帧和原始视频分解的各图像帧之间的差值;对所述各图像帧之间的差值进行处理,得到所述理想差值。可以理解的是图像帧可以具体表现为像素值,各图像帧之间的差值可以是各图像帧像素值差值。具体的可以按照时序或者其他对分解的图像帧进行标记。再根据理想差值和预计差值的差确定损失函数。
步骤140,根据所述损失函数的数值对所述视频处理器参数进行调整。可以理解的是,损失函数是理想差值和预计差值的差值,而理想差值视频数据得到,预计差值也是体现了一定序列的图像帧的视频格式的数据。例如,当视频数据中的图像帧数据,以及图像帧数据的变化对视频处理器参数进行调整。在调整之后再对训练样本进行处理,并得到调整之后的损失函数的数据。
步骤150,当所述损失函数数值趋向收敛时,停止训练,得到训练好的视频处理器。在不断的对视频处理器参数进行调整,该损失函数数值趋向收敛时,具体的,收敛可以是数据的曲线呈现收敛状态,也可以是损失函数数值达到或小于预设的值,此时即可以停止训练,此时所得到的视频处理器即为训练好的视频处理器。例如,当损失函数值为0或无限趋近0的时候,说明视频处理器输出的差值几乎等于压缩后解压视频和原始视频之间的理想差值,这种情况下,将所输出的差值与压缩后的解压视频进行叠加,则可以获得几乎接近原始视频的视频。
如果损失函数数值还未达到预设值,或者损失函数数值并未趋向收敛时,则继续训练。
本申请实施例通过对视频处理器进行训练,将经过编码和解码后的视频作为输入,视频处理器对视频进行处理之后输出预计差值,以输出的预计差值和理想差值确定损失函数,对视频处理器参数进行调整,使得视频处理器输出的差值接近理想差值,由于本申请训练方法的视频处理器输出预计差值,且和理想差值进行比较确定损失函数,极大的减少了数据处理量,提高训练效率。
第二方面,本申请提供一种视频处理器训练装置,图2为本发明视频处理器训练装置一具体实施例的结构框图,根据图2所示,视频处理器训练装置包括输入模块201,视频处理器202,损失函数确定模块203,调整模块204,其中,
输入模块201,用于将解码视频作为训练样本,输入至视频处理器,其中,所述解码视频为对原始视频进行编码之后再进行解码形成的解码视频;视频处理器202,用于对所述解码视频进行处理,得到预计差值;损失函数确定模块203,用于根据所述预计差值和理想差值的差确定损失函数,所述理想差值为所述原始视频与所述解码视频之间的差值;调整模块204,用于根据所述损失函数的数值对所述视频处理器的参数进行调整,当所述损失函数数值趋向收敛时,停止训练,得到训练好的视频处理器。
本实施例中视频处理器训练装置的各模块所执行的操作具体可以参见图1所对应的方法,达到相同的技术效果。
在一些实施例中,所述损失函数确定模块,包括:第一分解单元,用于用预设方式对所述原始视频进行分解,获取所述原始视频各图像帧;第二分解单元,用于用所述同一预设方式对所述解码视频进行分解,获取所述解码视频分解的各图像帧;图像帧差值获取单元,用于获取对应的解码视频分解的各图像帧和原始视频分解的各图像帧之间的差值;理想差值确定单元,对所述各图像帧之间的差值进行处理,得到所述理想差值。
在一些实施例中,所述视频处理器包括卷积神经网络,所述卷积神经网络至少具备以下特征之一:所述卷积神经网络为浅层神经网络,所述卷积神经网络的参数少于预设数值。例如,所述卷积神经网络为mobinet或shufflenet网络。以及,在所采用的卷积神经网络中采用非饱和激活函数。当然,在选择网络时,也可以根据具体情况考虑,例如,当更多的考虑视频处理的实时要求时,可以考虑采用网络层较浅,参数较小的CNN(ConvolutionalNeural Networks,卷积神经网络)网络如shuffle net等网络。当更多的考虑视频处理复原精确度要求时,则可以采用网络层较深,参数较多的网络。对于网络的选择,可以根据需要具体选择。
第三方面,本申请提供一种视频处理方法,图3为本发明视频处理方法一具体实施例的流程图,根据图3所示,视频处理方法包括:
步骤310,获取待处理视频,所述视频为经过编码和解码后的解码视频;
步骤320,视频处理器对所述待处理视频进行处理,得到预计差值,所述视频处理器为根据第一方面方法训练得到的,或者,所述视频处理器为根据第二方面装置训练得到的;
步骤330,根据所述预计差值和所述待处理视频确定新视频。
本申请视频处理方法,通过深度学习网络训练视频处理器,利用训练好的视频处理器输出预计差值,将预计差值与输入视频叠加,将压缩后解压的视频恢复为原始视频,避免了现有技术由于采用运动估计和运动补偿进行帧间预测而导致的较大的运动估计残差和编码残差,提高了视频恢复的效果,且由于本申请视频处理方法为在预计差值基础上进行视频恢复,减少了需要处理的数据量,减少运算时间,提高运算能力和视频处理效率。
在一些实施例中,根据所述预计差值和所述待处理视频确定新视频,包括:将所述预计差值与所述待处理视频叠加形成新视频。
在一些实施例中,所述将预计差值与所述待处理视频叠加形成新视频,包括:用预设方式对所述待处理视频进行分解,获取所述待处理视频分解图像帧;用所述同一预设方式对所述预计差值进行分解,获取所述预计差值分解图像帧;叠加所述待处理视频分解图像帧和所述预计差值分解图像帧对应的图像帧,形成新视频。
第四方面,本申请提供一种视频处理装置,图4为本发明视频处理装置一具体实施例的结构框图,根据图4所示,视频处理装置包括:获取模块401,视频处理器402,新视频确定模块403,其中,
获取模块401,用于获取待处理视频,所述视频为经过编码和解码后的解码视频;
视频处理器402,用于对所述待处理视频进行处理,得到预计差值,所述视频处理器为根据第一方面方法训练得到的,或者,所述视频处理器为根据第二方面装置训练得到的;
新视频确定模块403,用于根据所述预计差值和所述待处理视频确定新视频。
本实施例中视频处理装置的各模块所执行的操作具体可以参见图3所对应实施例的方法,达到相同的技术效果。
在一些实施例中,所述新视频确定模块用于将所述预计差值与所述待处理视频叠加形成新视频,包括:第三分解单元,用于用预设方式对所述待处理视频进行分解,获取所述待处理视频分解图像帧;第四分解单元,用于用所述同一预设方式对所述预计差值进行分解,获取所述预计差值分解图像帧;新视频形成单元,用于叠加所述待处理视频分解图像帧和所述预计差值分解图像帧对应的图像帧,形成新视频。
第五方面,本申请实施例还提供一种计算机设备,所述计算机设备可以为神经网络服务器,具体请参阅图5,图5为本实施例计算机设备基本结构框图。
所述计算机设备5包括通过系统总线相互通信连接存储器51、处理器52、网络接口53。需要指出的是,图中仅示出了具有组件51-53的计算机设备5,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的所述计算机设备5是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备5可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器51至少包括一种类型的可读存储介质,存储器可以存储可执行指令控制器、微控制器、微处理器、或其他数据处理芯片,至少包括一种类型的可读存储介质。所述可读存储介质包括非易失性存储器(non-volatile memory)或易失性存储器,例如,闪存(flash memory)、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦写可编程只读存储器(erasable programmable read-only memory,EPROM)、电可擦写可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、可编程只读存储器(programmable read-only memory,PROM)、磁性存储器、磁盘、光盘等,所述RAM可以包括静态RAM或动态RAM。在一些实施例中,所述存储器51可以是所述计算机设备5的内部存储单元,例如,该所述计算机设备5的硬盘或内存。在另一些实施例中,所述存储器51也可以是所述计算机设备5的外部存储设备,例如该所述计算机设备5上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中,所述存储器51通常用于存储安装于所述计算机设备5的操作系统和各类应用软件,例如用于执行本申请第一方面或第四方面的程序代码等。此外,所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
在本申请实施例中,该处理器52可以是中央处理单元(Central ProcessingUnit, CPU)、或者是图像处理器(Graphic Processing Unit,GPU)。该处理器52还可以是其他通用处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器,例如单片机等。
该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中,所述存储器51用于存储程序代码或指令,所述程序代码包括计算机操作指令,所述处理器52用于执行所述存储器51存储的程序代码或指令或者处理数据,例如执行本申请第一方面或第四方面的程序代码。
本文描述的总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,EISA)总线等。该总线系统可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
第六方面,本发明实施例还提供一种芯片,用于执行上述第一方面中的方法。具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备用于执行上述第一方面任一项或第四方面的方法。
此外,在第七方面,本发明实施例还提供一种计算机可读存储介质,计算机可读介质可以是计算机可读信号介质或者计算机可读介质。计算机中的处理器读取存储在计算机可读介质中的计算机可读程序代码,使得处理器能够执行在流程图1或图3对应的人脸中每个步骤、或各步骤的组合中规定的功能动作;生成实施在框图的每一块、或各块的组合中规定的功能动作的装置。
计算机可读介质包含但不限于电子、磁性、光学、电磁、红外的存储器或半导体系统、设备或者装置,或者前述的任意适当组合,所述存储器用于存储程序代码或指令,所述程序代码包括计算机操作指令,所述处理器用于执行所述存储器存储的程序代码或指令。
所述存储器和所述处理器的定义,可以参考前述计算机设备实施例的描述,在此不再赘述。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面的任一项或第四方面所述的方法。
第六方面,本发明实施例还提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行上述第一方面任一项或第四方面的方法。
本领域技术人员可以明白的是,结合本文中所公开的实施例描述的各示例的单元及算法步骤能够以电子硬件、或者软件和电子硬件的结合来实现。这些功能是以硬件还是软件方式来实现,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以针对每个特定的应用,使用不同的方式来实现所描述的功能,但是这种实现并不应认为超出本申请的范围。
在本申请实施例中,所公开的系统、装置和方法可以通过其它方式来实现。例如,单元的划分仅仅为一种逻辑功能划分,在实际实现时还可以有另外的划分方式。例如,多个单元或组件可以进行组合或者可以集成到另一个系统中。另外,各个单元之间的耦合可以是直接耦合或间接耦合。另外,在本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是单独的物理存在等等。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在机器可读存储介质中。因此,本申请的技术方案可以以软件产品的形式来体现,该软件产品可以存储在机器可读存储介质中,其可以包括若干指令用以使得电子设备执行本申请实施例所描述的技术方案的全部或部分过程。上述存储介质可以包括ROM、RAM、可移动盘、硬盘、磁盘或者光盘等各种可以存储程序代码的介质。
以上内容仅为本申请的具体实施方式,本申请的保护范围并不局限于此。本领域技术人员在本申请所公开的技术范围内可以进行变化或替换,这些变化或替换都应当在本申请的保护范围之内。

Claims (10)

1.一种视频处理器训练方法,其特征在于,所述方法包括:
将解码视频作为训练样本,输入至视频处理器,其中,所述解码视频为对原始视频进行编码之后再进行解码形成的解码视频;
所述视频处理器对所述解码视频进行处理,输出预计差值;
根据所述预计差值和理想差值的差确定损失函数,所述理想差值为所述原始视频与所述解码视频之间的差值;
根据所述损失函数的数值对所述视频处理器参数进行调整;
当所述损失函数数值趋向收敛时,停止训练,得到训练好的视频处理器。
2.根据权利要求1所述的方法,其特征在于,所述理想差值根据所述原始视频和所述解码视频各对应图像帧之间差值确定。
3.根据权利要求2所述的方法,其特征在于,所述根据所述原始视频和所述解码视频各对应图像帧之间差值确定理想差值,包括:
用预设方式对所述原始视频进行分解,获取所述原始视频各图像帧;
用所述同一预设方式对所述解码视频进行分解,获取所述解码视频分解的各图像帧;
获取对应的解码视频分解的各图像帧和原始视频分解的各图像帧之间的差值;
对所述各图像帧之间的差值进行处理,得到所述理想差值。
4.根据权利要求3所述的方法,其特征在于,所述各图像帧之间的差值为各图像帧像素值差值。
5.一种视频处理器训练装置,其特征在于,所述装置包括:
输入模块,用于将解码视频作为训练样本,输入至视频处理器,其中,所述解码视频为对原始视频进行编码之后再进行解码形成的解码视频;
视频处理器,用于对所述解码视频进行处理,得到预计差值;
损失函数确定模块,用于根据所述预计差值和理想差值的差确定损失函数,所述理想差值为所述原始视频与所述解码视频之间的差值;
调整模块,用于根据所述损失函数的数值对所述视频处理器的参数进行调整,当所述损失函数数值趋向收敛时,停止训练,得到训练好的视频处理器。
6.根据权利要求5所述的装置,其特征在于,所述损失函数确定模块,包括:
第一分解单元,用于用预设方式对所述原始视频进行分解,获取所述原始视频各图像帧;
第二分解单元,用于用所述同一预设方式对所述解码视频进行分解,获取所述解码视频分解的各图像帧;
图像帧差值获取单元,用于获取对应的解码视频分解的各图像帧和原始视频分解的各图像帧之间的差值;
理想差值确定单元,对所述各图像帧之间的差值进行处理,得到所述理想差值。
7.一种视频处理方法,其特征在于,包括:
获取待处理视频,所述视频为经过编码和解码后的解码视频;
视频处理器对所述待处理视频进行处理,得到预计差值,所述视频处理器为根据权利要求1-4任一项方法训练得到的,或者,所述视频处理器为根据权利要求5或6所述装置训练得到的;
根据所述预计差值和所述待处理视频确定新视频。
8.根据权利要求7所述的方法,其特征在于,根据所述预计差值和所述待处理视频确定新视频,包括:将所述预计差值与所述待处理视频叠加形成新视频。
9.根据权利要求8所述的方法,其特征在于,所述将预计差值与所述待处理视频叠加形成新视频,包括:
用预设方式对所述待处理视频进行分解,获取所述待处理视频分解图像帧;
用所述同一预设方式对所述预计差值进行分解,获取所述预计差值分解图像帧;
叠加所述待处理视频分解图像帧和所述预计差值分解图像帧对应的图像帧,形成新视频。
10.一种视频处理装置,其特征在于,包括:
获取模块,用于获取待处理视频,所述视频为经过编码和解码后的解码视频;
视频处理器,用于对所述待处理视频进行处理,得到预计差值,所述视频处理器为根据权利要求1-4任一项方法训练得到的,或者,所述视频处理器为根据权利要求5或6所述装置训练得到的;
新视频确定模块,用于根据所述预计差值和所述待处理视频确定新视频。
CN202010704473.5A 2020-06-19 2020-07-21 视频处理器训练方法、装置、视频处理装置及视频处理方法 Pending CN111988621A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SG10202005862W 2020-06-19
SG10202005862W 2020-06-19

Publications (1)

Publication Number Publication Date
CN111988621A true CN111988621A (zh) 2020-11-24

Family

ID=73439327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010704473.5A Pending CN111988621A (zh) 2020-06-19 2020-07-21 视频处理器训练方法、装置、视频处理装置及视频处理方法

Country Status (1)

Country Link
CN (1) CN111988621A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023115859A1 (zh) * 2021-12-20 2023-06-29 上海商汤智能科技有限公司 压缩图像修复方法及装置、电子设备、存储介质和程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023115859A1 (zh) * 2021-12-20 2023-06-29 上海商汤智能科技有限公司 压缩图像修复方法及装置、电子设备、存储介质和程序产品

Similar Documents

Publication Publication Date Title
US9729870B2 (en) Video coding efficiency with camera metadata
CN106534859B (zh) 基于spice协议的图像传输方法及装置
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
US20130034151A1 (en) Flexible codec switching
CN110870310A (zh) 图像编码方法和装置
WO2021004153A1 (zh) 图像预测方法、编码器、解码器以及存储介质
US20150350641A1 (en) Dynamic range adaptive video coding system
CN110337811A (zh) 运动补偿的方法、装置和计算机系统
US20130235931A1 (en) Masking video artifacts with comfort noise
CN111988621A (zh) 视频处理器训练方法、装置、视频处理装置及视频处理方法
JP2010183162A (ja) 動画像符号化装置
JP5938424B2 (ja) 画像ブロックを再構成および符号化する方法
CN112183227B (zh) 一种智能泛人脸区域的编码方法和设备
WO2022110870A1 (zh) 图像编码和解码方法、编码和解码装置、编码器及解码器
CN115459780A (zh) 数据压缩的方法、数据解压缩的方法和相关设备
NO20200708A1 (en) Method, computer program and system for detecting changes and moving objects in a video view
CN105357494B (zh) 视频编解码方法、装置
US7706440B2 (en) Method for reducing bit rate requirements for encoding multimedia data
WO2023133888A1 (zh) 图像处理方法、装置、遥控设备、系统及存储介质
WO2023133889A1 (zh) 图像处理方法、装置、遥控设备、系统及存储介质
CN112313950A (zh) 视频图像分量的预测方法、装置及计算机存储介质
CN113810692B (zh) 对变化和移动进行分帧的方法、图像处理装置及程序产品
US20240129487A1 (en) Keypoints based video compression
US20240129513A1 (en) Apparatus and method for outputting image data, and electronic device
WO2024093627A1 (zh) 一种视频压缩方法、视频解码方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination