CN117425013B - 一种基于可逆架构的视频传输方法和系统 - Google Patents

一种基于可逆架构的视频传输方法和系统 Download PDF

Info

Publication number
CN117425013B
CN117425013B CN202311748192.XA CN202311748192A CN117425013B CN 117425013 B CN117425013 B CN 117425013B CN 202311748192 A CN202311748192 A CN 202311748192A CN 117425013 B CN117425013 B CN 117425013B
Authority
CN
China
Prior art keywords
model
information
reversible
module
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311748192.XA
Other languages
English (en)
Other versions
CN117425013A (zh
Inventor
刘邓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jing'an Defense Technology Co ltd
Original Assignee
Hangzhou Jing'an Defense Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Jing'an Defense Technology Co ltd filed Critical Hangzhou Jing'an Defense Technology Co ltd
Priority to CN202311748192.XA priority Critical patent/CN117425013B/zh
Publication of CN117425013A publication Critical patent/CN117425013A/zh
Application granted granted Critical
Publication of CN117425013B publication Critical patent/CN117425013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation

Abstract

本申请涉及一种基于可逆架构的视频传输,通过基于设置级联结构的两个卷积处理层,确定基础组件,并基于基础组件和雅可比矩阵特性,构建用于对图像帧进行降/升采样的采样模块;构建编解码模块,并通过将多个卷积层级联为知识蒸馏的结构,构建用于恢复采样过程中损失信息的损失重建模块;基于采样模块、损失重建模块和编解码模块,构建可逆架构网络,并通过基于多组图像帧组成的目标图像数据集,训练可逆架构网络,得到视频传输模型。该模型由于算力消耗较小可以被部署在边缘侧设备,可以在降低码率的同时,实时的完成视频资源的压缩与恢复,从而解决了边缘端设备上因为算力不足而导致的视频传输质量较差的问题。

Description

一种基于可逆架构的视频传输方法和系统
技术领域
本申请涉及视频传输领域,特别是涉及一种基于可逆架构的视频传输方法、系统、计算机设备和计算机可读存储介质。
背景技术
在视频传输过程中,通常需要通过编码器对视频中的各个图像帧进行进行编解码以降低传输码率,然而这种编解码的过程是有损的。
在相关技术中,采用可逆架构,将高清视频降采样为低分辨率,并将其中中高频信息转换空间更小的映射信息,从而可以在图像帧重建过程中尽可能的保留高频信息,进而达到提升感官质量的目的。
但是,该类技术方案采用可逆架构进行视频压缩的过程中,需要消耗极大的算力资源和运算时间,因此,无法满足视频传输场景的实时性,同时,也无法减少码率使用。
发明内容
本申请实施例提供了一种基于可逆架构的视频传输方法、系统、计算机设备和计算机可读存储介质,以至少解决相关技术中无法满足视频传输场景的实时性的问题。
第一方面,本申请实施例提供了一种基于可逆架构的图像处理模型训练方法,所述方法包括:
基于级联结构的两个卷积处理层,确定基础组件,并基于所述基础组件和雅可比矩阵特性,构建用于对初始图像帧的图像信息进行降/升采样的采样模块;
构建编解码模块,并通过将多个卷积层级联为知识蒸馏的结构,构建用于恢复采样过程中丢失信息的损失重建模块;
基于所述采样模块、所述损失重建模块和编解码模块,构建可逆架构网络,并通过基于多组所述初始图像帧组成的目标图像数据集,训练所述可逆架构网络,得到图像处理模型。
在其中一些实施例中,所述采样模块包括预处理模块和特征处理模块,基于所述基础组件和雅可比矩阵特性,构建用于对初始图像帧进行降/升采样的采样模块包括:
构建用于,将所述初始图像帧划分为高频信息和低频信息的预处理模块;
基于所述基础组件,构建用于通过降采样,基于所述高频信息和所述低频信息生成图像帧压缩信息,或者,通过升采样,将所述图像帧压缩信息恢复至与所述初始图像帧相似的第二图像帧的采样模块。
在其中一些实施例中,在模型正向退化流程:
所述采样模块用于,获取所述图像数据集,并对所述图像数据集中各个初始图像帧进行小波变换,获取各个所述初始图像帧的低频信息和高频信息;
以及,将所述高频信息转化为保存在像素分布中的高频映射信息,并将所述高频映射信息和所述低频信息在通道维度组合,得到所述图像帧压缩信息;
所述编解码模块用于,将所述图像帧压缩信息编码为压缩码流文件。
在其中一些实施例中,在模型逆向恢复流程:
所述损失重建模块用于,通过多个级联的知识蒸馏模块,基于所述码流文件中的现有特征,进行特征重用和特征填充,获取对所述图像帧压缩信息编码过程中丢失的高频信息,得到重建辅助信息。
在其中一些实施例中,在逆向恢复流程:
所述编解码模块用于,将所述压缩码流文件解码为图像数据;
所述采样模块用于,获取所述图像数据,提取其中的低频信息和高频映射信息,并接收所述损失重建模块生成的重建辅助信息;
以及,基于所述低频信息、所述高频映射信息和所述重建辅助信息,进行升采样,得到与所述初始图像帧相似度大于相似度阈值的图像帧。
在其中一些实施例中,通过基于多组所述初始图像帧组成的目标图像数据集,训练所述可逆架构网络包括:
构建多组损失函数,以所述损失函数为监督信息,基于所述图像数据集对所述可逆架构网络进行循环迭代训练,得到所述图像处理模型;
其中,所述损失函数包括降采样损失函数、高频信息分布监督损失函数、编解码信息重建损失函数和全局损失函数。
在其中一些实施例中,所述方法还包括:
在所述图像处理模型中,获取结果贡献率小于预设阈值的目标分支,通过削减所述目标分支,得到第一优化模型;
以所述第一优化模型为教师模型,以目标模型为学生模型,通过将所述学生模型与所述教师模型进行特征对齐和结果对齐,得到第二优化模型;
通过TensorRT工具,对所述第二优化模型进行int8量化,并在所述int8量化之后,对所述第二优化模型进行微调训炼,得到用于在边缘侧部署的视频传输处理模型。
第二方面,本申请实施例提供了一种基于可逆架构的视频传输方法,用于基于第一方面所述的视频传输处理模型,实现在边缘侧终端设备之间进行可逆的视频数据传输,所述方法包括:
第一终端获取目标视频,并通过所述视频传输处理模型的正向退化流程,对所述目标视频进行压缩,得到待传输数据;
第二终端接收所述第一终端发送的所述待传输数据,并通过所述视频传输处理模型的逆向恢复流程,对所述待传输数据进行复原,得到所述目标视频。
第三方面,一种基于可逆架构的视频传输系统,其特征在于,用于基于第一方面所述的视频传输处理模型,实现在边缘侧终端设备之间进行可逆的视频数据传输,所述系统包括第一终端和第二终端:
所述第一终端用于获取目标视频,并通过所述图像处理模型的正向退化流程,对所述目标视频进行压缩,得到待传输数据;
第二终端用于接收所述第一终端发送的所述待传输数据,并通过所述视频传输处理模型的逆向恢复流程,对所述待传输数据进行复原,得到所述目标视频。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第二方面所述的方法。
相比于相关技术,本申请实施例提供的基于可逆架构的视频传输方法,通过基于设置级联结构的两个卷积处理层,确定基础组件,并基于基础组件和雅可比矩阵特性,构建用于对图像帧进行降/升采样的采样模块;构建编解码模块,并通过将多个卷积层级联为知识蒸馏的结构,构建用于恢复采样过程中损失信息的损失重建模块;基于采样模块、损失重建模块和编解码模块,构建可逆架构网络,并通过基于多组图像帧组成的目标图像数据集,训练可逆架构网络,得到视频传输模型。该模型由于算力消耗较小可以被部署在边缘侧设备,可以在降低码率的同时,实时的完成视频资源的压缩与恢复;从而解决了边缘端设备上因为算力不足而导致的视频传输质量较差的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于可逆架构的图像处理模型训练方法的流程图;
图2是根据本申请实施例的构建可逆架构网络的流程图;
图3是根据本申请实施例的一种基础组件的示意图;
图4是根据本申请实施例的一种采样模块进行降采样的示意图;
图5是根据本申请实施例的一种损失重建模块的示意图;
图6是根据本申请实施例的一种可逆架构网络的示意图;
图7是根据本申请实施例一种结合知识蒸馏对模型进行优化的示意图;
图8是根据本申请实施例的另一种基于可逆架构的图像处理模型训练方法的流程图;
图9是根据本申请实施例的一种图像传输方法的流程图;
图10是根据本申请实施例的一种基于可逆架构的视频传输系统的结构框图;
图11是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请实施例提供了一种基于可逆架构的图像处理模型训练方法,图1是根据本申请实施例的基于可逆架构的图像处理模型训练方法的流程图,如图1所示,该方法通过构建可逆架构网络,并基于多个图像帧组成的数据集训练该网络,得到图像处理模型,包括如下步骤:
S101,采集目标图像数据,并对目标图像数据进行预处理;
其中,该目标图像数据可以是一段视频数据,也可以是多个连续的图像帧组成的图像集合;另外,可以从各种开源数据库获取该目标图像数据,也可以通过采集设备在线下场景中,通过摄像装置实际采集获取;
进一步的,由于直接获取的目标图像数据中可能包括大量残缺、冗余以及错误的图像信息,因此,需要对其进行数据清洗、冗余剔除和缺失值填充等预处理步骤之后,将其应用于模型训练,以得到性能更好的模型;
在一个示例性实施例中,优选的,以执法记录仪中的执法视频流为例,步骤S101具体包括:
Step1,通过使用执法记录仪,以固定尺寸在线下场景中拍摄足够长时间所得到的视频数据,得到目标数据集;
Step2,利用opencv库将目标数据集解码成图片帧集合,对图片帧集合中的模糊图像以及失真图像进行剔除,避免影响训练效果。
Step3,将经过数据清洗和筛选的图像数据按照8:2划分训练数据集和测试数据集,最终得到训练数据集41273张,测试数据集10318张。
S102,结合知识蒸馏和特征层级联,构建轻量化的可逆架构网络;
图2是根据本申请实施例的构建可逆架构网络的流程图,如图2所示,步骤S102包括如下步骤:
S1021,基于级联结构的两个卷积处理层,确定基础组件;
其中,该基础组件逆模型的基础单元,其用于处理图像和空间结构化数据的特征提取,并通过卷积操作来检测输入数据中的模式和特征;
本实施例中,通过将两个卷积层组成的特征处理层作为基础模块,并通过在两个卷积层之间进行级联操作,使得各个图像的特征信息得到复用,进一步增强了网络基础模块的特征学习和标识能力。
需要说明的是,考虑到本模型需要部署在边缘侧,同时还需满足实时性需求;本申请技术方案中通过选择仅包含两个卷积层的基础模块,可以减少模型的整体算力消耗。
进一步的,图3是根据本申请实施例的一种基础组件的示意图,如图3所示,通过在两个卷积层之间设置级联操作,将两个或多个卷积层输出的特征图(feature map)沿着通道维度连接在一起,从而有助于将不同层次或来源的信息整合到一起,实现信息复用,使得模型可以同时考虑和利用这些不同层次的信息,从而在保证较小算力消耗的同时,提高模型的表示能力和泛化性能。
S1022,基于基础组件和雅可比矩阵特性,构建用于对图像帧进行降/升采样的采样模块;
通过上述步骤S1021,确定所需的网络基础模块,本步骤中,基于这些基础模块,构建符合神经网络系数矩阵可逆条件的采样模块;
其中,为了保障模型结构的轻量化以及在降采用和上采样编解码过程中信息不损失,本发明采用可逆架构作为模型的基础架构。本申请中采样模块对应的神经网络,是一些列特征变化方法组成的方程组;
该方程组的系数所组成的矩阵是系数矩阵,可以理解,本实施例中,为了使采样网络对应的神经网络实现可逆,其系数矩阵所组成的雅可比矩阵行列式被设置为不为0;进一步的,雅可比矩阵是指由系数矩阵的一阶偏导数组成的矩阵,雅可比矩阵在某一点处一阶偏导数不为0,在该点处存在可逆矩阵,即存在可逆的神经网络架构。因此,本申请实施例中,利用系数矩阵的雅可比行列式不为0来保障神经网络是可逆的,进而确保采样模块的结构轻量化和模型的处理过程信息无损。
图4是根据本申请实施例的一种采样模块进行降采样的示意图,如图4所示,该采样模块包括预处理模块和特征处理模块,其中,通过预处理模块将图像帧中的信息进行小波变换,以将高分辨率图像中的信息分为低频近似信息,以及水平维度、垂直维度以及对角线维度的高频近似信息;
进一步的,在模型正向退化流程,采样模块用于:
获取图像数据集,并对图像数据集中各个图像帧进行小波变换处理,获取图像帧的低频信息和高频信息;以及,将高频信息压缩为高频映射信息,并将高频映射信息和低频信息在通道维度组合,得到图像帧压缩信息通过特征处理分别对低频信息和高频信息提取的特征在通道层进行融合叠加,得到图像帧压缩信息。
在一示例性实施例中,该图像帧压缩信息包括48维度,前三个维度表示为低频图像信息,后45个维度为将高频图像信息的分布规律的随机高斯分布;如图4所示,图中右侧上方缩略图像表示前三个维度的低分辨率图形,下方曲线表示高频信息的随机高斯分布。
S1023,构建编解码模块,并通过将多个卷积层级联为知识蒸馏的结构,构建用于恢复采样过程中丢失信息的损失重建模块;
在本实施例中,该编解码模块可以但不限于应用H.264(也称为 AVC,AdvancedVideo Coding)和H.265编码标准(也称为 HEVC,High Efficiency Video Coding),对图像帧压缩信息进行编码,得到用于在网络中传输的码流文件。
可以理解,在视频传输领域中,视频编码是将视频信号进行压缩和编码,以便更有效地存储和传输。编码过程涉及将视频帧转换为数字数据,并使用压缩算法减小数据量,同时保持足够的视觉质量。
但是,考虑到视频编码是通过压缩算法,减小视频数据的体积,以便更有效地存储和传输,在这个过程中,部分图像细节和精度会被舍弃,从而导致了信息的损失。
因此,本实施例中,在模型的逆向恢复阶段,解码器基于图像帧压缩信息完成解码之后,还需通过损失重建模块,根据图像中现有特征信息恢复编码过程中丢失的高频信息,从而实现近似无损的网络传输过程。
具体的,图5是根据本申请实施例的一种损失重建模块的示意图,如图5所示,该损失重建模块基于多个级联的知识蒸馏模块组成,其中,在任意一个知识蒸馏模块中,利用了知识蒸馏(distillation)的思想,从教师模型(特征信息)向学生模型(编码后的信息)传递知识;进一步的,通过级联多个蒸馏模块,将现有特征进行多级传递和融合,每个模块都可以学习到一些特定的特征,并且,各个层级的特征之间互相融合叠加,进而利用其特征重用和特征填充能力,基于编码结果中的现有特征信息恢复编解码中丢失的高频信息。
最后,在逆向恢复流程,可逆采样模块用于:
获取图像帧压缩信息,提取其中的低频信息和高频映射信息,并接收损失重建模块生成的恢复辅助信息;以及,基于低频信息、高频映射信息和重建辅助信息,进行升采样,得到近乎无损的原始图像数据集。
S1024,基于采样模块、损失重建模块和编解码模块,构建可逆架构网络。
具体的,通过将上述多个模块组合成一个完整的模型框架,得到可逆架构网络,该过程通过本领域的常规手段即可实现,因此,本实施例中不再赘述。
通过上述步骤S1021至S1024,完成了可逆架构网络的构建。图6是根据本申请实施例的一种可逆架构网络的示意图,如图6所示,该网络在正向退化阶段,以原始图像帧为输入量,对原始图像帧进行降采样和编码得到压缩之后的低分辨率图像和反映高频信息分布的映射信息;
在逆向恢复阶段,以低分辨率图像和映射信息组成的图像帧压缩信息为输入量,对该输入量进行解码和损失重建之后,基于解码的图像和辅助恢复信息,得到近乎无损的原始图像帧。
通过该可逆架构网络,可以在不同终端分别执行视频流的压缩编码以及视频流的逆向恢复,从而可以在消耗较小码率的同时,实现视频的传输。
S103,基于预处理之后的目标图像数据,训练可逆架构网络,得到图像处理模型;
其中,通过设计不同层级的损失函数,以该损失函数为监督信息,对该可逆架构网络进行迭代训练,得到满足既定目标的图像处理模型。
可以理解,在深度学习领域,损失函数用于度量模型的预测输出与实际目标之间的差异。本申请实施例中,通过在模型训练中,不断调整可逆网络的模型参数,并观测对应的损失值,直至损失值被优化至目标程度,完成迭代训练。
具体的,在一种示例性实施例中,在模型训练中设置如下四种损失函数:
1)降采样损失函数;
在降采样过程中,最终目的是使前3个维度表示为低分辨率图像,后45个维度为隐藏高频信息分布规律的随机高斯分布。因此当降采样过程完成时,其前3个维度的特征表示应该与低分辨率图片对齐,因此,通过对异常值敏感性相对较低的L2 loss(Mean SquaredError,MSE,均方误差损失)来实现这两者之间的对齐监督,损失函数公式如下:
其中,表示该损失系数,x表示模型计算得到的特征,target表示目标域特征。
2)高频信息分布监督损失函数。在降采样过程中,为了使低频信息分布在前3个维度,高频信息以高斯正态分布的形式存储在后45个维度内,设计了分布监督损失函数,损失函数公式如下:
其中,表示该损失系数,z表示隐藏高频信息分布形成的高斯正态分布。
3)编解码信息重建损失函数。在进行网络传输时,不可避免的需要进行音视频编解码,在整个音视频编解码过程中,会造成一部分信息丢失,在模型中,本方案利用专有的损失恢复模块来重建该特征损失,使用L2 loss函数作为监督信息来衡量损失恢复模块的恢复效果。损失函数公式如下:
其中,表示该损失系数,x与target分别表示音视频编解码传输前后的特征表示。
4)全局重建损失函数。当整个模型执行完毕时,会产生一张高分辨率的视频帧,在输入的高分辨率视频帧和重建的高分辨率视频帧之间计算L1 loss损失,作为整个模型的全局重建损失函数。
损失函数公式如下:
其中,表示该损失系数,x与target分别表示降采样前和上采样重建后的特征张量,self.eps取1e-6。
进一步的,利用设计的损失函数作为监督信息进行模型训练,并在训练过程中,不断调整模型参数的学习方向,并通过设定一定的阈值,当模型的预测值和目标值之间的差异满足该阈值时,模型训练完成;
在一种实施例中,一种示例性的模型迭代优化训练流程包括:
采用自建的数据集进行训练,数据集中训练图片数量为41273张,测试图片数量为10318张,设置的初始学习率为2e-6,预热步数为1000步,正式训练迭代步数为50000步,正式训练学习率为2e-4,学习率衰减周期为10000,衰减步长为2e-5,优化器选择Adam,随后直接进行训练;
Step2,训练完成后,发现预热效果并不显著,且最终重建的高分辨率视频帧和原始输出的高分辨率视频帧做PSNR指标计算,最终仅得到30.9,并不能满足预期目标,因此对该实例参数进行调整;
Step3,增加预热的步数,将预热步数设置为5000步,以加快模型的训练过程;同时对模型总体结构进行了调整,增加了级联蒸馏模块的数量,其它设置不变;此次训练完成后得到的指标显示,最终PSNR指标达到了31.2;
Step4,将其他设置条件保持不变,学习率大小变为1e-4,来减少每次学习率更新步长,在经过5000次迭代预热和50000次迭代的正式训练后,PSNR指标达到了31.5。
S104,优化图像处理模型,得到可用于边缘侧部署的视频传输模型。
经过上述步骤S101至S103,完成了图像处理模型的构建及训练;进一步的,考虑到到该模型结构仍然庞大,有可能无法满足在边缘设备侧部署所要求的实时性和低码率。因此,对该模型进一步进行优化,具体优化流程包括如下步骤:
1)在视频传输模型中,获取结果贡献率小于预设阈值的目标分支,通过削减目标分支,得到第一优化视频传输模型;
其中,在模型结构中仍然存在一定数量的冗余参数。本方案利用网络剪枝,剪去对最终结果贡献较小的神经元或者分支,来达到进一步减少模型结构大小的目的。具体的,该步骤可以经由自动化剪枝工具或者通过人工操作处理,因此,对其实现细节不再赘述。
2)对第一优化模型为教师模型,结合特征对齐和结构对齐,对教师模型进行知识蒸馏,得到第二优化模型:
图7是根据本申请实施例一种结合知识蒸馏对模型进行优化的示意图,如图7所示,在知识蒸馏过程中,本方案不仅采用了最终结果特征对齐,同时还采用了中间特征对齐。通过在不同特征层的输出上进行对齐,使得学生模型不仅学习到教师模型的处理结果,同时还能学习到教师模型得到最终处理结果时的推理过程。
3)通过TensorRT工具,对第二优化视频传输模型进行了int8量化,并在int8量化之后,对第二优化视频传输模型进行微调训炼,得到用于实际在边缘侧部署的视频传输模型。
通过网络裁剪及蒸馏操作,可以得到能满足边缘端部署要求的模型,但是此时速度仍然不能达到实时性的要求(<=40ms/帧),因此利用TensorRT工具,对模型进行了int8量化,将模型参数的数据类型从float32转换成int8,在理论上极大的提升了推理速度,但是此操作会造成一定程度上的精度损失,所以在进行量化后又对模型进行了微调,使其可以恢复到量化前的精度,从而实现在不损害精度的前提下加快推理速度。
通过上述步骤S104,对模型进行优化,进一步降低了其算力消耗和系统复杂性,得到实时性更高的视频传输处理模型,将该模型部署与边缘端设备上部署,可以在低码率下完成实时性的视频传输。
此外,图8是根据本申请实施例的另一种基于可逆架构的图像处理模型训练方法的流程图。
图9是根据本申请实施例的一种图像传输方法的流程图,如图9所示,该方法用于基于上述步骤S205得到的视频传输处理模型,实现在边缘侧终端设备之间进行可逆的视频数据传输,该方法包括如下步骤:
S901,第一终端获取目标视频,并通过图像处理模型的正向退化流程,对目标视频进行压缩,得到待传输数据;
S902,第二终端接收第一终端发送的待传输数据,并通过数据传输处理模型的逆向恢复流程,对待传输数据进行复原,得到目标视频。
可以理解,上述第一终端和第二终端均为算力、网络状态较弱的终端设备,该设备中部署有上述图像传输处理模型,两者之间通过网络连接。第一终端可以通过该模型将原始视频压缩为低码率的码流,并将其通过网络发送至第二终端之后;第二终端接收该码流之后,可以通过视频传输处理模型,对该码流进行解码,以及结合重建模块提供的辅助信息,将解码结果恢复为与第一终端接收的原始视频接近的数据,从而在边缘侧完成了高质量、低码率且高效率的视频传输,极大的提升了视频传输质量和便捷度。
另一方面,本申请实施例还提供了一种基于可逆架构的视频传输系统,图10是根据本申请实施例的一种基于可逆架构的视频传输系统的结构框图,如图10所示,该用于上述视频传输处理模型,实现在所述边缘侧终端设备之间进行可逆的视频数据传输,系统包括第一终端和第二终端;
第一终端101用于获取目标视频,并通过所述图像处理模型的正向退化流程,对所述目标视频进行压缩,得到待传输数据;
第二终端102用于接收所述第一终端发送的所述待传输数据,并通过所述数据传输处理模型的逆向恢复流程,对所述待传输数据进行复原,得到所述目标视频。
通过上述系统,第一终端101可以通过该模型将原始视频压缩为低码率的码流,并将其通过网络发送至第二终端102;第二终端102接收该码流之后,可以通过视频传输处理模型,对该码流进行解码,以及结合重建模块提供的辅助信息,将解码结果恢复为与第一终端接收的原始视频接近的数据,从而在边缘侧完成了高质量、低码率且高效率的视频传输,极大的提升了视频传输质量和便捷度。
在一个实施例中,图11是根据本申请实施例的电子设备的内部结构示意图,如图11所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图11所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统的运行提供环境,计算机程序被处理器执行时以实现一种基于可逆架构的视频传输方法,数据库用于存储数据。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于可逆架构的图像处理模型训练方法,其特征在于,所述方法包括:
基于级联结构的两个卷积处理层,确定基础组件,并基于所述基础组件和雅可比矩阵特性,构建用于对初始图像帧的图像信息进行降/升采样的采样模块;
构建编解码模块,并通过将多个卷积层级联为知识蒸馏的结构,构建用于恢复采样过程中丢失信息的损失重建模块;
基于所述采样模块、所述损失重建模块和编解码模块,构建可逆架构网络,并通过基于多组所述初始图像帧组成的目标图像数据集,训练所述可逆架构网络,得到图像处理模型;
在所述图像处理模型中,获取结果贡献率小于预设阈值的目标分支,通过削减所述目标分支,得到第一优化模型;
以所述第一优化模型为教师模型,以目标模型为学生模型,通过将所述学生模型与所述教师模型进行特征对齐和结果对齐,得到第二优化模型;
通过TensorRT工具,对所述第二优化模型进行int8量化,并在所述int8量化之后,对所述第二优化模型进行微调,得到用于在边缘侧部署的视频传输处理模型。
2.根据权利要求1所述的方法,其特征在于,所述采样模块包括预处理模块和特征处理模块,基于所述基础组件和雅可比矩阵特性,构建用于对初始图像帧进行降/升采样的采样模块包括:
构建用于,将所述初始图像帧划分为高频信息和低频信息的预处理模块;
基于所述基础组件,构建用于通过降采样,基于所述高频信息和所述低频信息生成图像帧压缩信息,或者,通过升采样,将所述图像帧压缩信息恢复至与所述初始图像帧相似的第二图像帧的采样模块。
3.根据权利要求2所述的方法,其特征在于,在模型正向退化流程:
所述采样模块用于,获取所述图像数据集,并对所述图像数据集中各个初始图像帧进行小波变换,获取各个所述初始图像帧的低频信息和高频信息;
以及,将所述高频信息转化为保存在像素分布中的高频映射信息,并将所述高频映射信息和所述低频信息在通道维度组合,得到所述图像帧压缩信息;
所述编解码模块用于,将所述图像帧压缩信息编码为压缩码流文件。
4.根据权利要求3所述的方法,其特征在于,在模型逆向恢复流程:
所述损失重建模块用于,通过多个级联的知识蒸馏模块,基于所述码流文件中的现有特征,进行特征重用和特征填充,获取对所述图像帧压缩信息编码过程中丢失的高频信息,得到重建辅助信息。
5.根据权利要求4所述的方法,其特征在于,在逆向恢复流程:
所述编解码模块用于,将所述压缩码流文件解码为图像数据;
所述采样模块用于,获取所述图像数据,提取其中的低频信息和高频映射信息,并接收所述损失重建模块生成的重建辅助信息;
以及,基于所述低频信息、所述高频映射信息和所述重建辅助信息,进行升采样,得到与所述初始图像帧相似度大于相似度阈值的图像帧。
6.根据权利要求1所述的方法,其特征在于,通过基于多组所述初始图像帧组成的目标图像数据集,训练所述可逆架构网络包括:
构建多组损失函数,以所述损失函数为监督信息,基于所述图像数据集对所述可逆架构网络进行循环迭代训练,得到所述图像处理模型;
其中,所述损失函数包括降采样损失函数、高频信息分布监督损失函数、编解码信息重建损失函数和全局损失函数。
7.一种基于可逆架构的视频传输方法,其特征在于,用于基于权利要求1所述的视频传输处理模型,实现在边缘侧终端设备之间进行可逆的视频数据传输,所述方法包括:
第一终端获取目标视频,并通过所述视频传输处理模型的正向退化流程,对所述目标视频进行压缩,得到待传输数据;
第二终端接收所述第一终端发送的所述待传输数据,并通过所述视频传输处理模型的逆向恢复流程,对所述待传输数据进行复原,得到所述目标视频。
8.一种基于可逆架构的视频传输系统,其特征在于,用于基于权利要求1所述的视频传输处理模型,实现在边缘侧终端设备之间进行可逆的视频数据传输,所述系统包括第一终端和第二终端:
所述第一终端用于获取目标视频,并通过所述视频传输处理模型的正向退化流程,对所述目标视频进行压缩,得到待传输数据;
第二终端用于接收所述第一终端发送的所述待传输数据,并通过所述视频传输处理模型的逆向恢复流程,对所述待传输数据进行复原,得到所述目标视频。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
CN202311748192.XA 2023-12-19 2023-12-19 一种基于可逆架构的视频传输方法和系统 Active CN117425013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311748192.XA CN117425013B (zh) 2023-12-19 2023-12-19 一种基于可逆架构的视频传输方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311748192.XA CN117425013B (zh) 2023-12-19 2023-12-19 一种基于可逆架构的视频传输方法和系统

Publications (2)

Publication Number Publication Date
CN117425013A CN117425013A (zh) 2024-01-19
CN117425013B true CN117425013B (zh) 2024-04-02

Family

ID=89528852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311748192.XA Active CN117425013B (zh) 2023-12-19 2023-12-19 一种基于可逆架构的视频传输方法和系统

Country Status (1)

Country Link
CN (1) CN117425013B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782393A (zh) * 2019-10-10 2020-02-11 江南大学 一种基于可逆网络的图像分辨率压缩及重建方法
WO2021258529A1 (zh) * 2020-06-22 2021-12-30 北京大学深圳研究生院 图像降分辨率及复原方法、设备及可读存储介质
WO2022057837A1 (zh) * 2020-09-16 2022-03-24 广州虎牙科技有限公司 图像处理和人像超分辨率重建及模型训练方法、装置、电子设备及存储介质
CN114494006A (zh) * 2020-10-26 2022-05-13 中国移动通信有限公司研究院 图像重建模型的训练方法、装置、电子设备及存储介质
CN114936605A (zh) * 2022-06-09 2022-08-23 五邑大学 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN115661712A (zh) * 2022-10-31 2023-01-31 中国科学院计算技术研究所 一种轻量级多任务视频流实时推理方法及系统
WO2023056364A1 (en) * 2021-09-29 2023-04-06 Bytedance Inc. Method, device, and medium for video processing
CN115988215A (zh) * 2022-12-12 2023-04-18 上海交通大学 可变码率图像压缩方法、系统、装置、终端及存储介质
CN116029902A (zh) * 2023-01-17 2023-04-28 安徽工业大学 一种基于知识蒸馏的无监督真实世界图像超分辨方法
CN116362987A (zh) * 2022-09-30 2023-06-30 蜻蜓数字乡村研究院(苏州)有限公司 基于多层级知识蒸馏的去雾模型压缩方法
CN116847087A (zh) * 2023-07-28 2023-10-03 中国科学技术大学先进技术研究院 视频处理方法、装置、存储介质及电子设备
WO2023212997A1 (zh) * 2022-05-05 2023-11-09 五邑大学 基于知识蒸馏的神经网络训练方法、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220337852A1 (en) * 2021-04-08 2022-10-20 Disney Enterprises, Inc. Microdosing For Low Bitrate Video Compression
US20230154169A1 (en) * 2021-11-15 2023-05-18 Qualcomm Incorporated Video processing using delta distillation

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782393A (zh) * 2019-10-10 2020-02-11 江南大学 一种基于可逆网络的图像分辨率压缩及重建方法
WO2021258529A1 (zh) * 2020-06-22 2021-12-30 北京大学深圳研究生院 图像降分辨率及复原方法、设备及可读存储介质
WO2022057837A1 (zh) * 2020-09-16 2022-03-24 广州虎牙科技有限公司 图像处理和人像超分辨率重建及模型训练方法、装置、电子设备及存储介质
CN114494006A (zh) * 2020-10-26 2022-05-13 中国移动通信有限公司研究院 图像重建模型的训练方法、装置、电子设备及存储介质
WO2023056364A1 (en) * 2021-09-29 2023-04-06 Bytedance Inc. Method, device, and medium for video processing
WO2023212997A1 (zh) * 2022-05-05 2023-11-09 五邑大学 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN114936605A (zh) * 2022-06-09 2022-08-23 五邑大学 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN116362987A (zh) * 2022-09-30 2023-06-30 蜻蜓数字乡村研究院(苏州)有限公司 基于多层级知识蒸馏的去雾模型压缩方法
CN115661712A (zh) * 2022-10-31 2023-01-31 中国科学院计算技术研究所 一种轻量级多任务视频流实时推理方法及系统
CN115988215A (zh) * 2022-12-12 2023-04-18 上海交通大学 可变码率图像压缩方法、系统、装置、终端及存储介质
CN116029902A (zh) * 2023-01-17 2023-04-28 安徽工业大学 一种基于知识蒸馏的无监督真实世界图像超分辨方法
CN116847087A (zh) * 2023-07-28 2023-10-03 中国科学技术大学先进技术研究院 视频处理方法、装置、存储介质及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Nima Aghli,et al..Combining Weight Pruning and Knowledge Distillation For CNN Compression.《2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)》.2021,全文. *
Xinfeng Liu,et al..A Knowledge Management Framework for Vehicle Hazard Analysis.《2021 IEEE International Conference on e-Business Engineering (ICEBE)》.2022,全文. *
基于深度学习的室内多移动目标跟踪技术研究;尹彦卿;《中国优秀硕士学位论文全文库(电子期刊)》;20200215;全文 *
面向真实场景的图像超分辨率重建算法研究;孙晓鹏;《中国优秀硕士学位论文全文库(电子期刊)》;20220415;全文 *

Also Published As

Publication number Publication date
CN117425013A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN110225341B (zh) 一种任务驱动的码流结构化图像编码方法
CN111641832B (zh) 编码方法、解码方法、装置、电子设备及存储介质
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
WO2020261314A1 (ja) 画像符号化方法、及び画像復号方法
CN113132729B (zh) 一种基于多参考帧的环路滤波方法及电子装置
CN115689917A (zh) 一种基于深度学习的高效时空超分辨率视频压缩复原方法
CN114449276B (zh) 一种基于学习的超先验边信息补偿图像压缩方法
CN113450421B (zh) 一种基于增强深度学习的无人机侦察图像压缩与解压方法
CN112702607B (zh) 一种基于光流决策的智能视频压缩方法及装置
KR102245682B1 (ko) 영상 압축 장치, 이의 학습 장치 및 방법
CN110677644A (zh) 一种视频编码、解码方法及视频编码帧内预测器
CN117425013B (zh) 一种基于可逆架构的视频传输方法和系统
CN111277835A (zh) 一种结合yolo3与flownet2网络的监控视频压缩及解压方法
CN110730347A (zh) 图像压缩方法、装置及电子设备
CN111080729A (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
CN113822801B (zh) 基于多分支卷积神经网络的压缩视频超分辨率重建方法
CN111163320A (zh) 一种视频压缩方法及系统
CN111770344B (zh) 一种基于深度学习网络的激光光谱图像压缩方法及系统
CN117441186A (zh) 图像解码及处理方法、装置及设备
CN115880381A (zh) 图像处理方法、图像处理装置、模型训练方法
Prantl Image compression overview
CN110717948A (zh) 一种图像后处理方法、系统及终端设备
CN117528085B (zh) 一种基于智能特征聚类的视频压缩编码方法
CN114882133B (zh) 一种图像编解码方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant