CN117812273A - 视频传输中的图像恢复方法、设备及存储介质 - Google Patents

视频传输中的图像恢复方法、设备及存储介质 Download PDF

Info

Publication number
CN117812273A
CN117812273A CN202410226546.2A CN202410226546A CN117812273A CN 117812273 A CN117812273 A CN 117812273A CN 202410226546 A CN202410226546 A CN 202410226546A CN 117812273 A CN117812273 A CN 117812273A
Authority
CN
China
Prior art keywords
patch
vector
codebook
target data
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410226546.2A
Other languages
English (en)
Other versions
CN117812273B (zh
Inventor
吕少卿
俞鸣园
王克彦
曹亚曦
费敏健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huachuang Video Signal Technology Co Ltd
Original Assignee
Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huachuang Video Signal Technology Co Ltd filed Critical Zhejiang Huachuang Video Signal Technology Co Ltd
Priority to CN202410226546.2A priority Critical patent/CN117812273B/zh
Publication of CN117812273A publication Critical patent/CN117812273A/zh
Application granted granted Critical
Publication of CN117812273B publication Critical patent/CN117812273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种视频传输中的图像恢复方法、设备及存储介质,该视频传输中的图像恢复方法包括:对原始视频帧的图像内容进行划分,得到多个补丁图块;确定代码本中与补丁图块匹配的标准向量,并获取标准向量在代码本中的向量索引;对多个补丁图块分别对应的向量索引进行打包处理,得到多个目标数据包;将目标数据包发送给视频接收端,以使视频接收端基于目标数据包中的向量索引和代码本进行图像恢复处理,得到原始视频帧对应的图像恢复结果。实现了基于图像内容的图像恢复方法,提高数据压缩效果,减小了视频传输所需要的带宽,能够在网络丢包或不稳定的情况下有效地恢复视频内容。

Description

视频传输中的图像恢复方法、设备及存储介质
技术领域
本申请涉及图像传输技术领域,特别是涉及一种视频传输中的图像恢复方法、设备及存储介质。
背景技术
随着视频传输技术的不断发展,用户对于视频观看体验的要求也越来越高,尤其是在网络稳定性和视频画面质量上。
传统视频传输系统在网络质量不佳的情况下,往往无法保持稳定的视频质量,容易受到带宽限制和网络波动的影响,且存在网络丢包或延迟时,传统的传输错误控制方法(如前向纠错(Forward Error Correction,FEC))可能无法有效恢复视频数据,导致视频质量下降。
发明内容
为了解决上述问题,本申请至少提供一种视频传输中的图像恢复方法、设备及存储介质。
本申请第一方面提供了一种视频传输中的图像恢复方法,视频发送端和视频接收端中均存储有预设的代码本,代码本中含有多个预设的标准向量,标准向量代表指定的视觉元素;方法应用于视频发送端,方法包括:对原始视频帧的图像内容进行划分,得到多个补丁图块;确定代码本中与补丁图块匹配的标准向量,并获取标准向量在代码本中的向量索引;对多个补丁图块分别对应的向量索引进行打包处理,得到多个目标数据包;将目标数据包发送给视频接收端,以使视频接收端基于目标数据包中的向量索引和代码本进行图像恢复处理,得到原始视频帧对应的图像恢复结果。
在一实施例中,对原始视频帧的图像内容进行划分,得到多个补丁图块,包括:获取原始视频帧的图块划分参数,图块划分参数用于限定预划分的补丁图块的大小;按照图块划分参数对原始视频帧进行划分,得到多个补丁图块。
在一实施例中,获取原始视频帧的图块划分参数,包括:确定原始视频帧对应的压缩率;基于压缩率设定原始视频帧的图块划分参数。
在一实施例中,确定代码本中与补丁图块匹配的标准向量,并获取标准向量在代码本中的向量索引,包括:对补丁图块进行图像特征提取,得到补丁图块对应的图块特征向量;计算图块特征向量与代码本中的标准向量之间的相似度;从代码本中选取出相似度满足预设条件的标准向量,得到与补丁图块匹配的标准向量。
在一实施例中,对多个补丁图块分别对应的向量索引进行打包处理,得到多个目标数据包,包括:获取每个补丁图块在原始视频帧中的图块位置信息;基于图块位置信息,确定每个补丁图块对应的相邻补丁图块;基于每个补丁图块对应的相邻补丁图块,确定每个补丁图块对应的向量索引匹配的数据包;按照每个向量索引匹配的数据包,对每个向量索引进行打包处理,得到多个目标数据包。
在一实施例中,基于每个补丁图块对应的相邻补丁图块,确定每个补丁图块对应的向量索引匹配的数据包,包括:将每个补丁图块作为节点,并在相邻补丁图块之间连接边;以最小化节点之间边的数量为目标,将每个补丁图块对应的向量索引分别分配至匹配的数据包中。
在一实施例中,方法还包括:统计每个目标数据包中向量索引的数量,计算每个目标数据包之间的数量差值;若数量差值大于差值阈值,则对每个目标数据包中的向量索引进行调整,直至数量差值不大于差值阈值。
本申请第二方面提供了一种视频传输中的图像恢复方法,方法应用于视频接收端,方法包括:接收视频发送端发送的目标数据包,目标数据包是视频发送端对原始视频帧的图像内容进行划分,得到多个补丁图块,确定代码本中与补丁图块匹配的标准向量,并获取匹配的标准向量在代码本中的向量索引,对多个补丁图块分别对应的向量索引进行打包处理后得到的;基于目标数据包中的向量索引和代码本进行图像恢复处理,得到原始视频帧对应的图像恢复结果。
本申请第三方面提供了一种视频传输中的图像恢复装置,部署于视频发送端,视频发送端和视频接收端中均存储有预设的代码本,代码本中含有多个预设的标准向量,标准向量代表指定的视觉元素,装置包括:图像划分模块,用于对原始视频帧的图像内容进行划分,得到多个补丁图块;向量匹配模块,用于确定代码本中与补丁图块匹配的标准向量,并获取标准向量在代码本中的向量索引;打包模块,用于对多个补丁图块分别对应的向量索引进行打包处理,得到多个目标数据包;发送模块,用于将目标数据包发送给视频接收端,以使视频接收端基于目标数据包中的向量索引和代码本进行图像恢复处理,得到原始视频帧对应的图像恢复结果。
本申请第四方面提供了一种视频传输中的图像恢复装置,部署于视频接收端,视频发送端和视频接收端中均存储有预设的代码本,代码本中含有多个预设的标准向量,标准向量代表指定的视觉元素,装置包括:接收模块,用于接收视频发送端发送的目标数据包,目标数据包是视频发送端对原始视频帧的图像内容进行划分,得到多个补丁图块,确定代码本中与补丁图块匹配的标准向量,并获取匹配的标准向量在代码本中的向量索引,对多个补丁图块分别对应的向量索引进行打包处理后得到的;图像恢复模块,用于基于目标数据包中的向量索引和代码本进行图像恢复处理,得到原始视频帧对应的图像恢复结果。
本申请第五方面提供了一种电子设备,包括存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述视频传输中的图像恢复方法。
本申请第六方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述视频传输中的图像恢复方法。
上述方案,通过对原始视频帧的图像内容进行划分,得到多个补丁图块;确定代码本中与补丁图块匹配的标准向量,并获取标准向量在代码本中的向量索引;对多个补丁图块分别对应的向量索引进行打包处理,得到多个目标数据包;将目标数据包发送给视频接收端,以使视频接收端基于目标数据包中的向量索引和代码本进行图像恢复处理,得到原始视频帧对应的图像恢复结果,实现了基于图像内容的图像恢复方法,提高数据压缩效果,减小了视频传输所需要的带宽,能够在网络丢包或不稳定的情况下有效地恢复视频内容。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1是本申请的一示例性实施例示出的视频传输中的图像恢复方法涉及的一种实施环境的示意图;
图2是本申请的一示例性实施例示出的视频传输中的图像恢复方法的流程图;
图3是本申请的一示例性实施例示出的对原始视频帧进行划分的示意图;
图4是本申请的一示例性实施例示出的多个补丁图块之间的位置示意图;
图5是本申请的另一示例性实施例示出的视频传输中的图像恢复方法的流程图;
图6是本申请的一示例性实施例示出的视频传输中的图像恢复装置的框图;
图7是本申请的另一示例性实施例示出的视频传输中的图像恢复装置的框图;
图8是本申请的一示例性实施例示出的电子设备的结构示意图;
图9是本申请的一示例性实施例示出的计算机可读存储介质的结构示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“和/或”,仅仅是一种描述关联对象的关联信息,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
下面对本申请实施例所提供的视频传输中的图像恢复方法进行说明。
请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括视频发送端110和视频接收端120,视频发送端110和视频接收端120之间相互通信连接。
其中,视频发送端110可以是网络摄像机、智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、服务器等,但并不局限于此。视频发送端110的数量可以是一个或多个。
示例性地,视频发送端110可包括用于视频采集的数据采集模块和用于编码的编码模块,编码模块可以对数据采集模块采集到的原始视频帧进行数据压缩处理。
需要说明的是,编码模块和数据采集模块可以是集成在一个设备上,如视频发送端110为同时具备编码功能和数据采集功能的网络摄像机、智能手机、智能手表等;编码模块和数据采集模块也可以是部署在不同设备上,如编码模块可以是服务器,数据采集模块是与服务器通信连接的网络摄像机。本申请不对视频发送端110的实现方式进行限定。
其中,视频接收端120可包括用于解码的处理模块和可提供显示功能的显示模块。
需要说明的是,处理模块和显示模块可以是集成在一个设备上,如视频接收端120为同时具备解码功能和图像显示功能的智能手机、平板电脑、笔记本电脑、台式计算机等;处理模块和显示模块也可以是集成在不同设备上,如处理模块可以是服务器,显示模块是与服务器通信连接的液晶显示器(liquid crystal display,LCD)、有机发光二极管(organic light emitting diode,OLED)显示器、等离子显示器、投影仪、微LED显示器、硅基液晶(liquid crystal on silicon,LCoS)、数字光处理器(digital light processor,DLP)或任何类别的其它显示器。本申请不对视频接收端120的实现方式进行限定。
在一个示例中,视频发送端110对原始视频帧进行压缩,得到压缩后的目标数据包,并将目标数据包发送给视频接收端120。视频接收端120接收视频发送端110发送的目标数据包,并通过处理模块对目标数据包进行解码,实现原始视频帧的图像恢复处理,得到原始视频帧对应的图像恢复结果,然后将图像恢复结果输出至显示模块中进行播放。
需要说明的是,图1中的应用场景可以是各类视频业务场景,例如,视频会议场景、视频电话场景、在线教育场景、远程辅导场景、低时延直播场景、云游戏场景、无线的屏幕互投场景以及无线扩展屏场景等,本申请实施例对此不作限制。
请参阅图2,图2是本申请的一示例性实施例示出的视频传输中的图像恢复方法的流程图。该视频传输中的图像恢复方法可以应用于图1所示的实施环境,并由该实施环境中的视频发送端具体执行。应理解的是,该方法也可以适用于其它的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。
如图2所示,视频传输中的图像恢复方法至少包括步骤S210至步骤S240,详细介绍如下:
步骤S210:对原始视频帧的图像内容进行划分,得到多个补丁图块。
其中,原始视频帧是指需要进行数据压缩后进行传输的视频帧。
对原始视频帧的图像内容进行划分得到多个补丁图块,一个补丁图块对应原始视频帧中的一个局部图像区域。
举例说明,请参阅图3,图3为本申请一示例性实施例示出的对原始视频帧进行划分的示意图,如图3所示,假设原始视频帧由512x512个像素组成,可以对原始视频帧进行网格划分,得到多个补丁图块。
需要说明的是,图3所示的划分得到的补丁图块的大小和数量仅是示意性说明,实际应用场景中可以划分得到更多或更少的补丁图块。
另外,各个补丁图块之间的大小可以相同,各个补丁图块之间的大小也可以不同,以及,各个补丁图块之间可以不存在重叠,各个补丁图块之间也可以存在重叠,本申请对此不进行限定。
步骤S220:确定代码本中与补丁图块匹配的标准向量,并获取标准向量在代码本中的向量索引。
本申请中的视频发送端和视频接收端中均存储有预设的代码本,代码本中含有多个预设的标准向量,标准向量是图像特征的高级抽象,其代表指定的视觉元素。
示例性地,建立代码本的过程可以包括:获取训练数据集,该训练数据集中含有多个样本图像,对这些样本图像进行图像特征提取及分析,得到多个可以代表特定视觉元素的标准向量。例如,通过训练完成的神经网络,对训练数据集中的样本图像进行图像特征提取,得到多个标准向量,这些标准向量能够生成训练数据集中的所有样本图像,结合这些标准向量得到代码本。
由此可见,代码本中含有的标准向量的数量决定了可选择的视觉元素的数量,更多的标准向量可以提供更多样化的特征选择,进而提供更细致的图像恢复,但同时也意味着需要更大的数据来存储各个标准向量的向量索引。
在得到原始视频帧的多个补丁图块后,确定代码本中与补丁图块匹配的标准向量,得到与补丁图块匹配的标准向量。
例如,对补丁图块进行图像特征提取,得到补丁图块对应的图块特征向量;计算图块特征向量与代码本中的标准向量之间的相似度;从代码本中选取出相似度满足预设条件的标准向量,得到与补丁图块匹配的标准向量。
其中,相似度满足预设条件可以是:与补丁图块的相似度最高的标准向量;或者,与补丁图块的相似度大于相似度阈值的标准向量,本申请对此不进行限定。
将补丁图块的像素信息映射到一个预定义的、更高维度的向量空间中,每个补丁图块通过向量量化的方法被转换成一个高维特征向量,得到补丁图块对应的图块特征向量。然后,计算图块特征向量与代码本中的标准向量之间的相似度,确定代码本中与补丁图块匹配的标准向量。
又例如,预先训练有向量映射模型,该向量映射模型用于对输入的补丁图块映射至代码本中的任一标准向量。
具体地,使用基于卷积神经网络(Convolutional Neural Networks,CNN)的VQGAN(Vector Quantized Generative Adversarial Networks)来对原始视频帧的补丁图块进行标准向量化。VQGAN用于将每个原始视频帧编码成标准向量,而不会造成任何损失。
其中,模型训练步骤包括:使用向量量化损失(vector-quantize loss)将补丁图块的图像特征推向其映射到的标准向量,使用L1重建损失来比较输入的原始视频帧和最终输出的图像恢复结果,使用感知损失(perceptual loss)比较输入的原始视频帧和最终输出的图像恢复结果在感知上的差异,使用判别损失(discriminative loss)比较输入的原始视频帧和最终输出的图像恢复结果在判别上的差异。
结合上述损失函数在训练数据集上训练VQGAN,直至训练损失收敛不再有显著变化,得到训练完成的向量映射模型。
可选地,向量映射模型中还使用了ViT (Vision Transformer) 模型,ViT利用自注意力机制,允许模型在处理一个标准向量时考虑到其他所有标准向量,自注意力机制通过计算标准向量之间的相关性分数来工作,这些分数决定了在生成最终输出时每个标准向量的影响力。
具体地,ViT包含多个层,每层都执行自注意力操作。在每一层中,标准向量的表示会根据其他标准向量的信息进行更新。
经过ViT处理后,输出是一个更新后的标准向量集合,其中包含了更丰富的信息,这些信息反映了原始视频帧中不同部分之间的关系。这个更新后的标准向量集合随后被用于原始视频帧的重建或进一步处理。ViT的主要作用是提高标准向量表示的质量,使其更好地反映视频内容的复杂性和动态性,有助于在丢失恢复过程中更准确地重建原始视频帧。
该向量映射模型的输入为原始视频帧的多个补丁图块,输出为一组标准向量,每个标准向量对应一个补丁图块。
将补丁图块映射到代码本中的标准向量,得到与补丁图块匹配的标准向量在代码本中的向量索引,该过程实际上是一种数据压缩,其通过将原始视频帧的像素数据转换为一组较小的向量表示,并通过向量索引表明对应向量表示在代码本中的位置,能够有效地将高分辨率的原始视频帧转换成一组紧凑的向量索引表示,减少了传输所需的数据量。
步骤S230:对多个补丁图块分别对应的向量索引进行打包处理,得到多个目标数据包。
将原始视频帧中各个补丁图块分别对应的向量索引进行打包处理,以得到目标数据包,该目标数据包中含有原始视频帧在图像恢复时所需要的标准向量的向量索引。
需要说明的是,目标数据包的数量一般为多个,每个目标数据包都含有一组向量索引以及一个头部信息,头部信息包括但不限于原始视频帧的帧索引、该目标数据包的包索引和该目标数据包的包大小,其中,帧索引用于指示该目标数据包属于那个原始视频帧,包索引提供了目标数据包在该原始视频帧中的顺序,而包大小则告诉视频接收方该目标数据包所包含的信息数量。
其中,一个向量索引可以被分配至一个或多个目标数据包中。
其中,目标数据包的数量可以根据当前网络传输情况、原始视频帧的大小等灵活确定。
步骤S240:将目标数据包发送给视频接收端,以使视频接收端基于目标数据包中的向量索引和代码本进行图像恢复处理,得到原始视频帧对应的图像恢复结果。
视频发送端通过将目标数据包发送给视频接收端。
具体地,视频发送端将目标数据包发送到网络传输层,通过网络传输层将目标数据包传输至视频接收端。
由于视频接收端存储有相同的代码本,因此,视频接收端可以根据目标数据包中的向量索引和代码本进行图像恢复处理,得到原始视频帧对应的图像恢复结果。
但是,在传输过程中,由于网络的不稳定性,一些数据包可能会丢失或延迟到达。在视频接收端,如果某些向量索引丢失,由于每个向量索引对应的标准向量都是原始视频帧中图像内容的一个高级抽象,即使丢失一些向量索引,也能够利用剩余的向量索引和对视觉世界的理解来合理地重建丢失的内容,有效避免因为数据包丢失导致视频画面质量降低的问题,保证视频数据的传输质量。
接下来对本申请的部分实施例进行进一步详细说明。
在一些实施方式中,步骤S210中对原始视频帧的图像内容进行划分,得到多个补丁图块,包括:
步骤S211:获取原始视频帧的图块划分参数,图块划分参数用于限定预划分的补丁图块的大小。
示例性地,图块划分参数可以是预先设定的,如针对512x512个像素组成的原始视频帧,将其划分为多个 16x16 像素的补丁图块。
示例性地,还可以根据实际情况灵活计算图块划分参数。
例如:确定原始视频帧对应的压缩率;基于压缩率设定原始视频帧的图块划分参数。
可选地,可以根据网络带宽、网络延迟、网络丢包率、原始视频帧的图像内容的重要程度等中的一种或多种组合,以确定原始视频帧对应的压缩率。
其中,由于原始视频帧被分成多个补丁图块,每个补丁图块映射到一个标准向量,所以标准向量的数量决定了原始视频帧中每个补丁图块的大小。标准向量数量增加时,每个补丁图块变得更小,允许更细致的图像恢复,因为一个标准向量更容易代表一个较小的补丁图块。但是,由于需要从视频发送端到视频接收端传输向量索引,更多的标准向量意味着需要更多的比特来传输所有标准向量的索引,从而降低了压缩率。
因此,每个原始视频帧使用的标准向量的数量和代码本的大小,影响了原始视频帧的压缩率,更大的代码本允许每个标准向量选择更多样化的视觉元素集,但需要更多的比特来表示每个标准向量索引。例如,使用了一个包含 1024个标准向量的代码本,每个标准向量需要10个比特位来表示其在代码本中的索引。
举例说明,在网络条件良好时,可以使用高分辨率的标准向量以提供更高的图像质量,如选择更大的代码本或者原始视频帧使用更多的标准向量;在网络条件较差时,则使用低分辨率的标准向量以确保稳定传输,如选择更小的代码本或者原始视频帧使用更少的标准向量。
步骤S212:按照图块划分参数对原始视频帧的图像内容进行划分,得到多个补丁图块。
然后,确定代码本中与补丁图块匹配的标准向量,并获取标准向量在代码本中的向量索引。
在一些实施方式中,得到标准向量后,还可以对原始视频帧对应的标准向量进行优化。
例如,在网络状况不佳时,可以选择性地替换掉一些非关键的标准向量,用更少的、但更重要的标准向量来代表整个视频帧,标准向量的关键性可以根据其对应补丁图块的图像内容的重要性确定。
又例如,利用原始视频帧之间的时间冗余进行标准向量的数量减小,如对于相邻原始视频帧之间静态或缓慢变化的图像内容,可以重复使用前序视频帧的某些标准向量,减少需要传输的数据量。
在将原始视频帧映射为标准向量的过程中,原始视频帧中相邻补丁图块的空间关系是被保留的。具体来说:由于原始视频帧被分割成补丁图块进行处理,这些补丁图块在标准向量化之前是相邻的,因此,即使在转换成标准向量之后,这些标准向量之间的相对位置仍然隐含地反映了它们在原始视频帧中的空间关系。
在原始视频帧的恢复重建过程中,可以利用这些标准向量之间的空间关系来更准确地恢复出原始视频帧。例如,如果某些标准向量的向量索引丢失,可以根据相邻标准向量的信息来推断丢失标准向量的可能内容。
在一些实施方式中,步骤S230中对多个补丁图块分别对应的向量索引进行打包处理,得到多个目标数据包,包括:
步骤S231:获取每个补丁图块在原始视频帧中的图块位置信息。
步骤S232:基于图块位置信息,确定每个补丁图块对应的相邻补丁图块。
例如,将图块距离小于或等于预设距离的补丁图块作为目标图块的相邻补丁图块。
其中,预设距离可以根据实际应用场景进行确定。
以预设距离为一个网格距离为例,请参阅图4,图4为本申请一示例性实施例示出的多个补丁图块之间的位置示意图,其中,补丁图块p1对应的相邻补丁图块包括p2至p9。
步骤S233:基于每个补丁图块对应的相邻补丁图块,确定每个补丁图块对应的向量索引匹配的数据包。
根据每个补丁图块对应的相邻补丁图块,确定该补丁图块与其对应的相邻补丁图块的数据包分配策略,得到每个补丁图块对应的向量索引匹配的数据包。
可选地,考虑到图像空间中若某一标准向量丢失,其相邻的标准向量有助于恢复该丢失部分的图像内容,因此,为了保证视频接收方的图像恢复效果,以避免将空间上相邻的标准向量的向量索引分配至同一数据包为目标,确定每个补丁图块对应的向量索引匹配的数据包。
示例性地,将每个补丁图块作为节点,并在相邻补丁图块之间连接边;以最小化节点之间边的数量为目标,将每个补丁图块对应的向量索引分别分配至匹配的数据包中。
将每个补丁图块作为节点,并在相邻补丁图块之间连接边之后,可以将标准向量网格视为一个图,可以采用基于图论的方法来设计数据包划分算法,如Kernighan–Lin算法或谱聚类算法等,以将这个图分割成多个子图,每个子图对应一个目标数据包,可以确保划分后的子图(即目标数据包)中的节点(即标准向量)在空间上不是紧密相邻的。
具体地,假设原始视频帧的图表示为G=(V,E),其中V是节点集合,E是边集合。目标是找到一个划分P={P1,P2,…,Pk},使得每个子图Pi 中的节点在原始视频帧的图G中不是直接相邻的。划分的优化目标可以是最小化子图之间的边的数量,具体参见公式1:
公式1中,表示子图Pi与其余子图之间的边的集合,k表示子图的数量(即目标数据包的数量)。
通过上述方式,划分得到的每个目标数据包将包含不同图像区域的标准向量,尽量保证空间上相邻的补丁图块的标准向量不会出现在同一目标数据包中。
可选地,对于原始视频帧中的动态场景或重要特征(如人脸、文本等)的图像区域,可以选择更密集或具有更高冗余的标准向量分配。例如,将动态场景或重要特征(如人脸、文本等)的图像区域对应的标准向量重复分配至多个目标数据包中,以保证该图像区域可以被视频接收方准确恢复。其中,单个标准向量对应的向量索引被分配的目标数据包越多,则其冗余度越高。
可选地,还可以计算相邻补丁图块的标准向量之间的向量相似度,以确定相邻补丁图块的图像内容中含有的相似视觉信息的数量,根据向量相似度确定每个补丁图块对应的向量索引匹配的数据包。
在原始视频帧对应的图块网格中,空间上相邻的补丁图块对应的标准向量往往包含相似的视觉信息。例如,如果一个标准向量代表蓝天的一部分,那么它周围的标准向量很可能也代表蓝天,如图4中的p6、p7和p8。为了分析这种空间关系,可以计算相邻标准向量之间的相似度。
具体地,假设两个相邻补丁图块的标准向量分别表示为和/>,它们之间的向量相似度D可以通过余弦相似度来计算,具体计算公式参见公式2:
当然,也可以通过欧几里得距离或曼哈顿距离等计算向量相似度,本申请对此不进行限定。
通过计算每个相邻补丁图块的标准向量之间的向量相似度,创建一个相似度矩阵,相似度矩阵记录图块网格中每个标准向量与其邻居的标准向量之间的向量相似度。
根据向量相似度确定每个补丁图块对应的向量索引匹配的数据包,例如,根据标准向量之间的向量相似度信息调整原始视频帧标准向量分配的冗余度。如在网络传输条件较差时,可以降低向量相似度高的标准向量区域的冗余度,因为这些区域在视觉上变化较小,降低冗余度对视频质量的影响较小。
步骤S234:按照每个向量索引匹配的数据包,对每个向量索引进行打包处理,得到多个目标数据包。
在一些实施方式中,方法还包括:统计每个目标数据包中向量索引的数量,计算每个目标数据包之间的数量差值;若数量差值大于差值阈值,则对每个目标数据包中的向量索引进行调整,直至数量差值不大于差值阈值。
统计每个目标数据包中向量索引的数量,以对每个目标数据包进行优化,优化目标为确定每个目标数据包的大小接近。
举例说明:使用贪心算法或动态规划来平衡每个目标数据包中的向量索引数量。例如,如果一个目标数据包的向量索引数量超过计算得到的平均值,则将尝试将一些向量索引移动到其他目标数据包中,相关计算公式可以为公式3:
公式3中,N为向量索引总数,k为目标数据包的数量,向量索引的移动调整目标是使每个目标数据包中的向量索引数量尽可能接近 N/k,其中∣Pi∣是第i个目标数据包中的向量索引数量,优化目标是最小化f(P)。
例如,假设有1024 个标准向量的向量索引需要分配到4个目标数据包中,每个目标数据包应尽量包含256个向量索引,通过上述优化算法,可以确保每个目标数据包的负载接近256个向量索引,同时保证空间上相邻的标准向量的向量索引不在同一目标数据包中。
通过上述方式,可以保证网络传输的均衡性。
另外,视频发送端在进行目标数据包的发送时,可以根据网络条件调整目标数据包的发送速率和优先级,以优化视频传输效果。
例如,设B为网络带宽,D为网络延迟,L为目标数据包大小。传输策略可以通过最小化f(B,D,L)=a×D+b×(L/B) 来进行优化,其中a和 b是可调整的权衡参数,例如,如果网络延迟是主要问题,可以增加a的值,反之,如果网络带宽是主要问题,可以增加 b的值。
请参阅图5,图5是本申请的一示例性实施例示出的视频传输中的图像恢复方法的流程图。该视频传输中的图像恢复方法可以应用于图1所示的实施环境,并由该实施环境中的视频接收端具体执行。应理解的是,该方法也可以适用于其它的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。
如图5所示,视频传输中的图像恢复方法至少包括步骤S510至步骤S520,详细介绍如下:
步骤S510:接收视频发送端发送的目标数据包,目标数据包是视频发送端对原始视频帧的图像内容进行划分,得到多个补丁图块,确定代码本中与补丁图块匹配的标准向量,并获取匹配的标准向量在代码本中的向量索引,对多个补丁图块分别对应的向量索引进行打包处理后得到的。
步骤S520:基于目标数据包中的向量索引和代码本进行图像恢复处理,得到原始视频帧对应的图像恢复结果。
视频接收端使用和视频发送端相同的代码本对目标数据包进行解码,以实现原始视频帧的图像恢复,得到原始视频帧对应的图像恢复结果。
示例性地,每个目标数据包对应有头部信息,头部信息包括但不限于原始视频帧的帧索引、该目标数据包的包索引和该目标数据包的包大小,视频接收端根据每个目标数据包的头部信息确定该目标数据包属于哪个视频帧,以及它在该帧中的位置。
然后,视频接收端根据目标数据包的头部信息进行数据包中向量索引的排序和重组,如果某些包丢失,视频接收端可以利用剩余的已接收的向量索引来尝试恢复丢失的部分,例如,基于深度学习模型恢复丢失的图像部分,该深度学习模型的训练方式可以参见上述向量映射模型的训练过程,在此不多做赘述。
本申请提供的视频传输中的图像恢复方法,通过对原始视频帧的图像内容进行划分,得到多个补丁图块;确定代码本中与补丁图块匹配的标准向量,并获取标准向量在代码本中的向量索引;对多个补丁图块分别对应的向量索引进行打包处理,得到多个目标数据包;将目标数据包发送给视频接收端,以使视频接收端基于目标数据包中的向量索引和代码本进行图像恢复处理,得到原始视频帧对应的图像恢复结果,实现了基于图像内容的图像恢复方法,提高数据压缩效果,减小了视频传输所需要的带宽,能够在网络丢包或不稳定的情况下有效地恢复视频内容。
图6是本申请的一示例性实施例示出的视频传输中的图像恢复装置的框图,部署于视频发送端。如图6所示,该示例性的视频传输中的图像恢复装置600包括:图像划分模块610、向量匹配模块620、打包模块630和发送模块640。具体地:
图像划分模块610,用于对原始视频帧的图像内容进行划分,得到多个补丁图块;
向量匹配模块620,用于确定代码本中与补丁图块匹配的标准向量,并获取标准向量在代码本中的向量索引;
打包模块630,用于对多个补丁图块分别对应的向量索引进行打包处理,得到多个目标数据包;
发送模块640,用于将目标数据包发送给视频接收端,以使视频接收端基于目标数据包中的向量索引和代码本进行图像恢复处理,得到原始视频帧对应的图像恢复结果。
图7是本申请的另一示例性实施例示出的视频传输中的图像恢复装置的框图,部署于视频接收端。如图7所示,该示例性的视频传输中的图像恢复装置700包括:接收模块710和图像恢复模块720。具体地:
接收模块710,用于接收视频发送端发送的目标数据包,目标数据包是视频发送端对原始视频帧的图像内容进行划分,得到多个补丁图块,确定代码本中与补丁图块匹配的标准向量,并获取匹配的标准向量在代码本中的向量索引,对多个补丁图块分别对应的向量索引进行打包处理后得到的;
图像恢复模块720,用于基于目标数据包中的向量索引和代码本进行图像恢复处理,得到原始视频帧对应的图像恢复结果。
需要说明的是,上述实施例所提供的视频传输中的图像恢复装置与上述实施例所提供的视频传输中的图像恢复方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的视频传输中的图像恢复装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处不对此进行限制。
请参阅图8,图8是本申请电子设备一实施例的结构示意图。电子设备800包括存储器801和处理器802,处理器802用于执行存储器801中存储的程序指令,以实现上述任一视频传输中的图像恢复方法实施例中的步骤。在一个具体的实施场景中,电子设备800可以包括但不限于:微型计算机、服务器,此外,电子设备800还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器802用于控制其自身以及存储器801以实现上述任一视频传输中的图像恢复方法实施例中的步骤。处理器802还可以称为中央处理单元(CentralProcessing Unit,CPU)。处理器802可能是一种集成电路芯片,具有信号的处理能力。处理器802还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器802可以由集成电路芯片共同实现。
请参阅图9,图9是本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质900存储有能够被处理器运行的程序指令910,程序指令910用于实现上述任一视频传输中的图像恢复方法实施例中的步骤。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种视频传输中的图像恢复方法,其特征在于,视频发送端和视频接收端中均存储有预设的代码本,所述代码本中含有多个预设的标准向量,所述标准向量代表指定的视觉元素,所述方法应用于视频发送端,包括:
对原始视频帧的图像内容进行划分,得到多个补丁图块;
确定所述代码本中与所述补丁图块匹配的标准向量,并获取所述标准向量在所述代码本中的向量索引;
对所述多个补丁图块分别对应的向量索引进行打包处理,得到多个目标数据包;
将所述目标数据包发送给视频接收端,以使所述视频接收端基于所述目标数据包中的向量索引和所述代码本进行图像恢复处理,得到所述原始视频帧对应的图像恢复结果。
2.根据权利要求1所述的方法,其特征在于,所述对原始视频帧的图像内容进行划分,得到多个补丁图块,包括:
获取所述原始视频帧的图块划分参数,所述图块划分参数用于限定预划分的补丁图块的大小;
按照所述图块划分参数对所述原始视频帧进行划分,得到多个补丁图块。
3.根据权利要求2所述的方法,其特征在于,所述获取所述原始视频帧的图块划分参数,包括:
确定所述原始视频帧对应的压缩率;
基于所述压缩率设定所述原始视频帧的图块划分参数。
4.根据权利要求1所述的方法,其特征在于,所述确定所述代码本中与所述补丁图块匹配的标准向量,并获取所述标准向量在所述代码本中的向量索引,包括:
对所述补丁图块进行图像特征提取,得到所述补丁图块对应的图块特征向量;
计算所述图块特征向量与所述代码本中的标准向量之间的相似度;
从所述代码本中选取出相似度满足预设条件的标准向量,得到与所述补丁图块匹配的标准向量。
5.根据权利要求1所述的方法,其特征在于,所述对所述多个补丁图块分别对应的向量索引进行打包处理,得到多个目标数据包,包括:
获取每个补丁图块在所述原始视频帧中的图块位置信息;
基于所述图块位置信息,确定所述每个补丁图块对应的相邻补丁图块;
基于所述每个补丁图块对应的相邻补丁图块,确定每个补丁图块对应的向量索引匹配的数据包;
按照每个向量索引匹配的数据包,对所述每个向量索引进行打包处理,得到多个目标数据包。
6.根据权利要求5所述的方法,其特征在于,所述基于所述每个补丁图块对应的相邻补丁图块,确定每个补丁图块对应的向量索引匹配的数据包,包括:
将所述每个补丁图块作为节点,并在相邻补丁图块之间连接边;
以最小化节点之间边的数量为目标,将所述每个补丁图块对应的向量索引分别分配至匹配的数据包中。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
统计每个目标数据包中向量索引的数量,计算所述每个目标数据包之间的数量差值;
若所述数量差值大于差值阈值,则对所述每个目标数据包中的向量索引进行调整,直至所述数量差值不大于所述差值阈值。
8.一种视频传输中的图像恢复方法,其特征在于,视频发送端和视频接收端中均存储有预设的代码本,所述代码本中含有多个预设的标准向量,所述标准向量代表指定的视觉元素,所述方法应用于视频接收端,所述方法包括:
接收视频发送端发送的目标数据包,所述目标数据包是所述视频发送端对原始视频帧的图像内容进行划分,得到多个补丁图块,确定所述代码本中与所述补丁图块匹配的标准向量,并获取所述匹配的标准向量在所述代码本中的向量索引,对所述多个补丁图块分别对应的向量索引进行打包处理后得到的;
基于所述目标数据包中的向量索引和所述代码本进行图像恢复处理,得到所述原始视频帧对应的图像恢复结果。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现如权利要求1-8任一项所述方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序指令,所述程序指令能够被处理器执行以实现如权利要求1-8任一项所述方法中的步骤。
CN202410226546.2A 2024-02-29 2024-02-29 视频传输中的图像恢复方法、设备及存储介质 Active CN117812273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410226546.2A CN117812273B (zh) 2024-02-29 2024-02-29 视频传输中的图像恢复方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410226546.2A CN117812273B (zh) 2024-02-29 2024-02-29 视频传输中的图像恢复方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117812273A true CN117812273A (zh) 2024-04-02
CN117812273B CN117812273B (zh) 2024-05-28

Family

ID=90423832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410226546.2A Active CN117812273B (zh) 2024-02-29 2024-02-29 视频传输中的图像恢复方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117812273B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040252768A1 (en) * 2003-06-10 2004-12-16 Yoshinori Suzuki Computing apparatus and encoding program
CN1812579A (zh) * 2004-06-27 2006-08-02 苹果电脑有限公司 在视频数据流的编码和解码中存储设备的有效使用
CN1878310A (zh) * 2005-06-11 2006-12-13 三星电子株式会社 图像编码和解码方法和装置以及计算机可读记录介质
CN101090495A (zh) * 2006-06-13 2007-12-19 美国博通公司 处理视频数据的方法和系统
US20090148059A1 (en) * 2007-12-10 2009-06-11 Sharp Kabushiki Kaisha Image processing apparatus, image display apparatus, image forming apparatus, image processing method and storage medium
CN104584549A (zh) * 2012-06-22 2015-04-29 诺基亚公司 用于视频编码的方法和装置
US20150339848A1 (en) * 2014-05-20 2015-11-26 Here Global B.V. Method and apparatus for generating a composite indexable linear data structure to permit selection of map elements based on linear elements
CN106231340A (zh) * 2016-09-23 2016-12-14 合网络技术(北京)有限公司 一种基于hevc 的帧内预测解码方法及装置
CN110099281A (zh) * 2014-05-06 2019-08-06 寰发股份有限公司 用于块内复制模式编码的块向量预测方法
CN111583138A (zh) * 2020-04-27 2020-08-25 Oppo广东移动通信有限公司 视频增强方法及装置、电子设备、存储介质
US20210097724A1 (en) * 2019-09-30 2021-04-01 Nokia Technologies Oy Adaptive Depth Guard Band
US20210306679A1 (en) * 2018-08-17 2021-09-30 Canon Kabushiki Kaisha Method, apparatus and system for encoding and decoding a transformed block of video samples
CN115484005A (zh) * 2022-08-17 2022-12-16 北京东土军悦科技有限公司 多路径视频传输方法、网关和系统、电子设备和存储介质
CN116129308A (zh) * 2022-12-30 2023-05-16 中国电信股份有限公司 一种视频质量增强方法、装置、电子设备及存储介质
CN116521934A (zh) * 2023-04-25 2023-08-01 北京理工大学 面向目标追踪查询的视频存储管理方法及系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040252768A1 (en) * 2003-06-10 2004-12-16 Yoshinori Suzuki Computing apparatus and encoding program
CN1812579A (zh) * 2004-06-27 2006-08-02 苹果电脑有限公司 在视频数据流的编码和解码中存储设备的有效使用
CN1878310A (zh) * 2005-06-11 2006-12-13 三星电子株式会社 图像编码和解码方法和装置以及计算机可读记录介质
CN101090495A (zh) * 2006-06-13 2007-12-19 美国博通公司 处理视频数据的方法和系统
US20090148059A1 (en) * 2007-12-10 2009-06-11 Sharp Kabushiki Kaisha Image processing apparatus, image display apparatus, image forming apparatus, image processing method and storage medium
CN104584549A (zh) * 2012-06-22 2015-04-29 诺基亚公司 用于视频编码的方法和装置
CN110099281A (zh) * 2014-05-06 2019-08-06 寰发股份有限公司 用于块内复制模式编码的块向量预测方法
US20150339848A1 (en) * 2014-05-20 2015-11-26 Here Global B.V. Method and apparatus for generating a composite indexable linear data structure to permit selection of map elements based on linear elements
CN106231340A (zh) * 2016-09-23 2016-12-14 合网络技术(北京)有限公司 一种基于hevc 的帧内预测解码方法及装置
US20210306679A1 (en) * 2018-08-17 2021-09-30 Canon Kabushiki Kaisha Method, apparatus and system for encoding and decoding a transformed block of video samples
US20210097724A1 (en) * 2019-09-30 2021-04-01 Nokia Technologies Oy Adaptive Depth Guard Band
CN111583138A (zh) * 2020-04-27 2020-08-25 Oppo广东移动通信有限公司 视频增强方法及装置、电子设备、存储介质
CN115484005A (zh) * 2022-08-17 2022-12-16 北京东土军悦科技有限公司 多路径视频传输方法、网关和系统、电子设备和存储介质
CN116129308A (zh) * 2022-12-30 2023-05-16 中国电信股份有限公司 一种视频质量增强方法、装置、电子设备及存储介质
CN116521934A (zh) * 2023-04-25 2023-08-01 北京理工大学 面向目标追踪查询的视频存储管理方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LEI ZHAO: "Enhanced Ctu-Level Inter Prediction with Deep Frame Rate Up-Conversion for High Efficiency Video Coding", 《2018 25TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》, 6 September 2018 (2018-09-06) *
张惠凡;罗泽;: "基于卷积神经网络的鸟类视频图像检索研究", 科研信息化技术与应用, no. 05, 20 September 2017 (2017-09-20) *
葛宏立: "面向类的图像分割方法研究", 《中国优秀硕士论文电子期刊网》, 15 December 2004 (2004-12-15) *

Also Published As

Publication number Publication date
CN117812273B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN111479112B (zh) 一种视频编码方法、装置、设备和存储介质
US20200145692A1 (en) Video processing method and apparatus
US8635357B2 (en) Dynamic selection of parameter sets for transcoding media data
US10298970B2 (en) Image transmission method and apparatus
US11475539B2 (en) Electronic apparatus, system and controlling method thereof
CN112887728A (zh) 电子装置、电子装置的控制方法以及系统
US20200404241A1 (en) Processing system for streaming volumetric video to a client device
US20200404327A1 (en) Multi-viewport transcoding for volumetric video streaming
KR20220068880A (ko) 인공지능 모델을 이용한 동영상 인코딩 최적화 방법, 시스템, 및 컴퓨터 프로그램
CN105763855B (zh) 图像传输系统和图像传输方法
CN117812273B (zh) 视频传输中的图像恢复方法、设备及存储介质
CN106937127B (zh) 一种智能搜索准备的显示方法及其系统
CN115499666B (zh) 视频的压缩方法、解压缩方法、装置、设备和存储介质
CN115088266B (zh) 内容生成装置、内容分发系统、内容生成方法以及记录介质
JP2023549210A (ja) ビデオフレーム圧縮方法、ビデオフレーム伸長方法及び装置
US11336902B1 (en) Systems and methods for optimizing video encoding
CN114641793A (zh) 图像提供设备及其图像提供方法和显示设备及其显示方法
KR101954298B1 (ko) 하이브리드 스트리밍 방법, 스트리밍 서버 및 시스템
US11328453B2 (en) Device and method for image processing
KR101760760B1 (ko) 움직임 벡터를 전송하는 방법 및 동영상 전송 서버, 그리고 동영상 재생 방법 및 디바이스
US20230395041A1 (en) Content Display Process
CN114640860B (zh) 一种网络数据处理与传输方法及系统
US20230345008A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
US20230415036A1 (en) Display control in cloud gaming applications
KR20230140276A (ko) 슬라이딩 윈도우 단위 예측 기반의 동영상 인코딩 최적화 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant