CN117061826B - 流媒体时空视频渲染方法、装置及计算机设备 - Google Patents

流媒体时空视频渲染方法、装置及计算机设备 Download PDF

Info

Publication number
CN117061826B
CN117061826B CN202311316624.XA CN202311316624A CN117061826B CN 117061826 B CN117061826 B CN 117061826B CN 202311316624 A CN202311316624 A CN 202311316624A CN 117061826 B CN117061826 B CN 117061826B
Authority
CN
China
Prior art keywords
video frame
sequence
video
time
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311316624.XA
Other languages
English (en)
Other versions
CN117061826A (zh
Inventor
王曜
刘琦
许亦
贺国超
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuntian Changxiang Information Technology Co ltd
Original Assignee
Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yuntian Changxiang Information Technology Co ltd filed Critical Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority to CN202311316624.XA priority Critical patent/CN117061826B/zh
Publication of CN117061826A publication Critical patent/CN117061826A/zh
Application granted granted Critical
Publication of CN117061826B publication Critical patent/CN117061826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种流媒体时空视频渲染方法、装置及计算机设备,包括以下步骤:根据视频帧时序序列,通过时序关联关系,得到位于视频帧的前置时序处的前置时序插帧序列和后置时序处的后置时序插帧序列;对前置时序插帧序列和后置时序插帧序列,通过空间关联关系,得到前置时空插帧序列和后置时空插帧序列;将所述前置时空插帧序列和后置时空插帧序列,分别对应插入视频帧的前置时序处和后置时序处,得到第二视频帧时序序列。本发明通过建立时序关联关系,以及空间关联关系,在时域超分辨率处理中融合空间域超分辨率处理利用空间域超分辨率处理或时域超分辨率处理之间的相关性,使得超分辨率性能达到最佳提升。

Description

流媒体时空视频渲染方法、装置及计算机设备
技术领域
本发明涉及视频处理技术领域,具体涉及一种流媒体时空视频渲染方法、装置及计算机设备。
背景技术
图像超分辨率重构(superresolution,SR)是指利用计算机将一幅低分辨率图像(lowresolution,LR)或图像序列进行处理,恢复出高分辨率图像(highresolution,HR)的一种图像处理技术。HR意味着图像具有高像素密度,可以提供更多的细节,这些细节往往在应用中起到关键作用。
现有技术在视频超分辨重建时,通常分为空间域超分辨率和时域超分辨率两种类型,空间域超分辨率用于提升视频帧的清晰度,时域超分辨率则用于提升视频的帧率。在实际应用中,视频的清晰度和帧率都严重影响着用户对视频的感观体验,而视频时空超分辨率技术可以从清晰度和帧率两方面提升视频的视觉质量,因而具有更高的应用价值和研究价值。
在现有的视频时空超分辨率方法中,通常单独的使用空间域超分辨率处理或时域超分辨率处理进行视频分辨的提高,单独使用一种处理方法,会切断空间域超分辨率处理或时域超分辨率处理之间的相关性,使得超分辨率性能达不到最佳提升。
发明内容
本发明的目的在于提供一种流媒体时空视频渲染方法、装置及计算机设备,以解决现有技术中单独的使用空间域超分辨率处理或时域超分辨率处理进行视频分辨的提高,会切断空间域超分辨率处理或时域超分辨率处理之间的相关性,使得超分辨率性能达不到最佳提升的技术问题。
为解决上述技术问题,本发明具体提供下述技术方案:
在本发明的第一个方面,本发明提供了一种流媒体时空视频渲染方法,包括以下步骤:
获取流媒体视频,所述流媒体视频中包含有多个视频帧,流媒体视频为视频帧在连续时间上构成的视频帧时序序列;
对视频帧,通过图像特征提取,得到视频帧的第一目标特征,所述第一目标特征对应于视频帧中目标对象形成的图像特征,所述目标对象为流媒体视频的拍摄对象;
根据视频帧时序序列,通过时序关联关系,得到位于视频帧的前置时序处的前置时序插帧序列和后置时序处的后置时序插帧序列,所述时序关联关系为表征视频帧在时间域关联关系的神经网络;
对前置时序插帧序列和后置时序插帧序列,通过空间关联关系,得到前置时空插帧序列和后置时空插帧序列,所述空间关联关系为表征视频帧与插帧序列在空间域关联关系的神经网络;
将所述前置时空插帧序列和后置时空插帧序列,分别对应插入视频帧的前置时序处和后置时序处,得到第二视频帧时序序列,所述第二视频帧时序序列对应于时空超分辨率处理的视频帧时序序列;
将第二视频帧时序序列中所有的视频帧进行渲染处理,得到所述流媒体视频时空超分辨率渲染结果。
作为本发明的一种优选方案,所述视频帧的第一目标特征,包括:
利用区域生长法对视频帧进行分割,得到目标对象所在的图像区域和非目标对象所在的图像区域;
将目标对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到所述视频帧的第一目标特征。
作为本发明的一种优选方案,所述时序关联关系的构建,包括:
将视频帧时序序列,通过LSTM神经网络依据正向时序顺序进行预测性学习,得到位于视频帧后置时序处的视频帧预测模型;
所述位于视频帧后置时序处的视频帧预测模型的模型表达式为:(Gp i+1,Gp i+2,…,Gp i+k)=LSTM(G1,G2,…,G i );式中,Gp i+1,Gp i+2,…,Gp i+k 分别为第i个视频帧后置时序处的第1,2,…,k个预测视频帧,G1,G2,…,G i 分别为视频帧时序序列中第1,2,…,i个视频帧,LSTM为LSTM神经网络,ik为计数变量;将视频帧时序序列,通过LSTM神经网络依据逆向时序顺序进行预测性学习,得到位于视频帧前置时序处的视频帧预测模型;
所述位于视频帧前置时序处的视频帧预测模型的模型表达式为:(Gp i-1,Gp i-2,…,Gp i-k )=LSTM(Gn,Gn-1,…,G i );
式中,Gp i-1,Gp i-2,…,Gp i-k 分别为第i个视频帧前置时序处的第1,2,…,k个预测视频帧,Gn-1,Gn-2,…,G i 分别为视频帧时序序列中第n,n-1,…,i个视频帧,LSTM为LSTM神经网络,n为视频帧时序序列中视频帧的总数量,ik为计数变量。作为本发明的一种优选方案,所述前置时序插帧序列的获得,包括:
将视频帧时序序列中任一视频帧的前置时序处的所有视频帧,输入至位于视频帧前置时序处的视频帧预测模型中,由位于视频帧前置时序处的视频帧预测模型输出任一视频帧前置时序处的第1,2,…,k个预测视频帧;
将任一视频帧前置时序处的第1,2,…,k个预测视频帧依时序排列,得到任一视频帧的前置时序插帧序列。
作为本发明的一种优选方案,所述后置时序插帧序列的获得,包括:
将视频帧时序序列中任一视频帧的后置时序处的所有视频帧,输入至位于视频帧后置时序处的视频帧预测模型中,由位于视频帧后置时序处的视频帧预测模型输出任一视频帧后置时序处的第1,2,…,k个预测视频帧;
将任一视频帧后置时序处的第1,2,…,k个预测视频帧依时序排列,得到任一视频帧的后置时序插帧序列。
作为本发明的一种优选方案,所述空间关联关系的构建,包括:
在任一视频帧中:
在前置时序插帧序列的每个预测视频帧中逐一确定出目标对象所在的图像区域;
根据视频帧,视频帧中的目标对象所在的图像区域,前置时序插帧序列的每个预测视频帧,以及前置时序插帧序列的每个预测视频帧中的目标对象所在的图像区域,通过分辨率优化目标的建立,得到任一视频帧中前置时序插帧序列视频帧的时空超分辨率优化目标函数;
在任一视频帧中:
在后置时序插帧序列的每个预测视频帧中逐一确定出目标对象所在的图像区域;
根据视频帧,视频帧中的目标对象所在的图像区域,后置时序插帧序列的每个预测视频帧,以及后置时序插帧序列的每个预测视频帧中的目标对象所在的图像区域,通过分辨率优化目标的建立,得到任一视频帧中后置时序插帧序列视频帧的时空超分辨率优化目标函数。
作为本发明的一种优选方案,所述时空超分辨率优化目标函数的构建,包括:
将视频帧中的目标对象所在的图像区域作为第一孪生网络中第一CNN神经网络的输入项,将视频帧中的第一目标特征作为第一孪生网络中第一CNN神经网络的输出项;
将预测视频帧中的目标对象所在的图像区域作为第一孪生网络中第二CNN神经网络的输入项,将预测视频帧中的第一目标特征作为第一孪生网络中第二CNN神经网络的输出项;
将视频帧作为第二孪生网络中第一CNN神经网络的输入项,将视频帧的全局图像特征作为第二孪生网络中第一CNN神经网络的输出项;
将预测视频帧作为第二孪生网络中第二CNN神经网络的输入项,将预测视频帧的全局图像特征作为第二孪生网络中第二CNN神经网络的输出项;
将第一孪生网络的损失函数与第二孪生网络的损失函数间差值函数作为时空超分辨率优化目标函数;
其中,所述第一孪生网络的损失函数表征视频帧的第一目标特征与预测视频帧的第一目标特征间的差异性,视频帧的第一目标特征与预测视频帧的第一目标特征间的差异性对应于时序超分辨率优化目标;
所述第二孪生网络的损失函数表征视频帧的全局图像特征与预测视频帧的全局图像特征间的差异性,视频帧的全局图像特征与预测视频帧的全局图像特征间的差异性对应于空间超分辨率优化目标;
时空超分辨率优化目标函数对应于时序超分辨率优化目标和空间超分辨率优化目标的单目标函数转化。
作为本发明的一种优选方案,所述前置时空插帧序列和后置时空插帧序列的获得,包括:
将任一视频帧的前置时空插帧序列输入至任一视频帧中前置时序插帧序列视频帧的时空超分辨率优化目标函数,得到任一视频帧的前置时空插帧序列中每个预测视频帧的时空超分辨率优化目标函数值;
将时空超分辨率优化目标函数值大于预设阈值的预测视频帧,并依时序排列,得到前置时空插帧序列;
将任一视频帧的后置时空插帧序列输入至任一视频帧中后置时序插帧序列视频帧的时空超分辨率优化目标函数,得到任一视频帧的后置时空插帧序列中每个预测视频帧的时空超分辨率优化目标函数值;
将时空超分辨率优化目标函数值大于预设阈值的预测视频帧,并依时序排列,得到后置时空插帧序列。
在本发明的第二个方面,本发明提供了一种流媒体时空视频渲染装置,包括:
数据获取模块,用于获取流媒体视频,所述流媒体视频中包含有多个视频帧;
数据处理模块,用于根据视频帧时序序列,通过时序关联关系,得到位于视频帧的前置时序处的前置时序插帧序列和后置时序处的后置时序插帧序列;
用于对前置时序插帧序列和后置时序插帧序列,通过空间关联关系,得到前置时空插帧序列和后置时空插帧序列;
用于将所述前置时空插帧序列和后置时空插帧序列,分别对应插入视频帧的前置时序处和后置时序处,得到第二视频帧时序序列;
用于将第二视频帧时序序列中所有的视频帧进行渲染处理,得到所述流媒体视频时空超分辨率渲染结果;
数据存储模块,用于存储时序关联关系和空间关联关系。
在本发明的第三个方面,本发明提供了一种计算机设备,
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使计算机设备执行流媒体时空视频渲染方法。
在本发明的第四个方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现流媒体时空视频渲染方法。
本发明与现有技术相比较具有如下有益效果:
本发明通过建立时序关联关系,以及空间关联关系,在时域超分辨率处理中融合空间域超分辨率处理利用空间域超分辨率处理或时域超分辨率处理之间的相关性,使得超分辨率性能达到最佳提升,最终实现视频渲染效果最佳。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的流媒体时空视频渲染方法流程图;
图2为本发明实施例提供的流媒体时空视频渲染装置框图;
图3为本发明实施例提供的计算机装置的内部结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在本发明的第一个方面,本发明提供了一种流媒体时空视频渲染方法,包括以下步骤:
获取流媒体视频,流媒体视频中包含有多个视频帧,流媒体视频为视频帧在连续时间上构成的视频帧时序序列;
对视频帧,通过图像特征提取,得到视频帧的第一目标特征,第一目标特征对应于视频帧中目标对象形成的图像特征,目标对象为流媒体视频的拍摄对象;
根据视频帧时序序列,通过时序关联关系,得到位于视频帧的前置时序处的前置时序插帧序列和后置时序处的后置时序插帧序列,时序关联关系为表征视频帧在时间域关联关系的神经网络;
对前置时序插帧序列和后置时序插帧序列,通过空间关联关系,得到前置时空插帧序列和后置时空插帧序列,空间关联关系为表征视频帧与插帧序列在空间域关联关系的神经网络;
将前置时空插帧序列和后置时空插帧序列,分别对应插入视频帧的前置时序处和后置时序处,得到第二视频帧时序序列,第二视频帧时序序列对应于时空超分辨率处理的视频帧时序序列;
将第二视频帧时序序列中所有的视频帧进行渲染处理,得到流媒体视频时空超分辨率渲染结果。
本发明为了使得视频帧的超分辨率效果达到最佳,构建时序关联关系实现视频帧时域的超分辨处理,构建空间关联关系实现视频帧空间域的超分辨率处理,时序关联关系和空间关联关系共同使用,充分挖掘视频帧时域的超分辨处理和视频帧空间域的超分辨处理间的相关性,利用相关性实现视频帧超分辨率的最佳处理。
本发明为了实现时域超分辨率处理,构建了时序关联关系,充分挖掘视频帧在时序间的关联关系,根据时序关联关系预测出包含视频帧可用信息的预测视频帧,利用预测视频帧对视频帧进行插帧处理,补充现有视频帧的图像信息,在时序上实现图像信息的丰度增加,提高了时序上的视频帧超分辨率。
本发明为了实现空间域分辨率处理,构建了空间关联关系,在时序插帧处理提高分辨率的基础上,对插入的预测视频帧与原始视频帧进行空间对齐,将时序上增加的视频帧可用信息或称补充至现有视频帧的图像信息进行空间上插入,将时序上图像信息的丰度增加同时,增加了空间上图像新的丰度,在提高时间上视频帧超分辨率的基础上,提高了空间上的视频超分辨率。
本发明空间域分辨率处理建立在时域分辨率处理基础上,充分利用了时域分辨率与空间与分辨率之间的相关性,来实现超分辨效果的最佳化。
进一步的,本发明为了保证深度学习构建出的时序关联关系的客观性和可解释性,将视频帧进行区域分割,得到目标对象所在的图像区域和非目标对象所在的图像区域,其中,目标对象所在的图像区域才是决定用户观感体验或者说流媒体视频想要传达给用户的图像信息,也就是说,目标对象所在的图像区域的图像特征是视频帧画质的关键性特征,最大程度的保持丰富原有图像信息需要保持目标对象所在的图像区域的图像特征在时序超分辨率处理前后具有最大的差异,证明时域超分辨率处理后实现了对原始图像信息丰度达到最大程度的增加,即超分辨率处理后得到的预测视频帧需要保持目标对象所在的图像区域的图像特征在时域超分辨率处理前后具有最小的差异,因此,将保持目标对象所在的图像区域的图像特征在时域超分辨率处理前后具有最小的差异作为超分辨率处理的一个优化目标。
本发明中最大程度的插入的时序插帧序列需要保持空间超分辨率处理前后具有最大程度的空间对齐,即需要保持空间超分辨率处理后的预测视频帧(时空插帧序列中的预测视频帧)和空间超分辨率处理前的原始视频帧(视频帧)间的图像特征具有最小的差异,说明空间超分辨率处理后的视频帧信息空间结构统一朝向对齐原始视频帧的方向进行最大程度改变,超分辨率处理后得到的预测视频帧需要保持预测视频帧和原始视频帧的图像特征具有最小的差异,因此,将需要保持空间超分辨率处理后的预测视频帧(时空插帧序列中的预测视频帧)和空间超分辨率处理前的原始视频帧(视频帧)间的图像特征具有最小的差异作为超分辨率处理的另一个优化目标。
本发明利用孪生网络对压缩采样率的两个优化目标进行组合,孪生网络利用自身具有的损失函数分别量化出需要保持空间超分辨率处理后的预测视频帧(时空插帧序列中的预测视频帧)和空间超分辨率处理前的原始视频帧(视频帧)间的图像特征的差异度,以及目标对象所在的图像区域的图像特征在时域超分辨处理前后前后的差异度,并对空间超分辨率处理后的预测视频帧(时空插帧序列中的预测视频帧)和空间超分辨率处理前的原始视频帧(视频帧)间的图像特征的差异度,以及目标对象所在的图像区域的图像特征在时域超分辨处理前后前后的差异度进行最大化组合,将双目标优化(两个优化目标优化)转换为单目标优化得到时空超分辨率优化目标函数,以目标优化思维确定出样本视频帧的插帧序列。
本发明空间域分辨率处理建立在时域分辨率处理基础上,充分利用了时空超分辨率优化目标函数挖掘时域分辨率与空间与分辨率之间的相关性,来实现超分辨效果的最佳化。
本发明为了保证深度学习构建出的时序关联关系的客观性和可解释性,将视频帧进行区域分割,得到目标对象所在的图像区域和非目标对象所在的图像区域,具体如下:
视频帧的第一目标特征,包括:
利用区域生长法对视频帧进行分割,得到目标对象所在的图像区域和非目标对象所在的图像区域;
将目标对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到视频帧的第一目标特征。
发明为了实现时域超分辨率处理,构建了时序关联关系,充分挖掘视频帧在时序间的关联关系,具体如下:
时序关联关系的构建,包括:
将视频帧时序序列,通过LSTM神经网络依据正向时序顺序进行预测性学习,得到位于视频帧后置时序处的视频帧预测模型;
位于视频帧后置时序处的视频帧预测模型的模型表达式为:(Gp i+1,Gp i+2,…,Gp i+k)=LSTM(G1,G2,…,G i );式中,Gp i+1,Gp i+2,…,Gp i+k 分别为第i个视频帧后置时序处的第1,2,…,k个预测视频帧,G1,G2,…,G i 分别为视频帧时序序列中第1,2,…,i个视频帧,LSTM为LSTM神经网络,ik为计数变量;将视频帧时序序列,通过LSTM神经网络依据逆向时序顺序进行预测性学习,得到位于视频帧前置时序处的视频帧预测模型;
位于视频帧前置时序处的视频帧预测模型的模型表达式为:
(Gp i-1,Gp i-2,…,Gp i-k )=LSTM(Gn,Gn-1,…,G i );式中,Gp i-1,Gp i-2,…,Gp i-k 分别为第i个视频帧前置时序处的第1,2,…,k个预测视频帧,Gn-1,Gn-2,…,G i 分别为视频帧时序序列中第n,n-1,…,i个视频帧,LSTM为LSTM神经网络,n为视频帧时序序列中视频帧的总数量,ik为计数变量。
前置时序插帧序列的获得,包括:
将视频帧时序序列中任一视频帧的前置时序处的所有视频帧,输入至位于视频帧前置时序处的视频帧预测模型中,由位于视频帧前置时序处的视频帧预测模型输出任一视频帧前置时序处的第1,2,…,k个预测视频帧;
将任一视频帧前置时序处的第1,2,…,k个预测视频帧依时序排列,得到任一视频帧的前置时序插帧序列。
后置时序插帧序列的获得,包括:
将视频帧时序序列中任一视频帧的后置时序处的所有视频帧,输入至位于视频帧后置时序处的视频帧预测模型中,由位于视频帧后置时序处的视频帧预测模型输出任一视频帧后置时序处的第1,2,…,k个预测视频帧;
将任一视频帧后置时序处的第1,2,…,k个预测视频帧依时序排列,得到任一视频帧的后置时序插帧序列。
本发明为了实现空间域分辨率处理,构建了空间关联关系,在时序插帧处理提高分辨率的基础上,对插入的预测视频帧与原始视频帧进行空间对齐,具体如下:
空间关联关系的构建,包括:
在任一视频帧中:
在前置时序插帧序列的每个预测视频帧中逐一确定出目标对象所在的图像区域;
根据视频帧,视频帧中的目标对象所在的图像区域,前置时序插帧序列的每个预测视频帧,以及前置时序插帧序列的每个预测视频帧中的目标对象所在的图像区域,通过分辨率优化目标的建立,得到任一视频帧中前置时序插帧序列视频帧的时空超分辨率优化目标函数;
在任一视频帧中:
在后置时序插帧序列的每个预测视频帧中逐一确定出目标对象所在的图像区域;
根据视频帧,视频帧中的目标对象所在的图像区域,后置时序插帧序列的每个预测视频帧,以及后置时序插帧序列的每个预测视频帧中的目标对象所在的图像区域,通过分辨率优化目标的建立,得到任一视频帧中后置时序插帧序列视频帧的时空超分辨率优化目标函数。
进一步的,本发明为了最大程度的保持丰富原有图像信息需要保持目标对象所在的图像区域的图像特征在时序超分辨率处理前后具有最大的差异,证明时域超分辨率处理后实现了对原始图像信息丰度达到最大程度的增加,即超分辨率处理后得到的预测视频帧需要保持目标对象所在的图像区域的图像特征在时域超分辨率处理前后具有最小的差异,因此,将保持目标对象所在的图像区域的图像特征在时域超分辨率处理前后具有最小的差异作为超分辨率处理的一个优化目标。
本发明中最大程度的插入的时序插帧序列需要保持空间超分辨率处理前后具有最大程度的空间对齐,即需要保持空间超分辨率处理后的预测视频帧(时空插帧序列中的预测视频帧)和空间超分辨率处理前的原始视频帧(视频帧)间的图像特征具有最小的差异,说明空间超分辨率处理后的视频帧信息空间结构统一朝向对齐原始视频帧的方向进行最大程度改变,超分辨率处理后得到的预测视频帧需要保持预测视频帧和原始视频帧的图像特征具有最小的差异,因此,将需要保持空间超分辨率处理后的预测视频帧(时空插帧序列中的预测视频帧)和空间超分辨率处理前的原始视频帧(视频帧)间的图像特征具有最小的差异作为超分辨率处理的另一个优化目标。
本发明利用孪生网络对压缩采样率的两个优化目标进行组合,孪生网络利用自身具有的损失函数分别量化出需要保持空间超分辨率处理后的预测视频帧(时空插帧序列中的预测视频帧)和空间超分辨率处理前的原始视频帧(视频帧)间的图像特征的差异度,以及目标对象所在的图像区域的图像特征在时域超分辨处理前后前后的差异度,并对空间超分辨率处理后的预测视频帧(时空插帧序列中的预测视频帧)和空间超分辨率处理前的原始视频帧(视频帧)间的图像特征的差异度,以及目标对象所在的图像区域的图像特征在时域超分辨处理前后前后的差异度进行最大化组合,将双目标优化(两个优化目标优化)转换为单目标优化得到时空超分辨率优化目标函数,以目标优化思维确定出样本视频帧的插帧序列,具体:
时空超分辨率优化目标函数为空间超分辨率处理后的预测视频帧(时空插帧序列中的预测视频帧)和空间超分辨率处理前的原始视频帧(视频帧)间的图像特征的差异度,减去目标对象所在的图像区域的图像特征在时域超分辨处理前后前后的差异度,最大化单目标优化,即最小化第一差异度,从数学上解释是空间超分辨率处理后的预测视频帧(时空插帧序列中的预测视频帧)和空间超分辨率处理前的原始视频帧(视频帧)间的图像特征的差异度,减去目标对象所在的图像区域的图像特征在超分辨率处理前后的差异度得到差值最大,映射至实际意义上,目标对象所在的图像区域的图像特征在超分辨率处理前后具有最大的差异,时序超分辨率处理实现的图像信息得到最大程度增加,空间超分辨率处理后的预测视频帧(时空插帧序列中的预测视频帧)和空间超分辨率处理前的原始视频帧(视频帧)间的图像特征具有最小的差异,实现空间超分辨率处理前后具有最大程度的空间对齐,具体如下:
时空超分辨率优化目标函数的构建,包括:
将视频帧中的目标对象所在的图像区域作为第一孪生网络中第一CNN神经网络的输入项,将视频帧中的第一目标特征作为第一孪生网络中第一CNN神经网络的输出项;
将预测视频帧中的目标对象所在的图像区域作为第一孪生网络中第二CNN神经网络的输入项,将预测视频帧中的第一目标特征作为第一孪生网络中第二CNN神经网络的输出项;
将视频帧作为第二孪生网络中第一CNN神经网络的输入项,将视频帧的全局图像特征作为第二孪生网络中第一CNN神经网络的输出项;
将预测视频帧作为第二孪生网络中第二CNN神经网络的输入项,将预测视频帧的全局图像特征作为第二孪生网络中第二CNN神经网络的输出项;
将第一孪生网络的损失函数与第二孪生网络的损失函数间差值函数作为时空超分辨率优化目标函数;
其中,第一孪生网络的损失函数表征视频帧的第一目标特征与预测视频帧的第一目标特征间的差异性,视频帧的第一目标特征与预测视频帧的第一目标特征间的差异性对应于时序超分辨率优化目标;
第二孪生网络的损失函数表征视频帧的全局图像特征与预测视频帧的全局图像特征间的差异性,视频帧的全局图像特征与预测视频帧的全局图像特征间的差异性对应于空间超分辨率优化目标;
时空超分辨率优化目标函数对应于时序超分辨率优化目标和空间超分辨率优化目标的单目标函数转化。
全局图像特征为视频帧中所有图像区域的图像特征。
前置时空插帧序列和后置时空插帧序列的获得,包括:
将任一视频帧的前置时空插帧序列输入至任一视频帧中前置时序插帧序列视频帧的时空超分辨率优化目标函数,得到任一视频帧的前置时空插帧序列中每个预测视频帧的时空超分辨率优化目标函数值;
将时空超分辨率优化目标函数值大于预设阈值的预测视频帧,并依时序排列,得到前置时空插帧序列;
将任一视频帧的后置时空插帧序列输入至任一视频帧中后置时序插帧序列视频帧的时空超分辨率优化目标函数,得到任一视频帧的后置时空插帧序列中每个预测视频帧的时空超分辨率优化目标函数值;
将时空超分辨率优化目标函数值大于预设阈值的预测视频帧,并依时序排列,得到后置时空插帧序列。
本发明空间域分辨率处理建立在时域分辨率处理基础上,充分利用了时空超分辨率优化目标函数挖掘时域分辨率与空间与分辨率之间的相关性,来实现超分辨效果的最佳化。
视频帧中目标对象所在的图像区域与预测视频帧中目标对象所在的图像区域具有一致的像素坐标。
在视频帧时序序列中相邻时序的两个视频帧之间,相邻时序中位于前置时序的视频帧的前置时序插帧序列在第二视频帧序列中排列在位于相邻时序中后置时序的视频帧的后置时序插值序列之前。
如图2所示,在本发明的第二个方面,本发明提供了一种流媒体时空视频渲染装置,包括:
数据获取模块,用于获取流媒体视频,流媒体视频中包含有多个视频帧;
数据处理模块,用于根据视频帧时序序列,通过时序关联关系,得到位于视频帧的前置时序处的前置时序插帧序列和后置时序处的后置时序插帧序列;
用于对前置时序插帧序列和后置时序插帧序列,通过空间关联关系,得到前置时空插帧序列和后置时空插帧序列;
用于将前置时空插帧序列和后置时空插帧序列,分别对应插入视频帧的前置时序处和后置时序处,得到第二视频帧时序序列;
用于将第二视频帧时序序列中所有的视频帧进行渲染处理,得到流媒体视频时空超分辨率渲染结果;
数据存储模块,用于存储时序关联关系和空间关联关系。
如图3所示,在本发明的第三个方面,本发明提供了一种计算机设备,
至少一个处理器;以及
与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使计算机设备执行流媒体时空视频渲染方法。
在本发明的第四个方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现流媒体时空视频渲染方法。
本发明通过建立时序关联关系,以及空间关联关系,在时域超分辨率处理中融合空间域超分辨率处理利用空间域超分辨率处理或时域超分辨率处理之间的相关性,使得超分辨率性能达到最佳提升,最终实现视频渲染效果最佳。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (9)

1.一种流媒体时空视频渲染方法,其特征在于:包括以下步骤:
获取流媒体视频,所述流媒体视频中包含有多个视频帧,流媒体视频为视频帧在连续时间上构成的视频帧时序序列;
对视频帧,通过图像特征提取,得到视频帧的第一目标特征,所述第一目标特征对应于视频帧中目标对象形成的图像特征,所述目标对象为流媒体视频的拍摄对象;
根据视频帧时序序列,通过时序关联关系,得到位于视频帧的前置时序处的前置时序插帧序列和后置时序处的后置时序插帧序列,所述时序关联关系为表征视频帧在时间域关联关系的神经网络;
对前置时序插帧序列和后置时序插帧序列,通过空间关联关系,得到前置时空插帧序列和后置时空插帧序列,所述空间关联关系为表征视频帧与插帧序列在空间域关联关系的神经网络;
将所述前置时空插帧序列和后置时空插帧序列,分别对应插入视频帧的前置时序处和后置时序处,得到第二视频帧时序序列,所述第二视频帧时序序列对应于时空超分辨率处理的视频帧时序序列;
将第二视频帧时序序列中所有的视频帧进行渲染处理,得到所述流媒体视频时空超分辨率渲染结果;
所述视频帧的第一目标特征,包括:
利用区域生长法对视频帧进行分割,得到目标对象所在的图像区域和非目标对象所在的图像区域;
将目标对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到所述视频帧的第一目标特征。
2.根据权利要求1所述的一种流媒体时空视频渲染方法,其特征在于:所述时序关联关系的构建,包括:
将视频帧时序序列,通过LSTM神经网络依据正向时序顺序进行预测性学习,得到位于视频帧后置时序处的视频帧预测模型;
所述位于视频帧后置时序处的视频帧预测模型的模型表达式为:
(Gp i+1,Gp i+2,…,Gp i+k)=LSTM(G1,G2,…,G i );式中,Gp i+1,Gp i+2,…,Gp i+k 分别为第i个视频帧后置时序处的第1,2,…,k个预测视频帧,G1,G2,…,G i 分别为视频帧时序序列中第1,2,…,i个视频帧,LSTM为LSTM神经网络,ik为计数变量;将视频帧时序序列,通过LSTM神经网络依据逆向时序顺序进行预测性学习,得到位于视频帧前置时序处的视频帧预测模型;
所述位于视频帧前置时序处的视频帧预测模型的模型表达式为:(Gp i-1,Gp i-2,…,Gp i-k )=LSTM(Gn,Gn-1,…,G i );式中,Gp i-1,Gp i-2,…,Gp i-k 分别为第i个视频帧前置时序处的第1,2,…,k个预测视频帧,Gn,Gn-1,…,G i 分别为视频帧时序序列中第n,n-1,…,i个视频帧,LSTM为LSTM神经网络,n为视频帧时序序列中视频帧的总数量,ik为计数变量。
3.根据权利要求2所述的一种流媒体时空视频渲染方法,其特征在于:所述前置时序插帧序列的获得,包括:
将视频帧时序序列中任一视频帧的前置时序处的所有视频帧,输入至位于视频帧前置时序处的视频帧预测模型中,由位于视频帧前置时序处的视频帧预测模型输出任一视频帧前置时序处的第1,2,…,k个预测视频帧;将任一视频帧前置时序处的第1,2,…,k个预测视频帧依时序排列,得到任一视频帧的前置时序插帧序列。
4.根据权利要求3所述的一种流媒体时空视频渲染方法,其特征在于:所述后置时序插帧序列的获得,包括:
将视频帧时序序列中任一视频帧的后置时序处的所有视频帧,输入至位于视频帧后置时序处的视频帧预测模型中,由位于视频帧后置时序处的视频帧预测模型输出任一视频帧后置时序处的第1,2,…,k个预测视频帧;将任一视频帧后置时序处的第1,2,…,k个预测视频帧依时序排列,得到任一视频帧的后置时序插帧序列。
5.根据权利要求4所述的一种流媒体时空视频渲染方法,其特征在于:所述空间关联关系的构建,包括:
在任一视频帧中:
在前置时序插帧序列的每个预测视频帧中逐一确定出目标对象所在的图像区域;
根据视频帧、视频帧中的目标对象所在的图像区域、前置时序插帧序列的每个预测视频帧、以及前置时序插帧序列的每个预测视频帧中的目标对象所在的图像区域,通过分辨率优化目标的建立,得到任一视频帧中前置时序插帧序列视频帧的时空超分辨率优化目标函数;
在任一视频帧中:
在后置时序插帧序列的每个预测视频帧中逐一确定出目标对象所在的图像区域;
根据视频帧、视频帧中的目标对象所在的图像区域、后置时序插帧序列的每个预测视频帧、以及后置时序插帧序列的每个预测视频帧中的目标对象所在的图像区域,通过分辨率优化目标的建立,得到任一视频帧中后置时序插帧序列视频帧的时空超分辨率优化目标函数。
6.根据权利要求5所述的一种流媒体时空视频渲染方法,其特征在于:所述时空超分辨率优化目标函数的构建,包括:
将视频帧中的目标对象所在的图像区域作为第一孪生网络中第一CNN神经网络的输入项,将视频帧中的第一目标特征作为第一孪生网络中第一CNN神经网络的输出项;
将预测视频帧中的目标对象所在的图像区域作为第一孪生网络中第二CNN神经网络的输入项,将预测视频帧中的第一目标特征作为第一孪生网络中第二CNN神经网络的输出项;
将视频帧作为第二孪生网络中第一CNN神经网络的输入项,将视频帧的全局图像特征作为第二孪生网络中第一CNN神经网络的输出项;
将预测视频帧作为第二孪生网络中第二CNN神经网络的输入项,将预测视频帧的全局图像特征作为第二孪生网络中第二CNN神经网络的输出项;
将第一孪生网络的损失函数与第二孪生网络的损失函数间差值函数作为时空超分辨率优化目标函数;
其中,所述第一孪生网络的损失函数表征视频帧的第一目标特征与预测视频帧的第一目标特征间的差异性,视频帧的第一目标特征与预测视频帧的第一目标特征间的差异性对应于时序超分辨率优化目标;
所述第二孪生网络的损失函数表征视频帧的全局图像特征与预测视频帧的全局图像特征间的差异性,视频帧的全局图像特征与预测视频帧的全局图像特征间的差异性对应于空间超分辨率优化目标;
时空超分辨率优化目标函数对应于时序超分辨率优化目标和空间超分辨率优化目标的单目标函数转化;
其中,全局图像特征为视频帧中所有图像区域的图像特征。
7.根据权利要求6所述的一种流媒体时空视频渲染方法,其特征在于:所述前置时空插帧序列和后置时空插帧序列的获得,包括:
将任一视频帧的前置时序插帧序列输入至任一视频帧中前置时序插帧序列视频帧的时空超分辨率优化目标函数,得到任一视频帧的前置时序插帧序列中每个预测视频帧的时空超分辨率优化目标函数值;
将时空超分辨率优化目标函数值大于预设阈值的预测视频帧,并依时序排列,得到前置时空插帧序列;
将任一视频帧的后置时序插帧序列输入至任一视频帧中后置时序插帧序列视频帧的时空超分辨率优化目标函数,得到任一视频帧的后置时序插帧序列中每个预测视频帧的时空超分辨率优化目标函数值;
将时空超分辨率优化目标函数值大于预设阈值的预测视频帧,并依时序排列,得到后置时空插帧序列。
8.一种流媒体时空视频渲染装置,其特征在于,包括:
数据获取模块,用于获取流媒体视频,所述流媒体视频中包含有多个视频帧,流媒体视频为视频帧在连续时间上构成的视频帧时序序列;
数据处理模块,用于根据视频帧时序序列,通过时序关联关系,得到位于视频帧的前置时序处的前置时序插帧序列和后置时序处的后置时序插帧序列,所述时序关联关系为表征视频帧在时间域关联关系的神经网络;
用于对前置时序插帧序列和后置时序插帧序列,通过空间关联关系,得到前置时空插帧序列和后置时空插帧序列,所述空间关联关系为表征视频帧与插帧序列在空间域关联关系的神经网络;
用于将所述前置时空插帧序列和后置时空插帧序列,分别对应插入视频帧的前置时序处和后置时序处,得到第二视频帧时序序列;
用于将第二视频帧时序序列中所有的视频帧进行渲染处理,得到所述流媒体视频时空超分辨率渲染结果;
数据存储模块,用于存储时序关联关系和空间关联关系。
9.一种计算机设备,其特征在于,
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使计算机设备执行权利要求1-7任一项所述的方法。
CN202311316624.XA 2023-10-12 2023-10-12 流媒体时空视频渲染方法、装置及计算机设备 Active CN117061826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311316624.XA CN117061826B (zh) 2023-10-12 2023-10-12 流媒体时空视频渲染方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311316624.XA CN117061826B (zh) 2023-10-12 2023-10-12 流媒体时空视频渲染方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN117061826A CN117061826A (zh) 2023-11-14
CN117061826B true CN117061826B (zh) 2024-02-02

Family

ID=88653961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311316624.XA Active CN117061826B (zh) 2023-10-12 2023-10-12 流媒体时空视频渲染方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN117061826B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104160422A (zh) * 2012-03-05 2014-11-19 汤姆逊许可公司 执行超分辨率的方法和装置
CN114757828A (zh) * 2022-04-02 2022-07-15 华南理工大学 基于Transformer的视频时空超分辨率方法
CN116668738A (zh) * 2023-04-26 2023-08-29 七腾机器人有限公司 一种视频时空超分辨率重构方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136066B (zh) * 2019-05-23 2023-02-24 北京百度网讯科技有限公司 面向视频的超分辨率方法、装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104160422A (zh) * 2012-03-05 2014-11-19 汤姆逊许可公司 执行超分辨率的方法和装置
CN114757828A (zh) * 2022-04-02 2022-07-15 华南理工大学 基于Transformer的视频时空超分辨率方法
CN116668738A (zh) * 2023-04-26 2023-08-29 七腾机器人有限公司 一种视频时空超分辨率重构方法、装置及存储介质

Also Published As

Publication number Publication date
CN117061826A (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
Yang et al. Revisiting weak-to-strong consistency in semi-supervised semantic segmentation
CN109903223B (zh) 一种基于稠密连接网络与生成式对抗网络的图像超分辨率方法
CN106888024B (zh) 一种基于双向最佳匹配的分布式视频压缩感知重构方法
CN108259916B (zh) 一种分布式视频压缩感知中帧内最佳匹配插值重构方法
CN113011329B (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN111901532B (zh) 基于循环神经网络迭代策略的视频稳定方法
JP2005229600A (ja) 重畳されたブロック基盤の動き推定による動き補償補間方法及びそれを適用したフレームレート変換装置
US11798254B2 (en) Bandwidth limited context based adaptive acquisition of video frames and events for user defined tasks
CN113365156B (zh) 一种基于有限视场反馈的全景视频多播流的视角预测方法
CN113362225A (zh) 基于残差递归补偿和特征融合的多描述压缩图像增强方法
CN117061826B (zh) 流媒体时空视频渲染方法、装置及计算机设备
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
CN114612305B (zh) 一种基于立体图建模的事件驱动视频超分辨率方法
CN116993585A (zh) 基于多注意力的视频超分辨率重建网络构建方法及其应用
Kas et al. Coarse-to-fine SVD-GAN based framework for enhanced frame synthesis
Chen et al. Estimating the resize parameter in end-to-end learned image compression
CN107509074B (zh) 基于压缩感知的自适应3d视频压缩编解码方法
US20160148346A1 (en) Multi-Level Spatial-Temporal Resolution Increase Of Video
CN115941997A (zh) 片段-自适应的监控视频浓缩方法
CN115439788A (zh) 一种将视频模型从源域迁移到目标域的领域自适应方法
CN112533026A (zh) 基于卷积神经网络的视频插帧方法
Tseng et al. Adaptive frame interpolation using an end-to-end deep net with high quality flow estimation
CN105704497A (zh) 面向3d-hevc的编码单元尺寸快速选择算法
Zhou et al. Adaptive multi-feature fusion visual target tracking based on Siamese neural network with cross-attention mechanism
Ding et al. MSEConv: A Unified Warping Framework for Video Frame Interpolation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant