CN114697709B - 视频传输方法及装置 - Google Patents
视频传输方法及装置 Download PDFInfo
- Publication number
- CN114697709B CN114697709B CN202011568875.3A CN202011568875A CN114697709B CN 114697709 B CN114697709 B CN 114697709B CN 202011568875 A CN202011568875 A CN 202011568875A CN 114697709 B CN114697709 B CN 114697709B
- Authority
- CN
- China
- Prior art keywords
- model
- superdivision
- initial
- training data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 141
- 230000005540 biological transmission Effects 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims description 442
- 238000012545 processing Methods 0.000 claims description 56
- 238000012360 testing method Methods 0.000 claims description 35
- 238000004891 communication Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 16
- 238000013527 convolutional neural network Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000006731 degradation reaction Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000015556 catabolic process Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000011664 signaling Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000009365 direct transmission Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/238—Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/149—Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种视频传输方法及装置,其中方法包括:获取初始片源,并对初始片源进行模糊核和噪声估计,获得初始片源对应的第一模糊核和第一噪声块;向接收端发送初始片源,以及第一模糊核和第一噪声块。接收端采用第一模糊核和第一噪声块对基础超分模型进行训练,获得最终超分模型;根据最终超分模型对初始片源进行超分,获取目标片源,目标片源的分辨率高于初始片源。采用本申请实施例的方法一方面满足了高分辨率的需求,另一方面避免了算力需求提高带来的功耗。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种视频传输方法及装置。
背景技术
随着数字化和高清视频的不断发展,视频超高清技术正在推动新一轮视频技术创新。从硬件角度看,4K分辨率正在逐步成为视频硬件的标准配置。超高清视频相比标清视频能够为用户带来更为真实、震撼的观看体验。但超高清视频的普及还存在两大问题:
1)超高清视频内容匮乏。超高清视频制作周期长、成本高,很难在短时间内实现大量超高清视频的供给。视频制作者上传的视频画质较差、分辨率较低,以及老电影、纪录片等清晰度低、噪点多、颜色灰暗等问题,使得用户观看体验不佳。
2)超高清视频对网络带宽的需求大。超高清视频的分辨率远大于标清视频,使得所需的网络带宽往往在标清视频的数倍甚至十倍以上(4K分辨率的像素数量是2K分辨率的4倍)。这对于有限的网络带宽无疑是一个巨大的挑战。在网络条件不佳的情况下,容易造成卡顿影响用户体验。
视频增强技术,可以针对那些由于拍摄设备较差、画面抖动、视频压缩等导致画质损伤的片源,通过超分辨率、降噪、增强等技术,提升视频分辨率,去除视频中的噪点、伪影等,提高人眼视觉清晰度感知。其中的难点主要在于高分辨率视频在压缩过后,丢失了高频信息带来的细节,且视频种类繁多,视频的退化方式各不相同,这给视频的超分辨率重建带来了巨大的困难。
目前业界主要采用低分辨率的视频压缩传输,在端侧使用传统超分辨率方法进行插值放大;或者使用最新编解码技术实现高分辨率视频的直接传输。前者存在视频画质还原效果一般,高频信息可能无法复原的问题,后者存在对算力的需求更高的问题。如何实现更高质量且更低功耗的超分辨率重建是一个亟待解决的问题。
发明内容
本申请实施例提供了一种视频传输方法及装置,通过初始超分模型进行离线训练获得基础超分模型,通过要发送的初始片源中提取的模糊核和噪声块对基础超分模型进行在线训练获得最终超分模型,再通过最终超分模型对接收到的初始片源进行超分,获得目标片源,这个过程一方面满足了高分辨率的需求,另一方面避免了算力需求提高带来的功耗。
第一方面,提供了一种视频传输方法,该方法包括:获取初始片源,并对初始片源进行模糊核和噪声估计,获得初始片源对应的第一模糊核和第一噪声块;向接收端发送初始片源,以及第一模糊核和第一噪声块。
第二方面,提供一种视频传输方法,方法包括:接收初始片源,以及第一模糊核和第一噪声块,第一模糊核和第一噪声块为初始片源进行模糊核和噪声估计获得;获取基础超分模型,基础超分模型由多组训练数据对初始超分模型进行泛化训练获得,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像;采用第一模糊核和第一噪声块对基础超分模型进行训练,获得最终超分模型;根据最终超分模型对初始片源进行超分,获取目标片源,目标片源的分辨率高于初始片源。
在本申请实施例中,发送端向接收端发送初始片源对应的第一模糊核和第一噪声块,接收端根据第一模糊核和第一噪声块对获取到的初始超分模型进行训练获得最终超分模型,并采用最终超分模型对初始片源进行超分获得目标片源。由于第一模糊核和第一噪声块为初始片源特定的参数,那么基础超分模型根据这两个参数进行在线训练后获得的最终超分模型,能够更好地适用于初始片源的超分。接收端根据最终超分模型进行初始片源的超分,能够提升获取的目标片源的分辨率,进而提升了最终超分模型的超分质量。另外,发送端发送第一模糊核和第一噪声块给接收端,使得接收端通过第一模糊核和第一噪声块对基础超分模型的训练,这个过程中传输的数据量少,可以降低传输带宽需求,另外也可以避免传输大量数据可能导致的数据丢失。
在一种可能的示例中,获取基础超分模型包括:从其他任意设备获取基础超分模型,其他任意设备通过对初始超分模型进行训练获得基础超分模型。
在一种可能的示例中,获取基础超分模型包括:获取超分数据集,超分数据集包括多组训练数据,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,第一低分辨率图像由第一高分辨率图像根据模糊核和噪声块进行下采样操作获得;采用多组训练数据对初始超分模型进行泛化训练,获得基础超分模型。
在一种可能的示例中,获取超分数据集包括:获取片源数据集,片源数据集由多个训练片源组成;对多个训练片源进行模糊核和噪声块提取,获得多个模糊核和多个噪声块;获取多个模糊核和多个噪声块中的任意一个模糊核和任意一个噪声块作为第二模糊核和第二噪声块,并根据第二模糊核和第二噪声块对多个训练片源进行下采样操作,获得至少一对第一高分辨率图像和第一低分辨率图像,多个训练片源中每两个训练片源对应的第二模糊核和第二噪声块可以相同,也可以不同;至少一对第一高分辨率图像和第一低分辨率图像组成第二模糊核和第二噪声块对应的一组训练数据,多组训练数据组成超分数据集。
在一种可能的示例中,采用多组训练数据对初始超分模型进行泛化训练,获得基础超分模型,包括:获取目标组训练数据,目标组训练数据为多组训练数据中的任一组训练数据;将目标组训练数据中的m个数据作为训练数据集,将目标组训练数据中的剩余的n个数据作为测试数据集;采用训练数据集对初始超分模型的网络参数θ进行m次迭代,获得中间网络参数θm;采用测试训练集和θm对初始超分模型的网络参数θ进行n次迭代,获得最终网络参数θn;确定根据θn更新后的初始超分模型为基础超分模型。
在一种可能的示例中,采用训练数据集对初始超分模型的网络参数θ进行m次迭代,获得中间网络参数θm,包括:将训练数据集中的第i个训练数据中的第一低分辨率图像输入初始超分模型,获得第一低分辨率图像对应的预设高分辨率图像;根据预设高分辨率图像与第一高分辨率图像的差值确定第一梯度值;根据第一梯度值对初始超分模型的网络参数θi-1进行第i次更新,获得更新后的网络参数θi,当i=1时,θi-1为初始超分模型的网络参数θ;令i=i+1,重复上述步骤,直到i=m,获得更新后的网络参数θm作为中间网络参数。
在一种可能的示例中,采用测试训练集和θm对初始超分模型的网络参数θ进行n次迭代,获得最终网络参数θn,包括:将测试数据集中的第j个训练数据中的第一低分辨率图像输入中间网络参数θm更新后的中间超分模型,获得第一低分辨率图像对应的预设高分辨率图像;根据预设高分辨率图像与第一高分辨率图像的差值确定第二梯度值;根据第二梯度值更新网络参数θj-1,获得更新网络参数θj,当j=1时,θj-1为初始超分模型的网路参数θ;令j=j+1,重复上述步骤,直到j=n,获得更新后的网络参数θn作为最终网络参数。
在一种可能的示例中,模糊核和噪声估计为单帧图像的模糊核和噪声估计。
第三方面,提供了一种视频传输方法,该方法包括:获取初始片源,并对初始片源进行模糊核和噪声估计,获得初始片源对应的第一模糊核和第一噪声块;获取基础超分模型,基础超分模型由多组训练数据对初始超分模型进行泛化训练获得,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,初始超分模型能够将第一图像转换为第二图像,第二图像的分辨率高于第一图像;采用第一模糊核和第一噪声块对基础超分模型进行训练,获得最终超分模型;向接收端发送初始片源和最终超分模型。
在本申请实施例中,发送端向接收端发送初始片源和最终超分模型,接收端接收到初始片源后,采用最终超分模型对其进行超分获得高分辨率的目标片源。其中,最终超分模型由发送端根据获取到的基础超分模型和初始片源对应的第一模糊核和第一噪声块进行训练获得。由于第一模糊核和第一噪声块为初始片源特定的参数,那么基础超分模型根据这两个参数进行在线训练后获得的最终超分模型,能够更好地适用于初始片源的超分。接收端根据最终超分模型进行初始片源的超分,能够提升获取的目标片源的分辨率,进而提升了最终超分模型的超分质量。另外,发送端发送训练好的最终超分模型给接收端,可以减少接收端进行模型训练的资源开销,提升接收端获取目标片源的效率。
在一种可能的示例中,获取基础超分模型包括:从其他任意设备获取基础超分模型,其他任意设备通过对初始超分模型进行训练获得基础超分模型。
在一种可能的示例中,获取基础超分模型包括:获取超分数据集,超分数据集包括多组训练数据,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,第一低分辨率图像由第一高分辨率图像根据模糊核和噪声块进行下采样操作获得;采用多组训练数据对初始超分模型进行泛化训练,获得基础超分模型。
在一种可能的示例中,获取超分数据集包括:获取片源数据集,片源数据集由多个训练片源组成;对多个训练片源进行模糊核和噪声块提取,获得多个模糊核和多个噪声块;获取多个模糊核和多个噪声块中的任意一个模糊核和任意一个噪声块作为第二模糊核和第二噪声块,并根据第二模糊核和第二噪声块对多个训练片源进行下采样操作,获得至少一对第一高分辨率图像和第一低分辨率图像,多个训练片源中每两个训练片源对应的第二模糊核和第二噪声块可以相同,也可以不同;至少一对第一高分辨率图像和第一低分辨率图像组成第二模糊核和第二噪声块对应的一组训练数据,多组训练数据组成超分数据集。
在一种可能的示例中,采用多组训练数据对初始超分模型进行泛化训练,获得基础超分模型,包括:获取目标组训练数据,目标组训练数据为多组训练数据中的任一组训练数据;将目标组训练数据中的m个数据作为训练数据集,将目标组训练数据中的剩余的n个数据作为测试数据集;采用训练数据集对初始超分模型的网络参数θ进行m次迭代,获得中间网络参数θm;采用测试训练集和θm对初始超分模型的网络参数θ进行n次迭代,获得最终网络参数θn;确定根据θn更新后的初始超分模型为基础超分模型。
在一种可能的示例中,采用训练数据集对初始超分模型的网络参数θ进行m次迭代,获得中间网络参数θm,包括:将训练数据集中的第i个训练数据中的第一低分辨率图像输入初始超分模型,获得第一低分辨率图像对应的预设高分辨率图像;根据预设高分辨率图像与第一高分辨率图像的差值确定第一梯度值;根据第一梯度值对初始超分模型的网络参数θi-1进行第i次更新,获得更新后的网络参数θi,当i=1时,θi-1为初始超分模型的网络参数θ;令i=i+1,重复上述步骤,直到i=m,获得更新后的网络参数θm作为中间网络参数。
在一种可能的示例中,采用测试训练集和θm对初始超分模型的网络参数θ进行n次迭代,获得最终网络参数θn,包括:将测试数据集中的第j个训练数据中的第一低分辨率图像输入中间网络参数θm更新后的中间超分模型,获得第一低分辨率图像对应的预设高分辨率图像;根据预设高分辨率图像与第一高分辨率图像的差值确定第二梯度值;根据第二梯度值更新网络参数θj-1,获得更新网络参数θj,当j=1时,θj-1为初始超分模型的网路参数θ;令j=j+1,重复上述步骤,直到j=n,获得更新后的网络参数θn作为最终网络参数。
在一种可能的示例中,模糊核和噪声估计为单帧图像的模糊核和噪声估计。
第四方面,提供一种视频传输方法,所述方法包括:接收初始片源和最终超分模型,所述最终超分模型由基础超分模型经过第一模糊核和第一噪声块训练获得,所述基础超分模型由多组训练数据对初始超分模型进行泛化训练获得,所述多组训练数据中的每组训练数据对应一对模糊核和噪声块,且所述每组训练数据包括至少一对训练数据,所述至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,所述第一模糊核和所述第一噪声块由所述初始片源对应的初始片源经过模糊核和噪声估计获得;根据所述最终超分模型对所述初始片源进行超分,获取目标片源,所述目标片源的分辨率高于所述初始片源。
第五方面,本申请实施例提供一种发送装置,装置包括处理单元和收发单元,其中,处理单元,用于获取初始片源,并对初始片源进行模糊核和噪声估计,获得初始片源对应的第一模糊核和第一噪声块;收发单元,用于向接收端发送初始片源,以及第一模糊核和第一噪声块。
第六方面,提供一种接收装置,所述装置包括收发单元和处理单元,其中,所述收发单元,用于接收初始片源,以及第一模糊核和第一噪声块,所述第一模糊核和所述第一噪声块为初始片源进行模糊核和噪声估计获得;所述处理单元,用于结合所述收发单元获取基础超分模型,所述基础超分模型由多组训练数据对初始超分模型进行泛化训练获得,所述多组训练数据中的每组训练数据对应一对模糊核和噪声块,且所述每组训练数据包括至少一对训练数据,所述至少一对训练数据包括第一高分辨率图像和第一低分辨率图像;所述处理单元,还用于采用所述第一模糊核和所述第一噪声块对所述基础超分模型进行训练,获得最终超分模型;根据所述最终超分模型对所述初始片源进行超分,获取目标片源,所述目标片源的分辨率高于所述初始片源。
在一种可能的示例中,所述获取基础超分模型包括:从其他任意设备获取所述基础超分模型,所述其他任意设备通过对初始超分模型进行训练获得所述基础超分模型。
在一种可能的示例中,获取基础超分模型包括:获取超分数据集,超分数据集包括多组训练数据,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,第一低分辨率图像由第一高分辨率图像根据模糊核和噪声块进行下采样操作获得;采用多组训练数据对初始超分模型进行泛化训练,获得基础超分模型。
第七方面,本申请实施例提供一种发送装置,装置包括收发单元和处理单元,其中,收发单元,用于获取初始片源;处理单元,用于对初始片源进行模糊核和噪声估计,获得初始片源对应的第一模糊核和第一噪声块;处理单元,还用于结合收发单元获取基础超分模型,基础超分模型由多组训练数据对初始超分模型进行泛化训练获得,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,初始超分模型能够将第一图像转换为第二图像,第二图像的分辨率高于第一图像;处理单元,还用于采用第一模糊核和第一噪声块对基础超分模型进行训练,获得最终超分模型;收发单元,还用于向接收端发送初始片源和最终超分模型。
在一种可能的示例中,获取基础超分模型包括:从其他任意设备获取基础超分模型,其他任意设备通过对初始超分模型进行训练获得基础超分模型。
在一种可能的示例中,获取基础超分模型包括:获取超分数据集,超分数据集包括多组训练数据,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,第一低分辨率图像由第一高分辨率图像根据模糊核和噪声块进行下采样操作获得;采用多组训练数据对初始超分模型进行泛化训练,获得基础超分模型。
在一种可能的示例中,获取超分数据集包括:获取片源数据集,片源数据集由多个训练片源组成;对多个训练片源进行模糊核和噪声块提取,获得多个模糊核和多个噪声块;获取多个模糊核和多个噪声块中的任意一个模糊核和任意一个噪声块作为第二模糊核和第二噪声块,并根据第二模糊核和第二噪声块对多个训练片源进行下采样操作,获得至少一对第一高分辨率图像和第一低分辨率图像,多个训练片源中每两个训练片源对应的第二模糊核和第二噪声块可以相同,也可以不同;至少一对第一高分辨率图像和第一低分辨率图像组成第二模糊核和第二噪声块对应的一组训练数据,多组训练数据组成超分数据集。
第八方面,提供一种接收装置,所述装置包括收发单元和处理单元,其中,所述收发单元,用于接收初始片源和最终超分模型,所述最终超分模型由基础超分模型经过第一模糊核和第一噪声块训练获得,所述基础超分模型由多组训练数据对初始超分模型进行泛化训练获得,所述多组训练数据中的每组训练数据对应一对模糊核和噪声块,且所述每组训练数据包括至少一对训练数据,所述至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,所述第一模糊核和所述第一噪声块由所述初始片源对应的初始片源经过模糊核和噪声估计获得;所述处理单元,用于根据所述最终超分模型对所述初始片源进行超分,获取目标片源,所述目标片源的分辨率高于所述初始片源。
第九方面,本申请实施例提供一种电子装置,该装置包括通信接口和处理器,该通信接口用于该装置与其它设备进行通信,例如数据或信号的收发。示例性的,通信接口可以是收发器、电路、总线、模块或其它类型的通信接口,其它设备可以为网络设备。处理器用于调用一组程序、指令或数据,执行上述第一方面或第三方面描述的方法。该装置还可以包括存储器,用于存储处理器调用的程序、指令或数据。存储器与处理器耦合,该处理器执行该存储器中存储的、指令或数据时,可以实现上述第一方面或第三方面描述的方法。
第十方面,本申请实施例提供一种电子装置,该装置包括通信接口和处理器,该通信接口用于该装置与其它设备进行通信,例如数据或信号的收发。示例性的,通信接口可以是收发器、电路、总线、模块或其它类型的通信接口,其它设备可以为网络设备。处理器用于调用一组程序、指令或数据,执行上述第二方面或第四方面描述的方法。该装置还可以包括存储器,用于存储处理器调用的程序、指令或数据。存储器与处理器耦合,该处理器执行该存储器中存储的、指令或数据时,可以实现上述第二方面或第四方面描述的方法。
第十一方面,本申请实施例中还提供一种电子装置,其特征在于,该通信装置包括处理器、收发器、存储器以及存储在该存储器上并可在该处理器上运行的计算机执行指令,当计算机执行指令被运行时,使得该通信装置执行如第一方面或第一方面中任一种可能的实现方式中的方法,或执行如第三方面或第三方面中任一种可能的实现方式中的方法。
第十二方面,本申请实施例中还提供一种电子装置,其特征在于,该通信装置包括处理器、收发器、存储器以及存储在该存储器上并可在该处理器上运行的计算机执行指令,当计算机执行指令被运行时,使得该通信装置执行如第二方面或第二方面中任一种可能的实现方式中的方法,或执行如第四方面或第四方面中任一种可能的实现方式中的方法。
第十三方面,本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可读指令,当该计算机可读指令在计算机上运行时,使得计算机执行如第一方面或第一方面中任一种可能的实现方式中的方法,或使得计算机行如第三方面或第三方面中任一种可能的实现方式中的方法。
第十四方面,本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可读指令,当该计算机可读指令在计算机上运行时,使得计算机执行如第二方面或第二方面中任一种可能的实现方式中的方法,或使得计算机行如第四方面或第四方面中任一种可能的实现方式中的方法。
第十五方面,本申请实施例提供了一种芯片系统,该芯片系统包括处理器,还可以包括存储器,用于实现上述第一方面或第一方面中任一种可能的实现方式中的方法,或者用于实现上述第三方面或第三方面中任一种可能的实现方式中的方法,该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
可选的,该芯片系统还包括收发器。
第十六方面,本申请实施例提供了一种芯片系统,该芯片系统包括处理器,还可以包括存储器,用于实现上述第二方面或第二方面中任一种可能的实现方式中的方法,或者用于实现上述第四方面或第四方面中任一种可能的实现方式中的方法,该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
可选的,该芯片系统还包括收发器。
第十七方面,本申请实施例中还提供一种计算机程序产品,包括指令,当其在计算机上运行时,使得计算机执行如第一方面或第一方面中任一种可能的实现方式中的方法,或使得计算机执行如第三方面或第三方面中任一种可能的实现方式中的方法。
第十八方面,本申请实施例中还提供一种计算机程序产品,包括指令,当其在计算机上运行时,使得计算机执行如第二方面或第二方面中任一种可能的实现方式中的方法,或使得计算机执行如第四方面或第四方面中任一种可能的实现方式中的方法。
第十九方面,本申请实施例提供一种视频传输系统,所述系统中包括如第五方面所述的发送装置和如第六方面所述的接收装置,或者包括如第七方面所述的发送装置和如第八方面所述的接收装置。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。
图1A为本申请实施例提供的一种视频发送系统架构示意图;
图1B为本申请实施例提供的一种系统架构示意图;
图2A为本申请实施例提供的一种视频传输方法流程图;
图2B为本申请实施例提供的一种进行模糊核和噪声估计的过程示意图;
图2C为本申请实施例提供的一种发送初始片源场景示意图;
图2D为本申请实施例提供的一种超分数据集组成示意图;
图2E为本申请实施例提供的一种获取超分数据集的过程示意图;
图3为本申请实施例提供的另一种视频传输方法流程图;
图4为本申请实施例提供的一种发送装置结构框图;
图5为本申请实施例提供的一种接收装置结构框图;
图6为本申请实施例提供的一种电子装置的结构示意图。
具体实施方式
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
首先对本申请实施例中可能涉及的专业术语进行介绍。
超分辨率技术(或超分技术):超分辨率是通过硬件或软件的方法提高原有图像的分辨率,通过一系列低分辨率(LR)的图像来得到一幅高分辨率(HR)的图像过程就是超分辨率重建。
反向传播算法:反向传播算法(BP)为适合于多层神经元网络的一种学习算法,它建立在梯度下降法的基础上。
深度学习:深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
在线学习:在在线学习中,在线算法按照顺序处理数据。它们产生一个模型,并在把这个模型放入实际操作中,而不需要在一开始就提供完整的训练数据集。随着更多的实时数据到达,模型会在操作中不断地更新。
离线学习:在离线学习中,所有的训练数据在模型训练期间必须是可用的。只有训练完成了之后,模型才能被使用。简而言之,先训练,再使用模型,不训练完就不使用模型。
卷积神经网络:卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。对图像(不同的数据窗口数据)和滤波矩阵(一组固定的权重:因为每个神经元的多个权重固定,所以又可以看做一个恒定的滤波器filter)做内积(逐个元素相乘再求和)的操作就是所谓的卷积操作。
图像退化:图像在形成、记录、处理和传输过程中,由于成像系统、记录设备、传输介质和处理方法的不完善,导致图像质量的下降,这种现象叫做图像退化。
模糊核:模糊图像(或者叫平滑图像)时使用内核、掩码,比较常见的如高斯模糊核等。
退化核:即图像退化使用的内核,包括模糊核、噪声图等。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
图1A是本申请实施例提供的一种视频发送系统架构示意图,如图1A所示,该系统中包括服务器和终端,其中服务器用于下发视频,终端用于接收视频。并且该系统中发送视频的过程包括输入视频(1001)、视频编码(1002)、网络传输(1003)、视频解码(1004)、输出视频(1005)五个部分。输入视频(1001)为服务器保存的视频文件,作为该场景的输入。视频编码(1002)将输入的视频文件进行压缩编码,以便网络传输。网络传输(1003)部分将压缩编码后的视频通过网络从服务器传输至终端。视频解码(1004)将通过网络接收的视频编码文件进行解码,获得原始视频。最后输出视频(1005)将解码后的视频进行输出。
本申请实施例中的服务器为具有数据存储,处理和转发的设备。终端可以被称为终端设备(terminal equipment)、用户设备(user equipment,UE)、移动台(mobilestation,MS)、移动终端(mobile terminal,MT)等。终端设备可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality,VR)终端设备、增强现实(augmented reality,AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。
另外,本申请实施例执行的方法需要设备进行模型训练,进行模型训练的设备可以是前述通信系统中的服务器和终端,也可能是其他设备。请参阅图1B,图1B为本申请实施例提供的一种系统架构示意图,如图所示系统架构100,其中的数据采集设备160用于采集训练数据,本申请实施例中训练数据包括:根据模糊核和噪声块进行片源下采样获得的低分辨率图像和高分辨率图像。并将训练数据存入数据库130,训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。下面将以实施例一更详细地描述训练设备120如何基于训练数据得到目标模型/规则101,该目标模型/规则101能够用于实现本申请实施例提供的视频传输方法,即,将初始片源对应的待超分处理的低分辨率图像,输入该目标模型/规则101,即可得到高分辨率的目标片源。本申请实施例中的目标模型/规则101具体可以为最终超分模型,在本申请提供的实施例中,该最终超分模型是通过离线训练初始超分模型获得基础超分模型,再通过在线训练基础超分模型得到的。需要说明的是,在实际的应用中,所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集,也有可能是从其他设备接收得到的。另外需要说明的是,训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本申请实施例的限定。
本申请实施例运用的场景为服务器发送低分辨率的视频,终端想要根据低分辨率的视频获得高分辨率的视频。或者服务器根据原本的超高分辨率的视频(例如4K、8K分辨率等)向终端下发低分辨率的版本,来降低网络带宽与成本。
上述过程中,针对超高分辨率视频,可以不做任何下采样,直接下发原始视频文件。但是这个过程对网络带宽要求较高,视频传输成本较高,在网络条件较差的情况下,视频播放容易造成卡顿,影响用户体验。
或者,服务器向终端下发的为低分辨率的视频,终端接收到低分辨率的视频后,可以采用深度学习卷积神经网络(Convolutional Neural Networks,CNN)的方法对低分辨率视频进行超分重建,以获得高分辨率视频,来提升画质和观影体验。该方案采用离线学习的方法,在服务器使用大量训练数据训练超分模型,而后将超分模型下发至终端,对于任意低分辨率的视频使用获得的模型进行超分辨率获得高画质的视频。目前有较多基于CNN的超分辨率模型,如快速超高分辨率卷积神经网络(fast super-resolution CNN,FSRCNN)、有效的亚像素卷积神经网络(efficient sub-pixel convolutional neural network,ESPCN)、使用超深度卷积网络的精确图像超分辨率(accurate image super-resolutionusing very deep convolutional networks,VDSR)等。在真实场景中,由于视频风格与种类繁多、拍摄设备与渲染方式差异较大,导致不同的视频具有不同的退化方式。该方案离线学习获得的模型无法根据不同视频而调整参数,因此对于不同视频,该方案获得的高分辨率视频画质较为一般。虽然获得了较高的分辨率,但很多细节无法复原,有时甚至会出现因退化方式不统一而导致的画质劣化的情况。
或者,与上述方案一致地,服务器向终端下发的为低分辨率的视频。终端接收到低分辨率的视频后,采用深度学习CNN的方法对低分辨率视频进行超分重建,以获得高分辨率视频,来提升画质和观影体验。与上述方案不同之处在于,该方案使用待超分视频在服务器对超分模型进行训练,使其过拟合。因此对于每个待超分视频,该方案都需在服务器单独训练,而后将训练完成的超分模型下发至终端对低分辨率视频进行超分重建,获得高画质的视频。该方案可以解决上述方案中获得的高分辨率视频画质较为一般的缺点,画质较方案一提升明显,但仍然具有较大的问题:该方案需要针对每个待超分视频单独在服务器进行模型训练,需要消耗大量的时间和资源,在实际应用场景中开销较大、成本较高,用户需要等待服务器完成超分模型训练,这极大降低了用户的体验。
基于上述描述,请参阅图2A,图2A为本申请实施例提供的一种视频传输方法流程图,如图2A所示,该方法包括如下步骤:
201、发送端获取初始片源,并对初始片源进行单帧模糊核和噪声估计,获得初始片源对应的第一模糊核和第一噪声块;
202、发送端向接收端发送初始片源,以及第一模糊核和第一噪声块;
203、接收端接收初始片源,以及第一模糊核和第一噪声块;
204、接收端获取基础超分模型,基础超分模型由多组训练数据对初始超分模型进行泛化训练获得,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,初始超分模型能够将第一图像转换为第二图像,第二图像的分辨率高于第一图像;
205、接收端采用第一模糊核和第一噪声块对基础超分模型进行训练,获得最终超分模型;
206、接收端根据最终超分模型对初始片源进行超分,获取目标片源。
在本申请实施例中,发送端是指发送视频片源的设备,接收端是指接收视频片源的设备,通常情况下,发送端为服务器,接收端为终端。可能的情况下,发送端也可能为终端,接收端也可能为服务器,在本申请实施例中不做具体限定。
初始片源是指需要进行传输的视频片源,可能为超高清(高分辨率)视频,例如分辨率为4K或8K的视频,也可能为低清(低分辨率)视频,例如480p的视频。或者高清视频和低清视频也可以是一个相对概念,能够不增加网络带宽需求传输的视频为低清视频,能够满足用户观看需求不需要进行超分提升分辨率的视频为高清视频。对于超高清视频作为初始片源,由于直接发送会消耗大量网络带宽,因此可以将其进行压缩处理或退化处理,使得超高清视频转换成低清视频进行传输,然后由接收端根据低清视频进行超分获得原本的超高清视频。对于低清视频作为初始片源,可以直接发送,但是接收端获取到的低清视频可能并不能满足用户对于高清画质的要求,因此接收端获取到低分辨率视频后,也需要对其进行超分获得高分辨率视频。
发送端首先获取待发送的初始片源,并对初始片源进行模糊核估计和噪声估计。清晰图像卷积模糊核可以得到模糊图像,这个过程被称为图像的退化过程。通过数学模型来表达,即为:具体含义为:初始的输入图像f(x,y),经过模糊核函数k(x,y)作用后,再附加上随机噪声n(x,y),最后输出为模糊图像g(x,y),表示卷积操作。
因此,首先需要对初始片源进行模糊核和噪声估计,获得模糊核函数k(x,y)和噪声函数n(x,y)。一种可能的情况下,为发送端已经获取了初始片源的一组清晰图像和该组清晰图像对应的模糊图像,那么发送端可以根据清晰图像和其对应的模糊图像进行初始片源的模糊核和噪声估计,该种方法被称为非盲图像复原。参阅图2B,图2B为本申请实施例提供的一种进行模糊核和噪声估计的过程示意图,如图2B中的(a)所示,对于超高清视频作为初始片源时,可以获取超高清视频的视频帧图像作为清晰图像,超高清视频在传输前可以进行压缩,获取压缩后的低分辨率视频中与前述清晰图像对应的模糊图像,再根据清晰图像和模糊图像对初始片源进行模糊核和噪声估计,获得初始片源对应的第一模糊核和第一噪声块。或者,如图2B中的(b)所示,在另一种可能的情况下,初始片源为低清视频,发送端只获取到初始片源的模糊图像,然后根据该模糊图像进行初始片源的模糊核和噪声估计。
在前述进行模糊核和噪声估计的过程中,由于通常情况下,同一片源的各帧退化方式往往是一致的,因此可以从初始片源中抽取单帧图像进行模糊核与噪声估计,最后得到第一模糊核与第一噪声块即为初始片源对应的模糊核和噪声块。这样可以提升模糊核和噪声估计的效率。或者也可以采用多帧图像进行模糊核和噪声估计,可以提升估计结果的准确性。
发送端获取到第一模糊核和第一噪声块之后,结合初始片源一起发送给接收端。请参阅图2C,图2C为本申请实施例提供的一种发送初始片源场景示意图,如图2C中的(a)所示,在初始片源为低清视频的情况下,发送端获取的初始片源和发送的初始片源为同一个初始片源,即发送端获取的低清初始片源直接编码并通过网络发送给接收端。或者,如图2C中的(b)所示,在初始片源为超高清片源的情况下,发送端发送的初始片源实际为传输片源,传输片源为发送端获取的初始片源进行压缩处理获得,因此传输片源的分辨率低于初始片源。
接收端对接收到的初始片源(或者传输片源)进行超分,获取目标片源,目标片源是一个分辨率比初始片源(或者传输片源)分辨率高的视频。接收端对初始片源的超分基于超分模型,现有的超分模型,例如FSRCNN,ESPCN和VDSR等,都可以对图像进行超分,本申请实施例中,先对现有的超分模型(被称为初始超分模型)进行离线的泛化训练,获得基础超分模型,使得基础超分模型具有良好的泛化能力,然后采用初始片源的第一模糊核和第一噪声块对基础超分模型进行在线训练,获得最终超分模型。由于最终超分模型根据每个待发送的初始片源的模糊核和噪声块训练获得,因此最终超分模型能够自适应地调整模型参数来适应不同视频,使得由初始片源转换为目标片源时,具有更好的超分效果。
在本申请实施例中,接收端可以从其他任意设备获取已经训练好的基础超分模型,或者接收端也可以获取初始超分模型,并对初始超分模型进行训练获得基础超分模型。前一种方式可以减少接收端的算力开销,后一种方式可以提升初始超分模型训练的实时性。
获取基础超分模型可以包括:获取超分数据集,超分数据集包括多组训练数据,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,第一低分辨率图像由第一高分辨率图像根据模糊核和噪声块进行下采样操作获得;采用多组训练数据对初始超分模型进行泛化训练,获得基础超分模型。
具体地,接收端对已有的初始超分模型进行离线训练获得基础超分模型,使得初始超分模型具有更好的泛化能力。那么获取的超分数据集可以为一个种类繁多且数量庞大的数据集,具体请参阅图2D,图2D为本申请实施例提供的一种超分数据集组成示意图,如图2D所示,超分数据集由多组训练数据组成,每组训练数据对应一对模糊核和噪声块,例如第一组数据对应模糊核1和噪声块1,并且,每组数据由一个第一高分辨率图像HR和一个第一低分辨率图像LR组成,第一高分辨率图像与第一低分辨率图像之间的关系可表示为:
LR=(HR*k)↓s+n (1)
其中k表示模糊核,n表示噪声块,s表示下采样操作,LR为HR的退化图像。
根据公式(1)可知,获得训练数据集,首先需要获取每组训练数据对应的模糊核和噪声块,然后根据模糊核和噪声块对视频片源进行下采样操作,获得一组数据中的高分辨率图像和低分辨率图像。
在一些实现方式中,获取超分数据集包括:获取片源数据集,片源数据集由多个训练片源组成;对多个训练片源进行模糊核和噪声块提取,获得多个模糊核和多个噪声块;获取多个模糊核和多个噪声块中的任意一个模糊核和任意一个噪声块作为第二模糊核和第二噪声块,并根据第二模糊核和第二噪声块对多个训练片源进行下采样操作,获得至少一对第一高分辨率图像和第一低分辨率图像,多个训练片源中每两个训练片源对应的第二模糊核和第二噪声块可以相同,也可以不同;至少一对第一高分辨率图像和第一低分辨率图像组成第二模糊核和第二噪声块对应的一组训练数据,多组训练数据组成超分数据集。
具体请参阅图2E,图2E为本申请实施例提供的一种获取超分数据集的过程示意图,如图2E所示,在获取超分数据集的过程中,首先需要获取大量的训练片源,组成片源数据集,训练片源可以为不同分辨率,不同画质和不同内容的视频,然后对这些训练片源进行模糊核估计,以及噪声估计,获取对应的多个模糊核{k1,k2,......,kt},以及多个噪声块{n1,n2,......,nk}。选择多个模糊核中任意一个模糊核和多个噪声块中任意一个噪声块,组成(模糊核i,噪声块i)作为第二模糊核和第二噪声块(同一个模糊核可以被重复选取,用于与不同的噪声块组成一对),然后根据这一对模糊核和噪声块对多个训练片源中的一个或多个训练片源进行下采样操作,获得第一低分辨率图像和第一高分辨率图像组成的一组训练数据,可以表示为{(HR1,LR1),(HR2,LR2),...(HRm,LRm)},其中每一对(HR,LR)对应一个训练片源。两个训练片源进行下采样时采用的模糊核和噪声块可以相同,也可以不同,即该两个训练片源进行下采样操作获得的训练数据在同一组,也可以在不同组。另外,同一个训练片源可以只根据一对模糊核和噪声块进行下采样获得训练数据,也可以根据多对不同的模糊核和噪声块进行下采样获得训练数据。其中LR为超分数据集中的训练数据,HR为超分数据集的标签。
获得超分数据集后,需要采用超分数据集中的多组训练数据对初始超分模型进行泛化训练,获得基础超分模型。泛化训练过程具体包括:获取目标组训练数据,目标组训练数据为多组训练数据中的任一组训练数据;将目标组训练数据中的m个数据作为训练数据集,将目标组训练数据中的剩余的n个数据作为测试数据集;采用训练数据集对初始超分模型的网络参数θ进行m次迭代,获得中间网络参数θm;采用测试训练集和θm对初始超分模型的网络参数θ进行n次迭代,获得最终网络参数θn;确定根据θn更新后的初始超分模型为基础超分模型。
举例来说,假设获取(模糊核k,噪声块n)对应的一组训练数据作为目标组训练数据Ts,该组训练数据可具体表示为:Ts1(k1,n1),Ts2(k2,n2),Ts3(k3,n3),...,Tsr(kr,nr),其中r表示该组数据的总个数。将该组数据分为两个部分,前m个训练数据组成训练数据集Ts train,后n个训练数据组成测试数据集Ts test,r=m+n。采用Ts train中的数据对初始超分模型进行训练,假设初始超分模型网络参数为θ,对应的训练表达式为:
采用Ts train中的m个训练数据对初始超分模型进行m次迭代训练的过程具体为:
2011、将训练数据集中的第i个训练数据中的第一低分辨率图像输入初始超分模型,获得第一低分辨率图像对应的预设高分辨率图像;
2012、根据预设高分辨率图像与第一高分辨率图像的差值确定第一梯度值;
2013、根据第一梯度值对初始超分模型的网络参数θi-1进行第i次更新,获得更新后的网络参数θi,当i=1时,θi-1为初始超分模型的网络参数θ;
2014、令i=i+1,重复上述步骤,直到i=m,获得更新后的网络参数θm作为中间网络参数。
即是说,将Ts train中的m个训练数据,对应的低分辨率图像(第一低分辨率图像)依次输入初始超分模型,可以获取对应的预设高分辨率图像,预设高分辨率图像与第一低分辨率图像对应的第一高分辨率图像之间存在一定的差值,可以用于确定第一梯度值,第一梯度值可用于调整网络参数θ,第i次迭代训练获得的第i个第一梯度值用于调整网路参数θi-1,获得θi,完成Ts train中的m个训练数据的迭代训练后,获得初始超分模型的网络参数为θm,被称为中间网络参数。
完成Ts train的训练后,再执行Ts test中n个训练数据的迭代训练。对应的训练表达式为:
其中表示初始超分模型的网络参数为θm的情况下,Ts test中j个训练数据进行训练时初始超分模型参数变化梯度之和,β为学习率,根据该n次迭代训练过程对初始超分模型中的网络参数θ进行再次更新,获得更新后的网路参数θ。
采用Ts test中的n个训练数据对初始超分模型进行n次迭代训练的过程具体为:
2021、将测试数据集中的第j个训练数据中的第一低分辨率图像输入中间网络参数θm更新后的中间超分模型,获得第一低分辨率图像对应的预设高分辨率图像;
2022、根据预设高分辨率图像与第一高分辨率图像的差值确定第二梯度值;
2023、根据第二梯度值更新网络参数θj-1,获得更新网络参数θj,当j=1时,θj-1为初始超分模型的网路参数θ;
2024、令j=j+1,重复上述步骤,直到j=n,获得更新网络参数θn作为最终网络参数。
即是说,将Ts test中的n个训练数据,对应的低分辨率图像(第一低分辨率图像)依次输入被网络参数θm更新后的中间超分模型,可以获取对应的预设高分辨率图像,预设高分辨率图像与第一低分辨率图像对应的第一高分辨率图像之间存在一定的差值,可以用于确定第二梯度值,第二梯度值可用于调整初始超分模型中的网络参数θ,第j次迭代训练获得的第j个第二梯度值,用于对θ进行第j-1次调整(即是对θj-1进行调整),获得θj,完成Tstest中的n个训练数据的迭代训练后,获得初始超分模型的网络参数为θn,被称为最终网络参数。
可见,在本申请实施例中,对多个训练片源进行模糊核和噪声块提取,并采用任意一个模糊核和任意一个噪声块组成一对,再根据这一对模糊核和噪声块进行任意片源的下采样操作,获得的第一高分辨率图像和第一低分辨率图像组成一组训练数据,这样可以使得获取的超分数据集具有广泛性和多样性。另外在采用超分数据集对初始超分模型进行泛化训练时,进行了两重训练,提升了获得的基础超分模型的泛化能力,使得基础超分模型能够适用于各类片源。
本申请实施例中的步骤203和步骤204没有严格的先后顺序,即接收端可以先进行基础超分模型的训练,也可以先接收初始片源,以及第一模糊核和第一噪声块。
在接收端获取到基础超分模型,以及获取到初始片源,第一模糊核和第一噪声块之后,可以采用第一模糊核和第一噪声块对基础超分模型进行在线训练。训练过程与前述内容相似,即首先从初始片源中获取单帧视频图像I,然后将第一模糊核和第一噪声块作用于I,获得退化图像B,具体公式为:
B=(I*k)↓s+n (4)
其中(B,I)成为一对训练数据,使用(B,I)对模型采用BP算法进行一次参数更新迭代,获得最终超分模型。
在该过程中,因为发送端只发送了初始片源的模糊核和噪声块给接收端,降低了发送过程中的资源消耗。接收端根据模糊核和噪声块对一帧图像进行下采样,获得训练数据,可以使得基础超分模型的训练只需要少量的数据处理,降低了资源消耗,提升了获得最终超分模型的效率。
最后,通过最终超分模型对初始片源进行超分,如图2C中的(a)所示,假设接收端接收到的初始片源即为发送端获取的低分辨率的视频,那么接收端可以根据最终超分模型对初始片源进行去模糊处理,获得新的超高清视频,作为目标片源。或者,如图2C中的(a)所示,假设接收端接收到的初始片源实际为发送端对超高清视频进行压缩处理后获得的低分辨率传输片源,那么接收端根据最终超分模型对初始片源进行去模糊处理,获得超高清视频,实际为发送端原本获取的初始片源。在这种情况下,发送端还可以发送原超高清视频的一帧高分辨率图像给接收端,以便接收端将目标片源的图像与接收到的高分辨率图像进行对比,验证目标片源的超分效果。
可见,在本申请实施例中,发送端向接收端发送初始片源对应的第一模糊核和第一噪声块,接收端根据第一模糊核和第一噪声块对获取到的初始超分模型进行训练获得最终超分模型,并采用最终超分模型对初始片源进行超分获得目标片源。由于第一模糊核和第一噪声块为初始片源特定的参数,那么基础超分模型根据这两个参数进行在线训练后获得的最终超分模型,能够更好地适用于初始片源的超分。接收端根据最终超分模型进行初始片源的超分,能够提升获取的目标片源的分辨率,进而提升了最终超分模型的超分质量。另外,发送端发送第一模糊核和第一噪声块给接收端,使得接收端通过第一模糊核和第一噪声块对基础超分模型的训练,这个过程中传输的数据量少,可以降低传输带宽需求,另外也可以避免传输大量数据可能导致的数据丢失。
在可能的情况下,请参阅图3,图3为本申请实施例提供的另一种视频传输方法流程图,如图3所示,该方法包括如下步骤:
301、发送端获取初始片源,并对初始片源进行单帧模糊核和噪声估计,获得初始片源对应的第一模糊核和第一噪声块;
302、发送端获取基础超分模型,基础超分模型由多组训练数据对初始超分模型进行泛化训练获得,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,初始超分模型能够将第一图像转换为第二图像,第二图像的分辨率高于第一图像;
303、发送端采用第一模糊核和第一噪声块对基础超分模型进行训练,获得最终超分模型;
304、发送端向接收端发送初始片源和最终超分模型;
305、接收端获取初始片源和最终超分模型;
306、接收端根据最终超分模型对初始片源进行超分,获取目标片源,目标片源的分辨率高于初始片源。
在本申请实施例中,同样获取离线训练的基础超分模型,然后对基础超分模型采用初始片源对应的第一模糊核和第一噪声块进行在线训练获得最终超分模型。最后采用最终超分模型对初始片源进行超分获得最终片源。与图2A~图2E对应实施例的区别在于,本申请实施例中,获取基础超分模型的为发送端,同样的,发送端可以从任意一个设备获取训练好的基础超分模型,也可以由发送端获取训练数据集和初始超分模型,然后对初始超分模型进行训练获得基础超分模型。对基础超分模型的训练过程具体可参阅图2A~图2E对应实施例,在此不再赘述。
可见,在本申请实施例中,发送端向接收端发送初始片源和最终超分模型,接收端接收到初始片源后,采用最终超分模型对其进行超分获得高分辨率的目标片源。其中,最终超分模型由发送端根据获取到的基础超分模型和初始片源对应的第一模糊核和第一噪声块进行训练获得。由于第一模糊核和第一噪声块为初始片源特定的参数,那么基础超分模型根据这两个参数进行在线训练后获得的最终超分模型,能够更好地适用于初始片源的超分。接收端根据最终超分模型进行初始片源的超分,能够提升获取的目标片源的分辨率,进而提升了最终超分模型的超分质量。另外,发送端发送训练好的最终超分模型给接收端,可以减少接收端进行模型训练的资源开销,提升接收端获取目标片源的效率。
图4为本申请实施例提供的一种发送装置400,其可以用于执行上述图2A~图2E或图3的应用于服务器的视频传输方法和具体实施例。在一种可能的实现方式中,如图4所示,该装置400包括处理单元401和收发单元402。
处理单元401,用于获取初始片源,并对初始片源进行模糊核和噪声估计,获得初始片源对应的第一模糊核和第一噪声块;
收发单元402,用于向接收端发送初始片源,以及第一模糊核和第一噪声块。
或者,
收发单元402,用于获取初始片源;
处理单元401,用于对初始片源进行模糊核和噪声估计,获得初始片源对应的第一模糊核和第一噪声块;
处理单元401,还用于结合收发单元获取基础超分模型,基础超分模型由多组训练数据对初始超分模型进行泛化训练获得,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,初始超分模型能够将第一图像转换为第二图像,第二图像的分辨率高于第一图像;
处理单元401,还用于采用第一模糊核和第一噪声块对基础超分模型进行训练,获得最终超分模型;
收发单元402,还用于向接收端发送初始片源和最终超分模型。
获取基础超分模型包括:从其他任意设备获取基础超分模型,其他任意设备通过对初始超分模型进行训练获得基础超分模型。
获取基础超分模型包括:获取超分数据集,超分数据集包括多组训练数据,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,第一低分辨率图像由第一高分辨率图像根据模糊核和噪声块进行下采样操作获得;采用多组训练数据对初始超分模型进行泛化训练,获得基础超分模型。
获取超分数据集包括:获取片源数据集,片源数据集由多个训练片源组成;对多个训练片源进行模糊核和噪声块提取,获得多个模糊核和多个噪声块;获取多个模糊核和多个噪声块中的任意一个模糊核和任意一个噪声块作为第二模糊核和第二噪声块,并根据第二模糊核和第二噪声块对多个训练片源进行下采样操作,获得至少一对第一高分辨率图像和第一低分辨率图像,多个训练片源中每两个训练片源对应的第二模糊核和第二噪声块可以相同,也可以不同;至少一对第一高分辨率图像和第一低分辨率图像组成第二模糊核和第二噪声块对应的一组训练数据,多组训练数据组成超分数据集。
采用多组训练数据对初始超分模型进行泛化训练,获得基础超分模型,包括:获取目标组训练数据,目标组训练数据为多组训练数据中的任一组训练数据;将目标组训练数据中的m个数据作为训练数据集,将目标组训练数据中的剩余的n个数据作为测试数据集;采用训练数据集对初始超分模型的网络参数θ进行m次迭代,获得中间网络参数θm;采用测试训练集和θm对初始超分模型的网络参数θ进行n次迭代,获得最终网络参数θn;确定根据θn更新后的初始超分模型为基础超分模型。
采用训练数据集对初始超分模型的网络参数θ进行m次迭代,获得中间网络参数θm,包括:将训练数据集中的第i个训练数据中的第一低分辨率图像输入初始超分模型,获得第一低分辨率图像对应的预设高分辨率图像;根据预设高分辨率图像与第一高分辨率图像的差值确定第一梯度值;根据第一梯度值对初始超分模型的网络参数θi-1进行第i次更新,获得更新后的网络参数θi,当i=1时,θi-1为初始超分模型的网络参数θ;令i=i+1,重复上述步骤,直到i=m,获得更新后的网络参数θm作为中间网络参数。
采用测试训练集和θm对初始超分模型的网络参数θ进行n次迭代,获得最终网络参数θn,包括:将测试数据集中的第j个训练数据中的第一低分辨率图像输入中间网络参数θm更新后的中间超分模型,获得第一低分辨率图像对应的预设高分辨率图像;根据预设高分辨率图像与第一高分辨率图像的差值确定第二梯度值;根据第二梯度值更新网络参数θj-1,获得更新网络参数θj,当j=1时,θj-1为初始超分模型的网路参数θ;令j=j+1,重复上述步骤,直到j=n,获得更新后的网络参数θn作为最终网络参数。
模糊核和噪声估计可以为单帧图像的模糊核和噪声估计。
上述处理单元401可以是中央处理器(Central Processing Unit,CPU),或者可以是图形处理器(graphics processing unit,GPU),也可以是CPU和GPU的结合,可用于进行图像处理,本申请不做具体限制。
可选的,收发单元402可以为接口电路或者收发器。用于从其他电子装置获取数据或接收指令。
可选的,发送装置400还可以包括存储模块(图中未示出),该存储模块可以用于存储数据和/或信令,存储模块可以和处理单元401耦合,也可以和收发单元402耦合。例如,处理单元401可以用于读取存储模块中的数据和/或信令,使得前述方法实施例中的换脸操作过程被执行。
图5为本申请实施例提供的一种接收装置500,其可以用于执行上述图2A~图2E或图3的应用于终端的视频传输方法和具体实施例。在一种可能的实现方式中,如图5所示,该装置500包括处理单元501和收发单元502。
收发单元502,用于接收初始片源,以及第一模糊核和第一噪声块,第一模糊核和第一噪声块为初始片源进行模糊核和噪声估计获得;
处理单元501,用于结合收发单元获取基础超分模型,基础超分模型由多组训练数据对初始超分模型进行泛化训练获得,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像;
处理单元501,还用于采用第一模糊核和第一噪声块对基础超分模型进行训练,获得最终超分模型;根据最终超分模型对初始片源进行超分,获取目标片源,目标片源的分辨率高于初始片源。
获取基础超分模型包括:从其他任意设备获取基础超分模型,其他任意设备通过对初始超分模型进行训练获得基础超分模型。
获取基础超分模型包括:获取超分数据集,超分数据集包括多组训练数据,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,第一低分辨率图像由第一高分辨率图像根据模糊核和噪声块进行下采样操作获得;采用多组训练数据对初始超分模型进行泛化训练,获得基础超分模型。
获取超分数据集包括:获取片源数据集,片源数据集由多个训练片源组成;对多个训练片源进行模糊核和噪声块提取,获得多个模糊核和多个噪声块;获取多个模糊核和多个噪声块中的任意一个模糊核和任意一个噪声块作为第二模糊核和第二噪声块,并根据第二模糊核和第二噪声块对多个训练片源进行下采样操作,获得至少一对第一高分辨率图像和第一低分辨率图像,多个训练片源中每两个训练片源对应的第二模糊核和第二噪声块可以相同,也可以不同;至少一对第一高分辨率图像和第一低分辨率图像组成第二模糊核和第二噪声块对应的一组训练数据,多组训练数据组成超分数据集。
采用多组训练数据对初始超分模型进行泛化训练,获得基础超分模型,包括:获取目标组训练数据,目标组训练数据为多组训练数据中的任一组训练数据;将目标组训练数据中的m个数据作为训练数据集,将目标组训练数据中的剩余的n个数据作为测试数据集;采用训练数据集对初始超分模型的网络参数θ进行m次迭代,获得中间网络参数θm;采用测试训练集和θm对初始超分模型的网络参数θ进行n次迭代,获得最终网络参数θn;确定根据θn更新后的初始超分模型为基础超分模型。
采用训练数据集对初始超分模型的网络参数θ进行m次迭代,获得中间网络参数θm,包括:将训练数据集中的第i个训练数据中的第一低分辨率图像输入初始超分模型,获得第一低分辨率图像对应的预设高分辨率图像;根据预设高分辨率图像与第一高分辨率图像的差值确定第一梯度值;根据第一梯度值对初始超分模型的网络参数θi-1进行第i次更新,获得更新后的网络参数θi,当i=1时,θi-1为初始超分模型的网络参数θ;令i=i+1,重复上述步骤,直到i=m,获得更新后的网络参数θm作为中间网络参数。
采用测试训练集和θm对初始超分模型的网络参数θ进行n次迭代,获得最终网络参数θn,包括:将测试数据集中的第j个训练数据中的第一低分辨率图像输入中间网络参数θm更新后的中间超分模型,获得第一低分辨率图像对应的预设高分辨率图像;根据预设高分辨率图像与第一高分辨率图像的差值确定第二梯度值;根据第二梯度值更新网络参数θj-1,获得更新网络参数θj,当j=1时,θj-1为初始超分模型的网路参数θ;令j=j+1,重复上述步骤,直到j=n,获得更新后的网络参数θn作为最终网络参数。
模糊核和噪声估计为单帧图像的模糊核和噪声估计。
或者,
收发单元502,用于接收初始片源和最终超分模型,最终超分模型由基础超分模型经过第一模糊核和第一噪声块训练获得,基础超分模型由多组训练数据对初始超分模型进行泛化训练获得,多组训练数据中的每组训练数据对应一对模糊核和噪声块,且每组训练数据包括至少一对训练数据,至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,第一模糊核和第一噪声块由初始片源对应的初始片源经过模糊核和噪声估计获得;
处理单元501,用于根据最终超分模型对初始片源进行超分,获取目标片源,目标片源的分辨率高于初始片源。
可选的,上述处理单元501可以是中央处理器(Central Processing Unit,CPU),或者可以是图形处理器(graphics processing unit,GPU),也可以是CPU和GPU的结合,可用于进行图像处理,本申请不做具体限制。
可选的,收发单元502可以为接口电路或者收发器。用于从其他电子装置获取数据或接收指令。
可选的,接收装置500还可以包括存储模块(图中未示出),该存储模块可以用于存储数据和/或信令,存储模块可以和处理单元501耦合,也可以和收发单元502耦合。例如,处理单元501可以用于读取存储模块中的数据和/或信令,使得前述方法实施例中的换脸操作过程被执行。
如图6所示,图6示出了本申请实施例中的一种电子装置的硬件结构示意图。发送装置400和接收装置500的结构可以参考图6所示的结构。电子装置800包括:存储器801、处理器802、通信接口803以及总线804。其中,存储器801、处理器802、通信接口803通过总线804实现彼此之间的通信连接。
存储器801可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器801可以存储程序,当存储器801中存储的程序被处理器802执行时,处理器802和通信接口803用于执行本申请实施例的XX网络的训练方法的各个步骤。
处理器802可以采用通用的CPU,微处理器,应用专用集成电路(ApplicationSpecific Integrated Circuit,ASIC),GPU或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例的发送装置400中的处理单元401或接收装置500中的处理单元501所需执行的功能,或者执行本申请方法实施例的视频传输方法。
处理器802还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的三维模型生成方法的各个步骤可以通过处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器802还可以是通用处理器、数字信号处理器(DigitalSignal Processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field ProgrammableGate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801,处理器802读取存储器801中的信息,结合其硬件完成本申请实施例的接收装置500或发送装置400中包括的单元所需执行的功能,或者执行本申请方法实施例的视频传输方法。
通信接口803使用例如但不限于收发器一类的收发装置,来实现电子装置800与其他设备或通信网络之间的通信。例如,可以通过通信接口803收发初始片源。
总线804可包括在电子装置800各个部件(例如,存储器801、处理器802、通信接口803)之间传送信息的通路。
应理解,接收装置500中的收发单元502相当于电子装置800中的通信接口803,处理单元501可以相当于处理器802。
应注意,尽管图6所示的电子装置800仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,电子装置800还包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,电子装置800还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,电子装置800也可仅仅包括实现本申请实施例所必须的器件,而不必包括图6中所示的全部器件。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (18)
1.一种视频传输方法,其特征在于,所述方法包括:
获取初始片源,并对所述初始片源进行模糊核和噪声估计,获得所述初始片源对应的第一模糊核和第一噪声块;
获取基础超分模型,具体包括:
获取超分数据集,所述超分数据集包括多组训练数据,所述多组训练数据中的每组训练数据对应一对模糊核和噪声块,且所述每组训练数据包括至少一对训练数据,所述至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,所述第一低分辨率图像由所述第一高分辨率图像根据所述模糊核和噪声块进行下采样操作获得;
采用所述多组训练数据对初始超分模型进行泛化训练,获得基础超分模型,其中,所述初始超分模型能够将第一图像转换为第二图像,所述第二图像的分辨率高于所述第一图像;
采用所述第一模糊核和第一噪声块对所述基础超分模型进行训练,获得最终超分模型;
向接收端发送所述初始片源和所述最终超分模型。
2.根据权利要求1所述的方法,其特征在于,所述获取超分数据集包括:
获取片源数据集,所述片源数据集由多个训练片源组成;
对所述多个训练片源进行模糊核和噪声块提取,获得多个模糊核和多个噪声块;
获取所述多个模糊核和多个噪声块中的任意一个模糊核和任意一个噪声块作为第二模糊核和第二噪声块,并根据所述第二模糊核和第二噪声块对所述多个训练片源进行下采样操作,获得至少一对第一高分辨率图像和第一低分辨率图像,所述多个训练片源中每两个训练片源对应的第二模糊核和第二噪声块相同或者不同;
所述至少一对所述第一高分辨率图像和所述第一低分辨率图像组成所述第二模糊核和第二噪声块对应的一组训练数据,多组训练数据组成所述超分数据集。
6.根据权利要求1所述的方法,其特征在于,所述模糊核和噪声估计为单帧图像的模糊核和噪声估计。
7.一种视频传输方法,其特征在于,所述方法包括:
接收初始片源,以及第一模糊核和第一噪声块,所述第一模糊核和所述第一噪声块为初始片源进行模糊核和噪声估计获得;
获取基础超分模型,具体包括:
获取超分数据集,所述超分数据集包括多组训练数据,所述多组训练数据中的每组训练数据对应一对模糊核和噪声块,且所述每组训练数据包括至少一对训练数据,所述至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,所述第一低分辨率图像由所述第一高分辨率图像根据所述模糊核和噪声块进行下采样操作获得;
采用所述多组训练数据对初始超分模型进行泛化训练,获得基础超分模型,其中,所述初始超分模型能够将第一图像转换为第二图像,所述第二图像的分辨率高于所述第一图像;
采用所述第一模糊核和所述第一噪声块对所述基础超分模型进行训练,获得最终超分模型;
根据所述最终超分模型对所述初始片源进行超分,获取目标片源,所述目标片源的分辨率高于所述初始片源。
8.根据权利要求7所述的方法,其特征在于,获取基础超分模型包括:根据权利要求4或5所述的方法获取所述基础超分模型。
9.一种发送装置,其特征在于,所述装置包括收发单元和处理单元,其中,
所述收发单元,用于获取初始片源;
所述处理单元,用于对所述初始片源进行模糊核和噪声估计,获得所述初始片源对应的第一模糊核和第一噪声块;
所述处理单元,还用于结合所述收发单元获取基础超分模型,具体包括:
获取超分数据集,所述超分数据集包括多组训练数据,所述多组训练数据中的每组训练数据对应一对模糊核和噪声块,且所述每组训练数据包括至少一对训练数据,所述至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,所述第一低分辨率图像由所述第一高分辨率图像根据所述模糊核和噪声块进行下采样操作获得;
采用所述多组训练数据对初始超分模型进行泛化训练,获得基础超分模型,其中,所述初始超分模型能够将第一图像转换为第二图像,所述第二图像的分辨率高于所述第一图像;
所述处理单元,还用于采用所述第一模糊核和第一噪声块对所述基础超分模型进行训练,获得最终超分模型;
所述收发单元,还用于向接收端发送所述初始片源和所述最终超分模型。
10.根据权利要求9所述的装置,其特征在于,所述获取超分数据集包括:
获取片源数据集,所述片源数据集由多个训练片源组成;
对所述多个训练片源进行模糊核和噪声块提取,获得多个模糊核和多个噪声块;
获取所述多个模糊核和多个噪声块中的任意一个模糊核和任意一个噪声块作为第二模糊核和第二噪声块,并根据所述第二模糊核和第二噪声块对所述多个训练片源进行下采样操作,获得至少一对第一高分辨率图像和第一低分辨率图像,所述多个训练片源中每两个训练片源对应的第二模糊核和第二噪声块相同或者不同;
所述至少一对所述第一高分辨率图像和所述第一低分辨率图像组成所述第二模糊核和第二噪声块对应的一组训练数据,多组训练数据组成所述超分数据集。
14.一种接收装置,其特征在于,所述装置包括收发单元和处理单元,其中,
所述收发单元,用于接收初始片源,以及第一模糊核和第一噪声块,所述第一模糊核和所述第一噪声块为初始片源进行模糊核和噪声估计获得;
所述处理单元,用于结合所述收发单元获取基础超分模型,具体包括:获取超分数据集,所述超分数据集包括多组训练数据,所述多组训练数据中的每组训练数据对应一对模糊核和噪声块,且所述每组训练数据包括至少一对训练数据,所述至少一对训练数据包括第一高分辨率图像和第一低分辨率图像,所述第一低分辨率图像由所述第一高分辨率图像根据所述模糊核和噪声块进行下采样操作获得;采用所述多组训练数据对初始超分模型进行泛化训练,获得基础超分模型,其中,所述初始超分模型能够将第一图像转换为第二图像,所述第二图像的分辨率高于所述第一图像;
所述处理单元,还用于采用所述第一模糊核和所述第一噪声块对所述基础超分模型进行训练,获得最终超分模型;根据所述最终超分模型对所述初始片源进行超分,获取目标片源,所述目标片源的分辨率高于所述初始片源。
15.根据权利要求14所述的装置,其特征在于,所述装置还用于执行如权利要求4或5所述的方法。
16.一种电子装置,其特征在于,所述电子装置包括处理器、收发器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机执行指令,当所述计算机执行指令被运行时,使得所述电子装置执行如权利要求1至6任一项所述的方法,或执行如权利要求7至8任一项所述的方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机指令,当所述计算机指令在通信装置上运行时,使得所述通信装置执行权利要求1至6任一项所述的方法,或使得所述通信装置执行权利要求7至8任一项所述的方法。
18.一种视频传输系统,其特征在于,包括如权利要求9至13任一项所述的发送装置,或者包括如权利要求14至15任一项所述的接收装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011568875.3A CN114697709B (zh) | 2020-12-25 | 2020-12-25 | 视频传输方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011568875.3A CN114697709B (zh) | 2020-12-25 | 2020-12-25 | 视频传输方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114697709A CN114697709A (zh) | 2022-07-01 |
CN114697709B true CN114697709B (zh) | 2023-06-06 |
Family
ID=82129537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011568875.3A Active CN114697709B (zh) | 2020-12-25 | 2020-12-25 | 视频传输方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114697709B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003234B (zh) * | 2018-06-21 | 2019-11-12 | 东南大学 | 针对运动模糊图像复原的模糊核计算方法 |
CN108961186B (zh) * | 2018-06-29 | 2022-02-15 | 福建帝视信息科技有限公司 | 一种基于深度学习的老旧影片修复重制方法 |
CN111325671B (zh) * | 2018-12-13 | 2023-07-04 | 北京嘀嘀无限科技发展有限公司 | 网络训练方法、装置、图像处理方法及电子设备 |
CN110705699B (zh) * | 2019-10-18 | 2022-05-31 | 厦门美图之家科技有限公司 | 超分辨率重建方法、装置、电子设备和可读存储介质 |
CN111340716B (zh) * | 2019-11-20 | 2022-12-27 | 电子科技大学成都学院 | 一种改进双重判别对抗网络模型的图像去模糊方法 |
-
2020
- 2020-12-25 CN CN202011568875.3A patent/CN114697709B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114697709A (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11290682B1 (en) | Background modification in video conferencing | |
US9232189B2 (en) | Background modification in video conferencing | |
US10623775B1 (en) | End-to-end video and image compression | |
US20200145692A1 (en) | Video processing method and apparatus | |
US11978178B2 (en) | Electronic device, control method thereof, and system | |
CN110136057B (zh) | 一种图像超分辨率重建方法、装置及电子设备 | |
CN110610467B (zh) | 一种基于深度学习的多帧视频去压缩噪声方法 | |
KR20210017185A (ko) | 심층 신경망을 기반으로 영상의 압축 포아송 잡음을 제거하는 방법 및 장치 | |
CN113556582A (zh) | 视频数据处理方法、装置、设备以及存储介质 | |
CN102006477A (zh) | 图像传输方法及系统 | |
CN109949234B (zh) | 基于深度网络的视频复原模型训练方法及视频复原方法 | |
CN113688907A (zh) | 模型训练、视频处理方法,装置,设备以及存储介质 | |
US20210400277A1 (en) | Method and system of video coding with reinforcement learning render-aware bitrate control | |
CN115409716B (zh) | 视频处理方法、装置、存储介质及设备 | |
CN110223245A (zh) | 基于深度神经网络的模糊图片清晰化处理方法及系统 | |
CN116205820A (zh) | 图像增强方法、目标识别方法、设备及介质 | |
CN116248955A (zh) | 一种基于ai抽帧补帧的vr云渲染图像增强方法 | |
US20220335560A1 (en) | Watermark-Based Image Reconstruction | |
CN114697709B (zh) | 视频传输方法及装置 | |
CN115706810A (zh) | 视频帧调整方法、装置、电子设备和存储介质 | |
CN114205646B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN115376188B (zh) | 一种视频通话处理方法、系统、电子设备及存储介质 | |
WO2024108379A1 (en) | Method and system of video coding with neural network-based reduced bit-depth input image data | |
CN114071188B (zh) | 处理视频数据的方法、装置及计算机可读存储介质 | |
CN118646828A (zh) | 基于特征对称变换的可变码率图像压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |