CN116977200A - 视频去噪模型的处理方法、装置、计算机设备和存储介质 - Google Patents
视频去噪模型的处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116977200A CN116977200A CN202310457798.1A CN202310457798A CN116977200A CN 116977200 A CN116977200 A CN 116977200A CN 202310457798 A CN202310457798 A CN 202310457798A CN 116977200 A CN116977200 A CN 116977200A
- Authority
- CN
- China
- Prior art keywords
- video
- video frame
- image
- downsampled
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 182
- 230000003068 static effect Effects 0.000 claims abstract description 101
- 238000000034 method Methods 0.000 claims abstract description 84
- 238000000605 extraction Methods 0.000 claims abstract description 50
- 238000004590 computer program Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 95
- 230000003287 optical effect Effects 0.000 claims description 93
- 238000009499 grossing Methods 0.000 claims description 33
- 238000005070 sampling Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 abstract description 29
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 230000008569 process Effects 0.000 description 33
- 238000005516 engineering process Methods 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000012549 training Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 239000002243 precursor Substances 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000001914 filtration Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
Abstract
本申请涉及一种视频去噪模型的处理方法、装置、计算机设备、存储介质和计算机程序产品,该方法可应用于人工智能领域,所述方法包括:在样本视频的视频帧序列中获取目标视频帧;样本视频包括携带真实噪声的静态视频和加噪的动态视频;通过视频去噪模型的第一分支提取目标视频帧的图像细节特征;通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取,得到图像融合特征;基于图像融合特征和图像细节特征生成预测视频帧;根据预测视频帧和参考视频中与目标视频帧对应的视频帧之间的损失值,对视频去噪模型中的参数进行调整,得到目标视频去噪模型。采用本方法能够提高目标视频去噪模型的去噪效果。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种视频去噪模型的处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机视觉技术的发展,在提高视频质量领域中视频去噪技术逐渐成为了研究热点。其中,基于深度学习的视频去噪模型在去噪效果和速度上都具有明显的优势,并且具有广泛的应用前景。
然而,现有基于单帧的视频去噪模型因不能充分考虑视频在时间维度上的相关性和连续性,无法提取较好的特征,基于多帧的视频去噪模型在计算资源有限的情况下,也无法提取较好的特征,从而导致现有的视频去噪模型对视频的去噪效果较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高视频去燥效果的视频去噪模型的处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种视频去噪模型的处理方法。所述方法包括:
在样本视频的视频帧序列中获取目标视频帧;所述样本视频包括携带真实噪声的静态视频和加噪的动态视频;
通过视频去噪模型的第一分支提取所述目标视频帧的图像细节特征;
在获得所述视频帧序列对应的下采样视频帧序列后,通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取,得到图像融合特征;
基于所述图像融合特征和所述图像细节特征生成预测视频帧;
根据所述预测视频帧和参考视频中与所述目标视频帧对应的视频帧之间的损失值,对所述视频去噪模型中的参数进行调整,得到目标视频去噪模型;
其中,所述目标视频去噪模型用于对待去噪视频进行去噪处理,所述参考视频包括对所述静态视频进行平滑处理所得的清晰静态视频和未加噪的所述动态视频。
第二方面,本申请还提供了一种视频去噪模型的处理装置。所述装置包括:
视频帧获取模块,用于在样本视频的视频帧序列中获取目标视频帧;所述样本视频包括携带真实噪声的静态视频和加噪的动态视频;
细节特征提取模块,用于通过视频去噪模型的第一分支提取所述目标视频帧的图像细节特征;
融合特征提取模块,用于在获得所述视频帧序列对应的下采样视频帧序列后,通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取,得到图像融合特征;
预测模块,用于基于所述图像融合特征和所述图像细节特征生成预测视频帧;
参数调整模块,用于根据所述预测视频帧和参考视频中与所述目标视频帧对应的视频帧之间的损失值,对所述视频去噪模型中的参数进行调整,得到目标视频去噪模型;
其中,所述目标视频去噪模型用于对待去噪视频进行去噪处理,所述参考视频包括对所述静态视频进行平滑处理所得的清晰静态视频和未加噪的所述动态视频。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
在样本视频的视频帧序列中获取目标视频帧;所述样本视频包括携带真实噪声的静态视频和加噪的动态视频;
通过视频去噪模型的第一分支提取所述目标视频帧的图像细节特征;
在获得所述视频帧序列对应的下采样视频帧序列后,通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取,得到图像融合特征;
基于所述图像融合特征和所述图像细节特征生成预测视频帧;
根据所述预测视频帧和参考视频中与所述目标视频帧对应的视频帧之间的损失值,对所述视频去噪模型中的参数进行调整,得到目标视频去噪模型;
其中,所述目标视频去噪模型用于对待去噪视频进行去噪处理,所述参考视频包括对所述静态视频进行平滑处理所得的清晰静态视频和未加噪的所述动态视频。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
在样本视频的视频帧序列中获取目标视频帧;所述样本视频包括携带真实噪声的静态视频和加噪的动态视频;
通过视频去噪模型的第一分支提取所述目标视频帧的图像细节特征;
在获得所述视频帧序列对应的下采样视频帧序列后,通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取,得到图像融合特征;
基于所述图像融合特征和所述图像细节特征生成预测视频帧;
根据所述预测视频帧和参考视频中与所述目标视频帧对应的视频帧之间的损失值,对所述视频去噪模型中的参数进行调整,得到目标视频去噪模型;
其中,所述目标视频去噪模型用于对待去噪视频进行去噪处理,所述参考视频包括对所述静态视频进行平滑处理所得的清晰静态视频和未加噪的所述动态视频。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
在样本视频的视频帧序列中获取目标视频帧;所述样本视频包括携带真实噪声的静态视频和加噪的动态视频;
通过视频去噪模型的第一分支提取所述目标视频帧的图像细节特征;
在获得所述视频帧序列对应的下采样视频帧序列后,通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取,得到图像融合特征;
基于所述图像融合特征和所述图像细节特征生成预测视频帧;
根据所述预测视频帧和参考视频中与所述目标视频帧对应的视频帧之间的损失值,对所述视频去噪模型中的参数进行调整,得到目标视频去噪模型;
其中,所述目标视频去噪模型用于对待去噪视频进行去噪处理,所述参考视频包括对所述静态视频进行平滑处理所得的清晰静态视频和未加噪的所述动态视频。
上述视频去噪模型的处理方法、装置、计算机设备、存储介质和计算机程序产品,在样本视频的视频帧序列中获取目标视频帧之后,通过视频去噪模型的第一分支提取目标视频帧的图像细节特征,在获得视频帧序列对应的下采样视频帧序列后,通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取,得到图像融合特征,基于图像融合特征和图像细节特征生成预测视频帧,既充分考虑了视频在时间维度上的相关性和连续性,又能够有效地降低计算量,提高模型的运行效率,从而在计算资源有限的情况下,也能够根据预测视频帧和参考视频中与目标视频帧对应的视频帧之间的损失值,对视频去噪模型中的参数进行调整,得到去噪效果较好的目标视频去噪模型;另外通过样本视频包括携带真实噪声的静态视频和加噪的动态视频;通过使用包含真实噪声的静态视频和加噪的动态视频作为样本视频,以及使用对静态视频进行平滑处理所得的清晰静态视频和未加噪的动态视频作为参考,可以更好地模拟真实场景下的噪声情况,进一步提高了目标视频去噪模型的去噪效果。
附图说明
图1为一个实施例中视频去噪模型的处理方法的应用环境图;
图2为一个实施例中视频去噪模型的处理方法的流程示意图;
图3为一个实施例中带噪视频帧去噪示意图;
图4为一个实施例中视频帧加噪示意图;
图5为一个实施例中真实噪声图像示意图;
图6为一个实施例中图像融合特征提取步骤的流程示意图;
图7为一个实施例中视频去噪步骤的流程示意图;
图8为另一个实施例中视频去噪模型的处理方法的流程示意图;
图9为一个实施例中样本数据处理示意图;
图10为一个实施例中视频去噪模型结构示意图;
图11为另一个实施例中带噪视频帧示意图;
图12为一个实施例中去噪后视频帧示意图;
图13为一个实施例中视频去噪模型的处理装置的结构框图;
图14为另一个实施例中视频去噪模型的处理装置的结构框图;
图15为一个实施例中计算机设备的内部结构图;
图16为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的视频去噪模型的处理方法,涉及人工智能的机器学习、计算机视觉等技术,其中:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请实施例提供的视频去噪模型的处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。该视频去噪模型的处理方法由终端102或服务器104单独执行,或者由终端102和服务器104协同执行。在一些实施例中,该视频去噪模型的处理方法由终端102执行,终端102在样本视频的视频帧序列中获取目标视频帧;样本视频包括携带真实噪声的静态视频和加噪的动态视频;通过视频去噪模型的第一分支提取目标视频帧的图像细节特征;在获得视频帧序列对应的下采样视频帧序列后,通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取,得到图像融合特征;基于图像融合特征和图像细节特征生成预测视频帧;根据预测视频帧和参考视频中与目标视频帧对应的视频帧之间的损失值,对视频去噪模型中的参数进行调整,得到目标视频去噪模型;其中,目标视频去噪模型用于对待去噪视频进行去噪处理,参考视频包括对静态视频进行平滑处理所得的清晰静态视频和未加噪的动态视频。
其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,如图2所示,提供了一种视频去噪模型的处理方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:
S202,在样本视频的视频帧序列中获取目标视频帧。
其中,样本视频是用于对机器学习模型进行训练的视频数据,样本视频通常由多个视频帧组成,并且每个视频帧都包含有关视频内容的信息,例如颜色、形状、动作等,样本视频可以来自于各种来源,例如现实生活中的录像、模拟生成的视频、互联网上的视频等。
需要说明的是,本申请实施例中样本视频包括携带真实噪声的静态视频和加噪的动态视频。静态视频是指相机固定不动,被拍摄对象不运动的情况下,产生的视频数据,由于相机不动,所以静态视频中真实噪声通常是由相机本身的噪声、光照不均匀、传感器噪声等因素引起的,因此,携带真实噪声的静态视频可以更好地反映实际应用中的视频噪声情况;动态视频是指相机或拍摄对象在运动的情况下,产生的视频数据,加噪的动态视频是指在原始视频数据的基础上,通过在视频数据中添加噪声来模拟实际应用场景中的噪声情况,通过加噪的动态视频,可以更好地测试和评估视频去噪算法或模型的鲁棒性和性能。
具体的,终端从样本视频中按照一定的时间间隔抽取出视频帧序列,并按照并从所抽取出的视频帧序列中获取当前待处理的目标视频帧。例如,终端从样本视频中抽取出的视频帧序列包含10个视频帧,当前待处理的目标视频帧为第2帧,则从视频帧序列中获取第2帧。
S204,通过视频去噪模型的第一分支提取目标视频帧的图像细节特征。
其中,视频去噪模型是指用于去除视频中的噪声的计算机视觉模型或算法。视频噪声通常由于采集设备的不完美、信号传输中的干扰、压缩算法等因素引起,因此在很多视频应用中,如视频会议、视频编码等,去噪处理是一个重要的预处理步骤,视频去噪模型的任务是从输入的噪声视频中恢复出原始视频,使得输出视频更加清晰和准确。
视频去噪模型的第一分支具体可以是高分辨率分支,用于对原始分辨率的目标视频帧进行处理,可以理解的是,目标视频帧的分辨率为高分辨率,高分辨率的目标视频帧通常会携带更多的噪声和更丰富的细节信息,通过视频去噪模型的第一分支对目标视频帧进行特征处理,可以得到更加丰富的图像细节特征。
图像细节特征是指图像中细节部分的特征,例如纹理、边缘、角点等,通过提取图像细节特征,可以更准确地区分噪声和信号,并且可以还原更多的细节信息,从而提高图像的质量和清晰度。
具体的,终端在得到目标视频帧之后,将目标视频帧输入视频去噪模型的第一分支,通过第一分支的各网络层对目标视频帧进行处理,得到目标视频帧的图像细节特征。
S206,在获得视频帧序列对应的下采样视频帧序列后,通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取,得到图像融合特征。
其中,下采样视频帧序列是指对样本视频的视频帧序列进行下采样所得到的视频帧序列,在图像处理中,下采样指将图像的分辨率降低,从而使图像的尺寸减小,同时减少图像中的细节信息,通常用于降低计算量和内存占用,同时加速模型的训练和推理过程。
视频去噪模型的第二分支具体可以是低分辨率分支,用于对下采样视频帧序列进行处理,可以理解的是,下采样视频帧序列中的各个下采样视频帧的分辨率是低分辨率,低分辨率的下采样视频帧序列中各下采样视频帧的尺寸减小或者细节信息减少,通过视频去噪模型的第二分支对下采样视频帧序列进行处理,能够有效地降低计算量,提高模型的运行效率,同时还能够增强模型的泛化能力,使其更适合处理不同分辨率的视频。
图像融合特征是指下采样视频帧序列中至少两个下采样视频帧的特征进行融合得到的特征表示,可以理解的是,对于存在噪声的视频数据,单独使用一帧图像进行去噪往往难以获得良好的去噪效果,因为单帧图像可能存在过多的噪声和失真,无法提供足够的信息,通过融合多个下采样视频帧的特征可以提高特征的表达能力,从而可以提高模型的去噪效果,此外下采样视频帧序列中的各个下采样视频帧经过特征提取后得到的特征表示可能存在信息损失,融合多个下采样视频帧的特征可以提高特征的表达能力,从而可以提高模型的去噪效果。
具体的,终端在得到视频帧序列之后,对视频帧序列中的各个视频帧进行下采样处理,得到下采样视频帧序列,并将下采样视频帧序列输入视频去噪模型的第二分支,通过第二分支的各个子分支分别对下采样视频帧序列中的各个下采样视频帧进行处理,得到图像融合特征。
S208,基于图像融合特征和图像细节特征生成预测视频帧。
预测视频帧是指在视频去噪中通过模型对输入视频的去噪处理后所生成的视频帧。
具体的,终端在得到图像融合特征和图像细节特征之后,对图像融合特征和图像细节特征进行融合,得到全局图像特征,并基于全局图像特征生成预测视频帧。
S210,根据预测视频帧和参考视频中与目标视频帧对应的视频帧之间的损失值,对视频去噪模型中的参数进行调整,得到目标视频去噪模型。
其中,损失值用于评估视频去噪模型在对输入视频进行去噪处理后所得到的预测视频帧和参考视频中对应帧之间的差异程度,通常,损失值越小,代表模型预测的结果和真实结果之间的差异越小,模型的预测准确度和效果就越好。
参考视频是指用于对比和评估视频去噪模型性能的视频,通常情况下,参考视频不包含噪声,或者是对噪声进行了平滑处理,具体的,参考视频包括对静态视频进行平滑处理所得的清晰静态视频和未加噪的清晰动态视频。目标视频去噪模型是训练好的用于对待去噪视频进行去噪处理的机器学习模型。
在一个实施例中,终端在得到预测视频帧之后,从参考视频中获取与目标视频帧对应的视频帧,该视频帧也可以称为参考视频帧,基于预测视频帧和对应的参考视频帧确定损失值,并基于所确定的损失值对视频去噪模型中的参数进行调整,直至满足收敛条件时停止训练,得到目标视频去噪模型。
其中,收敛是指视频去噪模型的训练过程已经趋于稳定,即视频去噪模型已经学习到了数据的特征,并且不再有显著的改善,收敛条件包括固定的训练轮数、固定损失函数的阈值等,当模型在达到该条件时停止训练,以避免过度拟合。
具体的,终端在得到损失值之后,基于损失值调整视频去噪模型中的权重参数和偏置参数的值,得到调整后视频去噪模型,并重新执行步骤S202直至训练满足收敛条件时停止训练,得到目标视频去噪模型。
在一个实施例中,终端可基于以下公式确定:
其中,L表示损失值,ILQ表示样本视频中的视频帧序列,T表示视频帧序列中视频帧的数量,F(ILQ)i表示视频帧序列中第i个视频帧(目标视频帧)对应的预测视频帧,表示参考视频中的第i个视频帧,即目标视频帧对应的参考视频帧。
上述实施例中,终端在样本视频的视频帧序列中获取目标视频帧之后,通过视频去噪模型的第一分支提取目标视频帧的图像细节特征,在获得视频帧序列对应的下采样视频帧序列后,通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取,得到图像融合特征,基于图像融合特征和图像细节特征生成预测视频帧,既充分考虑了视频在时间维度上的相关性和连续性,又能够有效地降低计算量,提高模型的运行效率,从而在计算资源有限的情况下,也能够根据预测视频帧和参考视频中与目标视频帧对应的视频帧之间的损失值,对视频去噪模型中的参数进行调整,得到去噪效果较好的目标视频去噪模型;另外通过使用包含真实噪声的静态视频和加噪的动态视频作为样本视频,以及使用对静态视频进行平滑处理所得的清晰静态视频和未加噪的动态视频作为参考,可以更好地模拟真实场景下的噪声情况,进一步提高了目标视频去噪模型的去噪效果。
在一个实施例中,静态视频还包括加噪噪声,上述视频去噪模型的处理方法还包括以下步骤:对静态对象进行视频采集,得到携带真实噪声的带噪静态视频;对带噪静态视频进行加噪处理,得到静态视频;静态视频包括加噪噪声和真实噪声;对带噪静态视频进行平滑处理,得到清晰静态视频。
其中,加噪噪声是以人工方式添加到视频中的噪声,加噪噪声的种类包括高斯噪声、椒盐噪声、伪随机噪声等;静态对象是指保持不运动的对象。平滑处理是一种图像处理方法,其主要目的是降低图像的噪声,在视频处理中,平滑处理可以应用于视频的每一帧图像中,通过对每一帧图像进行平滑操作,可以使得视频更加平滑和自然,降低噪声,平滑处理通常需要应用到每一帧图像上,因此对于视频而言,平滑处理也可以称为时域滤波。
具体的,终端保持视频采集设备不运动,对静态对象进行拍摄,得到静态视频,该静态视频即为携带真实噪声的带噪静态视频,一方面采用预设的加噪算法对带噪静态视频进行加噪处理,得到静态视频,该静态视频即包括加噪噪声和真实噪声,另一方面,采用预设的平滑处理算法对该带噪静态视频进行平滑处理,得到清晰静态视频。
其中,平滑处理算法包括高斯模糊、中值滤波、均值滤波等,高斯模糊可以通过对每个像素点的周围像素点进行加权平均的方式,来降低图像的噪声,中值滤波和均值滤波通过对像素点周围的像素点进行中值或者平均值的计算来降低图像的噪声。
在一个实施例中,终端采用预设的平滑处理算法对该带噪静态视频进行平滑处理,得到清晰静态视频的过程具体包括以下步骤:确定带噪静态视频中相邻带噪静态视频帧之间的帧差,将帧差达到帧差阈值的区域确定为相应带噪静态视频帧中的噪声区域,对各带噪静态视频帧中的噪声区域进行平滑处理,得到清晰静态视频。
需要说明的是,虽然携带真实噪声的带噪静态视频是对静态对象进行视频采集所得到的,但是在视频采集时,采集设备可能并非绝对的稳定,可能存在一些非常小的抖动,以及环境中气体流动导致静态对象轻微运动等,从而导致所得到带噪静态视频并非绝对的静态,而是相对的静态,对于绝对静态的静态视频如果相邻视频帧之间不存在噪声,那么相邻视频帧之间的帧差应当为0。
参考图3,图3中的(b)示出了相邻的三个带噪视频帧,图3中的(a)为相邻的两个带噪视频帧之间的帧差示意图,在对该三个带噪视频帧进行平滑处理后,得到如图3中(c)所示清晰视频帧,图3中的(d)相邻的两个清晰视频帧之间的帧差示意图,从图3可以看出,带噪静态视频的从单个带噪视频帧来看,没有明显的噪声,但是相邻的两个带噪视频帧之间的帧差比较大,相应的带噪静态视频在播放时会有明显的闪烁噪声,该闪烁噪声即为帧间噪声,在对带噪静态视频进行时域平滑后,相邻的两个清晰视频帧之间的帧差明显减小,说明帧间噪声被大大减弱。
上述实施例中,终端通过对静态对象进行视频采集,得到携带真实噪声的带噪静态视频,并对带噪静态视频进行加噪处理,得到静态视频,静态视频包括加噪噪声和真实噪声,对带噪静态视频进行平滑处理,得到清晰静态视频,从而可以使用包含真实噪声的静态视频作为样本视频,使用清晰静态视频作为参考视频对视频去噪模型进行训练,可以更好地模拟真实场景下的噪声情况,提高了目标视频去噪模型的去噪效果。
在一个实施例中,终端对带噪静态视频进行加噪处理,得到静态视频的过程具体包括以下步骤:从带噪静态视频的各带噪视频帧中获取部分像素;根据各带噪视频帧的部分像素分别生成对应的第一像素图像;生成与各带噪视频帧对应的第一初始噪声图像;将第一初始噪声图像分别与第一像素图像进行融合,得到各带噪视频帧对应的第一噪声图像;将各第一噪声图像分别融合至对应的带噪视频帧中,得到静态视频。
其中,部分像素是指带噪视频帧中的部分像素点,具体可以是从带噪视频帧中随机选取出的,第一像素图像用于描述部分像素点的分布,具体的第一像素图像中部分像素点所对应的位置处的灰度值为1,1表示在此像素点所对应的位置处添加噪声,部分像素点之外的其他位置处的灰度值为0,0表示在此像素点所对应的位置处不添加噪声。
具体的,终端在得到带噪静态视频后,从带噪静态视频中获取各个带噪视频帧,针对任意一个带噪视频帧,从该带噪视频帧中随机选取部分像素,并基于所选取的部分像素生成预带噪视频帧大小相同的第一像素图像,其中该第一像素图像中部分像素对应位置处的灰度值可以为1,部分像素之外的其他位置处的灰度值可以为0,并采用预设的噪声生成算法生成第一初始噪声图像,将第一像素图像与第一初始噪声图像进行点乘,得到第一噪声图像,将该第一噪声图像融合至该带噪视频帧中,得到加噪后的静态视频帧,其中,预设的噪声生成算法可以随机分布算法,例如高斯分布算法等,可以理解的是对带噪静态视频中的各个带噪视频帧均进行以上加噪处理,可以到加噪后的静态视频。
在一个实施例中,终端第一噪声图像融合至对应的带噪视频帧中,具体可以采用逐像素加权平均的方式实现图像融合,具体包括以下步骤:获取第一噪声图像对应的第一权重和带噪视频帧对应的第二权重,基于第一权重和第一噪声图像中各像素点的像素值、以及第二权重和带噪视频帧中各像素点的像素值,确定对应各目标像素点的加权像素值,基于各目标像素点的加权像素值生成加噪后的静态视频帧。其中目标像素点是指加噪后静态视频帧中的像素点。
参考图4,图4中的第一行,展示了传统的加噪方式,该方式具体为首先随机生成噪声图像,将该噪声图像直接融合到待加噪图像(干净图像)上,得到对应噪声图像,从该噪声图像中可以看出噪声被均匀添加到了干净图像上,然而如图5所示,真实的图像中,噪声(图中圆点表示噪声)并不是均匀分布在每个像素位置的;本申请实施例中所采用的加噪方式如图4中的第二行或第三行所示,首先从待加噪图像(干净图像)中随机选取出部分像素,并基于所选取出的部分像素生成像素图像,将像素图像与对应的噪声图像得到加噪后的噪声图像,其中像素图像是仅由0和1组成的与待加噪图像长宽相同的矩阵,0表示此像素位置不加噪,1表示此像素位置加噪,图4中第二行和第三行中待加噪图像(干净图像)是相同的,随机生成的噪声图像也是相同的,但是分别所生成的像素图像是不同的,并且在加噪时所使用的加噪系数也是不同的,从而得到的噪声图像也是不同的。
上述实施例中,终端通过从带噪静态视频的各带噪视频帧中获取部分像素;根据各带噪视频帧的部分像素分别生成对应的第一像素图像;生成与各带噪视频帧对应的第一初始噪声图像;将第一初始噪声图像分别与第一像素图像进行融合,得到各带噪视频帧对应的第一噪声图像;将各第一噪声图像分别融合至对应的带噪视频帧中,得到静态视频,从而可以使得到的静态视频能够更加准确地模拟实际图像中噪声的分布情况,同时也能够增加噪声的多样性,采用该静态视频训练视频去噪模型,可以进一步提高视频去噪模型的去噪效果。
在一个实施例中,上述视频去噪模型的处理方法还包括以下步骤:从视频数据库中获取未加噪的动态视频;对未加噪的动态视频进行加噪处理,得到加噪的动态视频。
其中,动态视频包含有运动、变化的内容,例如人的行走、车辆行驶等等,这样的视频可以从多个角度展示动态物体的运动和变化情况。视频数据库可以是公开视频数据集,公开视频数据集具体可以是清晰视频数据集REDS和DAVIS,视频数据库也可以是对自己进行视频采集所得到视频进行去噪处理后所得到的清晰视频库。
具体的,终端可以直接从频数据库中获取清晰的动态视频,该动态视频即为未加噪的动态视频,并采用预设的加噪算法对所获取的动态视频进行加噪处理,得到加噪的动态视频。
上述实施例中,终端通过从视频数据库中获取未加噪的动态视频,对未加噪的动态视频进行加噪处理,得到加噪的动态视频,从而可以使用加噪的动态视频作为样本视频,使用未加噪的动态视频作为参考视频对视频去噪模型进行训练,可以更好的模拟真实场景中的噪声情况,从而提高了目标视频去噪模型的去噪效果。
在一个实施例中,未加噪的动态视频中的视频帧为清晰视频帧,终端对未加噪的动态视频进行加噪处理,得到加噪的动态视频的过程包括以下步骤:从各清晰视频帧中选取部分像素;根据各清晰视频帧的部分像素分别生成对应的第二像素图像;生成各清晰视频帧对应的第二初始噪声图像;将各第二初始噪声图像分别与对应的第二像素位置图像进行融合,得到各清晰视频帧对应的第二噪声图像;将各第二噪声图像分别融合至对应的清晰视频帧中,得到加噪的动态视频。
其中,部分像素是指清晰视频帧中的部分像素点,具体可以是从清晰视频帧中随机选取出的,第二像素图像用于描述部分像素点的分布,具体的第二像素图像中部分像素点所对应的位置处的灰度值为1,1表示在此像素点所对应的位置处添加噪声,部分像素点之外的其他位置处的灰度值为0,0表示在此像素点所对应的位置处不添加噪声。
具体的,终端在得到未加噪的动态视频后,从未加噪的动态视频中获取各个清晰视频帧,针对任意一个清晰视频帧,从该清晰视频帧中随机选取部分像素,并基于所选取的部分像素生成预清晰视频帧大小相同的第二像素图像,其中该第二像素图像中部分像素对应位置处的灰度值可以为1,部分像素之外的其他位置处的灰度值可以为0,并采用预设的噪声生成算法生成第二初始噪声图像,将第二像素图像与第二初始噪声图像进行点乘,得到第二噪声图像,将该第二噪声图像融合至该清晰视频帧中,得到加噪后的静态视频帧,其中,预设的噪声生成算法可以随机分布算法,例如高斯分布算法等,可以理解的是对未加噪的动态视频中的各个清晰视频帧均进行以上加噪处理,可以到加噪后的动态视频。
在一个实施例中,终端将第二噪声图像融合至对应的清晰视频帧中,具体可以采用逐像素加权平均的方式实现图像融合,具体包括以下步骤:获取第二噪声图像对应的第三权重和清晰视频帧对应的第四权重,基于第三权重和第二噪声图像中各像素点的像素值、以及第四权重和清晰视频帧中各像素点的像素值,确定对应各目标像素点的加权像素值,基于各目标像素点的加权像素值生成加噪后的动态视频帧。其中目标像素点是指加噪后动态视频帧中的像素点。
上述实施例中,终端通过从各清晰视频帧中选取部分像素;根据各清晰视频帧的部分像素分别生成对应的第二像素图像;生成各清晰视频帧对应的第二初始噪声图像;将各第二初始噪声图像分别与对应的第二像素位置图像进行融合,得到各清晰视频帧对应的第二噪声图像;将各第二噪声图像分别融合至对应的清晰视频帧中,得到加噪的动态视频,从而可以使得到的加噪的动态视频能够更加准确地模拟实际图像中噪声的分布情况,同时也能够增加噪声的多样性,采用该加噪的动态视频训练视频去噪模型,可以进一步提高视频去噪模型的去噪效果。
在一个实施例中,第二分支包括光流网络、目标帧子分支和其它帧子分支,如图6所示,终端通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取,得到图像融合特征的过程具体包括以下步骤:
S602,通过光流网络,确定下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息。
其中,光流网络是用于估计光流信息神经网络模型,具体可以是光流网络SpyNet;光流信息是指相邻的视频帧之间像素位置变化的信息,可以理解的是,在视频中,相邻的视频帧之间可能存在着物体的运动或相机的运动,这些运动导致相邻帧之间的像素位置不同,而光流就是用于描述相邻帧之间像素位置变化的信息。
本申请实施例中的光流信息可以是下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息,也可以是下采样视频帧序列中任意两个相邻的下采样视频帧之间的光流信息。光流信息也可以称为光流向量,光流向量可以表示相邻的视频帧之间的像素位移,可以用于后续的帧对齐和特征融合。
下采样视频帧序列是指对视频帧序列中的各个视频帧进行下采样处理后所得到的视频帧序列,具体可以下采样目标视频帧和下采样连续视频帧,下采样连续视频帧包括下采样前序视频帧和下采样后序视频帧中的至少一种,例如,下采样视频帧序列中包含5个下采样视频帧,若下采样目标视频帧为下采样视频帧序列中的第3帧,则下采样视频帧序列中第3帧之外的其他下采样视频帧则为下采样连续视频帧,其中第1帧和第2帧为下采样前序视频帧,第4帧和第5帧为下采样后序视频帧;若下采样目标视频帧为下采样视频帧序列中的第1帧,则下采样视频帧序列中的第2至5帧则为下采样目标视频帧的下采样后序视频帧;若下采样目标视频帧为下采样视频帧序列中的第5帧,则下采样视频帧序列中的第1至4帧则为下采样目标视频帧的下采样前序视频帧。
具体的,终端在得到下采样视频帧序列之后,将下采样视频帧序列中的各个下采样视频帧输入光流网络,通过光流网络确定下采样视频帧序列中任意两个相邻的下采样视频帧之间的光流信息,从而得到下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息。
在一个实施例中,当下采样连续视频帧包括下采样前序视频帧时,终端通过光流网络,确定下采样目标视频帧与下采样前序视频帧中的相邻下采样视频帧之间的第一光流信息;当下采样连续视频帧包括下采样后序视频帧时,终端通过光流网络,确定下采样目标视频帧与下采样后序视频帧中相邻下采样视频帧之间的第二光流信息。
具体的,当下采样连续视频帧包括下采样前序视频帧时,终端将下采样视频帧序列中的各个下采样前序视频帧和下采样目标视频帧输入光流网络,通过光流网络确定下采样前序视频帧和下采样目标视频帧中任意两个相邻的下采样视频帧之间的光流信息,从而得到下采样目标视频帧与对应的相邻下采样视频帧之间的第一光流信息;当下采样连续视频帧包括下采样后序视频帧时,终端将下采样视频帧序列中的各个下采样后序视频帧和下采样目标视频帧输入光流网络,通过光流网络确定下采样后序视频帧和下采样目标视频帧中任意两个相邻的下采样视频帧之间的光流信息,从而得到下采样目标视频帧与对应的相邻下采样视频帧之间的第二光流信息,从而可以更好地理解视频中的运动和变化,从而更精确地对齐视频帧并提取特征。
S604,通过其它帧子分支对下采样视频帧序列进行特征提取,得到下采样目标视频帧对应的连续视频帧特征。
其中,其它帧子分支用于对下采样视频帧序列中下采样目标视频帧之外的下采样视频帧进行特征提取,以得到下采样目标视频帧对应的连续视频帧特征,其它帧子分支包括前序帧子分支和后序帧子分支中的至少一种,前序帧子分支用于对下采样前序视频帧进行特征提取,得到前序视频帧特征,后序帧子分支用于对下采样后序视频帧进行特征提取,得到后序视频帧特征。
具体的,终端在得到下采样视频帧序列之后,将下采样视频帧序列中的下采样连续视频帧输入其它帧子分支,通过其它帧子分支对输入的采样连续视频帧进行特征提取,得到下采样目标视频帧对应的连续视频帧特征。
在一个实施例中,当下采样连续视频帧包括下采样前序视频帧时,终端通过前序帧子分支的前向网络层对下采样前序视频帧进行特征提取,得到前序视频帧特征;当下采样连续视频帧包括下采样后序视频帧时,终端通过后序帧子分支的后向网络层对下采样后序视频帧进行特征提取,得到后序视频帧特征。
其中,前向网络层是指前向U型网络,后向网络层是指后向U型网络,前向U型网络是用于对下采样前序视频帧进行特征提取的U型网络,后向U型网络是用于对下采样后序视频帧进行特征提取的U型网络,U型网络是用于图像处理任务的卷积神经网络结构,它由下采样模块和上采样模块组成,通常在中间还会有一些卷积层和池化层。
具体的,当下采样连续视频帧包括下采样前序视频帧时,终端将下采样视频帧序列中的各个下采样前序视频帧输入前序帧子分支,通过前序帧子分支的前向网络层对各个下采样前序视频帧进行特征提取,得到前序视频帧特征;当下采样连续视频帧包括下采样后序视频帧时,终端将下采样视频帧序列中的各个下采样后序视频帧输入后序帧子分支,通过后序帧子分支的后向网络层对各个下采样后序视频帧进行特征提取,得到后序视频帧特征,在视频帧序列中,前后帧之间通常存在相关性,通过利用前序视频帧和后序视频帧的信息,可以更好地捕捉到视频序列中的时空特征,从而更精确地提取视频帧特征。
例如下采样视频帧序列中包含5个下采样视频帧,下采样目标视频帧为下采样视频帧序列中的第3帧,则前序帧子分支1用于对下采样视频帧序列中的第1帧下采样视频帧进行特征提取前序帧子分支2用于对下采样视频帧序列中的第2帧下采样视频帧进行特征提取,后序帧子分支3用于对下采样视频帧序列中的第4帧下采样视频帧进行特征提取,后序帧子分支4用于对下采样视频帧序列中的第5帧下采样视频帧进行特征提取。
S606,基于光流信息将连续视频帧特征与下采样目标视频帧进行对齐,得到对齐后视频帧特征。
其中,对齐是指将连续视频帧特征与下采样目标视频帧的内容进行匹配,可以理解的是,在视频帧序列中,相邻的视频帧之间存在一定的运动关系,通过光流信息,可以将下采样目标视频帧与对应的连续视频帧特征进行对齐,这样在后续的处理中,就可以将它们看作是同一时刻的视频帧和视频帧特征,从而提高模型的准确度。
在一个实施例中,当下采样连续视频帧包括下采样前序视频帧时,终端基于第一光流信息将前序视频帧特征与下采样目标视频帧进行对齐,得到前序对齐后视频帧特征;当下采样连续视频帧包括下采样后序视频帧时,终端基于第二光流信息将后序视频帧特征与下采样目标视频帧进行对齐,得到后序对齐后视频帧特征。
具体的,当下采样连续视频帧包括下采样前序视频帧时,终端从前序视频帧特征中提取预设位置的特征向量,基于第一光流信息和所提取的特征向量确定该预设位置在下采样目标视频帧中对应的目标位置,基于预设位置的特征向量和下采样目标视频帧中对应的目标位置采用插值法,将前序视频帧特征与下采样目标视频帧的特征进行对齐,得到前序对齐后视频帧特征;当下采样连续视频帧包括下采样后序视频帧时,终端从后序视频帧特征中提取预设位置的特征向量,基于第二光流信息和所提取的特征向量确定该预设位置在下采样目标视频帧中对应的目标位置,基于预设位置的特征向量和下采样目标视频帧中对应的目标位置采用插值法,将后序视频帧特征与下采样目标视频帧的特征进行对齐,得到后序对齐后视频帧特征。其中预设位置可以是随机选取出的位置,也可以是预先指定的位置。
可以理解的是,通过对前序视频帧特征和后序视频帧特征进行对齐,可以在下采样目标视频帧的特征提取中获得更多的信息,提高了对目标视频帧的特征提取效果,从而有助于更好地去噪,同时,通过前后两个方向的光流信息的利用,可以进一步提高视频帧的特征提取质量,从而视频去噪模型可以准确的估计出对齐后视频帧特征中的噪声,进而提高视频去噪模型的去噪效果。
S608,通过目标子分支对对齐后视频帧特征进行处理,得到图像融合特征。
其中,目标子分支用于对下采样视频帧序列中的下采样目标视频帧进行特征处理,以得到下采样目标视频帧对应的图像融合特征。
具体的,终端在得到下采样目标视频帧对应的对齐后视频帧特征之后,将对齐后视频帧特征输入目标子分支,通过目标子分支对对齐后视频帧特征进行特征处理,得到图像融合特征。
在一个实施例中,当下采样连续视频帧包括下采样前序视频帧时,终端通过目标子分支的前向网络层对前序对齐后视频帧特征进行处理,得到前序图像融合特征;当下采样连续视频帧包括下采样后序视频帧时,终端通过目标子分支的后向网络层对后序对齐后视频帧特征进行处理,得到后序图像融合特征;基于前序图像融合特征和后序图像融合特征中的至少一个,确定图像融合特征。
其中,前向网络层是指前向U型网络,后向网络层是指后向U型网络,目标子分支的前向U型网络是用于对前序对齐后视频帧特征进行特征处理的U型网络,后向U型网络是用于对后序对齐后视频帧进行特征处理的U型网络,U型网络是用于图像处理任务的卷积神经网络结构,它由下采样模块和上采样模块组成,通常在中间还会有一些卷积层和池化层。
具体的,当下采样连续视频帧包括下采样前序视频帧时,终端将前序对齐后视频帧特征输入目标子分支的前向网络层,通过目标子分支的前向网络层对前序对齐后视频帧特征进行特征处理,得到前序图像融合特征;当下采样连续视频帧包括下采样后序视频帧时,终端将后序对齐后视频帧特征输入目标子分支的前向网络层,通过目标子分支的前向网络层对后序对齐后视频帧特征进行特征处理,得到后序图像融合特征;在下采样连续视频帧仅包括下采样前序视频帧时,直接将前序图像融合特征确定为图像融合特征,在下采样连续视频帧仅包括下采样后序视频帧时,直接将后序图像融合特征确定为图像融合特征,在下采样连续视频帧包括下采样前序视频帧和下采样后序视频帧时,则基于前序图像融合特征和后序图像融合特征确定图像融合特征。
上述实施例中,终端通过第二分支的光流网络确定下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息,以及通过第二分支的其它帧子分支对下采样视频帧序列进行特征处理,得到下采样目标视频帧对应的连续视频帧特征,从而可以利用视频序列中的连续帧信息和光流信息,更好地理解视频中的运动和变化,从而可以得到准确的视频特征表示,同时,通过第二分支的目标子分支对对齐后的视频帧特征进行处理,可以得到更加准确的图像融合特征,进而基于图像融合特征可以使得后续的图像重建更加准确,提高了目标视频去噪模型的去噪效果。
在一个实施例中,下采样连续视频帧包括下采样前序视频帧和下采样后序视频帧时,终端基于前序图像融合特征和后序图像融合特征确定图像融合特征的过程具体包括以下步骤:将前序图像融合特征和后序图像融合特征进行拼接,得到拼接后图像特征,对拼接后图像特征进行卷积处理,得到图像融合特征。
具体的,终端在得到前序图像融合特征和后序图像融合特征之后,将前序图像融合特征和后序图像融合特征进行拼接,得到拼接后图像特征,并将拼接后图像特征输入目标子分支的卷积层,通过卷积层对拼接后图像特征进行卷积处理,得到更加高级的特征信息,该更加高级的特征信息即为图像融合特征。
上述实施例中,终端通过将前序图像融合特征和后序图像融合特征进行拼接可以有效地融合前后序视频帧的信息,充分利用前后序视频帧中连续帧之间的关联性,从而可以得到准确的视频特征表示,同时,对拼接后的图像特征进行卷积处理可以进一步提取和增强特征,从而可以得到更加准确的图像融合特征,进而基于图像融合特征可以使得后续的图像重建更加准确,提高了目标视频去噪模型的去噪效果。
在一个实施例中,终端基于图像融合特征和图像细节特征生成预测视频帧的过程具体包括以下步骤:将图像融合特征与图像细节特征进行融合,得到全局图像特征;基于全局图像特征进行图像重建,得到预测视频帧。
具体的,终端在得到图像融合特征与图像细节特征之后,获取图像融合特征对应的第一融合系数和图像细节特征对应的第二融合系数,并基于第一融合系数和第二融合系数对图像融合特征与图像细节特征进行融合,得到全局图像特征,对全局图像特征进行反卷积操作得到与目标视频帧相同大小的预测视频帧。
其中,反卷积操作用于将全局图像特征进行逐步放大到原始尺寸,以得到目标视频帧相同大小的预测视频帧。
上述实施例中,终端通过将图像融合特征与图像细节特征进行融合,得到全局图像特征,可以综合利用将图像融合特征与图像细节特征两者的信息,更全面的描述目标视频帧的图像内容,从而基于全局图像特征进行图像重建,得到预测视频帧,也能有较好的去噪效果,进而提高了目标视频去噪模型的去噪效果。
在一个实施例中,终端将图像融合特征与图像细节特征进行融合,得到全局图像特征的过程具体包括以下步骤:对图像融合特征进行上采样处理,得到上采样图像融合特征;将上采样图像融合特征与图像细节特征进行融合,得到全局图像特征。
具体的终端在得到图像融合特征之后,对图像融合特征进行反卷积操作,得到上采样图像融合特征,获取上采样图像融合特征对应的第一融合系数和图像细节特征对应的第二融合系数,并基于第一融合系数和第二融合系数对上采样图像融合特征与图像细节特征进行融合,得到全局图像特征。
上述实施例中,终端通过对图像融合特征进行上采样处理,从而可以得到与目标视频帧相同分辨率的上采样图像融合特征,将上采样图像融合特征与图像细节特征进行融合,得到全局图像特征,可以充分利用两种特征的各自的优势,进一步提高全局图像特征的表达能力,进而提高了目标视频去噪模型的去噪效果。
在一个实施例中,终端在得到目标视频去噪模型之后,还可以使用目标视频去噪模型对待去噪视频进行去噪处理,如图7所示,该过程具体包括以下步骤:
S702,在待去噪视频的待去噪视频帧序列中确定当前的待去噪视频帧。
具体的,终端获取待去噪视频,并从待去噪视频中抽取出待去噪视频帧序列,从待去噪视频帧序列中确定当前要进行去噪处理的待去噪视频帧。例如,终端从待去噪视频中抽取出的待去噪视频帧序列包含10个视频帧,当前的待去噪视频帧为第2帧,则从待去噪视频帧序列中获取第2帧。
S704,通过目标视频去噪模型的第一分支提取待去噪视频帧的待去噪图像细节特征。
其中,目标视频去噪模型是指对视频去噪模型进行训练所得到的训练好的视频去噪模型,目标视频去噪模型的第一分支具体可以是高分辨率分支,用于对原始分辨率的当前的待去噪视频帧进行处理。
具体的,终端在得到待去噪视频的当前的待去噪视频帧后,将当前的待去噪视频帧输入目标视频去噪模型的第一分支,通过第一分支的各网络层对当前的待去噪视频帧进行处理,得到该待去噪视频帧的待去噪图像细节特征。
S706,在获得待去噪视频帧序列对应的下采样待去噪视频帧序列后,通过目标视频去噪模型的第二分支对下采样待去噪视频帧序列进行特征提取,得到待去噪图像融合特征。
其中,下采样待去噪视频帧序列是指对待去噪视频序列进行下采样所得到的视频帧序列,在图像处理中,下采样指将图像的分辨率降低,从而使图像的尺寸减小,同时减少图像中的细节信息,通常用于降低计算量和内存占用,同时加速模型的预测过程。
目标视频去噪模型的第二分支具体可以是低分辨率分支,用于对下采样待去噪视频帧序列进行处理,可以理解的是,下采样待去噪视频帧序列中的各个下采样待去噪视频帧的分辨率是低分辨率,低分辨率的下采样待去噪视频帧序列中各下采样待去噪视频帧的尺寸减小或者细节信息减少,通过目标视频去噪模型的第二分支对下采样待去噪视频帧序列进行处理,能够有效地降低计算量,提高模型的运行效率,同时还能够增强模型的泛化能力,使其更适合处理不同分辨率的视频。
待去噪图像融合特征是指下采样待去噪视频帧序列中至少两个下采样待去噪你帧的特征进行融合得到的特征表示,可以理解的是,对于存在噪声的视频数据,单独使用一帧图像进行去噪往往难以获得良好的去噪效果,因为单帧图像可能存在过多的噪声和失真,无法提供足够的信息,通过融合多个下采样待去噪视频帧的特征可以提高特征的表达能力,从而可以提高目标视频去噪模型的去噪效果,此外下采样待去噪视频帧序列中的各个下采样待去噪视频帧经过特征提取后得到的特征表示可能存在信息损失,融合多个下采样待去噪视频帧的特征可以提高特征的表达能力,从而可以提高目标视频去噪模型的去噪效果。
具体的,终端在得到待去噪视频帧序列之后,对待去噪视频帧序列中的各个待去噪视频帧进行下采样处理,得到下采样待去噪视频帧序列,并将下采样待去噪视频帧序列输入目标视频去噪模型的第二分支,通过第二分支的各个子分支分别对下采样待去噪视频帧序列中的各个下采样待去噪视频帧进行处理,得到待去噪图像融合特征。
在一个实施例中,第二分支包括光流网络、目标帧子分支和其它帧子分支,S706具体包括以下步骤:通过光流网络,确定下采样待去噪视频帧序列中的当前的下采样待去噪视频帧与对应的相邻下采样待去噪视频帧之间的光流信息;通过其它帧子分支对下采样待去噪视频帧序列进行特征提取,得到当前的下采样待去噪视频帧对应的待去噪连续视频帧特征;基于光流信息将待去噪连续视频帧特征与当前的下采样待去噪视频帧进行对齐,得到待去噪对齐后视频帧特征;通过目标子分支对待去噪对齐后视频帧特征进行处理,得到待去噪图像融合特征。
在一个实施例中,下采样待去噪视频帧序列包括当前的下采样待去噪视频帧和下采样待去噪连续视频帧,下采样待去噪连续视频帧包括下采样待去噪前序视频帧和下采样待去噪后序视频帧中的至少一种,其它帧子分支包括前序帧子分支和后序帧子分支中的至少一种,待去噪连续视频帧特征包括待去噪前序视频帧特征和待去噪后序视频帧特征中的至少一种,待去噪对齐后视频帧特征包括待去噪前序对齐后视频帧特征和待去噪后序对齐后视频帧特征中的至少一种,终端通过光流网络,确定下采样待去噪视频帧序列中的当前的下采样待去噪视频帧与对应的相邻下采样视频帧之间的光流信息的过程具体包括以下步骤:通过光流网络,确定当前的下采样待去噪视频帧与下采样待去噪前序视频帧中的相邻下采样视频帧之间的第三光流信息;通过光流网络,确定当前的下采样待去噪视频帧与下采样待去噪后序视频帧中相邻下采样视频帧之间的第四光流信息。
在一个实施例中,终端通过其它帧子分支对下采样待去噪视频帧序列进行特征提取,得到当前的下采样待去噪视频帧对应的待去噪连续视频帧特征的过程包括以下步骤:通过前序帧子分支的前向网络层对下采样待去噪前序视频帧进行特征提取,得到待去噪前序视频帧特征;通过后序帧子分支的后向网络层对下采样待去噪后序视频帧进行特征提取,得到待去噪后序视频帧特征。
在一个实施例中,终端基于光流信息将待去噪连续视频帧特征与当前的下采样待去噪视频帧进行对齐,得到待去噪对齐后视频帧特征的过程包括以下步骤:基于第三光流信息将待去噪前序视频帧特征与当前的下采样待去噪视频帧进行对齐,得到待去噪前序对齐后视频帧特征;基于第四光流信息将待去噪后序视频帧特征与当前的下采样待去噪视频帧进行对齐,得到待去噪后序对齐后视频帧特征;
在一个实施例中,终端通过目标子分支对待去噪对齐后视频帧特征进行处理,得到图像融合特征的过程包括以下步骤:通过目标子分支的前向网络层对待去噪前序对齐后视频帧特征进行处理,得到待去噪前序图像融合特征;通过目标子分支的后向网络层对待去噪后序对齐后视频帧特征进行处理,得到待去噪后序图像融合特征;基于待去噪前序图像融合特征和待去噪后序图像融合特征中的至少一个,确定待去噪图像融合特征。
在一个实施例中,终端基于待去噪前序图像融合特征和待去噪后序图像融合特征中的至少一个,确定待去噪图像融合特征的过程具体包括以下步骤:在下采样待去噪连续视频帧仅包括下采样待去噪前序视频帧时,直接将待去噪前序图像融合特征确定为待去噪图像融合特征,在下采样待去噪连续视频帧仅包括下采样待去噪后序视频帧时,直接将待去噪后序图像融合特征确定为待去噪图像融合特征,在下采样待去噪连续视频帧包括下采样待去噪前序视频帧和下采样待去噪后序视频帧时,将待去噪前序图像融合特征和待去噪后序图像融合特征进行拼接,得到待去噪拼接后图像特征;对待去噪拼接后图像特征进行卷积处理,得到待去噪图像融合特征。
S708,基于待去噪图像细节特征和待去噪图像融合特征,生成待去噪视频帧对应的去噪视频帧。
具体的,终端在得到待去噪图像融合特征和待去噪图像细节特征之后,对待去噪图像融合特征和待去噪图像细节特征进行融合,得到待去噪全局图像特征,并基于待去噪全局图像特征生成预测视频帧。
上述实施例中,终端通过在待去噪视频的待去噪视频帧序列中确定当前的待去噪视频帧;通过目标视频去噪模型的第一分支提取待去噪视频帧的待去噪图像细节特征;在获得待去噪视频帧序列对应的下采样待去噪视频帧序列后,通过目标视频去噪模型的第二分支对下采样待去噪视频帧序列进行特征提取,得到待去噪图像融合特征;基于待去噪图像细节特征和待去噪图像融合特征,生成待去噪视频帧对应的去噪视频帧,既充分考虑了视频在时间维度上的相关性和连续性,又能够有效地降低计算量,提高模型的运行效率,从而在计算资源有限的情况下,也能够较好的提取出待去噪视频帧的特征,进而提高了目标视频去噪模型的去噪效果。
在一个实施例中,如图8所示,提供了一种视频去噪模型的处理方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:
S802,对静态对象进行视频采集,得到携带真实噪声的带噪静态视频;对带噪静态视频进行加噪处理,得到静态视频;静态视频包括加噪噪声和真实噪声;对带噪静态视频进行平滑处理,得到清晰静态视频。
S804,从视频数据库中获取未加噪的动态视频;对未加噪的动态视频进行加噪处理,得到加噪的动态视频。
S806,将包括加噪噪声和真实噪声的静态视频、以及加噪的动态视频确定为样本视频,将清晰静态视频和未加噪的动态视频确定为参考视频。
S808,在样本视频的视频帧序列中获取目标视频帧。
S810,通过视频去噪模型的第一分支提取目标视频帧的图像细节特征。
S812,在获得视频帧序列对应的下采样视频帧序列后,通过视频去噪模型的第二分支的光流网络,确定下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息。
S814,通过第二分支的其它帧子分支对下采样视频帧序列进行特征提取,得到下采样目标视频帧对应的连续视频帧特征。
S816,基于光流信息将连续视频帧特征与下采样目标视频帧进行对齐,得到对齐后视频帧特征。
S818,通过第二分支的目标子分支对对齐后视频帧特征进行处理,得到图像融合特征。
S820,对图像融合特征进行上采样处理,得到上采样图像融合特征。
S822,将上采样图像融合特征与图像细节特征进行融合,得到全局图像特征。
S824,基于全局图像特征进行图像重建,得到预测视频帧。
S826,根据预测视频帧和参考视频中与目标视频帧对应的视频帧之间的损失值,对视频去噪模型中的参数进行调整,得到目标视频去噪模型。
其中,目标视频去噪模型用于对待去噪视频进行去噪处理,参考视频包括对静态视频进行平滑处理所得的清晰静态视频和未加噪的动态视频。
本申请还提供一种应用场景,该应用场景应用上述视频去噪模型的处理方法,该方法包括以下步骤:
1、训练数据准备
参考图9所示的训练数据示意图,训练数据来源于两个部分,一部分是人工采集的画面静止的带有真实噪声的视频,另一部分是公开的清晰视频集,分别对带有真实噪声的视频和清晰视频进行人工加噪,得到低质量噪声视频(LQ),对带有真实噪声的视频进行时域平滑,以及对清晰视频进行复制,得到高质量清晰视频(GT),将低质量噪声视频(LQ)作为样本视频,将对应的高质量清晰视频(GT)作为参考视频,构建出成对的数据集,用所构建的成对的数据集来训练视频去噪模型。
2、模型训练
具体的,视频去噪模型的网络结构如图10所示,该视频去噪模型包括高分辨率分支和低分辨率分支,低分辨率分支包括光流网络以及多个子分支,每个子分支包括前向U型网络和后向U型网络,终端在样本视频的视频帧序列中获取目标视频帧,通过该视频去噪模型的高分辨率分支提取目标视频帧的图像细节特征,在对视频帧序列进行下采样得到下采样视频帧序列后,将下采样视频帧序列输入低分辨率分支,通过视频去噪模型的第二分支的光流网络,确定下采样视频帧序列中相邻下采样视频帧之间的光流信息,分别通过低分辨率分支中目标视频帧对应的目标子分支之外其他子分支和光流信息处理对应的下采样视频帧,从而得到下采样目标视频帧对应的连续视频帧特征,并基于下采样目标视频帧以及其与相邻下采样视频帧之间的光流信息,将连续视频帧特征与下采样目标视频帧进行对齐,得到对齐后视频帧特征,通过第分辨率分支的目标子分支对齐后视频帧特征进行处理,得到图像融合特征,对图像融合特征进行上采样处理,得到上采样图像融合特征,将上采样图像融合特征与图像细节特征进行融合,得到全局图像特征,基于全局图像特征进行图像重建,得到预测视频帧,根据预测视频帧和参考视频中与目标视频帧对应的视频帧确定损失值,基于损失值对视频去噪模型中的参数进行调整,得到目标视频去噪模型。
举例对通过视频去噪模型的低分辨率分支对下采样视频帧序列进行特征提取,得到图像融合特征的过程进行说明,以视频帧序列包含10个视频帧,目标视频帧为第i帧为例进行说明,在对视频帧序列的10个视频帧进行下采样得到10个下采样视频帧之后,将该10个下采样视频帧输入视频去噪模型的低分辨率分支,每个下采样视频帧分别对应于低分辨率分支中的一个子分支,以第i+1帧到第i帧、第i-1帧到第i帧为例,首先利用预训练好的光流网络SpyNet分别确定第i+1帧到第i帧的第一光流信息,以及第i-1帧到第i帧的第二光流信息,通过第i+1帧对应子分支的后向U型网络层对第i+1帧进行特征提取得到后序视频帧特征,通过第i-1帧对应子分支的前向U型网络层对第i-1帧进行特征提取得到前序视频帧特征,并基于第一光流信息和第二光流信息分别将前序视频帧特征和后序视频帧特征与第i帧对齐,得到前序对齐后视频帧特征和后序对齐后视频帧特征,通过第i帧对应的子分支的前向U型网络层对前序对齐后视频帧特征进行特征处理,得到前序图像融合特征,通过第i帧对应的子分支的后向U型网络层对后序对齐后视频帧特征进行特征处理,得到后序图像融合特征,将前序图像融合特征和后序图像融合特征进行拼接,得到拼接后图像特征,通过第i帧对应的子分支的卷积层对拼接后图像特征进行卷积处理,得到图像融合特征。其中,第i-1帧对应的前序视频帧特征具体可以是基于对第i-1帧的图像和第i-2帧的视频帧特征而确定的,第i+1帧对应的后序视频帧特征具体可以是基于对第i+1帧的图像和第i+2帧的视频帧特征而确定的。
参考图11和图12,图11为待去噪视频的某个待去噪视频帧,该待去噪视频帧中包含较多噪声,图12为采用本申请方案训练好的目标视频去噪模型去该待去噪视频帧进行去噪处理后所得到的清晰视频帧。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的视频去噪模型的处理方法的视频去噪模型的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个视频去噪模型的处理装置实施例中的具体限定可以参见上文中对于视频去噪模型的处理方法的限定,在此不再赘述。
在一个实施例中,如图13所示,提供了一种视频去噪模型的处理装置,包括:视频帧获取模块、细节特征提取模块、融合特征提取模块、预测模块和参数调整模块,其中:
视频帧获取模块,用于在样本视频的视频帧序列中获取目标视频帧;样本视频包括携带真实噪声的静态视频和加噪的动态视频;
细节特征提取模块,用于通过视频去噪模型的第一分支提取目标视频帧的图像细节特征;
融合特征提取模块,用于在获得视频帧序列对应的下采样视频帧序列后,通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取,得到图像融合特征;
预测模块,用于基于图像融合特征和图像细节特征生成预测视频帧;
参数调整模块,用于根据预测视频帧和参考视频中与目标视频帧对应的视频帧之间的损失值,对视频去噪模型中的参数进行调整,得到目标视频去噪模型;
其中,目标视频去噪模型用于对待去噪视频进行去噪处理,参考视频包括对静态视频进行平滑处理所得的清晰静态视频和未加噪的动态视频。
上述实施例中,在样本视频的视频帧序列中获取目标视频帧之后,通过视频去噪模型的第一分支提取目标视频帧的图像细节特征,在获得视频帧序列对应的下采样视频帧序列后,通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取,得到图像融合特征,基于图像融合特征和图像细节特征生成预测视频帧,既充分考虑了视频在时间维度上的相关性和连续性,又能够有效地降低计算量,提高模型的运行效率,从而在计算资源有限的情况下,也能够根据预测视频帧和参考视频中与目标视频帧对应的视频帧之间的损失值,对视频去噪模型中的参数进行调整,得到去噪效果较好的目标视频去噪模型;另外通过样本视频包括携带真实噪声的静态视频和加噪的动态视频;通过使用包含真实噪声的静态视频和加噪的动态视频作为样本视频,以及使用对静态视频进行平滑处理所得的清晰静态视频和未加噪的动态视频作为参考,可以更好地模拟真实场景下的噪声情况,进一步提高了目标视频去噪模型的去噪效果。
在一个实施例中,如图14所示,装置还包括样本视频获取模块和参考视频获取模块,其中:样本视频获取模块,用于对静态对象进行视频采集,得到携带真实噪声的带噪静态视频;对带噪静态视频进行加噪处理,得到静态视频;静态视频包括加噪噪声和真实噪声;参考视频获取模块,用于对带噪静态视频进行平滑处理,得到清晰静态视频。
在一个实施例中,样本视频获取模块,还用于从带噪静态视频的各带噪视频帧中获取部分像素;根据各带噪视频帧的部分像素分别生成对应的第一像素图像;生成与各带噪视频帧对应的第一初始噪声图像;将第一初始噪声图像分别与第一像素图像进行融合,得到各带噪视频帧对应的第一噪声图像;将各第一噪声图像分别融合至对应的带噪视频帧中,得到静态视频。
在一个实施例中,参考视频获取模块,还用于从视频数据库中获取未加噪的动态视频;样本视频获取模块,还用于对未加噪的动态视频进行加噪处理,得到加噪的动态视频。
在一个实施例中,未加噪的动态视频中的视频帧为清晰视频帧;样本视频获取模块,还用于从各清晰视频帧中选取部分像素;根据各清晰视频帧的部分像素分别生成对应的第二像素图像;生成各清晰视频帧对应的第二初始噪声图像;将各第二初始噪声图像分别与对应的第二像素位置图像进行融合,得到各清晰视频帧对应的第二噪声图像;将各第二噪声图像分别融合至对应的清晰视频帧中,得到加噪的动态视频。
在一个实施例中,第二分支包括光流网络、目标帧子分支和其它帧子分支;融合特征提取模块,还用于:通过光流网络,确定下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息;通过其它帧子分支对下采样视频帧序列进行特征提取,得到下采样目标视频帧对应的连续视频帧特征;基于光流信息将连续视频帧特征与下采样目标视频帧进行对齐,得到对齐后视频帧特征;通过目标子分支对对齐后视频帧特征进行处理,得到图像融合特征。
在一个实施例中,相邻下采样视频帧包括下采样前序视频帧和下采样后序视频帧,融合特征提取模块,还用于:通过光流网络,确定下采样目标视频帧与下采样前序视频帧中的相邻下采样视频帧之间的第一光流信息;通过光流网络,确定下采样目标视频帧与下采样后序视频帧中相邻下采样视频帧之间的第二光流信息;通过前序帧子分支的前向网络层对下采样前序视频帧进行特征提取,得到前序视频帧特征;通过后序帧子分支的后向网络层对下采样后序视频帧进行特征提取,得到后序视频帧特征;前序帧子分支和后序帧子分支属于其它帧子分支;基于光流信息中的第一光流信息将前序视频帧特征与下采样目标视频帧进行对齐,得到前序对齐后视频帧特征;基于光流信息中的第二光流信息将后序视频帧特征与下采样目标视频帧进行对齐,得到后序对齐后视频帧特征;通过目标子分支的前向网络层对前序对齐后视频帧特征进行处理,得到前序图像融合特征;通过目标子分支的后向网络层对后序对齐后视频帧特征进行处理,得到后序图像融合特征;基于前序图像融合特征和后序图像融合特征,确定图像融合特征。
在一个实施例中,融合特征提取模块,用于:将前序图像融合特征和后序图像融合特征进行拼接,得到拼接后图像特征;对拼接后图像特征进行卷积处理,得到图像融合特征。
在一个实施例中,预测模块,还用于:将图像融合特征与图像细节特征进行融合,得到全局图像特征;基于全局图像特征进行图像重建,得到预测视频帧。
在一个实施例中,预测模块,还用于:对图像融合特征进行上采样处理,得到上采样图像融合特征;将上采样图像融合特征与图像细节特征进行融合,得到全局图像特征。
在一个实施例中,视频帧获取模块,还用于在待去噪视频的待去噪视频帧序列中确定当前的待去噪视频帧;细节特征提取模块,还用于通过目标视频去噪模型的第一分支提取待去噪视频帧的待去噪图像细节特征;融合特征提取模块,还用于在获得待去噪视频帧序列对应的下采样待去噪视频帧序列后,通过目标视频去噪模型的第二分支对下采样待去噪视频帧序列进行特征提取,得到待去噪图像融合特征;预测模块,还用于基于待去噪图像细节特征和待去噪图像融合特征,生成待去噪视频帧对应的去噪视频帧。
上述视频去噪模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频去噪模型的处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频去噪模型的处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图15或图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种视频去噪模型的处理方法,其特征在于,所述方法包括:
在样本视频的视频帧序列中获取目标视频帧;所述样本视频包括携带真实噪声的静态视频和加噪的动态视频;
通过视频去噪模型的第一分支提取所述目标视频帧的图像细节特征;
在获得所述视频帧序列对应的下采样视频帧序列后,通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取,得到图像融合特征;
基于所述图像融合特征和所述图像细节特征生成预测视频帧;
根据所述预测视频帧和参考视频中与所述目标视频帧对应的视频帧之间的损失值,对所述视频去噪模型中的参数进行调整,得到目标视频去噪模型;
其中,所述目标视频去噪模型用于对待去噪视频进行去噪处理,所述参考视频包括对所述静态视频进行平滑处理所得的清晰静态视频和未加噪的所述动态视频。
2.根据权利要求1所述的方法,其特征在于,所述静态视频还包括加噪噪声;所述方法还包括:
对静态对象进行视频采集,得到携带真实噪声的带噪静态视频;
对所述带噪静态视频进行加噪处理,得到所述静态视频;所述静态视频包括所述加噪噪声和所述真实噪声;
对所述带噪静态视频进行平滑处理,得到所述清晰静态视频。
3.根据权利要求2所述的方法,其特征在于,所述对所述带噪静态视频进行加噪处理,得到所述静态视频,包括:
从所述带噪静态视频的各带噪视频帧中获取部分像素;
根据各所述带噪视频帧的部分像素分别生成对应的第一像素图像;
生成与各所述带噪视频帧对应的第一初始噪声图像;
将所述第一初始噪声图像分别与所述第一像素图像进行融合,得到各所述带噪视频帧对应的第一噪声图像;
将各所述第一噪声图像分别融合至对应的所述带噪视频帧中,得到所述静态视频。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从视频数据库中获取未加噪的动态视频;
对所述未加噪的动态视频进行加噪处理,得到加噪的动态视频。
5.根据权利要求4所述的方法,其特征在于,所述未加噪的动态视频中的视频帧为清晰视频帧;
所述对所述未加噪的动态视频进行加噪处理,得到加噪的动态视频,包括:
从各所述清晰视频帧中选取部分像素;
根据各所述清晰视频帧的部分像素分别生成对应的第二像素图像;
生成各所述清晰视频帧对应的第二初始噪声图像;
将各所述第二初始噪声图像分别与对应的所述第二像素位置图像进行融合,得到各所述清晰视频帧对应的第二噪声图像;
将各所述第二噪声图像分别融合至对应的所述清晰视频帧中,得到加噪的动态视频。
6.根据权利要求1所述的方法,其特征在于,所述第二分支包括光流网络、目标帧子分支和其它帧子分支;所述通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取,得到图像融合特征,包括:
通过所述光流网络,确定所述下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息;
通过所述其它帧子分支对所述下采样视频帧序列进行特征提取,得到所述下采样目标视频帧对应的连续视频帧特征;
基于所述光流信息将所述连续视频帧特征与所述下采样目标视频帧进行对齐,得到对齐后视频帧特征;
通过所述目标子分支对所述对齐后视频帧特征进行处理,得到图像融合特征。
7.根据权利要求6所述的方法,其特征在于,所述相邻下采样视频帧包括下采样前序视频帧和下采样后序视频帧;
所述通过所述光流网络,确定所述下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息,包括:
通过所述光流网络,确定所述下采样目标视频帧与所述下采样前序视频帧中的相邻下采样视频帧之间的第一光流信息;通过所述光流网络,确定所述下采样目标视频帧与所述下采样后序视频帧中相邻下采样视频帧之间的第二光流信息;
所述通过所述其它帧子分支对所述下采样视频帧序列进行特征提取,得到所述下采样目标视频帧对应的连续视频帧特征,包括:
通过前序帧子分支的前向网络层对所述下采样前序视频帧进行特征提取,得到前序视频帧特征;通过后序帧子分支的后向网络层对所述下采样后序视频帧进行特征提取,得到后序视频帧特征;所述前序帧子分支和所述后序帧子分支属于所述其它帧子分支;
所述基于所述光流信息将所述连续视频帧特征与所述下采样目标视频帧进行对齐,得到对齐后视频帧特征,包括:
基于所述光流信息中的第一光流信息将所述前序视频帧特征与所述下采样目标视频帧进行对齐,得到前序对齐后视频帧特征;基于所述光流信息中的第二光流信息将所述后序视频帧特征与所述下采样目标视频帧进行对齐,得到后序对齐后视频帧特征;
所述通过所述目标子分支对所述对齐后视频帧特征进行处理,得到图像融合特征,包括:
通过所述目标子分支的前向网络层对所述前序对齐后视频帧特征进行处理,得到前序图像融合特征;通过所述目标子分支的后向网络层对所述后序对齐后视频帧特征进行处理,得到后序图像融合特征;
基于所述前序图像融合特征和所述后序图像融合特征,确定图像融合特征。
8.根据权利要求7所述的方法,其特征在于,所述基于所述前序图像融合特征和所述后序图像融合特征,确定图像融合特征,包括:
将所述前序图像融合特征和所述后序图像融合特征进行拼接,得到拼接后图像特征;
对所述拼接后图像特征进行卷积处理,得到图像融合特征。
9.根据权利要求1所述的方法,其特征在于,所述基于所述图像融合特征和所述图像细节特征生成预测视频帧,包括:
将所述图像融合特征与所述图像细节特征进行融合,得到全局图像特征;
基于所述全局图像特征进行图像重建,得到预测视频帧。
10.根据权利要求9所述的方法,其特征在于,所述将所述图像融合特征与所述图像细节特征进行融合,得到全局图像特征,包括:
对所述图像融合特征进行上采样处理,得到上采样图像融合特征;
将所述上采样图像融合特征与所述图像细节特征进行融合,得到全局图像特征。
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述方法还包括:
在待去噪视频的待去噪视频帧序列中确定当前的待去噪视频帧;
通过所述目标视频去噪模型的第一分支提取所述待去噪视频帧的待去噪图像细节特征;
在获得所述待去噪视频帧序列对应的下采样待去噪视频帧序列后,通过所述目标视频去噪模型的第二分支对所述下采样待去噪视频帧序列进行特征提取,得到待去噪图像融合特征;
基于所述待去噪图像细节特征和所述待去噪图像融合特征,生成所述待去噪视频帧对应的去噪视频帧。
12.一种视频去噪模型的处理装置,其特征在于,所述装置包括:
视频帧获取模块,用于在样本视频的视频帧序列中获取目标视频帧;所述样本视频包括携带真实噪声的静态视频和加噪的动态视频;
细节特征提取模块,用于通过视频去噪模型的第一分支提取所述目标视频帧的图像细节特征;
融合特征提取模块,用于在获得所述视频帧序列对应的下采样视频帧序列后,通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取,得到图像融合特征;
预测模块,用于基于所述图像融合特征和所述图像细节特征生成预测视频帧;
参数调整模块,用于根据所述预测视频帧和参考视频中与所述目标视频帧对应的视频帧之间的损失值,对所述视频去噪模型中的参数进行调整,得到目标视频去噪模型;
其中,所述目标视频去噪模型用于对待去噪视频进行去噪处理,所述参考视频包括对所述静态视频进行平滑处理所得的清晰静态视频和未加噪的所述动态视频。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310457798.1A CN116977200A (zh) | 2023-04-18 | 2023-04-18 | 视频去噪模型的处理方法、装置、计算机设备和存储介质 |
PCT/CN2024/079883 WO2024217164A1 (zh) | 2023-04-18 | 2024-03-04 | 视频去噪模型的处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310457798.1A CN116977200A (zh) | 2023-04-18 | 2023-04-18 | 视频去噪模型的处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116977200A true CN116977200A (zh) | 2023-10-31 |
Family
ID=88482158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310457798.1A Pending CN116977200A (zh) | 2023-04-18 | 2023-04-18 | 视频去噪模型的处理方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116977200A (zh) |
WO (1) | WO2024217164A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117495853A (zh) * | 2023-12-28 | 2024-02-02 | 淘宝(中国)软件有限公司 | 视频数据处理方法、设备及存储介质 |
CN118555461A (zh) * | 2024-07-29 | 2024-08-27 | 浙江天猫技术有限公司 | 视频生成方法、装置、设备、系统及计算机程序产品 |
WO2024217164A1 (zh) * | 2023-04-18 | 2024-10-24 | 腾讯科技(深圳)有限公司 | 视频去噪模型的处理方法、装置、计算机设备和存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11151695B1 (en) * | 2019-08-16 | 2021-10-19 | Perceive Corporation | Video denoising using neural networks with spatial and temporal features |
CN111738952B (zh) * | 2020-06-22 | 2023-10-10 | 京东方科技集团股份有限公司 | 一种图像修复的方法、装置及电子设备 |
CN112686828B (zh) * | 2021-03-16 | 2021-07-02 | 腾讯科技(深圳)有限公司 | 视频去噪方法、装置、设备及存储介质 |
CN113011562B (zh) * | 2021-03-18 | 2024-07-26 | 华为技术有限公司 | 一种模型训练方法及装置 |
CN113034401B (zh) * | 2021-04-08 | 2022-09-06 | 中国科学技术大学 | 视频去噪方法及装置、存储介质及电子设备 |
CN116977200A (zh) * | 2023-04-18 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 视频去噪模型的处理方法、装置、计算机设备和存储介质 |
-
2023
- 2023-04-18 CN CN202310457798.1A patent/CN116977200A/zh active Pending
-
2024
- 2024-03-04 WO PCT/CN2024/079883 patent/WO2024217164A1/zh unknown
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024217164A1 (zh) * | 2023-04-18 | 2024-10-24 | 腾讯科技(深圳)有限公司 | 视频去噪模型的处理方法、装置、计算机设备和存储介质 |
CN117495853A (zh) * | 2023-12-28 | 2024-02-02 | 淘宝(中国)软件有限公司 | 视频数据处理方法、设备及存储介质 |
CN117495853B (zh) * | 2023-12-28 | 2024-05-03 | 淘宝(中国)软件有限公司 | 视频数据处理方法、设备及存储介质 |
CN118555461A (zh) * | 2024-07-29 | 2024-08-27 | 浙江天猫技术有限公司 | 视频生成方法、装置、设备、系统及计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
WO2024217164A1 (zh) | 2024-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Survey of single image super‐resolution reconstruction | |
CN111488865B (zh) | 图像优化方法、装置、计算机存储介质以及电子设备 | |
CN112288627B (zh) | 一种面向识别的低分辨率人脸图像超分辨率方法 | |
CN116977200A (zh) | 视频去噪模型的处理方法、装置、计算机设备和存储介质 | |
Chauhan et al. | Deep learning-based single-image super-resolution: A comprehensive review | |
Prajapati et al. | Direct unsupervised super-resolution using generative adversarial network (DUS-GAN) for real-world data | |
Sun et al. | Multiscale generative adversarial network for real‐world super‐resolution | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
Hu et al. | A multi-stage underwater image aesthetic enhancement algorithm based on a generative adversarial network | |
Qin et al. | Etdnet: An efficient transformer deraining model | |
Fan et al. | Multiscale cross-connected dehazing network with scene depth fusion | |
CN113066034A (zh) | 人脸图像的修复方法与装置、修复模型、介质和设备 | |
CN113902647B (zh) | 一种基于双闭环网络的图像去模糊方法 | |
Lee et al. | Resolution-preserving generative adversarial networks for image enhancement | |
CN112509144A (zh) | 人脸图像处理方法、装置、电子设备及存储介质 | |
CN114170290A (zh) | 图像的处理方法及相关设备 | |
Zhu et al. | PNEN: Pyramid non-local enhanced networks | |
CN115131218A (zh) | 图像处理方法、装置、计算机可读介质及电子设备 | |
CN110570375B (zh) | 一种图像处理方法、装置、电子设置以及存储介质 | |
CN113362338A (zh) | 铁轨分割方法、装置、计算机设备和铁轨分割处理系统 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN117576248B (zh) | 基于姿态引导的图像生成方法和装置 | |
Hua et al. | Dynamic scene deblurring with continuous cross-layer attention transmission | |
Ren et al. | A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms | |
Sharma et al. | A novel 3d-unet deep learning framework based on high-dimensional bilateral grid for edge consistent single image depth estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40097800 Country of ref document: HK |