CN114584675B - 一种自适应视频增强方法和装置 - Google Patents
一种自适应视频增强方法和装置 Download PDFInfo
- Publication number
- CN114584675B CN114584675B CN202210485810.5A CN202210485810A CN114584675B CN 114584675 B CN114584675 B CN 114584675B CN 202210485810 A CN202210485810 A CN 202210485810A CN 114584675 B CN114584675 B CN 114584675B
- Authority
- CN
- China
- Prior art keywords
- video
- degradation
- quality
- low
- quality video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000006731 degradation reaction Methods 0.000 claims abstract description 82
- 230000015556 catabolic process Effects 0.000 claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000009826 distribution Methods 0.000 claims abstract description 27
- 230000003044 adaptive effect Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 239000000779 smoke Substances 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000011084 recovery Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000002457 bidirectional effect Effects 0.000 description 8
- 238000002674 endoscopic surgery Methods 0.000 description 8
- 230000002829 reductive effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000001356 surgical procedure Methods 0.000 description 4
- 238000011282 treatment Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000007850 degeneration Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 206010052428 Wound Diseases 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000004204 blood vessel Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012976 endoscopic surgical procedure Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 125000001475 halogen functional group Chemical group 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000004171 remote diagnosis Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/21—Circuitry for suppressing or minimising disturbance, e.g. moiré or halo
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/50—Constructional details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/50—Constructional details
- H04N23/555—Constructional details for picking-up images in sites, inaccessible due to their dimensions or hazardous conditions, e.g. endoscopes or borescopes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种自适应视频增强方法和装置,该方法包括:采集目标视频数据;将目标视频数据输入预训练的视频增强模型,获得增强视频,其中训练样本集的获取包括:构建生成对抗网络,该生成对抗网络包括生成器和判别器,生成器以真实高质量视频和退化特征作为输入,生成模拟低质量视频,判别器用于判断模拟低质量视频与真实低质量视频之间的拟合程度;训练所述生成对抗网络,以使模拟低质量视频与真实低质量视频之间的拟合程度满足设定损失标准;将经训练的生成器作为视频退化学习模型,以针对采集的高质量视频生成具有不同退化分布特征的低质量视频,进而构建出所述训练样本集。利用本发明能够提升目标视频的视觉清晰度以及保真度。
Description
技术领域
本发明涉及图像处理技术领域,更具体地,涉及一种自适应视频增强方法和装置。
背景技术
视频增强方法应用广泛,以腔镜手术为例,其是一门新发展起来的微创方法,具有创伤小,手术视野放大,对周围组织损伤低,术后伤口疼痛轻,美观,恢复快,并发症少,住院天数少,费用负担小等优点,面向腔镜手术场景的视频增强有利于提升诊疗效率。然而,在目前的腔镜手术中,图像传感器往往由于温度差异或者是手术烧灼而在患者体内出现烟雾或者雾气等,导致捕获的图像或视频质量下降,传统依赖擦拭、排烟、加热镜头等策略不仅导致手术中断,还容易引发手术风险。
近年来,深度学习技术在图像超分辨率重建、图像去噪等低质图像增强和复原问题上取得了巨大进展。例如,将卷积神经网络应用于图像超分辨率重建领域。有研究者提出的VDSR将卷积神经网络提升至20层,通过引入残差连接防止了深层神经网络梯度信息丢失的情况,使得图像超分辨率重建通过深层网络学习到更多的上下文信息。又如,采用DerainNet模型,通过卷积神经网络学习雨天图像和清晰图像之间的非线性映射关系,并利用学习到的映射关系进行图像去雨。然而,基于无参考数据和弱监督学习的方法的研究目前还不完善,尤其是图像细节仍不尽人意。
目前,视频增强的研究相对较少,现有方法通常基于传统的图像增强方法,如采用边界约束和上下文正则化算法,引入贝叶斯估计场景反照率进而实现去雾,这些算法增强效果有限,细节有待提升。而与传统的图像视频超分增强问题相比,腔镜手术视频增强面临如下挑战:
1)、影响腔镜手术视频质量的因素复杂,图像降质过程难于建模。
2)、与一般自然场景的视频增强任务不同,医学领域图像及视频增强对保真度要求更高,医生无法接受因为视频增强而使得手术视野范围内出现对比度较差、颜色失真、模糊、光晕伪影等问题,更不能接收增强过程中出现原本不存在的内容,这些问题会极大影响医生视觉判断,对手术过程产生不利影响,例如血管的青色减淡或改变,会使医生误判从而有可能误伤血管;原本没有阴影的位置出现阴影,有可能使得医生误判手术操作范围。因此,图像增强过程对保真度要求高,需要避免因为算法增强引入原本不存在的伪细节和内容,影响医生的判断。
3)、手术对实时要求高,过高的延迟会影响手术操作,带来医疗风险。
综上,对于腔镜视频数据而言,难以获取高质-低质数据对,但却对增强后的细节、实时性要求更高,导致现有方法无法取得理想的效果,因此需要对模型结构、损失函数以及训练策略进行更精细化地设计,以提升视频增强效果。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种自适应视频增强方法和装置。
根据本发明的第一方面,提供一种自适应视频增强方法。该方法包括:
采集目标视频数据;
将所述目标视频数据输入到视频增强模型,获得增强视频,所述视频增强模型利用训练样本集训练获得,所述训练样本集的每条样本反映高质量视频与低质量视频之间的对应关系,并且根据以下步骤获得:
构建生成对抗网络,该生成对抗网络包括生成器和判别器,所述生成器以真实高质量视频和退化特征作为输入,生成模拟低质量视频,所述判别器用于判断所生成的模拟低质量视频与真实低质量视频之间的拟合程度;
训练所述生成对抗网络,以使生成的模拟低质量视频与真实低质量视频之间的拟合程度满足设定损失标准;
将经训练的生成器作为视频退化学习模型,以针对采集的高质量视频生成具有不同退化分布特征的低质量视频,进而构建出所述训练样本集。
根据本发明的第二方面,提供一种自适应视频增强装置。该装置包括:
视频采集单元:用于采集目标视频数据;
视频增强单元:用于将所述目标视频数据输入到视频增强模型,获得增强视频,其中,所述视频增强模型利用训练样本集训练获得,每条样本反映高质量视频与低质量视频之间的对应关系;
样本采集单元:用于根据以下步骤获取所述训练样本集:
构建生成对抗网络,该生成对抗网络包括生成器和判别器,所述生成器以真实高质量视频和退化特征作为输入,生成模拟低质量视频,所述判别器用于判断所生成的模拟低质量视频与真实低质量视频之间的拟合程度;
训练所述生成对抗网络,以使所生成的模拟低质量视频与真实低质量视频之间的拟合程度满足设定标准;
将经训练的生成器作为视频退化学习模型,以针对采集的高质量视频生成具有不同退化分布特征的低质量视频,进而构建出所述训练样本集。
与现有技术相比,本发明的优点在于,提供一种自适应视频增强方法,可应用于实时腔镜手术视频增强,该方法考虑不同因素导致的视频质量退化特性,能够有效增强手术视野细节,降低雾、烟等对视野区域的影响,并且在视频增强过程中兼顾保真度要求,显著提升了手术医生的视觉清晰度,无需中断手术即可实现“无感”去雾,在保障手术顺利实施的同时降低了手术风险,提高了诊疗效率。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的自适应视频增强方法的流程图;
图2是根据本发明一个实施例的自适应视频退化学习模型示意图;
图3是根据本发明一个实施例的自适应视频增强模型示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
参见图1所示,所提供的自适应视频增强方法包括以下步骤。
步骤S110,利用生成对抗网络对视频退化过程建模。
对于真实的腔镜手术视频数据,很难收集到成对的低质量-高质量数据。这是因为无法在拍摄一段低质量手术视频的时候,同时获取其像素级别对齐的高质量版本,并且在收集到大量的低质量视频后,依靠专家手工修复获取高清视频也是不现实的。针对这些挑战,在一个实施例中,使用生成对抗网络来训练降质生成模型,以高质量视频为输入,生成与之对应的低质量视频。
生成对抗网络可以学习和模拟出数据分布的生成式模型。由于低质量的腔镜手术视频包含各种各样的图像退化,例如噪声、模糊、暗光、烟雾等,这些真实场景的退化很难使用简单的数学公式进行建模,因此本发明实施例采用生成对抗网络学习这些真实退化的分布,然后将这些退化迁移到高质量的视频上,模拟出真实的低质量视频。通过这种方式,可以获取成对的低质量-高质量数据对,以用于后续的有监督训练。
需说明的是,在本文中,低质量视频和高质量视频是相对而言的,低质量视频是指分辨率相对低的视频,高质量视频是指分辨率相对高的视频,而模拟低质量视频是指利用生成对抗网络拟合出的分辨率相对低的视频,真实高质量视频是指实际拍摄的分辨率较高的视频,真实低质量视频是指实际拍摄的分辨率较低的视频。
参见图2所示,基于生成式对抗网络构建的自适应视频退化学习模型主要包含三个模块,分别是退化分布提取器、退化生成器和判别器。
退化分布提取器用于从真实低质量视频中提取出包含多种退化特性的特征。这些退化特征表征了输入的真实低质量视频中的退化类型信息,退化类型例如包括如烟、雾、噪声、模糊和压缩等。
退化分布提取器可采用多种类型的神经网络模型实习,例如简单的基于卷积神经网络的编码器结构,具体为,分辨率逐渐减少,同时通道数逐渐增加的卷积网络。卷积网络可以提取丰富的图像特征,并且可以通过训练自行学习到所需要的特征,因此可以用于提取输入视频中特定的退化信息。
对于退化生成器(或简称生成器),其输入为真实高质量视频,以及从低质量视频中提取出的退化特征。退化特征自适应地调控退化生成器的深度特征,最终生成模拟的低质量视频。生成的低质量视频所包含的退化特性与输入的真实的低质量视频具有一致性。
判别器以生成器输出的模拟低质量视频和真实低质量视频为输入,通过对抗式学习来判别模拟低质量视频的退化是否与真实的低质量视频的分布一致。在对抗式学习过程中,生成器的目标是尽量模拟出与真实低质量视频分布一致的模拟视频,并且所模拟出的视频能够反映不同退化程度、不同原因导致的退化特征。
步骤S120,利用经训练的生成对抗网络中的生成器作为视频退化模型,获取真实低质量-高质量视频对,进而构建训练样本集。
在完成上述自适应视频退化学习模型的训练后,利用生成器结合退化分布提取器,可以生成大量成对的真实低质量-高质量视频对,进而构建出训练样本集,用于后续的视频增强模型进行有监督训练,其中训练样本集中的每条样本反映低质量视频在一定退化分布下与高质量视频之间的对应关系,需要说明的是,训练样本集中既可以包括正常采集的样本,也可以包含利用生成器模拟出的对抗样本,从而提升后续视频增强模型的泛化能力和自适应性。
步骤S130,利用训练样本集训练自适应视频增强模型。
为了使增强网络模型可以应对不同设备和不同环境中拍摄到的具有不同噪声、亮度、退化模式的视频,在增强模型中加入自适应模块,以根据输入,动态调整增强网络的运算路径和参数,提升增强效果,减少不必要计算提升效率。
优选地,为保证视频的时序一致性,需要对视频的前后关系进行约束,防止产生帧间的跳动闪烁;要保证视频的实时性,要求模型的设计尽可能的高效和敏捷,尽量减少参数量和计算量的冗余。
参见图3所示,自适应视频增强模型包括多尺度分频特征提取器、退化分布提取器、自适应双向循环网络和时频特征融合模块。多尺度分频特征提取器用于对输入视频进行分频处理以提取不同频率分量的多尺度特征。退化分布提取器用于从输入视频中提取退化特征,以反映不同退化程度、不同原因导致的退化特性。自适应双向循环网络用于获取不同频率分量的连续帧之间的关系,对前后帧的特征进行时序建模,同时保证时序一致性,并且对不同频率分量的退化特征进行监督。时频特征融合模块用于将不同频域的复原特征进行融合,得到最终的增强视频。利用所提供的自适应视频增强模型能够提升输入视频的清晰度,并且适用于具有不同退化分布的输入视频。
在一个实施例中,为了应对不同尺度且动态变化的视频内容,设计一个自适应动态多尺度特征提取器,根据不同的输入,动态生成所需的特征提取滤波器,实现自适应不同手术场景和各类退化。并且,可采用多种分频方式,例如,采用高斯残差进行分频。具体地,对于一张原始的输入图像I,对其施加一系列不同的程度的高斯模糊核(其中模糊程度最低,模糊程度最高),得到模糊后的低频图像和残差高频图像,表示为:
在一个实施例中,为了更好地获取视频连续帧之间的关系,同时保证时序一致性,使用双向循环网络作为生成器,对前后帧的特征进行时序建模。通过这种结构设计,既可以考虑到帧间的运动信息,又能保证输出的时序一致性。这是因为,视频是典型的序列数据,双向循环神经网络可以充分提取视频的时间和空间信息。此外,退化分布提取器得到的退化特征与双向循环网络提取的特征进行特征调制,对于不同的退化输入图像,会得到不同的退化特征,这使得双向循环网络是动态的,能够自适应地针对不同场景采集的视频进行增强。并且,双向循环网络考虑了前后连续多帧的信息,当前帧的输出是由前后多帧综合得到,而不是孤立得到,因此可以保证时序一致。例如,双向循环网络例如可采用BiLSTM(双向长短时记忆网络)或其他的双向循环网络类型。
进一步地,为了节约参数量和计算量,除了采用计算更加快捷的循环神经网络模型外,同时对于分频监督训练情况,多尺度特征提取器和双向循环网络生成器对于各个频域是共享的,这可以减少参数量,同时尽可能复用特征,即对于不同频域都使用一套参数,而不是每个频域一套网络参数。
此外,腔镜手术对保真度要求高,增强过程中不能产生原来不存在的内容,为此,优选地,设计保真强化损失,以抑制增强网络生成伪细节和内容。
在一个实施例中,在分频监督训练中,对视频的不同的频域施加L1或者L2损失函数,以强化保真损失。L1和L2损失函数可以使网络得到较高的信噪比,即保真度高,而对图像不同的频域部分同时施加L1或L2损失,可以加强这种保真效果,并且能够对不同频率分量的退化特征进行监督。通过对视频中不同频域的分量分别处理,并设计多频域时空特征融合机制,能够抽取更加精细和丰富的特征信息,以满足医疗场景中对保真度的要求,并且通过设计时序融合机制,确保增强视频的视觉连续性,避免跳变。
需说明的是,视频退化学习模型中采用的退化分布提取器(或称第一退化分布提取器)可以与视频增强模型中的退化分布提取器(或称第二退化分布提取器)具有相同或不同的结构。优选地,在采用不同结构的情况下,视频增强模型能够进一步增加对不同场景、不同噪声分布情况下的自适应性。
综上,在所提供的视频增强模型中,为了保证高保真度,将输入视频按照一定的频域进行分解,分别进行复原。对不同频域的复原结果进行分频监督,保证每个频域的恢复结果都更加贴近标签数据的频域分量,以加强整体的保真度。并且,在分频监督过程中,通过参数共享降低了模型参数量,从而在保持了高保真度的前提下,提高了视频增强的实时性。
步骤S140,利用经训练的自适应视频增强模型对采集的目标视频进行增强。
在视频增强模型训练完成后,可用于实际场景的视频增强,即获取实际场景的目标视频,输入到预训练的视频增强模型,获得增强后视频。需要说明的是,本发明可用于多种场景的视频增强,而不限于腔镜手术过程。此外,当用于腔镜手术场景时,不介入人体,用于辅助手术导航、诊疗或远程诊疗等。
相应地,本发明还提供一种自适应视频增强装置。该装置包括:视频采集单元,其用于采集目标视频数据;视频增强单元,其用于将所述目标视频数据输入到视频增强模型,获得增强视频,其中,所述视频增强模型利用训练样本集训练获得,每条样本反映高质量视频与低质量视频之间的对应关系;样本采集单元,其用于根据以下步骤获取所述训练样本集:构建生成对抗网络,该生成对抗网络包括生成器和判别器,所述生成器以真实高质量视频和退化特征作为输入,生成模拟低质量视频,所述判别器用于判断所生成的模拟低质量视频与真实低质量视频之间的拟合程度;训练所述生成对抗网络,以使所生成的模拟低质量视频与真实低质量视频之间的拟合程度满足设定标准;将经训练的生成器作为视频退化学习模型,以针对采集的高质量视频生成具有不同退化分布特征的低质量视频,进而构建出所述训练样本集。该装置涉及的各单元可采用处理器、FPGA或其它专用硬件实现。
本发明涉及的模型训练过程可在服务器或云端离线进行,将经训练的模型嵌入到电子设备即可实现实时显示增强后的视频。该电子设备可以是终端设备或者服务器,终端设备包括手机、平板电脑、个人数字助理(PDA)、销售终端(POS)、智能可穿戴设备(智能手表、虚拟现实眼镜、虚拟现实头盔等)等任意终端设备。服务器包括但不限于应用服务器或Web服务器,可以为独立服务器、集群服务器或云服务器等。例如,在实际的模型应用中,可利用视频采集设备拍摄目标视频,将目标视频传递到电子设备,进而利用训练好的视频增强模型实时显示相对于采集视频增强后的视频,以供医生辅助手术过程顺利完成。
综上所述,本发明利用视频退化学习模型,模拟生成大量符合真实退化分布的数据对,进行有监督的视频增强模型学习。在视频增强学习中,将输入视频按照一定的频域进行分解,对不同频域的复原结果进行分频监督,提升了视频清晰度。此外,考虑到帧间的跳动闪烁不仅极大影响医生的手术视觉,而且还会对未来运动检测等产生极大的影响,采用双向循环网络保证时序一致性,避免了产生序列帧间闪烁噪声。进一步地,在提升视频质量的前提下,通过参数共享等提高了实时性,保证手术实施所要求的画面零延迟。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (9)
1.一种自适应视频增强方法,包括:
采集目标视频数据;
将所述目标视频数据输入到视频增强模型,获得增强视频,所述视频增强模型利用训练样本集训练获得,该训练样本集的每条样本反映高质量视频与低质量视频之间的对应关系,且根据以下步骤获得:
构建生成对抗网络,该生成对抗网络包括生成器和判别器,所述生成器以真实高质量视频和对应的退化特征作为输入,生成模拟低质量视频,所述判别器用于判断所生成的模拟低质量视频与真实低质量视频之间的拟合程度;
训练所述生成对抗网络,以使生成的模拟低质量视频与真实低质量视频之间的拟合程度满足设定损失标准;
将经训练的生成器作为视频退化学习模型,以针对采集的高质量视频生成具有不同退化分布特征的低质量视频,进而构建出所述训练样本集;
其中,所述退化特征利用第一退化分布提取器提取,该第一退化分布提取器以真实低质量视频作为输入,提取反映不同退化类型和不同退化程度的退化特征。
2.根据权利要求1所述的方法,其特征在于,所述第一退化分布提取器是分辨率逐渐减少,同时通道数逐渐增加的卷积神经网络。
3.根据权利要求1所述的方法,其特征在于,所述视频增强模型包括分频特征提取器,第二退化分布提取器、自适应双向循环网络和时频特征融合模块,其中,分频特征提取器对输入视频按照频域进行分解,获得不同尺度的多个频率分量;第二退化分布提取器用于从输入视频中提取对应的退化特征;自适应双向循环网络针对多个频率分量对连续帧的特征进行时序建模并且经由退化特征的调制,获得针对不同频率分量的复原结果;时频特征融合模块用于融合复原结果中的时域特征和频域特征,获得相对于输入视频的增强视频。
5.根据权利要求3所述的方法,其特征在于,在训练所述视频增强模型过程中,所述分频特征提取器和所述自适应双向循环网络对于不同的频率分量共享参数。
6.根据权利要求3所述的方法,其特征在于,在训练所述视频增强模型过程中,对不同频率分量的复原结果进行分频监督,所使用损失函数中包含保真损失项,该保真损失项是针对不同频率分量施加的L1或者L2损失。
7.根据权利要求1所述的方法,其特征在于,所述不同退化类型包括烟、雾、噪声、模糊和压缩。
8.一种自适应视频增强装置,包括:
视频采集单元;用于采集目标视频数据;
视频增强单元,用于将所述目标视频数据输入到视频增强模型,获得增强视频,其中,所述视频增强模型利用训练样本集训练获得,每条样本反映高质量视频与低质量视频之间的对应关系;
样本采集单元:用于根据以下步骤获取所述训练样本集:
构建生成对抗网络,该生成对抗网络包括生成器和判别器,所述生成器以真实高质量视频和退化特征作为输入,生成模拟低质量视频,所述判别器用于判断所生成的模拟低质量视频与真实低质量视频之间的拟合程度;
训练所述生成对抗网络,以使所生成的模拟低质量视频与真实低质量视频之间的拟合程度满足设定标准;
将经训练的生成器作为视频退化学习模型,以针对采集的高质量视频生成具有不同退化分布特征的低质量视频,进而构建出所述训练样本集;
其中,所述退化特征利用第一退化分布提取器提取,该第一退化分布提取器以真实低质量视频作为输入,提取反映不同退化类型和不同退化程度的退化特征。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现根据权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210485810.5A CN114584675B (zh) | 2022-05-06 | 2022-05-06 | 一种自适应视频增强方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210485810.5A CN114584675B (zh) | 2022-05-06 | 2022-05-06 | 一种自适应视频增强方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114584675A CN114584675A (zh) | 2022-06-03 |
CN114584675B true CN114584675B (zh) | 2022-08-02 |
Family
ID=81767682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210485810.5A Active CN114584675B (zh) | 2022-05-06 | 2022-05-06 | 一种自适应视频增强方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114584675B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681627B (zh) * | 2023-08-03 | 2023-11-24 | 佛山科学技术学院 | 一种跨尺度融合的自适应水下图像生成对抗增强方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634108A (zh) * | 2019-08-30 | 2019-12-31 | 北京工业大学 | 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 |
CN112365551A (zh) * | 2020-10-15 | 2021-02-12 | 上海市精神卫生中心(上海市心理咨询培训中心) | 一种图像质量处理系统、方法、设备和介质 |
WO2022011571A1 (zh) * | 2020-07-14 | 2022-01-20 | Oppo广东移动通信有限公司 | 视频处理方法、装置、设备、解码器、系统及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396558B (zh) * | 2019-08-15 | 2024-07-23 | 株式会社理光 | 图像处理方法、装置及计算机可读存储介质 |
CN112446835B (zh) * | 2019-09-04 | 2024-06-18 | 华为技术有限公司 | 图像恢复方法、图像恢复网络训练方法、装置和存储介质 |
CN111738953A (zh) * | 2020-06-24 | 2020-10-02 | 北京航空航天大学 | 一种基于边界感知对抗学习的大气湍流退化图像复原方法 |
CN111935721B (zh) * | 2020-08-18 | 2022-06-28 | 深圳大学 | 一种实现异构网络共存的方法和系统 |
CN112200721B (zh) * | 2020-10-10 | 2021-11-09 | 广州云从人工智能技术有限公司 | 一种图像处理方法、系统、设备及介质 |
CN113222855B (zh) * | 2021-05-28 | 2023-07-11 | 北京有竹居网络技术有限公司 | 一种图像恢复方法、装置和设备 |
CN114387190B (zh) * | 2022-03-23 | 2022-08-16 | 山东省计算中心(国家超级计算济南中心) | 一种基于复杂环境下的自适应图像增强方法及系统 |
-
2022
- 2022-05-06 CN CN202210485810.5A patent/CN114584675B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634108A (zh) * | 2019-08-30 | 2019-12-31 | 北京工业大学 | 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 |
WO2022011571A1 (zh) * | 2020-07-14 | 2022-01-20 | Oppo广东移动通信有限公司 | 视频处理方法、装置、设备、解码器、系统及存储介质 |
CN112365551A (zh) * | 2020-10-15 | 2021-02-12 | 上海市精神卫生中心(上海市心理咨询培训中心) | 一种图像质量处理系统、方法、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114584675A (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111539879B (zh) | 基于深度学习的视频盲去噪方法及装置 | |
US20230410266A1 (en) | Generating gaze corrected images using bidirectionally trained network | |
CN111539884A (zh) | 一种基于多注意力机制融合的神经网络视频去模糊方法 | |
US20230022753A1 (en) | System and method for motion warping using multi-exposure frames | |
KR20130013288A (ko) | 다중 노출 퓨전 기반에서 고스트 흐림을 제거한 hdr 영상 생성 장치 및 방법 | |
JP7363883B2 (ja) | 画像処理の方法、デバイス及びコンピュータ可読記憶媒体 | |
CN112164011A (zh) | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 | |
CN111784596A (zh) | 基于生成对抗神经网络的通用内窥镜图像增强方法及装置 | |
CN114584675B (zh) | 一种自适应视频增强方法和装置 | |
KR102303002B1 (ko) | 의사 블러 합성기를 이용한 사람이 포함된 영상의 디블러링 방법 및 장치 | |
CN114066780B (zh) | 4k内窥镜图像去雾方法、装置、电子设备及存储介质 | |
CN111696034A (zh) | 图像处理方法、装置及电子设备 | |
Niu et al. | Deep robust image deblurring via blur distilling and information comparison in latent space | |
Hong et al. | MARS-GAN: multilevel-feature-learning attention-aware based generative adversarial network for removing surgical smoke | |
CN112508797A (zh) | 用于图像中实时去雾的系统和方法 | |
CN111161189A (zh) | 一种基于细节弥补网络的单幅图像再增强方法 | |
CN115861147A (zh) | 一种内窥镜暗区域增强方法、装置、电子设备及存储介质 | |
Su et al. | Multi-stages de-smoking model based on CycleGAN for surgical de-smoking | |
Sun et al. | Explore unsupervised exposure correction via illumination component divided guidance | |
CN112801912A (zh) | 一种人脸图像复原方法、系统、装置及存储介质 | |
US20240062342A1 (en) | Machine learning-based approaches for synthetic training data generation and image sharpening | |
Ruiz-Fernández et al. | A dcp-based method for improving laparoscopic images | |
Du et al. | End-To-End Underwater Video Enhancement: Dataset and Model | |
Ma et al. | A Smoke Removal Method Based on Combined Data and Modified U-Net for Endoscopic Images | |
CN112950516B (zh) | 图像局部对比度增强的方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |