CN111899176B

CN111899176B - 一种视频图像增强方法

Info

Publication number: CN111899176B
Application number: CN202010761187.2A
Authority: CN
Inventors: 罗雄彪; 万英
Original assignee: Medical Robot Suzhou Co ltd
Current assignee: Medical Robot Suzhou Co ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2022-08-12
Anticipated expiration: 2040-07-31
Also published as: CN111899176A

Abstract

本发明提供一种视频图像增强方法，包括：基于图像灰度变换对医疗视频图像训练集扩充增强，得到深度学习所需的视频图像数据训练集；对输入的测试图像进行图像降采样处理，得到低分辨率图像；基于深度学习卷积神经网络对所述低分辨率图像进行照射分量预测，得到二维的低分辨率图像照射分量图；基于双边网格与引导滤波对所述低分辨率图像照射分量图进行全分辨率图像照度分量预测，得到全分辨率图像照度分量；对全分辨率图像照度分量进行图像增强，得到增强后的图像。本发明解决了现有技术中的光照不足与不均匀性问题和基于深度学习的方法对数据的需求量大，同时图像视频数据不足的问题，提升了视频图像质量，实现了视频图像实时增强处理。

Description

一种视频图像增强方法

技术领域

本发明属于图像处理领域，特别涉及一种视频图像增强方法。

背景技术

现有的微创介入手术过程中，经常出现视频图像光线不足与光照不均匀的情况，造成手术风险急剧增加。因此，如何增强视频图像的清晰度具有重要的临床应用价值。由于现有的医疗手术视频技术中数据采集不足，模型运算速度不够，模型泛化能力不强等现象，使得现有的深度学习图像增强方法较少被用于处理手术图像增强问题。同时，传统的图像增强方法存在着只能用于处理某些特定的问题，容易产生噪音等现象的问题。

随着深度学习的发展，基于深度学习的图像增强方法，可提取图像深层信息，根据深层信息预测增强后的图像，取得了很好的效果。但是深度学习图像增强方法依赖于大量训练数据集、损失函数的选择，对设备运算能力要求过高，难以达到实时处理效果。这些问题导致基于深度学习的视频图像增强方法的设计与实施尤为困难。

发明内容

针对上述问题，本发明提供一种视频图像增强方法。

本发明的视频图像增强方法，包括步骤：

一、基于图像灰度变换对医疗视频图像训练集扩充增强，得到深度学习所需的视频图像数据训练集；

二、对输入的测试图像进行图像降采样处理，得到低分辨率图像；

三、基于深度学习卷积神经网络对所述低分辨率图像进行照射分量预测，得到二维的低分辨率图像照射分量图；

四、基于双边网格与引导滤波对所述低分辨率图像照射分量图进行全分辨率图像照度分量预测，得到全分辨率图像照度分量；

五、对所述全分辨率图像照度分量基于多尺度Retinex模型进行图像增强，得到增强后的图像。

进一步，在所述步骤五后执行步骤：

六、基于深度学习卷积神经网络对所述增强后的图像进行图像增强效果判别。

进一步，

在所述步骤六中，引入卷积神经网络作为图像增强效果判别器，所述图像增强效果判别器包括块以及全连接层，所述块包括卷积层、激活函数和归一化层；

所述图像增强效果判别器的输入为3通道的彩色图片，所述图像增强效果判别器的输出为一个数值。

进一步，

所述块的数目取为2～100。

进一步，

所述块的数目取为3。

进一步，

利用所述视频图像数据训练集对所述图像增强效果判别器进行训练。

进一步，

对所述图像增强效果判别器进行训练的输入方法为：输入光照不足不均匀的第二视频图像集X后，再输入与所述第二视频图像集X所对应的光照充足均匀的第一视频图像集Y。

进一步，

采用所述输入方法后，在对所述图像增强效果判别器进行训练时，

把所述第二视频图像集X中的图像x变换或映射到所述第一视频图像集Y中的图像G_X(x),x∈X；

利用所述图像增强效果判别器(G_X(x))来判别所述第二视频图像集X中的图像x是否为真实图像。

进一步，

根据卷积神经网络生成器和所述图像增强效果判别器，训练损失函数，

所述损失函数为均方误差函数、结构相似性损失函数、平滑损失函数、梯度损失函数、平均绝对误差函数以及下面的混合损失函数之一，

混合损失函数＝权重系数1×梯度损失函数+权重系数2×结构相似性损失函数+权重系数3×平均绝对误差函数。

进一步，

采用所述图像增强效果判别器，对所述步骤五中得到的增强后的图像进行判别，

若所述图像增强效果判别器输出的损失数值太大，则重复所述步骤三、步骤四、步骤五、步骤六；

若所述图像增强效果判别器输出的损失数值收敛至预期值，则所述步骤五中得到的增强后的图像为图像增强的最终结果。

进一步，

所述步骤一包括：

利用所述图像灰度变换方法对光照充足均匀的第一视频图像进行空间变换，生成对应的光照不足不均匀的第二视频图像，从而形成由所述第一视频图像和第二视频图像构成的视频图像对；

通过对所述视频图像进行数据扩充操作，形成深度学习所需的所述视频图像数据训练集，所述数据扩充操作包括图像旋转、水平移动、缩放。

进一步，

所述图像灰度变换是线性变换、分段线性变换、或非线性变换；

进行所述非线性变换所需非线性变换函数为幂函数、对数函数、指数函数、阈值函数、多值量化函数、或窗口函数；

所述第一视频图像取100～10000张；每一张所述第二视频图像进行所述图像旋转的角度φ满足0<φ<π；每一张所述第二视频图像进行所述水平移动的大小L取为5～300像素；每一张所述第二视频图像进行所述缩放的比例α可取1:0.1～1:5。

进一步，

所述第一视频图像取1000张；

每一张所述第二视频图像进行所述图像旋转的角度φ为π/6或π/3；

每一张所述第二视频图像进行所述水平移动的大小L为20～30像素；

每一张所述第二视频图像进行所述缩放的比例α为1:0.5。

进一步，

所述步骤三包括：

设置所述深度学习卷积神经网络的卷积核大小与步长，对所述低分辨率图像进行多层卷积层操作，提取所述低分辨率图像的低层次特征；

在提取出的低层次特征中，进行多层卷积层叠加，提取出所述低分辨率图像的局部特征信息，得到低层次局部特征图，同时在所述多层卷积层的各层中采用不同尺寸大小的卷积核，以提取不同尺寸的局部语义信息，对于每个所述卷积核的均保持相同的设定步长；

对所述低层次特征进行所述多层卷积层和多层全连接层叠加，以组成低层次全局特征图，所述多层卷积层用于在所述低层特次征的基础上进一步提取信息和增加非线性，所述多层全连接层用于将所述低层次全局特征图包含的信息整合为向量，所述向量的通道数和所述低层次局部特征的通道数相等；

将所述低层次局部特征图和低层次全局特征图沿深度维度拼接后，通过点卷积操作将低层次局部特征和低层次全局特征融合，生成新的特征图，并且调整所述新的特征图的空间尺寸，再通过激活函数进行激活，形成新的图像照度分量特征图，再对所述新的图像照度分量图进行线性叠加操作，以获得二维的低分辨率图像照射分量图。

进一步，

所述低层次特征为颜色、像素值、光照度；

所述卷积核大小为1×1，2×2，3×3，或5×5；

所述步长为1～10；

所述低层次局部特征图大小为n×m像素，3≤n，m≤50；

所述多层卷积层和多层全连接层中卷积层和全连接层均取16～52层。

进一步，

所述步长为2～5；

所述低层次局部特征图大小为9×9像素；

所述多层卷积层和多层全连接层中卷积层和全连接层均取为16层。

进一步，

所述步骤四包括：

基于所述二维的低分辨率图像照射分量图，构建三维双边网格；

利用引导滤波生成引导图，在所述引导图的监督下，对所述三维双边网格进行上采样，同时进行切片操作，以获得全分辨率图像照度分量。

进一步，

所述步骤五包括：

设所述全分辨率图像照度分量为L，所述视频图像为I，所述增强后的图像为R，引入多尺度Retinex模型，对所述全分辨率图像照度分量L进行反解除即R＝I/L，从而得到所述增强后的图像。

本发明能够大幅度增强视频图像清晰度，解决了现有技术中的图像的光照不足与不均匀的问题和现有的基于深度学习的方法对数据的需求量大导致的图像视频数据不足的问题，提升了视频图像质量，实现了视频图像实时增强处理；利用图像灰度变换生成训练图像对，实施数据增强与扩充，应用于生成对抗网络实现非配对学习，解决了数据集不足的问题，避免因免去了人工修饰图像而形成的光线不足与光照不均匀性图像；针对模型运算速度不够的问题，应用双边网格，将图像下采样，进行神经网络计算后，再通过双边网格上采样，极大提升了模型的运算速度；针对模型泛化能力不强的问题，应用平滑损失和结构相似性损失，提高模型泛化能力，增强输出图像的对比度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的微创介入视频图像增强方法步骤流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于深度学习的微创介入视频图像增强方法，参考图1，本发明主要包括以下几个步骤：

一.基于图像灰度变换的医疗视频图像训练集扩充增强

针对现有的深度学习中曝光不足(即光照不足和光照不均匀)图像和对应的曝光充足(即光照充足和光照均匀)图像训练集不足的问题，本发明基于图像灰度变换实现光照不足不均匀图像的生成，包括：

A、利用图像灰度变换方法对光照充足均匀的第一视频图像进行空间变换，生成其所对应的光照不足不均匀的第二视频图像，从而形成由光照充足均匀的第一视频图像和光照不足不均匀的第二视频图像构成的深度学习所需的视频图像对。

B、通过对光照不足不均匀的第二视频图像和光照充足均匀的第一视频图像进行图像旋转、水平移动、缩放等数据扩充操作，最终形成深度学习所需的视频图像数据训练集。

其中，图像灰度变换可以是线性变换、分段线性变换、非线性变换(非线性变换函数有幂函数、对数函数、指数函数、阈值函数、多值量化函数、窗口函数等)；所述第一视频图像可取100～10000张，优选取1000张；每一张所述第二视频图像进行所述图像旋转的角度

满足

优选为π/6或π/3；每一张所述第二视频图像进行所述水平移动的大小L取为5～300像素，L优选为20～30像素；每一张所述第二视频图像进行所述缩放的比例α可取1:0.1～1:5，α优选1:0.5。一般视频图像尺寸的大小为512×384像素。

二.输入图像，即输入测试图像(即需要增强恢复的图像，如微创介入手术的手术视频图像)，并对所述图像降采样(Downsampling)

对于测试图像，进行图像降采样处理，可获得低分辨率的测试图像，从而提升后续的图像处理效率。图像降采样(或下采样)方法具体可采用双线性插值下采样、双三次插值(或双立方卷积插值)下采样等方法。

三.基于深度学习卷积神经网络的低分辨率图像照射分量预测

包括步骤：

C、对于低分辨率的测试图像采用深度学习卷积神经网络进行低层次特征(如颜色、像素值、光照度)提取：即通过设置所述深度学习卷积神经网络的卷积核大小与步长，进行多层卷积操作，提取低层次特征，进一步降低数据空间的解析度，所述卷积核大小可为1×1，2×2，3×3，5×5，所述步长可取1～10，优选为2～5。

D、提取低层次局部特征：在提取出的低层次特征中，进行多层卷积层叠加，提取出所述低分辨率图像的局部特征信息，得到低层次局部特征图。同时在多层卷积层的各卷积层中分别采用不同尺寸大小的卷积核，以提取不同尺寸的局部语义信息；保持每个卷积核的设定步长，对于每个卷积核均保持相同的设定步长，其中，所述局部语义信息包括边缘信息，目标轮廓，纹理信息等信息。其中，所述局部特征图的大小为n×m像素(长、宽均为像素)，3≤n，m≤50，优选为9×9像素。

E、提取低层次全局特征：低层次全局特征也是在低层次特征的基础上提取，由多层卷积层和多层全连接层叠加组成低层次全局特征图。多层卷积层被用来在低层特次征的基础上进一步提取信息和增加非线性，多层全连接层被用来将低层次全局特征图包含的信息整合为向量，所述向量的通道数和所述低层次局部特征的通道数相等。其中，多层卷积层和多层全连接层中卷积层和全连接层均可取16～52层，均优选取为16层。

F、特征融合与线性预测

为了整合全局特征和局部特征，将低层次局部特征图和低层次全局特征图沿深度维度拼接后，通过点卷积操作将低层次局部特征和低层次全局特征融合，生成新的特征图，并且调整特征图的空间尺寸至所需尺寸或预设尺寸，再通过激活函数进行激活，形成新的图像照度分量特征图。对该新的图像照度分量图进行线性叠加操作，以获得二维的低分辨率图像照射分量图。

其中，所述深度学习卷积神经网络可以是U-Net神经网络,区域卷积神经网络(Region-CNN)、生成对抗网络(GAN)、强化学习神经网络(RL-CNN)、循环神经网络(RNN,Recurrent Neural Networks)、VGG网络等。

四.基于双边网格与引导滤波的全分辨率图像照度分量预测

基于所述二维的低分辨率图像照射分量图，构建三维双边网格，然后利用引导滤波生成引导图，在引导图的监督下，对三维双边网格进行上采样，同时进行切片(slicing)操作，最后获得全分辨率图像照度分量。其中，对三维双边网格进行上采样，是为了得到分辨率等于输入图像分辨率的全分辨率图像照度分量图。在所述二维的低分辨率图像照射分量图上，构建三维双边网格，则有利于大幅度降低图像处理时间。

五.采用多尺度Retinex模型图像增强

根据Retinex理论，数字图像I是由图像照度分量L与图像反射分量R组成：I＝L*R，图像反射分量就是增强的数字图像。以步骤四求得的全分辨率图像照度分量作为图像照度分量L，以输入测试图像作为数字图像I，则图像反射分量R即增强后的图像R＝I/L。

六.基于深度学习卷积神经网络的图像增强效果判别

图像增强效果需要进行自动判别，若图像增强效果未达到预期效果，则将增强后的图像反馈给步骤三重新进行全分辨率图像照度分量预测，再继续进行增强优化，进一步提升图像增强效果，包括步骤：

G、引入卷积神经网络作为图像增强效果判别器。图像增强效果判别器由多个卷积层、激活函数和归一化层组成的块以及最后的全连接层组成，输入为3通道的彩色图片，输出为一个数值，所述多个卷积层、激活函数和归一化层组成的块的数目根据具体工作情景可取2～100，优选取3。在对图像增强效果判别器训练时，输入具有某些特征(曝光充分与均匀、高对比度)的视频图像，通过域迁移学习，学习这种图像所具有的深层特征。该判别器测试输出为一个数值，以判别实际增强后的图像和给定的预期真实增强后的图像之间的差异(损失)。所述深层特征包括图像的纹理、边缘、轮廓等特征。

H、利用步骤一中得到的扩充后的视频图像数据训练集，对图像增强效果判别器进行训练。训练时的输入方法为：输入光照不足不均匀的第二视频图像集(记为源域图像，source image)，再输入与光照不足不均匀的第二视频图像集不同的光照充分均匀的第一视频图像Y(记为目标域图像，target image)。在训练过程中，首先把源域图像集X中的图像x变换(warp)或映射到目标域图像集Y中的图像G_X(x),x∈X(这个映射过程F对应着神经网络中的生成器)，然后再利用所述图像增强效果判别器D_Y(G_x(x))来判别所述第二视频图像集X中的图像x是否为真实(曝光充分均匀)图像。

I、利用卷积神经网络生成器和所述图像增强效果判别器，训练损失函数。可以定义单一损失函数：均方误差、结构相似性损失、平滑损失、梯度损失、平均绝对误差等，基于这些单个损失函数的各自优缺点，本发明定义一个新的混合损失函数：

混合损失函数＝权重系数1×梯度损失+权重系数2×结构相似性损失+权重系数3×平均绝对误差，这种混合损失函数，能够提高图像增强模型泛化能力及增强后图像的对比度。

J、混合损失函数计算所得损失数值为图像增强效果

如果图像增强效果不佳，也就是说所述图像增强效果判别器输出的损失数值太大，就重复步骤三、四、五，六对增强效果进行提升优化，直到所述图像增强效果判别器输出的损失数值收敛至预期值时，输出此时得到的增强图像为最终结果。

本发明的微创介入视频图像增强方法引入深度学习卷积神经网络、深度学习卷积神经网络图像增强效果判别器、双边网格与引导滤波方法、混合损失函数，能够解决视频图像的光照不足与不均匀性问题，大幅度提高图像清晰度与质量。具体而言，本发明针对视频数据集不足、尤其是医疗手术视频数据集不足的问题，利用图像灰度变换生成训练图像对，实现视频图像实时增强与扩充，应用于生成对抗网络实现非配对学习，解决了数据集不足的问题，避免了人工修饰图像而形成的光线不足与光照不均匀的图像；针对模型运算速度不够的问题，应用双边网格，将图像下采样，进行神经网络计算后，再通过双边网格上采样，极大提升了模型的运算速度；针对模型泛化能力不强的问题，应用平滑损失和结构相似性损失，提高模型泛化能力，增强输出图像的对比度。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频图像增强方法，其特征在于，包括步骤：

三、基于深度学习卷积神经网络对所述低分辨率图像进行照射分量预测，得到二维的低分辨率图像照射分量图，包括：

提取所述低分辨率图像的低层次特征；

在提取出的所述低层次特征中，进行多层卷积层叠加，提取出所述低分辨率图像的局部特征信息，得到低层次局部特征图；

对所述低层次特征进行所述多层卷积层和多层全连接层叠加，以组成低层次全局特征图；

将所述低层次局部特征图和低层次全局特征图沿深度维度拼接后，生成新的特征图，以获得二维的低分辨率图像照射分量图；

四、基于三维双边网格与引导滤波对所述低分辨率图像照射分量图进行全分辨率图像照度分量预测，得到全分辨率图像照度分量，包括：

基于所述二维的低分辨率图像照射分量图，构建三维双边网格，利用引导滤波生成引导图，在所述引导图的监督下，对所述三维双边网格进行上采样，同时进行切片操作，以获得全分辨率图像照度分量；

2.根据权利要求1所述的一种视频图像增强方法，其特征在于，在步骤五后执行步骤：

3.根据权利要求2所述的一种视频图像增强方法，其特征在于，

在步骤六中，引入卷积神经网络作为图像增强效果判别器，所述图像增强效果判别器包括块以及全连接层，所述块包括卷积层、激活函数和归一化层；

4.根据权利要求3所述的一种视频图像增强方法，其特征在于，

所述块的数目取为2~100。

5.根据权利要求3所述的一种视频图像增强方法，其特征在于，

所述块的数目取为3。

6.根据权利要求3-5任一所述的一种视频图像增强方法，其特征在于，

7.根据权利要求6所述的一种视频图像增强方法，其特征在于，

对所述图像增强效果判别器进行训练的输入方法为：输入光照不足不均匀的第二视频图像集

后，再输入与所述第二视频图像集

所对应的光照充足均匀的第一视频图像集

。

8.根据权利要求7所述的一种视频图像增强方法，其特征在于，

把所述第二视频图像集

中的图像

变换或映射到所述第一视频图像集Y中的图像

；

利用所述图像增强效果判别器来判别所述第二视频图像集

中的图像x是否为真实图像。

9.根据权利要求8所述的一种视频图像增强方法，其特征在于，

混合损失函数=权重系数1

梯度损失函数+权重系数2

结构相似性损失函数+权重系数3

平均绝对误差函数。

10.根据权利要求9所述的一种视频图像增强方法，其特征在于，

若所述图像增强效果判别器输出的损失数值太大，则重复步骤三、步骤四、步骤五、步骤六；

11.根据权利要求7-10任一所述的一种视频图像增强方法，其特征在于，

步骤一包括：

12.根据权利要求11所述的一种视频图像增强方法，其特征在于，

所述第一视频图像取100~10000张；每一张所述第二视频图像进行所述图像旋转的角度

满足

；每一张所述第二视频图像进行所述水平移动的大小L取为5~300像素；每一张所述第二视频图像进行所述缩放的比例

可取1:0.1~1:5。

13.根据权利要求11所述的一种视频图像增强方法，其特征在于，

所述第一视频图像取1000张；

每一张所述第二视频图像进行所述图像旋转的角度

为

/6或

/3；

每一张所述第二视频图像进行所述水平移动的大小L为20~30像素；

每一张所述第二视频图像进行所述缩放的比例

为1:0.5。

14.根据权利要求12或13所述的一种视频图像增强方法，其特征在于，

步骤三包括：

在提取出的所述低层次特征中，进行多层卷积层叠加，提取出所述低分辨率图像的局部特征信息，得到低层次局部特征图，同时在所述多层卷积层的各层中采用不同尺寸大小的卷积核，以提取不同尺寸的局部语义信息，对于每个所述卷积核的均保持相同的设定步长；

对所述低层次特征进行所述多层卷积层和多层全连接层叠加，以组成低层次全局特征图，所述多层卷积层用于在所述低层次特征的基础上进一步提取信息和增加非线性，所述多层全连接层用于将所述低层次全局特征图包含的信息整合为向量，所述向量的通道数和所述低层次局部特征的通道数相等；

15.根据权利要求14所述的一种视频图像增强方法，其特征在于，

所述低层次特征为颜色、像素值、光照度；

所述卷积核大小为1

1，2

2，3

3，或5

5；

所述步长为1~10；

所述低层次局部特征图大小为

像素，

；

所述多层卷积层和多层全连接层中卷积层和全连接层均取16~52层。

16.根据权利要求15所述的一种视频图像增强方法，其特征在于，

所述步长为2~5；

所述低层次局部特征图大小为9

9像素；

17.根据权利要求1所述的一种视频图像增强方法，其特征在于，

步骤五包括：

设所述全分辨率图像照度分量为L，所述测试图像为I，所述增强后的图像为R，引入多尺度Retinex模型，对所述全分辨率图像照度分量L进行反解除即R=I/L，从而得到所述增强后的图像。