CN115115523B

CN115115523B - 一种融合CNN和Transformer的医学图像深度信息提取方法

Info

Publication number: CN115115523B
Application number: CN202211029560.0A
Authority: CN
Inventors: 苏进; 张弓; 李学俊; 王华彬
Original assignee: China Canada Institute Of Health Engineering Hefei Co ltd
Current assignee: China Canada Institute Of Health Engineering Hefei Co ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-11-25
Anticipated expiration: 2042-08-26
Also published as: CN115115523A

Abstract

本发明公开了一种融合CNN和Transformer的医学图像深度信息提取方法，属于医学图像处理技术领域。本发明包括：一、获取高分辨率和低分辨率的医学图像作训练集和测试集；二、将所有图像转化成张量，并经一层卷积提取浅层特征，随后分别输入CNN和Transformer模块；三、在CNN模块中采用球形敏感哈希的方法将所有的张量投射到一个球面中，然后计算相似性，按照顺序重新排列张量；四、在Transformer模块中，将张量放入深度特征提取模块，学习图像之间的长期依赖，得到相关性的特征关系；五、将CNN和Transformer模块进行融合，提高模型性能。本发明可以更好地重建医学图像的细节和纹理。

Description

一种融合CNN和Transformer的医学图像深度信息提取方法

技术领域

本发明属于医学图像处理技术领域，更具体地说，涉及一种融合CNN和Transformer的医学图像深度信息提取方法。

背景技术

近年来，深度学习在图像处理领域的应用取得了显著的研究成果。在许多任务中，通过深度学习得到的特征被证明比传统方法构造的特征具有更强的表示能力。董超等人于2014年收录于《计算机视觉和模式识别》的文章“使用深度卷积网络的图像超分辨率”，提出了利用卷积神经网络（SRCNN）的超分辨率算法，并将其应用于图像超分辨率重建领域。该网络结构简单，超分辨率重建效果好，但卷积核较大，上采样采用传统的双三次插值；这些结构特征极大地影响了网络的运行速度。

随后，王小龙等人于2018年收录于《计算机视觉和模式识别》的文章“非局部神经网络”，提出了一种基于NLA的全局注意力方式进行相似性学习，因为图像不同小块之间具有一定的相似性所以可以将图像的恢复效果大大提高，但是这种方法同时也融合了大量的噪声和无关的特征，这会使得算法的计算难度增加也会影响一部分图像的恢复。

宜群美等人于2021年收录于《计算机视觉和模式识别》的文章“具有非局部稀疏注意的图像超分辨率”，提出了一种局部敏感注意力方式（NLSN），这种方式使得模型只关注最相关的区域，而忽略了很多无关的因素，这无疑是一种质的飞跃，将图像效果又恢复到了一个更高层次。但是这种方式也存在局限性，其只关注了局部特征而忽略了很多的全局特征，这导致图像处理效果可能会变差。

经检索，中国专利公开号CN113887487A，公布日2022年1月4日，公开了一种基于CNN-Transformer的面部表情识别方法及装置；该申请案包括对输入图片进行预处理，获得矫正后的人脸图片；计算人脸图像的LBP特征，并作为输入送入预先构建的CNN网络获得面部的局部特征；将人脸图像均匀划分之后送入Transformer获得面部的全局特征；对全局特征和局部特征进行信息融合，获得融合特征；通过融合特征来进行情感识别，该申请案通过特征融合模块，可自主学习局部特征和全局特征对整体的影响权重，提高了不同特征之间的互补性。但该申请案是针对面部表情进行识别的方案，虽然也涉及到了CNN和Transformer的融合，但鉴于CNN和Transformer是一个很大的概念，关键还是在于内部的搭建，因而该申请案并不适用于医学图像的特征信息提取。

发明内容

1.发明要解决的技术问题

在医学成像过程中，由于受到硬件设备和技术的限制，生成的图像往往是不清晰的，分辨率低且边缘部分比较模糊，本发明的目的在于解决上述现有技术存在的缺陷，提出了一种融合CNN和Transformer的医学图像深度信息提取方法；本发明在NLSN基础上，进一步提出一种融合Transformer和CNN方法去解决医学图像超分辨率问题的网络(EfficientNon-Local Transformer for Medical Image Super-Resolution ENLT)，可以更好地重建图像的细节和纹理。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的一种融合CNN和Transformer的医学图像深度信息提取方法，包括如下步骤：

步骤一、获取高分辨率和低分辨率的医学图像作为训练集和测试集；

步骤二、将所有的图像转化成张量，并且经过一层卷积来提取浅层特征，随后分别输入到CNN和Transformer模块中；

步骤三、在CNN模块中首先采用球形敏感哈希（LSH）的方法将所有的张量投射到一个球面中，然后计算相似性，按照顺序重新排列张量；

步骤四、在Transformer模块中，将张量放入深度特征提取模块，该模块可以学习图像之间的长期依赖，从而得到相关性的特征关系；

步骤五、将CNN和Transformer模块进行融合，以提高模型的性能。

更进一步地，步骤一中，为了充分利用数据集，需使用Warwick和DIV2K训练集图像并且进行数据扩展。使用切割、翻转和旋转两种方法来增加数据。此外，每个图像分别旋转90°，180°和270°。首先对Warwick和DIV2K数据集进行双三次差值，得到LR图像。然后将LR训练图像分割成一组48×48的块，相应的将HR图像块切出来对应的96×96的块。然后将其放入3×3的卷积中。

更进一步地，步骤二中，首先将输入图像X转变成张量，通过一层简单的卷积核大小为3×3 的卷积神经网络来提取特征。

更进一步地，步骤三中，首先给定一个查询位置i，然后将输入X重新塑造成一维特征，所以它的输出y _i表示为：

其中，x _i，x _j，x _t是输入图像X上位置 i、j 和 t的像素级特征，f(., .)计算不同特征之间相似性，g(.) 是特征变换函数。

然后通过稀疏表示将向量限制在一个非零常数K内，将所有的张量进行随机扩大，从而让模型可以更好的聚合全局的特征。最终表达式如下所示：

其中，α是非零元素，k是常数，β是提高特征聚合能力的随机因子。

然后，采用球形敏感哈希(LSH) 来形成注意力桶。根据角距离将嵌入空间划分为具有相似特征的桶。然后通过哈希函数将每个张量投影到高维空间中，并且进行随机旋转。随后选择最近的多面体顶点作为其哈希码。因此，如果两个向量的角距离越小，它们落在同一个哈希桶中的概率越大，即定义的注意力桶。然后根据角距离将所有张量投影到球体上。公式如下所示，其中A表示随机旋转矩阵。

在投影完成之后，将所有的张量划分为128的桶，每个桶拥有144的块计算相似性，随后进行重新排列插入回原来的张量中。

更进一步地，步骤四中，通过Transformer方法提取更深层次的特征，公式如下所示：

其中，F表示利用transformer方法提取后的特征值，H _D是深度特征提取模块，包含K 个残差 Swin Transformer 块 (RSTB块)和一个 3×3 卷积层。每个RSTB块包括 SwinTransformer 层、一个卷积层和一个残差连接。

3.有益效果

采用本发明提供的技术方案，与已有的公知技术相比，具有如下显著效果：

针对医学图像特征信息之间缺乏相关性的问题，本发明提供了一种融合CNN和Transformer的医学图像深度信息提取方法，该方法的网络结构首先将输入图像X转变成一个张量，然后进入一个卷积核大小为3×3的卷积中，随后进入CNN模块和Transformer模块，CNN模块中运用批量矩阵乘法进行特征的投影和计算，最后重新排序得到一个最终的结果，然后Transformer模块利用深层特征提取全局特征，以便处理更多的纹理信息，最后将二者进行结合得到最终的特征图，可以更好地重建图像的细节和纹理。

附图说明

图1为用于医学图像的ENLT网络结构图；

图2为医学图像处理的效果图；

图3为自然图像处理的效果图；

图4为本发明的步骤流程图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

实施例1

针对医学图像特征信息之间缺乏相关性的问题，本实施例提供了一种融合CNN和Transformer的医学图像深度信息提取方法。结合图4，本实施例包括如下步骤：

为了充分利用数据集，本实施例使用Warwick和DIV2K训练集图像，并且进行数据扩展。具体为使用切割、翻转和旋转的方法来增加数据。此外，本实施例将每个图像分别旋转90°，180°和270°。首先对Warwick和DIV2K数据集进行双三次差值处理，得到LR图像。然后将LR训练图像分割成一组48×48的块，相应的将高分辨率HR图像块切出来对应的96×96的块。

步骤二、将输入图像X转变成张量，通过一层简单的卷积核大小为3×3 的卷积神经网络来提取浅层特征，表示如下：

随后分别输入到CNN和Transformer模块中。

首先给定一个查询位置i，然后为了方便表示将输入X重新塑造成一维特征，所以输出y _i表示为：

然后通过稀疏表示将向量限制在一个非零常数K内，这一操作可以大大减少运算量，并且为了融合更多的特征，将所有的张量进行随机扩大，从而让模型可以更好的聚合全局的特征。最终表达式如下所示：

本实施例期望的注意力不仅应该保持稀疏，还应该包含更多相关元素。因此，本实施例采用球形敏感哈希(LSH) 来形成注意力桶。本实施例根据角距离将嵌入空间划分为具有相似特征的桶。然后通过哈希函数将每个张量投影到高维空间中，并且进行随机旋转。本实施例选择最近的多面体顶点作为其哈希码。因此，如果两个向量的角距离越小，它们落在同一个哈希桶中的概率越大，即定义的注意力桶。然后根据角距离将所有张量投影到球体上，公式如下所示：

其中，A表示随机旋转矩阵。

在投影完成之后本实施例将所有的张量划分为128的桶，每个桶拥有144的块计算相似性，随后进行重新排列插入回原来的张量中。

在实际应用中LSH是通过批量矩阵乘法来实现的，这样可以让每个张量事先知道加入哪一个桶中，并且通过忽略很多的不相关因素和噪声来实现高效率和鲁棒性。

步骤四、在Transformer模块中，本实施例将张量放入深度特征提取模块，这个模块可以学习图像之间的长期依赖，从而得到相关性的特征关系。

通过Transformer方法提取更深层次的特征，公式如下所示：

其中，F表示利用transformer方法提取后的特征值，H _D是深度特征提取模块，它包含 K 个残差 Swin Transformer 块 (RSTB)和一个 3×3 卷积层。每个 RSTB 包括 SwinTransformer 层、一个卷积层和一个残差连接。

如图1所示，为本实施例提出的融合Transformer和CNN方法解决医学图像超分辨率的网络，用图像质量评价指标对网络进行评价。

表1 图像质量评价指标值

如表1所示，当放大因子为2时，ENLT算法得到的平均PSNR和SSIM值都有很大的改善。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种融合CNN和Transformer的医学图像深度信息提取方法，其特征在于，包括如下步骤：

步骤二、将所有的输入图像X转化成张量，并且经过一层卷积核大小为3×3 的卷积神经网络来提取浅层特征，随后分别输入到CNN和Transformer模块中；

步骤三、在CNN模块中，首先采用球形敏感哈希的方法将所有的张量投射到一个球面中，然后计算相似性，按照顺序重新排列张量；具体的，首先给定一个查询位置i，然后将输入X重新塑造成一维特征，输出y _i表示为：

其中，x _i，x _j，x _t是输入图像X上位置 i、j 和 t的像素级特征，f(., .)计算不同特征之间相似性，g(.) 是特征变换函数；

然后，通过稀疏表示将向量限制在一个非零常数K内；

采用球形敏感哈希形成注意力桶，根据角距离将嵌入空间划分为具有相似特征的桶，然后通过哈希函数将每个张量投影到高维空间中，并且进行随机旋转；随后选择最近的多面体顶点作为其哈希码，两个向量的角距离越小落在同一个哈希桶中的概率越大，然后根据角距离将所有张量投影到球体上；

步骤四、在Transformer模块中，将张量放入深度特征提取模块，该深度特征提取模块学习图像之间的长期依赖，得到相关性的特征关系；

步骤五、将CNN和Transformer模块进行融合，获得最终模型，并利用该模型处理医学图像。

2.根据权利要求1所述的一种融合CNN和Transformer的医学图像深度信息提取方法，其特征在于：在投影完成之后将所有的张量划分为128的桶，每个桶拥有144的块计算相似性，随后进行重新排列插入回原来的张量中。

3.根据权利要求2所述的一种融合CNN和Transformer的医学图像深度信息提取方法，其特征在于：步骤四中，所述的深度特征提取模块包括K 个残差 Swin Transformer 块和一个 3×3 卷积层，每个Swin Transformer 块包括 Swin Transformer 层、一个卷积层和一个残差连接。