CN115731189B

CN115731189B - 肠镜图像病变识别方法、装置、电子设备及存储介质

Info

Publication number: CN115731189B
Application number: CN202211465954.0A
Authority: CN
Inventors: 田亮; 赵昱森; 赵衍博; 刘京; 陈栋; 郭聪
Original assignee: Hebei Normal University
Current assignee: Hebei Normal University
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-06-23
Anticipated expiration: 2042-11-22
Also published as: CN115731189A

Abstract

本申请适于医疗图像分析技术领域。本申请提供一种肠镜图像病变识别方法、装置、电子设备及存储介质。该方法包括：采用DINO算法对初始ViT网络进行预训练，得到训练后的ViT网络；通过肠镜检测器获取原始图像，基于训练后的ViT网络对原始图像进行特征提取，得到注意力图；将注意力图和原始图像进行特征融合，得到待识别图像；基于RetinaNet网络对待识别图像进行息肉和憩室识别，根据识别结果在原始图像上进行分类标注和目标框标注，以使显示器显示带有分类标注和目标框标注的原始图像。本申请能够准确识别和标注肠镜检测器采集的原始图像中的息肉和/或憩室，进而为医生的正确诊断提供有效帮助。

Description

肠镜图像病变识别方法、装置、电子设备及存储介质

技术领域

本申请涉及医疗图像分析技术领域，具体涉及一种肠镜图像病变识别方法、装置、电子设备及存储介质。

背景技术

在肠镜检查中，例如对息肉和憩室等病变的检查中，由于患者体内积液、肠道异物、操作软管行进时抖动等原因，医生看到的实时肠镜画面会出现遮挡、模糊等情况，可能造成医生的错误诊断，以及受医生的经验、疲劳度等因素的影响，也会导致对息肉和憩室的误诊、漏诊等情况发生。

为提高诊断的准确率，减少误诊和漏诊的情况，现有方法基于深度学习对肠镜检测器检测到的实时图像进行识别，以辅助医生进行正确诊断。然而现有的基于深度学习的识别方法通常需要大量的标注数据，而医学领域数据标注成本高，能够用于深度学习训练的标注数据较少，训练效果差，且现有识别方法通常仅针对息肉，而缺少对憩室的识别，上述原因造成现有识别方法不能准确识别和标注实时图像中的息肉和/或憩室，进而无法对医生的正确诊断提供有效帮助。

发明内容

有鉴于此，本申请实施例提供了一种肠镜图像病变识别方法、装置、电子设备及存储介质，以解决现有的识别方法不能准确识别和标注实时图像中的息肉和/或憩室，进而无法对医生的正确诊断提供有效帮助的技术问题。

第一方面，本申请实施例提供了一种肠镜图像病变识别方法，包括：采用DINO算法对初始ViT网络进行预训练，得到训练后的ViT网络；通过肠镜检测器获取原始图像，基于训练后的ViT网络对原始图像进行特征提取，得到注意力图；将注意力图和原始图像进行特征融合，得到待识别图像；基于RetinaNet网络对待识别图像进行息肉和憩室识别，根据识别结果在原始图像上进行分类标注和目标框标注，以使显示器显示带有分类标注和目标框标注的原始图像。

在第一方面的一种可能的实施方式中，基于训练后的ViT网络对原始图像进行特征提取，得到注意力图，包括：对原始图像进行图像分块处理，得到维度为1的tokenembedding序列；基于训练后的ViT网络对token embedding序列进行多头注意力计算，得到多个子注意力图；根据预设指示信息确定多个子注意力图中的预设数量的候选子注意力图；对预设数量的候选子注意力图进行拼接处理，得到注意力图。

在第一方面的一种可能的实施方式中，将注意力图和原始图像进行特征融合，得到待识别图像，包括：将注意力图对应的矩阵和原始图像对应的矩阵进行对位相加，得到待识别图像。

在第一方面的一种可能的实施方式中，RetinaNet网络包括骨干网络、特征金字塔网络和预测头；基于RetinaNet网络对待识别图像进行息肉和憩室识别，包括：基于骨干网络对待识别图像进行多尺度特征提取，得到多尺度特征；基于特征金字塔网络对多尺度特征进行特征融合，得到融合后的特征；基于预测头，根据融合后的特征对待识别图像进行息肉和憩室识别，得到待识别图像对应的分类标签和目标框的位置与大小。

在第一方面的一种可能的实施方式中，根据识别结果在原始图像上进行分类标注和目标框标注，包括：根据分类标签在原始图像上进行分类标注；根据目标框的位置和大小在原始图像上进行目标框标注。

在第一方面的一种可能的实施方式中，初始ViT网络包括同构的student网络和teacher网络；采用DINO算法对初始ViT网络进行预训练，得到训练后的ViT网络，包括：步骤1：对训练集中的训练图片进行数据增强处理，得到第一图片和第二图片；第一图片和第二图片为进行不同数据增强处理后得到的图片；步骤2：将第一图片分别输入student网络和teacher网络，得到第一输出；将第二图片分别输入student网络和teacher网络，得到第二输出；步骤3：根据第一输出和第二输出计算损失值；步骤4：根据损失值更新student网络的网络参数；步骤5：基于更新后的student网络的网络参数和teacher网络的网络参数，采用指数滑动平均法更新teacher网络的网络参数；步骤6：判断网络参数更新后的初始ViT网络是否收敛，若是，则训练结束，将网络参数更新后的teacher网络作为训练后的ViT网络；若否，则将网络参数更新后的初始ViT网络作为新的初始ViT网络，并重复步骤1至步骤6，直至网络参数更新后的新的初始ViT网络收敛。

第二方面，本申请实施例提供了一种肠镜图像病变识别装置，包括：

训练模块，用于采用DINO算法对初始ViT网络进行预训练，得到训练后的ViT网络；

确定模块，用于通过肠镜检测器获取原始图像，基于训练后的ViT网络对原始图像进行特征提取，得到注意力图；

融合模块，用于将注意力图和原始图像进行特征融合，得到待识别图像；

识别模块，用于基于RetinaNet网络对待识别图像进行息肉和憩室识别，根据识别结果在原始图像上进行分类标注和目标框标注，以使显示器显示带有分类标注和目标框标注的原始图像。

在第二方面的一种可能的实施方式中，确定模块，包括：

处理模块，用于通过肠镜检测器获取原始图像，对原始图像进行图像分块处理，得到维度为1的token embedding序列；

计算模块，用于基于训练后的ViT网络对token embedding序列进行多头注意力计算，得到多个子注意力图；

选择模块，用于根据预设指示信息确定多个子注意力图中的预设数量的候选子注意力图；

执行模块，用于对预设数量的候选子注意力图进行拼接处理，得到注意力图。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现如第一方面任一项的肠镜图像病变识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如第一方面任一项的肠镜图像病变识别方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面中任一项的肠镜图像病变识别方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例提供的肠镜图像病变识别方法、装置、电子设备及存储介质，通过采用自监督DINO算法对ViT网络进行预训练，可以使ViT网络在有限的训练集上挖掘更多的特征，使其输出的注意力图可以有效显示病变部位的位置、轮廓等信息，将上述注意力图与肠镜检测器检测到的原始图像相结合后输入RetinaNet网络中进行息肉和憩室的识别，根据识别结果在原始图像上进行分类标注和目标框标注，以使显示器显示带有分类标注和目标框标注的原始图像，能够准确识别和标注肠镜检测器采集的原始图像中的息肉和/或憩室，进而为医生的正确诊断提供有效帮助。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的肠镜图像病变识别方法的流程示意图；

图2是本申请一实施例提供的肠镜图像病变识别装置的结构示意图；

图3是本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面结合具体实施例对本申请进行更清楚的说明。以下实施例将有助于本领域的技术人员进一步理解本申请的作用，但不以任何形式限制本申请。应当指出的是，对本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进。这些都属于本申请的保护范围。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

此外，本申请实施例中提到的“多个”应当被解释为两个或两个以上。

图1是本申请一实施例提供的肠镜图像病变识别方法的流程示意图。如图1所示，本申请实施例中的方法，可以包括：

步骤101、采用DINO算法对初始ViT网络进行预训练，得到训练后的ViT网络。

可选的，DINO算法是一种自监督算法，基于自监督的训练方法可以帮助网络模型在有限的训练集上挖掘更多的特征。

在一种可能的实施方式中，步骤101中，具体可以包括：

S1、对训练集中的训练图片进行数据增强处理，得到第一图片和第二图片。

其中，初始ViT网络包括两个同构的ViT网络，称为student网络和teacher网络。第一图片和第二图片为进行不同数据增强处理后得到的图片。

可选的，随机初始化student网络和teacher网络，获取肠镜图像集，需要注意的是，在对初始ViT网络的预训练过程中，不使用肠镜图像集的标签，即使用无标签的肠镜图像集。将无标签的肠镜图像集分为训练集和验证集，对训练集中的每张训练图片进行两次不同的数据增强处理，分别得到第一图片和第二图片。其中，数据增强处理包括对训练图片的随机翻转、模糊和随机颜色抖动等。

S2、将第一图片分别输入student网络和teacher网络，得到第一输出；将第二图片分别输入student网络和teacher网络，得到第二输出。

示例性的，第一输出和第二输出可以表示为：

s₁，s₂＝gs(x₁)，gs(x₂)

t₁，t₂＝gt(x₁)，gt(x₂)

式中，gs表示student网络，gt表示teacher网络，s₁和s₂分别为第一输出包含的两个输出，t₁和t₂分别为第二输出包含的两个输出，x₁为第一图片，x₂为第二图片。

S3、根据第一输出和第二输出计算损失值。

损失值可以表示为：

式中，loss为损失值，H(t，s)表示损失函数。

可选的，由于DINO算法引入了centering操作和sharpening操作，上述损失函数H(t，s)的具体计算过程可以表示为：

对s进行归一化处理：

对t进行归一化处理：

H(t，s)＝-(t×log(s))

式中，s表示第一输出中的s₁或s₂，t表示第二输出中的t₁或t₂，softmax表示归一化指数函数，用于计算s与t为相同图片的概率，tp_s为第一温度参数，用于在sharpening操作中控制数据分布，避免形成长尾分布或尖峰分布，tp_t为第二温度参数，用于在sharpening操作中控制数据分布，避免形成长尾分布或尖峰分布，D为centering操作的向量，可以采用滑动平均法进行更新。

centering操作的向量D可以由下式更新：

D＝m×D+(1-m)×cat([t₁，t₂]).mean(dim＝0)

式中，cat([t₁，t₂])表示对第二输出中t₁和t₂的拼接处理，mean表示在通道方向取均值，dim＝0表示维度为0，m为滑动平均动量，可以根据需要设置。

S4、根据损失值更新student网络的网络参数。

可选的，根据损失值采用梯度反向传播法更新student网络的网络参数。

S5、基于更新后的student网络的网络参数和teacher网络的网络参数，采用指数滑动平均法更新teacher网络的网络参数。

teacher网络的网络参数可以由下式更新：

gt.params＝n×gt′.params+(1-n)×gs.params

式中，gt.params为更新后的teacher网络的网络参数，gt′.params为teacher网络的网络参数，gs.params为更新后的student网络的网络参数，n为指数滑动平均动量，可以根据需要设置。

S6、判断网络参数更新后的初始ViT网络是否收敛，若是，则训练结束，将网络参数更新后的teacher网络作为训练后的ViT网络；若否，则将网络参数更新后的初始ViT网络作为新的初始ViT网络，并重复S1至S6，直至网络参数更新后的新的初始ViT网络收敛。

可选的，利用验证集判断网络参数更新后的初始ViT网络是否收敛。

步骤102、通过肠镜检测器获取原始图像，基于训练后的ViT网络对原始图像进行特征提取，得到注意力图。

可选的，上述原始图像为通过肠镜检测器获取的实时肠镜图像。

在一种可能的实施方式中，基于训练后的ViT网络对原始图像进行特征提取，得到注意力图，具体可以包括：

步骤1021、对原始图像进行图像分块处理，得到维度为1的token embedding序列。

步骤1022、基于训练后的ViT网络对token embedding序列进行多头注意力计算，得到多个子注意力图。

步骤1023、根据预设信息确定多个子注意力图中的预设数量的候选子注意力图。

步骤1024、对预设数量的候选子注意力图进行拼接处理，得到注意力图。

示例性的，将尺寸大小为H×W×C的原始图像切分为尺寸大小为P×P的图像块，得到

个图像块，其中，H、W和C分别为原始图像的高度、宽度和通道数，P×P表示图像块的维度，N为得到的图像块的个数。通过训练后的ViT网络的patch embedding层将上述N个图像块转换为维度为1的token embedding序列，将token embedding序列与预设位置编码E_pos相加得到原始序列，将上述原始序列输入训练后的ViT网络中的编码器中进行多头注意力计算。

多头注意力计算的具体公式如下：

z′_l＝MSA(LN(z_l-1))+z_l-1

z_l＝MLP(LN(z′_l))+z′_l

式中，MSA表示多头自注意力层，MLP表示多层感知机，LN表示层归一化(LayerNormalization)，z′_l为编码器第l层的多头自注意力层的输出，z_l和z_l-1分别为编码器第l层和第l-1层的多层感知机的输出，其中，原始序列z₀作为编码器第1层的多头自注意力层的输入，l＝1，2，...，L，其中，L为编码器的层数。

多头自注意力层MSA的具体计算公式如下：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)，i＝1，...，h

其中，z_l-1经过Query、Key、Value三个矩阵分别映射为Q、K、V三个张量以参与多头注意力计算，W_i ^Q、W_i ^K、W_i ^V为第i个注意力头的权重矩阵，为可学习参数，

是尺度标度，为Q和K向量的维度，head_i表示第i个注意力头进行的计算，i＝1，...，h，h为注意力头的个数。

可选的，根据上述多头注意力计算的具体公式进行多头注意力计算，直至得到编码器第L层的多层感知机的输出z_L，z_L即为整体注意力图。

对整体注意力图z_L进行拆分处理得到每个注意力头对应的子注意力图，根据预设指示信息确定对病变部位注意力响应大的预设数量的候选子注意力图，通过自注意力机制提取出原始图像中最显著的信息，以基于该原始图像中最显著的信息提高后续对病变部位的识别的准确率。其中，上述预设指示信息用于指示多个注意力头中对病变部位(即对息肉和/或憩室)注意力响应大的预设数量的注意力头，可以由人工根据可视化后的多个子注意力图进行设置。例如，预设指示信息指示多个注意力头中第1、2、3个注意力头的注意力影响大，则将第1、2、3个注意力头对应的子注意力图作为候选子注意力图。

对预设数量的候选子注意力图进行堆叠合并，得到注意力图，可视化后的注意力图可以显示病变部位的位置、轮廓等信息，对下游的识别检测任务有指导意义。

步骤103、将注意力图和原始图像进行特征融合，得到待识别图像。

示例性的，得到的注意力图的尺寸大小和通道数与原始图像相同，将注意力图对应的矩阵和原始图像对应的矩阵进行对位相加，得到待识别图像。

步骤104、基于RetinaNet网络对待识别图像进行息肉和憩室识别，根据识别结果在原始图像上进行分类标注和目标框标注，以使显示器显示带有分类标注和目标框标注的原始图像。

其中，RetinaNet网络为训练后的RetinaNet网络，包括骨干网络、特征金字塔网络(Feature Pyramid Networks，简称FPN)和预测头。

在一种可能的实施方式中，步骤104中，具体可以包括：

S11、基于骨干网络对待识别图像进行多尺度特征提取，得到多尺度特征。

S12、基于特征金字塔网络对多尺度特征进行特征融合，得到融合后的特征。

S13、基于预测头，根据融合后的特征对待识别图像进行息肉和憩室识别，得到待识别图像对应的分类标签和目标框的位置与大小。

S14、根据分类标签在原始图像上进行分类标注。

S15、根据目标框的位置和大小在原始图像上进行目标框标注，以使显示器显示带有分类标注和目标框标注的原始图像。

可选的，骨干网络使用ResNet-50网络，预测头包括分类模块和目标框回归模块，其中，分类模块用于根据融合后的特征对待识别图像进行息肉和憩室的识别，并输出对应的分类标签，目标框回归模块用于确定识别到的息肉和/或憩室的位置和大小，即确定目标框的位置和大小。

示例性的，基于目标框的位置和大小在原始图像上进行目标框标注，基于分类标签在对应的目标框上进行分类标注，以使显示器显示带有分类标注和目标框标注的原始图像。

需要说明的是，当分类模块未识别到待识别图像中包括息肉或憩室时，不对原始图像进行分类标注和目标框标注，即显示器显示原始图像。

需要注意的是，在实际应用中，将训练后的ViT网络与RetinaNet网络组合为大网络，基于肠镜图像集对该大网络进行训练。需要注意的是，在对大网络的训练过程中，使用肠镜图像集的标签，也就是说，将有标签的肠镜图像集分为训练集和验证集。基于上述训练集对大网络进行识别息肉和/或憩室任务的训练，并基于上述验证集确定训练后的大网络，进而采用训练后的大网络中的ViT网络和RetinaNet网络对肠镜检测器采集到的原始图像进行识别。

本申请实施例提供了一种肠镜图像病变识别方法，采用自监督DINO算法对ViT网络进行预训练，以帮助ViT网络在有限的训练集上挖掘更多的特征，使其输出的注意力图可以有效显示病变部位的位置、轮廓等信息，并将上述注意力图与肠镜检测器检测到的原始图像相结合后输入RetinaNet网络中进行息肉和憩室的识别，根据识别结果在原始图像上进行分类标注和目标框标注，以使显示器显示带有分类标注和目标框标注的原始图像，能够准确识别和标注肠镜检测器采集的原始图像中的息肉和/或憩室，进而为医生的正确诊断提供有效帮助。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图2是本申请一实施例提供的肠镜图像病变识别装置的结构示意图。如图2所示，本实施例提供的肠镜图像病变识别装置，可以包括：训练模块201、确定模块202、融合模块203和识别模块204。

其中，训练模块201，用于采用DINO算法对初始ViT网络进行预训练，得到训练后的ViT网络。

确定模块202，用于通过肠镜检测器获取原始图像，基于训练后的ViT网络对原始图像进行特征提取，得到注意力图。

融合模块203，用于将注意力图和原始图像进行特征融合，得到待识别图像。

识别模块204，用于基于RetinaNet网络对待识别图像进行息肉和憩室识别，根据识别结果在原始图像上进行分类标注和目标框标注，以使显示器显示带有分类标注和目标框标注的原始图像。

可选的，初始ViT网络包括同构的student网络和teacher网络，训练模块201具体用于：步骤1：对训练集中的训练图片进行数据增强处理，得到第一图片和第二图片；第一图片和第二图片为进行不同数据增强处理后得到的图片；步骤2：将第一图片分别输入student网络和teacher网络，得到第一输出；将第二图片分别输入student网络和teacher网络，得到第二输出；步骤3：根据第一输出和第二输出计算损失值；步骤4：根据损失值更新student网络的网络参数；步骤5：基于更新后的student网络的网络参数和teacher网络的网络参数，采用指数滑动平均法更新teacher网络的网络参数；步骤6：判断网络参数更新后的初始ViT网络是否收敛，若是，则训练结束，将网络参数更新后的teacher网络作为训练后的ViT网络；若否，则将网络参数更新后的初始ViT网络作为新的初始ViT网络，并重复步骤1至步骤6，直至网络参数更新后的新的初始ViT网络收敛。

可选的，确定模块202可以包括：

处理模块2021，用于通过肠镜检测器获取原始图像，对原始图像进行图像分块处理，得到维度为1的token embedding序列。

计算模块2022，用于基于训练后的ViT网络对token embedding序列进行多头注意力计算，得到多个子注意力图。

选择模块2023，用于根据预设指示信息确定多个子注意力图中的预设数量的候选子注意力图。

执行模块2024，用于对预设数量的候选子注意力图进行拼接处理，得到注意力图。

可选的，融合模块203具体用于：将注意力图对应的矩阵和原始图像对应的矩阵进行对位相加，得到待识别图像。

可选的，RetinaNet网络包括骨干网络、特征金字塔网络和预测头，识别模块204具体用于：基于骨干网络对待识别图像进行多尺度特征提取，得到多尺度特征；基于特征金字塔网络对多尺度特征进行特征融合，得到融合后的特征；基于预测头，根据融合后的特征对待识别图像进行息肉和憩室识别，得到待识别图像对应的分类标签和目标框的位置与大小。

可选地，识别模块204还具体用于：根据分类标签在原始图像上进行分类标注；根据目标框的位置和大小在原始图像上进行目标框标注。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图3是本申请一实施例提供的电子设备的结构示意图。如图3所示，该实施例的电子设备300包括：处理器310、存储器320，上述存储器320中存储有可在处理器310上运行的计算机程序321。处理器310执行计算机程序321时实现上述任意各个方法实施例中的步骤，例如图1所示的步骤101至104。或者，处理器310执行计算机程序321时实现上述各装置实施例中各模块/单元的功能，例如图2所示模块201至204的功能。

示例性的，计算机程序321可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器320中，并由处理器310执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序321在电子设备300中的执行过程。

本领域技术人员可以理解，图3仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如输入输出设备、网络接入设备、总线等。

处理器310可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器320可以是电子设备的内部存储单元，例如电子设备的硬盘或内存，也可以是电子设备的外部存储设备，例如电子设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。上述存储器320还可以既包括电子设备的内部存储单元也包括外部存储设备。上述存储器320用于存储计算机程序以及电子设备所需的其他程序和数据。存储器320还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种肠镜图像病变识别方法，其特征在于，包括：

采用DINO算法对初始ViT网络进行预训练，得到训练后的ViT网络；

通过肠镜检测器获取原始图像，基于所述训练后的ViT网络对所述原始图像进行特征提取，得到注意力图；

将所述注意力图和所述原始图像进行特征融合，得到待识别图像；

基于RetinaNet网络对所述待识别图像进行息肉和憩室识别，根据识别结果在所述原始图像上进行分类标注和目标框标注，以使显示器显示带有分类标注和目标框标注的原始图像；

其中，所述初始ViT网络包括同构的student网络和teacher网络；所述采用DINO算法对初始ViT网络进行预训练，得到训练后的ViT网络，包括：

步骤1：对训练集中的训练图片进行数据增强处理，得到第一图片和第二图片；所述第一图片和所述第二图片为进行不同数据增强处理后得到的图片；

步骤2：将所述第一图片分别输入所述student网络和所述teacher网络，得到第一输出；将所述第二图片分别输入所述student网络和所述teacher网络，得到第二输出；

步骤3：根据所述第一输出和所述第二输出计算损失值；

步骤4：根据所述损失值更新所述student网络的网络参数；

步骤5：基于更新后的student网络的网络参数和所述teacher网络的网络参数，采用指数滑动平均法更新所述teacher网络的网络参数；

步骤6：判断网络参数更新后的初始ViT网络是否收敛，若是，则训练结束，将网络参数更新后的teacher网络作为训练后的ViT网络；若否，则将网络参数更新后的初始ViT网络作为新的初始ViT网络，并重复步骤1至步骤6，直至网络参数更新后的新的初始ViT网络收敛。

2.根据权利要求1所述的肠镜图像病变识别方法，其特征在于，所述基于所述训练后的ViT网络对所述原始图像进行特征提取，得到注意力图，包括：

对所述原始图像进行图像分块处理，得到维度为1的token embedding序列；

基于所述训练后的ViT网络对所述token embedding序列进行多头注意力计算，得到多个子注意力图；

根据预设指示信息确定所述多个子注意力图中的预设数量的候选子注意力图；

对所述预设数量的候选子注意力图进行拼接处理，得到注意力图。

3.根据权利要求1所述的肠镜图像病变识别方法，其特征在于，所述将所述注意力图和所述原始图像进行特征融合，得到待识别图像，包括：

将所述注意力图对应的矩阵和所述原始图像对应的矩阵进行对位相加，得到待识别图像。

4.根据权利要求1所述的肠镜图像病变识别方法，其特征在于，所述RetinaNet网络包括骨干网络、特征金字塔网络和预测头；

所述基于RetinaNet网络对所述待识别图像进行息肉和憩室识别，包括：

基于所述骨干网络对所述待识别图像进行多尺度特征提取，得到多尺度特征；

基于所述特征金字塔网络对所述多尺度特征进行特征融合，得到融合后的特征；

基于所述预测头，根据所述融合后的特征对所述待识别图像进行息肉和憩室识别，得到所述待识别图像对应的分类标签和目标框的位置与大小。

5.根据权利要求4所述的肠镜图像病变识别方法，其特征在于，所述根据识别结果在所述原始图像上进行分类标注和目标框标注，包括：

根据所述分类标签在所述原始图像上进行分类标注；

根据所述目标框的位置和大小在所述原始图像上进行目标框标注。

6.一种肠镜图像病变识别装置，其特征在于，包括：

确定模块，用于通过肠镜检测器获取原始图像，基于所述训练后的ViT网络对所述原始图像进行特征提取，得到注意力图；

融合模块，用于将所述注意力图和所述原始图像进行特征融合，得到待识别图像；

识别模块，用于基于RetinaNet网络对所述待识别图像进行息肉和憩室识别，根据识别结果在所述原始图像上进行分类标注和目标框标注，以使显示器显示带有分类标注和目标框标注的原始图像；

所述初始ViT网络包括同构的student网络和teacher网络；所述训练模块具体用于执行步骤1至步骤6；

步骤3：根据所述第一输出和所述第二输出计算损失值；

步骤4：根据所述损失值更新所述student网络的网络参数；

7.根据权利要求6所述的肠镜图像病变识别装置，其特征在于，所述确定模块，包括：

处理模块，用于通过肠镜检测器获取原始图像，对所述原始图像进行图像分块处理，得到维度为1的token embedding序列；

计算模块，用于基于所述训练后的ViT网络对所述token embedding序列进行多头注意力计算，得到多个子注意力图；

选择模块，用于根据预设指示信息确定所述多个子注意力图中的预设数量的候选子注意力图；

执行模块，用于对所述预设数量的候选子注意力图进行拼接处理，得到注意力图。

8.一种电子设备，包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的肠镜图像病变识别方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的肠镜图像病变识别方法。