CN116341620A

CN116341620A - 基于ERetinaNet的高效神经网络架构方法及系统

Info

Publication number: CN116341620A
Application number: CN202310185719.6A
Authority: CN
Inventors: 徐胜舟; 陈罗林; 周煜松; 裴承丹
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-06-27

Abstract

本发明公开了一种基于ERetinaNet的高效神经网络架构方法及系统，方法包括：选用FRepVGG作为卷积神经网络模型的骨干网络，骨干网络FRepVGG由多个FRepVGG阶段组成；利用结构重参数化技术将FRepVGG块的训练时多分支结构等价转换为推理时单路结构；将FRepVGG阶段中间层的特征进行特征融合；在FRepVGG阶段的最后一层引入有效的多光谱通道注意力模块；在骨干网络之后插入Vision Transformer模块；对原RetinaNet的检测头适当简化。本申请架构形成的ERetinaNet卷积神经网络，对乳腺肿块的检测效率更高、检测精度更佳。

Description

基于ERetinaNet的高效神经网络架构方法及系统

技术领域

本发明涉及人工智能技术领域，具体是涉及一种基于ERetinaNet的高效神经网络架构方法及系统。

背景技术

在各类危害女性身心健康的恶性肿瘤病症中，乳腺癌作为其中典型病症之一，其发病率正在逐年升高。国际癌症研究机构(International Agency for Research onCancer,IARC)于2020年12月发布了当年全球最新癌症数据，数据显示2020年全球乳腺癌新发病例高达226万，超过了肺癌的220万，乳腺癌取代肺癌，成为全球最常见的癌症。而早期诊断和及时治疗，可以使乳腺癌死亡率加速下降。乳腺钼靶X线摄影检查(mammography)被公认为是目前诊断乳腺癌的首选和最有效的检测手段。然而，乳腺钼靶图像上可能会存在一些噪声或高亮度的干扰，即使是专家也难以快速准确分析出乳腺组织病变情况。而且乳腺钼靶图像数量巨大，如果医师仅凭肉眼来找出异常区域既费时又费力。因此，大量的医学影像计算机辅助诊断技术(computer aided diagnosis,CAD)出现并被投入到临床使用，以减轻医生的工作量，并且有助于提高医生诊断的准确性。

基于传统机器学习的乳腺肿块检测CAD系统需要先对图像预处理，在输入的乳腺钼靶图像中选出乳腺肿块的可疑候选区域，然后对可疑区域的特征进行提取，最后使用分类器对其进行分类，检测可疑区域是否为乳腺肿块。Petrick等人提出使用一种新的自适应密度加权对比度增强滤波器并将其与高斯-拉普拉斯边缘检测相结合，从而在数字化乳腺钼靶X线摄影中分割出可疑区域，然后使用分类算法对这些可疑区域进行识别。Kom等人提出一种线性变换滤波器来对图像进行预处理，并使用局部自适应阈值技术来实现乳腺钼靶图像中肿块的自动检测。Hang等人提出了一种基于多尺度形态学滤波和自适应随机森林级联的乳腺钼靶X线摄影中乳腺肿块检测和分割系统，并在公共数据集上进行测试，该方法表现出很好的性能。

随着人工智能的发展，深度学习作为近年来呈指数增长的人工智能分支之一，不断被应用到各个领域，并且在计算机视觉(computer vision,CV)领域中取得重大突破。医学影像中的深度学习发展尤为迅速，越来越多学者将深度学习用于辅助诊断乳腺癌上。Dhungel等人提出一种使用级联深度学习和随机森林分类器检测乳腺肿块的方法，该方法首先将多尺度深度置信网络和高斯混合模型结合起来，选出乳腺肿块的可疑候选区域，再利用级联R-CNN网络和随机森林分类器来减少假阳性数量。Teare等人提出利用不同尺度的双深度卷积神经网络，并与随机森林网络相结合，来对乳腺钼靶图像中乳腺肿块进行检测，所得出的灵敏度和特异度与专业医师得出的结果基本一致。Al-masni等人提出基于YOLO算法的CAD系统，该系统检测出乳腺肿块的同时也对其进行良恶性识别。CAD系统检测肿块位置的总体准确性达到96.33％，区分良性和恶性病变的总体准确性达到85.52％。

上述方法在检测精度或推理速度方面仍有不足之处。

发明内容

本发明的目的是为了克服上述背景技术的不足，提供一种基于ERetinaNet的高效神经网络架构方法及系统。

第一方面，本申请提供了一种基于ERetinaNet的高效神经网络架构方法，包括：

选用FRepVGG作为卷积神经网络模型的骨干网络，骨干网络FRepVGG由3个FRepVGG阶段组成；

利用结构重参数化技术将FRepVGG块的多分支结构等价转换为单路结构；

将FRepVGG阶段中间层的特征进行特征融合；

在FRepVGG阶段的最后一层引入有效的多光谱通道注意力模块；

在骨干网络之后插入ViT模块；

对原始检测头进行简化处理。

根据第一方面，在第一方面的第一种可能的实现方式中，FRepVGG阶段基本块等价转换为一个只含有3×3卷积和ReLU的单路结构，所述利用结构重参数化技术将FRepVGG块的训练时多分支结构等价转换为推理时单路结构步骤，具体包括以下步骤：

将3×3卷积层和一个BN层融合成一个带有偏置的3×3卷积层；

将1个1×1卷积层和一个BN层融合成一个带偏置的1×1卷积层；

将只有一个BN层的分支转换为含有3×3卷积层的分支；

将带有偏置的3×3卷积层、带偏置的1×1卷积层和含有3×3卷积层的分支的权重适当调整后相加，形成一个带偏置的3×3卷积层。

根据第一方面，在第一方面的第二种可能的实现方式中，所述将FRepVGG阶段中间层的特征进行特征融合步骤，具体包括以下步骤：

将FRepVGG阶段右分支每一层的输出进行拼接，获取拼接后的特征层；

将拼接后的特征层凝聚成权重e；

将FRepVGG阶段左分支的结果和权重e相乘，获取相乘后的特征；

将相乘后的特征与右分支最后一层的输出进行拼接，获取融合后的两分支特征。

根据第一方面，在第一方面的第三种可能的实现方式中，所述在FRepVGG阶段的最后一层引入有效的多光谱通道注意力模块步骤，具体包括以下步骤：

将输入X按通道维度分解为n个部分，并给各部分分配相应的二维DCT频率分量，记为Freqⁱ，其中i∈{1,2,…,n}；

然后将每个Freqⁱ拼接得到Freq，替换原本通道注意力中GAP的结果，并且将原本通道注意力中的两个全连接层改为一个卷积层，避免通道信息的丢失。

根据第一方面，在第一方面的第四种可能的实现方式中，所述在骨干网络之后插入ViT模块步骤，具体包括以下步骤：

将骨干网络输出的特征图作为ViT模块的输入，特征图被展平为token序列，ViT模块通过在Transformer编码器中使用多头自注意力来学习各token之间的表示。

根据第一方面，在第一方面的第五种可能的实现方式中，所述对原始检测头进行简化处理步骤，具体包括以下步骤：

减少预测子网络中的卷积层个数；

减少分类子网络中的卷积层的通道数

第二方面，本申请提供了一种基于ERetinaNet的高效神经网络架构系统，包括：

等价转换模块，与所述骨干网络选用模块通信连接，用于利用结构重参数化技术将FRepVGG块的训练时多分支结构等价转换为推理时单路结构；

特征融合模块，用于将FRepVGG阶段中间层的特征进行特征融合；

注意力模块引用模块，用于在FRepVGG阶段的最后一层引入有效的多光谱通道注意力模块；

ViT模块插入模块，用于在骨干网络之后插入ViT模块；

检测头简化模块，用于对原始检测头进行简化处理。

根据第二方面，在第二方面的第一种可能的实现方式中，FRepVGG阶段基本块等价转换为一个只含有3×3卷积和ReLU的单路结构，所述等价转换模块包括包括：

第一融合单元，用于将3×3卷积层和一个BN层融合成一个带有偏置的3×3卷积层；

第二融合单元，用于将1个1×1卷积层和一个BN层融合成一个带偏置的1×1卷积层；

第三转换单元，用于将只有一个BN层的分支转换为含有3×3卷积层的分支；

权重相加单元，与所述第一融合单元、所述第二融合单元和所述第三转换单元通信连接，用于将带有偏置的3×3卷积层、带偏置的1×1卷积层和含有3×3卷积层的分支的权重适当调整后相加，形成一个带偏置的3×3卷积层。

根据第二方面，在第二方面的第二种可能的实现方式中，所述特征融合模块包括：

拼接单元，用于将FRepVGG阶段右分支每一层的输出进行拼接，获取拼接后的特征层；

凝聚单元，与所述拼接单元通信连接，用于将拼接后的特征层凝聚成权重e；

相乘单元，与所述凝聚单元通信连接，用于将FRepVGG阶段左分支的结果和权重e相乘，获取相乘后的特征；

特征融合单元，与所述相乘单元通信连接，用于将相乘后的特征与右分支最后一层的输出进行拼接，获取融合后的两分支特征。

第三方面，本申请还提供了一种基于ERetinaNet的高效神经网络的乳腺肿块检测方法，具体包括以下步骤：

架构基于ERetinaNet的卷积神经网络模型；

对架构的卷积神经网络模型进行训练和验证；

使用训练和验证后的卷积神经网络模型对乳腺钼靶图像进行乳腺肿块检测。

与现有技术相比，本发明的优点如下：

本申请提出基于ERetinaNet的高效神经网络架构方法，通过对骨干网络的多分支结构转换为单路结构，中间层进行特征融合，最后一层引入有效的多光谱通道注意力模块，在骨干网络之后插入ViT模块，并对检测头简化处理，架构形成的卷积神经网络，对乳腺肿块的检测效率更高，检测准确性更高。

附图说明

图1是本发明实施例的基于ERetinaNet的高效神经网络架构方法的方法流程图；

图2是RetinaNet架构的结构示意图；

图3是本发明实施例的ERetinaNet架构的结构示意图；

图4(a)是本发明实施例的RepVGG阶段的结构示意图；

图4(b)是本发明实施例的FRepVGG阶段的结构示意图；

图5(a)是本发明实施例的RepBlock训练时的结构示意图；

图5(b)是本发明实施例的RepDownBlock训练时的结构示意图；

图5(c)是本发明实施例的FRepVGG块推理时的结构示意图；

图6是本发明实施例的FRepVGG阶段的中间特征层特征Extraction操作示意图；

图7(a)是本发明实施例的SE模块模块结构示意图；

图7(b)是本发明实施例的eMCA模块结构示意图；

图8(a)是本发明实施例的ViT模块的结构示意图；

图8(b)是本发明实施例的Transformer编码器的结构示意图；

图9(a)是原始RetinaNet检测头的结构示意图；

图9(b)是本申请实施例提供的ERetinaNet中简化后的检测头的示意图；

图10(a)是未做Gamma变换的原始图像，

图10(b)是Gamma变换后的图像；

图11(a)为数据增强前图像；

图11(b)为水平翻转后的图像；

图11(c)为垂直翻转后的图像；

图12(a)为乳腺钼靶图像上肿块的真实标注框；

图12(b)为采用Faster R-CNN检测方法在乳腺钼靶图像上的检测结果；

图12(c)为采用SSD检测方法在乳腺钼靶图像上的检测结果；

图12(d)为采用YOLOv3检测方法在乳腺钼靶图像上的检测结果；

图12(e)为采用YOLOv7检测方法在乳腺钼靶图像上的检测结果；

图12(f)为采用ERetinaNet检测方法在乳腺钼靶图像上的检测结果；

图13(a)为乳腺钼靶图像上肿块的真实标注框；

图13(b)为基于原始RetinaNet检测方法在乳腺钼靶图像上的可视化检测结果图；

图13(c)为使用FRepVGG作为骨干网络的RetinaNet检测方法在乳腺钼靶图像上的可视化检测结果图；

图13(d)为采用FRepVGG作为骨干网络，并添加ViT模块，还使用concat操作来进行特征融合的RetinaNet检测方法在乳腺钼靶图像上的可视化检测结果图；

图13(e)为基于ERetinaNet检测方法在乳腺钼靶图像上的可视化检测结果图。

具体实施方式

现在将详细参照本发明的具体实施例，在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明，但将理解，不是想要将本发明限于所述的实施例。相反，想要覆盖由所附权利要求限定的在本发明的精神和范围内包括的变更、修改和等价物。应注意，这里描述的方法步骤都可以由任何功能块或功能布置来实现，且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

注意：接下来要介绍的示例仅是一个具体的例子，而不作为限制本发明的实施例必须为如下具体的步骤、数值、条件、数据、顺序等等。本领域技术人员可以通过阅读本说明书来运用本发明的构思来构造本说明书中未提到的更多实施例。

第一方面，请参考图1，本申请提供了一种基于ERetinaNet的高效神经网络架构方法，包括以下步骤：

选用ERetinaNet作为卷积神经网络模型。RetinaNet是一个单一、统一的网络，请参考图2，它由骨干网络、FPN和两个预测子网络组成。图2展示了RetinaNet的结构，ResNet-50作为骨干网络，初步提取图像特征，获取到三个特征层C₃、C₄、C₅，然后这三个特征层首先各自通过一个1×1卷积减少通道数，再被传入FPN中，FPN作为特征融合网络，对多尺度的特征进行融合，最后输出5个不同尺度的特征层P₃、P₄、P₅、P₆、P₇，而P₆是由C₅直接通过一个步长为2的3×3卷积所获得，同样P₇由P₆通过一个步长为2的3×3卷积所获得。接着，5个特征层被传至检测头中，检测头由分类子网络和边框回归子网络组成，分类子网络对这5个特征层进行目标的分类，边框回归子网络则用来预测目标边界框的位置信息。

即使RetinaNet比一些经典网络表现更佳，但由于乳腺钼靶图像中存在许多小面积肿块以及周围组织的干扰，它仍然难以准确检测出肿块区域。此外，对于只具有一个类别的数据集，RetinaNet的结构还可以进一步被简化，以提高检测速度。因此本申请提出ERetinaNet，其结构如图3所示。提出FRepVGG架构作为骨干网络，并将ViT模块应用到ERetinaNet中。如图3所示，FPN中的所有add操作被concat操作替换，而且图中的Head表示简化的检测头，值得注意的是P₆是由P₅通过一个步长为2的3×3卷积所得，并不是由C₅所得，这一变动主要是为了便于后续改进并且减少参数量，实际无论P₆是由P₅还是C₅所得，对检测精度影响不大，实验结果可见表2。所述选用ERetinaNet作为卷积神经网络模型步骤，具体实现为以下步骤：

步骤S1、选用FRepVGG作为ERetinaNet卷积神经网络模型的骨干网络；

整体来说，骨干网络FRepVGG主要由3个FRepVGG阶段组成，并且每个FRepVGG阶段分别由3、5、15个RepBlock组成。RepVGG和FRepVGG阶段的结构如图4所示，在FRepVGG阶段中，特征层首先会经过一个RepDownBlock进行下采样，接着被分为两部分，第一部分只经过一个输出通道数减半的1×1卷积操作，而另一部分首先通过一个1×1卷积将通道数减半，然后经过n个卷积层处理，Extraction操作用来将这部分的特征凝聚成一个权重，然后第一部分的特征与这个权重相乘，实现两部分特征的初步融合。最后两部分的特征被拼接起来，并且经过一个eMCA(effective Multi-spectral Channel Attention)模块处理；

步骤S2、利用结构重参数化技术将FRepVGG块的多分支结构等价转换为单路结构；

步骤S3、将FRepVGG阶段中间层的特征进行特征融合，以获取更丰富的特征；

步骤S4、在FRepVGG阶段的最后一层引入有效的多光谱通道注意力模块；

步骤S5、在ERetinaNet的骨干网络之后插入ViT模块，使模型可以学习到全局表征，提高鲁棒性；

步骤S6、对原始的检测头进行简化处理，使模型更加高效。

本申请提供的基于ERetinaNet的高效神经网络架构方法，对乳腺肿块的检测精度更高、检测效率更佳。

本申请提出一个改进的骨干网络Faster RepVGG(FRepVGG)，在每个FRepVGG阶段中，按通道特征被分为两部分，两部分特征各具有原先一半通道数，且第一部分只会经过一个卷积操作处理，另一部分经过原始卷积层处理。为了获取更丰富的特征，提出Extraction操作用来聚合中间层特征，并且在每个阶段的最后一层添加有效的多光谱通道注意力(effective Multi-spectral Channel Attention,eMCA)模块；

在骨干网络之后插入ViT(Vision Transformer)模块，这样可以提高ERetinaNet的鲁棒性，然后，将特征金字塔网络中的所有相加操作替换成拼接操作；

减少两个预测子网络中的卷积层个数，并减少分类子网中卷积层的通道数，从而使检测头更加高效。

通过实验验证了ERetinaNet在乳腺肿块检测中的有效性和高效性。

在一实施例中，FRepVGG阶段基本块等价转换为一个只含有3×3卷积和ReLU的单路结构，RepDownBlock和RepBlock都是FRepVGG的基本块，RepDownBlock位于每个阶段的第一层，用于改变特征图的大小，RepBlock位于每个阶段的中间层，主要提取特征信息。在训练时，FRepVGG阶段基本块(即RepDownBlock和RepBlock)是一个多分支结构，而在推理时，它会被等价转换为一个只含有3×3卷积和ReLU的单路结构。如图5所示，RepBlock(见图5(b))比RepDownBlock(见图5(a))多一个恒等分支，并且RepBlock中的卷积步长为1，而RepDownBlock中的卷积步长为2。来自RepVGG的结构重参数化技术可以实现训练时和推理时(见图5(c))结构的解耦，我们可以利用结构重参数化技术将多分支结构等价转换为单路结构。

在一实施例中，所述利用结构重参数化技术将FRepVGG块的多分支结构等价转换为单路结构步骤，具体包括以下步骤：

将3×3卷积层和一个BN层融合成一个带有偏置的3×3卷积层；

将1个1×1卷积层和一个BN层融合成一个带偏置的1×1卷积层；

将只有一个BN层的分支转换为含有3×3卷积层的分支；

将带有偏置的3×3卷积层、带偏置的1×1卷积层和含有3×3卷积层的分支的权重相加，形成一个带偏置的3×3卷积层，具体实现为：

第一，一个3×3卷积层和一个BN(Batch Normalization)层被融合成一个带有偏置的3×3卷积层。假设

表示输入通道数为C₁且输出通道数为C₂的3×3卷积核，

表示输入，

表示输出，*表示卷积操作，

表示卷积层之后的BN层的输入，而且μ、σ、γ、β分别表示BN层的均值、标准差、权重和偏置。对于第i个通道，我们能得出BN层的公式如下：

s.t.i∈{1,2,…,C₂},

其中∈是一个防止分母为0的很小的数，将式(1)变换可得：

s.t.i∈{1,2,…,C₂}。

显然，这里的M是卷积后的结果，即M＝W*X，假定W^′和b′分别表示新的卷积核权重和偏置，对于第i个卷积核，W^′和b′定义如下：

s.t.i∈{1,2,…,C₂}。

因此3×3卷积层和BN层可以被融合成一个带偏置的3×3卷积层：

Y_:,i,:,:＝BN(W*X)_:,i,:,:＝(W′*X)_:,i,:,:+b′_i, (4)

s.t.i∈{1,2,…,C₂}。

第二，一个1×1卷积层和一个BN层以同样的方式被融合成一个带偏置的1×1卷积层，然而为了实现与3×3卷积层的权重相加，这个1×1卷积核会通过零填充的方式被等价转换为3×3卷积核。第三，要将只有一个BN层的分支转换为含有3×3卷积层的分支，这里需要构建一个可以实现恒等映射的3×3卷积层，然后将这个3×3卷积层与BN层融合。最后将这三者的权重相加，形成一个带偏置的3×3卷积层，这就实现了从多分支结构到单路结构的等价转换。

将拼接后的特征层凝聚成权重e；

将相乘后的特征与右分支最后一层的输出进行拼接，获取融合后的两分支特征，具体实现为：

为了有效地聚合中间层信息，提出了Extraction操作，该操作可以将中间层的特征凝聚成一个权重，它的原理与通道注意力机制类似，都是通过压缩(squeeze)和激励(excitation)来获得权重。假设通过RepDownBlock生成的特征层用

来表示，如图4(b)，在每个FRepVGG阶段中，左分支上只有一个卷积层，X经过这个1×1卷积操作后通道数减半，生成的结果记为

在右分支上有一个1×1卷积层和n个RepBlock，每一层或每一个块的输出记为

其中i∈{1,2,…,n+1}。为了融合两分支的特征，首先将

拼接：

这样就能得到通道数为C^′的特征层Y^R，其中C^′＝(n+1)×C。此时，为了更好地利用这个分支的信息，使用Extraction操作将Y^R凝聚成权重e，过程如图6所示，Extraction操作的对象是Y^R，首先通过全局平均池化(global average pooling,GAP)对Y^R进行压缩，然后通过1×1卷积减少通道数，最后通过ReLU和Sigmoid进行激活，得到权重e。

然后左分支的结果Y^L与权重e相乘，得到更加丰富的特征

最后将Y与

拼接，实现两分支特征的最终融合。

在一实施例中，所述在FRepVGG阶段的最后一层引入有效的多光谱通道注意力模块步骤，具体包括以下步骤：

在一实施例中，所述在FRepVGG阶段的最后一层引入有效的多光谱通道注意力模块步骤，具体实现为：

近年来，注意力机制在深度神经网络中得到广泛应用,并在医学图像处理中发挥显著的作用。注意力机制类似于人类集中注意力去观察事物某些重要信息，这样可以快速地获取有价值的信息。注意力机制的实质就是自主学习到一些代表重要性的权重，再通过权重与特征的结合使网络对关键信息给予更多关注。不少研究表明，在神经网络中引入注意力机制能大幅提高性能。于是本申请在每个FRepVGG阶段的最后一层都引入eMCA模块。eMCA模块是一个改进的Squeeze-and-Excitation(SE)模块，它们的结构如图7所示。

通道注意力机制对每个通道使用一个标量进行计算，而SENet采用的是GAP，然而从频率的角度进行分析，Qin等人从数学上证明了GAP仅等效于离散余弦变换(DCT)的最低频率分量。证明如下：

通常，二维DCT的基函数可表示为：

二维DCT则可表示为：

s.t.h∈{0,1,…,H-1},w∈{0,1,…,W-1},

其中f^2d∈R^H×W表示二维DCT的频谱，x^2d∈R^H×W表示输入的图像，H、W分别为输入图像的高度和宽度，当h、w均为0时，结合公式(6)(7)可以得到：

此时

表示二维DCT的最低频率分量，由公式(8)可知，其与GAP成正比，GAP只是二维DCT的一个特例，这意味着在通道注意力机制中使用GAP只保留了最低频率信息，因此MCA模块被提出用来利用更多的频率信息。首先将输入X按通道维度分解为n个部分，并给各部分分配相应的二维DCT频率分量，二维DCT的结果记为Freqⁱ，其中i∈{1,2,…,n}，然后将每个Freqⁱ拼接得到Freq，用它来替换原本通道注意力中GAP的结果。

为了限制模型的复杂性和减少计算量，SE模块的两个全连接(fully-connected,FC)层需要降低通道维数，第一个全连接层将输入特征的通道数从C减少

(其中r为缩放因子)，第二个全连接层恢复特征通道，这会导致通道信息的丢失。因此，本申请用1×1卷积层来替换两个全连接层，并且不改变通道数。

通过结合上述两种方法，本申请提出eMCA模块。输入按通道维度被分解为多个部分，每部分被分配一个相应的二维DCT频率分量，然后所有的结果被拼接，这样特征就实现了压缩。然后特征通过1×1卷积、ReLU和Sigmoid进行激励，从而生成通道注意力权重。最后输入与通道注意力权重相乘，得到输出。

在一实施例中，所述在ERetinaNet的骨干网络之后插入ViT模块步骤，具体包括以下步骤：

将骨干网络输出的特征图作为ViT模块的输入，特征图被展平为token序列，ViT模块通过在Transformer编码器中使用多头自注意力来学习各token之间的表示，具体实现为：

自从ViT被提出后，越来越多的研究将Transformer应用于CV，并取得了很好的效果。通常，卷积神经网络(convolutional neural networks,CNNs)在图像处理中只能学习局部语义信息，而ViT可以学习到全局语义信息，因为ViT将图像划分为一系列的图像块，然后使用多头自注意力(multi-head self-attention,MSA)来学习各块之间的表征，而不是学习局部特征。在大型模型和大量数据方面，ViT也表现出强大的可扩展性。然而，考虑到ViT模型的两个缺点：(1)巨大的训练成本；(2)预训练所需大量数据，本申请只将ViT模块应用于ERetinaNet中，这样不需要大量数据来进行预训练，同时也能使ERetinaNet能学习全局表达。

原始的ViT模型首先将图像划分为一系列16×16的图像块，由于不划分图像，会带来更高的训练成本。由于本申请只应用ViT模块，所以原始图像不作为ViT的输入，而是将中间层的特征图作为输入。由于中间特征图尺寸较小，所以不需要进行划分。特征图被展平(flatten)为token序列，ViT模块可通过在Transformer编码器中使用多头自注意力来学习各token之间的表示，ViT模块的结构如图8(a)所示，其过程如下：

表示输入，它首先被展平为token序列

然后position embedding被添加到S_t中，position embedding本质上是可学习的关于位置编码的参数，它与S_t具有相同的维度，因此两者可以相加，接着S_t被输入到Transformer编码器(见图7(b))中，然后经过LN(Layer Normalization)层，最后得到的token序列被重塑(reshape)为

作为输出。Transformer编码器的关键在于多头自注意力机制，它是自注意力(self-attention,SA)的扩展。

自注意力的输入包括维度为D_k的q、k以及维度为D_v的v，假定

表示输入的序列，

表示三个线性变换矩阵，由此可以得到Q、K、V：

Q＝ZW^q,K＝ZW^k,V＝ZW^v。 (9)

然后，可通过以下公式来计算输出的矩阵：

多头自注意力可看作是自注意力结构的组合，其中，先进行h个自注意力操作，并将结果拼接起来，然后通过可学习的参数矩阵

进行转换，操作如下：

本申请尝试在骨干网络之后添加ViT模块，由于C₃的尺寸过大，所以只选择在C₄和C₅之后插入ViT块，从而达到更好的效果。

另外，特征融合的方式一般是拼接(concat)或相加(add)，如ResNet、FPN等使用的是add操作，而DenseNet使用的是concat操作，两者各有优势。本申请通过实验证明，在ViT模块后使用concat操作进行特征融合效果更佳。

在一实施例中，所述对原始检测头进行简化处理步骤，具体包括以下步骤：

减少预测子网络中的卷积层个数；

减少分类子网络中的卷积层的通道数。

在一实施例中，所述对原始检测头进行简化处理步骤，具体实现为：

一般，最佳模型因数据集而异，具有简单网络结构的模型在简单的数据集上可能表现更好，由于本申请数据集中只有一个类别，所以将RetinaNet的检测头进行简化。如图9所示，在原始RetinaNet中，分类子网中有4个输出通道数为256的3×3卷积层，然后有一个输出通道数为KA的3×3卷积层，其中K＝1表示类别数，A＝9表示每层的锚框数量，边框回归子网的结构与分类子网结构类似，只是最后一层是一个输出通道数为4A的3×3卷积层。而在ERetinaNet中，使用较少的卷积层并适当减少卷积层的通道数，4个串行卷积被替换成2个，而且分类子网中的每个卷积层的输出通道数调整为128(最后一层除外)。

基于同一发明构思，本申请还提供了一种基于ERetinaNet的高效神经网络的乳腺肿块检测方法，具体包括以下步骤：

架构ERetinaNet卷积神经网络模型；

对架构的卷积神经网络模型进行训练和验证；

在一实施例中，对架构的卷积神经网络模型进行训练和验证步骤，具体包括以下步骤：

随机选择实验数据集部分数据作为测试集；

将实验数据集另一部分数据进行数据增强，获取增强后的数据，将增强后的数据划分为训练集和验证集；

将训练集和验证集输入建立的卷积神经网络模型进行训练和验证，获取收敛后的卷积神经网络模型；

将测试集输入收敛后的卷积神经网络进行处理，获取乳腺肿块检测结果。

在一较具体实施例中，本申请的实验数据来自两个公开数据集：DDSM和MIASS。DDSM数据集包含2620个病例，其中695个正常病例，1011个良性病例和914个恶性病例，每个病例都包含患者左右双侧乳腺的轴位(Craniocaudal,CC)视图和侧斜位(MediolateralOblique,MLO)视图，而且每个视图的注释文件中记录了病变类型、病变区域和病变描述等信息。MIAS数据集包含322张乳腺钼靶图像，其注释文件也包含了一些信息，如存在的异常类别、异常的严重程度和异常的区域。病变的类型通常有钙化、肿块、结构扭曲或不对称。在本申请中，从两个数据集中挑选了属于肿块类型的1930个样本作为实验数据。

在本申请实验数据中，有大量乳腺钼靶图像存在对比度及亮度过低的情况，这会导致肿块与周围腺体组织难以被区分开，因此本申请采取Gamma变换来增强图像，使图像的整体亮度得到提升，并使图像的低灰度区域对比度得到增强，如图10所示，(a)为原始图像，(b)为Gamma变换后的图像。

由于实验数据集量较小，所以本申请采取水平翻转和垂直翻转的方式对数据增强，如图10所示。首先随机选择五分之一的数据作为测试集，然后对剩下五分之四的数据进行数据增强，再将增强后的数据按8：2划分为训练集和验证集。

本申请所有实验都是基于深度学习框架Pytorch来实现的，操作系统为64位Windows10，CPU为Intel i5-9400F，16GB内存，GPU为NVIDIA GeForce RTX 3070，显卡内存为8GB，运行的软件环境为Python3.8、CUDA11.3、cuDNN8.2.训练和测试均利用GPU进行加速完成。本申请初始学习率设为0.0001，使用Adam优化器，固定步长衰减学习率，每迭代一次，学习率就减小为原来的0.96，共迭代200次。

本申请用平均精度均值(mean Average Precision,mAP)、召回率(Recall)和推理时间来评价检测性能。mAP是各类别AP(Average Precision)的平均值，AP由精度(Precision)和召回率可以得到，Precision和Recall的计算公式如下：

其中TP表示真阳性的数量，FP表示假阳性的数量，FN表示假阴性的数量。以Recall为横轴，Precision为纵轴可以得到P-R曲线，AP为P-R曲线下的面积。AP的计算公式如下：

推理速度在实际应用中至关重要，所以推理时间作为评价指标之一。Recall可以直接描述漏检的情况，而在医学影像领域中，要尽量减少漏检情况，所以本申请选择Recall作为评价指标之一。另外，本申请中的mAP是在IoU阈值设为0.5时计算来的。

结果与讨论

不同检测方法的对比实验

为了验证本申请方法在乳腺钼靶图像中的肿块检测能力，将ERetinaNet与其他检测方法进行对比，结果如表1所示。与原始RetinaNet相比，ERetinaNet不仅展现了高准确度的检测能力，而且显著提升了检测速度，mAP从79.16％提升到85.01％，Recall从68.21％提升至74.62％，推理时间也由26.5毫秒(ms)减少到23.4毫秒。与其他经典方法及SOTA(state-of-the-art)方法相比，ERetinaNet也取得了最佳结果。

表1不同检测方法的对比实验

图12展示了不同检测方法在乳腺钼靶图像上的检测结果，由图可知，Faster R-CNN易检测出更多的假阳性肿块，而YOLO系列方法检测效果相对不错，但总体而言，ERetinaNet无论是在小目标检测上，还是识别精度上，都有最优的表现。

消融实验

为了便于后续的改进，本申请改变了P₆的获取方式，P₆由P₅(非C₅)而获得，为了测试该变化对肿块检测结果的影响，做了相关实验，结果如表2所示。RetinaNet*表示改变后的RetinaNet，从检测结果上看，两者之间没有明显差别，所以改变P₆的获取方式对实验结果几乎没有影响。

表2关于P₆不同获取方式的实验

由表3可知，当使用RepVGG或FRepVGG作为骨干网络时，模型会比原先表现得更好。而且，当使用FRepVGG替换ResNet-50作为骨干网络时，mAP从79.16％提升到81.75％，Recall从68.21％提升到70.77％，推理速度也有明显提高。因为在FRepVGG中，特征被分为两部分，其中只有一部分会经过多个卷积层，而另一部分只会进行一次卷积操作，这就使得采用FRepVGG的模型能更快检测。

表3使用不同骨干网络的RetinaNet的检测结果

为了验证Extraction操作和eMCA模块的有效性，做了相关实验，结果见表4，符号*表示不使用Extraction操作，

表示不添加eMCA模块，由表可知，虽然使用Extraction操作和添加eMCA模块会导致推理速度略微下降，但mAP和Recall会有明显提升。

表4关于FRepVGG的实验

表5展示了添加ViT模块和简化检测头之后的检测结果，第一行表示原始RetinaNet，第二行表示添加ViT块之后的RetinaNet，第三行表示RetinaNet中不仅引入ViT模块，还将FPN中的所有add操作替换成concat操作，第四行在前者的基础上简化了检测头。表5中所有模型的骨干网络都是FRepVGG，由表可知，当在模型中加入ViT块之后，Recall有明显提升，说明漏检情况得到极大改善，而且在FPN中使用concat操作进行特征融合会带来更好的效果，最后将检测头适当简化，模型取得最好的结果，mAP达到85.01％。

表5关于添加ViT模块和简化检测头的实验。RetinaNet(ViT)：在骨干网络后添加ViT块；RetinaNet(ViT+cat)：在骨干网络后添加ViT块，并将FPN中所有add操作替换成concat操作；RetinaNet(ViT+cat+shead)：在骨干网络后添加ViT块，在FPN中使用concat操作，并适当简化检测头。

表5关于添加ViT模块和简化检测头的实验

图13展示了改进后的RetinaNet与原始RetinaNet在乳腺钼靶图像中的肿块检测结果。当使用FRepVGG代替ResNet-50作为骨干网络时，模型检测出的假阳性数量更少，因为每个阶段最后一层的eMCA模块使模型能更关注于肿块区域，并能提取到更有效的特征信息。当引入ViT模块并使用concat操作进行特征融合，漏检数量明显减少，因为ViT模块可以通过多头自注意力很好地学习到全局语义信息，这也使得模型能提取到更全面的特征信息。最后当简化检测头后，假阳性的数量又有所减少，因为本申请实验数据只有一个类别，因此有必要减少检测头中卷积层的通道数，而简单的检测头更适合本申请数据集。然而，对于一些边界不明确的肿块，ERetinaNet也难以准确检测出来，如图13中最后一行的样本所示。

本申请提出基于ERetinaNet的高效神经网络，用于乳腺肿块检测。在ERetinaNet中，使用改进的骨干网络FRepVGG，并适当简化检测头，从而提高推理速度和检测效果。此外，ERetinaNet将ViT应用于CNN中，ViT模块被插入至骨干网络之后，以便ERetinaNet能学习全局表征。本申请通过实验将ERetinaNet与其他检测方法进行对比，ERetinaNet展现了最好的肿块检测能力，并极大改善了漏检情况。另外，本申请提出的FRepVGG也具有更广泛的应用，它可以作为目标检测的通用骨干网络。不过，ERetinaNet在检测一些边界不明确的小肿块方面的性能有待提高，后续会针对这些问题做更深入研究。

第二方面，基于同一发明构思，本申请提供了一种基于ERetinaNet的高效神经网络架构系统，包括：

骨干网络选用模块，用于选用FRepVGG作为卷积神经网络模型，ERetinaNet的骨干网络由3个FRepVGG阶段组成；

等价转换模块，与所述骨干网络选用模块通信连接，用于利用结构重参数化技术将FRepVGG块的多分支结构等价转换为单路结构；

ViT模块插入模块，用于在ERetinaNet的骨干网络之后插入ViT模块；

检测头简化模块，用于对原始检测头进行简化处理。

在一实施例中，FRepVGG阶段基本块等价转换为一个只含有3×3卷积和ReLU的单路结构，所述等价转换模块包括包括：

权重相加单元，与所述第一融合单元、所述第二融合单元和所述第三转换单元通信连接，用于将带有偏置的3×3卷积层、带偏置的1×1卷积层和含有3×3卷积层的分支的权重相加，形成一个带偏置的3×3卷积层。

在一实施例中，所述特征融合模块包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于ERetinaNet的高效神经网络架构方法，其特征在于，包括：

利用结构重参数化技术将FRepVGG阶段基本块的训练时多分支结构等价转换为推理时单路结构；

将FRepVGG阶段中间层的特征进行特征融合；

在FRepVGG阶段的最后一层引入有效的多光谱通道注意力模块；

在骨干网络之后插入Vision Transformer(ViT)模块；

对原始检测头进行简化处理。

2.如权利要求1所述的基于ERetinaNet的高效神经网络架构方法，其特征在于，FRepVGG阶段基本块被等价转换为一个只含有3×3卷积和ReLU的单路结构，所述利用结构重参数化技术将FRepVGG块的训练时多分支结构等价转换为推理时单路结构步骤，具体包括以下步骤：

将3×3卷积层和一个BN层融合成一个带有偏置的3×3卷积层；

将1个1×1卷积层和一个BN层融合成一个带偏置的1×1卷积层；

将只有一个BN层的分支转换为含有3×3卷积层的分支；

3.如权利要求1所述的基于ERetinaNet的高效神经网络架构方法，其特征在于，所述将FRepVGG阶段中间层的特征进行特征融合步骤，具体包括以下步骤：

将拼接后的特征层凝聚成权重e；

4.如权利要求1所述的基于ERetinaNet的高效神经网络架构方法，其特征在于，所述在FRepVGG阶段的最后一层引入有效的多光谱通道注意力模块步骤，具体包括以下步骤：

5.如权利要求1所述的基于ERetinaNet的高效神经网络架构方法，其特征在于，所述在骨干网络之后插入ViT模块步骤，具体包括以下步骤：

6.如权利要求1所述的基于ERetinaNet的高效神经网络架构方法，其特征在于，所述对原始检测头进行简化处理步骤，具体包括以下步骤：

减少预测子网络中的卷积层个数；

减少分类子网络中的卷积层的通道数。

7.一种基于ERetinaNet的高效神经网络架构系统，其特征在于，包括：

骨干网络选用模块，用于选用FRepVGG作为卷积神经网络模型的骨干网络，骨干网络FRepVGG由3个FRepVGG阶段组成；

检测头简化模块，用于对原始检测头进行简化处理。

8.如权利要求7所述的基于ERetinaNet的高效神经网络架构系统，其特征在于，FRepVGG阶段基本块等价转换为一个只含有3×3卷积和ReLU的单路结构，所述等价转换模块包括：

9.如权利要求7所述的基于ERetinaNet的高效神经网络架构系统，其特征在于，所述特征融合模块包括：