CN116402999A

CN116402999A - 一种联合量子随机数与深度学习sar实例分割方法

Info

Publication number: CN116402999A
Application number: CN202310651370.0A
Authority: CN
Inventors: 樊矾; 张晓玲; 韦顺军; 师君; 胥小我
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-07-07
Anticipated expiration: 2043-06-05
Also published as: CN116402999B

Abstract

本发明公开了一种联合量子随机数与深度学习SAR实例分割方法，它是通过利用量子随机数实现对原始SAR图像样本进行数据增强操作，提升了SAR图像数据样本增强的随机性和均匀性；通过在SAR图像目标层进行语义分割时结合上下文信息流实现对SAR图像的深层特征提取，提升了对SAR图像进行实例分割效率；通过融合损失函数并利用该函数进行反向传播来优化算法的模型参数，提升了对SAR图像实例分割的精度。可避免现有SAR图像实例分割算法缺少图像语义的上下文信息，导致目标检测位置不准等问题，提升了SAR图像实例分割的精度和效率。本发明适用于SAR图像分割，也适用于其他的遥感图像、光学图像的实例分割。

Description

一种联合量子随机数与深度学习SAR实例分割方法

技术领域

本发明属于深度学习、图像处理和量子信息技术领域，尤其涉及利用量子随机数进行数据增强，并且利用深度学习实现高效合成孔径雷达(Synthetic Aperture Radar,SAR)图像实例分割的技术领域。

背景技术

SAR作为一种主动式微波遥感技术，能够全天时、全天候的开展观测。目前在海洋环境监测与权益维护、灾害监测与评估、水资源评价管理、气象研究及其他多个领域得到了广泛应用。实例分割是在目标检测的基础上进一步细化，分离对象的前景与背景，实现像素级别的对象分离。图像实例分割在目标检测、人脸检测、表情识别、医学图像处理与疾病辅助诊断、视频监控与对象跟踪、零售场景的货架空缺识别等场景下均有应用。针对SAR图像目标检测和实例分割的技术领域，近年来已有基于深度卷积神经网络的Faster R-CNN、YOLO、Retina Net等算法应用于实际系统，详见文献：“钱坤,李晨瑄,陈美杉,郭继伟,潘磊.基于改进Swin Transformer的舰船目标实例分割算法[J].系统工程与电子技术:1-12[2022-07-16]”。

但是现有算法普遍存在弊端：由于SAR图像需要利用遥感卫星、高空侦察飞机等高成本方式获取，因此训练模型所需样本图像在数量和规模上往往不能满足需求，同时图像背景较为单一，这是目前限制算法识别能力提升的一大瓶颈。虽然已有数据增强技术即对原始样本图像进行随机的翻转、旋转、平移、对比度调整、缩放和添加高斯噪声等方式来进行样本图像增强。但上述操作中使用的随机数多为确定性的软件算法产生的伪随机数，该伪随机数本质上是存在周期性和规律性，进而使得增强后样本图像存在偏置。当模型训练使用这种带有偏置的增强样本数据时，训练易出现“过拟合”，使得模型的泛化性能差、鲁棒性不足，从而导致模型检测精度低下。并且现有SAR图像实例分割模型普遍主要是在目标层面利用语义分割方法进行像素级别预测，同时结合已有目标检测方法对检测目标进行定位、分类和实例分割。但该类方法没有对语义信息进行深度挖掘，易于将目标分割为水平或旋转的封闭矩形区域，而忽略其特征轮廓和边界，容易出现分割的掩膜不完整、掩膜位置不准确、掩膜丢失以及掩膜混叠等现象，最终导致分割的精度不高。因此要如何确保数据增强后的SAR图像样本数据集均匀和无偏，以及怎样构建一个精确度更高的模型算法是目前亟待解决的技术问题。

针对上述问题，本发明创新性地提出了一种联合量子随机数增强与深度学习的SAR实例分割的感兴趣区域增强网络（Region of Interest Enhancement Network，RoIENet），能够高效、准确地实现对SAR图像进行实例分割。

发明内容

本发明属于深度学习、图像处理以及量子信息技术的交叉技术领域，公开了一种联合量子随机数与深度学习的SAR实例分割算法，可以避免现有SAR图像数据增强方法存在的非均匀性和偏置以及现有SAR图像实例分割算法在目标层语义分割过程中因缺少上下文信息造成的实例分割精度不高，效率低下等缺点。本发明的核心贡献主要有：（1）采用量子随机数实现对SAR图像样本数据增强，提升了SAR图像样本的随机性和均匀性；（2）提出在进行SAR图像的目标层语义分割时结合上下文信息流实现对SAR图像深层特征提取，提升了对SAR图像实例分割的效率；（3）提出融合损失函数并利用该函数进行反向传播来优化实例分割算法的模型参数，提升了对SAR图像实例分割的精度。

本发明不仅适用于SAR图像的实例分割，也适用于对其他遥感图像和光学图像进行实例分割。

为了方便描述本发明的内容，首先作以下术语定义。

定义1：COCO数据集格式；

MSCOCO数据集是微软公司于2014年发布的图像数据集，该数据集标注类型对应任务包括物体检测、关键点检测、实例分割、stuff分割（没有特定形状的物体），全景分割人体关键点，人体密度检测等。在该数据集中对每张图片以COCO(common Objects in Context)格式进行存储，该格式的主要特点是：预测结果格式以列表形式保存，列表的每个元素对应一个检测目标（元素都是字典类型），每个目标主要记录四个信息：预测目标所属图像ID号、预测目标类别索引、预测目标边界框和预测目标概率，详细可参考https://www.microsoft.com/en-us/research/publication/microsoft-coco-common-objects-in-context/。

定义2：传统数据集增强方法；

为了增强训练的模型对于数据的鲁棒性，防止模型出现过拟合，对训练数据采用数据增强的方法，采用旋转、缩放、翻转、颜色变化、灰度化和裁剪等方法对训练数据集进行数据扩充。其主要方法有如下：

翻转变换(flip)：沿着水平或者垂直方向翻转图像；

平移变换(shift)：在图像平面上对图像以一定方式进行平移；

灰度调整：也就是先将彩色图像的RGB三通道值变为单通道值，成为灰度图像，然后对灰度图像的灰度值随机进行调整；

旋转 (Rotation)：随机旋转图像一定角度; 改变图像内容的朝向；

裁剪：从原始图像中随机裁剪出原图像的部分；

添加噪声(noise)：对图像的每个像素RGB加入随机的具有一定分布特征的噪声,常用的是添加高斯分布噪声。

传统数据集增强方法详细内容见“https://zh.wikipedia.org/wiki/”。

定义3：传统量子随机数及生成方法；

量子随机数发生器(quantum random number generator, QRNG )是一种从量子物理系统中测量量子力学固有不确定性并输出真随机数的一种仪器或者装置，其随机性来自于QRNG系统中固有的物理随机过程，由量子力学基本原理所保证的，通过量子随机数发生器获得的随机数即为量子随机数，详细可参考“Behar-Cohen F F, Sapodilla M, ParelJ M, et al. Quantum random number generator. Proc Spie, 2006, 78(4):54-60”。

目前产生量子随机数的技术方案有很多，比较典型的有光子路径选择、光子数分辨、真空态噪声、激光相位噪声、拉曼散射方案和放大自发辐射方案等，可以根据需求搭建合适的物理系统从而获得量子随机数，具体量子随机数技术实现方案可参考“聂友奇, 张军. 实用化量子随机数发生器研究进展. 信息安全研究, 2017, 3(1):5. ”。

定义4：传统全连接层方法；

全连接层是神经网络的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来，由于其全相连的特性，一般全连接层的参数也是最多的。在卷积神经网络（Convolutional Neural Networks, CNN）结构中，经多个卷积层和池化层后，连接着1个或1个以上的全连接层。与多层感知机（Multilayer Perceptron, MLP）类似，全连接层中的每个神经元与其前一层的所有神经元进行全连接。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。为了提升CNN网络性能，全连接层每个神经元的激励函数一般采用整流线性单位函数(ReLU)，详细内容参考“https://zh.wikipedia.org/wiki/”。

定义5：传统深度残差网络构建方法；

ResNet是(Residual Network)残差网络是在简单网络的基础上，通过插入快捷连接将其转化为对应的残差版本，通过拟合残差而不是直接拟合目标的方式来获取最优解的网络结构。本方案中采用的ResNet34总共包括33层卷积层、2层池化层和1层全连接层，第1层为单卷积层即conv1，剩下32层卷积层以4组的方式呈现，分别为conv2_g、conv3_g、conv4_g、conv5_g。每组分别包含3、4、6、3个残差学习单元，残差学习单元包括依次连接的2层卷积层，在2层卷积层的输入和输出之间建立了一个跳跃连接；2层池化层包括最大池化层(max pool)、平均池化层(average pool)；1层全连接层是指全连接层FC；第1层卷积层conv1、最大值池化层max pool、4组卷积层即conv2-g、conv3-g、conv4-g、conv5-g、平均池化层average pool、全连接层FC依次相连接。

该网络的其具体计算步骤为：设输入SAR图像Train_Exp尺寸为H*W*3（H为图像的高，W为图像的宽），则经过一次conv1模块操作，输出结果记为P1，特征图尺寸为H/2*W/2*64；然后采用定义10中的最大池化层对特征图P1进行一次操作，输出结果记为特征图P2，特征图尺寸为H/4*W/4*64；接着采用conv2_g模块对特征图P2进行一次操作，输出结果记为特征图P3，特征图尺寸为H/4*W/4*64；接着采用conv3_g模块对特征图P3进行一次操作，输出结果记为特征图P4，特征图尺寸为H/8*W/8*128；接着采用conv4_g模块对特征图P4进行一次操作，输出结果记为特征图P5，特征图尺寸为H/16*W/16*256；接着采用conv5_g模块对特征图P5进行一次操作，输出为输出结果记为特征图P6，特征图尺寸为H/32*W/32*512。最后对特征图P6进行一次定义10中的平均池化和FC全连接操作提取主干特征，并输出多尺度特征图(Multi-level Feature Maps)，输出特征图记为P7，特征图尺寸为H/32*W/32*1000。其详细网络结构可参考文献“He, K., Zhang, X., Ren, S. and Sun, J., 2016. Deepresidual learning for image recognition. In Proceedings of the IEEEconference on computer vision and pattern recognition (pp. 770-778)”。

定义6：传统感兴趣区域构建方法；

感兴趣区域(RoI Align)是使生成的候选框映射产生固定大小的特征图，当图片中目标物体较小且数量多时效果较好。RoI Align主要解决了池化操作在候选框框定位时出现的偏差，在对于小目标的精细回归问题上RoI Align精度更高，所以当检查对象中有较多小目标物体，则优先选择RoiAlign较为精准。具体构建步骤为：首先将特征图P1输入并且根据特征图P1的大小，每个像素点对应在原图上获得三个候选框w1、w2、w3，总的候选框数量与特征图P1尺寸有关，此时的带候选框的特征图记为P2；然后将特征图P2进行一次1×1的卷积后进行softmax激活函数分类，获得的新候选框的特征图，记为P3；接着将特征图P3进行一次1×1的卷积后获得对每个候选框的调整参数，该调整参数对候选框进行调整，使物体在候选框的中心，获得带感兴趣区域的特征图，该特征图记为P4。此时，便完成了感兴趣区域的构建。详细内容参考“Ren Shaoqing, He Kaiming, Girshick Ross, Sun Jian.Faster R-CNN: Towards Real-Time Object Detection with Region ProposalNetworks. IEEE transactions on pattern analysis and machine intelligence .2017 (6)”。

定义7：传统置信度筛选方法；

置信度（Confidence）是刻画分类器(Classifier)预测一个建议框(Anchor Box)中是否包含某个特定对象的概率，反映了建议框包含该特定对象的可能性大小以及位置的准确性。置信度筛选就是设定合适的置信度阈值，将所有预测得到的建议框按照置信度的高低进行排序，将置信度低于置信度阈值的建议框均删除，仅保留高于置信度阈值的建议框，从而避免噪声。详细定义和计算方法可参考“J. Redmon, S. Divvala, etc "You OnlyLook Once: Unified, Real-Time Object Detection,"

2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016, pp. 779-788, doi: 10.1109/CVPR.2016.91.”和“https://github.com/ultralytics/ultralytics”。

定义8：传统上下文信息流方法；

在实际的世界中，目标不可能单独的存在而是一定会有周围其他的对象或是跟环境有或多或少的关系，这就是通常所说的上下文信息流。因此我们可以通过捕捉不同的对象之间的相互作用信息，利用对象与场景之间的相互作用信息作为条件来对新目标进行识别、处理。上下文信息流并不是直接从目标的外观上直接得到，而是从邻域内的数据，目标的标注，目标的空间位置或者数据统计信息中得到。详细内容参考“Zagoruyko S, LererA, Lin T-Y, et al. A multipath network for object detection. arXiv:1604.02135,2016”。

定义9：传统目标检测方法；

目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割。它将目标的分割和识别合二为一，是在复杂场景中如果需要对多个目标进行实时处理时，目标自动提取和识别就显得特别重要，其计算步骤有：首先对特征图P1进行一次定义10中的平均池化处理，然后获得目标区域特征图（RoI Features）和原始掩膜特征图（Mask Features），分别记为特征图P2和P2m；将已获得的特征图P2输入到全连接层中，并用Softmax激活函数进行分类计算，获得每个建议框的置信度，此时获得特征图P3；然后将特征图P3输入到全连接层中，并用linear激活函数获得每个建议框的调整参数a，此时获得特征图为P4；最后选择出置信度在前200的建议框，并用调整参数a对建议框进行调整，获得建议框通过Boundingbox回归和分类预测进行图像预测，获得平展特征图(Flattened RoI Features)，记为特征图P5。进一步的描述可参考“王光耀. 基于深度强化学习的目标检测算法与应用研究. 吉林大学, 2022”。

定义10：掩膜；

用选定的图像、图形或物体，对处理的图像（全部或局部）进行遮挡，来控制图像处理的区域或处理过程。掩膜的用法包括以下几种：提取感兴趣区域是用预先制作的感兴趣区域掩膜与待处理图像相乘，得到感兴趣区域图像，感兴趣区域内图像数值保持不变，而区外图像数值都为0；屏蔽作用是用掩膜对图像上某些区域作屏蔽，使其不参加处理计算或处理参数的计算，而仅对屏蔽区作处理计算或统计；结构特征提取是用相似性变量或图像匹配方法检测和提取图像中与掩膜相似的结构特征；详细内容参考“田萱等. 基于深度学习的图像语义分割方法综述. 软件学报, 2019,30(02):440-468.”。

定义11：传统上采样方法；

上采样是将图像从一个较小的尺寸恢复到一个较大的尺寸从而获得有更高的分辨率和更多信息的图像，这一变换过程也叫图像的超分辨率重建。上采样一般有反卷积(Deconvolution)法、上池化（UnPooling）法、插值法，详细计算方法可参考“朱冉. 深度图像的上采样方法研究. 华中科技大学.”。

定义12：传统像素混洗方法；

像素混洗是将一张图像通过卷积操作，将通道扩充到指定通道数，比如将3个通道扩充到9个通道，然后将每个通道上的第一个值合成一个长度为9的向量，并组合成3*3的一个小特征图，依次类推，将第二个值的集合组成第二个小特征图，最后将这些小特征图组成一张大的特征图（包含特征信息），变成和原输入SAR图像一样的大小，就完成了像素级别的混合。详细参考“李伟. 像素级图像融合方法及应用研究. 华南理工大学.”。

定义13：传统归一化指数激活函数方法；

神经网络中每个神经元节点接受上一层神经元的输出值作为本神经元的输入值并且将输出值传给下一层，同时输入层神经元节点将输入属性值也直接传递给下一层。在多神经网络中，上一层节点的输出和下一层节点的输入之间具有确定函数关系，而这个函数关系就称之为激活函数。线性激活函数又叫linear函数，神经元的输出与神经元的输入值具有线性关系，计算公式为：

。归一化指数激活函数又称Softmax函数，它可以将给定任意K维实数向量Z= (z₁,z₂, ...,z_k)映射到另一个K维实数向量中，使得每一个元素的范围都在（0,1）之间且所有元素的和为1。在深度学习理论中，该函数时常作为深度神经网络模型中有监督学习的分类器，经常与交叉熵（Cross Entropy）损失函数联合使用。计算公式为：

其中

为第/>

个节点的输出值，C为输出节点的个数，即分类的类别个数。详细计算过程可参考“https://zh.wikipedia.org/wiki/”。

定义14：传统池化运算方法；

池化(Pooling)是卷积神经网络(convolutional neural network)中一种重要的计算方法，本质就是一种特定形式的降采样，在具体实现可采用多种不同形式的非线性的池化函数来计算。本方案中主要涉及到下述两种池化计算：

平均池化(average pooling)：将图片按照固定大小网格分割，网格内的像素值取网格内所有像素的平均值，该方法是卷积神经网络中非常重要的处理方式，能够有效地降低图像的维度；

最大池化(max-pooling)：是一种常用的池化操作，其通过最大值的方式减少数据量，其通常操作是将输入的图像划分为若干个矩形区域，对每个子域输出最大值。其减少了来自上层隐藏层的复杂计算，可以不受目标的倾斜或者旋转的影响，可有效降低数据维度。

详细计算方法可参考“周晟颐. 综述：深度学习中的池化技术. 科技传播 2018年第20期”。

定义15：传统双线性插值法；

在图像处理领域中，插值是在不生成像素的情况下增加图像像素大小的一种方法，而目前较常用有最近邻点插值法、双线性插值法、三次插值法等。本方案中采用的双线性插值法，也称为一阶插值法，它是对最近邻点法的一种改进型，用周围4个邻点的像素值在两个方向(横坐标方向、纵坐标方向)上做线性内插以获得待采样点新的像素值，根据待采样点与相邻点的距离相应的权值计算得待采样点的像素值。详细计算过程可参考“张小红, 刘刚. 基于小波变换与双线性插值图像配比算法研究. 江西理工大学学报,2011,32(01):1-6.”。

定义16：传统S曲线函数方法；

S曲线函数也叫Sigmoid函数或Logistic函数，其计算公式为

，为单调函数，定义域为{∞,+∞}，值域为（0,1），其采用非线性方式将数据进行归一化操作。在深度学习理论中，该函数时常作为深度网络模型中的激活函数，该函数取值平滑、易于求导。详细内容参考“https://zh.wikipedia.org/wiki/”。

定义17：传统批量标准化函数方法；

批量标准化函数又叫Batch Normal函数，对输入的批数据进行归一化，映射到均值为0，方差为1的正态分布。同时因为将输入数据都映射到了原点周围，会导致激活函数表达能力变差，所以又引入了缩放和平移。计算公式如下：

，其中/>

是样本均值，/>

是小批量样本/>

的标准差，/>

是拉伸参数，能够使得每批的数据分布一致，同时能够避免梯度消失，详细内容参考“https://zh.wikipedia.org/wiki/”。

定义18：传统线性整流函数方法；

线性整流函数(Rectified Linear Unit)，简称ReLU函数，是目前神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数。在神经网络中，线性整流作为神经元的激活函数，定义了该神经元在线性变换

之后的非线性输出结果。对于进入神经元的来自上一层神经网络的输入向x，使用线性整流激活函数的神经元会输出

至下一层神经元或作为整个神经网络的输出（取决现神经元在网络结构中所处位置），详细内容可参考“https://zh.wikipedia.org/wiki/”。

损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在神经网络中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型，损失函数详细定义可参考“https://zh.wikipedia.org/wiki/”。

本方案中主要涉及到下述四种损失函数：

二元交叉熵损失函数：交叉熵损失函数(Cross-entropy cost function)是用来衡量神经网络的预测值与实际值分布误差的一种方式，本方案中二元交叉熵损失函数

的计算公式为：

其中

，/>

是位于地面实际状况的第i级/>

处的像素，

是同级处预测得到的像素；

二元边界损失函数：二元边界损失函数

反映预测边界框与实际边界框的误差大小，本方案中/>

的计算公式为：

其中

是/>

的归一化距离图函数，其计算公式为：

其中

表示掩膜的距离图函数，/>

是地面实际状况/>

的倒数；

二元骰子损失函数：二元骰子损失函数

反映两个样本之间相似性的度量情况，也即对分割情况的度量，本方案中/>

的计算公式为：

其中

是位于地面实际状况的第i级/>

处的像素，/>

是同级处预测得到的像素。

融合损失函数：融合损失函数(CLF Confluent Loss Function)是将二元交叉熵损失函数、二元边界损失函数和二元骰子损失函数进行相加运算，用以更加精确的刻画实例分割精度，本方案中融合损失函数

的计算公式为：

定义20：模型评估指标；

模型评估指标主要的作用是判断模型的好坏，如采用多个评价指标来对模型进行评估时，也称为模型评估指标向量，向量中每个元素即为某个具体的评价指标。一般常用的模型评估指标向量主要包括以下3个评价指标：

模型精确度(Average Precision, AP)：就是模型的准确与否，是用来对算法模型进行性能评估的常用指标之一。简单来说就是对精度召回曲线(Precision-Recall curve)曲线上的准确率或精确度(Precision)求均值。模型精确度Precision指在所有预测得到的正样本中，预测正确的数量。精确度

定义为/>

，其中TP表示真正例，FP表示真负例。精确度越大，则说明模型预测的效果越好，最大值为1；

召回率(Recall)：召回率Recall指在所有的正样本中，预测正确的数量。定义为

，其中TP表示真正例，FN表示假负例。召回率越大，则说明模型预测的效果越好，最大值为1；

交并比(IoU)：模型检测中用来中计算真实的的目标与预测的目标框的匹配程度，其表达式如下：

，其中式中A为预测的目标框的位置，B为目标的真实位置。交并比越大，则说明模型预测的效果越好，最大值为1。

上述详细计算步骤可参考 “Jiao L , Zhang R , Liu F , et al. NewGeneration Deep Learning for Video Object Detection: A Survey. IEEETransactions on Neural Networks and Learning Systems, 2021, PP(99):1-21.”。

定义21：传统模型训练方法；

模型训练是利用深度学习网络将训练数据集进行运算和多次迭代，最终得到最优化的网络参数（权重）的计算过程。本方案中采用的模型训练方式是先利用构建好的网络算法对训练数据集中的一幅SAR图像进行特征提取得到特征图，在获得特征图后进行相应分割操作得到实例分割的结果，同时计算出本次训练的融合损失函数值

并与上一次的融合损失函数值/>

进行比较。当/>

时，存储当前的/>

值并进行反向传播更新网络参数，以便用更新网络参数后的模型进行下一次计算；当/>

则保持模型网络参数不变并进行下一次计算，直到遍历所有训练集数据后，便得到了最小的融合损失函数值

和对应的网络参数（权重），此时便获得了最优的网络参数（权重），完成了模型训练。详细说明可参考“https://zh.wikipedia.org/wiki/”。

定义22：传统模型测试方法；

模型测试主要是在测试集上对训练好的模型进行最终测试，得到模型在测试集上的检测结果，具体包括对测试集进行测试如：设置测试代码，对一批次测试集进行逐一测试，然后查看测试结果，如检测的定义16中提到的模型精确度，交并比、召回率，最终返回测试的效果，根据测试的效果好坏，可以进一步进行网络模型修改等优化操作。模型测试详细定义可参考“https://zh.wikipedia.org/wiki/”。

本发明提供了一种联合量子随机数与深度学习SAR实例分割算法，它包括以下步骤：

步骤1、构建初始SAR图像训练数据集和测试数据集；

采用具有船舶和水平边界框注释的公开SAR舰船检测数据集（SSDD），该SSDD数据集详见https://github.com/TianwenZhang0825/Official-SSDD。将该SSDD数据集以时间顺序按照7：3的比例分为训练数据集和测试数据集两部分，然后将训练数据集和测试数据集中的图像和图像标注按照定义1中的COCO格式进行格式转换，得到具有812张的SAR图像训练数据集记为Train，得到具有384张的SAR图像测试数据集记为Test；

步骤2、利用量子随机数对初始SAR图像数据集进行增强；

采用定义3中的传统量子随机数生成方法生成一组量子随机数序列，记为N；采用定义2中的传统数据集增强方法，利用量子随机数序列N对步骤1中得到的训练数据集Train和测试数据集Test进行数据增强操作，得到增强后的SAR图像训练数据集记为Train_Exp，得到增强后的SAR图像测试数据集记为Test_Exp；

步骤3、利用深度残差网络对SAR图像主干特征进行提取；

采用定义4中的传统全连接层构建方法构建SAR图像主干特征提取的全连接层，记为FC；采用定义5中的传统深度残差网络（ResNet34）构建方法构建SAR图像主干特征提取的残差网络，记为E；将步骤2获得的SAR图像训练数据集Train_Exp输入残差网络E进行主干特征提取，提取SAR图像的主干特征图，记为

；采用定义18中传统计算损失函数方法，计算残差网络E的损失函数，得到更新后的残差网络，记为/>

；

步骤4、获取SAR图像的目标矩形框特征图；

步骤4.1：采用定义6中的传统感兴趣区域构建方法对步骤3得到的SAR图像主干特征图

进行感兴趣区域提取，获得感兴趣区域提取后的特征图，记为/>

；

步骤4.2：采用定义7中的传统置信度筛选方法对步骤4.1获得的特征图

进行置信度筛选，筛选后生成的建议框，记为f；将建议框f和步骤3获得的主干特征/>

进行逐像素的相加和相乘操作，得到特征图记为/>

；采用定义15中的传统双线性插值法对特征图/>

进行插值运算，获得含有目标矩形框的特征图，记为/>

；

步骤5、利用池化和全连接层检测网络对SAR图像进行目标检测；

步骤5.1：采用定义14中的传统平均池化运算对步骤4获得的目标矩形框特征图

进行池化运算，获得的包含有检测目标的区域特征图记为/>

，获得具有定义10中原始掩膜的特征图记为/>

；

步骤5.2：采用定义9中传统目标检测方法对步骤5.1中得到的目标区域特征图

进行SAR图像目标检测，获得平展开的目标区域特征图记为/>

，获得定义8中的上下文信息流记为F；

步骤6、采用上下文信息流提取SAR图像特征图；

步骤6.1：利用步骤3中获得的全连接层FC采用定义4的传统全连接层方法对步骤5.2中获得的特征图

进行全连接运算，得到的运算结果与步骤5.2获得上下文信息流F相加，获得的多维特征图，记为/>

；

步骤6.2：对步骤6.1获得的多维特征图

进行一次1*1卷积核操作得到的特征图，记为/>

；

步骤6.3：对步骤6.2获得的特征图

进行一次3*3卷积运算得到的特征图，记为/>

；

步骤6.4：采用定义11的传统上采样方法和定义12中传统像素混洗方法，对步骤6.3获得的特征图

进行一次上采样和像素混洗操作得到的特征图，记为/>

；

步骤6.5：采用定义13中的传统归一化指数激活函数方法，对步骤6.4获得的特征图

进行归一化计算得到的特征图，记为/>

；

步骤6.6：选择步骤6.5获得的特征图

中尺寸为K*K的子图像与步骤6.1获得的特征图/>

中同样尺寸的子图像进行逐像素点求和操作，得到尺寸为2K*2K的复原特征子图像，通过遍历计算获得多个复原子图像后进行拼接复原，得到复原后的特征图记为/>

；

步骤7、利用掩膜完成多目标的实例分割；

步骤7.1：将步骤5.1获得的原始掩膜特征图

、步骤5.2获得的特征图/>

和步骤6.6得到特征图/>

进行像素逐点相加操作，获得新的掩膜特征图记为/>

；

步骤7.2：采用定义6中的传统感兴趣区域构建方法对步骤7.1得到的掩膜特征图

进行感兴趣区域提取，获得包含有感兴趣区域的局部掩膜特征图记为/>

；

步骤7.3：对步骤7.2得到的局部掩膜特征图

进行1次3*3卷积运算，获得的特征图记为/>

；采用定义17中的传统批量标准化函数方法和定义18中的传统线性整流函数方法对特征图/>

进行3次激活运算，获得新的有丰富掩膜信息的局部掩膜特征图，记为/>

；

步骤7.4：采用3*3卷积对步骤7.3得到的局部掩膜特征图

进行1次卷积运算获得特征图，记为/>

；采用定义18中的传统线性整流函数方法对特征图/>

进行激活运算，进一步得到掩膜信息更丰富的局部掩膜特征图记为/>

；

步骤7.5：采用2*2的反卷积运算对步骤7.4得到的特征图

进行卷积运算得到完整掩膜特征图，记为/>

；采用定义16中的传统S曲线函数方法对完整掩膜特征图/>

进行分类操作，获得SAR像素点分类掩膜记为M；利用像素点分类掩膜M对步骤5.2获得的平展开的目标区域特征图/>

进行对应像素点标记，获得最终所需的实例分割图记为/>

；

步骤8、进行SAR图像实例分割训练；

步骤8.1：将步骤2中得到的训练数据集Train_Exp的所有SAR图像作为输入，进行步骤3、步骤4、步骤5、步骤6、步骤7的操作，构建实例分割网络，得到的网络记为RoIENet网络；

步骤8.2：采用定义19中的传统损失函数计算方法对步骤8.1中获得的RoIENet网络计算得到初始融合损失函数，记为

；/>

步骤8.3：采用定义21中的传统模型训练方法对步骤8.2获得的RoIENet网络和步骤8.2获得的

进行优化训练，当/>

最小时获得的最终网络即为最优网络，记为RoIENet-Best；

步骤9、利用RoIENet-Best进行SAR图像实例分割测试；

初始化定义20中的模型评估指标向量阈值，记为

；采用定义22中的传统模型测试方法和步骤2中得到的测试数据集Test_ExpE对步骤8.3获得的SAR图像实例分割最优网络RoIENet-Best进行测试，得到网络的精确度、交并比和召回率的测试结果向量，记为/>

；若/>

，则最优网络RoIENet-Best有效，否则返回步骤8重新训练网络模型；

至此，整个方法结束。

本发明的创新点在于公开了一种联合量子随机数增强与深度学习的SAR实例分割方法RoIENet，可以解决现有SAR图像样本数据增强存在的非均匀性、强偏置性及现有SAR图像实例分割算法因目标层语义分割时缺少上下文信息造成的实例分割精度差、效率低等问题。本发明的核心贡献有：（1）利用量子随机数实现原始SAR图像样本数据增强，提升了SAR图像数据样本增强的随机性和均匀性；（2）联合图像语义上下文信息流实现SAR图像深层特征提取与分割，提升了SAR图像实例分割的效率；（3）提出融合损失函数反向传播的优化方法，提升了SAR图像实例分割的精度。

本发明的优点在于联合量子随机数的SAR图像数据增强，克服了现有SAR图像数据增强方法的非均匀性和偏置性；同时通过SAR图像的深层次特征提取和融合损失函数反向传播优化方法，可避免现有SAR图像实例分割算法缺少图像语义的上下文信息，导致目标检测位置不准等问题，提升了SAR图像实例分割的精度和效率。

附图说明

图1 RoIENet算法实施流程图；

图2 RoIENet算法结构图；

图3 ResNet34网络详细结构框图；

图4 ResNet34网络整体结构框图；

图5 感兴趣区域网络结构框图；

图6 池化+全连接层检测网络结构图；

图7 内容感知重组网络结构框图；

图8 掩膜预测网络结构框图。

实施方式

下面结合附图对本发明作进一步详细描述。

步骤1、构建初始SAR图像训练数据集和测试数据集；

步骤2、利用量子随机数对初始SAR图像数据集进行增强；

按照定义3中的量子随机数生成方法生成一组量子随机数序列，记为N；采用定义2中的数据集增强方法，利用量子随机数序列N对步骤1中得到的训练数据集Train和测试数据集Test进行数据增强操作，得到增强后的SAR图像训练数据集记为Train_Exp，得到增强后的SAR图像测试数据集记为Test_Exp。

步骤3、利用深度残差网络对SAR图像主干特征进行提取；

按照定义4中的全连接层构建方法构建SAR图像主干特征提取的全连接层，记为FC；采用定义5中的深度残差网络（ResNet34）构建SAR图像主干特征提取的残差网络，记为E；ResNet34网络的详细结构框图如图3所示，整体结构图如图4所示；将步骤2获得的SAR图像训练数据集Train_Exp输入残差网络E进行主干特征提取，提取SAR图像的主干特征图，记为

；按照定义18中计算损失函数方法，计算残差网络E的损失函数，得到更新后的残差网络，记为/>

；

步骤4、获取SAR图像的目标矩形框特征图；

步骤4.1：采用定义6中的感兴趣区域构建方法对步骤3得到的SAR图像主干特征图

；所述感兴趣区域网络结构框图如图5所示；

步骤4.2：按照定义7中的置信度筛选方法对步骤4.1获得的特征图

进行逐像素的相加和相乘操作，得到特征图记为/>

；采用定义15中的双线性插值法对特征图/>

进行插值运算，获得含有目标矩形框的特征图，记为/>

；

步骤5、利用池化和全连接层检测网络对SAR图像进行目标检测；池化和全连接层检测网络结构图如图6所示；

步骤5.1：采用定义14中的平均池化运算对步骤4获得的目标矩形框特征图

进行池化运算，获得的包含有检测目标的区域特征图记为/>

，获得具有定义10中原始掩膜的特征图记为/>

；

步骤5.2：采用定义9中目标检测方法对步骤5.1中得到的目标区域特征图

进行SAR图像目标检测，获得平展开的目标区域特征图记为/>

，获得定义8中的上下文信息流记为F；

步骤6、采用上下文信息流利用内容感知重组网络提取SAR图像特征图，内容感知重组网络如图7所示；

步骤6.1：采用步骤3中获得的全连接层FC对步骤5.2中获得的特征图

；

步骤6.2：对步骤6.1获得的多维特征图

进行一次1*1卷积核操作得到的特征图，记为/>

；/>

步骤6.3：对步骤6.2获得的特征图

进行一次3*3卷积运算得到的特征图，记为/>

；

步骤6.4：采用定义11和定义12中的上采样和像素混洗，对步骤6.3获得的特征图

进行一次上采样和像素混洗操作得到的特征图，记为/>

；

步骤6.5：采用定义13中的归一化指数激活函数，对步骤6.4获得的特征图

进行归一化计算得到的特征图，记为/>

；

步骤6.6：选择步骤6.5获得的特征图

中尺寸为K*K的子图像与步骤6.1获得的特征图/>

中同样尺寸的子图像进行逐像素点求和操作，得到尺寸为2K*2K的复原特征子图像，通过遍历计算获得多个复原子图像后进行拼接复原，得到复原后的特征图记为/>

；

步骤7、利用掩膜完成多目标的实例分割；掩膜预测网络结构如图8所示；

步骤7.1：将步骤5.1获得的原始掩膜特征图

、步骤5.2获得的特征图/>

和步骤6.6得到特征图/>

进行像素逐点相加操作，获得新的掩膜特征图记为/>

；

步骤7.2：采用定义6中的框感兴趣区域的候选框方法对步骤7.1得到的掩膜特征图

；

步骤7.3：对步骤7.2得到的局部掩膜特征图

进行1次3*3卷积运算，获得的特征图记为/>

；采用定义17中的批量标准化函数和定义18中的线性整流函数对特征图/>

；

步骤7.4：采用3×3卷积对步骤7.3得到的局部掩膜特征图

进行1次卷积运算获得特征图，记为/>

；采用定义18中的线性整流函数对特征图/>

；

步骤7.5：采用2*2的反卷积运算对步骤7.4得到的特征图

进行卷积运算得到完整掩膜特征图，记为/>

；采用定义16中的S曲线函数对完整掩膜特征图/>

进行对应像素点标记，获得最终所需的实例分割图记为/>

；

步骤8、进行SAR图像实例分割训练；

步骤8.1：将步骤2中得到的训练数据集Train_Exp的所有SAR图像作为输入，采用步骤3~7构建实例分割网络，得到的网络记为RoIENet网络；RoIENet网络的实施流程如图1所示，RoIENet网络的算法结构如图2所示；

步骤8.2：利用定义19中的损失函数计算方法对步骤8.1中获得的RoIENet网络计算得到初始融合损失函数，记为

；

步骤8.3：采用定义21中的模型训练方法对步骤8.2获得的RoIENet网络和步骤8.2获得的

进行优化训练，当/>

最小时获得的最终网络即为最优网络，记为RoIENet-Best；

步骤9、利用RoIENet-Best进行SAR图像实例分割测试；

初始化定义20中的模型评估指标向量阈值，记为

；利用定义22中的模型测试方法和步骤2中得到的测试数据集Test_ExpE对步骤8.3获得的SAR图像实例分割最优网络RoIENet-Best进行测试，得到网络的精确度、交并比和召回率的测试结果向量，记为/>

；若

至此，整个方法结束。

Claims

1.一种联合量子随机数与深度学习SAR实例分割方法，其特征是它包括以下步骤：

步骤1、构建初始SAR图像训练数据集和测试数据集；

采用具有船舶和水平边界框注释的公开SAR舰船检测数据集SSDD数据集；将该SSDD数据集以时间顺序按照7：3的比例分为训练数据集和测试数据集两部分，然后将训练数据集和测试数据集中的图像和图像标注按照COCO格式进行格式转换，得到具有812张的SAR图像训练数据集记为Train，得到具有384张的SAR图像测试数据集记为Test；

步骤2、利用量子随机数对初始SAR图像数据集进行增强；

采用量子随机数生成方法生成一组量子随机数序列，记为N；采用传统数据集增强方法，利用量子随机数序列N对步骤1中得到的训练数据集Train和测试数据集Test进行数据增强操作，得到增强后的SAR图像训练数据集记为Train_Exp，得到增强后的SAR图像测试数据集记为Test_Exp；

步骤3、利用深度残差网络对SAR图像主干特征进行提取；

采用全连接层构建方法构建SAR图像主干特征提取的全连接层，记为FC；采用传统深度残差网络ResNet34构建方法构建SAR图像主干特征提取的残差网络，记为E；将步骤2获得的SAR图像训练数据集Train_Exp输入残差网络E进行主干特征提取，提取SAR图像的主干特征图，记为