CN112258558A

CN112258558A - 基于多尺度孪生网络的目标追踪方法、电子设备及介质

Info

Publication number: CN112258558A
Application number: CN202011149198.1A
Authority: CN
Inventors: 余锦华; 李乐吟; 胡朝煜; 邓寅晖; 黄芸谦; 陈曼
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-22
Anticipated expiration: 2040-10-23
Also published as: CN112258558B

Abstract

本发明提供一种基于多尺度孪生网络的目标追踪方法、电子设备及介质。通过孪生子网络的模板分支和检测分支分别对模板图像和待检测图像进行特征提取；通过多区域建议子网络对孪生子网络中不同层提取到的网络特征进行分类和边界回归并对输出进行聚合，实现对所述目标的定位；对模板分支和检测分支的不同层提取到的网络特征分别进行聚合并分别输入到两个多尺度融合子网络中；将模板分支和检测分支融合后的融合特征进行深度互相关计算得到第一响应图，并预测每个空间元素对应的分割掩模；从中确定输出分割掩模，边界框估计算法模块基于输出分割掩模生成目标的旋转边界框。本发明能够实现实时、精确的目标追踪和分割。

Description

基于多尺度孪生网络的目标追踪方法、电子设备及介质

技术领域

本发明属于计算机辅助诊断技术领域，具体涉及一种基于多尺度孪生网络的目标追踪方法、电子设备及可读存储介质。

背景技术

心脑血管疾病是危害全球百姓健康最严重的疾病之一，发病率、死亡率和致残率呈逐年上升趋势，防治工作刻不容缓。斑块的突然破裂是引发心脑血管意外事件的主要原因，早期识别斑块破裂的风险至关重要。颈动脉作为最容易探查的大动脉之一，成为反应全身动脉系统健康状况的窗口，因此准确评估颈动脉斑块对疾病的诊断和预后具有重要意义。常规超声因具有无创、低成本等优点，广泛应用于颈动脉斑块的检查和测量。精确的追踪和分割颈动脉斑块是评价斑块特征、斑块稳定性的基础。

在过去的几年中，随着深度学习的快速发展，卷积神经网络已经广泛应用于医学图像领域。许多神经网络如U-Net，Faster R-CNN，用于解决超声颈动脉图像的斑块检测和分割。然而这些方法主要针对于独立的单张图像的目标检测和分割，限制了临床检查中信息的全面利用。超声视频包含颈动脉斑块的多个切面信息，在患者的检查、手术及预后分析发挥着重要作用，因此颈动脉斑块的追踪和分割成为目前亟待解决的重要问题。2010年国际计算机视觉大会上发表文章提出使用相关滤波算法进行目标追踪，但没有进行充分利用端到端学习的优势，难以处理复杂多样性的问题。随后一些研究者也相继提出利用梯度下降算法来对多层网络进行微调，但是速度较慢，限制了在线追踪的应用。

深度学习由于其高精度、鲁棒性和通用性，在目标追踪任务中占据了更多的位置。全卷积孪生网络实现了端到端的训练，具有简单、速度快、精度高等优点。全卷积孪生网络将模板图像与当前帧图像进行相关性计算，输出响应图中最高值就是预测的目标位置。全卷积孪生网络的提出同时实现了自然图像目标追踪和视频分割的任务，并取得了显著的成功，但其在前景后景区别不大的医学图像上应用受限。

发明内容

本发明的目的是提供一种基于多尺度孪生网络的目标追踪方法、电子设备及可读存储介质，以解决现有技术中医学视频中目标追踪与分割方法实时性和精度不高的问题。

为达到上述目的，本发明提供一种基于多尺度孪生网络的目标追踪方法，所述多尺度孪生网络包括用于特征提取的孪生子网络、用于定位目标的多区域建议子网络、用于生成分割掩模的多尺度融合子网络、基于分割掩模的边界框估计算法模块；所述目标追踪方法包括：

将模板图像输入所述孪生子网络的模板分支进行特征提取，将待检测图像输入所述孪生子网络的检测分支进行特征提取；其中，所述模板图像中已使用边界框选定需要追踪的目标；

将所述孪生子网络中不同层提取到的网络特征分别输入到所述多区域建议子网络中的多个Siamese RPN模块，并通过所述多区域建议子网络中的加权融合层对多个所述Siamese RPN模块的分类和边界回归的输出分别进行聚合，实现对所述目标的定位；

对所述模板分支的不同层提取到的网络特征分别进行聚合并输入到一个所述多尺度融合子网络中，对所述检测分支的不同层提取到的网络特征分别进行聚合并输入到另一个所述多尺度融合子网络中；

将所述模板分支和所述检测分支融合后的融合特征进行深度互相关计算得到第一响应图，并对于所述第一响应图的每个空间元素均预测对应的分割掩模；

将分类置信度最大的空间元素对应的分割掩模作为输出分割掩模，所述边界框估计算法模块基于所述输出分割掩模生成所述目标的旋转边界框，将所述输出分割掩模和所述旋转边界框作为所述待检测图像的输出。

进一步的，在上述基于多尺度孪生网络的目标追踪方法中，所述孪生子网络采用包含第五阶段的ResNet-50作为特征提取网络，并在第四阶段和第五阶段使用空洞卷积来增加感受野。

进一步的，在上述基于多尺度孪生网络的目标追踪方法中，在每个Siamese RPN模块中，将从所述模板分支和所述检测分支的不同层提取到的网络特征输入到调整层中，使输出通道数量为256，并将所述模板分支和所述检测分支的不同层提取到的网络特征进行深度互相关计算，得到第二响应图；

对于所述第二响应图的每个空间元素，经过所述Siamese RPN模块生成k个候选区域，则得到2k个前景和背景概率以及4k个边界框回归坐标。

进一步的，在上述基于多尺度孪生网络的目标追踪方法中，所述Siamese RPN模块为三个，所述加权融合层按照以下公式对三个所述Siamese RPN模块的分类和边界回归的输出分别进行聚合：

式中，cls_all和reg_all分别为分类分支和回归分支，c_l和r_l分别为不同网络层l的分类和回归输出，α_i和β_i分别指分类分支和回归分支中不同模块的权重。

进一步的，在上述基于多尺度孪生网络的目标追踪方法中，按照以下公式预测所述第一响应图的每个空间元素对应的分割掩模：

M_n＝g(f_n(z,x))，

式中，M_n为第n个预测分割掩模，函数g由两层卷积神经网络组成，大小为1×1，通道数分别为256和63²，f_n(z,x)为所述第一响应图中的第n个空间元素。

进一步的，在上述基于多尺度孪生网络的目标追踪方法中，所述多尺度孪生网络包括还包括用于细化分割掩模的U形模块，由上采样层和跳跃连接层组成，将低分辨率和高分辨率特征在通道维度结合起来以细化所述分割掩模。

进一步的，在上述基于多尺度孪生网络的目标追踪方法中，所述边界框估计算法模块基于所述输出分割掩模生成所述目标的旋转边界框的方法，包括：

计算所述输出分割掩模的旋转角度和中心点，使用仿射变换旋转所述输出分割掩模；

对旋转后的所述输出分割掩模向下翻转并叠加在所述待检测图像上，采用椭圆拟合算法拟合旋转后的所述输出分割掩模和翻转后的所述输出分割掩模，得到一椭圆；

保留所述椭圆的一半并基于该半椭圆生成一个旋转矩形框，以及生成旋转后的所述输出分割掩模的轴对齐外接矩形；

计算所述旋转矩形框与所述轴对齐外接矩形的交集，利用逆仿射变换矩阵将交集内的图像变换回原始坐标，得到所述目标的旋转边界框。

基于同一发明构思，本发明还提供一种电子设备，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现上文任一项所述的基于多尺度孪生网络的目标追踪方法。

基于同一发明构思，本发明还提供一种可读存储介质，所述可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上文任一项所述的基于多尺度孪生网络的目标追踪方法。

本发明的有益效果如下：孪生网络因其高性能被广泛用于目标追踪领域，复杂的语义特征和低层次的特征信息均对医学图像的分割至关重要，因此本发明通过多尺度孪生网络将不同深度层的网络特征进行聚合，有效的实现了精确的目标定位和分割。给定视频第一帧中目标物体一个简单的轴向边界框，通过多尺度孪生网络可以在线实时得到后续帧目标物体的位置和分割结果，使用者可以对目标进行快速简单的初始化，整个系统进行端到端的训练，具有较强的鲁棒性。进一步的，建立了由上采样层和跳跃连接层组成的U形细化模块，将低分辨率和高分辨率特征结合，进一步精细了目标分割结果；进一步的，针对于斑块附着在血管上，其截面近似于半椭圆形，利用半椭圆拟合生成旋转边界框，不仅具有较快的速度，还提供了更多的物体方向信息。

附图说明

图1是本发明一实施例提供的一种基于多尺度孪生网络的目标追踪方法的流程图；

图2本发明一实施例提供的多尺度孪生网络的系统框图；

图3是本发明一实施例提供的基于半椭圆拟合的旋转边界框估计算法；

图4是两例颈动脉斑块检测和分割结果的对比图。

具体实施方式

以下结合附图1～4和具体实施方式对本发明基于多尺度孪生网络的目标追踪方法、电子设备及可读存储介质作进一步详细说明。根据下面说明，本发明的优点和特征将更清楚。需要说明的是，附图采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂，请参阅附图。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

本发明的核心思想在于提供一种基于多尺度孪生网络的目标追踪方法、电子设备以及可读存储介质，以实现实时、精确的目标定位和分割。

如图1所示，本发明提供的一种基于多尺度孪生网络的目标追踪方法包括如下步骤：

步骤S100，将模板图像输入所述孪生子网络的模板分支进行特征提取，将待检测图像输入所述孪生子网络的检测分支进行特征提取；其中，所述模板图像中已使用边界框选定需要追踪的目标；

步骤S200，将所述孪生子网络中不同层提取到的网络特征分别输入到所述多区域建议子网络中的多个Siamese RPN模块，并通过所述多区域建议子网络中的加权融合层对多个所述Siamese RPN模块的分类和边界回归的输出分别进行聚合，实现对所述目标的定位；

步骤S300，对所述模板分支的不同层提取到的网络特征分别进行聚合并输入到一个所述多尺度融合子网络中，对所述检测分支的不同层提取到的网络特征分别进行聚合并输入到另一个所述多尺度融合子网络中；

步骤S400，将所述模板分支和所述检测分支融合后的融合特征进行深度互相关计算得到第一响应图，并对于所述第一响应图的每个空间元素均预测对应的分割掩模；

步骤S500，将分类置信度最大的空间元素对应的分割掩模作为输出分割掩模，所述边界框估计算法模块基于所述输出分割掩模生成所述目标的旋转边界框，将所述输出分割掩模和所述旋转边界框作为所述待检测图像的输出。

以下结合图2所示的多尺度孪生网络对上述目标追踪方法进行详细介绍。

如图2所示的多尺度孪生网络，包括用于特征提取的孪生子网络1、用于定位目标的多区域建议子网络2、用于生成分割掩模的多尺度融合子网络3、用于细化分割掩模的U形模块4、基于分割掩模的边界框估计算法模块5。整个网络进行端到端的训练，在测试阶段不改变网络参数。这五个模块的具体内容如下：

孪生子网络1：全卷积孪生网络具有在线可操作性强、运行速度快等优点。孪生子网络1包括模板分支和检测分支，两个分支的卷积神经网络(CNN)具有相同的参数。可使用轴对称矩形框选定初始帧(即模板图像)中需要追踪的目标，作为模板分支的输入(记为z)。另一个检测分支，用于接收当前帧图像(即待检测图像)(记为x)。优选的，本实施例采用包含第五阶段的ResNet-50作为特征提取网络，并在第四阶段和第五阶段使用空洞卷积来增加感受野。将经过特征提取网络得到的特征图表示为

和

多区域建议子网络2：在ResNet-50中，不同的层具有不同的特征，较低的层具有更多的细节信息，而较高的层具有更复杂的语义特征。本实施例通过多区域建议子网络2聚合不同深度的网络特征来实现更精确的目标定位。如图2中所示，本实施例将conv3_3(conv3的第三个卷积层)、conv4_6(conv4的第六个卷积层)和conv5_3(conv5的第三个卷积层)的网络输出特征分别输入到三个Siamese RPN(Region Proposal)模块。对于每个SiameseRPN模块，将从不同层提取到的网络特征

和

输入到调整层(adjust层)中，使输出通道数量为256。并将所述模板分支和所述检测分支的不同层提取到的网络特征进行深度互相关计算，得到第二响应图，第二响应图f'(z,x)可以表示为：

第二响应图f'(z,x)的大小为17×17，上式中*表示深度互相关运算。对于第二响应图的每个空间元素，经过Siamese RPN模块生成候选区域，假设每个位置有k个(例如k＝5)候选区域，则可以得到2k个前景和背景概率以及4k个边界框回归坐标。三个Siamese RPN模块的分类和边界回归的输出分别由加权融合层(W_layer)进行聚合：

式中，cls_all和reg_all分别为分类分支和回归分支，c_l和r_l分别为不同网络层l的分类和回归输出，α_i和β_i分别指分类分支和回归分支中不同模块的权重。权重值α_i和β_i与网络一起进行端到端训练。

多尺度融合子网络3：为了提高分割的准确性，对孪生子网络的每个分支，本实施例通过将conv3_3、conv4_6和conv5_3层的特征进行聚合，输入到由调整层(adjust)和上采样层(Upsampling)组成的多尺度融合子网络3中。

然后，将模板分支和检测分支融合后的特征进行深度互相关(DW-Corr)计算，得到第一响应图。对于第一响应图的每个空间元素，可以得到一个二值分割掩模，第n个预测分割掩模可以表示为：

M_n＝g(f_n(z,x))，

其中函数g由两层卷积神经网络组成，大小为1×1，通道数分别为256和63²。f_n(z,x)为所述第一响应图中的第n个空间元素，n的范围为1到17×17。

本实施例采用交叉熵损失函数作为分类损失，采用L₁损失函数作为回归损失，二元logistic回归损失函数作为分割掩模的预测损失，因此，所述多尺度孪生网络的整体损失函数定义为：L_all＝λ₁·L_mask+λ₂·L_cls+λ₃·L_reg，式中，L_all为整体损失函数，L_mask为分割掩模的预测损失，L_cls为分类损失，L_reg为回归损失，λ₁，λ₂，λ₃分别为比例系数。优选的，λ₁＝180，λ₂＝5，λ₃＝6。

对于每个空间元素，可以得到一个二值分割掩模，可选择分类置信度最大的空间元素对应的分割掩模作为当前待检测图像的输出分割掩模。然而，函数g生成的初始预测分割掩模是一个1×1×(63×63)的向量，结果较为粗糙。为了得到更精确的目标分割掩模，本实施例优选采取由上采样层(Upsampling)和跳跃连接层(skip connections)组成的U形模块4，将低分辨率和高分辨率特征在通道维度结合起来以细化所述分割掩模。

边界框估计算法模块5：在目标追踪任务中，基于分类置信度最大的空间元素对应的输出分割掩模生成所述目标的旋转边界框，作为当前待检测图像的最终输出。目前基于分割掩模的边界框生成算法主要为以下三种：轴对齐外接矩形(Min-max)算法、最小边界矩形(MBR)算法和Opt算法。与Min-max和MBR算法相比，基于Opt算法生成的边界框含有最小的背景，mIoU和mAP值最高，但计算量大，缺乏实时性和目标物体方向信息。

优选的，本实施例提出一种速度快、精度高的旋转边界框估计算法，图3展示了本实施例提出的基于半椭圆拟合的旋转边界框估计算法，该算法可以实现实时处理，在配备GPU(TITAN Xp)的系统上以75帧/秒的速度生成旋转边界框，具体步骤如下：

步骤一：对于一个给定的分割掩模(如图3中(a)所示)，计算该分割掩模的旋转角度和中心点，使用仿射变换旋转该分割掩模，得到图3中(b)；

步骤二：对图3中(b)所示的掩模向下翻转并叠加在原图上，采用椭圆拟合算法拟合旋转后的分割掩模和翻转后的分割掩模，得到图3中(c)所示的椭圆；

步骤三，如图3中(d)所示，保留椭圆的一半，基于该半椭圆生成一个旋转矩形框(如图3中(e)所示)，生成旋转后的分割掩模的轴对齐外接矩形(如图3中(f)所示)；

步骤四，如图3中(g)所示，计算旋转矩形框与轴对齐外接矩形的交集，利用逆仿射变换矩阵将交集内的图像变换回原始坐标，最终得到如图3中(h)所示的旋转边界框。

本实施例的创新点在于首先将ResNet-50中不同深度的网络层提取的特征分别输入到多个Siamese RPN模块，通过加权融合层分别对分类和回归输出进行聚合，以实现更精确的目标定位。其次，建立由上采样层和跳跃连接层组成的U形细化模块，将低分辨率和高分辨率特征结合起来，来产生更精确的分割掩模，最后，利用半椭圆拟合分割掩模并生成旋转边界框，将分割掩模和旋转边界框作为待检测图像的输出。本实施例的基于多尺度孪生网络的目标追踪方法不仅具有精细的追踪和分割结果，且使用者可以对目标进行快速简单的初始化，可用于临床中颈动脉斑块视频的追踪和分割，并且也适用于其他医学视频的目标追踪和分割。

下面以超声颈动脉斑块视频为例，对本实施例的目标追踪方法的具体实现过程进行说明。

首先对采集到的106例超声颈动脉斑块视频，其中帧数介于58到253帧之间，进行手工标注。为了提高模型的鲁棒性和准确率，采用公开数据集YouTube-VOS和78例超声颈动脉斑块视频作为训练集，28例超声颈动脉斑块视频作为测试集。

在第一训练阶段，通过采用随机梯度下降优化所述多尺度孪生网络的整体损失函数L_all，而在第二训练阶段，只优化掩模分割分支。本实施例采用预热学习率在前5个epoch学习率从10^-3线性递增到5×10^-3，并在最后15个epoch学习率降低至5×10^-4。整个网络在GPU中进行端到端的训练，在测试阶段不进行微调。在训练和测试检测阶段，模板分支和检测分支分别裁剪大小为127×127和255×255图像块。

对于超声颈动脉斑块视频的整个追踪过程为：(1)在第一帧中，给定目标物体一个简单的轴向边界框，作为网络的模板图像z，并输入到模板分支；(2)当前帧作为待检测图像x，输入到检测分支；(3)多尺度孪生网络接收上述两个输入，孪生子网络进行特征提取，然后进行深度互相关计算得到响应图，对于响应图中的每个空间元素，可以得到2k个前景和背景概率、4k个边界框回归坐标和一个分割掩模；(4)选择分类分支中置信度最高的空间元素对应的分割掩模和由该掩模生成的旋转边界框作为当前帧的输出；(5)选取分类分支中置信度最高的空间元素对应的边界回归分支的候选框作为下一帧搜索区域的参考，返回到步骤(3)进行下一帧的追踪和分割。

以下通过对比实验来评估本实施例的多尺度孪生网络在目标追踪和视频分割两个任务上的性能改进。使用平均交并比(mIoU)和平均精度(mAP)@{0.5,0.7}IoU评价颈动脉斑块视频追踪性能，使用Dice系数评价颈动脉斑块视频分割性能。对每一个任务，进行了四组比较实验：(1)全卷积孪生网络，(2)全卷积孪生网络+U形掩模细化模块，(3)全卷积孪生网络+U形掩模细化模块+多Siamese RPN目标定位子网络，(4)多尺度孪生网络。在前三组比较实验中，选择MBR边界框作为最终输出。

表1列出了四个比较实验的四个衡量指标：mDice、mIoU、mAP IoU和mAP IoU。通过分析可以看出，本实施例提出的多尺度孪生网络性能显著的优于全卷积孪生网络，多尺度孪生网络(半椭圆拟合)的结果为83.1％Dice、77.5％mIoU和90.90％mAP IoU。通过使用多个Siamese RPN模块显著的提升了mIoU和mAP，再使用U形分割掩模细化模块，进一步提高了分割性能。此外，还对比了使用不同的边界框算法来表示目标物体对结果性能的提升，相较于多尺度孪生网络(Min-max)和多尺度孪生网络(MBR)，基于半椭圆拟合的旋转框估计算法mAP IoU指标分别提高了10.7％和1.4％。

表1.四组对比实验结果

图4展示了两例超声颈动脉斑块视频的追踪和分割结果。矩形框表示检测结果，矩形框中的闭合曲线表示分割结果，从上到下分别为分割金标准、全卷积孪生网络追踪和分割结果以及多尺度孪生网络追踪和分割结果。通过分析视频追踪结果可以看出，本实施例提出的多尺度孪生网络，边界分割更精确，包含了较多的斑块区域和较少的背景区域，实现了更准确的斑块定位和分割结果。

本实施例只需要给定视频第一帧中目标物体一个简单的轴向边界框，通过提出的多尺度孪生网络可以在线实时得到后续帧目标物体的位置和高精度分割结果，体现了模型具有较强的鲁棒性。使用者可以对目标进行快速简单的初始化，此外，本实施例提出的多尺度孪生网络能够以每秒38帧的速度实时处理，体现了本实施例方法的实用性。

基于同一发明构思，本发明还提供一种电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如上文所述的基于多尺度孪生网络的目标追踪方法。

所述处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器(例如GPU(Graphics Processing Unit-图形处理器))、或其他数据处理芯片。该处理器通常用于控制所述电子设备的总体操作。本实施例中，所述处理器用于运行所述存储器中存储的程序代码或者处理数据，例如运行基于多尺度孪生网络的目标追踪方法的程序代码。

所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器可以是所述电子设备的内部存储单元，例如该电子设备的硬盘或内存。在另一些实施例中，所述存储器也可以是所述电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器还可以既包括所述电子设备的内部存储单元也包括其外部存储设备。本实施例中，所述存储器通常用于存储安装于所述电子设备的操作方法和各类应用软件，例如基于多尺度孪生网络的目标追踪方法的程序代码等。此外，所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

基于同一发明构思，本实施例还提供一种可读存储介质，所述可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如上文所述的基于多尺度孪生网络的目标追踪方法。

综上所述，本发明提供一种基于多尺度孪生网络的目标追踪方法、电子设备及存储介质，采用多尺度孪生网络将不同深度层的网络特征进行聚合，有效的实现了精确的目标定位和分割。给定视频第一帧中目标物体一个简单的轴向边界框，通过多尺度孪生网络可以在线实时得到后续帧目标物体的位置和分割结果，使用者可以对目标进行快速简单的初始化，整个系统进行端到端的训练，具有较强的鲁棒性。进一步的，建立了由上采样层和跳跃连接层组成的U形细化模块，将低分辨率和高分辨率特征结合，进一步精细了目标分割结果；进一步的，针对于斑块附着在血管上，其截面近似于半椭圆形，利用半椭圆拟合生成旋转边界框，不仅具有较快的速度，还提供了更多的物体方向信息。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于多尺度孪生网络的目标追踪方法，其特征在于，所述多尺度孪生网络包括用于特征提取的孪生子网络、用于定位目标的多区域建议子网络、用于生成分割掩模的多尺度融合子网络、基于分割掩模的边界框估计算法模块；所述目标追踪方法包括：

2.如权利要求1所述的基于多尺度孪生网络的目标追踪方法，其特征在于，所述孪生子网络采用包含第五阶段的ResNet-50作为特征提取网络，并在第四阶段和第五阶段使用空洞卷积来增加感受野。

3.如权利要求1所述的基于多尺度孪生网络的目标追踪方法，其特征在于，在每个Siamese RPN模块中，将从所述模板分支和所述检测分支的不同层提取到的网络特征输入到调整层中，使输出通道数量为256，并将所述模板分支和所述检测分支的不同层提取到的网络特征进行深度互相关计算，得到第二响应图；

4.如权利要求1所述的基于多尺度孪生网络的目标追踪方法，其特征在于，所述Siamese RPN模块为三个，所述加权融合层按照以下公式对三个所述Siamese RPN模块的分类和边界回归的输出分别进行聚合：

5.如权利要求1所述的基于多尺度孪生网络的目标追踪方法，其特征在于，按照以下公式预测所述第一响应图的每个空间元素对应的分割掩模：

M_n＝g(f_n(z,x))，

6.如权利要求1所述的基于多尺度孪生网络的目标追踪方法，其特征在于，所述多尺度孪生网络包括还包括用于细化分割掩模的U形模块，由上采样层和跳跃连接层组成，将低分辨率和高分辨率特征在通道维度结合起来以细化所述分割掩模。

7.如权利要求1所述的基于多尺度孪生网络的目标追踪方法，其特征在于，所述边界框估计算法模块基于所述输出分割掩模生成所述目标的旋转边界框的方法，包括：

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1至7中任一项所述的方法。

9.一种可读存储介质，其特征在于，所述可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的方法。