CN116416553A

CN116416553A - 基于时空解耦注意力机制的视频目标分割方法

Info

Publication number: CN116416553A
Application number: CN202310258540.9A
Authority: CN
Inventors: 李嘉陆; 王琼
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2023-03-08
Filing date: 2023-03-08
Publication date: 2023-07-11

Abstract

本发明涉及一种基于时空解耦注意力机制的视频目标分割方法，该方法将当前待检测视频段、当前帧的前一帧、包含前一帧在内的之前的记忆视频段输入训练好的视频目标分割模型，获得当前待检测视频段的预测遮罩，完成当前待检测视频段中的目标分割；所述视频目标分割模型对输入的当前待检测视频段、当前帧的前一帧、包含前一帧在内的之前的记忆视频段，采用时空解耦注意力机制，进行时间和空间两个维度的并行相似度计算，同时获取目标的时间特征和空间特征，继而得到融合特征，基于融合特征获得当前待检测视频段的预测遮罩，实现目标分割。所述方法能够对输入的分段化超声视频段，自动获取病灶的遮罩，能够提升超声视频病灶自动检测速度和精度。

Description

基于时空解耦注意力机制的视频目标分割方法

技术领域

本发明涉及医学影像中的视频分割领域，尤其涉及基于时空解耦注意力机制的超声视频分割方法。

背景技术

现有STM算法是针对自然视频提出的，采用“全局注意力”匹配机制，需要对当前帧所有点和记忆帧进行全局相似性匹配计算，以提取当前帧任一点的全局语义信息，辅助当前帧的分割。然而与自然图像视频不同的是，在超声视频中，病变区域通常在跨记忆帧的局部邻域内，使用全局注意力可能会引入相似的误导性信息。而且“全局注意力”匹配机制密集型的计算模式不可避免的带来了巨大的计算成本，当记忆帧数多时，难以达到实时的需求。同时，原始STM在运行过程中的内存消耗是随着视频帧数的增长而不断增加的，具有内存溢出风险。

发明内容

为了解决现有技术中存在的上述问题，本发明的目的在于提出一种“分段化视频序列的时空解耦注意力”机制和“历史视频段融合”机制，它能够有效节省计算机算力资源，提升目标区域检测速度，同时过滤数据中的干扰信息提升检测精度。进一步地，通过记忆模块(Memory)中引入卷积操作，使得记忆模块中的视频帧数始终保持在一个安全的规模。

为实现上述目的，本发明的技术方案如下。

第一方面，本案提出一种基于时空解耦注意力机制的视频目标分割方法，所述方法具体如下：

将当前待检测视频段、当前帧的前一帧、包含前一帧在内的之前的记忆视频段输入训练好的视频目标分割模型，获得当前待检测视频段的预测遮罩，完成当前待检测视频段中的目标分割；

所述视频目标分割模型对输入的当前待检测视频段、当前帧的前一帧、包含前一帧在内的之前的记忆视频段，采用时空解耦注意力机制，进行时间和空间两个维度的并行相似度计算，同时获取目标的时间特征和空间特征，继而得到融合特征，基于融合特征获得当前待检测视频段的预测遮罩，实现目标分割。

上述技术方案提出了一种基于深度学习的视频分割方法，能够对输入的分段化超声视频帧进行智能处理，自动化获取病灶的遮罩，用于提升计算机系统辅助超声视频病灶自动检测精度。

在一种实施方式中，视频目标分割模型包括编码器、VQVAE模块、时间注意力模块、空间注意力模块、解码器；其中：

编码器，用于获取当前待检测视频段的一对键特征图(key)和值特征图(value)、当前帧的前一帧的一对键特征图和值特征图、包含前一帧在内的之前的记忆视频段一对键特征图和值特征图；

VQ-VAE(Vector Quantised Variational Autoencoder，矢量量化变分自动编码器)，用于对当前待检测视频段的键特征图和值特征图、当前帧的前一帧的键特征图和值特征图、包含前一帧在内的之前的记忆视频段的键特征图和值特征图，进行离散处理；

时间注意力模块，对当前待检测视频段和记忆视频段在临近时间节点上的对应位置的局部区域进行相似度匹配，获取时间特征；

空间注意力模块，以非局部注意力的方式计算当前待检测视频段中每一帧图像与前一帧图像的之间的两两相似性，获取空间特征。

在一种实施方式中，空间注意力模块采用下式，以非局部注意力的方式计算当前待检测视频段中每一帧图像与前一帧图像的之间的两两相似性：

式中：K^Q为当前待检测视频段的键特征图，K^P为当前帧的键特征图，

表示矩阵乘法运算，Softmax为归一化指数函数；

将相似性计算结果和当前帧的值特征图进行合并得到空间维度的优化后的空间特征图y^S：

y^S＝[V^Q，f(K^Q，K^P)V^P]

其中：V^Q为当前待检测视频段的值特征图，V^P为当前帧的值特征图。

在一种实施方式中，记忆值特征图的获取包括下述步骤：

对当前待检测视频段的键特征图K^Q，沿着特征图的长度和宽度分成S²个不重叠的区域块，每一块表示为

k＝1，2，...，T，i＝1，2，...，s，j＝1，2，...，s；T，s为自然数，T为记忆视频段总数，s为区域块的索引；

对包含前一帧在内的之前的记忆视频段的键特征图K^M，与当前待检测视频段的键特征图进行相同处理，每一块表示为

并将局部区域块按照时间维度建立集合

按下式计算相似性：

式中：

表示矩阵乘法运算。

将局部相似性作为记忆帧值特征图的权重，将各个记忆帧值特征图进行加权计算，获得加权后的记忆值特征图V^T，并进一步和当前帧的值特征图V^Q按照相同区域索引进行合并，得到时间维度优化后的时间特征图y^T：

在一种实施方式中，融合特征所对应的融合特征图，是通过将空间维度的优化后特征图和时间维度的优化后特征图，在沿着通道维度拼接之后，输入到一个卷积层进行特征融合得到。

在一种实施方式中，视频目标分割模型包括记忆模块，用于存储视频数据；所述记忆模块设置要存储的视频帧数最大值Max；当记忆视频段中的视频帧数达到最大值Max时，采用卷积操作将当前待检测视频段和记忆视频段中的视频帧进行融合，使得记忆模块中的视频帧数始终保持在一个安全的规模。

在一种实施方式中，解码器将时间特征图和空间特征图的通道维度进行拼接；解码器由M1个细化模块构成，每个细化模块由M2个残差卷积块串联构成，M1、M2为设定值；在每个细化模块，解码器将前一细化模块的输出和当前输出所对应的编码器的特征图进行跳跃连接，并通过插值将输出特征图大小调整为当前帧的尺寸，从而获得当前帧的预测遮罩。

在一种实施方式中，视频目标分割模型在训练时使用的损失函数如下：

Ltotal＝Lseg+αLinfo

Lseg＝Ldice(pred，GT)+Lbce(pred，GT)

Linfo＝Func(Fstm，Fmemo)

其中：α为大于0的超参数，比如1，Ldice表示Dice损失函数，Lbce表示二元交叉熵损失函数，pred表示预测遮罩，GT表示实际遮罩，Linfo为信息熵损失函数，Fstm为融合前的记忆视频段中的帧序列，Fmemo为融合后得到的视频段中的帧序列。

第二方面，本案提出一种计算机可读存储介质，存储有能够被处理器加载并执行如上述任一种方法的计算机程序。

附图说明

图1、一种实施方式中的STM网络框架示意图；

图2、一种实施方式中的Space-time memory read模块示意图；

图3、一种实施方式中的视频目标分割模型的示意图；

图4、一种实施方式中的记忆模块(Memory)记忆视频段融合机制示意图。

具体实施方式

利用计算机自动地对超声视频中病变区域进行精准分割对于计算机辅助临床检查和治疗至关重要的。该任务可以被表述为一个对超声波视频中每一帧图像进行二进制标注的问题，即利用计算机辅助系统对超声视频数据中的病变区域自动地进行像素级标注。与超声图像分割任务相比，超声视频分割可以提供病灶的时间维信息，更加接近临床诊疗需求。

然而，由于临床乳腺超声成像过程中存在各种伪影现象，例如散斑噪声、低对比度和强度不均匀性，病变与非病变区域边界模糊等问题，使得超声视频分割任务极具技术挑战性；而且为了充分利用时间维度信息，现有计算模型通常需要同时存储、处理和融合多帧图像信息，计算量巨大，难以达到实时、低延迟的临床需求。

图1是一个Space-Time Memory Network(STM，时空记忆网络)模型的整体框架示意图。在该模型中，假设对于实际的视频分割问题中，随着之前帧的预测结果，可用于当前帧的分割线索会变得更加丰富，因此STM提出使用记忆网络记录中间信息，从中学习读取分割目标的相关信息，并辅助后续帧的分割。STM的网络结构由memory和query两部分处理组成，其中query是当前帧，memory记录当前帧之前的所有帧信息，以下称为记忆帧。记忆帧输入是4维的，包括RGB图和单通道的目标遮罩，当前帧输入只有RGB维。记忆帧和当前帧的编码器都是使用ResNet50作为基础网络，只不过输入通道数不一样，之后接两个平行的卷积操作分支，分别生成Key(键)和Value(值)两个特征图。然后记忆帧和当前帧的Key/Value通过Space-t ime memory read模块进行全局注意力计算，如图2所示，当前帧和记忆帧的key相乘并经过Softmax操作，作为权重系数与记忆帧的value相乘，再和当前帧的value拼接到一起作为解码器的输入，经过解码器之后获取当前帧的目标遮罩，即完成当前帧的分割。

上述STM算法是针对自然视频提出的，采用‘“全局注意力”’匹配机制，需要对当前帧所有点和记忆帧所有点进行两两相似性匹配计算，以提取当前帧任一点的全局语义信息，辅助当前帧的分割。然而与自然图像视频不同的是，在超声视频中，病变区域通常在跨记忆帧的局部邻域内，使用全局注意力可能会引入相似的误导性信息。而且“全局自注意力”匹配机制密集型的计算模式不可避免的带来了巨大的计算成本，当记忆帧数多时，难以达到实时的需求。同时，原始STM在运行过程中的内存消耗是随着视频帧数的增长而不断增加的，具有内存溢出风险。

为此，可利用本案提出的基于时空解耦注意力机制的视频目标分割方法，结合病灶的特征，对分段化视频序列的超声视频进行智能处理，自动化获取病灶的遮罩，不仅能够显著提升病灶分割精度，而且也大大减少了计算的复杂度。

具体地，在视频分割过程中，首先将待检测的视频序列分为多个视频段(Clip)，并在后序的处理中以视频段(Clip)为最小单位进行输入。记忆视频段(Memory Clip)和当前待检测视频段(Query Clip)首先分别通过记忆编码器(Memory Encoder)和当前待检测视频段编码器(Query Encoder)编码成键特征图(key)和值特征图(value)，然后将每一个键特征图(key)和值特征图(value)输入至VQVAE进行离散化操作，然后再将离散化后的键特征图(key)和值特征图(value)输入后续的时间空间解耦注意力模块。

与STM在视频空间上构建全局内存读取模块的不同，本发明提出的方法将时空内存模块分解为沿空间和时间维度的两个并行轻量级模块。在时间注意力模块中，关注当前待检测视频段(Query Clip)和记忆视频段(Memory Clip)在临近时间节点上的对应位置的局部区域进行相似度匹配，对目标区域在记忆视频段(Memory Clip)中的移动轨迹进行建模；而在空间注意力模块以非局部注意力的方式计算当前待检测视频段(Query Clip)中每一帧图像与前一帧图像的之间的注意力，它模拟了当前待检测视频段(Query Clip)两个相邻视频帧之间静止背景纹理的全局相似性。

此外，原始STM在运行过程中的内存消耗是随着视频帧数的增长而不断增加的，具有内存溢出风险。本发明提出的方法在记忆模块(Memory)中引入卷积操作，使得记忆模块中的视频帧数始终保持在一个安全的规模。

在一种实施方式中，基于分段化视频序列的时空解耦注意力机制的超声视频分割模型如图3所示，各部分介绍如下：

(I)编码器

用Query Clip标记当前待检测视频段，Previous为当前帧的前一帧，Memory Clip为包含前一帧在内的之前所有记忆视频段，编码器记为Enc，解码器记为Dec，深度学习模型生成的结果记为pred。

采用ResNet50作为编码器的主干网络，对于记忆视频段(Memory Clip)，修改第一层卷积网络的输入通道为4。将ResNet50的特征层输出的特征图进一步输入到两个独立的卷积层，生成一对键特征图(key)和值特征图(value)。编码器也可以采用其他流行的特征提取网络，例如ResNet-152，AlexNet，VGGNet，Inception等。

因此，当前待检测视频段(Query Clip)、前一帧和记忆视频段(Memory Clip)分别通过编码器输出一对键(key)值(value)特征图，分别表示为(K^Q，V^Q)，(K^P，V^P)，(K^M，V^M)。接下来，利用VQVAE将上述键特征图(key)和值特征图(value)依次进行处理，通过VQVAE将特征值映射到离散空间，以对每一个像素点做一个预处理。随后，再将VQVAE离散化的特征图输入至时间-空间解耦注意力模块。

通过时间和空间两个维度的并行相似度计算，本发明不仅大大缓解了STM的计算复杂度，而且有效获取了目标的时间空间特征，提升了目标分割的精度。

(II)时间-空间解耦注意力模块

将STM的记忆注意力模块分解为时间注意力模块和空间注意力模块，时间注意力模块和空间注意力模块通过并行的方式组成时间-空间解耦模块。其中，时间注意力模块将当前待检测视频段的键特征图K^Q沿着特征图的长度和宽度分成S²个不重叠的区域块，每一块表示为

k＝1，2，...，T，i＝1，2，...，s，j＝1，2，...，s；T，s为自然数，T为记忆视频段总数，s为区域块的索引，S为设定值，为大于1的任何整数，具体值可根据实验结果设定。对包含前一帧在内的之前的记忆视频段的键特征图K^M，与当前待检测视频段的键特征图进行相同处理，每一块表示为/>

并将局部区域块按照时间维度建立集合/>

然后，采用矩阵乘法计算相似性：

式中：

表示矩阵乘法运算。

获取归一化的相似性后，将相似性作为记忆帧值特征图的权重，进行加权计算时间注意力的记忆值特征图：

式中：

表示加权计算时间注意力后的记忆值特征图，/>

为记忆帧的值特征图。

将得到记忆特征图

进一步和当前帧的值特征图V^Q按照相同区域索引进行合并，得到时间特征图y^T，即：

对于空间注意力模块，本发明提出的方法假设前后两帧的运动或者变化差异较小，前一帧的遮罩可以给当前帧提供粗略的指导。在实施方式中，为获取非局部的空间相关性，通过以下方式计算前一帧和当前帧的两两相似性：

表示矩阵乘法运算，Softmax为归一化指数函数。

然后，将相似性计算结果和当前帧的值特征图进行合并，得到空间注意力输出为：

y^S＝[V^Q，f(K^Q，K^P)V^P]

时间注意力模块和空间注意力模块，通过并行计算后，将输出的y^S和y^T合并之后输入到一个卷积层进行特征融合后，得到新的特征图，并输入到解码器。

值得特殊说明的是，对于时间维度的时间注意力模块，是将当前视频段(QueryClip)和记忆视频段(Memory Clip)分别进行进一步的拆分，分成t个时间子段。然后将对应时间子段上的对应位置的局部区域进行相似度匹配，通过这种方法对目标区域在记忆视频段(Memory Clip)中的移动轨迹进行建模。对于空间维度的注意力模块，我们是在当前视频段(Query Clip)内部进行计算，视频段内部的每一帧都与前一帧进行相似度匹配，通过这种方法对优化每一帧中局部细节特征。

在其它一些实施方式中，不同于时间注意力模块和空间注意力模块并行的方式组成时间-空间解耦模块，而是采用串行的方式组合。

本发明中的时间注意力模块和空间注意力模块可以进行N次叠加，本实例使用1次。

(III)记忆模块(Memory)历史视频段融合机制

不同于STM算法中记忆模块(Memory)中视频帧数无限增长的特点，本发明提出的方法为记忆模块(Memory)中的最大视频帧数设定为Max。当记忆模块(Memory)中的帧数达到Max时，使用卷积操作将当前视频段(Query Clip)和记忆模块(Memory)中的视频帧进行融合，使得视频帧数始终保持在Max。

具体来说，首先沿着时间维度将当前视频段(Query Clip)对应的键、值特征图和记忆视频段(Memory Clip)对应的键、值特征图分别均匀分为X组，在一实施方式中根据实验结果，选取X＝3，参见图4。

接下来，我们分组采用图2的方式分组对上述特征图进行计算。对于第1组，当前视频段中第一组的键特征图K^Q1、记忆视频段中第一组的键、值特征图(K^M1，Q^M1)执行图2的计算，得到当前视频段中第一组的值特征图V^Q1。

计算接下来的第x组，我们会利用前一次计算中涉及的特征图更新记忆视频段的键、值特征图：当前视频段中前一组的键特征图K^Q(x-1)沿着通道维度拼接到记忆视频段的键特征图最前端、当前视频段中前一组的值特征图V^Q(x-1)沿着通道维度拼接到记忆视频段的值特征图最前端。然后执行图2的计算，得到当前视频段第x组的值特征图。

以此类推，直至计算完所有的X组特征图(V^Q1，V^Q2，V^Q3)。

然后，我们将所有的X组特征图(V^Q1，V^Q2，V^Q3)沿着通道维度进行拼接，得到最后的结果，即：当前视频段(Query Clip)的值特征图V^Q.

同时，为了保证深度学习模型的分割精度，在模型训练阶段用信息熵损失函数指导该模块的训练。具体来说，信息熵损失函数的输入有两部分，一个是原始STM中记忆模块产生的视频序列，另一个是根据我们的记忆模块(Memory)历史视频段融合机制所产生的视频序列。我们在训练阶段最小化这两组视频帧之间的差异性。使得记忆模块(Memory)历史视频段融合机制在对历史帧进行融合的时候能够保持足够的信息量。

(IV)解码器

解码器将时间特征图和空间特征图的通道维度进行拼接。解码器由M1个细化模块构成，每个细化模块由M2个残差卷积块串联构成，M1、M2为可调整的设定值，通过残差卷积块逐渐放大特征图。在每个细化模块，解码器将前一细化模块的输出和当前输出所对应的编码器的特征图进行跳跃连接，并通过插值将输出特征图大小调整为当前帧的尺寸，其中通道为1，输出当前帧的预测遮罩

插值方法可以是双线性插值法、最邻近插值法或三线性插值法等。

(V)损失函数

综上，本发明提出的方法是将当前待检测视频段、当前帧的前一帧、包含前一帧在内的之前的记忆视频段输入训练好的视频目标分割模型，获得当前帧的预测遮罩，完成当前待检测视频段中的目标分割。

其中，视频目标分割模型对输入的当前待检测视频段、当前帧的前一帧、包含前一帧在内的之前的记忆视频段，采用时空解耦注意力机制，进行时间和空间两个维度的并行相似度计算，同时获取目标的记忆值特征和空间值特征，继而得到融合特征，基于融合特征获得当前待检测视频段的预测遮罩，实现目标分割。

结合图3可知，视频目标分割模型包括编码器、VQVAE模块、时间注意力模块、空间注意力模块、解码器；其中：

(1)编码器，在实施方式中设置了2个，分别用于获取当前待检测视频段的一对键特征图(key)和值特征图(value)、包含前一帧在内的之前的记忆视频段一对键特征图和值特征图。当前帧的前一帧的一对键特征图和值特征图，可通过包含前一帧在内的之前的记忆视频段处理获得。

(2)VQ-VAE(Vector Quantised Variational Autoencoder，矢量量化变分自动编码器)，将当前待检测视频段的键特征图和值特征图、获取当前帧的前一帧的一对键特征图和值特征图、包含前一帧在内的之前的记忆视频段的键特征图和值特征图进行离散处理；

(3)时间注意力模块，对当前待检测视频段和记忆视频段在临近时间节点上的对应位置的局部区域进行相似度匹配，获取记忆值特征；

(4)空间注意力模块，以非局部注意力的方式计算当前待检测视频段中每一帧图像与前一帧图像的之间的两两相似性，获取空间值特征。

视频目标分割模型在训练时使用的损失函数分为两部分，一部分是由二元交叉熵损失和Dice损失组成的分割损失，分割损失函数Lseg包含预测遮罩

和标记的Y的像素级二元交叉熵损失和Dice损失：

Lseg＝Ldice(pred，GT)+Lbce(pred，GT)

其中：Ldice表示Dice损失函数，Lbce表示二元交叉熵损失函数，pred表示预测遮罩，GT表示实际遮罩。

另一部分是由信息熵损失实现的信息熵损失函数Linfo：

Linfo＝Func(Fstm，Fmemo)

其中：Func表示信息熵损失函数，Linfo为信息熵损失函数，Fstm为融合前记忆模块产生的视频帧序列，Fmemo为根据我们的记忆模块(Memory)历史视频段融合机制所产生的视频序列。

Ltotal＝Lseg+αLinfo

其中：α为大于0的超参数，衡量了两项损失的权重，在一实施方式中设置为1。

在一实施方式中，将基于时空解耦注意力机制的视频目标分割方法，实现为一种基于时空解耦注意力机制的视频目标分割系统。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本公开可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本公开而言更多情况下，软件程序实现是更佳的实施方式。

在一实施方式中，将本发明提出的方法进行试验验证，实验结果表明，本发明与现有技术相比，不但检测精度更高，同时检测速度也更快，可以做到实时检测。在实验中，使用63套共4619帧分辨率为300×200的临床乳腺结节超声视频数据对本发明进行检验测试。为了定量对比，除帧率外，还使用4个局有说服力的指标参数进行比较，分别是：Jaccard，Dice，Precision，Recall。实验结果如下表1所示：

表1

	Jaccard(％)	F-measure(％)	Precision(％)	Recall(％)
					STM	56.14	67.72	71.56	68.66
本方法	73.42	82.53	83.97	84.26

由表格可知，本发明所提出的方法在检测精度、检测速度上都优于现有方法。

综上，本发明所提出的方法具有下述有益效果：

(1)适用于超声视频的病灶分割，与医学图像分割方法不同，本发明充分利用了视频的时间维度信息以提升分割结果。

(2)方法中的时间-空间解耦注意力模块，是由时间注意力模块和空间注意力模块并行组成，相比于卷积神经网络，该模块在特征学习时具有无限的可视野，相比于STM的注意力机制，大大降低了计算复杂度。

(3)方法中采用记忆模块历史视频段融合机制，相比于之前的STM中使用的历史视频帧融合机制，在保证历史帧信息不会被随意丢弃的条件下，可用较小的设备内存运行本发明提出的算法模型，进一步提升了实际应用性。

(4)而整个方法中最耗时的时间和空间解耦的注意力模块是通过并行分段化的方式分别计算再进行组合的，并行的分段化的方式可以有效提升计算速率，加速推理速度。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于时空解耦注意力机制的视频目标分割方法，其特征在于，所述方法如下：

2.根据权利要求1所述的方法，其特征在于：

视频目标分割模型包括编码器、VQVAE模块、时间注意力模块、空间注意力模块、解码器；其中：

编码器，用于获取当前待检测视频段的键特征图(key)和值特征图(value)、当前帧的前一帧的键特征图和值特征图、包含前一帧在内的之前的记忆视频段键特征图和值特征图；

3.根据权利要求2所述的方法，其特征在于：

空间注意力模块采用下式，以非局部注意力的方式计算当前待检测视频段中每一帧图像与前一帧图像的之间的两两相似性：

表示矩阵乘法运算，Softmax为归一化指数函数；

将相似性计算结果和当前帧的值特征图进行合并得到空间维度优化后的空间特征图y^S：

y^S＝[V^Q，f(K^Q，K^P)V^P]

4.根据权利要求2所述的方法，其特征在于，时间特征图的获取包括下述步骤：

T，s为自然数，T为记忆视频段总数，s为区域块的索引，S为设定值；

并将局部区域块按照时间维度建立集合

按下式计算相似性：

式中：

表示矩阵乘法运算。

5.根据权利要求1所述的方法，其特征在于，融合特征所对应的融合特征图，是通过将空间维度的优化后特征图和时间维度的优化后特征图，在沿着通道维度拼接之后，输入到一个卷积层进行特征融合得到。

6.根据权利要求2所述的方法，其特征在于：

视频目标分割模型包括记忆模块，用于存储记忆视频段数据；

在记忆模块中设置要存储的视频帧数最大值Max；

当存储的视频帧数达到最大值Max时，采用卷积操作将当前待检测视频段和已存储的视频段中的视频帧进行融合。

7.根据权利要求5所述的方法，其特征在于：

解码器将时间特征图和空间特征图的通道维度进行拼接；

解码器由M1个细化模块构成，每个细化模块由M2个残差卷积块串联构成，M1、M2为设定值；

在每个细化模块，解码器将前一细化模块的输出和当前输出所对应的编码器的特征图进行跳跃连接，并通过插值将输出特征图大小调整为当前帧的尺寸，从而获得当前帧的预测遮罩。

8.根据权利要求6所述的方法，其特征在于：

视频目标分割模型在训练时使用的损失函数如下：

Ltotal＝Lseg+αLinfo

Lseg＝Ldice(pred，GT)+Lbce(pred，GT)

Linfo＝Func(Fstm，Fmemo)

其中：α为大于0的超参数，Ldice表示Dice损失函数，Lbce表示二元交叉熵损失函数，pred表示预测遮罩，GT表示实际遮罩，Linfo为信息熵损失函数，Fstm为融合前的记忆视频段中的帧序列，Fmemo为融合后得到的视频段中的帧序列。

9.根据权利要求8所述的方法，其特征在于：α＝1。

10.一种计算机可读存储介质，其特征在于：存储有能够被处理器加载并执行如权利要求1至9中任一种方法的计算机程序。