CN113450362A

CN113450362A - 一种视频目标分割方法、装置和电子系统

Info

Publication number: CN113450362A
Application number: CN202110616968.7A
Authority: CN
Inventors: 董斌; 汪天才
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-09-28

Abstract

本发明提供了一种视频目标分割方法、装置和电子系统，其中，该方法包括：获取待处理的视频帧序列中的视频帧对应的特征集；根据当前帧之前的历史帧的跟踪查询向量集和当前帧的特征集，获取当前帧的跟踪查询向量初始集；其中，跟踪查询向量初始集包括当前帧对应的查询向量、以及该查询向量的分类得分、回归位置和DCT编码系数；对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，得到带有跟踪ID的查询向量；根据历史帧的跟踪查询向量集对带有跟踪ID的查询向量中DCT编码系数对应的元素进行更新，得到当前帧的跟踪查询向量集。通过本发明，在保证分割精度的基础上降低了计算量，提升了视频实例分割性能。

Description

一种视频目标分割方法、装置和电子系统

技术领域

本发明涉及图像识别技术领域，尤其是涉及一种视频目标分割方法、装置和电子系统。

背景技术

视频实例分割任务，是指网络能够精确地对连续视频画面中多个不同类别的目标以及相同类别目标的不同个体进行分割和跟踪。当前视频实例分割框架设计方法主要是先使用实例分割模型(如Mask R-CNN)等检测并分割出连续视频的所有目标的二值化掩码(1代表目标像素，0代表背景像素)，然后使用数据关联方法(如匈牙利匹配、卡尔曼滤波等)将相同目标连接形成该目标的跟踪轨迹。该方法先利用双阶段目标检测器生成目标框，然后在目标框内进行前景与背景的二分类分割。

上述视频实例分割方法，在视频画面的分辨率较高时，计算量较大，影响分割效率，而降低计算量通常会影响分割的精度。目前技术中尚未提出有效的权衡分割效率和分割精度的技术，导致视频实例分割性能不能满足实际应用的需要。

发明内容

有鉴于此，本发明的目的在于提供一种视频目标分割方法、装置和电子系统，以在保证分割精度的基础上降低计算量，提升视频实例分割性能。

第一方面，本发明实施例提供了一种视频目标分割方法，所述方法应用于电子设备，所述方法包括：获取待处理的视频帧序列中的视频帧对应的特征集；根据当前帧之前的历史帧的跟踪查询向量集和所述当前帧的特征集，获取所述当前帧的跟踪查询向量初始集；其中，所述跟踪查询向量初始集包括所述当前帧对应的查询向量、以及该查询向量的分类得分、回归位置和DCT编码系数；对所述当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，得到带有跟踪ID的查询向量；根据所述历史帧的跟踪查询向量集对带有跟踪ID的查询向量中所述DCT编码系数对应的元素进行更新，得到所述当前帧的跟踪查询向量集；其中，所述跟踪查询向量集包括所述当前帧的DCT编码系数对应的目标分割信息。

其中，所述方法还包括：当得到所述视频帧序列中的各个帧的跟踪查询向量集时，对每个所述跟踪查询向量集中的DCT编码系数进行DCT反变换，得到每个所述DCT编码系数对应目标的二值掩码，根据所述二值掩码获取目标分割结果；或者，当得到所述当前帧的跟踪查询向量集时，对所述当前帧的跟踪查询向量集中的DCT编码系数进行DCT反变换，得到该DCT编码系数对应目标的二值掩码，根据所述二值掩码获取目标分割结果。

所述DCT编码系数的获取方式如下：将所述查询向量对应的目标框二值化，将二值化后的目标框缩放至预设掩码尺寸，得到缩放框；应用预设的DCT变换矩阵将所述缩放框变换至频域空间，得到频域框；对所述频域框的低频信息所在区域的元素进行第一排序，得到低频元素序列；从所述低频元素序列中依次选取指定数量个元素，作为所述查询向量对应的DCT编码系数。

所述DCT反变换的步骤，包括：构建DCT反变换初始矩阵；其中，所述DCT反变换初始矩阵的尺寸与所述预设掩码尺寸相同；将DCT反变换初始矩阵中的指定数量个元素依次替换为所述跟踪查询向量集中的DCT编码系数中的元素；对所述DCT反变换初始矩阵中的DCT编码系数进行第二排序，得到DCT编码系数序列；应用所述DCT变换矩阵对所述DCT编码系数序列进行DCT反变换。

所述电子设备预存有训练完成的目标分割模型，所述目标分割模型包括骨干网络、编码器、解码器和特征向量传递模块，其中，所述解码器包括DCT编码模块；所述获取待处理的视频帧序列中的视频帧对应的特征集的步骤，包括：通过所述骨干网络和所述编码器对待处理的视频帧序列中的视频帧进行处理，得到与所述视频帧对应的特征集；根据当前帧之前的历史帧的跟踪查询向量集和所述当前帧的特征集，获取所述当前帧的跟踪查询向量初始集的步骤，包括：组合初始查询向量集和当前帧之前的历史帧的跟踪查询向量集，得到查询向量合集；将所述查询向量合集和所述当前帧的特征集输入所述解码器，得到所述当前帧对应的跟踪查询向量初始集；根据所述历史帧的跟踪查询向量集对带有跟踪ID的查询向量中所述DCT编码系数对应的元素进行更新，得到所述当前帧的跟踪查询向量集的步骤，包括：获取跟踪ID对应的ID队列；其中，所述ID队列用于保存指定数目的连续帧中同一跟踪ID对应的查询向量；将每个所述ID队列中的查询向量和所述查询向量对应的DCT编码系数输入所述特征向量传递模块，以更新查询向量中所述DCT编码系数对应的元素，得到所述当前帧的跟踪查询向量集。

其中，所述目标分割模型的训练过程包括：通过所述DCT编码模块对训练样本中的真值框对应的二值框进行DCT变换，得到真值频域框，从所述真值频域框的低频信息所在区域确定出所述真值框的DCT真值系数；根据所述真值框的DCT真值系数和所述真值框对应的预测框的DCT系数计算损失值，根据所述损失值对所述目标分割模型进行训练。

根据所述历史帧的跟踪查询向量集对带有跟踪ID的查询向量中所述DCT编码系数对应的元素进行更新的步骤，包括：获取包含所述当前帧的多个历史帧中同一跟踪ID的查询向量序列；根据所述同一跟踪ID的查询向量序列，更新该同一跟踪ID对应的查询向量中所述DCT编码系数对应的元素。

对所述当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，得到带有跟踪ID的查询向量的步骤，包括：对于所述当前帧对应的跟踪查询向量初始集中的第一类查询向量，基于预设的加入门限和所述第一类查询向量的分类得分进行跟踪ID分配；其中，所述第一类查询向量为初始查询向量集对应的查询向量；对于所述当前帧对应的跟踪查询向量初始集中的第二类查询向量，基于预设的退出门限和所述第二类查询向量的分类得分进行维持ID判别；其中，所述第二类查询向量为所述历史帧的跟踪查询向量集对应的查询向量。

第二方面，本发明实施例还提供了一种视频目标分割装置，所述装置应用于电子设备，所述装置包括：特征集获取模块，用于获取待处理的视频帧序列中的视频帧对应的特征集；查询向量初始集获取模块，用于根据当前帧之前的历史帧的跟踪查询向量集和所述当前帧的特征集，获取所述当前帧的跟踪查询向量初始集；其中，所述跟踪查询向量初始集包括所述当前帧对应的查询向量、以及该查询向量的分类得分、回归位置和DCT编码系数；跟踪ID确定模块，用于对所述当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，得到带有跟踪ID的查询向量；查询向量更新模块，用于根据所述历史帧的跟踪查询向量集对带有跟踪ID的查询向量中所述DCT编码系数对应的元素进行更新，得到所述当前帧的跟踪查询向量集；其中，所述跟踪查询向量集包括所述当前帧的DCT编码系数对应的目标分割信息。

第三方面，本发明实施例还提供了一种电子系统，所述电子系统包括：图像采集设备、处理设备和存储装置；所述图像采集设备，用于获取待处理的视频帧序列；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理设备运行时执行上述视频目标分割方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理设备运行时执行上述视频目标分割方法的步骤。

本发明实施例提供的视频目标分割方法、装置和电子系统，在获取到待处理的视频帧序列中的视频帧的特征集时，能够根据当前帧之前的历史帧的跟踪查询向量集和当前帧的特征集，获取当前帧的跟踪查询向量初始集；其中，该跟踪查询向量初始集包括当前帧对应的查询向量、以及该查询向量的分类得分、回归位置和DCT编码系数；通过对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，得到带有跟踪ID的查询向量；以及根据历史帧的跟踪查询向量集对带有跟踪ID的查询向量中DCT编码系数对应的元素进行更新，得到当前帧的跟踪查询向量集。通过这种方式，能够基于历史帧的跟踪查询向量集传递目标对象的特征，提升目标跟踪的准确性，同时，通过对查询向量中DCT编码系数对应的原色进行更新，将查询向量进行稀疏编码，表征查询向量，降低了目标跟踪过程的计算量，因此实现了在保证跟踪准确性的基础上降低了计算量，提升了跟踪过程中的目标分割性能。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的电子系统的结构示意图；

图2为本发明实施例提供的视频目标分割方法的流程图；

图3为本发明实施例提供的DCT变换示意图；

图4为本发明实施例提供的目标分割模型的示意图；

图5为本发明实施例提供的低频信息所在区域的元素排序示意图；

图6为本发明实施例提供的DCT反变换的示意图；

图7为本发明实施例提供的目标分割模型的示意图；

图8为本发明实施例提供的视频目标分割方法流程示意图；

图9为本发明实施例提供的TAN的示意图；

图10为本发明实施例提供的视频目标分割装置结构框图；

图11为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前通过视频监控技术可以实现目标跟踪，跟踪的目标可以是车辆、车牌、人体或人脸等对象，为了能够在保证跟踪的准确性的基础上，降低跟踪过程的计算量，本发明实施例提供的一种视频目标分割方法、装置和电子系统，通过在对视频中的目标跟踪过程中应用DCT(Discrete Cosine Transform，离散余弦变换)编码机制，降低跟踪过程的计算量，提升系统性能。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种视频目标分割方法进行详细介绍。

参照图1所示的电子系统100的结构示意图。该电子系统可以用于实现本发明实施例的视频目标分割方法和装置。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，电子系统也可以具有其他组件和结构。

处理设备102可以为服务器、智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子系统100中的其它组件的数据进行处理，还可以控制电子系统100中的其它组件以执行视频目标分割功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集设备110可以获取待处理的视频帧序列，并且将该视频帧序列存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的视频目标分割方法、装置和电子系统中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到图像的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

本实施例提供了一种视频目标分割方法，该方法可以应用于电子设备，该电子设备可以包含上述电子系统。参见图2所示的一种视频目标分割方法的流程图，该方法包括以下步骤：

步骤S202，获取待处理的视频帧序列中的视频帧对应的特征集。

上述待处理的视频帧序列中可以包括多个按照时序排列的视频帧，每个视频帧对应的特征集可以是不同维度的特征向量的集合，例如：可以将待处理的视频帧序列输入骨干网络，得到各个视频帧对应的基础特征集；再将各个视频帧对应的基础特征集分别输入编码器，得到各个视频帧对应的特征集。

步骤S204，根据当前帧之前的历史帧的跟踪查询向量集和当前帧的特征集，获取当前帧的跟踪查询向量初始集；该跟踪查询向量初始集包括当前帧对应的查询向量、以及该查询向量的分类得分、回归位置和DCT编码系数。

上述视频帧序列中的视频帧均可以逐一作为当前帧，当前帧之前的历史帧即在上述视频帧序列中排在当前帧之前的视频帧。历史帧为上述视频帧序列中已经经过上述视频目标分割方法处理过的视频帧。该历史帧的个数可以是一个，也可以是多个。如果历史帧为一个，则可以选择当前帧的上一帧作为历史帧。如果历史帧为多个，则可以选择当前帧之前最近的多个视频帧作为历史帧。历史帧的具体个数可以根据实际应用场景灵活确定。

上述历史帧的跟踪查询向量集为历史帧对应的特征集经过上述视频目标分割方法处理，得到的带有跟踪ID的查询向量组成该历史帧的跟踪查询向量集。各个历史帧的处理与当前帧的处理类似，参见下述步骤S206和步骤S208。

本发明实施例中的查询向量也可以称为query或者查询实例，通常查询向量包括目标框的坐标信息和特征向量等信息。

上述DCT编码系数是基于对当前帧对应的查询向量的掩码进行DCT变换确定的数据。为了清楚描述DCT编码系数，参见图3所示的DCT变换示意图，其中，最右侧的图为当前帧对应的查询向量的掩码图，左侧的图为将这个掩码图变换至频域空间后的频域图，其中频域图的左上角偏亮的区域为掩码图的低频信息所在区域，DCT编码系数即取该区域的数据形成的。

步骤S206，对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，得到带有跟踪ID的查询向量。

上述跟踪ID分配指对于在跟踪查询向量初始集中不是历史帧的跟踪查询向量集中的查询向量，根据该查询向量的分类得分判断其是否应该分配跟踪ID，具体地，查询向量对应目标分类的分类得分越高，说明该查询向量包含该目标分类的目标的概率越大，可以分配跟踪ID，否则，查询向量对应目标分类的分类得分越低，则说明该查询向量不包含该目标分类的目标的概率越大，不为其分配跟踪ID。

上述维持ID判别指对于在跟踪查询向量初始集中，与历史帧的跟踪查询向量集中的查询向量对应的查询向量，可以根据该查询向量的分类得分判断其是否应该继续维持之前的跟踪ID。具体地，查询向量对应目标分类的分类得分越高，说明该查询向量依然包含该目标分类的目标的概率越大，可以继续维持跟踪ID，否则，查询向量对应目标分类的分类得分越低，则说明该查询向量不包含该目标分类的目标的概率越大，可以考虑不为其维持跟踪ID。

步骤S208，根据上述历史帧的跟踪查询向量集对带有跟踪ID的查询向量中上述DCT编码系数对应的元素进行更新，得到当前帧的跟踪查询向量集；其中，该跟踪查询向量集包括当前帧的DCT编码系数对应的目标分割信息(如DCT编码系数本身或者DCT编码系数进行DCT反变换后的二值掩码等信息)。

本申请实施例提供的上述方法中，在获取到待处理的视频帧序列中的视频帧的特征集时，能够根据当前帧之前的历史帧的跟踪查询向量集和当前帧的特征集，获取当前帧的跟踪查询向量初始集；其中，该跟踪查询向量初始集包括当前帧对应的查询向量、以及该查询向量的分类得分、回归位置和DCT编码系数；通过对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，得到带有跟踪ID的查询向量；以及根据历史帧的跟踪查询向量集对带有跟踪ID的查询向量中DCT编码系数对应的元素进行更新，得到当前帧的跟踪查询向量集。通过这种方式，能够基于历史帧的跟踪查询向量集传递目标对象的特征，提升目标跟踪的准确性，同时，通过对查询向量中DCT编码系数对应的原色进行更新，将查询向量进行稀疏编码，表征查询向量，降低了目标跟踪过程的计算量，因此实现了在保证跟踪准确性的基础上降低了计算量，提升了跟踪过程中的目标分割性能。

在进行目标跟踪时，视频帧中可能会有多个同类型或者多个不同类型的目标，为了更好地区分不同的目标，本申请实施例对于同一目标对应的查询向量均用同一跟踪ID标识，基于此，上述根据历史帧的跟踪查询向量集对带有跟踪ID的查询向量中DCT编码系数对应的元素进行更新的步骤，可以包括：获取包含当前帧的多个历史帧中同一跟踪ID的查询向量序列；根据该同一跟踪ID的查询向量序列，更新该同一跟踪ID对应的查询向量中DCT编码系数对应的元素。通过基于同一跟踪ID的查询向量序列，更新当前帧的查询向量中DCT编码系数对应的元素的方式，能够既保证目标的特征向量在帧间传递，又能够减小更新查询向量的计算量，提升查询向量的更新效率。

在一些可能的实施方式中，上述视频目标分割方法可以通过目标分割模型实现，具体地，上述电子设备预存有训练完成的目标分割模型，参见图4所示的目标分割模型的示意图，该目标分割模型包括骨干网络42、编码器44、解码器46和特征向量传递模块48，其中，解码器46包括DCT编码模块；

基于图4所示的目标分割模型，上述获取待处理的视频帧序列中的视频帧对应的特征集的步骤，包括：通过骨干网络和编码器对待处理的视频帧序列中的视频帧进行处理，得到与上述视频帧对应的特征集。

上述根据当前帧之前的历史帧的跟踪查询向量集和当前帧的特征集，获取当前帧的跟踪查询向量初始集的步骤，包括：组合初始查询向量集和当前帧之前的历史帧的跟踪查询向量集，得到查询向量合集；将查询向量合集和当前帧的特征集输入解码器，得到当前帧对应的跟踪查询向量初始集；

上述根据历史帧的跟踪查询向量集对带有跟踪ID的查询向量中DCT编码系数对应的元素进行更新，得到当前帧的跟踪查询向量集的步骤，包括：获取跟踪ID对应的ID队列；其中，ID队列用于保存指定数目的连续帧中同一跟踪ID对应的查询向量；将每个ID队列中的查询向量和查询向量对应的DCT编码系数输入特征向量传递模块，以更新查询向量中DCT编码系数对应的元素，得到当前帧的跟踪查询向量集。

上述通过目标分割模型实现目标跟踪的方式，可以实现端到端的目标跟踪，简化了操作过程，提升了跟踪的准确性和系统性能。

上述目标分割模型在训练过程除了可以采用比较常规的模型训练方式之外，基于引入的DCT编码模块，在训练过程中，还可以包括：通过DCT编码模块对训练样本中的真值框对应的二值框进行DCT变换，得到真值频域框，从真值频域框的低频信息所在区域确定出真值框的DCT真值系数；根据真值框的DCT真值系数和真值框对应的预测框的DCT系数计算损失值，根据得到的损失值对上述目标分割模型进行训练，如控制训练的迭代次数或调整模型中的参数等。具体的损失值计算过程除了考虑真值框和预测框的特征匹配程度之外，还可以考虑真值框和预测框的位置信息匹配程度，进而有效地完成模型训练过程。

在一些可能的实施方式中，上述DCT编码系数的获取方式如下：

(1)将所述查询向量对应的目标框二值化，将二值化后的目标框缩放至预设掩码尺寸，得到缩放框；

上述二值化过程中可以取值为0(背景)或1(前景)。预设掩码尺寸可以是128×128或者256×256等。

(2)应用预设的DCT变换矩阵将缩放框变换至频域空间，得到频域框；

本申请实施例中的DCT变换矩阵可以为如下矩阵H；

其中

以缩放框为S_i为例，应用预设的DCT变换矩阵将缩放框变换至频域空间的步骤可以采用如下公式实现：频域框J_i＝H*S_i*H^T。

(3)对频域框的低频信息所在区域的元素进行第一排序，得到低频元素序列；

(4)从低频元素序列中依次选取指定数量个元素，作为查询向量对应的DCT编码系数。

本申请实施例中的对频域框的低频信息所在区域的元素进行第一排序，得到低频元素序列的过程，可以基于低频信息所在区域对J_i的各项进行重新排序得到J_i＝Zigzag(J_i)，参见图5所示的低频信息所在区域的元素排序示意图，其中，可以按照图中箭头走向对频域框的低频信息所在区域中的元素进行排序，选取前N(例如N为256或128等值)个系数作为DCT编码系数，记为V_i＝J_i[:N]。

上述方法通过Zigzag算法进行排序，在具体实现时，还可以采用其它排序方式，不局限于这一种排序方式，例如，可以对低频信息所在区域的元素按列或者按行排序等。

通过上述方法，可以把原来掩码的尺寸是128×128或者掩码尺寸更大的目标框，通过DCT变换方式，压缩到256个系数，进而降低了计算量，节省了计算开支，有效提升了跟踪性能。

为了便于直观理解跟踪到的目标，可以对上述DCT编码系数进行DCT反变换，DCT反变换的时机可以是得到视频帧序列中的各个帧的跟踪查询向量集时进行，即对各个帧的跟踪查询向量集中的DCT系数批量进行DCT反变换；也可以是在得到一个视频帧的跟踪查询向量集之后就进行DCT反变换，即对各个帧的跟踪查询向量集中的DCT系数分别进行DCT反变换。基于此，上述方法还可以包括：当得到视频帧序列中的各个帧的跟踪查询向量集时，对每个跟踪查询向量集中的DCT编码系数进行DCT反变换，得到每个DCT编码系数对应目标的二值掩码，根据该二值掩码获取目标分割结果；或者，当得到当前帧的跟踪查询向量集时，对当前帧的跟踪查询向量集中的DCT编码系数进行DCT反变换，得到该DCT编码系数对应目标的二值掩码，根据该二值掩码获取目标分割结果。之后，可以基于各个帧中的目标分割结果确定各个目标。

具体地，上述DCT反变换的步骤，包括以下步骤：(1)构建DCT反变换初始矩阵；其中，DCT反变换初始矩阵的尺寸与预设掩码尺寸相同；例如：初始化一个矩阵invJ_i，维度为128×128，矩阵invJ_i中的元素可以均设置为0或者其它默认值，如0.001等。(2)将DCT反变换初始矩阵中的指定数量个元素依次替换为跟踪查询向量集中的DCT编码系数中的元素；接续前例，即将invJ_i的前N个元素替换为DCT编码系数中的元素P_i，invJ_i[:N]＝P_i。(3)对DCT反变换初始矩阵中的DCT编码系数进行第二排序，得到DCT编码系数序列；其中，第二排序为上述第一排序的反向排序；例如：进行逆向Zigzag排序，即invJ_i＝invZigzag(invJ_i)。(4)应用DCT变换矩阵对DCT编码系数序列进行DCT反变换，得到该DCT编码系数对应目标的二值掩码

形状为(128,128)；(5)根据上述二值掩码获取目标分割结果，例如，将形状为(128,128)恢复至原图尺寸，即上述目标框对应的尺寸。

参见图6所示的DCT反变换的示意图，其中，左侧图的左上角为DCT编码系数中的元素，右侧图为DCT反变换得到的二值掩码图。

在一些可能的实施方式中，上述对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，得到带有跟踪ID的查询向量的步骤，包括：

(1)对于当前帧对应的跟踪查询向量初始集中的第一类查询向量，基于预设的加入门限和第一类查询向量的分类得分进行跟踪ID分配；其中，第一类查询向量为初始查询向量集对应的查询向量；

上述加入门限用于表示可以将查询向量作为目标，在后续视频帧中对其进行跟踪的限制，其可以是与分类得分对应的数值。第一类查询向量对应的是初始查询向量，即首次检测到的没有分配过跟踪ID的查询向量，因此，如果第一类查询向量的分类得分大于加入门限，则确定该查询向量有成为跟踪目标的可能，可以直接为其分配跟踪ID。考虑到视频帧中可能出现临时的目标，例如只在某一个或某几个视频帧中出现，持续的时间很短或者检测异常，为了避免频繁地为临时的目标分配跟踪ID，可以预设第一次数阈值，只针对连续地出现在大于第一次数阈值个视频帧中的查询向量设置跟踪ID，具体地，可以标记第一类查询向量中的分类得分大于预设的加入门限的查询向量，并进一步判断被标记的查询向量在当前帧之前的历史帧中被标记的次数是否大于第一次数阈值，如果是，为被标记的查询向量分配跟踪ID。

(2)对于当前帧对应的跟踪查询向量初始集中的第二类查询向量，基于预设的退出门限和第二类查询向量的分类得分进行维持ID判别；其中，第二类查询向量为历史帧的跟踪查询向量集对应的查询向量。

与加入门限相对应地，电子设备中还可以预存退出门限，用于表示查询向量不再被本申请实施例提供的视频目标分割方法继续跟踪的退出条件，其可以是与查询向量的分类得分对应的数值。第二类查询向量对应的是跟踪查询向量，即在历史帧中已经开始跟踪的查询向量，因此，如果查询向量的分类得分小于退出门限，表明该查询向量在当前帧中模糊甚至消失，没有跟踪的必要，进而可以取消该查询向量的跟踪ID。考虑到查询向量可能只是在某一个或某几个视频帧中短暂模糊或消失，为了更准确的进行目标跟踪，避免对真正目标没有及时跟踪，可以预设第二次数阈值，只有查询向量在连续的大于第二次数阈值的视频帧中的分类得分都低于退出门限，才取消该查询向量对应的跟踪ID。具体地，可以是标记第二类查询向量的分类得分小于预设的退出门限的查询向量，并进一步判断被标记的查询向量在当前帧之前的历史帧中被标记的次数是否大于第二次数阈值，如果是，取消被标记的查询向量的跟踪ID。

例如，一个没有被赋予过跟踪ID的空查询向量，得到的分类得分高于加入门限T_enter，则认为该查询向量对应的跟踪目标首次出现，将该查询向量加入到跟踪查询向量集中。对于一个被赋予了跟踪ID的非空查询向量，如果连续的p帧的分类得分都低于退出门限T_exit，则认为该查询向量对应的跟踪目标已经消失，并将其对应的查询向量从跟踪查询向量集中删除。优选地，加入门限大于退出门限，例如T_enter可以设为0.7至0.9之间的数值，如0.8、0.85或0.9等数值，T_exit可以设为0.5至0.7之间的数值，例如0.6、0.65或0.7等数值。

通过上述方法，可以得到视频帧序列中的目标跟踪信息。例如针对某个跟踪目标A，其跟踪ID对应的查询向量可以表示为Trj＝{box_i，...，box_j}，其中，j＞i，i表示该跟踪目标A在第i帧首次出现，j表示该跟踪目标A在第j帧最后一次出现。如果第j+1帧视频经过本申请实施例提供的视频目标分割方法后，得到的第j+1帧视频对应的跟踪查询向量集中，仍然存在该跟踪目标A，可以将box_j+1添加到上述Trj中。box用于表示查询向量对应的检测框，该检测框带有特征信息和坐标信息，以及跟踪得分信息等。

参见图7所示的目标分割模型的示意图，该目标分割模型包括骨干网络、Enc(编码器)、Dec(解码器)、VPN(Vector Passing Network，特征向量传递模块，也称特征向量传递网络)等，在图7中，待处理的视频帧序列包括0-N共N+1帧视频，为了便于理解，基于图7所示的目标分割模型，参见图8所示的本申请实施例提供的一种视频目标分割方法流程示意图，介绍在实际应用场景中，如何通过本申请实施例提供的视频目标分割方法对视频帧序列进行目标识别及跟踪，为便于说明，本实施例中用query表示查询向量集，具体步骤如下：

步骤S802：将视频帧序列输入目标分割模型，目标分割模型首先对第一帧视频T₀进行处理，将T₀输入骨干网和Enc，得到T₀对应的第一特征集f₀。

步骤S804：将初始query和第一特征集f₀输入Dec，得到T₀对应的跟踪query初始集，以及跟踪query初始集中的query对应的分类得分、回归位置和编码系数(即上述DCT编码系数)。

步骤S806：将跟踪query初始集(包括跟踪得分和回归位置)输入VPN，得到T₀对应的跟踪query集(图中未标示)。

至此，目标分割模型完成了对T₀的目标跟踪，得到了对应于T₀的带有跟踪ID的query集合，每个query均对应有上述编码系数。接着可以将后续视频帧视为当前帧，对于每个当前帧，均执行下述操作：

步骤S808：目标分割模型继续对当前频进行处理，将当前帧T_i输入骨干网和Enc，得到当前频T_i对应的第一特征集f_i。

步骤S810：将初始query和i-1帧对应的跟踪query进行组合，得到query合集(图7中

处)。

步骤S812：将query合集和第一特征集f_i输入Dec，得到T_i的跟踪query初始集，同时还得到T_i的跟踪query初始集对应的分类得分、回归位置和编码系数。

步骤S814：将T_i的跟踪query初始集输入VPN，经VPN对跟踪query的分类处理，将跟踪query分为带有跟踪ID的query和不带跟踪ID的query两类，分别用退出门限和加入门限衡量，确定出维持有效的跟踪query，即当前帧对应的跟踪query(图7中未标示)。至此，目标分割模型完成了对当前帧的目标跟踪。

例如，对于T_i帧，将T_i-1帧对应的

和空query(qe)合并后输入Dec，得到带有分数的

被切分为两组，一个是不带有ID的

另一个是带有ID的

和

分别经上述加入门限和退出门限对应的过滤器过滤，确定该query是否加入跟踪队列。具体地，可以通过以下公式确定能够进入跟踪队列的

其中，s_k是

的分类得分，T_en是加入门限。

进一步地，可以通过以下公式计算得到可以继续在跟踪队列中保持跟踪的

其中，s_k是

的分类得分，T_ex是退出门限。

作为一个示例，假设经过上述公式计算得到，某个目标的query在

中的分数高于T_en，则该query被保留，其余小于T_en的

被删除。

目标分割模型采用步骤S808-S814的方法，处理视频帧序列中的后续帧，当完成第N+1帧视频的处理后，对带有跟踪ID的query的其对应的编码系数进行DCT逆变换，得到该query对应的二值掩码，完成对待跟踪视频帧序列的目标跟踪。在上述完成待跟踪视频帧序列的目标跟踪后，针对每个跟踪目标，会得到一个跟踪query集，针对整个视频帧序列，得到一个跟踪query集序列。

对当前帧中的查询向量的更新过程中，可以使用自注意力网络中的时间聚合模块(TAN)完成，参见图9所示的TAN的示意图，TAN包括：网络头层(MHSA，Multi-Head Self-Attention，多头自注意力层)、第一归一化层(Add&Norm，类归一化)、FFN(Feed-ForwardNetwork，前馈神经网络)层、第二归一化层(Add&Norm)等。通过将Q向量、K向量和V向量输入自注意力网络，由时间聚合模块进行处理，得到更新后的当前帧的跟踪查询向量。在一种可行的实施方式中，根据该ID队列中的查询向量，更新当前帧中该ID队列的跟踪ID对应的查询向量，该过程具体可以包括：

(1)基于各个查询向量对应的DCT编码系数融合该ID队列中的各个查询向量，得到融合查询向量；融合方式可以包括直接对查询向量中DCT编码系数对应的元素相加求平均等方式。

(2)将融合查询向量作为自注意力网络的Q向量和K向量，将当前帧中该ID队列的跟踪ID对应的查询向量作为自注意力网络的V向量；

(3)将Q向量、K向量和V向量输入自注意力网络，得到当前帧中该ID队列的跟踪ID对应的查询向量。

在另一种可行的实施方式中，根据该ID队列中的查询向量，更新当前帧中该ID队列的跟踪ID对应的查询向量的步骤还可以包括：

(1)基于各个查询向量对应的DCT编码系数融合该ID队列中的各个查询向量，得到融合查询向量；融合方式同上所述，这里不再赘述。

(2)将融合查询向量作为自注意力网络的K向量和V向量，将当前帧中该ID队列的跟踪ID对应的查询向量作为自注意力网络的Q向量；

在实际应用场景中，上述融合该ID队列中的各个查询向量，得到融合查询向量的过程，可以是对相邻两帧的查询向量进行融合，也可以是对指定帧的查询向量进行融合，本申请实施例对此不作限定。

针对将相邻两帧的查询向量进行融合的情况，可以采用如图9所示的TAN进行，具体可以按照如下(a)-(c)所示的过程进行融合：

(a)对于第t-1帧和第t帧，当前帧为第t帧，当前帧的查询向量表示为

首先将当前帧的与前一帧的查询向量

中相应编码系数对应的元素相加，作为自注意力网络的Q和K向量：

(b)将当前帧的查询向量

作为v向量，然后按照下式计算自注意力网络值(MHSA)，并初步更新

其中σ_s代表softmax激活函数，d代表query的维度。

(c)进一步地，经过一个FFN层进行进一步细化特征，计算如下：

tgt₂＝LN(FC(σ_r(FC(tgt₁)))+tgt₁)

其中LN代表Layer Normalization(即，上述第一归一化层或第二归一化层)，tgt₁为第一归一化层的输出结果，tgt₂为第二归一化层输出的结果，FC代表全连接层，σ_r代表ReLU激活函数，tgt₂即为更新后的

针对将指定数目的帧的查询向量进行融合的情况，可以预先设定需要融合的历史帧的个数，本实施例以5个为例，对于当前帧，将当前帧的跟踪查询向量

以及之前的5个历史帧的所有的跟踪查询向量都放入一个ID队列

中，其中m表示需要融合的第几个历史帧，当当前帧t存入之后，会将其之前的第t-5帧的query删除。进一步地，将ID队列中的跟踪查询向量融合，并与当前帧的跟踪查询向量一起，通过网络头层处理，即如下公式计算当前帧t对应的

再经过第一归一化层、FFN层和第二归一化层处理，得到更新后的跟踪查询向量

表示融合了前5个历史帧的跟踪查询向量的融合查询向量。

基于上述方法实施例，本发明实施例还提供了一种视频目标分割装置，参见图10所示的视频目标分割装置结构框图，该装置应用于电子设备，该装置包括：

特征集获取模块11，用于获取待处理的视频帧序列中的视频帧对应的特征集；

查询向量初始集获取模块12，用于根据当前帧之前的历史帧的跟踪查询向量集和当前帧的特征集，获取当前帧的跟踪查询向量初始集；其中，跟踪查询向量初始集包括当前帧对应的查询向量、以及该查询向量的分类得分、回归位置和DCT编码系数；

跟踪ID确定模块13，用于对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，得到带有跟踪ID的查询向量；

查询向量更新模块14，用于根据历史帧的跟踪查询向量集对带有跟踪ID的查询向量中DCT编码系数对应的元素进行更新，得到当前帧的跟踪查询向量集；其中，该跟踪查询向量集包括当前帧的DCT编码系数对应的目标分割信息。

上述查询向量更新模块14还用于：获取包含所述当前帧的多个历史帧中同一跟踪ID的查询向量序列；根据所述同一跟踪ID的查询向量序列，更新该同一跟踪ID对应的查询向量中所述DCT编码系数对应的元素。

上述电子设备预存有训练完成的目标分割模型，所述目标分割模型包括骨干网络、编码器、解码器和特征向量传递模块，其中，所述解码器包括DCT编码模块；相应地，上述特征集获取模块11还用于：通过所述骨干网络和所述编码器对待处理的视频帧序列中的视频帧进行处理，得到与所述视频帧对应的特征集；查询向量初始集获取模块12还用于：组合初始查询向量集和当前帧之前的历史帧的跟踪查询向量集，得到查询向量合集；将所述查询向量合集和所述当前帧的特征集输入所述解码器，得到所述当前帧对应的跟踪查询向量初始集；查询向量更新模块14还用于：获取跟踪ID对应的ID队列；其中，所述ID队列用于保存指定数目的连续帧中同一跟踪ID对应的查询向量；将每个所述ID队列中的查询向量和所述查询向量对应的DCT编码系数输入所述特征向量传递模块，以更新查询向量中所述DCT编码系数对应的元素，得到所述当前帧的跟踪查询向量集。

上述目标分割模型的训练过程包括：通过所述DCT编码模块对训练样本中的真值框对应的二值框进行DCT变换，得到真值频域框，从所述真值频域框的低频信息所在区域确定出所述真值框的DCT真值系数；根据所述真值框的DCT真值系数和所述真值框对应的预测框的DCT系数计算损失值，根据得到的损失值对上述目标分割模型进行训练。

上述DCT编码系数的获取方式如下：将所述查询向量对应的目标框二值化，将二值化后的目标框缩放至预设掩码尺寸，得到缩放框；应用预设的DCT变换矩阵将所述缩放框变换至频域空间，得到频域框；对所述频域框的低频信息所在区域的元素进行第一排序，得到低频元素序列；从所述低频元素序列中依次选取指定数量个元素，作为所述查询向量对应的DCT编码系数。

上述装置还包括：反变换模块，用于当得到所述视频帧序列中的各个帧的跟踪查询向量集时，对每个所述跟踪查询向量集中的DCT编码系数进行DCT反变换，得到每个所述DCT编码系数对应目标的二值掩码，根据该二值掩码获取目标分割结果；或者，当得到当前帧的跟踪查询向量集时，对当前帧的跟踪查询向量集中的DCT编码系数进行DCT反变换，得到该DCT编码系数对应目标的二值掩码，根据该二值掩码获取目标分割结果。

上述反变换模块还用于：构建DCT反变换初始矩阵；其中，所述DCT反变换初始矩阵的尺寸与所述预设掩码尺寸相同；对于每个所述跟踪查询向量集中的DCT编码系数，均执行以下操作：将DCT反变换初始矩阵中的指定数量个元素依次替换为所述DCT编码系数中的元素；对所述DCT反变换初始矩阵中的DCT编码系数进行第二排序，得到DCT编码系数序列；其中，所述第二排序为所述第一排序的反向排序；应用所述DCT变换矩阵对所述DCT编码系数序列进行DCT反变换。

上述跟踪ID确定模块13还用于：对于所述当前帧对应的跟踪查询向量初始集中的第一类查询向量，基于预设的加入门限和所述第一类查询向量的分类得分进行跟踪ID分配；其中，所述第一类查询向量为初始查询向量集对应的查询向量；对于所述当前帧对应的跟踪查询向量初始集中的第二类查询向量，基于预设的退出门限和所述第二类查询向量的分类得分进行维持ID判别；其中，所述第二类查询向量为所述历史帧的跟踪查询向量集对应的查询向量。

本申请实施例提供的视频目标分割装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，上述装置的实施例部分未提及之处，可参考前述视频目标分割方法实施例中的相应内容。

将本申请实施例提供的视频目标分割方法与其他常见模型进行了对比实验，实验结果如下表1所示：

表1

模型	mAP
		MaskTrackRCNN+R50	30.1
VisTR+R50	33.5
		本发明的方法	34.7

本发明的视频目标分割方法，通过使用特征向量传递的方式对目标分割进行建模，使得整个目标分割过程是端到端可优化的，能够适应于任意长度视频；通过构建历史帧的跟踪ID队列，以在线的方式利用和融合时序信息，提高模型对遮挡等场景的鲁棒性；另外，通过将高分辨率的目标掩码压缩为稀疏编码，与特征向量形式一致联合表征query(实例)，不增加计算量即可实现高分辨率的计算，增强了系统性能；由于以上特性，本发明在同等骨干网络等设置结构下，相对已知的公开算法拥有明显的精度优势。相比于其他视频实例分割模型，本发明的方法更加简洁，精度更高。以表1所示的在YouTube-VIS视频实例分割任务上做的实验为例，实验显示本发明的方法比其他模型在mAP上更为优越，在相同的Backbone配置下，比Mask Track R-CNN的mAP提高3.4％，比VisTR的mAP提高1.2％。

本发明实施例还提供了一种电子设备，如图11所示的该电子设备的结构示意图，其中，该电子设备包括处理器1101和存储器1102，该存储器1102存储有能够被该处理器1101执行的计算机可执行指令，该处理器1101执行该计算机可执行指令以实现上述视频目标分割方法。

在图11示出的实施方式中，该电子设备还包括总线1103和通信接口1104，其中，处理器1101、通信接口1104和存储器1102通过总线1103连接。

其中，存储器1102可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口1104(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线1103可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线1103可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器1101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)、神经网络处理器(Neural-networkProcessing Unit，简称NPU)等；还可以是图形处理器(Graphics Processing Unit，简称GPU)、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器1101读取存储器中的信息，结合其硬件完成前述实施例的视频目标分割方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，该计算机可执行指令促使处理器实现上述视频目标分割方法，具体实现可参见前述方法实施例，在此不再赘述。

本发明实施例所提供的视频目标分割方法、装置和电子系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频目标分割方法，其特征在于，所述方法应用于电子设备，所述方法包括：

获取待处理的视频帧序列中的视频帧对应的特征集；

根据当前帧之前的历史帧的跟踪查询向量集和所述当前帧的特征集，获取所述当前帧的跟踪查询向量初始集；其中，所述跟踪查询向量初始集包括所述当前帧对应的查询向量、以及该查询向量的分类得分、回归位置和DCT编码系数；

对所述当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，得到带有跟踪ID的查询向量；

根据所述历史帧的跟踪查询向量集对带有跟踪ID的查询向量中所述DCT编码系数对应的元素进行更新，得到所述当前帧的跟踪查询向量集；其中，所述跟踪查询向量集包括所述当前帧的DCT编码系数对应的目标分割信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当得到所述视频帧序列中的各个帧的跟踪查询向量集时，对每个所述跟踪查询向量集中的DCT编码系数进行DCT反变换，得到每个所述DCT编码系数对应目标的二值掩码，根据所述二值掩码获取目标分割结果；或者，

当得到所述当前帧的跟踪查询向量集时，对所述当前帧的跟踪查询向量集中的DCT编码系数进行DCT反变换，得到该DCT编码系数对应目标的二值掩码，根据所述二值掩码获取目标分割结果。

3.根据权利要求1或2所述的方法，其特征在于，所述DCT编码系数的获取方式如下：

将所述查询向量对应的目标框二值化，将二值化后的目标框缩放至预设掩码尺寸，得到缩放框；

应用预设的DCT变换矩阵将所述缩放框变换至频域空间，得到频域框；

对所述频域框的低频信息所在区域的元素进行第一排序，得到低频元素序列；

从所述低频元素序列中依次选取指定数量个元素，作为所述查询向量对应的DCT编码系数。

4.根据权利要求2所述的方法，其特征在于，所述DCT反变换的步骤，包括：

构建DCT反变换初始矩阵；其中，所述DCT反变换初始矩阵的尺寸与所述预设掩码尺寸相同；

将DCT反变换初始矩阵中的指定数量个元素依次替换为所述跟踪查询向量集中的DCT编码系数中的元素；

对所述DCT反变换初始矩阵中的DCT编码系数进行第二排序，得到DCT编码系数序列；

应用所述DCT变换矩阵对所述DCT编码系数序列进行DCT反变换。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述电子设备预存有训练完成的目标分割模型，所述目标分割模型包括骨干网络、编码器、解码器和特征向量传递模块，其中，所述解码器包括DCT编码模块；

所述获取待处理的视频帧序列中的视频帧对应的特征集的步骤，包括：通过所述骨干网络和所述编码器对待处理的视频帧序列中的视频帧进行处理，得到与所述视频帧对应的特征集；

根据当前帧之前的历史帧的跟踪查询向量集和所述当前帧的特征集，获取所述当前帧的跟踪查询向量初始集的步骤，包括：组合初始查询向量集和当前帧之前的历史帧的跟踪查询向量集，得到查询向量合集；将所述查询向量合集和所述当前帧的特征集输入所述解码器，得到所述当前帧对应的跟踪查询向量初始集；

根据所述历史帧的跟踪查询向量集对带有跟踪ID的查询向量中所述DCT编码系数对应的元素进行更新，得到所述当前帧的跟踪查询向量集的步骤，包括：获取跟踪ID对应的ID队列；其中，所述ID队列用于保存指定数目的连续帧中同一跟踪ID对应的查询向量；将每个所述ID队列中的查询向量和所述查询向量对应的DCT编码系数输入所述特征向量传递模块，以更新查询向量中所述DCT编码系数对应的元素，得到所述当前帧的跟踪查询向量集。

6.根据权利要求5所述的方法，其特征在于，所述目标分割模型的训练过程包括：

通过所述DCT编码模块对训练样本中的真值框对应的二值框进行DCT变换，得到真值频域框，从所述真值频域框的低频信息所在区域确定出所述真值框的DCT真值系数；

根据所述真值框的DCT真值系数和所述真值框对应的预测框的DCT系数计算损失值，根据所述损失值对所述目标分割模型进行训练。

7.根据权利要求1至6任一项所述的方法，其特征在于，根据所述历史帧的跟踪查询向量集对带有跟踪ID的查询向量中所述DCT编码系数对应的元素进行更新的步骤，包括：

获取包含所述当前帧的多个历史帧中同一跟踪ID的查询向量序列；

根据所述同一跟踪ID的查询向量序列，更新该同一跟踪ID对应的查询向量中所述DCT编码系数对应的元素。

8.根据权利要求1至7任一项所述的方法，其特征在于，对所述当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，得到带有跟踪ID的查询向量的步骤，包括：

对于所述当前帧对应的跟踪查询向量初始集中的第一类查询向量，基于预设的加入门限和所述第一类查询向量的分类得分进行跟踪ID分配；其中，所述第一类查询向量为初始查询向量集对应的查询向量；

对于所述当前帧对应的跟踪查询向量初始集中的第二类查询向量，基于预设的退出门限和所述第二类查询向量的分类得分进行维持ID判别；其中，所述第二类查询向量为所述历史帧的跟踪查询向量集对应的查询向量。

9.一种视频目标分割装置，其特征在于，所述装置应用于电子设备，所述装置包括：

特征集获取模块，用于获取待处理的视频帧序列中的视频帧对应的特征集；

查询向量初始集获取模块，用于根据当前帧之前的历史帧的跟踪查询向量集和所述当前帧的特征集，获取所述当前帧的跟踪查询向量初始集；其中，所述跟踪查询向量初始集包括所述当前帧对应的查询向量、以及该查询向量的分类得分、回归位置和DCT编码系数；

跟踪ID确定模块，用于对所述当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，得到带有跟踪ID的查询向量；

查询向量更新模块，用于根据所述历史帧的跟踪查询向量集对带有跟踪ID的查询向量中所述DCT编码系数对应的元素进行更新，得到所述当前帧的跟踪查询向量集；其中，所述跟踪查询向量集包括所述当前帧的DCT编码系数对应的目标分割信息。

10.一种电子系统，其特征在于，所述电子系统包括：图像采集设备、处理设备和存储装置；

所述图像采集设备，用于获取待处理的视频帧序列；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理设备运行时执行如权利要求1至8任一项所述的视频目标分割方法。

11.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理设备运行时执行如权利要求1至8任一项所述的视频目标分割方法的步骤。