CN116091984B

CN116091984B - 视频目标分割方法、装置、电子设备及存储介质

Info

Publication number: CN116091984B
Application number: CN202310383303.5A
Authority: CN
Inventors: 韩鸣飞; 王亚力; 乔宇
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-07-18
Anticipated expiration: 2043-04-12
Also published as: CN116091984A

Abstract

本发明实施例公开了一种视频目标分割方法及装置，所述方法包括：分别对视频中的各视频帧和对应的描述文本进行特征提取，得到各视频帧的视觉特征和文本特征；对各视频帧进行采样得到多个视频片段；基于文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征；所述第一融合特征是指混入文本的视觉特征，所述第二融合特征是指混入视觉的文本特征；基于在不同时间尺度上得到的第一融合特征和第二融合特征进行视频的视觉语言感知，得到视频的目标分割结果。本发明解决了相关技术因忽略了视频中相同目标可以使用不同描述文本而导致视频目标分割准确率不高的问题。

Description

视频目标分割方法、装置、电子设备及存储介质

技术领域

本发明属于计算机技术领域，涉及视频分析技术，尤其涉及一种视频目标分割方法、装置、电子设备及存储介质。

背景技术

随着智能设备的推广以及智慧城市的建设，各类摄像头已成为监控安防、自动驾驶、智慧医疗等领域不可或缺的硬件设备。面对每时每刻产生的海量视频，人工处理非常困难且效率低不能满足实际的应用需求，视频分析领域应运而生。该领域主要研究视频中的目标分割、目标追踪、目标识别、动作识别、语义分析、动作定位等颇具挑战的难题。

然而，现有的相关技术忽略了视频中同一个目标可以拥有多个不同的描述文本，使得即使是对视频中的同一个目标进行预测，由于所依赖的该目标的描述文本不同，得到的目标分割结果会有所差异，进而导致无法准确地实现视频目标分割。

因此，如何提高视频目标分割的准确率仍有待解决。

发明内容

本发明各实施例提供一种视频目标分割方法、装置、电子设备及存储介质，以解决相关技术因忽略了视频中相同目标可以使用不同描述文本而导致视频目标分割准确率不高的问题。

为解决上述技术问题，本发明所采用的技术方案为：

根据本发明的一个方面，一种视频目标分割方法，所述方法包括：分别对视频中的各视频帧和所述视频对应的描述文本进行特征提取，得到各所述视频帧的视觉特征和文本特征；对各所述视频帧进行采样得到多个视频片段；各视频片段具有不同时间尺度，各视频片段均包括多个视频帧；基于所述文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征；所述第一融合特征是指混入文本的视觉特征，所述第二融合特征是指混入视觉的文本特征；基于在不同时间尺度上得到的第一融合特征和第二融合特征进行所述视频的视觉语言感知，得到所述视频的目标分割结果。

根据本发明的一个方面，一种视频目标分割装置，所述装置包括：特征提取模块，用于分别对视频中的各视频帧和视频对应的描述文本进行特征提取，得到各视频帧的视觉特征和文本特征；视频采样模块，用于对各视频帧进行采样得到多个视频片段；各视频片段具有不同时间尺度，各视频片段均包括多个视频帧；多模态特征学习模块，用于基于文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征；所述第一融合特征是指混入文本的视觉特征，所述第二融合特征是指混入视觉的文本特征；视觉语言感知模块，用于基于在不同时间尺度上得到的第一融合特征和第二融合特征进行视频的视觉语言感知，得到视频的目标分割结果。

在一个示例性实施例中，所述视频采样模块，还用于按照不同采样间隔对各所述视频帧进行采样，得到多个视频帧序列；每一个视频帧序列对应一种采样间隔；针对每一个视频帧序列，从所述视频帧序列中随机选取多个视频帧，得到各所述视频片段，每一个所述视频片段对应一种时间尺度。

在一个示例性实施例中，所述多模态特征学习模块，还用于基于各视频片段中视频帧的视觉特征，构建各视频片段内的特征联系，得到不同时间尺度的视觉特征；根据文本特征和不同时间尺度的视觉特征，在不同时间尺度上进行文本特征与视觉特征的对齐处理，分别在不同时间尺度上得到第一融合特征和第二融合特征。

在一个示例性实施例中，所述多模态特征学习模块，还用于利用可变自注意力模块构建的条件文本解码器，将文本特征和不同时间尺度的视觉特征作为键值对输入所述条件文本解码器，对不同时间尺度的视觉特征进行变换，得到不同时间尺度上的第一融合特征；利用可变自注意力模块构建的条件视觉解码器，将所述不同时间尺度的视觉特征和文本特征作为键值对输入所述条件视觉解码器，对文本特征进行变换，得到不同时间尺度上的第二融合特征。

在一个示例性实施例中，所述视觉语言感知模块，还用于基于在不同时间尺度上得到的第一融合特征和第二融合特征，分别对所述视频进行不同时间尺度间的视觉语言感知和同一时间尺度内的视觉语言感知，得到所述视频的目标分割结果。

在一个示例性实施例中，所述视觉语言感知模块，还用于在多个时间尺度上进行视觉语言感知的遍历，以遍历到的时间尺度作为当前一个时间尺度；对当前一个时间尺度的第二融合特征进行向量映射后，与当前一个时间尺度的第一融合特征进行相似度计算，得到第一视觉语言感知结果；计算当前一个时间尺度的第二融合特征与后一个时间尺度的第一融合特征的相似度，得到第二视觉语言感知结果；基于所述第一视觉语言感知结果和所述第二视觉语言感知结果对所述视频中目标进行的预测，得到所述视频的目标分割结果。

在一个示例性实施例中，所述特征提取模块，还用于获取视频，并通过视觉特征提取器提取得到所述视频中各视频帧的视觉特征；利用文本编码器提取得到所述视频对应的描述文本的嵌入特征，将所述嵌入特征作为所述文本特征。

根据本发明的一个方面，一种电子设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的视频目标分割方法。

根据本发明的一个方面，一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的视频目标分割方法。

根据本发明的一个方面，一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序存储在存储介质中，计算机设备的处理器从存储介质读取计算机程序，处理器执行计算机程序，使得计算机设备执行时实现如上所述的视频目标分割方法。

在上述技术方案中，本发明实现了能够在不同时间尺度上对齐语言特征和视觉特征，实现视频目标分割的视频目标分割方法。

具体而言，本发明首先分别对视频中的各视频帧和视频对应的描述文本进行特征提取，得到各视频帧的视觉特征和文本特征，对各视频帧进行采样得到多个视频片段，基于文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征，基于在不同时间尺度上得到的第一融合特征和第二融合特征进一步构建多级视觉语言关系，最终得到视频的目标分割结果，也就是说，在进行不同尺度下的多模态特征学习的同时，还通过尺度内和尺度间的视觉语言感知对视频中目标进行预测，能够更好地实现在同一个视频内对齐关于同一个目标的视觉特征和文本特征，从而能够有效地提升视频目标分割的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种视频目标分割方法的流程图；

图3是图2对应实施例中步骤150在一个实施例的流程图；

图4是图2对应实施例所涉及的视觉语言感知过程的示意图；

图5是根据一示例性实施例示出的视频目标分割网络的示意图；

图6是根据一示例性实施例示出的另一种视频目标分割方法的流程图；

图7是根据一示例性实施例示出的一种视频目标分割装置的框图；

图8是根据一示例性实施例示出的一种电子设备的硬件结构图；

图9是根据一示例性实施例示出的一种电子设备的框图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

下面是对本发明涉及的几个名词进行的介绍和解释：

深度学习技术：深度学习的概念源于人工神经网络的研究，含多隐层的多层感知器就是一种深度学习结构，深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。同机器学习方法一样，深度机器学习方法也有监督学习与无监督学习之分．不同的学习框架下建立的学习模型很是不同．例如，卷积神经网络（Convolutional neural networks，简称CNNs）就是一种深度的监督学习下的机器学习模型。

描述文本视频目标分割：视频目标分割是指通过分析视频和提供的描述文本内容，对视频中文本所描述的目标进行定位和分割的技术。

如前所述，现有的相关技术忽略了视频中相同目标可以使用不同描述文本，导致视频目标分割准确率不高。

为此，提出了一种方案，考虑单一时序尺度下的视觉语言交互，但是仍然忽略了同一个目标可以拥有多个不同的描述文本，使用单一尺度不足以充分进行多模态学习，无法实现准确的视频目标分割。

由上可知，相关技术中仍存在忽略了视频中相同目标可以使用不同描述文本而导致视频目标分割准确率不高的问题。

为此，本发明提供的视频目标分割方法首先分别对视频中的各视频帧和视频对应的描述文本进行特征提取，得到各视频帧的视觉特征和文本特征，对各视频帧进行采样得到多个视频片段，基于文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征，基于在不同时间尺度上得到的第一融合特征和第二融合特征进一步构建多级视觉语言关系得到视频的目标分割结果，能够有效地提升视频目标分割的准确率，该视频目标分割方法适用于视频目标分割装置，该视频目标分割装置可部署于配置冯诺依曼体系结构的电子设备，例如，该电子设备可以是台式电脑、笔记本电脑、服务器等等。

图1为一种视频目标分割方法的实施环境的示意图。该实施环境包括采集端110和服务器端130。

具体地，采集端110进行待处理视频的采集，该采集端110可以是智能手机、平板电脑、笔记本电脑、台式电脑、其他具有视频采集功能的设备（比如智能摄像头）等电子设备，在此不进行限定。

采集端110与服务器端130之间可以通过有线或者无线等方式建立的通信连接，以实现二者之间的数据传输。例如，传输的数据可以是待处理视频等。

其中，服务器端130，也可以认为是云端、云平台、平台端、服务端等等，此服务器端130可以是一台服务器，也可以是由多台服务器构成的一个服务器集群，或者是由多台服务器构成的云计算中心，以便于更好地向海量采集端110提供后台服务。例如，后台服务包括视频目标分割服务。

随着采集端110与服务器端130的交互，在一个应用场景中，以服务器端130提供视频目标分割服务为例，采集端110获取到待处理视频后，将该待处理视频发送至服务器端130，那么，服务器端130便能够接收到该采集端110发送的待处理视频，进而基于该待处理视频提供视频目标分割服务。具体而言，服务器端130获取到待处理视频后，便可分别对视频中的各视频帧和视频对应的描述文本进行特征提取，得到各视频帧的视觉特征和文本特征，对各视频帧进行采样得到多个视频片段，基于文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征，基于在不同时间尺度上得到的第一融合特征和第二融合特征进行视频的视觉语言感知，得到视频的目标分割结果。

当然，在另一个应用场景中，采集端110也可同时实现待处理视频的采集和视频目标分割，在此不进行限定。

请参阅图2，本发明实施例提供了一种视频目标分割方法，该方法适用于电子设备，例如，该电子设备可以是台式电脑、笔记本电脑、服务器等等。

在下述方法实施例中，为了便于描述，以该方法各步骤的执行主体为电子设备为例进行说明，但是并非对此构成具体限定。

如图2所示，该方法可以包括以下步骤：

步骤110，分别对视频中的各视频帧和视频对应的描述文本进行特征提取，得到所述各视频帧的视觉特征和文本特征。

其中，视频可以是通过采集端进行拍摄和采集得到的。其中，采集端可以是具备图像采集功能的电子设备，例如，摄像机、配置摄像头的智能手机等等。可以理解，拍摄可以是单次拍摄，还可以是多次拍摄，那么，既可以得到一段视频，也可以是多段视频，则待处理的视频可以是多段视频中的任意一段。也就是说，本实施例中，视频目标分割方法是以视频帧为单位实施的。

关于视频的获取，视频可以来源于采集端实时拍摄并采集的视频，也可以是预先存储于电子设备的一历史时间段由采集端拍摄并采集的视频。那么，对于电子设备而言，在采集端拍摄并采集得到视频之后，可以实时处理视频，还可以预先存储了再处理，例如，在电子设备的CPU低的时候处理视频，或者，根据工作人员的指示处理视频。由此，本实施例中的视频目标分割可以针对实时获取到的视频，也可以针对历史时间段获取到的视频，在此并未进行具体限定。

其中，描述文本用于表示视频中目标的类别，这个目标可以是人，也可以是物，例如一段人爬楼梯的视频中的人或者楼梯。

其次说明的是，视觉特征用于唯一地表示各视频帧，也可以认为是各视频帧的视觉信息，通过数字形式对各视频帧进行准确地描述；文本特征用于唯一地表示视频所对应的描述文本，也可以认为是该描述文本的语言信息，通过数字形式对该描述文本进行准确地描述。可以理解，视频帧不同，对应的视觉特征也各不相同，视频帧中目标不同，则描述文本也不同，对应的文本特征也会有所差异。

在一种可能的实现方式，视觉特征提取可以通过尺度不变特征变换SIF、方向梯度直方图HOG、SURF、ORB特征检测、局部二值LBP等算法实现，还可以利用视觉特征提取器实现。

在一种可能的实现方式，文本特征提取可以通过自然语言模型（比如自然语言处理NLP）、TF-IDF、N-Gram等算法实现，还可以利用文本编码器实现。

步骤130，对各视频帧进行采样得到多个视频片段。

其中，各视频片段具有不同时间尺度，各视频片段均包括多个视频帧，各时间尺度用于描述不同的采样率。

在一种可能的实现方式，采样包括但不限于：随机采样、固定间隔采样、固定间隔与随机混合采样等采样方式。

以混合采样方式为例，先按照固定采样间隔对视频中的各视频帧进行采样，得到包含多个视频帧的视频帧序列，再从该视频帧序列中随机选取多个视频帧，便能够得到对应一种时间尺度的视频片段。其中，该视频片段对应的时间尺度与固定采样间隔有关。

步骤150，基于文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征。

其中，第一融合特征是指混入文本的视觉特征；第二融合特征是指混入视觉的文本特征。也就是说，混合时间尺度下的多模态特征学习是指将文本特征和不同时间尺度的视觉特征进行融合。

在一种可能的实现方式，如图3所示，混合时间尺度下的多模态特征学习过程可以包括以下步骤：

步骤151，基于各视频片段中视频帧的视觉特征，构建各视频片段内的特征联系，得到不同时间尺度的视觉特征。

可以理解，视频片段不同，对应的时间尺度不同，对应的视觉特征也将有所差异。换而言之，各视频片段被准确且唯一地描述为不同时间尺度的视觉特征。举例来说，视频帧A的视觉特征为a，视频帧B的视觉特征为b，视频帧A和视频帧B属于视频片段P，通过构建该视频片段P中视频帧A的视觉特征a与视频帧B的视觉特征b之间的联系，便能够得到该视频片段P对应时间尺度的视觉特征p。

步骤153，根据文本特征和不同时间尺度的视觉特征，在不同时间尺度上进行文本特征与视觉特征的对齐处理，分别在不同时间尺度上得到第一融合特征和第二融合特征。

本实施例中，文本特征与不同时间尺度的视觉特征的融合是通过在不同时间尺度上对齐文本特征与视觉特征实现的。

在一种可能的实现方式，对齐处理过程可以利用条件解码器实现。具体地，对齐处理过程可以包括以下步骤：利用可变自注意力模块构建的条件文本解码器，将文本特征和不同时间尺度的视觉特征作为键值对输入条件文本解码器，对不同时间尺度的视觉特征进行变换，得到不同时间尺度上的第一融合特征；利用可变自注意力模块构建的条件视觉解码器，将不同时间尺度的视觉特征和文本特征作为键值对输入条件视觉解码器，对文本特征进行变换，得到不同时间尺度上的第二融合特征。

此种方式下，利用混合时间尺度下进行的多模态特征学习，来匹配描述文本的多样性，从而能够更好的利用复杂的文本描述，实现高效准确的视频目标分割。

步骤170，基于在不同时间尺度上得到的第一融合特征和第二融合特征进行视频的视觉语言感知，得到视频的目标分割结果。

本实施例中的视觉语言感知，是指通过融合不同时间尺度的第一融合特征和第二融合特征以进一步得到视频中与目标相关的特征，以便于能够更准确地对视频中的目标进行预测，从而实现对视频中目标的定位和分割。

在一种可能的实现方式，视觉语言感知的过程可以包括以下步骤：基于在不同时间尺度上得到的第一融合特征和第二融合特征，分别对视频进行不同时间尺度间的视觉语言感知和同一时间尺度内的视觉语言感知，得到视频的目标分割结果。其中，目标分割结果用于指示视频中目标的类别、视频中该目标所在的起始帧和结束帧、该目标在所在视频帧中的位置中的一种或者多种。

图4展示了视觉语言感知过程的示意图，在图4中，当前一个时间尺度的第二融合特征表示为401，该第二融合特征401是指混入视觉的文本特征，其中，4011表示文本特征，4012表示混入文本特征的视觉特征；同理，当前一个时间尺度的第一融合特征表示为402，该第一融合特征402是指混入文本的视觉特征，其中，4021表示视觉特征，4022表示混入视觉特征的文本特征。由此，不同时间尺度间的视觉语言感知表示将当前一个时间尺度的第二融合特征401与其他一个时间尺度的第一融合特征403进行融合，同一时间尺度内的视觉语言感知表示将当前一个时间尺度的第二融合特征401与当前一个时间尺度的第一融合特征402进行融合。

通过上述过程，本发明首先分别对视频中的各视频帧和视频对应的描述文本进行特征提取，得到各视频帧的视觉特征和文本特征，对各视频帧进行采样得到多个视频片段，基于文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征，基于在不同时间尺度上得到的第一融合特征和第二融合特征进一步构建多级视觉语言关系，最终得到视频的目标分割结果，也就是说，在进行不同尺度下的多模态特征学习的同时，还通过尺度内和尺度间的视觉语言感知对视频中目标进行预测，实现更好地在同一个视频内对齐关于同一个目标的视觉特征和文本特征，从而能够有效地提升视频目标分割的准确率。

在一示例性实施例，视频目标分割是调用视频目标分割网络实现的，该视频目标分割网络是经过训练、且具有对视频进行目标定位和分割的能力的机器学习模型。

图5展示了视频目标分割网络在一个实施例中的结构示意图，如图5所示，视频目标分割网络主要包括：用于特征提取的视觉特征提取器、视觉编码器和文本编码器、用于按照不同采样间隔对各视频帧进行采样的混合时间尺度采样模块、用于得到混入文本的视觉特征的条件视觉解码器、用于得到混入视觉的文本特征的条件文本解码器、用于进行尺度间视觉语言感知的inter-scale视觉语言感知模块、以及用于尺度内视觉语言感知的intra-scale视觉语言感知模块。

值得一提的是，本发明提出的混合尺度的多模态学习框架，即视觉编码器、混合时间尺度采样模块、inter-scale视觉语言感知模块以及intra-scale视觉语言感知模块，可以与任意基于时序的描述文本视频目标分割方法进行结合，实现高效且准确的视频目标分割。

现结合图5和图6，基于视频目标分割网络的上述结构，对视频目标分割过程进行以下详细地说明：

在一示例性实施例，如图6所示，视频目标分割过程可以包括以下步骤：

步骤210，利用视觉特征提取器和文本编码器，分别对视频中的各视频帧和视频对应的描述文本进行特征提取，得到各视频帧的视觉特征和文本特征。

具体而言：获取视频，并通过视觉特征提取器提取得到视频中各视频帧的视觉特征；利用文本编码器提取得到视频对应的描述文本的嵌入特征，将嵌入特征作为文本特征。

也就是说，如图5所示，各视频帧的视觉特征是利用视觉特征提取器得到的，描述文本的文本特征是利用文本编码器得到的。

步骤230，利用混合时间尺度采样模块，对各视频帧进行采样得到多个视频片段。

具体而言：按照不同采样间隔对各视频帧进行采样，得到多个视频帧序列；针对每一个视频帧序列，从视频帧序列中随机选取多个视频帧，得到各视频片段。其中，每一个视频帧序列对应一种采样间隔，每一个视频片段对应一种时间尺度。

如图5所示，对各视频帧进行采样是通过混合时间尺度采样模块实现的。

经过上述过程，本发明实施例通过混合采样方式对各视频帧进行的采样，充分利用了不同时间尺度的视觉语言信息的多样性，以此作为跨时间尺度的视觉语言感知的依据，进而有利于提高视频目标分割的准确性。

步骤250，利用视觉编码器，基于各视频片段中视频帧的视觉特征，构建各视频片段内的特征联系，得到不同时间尺度的视觉特征。

如图5所示，将混合时间尺度采样模块得到的各视频片段输入视觉编码器，便能够得到不同时间尺度的视觉特征，其中，不同时间尺度的视觉特征是指时间尺度1视觉特征、时间尺度2视觉特征、……、时间尺度N视觉特征等。

步骤270，利用条件解码器，根据文本特征和不同时间尺度的视觉特征，在不同时间尺度上进行文本特征与视觉特征的对齐处理，分别在不同时间尺度上得到第一融合特征和第二融合特征。

其中，第一融合特征是指混入文本的视觉特征，第二融合特征是指混入视觉的文本特征。

继续参阅图5，条件解码器包括条件视觉解码器和条件文本解码器，通过条件视觉解码器根据不同时间尺度的视觉特征，例如图5中的时间尺度1视觉特征、时间尺度2视觉特征、时间尺度N视觉特征以及文本特征等得到混入文本的视觉特征，通过条件文本解码器根据文本特征以及不同时间尺度的视觉特征得到混入视觉的文本特征。

在一种可能的实现方式，条件解码器是利用可变自注意力模块构建的，那么，基于可变自注意力模块构建的条件解码器，步骤270可以包括以下步骤：利用可变自注意力模块构建的条件文本解码器，将文本特征和不同时间尺度的视觉特征作为键值对输入条件文本解码器，对不同时间尺度的视觉特征进行变换，得到不同时间尺度上的第一融合特征；利用可变自注意力模块构建的条件视觉解码器，将不同时间尺度的视觉特征和文本特征作为键值对输入条件视觉解码器，对文本特征进行变换，得到不同时间尺度上的第二融合特征。

具体而言，针对采集到的共L个时间尺度，进行多模态特征关系的学习，对于时间尺度l，执行如下步骤：

第一步，以k帧为采样间隔对视频中的各视频帧进行采样，得到一个视频帧序列。其中，该视频帧序列中的各视频帧在视频中的距离为k帧。

通过随机采样的方式对该视频帧序列中的各视频帧进行采样，得到时间尺度l的视频帧集合，也可以认为是时间尺度l的视频片段。

第二步，将时间尺度l的视频片段中各视频帧输入视觉编码器构建该视频片段内的特征联系，得到时间尺度l的T×H×W×C的视觉特征M，其中，T为时间尺度l的视频片段中视频帧的帧数，H和W分别为特征图的高和宽，C为特征维度。

第三步，基于视频所对应描述文本的文本特征s、以及时间尺度l的视觉特征M进行时间尺度l下的多模态特征学习：

利用可变自注意力模块构建的条件视觉解码器，使用时间尺度l的视觉特征M和文本特征s分别作为索引key和数据value输入条件视觉解码器，对文本特征s进行变换，得到混入视觉的文本特征e，即时间尺度l上的第二融合特征。

利用可变自注意力模块构建的条件文本解码器，使用文本特征s和时间尺度l的视觉特征M分别作为索引key和数据value输入条件文本解码器，对时间尺度l的视觉特征M进行变换，得到混入文本的视觉特征F，即时间尺度l上的第一融合特征。

具体地，本发明实施例中混合时间尺度下的多模态特征学习采用键值对注意力机制，将索引key和数据value构成的键值对作为条件编码器的输入信息，首先根据索引key计算注意力权值得到输入信息上的注意力分布，再根据注意力分布对键值对中的数据value进行加权融合，便计算得到第一融合特征/第二融合特征，以此实现了多模态特征学习。以文本特征s作为索引key、时间尺度l的视觉特征M作为数据value为例，该索引key用于计算与文本特征s有关的注意力权值，该注意力权值描述了在文本特征s上的注意力分布，那么，在时间尺度l的视觉特征M和与文本特征s有关的注意力权值进行加权融合后，便得到混入文本的视觉特征，即时间尺度l上的第一融合特征。

将上述步骤顺序执行L次，即完成了混合时间尺度的多模态关系构建。

步骤280，利用视觉语言感知模块，基于在不同时间尺度上得到的第一融合特征和第二融合特征，分别对视频进行不同时间尺度间的视觉语言感知和同一时间尺度内的视觉语言感知，得到视频的目标分割结果。

在一种可能的实现方式，如图5所示，视觉语言感知模块包括：用于进行尺度间视觉语言感知的inter-scale视觉感知模块、和用于尺度内视觉语言感知的intra-scale视觉语言感知模块。

具体地，第一步，在多个时间尺度上进行视觉语言感知的遍历，以遍历到的时间尺度作为当前一个时间尺度。

第二步，对当前一个时间尺度的第二融合特征进行向量映射后，与当前一个时间尺度的第一融合特征进行相似度计算，得到第一视觉语言感知结果。

其中，第一视觉语言感知结果的具体计算公式如下：

。

其中，e表示混入视觉的文本特征，F表示混入文本的视觉特征。

MaskHead表示对混入视觉的文本特征e进行向量映射，Ω·F表示逐像素计算混入视觉的文本特征e进行向量映射后与混入文本的视觉特征F之间的相似度。

第三步，计算当前一个时间尺度的第二融合特征与后一个时间尺度的第一融合特征的相似度，得到第二视觉语言感知结果。

其中，第二视觉语言感知结果的具体计算公式如下：。

其中，表示当前一个时间尺度l的混入视觉的文本特征，/>表示后一个时间尺度l+1的混入文本的视觉特征，t表示第t个像素。

MP表示逐像素计算当前一个时间尺度l的混入视觉的文本特征与后一个时间尺度l+1的混入文本的视觉特征之间的相似度。

第四步，基于第一视觉语言感知结果和第二视觉语言感知结果对视频中目标进行的预测，得到视频的目标分割结果。

其中，第一视觉语言感知结果是指基于尺度内视觉语言感知而预测得到的目标分割结果，第二视觉语言感知结果是指基于尺度间视觉语言感知而预测得到的目标分割结果。那么，在获得第一视觉语言感知结果和第二视觉语言感知结果后，通过对二者进行逐像素匹配，便能够得到视频的目标分割结果。

值得一提的是，在视频目标分割网络的训练过程中，在得到第一视觉语言感知结果和第二视觉语言感知结果后，需要根据第一视觉语言感知结果和第二视觉语言感知结果中的预测值分别与训练集中的真实值之间的差异逐像素计算损失函数的损失值，进而通过不断减小损失值，完成视频目标分割网络的训练过程，从而得到具有对视频中目标进行定位和分割的能力的视频目标分割网络。

经过上述过程，本发明实施例在不同尺度内和不同尺度间进行视觉语言感知，得到不同先验条件下的目标分割结果，同时进行监督约束，更好地对齐视觉特征与文本特征，提升视频目标分割的准确性，实现高质量的视频目标分割。

本发明应用范围很广，本发明可以通过对感兴趣目标（如指定衣着、携带指定物体、指定行为的人）进行定位和分割，实现对视频中目标的监控、交互、控制等，例如：

1.智能安防：在城市智能安防场景下，针对指定的人或者物提供相关的描述文本，便能够对监控范围内指定的人或者物进行精准地定位和分割。

2.智能家居服务：在智能家居场景下，结合语音识别技术，针对服务机器人执行任务中的目标提供相关的描述文本，便能够使得服务机器人更好地根据指令取物、行进和完成其他定制化的执行任务。

3.元宇宙娱乐：在元宇宙娱乐场景下，不需要点击鼠标，只需要针对视野内目标提供相关的描述文本，就可以准确地分割视野内的目标，并以此作为其他应用不可或缺的基础工具。

上述应用场景中，在包含目标的视频的基础上，提供与该目标相关的描述文本，通过本发明提出的混合时间尺度下的多模态特征学习，便能够充分地学习描述文本的多样性，从而更好地利用复杂的文本描述进行更加精准地视频目标分割，避免因目标的描述文本不同而导致目标分割结果的差异，不仅鲁棒性更高，而且更切合真实场景，有利于提升用户体验。

下述为本发明装置实施例，可以用于执行本发明所涉及的视频目标分割方法。对于本发明装置实施例中未披露的细节，请参照本发明所涉及的视频目标分割方法的方法实施例。

请参阅图7，在一示例性实施例中，一种视频目标分割装置700。

所述装置700包括但不限于：特征提取模块710、视频采样模块730、多模态特征学习模块750及视觉语言感知模块770。

其中，特征提取模块710，用于分别对视频中的各视频帧和视频对应的描述文本进行特征提取，得到各视频帧的视觉特征和文本特征。

视频采样模块730，用于对各视频帧进行采样得到多个视频片段；各视频片段具有不同时间尺度，各视频片段均包括多个视频帧。

多模态特征学习模块750，用于基于文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征；第一融合特征是指混入文本的视觉特征，第二融合特征是指混入视觉的文本特征。

视觉语言感知模块770，用于基于在不同时间尺度上得到的第一融合特征和第二融合特征进行视频的视觉语言感知，得到视频的目标分割结果。

在一个示例性实施例中，视频采样模块，还用于按照不同采样间隔对各视频帧进行采样，得到多个视频帧序列；每一个视频帧序列对应一种采样间隔；针对每一个视频帧序列，从视频帧序列中随机选取多个视频帧，得到各视频片段，每一个视频片段对应一种时间尺度。

在一个示例性实施例中，多模态特征学习模块，还用于基于各视频片段中视频帧的视觉特征，构建各视频片段内的特征联系，得到不同时间尺度的视觉特征；根据文本特征和不同时间尺度的视觉特征，在不同时间尺度上进行文本特征与视觉特征的对齐处理，分别在不同时间尺度上得到第一融合特征和第二融合特征。

在一个示例性实施例中，多模态特征学习模块，还用于利用可变自注意力模块构建的条件文本解码器，将文本特征和不同时间尺度的视觉特征作为键值对输入条件文本解码器，对不同时间尺度的视觉特征进行变换，得到不同时间尺度上的第一融合特征；利用可变自注意力模块构建的条件视觉解码器，将不同时间尺度的视觉特征和文本特征作为键值对输入条件视觉解码器，对文本特征进行变换，得到不同时间尺度上的第二融合特征。

在一个示例性实施例中，视觉语言感知模块，还用于基于在不同时间尺度上得到的第一融合特征和第二融合特征，分别对视频进行不同时间尺度间的视觉语言感知和同一时间尺度内的视觉语言感知，得到视频的目标分割结果。

在一个示例性实施例中，视觉语言感知模块，还用于在多个时间尺度上进行视觉语言感知的遍历，以遍历到的时间尺度作为当前一个时间尺度；对当前一个时间尺度的第二融合特征进行向量映射后，与当前一个时间尺度的第一融合特征进行相似度计算，得到第一视觉语言感知结果；计算当前一个时间尺度的第二融合特征与后一个时间尺度的第一融合特征的相似度，得到第二视觉语言感知结果；基于第一视觉语言感知结果和第二视觉语言感知结果对视频中目标进行的预测，得到视频的目标分割结果。

在一个示例性实施例中，特征提取模块，还用于获取视频，并通过视觉特征提取器提取得到视频中各视频帧的视觉特征；利用文本编码器提取得到视频对应的描述文本的嵌入特征，将嵌入特征作为文本特征。

需要说明的是，上述实施例所提供的视频目标分割装置在进行视频目标分割时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即视频目标分割装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的视频目标分割装置与视频目标分割方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

图8根据一示例性实施例示出的一种电子设备的结构示意。该电子设备适用于图1所示出实施环境中的服务器端130。

需要说明的是，该电子设备只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该电子设备也不能解释为需要依赖于或者必须具有图8示出的示例性的电子设备2000中的一个或者多个组件。

电子设备2000的硬件结构可因配置或者性能的不同而产生较大的差异，如图8所示，电子设备2000包括：电源210、接口230、至少一存储器250、以及至少一中央处理器（CPU,Central Processing Units）270。

具体地，电源210用于为电子设备2000上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231，用于与外部设备交互。例如，在图1所示出实施环境中，服务器端130与采集端110之间的交互。

当然，在其余本发明适配的示例中，接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，如图8所示，在此并非对此构成具体限定。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作系统251用于管理与控制电子设备2000上的各硬件设备以及应用程序253，以实现中央处理器270对存储器250中海量数据255的运算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块（图8未示出），每个模块都可以分别包含有对电子设备2000的计算机程序。例如，视频目标分割装置可视为部署于电子设备2000的应用程序253。

数据255可以是存储于磁盘中的照片、图片等，还可以是输入的视频数据等，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器250通信，以读取存储器250中存储的计算机程序，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机程序的形式来完成视频目标分割方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本发明，因此，实现本发明并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图9，本发明实施例中提供了一种电子设备4000，该电子设备400可以包括：台式电脑、笔记本电脑、服务器等。

在图9中，该电子设备4000包括至少一个处理器4001、至少一条通信总线4002以及至少一个存储器4003。

其中，处理器4001和存储器4003相连，如通过通信总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本发明实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

通信总线4002可包括一通路，在上述组件之间传送信息。通信总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。通信总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003上存储有计算机程序，处理器4001通过通信总线4002读取存储器4003中存储的计算机程序。

该计算机程序被处理器4001执行时实现上述各实施例中的视频目标分割方法。

此外，本发明实施例中提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的视频目标分割方法。

本发明实施例中提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在存储介质中。计算机设备的处理器从存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述各实施例中的视频目标分割方法。

与相关技术相比，本发明的有益效果是：

1.本发明提出了一种新的视频目标分割方法，通过首先分别对视频中的各视频帧和视频对应的描述文本进行特征提取，得到各视频帧的视觉特征和文本特征，对各视频帧进行采样得到多个视频片段，基于文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征，基于在不同时间尺度上得到的第一融合特征和第二融合特征进一步构建多级视觉语言关系，以同时进行不同尺度下的多模态学习，通过尺度内和尺度间的视觉文本感知，实现更好地在同一个模型内对齐视觉特征和语言特征，进一步提升视频目标分割的准确率。

2.本发明第一个提出利用混合时间尺度进行多模态学习，来匹配描述文本多样性的方法，通过多级时间尺度的多模态学习，可以更好的利用复杂的文本描述，也更加鲁棒，更适合真实场景。

3.本发明所提出的混合尺度的多模态学习框架，可以与任意基于时序的描述文本视频目标分割识别方法进行结合，现有的描述文本视频目标分割识别方法均不包含跨时间尺度的视觉文本感知模块，本发明可以进一步提升算法的视频目标分割准确率。

4.本发明对于很多应用场景，比如智慧城市安防。监控视频中人和物体有着不同的外观、行为模式和交互方式，可以通过对感兴趣目标（如指定衣着、携带指定物体与指定行为的人）进行定位和分割。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

上述内容，仅为本发明的较佳示例性实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种视频目标分割方法，其特征在于，所述方法包括：

分别对视频中的各视频帧和所述视频对应的描述文本进行特征提取，得到各所述视频帧的视觉特征和文本特征；

对各所述视频帧进行采样得到多个视频片段；各视频片段具有不同时间尺度，各视频片段均包括多个视频帧；

基于所述文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征；所述第一融合特征是指混入文本的视觉特征，所述第二融合特征是指混入视觉的文本特征；

基于在不同时间尺度上得到的第一融合特征和第二融合特征，分别对所述视频进行不同时间尺度间的视觉语言感知和同一时间尺度内的视觉语言感知，得到所述视频的目标分割结果。

2.如权利要求1所述的方法，其特征在于，所述对各所述视频帧进行采样得到多个视频片段，包括：

按照不同采样间隔对各所述视频帧进行采样，得到多个视频帧序列；每一个视频帧序列对应一种采样间隔；

针对每一个视频帧序列，从所述视频帧序列中随机选取多个视频帧，得到各所述视频片段；每一个所述视频片段对应一种时间尺度。

3.如权利要求1所述的方法，其特征在于，所述基于所述文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征，包括：

基于各视频片段中视频帧的视觉特征，构建各视频片段内的特征联系，得到不同时间尺度的视觉特征；

根据文本特征和不同时间尺度的视觉特征，在不同时间尺度上进行文本特征与视觉特征的对齐处理，分别在不同时间尺度上得到第一融合特征和第二融合特征。

4.如权利要求3所述的方法，其特征在于，所述根据文本特征和不同时间尺度的视觉特征，在不同时间尺度上进行文本特征与视觉特征的对齐处理，分别在不同时间尺度上得到第一融合特征和第二融合特征，包括：

利用可变自注意力模块构建的条件文本解码器，将文本特征和不同时间尺度的视觉特征作为键值对输入所述条件文本解码器，对不同时间尺度的视觉特征进行变换，得到不同时间尺度上的第一融合特征；

利用可变自注意力模块构建的条件视觉解码器，将不同时间尺度的视觉特征和文本特征作为键值对输入所述条件视觉解码器，对文本特征进行变换，得到不同时间尺度上的第二融合特征。

5.如权利要求1所述的方法，其特征在于，所述基于在不同时间尺度上得到的第一融合特征和第二融合特征，分别对所述视频进行不同时间尺度间的视觉语言感知和同一时间尺度内的视觉语言感知，得到所述视频的目标分割结果，包括：

在多个时间尺度上进行视觉语言感知的遍历，以遍历到的时间尺度作为当前一个时间尺度；

对当前一个时间尺度的第二融合特征进行向量映射后，与当前一个时间尺度的第一融合特征进行相似度计算，得到第一视觉语言感知结果；

计算当前一个时间尺度的第二融合特征与后一个时间尺度的第一融合特征的相似度，得到第二视觉语言感知结果；

基于所述第一视觉语言感知结果和所述第二视觉语言感知结果对所述视频中目标进行的预测，得到所述视频的目标分割结果。

6.如权利要求1至5任一项所述的方法，其特征在于，所述分别对视频中的各视频帧和所述视频对应的描述文本进行特征提取，得到所述各视频帧的视觉特征和文本特征，包括：

获取视频，并通过视觉特征提取器提取得到所述视频中各视频帧的视觉特征；

利用文本编码器提取得到所述视频对应的描述文本的嵌入特征，将所述嵌入特征作为所述文本特征。

7.一种视频目标分割装置，其特征在于，所述装置包括：

特征提取模块，用于分别对视频中的各视频帧和所述视频对应的描述文本进行特征提取，得到各所述视频帧的视觉特征和文本特征；

视频采样模块，用于对各所述视频帧进行采样得到多个视频片段；各视频片段具有不同时间尺度，各视频片段均包括多个视频帧；

多模态特征学习模块，用于基于所述文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习，分别在不同时间尺度上得到第一融合特征和第二融合特征；所述第一融合特征是指混入文本的视觉特征，所述第二融合特征是指混入视觉的文本特征；

视觉语言感知模块，用于基于在不同时间尺度上得到的第一融合特征和第二融合特征，分别对所述视频进行不同时间尺度间的视觉语言感知和同一时间尺度内的视觉语言感知，得到所述视频的目标分割结果。

8.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器、以及至少一条通信总线，其中，

所述存储器上存储有计算机程序，所述处理器通过所述通信总线读取所述存储器中的所述计算机程序；

所述计算机程序被所述处理器执行时实现权利要求1至6中任一项所述的视频目标分割方法。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的视频目标分割方法。