CN112818955A

CN112818955A - 一种图像分割方法、装置、计算机设备以及存储介质

Info

Publication number: CN112818955A
Application number: CN202110294414.XA
Authority: CN
Inventors: 黄少飞; 王飞; 钱晨; 刘偲
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-05-18
Anticipated expiration: 2041-03-19
Also published as: CN112818955B

Abstract

本公开提供了一种图像分割方法、装置、计算机设备以及存储介质，该方法包括：获取包含待处理图像的目标视频片段，和待处理图像对应的描述文本；分别提取待处理图像对应的目标图像特征、目标视频片段对应的目标视频特征、以及描述文本对应的第一文本特征；将目标图像特征和目标视频特征分别与第一文本特征进行融合，得到融合图像特征和融合视频特征；根据融合图像特征和融合视频特征对待处理图像进行分割，得到与描述文本相匹配的图像分割结果。本公开实施例通过结合待处理图像的目标图像特征和目标视频片段的目标视频特征确定待处理图像的图像分割结果，能够缓解视频片段中目标帧的特征被其他帧特征混淆导致的图像分割结果准确度差的问题。

Description

一种图像分割方法、装置、计算机设备以及存储介质

技术领域

本公开涉及图像处理的技术领域，具体而言，涉及一种图像分割方法、装置、计算机设备以及存储介质。

背景技术

基于语言检索的视频目标分割技术是指根据语言中描述的动作及外观属性，检索出视频中符合语言描述的目标，并获得其完整的分割掩码。

由于不同帧图像之间的内容在空间上具有细微的差别，而基于视频片段的时序建模方法对这种细微差别未予以考量，会导致视频片段中目标帧的视觉特征被混淆，从而扰乱分割网络，产生不准确的图像分割结果。

发明内容

本公开实施例至少提供一种图像分割方法、装置、计算机设备以及存储介质。

第一方面，本公开实施例提供了一种图像分割方法，包括：获取包含待处理图像的目标视频片段，和所述待处理图像对应的描述文本；分别提取所述待处理图像对应的目标图像特征、所述目标视频片段对应的目标视频特征、以及所述描述文本对应的第一文本特征；将所述目标图像特征和所述目标视频特征分别与所述第一文本特征进行融合，得到融合图像特征和融合视频特征；根据所述融合图像特征和所述融合视频特征对所述待处理图像进行分割，得到与所述描述文本相匹配的图像分割结果。

通过上述描述可知，在本公开实施例中，通过结合待处理图像的目标图像特征和包含待处理图像的目标视频片段的目标视频特征，来确定待处理图像的图像分割结果的方式，能够实现结合视频的空间信息和时序信息来对待处理图像进行图像分割，通过上述处理方式，能够使得待处理图像的图像特征不会被目标视频片段中的其他视频帧的特征所混淆，从而提高图像分割结果的准确度，进而缓解视频片段中目标帧的特征被其他视频帧的特征所混淆导致的图像分割结果准确度差的问题。

一种可选的实施方式中，所述描述文本包含多个描述字符段；所述将所述目标图像特征与所述第一文本特征进行融合，得到融合图像特征，包括：根据所述目标图像特征和所述第一文本特征，确定每个描述字符段与所述待处理图像之间的匹配度，得到多个目标匹配度；根据所述多个目标匹配度和所述第一文本特征，确定所述描述文本的语言特征信息；所述语言特征信息用于描述所述待处理图像的外观属性特征；将所述语言特征信息和所述目标图像特征进行融合，得到所述融合图像特征。

通过上述描述可知，语言特征信息可以理解为描述文本中与待处理图像的外观属性相关联的特征，因此，在本公开实施例中，能够快速有效的捕捉描述文本中的有效信息，从而自适应的提取描述文本中与待处理图像的外观相关联的部分。在将该语言特征信息和目标图像特征进行融合，得到融合图像特征时，就可以更准确地根据融合图像特征从待处理图像中对待分割目标进行检索，从而提高图像分割的准确性。

一种可选的实施方式中，所述根据所述目标图像特征和所述第一文本特征，确定每个描述字符段与所述待处理图像之间的匹配度，得到多个目标匹配度，包括：确定所述目标图像特征和所述第一文本特征之间的跨模态注意力信息；所述跨模态注意力信息用于表征每个描述字符段和待处理图像中每个图像位置之间的匹配程度；根据所述跨模态注意力信息，计算每个所述描述字符段与所述待处理图像之间的匹配度，得到多个目标匹配度。

一种可选的实施方式中，所述第一文本特征中包含：所述描述文本的多个字符段中每个描述字符段的特征信息；所述根据所述多个目标匹配度和所述第一文本特征，确定所述描述文本的语言特征信息，包括：对所述多个目标匹配度和所述每个描述字符段的特征信息进行加权求和，得到所述语言特征信息。

通过上述描述可知，通过计算每个描述字符段和每个图像位置之间的注意力值，进而根据该注意力值确定描述字符段和待处理图像之间的注意力值，以根据该注意力值确定语言特征信息，可以利用注意力机制自动提取描述文本中与待处理图像的外观属性相关联特征，从而能够有效捕捉描述文本中的有效信息并指导结果预测，从而提升检索的准确性。

一种可选的实施方式中，所述将所述语言特征信息和所述目标图像特征进行融合，得到所述融合图像特征，包括：根据所述语言特征信息对所述目标图像特征进行过滤处理，得到与所述语言特征信息相匹配的图像特征；将确定出的所述相匹配的图像特征和所述目标图像特征进行合并，得到所述融合图像特征。

通过上述描述可知，通过对目标图像特征进行过滤，可以得到与语言特征信息相匹配的图像特征，从而能够准确的对待分割目标进行分割，再确定出的相匹配的图像特征和目标图像特征进行求和运算的方式，可以在融合图像特征中保留待处理图像的目标图像特征，从而有利于对本公开所提供的图像分割方法进行算法优化。

一种可选的实施方式中，所述目标图像特征包含第一神经网络的多个网络层对所述待处理图像进行处理得到的多个层级的图像特征；所述目标视频特征包含第二神经网络的多个网络层对所述目标视频片段进行处理得到的多个层级的视频特征；所述将所述目标图像特征和所述目标视频特征分别与所述第一文本特征进行融合，得到融合图像特征和融合视频特征，包括：将所述多个层级的图像特征中每个层级的图像特征与所述第一文本特征进行融合，得到所述融合图像特征；将所述多个层级的视频特征中每个层级的视频特征与所述第一文本特征进行融合，得到所述融合视频特征。

在本公开实施例中，通过分层级的方式对目标图像特征和第一文本特征进行逐层融合，可以获取更加全面图像特征，从而进一步提高图像分割的准确性。通过分层级的方式对目标视频片段的目标视频特征和第一文本特征进行逐层融合，可以获取更加全面视频特征，从而进一步提高图像分割的准确性。

一种可选的实施方式中，根据所述融合图像特征和所述融合视频特征对所述待处理图像中进行分割，得到与所述描述文本相匹配的图像分割结果，包括：在多层级融合图像特征和多层级融合视频特征中确定对应相同层级的融合图像特征和融合视频特征，得到多个融合特征组；其中，所述多层级融合图像特征包括通过第一神经网络的多个网络层对所述待处理图像进行处理得到的各个层级的图像特征和所述第一文本特征进行融合得到的多个层级的融合图像特征；所述多层级融合视频特征包括通过第二神经网络的多个网络层对所述目标视频片段进行处理得到的各个层级的视频特征和所述第一文本特征进行融合得到的多个层级的融合图像特征；将每个融合特征组的融合特征与第二文本特征进行融合，得到每个层级的目标融合结果；所述第二文本特征用于表征所述描述文本中全部描述字符段的特征；根据多层级中每个层级的目标融合结果对待处理图像进行分割，得到所述图像分割结果。

通过上述描述可知，通过分层级的对融合图像特征、融合视频特征和第二文本特征进行融合的方式，可以得到包含更加全面的特征的目标融合结果，从而得到包含完整分割掩码的图像分割结果。

一种可选的实施方式中，所述根据多层级中每个层级的目标融合结果对待处理图像进行分割，得到所述图像分割结果，包括：对所述每个层级的目标融合结果进行上采样处理，得到目标采样结果；通过所述目标采样结果对待处理图像进行分割，得到所述图像分割结果。

通过上述描述可知，通过对目标融合结果进行上采样处理，可以得到与待处理图像的尺寸相同的目标采样结果，同时，目标采样结果中包含各个层级的特征，因此，目标采样结果中所包含的特征更加全面，在根据目标采样结果确定图像分割结果时，可以获得描述待分割目标的完整分割结果。

一种可选的实施方式中，所述根据所述融合图像特征和所述融合视频特征对所述待处理图像中进行分割，得到与所述描述文本相匹配的图像分割结果，包括：根据所述第一文本特征分别确定与所述融合图像特征和所述融合视频特征相匹配的文本特征，得到与所述融合图像特征相匹配的第三文本特征和与所述融合视频特征相匹配的第四文本特征；将所述融合图像特征和所述第三文本特征进行按位相乘运算，得到第一运算结果；并将所述融合视频特征和所述第四文本特征进行按位相乘运算，得到第二运算结果；将所述第一运算结果和所述第二运算结果进行求和，根据求和运算结果确定所述图像分割结果。

一种可选的实施方式中，所述根据所述第一文本特征分别确定与所述融合图像特征和所述融合视频特征相匹配的文本特征，得到与所述融合图像特征相匹配的第三文本特征和与所述融合视频特征相匹配的第四文本特征，包括：对所述第一文本特征中所包含的每个描述字符段的特征信息进行求平均值计算，得到目标特征均值；分别确定所述融合图像特征和所述融合视频特征所对应的全连接层，得到第一全连接层和第二全连接层；分别通过所述第一全连接层和所述第二全连接层依次对所述目标特征均值进行处理，得到所述与所述融合图像特征相匹配的第三文本特征和所述与所述融合视频特征相匹配的第四文本特征。

通过上述描述可知，在本公开实施例中，由于目标视频特征和目标图像特征为模态不相同的特征数据，因此，在将目标视频特征(或者目标图像特征)与第一文本特征进行融合时，需要将第一文本特征转化为结构不同的文本特征，通过该处理方式，可以提高图像分割结果的精度，从而得到包含待分割目标的完整掩码的图像分割结果。

第二方面，本公开实施例提供了一种图像分割装置，包括：获取单元，用于获取包含待处理图像的目标视频片段，和所述待处理图像对应的描述文本；提取单元，用于分别提取所述待处理图像对应的目标图像特征、所述目标视频片段对应的目标视频特征、以及所述描述文本对应的第一文本特征；融合单元，用于将所述目标图像特征和所述目标视频特征分别与所述第一文本特征进行融合，得到融合图像特征和融合视频特征；确定单元，用于根据所述融合图像特征和所述融合视频特征对所述待处理图像进行分割，得到与所述描述文本相匹配的图像分割结果。

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种图像分割方法的流程图；

图2示出了本公开实施例所提供的一种待处理图像及其图像分割结果的示意图；

图3示出了本公开实施例所提供的一种图像分割方法的流程框架图；

图4示出了本公开实施例所提供的一种图像分割装置的示意图；

图5示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，现有技术中对视频片段进行处理的卷积神经网络融合了多帧图像的信息。由于不同帧图像之间的内容在空间上具有细微的差别，因此该技术方案会导致视频片段中目标帧的视觉特征被混淆，从而扰乱分割网络，产生不准确的图像分割结果。

基于上述研究，本公开的实施例提供了一种图像分割方法，在该方法中，首先获取包含待处理图像的目标视频片段，以及获取待处理图像所对应的描述文本，之后，分别提取待处理图像对应的目标图像特征、目标视频片段对应的目标视频特征、以及描述文本对应的第一文本特征；进而将目标图像特征和目标视频特征分别与第一文本特征进行融合，得到融合图像特征和融合视频特征，最后，根据融合图像特征和融合视频特征对待处理图像进行分割，得到与描述文本相匹配的图像分割结果。

通过上述描述可知，在本公开实施例中，通过结合待处理图像的目标图像特征和包含待处理图像的目标视频片段的目标视频特征，来确定待处理图像的图像分割结果的方式，能够实现结合视频的空间信息和时序信息来对待处理图像进行图像分割。通过该处理方式，能够使得待处理图像的图像特征不会被目标视频片段中的其他视频帧的特征所混淆，从而提高图像分割结果的准确度，进而缓解视频片段中目标帧的特征被其他视频帧的特征所混淆导致的图像分割结果准确度差的问题。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种图像分割方法进行详细介绍，本公开实施例所提供的图像分割方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备中预先设置有能够采集视频的摄像装置。

参见图1所示，为本公开实施例提供的一种图像分割方法的流程图，该方法可以应用在上述所描述的计算机设备中，该方法包括如下步骤：

S101：获取包含待处理图像的目标视频片段，和所述待处理图像对应的描述文本。

在本公开实施例中，在计算机设备中，可以设置摄像装置，进而通过该摄像装置采集视频片段。其中，目标视频片段可以为摄像装置采集到的视频片段的部分片段。

例如，待处理图像为摄像装置所采集视频片段中的第N帧图像，那么目标视频片段中所包含的图像帧为：视频片段中第N帧图像的前n帧图像，以及视频片段中第N帧图像的后N-1帧图像，其中，n可以取值为4-10，本公开对此不作具体限定。

描述文本可以为用户输入的与待处理图像匹配的语音信息的文本表示，还可以为待处理图像中的字幕信息，本公开对描述语音的具体形式不作限定。

S103：分别提取所述待处理图像对应的目标图像特征、所述目标视频片段对应的目标视频特征、以及所述描述文本对应的第一文本特征。

S105：将所述目标图像特征和所述目标视频特征分别与所述第一文本特征进行融合，得到融合图像特征和融合视频特征。

具体地，可以将目标图像特征于第一文本特征进行融合，得到融合图像特征，并且将目标视频特征与第一文本特征进行融合，得到融合视频特征。

S107：根据所述融合图像特征和所述融合视频特征对所述待处理图像进行分割，得到与所述描述文本相匹配的图像分割结果。

例如，如图2所示，获取待处理图像及其描述文本，以及包含待处理图像的目标视频片段，其中，待处理图像的描述文本可以为“一只白棕色的猫向后跳”。之后，就可以根据待处理图像、描述文本和目标视频片段确定待处理图像的图像分割结果，例如，图像分割结果可以为如图2所示的分割结果，如图2所示，该图像分割结果可以为包含待分割目标的分割掩码的分割结果，其中，待分割目标为描述文本中所指示的分割目标，例如：向后跳的白棕色猫。

通过上述描述可知，在本公开实施例中，首先获取包含待处理图像的目标视频片段，和待处理图像对应的描述文本。之后，就可以分别提取待处理图像对应的目标图像特征、目标视频片段对应的目标视频特征、以及描述文本对应的第一文本特征。

在本公开实施例中，可以通过卷积神经网络对待处理图像和目标视频片段进行处理，分别得到目标图像特征和目标视频特征。具体地，可以通过2D卷积神经网络(例如，Inception-V3)提取待处理图像的特征，得到目标图像特征；并通过3D卷积神经网络(例如，I3D)提取目标视频片段的特征，得到目标视频特征；可以通过门控循环单元(GatedRecurrent Unit，GRU)对描述文本进行处理，得到第一文本特征。其中，门控循环单元为一种门控循环神经网络(gated recurrent neural network)。除了门控循环单元之外，还可以通过其他类型的循环神经网络对描述文本进行处理，得到第一文本特征。

可以理解的是，第一文本特征可以为描述文本中每个描述字符段或者描述字符段的特征信息，其中，描述字符段可以理解为描述文本中的每个文字，描述字符段可以理解为描述文本中的每个词组，本公开对此不作具体限定。

在按照上述所描述的方式提取得到目标图像特征、目标视频特征和第一文本特征之后，就可以将目标图像特征和目标视频特征分别与第一文本特征进行融合，得到融合图像特征和融合视频特征。

在本公开实施例中，在描述文本中包含多个描述字符段的情况下，步骤S105，将所述目标图像特征与所述第一文本特征进行融合，得到融合图像特征，具体包括如下过程：

步骤S11、根据目标图像特征和第一文本特征，确定每个描述字符段与待处理图像之间的匹配度，得到多个目标匹配度。

在该步骤中，可以确定每个描述字符段与待处理图像之间的注意力值，进而通过该注意力值确定每个描述字符段与待处理图像之间的匹配度，从而得到多个目标匹配度。

应理解的是，在确定第一文本特征之前，可以对描述文本进行分词操作，得到多个分词词组；之后，对多个分词词组进行筛选，以过滤掉多个分词词组中的无用词组，得到多个描述字符段，其中，无用词组可以为包含感叹词、人称代词的词组，每个描述字符段可以是单个字符，也可以是由多个字符组成的词组。

在本公开实施例中，可以通过下述过程确定每个描述字符段与待处理图像之间的注意力值，具体包括：

首先，确定目标图像特征和第一文本特征之间的跨模态注意力信息；跨模态注意力信息用于表征每个描述字符段和待处理图像中每个图像位置之间的匹配程度。其中，每个图像位置可以为待处理图像中的每个像素所在位置。

具体地，可以通过公式

计算跨模态注意力信息，其中，

表示矩阵乘法，A为上述跨模态注意力信息，A中的每个元素用于表征每个描述字符段和每个图像位置之间的注意力值(也即，匹配程度)；V_S表示目标图像特征，L表示第一文本特征，V_S中的符号“S”表示待处理图像。

在确定出上述跨模态注意力信息A之后，就可以根据跨模态注意力信息，计算每个描述字符段与所述待处理图像之间的匹配度，得到多个目标匹配度。

具体地，可以将A中每个描述字符段的所有注意力值进行求和运算，并对求和运算结果进行softmax归一化处理，从而得到每个描述字符段与待处理图像之间的注意力值w(也即，每个描述字符段和待处理图像之间的匹配度)，从而得到多个注意力值w(也即，多个目标匹配度)。

步骤S12、根据多个目标匹配度和所述第一文本特征，确定描述文本的语言特征信息；语言特征信息用于描述待处理图像的外观属性特征。

在本公开实施例中，在确定出多个目标匹配度之后，就可以将多个目标匹配度和第一文本特征进行加权求和，得到描述文本的语言特征信息。语言特征信息可以理解为描述文本中用于描述对应图像(例如，待处理图像)的外观属性的特征信息。

通过上述描述可知，第一文本特征中包含：每个描述字符段的特征信息，基于此，将多个目标匹配度和第一文本特征进行加权求和可以描述为下述过程：

通过公式l_S＝∑wL对多个目标匹配度和每个描述字符段的特征信息进行加权求和，得到语言特征信息。

在上述公式中，l_S表示描述文本中与待处理图像的外观属性相关联的特征，w表示每个描述字符段和待处理图像之间的注意力值，L表示第一文本特征。

步骤S13、将语言特征信息和目标图像特征进行融合，得到融合图像特征，其中，该融合过程描述如下：

在按照上述所描述的方法得到语言特征信息之后，就可以根据语言特征信息对目标图像特征进行过滤处理，得到目标图像特征中与语言特征信息相匹配的图像特征。

具体地，可以对目标图像特征和语言特征信息进行按位相乘，从而根据按位相乘的处理方式对目标图像特征进行过滤处理。对目标图像特征进行过滤处理的目的是过滤掉目标图像特征中与语言特征信息不匹配的特征，从而得到与语言特征信息相匹配的图像特征，比如，可以在目标图像特征中过滤出与语言特征信息所对应的外观属性相匹配的图像特征。通过语言特征信息对待处理图像的外观属性特征进行提取的方式，可以准确的从待处理图像中检索到待分割目标，得到不包含无用信息的图像分割结果，从而提高图像分割的分割精度，其中，该无用信息是指与待分割目标不相关的信息。

在得到目标图像特征中与语言特征信息相匹配的图像特征之后，就可以将确定出的相匹配的图像特征和目标图像特征进行合并，例如，可以进行求和运算。在进行合并之后，就可以得到融合图像特征，其中，目标图像特征可以理解为融合图像特征中的残差特征。

由于确定出的相匹配的图像特征为目标图像特征中的部分特征，因此，为了提高本公开技术方案的鲁棒性和稳定性，需要再将确定出的相匹配的图像特征和目标图像特征进行合并，从而通过设置残差特征的方式提高本公开技术方案的处理性能。

通过上述描述可知，语言特征信息可以理解为描述文本中用于描述对应图像(例如，待处理图像)的外观属性的特征信息。因此，对多个目标匹配度和每个描述字符段的特征信息进行加权求和，得到语言特征信息的方式，能够快速有效的捕捉描述文本中与外观属性相关联的有效信息，从而自适应的提取描述文本中与待处理图像的外观属性相关联的部分。在将语言特征信息和目标图像特征进行融合得到融合图像特征时，就可以更加准确的根据融合图像特征在待处理图像中检索到待分割目标，以提高图像分割的准确性。

在本公开实施例中，在描述文本中包含多个描述字符段的情况下，步骤S105，将目标视频特征与所述第一文本特征进行融合，得到融合视频特征的具体过程与上述步骤S11至步骤S13所描述的过程相同，具体描述如下：

步骤S21，根据所述目标视频特征和所述第一文本特征，确定每个描述字符段与目标视频片段之间的匹配度，得到多个目标匹配度。

针对上述步骤S21，首先，确定所述目标视频特征和所述第一文本特征之间的跨模态注意力信息；所述跨模态注意力信息用于表征每个描述字符段和目标视频片段中每个视频帧中每个图像位置之间的匹配程度；然后，根据所述跨模态注意力信息，计算每个所述描述字符段与目标视频片段之间的匹配度，得到多个目标匹配度。

步骤S22，根据所述多个目标匹配度和所述第一文本特征，确定所述描述文本的语言特征信息；所述语言特征信息用于描述目标视频片段的动作特征。

针对步骤S22，对所述多个目标匹配度和所述每个描述字符段的特征信息进行加权求和，得到所述语言特征信息。

步骤S23，将所述语言特征信息和所述目标视频特征进行融合，得到所述融合视频特征。

针对步骤S23，根据所述语言特征信息对所述目标视频特征进行过滤处理，得到与所述语言特征信息相匹配的视频特征；将确定出的所述相匹配的视频特征和所述目标视频特征进行合并，例如，求和运算，得到所述融合视频特征。

通过上述描述可知，语言特征信息可以理解为描述文本中与目标视频片段的动作特征相关联的特征，因此，对多个目标匹配度和每个描述字符段的特征信息进行加权求和，得到语言特征信息的方式，能够快速有效的捕捉描述文本中与视频动作特征相关联的语言特征信息。在将语言特征信息和目标视频特征进行融合得到融合视频特征之后，就可以过滤出目标视频特征中与语言特征信息所描述的视频动作特征相匹配的视频特征。在根据融合视频特征和融合图像特征对待处理图像进行分割时，可以根据融合视频特征提取目标视频片段中的动作特征，并根据融合图像特征提取待处理图像中的外观属性特征，在对动作特征和外观属性特征进行融合得到图像分割结果时，可以精准的对待分割目标进行定位，进而得到包含待分割目标的完整掩码的图像分割结果，以提高图像分割的准确性。

在一个可选的实施方式中，目标图像特征包含第一神经网络的多个网络层对待处理图像进行处理得到的多个层级的图像特征，在此情况下，将所述目标图像特征与所述第一文本特征进行融合，得到融合图像特征，包括如下过程：

将所述多个层级的图像特征中每个层级的图像特征与所述第一文本特征进行融合，得到所述融合图像特征。

在本公开实施例中，第一神经网络可以选择为2D卷积神经网络(Inception-V3)，进而，根据该2D卷积神经网络提取待处理图像的特征，得到多个尺度依次降低图像特征，其中，每个尺度对应一个层级。

此时，可以将每个尺度的图像特征和第一文本特征进行融合，得到每个尺度的图像特征所对应的融合图像特征，该融合过程可以描述为以下过程：

根据每个尺度的图像特征和第一文本特征，确定每个描述字符段和每个尺度的图像特征之间的注意力值(也即匹配度)，得到多个注意力值A1。然后，根据多个注意力值A1和第一文本特征，确定描述文本的语言特征信息，进而将语言特征信息和每个尺度的图像特征进行融合，得到与每个尺度的图像特征相对应的融合图像特征。

比如，可以通过公式

计算每个描述字符段和第i个尺度的图像特征中每个图像位置之间的匹配程度，其中，

表示目标图像特征中的第i个尺度的图像特征。针对每个描述字符段和每个尺度的图像特征中每个图像位置之间的匹配程度，可以对其进行求和归一化处理，从而得到每个描述字符段和每个尺度的图像特征之间的匹配度w。之后，针对第i个尺度的图像特征，可以对各个描述字符段和第i个尺度的图像特征之间的匹配度wⁱ和以及第一文本特征进行加权求和，具体公式描述为：

通过该公式可以确定出描述文本中用于描述每个尺度的图像特征的外观属性特征的语言特征信息

在得到语言特征信息

之后，就可以对语言特征信息

和第i个尺度的图像特征进行按位相乘，并将计算结果和第i个尺度的图像特征进行求和运算，从而得到与第i个尺度的图像特征相匹配的融合图像特征

在本公开实施例中，尺度越大图像就越模糊，也即图像的分辨率越低；尺度越小图像就越清晰，也即图像的分辨率越高。通过对待处理图像进行分层级处理的方式，可以得到不同分辨率的图像特征，例如，可以得到待处理图像所包含目标的特征，还可以得到待处理图像中每个像素点的特征，通过分层级的方式对目标图像特征和第一文本特征进行逐层融合，可以获取更加全面图像特征，从而进一步提高图像分割的准确性。

在一个可选的实施方式中，目标视频特征包含第二神经网络的多个网络层对所述目标视频片段进行处理得到的多个层级的视频特征；在此情况下，将所述目标视频特征与所述第一文本特征进行融合，得到融合视频特征，包括如下过程：

将所述多个层级的视频特征中每个层级的视频特征与所述第一文本特征进行融合，得到所述融合视频特征。

在一个可选实施方式中，第二神经网络可以选择为3D卷积神经网络(Inception-V3)，此时，可以通过3D卷积神经网络提取目标视频片段的特征，得到多个尺度依次降低视频特征，其中，每个尺度对应一个层级。

此时，就可以将每个尺度的视频特征和第一文本特征进行融合，得到每个尺度的视频特征所对应的融合视频特征，该在此情况下，上述融合过程可以描述为以下过程：

根据目标视频特征和第一文本特征，确定每个描述字符段和每个尺度的视频特征之间的匹配度(也即，注意力值)，得到多个目标匹配度。然后，根据多个目标匹配度和第一文本特征，确定描述文本的语言特征信息，进而将语言特征信息和每个尺度的视频特征进行融合，得到与每个尺度的视频特征相对应的融合视频特征。

在本公开实施例中，尺度越大图像就越模糊，也即图像的分辨率越低；尺度越小图像就越清晰，也即图像的分辨率越高。通过分层级的方式对目标视频片段进行特征提取，并对目标视频特征和第一文本特征进行逐层融合，可以获取更加全面的视频特征，从而进一步提高图像分割的准确性。

在本公开实施例中，在按照上述所描述的过程将目标图像特征和目标视频特征分别与第一文本特征进行融合，得到融合图像特征和融合视频特征之后，就可以根据融合图像特征和融合视频特征对待处理图像进行分割，得到与描述文本相匹配的图像分割结果。

在一个可选的实施方式中，融合图像特征包括多层级融合图像特征，融合视频特征包括多层级融合视频特征，则上述步骤可以描述为以下过程：

步骤S1071，在多层级融合图像特征和多层级融合视频特征中确定对应相同层级的融合图像特征和融合视频特征，得到多个融合特征组。

可以理解的是，上述多层级融合图像特征包括通过第一神经网络的多个网络层对待处理图像进行处理得到的各个层级的图像特征和第一文本特征进行融合得到的多个层级的融合图像特征；多层级融合视频特征包括通过第二神经网络的多个网络层对目标视频片段进行处理得到的各个层级的视频特征和第一文本特征进行融合得到的多个层级的融合图像特征。

在本公开实施例中，多层级融合图像特征和多层级融合视频特征所对应的层级数量相同，且相同层级下的融合图像特征和融合视频特征所对应的特征分辨率相同。

基于此，可以在多层级融合图像特征和多层级融合视频特征中确定对应相同层级的融合图像特征和融合视频特征，得到多个融合特征组。

比如，多个层级分别为L1至L5，此时，可以将所属于层级L1的融合图像特征和融合视频特征确定为一个融合特征组，针对层级L2至L5的处理过程与层级L1的处理过程相同，此处不再一一赘述。

步骤S1072，将每个融合特征组的融合特征与第二文本特征进行融合，得到每个层级的目标融合结果；所述第二文本特征用于表征所述描述文本中全部描述字符段的特征。

在本公开实施例中，在确定出多个融合特征组之后，可以将第一文本特征中所包含的每个描述字符段的特征信息进行求平均，得到用于表征描述文本中全部描述字符段的第二文本特征。

之后，将每个融合特征组中的融合特征与第二文本特征进行融合，得到每个层级的目标融合结果。

步骤S1073，根据所述多个层级中每个层级的目标融合结果对待处理图像进行分割，得到所述图像分割结果。

在得到每个层级的目标融合结果之后，可以按照分辨率由大到小的顺序对每个层级的目标融合结果进行上采样处理，得到目标采样结果；进而，通过所述目标采样结果对待处理图像进行分割，得到图像分割结果。

在得到目标采样结果之后，可以通过预先设定的卷积神经网络对目标采样结果进行卷积处理，得到待处理图像的图像分割结果，例如，可以得到如图2所示的图像分割结果。

通过上述描述可知，通过分层级的对融合图像特征、融合视频特征和第二文本特征进行融合的方式，可以得到包含特征更加全面的目标融合结果，从而得到包含待分割目标的完整分割掩码的图像分割结果。

在本公开实施例中，将每个层级所对应的融合图像特征和融合视频特征进行融合的过程可以描述为下述过程：

(1)、根据所述第一文本特征分别确定与所述融合图像特征和所述融合视频特征相匹配的文本特征，得到与所述融合图像特征相匹配的第三文本特征和与所述融合视频特征相匹配的第四文本特征。

具体地，可以对第一文本特征中所包含的每个描述字符段的特征信息进行求平均值计算，得到目标特征均值。然后，分别确定融合图像特征和所述融合视频特征所对应的全连接层，得到第一全连接层和第二全连接层。

第一全连接层和第二全连接层为参数不相同的全连接层。由于目标图像特征为空间特征，目标视频特征为时间特征，空间特征和时间特征为两种模态的特征，此时就需要为待处理图像和目标视频片段分别设置对应的全连接层，即：第一全连接层和第二全连接层。

之后，就可以分别通过第一全连接层和第二全连接层依次对目标特征均值进行处理，得到与所述融合图像特征相匹配的第三文本特征和与所述融合视频特征相匹配的第四文本特征。

具体地，上述过程可以描述为下述公式：

g_S＝Linear_S(l)；g_T＝Linear_T(l)；其中，g_S表示第三文本特征，g_T表示第四文本特征，l表示目标特征均值，Linear_S(·)表示第一全连接层，Linear_T(·)表示第二全连接层。

(2)、将所述融合图像特征和所述第三文本特征进行按位相乘运算，得到第一运算结果；并将所述融合视频特征和所述第四文本特征进行按位相乘运算，得到第二运算结果。

需要说明的是，在本公开实施例中，在计算得到第三文本特征和第四文本特征之后，还可以按照公式对第三文本特征和第四文本特征进行归一化处理，该公式描述如下：

在本公开实施例中，在得到归一化处理之后的第三文本特征和得到归一化处理之后的第四文本特征之后，就可以按照公式

将融合图像特征和第三文本特征进行按位相乘运算，得到第一运算结果；并按照公式

将融合视频特征和第四文本特征进行按位相乘运算，得到第二运算结果。其中，

表示第i层级的融合图像特征，

表示第i层级的融合视频特征。

(3)、将所述第一运算结果和所述第二运算结果进行求和运算，根据求和运算结果确定所述图像分割结果。

在本公开实施例中，可以对

和

进行求和运算，从而得到求和运算结果

之后，对求和运算结果

进行卷积计算，得到图像分割结果。

下面结合图3对上述过程进行描述。如图3所示的为一种图像分割方法的流程框架图。如图3所示，在该框架中包含语言编码器、空间视觉编码器、时序视觉编码器和多模态解码器。如图3所示，语言编码器可以选择为门控循环单元(GRU)；空间视觉编码器中包含2D卷积神经网络(Inception-V3)和语言信息整合模块；时序视觉编码器包含3D卷积神经网络和语言信息整合模块，多模态解码器包含上采样层Up2x和数据选择器。其中，空间视觉编码器中的语言信息整合模块与时序视觉编码器中的语言信息整合模块可以为结构相同的模块，还可以为结构不相同的模块。

语言编码器，被配置成获取待处理图像对应的描述文本，并提取描述文本对应的第一文本特征。

在本公开实施例中，可以通过语言编码器中的门控循环单元(GRU)对描述文本的描述字符段的向量序列进行处理，得到所有描述字符段的编码序列L，该编码序列中包含描述字符段的特征信息，此处采用的门控循环单元也可更换为其他循环神经网络，本公开对此不做具体限定。

空间视觉编码器，被配置成获取待处理图像，并提取待处理图像对应的目标图像特征，以及将目标图像特征与第一文本特征进行融合，得到融合图像特征。

输入至空间视觉编码器中的数据为3通道RGB图片(即，上述待处理图像)以及所有描述字符段的编码序列L。空间视觉编码器利用2D卷积神经网络(Inception-V3)提取分层的目标图像特征，并且在2D卷积神经网络中的每一层插入语言信息整合模块来将语言特征(即，第一文本特征)和目标图像特征进行融合，得到如图3所示的融合图像特征

至

此处采用的Inception-V3网络可替换为任意其他2D卷积神经网络，本公开对此不作具体限定。

时序视觉编码器，被配置成获取包含待处理图像的目标视频片段，并提取目标视频片段对应的目标视频特征，以及将目标视频特征与第一文本特征进行融合，得到融合视频特征。

输入至时序视觉编码器中的数据为包含待处理图像的目标视频片段，例如，可以为待处理图像及其周围共8帧图像的3通道RGB图片以及所有描述字符段的编码序列L。空间视觉编码器利用3D卷积神经网络(I3D)提取分层的目标视频特征，并且在卷积神经网络中的每一层插入语言信息整合模块来将语言特征(即，第一文本特征)和目标视频特征进行融合，得到如图3所示的融合视频特征

至

此处采用的I3D网络可替换为任意其他3D卷积神经网络，本公开对此不作具体限定。

多模态解码器，被配置成根据融合图像特征和融合视频特征确定待处理图像中与描述文本相匹配的图像分割结果。

输入至多模态解码器中的数据为每个层级的融合图像特征和融合视频特征，以及用于表征所述描述文本中全部描述字符段的特征l，多模态解码器采取了逐层上采样的解码方式，逐步恢复特征图的大小直到其与输入原图大小一致。

多模态解码器中的数据选择器，用于从空间视觉编码器和时序视觉编码器选择所要进行计算的特征。比如，在按照公式

将融合图像特征和第三文本特征进行按位相乘运算，得到第一运算结果时，可以选择空间视觉编码器输出的融合图像特征和第一文本特征，并对融合图像特征和第一文本特征进行处理计算，得到第一运算结果。在按照公式

将融合视频特征和第四文本特征进行按位相乘运算，得到第二运算结果时，可以选择时序视觉编码器输出的融合视频特征和第一文本特征，并对融合视频特征和第一文本特征进行处理计算，得到第二运算结果。

通过上述描述可知，在本公开实施例中，可以自适应的进行语言信息整合，利用注意力机制分别自动提取语言中与动作及外观相关的成分，更有效捕捉语言中的有效信息并指导结果预测，提升检索的准确性。

本公开实施例还可以结合待处理图像的空间信息和目标视频片段的时序信息来对图像进行分割，从而得到准确的分割结果，比单一的信息建模有更好的性能。本公开实施例对于输入视频的尺寸要求更低，整体计算量大大降低，可扩展性强，应用场景更丰富。比如，该应用场景可以监控视频处理场景和视频编辑工具场景。

场景一、监控视频处理场景。

用户可以预先输入待跟踪的行为人或车辆的描述文本，之后，监控设备获取采集到的监控视频，并根据该描述文本在监控视频中检索并跟踪行为人或车辆，从而得到待跟踪的行为人或车辆的分割掩码。通过该方法可运用该算法减少人力成本，加快检索速度，输入对行为人或车辆的特征描述，就可以自动定位到行为人或车辆并跟踪其在视频中的轨迹。

场景二、视频编辑工具场景。

用户对视频中的特定目标进行编辑，例如，在视频中消除目标，在目标上粘贴饰品等。此时，用户可以输入对该目标的描述，然后，利用本实施例所提供的方法获得目标的完整分割掩码，然后进行相应的操作。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与图像分割方法对应的图像分割装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像分割方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4所示，为本公开实施例提供的一种图像分割装置的示意图，所述装置包括：获取单元41、提取单元42、融合单元43、确定单元44；其中，

获取单元41，用于获取包含待处理图像的目标视频片段，和所述待处理图像对应的描述文本；

提取单元42，用于分别提取所述待处理图像对应的目标图像特征、所述目标视频片段对应的目标视频特征、以及所述描述文本对应的第一文本特征；

融合单元43，用于将所述目标图像特征和所述目标视频特征分别与所述第一文本特征进行融合，得到融合图像特征和融合视频特征；

确定单元44，用于根据所述融合图像特征和所述融合视频特征对所述待处理图像进行分割，得到与所述描述文本相匹配的图像分割结果。

一种可能的实施方式中，融合单元43，还用于：在描述文本中包含多个描述字符段的情况下，根据所述目标图像特征和所述第一文本特征，确定每个描述字符段与所述待处理图像之间的匹配度，得到多个目标匹配度；根据所述多个目标匹配度和所述第一文本特征，确定所述描述文本的语言特征信息；所述语言特征信息用于描述所述待处理图像的外观属性特征；将所述语言特征信息和所述目标图像特征进行融合，得到所述融合图像特征。

一种可能的实施方式中，融合单元43，还用于：确定所述目标图像特征和所述第一文本特征之间的跨模态注意力信息；所述跨模态注意力信息用于表征每个描述字符段和待处理图像中每个图像位置之间的匹配程度；根据所述跨模态注意力信息，计算每个所述描述字符段与所述待处理图像之间的匹配度，得到多个目标匹配度。

一种可能的实施方式中，融合单元43，还用于：在第一文本特征中包含：所述描述文本的多个字符段中每个描述字符段的特征信息的情况下，对所述多个目标匹配度和所述每个描述字符段的特征信息进行加权求和，得到所述语言特征信息。

一种可能的实施方式中，融合单元43，还用于：根据所述语言特征信息对所述目标图像特征进行过滤处理，得到与所述语言特征信息相匹配的图像特征；将确定出的所述相匹配的图像特征和所述目标图像特征进行合并，得到所述融合图像特征。

一种可能的实施方式中，融合单元43，还用于：在目标图像特征包含第一神经网络的多个网络层对所述待处理图像进行处理得到的多个层级的图像特征；所述目标视频特征包含第二神经网络的多个网络层对所述目标视频片段进行处理得到的多个层级的视频特征的情况下，将所述多个层级的图像特征中每个层级的图像特征与所述第一文本特征进行融合，得到所述融合图像特征；将所述多个层级的视频特征中每个层级的视频特征与所述第一文本特征进行融合，得到所述融合视频特征。

一种可能的实施方式中，确定单元44，还用于：在多层级融合图像特征和多层级融合视频特征中确定对应相同层级的融合图像特征和融合视频特征，得到多个融合特征组；其中，所述多层级融合图像特征包括通过第一神经网络的多个网络层对所述待处理图像进行处理得到的各个层级的图像特征和所述第一文本特征进行融合得到的多个层级的融合图像特征；所述多层级融合视频特征包括通过第二神经网络的多个网络层对所述目标视频片段进行处理得到的各个层级的视频特征和所述第一文本特征进行融合得到的多个层级的融合图像特征；将每个融合特征组的融合特征与第二文本特征进行融合，得到每个层级的目标融合结果；所述第二文本特征用于表征所述描述文本中全部描述字符段的特征；根据多层级中每个层级的目标融合结果对待处理图像进行分割，得到所述图像分割结果。

一种可能的实施方式中，确定单元44，还用于：对所述每个层级的目标融合结果进行上采样处理，得到目标采样结果；通过所述目标采样结果对待处理图像进行分割，得到所述图像分割结果。

一种可能的实施方式中，确定单元44，还用于：根据所述第一文本特征分别确定与所述融合图像特征和所述融合视频特征相匹配的文本特征，得到与所述融合图像特征相匹配的第三文本特征和与所述融合视频特征相匹配的第四文本特征；将所述融合图像特征和所述第三文本特征进行按位相乘运算，得到第一运算结果；并将所述融合视频特征和所述第四文本特征进行按位相乘运算，得到第二运算结果；将所述第一运算结果和所述第二运算结果进行求和，根据求和运算结果确定所述图像分割结果。

一种可能的实施方式中，确定单元44，还用于：对所述第一文本特征中所包含的每个描述字符段的特征信息进行求平均值计算，得到目标特征均值；分别确定所述融合图像特征和所述融合视频特征所对应的全连接层，得到第一全连接层和第二全连接层；分别通过所述第一全连接层和所述第二全连接层依次对所述目标特征均值进行处理，得到所述与所述融合图像特征相匹配的第三文本特征和所述与所述融合视频特征相匹配的第四文本特征。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的图像分割方法，本公开实施例还提供了一种计算机设备500，如图5所示，为本公开实施例提供的电子设备500结构示意图，包括：

处理器51、存储器52、和总线53；存储器52用于存储执行指令，包括内存521和外部存储器522；这里的内存521也称内存储器，用于暂时存放处理器51中的运算数据，以及与硬盘等外部存储器522交换的数据，处理器51通过内存521与外部存储器522进行数据交换，当所述电子设备500运行时，所述处理器51与所述存储器52之间通过总线53通信，使得所述处理器51执行以下指令：

获取包含待处理图像的目标视频片段，和所述待处理图像对应的描述文本；分别提取所述待处理图像对应的目标图像特征、所述目标视频片段对应的目标视频特征、以及所述描述文本对应的第一文本特征；将所述目标图像特征和所述目标视频特征分别与所述第一文本特征进行融合，得到融合图像特征和融合视频特征；根据所述融合图像特征和所述融合视频特征对所述待处理图像进行分割，得到与所述描述文本相匹配的图像分割结果。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的图像分割方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的图像分割方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像分割方法，其特征在于，包括：

获取包含待处理图像的目标视频片段，和所述待处理图像对应的描述文本；

分别提取所述待处理图像对应的目标图像特征、所述目标视频片段对应的目标视频特征、以及所述描述文本对应的第一文本特征；

将所述目标图像特征和所述目标视频特征分别与所述第一文本特征进行融合，得到融合图像特征和融合视频特征；

根据所述融合图像特征和所述融合视频特征对所述待处理图像中进行分割，得到与所述描述文本相匹配的图像分割结果。

2.根据权利要求1所述的方法，其特征在于，所述描述文本包含多个描述字符段；

所述将所述目标图像特征与所述第一文本特征进行融合，得到融合图像特征，包括：

根据所述目标图像特征和所述第一文本特征，确定每个描述字符段与所述待处理图像之间的匹配度，得到多个目标匹配度；

根据所述多个目标匹配度和所述第一文本特征，确定所述描述文本的语言特征信息；所述语言特征信息用于描述所述待处理图像的外观属性特征；

将所述语言特征信息和所述目标图像特征进行融合，得到所述融合图像特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标图像特征和所述第一文本特征，确定每个描述字符段与所述待处理图像之间的匹配度，得到多个目标匹配度，包括：

确定所述目标图像特征和所述第一文本特征之间的跨模态注意力信息；所述跨模态注意力信息用于表征每个描述字符段和待处理图像中每个图像位置之间的匹配程度；

根据所述跨模态注意力信息，计算每个所述描述字符段与所述待处理图像之间的匹配度，得到多个目标匹配度。

4.根据权利要求2或3所述的方法，其特征在于，所述第一文本特征中包含：所述描述文本的多个字符段中每个描述字符段的特征信息；

所述根据所述多个目标匹配度和所述第一文本特征，确定所述描述文本的语言特征信息，包括：

对所述多个目标匹配度和所述每个描述字符段的特征信息进行加权求和，得到所述语言特征信息。

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述将所述语言特征信息和所述目标图像特征进行融合，得到所述融合图像特征，包括：

根据所述语言特征信息对所述目标图像特征进行过滤处理，得到与所述语言特征信息相匹配的图像特征；

将确定出的所述相匹配的图像特征和所述目标图像特征进行合并，得到所述融合图像特征。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述目标图像特征包含第一神经网络的多个网络层对所述待处理图像进行处理得到的多个层级的图像特征；所述目标视频特征包含第二神经网络的多个网络层对所述目标视频片段进行处理得到的多个层级的视频特征；

所述将所述目标图像特征和所述目标视频特征分别与所述第一文本特征进行融合，得到融合图像特征和融合视频特征，包括：

将所述多个层级的图像特征中每个层级的图像特征与所述第一文本特征进行融合，得到所述融合图像特征；

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述根据所述融合图像特征和所述融合视频特征对所述待处理图像中进行分割，得到与所述描述文本相匹配的图像分割结果，包括：

在多层级融合图像特征和多层级融合视频特征中确定对应相同层级的融合图像特征和融合视频特征，得到多个融合特征组；其中，所述多层级融合图像特征包括通过第一神经网络的多个网络层对所述待处理图像进行处理得到的各个层级的图像特征和所述第一文本特征进行融合得到的多个层级的融合图像特征；所述多层级融合视频特征包括通过第二神经网络的多个网络层对所述目标视频片段进行处理得到的各个层级的视频特征和所述第一文本特征进行融合得到的多个层级的融合图像特征；

将每个融合特征组的融合特征与第二文本特征进行融合，得到每个层级的目标融合结果；所述第二文本特征用于表征所述描述文本中全部描述字符段的特征；

根据多层级中每个层级的目标融合结果对待处理图像进行分割，得到所述图像分割结果。

8.根据权利要求7所述的方法，其特征在于，所述根据多层级中每个层级的目标融合结果对待处理图像进行分割，得到所述图像分割结果，包括：

对所述每个层级的目标融合结果进行上采样处理，得到目标采样结果；

通过所述目标采样结果对待处理图像进行分割，得到所述图像分割结果。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述根据所述融合图像特征和所述融合视频特征对所述待处理图像中进行分割，得到与所述描述文本相匹配的图像分割结果，包括：

根据所述第一文本特征分别确定与所述融合图像特征和所述融合视频特征相匹配的文本特征，得到与所述融合图像特征相匹配的第三文本特征和与所述融合视频特征相匹配的第四文本特征；

将所述融合图像特征和所述第三文本特征进行按位相乘运算，得到第一运算结果；并将所述融合视频特征和所述第四文本特征进行按位相乘运算，得到第二运算结果；

将所述第一运算结果和所述第二运算结果进行求和，根据求和运算结果确定所述图像分割结果。

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一文本特征分别确定与所述融合图像特征和所述融合视频特征相匹配的文本特征，得到与所述融合图像特征相匹配的第三文本特征和与所述融合视频特征相匹配的第四文本特征，包括：

对所述第一文本特征中所包含的每个描述字符段的特征信息进行求平均值计算，得到目标特征均值；

分别确定所述融合图像特征和所述融合视频特征所对应的全连接层，得到第一全连接层和第二全连接层；

分别通过所述第一全连接层和所述第二全连接层依次对所述目标特征均值进行处理，得到所述与所述融合图像特征相匹配的第三文本特征和所述与所述融合视频特征相匹配的第四文本特征。

11.一种图像分割装置，其特征在于，包括：

获取单元，用于获取包含待处理图像的目标视频片段，和所述待处理图像对应的描述文本；

提取单元，用于分别提取所述待处理图像对应的目标图像特征、所述目标视频片段对应的目标视频特征、以及所述描述文本对应的第一文本特征；

融合单元，用于将所述目标图像特征和所述目标视频特征分别与所述第一文本特征进行融合，得到融合图像特征和融合视频特征；

确定单元，用于根据所述融合图像特征和所述融合视频特征对所述待处理图像进行分割，得到与所述描述文本相匹配的图像分割结果。

12.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至10任一所述的图像分割方法的步骤。

13.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至10任一所述的图像分割方法的步骤。