CN114048284A

CN114048284A - 指代表达定位与分割模型的构建方法和装置

Info

Publication number: CN114048284A
Application number: CN202111136455.2A
Authority: CN
Inventors: 孙世颖; 李钱钟; 张宇佳; 赵晓光; 谭民
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-02-15

Abstract

本发明涉及指代表达定位与分割模型的构建方法和装置，包括：构建预处理图像主干网络、预处理文本主干网络、各个包含文本指导的视觉感知子网络和视觉指导的文本感知子网络的模态内在关系感知网络，各交叉模态融合网络、第一多尺度融合网络和第二多尺度融合网络，并利用指代表达定位与分割数据库对上述网络组合成的网络进行训练；本发明可以有效地进行图像与文本特征的学习，通过在语义、位置空间上建立的两模态的协同获取多尺度下图像‑文本协同特征，并对多尺度下图像‑文本协同特征进行融合及特征选择，进而使得模型能更准确、可靠地实现指代物的定位与分割。

Description

指代表达定位与分割模型的构建方法和装置

技术领域

本发明涉及图像与文本理解领域，尤其涉及指代表达定位与分割模型的构建方法和装置。

背景技术

指代表达的定位与分割方法，是指给定一句描述文本和一张图像，根据文本内容，在这张图像中找到所指代的物体，或相关的实体，对其同时进行定位和分割的方法。此技术内容常常见于人与机器人的交互之中，人通过语言描述发送相关指令(语言可识别为文本)，机器人通过摄像头采集所处环境信息生成图像，利用预先设置好的指代表达的定位与分割方法对图像与文本进行处理，找到交互场景中的所指物并对其定位与分割，对指代物进行抓取等相关操作，由此实现对人的服务。借助于该技术，可较为灵活且智能地进行机器人与人、与物之间的交互，提高机器人的智能与对人服务的可靠性与准确度。

目前，指代表达的定位与分割方法中，对于图像与文本两模态数据，往往较为孤立地进行各自的特征学习过程，并将所获得的图像特征和文本特征用特征融合网络实现模态数据间的融合。

上述方法中特征学习与融合过程存在以下几点缺陷：(1)因模态间孤立地进行特征学习，导致特征学习性能不佳。(2)两部分模态特征仅在模态融合过程进行融合，导致两模态的信息利用不充分，进而限制定位和分割的实际性能。(3)当前的模态融合，往往基于文本信息在图像特征位置空间均匀分布的假设，一定程度上弱化了图像与文本融合进行指代表达的定位与分割时，前景(所指物)与背景之间的区分度，进一步限制了定位和分割的性能。(4)对多尺度的特征进行融合时，往往不加选择地融合所有尺度的信息，导致信息冗余，并且冗余的信息对方法的实际性能，可能起相反的抑制作用，导致定位和分割的性能下降。

发明内容

针对现有技术存在的问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的指代表达定位与分割模型的构建方法和装置。

第一方面，本发明实施例提供一种指代表达定位与分割模型的构建方法，包括：

步骤一：构建指代表达定位与分割数据库；其中，所述数据库样本包括：对指代物进行了定位和分割标注的图像，以及描述指代物的文本；

步骤二：构建预处理图像主干网络和预处理文本主干网络；其中，所述预处理图像/文本主干网络，用于特征提取得到图像/文本预处理特征；所述图像预处理特征为由不同尺度图像特征组成的特征金字塔；

步骤三：对于各尺度图像特征，相应构建包含文本指导的视觉感知子网络和视觉指导的文本感知子网络的模态内在关系感知网络；其中，所述文本指导的视觉感知子网络/视觉指导的文本感知子网络，用于结合文本预处理特征/相应尺度图像特征，对相应尺度图像特征/文本预处理特征进行学习，得到相应尺度下的图像特征/文本特征；

步骤四：构建与各模态内在关系感知网络对应的各交叉模态融合网络；其中，所述交叉模态融合网络，用于考虑特征相似度，对相应尺度下的图像特征和文本特征进行融合，得到相应尺度下图像-文本协同特征；

步骤五：构建第一多尺度融合网络和第二多尺度融合网络；其中，所述第一/二多尺度融合网络，用于对各尺度下图像-文本协同特征进行采样、拼接、特征选择和特征变换，得到目标特征；所述目标特征用于实现对指代物的定位/分割；

步骤六：利用所述数据库，对预处理图像主干网络、预处理文本主干网络、各交叉模态融合网络、各模态内在关系感知网络、第一多尺度融合网络和第二多尺度融合网络组合成的网络进行优化训练，得到指代表达定位与分割模型。

根据本发明提供的指代表达定位与分割模型的构建方法，所述对指代物进行定位标注，具体为：标注指代物检测框位置；

所述对指代物进行分割标注，具体为：标注指代物覆盖的像素点。

根据本发明提供的指代表达定位与分割模型的构建方法，所述结合文本预处理特征，对相应尺度图像特征进行学习，得到相应尺度下的图像特征，包括：

基于文本自注意力机制，对文本预处理特征进行学习，得到第一中间特征；

将第一中间特征映射至图像空间，得到第二中间特征；其中，所述第二中间特征的通道数与相应尺度的图像特征的通道数一致；

对第二中间特征进行复制、拼接得到与相应尺度图像特征尺度一致的第三中间特征；

将第三中间特征与相应尺度图像特征逐元素相乘以融合，得到相应尺度下文本-图像融合特征；

基于通道注意力机制和空间注意力机制，对相应尺度下文本-图像融合特征进行学习，得到相应尺度下的图像特征。

根据本发明提供的指代表达定位与分割模型的构建方法，所述结合相应尺度图像特征，对文本预处理特征进行学习，得到相应尺度下的文本特征，具体为：

对相应尺度图像特征进行全局池化操作，对应得到全局视觉特征；

基于视觉自注意力机制，将所述全局视觉特征聚合为一个特征；

将聚合后的特征与文本预处理特征逐元素相乘以融合，得到相应尺度下图像-文本融合特征；

基于文本自注意力机制，对相应尺度下图像-文本融合特征进行学习，得到相应尺度下的文本特征。

根据本发明提供的指代表达定位与分割模型的构建方法，所述考虑特征相似度，对相应尺度下的图像特征和文本特征进行融合，得到相应尺度下图像-文本协同特征，具体为：

计算相应尺度下的图像特征和文本特征的相似度；

利用所述相似度，对相应尺度下的图像特征和文本特征进行融合，得到相应尺度下图像-文本协同特征。

根据本发明提供的指代表达定位与分割模型的构建方法，所述对各尺度下图像-文本协同特征进行采样、拼接、特征选择和特征变换，得到目标特征，具体为：

若当前网络为第一多尺度融合网络时，以最小尺度为标准，对各尺度下图像-文本协同特征进行下采样，并按照采样前尺度由大至小的顺序进行拼接；若当前网络为第二多尺度融合网络时，以最大尺度为标准，对各尺度下图像-文本协同特征进行上采样，并按照采样前尺度由小至大的顺序进行拼接；

对拼接后的特征依次进行特征选择和特征变换得到目标特征。

根据本发明提供的指代表达定位与分割模型的构建方法，所述相应尺度下图像-文本协同特征，具体通过以下公式计算：

上式中，F_vl,i表示第i个尺度下图像-文本协同特征，

表示第i个尺度下加权后的图像特征，

表示第i个尺度下加权后的文本特征，S_i表示第i个尺度下的图像特征及文本特征的相似度，V_c,i表示第i个尺度下的图像特征，V_l,i表示将第i个尺度下的文本特征进行复制、拼接得到的尺度与第i个尺度下的图像特征尺度一致的文本特征。

根据本发明提供的指代表达定位与分割模型的构建方法，所述对拼接后的特征进行特征选择，具体通过以下公式计算：

F_pool＝MaxPooling(F_sum)

F_t＝W₂W₁F_pool

上式中，F表示拼接后的特征，Ω_k(·)是第k个感受野的卷积层，

表示利用第k个感受野的卷积层对拼接后的特征进行处理后得到的特征，

表示逐元素相加操作，F_sum表示对利用各感受野的卷积层对拼接后的特征进行处理后得到的特征进行逐元素相加后的特征，MaxPooling(·)表示全局池化操作，F_pool表示对F_sum进行全局池化操作后得到的特征，W₂表示第二全连接层参数，W₁表示第一全连接层参数，F_t表示转换后的全局信息，G_k(·)表示第k个感受野分支的权重函数，f_k表示激活后第k个感受野分支的选择权重系数，F_s表示对拼接后的特征进行选择后得到的特征，K表示感受野的总个数。

根据本发明提供的指代表达定位与分割模型的构建方法，所述预处理图像主干网络，包括：VGG网络和ResNet网络；

所述预处理文本主干网络，包括：递归神经网络和长短时记忆网络。

第二方面，本发明实施例还提供一种指代表达定位与分割模型的构建装置，包括：

指代表达定位与分割数据库构建模块，用于构建指代表达定位与分割数据库；其中，所述数据库样本包括：对指代物进行了定位和分割标注的图像，以及描述指代物的文本；

预处理图像主干网络和预处理文本主干网络构建模块，用于构建预处理图像主干网络和预处理文本主干网络；其中，所述预处理图像/文本主干网络，用于特征提取得到图像/文本预处理特征；所述图像预处理特征为由不同尺度图像特征组成的特征金字塔；

模态内在关系感知网络构建模块，用于对于各尺度图像特征，相应构建包含文本指导的视觉感知子网络和视觉指导的文本感知子网络的模态内在关系感知网络；其中，所述文本指导的视觉感知子网络/视觉指导的文本感知子网络，用于结合文本预处理特征/相应尺度图像特征，对相应尺度图像特征/文本预处理特征进行学习，得到相应尺度下的图像特征/文本特征；

交叉模态融合网络构建模块，用于构建与各模态内在关系感知网络对应的各交叉模态融合网络；其中，所述交叉模态融合网络，用于考虑特征相似度，对相应尺度下的图像特征和文本特征进行融合，得到相应尺度下图像-文本协同特征；

第一多尺度融合网络和第二多尺度融合网络构建模块，用于构建第一多尺度融合网络和第二多尺度融合网络；其中，所述第一/二多尺度融合网络，用于对各尺度下图像-文本协同特征进行采样、拼接、特征选择和特征变换，得到目标特征；所述目标特征用于实现对指代物的定位/分割；

优化训练模块，用于利用所述数据库，对预处理图像主干网络、预处理文本主干网络、各交叉模态融合网络、各模态内在关系感知网络、第一多尺度融合网络和第二多尺度融合网络组合成的网络进行优化训练，得到指代表达定位与分割模型。

第三方面，本发明实施例还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述指代表达定位与分割模型的构建方法的步骤。

第四方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述指代表达定位与分割模型的构建方法的步骤。

本发明提供的指代表达定位与分割模型的构建方法和装置，针对图像金字塔和文本预处理特征，模态内在关系感知网络以文本/图像特征为辅助信息，辅助图像/文本的特征学习，获得与指代物相关的图像/文本特征，更为充分的利用图像/文本的信息，提高图像/文本特征学习的效果；交叉模态融合网络，将图像、文本两种模态的特征映射至同一公共空间计算相似度，利用相似度对图像、文本特征进行滤波，进而得到图像-文本协同特征，其在语义与位置空间上建立图像与文本两模态的协同，进一步区分指代物与背景，提高了两模态融合效果；第一多尺度融合网络和第二多尺度融合网络，以特征选择的策略对多尺度下的图像-文本协同特征进行融合，通过选择与所指物相关的特征信息，抑制其他背景信息的方式，提高特征选择的精度，综合上述几点达到提高模型的定位、分割准确度的效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的指代表达定位与分割模型的构建方法的流程示意图；

图2是本发明提供的指代表达定位与分割模型结构示意图；

图3是本发明提供的模态内在关系感知网络结构示意图；

图4是本发明提供的交叉模态融合网络结构示意图；

图5是本发明提供的第一/第二多尺度融合网络结构示意图；

图6是本发明提供的指代表达定位与分割模型的构建装置结构图；

图7是本发明提供的实现指代表达定位与分割模型的构建方法的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图7描述本发明提供的指代表达定位与分割模型的构建方法和装置。

第一方面，如图1所示，本发明提供的一种指代表达定位与分割模型的构建方法，包括：

本发明可从图像与文本理解数据集(包含图像于对应的文本描述语句)中采集样本，也可自行采集，即利用相机采集图像数据或从互联网爬取图像数据，对该图像中的某个物体人为生成描述文本。采集到的大量的样本后生成数据库。

在本技术领域中，可以明确地知晓预处理图像主干网络是一个深度学习网络，在对图像进行预处理时，其中间层会输出具有不同尺度的图像特征，例如原图像的1/8、1/16、1/32等，输出层会按照尺度由小到大、自顶向下的顺序将这些图像特征进行组合，得到特征金字塔。

同样明确地知晓，预处理文本主干网络是自然语言特征网络，在对文本进行预处理时，先对文本进行分词，然后按照分词在文本中的前后位置将分词进行排列得到文本的词向量，最后对文本的词向量进行时序处理得到文本预处理特征，即文本预处理特征实则为时序序列。

在现有的技术中，对于图像与文本的特征学习，往往较为独立地进行，两个模态之间并没有进行信息的交互，导致特征学习能力不佳，对于此，本发明设计了模态内在关系感知网络来进行图像与文本特征的学习，该网络又包含文本指导的视觉感知子网络和视觉指导的文本感知子网络，前者将所述文本预处理特征作为辅助信息，以指导各尺度的图像特征的学习，学习各尺度下的图像特征(与文本信息相关的视觉特征)；后者将所述图像预处理特征作为辅助信息，以指导文本预处理特征的学习，学习各尺度下的文本特征(与视觉信息相关的文本特征)；基于此，实现了图像、文本两模态信息在各自模态特征学习时的信息交互，促进了特征学习，一定程度上弥补了对信息的利用不足的问题。

现有技术中，仅仅通过一个融合网络实现图像、文本两模态的融合，对信息的挖掘与利用不充分，且融合网络中往往假设文本在图像位置空间上均匀分布，即文本对图像的影响，与图像空间位置无关，这在一定程度上限制了融合性能；基于此，本发明针对各尺度下的图像特征和文本特征，分别配置了各个交叉模态融合网络，来进行各尺度下的图像特征和文本特征的融合，以解决仅仅通过一个融合网络实现图像、文本两模态的融合，对信息的挖掘与利用不充分的问题；另外每一个交叉模态融合网络，将图像特征与文本特征映射至同一公共空间，进行相似度计算，获得文本-图像相似度矩阵，在语义、空间位置上建立两模态的联系，并利用相似度矩阵将其对图像特征和文本特征均进行滤波操作，获得加权的图像特征与文本特征，再将其融合，获得两模态协同特征。这里相似度值的大小，反映了文本信息与图像信息的相似度，以相似度值加权文本、图像特征，使得位置空间上对文本、图像信息的利用因相似度值而变化，解决了文本信息利用与图像位置空间无关的问题。

需要注意的是，所述目标特征用于实现对指代物的定位/分割，具体是指利用目标特征，通过定位网络与分割网络对所指物进行定位与分割；

此外，本发明将特征选择后的特征代入若干卷积层进行特征变换，用以增加深度，提高变换能力和模型性能，但是要注意层数不能太多。

图2示例了指代表达定位与分割模型结构示意图，本领域技术人员应当能够理解，图像和文本分别输入预处理图像主干网络和预处理文本主干网络中，作为整个网络的输入，模态内在关系感知网络对预处理图像主干网络和预处理文本主干网络输出的图像金字塔和文本预处理特征进行处理，得到处理后的图像金字塔和文本特征；交叉模态协同网络对图像金字塔和文本特征进行特征融合，得到各尺度下的图像-文本协同特征；第一多尺度融合网络/第二多尺度融合网络构建图像-文本协同特征信息传递通路；其将各尺度图像-文本协同特征通过上/下采样至同一尺度下，然后通过所述传递通路传递，其后进行拼接得到多尺度融合特征，将该多尺度融合特征为定位分支(第一多尺度融合网络中)/分割分支(第二多尺度融合网络中)的输入；在定位分支中，目标特征经过若干卷积层，输出预测的定位数据；分割分支中，目标特征经过若干层卷积层和空洞空间金字塔池化层处理，获得预测的分割数据。这些预测的定位数据和分割数据作为整个网络的输出，其与数据集中标注的定位数据和分割数据构成损失函数的计算过程，实现整个网络的训练。

当有实际需求时，将图像和描述指代物的文本输入到指代表达定位与分割模型，模型会自动输出定位和/或分割结果，其中，定位以及分割按照当前需求选择。

本发明针对图像金字塔和文本预处理特征，模态内在关系感知网络以文本/图像特征为辅助信息，辅助图像/文本的特征学习，获得与指代物相关的图像/文本特征，更为充分的利用图像/文本的信息，提高图像/文本特征学习的效果；交叉模态融合网络，将图像、文本两种模态的特征映射至同一公共空间计算相似度，利用相似度对图像、文本特征进行滤波，进而得到图像-文本协同特征，其在语义与位置空间上建立图像与文本两模态的协同，进一步区分指代物与背景，提高了两模态融合效果；第一多尺度融合网络和第二多尺度融合网络，以特征选择的策略对多尺度下的图像-文本协同特征进行融合，通过选择与所指物相关的特征信息，抑制其他背景信息的方式，提高特征选择的精度，综合上述几点达到提高模型的定位、分割准确度的效果。

在上述各实施例的基础上，作为一种可选的实施例，所述对指代物进行定位标注，具体为：标注指代物检测框位置；

需要了解的是，对指代物进行分割标注还可以为对指代物进行轮廓标注，默认轮廓内的部分即为要分割的指代物；指代物检测框位置，即将指代物包围的方框的坐标数据；

在本发明中以指代物检测框位置(坐标)作为指代物的定位标注，以指代物所覆盖的像素/轮廓作为指代物的分割标注，很明显的能够看出，分割比定位更为精细，要求更为严格。

在本实施例中，选择的定位标注和分割标注只是一种优选的方式，其在实验效果上能使指代物的定位和分割更为精准。

在上述各实施例的基础上，作为一种可选的实施例，图3示例了模态内在关系感知网络结构示意图，其中，文本指导的视觉感知子网络，用于实现结合文本预处理特征，对相应尺度图像特征进行学习，得到相应尺度下的图像特征的功能，所述结合文本预处理特征，对相应尺度图像特征进行学习，得到相应尺度下的图像特征，包括：

本实施例中，第一尺度的图像特征为

第二尺度的图像特征为

其它各层类似，这里的w，h和d分别代表宽度，高度和通道；预处理文本特征中第j个元素表示为q_j(j∈{1,2,…,L})，L为句子长度，利用文本自注意力机制对文本预处理特征进行处理的过程如下：文本特征通过全连接层处理，由双曲正切函数激活，所得值与原文本特征相乘，由柔性最大值传输函数激活，得到权重。以其权重，对原文本特征加权，相加得第一中间特征；文本自注意力机制，计算过程如下：

u_j＝tanh(W_qq_j)

其中，q_j是文本特征向量，W_q是全连接层参数，

即为第一中间特征。

其中，第一中间特征通过全连接层，映射至图像空间。

其中，沿着通道对第二中间特征进行复制、拼接；

本实施例中，文本指导的视觉感知子网络，主要思想是将输入的文本预处理特征作为辅助信息，对输入的图像特征进行进一步的特征提取，得到相应的图像特征，实现了图像、文本两模态信息在各自模态特征学习时的信息交互，促进了特征学习，加强了对信息的利用。

在上述各实施例的基础上，作为一种可选的实施例，图3示例的模态内在关系感知网络结构示意图中的视觉指导的文本感知子网络，用于实现结合相应尺度图像特征，对文本预处理特征进行学习，得到相应尺度下的文本特征的功能，所述结合相应尺度图像特征，对文本预处理特征进行学习，得到相应尺度下的文本特征，具体为：

其中，通过全局池化操作(max pooling)获取全局视觉特征

(d_i是图像特征通道数)；

其中，视觉自注意力机制类似文本自注意力机制，将全局图像聚合为一个特征f_v；

本实施例中，视觉指导的文本感知子网络，主要思想是将输入的图像特征作为辅助信息，对文本预处理特征进行进一步的特征提取，得到相应的文本特征，实现了图像、文本两模态信息在各自模态特征学习时的信息交互，相比于传统方法，对图像、文本的信息利用更为充分，特征学习效果更好，可提高模型的性能。

在上述各实施例的基础上，作为一种可选的实施例，图4示例了交叉模态融合网络结构示意图，该结构实现考虑特征相似度，对相应尺度下的图像特征和文本特征进行融合，得到相应尺度下图像-文本协同特征的功能，所述考虑特征相似度，对相应尺度下的图像特征和文本特征进行融合，得到相应尺度下图像-文本协同特征，具体为：

计算相应尺度下的图像特征和文本特征的相似度；

本实施例中，交叉模态融合网络通过卷积层和全连接层分别将学习的图像与文本特征映射至同一公共空间得到

和

这里的下标a代表的是金字塔中的层级；图像、文本特征被映射至同一空间后形成的映射空间与图像特征图空间大小一致；

将图像特征

与文本特征l_c进行向量相乘，并由柔性最大值传输函数激活得到文本-图像相似度值，即为：

m_c,x＝f_c,xl_c

其中，f_c,x是V_c上第c行第x列的格点的特征，C表示V_c包含的行数，X表示V_c包含的列数，s_c,x是映射空间第c行第x列的格点处图像特征和文本特征的相似度。相应的，很容易对图像特征图的每一个格点进行同样的操作，确定整个映射空间图像特征和文本特征的相似度矩阵

本实施例，通过将两种模态的特征映射至同一公共空间计算其相似度的方法，提高相似度计算准确性，以相似度值加权文本、图像特征，使得位置空间上对文本、图像信息的利用因相似度值而变化，解决了文本信息利用与图像位置空间无关的问题。

在上述各实施例的基础上，作为一种可选的实施例，所述对各尺度下图像-文本协同特征进行采样、拼接、特征选择和特征变换，得到目标特征，具体为：

本实施例提供一种优选的拼接顺序，可以理解的是，采用任意一种拼接顺序均可执行拼接操作，对应的拼接效果也是可以预见的。

现有技术中，对于特征金字塔的多尺度图像特征，对其融合往往不加选择，导致各尺度图像特征中不利的信息也被融合，一定程度上影响了多尺度融合的性能，基于此，本发明针对特征金字塔的多尺度特征，通过上/下采样至同一尺度，然后进行拼接，再利用特征选择策略对拼接的特征进行选择，选择与所指物相关的特征，抑制无关的背景特征信息，解决了多尺度的特征有效融合问题。

在上述各实施例的基础上，作为一种可选的实施例，所述相应尺度下的图像-文本协同特征，具体通过以下公式计算：

上式中，F_vl，i表示第i个尺度下图像-文本协同特征，

表示第i个尺度下加权后的图像特征，

在本发明中，以图像特征和文本特征的相似度矩阵，对输入的图像特征和文本特征均进行滤波操作，获得加权的图像特征与文本特征，再将其逐元素相乘融合，获得两模态协同特征；通过在语义与位置空间上建立图像与文本两模态的协同，获得图像-文本协同特征，与传统方法相比，更能区分所指物与背景，有利于两模态的融合与提高模型性能。

在上述各实施例的基础上，作为一种可选的实施例，图5示例了第一/第二多尺度融合网络结构示意图，其中，第一/二多尺度融合网络对各尺度图像-文本协同特征

等，经过下采样/上采样至最小/最大尺度，其后将各特征拼接成一个特征向量，即F＝[F₁,…,F_n]，其中，F是得到的特征，[·]是拼接操作。

所述对拼接后的特征进行特征选择，具体通过以下公式计算：

F_pool＝MaxPooling(F_sum)

F_t＝W₂W₁F_pool

本实施例全局特征信息经过两层全连接层变换后，由柔性最大值传输函数激活，后利用该特征对原不同感受野处理后的特征进行选择，选出与所指代物体相关的特征，滤除不太相关的背景信息，提高了模型的定位、分割准确度。

在上述各实施例的基础上，作为一种可选的实施例，所述预处理图像主干网络，包括：VGG网络和ResNet网络；

在本实施例中，VGG网络和ResNet网络只是预处理图像主干网络的两种优选方式，同样，递归神经网络和长短时记忆网络也只是预处理文本主干网络的两种优选方式；优选目的是保证图像/文本的预处理效果。

需要理解的是，预处理图像主干网络选用的层次按照实际需求决定，例如：在实际操作时预处理图像主干网络可以选用101层的深度残差主干网络(ResNet-101)来进行图像预处理，并构建图像特征金字塔；

类似的，预处理文本主干网络的实际选择也是按照实际需求决定，例如：glove词向量对应文本的每个单词输入词向量，再用两层双向门循环单元(Bi-GRU)[网络对其进行基本的文本数据处理。

第二方面，对本发明提供的指代表达定位与分割模型的构建装置进行描述，下文描述的指代表达定位与分割模型的构建装置与上文描述的指代表达定位与分割模型的构建方法可相互对应参照。图6示例了一种指代表达定位与分割模型的构建装置的结构示意图，如图6所示，该装置包括：指代表达定位与分割数据库构建模块21、预处理图像主干网络和预处理文本主干网络构建模块22、模态内在关系感知网络构建模块23、交叉模态融合网络构建模块24、第一多尺度融合网络和第二多尺度融合网络构建模块24和优化训练模块26；

其中，指代表达定位与分割数据库构建模块21，用于构建指代表达定位与分割数据库；其中，所述数据库样本包括：对指代物进行了定位和分割标注的图像，以及描述指代物的文本；预处理图像主干网络和预处理文本主干网络构建模块22，用于构建预处理图像主干网络和预处理文本主干网络；其中，所述预处理图像/文本主干网络，用于特征提取得到图像/文本预处理特征；所述图像预处理特征为由不同尺度图像特征组成的特征金字塔；模态内在关系感知网络构建模块23，用于对于各尺度图像特征，相应构建包含文本指导的视觉感知子网络和视觉指导的文本感知子网络的模态内在关系感知网络；其中，所述文本指导的视觉感知子网络/视觉指导的文本感知子网络，用于结合文本预处理特征/相应尺度图像特征，对相应尺度图像特征/文本预处理特征进行学习，得到相应尺度下的图像特征/文本特征；交叉模态融合网络构建模块24，用于构建与各模态内在关系感知网络对应的各交叉模态融合网络；其中，所述交叉模态融合网络，用于考虑特征相似度，对相应尺度下的图像特征和文本特征进行融合，得到相应尺度下图像-文本协同特征；第一多尺度融合网络和第二多尺度融合网络构建模块25，用于构建第一多尺度融合网络和第二多尺度融合网络；其中，所述第一/二多尺度融合网络，用于对各尺度下图像-文本协同特征进行采样、拼接、特征选择和特征变换，得到目标特征；所述目标特征用于实现对指代物的定位/分割；优化训练模块26，用于利用所述数据库，对预处理图像主干网络、预处理文本主干网络、各交叉模态融合网络、各模态内在关系感知网络、第一多尺度融合网络和第二多尺度融合网络组合成的网络进行优化训练，得到指代表达定位与分割模型。

本发明实施例提供的指代表达定位与分割模型的构建装置，具体执行上述各指代表达定位与分割模型的构建方法实施例流程，具体请详见上述各指代表达定位与分割模型的构建方法实施例的内容，在此不再赘述。

本发明实施例提供的指代表达定位与分割模型的构建装置，针对图像金字塔和文本预处理特征，模态内在关系感知网络以文本/图像特征为辅助信息，辅助图像/文本的特征学习，获得与指代物相关的图像/文本特征，更为充分的利用图像/文本的信息，提高图像/文本特征学习的效果；交叉模态融合网络，将图像、文本两种模态的特征映射至同一公共空间计算相似度，利用相似度对图像、文本特征进行滤波，进而得到图像-文本协同特征，其在语义与位置空间上建立图像与文本两模态的协同，进一步区分指代物与背景，提高了两模态融合效果；第一多尺度融合网络和第二多尺度融合网络，以特征选择的策略对多尺度下的图像-文本协同特征进行融合，通过选择与所指物相关的特征信息，抑制其他背景信息的方式，提高特征选择的精度，综合上述几点达到提高模型的定位、分割准确度的效果。

第三方面，图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行指代表达定位与分割模型的构建方法，该方法包括：步骤一：构建指代表达定位与分割数据库；其中，所述数据库样本包括：对指代物进行了定位和分割标注的图像，以及描述指代物的文本；步骤二：构建预处理图像主干网络和预处理文本主干网络；其中，所述预处理图像/文本主干网络，用于特征提取得到图像/文本预处理特征；所述图像预处理特征为由不同尺度图像特征组成的特征金字塔；步骤三：对于各尺度图像特征，相应构建包含文本指导的视觉感知子网络和视觉指导的文本感知子网络的模态内在关系感知网络；其中，所述文本指导的视觉感知子网络/视觉指导的文本感知子网络，用于结合文本预处理特征/相应尺度图像特征，对相应尺度图像特征/文本预处理特征进行学习，得到相应尺度下的图像特征/文本特征；步骤四：构建与各模态内在关系感知网络对应的各交叉模态融合网络；其中，所述交叉模态融合网络，用于考虑特征相似度，对相应尺度下的图像特征和文本特征进行融合，得到相应尺度下图像-文本协同特征；步骤五：构建第一多尺度融合网络和第二多尺度融合网络；其中，所述第一/二多尺度融合网络，用于对各尺度下图像-文本协同特征进行采样、拼接、特征选择和特征变换，得到目标特征；所述目标特征用于实现对指代物的定位/分割；步骤六：利用所述数据库，对预处理图像主干网络、预处理文本主干网络、各交叉模态融合网络、各模态内在关系感知网络、第一多尺度融合网络和第二多尺度融合网络组合成的网络进行优化训练，得到指代表达定位与分割模型。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述提供的指代表达定位与分割模型的构建方法，该方法包括：步骤一：构建指代表达定位与分割数据库；其中，所述数据库样本包括：对指代物进行了定位和分割标注的图像，以及描述指代物的文本；步骤二：构建预处理图像主干网络和预处理文本主干网络；其中，所述预处理图像/文本主干网络，用于特征提取得到图像/文本预处理特征；所述图像预处理特征为由不同尺度图像特征组成的特征金字塔；步骤三：对于各尺度图像特征，相应构建包含文本指导的视觉感知子网络和视觉指导的文本感知子网络的模态内在关系感知网络；其中，所述文本指导的视觉感知子网络/视觉指导的文本感知子网络，用于结合文本预处理特征/相应尺度图像特征，对相应尺度图像特征/文本预处理特征进行学习，得到相应尺度下的图像特征/文本特征；步骤四：构建与各模态内在关系感知网络对应的各交叉模态融合网络；其中，所述交叉模态融合网络，用于考虑特征相似度，对相应尺度下的图像特征和文本特征进行融合，得到相应尺度下图像-文本协同特征；步骤五：构建第一多尺度融合网络和第二多尺度融合网络；其中，所述第一/二多尺度融合网络，用于对各尺度下图像-文本协同特征进行采样、拼接、特征选择和特征变换，得到目标特征；所述目标特征用于实现对指代物的定位/分割；步骤六：利用所述数据库，对预处理图像主干网络、预处理文本主干网络、各交叉模态融合网络、各模态内在关系感知网络、第一多尺度融合网络和第二多尺度融合网络组合成的网络进行优化训练，得到指代表达定位与分割模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。