CN115082916A

CN115082916A - 一种场景文本感知的指代表达理解方法、装置及存储介质

Info

Publication number: CN115082916A
Application number: CN202210597250.2A
Authority: CN
Inventors: 蔡毅; 卜羽琦
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-20

Abstract

本发明公开了一种场景文本感知的指代表达理解方法、装置及存储介质，其中方法包括：显式地提取图像中的场景文本实例，将其与指代表达句子计算相关性，其后计算场景文本实例在图像特征中的空间位置，以激活场景文本实例在图像特征中的相关区域，最终将场景文本感知的图像特征与句子文本特征进行精练、预测得到指代目标物体的位置坐标。本发明解决了当前指代表达理解技术无法显式对齐场景文本信息而导致目标物体定位错误的问题，能够提升机器人对于场景文本、视觉物体与视觉场景的认知能力，提升面向场景文本的人机交互能力。本发明可广泛应用于自然语言处理与计算机视觉技术领域。

Description

一种场景文本感知的指代表达理解方法、装置及存储介质

技术领域

本发明涉及自然语言处理与计算机视觉技术领域，尤其涉及一种场景文本感知的指代表达理解方法、装置及存储介质。

背景技术

指代表达理解，即在视觉场景中识别并定位到指代表达句子所指明的对象。作为多模态机器学习的研究分支，该任务既需要分析视觉场景，又需要理解文本语义，进而融合与对齐视觉模态与语言模态的信息。从应用层面，指代表达理解是多模态机器学习的基础工作，为视觉智能问答、视觉导航等下游应用提供多模态对象检索的能力。从工程价值方面，自然语言是人机交互、人机协作最直接的交流方式，指代表达理解任务是使机器具备自主理解指代意图的智能的基本研究工作。

视觉场景中随处可见的文字称为场景文本，其承载着丰富的语义内涵。场景文本赋予物体标识性与描述性的信息，是人与物之间信息交互的重要媒介。由于场景文本具有辨识性与区分性的特点，人类通常会利用物体表面或周围的文字来指代物体。

然而，现有的指代表达理解技术缺少对场景文本的识别与处理，其采用的通用视觉编码器无法提取图像中的文字，导致机器难以理解指代表达句子中所提及的场景文本，从而错误地将所提及的场景文本对齐到无关视觉区域或视觉特征上，使得目标物体定位错误。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种场景文本感知的指代表达理解方法、装置及存储介质。

本发明所采用的技术方案是：

一种场景文本感知的指代表达理解方法，包括以下步骤：

获取面向场景文本的指代表达理解数据集，所述指代表达理解数据集中的每个样本由一张图像、一个句子与正确指代对象的边界框坐标构成；

将每个样本的句子输入到文本编码器中，输出对应的句子文本特征；将每个样本的图像输入到视觉编码器中，输出对应的图像特征；将每个样本的图像输入到场景文本识别与检测模型中，输出对应的场景文本实例的文字与位置坐标；

计算图像中场景文本实例的文字与句子中单词的相似度，若相似度小于第一预设阈值，将句子中的单词替换场景文本实例的文字；将场景文本实例的文字输入到文本编码器中，输出对应的场景文本实例的文本特征；

计算图像中场景文本实例的文本特征与句子中单词的文本特征的相关性，得到场景文本的相关性得分，若相关性得分小于第二预设阈值，剔除该场景文本实例；

构建一个视觉特征图，根据场景文本实例的位置坐标计算场景文本实例在视觉特征图上的空间位置，在相应空间位置赋值该场景文本的相关性得分；

将视觉特征图与图像特征实施融合操作，得到场景文本感知的图像特征；

获取视觉与语言对齐框架，将场景文本感知的图像特征与句子文本特征输入到视觉与语言对齐框架中，输出对应的指代对象的边界框坐标。

进一步地，所述文本编码器包括RNN、RNN的变体、BERT系列；其中，RNN的变体包括：LSTM系列、GRU系列；

所述视觉编码器包括ResNet、DarkNet、DETR；

所述场景文本识别与检测模型包括Google OCR、PaddlePaddle OCR、Baidu OCR、Rosetta。

进一步地，所述计算图像中场景文本实例的文字与句子中单词的相似度的步骤中，采用的计算方式包括编辑距离、欧式距离、余弦距离、Jaccard距离。

进一步地，所述计算图像中场景文本实例的文本特征与句子中单词的文本特征的相关性的步骤中，采用的计算方式包括编辑距离、欧式距离、余弦距离、Jaccard距离；

所述得到场景文本的相关性得分，包括：

获取相关性结果中每行或每列的，最大值、平均值或中位数，作为场景文本的相关性得分。

进一步地，所述根据场景文本实例的位置坐标计算场景文本实例在视觉特征图上的空间位置的步骤中，该空间位置由网格表示，该网格的左边界、上边界、右边界、下边界具体由场景文本实例的位置坐标除以图像特征维度的缩放尺度得到；

所述在相应空间位置赋值该场景文本的相关性得分，包括：

若网格落在图像特征相应位置上，则将场景文本的相关性得分赋值到该位置上，其余无场景文本的位置赋值为默认值。

进一步地，所述将视觉特征图与图像特征实施融合操作的步骤中，融合操作包括逐项相乘、逐项相加、特征连接。

进一步地，所述视觉与语言对齐框架包括ReSC、LBYL、BBA。

进一步地，所述视觉与语言对齐框架训练的损失函数表示为：

L＝λ₁L_c+L_s+λ₂L_align

其中，K_c为模型输出的边界框坐标与正确指代对象的边界框坐标之间的误差，L_s为模型输出的边界框坐标与正确指代对象的边界框坐标之间的尺寸偏移量，L_align为视觉与语言对齐框架中间变量的误差；λ₁及λ₂为调节因子，用于平衡损失函数。

本发明所采用的另一技术方案是：

一种场景文本感知的指代表达理解装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明利用场景文本识别与检测模型显式地提取了图像中的场景文本并编码其空间位置信息与语义信息，并将场景文本与句子及图像分别对齐，解决当前指代表达理解技术无法显式对齐场景文本信息而导致目标物体定位错误的问题，能够提升机器人对于场景文本、视觉物体与视觉场景的认知能力，提升面向场景文本的人机交互能力。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中场景文本感知的指代表达理解方法的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，本实施例提供一种场景文本感知的指代表达理解方法，具体步骤包括：

S1、获取面向场景文本的指代表达理解数据集，数据集中的每个样本由一张图像I、一个包含N个单词的句子

与正确指代对象的边界框坐标B构成。获取文本编码器TE，该模型用于提取句子的文本特征。获取视觉编码器VE，该网络用于提取图像的视觉特征。获取场景文本识别与检测模型STE，该模型用于提取图像中场景文本实例的文字与位置坐标。

S2、将每个样本的句子S输入到文本编码器TE中，模型输出对应的句子文本特征

其中包含N个单词的文本特征

将每个样本的图像I输入到视觉编码器VE中，模型输出对应的图像特征F_i；将每个样本的图像输入到场景文本识别与检测模型STE中，模型输出对应的M个场景文本实例的文字

与位置坐标

在一种可选的实施例中，文本编码器TE为BERT，其将输入的句子S编码为包含N＝20个单词的句子文本特征F_s，将每个场景文本实例的文字

编码为包含N＝20个单词的场景文本的文本特征

在一种可选的实施例中，视觉编码器VE为DarkNet，将输入的图像I编码为图像特征F_i，该图像特征包含L＝3层特征，每层特征维度为d_l。

S3、计算图像中每个场景文本实例的文字

与句子中每个单词s_n的相似度Sim_m,n，具体表示为：

其中，Dis为编辑距离，‖·‖为字符串长度。

若该相似度Sim_m,n小于阈值θ，则用句子中的单词s_n替换场景文本实例的文字

其后，将文字

输入到文本编码器TE中，模型输出对应的场景文本的文本特征

S4、计算图像中每个场景文本实例的文本特征

与句子中每个单词的文本特征

的相关性A_m,n，具体表示为：

取A_m,n中每行的最大值作为场景文本的相关性得分R_m，具体表示为：

若该相关性得分R_m小于阈值

则将该得分置为0。

S5、构建一个值全为0的视觉特征图E，根据场景文本实例的位置坐标

计算第m个场景文本实例在视觉特征图上E的位置，该位置由网格表示，该网格的左边界b_lt、上边界b_up、右边界b_rt、下边界b_low具体表示为：

其中，W及H为图像特征F_i的宽及高，d_l为图像特征F_i的第l层特征维度，场景文本实例的位置坐标为

在相应位置赋值该场景文本的相关性得分R_m，具体表示为：

S6、将视觉特征图与图像特征实施融合操作，得到场景文本感知的图像特征。

在一种可选的实施例中，将视觉特征图E与图像特征F_i作逐项相乘操作，该结果与图像特征F_i作逐项相加操作，得到场景文本感知的图像特征F′_i。

S7、获取视觉与语言对齐框架，将场景文本感知的图像特征与句子文本特征输入到视觉与语言对齐框架中，输出对应的指代对象的边界框坐标。

将场景文本感知的图像特征F′_i与句子文本特征F_s分别映射到维度C；获取视觉与语言对齐框架Z，将场景文本感知的图像特征F′_i与句子文本特征F_s输入到视觉与语言对齐框架Z中，模型输出对应的指代对象的边界框坐标P。

在一种可选的实施例中，视觉与语言对齐框架Z为BBA模型，模型训练的损失函数表示为：

L＝λ₁L_c+L_s+λ₂L_align

其中，L_c为模型输出的边界框坐标P与正确指代对象的边界框坐标B之间的误差，L_s为模型输出的边界框坐标P与正确指代对象的边界框坐标B之间的尺寸偏移量，L_align为BBA模型中间变量的误差；λ₁及λ₂为调节因子，用于平衡损失函数。

本实施例还提供一种场景文本感知的指代表达理解系统，包括：特征编码模块、相关文本提取模块、相关区域激活模块、精练与预测模块；

所述的特征编码模块用于提取句子文本特征、图像特征、场景文本实例的文本特征与位置坐标；

所述的相关文本提取模块用于计算句子文本特征与场景文本实例的文本特征之间的相关性，得到场景文本实例的相关性得分R_m；

所述的相关区域激活模块用于将相关性得分R_m赋值到场景文本实例在视觉特征图E上的位置，将视觉特征图E与图像特征F_i融合后，得到场景文本感知的图像特征F′_i；

所述的精练与预测模块用于将场景文本感知的图像特征F′_i与句子文本特征F_s输入到视觉与语言对齐框架Z中，经过Z中精练、输出对应的指代对象的边界框坐标P。

本实施例的一种场景文本感知的指代表达理解系统，可执行本发明方法实施例所提供的一种场景文本感知的指代表达理解方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供一种场景文本感知的指代表达理解装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现图1所示方法。

本实施例的一种场景文本感知的指代表达理解装置，可执行本发明方法实施例所提供的一种场景文本感知的指代表达理解方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，一种场景文本感知的指代表达理解执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种场景文本感知的指代表达理解方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种场景文本感知的指代表达理解方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种场景文本感知的指代表达理解方法，其特征在于，所述文本编码器包括RNN、RNN的变体、BERT系列；

所述视觉编码器包括ResNet、DarkNet、DETR；

3.根据权利要求1所述的一种场景文本感知的指代表达理解方法，其特征在于，所述计算图像中场景文本实例的文字与句子中单词的相似度的步骤中，采用的计算方式包括编辑距离、欧式距离、余弦距离、Jaccard距离。

4.根据权利要求1所述的一种场景文本感知的指代表达理解方法，其特征在于，所述计算图像中场景文本实例的文本特征与句子中单词的文本特征的相关性的步骤中，采用的计算方式包括编辑距离、欧式距离、余弦距离、Jaccard距离；

所述得到场景文本的相关性得分，包括：

5.根据权利要求1所述的一种场景文本感知的指代表达理解方法，其特征在于，所述根据场景文本实例的位置坐标计算场景文本实例在视觉特征图上的空间位置的步骤中，该空间位置由网格表示，该网格的左边界、上边界、右边界、下边界具体由场景文本实例的位置坐标除以图像特征维度的缩放尺度得到；

所述在相应空间位置赋值该场景文本的相关性得分，包括：

6.根据权利要求1所述的一种场景文本感知的指代表达理解方法，其特征在于，所述将视觉特征图与图像特征实施融合操作的步骤中，融合操作包括逐项相乘、逐项相加、特征连接。

7.根据权利要求1所述的一种场景文本感知的指代表达理解方法，其特征在于，所述视觉与语言对齐框架包括ReSC、LBYL、BBA。

8.根据权利要求1所述的一种场景文本感知的指代表达理解方法，其特征在于，所述视觉与语言对齐框架训练的损失函数表示为：

L＝λ₁L_c+L_s+λ₂L_align

其中，L_c为模型输出的边界框坐标与正确指代对象的边界框坐标之间的误差，L_s为模型输出的边界框坐标与正确指代对象的边界框坐标之间的尺寸偏移量，L_align为视觉与语言对齐框架中间变量的误差；λ₁及λ₂为调节因子，用于平衡损失函数。

9.一种场景文本感知的指代表达理解装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-8任一项所述方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。