CN111400523A

CN111400523A - 基于交互输入的图像定位方法、装置、设备和存储介质

Info

Publication number: CN111400523A
Application number: CN201811532287.7A
Authority: CN
Inventors: 张超; 李炯旭; 王强
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2020-07-10
Also published as: KR20200073967A

Abstract

本申请的实施例提供了一种基于交互输入的图像定位方法、装置、设备和存储介质，该方法包括获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息；根据第一特征信息和第二特征信息，在图像中的对象中，对交互输入进行目标定位。

Description

基于交互输入的图像定位方法、装置、设备和存储介质

技术领域

本申请涉及人机交互技术领域，具体而言，涉及一种基于交互输入的图像定位方法、装置、设备和存储介质。

背景技术

基于交互输入进行目标定位是人机交互技术的一个重要的研究领域。一方面，在计算机视觉中广泛应用目标检测(object detection)技术。目标检测是计算机视觉中从图像或视频(如视频的某一帧)中检测特定类别对象的一种技术。具体来说，对于输入的图像，能够给出图像中每个对象的包围框(bounding box)，并给出对应的对象类别标签(label)。另一方面，在人机交互中，计算机能够根据人类的交流习惯来理解用户的交互输入。例如，对于用户输入的语音，计算机首先采用语音识别技术，将用户发出的语音命令转换成文字，进而生成便于计算机理解用户指令。然后，计算机可以通过句法分析等自然语言处理(Natural Language Processing)的相关技术，提取用户指令中的名词。根据交互输入进行目标定位的人机交互技术将二者结合起来，就能够在一定程度上让计算机理解(定位)用户所指代的某个对象，从而在给定的图像或视频(视频的某一帧)中对用户所指代的对象进行定位。例如，图1a示出了图片中只有一个“飞机”的实例。如果用户说：“飞机”，则计算机能够理解用户所指代的对象，并给出该对象对应的包围框，如图1b所示。

这种人机交互技术在场景中存在与用户所指代对象类别相同的多个实例时会遇到困难，单纯利用目标检测技术无法区分用户所具体指代的对象。例如，如果用户说：“骑摩托车的人”，由于场景中有多个人，对象检测技术无法定位用户具体指代的是哪个实例(人)，所以无法给出准确的结果。

对于这类问题，现有技术的一个解决方案是将检测到的多个实例同时显示出来，并给出序号，让用户再次选择具体的序号，来实现定位，如图1c所示。然而，这种方案需要额外的选择确认环节，因此会降低交互的效率。此外，当场景中存在数量较多的实例时(例如多人的合影)，标签会过于密集，不利于用户选择。

现有技术的另一种解决方案是，将这类问题当做一种细粒度对象检测的问题(fine-grained object detection)，在训练检测模型时，将对象属性信息作为额外的标签(例如：矮个子的男人、戴眼镜的人、红色的汽车等)。这种方案的缺点是，训练模型时需要大量的额外标注。此外，在实际使用时，对于训练集中从未出现过的类别，对象检测的准确度会严重降低。

发明内容

为了解决上述问题中的至少一些问题，本申请实施例提出了一种基于交互输入的图像定位方法、装置、设备和存储介质。

根据本申请的第一方面，提供了一种基于交互输入的图像定位方法，包括：获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息；根据所述第一特征信息和所述第二特征信息，在所述图像中的对象中，对所述交互输入进行目标定位。

在一些实施例中，所述第一特征信息包括所述图像中的对象之间的语义特征信息。

在一些实施例中，获取与图像对应的第一特征信息，包括：获取图像中的每个对象和至少一个其他对象之间的语义特征信息。

在一些实施例中，获取图像中的每个对象和至少一个其他对象之间的语义特征信息，包括：基于图像中各对象的位置信息，获取图像中的每个对象和至少一个其他对象之间的语义特征信息。

在一些实施例中，获取图像中的每个对象和至少一个其他对象之间的语义特征信息，包括：基于图像中的每个对象和至少一个其他对象确定至少一个候选区域；获取所述候选区域内的对象的分类特征信息；获取所述候选区域内的对象之间的区域语义特征信息；基于所述分类特征信息和所述区域语义特征信息生成图像中的每个对象和至少一个其他对象之间的语义特征信息。

在一些实施例中，在生成图像中的每个对象和至少一个其他对象之间的语义特征信息之前，还包括：基于所述分类特征信息和所述区域语义特征信息，对所述分类特征信息和所述区域语义特征信息进行联合修正。

在一些实施例中，在生成图像中的每个对象和至少一个其他对象之间的语义特征信息之前，还包括：根据所述候选区域确定参考区域；获取所述参考区域的区域特征信息；基于所述分类特征信息、所述区域语义特征信息和所述区域特征信息，对所述分类特征信息、所述区域语义特征信息和所述区域特征信息进行联合修正。

在一些实施例中，所述候选区域包括所述对象中的一个和所述至少一个其他对象中的一个。

在一些实施例中，所述第一特征信息还包括下述至少一项：与所述图像对应的全局视觉特征信息；与所述图像中的各对象分别对应的视觉特征信息；所述图像中的对象间的相对位置信息和/或相对尺寸特征信息。

在一些实施例中，在对所述交互输入进行目标定位之前，还包括：将获取到的第一特征信息进行融合处理。

在一些实施例中，还包括：获取包括样本图像的训练数据；基于所述样本图像中的每个对象和至少一个其他对象确定至少一个候选区域；根据所述候选区域确定参考区域，并获取所述参考区域的区域特征信息；根据所述区域特征信息生成区域标题；基于带有所述区域标题作为监督的训练数据，对用于获取图像中的对象之间的语义特征信息的神经网络模型进行训练。

在一些实施例中，获取与交互输入对应的第二特征信息，包括：将所述交互输入进行词向量转换；基于所述词向量获取与所述交互输入对应的第二特征信息。

在一些实施例中，判断所述交互输入中的词语是否属于设定的第一词语；将所述交互输入进行词向量转换，包括：当所述交互输入中的词语属于设定的第一词语时，用与第二词语对应的词向量作为与所述第一词语对应的词向量。

在一些实施例中，所述第一词语是使用频率低于第一设定值的词语，所述第二词语是使用频率高于第二设定值的词语。

在一些实施例中，所述交互输入包括语音输入。

根据本申请的第二方面，提供了一种基于交互输入的图像定位装置，包括：特征获取模块，用于获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息；目标定位模块，用于根据所述第一特征信息和所述第二特征信息，在所述图像中的对象中，对所述交互输入进行目标定位。

在一些实施例中，所述特征获取模块用于获取图像中的每个对象和至少一个其他对象之间的语义特征信息。

在一些实施例中，所述特征获取模块用于基于图像中各对象的位置信息，获取图像中的每个对象和至少一个其他对象之间的语义特征信息。

在一些实施例中，所述特征获取模块用于基于图像中的每个对象和至少一个其他对象确定至少一个候选区域；获取所述候选区域内的对象的分类特征信息；获取所述候选区域内的对象之间的区域语义特征信息；基于所述分类特征信息和所述区域语义特征信息生成图像中的每个对象和至少一个其他对象之间的语义特征信息。

在一些实施例中，所述特征获取模块用于在生成图像中的每个对象和至少一个其他对象之间的语义特征信息之前，基于所述分类特征信息和所述区域语义特征信息，对所述分类特征信息和所述区域语义特征信息进行联合修正。

在一些实施例中，所述特征获取模块用于在生成图像中的每个对象和至少一个其他对象之间的语义特征信息之前，根据所述候选区域确定参考区域；获取所述参考区域的区域特征信息；基于所述分类特征信息、所述区域语义特征信息和所述区域特征信息，对所述分类特征信息、所述区域语义特征信息和所述区域特征信息进行联合修正。

在一些实施例中，所述目标定位模块用于在对所述交互输入进行目标定位之前，将获取到的第一特征信息进行融合处理。

在一些实施例中，还包括训练模块，所述训练模块用于获取包括样本图像的训练数据；基于所述样本图像中的每个对象和至少一个其他对象确定至少一个候选区域；根据所述候选区域确定参考区域，并获取所述参考区域的区域特征信息；根据所述区域特征信息生成区域标题；基于带有所述区域标题作为监督的训练数据，对用于获取图像中的对象之间的语义特征信息的神经网络模型进行训练。

在一些实施例中，所述特征获取模块用于将所述交互输入进行词向量转换；基于所述词向量获取与所述交互输入对应的第二特征信息。

在一些实施例中，所述特征获取模块用于判断所述交互输入中的词语是否属于设定的第一词语；当所述交互输入中的词语属于设定的第一词语时，用与第二词语对应的词向量作为与所述第一词语对应的词向量。

在一些实施例中，所述交互输入包括语音输入。

根据本申请的第三方面，提供了一种基于交互输入对图像进行定位的设备，包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，使得所述处理器执行上述任一方法。

根据本申请的第四方面，提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述任一方法。

根据本申请的实施例的技术方案，通过获取包括对象之间的语义特征信息的第一特征信息，并通过将第一特征信息与对应于交互输入的第二特征信息进行匹配来对交互输入进行目标定位，提高了人机交互系统理解用户语言所表达的对象的特征的能力，使得人机交互系统能够更准确、更快速地定位目标对象。同时，通过将不常见(使用频率低)的词语映射到与其意思接近的常见(使用频率高)词语，提高了人机交互系统对使用频率低的词语的适应能力，有助于促进更准确、更快速地定位目标对象。

附图说明

通过下文结合附图的详细描述，本申请的上述和其它特征将会变得更加明显，在附图中：

图1a至图1c示出了根据现有技术的图像定位方法的示意图；

图2示出了根据本申请的实施例的基于交互输入的图像定位方法的流程图；

图3示出了根据本申请的实施例的基于交互输入的图像定位方法的示例过程；

图4示出了用于获取对象的视觉特征信息的示例过程；

图5示出了用于获取对象之间的语义特征信息的示例过程；

图6示出了根据本申请的实施例的基于交互输入的图像定位方法的另一示例过程；

图7示出了词语的使用频率的分布示意图；

图8示出了根据本申请的实施例的基于交互输入的图像定位方法的应用示意图；

图9示出了根据本申请的实施例的基于交互输入的图像定位装置的框图；以及

图10示意性地示出了根据本申请的实施例的设备的方框图。

在附图中，相同或相似的结构均以相同或相似的附图标记进行标识。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。应注意，以下描述只用于举例说明，并不用于限制本公开。在以下描述中，为了提供对本公开的透彻理解，阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本公开。在其他实例中，为了避免混淆本公开，未具体描述公知的电路、材料或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本公开至少一个实施例中。因此，在整个说明书的各个地方出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和/或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

根据本申请的实施例的基于交互输入的图像定位方法主要包括特征信息获取的步骤和目标定位的步骤。具体的，获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息，并根据第一特征信息和第二特征信息，在图像中的对象中，对交互输入进行目标定位。

在具体的实施例中，第一特征信息可以包括以下中的至少一项：与图像对应的完整图像的视觉特征信息(也称为全局视觉特征信息)、与图像中的各个对象分别对应的视觉特征信息(也称为单一对象的视觉特征信息)、图像中的每个对象和与对象邻近的至少一个其他对象之间的相对位置信息和/或相对尺寸特征信息以及图像中的对象之间的语义特征信息。

需要说明的是，与某个对象邻近的定义是基于图像中各对象的位置信息做出的。举例而言，当某个对象与另一个其他对象之间的距离小于设定的距离时，可以定义该对象与另一个其他对象邻近。

在具体的实施例中，获取与图像对应的第一特征信息的步骤可以包括，首先，分别获取完整图像的视觉特征信息、单一对象的视觉特征信息、图像中的每个对象和与对象邻近的至少一个其他对象之间的相对位置信息和相对尺寸特征信息以及图像中的对象之间的语义特征信息。然后，对上述各信息进行融合处理，从而获取与图像对应的第一特征信息。

当第一特征信息包括图像中的对象之间的语义特征信息时，根据本申请的实施例的基于交互输入的图像定位方法的流程图如图2所示，主要包括：

步骤S210，获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息，其中第一特征信息包括图像中的对象之间的语义特征信息。

步骤S220，根据第一特征信息和第二特征信息，在图像中的对象中，对交互输入进行目标定位。

在具体的实施例中，当第一特征信息包括图像中的对象之间的语义特征信息时，获取与图像对应的第一特征信息包括获取图像中的每个对象和与对象邻近的至少一个其他对象之间的语义特征信息的步骤。

在具体的实施例中，获取与图像对应的第一特征信息包括获取图像中的每个对象和与对象邻近的至少一个其他对象之间的语义特征信息的步骤包括，首先，基于图像中的每个对象和与对象邻近的至少一个其他对象确定至少一个候选区域，然后，分别获取候选区域内的对象的分类特征信息和候选区域内的对象之间的区域语义特征信息，最后，基于分类特征信息和区域语义特征信息生成图像中的每个对象和与对象邻近的至少一个其他对象之间的语义特征信息。

在其他具体的实施例中，为了使获取的图像中的每个对象和与对象邻近的至少一个其他对象之间的语义特征信息更加准确，在生成图像中的每个对象和至少一个其他对象之间的语义特征信息之前，还包括基于获取的分类特征信息和区域语义特征信息，对分类特征信息和区域语义特征信息进行联合修正的步骤。

进一步地，在其他具体的实施例中，在生成图像中的每个对象和至少一个其他对象之间的语义特征信息之前，还可以根据候选区域确定包含该候选区域的参考区域，并获取参考区域的区域特征信息，然后基于分类特征信息、区域语义特征信息和区域特征信息，对分类特征信息、区域语义特征信息和区域特征信息进行联合修正。

另外，在对用于获取图像中的每个对象和至少一个其他对象之间的语义特征信息的神经网络模型进行训练的时候，还可以利用参考区域获取区域标题，并利用区域标题对模型进行监督训练，有利于提高模型的质量，将在下面结合具体的示例做更详细的说明。

在本申请的实施例中，利用基础网络提取与图像对应的完整图像的视觉特征信息、单一对象的视觉特征信息以及图像中的每个对象和与每个对象邻近的其他对象之间的相对位置信息和相对尺寸特征信息。利用视觉关系识别网络(pair-wise visualrelationship network，VRN)提取语义特征信息。该网络使用基础网络(例如VGG-Net)的卷积网络作为基础，通过特别构造和训练得到。容易理解，VRN网络仅用于与其他基础网络进行区分，并不构成对本申请的限制。

根据本申请的图像定位方法，能够在图像或场景中定位到交互输入(例如自然语言输入或语音输入)中描述的某个特定实例(例如对象、人、动物等)，并且，即便在图像或场景中存在属于相同类别的多个实例，也可以借助交互输入中所涉及到的属性、位置、动作等语义特征来区分出所指代的具体实例，提高了人机交互系统的交互能力。下面将以自然语言输入或语音输入的人机交互系统为例，对根据本申请实施例的图像定位方法的具体示例进行说明。

图3示出了根据本申请的实施例的基于交互输入的图像定位方法的示例过程，图4示出了用于获取对象的视觉特征信息的示例过程，图5示出了用于获取对象之间的语义特征信息的示例过程。

如图3所示，首先对输入的图像(或视频的某一帧)中的对象进行对象检测。对象检测可以用来检测图像中所有的对象，并给出每个对象的包围框(包含对象的位置信息和尺寸信息)。

在该示例中，使用了Faster R-CNN网络进行对象检测。同样的，可以使用其他网络来实现这一功能，本申请的实施例不限于此。

对于检测到的每个对象，使用基础网络对该对象的区域进行视觉特征提取。此外，对于邻近的其他对象区域以及整张图像，也进行同样的视觉特征提取。即通过视觉特征提取，可以分别获得单一对象(每个对象)的视觉特征信息、完整图像的视觉特征信息以及图像中的对象之间的相对位置信息和/或相对尺寸特征信息。

在该示例中，使用Faster R-CNN的第三组及第四组卷积层的最后一层来提取对象区域及整张图像的视觉特征信息，同样的，可以使用其他网络的其他层来进行特征提取(例如VGG-16、ResNet-101等)，本申请的实施例不限于此。

视觉特征信息的提取的示例过程如图4所示。在该示例中，首先通过如前所述的对象检测已经获得图像中的各对象的包围框。然后，使用基础网络(例如VGG-16、ResNet-101等)的某个特定层对当前包围框(对应于当前对象的区域)、邻近包围框(对应于邻近的其他对象区域)和整个图像提取视觉特征信息。同时将当前包围框与邻近包围框的相对位置信息和相对尺寸特征信息作为额外的特征连接到视觉特征信息中。依次针对图像中的每个对象执行上述的视觉特征信息提取，可以得到图像中的每个对象(每个包围框)对应的视觉特征信息。

在该示例中，可以将当前对象及邻近对象的包围框(和/或单一对象的包围框)的左上角坐标的归一化值(x/W,y/H)、宽和高的归一化值(w/W,h/H)、面积的归一化值(w*h/W*H)也作为视觉特征信息的一部分。具体的，对于当前对象及邻近对象的包围框(和/或单一对象的包围框)，将包围框的左上角坐标x,y分别除以整张图像的宽度和高度W,H，将包围框的宽度和高度w,h也同样分别除以整张图像的宽度和高度W,H，再将包围框的面积除以整张图像的面积，由此得到一个5维的特征向量。

以这种方法构成的关于对象的位置信息和尺寸信息，以及对象和与其邻近的其他对象的相对位置和相对尺寸信息，在当前输入语言的描述中包含左边/右边/上边/下边第X个，或者最大/最小/最高/最矮等描述的时候，能够有助于定位到语言所描述的对象。

进一步地，从当前对象周围，选择与其邻近的至少一个对象组成至少一个对象对。具体来说，对于检测到的对象，选择与其邻近的若干对象，逐一组成对象对。此处邻近的含义如前文所述。在组成对象对时，通常是根据对象之间的位置关系选取最近的几个对象分别组成对象对，因为一般只有邻近的对象间才会存在一些相互关系，例如搬运、放置、看、挨着、戴着、骑、靠等。此外，所选择的邻近的对象可以不超过5个。

对于组成的对象对，通过视觉关系识别网络VRN提取该对象对(即对象之间)的语义特征信息。

如图5所示，在该示例中，可以使用VGG-Net的卷积网络作为VRN网络的基础网络，即利用VGG-Net(例如VGG-16)对输入的图像进行特征提取，从而获得图像的共享特征。接下来，从对象检测的结果中选择对象对，并基于选取的对象对生成候选区域(regionproposal)，每个候选区域包括一个对象对，即包括(当前)对象中的一个和与(当前)对象邻近的至少一个其他对象中的一个，从而得到对象的组合关系。然后通过三个并行的分支来处理三个不同的计算机视觉任务。具体来说，在所获得的共享特征的基础上，分三个分支对候选区域中的两个对象包围框以及该候选区域对应的包围框进行特征提取：

(1)选取范围比候选区域对应的包围框大一些的区域包围框(对应参考区域)，针对该包围框进行区域特征信息的提取(目的是进行后续生成区域标题)。

(2)针对两个对象各自的包围框分别进行分类特征信息的提取(目的是进行后续对象分类)。

(3)针对该候选区域对应的包围框进行对象的区域语义特征信息的提取(目的是进行后续识别对象间的语义特征，如对象间关系，具体如动作关系等)。

如图5所示，在基于分类特征信息、区域语义特征信息和区域特征信息生成每个对象和与每个对象邻近的其他对象之间的语义特征信息之前，还包括基于分类特征信息、区域语义特征信息和区域特征信息建立动态图，以及根据动态图对分类特征信息、区域语义特征信息和区域特征信息进行修正(可以称为联合修正)。

动态图将不同分支的不同感兴区域(可以理解为不同包围框)通过语义和空间关系联系在一起，并且随着修正的过程改变其内容。通过不同分支之间的信息传递(passingmessage)来联合修正不同分支的特征，使得各分支之间的特征相互关联，以得到更准确的语义特征信息。

需要说明的是，区域特征信息对应于包含候选区域的参考区域的特征信息，利用区域特征信息对分类特征信息和区域语义特征信息进行修正，有利于提高神经网络模型输出的准确性。但本领域技术人员容易理解的是，仅基于分类特征信息和区域语义特征信息生成动态图，并根据动态图对分类特征信息和区域语义特征信息进行修正，也能够在一定程度上改善神经网络模型的输出，可以将其应用于对申请网络模型的规模和速度要求较高的场合中。

在修正完成之后，使用修正后的特征分别进行对象分类，识别对象之间的语义特征信息，以及生成区域标题。

具体的，可以通过长短期记忆网络(Long short-term memory，LSTM)基础网络，基于修正后的分支1的特征信息生成区域标题，即对应图中的区域描述“一个人戴着帽子在公园里放风筝”。容易理解的是，也可以不生成区域标题。根据分支2和分支3修正后的特征生成场景图(scene graph)。该场景图可以理解为一个矩阵，该矩阵大小为N*N大小，N为检测到的图像中的对象的数量，该矩阵中的每一行和每一列分别与一个对象对应，矩阵中的每个元素与对象之间的语义特征信息对应。如图5所示，场景图矩阵的每一行分别对应一个对象，例如场景图的第一行可以对应于对象“人”。场景图矩阵的每一列也分别对应一个对象，例如场景图的第一列可以对应于对象“帽子”，其第二列可以对应于对象“风筝”，其第三列可以对应于对象“公园”。在场景图的行与列交叉的位置处(即矩阵中的各元素处)对应于对象之间的语义特征信息。例如，在第一行与第一列的交叉处，对应的是对象“人”与对象“帽子”之间的语义特征信息，该元素为“戴”，其表达了对象“人”与对象“帽子”之间的“人戴帽子”这个语义特征信息。同理，在第一行与第二列的交叉处的元素为“放”，其表达了对象“人”与对象“风筝”之间的“人放风筝”这个语义特征信息，在第一行与第三列的交叉处的元素为“里”，其表达了对象“人”与对象“公园”之间的“人在公园里”这个语义特征信息。即生成的场景图清楚地表达出图像中的对象之间的语义特征信息。

此外，在VRN网络在线测试过程中，在根据分支2和分支3修正后的特征生成场景图之前，可以将VRN网络中生成场景图之前(即基于分类特征信息、区域语义特征信息和区域特征信息生成图像中的每个对象和至少一个其他对象之间的语义特征信息之前)的最后一个全连接层的输出结果提取出来，用作描述两个对象之间的语义特征信息的表达。同样的，可以根据需求和测试结果，使用该网络的不同层的输出结果用作对象语义特征信息的表达。

在本申请的其他实施例中，还提供了利用参考区域获取区域标题，并利用区域标题对模型进行监督训练的VRN网络的训练方法。在该训练方法中，首先获取包括样本图像的训练数据，并基于样本图像中的每个对象和至少一个其他对象确定至少一个候选区域。然后根据候选区域确定参考区域，并获取参考区域的区域特征信息。再根据区域特征信息生成区域标题。在对神经网络模型进行训练时，除了针对分支2和分支3的分类特征信息和区域语义特征信息进行监督训练之外，还基于带有区域标题作为监督的训练数据，对神经网络模型进行训练。通过在反向传播过程中，协助更新分支2和分支3的网络权重，可以得到更好的对象分类及关系识别网络。这样就可以在测试环节中，提取出更好的分类及语义特征信息。

继续参考图3，在依次获取到单一对象的视觉特征信息、完整图像的视觉特征信息、对象之间的相对位置信息和相对尺寸特征信息以及对象之间的语义特征信息中的一个或多个之后，将获取到的信息进行特征融合处理，以获得第一特征信息。

在具体的实施例中，融合处理可以通过将上述各输入信息级联(concatenate)后经过全连接层(Fully connected layer，FC)进行降维，也可以先经过全连接层(FC)进行降维后再级联来实现。也可以先对上述信息中的部分信息进行处理，再与其他信息进行级联和降维处理，本领域技术人员可以根据设计要求和实际需要采用不同的融合处理手段。

另一方面，针对输入的语言所做的处理包括，在使用语音识别工具将输入的语言转换成文字后，使用LSTM对整个句子进行编码(encode)，得到该语句的语言特征(languagefeature)，即第二特征信息。

对第一特征信息与第二特征信息进行匹配(视觉语言匹配)的过程包括，将得到的第一特征信息和第二特征信息分别映射到(通常通过全连接层(FC))预先设定的特征空间(即映射空间embedding space)中。在对第一特征信息进行映射时，是对每个对象(即每个包围框)的第一特征信息分别通过FC进行映射，得到在新的特征空间中，每个包围框分别对应的第一特征信息。其中，任一包围框的第一特征信息和第二特征信息组成一个特征对，用户语言所指定的对象(即需要定位的目标)对应的包围框的第一特征信息与第二特征信息组成的特征对可以称为相关联的语言-视觉特征对。相关联的语言-视觉特征对相比不关联的语言-视觉特征对，在映射空间中具有更大的相似度。因此，可以基于相似度的大小来选择相似度最高的一个对象(或相似度在一定范围内的一组对象)作为根据用户语音的指定的定位结果。

通过逐一计算每个对象(包围框)的第一特征信息与输入语言的第二特征信息之间的相似度，从而选择相似度最大的一个对象(包围框，即分数最高的包围框)，或相似度在一定范围内的一组对象(多个包围框，即分数较高的多个包围框)作为最终结果输出。

在其他实施例中，还可以根据需要选择相似度最高的若干对象，并输出这些对象供用户选择。

在现有技术中，基于图像中的对象的视觉特征提取，仅针对某个包围框或整张图像提取视觉特征，且仅能提取每个对象的位置和/或尺寸信息，此类特征只包含对象间的实际位置和/或尺寸，但是并不包含对象间的关系等较高层的语义信息(high-levelsemantic information)。其仅能处理一些普通的询问，例如，最高的那个房子、左边第二个盘子等。当图像中有两个人，分别举着一个箱子和坐在箱子上，亦或骑自行车的人/被自行车撞到的人或带着帽子的人/拿着帽子的人，如果不能够理解对象间的关系这种高层语义信息，则当用户输入“坐在箱子上的人或踩着箱子的人”时，单纯从空间位置来看，箱子都是在人的下方，如果不能理解更高层的对象间的关系的语义信息，系统就无法做出准确的判断，用户所指代的具体是哪个人。

根据本申请的实施例，能够获取与较高层的语义信息相对应的图像特征。例如，骑着(riding)、举着(holding)、朝着(facing)、踢(kicking)等不同对象间的动作或关系。本申请可以理解对象之间的关系，例如，人-骑-车，人-撞-车，人-掉下-车。通过识别对象之间的关系，能够更好地将视觉信息与语言信息进行匹配。

本申请的实施例提出了将对象的视觉特征信息与对象之间的语义特征信息相互融合的系统，解决了现有技术中根据单纯的位置、尺寸信息无法区分用户所指代的对象的问题，有利于提高人机交互系统的交互性能。

根据本申请的实施例，能够在使用两个对象之间的语义特征信息(如对象间的关系)来区分某个对象时更准确地给出定位的结果。

现有的人机交互系统还会遇到如下的问题。当交互输入为语音输入时，不同的人(用户)对同一个对象的表达并不会完全一致。举例来说，如果图片中有多个盘子，其中一个盘子上面有菠萝，系统此前遇到的大部分用户都称其为菠萝，但对于一个新用户，可能具有不同的语言习惯，如果他询问系统：“上面有凤梨的盘子”，系统将无法理解“凤梨”所指代的对象。

在人机交互系统的实际应用中，由于不同人具有不同的语言习惯，不同词出现的频率有很大的区别，导致LSTM模型对于不常见的词语无法学习出较好的特征表达。进而无法“理解”用户所表达的句子。

本申请的实施例针对上述问题提出了解决方案。

图6示出了根据本申请的实施例的基于交互输入的图像定位方法的另一示例的过程。

在该示例中，在前一示例的基础上，对交互输入的语言进行了优化处理，从而增强了系统对使用频率较低的词语的适应能力，以下仅针对该示例与前一示例的不同之处进行说明。

图7示出了词语的使用频率的分布示意图。如图7所示，人们在描述对象的时候的用词分布具有非常明显的长尾效应。以RefCOCO+数据集为例，该数据集共有2627个不同的词语(用水平轴表示词语，但省略了具体表示每个词语的坐标点)，其中出现频次最高的十个词语，平均出现了13000次(集中分布于原点附近，如图7中的虚线框所示)，然而超过一半的词语(1381个)，出现次数不足20次。在接下来的实施例中，将使用频率低于第一设定值的词语定义为第一词语，将使用频率高于第二设定值的词语定义为第二词语。

由于第一词语的使用频率较低，所以会导致样本数量的严重不均衡。因此在对模型进行训练时，对于出现次数非常少的样本，LSTM模块没有办法学到该词语较好的特征表达，从而影响对这句话的第二特征信息(即语言特征)的提取。举例来说，对于图片中有独木舟的场景，如果用户询问系统：“中间的独木舟”，对于“独木舟”一词，由于在训练数据集中出现次数较少，模型无法将其语言特征和对应图像区域的视觉特征很好的对应起来，因此系统无法理解用户所指代的对象。而如果将“独木舟”替换为出现次数较多的且含义相近的词语(如“船”)，系统就可以“理解”用户所指代的对象，进而输出正确的结果。在表1中给出了一些词语替换的其他实例。

表1词语替换的实例

在该示例中，第二特征信息(即语言特征)的提取可以通过如下功能模块来实现，语音识别单元(或识别单元)、词向量(word vector)单元、词语判断单元、词语替换单元和特征提取单元。

首先使用语音识别单元将输入的语音信息转化成文字。然后使用词向量单元将输入语句的每个词语转换为词向量。接下来使用词语判断单元判断输入的词语是否为第一词语，如果判断结果为是第一词语，则词语替换单元将会选择与其语义接近的第二词语对该第一词语进行替换。特征提取单元是一个LSTM语言编码单元，其通过将词语逐一输入，完成对整句话的编码，得到第二特征信息(即语言特征)。

需要注意的是，在利用词向量单元将输入语句的每个词语转换为词向量之后，系统是将输入语句的每个词语和词向量共同存储的，并且在进行是否属于第一词语的判断时，词语判断单元使用的也是所存储的词语，而不是词向量。

本申请的实施例所提出的基于词向量的意思相近的词语的替换方法，能够将无法提取较好特征的低频样本(使用频率较低的第一词语)，替换为能够提取较好特征的高频样本(使用频率较高的第二词语)，并且基本不改变原句的含义。例如，当用户描述的句子为“black shirt with pinkish emblem”时，在经过词语的替换后，可以转变为“black shirtwith reddish logo”，与原输入意思基本相同。

还需要说明的是，前述各实施例中的交互输入都不限于自然语言输入，交互输入也可以是用户以文字形式直接输入的文本。

本申请的实施例的第一特征信息的处理部分与前一示例相同，如图6所示，在对第一特征信息的提取中，分别获取完整图像的视觉特征信息、单一对象的视觉特征信息、对象之间的相对位置信息和/或相对尺寸特征信息以及对象之间的语义特征信息。因此，根据该实施例，能够同时解决上面提到的无法提取包含对象关系的高层语义的语义特征信息以及对于使用频率较低的不常见的词语或训练集未出现的词语无法提取较好的语言特征的问题。

将本申请的实施例中提出的VRN网络应用于图像中的对象对，识别两个对象之间的语义特征信息(如对象间的关系)，能够提取更好的特征，以及通过将使用频率较低的词语替换为意思接近的使用频率较高的词语，能够获取更好的语言特征，从而使得人机交互系统能够更准确、更快速的从图像中找到用户语言所描述的对象。

另外，本示例中的通过使用频率较高的第二词语替换使用频率较低的第一词语来实现人机交互的方案也可以单独使用。

在具体的实施例中，在视觉方面，对输入图像进行对象检测，得到各对象包的围框。使用基础网络(VGG-16，ResNet-101等)的某个特定层对当前对象的包围框和整个图像提取视觉特征信息，并将当前对象的包围框的位置及尺寸信息、当前对象的包围框与邻近对象的包围框的相对位置和相对尺寸信息作为额外的特征连接到视觉特征信息中，得到每个包围框对应的视觉特征信息。

不对对象之间的语义特征信息进行提取，而只对交互输入中的第一词语进行处理，对于简单的人机交互场合，例如交互输入基本上不涉及高级语义理解的场合中，对系统做这种裁剪，能够降低系统的成本，同时可以平衡系统的处理速度和处理的准确度。更加详细的操作可以参考前述各实施例获得，此处不再赘述。

本申请的各实施例能够很好地应用于各种不同的人机交互场合中，能够理解人们使用语言描述的对象在场景中的位置对于人机交互系统有非常重要的作用，用户不需要使用手即可以选择场景中的某个对象。如果场景中存在与该对象类别相同的其他实例，基于图像分类的方法无法准确定位用户描述的对象，或者需要额外的确认/选择环节，则会降低人机交互的性能。采用本申请的实施例可以解决这类问题，本申请能够快速准确的完成这一过程。基于相似度对对象进行定位时，还能够根据需要检测特定的某些类别的对象。

本申请的实施例所提供的图像定位方法可以被广泛应用于由用户通过交互输入(例如语音输入或文本输入)来指定实例的场景中，包括但不限于价格、评价、翻译、百科、导航等。可以被广泛安装在车载抬头显示系统(AR HUD)、增强现实眼镜(AR glasses)、智能家居等系统中。

例如，用户询问系统：将XX标志右侧的牌子上面的文字翻译成英语。尽管该场景中有大量的广告牌，但是利用图像的第一特征信息，可以定位到用户所指代的具体目标，在完成定位后，利用文字识别技术和机器翻译技术，可以完成用户所提出的翻译任务。

再如，用户询问系统：图像中间短发的人是谁。利用图像的第一特征信息，系统能够定位到用户所指代的具体对象，进而利用人脸识别系统，回答用户的问题。

再如，用户询问系统：右侧跳起的人穿的鞋子多少钱。系统利用图像的第一特征信息(包括对象间的语义特征，如跳起等)，定位到用户所指代的具体对象，再结合以图搜图等技术，获取到该商品的价格信息。

举例而言，对于如图8所示的场景，可以识别出诸如穿着牛仔裤的男人、桌子上的白色笔记本电脑、穿着黑色衬衫的女人等信息。这显著地提高了系统的识别粒度。

从性能指标上来看，将训练好后的图像定位系统运行在RefCOCO+这一公开数据集上进行了测试。该数据集包含超过17000张图片，42000个被指代的对象，12万条描述对象的语句。在该数据集的验证集，测试集A，测试集B进行了性能测试并和算法比较可知，相比于现有方法，在不同测试集上，本申请都有较为明显的提升。其中在测试集A中，取得了1.5％以上的性能的提升。

在本申请的其他实施例中，还提供了一种基于交互输入的图像定位装置，图9示出了根据本申请的实施例的基于交互输入的图像定位装置的框图。如图9所示，基于交互输入的图像定位装置包括，特征获取模块91，用于获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息；以及目标定位模块92，用于根据第一特征信息和第二特征信息，在图像中的对象中，对交互输入进行目标定位。关于特征获取模块91和目标定位模块92更加详细的操作，可以参考前述各实施例获取，此处不再赘述。

图10示意性地示出了根据本申请实施例的一种设备1000的方框图。设备1000包括处理器1010，例如，数字信号处理器(DSP)。处理器1010可以是用于执行根据本申请实施例的不同动作的单个装置或多个装置。设备1000还可以包括输入/输出(I/O)装置1030，用于从其他实体接收信号或者向其他实体发送信号。

此外，设备1000包括存储器1020，该存储器1020可以具有以下形式：非易失性或易失性存储器，例如，电可擦除可编程只读存储器(EEPROM)、闪存等。存储器1020存储计算机可读指令，当处理器1110执行该计算机可读指令时，该计算机可读指令使处理器执行根据本申请实施例的方法。

本领域技术人员可以理解，上面示出的方法仅是示例性的。本申请的方法并不局限于上面示出的步骤和顺序。上面示出的设备可以包括更多的模块。上文中示出的各种标识仅是示例性的而不是限制性的，本申请并不局限于作为这些标识的示例的具体信元。本领域技术人员根据所示实施例的教导可以进行许多变化和修改。

应该理解，本申请的上述实施例可以通过软件、硬件或者软件和硬件两者的结合来实现。例如，上述实施例中的设备内部的各种组件可以通过多种器件来实现，这些器件包括但不限于：模拟电路器件、数字电路器件、数字信号处理(DSP)电路、可编程处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件(CPLD)，等等。

此外，这里所公开的本申请的实施例可以在计算机程序产品上实现。更具体地，该计算机程序产品是如下的一种产品：具有计算机可读介质，计算机可读介质上编码有计算机程序逻辑，当在计算设备上执行时，该计算机程序逻辑提供相关的操作以实现本申请的上述技术方案。当在计算系统的至少一个处理器上执行时，计算机程序逻辑使得处理器执行本申请实施例所述的操作(方法)。本申请的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上，以使得计算设备中的一个或多个处理器执行本申请实施例所描述的技术方案。

尽管以上已经结合本申请的优选实施例示出了本申请，但是本领域的技术人员将会理解，在不脱离本申请的精神和范围的情况下，可以对本申请进行各种修改、替换和改变。因此，本申请不应由上述实施例来限定，而应由所附权利要求及其等价物来限定。

Claims

1.一种基于交互输入的图像定位方法，包括：

获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息；

根据所述第一特征信息和所述第二特征信息，在所述图像中的对象中，对所述交互输入进行目标定位。

2.根据权利要求1所述的方法，其中，所述第一特征信息包括所述图像中的对象之间的语义特征信息。

3.根据权利要求2所述的方法，其中，获取与图像对应的第一特征信息，包括：

获取图像中的每个对象和至少一个其他对象之间的语义特征信息。

4.根据权利要求3所述的方法，其中，获取图像中的每个对象和至少一个其他对象之间的语义特征信息，包括：

基于图像中各对象的位置信息，获取图像中的每个对象和至少一个其他对象之间的语义特征信息。

5.根据权利要求3或4所述的方法，其中，获取图像中的每个对象和至少一个其他对象之间的语义特征信息，包括：

基于图像中的每个对象和至少一个其他对象确定至少一个候选区域；

获取所述候选区域内的对象的分类特征信息；

获取所述候选区域内的对象之间的区域语义特征信息；

基于所述分类特征信息和所述区域语义特征信息生成图像中的每个对象和至少一个其他对象之间的语义特征信息。

6.根据权利要求5所述的方法，其中，在生成图像中的每个对象和至少一个其他对象之间的语义特征信息之前，还包括：

基于所述分类特征信息和所述区域语义特征信息，对所述分类特征信息和所述区域语义特征信息进行联合修正。

7.根据权利要求5所述的方法，其中，在生成图像中的每个对象和至少一个其他对象之间的语义特征信息之前，还包括：

根据所述候选区域确定参考区域；

获取所述参考区域的区域特征信息；

基于所述分类特征信息、所述区域语义特征信息和所述区域特征信息，对所述分类特征信息、所述区域语义特征信息和所述区域特征信息进行联合修正。

8.根据权利要求5至7中任一项所述的方法，其中，所述候选区域包括所述对象中的一个和所述至少一个其他对象中的一个。

9.根据权利要求2至8中任一项所述的方法，其中，所述第一特征信息还包括下述至少一项：

与所述图像对应的全局视觉特征信息；

与所述图像中的各对象分别对应的视觉特征信息；

所述图像中的对象间的相对位置信息和/或相对尺寸特征信息。

10.根据权利要求9所述的方法，其中，在对所述交互输入进行目标定位之前，还包括：

将获取到的第一特征信息进行融合处理。

11.根据权利要求2至10中任一项所述的方法，还包括：

获取包括样本图像的训练数据；

基于所述样本图像中的每个对象和至少一个其他对象确定至少一个候选区域；

根据所述候选区域确定参考区域，并获取所述参考区域的区域特征信息；

根据所述区域特征信息生成区域标题；

基于带有所述区域标题作为监督的训练数据，对用于获取图像中的对象之间的语义特征信息的神经网络模型进行训练。

12.根据权利要求1至11中任一项所述的方法，其中，获取与交互输入对应的第二特征信息，包括：

将所述交互输入进行词向量转换；

基于所述词向量获取与所述交互输入对应的第二特征信息。

13.根据权利要求12所述的方法，还包括：

判断所述交互输入中的词语是否属于设定的第一词语；

将所述交互输入进行词向量转换，包括：

当所述交互输入中的词语属于设定的第一词语时，用与第二词语对应的词向量作为与所述第一词语对应的词向量。

14.根据权利要求13所述的方法，其中，所述第一词语是使用频率低于第一设定值的词语，所述第二词语是使用频率高于第二设定值的词语。

15.根据权利要求1至14中任一项所述的方法，其中，所述交互输入包括语音输入。

16.一种基于交互输入的图像定位装置，包括：

特征获取模块，用于获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息；

目标定位模块，用于根据所述第一特征信息和所述第二特征信息，在所述图像中的对象中，对所述交互输入进行目标定位。

17.一种基于交互输入对图像进行定位的设备，包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，使得所述处理器执行根据权利要求1至15中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有可执行指令，所述指令在被处理器执行时使所述处理器执行根据权利要求1至15中任一项所述的方法。