CN110555337A

CN110555337A - 一种指示对象的检测方法、装置以及相关设备

Info

Publication number: CN110555337A
Application number: CN201810542990.XA
Authority: CN
Inventors: 陈新鹏; 马林; 陈静远; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2019-12-10
Anticipated expiration: 2038-05-30
Also published as: CN110555337B

Abstract

本申请实施例公开了一种指示对象的检测方法、装置以及相关设备，其中，该方法包括：获取给定图像和给定自然语句，根据指示对象检测模型，对上述给定图像和给定自然语句进行处理，得到给定自然语句描述的指示对象在给定图像中的位置坐标。上述指示对象检测模型为是以图像和自然语句作为输入，直接以自然语句所描述的指示对象在图像中的位置坐标为输出的端到端的神经网络，该指示对象检测模型是通过端到端训练方式，对整个神经网络的参数进行整体训练优化而得到的模型，该指示对象检测模型具有更好的整体检测性能，因此，利用该指示对象检测模型检测指示对象，能够保证检测结果的准确性。

Description

一种指示对象的检测方法、装置以及相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种指示对象的检测方法、装置、设备、计算机可读存储介质以及计算机程序产品。

背景技术

指示对象检测，也即目标检测，其是计算机视觉中的一个基础任务，它可以被用到很多现实常用的项目，例如行人检测、车辆检测、目标跟踪和图像检索等。因此，做好指示对象检测对于一些更高层的技术实现具有非常大的帮助。

现有的指示对象检测方法的基本思想是，先利用通用物体检测器从给定图像中检测提取出一系列可能包含目标的候选区域，然后，根据给定自然语句利用匹配模型从这些候选区域中选择一个最匹配的候选区域作为最终的检测结果，即指示对象的区域。

由于，通用物体检测器和匹配模型是相互独立训练得到的两个模型，两者分别是以不同训练目标进行训练的，并非是以统一训练目标优化调整模型的参数，通用物体检测器在训练时并不依赖自然语句进行训练，其不具有结合自然语句检测候选区域的能力，则利用通用物体检测器检测的候选区域很可能与自然语句描述的内容并不相关，甚至这些候选区域中都不包含自然语句所描述的内容，因此，即使匹配模型的性能较好，也就无法从候选区域中获得准确率较高的结果，可见，现有的指示对象检测方法的检查结果的准确度并不高。

发明内容

本申请实施例提供了一种指示对象的检测方法、装置以及相关设备，采用端到端的指示对象检测模型，根据给定图像和给定自然语句直接检测指示对象，能够提高指示对象检测结果的准确度。

有鉴于此，本申请第一方面提供了一种指示对象的检测方法，所述方法包括：

获取给定图像和给定自然语句；

根据指示对象检测模型，对所述给定图像和所述给定自然语句进行处理得到所述给定自然语句描述的指示对象在所述给定图像中的位置坐标，所述指示对象检测模型为端到端的神经网络，所述神经网络以图像和自然语句作为输入，以指示对象的位置坐标作为输出。

本申请第二方面提供了一种指示对象的检测装置，所述装置包括：

获取模块，用于获取给定图像和给定自然语句；

处理模块，用于根据指示对象检测模型，对所述给定图像和所述给定自然语句进行处理得到所述给定自然语句描述的指示对象在所述给定图像中的位置坐标，所述指示对象检测模型为端到端的神经网络，所述神经网络以图像和自然语句作为输入，以指示对象的位置坐标作为输出。

本申请第三方面提供了一种指示对象的检测设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的指示对象的检测方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的方法。

本申请第五方面提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

利用本申请实施例提供的指示对象的检测方法，先获取给定图像和给定自然语句，然后根据指示对象检测模型，对该给定图像和该给定自然语句进行处理，得到该给定自然语句描述的指示对象在该给定图像中的位置坐标，其中，该指示对象检测模型是以图像和自然语句作为输入，直接以自然语句所描述的指示对象在图像中的位置坐标为输出的端到端的神经网络，即该指示对象检测模型是通过端到端的训练方式，对整个神经网络的参数进行整体训练优化而得到的模型，相比现有技术中，分别独立训练通用物体检测器和匹配模型，本申请实施例中的该指示对象检测模型其整体检测性能更好，因此，本申请实施例利用该指示对象检测模型检测指示对象，能够保证检测结果的准确性。

附图说明

图1为本申请实施例中一种指示对象的检测方法的应用场景示意图；

图2为本申请实施例中一种指示对象的检测方法的流程示意图；

图3为本申请实施例中另一种指示对象的检测方法的应用场景示意图；

图4为本申请实施例中又一种指示对象的检测方法的应用场景示意图；

图5为本申请实施例中一种指示对象检测模型的架构示意图；

图6为本申请实施例中另一种指示对象的检测方法的流程示意图；

图7为本申请实施例中一种指示对象检测模型训练过程的架构示意图；

图8为本申请实施例中一种指示对象检测模型的训练方法的流程示意图；

图9为本申请实施例中一种损失函数构建模型的架构示意图；

图10为本申请实施例中第一种指示对象的检测装置的结构示意图；

图11为本申请实施例中第二种指示对象的检测装置的结构示意图；

图12为本申请实施例中第三种指示对象的检测装置的结构示意图；

图13为本申请实施例中第四种指示对象的检测装置的结构示意图；

图14为本发明实施例中一种指示对象的检测设备的结构示意图；

图15为本发明实施例中另一种指示对象的检测设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对现有的指示对象检测方法中存在的指示对象检测结果准确度较低的技术问题，本申请实施例提供了一种指示对象的检测方法。在该方法中提供了端到端的指示对象检测模型，该指示对象检测模型为端到端的神经网络，以图像和自然语句作为输入，以指示对象的位置坐标作为输出，进而该方法利用该指示对象检测模型，对获取的给定图像和给定自然语句进行处理，得到给定自然语句描述的指示对象在给定图像中的位置坐标，即本申请实施例所采用的指示对象检测模型是通过端到端的训练方式，对整个神经网络的参数进行整体训练优化而得到的模型，与现有技术中采用的分别独立训练的通用将物体检测器和匹配模型相比，本申请实施例中采用的指示对象检测模型具有更好的整体检测性能，因此，利用该指示对象检测模型进行指示对象检测，能够保证指示对象检测结果的准确度。

本申请提供的指示对象的检测方法可以应用于具有图像处理功能的设备，如终端设备、无人设备、服务器等。其中，终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)、平板电脑等；无人设备具体可以为无人机、无人车等；服务器具体可以为独立服务器，也可以为集群服务器，该服务器可以同时为多个终端设备提供图像处理功能。

为了便于理解本申请的技术方案，下面以终端设备作为执行主体，结合实际应用场景对本申请实施例提供的指示对象的检测方法进行介绍。

参见图1，图1为本申请实施例提供的指示对象的检测方法的应用场景示意图。

当用户需要利用终端设备100在给定图像中检测指示对象时，用户可以将该给定图像以及能够描述该指示对象的给定自然语句输入至终端设备100，以使终端设备可以根据该给定自然语句的描述，在该给定图像中检测指示对象，如图1中终端设备的显示界面101所示，用户可以在给定图像上传界面上传给定图像，在自然语句输入框中输入能够描述指示对象的给定自然语句，如“处于左边的人”。

终端设备100获取用户上传的给定图像和给定自然语句后，将给定图像和给定自然语句输入至预先训练完成的指示对象检测模型，利用该指示对象检测模型对给定图像和给定自然语句进行处理，得到给定自然语句描述的指示对象在给定图像中的位置坐标，进而，可以根据该指示对象的位置坐标确定指示对象在给定图像中所处的位置区域，如图1中的显示界面102所示，终端设备可以采用虚线框103标注指示对象在给定图像中所处的位置区域，即标注出给定图像中位于左边的人。

需要说明的是，上述指示对象检测模型为端到端的神经网络，该神经网络以图像和自然语句作为输入，以指示对象的位置坐标作为输出，即该指示对象检测模型是通过端到端的训练方式，对整个神经网络的参数进行整体训练优化而得到的模型，与现有技术中采用的分别独立训练的通用物体检测器和匹配模型相比，该指示对象检测模型具有更好的整体检测性能，因此，利用该指示对象检测模型进行指示对象检测，能够保证指示对象检测结果的准确度。

需要说明的是，上述图1所示场景仅为一种示例，在实际应用中，本申请实施例提供的指示对象的检测方法还可以应用于无人设备和服务器，在此不对该指示对象的检测方法的应用场景做任何具体限定。

下面通过实施例对本申请提供的指示对象的检测方法进行介绍。

参见图2，图2为本申请实施例提供的一种指示对象的检测方法的流程示意图。为了便于描述，下述实施例以终端设备作为执行主体进行描述，应理解，该指示对象的检测方法的执行主体不限于终端设备，还可以应用于无人设备、服务器等需要进行指示对象检测的设备中。如图2所示，该指示对象的检测方法包括以下步骤：

步骤201：获取给定图像和给定自然语句。

在本实施例中，给定图像为给定的用于检测指示对象的图像，如用户指定或上传的图像；给定自然语句为给定的用于描述指示对象特征的语句，指示对象特征可以为指示对象在给定图像中的位置，指示对象的类型，指示对象自身的颜色、大小、形状等属性特征，该给定自然语句具体可以为文本形式的自然语句、语音形式的自然语句或图片形式的自然语句，该给定自然语句可以为任何语言，如汉语、英语等，在此不对给定自然语句的形式做任何具体限定。

需要说明的是，当终端设备所获取的给定自然语句不是文本形式的自然语句时，终端设备需要进一步将该给定自然语句转换为文本形式的自然语句，以便终端设备对该给定自然语句进行后续处理。

终端设备利用本申请实施例提供的指示对象的检测方法，进行指示对象检测时，需要获取给定图像和给定自然语句，以便根据给定自然语句在给定图像中检测指示对象的位置。

在一种可能的实现方式中，终端设备可以为用户提供用于输入给定图像的图像上传界面，以及用于输入给定自然语句的自然语句输入框。进而，终端设备可以将用户在图像上传界面上传的图像作为给定图像，将用户在自然语句输入框中输入的自然语句作为给定自然语句，由此获取给定图像和给定自然语句。

在另一种可能的实现方式中，终端设备可以将自身配置的摄像头采集的图像作为给定图像，将用户输入的语音形式的自然语句作为给定自然语句，进而，通过语音识别将该语音形式的给定自然语句，获得对应的文本形式的自然语句，以便终端设备根据该自然语句以及给定图像进行后续处理。例如，当用户利用终端设备拍摄照片时，终端设备可以将摄像头拍摄到的图像作为给定图像，用户通过输入语音控制摄像头聚焦于指示对象时，终端设备采集用户输入的语音作为给定自然语句，并对该给定自然语句进行语音识别，得到对应的文本形式的自然语句，以便终端设备根据该自然语句以及给定图像进行后续处理。

当然，终端设备还可以采用其他方式获取给定图像和给定自然语句，在此不对终端设备获取给定图像和给定自然语句的方式做任何限定。

步骤202：根据指示对象检测模型，对给定图像和给定自然语句进行处理得到给定自然语句描述的指示对象在给定图像中的位置坐标。

终端设备将所获取的给定图像和给定自然语句输入至预先训练完成的指示对象检测模型后，指示对象检测模型通过对给定图像和给定自然语句进行处理，获得给定自然语句描述的指示对象在给定图像中的位置坐标，该位置坐标能够表征指示对象在给定图像中所处的位置区域。

需要说明的是，上述指示对象检测模型为端到端的神经网络，该神经网络以图像和自然语句作为输入，以指示对象的位置坐标作为输出。即终端设备将获取的给定图像和给定自然语句输入至该指示对象检测模型后，该指示对象检测模型即可相应地输出指示对象的位置坐标。

需要说明的是，上述指示对象的位置坐标为能够表征指示对象在给定图像中所处的位置区域的参数。在一种可能的实现方式中，指示对象在给定图像中的位置坐标可以包括指示对象所处位置区域的左上角的坐标以及指示对象所处位置区域的宽度和高度；在另一种可能的实现方式中，指示对象在给定图像中的位置坐标可以包括指示对象所处位置区域的左上角的坐标以及右下角的坐标。当然，还可以采用其他能够表征指示对象在给定图像中所处位置区域的参数作为指示对象的位置坐标，在此不对指示对象的位置坐标的参数形式做具体限定。

终端设备获得指示对象的位置坐标后，可以根据指示对象的位置坐标，在给定图像中标注该指示对象；例如，可以在给定图像中标注该指示对象的外接矩形框，以向用户展示该指示对象在给定图像中所处的位置区域。

具体实现时，终端设备可以根据指示对象的位置坐标，采用对应的算法计算指示对象在给定图像中所处的矩形区域范围，进而以外接矩形框的形式在给定图像中标注指示对象。例如，若指示对象的位置坐标包括指示对象在给定图像中所处位置区域的左上角的坐标以及指示对象所处位置区域的宽度和高度，终端设备可以先根据指示对象所处位置区域的左上角坐标，在给定图像中确定包括指示对象的矩形区域的左上顶点，进而，分别将指示对象所处区域的宽度和高度作为该矩形区域的长和宽，以矩形区域的左上顶点为基础，根据该矩形区域的长和宽，确定包括指示对象的矩形区域，进而在给定图像上标注环绕该矩形区域的外接矩形框，以此来标注指示对象。

可以理解的是，终端设备还可以采用其他形式的外接框在给定图像中标注指示对象，例如，采用圆形外接框、三角形外接框等外接框进行指示对象的标注，或者，终端设备还可以将指示对象的轮廓作为外接框的形状，在给定图像中标注指示对象，在此不对在给定图像中标注指示对象的具体形式做任何限定。

本申请实施例提供的指示对象的检测方法，获取给定图像和给定自然语句，根据指示对象检测模型，对上述给定图像和给定自然语句进行处理，得到给定自然语句描述的指示对象在给定图像中的位置坐标。上述指示对象的检测方法中采用的指示对象检测模型为端到端的神经网络，以图像和自然语句作为输入，以自然语句描述的指示对象在图像中的位置坐标作为输出。即该指示对象检测模型是通过端到端训练方式，对整个神经网络的参数进行整体训练优化而得到的模型，相比现有技术中，分别独立训练通用物体检测器和匹配模型，本申请实施例中的指示对象检测模型具有更好的整体检测性能，因此，利用该指示对象检测模型检测指示对象，能够保证指示对象检测结果的准确性。

上述实施例以终端设备作为执行主体，对本申请实施例提供的指示对象的检测方法进行了介绍。下面将结合图3和图4，分别以无人机和服务器作为执行主体，对本申请实施例提供的指示对象的检测方法进行介绍。

参见图3，图3为本申请实施例提供的一种指示对象的检测方法的场景示意图。该场景中包括无人机301和终端设备302，无人机301与终端设备302之间可以通过无线通信的方式进行通讯，终端设备302可以为智能手机、无人机遥控设备，如操作手柄等等。

用户可以通过操控终端设备302生成控制指令，并将该控制指令发送至无人机301，进而，无人机301根据接收的控制指令确定给定图像和给定自然语句。

具体实现时，用户可以通过操控终端设备302在控制指令中添加给定图像需求，并通过终端设备302将该控制指令发送至无人机301。无人机301接收到该控制指令后，即可根据该控制指令中的给定图像需求确定给定图像。例如，用户可以通过操控终端设备，在控制指令中添加给定图像需求“将无人机上配置的摄像头采集的图像作为给定图像”，将该控制指令发送给无人机后，无人机即可相应地将自身摄像头采集的图像作为给定图像。

此外，终端设备302可以将用户输入的自然语句作为给定自然语句，将该给定自然语句添加至控制指令中发送给无人机，以使无人机获取用于描述指示对象的给定自然语句。

需要说明的是，若用户输入的自然语句不是文本形式的自然语句，终端设备还需要将该自然语句转换为文本形式的自然语句，进而将该文本形式的自然语句添加至控制指令中发送给无人机，无人机将该自然语句作为给定自然语句。

需要说明的是，用户可以通过操控终端设备，将给定图像需求和给定自然语句添加至同一控制指令中，将该控制指令发送给无人机；当然，用户也可以通过操控终端设备，将给定图像需求和给定自然语句分别添加至不同的控制指令中，将携带给定图像需求的控制指令和携带给定自然语句的控制指令同时发送至无人机，或者，将携带给定图像需求的控制指令和携带给定自然语句的控制指令分别发送至无人机，在此不对上述控制指令所携带的信息以及控制指令的发送顺序进行任何限定。

无人机301根据终端设备302发送的控制指令，获取给定图像和给定自然语句，进而将该给定图像和给定自然语句输入至预先训练完成的指示对象检测模型，利用该指示对象检测模型对给定图像和给定自然语句进行处理，得到给定自然语句描述的指示对象在给定图像中的位置坐标，该指示对象检测模型为端到端形式的神经网络，以图像和自然语句作为输入，以指示对象的位置坐标作为输出。

此外，无人机301还可以根据获得的指示对象在给定图像中的位置坐标，以外接框的形式在给定图像中标注出指示对象，进而将该标注出指示对象的给定图像返回至终端设备302，通过终端设备302向用户展示指示对象检测结果。

为了便于理解，下面对上述无人机检测指示对象的过程进行举例说明：

当用户需要利用无人机录制身穿蓝色球服的足球运动员的比赛过程时，用户可以通过操控终端设备生成控制指令，该控制指令中包括给定图像需求“将无人机上配置的摄像头采集的图像作为给定图像”，以及用户输入的自然语句“聚焦于身穿蓝色球服的足球运动员”，终端设备将该控制指令发送给无人机。相应地，无人机接收该控制指令后，将自身配置的摄像头采集的图像作为给定图像，将控制指令中携带的自然语句“聚焦于身穿蓝色球服的足球运动员”作为给定自然语句。

无人机获取给定图像和给定自然语句后，将该给定图像和给定自然语句输入至自身运行的指示对象检测模型，利用该指示对象检测模型对给定图像和给定自然语句进行处理，得到指示对象在给定图像中的位置坐标。无人机根据该指示对象的位置坐标，在给定图像中以外接框的形式标注该指示对象。进而，无人机将该标注出指示对象的给定图像返回至终端设备，在终端设备上显示该标注出指示对象的给定图像，以向用户展示指示对象的检测结果。

将本申请实施例提供的指示对象的检测方法应用于无人机时，无人机可以利用指示对象检测模型，根据所获取的给定图像和给定自然语句，确定给定自然语句描述的指示对象在给定图像中的位置坐标。由于上述指示对象的检测方法中采用的指示对象检测模型为端到端的神经网络，以图像和自然语句作为输入，以自然语句描述的指示对象在图像中的位置坐标作为输出。即该指示对象检测模型是通过端到端训练方式，对整个神经网络的参数进行整体训练优化而得到的模型，因此，无人机利用该指示对象检测模型检测指示对象，能够较为准确地在给定图像中检测出指示对象。

参见图4，图4为本申请实施例提供的又一种指示对象的检测方法的场景示意图。该场景中包括服务器401和终端设备402，服务器401可以为终端设备402提供数据支持。

当用户需要利用服务器对给定图像中给定自然语句描述的指示对象进行检测时，用户可以通过终端设备402将给定图像和给定自然语句发送至服务器401。相应地，服务器401接收到终端设备402发送的给定图像和给定自然语句后，将该给定图像和给定自然语句输入至自身运行的指示对象检测模型，利用该指示对象检测模型对给定图像和给定自然语句进行处理，得到给定自然语句描述的指示对象在给定图像中的位置坐标，该指示对象检测模型为端到端的神经网络，以图像和自然语句作为输入，以指示对象的位置坐标作为输出。

此外，服务器401还可以根据得到的指示对象的位置坐标，在给定图像中以外接框的形式标注出指示对象。进而，服务器401可以将该标注出指示对象的给定图像返回至终端设备402，通过终端设备402显示标注出指示对象的给定图像，向用户展示指示对象检测结果。

由于服务器的处理功能更为强大，因此，利用服务器根据给定图像和给定自然语句进行指示对象检测，可以更快地在给定图像中检测出指示对象的位置坐标。此外，当需要利用该指示对象的检测方法处理大量数据时，利用服务器对这些数据进行处理，也可以进一步提高处理效率。

当然，若采用其他设备执行本申请实施例提供的指示对象的检测方法，也可以通过对应的方式获取给定图像和给定自然语句，在此不对本申请实施例提供的指示对象的检测方法的执行主体做任何限定，也不对各执行主体获取给定图像和给定自然语句的方式做任何限定。

如上文所述，本申请实施例提供的指示对象的检测方法需要基于指示对象检测模型，根据给定图像和给定自然语句，确定出给定自然语句描述的指示对象在给定图像中的位置坐标。为了便于进一步理解本申请实施例提供的指示对象的检测方法的具体实现过程，下面结合附图对上述指示对象检测模型进行具体介绍。

参见图5，图5为本申请实施例提供的指示对象检测模型500的架构示意图。如图5所示，该指示对象检测模型包括多模态编码网络501、多模态特征交互融合网络502和指示对象定位网络503。

其中，多模态编码网络501是以图像和自然语句为输入，以图像的特征和自然语句的特征为输出的第一神经网络。

多模态编码网络501作为指示对象检测模型中的第一神经网络，负责对输入至指示对象检测模型的图像和自然语句进行特征提取，并将提取的图像的特征和自然语句的特征输出至指示对象检测模型中的第二神经网络。

多模态编码网络501对输入的图像和自然语句进行特征提取时，需要依赖卷积神经网络和循环神经网络，下面对多模态编码网络501中包括的卷积神经网络和循环神经网络分别进行介绍：

多模态编码网络501中的卷积神经网络用于对图像进行编码特征提取，以输入至指示对象检测模型的图像作为该卷积神经网络的输入，以该图像的全局特征和局部特征作为输出。

具体应用时，多模态编码网络501中的卷积神经网络可以通过对输入的图像进行卷积处理，获得该图像的全局特征表示向量以及该图像的一系列局部特征表示向量。利用卷积神经网络获取图像的局部特征表示向量时，需要根据输入图像的尺寸对该图像进行区域划分，进而利用卷积神经网络对所划分出的图像中的各个区域进行特征提取，由此获得的各个区域的特征表示向量即为该图像的局部特征向量。

具体的，当采用YOLO-v2[10,11]卷积网络结构作为多模态编码网络中的卷积神经网络时，若输入至指示对象检测模型的尺寸为416*416的图像，YOLO-v2[10,11]卷积网络可以将该图像划分为13*13的网格区域，利用YOLO-v2[10,11]卷积网络对输入的图像进行处理，可以得到该图像的全局特征表示向量g，以及一系列与各网格区域对应的局部特征表示向量s＝{s₁,s₂,…,s_N}，此处，N＝13*13＝169，g与s_n(n＝1,2,…,169)均为1024维特征向量。

可以理解的是，提取图像的特征时，还可以采用其他结构的卷积神经网络提取图像的全局特征向量和局部特征向量，在此不对卷积神经网络的结构做任何限定。

多模态编码网络501中的循环神经网络用于对自然语句进行编码提取特征，以输入至指示对象检测模型的自然语句作为输入，以该自然语句的全局特征和局部特征作为输出。

具体应用时，多模态编码网络501对于输入至指示对象检测模型的自然语句，可以先采用词向量训练算法处理该自然语句，获得该自然语句中各个单词的词向量特征表示，将自然语句中各个单词的词向量特征组合起来，构成该自然语句的词向量特征表示。进而利用循环神经网络对该自然语句的词向量表示进行编码处理，获得该自然语句的全局特征表示向量和局部特征表示向量。

具体的，若输入至指示对象检测模型的多模态编码网络中的自然语句为E＝{e₁,e₂,…,e_T}，其中，T表示自然语句E中包括T个单词，e_t表示该自然语句中的第t个单词。多模态编码网络利用Glove[12]词向量训练算法获得该自然语句中各个单词的词向量特征表示w_t，将各个单词的词向量特征表示组合起来，构成该自然语句的词向量表示{w₁,w₂,…,w_T}，此处，自然语句中的各个词向量的维度均为300。进而，多模态编码网络可以利用长短期记忆网络(Long Short-Term Memory,LSTM)结构的循环神经网络对自然语句的词向量表示进行编码，获得该自然语句的全局特征表示向量和局部特征表示向量，如式(1)所示：

h_t＝LSTM(w_t,h_t-1) (1)

其中，h_t为自然语句中前t个单词的特征表示向量，该自然语句的局部特征表示向量为h＝{h₁,h₂,…,h_T}。可以理解的是，h_T为自然语句中前T个单词的特征表示向量，由于该自然语句中的单词数量为T，因此，h_T为该自然语句的全局特征表示向量。

LSTM结构的循环神经网络的处理的具体形式如式(2)、(3)和(4)所示：

c_t＝f_t⊙c_t-1+i_t⊙g_t (3)

h_t＝o_t⊙tanh(c_t) (4)

其中，i_t、f_t、o_t、h_t分别为LSTM结构的输入门、遗忘门、输出门和隐状态，g_t为w_t和h_t-1经参数变换矩阵T和tanh非线性激活变换之后得到的内容，c_t为LSTM结构中的记忆单元，表示t时刻前LSTM结构中包含的全部信息内容，将c_t经tanh非线性激活变换以及输出门o_t的处理后可以得到h_t。该LSTM结构中隐状态的维度设置为512，σ为sigmod函数，T为变换映射矩阵，h_t为前t个单词的特征表示向量。

可以理解的是，提取自然语句的特征时，还可以采用其他词向量训练方法获得自然语句的词向量特征表示，也可以采用其他结构的循环神经网络提取自然语句的全局特征表示向量和局部特征表示向量，在此不对所采用的词向量训练方法以及循环神经网络的结构做任何限定。

指示对象检测模型中的多模态特征交互融合网络502是以多模态编码网络501的输出为输入，以经过注意力操作处理后的图像和自然语句的联合特征为输出的第二神经网络。

多模态特征交互融合网络502为指示对象检测模型中的第二神经网络，负责对多模态编码网络501输出的图像特征和自然语句特征进行充分挖掘。多模态特征交互融合网络502采用互注意力机制(Mutual Attention Mechanism)，利用多模态编码网络501输出的自然语句全局特征对图像局部特征做注意力操作，以及利用图像全局特征对自然语句局部特征做注意力操作，分别得到更深层次的图像特征和自然语句特征，进而通过拼接更深层次的图像特征和自然语句特征，得到图像和自然语句的联合特征，将该联合特征输出至指示对象检测模型中的第三神经网络。

多模态特征交互融合网络502对多模态编码网络501的输出进行处理时，需要基于注意力机制的多层感知器神经网络，深度学习中的注意力机制与人类的选择性视觉注意力机制类似，能够从众多信息中选择出对当前任务目标更为关键的信息；而多层感知器(Multilayer Perceptron，MLP)为一种前馈人工神经网络模型，能够将输入的多个数据集映射至单一的输出数据集上。

具体应用时，注意力机制的多层感知器神经网络可以利用自然语句全局特征对图像局部特征做注意力操作，得到图像深层特征；利用图像全局特征对自然语句局部特征做注意力操作，得到自然语句深层特征。进而将图像深层特征和自然语句深层特征合并，生成图像和自然语句的联合特征，将该联合特征输出至指示对象检测模型中的第三神经网络。

采用多层感知器神经网络，利用自然语句全局特征对图像局部特征进行注意力操作的具体形式如式(5)所示：

其中，h_T为自然语句的全局特征表示向量，s_i为图像的局部特征表示向量，c_s为图像深层特征表示向量，α(s_i,h_T)为s_i对应的局部图像的权重函数，α(s_i,h_T)的具体形式如式(6)所示：

其中，以及是多层感知器的参数。

可以理解的是，采用多层感知器神经网络，利用图像全局特征对自然语句局部特征进行注意力操作的具体实现过程，与上述利用自然语句全局特征对图像局部特征进行注意力操作的实现过程类似，在此不再赘述，通过利用图像全局特征表示向量对自然语句局部特征表示向量进行注意力操作，获得自然语句深层特征表示向量c_h。

进而，多层感知器神经网络可以将图像深层特征表示向量c_s和自然语句深层特征表示向量c_h拼接起来，得到图像和自然语句的联合特征c_sh，如式(7)所示：

c_sh＝c_s||c_h (7)

其中，图像和自然语句的联合特征c_sh的维度为图像深层特征表示向量的维度与自然语句深层特征表示向量的维度之和。

可以理解的是，多模态特征交互融合网络也可以采用其他形式的神经网络对图像特征和自然语句特征进行充分挖掘，在此不对多模态特征交互融合网络所采用的神经网络形式做任何限定。

指示对象检测模型中的指示对象定位网络503是以多模态特征交互融合网络的输出为输入，以指示对象的位置坐标为输出的第三神经网络。

指示对象定位网络503作为指示对象检测模型中的第三神经网络，在得到第二神经网络输出的图像和自然语句的联合特征后，即可根据该联合特征预测得到指示对象的位置坐标，进而将该指示对象的位置坐标作为第三神经网络的输出，即作为该指示对象检测模型的输出。

具体应用时，指示对象定位网络503获得多模态特征交互融合网络502输出的联合特征后，利用卷积层对该联合特征进行非线性变换，该卷积层具体由线性卷积操作、BatchNormalization操作以及Leaky ReLU线性整流函数组成。之后再经过一层卷积层以及sigmoid函数变换，得到指示对象的相对位置坐标(t_x,t_y,t_w,t_h)，其中，t_x为指示对象所处区域左上角的横坐标相对值，t_y为指示对象所处区域左上角的纵坐标相对值，t_w为指示对象所处区域相对宽度的平方根，t_h为指示对象所处区域的相对高度的平方根。

需要说明的是，考虑到指示对象所处位置区域较大时确定指示对象位置坐标产生的误差，小于指示对象所处位置区域较小时确定指示对象位置坐标产生的误差，因此，获得的t_w和t_h分别为指示对象所处区域相对宽度的平方根和相对高度的平方根。

为了进一步确定指示对象在图像中的实际位置坐标，还需要对上述指示对象的相对位置坐标(t_x,t_y,t_w,t_h)进行处理，具体处理时，可以按照式(8)至(11)对(t_x,t_y,t_w,t_h)进行处理。

b_x＝t_x*p_w (8)

b_y＝t_y*p_h (9)

其中，p_w为输入图像是实际宽度，p_h为输入图像的实际高度，(b_x,b_y)为指示对象所处区域的实际左上角坐标，b_w为指示对象所处区域的实际宽度，b_h为指示对象所处区域的实际高度。

可以理解的是，指示对象定位网络还可以采用其他计算方法，根据多模态特征交互融合网络的输出值确定指示对象的位置坐标，在此不对指示对象定位网络采用的计算指示对象的位置坐标方法做任何限定。

上述指示对象检测模型通过多模态编码网络、多模态特征交互融合网络和指示对象定位网络，根据输入的图像和自然语句，确定指示对象在图像中的位置坐标。相应地，利用该指示对象检测模型确定指示对象的位置时，可以保证根据输入的图像和自然语句一步到位地确定出指示对象的位置。

基于图5所示的指示对象检测模型进行指示对象检测时，图2所示的指示对象的检测方法的具体实现可以参见图6，图6为基于图5所示的指示对象检测模型进行指示对象检测的流程示意图，该指示对象检测方法包括以下步骤：

步骤601：获取给定图像和给定自然语句。

步骤601与图2所示的指示对象的检测方法中的步骤201的具体实现相类似，此处不再赘述，详见步骤201的相关描述。

步骤602：将给定图像和给定自然语句输入多模态编码网络，获得多模态编码网络的第一输出内容，该第一输出内容包括给定图像全局特征、给定图像局部特征、给定自然语句全局特征和给定自然语句局部特征。

获取到给定图像和给定自然语句后，将给定图像和给定自然语句输入至指示对象检测模型中的多模态编码网络。多模态编码网络利用其中包括的卷积神经网络对给定图像进行编码提取特征，获得给定图像全局特征和给定图像局部特征；多模态编码网络利用其中包括的循环神经网络对给定自然语句进行编码提取特征，获得给定自然语句全局特征和给定自然语句局部特征。

进而，将给定图像全局特征、给定图像局部特征、给定自然语句全局特征和给定自然语句局部特征作为第一输出内容，输出至多模态特征交互融合网络。

步骤603：将第一输出内容输入多模态特征交互融合网络，获得多模态特征交互融合网络的第二输出内容，该第二输出内容包括给定图像和给定自然语句的联合特征。

将上述第一输出内容输入至指示对象检测模型中的多模态特征交互融合网络，多模态特征交互融合网络中包括基于注意力机制的多层次感知器神经网络。该多层次感知器神经网络可以利用第一输出内容中的给定自然语句全局特征对给定图像局部特征进行注意力操作，获得给定图像深层特征；该多层次感知器神经网络还可以利用第一输出内容中的给定图像全局特征对给定自然语句局部特征进行注意力操作，获得给定自然语句深层特征。

进而，多层感知器神经网络将上述给定图像深层特征和给定自然语句深层特征合并起来，生成给定图像和给定自然语句的联合特征，将该给定图像和给定自然语句的联合特征作为第二输出内容，输出至指示对象定位网络。

步骤604：将第二输出内容输入指示对象定位网络，获得指示对象定位网络的第三输出内容，该第三输出内容包括给定自然语句描述的指示对象在给定图像中的位置坐标。

将第二输出内容输入至指示对象定位网络后，指示对象定位网络通过对第二输出内容中的给定图像和给定自然语句的联合特征进行非线性变换以及sigmoid函数变换，获得指示对象的相对位置坐标。

进而，通过对该指示对象的相对位置坐标进行处理，获得指示对象在给定图像中的实际位置坐标。

利用图5所示的指示对象检测模型进行指示对象检测时，将给定图像和给定自然语句输入该指示对象检测模型，经过指示对象检测模型中多模态编码网络、多模态特征交互融合网络和指示对象定位网络的处理后，可以直接输出指示对象在给定图像中的位置坐标。由于该指示对象检测模型是通过端到端的训练方式，对整个神经网络进行整体训练得到的模型，与现有技术中分别独立训练的通用物体检测器和匹配模型相比，该指示对象检测模型具有更好的整体检测性，因此，利用该指示对象检测模型得到的指示对象检测结果具有更好的准确度。

可以理解的是，上述指示对象检测模型能否准确地确定出指示对象在给定图像中的位置坐标，依赖于该指示对象检测模型的模型性能，而指示对象检测模型的模型性能的好坏取决于对该指示对象检测模型的训练过程。

下面结合图7对训练指示对象检测模型的过程进行介绍。

参见图7，图7为指示对象检测模型训练过程的架构示意图。如图7所示，预先构建指示对象初始检测模型701，该初始检测模型中包括初始多模态编码网络7011、初始多模态特征交互融合网络7012和初始指示对象定位网络7013，将训练样本中的训练图像和训练自然语句输入该指示对象初始检测模型701，经该指示对象初始检测模型701的处理得到指示对象的预测位置坐标，利用该指示对象的预测位置坐标与已知的指示对象真实位置坐标构建损失函数，通过该损失函数优化指示对象初始检测模型701中各个网络的模型参数，以优化指示对象初始检测模型701。

当指示对象初始检测模型701满足训练条件时，即可根据当前的指示对象初始检测模型的模型参数和网络结构，构建可以投入实际应用的指示对象检测模型702，该指示对象检测模型702中包括：通过训练优化初始多模态编码网络7011而获得的多模态编码网络7021，通过训练优化初始多模态特征交互融合网络7012而获得的多模态特征交互融合网络7022，以及通过训练优化初始指示对象定位网络7013而获得的指示对象定位网络7023。

为了进一步了解上述指示对象检测模型的训练过程，下面将结合图8对图7所示的指示对象检测模型的训练过程的具体实现方法进行介绍。

参见图8，图8为指示对象检测模型的训练方法的流程示意图，该训练方法包括以下步骤：

步骤801：构建指示对象初始检测模型，其中，指示对象初始检测模型包括初始多模态编码网络、初始多模态特征交互融合网络和初始指示对象定位网络。

以构建的指示对象初始检测模型为训练基础，对该指示对象初始检测模型进行训练。可以理解的是，该指示对象初始检测模型与指示对象检测模型的结构相类似，包括初始多模态编码网络、初始多模态特征交互融合网络和初始指示对象定位网络。

步骤802：获取训练样本集中的训练样本，该训练样本包括训练图像、训练自然语句以及指示对象的真实位置坐标。

训练指示对象初始检测模型时，需要获取训练样本集中的训练样本，利用该训练样本对已构建的指示对象初始检测模型进行训练。

由于指示对象检测模型的输入为给定图像和给定自然语句，输出为指示对象在给定图像中的位置坐标，因此，利用训练样本对指示对象初始检测模型进行训练时，需要获取与指示对象检测模型相同的输入和输出，即所获取的训练样本中需要包括训练图像、训练自然语句以及指示对象在训练图像中的真实位置坐标，由此保证利用该训练样本训练得到的指示对象检测模型，能够满足实际应用中的指示对象检测模型的输入需求以及输出需求。

步骤803：将训练图像和训练自然语句输入指示对象初始检测模型中，依次经过初始多模态编码网络、初始多模态特征交互融合网络和初始指示对象定位网络的处理，获得初始指示对象定位网络的输出内容，输出内容包括训练自然语句描述的指示对象的预测位置坐标。

将上述训练图像和训练自然语句输入至已构建的指示对象初始检测模型，利用该指示对象初始检测模型中的初始多模态编码网络对输入的训练图像和训练自然语句进行特征提取。具体的，利用初始多模态编码网络中的卷积神经网络对训练图像进行编码提取特征，获得训练图像全局特性和训练图像局部特征；利用初始多模态编码网络中的循环神经网络对训练自然语句进行编码提取特征，获得训练自然语句全局特征和训练自然语句局部特征。

将经初始多模态编码网络处理后得到的训练图像全局特性、训练图像局部特征、训练自然语句全局特征和训练自然语句局部特征输入至初始多模态特征交互融合网络，由初始多模态特征交互融合网络中基于注意力机制的多层感知器神经网络充分挖掘训练图像和训练自然语句的深层特征。具体的，多层感知器神经网络利用训练自然语句全局特征对训练图像局部特征进行注意力操作处理，得到训练图像深层特征；多层感知器神经网络利用训练图像全局特征对训练自然语句局部特征进行注意力操作，得到训练自然语句深层特征，进而合并训练图像深层特征和训练自然语句深层特征，生成训练图像和训练自然语句的联合特征。

将经初始多模态特征交互融合网络处理后得到的联合特征输入至初始指示对象定位网络，由初始指示对象定位网络对该联合特征进行一系列计算，获得训练自然语句描述的指示对象的预测位置坐标，将该预测位置坐标作为指示对象初始检测模型的输出内容。

步骤804：根据所述预测位置坐标和所述真实位置坐标构建损失函数。

步骤805：根据损失函数调整指示对象初始检测模型的模型参数，根据满足训练条件时所调整的模型参数和指示对象初始检测模型的网络结构，确定指示对象检测模型。

根据指示对象初始检测模型输出的预测位置坐标和真实位置坐标之间的误差构建损失函数，进而可以根据该损失函数，对指示对象初始检测模型中的模型参数进行调整，从而实现对指示对象初始检测模型的优化。当指示对象初始检测模型满足训练条件时，即可根据当前指示对象初始检测模型的模型参数以及指示对象检测模型的网络结构，确定指示对象检测模型。

具体判断指示对象初始检测模型是否满足训练条件时，可以利用测试样本对第一模型进行验证，其中第一模型是利用训练样本对指示对象初始检测模型进行第一轮训练优化得到的模型，具体的，将测试样本中的测试图像和测试自然语句输入至该第一模型，利用该第一模型检测测试图像中的指示对象，得到指示对象在测试图像中的测试位置坐标，进而，根据该测试位置坐标与指示对象的真实位置坐标计算指示对象检测准确率，当该检测准确率大于预设阈值时，即可认为该第一模型的模型性能较好已能够满足需求，则可以根据该第一模型的模型参数以及网络结构，确定指示对象检测模型。

需要说明的是，上述预设阈值可以根据实际情况进行设定，在此不对该预设阈值做具体限定。

此外，判断指示对象初始检测模型是否满足训练条件时，还可以根据经多轮训练得到的多个模型，确定是否继续对模型进行训练，以获得模型性能最优的指示对象检测模型。具体的，可以利用测试样本分别对经多轮训练得到的多个模型进行验证，判断经各轮训练得到的模型的检测准确率是否有所提升，若经各轮训练得到的模型的检测准确率之间差距较小，则认为模型的性能已经没有提成空间，则可以选取检测准确率最高的模型，根据该模型的模型参数以及网络结构，确定指示对象检测模型；若经各轮训练得到的指示对象检测模型的检测准确率之间具有较大的差距，则任务模型的性能还有训练提升性能的空间，则可继续对模型进行训练，直到获得模型性能较稳定的性能最优的指示对象检测模型。

在此可以将指示对象初始检测模型输出的预测位置坐标和真实位置坐标之间的误差称为第一误差，针对该第一误差构建损失函数时，可以构建如式(12)所示的损失函数：

其中，(t_x,t_y)为指示对象初始检测模型输出的预测相对位置坐标，t_w为指示对象所处区域的相对宽度，t_h为指示对象所处区域的相对高度，p_w为训练图像的实际宽度，p_h为训练图像的实际高度，为指示对象在训练图像中的真实位置坐标，为指示对象在训练图像中所处区域的真实宽度，为指示对象在训练图像中所处区域的真实高度。

针对式(12)所示的损失函数，可以采用梯度下降法进行迭代计算，通过不断调整指示对象初始检测模型的模型参数，实现对指示对象初始检测模型进行优化。

为了进一步获得检测准确度更高的指示对象检测模型，在训练指示对象初始检测模型时，还可以将针对第一误差构建的损失函数与针对第二误差构建的损失函数结合起来，对指示对象初始检测模型进行优化训练；其中，第一误差即为上述指示对象初始检测模型输出的预测位置坐标与真实位置坐标之间的误差，第二误差为视觉注意力预测权重与视觉注意力真实权重之间的误差，该视觉注意力预测权重是根据初始多模态特征交互融合网络对样本图像进行注意力操作处理时得到的样本图像局部特征权重，视觉注意力真实权重是根据真实位置坐标确定的样本图像局部特征的权重。

针对视觉注意力预测权重与视觉注意力真实权重之间的第二误差构建损失函数时，需要构建视觉注意力预测权重图和视觉注意力真实权重图。

具体的，初始多模态特征交互融合网络利用训练自然语句全局特征对训练图像局部特征进行注意力操作处理时，可以获得该训练图像局部区块对应的局部特征权重，利用各个局部区块对应的局部特征权重即可构建得到视觉注意力预测权重图。

此外，基于指示对象所处区域的中心点对应的视觉注意力权重最大的原理，可以利用已知的指示对象真实坐标，计算该指示对象所处区域的中心点坐标，进而，可以将该中心点坐标在训练图像中所处的局部区块对应的视觉注意力权重设置为1，将该训练图像上的其余局部区块对应的视觉注意力权重设置为0，由此获得视觉注意力真实权重图。

进而利用能够度量两个概率分布间的差异性信息的交叉熵算法，衡量视觉注意力预测权重图与视觉注意力真实权重图之间的差异，根据该差异构建针对第二误差的损失函数。

为了便于理解，下面结合图9对上述针对第二误差构建损失函数的方法进行举例说明。

对于大小为416*416的训练图像，经多模态编码网络、初始多模态特征交互融合网络处理后，能够得到如图9中的901所示的视觉注意力预测权重图，该视觉注意力权重图中包含13*13个局部区块，各个局部区块中的α_i即为该局部区块对应的局部特征权重，例如，α₁为1号局部区块对应的局部特征权重，α₂为2号局部区块对应的局部特征权重等等。

由于已知指示对象在训练图像中的真实位置坐标为其中，为指示对象在训练图像中的真实位置的横坐标，为指示对象在训练图像中的真实位置的纵坐标，为指示对象在训练图像中所处区域的真实宽度，为指示对象在训练图像中所处区域的真实高度。因此，利用该指示对象在训练图像中的真实位置坐标可以按照式(13)确定指示对象所处区域的中心点相对坐标。

其中，m为缩放比例，m＝416/13。确定出还是对象所处区域的中心点相对坐标后，即可确定出该中心点所在的局部区块，将训练图像中该局部区块的视觉注意力权重设置为1，将该训练图像中其余局部区块的视觉注意力权重设置为0，由此获得如图9中902所示的视觉注意力真实权重图。

利用交叉熵算法衡量视觉注意力预测权重图与视觉注意力真实权重图之间的差异，由此构建如式(14)所示的视觉注意力引导损失函数。

其中，为第i个局部区块对应的视觉注意力真实权重，α_i为第i个局部区块对应的视觉注意力预测权重。该视觉注意力引导损失函数即为针对第二误差构建的损失函数。

将针对第一误差构建的损失函数与针对第二误差构建的损失函数结合起来，构建用于优化训练该指示对象初始检测模型的模型损失函数。具体构建的模型损失函数时，可以采用式(15)所示的形式融合上述针对第一误差构建的损失函数与针对第二误差构建的损失函数。

其中，为针对第一误差构建的损失函数，为针对第二误差构建的损失函数，λ_loc为针对第一误差构建的损失函数的损失权重，λ_att为针对第二误差构建的损失函数的损失权重，λ_loc和λ_att的值可以根据实际需求进行设置。

训练指示对象初始检测模型时，可以通过调整指示对象初始检测模型的模型参数，优化该指示对象初始检测模型。当该指示对象初始检测模型满足训练条件时，可以根据当前的模型参数以及指示对象初始检测模型的结构，确定指示对象检测模型。

此外，为了进一步获得检测准确度更高的指示对象检测模型，在训练指示对象初始检测模型时，还可以将针对第一误差构建的损失函数与针对第三误差构建的损失函数结合起来，对指示对象初始检测模型进行优化训练；其中，第一误差即为上述指示对象初始检测模型输出的预测位置坐标与真实位置坐标之间的误差，第三误差为指示对象预测分割概率与指示对象真实分割概率之间的误差；指示对象预测分割概率是根据利用语义分割神经网络和初始多模态特征交互融合网络输出的联合特征，获得的样本图像中指示对象的位置分布概率；指示对象真实分割概率是指示对象在样本图像中的真实位置分布概率。

针对指示对象预测分割概率与指示对象真实分割概率之间的第三误差构建损失函数时，需要采用语义分割算法将训练图像中的每个像素进行分类，进而识别出训练图像中指示对象所处区域，并对该区域进行标注。具体实现时，可以采用语义分割神经网络对初始多模态特征交互融合网络输出的联合特征进行处理，得到指示对象在训练图像中的位置分布概率，进而将该位置分布概率作为指示对象预测分割概率，根据该指示对象预测分割概率在训练图像中标注出指示对象所处区域；此外，还需要利用指示对象检测定位数据集提供的指示对象分割信息对训练图像进行标记，获得指示对象在训练图像中的真实位置分布概率，进而根据上述指示对象预测分割概率和指示对象真实分割概率之间的误差，构建针对第三误差的损失函数。

为了便于理解，下面对上述针对第三误差构建损失函数的方法进行举例说明。

语义分割网络利用1*1*1的卷积层，对多模态特征交互融合网络输出的联合特征c_sh进行处理，该卷积层具体包括卷积线性变化、Batch Normalization变换层和Leaky ReLU线性整流函数层。将经1*1*1卷积层处理得到的数据，输入至w’*h’*1的反卷积层以及sigmoid函数变换层进行处理，获得w’*h’大小的指示对象预测概率分割图R_i,j∈(0,1)，其中，(i,j)为指示对象预测概率分割坐标的位置。

在对指示对象初始检测模型进行训练时，还可以获取指示对象真实概率分割图其中(i,j)为指示对象真实分割坐标的位置。进而，根据上述指示对象预测概率分割图R_i,j∈(0,1)与指示对象真实概率分割图之间的误差，可以构建如式(16)所示的损失函数。

式(16)所示的损失函数即为针对第三误差的损失函数。

将针对第一误差构建的损失函数与针对第三误差构建的损失函数结合起来，构建用于优化训练该指示对象初始检测模型的模型损失函数。具体构建的模型损失函数时，可以采用式(17)所示的形式融合上述针对第一误差构建的损失函数与针对第三误差构建的损失函数。

其中，为针对第一误差构建的损失函数，为针对第三误差构建的损失函数，λ_loc为针对第一误差构建的损失函数的损失权重，λ_seg为针对第三误差构建的损失函数的损失权重，λ_loc和λ_seg的值可以根据实际需求进行设置。

此外，为了获得检测准确度更高的指示对象检测模型，还可以将上述针对第一误差构建的损失函数、针对第二误差构建的损失函数以及针对第三误差构建的损失函数均结合起来，构建用于优化训练指示对象初始检测模型的模型损失函数。具体构建该模型损失函数时，可以采用式(18)所示的形式融合上述针对第一误差构建的损失函数、针对第二误差构建的损失函数以及针对第三误差构建的损失函数。

其中，为针对第一误差构建的损失函数，为针对第二误差构建的损失函数，为针对第三误差构建的损失函数，λ_loc为针对第一误差构建的损失函数的损失权重，λ_att为针对第二误差构建的损失函数的损失权重，λ_seg为针对第三误差构建的损失函数的损失权重，λ_loc、λ_att和λ_seg的值可以根据实际需求进行设置，在实验中将λ_loc的值设置为50.0，将λ_att的值设置为10.0，将λ_seg的值设置为1.0。

需要说明的是，在实际应用中，针对第三误差构建损失函数时所需的指示对象分割信息昂贵且不易获得，而通过实验对比，得出仅根据第一误差和第二误差构成的损失函数训练的模型，与需要利用第三误差构成的损失函数训练的模型性能相当，因此，在实际应用中利用针对第一误差和第二误差构建的损失函数对指示对象初始检测模型进行训练，既能保证模型的训练性能，又能够降低模型的训练成本。

采用上述模型训练方法对指示对象初始检测模型进行训练，基于指示对象预测位置坐标和真实位置坐标之间的误差构建损失函数，根据该损失函数对指示对象初始检测模型的模型参数进行调整，进而在指示对象初始检测模型满足训练条件时，根据当前指示对象初始检测模型的模型参数以及指示对象初始检测模型的模型结构，确定指示对象检测模型。此外，为了提高训练得到的指示对象检测模型的检测准确度，还可以结合视觉注意力预测权重和视觉注意力真实权重之间的误差，和/或，指示对象预测分割概率和指示对象真实分割概率之间的误差构建损失函数，通过不断调整指示对象初始检测模型的模型参数，对指示对象初始检测模型进行优化，以获得模型性能较好的指示对象检测模型。

针对上文描述的指示对象的检测方法，本申请还提供了对应的指示对象的检测装置，以便于这些方法在实际中的应用及实现。

参见图10，图10是与上文图2所示方法相对应的一种指示对象的检测装置1000的结构图，该装置1000包括：

获取模块1001，用于获取给定图像和给定自然语句；

处理模块1002，用于根据指示对象检测模型，对所述给定图像和所述给定自然语句进行处理得到所述给定自然语句描述的指示对象在所述给定图像中的位置坐标，所述指示对象检测模型为端到端的神经网络，所述神经网络以图像和自然语句作为输入，以指示对象的位置坐标作为输出。

可选的，上述图10所示的指示对象检测装置中，所述指示对象检测模型包括多模态编码网络、多模态特征交互融合网络和指示对象定位网络；

其中，所述多模态编码网络是以图像和自然语句为输入，以图像的特征和自然语句的特征为输出的第一神经网络；

所述多模态特征交互融合网络是以所述多模态编码网络的输出为输入，以经过注意力操作处理后的图像和自然语句的联合特征为输出的第二神经网络；

所述指示对象定位网络是以所述多模态特征交互融合网络的输出为输入，以指示对象的位置坐标为输出的第三神经网络。

可选的，在上述图10所示的指示对象的检测装置的基础上，参见图11，图11是与上文图6所示方法对应的一种指示对象的检测装置1100的结构图，该装置中处理模块1002包括：

第一处理子模块1101，用于将所述给定图像和所述给定自然语句输入所述多模态编码网络，获得所述多模态编码网络的第一输出内容，所述第一输出内容包括所述给定图像全局特征、所述给定图像局部特征、所述给定自然语句全局特征和所述给定自然语句局部特征；

第二处理子模块1102，用于将所述第一输出内容输入所述多模态特征交互融合网络，获得所述多模态特征交互融合网络的第二输出内容，所述第二输出内容包括所述给定图像和所述给定自然语句的联合特征；

第三处理子模块1103，用于将所述第二输出内容输入所述指示对象定位网络，获得所述指示对象定位网络的第三输出内容，所述第三输出内容包括所述给定自然语句描述的指示对象在所述给定图像中的位置坐标。

可选的，在上述图10所示的指示对象的检测装置的基础上，参见图12，图12是是与上文图8所示方法对应的一种指示对象的检测装置1200的结构图，该装置在图10所示的装置的基础上，还包括：

构建模块1201，用于构建指示对象初始检测模型，其中，所述指示对象初始检测模型包括初始多模态编码网络、初始多模态特征交互融合网络和初始指示对象定位网络；

样本获取模块1202，用于获取训练样本集中的训练样本，所述训练样本包括训练图像、训练自然语句以及指示对象的真实位置坐标；

样本输入模块1203，用于将所述训练图像和所述训练自然语句输入所述指示对象初始检测模型中，依次经过所述初始多模态编码网络、所述初始多模态特征交互融合网络和所述初始指示对象定位网络的处理，获得所述初始指示对象定位网络的输出内容，所述输出内容包括所述训练自然语句描述的指示对象的预测位置坐标；

损失函数构建模块1204，用于根据所述预测位置坐标和所述真实位置坐标构建损失函数；

确定模块1205，用于根据所述损失函数调整所述指示对象初始检测模型的模型参数，根据满足训练条件时所调整的模型参数和所述指示对象初始检测模型的网络结构，确定所述指示对象检测模型。

可选的，在上述图12所示的指示对象的检测装置中，损失函数构建模块1204具体用于根据第一误差和第二误差，构建损失函数；其中，所述第一误差是指所述预测位置坐标与所述真实位置坐标之间的误差；所述第二误差是指视觉注意力预测权重与视觉注意力真实权重之间的误差；所述视觉注意力预测权重是根据所述初始多模态特征交互融合网络对所述样本图像进行注意力操作处理时所得到的样本图像局部特征的权重；所述视觉注意力真实权重是根据所述真实位置坐标确定的样本图像局部特征的权重。

可选的，在上述图12所示的指示对象的检测装置中，损失函数构建模块1204具体用于根据第一误差和第三误差，构建损失函数；其中，所述第一误差是指所述预测位置坐标与所述真实位置坐标之间的误差；所述第三误差是指示对象预测分割概率与指示对象真实分割概率之间的误差；所述指示对象预测分割概率是根据利用语义分割神经网络和所述初始多模态特征交互融合网络输出的联合特征，获得的样本图像中指示对象的位置分布概率；所述指示对象真实分割概率是指示对象在样本图像中的真实位置分布概率。

可选的，在上述图12所示的指示对象的检测装置中，损失函数构建模块1204具体用于根据第一误差、第二误差和第三误差，构建损失函数；其中，所述第一误差是指所述预测位置坐标与所述真实位置坐标之间的误差；所述第二误差是指视觉注意力预测权重与视觉注意力真实权重之间的误差；所述视觉注意力预测权重是根据所述初始多模态特征交互融合网络对所述样本图像进行注意力操作处理时所得到的样本图像局部特征的权重；所述视觉注意力真实权重是根据所述真实位置坐标确定的样本图像局部特征的权重；所述第三误差是指示对象预测分割概率与指示对象真实分割概率之间的误差；所述指示对象预测分割概率是根据利用语义分割神经网络和所述初始多模态特征交互融合网络输出的联合特征，获得的样本图像中指示对象的位置分布概率；所述指示对象真实分割概率是指示对象在样本图像中的真实位置分布概率。

可选的，在上述图10所示的指示对象的检测装置的基础上，参见图13，图13为本申请实施例提供的又一种指示对象的检测装置1300的结构图，该装置还包括：

标注模块1301，用于根据所述指示对象的位置坐标，在所述给定图像中标注所述指示对象的外接矩形框。

可选的，在图11所示的指示对象的检测装置中，所述多模态编码网络包括卷积神经网络和循环神经网络；

其中，所述卷积神经网络用于对图像进行编码提取特征，以图像为输入，以图像全局特征和图像局部特征为输出；

所述循环神经网络用于对自然语句进行编码提取特征，以自然语句为输入，以自然语句全局特征和自然语句局部特征为输出。

可选的，在图11所示的指示对象的检测装置中，所述多模态特征交互融合网络包括基于注意力机制的多层感知器神经网络，用于利用自然语句全局特征对图像局部特征进行注意力操作处理得到图像深层特征，以及利用图像全局特征对自然语句局部特征进行注意力操作处理得到自然语句深层特征，根据所述图像深层特征和所述自然语句深层特征合并生成图像和自然语句的联合特征。

本申请实施例提供的指示对象的检测装置，先获取给定图像和给定自然语句，然后根据指示对象检测模型，对该给定图像和该给定自然语句进行处理，得到该给定自然语句描述的指示对象在该给定图像中的位置坐标，其中，该指示对象检测模型是以图像和自然语句作为输入，直接以自然语句所描述的指示对象在图像中的位置坐标为输出的端到端的神经网络，即该指示对象检测模型是通过端到端训练方式，对整个神经网络的参数进行整体训练优化而得到的模型，相比现有技术中，分别独立训练通用物体检测器和匹配模型，本申请实施例中的该指示对象检测模型其整体检测性能更好，因此，本申请实施例利用该指示对象检测模型检测指示对象，能够保证检测结果的准确性。

本申请还提供了指示对象的检测设备，该指示对象的检测设备具体可以为服务器，参见图14，图14是本申请实施例提供的一种用于检测指示对象的服务器的结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

获取给定图像和给定自然语句；

本申请实施例还提供的指示对象的检测设备还可以为终端设备，参见图15，图15为本申请实施例提供的一种用于检测指示对象的终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：Personal DigitalAssistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图15示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图15，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图15中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图15对手机的各个构成部件进行具体的介绍：

RF电路1510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1580处理；另外，将设计上行的数据发送给基站。通常，RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文缩写：LNA)、双工器等。此外，RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，GPRS)、码分多址(英文全称：CodeDivision Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband CodeDivision Multiple Access,英文缩写：WCDMA)、长期演进(英文全称：Long TermEvolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：Short Messaging Service，SMS)等。

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1580，并能接收处理器1580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531，输入单元1530还可以包括其他输入设备1532。具体地，其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541，可选的，可以采用液晶显示器(英文全称：Liquid Crystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-Emitting Diode，英文缩写：OLED)等形式来配置显示面板1541。进一步的，触控面板1531可覆盖显示面板1541，当触控面板1531检测到在其上或附近的触摸操作后，传送给处理器1580以确定触摸事件的类型，随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图15中，触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1560、扬声器1561，传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声音信号输出；另一方面，传声器1562将收集的声音信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出处理器1580处理后，经RF电路1510以发送给比如另一手机，或者将音频数据输出至存储器1520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图15示出了WiFi模块1570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1580中。

手机还包括给各个部件供电的电源1590(比如电池)，优选的，电源可以通过电源管理系统与处理器1580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1580还具有以下功能：

获取给定图像和给定自然语句；

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种指示对象的检测方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种指示对象的检测方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种指示对象的检测方法，其特征在于，包括：

获取给定图像和给定自然语句；

2.根据权利要求1所述的方法，其特征在于，所述指示对象检测模型包括多模态编码网络、多模态特征交互融合网络和指示对象定位网络；

3.根据权利要求2所述的方法，其特征在于，所述根据指示对象检测模型，对所述给定图像和所述给定自然语句进行处理得到所述给定自然语句描述的指示对象在所述给定图像中的位置坐标，包括：

将所述给定图像和所述给定自然语句输入所述多模态编码网络，获得所述多模态编码网络的第一输出内容，所述第一输出内容包括所述给定图像全局特征、所述给定图像局部特征、所述给定自然语句全局特征和所述给定自然语句局部特征；

将所述第一输出内容输入所述多模态特征交互融合网络，获得所述多模态特征交互融合网络的第二输出内容，所述第二输出内容包括所述给定图像和所述给定自然语句的联合特征；

将所述第二输出内容输入所述指示对象定位网络，获得所述指示对象定位网络的第三输出内容，所述第三输出内容包括所述给定自然语句描述的指示对象在所述给定图像中的位置坐标。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

构建指示对象初始检测模型，其中，所述指示对象初始检测模型包括初始多模态编码网络、初始多模态特征交互融合网络和初始指示对象定位网络；

获取训练样本集中的训练样本，所述训练样本包括训练图像、训练自然语句以及指示对象的真实位置坐标；

将所述训练图像和所述训练自然语句输入所述指示对象初始检测模型中，依次经过所述初始多模态编码网络、所述初始多模态特征交互融合网络和所述初始指示对象定位网络的处理，获得所述初始指示对象定位网络的输出内容，所述输出内容包括所述训练自然语句描述的指示对象的预测位置坐标；

根据所述预测位置坐标和所述真实位置坐标构建损失函数；

根据所述损失函数调整所述指示对象初始检测模型的模型参数，根据满足训练条件时所调整的模型参数和所述指示对象初始检测模型的网络结构，确定所述指示对象检测模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述预测位置坐标和所述真实位置坐标构建损失函数，包括：

根据第一误差和第二误差，构建损失函数；其中，所述第一误差是指所述预测位置坐标与所述真实位置坐标之间的误差；所述第二误差是指视觉注意力预测权重与视觉注意力真实权重之间的误差；所述视觉注意力预测权重是根据所述初始多模态特征交互融合网络对所述样本图像进行注意力操作处理时所得到的样本图像局部特征的权重；所述视觉注意力真实权重是根据所述真实位置坐标确定的样本图像局部特征的权重。

6.根据权利要求4所述的方法，其特征在于，所述根据所述预测位置坐标和所述真实位置坐标构建损失函数，包括：

根据第一误差和第三误差，构建损失函数；其中，所述第一误差是指所述预测位置坐标与所述真实位置坐标之间的误差；所述第三误差是指示对象预测分割概率与指示对象真实分割概率之间的误差；所述指示对象预测分割概率是根据利用语义分割神经网络和所述初始多模态特征交互融合网络输出的联合特征，获得的样本图像中指示对象的位置分布概率；所述指示对象真实分割概率是指示对象在样本图像中的真实位置分布概率。

7.根据权利要求4所述的方法，其特征在于，所述根据所述预测位置坐标和所述真实位置坐标构建损失函数，包括：

根据第一误差、第二误差和第三误差，构建损失函数；其中，所述第一误差是指所述预测位置坐标与所述真实位置坐标之间的误差；所述第二误差是指视觉注意力预测权重与视觉注意力真实权重之间的误差；所述视觉注意力预测权重是根据所述初始多模态特征交互融合网络对所述样本图像进行注意力操作处理时所得到的样本图像局部特征的权重；所述视觉注意力真实权重是根据所述真实位置坐标确定的样本图像局部特征的权重；所述第三误差是指示对象预测分割概率与指示对象真实分割概率之间的误差；所述指示对象预测分割概率是根据利用语义分割神经网络和所述初始多模态特征交互融合网络输出的联合特征，获得的样本图像中指示对象的位置分布概率；所述指示对象真实分割概率是指示对象在样本图像中的真实位置分布概率。

8.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

根据所述指示对象的位置坐标，在所述给定图像中标注所述指示对象。

9.根据权利要求2所述的方法，其特征在于，所述多模态编码网络包括卷积神经网络和循环神经网络；

10.根据权利要求2所述的方法，其特征在于，所述多模态特征交互融合网络包括基于注意力机制的多层感知器神经网络，用于利用自然语句全局特征对图像局部特征进行注意力操作处理得到图像深层特征，以及利用图像全局特征对自然语句局部特征进行注意力操作处理得到自然语句深层特征，根据所述图像深层特征和所述自然语句深层特征合并生成图像和自然语句的联合特征。

11.一种指示对象的检测装置，其特征在于，包括：

获取模块，用于获取给定图像和给定自然语句；

12.一种指示对象的检测设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-10任一项所述的指示对象的检测方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-10任一项所述的指示对象的检测方法。

14.一种包括指令的计算机程序产品，其特征在于，当其在计算机上运行时，使得所述计算机执行权利要求1-10任一项所述的指示对象的检测方法。