CN109903314A

CN109903314A - 一种图像区域定位的方法、模型训练的方法及相关装置

Info

Publication number: CN109903314A
Application number: CN201910190207.2A
Authority: CN
Inventors: 马林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-06-18
Also published as: WO2020182112A1; KR102646667B1; JP2022508790A; EP3940638B1; EP3940638A1; KR20210076110A; US20210264227A1; JP7096444B2; EP3940638A4

Abstract

本申请公开了一种图像区域定位的方法，包括：获取待定位图像中的图像候选区域集合；根据图像候选区域集合生成区域语义信息集合；通过图卷积网络获取区域语义信息集合所对应的增强语义信息集合，图卷积网络用于构建各个区域语义信息之间的关联关系；获取待定位文本所对应的文本特征集合；通过图像区域定位网络模型获取文本特征集合与每个增强语义信息的匹配度；根据文本特征集合与每个增强语义信息的匹配度，从图像候选区域集合中确定目标图像候选区域。本申请还公开了一种模型训练的方法及相关装置。本申请采用图卷积网络增强图像候选区域之间的语义表示，从而有利于提升图像区域定位的准确性，进而提升对图像的理解能力。

Description

一种图像区域定位的方法、模型训练的方法及相关装置

技术领域

本申请涉及人工智能领域，尤其涉及一种图像区域定位的方法、模型训练的方法及相关装置。

背景技术

随着人工智能的不断发展，在图像中定位与自然语句对应的区域已成为机器学习的一项重要任务。当面对大量的图像时，以人工的方式提取与自然语句关联的区域往往需要消耗大量时间，而且容易出错，因此，由机器实现图像区域的定位是非常有必要的。

目前，实现图像区域定位的方法是，先通过物体提名的方式提取图像中多个候选区域，然后使用匹配模型来判断每个物体提名和自然语言的匹配关系，进而选择与自然语言最为匹配的局部区域作为目标图像区域，由此完成相应的自然语句图像定位任务。

然而，采用上述方法虽然可以从图像中定位出与自然语言最匹配的图像区域，但是并没有考虑到各个局部区域之间的空间关系，并且忽略了局部区域之间的语义信息，导致对目标图像区域的定位不够准确，从而降低了对图像的理解能力。

发明内容

本申请实施例提供了一种图像区域定位的方法、模型训练的方法及相关装置，采用图卷积网络能够有效地增强图像候选区域之间的语义表示，并且考虑到了各个图像候选区域之间的空间关系，从而有利于提升图像区域定位的准确性，进而提升对图像的理解能力。

有鉴于此，本申请第一方面提供一种图像区域定位的方法，包括：

获取待定位图像中的图像候选区域集合，其中，所述图像候选区域集合中包括N个图像候选区域，所述N为大于或等于1的整数；

根据所述图像候选区域集合生成区域语义信息集合，其中，所述区域语义信息集合中包括N个区域语义信息，每个区域语义信息对应一个图像候选区域；

通过图卷积网络获取所述区域语义信息集合所对应的增强语义信息集合，其中，所述增强语义信息集合中包括N个增强语义信息，每个增强语义信息对应于一个区域语义信息，所述图卷积网络用于构建各个区域语义信息之间的关联关系；

获取待定位文本所对应的文本特征集合，其中，所述待定位文本包括T个词语，所述文本特征集合包括T个词语特征，每个词语对应于一个词语特征，所述T为大于或等于1的整数；

通过图像区域定位网络模型获取所述文本特征集合与所述每个增强语义信息的匹配度，其中，所述图像区域定位网络模型用于确定所述图像候选区域与所述待定位文本之间的匹配关系；

根据所述文本特征集合与所述每个增强语义信息的匹配度，从所述图像候选区域集合中确定目标图像候选区域。

本申请第二方面提供一种模型训练的方法，包括：

获取待训练文本集合以及待训练图像候选区域集合，其中，所述待训练文本集合包括第一待训练文本以及第二待训练文本，所述待训练图像候选区域集合包括第一待训练图像候选区域以及第二待训练图像候选区域，所述第一待训练文本与所述第一待训练图像候选区域具有匹配关系，且所述第一待训练文本与所述第二待训练图像候选区域不具有匹配关系，所述第二待训练文本与所述第二待训练图像候选区域具有匹配关系，且所述第二待训练文本与所述第一待训练图像候选区域不具有匹配关系；

根据所述第一待训练文本、所述第二待训练文本、所述第一待训练图像候选区域以及所述第二待训练图像候选区域，确定目标损失函数；

采用所述目标损失函数对待训练图像区域定位网络模型进行训练，得到图像区域定位网络模型，其中，所述图像区域定位网络模型用于根据文本特征集合与增强语义信息确定图像候选区域与待定位文本之间的匹配关系，所述增强语义信息与所述图像候选区域具有对应关系，所述文本特征集合与所述待定位文本具有对应关系。

本申请第三方面提供一种图像区域定位装置，包括：

获取模块，用于获取待定位图像中的图像候选区域集合，其中，所述图像候选区域集合中包括N个图像候选区域，所述N为大于或等于1的整数；

生成模块，用于根据所述获取模块获取的所述图像候选区域集合生成区域语义信息集合，其中，所述区域语义信息集合中包括N个区域语义信息，每个区域语义信息对应一个图像候选区域；

所述获取模块，还用于通过图卷积网络获取所述生成模块生成的所述区域语义信息集合所对应的增强语义信息集合，其中，所述增强语义信息集合中包括N个增强语义信息，每个增强语义信息对应于一个区域语义信息，所述图卷积网络用于构建各个区域语义信息之间的关联关系；

所述获取模块，还用于获取待定位文本所对应的文本特征集合，其中，所述待定位文本包括T个词语，所述文本特征集合包括T个词语特征，每个词语对应于一个词语特征，所述T为大于或等于1的整数；

所述获取模块，还用于通过图像区域定位网络模型获取所述文本特征集合与所述每个增强语义信息的匹配度，其中，所述图像区域定位网络模型用于确定所述图像候选区域与所述待定位文本之间的匹配关系；

确定模块，用于根据所述获取模块获取的所述文本特征集合与所述每个增强语义信息的匹配度，从所述图像候选区域集合中确定目标图像候选区域。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，

所述生成模块，具体用于通过卷积神经网络获取所述图像候选区域所对应的区域语义信息，其中，所述图像候选区域包括区域信息，所述区域信息包括所述图像候选区域在所述待定位图像中的位置信息，以及所述图像候选区域的尺寸信息；

当获取到N个图像候选区域所对应的区域语义信息时，根据所述N个区域语义信息生成所述区域语义信息集合。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，

所述获取模块，具体用于从所述区域语义信息集合中获取第一区域语义信息以及第二区域语义信息，其中，所述第一区域语义信息为所述区域语义信息集合中任意一个区域语义信息，所述第二区域语义信息为所述区域语义信息集合中任意一个区域语义信息；

获取所述第一区域语义信息与所述第二区域语义信息之间的连接边强度；

对所述第一区域语义信息与所述第二区域语义信息之间的连接边强度进行归一化处理，得到归一化强度；

根据所述区域语义信息集合中各个区域语义信息之间的归一化强度，确定目标连接矩阵；

通过所述图卷积网络确定所述目标连接矩阵所对应的所述增强语义信息集合。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

所述获取模块，具体用于根据所述区域语义信息集合中各个区域语义信息之间的归一化强度，生成连接矩阵；

根据所述连接矩阵以及单位阵生成所述目标连接矩阵。

在一种可能的设计中，在本申请实施例的第三方面的第四种实现方式中，

所述获取模块，具体用于采用如下方式计算所述增强语义信息集合：

其中，所述表示第k层的图卷积网络对应的第i个增强语义信息，所述表示第(k-1)层的图卷积网络对应的第j个增强语义信息，所述表示所述第k层的图卷积网络的第一网络参数，所述表示所述第k层的图卷积网络的第二网络参数，所述j∈neighboring(i)表示第j个节点属于第i个节点的邻居节点，所述表示所述目标连接矩阵中元素。

在一种可能的设计中，在本申请实施例的第三方面的第五种实现方式中，

所述获取模块，具体用于获取所述待定位文本；

根据所述待定位文本获取文本向量序列，其中，所述文本向量序列包括T个词向量，每个词向量对应于一个词语；

对所述文本向量序列中的每个词向量进行编码处理，得到文本特征；

当获取到T个词向量所对应的文本特征时，根据所述T个文本特征生成所述文本特征集合。

在一种可能的设计中，在本申请实施例的第三方面的第六种实现方式中，

所述获取模块，具体用于采用如下方式获取所述文本特征：

h_t＝LSTM(w_t,h_t-1)；

其中，所述h_t表示所述文本特征集合中的第t个文本特征，所述LSTM()表示采用长短期记忆LSTM网络进行编码，所述w_t表示所述文本向量序列中的第t个词向量，所述h_t-1表示所述文本特征集合中的第(t-1)个文本特征。

本申请第四方面提供一种模型训练装置，包括：

获取模块，用于获取待训练文本集合以及待训练图像候选区域集合，其中，所述待训练文本集合包括第一待训练文本以及第二待训练文本，所述待训练图像候选区域集合包括第一待训练图像候选区域以及第二待训练图像候选区域，所述第一待训练文本与所述第一待训练图像候选区域具有匹配关系，且所述第一待训练文本与所述第二待训练图像候选区域不具有匹配关系，所述第二待训练文本与所述第二待训练图像候选区域具有匹配关系，且所述第二待训练文本与所述第一待训练图像候选区域不具有匹配关系；

确定模块，用于根据所述获取模块获取的所述第一待训练文本、所述第二待训练文本、所述第一待训练图像候选区域以及所述第二待训练图像候选区域，确定目标损失函数；

训练模块，用于采用所述确定模块确定的所述目标损失函数对待训练图像区域定位网络模型进行训练，得到图像区域定位网络模型，其中，所述图像区域定位网络模型用于根据文本特征集合与增强语义信息确定图像候选区域与待定位文本之间的匹配关系，所述增强语义信息与所述图像候选区域具有对应关系，所述文本特征集合与所述待定位文本具有对应关系。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，

所述确定模块，具体用于采用如下方式确定所述目标损失函数：

其中，所述L表示所述目标损失函数，所述表示所述第一待训练图像候选区域，所述表示所述第一待训练文本，所述表示所述第二待训练图像候选区域，所述表示所述第二待训练文本，所述d()表示待训练数据对，所述max()表示取最大值，所述λ₁表示第一参数控制权重，所述λ₂表示第二参数控制权重，所述u₁表示第一预设阈值，所述u₂表示第二预设阈值。

本申请第五方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述文本特征集合与所述每个增强语义信息的匹配度，从所述图像候选区域集合中确定目标图像候选区域；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请第六方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

本申请第七方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

采用所述目标损失函数对待训练图像区域定位网络模型进行训练，得到图像区域定位网络模型，其中，所述图像区域定位网络模型用于根据文本特征集合与增强语义信息确定图像候选区域与待定位文本之间的匹配关系，所述增强语义信息与所述图像候选区域具有对应关系，所述文本特征集合与所述待定位文本具有对应关系；

本申请的第八方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本申请第九方面提供一种图像区域定位的方法，包括：

接收图像定位指令；

响应于所述图像定位指令，根据所述图像定位指令获取待定位图像中的图像候选区域集合，其中，所述图像候选区域集合中包括N个图像候选区域，所述N为大于或等于1的整数；

向客户端发送图像生成指令，以使所述客户端根据所述图像生成指令展示所述目标图像候选区域。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种图像区域定位的方法，首先获取待定位图像中的图像候选区域集合，其中，图像候选区域集合中包括N个图像候选区域，然后根据图像候选区域集合生成区域语义信息集合，每个区域语义信息对应一个图像候选区域，再通过图卷积网络获取区域语义信息集合所对应的增强语义信息集合，每个增强语义信息对应于一个区域语义信息，图卷积网络用于构建各个区域语义信息之间的关联关系，此外，获取待定位文本所对应的文本特征集合，接下来可以通过图像区域定位网络模型获取文本特征集合与每个增强语义信息的匹配度，最后根据文本特征集合与每个增强语义信息的匹配度，从图像候选区域集合中确定目标图像候选区域。通过上述方式，采用图卷积网络能够有效地增强图像候选区域之间的语义表示，并且考虑到了各个图像候选区域之间的空间关系，从而有利于提升图像区域定位的准确性，进而提升对图像的理解能力。

附图说明

图1为本申请实施例中图像区域定位系统的一个架构示意图；

图2为本申请实施例中图像区域定位的一个整体框架示意图；

图3为本申请实施例中图像区域定位的方法一个实施例示意图；

图4为本申请实施例中模型训练的方法一个实施例示意图；

图5为本申请实施例中图像区域定位装置一个实施例示意图；

图6为本申请实施例中模型训练装置一个实施例示意图；

图7为本申请实施例中终端设备一个结构示意图；

图8为本申请实施例中服务器一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请所提供的图像区域定位方法可以应用于图像处理与模式识别等领域，从图像中定位感兴趣的目标，进而可以判断目标的具体类别，并给出该目标的边界框。图像区域定位的方法在人脸识别、医学影像、智能视频监控、机器人导航、基于内容的图像检索、基于图像的绘制技术、图像编辑和增强现实等领域都有广泛的应用。比如，在基于内容的图像检索场景中，假设存在一个图像A，从图像A中提取多个候选区域，假设用户输入一个句子为“a boy hold an apple(一个男孩拿着一个苹果)”，于是，将句子与每个候选区域进行匹配，根据匹配结果从多个候选区域中选择目标候选区域。本申请主要是一种使用图卷积网络完成自然语句的图像定位。自然语句可以是单词、短语或者句子，找到自然语句对应的图像的目标候选区域，该目标候选区域可以定义为一个矩形框。

在实际应用中，对图像区域的定位可以分为三个层级，第一层级为图像级，即确定图像中是否有相关的目标对象，在图像分类或者图像注释技术中，比如，对于单词“apple”(苹果)而言，可从图像中圈出苹果这个对象。

第二层即为区域级，即确定图像中某个区域含有某类目标，在图像目标类别检测中，比如，对于句子“a boy hold an apple(一个男孩拿着一个苹果)”，可以从图像中框选出一个区域，该区域包括一个男孩和一个苹果。

第三层即为区域级，即确定图像中各像素归属于哪类目标对象。像素级分割也分为类别级目标分割和语义分割两类。类别级目标分割与语义分割的主要区别是，语义分割要求将图像中的所有目标包括背景都分割出来并确定其类别，而目标分割仅需要分割感兴趣的目标并分类。

为了便于理解，本申请提出了一种图像区域定位的方法，该方法应用于图1所示的图像区域定位系统，请参阅图1，图1为本申请实施例中图像区域定位系统的一个架构示意图，如图所示，本申请提供的图像区域定位的方法可以用于服务器，也可以应用于客户端，如果应用于服务器，则当服务器确定定位结果之后，可以将定位结果发送至客户端，通过客户端展示相应的目标图像候选区域。如果应用于客户端，则当客户端确定定位结果之后，可以直接展示相应的目标图像候选区域。具体地，对于一个图像，首先采用图像检测的方法，得到多个图像候选区域(即图像的局部区域)。对于多个图像候选区域，通过它们的空间关系进而构建图(graph)。然后针对图像候选区域，可以使用卷积神经网络提取相应的语义特征。基于得到的语义特征和构建的图，使用图卷积网络(graph convolutional network，GCN)来进一步学习图像候选区域的表示。基于GCN得到的图像候选区域表示,通过语义匹配的方式，衡量这些图像候选区域与给定自然语句的语义相关性，进而确定最相关的图像候选区域作为自然语句图像定位的最终结果，即得到目标图像候选区域。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

本申请提出的图像区域定位方法可以提供自然语句图像定位服务。该服务可部署在服务器侧进行，也可以部署在终端设备侧进行。可以理解的是，在服务器侧应用该图像区域定位方法能够完成对图像的更深度理解，进而对图像进行更加详细的细粒度标注，由此，帮助用户快速和精确地搜索与匹配，也可以应用于图文信息的个性化推荐。该图像区域定位方法也可以部署在终端设备，比如手机端或者机器人等，通过机器人的摄像头获取相应的图像信号，用户通过自然语言与相应的机器人交互。比如，用户通过语音或者通过键盘输入得到相应的自然语言文本，再利用图像区域定位网络模型，为对应的自然语言文本定位图像的局部区域。通过这种方式，可以使终端设备能够更好的与用户进行交互。

为了便于理解，请参阅图2，图2为本申请实施例中图像区域定位的一个整体框架示意图，如图所示，对一个自然图像，通过物体提名(object proposal)的方法得到相应的图像候选区域。在提取到相应的图像候选区域后，我们利用对应的卷积神经网络，提取相应的图像候选区域的语义表示，将每一个候选区域表示成为一个特征向量。进而我们得到相应的候选区域对应的语义表示{I₁,I₂,I₃.I₄...,I_n}，其中，n表示图像中提取到的图像候选区域总个数。后续使用GCN对提取的图像候选区域语义表示进行增强，得到增强后的图像候选区域语义表示{V₁,V₂,V₃.V₄...,V_n}，在构建图卷积网络的过程中，需要考虑图像候选区域之间的语义相似度，由此来构建相应的图，进而定义相应的连接边信息，通过连接边信息，对相应的图像候选区域的语义表示进行增强。

对于输入的自然语句(比如“左边穿白色衣服打棒球的人”)，我们使用循环神经网络对自然语句进行编码，得到其相应的语义表示。对于自然语句的语义表示和对应的增强后的图像候选区域语义表示，通过一个匹配学习的方法，学习自然语句与对应的图像候选区域之间的语义关系，最后，通过两者之间的语义相似度，来选择语义最相关的图像候选区域作为目标图像候选区域。

结合上述介绍，下面将对本申请中图像区域定位的方法进行介绍，请参阅图3，本申请实施例中图像区域定位的方法一个实施例包括：

101、获取待定位图像中的图像候选区域集合，其中，图像候选区域集合中包括N个图像候选区域，N为大于或等于1的整数；

本实施例中，图像区域定位装置首先获取待定位图像，其中，待定位图像可以是存储于服务器后台的图像，也可以是由客户端上传的图像，还可以是客户端本地图像，可以理解的是，图像区域定位装置可以部署于服务器，也可以部署于终端设备，此处不做限定。

在图像区域定位装置获取到待定位图像后，通过物品提名的方法可以提取待定位图像中的图像候选区域集合，其中，该图像候选区域集合中包括N个图像候选区域，且N为大于1或等于1的整数，当N等于1时，表示待定位图像中只有一个图像候选区域，直接将该图像候选区域作为目标图像候选区域即可。

基于物体提名的方法可以提取图像里的图像候选区域，具体地，图像候选区域就是预先找出图像中目标可能出现的位置，通过利用图像中的纹理、边缘以及颜色等信息，保证在选取较少窗口的情况下可以保持较高的召回率(Intersection-over-Union，IoU)。其中，物体提名的方法包含但不仅限于基于区域的卷积神经网络(Region-basedConvolutional Neural Networks，R-CNN)、基于快速区域的卷积神经网络(Fast Region-based Convolutional Neural Networks，Fast R-CNN)以及基于更快速区域的卷积神经网络(Faster Region-based Convolutional Neural Networks，Faster R-CNN)等，此处不做限定。

102、根据图像候选区域集合生成区域语义信息集合，其中，区域语义信息集合中包括N个区域语义信息，每个区域语义信息对应一个图像候选区域；

本实施例中，图像区域定位装置在获取到图像候选区域集合之后，通过神经网络产生相应的图像候选区域语义表示，即得到区域语义信息集合，其中，区域语义信息集合包括N个区域语义信息，每个区域语义信息对应一个图像候选区域。

需要说明的是，该神经网络具体可以是卷积神经网络(Convolutional NeuralNetwork，CNN)，在实际应用中，还可以是其他类型的神经网络，此处仅为一个示意，不应理解为对本申请的限定。

103、通过图卷积网络获取区域语义信息集合所对应的增强语义信息集合，其中，增强语义信息集合中包括N个增强语义信息，每个增强语义信息对应于一个区域语义信息，图卷积网络用于构建各个区域语义信息之间的关联关系；

本实施例中，图像区域定位装置通过GCN获取区域语义信息集合所对应的增强语义信息集合，也就是说，利用GCN可以增强图像候选区域的语义表示。其中，增强语义信息集合包括N个增强语义信息，也就是每个图像候选区域对应一个区域语义信息，且每个图像候选区域对应一个区域语义增强语义信息。GCN可以构建节点之间的关联关系，在本申请中即可构建各个区域语义信息之间的关联关系。

GCN是可卷积的网络模型，对应GCN而言，它的目标是学习图G＝(V,E)上的信号或者特征的一个映射，图的构建过程是在得到图像候选区域后执行的，根据图像候选区域之间的空间信息构建的，能够利用包含在数据以及数据之间关系中的信息增加对图像候选区域的语义表达，由此得到增强语义信息。

104、获取待定位文本所对应的文本特征集合，其中，待定位文本包括T个词语，文本特征集合包括T个词语特征，每个词语对应于一个词语特征，T为大于或等于1的整数；

本实施例中，图像区域定位装置获取待定位文本，可以理解的是，步骤104可以在步骤101之前执行，也可以在步骤103之后执行，还可以与步骤101同时执行，此处不限定步骤104的执行顺序。待定位文本具体可以是用户输入的一个文本，也可以是用户输入的一段语音，对语音进行识别之后得到的一个文本。待定位文本表示为单词、短语、句子或者段落等形式，且待定位文本可以是中文、英文、日文、法文、德文或者俄文等，此处不做限定。

在获取到待定位文本之后，对待定位文本中的每个词语进行特征提取以及编码处理，最后得到文本特征集合。比如，待定位文本“boy hold an apple”中包括了四个词语，分别为“boy”、“hold”、“an”和“apple”，提取这四个词语的特征后进行编码处理，进而得到文本特征集合。其中，待定位文本包括T个词语，文本特征集合包括T个词语特征，每个词语对应于一个词语特征，T为大于或等于1的整数。

可以理解的是，待定位文本“boy hold an apple”是一个具象的表述，因此，可以在待定位图像中得到既包含“boy”，又包含“apple”的图像候选区域。

105、通过图像区域定位网络模型获取文本特征集合与每个增强语义信息的匹配度，其中，图像区域定位网络模型用于确定图像候选区域与待定位文本之间的匹配关系；

本实施例中，图像区域定位装置可以将每个增强语义信息与文本特征集合分别输入至图像区域定位网络模型，由图像区域定位网络模型输出相应的匹配度。其中，图像区域定位网络模型用于确定图像候选区域与待定位文本之间的匹配关系，也就是说，匹配度越高，表示匹配关系越强。

可以理解的是，匹配度可以表现为匹配分值或者匹配标识，还可以表示为其他类型的匹配关系。

106、根据文本特征集合与每个增强语义信息的匹配度，从图像候选区域集合中确定目标图像候选区域。

本实施例中，图像区域定位装置根据文本特征集合与每个增强语义信息的匹配度，可以从图像候选区域集合中选择匹配度最高的图像候选区域作为目标图像候选区域。为了便于介绍，请参阅表1，表1为文本特征集合与增强语义信息的匹配度一个示意。

表1

图像候选区域	文本特征集合与增强语义信息	匹配度
			图像候选区域A	文本特征集合+增强语义信息A	77
图像候选区域B	文本特征集合+增强语义信息B	58
			图像候选区域C	文本特征集合+增强语义信息C	30
图像候选区域D	文本特征集合+增强语义信息D	80
			图像候选区域E	文本特征集合+增强语义信息E	60

由上表1可知，对于“文本特征集合+增强语义信息D”而言，其对应的匹配度是最大的，因此，图像区域定位装置将图像候选区域D作为目标图像候选区域。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的图像区域定位的方法第一个可选实施例中，根据图像候选区域集合生成区域语义信息集合，可以包括：

通过卷积神经网络获取图像候选区域所对应的区域语义信息，其中，图像候选区域包括区域信息，区域信息包括图像候选区域在待定位图像中的位置信息，以及图像候选区域的尺寸信息；

当获取到N个图像候选区域所对应的区域语义信息时，根据N个区域语义信息生成区域语义信息集合。

本实施例中，图像区域定位装置在获取到图像候选区域集合之后，可以通过CNN产生每个图像候选区域的区域语义信息，其中，区域语义信息即为对图像候选区域的语义表示。具体地，假设图像候选区域集合定义{b₁,b₂,b₃.b₄...,b_n}，其中，每个图像候选区域包括区域信息b_i＝{x₁,y₁,w₁.h₁}，图像候选区域b_i表示图像候选区域集合中的一个图像候选区域，x₁和y₁表示图像候选区域在待定位图像中的位置信息，具体地，x₁表示图像候选区域在待定位图像中最顶点的横坐标位置信息，y₁表示图像候选区域在待定位图像中最顶点的纵坐标位置信息，w₁和h₁表示图像候选区域的尺寸信息，该尺寸信息是指图像候选区域相对于待定位图像的比例尺寸，w₁表示图像候选区域在待定位图像中宽度信息，h₁表示图像候选区域在待定位图像中高度信息。

将图像候选区域b_i输入至CNN，即得到如下表示：

I_i＝CNN(b_i)；

由此得到相应的区域语义信息I_i。基于上述方式，得到图像候选区域集合{b₁,b₂,b₃,b₄,...,b_n}所对应的区域语义信息集合{I₁,I₂,I₃,I₄,...,I_n}，n为大于或等于1，且小于或等于N的整数。

为了便于理解，CNN通常包括以下几种层：

卷积层(Convolutional layer)，卷积神经网路中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。

线性整流层(Rectified Linear Units layer,ReLU layer)，这一层神经的活性化函数(Activation function)使用线性整流(Rectified Linear Units,ReLU)。

池化层(Pooling layer)，通常在卷积层之后会得到维度很大的特征，将特征切成几个区域，取其最大值或平均值，得到新的且维度较小的特征。

全连接层(Fully-Connected layer),把所有局部特征结合变成全局特征，用来计算最后每一类的得分。

其次，本申请实施例中，提供了一种生成区域语义信息集合的方式，首先通过卷积神经网络获取图像候选区域所对应的区域语义信息，图像候选区域包括区域信息，区域信息包括图像候选区域在待定位图像中的位置信息，以及图像候选区域的尺寸信息，当获取到N个图像候选区域所对应的区域语义信息时，根据N个区域语义信息生成区域语义信息集合。通过上述方式，利用CNN能够提取每个图像候选区域的区域语义信息，CNN是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，从而对于大型图像处理有出色表现，由此提升信息提取的准确性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的图像区域定位的方法第二个可选实施例中，通过图卷积网络获取区域语义信息集合所对应的增强语义信息集合，可以包括：

从区域语义信息集合中获取第一区域语义信息以及第二区域语义信息，其中，第一区域语义信息为区域语义信息集合中任意一个区域语义信息，第二区域语义信息为区域语义信息集合中任意一个区域语义信息；

获取第一区域语义信息与第二区域语义信息之间的连接边强度；

对第一区域语义信息与第二区域语义信息之间的连接边强度进行归一化处理，得到归一化强度；

根据区域语义信息集合中各个区域语义信息之间的归一化强度，确定目标连接矩阵；

通过图卷积网络确定目标连接矩阵所对应的增强语义信息集合。

本实施例中，图像区域定位装置使用一个GCN完成来增强图像候选区域的语义表示。首先我们需要构建一个图，这个图里面的每个节点对应图像候选区域的区域语义信息。每个节点之间都存在相应的连接边，其连接信息的强弱来自于一个深度网络来进行预测：

其中，表示第一区域语义信息，表示第二区域语义信息，f_edge()表示一个深度网络，具体可以通过多层感知机(multi-layer perceptron)、向量內积或者余弦相似度来实现。e_ij表示第一区域语义信息与第二区域语义信息之间的连接边强度。接下来对e_ij进行归一化处理，得到归一化强度。然后根据区域语义信息集合中各个区域语义信息之间的归一化强度，确定目标连接矩阵，最后使用GCN生成目标连接矩阵所对应的增强语义信息集合。

图是一种数据格式，它可以用于表示社交网络、通信网络以及蛋白分子网络等，图中的节点表示网络中的个体，连边表示个体之间的连接关系。许多机器学习任务都需要用到图结构数据，因此GCN的出现为这些问题的解决提供了新的思路。可以通过三个步骤构建卷积分片：步骤一，从图中选择一个固定长度的节点序列；步骤二，对序列中的每个节点，收集固定大小的邻域集合；步骤三，对由当前节点及其对应的邻域构成的子图进行规范化，作为卷积结构的输入。通过上述三个步骤构建出所有的卷积片之后，利用卷积结构分别对每个分片进行操作。

其次，本申请实施例中，提供了一种通过GCN获取增强语义信息集合的方式，首先，从区域语义信息集合中获取第一区域语义信息以及第二区域语义信息，然后获取第一区域语义信息与第二区域语义信息之间的连接边强度，接下来对第一区域语义信息与第二区域语义信息之间的连接边强度进行归一化处理，得到归一化强度，再根据区域语义信息集合中各个区域语义信息之间的归一化强度，确定目标连接矩阵，最后通过图卷积网络确定目标连接矩阵所对应的增强语义信息集合。通过上述方式，利用GCN构建图像候选区域之间的语义关系，由此充分考虑到空间信息和语义关系，从而提升基于图像的定位性能。

可选地，在上述图3对应的第二个实施例的基础上，本申请实施例提供的图像区域定位的方法第三个可选实施例中，根据区域语义信息集合中各个区域语义信息之间的归一化强度，确定目标连接矩阵，可以包括：

根据区域语义信息集合中各个区域语义信息之间的归一化强度，生成连接矩阵；

根据连接矩阵以及单位阵生成目标连接矩阵。

本实施例中，图像区域定位装置可以先对第一区域语义信息与第二区域语义信息之间的连接边强度进行归一化处理，得到归一化强度。其中，基于上述实施例，第一区域语义信息与第二区域语义信息之间的连接边强度具体表示为：

其中，表示第一区域语义信息，表示第二区域语义信息，b₁、b₂、w₁和w₂均为GCN的模型参数，e_ij表示第一区域语义信息与第二区域语义信息之间的连接边强度。

相应的边信息可以进一步进行归一化操作，得到归一化强度：

其中，表示第一区域语义信息与第二区域语义信息之间的归一化强度。对每个区域语义信息进行遍历，可以得到相应的区域语义信息的连接信息，进而构建一个完整的连接矩阵：

为了进一步增强自身的信息，相应的完整的连接矩阵进一步添加上一个单位阵，从而得到目标连接矩阵：

再次，本申请实施例中，提供了一种根据区域语义信息集合中各个区域语义信息之间的归一化强度，确定目标连接矩阵的方式，即首先根据区域语义信息集合中各个区域语义信息之间的归一化强度，生成连接矩阵，然后根据连接矩阵以及单位阵生成目标连接矩阵。通过上述方式，采用归一化的处理手段，可以使物理系统数值的绝对值变成某种相对值关系，从而简化计算，缩小量值。此外，为了进一步增强自身的信息，相应的连接矩阵进一步添加上一个单位阵，从而形成目标连接矩阵。

可选地，在上述图3对应的第二个或第三个实施例的基础上，本申请实施例提供的图像区域定位的方法第四个可选实施例中，通过图卷积网络确定目标连接矩阵所对应的增强语义信息集合，可以包括：

采用如下方式计算增强语义信息集合：

其中，表示第k层的图卷积网络对应的第i个增强语义信息，表示第(k-1)层的图卷积网络对应的第j个增强语义信息，表示第k层的图卷积网络的第一网络参数，表示第k层的图卷积网络的第二网络参数，j∈neighboring(i)表示第j个节点属于第i个节点的邻居节点，E_ij表示目标连接矩阵中元素。

本实施例中，图像区域定位装置基于目标连接矩阵，使用GCN增强图像候选区域的语义表示：

其中，表示第k层的GCN的第一网络参数，表示第k层的GCN的第二网络参数，可以理解的是，GCN的网络参数在图卷积层与层之间是不共享的，但是在一个固定的卷积层之间，其网络参数可以共享，也可以不共享。J节点选择的是对应节点i的邻居节点。因为通过节点的语义相似度可以衡量其节点之间的相似度。因此，构建了一个全连接图结构，对应的是每一个节点都有其他节点相连。最后基于构建的目标连接矩阵，来更新相应的每个节点的语义表示。

在GCN中可以做多层图卷积处理，针对上述公式可以执行多次，公式中的参数可以是共享同一套网络参数，也可以不共享网络参数。

进一步地，本申请实施例中，提供了一种通过GCN确定目标连接矩阵所对应的增强语义信息集合的具体方式。通过上述方式，为基于GCN的计算提供了具体的计算方式，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的图像区域定位的方法第五个可选实施例中，获取待定位文本所对应的文本特征集合，可以包括：

获取待定位文本；

根据待定位文本获取文本向量序列，其中，文本向量序列包括T个词向量，每个词向量对应于一个词语；

对文本向量序列中的每个词向量进行编码处理，得到文本特征；

当获取到T个词向量所对应的文本特征时，根据T个文本特征生成文本特征集合。

本实施例中，图像区域定位装置首先获取待定位文本，待定位文本可以是用户输入的一段文本，也可以是用户输入的一段语音，该语音被转换为文本，还可以是后台提取的一段文本。在获取到待定位文本之后，提取该待定位文本中的每个词语，然后对每个词语进行词向量的构建，假设待定位文本包括T个词语，那么可以得到T个词向量，这T个词向量构成文本向量序列。图像区域定位装置采用长短期记忆网络(Long Short-Term Memory，LSTM)结构对文本向量序列进行编码，具体地，采用LSTM结构对每个词向量进行编码处理，从而得到T个文本特征，从而生成文本特征集合。

在自然语言处理任务中，首先需要考虑词如何在计算机中表示。通常有两种表示方式，分别为离散表示(one-hot representation)和分布式表示(distributionrepresentation)。one-hot representation把每个词表示为一个长向量。这个向量的维度是词表大小，向量中只有一个维度的值为1，其余维度为0，这个维度就代表了当前的词，本申请中的词向量维度可以是300维。词嵌入(word embedding)指的是将词转化成一种分布式表示，又称词向量，生成词向量的方法有很多，这些方法都依照一个思想，任一词的含义可以用它的周边词来表示。生成词向量的方式可分为：基于统计的方法和基于语言模型的方法。

其次，本申请实施例中，提供了一种获取文本特征集合的方法，即首先获取待定位文本，然后根据待定位文本获取文本向量序列，其中，文本向量序列包括T个词向量，每个词向量对应于一个词语，接下来对文本向量序列中的每个词向量进行编码处理，得到文本特征，当获取到T个词向量所对应的文本特征时，根据T个文本特征生成文本特征集合。通过上述方式，可以将待定位文本表示为特征形式，进而便于进行后续的模型预测，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的第五个实施例的基础上，本申请实施例提供的图像区域定位的方法第六个可选实施例中，对文本向量序列中的每个词向量进行编码处理，得到文本特征，可以包括：

采用如下方式获取文本特征：

h_t＝LSTM(w_t,h_t-1)；

其中，h_t表示文本特征集合中的第t个文本特征，LSTM()表示采用长短期记忆LSTM网络进行编码，w_t表示文本向量序列中的第t个词向量，h_t-1表示文本特征集合中的第(t-1)个文本特征。

本实施例中，图像区域定位装置可以通过LSTM结构对每个词向量进行编码处理，得到文本特征。对于输入的待定位文本E＝{e₁,e₂,...,e_T}，其中，T表示待定位文本中有T个词语，e_t表示待定位文本中的第t个词语。首先可以或每个词语的词向量表示，得到待定位文本的词向量表示，即得到文本向量序列{w₁,w₂,...,w_T}，其中，每个词向量的维度可以是300，对于待定位文本而言，使用LSTM结构的循环神经网络来对其进行编码，即：

h_t＝LSTM(w_t,h_t-1)；

LSTM中隐状态的维度可以设置为512，经过处理后得到待定位文本的特征表示，即得到文本特征集合h＝{h₁,h₂,...,h_T}，其中，LSTM处理的具体方式如下：

c_t＝f_t⊙c_t-1+i_t⊙g_t；

h_t＝o_t⊙tanh(c_t)；

其中，w_t表示文本向量序列中的第t个词向量，h_t-1表示文本特征集合中的第(t-1)个文本特征，i_t表示输入门，f_t表示遗忘门，o_t表示输出门，h_t表示隐状态，σ是sigmoid函数，tanh()表示双曲函数，g_t表示记忆信息，c_t表示LSTM参数，⊙表示点乘，T表示变换映射矩阵。

LSTM是长期的保存输入。一种称作记忆细胞的特殊单元类似累加器和门控神经元，它在下一个时间步长将拥有一个权值并联接到自身，拷贝自身状态的真实值和累积的外部信号，但这种自联接是由另一个单元学习并决定何时清除记忆内容的乘法门控制的。

再次，本申请实施例中，提供了一种获取文本特征的方式，即采用LSTM结构的循环神经网络对词向量进行编码。通过上述方式，利用LSTM结构的网络可以解决梯度反传过程由于逐步缩减而产生的梯度消失问题。具体到语言处理任务中，LSTM适合用于处理与时间序列高度相关的问题，例如机器翻译、对话生成、编码以及解码等。

结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图4，本申请实施例中模型训练的方法一个实施例包括：

201、获取待训练文本集合以及待训练图像候选区域集合，其中，待训练文本集合包括第一待训练文本以及第二待训练文本，待训练图像候选区域集合包括第一待训练图像候选区域以及第二待训练图像候选区域，第一待训练文本与第一待训练图像候选区域具有匹配关系，且第一待训练文本与第二待训练图像候选区域不具有匹配关系，第二待训练文本与第二待训练图像候选区域具有匹配关系，且第二待训练文本与第一待训练图像候选区域不具有匹配关系；

本实施例中，模型训练装置首先获取待训练文本集合以及待训练图像候选区域集合，其中，待训练文本集合包括第一待训练文本以及第二待训练文本，待训练图像候选区域集合包括第一待训练图像候选区域以及第二待训练图像候选区域。此时，将具有匹配关系的第一待训练文本与第一待训练图像候选区域作为正样本，将具有匹配关系的第二待训练文本与第二待训练图像候选区域作为正样本。将不具有匹配关系的第一待训练文本与第二待训练图像候选区域作为负样本，将不具有匹配关系的第二待训练文本与第一待训练图像候选区域作为负样本，

可以理解的是，模型训练装置部署于服务器。

202、根据第一待训练文本、第二待训练文本、第一待训练图像候选区域以及第二待训练图像候选区域，确定目标损失函数；

本实施例中，模型训练装置根据正样本和负样本学习自然语句与图像候选区域的匹配关系，以此构建目标损失函数。目标损失函数主要用于衡量候选图像区域与自然语句之间的相似度。

203、采用目标损失函数对待训练图像区域定位网络模型进行训练，得到图像区域定位网络模型，其中，图像区域定位网络模型用于根据文本特征集合与增强语义信息确定图像候选区域与待定位文本之间的匹配关系，增强语义信息与图像候选区域具有对应关系，文本特征集合与待定位文本具有对应关系。

本实施例中，模型训练装置使用构建得到的目标损失函数对待训练图像区域定位网络模型进行训练，进而得到图像区域定位网络模型。使用图像区域定位网络模型可以对图像候选区域与待定位文本之间的匹配度进行预测，匹配度越高，表示关联程度越高。

本申请实施例中，提供了一种模型训练的方法，首先获取待训练文本集合以及待训练图像候选区域集合，其中，待训练文本集合包括第一待训练文本以及第二待训练文本，待训练图像候选区域集合包括第一待训练图像候选区域以及第二待训练图像候选区域，然后根据第一待训练文本、第二待训练文本、第一待训练图像候选区域以及第二待训练图像候选区域，确定目标损失函数，最后采用目标损失函数对待训练图像区域定位网络模型进行训练，得到图像区域定位网络模型。通过上述方式，能够训练得到用于确定图像候选区域与文本之间匹配关系的图像区域定位网络模型，且所采用的目标函数能够对图像候选区域与文本进行相似度衡量，从而学习得到文本和图像候选区域之间的匹配关系，由此，提升方案的可行性和可操作性。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的模型训练的方法第一个可选实施例中，根据第一待训练文本、第二待训练文本、第一待训练图像候选区域以及第二待训练图像候选区域，确定目标损失函数，可以包括：

采用如下方式确定目标损失函数：

其中，L表示目标损失函数，表示第一待训练图像候选区域，表示第一待训练文本，表示第二待训练图像候选区域，表示第二待训练文本，d()表示待训练数据对，max()表示取最大值，λ₁表示第一参数控制权重，λ₂表示第二参数控制权重，u₁表示第一预设阈值，u₂表示第二预设阈值。

本实施例中，将介绍模型训练装置构建的目标损失函数，基于正样本和负样本，构建得到的目标损失函数表示为：

其中，表示正样本，即表示具有语义关系的图像候选区域和自然语言对，和表示负样本，即表示不相关的图像候选区域和自然语言对。是正样本，针对取一个对应的负样本这个匹配函数的学习使得正样本的匹配关系高于负样本的匹配关系。是正样本，针对取一个对应的负样本这个匹配函数的学习使得正样本的匹配关系高于负样本的匹配关系。

其次，本申请实施例中，提供了根据第一待训练文本、第二待训练文本、第一待训练图像候选区域以及第二待训练图像候选区域，确定目标损失函数的方式。通过上述方式，定义的目标损失函数从两个不同的方向来描述图像与自然语言的匹配关系，其中，一个方向是图像候选区域去关联自然语言，另一个方向是自然语言去关联图像候选区域。这个目标损失函数设计的主要目标是使得语义关联的图像候选区域与自然语言对的相似度，高于非语义关联的图像候选区域与自然语言对。从而提升模型的训练准确度。

下面对本申请中的图像区域定位装置进行详细描述，请参阅图5，图5为本申请实施例中图像区域定位装置一个实施例示意图，图像区域定位装置30包括：

获取模块301，用于获取待定位图像中的图像候选区域集合，其中，所述图像候选区域集合中包括N个图像候选区域，所述N为大于或等于1的整数；

生成模块302，用于根据所述获取模块301获取的所述图像候选区域集合生成区域语义信息集合，其中，所述区域语义信息集合中包括N个区域语义信息，每个区域语义信息对应一个图像候选区域；

所述获取模块301，还用于通过图卷积网络获取所述生成模块302生成的所述区域语义信息集合所对应的增强语义信息集合，其中，所述增强语义信息集合中包括N个增强语义信息，每个增强语义信息对应于一个区域语义信息，所述图卷积网络用于构建各个区域语义信息之间的关联关系；

所述获取模块301，还用于获取待定位文本所对应的文本特征集合，其中，所述待定位文本包括T个词语，所述文本特征集合包括T个词语特征，每个词语对应于一个词语特征，所述T为大于或等于1的整数；

所述获取模块301，还用于通过图像区域定位网络模型获取所述文本特征集合与所述每个增强语义信息的匹配度，其中，所述图像区域定位网络模型用于确定所述图像候选区域与所述待定位文本之间的匹配关系；

确定模块303，用于根据所述获取模块301获取的所述文本特征集合与所述每个增强语义信息的匹配度，从所述图像候选区域集合中确定目标图像候选区域。

本实施例中，获取模块301获取待定位图像中的图像候选区域集合，其中，所述图像候选区域集合中包括N个图像候选区域，所述N为大于或等于1的整数，生成模块302根据所述获取模块301获取的所述图像候选区域集合生成区域语义信息集合，其中，所述区域语义信息集合中包括N个区域语义信息，每个区域语义信息对应一个图像候选区域，所述获取模块301通过图卷积网络获取所述生成模块302生成的所述区域语义信息集合所对应的增强语义信息集合，其中，所述增强语义信息集合中包括N个增强语义信息，每个增强语义信息对应于一个区域语义信息，所述图卷积网络用于构建各个区域语义信息之间的关联关系，所述获取模块301获取待定位文本所对应的文本特征集合，其中，所述待定位文本包括T个词语，所述文本特征集合包括T个词语特征，每个词语对应于一个词语特征，所述T为大于或等于1的整数，所述获取模块301通过图像区域定位网络模型获取所述文本特征集合与所述每个增强语义信息的匹配度，其中，所述图像区域定位网络模型用于确定所述图像候选区域与所述待定位文本之间的匹配关系，确定模块303根据所述获取模块301获取的所述文本特征集合与所述每个增强语义信息的匹配度，从所述图像候选区域集合中确定目标图像候选区域。

本申请实施例中，提供了一种图像区域定位装置，首先获取待定位图像中的图像候选区域集合，其中，图像候选区域集合中包括N个图像候选区域，然后根据图像候选区域集合生成区域语义信息集合，每个区域语义信息对应一个图像候选区域，再通过图卷积网络获取区域语义信息集合所对应的增强语义信息集合，每个增强语义信息对应于一个区域语义信息，图卷积网络用于构建各个区域语义信息之间的关联关系，此外，获取待定位文本所对应的文本特征集合，接下来可以通过图像区域定位网络模型获取文本特征集合与每个增强语义信息的匹配度，最后根据文本特征集合与每个增强语义信息的匹配度，从图像候选区域集合中确定目标图像候选区域。通过上述方式，采用图卷积网络能够有效地增强图像候选区域之间的语义表示，并且考虑到了各个图像候选区域之间的空间关系，从而有利于提升图像区域定位的准确性，进而提升对图像的理解能力。

可选地，在上述图5所对应的实施例的基础上，本申请实施例提供的图像区域定位装置30的另一实施例中，

所述生成模块302，具体用于通过卷积神经网络获取所述图像候选区域所对应的区域语义信息，其中，所述图像候选区域包括区域信息，所述区域信息包括所述图像候选区域在所述待定位图像中的位置信息，以及所述图像候选区域的尺寸信息；

所述获取模块301，具体用于从所述区域语义信息集合中获取第一区域语义信息以及第二区域语义信息，其中，所述第一区域语义信息为所述区域语义信息集合中任意一个区域语义信息，所述第二区域语义信息为所述区域语义信息集合中任意一个区域语义信息；

所述获取模块301，具体用于根据所述区域语义信息集合中各个区域语义信息之间的归一化强度，生成连接矩阵；

根据所述连接矩阵以及单位阵生成所述目标连接矩阵。

其中，所述表示第k层的图卷积网络对应的第i个增强语义信息，所述表示第(k-1)层的图卷积网络对应的第j个增强语义信息，所述表示所述第k层的图卷积网络的第一网络参数，所述表示所述第k层的图卷积网络的第二网络参数，所述j∈neighboring(i)表示第j个节点属于第i个节点的邻居节点，所述E_ij表示所述目标连接矩阵中元素。

所述获取模块301，具体用于获取所述待定位文本；

所述获取模块301，具体用于采用如下方式获取所述文本特征：

h_t＝LSTM(w_t,h_t-1)；

下面对本申请中的模型训练装置进行详细描述，请参阅图6，图6为本申请实施例中模型训练装置一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取待训练文本集合以及待训练图像候选区域集合，其中，所述待训练文本集合包括第一待训练文本以及第二待训练文本，所述待训练图像候选区域集合包括第一待训练图像候选区域以及第二待训练图像候选区域，所述第一待训练文本与所述第一待训练图像候选区域具有匹配关系，且所述第一待训练文本与所述第二待训练图像候选区域不具有匹配关系，所述第二待训练文本与所述第二待训练图像候选区域具有匹配关系，且所述第二待训练文本与所述第一待训练图像候选区域不具有匹配关系；

确定模块402，用于根据所述获取模块401获取的所述第一待训练文本、所述第二待训练文本、所述第一待训练图像候选区域以及所述第二待训练图像候选区域，确定目标损失函数；

训练模块403，用于采用所述确定模块402确定的所述目标损失函数对待训练图像区域定位网络模型进行训练，得到图像区域定位网络模型，其中，所述图像区域定位网络模型用于根据文本特征集合与增强语义信息确定图像候选区域与待定位文本之间的匹配关系，所述增强语义信息与所述图像候选区域具有对应关系，所述文本特征集合与所述待定位文本具有对应关系。

本实施例中，获取模块401获取待训练文本集合以及待训练图像候选区域集合，其中，所述待训练文本集合包括第一待训练文本以及第二待训练文本，所述待训练图像候选区域集合包括第一待训练图像候选区域以及第二待训练图像候选区域，所述第一待训练文本与所述第一待训练图像候选区域具有匹配关系，且所述第一待训练文本与所述第二待训练图像候选区域不具有匹配关系，所述第二待训练文本与所述第二待训练图像候选区域具有匹配关系，且所述第二待训练文本与所述第一待训练图像候选区域不具有匹配关系，确定模块402根据所述获取模块401获取的所述第一待训练文本、所述第二待训练文本、所述第一待训练图像候选区域以及所述第二待训练图像候选区域，确定目标损失函数，训练模块403采用所述确定模块402确定的所述目标损失函数对待训练图像区域定位网络模型进行训练，得到图像区域定位网络模型，其中，所述图像区域定位网络模型用于根据文本特征集合与增强语义信息确定图像候选区域与待定位文本之间的匹配关系，所述增强语义信息与所述图像候选区域具有对应关系，所述文本特征集合与所述待定位文本具有对应关系。

本申请实施例中，提供了一种模型训练装置，首先该模型训练装置获取待训练文本集合以及待训练图像候选区域集合，其中，待训练文本集合包括第一待训练文本以及第二待训练文本，待训练图像候选区域集合包括第一待训练图像候选区域以及第二待训练图像候选区域，然后根据第一待训练文本、第二待训练文本、第一待训练图像候选区域以及第二待训练图像候选区域，确定目标损失函数，最后采用目标损失函数对待训练图像区域定位网络模型进行训练，得到图像区域定位网络模型。通过上述方式，能够训练得到用于确定图像候选区域与文本之间匹配关系的图像区域定位网络模型，且所采用的目标函数能够对图像候选区域与文本进行相似度衡量，从而学习得到文本和图像候选区域之间的匹配关系，由此，提升方案的可行性和可操作性。

可选地，在上述图6所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

所述确定模块402，具体用于采用如下方式确定所述目标损失函数：

本发明实施例还提供了另一种图像区域定位装置，如图7所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端设备(point of sales，POS)、车载电脑等任意终端设备设备，以终端设备为手机为例：

图7示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图7，手机包括：射频(radio frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图7中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图7中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，可选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端设备所包括的处理器580还具有以下功能：

可选地，处理器580具体用于执行如下步骤：

通过卷积神经网络获取所述图像候选区域所对应的区域语义信息，其中，所述图像候选区域包括区域信息，所述区域信息包括所述图像候选区域在所述待定位图像中的位置信息，以及所述图像候选区域的尺寸信息；

可选地，处理器580具体用于执行如下步骤：

从所述区域语义信息集合中获取第一区域语义信息以及第二区域语义信息，其中，所述第一区域语义信息为所述区域语义信息集合中任意一个区域语义信息，所述第二区域语义信息为所述区域语义信息集合中任意一个区域语义信息；

可选地，处理器580具体用于执行如下步骤：

根据所述区域语义信息集合中各个区域语义信息之间的归一化强度，生成连接矩阵；

根据所述连接矩阵以及单位阵生成所述目标连接矩阵。

可选地，处理器580具体用于执行如下步骤：

采用如下方式计算所述增强语义信息集合：

可选地，处理器580具体用于执行如下步骤：

获取所述待定位文本；

可选地，处理器580具体用于执行如下步骤：

采用如下方式获取所述文本特征：

h_t＝LSTM(w_t,h_t-1)；

图8是本发明实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。

在本发明实施例中，该服务器所包括的CPU 622还具有以下功能：

可选地，CPU 622具体用于执行如下步骤：

根据所述连接矩阵以及单位阵生成所述目标连接矩阵。

可选地，CPU 622具体用于执行如下步骤：

采用如下方式计算所述增强语义信息集合：

可选地，CPU 622具体用于执行如下步骤：

获取所述待定位文本；

可选地，CPU 622具体用于执行如下步骤：

采用如下方式获取所述文本特征：

h_t＝LSTM(w_t,h_t-1)；

可选地，CPU 622具体用于执行如下步骤：

采用如下方式确定所述目标损失函数：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像区域定位的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述图像候选区域集合生成区域语义信息集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述通过图卷积网络获取所述区域语义信息集合所对应的增强语义信息集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述区域语义信息集合中各个区域语义信息之间的归一化强度，确定目标连接矩阵，包括：

根据所述连接矩阵以及单位阵生成所述目标连接矩阵。

5.根据权利要求3或4所述的方法，其特征在于，所述通过所述图卷积网络确定所述目标连接矩阵所对应的所述增强语义信息集合，包括：

采用如下方式计算所述增强语义信息集合：

6.根据权利要求1所述的方法，其特征在于，所述获取待定位文本所对应的文本特征集合，包括：

获取所述待定位文本；

7.根据权利要求6所述的方法，其特征在于，所述对所述文本向量序列中的每个词向量进行编码处理，得到文本特征，包括：

采用如下方式获取所述文本特征：

h_t＝LSTM(w_t,h_t-1)；

8.一种模型训练的方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述第一待训练文本、所述第二待训练文本、所述第一待训练图像候选区域以及所述第二待训练图像候选区域，确定目标损失函数，包括：

采用如下方式确定所述目标损失函数：

10.一种图像区域定位装置，其特征在于，包括：

11.一种模型训练装置，其特征在于，包括：

12.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

13.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

14.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

15.一种图像区域定位的方法，其特征在于，包括：

接收图像定位指令；