CN109271999B

CN109271999B - 图像的处理方法、装置和计算机可读存储介质

Info

Publication number: CN109271999B
Application number: CN201811035885.3A
Authority: CN
Inventors: 潘滢炜; 姚霆; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2020-12-22
Anticipated expiration: 2038-09-06
Also published as: CN109271999A

Abstract

本公开涉及一种图像的处理方法、装置和计算机可读存储介质，涉及人工智能技术领域。该方法包括：将待处理图像划分为多个目标区域，每个目标区域中包含一个从待处理图像中检测到的目标；根据获取的各目标区域的特征向量，确定不同的目标区域之间的行为关系；根据获取的各目标区域的位置信息，确定不同的目标区域之间的空间关系；根据特征向量、行为关系和空间关系，确定待处理图像的描述文本。本公开的技术方案能够提高图像描述的准确性。

Description

图像的处理方法、装置和计算机可读存储介质

技术领域

本公开涉及人工智能技术领域，特别涉及一种图像的处理方法、图像的装置和计算机可读存储介质。

背景技术

目前，人工智能技术已经能够较准确地识别图像中的物体。但是，想要生动、准确地描绘图像内容，不仅需要敏感捕捉图像中物体，还要洞悉各物体间的联系。因此，探索物体间联系从而对图像进行完整描述一直是业界的难点。

在相关技术中，通过学习视觉模型进行图像理解，能够用完整的自然语言对图像进行描述。例如，采用CNN(Convolutional Neural Network，卷积神经网络)和RNN(Recurrent Neural Network，循环神经网络)获取图像的语言描述。

发明内容

本公开的发明人发现上述相关技术中存在如下问题：无法充分挖掘物体之间的关系，导致对图像描述的准确性低。

鉴于此，本公开提出了一种图像的处理技术方案，能够提高图像描述的准确性。

根据本公开的一些实施例，提供了一种图像的处理方法，包括：将待处理图像划分为多个目标区域，每个所述目标区域中包含一个从所述待处理图像中检测到的目标；根据获取的各所述目标区域的特征向量，确定不同的所述目标区域之间的行为关系；根据获取的各所述目标区域的位置信息，确定不同的所述目标区域之间的空间关系；根据所述特征向量、所述行为关系和所述空间关系，确定所述待处理图像的描述文本。

在一些实施例中，针对所述多个目标区域中的任意两个第一目标区域和第二目标区域，将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的行为关系输入第一机器学习模型，确定所述第一目标区域的第一描述向量；将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的空间关系输入所述第一机器学习模型，确定所述第一目标区域的第二描述向量；将各所述目标区域的所述第一描述向量和所述第二描述向量输入第二机器学习模型，确定所述待处理图像的描述文本。

在一些实施例中，所述行为关系为所述第一目标区域中的第一目标向所述第二目标区域中的第二目标发出的动作，或者是所述第一目标和所述第二目标之间的相互动作，所述行为关系的方向由所述第一目标区域指向所述第二目标区域。

在一些实施例中，所述空间关系为所述第一目标区域相对于所述第二目标区域的位置，所述空间关系的方向由所述第一目标区域指向所述第二目标区域。

在一些实施例中，根据各所述目标区域的第一描述向量，确定各候选词的第一候选概率；根据各所述目标区域的第二描述向量，确定所述各候选词的第二候选概率；根据所述第一候选概率和所述第二候选概率的加权和，确定所述各候选词的综合候选概率；根据所述各候选词的综合候选概率，确定所述描述文本。

在一些实施例中，根据所述行为关系的方向确定第一转移矩阵；根据所述行为关系的类型确定第一偏移向量；将所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量带入激活函数，确定所述第一描述向量。

在一些实施例中，根据所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量，确定所述行为关系的权重因子，所述行为关系的权重因子与所述行为关系的重要程度正相关；将所述行为关系的权重因子带入所述激活函数，确定所述第一描述向量。

在一些实施例中，根据所述空间关系的方向确定第二转移矩阵；根据所述空间关系的类型确定第二偏移向量；将所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量带入激活函数，确定所述第二描述向量。

在一些实施例中，根据所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量，确定所述空间关系的权重因子，所述空间关系的权重因子与所述空间关系的重要程度正相关；将所述空间关系的权重因子带入所述激活函数，确定所述第二描述向量。

在一些实施例中，根据各所述目标区域的第一描述向量和所有所述第一描述向量的均值，确定各所述目标区域对于所述各候选词的第一关注因子；根据所述第一关注因子确定所述各候选词的第一候选概率。

在一些实施例中，根据各所述目标区域的第二描述向量和所有所述第二描述向量的均值，确定各所述目标区域对于所述各候选词的第二关注因子；根据所述第二关注因子确定所述各候选词的第二候选概率。

在一些实施例中，获取所述待处理图像中的联合区域，所述联合区域包含第一目标区域和第二目标区域；获取所述联合区域的特征向量，作为联合特征向量；根据所述联合特征向量、所述第一目标区域的特征向量和所述第二目标区域的特征向量，确定所述第一目标区域和所述第二目标区域的行为关系。

在一些实施例中，所述行为关系包括无行为类型和多种有行为类型；根据所述特征向量，确定所述无行为类型和所述多种有行为类型相应的分类概率；在所述无行为类型的分类概率大于等于阈值的情况下，确定所述行为关系为所述无行为类型；在所述无行为类型的分类概率小于所述阈值的情况下，将所述分类概率最大的有行为类型确定为所述行为关系。

在一些实施例中，所述位置信息包括所述不同的目标区域之间的交并比、相对距离和相对角度。

根据本公开的另一些实施例，提供一种图像的处理装置，包括：区域划分单元，用于将待处理图像划分为多个目标区域，每个所述目标区域中包含一个从所述待处理图像中检测到的目标；关系确定单元，用于根据获取的各所述目标区域的特征向量，确定不同的所述目标区域之间的行为关系，根据获取的各所述目标区域的位置信息，确定不同的所述目标区域之间的空间关系；描述确定单元，用于根据所述特征向量、所述行为关系和所述空间关系，确定所述待处理图像的描述文本。

在一些实施例中，所述描述确定单元针对所述多个目标区域中的任意两个第一目标区域和第二目标区域，将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的行为关系输入第一机器学习模型，确定所述第一目标区域的第一描述向量，将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的空间关系输入所述第一机器学习模型，确定所述第一目标区域的第二描述向量，将各所述目标区域的所述第一描述向量和所述第二描述向量输入第二机器学习模型，确定所述待处理图像的描述文本。

在一些实施例中，所述描述确定单元根据各所述目标区域的第一描述向量，确定各候选词的第一候选概率，根据各所述目标区域的第二描述向量，确定所述各候选词的第二候选概率，根据所述第一候选概率和所述第二候选概率的加权和，确定所述各候选词的综合候选概率，根据所述各候选词的综合候选概率，确定所述描述文本。

在一些实施例中，所述描述确定单元根据所述行为关系的方向确定第一转移矩阵，根据所述行为关系的类型确定第一偏移向量，将所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量带入激活函数，确定所述第一描述向量。

在一些实施例中，所述描述确定单元根据所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量，确定所述行为关系的权重因子，所述行为关系的权重因子与所述行为关系的重要程度正相关，将所述行为关系的权重因子带入所述激活函数，确定所述第一描述向量。

在一些实施例中，所述描述确定单元根据所述空间关系的方向确定第二转移矩阵，根据所述空间关系的类型确定第二偏移向量，将所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量带入激活函数，确定所述第二描述向量。

在一些实施例中，所述描述确定单元根据所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量，确定所述空间关系的权重因子，所述空间关系的权重因子与所述空间关系的重要程度正相关，将所述空间关系的权重因子带入所述激活函数，确定所述第二描述向量。

在一些实施例中，所述描述确定单元根据各所述目标区域的第一描述向量和所有所述第一描述向量的均值，确定各所述目标区域对于所述各候选词的第一关注因子，根据所述第一关注因子确定所述各候选词的第一候选概率，根据各所述目标区域的第二描述向量和所有所述第二描述向量的均值，确定各所述目标区域对于所述各候选词的第二关注因子，根据所述第二关注因子确定所述各候选词的第二候选概率。

在一些实施例中，所述关系确定单元获取所述待处理图像中的联合区域，所述联合区域包含第一目标区域和第二目标区域，获取所述联合区域的特征向量，作为联合特征向量，根据所述联合特征向量、所述第一目标区域的特征向量和所述第二目标区域的特征向量，确定所述第一目标区域和所述第二目标区域的行为关系。

在一些实施例中，所述行为关系包括无行为类型和多种有行为类型，关系确定单元根据所述特征向量，确定所述无行为类型和所述多种有行为类型相应的分类概率，在所述无行为类型的分类概率大于等于阈值的情况下，确定所述行为关系为所述无行为类型，在所述无行为类型的分类概率小于所述阈值的情况下，将所述分类概率最大的有行为类型确定为所述行为关系。

根据本公开的又一些实施例，提供一种图像的处理装置，包括：存储器；和耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器装置中的指令，执行上述任一个实施例中的图像的处理方法。

根据本公开的再一些实施例，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一个实施例中的图像的处理方法。

在上述实施例中，基于区域的特征向量获取图像中目标之间的行为关系和空间关系，并在此基础上对图像进行语言描述。这样，就可以从不同维度上深度挖掘目标之间的联系，从而提高图像描述的准确性。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1示出本公开的图像的处理方法的一些实施例的流程图；

图2示出图1的步骤S20的一些实施例的流程图；

图3示出本公开的联合区域的一些实施例的示意图；

图4示出图1的步骤S20的另一些实施例的流程图；

图5示出图1的步骤S40的一些实施例的流程图；

图6示出图5的步骤S410的一些实施例的流程图；

图7示出图1的步骤S40的另一些实施例的流程图；

图8示出图7的步骤S421的一些实施例的流程图；

图9a-9c示出了本公开的图像的处理方法的一些实施例的示意图；

图10示出本公开的图像的处理装置的一些实施例的框图；

图11示出本公开的图像的处理装置的另一些实施例的框图；

图12示出本公开的图像的处理装置的又一些实施例的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1示出本公开的图像的处理方法的一些实施例的流程图。

如图1所示，该方法包括：步骤S10，划分目标区域；步骤S20，确定行为关系；步骤S30，确定空间关系；和步骤S40，确定描述文本。

在步骤S10中，将待处理图像划分为多个目标区域，每个目标区域中包含一个从待处理图像中检测到的目标。

在一些实施例中，可以采用机器学习的方法，如Faster R-CNN(Faster Region-based Convolutional Network，快速区域卷积神经网络)对待处理图像进行目标检测。然后，采用方框标注检测出来的目标所在的区域，从而将待处理图像划分为多个目标区域。这样，可以将图像描述转化为对多个目标区域之间关系的描述，从而提高图像描述的准确性。

在步骤S20中，根据获取的各目标区域的特征向量，确定不同的目标区域之间的行为关系。行为关系也可以叫做语义关系(Semantic Object Relationship)。

在一些实施例中，行为关系为第一目标区域中的第一目标向第二目标区域中的第二目标发出的动作，或者是第一目标和第二目标之间的相互动作。行为关系可以具有方向，行为关系的方向由第一目标区域指向第二目标区域。行为关系的方向可以通过训练后的机器学习模型确定。

例如，行为关系的形式可以是：主语-谓语-宾语，主语为表示第一目标区域的名词，宾语为表示第二目标区域的名词，谓语是主语向宾语发出的动作，或者是主语和宾语之间的相互动作，行为关系的方向由主语指向谓语。在行为关系中增加方向信息，可以深度挖掘目标之间的关系，更准确地对行为关系进行描述，从而提高图像描述的准确性。

在一些实施例中，可以通过图2中的步骤确定行为关系。

图2示出图1的步骤S20的一些实施例的流程图。

如图2所示，步骤S20包括：步骤S210，获取联合区域；步骤S220，获取联合特征向量；步骤230，确定行为关系。

在步骤S210中，获取待处理图像中的联合区域，联合区域包含第一目标区域和第二目标区域。例如，联合区域的示意图如图3所示。

图3示出本公开的联合区域的一些实施例的示意图。

如图3所示，待处理图片30为一个人骑在自行车上。可以利用机器学习方法确定待处理图片30中的目标区域31和目标区域32。例如，可以基于ResNet-101的网络结构构建Faster R-CNN，利用Faster R-CNN确定目标区域31和目标区域32。然后，可以建立包含目标区域31和目标区域32的联合区域33。例如，联合区域33可以是能够包含目标区域31和目标区域32的最小矩形框。

确定了联合区域33之后可以通过图2中的步骤S220、S230确定行为关系。

在步骤S220中，获取联合区域的特征向量，作为联合特征向量。例如，可以通过Faster R-CNN中的Res4b22层、RoI pooling层和Pool5层确定待处理图片中的各目标区域的特征向量和各联合区域的联合特征向量。

在一些实施例中，可以将待处理图像中的目标区域逐个取出，与其他目标区域组成区域对。例如，待处理图像中共有K个目标区域，则可以将K个目标区域组合成K(K-1)个区域对，即，区域对中的目标区域具有方向。例如，可以确定目标区域i和目标区域j组成的区域对与目标区域j和目标区域i组成的区域对是不同的区域对。

在一些实施例中，可以提取目标区域i的特征向量v_i、目标区域j的特征向量v_j、目标区域i和目标区域j的联合区域的特征向量v_ij。特征向量可以是D_v维的向量，例如D_v＝2048。

在步骤230中，根据联合特征向量、第一目标区域的特征向量和第二目标区域的特征向量，确定第一目标区域和第二目标区域的行为关系。

在一些实施例中，可以将v_i、v_j和v_ij输入到Faster R-CNN的Concat层拼接在一起，然后将拼接结果输入到Classification层进行分类，以确定行为关系。

在一些实施例中，可以通过图4中的步骤确定行为关系。

图4示出图1的步骤S20的另一些实施例的流程图。

如图4所示，步骤S20包括：步骤S210，获取联合区域；步骤S220，获取联合特征向量；步骤S221，确定分类概率；和步骤230，确定行为关系。步骤S210、步骤S220与上述实施例相同，在此不再赘述。

在步骤S221中，根据特征向量，确定无行为类型和多种有行为类型相应的分类概率。例如，行为关系可以包括无行为类型和多种有行为类型。无行为类型(non-relation)，即两个目标区域之间没有行为关系。有行为类型，例如可以是拿(carrying)、吃(eating)、骑(riding)、穿(wearing)等动作。

在步骤230中，在无行为类型的分类概率大于等于阈值的情况下，确定行为关系为无行为类型。在无行为类型的分类概率小于阈值的情况下，将分类概率最大的有行为类型确定为行为关系。阈值可以根据实际需要进行设置，例如阈值可以是0.5。

在一些实施例中，可以根据获取的特征向量和相应的行为关系，构建行为关系图。例如，行为关系图为G_sem＝(V,ε_sem)，V为包含了所有特征区域的特征向量和所有联合区域的特征向量的集合(例如包含v_i、v_j和v_ij等)，ε_sem为包含所有行为关系的集合，G_sem代表的V和ε_sem中元素的对应关系。

在确定了行为关系后，可以继续通过图1中的步骤S30、和S40对待处理图片进行描述。

在步骤S30中，根据获取的述目标区域的位置信息，确定不同的目标区域之间的空间关系。例如，位置信息包括不同的目标区域之间的交并比(Intersection-over-Union，IoU)、相对距离和相对角度。例如，可以计算不同目标区域的中心连线与水平线之间的角度作为相对角度，可以计算不同目标区域的中心连线的长度作为相对距离。

在一些实施例中，空间关系为第一目标区域相对于第二目标区域的位置，空间关系的方向由第一目标区域指向第二目标区域。空间关系的方向可以通过训练后的机器学习模型确定。

在空间关系中增加方向信息，可以深度挖掘目标之间的关系，更准确地对行为关系进行描述，从而提高图像描述的准确性。

在一些实施例中，空间关系可以包括位于内部(inside)、覆盖(cover)、重叠(overlap)和位于一侧(或定义为其他关系)。对于目标区域i和目标区域j，可以建立目标区域i指向目标区域j的空间关系。

例如，在目标区域i完全位于目标区域j之内的情况下，空间关系为位于内部；在目标区域i完全被目标区域j覆盖的情况下，空间关系为覆盖；在目标区域i的面积与目标区域j的面积的交并比大于交并比阈值的情况下，空间关系为重叠。

在一些实施例中，在目标区域i与目标区域j的相对距离与待处理图像对角线的长度的比值

小于等于预设的比例阈值(例如，可以设为0.5)，而且交并比IoU小于等于交并比阈值的情况下，空间关系为位于一侧。例如，可以根据相对角度为位于一侧的空间关系添加索引。例如，目标区域i与目标区域j的相对角度为θ_ij，可以为位于一侧的空间关系添加索引[θ_ij/θ]+c，θ为角度参数(非零整数)，例如可以为45°，c为调整参数(非零整数)，例如可以为3。

在一些实施例中，在

大于预设的比例阈值，而且交并比IoU小于等于交并比阈值的情况下，确定目标区域i与目标区域j不具有空间关系。

在一些实施例中，可以根据获取的特征向量和相应的空间关系，构建空间关系图。例如，空间关系图为G_spa＝(V,ε_spa)，ε_spa为包含所有空间关系的集合，G_spa代表的V和ε_spa中元素的对应关系。

在步骤40中，根据特征向量、行为关系和空间关系，确定待处理图像的描述文本。

在一些实施例中，可以通过图5中的步骤确定描述文本。

图5示出图1的步骤S40的一些实施例的流程图。

如图5所示，步骤S40包括：步骤S410，确定第一描述向量；步骤S420，确定第二描述向量；和步骤S430，确定描述文本。

在步骤S410中，将第一目标区域的特征向量、第二目标区域的特征向量和第一目标区域与第二目标区域的行为关系输入第一机器学习模型，确定第一目标区域的第一描述向量。例如，第一机器学习模型可以是基于GCN(Graph Convolutional Network，图卷积网络)等用于处理图像的神经网络训练得来的。第一描述向量可以通过向量的形式对第一目标区域和第二目标区域的行为关系进行描述。

例如，可以将行为关系图输入一个训练好的GCN，以获取第一描述向量；将空间关系图输入另一个训练好的GCN，以获取第二描述向量

在一些实施例中，可以通过图6中的步骤确定第一描述向量。

图6示出图5的步骤S410的一些实施例的流程图。

如图6所示，步骤S410包括：步骤S4110，确定第一转移矩阵；步骤S4120，确定第一偏移向量；和步骤S4130，确定第一描述向量。

在步骤S4110中，根据行为关系的方向确定第一转移矩阵，第一转移矩阵可以为GCN中的转移矩阵。例如，目标区域i的特征向量v_i和目标区域j的特征向量v_j的第一转移矩阵为

为D_v×D_v维的实数矩阵。dir(v_i,v_j)为行为关系的方向，可以在dir(v_i,v_j)为v_i到v_j的情况下，设置

可以在dir(v_i,v_j)为v_j到v_i的情况下，设置

可以在dir(v_i,v_j)为v_i到v_i的情况下，设置

在步骤S4120中，根据行为关系的类型确定第一偏移向量，第一偏移向量可以是GCN中的偏移向量。例如，目标区域i的特征向量v_i和目标区域j的特征向量v_j的第一偏移向量为

为D_v维的实数向量。

在步骤S4120中，将第二目标的特征向量、第一转移矩阵和第一偏移向量带入激活函数，确定第一描述向量。

在一些实施例中，目标区域i的第一描述向量

为：

N(v_i)为目标区域i的相邻目标区域的集合。目标区域i的相邻目标区域可以是所有与目标区域i组合成区域对的目标区域，或者是与目标区域i的相对距离小于距离阈值的目标区域。当然，相邻目标区域根据实际需要、相对距离、相对角度和IoR中的一项或多项确定。

ρ()为激活函数，例如，可以是ReLU(Rectified Linear Unit，线性整流函数)函数。

在一些实施例中，还可以根据第二目标的特征向量、第一转移矩阵和第一偏移向量，确定行为关系的权重因子，行为关系的权重因子与行为关系的重要程度正相关。然后，将行为关系的权重因子带入激活函数，确定第一描述向量。

例如，目标区域i的特征向量v_i和目标区域j的特征向量v_j的行为关系的权重因子可以通过函数

确定，函数

可以为logistic sigmoid函数(S形函数的一种)。在这种情况下目标区域i的第一描述向量

为：

在确定了第一描述向量之后，可以通过图5中的步骤S420和步骤S430对图像进行描述。

在步骤S420中，将第一目标区域的特征向量、第二目标区域的特征向量和第一目标区域与第二目标区域的空间关系输入第一机器学习模型，确定第一目标区域的第二描述向量。

在一些实施例中，可以采用上述任一个确定第一描述向量的实施例中的方法来确定第二描述向量，在此就不再赘述了。

在步骤S430中，将各目标区域的第一描述向量和第二描述向量输入第二机器学习模型，确定待处理图像的描述文本。例如，第二机器学习模型可以是基于LSTM(Long Short-Term Memory，长短期记忆网络)等用于处理自然语言的神经网络训练得来的。

在一些实施例中，可以通过图7的实施例确定待处理图像的描述文本。

图7示出图1的步骤S40的另一些实施例的流程图。

如图7所示，与图5中的实施例相比，步骤S40还包括：步骤S421，确定第一候选概率；步骤S422，确定第二候选概率；和步骤S423，确定综合候选概率。

在步骤S421中，根据各目标区域的第一描述向量，确定各候选词的第一候选概率。

在一些实施例中，将所有目标区域的向量描述的集合

输入LSTM。例如，LSTM共有两层。对于当前候选词w_t的第一层的输出

可以为：

为对于上一个候选词w_t-1的第二层的输出，f₁()是LSTM第一层的更新函数(updating function)，W_s是w_t的转换矩阵，

为所有第一描述向量的均值：

可以将

输入第二层，获取第二层的输出

根据

确定各候选词的分类概率分布，即第一候选概率，从而估计下一个候选词w_t+1。对于第一个候选词，可以采用预设的符号处理替代

和w_t-1。

在一些实施例中，可以通过图8中的步骤确定第一候选概率。

图8示出图7的步骤S421的一些实施例的流程图。

如图8所示，步骤S421包括：步骤S4211，确定第一关注因子；步骤S4212，确定第一候选概率。

在步骤S4211中，根据各目标区域的第一描述向量和所有第一描述向量的均值，确定各目标区域对于各候选词的第一关注因子。关注因子代表了当前候选词对各目标区域的关注程度，通过设置关注因子可以提高图像描述的准确性。

在一些实施例中，可以确定当前候选词w_t对目标区域i的第一关注因子a_t,i为：

W_a、W_f和W_h为转换矩阵，可以通过训练确定，tanh()为双曲正切函数。进而可以获取w_t对各目标区域的第一关注因子的集合A_t，a_t,i为A_t中的元素。还可以根据A_t确定权值集合：

λ_t＝softmax(A_t)

进一步，可以确定第一关注特征值：

λ_t,i为λ_t中的元素。

这样就可以获取第二层的输出：

在步骤S4211中，根据第一关注因子确定各候选词的第一候选概率。例如，可以根据

得到候选词w_t对于词库中的各词的第一概率，例如，w_t对于词库中的第m个词w_m的第一概率为Pr_sem(w_t＝w_m)。

以同样的方法也可以通过图7中的步骤S422确定第二候选概率。

在步骤S422中，根据各目标区域的第二描述向量，确定各候选词的第二候选概率。例如，w_t对于词库中的第m个词w_m的第二候选概率为Pr_spa(w_t＝w_m)。

在一些实施例中，可以通过上述任一个实施例中的确定第一候选概率的方法确定第二候选概率，在此不再赘述。

在步骤S423中，根据第一候选概率和第二候选概率的加权和，确定各候选词的综合候选概率。例如，w_t对于词库中的第m个词w_m的综合候选概率为：

Pr(w_t＝w_m)＝αPr_sem(w_t＝w_m)+(1-α)Pr_spa(w_t＝w_m)权值α为小于1大于0的实数。

在步骤S430中，根据各候选词的综合候选概率，确定描述文本。例如，对于候选词w_t可以选取词库中Pr最高的词作为选定词，将所有的选定词按次序连接起来即可得到描述文本。

图9a-9c示出了本公开的图像的处理方法的一些实施例的示意图。

如图9a所示，待处理图像90中是两个男孩在打网球。可以通过Faster R-CNN检测出待处理图像90中的各个目标，并确定包含目标的目标区域：目标区域91(包含第一个男孩)、目标区域92(包含第二个男孩)、目标区域93(包含第一个球拍)、目标区域94(包含第二个球拍)、目标区域95(包含院子)。

通过Faster R-CNN还可以确定各目标区域的特征向量，和包含两个不同目标区域的各联合区域的联合特征向量，进而获取各目标区域之间的行为关系和空间关系。

如图9b所示，黑点表示图9a中各目标区域的中心，带箭头的线表示各目标区域之间的行为关系，箭头方向表示各行为关系的方向。例如，目标区域91与目标区域93的行为关系为男孩拿着球拍；目标区域91与目标区域95的行为关系为男孩站在院子里。这样就可以获取待处理图像90的行为关系图。

如图9c所示，带箭头的线表示各目标区域之间的空间关系，箭头方向表示各空间关系的方向。例如，目标区域91与目标区域95的空间关系为男孩位于院子的一侧(可以根据上面的实施例添加索引)；目标区域91与目标区域93的空间关系为男孩与球拍重叠。这样就可以获取待处理图像90的空间关系图。

将行为关系图输入训练好的LSTM中可以获取各候选词的第一概率；将空间关系图输入另一个训练好的LSTM中可以获取各候选词的第二概率；根据第一概率和第二概率可以确定待处理图像90的描述文本为：两个男孩在院子里打网球。

图10示出本公开的图像的处理装置的一些实施例的框图。

如图10所示，图像的处理装置10包括区域划分单元101、关系确定单元102和描述确定单元103。

区域划分单元101将待处理图像划分为多个目标区域，每个目标区域中包含一个从待处理图像中检测到的目标。

关系确定单元102根据获取的各目标区域的特征向量，确定不同的目标区域之间的行为关系。关系确定单元102根据获取的各目标区域的位置信息，确定不同的目标区域之间的空间关系

在一些实施例中，行为关系为第一目标区域中的第一目标向第二目标区域中的第二目标发出的动作，或者是第一目标和第二目标之间的相互动作。行为关系的方向由第一目标区域指向第二目标区域。

在一些实施例中，空间关系为第一目标区域相对于第二目标区域的位置。空间关系的方向由第一目标区域指向所述第二目标区域。例如，位置信息包括不同的目标区域之间的交并比、相对距离和相对角度。

在一些实施例中，关系确定单102获取待处理图像中的联合区域。联合区域包含第一目标区域和第二目标区域。关系确定单102获取联合区域的特征向量，作为联合特征向量。关系确定单102根据联合特征向量、第一目标区域的特征向量和第二目标区域的特征向量，确定第一目标区域和第二目标区域的行为关系。

在一些实施例中，行为关系包括无行为类型和多种有行为类型。关系确定单元102根据所述特征向量，确定无行为类型和多种有行为类型相应的分类概率。在无行为类型的分类概率大于等于阈值的情况下，关系确定单元102确定行为关系为无行为类型，在无行为类型的分类概率小于阈值的情况下，关系确定单元102将分类概率最大的有行为类型确定为行为关系。

描述确定单元103根据特征向量、行为关系和空间关系，确定待处理图像的描述文本。

在一些实施例中，描述确定单元103将第一目标区域的特征向量、第二目标区域的特征向量和第一目标区域与第二目标区域的行为关系输入第一机器学习模型，确定第一目标区域的第一描述向量。描述确定单元103将第一目标区域的特征向量、第二目标区域的特征向量和第一目标区域与第二目标区域的空间关系输入第一机器学习模型，确定第一目标区域的第二描述向量，将各目标区域的第一描述向量和第二描述向量输入第二机器学习模型，确定待处理图像的描述文本。

在一些实施例中，描述确定单元103根据各目标区域的第一描述向量，确定各候选词的第一候选概率。描述确定单元103根据各目标区域的第二描述向量，确定各候选词的第二候选概率。描述确定单元103根据第一候选概率和第二候选概率的加权和，确定各候选词的综合候选概率。描述确定单元103根据各候选词的综合候选概率，确定描述文本。

例如，描述确定单元103根据行为关系的方向确定第一转移矩阵，根据行为关系的类型确定第一偏移向量，将第二目标的特征向量、第一转移矩阵和第一偏移向量带入激活函数，确定第一描述向量。

例如，描述确定单元103根据第二目标的特征向量、第一转移矩阵和第一偏移向量，确定行为关系的权重因子，所述行为关系的权重因子与行为关系的重要程度正相关，将行为关系的权重因子带入激活函数，确定第一描述向量。

在一些实施例中，描述确定单元103根据空间关系的方向确定第二转移矩阵，根据空间关系的类型确定第二偏移向量，将第二目标的特征向量、第二转移矩阵和第二偏移向量带入激活函数，确定第二描述向量。第二转移矩阵可以是GCN中的转移矩阵。第二偏移向量可以是GCN中的偏移向量

例如，描述确定单元103根据第二目标的特征向量、第二转移矩阵和第二偏移向量，确定空间关系的权重因子，空间关系的权重因子与空间关系的重要程度正相关，将空间关系的权重因子带入激活函数，确定第二描述向量。

在一些实施例中，描述确定单元103根据各目标区域的第一描述向量和所有第一描述向量的均值，确定各目标区域对于各候选词的第一关注因子。描述确定单元103根据第一关注因子确定各候选词的第一候选概率。描述确定单元103根据各目标区域的第二描述向量和所有第二描述向量的均值，确定各目标区域对于各候选词的第二关注因子。描述确定单元103根据第二关注因子确定各候选词的第二候选概率。

图11示出本公开的图像的处理装置的另一些实施例的框图。

如图11所示，该实施例的图像的处理装置11包括：存储器111以及耦接至该存储器111的处理器112，处理器112被配置为基于存储在存储器111中的指令，执行本公开中任意一个实施例中的图像的处理方法。

其中，存储器111例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

图12示出本公开的图像的处理装置的又一些实施例的框图。

如图12所示，该实施例的图像的处理装置12包括：存储器1210以及耦接至该存储器1210的处理器1220，处理器1220被配置为基于存储在存储器1210中的指令，执行前述任意一个实施例中的图像的处理方法。

存储器1210例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

图像的处理装置12还可以包括输入输出接口1230、网络接口1240、存储接口1250等。这些接口1230、1240、1250以及存储器1210和处理器1220之间例如可以通过总线1260连接。其中，输入输出接口1230为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口1240为各种联网设备提供连接接口。存储接口1250为SD卡、U盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

至此，已经详细描述了根据本公开的图像的处理方法、图像的装置和计算机可读存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种图像的处理方法，包括：

将待处理图像划分为多个目标区域，每个所述目标区域中包含一个从所述待处理图像中检测到的目标；

根据获取的各所述目标区域的特征向量，确定不同的所述目标区域之间的行为关系，所述行为关系为第一目标区域中的第一目标向第二目标区域中的第二目标发出的动作，或者是第一目标和第二目标之间的相互动作；

根据获取的各所述目标区域的位置信息，确定不同的所述目标区域之间的空间关系，所述空间关系为第一目标区域相对于第二目标区域的位置；

根据所述特征向量、所述行为关系和所述空间关系，确定所述待处理图像的描述文本。

2.根据权利要求1所述的处理方法，其中，所述确定所述待处理图像的描述文本包括：

针对所述多个目标区域中的任意两个第一目标区域和第二目标区域，将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的行为关系输入第一机器学习模型，确定所述第一目标区域的第一描述向量；

将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的空间关系输入所述第一机器学习模型，确定所述第一目标区域的第二描述向量；

将各所述目标区域的所述第一描述向量和所述第二描述向量输入第二机器学习模型，确定所述待处理图像的描述文本。

3.根据权利要求2所述的处理方法，其中，

所述行为关系为所述第一目标区域中的第一目标向所述第二目标区域中的第二目标发出的动作，或者是所述第一目标和所述第二目标之间的相互动作，所述行为关系的方向由所述第一目标区域指向所述第二目标区域。

4.根据权利要求2所述的处理方法，其中，

所述空间关系为所述第一目标区域相对于所述第二目标区域的位置，所述空间关系的方向由所述第一目标区域指向所述第二目标区域。

5.根据权利要求2所述的处理方法，其中，所述确定所述待处理图像的描述文本包括：

根据各所述目标区域的第一描述向量，确定各候选词的第一候选概率；

根据各所述目标区域的第二描述向量，确定所述各候选词的第二候选概率；

根据所述第一候选概率和所述第二候选概率的加权和，确定所述各候选词的综合候选概率；

根据所述各候选词的综合候选概率，确定所述描述文本。

6.根据权利要求3所述的处理方法，其中，所述确定所述第一目标区域的第一描述向量包括：

根据所述行为关系的方向确定第一转移矩阵；

根据所述行为关系的类型确定第一偏移向量；

将所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量带入激活函数，确定所述第一描述向量。

7.根据权利要求6所述的处理方法，其中，所述确定所述第一目标区域的第一描述向量包括：

根据所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量，确定所述行为关系的权重因子，所述行为关系的权重因子与所述行为关系的重要程度正相关；

将所述行为关系的权重因子带入所述激活函数，确定所述第一描述向量。

8.根据权利要求4所述的处理方法，其中，所述确定所述第一目标区域的第二描述向量包括：

根据所述空间关系的方向确定第二转移矩阵；

根据所述空间关系的类型确定第二偏移向量；

将所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量带入激活函数，确定所述第二描述向量。

9.根据权利要求8所述的处理方法，其中，所述确定所述第一目标区域的第二描述向量包括：

根据所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量，确定所述空间关系的权重因子，所述空间关系的权重因子与所述空间关系的重要程度正相关；

将所述空间关系的权重因子带入所述激活函数，确定所述第二描述向量。

10.根据权利要求5所述的处理方法，其中，所述确定各候选词的第一候选概率包括：

根据各所述目标区域的第一描述向量和所有所述第一描述向量的均值，确定各所述目标区域对于所述各候选词的第一关注因子；

根据所述第一关注因子确定所述各候选词的第一候选概率；

其中，所述确定各候选词的第二候选概率包括：

根据各所述目标区域的第二描述向量和所有所述第二描述向量的均值，确定各所述目标区域对于所述各候选词的第二关注因子；

根据所述第二关注因子确定所述各候选词的第二候选概率。

11.根据权利要求1-10任一项所述的处理方法，其中，所述确定不同的所述目标区域之间的行为关系包括：

获取所述待处理图像中的联合区域，所述联合区域包含第一目标区域和第二目标区域；

获取所述联合区域的特征向量，作为联合特征向量；

根据所述联合特征向量、所述第一目标区域的特征向量和所述第二目标区域的特征向量，确定所述第一目标区域和所述第二目标区域的行为关系。

12.根据权利要求1-10任一项所述的处理方法，其中，所述确定不同的所述目标区域之间的行为关系包括：

所述行为关系包括无行为类型和多种有行为类型；

根据所述特征向量，确定所述无行为类型和所述多种有行为类型相应的分类概率；

在所述无行为类型的分类概率大于等于阈值的情况下，确定所述行为关系为所述无行为类型；

在所述无行为类型的分类概率小于所述阈值的情况下，将所述分类概率最大的有行为类型确定为所述行为关系。

13.根据权利要求1-10任一项所述的处理方法，其中，

所述位置信息包括所述不同的目标区域之间的交并比、相对距离和相对角度。

14.一种图像的处理装置，包括：

区域划分单元，用于将待处理图像划分为多个目标区域，每个所述目标区域中包含一个从所述待处理图像中检测到的目标；

关系确定单元，用于根据获取的各所述目标区域的特征向量，确定不同的所述目标区域之间的行为关系，所述行为关系为第一目标区域中的第一目标向第二目标区域中的第二目标发出的动作，或者是第一目标和第二目标之间的相互动作，根据获取的各所述目标区域的位置信息，确定不同的所述目标区域之间的空间关系，所述空间关系为第一目标区域相对于第二目标区域的位置；

描述确定单元，用于根据所述特征向量、所述行为关系和所述空间关系，确定所述待处理图像的描述文本。

15.根据权利要求14所述的处理装置，其中，

针对所述多个目标区域中的任意两个第一目标区域和第二目标区域，将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的行为关系输入第一机器学习模型，确定所述第一目标区域的第一描述向量，将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的空间关系输入所述第一机器学习模型，确定所述第一目标区域的第二描述向量，将各所述目标区域的所述第一描述向量和所述第二描述向量输入第二机器学习模型，确定所述待处理图像的描述文本。

16.根据权利要求15所述的处理装置，其中，

17.根据权利要求15所述的处理装置，其中，

18.根据权利要求15所述的处理装置，其中，

所述描述确定单元根据各所述目标区域的第一描述向量，确定各候选词的第一候选概率，根据各所述目标区域的第二描述向量，确定所述各候选词的第二候选概率，根据所述第一候选概率和所述第二候选概率的加权和，确定所述各候选词的综合候选概率，根据所述各候选词的综合候选概率，确定所述描述文本。

19.根据权利要求16所述的处理装置，其中，

所述描述确定单元根据所述行为关系的方向确定第一转移矩阵，根据所述行为关系的类型确定第一偏移向量，将所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量带入激活函数，确定所述第一描述向量。

20.根据权利要求19所述的处理装置，其中，

所述描述确定单元根据所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量，确定所述行为关系的权重因子，所述行为关系的权重因子与所述行为关系的重要程度正相关，将所述行为关系的权重因子带入所述激活函数，确定所述第一描述向量。

21.根据权利要求17所述的处理装置，其中，

所述描述确定单元根据所述空间关系的方向确定第二转移矩阵，根据所述空间关系的类型确定第二偏移向量，将所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量带入激活函数，确定所述第二描述向量。

22.根据权利要求21所述的处理装置，其中，

所述描述确定单元根据所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量，确定所述空间关系的权重因子，所述空间关系的权重因子与所述空间关系的重要程度正相关，将所述空间关系的权重因子带入所述激活函数，确定所述第二描述向量。

23.根据权利要求18所述的处理装置，其中，

所述描述确定单元根据各所述目标区域的第一描述向量和所有所述第一描述向量的均值，确定各所述目标区域对于所述各候选词的第一关注因子，根据所述第一关注因子确定所述各候选词的第一候选概率，根据各所述目标区域的第二描述向量和所有所述第二描述向量的均值，确定各所述目标区域对于所述各候选词的第二关注因子，根据所述第二关注因子确定所述各候选词的第二候选概率。

24.根据权利要求14-23任一项所述的处理装置，其中，

所述关系确定单元获取所述待处理图像中的联合区域，所述联合区域包含第一目标区域和第二目标区域，获取所述联合区域的特征向量，作为联合特征向量，根据所述联合特征向量、所述第一目标区域的特征向量和所述第二目标区域的特征向量，确定所述第一目标区域和所述第二目标区域的行为关系。

25.根据权利要求14-23任一项所述的处理装置，其中，

所述行为关系包括无行为类型和多种有行为类型，所述关系确定单元根据所述特征向量，确定所述无行为类型和所述多种有行为类型相应的分类概率，在所述无行为类型的分类概率大于等于阈值的情况下，确定所述行为关系为所述无行为类型，在所述无行为类型的分类概率小于所述阈值的情况下，将所述分类概率最大的有行为类型确定为所述行为关系。

26.根据权利要求14-23任一项所述的处理装置，其中，

27.一种图像的处理装置，包括：

存储器；和

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器装置中的指令，执行权利要求1-13任一项所述的图像的处理方法。

28.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-13任一项所述的图像的处理方法。