CN115512003B

CN115512003B - 一种独立关系检测的场景图生成方法和系统

Info

Publication number: CN115512003B
Application number: CN202211430055.7A
Authority: CN
Inventors: 金天磊; 宋伟; 朱世强; 王文; 谢冰; 周元海
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-04-28
Anticipated expiration: 2042-11-16
Also published as: CN115512003A

Abstract

本发明属于计算机视觉领域，涉及一种独立关系检测的场景图生成方法和系统，该方法包括：步骤一，建立独立关系检测模型；步骤二，利用图像、图像对应的关系标签以及预定义方向锚训练所述独立关系检测模型，得到训练好的独立关系检测模型；步骤三，使用训练好的独立关系检测模型，输入图像和预定义方向锚，输出图像中存在的关系，对其中相似的关系采用相似关系抑制算法进行抑制；步骤四，同时将通过目标检测算法检测得到的物体包围框与所述输出图像中存在的关系的关系起始点和关系末端点进行位置匹配，得到<物体‑关系‑物体>的三元组，构成场景图。本发明在不依靠目标检测结果的情况下就能对图像中的关系进行检测，提升了场景图生成的运算速度。

Description

一种独立关系检测的场景图生成方法和系统

技术领域

本发明属于计算机视觉领域，涉及一种独立关系检测的场景图生成方法和系统。

背景技术

在人工智能领域，要机器理解场景的一个重要方法就是场景图生成，即分析场景中物体与物体之间的关系来提升机器的决策水平。目前的场景图生成算法往往需要将目标检测算法与关系检测算法进行串联，即先检测出图像中有哪些物体，再检测出物体之间是什么关系。然而这种场景图生成算法的运行效率很低，一方面在于目标检测算法和关系检测算法是串联的，关系检测需要等待目标检测的结果才能够运行；另一方面在于检测物体之间的关系需要将物体两两组合，时间复杂度为O(n²)，目标检测检测到的物体越多，关系检测运行次数呈两次方增长。因此，目前的场景图生成算法在机器人、自动驾驶等领域的应用中难以实现，动态实时生成。如何提升场景图生成的计算效率对于人工智能领域的发展具有较大意义。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种独立关系检测的场景图生成方法和系统，在不依赖目标检测结果的情况下，对场景中存在的关系进行检测，提升了场景图生成方法的运行效率，其具体技术方案如下：

一种独立关系检测的场景图生成方法，包括以下步骤：

步骤一，建立独立关系检测模型；

步骤二，利用图像、图像对应的关系标签以及预定义方向锚训练所述独立关系检测模型，得到训练好的独立关系检测模型；

步骤三，使用训练好的独立关系检测模型，输入图像和预定义方向锚，输出图像中存在的关系，对其中相似的关系采用相似关系抑制算法进行抑制；

步骤四，同时将通过目标检测算法检测得到的物体包围框与所述输出图像中存在的关系的关系起始点和关系末端点进行位置匹配，得到<物体-关系-物体>的三元组，构成场景图。

进一步的，所述独立关系检测模型使用主干网络将输入图像转换为不同尺寸的包含方向信息锚的特征图，每个特征图的每个网格中包含若干个方向信息锚且通过方向信息锚计算出关系置信度、关系类别、关系向量偏差，利用预定义方向锚和所述的关系向量偏差计算出关系向量，结合特征图的网格的位置和计算出的关系置信度、关系类别、关系向量，得到进一步的关系。

进一步的，所述每个特征图的每个网格中包含多个方向信息锚且通过方向信息锚计算出关系置信度、关系类别、关系向量偏差，具体为：

所述特征图的每个网格都是一个一维向量，所述一维向量被切分为多段，每一段都是一个方向信息锚；

所述方向信息锚中包含关系置信度、关系类概率、关系向量偏差；

其中，所述关系置信度，表示关系存在的可能性；

所述关系类概率，表示每一种类别的概率，关系类概率最高的类别即为关系类别；

所述关系向量偏差包括一个角度偏差和一个长度偏差。

进一步的，所述利用预定义方向锚和所述的关系向量偏差计算出关系向量，具体为：

所述预定义方向锚与所述特征图的每个网格中包含的方向信息锚数量一致；

在建立所述独立关系检测模型时，若设定k个预定义方向锚，则每个特征图的每个网格包含k个方向信息锚；

每个所述预定义方向锚均为事先设定的值，包含极坐标系下的预定义极角

和预定义极径

，为极坐标系下的极角和极径的集合；

所述极坐标系下的预定义极角

加上角度偏差

得到极坐标系下的关系向量极角

；

所述极坐标系下的预定义极径

乘以长度偏差

得到极坐标系下的关系向量极径

；

将所述极坐标系下的关系向量极角

和极坐标系下的关系向量极径

，转换为笛卡尔坐标系下的关系向量，有

。

进一步的，所述结合特征图的网格的位置和计算出的关系置信度、关系类别、关系向量得到进一步的关系，具体为：

图像尺寸除以特征图尺寸得到特征图的缩放因子

，不同尺寸的特征图对于不同尺寸的缩放因子

；

所述特征图的网格的位置为网格在特征图中的位置，宽度位置i，高度位置j；

所述网格在特征图中的位置乘以所述特征图的缩放因子，得到关系起始点

,

；

所述关系起始点加上笛卡尔坐标系下的关系向量，即可得到关系末端点

,

；

则得到的进一步的关系包含所述关系置信度、所述关系类别、所述关系起始点和所述关系末端点。

进一步的，所述步骤二中的关系标签包括图像中物体的位置、标注出来的物体之间的关系类别；训练所述独立关系检测模型的过程中，通过判断物体之间是否标注关系以及标注出来的物体之间的关系类别来计算方向信息锚中关系置信度和关系类别的损失，通过物体的位置、物体之间的相对位置和所述预定义方向锚来计算方向信息锚中的关系向量偏差。

进一步的，所述步骤三中的对其中相似的关系采用相似关系抑制算法进行抑制，具体为：

对于任意两个关系，两个关系的关系起始点和所述关系末端点的位置距离接近，且两个关系的关系类别一致，则认为这两个关系为相似关系；

对于图像中的相似关系，采用相似关系抑制算法将关系置信度低的关系抑制，只保留相似关系置信度高的关系。

进一步的，所述步骤四，具体为：

同时使用目标检测算法计算出图像中的物体类别和物体包围框中心点；

判断所述物体包围框中心点与所述关系的关系起始点和关系末端点的距离接近程度，若存在一个物体包围框中心点与关系起始点的距离接近，存在另一个物体包围框中心点与关系末端点距离的距离接近，则位置匹配成功；同时存在多个物体包围框中心点与关系起始点和关系末端点的距离接近时，选择距离最小的物体；

位置匹配成功后，两个物体之间存在一个关系，即可得到<物体-关系-物体>的三元组；将图像中所有的三元组组合起来，构建所述场景图。

一种独立关系检测的场景图生成系统，包括：

独立关系检测模型构建模块，用于建立主干网络，所述主干网络将图像转换为不同尺寸的包含方向信息锚的特征图，每个特征图的每个网格中包含多个方向信息锚；

独立关系检测模型训练模块，利用图像、图像对应的关系标签以及预定义方向锚训练所述独立关系检测模型；

基于独立关系检测模型的场景图生成推理模块，使用训练好的独立关系检测模型，输入图像和预定义方向锚，输出图像中存在的关系，同时将通过目标检测算法计算得到的物体与独立关系检测模型得到的关系进行位置匹配，得到<物体-关系-物体>的三元组，进而构成场景图。

一种独立关系检测的场景图生成装置，包括一个或多个处理器，用于实现所述的一种独立关系检测的场景图生成方法。

有益效果：

本发明提出的一种独立关系检测的场景图生成方法，不依赖目标检测结果的情况下，直接从原始图像中检测图像中存在的关系，检测到的关系包含关系置信度、关系类别、关系起始点和关系末端点；本发明中的独立关系检测算法能够与目标检测算法并行运算，同时，在场景图生成阶段，通过位置匹配的方式将物体和关系关联起来，大幅度降低计算复杂度，能提高场景图生成在人工智能领域的应用前景。

附图说明

图1是发明实施例提供的一种独立关系检测的场景图生成方法的流程示意图；

图2是本发明实施例提供的从图像中直接检测关系的示意图；

图3是本发明实施例提供的使用关系向量偏差和预定义方向锚计算关系向量的示意图；

图4a和图4b是本发明实施例提供的相似关系抑制算法示意图，其中图4a具体为相似关系抑制前示意图，图4b为相似关系抑制后示意图；

图5是本发明实施例提供的位置匹配示意图；

图6是本发明实施例提供的并联目标检测和独立关系检测进行场景图生成的示意图；

图7是本发明实施例提供的一种独立关系检测的场景图生成装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，本发明的一种独立关系检测的场景图生成方法，包括以下步骤：

步骤一，建立独立关系检测模型。

所述独立关系检测模型使用主干网络将输入图像转换为不同尺寸的包含方向信息锚的特征图，每个特征图的每个网格中包含若干个方向信息锚且通过方向信息锚计算出关系置信度、关系类别、关系向量偏差，利用预定义方向锚和所述的关系向量偏差计算出关系向量，结合特征图的网格的位置和计算出的关系置信度、关系类别、关系向量，得到进一步的关系。

将图像输入到主干网络，所述主干网络进行特征提取，根据特征提取的不同阶段，输出不同尺寸的包含方向信息锚的特征图。

如图2所示，在本实施例中，输入尺寸为640×640的图像，主干网络使用具有53个卷积层的darknet网络进行特征提取，分别输出7×7、14×14、28×28三个尺寸的特征图。

所述每个特征图的每个网格中包含多个方向信息锚且通过方向信息锚计算出关系置信度、关系类别、关系向量偏差，具体为：

所述特征图的每个网格都是一个一维向量；所述一维向量可以被切分为多段，每一段都是一个方向信息锚；

所述方向信息锚中包含关系置信度、关系类概率、关系向量偏差三个部分的内容。

其中，所述关系置信度用符号c表示，表示关系存在的可能性；

所述关系类概率用符号s表示，每一种类别都对应一个符号sr，表示每一种类别的概率，关系类概率最高的类别即为关系类别；

所述关系向量偏差包括一个角度偏差和一个长度偏差，分别用

和

表示。

在本实施例中脑，以最大尺寸的特征图的其中一个网格为例，取出的一维向量包含k个方向信息锚；每个方向信息锚中包含关系置信度c，关系向量偏差，r个关系类概率s1……sr。

所述利用预定义方向锚和所述的关系向量偏差计算出关系向量，具体为：

和预定义极径

，为极坐标系下的极角和极径的集合；

每个所述方向信息锚中的关系向量偏差都包含一个角度偏差

和长度偏差

；

所述极坐标系下的预定义极角加上所述角度偏差得到极坐标系下的关系向量极角

；

所述极坐标系下的预定义极径乘以所述长度偏差得到极坐标系下的关系向量极径

；

将所述极坐标系下的关系向量极角和极坐标系下的关系向量极径，转换为笛卡尔坐标系下的关系向量，有

。

在本实施例中，展示了使用关系向量偏差和预定义方向锚计算关系向量的过程；特别地，一个预定义方向锚对应一个关系向量偏差，如图3所示，展示了一个预定义方向锚利用对应的关系向量偏差计算关系向量的结果。

所述结合特征图的网格的位置和计算出的关系置信度、关系类别、关系向量得到进一步的关系，具体为：

图像尺寸除以特征图尺寸得到特征图的缩放因子

，不同尺寸的特征图对于不同尺寸的缩放因子

；

,

；

,

；

则得到的进一步的关系包含所述关系置信度、所述关系类别、所述关系起始点和所述关系末端点；

本实施例中，最大的特征图与原始图像的缩放因子

，以图像左上角为(0,0)点，标记出的网格位置宽度位置4，高度位置3，可以得到关系起始点为（

，

），则关系末端点为（

，

），关系置信度和关系类别来源于方向信息锚，以此生成所述的关系。以此类推，每个网格中的每个方向信息锚都可以生成一个关系。

步骤二，利用图像、图像对应的关系标签以及预定义方向锚训练所述独立关系检测模型，得到训练好的独立关系检测模型。

所述关系标签包括图像中物体的位置、标注出来的物体之间的关系类别；

训练所述独立关系检测模型过程中，通过判断物体之间是否标注关系以及标注出来的物体之间的关系类别来计算方向信息锚中关系置信度和关系类别的损失；

训练过程中，通过物体的位置、物体之间的相对位置和所述预定义方向锚来计算方向信息锚中的关系向量偏差。

步骤三，使用训练好的独立关系检测模型，输入图像和预定义方向锚，输出图像中存在的关系，对其中相似的关系采用相似关系抑制算法进行抑制。

所述对其中相似的关系采用相似关系抑制算法进行抑制，具体为：

每个方向信息锚都可以计算出所述关系；

只有关系置信度高于设定阈值的关系才会被保留进行后续处理，关系置信度低于设定阈值时认为关系不成立。

对于任意两个关系，两个关系的关系起始点和所述关系末端点的位置接近，且两个关系的关系类别一致，可认为这两个关系为相似关系；

对于图像中的相似关系，所述相似关系抑制算法将关系置信度低的关系抑制，只保留相似关系置信度高的关系。

如图4a和图4b所示，相似关系抑制之前，由于不同特征图和不同方向信息锚的存在，独立关系检测输出的关系对应了同样两个物体，相似关系抑制之后，过滤了一些相似的关系，只保留最高关系置信度的关系。

步骤四，同时将通过目标检测算法计算得到的物体包围框与所述输出图像中存在的关系的关系起始点和关系末端点进行位置匹配，得到<物体-关系-物体>的三元组，构成场景图。

具体地，使用目标检测算法计算出图像中的物体类别和物体包围框中心点；

所述位置匹配，具体为：判断所述物体包围框中心点与所述关系的关系起始点和关系末端点的距离接近程度，若存在一个物体包围框中心点与关系起始点的距离接近，存在另一个物体包围框中心点与关系末端点距离的距离接近，则位置匹配成功；

同时存在多个物体包围框中心点与关系起始点和关系末端点的距离接近时，选择距离最小的物体；

位置匹配成功后，两个物体之间存在一个关系，即可得到<物体-关系-物体>的三元组；

图像中所有的三元组组合起来，构建所述场景图。

如图5所示，在本实施例中，使用目标检测方法yolov5检测出图像中物体类别和物体包围框，并计算出物体包围框的中心点；计算物体包围框中心点与关系起始点和关系末端点的距离，上下关系的关系起始点与物体招牌的包围框中心点接近，上下关系的关系末端点与物体建筑物的包围框中心点接近，位置匹配成功，生成<招牌, 上下关系, 建筑物>的三元组。

如图6所示，在本实施例中，目标检测与独立关系检型并联运行，同时目标检测输出的物体类别和物体位置可以快速的与独立关系检测输出的关系进行位置匹配，最终生成多个三元组，构成场景图。

一种独立关系检测的场景图生成系统，包括：

独立关系检测模型构建模块，用于建立主干网络，主干网络能将图像转换为不同尺寸的包含方向信息锚的特征图，每个特征图的每个网格中包含多个方向信息锚；

基于独立关系检测模型的场景图生成推理模块，使用训练好的独立关系检测模型，输入图像和预定义方向锚，输出图像中存在的关系，将目标检测算法得到的物体与独立关系检测模型得到的关系进行位置匹配，得到<物体-关系-物体>的三元组，进而构成场景图。

与前述一种独立关系检测的场景图生成方法的实施例相对应，本发明还提供了一种独立关系检测的场景图生成装置的实施例。

参见图7，本发明实施例提供的一种独立关系检测的场景图生成装置，包括一个或多个处理器，用于实现上述实施例中的一种独立关系检测的场景图生成方法。

本发明的一种独立关系检测的场景图生成装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本发明的一种独立关系检测的场景图生成装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种独立关系检测的场景图生成方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种独立关系检测的场景图生成方法，其特征在于，包括以下步骤：

步骤一，建立独立关系检测模型；

步骤四，同时将通过目标检测算法检测得到的物体包围框与所述输出图像中存在的关系的关系起始点和关系末端点进行位置匹配，得到<物体-关系-物体>的三元组，构成场景图；

所述独立关系检测模型使用主干网络将输入图像转换为不同尺寸的包含方向信息锚的特征图，每个特征图的每个网格中包含若干个方向信息锚且通过方向信息锚计算出关系置信度、关系类别、关系向量偏差，利用预定义方向锚和所述的关系向量偏差计算出关系向量，结合特征图的网格的位置和计算出的关系置信度、关系类别、关系向量，得到进一步的关系；

其中，所述关系置信度，表示关系存在的可能性；

所述关系向量偏差包括一个角度偏差和一个长度偏差；

每个所述预定义方向锚均为事先设定的值，包含极坐标系下的预定义极角θ和预定义极径ρ，为极坐标系下的极角和极径的集合；

所述极坐标系下的预定义极角θ加上角度偏差△θ得到极坐标系下的关系向量极角θ’=θ+△θ；

所述极坐标系下的预定义极径ρ乘以长度偏差△ρ得到极坐标系下的关系向量极径ρ’=ρ×△ρ；

将所述极坐标系下的关系向量极角θ’和极坐标系下的关系向量极径ρ’，转换为笛卡尔坐标系下的关系向量，有dx=ρ’cos(θ’),dy=ρ’sin(θ’)；

图像尺寸除以特征图尺寸得到特征图的缩放因子σ，不同尺寸的特征图对于不同尺寸的缩放因子σ_i；

所述网格在特征图中的位置乘以所述特征图的缩放因子，得到关系起始点x_start=i×σ,y_start=j×σ；

所述关系起始点加上笛卡尔坐标系下的关系向量，即可得到关系末端x_end=x_start+dx，y_end=y_start+dy；

2.如权利要求1所述的一种独立关系检测的场景图生成方法，其特征在于，所述步骤二中的关系标签包括图像中物体的位置、标注出来的物体之间的关系类别；训练所述独立关系检测模型的过程中，通过判断物体之间是否标注关系以及标注出来的物体之间的关系类别来计算方向信息锚中关系置信度和关系类别的损失，通过物体的位置、物体之间的相对位置和所述预定义方向锚来计算方向信息锚中的关系向量偏差。

3.如权利要求1所述的一种独立关系检测的场景图生成方法，其特征在于，所述步骤三中的对其中相似的关系采用相似关系抑制算法进行抑制，具体为：

4.如权利要求1所述的一种独立关系检测的场景图生成方法，其特征在于，所述步骤四，具体为：

5.一种采用权利要求1至4任意一项所述的独立关系检测的场景图生成方法的系统，其特征在于，包括：

6.一种独立关系检测的场景图生成装置，其特征在于，包括一个或多个处理器，用于实现权利要求1至4中任意一项所述的一种独立关系检测的场景图生成方法。