CN115512003B - 一种独立关系检测的场景图生成方法和系统 - Google Patents

一种独立关系检测的场景图生成方法和系统 Download PDF

Info

Publication number
CN115512003B
CN115512003B CN202211430055.7A CN202211430055A CN115512003B CN 115512003 B CN115512003 B CN 115512003B CN 202211430055 A CN202211430055 A CN 202211430055A CN 115512003 B CN115512003 B CN 115512003B
Authority
CN
China
Prior art keywords
relation
independent
image
vector
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211430055.7A
Other languages
English (en)
Other versions
CN115512003A (zh
Inventor
金天磊
宋伟
朱世强
王文
谢冰
周元海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211430055.7A priority Critical patent/CN115512003B/zh
Publication of CN115512003A publication Critical patent/CN115512003A/zh
Application granted granted Critical
Publication of CN115512003B publication Critical patent/CN115512003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,涉及一种独立关系检测的场景图生成方法和系统,该方法包括:步骤一,建立独立关系检测模型;步骤二,利用图像、图像对应的关系标签以及预定义方向锚训练所述独立关系检测模型,得到训练好的独立关系检测模型;步骤三,使用训练好的独立关系检测模型,输入图像和预定义方向锚,输出图像中存在的关系,对其中相似的关系采用相似关系抑制算法进行抑制;步骤四,同时将通过目标检测算法检测得到的物体包围框与所述输出图像中存在的关系的关系起始点和关系末端点进行位置匹配,得到<物体‑关系‑物体>的三元组,构成场景图。本发明在不依靠目标检测结果的情况下就能对图像中的关系进行检测,提升了场景图生成的运算速度。

Description

一种独立关系检测的场景图生成方法和系统
技术领域
本发明属于计算机视觉领域,涉及一种独立关系检测的场景图生成方法和系统。
背景技术
在人工智能领域,要机器理解场景的一个重要方法就是场景图生成,即分析场景中物体与物体之间的关系来提升机器的决策水平。目前的场景图生成算法往往需要将目标检测算法与关系检测算法进行串联,即先检测出图像中有哪些物体,再检测出物体之间是什么关系。然而这种场景图生成算法的运行效率很低,一方面在于目标检测算法和关系检测算法是串联的,关系检测需要等待目标检测的结果才能够运行;另一方面在于检测物体之间的关系需要将物体两两组合,时间复杂度为O(n2),目标检测检测到的物体越多,关系检测运行次数呈两次方增长。因此,目前的场景图生成算法在机器人、自动驾驶等领域的应用中难以实现,动态实时生成。如何提升场景图生成的计算效率对于人工智能领域的发展具有较大意义。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种独立关系检测的场景图生成方法和系统,在不依赖目标检测结果的情况下,对场景中存在的关系进行检测,提升了场景图生成方法的运行效率,其具体技术方案如下:
一种独立关系检测的场景图生成方法,包括以下步骤:
步骤一,建立独立关系检测模型;
步骤二,利用图像、图像对应的关系标签以及预定义方向锚训练所述独立关系检测模型,得到训练好的独立关系检测模型;
步骤三,使用训练好的独立关系检测模型,输入图像和预定义方向锚,输出图像中存在的关系,对其中相似的关系采用相似关系抑制算法进行抑制;
步骤四,同时将通过目标检测算法检测得到的物体包围框与所述输出图像中存在的关系的关系起始点和关系末端点进行位置匹配,得到<物体-关系-物体>的三元组,构成场景图。
进一步的,所述独立关系检测模型使用主干网络将输入图像转换为不同尺寸的包含方向信息锚的特征图,每个特征图的每个网格中包含若干个方向信息锚且通过方向信息锚计算出关系置信度、关系类别、关系向量偏差,利用预定义方向锚和所述的关系向量偏差计算出关系向量,结合特征图的网格的位置和计算出的关系置信度、关系类别、关系向量,得到进一步的关系。
进一步的,所述每个特征图的每个网格中包含多个方向信息锚且通过方向信息锚计算出关系置信度、关系类别、关系向量偏差,具体为:
所述特征图的每个网格都是一个一维向量,所述一维向量被切分为多段,每一段都是一个方向信息锚;
所述方向信息锚中包含关系置信度、关系类概率、关系向量偏差;
其中,所述关系置信度,表示关系存在的可能性;
所述关系类概率,表示每一种类别的概率,关系类概率最高的类别即为关系类别;
所述关系向量偏差包括一个角度偏差和一个长度偏差。
进一步的,所述利用预定义方向锚和所述的关系向量偏差计算出关系向量,具体为:
所述预定义方向锚与所述特征图的每个网格中包含的方向信息锚数量一致;
在建立所述独立关系检测模型时,若设定k个预定义方向锚,则每个特征图的每个网格包含k个方向信息锚;
每个所述预定义方向锚均为事先设定的值,包含极坐标系下的预定义极角
Figure DEST_PATH_IMAGE001
和预定义极径
Figure 767391DEST_PATH_IMAGE002
,为极坐标系下的极角和极径的集合;
所述极坐标系下的预定义极角
Figure 215690DEST_PATH_IMAGE001
加上角度偏差
Figure DEST_PATH_IMAGE003
得到极坐标系下的关系向量极角
Figure 418264DEST_PATH_IMAGE004
所述极坐标系下的预定义极径
Figure 219998DEST_PATH_IMAGE002
乘以长度偏差
Figure DEST_PATH_IMAGE005
得到极坐标系下的关系向量极径
Figure 221321DEST_PATH_IMAGE006
将所述极坐标系下的关系向量极角
Figure DEST_PATH_IMAGE007
和极坐标系下的关系向量极径
Figure 840521DEST_PATH_IMAGE008
,转换为笛卡尔坐标系下的关系向量,有
Figure DEST_PATH_IMAGE009
进一步的,所述结合特征图的网格的位置和计算出的关系置信度、关系类别、关系向量得到进一步的关系,具体为:
图像尺寸除以特征图尺寸得到特征图的缩放因子
Figure 45237DEST_PATH_IMAGE010
,不同尺寸的特征图对于不同尺寸的缩放因子
Figure DEST_PATH_IMAGE011
所述特征图的网格的位置为网格在特征图中的位置,宽度位置i,高度位置j;
所述网格在特征图中的位置乘以所述特征图的缩放因子,得到关系起始点
Figure 681622DEST_PATH_IMAGE012
,
Figure DEST_PATH_IMAGE013
所述关系起始点加上笛卡尔坐标系下的关系向量,即可得到关系末端点
Figure 288184DEST_PATH_IMAGE014
,
Figure DEST_PATH_IMAGE015
则得到的进一步的关系包含所述关系置信度、所述关系类别、所述关系起始点和所述关系末端点。
进一步的,所述步骤二中的关系标签包括图像中物体的位置、标注出来的物体之间的关系类别;训练所述独立关系检测模型的过程中,通过判断物体之间是否标注关系以及标注出来的物体之间的关系类别来计算方向信息锚中关系置信度和关系类别的损失,通过物体的位置、物体之间的相对位置和所述预定义方向锚来计算方向信息锚中的关系向量偏差。
进一步的,所述步骤三中的对其中相似的关系采用相似关系抑制算法进行抑制,具体为:
对于任意两个关系,两个关系的关系起始点和所述关系末端点的位置距离接近,且两个关系的关系类别一致,则认为这两个关系为相似关系;
对于图像中的相似关系,采用相似关系抑制算法将关系置信度低的关系抑制,只保留相似关系置信度高的关系。
进一步的,所述步骤四,具体为:
同时使用目标检测算法计算出图像中的物体类别和物体包围框中心点;
判断所述物体包围框中心点与所述关系的关系起始点和关系末端点的距离接近程度,若存在一个物体包围框中心点与关系起始点的距离接近,存在另一个物体包围框中心点与关系末端点距离的距离接近,则位置匹配成功;同时存在多个物体包围框中心点与关系起始点和关系末端点的距离接近时,选择距离最小的物体;
位置匹配成功后,两个物体之间存在一个关系,即可得到<物体-关系-物体>的三元组;将图像中所有的三元组组合起来,构建所述场景图。
一种独立关系检测的场景图生成系统,包括:
独立关系检测模型构建模块,用于建立主干网络,所述主干网络将图像转换为不同尺寸的包含方向信息锚的特征图,每个特征图的每个网格中包含多个方向信息锚;
独立关系检测模型训练模块,利用图像、图像对应的关系标签以及预定义方向锚训练所述独立关系检测模型;
基于独立关系检测模型的场景图生成推理模块,使用训练好的独立关系检测模型,输入图像和预定义方向锚,输出图像中存在的关系,同时将通过目标检测算法计算得到的物体与独立关系检测模型得到的关系进行位置匹配,得到<物体-关系-物体>的三元组,进而构成场景图。
一种独立关系检测的场景图生成装置,包括一个或多个处理器,用于实现所述的一种独立关系检测的场景图生成方法。
有益效果:
本发明提出的一种独立关系检测的场景图生成方法,不依赖目标检测结果的情况下,直接从原始图像中检测图像中存在的关系,检测到的关系包含关系置信度、关系类别、关系起始点和关系末端点;本发明中的独立关系检测算法能够与目标检测算法并行运算,同时,在场景图生成阶段,通过位置匹配的方式将物体和关系关联起来,大幅度降低计算复杂度,能提高场景图生成在人工智能领域的应用前景。
附图说明
图1是发明实施例提供的一种独立关系检测的场景图生成方法的流程示意图;
图2是本发明实施例提供的从图像中直接检测关系的示意图;
图3是本发明实施例提供的使用关系向量偏差和预定义方向锚计算关系向量的示意图;
图4a和图4b是本发明实施例提供的相似关系抑制算法示意图,其中图4a具体为相似关系抑制前示意图,图4b为相似关系抑制后示意图;
图5是本发明实施例提供的位置匹配示意图;
图6是本发明实施例提供的并联目标检测和独立关系检测进行场景图生成的示意图;
图7是本发明实施例提供的一种独立关系检测的场景图生成装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,本发明的一种独立关系检测的场景图生成方法,包括以下步骤:
步骤一,建立独立关系检测模型。
所述独立关系检测模型使用主干网络将输入图像转换为不同尺寸的包含方向信息锚的特征图,每个特征图的每个网格中包含若干个方向信息锚且通过方向信息锚计算出关系置信度、关系类别、关系向量偏差,利用预定义方向锚和所述的关系向量偏差计算出关系向量,结合特征图的网格的位置和计算出的关系置信度、关系类别、关系向量,得到进一步的关系。
将图像输入到主干网络,所述主干网络进行特征提取,根据特征提取的不同阶段,输出不同尺寸的包含方向信息锚的特征图。
如图2所示,在本实施例中,输入尺寸为640×640的图像,主干网络使用具有53个卷积层的darknet网络进行特征提取,分别输出7×7、14×14、28×28三个尺寸的特征图。
所述每个特征图的每个网格中包含多个方向信息锚且通过方向信息锚计算出关系置信度、关系类别、关系向量偏差,具体为:
所述特征图的每个网格都是一个一维向量;所述一维向量可以被切分为多段,每一段都是一个方向信息锚;
所述方向信息锚中包含关系置信度、关系类概率、关系向量偏差三个部分的内容。
其中,所述关系置信度用符号c表示,表示关系存在的可能性;
所述关系类概率用符号s表示,每一种类别都对应一个符号sr,表示每一种类别的概率,关系类概率最高的类别即为关系类别;
所述关系向量偏差包括一个角度偏差和一个长度偏差,分别用
Figure 202919DEST_PATH_IMAGE003
Figure 488407DEST_PATH_IMAGE005
表示。
在本实施例中脑,以最大尺寸的特征图的其中一个网格为例,取出的一维向量包含k个方向信息锚;每个方向信息锚中包含关系置信度c,关系向量偏差,r个关系类概率s1……sr。
所述利用预定义方向锚和所述的关系向量偏差计算出关系向量,具体为:
所述预定义方向锚与所述特征图的每个网格中包含的方向信息锚数量一致;
在建立所述独立关系检测模型时,若设定k个预定义方向锚,则每个特征图的每个网格包含k个方向信息锚;
每个所述预定义方向锚均为事先设定的值,包含极坐标系下的预定义极角
Figure 631943DEST_PATH_IMAGE001
和预定义极径
Figure 686487DEST_PATH_IMAGE002
,为极坐标系下的极角和极径的集合;
每个所述方向信息锚中的关系向量偏差都包含一个角度偏差
Figure 8009DEST_PATH_IMAGE003
和长度偏差
Figure 780793DEST_PATH_IMAGE005
所述极坐标系下的预定义极角加上所述角度偏差得到极坐标系下的关系向量极角
Figure 462441DEST_PATH_IMAGE004
所述极坐标系下的预定义极径乘以所述长度偏差得到极坐标系下的关系向量极径
Figure 637071DEST_PATH_IMAGE006
将所述极坐标系下的关系向量极角和极坐标系下的关系向量极径,转换为笛卡尔坐标系下的关系向量,有
Figure 628029DEST_PATH_IMAGE009
在本实施例中,展示了使用关系向量偏差和预定义方向锚计算关系向量的过程;特别地,一个预定义方向锚对应一个关系向量偏差,如图3所示,展示了一个预定义方向锚利用对应的关系向量偏差计算关系向量的结果。
所述结合特征图的网格的位置和计算出的关系置信度、关系类别、关系向量得到进一步的关系,具体为:
图像尺寸除以特征图尺寸得到特征图的缩放因子
Figure 622530DEST_PATH_IMAGE010
,不同尺寸的特征图对于不同尺寸的缩放因子
Figure 232503DEST_PATH_IMAGE011
所述特征图的网格的位置为网格在特征图中的位置,宽度位置i,高度位置j;
所述网格在特征图中的位置乘以所述特征图的缩放因子,得到关系起始点
Figure 137005DEST_PATH_IMAGE012
,
Figure 174231DEST_PATH_IMAGE013
所述关系起始点加上笛卡尔坐标系下的关系向量,即可得到关系末端点
Figure 279197DEST_PATH_IMAGE014
,
Figure 692861DEST_PATH_IMAGE015
则得到的进一步的关系包含所述关系置信度、所述关系类别、所述关系起始点和所述关系末端点;
本实施例中,最大的特征图与原始图像的缩放因子
Figure 451870DEST_PATH_IMAGE016
,以图像左上角为(0,0)点,标记出的网格位置宽度位置4,高度位置3,可以得到关系起始点为(
Figure DEST_PATH_IMAGE017
Figure 191156DEST_PATH_IMAGE018
),则关系末端点为(
Figure DEST_PATH_IMAGE019
Figure 816041DEST_PATH_IMAGE020
),关系置信度和关系类别来源于方向信息锚,以此生成所述的关系。以此类推,每个网格中的每个方向信息锚都可以生成一个关系。
步骤二,利用图像、图像对应的关系标签以及预定义方向锚训练所述独立关系检测模型,得到训练好的独立关系检测模型。
所述关系标签包括图像中物体的位置、标注出来的物体之间的关系类别;
训练所述独立关系检测模型过程中,通过判断物体之间是否标注关系以及标注出来的物体之间的关系类别来计算方向信息锚中关系置信度和关系类别的损失;
训练过程中,通过物体的位置、物体之间的相对位置和所述预定义方向锚来计算方向信息锚中的关系向量偏差。
步骤三,使用训练好的独立关系检测模型,输入图像和预定义方向锚,输出图像中存在的关系,对其中相似的关系采用相似关系抑制算法进行抑制。
所述对其中相似的关系采用相似关系抑制算法进行抑制,具体为:
每个方向信息锚都可以计算出所述关系;
只有关系置信度高于设定阈值的关系才会被保留进行后续处理,关系置信度低于设定阈值时认为关系不成立。
对于任意两个关系,两个关系的关系起始点和所述关系末端点的位置接近,且两个关系的关系类别一致,可认为这两个关系为相似关系;
对于图像中的相似关系,所述相似关系抑制算法将关系置信度低的关系抑制,只保留相似关系置信度高的关系。
如图4a和图4b所示,相似关系抑制之前,由于不同特征图和不同方向信息锚的存在,独立关系检测输出的关系对应了同样两个物体,相似关系抑制之后,过滤了一些相似的关系,只保留最高关系置信度的关系。
步骤四,同时将通过目标检测算法计算得到的物体包围框与所述输出图像中存在的关系的关系起始点和关系末端点进行位置匹配,得到<物体-关系-物体>的三元组,构成场景图。
具体地,使用目标检测算法计算出图像中的物体类别和物体包围框中心点;
所述位置匹配,具体为:判断所述物体包围框中心点与所述关系的关系起始点和关系末端点的距离接近程度,若存在一个物体包围框中心点与关系起始点的距离接近,存在另一个物体包围框中心点与关系末端点距离的距离接近,则位置匹配成功;
同时存在多个物体包围框中心点与关系起始点和关系末端点的距离接近时,选择距离最小的物体;
位置匹配成功后,两个物体之间存在一个关系,即可得到<物体-关系-物体>的三元组;
图像中所有的三元组组合起来,构建所述场景图。
如图5所示,在本实施例中,使用目标检测方法yolov5检测出图像中物体类别和物体包围框,并计算出物体包围框的中心点;计算物体包围框中心点与关系起始点和关系末端点的距离,上下关系的关系起始点与物体招牌的包围框中心点接近,上下关系的关系末端点与物体建筑物的包围框中心点接近,位置匹配成功,生成<招牌, 上下关系, 建筑物>的三元组。
如图6所示,在本实施例中,目标检测与独立关系检型并联运行,同时目标检测输出的物体类别和物体位置可以快速的与独立关系检测输出的关系进行位置匹配,最终生成多个三元组,构成场景图。
一种独立关系检测的场景图生成系统,包括:
独立关系检测模型构建模块,用于建立主干网络,主干网络能将图像转换为不同尺寸的包含方向信息锚的特征图,每个特征图的每个网格中包含多个方向信息锚;
独立关系检测模型训练模块,利用图像、图像对应的关系标签以及预定义方向锚训练所述独立关系检测模型;
基于独立关系检测模型的场景图生成推理模块,使用训练好的独立关系检测模型,输入图像和预定义方向锚,输出图像中存在的关系,将目标检测算法得到的物体与独立关系检测模型得到的关系进行位置匹配,得到<物体-关系-物体>的三元组,进而构成场景图。
与前述一种独立关系检测的场景图生成方法的实施例相对应,本发明还提供了一种独立关系检测的场景图生成装置的实施例。
参见图7,本发明实施例提供的一种独立关系检测的场景图生成装置,包括一个或多个处理器,用于实现上述实施例中的一种独立关系检测的场景图生成方法。
本发明的一种独立关系检测的场景图生成装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本发明的一种独立关系检测的场景图生成装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种独立关系检测的场景图生成方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种独立关系检测的场景图生成方法,其特征在于,包括以下步骤:
步骤一,建立独立关系检测模型;
步骤二,利用图像、图像对应的关系标签以及预定义方向锚训练所述独立关系检测模型,得到训练好的独立关系检测模型;
步骤三,使用训练好的独立关系检测模型,输入图像和预定义方向锚,输出图像中存在的关系,对其中相似的关系采用相似关系抑制算法进行抑制;
步骤四,同时将通过目标检测算法检测得到的物体包围框与所述输出图像中存在的关系的关系起始点和关系末端点进行位置匹配,得到<物体-关系-物体>的三元组,构成场景图;
所述独立关系检测模型使用主干网络将输入图像转换为不同尺寸的包含方向信息锚的特征图,每个特征图的每个网格中包含若干个方向信息锚且通过方向信息锚计算出关系置信度、关系类别、关系向量偏差,利用预定义方向锚和所述的关系向量偏差计算出关系向量,结合特征图的网格的位置和计算出的关系置信度、关系类别、关系向量,得到进一步的关系;
所述每个特征图的每个网格中包含多个方向信息锚且通过方向信息锚计算出关系置信度、关系类别、关系向量偏差,具体为:
所述特征图的每个网格都是一个一维向量,所述一维向量被切分为多段,每一段都是一个方向信息锚;
所述方向信息锚中包含关系置信度、关系类概率、关系向量偏差;
其中,所述关系置信度,表示关系存在的可能性;
所述关系类概率,表示每一种类别的概率,关系类概率最高的类别即为关系类别;
所述关系向量偏差包括一个角度偏差和一个长度偏差;
所述利用预定义方向锚和所述的关系向量偏差计算出关系向量,具体为:
所述预定义方向锚与所述特征图的每个网格中包含的方向信息锚数量一致;
在建立所述独立关系检测模型时,若设定k个预定义方向锚,则每个特征图的每个网格包含k个方向信息锚;
每个所述预定义方向锚均为事先设定的值,包含极坐标系下的预定义极角θ和预定义极径ρ,为极坐标系下的极角和极径的集合;
所述极坐标系下的预定义极角θ加上角度偏差△θ得到极坐标系下的关系向量极角θ’=θ+△θ;
所述极坐标系下的预定义极径ρ乘以长度偏差△ρ得到极坐标系下的关系向量极径ρ’=ρ×△ρ;
将所述极坐标系下的关系向量极角θ’和极坐标系下的关系向量极径ρ’,转换为笛卡尔坐标系下的关系向量,有dx=ρ’cos(θ’),dy=ρ’sin(θ’);
所述结合特征图的网格的位置和计算出的关系置信度、关系类别、关系向量得到进一步的关系,具体为:
图像尺寸除以特征图尺寸得到特征图的缩放因子σ,不同尺寸的特征图对于不同尺寸的缩放因子σi
所述特征图的网格的位置为网格在特征图中的位置,宽度位置i,高度位置j;
所述网格在特征图中的位置乘以所述特征图的缩放因子,得到关系起始点xstart=i×σ,ystart=j×σ;
所述关系起始点加上笛卡尔坐标系下的关系向量,即可得到关系末端xend=xstart+dx,yend=ystart+dy;
则得到的进一步的关系包含所述关系置信度、所述关系类别、所述关系起始点和所述关系末端点。
2.如权利要求1所述的一种独立关系检测的场景图生成方法,其特征在于,所述步骤二中的关系标签包括图像中物体的位置、标注出来的物体之间的关系类别;训练所述独立关系检测模型的过程中,通过判断物体之间是否标注关系以及标注出来的物体之间的关系类别来计算方向信息锚中关系置信度和关系类别的损失,通过物体的位置、物体之间的相对位置和所述预定义方向锚来计算方向信息锚中的关系向量偏差。
3.如权利要求1所述的一种独立关系检测的场景图生成方法,其特征在于,所述步骤三中的对其中相似的关系采用相似关系抑制算法进行抑制,具体为:
对于任意两个关系,两个关系的关系起始点和所述关系末端点的位置距离接近,且两个关系的关系类别一致,则认为这两个关系为相似关系;
对于图像中的相似关系,采用相似关系抑制算法将关系置信度低的关系抑制,只保留相似关系置信度高的关系。
4.如权利要求1所述的一种独立关系检测的场景图生成方法,其特征在于,所述步骤四,具体为:
同时使用目标检测算法计算出图像中的物体类别和物体包围框中心点;
判断所述物体包围框中心点与所述关系的关系起始点和关系末端点的距离接近程度,若存在一个物体包围框中心点与关系起始点的距离接近,存在另一个物体包围框中心点与关系末端点距离的距离接近,则位置匹配成功;同时存在多个物体包围框中心点与关系起始点和关系末端点的距离接近时,选择距离最小的物体;
位置匹配成功后,两个物体之间存在一个关系,即可得到<物体-关系-物体>的三元组;将图像中所有的三元组组合起来,构建所述场景图。
5.一种采用权利要求1至4任意一项所述的独立关系检测的场景图生成方法的系统,其特征在于,包括:
独立关系检测模型构建模块,用于建立主干网络,所述主干网络将图像转换为不同尺寸的包含方向信息锚的特征图,每个特征图的每个网格中包含多个方向信息锚;
独立关系检测模型训练模块,利用图像、图像对应的关系标签以及预定义方向锚训练所述独立关系检测模型;
基于独立关系检测模型的场景图生成推理模块,使用训练好的独立关系检测模型,输入图像和预定义方向锚,输出图像中存在的关系,同时将通过目标检测算法计算得到的物体与独立关系检测模型得到的关系进行位置匹配,得到<物体-关系-物体>的三元组,进而构成场景图。
6.一种独立关系检测的场景图生成装置,其特征在于,包括一个或多个处理器,用于实现权利要求1至4中任意一项所述的一种独立关系检测的场景图生成方法。
CN202211430055.7A 2022-11-16 2022-11-16 一种独立关系检测的场景图生成方法和系统 Active CN115512003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211430055.7A CN115512003B (zh) 2022-11-16 2022-11-16 一种独立关系检测的场景图生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211430055.7A CN115512003B (zh) 2022-11-16 2022-11-16 一种独立关系检测的场景图生成方法和系统

Publications (2)

Publication Number Publication Date
CN115512003A CN115512003A (zh) 2022-12-23
CN115512003B true CN115512003B (zh) 2023-04-28

Family

ID=84513560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211430055.7A Active CN115512003B (zh) 2022-11-16 2022-11-16 一种独立关系检测的场景图生成方法和系统

Country Status (1)

Country Link
CN (1) CN115512003B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022120665A1 (zh) * 2020-12-09 2022-06-16 电子科技大学 一种基于深度学习的电容缺陷智能检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104427553B (zh) * 2013-09-05 2019-08-02 中兴通讯股份有限公司 一种组播组优化方法及锚点
CN108769535B (zh) * 2018-07-04 2021-08-10 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和计算机设备
CN109726718B (zh) * 2019-01-03 2022-09-16 电子科技大学 一种基于关系正则化的视觉场景图生成系统及方法
EP4053801A1 (en) * 2021-03-01 2022-09-07 Honda Research Institute Europe GmbH Landmark learning and localization without labels
CN114170506A (zh) * 2021-12-01 2022-03-11 之江实验室 一种面向机器人的基于场景图的视觉场景理解系统及方法
CN114972963A (zh) * 2022-03-31 2022-08-30 浙江大学 基于关系独立和特征适应器的关系增量场景图生成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022120665A1 (zh) * 2020-12-09 2022-06-16 电子科技大学 一种基于深度学习的电容缺陷智能检测方法

Also Published As

Publication number Publication date
CN115512003A (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
US10289910B1 (en) System and method for performing real-time video object recognition utilizing convolutional neural networks
US9418429B2 (en) Method for recognizing object using covariance descriptor and apparatus thereof
US11361587B2 (en) Age recognition method, storage medium and electronic device
TWI777731B (zh) 從圖像中提取特徵的方法、裝置及計算機可讀介質
CN112991447A (zh) 一种动态环境下视觉定位与静态地图构建方法及系统
CN110852349A (zh) 一种图像处理方法、检测方法、相关设备及存储介质
JP2017062778A (ja) 画像のオブジェクトを分類するための方法およびデバイスならびに対応するコンピュータプログラム製品およびコンピュータ可読媒体
CN113657397B (zh) 循环生成网络模型的训练方法、建立字库的方法和装置
US20200272897A1 (en) Learning device, learning method, and recording medium
CN113205041B (zh) 结构化信息提取方法、装置、设备和存储介质
JP2023059794A (ja) 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み
JP2008102611A (ja) 画像処理装置
WO2018100668A1 (en) Image processing device, image processing method, and image processing program
CN114565668A (zh) 即时定位与建图方法及装置
CN113793370B (zh) 三维点云配准方法、装置、电子设备及可读介质
CN112541484A (zh) 人脸抠图方法、系统、电子装置及存储介质
CN114119990B (zh) 用于图像特征点匹配的方法、装置及计算机程序产品
CN117437624B (zh) 违禁品检测方法、装置及电子设备
CN115512003B (zh) 一种独立关系检测的场景图生成方法和系统
CN112507938A (zh) 一种文本图元的几何特征计算方法及识别方法、装置
CN116994319A (zh) 训练模型的方法和人脸识别方法、设备、介质
CN113379592B (zh) 图片中敏感区域的处理方法、装置和电子设备
WO2023273227A1 (zh) 指甲识别方法、装置、设备及存储介质
Jiang et al. High precision deep learning-based tabular position detection
CN114093006A (zh) 活体人脸检测模型的训练方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant