CN114413910A - 视觉目标导航方法及装置 - Google Patents

视觉目标导航方法及装置 Download PDF

Info

Publication number
CN114413910A
CN114413910A CN202210328453.1A CN202210328453A CN114413910A CN 114413910 A CN114413910 A CN 114413910A CN 202210328453 A CN202210328453 A CN 202210328453A CN 114413910 A CN114413910 A CN 114413910A
Authority
CN
China
Prior art keywords
target
visual
feature representation
navigation
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210328453.1A
Other languages
English (en)
Other versions
CN114413910B (zh
Inventor
杨旭
许涛
郑碎武
乔红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210328453.1A priority Critical patent/CN114413910B/zh
Publication of CN114413910A publication Critical patent/CN114413910A/zh
Application granted granted Critical
Publication of CN114413910B publication Critical patent/CN114413910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种视觉目标导航方法及装置,所述方法包括:基于目标图像,获取目标层级关系特征表示和第一视觉特征表示;并根据目标类别信息,获取类别编码;根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码,获取预测导航动作。本发明通过编码目标类别,赋予机器人在视觉目标导航中的推理能力,一定程度上弥补了全局信息的缺失;通过“目标‑区域”层级关系使得机器人的推理更为高效,在提高导航成功率的同时大幅减少导航步数和时间,在缺乏全局信息输入的条件下,机器人可以快速且精准的完成导航任务。

Description

视觉目标导航方法及装置
技术领域
本发明涉及机器人技术领域,尤其涉及一种视觉目标导航方法及装置。
背景技术
随着机器人领域相关技术的不断发展,机器人技术的应用范围越来越广泛,而对于机器人和其他无人系统来说,目标导航技术无疑是至关重要的。然而传统的机器人目标导航技术对传感器的要求非常高,导航系统过于繁杂,这一定程度上制约了机器人技术的发展。
现如今,视觉目标导航技术仅采用单目相机作为传感器输入,端到端地完成目标导航任务,这大大降低了无人系统的部署成本,使得机器人技术的应用发展更为迅速。
然而,视觉目标导航技术仅采用局部视觉输入作为唯一传感器输入,缺乏地图和GPS等全局信息,使得机器人在未知环境中很难快速且精准地完成导航任务。显然,这不符合机器人领域追求的快速、精准的目标性能要求。
因此,在缺乏全局信息输入的条件下,机器人很难快速且精准的完成导航任务是急需解决的技术问题。
发明内容
本发明提供一种视觉目标导航方法及装置,用以解决现有技术中在缺乏全局信息输入的条件下,机器人很难快速且精准的完成导航任务的缺陷。
本发明提供一种视觉目标导航方法,包括:
基于目标图像,获取目标层级关系特征表示和第一视觉特征表示;并根据目标类别信息,获取类别编码;
根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码,获取预测导航动作。
可选地,所述基于目标图像,获取目标层级关系特征表示和第一视觉特征表示,包括:
对所述目标图像进行目标检测,获取目标特征;
根据所述目标特征,获取目标级关系图;
对所述目标级关系图进行坍缩,获取区域级关系图;
将所述目标级关系图对应的目标级目标特征表示和所述区域级关系图对应的区域级目标特征表示进行融合,获取所述目标层级关系特征表示。
可选地,所述根据所述目标特征,获取目标级关系图,包括:
根据所述目标特征对目标之间的关联性进行编码,获取所述目标级关系图。
可选地,所述根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码,获取预测导航动作,包括:
将所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码进行融合,获取第二视觉特征表示;
将所述第二视觉特征表示输入导航策略模块,获取预测导航动作。
可选地,所述导航策略模块是利用异步优势表演者-评论家框架对长短期记忆网络进行训练得到的。
可选地,所述区域级目标特征表示是利用图卷积网络对所述区域级关系图进行卷积处理得到的。
本发明还提供一种视觉目标导航装置,包括:
第一获取模块,用于基于目标图像,获取目标层级关系特征表示和第一视觉特征表示;并根据目标类别信息,获取类别编码;
第二获取模块,用于根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码,获取预测导航动作。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述中的任一项所述视觉目标导航方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述中的任一项所述视觉目标导航方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述中的任一项所述视觉目标导航方法。
本发明提供的视觉目标导航方法及装置,通过编码目标类别,赋予机器人在视觉目标导航中的推理能力,一定程度上弥补了全局信息的缺失;通过“目标-区域”层级关系使得机器人的推理更为高效,在提高导航成功率的同时大幅减少导航步数和时间,在缺乏全局信息输入的条件下,机器人可以快速且精准的完成导航任务。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的视觉目标导航方法的流程示意图;
图2是本发明提供的视觉目标导航方法的原理示意图;
图3是本发明提供的视觉目标导航装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的视觉目标导航方法的流程示意图,如图1所示,本发明提供一种视觉目标导航方法,该方法包括:
步骤101,基于目标图像,获取目标层级关系特征表示和第一视觉特征表示;并根据目标类别信息,获取类别编码。
具体地,目标图像是指输入机器人第一视角的红绿蓝(Red Green Blue, RGB)图像。目标类别信息是指输入机器人的各种不同物体类别信息。
图2是本发明提供的视觉目标导航方法的原理示意图,如图2所示,利用一个在ImageNet数据集上训练好的18层深度残差网络(Deep Residual network 18, Resnet-18)网络对输入的RGB图像进行处理,提取图像的视觉特征,从而获取了目标图像的第一视觉特征表示。
利用独热编码器对目标类别信息进行编码,从而获取了类别编码。编码目标类别之间的关联性,赋予机器人在导航过程中一定的推理能力,一定程度上弥补了全局信息的缺失。
基于目标图像,编码目标层级关系,获取目标层级关系特征表示,使机器人的推理更加高效。
可选地,所述基于目标图像,获取目标层级关系特征表示和第一视觉特征表示,包括:
对目标图像进行目标检测,获取目标特征;
根据目标特征,获取目标级关系图;
对目标级关系图进行坍缩,获取区域级关系图;
将目标级关系图对应的目标级目标特征表示和区域级关系图对应的区域级目标特征表示进行融合,获取目标层级关系特征表示。
具体地,采用一个在ImageNet数据集上预训练并在AI2-iTHOR环境下进行微调过的更快的基于区域的卷积神经网络(Faster Region-based Convolutional NeuralNetwork, Faster-RCNN)对输入的RGB图像进行目标检测。
将目标检测结果的预测框、置信度以及目标类别标签进行整合作为目标特征。目标特征为编码目标之间的关联性提供了重要特征。
目标特征的表达式如下所示:
Figure 404432DEST_PATH_IMAGE001
式中,
Figure 915179DEST_PATH_IMAGE002
表示目标特征,
Figure 884403DEST_PATH_IMAGE003
表示预测框左上角的横坐标值,
Figure 822403DEST_PATH_IMAGE004
表示预测框左上 角的纵坐标值,
Figure 509868DEST_PATH_IMAGE005
表示预测框右下角的横坐标值,
Figure 276835DEST_PATH_IMAGE006
表示预测框右下角的纵坐标值,
Figure 428462DEST_PATH_IMAGE007
表示目标检测的置信度,
Figure 475047DEST_PATH_IMAGE008
表示目标类别标签。
再根据目标特征获取目标级关系图。目标级关系图是指在目标级别的表达目标之间关系的图。
可选地,根据目标特征,获取目标级关系图,包括:
根据目标特征对目标之间的关联性进行编码,获取目标级关系图。
具体地,将得到的目标特征作为图的节点特征,将目标之间的关联性进行编码后作为图的边,构造目标级关系图。目标级关系图的本质是一个知识图谱。目标之间的关联性可以根据目标特征之间的关联性进行确定。
对目标之间的关联性进行编码的过程就是确定目标级关系图中边信息参数的过程。这个过程是先对目标关系图中的边信息参数进行随机初始化,然后对目标关系图进行训练,最终让目标关系图收敛,从而得到边信息的确定参数。
目标级关系图的表达式如下所示:
Figure 458264DEST_PATH_IMAGE009
式中,
Figure 310813DEST_PATH_IMAGE010
表示目标级关系图,
Figure 254630DEST_PATH_IMAGE011
表示目标类别的个数,
Figure 65591DEST_PATH_IMAGE012
表示目标级关系图的邻 接矩阵。邻接矩阵是存放目标级关系图中边的数据的二维数组。
对目标级关系图进行初始化之后,采用图卷积神经网络对目标级关系图进行卷积,从而得到了目标级关系图对应的目标级目标特征表示。
目标级关系图对应的目标级目标特征表示的表达式如下所示:
Figure 993227DEST_PATH_IMAGE013
式中,
Figure 587150DEST_PATH_IMAGE014
表示目标级目标特征表示,
Figure 165899DEST_PATH_IMAGE015
表示修正线性单元(Rectified linear unit, ReLU)激活函数,
Figure 351024DEST_PATH_IMAGE016
表示目标级关系图的邻接矩阵,
Figure 500377DEST_PATH_IMAGE017
表示所有目标特征
Figure 694729DEST_PATH_IMAGE018
组成的 特征矩阵,
Figure 878716DEST_PATH_IMAGE019
表示目标级关系图对应的卷积嵌入矩阵。
通过利用目标特征对目标之间的关联性进行编码,构建了目标级关系图,结合目标类别编码,使得机器人在导航过程中具备推理能力。
利用改良版可微池化(Differentiable Pooling, DIFFPOOL)算法对目标级关系图进行坍缩,得到了区域级关系图。区域级关系图是指在区域级别的表达目标之间关系的图。
根据区域级关系图可以获取区域级目标特征表示。
可选地,区域级目标特征表示是利用图卷积网络对区域级关系图进行卷积处理得到的。
具体地,得到区域级关系图之后,利用图卷积网络对区域级关系图进行卷积处理,得到了区域级目标特征表示。
区域级目标特征表示的表达式如下所示:
Figure 703584DEST_PATH_IMAGE020
式中,
Figure 323921DEST_PATH_IMAGE021
表示区域级目标特征表示,
Figure 525227DEST_PATH_IMAGE022
表示ReLU激活函数,
Figure 563721DEST_PATH_IMAGE023
表示区域级关系 图的邻接矩阵,
Figure 356228DEST_PATH_IMAGE024
表示区域级关系图的顶点特征,
Figure 745752DEST_PATH_IMAGE025
表示区域级关系图对应的卷积嵌 入矩阵。
区域级关系图的邻接矩阵
Figure 468857DEST_PATH_IMAGE026
的表达式如下所示:
Figure 361858DEST_PATH_IMAGE027
式中,
Figure 579126DEST_PATH_IMAGE028
表示区域级关系图的邻接矩阵,
Figure 924788DEST_PATH_IMAGE029
表示分配矩阵,
Figure 264634DEST_PATH_IMAGE030
表示目标级关系图的 邻接矩阵。
区域级关系图的顶点特征
Figure 746562DEST_PATH_IMAGE031
的表达式如下所示:
Figure 598980DEST_PATH_IMAGE032
式中,
Figure 494255DEST_PATH_IMAGE033
表示区域级关系图的顶点特征,
Figure 106633DEST_PATH_IMAGE034
表示分配矩阵,
Figure 974226DEST_PATH_IMAGE035
表示目标级目标特征 表示。
分配矩阵
Figure 482699DEST_PATH_IMAGE036
的表达式如下所示:
Figure 599690DEST_PATH_IMAGE037
式中,
Figure 484601DEST_PATH_IMAGE036
表示分配矩阵,
Figure 3438DEST_PATH_IMAGE038
表示归一化指数函数,
Figure 213971DEST_PATH_IMAGE039
表示ReLU激活函 数,
Figure 536368DEST_PATH_IMAGE040
表示目标级关系图的邻接矩阵,
Figure 693811DEST_PATH_IMAGE041
表示所有目标特征
Figure 67154DEST_PATH_IMAGE042
组成的特征矩阵,
Figure 917430DEST_PATH_IMAGE043
表示池 化嵌入矩阵。
明确了区域级目标特征表示的获取方式,有利于根据区域级目标特征表示获取目标层级关系特征表示,进一步有利于使机器人的推理更为高效。
将目标级目标特征表示
Figure 274593DEST_PATH_IMAGE044
和区域级目标特征表示
Figure 247446DEST_PATH_IMAGE045
进行融合,获取目标层级关系 特征表示。
通过编码“目标-区域”层级关系使得机器人的推理更为高效,在提高导航成功率的同时大幅减少导航步数和时间,提高了导航效率。
步骤102,根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码,获取预测导航动作。
具体地,在获取目标层级关系特征表示、第一视觉特征表示和类别编码之后,在第一视觉特征表示的基础上,利用目标级关系图作为先验信息,结合类别编码,赋予机器人对导航动作的推理能力,再利用目标层级关系特征表示,使机器人对导航动作的推理更加高效。
可选地,根据目标层级关系特征表示、第一视觉特征表示和类别编码,获取预测导航动作,包括:
将目标层级关系特征表示、第一视觉特征表示和类别编码进行融合,获取第二视觉特征表示;
将第二视觉特征表示输入导航策略模块,获取预测导航动作。
具体地,将目标层级关系特征表示、第一视觉特征表示和类别编码进行融合,得到第二视觉特征表示。第二视觉特征表示是最终的视觉表示特征。
将第二视觉特征表示输入导航策略模块,导航策略模块根据输入的第二视觉特征表示获取预测的导航动作。
通过利用目标层级关系特征表示、第一视觉特征表示和类别编码进行融合,获取最终的视觉表示特征,再根据最终的视觉表示特征,获取预测导航动作,实现了在缺乏全局信息输入的条件下,机器人可以快速且精准的完成导航任务。
可选地,导航策略模块是利用异步优势表演者-评论家框架对长短期记忆网络进行训练得到的。
具体地,导航策略模块采用长短期记忆网络(Long Short-Term Memory, LSTM)作为预测器,预测器用于预测导航动作。
利用异步优势表演者-评论家(Asynchronous Advantage Actor-Critic, A3C)框架对LSTM进行训练,训练好的LSTM作为导航策略模块。
通过A3C框架对LSTM进行训练得到了导航策略模块,进一步有利于导航策略模块输出快速且精准的预测导航动作。
本发明提供的视觉目标导航方法,通过编码目标类别,赋予机器人在视觉目标导航中的推理能力,一定程度上弥补了全局信息的缺失;通过“目标-区域”层级关系使得机器人的推理更为高效,在提高导航成功率的同时大幅减少导航步数和时间,在缺乏全局信息输入的条件下,机器人可以快速且精准的完成导航任务。
本发明提供的视觉目标导航方法已经在AI2-iTHOR数据集上进行了实验,数据集包含4个场景,分别是厨房、客厅、浴室和卧室,每个场景30个房间,从每个场景中的30个房间里挑出20个房间作为训练集,5个房间作为验证集,剩余5个房间作为测试集。
表1是不同视觉导航模型在AI2-iTHOR数据集上的性能表,采用了四种代表性的视觉导航模型与本发明提供的视觉目标导航方法进行比较,四种代表性的视觉导航模型分别是:D-SP、D-SAVN、ORG和HOZ,表1中ALL表示所有实验结果,L≧5表示最优路径不小于5的实验结果,SR表示成功率,SPL表示路径长度加权成功率。
表1 不同视觉导航模型在AI2-iTHOR数据集上的性能表
Figure 740875DEST_PATH_IMAGE046
由表1中的实验数据可以看出,本发明提供的视觉目标导航方法在四个衡量指标上均大幅高于对比的D-SP模型、D-SAVN模型和ORG模型,略优于HOZ模型。
将HOZ模型与本发明提供的视觉目标导航方法在导航效率上进行了对比,表2是HOZ模型与本发明提供的视觉目标导航方法的性能表,表2中ALL表示所有实验结果,L≧5表示最优路径不小于5的实验结果,SR表示成功率,SPL表示路径长度加权成功率。
表2 HOZ模型与本发明提供的视觉目标导航方法的性能表
Figure 276899DEST_PATH_IMAGE047
由表2中的实验数据可以看出,在HOZ模型与本发明提供的视觉目标导航方法在达到相近导航效果的情况下,本发明提供的视觉目标导航方法的导航步数大幅减少,导航效率大幅提高。
下面对本发明提供的视觉目标导航装置进行描述,下文描述的视觉目标导航装置与上文描述的视觉目标导航方法可相互对应参照。
图3是本发明提供的视觉目标导航装置的结构示意图,如图3所示,本发明还提供一种视觉目标导航装置,包括:第一获取模块301和第二获取模块302,其中:
第一获取模块301用于基于目标图像,获取目标层级关系特征表示和第一视觉特征表示;并根据目标类别信息,获取类别编码;
第二获取模块302用于根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码,获取预测导航动作。
具体来说,本申请实施例提供的视觉目标导航装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行视觉目标导航方法,该方法包括:基于目标图像,获取目标层级关系特征表示和第一视觉特征表示;并根据目标类别信息,获取类别编码;根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码,获取预测导航动作。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的视觉目标导航方法,该方法包括:基于目标图像,获取目标层级关系特征表示和第一视觉特征表示;并根据目标类别信息,获取类别编码;根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码,获取预测导航动作。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的视觉目标导航方法,该方法包括:基于目标图像,获取目标层级关系特征表示和第一视觉特征表示;并根据目标类别信息,获取类别编码;根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码,获取预测导航动作。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
本申请实施例中术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种视觉目标导航方法,其特征在于,包括:
基于目标图像,获取目标层级关系特征表示和第一视觉特征表示;并根据目标类别信息,获取类别编码;
根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码,获取预测导航动作。
2.根据权利要求1所述的视觉目标导航方法,其特征在于,所述基于目标图像,获取目标层级关系特征表示和第一视觉特征表示,包括:
对所述目标图像进行目标检测,获取目标特征;
根据所述目标特征,获取目标级关系图;
对所述目标级关系图进行坍缩,获取区域级关系图;
将所述目标级关系图对应的目标级目标特征表示和所述区域级关系图对应的区域级目标特征表示进行融合,获取所述目标层级关系特征表示。
3.根据权利要求2所述的视觉目标导航方法,其特征在于,所述根据所述目标特征,获取目标级关系图,包括:
根据所述目标特征对目标之间的关联性进行编码,获取所述目标级关系图。
4.根据权利要求1所述的视觉目标导航方法,其特征在于,所述根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码,获取预测导航动作,包括:
将所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码进行融合,获取第二视觉特征表示;
将所述第二视觉特征表示输入导航策略模块,获取预测导航动作。
5.根据权利要求4所述的视觉目标导航方法,其特征在于,所述导航策略模块是利用异步优势表演者-评论家框架对长短期记忆网络进行训练得到的。
6.根据权利要求2所述的视觉目标导航方法,其特征在于,所述区域级目标特征表示是利用图卷积网络对所述区域级关系图进行卷积处理得到的。
7.一种视觉目标导航装置,其特征在于,包括:
第一获取模块,用于基于目标图像,获取目标层级关系特征表示和第一视觉特征表示;并根据目标类别信息,获取类别编码;
第二获取模块,用于根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码,获取预测导航动作。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中的任一项所述视觉目标导航方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中的任一项所述视觉目标导航方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中的任一项所述视觉目标导航方法。
CN202210328453.1A 2022-03-31 2022-03-31 视觉目标导航方法及装置 Active CN114413910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210328453.1A CN114413910B (zh) 2022-03-31 2022-03-31 视觉目标导航方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210328453.1A CN114413910B (zh) 2022-03-31 2022-03-31 视觉目标导航方法及装置

Publications (2)

Publication Number Publication Date
CN114413910A true CN114413910A (zh) 2022-04-29
CN114413910B CN114413910B (zh) 2022-07-12

Family

ID=81264152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210328453.1A Active CN114413910B (zh) 2022-03-31 2022-03-31 视觉目标导航方法及装置

Country Status (1)

Country Link
CN (1) CN114413910B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1506862A (zh) * 2002-12-11 2004-06-23 中国科学院自动化研究所 基于多dsp并行处理的自主移动机器人平台
CN101625573A (zh) * 2008-07-09 2010-01-13 中国科学院自动化研究所 基于数字信号处理器的巡线机器人单目视觉导航系统
CN102087530A (zh) * 2010-12-07 2011-06-08 东南大学 基于手绘地图和路径的移动机器人视觉导航方法
CN103278170A (zh) * 2013-05-16 2013-09-04 东南大学 基于显著场景点检测的移动机器人级联地图创建方法
CN109063823A (zh) * 2018-07-24 2018-12-21 北京工业大学 一种智能体探索3d迷宫的批a3c强化学习方法
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及系统
CN110633394A (zh) * 2019-08-28 2019-12-31 浙江工业大学 基于特征加强的图压缩方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
CN111260039A (zh) * 2020-05-06 2020-06-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于辅助任务学习的视频游戏决策方法
CN112200848A (zh) * 2020-10-30 2021-01-08 中国科学院自动化研究所 低光照弱对比复杂环境下的深度相机视觉增强方法及系统
CN112508181A (zh) * 2020-12-18 2021-03-16 南京航空航天大学 一种基于多通道机制的图池化方法
US20210264256A1 (en) * 2020-02-25 2021-08-26 Robert Bosch Gmbh Method, device and computer program for predicting a suitable configuration of a machine learning system for a training data set
CN113392584A (zh) * 2021-06-08 2021-09-14 华南理工大学 基于深度强化学习和方向估计的视觉导航方法
CN113574566A (zh) * 2021-05-14 2021-10-29 北京大学深圳研究生院 目标检测网络构建优化方法、装置、设备、介质及产品
CN113836339A (zh) * 2021-09-01 2021-12-24 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1506862A (zh) * 2002-12-11 2004-06-23 中国科学院自动化研究所 基于多dsp并行处理的自主移动机器人平台
CN101625573A (zh) * 2008-07-09 2010-01-13 中国科学院自动化研究所 基于数字信号处理器的巡线机器人单目视觉导航系统
CN102087530A (zh) * 2010-12-07 2011-06-08 东南大学 基于手绘地图和路径的移动机器人视觉导航方法
CN103278170A (zh) * 2013-05-16 2013-09-04 东南大学 基于显著场景点检测的移动机器人级联地图创建方法
CN109063823A (zh) * 2018-07-24 2018-12-21 北京工业大学 一种智能体探索3d迷宫的批a3c强化学习方法
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及系统
CN110633394A (zh) * 2019-08-28 2019-12-31 浙江工业大学 基于特征加强的图压缩方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
US20210264256A1 (en) * 2020-02-25 2021-08-26 Robert Bosch Gmbh Method, device and computer program for predicting a suitable configuration of a machine learning system for a training data set
CN111260039A (zh) * 2020-05-06 2020-06-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于辅助任务学习的视频游戏决策方法
CN112200848A (zh) * 2020-10-30 2021-01-08 中国科学院自动化研究所 低光照弱对比复杂环境下的深度相机视觉增强方法及系统
CN112508181A (zh) * 2020-12-18 2021-03-16 南京航空航天大学 一种基于多通道机制的图池化方法
CN113574566A (zh) * 2021-05-14 2021-10-29 北京大学深圳研究生院 目标检测网络构建优化方法、装置、设备、介质及产品
CN113392584A (zh) * 2021-06-08 2021-09-14 华南理工大学 基于深度强化学习和方向估计的视觉导航方法
CN113836339A (zh) * 2021-09-01 2021-12-24 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SIXIAN ZHANG等: "Hierarchical Object-to-Zone Graph for Object Navigation", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, 28 February 2022 (2022-02-28), pages 15110 - 15120 *
ZHENGLI ZHAI等: "Multi-Scale Dynamic Graph Convolution Network for Point Clouds Classification", 《IEEE ACCESS》, 2 April 2020 (2020-04-02) *
于帮国: "面向视觉感知的室内移动机器人语义目标导航方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》, no. 12, 15 December 2021 (2021-12-15) *
张暄: "基于深度网络的场景图像识别技术", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》, no. 03, 15 March 2022 (2022-03-15), pages 18 - 30 *
徐冰冰等: "图卷积神经网络综述", 《计算机学报》, no. 05, 31 May 2020 (2020-05-31) *

Also Published As

Publication number Publication date
CN114413910B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN109166144B (zh) 一种基于生成对抗网络的图像深度估计方法
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN109033107B (zh) 图像检索方法和装置、计算机设备和存储介质
CN111832592B (zh) Rgbd显著性检测方法以及相关装置
CN113095370B (zh) 图像识别方法、装置、电子设备及存储介质
CN110222718B (zh) 图像处理的方法及装置
CN109300151B (zh) 图像处理方法和装置、电子设备
KR20130122662A (ko) 이미지들의 비교 방법 및 시스템
EP3074926A1 (en) Method and system for exacting face features from data of face images
CN114694185B (zh) 一种跨模态目标重识别方法、装置、设备及介质
CN111008631B (zh) 图像的关联方法及装置、存储介质和电子装置
CN109685830B (zh) 目标跟踪方法、装置和设备及计算机存储介质
CN115147598A (zh) 目标检测分割方法、装置、智能终端及存储介质
CN112668608A (zh) 一种图像识别方法、装置、电子设备及存储介质
CN111179270A (zh) 基于注意力机制的图像共分割方法和装置
WO2023087063A1 (en) Method and system for analysing medical images to generate a medical report
CN114091594A (zh) 模型训练方法及装置、设备、存储介质
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN115346207A (zh) 一种基于实例结构相关性的二维图像中三维目标检测方法
CN115062779A (zh) 基于动态知识图谱的事件预测方法及装置
CN116206196B (zh) 一种海洋低光环境多目标检测方法及其检测系统
CN115601551A (zh) 对象识别方法、装置、存储介质及电子设备
CN115620122A (zh) 神经网络模型的训练方法、图像重识别方法及相关设备
CN111160198B (zh) 基于宽度学习的物体识别方法及系统
CN114413910B (zh) 视觉目标导航方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant