CN115512214A - 一种基于因果注意力的室内视觉导航方法 - Google Patents

一种基于因果注意力的室内视觉导航方法 Download PDF

Info

Publication number
CN115512214A
CN115512214A CN202211273306.5A CN202211273306A CN115512214A CN 115512214 A CN115512214 A CN 115512214A CN 202211273306 A CN202211273306 A CN 202211273306A CN 115512214 A CN115512214 A CN 115512214A
Authority
CN
China
Prior art keywords
visual
navigation
image
features
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211273306.5A
Other languages
English (en)
Inventor
罗光春
朱大勇
戴瑞婷
董强
张清扬
张晨曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202211273306.5A priority Critical patent/CN115512214A/zh
Publication of CN115512214A publication Critical patent/CN115512214A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/206Instruments for performing navigational calculations specially adapted for indoor navigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及视觉导航技术,其公开了一种基于因果注意力的室内视觉导航方法,解决传统室内视觉导航方案存在的过度关注特征间虚假相关性,降低模型泛化能力的问题。该方法包括:对历史导航轨迹各位置处的导航方向图像进行聚类,计算聚类中心;接着,提取当前位置各观测方向的视觉特征、位置特征以及表征同各聚类中心距离的全局特征,并融合当前的历史状态特征,基于自注意力机制和因果注意力机制,计算获取视觉环境状态特征;然后,根据各方向视觉特征与视觉环境状态特征的相关性,预测当前位置导航动作,并根据预测导航动作和视觉环境状态特征更新历史状态特征,直至完成导航任务。

Description

一种基于因果注意力的室内视觉导航方法
技术领域
本发明涉及视觉导航技术,具体涉及一种基于因果注意力的室内视觉导航方法。
背景技术
室内视觉导航是涉及室内视觉环境的导航任务,旨在依据从环境中观测的视觉图像,预测并执行导航动作,以到达指定目的地,完成导航目标。现有用以解决室内视觉导航的方法大致包括两个步骤,其一是视觉环境状态理解,其二是导航动作预测。
视觉状态理解类方法聚焦于理解观测的视觉图像信息、分析环境状态,通过构建具有复杂结构和机制的表征模型,对各时刻的环境视觉状态特征和历史状态特征进行提取。
导航动作预测类方法则旨在依据视觉状态特征预测导航动作,通过构建有效的路径规划策略、环境探索模式和奖励反馈机制,制定最佳导航动作序列,以到达指定目的地,完成导航任务。
由于室内视觉导航环境中复杂高维的状态空间,以及表示学习和大规模预训练模型等技术的发展,现有工作大多关注于视觉环境状态理解类方法。现有基于Transformer的室内视觉导航方法中,视觉环境状态理解类方法通过构建具有强大特征表征能力的表示模型,并从大规模图像预训练模型中获取的先验知识,显著地提升了导航模型的预测性能。然而,受环境隐藏因素的影响,该类方法存在过度关注虚假相关性的问题,在未知环境的泛化预测效果相对一般。
发明内容
本发明所要解决的技术问题是:提出一种基于因果注意力的室内视觉导航方法,解决传统室内视觉导航方案存在的过度关注特征间虚假相关性,降低模型泛化能力的问题。
本发明解决上述技术问题采用的技术方案是:
一种基于因果注意力的室内视觉导航方法,包括以下步骤:
A、数据准备
获取室内视觉图像数据集,所述室内视觉图像数据集包括一组导航轨迹数据,各导航轨迹数据分别包括由位置序列构成的导航轨迹以及导航轨迹上各位置处的视觉图像序列,各视觉图像序列分别包括在对应位置处各个观测方向的图像;
并基于导航轨迹数据,构建到达终点前导航轨迹各位置处的导航方向对应图像所构成的导航图像序列,所述导航方向对应图像为从对应位置的视觉图像序列中,按对应位置到达导航轨迹下一位置的方向所确定的图像;然后,对所有导航轨迹数据的导航图像序列,进行视觉特征提取并聚类,获得聚类中心;
B、通过室内视觉导航模型执行室内视觉导航任务:
B1、以导航起点位置作为初始的当前位置,并随机初始化历史状态特征;
B2、观测当前位置的各个观测方向,获得当前位置的视觉图像序列,提取当前位置视觉图像序列中各图像的视觉特征,并编码获得各观测方向的位置特征,并根据各图像的视觉特征与各聚类中心的距离,获得各图像的全局特征;
B3、将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征,获得其各图像的视觉图像特征;
融合各图像的视觉图像特征及其位置特征,并通过自注意力机制,计算当前位置视觉图像序列各图像的自注意力特征;
融合各图像的视觉图像特征和位置特征,构建查询向量;根据各图像的全局特征,构建键向量和值向量,然后,基于构建的查询向量、键向量和值向量,通过因果注意力机制,计算当前位置视觉图像序列各图像的因果注意力特征;
然后,融合各图像的自注意力特征及其因果注意力特征,获得当前位置视觉图像序列各图像的视觉环境状态特征;
B4、根据预设的可导航方向,计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性,根据相关性预测当前位置的导航动作;
B5、根据当前位置的导航动作确定导航的下一位置,判定是否到达终点或者是否达到预设的最大导航步数,若是,则结束导航,否则,执行步骤B6;
B6、根据步骤B3获得的当前位置的视觉环境状态特征,以及步骤B4预测的当前位置的导航动作,更新历史状态特征;将当前位置导航动作确定的下一位置以及更新后的历史状态特征作为输入,返回步骤B2。
进一步的,按如下步骤训练室内视觉导航模型:
C1、以室内视觉图像数据集作为训练数据集并计算获得聚类中心;
C2、从训练数据集提取一条导航轨迹数据,将其全部或部分作为本轮训练的导航轨迹数据;
C3、从输入的导航轨迹数据中,提取其起点的视觉图像序列,作为初始输入的视觉图像序列,并随机初始化历史状态特征;
C4、以输入视觉图像序列对应位置作为当前位置,提取当前位置视觉图像序列中各图像的视觉特征,并编码获得各观测方向的位置特征,并根据各图像的视觉特征与各聚类中心的距离,获得各图像的全局特征;
C5、将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征,获得其各图像的视觉图像特征;然后,计算当前位置的自注意力特征和因果注意力特征,并融合自注意力特征及其因果注意力特征,获得视觉环境状态特征;
C6、根据预设的可导航方向,计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性,根据相关性预测当前位置的导航动作;
C7、判定是否到达输入导航轨迹数据的终点,若是,则执行步骤C9,否则执行步骤C8;
C8、根据步骤C5获得的当前位置的视觉环境状态特征,以及步骤C6预测的当前位置的导航动作,更新历史状态特征;从导航轨迹数据中,提取导航轨迹下一位置的视觉图像序列,并将该视觉图像序列以及更新后的历史状态特征作为输入,返回步骤C4;
C9、根据各位置处预设的专家导航动作和预测的导航动作,计算其损失,并根据累计损失对室内视觉导航模型的参数进行更新;
C10、重复步骤C2-C9进行迭代训练,直至满足训练终止条件,获得训练好的室内视觉导航模型。
进一步的,在步骤B中,初始时,采用训练时获得的聚类中心,并将训练时室内视觉图像数据集的导航轨迹数据作为初始的历史导航轨迹数据;在执行室内视觉导航任务后,收集已实际完成的导航任务的导航轨迹数据,在收集达到设定数量后,根据收集到的导航轨迹数据对历史导航轨迹数据进行更新,并基于更新后的历史导航轨迹数据对聚类中心进行更新。
进一步的,步骤C9中,累计损失按如下损失函数计算:
L=w1Lil+w2Lrl
其中,w1和w2均为可训练参数,Lil表示模仿学习产生的损失,Lrl表示强化学习产生的损失,所述强化学习采用执行者评论者框架,其中执行者网络为室内视觉导航模型,评论者网络为前馈神经网络;
其中,Lil和Lrl分别按如下公式计算:
Figure BDA0003895995000000031
Figure BDA0003895995000000032
其中,at表示t时刻位置的预测的导航动作,
Figure BDA0003895995000000033
表示t时刻位置的预设的专家导航动作,πt表示t时刻位置视觉图像序列视觉特征与其对应视觉环境状态特征之间的相关性,Gt表示t时刻位置执行者网络的累计收益,TDt为t时刻位置评论者网络的输出并如下公式计算:
TDt=max(0,πtWTD1)WTD2
其中,WTD1和WTD2为可训练参数。
进一步的,按如下公式,计算执行者网络的累计收益Gt
Figure BDA0003895995000000041
Figure BDA0003895995000000042
其中,pcur表示t时刻位置的预测的导航动作所对应的下一时刻的位置,pgoal表示t时刻专家导航动作所对应的下一时刻的位置,dis(·)表示欧式距离,γt表示t时刻的衰减因子。
具体的,聚类中心的计算,包括:
D1、提取各导航轨迹数据的导航图像序列中各图像的视觉特征,并将提取获得的所有视觉特征构成全局视觉特征数据集;
D2、设定K个聚类中心并初始化;
D3、根据全局视觉特征数据集,分别计算其中各视觉特征与各聚类中心的欧式距离;
D4、基于各视觉特征与各聚类中心的最小距离,对各视觉特征进行分类;
D5、按如下公式对聚类中心的值进行更新:
Figure BDA0003895995000000043
其中,gk表示第k个聚类中心的值,Ck表示第k个聚类中心所包含视觉特征的集合;
D6、重复上述步骤D3~D5,对聚类中心的值进行迭代更新,直至所有聚类中心值的变化小于预设阈值或超过预设迭代轮次。
具体的,根据当前位置视觉图像序列中各图像的视觉特征与各聚类中心的距离,获得全局特征
Figure BDA0003895995000000044
其中,
Figure BDA0003895995000000045
表示第i个观测方向的图像的全局特征,N为观测方向的数量,并按如下步骤计算:
分别计算第i个观测方向的图像的视觉特征与K个聚类中心的距离,并取其与K个聚类中心距离的均值,作为其全局特征
Figure BDA0003895995000000046
具体的,将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征,获得其各图像的视觉图像特征,包括:
首先,将视觉特征Ft={f1,f2,…fi,…,fN}分别进行全局平均池化;
然后,采用向量拼接的形式,将历史状态特征Ht-1分别融入全局平均池化后的各个视觉特征,获得各图像的视觉图像特征Ct={c1,c2,…ci,…,cN},其中,t表示当前位置,t-1表示当前位置的上一位置。
具体的,位置特征采用预训练BERT模型进行绝对位置编码。
具体的,各步骤中,均采用残差神经网络提取图像的视觉特征。
具体的,融合各图像的视觉图像特征及其位置特征,并通过自注意力机制,计算当前位置视觉图像序列各图像的自注意力特征,包括:
首先,通过拼接的方式融合视觉图像特征及其位置特征,然后,通过不同参数的多层感知机网络,将融合获得的特征转换为查询向量Qs、键向量Ks和值向量Vs
Qs=max(0,(Ct+PEt)Wqs+bqs)
Ks=max(0,(Ct+PEt)Wks+bks)
Vs=max(0,(Ct+PEt)Wvs+bvs)
其中,Ct表示当前位置的视觉图像特征,PEt表示当前位置的位置特征,Wqs、bqs、Wks、bks、Wvs以及bvs均为多层感知机网络的参数;
然后,计算注意力权重as
Figure BDA0003895995000000051
其中,dim为多层感知机网络的维度,T表示矩阵转置;
最后,通过注意力权重和值向量,计算获得自注意力特征:
SAt=softmax(asVs)
其中,SAt表示当前位置的自注意力特征。
具体的,融合各图像的视觉图像特征和位置特征,构建查询向量;根据各图像的全局特征,构建键向量和值向量,然后,基于构建的查询向量、键向量和值向量,通过因果注意力机制,计算当前位置视觉图像序列各图像的因果注意力特征,包括:
首先,通过拼接的方式融合视觉图像特征及其位置特征,然后,通过多层感知机网络,将融合获得的特征转换为查询向量Qc
Qc=max(0,(Ct+PEt)Wqc+bqc)
并通过不同参数的多层感知机网络,将当前位置对应的视觉图像序列的全局特征,转换为键向量Kc和值向量Vc
Figure BDA0003895995000000052
Figure BDA0003895995000000053
其中,Ct表示当前位置的视觉图像特征,PEt表示当前位置的位置特征,
Figure BDA0003895995000000054
表示全局特征,Wqc、bqc、Wkc、bkc、Wvc以及bvc均为多层感知机网络的参数;
然后,计算注意力权重ac
Figure BDA0003895995000000061
其中,dim为多层感知机网络的维度,T表示矩阵转置;
最后,通过注意力权重和值向量,计算获得因果注意力特征:
CAt=softmax(acVc)
其中,CAt表示当前位置的因果注意力特征。
具体的,融合各图像的自注意力特征及其因果注意力特征,获得当前位置视觉图像序列各图像的视觉环境状态特征,包括:
首先,通过向量拼接的方式,融合自注意力特征SAt和因果注意力特征CAt,获得融合特征[SAt,CAt];
然后,采用前馈神经网络,将融合特征[SAt,CAt],转换为视觉环境状态特征St
St=max(0,[SAt,CAt]Wffn1+bffn1)Wffn2+bffn2
其中,
Figure BDA0003895995000000062
均为前馈神经网络的参数,dim为注意力计算中构建查询向量、键向量和值向量的编码网络的维度,N为观测方向的数量。
进一步的,所述导航轨迹数据,还包括导航轨迹各位置处的可导航方向标签,在步骤C6中,仅将具有可导航方向标签的方向作为可导航方向;在步骤B4中,将所有观测方向作为可导航方向。
具体的,根据预设的可导航方向,计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性,根据相关性预测当前位置的导航动作,包括:
首先,计算当前位置视觉图像序列各可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性πt
Figure BDA0003895995000000063
其中,
Figure BDA0003895995000000064
表示当前位置视觉图像序列中可导航方向的图像的视觉特征,St表示当前位置视觉图像序列中可导航方向的图像的视觉环境状态特征;
然后,根据相关性πt预测当前位置的导航动作at
at=argmaxmπt,m
其中,πt,m表示vt序列中第m个方向的相关性。
具体的,根据当前位置的视觉环境状态特征,以及预测的当前位置的导航动作,更新历史状态特征,包括:
首先,通过重置门,筛选当前位置的视觉环境状态特征St和预测的当前位置的导航动作ar的关键特征,并将其融合到当前位置的上一时刻的历史状态特征Ht-1
rt=σ(WrHt-1+Ur[Stt,at])
Figure BDA0003895995000000071
其中,πt表示当前位置视觉图像序列各可导航方向图像的视觉特征与其对应视觉环境状态特征之间的相关性,rt表示遗忘门权重,Wr、Ur、Wg和Ug均为可训练参数,σ(·)和tanh(·)表示激活函数,⊙表示哈达曼积运算,t表示当前位置,t-1表示当前位置的上一位置;
然后,通过更新门,筛选需保留的有效历史信息zt,并将其融合到当前位置的上一时刻的历史状态特征Ht-1,对历史状态特征进行更新:
zt=σ(WzHt-1+Uz[Stt,at])
Figure BDA0003895995000000072
其中,zt表示更新门权重,Wz和Uz均为可训练参数。
本发明的有益效果是:
现有基于Transformer的室内觉语言导航方法,通过自注意力机制捕获视觉特征之间的相关性,以预测导航动作。然而,自注意力机制的相关性计算,受限于训练数据集中特征之间的共现频率,容易捕获到虚假相关性,导致其训练的模型仅在训练数据集中表现良好,在其他数据集中表现不佳。
而本发明提出的因果注意力机制,则通过干预的方式修正错误相关性,即将当前特征映射为其他特征,以判断在其他场景下是否仍然存在相关性,以此达到提升模型在未知环境的泛化能力。具体的讲,本发明根据历史的导航轨迹数据构建聚类中心,并根据聚类中心获得当前位置各观测方向的全局特征,然后,通过因果注意力机制,修正自注意机制捕获的错误相关性,提升模型在未知测试环境的预测准确性。
附图说明
图1为本发明实施例中的室内视觉导航模型训练流程图;
图2为本发明实施例中的视觉环境状态特征提取过程图;
图3为本发明实施例中的导航动作预测过程图;
图4为本发明实施例中的历史状态特征更新过程图。
具体实施方式
本发明旨在提出一种基于因果注意力的室内视觉导航方法,解决传统室内视觉导航方案存在的过度关注特征间虚假相关性,降低模型泛化能力的问题。该基于因果注意力的室内视觉导航方法,包括室内视觉导航模型训练和利用模型执行导航任务两大部分,但流程类似,以下部分以室内视觉导航模型训练为主进行阐述。
该方法在室内视觉导航模型训练过程中,首先,根据视觉图像数据集,对其中各导航轨迹各位置处的导航方向对应图像进行聚类,计算聚类中心;接着,提取当前时刻图像的视觉特征和位置特征,根据视觉特征与聚类中心的距离,计算全局特征;接着,将视觉特征融合历史状态特征和位置特征,通过自注意力机制,计算自注意力特征,并根据视觉特征融合历史状态特征和位置特征构建查询向量,以图像全局特征构建键向量和值向量,通过因果注意力机制,计算因果注意力特征;然后,融合自注意力特征和因果注意力特征,获得各图像的视觉环境状态特征;再然后,通过计算当前位置视觉特征与对应视觉环境状态特征之间的相关性,预测当前位置的导航动作;最后,根据预测的当前位置导航动作和当前位置的视觉环境状态特征,更新历史状态特征,将更新后的历史状态特征与下一导航位置的图像作为输入,并采用完成导航实例任务后的累计损失进行迭代训练,获得训练好的室内视觉导航模型。
下面结合附图及实施例对本发明的方案作进一步的描述。
为了便于理解,首先对本实施例中可能涉及的技术名词进行说明:
残差神经网络(Residual Network,Resnet):是一种用于图像识别的卷积神经网络模型,主要由若干堆叠的残差层组成,目前在各种计算机视觉任务中,常被用于提取输入图像的视觉特征。
注意力机制(Attention):是一种选择性处理特征的机制,主要由查询向量、键向量、值向量和注意力运算组成,目前已成为大多数深度学习模型中不可或缺的基础组件。
Transformer:是一种基于自注意力机制的编码器-解码器模型,最初应用于机器翻译和序列建模等序列转换任务,并成为自然语言处理领域主要的深度学习模型。由于其强大的性能表现,Transformer逐渐被广泛应用于计算机视觉领域,以提取图像的视觉特征。
执行者-评论者(Actor-Critic,AC):是强化学习中求解最优策略的一种最常用的方法,其同时结合策略梯度和价值估计这两种策略求解方式,主要由策略网络和价值评估网络组成。
前门调整(Front Door Adjustment,FDA):是因果推理中一种实现干预的方法,通过阻断前门路径对干预分布进行估计,即使在无法有效观测隐藏混杂因素的情况下,依然能分析特征变量间因果关系。
实施例:
其中,模型训练过程,如图1所示,具体说明如下:
S1、训练数据集数据预处理
训练采用室内视觉图像数据集作为训练数据集。所述室内视觉图像数据集包括一组导航轨迹数据,各导航轨迹数据分别包括由位置序列构成的导航轨迹以及导航轨迹上各位置处的视觉图像序列,各视觉图像序列分别包括在对应位置处各个观测方向的图像。
假定当前位置为t,则t位置的视觉图像序列,可表示为Vt={v1,v2,…vi,…,vN},其中,N表示观测方向的数量,vi表示t位置处在第i个观测方向观测获得的图像,图像格式均为RGB图像,可表示为
Figure BDA0003895995000000091
H和W分别表示图像的高度和宽度。
然后,基于导航轨迹数据,构建到达终点前导航轨迹各位置处的导航方向对应图像所构成的导航图像序列,所述导航方向对应图像为从对应位置的视觉图像序列中,按对应位置到达导航轨迹下一位置的方向所确定的图像;然后,对所有导航轨迹数据的导航图像序列,进行视觉特征提取并聚类,获得聚类中心。
聚类中心的计算,包括:
a1、通过Resnet-164残差神经网络,提取各导航轨迹数据的导航图像序列中各图像的视觉特征,并将提取获得的所有视觉特征构成全局视觉特征数据集。除残差神经网络以外,视觉特征的提取也可以采用现有的其他方式,比如Transformer。
a2、设定K个聚类中心,并从全局视觉特征数据集,随机采样K个视觉特征,作为K个聚类中心的初始化值。聚类中心的初始化,也可以采用其他的方式,如随机赋值或人工赋值。
a3、根据全局视觉特征数据集,分别计算其中各视觉特征与各聚类中心的欧式距离;
a4、基于各视觉特征与各聚类中心的最小距离,对各视觉特征进行分类;
a5、按如下公式对聚类中心的值进行更新:
Figure BDA0003895995000000092
其中,gk表示第k个聚类中心的值,Ck表示第k个聚类中心所包含视觉特征的集合;
a6、重复上述步骤a3~a5,对聚类中心的值进行迭代更新,直至所有聚类中心值的变化小于预设阈值或超过预设迭代轮次。若超过预设迭代轮次,则表明计算失败,应重新进行聚类计算。
S2、提取导航轨迹数据并训练室内视觉导航模型
S21、从训练数据集提取一条导航轨迹数据作为训练的输入。若提取的导航轨迹数据的导航步较多,也可以将其进行分段输入,也即在训练过程中,仅提取其部分作为输入。
S22、初始化:从输入的导航轨迹数据中,提取其起点的视觉图像序列,作为初始输入的视觉图像序列,并随机初始化历史状态特征。
S23、以输入视觉图像序列对应位置作为当前位置,提取当前位置视觉图像序列中各图像的视觉特征,并编码获得各观测方向的位置特征,并根据各图像的视觉特征与各聚类中心的距离,获得各图像的全局特征。
针对本实施例中,各类特征的提取,具体说明如下:
一、视觉特征提取
对于当前位置t观测获得的视觉图像序列为Vt={v1,v2,…vi,…,vN},使用Resnet-164残差神经网络,提取视觉特征Ft={f1,f2,…fi,…,fN},fi表示t位置处的第i个方向的视觉特征。
二、位置特征编码
由于在后续的视觉环境状态特征提取过程中,无法通过视觉图像特征识别各图像的位置关系,需要一个位置编码向量,以表征图像的方向位置信息。因此,本发明通过位置特征表征图像的方向位置信息,且位置特征和后续的视觉图像特征的维度相同。
实施例中,位置特征采用预训练BERT模型进行绝对位置编码,编码过程为:
首先,初始化位置特征PEt={pe1,pe2,…pei,…,peN},其初始化可以采用任意的现有方式,在实施例中为PEt={[1,1,..,1],[2,2..,2]…,[N,N,..,N]},其中,pei表示第i个观测方向的位置特征,N为观测方向的数量,t表示当前位置;
然后,将初始化位置特征,输入预训练BERT模型,通过学习获得每个位置的绝对位置编码。
上述预训练BERT模型,其来自Google的论文Pre-training of DeepBidirectional Transformers for Language Understanding,其使用了Transformer的Encoder模块,BERT是“Bidirectional Encoder Representations from Transformers”的首字母缩写。
三、全局特征提取
根据当前位置视觉图像序列中各图像的视觉特征与各聚类中心的距离,获得全局特征
Figure BDA0003895995000000101
其中,
Figure BDA0003895995000000102
表示第i个观测方向的图像的全局特征,N为观测方向的数量,并按如下步骤计算:
分别计算第i个观测方向的图像的视觉特征与K个聚类中心的距离,并取其与K个聚类中心距离的均值,作为其全局特征
Figure BDA0003895995000000103
S24、计算图像的视觉环境状态特征
视觉环境状态特征,如图2所示,为融合图像的自注意力特征及其因果注意力特征所获得,用以捕获视觉特征之间的关联关系和因果关系。
本步骤中,首先,将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征,获得其各图像的视觉图像特征。
然后,融合各图像的视觉图像特征及其位置特征,并通过自注意力机制,计算当前位置视觉图像序列各图像的自注意力特征。融合各图像的视觉图像特征和位置特征,构建查询向量;根据各图像的全局特征,构建键向量和值向量,然后,基于构建的查询向量、键向量和值向量,通过因果注意力机制,计算当前位置视觉图像序列各图像的因果注意力特征。
最后,融合各图像的自注意力特征及其因果注意力特征,获得当前位置视觉图像序列各图像的视觉环境状态特征。
具体说明如下:
一、计算视觉图像特征
首先,为了方便进行向量拼接,将视觉特征Ft={f1,f2,…fi,…,fN}分别进行全局平均池化,将张量降维为向量;
然后,采用向量拼接的形式,将历史状态特征Ht-1分别融入全局平均池化后的各个视觉特征,获得各图像的视觉图像特征Ct={c1,c2,…ci,…,cN},其中,t表示当前位置,t-1表示当前位置的上一位置。
二、计算自注意力特征
首先,通过拼接的方式融合视觉图像特征及其位置特征,然后,通过不同参数的多层感知机网络,将融合获得的特征转换为查询向量Qs、键向量Ks和值向量Vs
Qs=max(0,(Ct+PEt)Wqs+bqs)
Ks=max(0,(Ct+PEt)Wks+bks)
Vs=max(0,(Ct+PEt)Wvs+bvs)
其中,Ct表示当前位置的视觉图像特征,PEt表示当前位置的位置特征,Wqs、bqs、Wks、bks、Wvs以及bvs均为多层感知机网络的参数;
然后,计算注意力权重as
Figure BDA0003895995000000111
其中,dim为多层感知机网络的维度,T表示矩阵转置;
最后,通过注意力权重和值向量,计算获得自注意力特征:
SAt=softmax(asVs)
其中,SAt表示当前位置的自注意力特征。
三、计算因果注意力特征
首先,通过拼接的方式融合视觉图像特征及其位置特征,然后,通过多层感知机网络,将融合获得的特征转换为查询向量Qc
Qc=max(0,(Ct+PEt)Wqc+bqc)
并通过不同参数的多层感知机网络,将当前位置对应的视觉图像序列的全局特征,转换为键向量Kc和值向量Vc
Figure BDA0003895995000000121
Figure BDA0003895995000000122
其中,Ct表示当前位置的视觉图像特征,PEt表示当前位置的位置特征,
Figure BDA0003895995000000123
表示全局特征,Wqc、bqc、Wkc、bkc、Wvc以及bvc均为多层感知机网络的参数;
然后,计算注意力权重ac
Figure BDA0003895995000000124
其中,dim为多层感知机网络的维度,T表示矩阵转置;
最后,通过注意力权重和值向量,计算获得因果注意力特征:
CAt=softmax(acVc)
其中,CAt表示当前位置的因果注意力特征。
因果注意力机制,是基于因果推理的前门调整方式,通过阻断前门路径,干预变量输入,分析特征变量间因果关系,以纠正自注意力机制在已知训练数据中建立的虚假相关性。实际实施过程,如果依次使用训练数据集的所有导航轨迹数据进行干预,会消耗大量计算资源,因此,本发明使用全局特征进行代替。因此,为了保证全局特征的代表性,保证模型的泛化性能,在执行室内视觉导航任务时,初始时,采用训练时获得的聚类中心,并将训练时室内视觉图像数据集的导航轨迹数据作为初始的历史导航轨迹数据;在执行室内视觉导航任务后,收集已实际完成的导航任务的导航轨迹数据,在收集达到设定数量后,根据收集到的导航轨迹数据对历史导航轨迹数据进行更新,并基于更新后的历史导航轨迹数据按步骤a1~a6对聚类中心进行更新。
四、融合自注意力特征和因果注意力特征
首先,通过向量拼接的方式,融合自注意力特征SAt和因果注意力特征CAt,获得融合特征[SAt,CAt];
然后,采用前馈神经网络,将融合特征[SAt,CAt],转换为视觉环境状态特征St
St=max(0,[SAt,CAt]Wffn1+bffn1)Wffn2+bffn2
其中,
Figure BDA0003895995000000125
均为前馈神经网络的参数,dim为注意力计算中构建查询向量、键向量和值向量的编码网络的维度,N为观测方向的数量。
S25、预测当前位置导航动作
本步骤中,首先,根据预设的可导航方向,计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性,然后,根据相关性预测当前位置的导航动作,过程如图3所示,具体包括:
首先,计算当前位置视觉图像序列各可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性πt
Figure BDA0003895995000000131
其中,
Figure BDA0003895995000000132
表示当前位置视觉图像序列中可导航方向的图像的视觉特征,St表示当前位置视觉图像序列中可导航方向的图像的视觉环境状态特征;
然后,根据相关性πt预测当前位置的导航动作at
at=argmaxmπt,m
其中,πt,m表示πt序列中第m个方向的相关性。
上述的可导航方向,可以是所有的观测方向,但为了缩小探索空间,提高训练效率,在实施例的训练过程中,设置可导航方向标签进行标注,也即所述导航轨迹数据,还包括导航轨迹各位置处的可导航方向标签,在训练时的上述步骤中,仅将具有可导航方向标签的方向作为可导航方向;而在实际执行室内视觉导航任务的陌生环境中,则将所有观测方向作为可导航方向。具体的说,在位置t各观测方向获得的视觉图像序列为Vt={v1,v2,…vi,…,vN},可导航方向标签对应一个取值范围为0或1的掩码向量Maskt={0,1,…1,…,0},其中,赋值1表示可导航,此时,可导航方向的图像为Ot={v2,...,vi,…}。而在实际执行室内视觉导航任务时,对于陌生的环境,掩码向量可全置为1,即Maskt={1,1,…1,…,1}。
S26、迭代训练
由于导航是By step的形式,仅完成当前步的动作预测,并不能说明其已经完成本轮导航实例任务。因此,本步骤中,首先,判定是否到达输入导航轨迹数据的终点,若是,则构建迭代输入并返回迭代,否则,进行损失计算并更新参数。
其中,构建迭代输入并返回迭代为:根据步骤S24获得的当前位置的视觉环境状态特征,以及步骤S25预测的当前位置的导航动作,更新历史状态特征;从导航轨迹数据中,提取导航轨迹下一位置的视觉图像序列,并将该视觉图像序列以及更新后的历史状态特征作为输入,返回步骤S23。
进一步的讲,历史状态特征表征已完成导航过程的历史信息,其更新,也即将当前步的信息和当前步之前的历史信息进行融合,因此,可以采用门控网络,对当前位置的视觉环境状态特征和导航动作同当前位置的历史状态特征进行融合。
本实施例中,如图4所示,具体包括:
首先,通过重置门,筛选当前位置的视觉环境状态特征St和预测的当前位置的导航动作at的关键特征,并将其融合到当前位置的上一时刻的历史状态特征Ht-1
rt=σ(WrHt-1+Ur[Stt,at])
Figure BDA0003895995000000141
其中,πt表示当前位置视觉图像序列各可导航方向图像的视觉特征与其对应视觉环境状态特征之间的相关性,rt表示遗忘门权重,Wr、Ur、Wg和Ug均为可训练参数,σ(·)和tanh(·)表示激活函数,⊙表示哈达曼积运算,t表示当前位置,t-1表示当前位置的上一位置;
然后,通过更新门,筛选需保留的有效历史信息zr,并将其融合到当前位置的上一时刻的历史状态特征Ht-1,对历史状态特征进行更新:
zt=σ(WzHt-1+Uz[Stt,at])
Figure BDA0003895995000000142
其中,zt表示更新门权重,Wz和Uz均为可训练参数。
上述损失计算并更新参数,则按完成本轮导航实例任务的累计损失进行训练。
在本实施例中,训练方式包括两部分:即强化学习训练和模仿学习训练。
1)强化学习训练:室内视觉导航方法,将环境反馈的累积奖励作为监督信号,并使用该信号训练导航模型参数,通过强化学习训练方式,引导模型输出高潜在奖励收益的动作,可以促进模型尽可能预测到任务相关的正确导航轨迹。
2)模仿学习训练:
室内视觉导航模型训练依赖于有效的反馈奖励,而环境复杂且庞大的状态空间导致模型通常难以探索到正确的正奖励轨迹,增加训练难度。因此,通过模仿学习训练引导模型预测专家动作,尽可能探索到和专家数据相似的正奖励轨迹,以快速学习到导航先验知识。
具体的讲,累计损失按如下损失函数计算:
L=w1Lil+w2Lrl
其中,w1和w2均为可训练参数,Lil表示模仿学习产生的损失,Lrl表示强化学习产生的损失,所述强化学习采用执行者评论者框架,其中执行者网络为室内视觉导航模型,评论者网络为前馈神经网络;
其中,Lil和Lrl分别按如下公式计算:
Figure BDA0003895995000000151
Figure BDA0003895995000000152
其中,at表示t时刻位置的预测的导航动作,
Figure BDA0003895995000000153
表示t时刻位置的预设的专家导航动作,πt表示t时刻位置视觉图像序列视觉特征与其对应视觉环境状态特征之间的相关性,Gt表示t时刻位置执行者网络的累计收益,TDt为t时刻位置评论者网络的输出并如下公式计算:
TDt=max(0,πtWTD1)WTD2
强化学习方式中,导航模型每一时刻会从环境中获得反馈收益rt,反馈收益用于衡量导航效果,可依据实际环境自行定义。在实施例中,上述的执行者网络的累计收益Gt,按如下公式计算:
Figure BDA0003895995000000154
Figure BDA0003895995000000155
其中,pcur表示t时刻位置的预测的导航动作所对应的下一时刻的位置,pgoal表示t时刻专家导航动作所对应的下一时刻的位置,dis(·)表示欧式距离,γt表示t时刻的衰减因子。
在完成损失函数计算后,根据训练损失,对模型参数进行反向传播更新,模型参数包括提取视觉特征的残差神经网络参数、进行位置编码的预训练BERT模型参数、两个注意力计算中的各个多层感知机网络的参数、更新历史状态特征的门控网络的参数、计算视觉环境状态特征的前馈神经网络参数以及评论者网络的前馈神经网络参数。
在完成参数更新后,则判定是否完成训练,若是,则结束训练,获得训练好的室内视觉导航模型;否则,重复步骤S21-S26进行迭代训练,直至满足训练终止条件。训练终止条件,包括模型收敛或者达到设定的最大训练迭代数,若达到设定的最大训练迭代数,而模型仍未收敛,则应重新进行训练。
在获得完成训练的模型后,即可将该模型用于实际应用,具体的讲,包括:
步骤一、观测当前位置的各个观测方向,获得当前位置的视觉图像序列,根据训练完成的室内视觉导航模型以及聚类中心,预测当前位置的导航动作;
步骤二、根据当前位置的导航动作确定导航的下一位置,判定是否到达终点或者是否达到预设的最大导航步数,若是,则结束导航,否则,将当前位置导航动作确定的下一位置作为输入并返回步骤一。
针对达到预设的最大导航步数的情况,可以将结束导航时的位置作为新的起点进行导航;或者,对模型进行重新训练后,再次进行导航。
尽管这里参照本发明的实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (16)

1.一种基于因果注意力的室内视觉导航方法,其特征在于,包括以下步骤:
A、数据准备
获取室内视觉图像数据集,所述室内视觉图像数据集包括一组导航轨迹数据,各导航轨迹数据分别包括由位置序列构成的导航轨迹以及导航轨迹上各位置处的视觉图像序列,各视觉图像序列分别包括在对应位置处各个观测方向的图像;
并基于导航轨迹数据,构建到达终点前导航轨迹各位置处的导航方向对应图像所构成的导航图像序列,所述导航方向对应图像为从对应位置的视觉图像序列中,按对应位置到达导航轨迹下一位置的方向所确定的图像;然后,对所有导航轨迹数据的导航图像序列,进行视觉特征提取并聚类,获得聚类中心;
B、通过室内视觉导航模型执行室内视觉导航任务:
B1、以导航起点位置作为初始的当前位置,并随机初始化历史状态特征;
B2、观测当前位置的各个观测方向,获得当前位置的视觉图像序列,提取当前位置视觉图像序列中各图像的视觉特征,并编码获得各观测方向的位置特征,并根据各图像的视觉特征与各聚类中心的距离,获得各图像的全局特征;
B3、将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征,获得其各图像的视觉图像特征;
融合各图像的视觉图像特征及其位置特征,并通过自注意力机制,计算当前位置视觉图像序列各图像的自注意力特征;
融合各图像的视觉图像特征和位置特征,构建查询向量;根据各图像的全局特征,构建键向量和值向量,然后,基于构建的查询向量、键向量和值向量,通过因果注意力机制,计算当前位置视觉图像序列各图像的因果注意力特征;
然后,融合各图像的自注意力特征及其因果注意力特征,获得当前位置视觉图像序列各图像的视觉环境状态特征;
B4、根据预设的可导航方向,计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性,根据相关性预测当前位置的导航动作;
B5、根据当前位置的导航动作确定导航的下一位置,判定是否到达终点或者是否达到预设的最大导航步数,若是,则结束导航,否则,执行步骤B6;
B6、根据步骤B3获得的当前位置的视觉环境状态特征,以及步骤B4预测的当前位置的导航动作,更新历史状态特征;将当前位置导航动作确定的下一位置以及更新后的历史状态特征作为输入,返回步骤B2。
2.如权利要求1所述的一种基于因果注意力的室内视觉导航方法,其特征在于,按如下步骤训练室内视觉导航模型:
C1、以室内视觉图像数据集作为训练数据集并计算获得聚类中心;
C2、从训练数据集提取一条导航轨迹数据,将其全部或部分作为本轮训练的导航轨迹数据;
C3、从输入的导航轨迹数据中,提取其起点的视觉图像序列,作为初始输入的视觉图像序列,并随机初始化历史状态特征;
C4、以输入视觉图像序列对应位置作为当前位置,提取当前位置视觉图像序列中各图像的视觉特征,并编码获得各观测方向的位置特征,并根据各图像的视觉特征与各聚类中心的距离,获得各图像的全局特征;
C5、将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征,获得其各图像的视觉图像特征;然后,计算当前位置的自注意力特征和因果注意力特征,并融合自注意力特征及其因果注意力特征,获得视觉环境状态特征;
C6、根据预设的可导航方向,计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性,根据相关性预测当前位置的导航动作;
C7、判定是否到达输入导航轨迹数据的终点,若是,则执行步骤C9,否则执行步骤C8;
C8、根据步骤C5获得的当前位置的视觉环境状态特征,以及步骤C6预测的当前位置的导航动作,更新历史状态特征;从导航轨迹数据中,提取导航轨迹下一位置的视觉图像序列,并将该视觉图像序列以及更新后的历史状态特征作为输入,返回步骤C4;
C9、根据各位置处预设的专家导航动作和预测的导航动作,计算其损失,并根据累计损失对室内视觉导航模型的参数进行更新;
C10、重复步骤C2-C9进行迭代训练,直至满足训练终止条件,获得训练好的室内视觉导航模型。
3.如权利要求2所述的一种基于因果注意力的室内视觉导航方法,其特征在于,
在步骤B中,初始时,采用训练时获得的聚类中心,并将训练时室内视觉图像数据集的导航轨迹数据作为初始的历史导航轨迹数据;在执行室内视觉导航任务后,收集已实际完成的导航任务的导航轨迹数据,在收集达到设定数量后,根据收集到的导航轨迹数据对历史导航轨迹数据进行更新,并基于更新后的历史导航轨迹数据对聚类中心进行更新。
4.如权利要求2所述的一种基于因果注意力的室内视觉导航方法,其特征在于,
步骤C9中,累计损失按如下损失函数计算:
L=w1Lil+w2Lrl
其中,w1和w2均为可训练参数,Lil表示模仿学习产生的损失,Lrl表示强化学习产生的损失,所述强化学习采用执行者评论者框架,其中执行者网络为室内视觉导航模型,评论者网络为前馈神经网络;
其中,Lil和Lrl分别按如下公式计算:
Figure FDA0003895994990000031
Figure FDA0003895994990000032
其中,at表示t时刻位置的预测的导航动作,
Figure FDA0003895994990000033
表示t时刻位置的预设的专家导航动作,πt表示t时刻位置视觉图像序列视觉特征与其对应视觉环境状态特征之间的相关性,Gt表示t时刻位置执行者网络的累计收益,TDt为t时刻位置评论者网络的输出并如下公式计算:
TDt=max(0,πtWTD1)WTD2
其中,WTD1和WTD2为可训练参数。
5.如权利要求4所述的一种基于因果注意力的室内视觉导航方法,其特征在于,
按如下公式,计算执行者网络的累计收益Gt
Figure FDA0003895994990000034
Figure FDA0003895994990000035
其中,pcur表示t时刻位置的预测的导航动作所对应的下一时刻的位置,pgoal表示t时刻专家导航动作所对应的下一时刻的位置,dis(·)表示欧式距离,γt表示t时刻的衰减因子。
6.如权利要求1、2或3任一项所述的一种基于因果注意力的室内视觉导航方法,其特征在于,聚类中心的计算,包括:
D1、提取各导航轨迹数据的导航图像序列中各图像的视觉特征,并将提取获得的所有视觉特征构成全局视觉特征数据集;
D2、设定K个聚类中心并初始化;
D3、根据全局视觉特征数据集,分别计算其中各视觉特征与各聚类中心的欧式距离;
D4、基于各视觉特征与各聚类中心的最小距离,对各视觉特征进行分类;
D5、按如下公式对聚类中心的值进行更新:
Figure FDA0003895994990000036
其中,gk表示第k个聚类中心的值,Ck表示第k个聚类中心所包含视觉特征的集合;
D6、重复上述步骤D3~D5,对聚类中心的值进行迭代更新,直至所有聚类中心值的变化小于预设阈值或超过预设迭代轮次。
7.如权利要求1或2任一项所述的一种基于因果注意力的室内视觉导航方法,其特征在于,根据当前位置视觉图像序列中各图像的视觉特征与各聚类中心的距离,获得全局特征
Figure FDA0003895994990000041
Figure FDA0003895994990000042
其中,
Figure FDA0003895994990000043
表示第i个观测方向的图像的全局特征,N为观测方向的数量,并按如下步骤计算:
分别计算第i个观测方向的图像的视觉特征与K个聚类中心的距离,并取其与K个聚类中心距离的均值,作为其全局特征
Figure FDA0003895994990000044
8.如权利要求1或2任一项所述的一种基于因果注意力的室内视觉导航方法,其特征在于,将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征,获得其各图像的视觉图像特征,包括:
首先,将视觉特征Ft={f1,f2,…fi,…,fN}分别进行全局平均池化;
然后,采用向量拼接的形式,将历史状态特征Ht-1分别融入全局平均池化后的各个视觉特征,获得各图像的视觉图像特征Ct={c1,c2,…ci,…,cN},其中,t表示当前位置,t-1表示当前位置的上一位置。
9.如权利要1或2任一项所述的一种基于因果注意力的室内视觉导航方法,其特征在于,位置特征采用预训练BERT模型进行绝对位置编码。
10.如权利要求1或2任一项所述的一种基于因果注意力的室内视觉导航方法,其特征在于,各步骤中,均采用残差神经网络提取图像的视觉特征。
11.如权利要求1或2任一项所述的一种基于因果注意力的室内视觉导航方法,其特征在于,融合各图像的视觉图像特征及其位置特征,并通过自注意力机制,计算当前位置视觉图像序列各图像的自注意力特征,包括:
首先,通过拼接的方式融合视觉图像特征及其位置特征,然后,通过不同参数的多层感知机网络,将融合获得的特征转换为查询向量Qs、键向量Ks和值向量Vs
Qs=max(0,(Ct+PEt)Wqs+bqs)
Ks=max(0,(Ct+PEt)Wks+bks)
Vs=max(0,(Ct+PEt)Wvs+bvs)
其中,Ct表示当前位置的视觉图像特征,PEt表示当前位置的位置特征,Wqs、bqs、Wks、bks、Wvs以及bvs均为多层感知机网络的参数;
然后,计算注意力权重as
Figure FDA0003895994990000051
其中,dim为多层感知机网络的维度,T表示矩阵转置;
最后,通过注意力权重和值向量,计算获得自注意力特征:
SAt=softmax(asVs)
其中,SAt表示当前位置的自注意力特征。
12.如权利要求1或2任一项所述的一种基于因果注意力的室内视觉导航方法,其特征在于,融合各图像的视觉图像特征和位置特征,构建查询向量;根据各图像的全局特征,构建键向量和值向量,然后,基于构建的查询向量、键向量和值向量,通过因果注意力机制,计算当前位置视觉图像序列各图像的因果注意力特征,包括:
首先,通过拼接的方式融合视觉图像特征及其位置特征,然后,通过多层感知机网络,将融合获得的特征转换为查询向量Qc
Qc=max(0,(Ct+PEt)Wqc+bqc)
并通过不同参数的多层感知机网络,将当前位置对应的视觉图像序列的全局特征,转换为键向量Kc和值向量Vc
Figure FDA0003895994990000052
Figure FDA0003895994990000053
其中,Ct表示当前位置的视觉图像特征,PEt表示当前位置的位置特征,
Figure FDA0003895994990000054
表示全局特征,Wqc、bqc、Wkc、bkc、Wvc以及bvc均为多层感知机网络的参数;
然后,计算注意力权重ac
Figure FDA0003895994990000055
其中,dim为多层感知机网络的维度,T表示矩阵转置;
最后,通过注意力权重和值向量,计算获得因果注意力特征:
CAt=softmax(acVc)
其中,CAt表示当前位置的因果注意力特征。
13.如权利要求1或2任一项所述的一种基于因果注意力的室内视觉导航方法,其特征在于,融合各图像的自注意力特征及其因果注意力特征,获得当前位置视觉图像序列各图像的视觉环境状态特征,包括:
首先,通过向量拼接的方式,融合自注意力特征SAt和因果注意力特征CAt,获得融合特征[SAt,CAt];
然后,采用前馈神经网络,将融合特征[SAt,CAt],转换为视觉环境状态特征St
St=max(0,[SAt,CAt]Wffn1+bffn1)Wffn2+bffn2
其中,
Figure FDA0003895994990000061
均为前馈神经网络的参数,dim为注意力计算中构建查询向量、键向量和值向量的编码网络的维度,N为观测方向的数量。
14.如权利要求2所述的一种基于因果注意力的室内视觉导航方法,其特征在于,所述导航轨迹数据,还包括导航轨迹各位置处的可导航方向标签,在步骤C6中,仅将具有可导航方向标签的方向作为可导航方向;在步骤B4中,将所有观测方向作为可导航方向。
15.如权利要求1、2或14任一项所述的一种基于因果注意力的室内视觉导航方法,其特征在于,根据预设的可导航方向,计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性,根据相关性预测当前位置的导航动作,包括:
首先,计算当前位置视觉图像序列各可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性πt
Figure FDA0003895994990000062
其中,
Figure FDA0003895994990000063
表示当前位置视觉图像序列中可导航方向的图像的视觉特征,St表示当前位置视觉图像序列中可导航方向的图像的视觉环境状态特征;
然后,根据相关性πt预测当前位置的导航动作at
at=argmaxmπt,m
其中,πt,m表示πt序列中第m个方向的相关性。
16.如权利要求1或2任一项所述的一种基于因果注意力的室内视觉导航方法,其特征在于,根据当前位置的视觉环境状态特征,以及预测的当前位置的导航动作,更新历史状态特征,包括:
首先,通过重置门,筛选当前位置的视觉环境状态特征St和预测的当前位置的导航动作at的关键特征,并将其融合到当前位置的上一时刻的历史状态特征Ht-1
rt=σ(WrHt-1+Ur[Stt,at])
Figure FDA0003895994990000064
其中,πt表示当前位置视觉图像序列各可导航方向图像的视觉特征与其对应视觉环境状态特征之间的相关性,rt表示遗忘门权重,Wr、Ur、Wg和Ug均为可训练参数,σ(·)和tanh(·)表示激活函数,⊙表示哈达曼积运算,t表示当前位置,t-1表示当前位置的上一位置;
然后,通过更新门,筛选需保留的有效历史信息zt,并将其融合到当前位置的上一时刻的历史状态特征Ht-1,对历史状态特征进行更新:
zt=σ(WzHt-1+Uz[Stt,at])
Figure FDA0003895994990000071
其中,zt表示更新门权重,Wz和Uz均为可训练参数。
CN202211273306.5A 2022-10-18 2022-10-18 一种基于因果注意力的室内视觉导航方法 Pending CN115512214A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211273306.5A CN115512214A (zh) 2022-10-18 2022-10-18 一种基于因果注意力的室内视觉导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211273306.5A CN115512214A (zh) 2022-10-18 2022-10-18 一种基于因果注意力的室内视觉导航方法

Publications (1)

Publication Number Publication Date
CN115512214A true CN115512214A (zh) 2022-12-23

Family

ID=84510491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211273306.5A Pending CN115512214A (zh) 2022-10-18 2022-10-18 一种基于因果注意力的室内视觉导航方法

Country Status (1)

Country Link
CN (1) CN115512214A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129338A (zh) * 2023-04-19 2023-05-16 北京航空航天大学 一种基于因果干预的决策方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129338A (zh) * 2023-04-19 2023-05-16 北京航空航天大学 一种基于因果干预的决策方法

Similar Documents

Publication Publication Date Title
Mao et al. Learning trajectory dependencies for human motion prediction
CN111476181B (zh) 一种人体骨架动作的识别方法
Kohonen et al. Engineering applications of the self-organizing map
Zhao et al. A spatial-temporal attention model for human trajectory prediction.
CN112560432B (zh) 基于图注意力网络的文本情感分析方法
CN111161315B (zh) 一种基于图神经网络的多目标跟踪方法和系统
CN110728698B (zh) 一种基于复合循环神经网络系统的多目标跟踪系统
CN109508686B (zh) 一种基于层次化特征子空间学习的人体行为识别方法
CN111199216B (zh) 面向人体骨架的运动预测方法及系统
CN113239897B (zh) 基于时空特征组合回归的人体动作评价方法
CN115131613B (zh) 一种基于多向知识迁移的小样本图像分类方法
CN117077727B (zh) 基于时空注意力机制和神经常微分方程的轨迹预测方法
CN113780003A (zh) 时空数据变分编解码跨模态增强方法
CN115659254A (zh) 一种双模态特征融合的配电网电能质量扰动分析方法
CN115512214A (zh) 一种基于因果注意力的室内视觉导航方法
CN113821724B (zh) 一种基于时间间隔增强的图神经网络推荐方法
Ren et al. InsActor: Instruction-driven Physics-based Characters
CN111160170A (zh) 一种自学习的人体行为识别与异常检测方法
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
Song et al. Human behavior recognition based on multi-feature fusion of image
KR20230141828A (ko) 적응형 그래디언트 클리핑을 사용하는 신경 네트워크들
Hadikhani et al. Human activity discovery with automatic multi-objective particle swarm optimization clustering with gaussian mutation and game theory
Takano et al. What do you expect from a robot that tells your future? The crystal ball
CN114372181A (zh) 一种基于多模态数据的设备生产智能规划方法
Li et al. Semantic Correlation Attention-Based Multiorder Multiscale Feature Fusion Network for Human Motion Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination