CN113610099A - 一种环境感知方法及系统 - Google Patents
一种环境感知方法及系统 Download PDFInfo
- Publication number
- CN113610099A CN113610099A CN202110987114.XA CN202110987114A CN113610099A CN 113610099 A CN113610099 A CN 113610099A CN 202110987114 A CN202110987114 A CN 202110987114A CN 113610099 A CN113610099 A CN 113610099A
- Authority
- CN
- China
- Prior art keywords
- current
- static
- dynamic
- chart
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000003068 static effect Effects 0.000 claims abstract description 153
- 239000013598 vector Substances 0.000 claims abstract description 103
- 238000000605 extraction Methods 0.000 claims abstract description 60
- 230000008447 perception Effects 0.000 claims abstract description 45
- 230000004927 fusion Effects 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 27
- 238000011176 pooling Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 241000282414 Homo sapiens Species 0.000 abstract description 14
- 230000007246 mechanism Effects 0.000 abstract description 9
- 230000001771 impaired effect Effects 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 239000011800 void material Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008255 psychological mechanism Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及了一种环境感知方法,所述方法包括如下步骤:将初始时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得静态特征向量;根据静态特征向量生成当前环境的静态图表;将当前时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得动态特征向量;利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表;将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果。本发明不仅有效的分辨出了环境中的目标位置、类别,并进一步的结合人类的感知机理确定目标的优先级,本发明提供了一种基于人类感知机制的环境感知方法,提高了视觉辅助的适用性。
Description
技术领域
本发明涉及环境感知技术领域,特别是涉及一种环境感知方法及系统。
背景技术
通过计算机视觉的方法为视障人士提供辅助视觉服务相比其他方法具有视障人士感知环境更全面的优势。
在目前的方法中,对视障人士感知环境和检索目标所用图像特征提取方法的研究还不够充分;其次,利用提取到场景的细节特征和语义特征帮助视障人士获取所处环境的物体目标信息还不够完善;最后,作为视障人士的视觉辅助,其机器视觉处理算法模拟人类对场景的感知过程还不够充足。并且视障人士所需检索的物体目标信息不仅包含目标的外形、轮廓、尺寸等细节信息,还要包含了物体属性、类别、功能的高层语义信息,二者在完成目标检索的过程中同等重要。机器感知对于场景中的所有物体“一视同仁”,而人类对于场景的感知有着心理学的机制参与。研究表明,人类具有快速理解场景全局特征的能力,进而人类对于场景中的重点事物会重点关注。这是人们在路上行走时能够躲避障碍、预判风险的关键。
发明内容
本发明的目的是提供一种环境感知方法及系统,以提供一种基于人类感知机制的环境感知方法,以提高视觉辅助的适用性。
为实现上述目的,本发明提供了如下方案:
本发明提供一种环境感知方法,所述方法包括如下步骤:
获取当前环境的初始时刻的RGB图像和深度图像;
将初始时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得静态特征向量;
根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表;
获取当前环境的当前时刻的RGB图像和深度图像;
将当前时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得动态特征向量;
利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表;
将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果;
当到达下一时刻时,将下一时刻更新为当前时刻,返回步骤“获取当前环境的当前时刻的RGB图像和深度图像”。
可选的,所述将当前时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得动态特征向量,之后还包括:
将动态特征向量与静态特征向量进行对比,确定当前环境是否发生变化,当当前环境发生变化时,则更新当前环境,并将动态特征向量作为静态特征向量,返回步骤“根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表”。
可选的,所述利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表,之后还包括:
根据当前时刻与静态图表更新时刻的时间间隔判断是否到达静态图表更新时间,当到达静态图表更新时间时,将当前时刻设置为静态图表更新时刻,并更新当前环境的静态图表。
可选的,所述轻量级特征提取网络包括第一卷积层、第一特征融合模块、第二特征融合模块、特征融合和空洞卷积模块、第二卷积层、第一池化层、第三卷积层、第二池化层、第四卷积层、池化和空洞卷积模块、第三特征融合模块和全连接层;
所述第二卷积层、所述第一池化层、所述第三卷积层、所述第二池化层、所述第四卷积层及所述池化和空洞卷积模块依次连接;
所述第一卷积层的输出端和所述第二卷积层的输出端均与所述第一特征融合模块的输入端连接,所述第一特征融合模块的输出端和所述第三卷积层的输出端均与第二特征融合模块的输入端连接,所述第二特征融合模块的输出端和所述第四卷积层的输出端均与特征融合和空洞卷积模块的输入端连接;
所述特征融合和空洞卷积模块的输出端和所述池化和空洞卷积模块的输出端均与第三特征融合模块的输入端连接,所述第三特征融合模块的输出端与所述全连接层的输入端连接。
其中,L表示损失函数值,K表示RGB图像中标记的目标的数量,yk表示训练样本制作过程中标记的RGB图像中第k个目标的类别标签,Pk表示轻量级特征提取网络输出的第k个目标为所述类别标签的概率。
可选的,所述根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表,具体包括:
根据静态特征向量,利用Faster rcnn网络,确定当前环境中的每个目标的位置和类别;
其中,表示当前化境中的第t个目标的优先级,αt表示当前化境中的第t个目标,ht表示第t个目标的隐藏状态,θvs表示函数参数,fvs()为优先级确定函数,fvs(ht;θvs)=htθvs,ht=Wααt,Wα表示第一学习参数,sigmoid()为sigmoid函数。
生成包含当前环境中的每个目标的位置、类别和优先级的静态图表。
可选的,所述利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表,具体包括:
其中,st表示当前时刻的第t个目标的优先级,表示中间函数,Wp、Wph、Wpz和Wps分别表示第二学习参数、第三学习参数、第四学习参数和第五学习参数,σ表示ReLU函数,zt-1和st-1分别表示神经元的隐藏状态、上一时刻的静态图表中第t个目标的优先级、上一时刻的动态图标中第t个目标的优先级。
可选的,所述将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果,具体包括:
利用公式Ot=βtα0+(1-βt)dt,将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果;
其中,Ot表示当前时刻t的环境感知结果,α0表示当前化境的静态图表,dt表示当前时刻t的动态图表,βt表示融合权重,βt=sigmoid(wgσ(Wgαα0+Wgsst+Wghft)),其中,wg、Wgα、Wgs、Wgh表示第六学习参数、第七学习参数、第八学习参数和第九学习参数,σ表示ReLU函数,st表示表示当前时刻的第t个目标的优先级,ft表示当前神经元的隐藏状态。
一种环境感知系统,所述系统包括:
第一图像获取模块,用于获取当前环境的初始时刻的RGB图像和深度图像;
第一特征提取模块,用于将初始时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得静态特征向量;
静态图标构建模块,用于根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表;
第二图像获取模块,用于获取当前环境的当前时刻的RGB图像和深度图像;
第二特征提取模块,用于将当前时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得动态特征向量;
动态图表构建模块,用于利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表;
图表融合模块,用于将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果。
可选的,所述系统还包括:
当前环境更新模块,用于将动态特征向量与静态特征向量进行对比,确定当前环境是否发生变化,当当前环境发生变化时,则更新当前环境,并将动态特征向量作为静态特征向量,调用静态图标构建模块,执行步骤“根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表”。
可选的,所述系统还包括:
静态图表更新模块,用于根据当前时刻与静态图表更新时刻的时间间隔判断是否到达静态图表更新时间,当到达静态图表更新时间时,将当前时刻设置为静态图表更新时刻,并更新当前环境的静态图表。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种环境感知方法,所述方法包括如下步骤:获取当前环境的初始时刻的RGB图像和深度图像;将初始时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得静态特征向量;根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表;获取当前环境的当前时刻的RGB图像和深度图像;将当前时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得动态特征向量;利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表;将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果。本发明不仅有效的分辨出了环境中的目标位置、类别,并进一步的结合人类的感知机理确定目标的优先级,本发明提供了一种基于人类感知机制的环境感知方法,提高了视觉辅助的适用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种环境感知方法的流程图;
图2为本发明提供的轻量级特征提取网络的结构图;
图3为本发明提供的特征融合模块的结构图;
图4为本发明提供的静态图表构建的原理图;
图5为本发明提供的静态优先级修改的原理图;
图6为本发明提供的动态图表构建的原理图;
图7为本发明提供的动态图表修改的原理图;
图8为本发明提供的动态优先级更新的原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种环境感知方法及系统,以提供一种基于人类感知机制的环境感知方法,以提高视觉辅助的适用性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
基于背景技术可知,不能将现有机器视觉算法直接作为视障人士的视觉辅助,而应该先深入探究人类对于场景的感知机理,模拟该感知机理,设计周边环境感知模型。
生物研究发现人类视觉有两个通路分别为“what”通路和“where”通路,其主要功能为目标类别判断和目标位置判断。本发明首先模拟“what”通路,然后依据“what”通路模拟“where”通路即动态优先级,动静不断的交替结合,使得机器最终获得了对周边环境的感知。
辅助设备会依照已经获得的静态图表,结合现有目标优先级进行动态排序输出。基于视觉注意力机制,维护这个动态优先级,辅助设备就模拟人类视觉“物体位置”通路,对物体的动态优先级就有了一个确认。静态优先级和动态优先级的结合,两者相互影响,完成对环境的感知。
当视障人士处于不同的环境中时,该神经网络能够迅速的对环境中的物体优先级进行判定,及时告知潜在危险。
本发明的方案是对图像进行处理,使用空洞卷积提取出图片的特征向量,再利用所设计的“静态-动态交互式神经网络(Static-dynamic interactive neural networks)”结构对特征向量进行处理,最终完成物体的优先级判定及对环境的感知
如图1所示,本发明提供本发明提供一种环境感知方法,所述方法包括如下步骤:
步骤101,获取当前环境的初始时刻的RGB图像和深度图像。
首先分别使用普通相机和Tof相机获取同一环境的RGB图像和深度图像。
步骤102,将初始时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得静态特征向量;
在构建训练集的过程中采用人工的方式将图像中的目标进行位置和区域标注。利用空洞卷积构建轻量级端到端空洞卷积特征提取网络(Lightweight end-to-end FusedDilated Convolutional Network)对两种图片进行处理。
如图2所示,所述轻量级特征提取网络包括第一卷积层、第一特征融合模块、第二特征融合模块、特征融合和空洞卷积模块、第二卷积层、第一池化层、第三卷积层、第二池化层、第四卷积层、池化和空洞卷积模块、第三特征融合模块和全连接层;所述第二卷积层、所述第一池化层、所述第三卷积层、所述第二池化层、所述第四卷积层及所述池化和空洞卷积模块依次连接;所述第一卷积层的输出端和所述第二卷积层的输出端均与所述第一特征融合模块的输入端连接,所述第一特征融合模块的输出端和所述第三卷积层的输出端均与第二特征融合模块的输入端连接,所述第二特征融合模块的输出端和所述第四卷积层的输出端均与特征融合和空洞卷积模块的输入端连接;所述特征融合和空洞卷积模块的输出端和所述池化和空洞卷积模块的输出端均与第三特征融合模块的输入端连接,所述第三特征融合模块的输出端与所述全连接层的输入端连接。
如图3所示,第一特征融合模块、第二特征融合模块和第三特征融合模块均包括依次连接的特征融合层、池化层、卷积层和卷积层。
轻量级特征提取网络输入数据集中的彩色(RGB)图片和深度(Depth)图片,彩色图片和深度图片分别通过卷积,将两者的结果通过特征融合(Fusion feature maps)结合在一起,在继续和下一层的深度卷积结果结合,重复三次。在第三次融合后,两个分支分别使用空洞卷积(dialted),扩展感受野大小,将结果进行最后一次融合输入给全连接层进行分类。网络使用输出的标签与图片标注的标签两者的误差进行训练。
轻量级特征提取网络包含两个分支,分别从RGB图像和深度图像中提取特征,并且深度特征图不断融合到RGB图像分支中。
假设给一个训练集{(Xi,Yi)|Xi∈RH×W×4,Yi∈{1,2,…,K}},其中Xi={Xi r|Xi r∈RH ×W×3}∪{Xi d|Xi d∈RH×W×1},Xi代表图片,包含三维:长、宽、RGB和深度,YI代表标签。通过卷积层f(X;w)得到特征图:
其中w为是设备需要训练的参数,Fr和Fd∈RH’×W’×C分别为RGB卷积和深度卷积。
然后将深度特征图通过元素级加法不断融合到RGB分支中,得到融合特征Ff∈RH ’×W’×C,公式如下:
Ff=Fr+Fd, (2)
最后通过空洞卷积层,对其得到的特征向量进行融合得到最终的加强特征图S∈RH”×W”×C’。
将S输入给全连接层,通过softmax输出得到属于k类目标的预测概率Pk,其表示如下所示:
最后损失函数通过图像类别标签进行Cross-Entropy loss损失函数的计算,训练分类网络,其中损失函数为
yk表示数据集的标签,k标示类别。这个损失函数通过随机梯度下降优化分类网络。
此时的网络已经能够判别目标的类别,并且分别记录了图片再不同特征融合(Fusion feature maps)卷积层后的结果。当网络训练完毕时,对于每一幅图片我们记录其最终的特征向量。
步骤103,根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表。
步骤103所述根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表,具体包括:根据静态特征向量,利用Faster rcnn网络,确定当前环境中的每个目标的位置和类别;根据静态特征向量,利用公式计算当前环境中的每个目标的优先级;其中,表示当前化境中的第t个目标的优先级,αt表示当前化境中的第t个目标,ht表示第t个目标的隐藏状态,θvs表示函数参数,fvs()为优先级确定函数,fvs(ht;θvs)=htθvs,ht=Wααt,Wα表示第一学习参数,sigmoid()为sigmoid函数。生成包含当前环境中的每个目标的位置、类别和优先级的静态图表。
具体的,如图4所示,根据步骤102得到的图片的特征向量,构建静态图表,目标是对环境中的物体有初步的判断,包括两个分支。
第一个分支将步骤102中获得的特征向量,输入给Faster rcnn,利用训练好的Faster rcnn获得每个目标的具体位置与其位置上的类别,
第二个分支将步骤102中获得的特征向量输入给优先级图表,优先级图表首先依据输入的特征向量利用公式(9)输出目标的优先级值,由高到底排序,构建出原始的优先级顺序,之后与类别融合,生成静态图表,优先级图表依靠图表中的目标优先级与图片中标注的优先级交叉熵进行训练。
步骤104,获取当前环境的当前时刻的RGB图像和深度图像。
步骤105,将当前时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得动态特征向量。
步骤106,利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表。
步骤106所述利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表,具体包括:
其中,st表示当前时刻的第t个目标的优先级,表示中间函数,Wp、Wph、Wpz和Wps分别表示第二学习参数、第三学习参数、第四学习参数和第五学习参数,σ表示ReLU函数,zt-1和st-1分别表示神经元的隐藏状态、上一时刻的静态图表中第t个目标的优先级、上一时刻的动态图标中第t个目标的优先级。
具体的,当设备对环境有了初步认识后,便开始进行动态图表的构建,完成对环境的总体感知,拍摄设备会获得一段视频,每次先使用步骤102中训练好的轻量级特征提取网络获取视频中图片的特征向量作为输入,动态图表利用输入的特征向量、步骤103中构建静态图表与上一时刻的动态优先级图表,首先利用公式(12)构造动态图表,然后利用下时刻的图片特征向量进行修改。动态优先级图表使用视频中标注的目标优先级和输出目标的优先级进行交叉熵的训练。流程如图6所示。
当动态图表构建完毕后,其修改流程如图7所示,其中,δt-1代表设备上一时刻动态关注目标,其中圆中的数字表示不同目标,之间的线段表示两个物体具有一定的位置关系,S表示动态优先级,S和圆之间的线段表示此刻关注优先级最高的物体。
动态优先级的更新方式如图8所示,从t-1时刻更新到t时刻有两种方式:(1)周围环境没有变化,仍旧按照之前的优先级顺序,关注物体不变;(2)周围的环境变化,更改优先级,关注新物体,新物体可能是与原物体有关系的,也可能是无关的。计算公式为:
式12中,W是学习的参数,h是上一时刻隐藏状态,z为静态目标优先级,最终经过softmax的输出大小确定本时刻不同物体的不同优先级。
步骤107,将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果。
步骤107所述将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果,具体包括:
利用公式Ot=βtα0+(1-βt)dt,将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果;
其中,Ot表示当前时刻t的环境感知结果,α0表示当前化境的静态图表,dt表示当前时刻t的动态图表,βt表示融合权重,βt=sigmoid(wgσ(Wgαα0+Wgsst+Wghft)),其中,wg、Wgα、Wgs、Wgh表示第六学习参数、第七学习参数、第八学习参数和第九学习参数,σ表示ReLU函数,st表示表示当前时刻的第t个目标的优先级,ft表示当前神经元的隐藏状态。
具体的,静态优先级与动态优先级相融合,完成对环境的感知,Fusion计算公式如下:
βt=sigmoid(wgσ(Wgααt+Wgsst+Wghft)) (14)
Ot=βtαt+(1-βt)dt (15)
式14中W为参数,α为静态优先级,s为动态优先级,通过计算的出权重,f为本时刻特片特征向量,最后经过式15完成对目标的最终关注权重计算,在完成了动态图表构建的同时完成了对环境的感知。
网络的损失函数如下:
yk表示目标的优先级,k标示类别,Pk为网络的输出优先级。这个损失函数通过随机梯度下降优化动态优先级图表。
步骤108,当到达下一时刻时,将下一时刻更新为当前时刻,返回步骤“获取当前环境的当前时刻的RGB图像和深度图像”。
可选的,所述将当前时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得动态特征向量,之后还包括:
将动态特征向量与静态特征向量进行对比,确定当前环境是否发生变化,当当前环境发生变化时,则更新当前环境,并将动态特征向量作为静态特征向量,返回步骤“根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表”。
作为一种优选的实施方式,所述利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表,之后还包括:根据当前时刻与静态图表更新时刻的时间间隔判断是否到达静态图表更新时间,当到达静态图表更新时间时,将当前时刻设置为静态图表更新时刻,并更新当前环境的静态图表。
即,当一定的时间间隙后,根据新的特征向量对目标进行删除或增加,再重新利用公式(9)得到更新后的每个目标的优先级值,由高到低排序,对静态优先级进行修改。
具体的,如图5所示,当设备进入到一个新的环境或设置一定的间隙后,依据新的图片特征向量设备需要重新计算优先级图表(Level Graph),计算公式如下:
1.首先对上一时刻的目标进行删除
式5为删除操作,h表示本时刻的隐藏状态,是本时刻图片的特征向量,θ是我们需要训练的函数参数。并为sigmoid设定一定的阈值,如果目标的输出dt超过阈值,则需要进行删除操作。式6为对选定的目标进行删除,αt-1为上一时刻的优先级图表,u为嵌入式向量,通过计算得到中间变量的目标。
2、对本时刻的目标进行增加
当计算完需要删除的目标后,依据本时刻的图片特征向量,计算本时刻需要增加的目标,公式如下:
式7为增加操作,h表示本时刻的隐藏状态,是本时刻图片特征向量,θ是我们需要训练的函数参数,并为sigmoid设定一定的阈值,如果目标的输出超过阈值,则需要进行增加操作。式8为对选定的目标进行增加,u为嵌入式向量,αt为本时刻的目标。
3、确定本时刻关注目标及其优先级值
式9所表示的是一个在本时刻中我们需要关注的物体,h表示本时刻的隐藏状态,θ是设备需要训练的函数参数,并为softmax设定一定的阈值,超过阈值的目标给予关注。
优先级图表的损失函数如下:
yk表示目标的优先级,k标示类别,Pk为网络的输出优先级。这个损失函数通过随机梯度下降训练优先级图表。
最后将目标类别与优先级图表相匹配,完成对静态图表的构造:
St=f(ζt,w) (10)
综上所述,当构建完原始的优先级图表后,设备首先通过特征向量确定需要关注的物体,然后对上一时刻的静态链表中目标删除,之后增加新的目标,再通过公式(9)对其进行优先级值的排序输出。最后,将物体类别与优先级结合,即一个匹配过程,包含不同种类物体的静态图表就被确认。当环境变化过大或在一定的间隔后构建新的静态图表,对物体的静态优先级重新确认,为下一步构建动态图表做准备。
一种环境感知系统,所述系统包括:
第一图像获取模块,用于获取当前环境的初始时刻的RGB图像和深度图像;
第一特征提取模块,用于将初始时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得静态特征向量;
静态图标构建模块,用于根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表;
第二图像获取模块,用于获取当前环境的当前时刻的RGB图像和深度图像;
第二特征提取模块,用于将当前时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得动态特征向量;
动态图表构建模块,用于利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表;
图表融合模块,用于将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果。
可选的,所述系统还包括:
当前环境更新模块,用于将动态特征向量与静态特征向量进行对比,确定当前环境是否发生变化,当当前环境发生变化时,则更新当前环境,并将动态特征向量作为静态特征向量,调用静态图标构建模块,执行步骤“根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表”。
可选的,所述系统还包括:
静态图表更新模块,用于根据当前时刻与静态图表更新时刻的时间间隔判断是否到达静态图表更新时间,当到达静态图表更新时间时,将当前时刻设置为静态图表更新时刻,并更新当前环境的静态图表。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种环境感知方法,本发明的静态图表不断的输入给动态优先级图表,完成对环境的感知。使得网络能对环境中高低优先的物体给予适当的关注,潜在的危险能够做出提前的预估,即将发生的危险做出迅速且精准的反馈。
本发明能够迅速根据环境的变化对使用者进行反馈,让使用者能够提前规避危险。
首先基于立体传感器的深度相机在感知三维空间信息方面具有一定优势,但是仍有一些问题有待解决。其一、图像中质地较差的区域准确率偏低,其二、对运动变化的户外场景处理缺乏鲁棒性。这两个问题是本研究中首先要解决问题。所以本方法提取轻量化特征,通过研究卷积结构对特征提取的影响,提出轻量级多尺度特征提取网络:轻量级端到端空洞卷积特征提取网络(Lightweight end-to-end Fused Dilated ConvolutionalNetwork)。本发明通过结合结合空洞卷积,扩大卷积核感受野,提取目标全局特征,以及采用全局平均池化层代替所提出网络结构中部分全连接层进行特征提取,从而减少在特征学习中的空间与时间复杂度,使得网络可以在轻量级的结构中得到与深度神经网络学习相同的结果。
本发明结合视觉注意力机制,提出符合人类行为的周边环境感知方法:“静态-动态交互式神经网(Static-dynamic interactive neural networks)”。在对目标进行优先级判定的时候,需要周边环境的的底层语义和细节特征(通过Faster rcnn获得);在辅助视障人士感知周边环境的时候,需要周边环境的高层语义特征和全局特征(通过轻量级端到端空洞卷积特征提取网络(Lightweight end-to-end Fused Dilated ConvolutionalNetwork)获得);网络将低层细节特征和高层语义特征有机的结合(Fusion)作为目标优先级判定和环境感知两个任务的统一特征。辅助设备会首先建立静态图表(Static Graph),然后结合现有目标优先级和目标不断变化的位置进行动态排序输出(Dynamic PriorDetermination)。基于人类的视觉注意力机制,通过网络的计算,辅助设备就模拟了人类的注意力机制,对物体的静态和动态优先级有了一个确认。两者相互影响,完成对环境的感知。
因此本发明具有如下优点,首先使用空洞卷积获得图片不同层次的特征向量,将此向量输入给静态图表获得静态优先级,再将两者的结果输入给动态优先级,完成目标最终的优先级判定。本发明使用深度神经网络来模拟人类分辨场景,确定重点关注目标,以及根据目标的位置、方向、速度和相互关系评估风险的能力。将这些因素抽象成图形数据,根据“静态-动态交互式神经网络”结构,使用图形数据结构训练神经网络,实现环境感知,提醒视障人士注意躲避。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种环境感知方法,其特征在于,所述方法包括如下步骤:
获取当前环境的初始时刻的RGB图像和深度图像;
将初始时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得静态特征向量;
根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表;
获取当前环境的当前时刻的RGB图像和深度图像;
将当前时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得动态特征向量;
利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表;
将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果;
当到达下一时刻时,将下一时刻更新为当前时刻,返回步骤“获取当前环境的当前时刻的RGB图像和深度图像”。
2.根据权利要求1所述的环境感知方法,其特征在于,所述将当前时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得动态特征向量,之后还包括:
将动态特征向量与静态特征向量进行对比,确定当前环境是否发生变化,当当前环境发生变化时,则更新当前环境,并将动态特征向量作为静态特征向量,返回步骤“根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表”。
3.根据权利要求1所述的环境感知方法,其特征在于,所述利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表,之后还包括:
根据当前时刻与静态图表更新时刻的时间间隔判断是否到达静态图表更新时间,当到达静态图表更新时间时,将当前时刻设置为静态图表更新时刻,并更新当前环境的静态图表。
4.根据权利要求1所述的环境感知方法,其特征在于,所述轻量级特征提取网络包括第一卷积层、第一特征融合模块、第二特征融合模块、特征融合和空洞卷积模块、第二卷积层、第一池化层、第三卷积层、第二池化层、第四卷积层、池化和空洞卷积模块、第三特征融合模块和全连接层;
所述第二卷积层、所述第一池化层、所述第三卷积层、所述第二池化层、所述第四卷积层及所述池化和空洞卷积模块依次连接;
所述第一卷积层的输出端和所述第二卷积层的输出端均与所述第一特征融合模块的输入端连接,所述第一特征融合模块的输出端和所述第三卷积层的输出端均与第二特征融合模块的输入端连接,所述第二特征融合模块的输出端和所述第四卷积层的输出端均与特征融合和空洞卷积模块的输入端连接;
所述特征融合和空洞卷积模块的输出端和所述池化和空洞卷积模块的输出端均与第三特征融合模块的输入端连接,所述第三特征融合模块的输出端与所述全连接层的输入端连接。
6.根据权利要求1所述的环境感知方法,其特征在于,所述根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表,具体包括:
根据静态特征向量,利用Faster rcnn网络,确定当前环境中的每个目标的位置和类别;
其中,表示当前化境中的第t个目标的优先级,αt表示当前化境中的第t个目标,ht表示第t个目标的隐藏状态,θvs表示函数参数,fvs(ht;θvs)=htθvs,ht=Wααt,Wα表示第一学习参数,sigmoid()为sigmoid函数;
生成包含当前环境中的每个目标的位置、类别和优先级的静态图表。
8.根据权利要求1所述的环境感知方法,其特征在于,所述将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果,具体包括:
利用公式Ot=βtα0+(1-βt)dt,将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果;
其中,Ot表示当前时刻t的环境感知结果,α0表示当前化境的静态图表,dt表示当前时刻t的动态图表,βt表示融合权重,βt=sigmoid(wgσ(Wgαα0+Wgsst+Wghft)),其中,wg、Wgα、Wgs、Wgh表示第六学习参数、第七学习参数、第八学习参数和第九学习参数,σ表示ReLU函数,st表示表示当前时刻的第t个目标的优先级,ft表示当前神经元的隐藏状态。
9.一种环境感知系统,其特征在于,所述系统包括:
第一图像获取模块,用于获取当前环境的初始时刻的RGB图像和深度图像;
第一特征提取模块,用于将初始时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得静态特征向量;
静态图标构建模块,用于根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表;
第二图像获取模块,用于获取当前环境的当前时刻的RGB图像和深度图像;
第二特征提取模块,用于将当前时刻的RGB图像和深度图像输入轻量级特征提取网络进行特征提取,获得动态特征向量;
动态图表构建模块,用于利用动态特征向量、上一时刻的动态图表和当前环境的静态图表,构建当前时刻的动态图表;
图表融合模块,用于将当前环境的静态图表和当前时刻的动态图表进行融合,获得当前时刻的环境感知结果。
10.根据权利要求9所述的环境感知系统,其特征在于,所述系统还包括:
当前环境更新模块,用于将动态特征向量与静态特征向量进行对比,确定当前环境是否发生变化,当当前环境发生变化时,则更新当前环境,并将动态特征向量作为静态特征向量,调用静态图标构建模块,执行步骤“根据静态特征向量确定当前环境中的目标的位置、类别和优先级,生成当前环境的静态图表”。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110987114.XA CN113610099B (zh) | 2021-08-26 | 2021-08-26 | 一种环境感知方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110987114.XA CN113610099B (zh) | 2021-08-26 | 2021-08-26 | 一种环境感知方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113610099A true CN113610099A (zh) | 2021-11-05 |
CN113610099B CN113610099B (zh) | 2024-02-02 |
Family
ID=78342114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110987114.XA Active CN113610099B (zh) | 2021-08-26 | 2021-08-26 | 一种环境感知方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113610099B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6590577B1 (en) * | 1999-05-27 | 2003-07-08 | International Business Machines Corporation | System and method for controlling a dynamic display of data relationships between static charts |
CN108985269A (zh) * | 2018-08-16 | 2018-12-11 | 东南大学 | 基于卷积和空洞卷积结构的融合网络驾驶环境感知模型 |
CN110850403A (zh) * | 2019-11-18 | 2020-02-28 | 中国船舶重工集团公司第七0七研究所 | 一种多传感器决策级融合的智能船水面目标感知识别方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112562314A (zh) * | 2020-11-02 | 2021-03-26 | 福瑞泰克智能系统有限公司 | 基于深度融合的路端感知方法、装置、路端设备和系统 |
CN112766305A (zh) * | 2020-12-25 | 2021-05-07 | 电子科技大学 | 一种基于端到端度量网络的视觉slam闭环检测方法 |
CN112991447A (zh) * | 2021-03-16 | 2021-06-18 | 华东理工大学 | 一种动态环境下视觉定位与静态地图构建方法及系统 |
-
2021
- 2021-08-26 CN CN202110987114.XA patent/CN113610099B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6590577B1 (en) * | 1999-05-27 | 2003-07-08 | International Business Machines Corporation | System and method for controlling a dynamic display of data relationships between static charts |
CN108985269A (zh) * | 2018-08-16 | 2018-12-11 | 东南大学 | 基于卷积和空洞卷积结构的融合网络驾驶环境感知模型 |
CN110850403A (zh) * | 2019-11-18 | 2020-02-28 | 中国船舶重工集团公司第七0七研究所 | 一种多传感器决策级融合的智能船水面目标感知识别方法 |
CN112562314A (zh) * | 2020-11-02 | 2021-03-26 | 福瑞泰克智能系统有限公司 | 基于深度融合的路端感知方法、装置、路端设备和系统 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112766305A (zh) * | 2020-12-25 | 2021-05-07 | 电子科技大学 | 一种基于端到端度量网络的视觉slam闭环检测方法 |
CN112991447A (zh) * | 2021-03-16 | 2021-06-18 | 华东理工大学 | 一种动态环境下视觉定位与静态地图构建方法及系统 |
Non-Patent Citations (2)
Title |
---|
TOM´AˇS KRAJN´IK 等: "Frequency Map Enhancement: Introducing Dynamics into Static Environment Models", 《CONFERENCE OR WORKSHOP CONTRIBUTION》, pages 1 - 4 * |
刘力: "你是我的眼——智能汽车环境感知系统", 《质量与标准化》, pages 23 - 26 * |
Also Published As
Publication number | Publication date |
---|---|
CN113610099B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7164252B2 (ja) | 画像処理方法、装置、電子機器及びコンピュータプログラム | |
CN110222653B (zh) | 一种基于图卷积神经网络的骨架数据行为识别方法 | |
CN111539370B (zh) | 一种基于多注意力联合学习的图像行人重识别方法和系统 | |
CN111275518B (zh) | 一种基于混合光流的视频虚拟试穿方法及装置 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN110246181B (zh) | 基于锚点的姿态估计模型训练方法、姿态估计方法和系统 | |
CN116664719B (zh) | 一种图像重绘模型训练方法、图像重绘方法及装置 | |
CN111709410B (zh) | 一种强动态视频的行为识别方法 | |
KR102117007B1 (ko) | 영상에서 객체를 인식하는 방법 및 장치 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
WO2023138154A1 (zh) | 对象识别方法、网络训练方法、装置、设备、介质及程序 | |
CN115311538A (zh) | 一种基于场景先验的智能体目标搜索的方法 | |
CN113515669A (zh) | 基于人工智能的数据处理方法和相关设备 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN116740422A (zh) | 基于多模态注意力融合技术的遥感图像分类方法及装置 | |
Wu et al. | Vision-language navigation: a survey and taxonomy | |
CN116189306A (zh) | 基于联合注意力机制的人体行为识别方法 | |
CN114494436A (zh) | 室内场景定位方法及装置 | |
CN109033321A (zh) | 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法 | |
CN112446253A (zh) | 一种骨架行为识别方法及装置 | |
CN111531546B (zh) | 一种机器人位姿估计方法、装置、设备及存储介质 | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN113610099B (zh) | 一种环境感知方法及系统 | |
Kang et al. | ETLi: Efficiently annotated traffic LiDAR dataset using incremental and suggestive annotation | |
CN116434173A (zh) | 道路图像检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |