CN112233173A - 一种视力障碍人士室内物品寻找与定位的方法 - Google Patents

一种视力障碍人士室内物品寻找与定位的方法 Download PDF

Info

Publication number
CN112233173A
CN112233173A CN202011099932.8A CN202011099932A CN112233173A CN 112233173 A CN112233173 A CN 112233173A CN 202011099932 A CN202011099932 A CN 202011099932A CN 112233173 A CN112233173 A CN 112233173A
Authority
CN
China
Prior art keywords
image
pixel
neural network
convolution
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011099932.8A
Other languages
English (en)
Inventor
罗东升
韩德志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202011099932.8A priority Critical patent/CN112233173A/zh
Publication of CN112233173A publication Critical patent/CN112233173A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视力障碍人士室内物品寻找与定位的方法,包含步骤:S1、视障人士通过语音模块输入目标物品名称后并通过双目摄像头在室内采集图像;S2、设计基于神经网络的自适应sigmoid传递算法(ASTF)并与拉普拉斯算子结合,增强所采集图像的亮度和降低失真度;S3、设计变尺度卷积神经网络将S2得到的图像卷积到相同尺寸;S4、设计融合多级别注意力机制的卷积神经网络提取S3得到图像的特征信息,并将该特征信息与数据库中目标物品特征数据进行匹配;S5、若匹配成功,则获得目标物体位置并通过语音模块输出其位置信息;若匹配不成功,则通过语音模块输出其不存在信息。本发明能够有效的帮助视障人士在弱光环境下准确的搜寻物品。

Description

一种视力障碍人士室内物品寻找与定位的方法
技术领域
本发明涉及图像处理与识别技术领域,特别是涉及一种新的自适应sigmoid传递算法(ASTF)、变尺度卷积神经网络和一种融合多级别注意力机制神经网络的目标物品特征提取方法。
背景技术
当前,我国有许多视力障碍人士,视力障碍人士由于缺乏视觉信息,无法感知和认识到生活中常见的物品,这对他们的日常生活带来极大挑战。虽然近些年来出现了许多帮助视障人士克服视觉困难的方法,例如导盲犬、盲人白手杖等,但是这些解决办法主要只能起到导航作用,并不能有效的对盲人进行物品识别及引导,特别是在弱光的环境中,这些方法起到的作用更加微弱。当视障人士独自一人在室内时,不可避免的需要用到某些生活物品,但是由于视力缺陷,他们并不能像正常人一样通过眼睛快速扫描并找到自己所需物品的位置。他们只能通过触觉摸索搜寻,这样无疑增加了受伤的潜在风险性。
图像是视觉信息的来源,然而在弱光条件下拍摄的图像往往不具有良好的视觉效果,因为大部分信息被掩盖在低能见度区域,导致图像质量显著下降。因此,在弱光图像继续进行进一步处理之前,有必要对其进行改进。弱光图像增强的目的是产生质量较高的图像和目标,为计算机视觉提取有价值的信息,提高弱光图像的质量是一项具有挑战性的任务。现有弱光图像增强的方法无疑有损图像的还原度,其主要缺点是计算复杂度高、效率低而且不能自适应调节图像中不同部分的光照强度。例如直方图均衡化处理(HE)、非线性强度变换(NIT)和基于Retinex理论等方法都可以提高图像的对比度,但是不能提取隐藏的信息,存在丢失图像细节的问题。
图像增强后的目的是为了更好的进行目标物品的识别,目标检测的目的是在一张图片上找到待检测的目标、识别目标并完成目标定位的过程,传统的目标检测主要是通过暴力手段搜索选定一系列的感兴趣区域作为目标检测的候选区域,然后选取合适的特征提取算法与手工标定的特征相结合对这些候选区域进行特征提取,其次单独的对目标分类器进行训练,将提取的特征通过分类器进行分类,来判别是否包含被检测目标,最后通过边界框回归,非极大值抑制的方式对目标框进行定位。目前应用比较广的目标检测方法主要有:光流法、帧间差分法、SVM特征检测法等等,但是这些方法主要缺点是检测速度慢、特征匹配不准确等问题。此外这些方法对大量、多类小目标检测的效果往往不是那么准确,特别是当检测目标存在被遮挡、目标尺寸较小、目标形态变化等因素影响时,这些方法的检测效果会大大折扣。
针对以上方法存在问题,因此迫切需要一种能够在弱光环境下给盲人提供高精确度物品搜寻与定位的方法。
目前,多级注意力机制的研究成果较少,如沈文祥等(《基于多级特征和混合注意力机制的室内人群检测网络》,计算机应用,2019,39(12):3496-3502)提出了一种混合注意力机制,所述的混合注意力机制是由通道注意力模块与空间注意力模块融合构成。其通道注意力模块通过全局平均池化与全局最大池化相结合的方式来获得目标之间差异性最大的特征从而来推断更精细的通道注意力。其空间注意力模块通过压缩通道维度,留下空间位置信息,然后再经过卷积操作得到包含全局上下文信息的注意力图,它是对通道注意力的一种补充。这种混合注意力机制实际是是只针对通道的多注意力(即只针对目标物体的整体注意力),没有通过目标物体整体(对象)、局部(部件)和最小组成单元(像素)的注意力并分别提取各部分的特性信息进行融合;林靖豪(《用于视频问答的多级注意力循环神经网络算法研究》,浙江大学硕士学位论文)提出了一种用于视频问答的多级注意力方法,该方法以问题的不同粒度作为注意力机制目标,对不同的视频特征分别用注意力机制生成不同的特征,最终综合各个特征,进行分类,产生最后的答案。该方法只针对不同的视频特征分别用注意力机制,即通过注意力机制提取不同的视频特征的整体特征信息并进行融合,同样没有考虑不同的视频的整体(对象)、局部(部件)和最小组成单元(像素)的特性信息。
发明内容
本发明的目的是提供一种融合多级别注意力机制神经网络的视力障碍人士室内物品寻找与定位的方法,本发明通过对实时输入图像进行增强处理、特征提取、定位等一系列操作达到帮助视力障碍人士精确物品搜寻与定位。
为了达到上述目的本发明提供了一种融合多级别注意力机制神经网络的视力障碍人士室内物品寻找与定位的方法,包括步骤:
S1、视力障碍人士通过语音识别模块输入所需搜寻物品的名称或者特征,每次只能输入单个物品,并通过固定的双目摄像头进行室内图像采集;
S2、设计了一种基于神经网络的新型自适应sigmoid传递算法(Adaptive SigmoidTransfer Function,ASTF),将ASTF与拉普拉斯算子结合增强采集图像的亮度和降低失真度;
S3、设计变尺度卷积神经网络(Variable Scale Convolutional NeuralNetwork,VS-CNN)将步骤S2得到的图像卷积到相同尺寸;
S4、设计融合三种不同级别注意力的多级别注意力机制卷积神经网络(Multi-levels Attention Convolutional Neural Network,MAtten-CNN),对所采集图像进行分层传递特征提取;三种级别的注意分别从卷积神经网络的“特征通道膨胀”、“局部相似性聚类”和“自学习空间加权”三个方向来依次对步骤S3得到的目标图像进行不同粒度的特征提取并进行特征融合,并将融合后的图像特征信息数据与数据库中目标物品特征数据进行匹配;
S5、若匹配成功,则通过双目摄像头特征点以及对应的视差值进行目标物品三维重建获得目标物体位置信息,最后通过语音模块输出目标物体位置信息;若匹配不成功,则通过语音模块输出目标物体不存在信息。
步骤S2具体包含:
S21、设计一种新型自适应sigmoid传递算法(ASTF);
S22、ASTF与拉普拉斯算子结合增强采集图像的亮度和降低失真度;
步骤S21新的自适应sigmoid传递算法(ASTF)具体包含:
S211、新型自适应sigmoid传递算法(ASTF)由公式(1)表示:
S(x,y)=Vη(x,y) (1)
公式(1)使用的ASTF是一个自适应调节优化的非线性算法,它根据输入图像中的亮度值自适应地调整像素强度,较低的强度值被大幅提升,较高的强度值被适当的修正;
S212、在步骤S211中,公式(1)中的V表示HSV颜色空间中的亮度参数,参数V负责亮度信息,V由公式(2)表示:
Figure BDA0002724987470000041
其中,maxc∈{R,G,B}表示R、G和B颜色层全局最大强度,Ic(x,y)表示采集图像中位置(x,y)处的像素强度;
S213、在步骤S211中,公式(1)的η为局部自适应参数,η的局部自适应性质由sigmoid函数得到,其中sigmoid函数由公式(3)表示:
Figure BDA0002724987470000051
其中,t为输入,k增益;由公式(3)可得到各像素强度的局部自适应参数η(x,y),η(x,y)由公式(4)表示:
Figure BDA0002724987470000052
S214、将由公式(4)得到的η(x,y)代入公式(1)的S(x,y)中,得到ASTF的最终公式,ASTF的最终公式由公式(5)表示:
Figure BDA0002724987470000053
步骤S22图像增强的过程具体包含:
S221、将输入的RGB图像转换成HSV颜色空间,由HSV颜色空间将输入图像分离为亮度和色彩信息部分,V分量负责亮度信息,由步骤S212中的公式(2)提取V分量;
S222、由步骤S214中的公式(5)得到ASTF的计算结果Vη(x,y),将结果Vη(x,y)应用到步骤S221的V分量上,当V(x,y)>0.5时像素强度轻度增强,当V(x,y)≤0.5时像素强度大量增强;
S223、采用高通滤波器与原始图像进行卷积提高图像对比度分量,使用拉普拉斯滤波器掩模作为高通滤波器。该滤波器由公式(6)表示:
Figure BDA0002724987470000061
对比度增强的亮度分量由公式(7)表示:
Figure BDA0002724987470000062
其中,*表示卷积运算。可以得到的归一化对比度增强亮度层如公式(8)所示:
Figure BDA0002724987470000063
S224、将公式(8)得到的归一化对比度增强亮度置于HSV转换图像的值分量中,再将HSV色彩空间图像转换为RGB色彩空间,得到最终增强图像。
步骤S3具体包含:
S31、所述的变尺度卷积神经网络是由一种基于超像素分割的卷积算法(Super-Pixel Segmentation Convolution,SPS-Conv)所构建;
首先SPS-Conv通过对图像采用改进的简单线性迭代聚类(improved SimpleLinearIterative Cluster,improved SLIC)方法进行分割,每个超像素都是一组具有相似属性的相邻像素集合且所有超像素包含相同数量的像素;然后逐个超像素块进行卷积运算,从图像输入层面解决几何变形问题。
步骤S31中,所述的改进的简单线性迭代聚类方法步骤具体包含:
S311、在输入图像上生成N个种子点,相邻种子点在纵轴和横轴上的距离分别为SH和SW
Figure BDA0002724987470000064
Figure BDA0002724987470000065
其中H为图像的高度,W为图像的宽度,K为超像素个数;
S312、计算种子点3×3领域内所有像素点的梯度值,将种子点移动到梯度最小的地方;
S313、计算种子点与种子点在2SH×2SW领域内各像素之间的距离D,计算过程如公式(11)、(12)和(13)表示:
Figure BDA0002724987470000071
Figure BDA0002724987470000072
Figure BDA0002724987470000073
其中,l、a、b是CIELAB的颜色空间值,dc表示CIELAB的颜色空间差值,ds则是像素之间的空间距离,i和j代表两个不同的像素,m为紧凑系数;
S314、每个超像素由m×n个像素组成,这些像素位于种子点周围,它们之间的距离D最小,并且一个像素可以属于不同的超像素;
S315、返回步骤S312,重复多次迭代优化,最终将图像卷积到相同尺寸。
步骤S4具体包含:
S41、所述的融合多级别注意力机制神经网络,包括对象级注意卷积神经网络、部件级注意卷积神经网络和像素级注意卷积神经网络;
S42、所述的对象级注意卷积神经网络是一种带有“通道膨胀系数”的通道膨胀卷积神经网络(Channel Expansion Convolutional Network,CENet);所述的像素级注意卷积神经网络为一种像素级的可学习重要性表征卷积神经网络(Learning InportantRepresentation Convolution Network,LIRNet);
首先对步骤S2处理后的图像由CENet的通道膨胀单元(Channel Expansion unit,CE-unit)和LIRNet的学习重要性表征单元(Learning Inportant Representation unit,LIR-unit)组成的双级别注意力卷积神经网络(DAtten-CNN)进行初步特征提取;
其中:CE-unit卷积单元对特征图的通道进行注意捕捉,LIR-nuit卷积单元对特征图的空间进行注意捕捉;
S43、所述部件级注意卷积神经网络为一种以分组注意模块(Group Attentionunit,GA-unit)为核心模块的分组注意卷积神经网络(Group Attention ConvolutionalNetwork,GANet),它位于多级别注意力机制卷积神经网络最后一层;DAtten-CNN将第一层卷积进行后的融合信息传递到GANet层,GANet层再将大量相似度较高的特征通道聚类并分组卷积,形成具有局部表征能力的注意卷积模型;接下来,对网络高级语义层(GA-unit中卷积后具有更高语义特征的语义层)的特征通道进行聚类,把所有表征对象具有高度相似性的特征通道分在一组,不同分组实现不同的部件级注意,抓住多个局部特征进行图像分类,以此达到对目标图像更细粒度特征提取。
步骤S42中,所述的CENet和LIRNet具体包含:
S421、CENet的通道膨胀系数是特征通道做一次卷积后扩大的倍数,CENet由多个CE-unit叠加构成,每一个CE-unit单元包括通道排序模块和通道膨胀模块两个部分;
通道膨胀模块是CENet在Squeeze-and-Excitation Networks(SENet)特征重标定的基础上进行改进的,其主要过程为:根据权重系数对特征通道进行降序排列,然后将排序后的特征图平均分成n组进行分组卷积操作,在分组卷积的过程中引入通道膨胀系数,将更重要的特征组做更多次卷积以突出其重要性;最后,对分组卷积后的多组通道进行特征融合,使得融合后特征图中重要的特征将占据更大的比例;
S422、LIRNet是一种基于图像空间维信息的网络,通过自学习的方式得到图像特征空间上每个像素点的重要性权重,然后根据这些权重有选择的增强有益的像素内容,抑制无用的像素影响的网络;LIRNet的核心模块为LIR-unit。
步骤S43中,所述的GANet具体包含:
S431、GANet的实现过程为:
(a)对GA-unit中的每个特征通道进行处理,将其拉伸成向量,向量的长度为W×H;然后对向量进行点积运算,两个向量的点积结果为一个标量值,值越大表示两者相似度越高,值越小表示两者相似度越低;
(b)通过向量点积的方式将相似度高的向量聚为一类,令V′为分组聚类后的向量集合;根据V′的顺序重新排列得到新的特征通道,新的特征通道就是分组注意后的语义单元,然后对每个语义单元进行卷积操作,最后将卷积后的多个语义单元沿特征方向组合起来就的到GANet卷积的最终结果。
步骤S5具体包含:
S51、将匹配成功的目标物体图像二值化处理;
S52、通过Grabcut算法对该目标物体轮廓提取,然后使用cv::findContours和cv::drawContours对提取的轮廓进行查找和绘制;
所述的Grabcut算法是Graphcut算法的升级版,该算法利用图像中的纹理(颜色)信息和边界(反差)信息对图像进行轮廓提取;
其中:cv::findContours和cv::drawContours都是OpenCV中的函数,cv::findContours函数可以从二值图像中检索轮廓,并返回检测到的轮廓个数,然后通过cv::drawContours函数对cv::findContours函数检索到的轮廓进行绘制;
S53、计算匹配成功目标物体轮廓形心像素坐标(x0,y0)由公式(14)和公式(15)表示:
Figure BDA0002724987470000101
Figure BDA0002724987470000102
其中:
Figure BDA0002724987470000103
f(x,y)是在点(x,y)的像素值。通过遍历目标物体所有像素点,最终求解形心坐标;
S54、在双目摄像机左图像中以目标形心为形心截取一个矩形模板图像块,使用归一化的互相关模板匹配方法得到双目摄像机右图像对应的形心像素坐标;
S55、根据双目摄像机内外参数以及特定的特征点将左右像素坐标代入其相互转换关系中,计算得到目标物体形心的空间坐标;
S56、将目标物体的形心空间坐标与相机特定的空间点进行空间几何运算,可得到目标物体形心与相机之间的实际距离,达到对目标物体的位置定位;
S57、最后语音通知定位得到的目标物体的位置信息。
本发明与现有技术相比,具有以下有益效果:
(1)本发明设计了一种新型的自适应sigmoid传递算法(ASTF),该算法能够在平衡亮度信息的同时增强弱光图像,不仅提高了视觉质量,而且提高了计算速度。并且,ASTF通过自适应的方式对不同曝光度的区域进行校正,不影响正确曝光的区域,同时保持良好的局部对比度。
(2)本发明设计了一种变尺度卷积神经网络,它首先进行像素聚类得到超像素,然后再进行逐个超像素卷积操作,它同时考虑了图像的几何属性和像素的空间位置关系,可以满足卷积神经网络适应不同尺寸的图像输入。
(3)本发明提出了一种融合多级注意力机制的神经网络,三种神经网络从“特征通道膨胀”、“局部相似性聚类”和“自学习空间加权”三个方向进行特征的提取和融合。其中“特征通道膨胀”方法分别讨论每个特征通道所标识的对象属性对于图像任务的影响,进而分别叠加不同的膨胀系数以实现对象级注意;“局部相似性聚类”是在网络的高级语义层将特征通道所表征的部件语义进行相似性聚类并提取特征,从而构成部件级注意;“自学习空间加权”方法则通过自学习的方式对空间上的每个像素进行重要性评分,以生成像素级注意。这三种神经网络注意力所关注的特征一级比一级更细微,相互融合能大副度提高目标图像的特征提取精度。
附图说明
为了更清楚地说明本发明技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:
图1为本发明的视力障碍人士室内物品寻找与定位的方法的流程图;
图2为本发明的视力障碍人士室内物品寻找与定位的方法中对象级注意卷积神经网络的CE-unit结构示意图;
图3为本发明的视力障碍人士室内物品寻找与定位的方法中像素级注意卷积神经网络的LIR-unit结构示意图;
图4为本发明的视力障碍人士室内物品寻找与定位的方法中部件级注意卷积神经网络的GA-unit结构示意图;
图5为本发明的视力障碍人士室内物品寻找与定位的方法中多级别注意力机制的卷积模块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种融合多级别注意力机制神经网络的视力障碍人士室内物品寻找与定位的方法,整体流程图如图1所示,包含步骤:
S1、视力障碍人士通过语音识别模块输入所需搜寻物品的名称或者特征,每次只能输入单个物品,并通过固定的双目摄像头进行室内图像采集;
S2、设计了一种基于神经网络的新型自适应sigmoid传递算法(Adaptive SigmoidTransfer Function,ASTF),将ASTF与拉普拉斯算子结合增强采集图像的亮度和降低失真度;
步骤S2具体包含:
S21、设计了一种基于神经网络sigmoid函数的新的自适应sigmoid传递算法(ASTF);
在本发明的实施例中,新的自适应sigmoid传递算法(ASTF)推导过程,具体包含:
S211、新型自适应sigmoid传递算法(ASTF)由公式(1)表示:
S(x,y)=Vη(x,y) (1)
公式(1)使用的ASTF是一个自适应调节优化的非线性算法,它根据输入图像中的亮度值自适应地调整像素强度,较低的强度值被大幅提升,较高的强度值被适当的修正;
S212、在步骤S211中,公式(1)中的V表示HSV颜色空间中的亮度参数,参数V负责亮度信息,V由公式(2)表示:
Figure BDA0002724987470000131
其中,maxc∈{R,G,B}表示R、G和B颜色层全局最大强度,Ic(x,y)表示采集图像中位置(x,y)处的像素强度;
S213、在步骤S211中,公式(1)的η为局部自适应参数,η的局部自适应性质由sigmoid函数得到,其中sigmoid函数由公式(3)表示:
Figure BDA0002724987470000132
其中,t为输入,k增益;由公式(3)可得到各像素强度的局部自适应参数η(x,y),η(x,y)由公式(4)表示:
Figure BDA0002724987470000133
S214、将由公式(4)得到的η(x,y)代入公式(1)的S(x,y)中,得到ASTF的最终公式,ASTF的最终公式由公式(5)表示:
Figure BDA0002724987470000134
S22、自适应sigmoid传递算法(ASTF)通过与拉普拉斯算子结合来增强输入图片的亮度和降低失真;
在本发明的实施例中,自适应sigmoid传递算法(ASTF)通过与拉普拉斯算子结合图像增强的过程,具体包含:
S221、将输入的RGB图像转换成HSV颜色空间,由HSV颜色空间将输入图像分离为亮度和色彩信息部分,V分量负责亮度信息,由步骤S212中的公式(2)提取V分量;
S222、由步骤S214中的公式(5)得到ASTF的计算结果Vη(x,y),将结果Vη(x,y)应用到步骤S221的V分量上,当V(x,y)>0.5时像素强度轻度增强,当V(x,y)≤0.5时像素强度大量增强;
S223、采用高通滤波器与原始图像进行卷积提高图像对比度分量,使用拉普拉斯滤波器掩模作为高通滤波器。该滤波器由公式(6)表示:
Figure BDA0002724987470000141
对比度增强的亮度分量由公式(7)表示:
Figure BDA0002724987470000142
其中,*表示卷积运算。可以得到的归一化对比度增强亮度层如公式(8)所示:
Figure BDA0002724987470000143
S224、将公式(8)得到的归一化对比度增强亮度置于HSV转换图像的值分量中,再将HSV色彩空间图像转换为RGB色彩空间,得到最终增强图像。
S3、设计变尺度卷积神经网络(Variable Scale Convolutional NeuralNetwork,VS-CNN)将步骤S2得到的图像卷积到相同尺寸;
步骤S3具体包含:
S31、所述的变尺度卷积神经网络是由一种基于超像素分割的卷积算法(Super-Pixel Segmentation Convolution,SPS-Conv)所构建;
首先SPS-Conv通过对图像采用改进的简单线性迭代聚类(improved SimpleLinear Iterative Cluster,improved SLIC)方法进行分割,每个超像素都是一组具有相似属性的相邻像素集合且所有超像素包含相同数量的像素;然后逐个超像素块进行卷积运算,从图像输入层面解决几何变形问题。
步骤S31中,所述的改进的简单线性迭代聚类方法步骤具体包含:
S311、在输入图像上生成N个种子点,相邻种子点在纵轴和横轴上的距离分别为SH和SW
Figure BDA0002724987470000151
Figure BDA0002724987470000152
其中H为图像的高度,W为图像的宽度,K为超像素个数;
S312、计算种子点3×3领域内所有像素点的梯度值,将种子点移动到梯度最小的地方;
S313、计算种子点与种子点在2SH×2SW领域内各像素之间的距离D,计算过程如公式(11)、(12)和(13)表示:
Figure BDA0002724987470000153
Figure BDA0002724987470000154
Figure BDA0002724987470000155
其中,l、a、b是CIELAB的颜色空间值,dc表示CIELAB的颜色空间差值,ds则是像素之间的空间距离,i和j代表两个不同的像素,m为紧凑系数;
S314、每个超像素由m×n个像素组成,这些像素位于种子点周围,它们之间的距离D最小,并且一个像素可以属于不同的超像素;
S315、返回步骤S312,重复多次迭代优化,最终将图像卷积到相同尺寸。
S4、设计融合三种不同级别注意力的多级别注意力机制卷积神经网络(Multi-levels Attention Convolutional Neural Network,MAtten-CNN),对所采集图像进行分层传递特征提取;三种级别的注意分别从卷积神经网络的“特征通道膨胀”、“局部相似性聚类”和“自学习空间加权”三个方向来依次对S3得到的目标图像进行不同粒度的特征提取并进行特征融合,将融合图像特征数据与数据库中存储的目标物品特征数据进行匹配;
图5所示的为MAtten-CNN的双分支结构,两个分支分别是像素级注意卷积和对象级注意卷积的集成,每层分支信息融合在一起向下传递,最后连接一个部件级注意卷积模块,其中图5中虚线框表示的组合模块为DAtten-CNN。
步骤S4具体包含:
S41、所述的融合多级别注意力机制神经网络,包括对象级注意卷积神经网络、部件级注意卷积神经网络和像素级注意卷积神经网络;
S42、所述的对象级注意卷积神经网络是一种带有“通道膨胀系数”的通道膨胀卷积神经网络(Channel Expansion Convolutional Network,CENet);所述的像素级注意卷积神经网络为一种像素级的可学习重要性表征卷积神经网络(Learning InportantRepresentation Convolution Network,LIRNet);
首先对步骤S2、S3处理后的图像由CENet的通道膨胀单元(Channel Expansionunit,CE-unit)和LIRNet的学习重要性表征单元(Learning Inportant Representationunit,LIR-unit)组成的双级别注意力卷积神经网络(DAtten-CNN)进行初步特征提取;
其中:CE-unit卷积单元对特征图的通道进行注意捕捉,LIR-nuit卷积单元对特征图的空间进行注意捕捉;
步骤S42中,CENet和LIRNet具体包含:
S421、CENet的通道膨胀系数是特征通道做一次卷积后扩大的倍数。CENet由多个Channel Expansion单元(CE-unit)叠加构成,每一个CE-unit单元包括通道排序模块和通道膨胀模块两个部分,其结构如图2所示。
在图2中
Figure BDA0002724987470000171
作为通道通道膨胀模块的输入具有通道数为4C,
Figure BDA0002724987470000172
的通道已按照对分类结构的重要程度降序排列过,然后沿着通道方向被分成
Figure BDA0002724987470000173
他们都有C个通道。
紧接着对每个小块分别做卷积操作,卷积操作如公式(14)表示:
Figure BDA0002724987470000174
其中,V=[v1,v2,...vc]表示一个卷积核,
Figure BDA0002724987470000175
i取值{1,2,3,4},符号Θ表示卷积操作,符号*表示对应元素的乘积,βi为膨胀系数,每个分组卷积后得到βiC个特征通道。
Xz=concat([X1,X2,X3,X4]) (15)
Xc=ConV(Xz,1×1×C) (16)
公式(15)、(16)表示将分组卷积后沿通道方向合并在一起,然后通过“1×1”卷积得到含有C个通道的特征图,从而实现突出更重要特征、弱化相对不重要特征的功能。
S422、提出的LIRNet是一种基于图像空间维信息的网络,LIRNet是一种通过自学习的方式得到图像特征空间上每个像素点的重要性权重,然后根据这些权重有选择的增强有益的像素内容,抑制无用的像素影响的网络。LIRNet的核心模块为LIR-unit,其结构示意图如图3所示。
图3用虚线划分了四个部分,第一部分使用常规卷积,C1和C2分别表示特征图X和X′的通道数。V=[v1,v2,...vc2]是X→X′的卷积核,X=[x1,x2,...,xC2],
Figure BDA0002724987470000177
X到
Figure BDA0002724987470000176
的具体实现算法如公式(17)到公式(20)所示:
Figure BDA0002724987470000181
其中符号Θ表示执行卷积操作,
Figure BDA0002724987470000182
X′→U′则是一个普通卷积外接ReLU激活过程,U′的通道数C3远小于C2
Figure BDA0002724987470000183
其中符号σ表示激活函数Sigmoid。
接下来将三维的U′压缩成二维并用Sigmoid函数激活得到U,U即相当于存放特征空间中每个像素重要性的二维表。
Figure BDA0002724987470000184
Figure BDA0002724987470000185
其中符号δ表示激活函数ReLU,
Figure BDA0002724987470000186
U′=[u′1,u′2,...,u′C3]。最终,把得到的具有像素级重要性的二维表赋值到相对应的特征图上,并采用跳过连接进行残差学习。其中公式(20)中的
Figure BDA0002724987470000187
就是输入特征执行像素级注意卷积后的特征图。
S43、所述部件级注意卷积神经网络为一种以分组注意模块(Group Attentionunit,GA-unit)为核心模块的分组注意卷积神经网络(Group Attention ConvolutionalNetwork,GANet),它位于该多级别注意力机制的卷积神经网络最后一层;DAtten-CNN将第一层卷积进行后的融合信息传递到GANet层,GANet层再将大量相似度较高的特征通道聚类并分组卷积,形成具有局部表征能力的注意卷积模型;接下来,对网络高级语义层的特征通道进行聚类,把所有表征对象具有高度相似性的特征通道分在一组,不同分组实现不同的部件级注意,抓住多个局部特征进行图像分类,以此达到对目标图像更细粒度特征提取;
步骤S43中,GANet具体包含:
S431、GA-unit的结构示意图如图4所示。图4中,针对
Figure BDA0002724987470000191
的每个特征通道进行处理,将其拉伸成向量。V是一组向量的集合,灰色的头部代表向量的方向,向量的长度为W×H,接下来对向量进行点积运算,两个向量的点积结果为一个标量值,值越大表示两者相似度越高,反之,值越小表示两者相似度越低。通过向量点积的方式将相似度高的向量聚为一类,从而更好的表达局部语义。V′是分组聚类后的向量集合,然后根据V′的顺序重新排列X得到
Figure BDA0002724987470000192
Figure BDA0002724987470000193
就是分组注意后的多个语义单元。针对每个语义单元进行分组卷积操作得到X′,同时对每个语义单元进行特征学习。最后,将组卷积的多个语义单元沿特征通道方向组合起来得到X。
S5、若匹配成功,则通过双目摄像头特征点以及对应的视差值进行目标物品三维重建获得目标物体位置信息,最后通过语音模块输出目标物体位置信息;若匹配不成功,则通过语音模块输出目标物体不存在信息。
步骤S5具体包含:
S51、将匹配成功的目标物体图像二值化处理;
S52、通过Grabcut算法对该目标物体轮廓提取,然后使用cv::findContours和cv::drawContours对提取的轮廓进行查找和绘制;
所述的Grabcut算法是Graphcut算法的升级版,该算法利用图像中的纹理(颜色)信息和边界(反差)信息对图像进行轮廓提取;
其中:cv::findContours和cv::drawContours都是OpenCV中的函数,cv::findContours函数可以从二值图像中检索轮廓,并返回检测到的轮廓个数,然后通过cv::drawContours函数对cv::findContours函数检索到的轮廓进行绘制;
S53、计算轮廓形心像素坐标(x0,y0)由公式(21)和公式(22)表示:
Figure BDA0002724987470000201
Figure BDA0002724987470000202
其中:
Figure BDA0002724987470000203
f(x,y)是在点(x,y)的像素值。通过遍历目标物体所有像素点,最终求解形心坐标;
S54、在双目摄像机左图像中以目标形心为形心截取一个矩形模板图像块,使用归一化的互相关模板匹配方法得到双目摄像机右图像对应的形心像素坐标;
S55、根据双目摄像机内外参数以及特定的特征点将左右像素坐标代入其相互转换关系中,计算得到目标物体形心的空间坐标;
S56、将目标物体的形心空间坐标与相机特定的空间点进行空间几何运算,可得到目标物体形心与相机之间的实际距离,达到对目标物体的定位。
S57、最后语音通知定位得到的目标物体的位置信息。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (1)

1.一种视力障碍人士室内物品寻找与定位的方法,其特征在于,该方法包括以下步骤:
S1、视力障碍人士通过语音识别模块输入所需搜寻物品的名称或者特征,每次只能输入单个物品,并通过固定的双目摄像头进行室内图像采集;
S2、对步骤S1中所采集的图像通过一种基于神经网络的自适应sigmoid传递算法ASTF,将ASTF与拉普拉斯算子结合增强采集图像的亮度和降低失真度;
S3、采用一种变尺度卷积神经网络将步骤S2得中增强后的图像卷积到相同尺寸;
S4、通过一种融合对象级注意卷积神经网络、像素级注意卷积神经网络和部件级注意卷积神经网络三种不同级别注意力的多级别注意力机制卷积神经网络MAtten-CNN,对所采集图像进行分层传递特征提取;三种级别的注意分别从卷积神经网络的“特征通道膨胀”、“自学习空间加权”和“局部相似性聚类”三个方向分别对步骤S3处理后得到的目标图像进行不同粒度的特征提取并进行特征融合,并将融合后的图像特征信息数据与数据库中目标物品特征数据进行匹配;
S5、若匹配成功,则通过双目摄像头特征点以及对应的视差值进行目标物品三维重建获得目标物体位置信息,最后通过语音模块输出目标物体位置信息;若匹配不成功,则通过语音模块输出目标物体不存在信息。
所述步骤S2具体包含以下步骤:
S21、设计一种新型自适应sigmoid传递算法ASTF;
S22、ASTF与拉普拉斯算子结合增强步骤S1所采集图像的亮度和降低失真度;
步骤S21进一步包含以下步骤:
S211、新型自适应sigmoid传递算法ASTF由公式(1)表示:
S(x,y)=Vη(x,y) (1)
其中,公式(1)使用的ASTF是一个自适应调节优化的非线性算法,它根据输入图像中的亮度值自适应地调整像素强度,较低的强度值被大幅提升,较高的强度值被适当的修正;
S212、在步骤S211中,公式(1)中的V表示HSV颜色空间中的亮度参数,参数V负责亮度信息,V由公式(2)表示:
Figure FDA0002724987460000021
其中,maxc∈{R,G,B}表示R、G和B颜色层全局最大强度,Ic(x,y)表示采集图像中位置(x,y)处的像素强度;
S213、在步骤S211中,公式(1)的η为局部自适应参数,η的局部自适应性质由sigmoid函数得到,其中sigmoid函数由公式(3)表示:
Figure FDA0002724987460000022
其中,t为输入,k增益;由公式(3)可得到各像素强度的局部自适应参数η(x,y),η(x,y)由公式(4)表示:
Figure FDA0002724987460000023
S214、将由公式(4)得到的η(x,y)代入公式(1)的S(x,y)中,得到ASTF的最终公式,ASTF的最终公式由公式(5)表示:
Figure FDA0002724987460000024
步骤S22包含以下步骤:
S221、将S1所采集的RGB图像转换成HSV颜色空间,由HSV颜色空间将输入图像分离为亮度和色彩信息部分,V分量负责亮度信息,由步骤S212中的公式(2)提取V分量;
S222、由步骤S214中的公式(5)得到ASTF的计算结果Vη(x,y),将结果Vη(x,y)应用到步骤S221的V分量上,当V(x,y)>0.5时像素强度轻度增强,当V(x,y)≤0.5时像素强度大量增强;
S223、采用高通滤波器与原始图像进行卷积提高图像对比度分量,使用拉普拉斯滤波器掩模作为高通滤波器。该滤波器由公式(6)表示:
Figure FDA0002724987460000031
对比度增强的亮度分量由公式(7)表示:
Figure FDA0002724987460000032
其中,*表示卷积运算。可以得到的归一化对比度增强亮度层如公式(8)所示:
Figure FDA0002724987460000033
S224、将公式(8)得到的归一化对比度增强亮度置于HSV转换图像的值分量中,再将HSV色彩空间图像转换为RGB色彩空间,得到最终增强图像。
所述步骤S3进一步包含以下步骤:
S31、所述的变尺度卷积神经网络是由一种基于超像素分割的卷积算法SPS-Conv所构建;
首先SPS-Conv通过对步骤S2增强过的图像采用改进的简单线性迭代聚类方法进行分割,每个超像素都是一组具有相似属性的相邻像素集合且所有超像素包含相同数量的像素;然后逐个超像素块进行卷积运算,从图像输入层面解决几何变形问题。
步骤S31中,所述的改进的简单线性迭代聚类方法步骤包含以下步骤:
S311、在步骤S2增强过的图像上生成N个种子点,相邻种子点在纵轴和横轴上的距离分别为SH和SW
Figure FDA0002724987460000041
Figure FDA0002724987460000042
其中H为图像的高度,W为图像的宽度,K为超像素个数;
S312、计算种子点3×3领域内所有像素点的梯度值,将种子点移动到梯度最小的地方;
S313、计算种子点与种子点在2SH×2SW领域内各像素之间的距离D,计算过程如公式(11)、(12)和(13)表示:
Figure FDA0002724987460000043
Figure FDA0002724987460000044
Figure FDA0002724987460000045
其中,l、a、b是CIELAB的颜色空间值,dc表示CIELAB的颜色空间差值,ds则是像素之间的空间距离,i和j代表两个不同的像素,m为紧凑系数;
S314、每个超像素由m×n个像素组成,这些像素位于种子点周围,它们之间的距离D最小,并且一个像素可以属于不同的超像素;
S315、返回步骤S312,重复多次迭代优化,最终将图像卷积到相同尺寸。
所述步骤S4进一步包含以下步骤:
S41、所述的对象级注意卷积神经网络是一种带有“通道膨胀系数”的通道膨胀卷积神经网络CENet;所述的像素级注意卷积神经网络为一种像素级的可学习重要性表征卷积神经网络LIRNet;
首先对步骤S2、S3处理后的图像由CENet的通道膨胀单元CE-unit和LIRNet的学习重要性表征单元LIR-unit组成的双级别注意力卷积神经网络DAtten-CNN进行初步特征提取;
其中:CE-unit卷积单元对特征图的通道进行注意捕捉,LIR-nuit卷积单元对特征图的空间进行注意捕捉;
S42、所述部件级注意卷积神经网络为一种以分组注意模块GA-unit为核心模块的分组注意卷积神经网络GANet,它位于多级别注意力机制卷积神经网络最后一层;DAtten-CNN将步骤S2、S3处理后的图像进行卷积后的融合信息传递到GANet层,GANet层再将大量相似度较高的特征通道聚类并分组卷积,形成具有局部表征能力的注意卷积模型;接下来,对网络高级语义层的特征通道进行聚类,把所有表征对象具有高度相似性的特征通道分在一组,不同分组实现不同的部件级注意,抓住多个局部特征进行图像分类,以此达到对目标图像更细粒度特征提取。
步骤S41中,所述的CENet和LIRNet具体包含:
S411、CENet的通道膨胀系数是特征通道做一次卷积后扩大的倍数,CENet由多个CE-unit叠加构成,每一个CE-unit单元包括通道排序模块和通道膨胀模块两个部分;
所述的通道膨胀模块是CENet在Squeeze-and-Excitation Networks特征重标定的基础上进行改进的,其主要过程为:根据权重系数对特征通道进行降序排列,然后将排序后的特征图平均分成n组进行分组卷积操作,在分组卷积的过程中引入通道膨胀系数,将更重要的特征组做更多次卷积以突出其重要性;最后,对分组卷积后的多组通道进行特征融合,使得融合后特征图中重要的特征将占据更大的比例;
S412、LIRNet是一种基于图像空间维信息的网络,通过自学习的方式得到图像特征空间上每个像素点的重要性权重,然后根据这些权重有选择的增强有益的像素内容,抑制无用的像素影响的网络;LIRNet的核心模块为LIR-unit。
步骤S42中,所述的GANet具体包含:
S421、GANet的实现过程为:
(a)对GA-unit中的每个特征通道进行处理,将其拉伸成向量,向量的长度为W×H;然后对向量进行点积运算,两个向量的点积结果为一个标量值,值越大表示两者相似度越高,值越小表示两者相似度越低;
(b)通过向量点积的方式将相似度高的向量聚为一类,令V′为分组聚类后的向量集合;根据V′的顺序重新排列得到新的特征通道,新的特征通道就是分组注意后的语义单元,然后对每个语义单元进行卷积操作,最后将卷积后的多个语义单元沿特征方向组合起来就得到GANet卷积的最终结果。
所述步骤S5进一步包含以下步骤:
S51、将匹配成功的目标物体图像二值化处理;
S52、通过Grabcut算法对该目标物体轮廓提取,然后使用cv::findContours和cv::drawContours对提取的轮廓进行查找和绘制;
所述的Grabcut算法是Graphcut算法的升级版,该算法利用图像中的纹理信息和边界信息对图像进行轮廓提取;
其中:cv::findContours和cv::drawContours都是OpenCV中的函数,cv::findContours函数可以从二值图像中检索轮廓,并返回检测到的轮廓个数,然后通过cv::drawContours函数对cv::findContours函数检索到的轮廓进行绘制;
S53、计算匹配成功目标物体轮廓形心像素坐标(x0,y0),由公式(14)和公式(15)表示:
Figure FDA0002724987460000071
Figure FDA0002724987460000072
其中:
Figure FDA0002724987460000073
f(x,y)是在点(x,y)的像素值。通过遍历目标物体所有像素点,最终求解形心坐标;
S54、在双目摄像机左图像中以目标形心为形心截取一个矩形模板图像块,使用归一化的互相关模板匹配方法得到双目摄像机右图像对应的形心像素坐标;
S55、根据双目摄像机内外参数以及特定的特征点将左右像素坐标代入其相互转换关系中,计算得到目标物体形心的空间坐标;
S56、将目标物体的形心空间坐标与相机特定的空间点进行空间几何运算,可得到目标物体形心与相机之间的实际距离,达到对目标物体的位置定位
S57、最后语音通知定位得到的目标物体的位置信息。
CN202011099932.8A 2020-10-15 2020-10-15 一种视力障碍人士室内物品寻找与定位的方法 Withdrawn CN112233173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011099932.8A CN112233173A (zh) 2020-10-15 2020-10-15 一种视力障碍人士室内物品寻找与定位的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011099932.8A CN112233173A (zh) 2020-10-15 2020-10-15 一种视力障碍人士室内物品寻找与定位的方法

Publications (1)

Publication Number Publication Date
CN112233173A true CN112233173A (zh) 2021-01-15

Family

ID=74113651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011099932.8A Withdrawn CN112233173A (zh) 2020-10-15 2020-10-15 一种视力障碍人士室内物品寻找与定位的方法

Country Status (1)

Country Link
CN (1) CN112233173A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095230A (zh) * 2021-04-14 2021-07-09 北京深睿博联科技有限责任公司 一种帮助盲人查找物品的方法和装置
CN113140005A (zh) * 2021-04-29 2021-07-20 上海商汤科技开发有限公司 目标对象定位方法、装置、设备及存储介质
CN114130034A (zh) * 2021-11-19 2022-03-04 天津大学 基于注意力机制与强化学习的多智能体游戏ai设计方法
CN114219982A (zh) * 2021-12-15 2022-03-22 齐鲁工业大学 一种自适应特征加权的视触融合物体分类方法
CN115331015A (zh) * 2022-08-12 2022-11-11 广州紫为云科技有限公司 一种基于注意力机制的选择卷积方法、装置及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095230A (zh) * 2021-04-14 2021-07-09 北京深睿博联科技有限责任公司 一种帮助盲人查找物品的方法和装置
CN113140005A (zh) * 2021-04-29 2021-07-20 上海商汤科技开发有限公司 目标对象定位方法、装置、设备及存储介质
CN113140005B (zh) * 2021-04-29 2024-04-16 上海商汤科技开发有限公司 目标对象定位方法、装置、设备及存储介质
CN114130034A (zh) * 2021-11-19 2022-03-04 天津大学 基于注意力机制与强化学习的多智能体游戏ai设计方法
CN114219982A (zh) * 2021-12-15 2022-03-22 齐鲁工业大学 一种自适应特征加权的视触融合物体分类方法
CN115331015A (zh) * 2022-08-12 2022-11-11 广州紫为云科技有限公司 一种基于注意力机制的选择卷积方法、装置及介质

Similar Documents

Publication Publication Date Title
CN112233173A (zh) 一种视力障碍人士室内物品寻找与定位的方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN109583483B (zh) 一种基于卷积神经网络的目标检测方法和系统
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
JP6873600B2 (ja) 画像認識装置、画像認識方法及びプログラム
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN109376611A (zh) 一种基于3d卷积神经网络的视频显著性检测方法
CN109948566B (zh) 一种基于权重融合与特征选择的双流人脸反欺诈检测方法
CN106599863A (zh) 一种基于迁移学习技术的深度人脸识别方法
CN113592911B (zh) 表观增强深度目标跟踪方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN105426924B (zh) 一种基于图像中层特征的场景分类方法
CN111695633A (zh) 基于rpf-cam的低照度目标检测方法
Ticay-Rivas et al. Pollen classification based on geometrical, descriptors and colour features using decorrelation stretching method
CN109325434A (zh) 一种多特征的概率主题模型的图像场景分类方法
CN112329771A (zh) 一种基于深度学习的建筑材料样本识别方法
CN108665450A (zh) 一种玉米果穗机械损伤区域识别方法
Utaminingrum et al. Alphabet Sign Language Recognition Using K-Nearest Neighbor Optimization.
CN111832508B (zh) 基于die_ga的低照度目标检测方法
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及系统
CN108960285B (zh) 一种分类模型生成方法、舌体图像分类方法及装置
KR20180092453A (ko) Cnn과 스테레오 이미지를 이용한 얼굴 인식 방법
CN113011506B (zh) 一种基于深度重分形频谱网络的纹理图像分类方法
Niazi et al. Hybrid face detection in color images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210115

WW01 Invention patent application withdrawn after publication