CN112766151B - 一种用于导盲眼镜的双目目标检测方法和系统 - Google Patents

一种用于导盲眼镜的双目目标检测方法和系统 Download PDF

Info

Publication number
CN112766151B
CN112766151B CN202110067848.6A CN202110067848A CN112766151B CN 112766151 B CN112766151 B CN 112766151B CN 202110067848 A CN202110067848 A CN 202110067848A CN 112766151 B CN112766151 B CN 112766151B
Authority
CN
China
Prior art keywords
feature
video frame
main
main video
auxiliary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110067848.6A
Other languages
English (en)
Other versions
CN112766151A (zh
Inventor
刘锋
俞益洲
李一鸣
乔昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Original Assignee
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenrui Bolian Technology Co Ltd, Shenzhen Deepwise Bolian Technology Co Ltd filed Critical Beijing Shenrui Bolian Technology Co Ltd
Priority to CN202110067848.6A priority Critical patent/CN112766151B/zh
Publication of CN112766151A publication Critical patent/CN112766151A/zh
Application granted granted Critical
Publication of CN112766151B publication Critical patent/CN112766151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/061Walking aids for blind persons with electronic detecting or guiding means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Epidemiology (AREA)
  • Pain & Pain Management (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Rehabilitation Therapy (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种用于导盲眼镜的双目目标检测方法和系统,解决现有导盲眼镜目标检测算法可靠性差的技术问题。方法包括:对双目视角下同步的主视频和辅视频进行目标标注;将辅视频中的图像特征与主视频中的图像特征融合形成单一视角视频特征数据;利用单一视角视频特征数据和标注数据作为训练数据集建立目标物体的双目检测模型。通过左右摄像机内容中视讯特征的单向融合改善了单目目标检测模型对检测数据存在缺陷时的检测性能,实现了检测通道间的冗余性和互补性。尤其在某个摄像机出现污损或故障时,仍可以利用另外摄像机提供的视讯信息保证各检测通道进行最低限度的障碍物定位,提供导盲眼镜目标检测的整体可靠性和使用的安全系数。

Description

一种用于导盲眼镜的双目目标检测方法和系统
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种用于导盲眼镜的双目目标检测方法和系统。
背景技术
目标检测是导盲眼镜的关键技术,准确的获取目标的位置信息,对于跟踪运动目标、路径规划与自身状态估计至关重要。现有技术中,导盲眼镜中目标检测算法分为单目摄像机下和双目摄像机下目标检测两种。基于单目摄像机的目标检测通常直接利用基于深度学习的2D目标检测方法。由于在实际使用中,摄像机会遇到污损等情况,影响图像采集的质量,甚至在极端情况下会出现故障,无法获取视频,导致检测失败;另外基于深度学习的目标检测方法容易受噪声影响,出现误检和漏检。而基于双目摄像机的目标检测算法需要对左右摄像机内容进行配准,生成视差图,估算图像中每个点的深度,然后采用3D目标检测算法进行目标的检测。该方法同样存在当任意摄像机出现问题无法获取足够视频,均无法生成视差图,严重影响目标检测的精度,无法完成深度估计,导致检测失败。现有目标检测方法无法解决在实际应用场景下检测的可靠性问题,潜在危及眼镜使用者的安全。
发明内容
鉴于上述问题,本发明实施例提供一种用于导盲眼镜的双目目标检测方法和系统,解决现有导盲眼镜目标检测算法可靠性差的技术问题。
本发明实施例的用于导盲眼镜的双目目标检测方法,包括:
对双目视角下同步的主视频和辅视频进行目标标注;
将所述辅视频中的图像特征与所述主视频中的图像特征融合形成单一视角视频特征数据;
利用所述单一视角视频特征数据和所述标注数据作为训练数据集建立目标物体的双目检测模型。
本发明实施例的用于导盲眼镜的双目目标检测系统,包括:
存储器,用于存储如上述的用于导盲眼镜的双目目标检测方法处理过程对应的程序代码;
处理器,用于执行所述程序代码。
本发明实施例的用于导盲眼镜的双目目标检测系统,包括:
视频帧标注装置,用于对双目视角下同步的主视频和辅视频进行目标标注;
帧特征融合装置,用于将所述辅视频中的图像特征与所述主视频中的图像特征融合形成单一视角视频特征数据;
模型训练装置,用于利用所述单一视角视频特征数据和所述标注数据作为训练数据集建立目标物体的双目检测模型。
本发明实施例的用于导盲眼镜的双目目标检测方法和系统克服了通过对左右摄像机内容进行配准,生成视差图,估算图像中点深的3D目标检测算法的单点故障技术缺陷。通过左右摄像机内容中视讯特征的单向融合改善了单目目标检测模型对检测数据存在缺陷时的检测性能。使得在实际应用中,形成平行检测通道对左右摄像机的视讯内容进行目标检测的同时,在单一视角检测通道内利用另一摄像机视讯的图像特征数据进行目标检测,实现了检测通道间的冗余性和互补性,对单一检测通道检测精度有较大提升。尤其在某个摄像机出现污损或故障时,仍可以利用另外摄像机提供的视讯信息保证各检测通道进行最低限度的障碍物定位,提供导盲眼镜目标检测的整体可靠性,保证了导盲眼镜使用的安全系数。
附图说明
图1所示为本发明一实施例用于导盲眼镜的双目目标检测方法的流程图。
图2所示为本发明一实施例用于导盲眼镜的双目目标检测方法中的图像特征融合流程图。
图3所示为本发明一实施例用于导盲眼镜的双目目标检测方法中的模型训练流程图。
图4所示为本发明一实施例用于导盲眼镜的双目目标检测系统的架构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明一实施例用于导盲眼镜的双目目标检测方法如图1所示。在图1中本实施例包括:
步骤100:对双目视角下同步的主视频和辅视频进行目标标注。
本领域技术人员可以理解,双目视角是视力健全人士的标准视觉形成角度。单目视觉间的视讯信息存在的差异和重叠可以形成立体视觉。本技术方案基于单目视觉视讯信息间存在冗余性和互补性的客观视觉特征,形成模拟双目视角的摄像机机位设置,双目摄像机形成左视角视频和右视角视频。
在两个视角视频中对应截取确定长度的帧序列,对帧序列中的目标物体的位置和类型作出标注。两个帧序列同一时序节点的两帧中标注存在相同,即包括两个同步帧中同一目标物体被同时标注,且在两帧中存在视角引起的视觉差异。例如,在帧图像中采用矩形框标注预先设定目标(如车,行人,桌子,椅子等)的位置。最终,可以得到N组数据,每组数据各包含(左图片、左位置标注)、(右图片、右位置标注)。
步骤200:将辅视频中的图像特征与主视频中的图像特征融合形成单一视角视频特征数据。
本领域技术人员可以理解,帧图像可以通过技术手段提取不同分辨率下的多维度特征图谱,可以实现维度间的量化分析或量化映射。将辅视频帧中的图像特征向主视频帧的特征图谱映射,形成辅视频帧图像向主视频帧图像的特征融合,可以使主视频帧获得与原有图像特征密切相关的额外量化指标和参量,使得表征主视频帧的单一视角视频特征和特征数据量富化。
步骤300:利用单一视角视频特征数据和标注数据作为训练数据集建立目标物体的双目检测模型。
本领域技术人员可以理解,目标检测模型比较成熟,例如CenterNet网络、YOLOv2网络、RetinaNet网络等,包括但不限于适应2D或3D目标检测。通过训练数据集可以根据目标标注完成对应初始模型的参数优化和固定,使目标检测模型满足目标检测精度需求。
本发明实施例的用于导盲眼镜的双目目标检测方法克服了通过对左右摄像机内容进行配准,生成视差图,估算图像中点深的3D目标检测算法的单点故障技术缺陷。通过左右摄像机内容中视讯特征的单向融合改善了单目目标检测模型对检测数据存在缺陷时的检测性能。使得在实际应用中,形成平行检测通道对左右摄像机的视讯内容进行目标检测的同时,在单一视角检测通道内利用另一摄像机视讯的图像特征数据进行目标检测,实现了检测通道间的冗余性和互补性,对单一检测通道检测精度有较大提升。尤其在某个摄像机出现污损或故障时,仍可以利用另外摄像机提供的视讯信息保证各检测通道进行最低限度的障碍物定位,提供导盲眼镜目标检测的整体可靠性,保证了导盲眼镜使用的安全系数。
本发明一实施例用于导盲眼镜的双目目标检测方法中图像特征融合如图2所示。在图2中,图像特征融合过程包括:
步骤210:形成两个并行的特征融合分支,一个分支进行以左侧视角视频为主的主视频帧和右侧视角视频为辅的辅视频帧的特征融合过程,另一个分支进行以右侧视角视频为主的主视频帧和右侧视角视频为辅的辅视频帧的特征融合过程。
在本发明一实施例中,特征融合过程包括:
步骤220:将主视频帧利用卷积神经网络形成若干分辨率层级的主视频帧特征图集合,将辅视频帧利用卷积神经网络形成对应的若干分辨率层级的辅视频帧特征图集合。
主视频帧和辅视频帧的确定是在双目摄像机形成的左视角视频和右视角视频中确定。在本发明一实施例中,卷积神经网络可以选择残差网络的一种,例如优选ResNet50网络,通过下采样逐步输出视频帧的四个层级的特征图。主视频帧特征图
Figure BDA0002904776640000051
和辅视频帧特征图
Figure BDA0002904776640000052
的形成可以采用相同或不同的卷积神经网络,可以采用并行或串行的处理流程。
步骤230:对主视频帧特征图
Figure BDA0002904776640000053
进行卷积操作形成对应尺寸的外观特征图
Figure BDA0002904776640000054
以主视频帧特征图
Figure BDA0002904776640000055
中确定点所在行i列j构成确定点二维向量(i,j),以确定点二维向量输入多层感知机网络输出的多维向量作为确定点的位置特征编码,根据主视频帧特征图中每个确定点的位置特征编码形成与外观特征图
Figure BDA0002904776640000056
对应尺寸的位置特征图
Figure BDA0002904776640000057
将外观特征图
Figure BDA0002904776640000058
和位置特征图
Figure BDA0002904776640000059
按对应的特征维度拼接后进行特征卷积处理形成索引特征图
Figure BDA00029047766400000510
在本发明一实施例中,多层感知机网络可以采用BPN(Back Propagation Net)。
步骤240:对对应的辅视频帧特征图
Figure BDA00029047766400000511
进行卷积操作形成对应尺寸的外观特征图
Figure BDA00029047766400000512
以辅视频帧特征图
Figure BDA00029047766400000513
中确定点所在行i列j构成确定点二维向量(i,j),以确定点二维向量输入多层感知机网络输出的多维向量作为确定点的位置特征编码,根据辅视频帧特征图
Figure BDA00029047766400000514
中每个确定点的位置特征编码形成与外观特征图
Figure BDA0002904776640000061
对应尺寸的位置特征图
Figure BDA0002904776640000062
将对应的外观特征图
Figure BDA0002904776640000063
和位置特征图
Figure BDA0002904776640000064
按对应特征维度拼接后进行两个独立的特征卷积处理分别形成对应辅视频帧特征图
Figure BDA0002904776640000065
的键特征图
Figure BDA0002904776640000066
和值特征图
Figure BDA0002904776640000067
步骤250:获取索引特征图
Figure BDA0002904776640000068
与键特征图
Figure BDA0002904776640000069
的相似度αi,j(u,v),公式如下:
Figure BDA00029047766400000610
其中
Figure BDA00029047766400000611
表示主视频帧特征图
Figure BDA00029047766400000612
的索引特征图
Figure BDA00029047766400000613
中第i行第j列位置的特征向量;
Figure BDA00029047766400000614
表示辅视频帧特征图
Figure BDA00029047766400000615
的键特征图
Figure BDA00029047766400000616
中第u行第v列位置的特征向量;
Figure BDA00029047766400000617
表示辅视频帧特征图
Figure BDA00029047766400000618
的键特征图
Figure BDA00029047766400000619
中第m行第n列位置的特征向量。
即获取索引特征图
Figure BDA00029047766400000620
中任意点
Figure BDA00029047766400000621
与键特征图
Figure BDA00029047766400000622
中每个位置的相似度。
步骤260:利用相似度对值特征图
Figure BDA00029047766400000623
中的值特征加权,并将加权后的值特征图
Figure BDA00029047766400000624
与索引特征图
Figure BDA00029047766400000625
特征叠加形成主动索引特征图
Figure BDA00029047766400000626
将主动索引特征图
Figure BDA00029047766400000627
和主视频帧特征图
Figure BDA00029047766400000628
相加组成残差连接,得到主视频帧融合特征图
Figure BDA00029047766400000629
即利用相似度对值特征图
Figure BDA00029047766400000630
的对应点进行加权,并将所有位置加权后特征相加,得到主动索引特征
Figure BDA00029047766400000631
在(i,j)点的取值,公式如下:
Figure BDA00029047766400000632
对每个位置计算索引特征,即可得到主动索引特征图
Figure BDA00029047766400000633
步骤270:将主视频帧融合特征图
Figure BDA00029047766400000634
作为特征金字塔输入,依次结合主视频帧特征图集合的其他主视频帧特征图(例如
Figure BDA00029047766400000635
等底层特征图)形成单一视角视频特征数据。
本发明实施例的用于导盲眼镜的双目目标检测方法通过将主视频帧的图像特征与辅视频帧的图像特征建立位置坐标的索引映射,实现将辅视频帧的图像特征向将主视频帧的图像特征融合,形成了对主视频帧利用辅视频帧的图像特征进行隐含描述的特征维度。有效扩展了单一主视频帧中对目标物体描述的特征维度,而且该特征维度几乎不受主视频帧信号影响,提高了目标检测模型对主视频帧信号质量的容忍度。
本发明一实施例用于导盲眼镜的双目目标检测方法中模型训练如图3所示。在图3中,模型训练过程包括:
步骤310:形成主视频帧污损模拟:以确定概率对主视频帧添加高斯模糊,其中高斯模糊的方差在确定范围内随机选取;
步骤320:形成主视频帧故障模拟:以确定概率对主视频帧进行光照变换,至少包括采用随机Gamma矫正和HSV变换;
步骤330:形成主视频帧缺失模拟:以确定概率将主视频帧置为全零。
本发明实施例的用于导盲眼镜的双目目标检测方法在模型训练过程中随机模拟实际使用中单摄像机出现污损、故障和损坏的情况,形成有针对性的训练数据,以增加模型的稳定性。
在本发明一实施例中,可以采用梯度下降方式对真实帧图像或按以上处理过的帧图像进行优化。
在本发明一实施例中,还包括:
部署双目目标检测模型:以双目摄像机左、右摄像机为输入,利用双目目标检测模型进行推理,进行目标检测。
本发明一实施例用于导盲眼镜的双目目标检测系统,包括:
存储器,用于存储上述实施例的用于导盲眼镜的双目目标检测方法中处理过程对应的程序代码;
处理器,用于执行上述实施例的用于导盲眼镜的双目目标检测方法中处理过程对应的程序代码。
处理器可以采用DSP(Digital Signal Processor)数字信号处理器、FPGA(Field-Programmable Gate Array)现场可编程门阵列、MCU(Microcontroller Unit)系统板、SoC(system on a chip)系统板或包括I/O的PLC(Programmable Logic Controller)最小系统。
本发明一实施例用于导盲眼镜的双目目标检测系统如图4所示。在图4中,本实施例包括:
视频帧标注装置10,用于对双目视角下同步的主视频和辅视频进行目标标注;
帧特征融合装置20,用于将辅视频中的图像特征与主视频中的图像特征融合形成单一视角视频特征数据;
模型训练装置30,用于利用单一视角视频特征数据和标注数据作为训练数据集建立目标物体的双目检测模型。
如图4所示,本发明一实施例中,帧特征融合装置20包括:
融合分支建立模块21,用于形成两个并行的特征融合分支,一个分支进行以左侧视角视频为主的主视频帧和右侧视角视频为辅的辅视频帧的特征融合过程,另一个分支进行以右侧视角视频为主的主视频帧和右侧视角视频为辅的辅视频帧的特征融合过程;
主特征图建立模块22,用于将主视频帧利用卷积神经网络形成若干分辨率层级的主视频帧特征图集合,将辅视频帧利用卷积神经网络形成对应的若干分辨率层级的辅视频帧特征图集合;
主帧索引特征模块23,用于对主视频帧特征图
Figure BDA0002904776640000081
进行卷积操作形成对应尺寸的外观特征图
Figure BDA0002904776640000082
以主视频帧特征图
Figure BDA0002904776640000083
中确定点所在行i列j构成确定点二维向量(i,j),以确定点二维向量输入多层感知机网络输出的多维向量作为确定点的位置特征编码,根据主视频帧特征图中每个确定点的位置特征编码形成与外观特征图
Figure BDA0002904776640000084
对应尺寸的位置特征图
Figure BDA0002904776640000085
将外观特征图
Figure BDA0002904776640000086
和位置特征图
Figure BDA0002904776640000087
按对应的特征维度拼接后进行特征卷积处理形成索引特征图
Figure BDA0002904776640000088
辅特征图建立模块24,用于对对应的辅视频帧特征图
Figure BDA0002904776640000089
进行卷积操作形成对应尺寸的外观特征图
Figure BDA00029047766400000810
以辅视频帧特征图
Figure BDA00029047766400000811
中确定点所在行i列j构成确定点二维向量(i,j),以确定点二维向量输入多层感知机网络输出的多维向量作为确定点的位置特征编码,根据辅视频帧特征图
Figure BDA0002904776640000091
中每个确定点的位置特征编码形成与外观特征图
Figure BDA0002904776640000092
对应尺寸的位置特征图
Figure BDA0002904776640000093
将对应的外观特征图
Figure BDA0002904776640000094
和位置特征图
Figure BDA0002904776640000095
按对应特征维度拼接后进行两个独立的特征卷积处理分别形成对应辅视频帧特征图
Figure BDA0002904776640000096
的键特征图
Figure BDA0002904776640000097
和值特征图
Figure BDA0002904776640000098
主辅键相似型模块25,用于获取索引特征图
Figure BDA0002904776640000099
与键特征图
Figure BDA00029047766400000910
的相似度αi,j(u,v),公式如下:
Figure BDA00029047766400000911
其中
Figure BDA00029047766400000912
表示主视频帧特征图
Figure BDA00029047766400000913
的索引特征图
Figure BDA00029047766400000914
中第i行第j列位置的特征向量;
Figure BDA00029047766400000915
表示辅视频帧特征图
Figure BDA00029047766400000916
的键特征图
Figure BDA00029047766400000917
中第u行第v列位置的特征向量;
Figure BDA00029047766400000918
表示辅视频帧特征图
Figure BDA00029047766400000919
的键特征图
Figure BDA00029047766400000920
中第m行第n列位置的特征向量
主帧索引加权模块26,用于利用相似度对值特征图
Figure BDA00029047766400000921
中的值特征加权,并将加权后的值特征图
Figure BDA00029047766400000922
与索引特征图
Figure BDA00029047766400000923
特征叠加形成主动索引特征图
Figure BDA00029047766400000924
公式如下:
Figure BDA00029047766400000925
将主动索引特征图
Figure BDA00029047766400000926
和主视频帧特征图
Figure BDA00029047766400000927
相加组成残差连接,得到主视频帧融合特征图
Figure BDA00029047766400000928
主帧融合数据模块27,用于将主视频帧融合特征图
Figure BDA00029047766400000929
作为特征金字塔输入,依次结合主视频帧的其他主视频帧特征图形成单一视角视频特征数据。
如图4所示,本发明一实施例中,模型训练装置30包括:
污损数据模拟模块31,用于形成主视频帧污损模拟:以确定概率对主视频帧添加高斯模糊,其中高斯模糊的方差在确定范围内随机选取;
故障数据模拟模块32,用于形成主视频帧故障模拟:以确定概率对主视频帧进行光照变换,至少包括采用随机Gamma矫正和HSV变换;
损坏数据模拟模块33,用于形成主视频帧缺失模拟:以确定概率将主视频帧置为全零。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种用于导盲眼镜的双目目标检测方法,其特征在于,包括:
形成模拟双目视角的摄像机机位设置,对双目视角下同步的主视频和辅视频进行目标标注;
将所述辅视频中的图像特征向主视频帧的特征图谱映射,与所述主视频中的图像特征融合形成单一视角视频特征数据;
利用所述单一视角视频特征数据和所述标注数据作为训练数据集建立目标物体的双目检测模型;
所述形成单一视角视频特征数据包括:
形成两个并行的特征融合分支,一个分支进行以左侧视角视频为主的主视频帧和右侧视角视频为辅的辅视频帧的特征融合过程,另一个分支进行以右侧视角视频为主的主视频帧和左侧视角视频为辅的辅视频帧的特征融合过程;
所述特征融合过程包括:
将主视频帧利用卷积神经网络形成若干分辨率层级的主视频帧特征图集合,将辅视频帧利用卷积神经网络形成对应的若干分辨率层级的辅视频帧特征图集合;
对主视频帧特征图
Figure FDA0003665389110000011
进行卷积操作形成对应尺寸的外观特征图
Figure FDA0003665389110000012
以主视频帧特征图
Figure FDA0003665389110000013
中确定点所在行i列j构成确定点二维向量(i,j),以确定点二维向量输入多层感知机网络输出的多维向量作为确定点的位置特征编码,根据主视频帧特征图中每个确定点的位置特征编码形成与外观特征图
Figure FDA0003665389110000014
对应尺寸的位置特征图
Figure FDA0003665389110000015
将外观特征图
Figure FDA0003665389110000016
和位置特征图
Figure FDA0003665389110000017
按对应的特征维度拼接后进行特征卷积处理形成索引特征图
Figure FDA0003665389110000018
对对应的辅视频帧特征图
Figure FDA0003665389110000019
进行卷积操作形成对应尺寸的外观特征图
Figure FDA00036653891100000110
以辅视频帧特征图
Figure FDA00036653891100000111
中确定点所在行i列j构成确定点二维向量(i,j),以确定点二维向量输入多层感知机网络输出的多维向量作为确定点的位置特征编码,根据辅视频帧特征图
Figure FDA0003665389110000021
中每个确定点的位置特征编码形成与外观特征图
Figure FDA0003665389110000022
对应尺寸的位置特征图
Figure FDA0003665389110000023
将对应的外观特征图
Figure FDA0003665389110000024
和位置特征图
Figure FDA0003665389110000025
按对应特征维度拼接后进行两个独立的特征卷积处理分别形成对应辅视频帧特征图
Figure FDA0003665389110000026
的键特征图
Figure FDA0003665389110000027
和值特征图
Figure FDA0003665389110000028
所述特征融合过程还包括:
获取索引特征图
Figure FDA0003665389110000029
与键特征图
Figure FDA00036653891100000210
的相似度αi,j(u,v),公式如下:
Figure FDA00036653891100000211
其中
Figure FDA00036653891100000212
表示主视频帧特征图
Figure FDA00036653891100000213
的索引特征图
Figure FDA00036653891100000214
中第i行第j列位置的特征向量;
Figure FDA00036653891100000215
表示辅视频帧特征图
Figure FDA00036653891100000216
的键特征图
Figure FDA00036653891100000217
中第u行第v列位置的特征向量;
Figure FDA00036653891100000218
表示辅视频帧特征图
Figure FDA00036653891100000219
的键特征图
Figure FDA00036653891100000220
中第m行第n列位置的特征向量;
所述特征融合过程还包括:
利用相似度对值特征图
Figure FDA00036653891100000221
中的值特征加权,并将加权后的值特征图
Figure FDA00036653891100000222
与索引特征图
Figure FDA00036653891100000223
特征叠加形成主动索引特征图
Figure FDA00036653891100000224
公式如下:
Figure FDA00036653891100000225
将主动索引特征图
Figure FDA00036653891100000226
和主视频帧特征图
Figure FDA00036653891100000227
相加组成残差连接,得到主视频帧融合特征图
Figure FDA00036653891100000228
所述特征融合过程还包括:
将主视频帧融合特征图
Figure FDA00036653891100000229
作为特征金字塔输入,依次结合主视频帧特征图集合的其他主视频帧特征图形成单一视角视频特征数据。
2.如权利要求1所述的用于导盲眼镜的双目目标检测方法,其特征在于,所述进行目标标注包括:
在两个视角视频中对应截取确定长度的帧序列,对帧序列中的目标物体的位置和类型作出标注,包括同步帧中相同或不同目标物体的标注。
3.如权利要求1所述的用于导盲眼镜的双目目标检测方法,其特征在于,所述双目检测模型的训练过程包括以下至少一种:
形成主视频帧污损模拟:以确定概率对主视频帧添加高斯模糊,其中高斯模糊的方差在确定范围内随机选取;
形成主视频帧故障模拟:以确定概率对主视频帧进行光照变换,至少包括采用随机Gamma矫正和HSV变换;
形成主视频帧缺失模拟:以确定概率将主视频帧置为全零。
4.一种用于导盲眼镜的双目目标检测系统,其特征在于,包括:
存储器,用于存储如权利要求1至3任一所述的用于导盲眼镜的双目目标检测方法处理过程对应的程序代码;
处理器,用于执行所述程序代码。
5.一种用于导盲眼镜的双目目标检测系统,其特征在于,包括:
视频帧标注装置,用于形成模拟双目视角的摄像机机位设置,对双目视角下同步的主视频和辅视频进行目标标注;
帧特征融合装置,用于将所述辅视频中的图像特征向主视频帧的特征图谱映射,与所述主视频中的图像特征融合形成单一视角视频特征数据;
模型训练装置,用于利用所述单一视角视频特征数据和所述标注数据作为训练数据集建立目标物体的双目检测模型;
所述帧特征融合装置包括:
融合分支建立模块,用于形成两个并行的特征融合分支,一个分支进行以左侧视角视频为主的主视频帧和右侧视角视频为辅的辅视频帧的特征融合过程,另一个分支进行以右侧视角视频为主的主视频帧和左侧视角视频为辅的辅视频帧的特征融合过程;
主特征图建立模块,用于将主视频帧利用卷积神经网络形成若干分辨率层级的主视频帧特征图集合,将辅视频帧利用卷积神经网络形成对应的若干分辨率层级的辅视频帧特征图集合;
主帧索引特征模块,用于对主视频帧特征图
Figure FDA0003665389110000031
进行卷积操作形成对应尺寸的外观特征图
Figure FDA0003665389110000041
以主视频帧特征图
Figure FDA0003665389110000042
中确定点所在行i列j构成确定点二维向量(i,j),以确定点二维向量输入多层感知机网络输出的多维向量作为确定点的位置特征编码,根据主视频帧特征图中每个确定点的位置特征编码形成与外观特征图
Figure FDA0003665389110000043
对应尺寸的位置特征图
Figure FDA0003665389110000044
将外观特征图
Figure FDA0003665389110000045
和位置特征图
Figure FDA0003665389110000046
按对应的特征维度拼接后进行特征卷积处理形成索引特征图
Figure FDA0003665389110000047
辅特征图建立模块,用于对对应的辅视频帧特征图
Figure FDA0003665389110000048
进行卷积操作形成对应尺寸的外观特征图
Figure FDA0003665389110000049
以辅视频帧特征图
Figure FDA00036653891100000410
中确定点所在行i列j构成确定点二维向量(i,j),以确定点二维向量输入多层感知机网络输出的多维向量作为确定点的位置特征编码,根据辅视频帧特征图
Figure FDA00036653891100000411
中每个确定点的位置特征编码形成与外观特征图
Figure FDA00036653891100000412
对应尺寸的位置特征图
Figure FDA00036653891100000413
将对应的外观特征图
Figure FDA00036653891100000414
和位置特征图
Figure FDA00036653891100000415
按对应特征维度拼接后进行两个独立的特征卷积处理分别形成对应辅视频帧特征图
Figure FDA00036653891100000416
的键特征图
Figure FDA00036653891100000417
和值特征图
Figure FDA00036653891100000418
主辅键相似型模块,用于获取索引特征图
Figure FDA00036653891100000419
与键特征图
Figure FDA00036653891100000420
的相似度αi,j(u,v),公式如下:
Figure FDA00036653891100000421
其中
Figure FDA00036653891100000422
表示主视频帧特征图
Figure FDA00036653891100000423
的索引特征图
Figure FDA00036653891100000424
中第i行第j列位置的特征向量;
Figure FDA00036653891100000425
表示辅视频帧特征图
Figure FDA00036653891100000426
的键特征图
Figure FDA00036653891100000427
中第u行第v列位置的特征向量;
Figure FDA00036653891100000428
表示辅视频帧特征图
Figure FDA00036653891100000429
的键特征图
Figure FDA00036653891100000430
中第m行第n列位置的特征向量;
主帧索引加权模块,用于利用相似度对值特征图
Figure FDA00036653891100000431
中的值特征加权,并将加权后的值特征图
Figure FDA00036653891100000432
与索引特征图
Figure FDA00036653891100000433
特征叠加形成主动索引特征图
Figure FDA00036653891100000434
公式如下:
Figure FDA00036653891100000435
将主动索引特征图
Figure FDA00036653891100000436
和主视频帧特征图
Figure FDA00036653891100000437
相加组成残差连接,得到主视频帧融合特征图
Figure FDA00036653891100000438
主帧融合数据模块,用于将主视频帧融合特征图
Figure FDA0003665389110000051
作为特征金字塔输入,依次结合主视频帧特征图集合的其他主视频帧特征图形成单一视角视频特征数据。
CN202110067848.6A 2021-01-19 2021-01-19 一种用于导盲眼镜的双目目标检测方法和系统 Active CN112766151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110067848.6A CN112766151B (zh) 2021-01-19 2021-01-19 一种用于导盲眼镜的双目目标检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110067848.6A CN112766151B (zh) 2021-01-19 2021-01-19 一种用于导盲眼镜的双目目标检测方法和系统

Publications (2)

Publication Number Publication Date
CN112766151A CN112766151A (zh) 2021-05-07
CN112766151B true CN112766151B (zh) 2022-07-12

Family

ID=75703095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110067848.6A Active CN112766151B (zh) 2021-01-19 2021-01-19 一种用于导盲眼镜的双目目标检测方法和系统

Country Status (1)

Country Link
CN (1) CN112766151B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163290A (zh) * 2011-05-16 2011-08-24 天津大学 基于时空关联信息的多视角视频监控中异常事件建模方法
CN102201065A (zh) * 2011-05-16 2011-09-28 天津大学 基于轨迹分析的监控视频异常事件检测方法
CN103336971A (zh) * 2013-07-08 2013-10-02 浙江工商大学 基于多特征融合与增量学习的多摄像机间的目标匹配方法
CN106529495A (zh) * 2016-11-24 2017-03-22 腾讯科技(深圳)有限公司 一种飞行器的障碍物检测方法和装置
CN107255818A (zh) * 2017-06-13 2017-10-17 厦门大学 一种两维多特征融合的水下目标快速检测方法
CN107397658A (zh) * 2017-07-26 2017-11-28 成都快眼科技有限公司 一种多尺度全卷积网络及视觉导盲方法和装置
CN108537837A (zh) * 2018-04-04 2018-09-14 腾讯科技(深圳)有限公司 一种深度信息确定的方法及相关装置
CN109886305A (zh) * 2019-01-23 2019-06-14 浙江大学 一种基于gm-phd滤波的多传感器非顺序量测异步融合方法
CN109919139A (zh) * 2019-04-01 2019-06-21 杭州晶一智能科技有限公司 基于双目立体视觉的路面状况快速检测方法
CN109977773A (zh) * 2019-02-18 2019-07-05 华南理工大学 基于多目标检测3d cnn的人体行为识别方法及系统
CN110246154A (zh) * 2019-05-07 2019-09-17 重庆邮电大学 一种基于ica-r多特征融合与自适应更新的视觉目标跟踪方法
CN111325347A (zh) * 2020-02-19 2020-06-23 山东大学 基于可解释视觉推理模型的危险预警描述自动生成方法
CN111563415A (zh) * 2020-04-08 2020-08-21 华南理工大学 一种基于双目视觉的三维目标检测系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8072469B2 (en) * 2007-04-03 2011-12-06 L-3 Communications Insight Technology Incorporated Fusion night vision system with parallax correction
US10956714B2 (en) * 2018-05-18 2021-03-23 Beijing Sensetime Technology Development Co., Ltd Method and apparatus for detecting living body, electronic device, and storage medium
CN108764202B (zh) * 2018-06-06 2023-04-18 平安科技(深圳)有限公司 机场异物识别方法、装置、计算机设备及存储介质
CN109753940B (zh) * 2019-01-11 2022-02-22 京东方科技集团股份有限公司 图像处理方法及装置
CN109977895B (zh) * 2019-04-02 2020-10-16 重庆理工大学 一种基于多特征图融合的野生动物视频目标检测方法
CN110378943A (zh) * 2019-06-21 2019-10-25 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN112001448A (zh) * 2020-08-26 2020-11-27 大连信维科技有限公司 一种形状规则小物体检测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163290A (zh) * 2011-05-16 2011-08-24 天津大学 基于时空关联信息的多视角视频监控中异常事件建模方法
CN102201065A (zh) * 2011-05-16 2011-09-28 天津大学 基于轨迹分析的监控视频异常事件检测方法
CN103336971A (zh) * 2013-07-08 2013-10-02 浙江工商大学 基于多特征融合与增量学习的多摄像机间的目标匹配方法
CN106529495A (zh) * 2016-11-24 2017-03-22 腾讯科技(深圳)有限公司 一种飞行器的障碍物检测方法和装置
CN107255818A (zh) * 2017-06-13 2017-10-17 厦门大学 一种两维多特征融合的水下目标快速检测方法
CN107397658A (zh) * 2017-07-26 2017-11-28 成都快眼科技有限公司 一种多尺度全卷积网络及视觉导盲方法和装置
CN108537837A (zh) * 2018-04-04 2018-09-14 腾讯科技(深圳)有限公司 一种深度信息确定的方法及相关装置
CN109886305A (zh) * 2019-01-23 2019-06-14 浙江大学 一种基于gm-phd滤波的多传感器非顺序量测异步融合方法
CN109977773A (zh) * 2019-02-18 2019-07-05 华南理工大学 基于多目标检测3d cnn的人体行为识别方法及系统
CN109919139A (zh) * 2019-04-01 2019-06-21 杭州晶一智能科技有限公司 基于双目立体视觉的路面状况快速检测方法
CN110246154A (zh) * 2019-05-07 2019-09-17 重庆邮电大学 一种基于ica-r多特征融合与自适应更新的视觉目标跟踪方法
CN111325347A (zh) * 2020-02-19 2020-06-23 山东大学 基于可解释视觉推理模型的危险预警描述自动生成方法
CN111563415A (zh) * 2020-04-08 2020-08-21 华南理工大学 一种基于双目视觉的三维目标检测系统及方法

Also Published As

Publication number Publication date
CN112766151A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112419494B (zh) 用于自动驾驶的障碍物检测、标记方法、设备及存储介质
CN108010085B (zh) 基于双目可见光相机与热红外相机的目标识别方法
EP3506161A1 (en) Method and apparatus for recovering point cloud data
CN111210468B (zh) 一种图像深度信息获取方法及装置
EP3182371B1 (en) Threshold determination in for example a type ransac algorithm
CN114782691A (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
CN107204010A (zh) 一种单目图像深度估计方法与系统
CN107886477A (zh) 无人驾驶中立体视觉与低线束激光雷达的融合矫正方法
CN105023010A (zh) 一种人脸活体检测方法及系统
US20120114175A1 (en) Object pose recognition apparatus and object pose recognition method using the same
KR102097869B1 (ko) 자가 지도 학습을 이용한 딥러닝 기반 도로 영역 추정 장치 및 방법
CN112802078A (zh) 深度图生成方法和装置
JPH10124658A (ja) 神経回路網を利用したカメラの映像歪補正方法
CN112200056B (zh) 人脸活体检测方法、装置、电子设备及存储介质
EP3086285A1 (en) Method of camera calibration for a multi-camera system and apparatus performing the same
CN112184793B (zh) 深度数据的处理方法、装置及可读存储介质
CN110033483A (zh) 基于dcnn深度图生成方法及系统
CN112348890A (zh) 一种空间定位方法、装置及计算机可读存储介质
CN115457594A (zh) 一种三维人体姿态估计方法、系统、存储介质和电子设备
CN111105451A (zh) 一种克服遮挡效应的驾驶场景双目深度估计方法
CN112270701B (zh) 基于分组距离网络的视差预测方法、系统及存储介质
CN112766151B (zh) 一种用于导盲眼镜的双目目标检测方法和系统
CN113112547A (zh) 机器人及其重定位方法、定位装置及存储介质
CN112288813A (zh) 基于多目视觉测量与激光点云地图匹配的位姿估计方法
CN113570713B (zh) 一种面向动态环境的语义地图构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant