CN112766151B

CN112766151B - 一种用于导盲眼镜的双目目标检测方法和系统

Info

Publication number: CN112766151B
Application number: CN202110067848.6A
Authority: CN
Inventors: 刘锋; 俞益洲; 李一鸣; 乔昕
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2022-07-12
Anticipated expiration: 2041-01-19
Also published as: CN112766151A

Abstract

本发明提供了一种用于导盲眼镜的双目目标检测方法和系统，解决现有导盲眼镜目标检测算法可靠性差的技术问题。方法包括：对双目视角下同步的主视频和辅视频进行目标标注；将辅视频中的图像特征与主视频中的图像特征融合形成单一视角视频特征数据；利用单一视角视频特征数据和标注数据作为训练数据集建立目标物体的双目检测模型。通过左右摄像机内容中视讯特征的单向融合改善了单目目标检测模型对检测数据存在缺陷时的检测性能，实现了检测通道间的冗余性和互补性。尤其在某个摄像机出现污损或故障时，仍可以利用另外摄像机提供的视讯信息保证各检测通道进行最低限度的障碍物定位，提供导盲眼镜目标检测的整体可靠性和使用的安全系数。

Description

一种用于导盲眼镜的双目目标检测方法和系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种用于导盲眼镜的双目目标检测方法和系统。

背景技术

目标检测是导盲眼镜的关键技术，准确的获取目标的位置信息，对于跟踪运动目标、路径规划与自身状态估计至关重要。现有技术中，导盲眼镜中目标检测算法分为单目摄像机下和双目摄像机下目标检测两种。基于单目摄像机的目标检测通常直接利用基于深度学习的2D目标检测方法。由于在实际使用中，摄像机会遇到污损等情况，影响图像采集的质量，甚至在极端情况下会出现故障，无法获取视频，导致检测失败；另外基于深度学习的目标检测方法容易受噪声影响，出现误检和漏检。而基于双目摄像机的目标检测算法需要对左右摄像机内容进行配准，生成视差图，估算图像中每个点的深度，然后采用3D目标检测算法进行目标的检测。该方法同样存在当任意摄像机出现问题无法获取足够视频，均无法生成视差图，严重影响目标检测的精度，无法完成深度估计，导致检测失败。现有目标检测方法无法解决在实际应用场景下检测的可靠性问题，潜在危及眼镜使用者的安全。

发明内容

鉴于上述问题，本发明实施例提供一种用于导盲眼镜的双目目标检测方法和系统，解决现有导盲眼镜目标检测算法可靠性差的技术问题。

本发明实施例的用于导盲眼镜的双目目标检测方法，包括：

对双目视角下同步的主视频和辅视频进行目标标注；

将所述辅视频中的图像特征与所述主视频中的图像特征融合形成单一视角视频特征数据；

利用所述单一视角视频特征数据和所述标注数据作为训练数据集建立目标物体的双目检测模型。

本发明实施例的用于导盲眼镜的双目目标检测系统，包括：

存储器，用于存储如上述的用于导盲眼镜的双目目标检测方法处理过程对应的程序代码；

处理器，用于执行所述程序代码。

本发明实施例的用于导盲眼镜的双目目标检测系统，包括：

视频帧标注装置，用于对双目视角下同步的主视频和辅视频进行目标标注；

帧特征融合装置，用于将所述辅视频中的图像特征与所述主视频中的图像特征融合形成单一视角视频特征数据；

模型训练装置，用于利用所述单一视角视频特征数据和所述标注数据作为训练数据集建立目标物体的双目检测模型。

本发明实施例的用于导盲眼镜的双目目标检测方法和系统克服了通过对左右摄像机内容进行配准，生成视差图，估算图像中点深的3D目标检测算法的单点故障技术缺陷。通过左右摄像机内容中视讯特征的单向融合改善了单目目标检测模型对检测数据存在缺陷时的检测性能。使得在实际应用中，形成平行检测通道对左右摄像机的视讯内容进行目标检测的同时，在单一视角检测通道内利用另一摄像机视讯的图像特征数据进行目标检测，实现了检测通道间的冗余性和互补性，对单一检测通道检测精度有较大提升。尤其在某个摄像机出现污损或故障时，仍可以利用另外摄像机提供的视讯信息保证各检测通道进行最低限度的障碍物定位，提供导盲眼镜目标检测的整体可靠性，保证了导盲眼镜使用的安全系数。

附图说明

图1所示为本发明一实施例用于导盲眼镜的双目目标检测方法的流程图。

图2所示为本发明一实施例用于导盲眼镜的双目目标检测方法中的图像特征融合流程图。

图3所示为本发明一实施例用于导盲眼镜的双目目标检测方法中的模型训练流程图。

图4所示为本发明一实施例用于导盲眼镜的双目目标检测系统的架构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一实施例用于导盲眼镜的双目目标检测方法如图1所示。在图1中本实施例包括：

步骤100：对双目视角下同步的主视频和辅视频进行目标标注。

本领域技术人员可以理解，双目视角是视力健全人士的标准视觉形成角度。单目视觉间的视讯信息存在的差异和重叠可以形成立体视觉。本技术方案基于单目视觉视讯信息间存在冗余性和互补性的客观视觉特征，形成模拟双目视角的摄像机机位设置，双目摄像机形成左视角视频和右视角视频。

在两个视角视频中对应截取确定长度的帧序列，对帧序列中的目标物体的位置和类型作出标注。两个帧序列同一时序节点的两帧中标注存在相同，即包括两个同步帧中同一目标物体被同时标注，且在两帧中存在视角引起的视觉差异。例如，在帧图像中采用矩形框标注预先设定目标(如车，行人，桌子，椅子等)的位置。最终，可以得到N组数据，每组数据各包含(左图片、左位置标注)、(右图片、右位置标注)。

步骤200：将辅视频中的图像特征与主视频中的图像特征融合形成单一视角视频特征数据。

本领域技术人员可以理解，帧图像可以通过技术手段提取不同分辨率下的多维度特征图谱，可以实现维度间的量化分析或量化映射。将辅视频帧中的图像特征向主视频帧的特征图谱映射，形成辅视频帧图像向主视频帧图像的特征融合，可以使主视频帧获得与原有图像特征密切相关的额外量化指标和参量，使得表征主视频帧的单一视角视频特征和特征数据量富化。

步骤300：利用单一视角视频特征数据和标注数据作为训练数据集建立目标物体的双目检测模型。

本领域技术人员可以理解，目标检测模型比较成熟，例如CenterNet网络、YOLOv2网络、RetinaNet网络等，包括但不限于适应2D或3D目标检测。通过训练数据集可以根据目标标注完成对应初始模型的参数优化和固定，使目标检测模型满足目标检测精度需求。

本发明实施例的用于导盲眼镜的双目目标检测方法克服了通过对左右摄像机内容进行配准，生成视差图，估算图像中点深的3D目标检测算法的单点故障技术缺陷。通过左右摄像机内容中视讯特征的单向融合改善了单目目标检测模型对检测数据存在缺陷时的检测性能。使得在实际应用中，形成平行检测通道对左右摄像机的视讯内容进行目标检测的同时，在单一视角检测通道内利用另一摄像机视讯的图像特征数据进行目标检测，实现了检测通道间的冗余性和互补性，对单一检测通道检测精度有较大提升。尤其在某个摄像机出现污损或故障时，仍可以利用另外摄像机提供的视讯信息保证各检测通道进行最低限度的障碍物定位，提供导盲眼镜目标检测的整体可靠性，保证了导盲眼镜使用的安全系数。

本发明一实施例用于导盲眼镜的双目目标检测方法中图像特征融合如图2所示。在图2中，图像特征融合过程包括：

步骤210：形成两个并行的特征融合分支，一个分支进行以左侧视角视频为主的主视频帧和右侧视角视频为辅的辅视频帧的特征融合过程，另一个分支进行以右侧视角视频为主的主视频帧和右侧视角视频为辅的辅视频帧的特征融合过程。

在本发明一实施例中，特征融合过程包括：

步骤220：将主视频帧利用卷积神经网络形成若干分辨率层级的主视频帧特征图集合，将辅视频帧利用卷积神经网络形成对应的若干分辨率层级的辅视频帧特征图集合。

主视频帧和辅视频帧的确定是在双目摄像机形成的左视角视频和右视角视频中确定。在本发明一实施例中，卷积神经网络可以选择残差网络的一种，例如优选ResNet50网络，通过下采样逐步输出视频帧的四个层级的特征图。主视频帧特征图

和辅视频帧特征图

的形成可以采用相同或不同的卷积神经网络，可以采用并行或串行的处理流程。

步骤230：对主视频帧特征图

进行卷积操作形成对应尺寸的外观特征图

以主视频帧特征图

中确定点所在行i列j构成确定点二维向量(i，j)，以确定点二维向量输入多层感知机网络输出的多维向量作为确定点的位置特征编码，根据主视频帧特征图中每个确定点的位置特征编码形成与外观特征图

对应尺寸的位置特征图

将外观特征图

和位置特征图

按对应的特征维度拼接后进行特征卷积处理形成索引特征图

在本发明一实施例中，多层感知机网络可以采用BPN(Back Propagation Net)。

步骤240：对对应的辅视频帧特征图

进行卷积操作形成对应尺寸的外观特征图

以辅视频帧特征图

中确定点所在行i列j构成确定点二维向量(i，j)，以确定点二维向量输入多层感知机网络输出的多维向量作为确定点的位置特征编码，根据辅视频帧特征图

中每个确定点的位置特征编码形成与外观特征图

对应尺寸的位置特征图

将对应的外观特征图

和位置特征图

按对应特征维度拼接后进行两个独立的特征卷积处理分别形成对应辅视频帧特征图

的键特征图

和值特征图

步骤250：获取索引特征图

与键特征图

的相似度α^i，j(u，v)，公式如下：

其中

表示主视频帧特征图

的索引特征图

中第i行第j列位置的特征向量；

表示辅视频帧特征图

的键特征图

中第u行第v列位置的特征向量；

表示辅视频帧特征图

的键特征图

中第m行第n列位置的特征向量。

即获取索引特征图

中任意点

与键特征图

中每个位置的相似度。

步骤260：利用相似度对值特征图

中的值特征加权，并将加权后的值特征图

与索引特征图

特征叠加形成主动索引特征图

将主动索引特征图

和主视频帧特征图

相加组成残差连接，得到主视频帧融合特征图

即利用相似度对值特征图

的对应点进行加权，并将所有位置加权后特征相加，得到主动索引特征

在(i，j)点的取值，公式如下：

对每个位置计算索引特征，即可得到主动索引特征图

步骤270：将主视频帧融合特征图

作为特征金字塔输入，依次结合主视频帧特征图集合的其他主视频帧特征图(例如

等底层特征图)形成单一视角视频特征数据。

本发明实施例的用于导盲眼镜的双目目标检测方法通过将主视频帧的图像特征与辅视频帧的图像特征建立位置坐标的索引映射，实现将辅视频帧的图像特征向将主视频帧的图像特征融合，形成了对主视频帧利用辅视频帧的图像特征进行隐含描述的特征维度。有效扩展了单一主视频帧中对目标物体描述的特征维度，而且该特征维度几乎不受主视频帧信号影响，提高了目标检测模型对主视频帧信号质量的容忍度。

本发明一实施例用于导盲眼镜的双目目标检测方法中模型训练如图3所示。在图3中，模型训练过程包括：

步骤310：形成主视频帧污损模拟：以确定概率对主视频帧添加高斯模糊，其中高斯模糊的方差在确定范围内随机选取；

步骤320：形成主视频帧故障模拟：以确定概率对主视频帧进行光照变换，至少包括采用随机Gamma矫正和HSV变换；

步骤330：形成主视频帧缺失模拟：以确定概率将主视频帧置为全零。

本发明实施例的用于导盲眼镜的双目目标检测方法在模型训练过程中随机模拟实际使用中单摄像机出现污损、故障和损坏的情况，形成有针对性的训练数据，以增加模型的稳定性。

在本发明一实施例中，可以采用梯度下降方式对真实帧图像或按以上处理过的帧图像进行优化。

在本发明一实施例中，还包括：

部署双目目标检测模型：以双目摄像机左、右摄像机为输入，利用双目目标检测模型进行推理，进行目标检测。

本发明一实施例用于导盲眼镜的双目目标检测系统，包括：

存储器，用于存储上述实施例的用于导盲眼镜的双目目标检测方法中处理过程对应的程序代码；

处理器，用于执行上述实施例的用于导盲眼镜的双目目标检测方法中处理过程对应的程序代码。

处理器可以采用DSP(Digital Signal Processor)数字信号处理器、FPGA(Field-Programmable Gate Array)现场可编程门阵列、MCU(Microcontroller Unit)系统板、SoC(system on a chip)系统板或包括I/O的PLC(Programmable Logic Controller)最小系统。

本发明一实施例用于导盲眼镜的双目目标检测系统如图4所示。在图4中，本实施例包括：

视频帧标注装置10，用于对双目视角下同步的主视频和辅视频进行目标标注；

帧特征融合装置20，用于将辅视频中的图像特征与主视频中的图像特征融合形成单一视角视频特征数据；

模型训练装置30，用于利用单一视角视频特征数据和标注数据作为训练数据集建立目标物体的双目检测模型。

如图4所示，本发明一实施例中，帧特征融合装置20包括：

融合分支建立模块21，用于形成两个并行的特征融合分支，一个分支进行以左侧视角视频为主的主视频帧和右侧视角视频为辅的辅视频帧的特征融合过程，另一个分支进行以右侧视角视频为主的主视频帧和右侧视角视频为辅的辅视频帧的特征融合过程；

主特征图建立模块22，用于将主视频帧利用卷积神经网络形成若干分辨率层级的主视频帧特征图集合，将辅视频帧利用卷积神经网络形成对应的若干分辨率层级的辅视频帧特征图集合；

主帧索引特征模块23，用于对主视频帧特征图

进行卷积操作形成对应尺寸的外观特征图

以主视频帧特征图

对应尺寸的位置特征图

将外观特征图

和位置特征图

按对应的特征维度拼接后进行特征卷积处理形成索引特征图

辅特征图建立模块24，用于对对应的辅视频帧特征图

进行卷积操作形成对应尺寸的外观特征图

以辅视频帧特征图

中每个确定点的位置特征编码形成与外观特征图

对应尺寸的位置特征图

将对应的外观特征图

和位置特征图

的键特征图

和值特征图

主辅键相似型模块25，用于获取索引特征图

与键特征图

的相似度α^i，j(u，v)，公式如下：

其中

表示主视频帧特征图

的索引特征图

中第i行第j列位置的特征向量；

表示辅视频帧特征图

的键特征图

中第u行第v列位置的特征向量；

表示辅视频帧特征图

的键特征图

中第m行第n列位置的特征向量

主帧索引加权模块26，用于利用相似度对值特征图

中的值特征加权，并将加权后的值特征图

与索引特征图

特征叠加形成主动索引特征图

公式如下：

将主动索引特征图

和主视频帧特征图

相加组成残差连接，得到主视频帧融合特征图

主帧融合数据模块27，用于将主视频帧融合特征图

作为特征金字塔输入，依次结合主视频帧的其他主视频帧特征图形成单一视角视频特征数据。

如图4所示，本发明一实施例中，模型训练装置30包括：

污损数据模拟模块31，用于形成主视频帧污损模拟：以确定概率对主视频帧添加高斯模糊，其中高斯模糊的方差在确定范围内随机选取；

故障数据模拟模块32，用于形成主视频帧故障模拟：以确定概率对主视频帧进行光照变换，至少包括采用随机Gamma矫正和HSV变换；

损坏数据模拟模块33，用于形成主视频帧缺失模拟：以确定概率将主视频帧置为全零。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种用于导盲眼镜的双目目标检测方法，其特征在于，包括：

形成模拟双目视角的摄像机机位设置，对双目视角下同步的主视频和辅视频进行目标标注；

将所述辅视频中的图像特征向主视频帧的特征图谱映射，与所述主视频中的图像特征融合形成单一视角视频特征数据；

利用所述单一视角视频特征数据和所述标注数据作为训练数据集建立目标物体的双目检测模型；

所述形成单一视角视频特征数据包括：

形成两个并行的特征融合分支，一个分支进行以左侧视角视频为主的主视频帧和右侧视角视频为辅的辅视频帧的特征融合过程，另一个分支进行以右侧视角视频为主的主视频帧和左侧视角视频为辅的辅视频帧的特征融合过程；

所述特征融合过程包括：

将主视频帧利用卷积神经网络形成若干分辨率层级的主视频帧特征图集合，将辅视频帧利用卷积神经网络形成对应的若干分辨率层级的辅视频帧特征图集合；

对主视频帧特征图

进行卷积操作形成对应尺寸的外观特征图

以主视频帧特征图

中确定点所在行i列j构成确定点二维向量(i,j)，以确定点二维向量输入多层感知机网络输出的多维向量作为确定点的位置特征编码，根据主视频帧特征图中每个确定点的位置特征编码形成与外观特征图

对应尺寸的位置特征图

将外观特征图

和位置特征图

按对应的特征维度拼接后进行特征卷积处理形成索引特征图

对对应的辅视频帧特征图

进行卷积操作形成对应尺寸的外观特征图

以辅视频帧特征图

中确定点所在行i列j构成确定点二维向量(i,j)，以确定点二维向量输入多层感知机网络输出的多维向量作为确定点的位置特征编码，根据辅视频帧特征图

中每个确定点的位置特征编码形成与外观特征图

对应尺寸的位置特征图

将对应的外观特征图

和位置特征图

的键特征图

和值特征图

所述特征融合过程还包括：

获取索引特征图

与键特征图

的相似度α^i,j(u,v)，公式如下：

其中

表示主视频帧特征图

的索引特征图

中第i行第j列位置的特征向量；

表示辅视频帧特征图

的键特征图

中第u行第v列位置的特征向量；

表示辅视频帧特征图

的键特征图

中第m行第n列位置的特征向量；

所述特征融合过程还包括：

利用相似度对值特征图

中的值特征加权，并将加权后的值特征图

与索引特征图

特征叠加形成主动索引特征图

公式如下：

将主动索引特征图

和主视频帧特征图

相加组成残差连接，得到主视频帧融合特征图

所述特征融合过程还包括：

将主视频帧融合特征图

作为特征金字塔输入，依次结合主视频帧特征图集合的其他主视频帧特征图形成单一视角视频特征数据。

2.如权利要求1所述的用于导盲眼镜的双目目标检测方法，其特征在于，所述进行目标标注包括：

在两个视角视频中对应截取确定长度的帧序列，对帧序列中的目标物体的位置和类型作出标注，包括同步帧中相同或不同目标物体的标注。

3.如权利要求1所述的用于导盲眼镜的双目目标检测方法，其特征在于，所述双目检测模型的训练过程包括以下至少一种：

形成主视频帧污损模拟：以确定概率对主视频帧添加高斯模糊，其中高斯模糊的方差在确定范围内随机选取；

形成主视频帧故障模拟：以确定概率对主视频帧进行光照变换，至少包括采用随机Gamma矫正和HSV变换；

形成主视频帧缺失模拟：以确定概率将主视频帧置为全零。

4.一种用于导盲眼镜的双目目标检测系统，其特征在于，包括：

存储器，用于存储如权利要求1至3任一所述的用于导盲眼镜的双目目标检测方法处理过程对应的程序代码；

处理器，用于执行所述程序代码。

5.一种用于导盲眼镜的双目目标检测系统，其特征在于，包括：

视频帧标注装置，用于形成模拟双目视角的摄像机机位设置，对双目视角下同步的主视频和辅视频进行目标标注；

帧特征融合装置，用于将所述辅视频中的图像特征向主视频帧的特征图谱映射，与所述主视频中的图像特征融合形成单一视角视频特征数据；

模型训练装置，用于利用所述单一视角视频特征数据和所述标注数据作为训练数据集建立目标物体的双目检测模型；

所述帧特征融合装置包括：

融合分支建立模块，用于形成两个并行的特征融合分支，一个分支进行以左侧视角视频为主的主视频帧和右侧视角视频为辅的辅视频帧的特征融合过程，另一个分支进行以右侧视角视频为主的主视频帧和左侧视角视频为辅的辅视频帧的特征融合过程；

主特征图建立模块，用于将主视频帧利用卷积神经网络形成若干分辨率层级的主视频帧特征图集合，将辅视频帧利用卷积神经网络形成对应的若干分辨率层级的辅视频帧特征图集合；

主帧索引特征模块，用于对主视频帧特征图

进行卷积操作形成对应尺寸的外观特征图

以主视频帧特征图

对应尺寸的位置特征图

将外观特征图

和位置特征图

按对应的特征维度拼接后进行特征卷积处理形成索引特征图

辅特征图建立模块，用于对对应的辅视频帧特征图

进行卷积操作形成对应尺寸的外观特征图

以辅视频帧特征图

中每个确定点的位置特征编码形成与外观特征图

对应尺寸的位置特征图

将对应的外观特征图

和位置特征图

的键特征图

和值特征图

主辅键相似型模块，用于获取索引特征图

与键特征图

的相似度α^i,j(u,v)，公式如下：

其中

表示主视频帧特征图

的索引特征图

中第i行第j列位置的特征向量；

表示辅视频帧特征图

的键特征图

中第u行第v列位置的特征向量；

表示辅视频帧特征图

的键特征图

中第m行第n列位置的特征向量；

主帧索引加权模块，用于利用相似度对值特征图

中的值特征加权，并将加权后的值特征图

与索引特征图

特征叠加形成主动索引特征图

公式如下：

将主动索引特征图

和主视频帧特征图

相加组成残差连接，得到主视频帧融合特征图

主帧融合数据模块，用于将主视频帧融合特征图