CN116343185A

CN116343185A - 一种面向助盲领域的指示牌语义信息提取方法

Info

Publication number: CN116343185A
Application number: CN202211549324.1A
Authority: CN
Inventors: 曹政才; 石胤斌; 孙伊扬; 牟洪民; 夏霁; 马哲; 张港
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-06-27

Abstract

一种面向助盲领域的指示牌语义信息提取方法，具体涉及到图像处理和深度学习技术领域。首先设计图像描述模型，其中使用视觉transformer作为编码器进行图像特征提取，多个tranformer结构组成解码器用于生成语义描述。其次，通过助盲设备采集各种室内场景包含指示牌的图像并制作数据集，用于对预训练好的图像描述模型进行微调和测试；再次，采用目标识别模块从通过助盲设备捕获的图像中提取指示牌图像并进行倾斜矫正；最后，将指示牌图像进行分块，线性投影为固定维度向量作为编码器的输入经过图像描述模型生成对指示牌的语义信息描述。本发明将助盲设备捕获到的指示牌图像转化为自然语言描述，为盲人在陌生环境自主行走提供支撑。

Description

一种面向助盲领域的指示牌语义信息提取方法

技术领域

本发明涉及设计图像处理、深度学习技术领域，具体为一种面向助盲领域的指示牌语义信息提取方法。

背景技术

目前，助盲领域的研究依旧不够完善不够成熟，还远达不到能够帮助视障人士在陌生环境下自主行走的目的。助盲设备主要聚焦于帮助视障人士导航、避障，现有的研究依靠计算机视觉、激光雷达以及多传感器融合等技术实现避障，在导航方面更多的依赖于先验地图，当针对陌生环境时，必须先构建地图，也就导致降低了其实际应用性和推广性。针对这一问题，为了使视障人士能够更接近于常人一样可以在陌生的大规模室内环境下行走，本发明提出一种面向助盲领域的指示牌语义信息提取方法，使视障人士在陌生环境下能够像常人一样依靠读取指示牌信息来确定各个地点的方位。

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟，是人工智能领域的一个重要部分，它主要任务是通过对采集的图片或视频进行处理以获得相应场景的信息。而深度学习的出现和应用，使计算机视觉在很多方面有了大的提升，如图像分类、目标检测、目标跟踪、图像分割等，甚至在图像分类、目标检测等任务上已经达到或超过了人类的识别精度。近年来图像描述的研究也越来越多，已经能够详细的对图像做出符合语义信息的描述。随着深度学习系统提供的计算能力的增强，计算机将能够识别并对它所看到的一切做出反应，这一点已经有了显著的进展。这也为基于计算机视觉的助盲研究提供了更多的支撑。

本发明提出的面向助盲领域的指示牌语义信息提取方法是基于图像描述方法的。自2014年Oriol Vinyals等人提出图说模型，使用卷积网络作为图像编码器，循环神经网络作为解码器生成描述，图像描述技术有了质的飞跃。目前最新的方法使用基于transformer的多模态模型进行图像描述任务，取得了最先进的效果。为本专利提出的面向助盲领域的指示牌语义信息提取方法提供了支撑。

在此之前，已有图像描述模型在助盲领域的应用，但是他们针对所有的助盲图像做描述帮助盲人了解环境反而降低了准确性，本发明更具针对性的将图像描述方法用于指示牌的语义信息提取，任务更加明确。基于此，本发明提供了一种面向助盲领域的图像描述技术的指示牌语义信息提取方法。且经过相关技术检索发现，目前尚无一种面向助盲领域的使用图像描述技术进行指示牌语义信息提取的方法。

发明内容

为了使视障人士能够更接近于常人一样可以在陌生的大规模室内环境下自主行走，本发明提出了一种面向助盲领域的指示牌语义信息提取方法，帮助盲人获得环境信息，引导其去往想要去的目的地。该方法基于图像描述技术，提取出图像中的指示牌，对图像进行编码，解码生成指示牌能容的自然语言描述以此来引导盲人行动。。

本发明提出一种面向助盲领域的指示牌语义信息提取方法，包括以下步骤：

构建编码-解码结构的图像描述模型，由基于视觉Transformer的计算机视觉基础模型作为编码器用于图像特征提取，使用多个标准Transformer模块构成解码器用于生成图像的语义描述；

图像描述模型的预训练和微调；对基于Transformer的多模态模型进行预训练，使用大规模图片文本对的公开数据集进行预训练，相比于卷积网络能够学到更多的特征。采用语言模型的损失函数进行训练，对于输入图片I，生成句子{y₁,y₂,…,_N}，损失函数如下：

其中CE为标签平滑为0.1的交叉熵损失函数，I表示输入图片，y_i为当前时间步预测的单词，y_j(j＝0,…,i-1)为已经生成的单词,p(y_i|I,{y_j,j＝0,…,i-1})为在已经生成i-1个单词的条件下生成单词y_i的概率,L为描述语句的长度。

数据集制作。数据集制作。通过助盲设备采集大量室内场景各类指示牌图像，利用YOLOv5模型进行识别并裁剪出指示牌用于避免输入过多非指示牌的特征；对分割出的指示牌进行边缘检测计算出指示牌顶角坐标，使用仿射变换方法进行矫正；最后对每一个指示牌标注1个符合语义信息的描述语句作为标签；

对于一张输入的指示牌图像X∈R^W×H×3(R^W×H×3表示一个实数集合，其维度为(W，H，3)),W和H分别表示图像的宽和高，第三维度为通道数，首先需要将图像转换为符合模型输入的队列形式，经过图像分块模块图像转换为2维序列X_p∈R^N×(P2×3)，每一个图像分块的大小为(,P)，取P＝4，N＝HW/P²为图像分块的数量；特征提取经过四个阶段。阶段一，输入序列X_p经过线性嵌入层，

转换为固定维数C，输出z₀∈R^N×C，再通过2个连续Swin Transformer块，维度不变，2个连续的Swin Transformer块计算如下：

其中，W_MSA为基于窗口的自注意力模块，与自注意力模块相比，基于窗口的自注意力模块将输入进行不重叠窗口划分，每个窗口包含M×M个分块，且每个窗口进行自注意力计算，降低了计算复杂度，提高了执行速度。SW_为移动窗口自注意力模块，移动窗口注意力模块采用不同大小的窗口对输入进行划分，解决了基于窗口的自注意力模块缺乏跨窗口连接的问题，提高了建模能力。LN为层归一化操作。

和z^l分别是第l个Swin Transformer块中W_MSA和MLP的输出；阶段二，通过分块合并模块对相邻的2×2个分块进行合并，维度转变为/>

再经过2个连续的Swin Transformer块；阶段4，通过分块合并模块对相邻的2×2个分块进行合并，维度转变为/>

在经过6个连续的Swin Transformer块；阶段四，通过分块合并模块对相邻的2×2个分块进行合并，维度转变为/>

再经过2个连续的SwinTransformer块，得到最终指示牌的图像特征。

指示牌特征图经过标准Transformer进行解码。Transformer块包含两个多头自注意力块，第一个多头自注意力块进行了Mask操作，其输入是上一个Transformer块的输出，得到自注意力矩阵后和Mask矩阵相乘用于防止最后生成的第i个单词知道第i+1个单词之后的信息；第二个多头自注意力块的输入为指示牌特征图，其输出和Mask多头自注意力块的输出进行相加并且层归一化再经过一个前馈层获得Transformer块的输出，最后一个Transformer块的输出经过一个线性层然后进行Softmax得到最后预测输出以及语句每个位置每个词汇的概率。

误差反向传播，更新模型参数。损失函数计算同预训练：

使用自适应矩阵估计(AdamOptimizer)作为优化算法，一阶矩估计的指数衰减率β₁＝0.9，二阶矩估计的指数衰减率β₂＝0.999。同时，在整个训练过程中根据一下公式改变学习率lrate：

其中d_model为Transformer各个子层的输出维度，step_为训练步数，warmup_表示学习率在达到最大值前的一个“热身步数”，给定为3000-4000(可根据训练集大小，epoch大小确定总的训练步数，以此来调整“热身步数”)。

通过助盲设备获得室内场景图像，使用YOLOv5方法检测图像中是否存在指示牌，如果检测到指示牌且其在图像中占比超过给定阈值(一般取10％，可以是10％-15％)，则将指示牌根据其目标边界框从原始图像中分割出来；对分割出的指示牌使用Canny算子进行边缘检测，根据边缘检测结果计算出指示牌的四个顶角坐标，进而使用仿射变换方法将倾斜的指示牌矫正将矫正后的指示牌输入到图像描述模型中，得到语义描述的预测输出，以及句子中每个词汇的置信概率，如果每个词的置信概率均大于给定阈值，则输出生成的语义信息描述。

附图说明

构成本发明的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本发明的不当限定。

图1是本发明的指示牌语义信息提取方法流程图；

图2是本发明的指示牌语义信息提取方法示意图；

图3是本发明中所述指示牌的示意图；

具体实施方式

为了更好地理解本发明的技术方案，以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

一种面向助盲领域的指示牌语义信息提取方法流程图如图1所示，该方法示意图如图2所示，主要包括，助盲场景指示牌数据集的制作、基于Transformer的图像描述模型设计、模型的训练、模型的推理(使用)，具体如下：

步骤1：通过助盲设备摄像头(位于人的眼部)采集大量各种室内场景图象，对采集图像进行筛选，如果图像中检测到指示牌且在图像中占比超过阈值，则根据目标检测的边界框将指示牌分割出来，可以避免训练和推理时输入过多的非指示牌特征分散对指示牌的注意力。筛选和处理完采集的图像后获得大量指示牌图像，针对每一个指示牌图像进行人工标注，为每一个指示牌编写五个不同的详细的符合其语义句子描述。

步骤2：图像描述模型采用编码-解码结构。编码器采用基于SwinTransformer的计算机视觉基础模型，可用于对图像或者语句进行特征提取，能够兼容多数的下游任务包括图像描述，其包括一个图像分块模块和四个特征转换模块。解码器用于对图像特征解码生成句子特征，采用标准的Transformer结构作为编码器。

步骤3：模型预训练，对编码器可以使用ImageNet-22K进行训练，考虑数据庞大，对硬件要求极大，直接加载微软提供的在上亿对图片文本对数据上训练过的预训练权重。

步骤4：模型微调，输入的前向传播。预训练后的模型学习了各类图片、文本的特征信息，针对图像描述这一下游任务进行微调使其在某一类数据上更具针对性，有更好的效果。对于编码器，将输入图像进行分块，块的大小为4×4，并对其特征进行直接拼接，使输入图像X∈R^W×H×3转换为序列X_p∈R^N×(16×3)，其中N＝HW/16为图像分块的数量；序列X_p经过四个特征转换阶段得到最终特征图。阶段一，输入序列X_p经过线性嵌入层，

转换为固定维数C，输出z₀∈R^N×C，再通过2个连续Swin Transformer块，维度不变，2个连续的SwinTransformer块计算如下：

其中，W_MSA为基于窗口的自注意力模块，与自注意力模块相比，基于窗口的自注意力模块将输入进行不重叠窗口划分，每个窗口包含M×M个分块，且每个窗口进行自注意力计算，降低了计算复杂度，提高了执行速度。SW_为移动窗口自注意力模块，移动窗口注意力模块采用不同大小的窗口对输入进行划分，解决了基于窗口的自注意力模块缺乏跨窗口连接的问题，提高了建模能力。

和z^l分别是第l个Swin Transformer块中W_MSA和W_MSA的输出；阶段二，通过分块合并模块对相邻的2×2个分块进行合并，维度转变为/>

再经过2个连续的SwinTransformer块，得到最终指示牌的图像特征。指示牌特征图经过标准Transformer进行解码。Transformer块包含两个多头自注意力块，第一个多头自注意力块进行了Mask操作，其输入是上一个Transformer块的输出，得到自注意力矩阵后和Mask矩阵相乘用于防止最后生成的第i个单词知道第i+1个单词之后的信息；第二个多头自注意力块的输入为指示牌特征图，其输出和Mask多头自注意力块的输出进行相加并且层归一化再经过一个前馈层获得Transformer块的输出，最后一个Transformer块的输出经过一个线性层然后进行Softmax得到最后预测输出以及语句每个位置每个词汇的概率。

步骤5：模型微调，计算损失函数，更新模型。误差反向传播，更新模型参数。损失函数计算为：

使用自适应矩阵估计(AdamOptimizer)作为优化算法更新模型权重，其超参数β₁＝0.9,β₂＝0.999,∈＝10^-8。同时，在整个训练过程中根据以下公式改变学习率lrate：

其中d_model为Transformer各个子层的输出维度，step_num为训练步数，warmup_steps表示学习率在达到最大值前的一个“热身步数”，给定为4000。

步骤6：模型的测试(推理)。通过助盲设备采集一张室内场景图像，经过YOLOv5模型检测图像中是否存在指示牌，且指示牌在图像中占比是否超过30％，如果是则根据指示牌边界框将其从原始图像中分割出来，对分割出的指示牌使用Canny算子进行边缘检测，根据边缘检测结果计算出指示牌的四个顶角坐标，进而使用仿射变换方法将倾斜的指示牌矫正，将矫正后的指示牌作为图像描述模型的输入生成对指示牌信息的描述和句子每个词汇的置信概率，如果每个词汇的置信概率均不低于0.6则输出指示牌的语义信息描述。

Claims

1.一种面向助盲领域的指示牌语义信息提取方法，其特征在于，包括以下步骤：

图像描述模型的预训练和微调；通过助盲设备采集超过5000张的室内场景各类指示牌图像并制作数据集用于模型的微调；

通过助盲设备获得室内场景图像，使用YOLOv5方法检测图像中是否存在指示牌，如果检测到指示牌且其在图像中占比超过给定阈值，则对图像中指示牌进行提取并矫正，最后通过图像描述模型生成对指示牌的语义信息描述。

2.根据权利要求1所述的一种面向助盲领域的指示牌语义信息提取方法，其特征在于，所述构建编码-解码结构的图像描述模型，包括：

基于视觉Transformer的解码器，由图像分块模块以及四个基于Swin Transformer的特征转换模块构成；Swin Transformer是用基于移位窗口的注意力层替换标准Transformer中多头自注意力层改变来的；特征转换模块1由一个线性嵌入层和两个SwinTransformer块组成；特征转换模块2、3、4均由一个块合并模块和若干个Swin Transformer块组成，特征转换模块2、4包含2个Swin Transformer块，特征转换模块3包含6个SwinTransformer块；

解码器由标准的Transformer模块组成，每个标准Transforemr由多头自注意力层和前馈层构成，且每一层之前都进行层归一化处理，每两个子层之间使用残差连接。

3.根据权利要求1所述的一种面向助盲领域的指示牌语义信息提取方法，其特征在于，所述图像描述模型的预训练过程如下：

对基于Transformer的多模态模型进行预训练，采用语言模型的损失函数进行训练，对于输入图片I，生成句子{y_1,y₂,…,_N}，损失函数如下：

其中CE为标签平滑为0.1的交叉熵损失函数。

4.根据权利要求1所述的一种面向助盲领域的指示牌语义信息提取方法，其特征在于，所述图像描述模型的微调过程如下：

步骤1：数据集制作；通过助盲设备采集超过5000张的室内场景各类指示牌图像，利用YOLOv5模型进行识别并裁剪出指示牌用于避免输入过多非指示牌的特征；对分割出的指示牌进行边缘检测计算出指示牌顶角坐标，使用仿射变换方法进行矫正；最后对每一个指示牌标注1个符合语义信息的描述语句作为标签；

步骤2：对于一张输入的指示牌图像X∈R^W×H×3，R^W×H×3表示一个实数集合，其维度为(W，H，3)；W和H分别表示图像的宽和高，第三维度为通道数，首先需要将图像转换为符合模型输入的队列形式，经过图像分块模块图像转换为2维序列

每一个图像分块的大小为(P，P)，取P＝4，N＝HW/P²为图像分块的数量；特征提取经过四个阶段；阶段一，输入序列X_p经过线性嵌入层，/>

转换为固定维数C，输出z₀∈R^N×C，再通过2个连续SwinTransformer块，维度不变，2个连续的Swin Transformer块计算如下：

其中，W_MSA为基于窗口的自注意力模块，与自注意力模块相比，基于窗口的自注意力模块将输入进行不重叠窗口划分，每个窗口包含M×M个分块，且每个窗口进行自注意力计算；SW_MSA为移动窗口自注意力模块，移动窗口注意力模块采用不同大小的窗口对输入进行划分；LN为层归一化操作；

再经过2个连续的SwinTransformer块，得到最终指示牌的图像特征；

步骤3：指示牌特征图经过标准Transformer进行解码；Transformer块包含两个多头自注意力块，第一个多头自注意力块进行了Mask操作，其输入是上一个Transformer块的输出，得到自注意力矩阵后和Mask矩阵相乘用于防止最后生成的第i个单词知道第i+1个单词之后的信息；第二个多头自注意力块的输入为指示牌特征图，其输出和Mask多头自注意力块的输出进行相加并且层归一化再经过一个前馈层获得Transformer块的输出，最后一个Transformer块的输出经过一个线性层然后进行Softmax得到最后预测输出以及语句每个位置每个词汇的概率；

步骤4：误差反向传播，更新模型参数；损失函数计算同预训练：

其中I表示输入图片，y_i为当前时间步预测的单词，y_j(j＝0，...，i-1)为已经生成的单词，p(y_i|I，{y_j，j＝0，...，i-1})为在已经生成i-1个单词的条件下生成单词y_i的概率，L为描述语句的长度；使用自适应矩阵估计作为优化算法，一阶矩估计的指数衰减率β₁＝0.9，二阶矩估计的指数衰减率β₂＝0.999；在整个训练过程中根据以下公式改变学习率lrate：

其中d_model为Transformer各个子层的输出维度，step_num为训练步数，warmup_steps表示学习率在达到最大值前的一个“热身步数”，给定为3000-4000。

5.根据权利要求1所述的一种面向助盲领域的指示牌语义信息提取方法，其特征在于，所述对检测到的指示牌进行图像描述具体包含：

通过助盲设备获得室内场景图像，使用YOLOv5方法检测图像中是否存在指示牌，如果检测到指示牌且其在图像中占比超过给定阈值10％，则将指示牌根据其目标边界框从原始图像中分割出来；

对分割出的指示牌使用Canny算子进行边缘检测，根据边缘检测结果计算出指示牌的四个顶角坐标，进而使用仿射变换方法将倾斜的指示牌矫正；

将矫正后的指示牌输入到图像描述模型中，得到语义描述的预测输出，以及句子中每个词汇的置信概率，如果每个词的置信概率均大于给定阈值0.6，则输出生成的语义信息描述。