CN116343185A - 一种面向助盲领域的指示牌语义信息提取方法 - Google Patents

一种面向助盲领域的指示牌语义信息提取方法 Download PDF

Info

Publication number
CN116343185A
CN116343185A CN202211549324.1A CN202211549324A CN116343185A CN 116343185 A CN116343185 A CN 116343185A CN 202211549324 A CN202211549324 A CN 202211549324A CN 116343185 A CN116343185 A CN 116343185A
Authority
CN
China
Prior art keywords
image
sign
transducer
blocks
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211549324.1A
Other languages
English (en)
Inventor
曹政才
石胤斌
孙伊扬
牟洪民
夏霁
马哲
张港
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN202211549324.1A priority Critical patent/CN116343185A/zh
Publication of CN116343185A publication Critical patent/CN116343185A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种面向助盲领域的指示牌语义信息提取方法,具体涉及到图像处理和深度学习技术领域。首先设计图像描述模型,其中使用视觉transformer作为编码器进行图像特征提取,多个tranformer结构组成解码器用于生成语义描述。其次,通过助盲设备采集各种室内场景包含指示牌的图像并制作数据集,用于对预训练好的图像描述模型进行微调和测试;再次,采用目标识别模块从通过助盲设备捕获的图像中提取指示牌图像并进行倾斜矫正;最后,将指示牌图像进行分块,线性投影为固定维度向量作为编码器的输入经过图像描述模型生成对指示牌的语义信息描述。本发明将助盲设备捕获到的指示牌图像转化为自然语言描述,为盲人在陌生环境自主行走提供支撑。

Description

一种面向助盲领域的指示牌语义信息提取方法
技术领域
本发明涉及设计图像处理、深度学习技术领域,具体为一种面向助盲领域的指示牌语义信息提取方法。
背景技术
目前,助盲领域的研究依旧不够完善不够成熟,还远达不到能够帮助视障人士在陌生环境下自主行走的目的。助盲设备主要聚焦于帮助视障人士导航、避障,现有的研究依靠计算机视觉、激光雷达以及多传感器融合等技术实现避障,在导航方面更多的依赖于先验地图,当针对陌生环境时,必须先构建地图,也就导致降低了其实际应用性和推广性。针对这一问题,为了使视障人士能够更接近于常人一样可以在陌生的大规模室内环境下行走,本发明提出一种面向助盲领域的指示牌语义信息提取方法,使视障人士在陌生环境下能够像常人一样依靠读取指示牌信息来确定各个地点的方位。
计算机视觉是使用计算机及相关设备对生物视觉的一种模拟,是人工智能领域的一个重要部分,它主要任务是通过对采集的图片或视频进行处理以获得相应场景的信息。而深度学习的出现和应用,使计算机视觉在很多方面有了大的提升,如图像分类、目标检测、目标跟踪、图像分割等,甚至在图像分类、目标检测等任务上已经达到或超过了人类的识别精度。近年来图像描述的研究也越来越多,已经能够详细的对图像做出符合语义信息的描述。随着深度学习系统提供的计算能力的增强,计算机将能够识别并对它所看到的一切做出反应,这一点已经有了显著的进展。这也为基于计算机视觉的助盲研究提供了更多的支撑。
本发明提出的面向助盲领域的指示牌语义信息提取方法是基于图像描述方法的。自2014年Oriol Vinyals等人提出图说模型,使用卷积网络作为图像编码器,循环神经网络作为解码器生成描述,图像描述技术有了质的飞跃。目前最新的方法使用基于transformer的多模态模型进行图像描述任务,取得了最先进的效果。为本专利提出的面向助盲领域的指示牌语义信息提取方法提供了支撑。
在此之前,已有图像描述模型在助盲领域的应用,但是他们针对所有的助盲图像做描述帮助盲人了解环境反而降低了准确性,本发明更具针对性的将图像描述方法用于指示牌的语义信息提取,任务更加明确。基于此,本发明提供了一种面向助盲领域的图像描述技术的指示牌语义信息提取方法。且经过相关技术检索发现,目前尚无一种面向助盲领域的使用图像描述技术进行指示牌语义信息提取的方法。
发明内容
为了使视障人士能够更接近于常人一样可以在陌生的大规模室内环境下自主行走,本发明提出了一种面向助盲领域的指示牌语义信息提取方法,帮助盲人获得环境信息,引导其去往想要去的目的地。该方法基于图像描述技术,提取出图像中的指示牌,对图像进行编码,解码生成指示牌能容的自然语言描述以此来引导盲人行动。。
本发明提出一种面向助盲领域的指示牌语义信息提取方法,包括以下步骤:
构建编码-解码结构的图像描述模型,由基于视觉Transformer的计算机视觉基础模型作为编码器用于图像特征提取,使用多个标准Transformer模块构成解码器用于生成图像的语义描述;
图像描述模型的预训练和微调;对基于Transformer的多模态模型进行预训练,使用大规模图片文本对的公开数据集进行预训练,相比于卷积网络能够学到更多的特征。采用语言模型的损失函数进行训练,对于输入图片I,生成句子{y1,y2,…,N},损失函数如下:
Figure BDA0003981473720000021
其中CE为标签平滑为0.1的交叉熵损失函数,I表示输入图片,y_i为当前时间步预测的单词,y_j(j=0,…,i-1)为已经生成的单词,p(y_i|I,{y_j,j=0,…,i-1})为在已经生成i-1个单词的条件下生成单词y_i的概率,L为描述语句的长度。
数据集制作。数据集制作。通过助盲设备采集大量室内场景各类指示牌图像,利用YOLOv5模型进行识别并裁剪出指示牌用于避免输入过多非指示牌的特征;对分割出的指示牌进行边缘检测计算出指示牌顶角坐标,使用仿射变换方法进行矫正;最后对每一个指示牌标注1个符合语义信息的描述语句作为标签;
对于一张输入的指示牌图像X∈RW×H×3(RW×H×3表示一个实数集合,其维度为(W,H,3)),W和H分别表示图像的宽和高,第三维度为通道数,首先需要将图像转换为符合模型输入的队列形式,经过图像分块模块图像转换为2维序列Xp∈RN×(P2×3),每一个图像分块的大小为(,P),取P=4,N=HW/P2为图像分块的数量;特征提取经过四个阶段。阶段一,输入序列Xp经过线性嵌入层,
Figure BDA0003981473720000031
转换为固定维数C,输出z0∈RN×C,再通过2个连续Swin Transformer块,维度不变,2个连续的Swin Transformer块计算如下:
Figure BDA0003981473720000032
Figure BDA0003981473720000033
Figure BDA0003981473720000034
Figure BDA0003981473720000035
其中,W_MSA为基于窗口的自注意力模块,与自注意力模块相比,基于窗口的自注意力模块将输入进行不重叠窗口划分,每个窗口包含M×M个分块,且每个窗口进行自注意力计算,降低了计算复杂度,提高了执行速度。SW_为移动窗口自注意力模块,移动窗口注意力模块采用不同大小的窗口对输入进行划分,解决了基于窗口的自注意力模块缺乏跨窗口连接的问题,提高了建模能力。LN为层归一化操作。
Figure BDA0003981473720000036
和zl分别是第l个Swin Transformer块中W_MSA和MLP的输出;阶段二,通过分块合并模块对相邻的2×2个分块进行合并,维度转变为/>
Figure BDA0003981473720000037
再经过2个连续的Swin Transformer块;阶段4,通过分块合并模块对相邻的2×2个分块进行合并,维度转变为/>
Figure BDA0003981473720000041
在经过6个连续的Swin Transformer块;阶段四,通过分块合并模块对相邻的2×2个分块进行合并,维度转变为/>
Figure BDA0003981473720000042
再经过2个连续的SwinTransformer块,得到最终指示牌的图像特征。
指示牌特征图经过标准Transformer进行解码。Transformer块包含两个多头自注意力块,第一个多头自注意力块进行了Mask操作,其输入是上一个Transformer块的输出,得到自注意力矩阵后和Mask矩阵相乘用于防止最后生成的第i个单词知道第i+1个单词之后的信息;第二个多头自注意力块的输入为指示牌特征图,其输出和Mask多头自注意力块的输出进行相加并且层归一化再经过一个前馈层获得Transformer块的输出,最后一个Transformer块的输出经过一个线性层然后进行Softmax得到最后预测输出以及语句每个位置每个词汇的概率。
误差反向传播,更新模型参数。损失函数计算同预训练:
Figure BDA0003981473720000043
使用自适应矩阵估计(AdamOptimizer)作为优化算法,一阶矩估计的指数衰减率β1=0.9,二阶矩估计的指数衰减率β2=0.999。同时,在整个训练过程中根据一下公式改变学习率lrate:
Figure BDA0003981473720000044
其中dmodel为Transformer各个子层的输出维度,step_为训练步数,warmup_表示学习率在达到最大值前的一个“热身步数”,给定为3000-4000(可根据训练集大小,epoch大小确定总的训练步数,以此来调整“热身步数”)。
通过助盲设备获得室内场景图像,使用YOLOv5方法检测图像中是否存在指示牌,如果检测到指示牌且其在图像中占比超过给定阈值(一般取10%,可以是10%-15%),则将指示牌根据其目标边界框从原始图像中分割出来;对分割出的指示牌使用Canny算子进行边缘检测,根据边缘检测结果计算出指示牌的四个顶角坐标,进而使用仿射变换方法将倾斜的指示牌矫正将矫正后的指示牌输入到图像描述模型中,得到语义描述的预测输出,以及句子中每个词汇的置信概率,如果每个词的置信概率均大于给定阈值,则输出生成的语义信息描述。
附图说明
构成本发明的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本发明的不当限定。
图1是本发明的指示牌语义信息提取方法流程图;
图2是本发明的指示牌语义信息提取方法示意图;
图3是本发明中所述指示牌的示意图;
具体实施方式
为了更好地理解本发明的技术方案,以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
一种面向助盲领域的指示牌语义信息提取方法流程图如图1所示,该方法示意图如图2所示,主要包括,助盲场景指示牌数据集的制作、基于Transformer的图像描述模型设计、模型的训练、模型的推理(使用),具体如下:
步骤1:通过助盲设备摄像头(位于人的眼部)采集大量各种室内场景图象,对采集图像进行筛选,如果图像中检测到指示牌且在图像中占比超过阈值,则根据目标检测的边界框将指示牌分割出来,可以避免训练和推理时输入过多的非指示牌特征分散对指示牌的注意力。筛选和处理完采集的图像后获得大量指示牌图像,针对每一个指示牌图像进行人工标注,为每一个指示牌编写五个不同的详细的符合其语义句子描述。
步骤2:图像描述模型采用编码-解码结构。编码器采用基于SwinTransformer的计算机视觉基础模型,可用于对图像或者语句进行特征提取,能够兼容多数的下游任务包括图像描述,其包括一个图像分块模块和四个特征转换模块。解码器用于对图像特征解码生成句子特征,采用标准的Transformer结构作为编码器。
步骤3:模型预训练,对编码器可以使用ImageNet-22K进行训练,考虑数据庞大,对硬件要求极大,直接加载微软提供的在上亿对图片文本对数据上训练过的预训练权重。
步骤4:模型微调,输入的前向传播。预训练后的模型学习了各类图片、文本的特征信息,针对图像描述这一下游任务进行微调使其在某一类数据上更具针对性,有更好的效果。对于编码器,将输入图像进行分块,块的大小为4×4,并对其特征进行直接拼接,使输入图像X∈RW×H×3转换为序列Xp∈RN×(16×3),其中N=HW/16为图像分块的数量;序列Xp经过四个特征转换阶段得到最终特征图。阶段一,输入序列Xp经过线性嵌入层,
Figure BDA0003981473720000061
转换为固定维数C,输出z0∈RN×C,再通过2个连续Swin Transformer块,维度不变,2个连续的SwinTransformer块计算如下:
Figure BDA0003981473720000062
Figure BDA0003981473720000063
Figure BDA0003981473720000064
Figure BDA0003981473720000065
其中,W_MSA为基于窗口的自注意力模块,与自注意力模块相比,基于窗口的自注意力模块将输入进行不重叠窗口划分,每个窗口包含M×M个分块,且每个窗口进行自注意力计算,降低了计算复杂度,提高了执行速度。SW_为移动窗口自注意力模块,移动窗口注意力模块采用不同大小的窗口对输入进行划分,解决了基于窗口的自注意力模块缺乏跨窗口连接的问题,提高了建模能力。
Figure BDA0003981473720000066
和zl分别是第l个Swin Transformer块中W_MSA和W_MSA的输出;阶段二,通过分块合并模块对相邻的2×2个分块进行合并,维度转变为/>
Figure BDA0003981473720000067
再经过2个连续的Swin Transformer块;阶段4,通过分块合并模块对相邻的2×2个分块进行合并,维度转变为/>
Figure BDA0003981473720000068
在经过6个连续的Swin Transformer块;阶段四,通过分块合并模块对相邻的2×2个分块进行合并,维度转变为/>
Figure BDA0003981473720000071
再经过2个连续的SwinTransformer块,得到最终指示牌的图像特征。指示牌特征图经过标准Transformer进行解码。Transformer块包含两个多头自注意力块,第一个多头自注意力块进行了Mask操作,其输入是上一个Transformer块的输出,得到自注意力矩阵后和Mask矩阵相乘用于防止最后生成的第i个单词知道第i+1个单词之后的信息;第二个多头自注意力块的输入为指示牌特征图,其输出和Mask多头自注意力块的输出进行相加并且层归一化再经过一个前馈层获得Transformer块的输出,最后一个Transformer块的输出经过一个线性层然后进行Softmax得到最后预测输出以及语句每个位置每个词汇的概率。
步骤5:模型微调,计算损失函数,更新模型。误差反向传播,更新模型参数。损失函数计算为:
Figure BDA0003981473720000072
使用自适应矩阵估计(AdamOptimizer)作为优化算法更新模型权重,其超参数β1=0.9,β2=0.999,∈=10-8。同时,在整个训练过程中根据以下公式改变学习率lrate:
Figure BDA0003981473720000073
其中dmodel为Transformer各个子层的输出维度,step_num为训练步数,warmup_steps表示学习率在达到最大值前的一个“热身步数”,给定为4000。
步骤6:模型的测试(推理)。通过助盲设备采集一张室内场景图像,经过YOLOv5模型检测图像中是否存在指示牌,且指示牌在图像中占比是否超过30%,如果是则根据指示牌边界框将其从原始图像中分割出来,对分割出的指示牌使用Canny算子进行边缘检测,根据边缘检测结果计算出指示牌的四个顶角坐标,进而使用仿射变换方法将倾斜的指示牌矫正,将矫正后的指示牌作为图像描述模型的输入生成对指示牌信息的描述和句子每个词汇的置信概率,如果每个词汇的置信概率均不低于0.6则输出指示牌的语义信息描述。

Claims (5)

1.一种面向助盲领域的指示牌语义信息提取方法,其特征在于,包括以下步骤:
构建编码-解码结构的图像描述模型,由基于视觉Transformer的计算机视觉基础模型作为编码器用于图像特征提取,使用多个标准Transformer模块构成解码器用于生成图像的语义描述;
图像描述模型的预训练和微调;通过助盲设备采集超过5000张的室内场景各类指示牌图像并制作数据集用于模型的微调;
通过助盲设备获得室内场景图像,使用YOLOv5方法检测图像中是否存在指示牌,如果检测到指示牌且其在图像中占比超过给定阈值,则对图像中指示牌进行提取并矫正,最后通过图像描述模型生成对指示牌的语义信息描述。
2.根据权利要求1所述的一种面向助盲领域的指示牌语义信息提取方法,其特征在于,所述构建编码-解码结构的图像描述模型,包括:
基于视觉Transformer的解码器,由图像分块模块以及四个基于Swin Transformer的特征转换模块构成;Swin Transformer是用基于移位窗口的注意力层替换标准Transformer中多头自注意力层改变来的;特征转换模块1由一个线性嵌入层和两个SwinTransformer块组成;特征转换模块2、3、4均由一个块合并模块和若干个Swin Transformer块组成,特征转换模块2、4包含2个Swin Transformer块,特征转换模块3包含6个SwinTransformer块;
解码器由标准的Transformer模块组成,每个标准Transforemr由多头自注意力层和前馈层构成,且每一层之前都进行层归一化处理,每两个子层之间使用残差连接。
3.根据权利要求1所述的一种面向助盲领域的指示牌语义信息提取方法,其特征在于,所述图像描述模型的预训练过程如下:
对基于Transformer的多模态模型进行预训练,采用语言模型的损失函数进行训练,对于输入图片I,生成句子{y1,y2,…,N},损失函数如下:
Figure FDA0003981473710000011
其中CE为标签平滑为0.1的交叉熵损失函数。
4.根据权利要求1所述的一种面向助盲领域的指示牌语义信息提取方法,其特征在于,所述图像描述模型的微调过程如下:
步骤1:数据集制作;通过助盲设备采集超过5000张的室内场景各类指示牌图像,利用YOLOv5模型进行识别并裁剪出指示牌用于避免输入过多非指示牌的特征;对分割出的指示牌进行边缘检测计算出指示牌顶角坐标,使用仿射变换方法进行矫正;最后对每一个指示牌标注1个符合语义信息的描述语句作为标签;
步骤2:对于一张输入的指示牌图像X∈RW×H×3,RW×H×3表示一个实数集合,其维度为(W,H,3);W和H分别表示图像的宽和高,第三维度为通道数,首先需要将图像转换为符合模型输入的队列形式,经过图像分块模块图像转换为2维序列
Figure FDA0003981473710000021
每一个图像分块的大小为(P,P),取P=4,N=HW/P2为图像分块的数量;特征提取经过四个阶段;阶段一,输入序列Xp经过线性嵌入层,/>
Figure FDA0003981473710000022
转换为固定维数C,输出z0∈RN×C,再通过2个连续SwinTransformer块,维度不变,2个连续的Swin Transformer块计算如下:
Figure FDA0003981473710000023
Figure FDA0003981473710000024
Figure FDA0003981473710000025
Figure FDA0003981473710000026
其中,W_MSA为基于窗口的自注意力模块,与自注意力模块相比,基于窗口的自注意力模块将输入进行不重叠窗口划分,每个窗口包含M×M个分块,且每个窗口进行自注意力计算;SW_MSA为移动窗口自注意力模块,移动窗口注意力模块采用不同大小的窗口对输入进行划分;LN为层归一化操作;
Figure FDA0003981473710000027
和zl分别是第l个Swin Transformer块中W_MSA和MLP的输出;阶段二,通过分块合并模块对相邻的2×2个分块进行合并,维度转变为/>
Figure FDA0003981473710000028
再经过2个连续的Swin Transformer块;阶段4,通过分块合并模块对相邻的2×2个分块进行合并,维度转变为/>
Figure FDA0003981473710000029
在经过6个连续的Swin Transformer块;阶段四,通过分块合并模块对相邻的2×2个分块进行合并,维度转变为/>
Figure FDA00039814737100000210
再经过2个连续的SwinTransformer块,得到最终指示牌的图像特征;
步骤3:指示牌特征图经过标准Transformer进行解码;Transformer块包含两个多头自注意力块,第一个多头自注意力块进行了Mask操作,其输入是上一个Transformer块的输出,得到自注意力矩阵后和Mask矩阵相乘用于防止最后生成的第i个单词知道第i+1个单词之后的信息;第二个多头自注意力块的输入为指示牌特征图,其输出和Mask多头自注意力块的输出进行相加并且层归一化再经过一个前馈层获得Transformer块的输出,最后一个Transformer块的输出经过一个线性层然后进行Softmax得到最后预测输出以及语句每个位置每个词汇的概率;
步骤4:误差反向传播,更新模型参数;损失函数计算同预训练:
Figure FDA0003981473710000031
其中I表示输入图片,yi为当前时间步预测的单词,yj(j=0,...,i-1)为已经生成的单词,p(yi|I,{yj,j=0,...,i-1})为在已经生成i-1个单词的条件下生成单词yi的概率,L为描述语句的长度;使用自适应矩阵估计作为优化算法,一阶矩估计的指数衰减率β1=0.9,二阶矩估计的指数衰减率β2=0.999;在整个训练过程中根据以下公式改变学习率lrate:
Figure FDA0003981473710000032
其中dmodel为Transformer各个子层的输出维度,step_num为训练步数,warmup_steps表示学习率在达到最大值前的一个“热身步数”,给定为3000-4000。
5.根据权利要求1所述的一种面向助盲领域的指示牌语义信息提取方法,其特征在于,所述对检测到的指示牌进行图像描述具体包含:
通过助盲设备获得室内场景图像,使用YOLOv5方法检测图像中是否存在指示牌,如果检测到指示牌且其在图像中占比超过给定阈值10%,则将指示牌根据其目标边界框从原始图像中分割出来;
对分割出的指示牌使用Canny算子进行边缘检测,根据边缘检测结果计算出指示牌的四个顶角坐标,进而使用仿射变换方法将倾斜的指示牌矫正;
将矫正后的指示牌输入到图像描述模型中,得到语义描述的预测输出,以及句子中每个词汇的置信概率,如果每个词的置信概率均大于给定阈值0.6,则输出生成的语义信息描述。
CN202211549324.1A 2022-12-05 2022-12-05 一种面向助盲领域的指示牌语义信息提取方法 Pending CN116343185A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211549324.1A CN116343185A (zh) 2022-12-05 2022-12-05 一种面向助盲领域的指示牌语义信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211549324.1A CN116343185A (zh) 2022-12-05 2022-12-05 一种面向助盲领域的指示牌语义信息提取方法

Publications (1)

Publication Number Publication Date
CN116343185A true CN116343185A (zh) 2023-06-27

Family

ID=86891845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211549324.1A Pending CN116343185A (zh) 2022-12-05 2022-12-05 一种面向助盲领域的指示牌语义信息提取方法

Country Status (1)

Country Link
CN (1) CN116343185A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935373A (zh) * 2023-09-18 2023-10-24 珠海亿智电子科技有限公司 多类型车牌识别模型的训练方法、装置、设备及存储介质
CN117423108A (zh) * 2023-09-28 2024-01-19 中国科学院自动化研究所 指令微调多模态大模型的图像细粒度描述方法及系统
CN117830788A (zh) * 2024-03-06 2024-04-05 潍坊科技学院 一种多源信息融合的图像目标检测方法
CN118298431A (zh) * 2024-06-05 2024-07-05 安徽农业大学 一种自然场景图像描述生成方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935373A (zh) * 2023-09-18 2023-10-24 珠海亿智电子科技有限公司 多类型车牌识别模型的训练方法、装置、设备及存储介质
CN116935373B (zh) * 2023-09-18 2024-03-12 珠海亿智电子科技有限公司 多类型车牌识别模型的训练方法、装置、设备及存储介质
CN117423108A (zh) * 2023-09-28 2024-01-19 中国科学院自动化研究所 指令微调多模态大模型的图像细粒度描述方法及系统
CN117423108B (zh) * 2023-09-28 2024-05-24 中国科学院自动化研究所 指令微调多模态大模型的图像细粒度描述方法及系统
CN117830788A (zh) * 2024-03-06 2024-04-05 潍坊科技学院 一种多源信息融合的图像目标检测方法
CN117830788B (zh) * 2024-03-06 2024-05-10 潍坊科技学院 一种多源信息融合的图像目标检测方法
CN118298431A (zh) * 2024-06-05 2024-07-05 安徽农业大学 一种自然场景图像描述生成方法及系统
CN118298431B (zh) * 2024-06-05 2024-08-13 安徽农业大学 一种自然场景图像描述生成方法及系统

Similar Documents

Publication Publication Date Title
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN116343185A (zh) 一种面向助盲领域的指示牌语义信息提取方法
Gao et al. Reading scene text with fully convolutional sequence modeling
CN110728200B (zh) 一种基于深度学习的实时行人检测方法及系统
CN112004111B (zh) 一种全域深度学习的新闻视频信息抽提方法
CN105787458A (zh) 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
CN109214001A (zh) 一种中文语义匹配系统及方法
CN110390363A (zh) 一种图像描述方法
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN114743020A (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
CN113569882A (zh) 一种基于知识蒸馏的快速行人检测方法
CN110942471A (zh) 一种基于时空约束的长时目标跟踪方法
Kaluri et al. A framework for sign gesture recognition using improved genetic algorithm and adaptive filter
Koumparoulis et al. Exploring ROI size in deep learning based lipreading.
CN113569650A (zh) 一种基于电力杆塔标牌识别的无人机自主巡检定位方法
US20230281843A1 (en) Generating depth images for image data
CN116363149A (zh) 一种基于U-Net改进的医学图像分割方法
CN114943937A (zh) 行人重识别方法、装置、存储介质及电子设备
CN114998799A (zh) 基于全局知识挖掘和前景注意力的交互视频动作检测方法
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Dong et al. Intelligent pixel-level pavement marking detection using 2D laser pavement images
CN116704196B (zh) 一种训练图像语义分割模型的方法
CN117115474A (zh) 一种基于多阶段特征提取的端到端单目标跟踪方法
CN115719368B (zh) 一种多目标船舶跟踪方法及系统
CN116883663A (zh) 基于深度学习的视频流中飞行目标主要部件语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination