CN115294345A - 一种基于RDE-Net的低照度图像描述方法 - Google Patents

一种基于RDE-Net的低照度图像描述方法 Download PDF

Info

Publication number
CN115294345A
CN115294345A CN202210779763.5A CN202210779763A CN115294345A CN 115294345 A CN115294345 A CN 115294345A CN 202210779763 A CN202210779763 A CN 202210779763A CN 115294345 A CN115294345 A CN 115294345A
Authority
CN
China
Prior art keywords
module
feature
word
features
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210779763.5A
Other languages
English (en)
Inventor
江泽涛
朱文才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202210779763.5A priority Critical patent/CN115294345A/zh
Publication of CN115294345A publication Critical patent/CN115294345A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/424Syntactic representation, e.g. by using alphabets or grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于RDE‑Net的低照度图像描述方法,所述方法包括如下步骤:1)对图像描述数据集进行处理和划分;2)构造FEX网络从特征图中提取全局特征、区域特征和细节特征;3)构造ENH网络利用细节特征强化区域特征,增强区域特征对细节的感知能力;4)构造两阶段预测模块和CC模块共同对图像进行描述。这种方法中对经过细节强化的区域特征和由低照度目标检测器产生的对象类别词进行了利用,保证了在低照度下也能很好的区分相似的物体,不会产生混淆。

Description

一种基于RDE-Net的低照度图像描述方法
技术领域
本发明涉及深度学习、低照度图像处理以及图像描述技术,具体是一种基于RDE-Net的低照度图像描述方法。
背景技术
图像描述是结合了计算机视觉与自然语言处理两大人工智能领域的重要任务之一,具有广阔的应用前景。在图像描述的场景中,照度是影响描述准确性的一个很重要因素。
低照度图像是指在夜晚或者光照环境较差的条件下产生的图片。不充分的光照会严重损害并降低图像的视觉质量,对存在可见度低、对比度差和色彩偏差等缺点的图像进行描述不仅对人类有一定的难度,对于计算机也是一个很大的挑战。现有的很多图像描述模型往往在光照充足条件下可以正常工作,而在处理低照度图像时,准确度不尽如人意。为了解决低照度下拍摄图像的描述问题,急需一种有效的低照度图像描述方法。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于RDE-Net的低照度图像描述方法。这种方法能够减少低照度图片中因特征不足而导致的描述错误问题,能实现对低照度图像的准确描述。
实现本发明目的的技术方案是:
一种基于RDE-Net的低照度图像描述方法,包括如下步骤:
1)对图像描述数据集进行处理和划分:过程为:
1-1)采用COCO数据集,COCO数据集共计123287张图像,将这个数据集以8:2的比例分成两部分,其中80%为训练集,共98630张图片,20%为测试集,共25057张图片,收集划分情况如表1所示,表1:
Figure BDA0003728724850000011
1-2)采用现有的CycleGAN模型对数据集中的图片进行处理:降低图片的光照、将数据集中的正常照度图片转化为低照度图片,随后将图像大小统一缩放为256*256;
1-3)采用现有的的IA-YOLO模型对低照度图片进行目标检测,获得每张图片中对象的类别和对应的位置,对象的类别表现为类别单词,即对象类别文本信息,位置表现为边界框坐标,IA-YOLO是基于YOLOv3改进的可以进行低照度目标检测的模型,对于低照度图片具有很好的检测效果;
2)构造FEX网络从特征图中提取全局特征、区域特征和细节特征:过程为:
2-1)FEX网络中设置了针对三张特征图的映射操作和三个模块的调用,将步骤1-3)中取得的边界框等比缩小,获得在三个特征图中的对应位置,三个特征图为IA-YOLO中送入检测头的三个特征图,分别记为C3、C4、C5,然后对于每个边界框,选择生成其坐标时采用的那一个特征图,使用映射的方式取得区域特征子图,随后调用RFE模块、DFE模块、GEX模块,基于目标检测的结果,从三个特征图中选择一个进行区域特征子图的映射,其原因在于边界框有大小之分,特征图有深浅之分,利用浅层特征图映射面积较小的边界框,利用深层特征图映射面积比较大的特征图,有效的完成了自底向上的注意力向图片中对象的集中;
2-2)将区域特征子图输入RFE模块、DFE模块,将C3、C4、C5输入GEX模块,RFE模块和DFE模块从区域特征子图中提取区域特征向量和细节特征向量,GEX模块从特征图中提取全局特征向量,GEX模块、RFE模块、DFE模块的输出均为512维的特征向量,采用三个模块来进行特征向量提取是为了分别提取到图片中对象、细节、背景三个角度的特征,三种特征各有优劣,通过合理的利用可以使它们优势互补,提升描述的准确度;
3)构造ENH网络依据细节特征强化区域特征:过程为:
3-1)ENH网络中设置了SIMCAL模块和RFEN模块,对于网络的输入,先调用SIMCAL模块计算权重,再调用RFEN模块进行特征增强,调用SIMCAL模块时将区域特征与细节特征送入其中进行权重计算,输出为有效权重和相似度权重,每个细节特征对应一个有效权重,有效权重的反应了细节特征中所含细节信息的多少,每个特征向量对应一个相似度权重,相似度权重反应了强化过程中各特征向量所起作用的大小;
3-2)将区域特征、细节特征和SIMCAL模块的输出共同送入RFEN模块,依据细节特征增强区域特征对细节的感知能力,由于低照度环境中普遍存在的噪音,图片中对象的细节变得不易观察,所以如果在低照度下仍然使用正常照度下的特征提取方法,将会由于提取到的特征不够充足而无法产生准确的描述,为此采用反应区域中各部分细节信息的细节特征对反应区域整体的对象特征做强化,经过强化后,由于可以更清晰的感知区域内各部分的细节,所以可以减少描述过程中产生误判的可能,从而提升描述的准确率;
4)构造两阶段预测模块和CC模块,共同对图像进行描述:过程为:
4-1)采用步骤3-2)中取得的区域特征和步骤2-2)中取得的全局特征进行第一阶段描述,即将二者共同送入一个Transformer结构中,记为Tr-s1,Tr-s1中设有编码器和解码器,编码器和解码器内分别设置三个编码层和三个解码层,Tr-s1的输出为最后一个编码层产生的经过自注意力运算的全局特征向量和最后一个解码层产生的计算结果,分别记为Fg'和Fh,将区域特征和全局特征共同送入Tr-s1的编码器中进行特征融合,一方面为了使解码过程中对全局和局部都能有一定的认识,增加解码的准确度,另一方面利用编码器内设置的自注意力机制,来使全局特征和区域特征进行充分交流,为第二阶段的预测做准备;
4-2)设置一个线性层接收步骤4-1)中得到的Fh,随后接一个softmax函数,输出为词表中每个单词的概率,每个时间步选择概率最大的一个单词做为结果,采用交叉熵损失作为损失函数,记为
Figure BDA0003728724850000031
其中y1:c-1表示已经预测出的前c-1个单词,yc表示准备预测的第c个单词,Pv表示概率;
4-3)将步骤1-3)中得到的对象类别文本信息进行编码,每个单词对应一个512维词向量,再依据词向量构成词矩阵,记为E,E中每一列代表一个单词的词向量;
4-4)第二阶段描述同样采用Transformer结构进行,记为Tr-s2,将步骤4-3)中得到的词矩阵E和步骤4-1)中得到的第一阶段计算结果Fh送入Tr-s2中,经过编码和解码后取得第二阶段计算结果,将第二阶段计算结果送入步骤4-2)中训练的线性层,其结果送入softmax函数后,获得第二阶段预测的单词概率,记为Fth,进行第二阶段预测是为了利用类别文本信息对完全基于图像特征产生的句子进行调整,为了避免调整后的结果变差,使用一阶段训练的分类头对二阶段解码器的输出进行处理,采用类别文本信息是因为低照度目标检测可以取得较为准确的检测结果,而目标检测的结果又往往会出现在图像描述产生的句子中,通过对目标检测结果的利用,可以降低图像描述模型对低照度图像产生误判的可能;
4-5)在Tr-2中解码器的每个解码层后均设置一个CC模块,CC模块作用是预测类别文本中每个单词的复制概率,在预测的过程中,会利用到每个解码层的输出和全局特征向量,由于三个解码层后均需要设置CC模块,故最后会得到三组复制概率,将三组概率求平均后作为最终的复制概率,所谓复制概率就是类别单词直接作为当前时间步中单词预测结果的概率,在低照度下,特征不足可能会导致模型将许多相似的物体误认为同一个对象,而低照度目标检测模型对图片中对象的类别有比较好的辨识能力,所以将这些经过低照度目标检测模型产生的对象类别单词经计算后化为复制概率,可以提高低照度图像描述任务中对相似对象的分辨能力,提升描述准确度;
4-6)对CC模块和第二次描述的结果进行处理,产生当前时间步最终的预测结果,即将步骤4-4)中取得的第二阶段单词预测概率和步骤4-5)中取得的单词复制概率拼接,而后从中选择最高概率的单词作为当前时间步的预测结果,采用交叉熵损失作为损失函数,记为
Figure BDA0003728724850000041
其中y1:c-1表示已经预测出的前c-1个单词,yc表示准备预测的第c个单词,Ptg表示概率;
4-7)整体模型在训练过程中,最终进行训练的损失函数为两个阶段损失函数之和,损失函数的公式如(1)所示:
Figure BDA0003728724850000042
其中y1:c-1表示已经预测出的前c-1个单词,yc表示准备预测的第c个单词,Pv表示概率,Ptg表示概率。
步骤2-2)中所述的GEX模块、RFE模块、DFE模块分别为:
GEX模块用于进行全局特征提取,即将C3、C4、C5送入GEX模块中,在模块内部三个特征图依次通过Rolpool层、最大池化层和8*8卷积层,化为三个512维的全局特征向量作为模块的输出,在描述图片的过程中,对象所处的场景是一个很重要的信息,场景信息不仅常常出现在最终生成的句子中,而且利用信息也可以对图片中各对象间的关系进行一定的推理,在低照度下,由于图片中的特征不充足,所以正常照度描述中依靠区域特征之间交流来获取场景信息的方法变得不再适用,为了解决低照度描述中场景信息不足的问题,设置了该模块来将整张特征图化为特征向量,采用这种方式提取到的特征向量有着覆盖整张图片的视野,即为全局特征向量,为了获得全局特征,设置RolPool层依据已有信息做推理,对由于低照度环境而丢失的特征进行一定的补充,经过该层后特征图的宽高会变为原先的1.25倍,随后的最大池化层将特征图全部化为8*8的大小,这个过程是为了减少特征图中可能存在的干扰信息,最后采用8*8卷积层将特征图化为特征向量,卷积层中设置512个卷积核,故模块的输出为512维的全局特征向量;
DFE模块用于进行细节特征提取,目的是提取对象所处区域中各部分细节的特征,即对于每一个由对象区域映射得到的区域特征子图,在上面均匀的划分4个小矩形,每个小矩形再次经过映射后作为细节特征子图,将细节特征子图送入Rolpool层、最大池化层和4*4卷积层,获得512维的细节特征向量,由于低照度下对象的细节不易观察,所以采用划分小矩形对细节单独提取的方式进行补充,每个小矩形只覆盖到了对象的一部分,所以从其中提取的特征必然很少的关注对象的类别信息,而是更多对细节进行感知,体现该部分的细节信息,故记为细节特征,为了更好的提取细节特征,将细节特征子图送入RolPool层,化为各自所属特征图原本的大小,在此过程中利用已有信息对低照度图像中可能缺失的特征进行补充,随后的最大池化层将细节特征子图统一化为4*4的大小,在这个过程中减少其中可能包含的干扰信息,最后采用4*4卷积层将特征图化为特征向量,卷积层中设置512个卷积核,故模块的输出为512维的全局特征向量;
RFE模块用于进行区域特征的提取,在这一个过程中依次将区域特征子图送入Rolpool层、最大池化层和8*8卷积层,最终得到512维的区域特征向量,在这一个过程中依次将区域特征子图送入Rolpool层、最大池化层和8*8卷积层,在Polpool层中将区域特征子图化为所述特征图原本的大小,补充低照度图像中可能丢失的特征信息,在最大池化层中,将全部区域特征子图化为8*8的大小,减少其中的干扰信息,在8*8卷积层,利用设置有512个卷积核的卷积层将区域特征子图化为区域特征向量。
步骤3-1)中所述的SIMCAL模块为:
3-1-1)区域特征分别送入两个不同的线性层,得到两个64维向量,分别作为query和key,再设置一个新的线性层接收细节特征,经过线性层后每个细节特征都对应一个64维向量,作为key,采用两个不同的线性层对区域特征和细节特征进行处理,保证了两种类型的特征经过处理后,仍然具有各自的特点,即前者关注类别,后者关注细节;
3-1-2)令query与每一个key通过点积的方式计算相似度,然后将得到的相似度送入sigmoid层计算相似度权重;
3-1-3)将细节特征送入线性层,化为64维的向量,然后将向量中的元素求和作为细节特征的有效分数,最后将全部细节特征的有效分数送入sigmoid层计算有效权重,每个细节特征对应一个有效权重,由于低照度图片中对象的细节信息不充分,所以不能保证从每个小矩形中提取到的细节特征都感知到了足够的细节信息,于是为每个细节特征计算有效权重,携带细节信息多的向量具有较高的权重,携带细节信息少的向量具有较低的权重。
步骤3-2)中所述的RFEN模块为:
3-2-1)将区域特征和细节特征送入线性层,经过线性层后,每个特征对应一个64维的向量,将这些向量记为value,对于细节特征对应的value,令value与从SIMCAL模块中接收到的有效权重相乘;
3-2-2)依据从SIMCAL模块中接收到的相似度权重,对每一个value进行加权求和,求和结果作为强化后的区域特征向量,作为模块的输出,有效权重的高低反应了向量中包含细节信息的多少,令value先与有效权重相乘,再使用相似度权重加权求和,既保证了细节丰富向量的生效,又避免了细节较少向量的干扰。
步骤4-5)中所述的CC模块为:
4-5-1)从步骤4-1)中取得的Fg'作为经过融合后全局特征,全局特征包含key和value两个部分,记为
Figure BDA0003728724850000061
Figure BDA0003728724850000062
4-5-2)将解码层输出的Am
Figure BDA0003728724850000063
依次做内积,得到长度为3的相似度向量Sim,将Sim送入sigmoid函数中计算权重,权重与
Figure BDA0003728724850000064
分别相乘后与步骤4-4)中取得的Fth求和,求和结果记为Fthg,由于全局特征向量表现有背景词的特点,所以在计算类别词复制概率的过程中,对全局特征向量进行了考虑,具体来说,通过对已预测单词的语义信息与全局特征向量计算内积来得到三个全局特征向量的权重,权重的大小表示不同深度的全局特征向量在此次预测中产生作用的大小,通过将全局特征向量与当前解码层的输出相加来对全局信息进行利用;
4-5-3)Fthg送入线性层,输出记为Fk thg,每个单词的词向量经过线性层后与Fthg作内积运算,所得结果即为该单词的得分,通过为单词计算得分,完成对图片中检测出的对象类别文本的利用,依据对象类别文本辅助低照度图像描述的生成,可以减少低照度图像描述模型产生误判的可能;
4-5-4)每个单词得分的计算公式如下:
Figure BDA0003728724850000065
本技术方案采用低照度目标检测模型提取低照度图像的特征信息,在特征图上提取区域特征、细节特征和全局特征,采用细节特征对区域特征进行增强,加强区域特征对对象细节的感知能力,使用多个全局特征来关注图片的背景信息,采用两阶段的方式生成词表中单词的预测概率和类别单词的复制概率,对加强了细节感知能力的区域特征和目标检测得到的类别单词进行利用,降低了模型对低照度图像中的对象产生误判的可能,从而提高描述的准确度。
这种方法能够减少低照度图片中因特征不足而导致的描述错误问题,能实现对低照度图像的准确描述。
附图说明
图1为实施例中RDE-Net网络模型示意图;
图2为实施例中FEX的结构示意图;
图3为实施例中RFE的结构示意图;
图4为实施例中DFE示意图;
图5为实施例中GEX的结构示意图;
图6为实施例中ENH的结构示意图
图7为实施例中第二阶段描述示意图;
图8为实施例中CC的结构示意图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,一种基于RDE-Net的低照度图像描述方法,包括如下步骤:
1)对图像描述数据集进行处理和划分:过程为:
1-1)采用COCO数据集,COCO数据集共计123287张图像,将这个数据集以8:2的比例分成两部分,其中80%为训练集,共98630张图片,20%为测试集,共25057张图片,收集划分情况如表1所示,表1:
Figure BDA0003728724850000071
1-2)采用现有的CycleGAN模型对数据集中的图片进行处理:降低图片的光照、将数据集中的正常照度图片转化为低照度图片,随后将图像大小统一缩放为256*256;
1-3)采用现有的IA-YOLO模型对低照度图片进行目标检测,获得每张图片中对象的类别和对应的位置,对象的类别表现为类别单词,即对象类别文本信息,位置表现为边界框坐标,IA-YOLO是基于YOLOv3改进的可以进行低照度目标检测的模型,对于低照度图片具有很好的检测效果;
2)如图2所示,构造FEX网络从特征图中提取全局特征、区域特征和细节特征:过程为:
2-1)FEX网络中设置了针对三张特征图的映射操作和三个模块的调用,将步骤1-3)中取得的边界框等比缩小,获得在三个特征图中的对应位置,三个特征图为IA-YOLO中送入检测头的三个特征图,分别记为C3、C4、C5,然后对于每个边界框,选择生成其坐标时采用的那一个特征图,使用映射的方式取得区域特征子图,随后调用RFE模块、DFE模块、GEX模块,基于目标检测的结果,从三个特征图中选择一个进行区域特征子图的映射,其原因在于边界框有大小之分,特征图有深浅之分,利用浅层特征图映射面积较小的边界框,利用深层特征图映射面积比较大的特征图,有效的完成了自底向上的注意力向图片中对象的集中;
2-2)将区域特征子图输入RFE模块、DFE模块,将C3、C4、C5输入GEX模块,RFE模块和DFE模块从区域特征子图中提取区域特征向量和细节特征向量,GEX模块从特征图中提取全局特征向量,如图3、图4、图5所示,GEX模块、RFE模块、DFE模块的输出均为512维的特征向量,采用三个模块来进行特征向量提取是为了分别提取到图片中对象、细节、背景三个角度的特征,三种特征各有优劣,通过合理的利用可以使它们优势互补,提升描述的准确度;
3)如图6所示,构造ENH网络依据细节特征强化区域特征:过程为:
3-1)ENH网络中设置了SIMCAL模块和RFEN模块,对于网络的输入,先调用SIMCAL模块计算权重,再调用RFEN模块进行特征增强,调用SIMCAL模块时将区域特征与细节特征送入SIMCAL模块进行权重计算,输出为有效权重和相似度权重,每个细节特征对应一个有效权重,有效权重的反应了细节特征中所含细节信息的多少,每个特征向量对应一个相似度权重,相似度权重反应了强化过程中各特征向量所起作用的大小;
3-2)将区域特征、细节特征和SIMCAL模块的输出共同送入RFEN模块,依据细节特征增强区域特征对细节的感知能力,由于低照度环境中普遍存在的噪音,图片中对象的细节变得不易观察,所以如果在低照度下仍然使用正常照度下的特征提取方法,将会由于提取到的特征不够充足而无法产生准确的描述,为此采用反应区域中各部分细节信息的细节特征对反应区域整体的对象特征做强化,经过强化后,由于可以更清晰的感知区域内各部分的细节,所以可以减少描述过程中产生误判的可能,从而提升描述的准确率;
4)如图7、图8所示,构造两阶段预测模块和CC模块,共同对图像进行描述:过程为:
4-1)采用步骤3-2)中取得的区域特征和步骤2-2)中取得的全局特征进行第一阶段描述,即将二者共同送入一个Transformer结构中,记为Tr-s1,Tr-s1中设有编码器和解码器,编码器和解码器内分别设置三个编码层和三个解码层,Tr-s1的输出为最后一个编码层产生的经过自注意力运算的全局特征向量和最后一个解码层产生的计算结果,分别记为Fg'和Fh,将区域特征和全局特征共同送入Tr-s1的编码器中进行特征融合,一方面为了使解码过程中对全局和局部都能有一定的认识,增加解码的准确度,另一方面利用编码器内设置的自注意力机制,来使全局特征和区域特征进行充分交流,为第二阶段的预测做准备;
4-2)设置一个线性层接收步骤4-1)中得到的Fh,随后接一个softmax函数,输出为词表中每个单词的概率,每个时间步选择概率最大的一个单词做为结果,采用交叉熵损失作为损失函数,记为
Figure BDA0003728724850000091
其中y1:c-1表示已经预测出的前c-1个单词,yc表示准备预测的第c个单词,Pv表示概率;
4-3)将步骤1-3)中得到的对象类别文本信息(进行编码,每个单词对应一个512维词向量,再依据词向量构成词矩阵,记为E,E中每一列代表一个单词的词向量;
4-4)参照图7,第二阶段描述同样采用Transformer结构进行,记为Tr-s2,将步骤4-3)中得到的词矩阵E和步骤4-1)中得到的第一阶段计算结果Fh送入Tr-s2中,经过编码和解码后取得第二阶段计算结果,将第二阶段计算结果送入步骤4-2)中训练的线性层,其结果送入softmax函数后,获得第二阶段预测的单词概率,记为Fth,进行第二阶段预测是为了利用类别文本信息对完全基于图像特征产生的句子进行调整,为了避免调整后的结果变差,使用一阶段训练的分类头对二阶段解码器的输出进行处理,采用类别文本信息是因为低照度目标检测可以取得较为准确的检测结果,而目标检测的结果又往往会出现在图像描述产生的句子中,通过对目标检测结果的利用,可以降低图像描述模型对低照度图像产生误判的可能;
4-5)在Tr-2中解码器的每个解码层后均设置一个CC模块,参照图8,CC模块作用是预测类别文本中每个单词的复制概率,在预测的过程中,会利用到每个解码层的输出和全局特征向量,由于三个解码层后均需要设置CC模块,故最后会得到三组复制概率,将三组概率求平均后作为最终的复制概率,所谓复制概率就是类别单词直接作为当前时间步中单词预测结果的概率,在低照度下,特征不足可能会导致模型将许多相似的物体误认为同一个对象,而低照度目标检测模型对图片中对象的类别有比较好的辨识能力,所以将这些经过低照度目标检测模型产生的对象类别单词经计算后化为复制概率,可以提高低照度图像描述任务中对相似对象的分辨能力,提升描述准确度;
4-6)对CC模块和第二次描述的结果进行处理,产生当前时间步最终的预测结果,即将步骤4-4)中取得的第二阶段单词预测概率和步骤4-5)中取得的单词复制概率拼接,而后从中选择最高概率的单词作为当前时间步的预测结果,采用交叉熵损失作为损失函数,记为
Figure BDA0003728724850000092
其中y1:c-1表示已经预测出的前c-1个单词,yc表示准备预测的第c个单词,Ptg表示概率;
4-7)整体模型在训练过程中,最终进行训练的损失函数为两个阶段损失函数之和,损失函数的公式如(1)所示:
Figure BDA0003728724850000101
其中y1:c-1表示已经预测出的前c-1个单词,yc表示准备预测的第c个单词,Pv表示概率,Ptg表示概率。
步骤2-2)中所述的GEX模块、RFE模块、DFE模块分别为:
GEX模块用于进行全局特征提取,即将C3、C4、C5送入GEX模块中,在模块内部三个特征图依次通过Rolpool层、最大池化层和8*8卷积层,化为三个512维的全局特征向量作为模块的输出,在描述图片的过程中,对象所处的场景是一个很重要的信息,场景信息不仅常常出现在最终生成的句子中,而且利用信息也可以对图片中各对象间的关系进行一定的推理,在低照度下,由于图片中的特征不充足,所以正常照度描述中依靠区域特征之间交流来获取场景信息的方法变得不再适用,为了解决低照度描述中场景信息不足的问题,设置了该模块来将整张特征图化为特征向量,采用这种方式提取到的特征向量有着覆盖整张图片的视野,即为全局特征向量,为了获得全局特征,设置RolPool层依据已有信息做推理,对由于低照度环境而丢失的特征进行一定的补充,经过该层后特征图的宽高会变为原先的1.25倍,随后的最大池化层将特征图全部化为8*8的大小,这个过程是为了减少特征图中可能存在的干扰信息,最后采用8*8卷积层将特征图化为特征向量,卷积层中设置512个卷积核,故模块的输出为512维的全局特征向量;
DFE模块用于进行细节特征提取,目的是提取对象所处区域中各部分细节的特征,即对于每一个由对象区域映射得到的区域特征子图,在上面均匀的划分4个小矩形,每个小矩形再次经过映射后作为细节特征子图,将细节特征子图送入Rolpool层、最大池化层和4*4卷积层,获得512维的细节特征向量,由于低照度下对象的细节不易观察,所以采用划分小矩形对细节单独提取的方式进行补充,每个小矩形只覆盖到了对象的一部分,所以从其中提取的特征必然很少的关注对象的类别信息,而是更多对细节进行感知,体现该部分的细节信息,故记为细节特征,为了更好的提取细节特征,将细节特征子图送入RolPool层,化为各自所属特征图原本的大小,在此过程中利用已有信息对低照度图像中可能缺失的特征进行补充,随后的最大池化层将细节特征子图统一化为4*4的大小,在这个过程中减少其中可能包含的干扰信息,最后采用4*4卷积层将特征图化为特征向量,卷积层中设置512个卷积核,故模块的输出为512维的全局特征向量;
RFE模块用于进行区域特征的提取,在这一个过程中依次将区域特征子图送入Rolpool层、最大池化层和8*8卷积层,最终得到512维的区域特征向量,在这一个过程中依次将区域特征子图送入Rolpool层、最大池化层和8*8卷积层,在Polpool层中将区域特征子图化为所述特征图原本的大小,补充低照度图像中可能丢失的特征信息,在最大池化层中,将全部区域特征子图化为8*8的大小,减少其中的干扰信息,在8*8卷积层,利用设置有512个卷积核的卷积层将区域特征子图化为区域特征向量。
步骤3-1)中所述的SIMCAL模块为:
3-1-1)区域特征分别送入两个不同的线性层,得到两个64维向量,分别作为query和key,再设置一个新的线性层接收细节特征,经过线性层后每个细节特征都对应一个64维向量,作为key,采用两个不同的线性层对区域特征和细节特征进行处理,保证了两种类型的特征经过处理后,仍然具有各自的特点,即前者关注类别,后者关注细节;
3-1-2)令query与每一个key通过点积的方式计算相似度,然后将得到的相似度送入sigmoid层计算相似度权重;
3-1-3)将细节特征送入线性层,化为64维的向量,然后将向量中的元素求和作为细节特征的有效分数,最后将全部细节特征的有效分数送入sigmoid层计算有效权重,每个细节特征对应一个有效权重,由于低照度图片中对象的细节信息不充分,所以不能保证从每个小矩形中提取到的细节特征都感知到了足够的细节信息,于是为每个细节特征计算有效权重,携带细节信息多的向量具有较高的权重,携带细节信息少的向量具有较低的权重。
步骤3-2)中所述的RFEN模块为:
3-2-1)将区域特征和细节特征送入线性层,经过线性层后,每个特征对应一个64维的向量,将这些向量记为value,对于细节特征对应的value,令value与从SIMCAL模块中接收到的有效权重相乘;
3-2-2)依据从SIMCAL模块中接收到的相似度权重,对每一个value进行加权求和,求和结果作为强化后的区域特征向量,作为模块的输出,有效权重的高低反应了向量中包含细节信息的多少,令value先与有效权重相乘,再使用相似度权重加权求和,既保证了细节丰富向量的生效,又避免了细节较少向量的干扰。
步骤4-5)中所述的CC模块为:
4-5-1)从步骤4-1)中取得的Fg'作为经过融合后全局特征,全局特征包含key和value两个部分,记为
Figure BDA0003728724850000111
Figure BDA0003728724850000112
4-5-2)将解码层输出的Am
Figure BDA0003728724850000113
依次做内积,得到长度为3的相似度向量Sim,将Sim送入sigmoid函数中计算权重,权重与
Figure BDA0003728724850000121
分别相乘后与步骤4-4)中取得的Fth求和,求和结果记为Fthg,由于全局特征向量表现有背景词的特点,所以在计算类别词复制概率的过程中,对全局特征向量进行了考虑,具体来说,通过对已预测单词的语义信息与全局特征向量计算内积来得到三个全局特征向量的权重,权重的大小表示不同深度的全局特征向量在此次预测中产生作用的大小,通过将全局特征向量与当前解码层的输出相加来对全局信息进行利用;
4-5-3)Fthg送入线性层,输出记为Fk thg,每个单词的词向量经过线性层后与Fthg作内积运算,所得结果即为该单词的得分,通过为单词计算得分,完成对图片中检测出的对象类别文本的利用,依据对象类别文本辅助低照度图像描述的生成,可以减少低照度图像描述模型产生误判的可能;
4-5-4)每个单词得分的计算公式如下:
Figure BDA0003728724850000122

Claims (5)

1.一种基于RDE-Net的低照度图像描述方法,其特征在于,包括如下步骤:
1)对图像描述数据集进行处理和划分:过程为:
1-1)采用COCO数据集,COCO数据集共计123287张图像,将这个数据集以8:2的比例分成两部分,其中80%为训练集,共98630张图片,20%为测试集,共25057张图片,收集划分情况如表1所示,
表1:
Figure FDA0003728724840000011
1-2)采用现有的CycleGAN模型对数据集中的图片进行处理:降低图片的光照、将数据集中的正常照度图片转化为低照度图片,随后将图像大小统一缩放为256*256;
1-3)采用现有的IA-YOLO模型对低照度图片进行目标检测,获得每张图片中对象的类别和对应的位置,对象的类别表现为类别单词,即对象类别文本信息,位置表现为边界框坐标;
2)构造FEX网络特征图中提取全局特征、区域特征和细节特征:过程为:
2-1)FEX网络中设有针对三张特征图的映射操作和三个模块的调用,将步骤1-3)中取得的边界框等比缩小,获得在三个特征图中的对应位置,三个特征图为IA-YOLO中送入检测头的三个特征图,分别记为C3、C4、C5,然后对于每个边界框,选择生成其坐标时采用的那一个特征图,采用映射的方式取得区域特征子图,随后调用RFE模块、DFE模块、GEX模块;
2-2)将区域特征子图输入RFE模块、DFE模块,将C3、C4、C5输入GEX模块,RFE模块和DFE模块从区域特征子图中提取区域特征向量和细节特征向量,GEX模块从特征图中提取全局特征向量,GEX模块、RFE模块、DFE模块的输出均为512维的特征向量;
3)构造ENH网络依据细节特征强化区域特征:过程为:
3-1)ENH网络中设有SIMCAL模块和RFEN模块,对于网络的输入,先调用SIMCAL模块,再调用RFEN模块,调用SIMCAL模块时将区域特征与细节特征送入其中进行权重计算,输出为有效权重和相似度权重;
3-2)将区域特征、细节特征和SIMCAL模块的输出共同送入RFEN模块,依据细节特征增强区域特征对细节的感知能力;
4)构造两阶段预测模块和CC模块,共同对图像进行描述:过程为:
4-1)采用步骤3-2)中取得的区域特征和步骤2-2)中取得的全局特征进行第一阶段描述,即将二者共同送入一个Transformer结构中,记为Tr-s1,Tr-s1中设有编码器和解码器,编码器和解码器内分别设置三个编码层和三个解码层,Tr-s1的输出为最后一个编码层产生的经过自注意力运算的全局特征向量和最后一个解码层产生的计算结果,分别记为Fg'和Fh
4-2)设置一个线性层接收步骤4-1)中得到的Fh,随后接一个softmax函数,输出为词表中每个单词的概率,每个时间步选择概率最大的一个单词作为结果,采用交叉熵损失作为损失函数,记为
Figure FDA0003728724840000021
其中y1:c-1表示已经预测出的前c-1个单词,yc表示准备预测的第c个单词,Pv表示概率;
4-3)将步骤1-3)中得到的对象类别文本信息进行编码,每个单词对应一个512维词向量,再依据词向量构成词矩阵,记为E,E中每一列代表一个单词的词向量;
4-4)第二阶段描述同样采用Transformer结构进行,记为Tr-s2,将步骤4-3)中得到的词矩阵E和步骤4-1)中得到的第一阶段计算结果Fh送入Tr-s2中,经过编码和解码后取得第二阶段计算结果,将第二阶段计算结果送入步骤4-2)中训练的线性层,其结果送入softmax函数后获得第二阶段预测的单词概率,记为Fth
4-5)在Tr-2中解码器的每个解码层后均设置一个CC模块,三个解码层后均需要设置CC模块,最后会得到三组复制概率,将三组概率求平均后作为最终的复制概率;
4-6)对CC模块和第二次描述的结果进行处理,产生当前时间步最终的预测结果,即将步骤4-4)中取得的第二阶段单词预测概率和步骤4-5)中取得的单词复制概率拼接,而后从中选择最高概率的单词作为当前时间步的预测结果,采用交叉熵损失作为损失函数,记为
Figure FDA0003728724840000022
其中y1:c-1表示已经预测出的前c-1个单词,yc表示准备预测的第c个单词,Ptg表示概率;
4-7)整体模型在训练过程中,最终进行训练的损失函数为两个阶段损失函数之和,损失函数的公式如(1)所示:
Figure FDA0003728724840000023
其中y1:c-1表示已经预测出的前c-1个单词,yc表示准备预测的第c个单词,Pv表示步骤4-2)中预测的概率,Ptg表示步骤4-6)中预测的概率。
2.根据权利要求1所述的基于RDE-Net的低照度图像描述方法,其特征在于,步骤2-2)中所述的GEX模块、RFE模块、DFE模块分别为:
GEX模块用于进行全局特征提取,即将C3、C4、C5送入GEX模块中,在模块内部三个特征图依次通过Rolpool层、最大池化层和8*8卷积层,化为三个512维的全局特征向量作为模块的输出;
DFE模块用于进行细节特征提取,即对于每一个由对象区域映射得到的区域特征子图,在上面均匀的划分4个小矩形,每个小矩形再次经过映射后作为细节特征子图,将细节特征子图送入Rolpool层、最大池化层和4*4卷积层,获得512维的细节特征向量;
RFE模块用于进行区域特征的提取,在这一个过程中依次将区域特征子图送入Rolpool层、最大池化层和8*8卷积层,最终得到512维的区域特征向量。
3.根据权利要求1所述的基于RDE-Net的低照度图像描述方法,其特征在于,步骤3-1)中所述的SIMCAL模块为:
3-1-1)区域特征分别送入两个不同的线性层,得到两个64维向量,分别作为query和key,再设置一个新的线性层接收细节特征,经过线性层后每个细节特征都对应一个64维向量,作为key;
3-1-2)令query与每一个key通过点积的方式计算相似度,然后将得到的相似度送入sigmoid层计算相似度权重;
3-1-3)将细节特征送入线性层,化为64维的向量,然后将向量中的元素求和作为细节特征的有效分数,最后将全部细节特征的有效分数送入sigmoid层计算有效权重,每个细节特征对应一个有效权重。
4.根据权利要求1所述的基于RDE-Net的低照度图像描述方法,其特征在于,步骤3-2)中所述的RFEN模块为:
3-2-1)将区域特征和细节特征送入线性层,经过线性层后,每个特征对应一个64维的向量,将这些向量记为value,对于细节特征对应的value,令value与从SIMCAL模块中接收到的有效权重相乘;
3-2-2)依据从SIMCAL模块中接收到的相似度权重,对每一个value进行加权求和,求和结果作为强化后的区域特征向量,作为模块的输出。
5.根据权利要求1所述的基于RDE-Net的低照度图像描述方法,其特征在于,步骤4-5)中所述的CC模块为:
4-5-1)从步骤4-1)中取得的Fg'作为经过融合后全局特征,全局特征包含key和value两个部分,记为
Figure FDA0003728724840000041
Figure FDA0003728724840000042
4-5-2)将解码层输出的Am
Figure FDA0003728724840000043
依次做内积,得到长度为3的相似度向量Sim,将Sim送入sigmoid函数中计算权重,权重与
Figure FDA0003728724840000044
分别相乘后与步骤4-4)中取得的Fth求和,求和结果记为Fthg
4-5-3)Fthg送入线性层,输出记为Fk thg,每个单词的词向量经过线性层后与Fthg作内积运算,所得结果即为该单词的得分;
4-5-4)每个单词得分的计算公式如下:
Figure FDA0003728724840000045
CN202210779763.5A 2022-07-04 2022-07-04 一种基于RDE-Net的低照度图像描述方法 Pending CN115294345A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210779763.5A CN115294345A (zh) 2022-07-04 2022-07-04 一种基于RDE-Net的低照度图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210779763.5A CN115294345A (zh) 2022-07-04 2022-07-04 一种基于RDE-Net的低照度图像描述方法

Publications (1)

Publication Number Publication Date
CN115294345A true CN115294345A (zh) 2022-11-04

Family

ID=83822616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210779763.5A Pending CN115294345A (zh) 2022-07-04 2022-07-04 一种基于RDE-Net的低照度图像描述方法

Country Status (1)

Country Link
CN (1) CN115294345A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726990A (zh) * 2023-12-27 2024-03-19 浙江恒逸石化有限公司 纺丝车间的检测方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726990A (zh) * 2023-12-27 2024-03-19 浙江恒逸石化有限公司 纺丝车间的检测方法、装置、电子设备及存储介质
CN117726990B (zh) * 2023-12-27 2024-05-03 浙江恒逸石化有限公司 纺丝车间的检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Wang et al. Hybrid feature aligned network for salient object detection in optical remote sensing imagery
Liu et al. Picanet: Learning pixel-wise contextual attention for saliency detection
US9965719B2 (en) Subcategory-aware convolutional neural networks for object detection
Yi et al. ASSD: Attentive single shot multibox detector
CN110598610B (zh) 一种基于神经选择注意的目标显著性检测方法
US10002313B2 (en) Deeply learned convolutional neural networks (CNNS) for object localization and classification
JP2017062781A (ja) 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
CN112036395B (zh) 基于目标检测的文本分类识别方法及装置
US11508173B2 (en) Machine learning prediction and document rendering improvement based on content order
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
US20230326173A1 (en) Image processing method and apparatus, and computer-readable storage medium
Zou et al. Hft: Lifting perspective representations via hybrid feature transformation
Fan et al. A novel sonar target detection and classification algorithm
CN115294345A (zh) 一种基于RDE-Net的低照度图像描述方法
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
Panda et al. Modified ResNet-152 network with hybrid pyramidal pooling for local change detection
CN113657225A (zh) 一种目标检测方法
CN114821356B (zh) 一种精确定位的光学遥感目标检测方法
US20230077508A1 (en) Method of generating inference model and information processing apparatus
Chen et al. KepSalinst: Using peripheral points to delineate salient instances
CN116403133A (zh) 一种基于YOLO v7改进的车辆检测算法
Bakr et al. Mask R-CNN for moving shadow detection and segmentation
CN114511877A (zh) 一种行为识别方法、装置、存储介质及终端
CN111914110A (zh) 一种基于深度激活显著区域的实例检索方法
Meng et al. LAGSwin: Local attention guided Swin-transformer for thermal infrared sports object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination