CN113343966B - 一种红外与可见光图像文本描述生成方法 - Google Patents
一种红外与可见光图像文本描述生成方法 Download PDFInfo
- Publication number
- CN113343966B CN113343966B CN202110501891.9A CN202110501891A CN113343966B CN 113343966 B CN113343966 B CN 113343966B CN 202110501891 A CN202110501891 A CN 202110501891A CN 113343966 B CN113343966 B CN 113343966B
- Authority
- CN
- China
- Prior art keywords
- infrared
- visible light
- image
- head
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种红外与可见光图像文本描述生成方法,包括以下步骤:1)采集n对分辨率大小和场景相同的红外与可见光图像,构建成数据集,对数据集中的每个样本进行人工文本描述,生成多条不同的描述文本;2),构建红外与可见光图像文本描述生成网络,包括红外与可见光图像特征提取的编码模型、由前馈神经网络构成的特征融合模型,以及加性多头注意力机制的图像特征解码模型;3)训练文本描述生成网络;4)将测试图像对输入到训练好的文本描述生成网络,输出其对应的描述文本。本发明方法可有效利用红外图像和可见光图像提供的互补视觉特征,弥补了传统单光算法遗漏关键目标实体和场景描述不充分的不足。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种红外与可见光图像文本描述生成方法。
背景技术
随着近年来人工智能领域中机器学习特别是深度学习技术的迅猛发展,计算机视觉作为一门研究如何更好地理解和分析图像的科学,在数据及算力的推动下也呈现出飞跃式的进步。例如在图像分类任务中,运行深度学习算法的机器的对物体种类识别的准确率已经超过人类;在目标检测与定位任务中,基于深度学习的算法已广泛应用于智能视频监控,机器人导航和基于内容的图像检索等领域。
图像描述生成任务的本质是完成场景信息从图像域到文本域的转换。目前图像描述生成领域中的研究都是围绕可见光图像展开的,然而单一光学谱段的成像设备可能在一些环境下无法完整的获取场景信息。例如,当关注的目标或场景缺乏良好的光线照射或者被遮挡时,普通的可见光相机将无法捕获到目标或相关场景的有用信息。尤其是在军事战场环境中,重要设施目标常常需要通过伪装式遮挡以躲避侦察,以及军事计划可能借助夜晚黑暗的保护开展行动。如果使用普通的可见光成像设备进行场景信息的采集,图像描述生成算法后续就无法生成正确的描述语句。为了在极端成像条件下也能够获取全面的场景信息,有必要结合使用工作在不同谱段的成像设备。例如在上述情景中,可以使用红外相机与可见光相机同时对场景成像。其中红外相机通过捕捉物体发出的热辐射信息并根据其强度大小进行成像,这样的特点使其具备全天候的工作能力而不受遮挡和光照条件变化的影响。因此研究多源传感器在图像描述生成任务中的应用也具有非常重要的意义。
发明内容
针对现有技术的不足,本发明提出一种红外与可见光图像文本描述生成方法。本方法建立了了一种联合红外可见光特征的双输入图像描述网络,能够有效地结合红外和可见光两个谱段的视觉特征信息。
本发明的技术方案包括以下步骤:
步骤1,建立数据集,采集n对分辨率大小为H×W、场景相同的红外与可见光图像,构建成数据集,对数据集中的每个样本进行人工文本描述,生成多条不同的描述文本,所述描述文本由多个词组成,将所有描述文本中的词组成一个集合,这个集合称为“字典”;
步骤2,构建红外与可见光图像文本描述生成网络,包括以下子步骤:
步骤2.1,多源图像场景特征提取:建立红外与可见光图像特征提取的编码模型,用于提取数据集中每一对红外与可见光图像样本的深层语义特征vIR和vVIS;
步骤2.2,场景特征信息融合:建立前馈神经网络构成的特征融合模型,用以融合红外与可见光图像包含的多源场景信息,获得融合语义特征vF;
步骤2.3,建立加性多头注意力机制的图像特征解码模型,对融合语义特征vF进行处理,用于输出描述文本;
步骤3,利用步骤1中的数据集及对应的描述文本训练步骤2中构建的文本描述生成网络;
步骤4,将测试图像对输入到训练好的文本描述生成网络,输出其对应的描述文本。
进一步的,步骤1的具体实现包括如下子步骤:
进一步的,步骤2.1的具体实现包括如下子步骤:
步骤2.1.1,建立红外与可见光图像描述生成网络的编码模型,用于提取图像特征映射,编码模型可表示为如下计算公式:
其中IIR和IVIS分别表示所述编码模型输入的红外与可见光图像对,EResNet表示ResNet-101网络剔除最后两层的剩余部分,和分别表示所述红外与可见光图像经过EResNet模型提取得到的红外与可见光图像特征映射;
步骤2.1.2,为了使编码模型能够适应不同尺寸的图像输入,添加自适应均值池化层对所述红外与可见光图像特征映射进行处理,得到图像的深层语义特征,其计算公式为:
其中,Pool表示自适应均值池化层,vIR∈RL×d×d和vVIS∈RL×d×d分别表示红外与可见光图像深层语义特征,L为特征的通道数,每个通道的空间分辨率为d×d。
进一步的,步骤2.2的具体实现包括如下子步骤:
步骤2.2.1,建立连接层,对红外与可见光图像深层语义特征vIR和vVIS沿特征的通道进行拼接,得到联合深层语义特征vC∈R2L×d×d;
步骤2.2.2,建立线性层对所述联合深层语义特征进行处理,得到线性深层语义特征vL,vL∈R2L×d×d的计算公式如下:
vL=W1·vC+b1
其中,W1∈R2L×2L,b1∈R2L为训练参数;
步骤2.2.3,建立激活层,对所述线性深层语义特征进行非线性化,使得vL具有非线性特征,其表达公式如下:
vA=ReLU(vL)
其中,vA表示非线性深层语义特征,ReLU为线性整流函数;
步骤2.2.4,建立线性层对所述非线性深层语义特征进行处理,得到融合语义特征vF:
vF=W2·vA+b2
其中,W2∈R2L×L,b2∈RL为训练参数。
进一步的,步骤2.3的具体实现包含如下子步骤:
步骤2.3.1,对融合语义特征vF进行均值池化,将每个通道的空间分辨率d×d降为1×1,得到均值vj;
步骤2.3.2,加性多头注意力机制解码模型通过迭代的方式完成,记h和c为解码模型在迭代过程中的隐状态,h∈RD,c∈RD,D为解码模型的特征维度,在迭代时间步为t时,解码模型的隐状态为ht-1和ct-1;
当迭代时间步t=0时,解码模型的初始隐状态为h-1和c-1,起始标记词w0为<start>,h-1由投影矩阵Wh、偏置向量bh对vj变换得到;c-1由投影矩阵Wc、偏置向量bc对vj变换得到,h-1和c-1的计算公式如下:
h-1=Wh·vj+bh
c-1=Wc·vj+bc
其中,Wh∈RL×D,Wc∈RL×D,bh∈RD,bc∈RD为训练参数;
步骤2.3.3,通过解码模型在迭代时间步t的隐状态ht-1和融合语义特征vF,进行加性多头注意力机制计算;加性多头注意力机制的计算过程包含如下子步骤:
步骤2.3.3.1:加性多头注意力机制中第i个头的权重αi的计算公式如下:
αi=softmax(ReLU(Wi q·ht-1+Wi k·vF))
步骤2.3.3.2:加性多头注意力机制中的第i个头headi的加权计算公式如下:
步骤2.3.3.3:将多头head1,head2,...,headn的加权计算结果沿通道拼接后,经过投影矩阵WD变换得到加权图像特征向量vt A,其计算公式如下:
vt A=[head1,head2,...,headn]·WD
步骤2.3.4,解码模型采用融合加性多头注意力机制的LSTM进行迭代计算,其迭代计算公式如下:
ht,ct=LSTM([We·wt,vt A],ht-1,ct-1)
本发明与现有技术相比具有以下优点和有益效果:
(1)本发明设计了一种加性多头注意力机制,通过划分多个抽头的方式在不同特征子空间计算注意力权重,能够使网络模型学习通道维度下的不同的注意力权重分布模式,弥补了传统算法遗漏关键目标实体和场景描述不充分的不足。
(2)本发明设计了一种联合红外可见光特征的双输入图像描述网络,网络中设计的特征融合模型能够有效地结合红外和可见光两个谱段的视觉特征信息,在极端不利成像条件下单一谱段成像手段无法获取完整场景信息时,可以有效利用红外图像和可见光图像提供的互补视觉特征,生成符合场景语义的描述语句。
附图说明
图1为本发明的总体流程图;
图2为解码模型结构;
图3为特征融合模型结构;
图4为加性多头注意力机制网络流程图;
图5为目标图像1和生成文本;
图6为目标图像2和生成文本。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
为了更清楚的阐述本发明的目的、技术方案和有益效果,下面结合附图和实施例进一步说明。应当理解,本发明不应限于实施例公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
技术问题:本发明设计了一种红外与可见光图像文本描述生成方法,可有效利用红外图像和可见光图像提供的互补视觉特征,弥补了传统单光算法遗漏关键目标实体和场景描述不充分的不足。
本发明的技术方案包括以下步骤:
步骤1:建立数据集:采集n对分辨率大小为H×W、场景相同的红外与可见光图像,构建成数据集,对数据集中的每个样本进行人工文本描述,生成多条不同的描述文本,所述描述文本由多个词组成,将所有描述文本中的词组成一个集合,这个集合我们称为“字典”。
进一步的,步骤1的具体实现包括如下子步骤:
步骤2,构建红外与可见光图像文本描述生成网络,包括以下子步骤:
步骤2.1:多源图像场景特征提取:建立红外与可见光图像特征提取的编码模型,用于提取数据集中每一对红外与可见光图像样本的特征信息;
进一步的,步骤2.1的具体实现包括如下子步骤:
步骤2.1.1:建立红外与可见光图像描述生成网络的编码模型,用于提取图像特征映射,模型可表示为如下计算公式:
其中IIR和IVIS分别表示所述编码模型输入的红外与可见光图像对,EResNet表示ResNet-101网络剔除最后两层的剩余部分,和分别表示所述红外与可见光图像经过EResNet模型提取得到的红外与可见光图像特征映射;
步骤2.1.2:为了使编码模型能够适应不同尺寸的图像输入,添加自适应均值池化层对所述红外与可见光图像特征映射进行处理,得到图像的深层语义特征,其计算公式为:
其中,Pool表示自适应均值池化层,vIR∈RL×d×d和vVIS∈RL×d×d分别表示红外与可见光图像深层语义特征,L为特征的通道数,每个通道的空间分辨率为d×d。
步骤2.2:场景特征信息融合:建立前馈神经网络构成的特征融合模型,用以融合红外与可见光图像包含的多源场景信息;
进一步的,步骤2.2的具体实现包括如下子步骤:
步骤2.2.1:建立连接层,对所述红外与可见光图像深层语义特征vIR和vVIS沿特征的通道进行拼接,得到联合深层语义特征vC∈R2L×d×d;
步骤2.2.2:建立线性层对所述联合深层语义特征进行处理,得到线性深层语义特征vL,vL∈R2L×d×d的计算公式如下:
vL=W1·vC+b1
其中,W1∈R2L×2L,b1∈R2L为训练参数。
步骤2.2.3:建立激活层,对所述线性深层语义特征进行非线性化,使得vL具有非线性特征,其表达公式如下:
vA=ReLU(vL)
其中,vA表示非线性深层语义特征,ReLU为线性整流函数。
步骤2.2.4:建立线性层对所述非线性深层语义特征进行处理,得到融合语义特征vF:
vF=W2·vA+b2
其中,W2∈R2L×L,b2∈RL为训练参数。
步骤2.3:建立加性多头注意力机制的图像特征解码模型,用于输出描述文本;
进一步的,步骤2.3的具体实现包含如下子步骤:
步骤2.3.1:对所述融合语义特征vF进行均值池化,将每个通道的空间分辨率d×d降为1×1,得到均值vj。
步骤2.3.2:加性多头注意力机制解码模型通过迭代的方式完成,记h和c为解码模型在迭代过程中的隐状态,h∈RD,c∈RD,D为解码模型的特征维度。在迭代时间步为t时,解码模型的隐状态为ht-1和ct-1。
当迭代时间步t=0时,解码模型的初始隐状态为h-1和c-1,起始标记词w0为<start>。h-1由投影矩阵Wh、偏置向量bh对vj变换得到;c-1由投影矩阵Wc、偏置向量bc对vj变换得到。h-1和c-1的计算公式如下:
h-1=Wh·vj+bh
c-1=Wc·vj+bc
其中,Wh∈RL×D,Wc∈RL×D,bh∈RD,bc∈RD为训练参数。
步骤2.3.3:通过解码模型在迭代时间步t的隐状态ht-1和融合语义特征vF,进行加性多头注意力机制计算。加性多头注意力机制的计算过程包含如下子步骤:
步骤2.3.3.1:加性多头注意力机制中第i个头的权重αi的计算公式如下:
αi=softmax(ReLU(Wi q·ht-1+Wi k·vF))
步骤2.3.3.2:加性多头注意力机制中的第i个头headi的加权计算公式如下:
步骤2.3.3.3:将多头head1,head2,...,headn的加权计算结果沿通道拼接后,经过投影矩阵WD变换得到加权图像特征向量vt A,其计算公式如下:
vt A=[head1,head2,...,headn]·WD
步骤2.3.4:解码模型采用融合加性多头注意力机制的LSTM进行迭代计算,其迭代计算公式如下:
ht,ct=LSTM([We·wt,vt A],ht-1,ct-1)
步骤3,利用步骤1中的数据集及对应的描述文本训练步骤2中构建的文本描述生成网络;
步骤4,将测试图像对输入到训练好的文本描述生成网络,输出其对应的描述文本。
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围的。
Claims (4)
1.一种红外与可见光图像文本描述生成方法,其特征在于,包括如下步骤:
步骤1,建立数据集,采集n对分辨率大小为H×W、场景相同的红外与可见光图像,构建成数据集,对数据集中的每个样本进行人工文本描述,生成多条不同的描述文本,所述描述文本由多个词组成,将所有描述文本中的词组成一个集合,这个集合称为“字典”;
步骤2,构建红外与可见光图像文本描述生成网络,包括以下子步骤:
步骤2.1,多源图像场景特征提取:建立红外与可见光图像特征提取的编码模型,用于提取数据集中每一对红外与可见光图像样本的深层语义特征vIR和vVIS;
步骤2.2,场景特征信息融合:建立前馈神经网络构成的特征融合模型,用以融合红外与可见光图像包含的多源场景信息,获得融合语义特征vF;
步骤2.3,建立加性多头注意力机制的图像特征解码模型,对融合语义特征vF进行处理,用于输出描述文本;
步骤2.3的具体实现包含如下子步骤:
步骤2.3.1,对融合语义特征vF进行均值池化,将每个通道的空间分辨率d×d降为1×1,得到均值vj;
步骤2.3.2,加性多头注意力机制解码模型通过迭代的方式完成,记h和c为解码模型在迭代过程中的隐状态,h∈RD,c∈RD,D为解码模型的特征维度,在迭代时间步为t时,解码模型的隐状态为ht-1和ct-1;
当迭代时间步t=0时,解码模型的初始隐状态为h-1和c-1,起始标记词w0为<start>,h-1由投影矩阵Wh、偏置向量bh对vj变换得到;c-1由投影矩阵Wc、偏置向量bc对vj变换得到,h-1和c-1的计算公式如下:
h-1=Wh·vj+bh
c-1=Wc·vj+bc
其中,Wh∈RL×D,Wc∈RL×D,bh∈RD,bc∈RD为训练参数,L为特征的通道数;
步骤2.3.3,通过解码模型在迭代时间步t的隐状态ht-1和融合语义特征vF,进行加性多头注意力机制计算;加性多头注意力机制的计算过程包含如下子步骤:
步骤2.3.3.1:加性多头注意力机制中第i个头的权重αi的计算公式如下:
αi=softmax(ReLU(Wi q·ht-1+Wi k·vF))
步骤2.3.3.2:加性多头注意力机制中的第i个头headi的加权计算公式如下:
步骤2.3.3.3:将多头head1,head2,...,headn的加权计算结果沿通道拼接后,经过投影矩阵WD变换得到加权图像特征向量vt A,其计算公式如下:
vt A=[head1,head2,...,headn]·WD
步骤2.3.4,解码模型采用融合加性多头注意力机制的LSTM进行迭代计算,其迭代计算公式如下:
ht,ct=LSTM([We·wt,vt A],ht-1,ct-1)
步骤3,利用步骤1中的数据集及对应的描述文本训练步骤2中构建的文本描述生成网络;
步骤4,将测试图像对输入到训练好的文本描述生成网络,输出其对应的描述文本。
3.如权利要求1所述的一种红外与可见光图像文本描述生成方法,其特征在于:步骤2.1的具体实现包括如下子步骤:
步骤2.1.1,建立红外与可见光图像描述生成网络的编码模型,用于提取图像特征映射,编码模型可表示为如下计算公式:
其中IIR和IVIS分别表示所述编码模型输入的红外与可见光图像对,EResNet表示ResNet-101网络剔除最后两层的剩余部分,和分别表示所述红外与可见光图像经过EResNet模型提取得到的红外与可见光图像特征映射;
步骤2.1.2,为了使编码模型能够适应不同尺寸的图像输入,添加自适应均值池化层对所述红外与可见光图像特征映射进行处理,得到图像的深层语义特征,其计算公式为:
其中,Pool表示自适应均值池化层,vIR∈RL×d×d和vVIS∈RL×d×d分别表示红外与可见光图像深层语义特征,L为特征的通道数,每个通道的空间分辨率为d×d。
4.如权利要求1所述的一种红外与可见光图像文本描述生成方法,其特征在于:步骤2.2的具体实现包括如下子步骤:
步骤2.2.1,建立连接层,对红外与可见光图像深层语义特征vIR和vVIS沿特征的通道进行拼接,得到联合深层语义特征vC∈R2L×d×d,L为特征的通道数,每个通道的空间分辨率为d×d;
步骤2.2.2,建立线性层对所述联合深层语义特征进行处理,得到线性深层语义特征vL,vL∈R2L×d×d的计算公式如下:
vL=W1·vC+b1
其中,W1∈R2L×2L,b1∈R2L为训练参数;
步骤2.2.3,建立激活层,对所述线性深层语义特征进行非线性化,使得vL具有非线性特征,其表达公式如下:
vA=ReLU(vL)
其中,vA表示非线性深层语义特征,ReLU为线性整流函数;
步骤2.2.4,建立线性层对所述非线性深层语义特征进行处理,得到融合语义特征vF:
vF=W2·vA+b2
其中,W2∈R2L×L,b2∈RL为训练参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110501891.9A CN113343966B (zh) | 2021-05-08 | 2021-05-08 | 一种红外与可见光图像文本描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110501891.9A CN113343966B (zh) | 2021-05-08 | 2021-05-08 | 一种红外与可见光图像文本描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343966A CN113343966A (zh) | 2021-09-03 |
CN113343966B true CN113343966B (zh) | 2022-04-29 |
Family
ID=77470125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110501891.9A Active CN113343966B (zh) | 2021-05-08 | 2021-05-08 | 一种红外与可见光图像文本描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343966B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116503300B (zh) * | 2023-06-25 | 2023-10-03 | 广东电网有限责任公司湛江供电局 | 一种电力设备的图像融合方法、系统、设备和介质 |
CN116935063B (zh) * | 2023-07-24 | 2024-03-08 | 北京中科睿途科技有限公司 | 智能座舱环境下司机状态文本的生成方法及相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109118467A (zh) * | 2018-08-31 | 2019-01-01 | 武汉大学 | 基于生成对抗网络的红外与可见光图像融合方法 |
CN112733866A (zh) * | 2021-01-27 | 2021-04-30 | 西安理工大学 | 一种提高可控图像文本描述正确性的网络构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9171361B2 (en) * | 2010-04-23 | 2015-10-27 | Flir Systems Ab | Infrared resolution and contrast enhancement with fusion |
-
2021
- 2021-05-08 CN CN202110501891.9A patent/CN113343966B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109118467A (zh) * | 2018-08-31 | 2019-01-01 | 武汉大学 | 基于生成对抗网络的红外与可见光图像融合方法 |
CN112733866A (zh) * | 2021-01-27 | 2021-04-30 | 西安理工大学 | 一种提高可控图像文本描述正确性的网络构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113343966A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Segmenting objects in day and night: Edge-conditioned CNN for thermal image semantic segmentation | |
CN111639544B (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
CN105005772B (zh) | 一种视频场景检测方法 | |
Xiao et al. | Heterogeneous knowledge distillation for simultaneous infrared-visible image fusion and super-resolution | |
CN113343966B (zh) | 一种红外与可见光图像文本描述生成方法 | |
CN111898736A (zh) | 基于属性感知的高效行人重识别方法 | |
Ma et al. | A crossmodal multiscale fusion network for semantic segmentation of remote sensing data | |
CN112164067A (zh) | 一种基于多模态子空间聚类的医学图像分割方法及装置 | |
Zhao et al. | Depth-distilled multi-focus image fusion | |
Zhang et al. | Tell and guess: cooperative learning for natural image caption generation with hierarchical refined attention | |
CN113743544A (zh) | 一种跨模态神经网络构建方法、行人检索方法及系统 | |
CN115761757A (zh) | 基于解耦特征引导的多模态文本页面分类方法 | |
Wan et al. | AnswerNet: Learning to answer questions | |
Hong et al. | USOD10K: a new benchmark dataset for underwater salient object detection | |
Wu et al. | SRCANet: Stacked residual coordinate attention network for infrared ship detection | |
Qian et al. | Circular lbp prior-based enhanced GAN for image style transfer | |
Fu et al. | Learning heavily-degraded prior for underwater object detection | |
Huang et al. | Exploiting probabilistic siamese visual tracking with a conditional variational autoencoder | |
CN115098646A (zh) | 一种图文数据的多级关系分析与挖掘方法 | |
CN114463235A (zh) | 一种红外与可见光图像融合方法、装置及存储介质 | |
Lu et al. | Deep neural network for precision multi-band infrared image segmentation | |
Wang et al. | Insulator defect detection based on improved you-only-look-once v4 in complex scenarios | |
Yang et al. | Heterogeneous face detection based on multi‐task cascaded convolutional neural network | |
CN116543146B (zh) | 一种基于窗口自注意与多尺度机制的图像密集描述方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |