CN112580636A - 一种基于跨模态协同推理的图像美学质量评价方法 - Google Patents

一种基于跨模态协同推理的图像美学质量评价方法 Download PDF

Info

Publication number
CN112580636A
CN112580636A CN202011609604.8A CN202011609604A CN112580636A CN 112580636 A CN112580636 A CN 112580636A CN 202011609604 A CN202011609604 A CN 202011609604A CN 112580636 A CN112580636 A CN 112580636A
Authority
CN
China
Prior art keywords
features
visual
image
text
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011609604.8A
Other languages
English (en)
Inventor
阮杰
高飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011609604.8A priority Critical patent/CN112580636A/zh
Publication of CN112580636A publication Critical patent/CN112580636A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于跨模态协同推理的图像美学质量评价的方法。本发明包括如下步骤:步骤(1)提取多尺度视觉特征;步骤(2)基于图网络提取视觉结构特征;步骤(3)提取视觉聚合特征与文本聚合特征;利用Transformer模型提取多尺度文本特征后,利用协同注意力模块对多尺度视觉特征和多尺度文本特征进行重构,挖掘两者之间的关联关系,提取视觉聚合特征与文本聚合特征;步骤(4)多模态低秩双线性特征融合以及多任务美学质量评价,将视觉结构特征与视觉聚合特征、文本聚合特征进行低秩双线性特征融合,并利用多任务学习思想,提升图像美学质量评价性能。本发明为探索人类的美学认知机制,提升美学评价模型的可解释性,提供了一种有效的技术路线。

Description

一种基于跨模态协同推理的图像美学质量评价方法
技术领域
本发明提到了一种基于跨模态协同推理的图像美学质量评价方法(Imageaesthetics quality evaluation method based on cross-modal collaborativereasoning)的新方法,主要涉及一种利用卷积神经网络进行训练,对得到的深层特征即构图信息和全局信息进行特征融合并且多任务学习的方式,以构建一个与人工评价结果更加一致的更符合图像美学评价准则的准确率较高的图像美学质量评价模型。
背景技术
图像美学质量评价(Photo Quality Assessment)是基于对图像的艺术理解通过计算方式准确的评估图片的美学质量。PQA应用空间广泛,例如最优图像筛选和自动搜索相机设置。此外,研究人员已在探索利用PQA从美学角度重构和增强图片。
图像美学质量具备高度抽象的特点,现有的图像美学质量评价方法通常只利用图像内容信息,基于专家知识构建启发式美学评价准则,限制了模型的可靠性和可解释性。为了探索图像美学的评价机制,一方面需要建立可学习的美学因素(如构图、光影等)描述模型,令算法在学习过程中自动拟合相关的美学因素,从而在一定程度上克服专家知识的局限性;另外一方面,则需要利用多模态的信息,例如用户对于图像的美学相关评论等,挖掘多模态信息之间的关联关系,特别是文本评论与图像内容之间的关联关系,从而在一定程度上解释美学评价的机理。
在图像美学质量评价模型的设计中,有两方面技术难点。其一为如何设计可以描述美学评价准则的深度网络结构:美学准则涉及目标物个体、目标物之间的关联关系以及图像区域多个层次。在图像美学质量评价的过程中,能够描述多层次、多尺度信息以及相互之间的关联关系是挖掘美学准则的前提与基础;其二为如何充分学习美学评价准则:能否充分学习多尺度、多层次视觉信息与图像美学评价之间的映射关系,决定着模型推理和更新方式,是图像美学评价模型中最为核心的步骤,是有待解决的关键科学问题之一
发明内容
本发明的目的是针对现有技术的不足,提供一种基于跨模态协同推理的图像美学质量评价的方法。同时利用图像内容和文本评论进行图像美学质量评价。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)提取多尺度视觉特征
利用目标检测基准网络检测图像中的目标区域,基于ROI池化提取区域特征、关联特征、目标特征组成多尺度视觉特征;
步骤(2)基于图网络提取视觉结构特征
利用图模型建模图像结构,进而提取视觉结构特征;
步骤(3)提取视觉聚合特征与文本聚合特征
利用Transformer模型提取多尺度文本特征后,利用协同注意力模块,对多尺度视觉特征和多尺度文本特征进行重构,用于挖掘两者之间的关联关系,提取视觉聚合特征与文本聚合特征;
步骤(4)多模态低秩双线性特征融合以及多任务美学质量评价
将视觉结构特征与聚合后的视觉特征、文本特征进行低秩双线性特征融合,并利用多任务学习思想,提升图像美学质量评价性能。
进一步的,步骤(1)所述的提取多尺度视觉特征:
1-1采用目标检测基准网络,检测图像中的目标区域,然后对目标区域按照非极大抑制准则进行合并,保留主目标物的同时,减少目标物区域个数。之后对于各个目标物区域,进行ROI池化,得到各个目标物区域对应的目标特征。对于两两目标物之间,选取能够包含两两目标物的最小局部区域,然后按照非极大抑制准则进行整合,获得目标物关联区域。对于目标物关联区域,进行ROI池化,获得目标物之间关联关系的关联特征表达;
1-2选择包含多个主目标物的区域,基于ROI池化,获得区域特征表达,由区域特征、关联特征、目标特征组合成为多尺度视觉特征。
所述的主目标物是指输入图像中的主要目标物。
进一步的,步骤(2)所述的基于图网络提取视觉结构特征:
2-1将目标特征、关联特征、区域特征对应的图像块作为节点,图像块对应的深度特征、重心位置、面积等作为节点属性特征;
对所有节点构建全连接无向图,将各个图像块之间的IoU、归一化空间距离、特征表达之间的余弦距离等作为边属性特征。将整幅输入图像全局池化得到的特征作为全局属性特征。
2-2采用DIFFPOOL池化方法将该全连接无向图及其属性特征矩阵进行聚合,得到结构特征向量。所述的属性特征矩阵包括节点属性特征、边属性特征和全局属性特征;
DIFFPOOL基于输入全连接无向图表示的邻接矩阵A及获取的属性特征矩阵X,利用池化型图网络(Graph Neural Network,GNN)GNNPOOL预测特征汇聚权重S,进行特征嵌入;邻接矩阵A与属性特征矩阵X在第l+1层的计算表达为:
(A(l+1),X(l+1))=DiffPool(A(l),X(l)), (1)
计算过程为:
S(l)=softmax(GNNl,pool(A(l),X(l))),(2)
Figure BDA0002874303700000031
Figure BDA0002874303700000032
其中,S(l)为在第l层的特征汇聚权重,
Figure BDA0002874303700000033
分别为第l+1层的邻接矩阵和属性特征矩阵;
经过L层图网络之后,得到最终的视觉结构特征的表达向量X(L),用于图像美学质量的预测。
进一步的,步骤(3)所述的提取视觉聚合特征与文本聚合特征:
3-1鉴于Transformer模型在多种自然语言处理任务中的优异表现,采用在英文文档分类任务中预训练得到的Transformer模型作为基准,用于从文本评论中提取词语、短语、句子等多层次特征表达,构成多尺度文本特征,用于描述图像美学相关的因素(如“构图/composition”、“构图极好/excellent composition”、“包含全部五种构图元素/fivefactors happening all at once”),从而从不同层次对图像美学进行表达。
3-2利用协同注意力模块挖掘多尺度视觉特征和多尺度文本特征之间的关联关系。设多尺度视觉特征为X,文本注意力引导矩阵为g,协同注意力模块的计算公式表示为
Figure BDA0002874303700000041
则这里用的计算流程为:
Figure BDA0002874303700000042
其中,v和t分别为输出的视觉聚合特征和文本聚合特征。
进一步的,步骤(4)所述的多模态低秩双线性特征融合以及多任务美学质量评价:
4-1基于双线性池化方法将不同分支得到的特征进行融合
采用低秩双线性特征融合方法,假设视觉结构特征X(L)为s∈Rm,视觉聚合特征为υ∈Rn,文本聚合特征为t∈Rk,采用三个低秩映射将其映射到同一空间中:
Figure BDA0002874303700000043
其中,U∈Rm×c,V∈Rn×c,W∈Rk×c是低秩映射矩阵,c是输出特征维度,
Figure BDA0002874303700000044
为Hadamard积,即两个向量之间元素之间的点乘。融合后的特征可以用于后续的美学质量预测。
4-2采用多任务学习思想对融合后的特征,同时预测美学二分类标签、平均分数、分数分布、内容和风格。分别对应采用交叉熵损失、L2损失、推土机距离(Earth Mover’sDistance,EMD)损失、多标签交叉熵损失和单标记交叉熵损失。在训练阶段,将所有损失进行加权求和用于指导整个模型的训练;模型完成训练后,在测试阶段,给定输入图像及其对应的文本评论,模型输出图像对应的美学二分类标签、平均分数、分数分布、内容和风格。
本发明有益效果如下:
针对图像美学评价准则难以建模和学习的问题,本发明基于图像中的目标物个体、目标物之间的关联关系以及区域三个尺度的深度特征,以图的形式建模跨尺度的连接关系,进而利用图网络型池化方法得到图像结构表征;此外,针对文本评论数据,提取词汇、短语和句子等多尺度深度特征,然后利用协同注意力机制自动学习视觉特征与文本特征之间的关联关系,挖掘视觉内容与语义解析之间的映射,从而探索人类的美学评价准则。本发明为探索人类的美学认知机制,提升美学评价模型的可解释性,提供了一种有效的技术路线。
附图说明
图1是基于跨模态协同推理的图像美学质量评价框架示意图;
具体实施细节
下面结合附图对本发明做进一步说明。
如图1所示,一种基于跨模态协同推理的图像美学质量评价方法,具体包括如下步骤:
步骤(1)多尺度视觉特征提取
利用目标检测基准网络检测图像中的目标区域,基于ROI池化提取区域特征、关联特征、目标特征组成多尺度视觉特征;
步骤(2)基于图网络提取视觉结构特征
利用图模型建模图像结构,进而提取视觉结构特征;
步骤(3)提取视觉聚合特征与文本聚合特征
利用Transformer模型提取多尺度文本特征后,利用协同注意力模块,对多尺度视觉特征和多尺度文本特征进行重构,用于挖掘两者之间的关联关系,提取视觉聚合特征与文本聚合特征;
步骤(4)多模态低秩双线性特征融合以及多任务美学质量评价
将视觉结构特征与聚合后的视觉特征、文本特征进行低秩双线性特征融合,并利用多任务学习思想,提升图像美学质量评价性能。
进一步的,步骤(1)所述的提取多尺度视觉特征:
1-1采用目标检测基准网络,检测图像中的目标区域,然后对目标区域按照非极大抑制准则进行合并,保留主目标物的同时,减少目标物区域个数。之后对于各个目标物区域,进行ROI池化,得到各个目标物区域对应的目标特征。对于两两目标物之间,选取能够包含两两目标物的最小局部区域,然后按照非极大抑制准则进行整合,获得目标物关联区域。对于目标物关联区域,进行ROI池化,获得目标物之间关联关系的关联特征表达;
1-2选择包含多个主目标物的区域,基于ROI池化,获得区域特征表达,由区域特征、关联特征、目标特征组合成为多尺度视觉特征。
所述的主目标物是指输入图像中的主要目标物。
进一步的,步骤(2)所述的基于图网络提取视觉结构特征:
2-1将目标特征、关联特征、区域特征对应的图像块作为节点,图像块对应的深度特征、重心位置、面积等作为节点属性特征;
对所有节点构建全连接无向图,将各个图像块之间的IoU、归一化空间距离、特征表达之间的余弦距离等作为边属性特征。将整幅输入图像全局池化得到的特征作为全局属性特征。
2-2采用DIFFPOOL池化方法将该全连接无向图及其属性特征矩阵进行聚合,得到结构特征向量。所述的属性特征矩阵包括节点属性特征、边属性特征和全局属性特征;
DIFFPOOL基于输入全连接无向图表示的邻接矩阵A及获取的属性特征矩阵X,利用池化型图网络(Graph Neural Network,GNN)GNNPOOL预测特征汇聚权重S,进行特征嵌入;邻接矩阵A与属性特征矩阵X在第l+1层的计算表达为:
(A(l+1),X(l+1))=DiffPool(A(l),X(l)), (1)
计算过程为:
S(l)=softmax(GNNl,pool(A(l),X(l))), (2)
Figure BDA0002874303700000061
Figure BDA0002874303700000071
其中,S(l)为在第l层的特征汇聚权重,
Figure BDA0002874303700000072
分别为第l+1层的邻接矩阵和属性特征矩阵;
经过L层图网络之后,得到最终的视觉结构特征的表达向量X(L),用于图像美学质量的预测。
进一步的,步骤(3)所述的提取视觉聚合特征与文本聚合特征:
3-1鉴于Transformer模型在多种自然语言处理任务中的优异表现,采用在英文文档分类任务中预训练得到的Transformer模型作为基准,用于从文本评论中提取词语、短语、句子等多层次特征表达,构成多尺度文本特征,用于描述图像美学相关的因素(如“构图/composition”、“构图极好/excellent composition”、“包含全部五种构图元素/fivefactors happening all at once”),从而从不同层次对图像美学进行表达。
3-2利用协同注意力模块挖掘多尺度视觉特征和多尺度文本特征之间的关联关系。设多尺度视觉特征为X,文本注意力引导矩阵为g,协同注意力模块的计算公式表示为
Figure BDA0002874303700000075
则这里用的计算流程为:
Figure BDA0002874303700000076
其中,v和t分别为输出的视觉聚合特征和文本聚合特征。
进一步的,步骤(4)所述的多模态低秩双线性特征融合以及多任务美学质量评价:
4-1基于双线性池化方法将不同分支得到的特征进行融合
采用低秩双线性特征融合方法,假设视觉结构特征X(L)为s∈Rm,视觉聚合特征为υ∈Rn,文本聚合特征为t∈Rk,采用三个低秩映射将其映射到同一空间中:
Figure BDA0002874303700000073
其中,U∈Rm×c,V∈Rn×c,W∈Rk×c是低秩映射矩阵,c是输出特征维度,
Figure BDA0002874303700000074
为Hadamard积,即两个向量之间元素之间的点乘。融合后的特征可以用于后续的美学质量预测。
4-2采用多任务学习思想对融合后的特征,同时预测美学二分类标签、平均分数、分数分布、内容和风格。分别对应采用交叉熵损失、L2损失、推土机距离(Earth Mover’sDistance,EMD)损失、多标签交叉熵损失和单标记交叉熵损失。在训练阶段,将所有损失进行加权求和用于指导整个模型的训练;模型完成训练后,在测试阶段,给定输入图像及其对应的文本评论,模型输出图像对应的美学二分类标签、平均分数、分数分布、内容和风格。
为了保证模型训练的稳定性,拟首先固定目标检测和Transformer基准网络,只优化图网络模块和协同注意力模块的参数;待损失曲线趋于稳定后,再开始端到端全部训练,进一步提升基准网络对于图像美学的特征提取能力。在测试阶段,给定输入图像及其对应的文本评论,模型将输出其对应的美学分类、分数、分布、内容和风格。

Claims (5)

1.一种基于跨模态协同推理的图像美学质量评价的方法,其特征在于能够同时利用图像内容和文本评论进行图像美学质量评价,具体包括如下步骤:
步骤(1)提取多尺度视觉特征:利用目标检测基准网络检测图像中的目标区域,基于ROI池化提取区域特征、关联特征、目标特征组成多尺度视觉特征;
步骤(2)基于图网络提取视觉结构特征:利用图模型建模图像结构,进而提取视觉结构特征;
步骤(3)提取视觉聚合特征与文本聚合特征:利用Transformer模型提取多尺度文本特征后,利用协同注意力模块对多尺度视觉特征和多尺度文本特征进行重构,挖掘两者之间的关联关系,提取视觉聚合特征与文本聚合特征;
步骤(4)多模态低秩双线性特征融合以及多任务美学质量评价:将视觉结构特征与视觉聚合特征、文本聚合特征进行低秩双线性特征融合,并利用多任务学习思想,提升图像美学质量评价性能。
2.根据权利要求1所述的一种基于跨模态协同推理的图像美学质量评价的方法,其特征在于步骤(1)所述的提取多尺度视觉特征,具体实现如下:
1-1采用目标检测基准网络,检测图像中的目标区域,然后对目标区域按照非极大抑制准则进行合并,保留主目标物的同时减少目标物区域个数;之后对于各个目标物区域,进行ROI池化,得到各个目标物区域对应的目标特征;对于两两目标物之间,选取能够包含两两目标物的最小局部区域,然后按照非极大抑制准则进行整合,获得目标物关联区域;对于目标物关联区域,进行ROI池化,获得目标物之间关联关系的关联特征;
1-2选择包含多个主目标物的区域,基于ROI池化,获得区域特征表达;由区域特征、关联特征、目标特征组成多尺度视觉特征。
3.根据权利要求2所述的一种基于跨模态协同推理的图像美学质量评价的方法,其特征在于步骤(2)所述的基于图网络提取视觉结构特征,具体实现如下:
2-1将目标特征、关联特征、区域特征对应的图像块作为节点,图像块对应的深度特征、重心位置、面积作为节点属性特征;
对所有节点构建全连接无向图,将各个图像块之间的IoU、归一化空间距离、特征表达之间的余弦距离作为边属性特征;将整幅输入图像全局池化得到的特征作为全局属性特征;
2-2采用DIFFPOOL池化方法将该全连接无向图及其属性特征矩阵进行聚合,得到视觉结构特征量;所述的属性特征矩阵包括节点属性特征、边属性特征和全局属性特征;
DIFFPOOL基于输入全连接无向图表示的邻接矩阵A及获取的属性特征矩阵X,利用池化型图网络GNNPOOL预测特征汇聚权重S,进行特征嵌入;邻接矩阵A与属性特征矩阵X在第l+1层的计算表达为:
(A(l+1),X(l+1))=DiffPool(A(l),X(l)), (1)
计算过程为:
S(l)=softmax(GNNl,pool(A(l),X(l))), (2)
Figure FDA0002874303690000021
Figure FDA0002874303690000022
其中,S(l)为在第l层的特征汇聚权重,
Figure FDA0002874303690000023
分别为第l+1层的邻接矩阵和属性特征矩阵;
经过L层图网络之后,得到最终的视觉结构特征的表达向量X(i),用于图像美学质量的预测。
4.根据权利要求3所述的一种基于跨模态协同推理的图像美学质量评价的方法,其特征在于步骤(3)所述的提取视觉聚合特征与文本聚合特征,具体实现如下:
3-1采用在英文文档分类任务中预训练得到的Transformer模型,从文本评论中提取词语、短语、句子的多层次特征表达,构成多尺度文本特征,用于描述图像美学相关的因素,从而从不同层次对图像美学进行表达;
3-2利用协同注意力模块挖掘多尺度视觉特征和多尺度文本特征之间的关联关系;设多尺度视觉特征为X,文本注意力引导矩阵为g,协同注意力模块的计算公式表示为
Figure FDA0002874303690000031
则这里用的计算流程为:
Figure FDA0002874303690000032
其中,v和t分别为输出的视觉聚合特征和文本聚合特征。
5.根据权利要求4所述的一种基于跨模态协同推理的图像美学质量评价的方法,其特征在于步骤(4)所述的多模态低秩双线性特征融合以及多任务美学质量评价,具体实现如下:
4-1基于双线性池化方法将不同分支得到的特征进行融合
采用低秩双线性特征融合方法,假设视觉结构特征X(L)为s∈Rm,视觉聚合特征为υ∈Rn,文本聚合特征为t∈Rk,采用三个低秩映射将其映射到同一空间中:
Figure FDA0002874303690000033
其中,U∈Rm×c,V∈Rn×c,W∈Rk×c是低秩映射矩阵,c是输出特征维度,
Figure FDA0002874303690000034
为Hadamard积,即两个向量之间元素之间的点乘;融合后的特征可以用于后续的美学质量预测;
4-2采用多任务学习思想对融合后的特征,同时预测美学二分类标签、平均分数、分数分布、内容和风格;分别对应采用交叉熵损失、L2损失、推土机距离损失、多标签交叉熵损失和单标记交叉熵损失;在训练阶段,将所有损失进行加权求和用于指导整个模型的训练;模型完成训练后,在测试阶段,对于给定输入图像及其对应的文本评论,模型输出图像对应的美学二分类标签、平均分数、分数分布、内容和风格。
CN202011609604.8A 2020-12-30 2020-12-30 一种基于跨模态协同推理的图像美学质量评价方法 Pending CN112580636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011609604.8A CN112580636A (zh) 2020-12-30 2020-12-30 一种基于跨模态协同推理的图像美学质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011609604.8A CN112580636A (zh) 2020-12-30 2020-12-30 一种基于跨模态协同推理的图像美学质量评价方法

Publications (1)

Publication Number Publication Date
CN112580636A true CN112580636A (zh) 2021-03-30

Family

ID=75144439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011609604.8A Pending CN112580636A (zh) 2020-12-30 2020-12-30 一种基于跨模态协同推理的图像美学质量评价方法

Country Status (1)

Country Link
CN (1) CN112580636A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326287A (zh) * 2021-08-04 2021-08-31 山东大学 一种使用三步策略的在线跨模态检索方法及系统
CN113657380A (zh) * 2021-08-17 2021-11-16 福州大学 融合多模态注意力机制的图像美学质量评价方法
CN114022788A (zh) * 2022-01-05 2022-02-08 长沙理工大学 遥感图像变化检测方法、装置、计算机设备和存储介质
CN114494130A (zh) * 2021-12-24 2022-05-13 吉林建筑大学 一种基于最优模型评价准则的产品美学评价体系
CN115601772A (zh) * 2022-12-15 2023-01-13 南京邮电大学(Cn) 一种基于多模态学习的美学质量评价模型和方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326287A (zh) * 2021-08-04 2021-08-31 山东大学 一种使用三步策略的在线跨模态检索方法及系统
CN113326287B (zh) * 2021-08-04 2021-11-02 山东大学 一种使用三步策略的在线跨模态检索方法及系统
CN113657380A (zh) * 2021-08-17 2021-11-16 福州大学 融合多模态注意力机制的图像美学质量评价方法
CN113657380B (zh) * 2021-08-17 2023-08-18 福州大学 融合多模态注意力机制的图像美学质量评价方法
CN114494130A (zh) * 2021-12-24 2022-05-13 吉林建筑大学 一种基于最优模型评价准则的产品美学评价体系
CN114022788A (zh) * 2022-01-05 2022-02-08 长沙理工大学 遥感图像变化检测方法、装置、计算机设备和存储介质
CN114022788B (zh) * 2022-01-05 2022-03-04 长沙理工大学 遥感图像变化检测方法、装置、计算机设备和存储介质
CN115601772A (zh) * 2022-12-15 2023-01-13 南京邮电大学(Cn) 一种基于多模态学习的美学质量评价模型和方法

Similar Documents

Publication Publication Date Title
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
CN110956185B (zh) 一种图像显著目标的检测方法
CN112580636A (zh) 一种基于跨模态协同推理的图像美学质量评价方法
CN111488474B (zh) 基于增强注意力的细粒度手绘草图图像检索方法
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
Sarkhel et al. A multi-objective approach towards cost effective isolated handwritten Bangla character and digit recognition
CN110276316B (zh) 一种基于深度学习的人体关键点检测方法
Xu et al. Vision transformer: An excellent teacher for guiding small networks in remote sensing image scene classification
EP3757905A1 (en) Deep neural network training method and apparatus
CN111259906B (zh) 含多级通道注意力的条件生成对抗遥感图像目标分割方法
CN110046572A (zh) 一种基于深度学习的地标建筑物识别与检测方法
CN108052966A (zh) 基于卷积神经网络的遥感图像场景自动提取和分类方法
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN108629367A (zh) 一种基于深度网络增强服装属性识别精度的方法
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN112149547A (zh) 基于图像金字塔引导和像素对匹配的遥感影像水体识别
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
CN112949647A (zh) 三维场景描述方法、装置、电子设备和存储介质
CN110826609A (zh) 一种基于强化学习的双流特征融合图像识别方法
CN113947161A (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN109919114A (zh) 一种基于互补注意力机制循环卷积解码的视频描述方法
CN112488055A (zh) 一种基于渐进图注意力网络的视频问答方法
CN116912708A (zh) 一种基于深度学习的遥感影像建筑物提取方法
CN103136309B (zh) 通过基于核的学习对社交强度进行建模

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination