CN113689514A - 一种面向主题的图像场景图生成方法 - Google Patents

一种面向主题的图像场景图生成方法 Download PDF

Info

Publication number
CN113689514A
CN113689514A CN202110726055.0A CN202110726055A CN113689514A CN 113689514 A CN113689514 A CN 113689514A CN 202110726055 A CN202110726055 A CN 202110726055A CN 113689514 A CN113689514 A CN 113689514A
Authority
CN
China
Prior art keywords
image
theme
scene graph
target
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110726055.0A
Other languages
English (en)
Other versions
CN113689514B (zh
Inventor
张旻
陈景翔
姜明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110726055.0A priority Critical patent/CN113689514B/zh
Publication of CN113689514A publication Critical patent/CN113689514A/zh
Application granted granted Critical
Publication of CN113689514B publication Critical patent/CN113689514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向主题的图像场景图生成方法。本发明首先使用LDA概率主题模型,提取文本的主题概率分布以及主题的词汇分布,构建图像主题数据集。然后利用图像主题数据集,预训练得到图像主题预测模型。其次,模型对图像进行目标检测,并融合全局特征、目标特征、类别特征以及主题特征得到关系特征,对检测的目标预测其属性以及目标间的关系,训练得到场景图生成模型。使用U‑2‑Net对图像进行显著性检测,并利用检测结果得到图像中各像素点的显著值,通过显著值得到图像的显著性区域。结合显著性区域以及生成的图像场景图,根据定义规则最终生成面向主题的图像场景图。本发明解决了现有场景图中存在主题无关目标的问题。

Description

一种面向主题的图像场景图生成方法
技术领域
本文发明涉及场景图生成方法,具体来讲是一种面向主题的图像场景图生成方法,属于场景图生成技术领域。
背景技术
随着场景图生成相关任务被明确定义以及用于研究视觉关系的大规模图像数据集的提出,研究者对场景图生成领域的关注也日益增长。场景图包含了图像或者文本的结构化语义信息,其中包括目标、属性以及成对的关系,这些信息对于视觉任务而言可以提供丰富的先验知识。具体的应用包括了图像描述生成,视觉问答,图像检索和图像生成。
大部分的场景图生成模型,并不能根据图像的主题针对性地生成场景图,而是对图像中的所有目标构建关系,生成图像场景图。因此,场景图中可能包含主题相关性较弱的目标,也可能缺少部分主题相关性较强的目标。当下游任务例如图像描述生成接收场景图作为输入时,生成的描述可能不能准确表达图像的中心思想。当人第一眼看到图像时,会根据先验知识迅速地提炼出图像的主题,针对主题聚焦于图像的主要目标构建场景图。受此启发,本文提出了面向主题的场景图生成方法,利用图像主题与显著性检测模拟该过程,将模型聚焦于图像的主要目标,生成面向主题的场景图。
发明内容
本发明的目的是针对现有技术的不足,提供一种面向主题的场景图生成方法,以解决传统的场景图生成方法无法针对图像的主题,生成符合图像主题的场景图的问题。
为了解决这些问题,本发明在传统的场景图生成方法的基础上,结合图像主题以及显著性检测,提出了一种面向主题的场景图生成方法。具体来说,首先使用LDA概率主题模型,提取文本的主题概率分布以及主题的词汇分布,构建图像主题数据集。然后利用图像主题数据集,预训练图像主题预测模型。其次,模型结合图像主题,对图像进行目标检测,并融合全局特征、目标特征、类别特征以及主题特征得到关系特征,对检测的目标(obj)预测其属性(attr)以及目标间的关系(rel),训练得到场景图生成模型。然后,使用显著性检测方法U-2-Net对图像进行显著性检测,并利用显著性检测的结果得到图像中各像素点的显著值,通过分析图像的显著值,得到图像的显著性区域。结合显著性区域以及生成的图像场景图,根据自定义规则,保留场景图中反映图像中心思想的目标以及关系,最终生成面向主题的图像场景图。
本发明有益效果如下:
本发明针对图像的主题保留目标,生成图像场景图,解决了现有场景图中存在主题无关目标的问题。
本发明将主题向量融入关系特征中,为关系预测高层语义特征,使场景图的目标与关系预测更为准确。
本发明提出的方法是一种测试方法,可以广泛应用于基于场景图的下游任务。
附图说明
图1是本发明的整体实施方案流程图
图2是本发明的图像主题预测模型示意图
图3是本发明的融合图像主题的场景图生成示意图
图4是本发明的显著性区域生成示意图
图5是本发明的面向主题的场景图生成示意图
图6是本发明的整体结构示意图
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1是本发明的整体实施方案流程图,一种面向主题的图像场景图生成方法,包括以下步骤:
步骤(1)使用LDA概率主题模型,提取文本的主题概率分布以及主题的词汇分布,构建图像主题数据集。利用图像主题数据集,预训练图像主题预测模型;
步骤(2)结合图像主题,对图像进行目标检测,得到目标特征X和全局特征V,并融合全局特征V、目标特征X、类别特征Z以及主题特征T得到关系特征Y,对检测的目标(obj)预测其属性(attr)以及目标间的关系(rel),生成图像场景图;
步骤(3)对图像场景图生成模型进行训练,挑选最优训练模型。将图片输入训练好的图像场景图生成模型,输出对应的图像场景图;
步骤(4)使用显著性检测方法U-2-Net对图像进行显著性检测,并利用显著性检测的结果得到图像中各像素点的显著值,通过分析图像的显著值,得到图像的显著性区域;
步骤(5)结合显著性区域以及生成的图像场景图,根据定义规则,保留场景图中反映图像中心思想的目标以及关系,最终生成面向主题的图像场景图。
进一步的,步骤(1)所述具体实现过程如下:
2-1使用MSCOCO数据集中的文本描述,利用LDA概率主题模型,提取所有描述的主题概率分布以及主题的词汇分布。假设文本中蕴含K个主题,文本描述的主题概率分布
Figure BDA0003138680620000031
其中zi,k表示第i段文本描述关于第k个主题的概率。
2-2得到主题概率分布
Figure BDA0003138680620000032
后,由于一张图像对应多段描述,等同于对应多个主题分布,因此将主题分布表示为同一张图像所有主题分布的平均值Φ,得到图像主题数据集,
Figure BDA0003138680620000033
其中,
Figure BDA0003138680620000034
表示第i段文本描述的主题概率分布,N表示文本描述的数量。
2-3利用图像主题数据集,训练CNN网络来完成图像主题的预测,得到图像主题预测模型Topic Extractor。测试时图像作为输入,结果取主题概率最大的主题作为最终的图像主题。
进一步的,步骤(2)具体实现过程如图3所示:
3-1使用基于ResNet101预训练的Faster R-CNN目标检测模型对图像I进行目标检测,得到目标的一系列检测框B={bi|i=1,…,n},以及全局特征图V,如公式(1)所示。每个目标输入基于ResNet的网络中得到的目标特征X={xi|i=i,…,n},如公式(2)所示。
V,B=FasterRCNN(I)#(1)
X=ResNet(B)#(2)
3-2根据目标特征X预测出每个目标的类别特征Z={zi|i=1,..,n},zi∈Rd。其中,zi表示最终预测的类别,d表示预测类别的总数。如公式(3)所示。
Z=SoftMax(WzοX)#(3)
其中,Wz是类别特征Z的特征权重。
3-3使用预训练的图像主题预测模型Topic Extractor对图像I进行主题抽取,得到主题特征T,如公式(4)所示。
T=TopicExtracor(I)#(4)
3-4融合四个分支的特征,包括全局特征V、目标特征X、类别特征Z以及主题特征T,共同预测关系类别Y,如公式(5)所示。采用两种通用的融合方式SUM和GATE,如公式(6)和公式(7)所示。
Figure BDA0003138680620000041
Figure BDA0003138680620000042
Figure BDA0003138680620000043
其中,
Figure BDA0003138680620000044
分别是目标特征,全局特征,类别特征和主题特征的嵌入向量,f是融合函数,Wr,Wx,Wv,Wt分别是xe,
Figure BDA0003138680620000045
的特征权重。
进一步的,步骤(4)具体实现过程如图4所示:
4-1进行端到端的训练,训练过程中Faster R-CNN固定参数且不参与训练,epoch设置为50,batch size为8,使用SGD优化器渐进式的调整学习率,学习率为8e-5,模型分别在第30和第40次迭代时学习率衰减10倍。利用标准的交叉熵损失来训练模型,如公式(8)所示。
Figure BDA0003138680620000051
其中,N为数据集中图像总数,M为预测类别数,c表示每一个类别,yc为预测的类别,pc为预测类别的概率,θ为模型参数。
4-2将测试图像输入到模型中,获得图像场景图。
进一步的,步骤(5)具体实现过程如图5所示:
5-1使用在Salient Objects Dataset数据集上预训练U^2-Net显著性检测模型对图像I进行显著性检测。U^2-Net能够得到各像素点反映显著程度的显著值p,所有显著值的集合为P={p1,p2,p3,…,pn},构成原始图像的灰度图,如公式(9)所示。
P=U2Net(I)#(9)
5-2得到图像各像素的显著值后,为了得到显著性区域,计算所有显著值的平均值pmean,如公式(10)所示。然后遍历图像I,记录第一个横坐标xstart、第一个纵坐标ystart、最后一个横坐标xlast以及最后一个纵坐标ylast大于像素平均值的位置。
Figure BDA0003138680620000052
5-3将步骤5-2得到的4个下标组合,得到最终的图像显著性区域SA=[(xstart,ystart),(xlast,ylast)]。
进一步的,步骤(6)具体实现过程如下:
6-1结合生成的场景图,使用软非极大抑制算法Soft-NMS减少场景图中重叠的目标检测框。对场景图中的所有目标检测框按照得分从高到低进行排序,选中置信度最高的检测框M,过滤其余与M的重叠程度大于重叠阈值ηnms的检测框,不断迭代该过程,直至所有检测框被选中。
6-2结合显著性区域SA,将步骤6-1保留下的场景图进一步进行筛选,如公式(11)所示,仅保留场景图中所有在显著区域内的目标。
Figure BDA0003138680620000053
其中o为保留的目标,检测框的左上角与右下角坐标分别为{(xstart,ystart),(xlast,ylast},b为偏置量。
6-3使用定义规则,进一步筛选目标与关系,如图6所示。
定义规则分为三种情况:
(1)目标类别中存在人,且目标数量小于等于2,则将每个人与一个物建立关系,最终将两个人建立关系。需要注意的是,其余目标与关系均被剔除。
(2)类别中存在人,且目标数量大于2,同样地将每个人与一个物建立关系,但是最后将所有人替换为相同结点,与其他目标保持关系。
(3)不存在类别为人的目标,保持目标的关系不变。
6-4构建最终保留下的目标与关系作为面向主题的场景图。

Claims (7)

1.一种面向主题的场景图生成方法,其特征在于包括以下步骤:
步骤(1)使用LDA概率主题模型,提取文本的主题概率分布以及主题的词汇分布,构建图像主题数据集;利用图像主题数据集,预训练图像主题预测模型;
步骤(2)结合图像主题,对图像进行目标检测,得到目标特征X和全局特征V,并融合全局特征V、目标特征X、类别特征Z以及主题特征T得到关系特征Y,对检测的目标(obj)预测其属性(attr)以及目标间的关系(rel),生成图像场景图;
步骤(3)对图像场景图生成模型进行训练,挑选最优训练模型;将图片输入训练好的图像场景图生成模型,输出对应的图像场景图;
步骤(4)使用显著性检测方法U-2-Net对图像进行显著性检测,并利用显著性检测的结果得到图像中各像素点的显著值,通过分析图像的显著值,得到图像的显著性区域;
步骤(5)结合显著性区域以及生成的图像场景图,根据定义规则,保留场景图中反映图像中心思想的目标以及关系,最终生成面向主题的图像场景图。
2.根据权利要求1所述的一种面向主题的场景图生成方法,其特征在于步骤(1)所述具体实现过程如下:
2-1使用MSCOCO数据集中的文本描述,利用LDA概率主题模型,提取所有描述的主题概率分布以及主题的词汇分布;假设文本中蕴含K个主题,文本描述的主题概率分布
Figure FDA0003138680610000011
其中zi,k表示第i段文本描述关于第k个主题的概率;
2-2得到主题概率分布
Figure FDA0003138680610000012
后,由于一张图像对应多段描述,等同于对应多个主题分布,因此将主题分布表示为同一张图像所有主题分布的平均值Φ,得到图像主题数据集,
Figure FDA0003138680610000013
其中,
Figure FDA0003138680610000014
表示第i段文本描述的主题概率分布,N表示文本描述的数量;
2-3利用图像主题数据集,训练CNN网络来完成图像主题的预测,得到图像主题预测模型Topic Extractor;测试时图像作为输入,结果取主题概率最大的主题作为最终的图像主题。
3.根据权利要求2所述的一种面向主题的场景图生成方法,其特征在于步骤(2)具体实现如下:
3-1使用基于ResNet101预训练的Faster R-CNN目标检测模型对图像I进行目标检测,得到目标的一系列检测框B={bi|i=1,…,n},以及全局特征图V,如公式(1)所示;每个目标输入基于ResNet的网络中得到的目标特征X={xi|i=i,…,n},如公式(2)所示;
V,B=FasterRCNN(I)#(1)
X=ResNet(B)#(2)
3-2根据目标特征X预测出每个目标的类别特征Z={zi|i=1,..,n},zi∈Rd;其中,zi表示最终预测的类别,d表示预测类别的总数;如公式(3)所示;
Figure FDA0003138680610000021
其中,Wz是类别特征Z的特征权重;
3-3使用预训练的图像主题预测模型Topic Extractor对图像I进行主题抽取,得到主题特征T,如公式(4)所示;
T=TopicExtracor(I)#(4)
3-4融合四个分支的特征,包括全局特征V、目标特征X、类别特征Z以及主题特征T,共同预测关系类别Y,如公式(5)所示;采用两种通用的融合方式SUM和GATE,如公式(6)和公式(7)所示;
Figure FDA0003138680610000022
Figure FDA0003138680610000023
Figure FDA0003138680610000024
其中,x`e,v`e,z`e,t`e分别是目标特征,全局特征,类别特征和主题特征的嵌入向量,f是融合函数,Wr,Wx,Wv,Wt分别是xe,x`e,v`e,z`e,的特征权重。
4.根据权利要求3所述的一种面向主题的场景图生成方法,其特征在于步骤(4)具体实现过程如下:
4-1进行端到端的训练,训练过程中Faster R-CNN固定参数且不参与训练,epoch设置为50,batch size为8,使用SGD优化器渐进式的调整学习率,学习率为8e-5,模型分别在第30和第40次迭代时学习率衰减10倍;利用标准的交叉熵损失来训练模型,如公式(8)所示;
Figure FDA0003138680610000031
其中,N为数据集中图像总数,M为预测类别数,c表示每一个类别,yc为预测的类别,pc为预测类别的概率,θ为模型参数;
4-2将测试图像输入到模型中,获得图像场景图。
5.根据权利要求4所述的一种面向主题的场景图生成方法,其特征在于步骤(5)具体实现过程如下:
5-1使用在Salient Objects Dataset数据集上预训练U^2-Net显著性检测模型对图像I进行显著性检测;U^2-Net能够得到各像素点反映显著程度的显著值p,所有显著值的集合为P={p1,p2,p3,…,pn},构成原始图像的灰度图,如公式(9)所示;
P=U2Net(I)#(9)
5-2得到图像各像素的显著值后,为了得到显著性区域,计算所有显著值的平均值pmean,如公式(10)所示;然后遍历图像I,记录第一个横坐标xstart、第一个纵坐标ystart、最后一个横坐标xlast以及最后一个纵坐标ylast大于像素平均值的位置;
Figure FDA0003138680610000032
5-3将步骤5-2得到的4个下标组合,得到最终的图像显著性区域SA=[(xstart,ystart),(xlast,ylast)]。
6.根据权利要求5所述的一种面向主题的场景图生成方法,其特征在于步骤(6)具体实现过程如下:
6-1结合生成的场景图,使用软非极大抑制算法Soft-NMS减少场景图中重叠的目标检测框;对场景图中的所有目标检测框按照得分从高到低进行排序,选中置信度最高的检测框M,过滤其余与M的重叠程度大于重叠阈值ηnms的检测框,不断迭代该过程,直至所有检测框被选中;
6-2结合显著性区域SA,将步骤6-1保留下的场景图进一步进行筛选,如公式(11)所示,仅保留场景图中所有在显著区域内的目标;
Figure FDA0003138680610000041
其中o为保留的目标,检测框的左上角与右下角坐标分别为{(xstart,ystart),(xlast,ylast},b为偏置量;
6-3使用定义规则,进一步筛选目标与关系;
6-4构建最终保留下的目标与关系作为面向主题的场景图。
7.根据权利要求6所述的一种面向主题的场景图生成方法,其特征在于步骤6-3所述的定义规则分为三种情况:
(1)目标类别中存在人,且目标数量小于等于2,则将每个人与一个物建立关系,最终将两个人建立关系;
(2)类别中存在人,且目标数量大于2,同样地将每个人与一个物建立关系,但是最后将所有人替换为相同结点,与其他目标保持关系;
(3)不存在类别为人的目标,保持目标的关系不变。
CN202110726055.0A 2021-06-29 2021-06-29 一种面向主题的图像场景图生成方法 Active CN113689514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110726055.0A CN113689514B (zh) 2021-06-29 2021-06-29 一种面向主题的图像场景图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110726055.0A CN113689514B (zh) 2021-06-29 2021-06-29 一种面向主题的图像场景图生成方法

Publications (2)

Publication Number Publication Date
CN113689514A true CN113689514A (zh) 2021-11-23
CN113689514B CN113689514B (zh) 2024-04-09

Family

ID=78576485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110726055.0A Active CN113689514B (zh) 2021-06-29 2021-06-29 一种面向主题的图像场景图生成方法

Country Status (1)

Country Link
CN (1) CN113689514B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708472A (zh) * 2022-06-06 2022-07-05 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN112989927A (zh) * 2021-02-03 2021-06-18 杭州电子科技大学 一种基于自监督预训练的场景图生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN112989927A (zh) * 2021-02-03 2021-06-18 杭州电子科技大学 一种基于自监督预训练的场景图生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
任艺等: "基于LDA主题模型的图像场景识别方法", 计算机工程与设计, vol. 38, no. 2, pages 506 - 510 *
李志欣等: "结合视觉特征和场景语义的图像描述生成", 计算机学报, vol. 43, no. 9, pages 1624 - 1640 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708472A (zh) * 2022-06-06 2022-07-05 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN114708472B (zh) * 2022-06-06 2022-09-09 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备

Also Published As

Publication number Publication date
CN113689514B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN112035669B (zh) 基于传播异质图建模的社交媒体多模态谣言检测方法
CN108416065B (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN109583501B (zh) 图片分类、分类识别模型的生成方法、装置、设备及介质
CN107918782B (zh) 一种生成描述图像内容的自然语言的方法与系统
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN105975573B (zh) 一种基于knn的文本分类方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111079444A (zh) 一种基于多模态关系的网络谣言检测方法
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN111582397B (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
CN110889450B (zh) 超参数调优、模型构建方法和装置
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN112861945B (zh) 一种多模态融合谎言检测方法
CN115329779A (zh) 一种多人对话情感识别方法
CN112364168A (zh) 一种基于多属性信息融合的舆情分类方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN111008329A (zh) 基于内容分类的页面内容推荐方法及装置
CN110889505A (zh) 一种图文序列匹配的跨媒体综合推理方法和系统
CN113689514A (zh) 一种面向主题的图像场景图生成方法
CN113297387A (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN114663910A (zh) 基于多模态学习状态分析系统
CN114429460A (zh) 一种基于属性感知关系推理的通用图像美学评估方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant