CN113689514B - 一种面向主题的图像场景图生成方法 - Google Patents

一种面向主题的图像场景图生成方法 Download PDF

Info

Publication number
CN113689514B
CN113689514B CN202110726055.0A CN202110726055A CN113689514B CN 113689514 B CN113689514 B CN 113689514B CN 202110726055 A CN202110726055 A CN 202110726055A CN 113689514 B CN113689514 B CN 113689514B
Authority
CN
China
Prior art keywords
image
theme
scene graph
topic
saliency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110726055.0A
Other languages
English (en)
Other versions
CN113689514A (zh
Inventor
张旻
陈景翔
姜明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110726055.0A priority Critical patent/CN113689514B/zh
Publication of CN113689514A publication Critical patent/CN113689514A/zh
Application granted granted Critical
Publication of CN113689514B publication Critical patent/CN113689514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向主题的图像场景图生成方法。本发明首先使用LDA概率主题模型,提取文本的主题概率分布以及主题的词汇分布,构建图像主题数据集。然后利用图像主题数据集,预训练得到图像主题预测模型。其次,模型对图像进行目标检测,并融合全局特征、目标特征、类别特征以及主题特征得到关系特征,对检测的目标预测其属性以及目标间的关系,训练得到场景图生成模型。使用U‑2‑Net对图像进行显著性检测,并利用检测结果得到图像中各像素点的显著值,通过显著值得到图像的显著性区域。结合显著性区域以及生成的图像场景图,根据定义规则最终生成面向主题的图像场景图。本发明解决了现有场景图中存在主题无关目标的问题。

Description

一种面向主题的图像场景图生成方法
技术领域
本文发明涉及场景图生成方法,具体来讲是一种面向主题的图像场景图生成方法,属于场景图生成技术领域。
背景技术
随着场景图生成相关任务被明确定义以及用于研究视觉关系的大规模图像数据集的提出,研究者对场景图生成领域的关注也日益增长。场景图包含了图像或者文本的结构化语义信息,其中包括目标、属性以及成对的关系,这些信息对于视觉任务而言可以提供丰富的先验知识。具体的应用包括了图像描述生成,视觉问答,图像检索和图像生成。
大部分的场景图生成模型,并不能根据图像的主题针对性地生成场景图,而是对图像中的所有目标构建关系,生成图像场景图。因此,场景图中可能包含主题相关性较弱的目标,也可能缺少部分主题相关性较强的目标。当下游任务例如图像描述生成接收场景图作为输入时,生成的描述可能不能准确表达图像的中心思想。当人第一眼看到图像时,会根据先验知识迅速地提炼出图像的主题,针对主题聚焦于图像的主要目标构建场景图。受此启发,本文提出了面向主题的场景图生成方法,利用图像主题与显著性检测模拟该过程,将模型聚焦于图像的主要目标,生成面向主题的场景图。
发明内容
本发明的目的是针对现有技术的不足,提供一种面向主题的场景图生成方法,以解决传统的场景图生成方法无法针对图像的主题,生成符合图像主题的场景图的问题。
为了解决这些问题,本发明在传统的场景图生成方法的基础上,结合图像主题以及显著性检测,提出了一种面向主题的场景图生成方法。具体来说,首先使用LDA概率主题模型,提取文本的主题概率分布以及主题的词汇分布,构建图像主题数据集。然后利用图像主题数据集,预训练图像主题预测模型。其次,模型结合图像主题,对图像进行目标检测,并融合全局特征、目标特征、类别特征以及主题特征得到关系特征,对检测的目标(obj)预测其属性(attr)以及目标间的关系(rel),训练得到场景图生成模型。然后,使用显著性检测方法U-2-Net对图像进行显著性检测,并利用显著性检测的结果得到图像中各像素点的显著值,通过分析图像的显著值,得到图像的显著性区域。结合显著性区域以及生成的图像场景图,根据自定义规则,保留场景图中反映图像中心思想的目标以及关系,最终生成面向主题的图像场景图。
本发明有益效果如下:
本发明针对图像的主题保留目标,生成图像场景图,解决了现有场景图中存在主题无关目标的问题。
本发明将主题向量融入关系特征中,为关系预测高层语义特征,使场景图的目标与关系预测更为准确。
本发明提出的方法是一种测试方法,可以广泛应用于基于场景图的下游任务。
附图说明
图1是本发明的整体实施方案流程图;
图2是本发明的图像主题预测模型示意图;
图3是本发明的融合图像主题的场景图生成示意图;
图4是本发明的显著性区域生成示意图;
图5是本发明的面向主题的场景图生成示意图;
图6是本发明的整体结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1是本发明的整体实施方案流程图,一种面向主题的图像场景图生成方法,包括以下步骤:
步骤(1)使用LDA概率主题模型,提取文本的主题概率分布以及主题的词汇分布,构建图像主题数据集。利用图像主题数据集,预训练图像主题预测模型;
步骤(2)结合图像主题,对图像进行目标检测,得到目标特征X和全局特征V,并融合全局特征V、目标特征X、类别特征Z以及主题特征T得到关系特征Y,对检测的目标(obj)预测其属性(attr)以及目标间的关系(rel),生成图像场景图;
步骤(3)对图像场景图生成模型进行训练,挑选最优训练模型。将图片输入训练好的图像场景图生成模型,输出对应的图像场景图;
步骤(4)使用显著性检测方法U^2-Net对图像进行显著性检测,并利用显著性检测的结果得到图像中各像素点的显著值,通过分析图像的显著值,得到图像的显著性区域;
步骤(5)结合显著性区域以及生成的图像场景图,根据定义规则,保留场景图中反映图像中心思想的目标以及关系,最终生成面向主题的图像场景图。
进一步的,步骤(1)所述具体实现过程如下:
2-1使用MSCOCO数据集中的文本描述,利用LDA概率主题模型,提取所有描述的主题概率分布以及主题的词汇分布。假设文本中蕴含K个主题,文本描述的主题概率分布其中zi,k表示第i段文本描述关于第k个主题的概率。
2-2得到主题概率分布后,由于一张图像对应多段描述,等同于对应多个主题分布,因此将主题分布表示为同一张图像所有主题分布的平均值Φ,得到图像主题数据集,
其中,表示第i段文本描述的主题概率分布,N表示文本描述的数量。
2-3利用图像主题数据集,训练CNN网络来完成图像主题的预测,得到图像主题预测模型Topic Extractor。测试时图像作为输入,结果取主题概率最大的主题作为最终的图像主题。
进一步的,步骤(2)具体实现过程如图3所示:
3-1使用基于ResNet101预训练的Faster R-CNN目标检测模型对图像I进行目标检测,得到目标的一系列检测框B={bi|i=1,...,n},以及全局特征图V,如公式(1)所示。每个目标输入基于ResNet的网络中得到的目标特征X={xi|i=i,...,n},如公式(2)所示。
V,B=Faster RCNN(I) (1)
X=ResNet(B) (2)
3-2根据目标特征X预测出每个目标的类别特征Z={zi|i=1,..,n},zi∈Rd。其中,zi表示最终预测的类别,d表示预测类别的总数。如公式(3)所示。
其中,Wz是类别特征Z的特征权重。
3-3使用预训练的图像主题预测模型Topic Extractor对图像I进行主题抽取,得到主题特征T,如公式(4)所示。
T=TopicExtracor(I) (4)
3-4融合四个分支的特征,包括全局特征V、目标特征X、类别特征Z以及主题特征T,共同预测关系类别Y,如公式(5)所示。采用两种通用的融合方式SUM和GATE,如公式(6)和公式(7)所示。
Y=SoftMax(f(x`e,v`e,z`e,t`e)) (5)
SUM:ye=Wxxe+Wvve+Wtte+ze (6)
GATE:ye=Wrxe·σ(Wxx`e+Wvv`e+Wtt`e+ze) (7)
其中,x`e,v`e,z`e,t`e分别是目标特征,全局特征,类别特征和主题特征的嵌入向量,f是融合函数,Wr,Wx,Wv,Wt分别是xe,x`e,v`e,t`e,的特征权重。
进一步的,步骤(4)具体实现过程如图4所示:
4-1进行端到端的训练,训练过程中Faster R-CNN固定参数且不参与训练,epoch设置为50,batch size为8,使用SGD优化器渐进式的调整学习率,学习率为8e-5,模型分别在第30和第40次迭代时学习率衰减10倍。利用标准的交叉熵损失来训练模型,如公式(8)所示。
其中,N为数据集中图像总数,M为预测类别数,c表示每一个类别,yc为预测的类别,pc为预测类别的概率,θ为模型参数。
4-2将测试图像输入到模型中,获得图像场景图。
进一步的,步骤(5)具体实现过程如图5所示:
5-1使用在Salient()bjects Dataset数据集上预训练U^2-Net显著性检测模型对图像I进行显著性检测。U^2-Net能够得到各像素点反映显著程度的显著值p,所有显著值的集合为P={p1,p2,p3,...,pn},构成原始图像的灰度图,如公式(9)所示。
P=U2 Net(I) (9)
5-2得到图像各像素的显著值后,为了得到显著性区域,计算所有显著值的平均值pmean,如公式(10)所示。然后遍历图像I,记录第一个横坐标xstart、第一个纵坐标ystart、最后一个横坐标xlast以及最后一个纵坐标ylast大于像素平均值的位置。
5-3将步骤5-2得到的4个下标组合,得到最终的图像显著性区域SA=[(xstart,ystart),(xlast,ylast)]。
进一步的,步骤(6)具体实现过程如下:
6-1结合生成的场景图,使用软非极大抑制算法Soft-NMS减少场景图中重叠的目标检测框。对场景图中的所有目标检测框按照得分从高到低进行排序,选中置信度最高的检测框M,过滤其余与M的重叠程度大于重叠阈值ηnms的检测框,不断迭代该过程,直至所有检测框被选中。
6-2结合显著性区域SA,将步骤6-1保留下的场景图进一步进行筛选,如公式(11)所示,仅保留场景图中所有在显著区域内的目标。
其中o为保留的目标,检测框的左上角与右下角坐标分别为{(xstart,ystart),(xlast,ylast},b为偏置量。
6-3使用定义规则,进一步筛选目标与关系,如图6所示。
定义规则分为三种情况:
(1)目标类别中存在人,且目标数量小于等于2,则将每个人与一个物建立关系,最终将两个人建立关系。需要注意的是,其余目标与关系均被剔除。
(2)类别中存在人,且目标数量大于2,同样地将每个人与一个物建立关系,但是最后将所有人替换为相同结点,与其他目标保持关系。
(3)不存在类别为人的目标,保持目标的关系不变。
6-4构建最终保留下的目标与关系作为面向主题的场景图。

Claims (7)

1.一种面向主题的场景图生成方法,其特征在于包括以下步骤:
步骤(1)使用LDA概率主题模型,提取文本的主题概率分布以及主题的词汇分布,构建图像主题数据集;利用图像主题数据集,预训练图像主题预测模型;
步骤(2)结合图像主题,对图像进行目标检测,得到目标特征X和全局特征V,并融合全局特征V、目标特征X、类别特征Z以及主题特征T得到关系特征Y,对检测的目标obj预测其属性attr以及目标间的关系rel,生成图像场景图;
步骤(3)对图像场景图生成模型进行训练,挑选最优训练模型;将图片输入训练好的图像场景图生成模型,输出对应的图像场景图;
步骤(4)使用显著性检测方法U^2-Net对图像进行显著性检测,并利用显著性检测的结果得到图像中各像素点的显著值,通过分析图像的显著值,得到图像的显著性区域;
步骤(5)结合显著性区域以及生成的图像场景图,根据定义规则,保留场景图中反映图像中心思想的目标以及关系,最终生成面向主题的图像场景图。
2.根据权利要求1所述的一种面向主题的场景图生成方法,其特征在于步骤(1)具体实现过程如下:
2-1使用MSCOCO数据集中的文本描述,利用LDA概率主题模型,提取所有描述的主题概率分布以及主题的词汇分布;假设文本中蕴含K个主题,文本描述的主题概率分布其中zi,k表示第i段文本描述关于第k个主题的概率;
2-2得到主题概率分布后,由于一张图像对应多段描述,等同于对应多个主题分布,因此将主题分布表示为同一张图像所有主题分布的平均值Φ,得到图像主题数据集,
其中,表示第i段文本描述的主题概率分布,N表示文本描述的数量;
2-3利用图像主题数据集,训练CNN网络来完成图像主题的预测,得到图像主题预测模型Topic Extractor;测试时图像作为输入,结果取主题概率最大的主题作为最终的图像主题。
3.根据权利要求2所述的一种面向主题的场景图生成方法,其特征在于步骤(2)具体实现如下:
3-1使用基于ResNet101预训练的Faster R-CNN目标检测模型对图像I进行目标检测,得到目标的一系列检测框B={bi|i=1,…,n},以及全局特征图V,如公式(1)所示;每个目标输入基于ResNet的网络中得到的目标特征X={xi|i=i,…,n},如公式(2)所示;
V,B=Faster RCNN(I) (1)
X=ResNet(B) (2)
3-2根据目标特征X预测出每个目标的类别特征Z={zi|i=1,..,n},zi∈Rd;其中,zi表示最终预测的类别,d表示预测类别的总数;如公式(3)所示;
其中,Wz是类别特征Z的特征权重;
3-3使用预训练的图像主题预测模型Topic Extractor对图像I进行主题抽取,得到主题特征T,如公式(4)所示;
T=TopicExtracor(I) (4)
3-4融合四个分支的特征,包括全局特征V、目标特征X、类别特征Z以及主题特征T,共同预测关系类别Y,如公式(5)所示;采用两种通用的融合方式SUM和GATE,如公式(6)和公式(7)所示;
Y=SoftMax(f(x`e,v`e,z`e,t`e)) (5)
SUM:ye=Wxx`e+Wvv`e+Wtt`e+ze (6)
GATE:ye=Wrxe·σ(Wxx`e+Wvv`e+Wtt`e+ze) (7)
其中,x`e,v`e,z`e,t`e分别是目标特征,全局特征,类别特征和主题特征的嵌入向量,f是融合函数,Wr,Wx,Wv,Wt分别是xe,x`e,v`e,t`e的特征权重。
4.根据权利要求3所述的一种面向主题的场景图生成方法,其特征在于步骤(4)具体实现过程如下:
4-1进行端到端的训练,训练过程中Faster R-CNN固定参数且不参与训练,epoch设置为50,batch size为8,使用SGD优化器渐进式的调整学习率,学习率为8e-5,模型分别在第30和第40次迭代时学习率衰减10倍;利用标准的交叉熵损失来训练模型,如公式(8)所示;
其中,N为数据集中图像总数,M为预测类别数,c表示每一个类别,yc为预测的类别,pc为预测类别的概率,θ为模型参数;
4-2将测试图像输入到模型中,获得图像场景图。
5.根据权利要求4所述的一种面向主题的场景图生成方法,其特征在于步骤(5)具体实现过程如下:
5-1使用在Salient Objects Dataset数据集上预训练U^2-Net显著性检测模型对图像I进行显著性检测;U^2-Net能够得到各像素点反映显著程度的显著值p,所有显著值的集合为P={p1,p2,p3,…,pn},构成原始图像的灰度图,如公式(9)所示;
P=U2Net(I) (9)
5-2得到图像各像素的显著值后,为了得到显著性区域,计算所有显著值的平均值pmean,如公式(10)所示;然后遍历图像I,记录第一个横坐标xstart、第一个纵坐标ystart、最后一个横坐标xlast以及最后一个纵坐标ylast大于像素平均值的位置;
5-3将步骤5-2得到的4个下标组合,得到最终的图像显著性区域SA=[(xstart,ystart),(xlast,ylast)]。
6.根据权利要求5所述的一种面向主题的场景图生成方法,其特征在于步骤(6)具体实现过程如下:
6-1结合生成的场景图,使用软非极大抑制算法Soft-NMS减少场景图中重叠的目标检测框;对场景图中的所有目标检测框按照得分从高到低进行排序,选中置信度最高的检测框M,过滤其余与M的重叠程度大于重叠阈值ηnms的检测框,不断迭代该过程,直至所有检测框被选中;
6-2结合显著性区域SA,将步骤6-1保留下的场景图进一步进行筛选,如公式(11)所示,仅保留场景图中所有在显著区域内的目标;
其中o为保留的目标,检测框的左上角与右下角坐标分别为{(xstart,ystart),(xlast,ylast},b为偏置量;
6-3使用定义规则,进一步筛选目标与关系;
6-4构建最终保留下的目标与关系作为面向主题的场景图。
7.根据权利要求6所述的一种面向主题的场景图生成方法,其特征在于步骤6-3所述的定义规则分为三种情况:
(1)目标类别中存在人,且目标数量小于等于2,则将每个人与一个物建立关系,最终将两个人建立关系;
(2)类别中存在人,且目标数量大于2,同样地将每个人与一个物建立关系,但是最后将所有人替换为相同结点,与其他目标保持关系;
(3)不存在类别为人的目标,保持目标的关系不变。
CN202110726055.0A 2021-06-29 2021-06-29 一种面向主题的图像场景图生成方法 Active CN113689514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110726055.0A CN113689514B (zh) 2021-06-29 2021-06-29 一种面向主题的图像场景图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110726055.0A CN113689514B (zh) 2021-06-29 2021-06-29 一种面向主题的图像场景图生成方法

Publications (2)

Publication Number Publication Date
CN113689514A CN113689514A (zh) 2021-11-23
CN113689514B true CN113689514B (zh) 2024-04-09

Family

ID=78576485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110726055.0A Active CN113689514B (zh) 2021-06-29 2021-06-29 一种面向主题的图像场景图生成方法

Country Status (1)

Country Link
CN (1) CN113689514B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708472B (zh) * 2022-06-06 2022-09-09 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN117974846B (zh) * 2024-04-02 2024-07-19 暗物智能科技(广州)有限公司 可控图像描述的生成方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN112989927A (zh) * 2021-02-03 2021-06-18 杭州电子科技大学 一种基于自监督预训练的场景图生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN112989927A (zh) * 2021-02-03 2021-06-18 杭州电子科技大学 一种基于自监督预训练的场景图生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于LDA主题模型的图像场景识别方法;任艺等;计算机工程与设计;第38卷(第2期);第506-510页 *
结合视觉特征和场景语义的图像描述生成;李志欣等;计算机学报;第43卷(第9期);第1624-1640页 *

Also Published As

Publication number Publication date
CN113689514A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN110377710B (zh) 一种基于多模态融合的视觉问答融合增强方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
JP2021518939A (ja) データ拡張方策の学習
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN111582397B (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
CN113689514B (zh) 一种面向主题的图像场景图生成方法
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN110889450B (zh) 超参数调优、模型构建方法和装置
Yuan et al. 3G structure for image caption generation
CN109214006A (zh) 图像增强的层次化语义表示的自然语言推理方法
CN109919252A (zh) 利用少数标注图像生成分类器的方法
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN111598183A (zh) 一种多特征融合图像描述方法
CN113283488B (zh) 一种基于学习行为的认知诊断方法及系统
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN114648681A (zh) 一种图像生成方法、装置、设备及介质
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN113420833B (zh) 一种基于问题语义映射的视觉问答方法及装置
CN113297387B (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
US20230121404A1 (en) Searching for normalization-activation layer architectures
Triwijoyo et al. Deep learning approach for sign language recognition
CN116541507A (zh) 一种基于动态语义图神经网络的视觉问答方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant