CN113689514B

CN113689514B - 一种面向主题的图像场景图生成方法

Info

Publication number: CN113689514B
Application number: CN202110726055.0A
Authority: CN
Inventors: 张旻; 陈景翔; 姜明
Original assignee: Hangzhou Dianzi University
Current assignee: Huahangxin Aviation Technology Zhejiang Co ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2024-04-09
Anticipated expiration: 2041-06-29
Also published as: CN113689514A

Abstract

本发明公开了一种面向主题的图像场景图生成方法。本发明首先使用LDA概率主题模型，提取文本的主题概率分布以及主题的词汇分布，构建图像主题数据集。然后利用图像主题数据集，预训练得到图像主题预测模型。其次，模型对图像进行目标检测，并融合全局特征、目标特征、类别特征以及主题特征得到关系特征，对检测的目标预测其属性以及目标间的关系，训练得到场景图生成模型。使用U‑2‑Net对图像进行显著性检测，并利用检测结果得到图像中各像素点的显著值，通过显著值得到图像的显著性区域。结合显著性区域以及生成的图像场景图，根据定义规则最终生成面向主题的图像场景图。本发明解决了现有场景图中存在主题无关目标的问题。

Description

一种面向主题的图像场景图生成方法

技术领域

本文发明涉及场景图生成方法，具体来讲是一种面向主题的图像场景图生成方法，属于场景图生成技术领域。

背景技术

随着场景图生成相关任务被明确定义以及用于研究视觉关系的大规模图像数据集的提出，研究者对场景图生成领域的关注也日益增长。场景图包含了图像或者文本的结构化语义信息，其中包括目标、属性以及成对的关系，这些信息对于视觉任务而言可以提供丰富的先验知识。具体的应用包括了图像描述生成，视觉问答，图像检索和图像生成。

大部分的场景图生成模型，并不能根据图像的主题针对性地生成场景图，而是对图像中的所有目标构建关系，生成图像场景图。因此，场景图中可能包含主题相关性较弱的目标，也可能缺少部分主题相关性较强的目标。当下游任务例如图像描述生成接收场景图作为输入时，生成的描述可能不能准确表达图像的中心思想。当人第一眼看到图像时，会根据先验知识迅速地提炼出图像的主题，针对主题聚焦于图像的主要目标构建场景图。受此启发，本文提出了面向主题的场景图生成方法，利用图像主题与显著性检测模拟该过程，将模型聚焦于图像的主要目标，生成面向主题的场景图。

发明内容

本发明的目的是针对现有技术的不足，提供一种面向主题的场景图生成方法，以解决传统的场景图生成方法无法针对图像的主题，生成符合图像主题的场景图的问题。

为了解决这些问题，本发明在传统的场景图生成方法的基础上，结合图像主题以及显著性检测，提出了一种面向主题的场景图生成方法。具体来说，首先使用LDA概率主题模型，提取文本的主题概率分布以及主题的词汇分布，构建图像主题数据集。然后利用图像主题数据集，预训练图像主题预测模型。其次，模型结合图像主题，对图像进行目标检测，并融合全局特征、目标特征、类别特征以及主题特征得到关系特征，对检测的目标(obj)预测其属性(attr)以及目标间的关系(rel)，训练得到场景图生成模型。然后，使用显著性检测方法U-2-Net对图像进行显著性检测，并利用显著性检测的结果得到图像中各像素点的显著值，通过分析图像的显著值，得到图像的显著性区域。结合显著性区域以及生成的图像场景图，根据自定义规则，保留场景图中反映图像中心思想的目标以及关系，最终生成面向主题的图像场景图。

本发明有益效果如下：

本发明针对图像的主题保留目标，生成图像场景图，解决了现有场景图中存在主题无关目标的问题。

本发明将主题向量融入关系特征中，为关系预测高层语义特征，使场景图的目标与关系预测更为准确。

本发明提出的方法是一种测试方法，可以广泛应用于基于场景图的下游任务。

附图说明

图1是本发明的整体实施方案流程图；

图2是本发明的图像主题预测模型示意图；

图3是本发明的融合图像主题的场景图生成示意图；

图4是本发明的显著性区域生成示意图；

图5是本发明的面向主题的场景图生成示意图；

图6是本发明的整体结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1是本发明的整体实施方案流程图，一种面向主题的图像场景图生成方法，包括以下步骤：

步骤(1)使用LDA概率主题模型，提取文本的主题概率分布以及主题的词汇分布，构建图像主题数据集。利用图像主题数据集，预训练图像主题预测模型；

步骤(2)结合图像主题，对图像进行目标检测，得到目标特征X和全局特征V，并融合全局特征V、目标特征X、类别特征Z以及主题特征T得到关系特征Y，对检测的目标(obj)预测其属性(attr)以及目标间的关系(rel)，生成图像场景图；

步骤(3)对图像场景图生成模型进行训练，挑选最优训练模型。将图片输入训练好的图像场景图生成模型，输出对应的图像场景图；

步骤(4)使用显著性检测方法U^2-Net对图像进行显著性检测，并利用显著性检测的结果得到图像中各像素点的显著值，通过分析图像的显著值，得到图像的显著性区域；

步骤(5)结合显著性区域以及生成的图像场景图，根据定义规则，保留场景图中反映图像中心思想的目标以及关系，最终生成面向主题的图像场景图。

进一步的，步骤(1)所述具体实现过程如下：

2-1使用MSCOCO数据集中的文本描述，利用LDA概率主题模型，提取所有描述的主题概率分布以及主题的词汇分布。假设文本中蕴含K个主题，文本描述的主题概率分布其中z_i,k表示第i段文本描述关于第k个主题的概率。

2-2得到主题概率分布后，由于一张图像对应多段描述，等同于对应多个主题分布，因此将主题分布表示为同一张图像所有主题分布的平均值Φ，得到图像主题数据集，

其中,表示第i段文本描述的主题概率分布,N表示文本描述的数量。

2-3利用图像主题数据集，训练CNN网络来完成图像主题的预测，得到图像主题预测模型Topic Extractor。测试时图像作为输入，结果取主题概率最大的主题作为最终的图像主题。

进一步的，步骤(2)具体实现过程如图3所示：

3-1使用基于ResNet101预训练的Faster R-CNN目标检测模型对图像I进行目标检测，得到目标的一系列检测框B＝{b_i|i＝1，...，n}，以及全局特征图V，如公式(1)所示。每个目标输入基于ResNet的网络中得到的目标特征X＝{x_i|i＝i，...，n}，如公式(2)所示。

V，B＝Faster RCNN(I) (1)

X＝ResNet(B) (2)

3-2根据目标特征X预测出每个目标的类别特征Z＝{z_i|i＝1，..，n}，z_i∈R^d。其中，z_i表示最终预测的类别，d表示预测类别的总数。如公式(3)所示。

其中，W_z是类别特征Z的特征权重。

3-3使用预训练的图像主题预测模型Topic Extractor对图像I进行主题抽取，得到主题特征T，如公式(4)所示。

T＝TopicExtracor(I) (4)

3-4融合四个分支的特征，包括全局特征V、目标特征X、类别特征Z以及主题特征T，共同预测关系类别Y，如公式(5)所示。采用两种通用的融合方式SUM和GATE，如公式(6)和公式(7)所示。

Y＝SoftMax(f(x`_e，v`_e，z`_e，t`_e)) (5)

SUM：y_e＝W_xx_e+W_vv_e+W_tt_e+z_e (6)

GATE：y_e＝W_rx_e·σ(W_xx`_e+W_vv`_e+W_tt`_e+z_e) (7)

其中，x`_e，v`_e，z`_e，t`_e分别是目标特征，全局特征，类别特征和主题特征的嵌入向量，f是融合函数，W_r，W_x，W_v，W_t分别是x_e，x`_e，v`_e，t`_e，的特征权重。

进一步的，步骤(4)具体实现过程如图4所示：

4-1进行端到端的训练，训练过程中Faster R-CNN固定参数且不参与训练，epoch设置为50，batch size为8，使用SGD优化器渐进式的调整学习率，学习率为8e^-5，模型分别在第30和第40次迭代时学习率衰减10倍。利用标准的交叉熵损失来训练模型，如公式(8)所示。

其中，N为数据集中图像总数，M为预测类别数，c表示每一个类别，y_c为预测的类别，p_c为预测类别的概率，θ为模型参数。

4-2将测试图像输入到模型中，获得图像场景图。

进一步的，步骤(5)具体实现过程如图5所示：

5-1使用在Salient()bjects Dataset数据集上预训练U^2-Net显著性检测模型对图像I进行显著性检测。U^2-Net能够得到各像素点反映显著程度的显著值p，所有显著值的集合为P＝{p₁，p₂，p₃，...，p_n}，构成原始图像的灰度图，如公式(9)所示。

P＝U² Net(I) (9)

5-2得到图像各像素的显著值后，为了得到显著性区域，计算所有显著值的平均值p_mean，如公式(10)所示。然后遍历图像I，记录第一个横坐标x_start、第一个纵坐标y_start、最后一个横坐标x_last以及最后一个纵坐标y_last大于像素平均值的位置。

5-3将步骤5-2得到的4个下标组合，得到最终的图像显著性区域SA＝[(x_start，y_start)，(x_last，y_last)]。

进一步的，步骤(6)具体实现过程如下：

6-1结合生成的场景图，使用软非极大抑制算法Soft-NMS减少场景图中重叠的目标检测框。对场景图中的所有目标检测框按照得分从高到低进行排序，选中置信度最高的检测框M，过滤其余与M的重叠程度大于重叠阈值η_nms的检测框，不断迭代该过程，直至所有检测框被选中。

6-2结合显著性区域SA，将步骤6-1保留下的场景图进一步进行筛选，如公式(11)所示，仅保留场景图中所有在显著区域内的目标。

其中o为保留的目标，检测框的左上角与右下角坐标分别为{(x_start，y_start)，(x_last，y_last}，b为偏置量。

6-3使用定义规则，进一步筛选目标与关系，如图6所示。

定义规则分为三种情况：

(1)目标类别中存在人，且目标数量小于等于2，则将每个人与一个物建立关系，最终将两个人建立关系。需要注意的是，其余目标与关系均被剔除。

(2)类别中存在人，且目标数量大于2，同样地将每个人与一个物建立关系，但是最后将所有人替换为相同结点，与其他目标保持关系。

(3)不存在类别为人的目标，保持目标的关系不变。

6-4构建最终保留下的目标与关系作为面向主题的场景图。

Claims

1.一种面向主题的场景图生成方法，其特征在于包括以下步骤：

步骤(1)使用LDA概率主题模型，提取文本的主题概率分布以及主题的词汇分布，构建图像主题数据集；利用图像主题数据集，预训练图像主题预测模型；

步骤(2)结合图像主题，对图像进行目标检测，得到目标特征X和全局特征V，并融合全局特征V、目标特征X、类别特征Z以及主题特征T得到关系特征Y，对检测的目标obj预测其属性attr以及目标间的关系rel，生成图像场景图；

步骤(3)对图像场景图生成模型进行训练，挑选最优训练模型；将图片输入训练好的图像场景图生成模型，输出对应的图像场景图；

2.根据权利要求1所述的一种面向主题的场景图生成方法，其特征在于步骤(1)具体实现过程如下：

2-1使用MSCOCO数据集中的文本描述，利用LDA概率主题模型，提取所有描述的主题概率分布以及主题的词汇分布；假设文本中蕴含K个主题，文本描述的主题概率分布其中z_i,k表示第i段文本描述关于第k个主题的概率；

其中,表示第i段文本描述的主题概率分布,N表示文本描述的数量；

2-3利用图像主题数据集，训练CNN网络来完成图像主题的预测，得到图像主题预测模型Topic Extractor；测试时图像作为输入，结果取主题概率最大的主题作为最终的图像主题。

3.根据权利要求2所述的一种面向主题的场景图生成方法，其特征在于步骤(2)具体实现如下：

3-1使用基于ResNet101预训练的Faster R-CNN目标检测模型对图像I进行目标检测，得到目标的一系列检测框B＝{b_i|i＝1,…,n}，以及全局特征图V，如公式(1)所示；每个目标输入基于ResNet的网络中得到的目标特征X＝{x_i|i＝i,…,n}，如公式(2)所示；

V,B＝Faster RCNN(I) (1)

X＝ResNet(B) (2)

3-2根据目标特征X预测出每个目标的类别特征Z＝{z_i|i＝1,..,n},z_i∈R^d；其中，z_i表示最终预测的类别，d表示预测类别的总数；如公式(3)所示；

其中，W_z是类别特征Z的特征权重；

3-3使用预训练的图像主题预测模型Topic Extractor对图像I进行主题抽取，得到主题特征T，如公式(4)所示；

T＝TopicExtracor(I) (4)

3-4融合四个分支的特征，包括全局特征V、目标特征X、类别特征Z以及主题特征T，共同预测关系类别Y，如公式(5)所示；采用两种通用的融合方式SUM和GATE，如公式(6)和公式(7)所示；

Y＝SoftMax(f(x`_e,v`_e,z`_e,t`_e)) (5)

SUM:y_e＝W_xx`_e+W_vv`_e+W_tt`_e+z_e (6)

GATE:y_e＝W_rx_e·σ(W_xx`_e+W_vv`_e+W_tt`_e+z_e) (7)

其中，x`_e,v`_e,z`_e,t`_e分别是目标特征，全局特征，类别特征和主题特征的嵌入向量，f是融合函数，W_r,W_x,W_v,W_t分别是x_e,x`_e,v`_e,t`_e的特征权重。

4.根据权利要求3所述的一种面向主题的场景图生成方法，其特征在于步骤(4)具体实现过程如下：

4-1进行端到端的训练，训练过程中Faster R-CNN固定参数且不参与训练，epoch设置为50，batch size为8，使用SGD优化器渐进式的调整学习率，学习率为8e^-5，模型分别在第30和第40次迭代时学习率衰减10倍；利用标准的交叉熵损失来训练模型，如公式(8)所示；

其中，N为数据集中图像总数，M为预测类别数，c表示每一个类别，y_c为预测的类别，p_c为预测类别的概率，θ为模型参数；

4-2将测试图像输入到模型中，获得图像场景图。

5.根据权利要求4所述的一种面向主题的场景图生成方法，其特征在于步骤(5)具体实现过程如下：

5-1使用在Salient Objects Dataset数据集上预训练U^2-Net显著性检测模型对图像I进行显著性检测；U^2-Net能够得到各像素点反映显著程度的显著值p，所有显著值的集合为P＝{p₁,p₂,p₃,…,p_n}，构成原始图像的灰度图，如公式(9)所示；

P＝U²Net(I) (9)

5-2得到图像各像素的显著值后，为了得到显著性区域，计算所有显著值的平均值p_mean，如公式(10)所示；然后遍历图像I，记录第一个横坐标x_start、第一个纵坐标y_start、最后一个横坐标x_last以及最后一个纵坐标y_last大于像素平均值的位置；

5-3将步骤5-2得到的4个下标组合，得到最终的图像显著性区域SA＝[(x_start,y_start),(x_last,y_last)]。

6.根据权利要求5所述的一种面向主题的场景图生成方法，其特征在于步骤(6)具体实现过程如下：

6-1结合生成的场景图，使用软非极大抑制算法Soft-NMS减少场景图中重叠的目标检测框；对场景图中的所有目标检测框按照得分从高到低进行排序，选中置信度最高的检测框M，过滤其余与M的重叠程度大于重叠阈值η_nms的检测框，不断迭代该过程，直至所有检测框被选中；

6-2结合显著性区域SA，将步骤6-1保留下的场景图进一步进行筛选，如公式(11)所示，仅保留场景图中所有在显著区域内的目标；

其中o为保留的目标，检测框的左上角与右下角坐标分别为{(x_start,y_start),(x_last,y_last}，b为偏置量；

6-3使用定义规则，进一步筛选目标与关系；

6-4构建最终保留下的目标与关系作为面向主题的场景图。

7.根据权利要求6所述的一种面向主题的场景图生成方法，其特征在于步骤6-3所述的定义规则分为三种情况：

(1)目标类别中存在人，且目标数量小于等于2，则将每个人与一个物建立关系，最终将两个人建立关系；

(2)类别中存在人，且目标数量大于2，同样地将每个人与一个物建立关系，但是最后将所有人替换为相同结点，与其他目标保持关系；

(3)不存在类别为人的目标，保持目标的关系不变。