CN113657170B

CN113657170B - 一种增加图像文本描述多样性方法

Info

Publication number: CN113657170B
Application number: CN202110816869.3A
Authority: CN
Inventors: 朱虹; 杜森; 史静; 张雨嘉; 刘媛媛; 王栋
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2024-02-06
Anticipated expiration: 2041-07-20
Also published as: CN113657170A

Abstract

本发明公开了一种增加图像文本描述多样性方法，步骤包括：步骤1、表达待描述图像的目标重要性；步骤2、构建原始彩色图像Image中目标的相邻关系结构图，表达关联关系重要性；步骤3、对检测到的目标进行筛选，得到文本描述网络需要的特征；步骤4、将随机删除非重要目标后的β组目标检测框特征，输入图像文本描述网络，生成多条描述语句。本发明的方法，在进入图像的文本描述网络前对图像中的目标进行重要性表达，将图像中出现的目标分为重要目标和非重要目标，通过随机删除非重要且不影响图像语义的目标，使得图像文本描述网络能够生成不同的描述语句，丰富描述语句的多样性。

Description

一种增加图像文本描述多样性方法

技术领域

本发明属于图像文本描述技术领域，涉及一种增加图像文本描述多样性方法。

背景技术

图像文本描述算法是指根据输入图像的内容，自动生成描述性文字的方法。在实际中具有重要意义和广泛应用。如对图像进行快速分析、处理；将图像转化为文本，辅助视觉障碍人士理解图像内容。此外，图像文本描述在图像智能审核、检索、分类等方面也有着十分重要的应用。然而通过图像文本描述算法对图像进行描述时，绝大多数方法仅能通过一条或者是少量几条相近含义的描述语句描述图像内容，难以满足语义多样性的要求。

发明内容

本发明的目的是提供一种增加图像文本描述多样性方法，解决了现有技术在图像文本描述过程中，生成描述语句过于单一的问题。

本发明所采用的技术方案是，一种增加图像文本描述多样性方法，按照以下步骤实施：

步骤1、表达待描述图像的目标重要性；

步骤2、构建原始彩色图像Image中目标的相邻关系结构图，表达关联关系重要性；

步骤3、对检测到的目标进行筛选，得到文本描述网络需要的特征；

步骤4、将随机删除非重要目标后的β组目标检测框特征，输入图像文本描述网络，生成多条描述语句。

本发明的有益效果是，在进入图像的文本描述网络前对图像中的目标进行重要性表达，将图像中出现的目标分为重要目标和非重要目标，通过随机删除非重要且不影响图像语义的目标，使得图像文本描述网络能够生成不同的描述语句，丰富描述语句的多样性。

附图说明

图1是本发明方法的总体结构流程框图；

图2是本发明方法中待描述的原始图像Image；

图3是本发明方法中通过PoolNet网络得到的目标显著性图；

图4是本发明方法中通过Context-Aware Saliency Detection方法得到的语义显著性图；

图5是本发明方法中的融合显著性图；

图6是本发明方法中Faster R-CNN网络获取检测目标特征流程图；

图7是本发明方法中生成的目标节点关系示意图；

图8是本发明方法中生成多条描述语句流程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

参照图1，本发明的方法，按照以下步骤实施：

步骤1、表达待描述图像的目标重要性，具体过程是，

1.1)将需要进行文本描述的原始彩色图像Image输入PoolNet网络，(该PoolNet网络为现有技术，可在公开发表的论文中检索到)，PoolNet网络输出的是描述了原始彩色图像Image中重要目标的灰度图；

例如，将原始彩色图像Image输入PoolNet网络后，得到如图3所示的目标显著性图，记作S₁，S₁＝[s₁(i,j)]_H×W；目标显著性图中，每个像素点的灰度值表示该点的重要程度，越重要的物品的灰度值越大，重要目标是整幅图像中引起视觉关注的目标，如图3中，是人在停车场拿着飞盘的图像，重要目标是人、车和飞盘；

1.2)将需要进行文本描述的原始彩色图像Image再用Context-Aware SaliencyDetection方法(该方法为现有技术，可在公开发表的论文中检索到)，获得语义显著性图，记作S₂；

例如，将原始彩色图像Image经过Context-Aware Saliency Detection方法进行语义显著性提取之后，得到如图4所示的语义显著性图S₂＝[s₂(i,j)]_H×W；该方法是对几种传统显著性方法进行了组合，将重要目标及其区域附近的环境之间的语义关联关系进行了不同程度的增强；

1.3)将目标显著性图S₁和语义显著性图S₂相叠加，得到显著性图S，S＝[s(i,j)]_H×W；叠加公式如下：

按照公式(1)将图3和图4融合后得到的结果，显著性图S如图5所示，可以看到，显著性图S中重要目标的灰度值最高，周围环境次之；

1.4)通过Faster R-CNN网络(该Faster R-CNN网络为现有技术，可在公开发表的论文中检索到，Faster R-CNN网络的结构图如图6所示)对输入原始彩色图像Image进行目标检测，通过Faster R-CNN网络的RPN模块得到候选目标检测框k_b＝1,2,...,P，P为候选目标个数；之后通过非极大值抑制模块，得到最终保留下来的N个目标检测框，取这N个目标检测框box_k，k＝1,2,...,N在FC6层后的特征，作为N个目标的特征，记作X_k，X_k＝[x_1,k,x_2,k,...,x_d,k]k＝1,2,...,N，其中d为特征向量的维数；

1.5)计算N个目标检测框的显著性得分，每个目标检测框的显著性得分表示了该目标的重要程度，计算公式如下：

其中，表示第k个目标中的像素点的个数；

步骤2、构建原始彩色图像Image中目标的相邻关系结构图，表达关联关系重要性，具体过程是，

2.1)得到原始彩色图像Image中每个物品的检测框box_k，k＝1,2,...,N后，计算第ib个检测框box_ib和第jb个检测框box_jb之间的相邻关系IoU(ib,jb)，公式如下：

其中，box_ib∩box_jb是box_ib和box_jb的交集区域，box_ib∪box_jb是box_ib和box_jb的并集区域；

2.2)当box_ib和box_jb的IoU(ib,jb)＞δ，δ为经验值，本步骤优选为0.15≤δ≤0.3时，则认为这两个目标检测框中的目标存在关联；

2.3)将每个目标检测框视为一个节点，当两个目标检测框之间按照步骤2.2)判断为存在关联时，则这两个节点间存在一条边，由此，构建目标关系图，图2的目标关系图见图7；

2.4)计算目标关系图中每个目标节点的度，度是节点上边的数量，当一个目标节点的度越大，表示与该目标相关联的其他目标越多，则表明该目标越重要；

步骤3、对检测到的目标进行筛选，得到文本描述网络需要的特征，具体过程是，

3.1)根据预先设定的显著性得分阈值，删除步骤1得到的每个目标检测框的显著性得分低于显著性得分阈值的目标检测框；

显著性得分阈值的取值为经验值，可依据用户的需要进行选择，当显著性得分阈值较高时，能删除的目标检测框较多，得到较多的描述语句；当显著性得分阈值较低时，能删除的目标框较少，得到的描述语句也就较少；

3.2)根据预先设定的度阈值，删除步骤2得到的每个目标检测框的度低于度阈值的目标检测框；

度阈值的取值为经验值，可依据用户的需要进行选择，当度阈值较高时，能删除的目标检测框较多，得到较多的描述语句；当度阈值较低时，能删除的目标检测框较少，得到的描述语句也就较少；

3.3)当目标检测框被步骤3.1)及3.2)的方式都判断为能删除时，标记为能删除目标检测框，得到所有能删除目标检测框的集合，记为dels，dels＝{del_id，id＝1,2,…,N_d}；当N_d＞α·N，α为经验值，本步骤优选为0.15≤α≤0.3时，表明删除的目标太多，这时，再通过降低步骤3.1)中显著性得分阈值和步骤3.2)中度阈值的方法减少dels中能删除目标检测框的数量，直到N_d≤α·N为止，对应的能删除的目标检测框的特征记为

3.4)对能删除的目标检测框的特征进行随机删除，具体方法是，从/>中一次随机删除一个目标，或者两个目标，或者更多的目标，最多删除其中的N_d个目标，这样的随机删除进行β次，β为经验值，可参考N_d的值，以及期望获得的描述多样性来确定，本步骤优选为20≤β≤50，因为每次随机删除的目标个数，以及删除的目标都是不同的，所以经过β次之后，得到β组不同的保留下来的目标检测框，将这β组不同的保留下来的目标检测框特征记作{M₁,M₂,...,M_β}，其中，/>ks＝1,2,...,β，nβ是每组保留目标检测框的个数；

步骤4、将随机删除非重要目标后的β组目标检测框特征，输入图像文本描述网络，生成多条描述语句，具体过程是，

选用的图像文本描述网络包括AoANet、VSUA、Up-Down、SGAE、X-LAN或FRNet等(该方法为现有技术，可在公开发表的论文中检索到)，将步骤3.4)得到的β组不同的保留下来的目标检测特征目标检测框特征{M₁,M₂,...,M_β}，依次输入至图像文本描述网络；

本步骤以AoANet网络为例进行说明，处理流程如图8所示，原始彩色图像Image经过前述步骤1-步骤3后，得到β组目标检测框特征{M₁,M₂,...,M_β}，依次将该β组目标检测框特征输入至AoANet网络，每次获得K条描述语句，K为文本描述网络设置的参数，这里优选为1≤K≤5，则β组目标检测框特征输入之后，共获得β·K条描述语句，之后删除其中的重复描述语句就得到最终的文本多样描述结果。

Claims

1.一种增加图像文本描述多样性方法，其特征在于，按照以下步骤实施：

步骤1、表达待描述图像的目标重要性，具体过程是，

1.1)将需要进行文本描述的原始彩色图像Image输入PoolNet网络，PoolNet网络输出的是描述了原始彩色图像Image中重要目标的灰度图；

将原始彩色图像Image输入PoolNet网络后，得到目标显著性图，记作S₁，S₁＝[s₁(i,j)]_H×W；目标显著性图中，每个像素点的灰度值表示该点的重要程度，越重要的物品的灰度值越大，重要目标是整幅图像中引起视觉关注的目标；

1.2)将需要进行文本描述的原始彩色图像Image再用Context-Aware SaliencyDetection方法，获得语义显著性图，记作S₂，S₂＝[s₂(i,j)]_H×W；

1.3)将目标显著性图S₁和语义显著性图S₂相叠加，得到显著性图S，S＝[s(i,j)]_H×W，叠加公式如下：

按照公式(1)将目标显著性图S₁和语义显著性图S₂融合后得到的结果，显著性图S中重要目标的灰度值最高，周围环境次之；

1.4)通过Faster R-CNN网络对输入原始彩色图像Image进行目标检测，通过Faster R-CNN网络的RPN模块得到候选目标检测框P为候选目标个数；之后通过非极大值抑制模块，得到最终保留下来的N个目标检测框，取这N个目标检测框box_k，k＝1,2,...,N在FC6层后的特征，作为N个目标的特征，记作X_k，X_k＝[x_1,k,x_2,k,...,x_d,k]k＝1,2,...,N，其中d为特征向量的维数；

其中，表示第k个目标中的像素点的个数；

2.2)当box_ib和box_jb的IoU(ib,jb)>δ，δ为经验值，0.15≤δ≤0.3时，则认为这两个目标检测框中的目标存在关联；

2.3)将每个目标检测框视为一个节点，当两个目标检测框之间按照步骤2.2)判断为存在关联时，则这两个节点间存在一条边，由此构建目标关系图；

显著性得分阈值的取值为经验值，当显著性得分阈值较高时，能删除的目标检测框较多，得到较多的描述语句；当显著性得分阈值较低时，能删除的目标框较少，得到的描述语句也就较少；

度阈值的取值为经验值，当度阈值较高时，能删除的目标检测框较多，得到较多的描述语句；当度阈值较低时，能删除的目标检测框较少，得到的描述语句也就较少；

3.3)当目标检测框被步骤3.1)及3.2)的方式都判断为能删除时，标记为能删除目标检测框，得到所有能删除目标检测框的集合，记为dels，dels＝{del_id，id＝1,2,…,N_d}；当N_d>α·N，α为经验值，0.15≤α≤0.3，表明删除的目标太多，这时，再通过降低步骤3.1)中显著性得分阈值和步骤3.2)中度阈值的方法减少dels中能删除目标检测框的数量，直到N_d≤α·N为止，对应的能删除的目标检测框的特征记为

3.4)对能删除的目标检测框的特征进行随机删除，具体方法是，从/>中一次随机删除一个目标，或者两个目标，或者更多的目标，最多删除其中的N_d个目标，这样的随机删除进行β次，β为经验值，参考N_d的值，以及期望获得的描述多样性来确定，20≤β≤50，因为每次随机删除的目标个数，以及删除的目标都是不同的，经过β次之后，得到β组不同的保留下来的目标检测框，将这β组不同的保留下来的目标检测框特征记作{M₁,M₂,...,M_β}，其中，nβ是每组保留目标检测框的个数；

图像文本描述网络选用AoANet、VSUA、Up-Down、SGAE、X-LAN或FRNet，将步骤3.4)得到的β组不同的保留下来的目标检测特征目标检测框特征{M₁,M₂,...,M_β}，依次输入至图像文本描述网络；

本步骤以AoANet网络为例，原始彩色图像Image经过前述步骤1-步骤3后，得到β组目标检测框特征{M₁,M₂,...,M_β}，依次将该β组目标检测框特征输入至AoANet网络，每次获得K条描述语句，K为文本描述网络设置的参数，1≤K≤5，则β组目标检测框特征输入之后，共获得β·K条描述语句，之后删除其中的重复描述语句，就得到最终的文本多样描述结果。