CN113657170B - 一种增加图像文本描述多样性方法 - Google Patents

一种增加图像文本描述多样性方法 Download PDF

Info

Publication number
CN113657170B
CN113657170B CN202110816869.3A CN202110816869A CN113657170B CN 113657170 B CN113657170 B CN 113657170B CN 202110816869 A CN202110816869 A CN 202110816869A CN 113657170 B CN113657170 B CN 113657170B
Authority
CN
China
Prior art keywords
target
target detection
image
targets
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110816869.3A
Other languages
English (en)
Other versions
CN113657170A (zh
Inventor
朱虹
杜森
史静
张雨嘉
刘媛媛
王栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110816869.3A priority Critical patent/CN113657170B/zh
Publication of CN113657170A publication Critical patent/CN113657170A/zh
Application granted granted Critical
Publication of CN113657170B publication Critical patent/CN113657170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种增加图像文本描述多样性方法,步骤包括:步骤1、表达待描述图像的目标重要性;步骤2、构建原始彩色图像Image中目标的相邻关系结构图,表达关联关系重要性;步骤3、对检测到的目标进行筛选,得到文本描述网络需要的特征;步骤4、将随机删除非重要目标后的β组目标检测框特征,输入图像文本描述网络,生成多条描述语句。本发明的方法,在进入图像的文本描述网络前对图像中的目标进行重要性表达,将图像中出现的目标分为重要目标和非重要目标,通过随机删除非重要且不影响图像语义的目标,使得图像文本描述网络能够生成不同的描述语句,丰富描述语句的多样性。

Description

一种增加图像文本描述多样性方法
技术领域
本发明属于图像文本描述技术领域,涉及一种增加图像文本描述多样性方法。
背景技术
图像文本描述算法是指根据输入图像的内容,自动生成描述性文字的方法。在实际中具有重要意义和广泛应用。如对图像进行快速分析、处理;将图像转化为文本,辅助视觉障碍人士理解图像内容。此外,图像文本描述在图像智能审核、检索、分类等方面也有着十分重要的应用。然而通过图像文本描述算法对图像进行描述时,绝大多数方法仅能通过一条或者是少量几条相近含义的描述语句描述图像内容,难以满足语义多样性的要求。
发明内容
本发明的目的是提供一种增加图像文本描述多样性方法,解决了现有技术在图像文本描述过程中,生成描述语句过于单一的问题。
本发明所采用的技术方案是,一种增加图像文本描述多样性方法,按照以下步骤实施:
步骤1、表达待描述图像的目标重要性;
步骤2、构建原始彩色图像Image中目标的相邻关系结构图,表达关联关系重要性;
步骤3、对检测到的目标进行筛选,得到文本描述网络需要的特征;
步骤4、将随机删除非重要目标后的β组目标检测框特征,输入图像文本描述网络,生成多条描述语句。
本发明的有益效果是,在进入图像的文本描述网络前对图像中的目标进行重要性表达,将图像中出现的目标分为重要目标和非重要目标,通过随机删除非重要且不影响图像语义的目标,使得图像文本描述网络能够生成不同的描述语句,丰富描述语句的多样性。
附图说明
图1是本发明方法的总体结构流程框图;
图2是本发明方法中待描述的原始图像Image;
图3是本发明方法中通过PoolNet网络得到的目标显著性图;
图4是本发明方法中通过Context-Aware Saliency Detection方法得到的语义显著性图;
图5是本发明方法中的融合显著性图;
图6是本发明方法中Faster R-CNN网络获取检测目标特征流程图;
图7是本发明方法中生成的目标节点关系示意图;
图8是本发明方法中生成多条描述语句流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
参照图1,本发明的方法,按照以下步骤实施:
步骤1、表达待描述图像的目标重要性,具体过程是,
1.1)将需要进行文本描述的原始彩色图像Image输入PoolNet网络,(该PoolNet网络为现有技术,可在公开发表的论文中检索到),PoolNet网络输出的是描述了原始彩色图像Image中重要目标的灰度图;
例如,将原始彩色图像Image输入PoolNet网络后,得到如图3所示的目标显著性图,记作S1,S1=[s1(i,j)]H×W;目标显著性图中,每个像素点的灰度值表示该点的重要程度,越重要的物品的灰度值越大,重要目标是整幅图像中引起视觉关注的目标,如图3中,是人在停车场拿着飞盘的图像,重要目标是人、车和飞盘;
1.2)将需要进行文本描述的原始彩色图像Image再用Context-Aware SaliencyDetection方法(该方法为现有技术,可在公开发表的论文中检索到),获得语义显著性图,记作S2
例如,将原始彩色图像Image经过Context-Aware Saliency Detection方法进行语义显著性提取之后,得到如图4所示的语义显著性图S2=[s2(i,j)]H×W;该方法是对几种传统显著性方法进行了组合,将重要目标及其区域附近的环境之间的语义关联关系进行了不同程度的增强;
1.3)将目标显著性图S1和语义显著性图S2相叠加,得到显著性图S,S=[s(i,j)]H×W;叠加公式如下:
按照公式(1)将图3和图4融合后得到的结果,显著性图S如图5所示,可以看到,显著性图S中重要目标的灰度值最高,周围环境次之;
1.4)通过Faster R-CNN网络(该Faster R-CNN网络为现有技术,可在公开发表的论文中检索到,Faster R-CNN网络的结构图如图6所示)对输入原始彩色图像Image进行目标检测,通过Faster R-CNN网络的RPN模块得到候选目标检测框kb=1,2,...,P,P为候选目标个数;之后通过非极大值抑制模块,得到最终保留下来的N个目标检测框,取这N个目标检测框boxk,k=1,2,...,N在FC6层后的特征,作为N个目标的特征,记作Xk,Xk=[x1,k,x2,k,...,xd,k]k=1,2,...,N,其中d为特征向量的维数;
1.5)计算N个目标检测框的显著性得分,每个目标检测框的显著性得分表示了该目标的重要程度,计算公式如下:
其中,表示第k个目标中的像素点的个数;
步骤2、构建原始彩色图像Image中目标的相邻关系结构图,表达关联关系重要性,具体过程是,
2.1)得到原始彩色图像Image中每个物品的检测框boxk,k=1,2,...,N后,计算第ib个检测框boxib和第jb个检测框boxjb之间的相邻关系IoU(ib,jb),公式如下:
其中,boxib∩boxjb是boxib和boxjb的交集区域,boxib∪boxjb是boxib和boxjb的并集区域;
2.2)当boxib和boxjb的IoU(ib,jb)>δ,δ为经验值,本步骤优选为0.15≤δ≤0.3时,则认为这两个目标检测框中的目标存在关联;
2.3)将每个目标检测框视为一个节点,当两个目标检测框之间按照步骤2.2)判断为存在关联时,则这两个节点间存在一条边,由此,构建目标关系图,图2的目标关系图见图7;
2.4)计算目标关系图中每个目标节点的度,度是节点上边的数量,当一个目标节点的度越大,表示与该目标相关联的其他目标越多,则表明该目标越重要;
步骤3、对检测到的目标进行筛选,得到文本描述网络需要的特征,具体过程是,
3.1)根据预先设定的显著性得分阈值,删除步骤1得到的每个目标检测框的显著性得分低于显著性得分阈值的目标检测框;
显著性得分阈值的取值为经验值,可依据用户的需要进行选择,当显著性得分阈值较高时,能删除的目标检测框较多,得到较多的描述语句;当显著性得分阈值较低时,能删除的目标框较少,得到的描述语句也就较少;
3.2)根据预先设定的度阈值,删除步骤2得到的每个目标检测框的度低于度阈值的目标检测框;
度阈值的取值为经验值,可依据用户的需要进行选择,当度阈值较高时,能删除的目标检测框较多,得到较多的描述语句;当度阈值较低时,能删除的目标检测框较少,得到的描述语句也就较少;
3.3)当目标检测框被步骤3.1)及3.2)的方式都判断为能删除时,标记为能删除目标检测框,得到所有能删除目标检测框的集合,记为dels,dels={delid,id=1,2,…,Nd};当Nd>α·N,α为经验值,本步骤优选为0.15≤α≤0.3时,表明删除的目标太多,这时,再通过降低步骤3.1)中显著性得分阈值和步骤3.2)中度阈值的方法减少dels中能删除目标检测框的数量,直到Nd≤α·N为止,对应的能删除的目标检测框的特征记为
3.4)对能删除的目标检测框的特征进行随机删除,具体方法是,从/>中一次随机删除一个目标,或者两个目标,或者更多的目标,最多删除其中的Nd个目标,这样的随机删除进行β次,β为经验值,可参考Nd的值,以及期望获得的描述多样性来确定,本步骤优选为20≤β≤50,因为每次随机删除的目标个数,以及删除的目标都是不同的,所以经过β次之后,得到β组不同的保留下来的目标检测框,将这β组不同的保留下来的目标检测框特征记作{M1,M2,...,Mβ},其中,/>ks=1,2,...,β,nβ是每组保留目标检测框的个数;
步骤4、将随机删除非重要目标后的β组目标检测框特征,输入图像文本描述网络,生成多条描述语句,具体过程是,
选用的图像文本描述网络包括AoANet、VSUA、Up-Down、SGAE、X-LAN或FRNet等(该方法为现有技术,可在公开发表的论文中检索到),将步骤3.4)得到的β组不同的保留下来的目标检测特征目标检测框特征{M1,M2,...,Mβ},依次输入至图像文本描述网络;
本步骤以AoANet网络为例进行说明,处理流程如图8所示,原始彩色图像Image经过前述步骤1-步骤3后,得到β组目标检测框特征{M1,M2,...,Mβ},依次将该β组目标检测框特征输入至AoANet网络,每次获得K条描述语句,K为文本描述网络设置的参数,这里优选为1≤K≤5,则β组目标检测框特征输入之后,共获得β·K条描述语句,之后删除其中的重复描述语句就得到最终的文本多样描述结果。

Claims (1)

1.一种增加图像文本描述多样性方法,其特征在于,按照以下步骤实施:
步骤1、表达待描述图像的目标重要性,具体过程是,
1.1)将需要进行文本描述的原始彩色图像Image输入PoolNet网络,PoolNet网络输出的是描述了原始彩色图像Image中重要目标的灰度图;
将原始彩色图像Image输入PoolNet网络后,得到目标显著性图,记作S1,S1=[s1(i,j)]H×W;目标显著性图中,每个像素点的灰度值表示该点的重要程度,越重要的物品的灰度值越大,重要目标是整幅图像中引起视觉关注的目标;
1.2)将需要进行文本描述的原始彩色图像Image再用Context-Aware SaliencyDetection方法,获得语义显著性图,记作S2,S2=[s2(i,j)]H×W
1.3)将目标显著性图S1和语义显著性图S2相叠加,得到显著性图S,S=[s(i,j)]H×W,叠加公式如下:
按照公式(1)将目标显著性图S1和语义显著性图S2融合后得到的结果,显著性图S中重要目标的灰度值最高,周围环境次之;
1.4)通过Faster R-CNN网络对输入原始彩色图像Image进行目标检测,通过Faster R-CNN网络的RPN模块得到候选目标检测框P为候选目标个数;之后通过非极大值抑制模块,得到最终保留下来的N个目标检测框,取这N个目标检测框boxk,k=1,2,...,N在FC6层后的特征,作为N个目标的特征,记作Xk,Xk=[x1,k,x2,k,...,xd,k]k=1,2,...,N,其中d为特征向量的维数;
1.5)计算N个目标检测框的显著性得分,每个目标检测框的显著性得分表示了该目标的重要程度,计算公式如下:
其中,表示第k个目标中的像素点的个数;
步骤2、构建原始彩色图像Image中目标的相邻关系结构图,表达关联关系重要性,具体过程是,
2.1)得到原始彩色图像Image中每个物品的检测框boxk,k=1,2,...,N后,计算第ib个检测框boxib和第jb个检测框boxjb之间的相邻关系IoU(ib,jb),公式如下:
其中,boxib∩boxjb是boxib和boxjb的交集区域,boxib∪boxjb是boxib和boxjb的并集区域;
2.2)当boxib和boxjb的IoU(ib,jb)>δ,δ为经验值,0.15≤δ≤0.3时,则认为这两个目标检测框中的目标存在关联;
2.3)将每个目标检测框视为一个节点,当两个目标检测框之间按照步骤2.2)判断为存在关联时,则这两个节点间存在一条边,由此构建目标关系图;
2.4)计算目标关系图中每个目标节点的度,度是节点上边的数量,当一个目标节点的度越大,表示与该目标相关联的其他目标越多,则表明该目标越重要;
步骤3、对检测到的目标进行筛选,得到文本描述网络需要的特征,具体过程是,
3.1)根据预先设定的显著性得分阈值,删除步骤1得到的每个目标检测框的显著性得分低于显著性得分阈值的目标检测框;
显著性得分阈值的取值为经验值,当显著性得分阈值较高时,能删除的目标检测框较多,得到较多的描述语句;当显著性得分阈值较低时,能删除的目标框较少,得到的描述语句也就较少;
3.2)根据预先设定的度阈值,删除步骤2得到的每个目标检测框的度低于度阈值的目标检测框;
度阈值的取值为经验值,当度阈值较高时,能删除的目标检测框较多,得到较多的描述语句;当度阈值较低时,能删除的目标检测框较少,得到的描述语句也就较少;
3.3)当目标检测框被步骤3.1)及3.2)的方式都判断为能删除时,标记为能删除目标检测框,得到所有能删除目标检测框的集合,记为dels,dels={delid,id=1,2,…,Nd};当Nd>α·N,α为经验值,0.15≤α≤0.3,表明删除的目标太多,这时,再通过降低步骤3.1)中显著性得分阈值和步骤3.2)中度阈值的方法减少dels中能删除目标检测框的数量,直到Nd≤α·N为止,对应的能删除的目标检测框的特征记为
3.4)对能删除的目标检测框的特征进行随机删除,具体方法是,从/>中一次随机删除一个目标,或者两个目标,或者更多的目标,最多删除其中的Nd个目标,这样的随机删除进行β次,β为经验值,参考Nd的值,以及期望获得的描述多样性来确定,20≤β≤50,因为每次随机删除的目标个数,以及删除的目标都是不同的,经过β次之后,得到β组不同的保留下来的目标检测框,将这β组不同的保留下来的目标检测框特征记作{M1,M2,...,Mβ},其中,nβ是每组保留目标检测框的个数;
步骤4、将随机删除非重要目标后的β组目标检测框特征,输入图像文本描述网络,生成多条描述语句,具体过程是,
图像文本描述网络选用AoANet、VSUA、Up-Down、SGAE、X-LAN或FRNet,将步骤3.4)得到的β组不同的保留下来的目标检测特征目标检测框特征{M1,M2,...,Mβ},依次输入至图像文本描述网络;
本步骤以AoANet网络为例,原始彩色图像Image经过前述步骤1-步骤3后,得到β组目标检测框特征{M1,M2,...,Mβ},依次将该β组目标检测框特征输入至AoANet网络,每次获得K条描述语句,K为文本描述网络设置的参数,1≤K≤5,则β组目标检测框特征输入之后,共获得β·K条描述语句,之后删除其中的重复描述语句,就得到最终的文本多样描述结果。
CN202110816869.3A 2021-07-20 2021-07-20 一种增加图像文本描述多样性方法 Active CN113657170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110816869.3A CN113657170B (zh) 2021-07-20 2021-07-20 一种增加图像文本描述多样性方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110816869.3A CN113657170B (zh) 2021-07-20 2021-07-20 一种增加图像文本描述多样性方法

Publications (2)

Publication Number Publication Date
CN113657170A CN113657170A (zh) 2021-11-16
CN113657170B true CN113657170B (zh) 2024-02-06

Family

ID=78478050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110816869.3A Active CN113657170B (zh) 2021-07-20 2021-07-20 一种增加图像文本描述多样性方法

Country Status (1)

Country Link
CN (1) CN113657170B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN109711464A (zh) * 2018-12-25 2019-05-03 中山大学 基于层次化特征关系图构建的图像描述方法
WO2019237860A1 (zh) * 2018-06-15 2019-12-19 腾讯科技(深圳)有限公司 一种图像标注方法和装置
JP2020013427A (ja) * 2018-07-20 2020-01-23 株式会社デンソー 説明文章生成装置、対象情報表現システム、及び説明文章生成方法
CN111062451A (zh) * 2019-12-30 2020-04-24 合肥工业大学 一种基于文本引导图模型的图像描述生成方法
CN112016493A (zh) * 2020-09-03 2020-12-01 科大讯飞股份有限公司 图像描述方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
WO2019237860A1 (zh) * 2018-06-15 2019-12-19 腾讯科技(深圳)有限公司 一种图像标注方法和装置
JP2020013427A (ja) * 2018-07-20 2020-01-23 株式会社デンソー 説明文章生成装置、対象情報表現システム、及び説明文章生成方法
CN109711464A (zh) * 2018-12-25 2019-05-03 中山大学 基于层次化特征关系图构建的图像描述方法
CN111062451A (zh) * 2019-12-30 2020-04-24 合肥工业大学 一种基于文本引导图模型的图像描述生成方法
CN112016493A (zh) * 2020-09-03 2020-12-01 科大讯飞股份有限公司 图像描述方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘畅 ; 周向东 ; 施伯乐 ; .图像语义相似性网络的文本描述方法.计算机应用与软件.2018,(第01期),全文. *
高隽 ; 谢昭 ; 张骏 ; 吴克伟 ; .图像语义分析与理解综述.模式识别与人工智能.2010,(第02期),全文. *

Also Published As

Publication number Publication date
CN113657170A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN110046656B (zh) 基于深度学习的多模态场景识别方法
CN109949317A (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN110032942B (zh) 基于时域分段及特征差分的动作识别方法
US8150854B2 (en) Image search apparatus and image search method
CN111274921B (zh) 一种利用姿态掩模进行人体行为识别的方法
CN110084266B (zh) 一种基于视听特征深度融合的动态情感识别方法
JP2008097607A (ja) 入力イメージを自動的に分類する方法
CN110210431B (zh) 一种基于点云语义标注和优化的点云分类方法
CN109885796B (zh) 一种基于深度学习的网络新闻配图匹配性检测方法
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN111091122B (zh) 一种多尺度特征卷积神经网络的训练和检测方法、装置
CN104376538B (zh) 一种图像的稀疏去噪方法
KR20210097314A (ko) 인공지능 기반 이미지 자동 생성 시스템
CN110991563A (zh) 一种基于特征融合的胶囊网络随机路由算法
CN113657170B (zh) 一种增加图像文本描述多样性方法
CN104504715A (zh) 基于局部四元数矩特征的图像分割方法
CN111199199B (zh) 一种基于自适应上下文区域选取的动作识别方法
CN110728214B (zh) 一种基于尺度匹配的弱小人物目标检测方法
KR102553851B1 (ko) 멀티모달 밀결합 텐서 네트워크 구축 방법 및 그 시스템
Meng et al. A Novel Steganography Algorithm Based on Instance Segmentation.
CN115619624A (zh) 聚焦主体的双阶段彩墨风格图像生成方法及可读存储介质
CN115294424A (zh) 一种基于生成对抗网络的样本数据增强方法
Kumar et al. COMPUTER VISION BASED DANCE POSTURE EXTRACTION USING SLIC.
CN113343990A (zh) 一种证件类图片的关键文本检测、分类训练方法
Lan et al. Multi-label Image Recognition Based on Multi-modal Graph Convolutional Networks Using Captioning Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant