CN107967494A - 一种基于视觉语义关系图的图像区域标注方法 - Google Patents

一种基于视觉语义关系图的图像区域标注方法 Download PDF

Info

Publication number
CN107967494A
CN107967494A CN201711387422.9A CN201711387422A CN107967494A CN 107967494 A CN107967494 A CN 107967494A CN 201711387422 A CN201711387422 A CN 201711387422A CN 107967494 A CN107967494 A CN 107967494A
Authority
CN
China
Prior art keywords
image
region
subgraph
similitude
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711387422.9A
Other languages
English (en)
Other versions
CN107967494B (zh
Inventor
张静
陶提
穆亚昆
王喆
赵贤文
陈美�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN201711387422.9A priority Critical patent/CN107967494B/zh
Publication of CN107967494A publication Critical patent/CN107967494A/zh
Application granted granted Critical
Publication of CN107967494B publication Critical patent/CN107967494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于视觉和语义的图像标注算法,可实现对图像区域的自动标注。提出的基于视觉语义关系图的图像区域标注算法包括两个部分:视觉语义关系图的构建和基于视觉语义关系图的图像标注。视觉语义关系图的构建考虑了图像间的全局相似性、区域相似性、图像区域标签的语义关联以及各层次间的关联。然后在构建好的视觉语义关系图上进行半监督学习,得到未标注图像区域与图像区域标签之间的关联度,对未标注图像区域进行标签预测。

Description

一种基于视觉语义关系图的图像区域标注方法
技术领域
本发明属于图像语义理解领域,具体涉及一种基于视觉语义关系图的图像区域标注方法。
背景技术
当今社会图像数据量巨大,图像自动标注技术成为人们对图像数据检索和管理的重要途径,但是由于“语义鸿沟”的存在,严重影响了传统图像区域标注算法的准确性,本发明提出了一种基于视觉语义关系图的图像区域标注方法。
图像全局间具有图像视觉特征相似性,图像区域间也具有图像视觉特征相似性,图像标签之间则具有语义关联性,这些信息有助于图像区域标注与理解,因而本发明提出了一种能够有效描述上述关系的视觉语义关系图,并以此图为基础实现跨层次的随机游走算法对图像区域进行自动语义标注。
发明内容
本发明的目的在于提出一种基于视觉语义关系图的图像区域标注方法,通过分析图像间的全局相似性、区域相似性、图像区域标签的语义关联,以及各层次之间的关联构造视觉语义关系图,提出跨层次的随机游走算法对图像区域进行自动标注。
本发明的技术方案如下:
(1)图像全局相似性子图与图像区域相似性子图的构建:提取图像的全局视觉特征,并计算图像间的特征相似性;提取图像区域的视觉特征,并计算区域间的特征相似性。
(2)图像区域标签语义相关性子图的构建:语义相关性由不同标签之间的语义共现度表示,语义共现度是根据语义标签在图像训练集中的共现概率进行计算的。
(3)各子图间关联的构建:图像全局相似性子图与图像区域相似性子图的关联由图像与图像分割成区域的所属关系确定;图像全局相似性子图与图像区域标签语义相关性子图的关联由已标注图像的全局标签信息确定;图像区域相似性子图与图像区域标签语义相关性子图的关联由已标注图像的区域标签信息确定。
(4)跨层次的随机游走算法:将未标注图像插入视觉语义关系图,在新构建的视觉语义关系图上进行跨层次的随机游走,从而得到未标注图像区域的标签。本部分主要分两步:
(41)将未标注图像分割成区域,并将图像和其所包含的区域插入视觉语义关系图。并根据未标注图像与已标注图像全局特征的相似性以及未标注区域与已标注区域的局部特征相似性来确定对应边的值。
(42)将图像全局、图像区域以及语义标签看作一个三元组复合节点,在新构建的三层视觉语义关系图上进行随机游走,得到未标注图像区域与标签之间的关联值,并选取关联值最高的标签作为图像区域的预测标签。
附图说明
为了更清楚地说明本发明实施步骤,下面将对步骤附图进行详细介绍
图1是基于视觉语义关系图的图像区域标注流程图
图2是视觉语义关系图
图3是图像全局相似性子图
图4是图像区域相似性子图
图5是图像区域标签语义相关性子图
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
图1是本发明提供的基于视觉语义关系图的图像区域标注方法流程示意图,该标注方法包括4个单元。
单元100为图像全局相似性子图和图像区域相似性子图的构建。以图像为单位,提取图像全局视觉特征:SIFT特征、HSVH特征、颜色矩特征和Gabor 特征,并且使用词袋模型对图像内容进行表示。使用欧式距离计算图像间全局视觉特征的相关度得到全局相似性子图,如图3所示。以图像区域为单位,提取图像区域视觉特征:HSVH特征、颜色矩特征和Gabor特征,并且使用词袋模型对图像区域内容进行表示。使用欧式距离计算图像区域间视觉特征的相关度得到图像区域相似性子图,如图4所示。
单元101为图像区域标签语义相关性子图的构建。两个标签之间的语义关系即为标签对的共现度。标签对的共现度是根据一个语义标签出现时,另一个语义标签也在同一幅图像中出现的条件概率计算得到。构建的图像区域标签语义相关性子图如图5所示。
单元102为各子图间关联的构建。各子图间的关联关系包括图像全局相似性子图与图像区域相似性子图的关联、图像全局相似性子图与图像区域标签语义相关性子图的关联、图像区域相似性子图与图像区域标签语义相关性子图的关联。图像全局相似性子图与图像区域相似性子图的关联是根据图像与该图像分割区域的隶属关系构建。图像全局相似性子图与图像区域标签语义相关性子图的关联是根据已标注图像的全局标签信息构建。图像区域相似性子图与图像区域标签语义相关性子图的关联是根据已标注图像区域的标签信息构建。
通过以上各种子图和各子图关联的构建,得到的视觉语义关系图如图2 所示。
单元103为跨层次的随机游走算法,这里分为两步:
(1)将未标注图像及其区域插入视觉语义关系图。首先将未标注图像插入视觉语义关系图中图像全局相似性子图,并提取图像的全局特征与已标注的图像的全局特征计算相似性,用于完善本层子图间全局相似性关联。然后将未标注图像按图像底层特征分割,得到的区域插入图像区域相似性子图,并提取图像区域的特征与已标注的图像区域特征计算相似性,用于完善本层子图间区域相似性关联。根据未标注图像的分割从属关系构建关系子图之间的关联。并将语义标签与未标注图像以及区域建立初始值为零的关联边。此时并将未标注图像插入视觉语义关系图,构建新的视觉语义关系图。
(2)对于新构建的视觉语义关系图,将图像顶点、图像区域顶点以及语义标签顶点看作一个三元组复合顶点,此顶点作为跨层次随机游走的基本单位。以复合节点为单位在新构建的视觉语义关系图上进行随机游走,其游走的初始值为未标注区域与语义标签的关联值,其转移矩阵为已构建的各子图内部关联及子图间的关联,其游走路线可以在三层视觉语义关系图上随意跳转。每次迭代伴随着各个复合节点的值的更新,通过多次迭代直至所有复合节点的值到达比较稳定的状态,此时可以得到未标注图像区域与语义标签间的关联值,选取与未标注图像区域关联值最高的语义标签作为该区域的预测标签。

Claims (4)

1.一种基于视觉语义关系图的图像区域标注方法,其特征包括两个步骤:
(1)分析图像间的全局相似性、区域相似性以及图像区域标签的语义关联;
(2)分析各层次间的关联,构造视觉语义关系图;
(3)将未标注图像插入视觉语义关系图,并在新的语义关系图上实现跨层次随机游走算法,通过更新未标注图像区域与标签之间的关联度,对未标注图像区域进行标签预测。
2.如权利要求1所述方法,其特征在于步骤(1)中,视觉语义关系图包括图像全局相似性子图、图像区域相似性子图和图像区域标签语义相关性子图。图像全局相似性子图是根据图像全局场景进行相似性比较而建立图像间的关联;图像区域相似性子图是根据图像分割区域的相似性比较而建立区域间的关联;图像区域标签语义相关性子图是根据语义共现度建立标签间的关联。
3.如权利要求1所述方法,其特征在于步骤(2)中,视觉语义关系图之间的关联包括图像全局相似性子图与图像区域相似性子图的关联、图像全局相似性子图与图像区域标签语义相关性子图的关联、图像区域相似性子图与图像区域标签语义相关性子图的关联;图像全局相似性子图与图像区域相似性子图的关联描述图像与图像分割成区域的所属关系;图像全局相似性子图与图像区域标签语义相关性子图的关联是描述已标注图像的全局标签信息;图像区域相似性子图与图像区域标签语义相关性子图的关联是描述已标注图像的区域标签信息。
4.如权利要求1所述的方法,其特征在于步骤(3),基于视觉语义关系图的图像区域标注包括如下步骤:
(31)将未标注图像进行区域分割,分别将分割的区域以及全图插入视觉语义关系图,构建新的视觉语义关系图;
(32)用跨层次随机游走算法在新构造的视觉语义关系图中对未标注图像区域的标签进行预测。
CN201711387422.9A 2017-12-20 2017-12-20 一种基于视觉语义关系图的图像区域标注方法 Active CN107967494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711387422.9A CN107967494B (zh) 2017-12-20 2017-12-20 一种基于视觉语义关系图的图像区域标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711387422.9A CN107967494B (zh) 2017-12-20 2017-12-20 一种基于视觉语义关系图的图像区域标注方法

Publications (2)

Publication Number Publication Date
CN107967494A true CN107967494A (zh) 2018-04-27
CN107967494B CN107967494B (zh) 2020-12-11

Family

ID=61995764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711387422.9A Active CN107967494B (zh) 2017-12-20 2017-12-20 一种基于视觉语义关系图的图像区域标注方法

Country Status (1)

Country Link
CN (1) CN107967494B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830466A (zh) * 2018-05-31 2018-11-16 长春博立电子科技有限公司 一种基于云平台的图像内容语义标注系统和方法
CN109359558A (zh) * 2018-09-26 2019-02-19 腾讯科技(深圳)有限公司 图像标注方法、目标检测方法、装置及存储介质
CN110413989A (zh) * 2019-06-19 2019-11-05 北京邮电大学 一种基于领域语义关系图的文本领域确定方法与系统
CN110705335A (zh) * 2018-07-10 2020-01-17 北京京东尚科信息技术有限公司 一种样本图片的标注方法和装置
CN111161848A (zh) * 2019-10-31 2020-05-15 杭州深睿博联科技有限公司 Ct图像的病灶标注方法及装置、存储介质
CN113240125A (zh) * 2021-01-13 2021-08-10 深延科技(北京)有限公司 模型训练方法及装置、标注方法及装置、设备及存储介质
CN114417845A (zh) * 2022-03-30 2022-04-29 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN113240125B (zh) * 2021-01-13 2024-05-28 深延科技(北京)有限公司 模型训练方法及装置、标注方法及装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012044668A1 (en) * 2010-10-01 2012-04-05 Google Inc. Label embedding trees for multi-class tasks
CN102495865A (zh) * 2011-11-28 2012-06-13 南京大学 结合图像内部空间关系及视觉共生关系的图像标注方法
US20140037195A1 (en) * 2012-08-03 2014-02-06 Adobe Systems Incorporated Image tag pair graph for image annotation
CN104933029A (zh) * 2015-06-23 2015-09-23 天津大学 一种基于概率主题模型的文本图像联合语义分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012044668A1 (en) * 2010-10-01 2012-04-05 Google Inc. Label embedding trees for multi-class tasks
CN102495865A (zh) * 2011-11-28 2012-06-13 南京大学 结合图像内部空间关系及视觉共生关系的图像标注方法
US20140037195A1 (en) * 2012-08-03 2014-02-06 Adobe Systems Incorporated Image tag pair graph for image annotation
CN104933029A (zh) * 2015-06-23 2015-09-23 天津大学 一种基于概率主题模型的文本图像联合语义分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HIEN DUY PHAM 等: "Semi-supervised learning on bi-relational graph for image annotation", 《2014 22ND INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 *
HUA WANG 等: "Image annotation using bi-relational graph of images and semantic labels", 《CVPR 2011》 *
田东平: "融合PLSA和随机游走模型的自动图像标注", 《小型微型计算机系统》 *
邱泽宇 等: "基于区域上下文感知的图像标注", 《计算机学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830466A (zh) * 2018-05-31 2018-11-16 长春博立电子科技有限公司 一种基于云平台的图像内容语义标注系统和方法
CN110705335A (zh) * 2018-07-10 2020-01-17 北京京东尚科信息技术有限公司 一种样本图片的标注方法和装置
CN109359558A (zh) * 2018-09-26 2019-02-19 腾讯科技(深圳)有限公司 图像标注方法、目标检测方法、装置及存储介质
CN109359558B (zh) * 2018-09-26 2020-12-25 腾讯科技(深圳)有限公司 图像标注方法、目标检测方法、装置及存储介质
CN110413989A (zh) * 2019-06-19 2019-11-05 北京邮电大学 一种基于领域语义关系图的文本领域确定方法与系统
CN111161848A (zh) * 2019-10-31 2020-05-15 杭州深睿博联科技有限公司 Ct图像的病灶标注方法及装置、存储介质
CN111161848B (zh) * 2019-10-31 2023-08-29 杭州深睿博联科技有限公司 Ct图像的病灶标注方法及装置、存储介质
CN113240125A (zh) * 2021-01-13 2021-08-10 深延科技(北京)有限公司 模型训练方法及装置、标注方法及装置、设备及存储介质
CN113240125B (zh) * 2021-01-13 2024-05-28 深延科技(北京)有限公司 模型训练方法及装置、标注方法及装置、设备及存储介质
CN114417845A (zh) * 2022-03-30 2022-04-29 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统

Also Published As

Publication number Publication date
CN107967494B (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN107967494A (zh) 一种基于视觉语义关系图的图像区域标注方法
CN106250915A (zh) 一种融合深度特征和语义邻域的自动图像标注方法
Zheng et al. Detection of people with camouflage pattern via dense deconvolution network
CN105389584B (zh) 基于卷积神经网络与语义转移联合模型的街景语义标注方法
CN102663015B (zh) 基于特征袋模型和监督学习的视频语义标注方法
CN102298605B (zh) 基于有向图非等概率随机搜索的图像自动标注方法及装置
CN113553429B (zh) 一种规范化标签体系构建及文本自动标注方法
CN102298606B (zh) 基于标签图模型随机游走的图像自动标注方法及装置
CN101620615B (zh) 一种基于决策树学习的自动图像标注与翻译的方法
CN111291566B (zh) 一种事件主体识别方法、装置、存储介质
CN103227963A (zh) 基于视频运动目标检测和跟踪的静态监控视频摘要方法
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN110175246A (zh) 一种从视频字幕中提取概念词的方法
Wang et al. Multiple semantic matching on augmented $ n $-partite graph for object co-segmentation
CN106055667A (zh) 一种基于文本‑标签密度的网页核心内容提取方法
CN104636761A (zh) 一种基于多层分割的图像语义标注方法
CN107346327A (zh) 基于监督转移的零样本哈希图片检索方法
CN110378911A (zh) 基于候选区域和邻域分类器的弱监督图像语义分割方法
Habibian et al. Discovering semantic vocabularies for cross-media retrieval
Xu et al. Interactive key-value memory-augmented attention for image paragraph captioning
Nguyen et al. Adaptive nonparametric image parsing
CN104700410A (zh) 基于协同过滤的教学视频标注方法
CN104142922A (zh) 一种移动图像在线搜索与挖掘的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant