CN107967494A - 一种基于视觉语义关系图的图像区域标注方法 - Google Patents
一种基于视觉语义关系图的图像区域标注方法 Download PDFInfo
- Publication number
- CN107967494A CN107967494A CN201711387422.9A CN201711387422A CN107967494A CN 107967494 A CN107967494 A CN 107967494A CN 201711387422 A CN201711387422 A CN 201711387422A CN 107967494 A CN107967494 A CN 107967494A
- Authority
- CN
- China
- Prior art keywords
- image
- region
- subgraph
- similitude
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于视觉和语义的图像标注算法,可实现对图像区域的自动标注。提出的基于视觉语义关系图的图像区域标注算法包括两个部分:视觉语义关系图的构建和基于视觉语义关系图的图像标注。视觉语义关系图的构建考虑了图像间的全局相似性、区域相似性、图像区域标签的语义关联以及各层次间的关联。然后在构建好的视觉语义关系图上进行半监督学习,得到未标注图像区域与图像区域标签之间的关联度,对未标注图像区域进行标签预测。
Description
技术领域
本发明属于图像语义理解领域,具体涉及一种基于视觉语义关系图的图像区域标注方法。
背景技术
当今社会图像数据量巨大,图像自动标注技术成为人们对图像数据检索和管理的重要途径,但是由于“语义鸿沟”的存在,严重影响了传统图像区域标注算法的准确性,本发明提出了一种基于视觉语义关系图的图像区域标注方法。
图像全局间具有图像视觉特征相似性,图像区域间也具有图像视觉特征相似性,图像标签之间则具有语义关联性,这些信息有助于图像区域标注与理解,因而本发明提出了一种能够有效描述上述关系的视觉语义关系图,并以此图为基础实现跨层次的随机游走算法对图像区域进行自动语义标注。
发明内容
本发明的目的在于提出一种基于视觉语义关系图的图像区域标注方法,通过分析图像间的全局相似性、区域相似性、图像区域标签的语义关联,以及各层次之间的关联构造视觉语义关系图,提出跨层次的随机游走算法对图像区域进行自动标注。
本发明的技术方案如下:
(1)图像全局相似性子图与图像区域相似性子图的构建:提取图像的全局视觉特征,并计算图像间的特征相似性;提取图像区域的视觉特征,并计算区域间的特征相似性。
(2)图像区域标签语义相关性子图的构建:语义相关性由不同标签之间的语义共现度表示,语义共现度是根据语义标签在图像训练集中的共现概率进行计算的。
(3)各子图间关联的构建:图像全局相似性子图与图像区域相似性子图的关联由图像与图像分割成区域的所属关系确定;图像全局相似性子图与图像区域标签语义相关性子图的关联由已标注图像的全局标签信息确定;图像区域相似性子图与图像区域标签语义相关性子图的关联由已标注图像的区域标签信息确定。
(4)跨层次的随机游走算法:将未标注图像插入视觉语义关系图,在新构建的视觉语义关系图上进行跨层次的随机游走,从而得到未标注图像区域的标签。本部分主要分两步:
(41)将未标注图像分割成区域,并将图像和其所包含的区域插入视觉语义关系图。并根据未标注图像与已标注图像全局特征的相似性以及未标注区域与已标注区域的局部特征相似性来确定对应边的值。
(42)将图像全局、图像区域以及语义标签看作一个三元组复合节点,在新构建的三层视觉语义关系图上进行随机游走,得到未标注图像区域与标签之间的关联值,并选取关联值最高的标签作为图像区域的预测标签。
附图说明
为了更清楚地说明本发明实施步骤,下面将对步骤附图进行详细介绍
图1是基于视觉语义关系图的图像区域标注流程图
图2是视觉语义关系图
图3是图像全局相似性子图
图4是图像区域相似性子图
图5是图像区域标签语义相关性子图
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
图1是本发明提供的基于视觉语义关系图的图像区域标注方法流程示意图,该标注方法包括4个单元。
单元100为图像全局相似性子图和图像区域相似性子图的构建。以图像为单位,提取图像全局视觉特征:SIFT特征、HSVH特征、颜色矩特征和Gabor 特征,并且使用词袋模型对图像内容进行表示。使用欧式距离计算图像间全局视觉特征的相关度得到全局相似性子图,如图3所示。以图像区域为单位,提取图像区域视觉特征:HSVH特征、颜色矩特征和Gabor特征,并且使用词袋模型对图像区域内容进行表示。使用欧式距离计算图像区域间视觉特征的相关度得到图像区域相似性子图,如图4所示。
单元101为图像区域标签语义相关性子图的构建。两个标签之间的语义关系即为标签对的共现度。标签对的共现度是根据一个语义标签出现时,另一个语义标签也在同一幅图像中出现的条件概率计算得到。构建的图像区域标签语义相关性子图如图5所示。
单元102为各子图间关联的构建。各子图间的关联关系包括图像全局相似性子图与图像区域相似性子图的关联、图像全局相似性子图与图像区域标签语义相关性子图的关联、图像区域相似性子图与图像区域标签语义相关性子图的关联。图像全局相似性子图与图像区域相似性子图的关联是根据图像与该图像分割区域的隶属关系构建。图像全局相似性子图与图像区域标签语义相关性子图的关联是根据已标注图像的全局标签信息构建。图像区域相似性子图与图像区域标签语义相关性子图的关联是根据已标注图像区域的标签信息构建。
通过以上各种子图和各子图关联的构建,得到的视觉语义关系图如图2 所示。
单元103为跨层次的随机游走算法,这里分为两步:
(1)将未标注图像及其区域插入视觉语义关系图。首先将未标注图像插入视觉语义关系图中图像全局相似性子图,并提取图像的全局特征与已标注的图像的全局特征计算相似性,用于完善本层子图间全局相似性关联。然后将未标注图像按图像底层特征分割,得到的区域插入图像区域相似性子图,并提取图像区域的特征与已标注的图像区域特征计算相似性,用于完善本层子图间区域相似性关联。根据未标注图像的分割从属关系构建关系子图之间的关联。并将语义标签与未标注图像以及区域建立初始值为零的关联边。此时并将未标注图像插入视觉语义关系图,构建新的视觉语义关系图。
(2)对于新构建的视觉语义关系图,将图像顶点、图像区域顶点以及语义标签顶点看作一个三元组复合顶点,此顶点作为跨层次随机游走的基本单位。以复合节点为单位在新构建的视觉语义关系图上进行随机游走,其游走的初始值为未标注区域与语义标签的关联值,其转移矩阵为已构建的各子图内部关联及子图间的关联,其游走路线可以在三层视觉语义关系图上随意跳转。每次迭代伴随着各个复合节点的值的更新,通过多次迭代直至所有复合节点的值到达比较稳定的状态,此时可以得到未标注图像区域与语义标签间的关联值,选取与未标注图像区域关联值最高的语义标签作为该区域的预测标签。
Claims (4)
1.一种基于视觉语义关系图的图像区域标注方法,其特征包括两个步骤:
(1)分析图像间的全局相似性、区域相似性以及图像区域标签的语义关联;
(2)分析各层次间的关联,构造视觉语义关系图;
(3)将未标注图像插入视觉语义关系图,并在新的语义关系图上实现跨层次随机游走算法,通过更新未标注图像区域与标签之间的关联度,对未标注图像区域进行标签预测。
2.如权利要求1所述方法,其特征在于步骤(1)中,视觉语义关系图包括图像全局相似性子图、图像区域相似性子图和图像区域标签语义相关性子图。图像全局相似性子图是根据图像全局场景进行相似性比较而建立图像间的关联;图像区域相似性子图是根据图像分割区域的相似性比较而建立区域间的关联;图像区域标签语义相关性子图是根据语义共现度建立标签间的关联。
3.如权利要求1所述方法,其特征在于步骤(2)中,视觉语义关系图之间的关联包括图像全局相似性子图与图像区域相似性子图的关联、图像全局相似性子图与图像区域标签语义相关性子图的关联、图像区域相似性子图与图像区域标签语义相关性子图的关联;图像全局相似性子图与图像区域相似性子图的关联描述图像与图像分割成区域的所属关系;图像全局相似性子图与图像区域标签语义相关性子图的关联是描述已标注图像的全局标签信息;图像区域相似性子图与图像区域标签语义相关性子图的关联是描述已标注图像的区域标签信息。
4.如权利要求1所述的方法,其特征在于步骤(3),基于视觉语义关系图的图像区域标注包括如下步骤:
(31)将未标注图像进行区域分割,分别将分割的区域以及全图插入视觉语义关系图,构建新的视觉语义关系图;
(32)用跨层次随机游走算法在新构造的视觉语义关系图中对未标注图像区域的标签进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711387422.9A CN107967494B (zh) | 2017-12-20 | 2017-12-20 | 一种基于视觉语义关系图的图像区域标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711387422.9A CN107967494B (zh) | 2017-12-20 | 2017-12-20 | 一种基于视觉语义关系图的图像区域标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107967494A true CN107967494A (zh) | 2018-04-27 |
CN107967494B CN107967494B (zh) | 2020-12-11 |
Family
ID=61995764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711387422.9A Active CN107967494B (zh) | 2017-12-20 | 2017-12-20 | 一种基于视觉语义关系图的图像区域标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967494B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830466A (zh) * | 2018-05-31 | 2018-11-16 | 长春博立电子科技有限公司 | 一种基于云平台的图像内容语义标注系统和方法 |
CN109359558A (zh) * | 2018-09-26 | 2019-02-19 | 腾讯科技(深圳)有限公司 | 图像标注方法、目标检测方法、装置及存储介质 |
CN110413989A (zh) * | 2019-06-19 | 2019-11-05 | 北京邮电大学 | 一种基于领域语义关系图的文本领域确定方法与系统 |
CN110705335A (zh) * | 2018-07-10 | 2020-01-17 | 北京京东尚科信息技术有限公司 | 一种样本图片的标注方法和装置 |
CN111161848A (zh) * | 2019-10-31 | 2020-05-15 | 杭州深睿博联科技有限公司 | Ct图像的病灶标注方法及装置、存储介质 |
CN113240125A (zh) * | 2021-01-13 | 2021-08-10 | 深延科技(北京)有限公司 | 模型训练方法及装置、标注方法及装置、设备及存储介质 |
CN114417845A (zh) * | 2022-03-30 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 一种基于知识图谱的相同实体识别方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012044668A1 (en) * | 2010-10-01 | 2012-04-05 | Google Inc. | Label embedding trees for multi-class tasks |
CN102495865A (zh) * | 2011-11-28 | 2012-06-13 | 南京大学 | 结合图像内部空间关系及视觉共生关系的图像标注方法 |
US20140037195A1 (en) * | 2012-08-03 | 2014-02-06 | Adobe Systems Incorporated | Image tag pair graph for image annotation |
CN104933029A (zh) * | 2015-06-23 | 2015-09-23 | 天津大学 | 一种基于概率主题模型的文本图像联合语义分析方法 |
-
2017
- 2017-12-20 CN CN201711387422.9A patent/CN107967494B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012044668A1 (en) * | 2010-10-01 | 2012-04-05 | Google Inc. | Label embedding trees for multi-class tasks |
CN102495865A (zh) * | 2011-11-28 | 2012-06-13 | 南京大学 | 结合图像内部空间关系及视觉共生关系的图像标注方法 |
US20140037195A1 (en) * | 2012-08-03 | 2014-02-06 | Adobe Systems Incorporated | Image tag pair graph for image annotation |
CN104933029A (zh) * | 2015-06-23 | 2015-09-23 | 天津大学 | 一种基于概率主题模型的文本图像联合语义分析方法 |
Non-Patent Citations (4)
Title |
---|
HIEN DUY PHAM 等: "Semi-supervised learning on bi-relational graph for image annotation", 《2014 22ND INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 * |
HUA WANG 等: "Image annotation using bi-relational graph of images and semantic labels", 《CVPR 2011》 * |
田东平: "融合PLSA和随机游走模型的自动图像标注", 《小型微型计算机系统》 * |
邱泽宇 等: "基于区域上下文感知的图像标注", 《计算机学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830466A (zh) * | 2018-05-31 | 2018-11-16 | 长春博立电子科技有限公司 | 一种基于云平台的图像内容语义标注系统和方法 |
CN110705335A (zh) * | 2018-07-10 | 2020-01-17 | 北京京东尚科信息技术有限公司 | 一种样本图片的标注方法和装置 |
CN109359558A (zh) * | 2018-09-26 | 2019-02-19 | 腾讯科技(深圳)有限公司 | 图像标注方法、目标检测方法、装置及存储介质 |
CN109359558B (zh) * | 2018-09-26 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 图像标注方法、目标检测方法、装置及存储介质 |
CN110413989A (zh) * | 2019-06-19 | 2019-11-05 | 北京邮电大学 | 一种基于领域语义关系图的文本领域确定方法与系统 |
CN111161848A (zh) * | 2019-10-31 | 2020-05-15 | 杭州深睿博联科技有限公司 | Ct图像的病灶标注方法及装置、存储介质 |
CN111161848B (zh) * | 2019-10-31 | 2023-08-29 | 杭州深睿博联科技有限公司 | Ct图像的病灶标注方法及装置、存储介质 |
CN113240125A (zh) * | 2021-01-13 | 2021-08-10 | 深延科技(北京)有限公司 | 模型训练方法及装置、标注方法及装置、设备及存储介质 |
CN113240125B (zh) * | 2021-01-13 | 2024-05-28 | 深延科技(北京)有限公司 | 模型训练方法及装置、标注方法及装置、设备及存储介质 |
CN114417845A (zh) * | 2022-03-30 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 一种基于知识图谱的相同实体识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107967494B (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967494A (zh) | 一种基于视觉语义关系图的图像区域标注方法 | |
Meng et al. | Object co-segmentation based on shortest path algorithm and saliency model | |
CN102663015B (zh) | 基于特征袋模型和监督学习的视频语义标注方法 | |
CN113553429B (zh) | 一种规范化标签体系构建及文本自动标注方法 | |
CN106250915A (zh) | 一种融合深度特征和语义邻域的自动图像标注方法 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN111291566B (zh) | 一种事件主体识别方法、装置、存储介质 | |
CN103425757A (zh) | 融合多模态信息的跨媒体人物新闻检索方法与系统 | |
CN103227963A (zh) | 基于视频运动目标检测和跟踪的静态监控视频摘要方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN110175246A (zh) | 一种从视频字幕中提取概念词的方法 | |
Wang et al. | Multiple semantic matching on augmented $ n $-partite graph for object co-segmentation | |
CN106055667A (zh) | 一种基于文本‑标签密度的网页核心内容提取方法 | |
WO2022160736A1 (zh) | 图像标注方法、装置、电子设备、存储介质及程序 | |
Xu et al. | Interactive key-value memory-augmented attention for image paragraph captioning | |
Nguyen et al. | Adaptive nonparametric image parsing | |
Li et al. | Multi-label pattern image retrieval via attention mechanism driven graph convolutional network | |
Leon et al. | Region-based caption text extraction | |
Wang et al. | Semantic annotation for complex video street views based on 2D–3D multi-feature fusion and aggregated boosting decision forests | |
CN104700410A (zh) | 基于协同过滤的教学视频标注方法 | |
Wysoczańska et al. | Clip-dinoiser: Teaching clip a few dino tricks | |
CN104142922A (zh) | 一种移动图像在线搜索与挖掘的分类方法 | |
CN112699684A (zh) | 命名实体识别方法和装置、计算机可读存储介质及处理器 | |
Wang et al. | Image captioning using region-based attention joint with time-varying attention | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |