CN106295706B - 一种基于形状视觉知识库的图像自动分割和语义注释方法 - Google Patents

一种基于形状视觉知识库的图像自动分割和语义注释方法 Download PDF

Info

Publication number
CN106295706B
CN106295706B CN201610682342.5A CN201610682342A CN106295706B CN 106295706 B CN106295706 B CN 106295706B CN 201610682342 A CN201610682342 A CN 201610682342A CN 106295706 B CN106295706 B CN 106295706B
Authority
CN
China
Prior art keywords
shape
secant
semantic
unknown
knowledge library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610682342.5A
Other languages
English (en)
Other versions
CN106295706A (zh
Inventor
陈宝权
王雅芳
徐化永
冯康
吴炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201610682342.5A priority Critical patent/CN106295706B/zh
Publication of CN106295706A publication Critical patent/CN106295706A/zh
Application granted granted Critical
Publication of CN106295706B publication Critical patent/CN106295706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/752Contour matching
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于形状视觉知识库的图像自动分割和语义注释方法,具体步骤包括:构建基本的形状视觉知识库;得到形状视觉知识库相关语义统计信息;获取未知形状的割线候选集合;获取未知形状的类别候选集合和标签候选集合;利用整数线性规划求解最优的分割、形状的语义注释与部分的语义注释。本发明构建了一个对于现有知识库更加细粒度的形状视觉知识库,同时通过形状视觉知识库还能自动对未知形状进行分割和语义注释,具有高度扩展性。

Description

一种基于形状视觉知识库的图像自动分割和语义注释方法
技术领域
本发明属于图像识别的技术领域,尤其涉及一种基于形状视觉知识库的图像自动分割和语义注释方法。
背景技术
随着互联网以及移动互联的发展,网络上的由用户上传的各种各样的图片越来越多。类似雅虎旗下图片分享网站Flickr这样的图片分享平台长期以来一直期望把现有图像数据库以外的数字图像转化成数十亿的丰富的在线的图像资源,这些网络上大量的图片资源也为彻底改革计算机组织和理解图像的方式提供了可能;与此同时,网络上大量的图片促使了越来越多的研究者去研究怎样以语义的方式来组织和整理这些图片以及探索和挖掘这些图片中的视觉知识。
上述有关图像识别的研究过程是漫长的,现有技术在图片分类和图片物体检测方面的研究已经取得了重大的突破和进展。但是,在图像的细粒度信息方面,只有很少部分的研究工作涉及到物体形状轮廓以及形状内各个部分信息这些更加细粒度的图片信息的理解,提取出细粒度的图片信息在理解图片视觉内容上是很重要的,可以对图像进行更加精确的图像识别,例如:在进行图像识别时,除了识别出来图片里面有猫外,还希望区分出来这个猫的腿、头和尾巴等等。由于关于细粒度的图像理解需要关于这些物体丰富的背景知识,因此细粒度的图像理解在人工智能领域仍然是一个很困难的问题。在细粒度的图像理解上面取得的任何进展都会使很多人工智能领域的工作受益,精确的图像识别可以应用于许多场合:例如在机器人和自动驾驶领域去理解周围的环境,或者是在图像处理领域选择性的图像操作(删除或者替换一个物体的一部分)。
在现有技术中,为了更好的组织和理解这些数量庞大的图片信息,一种方式是以粗粒度的方式把网络上的图片组织起来,Jia Deng等人在2009年关于计算机视觉和图像识别的IEEE计算机协会会议上发表的“ImageNet:A large-scale hierarchical imagedatabase”提出了ImageNet图片知识库的概念,ImageNet图片知识库对每张图片提供类别的语义注释,同时按照WordNet中语义关系去分层的管理组织图片,为物体的识别和分类提供了大量的数据。虽然ImageNet的这种深度学习方法利用这些数据在物体识别和分类这些任务上已经完全的超过了人类,但是ImageNet仅仅是提供针对某张图片所属类别的语义注释,也就是说基于ImageNet的一些应用都是粗粒度的操作,都是基于整张图片或者是一个BBox框的,而不是针对物体的某个部分的细粒度的操作。
Bryan等人发表的“LabelMe:A database and web-based tool for imageannotation”提供了一个利用众包采集大量多边形语义注释的工具,Bryan等人提出的这个工具能够针对物体的某个部分进行这种细粒度的操作,但是并不能通过算法把分割和分割后各个部分的语义注释传递给未知形状,对于未知形状的识别、分割及分割后各个部分的语义注释只能通过手动的方式添加和扩展。而且提供的语义注释是没有限制的,也就是说可以是任意的,这种没有限制的语义注释需要后期大量的清理和组织。
在现有技术中,还有一些按照WordNet组织和管理的三维模型的知识库,例如ShapeNet和3DNet,但是一方面这些知识库针对的是三维模型,同时它的语义注释也是物体这个粗粒度级别的。
由此可见,在现有技术中还没有干净可用的基于部分的语义信息的形状视觉知识库供大家使用,同时也不存在对未知形状的自动分割和语义注释的方法。总而言之,目前需要本领域技术人员迫切解决的一个技术问题是:如何对图像尤其是未知形状的图像进行自动分割以及细粒度的语义注释,以及使用何种知识库来实现图像尤其是未知形状的图像的自动分割以及细粒度的语义注释。
发明内容
本发明为了解决上述问题,克服现有技术中不存在干净可用的基于部分语义信息的知识库,以及缺乏对图像尤其是未知形状的图像进行自动分割和部分语义注释的方法,提出了一种基于形状视觉知识库的图像自动分割和语义注释方法。
为了实现上述目的,本发明采用如下技术方案:
一种基于形状视觉知识库的图像自动分割和语义注释方法,具体步骤:
(1):通过UI界面人工提取图片中物体的形状轮廓,加入到Shapes集合;人工从WordNet中选取名词指定该形状的语义注释,加入到Classes集合;将提取后的形状通过short-cut方法进行自动分割,将分割后的部分及其对应的割线加入到Parts集合;人工从WordNet中选取名词指定各个分割后部分的语义注释,加入到Labels集合;将上述得到的结果按照WordNet中语义关系管理组织形成形状视觉知识库;
(2):对步骤(1)构建的所述形状视觉知识库中语义类别的相关信息进行统计,统计所述Classes集合中每一个类别的形状分割后各个部分数目的上限或者是确定的数目,以及Classes集合中每一个物体类别的中特有的部分;统计结果作为步骤(5)中的限制条件;
(3):对待识别图像进行形状提取,提取后的形状与步骤(1)中的形状视觉知识库进行形状匹配,若该形状为未知形状,对该未知形状通过short-cut方法进行自动分割,自动分割后的割线形成该未知形状的割线候选集合,并进入步骤(4),若该形状为已知形状,自动调取形状视觉知识库的关于该形状的各项信息;
(4):从步骤(1)构建的形状视觉知识库的Shapes集合中获取与步骤(3)中所述未知形状最匹配的k个形状,分别将Classes集合中该k个形状对应的语义注释加入类别候选集合,并计算各个类别的权重加入该未知形状的类别候选集合;
(5)分别从步骤(1)构建的形状视觉知识库的Parts集合与步骤(4)中获取的k个形状对应的各个部分中获取与未知形状的割线候选集合中各个割线最匹配的割线对应的部分,分别将Labels集合中与上述得到的部分对应的语义注释加入未知形状的标签候选集合;
(6):将步骤(3)中的未知形状的割线候选集合、步骤(4)中的未知形状的类别候选集合与步骤(5)中的未知形状的标签候选集合通过整数线性规划(ILP)方程组进行计算,同时步骤(2)中的统计结果作为整数线性规划(ILP)方程组的条件限制,求解出最优的分割、形状的语义注释与部分的语义注释。
所述步骤(1)中构建的形状视觉知识库包含下面四种数据集合:
Shapes集合:表示二维图像中的物体的形状轮廓集合,
Classes集合:表示图像数据中形状的语义注释的集合,即形状所属类别的集合
Parts集合:表示一个形状分割后的有意义的部分的集合,
Labels集合:表示对分割后每个部分的语义注释的集合,
所述步骤(1)中构建基本的形状视觉知识库的具体步骤包括:
(1.1):将各类物体的图片,利用图像工具手动提取图片中物体的轮廓信息,即提取图片的形状,加入Shapes集合,同时用户指定该形状的语义注释,即粗粒度语义注释,加入Classes集合,该形状的语义注释表示该形状所属的类别;所述形状的语义注释选自WordNet。
(1.2):利用short-cut方法对这些形状进行自动分割;该short-cut方法采用的是Lei Luo等人提出的“A computational model of the short-cut rule for 2d shapedecomposition”中提出的形状分割方法,该short-cut方法在选取割线时不仅依赖形状的几何特征,同时会考虑到人类视觉系统相关因素,简单来说就是依赖割线轮廓上的凹点来尽可能把该形状分割成多个非凹多边形。
(1.3):把步骤(1.2)中分割形状的割线和分割中用到的割点以UI图形化的方式展示给用户;用户按照自己的视觉知识对其进行操作,删除不正确的割线,同时以割点为基础添加新的割线;若割点分割不完全,则用户按照自己的视觉知识添加缺少的割线,得到最终的分割结果,将分割出的各个部分及其对应的割线加入Parts集合;
(1.4):用户对分割后的各个部分指定细粒度的语义注释,即对分割后的各个部分添加语义注释,将部分的语义注释加入Labels集合,所述部分的语义注释选自于WordNet,用户无法任意定义部分语义注释,保证了部分语义注释的干净可用。
(1.5):步骤(1.1)-步骤(1.4)得到的结果按照形状视觉知识库的方式进行组织存储,即按照WordNet中语义关系去管理组织步骤(1.1)-步骤(1.4)得到的结果,最终得到形状视觉知识库。
所述形状视觉知识库是基于WordNet中语义关系进行管理组织的,WordNet包括三种语义关系:类层次关系、部分与整体的关系以及语义和形状的关系。
类层次关系:主要表示大类别和小类别之间的语义包含关系;
部分与整体的关系:主要表示分割后的部分和整体形状之间的语义关系;
语义和形状的关系:主要表示形状与形状的语义注释或形状分割后各个部分与各个部分的语义注释的语义关系(一个语义注释包括哪种形状或部分,当然有可能是多种,不过同一种语义注释的各个形状或部分具有一定的相似性)。
所述步骤(2)中对形状视觉知识库进行统计信息的具体步骤如下:
(2.1):步骤(1.1)中对形状指定语义注释得到Classes集合后,统计所述Classes集合中每一个物体类别分割后各个部分数目的上限或者是确定的数目,例如在分割中,马前腿的数目不能超过二,大象的躯干有且只有一个。
(2.2):对于每一个物体类别,统计Classes集合的每一个物体类别分割出的各个部分中具有的独一无二的部分,意味着该部分只会在该类别中出现。例如在哺乳动物中只有大象会分割出来鼻子这个特殊的部分。
所述步骤(3)中获取未知形状的割线候选集合的具体步骤如下:
(3.1):利用short-cut方法对所述未知形状进行基本的自动分割,自动分割后的割线形成该未知形状的割线候选集合;
(3.2):为了避免步骤(3.1)中依赖形状的几何特征获取未知形状的割线候选集合会遗漏一些有效割线,利用步骤(1)中形状视觉知识库对所述未知形状传递形状视觉知识库中类似的割线,也就是利用步骤(1)的形状视觉知识库的Parts集合中的与自动分割出的割线匹配的割线对步骤(3.1)中获得的未知形状割线候选集合进行补充;
(3.3):删除步骤(3.1)和步骤(3.2)获取的未知形状的割线候选集合中的噪声候选割线。
所述步骤(3.2)中的具体步骤如下:
(3.2.1):首先利用形状匹配的方法从形状视觉知识库中挑选出和该未知形状最匹配的前k个形状,形成k对两两匹配的形状对。
(3.2.2):使用轮廓上采样的点来描述步骤(3.2.1)中一对两两匹配的形状对,采样点的原则为割线与形状轮廓的交点。
(3.2.3):使用动态规划的方法求取该对两两匹配的形状对之间最优的点与点之间的匹配。
(3.2.4):把形状视觉知识库中形状的割线按照对应的匹配点传递给与之拼匹配的未知形状。
(3.2.5):重复执行步骤(3.2.2)-步骤(3.2.4)这个过程,把从形状视觉知识库找到的最匹配的前k个形状的割线都传递到未知形状上。
所述步骤(3.3)的具体步骤如下:
(3.3.1):删除未知形状的割线候选集合中和形状轮廓相交的割线,保证未知形状的割线候选集合中选取的割线必须在形状内部。
(3.3.2):若未知形状的割线候选集合中存在两个割线相交的情况,只保留其中能切割出最长轮廓的割线,删除与其相交的全部割线。
(3.3.3):若未知形状的割线候选集合中存在两个割线距离太近的情况,合并这两个割线。
具体来说如果两条割线的距离小于某个阈值则被定义为此两条割线的隔离太近:
‖cut(d)-cut(e)‖2<∈,
其中cut(d)=pi,pj),其中pi为割线cut(d)的起始点,pj为割线cut(d)的结束点,∈=0.01×|shape_points|。
所述步骤(4)中得到未知形状的类别候选集合的步骤如下:
(4.1):获取步骤(3.2.1)的结果,即利用形状匹配的方法从形状视觉知识库中挑选出和该未知形状最匹配的前k个形状。
(4.2):该未知形状的类别候选集合为最匹配的前k个形状的类别的并集。考虑到该未知形状的类别候选集合中可能有两个形状是相同的类别的情况,采用同时计算类别候选集合中各个类别的权重值,计算出某个类别的权重值为该类别在前k个形状中出现的频率。
所述步骤(5)中得到标签候选集合的具体步骤如下:
对于步骤(3)中获取的未知形状的割线候选集合中的某个割线a来说,在步骤(4)中获取的k个形状中找到对应的匹配上的割线,割线a对应的部分的标签候选集合为步骤(4)中获取的k个形状中找到对应的匹配上的割线对应的部分的语义注释的并集。事实上,每条割线应该能产生两个部分,例如身体和腿,但在这里只考虑腿这个部分,所以割线和部分是一一对应的。
同时也需要计算割线a对应的部分的标签候选集合中各个部分的语义注释的权重值,这个权重值分为两部分:第一权重值和步骤(4.2)类似,为该部分的语义注释在步骤(4)中获取的k个形状上的注释中出现的频率,第一权重值主要保证部分的语义注释首先要和整体的形状匹配要保持一致。第二权重值主要考虑部分还具有独特性,如果整体形状相似性可以保证,那么部分之间应该也具有一定的相似性。第二权重值为该部分的语义注释对应的部分与(4)中获取的k个形状上对应部分的相似度的大小,即这两个部分之间匹配上的采样的点的数目。
所述步骤(6)中利用整数线性规划求解最优的分割和语义注释的步骤如下:
(6.1):添加步骤(2)中的统计信息,即添加统计出的所述Classes集合中每一个类别的形状分割后各个部分数目的限制,例如,一个四肢动物最多包含两条前腿和两条后腿;以及添加统计出的Classes集合中每一个物体类别的中特有的部分,对部分的语义注释进行限制,不能存在特有部分的语义注释出现在不包含该部分的类别中,但在包含该部分的类别中可以出现也可以不出现;
(6.2):添加形状的语义注释数目的限制,一个形状最多被分配一个语义注释,即一个形状最多被分配一个类别。
(6.3):添加形状类别包含部分语义注释的限制:例如,头部的部分里面只能包含鼻子、牙齿这类部分,不能包含腿这种部分。
(6.4):把步骤(6.1)-步骤(6.3)中的限制条件以及各种候选集合(割线候选集合、类别候选集合与标签候选集合)统一放入整数线性规划方程组中求解出一个最优的分割、形状的语义注释与部分的语义注释,得到最终的结果。
本发明的有益效果为:
(1)本发明方法构建了一个高质量可用的形状视觉知识库,与传统的知识库的不同,该方法不仅提供粗粒度的形状信息和语义注释,如大象、马、杯子等,还提供更加细粒度的物体部分的形状信息和部分语义注释,如头、鼻子、尾巴等,以及各个部分之间的层次语义关系;同时所有的语义注释都是基于WordNet的,不是任意随意定义的,这些语义注释相对来说干净可靠。
(2)本发明方法还提供了一种利用构建出的形状视觉知识库通过知识传递的方式对未知形状进行自动分割以及对未知形状中自动分割处的各个部分的语义注释的方法。对一个未知形状来说,结合形状分割、形状匹配以及整数线性优化的方法对其进行:类别语义注释,即判断它的种类;形状分割,即把该图片分割成多个有语义的部分;部分语义注释,即把分割后的各个部分添加语义注释。而且这三个操作是联合一起进行的,互相依赖,互为限制。
(3)本发明方法具有高度扩展性,即使在形状视觉知识库未出现的物体,但只要具有相同的形状和部分组成结构,该方法一样可以通过知识传递的方法对该形状进行分割和语义注释。
附图说明
图1为本发明的整体的方法流程图;
图2(a)为互联网中大量的图片信息;
图2(b)为手动提取图片中物体的轮廓形状信息;
图2(c)为对形状手动分割和语义注释;
图2(d)为形状视觉知识库;
图3为形状视觉知识库语义关系组织方式的示意图;
图4展示了分割和语义注释未知形状的流程;
图5(a)展示了本发明对大象分割的和语义注释的过程;
图5(b)展示了本发明对大象分割的和语义注释的过程;
图5(c)展示了本发明对大象分割的和语义注释的过程;
图5(d)展示了本发明对大象分割的和语义注释的结果;
图6为本发明中噪声候选割线的示意图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
本发明一方面构建了一个细粒度的形状视觉知识库,另一方面通过构建的细粒度的形状视觉知识库自动对未知形状进行分割和语义注释。与传统的知识库的不同,该方法不仅提供粗粒度的形状信息和语义注释,如大象、马、杯子等。同时还提供更加细粒度的物体部分的形状信息和部分语义注释,如头、鼻子、尾巴等,以及各个部分之间的层次语义关系。同时所有的语义注释都是基于WordNet的,不是任意随意定义的,所以这些注释相对来说干净可靠。该方法还提供了一个知识传递的方法,简单来说对一个未知形状来说,结合形状分割、形状匹配以及整数线性优化的方法对其进行:类别语义注释,即判断它的种类(大象还是马);形状分割,即把该图片分割成多个有语义的部分;部分语义注释,即把分割后的各个部分添加语义标签(该部分是头还是尾巴)。而且这三个操作是联合一起进行的,互相依赖,互为限制。例如,大象会比较容易分割出来鼻子这个部分,但是马应该是没有鼻子这个部分的。这样互相限制的方法很大程度上可以提高分割和语义注释的准确度。与传统的简单利用形状的几何特征分割不同,一方面在分割中不仅仅把部分分割出来,同时还给分割后的每个部分添加了语义注释。同时还能分割出一些几何特征不明显但确实存在的部分(在传统几何方法中这种部分一般是分割不出来的),同时还能过滤掉一些虽然几何特征很明显但明显不是物体一部分的一些错误分割(例如一个四条腿动物不可能分割出五条腿,所以有些部分就可能不需要存在)。
如图1所示的一种基于形状视觉知识库的图像自动分割和语义注释方法的整体方法流程图,一种基于形状视觉知识库的图像自动分割和语义注释方法,具体步骤包括:
(1):提供基本的算法以及UI界面,使用数量庞大的各类物体的图片人工构建出基本的形状视觉知识库,所述形状视觉知识库对每张图片提供粗粒度及细粒度的语义注释,同时按照WordNet中语义关系去分层的管理组织图片;
(2):对步骤(1)中的所述形状视觉知识库进行信息统计,得到针对某些类别相关的统计信息,统计结果作为步骤(5)中的限制条件;
(3):获取未知形状的割线候选集合:对待识别图像进行形状提取,提取后的形状与步骤(1)中的形状视觉知识库进行形状匹配,若该形状为未知形状,对该未知形状进行自动分割,获取该未知形状的割线候选集合,并进入步骤(4),若该形状为已知形状,自动调取形状视觉知识库的关于该形状的各项信息;
(4):获取步骤(3)中所述未知形状的类别候选集合:对步骤(3)中所述未知形状进行计算,获取所述未知形状的类别候选集合。
(5):获取步骤(3)中所述未知形状的标签候选集合:对步骤(3)中所述未知形状进行计算,获取所述未知形状的标签候选集合,所述标签候选集合包含了对分割后各个部分的语义注释。步骤(3)中所述割线候选集合里的每条割线能产生两个部分,在步骤(4)中只考虑其中一个部分,使得割线和部分是一一对应的。
(6):将步骤(3)中的未知形状的割线候选集合、步骤(4)中的未知形状的类别候选集合与步骤(5)中的未知形状的标签候选集合通过整数线性规划(ILP)方程组进行计算,同时步骤(2)中的统计结果作为整数线性规划(ILP)方程组的条件限制,求解出最优的分割、形状的语义注释与部分的语义注释。
如图2(a)~图2(d)所示的为本发明对形状视觉知识库的构建流程,图2(a)为输入的互联网上成千上万的图片,图2(b)展示了手动提取图片中物体的轮廓形状信息,图2(c)展示了对该形状手动分割和语义注释的结果,图2(d)为按照WordNet中语义关系去分层的管理组织图2(c)中的结果,形成形状视觉知识库。
所述步骤(1)中构建的形状视觉知识库包含下面四种数据集合:
Shapes集合:表示二维图像中的物体的形状轮廓集合;
Classes集合:表示图像数据中形状的语义注释的集合;
Parts集合:表示一个形状分割后的有意义的部分的集合;
Labels集合:表示对分割后每个部分的语义注释的集合。
所述步骤(1)中构建基本的形状视觉知识库的具体步骤包括:
(1.1):将数量庞大的各类物体的图片,如图2(a)中关于大象搜索出的图像,利用PS等图像工具手动提取图片中物体的轮廓信息即形状,如图2(b)中为提取出的大象的轮廓,加入Shapes集合,同时用户指定该形状的语义注释,即该形状的语义类别,属于粗粒度的语义注释加入Classes集合,所述形状的语义注释选自WordNet。如为图2(b)中的形状添加的语义类别为动物,哺乳动物,大象;
(1.2):利用short-cut方法对这些形状进行基本的自动分割;该short-cut方法采用的是Lei Luo等人提出的“A computational model of the short-cut rule for 2dshape decomposition”,该short-cut方法在提取割线时不仅依赖形状的几何特征,同时会考虑到人类视觉系统相关因素,简单来说就是依赖割线轮廓上的凹点来尽可能把该形状分割成多个非凹多边形。
(1.3):把步骤(1.2)中分割形状的割线和分割中用到的割点以UI图形化的方式展示给用户;用户按照自己的视觉知识对其进行手动操作,删除不正确的割线,同时以割点为基础添加新的割线;若割点分割不完全,则用户按照自己的视觉知识添加缺少的割线,得到最终的分割结果,将分割出的各个部分加入Parts集合。
(1.4):如图2(c)所示,用户对分割后的各个部分指定细粒度语义注释,即对分割后的各个部分添加语义注释,将对部分的语义注释加入Labels集合,部分语义注释选自于WordNet,用户无法任意定义部分语义注释,保证了部分语义注释的干净可用。
(1.5):如图2(d)所示,把步骤(1.1)-步骤(1.4)手动分割得到的数据以及语义注释的结果按照形状视觉知识库的方式进行组织存储,即按照WordNet中语义关系去分层的管理组织步骤(1.1)-步骤(1.4)得到的结果,最终得到形状视觉知识库。
所述形状视觉知识库是基于WordNet的分类,WordNet对物体的类别提供了语义的分类,包括三种语义关系:
类层次关系:该关系主要表示大类别和小类别之间的语义包含关系,例如,在人工构件形状视觉知识库时,对于一副大象的图片,对其提取的形状标记为大象,并且按照WordNet中类层次的语义关系将大象这种小类别归为哺乳动物的大类里,将其标记为isA(elephant,mammal);
部分与整体的关系:该关系主要表示分割后的部分和整体形状之间的语义关系;例如,在人工构件形状视觉知识库时,对于一副大象的图片,对其执行步骤(1.2)与(1.4),并且按照WordNet中部分与整体形状的语义关系将部分语义注释归为形状的语义类别里,将其标记为isPartOf(nose,elephant);
语义和形状的关系:该关系主要表示对形状的语义类别或形状分割后各个部分的部分语义注释的(当然有可能是多种,不过同一种语义的各个形状具有一定的相似性),例如,在人工构件形状视觉知识库时,对于一副棒球的图片,提取出的棒球的轮廓形状为圆形,将其标记为hasShape(baseball,round)。
如图3所示的形状视觉知识库语义关系组织方式的示意图,形状视觉知识库包含下面四种数据集合:Shapes集合Classes集合Parts集合Labels集合
所述步骤(2)中得到形状视觉知识库相关语义统计信息的具体步骤如下:
(2.1):步骤(1.1)中对形状指定语义类别后,统计所述Classes集合中每一个物体类别分割后各个部分数目的上限或者是确定的数目,例如在分割中,马前腿的数目不能超过二,大象的躯干有且只有一个。
(2.2):统计Classes集合的每一个物体类别分割出的各个部分中具有的独一无二的部分,意味着该部分只会在该类别中出现。例如在哺乳动物中只有大象会分割出来鼻子这个特殊的部分。
如图4所示的分割和语义注释未知形状的流程,图4为步骤(3)-步骤(5)中利用形状视觉知识库对未知形状进行分割和语义注释的整个流程。
所述步骤(3)中获取未知形状的割线候选集合的具体步骤如下:
(3.1):利用short-cut方法来获得该未知形状的割线候选集合,该方法在提取割线时主要依赖形状的几何特征同时会考虑到人类视觉系统相关因素,简单来说依赖割线轮廓上的凹点来尽可能把该形状分割成多个非凹多边形。
(3.2):为了避免步骤(3.1)中依赖形状的几何特征获取未知形状的割线候选集合会遗漏一些有效割线,利用步骤(1)中形状视觉知识库对所述未知形状传递形状视觉知识库中类似的割线,也就是利用步骤(1)的形状视觉知识库中类似的割线对步骤(3.1)中获得的未知形状割线候选集合进行补充;
(3.3):删除步骤(3.1)和步骤(3.2)获取的未知形状的割线候选集合中的噪声候选割线。
所述步骤(3.2)中利用步骤(1)手动构建的形状视觉知识库中类似的割线的具体步骤如下:
(3.2.1):首先利用形状匹配的方法从形状视觉知识库中挑选出和该未知形状最匹配的前k个形状(本发明实施例中将k设置为5),形成5对两两匹配的形状对。
(3.2.2):然后对1对两两匹配的形状对来说,使用轮廓上采样的点来描述这些形状,采样点的原则为割线与形状轮廓的交点。
(3.2.3):使用动态规划的方法来求取该对两两匹配的形状对之间最优的点与点之间的匹配。
(3.2.4):把形状视觉知识库中形状的割线按照对应的匹配点传递给与之拼配的未知形状。
(3.2.5):重复执行步骤(3.2.2)-步骤(3.2.4)这个过程,把从形状视觉知识库找到的最匹配的前5个形状的割线都传递到未知形状上。
图6为本发明中噪声候选割线的示意图,所述步骤(3.3)的具体步骤如下:
(3.3.1):删除未知形状的割线候选集合中和形状轮廓相交的割线,保证未知形状的割线候选集合中选取的割线必须在形状内部。例如图6中的割线l5
(3.3.2):若未知形状的割线候选集合中存在两个割线相交的情况,只保留其中能切割出最长轮廓的割线,删除与其相交的全部割线。例如图6中的割线l1与割线l2相交,删除割线l1
(3.3.3):若未知形状的割线候选集合中存在两个割线距离太近的情况,合并这两个割线。例如图6中的割线l3与割线l4相交,合并割线l3与割线l4
具体来说如果两条割线的距离小于某个阈值则被定义为此两条割线的隔离太近:
‖cut(d)-cut(e)‖2<∈,
其中cut(d)为一条割线,cut(e)为另一条割线,cut(d)=(pi,pj),其中pi为割线cut(d)的起始点,pj为割线cut(d)的结束点,∈=0.01×|shape_points|。
所述步骤(4)中得到未知形状的类别候选集合的步骤如下:
(4.1):获取步骤(3.2.1)的结果,即利用形状匹配的方法从形状视觉知识库中挑选出和该未知形状最匹配的前k个形状(本发明实施例中将k设置为5)。
(4.2):该未知形状的类别候选集合为最匹配的前5个形状的类别的并集。考虑到该未知形状的类别候选集合中可能有两个形状是相同的类别的情况,采用同时计算类别候选集合中各个类别的权重值,计算出某个类别的权重值为该类别在前5个形状中出现的频率。
所述步骤(5)中得到未知形状的标签候选集合的步骤如下:
对于步骤(3)中获取的未知形状的割线候选集合中的割线a来说,在前5个形状中找到对应的匹配上的割线,割线a对应的部分的标签候选集合为前5个形状中找到对应的匹配上的割线对应的部分的注释的并集。
同时也需要计算割线a对应的部分的标签候选集合中各个部分的语义注释的权重值,这个权重值分为两部分:第一权重值和步骤(4.2)类似,为该部分的语义注释在步骤(4)中获取的k个形状上的注释中出现的频率,第一权重值主要保证部分的语义注释首先要和整体的形状匹配要保持一致。第二权重值主要考虑部分还具有独特性,如果整体形状相似性可以保证,那么部分之间应该也具有一定的相似性。第二权重值为该部分的语义注释对应的部分与(4)中获取的k个形状上对应部分的相似度的大小,即这两个部分之间匹配上的采样的点的数目。
所述步骤(6)中利用整数线性规划求解最优的分割和语义注释的步骤如下:
(6.1):添加步骤(2)中的统计信息,即添加统计出的所述Classes集合中每一个类别的形状分割后各个部分数目的限制,例如,一个四肢动物最多包含两条前腿和两条后腿;以及添加统计出的Classes集合中每一个物体类别的中特有的部分,对部分的语义注释进行限制,不能存在特有部分的语义注释出现在不包含该部分的类别中,但在包含该部分的类别中可以出现也可以不出现;
(6.2):添加形状的语义注释数目的限制,一个形状最多被分配一个语义注释,即一个形状最多被分配一个类别。
(6.3):添加形状类别包含部分语义注释的限制:例如,头部的部分里面只能包含鼻子、牙齿这类部分,不能包含腿这种部分。
(6.4):把步骤(6.1)-步骤(6.3)中的限制条件以及各种候选集合(割线候选集合、类别候选集合与标签候选集合)统一放入整数线性规划方程组中求解出一个最优的分割、形状的语义注释与部分的语义注释,得到最终的结果。
图5(a)-5(d)展示了利用本发明方法对大象进行分割和语义注释的具体过程和结果。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于形状视觉知识库的图像自动分割和语义注释方法,其特征是,包括以下步骤:
(1):通过UI界面人工提取图片中物体的形状轮廓,加入到Shapes集合;人工从WordNet中选取名词指定该形状的语义注释,加入到Classes集合;将提取后的形状通过short-cut方法进行自动分割,将分割后的部分及其对应的割线加入到Parts集合;人工从WordNet中选取名词指定各个分割后部分的语义注释,加入到Labels集合;将上述得到的结果按照WordNet中语义关系管理组织形成形状视觉知识库;
(2):对步骤(1)构建的所述形状视觉知识库中语义类别的相关信息进行统计,统计所述Classes集合中每一个类别的形状分割后各个部分数目的上限或者是确定的数目,以及Classes集合中每一个物体类别中特有的部分;统计结果作为步骤(6)中的限制条件;
(3):对待识别图像进行形状提取,提取后的形状与步骤(1)中的形状视觉知识库进行形状匹配,若该形状为未知形状,对该未知形状通过short-cut方法进行自动分割,自动分割后的割线形成该未知形状的割线候选集合,并进入步骤(4),若该形状为已知形状,自动调取形状视觉知识库的关于该形状的各项信息;
(4):从步骤(1)构建的形状视觉知识库的Shapes集合中获取与步骤(3)中所述未知形状最匹配的k个形状,分别将Classes集合中该k个形状对应的语义注释加入类别候选集合;
(5)分别从步骤(1)构建的形状视觉知识库的Parts集合与步骤(4)中获取的k个形状对应的各个部分中获取与未知形状的割线候选集合中各个割线最匹配的割线对应的部分,分别将Labels集合中与上述得到的部分对应的语义注释加入未知形状的标签候选集合;
(6):将步骤(3)中的未知形状的割线候选集合、步骤(4)中的未知形状的类别候选集合与步骤(5)中的未知形状的标签候选集合通过整数线性规划ILP方程组进行计算,同时步骤(2)中的统计结果作为整数线性规划ILP方程组的条件限制,求解出最优的分割、形状的语义注释与部分的语义注释。
2.如权利要求1所述的一种基于形状视觉知识库的图像自动分割和语义注释方法,其特征是:所述步骤(1)中所述Shapes集合表示二维图像中的物体的形状轮廓集合;所述Classes集合表示图像数据中形状的语义注释的集合,及形状类别的集合;所述Parts集合表示一个形状分割后的有意义的部分的集合;所述Labels集合表示对分割后每个部分的语义注释的集合。
3.如权利要求1所述的一种基于形状视觉知识库的图像自动分割和语义注释方法,其特征是:所述步骤(1)中所述Parts集合为:将自动分割后的割线及割点以UI图形化的方式展示给用户,用户按照本身的视觉知识对自动分割的割线及割点进行校正,校正后的割线分割出的各个部分及其对应的割线形成Parts集合。
4.如权利要求1所述的一种基于形状视觉知识库的图像自动分割和语义注释方法,其特征是:步骤(1)及步骤(3)中的所述short-cut方法是依赖割线轮廓上的凹点来尽可能把该形状分割成多个非凹多边形。
5.如权利要求1所述的一种基于形状视觉知识库的图像自动分割和语义注释方法,其特征是:利用步骤(1)的形状视觉知识库的Parts集合中的与自动分割出的割线匹配的割线对所述步骤(3)中未知形状的割线候选集合进行补充得到未知形状的割线候选集合。
6.如权利要求5所述的一种基于形状视觉知识库的图像自动分割和语义注释方法,其特征是:所述补充的原则为:利用形状匹配的方法从形状视觉知识库中挑选出和该未知形状最匹配的前k个形状,形成k对两两匹配的形状对;使用轮廓上采样的点来描述一对两两匹配的形状对;使用动态规划的方法求取该对两两匹配的形状对之间最优的点与点之间的匹配;把形状视觉知识库中形状的割线按照对应的匹配点传递给与之匹配的未知形状;重复上述过程,把从形状视觉知识库找到的最匹配的前k个形状的割线都传递到未知形状上。
7.如权利要求5所述的一种基于形状视觉知识库的图像自动分割和语义注释方法,其特征是:删除步骤(3)中未知形状的割线候选集合中的噪声候选割线,所述噪声候选割线包括:未知形状的割线候选集合中和形状轮廓相交的割线,两两相交割线中除切割出最长轮廓的割线的其他割线,两个距离太近割线的中的一个割线。
8.如权利要求1所述的一种基于形状视觉知识库的图像自动分割和语义注释方法,其特征是:计算步骤(4)中得到的类别候选集合中各个类别的权重值,加入类别候选集合中。
9.如权利要求1所述的一种基于形状视觉知识库的图像自动分割和语义注释方法,其特征是:计算步骤(5)中得到的标签候选集合中各个部分的语义注释的权重值,该权重值包括:计算第一权重值,即某部分的语义注释在步骤(4)中获取的k个形状上的注释中出现的频率;以及计算第二权重值,即某部分的语义注释对应的部分与在步骤(4)中获取的k个形状上对应部分的相似度的大小。
10.如权利要求1所述的一种基于形状视觉知识库的图像自动分割和语义注释方法,其特征是:所述步骤(6)在整数线性规划方程组中添加的条件限制具体包括:形状的语义注释数目的限制,形状类别包含部分语义注释的限制与步骤(2)中的统计结果。
CN201610682342.5A 2016-08-17 2016-08-17 一种基于形状视觉知识库的图像自动分割和语义注释方法 Active CN106295706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610682342.5A CN106295706B (zh) 2016-08-17 2016-08-17 一种基于形状视觉知识库的图像自动分割和语义注释方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610682342.5A CN106295706B (zh) 2016-08-17 2016-08-17 一种基于形状视觉知识库的图像自动分割和语义注释方法

Publications (2)

Publication Number Publication Date
CN106295706A CN106295706A (zh) 2017-01-04
CN106295706B true CN106295706B (zh) 2019-04-19

Family

ID=57678489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610682342.5A Active CN106295706B (zh) 2016-08-17 2016-08-17 一种基于形状视觉知识库的图像自动分割和语义注释方法

Country Status (1)

Country Link
CN (1) CN106295706B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633031A (zh) * 2017-09-06 2018-01-26 叶进蓉 一种对图像进行语义注释的方法及装置
KR102699233B1 (ko) * 2019-09-16 2024-08-27 도큐가미, 인크. 문서 간 지능형 저작 및 처리 보조기

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757953A (en) * 1996-02-29 1998-05-26 Eastman Kodak Company Automated method and system for region decomposition in digital radiographic images
CN1920820A (zh) * 2006-09-14 2007-02-28 浙江大学 基于标注重要性次序的图像语义自动标注方法
CN101467145A (zh) * 2006-07-24 2009-06-24 谷歌公司 用于自动注释图像的方法和装置
US7889924B2 (en) * 2006-04-10 2011-02-15 Siemens Medical Solutions Usa, Inc. Globally optimal uninitialized graph-based rectilinear shape segmentation
CN103268635A (zh) * 2013-05-15 2013-08-28 北京交通大学 一种几何网格场景模型的分割及语义标注方法
CN103377376A (zh) * 2012-04-13 2013-10-30 阿里巴巴集团控股有限公司 图像分类的方法和系统、图像检索的方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757953A (en) * 1996-02-29 1998-05-26 Eastman Kodak Company Automated method and system for region decomposition in digital radiographic images
US7889924B2 (en) * 2006-04-10 2011-02-15 Siemens Medical Solutions Usa, Inc. Globally optimal uninitialized graph-based rectilinear shape segmentation
CN101467145A (zh) * 2006-07-24 2009-06-24 谷歌公司 用于自动注释图像的方法和装置
CN1920820A (zh) * 2006-09-14 2007-02-28 浙江大学 基于标注重要性次序的图像语义自动标注方法
CN103377376A (zh) * 2012-04-13 2013-10-30 阿里巴巴集团控股有限公司 图像分类的方法和系统、图像检索的方法和系统
CN103268635A (zh) * 2013-05-15 2013-08-28 北京交通大学 一种几何网格场景模型的分割及语义标注方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
.An effective solution for trademark image retrieval by combinaing;]Heng Qi etal.;《Pattern Recognition》;20101231;第1-2页
基于内容医学图像检索中相关反馈技术研究;蒋利勇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120515;第6-24页
基于形状特征的图像检索研究;孔珊珊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140215;第5-28,47-53页
面向用户的Web图像检索关键技术研究;邱兆文;《中国博士学位论文全文数据库 信息科技辑》;20110515;第37-50页

Also Published As

Publication number Publication date
CN106295706A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN114218400B (zh) 基于语义的数据湖查询系统及方法
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN112100380B (zh) 一种基于知识图谱的生成式零样本预测方法
CN110737805B (zh) 图模型数据的处理方法、装置和终端设备
CN109189959A (zh) 一种构建图像数据库的方法及装置
CN108509481A (zh) 基于文献共引聚类的研究前沿可视分析方法
CN105956015A (zh) 一种基于大数据的服务平台整合方法
KR101224312B1 (ko) 소셜 네트워킹 서비스 사용자를 위한 친구 추천 방법, 이를 위한 기록 매체 및 이를 이용하는 소셜 네트워킹 서비스 및 서버
Leonard et al. A 2d shape structure for decomposition and part similarity
CN110008306A (zh) 一种数据关系分析方法、装置及数据服务系统
Shalom et al. Part Analogies in Sets of Objects.
CN109543708B (zh) 融合拓扑特征的面向图数据的模式识别方法
CN112328794A (zh) 台风事件信息聚合方法
CN105447144B (zh) 基于大数据分析技术的微博转发可视化分析方法及系统
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
CN106295706B (zh) 一种基于形状视觉知识库的图像自动分割和语义注释方法
CN105631465A (zh) 一种基于密度峰值的高效层次聚类方法
Cai et al. Rule‐Enhanced Transfer Function Generation for Medical Volume Visualization
CN112699261B (zh) 一种服装图像自动生成系统及方法
CN114398499A (zh) 一种人体运动知识图谱构建方法及系统
CN109034392A (zh) 一种罗非鱼杂交配套系的选育方法及系统
De Floriani et al. A semantic web environment for digital shapes understanding
CN109753579B (zh) 一种基于频繁项目集的图片标注推荐方法
CN119514551A (zh) 融合知识图谱的语义特征表达方法以及装置
CN116805022A (zh) 一种基于群体传播的特定Twitter用户挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant