CN104636761A - 一种基于多层分割的图像语义标注方法 - Google Patents
一种基于多层分割的图像语义标注方法 Download PDFInfo
- Publication number
- CN104636761A CN104636761A CN201510109759.8A CN201510109759A CN104636761A CN 104636761 A CN104636761 A CN 104636761A CN 201510109759 A CN201510109759 A CN 201510109759A CN 104636761 A CN104636761 A CN 104636761A
- Authority
- CN
- China
- Prior art keywords
- image
- region
- segmentation
- label
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多层分割的图像语义标注方法,通过在图像区域分割时引入MFBSA方法提取图像的显著性部分,同时采用了多层分割的方法,即:将得到的显著性区域与N-Cut方法结合得到第一层分割,然后对图片以10*10像素划分,进行第二层细化分割。在进行特征提取时采用基于区域的BoW模型,优化视觉词的生成过程,从而使视觉词更加准确的表示区域特征,在进行标签和视觉词匹配的过程中,引入条件随机场模型,并在条件随机场模型训练的过程中充分考虑语义位置信息。采用Z字型的顺序作为区域顺序进行模型训练。实验表明,本发明运用多层分割得到的标注结果要明显优于单层分割,极大地提高了图像语义标注的准确性。
Description
技术领域
本发明主要涉及图像语义标注领域,具体设计一种基于多层分割的图像语义标注方法。
背景技术
图像语义标注是指对一副图像的不同语义信息匹配对应语义关键词的过程。图像的语义概念即图像的含义,对于自然图像来说,每一幅图像中都有多个不同视觉特征对象,相应地对应了多个语义概念,图像标注在图像检索领域有着重要的应用,高效和准确的标注算法是建立精确的检索系统的前提。
图像标注领域的研究已经进行了许多年,也取得了一定的成果,但是实际应用的不多,目前主流的图像标注方法分为两个方面,基于全局信息的图像语义标注,基于区域划分的图像语义标注。前者免去了对图像进行区域分割,区域聚类等多个过程,但是只适用于简单的图像或背景单一的图像,不能反映图像丰富的细节语义;基于区域的语义标注则首先需要对图片进行区域分割,分割结果的好坏直接影响标注结果。由于语义概念通常不会孤立而存在,它们总会与其他语义概念有共生或互斥关系,图像的语义上下文有丰富的语义信息,所以仅从提高分割精度来提高标注算法的准确性,也存在一定的局限性。
发明内容
本发明的目的在于提供一种基于多层分割的图像内容表示的多标签自动标注方法,此方法基于多层分割的图像内容表示方法提高表示的准确性,这种方法包含了多层分割和基于区域的“词袋”模型;同时利用二阶条件随机场引入一幅图像上各标签之间的上下文关系进行多标签标注。
本发明的技术方案如下:
(1)多层分割:第一层分割利用基于多特征的显著性分析算法(Multi-feature basedsaliency analysis,MFBSA)和N-Cut分割算法将图像分为若干个独立的语义区域;第二层分割是将第一层分割得到的语义区域进一步划分为10*10像素的小格子
(2)特征提取:提取图像的三种特征来进行图像的表示,包括:HSV颜色直方图(HSVcolor histogram,HSVH),颜色矩(color moments,CM),和Gabor纹理特征。
(3)构建视觉词(visual words)表示图像区域的内容:利用基于区域的“词袋”模型为图像的每一个区域构建一个视觉词用于表示该区域的视觉内容,使得图像内容的表示更加接近于高层语义。
(4)训练标注模型:对一幅图片,将区域标号以蛇型的顺序录入,并录入对应的语义信息标号,对所有的训练图像执行此操作,从而得到视觉词和语义标签之间的关系。
(5)图像多标签标注:将测试图像的视觉词和模型参数输入上述训练模型,得到标注结果,并对标注结果的准确性进行检查。
附图说明
图1为本发明的算法流程图
图2为本发明的第一层分割流程图
图3为本发明的第二层分割流程图
图4为本发明的特征提取流程图
图5为本发明的基于区域的BoW模型
图6为本发明的CRF模型训练流程图
图7为本发明的图像标注流程图
图8为本发明的一阶链式CRF模型
具体实施方式
下面结合附图通过实施过程对本发明做进一步的详细说明。
本发明所述的多层分割语义标注模型的流程如图1所示,图1包括5个单元。
单元100为对初始图像集进行预处理的单元。得到标准图像集。
单元101为对图像进行多层分割的单元。其具体分割过程如图2和图3所示。
单元102为对图像集进行特征提取的单元,其具体特征提取过程如图4所示。
单元103为对图像集进行区域BoW模型的单元,其具体过程如图5所示。
单元104为训练CRF模型的处理单元,其具体过程如图6所示。
单元105为输出CRF模型参数单元。根据104单元的训练过程,得到训练结果。
本发明所用的多层分割算法分为第一层分割和第二层分割,第一层分割流程如图2所示,图2包含7个单元,根据第一层的分割结果,进行第二层分割,流程如图3所示,图3包含4个单元。
第一层分割包含的具体步骤如下:
对原始图像集合进行预处理,得到标准图像集,通过N-cut算法和MFBSA(Multi-feature based saliency analysis)显著性算法结合起来对图像进行第一层分割,MFBSA通过分析像素间的关系来提取图像中的显著性对象,首先从对可视化内容分析中获得的三种不同可视化特征:多尺度对比特征,颜色空间分布特征以及中间-四周直方图,然后对着三种特征进行线性结合计算显著图。最后通过大量实验分析得到的相关阈值进行比较,最终得到显著对象。
单元106为将得到的标准图像集中的一幅图像作为输入的单元。
单元107为将采用MFBSA(Multi-feature based saliency analysis)方法计算得到图像的显著性区域的单元,显著性区域记为Qi。
单元108为利用N-CUT分割算法将图像Ii分割为若干区域的单元,分割结果记为
单元109将显著性区域与初始分割结果进行合并的单元,得到新的分割结果,记为
单元110是统计中每个区域的像素个数,将其与预定阈值进行比较,将像素与相邻区域合并。
单元111是计算每一对相邻区域之间的欧式距离,将相似的相邻区域进行区域合并。
单元112是得到第一层分割得到的分割结果。
第二层分割以第一层的分割结果作为输入,其具体过程如下:
单元113是将第一层分割的结果和标准图像作为输入。
单元114将标准图像划分为10*10像素的小格。
单元115是找到每一个网格大多数像素所属的区域。
单元116是第二层分割得到的分割结果。
本发明所用的特征提取算法如图4所示,包含10个单元。
单元117是将图像标注集中的图像Ii和其分割结果作为输入。
单元118,119,120,121是提取小格子三种特征来进行图像的表示,包括:HSV颜色直方图(HSV color histogram,HSVH),颜色矩(color moments,CM),和Gabor纹理特征,分别为256维,225维,60维,其中N3为Ii本划分的区域个数。
单元122,123,124,125是将提取到的特征融合组成541维的特征向量。
单元126是得到图像Ii中第j网格的低层特征向量从而得到图像集的特征数据集。
本发明所用的基于区域的“词袋”模型算法如图5所示,包含5个单元。
单元127将特征提取所得的所有训练图像的低层特征数据集和第二层分割结果作为输入。
单元128将单元127的输入进行聚类分析,不断迭代得到K1个聚类结果以及聚类中心和特征数据集聚类结果 其中代表第i幅图中第j个网格所属的类标号,计算方法如下公式所示:
单元129在聚类结果U的基础上统计每个区域中各类网格的分布情况,得到所有网格的分布向量W,记为:
其中:
单元130对W进行第二次聚类,得到K2个聚类结果{C'1,C'2,...,C'K1}及其聚类中心{c1',c'2,...,c'K1},从而得到所有训练图像的视觉词,
单元131是在第二次特征提取之后,每个区域都得到了一个区域标号,即上面提到的视觉词。
本发明所用的条件随机场训练模型算法如图6所示,包含3个单元。
根据单元131得到的BoW模型,利用条件随机场(Conditional Random Fields,CRFs),其一阶链式结构如图8所示,对于多标签图像标注,观察序列V就是视觉词序列,它由输入的图像得到;而每个ti都代表一个标签,也就是语义概念,通过CRF模型训练,得到V和T之间的关系。
单元132是将训练图像的视觉词和文本标签T作为输入。
单元133从V和T中生成特征函数,根据pΘ(t|v),将V和T之间的关系参数化;计算得到一组权值Θ={λ1,λ2...};使得训练数据集的对数似然函数最大。
单元134是得到模型参数Θ={λ1,λ2...}。
CRF模型的测试方法如下:
输入测试图像的视觉词V和模型参数Θ={λ1,λ2...};采用Viterbi算法,在规定观察序列V的条件下找到一个最优的状态序列,即标签序列;得到文本标签T.
本发明的标注过程如图7所示,包含7个单元。
单元136是将初始测试图像集作为输入。
单元137是通过标准化对每幅图像进行标准化处理。
单元138是采用多层分割方法对图像集进行分割。
单元139是对分割结果进行特征提取。
单元140是对每幅图像分配一个视觉词。
单元141是利用训练好的CRF模型对测试图像进行。
单元142是得到测试图像的标注结果。
本发明通过在图像区域分割时引入MFBSA方法提取图像的显著性部分,进而提高了分割的准确性,通过在进行特征提取时采用了基于区域的BoW模型,优化了视觉词的生成过程,从而使视觉词更加准确的表示区域的特征,在进行标签和视觉词匹配的过程中,并在条件随机场模型训练的过程中充分考虑了语义的位置信息,采用Z字型的顺序作为区域顺序进行模型训练,从而使图像的语义标注结果更加准确。本发明采用Corel 5K和Pascal VOC 2007作为实验数据集,选取了“建筑物”,“海滩风景”,“交通工具”三大类别的图像作为实验数据,平均准确度为75.71%,平均召回率为62.63%,而针对同样的数据集VCRFs的平均准确度为73.72%,召回率为38.18%,相比后者有较大的提高。从实验结果来看,本发明对自然图像的多标签标注较为有效。
Claims (6)
1.一种基于多层分割的图像语义标注方法,其特征包含以下几个步骤:
(1)多层分割:对原始图像集合进行预处理,得到标准图像集,通过N-cut算法和MFBSA(Multi-feature based saliency analysis)显著性算法结合起来对图像进行第一层分割,得到不同的区域;以本层分割得到的区域为基础,把区域划分为10*10像素的小格子,从而利用基于区域的BoW模型对图像区域进行内容表示;
(2)特征提取:提取图像的三个特征来进行图像的表示,包括:HSV颜色直方图(HSV colorhistogram,HSVH),颜色矩(color moments,CM),和Gabor纹理特征,分别提取256维,225维,60维;
(3)基于区域的BoW模型:为了得到正确的图像标注结果,需要在图像中的每一个语义区域匹配一个标签,通常,“词袋”模型用来对整幅图像的内容进行表示,但这里被用在基于区域分割的基础上,来表示区域的特征内容;
(4)二阶条件随机场:根据步骤(3)得到的BoW模型,利用条件随机场(Conditional RandomFields,CRFs),其一阶链式结构如图8所示,通过CRF模型,得到V和T之间的关系,并为图像的每一个区域R匹配一个标签;其中V为视觉词(Visual words),T为语义标签。
2.根据权利要求1所述的一种基于多层分割的图像语义标注方法,其特征在于步骤(1)所述的MFBSA显著性提取方法,通过对图像像素间的关系进行分析,得到三种不同可视化特征:多尺度对比特征、颜色空间分布特征、中间-四周直方图特征,对三种特征进行线性组合得到显著区域。
3.根据权利要求1所述的一种基于多层分割的图像语义标注方法,其特征在于步骤(1)所述的第一层分割方法,其具体过程如下:
(31)采用MFBSA方法计算得到图像的显著性区域,记为Qi;
(32)利用N-CUT分割算法将图像Ii分割为若干区域,分割结果记为Qi 0;
(33)将显著性区域与初始分割结果进行合并,得到新的分割结果,记为Qi 1;
(34)统计Qi 1中每个区域的像素个数,将其与预定阈值进行比较,将像素与相邻区域合并;
(35)计算每一对相邻区域之间的欧式距离,将形似相邻区域进行区域合并。
4.根据权利要求1所述的一种基于多层分割的图像语义标注方法,其特征在于步骤(1)所述的第二层分割方法,将第一层分割的结果和标准图像作为输入,同时将标准图像划分为10*10像素的小格,得到每一个网格大多数像素所属的区域。从而得到第二层分割结果。
5.根据权利要求1所述的一种基于多层分割的图像语义标注方法,其特征在于步骤(3)所述的基于区域的BoW模型,将步骤(2)所得的所有训练图像的低层特征进行聚类分析,得到所有训练图像的视觉词,即:
6.根据权利要求1所述的一种基于多层分割的图像语义标注方法,其特征在于步骤(4)所述的条件随机场,其分为训练过程和标注过程;
(71)训练过程:训练图像的视觉词和文本标签T;对一幅图片,将区域标号以Z型的顺序录入,并录入对应的语义信息标号,对所有的训练图像执行此操作,从而得到视觉词和语义标签之间的关系;
(72)标注过程:输入测试图像的视觉词V和模型参数Θ={λ1,λ2...};采用Viterbi算法,在规定观察序列V的条件下找到一个最优的状态序列,即标签序列;得到文本标签T。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510109759.8A CN104636761A (zh) | 2015-03-12 | 2015-03-12 | 一种基于多层分割的图像语义标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510109759.8A CN104636761A (zh) | 2015-03-12 | 2015-03-12 | 一种基于多层分割的图像语义标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104636761A true CN104636761A (zh) | 2015-05-20 |
Family
ID=53215489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510109759.8A Pending CN104636761A (zh) | 2015-03-12 | 2015-03-12 | 一种基于多层分割的图像语义标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104636761A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820843A (zh) * | 2015-05-29 | 2015-08-05 | 常熟苏大低碳应用技术研究院有限公司 | 一种基于优化高斯混合模型的图像语义标注的方法 |
CN105760886A (zh) * | 2016-02-23 | 2016-07-13 | 北京联合大学 | 一种基于目标识别与显著性检测的图像场景多对象分割方法 |
CN107025457A (zh) * | 2017-03-29 | 2017-08-08 | 腾讯科技(深圳)有限公司 | 一种图像处理方法和装置 |
CN108230346A (zh) * | 2017-03-30 | 2018-06-29 | 北京市商汤科技开发有限公司 | 用于分割图像语义特征的方法和装置、电子设备 |
CN108319985A (zh) * | 2018-02-07 | 2018-07-24 | 北京航空航天大学 | 图像语义标注的方法和装置 |
CN109657691A (zh) * | 2019-01-25 | 2019-04-19 | 宝鸡文理学院 | 一种基于能量模型的图像语义标注方法 |
CN110033055A (zh) * | 2019-04-19 | 2019-07-19 | 中共中央办公厅电子科技学院(北京电子科技学院) | 一种基于语义和材质解析与合成的复杂物体图像重光照方法 |
CN111340131A (zh) * | 2020-03-09 | 2020-06-26 | 北京字节跳动网络技术有限公司 | 图像的标注方法、装置、可读介质和电子设备 |
US10916013B2 (en) | 2018-03-14 | 2021-02-09 | Volvo Car Corporation | Method of segmentation and annotation of images |
US11100366B2 (en) | 2018-04-26 | 2021-08-24 | Volvo Car Corporation | Methods and systems for semi-automated image segmentation and annotation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7043474B2 (en) * | 2002-04-15 | 2006-05-09 | International Business Machines Corporation | System and method for measuring image similarity based on semantic meaning |
CN101923653A (zh) * | 2010-08-17 | 2010-12-22 | 北京大学 | 一种基于多层次内容描述的图像分类方法 |
CN103246688A (zh) * | 2012-12-03 | 2013-08-14 | 苏州大学 | 基于显著区域稀疏表示的语义层次模型图像分类管理方法 |
-
2015
- 2015-03-12 CN CN201510109759.8A patent/CN104636761A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7043474B2 (en) * | 2002-04-15 | 2006-05-09 | International Business Machines Corporation | System and method for measuring image similarity based on semantic meaning |
CN101923653A (zh) * | 2010-08-17 | 2010-12-22 | 北京大学 | 一种基于多层次内容描述的图像分类方法 |
CN103246688A (zh) * | 2012-12-03 | 2013-08-14 | 苏州大学 | 基于显著区域稀疏表示的语义层次模型图像分类管理方法 |
Non-Patent Citations (1)
Title |
---|
赵雅昕: ""图像内容表示及多标签标注算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820843A (zh) * | 2015-05-29 | 2015-08-05 | 常熟苏大低碳应用技术研究院有限公司 | 一种基于优化高斯混合模型的图像语义标注的方法 |
CN105760886A (zh) * | 2016-02-23 | 2016-07-13 | 北京联合大学 | 一种基于目标识别与显著性检测的图像场景多对象分割方法 |
CN105760886B (zh) * | 2016-02-23 | 2019-04-12 | 北京联合大学 | 一种基于目标识别与显著性检测的图像场景多对象分割方法 |
CN107025457A (zh) * | 2017-03-29 | 2017-08-08 | 腾讯科技(深圳)有限公司 | 一种图像处理方法和装置 |
CN107025457B (zh) * | 2017-03-29 | 2022-03-08 | 腾讯科技(深圳)有限公司 | 一种图像处理方法和装置 |
CN108230346A (zh) * | 2017-03-30 | 2018-06-29 | 北京市商汤科技开发有限公司 | 用于分割图像语义特征的方法和装置、电子设备 |
CN108230346B (zh) * | 2017-03-30 | 2020-09-11 | 北京市商汤科技开发有限公司 | 用于分割图像语义特征的方法和装置、电子设备 |
CN108319985A (zh) * | 2018-02-07 | 2018-07-24 | 北京航空航天大学 | 图像语义标注的方法和装置 |
CN108319985B (zh) * | 2018-02-07 | 2022-05-17 | 北京航空航天大学 | 图像语义标注的方法和装置 |
US10916013B2 (en) | 2018-03-14 | 2021-02-09 | Volvo Car Corporation | Method of segmentation and annotation of images |
US11100366B2 (en) | 2018-04-26 | 2021-08-24 | Volvo Car Corporation | Methods and systems for semi-automated image segmentation and annotation |
CN109657691A (zh) * | 2019-01-25 | 2019-04-19 | 宝鸡文理学院 | 一种基于能量模型的图像语义标注方法 |
CN109657691B (zh) * | 2019-01-25 | 2020-08-18 | 宝鸡文理学院 | 一种基于能量模型的图像语义标注方法 |
CN110033055A (zh) * | 2019-04-19 | 2019-07-19 | 中共中央办公厅电子科技学院(北京电子科技学院) | 一种基于语义和材质解析与合成的复杂物体图像重光照方法 |
CN111340131A (zh) * | 2020-03-09 | 2020-06-26 | 北京字节跳动网络技术有限公司 | 图像的标注方法、装置、可读介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104636761A (zh) | 一种基于多层分割的图像语义标注方法 | |
Yi et al. | An improved tiny-yolov3 pedestrian detection algorithm | |
Zhang et al. | Scale adaptive proposal network for object detection in remote sensing images | |
CN102592268B (zh) | 一种分割前景图像的方法 | |
Bazzani et al. | Self-taught object localization with deep networks | |
CN104537676B (zh) | 一种基于在线学习的渐进式图像分割方法 | |
CN102651128B (zh) | 一种基于采样的图像集分割方法 | |
CN102833638B (zh) | 基于字幕信息的视频自动切分及标注方法及系统 | |
CN106055573B (zh) | 一种多示例学习框架下的鞋印图像检索方法及系统 | |
CN101551809B (zh) | 基于高斯混合模型分类的sar图像检索方法 | |
CN103559237B (zh) | 基于目标跟踪的半自动图像标注样本生成方法 | |
CN102968637A (zh) | 一种复杂背景图像文字分割方法 | |
CN103227963A (zh) | 基于视频运动目标检测和跟踪的静态监控视频摘要方法 | |
CN102254326A (zh) | 利用核传递进行图像分割的方法 | |
US10916022B2 (en) | Texture synthesis method, and device for same | |
CN105678297A (zh) | 一种基于标签转移及lstm模型的人像语义分析的方法及系统 | |
CN105493078A (zh) | 彩色草图图像搜索 | |
CN103745233B (zh) | 基于空间信息迁移的高光谱图像分类方法 | |
Saleh et al. | Traffic signs recognition and distance estimation using a monocular camera | |
CN103295032B (zh) | 基于空间Fisher向量的图像分类方法 | |
CN103578107B (zh) | 一种交互式图像分割方法 | |
CN103309982A (zh) | 一种基于视觉显著点特征的遥感影像检索方法 | |
CN107967494A (zh) | 一种基于视觉语义关系图的图像区域标注方法 | |
CN102982544A (zh) | 多前景目标图像交互式分割方法 | |
CN106844785A (zh) | 一种基于显著性分割的基于内容的图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150520 |