CN108182443B - 一种基于决策树的图像自动标注方法和装置 - Google Patents

一种基于决策树的图像自动标注方法和装置 Download PDF

Info

Publication number
CN108182443B
CN108182443B CN201611122143.5A CN201611122143A CN108182443B CN 108182443 B CN108182443 B CN 108182443B CN 201611122143 A CN201611122143 A CN 201611122143A CN 108182443 B CN108182443 B CN 108182443B
Authority
CN
China
Prior art keywords
image
keywords
keyword
images
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611122143.5A
Other languages
English (en)
Other versions
CN108182443A (zh
Inventor
杨婉
李青海
简宋全
邹立斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Kingpoint Data Science And Technology Co ltd
Original Assignee
Guangdong Kingpoint Data Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Kingpoint Data Science And Technology Co ltd filed Critical Guangdong Kingpoint Data Science And Technology Co ltd
Priority to CN201611122143.5A priority Critical patent/CN108182443B/zh
Publication of CN108182443A publication Critical patent/CN108182443A/zh
Application granted granted Critical
Publication of CN108182443B publication Critical patent/CN108182443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于决策树的图像自动标注方法和装置。该装置包括:输入单元、预处理单元、分割提取单元、标注概率计算单元、生成树单元、词间相关性计算单元和选择关键词单元。与现有技术比较本发明的有益效果在于:对于一些获取的模糊图像进行修复,使得图像语义自动标注技术适用范围更广;更加全面地提取了图像底层特征,采用全局特征和局部特征来反映图像的真实视觉内容,提高图像语义自动标注的准确性;全局特征采用主成分分析的尺度不变特征,提高运算效率,特别是对于高维图像;解决了海量图像集的不可测量性,将图像标注问题转化为了分类问题进行标注,提高了传统模型的标注性能。

Description

一种基于决策树的图像自动标注方法和装置
技术领域
本发明涉及图像语义自动标注技术领域,尤其涉及一种基于决策树的图像自动标注方法和装置。
背景技术
随着互联网技术的飞速发展,互联网上每天都有数以百万的新图像在增长。而如何根据用户的需求,在海量图像中快速有效地检索出目标图像是图像检索系统的目标。而图像语义标注则是图像检索的准备性的关键步骤。通过图像语义标注就可以将图像的检索问题转化为技术成熟、效率高的文本检索问题。但是传统的语义标注是通过人工的方式对每幅图像进行关键词描述,在现在数据爆炸的时代这种方式显然是既费时效率又低。基于图像内容的语义自动标注就是利用计算机自动实现从测试图像中提取视觉特征,并通过相似性匹配来检测图像。自动标注语义技术避免了人工描述的主观性,也大大提高了工作效率。
然而理想的语义自动标注模型均需要一个可以对任何图像进行标注的理想训练集,为了尽可能实现图像自动标注,所采用的训练集中图像数目是非常大的,可以说具有一种不可测量性。在标注过程中为了得到更加准确的标注结果,有时需要对训练集中所有图像进行多次运算,包括那些与待标注图像相关性非常低的图像,甚至是没有一点关系的图像,这无疑增加了运算的代价,给标注结果带来负面的影响。
鉴于上述缺陷,本发明创作者经过长时间的研究和试验,最终获得了本发明。
发明内容
本发明的目的在于提供一种基于决策树的图像自动标注方法和装置用以克服上述技术缺陷。
为实现上述目的,本发明采用的技术方案在于:
一方面提供了一种基于决策树的图像自动标注方法,该方法包括以下步骤:
步骤S1:输入图像集;
步骤S2:对所述图像集中的图像进行预处理;
步骤S3:采用N-cut算法对图像进行分割,分别对分割后的区域进行视觉特征提取和量化,然后根据量化后的特征信息计算出特征相似性,根据所述特征相似性将图像的有效区域进行聚类,形成视觉词元;
步骤S4:统计所述图像集中的训练图像的关键词和视觉词元信息,利用后验概率知识对图像进行初始标注,计算出每个关键词作为所述图像集中的测试图像标注的标注概率P(w|I);
步骤S5:根据所述标注概率P(w|I),设立阈值将所述标注概率P(w|I)分为三个部分,生成左子树和右子树;
步骤S6:利用词间相关性计算所述左子树和右子树之间的词间相关性;
步骤S7:将满足一定条件的关键词再形成新的左子树和右子树,选择所有的左子树里面的关键词作为待标注图像的关键词。
较佳的,所述步骤S2包括以下步骤:
步骤S21:对所述图像集中的所有图像,包括训练图像和测试图像,进行尺寸大小归一化;
步骤S22:对所述测试图像中的模糊图像利用维纳滤波法进行图像修复;
所述步骤S3包括以下步骤:
步骤S31:采用N-cut算法将所述图像集中的每幅图像都进行分割,选择图像的有效区域;
步骤S32:对分割后的图像的有效区域提取颜色特征和纹理特征作为局部特征描述算子,提取主成分分析的尺度不变特征作为全局特征,将所述局部特征和所述全局特征归一化之后融合成一个长特征向量;
步骤S33:根据所述长特征向量计算特征相似性;
步骤S34:根据所述特征相似性,采用K-均值方法对分割区域进行聚类,使得分割后的区域属于某一类别,同时赋予每一类一个唯一的整数编号,得到视觉词元。
较佳的,所述步骤S4包括以下步骤:
步骤S41:统计出每个关键词出现在每幅图像的标注中的次数,记为#(w,J);统计出关键词在训练集标注中的总次数,记为#(w,T);统计出视觉词元b出现在每幅图像中的次数#(b,J);最后统计出视觉词元b出现在全部训练集中的次数#(b,T);
步骤S42:计算
Figure BDA0001174520810000031
Figure BDA0001174520810000032
然后根据公式
Figure BDA0001174520810000033
将关键词与视觉词元的联合分布边缘化求得P(w|b1L bm)≈P(w|I);其中wi(i=1L n)为关键词,bi(i=1L m)为视觉词元,训练图像为Ji={b1L bm,w1L wn},T为训练图像集,I={b1L bm}为测试图像。
较佳的,所述步骤S5包括以下步骤:
步骤S51:设置双阈值ε12
步骤S52:根据
Figure BDA0001174520810000034
将关键词分为三部分,当P(w|I)>ε1时,直接选取相应的关键词作为待标注图像的关键词,设为左子树,当ε2<P(w|I)<ε1时将这些关键词置于同一集合中,作为右子树,当P(w|I)<ε2时直接舍弃这一部分关键词信息;其中S(w)、Q(w)表示满足条件的关键词集合,
Figure BDA0001174520810000035
表示不包含任何关键词。
较佳的,所述步骤S6具体为:根据词间相关性计算S(w)和Q(w)中关键词的相关性SI(w1,w2);其中,
Figure BDA0001174520810000036
#(w1,w2)表示任意两个关键词w1,w2同时作为一幅图像标注的共生次数,NT表示训练集图像的总数目,n1表示训练集中出现关键词w1的图像数目。
较佳的,所述步骤S7包括以下步骤:
步骤S71:如果SI(w1,w2)>γ,则将满足条件的关键词作为左子树,如果SI(w1,w2)<γ将其作为右子树。其中γ为阈值;
步骤S72:选择所有左子树里面的关键词作为待标注图像的关键词。
又一方面提供了一种基于决策树的图像自动标注装置,该装置包括:
输入单元,用于输入图像集。输入的图像集包括训练图像和测试图像;
预处理单元,用于对所述图像集中的图像进行预处理;
分割提取单元,用于采用N-cut算法对图像进行分割,分别对分割后的区域进行视觉特征提取和量化,然后根据量化后的特征信息计算出特征相似性,根据所述特征相似性将图像的有效区域进行聚类,形成视觉词元;
标注概率计算单元,用于统计所述图像集中的训练图像的关键词和视觉词元信息,利用后验概率知识对图像进行初始标注,计算出每个关键词作为所述图像集中的测试图像标注的标注概率P(w|I);
生成树单元,用于根据所述标注概率P(w|I),设立阈值将标注概率P(w|I)分为三个部分,生成左子树和右子树;
词间相关性计算单元,用于利用词间相关性计算所述左子树和右子树之间的词间相关性;
选择关键词单元,用于将满足一定条件的关键词再形成新的左子树和右子树,选择所有的左子树里面的关键词作为待标注图像的关键词。
较佳的,所述预处理单元包括:
归一化模块,用于对所述图像集中的所有图像,包括训练图像和测试图像,进行尺寸大小归一化;
图像修复模块:用于对所述测试图像中的模糊图像利用维纳滤波法进行图像修复;
所述分割提取单元包括:
分割模块,用于采用N-cut算法将所述图像集中的每幅图像都进行分割,选择图像的有效区域;
特征提取模块,用于对分割后的图像的有效区域提取颜色特征和纹理特征作为局部特征描述算子,提取主成分分析的尺度不变特征作为全局特征,将所述局部特征和所述全局特征归一化之后融合成一个长特征向量;
特征相似性计算模块,用于根据所述长特征向量计算特征相似性;
聚类模块,用于根据所述特征相似性,采用K-均值方法对分割区域进行聚类,使得分割后的区域属于某一类别,同时赋予每一类一个唯一的整数编号,得到视觉词元。
较佳的,所述标注概率计算单元包括:
统计模块,用于统计出每个关键词出现在每幅图像的标注中的次数,一般为0或者1,记为#(w,J);统计出关键词在训练集标注中的总次数,记为#(w,T);统计出视觉词元b出现在每幅图像中的次数#(b,J);最后统计出视觉词元b出现在全部训练集中的次数#(b,T);
标注概率计算模块,用于计算
Figure BDA0001174520810000051
Figure BDA0001174520810000052
然后根据公式
Figure BDA0001174520810000053
将关键词与视觉词元的联合分布边缘化求得P(w|b1L bm)≈P(w|I)。其中wi(i=1L n)为关键词,bi(i=1L m)为视觉词元,训练图像为Ji={b1L bm,w1L wn},T为训练图像集,I={b1L bm}为测试图像。
较佳的,所述生成树单元包括:
双阈值设置模块,用于设置双阈值ε12
生成树模块,用于根据
Figure BDA0001174520810000054
将关键词分为三部分,当P(w|I)>ε1时,直接选取相应的关键词作为待标注图像的关键词,设为左子树,当ε2<P(w|I)<ε1时将这些关键词置于同一集合中,作为右子树,当P(w|I)<ε2时直接舍弃这一部分关键词信息;其中S(w)、Q(w)表示满足条件的关键词集合,
Figure BDA0001174520810000055
表示不包含任何关键词;
所述词间相关性计算单元6具体的用于根据词间相关性计算S(w)和Q(w)中关键词的相关性SI(w1,w2);其中,
Figure BDA0001174520810000056
#(w1,w2)表示任意两个关键词w1,w2同时作为一幅图像标注的共生次数,NT表示训练集图像的总数目,n1表示训练集中出现关键词w1的图像数目;
所述选择关键词单元包括:
生成新树模块,用于如果SI(w1,w2)>γ,则将满足条件的关键词作为左子树,如果SI(w1,w2)<γ将其作为右子树。其中γ为阈值;
选择关键词模块,用于选择所有左子树里面的关键词作为待标注图像的关键词。
与现有技术比较本发明的有益效果在于:本申请提供的一种基于决策树的图像自动标注方法和装置,与现有技术相比,优越性体现在:
(1)对于一些获取的模糊图像进行修复,使得图像语义自动标注技术适用范围更广。
(2)更加全面地提取了图像底层特征,采用全局特征和局部特征来反映图像的真实视觉内容,提高图像语义自动标注的准确性。
(3)全局特征采用主成分分析的尺度不变特征,提高运算效率,特别是对于高维图像。
(4)解决了海量图像集的不可测量性,将图像标注问题转化为了分类问题进行标注,提高了传统模型的标注性能。
附图说明
图1为本发明提供的一种基于决策树的图像自动标注方法的流程图;
图2为步骤S2的流程图;
图3为步骤S3的流程图;
图4为本发明提供的一种基于决策树的图像自动标注装置的功能框图;
图5为预处理单元的功能框图;
图6为分割提取单元的功能框图;
图7为标注概率计算单元的功能框图;
图8为生成树单元的功能框图;
图9为选择关键词单元的功能框图。
具体实施方式
为便于进一步理解本发明的技术内容,下面结合附图对本发明作进一步说明。
实施例一
如图1所示,为本发明提供的一种基于决策树的图像自动标注方法的流程图,该方法包括以下步骤:
步骤S1:输入图像集。
输入的图像集包括训练图像和测试图像。
步骤S2:对所述图像集中的图像进行预处理。
步骤S3:采用N-cut算法对图像进行分割,分别对分割后的区域进行视觉特征提取和量化,然后根据量化后的特征信息计算出特征相似性,根据所述特征相似性将图像的有效区域进行聚类,形成视觉词元。
步骤S4:统计所述图像集中的训练图像的关键词和视觉词元信息,利用后验概率知识对图像进行初始标注,计算出每个关键词作为所述图像集中的测试图像标注的标注概率P(w|I)。
步骤S5:根据所述标注概率P(w|I),设立阈值将标注概率P(w|I)分为三个部分,生成左子树和右子树。
步骤S6:利用词间相关性计算所述左子树和右子树之间的词间相关性。
步骤S7:将满足一定条件的关键词再形成新的左子树和右子树,选择所有的左子树里面的关键词作为待标注图像的关键词。
如图2所示,为步骤S2的流程图,步骤S2包括以下步骤:
步骤S21:对所述图像集中的所有图像,包括训练图像和测试图像,进行尺寸大小归一化。
步骤S22:对所述测试图像中的模糊图像利用维纳滤波法进行图像修复。
如图3所示,为步骤S3的流程图,步骤S3包括以下步骤:
步骤S31:采用N-cut算法将所述图像集中的每幅图像都进行分割,选择图像的有效区域。
分割后可能会产生一些过小的区域,这些过小的区域所带的信息量较少,因此可以忽略,选择最大的10个区域作为图像的有效区域。
步骤S32:对分割后的图像的有效区域提取颜色特征和纹理特征作为局部特征描述算子,提取主成分分析的尺度不变特征(PCA-SIFT)作为全局特征,将所述局部特征和所述全局特征归一化之后融合成一个长特征向量。
其中,所述局部特征包括18种颜色特征和12种纹理特征。
步骤S33:根据所述长特征向量计算特征相似性。
计算公式为:S(u,v)=exp(-kDH(u,v)),其中S(u,v)表示特征向量u,v的特征相似性,DH(u,v)表示特征向量u,v的汉明距离;k表示已知的常数控制因子。
步骤S34:根据所述特征相似性,采用K-均值方法对分割区域进行聚类,使得分割后的区域属于某一类别,同时赋予每一类一个唯一的整数编号,得到视觉词元。其中K=500。
步骤S4包括以下步骤:
步骤S41:统计出每个关键词出现在每幅图像的标注中的次数,一般为0或者1,记为#(w,J);统计出关键词在训练集标注中的总次数,记为#(w,T);统计出视觉词元b出现在每幅图像中的次数#(b,J);最后统计出视觉词元b出现在全部训练集中的次数#(b,T)。
步骤S42:计算
Figure BDA0001174520810000081
Figure BDA0001174520810000082
然后根据公式
Figure BDA0001174520810000083
将关键词与视觉词元的联合分布边缘化求得P(w|b1L bm)≈P(w|I)。
其中wi(i=1L n)为关键词,bi(i=1L m)为视觉词元,训练图像为Ji={b1L bm,w1Lwn},T为训练图像集,I={b1L bm}为测试图像,αjj为相应的加权系数。
步骤S5包括以下步骤:
步骤S51:设置双阈值ε12
步骤S52:根据
Figure BDA0001174520810000084
将关键词分为三部分,当P(w|I)>ε1时,直接选取相应的关键词作为待标注图像的关键词,设为左子树,当ε2<P(w|I)<ε1时将这些关键词置于同一集合中,作为右子树,当P(w|I)<ε2时直接舍弃这一部分关键词信息;其中S(w)、Q(w)表示满足条件的关键词集合,
Figure BDA0001174520810000085
表示不包含任何关键词。
步骤S6具体为:根据词间相关性计算S(w)和Q(w)中关键词的相关性SI(w1,w2);其中,
Figure BDA0001174520810000091
#(w1,w2)表示任意两个关键词w1,w2同时作为一幅图像标注的共生次数,NT表示训练集图像的总数目,n1表示训练集中出现关键词w1的图像数目。
步骤S7包括以下步骤:
步骤S71:如果SI(w1,w2)>γ,则将满足条件的关键词作为左子树,如果SI(w1,w2)<γ将其作为右子树。其中γ为阈值;
步骤S72:选择所有左子树里面的关键词作为待标注图像的关键词。
实施例二
如图4所示,为本发明提供的一种基于决策树的图像自动标注装置的功能框图,该装置包括:输入单元1、预处理单元2、分割提取单元3、标注概率计算单元4、生成树单元5、词间相关性计算单元6和选择关键词单元7。
输入单元1,用于输入图像集。输入的图像集包括训练图像和测试图像。预处理单元2,用于对所述图像集中的图像进行预处理。分割提取单元3,用于采用N-cut算法对图像进行分割,分别对分割后的区域进行视觉特征提取和量化,然后根据量化后的特征信息计算出特征相似性,根据所述特征相似性将图像的有效区域进行聚类,形成视觉词元。标注概率计算单元4,用于统计所述图像集中的训练图像的关键词和视觉词元信息,利用后验概率知识对图像进行初始标注,计算出每个关键词作为所述图像集中的测试图像标注的标注概率P(w|I)。生成树单元5,用于根据所述标注概率P(w|I),设立阈值将标注概率P(w|I)分为三个部分,生成左子树和右子树。词间相关性计算单元6,用于利用词间相关性计算所述左子树和右子树之间的词间相关性。选择关键词单元7,用于将满足一定条件的关键词再形成新的左子树和右子树,选择所有的左子树里面的关键词作为待标注图像的关键词。
如图5所示,为预处理单元2的功能框图,预处理单元2包括:归一化模块21和图像修复模块22。归一化模块21,用于对所述图像集中的所有图像,包括训练图像和测试图像,进行尺寸大小归一化。图像修复模块22:用于对所述测试图像中的模糊图像利用维纳滤波法进行图像修复。
如图6所示,为分割提取单元3的功能框图,分割提取单元3包括:分割模块31、特征提取模块32、特征相似性计算模块33和聚类模块34。分割模块31,用于采用N-cut算法将所述图像集中的每幅图像都进行分割,选择图像的有效区域。分割后可能会产生一些过小的区域,这些过小的区域所带的信息量较少,因此可以忽略,选择最大的10个区域作为图像的有效区域。特征提取模块32,用于对分割后的图像的有效区域提取颜色特征和纹理特征作为局部特征描述算子,提取主成分分析的尺度不变特征(PCA-SIFT)作为全局特征,将所述局部特征和所述全局特征归一化之后融合成一个长特征向量。其中,所述局部特征包括18种颜色特征和12种纹理特征。特征相似性计算模块33,用于根据所述长特征向量计算特征相似性。计算公式为:S(u,v)=exp(-kDH(u,v)),其中S(u,v)表示特征向量u,v的特征相似性,DH(u,v)表示特征向量u,v的汉明距离。聚类模块34,用于根据所述特征相似性,采用K-均值方法对分割区域进行聚类,使得分割后的区域属于某一类别,同时赋予每一类一个唯一的整数编号,得到视觉词元。其中K=500。
如图7所示,为标注概率计算单元4的功能框图,标注概率计算单元4包括:统计模块41和标注概率计算模块42。
统计模块41,用于统计出每个关键词出现在每幅图像的标注中的次数,一般为0或者1,记为#(w,J);统计出关键词在训练集标注中的总次数,记为#(w,T);统计出视觉词元b出现在每幅图像中的次数#(b,J);最后统计出视觉词元b出现在全部训练集中的次数#(b,T)。
标注概率计算模块42,用于计算
Figure BDA0001174520810000101
Figure BDA0001174520810000102
然后根据公式
Figure BDA0001174520810000103
将关键词与视觉词元的联合分布边缘化求得P(w|b1L bm)≈P(w|I)。其中wi(i=1L n)为关键词,bi(i=1L m)为视觉词元,训练图像为Ji={b1L bm,w1L wn},T为训练图像集,I={b1L bm}为测试图像。
如图8所示,为生成树单元5的功能框图,生成树单元5包括:双阈值设置模块51和生成树模块52。
双阈值设置模块51,用于设置双阈值ε12
生成树模块52,用于根据
Figure BDA0001174520810000111
将关键词分为三部分,当P(w|I)>ε1时,直接选取相应的关键词作为待标注图像的关键词,设为左子树,当ε2<P(w|I)<ε1时将这些关键词置于同一集合中,作为右子树,当P(w|I)<ε2时直接舍弃这一部分关键词信息;其中S(w)、Q(w)表示满足条件的关键词集合,
Figure BDA0001174520810000112
表示不包含任何关键词。
词间相关性计算单元6具体的用于根据词间相关性计算S(w)和Q(w)中关键词的相关性SI(w1,w2);其中,
Figure BDA0001174520810000113
#(w1,w2)表示任意两个关键词w1,w2同时作为一幅图像标注的共生次数,NT表示训练集图像的总数目,n1表示训练集中出现关键词w1的图像数目。
如图9所示,为选择关键词单元7的功能框图,选择关键词单元7包括:生成新树模块71和选择关键词模块72。
生成新树模块71,用于如果SI(w1,w2)>γ,则将满足条件的关键词作为左子树,如果SI(w1,w2)<γ将其作为右子树。其中γ为阈值;
选择关键词模块72,用于选择所有左子树里面的关键词作为待标注图像的关键词。
本发明提供的一种基于决策树的图像自动标注方法和装置与现有技术相比,优越性体现在:
(1)对于一些获取的模糊图像进行修复,使得图像语义自动标注技术适用范围更广。
(2)更加全面地提取了图像底层特征,采用全局特征和局部特征来反映图像的真实视觉内容,提高图像语义自动标注的准确性。
(3)全局特征采用主成分分析的尺度不变特征,提高运算效率,特别是对于高维图像。
(4)解决了海量图像集的不可测量性,将图像标注问题转化为了分类问题进行标注,提高了传统模型的标注性能。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (10)

1.一种基于决策树的图像自动标注方法,其特征在于,该方法包括以下步骤:
步骤S1:输入图像集;
步骤S2:对所述图像集中的图像进行预处理;
步骤S3:采用N-cut算法对图像进行分割,分别对分割后的区域进行视觉特征提取和量化,然后根据量化后的特征信息计算出特征相似性,根据所述特征相似性将图像的有效区域进行聚类,形成视觉词元;
步骤S4:统计所述图像集中的训练图像的关键词和视觉词元信息,利用后验概率知识对图像进行初始标注,计算出每个关键词作为所述图像集中的测试图像标注的标注概率P(w|I),w为关键词,I为测试图像;
步骤S5:根据所述标注概率P(w|I),设立阈值将所述标注概率P(w|I)分为三个部分,生成左子树和右子树;
步骤S6:利用词间相关性计算所述左子树和右子树之间的词间相关性;
步骤S7:将满足一定条件的关键词再形成新的左子树和右子树,选择所有的左子树里面的关键词作为待标注图像的关键词;
所述步骤S3包括以下步骤:
步骤S31:采用N-cut算法将所述图像集中的每幅图像都进行分割,选择图像的有效区域;
步骤S32:对分割后的图像的有效区域提取颜色特征和纹理特征作为局部特征描述算子,提取主成分分析的尺度不变特征作为全局特征,将所述局部特征和所述全局特征归一化之后融合成一个长特征向量;
步骤S33:根据所述长特征向量计算特征相似性;
步骤S34:根据所述特征相似性,采用K-均值方法对分割区域进行聚类,使得分割后的区域属于某一类别,同时赋予每一类一个唯一的整数编号,得到视觉词元。
2.根据权利要求1所述的一种基于决策树的图像自动标注方法,其特征在于,
所述步骤S2包括以下步骤:
步骤S21:对所述图像集中的所有图像,包括训练图像和测试图像,进行尺寸大小归一化;
步骤S22:对所述测试图像中的模糊图像利用维纳滤波法进行图像修复。
3.根据权利要求2所述的一种基于决策树的图像自动标注方法,其特征在于,所述步骤S4包括以下步骤:
步骤S41:统计出每个关键词出现在每幅图像的标注中的次数,记为#(w,J);统计出关键词在训练集标注中的总次数,记为#(w,T);统计出视觉词元b出现在每幅图像中的次数#(b,J);最后统计出视觉词元b出现在全部训练集中的次数#(b,T);
步骤S42:计算
Figure FDA0002387814180000021
然后根据公式
Figure FDA0002387814180000022
将关键词与视觉词元的联合分布边缘化求得P(w|b1L bm)≈P(w|I);其中wi(i=1L n)为关键词,bi(i=1L m)为视觉词元,训练图像为Ji={b1L bm,w1L wn},T为训练图像集,I={b1L bm}为测试图像。
4.根据权利要求3所述的一种基于决策树的图像自动标注方法,其特征在于,所述步骤S5包括以下步骤:
步骤S51:设置双阈值ε1,ε2
步骤S52:根据
Figure FDA0002387814180000023
将关键词分为三部分,当P(w|I)>ε1时,直接选取相应的关键词作为待标注图像的关键词,设为左子树,当ε2<P(w|I)<ε1时将这些关键词置于同一集合中,作为右子树,当P(w|I)<ε2时直接舍弃这一部分关键词信息;其中S(w)、Q(w)表示满足条件的关键词集合,
Figure FDA0002387814180000031
表示不包含任何关键词。
5.根据权利要求4所述的一种基于决策树的图像自动标注方法,其特征在于,所述步骤S6具体为:根据词间相关性计算S(w)和Q(w)中关键词的相关性SI(w1,w2);其中,
Figure FDA0002387814180000032
#(w1,w2)表示任意两个关键词w1,w2同时作为一幅图像标注的共生次数,NT表示训练集图像的总数目,n1表示训练集中出现关键词w1的图像数目。
6.根据权利要求5所述的一种基于决策树的图像自动标注方法,其特征在于,所述步骤S7包括以下步骤:
步骤S71:如果SI(w1,w2)>γ,则将满足条件的关键词作为左子树,如果SI(w1,w2)<γ将其作为右子树,其中γ为阈值;
步骤S72:选择所有左子树里面的关键词作为待标注图像的关键词。
7.一种基于决策树的图像自动标注装置,其特征在于,该装置包括:
输入单元,用于输入图像集,输入的图像集包括训练图像和测试图像;
预处理单元,用于对所述图像集中的图像进行预处理;
分割提取单元,用于采用N-cut算法对图像进行分割,分别对分割后的区域进行视觉特征提取和量化,然后根据量化后的特征信息计算出特征相似性,根据所述特征相似性将图像的有效区域进行聚类,形成视觉词元;
标注概率计算单元,用于统计所述图像集中的训练图像的关键词和视觉词元信息,利用后验概率知识对图像进行初始标注,计算出每个关键词作为所述图像集中的测试图像标注的标注概率P(w|I);
生成树单元,用于根据所述标注概率P(w|I),设立阈值将标注概率P(w|I)分为三个部分,生成左子树和右子树;
词间相关性计算单元,用于利用词间相关性计算所述左子树和右子树之间的词间相关性;
选择关键词单元,用于将满足一定条件的关键词再形成新的左子树和右子树,选择所有的左子树里面的关键词作为待标注图像的关键词;
所述分割提取单元包括:
分割模块,用于采用N-cut算法将所述图像集中的每幅图像都进行分割,选择图像的有效区域;
特征提取模块,用于对分割后的图像的有效区域提取颜色特征和纹理特征作为局部特征描述算子,提取主成分分析的尺度不变特征作为全局特征,将所述局部特征和所述全局特征归一化之后融合成一个长特征向量;
特征相似性计算模块,用于根据所述长特征向量计算特征相似性;
聚类模块,用于根据所述特征相似性,采用K-均值方法对分割区域进行聚类,使得分割后的区域属于某一类别,同时赋予每一类一个唯一的整数编号,得到视觉词元。
8.根据权利要求7所述的一种基于决策树的图像自动标注装置,其特征在于,
所述预处理单元包括:
归一化模块,用于对所述图像集中的所有图像,包括训练图像和测试图像,进行尺寸大小归一化;
图像修复模块:用于对所述测试图像中的模糊图像利用维纳滤波法进行图像修复。
9.根据权利要求8所述的一种基于决策树的图像自动标注装置,其特征在于,所述标注概率计算单元包括:
统计模块,用于统计出每个关键词出现在每幅图像的标注中的次数,一般为0或者1,记为#(w,J);统计出关键词在训练集标注中的总次数,记为#(w,T);统计出视觉词元b出现在每幅图像中的次数#(b,J);最后统计出视觉词元b出现在全部训练集中的次数#(b,T);
标注概率计算模块,用于计算
Figure FDA0002387814180000051
然后根据公式
Figure FDA0002387814180000052
将关键词与视觉词元的联合分布边缘化求得P(w|b1L bm)≈P(w|I);其中wi(i=1L n)为关键词,bi(i=1L m)为视觉词元,训练图像为Ji={b1L bm,w1L wn},T为训练图像集,I={b1L bm}为测试图像。
10.根据权利要求9所述的一种基于决策树的图像自动标注装置,其特征在于,所述生成树单元包括:
双阈值设置模块,用于设置双阈值ε1,ε2
生成树模块,用于根据
Figure FDA0002387814180000053
将关键词分为三部分,当P(w|I)>ε1时,直接选取相应的关键词作为待标注图像的关键词,设为左子树,当ε2<P(w|I)<ε1时将这些关键词置于同一集合中,作为右子树,当P(w|I)<ε2时直接舍弃这一部分关键词信息;其中S(w)、Q(w)表示满足条件的关键词集合,
Figure FDA0002387814180000054
表示不包含任何关键词;
所述词间相关性计算单元6具体的用于根据词间相关性计算S(w)和Q(w)中关键词的相关性SI(w1,w2);其中,
Figure FDA0002387814180000055
#(w1,w2)表示任意两个关键词w1,w2同时作为一幅图像标注的共生次数,NT表示训练集图像的总数目,n1表示训练集中出现关键词w1的图像数目;
所述选择关键词单元包括:
生成新树模块,用于如果SI(w1,w2)>γ,则将满足条件的关键词作为左子树,如果SI(w1,w2)<γ将其作为右子树,其中γ为阈值;
选择关键词模块,用于选择所有左子树里面的关键词作为待标注图像的关键词。
CN201611122143.5A 2016-12-08 2016-12-08 一种基于决策树的图像自动标注方法和装置 Active CN108182443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611122143.5A CN108182443B (zh) 2016-12-08 2016-12-08 一种基于决策树的图像自动标注方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611122143.5A CN108182443B (zh) 2016-12-08 2016-12-08 一种基于决策树的图像自动标注方法和装置

Publications (2)

Publication Number Publication Date
CN108182443A CN108182443A (zh) 2018-06-19
CN108182443B true CN108182443B (zh) 2020-08-07

Family

ID=62544808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611122143.5A Active CN108182443B (zh) 2016-12-08 2016-12-08 一种基于决策树的图像自动标注方法和装置

Country Status (1)

Country Link
CN (1) CN108182443B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657087A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 一种数据批量标注方法、装置及计算机可读存储介质
CN110175546B (zh) * 2019-05-15 2022-02-25 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110865756B (zh) * 2019-11-12 2022-07-15 苏州智加科技有限公司 图像标注方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920820A (zh) * 2006-09-14 2007-02-28 浙江大学 基于标注重要性次序的图像语义自动标注方法
CN101620615A (zh) * 2009-08-04 2010-01-06 西南交通大学 一种基于决策树学习的自动图像标注与翻译的方法
CN102142089A (zh) * 2011-01-07 2011-08-03 哈尔滨工程大学 一种基于语义二叉树的图像标注方法
CN102542067A (zh) * 2012-01-06 2012-07-04 上海交通大学 基于尺度学习和关联标号传播的自动图像语义标注方法
CN102880873A (zh) * 2012-08-31 2013-01-16 公安部第三研究所 基于图像分割和语义提取实现人员行为识别的系统及方法
CN103246688A (zh) * 2012-12-03 2013-08-14 苏州大学 基于显著区域稀疏表示的语义层次模型图像分类管理方法
CN102222239B (zh) * 2011-06-03 2014-03-26 哈尔滨工程大学 基于视觉和标注字相关信息的标注图像场景聚类方法
CN105808752A (zh) * 2016-03-10 2016-07-27 大连理工大学 一种基于cca和2pknn的自动图像标注方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920820A (zh) * 2006-09-14 2007-02-28 浙江大学 基于标注重要性次序的图像语义自动标注方法
CN101620615A (zh) * 2009-08-04 2010-01-06 西南交通大学 一种基于决策树学习的自动图像标注与翻译的方法
CN102142089A (zh) * 2011-01-07 2011-08-03 哈尔滨工程大学 一种基于语义二叉树的图像标注方法
CN102222239B (zh) * 2011-06-03 2014-03-26 哈尔滨工程大学 基于视觉和标注字相关信息的标注图像场景聚类方法
CN102542067A (zh) * 2012-01-06 2012-07-04 上海交通大学 基于尺度学习和关联标号传播的自动图像语义标注方法
CN102880873A (zh) * 2012-08-31 2013-01-16 公安部第三研究所 基于图像分割和语义提取实现人员行为识别的系统及方法
CN103246688A (zh) * 2012-12-03 2013-08-14 苏州大学 基于显著区域稀疏表示的语义层次模型图像分类管理方法
CN105808752A (zh) * 2016-03-10 2016-07-27 大连理工大学 一种基于cca和2pknn的自动图像标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A System for Image Processing to Automatic Annotation;Eugen Ganea 等;《2010 Fifth International Multi-conference on Computing in the Global Information Technology》;20101231;第87-92页 *

Also Published As

Publication number Publication date
CN108182443A (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
CN108959431B (zh) 标签自动生成方法、系统、计算机可读存储介质及设备
US10853638B2 (en) System and method for extracting structured information from image documents
Song et al. Tvsum: Summarizing web videos using titles
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
WO2017166912A1 (zh) 商品短文本核心词提取方法和装置
US10867169B2 (en) Character recognition using hierarchical classification
CN108268875B (zh) 一种基于数据平滑的图像语义自动标注方法及装置
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
TW201734901A (zh) 屬性獲取方法和裝置
Pizzi et al. A self-supervised descriptor for image copy detection
CN112347244A (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
Hor et al. Image retrieval approach based on local texture information derived from predefined patterns and spatial domain information
EP2291765A2 (en) Statistical approach to large-scale image annotation
CN108182443B (zh) 一种基于决策树的图像自动标注方法和装置
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN109871454A (zh) 一种鲁棒离散监督跨媒体哈希检索方法
Roy et al. Date-field retrieval in scene image and video frames using text enhancement and shape coding
Patel et al. Dynamic lexicon generation for natural scene images
Li et al. HEp-2 specimen classification via deep CNNs and pattern histogram
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
CN111858939A (zh) 一种基于上下文信息和卷积神经网络的文本情感分类方法
Devi et al. Text extraction from images using gamma correction method and different text extraction methods—A comparative analysis
Wei et al. Word image representation based on visual embeddings and spatial constraints for keyword spotting on historical documents
CN115203408A (zh) 一种多模态试验数据智能标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An automatic image annotation method and device based on decision tree

Effective date of registration: 20211022

Granted publication date: 20200807

Pledgee: Agricultural Bank of China Limited Dongcheng Branch of Guangzhou

Pledgor: GUANGDONG KINGPOINT DATA SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2021440000320

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20221230

Granted publication date: 20200807

Pledgee: Agricultural Bank of China Limited Dongcheng Branch of Guangzhou

Pledgor: GUANGDONG KINGPOINT DATA SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2021440000320

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An automatic image annotation method and device based on decision tree

Effective date of registration: 20230131

Granted publication date: 20200807

Pledgee: Agricultural Bank of China Limited Dongcheng Branch of Guangzhou

Pledgor: GUANGDONG KINGPOINT DATA SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2023440020017