CN102364498A - 一种基于多标签的图像识别方法 - Google Patents
一种基于多标签的图像识别方法 Download PDFInfo
- Publication number
- CN102364498A CN102364498A CN2011103139563A CN201110313956A CN102364498A CN 102364498 A CN102364498 A CN 102364498A CN 2011103139563 A CN2011103139563 A CN 2011103139563A CN 201110313956 A CN201110313956 A CN 201110313956A CN 102364498 A CN102364498 A CN 102364498A
- Authority
- CN
- China
- Prior art keywords
- frequent
- item sets
- image
- many labels
- mlfcar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明公开一种基于多标签的图像识别方法,该方法包括图像样本的预处理、图像分割、特征提取、特征值离散化、频繁项目集L的挖掘、多标签关联分类规则MLACR的构造和图像识别;在频繁项目集L的挖掘的过程中采用了新的候选项目集修剪方法,该方法经过两次修剪操作,明显缩小了候选项目集的规模,进一步提高了算法的执行效率;在多标签关联分类规则MLACR的构造中使用了约简方法,以确保MLACR中不会出现多余规则。该方法可以一次性对单幅图像包括多个标签的图像进行识别的方法,该方法可以快速的构造候选频繁项目集,实现准确高效的多标签图像识别功能。
Description
技术领域
本发明属于图像的计算机分析技术的应用领域,具体涉及一种具有多标签图像的识别方法。
背景技术
图像识别是数据挖掘技术中的一个重要研究分支,它旨在通过训练图像样本数据集来构造一个分类函数或分类器,并利用该分类函数或分类器来识别待测图像的标签或标签集。在传统的被称为多类单标签图像识别问题中,每个图像数据只含有一个与之对应的标签。然而,在实际应用中,由于客观事物本身的复杂性,一幅图像可能同时包含多个不同的标签,比如在风景图识别中,一幅图像可以同时拥有“树林”、“ 山峰”、“草原”等主题;在医学图像识别中,一张医学图像可同时包含与“糖尿病”、”前列腺”等疾病相关的信息。与单标签分类问题不同的是,多标签分类问题的目标是寻找与待测图像数据相联系的标签集或一组标签,而不是单一标签。长期以来,单标签分类问题得到了广泛而深入的研究,各种性能较好的分类算法不断地被提出,并在图像识别领域中得到了成功应用,如基于决策树的分类方法、贝叶斯分类方法、基于神经网络的分类方法、K-最临近分类方法、基于关联规则的分类方法等。从表上看来,多标签分类和单标签分类具有很大的相似性,两者的目的都是对待测数据所包含的标签进行甄别,单标签分类是多标签分类问题的一个特例。然而多标签分类问题中标签间的关系(如相关性、共现性等)、标签和数据分布的不均衡性等问题将导致现有的面向单标签分类问题的方法并不能直接用来处理多标签分类问题,因而,如何设计出有效的多标签分类方法已成为图像识别领域中的一个研究热点。
目前,常用可用于图像识别的多标签分类方法有ML-KNN、改进的C4.5、Bp-MLL、PT系列、PPT、PPT-n、MMAC、RAKEL、RPC、CLR、INSDIF、MLRW等。ML-KNN是Zhang M.L.等人提出的一种基于KNN的多标签分类方法,该方法通过统计方法得出每个标签的先验概率,当输入一个待测图像数据 时,对标签集中的每个标签分别计算具有标签和不具有标签的概率,进而预测是否具有标签。算法Bp-MLL通过定义针对多标签图像数据的全局优化函数,使得人工神经元网络能够处理多标签数据。PT系列算法试图利用已有的基于单标签的分类方法来解决多标签分类问题,即在训练之前一次性地将训练图像样本数据集中所有包含多个标签的训练数据样本转换成单标签数据,经过相应处理后,算法所面对的训练数据样本集均为单标签样本集,从而将多标签分类问题转化为单标签分类问题。针对PT方法中新标签数量的不可控性,算法PPT、PPT-n、RAKEL提出了一系列处理方法,算法PPT和PPT-n通过阈值的设置来减少新标签的数量,算法RAKEL则是通过随机选择的方式来减少其数量的。算法RPC、CLR则通过对比标签集中任意两个标签之间的关系,建立(- 1) / 2 个分类器,每个分类器在两个标签之间投票,然后组合这些投票结果作为最终的多标签分类结果。
纵观上述这些方法,我们可以将多标签分类问题分为两类,一类是基于算法转化的方法,另一类是基于问题转化的方法。这些方法存在着一些算法本身无法克服的不足,如:改进的C4.5算法采用分而治之的策略所得到的决策树并不一定是最优的,决策树的结构调整、性能改善等也较为困难;算法Bp-MLL存在的问题是该方法不能观察中间的学习过程,最后的输出结果也较难解释,影响了结果的可信度及可接受程度,同时,该方法需要较长的学习时间;ML-KNN在高维数据的分类中,该方法的缺陷也得以凸显。
发明内容
本发明的目的是提供一种一次性对单幅图像包括多个标签的图像进行识别的方法,该方法可以快速的构造候选频繁项目集,实现准确高效的多标签图像识别功能。
本发明的技术方案是:一种基于多标签的图像识别方法,包括候选频繁项目集的构造和图像识别步骤,其特征在于:所述候选频繁项目集的构造和图像识别步骤包括:
步骤1图像样本数据集的准备和预处理,包括训练图像格式转换、尺度归一化、去噪和增强;
步骤2采用基于密度聚类的图像分割方法分别识别出每幅图像样本的待识别区域;
步骤3分别提取每幅训练图像中待识别区域的特征,构造图像样本数据库T,所述图像样本数据集T的关系模式为R(A1 , …, Ap, B1 , …, Bq),其中: A1 , ..., Ap为非标签属性的属性名,B1 , ..., Bq为标签属性的属性名;p和q分别为非标签属性和标签属性的个数;
步骤4特征值离散化;
步骤5频繁项目集L的挖掘;
步骤6 多标签关联分类规则MLACR的构造,所述多标签关联分类规则MLACR的构造分为多标签频繁关联分类规则MLFCAR的构造和多标签关联分类规则MLACR的生成,其步骤包括:
步骤6.1 构造多标签频繁关联分类规则的前件P和后件Q,其中:所述前件为频繁项目集L中所包含的非标签属性集,所述后件为频繁项目集L中所包含的标签属性集;
步骤6.3删除多标签频繁关联分类规则MLFCAR中置信度小于minconf的分类规则,构造最终的多标签频繁关联分类规则MLFCAR,其中minconf为最小置信度阈值;
步骤6.4 对多标签频繁关联分类规则MLFCAR进行约简,得到多标签关联分类规则MLACR;
步骤7 图像识别。
所述步骤5频繁项目集L的挖掘的具体步骤包括:
步骤5.1 计算频T中的频繁1-项目集L1,其包括:
其中:c为给定项目集;Count(c)为支持数,是项目集c在图像样本数据集T中的出现的次数;Sup(c)为支持度,Sup(c)= Count(c)/|T|,|T|表示图像样本数据集T中样本的个数;
步骤 5.2候选频繁项目集L的生成,其包括:
步骤5.2.1 根据频繁k-项目集Lk生成候选频繁(k+1)-项目集Ck+1,其中k为是频繁项目集的长度;
步骤 5.2.2计算候选频繁(k+1)-项目集Ck+1各项目集支持数,并根据最小支持度阈值minsup生成频繁(k+1)-项目集L k+1;
步骤5.2.1 重复步骤5.2.1,若生成候选项目集为空集,则进入步骤5.3;
所述步骤7图像识别的具体步骤包括:
步骤7.1待识别图的准备和预处理,包括训练图像格式转换、尺度归一化、去噪和增强;
步骤7.2采用基于密度聚类的图像分割方法识别出所述待识别图像的待识别区域;
步骤7.3提取出所述待识别图像中待识别区域的非标签属性特征;
步骤7.4非标签属性特征值离散化;
步骤7.5根据多标签关联分类规则MLACR识别所述待识别图像的标签属性。
所述步骤5.2.1根据频繁k-项目集Lk生成候选频繁(k+1)-项目集Ck+1的具体步骤包括:
步骤5.2.1.1 选择频繁k-项目集Lk中的任意项目集项c1和c2,如果所述c1和c2有k-1个项目相同,则Ck+1+= {c1 c2};
步骤5.2.1.2 重复步骤5.2.1.1,直到完成所有的项目集比较,得到候选频繁(k+1)-项目集Ck+1;
步骤5.2.1.3 对Ck+1中任意项目集c,如果所述项目集c存在长度为k的子集c3,且c3 Lk,删除所述项目集c;
步骤5.1.2.4删除Ck+1中只包含标签属性或非标签属性的项目集。
所述步骤6.4对多标签频繁关联分类规则MLFCAR进行约简,得到多标签关联分类规则MLACR的具体步骤包括:
步骤6.4.1 选择多标签频繁关联分类规则MLFCAR中前件长度最短的规则R1;
MLFCAR = MLFCAR-{R1};
步骤6.4.3 对于每个多标签频繁关联分类规则MLFCAR中的规则R,如果规则R1覆盖规则R,则执行
MLFCAR= MLFCAR -{R};
步骤6.4.4 如果多标签频繁关联分类规则MLFCAR不为空,重复执行步骤6.4.1至步骤6.4.4。
所述步骤6.4.3中的规则R1覆盖规则R是指对于多标签关联分类规则R1:P1 Q1和R:P2 Q2,满足P1 P2,Q1 Q2,其中P1和Q1分别为规则R1的前件和后件,P2和Q2分别为规则R的前件和后件。
所述步骤3的非标签属性包括均值、方差、倾斜度、峰态、能量、熵和聚类特征。
本发明的主要有益效果是可以一次性地识别出图像所包含的多个标签,并就识别过程中候选频繁项目集的构造以及规则的后处理等方面提出了相应的优化解决方案,其主要体现在:
(1) 候选项目集的生成方面
对于关联规则挖掘中候选项目集的生成问题,本发明提出了一种新的候选项目集修剪方法,该方法经过两次修剪操作,明显缩小了候选项目集的规模,进一步提高了算法的执行效率。
(2) 多标签关联分类规则的后处理方面
对于多标签频繁关联分类规则MLFCAR而言,它可能存在两个方面的问题,一是MLFCAR中包含相互覆盖的规则;二是MLFCAR中包含相互矛盾的规则。为此,本发明提出了一种多标签关联分类规则的约简方法,该方法可以确保MLACR中不会出现多余规则,极大地方便了规则的使用,进一步提高了本发明的有效性和可操作性。
附图说明
图1是本发明实施例的结构框图
图2是本发明实施例中频繁项目集挖掘流程图
图3是本发明实施例中多标签关联分类规则库构造流程。
具体实施方式
设R(A1 , …, Ap, B1 , …, Bq)为训练图像样本数据集T的关系模式,其中p和q分别为非标签属性(或图像特征属性)和标签属性的个数,A1 , ..., Ap为非标签属性的属性名,B1 , ..., Bq为标签属性的属性名。如图1所示,其主要包括以下几个方面的内容:
(1) 预处理
进行训练图像样本数据集的准备、格式转换、尺度归一化、去噪、增强等预处理工作。
(2) 图像分割
采用基于密度聚类的图像样本分割方法分别识别出每幅训练图像样本的待识别区域。
(3) 特征提取
分别提取每幅训练图像样本中待识别区域的特征,构造训练图像样本数据库T。
(4) 特征值离散化
非标签属性通过如下方法统一起来:
(5) 频繁项目集L的挖掘
设最小支持度阈值为minsup,给定项目集c,设其支持数记为Count(c),相应的支持度记为Sup(c),Sup(c)= Count(c)/|T|,|T|表示训练图像样本数据集T中样本的个数。如图2所示,频繁项目集L的挖掘分为初始化、候选频繁项目集的生成、候选频繁项目集支持数的计算。
初始化包括下列步骤:
a 设置T中的非标签属性集NLA和标签属性集LA,NLA={A1 , ..., Ap},LA={B1 , ..., Bq};
设Lk是长度为k的频繁项目集,由Lk生成候选频繁(k+1)-项目集Ck+1的方法包括下列步骤:
A. 成候选频繁(k+1)-项目集Ck+1,其步骤包括:
c if(c1和c2有k-1个项目相同) then
B. 对Ck+1进行第一次修剪,其步骤包括:
c Ck+1= Ck+1-{c};
B. 对Ck+1进行第二次修剪,删除Ck+1中只包含标签属性或非标签属性的项目集,因为这些候选项目集不可能构成多标签关联分类规则,其步骤包括:
c Ck+1= Ck+1-{c};
计算Ck+1中各项目集支持数的方法包括下列步骤:
b for each cCk+1
f Count(c)= Count(c)+1;
(6) 多标签关联分类规则MLACR的构造
设最小置信度阈值为minconf,,多标签关联分类规则MLACR的构造分为多标签频繁关联分类规则MLFCAR的构造和多标签关联分类规则MLACR的生成。如图3所示,其具体步骤包括:
A. MLFCAR的构造包括下列步骤:
c MLFCAR= MLFCAR{cNLL1 cLL1};
B. 分别计算多标签频繁关联分类规则MLFCAR中各分类规则的置信度,其中 P、Q分别为规则R的前件和后件,其步骤包括:
a for each RMLFCAR
c if(Conf(R)< minconf) then
d MLFCAR= MLFCAR-{R};
MLACR的生成包括下列步骤:
d MLFCAR = MLFCAR -{R1};
f if(规则R1覆盖规则R) then
g MLFCAR= MLFCAR -{R};
(7) 图像的识别
对于一幅未知标签集的图像t,其识别过程包括以下步骤。
对图像t进行格式转换、尺度归一化、去噪、增强等处理。
采用基于密度聚类的图像分割方法识别出图像t的待识别区域。
提取出图像t中待识别区域的特征。
设图像t经上述4步处理后得到的离散特征值为Vt,Vt=( t.A1=t1, ……, t.Ai= ti,……, t.Ap= tp)。图像t的识别过程包括以下步骤:
a for each RMLACR
b if (Vt包含R的前件) then
c 将R的后件赋给图像t,图像t的标签集即为R的后件;
d break;
e if (MLACR中不存在规则前件被Vt包含的规则) then
f 将MLACR中与Vt匹配属性数最多的那个规则的后件赋给图像t,图像t的标签集即为该规则的后件。
下面以医学图像为实施例,详细地说明本发明的执行过程。本实例共选择了100幅医学图像,q=4,B1、B2、B3、B4分别为疾病1、疾病2、疾病3、疾病4,具体执行步骤如下:
(1) 分别对这100幅医学图像进行格式转换、尺度归一化、去噪、增强等处理。
(2) 分割并提取每幅医学图像中待识别区域的相关特征并进行归一化处理,结果如表1所示。本发明实例所提取的特征包括均值、方差、倾斜度、峰态、能量、熵和聚类特征,即p=7、A1、A2、A3、A4、A5、A6、A7分别为均值、方差、倾斜度、峰态、能量、熵、聚类特征。
表1 医学图像特征表
(3) 数值属性离散化。分别对表1中的各属性进行离散化处理,其方法可采用等宽划分、等深划分或基于距离的划分等方法。本实例采用等宽划分,即将0到1区间划分成20份,分别为(0.00,0.05], (0.05,0.10],…, (0.95,1.00]。如:第四条记录{0.3974,0.4812,0.5222,0.4316,0.1525,0.7633,0.6608}的离散化值为:{(0.35,0.40], (0.45,0.50], (0.50,0.55], (0.40,0.45], (0.15,0.20], (0.75,0.80], (0.65,0.70]}。
(4) 离散区间整数化。将数值属性的离散区间映射成连续的整数标识,分别将(0.00,0.05], (0.05,0.10],…, (0.95,1.00] 映射成1,2,3,…,20,则第四条记录离散区间整数化后为{08,10,11,09,04,16,14}。经处理后,表1转换成如表2的形式,表2仅给出表1中的前10条记录。
表2离散区间整数化后的结果表
(5) 频繁项目集L的挖掘
设最小支持度阈值minsup为0.2,生成至少包含{均值、方差、倾斜度、峰态、能量、熵和聚类特征}之一和{疾病1,疾病2,疾病3,疾病4}之一的频繁项目集L,具体如下:
扫描表2一次,根据最小支持度阈值minsup生成频繁1-项目集L1,L1={{均值=08},{均值=11},{均值=10},{方差=11},{方差=10},{方差=09},{倾斜度=11},{倾斜度=12},{峰态=09},{峰态=08},{能量=03},{能量=04},{聚类特征=12},{聚类特征=14},{疾病1},{疾病2},{疾病3},{疾病4}},如扫描表2得到项目集{均值=08}的支持数为25,即Count({均值=08})=25,Sup({均值=08})= Count({均值=08})/|T|=25/100=0.25,由于Sup({均值=08})>minsup,因而项目集{均值=08}是一个频繁项目集,其余项目集类推;
根据L1生成同时包含标签属性和非标签属性的频繁候选2-项目集C2,C2={{均值=08,疾病1},{均值=08,疾病2},{均值=08,疾病3},{均值=08,疾病4},{均值=11,疾病1},{均值=11,疾病2},{均值=11,疾病3},{均值=11,疾病4},……,{倾斜度=12,疾病1},{倾斜度=12,疾病2},{倾斜度=12,疾病3},{倾斜度=12,疾病4},……}。
扫描表2一次,求得C2中各项目集的支持度,根据最小支持度阈值minsup生成频繁2-项目集L2。L2={{均值=08,疾病2},{方差=11,疾病2},{倾斜度=11,疾病2},……,{均值=08,疾病1 },{峰态=09,疾病4},……}。
根据L2生成同时包含标签属性和非标签属性的频繁候选3-项目集C3,扫描表2一次,求得C3中各项目集的支持度,根据最小支持度阈值minsup生成频繁3-项目集L3。依次分别求得L4、L5、…...、Lk,其结束条件为:根据Lk生成同时包含标签属性和非标签属性的候选(k+1)-项目集C(k+1)为空集。
L={ {均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12,疾病2},{均值=11,方差=10,倾斜度=12,峰态=06,疾病4},{均值=08,方差=11,倾斜度=11,峰态=09,疾病1,疾病2,疾病4},{均值=10,方差=09,倾斜度=12,峰态=08,能量=04,聚类特征=14,疾病2,疾病4},…… }。
(6) 多标签关联分类规则MLACR的构造
多标签关联分类规则的构造分为多标签频繁关联分类规则MLFCAR的构造和多标签关联分类规则MLACR的生成。
设最小置信度阈值minconf为0.6,多标签频繁关联分类规则MLFCAR的构造包括以下步骤:
构造多标签频繁关联分类规则MLFCAR中各分类规则的前件和后件,前件即为L中频繁项目集所包含的非标签属性集,后件即为L中频繁项目集所包含的标签属性集。如项目集{均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12,疾病2}的前件、后件分别为{均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12}和{疾病2};项目集{均值=11,方差=10,倾斜度=12,峰态=06,疾病4}的前件、后件分别为{均值=11,方差=10,倾斜度=12,峰态=06}和{疾病4};项目集{均值=08,方差=11,倾斜度=11,峰态=09,疾病1,疾病2,疾病4}的前件、后件分别为{均值=08,方差=11,倾斜度=11,峰态=09}和{疾病1,疾病2,疾病4}。其余频繁项目集作同样处理,由此得到初始的多标签频繁关联分类规则MLFCAR。
MLFCAR={ {均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12}{疾病2},{均值=11,方差=10,倾斜度=12,峰态=06}{疾病4},{均值=08,方差=11,倾斜度=11,峰态=09}{疾病1,疾病2,疾病4},{均值=10,方差=09,倾斜度=12,峰态=08,能量=04,聚类特征=14}{疾病2,疾病4},…… }。
分别计算MLFCAR中各分类规则的置信度。规则PR的置信度计算公式为: Count(PQ)/Count(P),Count(PQ)、Count(P)的具体值已在频繁项目集L的挖掘过程中求得。如规则{均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12}{疾病2}的置信度为:Count({均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12,疾病2})/ Count({均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12}),Count({均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12,疾病2})=17,Count({均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12})=20,其置信度为17/20,即为0.85。按同样方法可计算出MLFCAR其他分类规则的置信度。
MLFCAR={ {均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12}{疾病2},{均值=08,方差=11,倾斜度=11,峰态=09}{疾病1,疾病2,疾病4},{均值=10,方差=09,倾斜度=12,峰态=08,能量=04,聚类特征=14}{疾病2,疾病4},…… }。
MLACR={ {均值=08,方差=11,倾斜度=11,峰态=09}{疾病1,疾病2,疾病4},{均值=10,方差=09,倾斜度=12,峰态=08,能量=04,聚类特征=14}{疾病2,疾病4},…… }。
(7) 图像的识别
对于一幅未知标签集的图像t,经预处理、图像分割、特征提取、特征值离散化后得到其对应的离散特征值Vt。
如Vt={均值=08,方差=11,倾斜度=11,峰态=09,峰态=09,能量=10,熵=10,聚类特征=13},Vt包含MLACR中第一条规则的前件,因此图像t的标签集即为该规则的后件,其标签集为{疾病1,疾病2,疾病4},即该图像可能同时包含与“疾病1”、 “疾病2”、“疾病3”相关的信息。
如Vt={均值=08,方差=09,倾斜度=12,峰态=08,峰态=09,能量=10,熵=10,聚类特征=14},由于MLACR中所有规则前件中不存在被Vt包含的规则,对此取前件与Vt交叉最多的规则,即规则{均值=10,方差=09,倾斜度=12,峰态=08,能量=04,聚类特征=14}{疾病2,疾病4},该图像可能同时包含与“疾病2”、“疾病4”相关的信息。
本实施例是一种医学图像的识别过程,该方法还可以应用其他与之类似的图像识别领域。
Claims (7)
1. 一种基于多标签的图像识别方法,包括候选频繁项目集的构造和图像识别步骤,其特征在于:所述候选频繁项目集的构造和图像识别步骤包括:
步骤1图像样本数据集的准备和预处理,包括训练图像格式转换、尺度归一化、去噪和增强;
步骤2采用基于密度聚类的图像分割方法分别识别出每幅图像样本的待识别区域;
步骤3分别提取每幅训练图像中待识别区域的特征,构造图像样本数据库T,所述图像样本数据集T的关系模式为R(A1 , …, Ap, B1 , …, Bq),其中: A1 , ..., Ap为非标签属性的属性名,B1 , ..., Bq为标签属性的属性名;p和q分别为非标签属性和标签属性的个数;
步骤4特征值离散化;
步骤5频繁项目集L的挖掘;
步骤6 多标签关联分类规则MLACR的构造,所述多标签关联分类规则MLACR的构造分为多标签频繁关联分类规则MLFCAR的构造和多标签关联分类规则MLACR的生成,其步骤包括:
步骤6.1 构造多标签频繁关联分类规则的前件P和后件Q,其中:所述前件为频繁项目集L中所包含的非标签属性集,所述后件为频繁项目集L中所包含的标签属性集;
步骤6.3删除多标签频繁关联分类规则MLFCAR中置信度小于minconf的分类规则,构造最终的多标签频繁关联分类规则MLFCAR,其中minconf为最小置信度阈值;
步骤6.4 对多标签频繁关联分类规则MLFCAR进行约简,得到多标签关联分类规则MLACR;
步骤7 图像识别。
2.根据权利要求1所述的一种基于多标签的图像识别方法. 其特征在于:所述步骤5的具体步骤包括:
步骤5.1 计算频T中的频繁1-项目集L1,其包括:
其中:c为给定项目集;Count(c)为支持数,是项目集c在图像样本数据集T中的出现的次数;Sup(c)为支持度,Sup(c)= Count(c)/|T|,|T|表示图像样本数据集T中样本的个数;
步骤 5.2候选频繁项目集L的生成,其包括:
步骤5.2.1 根据频繁k-项目集Lk生成候选频繁(k+1)-项目集Ck+1,其中k为是频繁项目集的长度;
步骤 5.2.2计算候选频繁(k+1)-项目集Ck+1各项目集支持数,并根据最小支持度阈值minsup生成频繁(k+1)-项目集L k+1;
步骤5.2.1 重复步骤5.2.1,若生成候选项目集为空集,则进入步骤5.3;
3.根据权利要求1所述的一种基于多标签的图像识别方法. 其特征在于:所述步骤7的具体步骤包括:
步骤7.1待识别图的准备和预处理,包括训练图像格式转换、尺度归一化、去噪和增强;
步骤7.2采用基于密度聚类的图像分割方法识别出所述待识别图像的待识别区域;
步骤7.3提取出所述待识别图像中待识别区域的非标签属性特征;
步骤7.4非标签属性特征值离散化;
步骤7.5根据多标签关联分类规则MLACR识别所述待识别图像的标签属性。
4. 根据权利要求1所述的一种基于多标签的图像识别方法,其特征在于:所述步骤5.2.1根据频繁k-项目集Lk生成候选频繁(k+1)-项目集Ck+1的具体步骤包括:
步骤5.2.1.2 重复步骤5.2.1.1,直到完成所有的项目集比较,得到候选频繁(k+1)-项目集Ck+1;
步骤5.1.2.4删除Ck+1中只包含标签属性或非标签属性的项目集。
7.根据权利要求1所述的一种基于多标签的图像识别方法,其特征在于:所述步骤3的非标签属性包括均值、方差、倾斜度、峰态、能量、熵和聚类特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103139563A CN102364498B (zh) | 2011-10-17 | 2011-10-17 | 一种基于多标签的图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103139563A CN102364498B (zh) | 2011-10-17 | 2011-10-17 | 一种基于多标签的图像识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102364498A true CN102364498A (zh) | 2012-02-29 |
CN102364498B CN102364498B (zh) | 2013-11-20 |
Family
ID=45691064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103139563A Expired - Fee Related CN102364498B (zh) | 2011-10-17 | 2011-10-17 | 一种基于多标签的图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102364498B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945371A (zh) * | 2012-10-18 | 2013-02-27 | 浙江大学 | 基于多标签柔性支持向量机的分类方法 |
CN102945372A (zh) * | 2012-10-18 | 2013-02-27 | 浙江大学 | 基于多标签约束支持向量机的分类方法 |
CN103226575A (zh) * | 2013-04-01 | 2013-07-31 | 北京小米科技有限责任公司 | 一种图像处理方法和装置 |
CN103324940A (zh) * | 2013-05-02 | 2013-09-25 | 广东工业大学 | 基于多示例多标签学习的皮肤病理图片特征识别方法 |
CN103530403A (zh) * | 2013-10-23 | 2014-01-22 | 天津大学 | 一种结构化的图像描述方法 |
CN103679190A (zh) * | 2012-09-20 | 2014-03-26 | 富士通株式会社 | 分类装置、分类方法以及电子设备 |
CN103985113A (zh) * | 2014-03-12 | 2014-08-13 | 浙江工商大学 | 舌像分割方法 |
CN104615730A (zh) * | 2015-02-09 | 2015-05-13 | 浪潮集团有限公司 | 一种多标签分类方法及装置 |
CN105069129A (zh) * | 2015-06-24 | 2015-11-18 | 合肥工业大学 | 自适应多标签预测方法 |
CN105825226A (zh) * | 2016-03-11 | 2016-08-03 | 江苏畅远信息科技有限公司 | 一种基于关联规则的分布式多标签图像识别方法 |
CN105868524A (zh) * | 2015-02-06 | 2016-08-17 | 国际商业机器公司 | 用于医学图像集的自动基准真值生成 |
CN105912660A (zh) * | 2016-04-11 | 2016-08-31 | 中山大学 | 一种面向大规模数据的关联规则树挖掘方法 |
CN106529580A (zh) * | 2016-10-24 | 2017-03-22 | 浙江工业大学 | 结合edsvm的软件缺陷数据关联分类方法 |
CN107067022A (zh) * | 2017-01-04 | 2017-08-18 | 美的集团股份有限公司 | 图像分类模型的建立方法、建立装置和设备 |
CN107092591A (zh) * | 2017-03-30 | 2017-08-25 | 南京理工大学 | 基于关联规则的多标记中文情感分类方法 |
CN108229590A (zh) * | 2018-02-13 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种获取多标签用户画像的方法和装置 |
CN108647711A (zh) * | 2018-05-08 | 2018-10-12 | 重庆邮电大学 | 基于引力模型的多标签分类方法 |
CN109119133A (zh) * | 2018-08-03 | 2019-01-01 | 厦门大学 | 基于多标记特征选择及分类的中医临床大数据存储方法 |
CN110516704A (zh) * | 2019-07-19 | 2019-11-29 | 中国科学院地理科学与资源研究所 | 一种基于关联规则的mlknn多标签分类方法 |
US11379758B2 (en) | 2019-12-06 | 2022-07-05 | International Business Machines Corporation | Automatic multilabel classification using machine learning |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295309A (zh) * | 2008-05-22 | 2008-10-29 | 江苏大学 | 一种医学图像识别的方法 |
-
2011
- 2011-10-17 CN CN2011103139563A patent/CN102364498B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295309A (zh) * | 2008-05-22 | 2008-10-29 | 江苏大学 | 一种医学图像识别的方法 |
Non-Patent Citations (3)
Title |
---|
朱玉全等: "基于频繁模式树的关联分类规则挖掘算法", 《江苏大学(自然科学版)》 * |
武园园等: "基于关联规则的医学图像分类算法", 《计算机工程与涉及》 * |
陈耿等: "关联规则挖掘中若干关键技术的研究", 《计算机研究与发展》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679190A (zh) * | 2012-09-20 | 2014-03-26 | 富士通株式会社 | 分类装置、分类方法以及电子设备 |
CN103679190B (zh) * | 2012-09-20 | 2019-03-01 | 富士通株式会社 | 分类装置、分类方法以及电子设备 |
CN102945372A (zh) * | 2012-10-18 | 2013-02-27 | 浙江大学 | 基于多标签约束支持向量机的分类方法 |
CN102945371A (zh) * | 2012-10-18 | 2013-02-27 | 浙江大学 | 基于多标签柔性支持向量机的分类方法 |
CN102945372B (zh) * | 2012-10-18 | 2015-06-24 | 浙江大学 | 基于多标签约束支持向量机的分类方法 |
CN102945371B (zh) * | 2012-10-18 | 2015-06-24 | 浙江大学 | 基于多标签柔性支持向量机的分类方法 |
CN103226575A (zh) * | 2013-04-01 | 2013-07-31 | 北京小米科技有限责任公司 | 一种图像处理方法和装置 |
CN103324940A (zh) * | 2013-05-02 | 2013-09-25 | 广东工业大学 | 基于多示例多标签学习的皮肤病理图片特征识别方法 |
CN103530403B (zh) * | 2013-10-23 | 2016-09-28 | 天津大学 | 一种结构化的图像描述方法 |
CN103530403A (zh) * | 2013-10-23 | 2014-01-22 | 天津大学 | 一种结构化的图像描述方法 |
CN103985113A (zh) * | 2014-03-12 | 2014-08-13 | 浙江工商大学 | 舌像分割方法 |
CN105868524B (zh) * | 2015-02-06 | 2019-05-03 | 国际商业机器公司 | 用于医学图像集的自动基准真值生成 |
CN105868524A (zh) * | 2015-02-06 | 2016-08-17 | 国际商业机器公司 | 用于医学图像集的自动基准真值生成 |
CN104615730B (zh) * | 2015-02-09 | 2017-10-27 | 浪潮集团有限公司 | 一种多标签分类方法及装置 |
CN104615730A (zh) * | 2015-02-09 | 2015-05-13 | 浪潮集团有限公司 | 一种多标签分类方法及装置 |
CN105069129A (zh) * | 2015-06-24 | 2015-11-18 | 合肥工业大学 | 自适应多标签预测方法 |
CN105069129B (zh) * | 2015-06-24 | 2018-05-18 | 合肥工业大学 | 自适应多标签预测方法 |
CN105825226A (zh) * | 2016-03-11 | 2016-08-03 | 江苏畅远信息科技有限公司 | 一种基于关联规则的分布式多标签图像识别方法 |
CN105912660A (zh) * | 2016-04-11 | 2016-08-31 | 中山大学 | 一种面向大规模数据的关联规则树挖掘方法 |
CN106529580A (zh) * | 2016-10-24 | 2017-03-22 | 浙江工业大学 | 结合edsvm的软件缺陷数据关联分类方法 |
CN107067022A (zh) * | 2017-01-04 | 2017-08-18 | 美的集团股份有限公司 | 图像分类模型的建立方法、建立装置和设备 |
CN107092591B (zh) * | 2017-03-30 | 2020-06-30 | 南京理工大学 | 基于关联规则的多标记中文情感分类方法 |
CN107092591A (zh) * | 2017-03-30 | 2017-08-25 | 南京理工大学 | 基于关联规则的多标记中文情感分类方法 |
CN108229590A (zh) * | 2018-02-13 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种获取多标签用户画像的方法和装置 |
CN108229590B (zh) * | 2018-02-13 | 2020-05-15 | 阿里巴巴集团控股有限公司 | 一种获取多标签用户画像的方法和装置 |
CN108647711A (zh) * | 2018-05-08 | 2018-10-12 | 重庆邮电大学 | 基于引力模型的多标签分类方法 |
CN108647711B (zh) * | 2018-05-08 | 2021-04-20 | 重庆邮电大学 | 基于引力模型的图像的多标签分类方法 |
CN109119133A (zh) * | 2018-08-03 | 2019-01-01 | 厦门大学 | 基于多标记特征选择及分类的中医临床大数据存储方法 |
CN109119133B (zh) * | 2018-08-03 | 2021-07-23 | 厦门大学 | 基于多标记特征选择及分类的中医临床大数据存储方法 |
CN110516704A (zh) * | 2019-07-19 | 2019-11-29 | 中国科学院地理科学与资源研究所 | 一种基于关联规则的mlknn多标签分类方法 |
CN110516704B (zh) * | 2019-07-19 | 2022-07-15 | 中国科学院地理科学与资源研究所 | 一种基于关联规则的mlknn多标签分类方法 |
US11379758B2 (en) | 2019-12-06 | 2022-07-05 | International Business Machines Corporation | Automatic multilabel classification using machine learning |
Also Published As
Publication number | Publication date |
---|---|
CN102364498B (zh) | 2013-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102364498B (zh) | 一种基于多标签的图像识别方法 | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
Culotta et al. | Joint deduplication of multiple record types in relational data | |
CN104573130B (zh) | 基于群体计算的实体解析方法及装置 | |
CN102799614B (zh) | 基于视觉词语空间共生性的图像检索方法 | |
CN102004786B (zh) | 图像检索系统中的加速方法 | |
Xu et al. | A supervoxel approach to the segmentation of individual trees from LiDAR point clouds | |
Zhang et al. | Novel density-based and hierarchical density-based clustering algorithms for uncertain data | |
CN104834693A (zh) | 基于深度搜索的视觉图像检索方法及系统 | |
CN104392250A (zh) | 一种基于MapReduce的图像分类方法 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN103617217A (zh) | 一种基于层次索引的图像检索方法及系统 | |
CN110688549B (zh) | 一种基于知识体系图谱构建的人工智能分类方法与系统 | |
CN102902826A (zh) | 一种基于基准图像索引的图像快速检索方法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN105825226A (zh) | 一种基于关联规则的分布式多标签图像识别方法 | |
CN101211344A (zh) | 文本信息遍历的快速四维可视化方法 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
Li et al. | A branch-trunk-constrained hierarchical clustering method for street trees individual extraction from mobile laser scanning point clouds | |
CN115238081B (zh) | 一种文物智能识别方法、系统及可读存储介质 | |
Vijayalaksmi et al. | A fast approach to clustering datasets using dbscan and pruning algorithms | |
CN102799616A (zh) | 大规模社会网络中的离群点检测方法 | |
CN103761286A (zh) | 一种基于用户兴趣的服务资源检索方法 | |
Salem et al. | Clustering categorical data using the k-means algorithm and the attribute’s relative frequency | |
CN114943285B (zh) | 互联网新闻内容数据智能审核系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131120 Termination date: 20141017 |
|
EXPY | Termination of patent right or utility model |