CN102364498A - 一种基于多标签的图像识别方法 - Google Patents

一种基于多标签的图像识别方法 Download PDF

Info

Publication number
CN102364498A
CN102364498A CN2011103139563A CN201110313956A CN102364498A CN 102364498 A CN102364498 A CN 102364498A CN 2011103139563 A CN2011103139563 A CN 2011103139563A CN 201110313956 A CN201110313956 A CN 201110313956A CN 102364498 A CN102364498 A CN 102364498A
Authority
CN
China
Prior art keywords
frequent
item sets
image
many labels
mlfcar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103139563A
Other languages
English (en)
Other versions
CN102364498B (zh
Inventor
朱玉全
陈耿
孙蕾
廖定安
梁军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN2011103139563A priority Critical patent/CN102364498B/zh
Publication of CN102364498A publication Critical patent/CN102364498A/zh
Application granted granted Critical
Publication of CN102364498B publication Critical patent/CN102364498B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开一种基于多标签的图像识别方法,该方法包括图像样本的预处理、图像分割、特征提取、特征值离散化、频繁项目集L的挖掘、多标签关联分类规则MLACR的构造和图像识别;在频繁项目集L的挖掘的过程中采用了新的候选项目集修剪方法,该方法经过两次修剪操作,明显缩小了候选项目集的规模,进一步提高了算法的执行效率;在多标签关联分类规则MLACR的构造中使用了约简方法,以确保MLACR中不会出现多余规则。该方法可以一次性对单幅图像包括多个标签的图像进行识别的方法,该方法可以快速的构造候选频繁项目集,实现准确高效的多标签图像识别功能。

Description

一种基于多标签的图像识别方法
技术领域
本发明属于图像的计算机分析技术的应用领域,具体涉及一种具有多标签图像的识别方法。
背景技术
图像识别是数据挖掘技术中的一个重要研究分支,它旨在通过训练图像样本数据集来构造一个分类函数或分类器,并利用该分类函数或分类器来识别待测图像的标签或标签集。在传统的被称为多类单标签图像识别问题中,每个图像数据只含有一个与之对应的标签。然而,在实际应用中,由于客观事物本身的复杂性,一幅图像可能同时包含多个不同的标签,比如在风景图识别中,一幅图像可以同时拥有“树林”、“ 山峰”、“草原”等主题;在医学图像识别中,一张医学图像可同时包含与“糖尿病”、”前列腺”等疾病相关的信息。与单标签分类问题不同的是,多标签分类问题的目标是寻找与待测图像数据相联系的标签集或一组标签,而不是单一标签。长期以来,单标签分类问题得到了广泛而深入的研究,各种性能较好的分类算法不断地被提出,并在图像识别领域中得到了成功应用,如基于决策树的分类方法、贝叶斯分类方法、基于神经网络的分类方法、K-最临近分类方法、基于关联规则的分类方法等。从表上看来,多标签分类和单标签分类具有很大的相似性,两者的目的都是对待测数据所包含的标签进行甄别,单标签分类是多标签分类问题的一个特例。然而多标签分类问题中标签间的关系(如相关性、共现性等)、标签和数据分布的不均衡性等问题将导致现有的面向单标签分类问题的方法并不能直接用来处理多标签分类问题,因而,如何设计出有效的多标签分类方法已成为图像识别领域中的一个研究热点。
目前,常用可用于图像识别的多标签分类方法有ML-KNN、改进的C4.5、Bp-MLL、PT系列、PPT、PPT-n、MMAC、RAKEL、RPC、CLR、INSDIF、MLRW等。ML-KNN是Zhang M.L.等人提出的一种基于KNN的多标签分类方法,该方法通过统计方法得出每个标签的先验概率,当输入一个待测图像数据                                                
Figure 94357DEST_PATH_IMAGE001
时,对标签集
Figure 2011103139563100002DEST_PATH_IMAGE002
中的每个标签
Figure 2011103139563100002DEST_PATH_IMAGE003
分别计算
Figure 949180DEST_PATH_IMAGE001
具有标签
Figure 728917DEST_PATH_IMAGE003
和不具有标签
Figure 61810DEST_PATH_IMAGE003
的概率,进而预测
Figure 876182DEST_PATH_IMAGE001
是否具有标签
Figure 636328DEST_PATH_IMAGE003
。算法Bp-MLL通过定义针对多标签图像数据的全局优化函数,使得人工神经元网络能够处理多标签数据。PT系列算法试图利用已有的基于单标签的分类方法来解决多标签分类问题,即在训练之前一次性地将训练图像样本数据集中所有包含多个标签的训练数据样本转换成单标签数据,经过相应处理后,算法所面对的训练数据样本集均为单标签样本集,从而将多标签分类问题转化为单标签分类问题。针对PT方法中新标签数量的不可控性,算法PPT、PPT-n、RAKEL提出了一系列处理方法,算法PPT和PPT-n通过阈值的设置来减少新标签的数量,算法RAKEL则是通过随机选择的方式来减少其数量的。算法RPC、CLR则通过对比标签集
Figure 903361DEST_PATH_IMAGE002
中任意两个标签之间的关系,建立
Figure 2011103139563100002DEST_PATH_IMAGE004
(
Figure 544339DEST_PATH_IMAGE004
- 1) / 2 个分类器,每个分类器在两个标签之间投票,然后组合这些投票结果作为最终的多标签分类结果。
纵观上述这些方法,我们可以将多标签分类问题分为两类,一类是基于算法转化的方法,另一类是基于问题转化的方法。这些方法存在着一些算法本身无法克服的不足,如:改进的C4.5算法采用分而治之的策略所得到的决策树并不一定是最优的,决策树的结构调整、性能改善等也较为困难;算法Bp-MLL存在的问题是该方法不能观察中间的学习过程,最后的输出结果也较难解释,影响了结果的可信度及可接受程度,同时,该方法需要较长的学习时间;ML-KNN在高维数据的分类中,该方法的缺陷也得以凸显。
发明内容
本发明的目的是提供一种一次性对单幅图像包括多个标签的图像进行识别的方法,该方法可以快速的构造候选频繁项目集,实现准确高效的多标签图像识别功能。
本发明的技术方案是:一种基于多标签的图像识别方法,包括候选频繁项目集的构造和图像识别步骤,其特征在于:所述候选频繁项目集的构造和图像识别步骤包括:
步骤1图像样本数据集的准备和预处理,包括训练图像格式转换、尺度归一化、去噪和增强;
步骤2采用基于密度聚类的图像分割方法分别识别出每幅图像样本的待识别区域;
步骤3分别提取每幅训练图像中待识别区域的特征,构造图像样本数据库T,所述图像样本数据集T的关系模式为R(A, …, Ap, B, …, Bq),其中: A, ..., Ap为非标签属性的属性名,B, ..., Bq为标签属性的属性名;p和q分别为非标签属性和标签属性的个数;
步骤4特征值离散化;
步骤5频繁项目集L的挖掘;
步骤6 多标签关联分类规则MLACR的构造,所述多标签关联分类规则MLACR的构造分为多标签频繁关联分类规则MLFCAR的构造和多标签关联分类规则MLACR的生成,其步骤包括:
步骤6.1 构造多标签频繁关联分类规则的前件P和后件Q,其中:所述前件为频繁项目集L中所包含的非标签属性集,所述后件为频繁项目集L中所包含的标签属性集;
步骤6.2 分别计算多标签频繁关联分类规则MLFCAR中各分类规则的置信度,其中规则P
Figure 2011103139563100002DEST_PATH_IMAGE005
R的置信度计算公式为:Count(P
Figure 2011103139563100002DEST_PATH_IMAGE006
Q)/Count(P);
步骤6.3删除多标签频繁关联分类规则MLFCAR中置信度小于minconf的分类规则,构造最终的多标签频繁关联分类规则MLFCAR,其中minconf为最小置信度阈值;
步骤6.4 对多标签频繁关联分类规则MLFCAR进行约简,得到多标签关联分类规则MLACR;
步骤7 图像识别。
所述步骤5频繁项目集L的挖掘的具体步骤包括:
步骤5.1 计算频T中的频繁1-项目集L1,其包括:
步骤5.1.1 设置T中的非标签属性集NLA={A, ..., Ap},标签属性集LA ={B, ..., Bq},计算C1= LA
Figure 150901DEST_PATH_IMAGE006
NLA;
步骤5.1.2 计算标签属性中的频繁1-项目集LL1={c
Figure 2011103139563100002DEST_PATH_IMAGE007
LA| sup(c)
Figure 2011103139563100002DEST_PATH_IMAGE008
minsup };
步骤5.1.3 计算非标签属性中的频繁1-项目集NLL1={c
Figure 81947DEST_PATH_IMAGE007
NLA| sup(c)
Figure 773960DEST_PATH_IMAGE008
minsup };
步骤5.1.4 计算频繁1-项目集L1= LL1
Figure 510972DEST_PATH_IMAGE006
NLL1
其中:c为给定项目集;Count(c)为支持数,是项目集c在图像样本数据集T中的出现的次数;Sup(c)为支持度,Sup(c)= Count(c)/|T|,|T|表示图像样本数据集T中样本的个数;
步骤 5.2候选频繁项目集L的生成,其包括:
步骤5.2.1 根据频繁k-项目集Lk生成候选频繁(k+1)-项目集Ck+1,其中k为是频繁项目集的长度;
步骤 5.2.2计算候选频繁(k+1)-项目集Ck+1各项目集支持数,并根据最小支持度阈值minsup生成频繁(k+1)-项目集L k+1
步骤5.2.1 重复步骤5.2.1,若生成候选项目集为空集,则进入步骤5.3;
步骤5.3 生成候选频繁项目集L=
Figure 2011103139563100002DEST_PATH_IMAGE009
所述步骤7图像识别的具体步骤包括:
步骤7.1待识别图的准备和预处理,包括训练图像格式转换、尺度归一化、去噪和增强;
步骤7.2采用基于密度聚类的图像分割方法识别出所述待识别图像的待识别区域;
步骤7.3提取出所述待识别图像中待识别区域的非标签属性特征;
步骤7.4非标签属性特征值离散化;
步骤7.5根据多标签关联分类规则MLACR识别所述待识别图像的标签属性。
所述步骤5.2.1根据频繁k-项目集Lk生成候选频繁(k+1)-项目集Ck+1的具体步骤包括:
步骤5.2.1.1 选择频繁k-项目集Lk中的任意项目集项c1和c2,如果所述c1和c2有k-1个项目相同,则Ck+1+= {c1 c2};
步骤5.2.1.2 重复步骤5.2.1.1,直到完成所有的项目集比较,得到候选频繁(k+1)-项目集Ck+1
步骤5.2.1.3 对Ck+1中任意项目集c,如果所述项目集c存在长度为k的子集c3,且c3 Lk,删除所述项目集c;
步骤5.1.2.4删除Ck+1中只包含标签属性或非标签属性的项目集。
所述步骤6.4对多标签频繁关联分类规则MLFCAR进行约简,得到多标签关联分类规则MLACR的具体步骤包括:
步骤6.4.1  选择多标签频繁关联分类规则MLFCAR中前件长度最短的规则R1;
步骤6.4.2 计算MLACR= MLACR
Figure 838103DEST_PATH_IMAGE006
{R1};
MLFCAR = MLFCAR-{R1};
步骤6.4.3 对于每个多标签频繁关联分类规则MLFCAR中的规则R,如果规则R1覆盖规则R,则执行
MLFCAR= MLFCAR -{R};
             MLACR= MLACR
Figure 79728DEST_PATH_IMAGE006
{R};
步骤6.4.4 如果多标签频繁关联分类规则MLFCAR不为空,重复执行步骤6.4.1至步骤6.4.4。
所述步骤6.4.3中的规则R1覆盖规则R是指对于多标签关联分类规则R1:P1
Figure 354852DEST_PATH_IMAGE005
Q1和R:P2
Figure 936006DEST_PATH_IMAGE005
Q2,满足P1
Figure 2011103139563100002DEST_PATH_IMAGE011
P2,Q1 Q2,其中P1和Q1分别为规则R1的前件和后件,P2和Q2分别为规则R的前件和后件。
所述步骤3的非标签属性包括均值、方差、倾斜度、峰态、能量、熵和聚类特征。
本发明的主要有益效果是可以一次性地识别出图像所包含的多个标签,并就识别过程中候选频繁项目集的构造以及规则的后处理等方面提出了相应的优化解决方案,其主要体现在:
 (1) 候选项目集的生成方面
对于关联规则挖掘中候选项目集的生成问题,本发明提出了一种新的候选项目集修剪方法,该方法经过两次修剪操作,明显缩小了候选项目集的规模,进一步提高了算法的执行效率。
(2) 多标签关联分类规则的后处理方面
对于多标签频繁关联分类规则MLFCAR而言,它可能存在两个方面的问题,一是MLFCAR中包含相互覆盖的规则;二是MLFCAR中包含相互矛盾的规则。为此,本发明提出了一种多标签关联分类规则的约简方法,该方法可以确保MLACR中不会出现多余规则,极大地方便了规则的使用,进一步提高了本发明的有效性和可操作性。
附图说明
图1是本发明实施例的结构框图
图2是本发明实施例中频繁项目集挖掘流程图             
图3是本发明实施例中多标签关联分类规则库构造流程。
具体实施方式
设R(A, …, Ap, B, …, Bq)为训练图像样本数据集T的关系模式,其中p和q分别为非标签属性(或图像特征属性)和标签属性的个数,A, ..., Ap为非标签属性的属性名,B, ..., Bq为标签属性的属性名。如图1所示,其主要包括以下几个方面的内容:
(1) 预处理
进行训练图像样本数据集的准备、格式转换、尺度归一化、去噪、增强等预处理工作。
(2) 图像分割
采用基于密度聚类的图像样本分割方法分别识别出每幅训练图像样本的待识别区域。
(3) 特征提取
分别提取每幅训练图像样本中待识别区域的特征,构造训练图像样本数据库T。
(4) 特征值离散化
非标签属性通过如下方法统一起来:
Figure 2011103139563100002DEST_PATH_IMAGE013
 数值属性值按区间离散化,映射到连续正整数集合{0,1,2,…}上;
 
Figure 2011103139563100002DEST_PATH_IMAGE014
 离散属性值按字典序排序,映射到连续正整数集合{0,1,2,…}上。
(5) 频繁项目集L的挖掘
设最小支持度阈值为minsup,给定项目集c,设其支持数记为Count(c),相应的支持度记为Sup(c),Sup(c)= Count(c)/|T|,|T|表示训练图像样本数据集T中样本的个数。如图2所示,频繁项目集L的挖掘分为初始化、候选频繁项目集的生成、候选频繁项目集支持数的计算。
Figure 645074DEST_PATH_IMAGE013
 初始化
初始化包括下列步骤:
a  设置T中的非标签属性集NLA和标签属性集LA,NLA={A, ..., Ap},LA={B, ..., Bq};
b  C1= LA
Figure 373995DEST_PATH_IMAGE006
NLA; 其中C1为候选频繁1-项目集
c  LL1={c
Figure 452810DEST_PATH_IMAGE007
LA| sup(c)minsup };其中LL1为标签属性中的频繁1-项目集
d  NLL1={ c
Figure 660117DEST_PATH_IMAGE007
NLA| sup(c)
Figure 548439DEST_PATH_IMAGE008
minsup };其中 NLL1为非标签属性中的频繁1-项目集
e  L1= LL1
Figure 430944DEST_PATH_IMAGE006
NLL1;其中 L1为T中的频繁1-项目集
Figure 783428DEST_PATH_IMAGE014
 候选频繁项目集的生成
设Lk是长度为k的频繁项目集,由Lk生成候选频繁(k+1)-项目集Ck+1的方法包括下列步骤:
A. 成候选频繁(k+1)-项目集Ck+1,其步骤包括:
a  for each c1
Figure 663659DEST_PATH_IMAGE007
Lk
b    for each c2
Figure 101594DEST_PATH_IMAGE007
Lk
c      if(c1和c2有k-1个项目相同) then
d        Ck+1= c1
Figure 958429DEST_PATH_IMAGE006
c2;
B. 对Ck+1进行第一次修剪,其步骤包括:
a  for each c
Figure 430999DEST_PATH_IMAGE007
Ck+1
b    如果存在c的长度为k的子集c3,c3
Figure 544448DEST_PATH_IMAGE010
Lk
c      Ck+1= Ck+1-{c}; 
B. 对Ck+1进行第二次修剪,删除Ck+1中只包含标签属性或非标签属性的项目集,因为这些候选项目集不可能构成多标签关联分类规则,其步骤包括:
a  for each c
Figure 407362DEST_PATH_IMAGE007
Ck+1
b    if(c
Figure 2011103139563100002DEST_PATH_IMAGE015
LL1=
Figure 2011103139563100002DEST_PATH_IMAGE016
or c
Figure 569353DEST_PATH_IMAGE015
NLL1=
Figure 568533DEST_PATH_IMAGE016
) then 
c   Ck+1= Ck+1-{c};
Figure 2011103139563100002DEST_PATH_IMAGE017
 候选频繁项目集Ck+1中各项目集支持数的计算
计算Ck+1中各项目集支持数的方法包括下列步骤:
a  for all t
Figure 852884DEST_PATH_IMAGE007
T
b    for each cCk+1
c      if(t
Figure 723768DEST_PATH_IMAGE012
c) then
d        Ct= Ct
Figure 843034DEST_PATH_IMAGE006
{c}; 其中Ct为临时集合变量,用来存放Ck+1中t支持的项目集
e    for all c
Figure 32707DEST_PATH_IMAGE007
Ct do
f     Count(c)= Count(c)+1;
(6) 多标签关联分类规则MLACR的构造 
设最小置信度阈值为minconf,,多标签关联分类规则MLACR的构造分为多标签频繁关联分类规则MLFCAR的构造和多标签关联分类规则MLACR的生成。如图3所示,其具体步骤包括:
Figure 932530DEST_PATH_IMAGE013
 多标签频繁关联分类规则MLFCAR的构造
A. MLFCAR的构造包括下列步骤:
a  MLFCAR=
Figure 436324DEST_PATH_IMAGE016
b  for each c
Figure 737992DEST_PATH_IMAGE007
L do
c    MLFCAR= MLFCAR{cNLL1 cLL1}; 
B. 分别计算多标签频繁关联分类规则MLFCAR中各分类规则的置信度,其中 P、Q分别为规则R的前件和后件,其步骤包括:
a  for each RMLFCAR
b    Conf(R) = Count(P
Figure 463557DEST_PATH_IMAGE006
Q)/Count(P); 
c    if(Conf(R)< minconf) then
d      MLFCAR= MLFCAR-{R};
    
Figure 637050DEST_PATH_IMAGE014
 多标签关联分类规则MLACR的生成
MLACR的生成包括下列步骤:
a  MLACR=
Figure 647731DEST_PATH_IMAGE016
b  while (MLFCAR
Figure DEST_PATH_IMAGE018
)
c    MLACR = MLACR
Figure 553370DEST_PATH_IMAGE006
{R1}; 其中R1为MLFCAR中规则前件长度最短的规则
d    MLFCAR = MLFCAR -{R1};
e    for each R
Figure 587185DEST_PATH_IMAGE007
 MLFCAR
f     if(规则R1覆盖规则R) then 
g       MLFCAR= MLFCAR -{R}; 
h       MLACR = MLACR
Figure 298789DEST_PATH_IMAGE006
{R};
定义1 对于给定的两个多标签关联分类规则R1:P1 Q1和R2:P2
Figure 739053DEST_PATH_IMAGE005
Q2,如果P1
Figure 322481DEST_PATH_IMAGE011
P2,Q1
Figure 509880DEST_PATH_IMAGE012
Q2,则称规则R1覆盖规则R2
(7) 图像的识别
对于一幅未知标签集的图像t,其识别过程包括以下步骤。
Figure 495153DEST_PATH_IMAGE013
 预处理
对图像t进行格式转换、尺度归一化、去噪、增强等处理。
Figure 804912DEST_PATH_IMAGE014
 图像分割
采用基于密度聚类的图像分割方法识别出图像t的待识别区域。
Figure 813319DEST_PATH_IMAGE017
 特征提取
提取出图像t中待识别区域的特征。
Figure 2011103139563100002DEST_PATH_IMAGE019
 特征值离散化
Figure DEST_PATH_IMAGE020
 图像识别
设图像t经上述4步处理后得到的离散特征值为Vt,Vt=( t.A1=t1, ……, t.Ai= ti,……, t.Ap= tp)。图像t的识别过程包括以下步骤:
a  for each RMLACR
b    if (Vt包含R的前件) then
c      将R的后件赋给图像t,图像t的标签集即为R的后件; 
d      break; 
e  if (MLACR中不存在规则前件被Vt包含的规则) then
f    将MLACR中与Vt匹配属性数最多的那个规则的后件赋给图像t,图像t的标签集即为该规则的后件。
下面以医学图像为实施例,详细地说明本发明的执行过程。本实例共选择了100幅医学图像,q=4,B1、B2、B3、B4分别为疾病1、疾病2、疾病3、疾病4,具体执行步骤如下:
(1) 分别对这100幅医学图像进行格式转换、尺度归一化、去噪、增强等处理。 
(2) 分割并提取每幅医学图像中待识别区域的相关特征并进行归一化处理,结果如表1所示。本发明实例所提取的特征包括均值、方差、倾斜度、峰态、能量、熵和聚类特征,即p=7、A1、A2、A3、A4、A5、A6、A7分别为均值、方差、倾斜度、峰态、能量、熵、聚类特征。
    表1 医学图像特征表
(3) 数值属性离散化。分别对表1中的各属性进行离散化处理,其方法可采用等宽划分、等深划分或基于距离的划分等方法。本实例采用等宽划分,即将0到1区间划分成20份,分别为(0.00,0.05], (0.05,0.10],…, (0.95,1.00]。如:第四条记录{0.3974,0.4812,0.5222,0.4316,0.1525,0.7633,0.6608}的离散化值为:{(0.35,0.40], (0.45,0.50], (0.50,0.55], (0.40,0.45], (0.15,0.20], (0.75,0.80], (0.65,0.70]}。
(4) 离散区间整数化。将数值属性的离散区间映射成连续的整数标识,分别将(0.00,0.05], (0.05,0.10],…, (0.95,1.00] 映射成1,2,3,…,20,则第四条记录离散区间整数化后为{08,10,11,09,04,16,14}。经处理后,表1转换成如表2的形式,表2仅给出表1中的前10条记录。
表2离散区间整数化后的结果表
Figure DEST_PATH_IMAGE022
(5) 频繁项目集L的挖掘
设最小支持度阈值minsup为0.2,生成至少包含{均值、方差、倾斜度、峰态、能量、熵和聚类特征}之一和{疾病1,疾病2,疾病3,疾病4}之一的频繁项目集L,具体如下:
Figure 80407DEST_PATH_IMAGE013
 扫描表2一次,根据最小支持度阈值minsup生成频繁1-项目集L1,L1={{均值=08},{均值=11},{均值=10},{方差=11},{方差=10},{方差=09},{倾斜度=11},{倾斜度=12},{峰态=09},{峰态=08},{能量=03},{能量=04},{聚类特征=12},{聚类特征=14},{疾病1},{疾病2},{疾病3},{疾病4}},如扫描表2得到项目集{均值=08}的支持数为25,即Count({均值=08})=25,Sup({均值=08})= Count({均值=08})/|T|=25/100=0.25,由于Sup({均值=08})>minsup,因而项目集{均值=08}是一个频繁项目集,其余项目集类推;
Figure 498750DEST_PATH_IMAGE014
 根据L1生成同时包含标签属性和非标签属性的频繁候选2-项目集C2,C2={{均值=08,疾病1},{均值=08,疾病2},{均值=08,疾病3},{均值=08,疾病4},{均值=11,疾病1},{均值=11,疾病2},{均值=11,疾病3},{均值=11,疾病4},……,{倾斜度=12,疾病1},{倾斜度=12,疾病2},{倾斜度=12,疾病3},{倾斜度=12,疾病4},……}。
Figure 791191DEST_PATH_IMAGE017
 扫描表2一次,求得C2中各项目集的支持度,根据最小支持度阈值minsup生成频繁2-项目集L2。L2={{均值=08,疾病2},{方差=11,疾病2},{倾斜度=11,疾病2},……,{均值=08,疾病1 },{峰态=09,疾病4},……}。
Figure 648289DEST_PATH_IMAGE019
 根据L2生成同时包含标签属性和非标签属性的频繁候选3-项目集C3,扫描表2一次,求得C3中各项目集的支持度,根据最小支持度阈值minsup生成频繁3-项目集L3。依次分别求得L4、L5、…...、Lk,其结束条件为:根据Lk生成同时包含标签属性和非标签属性的候选(k+1)-项目集C(k+1)为空集。
Figure 280258DEST_PATH_IMAGE020
 收集前面的结果,得到频繁项目集L,L=
Figure 931820DEST_PATH_IMAGE009
L={ {均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12,疾病2},{均值=11,方差=10,倾斜度=12,峰态=06,疾病4},{均值=08,方差=11,倾斜度=11,峰态=09,疾病1,疾病2,疾病4},{均值=10,方差=09,倾斜度=12,峰态=08,能量=04,聚类特征=14,疾病2,疾病4},…… }。
(6) 多标签关联分类规则MLACR的构造
多标签关联分类规则的构造分为多标签频繁关联分类规则MLFCAR的构造和多标签关联分类规则MLACR的生成。
设最小置信度阈值minconf为0.6,多标签频繁关联分类规则MLFCAR的构造包括以下步骤: 
 构造多标签频繁关联分类规则MLFCAR中各分类规则的前件和后件,前件即为L中频繁项目集所包含的非标签属性集,后件即为L中频繁项目集所包含的标签属性集。如项目集{均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12,疾病2}的前件、后件分别为{均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12}和{疾病2};项目集{均值=11,方差=10,倾斜度=12,峰态=06,疾病4}的前件、后件分别为{均值=11,方差=10,倾斜度=12,峰态=06}和{疾病4};项目集{均值=08,方差=11,倾斜度=11,峰态=09,疾病1,疾病2,疾病4}的前件、后件分别为{均值=08,方差=11,倾斜度=11,峰态=09}和{疾病1,疾病2,疾病4}。其余频繁项目集作同样处理,由此得到初始的多标签频繁关联分类规则MLFCAR。
MLFCAR={ {均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12}
Figure 310028DEST_PATH_IMAGE005
{疾病2},{均值=11,方差=10,倾斜度=12,峰态=06}
Figure 300899DEST_PATH_IMAGE005
{疾病4},{均值=08,方差=11,倾斜度=11,峰态=09}
Figure 388941DEST_PATH_IMAGE005
{疾病1,疾病2,疾病4},{均值=10,方差=09,倾斜度=12,峰态=08,能量=04,聚类特征=14}{疾病2,疾病4},…… }。
Figure 792557DEST_PATH_IMAGE014
 分别计算MLFCAR中各分类规则的置信度。规则P
Figure 195857DEST_PATH_IMAGE005
R的置信度计算公式为: Count(PQ)/Count(P),Count(PQ)、Count(P)的具体值已在频繁项目集L的挖掘过程中求得。如规则{均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12}
Figure 821507DEST_PATH_IMAGE005
{疾病2}的置信度为:Count({均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12,疾病2})/ Count({均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12}),Count({均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12,疾病2})=17,Count({均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12})=20,其置信度为17/20,即为0.85。按同样方法可计算出MLFCAR其他分类规则的置信度。
Figure 344892DEST_PATH_IMAGE017
 删除MLFCAR中置信度小于0.6的分类规则,构造最终的多标签频繁关联分类规则MLFCAR,由此可得MLFCAR。 
MLFCAR={ {均值=08,方差=11,倾斜度=11,峰态=09,能量=03,聚类特征=12}
Figure 774737DEST_PATH_IMAGE005
{疾病2},{均值=08,方差=11,倾斜度=11,峰态=09}{疾病1,疾病2,疾病4},{均值=10,方差=09,倾斜度=12,峰态=08,能量=04,聚类特征=14}
Figure 727704DEST_PATH_IMAGE005
{疾病2,疾病4},…… }。
Figure 308858DEST_PATH_IMAGE019
对MLFCAR进行约简,删除MLFCAR中的部分多余规则,比如说MLFCAR中的第一条规则就是多余的,据此可得多标签关联分类规则MLACR。
MLACR={ {均值=08,方差=11,倾斜度=11,峰态=09}{疾病1,疾病2,疾病4},{均值=10,方差=09,倾斜度=12,峰态=08,能量=04,聚类特征=14}
Figure 372946DEST_PATH_IMAGE005
{疾病2,疾病4},…… }。
(7) 图像的识别
对于一幅未知标签集的图像t,经预处理、图像分割、特征提取、特征值离散化后得到其对应的离散特征值Vt
如Vt={均值=08,方差=11,倾斜度=11,峰态=09,峰态=09,能量=10,熵=10,聚类特征=13},Vt包含MLACR中第一条规则的前件,因此图像t的标签集即为该规则的后件,其标签集为{疾病1,疾病2,疾病4},即该图像可能同时包含与“疾病1”、 “疾病2”、“疾病3”相关的信息。
如Vt={均值=08,方差=09,倾斜度=12,峰态=08,峰态=09,能量=10,熵=10,聚类特征=14},由于MLACR中所有规则前件中不存在被Vt包含的规则,对此取前件与Vt交叉最多的规则,即规则{均值=10,方差=09,倾斜度=12,峰态=08,能量=04,聚类特征=14}
Figure 389444DEST_PATH_IMAGE005
{疾病2,疾病4},该图像可能同时包含与“疾病2”、“疾病4”相关的信息。
本实施例是一种医学图像的识别过程,该方法还可以应用其他与之类似的图像识别领域。

Claims (7)

1. 一种基于多标签的图像识别方法,包括候选频繁项目集的构造和图像识别步骤,其特征在于:所述候选频繁项目集的构造和图像识别步骤包括:
步骤1图像样本数据集的准备和预处理,包括训练图像格式转换、尺度归一化、去噪和增强;
步骤2采用基于密度聚类的图像分割方法分别识别出每幅图像样本的待识别区域;
步骤3分别提取每幅训练图像中待识别区域的特征,构造图像样本数据库T,所述图像样本数据集T的关系模式为R(A, …, Ap, B, …, Bq),其中: A, ..., Ap为非标签属性的属性名,B, ..., Bq为标签属性的属性名;p和q分别为非标签属性和标签属性的个数;
步骤4特征值离散化;
步骤5频繁项目集L的挖掘;
步骤6 多标签关联分类规则MLACR的构造,所述多标签关联分类规则MLACR的构造分为多标签频繁关联分类规则MLFCAR的构造和多标签关联分类规则MLACR的生成,其步骤包括:
步骤6.1 构造多标签频繁关联分类规则的前件P和后件Q,其中:所述前件为频繁项目集L中所包含的非标签属性集,所述后件为频繁项目集L中所包含的标签属性集;
步骤6.2 分别计算多标签频繁关联分类规则MLFCAR中各分类规则的置信度,其中规则P                                               
Figure 2011103139563100001DEST_PATH_IMAGE002
R的置信度计算公式为:Count(P
Figure 2011103139563100001DEST_PATH_IMAGE004
Q)/Count(P);
步骤6.3删除多标签频繁关联分类规则MLFCAR中置信度小于minconf的分类规则,构造最终的多标签频繁关联分类规则MLFCAR,其中minconf为最小置信度阈值;
步骤6.4 对多标签频繁关联分类规则MLFCAR进行约简,得到多标签关联分类规则MLACR;
步骤7 图像识别。
2.根据权利要求1所述的一种基于多标签的图像识别方法. 其特征在于:所述步骤5的具体步骤包括:
步骤5.1 计算频T中的频繁1-项目集L1,其包括:
步骤5.1.1 设置T中的非标签属性集NLA={A, ..., Ap},标签属性集LA ={B, ..., Bq},计算C1=LA
Figure 946194DEST_PATH_IMAGE004
NLA;
步骤5.1.2 计算标签属性中的频繁1-项目集LL1={c
Figure 2011103139563100001DEST_PATH_IMAGE006
LA | sup(c)
Figure 2011103139563100001DEST_PATH_IMAGE008
minsup };
步骤5.1.3 计算非标签属性中的频繁1-项目集NLL1={c
Figure 987968DEST_PATH_IMAGE006
NLA | sup(c)
Figure 767705DEST_PATH_IMAGE008
minsup };
步骤5.1.4 计算频繁1-项目集L1= LL1
Figure 162915DEST_PATH_IMAGE004
NLL1
其中:c为给定项目集;Count(c)为支持数,是项目集c在图像样本数据集T中的出现的次数;Sup(c)为支持度,Sup(c)= Count(c)/|T|,|T|表示图像样本数据集T中样本的个数;
步骤 5.2候选频繁项目集L的生成,其包括:
步骤5.2.1 根据频繁k-项目集Lk生成候选频繁(k+1)-项目集Ck+1,其中k为是频繁项目集的长度;
步骤 5.2.2计算候选频繁(k+1)-项目集Ck+1各项目集支持数,并根据最小支持度阈值minsup生成频繁(k+1)-项目集L k+1
步骤5.2.1 重复步骤5.2.1,若生成候选项目集为空集,则进入步骤5.3;
步骤5.3 生成候选频繁项目集L=
Figure 2011103139563100001DEST_PATH_IMAGE010
3.根据权利要求1所述的一种基于多标签的图像识别方法. 其特征在于:所述步骤7的具体步骤包括:
步骤7.1待识别图的准备和预处理,包括训练图像格式转换、尺度归一化、去噪和增强;
步骤7.2采用基于密度聚类的图像分割方法识别出所述待识别图像的待识别区域;
步骤7.3提取出所述待识别图像中待识别区域的非标签属性特征;
步骤7.4非标签属性特征值离散化;
步骤7.5根据多标签关联分类规则MLACR识别所述待识别图像的标签属性。
4. 根据权利要求1所述的一种基于多标签的图像识别方法,其特征在于:所述步骤5.2.1根据频繁k-项目集Lk生成候选频繁(k+1)-项目集Ck+1的具体步骤包括:
步骤5.2.1.1 选择频繁k-项目集Lk中的任意项目集项c1和c2,如果所述c1和c2有k-1个项目相同,则Ck+1+= {c1
Figure 541068DEST_PATH_IMAGE004
c2};
步骤5.2.1.2 重复步骤5.2.1.1,直到完成所有的项目集比较,得到候选频繁(k+1)-项目集Ck+1
步骤5.2.1.3 对Ck+1中任意项目集c,如果所述项目集c存在长度为k的子集c3,且c3
Figure 2011103139563100001DEST_PATH_IMAGE012
Lk,删除所述项目集c;
步骤5.1.2.4删除Ck+1中只包含标签属性或非标签属性的项目集。
5.根据权利要求1所述的一种基于多标签的图像识别方法,其特征在于:所述步骤6.4的具体步骤包括:
步骤6.4.1  选择多标签频繁关联分类规则MLFCAR中前件长度最短的规则R1;
步骤6.4.2 计算MLACR= MLACR
Figure 425848DEST_PATH_IMAGE004
{R1};
MLFCAR = MLFCAR -{R1};
       步骤6.4.3 对于每个多标签频繁关联分类规则MLFCAR中的规则R,如果规则R1覆盖规则R,则执行
MLFCAR= MLFCAR -{R};
              MLACR = MLACR
Figure 755198DEST_PATH_IMAGE004
{R};
步骤6.4.4 如果多标签频繁关联分类规则MLFCAR不为空,重复执行步骤6.4.1至步骤6.4.4。
6.根据权利要求5所述的一种基于多标签的图像识别方法,其特征在于:所述步骤6.4.3中的规则R1覆盖规则R是指对于多标签关联分类规则R1:P1
Figure 954098DEST_PATH_IMAGE002
Q1和R:P2
Figure 622977DEST_PATH_IMAGE002
Q2,满足P1
Figure DEST_PATH_IMAGE014
P2,Q1 Q2,其中P1和Q1分别为规则R1的前件和后件,P2和Q2分别为规则R的前件和后件。
7.根据权利要求1所述的一种基于多标签的图像识别方法,其特征在于:所述步骤3的非标签属性包括均值、方差、倾斜度、峰态、能量、熵和聚类特征。
CN2011103139563A 2011-10-17 2011-10-17 一种基于多标签的图像识别方法 Expired - Fee Related CN102364498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103139563A CN102364498B (zh) 2011-10-17 2011-10-17 一种基于多标签的图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103139563A CN102364498B (zh) 2011-10-17 2011-10-17 一种基于多标签的图像识别方法

Publications (2)

Publication Number Publication Date
CN102364498A true CN102364498A (zh) 2012-02-29
CN102364498B CN102364498B (zh) 2013-11-20

Family

ID=45691064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103139563A Expired - Fee Related CN102364498B (zh) 2011-10-17 2011-10-17 一种基于多标签的图像识别方法

Country Status (1)

Country Link
CN (1) CN102364498B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945371A (zh) * 2012-10-18 2013-02-27 浙江大学 基于多标签柔性支持向量机的分类方法
CN102945372A (zh) * 2012-10-18 2013-02-27 浙江大学 基于多标签约束支持向量机的分类方法
CN103226575A (zh) * 2013-04-01 2013-07-31 北京小米科技有限责任公司 一种图像处理方法和装置
CN103324940A (zh) * 2013-05-02 2013-09-25 广东工业大学 基于多示例多标签学习的皮肤病理图片特征识别方法
CN103530403A (zh) * 2013-10-23 2014-01-22 天津大学 一种结构化的图像描述方法
CN103679190A (zh) * 2012-09-20 2014-03-26 富士通株式会社 分类装置、分类方法以及电子设备
CN103985113A (zh) * 2014-03-12 2014-08-13 浙江工商大学 舌像分割方法
CN104615730A (zh) * 2015-02-09 2015-05-13 浪潮集团有限公司 一种多标签分类方法及装置
CN105069129A (zh) * 2015-06-24 2015-11-18 合肥工业大学 自适应多标签预测方法
CN105825226A (zh) * 2016-03-11 2016-08-03 江苏畅远信息科技有限公司 一种基于关联规则的分布式多标签图像识别方法
CN105868524A (zh) * 2015-02-06 2016-08-17 国际商业机器公司 用于医学图像集的自动基准真值生成
CN105912660A (zh) * 2016-04-11 2016-08-31 中山大学 一种面向大规模数据的关联规则树挖掘方法
CN106529580A (zh) * 2016-10-24 2017-03-22 浙江工业大学 结合edsvm的软件缺陷数据关联分类方法
CN107067022A (zh) * 2017-01-04 2017-08-18 美的集团股份有限公司 图像分类模型的建立方法、建立装置和设备
CN107092591A (zh) * 2017-03-30 2017-08-25 南京理工大学 基于关联规则的多标记中文情感分类方法
CN108229590A (zh) * 2018-02-13 2018-06-29 阿里巴巴集团控股有限公司 一种获取多标签用户画像的方法和装置
CN108647711A (zh) * 2018-05-08 2018-10-12 重庆邮电大学 基于引力模型的多标签分类方法
CN109119133A (zh) * 2018-08-03 2019-01-01 厦门大学 基于多标记特征选择及分类的中医临床大数据存储方法
CN110516704A (zh) * 2019-07-19 2019-11-29 中国科学院地理科学与资源研究所 一种基于关联规则的mlknn多标签分类方法
US11379758B2 (en) 2019-12-06 2022-07-05 International Business Machines Corporation Automatic multilabel classification using machine learning

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295309A (zh) * 2008-05-22 2008-10-29 江苏大学 一种医学图像识别的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295309A (zh) * 2008-05-22 2008-10-29 江苏大学 一种医学图像识别的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朱玉全等: "基于频繁模式树的关联分类规则挖掘算法", 《江苏大学(自然科学版)》 *
武园园等: "基于关联规则的医学图像分类算法", 《计算机工程与涉及》 *
陈耿等: "关联规则挖掘中若干关键技术的研究", 《计算机研究与发展》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679190A (zh) * 2012-09-20 2014-03-26 富士通株式会社 分类装置、分类方法以及电子设备
CN103679190B (zh) * 2012-09-20 2019-03-01 富士通株式会社 分类装置、分类方法以及电子设备
CN102945372A (zh) * 2012-10-18 2013-02-27 浙江大学 基于多标签约束支持向量机的分类方法
CN102945371A (zh) * 2012-10-18 2013-02-27 浙江大学 基于多标签柔性支持向量机的分类方法
CN102945372B (zh) * 2012-10-18 2015-06-24 浙江大学 基于多标签约束支持向量机的分类方法
CN102945371B (zh) * 2012-10-18 2015-06-24 浙江大学 基于多标签柔性支持向量机的分类方法
CN103226575A (zh) * 2013-04-01 2013-07-31 北京小米科技有限责任公司 一种图像处理方法和装置
CN103324940A (zh) * 2013-05-02 2013-09-25 广东工业大学 基于多示例多标签学习的皮肤病理图片特征识别方法
CN103530403B (zh) * 2013-10-23 2016-09-28 天津大学 一种结构化的图像描述方法
CN103530403A (zh) * 2013-10-23 2014-01-22 天津大学 一种结构化的图像描述方法
CN103985113A (zh) * 2014-03-12 2014-08-13 浙江工商大学 舌像分割方法
CN105868524B (zh) * 2015-02-06 2019-05-03 国际商业机器公司 用于医学图像集的自动基准真值生成
CN105868524A (zh) * 2015-02-06 2016-08-17 国际商业机器公司 用于医学图像集的自动基准真值生成
CN104615730B (zh) * 2015-02-09 2017-10-27 浪潮集团有限公司 一种多标签分类方法及装置
CN104615730A (zh) * 2015-02-09 2015-05-13 浪潮集团有限公司 一种多标签分类方法及装置
CN105069129A (zh) * 2015-06-24 2015-11-18 合肥工业大学 自适应多标签预测方法
CN105069129B (zh) * 2015-06-24 2018-05-18 合肥工业大学 自适应多标签预测方法
CN105825226A (zh) * 2016-03-11 2016-08-03 江苏畅远信息科技有限公司 一种基于关联规则的分布式多标签图像识别方法
CN105912660A (zh) * 2016-04-11 2016-08-31 中山大学 一种面向大规模数据的关联规则树挖掘方法
CN106529580A (zh) * 2016-10-24 2017-03-22 浙江工业大学 结合edsvm的软件缺陷数据关联分类方法
CN107067022A (zh) * 2017-01-04 2017-08-18 美的集团股份有限公司 图像分类模型的建立方法、建立装置和设备
CN107092591B (zh) * 2017-03-30 2020-06-30 南京理工大学 基于关联规则的多标记中文情感分类方法
CN107092591A (zh) * 2017-03-30 2017-08-25 南京理工大学 基于关联规则的多标记中文情感分类方法
CN108229590A (zh) * 2018-02-13 2018-06-29 阿里巴巴集团控股有限公司 一种获取多标签用户画像的方法和装置
CN108229590B (zh) * 2018-02-13 2020-05-15 阿里巴巴集团控股有限公司 一种获取多标签用户画像的方法和装置
CN108647711A (zh) * 2018-05-08 2018-10-12 重庆邮电大学 基于引力模型的多标签分类方法
CN108647711B (zh) * 2018-05-08 2021-04-20 重庆邮电大学 基于引力模型的图像的多标签分类方法
CN109119133A (zh) * 2018-08-03 2019-01-01 厦门大学 基于多标记特征选择及分类的中医临床大数据存储方法
CN109119133B (zh) * 2018-08-03 2021-07-23 厦门大学 基于多标记特征选择及分类的中医临床大数据存储方法
CN110516704A (zh) * 2019-07-19 2019-11-29 中国科学院地理科学与资源研究所 一种基于关联规则的mlknn多标签分类方法
CN110516704B (zh) * 2019-07-19 2022-07-15 中国科学院地理科学与资源研究所 一种基于关联规则的mlknn多标签分类方法
US11379758B2 (en) 2019-12-06 2022-07-05 International Business Machines Corporation Automatic multilabel classification using machine learning

Also Published As

Publication number Publication date
CN102364498B (zh) 2013-11-20

Similar Documents

Publication Publication Date Title
CN102364498B (zh) 一种基于多标签的图像识别方法
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
Culotta et al. Joint deduplication of multiple record types in relational data
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN102799614B (zh) 基于视觉词语空间共生性的图像检索方法
CN102004786B (zh) 图像检索系统中的加速方法
Xu et al. A supervoxel approach to the segmentation of individual trees from LiDAR point clouds
Zhang et al. Novel density-based and hierarchical density-based clustering algorithms for uncertain data
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及系统
CN104392250A (zh) 一种基于MapReduce的图像分类方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN103617217A (zh) 一种基于层次索引的图像检索方法及系统
CN110688549B (zh) 一种基于知识体系图谱构建的人工智能分类方法与系统
CN102902826A (zh) 一种基于基准图像索引的图像快速检索方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN105825226A (zh) 一种基于关联规则的分布式多标签图像识别方法
CN101211344A (zh) 文本信息遍历的快速四维可视化方法
CN103778206A (zh) 一种网络服务资源的提供方法
Li et al. A branch-trunk-constrained hierarchical clustering method for street trees individual extraction from mobile laser scanning point clouds
CN115238081B (zh) 一种文物智能识别方法、系统及可读存储介质
Vijayalaksmi et al. A fast approach to clustering datasets using dbscan and pruning algorithms
CN102799616A (zh) 大规模社会网络中的离群点检测方法
CN103761286A (zh) 一种基于用户兴趣的服务资源检索方法
Salem et al. Clustering categorical data using the k-means algorithm and the attribute’s relative frequency
CN114943285B (zh) 互联网新闻内容数据智能审核系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131120

Termination date: 20141017

EXPY Termination of patent right or utility model