CN102136072A - 学习设备、学习方法和程序 - Google Patents
学习设备、学习方法和程序 Download PDFInfo
- Publication number
- CN102136072A CN102136072A CN2010106105901A CN201010610590A CN102136072A CN 102136072 A CN102136072 A CN 102136072A CN 2010106105901 A CN2010106105901 A CN 2010106105901A CN 201010610590 A CN201010610590 A CN 201010610590A CN 102136072 A CN102136072 A CN 102136072A
- Authority
- CN
- China
- Prior art keywords
- image
- study
- discr
- target
- discriminating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/945—User interactive design; Environments; Toolboxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及学习设备、学习方法和程序。一种学习设备,包括学习部分,所述学习部分按照由用户从多个样本图像中指定的,用于训练鉴别在图像中是否存在预定鉴别目标的鉴别器的学习图像,利用包括从包含在指示学习图像的特征的图像特征量中的多个维特征量中,随机选择的维特征量的随机特征量,训练所述鉴别器。
Description
技术领域
本发明涉及一种学习设备,学习方法和程序,更具体地说,涉及一种适合于在训练鉴别器的情况下使用的学习设备、学习方法和程序,所述鉴别器用于根据少量的学习图像,鉴别在图像中是否存在预定的鉴别目标。
背景技术
在现有技术中,提出了一种图像分类方法,用于把多个图像分成与图像的被摄主题对应的类别,并生成包括每个类别的分类图像的图像聚类。
例如,在这种图像分类方法中,利用鉴别在图像中是否存在预定鉴别目标(例如,人脸)的鉴别器,鉴别在多个图像中的每个图像中是否存在预定鉴别目标。
此外,根据鉴别结果,多个图像分别被分类到其中在图像中存在预定鉴别目标的类别中,或者被分类到其中在图像中不存在预定鉴别目标的类别中,随后对于每个分类类别生成图像聚类。
这里,在产生(训练)鉴别器,以供现有技术中的图像分类方法之用的情况下,需要附加有指示在图像中是否存在预定鉴别目标的正解标签的大量学习图像,和根据所述大量学习图像,生成鉴别器的极大运算。
从而,尽管对企业和研究机构来说,准备能够处理大量学习图像,并且执行生成上述鉴别器所必需的极大运算的计算机是相对容易的,不过对个人来说,准备这样的计算机是非常困难的。
因此,个人很难生成用于生成每个个人的所需图像聚类的鉴别器。
此外,提出一种搜索方法,用于利用鉴别存在于图像中的预定鉴别目标的鉴别器,在多个图像之中搜索图像中存在预定鉴别目标的图像(例如,参见未经审查的日本专利申请公开No.2008-276775)。
在这种搜索方法中,用户在多个图像之中,指定图像中存在预定鉴别目标的正图像,和图像中不存在预定鉴别目标的负图像。此外,通过利用用户指定的正图像和负图像作为学习图像,生成鉴别器。
此外,在这种搜索方法中,利用生成的鉴别器,从多个图像中搜索图像中存在预定鉴别目标的图像。
在这种搜索方法中,通过快速缩小解空间,快速生成鉴别器,从而能够更快速地搜索希望的图像。
这里,为了生成高精度地鉴别预定鉴别目标的鉴别器,应提供大量的各种正图像(例如,其中以各种角度拍摄预定鉴别目标的正图像)。
不过,在上述搜索方法中,由于用户逐张指定学习图像,因此与用于生成现有技术中的图像分类方法中的鉴别器的学习图像的数目相比,学习图像的数目很小。结果,在学习图像之中,正图像的数目也很小。
利用数目很小的正图像的鉴别器的学习容易引起过度学习(过度拟合),从而降低鉴别器的鉴别精度。
此外,尽管学习图像的数目较小,不过在通过词袋(bag-of-words),学习图像中的多个特征的组合等,把指示学习图像的特征的图像特征量表示成具有数百维到数千维的向量,并且通过利用所述向量作为学习图像,生成鉴别器的情况下,预期由于高维向量的缘故,易于发生过度学习。
另外,提出一种在生成鉴别器的情况下,利用装袋来增强鉴别器的泛化的方法(例如,参见Leo Breiman,Bagging Predictors,MachineLearning,1996,123-140)。
然而,即使在利用装袋的方法中,尽管学习图像的数目较小,不过在使用表示成具有数百维到数千维的向量的学习图像的图像特征量的情况下,预期也会发生过度学习。
发明内容
如上所述,在利用少量的学习图像生成鉴别器的情况下,当使用表示成具有数百维到数千维的向量的图像特征量作为学习图像的图像特征量时,会发生过度学习,从而使得难以生成具有高鉴别精度的鉴别器。
因此,理想的是提供一种在利用少量的学习图像进行学习时,能够抑制过度学习,从而训练具有高鉴别精度的鉴别器的技术。
按照本发明的一个实施例,提供一种学习设备,所述学习设备包括学习装置,所述学习装置按照由用户从多个样本图像中指定的,用于训练鉴别在图像中是否存在预定鉴别目标的鉴别器的学习图像,利用包括从包含在指示学习图像的特征的图像特征量中的多个维特征量中,随机选择的维特征量的随机特征量,训练所述鉴别器,和使计算机起所述学习装置作用的程序。
学习装置可通过间隔最大化学习,训练所述鉴别器,所述间隔最大化学习使随机特征量所存在的特征空间中的间隔达到最大,所述间隔表示用于鉴别在图像中是否存在预定鉴别目标的分离超平面和包括在随机特征量中的维特征量之中的,存在于分离超平面附近的维特征量之间的距离。
学习装置可包括:图像特征量提取装置,用于从学习图像中提取表示学习图像的特征,并被表示成具有多维的向量的图像特征量;随机特征量生成装置,用于随机选择作为图像特征量的相应维的元素的所述多个维特征量中的一些维特征量,并生成包括所选维特征量的随机特征量;和鉴别器生成装置,用于利用随机特征量,通过间隔最大化学习,生成鉴别器。
鉴别器可根据用于确定在鉴别目标图像中是否存在预定鉴别目标的多个弱鉴别器的确定结果,输出最终的确定结果,随机特征量生成装置可关于所述多个弱鉴别器中的每个弱鉴别器,生成用于生成该弱鉴别器的随机特征量,鉴别器生成装置可根据关于所述多个弱鉴别器中的每个弱鉴别器生成的随机特征量,生成所述多个弱鉴别器。
鉴别器生成装置还可根据随机特征量,生成指示弱鉴别器的判定的可靠性程度的置信度。
鉴别器生成装置可根据所述多个弱鉴别器和置信度,生成输出鉴别确定值的鉴别器,所述鉴别确定值表示作为从所述多个弱鉴别器中的每个弱鉴别器输出的确定结果的确定值,和所述置信度之间的乘积和运算结果,鉴别装置可根据从鉴别器输出的鉴别确定值,鉴别在鉴别目标图像中是否存在预定鉴别目标。
每当用户指定学习图像时,随机特征量生成装置可生成不同的随机特征量。
学习图像可包括在图像中存在预定鉴别目标的正图像,和在图像中不存在预定鉴别目标的负图像,学习装置还可包括增加伪负图像作为学习图像的负图像增加装置。
学习装置还可包括当在鉴别器生成装置生成鉴别器之后,预定条件被满足时,增加伪正图像作为学习图像的正图像增加装置,鉴别器生成装置可根据被增加伪正图像的学习图像的随机特征量,生成鉴别器。
在正图像和伪正图像的总数小于负图像和伪负图像的总数的条件被满足的情况下,正图像增加装置增加伪正图像作为学习图像。
学习装置可利用SVM(支持向量机)作为间隔最大化学习,进行学习。
学习设备还可包括鉴别在鉴别目标图像中是否存在预定鉴别目标的鉴别装置,在用户按照鉴别装置的鉴别处理,重新指定学习图像的情况下,学习装置可以利用指定的学习图像,重复进行鉴别器的学习。
在用户按照鉴别装置的鉴别处理,指令生成包括在图像中存在预定鉴别目标的鉴别目标图像的图像聚类的情况下,鉴别装置可根据由学习装置生成的最新鉴别器,用多个鉴别目标图像生成图像聚类。
按照本发明的一个实施例,提供一种学习设备中的学习方法,所述学习方法训练用于鉴别在图像中是否存在预定鉴别目标的鉴别器。这里,所述学习设备包括学习装置,所述方法包括下述步骤:按照由用户从多个样本图像中指定的,用于训练鉴别在图像中是否存在预定鉴别目标的鉴别器的学习图像,用学习装置利用包括从包含在指示学习图像的特征的图像特征量中的多个维特征量中,随机选择的维特征量的随机特征量,训练所述鉴别器。
按照本发明的实施例,按照由用户从多个样本图像中指定的,用于训练鉴别在图像中是否存在预定鉴别目标的鉴别器的学习图像,利用包括从包含在指示学习图像的特征的图像特征量中的多个维特征量中,随机选择的维特征量的随机特征量,训练所述鉴别器。
按照本发明的实施例,在利用数目较少的学习图像进行学习时,能够抑制过度学习,从而训练具有高鉴别精度的鉴别器。
附图说明
图1是图解说明按照本发明的一个实施例的图像分类设备的结构例子的方框图;
图2是图解说明由图像分类设备执行的图像分类处理的概况的示图;
图3是图解说明随机标引的示图;
图4是图解说明弱鉴别器的生成的示图;
图5是图解说明交叉验证的示图;
图6是图解说明由图像分类设备执行的图像分类处理的流程图;
图7是图解说明由学习部分执行的学习处理的流程图;
图8是图解说明由鉴别部分执行的鉴别处理的流程图;
图9是图解说明由学习部分执行的反馈学习处理的流程图;
图10是图解说明计算机的结构例子的方框图。
具体实施方式
下面,说明实现本发明的优选例证实施例。将按照下述顺序进行说明:
1.实施例(在利用学习图像的随机特征量,生成鉴别器的情况下的例子)
2.改进例
1.实施例
[图像分类设备1的结构例子]
图1是图解说明按照本发明的一个实施例的图像分类设备1的结构例子的示图。
图像分类设备1鉴别在保存(保留)在图像分类设备1中的多个图像之中的每个图像中,是否存在预定鉴别目标(例如,图2中所示的手表等)。
此外,图像分类设备1根据鉴别结果,把多个图像分成其中存在预定鉴别目标的类别,和其中不存在预定鉴别目标的类别,并生成和保存包括分类到其中存在预定鉴别目标的类别中的图像的图像聚类。
图像分类设备1包括操作部分21,控制部分22,图像存储部分23,显示控制部分24,显示部分25,学习部分26和鉴别部分27。
例如,操作部分21包括由用户操作的操作按钮等,随后把与用户的操作相应的操作信号提供给控制部分22。
控制部分22按照来自操作部分21的操作信号,控制显示控制部分24,学习部分26,鉴别部分27等。
图像存储部分23包括保存图像的多个图像数据库。
显示控制部分24在控制部分22的控制下,从在构成图像存储部分23的多个图像数据库之中,按照用户的选择操作选择的图像数据库中,读取多个样本图像,随后把读出的样本图像提供给显示部分25,以便显示。
这里,样本图像是为允许用户指定正图像和负图像而显示的图像,所述正图像指示在图像中存在预定鉴别目标的图像(例如,在图像上存在作为被摄主题的手表的图像),所述负图像指示在图像中不存在预定鉴别目标的图像(例如,在图像上不存在作为被摄主题的手表的图像)。
显示控制部分24把与用户的指定操作对应的正解标签附加到显示在显示部分25上的多个样本图像之中,按照用户的指定操作指定的样本图像上。此外,显示控制部分24把附加有正解标签的样本图像作为学习图像提供给学习部分26。
这里,正解标签指示样本图像是正图像还是负图像,包括指示样本图像是正图像的正标签,和指示样本图像是负图像的负标签。
即,显示控制部分24把正标签附加到由用户的指定操作指定为正图像的样本图像上,和把负标签附加到由用户的指定操作指定为负图像的样本图像上。此外,显示控制部分24把附加有正标签或负标签的样本图像作为学习图像提供给学习部分26。
此外,显示控制部分24把作为来自鉴别部分27的鉴别结果,鉴别的其中存在预定鉴别目标的图像提供给显示部分25,以便显示。
显示部分25显示来自显示控制部分24的样本图像,鉴别结果等等。
学习部分26根据来自显示控制部分24的学习图像,执行生成用于鉴别在图像中是否存在预定鉴别目标(例如,图2中所示的手表)的鉴别器的学习处理,并把作为结果获得的鉴别器提供给鉴别部分27。
学习部分26执行的学习处理的细节将在后面参考图3-5,及图7中的流程图进行说明。
鉴别部分27利用来自学习部分26的鉴别器,执行鉴别处理,所述鉴别处理鉴别在保存在图像存储部分23据有的,依据用户的选择操作选择的图像数据库中的图像(这里,把学习图像排除在外)中,是否存在预定鉴别目标。
此外,鉴别部分27把在鉴别处理中鉴别的,在图像中存在预定鉴别目标的图像作为鉴别结果提供给显示控制部分24。由鉴别部分27执行的鉴别处理的细节将在后面参考图8中的流程图进行说明。
[图像分类设备1执行的图像分类处理的概况]
图2图解说明由图像分类设备1执行的图像分类处理的概况。
在步骤S1,显示控制部分24从在构成图像存储部分23的多个图像数据库之中,依据用户的选择操作选择的图像数据库(下面称为“所选图像数据库”)中,读取多个样本图像,随后把读出的样本图像提供给显示部分25,以便显示。
这种情况下,用户利用操作部分21,执行从显示在显示部分25上的多个样本图像中,指定正图像或负图像的指定操作。即,例如,用户执行把图像中存在手表的样本图像指定为正图像,或者把图像中存在除手表外的被摄主题的样本图像指定为负图像的指定操作。
在步骤S2,显示控制部分24把正标签附加到被指定为正图像的样本图像上。相反,显示控制部分24把负标签附加到被指定为负图像的样本图像上。此外,显示控制部分24把附加了正标签或负标签的样本图像,作为学习图像提供给学习部分26。
在步骤S3,学习部分26利用来自显示控制部分24的学习图像,执行生成用于鉴别在图像中是否存在预定鉴别目标(图2中所示例子中的手表)的鉴别器的学习处理,随后把作为结果获得的鉴别器提供给鉴别部分27。
鉴别部分27从图像存储部分23中,读出保存在图像存储部分23的所选图像数据库中的多个图像之中,除学习图像之外的一些图像(未附加正标签或负标签的图像),作为鉴别目标图像,所述鉴别目标图像是鉴别处理的目标。
此外,通过利用读出的一些鉴别目标图像作为各个目标,鉴别部分27利用来自学习部分26的鉴别器,执行鉴别在图像中是否存在预定鉴别目标的鉴别处理。
鉴别部分27把在鉴别处理中鉴别的,在图像中存在预定鉴别目标的鉴别目标图像作为鉴别结果提供给显示控制部分24。
在步骤S4,显示控制部分24把作为鉴别结果,来自鉴别部分27的鉴别目标图像提供给显示部分25,以便显示。
在参考显示在显示部分25上的鉴别结果,用户不满意借助于鉴别器的图像分类的精度的情况下(例如,如图2中所示,在包含作为被摄主题的熊猫的图像被包括在鉴别结果中的情况下),用户通过操作部分21执行指令生成新的鉴别器的指令操作。当执行指令操作时,程序从步骤S4进入步骤S5。
在步骤S5,显示控制部分24按照用户的指令操作,从图像数据库中读出多个新的样本图像,所述多个新的样本图像不同于在先前的步骤S2的处理中显示的多个样本图像,随后把读取的新的样本图像提供给显示部分25,以便显示。随后,程序返回步骤S2,之后执行相同的处理。
此外,在参考显示在显示部分25上的鉴别结果,用户满意借助于鉴别器的图像分类的精度的情况下(例如,在只有包含作为被摄主题的手表的图像被包括在鉴别结果中的情况下),用户利用操作部分21,执行指令借助于鉴别器生成图像聚类的指令操作。
按照该指令操作,程序从步骤S4进入步骤S6。在步骤S6,鉴别部分27利用在先前的步骤S3的处理中生成的鉴别器,鉴别在保存在所选图像数据库中的多个图像中,是否存在预定鉴别目标。
此外,鉴别部分27根据鉴别结果,生成由在图像中存在预定鉴别目标的多个图像形成的图像聚类,并把图像聚类提供给图像存储部分23,以便保存。随后,结束图像分类处理。
[学习部分26执行的学习处理]
下面参考图3-5,说明由学习部分26执行的学习处理。
学习部分26执行根据来自显示控制部分24的学习图像,生成鉴别器的学习处理。
鉴别器包括鉴别在图像中是否存在预定鉴别目标的多个弱鉴别器,并根据借助于所述多个弱鉴别器的鉴别结果,确定最终鉴别结果。
因此,由于在学习处理中,鉴别器的生成和多个弱鉴别器的生成是等价的,因此下面将说明多个弱鉴别器的生成。
学习部分26从由显示控制部分24供给的学习图像中,提取表示学习图像的特征并被表示成多维向量的图像特征量。
此外,学习部分26根据提取的图像特征量,生成多个弱鉴别器。不过,在用数量较少的学习图像进行鉴别器的生成的情况下,学习图像的图像特征量的维数较大(构成作为图像特征量的向量的元素的数目较大),从而引起过度学习(过度拟合)。
从而,为了抑制过度学习,学习部分26按照学习图像的数目,执行限制用于学习的图像特征量的维数的随机标引(randomindexing)。
[随机标引]
下面,图3是图解说明由学习部分26执行的随机标引的示图。
图3图解说明用于生成多个弱鉴别器41-1~41-M的随机特征量的例子。
在图3中,作为用于多个弱鉴别器41-1~41-M中的每个弱鉴别器的图像特征量,显示了用24维向量表示的图像特征量。
因此,在图3中,图像特征量是用24个维特征量(元素)构成的。
学习部分26生成指示构成图像特征量的多个维特征量之中,用于生成每个弱鉴别器41-1~41-M的维特征量的随机索引。
即,例如,对于多个弱鉴别器41-1~41-M中的每个弱鉴别器,学习部分26随机确定构成学习图像的图像特征量的多个维特征量之中的,用于每个弱鉴别器41-1~41-M的学习的预定数目的维特征量。
依据按照学习图像的数目,构成学习图像的图像特征量的维特征量的数目等,预先进行的实验结果等,用于每个弱鉴别器41-1~41-M的学习的维特征量的数目较小,以致不会发生过度学习。
此外,学习部分26执行随机标引,所述随机标引生成指示随机确定的维特征量的随机索引,即,指示随机确定的维特征量在构成向量(它是图像特征量)的元素之中的顺序的随机索引。
具体地说,例如,学习部分26生成把构成作为图像特征量的向量的24个元素之中的,存在于第一、第三、第四、第六、第九到第十一、第十五到第十七、第二十、第二十一和第二十四位置(图3中用斜线表示)的13个维特征量表示为用于弱鉴别器41-1的学习的维特征量的随机索引。
此外,例如,学习部分26类似地分别生成指示用于弱鉴别器41-2~41-M的学习的维特征量的随机索引。
学习部分26根据关于要生成的每个弱鉴别器41-1~41-M生成的随机索引,提取在构成学习图像的图像特征量的多个维特征量之中,用随机标引指示的维特征量。
此外,学习部分26根据由提取的维特征量构成的随机特征量,生成弱鉴别器41-1~41-M。
[弱鉴别器的生成]
下面,图4图解说明学习部分26利用根据随机索引提取的随机特征量,生成弱鉴别器41-1~41-M的例子。
在图4的左侧,表示从显示控制部分24提供给学习部分26的学习图像61-1~61-N。
学习部分26根据关于弱鉴别器41-1生成的随机索引,提取由来自显示控制部分24的学习图像61-n(n=1,2,...N)的图像特征量提取的维特征量构成的随机特征量81-n。
此外,学习部分26分别根据从学习图像61-1~61-N的图像特征量中提取的N个随机特征量81-1~81-N,利用SVM(支持向量机),生成弱鉴别器41-1。
这里,SVM指的是在构成每个给定的随机特征量81-1~81-N的维特征量之中,建立称为支持向量的分离超平面(供图像鉴别之用的边界面,和特征空间上的构成随机特征量的维特征量存在于的边界面),以使置于分离超平面附近并且作为置于分离超平面周围的维特征量和分离超平面之间的距离的间隔(margin)最大化,随后利用建立的分离超平面,生成用于鉴别图像的弱鉴别器的处理。
学习部分26还进行除了弱鉴别器41-1之外的弱鉴别器41-2~41-M的生成。这里,由于生成方法与弱鉴别器41-1的生成方法相同,因此其说明将被省略。这同样适用于下面的说明。
此外,当在利用SVM的弱鉴别器41-1的生成中,应用SVM时,在SVM中使用出现在核函数中的参数、由于软间隔的缓和而出现的用于补偿控制(penalty control)的参数,等等。
因此,在进行利用SVM的弱鉴别器41-1的生成之前,学习部分26必须利用如图5中所示的确定方法,确定用于SVM的参数。
[利用交叉验证的参数的确定方法]
下面参考图5,说明由学习部分26执行的确定方法,所述确定方法利用交叉验证,确定用于SVM的参数。
在图5的上部,学习图像L1~L4被表示成从显示控制部分24提供给学习部分26的学习图像。在学习图像L1~L4之中,学习图像L1和L2代表正图像,学习图像L3和L4代表负图像。
学习部分26执行顺序把作为在SVM中使用的参数的候选者的多个候选参数设定为关注参数,并计算指示关于关注参数的评价的评价值的交叉验证。
即,例如,学习部分26顺序把四个学习图像L1~L4设定为关注学习图像(例如,学习图像L1)。此外,通过把利用关注参数的SVM应用于四个学习图像L1~L4之中的不同于关注学习图像的剩余学习图像(例如,学习图像L2~L4),学习部分26生成弱鉴别器41-1。此外,学习部分26通过利用生成的弱鉴别器41-1,使用关注学习图像作为目标,鉴别在图像中是否存在预定鉴别目标。
学习部分26根据弱鉴别器41-1的鉴别结果,和附加在关注学习图像上的正解标签,鉴别弱鉴别器41-1是否正确地鉴别了关注学习图像。
如图5中所示,通过顺序把所有四个学习图像L1~L4用作关注学习图像,学习部分26确定四个学习图像L1~L4是否都被正确鉴别。此外,例如,学习部分26根据作为关注参数的评价值的确定结果,产生四个学习图像L1~L4中的每个学习图像能够被精确鉴别的概率。
学习部分26把与关于作为关注参数的相应候选参数计算的多个评价值中的最大评价值(最高评价值)对应的候选参数,确定为用于SVM的最终参数。
此外,学习部分26根据四个学习图像L1~L4,用被应用所确定参数的SVM,执行生成弱鉴别器41-m(m=1,2,...,M)的学习处理。
此外,学习部分26按照下述公式1,计算指示用生成的弱鉴别器41-m执行的鉴别的置信程度的置信度。
[公式1]
在公式1中,“真正的数目”代表正确地鉴别作为弱鉴别器41-m中的学习图像的正图像是正图像的次数。
此外,在公式1中,“真负的数目”代表正确地鉴别作为弱鉴别器41-m中的学习图像的负图像是负图像的次数。此外,“训练数据的数目”代表用于生成弱鉴别器41-m的学习图像(正图像和负图像)的数目。
此外,学习部分26根据生成的弱鉴别器41-m,和弱鉴别器41-m的置信度(下面称为“置信度am”),生成用于输出如下面的公式2中所示的鉴别确定值yI的鉴别器。
[公式2]
在公式2中,M代表弱鉴别器41-m的总数,鉴别确定值yI代表从相应的弱鉴别器41-m输出的确定值ym和弱鉴别器41-m的置信度am的乘积和运算的计算结果。
此外,如果根据输入的随机特征量,鉴别在图像中存在鉴别目标,那么弱鉴别器41-m输出正值作为确定值ym,如果鉴别在图像中不存在鉴别目标,那么弱鉴别器41-m输出负值作为确定值ym。
确定值ym由输入弱鉴别器41-m的随机特征量和分离超平面之间的距离,或者通过逻辑斯蒂(logistic)函数的概率表示来定义。
在鉴别目标图像I被输入由学习部分26生成的鉴别器中的情况下,当从鉴别器输出的鉴别确定值yI是正值时,鉴别部分27鉴别在鉴别目标图像I中存在预定鉴别目标。此外,当从鉴别器输出的鉴别确定值yI是负值时,鉴别部分27鉴别在鉴别目标图像I中不存在预定鉴别目标。
[图像分类设备1的操作]
下面参考图6的流程图,说明由图像分类设备1执行的图像分类处理。
例如,当用户操纵操作部分21,以在构成图像存储部分23的多个图像数据库中,选择作为图像分类处理的目标的图像数据库时,开始图像分类处理。此时,操作部分21把与来自用户的图像数据库的选择操作对应的操作信号提供给控制部分22。
在步骤S21,执行与图2中的步骤S1对应的处理。即,在步骤S21,控制部分22按照来自操作部分21的操作信号,在构成图像存储部分23的多个图像数据库中,选择由来自用户的选择操作选择的图像数据库,作为所选图像数据库,所述所选图像数据库是图像分类处理的目标。
在步骤S22和S23中,执行与图2中的步骤S2对应的处理。
即,在步骤S22,显示控制部分24在控制部分22的控制下,从图像存储部分23的所选图像数据库中读出多个样本图像,随后把读出的样本图像提供给显示部分25,以便显示。
按照用户通过操作部分21,从显示在显示部分25上的多个样本图像中指定的正图像和负图像的数目,程序从步骤S22进入步骤S23。
此外,在步骤S23中,显示控制部分24把正标签附加到指定为正图像的样本图像上。相反,显示控制部分24把负标签附加到指定为负图像的样本图像上。此外,显示控制部分24把附加了正标签或负标签的样本图像作为学习图像提供给学习部分26。
在步骤S24和S25,执行与图2中的步骤S3对应的处理。
即,在步骤S24,学习部分26根据来自显示控制部分24的学习图像,执行学习处理,并把通过学习处理获得的鉴别器和随机索引提供给鉴别部分27。学习部分26执行的学习处理的细节将在后面参考图7中的流程图进行说明。
在步骤S25,鉴别部分27从图像存储部分23中,读出保存在图像存储部分23中的所选图像数据库中的多个图像之中,除学习图像外的一些图像,作为鉴别目标图像,所述鉴别目标图像是鉴别处理的目标。
此外,通过利用几个读出的鉴别目标图像作为各个目标,鉴别部分27利用来自学习部分26的鉴别器和随机索引,执行鉴别在图像中是否存在预定鉴别目标的鉴别处理。鉴别部分27执行的鉴别处理的细节将在后面参考图8中的流程图进行说明。
此外,鉴别部分27把在鉴别处理中鉴别的、在图像中存在预定鉴别目标的鉴别目标图像作为鉴别结果提供给显示控制部分24。
在步骤S26和S27,执行与图2中的步骤S4对应的处理。
即,在步骤S26,显示控制部分24把来自鉴别部分27的鉴别结果提供给显示部分25,以便显示。
在参考显示在显示部分25上的鉴别结果,用户不满意借助于在先前步骤S24的处理中生成的鉴别器的图像分类的精度的情况下,用户利用操作部分21,执行指令生成新的鉴别器的指令操作。
此外,在参考显示在显示部分25上的鉴别结果,用户满意借助于在先前步骤S24的处理中生成的鉴别器的图像分类的精度的情况下,用户利用操作部分21,执行指令利用所述鉴别器生成图像聚类的指令操作。
操作部分21把与用户的指令操作相应的操作信号提供给控制部分22。
在步骤S27,控制部分22根据来自操作部分21的,与用户的指令操作相应的操作信号,确定用户是否满意借助所述鉴别器的图像分类的精度。如果确定用户不满意图像分类的精度,那么处理进入步骤S28。
在步骤S28,执行与图2中的步骤S5对应的处理。
即,在步骤S28,显示控制部分24在控制部分22的控制下,根据保存在图像存储部分23的所选图像数据库中的多个图像中的鉴别确定值yI,重新从图像存储部分23的所选图像数据库中读出多个样本图像。
具体地说,例如,显示控制部分24分别把保存在图像存储部分23的所选图像数据库中的多个图像中的、其中借助于在先前步骤S24的处理中生成的鉴别器的鉴别确定值yI满足某一条件(例如,鉴别确定值yI的绝对值小于预定阈值的条件)的图像确定为样本图像。
此外,显示控制部分24从图像存储部分23的所选图像数据库中读出确定的多个样本图像。
随后,显示控制部分24使程序返回步骤S22。在步骤S22,在先前的步骤S28中的处理中读出的多个样本图像被提供给显示部分25,以便被显示,处理进入步骤S23。随后,执行相同的处理。
此外,在步骤S27,如果根据来自操作部分21的,与用户的指令操作对应的操作信号,确定用户满意借助于鉴别器的图像分类的精度,那么控制部分22允许程序进入步骤S29。
在步骤S29,执行与图2中的步骤S6对应的处理。即,在步骤S29中,鉴别部分27根据在先前的步骤S24的处理中生成的鉴别器,生成由保存在图像存储部分23的所选图像数据库中的多个图像之中的,其中存在预定鉴别目标的图像构成的图像聚类,随后把图像聚类提供给图像存储部分23,以便保存。此时,结束图像分类处理。
[学习部分26执行的学习处理的细节]
下面参考图7中的流程图,说明由学习部分26执行的,图6中的步骤S24中的学习处理的细节。
在步骤S41,学习部分26从由显示控制部分24供给的多个学习图像中的每个学习图像中,提取表示该学习图像的特征,并被表示成多维向量的图像特征量。
在步骤S42,学习部分26执行随机标引,用于关于待生成的相应弱鉴别器41-m生成随机索引。这里,如果每当在学习处理中新生成鉴别器,生成的随机索引就被更新成不同的随机索引,那么学习部分26能够防止解空间的固定。
即,如果每当新生成鉴别器时,随机索引就被更新成不同的随机索引,那么在按照用户的操作被执行数次的学习处理中,学习部分26能够防止在其中存在固定的维特征量的特征空间(即,在固定的解空间)中进行学习。
在步骤S43,学习部分26根据关于弱鉴别器41-m生成的随机索引,用多个学习图像中的每个学习图像,生成用于生成弱鉴别器41-m的随机特征量。
即,例如,学习部分26在构成从多个学习图像中的每个学习图像中提取的图像特征量的多个维特征量中,选择由关于弱鉴别器41-m生成的随机索引指示的维特征量,随后生成由选择的维特征量构成的随机特征量。
在步骤S44,学习部分26通过把SVM应用于关于多个学习图像中的每个学习图像生成的随机特征量,生成弱鉴别器41-m。此外,学习部分26计算弱鉴别器41-m的置信度am。
在步骤S45,学习部分26根据生成的弱鉴别器41-m,和弱鉴别器41-m的置信度am,生成用于输出公式2中所示的鉴别确定值yI的鉴别器,随后程序返回图6中的步骤S24。
此外,在图6中的步骤S24中,学习部分26把在步骤S42的处理中生成的每个弱鉴别器41-1~41-M的随机索引,和在步骤S45的处理中生成的鉴别器提供给鉴别部分47,随后处理进入步骤S25。
[鉴别部分27执行的鉴别处理的细节]
下面参考图8中的流程图,说明由鉴别部分27执行的,图6中的步骤S25中的鉴别处理的细节。
在步骤S61,鉴别部分27分别从图像存储部分23的所选图像数据库中,读出除学习图像外的一些图像,作为鉴别目标图像I。
此外,鉴别部分27从读出的鉴别目标图像I中,提取指示鉴别目标图像的特征的图像特征量。
在步骤S62,鉴别部分27从构成提取的图像特征量的多个维特征量中,选择由与来自学习部分26的弱鉴别器41-m对应的随机索引指示的维特征量,随后生成由选择的维特征量构成的随机特征量。
刚刚在执行鉴别处理之前在学习处理的步骤S42的处理中生成的每个弱鉴别器41-m的随机索引从学习部分26被提供给鉴别部分27。
在步骤S63,鉴别部分27把生成的鉴别目标图像I的随机特征量输入由来自学习部分26的鉴别器据有的弱鉴别器41-m。从而,弱鉴别器41-m根据从鉴别部分27输入的鉴别目标图像I的随机特征量,输出鉴别目标图像I的确定值ym。
在步骤S64,鉴别部分27通过把从弱鉴别器41-m输出的确定值ym输入(分配给)来自学习部分26的鉴别器,即,输入(分配给)公式2,执行公式2中所示的乘积和运算,随后计算鉴别目标图像I的鉴别确定值yI。
此外,鉴别部分27根据计算的鉴别确定值yI,判定鉴别目标图像I是正图像还是负图像。即,例如,在计算的鉴别确定值yI是正值的情况下,鉴别部分27判定鉴别目标图像I是正图像,在计算的鉴别确定值yI不是正值的情况下,鉴别部分27判定鉴别目标图像I是负图像。随后,鉴别部分27结束鉴别处理,然后程序返回图6中的步骤S25。
如上所述,在图像分类处理中,在步骤S24的学习处理中,由于使用与除学习图像的图像特征量外的图像特征量相比维数较低的随机特征量,因此即使在根据少量的学习图像生成鉴别器的情况下,也能够抑制过度学习。
此外,在学习处理中,利用SVM生成多个弱鉴别器41-1~41-M,所述SVM用于通过使离学习图像的随机特征量的间隔最大化,提高鉴别器的泛化性能。
因此,在学习处理中,由于在抑制过度学习的时候,能够生成具有高泛化性能的鉴别器,因此即使用少量的学习图像,也能够生成具有较高鉴别精度的鉴别器。
从而,在图像分类处理中,通过利用根据用户指定的少量学习图像生成的鉴别器,由于能够以较高的精度对不同图像中的作为图像聚类构成的图像分类,因此能够高精度地生成用户希望的图像聚类。
在现有技术中,存在利用随机选择的维特征量,通过随机森林鉴别图像的鉴别方法。
在通过随机森林的鉴别方法中,从多个学习图像中随机选择一些学习图像,随后生成由选择的学习图像构成的自举集合。
此外,从构成自举集合的一些学习图像中选择用于学习的学习图像,以执行鉴别器的学习。在[Leo Breiman,″Random Forests″,Machine Learning,45,5-32,2001]中详细公开了通过随机森林的鉴别方法。
在这方面,在本发明中,利用用户指定的所有多个学习图像,进行鉴别器的学习。从而,在本发明中,由于与通过随机森林的鉴别方法相比,利用更多的学习图像进行鉴别器的学习,因此,能够生成鉴别精度较高的鉴别器。
此外,在通过随机森林的鉴别方法中,根据维特征量生成判定树,随后根据生成的判定树进行鉴别器的学习。
不过,在通过随机森林的鉴别方法中进行的基于判定树的学习不一定会生成利用为使间隔最大化而建立的分离超平面来进行图像的分类的鉴别器。
在这方面,在本发明中,由于用于图像分类的鉴别器(弱鉴别器)是通过使间隔最大化的SVM,利用为使间隔最大化而建立的分离超平面而生成的,因此即使根据少量的学习图像进行学习,通过抑制过度学习,也能够生成泛化性能高的鉴别器。
这样,在本发明的实施例中,与现有技术中的通过随机森林的鉴别方法相比,能够生成具有更高鉴别精度的鉴别器。
2.改进例
在上述实施例中,为了抑制归因于少量学习图像而产生的过度学习,由学习图像的图像特征量生成维数比图像特征量低的随机特征量,并根据生成的随机特征量生成鉴别器,不过本发明并不局限于此。
即,作为过度学习的原因,举例说明了少量的学习图像,和学习图像中的少量的正图像。从而,例如,在本实施例中,通过以伪方式虚增(padding)正图像,增大正图像的数目,从而抑制过度学习。
这里,在现有技术中,提供一种伪相关反馈处理,用于根据用户指定的学习图像,增加伪学习图像。
在伪相关反馈处理中,根据用户指定的学习图像,生成鉴别器。此外,在不是学习图像的多个图像(未附加正解标签的图像)之中,通过生成的鉴别器的鉴别,鉴别确定值等于或大于预定阈值的图像被选为伪正图像。
在伪相关反馈处理中,在按伪方式在学习图像中虚增正图像的时候,可能出现其中在图像中不存在预定鉴别目标的负图像被选为伪正图像的假正。
特别的是,在初始阶段中,在根据少量的学习图像生成的鉴别器中,由于归因于鉴别器本身的鉴别精度较低,因此出现假正的可能性较高。
因此,在学习部分26中,为了抑制假正,代替学习处理,可以执行通过采用背景图像作为伪负图像,生成鉴别器,并根据生成的鉴别器虚增伪正图像的反馈学习处理。
背景图像指的是在根据被摄主题,把保存在构成图像存储部分23的多个图像数据库中的每个图像数据库之中的图像分成多个类别的情况下,未被归入任何类别的图像。
因此,作为背景图像,例如,采用不包括存在于保存在构成图像存储部分23的多个图像数据库中的每个图像数据库中的图像之中的任何被摄主题的图像,具体地说,例如,图像中只存在作为被摄主题的风景的图像等。此外,背景图像被保存在图像存储部分23中。
[反馈学习处理的说明]
下面,图9是图解说明代替图6中的步骤S24中的学习处理,由学习部分26执行的反馈学习处理的细节的示图。
在步骤S81,执行与图7的步骤S41中的处理相同的处理。
在步骤S82,学习部分26使用保存在图像存储部分23中的背景图像,作为指示伪负图像的背景负图像。此外,学习部分26从背景负图像中,提取表示背景负图像的特征的图像特征量。
在步骤S82的处理中,由学习部分26提取的背景负图像的图像特征量被用于在步骤S84中生成背景负图像的随机特征量。
在步骤S83和S86中,学习部分26利用相应的正图像、负图像和背景负图像作为学习图像,分别执行与图7中的步骤S42和S45相同的处理。
在步骤S87,例如,学习部分26确定在下面的公式3中所示的重复条件是否被满足。
[公式3]
if(SP+PP)<(SN+BN):true
…(3)
else:false
在公式3中,Sp代表正图像的数目,Pp代表伪正图像的数目,SN代表负图像的数目,BN代表背景负图像的数目。此外,在公式3中,假定Sp<(SN+BN)被满足。
在步骤S87中,如果学习部分26确定公式3被满足,那么程序进入步骤S88。
在步骤S88,学习部分26从图像存储部分23的所选图像数据库中,读出未被附加正解标签的图像(不是学习图像的图像)作为鉴别目标图像I。此外,学习部分26利用在先前的步骤S86的处理中生成的鉴别器,计算读出的鉴别目标图像I的鉴别确定值yI。
学习部分26把正标签附加到与在计算的鉴别确定值yI内,排序高的鉴别确定值对应的鉴别目标图像I上,并获得附加有正标签的鉴别目标图像I作为伪正图像。
在步骤S82,由于背景负图像被虚增为伪负图像,因此,在学习部分26中计算的鉴别确定值yI整体下降。
不过,在这种情况下,与不虚增伪负图像的情况相比,进一步提高了在鉴别确定值yI方面排序较高的图像是正图像的概率,从而,能够抑制假正的出现。
学习部分26重新把在步骤S88的处理中获得的伪正图像增加为学习图像,随后程序返回步骤S83。
此外,在步骤S83中,学习部分26生成与在先前的步骤S83的处理中生成的随机索引不同的随机索引。
即,每当重新生成鉴别器时,学习部分26就把随机索引更新成不同的随机索引,从而防止解空间的固定。
在学习部分26生成随机索引之后,程序进入步骤S84。随后,学习部分26根据在先前的步骤S83的处理中生成的随机索引,生成随机特征量,之后执行相同的处理。
在步骤S87,如果学习部分26确定公式3不被满足,即,如果学习部分26确定鉴别器是在充分虚增伪正图像的状态下生成的,那么学习部分26把在先前的步骤S83的处理中生成的随机索引,和在先前的步骤S86的处理中生成的鉴别器提供给鉴别部分27。
此外,学习部分26结束反馈学习处理,随后程序返回图6中的步骤S24。随后,鉴别部分27执行步骤S25中的识别处理。
如上所述,在反馈学习处理中,每当学习部分26重新执行步骤S83-S86的处理时,学习部分26就在步骤S83中更新随机索引。
因此,每当学习部分26重新执行步骤S83-S86的处理时,就分别在依据不同的随机索引选择的、其中存在不同的维特征量的特征空间中进行基于SVM的学习。
因此,在反馈学习处理中,例如,不同于利用固定的随机索引生成鉴别器的情况,能够避免在其中存在固定的维特征量的特征空间中,即,在固定的解空间中进行学习。
此外,在反馈学习处理中,在步骤S86中生成鉴别器之前,在步骤S82中,通过利用背景图像作为指示伪负图像的背景负图像,虚增负图像。
从而,在反馈学习处理中,由于能够抑制在步骤S86中生成其中负图像被排列在高位的鉴别器,因此,当在步骤S88中生成伪正图像时,能够抑制其中负图像被错误地生成为伪正图像的假正的出现。
此外,在反馈学习处理中,即使出现假正,由于在步骤S86中,鉴别器是利用使间隔最大化,以提高泛化性能的SVM生成的,因此能够生成具有较高精度的鉴别器。
因此,在反馈学习处理中,与现有技术中的伪相关反馈处理相比,能够高精度地生成用户的期望图像聚类。
在反馈学习处理中,步骤S83-S86的处理通常被执行数次。这是因为在首次执行步骤S83-S86的处理的情况下,由于还未通过步骤S88的处理执行伪正图像的虚增,因此在步骤S87的处理中,确定条件公式3被满足。
在反馈学习处理中,当反复执行步骤S83-S86的处理时,虚增作为学习图像的伪正图像。不过,随着步骤S83-S86的处理的重复次数的增大,归因于这些处理的计算量也增大。
从而,通过一起使用学习处理和反馈学习处理,能够减少生成鉴别器的计算量。
即,例如,在图像分类处理中,在首次执行步骤S24的处理的情况下,执行图7的学习处理。这种情况下,在步骤S24的第一次处理(学习处理)中,依据学习处理获得的鉴别器的鉴别,其中鉴别确定值yI排序较高的图像作为伪正图像被保留。
此外,在图像分类处理中,在步骤S27的处理中当程序经过步骤S28返回步骤S22时,执行第二次或以上的步骤S24的处理。此时,作为步骤S24的处理,执行反馈学习处理。
这种情况下,在步骤S24的第一次处理中被保留的伪正图像被虚增为学习图像的状态下,执行反馈学习处理。
从而,在一起使用学习处理和反馈学习处理的情况下,在预先增加伪正图像的状态下开始反馈学习处理,作为第二次或以上的步骤S24的处理。
因此,在作为第二次或以上的步骤S24的处理的反馈学习处理中,由于与在图像分类处理的步骤S24中只执行反馈学习处理的情况相比,多种状态地开始正图像和伪正图像的总数(Sp+Pp),因此能够减少步骤S83-S86的处理的次数,和减小由图像分类处理的步骤S24的处理引起的计算量。
这里,在一起使用学习处理和反馈学习处理的情况下,由于根据在学习处理中鉴别的鉴别结果,排序更高的图像被用作伪正图像,因此在步骤S87中更容易满足条件公式3。从而,能够进一步减少由图像分类处理的步骤S24的处理引起的计算量。
不过,由于认为由作为步骤S24的第一次处理的学习处理生成的鉴别器具有较低的鉴别精度,因此出现上述假正的概率被增大。不过,由于在步骤S86中生成使用SVM的鉴别器,因此即使出现假正,也能够生成具有较高鉴别精度的鉴别器。
在上述图像分类处理中,在步骤S25中,鉴别部分27通过利用保存在图像存储部分23的所选图像数据库中的多个图像中的,除学习图像外的一些图像作为目标,进行鉴别处理。不过,例如,可利用多个图像中,除学习图像外的所有图像作为目标,进行鉴别处理。
这种情况下,在步骤S26中,由于显示控制部分24把多个图像中,除学习图像外的所有图像的鉴别结果显示在显示部分25上,因此,用户能够更准确地确定借助在先前的步骤S24的处理中生成的鉴别器的图像分类的精度。
此外,在步骤S25中,鉴别部分27可利用保存在图像存储部分23的所选图像数据库中的所有多个图像(包括学习图像)作为目标,进行鉴别处理。
这种情况下,当程序经过步骤S26和S27,从步骤S25进入步骤S29时,在步骤S29,利用步骤S25中的鉴别结果,能够容易地生成图像聚类。
此外,在图像分类处理中,在步骤S22,显示控制部分24把多个样本图像显示在显示部分25上,对应地,用户从多个样本图像中指定正图像和负图像。不过,例如,用户可以只指定正图像。
即,例如,用户只指定正图像,在步骤S23中,显示控制部分24可把正标签附加到被指定为正图像的样本图像上,并且可通过利用背景图像作为负图像,附加负标签。
这种情况下,由于用户只需要指定正图像,因此能够减少用户指定正图像或负图像的不方便之处。
此外,在本实施例中,图像分类设备1利用保存在由图像分类设备1包括的图像存储部分23中的图像数据库中的多个图像作为目标,进行图像分类处理。不过,例如,可利用保存在与图像分类设备1相连的存储设备中的多个图像作为目标,进行图像分类处理。
此外,图像分类设备1可以是任何设备,只要它能够利用鉴别器,把多个图像分类到各个类别中,并且能够生成每个分类类别的图像聚类。例如,图像分类设备1可以采用个人计算机等。
不过,上述一系列处理可由专用硬件或软件执行。在用软件执行所述一系列处理的情况下,从记录介质把用于形成所述软件的程序安装到所谓的嵌入式计算机中,或者安装到通过安装各种程序,能够实现各种功能的通用个人计算机等中。
[计算机的结构例子]
接下来,图10图解说明用程序执行上述一系列处理的计算机的结构例子。
CPU(中央处理器)201按照保存在ROM(只读存储器)202或存储部分208中的程序,执行各种处理。由CPU 201执行的程序,数据等被适当地保存在RAM(随机存取存储器)203中。CPU 201、ROM 202和RAM 203由总线204相互连接。
此外,输入和输出接口205通过总线204与CPU 201连接。包括键盘、鼠标、麦克风等的输入部分206,和包括显示器、扬声器等的输出部分207与输入和输出接口205连接。CPU 201按照从输入部分206输入的命令,执行各种处理。此外,CPU 201把处理结果输出给输出部分207。
例如,与输入和输出部分205连接的存储部分208包括硬盘,保存由CPU 201执行的程序,或者各种数据。通信部分209通过诸如因特网或局域网之类的网络,与外部设备通信。
此外,可通过通信部分209获得程序,并保存在存储部分208中。
当安装诸如磁盘、光盘、磁光盘、半导体存储器之类的可拆卸介质211时,与输入和输出接口205连接的驱动器210驱动可拆卸介质211,获得保存在可拆卸介质211中的程序、数据等。获得的程序或数据被酌情传给存储部分208,以便保存。
如图10中所示,记录(保存)安装在计算机中,并可由计算机执行的程序的记录介质包括可拆卸介质211,它是包括磁盘(包括软盘),光盘(包括CD-ROM(光盘-只读存储器)和DVD(数字通用光盘)),磁光盘(包括MD(小型光盘)),半导体存储器等的套装介质;其中临时或永久保存程序的ROM 202;形成存储部分208的硬盘,等等。根据需要,通过通信部分209,利用诸如局域网、因特网、数字卫星之类的有线或卫星通信媒体把程序记录到记录介质上,所述通信部分209是诸如路由器、调制解调器之类的接口。
在本说明中,上述一系列处理的步骤可包括在时间上按照公开的顺序执行的处理,或者可包括并行或单独执行的处理,而不是按时间顺序执行的处理。
本申请包含与在2010年1月21日,向日本专利局提交的日本优先权专利申请JP 2010-011356中公开的主题相关的主题,该申请的整个内容在此引为参考。
本领域的技术人员应明白,根据设计要求和其它因素,可以做出各种修改、组合、子组合和变更,只要它们在附加权利要求或其等同物的范围之内。
Claims (16)
1.一种学习设备,包括学习装置,所述学习装置随着用户从多个样本图像中指定了用于使鉴别在图像中是否存在预定鉴别目标的鉴别器进行学习的学习图像,利用包括维特征量的随机特征量来使得所述鉴别器进行学习,所述维特征量是从包含在指示学习图像的特征的图像特征量中的多个维特征量中随机选择的。
2.按照权利要求1所述的学习设备,
其中学习装置通过间隔最大化学习来训练所述鉴别器,所述间隔最大化学习使所述随机特征量所存在的特征空间中的间隔最大化,所述间隔表示用于鉴别在图像中是否存在预定鉴别目标的分离超平面与包括在所述随机特征量中的维特征量之中的、位于所述分离超平面附近的维特征量之间的距离。
3.按照权利要求2所述的学习设备,
其中学习装置包括:
图像特征量提取装置,用于从学习图像中提取表示学习图像的特征并被表示成具有多维的向量的图像特征量;
随机特征量生成装置,用于随机选择作为图像特征量的各维的元素的所述多个维特征量中的一些维特征量,并生成包括所选择的维特征量的随机特征量;以及
鉴别器生成装置,用于利用所述随机特征量,通过间隔最大化学习,生成鉴别器。
4.按照权利要求3所述的学习设备,
其中鉴别器根据用于确定在鉴别目标图像中是否存在预定鉴别目标的多个弱鉴别器的确定结果,输出最终的确定结果,
其中随机特征量生成装置针对所述多个弱鉴别器中的每个弱鉴别器,生成用于生成弱鉴别器的随机特征量,和
其中鉴别器生成装置根据针对所述多个弱鉴别器中的每个弱鉴别器生成的随机特征量,生成所述多个弱鉴别器。
5.按照权利要求4所述的学习设备,
其中鉴别器生成装置还根据所述随机特征量,生成指示弱鉴别器的确定结果的可靠性程度的置信度。
6.按照权利要求5所述的学习设备,
其中鉴别器生成装置根据所述多个弱鉴别器和置信度,生成输出鉴别确定值的鉴别器,所述鉴别确定值表示作为从所述多个弱鉴别器中的每个弱鉴别器输出的确定结果的确定值与所述置信度之间的乘积和运算结果,
其中鉴别装置根据从鉴别器输出的鉴别确定值,鉴别在鉴别目标图像中是否存在预定鉴别目标。
7.按照权利要求3所述的学习设备,
其中每当用户指定学习图像时,随机特征量生成装置生成不同的随机特征量。
8.按照权利要求7所述的学习设备,
其中学习图像包括在图像中存在预定鉴别目标的正图像和在图像中不存在预定鉴别目标的负图像,
其中学习装置还包括增加伪负图像作为学习图像的负图像增加装置。
9.按照权利要求8所述的学习设备,
其中学习装置还包括正图像增加装置,该正图像增加装置用于在鉴别器生成装置生成鉴别器之后预定条件被满足时,增加伪正图像作为学习图像,和
其中鉴别器生成装置根据被增加了伪正图像的学习图像的随机特征量,生成鉴别器。
10.按照权利要求9所述的学习设备,
其中在正图像和伪正图像的总数小于负图像和伪负图像的总数的条件被满足的情况下,正图像增加装置增加伪正图像作为学习图像。
11.按照权利要求2所述的学习设备,
其中学习装置进行利用支持向量机的学习作为间隔最大化学习。
12.按照权利要求1所述的学习设备,
还包括利用鉴别器鉴别在鉴别目标图像中是否存在预定鉴别目标的鉴别装置,
其中在用户按照鉴别装置的鉴别处理重新指定了学习图像的情况下,学习装置利用所指定的学习图像,重复进行鉴别器的学习。
13.按照权利要求12所述的学习设备,
其中在用户按照鉴别装置的鉴别处理,指示生成包括在图像中存在预定鉴别目标的鉴别目标图像的图像聚类的情况下,鉴别装置根据由学习装置生成的最新鉴别器,从所述多个鉴别目标图像生成图像聚类。
14.一种学习设备中的学习方法,所述学习设备使用于鉴别在图像中是否存在预定鉴别目标的鉴别器进行学习,
所述学习设备包括学习装置,
所述方法包括下述步骤:随着用户从多个样本图像中指定了用于使鉴别在图像中是否存在预定鉴别目标的鉴别器进行学习的学习图像,由学习装置利用包括维特征量的随机特征量来使得所述鉴别器进行学习,所述维特征量是从包含在指示学习图像的特征的图像特征量中的多个维特征量中随机选择的。
15.一种使计算机起学习装置作用的程序,所述学习装置按照由用户从多个样本图像中指定的,用于训练鉴别在图像中是否存在预定鉴别目标的鉴别器的学习图像,利用包括从包含在指示学习图像的特征的图像特征量中的多个维特征量中,随机选择的维特征量的随机特征量,训练所述鉴别器。
16.一种学习设备,包括学习部分,所述学习部分随着用户从多个样本图像中指定了用于使得鉴别在图像中是否存在预定鉴别目标的鉴别器进行学习的学习图像,利用包括维特征量的随机特征量来使得所述鉴别器进行学习,所述维特征量是从包含在指示学习图像的特征的图像特征量中的多个维特征量中随机选择的。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010011356A JP2011150541A (ja) | 2010-01-21 | 2010-01-21 | 学習装置、学習方法、及びプログラム |
JP2010-011356 | 2010-01-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102136072A true CN102136072A (zh) | 2011-07-27 |
Family
ID=44277623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010106105901A Pending CN102136072A (zh) | 2010-01-21 | 2010-12-29 | 学习设备、学习方法和程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20110176725A1 (zh) |
JP (1) | JP2011150541A (zh) |
CN (1) | CN102136072A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105023023A (zh) * | 2015-07-15 | 2015-11-04 | 福州大学 | 一种用于计算机辅助诊断的乳腺b超图像特征自学习提取方法 |
CN105144239A (zh) * | 2013-04-26 | 2015-12-09 | 奥林巴斯株式会社 | 图像处理装置、程序及图像处理方法 |
CN108537112A (zh) * | 2017-03-03 | 2018-09-14 | 佳能株式会社 | 图像处理装置、图像处理系统、图像处理方法及存储介质 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8233704B2 (en) * | 2007-06-13 | 2012-07-31 | Sri International | Exemplar-based heterogeneous compositional method for object classification |
JP5777390B2 (ja) * | 2011-04-20 | 2015-09-09 | キヤノン株式会社 | 情報処理方法及び装置、パターン識別方法及び装置 |
US8891878B2 (en) * | 2012-06-15 | 2014-11-18 | Mitsubishi Electric Research Laboratories, Inc. | Method for representing images using quantized embeddings of scale-invariant image features |
JP6118752B2 (ja) * | 2014-03-28 | 2017-04-19 | セコム株式会社 | 学習データ生成装置 |
US10417524B2 (en) * | 2017-02-16 | 2019-09-17 | Mitsubishi Electric Research Laboratories, Inc. | Deep active learning method for civil infrastructure defect detection |
CN107909000B (zh) * | 2017-06-28 | 2021-01-19 | 中国科学院遥感与数字地球研究所 | 基于特征优选和支持向量机的不透水面覆盖度估算方法 |
WO2019123544A1 (ja) | 2017-12-19 | 2019-06-27 | オリンパス株式会社 | データ処理方法およびデータ処理装置 |
JP2018125019A (ja) * | 2018-03-27 | 2018-08-09 | エルピクセル株式会社 | 画像処理装置及び画像処理方法 |
JP7051595B2 (ja) * | 2018-06-05 | 2022-04-11 | ザイオソフト株式会社 | 医用画像処理装置、医用画像処理方法、及び医用画像処理プログラム |
JP6639743B1 (ja) * | 2018-06-20 | 2020-02-05 | 楽天株式会社 | 検索システム、検索方法、及びプログラム |
JP6761197B2 (ja) * | 2019-02-27 | 2020-09-23 | キヤノンマーケティングジャパン株式会社 | 情報処理システム、情報処理方法、プログラム |
US11935277B2 (en) * | 2019-03-14 | 2024-03-19 | Nec Corporation | Generation method, training data generation device and program |
JP7231762B2 (ja) | 2019-11-29 | 2023-03-01 | オリンパス株式会社 | 画像処理方法、学習装置、画像処理装置及びプログラム |
KR102131353B1 (ko) * | 2020-01-29 | 2020-07-07 | 주식회사 이글루시큐리티 | 머신 러닝의 예측 데이터 피드백 적용 방법 및 그 시스템 |
JP7446615B2 (ja) * | 2020-11-09 | 2024-03-11 | 東京ロボティクス株式会社 | データセット生成装置、生成方法、プログラム、システム、機械学習装置、物体認識装置、及びピッキングシステム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338082A (ja) * | 2005-05-31 | 2006-12-14 | Sony Corp | 画像処理システム、学習装置および方法、画像認識装置および方法、記録媒体、並びにプログラム |
CN1908960A (zh) * | 2005-08-02 | 2007-02-07 | 中国科学院计算技术研究所 | 一种基于特征分组的多分类器组合人脸识别方法 |
CN1928886A (zh) * | 2006-06-27 | 2007-03-14 | 电子科技大学 | 基于图像分割和二维小波变换的虹膜识别方法 |
CN101226590A (zh) * | 2008-01-31 | 2008-07-23 | 湖南创合制造有限公司 | 一种人脸识别方法 |
CN101295305A (zh) * | 2007-04-25 | 2008-10-29 | 富士通株式会社 | 图像检索装置 |
CN101299238A (zh) * | 2008-07-01 | 2008-11-05 | 山东大学 | 一种基于协同训练的快速指纹图像分割方法 |
-
2010
- 2010-01-21 JP JP2010011356A patent/JP2011150541A/ja not_active Withdrawn
- 2010-11-22 US US12/951,448 patent/US20110176725A1/en not_active Abandoned
- 2010-12-29 CN CN2010106105901A patent/CN102136072A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338082A (ja) * | 2005-05-31 | 2006-12-14 | Sony Corp | 画像処理システム、学習装置および方法、画像認識装置および方法、記録媒体、並びにプログラム |
CN1908960A (zh) * | 2005-08-02 | 2007-02-07 | 中国科学院计算技术研究所 | 一种基于特征分组的多分类器组合人脸识别方法 |
CN1928886A (zh) * | 2006-06-27 | 2007-03-14 | 电子科技大学 | 基于图像分割和二维小波变换的虹膜识别方法 |
CN101295305A (zh) * | 2007-04-25 | 2008-10-29 | 富士通株式会社 | 图像检索装置 |
CN101226590A (zh) * | 2008-01-31 | 2008-07-23 | 湖南创合制造有限公司 | 一种人脸识别方法 |
CN101299238A (zh) * | 2008-07-01 | 2008-11-05 | 山东大学 | 一种基于协同训练的快速指纹图像分割方法 |
Non-Patent Citations (3)
Title |
---|
李毓等: "修剪Bagging集成的方法及其应用", 《系统工程理论与实践》 * |
贾富仓等: "基于随机森林的多谱磁共振图像分割", 《计算机工程》 * |
韩东峰等: "图像分类的随机半监督采样方法", 《计算机辅助设计与图形学学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105144239A (zh) * | 2013-04-26 | 2015-12-09 | 奥林巴斯株式会社 | 图像处理装置、程序及图像处理方法 |
CN105023023A (zh) * | 2015-07-15 | 2015-11-04 | 福州大学 | 一种用于计算机辅助诊断的乳腺b超图像特征自学习提取方法 |
CN105023023B (zh) * | 2015-07-15 | 2018-08-17 | 福州大学 | 一种用于计算机辅助诊断的乳腺b超图像特征自学习提取方法 |
CN108537112A (zh) * | 2017-03-03 | 2018-09-14 | 佳能株式会社 | 图像处理装置、图像处理系统、图像处理方法及存储介质 |
CN108537112B (zh) * | 2017-03-03 | 2022-04-19 | 佳能株式会社 | 图像处理装置、图像处理系统、图像处理方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2011150541A (ja) | 2011-08-04 |
US20110176725A1 (en) | 2011-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102136072A (zh) | 学习设备、学习方法和程序 | |
WO2017216980A1 (ja) | 機械学習装置 | |
CN110008984B (zh) | 一种基于多任务样本的目标欺诈交易模型训练方法和装置 | |
CN103548041A (zh) | 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序 | |
CN101944122A (zh) | 一种融合增量学习的支持向量机多类分类方法 | |
WO2015061046A2 (en) | Method and apparatus for performing topic-relevance highlighting of electronic text | |
KR20180077847A (ko) | 문장 검증 장치 및 방법 | |
US11210444B1 (en) | Timing assistant for dynamic voltage drop impact on setup/hold constraints | |
CN106327321A (zh) | 一种自动生成财务数据的方法 | |
CN106528616A (zh) | 一种人机交互过程中的语言纠错方法及系统 | |
Idris et al. | Ensemble based efficient churn prediction model for telecom | |
CN107967258A (zh) | 文本信息的情感分析方法和系统 | |
Zeng et al. | Constructing better classifier ensemble based on weighted accuracy and diversity measure | |
US20200019603A1 (en) | Systems, methods, and computer-readable media for improved table identification using a neural network | |
CN103514151A (zh) | 依存句法分析方法、装置及辅助分类器训练方法 | |
Hamdy et al. | Towards more accurate automatic recommendation of software design patterns. | |
CN111383030A (zh) | 一种交易风险的检测方法、装置及设备 | |
Liu et al. | Convolutional neural networks-based locating relevant buggy code files for bug reports affected by data imbalance | |
Cheng et al. | Blocking bug prediction based on XGBoost with enhanced features | |
CN115543762A (zh) | 一种磁盘smart数据扩充方法、系统及电子设备 | |
Zopf et al. | Beyond centrality and structural features: Learning information importance for text summarization | |
Sellak et al. | Using rule-based classifiers in systematic reviews: a semantic class association rules approach | |
CN105843608A (zh) | 一种基于聚类的app用户界面设计模式推荐方法及系统 | |
Seara et al. | An Approach for Workflow Improvement based on Outcome and Time Remaining Prediction. | |
Liu et al. | Improving Problem Detection in Peer Assessment through Pseudo-Labeling Using Semi-Supervised Learning. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110727 |