CN102067128A

CN102067128A - 数据处理装置、数据处理方法、程序及集成电路

Info

Publication number: CN102067128A
Application number: CN2010800018768A
Authority: CN
Inventors: 河村岳; 矶贝邦昭; 刘亚洲
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2009-04-27
Filing date: 2010-04-23
Publication date: 2011-05-18
Also published as: JP5647602B2; JPWO2010125781A1; WO2010125781A1; US20110106772A1; US8595233B2

Abstract

一种数据处理装置(100)，具有：临时记录部(5)，记录聚类/要素对应表以及分组/聚类对应表，该聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的每个的聚类ID、和识别属于利用该聚类ID识别的聚类的要素ID相对应地保存，该分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的分组的聚类ID相对应地保存；特征抽取部(1)，抽取新追加的要素数据的特征量；自动分类处理部(2)，从多个聚类中确定归属聚类，并且按照规定的制约条件将规定归属聚类的边界的分类边界条件更新；数据管理部(6)，将新追加的要素数据的要素ID和归属聚类的聚类ID相对应地记录在聚类/要素对应表中。

Description

数据处理装置、数据处理方法、程序及集成电路

技术领域

本发明涉及以能够自动将逐次输入的数据分类、而且能够通过手动输入来修正(annotation：标注)其结果为前提的数据处理装置或者数据处理方法。

背景技术

以往，关于自动将数据分类的方法，已经公知有使用事前学习数据来识别数据并分类的方法，和不使用事前学习数据而将数据分类的方法。无论哪种方法都通过从数据中抽取多维的特征量并进行特征量的比较来实现。

作为事前学习的一例有对每个分类分组，根据学习数据的分布信息来计算概率分布，并判定输入数据归属于哪个分类分组的方法(例如贝叶斯估计：Bayesian Estimation)。作为其他示例有使学习数据的分布信息近似于多个高斯分布的重叠，并判定输入数据归属于哪个分类分组的方法(例如高斯混合模型(Gaussian Mixture Model)等)。作为另一个其他示例有根据学习数据的分布信息来设定分类分组之间的边界，并判定输入数据归属于哪个分类分组的方法(例如支持向量机(Support Vector Machine)等)。这些方法需要在实现自动分类之前预先由人工准备学习用的数据，其登记作业比较烦杂。

另一方面，关于不使用事前学习数据而将数据自动分类的方法，已经公知有各种聚类(clustering)方法。聚类用于根据数据自身的分布的浓淡将数据分类。关于具体的聚类方法有预先指定分类数并进行分类的k-means(k-均值)法，或者根据输入模式(pattern)群的相似度自主地获得分类的能力的神经网络即自组织映射法(SOM)等。

数据的自动分类往往要求逐次处理型的学习及分类。例如，已经公知有依据于k-means法的LBG(Linde-Buzo-Gray)算法等。这种LBG算法例如在自适应地将利用哪个代表向量来代表各个向量记述为代码的向量量化等中得到应用，以便实现语音信号或者图像信号的信息压缩。但是，在实际应用中LBG算法是对数据反复处理来发现代表向量的方法，虽然说是逐次处理，但是存在需要相当长的处理时间的问题。通常，分类精度和逐次处理时的分类结果的更新速度存在取舍关系。

使用图22及图23说明在实际采用这种自动分类方法时的处理结构示例。图22是进行自动分类并将其结果记录在临时记录部中的数据处理装置1000的框图。具体地讲，图22所示的数据处理装置1000具有特征抽取部1100、自动分类处理部1200、聚类/要素对应表更新记录部1300、临时记录部1400。

特征抽取部1100在被输入了新追加的要素数据(以下也称为“追加要素”)时，进行用于计算该要素数据的特征空间上的坐标的特征抽取处理。例如，在进行人脸图像的分类的情况下，可以列举表示人脸的特征量的Gabor小波特征量等。这些特征量以及与追加要素相关的信息被记录在临时记录部1400中并进行管理，以便明确对应关系。

自动分类处理部1200在计算追加要素的特征量后，从临时记录部1400中读出此前的作为过去的分类结果的各个聚类的分类边界条件、和属于附近聚类的全部要素数据的特征空间上的坐标信息，进行追加要素属于哪个聚类的判定。并且，自动分类处理部1200向聚类/要素对应表更新记录部1300发送追加要素的信息(更新对象要素)、和该追加要素归属的聚类的信息(归属聚类)。

然后，自动分类处理部1200根据进行了追加要素的追加这一情况，修正过去的分类结果。并且，自动分类处理部1200将被施加变更后的聚类的分类边界条件、和赋予了追加要素的坐标的此前的全部要素数据的坐标数据，一并记录在临时记录部1400中。关于详细的处理结构示例将在后面进行说明。

聚类/要素对应表更新记录部1300读出在临时记录部1400中记录的过去的聚类/要素对应表，并进行有关变更部位的更新，将更新后的对应表记录在临时记录部1400中。

图23是表示自动分类处理部1200的详细处理及结构示例的图。图23所示的自动分类处理部1200具有归属聚类判定部1210、附近聚类再分类部1220、分类边界条件读出部1240、分类边界条件更新记录部1230。

归属聚类判定部1210在被输入追加要素后，通过分类边界条件读出部1240从临时记录部1400读出过去的聚类的分类边界条件，并进行追加要素与各个聚类相似何种程度的匹配处理。关于匹配处理的方法可以列举先前列举的LBG算法，该算法依据于不使用事前学习数据而将数据逐次自动分类的k-means法。此外，也可以采用对应逐次处理的支持向量机(SVM)或者层次式自动分类法等。所谓分类边界条件，例如对于SVM则相当于表示聚类之间的分类边界面的函数，而对于层次式自动分类法则相当于各个层次/各个节点的分支条件。或者，也可以考虑像使用事前学习数据的方式的高斯混合模型(GMM：Gaussian Mixture Model)那样、具有各个聚类在特征空间上分布的概率密度函数的形式。即，在把新的要素数据设为对象时，只要是表示应该属于哪个聚类的判定条件的信息，则对其形式没有特别要求。

附近聚类再分类部1220把由归属聚类判定部1210得到的追加要素的特征空间上的坐标及其匹配结果作为输入，并抽取追加要素的附近聚类。关于是否是附近的判定，可以预先设定任意的距离指标，在比该距离小的情况下判定为是附近聚类。把归属于该附近聚类的要素数据从临时记录部1400中全部读出，并与追加要素一起进行再分类。

分类边界条件更新记录部1230根据由再分类的结果而得到的各个要素数据所归属的聚类信息、和从临时记录部1400读出的各个要素数据的坐标，更新附近聚类之间的分类边界条件及与已有聚类之间的分类边界条件，并记录在临时记录部1400中。并且，针对再分类的结果为被施加了修正的要素数据，向聚类/要素对应表更新记录部1300发送该要素数据和最终归属聚类的信息。

另外，在附近聚类再分类部1220中，在判定为追加要素相对于哪一个聚类都比预先设定的距离还远指标的情况下，生成该要素数据所属的新的聚类，并同样在分类边界条件更新记录部1230进行分类边界条件的更新。

临时记录部1400采用硬盘、光盘、半导体存储器等能够临时存储数据的装置。

通过采用这种结构，在逐次追加数据的情况下，也能够在保存过去的自动分类的结果的同时，体现新的追加数据的自动分类结果。

另外，这种数据自动分类方法由于采用统计手法，所以通常不可能达到100％的分类精度结果，只不过能够从概率论上估计结果。因此，需要根据用途来良好地进行可能得到的结果的解释。另外，由于是以用户亲自手动修正自动分类后的结果为前提的系统结构，因此也存在把数据自动分类定位为“用户手动将大量数据分类时的助手”的系统。

例如，在人脸图像分类的情况下，美国专利第7,274,822号说明书及美国专利第7,403,642号说明书记述了高精度高效率地标注(annotation，通过用户的手动输入而进行的分类修正)人脸照片的自动分类方法、以及其用户界面。例如，图24A～图24D表示标注的示例。

在图24A～图24D中，利用黑点表示作为分类对象的要素数据，利用线表示分类结果。下文中，把被分类后的结果的单位称为聚类(cluster)。并且，关于标注的具体示例，列举将作为分类结果而得到的一个聚类分割为两个的分割作业(图24A)，将两个聚类结合为一个的结合作业(图24B)，从一个聚类中去除任意的要素数据使其无归属的去除作业(图24C)，以及对某个聚类整体赋予名称或者信息的元数据(meta data)赋予作业(图24D)。

使用图25说明进行这种标注所需要的数据处理装置1000的处理结构示例。图25所示的数据处理装置1000具有聚类/要素对应表更新记录部1300、临时记录部1400和用户改变操作检测部1500。另外，聚类/要素对应表更新记录部1300及临时记录部1400的具体结构与上述说明的结构相同。并且，在图25中省略图示与标注处理没有直接关系的构成要素。

用户改变操作检测部1500在检测到用户的标注操作开始时，将该情况通知聚类/要素对应表更新记录部1300。聚类/要素对应表更新记录部1300在接收到上述通知时，从临时记录部1400读出作为过去的分类结果的聚类/要素对应表，并掌握用户如何改变哪个要素数据。

然后，用户改变操作检测部1500向聚类/要素对应表更新记录部1300发送表示用户实际进行了的改变内容的信息。并且，聚类/要素对应表更新记录部1300利用获取到的表示改变内容的信息来更新聚类/要素对应表，并记录在临时记录部1400中。

通过采用这种结构，能够保存标注结果并进行检索。

另一方面，在实际应用中，在将大量数据自动分类的系统中，不仅分类方法的问题、如何管理分类后的结果的问题也很重要。即，要求利用容易检索的某种方法来管理自动分类后的结果，并在检索时迅速进行提示。即，要求检索速度非常快。另外，检索速度的快速程度也与在前述的逐次处理型分类方法中提及的分类结果的更新速度密切相关。即，在进行部分的分类结果的更新时，需要只取出相应数据并更新、记录的步骤。

另外，为了提高分类结果的更新速度，需要能够实现部分的分类结果的更新的数据管理方法。关于满足这种条件的数据管理的代表性方法，通常公知有基于层次式树结构的方法。图26表示层次分类的示例。各个分类聚类被按照层次构造分类，比较接近的聚类(相似的聚类)在下位的层次中被聚集，在上位层次中被按照更大的单位分类。

使用图27说明进行这种检索所需要的数据处理装置1000的结构示例。图27所示的数据处理装置1000具有显示聚类确定部1600、聚类/要素关系检索部1700、显示部1800、临时记录部1400。另外，临时记录部1400的具体结构与上述说明的结构相同。并且，在图27中省略图示与检索处理没有直接关系的构成要素。

显示聚类确定部1600根据用户的操作等确定应该显示的聚类，并向聚类/要素关系检索部1700发送该信息。聚类/要素关系检索部1700从临时记录部1400读出作为过去的分类结果的聚类/要素对应表，把所输入的显示对象的聚类作为查询(query)，进行归属于相应聚类的要素数据的检索。并且，聚类/要素关系检索部1700在检索完成后，向显示部1800发送作为对象的要素数据的信息即显示要素信息。显示部1800根据该显示要素信息，从临时记录部1400显示作为与相应要素数据相关的信息的要素关联信息。

通过采用这种结构，在检索时能够利用自动分类的结果以及标注的结果。

现有技术文献

专利文献

专利文献1：美国专利第7,274,822号说明书

专利文献2：美国专利第7,403,642号说明书

发明概要

发明要解决的问题

但是，目前尚未出现同时实现逐次处理型自动分类和用户手动分类的数据管理方法。

在美国专利第7,274,822号说明书和美国专利第7,403,642号说明书中公开了基于文件夹结构的图像数据管理方法，但不能说可以应对逐次处理型。例如，如图28所示，针对被追加的要素数据群(依次追加M个、N个、P个)中的各个要素数据群，每次在该要素数据群内进行闭合的自动分类。即，不自动实施与过去的分类结果的整合及合并(merge)、以及与用户手动的分类修正结果的整合。只能由用户亲自手动获取与过去的自动分类结果及标注结果的整合。另外，图28表示进行从左向右按照时间序列排列的处理的状态。

在这种处理结构中，例如在不断追加新的图像群的实际使用环境中，自动分类不动作，而是大大依赖于用户的合并操作。结果，在整理大量数据时，基于自动分类方法的辅助效果具有局限性。

另一方面，如图29所示，在将每次追加的数据群自动分类时，考虑过去的自动分类结果来进行更新(实施逐次处理)。另一方面，考虑针对标注也将过去的结果更新的方式。在这种情况下产生两个问题。一个问题是由于继承了过去的结果，所以不能获取与自动分类结果和标注信息的整合。

图30表示产生这种问题时的示例。在图30中，过去的自动分类的结果是要素0被分类为聚类0，要素1、2被分类为聚类1，要素3、4被分类为聚类2，要素5被分类为聚类3。另外，标注的结果是被用户修正为聚类0和聚类1是同一聚类，聚类2和聚类3是同一聚类。

然后，追加了新的要素6，在按照自动分类算法进行再聚类时，想要把相似的要素彼此进行聚类，所以生成包括要素1、要素3、要素6的新的聚类4，包括要素0的聚类0、包括要素2的聚类1、包括要素4的聚类2、包括要素5的聚类3作为结果被输出。

这里，在过去的标注中，进行了使要素0、1、2属于同一聚类、使要素3、4、5属于同一聚类的操作。因此，出现了是利用新追加的要素6来整合两个聚类(由要素0、要素1、要素2构成的聚类和由要素3、要素4、要素5构成的聚类)、还是应该划分两个聚类的问题。

如果按照前者使标注结果优先，则存在不断生成大的聚类的可能性。另一方面，如果按照后者使自动分类结果优先，则导致标注结果被忽视，使用户的印象变差。另外，也存在应该如何处理聚类4的问题。这样，不能一概地确定应该如何获取整合。

然后，第二个问题是将被追加的要素数据自动分类时或者用户进行标注操作时的分类结果更新速度、或者根据过去的分类结果(聚类与要素数据的关系)进行检索时的速度明显下降的问题。使用图31及图32来说明其原因。另外，以下的说明是以图30所示的示例为前提的。

图31中的左侧的图表示自动分类的结果。此时，能够得到图32中的左侧所示的聚类/要素对应表。然后，按照图31的中央的图示进行标注。在想要将标注的结果体现在该聚类/要素对应表中时，需要按照图32的中央所示改写带下划线斜体字的部位。作为变更对象的要素数据的数量越多，更新部位越多。更新所需的处理是相应要素数据的排序(sort)和聚类ID的改写。

然后，图32的右侧表示在按照图31中的右侧的图示那样追加新的要素数据并自动分类时的、聚类/要素对应表的更新部位。同样把必要的更新部位表示为带下划线斜体字。在这种情况时同样发生要素数据的追加(向表的下部追加)和聚类ID的更新。这样，在聚类/要素对应表的更新多发时，在作为更新对象的要素数据的数量多时，产生处理速度下降的问题。另外，不仅如此，在作为参数的要素数据的总数(即表的行数)增加时，同样产生处理速度下降的问题。即，在需要大量数据的分类的情况下，这种数据管理方法存在问题。

另外，也可以考虑如图33所示的方式，在将每次追加的要素数据群自动分类时，只考虑过去的标注结果来进行更新(实施逐次处理)。在这种情况下，过去的标注信息对下一次的自动分类产生影响，存在有可能产生性能恶化的副作用的问题。使用图34来说明该问题。图34表示在特征空间上配置要素数据的图。

图34中的左侧的图表示过去的自动分类结果。针对该自动分类结果，例如按照图34的中央的图示那样标注为聚类0和聚类3是同一聚类。然后，为了在自动分类结果中体现该标注结果，按照图34中的右侧的图示那样通过投影使空间变形，即进行使旧聚类0与旧聚类3的距离接近的空间变形。由此，以后的自动分类结果将体现该标注的结果，但是问题在于随着这种变形也出现了被错误分类的要素数据。在图34中的右侧的图中，利用白圆圈表示本来不属于任何聚类的要素数据通过空间变形而属于某一个聚类的要素数据。这些要素数据被错误分类的可能性比较大，也可以说是空间变形的副作用。

例如对于人脸图像，同一人物的两个人脸由于日照方式的差异和人脸朝向的差异等，有可能产生各个人脸被配置为距离较远的坐标的情况。由于通过标注把这种情况设为同一聚类，在使空间变形(或者投影)时，导致包括不同的人物的人脸的可能性比较大。

图35是能够考虑到的最简单的方式。即，每当追加要素数据时就将标注结果废弃。但是，这种处理方法对于用户而言将导致降低标注的动机，不能说是好的方法。

发明内容

鉴于上述问题，本发明的目的在于提供一种数据处理装置，实现用于同时实现逐次处理型自动分类和用户的手动分类的数据管理，并且使标注结果和自动分类结果不矛盾地同时存在。

用于解决技术问题的手段

本发明的一个方式的数据处理装置，对要素数据进行分类。具体地，具有：临时记录部，记录所述要素数据、聚类/要素对应表、分类边界条件以及分组/聚类对应表，所述聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的所述聚类的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个聚类各自的边界，所述分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的所述分组的所述聚类的所述聚类ID相对应地保存；特征抽取部，抽取新追加的所述要素数据的特征量；自动分类处理部，通过将由所述特征抽取部抽取的特征量与所述分类边界条件进行比较，确定所述多个聚类之中、所述新追加的要素数据应该归属的归属聚类，并且按照规定的制约条件将规定所述归属聚类的边界的所述分类边界条件更新，以使所述新追加的要素数据包含在所述归属聚类中；以及数据管理部，将识别所述新追加的要素数据的要素ID、和识别由所述自动分类处理部确定的所述归属聚类的所述聚类ID相对应地记录在所述聚类/要素对应表中。

根据上述结构，能够将由数据处理装置进行的自动分类的结果保存为聚类/要素对应表，将标注的结果保存为分组/聚类对应表，由此防止自动分类与标注之间的矛盾。

作为一例也可以是，所述规定的制约条件是指禁止将已有的聚类彼此结合而生成新的聚类的条件。作为另一例也可以是，所述规定的制约条件是指禁止将已有的聚类的一部分分割而生成新的聚类的条件。由此，能够确立有效的数据管理方法，既能将逐次追加的要素数据自动分类，也能实现用户的手动分类。结果，能够提供确保高精度地用户辅助大量数据的分类的功能。

另外，也可以是，所述自动分类处理部具有：分类边界条件读出部，从所述临时记录部读出每个所述聚类的所述分类边界条件；归属聚类判定部，将由所述特征抽取部抽取的特征量、与由所述分类边界条件读出部读出的每个所述聚类的所述分类边界条件进行比较，由此判定所述新追加的要素数据应该归属的所述归属聚类；聚类/要素ID管理部，根据所述归属聚类判定部的判定结果，使所述数据管理部更新所述聚类/要素对应表；以及分类边界条件更新记录部，根据所述归属聚类判定部的判定结果，按照所述规定的制约条件更新用于规定所述归属聚类的边界的所述分类边界条件，并将更新后的所述分类边界条件记录在所述临时记录部中。

另外，也可以是，所述数据管理部具有：第1聚类/要素对应表更新记录部，在由所述自动分类处理部确定所述新追加的要素数据属于已有的聚类的情况下，将该新追加的要素数据的要素ID与该已有的聚类的聚类ID相对应地追加记录在所述聚类/要素对应表中，在由所述自动分类处理部确定所述新追加的要素数据不属于已有的任意一个聚类的情况下，将该新追加的要素数据的要素ID与新编号的聚类ID相对应地追加记录在所述聚类/要素对应表中；以及分组/聚类对应表追记部，在由所述自动分类处理部确定所述新追加的要素数据不属于已有的任意一个聚类的情况下，将新编号的所述聚类ID与新编号的分组ID相对应地追加记录在所述分组/聚类对应表中。

这样，数据管理部在使各个对应表体现自动分类处理部的自动分类的结果时，只需在各个表中追加记录记录数据，所以处理速度提高。并且，由于不进行过去的分类结果的变更(即已有记录数据的更新)，所以能够防止自动分类与标注矛盾。

另外，也可以是，该数据处理装置还具有用户改变操作检测部，该用户改变操作检测部检测变更所述分组ID与所述要素ID之间的对应关系的用户的操作。而且，所述数据管理部根据所述用户改变操作检测部的检测结果，至少更新所述分组/聚类对应表。

另外，也可以是，所述数据管理部具有：分组/聚类对应表更新记录部，从所述聚类/要素对应表中抽取与由所述用户改变操作检测部检测到的所述要素ID相对应的所述聚类ID，更新所述抽取的聚类ID与由所述用户改变操作检测部检测到的分组ID在所述分组/聚类对应表中的对应关系；以及第2聚类/要素对应表更新记录部，只在由于由所述用户改变操作检测部检测到的所述分组ID与所述要素ID之间的对应关系的变更而产生变更所述聚类ID与所述要素ID之间的对应关系的需要的情况下，更新所述聚类ID与所述要素ID在所述聚类/要素对应表中的对应关系。

另外，也可以是，该数据处理装置具有：显示分组确定部，生成包括一个以上的分组ID的显示分组信息；分组/聚类关系检索部，从所述分组/聚类对应表中抽取与所述显示分组信息中包含的所述分组ID相对应的所述聚类ID，并生成包含所抽取的所述聚类ID的显示聚类信息；聚类/要素关系检索部，从所述聚类/要素对应表中抽取与所述显示聚类信息中包含的所述聚类ID相对应的所述要素ID，并生成包含所抽取的所述要素ID的显示要素信息；以及显示部，从所述临时记录部读出利用所述显示要素信息中包含的所述要素ID识别的所述要素数据，并显示该要素数据。

另外，也可以是，在分别包含两个以上的所述要素数据的第1及第2要素数据群被输入到该数据处理装置的情况下，所述自动分类处理部针对所述第1及第2要素数据群分别独立地执行确定所述归属聚类、并且更新所述分类边界条件的处理。而且，也可以是，该数据处理装置还具有分类合并部，在针对全部所述要素数据的处理结束后，该分类合并部将在分别针对所述第1及第2要素数据群的处理中被更新后的所述分类边界条件合并。由此，在对自动分类时的分类边界条件的更新设计制约条件的情况下，也能够有效防止自动分类的性能恶化。

本发明的一个方式的数据处理装置，对要素数据进行分类。具体地，具有：临时记录部，记录所述要素数据、聚类/要素对应表、分类边界条件以及分组/聚类对应表，所述聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的所述聚类的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个聚类各自的边界，所述分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的所述分组的所述聚类的所述聚类ID相对应地保存；用户改变操作检测部，检测变更所述分组ID与所述要素ID之间的对应关系的用户的操作；以及数据管理部，根据所述用户改变操作检测部的检测结果，至少更新所述分组/聚类对应表。

本发明的一个方式的数据处理装置，对要素数据进行分类。具体地，具有：临时记录部，记录所述要素数据、单元/要素对应表以及分类边界条件，所述单元/要素对应表将识别由该数据处理装置分类后的多个单元中的各个单元的单元ID、和识别属于利用该单元ID识别的所述单元的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个单元各自的边界；特征抽取部，抽取新追加的所述要素数据的特征量；层次分类处理部，通过将由所述特征抽取部抽取的特征量与所述分类边界条件进行比较，确定所述多个单元之中、所述新追加的要素数据应该归属的归属单元，并且按照规定的制约条件将规定所述归属单元的边界的所述分类边界条件更新，以使所述新追加的要素数据包含在所述归属单元中；以及数据管理部，将识别所述新追加的要素数据的要素ID、和识别由所述层次分类处理部确定的所述归属单元的所述单元ID相对应地记录在所述单元/要素对应表中。在分别包含两个以上的所述要素数据的第1及第2要素数据群被输入到该数据处理装置的情况下，所述层次分类处理部针对所述第1及第2要素数据群分别独立地执行确定所述归属单元、并且更新所述分类边界条件的处理。而且，该数据处理装置还具有层次分类合并部，该层次分类合并部将在分别针对所述第1及第2要素数据群的处理中被更新后的所述分类边界条件合并。

另外，也可以是，该数据处理装置还具有聚类部，该聚类部生成包含多个所述单元的聚类，并确定用于规定所述聚类的边界的分类边界条件。而且，也可以是，所述层次分类处理部将所述特征量与所述聚类的分类边界条件进行比较，由此确定所述新追加的要素数据应该归属的归属聚类，再将所述特征量与所述归属聚类中包含的所述多个单元各自的分类边界条件进行比较，由此确定所属归属单元。由此，能够分层次地管理分类比较条件，所以自动分类的处理速度提高。

另外，也可以是，所述层次分类处理部具有：归属单元判定部，将由所述特征抽取部抽取的特征量、与从所述临时记录部读出的每个所述单元的所述分类边界条件进行比较，由此判定所述新追加的要素数据应该归属的所述归属单元；单元/要素ID管理部，根据所述归属单元判定部的判定结果，更新所述单元/要素对应表；以及层次分类边界条件更新记录部，根据所述归属单元判定部的判定结果，按照所述规定的制约条件更新用于规定所述归属单元的边界的所述分类边界条件，并将更新后的所述分类边界条件记录在所述临时记录部中。

作为一例也可以是，所述规定的制约条件是指禁止将已有的单元彼此结合而生成新的单元的条件，或者禁止将已有的单元的一部分分割而生成新的单元的条件。

本发明的一个方式的数据处理方法，使数据处理装置对要素数据进行分类，该数据处理装置具有用于记录所述要素数据、聚类/要素对应表、分类边界条件以及分组/聚类对应表的临时记录部，所述聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的所述聚类的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个聚类各自的边界，所述分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的所述分组的所述聚类的所述聚类ID相对应地保存。具体地，该数据管理方法包括如下步骤：特征抽取步骤，抽取新追加的所述要素数据的特征量；自动分类处理步骤，通过将由所述特征抽取步骤抽取的特征量与所述分类边界条件进行比较，确定所述多个聚类之中、所述新追加的要素数据应该归属的归属聚类，并且按照规定的制约条件将规定所述归属聚类的边界的所述分类边界条件更新，以使所述新追加的要素数据包含在所述归属聚类中；以及数据管理步骤，将识别所述新追加的要素数据的要素ID、和识别由所述自动分类处理步骤确定的所述归属聚类的所述聚类ID相对应地记录在所述聚类/要素对应表中。

本发明的另一个方式的数据处理方法，使数据处理装置对要素数据进行分类，该数据处理装置具有用于记录所述要素数据、单元/要素对应表以及分类边界条件的临时记录部，所述单元/要素对应表将识别由该数据处理装置分类后的多个单元中的各个单元的单元ID、和识别属于利用该单元ID识别的所述单元的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个单元各自的边界。具体地，该数据管理方法包括如下步骤：特征抽取步骤，抽取新追加的所述要素数据的特征量；层次分类处理步骤，通过将由所述特征抽取步骤抽取的特征量与所述分类边界条件进行比较，确定所述多个单元之中、所述新追加的要素数据应该归属的归属单元，并且按照规定的制约条件将规定所述归属单元的边界的所述分类边界条件更新，以使所述新追加的要素数据包含在所述归属单元中；以及数据管理步骤，将识别所述新追加的要素数据的要素ID、和识别由所述层次分类处理步骤确定的所述归属单元的所述单元ID相对应地记录在所述单元/要素对应表中。在所述层次分类处理步骤中，在分别包含两个以上的所述要素数据的第1及第2要素数据群被输入到该数据处理装置的情况下，针对所述第1及第2要素数据群分别独立地执行确定所述归属单元、并且更新所述分类边界条件的处理。而且，该数据处理方法还具有层次分类合并步骤，该层次分类合并步骤将在分别针对所述第1及第2要素数据群的处理中被更新后的所述分类边界条件合并。

本发明的一个方式的程序，使数据处理装置对要素数据进行分类，该数据处理装置具有用于记录所述要素数据、聚类/要素对应表、分类边界条件以及分组/聚类对应表的临时记录部，所述聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的所述聚类的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个聚类各自的边界，所述分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的所述分组的所述聚类的所述聚类ID相对应地保存。具体地，该程序使所述数据处理装置执行如下步骤：特征抽取步骤，抽取新追加的所述要素数据的特征量；自动分类处理步骤，通过将由所述特征抽取步骤抽取的特征量与所述分类边界条件进行比较，确定所述多个聚类之中、所述新追加的要素数据应该归属的归属聚类，并且按照规定的制约条件将规定所述归属聚类的边界的所述分类边界条件更新，以使所述新追加的要素数据包含在所述归属聚类中；以及数据管理步骤，将识别所述新追加的要素数据的要素ID、和识别由所述自动分类处理步骤确定的所述归属聚类的所述聚类ID相对应地记录在所述聚类/要素对应表中。

本发明的另一个方式的程序，使数据处理装置对要素数据进行分类，该数据处理装置具有用于记录所述要素数据、单元/要素对应表以及分类边界条件的临时记录部，所述单元/要素对应表将识别由该数据处理装置分类后的多个单元中的各个单元的单元ID、和识别属于利用该单元ID识别的所述单元的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个单元各自的边界。具体地，该程序使所述数据处理装置执行如下步骤：特征抽取步骤，抽取新追加的所述要素数据的特征量；层次分类处理步骤，通过将由所述特征抽取步骤抽取的特征量与所述分类边界条件进行比较，确定所述多个单元之中、所述新追加的要素数据应该归属的归属单元，并且按照规定的制约条件将规定所述归属单元的边界的所述分类边界条件更新，以使所述新追加的要素数据包含在所述归属单元中；以及数据管理步骤，将识别所述新追加的要素数据的要素ID、和识别由所述层次分类处理步骤确定的所述归属单元的所述单元ID相对应地记录在所述单元/要素对应表中。在所述层次分类处理步骤中，在分别包含两个以上的所述要素数据的第1及第2要素数据群被输入到该数据处理装置的情况下，针对所述第1及第2要素数据群分别独立地执行确定所述归属单元、并且更新所述分类边界条件的处理。而且，该程序还使所述数据处理装置执行层次分类合并步骤，该层次分类合并步骤将在分别针对所述第1及第2要素数据群的处理中被更新后的所述分类边界条件合并。

本发明的一个方式的集成电路，搭载于数据处理装置，该数据处理装置具有用于记录所述要素数据、聚类/要素对应表、分类边界条件以及分组/聚类对应表的临时记录部，所述聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的所述聚类的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个聚类各自的边界，所述分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的所述分组的所述聚类的所述聚类ID相对应地保存。具体地，该集成电路具有：特征抽取部，抽取新追加的所述要素数据的特征量；自动分类处理部，通过将由所述特征抽取部抽取的特征量与所述分类边界条件进行比较，确定所述多个聚类之中、所述新追加的要素数据应该归属的归属聚类，并且按照规定的制约条件将规定所述归属聚类的边界的所述分类边界条件更新，以使所述新追加的要素数据包含在所述归属聚类中；以及数据管理部，将识别所述新追加的要素数据的要素ID、和识别由所述自动分类处理部确定的所述归属聚类的所述聚类ID相对应地记录在所述聚类/要素对应表中。

本发明的一个方式的集成电路，搭载于数据处理装置，该数据处理装置具有用于记录所述要素数据、单元/要素对应表以及分类边界条件的临时记录部，所述单元/要素对应表将识别由该数据处理装置分类后的多个单元中的各个单元的单元ID、和识别属于利用该单元ID识别的所述单元的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个单元各自的边界。具体地，该集成电路具有：特征抽取部，抽取新追加的所述要素数据的特征量；层次分类处理部，通过将由所述特征抽取部抽取的特征量与所述分类边界条件进行比较，确定所述多个单元之中、所述新追加的要素数据应该归属的归属单元，并且按照规定的制约条件将规定所述归属单元的边界的所述分类边界条件更新，以使所述新追加的要素数据包含在所述归属单元中；以及数据管理部，将识别所述新追加的要素数据的要素ID、和识别由所述层次分类处理部确定的所述归属单元的所述单元ID相对应地记录在所述单元/要素对应表中。在分别包含两个以上的所述要素数据的第1及第2要素数据群被输入到该数据处理装置的情况下，所述层次分类处理部针对所述第1及第2要素数据群分别独立地执行确定所述归属单元、并且更新所述分类边界条件的处理。而且，该集成电路还具有层次分类合并部，该层次分类合并部将在分别针对所述第1及第2要素数据群的处理中被更新后的所述分类边界条件合并。

发明效果

根据本发明，能够实现用于同时实现逐次处理型自动分类和用户的手动分类的数据管理，并且使标注结果和自动分类结果不矛盾地同时存在。

附图说明

图1是本发明的实施方式1的数据处理装置的结构框图。

图2是本发明的实施方式1的数据处理装置的自动分类处理部的具体结构框图。

图3是表示本发明的实施方式1的分组/聚类/要素数据的关系的图。

图4A是表示本发明的实施方式1的分组/聚类对应表的图。

图4B是表示本发明的实施方式1的聚类/要素对应表的图。

图5是说明本发明的实施方式1的聚类分类边界条件的更新的概念图。

图6是本发明的实施方式2的数据处理装置的结构框图。

图7是本发明的实施方式3的数据处理装置的结构框图。

图8是本发明的实施方式1～3的数据处理装置的处理步骤的流程图。

图9是表示本发明的实施方式1～3的数据处理装置的分类经过的一例的图。

图10是利用分组/聚类对应表以及聚类/要素对应表来表示本发明的实施方式1～3的数据处理装置的分类结果的一例的图。

图11是现有结构的采用逐次层次分类的数据处理装置的结构框图。

图12是现有结构的采用逐次层次分类的数据处理装置的处理流程图。

图13是现有结构的采用逐次层次分类的数据处理装置的自动分类性能比较的图。

图14是本发明的实施方式4的数据处理装置的结构框图。

图15是本发明的实施方式4的数据处理装置的层次分类的概念图。

图16是本发明的实施方式4的数据处理装置的具体结构框图。

图17是本发明的实施方式4的数据处理装置的处理流程图。

图18是本发明的实施方式4的数据处理装置的层次分类合并部的处理概念图。

图19是本发明的实施方式4的数据处理装置的层次分类合并部的处理概念图。

图20是表示本发明的实施方式4的数据处理装置的自动分类性能的图。

图21A是表示利用带制约逐次更新法生成的单元的生长过程的概念图。

图21B是表示利用带限制合并法生成的单元的生长过程的概念图。

图22是现有结构的逐次自动分类时的数据处理装置的结构框图。

图23是现有结构的逐次自动分类时的数据处理装置的自动分类处理部的具体结构框图。

图24A是表示作为标注的一例的分割作业的概念图。

图24B是表示作为标注的一例的结合作业的概念图。

图24C是表示作为标注的一例的去除作业的概念图。

图24D是表示作为标注的一例的元数据赋予作业的概念图。

图25是现有结构的体现标注结果时的数据处理装置的结构框图。

图26是现有结构的层次分类的概念图。

图27是现有结构的数据检索时的数据处理装置的结构框图。

图28是表示现有结构的数据处理装置的处理步骤的一例的流程图。

图29是表示现有结构的数据处理装置的处理步骤的另一例的流程图。

图30是表示图29所示的处理步骤的分类结果的示例的图。

图31是表示图29所示的处理步骤的自动分类及标注的结果的示例的图。

图32是表示图29所示的处理步骤的聚类/要素对应的图。

图33是表示现有结构的数据处理装置的处理步骤的另一例的流程图。

图34是表示图33所示的处理步骤的课题的分类概念图。

图35是表示现有结构的数据处理装置的处理步骤的另一例的流程图。

具体实施方式

下面，参照附图说明本发明的各个实施方式。

(实施方式1)

参照图1～图5说明本发明的实施方式1的数据处理装置。

图1表示本实施方式1的数据处理装置100，尤其表示在进行自动分类时所需要的构成要素。图1所示的数据处理装置100具有特征抽取部1、自动分类处理部2、聚类/要素对应表更新记录部3、分组/聚类对应表追记部4、临时记录部5、数据管理部6。另外，特征抽取部1及临时记录部5的结构内容尽管与现有示例相同，但与其具体内容相关的示例，并不限定于此。

特征抽取部1抽取要素数据的特征量。例如，在向数据处理装置100输入作为要素数据的人的人脸图像后，对该图像进行Gabor小波变换，并抽取特征量。并且，特征抽取部1对要素数据以及该要素数据的特征量赋予唯一的要素ID并记录在临时记录部5中。

在由特征抽取部1计算追加要素的特征量后，自动分类处理部2从临时记录部5读出各个聚类的分类边界条件。并且，通过将追加要素的特征量与各个聚类的分类边界条件进行比较，进行追加要素属于哪个聚类的判定。另外，分类边界条件是指规定各个聚类的边界的条件，是根据过去的分类结果而确定的。

然后，自动分类处理部2向聚类/要素对应表更新记录部3发送追加要素的要素ID、和该追加要素归属的聚类(归属聚类)的聚类ID。并且，自动分类处理部2按照规定的制约条件更新归属聚类的分类边界条件，以使归属聚类包括追加要素。并且，自动分类处理部2将被施加变更后的聚类的分类边界条件和追加要素的坐标记录在临时记录部5中。关于详细的处理结构示例将在后面进行说明。

聚类/要素对应表更新记录部3读出在临时记录部5中记录的过去的聚类/要素对应表，并根据从自动分类处理部2获取的聚类/要素对应信息进行针对变更部位的更新。并且，在更新结束后，将被更新后的聚类/要素对应表记录在临时记录部5中。另外，在伴随要素数据的追加而产生了新的聚类的情况下，将作为相应的聚类的信息的、追加聚类信息，发送给分组/聚类对应表追记部4。

更具体地讲，在由自动分类处理部2确定为新追加的要素数据属于已有的聚类的情况下，聚类/要素对应表更新记录部3将该新追加的要素数据的要素ID与该已有的聚类的聚类ID相对应地追加记录在聚类/要素对应表中。另一方面，在由自动分类处理部2确定为新追加的要素数据不属于已有的任意一个聚类的情况下，将该新追加的要素数据的要素ID与新编号的聚类ID相对应地追加记录在聚类/要素对应表中。

分组/聚类对应表追记部4从临时记录部5读出作为过去的标注结果的分组/聚类对应表，对新产生的一个聚类赋予使其原样成为一个分组的分组ID，并追加记录在分组/聚类对应表中。并且，在追加记录结束后，将被更新后的分组/聚类对应表记录在临时记录部5中。另外，数据管理部6包括聚类/要素对应表更新记录部3和分组/聚类对应表追记部4。

具体地讲，分组/聚类对应表追记部4在由自动分类处理部2确定为新追加的要素数据不属于已有的任意一个聚类的情况下，将新编号的聚类ID与新编号的分组ID相对应地追加记录在分组/聚类对应表中。

在临时记录部5中记录有要素数据及其特征量、聚类/要素对应表、分类边界条件、分组/聚类对应表。另外，关于临时记录部5的具体示例没有特别限定，临时记录部5能够采用例如硬盘、光盘、半导体存储器等能够临时存储数据的所有记录介质。

分组/聚类对应表例如按照图4A所示，将识别按照用户的主观基准而分类后的分组的分组ID、和识别属于利用该分组ID识别的分组的聚类的聚类ID相对应地保持。聚类/要素对应表例如按照图4B所示，将识别由数据处理装置100分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的聚类的要素数据的要素ID相对应地保持。

图2表示自动分类处理部2的更具体的结构。图2所示的自动分类处理部2具有归属聚类判定部7、聚类/要素ID管理部8、分类边界条件读出部9、分类边界条件更新记录部10。归属聚类判定部7、分类边界条件读出部9的结构内容及处理与现有示例相同，但不限于此处列举的处理结构。

归属聚类判定部7把由特征抽取部1得到的追加要素的特征量的特征空间上的坐标、和通过分类边界条件读出部9从临时记录部5读出的过去的聚类的分类边界条件作为输入，把最接近的聚类判定为归属目的地的聚类。另外，在所输入的特征量被判定为相对于哪一个聚类的分类边界条件都比预先设定的距离还远的情况下，通过新生成该追加要素的归属目的地的聚类来应对。并且，归属聚类判定部7将追加要素的归属聚类通知聚类/要素ID管理部8。

聚类/要素ID管理部8根据从归属聚类判定部7获取的追加要素的归属聚类的信息，确定聚类ID。例如，如果判定为追加要素应该属于独立的新的聚类，则赋予新的聚类ID。另一方面，如果判定为应该属于已有的聚类，则赋予相应的聚类ID。并且，把该信息作为聚类/要素对应信息发送给数据管理部6，更新聚类/要素对应表。

分类边界条件更新记录部10通过分类边界条件读出部9从临时记录部5读出作为过去的分类结果的、每个聚类的分类边界条件。并且，只修正与追加要素所归属的聚类相关的分类边界条件。例如，虽然存在聚类A与聚类B的边界条件，但是聚类A和聚类C不邻接，所以设为不存在边界条件。在此，将追加要素a追加到聚类A中时，只将聚类A与聚类B的分类边界条件修正成为使聚类A包括追加要素a。分类边界条件的设定方法依赖于先前列举的自动分类方法。并且，将更新后的不同聚类的分类边界条件和追加要素的归属聚类记录在临时记录部5中。

并且，分类边界条件更新记录部10在更新追加要素所归属的聚类的分类边界条件时，按照至少两个制约条件(也称为“更新条件”，下同)来执行处理。具体地讲，首先禁止将已有的聚类彼此结合而生成新的聚类。例如，不允许在分类边界条件的更新之前属于与归属聚类不同的其他聚类的要素数据在分类边界条件的更新之后属于归属聚类。其次，禁止将已有的聚类的一部分分割而生成新的聚类。例如，不允许在分类边界条件的更新之前属于归属聚类的要素数据在分类边界条件的更新之后属于与归属聚类不同的其他聚类。

这样，在自动分类处理部2中，即使对从已有的分类结果得到的过去的聚类追加要素数据时，也能够施加不会使聚类自身被分割、或使已有聚类彼此新结合的限制(更新条件)。另外，认可由追加要素自身生成新的聚类、以及对已有聚类追加追加要素。

图3是在现有的要素数据、聚类的概念基础上，在聚类的上位增加分组(group)概念的示意图。图4A是表示分组ID与聚类ID的关系的分组/聚类对应表的示例的图。图4B是表示聚类ID与要素ID的关系的聚类/要素对应表的示例的图。

这样，使图4A所示的聚类/要素对应表具有保存自动分类的结果的作用。另一方面，使图4B所示的分组/聚类对应表具有保存标注结果的作用。这样，能够应对因追加要素而进行的自动再分类。此外，按照图2的自动分类处理部2所示设定追加的自动分类处理时的更新条件(制约条件)，不对已经分类的结果做较大变更，只更新与追加要素所归属的聚类相关的信息。由此，能够削减该更新所需要的分类或数据管理的运算量，而且不会大大降低自动分类处理的精度。

图5是表示分类边界条件更新记录部10的更新状态的概念图。图5表示当在特征空间上追加了要素数据时需要更新该追加要素所归属的聚类的分类边界条件。如该图5所示，可以采用不仅只更新所归属的聚类的分类边界条件，而且还考虑与邻接的聚类之间的关系并且确定分类边界条件的方法。此时，通常采用根据构成各个聚类的要素数据的坐标来确定分类边界条件的方法(例如，SVM的支持向量等)。

(实施方式2)

参照图6说明本发明的实施方式2的数据处理装置200。

图6表示本实施方式2的数据处理装置200，尤其表示在进行标注时所需要的构成要素。图6所示的数据处理装置200具有用户改变操作检测部11、分组/聚类对应表更新记录部12、聚类/要素对应表更新记录部3、临时记录部5。聚类/要素对应表更新记录部3的结构内容与实施方式1相同。并且，数据管理部6包括聚类/要素对应表更新记录部3和分组/聚类对应表更新记录部12。另外，用户改变操作检测部11及临时记录部5的结构内容与现有示例相同，但只是与其具体内容相关的示例，并不限定于此。

用户改变操作检测部11在检测到用户开始标注操作时，将该情况通知分组/聚类对应表更新记录部12和聚类/要素对应表更新记录部3。在接收到来自用户改变操作检测部11的通知时，分组/聚类对应表更新记录部12从临时记录部5读出作为过去的分类结果的分组/聚类对应表，聚类/要素对应表更新记录部3从临时记录部5读出作为过去的分类结果的聚类/要素对应表，由此能够掌握用户如何改变哪个要素数据。

并且，用户改变操作检测部11把实际改变了的内容作为分组/聚类/要素对应信息发送给分组/聚类对应表更新记录部12。例如，数据处理装置200根据分组/聚类对应表及聚类/要素对应表，在显示部(在图6中省略图示)显示分组与属于该分组的要素数据之间的关系。并且，用户改变操作检测部11使用户变更分组与要素数据之间的对应关系。用户改变操作检测部11把用户进行的改变操作的结果，作为分组/聚类/要素对应信息发送给分组/聚类对应表更新记录部12。

分组/聚类对应表更新记录部12根据从用户改变操作检测部11获取的分组/聚类/要素对应信息，更新分组/聚类对应表，并记录在临时记录部5中。具体地讲，分组/聚类对应表更新记录部12从聚类/要素对应表抽取与由用户改变操作检测部11检测到的要素ID相对应的聚类ID。并且，更新被抽取的聚类ID、与由用户改变操作检测部11检测到的要素ID在分组/聚类对应表中的对应关系。并且，分组/聚类对应表更新记录部12向聚类/要素对应表更新记录部3发送应该更新的聚类/要素对应信息。具体地讲，在由于由用户改变操作检测部11检测到的分组ID与要素ID之间的对应关系的变更，而需要变更聚类ID与要素ID之间的对应关系的情况下，分组/聚类对应表更新记录部12把该变更内容作为聚类/要素对应信息发送给聚类/要素对应表更新记录部3。

聚类/要素对应表更新记录部3根据从分组/聚类对应表更新记录部12获取的聚类/要素对应信息，更新聚类/要素对应表，并记录在临时记录部5中。

这样，在要素数据、聚类的概念基础上，在聚类的上位增加分组的概念。并且，使聚类/要素对应表具有保存自动分类的结果的作用，使分组/聚类对应表具有保存标注的结果的作用。由此，能够在应对因追加要素而进行的自动再分类的同时，简单地更新标注结果。

(实施方式3)

参照图7～图10说明本发明的实施方式3的数据处理装置300。

图7表示本实施方式3的数据处理装置300，尤其表示进行数据检索时所需要的构成要素。图7所示的数据处理装置300具有显示分组确定部13、分组/聚类关系检索部14、聚类/要素关系检索部15、显示部16、临时记录部5。聚类/要素关系检索部15、显示部16及临时记录部5的结构内容与现有示例相同，但只是与其具体内容相关的示例，并不限定于此。

显示分组确定部13根据用户的操作等确定应该显示的分组，并向分组/聚类关系检索部14发送包括作为显示对象的一个以上分组的分组ID的显示分组信息。例如，数据处理装置300也可以在显示部16显示分组的一览，并使用户选择应该显示的分组。

分组/聚类关系检索部14从临时记录部5读出作为过去的分类结果的分组/聚类对应表。并且，把所输入的显示对象的分组的分组ID作为查询，从分组/聚类对应表中检索并抽取归属于相应分组的聚类的聚类ID。在检索完成后，分组/聚类关系检索部14向聚类/要素关系检索部15发送包括作为显示对象的聚类的聚类ID的显示聚类信息。

聚类/要素关系检索部15从临时记录部5读出作为过去的分类结果的聚类/要素对应表。并且，把所输入的显示对象的聚类的聚类ID作为查询，从聚类/要素对应表中检索并抽取归属于相应聚类的要素数据的要素ID。在检索完成后，向显示部16发送包括作为显示对象的要素数据的要素ID的显示要素信息。

显示部16根据从聚类/要素关系检索部15获取的显示要素信息，显示与从临时记录部5读出的相应要素数据相关的信息——即要素关联信息。

这样，在要素数据、聚类的概念基础上，在聚类的上位增加分组的概念。另外，使聚类/要素对应表具有保存自动分类的结果的作用，使分组/聚类对应表具有保存标注结果的作用。这样，能够在应对因追加要素而进行的自动再分类的同时，简单地更新标注结果，并且能够容易地检索与期望的分组相关的数据。

图8表示逐次处理中的自动分类和标注的处理的流程。另外，图8表示与图28、图29、图33及图35相同地进行从左向右按照时间序列排列的处理的状态。通过进行此前示出的那些处理，能够获取逐次自动分类与标注的整合，同时能够大幅削减进行管理数据的更新及检索所需要的时间。具体地讲，按照在实施方式1中叙述的那样，设定针对已有聚类的更新条件，并按照在实施方式1、2、3中叙述的那样，区分为自动分类结果和标注结果来进行双重管理。

图9是表示在自动分类中设定更新条件，并导入分组这一新的概念，由此在现有的图30及图31的条件下分类结果如何变化的图。图10是表示导入分组这一新的概念，由此与图32所示的现有结构相比，分组/聚类对应表以及聚类/要素对应表的更新部分被削减了多少的图。

参照图9及图10具体说明数据处理装置100的自动分类处理以及数据处理装置200的标注处理。另外，在上述的说明中，把执行自动分类处理的数据处理装置100、和执行标注处理的数据处理装置200作为分开的独立的装置进行说明，当然也可以将两者构成为同一装置。

首先，数据处理装置100受理5个要素数据(要素0～5)的输入，并对这些要素数据进行自动分类。图9中的左侧的图和图10中的左侧的表表示自动分类结果。具体地讲，如图9中的左侧的图和图10中的左侧的聚类/要素对应表所示，使要素0归属于聚类0，使要素1、2归属于聚类1，使要素3、4归属于聚类2，使要素5归属于聚类3。并且，在当前时刻不执行标注，所以如图10中的左侧的分组/聚类对应表所示，分组ID与聚类ID一对一地对应。

然后，数据处理装置200的用户改变操作检测部11检测用户进行的标注操作。在此，用户设定为使要素0、1、2归属于分组0，使要素3、4、5归属于分组1。用户改变操作检测部11把用户指定的要素数据与分组之间的对应关系，作为分组/聚类/要素对应信息发送给分组/聚类对应表更新记录部12。

分组/聚类对应表更新记录部12根据从用户改变操作检测部11获取的分组/聚类/要素对应信息，更新从临时记录部5读出的分组/聚类对应表。

具体地讲，首先从聚类/要素对应表中抽取与作为操作对象的要素数据的要素ID对应的聚类ID。在上述的示例中，抽取包括要素0的聚类0和包括要素1、2的聚类1。然后，更新分组/聚类对应表中的对应关系，使被抽取的聚类0、1属于同一分组0。同样，更新分组/聚类对应表中的对应关系，使包括要素3、4的聚类2和包括要素5的聚类3属于同一分组1。由此，得到在图10的中央示出的分组/聚类对应表。

然后，分组/聚类对应表更新记录部12根据用户的改变操作，判定是否需要变更聚类ID与要素ID之间的对应关系。在上述的示例中，不需要变更聚类ID与要素ID之间的对应关系。另一方面，在需要变更聚类ID与要素ID之间的对应关系的情况下，向聚类/要素对应表更新记录部3发送表示新的对应关系的聚类/要素对应信息。

聚类/要素对应表更新记录部3只在从分组/聚类对应表更新记录部12接收到聚类/要素对应信息的情况下(即，需要变更聚类ID与要素ID之间的对应关系的情况下)，更新从临时记录部5读出的聚类/要素对应表。

然后，在新的要素6被输入到数据处理装置100中时，由特征抽取部1抽取该要素6的特征量，由归属聚类判定部7判定要素6的归属聚类。在该示例中，假设要素6归属于聚类1。聚类/要素ID管理部8根据归属聚类判定部7的判定结果，向聚类/要素对应表更新记录部3发送表示聚类1与要素6之间的对应关系的聚类/要素对应信息。

并且，随着要素6归属于聚类1，分类边界条件更新记录部10更新聚类1的分类边界条件。更新后的分类边界条件包括新追加的要素6，而且遵从于(符合)制约条件。即，分类边界条件被更新成为使聚类1包括要素6，而且，使在更新之前属于其他聚类0、2、3的要素0、3、4、5不会属于聚类1，或在更新之前属于聚类1的要素1、2、3不会脱离聚类1。

另一方面，聚类/要素对应表更新记录部3根据从聚类/要素ID管理部8获取的聚类/要素对应信息，将聚类1与要素6之间的对应关系追加记录在聚类/要素对应表中。由此，得到图10中的右侧示出的聚类/要素对应表。并且，在新追加的要素6不归属于已有的任意一个聚类的情况下，从聚类/要素对应表更新记录部3向分组/聚类对应表追记部4发送追加聚类信息，由分组/聚类对应表追记部4将分组/聚类对应表更新。但是，在上述的示例中不需要更新分组/聚类对应表。

这样，首先在进行标注时，只在分组/聚类对应表中产生通过用户的操作而产生的分组ID的更换，不需要改写聚类/要素对应表。并且，不需要像在现有示例中叙述的那样针对全部要素数据改写所属聚类的ID，能够期待快速的更新动作。并且，在被追加了要素数据时设定更新条件，所以只需针对新追加的要素数据在聚类/要素对应表中进行追加记录，不产生分组/聚类对应表的更新。

另外，追加要素如在该示例中示出的那样不是追加到已有聚类中，而是在生成新的聚类的情况下产生分组/聚类对应表的更新，但可以只追加记录相应聚类和与其对应的新分组ID这一行，依旧不需要像在现有示例中叙述的那样针对全部要素数据产生所属聚类的ID改写，能够期待快速的更新动作。关于检索速度，由于设为分组、聚类及要素数据这两个层次，所以相比在现有示例中示出的一个层次，通常往往是快速检索。

(实施方式4)

图11表示作为实施方式4的比较示例的数据处理装置2000，尤其表示在执行将实施方式3所示的数据管理方法和层次式树状分类方法相结合的分类处理时需要的构成要素。

图11所示的数据处理装置2000具有特征抽取部1100、归属聚类判定部1210、聚类/要素ID管理部1250、分类边界条件读出部1240、层次分类边界条件更新记录部1260、层次分类部1201、临时记录部1400。特征抽取部1100、归属聚类判定部1210、分类边界条件读出部1240及临时记录部1400的结构内容与现有示例相同，但只是与其具体内容相关的示例，并不限定于此。另外，聚类/要素ID管理部1250依据于实施方式1的结构。

层次分类部1201在由特征抽取部1100计算追加要素的特征量后，从临时记录部1400读出此前的作为过去的分类结果的各个聚类的分类边界条件、和全部要素数据的特征空间上的坐标信息，并进行追加要素属于哪个聚类的判定。然后，通过追加新的要素数据，对过去的分类结果施加修正，将被施加变更后的聚类的分类边界条件和追加要素的坐标记录在临时记录部1400中。下面说明具体的处理结构示例。

在适用于层次分类时的归属聚类判定部1210的具体方法如下所述。首先，归属聚类判定部1210针对图26所示的过去的层次自动结果，从逐次上位层次开始，根据在各个节点的层次分类边界条件，进行所输入的追加要素与哪个分支接近的判定，并进行匹配，一直到最下位层次。这样，判定最终应该归属的最近的聚类。另外，层次分类边界条件预先通过分类边界条件读出部1240从临时记录部1400读出。并且，归属聚类判定部1210将所判定的应该归属的聚类信息，输出给层次分类边界条件更新记录部1260的同时，记录在临时记录部1400中。

关于层次分类边界条件的具体示例可以考虑以下方法，即：在各个节点中考虑各个集团的下位构成要素，对各个不同集团准备一个在特征空间上分布的概率密度函数。在这种情况下，按照不同的逐次层次进行判定，以使输入要素数据的坐标而得到的概率密度属于最高的集团。除此之外，也可以进行距离判定而非概率密度判定。例如，在各个节点中考虑各个集团的下位构成要素，在输入要素数据的坐标时，计算与各个集团的距离。这种情况时的距离计算方法可以采用欧几里得距离、马氏(Mahalanobis)距离、曼哈顿距离等各种方法。

层次分类边界条件更新记录部1260从聚类/要素ID管理部1250获取追加要素的特征空间上的坐标及其归属聚类，从分类边界条件读出部1240获取以前的分类边界条件。并且，更新追加要素所属的各个层次的集团的概率密度函数或者距离计算公式。最后，将更新后的分类边界条件记录在临时记录部1400中。

图12表示在使用图11所示的数据处理装置2000时的数据追加时的动作流程。更具体地讲，表示针对M个要素数据(第1要素数据群)执行分类处理(S11～S14)，然后针对N个要素数据(第2要素数据群)执行分类处理(S21～S25)的方式。

首先，在M个的逐次层次分类中，逐次追加要素数据并进行自动分类(S11)。并且，每当追加要素数据时就更新分类边界条件(S12)。在对全部追加要素进行分类处理后(S13：是)，将作为层次分类结果的、追加要素的归属聚类的信息和不同聚类的分类边界条件的信息，记录在临时记录部1400中(S14)。然后，在追加N个数据时，读出在临时记录部1400中记录的层次分类结果(S21)，然后进行N个自动分类处理(S22～S24)。同样，在对全部追加要素进行分类处理后(S24：是)，将作为层次分类结果的、追加要素的归属聚类的信息和不同聚类的分类边界条件的信息，记录在临时记录部5中(S25)。反复进行这种处理。

通过采用这种结构，在逐次追加数据的情况下，只需进行追加量的分类处理，即可保存过去的自动分类的结果，并且体现新的追加数据的自动分类结果。并且，通过采取层次构造，不需要每次都进行与过去的分类结果中的全部聚类的匹配，只需进行与层次数量相对应的匹配即可，所以分类的处理负荷比较小。并且，只需更新新追加的要素数据所属的集团的各个层次的分类比较条件，所以更新时的处理负荷也比较小。

但是，通过设定如实施方式1～3所述的分类的制约条件(更新条件)，存在自动分类的性能稍微变差的问题。

图13是构建相同的利用层次分类方法(距离计算法)、人脸特征量抽取法的人脸分类算法，对设定分类的制约条件(更新条件)时和不设定分类的制约条件(更新条件)时的两种自动分类结果进行比较的图。作为评价用数据，准备了两个照片数据集(两个家庭照片集，各包括300个人脸)。

第一个(图13中的上栏)表示按照图12所示的流程那样在追加了100个人脸后再追加200个人脸，如此分为两次进行自动分类，并设定层次分类时的更新条件的情况下的正确率。第二个(图13中的下栏)表示不设定更新条件，一次性地对300个人脸进行自动分类时的正确率。另外，正确率是指把表示同一人物的各个要素数据(此时为人脸)被分类为同一人物的聚类的情况视为正确，否则视为不正确，将正确人脸数除以总人脸数得到的数值。

参照图13，得知具有更新条件时的正确率与没有更新条件时相比，下降约4～5％。在这种实验中，由于是在追加了100个人脸后再追加200个人脸，如此追加第2数据群(200个人脸)后求出的正确率，所以如果进行多次数据群的追加，估计性能进一步恶化。

例如，关于一次性地对1000个人脸进行自动分类时、与将追加100个人脸的处理反复进行10次时的正确率之差，估计是后者的情况时大大恶化。另外，在前者的方式中，成为自动分类的对象的要素数据数在不断增加，所以导致运算量增加。即，意味着不进行逐次处理，并且存在运算量增加的另一种问题。

鉴于以上问题，下面说明的本实施方式4用于实现下述的数据处理，即：能够同时实现逐次处理型自动分类和用户手动分类，并且将每次自动分类的性能维持成为与将过去的要素数据全部重新分类时相同的性能。

参照图14～图20说明本实施方式4的数据处理装置400。另外，实施方式4中的“单元”(unit)表示相当于实施方式1～3中的“聚类”的下位概念的、自动分类结果的小单位。

图14是本实施方式4的数据处理装置400的图，尤其表示在进行自动分类时需要的构成要素。图14所示的数据处理装置400具有特征抽取部1、自动分类处理部2、归属单元判定部17、单元/要素ID管理部18、分类边界条件更新部19、分类合并部20、聚类部21、数据管理部6、临时记录部5。特征抽取部1及临时记录部5的结构内容与现有示例相同，但只是与其具体内容相关的示例，并不限定于此。另外，数据管理部6、归属单元判定部17及单元/要素ID管理部18依据于实施方式1的数据管理部6、归属聚类判定部7、聚类/要素ID管理部8的结构，只是把“聚类”替换为“单元”的区别。

在分别包括两个以上的要素数据的第1及第2要素数据群被输入到上述结构的数据处理装置400中的情况下，自动分类处理部2针对各个第1及第2要素数据群分别独立地执行确定归属聚类的处理和更新分类边界条件的处理。

分类合并部20在针对全部要素数据的处理结束后，将在针对各个第1及第2要素数据群的处理中被更新后的分类边界条件合并。聚类部21生成包括多个单元的聚类，并确定用于规定聚类的边界的分类边界条件。

图15表示层次分类方法中的单元与聚类的关系。其中，分类是指分类成为以较小单位划分得到的集团(单元)。另一方面，聚类(动词)是指输出对这种小分类的集团(单元)进行大分类(聚类)的结果。分类合并部20把比某个任意的距离尺度a小的范围设为一个小集团(单元)。聚类部21把比距离尺度b小的范围设为大分类(聚类)，距离尺度b比距离尺度a大。

其中，距离尺度a是固定的，但距离尺度b例如能够由用户设定可变的值。这样，自动分类的结果能够以较小的单位(单元)始终持续保存包括过去的要素数据在内的该分类后的结果。并且，在执行自动分类处理时，能够每次判定以何种程度的尺度进行分类。另外，不需每次对全部要素数据进行再分类，只需利用过去的小分类结果重新进行大分类，所以能够减少进行追加分类处理时的运算量。

本实施方式4的自动分类处理部2是应对逐次处理的结构，在计算追加要素的特征量后，根据此前追加的多个要素数据中闭合的分类结果，逐次判定属于哪个聚类。在全部追加要素的输入结束、并想要输出分类结果时，将该结果发送给分类合并部20。下面说明其内部处理的流程。

归属单元判定部17把从特征抽取部1获取的追加要素的特征空间上的坐标、和从分类边界条件更新部19获取的分类边界条件作为输入，把最接近的单元判定为归属单元。其中，从分类边界条件更新部19获取的分类边界条件是指在所追加的多个要素数据中闭合的、到前一个单元为止的分类边界条件。但是，由于是在一次追加的多个要素数据中进行闭合的分类，所以在将第一次追加的要素数据分类时不存在分类边界条件。并且，在每当追加要素数据时，由分类边界条件更新部19重新设定分类边界条件，归属单元判定部17逐次读出要素数据并判定该要素数据的归属目的地。另外，接收到判定的结果后，由层次分类边界条件更新部22重新设定分类边界条件，反复进行以上处理。

并且，在追加要素消失的阶段，向分类合并部20发送最新的分类边界条件。另外，在判定归属单元时，在针对哪一个单元都判定为比预先设定的距离还远的情况下，通过新生成归属目的地的单元来应对。

单元/要素ID管理部18根据追加要素应该归属的单元信息，确定单元ID。例如，如果判定为追加要素应该属于独立的新的单元，则赋予新的单元ID。另外，如果判定为应该属于已有的单元，则赋予相应的单元ID。并且，把该信息发送给分类边界条件更新部19。

分类边界条件更新部19更新在所追加的多个要素数据中闭合的、到前一个单元为止的分类边界条件。具体地讲，只修正与追加要素归属的聚类相关的分类边界条件。例如，虽然存在聚类A与聚类B之间的边界条件，但是聚类A和聚类C不邻接，所以设为不存在边界条件。在此，将追加要素a追加到聚类A中时，只修正聚类A与聚类B之间的分类边界条件。分类边界条件的设定方法依赖于先前列举的自动分类方法。并且，将更新后的不同聚类的分类边界条件和追加要素的归属聚类记录在临时记录部5中。

另外，在本实施方式4的自动分类处理部2中，附加与实施方式1相同的以下限制(更新条件)，即：在对已经从分类的结果得到的过去的聚类追加新的要素数据时，不会将聚类本身分割、或将已有聚类彼此重新结合。具体地讲，由分类边界条件更新部19来附加这种限制。另外，允许从追加要素自身新生成聚类、以及对已有聚类追加追加要素。

分类合并部20在全部追加要素的输入结束、并要输出分类结果时，将所追加的多个要素数据中的不同单元的分类边界条件、和从临时记录部5读出的作为以前的分类结果的不同单元的分类边界条件合并，计算新的不同单元的分类边界条件，并记录在临时记录部5中。并且，向聚类部21发送所追加的要素数据以及该要素数据归属的单元的信息。

聚类部21根据从分类合并部20输出的最新的单元/要素对应信息来进行聚类。此处所说的聚类是指如前面所述输出根据小分类的集团(单元)进行大分类后的结果。

图16表示数据处理装置500的结构，其是将实施方式4的数据处理装置400的构成要素中的、自动分类处理部2替换为层次分类处理部24、分类边界条件更新部19替换为层次分类边界条件更新部22、分类合并部20替换为层次分类处理部24而构成的。另外，除了层次分类边界条件更新部22及层次分类合并部23之外，其他构成要素依据于先前说明的图14所示的结构。

在图16所示的数据处理装置500中，将分类边界条件划分层次进行管理。具体地讲，如图15所示，把用于规定各个单元0、1、2的边界条件的分类边界条件设为下位的分类边界条件，把用于规定包括单元0、1、2的聚类0的边界的分类边界条件设为上位的分类边界条件。单元3、4、5和聚类1、2的分类边界条件的关系也相同。

并且，层次分类处理部24的归属单元判定部17在判定追加要素的归属单元时，从上位的分类边界条件开始顺序进行比较。例如，归属单元判定部17首先将追加要素的特征量和聚类0的分类边界条件(上位的分类边界条件)进行比较，由此判定追加要素是否应该归属于聚类0。并且，在判定为追加要素应该归属于聚类0的情况下，归属单元判定部17将追加要素的特征量和各个单元0、1、2的分类边界条件(下位的分类边界条件)进行比较，由此判定追加要素应该归属于单元0、1、2中的哪一个单元。

并且，层次分类处理部24的层次分类边界条件更新部22只更新追加要素所归属的单元及聚类的分类边界条件。例如，在上述的示例中，在判定为追加要素归属于单元1的情况下，层次分类边界条件更新部22只更新聚类0的分类边界条件以及单元1的分类边界条件。

根据上述的结构，能够减少追加要素的特征量与分类边界条件的比较次数。同样，也能够减少分类边界条件的更新次数。

下面，使用图17～图19说明归属单元判定部17、单元/要素ID管理部18、层次分类边界条件更新部22及层次分类合并部23的具体处理内容。图17表示在本申请的实施方式4中使用图14及图16所示的数据处理装置400、500时的数据追加时的动作流程。需要与图12进行比较。与图12的不同之处是，对所追加的每个要素数据群实施闭合的层次自动分类(S11～S13、S22～S24)、在自动分类处理后将层次分类结果合并(S32)、以及在自动分类处理和分类结果合并之后进行聚类处理(S31、S33)。

图18表示将分类结果合并时的概念图。这样，独立执行第一次的M个要素数据(第1要素数据群)的分类处理、和下一次N个要素数据(第2要素数据群)的分类处理。然后，将独立执行的两个分类处理的结果进行比较，在各个单元之间的距离比任意的距离小的情况下，将各个单元合并。关于单元之间的距离计算方法，可以列举最邻近法、最远离法、群平均法、加权平均法、重心法、加权重心法、Ward法等，可以采用任何一种方法。

例如，如图18所示，关注利用新追加的要素数据构成的单元10，分别求出单元10与单元0的距离、单元10与单元1的距离以及单元10与单元2的距离，并求出最近的单元。针对单元11、单元12反复进行该处理。这种方法需要计算全部单元之间的距离，所以耗费运算处理成本。

图19表示进一步采用层次分类的思路时的具体的分类合并方法。图19中的左上方的图表示通过自动分类将M个要素数据分类为3个单元0、1、2，再通过聚类生成包括单元1、2的聚类的状态。此时，表示确定用于规定单元0与聚类的边界的边界条件0-0、和用于规定单元1与单元2的边界的边界条件1-0。并且，如图19中的左下方的图所示，边界条件0-0表示最上位层次的分类边界条件，表示单元0与单元1及单元2(即聚类)的边界。另一方面，边界条件1-0表示下一个层次的分类边界条件，表示单元1与单元2的边界。

然后输入N个追加要素，并进行自动分类处理，结果，得到了如图16中的右上方的图中利用圆圈包围的区域所示出的单元10、11、12。按照这些单元单位与过去的层次分类边界条件进行比较，并确定各个追加的单元10、11、12与哪个单元0、1、2合并。

例如，在该图的上位节点，利用前述距离计算法计算单元10与单元1及单元2(即聚类)的距离、以及单元10与单元0的距离，并对接近的一方的下位层次进行判定。在这种情况时马上得到单元0，所以判定为单元10应该与单元0合并。这样，在针对全部追加数据进行单元分类后，将单元合并，并更新各个层次的分类边界条件。

如果采用上述的方法，则只需更新与被合并的单元相关的层次的分类边界条件。在与使用图18说明的、求出与全部单元的距离的情况进行比较时，合并对象的搜索以及更新所涉及的运算处理成本更低。

图20表示使用本实施方式4的数据分类方法进行人脸的分类时的性能。如在前述的图13中说明的那样，在图20所示的三种方法中，都是构建相同的利用层次分类方法(距离计算法)、人脸特征量抽取法的人脸分类算法，并采用与图13相同的两个照片数据集(两个家庭照片集，各包括300个人脸)作为评价用数据。把本实施方式4的结果追加在表的最上面的栏中。

如参照图20所明确的那样，在本实施方式4中设定分类的制约(更新条件)。并且，正确率的定义也与在现有示例中记述的定义相同。这样，根据本实施方式4得知，能够获得与相当于一次性地将全部人脸图像分类的没有更新条件/全部处理方法基本相同的性能，与具有更新条件/逐次处理继续方法相比，性能约提高4～5％。

图21A及图21B表示对在本实施方式4中性能恢复的原因的分析。在图21A所示的带制约逐次更新法(图20中的正中间的行)中，认为单元按照要素数据的追加顺序扭曲地生长的可能性比较大。另一方面，在图21B所示的带制约条件合并法(本实施方式4)中，由于新追加的数据被按照单元单位进行合并，所以认为以扭曲形状被合并的可能性比较小。

在单元成为扭曲状时，将导致在特征空间上单元相互纠缠在一起。在这种情况下，通常认为分类精度降低。这也被认为是常规逐次更新法的缺点。另一方面，在本实施方式4中，得知这种逐次更新法的缺点比较少。

本发明的数据处理装置及数据处理方法将自动分类处理的结果和通过手动输入对该结果进行修正(标注)后的结果进行区分而进行数据管理及更新，所以能够继承逐次自动分类结果和标注信息双方。并且，能够减轻数据管理处理的负荷。并且，在采用这种数据管理方法时，对所追加的每个数据群独立进行闭合的分类处理，在分类处理之后将分类结果彼此合并，由此能够实现在逐次输入的情况下也不会恶化的分类性能，而且使标注结果与自动分类结果不矛盾。

(其他变形例)

以上，根据上述实施方式说明了本发明，但本发明当然不限于上述实施方式，以下所述的情况也包含于本发明中。

上述的各个装置具体地讲是由微处理器、ROM、RAM、硬盘装置、显示器装置、键盘、鼠标等构成的计算机系统。在RAM或者硬盘装置中存储有计算机程序。微处理器按照计算机程序而动作，由此各个装置实现其功能。在此，计算机程序为了实现规定的功能，可以组合多个表示对计算机的指令的命令代码而构成。

构成上述各个装置的构成要素的一部分或全部可以由一个系统LSI(Large Scale Integration：大规模集成电路)构成。系统LSI可以是在一个芯片上集成多个构成部分制得的超多功能LSI，具体地讲，可以是包括微处理器、ROM、RAM等在内构成的计算机系统。在RAM中存储有计算机程序。微处理器按照计算机程序而动作，由此系统LSI实现其功能。

构成上述各个装置的构成要素的一部分或全部也可以由能够在各个装置上插拔的IC卡或单体模块构成。IC卡或模块是由微处理器、ROM、RAM等构成的计算机系统。IC卡或模块也可以包含上述的超多功能LSI。微处理器按照计算机程序而动作，由此IC卡或模块实现其功能。该IC卡或该模块可以具有耐篡改性。

本发明也可以是以上所示的方法。并且，也可以是利用计算机实现这些方法的计算机程序，还可以是由计算机程序构成的数字信号。

并且，本发明也可以将计算机程序或数字信号记录在计算机可读取的记录介质中，所述记录介质例如是软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc：蓝光光盘)、半导体存储器等。并且，本发明还可以是记录在这些记录介质中的数字信号。

并且，本发明也可以构成为经由电通信线路、无线或有线通信线路、以因特网为代表的网络、数字广播等，传输计算机程序或数字信号。

并且，本发明也可以构成为具有微处理器和存储器的计算机系统，存储器存储上述计算机程序，微处理器按照计算机程序而动作。

并且，本发明也可以构成为将程序或数字信号记录在记录介质中并传输，或者经由网络等传输程序或数字信号，从而能够利用独立的其他计算机系统来实施。

也可以将上述各个实施方式进行组合来实施。

以上参照附图说明了本发明的实施方式，但是本发明不限于图示的实施方式。可以针对图示的实施方式，在与本发明相同的范围内或者均等的范围内进行各种修正及变形。

产业上的可利用性

这些结构在例如用于将大量的数据自动分类，而且通过用户的手动标注操作来确保分类精度的民用照片整理装置、检索装置或者研究用数据库构建装置等各种领域中比较有用。

标号说明

1、1100特征抽取部；2、1200自动分类处理部；3、1300聚类/要素对应表更新记录部；4分组/聚类对应表追记部；5、1400临时记录部；6数据管理部；7、1210归属聚类判定部；8、1250聚类/要素ID管理部；9、1240分类边界条件读出部；10、1230分类边界条件更新记录部；11、1500用户改变操作检测部；12分组/聚类对应表更新记录部；13显示分组确定部；14分组/聚类关系检索部；15、1700聚类/要素关系检索部；16、1800显示部；17归属单元判定部；18单元/要素ID管理部；19分类边界条件更新部；20分类合并部；21聚类部；22层次分类边界条件更新部；23层次分类合并部；24层次分类处理部；1201层次分类部；1220附近聚类再分类部；1260层次分类边界条件更新记录部；1600显示聚类确定部；100、200、300、400、500、1000、2000数据处理装置。

权利要求书(按照条约第19条的修改)

1.一种数据处理装置，每当追加要素数据时就执行逐次自动分类，并且能够按照用户的主观基准随时手动进行再分类，

该数据处理装置具有：

临时记录部，记录所述要素数据、聚类/要素对应表、分类边界条件以及分组/聚类对应表，所述聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的所述聚类的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个聚类各自的边界，所述分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的所述分组的所述聚类的所述聚类ID相对应地保存；

特征抽取部，抽取新追加的所述要素数据的特征量；

自动分类处理部，通过将由所述特征抽取部抽取的特征量与所述分类边界条件进行比较，确定所述多个聚类之中、所述新追加的要素数据应该归属的归属聚类，并且按照规定的制约条件将规定所述归属聚类的边界的所述分类边界条件更新，以使所述新追加的要素数据包含在所述归属聚类中；以及

数据管理部，将识别所述新追加的要素数据的要素ID、和识别由所述自动分类处理部确定的所述归属聚类的所述聚类ID相对应地记录在所述聚类/要素对应表中。

2.根据权利要求1所述的数据处理装置，

所述规定的制约条件用于保持被逐次自动分类后的结果与用户手动分类的结果的整合性，是指在逐次自动分类时禁止将已有的聚类彼此结合而生成新的聚类的条件。

3.根据权利要求1或2所述的数据处理装置，

所述规定的制约条件用于保持被逐次自动分类后的结果与用户手动分类的结果的整合性，是指在逐次自动分类时禁止将已有的聚类的一部分分割而生成新的聚类的条件。

4.根据权利要求1～3中任意一项所述的数据处理装置，

所述自动分类处理部具有：

分类边界条件读出部，从所述临时记录部读出每个所述聚类的所述分类边界条件；

归属聚类判定部，将由所述特征抽取部抽取的特征量、与由所述分类边界条件读出部读出的每个所述聚类的所述分类边界条件进行比较，由此判定所述新追加的要素数据应该归属的所述归属聚类；

聚类/要素ID管理部，根据所述归属聚类判定部的判定结果，使所述数据管理部更新所述聚类/要素对应表；以及

分类边界条件更新记录部，根据所述归属聚类判定部的判定结果，按照所述规定的制约条件更新用于规定所述归属聚类的边界的所述分类边界条件，并将更新后的所述分类边界条件记录在所述临时记录部中。

5.根据权利要求1～4中任意一项所述的数据处理装置，

所述数据管理部具有：

第1聚类/要素对应表更新记录部，在由所述自动分类处理部确定所述新追加的要素数据属于已有的聚类的情况下，将该新追加的要素数据的要素ID与该已有的聚类的聚类ID相对应地追加记录在所述聚类/要素对应表中，在由所述自动分类处理部确定所述新追加的要素数据不属于已有的任意一个聚类的情况下，将该新追加的要素数据的要素ID与新编号的聚类ID相对应地追加记录在所述聚类/要素对应表中；以及

分组/聚类对应表追记部，在由所述自动分类处理部确定所述新追加的要素数据不属于已有的任意一个聚类的情况下，将新编号的所述聚类ID与新编号的分组ID相对应地追加记录在所述分组/聚类对应表中。

6.根据权利要求1～5中任意一项所述的数据处理装置，

该数据处理装置还具有用户改变操作检测部，该用户改变操作检测部检测变更所述分组ID与所述要素ID之间的对应关系的用户的操作，

所述数据管理部根据所述用户改变操作检测部的检测结果，至少更新所述分组/聚类对应表。

7.根据权利要求6所述的数据处理装置，

所述数据管理部具有：

分组/聚类对应表更新记录部，从所述聚类/要素对应表中抽取与由所述用户改变操作检测部检测到的所述要素ID相对应的所述聚类ID，更新所述抽取的聚类ID与由所述用户改变操作检测部检测到的分组ID在所述分组/聚类对应表中的对应关系；以及

第2聚类/要素对应表更新记录部，只在由于由所述用户改变操作检测部检测到的所述分组ID与所述要素ID之间的对应关系的变更而产生变更所述聚类ID与所述要素ID之间的对应关系的需要的情况下，更新所述聚类ID与所述要素ID在所述聚类/要素对应表中的对应关系。

8.根据权利要求1～7中任意一项所述的数据处理装置，

该数据处理装置具有：

显示分组确定部，生成包括一个以上的分组ID的显示分组信息；

分组/聚类关系检索部，从所述分组/聚类对应表中抽取与所述显示分组信息中包含的所述分组ID相对应的所述聚类ID，并生成包含所抽取的所述聚类ID的显示聚类信息；

聚类/要素关系检索部，从所述聚类/要素对应表中抽取与所述显示聚类信息中包含的所述聚类ID相对应的所述要素ID，并生成包含所抽取的所述要素ID的显示要素信息；以及

显示部，从所述临时记录部读出利用所述显示要素信息中包含的所述要素ID识别的所述要素数据，并显示该要素数据。

9.根据权利要求1～8中任意一项所述的数据处理装置，

在分别包含两个以上的所述要素数据的第1及第2要素数据群被输入到该数据处理装置的情况下，

所述自动分类处理部针对所述第1及第2要素数据群分别独立地执行确定所述归属聚类、并且更新所述分类边界条件的处理，

该数据处理装置还具有分类合并部，在针对全部所述要素数据的处理结束后，该分类合并部将在分别针对所述第1及第2要素数据群的处理中被更新后的所述分类边界条件合并。

10.一种数据处理装置，每当追加要素数据时就执行逐次自动分类，并且能够按照用户的主观基准随时手动进行再分类，

该数据处理装置具有：

用户改变操作检测部，检测变更所述分组ID与所述要素ID之间的对应关系的用户的操作；以及

数据管理部，根据所述用户改变操作检测部的检测结果，至少更新所述分组/聚类对应表。

11.一种数据处理装置，每当追加要素数据时就执行逐次自动分类，并且能够按照用户的主观基准随时手动进行再分类，

该数据处理装置具有：

临时记录部，记录所述要素数据、单元/要素对应表以及分类边界条件，所述单元/要素对应表将识别由该数据处理装置分类后的多个单元中的各个单元的单元ID、和识别属于利用该单元ID识别的所述单元的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个单元各自的边界；

特征抽取部，抽取新追加的所述要素数据的特征量；

层次分类处理部，通过将由所述特征抽取部抽取的特征量与所述分类边界条件进行比较，确定所述多个单元之中、所述新追加的要素数据应该归属的归属单元，并且按照规定的制约条件将规定所述归属单元的边界的所述分类边界条件更新，以使所述新追加的要素数据包含在所述归属单元中；以及

数据管理部，将识别所述新追加的要素数据的要素ID、和识别由所述层次分类处理部确定的所述归属单元的所述单元ID相对应地记录在所述单元/要素对应表中，

在分别包含两个以上的所述要素数据的第1及第2要素数据群被输入到该数据处理装置的情况下，所述层次分类处理部针对所述第1及第2要素数据群分别独立地执行确定所述归属单元、并且更新所述分类边界条件的处理，

该数据处理装置还具有层次分类合并部，该层次分类合并部将在分别针对所述第1及第2要素数据群的处理中被更新后的所述分类边界条件合并。

12.根据权利要求11所述的数据处理装置，

该数据处理装置还具有聚类部，该聚类部生成包含多个所述单元的聚类，并确定用于规定所述聚类的边界的分类边界条件，

所述层次分类处理部将所述特征量与所述聚类的分类边界条件进行比较，由此确定所述新追加的要素数据应该归属的归属聚类，再将所述特征量与所述归属聚类中包含的所述多个单元各自的分类边界条件进行比较，由此确定所属归属单元。

13.根据权利要求11或12所述的数据处理装置，

所述层次分类处理部具有：

归属单元判定部，将由所述特征抽取部抽取的特征量、与从所述临时记录部读出的每个所述单元的所述分类边界条件进行比较，由此判定所述新追加的要素数据应该归属的所述归属单元；

单元/要素ID管理部，根据所述归属单元判定部的判定结果，更新所述单元/要素对应表；以及

层次分类边界条件更新记录部，根据所述归属单元判定部的判定结果，按照所述规定的制约条件更新用于规定所述归属单元的边界的所述分类边界条件，并将更新后的所述分类边界条件记录在所述临时记录部中。

14.根据权利要求11～13中任意一项所述的数据处理装置，

所述规定的制约条件用于保持被逐次自动分类后的结果与用户手动分类的结果的整合性，是指在逐次自动分类时禁止将已有的单元彼此结合而生成新的单元的条件，或者禁止将已有的单元的一部分分割而生成新的单元的条件。

15.一种数据处理方法，使数据处理装置在每当追加要素数据时就执行逐次自动分类，并且能够按照用户的主观基准随时手动进行再分类，该数据处理装置具有用于记录所述要素数据、聚类/要素对应表、分类边界条件以及分组/聚类对应表的临时记录部，所述聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的所述聚类的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个聚类各自的边界，所述分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的所述分组的所述聚类的所述聚类ID相对应地保存，

该数据管理方法包括如下步骤：

特征抽取步骤，抽取新追加的所述要素数据的特征量；

自动分类处理步骤，通过将由所述特征抽取步骤抽取的特征量与所述分类边界条件进行比较，确定所述多个聚类之中、所述新追加的要素数据应该归属的归属聚类，并且按照规定的制约条件将规定所述归属聚类的边界的所述分类边界条件更新，以使所述新追加的要素数据包含在所述归属聚类中；以及

数据管理步骤，将识别所述新追加的要素数据的要素ID、和识别由所述自动分类处理步骤确定的所述归属聚类的所述聚类ID相对应地记录在所述聚类/要素对应表中。

16.一种数据处理方法，使数据处理装置在每当追加要素数据时就执行逐次自动分类，并且能够按照用户的主观基准随时手动进行再分类，该数据处理装置具有用于记录所述要素数据、单元/要素对应表以及分类边界条件的临时记录部，所述单元/要素对应表将识别由该数据处理装置分类后的多个单元中的各个单元的单元ID、和识别属于利用该单元ID识别的所述单元的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个单元各自的边界，

该数据管理方法包括如下步骤：

特征抽取步骤，抽取新追加的所述要素数据的特征量；

层次分类处理步骤，通过将由所述特征抽取步骤抽取的特征量与所述分类边界条件进行比较，确定所述多个单元之中、所述新追加的要素数据应该归属的归属单元，并且按照规定的制约条件将规定所述归属单元的边界的所述分类边界条件更新，以使所述新追加的要素数据包含在所述归属单元中；以及

数据管理步骤，将识别所述新追加的要素数据的要素ID、和识别由所述层次分类处理步骤确定的所述归属单元的所述单元ID相对应地记录在所述单元/要素对应表中，

在所述层次分类处理步骤中，在分别包含两个以上的所述要素数据的第1及第2要素数据群被输入到该数据处理装置的情况下，针对所述第1及第2要素数据群分别独立地执行确定所述归属单元、并且更新所述分类边界条件的处理，

该数据处理方法还具有层次分类合并步骤，该层次分类合并步骤将在分别针对所述第1及第2要素数据群的处理中被更新后的所述分类边界条件合并。

17.一种程序，使数据处理装置在每当追加要素数据时就执行逐次自动分类，并且能够按照用户的主观基准随时手动进行再分类，该数据处理装置具有用于记录所述要素数据、聚类/要素对应表、分类边界条件以及分组/聚类对应表的临时记录部，所述聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的所述聚类的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个聚类各自的边界，所述分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的所述分组的所述聚类的所述聚类ID相对应地保存，

该程序使所述数据处理装置执行如下步骤：

特征抽取步骤，抽取新追加的所述要素数据的特征量；

18.一种程序，使数据处理装置在每当追加要素数据时就执行逐次自动分类，并且能够按照用户的主观基准随时手动进行再分类，该数据处理装置具有用于记录所述要素数据、单元/要素对应表以及分类边界条件的临时记录部，所述单元/要素对应表将识别由该数据处理装置分类后的多个单元中的各个单元的单元ID、和识别属于利用该单元ID识别的所述单元的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个单元各自的边界，

该程序使所述数据处理装置执行如下步骤：

特征抽取步骤，抽取新追加的所述要素数据的特征量；

该程序还使所述数据处理装置执行层次分类合并步骤，该层次分类合并步骤将在分别针对所述第1及第2要素数据群的处理中被更新后的所述分类边界条件合并。

19.一种集成电路，搭载于数据处理装置，该数据处理装置具有用于记录要素数据、聚类/要素对应表、分类边界条件以及分组/聚类对应表的临时记录部，所述聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的所述聚类的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个聚类各自的边界，所述分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的所述分组的所述聚类的所述聚类ID相对应地保存，

该集成电路具有：

特征抽取部，抽取新追加的所述要素数据的特征量；

20.一种集成电路，搭载于数据处理装置，该数据处理装置具有用于记录要素数据、单元/要素对应表以及分类边界条件的临时记录部，所述单元/要素对应表将识别由该数据处理装置分类后的多个单元中的各个单元的单元ID、和识别属于利用该单元ID识别的所述单元的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个单元各自的边界，

该集成电路具有：

特征抽取部，抽取新追加的所述要素数据的特征量；

该集成电路还具有层次分类合并部，该层次分类合并部将在分别针对所述第1及第2要素数据群的处理中被更新后的所述分类边界条件合并。

Claims

1.一种数据处理装置，对要素数据进行分类，具有：

特征抽取部，抽取新追加的所述要素数据的特征量；

2.根据权利要求1所述的数据处理装置，

所述规定的制约条件是指禁止将已有的聚类彼此结合而生成新的聚类的条件。

3.根据权利要求1或2所述的数据处理装置，

所述规定的制约条件是指禁止将已有的聚类的一部分分割而生成新的聚类的条件。

4.根据权利要求1～3中任意一项所述的数据处理装置，

所述自动分类处理部具有：

5.根据权利要求1～4中任意一项所述的数据处理装置，

所述数据管理部具有：

6.根据权利要求1～5中任意一项所述的数据处理装置，

7.根据权利要求6所述的数据处理装置，

所述数据管理部具有：

8.根据权利要求1～7中任意一项所述的数据处理装置，

该数据处理装置具有：

9.根据权利要求1～8中任意一项所述的数据处理装置，

10.一种数据处理装置，对要素数据进行分类，具有：

11.一种数据处理装置，对要素数据进行分类，具有：

特征抽取部，抽取新追加的所述要素数据的特征量；

12.根据权利要求11所述的数据处理装置，

13.根据权利要求11或12所述的数据处理装置，

所述层次分类处理部具有：

14.根据权利要求11～13中任意一项所述的数据处理装置，

所述规定的制约条件是指禁止将已有的单元彼此结合而生成新的单元的条件，或者禁止将已有的单元的一部分分割而生成新的单元的条件。

15.一种数据处理方法，使数据处理装置对要素数据进行分类，该数据处理装置具有用于记录所述要素数据、聚类/要素对应表、分类边界条件以及分组/聚类对应表的临时记录部，所述聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的所述聚类的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个聚类各自的边界，所述分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的所述分组的所述聚类的所述聚类ID相对应地保存，

该数据管理方法包括如下步骤：

特征抽取步骤，抽取新追加的所述要素数据的特征量；

16.一种数据处理方法，使数据处理装置对要素数据进行分类，该数据处理装置具有用于记录所述要素数据、单元/要素对应表以及分类边界条件的临时记录部，所述单元/要素对应表将识别由该数据处理装置分类后的多个单元中的各个单元的单元ID、和识别属于利用该单元ID识别的所述单元的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个单元各自的边界，

该数据管理方法包括如下步骤：

特征抽取步骤，抽取新追加的所述要素数据的特征量；

17.一种程序，使数据处理装置对要素数据进行分类，该数据处理装置具有用于记录所述要素数据、聚类/要素对应表、分类边界条件以及分组/聚类对应表的临时记录部，所述聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的所述聚类的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个聚类各自的边界，所述分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的所述分组的所述聚类的所述聚类ID相对应地保存，

该程序使所述数据处理装置执行如下步骤：

特征抽取步骤，抽取新追加的所述要素数据的特征量；

18.一种程序，使数据处理装置对要素数据进行分类，该数据处理装置具有用于记录所述要素数据、单元/要素对应表以及分类边界条件的临时记录部，所述单元/要素对应表将识别由该数据处理装置分类后的多个单元中的各个单元的单元ID、和识别属于利用该单元ID识别的所述单元的所述要素数据的要素ID相对应地保存，所述分类边界条件用于规定所述多个单元各自的边界，

该程序使所述数据处理装置执行如下步骤：

特征抽取步骤，抽取新追加的所述要素数据的特征量；

该集成电路具有：

特征抽取部，抽取新追加的所述要素数据的特征量；

该集成电路具有：

特征抽取部，抽取新追加的所述要素数据的特征量；