CN102356393B

CN102356393B - 数据处理装置

Info

Publication number: CN102356393B
Application number: CN201080012541.6A
Authority: CN
Inventors: 川西亮一; 上野山努; 石田明
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2010-01-29
Filing date: 2010-12-24
Publication date: 2014-04-09
Anticipated expiration: 2030-12-24
Also published as: EP2530605A1; JP5576384B2; US8583647B2; JPWO2011092793A1; US20120117069A1; WO2011092793A1; EP2530605A4; CN102356393A

Abstract

本发明目的在于，提供即使在存在用户数据中特定的目标的情况下用户也会满意分类结果的数据处理装置。数据处理装置保持由多个特征量各自的检测频度的组合构成的多个模型数据，根据所述多个模型数据和在识别对象数据中被检测的2个以上的特征量各自的检测频度，进行确定可否识别该数据中包含的目标的处理，在对多个识别对象数据进行了所述处理后，在存在多个未进行目标识别的未识别数据的情况下，确定2个以上的被检测的频度相同的未识别数据为一定数量以上的特征量，通过类生成手法，根据所确定的2个以上的特征量生成新的模型数据，与所述多个模型数据一起保持。

Description

数据处理装置

技术领域

本发明涉及将多个图像自动分类为预先确定的范畴的图像处理技术。

背景技术

近年来，例如对被摄体像进行摄像的DSC(Digital Still Camera)、便携电话照相机和数字摄像机广泛普及，进而，图像数据保存用的记录介质正在大规模化。因此，个人用户也能够保有大量的图像或动画等的AV(Audio Video)内容。但是，用户从大量的图像组或动画组中搜索用户需要的图像或动画时，需要很多时间和劳力。

因此，存在如下的图像索引技术：能够自动对图像赋予标签并进行整理，以便高效地搜索用户期望的图像。

这里，作为用于自动对图像赋予标签的图像索引技术，存在各种手法。例如，使用时间或场所信息估计事件的技术、面部检测技术等的特定物体的检测、或者通过颜色或纹理信息的类似度检测类似图像并赋予标签在检索时加以利用。但是，在各种场所拍摄的图像中存在各种物体和风景。因此，提出了对一般物体进行识别或分类的图像索引技术。

作为现有的一般物体识别技术，根据亮度值等的图像中的基本特征量或局部特征量组对物体进行建模，与从图像中检测到的特征量进行匹配，从而进行识别。该识别技术一般多用作计算机视觉应用。并且，公知有提供如下装置的技术：为了与现有手法相比高速高精度地识别多个图像，生成表示输入图形的特征矢量，根据使用多个不同的分类器进行处理后的输出结果的组合，对输入图形进行自动分类(例如参照专利文献1)。通过该手法，能够更加高速地利用各种观点计算物体的特征。

而且，公知有如下方法：着眼于物体的各种移动或变化，物体自动学习由无法通过任意方法相互以对方为基准移动的若干部分构成的分级型的物体识别模型，从而检索物体(例如参照专利文献2)。

现有技术文献

专利文献

专利文献1：日本特开2008-97607号公报

专利文献2：日本特开2009-104666号公报

发明内容

发明要解决的课题

通常，在上述图像索引技术中，不是用户数据中特定(特化)的分类，而是以针对一般物体定义有效模型并进行分类为前提。因此，例如在专利文献1所公开的结构中，根据多个分类器的加权组合输出，对根据图像计算出的特征矢量进行分类，所以，针对能够定义的某个范围内的物体有效发挥作用，但是，不具有能够覆盖全部一般物体的程度的处理能力，不一定能够进行未定义物体的检测或者对用户来说很重要的物体的检测。

即，在现有技术中，不一定对用户数据中特定的目标进行分类，所以，产生用户不满意分类结果这样的问题。

因此，鉴于上述问题，本发明的目的在于，提供即使在存在用户数据中特定的目标的情况下用户也会满意分类结果的数据处理装置、图像处理方法、程序以及集成电路。

用于解决课题的手段

为了实现上述目的，本发明的数据处理装置的特征在于，该数据处理装置具有：存储单元，保持由多个特征量各自的检测频度的组合构成且用于目标分类的多个模型数据；分类单元，根据所述多个模型数据和在分类对象的数据中被检测的2个以上的特征量各自的检测频度，确定可否进行该数据中包含的目标的分类；确定单元，在对多个分类对象的数据进行了基于所述分类单元的处理后，在存在多个确定为不可进行目标分类的未识别数据的情况下，确定2个以上的、被检测的频度相同的未识别数据为一定数量以上的特征量；以及模型生成单元，通过类生成手法，根据所确定的2个以上的特征量生成新的模型数据，并存储在所述存储单元中。

发明效果

根据该结构，数据处理装置使用多个未识别数据，确定2个以上的、被检测的频度相同的未识别数据为一定数量以上的特征量。在多个未识别数据中包含相同目标的未识别数据较多，因此能够进行这种确定。因此，通过根据所确定的2个以上的特征量生成新的模型数据，能够从多个未识别数据中对包含相同目标的未识别数据进行分类。

这里，也可以是，所述确定单元按照每个所述未识别数据，取得针对所述多个特征量分别检测与该特征量类似的特征量的检测频度，根据分别从所述未识别数据取得的检测频度，按照所述多个特征量的每一个生成检测频度的分布程度，分别根据所述分布程度，确定2个以上的、被检测的频度相同的未识别数据为一定数量以上的特征量。

根据该结构，数据处理装置根据检测频度的分布程度，能够容易地确定2个以上的、被检测的频度相同的未识别数据为一定数量以上的特征量。

这里，也可以是，所述确定单元按照依据规定规则的每个区间对所述多个未识别数据进行分组，生成多个数据组，按照每个所述数据组进行检测频度的取得、分布程度的生成以及特征量的确定，所述模型生成单元按照每个所述数据组生成新的模型数据。

根据该结构，数据处理装置按照依据规定规则的每个区间，确定被检测的频度相同的未识别数据为一定数量以上的特征量，所以，能够进行每个区间内包含的目标的分类。

这里，也可以是，表示生成该未识别数据的日期时间的时间信息分别与所述未识别数据对应，依据所述规定规则的区间是按照一定时间段划分的期间，所述确定单元按照划分为一定时间段的每个期间，对所述多个未识别数据进行分组，生成所述多个数据组。

根据该结构，数据处理装置按照划分为一定时间段的每个期间，确定2个以上的特征量。通常在相同时间段中生成包含相同目标的数据的情况较多，所以，通过划分为这种区间，能够容易地进行每个区间内包含的目标的分类。

这里，也可以是，所述模型生成单元在生成了多个新的模型数据的情况下，判定在一个数据组中生成的一个模型数据与在其他数据组中生成的其他模型数据是否存在基于时间推移的相关关系，在判定为存在相关关系的情况下，将该一个模型数据与该其他模型数据作为具有时间变化性的模型数据对应起来。

根据该结构，当在不同数据组中生成的各模型数据存在基于时间推移的相关关系的情况下，数据处理装置将这些模型数据作为具有时间变化性的模型数据对应起来，所以，能够使根据这些模型数据分类的数据为包含同一目标的数据。

这里，也可以是，在对所述一个模型数据赋予特征的第1特征量的类似性的变化度与对所述其他模型数据赋予特征的第2特征量的类似性的变化度之间存在比例关系的情况下，所述模型生成单元判定为存在相关关系。

根据该结构，当在不同数据组中生成的各模型数据的类似性的变化度存在比例关系的情况下，数据处理装置判定为存在相关关系，所以，能够容易地确定有无相关关系。

这里，也可以是，当在一个数据组中生成的一个模型数据与在其他数据组中生成的其他模型数据相同的情况下、或者在其余的数据组中周期性地出现与该一个模型数据相同的模型数据的情况下，所述模型生成单元仅将该一个模型数据向所述存储单元存储。

根据该结构，当在一个数据组中生成的模型数据与在其他数据组中生成的模型数据相同的情况下，数据处理装置仅存储该一个模型数据，由此，能够防止应该存储的模型数据重复。

这里，也可以是，所述确定单元使用全部所述未识别数据，取得针对每个特征量的计算频度，确定所取得的计算频度为规定频度以上的一个以上的特征量，按照未进行所述目标的识别的每个数据，取得分别针对所取得的一个以上的特征量的检测频度，根据按照该每个数据取得的一个以上的检测频度，生成所述分布程度。

根据该结构，数据处理装置确定分别针对多个特征量取得的计算频度中的所取得的计算频度为规定频度以上的一个以上的特征量，针对所确定的一个以上的特征量分别取得检测频度，所以，与取得全部特征量各自的检测频度的情况相比，能够减轻处理负荷。

这里，也可以是，所述数据处理装置还具有：显示单元，显示所述多个未识别数据；以及指示受理单元，从用户受理从所显示的未识别数据中指定2个以上的数据，所述确定单元根据分别从由所述指示受理单元受理的所述2个以上的未识别数据取得的所述多个特征量的检测频度，或者根据分别从除了所述2个以上的数据以外的其余数据取得的所述多个特征量的检测频度，生成所述多个特征量的所述分布程度。

根据该结构，数据处理装置从规定数以上的未识别数据中的从用户受理的2个以上的数据取得检测频度，生成分布程度，所以，能够生成反映了用户意图的模型数据。

这里，也可以是，所述指示受理单元在还未生成新的模型数据时受理所述指示。

根据该结构，数据处理装置在还未生成新的模型数据时，从用户受理用于生成模型数据的数据的指定，所以，能够生成更加可靠的模型数据。

这里，也可以是，分别关于由所述指示受理单元受理的所述2个以上的未识别数据，所述确定单元根据该未识别数据的生成日期时间，分别对所述2个以上的未识别数据进行分组以使得该生成日期时间属于多个期间中的某个期间，按照每个组生成所述分布程度。

根据该结构，数据处理装置按照每个期间生成分布程度，所以，模型生成单元能够生成每个期间的模型数据。

这里，也可以是，所述数据处理装置还具有：显示单元，对估计具有通过由所述模型数据生成单元生成的所述新的模型数据识别的目标的多个数据进行显示；以及指示受理单元，从用户受理从所显示的多个数据中指定2个以上的数据，所述确定单元根据分别从由所述指示受理单元受理的所述2个以上的数据取得的所述多个特征量的检测频度，或者根据分别从除了所述2个以上的数据以外的其余数据取得的所述多个特征量的检测频度，按照所述多个特征量生成与所述分布程度不同的分布程度，所述模型数据生成单元根据所述不同的分布程度，生成与所述新的模型数据不同的模型数据。

根据该结构，数据处理装置根据估计具有通过所生成的新的模型数据识别的目标的多个数据中的从用户受理的2个以上的数据，再次生成模型数据，而且，将估计具有通过之前生成的新的模型数据识别的目标的多个数据中的不应该识别的数据除外，由此，能够再次生成高精度的模型数据。

这里，也可以是，所述数据是图像，所述确定单元按照未进行所述目标的识别的每个图像，使用在该图像中被检测的一个以上的特征量的类似度，生成至少包含局部特征组的高次特征组，从各局部特征组取得所述检测频度。

根据该结构，数据处理装置针对未进行目标的识别的图像，生成新的模型数据，所以，在生成了该新的模型数据以后，能够对该新的模型数据中特定的图像进行分类。

附图说明

图1是示出数据处理装置100的结构的框图。

图2是示出在某个图像中提取出的SIFT特征量的一例的图。

图3是示出在某个图像中提取出的各Visual Word的检测频度的一例的图。

图4是示出根据从未分类的全部AV数据中提取出的每个VisualWord的检测频度值的检测数而生成的类似度分布的一例的图。

图5是示出第1基准参数表T100的数据结构的一例的图。

图6是示出第2基准参数表T110的数据结构的一例的图。

图7是计算同一特征量的处理的流程图。

图8是以区间单位计算同一特征量的处理的流程图。

图9是示出通过同一特征中的限定特征量空间提取局域模型时的图形的一例的图。

图10是示出局域模型生成部20的结构的框图。

图11是示出按照每个区间存在的图像组的一例的图。

图12是示出提取区间信息的处理的流程图。

图13是示出按照每个区间生成的局域模型和时间连续性的一例的图。

图14是示出按照每个区间生成的局域模型和长期变化性的一例的图。

图15是示出追加了用户交互输入部30时的结构的框图。

图16是示出通过用户交互输入部30显示的图像G100的一例的图。

图17是示出通过用户交互输入部30显示的图像G200的一例的图。

图18是示出通过用户交互输入部30显示的图像G300的一例的图。

图19是示出反馈处理的流程图。

图20是示出数据处理装置100a的结构的框图。

图21是示出数据处理装置100b的结构的框图。

图22是在数据处理装置100b中计算同一特征量的处理的流程图。

图23是示出根据基准特征量与全部图像的一致度而生成的一致度分布的一例的图。

具体实施方式

下面，参照附图说明本发明的实施方式。

1.第1实施方式

1.1数据处理装置100的结构

下面，参照附图说明本发明的第1实施方式。本实施方式涉及如下结构：在对家庭内等的局域AV(Audio Video)数据组进行自动整理的数据处理装置100中，生成局域的分类模型，自动地以高精度对AV数据组赋予标签。这里，AV数据是照片图像数据、动态图像数据、音乐数据等的总称。

图1是示出数据处理装置100的结构的框图。

在图1中，数据处理装置100由局域DB(Data Base：数据库)1、预处理部2、特征量提取部3、分类部4、基本辞典DB(数据库)5、检索索引DB(数据库)6、未分类特征DB(数据库)7、同一特征提取部8、局域模型生成部9、局域辞典DB(数据库)10以及基准参数DB(数据库)11构成。

这里，具体而言，各DB是HDD(Hard Disk Drive)或DVD(DigitalVersatile Disk)等的大容量介质盘或半导体存储器等的存储设备。

(1)局域DB 1

局域DB 1例如存储照片图像数据、动态图像数据、音乐数据等的AV(Audio Video)数据，作为家庭内等的文件数据。

(2)预处理部2

预处理部2进行在提取AV数据的特征量之前进行的处理。具体而言，为了容易地提取特征量，预处理部2进行AV数据的归一化处理、基于图像的区域分割处理来检测背景或物体区域的处理、基于音频的功率变化计算来检测场景区间的处理。

(3)特征量提取部3

特征量提取部3进行提取AV数据的特征量的处理。具体而言，在AV数据是图像数据的情况下，在特征量提取部3中，存在根据边缘、颜色或纹理等的低次特征量以特征点为中心表现区域特征量的特征量描述符即SURF(Speeded Up Robust Features)或SIFT(Scale-Invariant Feature Transform)等的特征量、以及表现物体的形状特征的HOG(Histogram of oriented Gradient)等的高次特征。另外，在藤吉弘亘著的“Gradientベ一スの特徴抽出-SIFTとHOG-”(信息处理学会研究报告CVIM 160，pp.211-224，2007)中进行了详细记载。

在AV数据是音频数据的情况下，在特征量提取部3中，存在音频功率、零交叉、频谱关联特征量、倒频谱关联特征量、色度矢量等的特征量。作为频谱关联或倒频谱关联的特征量，存在频谱的滚降、MFCC(Mel Frequency Cepstrum Coefficient)等。除此之外，在MPEG7(Moving Picture Expelts Group Phase 7)的标准中，存在多个记载为MPEG7-Audio Features的特征量。作为Low电平下的特征量，存在Audio Power、Audio Spectrum Envelope、Audio Spectrum Centroid、Harmonic Spectral Deviation、Harmonic Spectral Spread等。另外，在Hyoung-Gook Kim等著的“MPEG7AUDIO AND BEYOND”(JohnWiley & Sons Ltd，2005)中进行了详细记载。

这里，作为一例，以下说明AV数据是图像数据时的特征量提取部3的功能。

特征量提取部3预先具有存储了多个用于提取特征量的基准特征量即Visual Word的辞典。

特征量提取部3提取图像内的一个以上的特征点，根据提取出的特征点计算SIFT特征量。特征量提取部3使用计算出的全部SIFT特征量和存储在辞典内的多个Visual Word，生成一个以上的BoF(BagOf Features)。特征量提取部3向分类部4输出所生成的一个以上的BoF。

这里，Visual Word是作为各种SIFT特征量中的代表性的中心模型而计算出的，表示人、房屋、雨伞等的一般物体形状的部分要素或全体。另外，Visual Word、特征点的提取、SIFT特征量的计算、BoF的生成是公知技术，所以，这里省略说明。

(4)分类部4

分类部4使用从AV数据中提取出的特征量，与现有的模型数据进行匹配处理，进行输入数据适合哪个模型的判定处理。

这里，在判定处理中例如使用机械学习手法即判别器。作为一般的判别器，存在GMM(Gaussian mixture model)或SVM(SupportVector Machine)等。

在判别器中设置预先按照应该分类的每个范畴准备的分类基准数据、例如后述的基本辞典DB 5和局域辞典DB 10所蓄积的模型信息，使用取样输入信息(这里为AV数据的一个以上的各BoF)进行分类项目的判别以及作为其判别可靠度的似然的计算。这里，似然一般意味着，值越大，可靠度越高。

在判别器中，当所输入的AV数据在分类部4中适合一个模型时，分类部4将该适合的一个模型的分类信息与输入数据即AV数据关联起来(赋予标签)，蓄积在检索索引DB 6中。

在判别器中，当所输入的AV数据不适合任意模型的情况下，分类部4将其与和该AV数据关联的未分类信息关联起来(赋予标签)，蓄积在检索索引DB 6中。这里，未分类信息是识别AV数据的识别符，例如在AV数据是图像的情况下，未分类信息是与图像对应的图像编号。

(5)基本辞典DB 5

基本辞典DB 5预先定义了用于利用分类部4进行分类的范畴，根据要利用的特征量，蓄积对该范畴进行分类所需要的各范畴的模型信息。

(6)检索索引DB 6

当所输入的AV数据在分类部4中适合一个模型时，检索索引DB 6将该适合的模型的分类信息与输入数据关联起来进行蓄积。

(7)未分类特征DB 7

未分类特征DB 7蓄积无法分类的AV数据的未分类信息。

(8)同一特征提取部8

同一特征提取部8根据蓄积在未分类特征DB 7中的未分类信息，从未分类的多个AV数据中计算特征量的类似性和特征量的出现频度等，提取存在一定偏差时估计能够从同一物体得到的同一特征。

例如在分类部4进行了分类处理的情况下，同一特征提取部8开始进行处理。开始分类处理后，同一特征提取部8判定蓄积在未分类特征DB 7中的未分类信息的数量是否为开始同一特征提取处理所需要的一定数量以上。例如，使用在后述的基准参数DB 11中存储的第1基准参数表T100进行判定。

在判断为进行提取处理的情况下，同一特征提取部8分别从蓄积在未分类特征DB 7中的未分类信息中，提取从该未分类信息所表示的AV数据中提取出的全部特征量中的计算频度为一定频度以上的基准特征量(Visual Word)。这里，例如设全部AV数据数量为V_all，设计算出一个以上的特征量x的AV数据数量为V_x，cal，设根据存在特征量x的各AV数据计算出的特征量x的平均数为V_x，one，通过以下的数式1计算基准特征量的某个类别x的计算频度F(x)。

[数式1]

F(X)＝log(V_X，one)×(V_X，cal÷V_all)…(数式1)

然后，同一特征提取部8使用计算出的F(x)的值、以及在后述的基准参数DB 11中存储的第2基准参数表T110，仅提取一个以上的计算频度大的基准特征量。

并且，同一特征提取部8针对一个AV数据，计算相对于各个基准特征量的特征量的类似度。例如，在基准特征量是Visual Word的情况下，计算各Visual Word相对于模型的距离作为类似度。具体而言，使用图2和图3进行说明。图2示出在某个拍摄了人、房屋和雨伞的照片中提取出的SIFT特征量。检测一张图像内的特征点(图中所示的特征点)并将该区域信息(图中的刻度)作为SIFT描述符，从而计算SIFT特征量。并且，旋转是用来表示捕捉特征点的特征区域(刻度)的旋转方向的朝向。另外，特征点、刻度和旋转与现有技术的定义相同，所以省略详细说明。并且，在类似度的计算中，例如根据同一特征组所具有的多变量数据，计算欧几里得距离、马氏距离、闵可夫斯基距离等，将该距离的近度作为类似度。作为基本的距离，存在欧几里得平方距离，在得到n个体m变量的特征的观测值时，作为表示个体i与个体j的非类似性的量，非类似度d_ij能够通过下述数式2计算。

[数式2]

d_{ij} = Σ_{k = 1}^{m} {(X_{k, i} - X_{k, j})}^{2}

…(数式2)

如图2所示，同一特征提取部8按照未分类的全部AV数据(图像)，计算该AV数据内的全部SIFT特征量。然后，同一特征提取部8针对未分类的全部AV数据，如图3所示，计算作为与各Visual Word类似的SIFT特征量检测到的数量，作为检测频度。

然后，同一特征提取部8分别针对作为频度大的基准特征量提取出的一个以上的基准特征量，在未分类的全部AV数据各自的该基准特征量中，根据检测频度生成图4所示的类似度分布，计算该分布内的峰值。这里，峰值例如能够作为从类似度分布中的极大值减去最近的极小值而得到的差分来计算。

下面，具体说明图4所示的各Visual Word的类似度分布中的峰值的计算方法。

同一特征提取部8按照全部图像数据，计算图3所示的检测频度，计算各检测频度值的检测数，从而生成纵轴为检测频度且横轴为检测数的类似度分布。根据类似度分布中的检测数的增减来计算极大值和极小值，使用检测频度最近的极小值所具有的检测数，从各极大值取得差分，从而计算峰值。

同一特征提取部8判定并提取如下的基准特征量，该基准特征量具有估计能够使用该峰值判定同一物体性的峰值。同一特征提取部8将提取出的基准特征量作为同一特征输出到局域模型生成部9。另外，峰值的判定基准例如使用后述的第2基准参数表T110。

(9)局域模型生成部9

局域模型生成部9使用由同一特征提取部8提取出的同一特征，定义某个局域AV数据组特有的物体的范畴，对其模型信息进行计算处理。

具体而言，局域模型生成部9使用由同一特征提取部8提取出的同一特征，使用k-means手法等的类生成手法，从由未分类的多个AV数据中的检测该同一特征的一个以上的AV数据构成的类似数据组中，进行范畴的定义以及模型的生成。k-means手法等的类生成手法是已知技术，所以，这里省略说明。

(10)局域辞典DB 10

局域辞典DB 10根据要利用的特征量，蓄积由局域模型生成部9计算出的范畴定义以及对该范畴进行分类所需要的模型信息。蓄积DB例如是HDD或DVD等的大容量介质盘或半导体存储器等的存储设备。

(11)基准参数DB 11

基准参数DB 11存储第1基准参数表T100和第2基准参数表T110。

第1基准参数表T100表示同一特征提取部8中的处理开始的基准。并且，第2基准参数表T110表示用于提取频度大的基准特征量和基于峰值的基准特征量的基准。

(11-1)第1基准参数表T100

如图5所示，第1基准参数表T100由包含数据种类和分类开始量基准参数的一个以上的组构成。

数据种类表示作为分类对象的数据的类别。具体而言，数据种类是静态图像、动态图像、音频等。分类开始量基准参数进一步由基准1、基准2、基准3、…构成。基准1、基准2、基准3、…表示作为对应的数据种类的分类开始的数据的数量(量)。

例如在分类对象是静态图像的情况下，同一特征提取部8在未分类的静态图像中判断为满足基准1、基准2、…中的某个基准的情况下，开始进行分类。

(11-2)第2基准参数表T110

如图6所示，第2基准参数表T110由包含数据种类和各种基准参数的一个以上的组构成。

数据种类表示作为提取对象的数据的类别。具体而言，数据种类是静态图像、动态图像、音频等。各种基准参数由频度基准、峰值基准1、峰值基准2、…构成。在对应的数据种类中提取计算频度大的基准特征量时使用频度基准。在对应的数据种类中判定估计能够判定同一物体性的基准特征量时使用峰值基准1、峰值基准2、…。

例如，在提取计算频度大的基准特征量的对象是静态图像的情况下，同一特征提取部8提取频度基准(0.35)以上的一个以上的基准特征量。并且，在判定估计能够判定同一物体性的基准特征量的情况下，在满足峰值基准1、峰值基准2、…中的某个基准时，同一特征提取部8判定为对应的基准特征量能够判定同一物体性。

1.2动作

这里，详细说明生成为了整理用户保有的AV数据而自动对AV数据赋予标签时的局域模型的动作。

为了生成局域模型，数据处理装置100需要提取能够检测在用户保有的AV数据中包含的局域数据中频繁出现的被摄体信息的特征量。图7是示出数据处理装置100从局域数据中提取同一特征时的同一特征提取处理的流程图。

例如在分类部4进行了分类处理的情况下，开始同一特征提取处理。

开始分类处理后，同一特征提取部8判定蓄积在未分类特征DB 7中的未分类信息的数量是否为处理开始所需要的一定数量以上(步骤S1)。例如，在分类对象是静态图像的情况下，同一特征提取部8判定是否满足图5所示的第1基准参数表T100中的基准1、基准2、基准3、…中的某个基准。

在判断为不是处理开始所需要的一定数量以上的情况下(步骤S1中的“否”)，同一特征提取部8结束同一特征提取处理。

在判断为是处理开始所需要的一定数量以上的情况下(步骤S1中的“是”)，同一特征提取部8根据数式1的F(x)的值，提取从AV数据中提取出的全部特征量中的计算频度为一定频度以上的基准特征量(步骤S2)。

同一特征提取部8按照提取出的每个基准特征量，计算代表特征量和在全部AV数据中计算出的基准特征量的类似度(步骤S3)。具体而言，在基准特征量是Visual Word的情况下，同一特征提取部8计算各Visual Word相对于模型的距离作为类似度(SIFT特征量)。如图3所示，同一特征提取部8按照每个基准特征量，计算作为SIFT特征量检测到的数量，作为检测频度。

同一特征提取部8分别针对作为频度大的基准特征量提取出的一个以上的基准特征量，在未分类的全部AV数据各自的该基准特征量中，根据检测频度生成图4所示的类似度分布，计算该分布内的峰值(步骤S4)。

同一特征提取部8判定并提取如下的基准特征量，该基准特征量具有认为能够使用该峰值判定同一物体性的峰值(步骤S5)，将其作为同一特征输出到局域模型生成部9。另外，如上所述，峰值的判定是指是否满足峰值基准1、峰值基准2、…中的某个基准。

1.4总结

如上所述，数据处理装置100使用无法分类的AV数据(图像)，根据这些图像中包含的特征量，根据具有认为能够判定同一物体性的峰值的基准特征量，生成模型数据。

由此，通过在局域辞典DB中蓄积用户特定的模型数据，能够对在基本辞典DB中无法分类的图像进行分类。

1.5变形例

在上述实施方式中，从未分类的全部AV数据中提取同一特征，但是不限于此。也可以不是从未分类的全部AV数据中提取同一特征，而是从一定量或一定时间区间的AV数据中提取同一特征。使用图8所示的流程图说明该情况下的同一特征提取处理的顺序。

另外，为了便于说明，对本变形例的同一特征提取部标注标号“8a”进行说明。

与上述第1实施方式同样，虽然没有图示，但是，开始分类处理后，同一特征提取部8a判定蓄积在未分类特征DB 7中的未分类信息的数量是否为处理开始所需要的一定数量以上。在判断为不是处理开始所需要的一定数量以上的情况下，同一特征提取部8a结束同一特征提取处理。

在判断为是处理开始所需要的一定数量以上的情况下，同一特征提取部8a从未分类特征DB输入按照一定时间段检测的特征量(步骤S11)。

同一特征提取部8a以一定时间段的输入单位计算局部特征量即BoF(步骤S12)。接着，同一特征提取部8a使用在步骤S12中计算出的局部特征量，计算Visual Word的检测频度(步骤S13)。

同一特征提取部8a使用计算出的检测频度，按照图3所示的Visual Word，生成检测数的直方图(步骤S14)。

同一特征提取部8a判定在各Visual Word中的检测数的直方图中是否存在峰值，判定具有峰值基准以上的峰值的基准特征量，作为该一定时间区间中的同一特征进行提取(步骤S15)。

同一特征提取部8a判定是否关于全部时间段的数据完成处理(步骤S16)。在判断为完成的情况下(步骤S16中的“是”)，同一特征提取部8a结束处理。并且，在判断为未完成的情况下(步骤S16中的“否”)，同一特征提取部8a返回步骤S11，反复进行处理直到全部时间段的处理完成为止。

另外，在上述流程图中，设提取对象为以一定时间段分割的图像组，但是不限于此。如一定张数、一定区域、一定事件等那样，只要是能够分割图像的单位即可，与其类别无关。

由此，例如，该变形例的数据处理装置如图9所示，能够在仅基于同一特征的限定特征量空间中创建在全部特征量空间中难以建模的例如某个家族饲养的宠物狗或特殊所有物的模型，并进行提取。这样生成的局域模型是在局域AV数据中特定的模型，所以，能够高精度地对该模型进行分类。

如上所述，不是通过使用全部特征量的距离空间来生成局域模型，而是构成为在将要利用的特征量仅限定为同一被摄体性高的特征量后、在该限定空间内生成局域模型，由此，不是一般的模型，而是局域识别性高的模型，所以，能够定义某个局域AV数据组特有的物体的范畴，并高精度地提取其模型信息。

另外，作为使用蓄积在未分类特征DB中的未分类信息的单位，考虑如第1实施方式那样使用全部未分类信息计算同一特征，也考虑如上述变形例那样按照规定的图像数进行计算，或者以某个事件单位、时间单位、场所单位对未分类信息进行分割并计算。

并且，作为图像中的同一特征量的提取方法，可以使用通过特征点中的对应点匹配来判定是否包含同一物体并加以利用的手法、或者利用颜色直方图或边缘量的分布的全体类似性的方法，只要是使用能够提取在数据库内存在的同一物体的特征量的方法即可，与其类别无关。

2.第2实施方式

下面，参照附图说明本发明的第2实施方式。

第2实施方式涉及如下的方法：不仅考虑信息量的多少和类似度，在局域模型生成时还考虑时间连续性作为局域AV数据所具有的特有信息，由此，不是在全部数据中生成最佳的模型，而是以时间序列生成最佳的模型。

另外，在本实施方式中，对具有与第1实施方式相同的功能的结构标注相同标号，并省略其说明。

并且，除了特别记载的情况以外，包含数据处理装置的原理结构在内，与第1实施方式的情况相同。

在本实施方式中，作为生成更加适于用户独自的局域DB的局域模型的方法，不采用统一处理全部AV数据来生成局域DB特有的模型的方法，而采用考虑蓄积的AV数据的时间序列的迁移来生成局域DB特有的模型的方法。作为在本实施方式中利用的数据，主要假设了图像，具体说明根据图像信息的解析结果生成局域模型的方法。

2.1结构

这里，关于第2实施方式的数据处理装置的结构，以与第1实施方式不同的方面为中心进行说明。

局域模型生成部的功能结构与第1实施方式不同。其他结构要素与第1实施方式相同，所以，这里说明局域模型生成部。

(1)局域模型生成部20

下面，参照图10说明本实施方式的局域模型生成部20的功能结构的一例。图10是局域模型生成部20的功能框图。局域模型生成部20由区间信息提取部21、区间模型生成部22、模型连续性判定部23构成。

(1-1)区间信息提取部21

区间信息提取部21提取一定的数据单位、时间单位、场所单位、事件单位的区间信息，作为局域AV数据的集中信息。例如，作为图像信息，使用EXIF(Exchangeable Image File Format)信息中包含的摄影时间或GPS(Global Positioning System)信息，能够自动计算一定的连续摄影区间信息。并且，考虑以用户生成的文件夹单位信息等分割数据并提取其区间信息等。

这里，区间信息提取部21根据EXIF信息中包含的摄影时间计算一定的连续摄影区间信息。具体而言，区间信息提取部21根据存储在未分类特征DB 7中的未分类信息的内容，从EXIF信息中提取存储在局域DB 1中的作为处理对象的全部图像的时间信息。接着，区间信息提取部21根据所得到的时间信息，以最初进行拍摄的日期时间为基准，例如针对每个小时的区间计算所拍摄的图像的张数。然后，区间信息提取部21根据按照每个小时计算出的图像张数，对处理中的开始一小时的图像张数进行相加，计算累计图像张数。在累计图像张数为500张以上且要相加的图像张数为0的区间连续3小时以上的情况下，区间信息提取部21提取该区间，使累计图像张数为0。

区间信息提取部21针对处理对象的全部图像进行上述动作。

(1-2)区间模型生成部22

区间模型生成部22按照由区间信息提取部21提取出的每个区间，使用由同一特征提取部8计算出的特征量组，生成局域模型。关于具体的模型生成方法，可以通过与第1实施方式相同的方法生成。

另外，在类似性的计算中，与第1实施方式相同，考虑根据多变量特征量计算模型间距离等。

(1-3)模型连续性判定部23

模型连续性判定部23计算以多长的区间连续生成按照每个区间生成的局域模型，判定局域DB 1内是否具有时间连续性。模型连续性判定部23从时间连续性高的局域模型、即出现频度高的局域模型起，依次赋予标签。

并且，作为长期变化性，模型连续性判定部23计算是否存在特征量内的部分变化，判定是否具有一定的变化倾向性。针对具有一定的变化倾向性的多个局域模型，模型连续性判定部23进行具有同一特征的意思的关联(赋予同一标签)。

2.2动作

下面，详细说明AV数据是图像时的具体的局域模型的生成手法。图11是示出在图像中按照每个区间存在的图像组的一例的图。另外，这里，设在局域DB 1中存在横轴为时间轴、纵轴为每小时的图像量的图11所示的特定用户以时间序列拍摄的图像组。

使用图12所示的流程图说明该情况下的区间信息提取部21的动作。

首先，区间信息提取部21根据存储在未分类特征DB 7中的未分类信息的内容，从EXIF信息中提取存储在局域DB 1中的作为处理对象的全部图像的时间信息(步骤S21)。

区间信息提取部21根据所得到的时间信息，以最初进行拍摄的日期时间为基准，例如针对每个小时的区间计算所拍摄的图像的张数(步骤S22)。

区间信息提取部21根据按照每个小时计算出的图像张数，对处理中的开始一小时的图像张数进行相加，计算累计图像张数(步骤S23)。

在累计图像张数为500张以上且要相加的图像张数为0的区间连续3小时以上的情况下，区间信息提取部21提取该区间，使累计图像张数为0(步骤S24)。

区间信息提取部21判定是否针对处理对象的全部图像完成处理(步骤S25)。在判断为完成的情况下(步骤S25中的“是”)，区间信息提取部21完成区间信息提取处理。在判断为未完成的情况下(步骤S25中的“否”)，区间信息提取部21返回步骤S23，反复进行处理直到针对全部图像的处理完成为止。

2.3具体例

通过进行上述动作，区间信息提取部21例如能够提取图11所示的区间1～6。

然后，区间模型生成部22针对由区间信息提取部21提取出的全部区间(区间1～6)，生成局域模型。在图11所示的例子中，提取出区间1～区间6这6个区间，所以，例如如图13所示，生成在6个区间中存在的全部局域模型A、B、C、D、E、F、G。

模型连续性判定部23判定所生成的局域模型是否具有时间连续性、周期性、长期变化性。在图13的例子中，计算每个区间的局域模型的全体类似性，对具有一定以上的类似性的局域模型赋予相同标记。其结果，作为时间连续性高、即出现频度高的模型，能够提取局域模型C。因此，作为与短期存在的局域模型(例如局域模型B、G)相比局域属性高的模型，模型连续性判定部23能够优先赋予标签。

并且，模型连续性判定部23检测长期变化性并进行建模。例如如图14所示，在局部类似性的变化度存在比例关系的情况下，模型连续性判定部23提取局域模型A、E、D，作为具有一定的长期变化性的局域模型，作为局域属性高的模型，优先赋予标签，作为同一物体进行关联。具体而言，提取作为孩子成长时的面部或身体的变化程度的长期变化性、物体中的基于劣化或破损的变化性、基于流行的车辆等物体的形状变化性等。由此，模型连续性判定部23计算考虑全体特征时为不同的模型、但作为类似性高的模型提取出的局域模型之间的局部特征量的类似性的变化度，对该变化度进行例如主成分分析等的统计处理，在得到相关关系时，这些模型能够作为具有长期变化性的一个模型来提取。即，在模型之间的某个特征量组具有一定基准以上的类似性、在其他特征量组中类似性低、但其变化程度存在一定倾向的情况下，能够作为具有长期变化性的模型来提取。

2.4总结

如上所述，根据本实施方式，数据处理装置判定各种生成的局域模型在局域DB 1内的连续性，由此，能够短期或单次地生成有效的局域模型，或者长期或周期地生成有效的模型，或者生成根据长期变化而自适应地变化的局域模型。

并且，不是使用全部AV数据针对全部特征量生成最佳的局域模型，而是构成为，例如提取时间块作为AV数据之间的联系，限定为每个区间的AV数据后生成局域模型，判定每个区间的模型间连续性，生成局域属性更高的局域模型，由此，能够成为考虑了用户取得的AV数据的倾向性的局域识别性高的模型，所以，能够高精度地定义局域AV数据组特有的物体的范畴，并提取其模型信息。

2.5变形例

在本实施方式中，区间信息提取部21从EXIF信息中提取作为处理对象的全部图像的时间信息，但是，也可以从数据生成时间信息中提取。

另外，在本实施例的结构中，设置同一特征提取部8，但是，也可以采用利用由特征量提取部3计算出的一般特征量的结构、或者针对全部AV数据提取特征量并加以利用的结构。

并且，在具体说明中仅说明了图像的时间连续性，但是，还考虑使用音频或影像数据的情况，作为连续性，也可以利用场所的连续或者根据时间和场所等的融合信息而得到的事件性的联系。

3.第3实施方式

下面，参照附图说明本发明的第3实施方式。

本实施方式涉及如下的方法：在提取同一特征时、生成局域模型时、或者显示通过所生成的局域模型进行分类后的结果时，考虑来自用户的反馈(以后为用户交互)，修正自动生成的同一特征和局域模型中存在的差异，生成无法自动生成的同一特征或局域模型。

另外，在本实施方式中，对具有与第1实施方式相同的功能的结构标注相同标号并应用其说明，所以，省略说明。

在本实施方式中，作为高精度地进行适于用户的局域DB 1的同一特征的提取以及局域模型的生成的方法，不采用通过预先确定的程序自动进行全部处理的方法，而采用如下方法：在各种处理的输入输出中考虑基于用户交互的用户的输入信息，高精度地生成局域DB 1特有的特征和模型。

作为在本发明的实施方式中利用的数据，主要假设了图像，具体说明在图像解析的输入输出时根据用户交互生成同一特征和局域模型的方法。

3.1结构

这里，关于第3实施方式的数据处理装置的结构，以与第1实施方式不同的方面为中心进行说明。

图15是示出在本实施方式中在图1的结构中追加了具有用户交互输入功能的用户交互输入部30时的结构的框图。

下面，说明用户交互输入部30的功能以及同一特征提取部8和局域模型生成部9中的更多功能。

(1)用户交互输入部30

用户交互输入部30具有如下功能：为了改善在同一特征提取部8和局域模型生成部9中处理的内容的精度，针对用户具有的AV数据或由数据处理装置计算出的输出结果输入附加信息。

具体而言，用户交互输入部30显示图16所示的图像G100、图17所示的图像G200以及图18所示的图像G300，受理来自用户的指示。另外，在本实施方式中，设显示图像的画面具有触摸面板功能。

(图像G100)

图16所示的图像G100示出同一物体且对图像输入标签信息时的一例。

在图16所示的图像G100中包含表示显示中的图像的存储场所的库G101、未分类的图像I100、I101、I102、I103、…、按钮B100、B101、B102、B103、滚动条SB100。

在库G101中，利用粗框包围显示对象的库，以使用户得知显示中的各图像的存储目的地。这里，利用粗框包围相册1下属的A01库，所以，用户一眼便知显示中的各图像的存储目的地为A01。

并且，所显示的图像I100、I101、I102、I103、…分别是包含在显示对象的库中且未分类的图像，在所显示的各图像的下方显示复选框C100、C101、C102、C103、…。用户针对显示中的图像中的一个以上的图像，在复选框中进行勾选，由此，能够指定处理对象的图像。例如，在图16中，除了图像I102、I103以外还指定3个图像(合计5个图像)。

按钮B100用于指示在处理指定的多个图像中包含同一物体。按下该按钮B100时，同一特征提取部8从所指定的多个图像中提取同一物体涉及的特征量。另外，以后的同一特征提取部8和局域模型生成部9的动作与第1实施方式相同，所以，这里省略说明。

按钮B101用于指示针对处理指定的一个以上的图像关联标签信息。通过用户操作而按下该按钮B101时，显示画面从图像G100迁移到图像G200。

按钮B102用于针对处理指定的一个以上的图像指定要提取特征量的区域。按下该按钮B102后，用户通过鼠标操作指定要提取的区域。

按钮B103用于指示基于用户交互的处理的结束。

滚动条SB100用于使所显示的图像滚动。用户使用鼠标操作该显示的滚动条SB100，从而使图像滚动。

(图像G200)

当在图像G100中按下按钮B101的情况下，显示图17所示的图像G200。这里，示出指定图16的图像I103并按下按钮B101时的显示形式。

用户交互输入部30显示所指定的图像，然后，从用户受理关联标签信息的物体的指定。

具体而言，在触摸面板上，以包围关联标签信息的物体的方式，用户用手指指定区域。例如，在希望针对物体O200关联标签信息的情况下，以包围物体O200的方式指定区域O201。

用户交互输入部30受理区域O201的指定后，显示用于输入标签名的框T200。

用户在框T200中输入标签信息(这里，标签名为“椅子”)。

用户交互输入部30取得关联有标签信息的图像的未分类信息，与标签信息一起通知给局域模型生成部9。

然后，局域模型生成部9在针对所指定的物体O200生成的局域模型中关联所输入的标签信息(“椅子”)。

(图像G300)

图18所示的图像G300示出输入基于通过数据处理装置分类后的结果的指示时的一例。

在图18所示的图像G300中包含库G301、图像I300、I301、I302、I303、…、按钮B300、B301、B302、B303、滚动条SB300。

在库G301中，显示由同一特征提取部8和局域模型生成部9检测到的每个物体的库名。这里，利用粗框包围显示对象的库名，以使用户得知显示中的文件夹。这里，利用粗框包围库名“X001”。

并且，所显示的图像I100、I101、I102、I103、…分别是包含在显示对象的库“X001”中的图像，在所显示的各图像的下方显示复选框C100、C101、C102、C103、…。用户针对显示中的图像中的一个以上的图像，在复选框中进行勾选，由此，能够指定处理对象的图像。例如，在图18中，除了图像I302以外还指定3个图像(合计4个图像)。

按钮B300用于指示使用处理指定的多个图像再次生成局域模型。按下该按钮B300时，同一特征提取部8从所指定的多个图像中提取同一物体涉及的特征量。另外，以后的同一特征提取部8和局域模型生成部9的动作与第1实施方式相同，所以，这里省略说明。

按钮B301用于指示使用除了处理指定的一个以上的图像以外的其余图像再次生成局域模型。按下该按钮B301时，同一特征提取部8从所指定的多个图像中提取同一物体涉及的特征量。另外，以后的同一特征提取部8和局域模型生成部9的动作与第1实施方式相同，所以，这里省略说明。例如，在图18中主要汇集了拍摄狗的图像，但是，其中也有猫或风景的图像，所以，在复选框中指定这些图像，按下按钮B301，由此，能够仅根据拍摄狗的图像再次生成局域模型。

按钮B302用于指示分割为处理指定的多个图像和其余图像并针对分割后的各个图像组生成局域模型。按下该按钮B302时，通过同一特征提取部8和局域模型生成部9，针对分割后的图像组分别生成局域模型。

按钮B303用于指示对2个以上的库进行合并。按下该按钮B303时，通过同一特征提取部8和局域模型生成部9，使用2个以上的库生成局域模型。

滚动条SB300具有与滚动条SB100相同的功能，所以，这里省略说明。

在按下按钮B300和按钮B301进行再次分类时，用户交互输入部30显示其结果。

并且，在按下按钮B302进行显示中的图像组的分割时，用户交互输入部30显示其结果。

并且，在按下按钮B303进行所指定的2个图像组的合并时，用户交互输入部30显示其结果。

通过该用户交互输入部30，例如如图18所示，关于用户通过数据处理装置进行分类后的结果，在各种物体混合存在时，指定主要的分类内容以外的内容，按下按钮B301，从而修正该内容。具体而言，在图18内的库“X001”中主要存储拍摄狗的图像，但是，其中也有猫或场景的图像，所以，在复选框中指定这些图像，向数据处理装置反馈错误，从而修正该内容，能够成为仅检测到狗的图像组。除此之外，可以采用如下的修正方法：仅指定正确的内容，以及在狗中希望进一步通过种类进行区分时进行再次分割，在过度分割的情况下进行合并等。

3.2动作

具体说明通过基于用户交互的指示的受理对同一特征提取处理和局域模型生成处理进行改善的改善方法。图19是示出该具体的反馈处理的顺序的流程图。

开始用户输入后，开始反馈处理。首先，在用户输入了与AV数据关联的信息的情况下，用户交互输入部30取得该信息(步骤S31)。具体而言，在图16所示的图像G100和图18所示的图像G300中，指定处理对象的图像，取得在按下某个按钮时指定的图像的张数和与被按下的按钮对应的处理内容，作为输入信息。

判定该输入信息是否是能够改善图像处理内容的信息(步骤S32)。另外，作为这里的能够改善的信息，在AV数据是图像的情况下，是图像中包含的被摄体的区域关联信息、标签关联信息、与图像组有关的事件关联信息、被指定的图像的张数。具体而言，用户交互输入部30在按下了按钮B100和按钮B300的情况下，判断被指定的图像是否为2个以上，在按下了按钮B101的情况下，判断被指定的图像是否为一个以上，在按下了按钮B301的情况下，判断除了被指定的图像以外的其余图像是否存在2个以上。并且，在按下了按钮B302的情况下，判断是否在分割后的2个图像组中分别包含2个以上的图像，在按下了按钮B303的情况下，判断是否指定了2个以上的库。

在判断为能够改善的情况下(步骤S32中的“是”)，用户交互输入部30将取得的输入信息转换为能够由同一特征提取部8和局域模型生成部9处理的信息(步骤S33)。具体而言，用户交互输入部30针对被指定的一个以上的图像分别取得未分类信息(识别AV数据的识别符)。并且，例如在对家中饲养的宠物赋予姓名标签的情况下，将赋予了该姓名的图像和区域转换为存在同一物体的图像信息(未分类信息)。

在同一特征提取部8和局域模型生成部9中，根据转换后的信息进行各种能够改善的处理，更新结果内容(步骤S34)。进行更新后，用户交互输入部30判定用户输入是否完成(步骤S35)。在判断为完成的情况下(步骤S34中的“是”)，完成反馈处理。在判断为未完成的情况下(步骤S34中的“否”)，处理返回步骤S31，反复进行处理直到用户输入完成为止。

在判断为无法改善的情况下(步骤S32中的“否”)，处理转移到步骤S35。

3.3总结

在第1实施方式中，在同一特征提取部8中，在自动提取同一特征时，与是否是同一物体无关，仅将特征的类似性作为判断依据，使用基于类似性的聚类(clustering)手法提取同一特征。因此，混合存在有不必要的特征量，同一特征的提取精度不太高。但是，在本实施方式中，用户预先指定同一物体，所以，数据处理装置在预先得知是同一物体并得知信息的情况下，能够仅根据被限定的同一物体的图像信息计算类似性并提取同一特征，所以，能够进行高精度的提取。

并且，在局域模型生成部9中，在直接输入同一物体信息的情况下，能够直接根据图像学习并生成必要的局域模型，所以，能够生成高精度的分类模型。作为间接信息，即使仅是是否包含同一物体的信息，也能够对错误地生成的分类模型进行修正。

另外，用户交互可以是一个一个的用户输入单位，也可以是与一定功能有关而集中的输入单位等。

如上所述，不是通过数据处理装置全部自动进行处理来生成同一特征或局域模型，而是采用如下结构：作为用户交互，考虑基于用户输入的反馈处理进行修正，同时生成同一特征或局域模型，由此，能够成为阶段地改善了分类精度的局域模型，所以，能够阶段地修正定义某个局域AV数据组特有的物体的范畴，可靠地提取其模型信息。

4.第4实施方式

下面，参照附图说明本发明的第4实施方式。

本实施方式涉及如下的方法：在基本辞典DB 5中没有预先定义用于在分类部4中进行分类的范畴的情况下，通过考虑用于对AV数据中包含的一般范畴进行分类的类似特征、以及用于对局域特有的物体进行分类的同一特征这双方，自动生成基本辞典DB和局域辞典DB这双方。

在本实施方式中，作为全部自动生成适于局域DB的一般模型和局域模型的方法，不采用蓄积预先定义的范畴的模型信息进行生成的方法，而采用如下方法：考虑分别计算用于生成各模型的特征并加以利用，除了同一特征以外，还生成用于对一般模型进行分类的类似特征，自动生成一般模型。作为在本发明的实施方式中利用的数据，主要假设了图像，具体说明在图像解析中根据上述2种特征(同一特征和类似特征)生成一般模型和局域模型的方法。

4.1结构

图20是示出本发明的数据处理装置100a的原理结构的框图。在图20中，数据处理装置100a由局域DB 1、预处理部2、特征量提取部3、分类部40、基本辞典DB 5、检索索引DB 6、同一特征提取部8、局域模型生成部9、局域辞典DB 10、基准参数DB 11、全部图像特征DB(数据库)41、类似特征提取部42、全域模型生成部43构成。局域DB 1、预处理部2、特征量提取部3、基本辞典DB 5、检索索引DB 6、同一特征提取部8、局域模型生成部9、局域辞典DB 10、基准参数DB 11与第1实施方式所记载的内容相同，所以，这里省略说明。

(1)全部图像特征DB 41

全部图像特征DB 41蓄积由特征量提取部3计算出的全部未分类信息。

(2)类似特征提取部42

类似特征提取部42不是根据全部图像的特征量对特定的模型(例如狗)进行分类，而是提取各个种类的模型(例如狗)共通的特征量。

类似特征提取部42与同一特征提取部8同样，使用基准参数DB11中包含的第1基准参数表T100，判定蓄积在全部图像特征DB 41中的未分类信息的数量是否为开始类似特征提取处理所需要的一定数量以上。

在判定为肯定的情况下，类似特征提取部42进行类似特征提取处理。在判定为否定的情况下，类似特征提取部42不进行类似特征提取处理。

这里，作为类似特征的提取方法，考虑与提取同一特征时相比降低用于判定特征量的类似性的基准，或融合同一特征和以一定水平以上的程度类似的特征，或利用同一特征以外的特征量，或预先定义利用特征量。

(3)全域模型生成部43

全域模型生成部43使用由类似特征提取部42提取出的类似特征，定义某个局域AV数据组中的一般物体的范畴，对其模型信息进行计算处理。

由此，数据处理装置100a还根据局域AV数据组的信息生成一般的分类模型，所以，无法分类的信息减少，能够增加可分类的信息。

(4)分类部40

分类部40与第1实施方式同样，使用从AV数据中提取出的特征量，与现有的模型数据进行匹配处理，进行输入数据适合哪个模型的判定处理。

但是，在基本辞典DB 5和局域辞典DB 10中不存在预先定义的模型的情况下，分类部40不进行处理，而在全部图像特征DB 41中蓄积在特征量提取部3中作为特征量的计算对象的AV数据的未分类信息。

然后，当在局域模型生成部9中生成局域模型、在全域模型生成部43中生成全域模型后，分类部4进行判定处理，针对AV数据赋予标签信息等的元数据。

4.2总结

如上所述，不是预先定义并保持分类模型，而是通过从局域AV数据得到的特征量，不仅提取同一被摄体性高的特征量，还提取类似被摄体性高的特征量，数据处理装置100a自动生成全部分类模型。由此，数据处理装置100a不仅能够对同一被摄体性高的局域模型进行分类，还能够对类似被摄体性高的全域模型进行分类，所以，能够全部自动定义某个局域AV数据组中包含的物体的范畴，并提取其模型信息。

5.第5实施方式

下面，参照附图说明本发明的第5实施方式。

本实施方式涉及如下的方法：在提取同一特征时或生成局域模型时，从用户受理多个图像的指定，根据所受理的多个图像生成同一特征或局部模型。

另外，在本实施方式中，对具有与第1实施方式或第3实施方式相同的功能的结构标注相同标号并应用其说明，所以，省略说明。

并且，除了特别记载的情况以外，包含数据处理装置的原理结构在内，与第1实施方式或第3实施方式的情况相同。

在本实施方式中，与第3实施方式同样，采用如下方法：在各种处理的输入输出中考虑基于用户交互的用户的输入信息，高精度地生成局域DB 1特有的特征和模型。

5.1结构

这里，关于第5实施方式的数据处理装置100b的结构，以与第1实施方式和第3实施方式不同的方面为中心进行说明。

如图21所示，数据处理装置100b由局域DB 1、预处理部2、特征量提取部3、分类部4、基本辞典DB 5、检索索引DB 6、未分类特征DB 7、同一特征提取部58、局域模型生成部59、局域辞典DB 10、基准参数DB 11以及登记部51构成。

下面，说明与第1实施方式不同的登记部51的功能以及同一特征提取部58和局域模型生成部59中的更多功能。

(1)登记部51

登记部51具有如下功能：为了提高在同一特征提取部58和局域模型生成部59中处理的内容的精度，受理用于选择由用户希望分类的多个图像构成的图像组并生成局域模型的指示。

具体而言，登记部51例如显示与图16所示的图像G100、图17所示的图像G200以及图18所示的图像G300相同的图像，受理来自用户的指示。另外，在本实施方式中，与第3实施方式同样，具有触摸面板功能。

并且，在以后的说明中，使用图16、17、18所示的图像G100、G200和G300进行说明。

在本实施方式中显示的图像G100的画面结构与第3实施方式所示的画面结构相同，作为显示对象的图像不同。在本实施方式中，处于还未生成局域模型的状态，作为显示对象的图像不用于分类。

其他画面结构例如库G101、复选框C100、C101、C102、C103、…、按钮B100、B101、B102、B103、滚动条SB100与第3实施方式相同，所以，这里省略说明。

例如，在显示图像G100的期间内，用户能够使用滚动条SB100进行滚动操作，并容易地选择作为登记对象的图像组。

并且，当按下在图像G300中示出的按钮B300时，在局域辞典DB 10中登记通过后述的同一特征提取部58和局域模型生成部59的功能而生成的局域模型。

(2)同一特征提取部58

同一特征提取部58从由登记部51指定的图像组中提取同一特征。

具体而言，同一特征提取部58例如在图像G100中勾选了多个图像之后，当按下按钮B100时，按照摄影时期的远近、即事件单位对所勾选的图像组中包含的多个图像进行分类。

同一特征提取部58以分类后的多个图像单位提取同一特征。提取方法与第1实施方式所示的同一特征提取部8相同，所以，这里省略说明。

(3)局域模型生成部59

局域模型生成部59按照以分类后的多个图像单位由同一特征提取部58提取出的同一特征，生成局域模型。

局域模型的生成方法与第1实施方式所示的局域模型生成部59相同，所以，这里省略说明。

5.2动作

这里，使用图22所示的流程图说明数据处理装置100从用户指定的图像组中提取同一特征时的处理。

登记部51从用户受理登记指示和作为对象的多个图像的指定(步骤S100)。具体而言，登记部51在图像G100中勾选了多个图像后，按下按钮B100，由此，受理登记指示和图像的指定。

当利用登记部51受理了登记指示和图像的指定后，同一特征提取部58判断是否指定了多张所受理的图像(步骤S105)。

在判断为没有指定多张的情况下(步骤S105中的“否”)，处理结束。

在判断为指定了多张的情况下(步骤S105中的“是”)，同一特征提取部58按照每个事件单位进行分类(步骤S110)。

同一特征提取部58选择一个事件(步骤S115)。

同一特征提取部58判断所选择的事件中包含的图像数量是否为一定数量以上(步骤S120)。

在判断为一定数量以上的情况下(步骤S120中的“是”)，同一特征提取部58从所选择的事件中包含的多个图像中提取以一定频度以上计算的基准特征量(步骤S125)。关于特征量的类别，只要是由特征量提取部3提取出的特征量即可，可以是任意的，还考虑对颜色信息和高次特征量的SIFT进行组合来利用的情况等。这里，假设利用SIFT特征量。通过在所指定的全部图像中存在半数以上的具有某个一定阈值以上的类似度的SIFT特征量等的条件，能够识别并提取基准特征量。

接着，按照提取出的每个基准特征量，同一特征提取部58计算代表特征量和全部频繁出现特征量的类似度(步骤S130)。例如，在频繁出现特征量是SIFT特征量的情况下，计算全部图像数据相对于各SIFT特征量的距离作为类似度。同一特征提取部58按照每个基准特征量，例如在0(全部不一致)～1(完全一致)之间对与未分类的全部图像内的SIFT特征量之间的一致程度进行归一化，计算类似度分布(步骤S135)。在该一致度分布中接近0的比例高、接近1的比例也高的情况下，例如图23所示的分布的情况下，同一特征提取部58判定并提取认为能够判定同一物体性的频繁出现特征量(步骤S140)，将其作为同一特征输出到局域模型生成部9。

同一特征提取部58判断是否存在未选择的事件(步骤S145)。

在判断为存在的情况下(步骤S145中的“是”)，同一特征提取部58选择下一个事件(步骤S150)，返回步骤S120。

在判断为不存在的情况下(步骤S145中的“否”)，处理结束。

以后，在局域模型生成部9中，使用提取出的同一特征，按照事件单位生成局域模型。

5.3第5实施方式的变形例

以上，作为本发明的一例，根据第5实施方式进行了说明，但是不限于此。例如考虑以下的变形例。

(1)在上述第5实施方式中，同一特征提取部58按照事件单位对所指定的图像组进行分割，但是不限于此。

同一特征提取部也可以不按照事件单位对所指定的图像组进行分割，而从所指定的图像组中提取多个同一特征。

此时，局域模型生成部可以按照事件单位对提取出的多个同一特征进行分类，或者，也可以不按照事件单位进行分类，而根据提取出的全部同一特征生成局域模型。

(2)在上述第5实施方式中，局域模型生成部59按照事件单位生成局域模型，但是不限于此。

局域模型生成部也可以使用按照事件单位提取出的全部同一特征生成局域模型。该情况下，仅提取按照每个事件生成的局域模型分别共通的特征，根据提取出的特征生成局域模型的核心部分。进而，通过计算核心部分的局域模型与各局域模型的差分，提取这些局域模型的倾向变化，生成适于该变化倾向和区间全体的图像倾向的新的局域模型。

或者，局域模型生成部按照事件单位生成局域模型，根据一个事件的局域模型和其他事件的局域模型，生成在所述一个事件与所述其他事件之间存在且用户没有从指定图像中确定的事件(未选择事件)的局域模型。例如，在将用户指定的图像组分割成图11中的区间1、3所示的2个事件的情况下，局域模型生成部生成各个区间1、3中的局域模型，进而，根据各个区间1、3中的局域模型，生成在区间1、3之间存在的区间2(用户未指定的区间)的局域模型。

并且，局域模型生成部也可以对要利用的2个事件各自的局域模型进行加权，生成未选择事件的局域模型。例如，与上述同样，在所选择的事件为区间1、3、未选择事件为区间2的情况下，考虑区间1与区间2的差分为2日、区间2与区间3的差分为3时。该情况下，使用区间1的局域模型(X)和区间3的局域模型(Y)，通过数式“Z＝X×(3/5)+Y×(2/5)”计算区间2的局域模型(Z)。

(3)在上述第5实施方式中，用户进行登记指示时，也可以按照图像中包含的物体的朝向进行选择。

例如，在希望选择宠物或人作为生成局域模型的对象的情况下，用户按照从正面拍摄了宠物或人的面部的图像、从右侧面拍摄的图像、从左侧面拍摄的图像等，根据拍摄角度进行选择。

同一特征提取部按照每个拍摄角度提取同一特征。

(4)在上述第5实施方式中，同一特征提取部58按照每个事件对图像组进行分割，但是不限于此。

在用户指定图像时，也可以按照每个事件进行分类并指定图像。

(5)在上述第5实施方式中，数据处理装置在还未生成局域模型的状态下，仅将未分类的图像作为显示对象，但是不限于此。

在还未生成局域模型的状态下，所显示的图像与是否分类无关，可以是包含在显示对象的库中的图像。

(6)可以对上述第5实施方式和这些变形例进行组合。

5.4总结

如上所述，局域模型生成部59能够按照每个事件单位(例如图11所示的区间单位)生成局域模型，并且，在由用户指定的图像组中判定该模型的时间连续性。例如，在用户指定的图像组包含在图11所示的区间1、2、6中的情况下，在区间1、2、6中，根据包含用户指定的对象的图像组，针对各个区间生成局域模型，由此，能够针对各个区间全体的图像倾向(例如图像的平均颜色直方图、特征物体的含有度、背景种类等)生成作为最佳登记对象的局域模型。

并且，例如，在用户指定的图像组仅包含在图11所示的区间3中的情况下，按照事件拍摄的可能性高，可以仅在该区间内生成最佳的局域模型。进而，可以限定利用在各区间内提取同一特征并加以利用的特征量自身。

6.变形例

以上，根据实施方式进行了说明，但是，本发明不限于上述各实施方式。例如，考虑以下的变形例。

(1)在上述各实施方式中，在分类部4进行的判定处理中使用的判别器基于机械学习手法，但是不限于此。判别器只要是如下方法即可：能够按照某个判别基准判别具有某个特征量的信号所属的某个定义的分类项目。

(2)本发明中利用的基准特征量只要能够在由特征量提取部3提取出的特征量中捕捉AV数据内的特征即可。

例如，在图像中，考虑BoF(Bag OfFeatures)中的各Visual Word等的部分要素特征量，在音频中，考虑作为语言基本模型的母音和子音的讲话模型等。

(3)在上述各实施方式中，关于同一特征提取处理的开始，作为一例，使用第1基准参数表T100，但是不限于该表的内容。

只要是能够根据分类结果的增减来开始处理的数量即可，与其类别无关。例如，简单地讲，数据处理装置可以根据全部数据数量的增减来进行同一特征提取处理，也可以在满足第1基准参数表T100的各基准中的至少2个以上的基准的情况下进行处理。

(4)在上述各实施方式中，同一特征提取部8和同一特征提取部58也可以按照全部图像数据计算图3所示的检测频度，计算一定区间的检测频度值的检测数。

(5)在上述各实施方式中，也可以在0～1中对类似度分布的检测数的值进行归一化。由此，能够简化计算处理。

(6)在上述各实施方式中，同一特征提取部8和同一特征提取部58在满足第2基准参数表T110中的多个峰值基准中的某个峰值基准的情况下，判定为对应的基准特征量能够判定同一物体性，但是不限于此。

也可以按照每个要利用的基准特征量来对应峰值基准。

(7)在上述第3实施方式中，在图16的例子中，使用复选框来选择图像，但是不限于此。

也可以通过直接接触(触摸)的方式来选择图像。

在图17的例子中，选择一个物体(椅子)并输入标签，但是，也可以在一张图像中选择多个物体，针对各物体分别输入标签。

即，只要是能够对同一特征提取部8和局域模型生成部9的处理结果进行修正的用户交互内容即可，与其手法无关。

(8)在上述第1实施方式中，在未分类特征DB 7中存储有识别AV数据的识别符作为未分类信息，但是不限于此。

也可以在未分类特征DB 7中存储由特征量提取部3计算出的针对AV数据的特征量，作为未分类信息。

(9)在上述各实施方式中，以图像为中心进行了说明，但是，本发明的装置不是仅将图像作为对象。

也可以根据音频生成局域模型。

只要是能够根据某种特征生成局域模型的数据即可。

并且，本发明的装置也可以组入能够蓄积能够生成局域模型的数据的装置、例如DVD记录器、TV、个人电脑、数据服务器等中。

(10)在上述各实施方式中，特征量提取部提取根据边缘、颜色或纹理等的低次特征量以特征点为中心表现区域特征量的特征量描述符即SURF或SIFT等的特征量、以及表现物体的形状特征的HOG(Histogram of oriented Gradient)等的高次特征，但是不限于此。

特征量提取部也可以生成包含在边缘、颜色或纹理等中类似的局部特征组在内的特征组。此时，同一特征提取部根据所生成的特征组中包含的各局部特征组，计算特征量的类似性和特征量的出现频度等。

(11)也可以将记述了上述实施方式中说明的手法的顺序的程序存储在存储器中，CPU(Central Processing Unit)等从存储器中读出程序，执行所读出的程序，由此，实现上述手法。

并且，也可以将记述了该手法的顺序的程序存储在记录介质中并颁布。

(12)上述各实施方式的各结构也可以作为集成电路即LSI(Large Scale Integration)实现。这些结构可以单片化，也可以以包含一部分或全部的方式单片化。这里。表现为LSI，但是，根据电路的集成度的差异，有时称为IC(Integrated Circuit)、系统LSI、超级LSI、特级LSI。并且，集成电路化的手法不限于LSI，也可以通过专用电路或通用处理器进行集成电路化。并且，也可以使用能够在LSI制造后进行编程的FPGA(Field Programmable Gate Array)、能够再次构筑LSI内部的电路单元的连接或设定的可重构处理器(ReConfigurable processor)。或者，例如可以使用DSP(Digital SignalProcessor)或CPU(Central Processing Unit)等进行这些功能块的运算。进而，这些处理步骤可以作为程序记录在记录介质中来执行。

进而，如果出现了通过半导体技术的进步或派生的其他技术置换LSI的集成电路的技术，则当然也可以使用该技术来进行功能块的集成化。存在应用生物技术等的可能性。

(13)可以对上述实施方式和变形例进行组合。

产业上的可利用性

本发明的数据处理装置在对一般模型中无法识别的数据进行分类并生成用户特定的局域模型时是有用的。

并且，本发明的数据处理装置不是通过主要使用全部特征量的距离空间来生成局域模型，而是将要利用的特征量仅限定为同一被摄体性高的特征量，或者按照一定区间进行分割而生成考虑了时间序列连续性的模型，由此，不是一般的分类模型，而是针对局域AV数据的识别性高的局域分类模型。因此，通过高精度地提取局域AV数据组特有的物体信息并进行数据的索引，能够进行用户省事的AV数据分类和检索。例如，在进行照片检索时，在一般的分类模型中分类不充分的情况下，具有生成用户的局域图像组特有的分类模型并进行分类的图像处理功能，作为各种图像视听终端机等是有用的。并且，还可以应用于DVD记录器、TV(Television)、个人电脑软件、数据服务器等的用途。

标号说明

1：局域DB；

2：预处理部；

3：特征量提取部；

4：分类部；

5：基本辞典DB；

6：检索索引DB；

7：未分类特征DB；

8：同一特征提取部；

9：局域模型生成部；

10：局域辞典DB；

11：基准参数DB；

20：局域模型生成部；

21：区间信息提取部；

22：区间模型生成部；

23：模型连续性判定部；

30：用户交互输入部；

40：分类部；

41：全部图像特征DB；

42：类似特征提取部；

43：全域模型生成部；

100：数据处理装置。

Claims

1.一种数据处理装置，其特征在于，具有：

存储单元，保持由多个特征量各自的检测频度的组合构成且用于目标分类的多个模型数据；

分类单元，根据所述多个模型数据和在分类对象的数据中被检测的2个以上的特征量各自的检测频度，确定可否进行该数据中包含的目标的分类；

确定单元，在对多个分类对象的数据进行了基于所述分类单元的处理后，在存在多个确定为不可进行目标分类的未识别数据的情况下，确定2个以上的、被检测的频度相同的未识别数据为规定数量以上的特征量；以及

模型生成单元，通过类生成手法，根据所确定的2个以上的特征量生成新的模型数据，并存储在所述存储单元中。

2.如权利要求1所述的数据处理装置，其特征在于，

所述确定单元按照每个所述未识别数据，取得针对所述多个特征量分别检测与该特征量类似的特征量的检测频度，

根据分别从所述未识别数据取得的检测频度，按照所述多个特征量的每一个生成检测频度的分布程度，

分别根据所述分布程度，确定2个以上的、被检测的频度相同的未识别数据为规定数量以上的特征量。

3.如权利要求2所述的数据处理装置，其特征在于，

所述确定单元按照依据规定规则的每个区间对所述多个未识别数据进行分组，生成多个数据组，按照每个所述数据组进行检测频度的取得、分布程度的生成以及特征量的确定，

所述模型生成单元按照每个所述数据组生成新的模型数据。

4.如权利要求3所述的数据处理装置，其特征在于，

表示生成该未识别数据的日期时间的时间信息分别与所述未识别数据对应，

依据所述规定规则的区间是按照规定的时间段划分的期间，

所述确定单元按照划分为规定的时间段的每个期间，对所述多个未识别数据进行分组，生成所述多个数据组。

5.如权利要求4所述的数据处理装置，其特征在于，

所述模型生成单元在生成了多个新的模型数据的情况下，判定在一个数据组中生成的一个模型数据与在其他数据组中生成的其他模型数据是否存在基于时间推移的相关关系，在判定为存在相关关系的情况下，将该一个模型数据与该其他模型数据作为具有时间变化性的模型数据对应起来。

6.如权利要求5所述的数据处理装置，其特征在于，

在对所述一个模型数据赋予特征的第1特征量的类似性的变化度与对所述其他模型数据赋予特征的第2特征量的类似性的变化度之间存在比例关系的情况下，所述模型生成单元判定为存在相关关系。

7.如权利要求5所述的数据处理装置，其特征在于，

当在一个数据组中生成的一个模型数据与在其他数据组中生成的其他模型数据相同的情况下、或者在其余的数据组中周期性地出现与该一个模型数据相同的模型数据的情况下，所述模型生成单元仅将该一个模型数据向所述存储单元存储。

8.如权利要求2所述的数据处理装置，其特征在于，

所述确定单元使用全部所述未识别数据，取得针对每个特征量的计算频度，确定所取得的计算频度为规定频度以上的一个以上的特征量，按照未进行所述目标的识别的每个数据，取得分别针对所取得的一个以上的特征量的检测频度，

根据按照该每个数据取得的一个以上的检测频度，生成所述分布程度。

9.如权利要求2所述的数据处理装置，其特征在于，

所述数据处理装置还具有：

显示单元，显示所述多个未识别数据；以及

指示受理单元，从用户受理从所显示的未识别数据中指定2个以上的数据，

所述确定单元根据分别从由所述指示受理单元受理的所述2个以上的未识别数据取得的所述多个特征量的每一个的检测频度，或者根据分别从除了所述2个以上的数据以外的其余数据取得的所述多个特征量的每一个的检测频度，生成所述多个特征量的每一个的所述分布程度。

10.如权利要求9所述的数据处理装置，其特征在于，

所述指示受理单元在还未生成新的模型数据时受理所述指示。

11.如权利要求10所述的数据处理装置，其特征在于，

所述确定单元对于由所述指示受理单元受理的所述2个以上的未识别数据的每一个，根据该未识别数据的生成日期时间，分别对所述2个以上的未识别数据进行分组以使得该生成日期时间属于多个期间中的某个期间，按照每个组生成所述分布程度。

12.如权利要求2所述的数据处理装置，其特征在于，

所述数据处理装置还具有：

显示单元，对估计为具有通过由所述模型数据生成单元生成的所述新的模型数据识别的目标的多个数据进行显示；以及

指示受理单元，从用户受理从所显示的多个数据中指定2个以上的数据，

所述确定单元根据分别从由所述指示受理单元受理的所述2个以上的数据取得的所述多个特征量的每一个的检测频度，或者根据分别从除了所述2个以上的数据以外的其余数据取得的所述多个特征量的每一个的检测频度，按照所述多个特征量的每一个生成与所述分布程度不同的分布程度，

所述模型数据生成单元根据所述不同的分布程度，生成与所述新的模型数据不同的模型数据。

13.如权利要求2所述的数据处理装置，其特征在于，

所述数据是图像，

所述确定单元按照未进行所述目标的识别的每个图像，使用在该图像中被检测的一个以上的特征量的类似度，生成至少包含局部特征组的高次特征组，从各局部特征组取得所述检测频度。

14.如权利要求1所述的数据处理装置，其特征在于，

所述数据处理装置由集成电路构成。

15.一种数据处理方法，该数据处理方法用于数据处理装置，该数据处理装置具有保持由多个特征量各自的检测频度的组合构成且用于目标分类的多个模型数据的存储单元，其特征在于，该数据处理方法包含以下步骤：

分类步骤，根据所述多个模型数据和在分类对象数据中被检测的2个以上的特征量各自的检测频度，确定可否进行该数据中包含的目标的分类；

确定步骤，在对多个分类对象数据进行了所述分类步骤的处理后，在存在多个确定为不可进行目标分类的未识别数据的情况下，确定2个以上的、被检测的频度相同的未识别数据为规定数量以上的特征量；以及

模型生成步骤，通过类生成手法，根据所确定的2个以上的特征量生成新的模型数据，存储在所述存储单元中。