CN110209665B

CN110209665B - 数据处理装置、数据处理方法以及记录介质

Info

Publication number: CN110209665B
Application number: CN201810695673.1A
Authority: CN
Inventors: 近藤真晖
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2018-02-15
Filing date: 2018-06-29
Publication date: 2023-07-28
Anticipated expiration: 2038-06-29
Also published as: JP2019139670A; US10853400B2; CN110209665A; US20190251203A1; JP6640896B2

Abstract

本发明涉及数据处理装置、数据处理方法以及记录介质。能够高效地对特征矢量进行量化。数据处理装置具备子矢量群生成部、码本生成部以及转换部。子矢量群生成部从由N个D维特征矢量构成的特征矢量集合生成M个(M＜D)的子矢量群。M个子矢量群分别包括从N个D维特征矢量的每一个中获得的N个维可变子矢量。N个维可变子矢量分别将从D维特征矢量提取的1以上的维的值作为元素。至少一个子矢量群中的维可变子矢量的元素的数量与其他子矢量群中的维可变子矢量的元素的数量不同。码本生成部对N个维可变子矢量进行聚类，生成将各簇的代表矢量与索引建立起对应的码本。转换部通过直积量化，将D维特征矢量转换为由M个索引的组合构成的压缩码。

Description

数据处理装置、数据处理方法以及记录介质

本申请享受2018年2月15日在先提出的日本专利申请号2018－024700的优先权的利益，并且引入其全部内容。

技术领域

本发明的实施方式涉及数据处理装置、数据处理方法以及记录介质。

背景技术

伴随着大数据时代的到来，大量保留例如在图案识别等中被用作示例的特征矢量的必要性增加。伴随于此，用于保留特征矢量的存储器、硬盘驱动器等硬件成本增大。作为该问题的解决对策之一，已知有通过直积量化来减少特征矢量的存储大小(memory size)的方法。直积量化是如下技术：将特征矢量分割成多个子矢量，参照码本，将各子矢量置换为簇的代表矢量的索引，从而将特征矢量转换为压缩码。码本是通过将应保留的特征矢量集合按照每个子矢量进行聚类并将各簇的代表矢量与索引建立对应而生成的查找表。

在将特征矢量分割为多个子矢量时，以往，一般是以使各个子矢量的维数相同的方式均等地分割特征矢量。但是，在该方法中，在不同的子矢量间，分散的程度产生较大的不均，有时在生成码本时由于子矢量而导致簇数过剩或过小。而且，若使用这样生成的码本进行特征矢量的直积量化，则担心量化效率降低。

发明内容

本发明要解决的课题是要提供一种能够高效地对特征矢量进行量化的数据处理装置、数据处理方法以及记录介质。

实施方式的数据处理装置具备子矢量群生成部、码本生成部以及转换部。子矢量群生成部从由N个D维特征矢量构成的特征矢量集合生成M个(其中，M＜D)子矢量群。上述M个子矢量群分别包括从上述N个D维特征矢量的每一个获得的N个维可变子矢量。上述N个维可变子矢量分别将从上述D维特征矢量提取的1以上的维的值作为元素。上述M个子矢量群中的至少一个子矢量群中的上述维可变子矢量的元素的数量与其他子矢量群中的上述维可变子矢量的元素的数量不同。码本生成部按照上述M个子矢量群的每一个，对上述N个维可变子矢量进行聚类，生成将各簇的代表矢量与索引建立起对应的码本。转换部通过使用了上述码本的直积量化，将上述N个D维特征矢量分别转换为由M个索引的组合构成的压缩码。

通过上述构成的数据处理装置，能够高效地对特征矢量进行量化。

附图说明

图1是表示特征矢量集合的一例的图。

图2是说明从特征矢量集合生成子矢量群的现有方法的图。

图3是说明生成码本的现有方法的图。

图4是说明参照码本将特征矢量转换为压缩码的方法的图。

图5是说明参照码本将特征矢量转换为压缩码的方法的图。

图6是表示第一实施例的数据处理装置的功能的构成例的框图。

图7是表示从特征矢量集合生成子矢量群的情形的图。

图8是表示子矢量群生成部进行的处理的具体例的流程图。

图9是表示生成码本的情形的图。

图10是表示第二实施例的数据处理装置的功能的构成例的框图。

图11是说明簇数上限值的探索方法的图。

图12是表示第三实施例的数据处理装置的功能的构成例的框图。

图13是表示差分查找表的一个例子的图。

图14是说明码本更新部进行的处理的概要的图。

图15是表示数据处理装置的硬件构成例的框图。

具体实施方式

以下参照附图来详细地说明实施方式的数据处理装置、数据处理方法以及程序。本实施方式以通过直积量化而将特征矢量转换为压缩码的技术作为对象，特别是通过改进子矢量的生成方法与子矢量群的聚类方法，能够高效地对特征矢量进行量化。

＜直积量化的概要＞

首先，在具体地说明本实施方式之前，对利用以往的一般方法进行的直积量化的概要进行说明。通过直积量化将特征矢量转换为压缩码的技术包含：从应保留的特征矢量集合生成码本的阶段和使用该码本将特征矢量集合所含的各特征矢量转换为压缩码的阶段。此外，在以下的说明中，将包含于应保留的特征矢量集合中的特征矢量的数量设为N，将各特征矢量的维数设为D，将把特征矢量分割为子矢量的分割数(从特征矢量生成的子矢量的数量)设为M。

首先，对从特征矢量集合生成码本的阶段进行说明。图1示出特征矢量集合的一个例子。如图1所示，特征矢量集合200由N个D维特征矢量(以下，简称为“特征矢量”)210构成。在图1所示的例子中，为了易于理解地说明直积量化的概要，将各特征矢量210的维数D设为6，但实际的特征矢量210的维数D一般是更大的值。

在从特征矢量集合200生成码本时，首先，例如如图2所示，将特征矢量集合200所含的各特征矢量210分割为M个子矢量220，生成M个子矢量群230。在图2所示的例子中，将特征矢量210的分割数(子矢量群230的数量)M设为3。

从特征矢量210向M个子矢量220的分割如果是用以往的一般方法，则是使子矢量220彼此的维数相同的均等分割。在图2的例子中，由于将6维(D＝6)的特征矢量210分割为三份(M＝3)，因此各子矢量220的维数为2。M个子矢量群230分别包括从特征矢量集合200所含的N个特征矢量210的每一个中获得的N个子矢量220，一个子矢量群230所含的N个子矢量220以从N个特征矢量210分别提取的共同的维(dimension)作为元素。例如，以第一个特征矢量210的第一维与第二维作为元素的子矢量220、以第二个特征矢量210的第一维与第二维作为元素的子矢量220、···、以第N个特征矢量210的第一维与第二维作为元素的子矢量220构成一个子矢量群230。这样的子矢量群230被生成的数量为特征矢量210的分割数M。

接下来，对M个子矢量群230的每一个进行K－means聚类，将各子矢量群230所含的N个子矢量220聚类为K个簇。并且，按照每个子矢量群230生成将K个簇的代表矢量与索引建立起对应的码本。K的值是与特征矢量集合200所含的特征矢量210的数量N相比足够小的值。这里假设以8位来表现码本中的索引，将K的值设为2⁸＝256。

如图2的例子那样，对应特征矢量210的分割数M＝3而从特征矢量集合200生成三个子矢量群230的情况下，如图3所示，通过分别对三个子矢量群230进行K－means聚类(K＝256)，从而将三个子矢量群230的每一个分别聚类为256个簇。并且，通过将各簇的代表矢量与索引(ID：1～256)建立对应，生成码本240，索引是指示该簇的代表矢量的值。簇的代表矢量例如是该簇的质心(centroid)。

接下来，对使用码本240将特征矢量集合200所含的各特征矢量210转换为压缩码的阶段进行说明。在将特征矢量集合200所含的各特征矢量210转换为压缩码时，首先，如图4所示，从特征矢量集合200中取出一个特征矢量210，将该特征矢量210以与生成码本240时相同的方法分割为M个(在图4的例子中是三个)子矢量220。并且，对于M个子矢量220的每一个，参照如上述那样生成的码本240，确定距子矢量220最近的代表矢量，取得与该代表矢量对应的索引。并且，根据特征矢量210中的各子矢量220的顺序来配置所取得的M个索引，生成压缩码250。这样，D维特征矢量210被转换为长度M的压缩码250。

对特征矢量集合200所含的N个特征矢量210的全部实施以上的处理，从而如图5所示，特征矢量集合200被转换为由N个压缩码250构成的压缩码集合260。通过将特征矢量集合200转换为压缩码集合260来进行保存，能够实现存储大小的减少。特征矢量210的分割数M越小，或对于子矢量群230的K－means聚类的簇数K的值越小，则将特征矢量集合200转换为压缩码集合260所得的数据的压缩率越高。另一方面，特征矢量210的分割数M越大，或对于子矢量群230的K－means聚类的簇数K的值越大，则压缩码250对特征矢量210的呈现力越高。因此，决定特征矢量210的分割数M或K－means聚类的簇数K的值，使得维持应用中要求的呈现力的同时尽可能提高压缩率，即，使得能够获得良好的量化效率。

＜实施方式的概要＞

在以上说明的以往的一般的直积量化的方法中，特征矢量210的分割数M(即子矢量220的维数)、K－means聚类的簇数K的值是固定的，因此在生成上述的码本240时，有时因子矢量群230而生成过剩或过小的簇。而且，若使用这样生成的码本240进行特征矢量210的直积量化，则担心量化效率降低。

因此，在本实施方式中，在直积量化中不预先决定量化等级的模式，而是按照每个子矢量群230自动决定最佳的量化等级(簇数)，以改善量化效率。具体而言，使用X－means聚类的方法，自动决定每个子矢量群230的量化等级。X－means聚类指的是改进了K－means聚类而得的聚类方法，能够自动决定最佳的簇数。

(参考文献)Dan Pelleg，Andrew Moore，“X-means：Extending K-means withEfficient Estimation of the Number of Clusters”School of Computer Science，Carnegie Mellon University，Pittsburgh，PA 15213 USA.

其中，在X－means聚类中，存在如下问题：若聚类对象的子矢量群230中的子矢量220的分散较大，则自动决定的簇数变多，聚类的所需时间变得极多。子矢量220的维数越多，子矢量群230中的子矢量220的分散越增加。为了解决该问题，在本实施方式中，改进子矢量220的生成方法。

以往，如上述那样，以使全部的子矢量220的维数相同的方式均等地分割特征矢量210。在该情况下，由于在子矢量群230之间，子矢量220的分散的程度产生偏差，因此可能会生成子矢量220的分散极大的子矢量群230和并非如此的子矢量群230。

为了防止这一点，在本实施方式中，以使子矢量220的维可变(以下，将该子矢量220表述为“维可变子矢量220”)、且各子矢量群230中的维可变子矢量220的分散成为同等程度的方式，进行特征矢量集合200所含的特征矢量210的维选择，从而生成M个子矢量群230。并且，使用该M个子矢量群230生成码本240，通过直积量化将特征矢量210转换为压缩码250。

以下，对实现以上所述的本实施方式的概念的具体实施例进行说明。此外，在以下的说明中，对具有相同的功能的构成要素标注相同的附图标记，并适当地省略重复的说明。

＜第一实施例＞

图6是表示第一实施例的数据处理装置10A的功能的构成例的框图。如图6所示，本实施例的数据处理装置10A具备子矢量群生成部11、码本生成部12以及转换部13。

子矢量群生成部11从由N个特征矢量210构成的特征矢量集合200生成M个子矢量群230。M个子矢量群230分别包括从N个特征矢量210的每一个中获得的N个维可变子矢量220。N个维可变子矢量220分别将从特征矢量210提取的1以上的维的值为元素。子矢量群生成部11所生成的子矢量群230的数量M是比特征矢量210的维数D小的值，但并非如以往那样为固定的值，而是自适应地确定的可变的值。

图7是表示子矢量群生成部11从特征矢量集合200生成M个子矢量群230的情形的图，示出了从图1所例示的特征矢量集合200生成三个子矢量群230的情形。子矢量群生成部11并非如以往那样将特征矢量集合200所含的各特征矢量210均等分割，而是如图7所示，进行特征矢量集合200所含的各特征矢量210的维数选择，从而生成M个(在图7的例子中，M＝3)子矢量群230。此时，子矢量群生成部11以使维可变子矢量220的分散的程度在M个子矢量群230彼此之间接近的方式进行维数选择，从特征矢量集合200生成M个子矢量群230。因此，在不同的子矢量群230之间，维可变子矢量220的维数(元素的数)变得不同。换句话说，子矢量群生成部11所生成的M个子矢量群230中的至少一个子矢量群230中的维可变子矢量220的元素的数量与其他子矢量群230中的维可变子矢量220的元素的数量不同。

图8是表示子矢量群生成部11进行的处理的具体例的流程图。子矢量群生成部11例如实施图8的流程图所示的处理，从而能够生成维可变子矢量220的分散的程度为相同程度的M个子矢量群230。

子矢量群生成部11首先取得特征矢量集合200与簇数上限值T(步骤S101)。簇数上限值T是由用户设定的超参数。

接下来，子矢量群生成部11对于特征矢量集合200所含的N个特征矢量210，按照各维进行X－means聚类，按照每个维计算最佳簇数C(步骤S102)。

接下来，子矢量群生成部11按照最佳簇数C从小到大的顺序，从特征矢量210提取最适簇数C相同的维进行分组(步骤S103)。然后，根据属于组的维的数量G与属于该组的维的最佳簇数C，计算子矢量群230的最佳簇数G^C，判断G^C是否为簇数上限值T以下(步骤S104)。

这里，如果G^C为簇数上限值T以下(步骤S104：是)，则子矢量群生成部11使该组(从特征矢量210提取的维的组合)为维可变子矢量220，输出与特征矢量集200所含的N个特征矢量210对应的N个维可变子矢量220所构成的子矢量群230(步骤S105)。

另一方面，在G^C超过了簇数上限值T的情况下(步骤S104：否)，子矢量群生成部11分割该组(步骤S106)，并判断属于分割后的组的维的数量G是否为1(步骤S107)。然后，如果属于分割后的组的维的数量G不为1(步骤S107：否)，则返回步骤S104，重复之后的处理。换句话说，子矢量群生成部11对于子矢量群230的最佳簇数G^C超过簇数上限值T的组，分割该组，直至G^C达到簇数上限值T以下或者属于组的维的数量G达到1为止。并且，若子矢量群230的最佳簇数G^C达到簇数上限值T以下(步骤S104：是)、或者属于组的维的数量G达到1(步骤S107：是)，则进入步骤S105而输出子矢量群230。

之后，子矢量群生成部11判断是否已从特征矢量210提取全部的维(步骤S108)，如果有未从特征矢量210提取的维(步骤S108：否)，则返回步骤S103，重复之后的处理。并且，若从特征矢量210提取全部的维而步骤S105的处理结束，则结束图8的流程图所示的一系列的处理。

码本生成部12按照每个由子矢量群生成部11生成的M个子矢量群230，将N个维可变子矢量220聚类，生成将各簇的代表矢量与索引建立起对应的码本240。

例如，码本生成部12按照M个子矢量群230的每一个，进行将子矢量群230生成时所推断的最佳簇数G^C作为K的K－means聚类，从而生成码本240。或者，码本生成部12也可以按照M个子矢量群230的每一个进行X－means聚类，从而生成码本240。

图9是表示码本生成部12生成码本240的情形的图，示出了从图7所例示的三个子矢量群230生成码本240的情形。码本生成部12如上述那样，按照每个子矢量群230，基于其子矢量群230的最佳簇数对维可变子矢量220进行聚类。因此，由码本生成部12生成的码本240如图9所示，与各子矢量群230对应的簇数不相同。换句话说，生成M个子矢量群230中的至少一个子矢量群230所对应的簇数与其他子矢量群230所对应的簇数不同的码本240。

转换部13通过使用了由码本生成部12生成的码本240的直积量化，将特征矢量集合200所含的N个特征矢量210分别转换为压缩码250，输出由N个压缩码250构成的压缩码集合260。通过使用了码本生成部12所生成的上述的码本240的直积量化，能够高效地将特征矢量集合200所含的N个特征矢量210量化。此外，转换部13将特征矢量210转换为压缩码250的方法除了使用的码本240不同之外，与以往的一般的方法相同，因此省略详细的说明。

根据以上那样构成的本实施例的数据处理装置10，能够在可实际利用的计算时间内生成码本240，通过使用该码本240将特征矢量210直积量化，能够改善特征矢量210的量化效率。另外，由于特征矢量210的量化效率被改善，从而能够以较少的存储器保留大量的特征矢量210。

＜第二实施例＞

接下来，对第二实施例进行说明。本实施例相对于上述的第一实施例，附加了对成为决定量化等级的参数的簇数上限值T进行调整的功能。其他的功能与上述的第一实施例相同，因此，以下仅对本实施例特有的功能进行说明。

若考虑实际的运用，则需要有如下目标：将特征矢量集合200转换为压缩码集合260的前后的检索精度的变动率可以被允许到什么程度；或将特征矢量集合200转换为压缩码集合260时的压缩率提高到什么程度。因此，要求将针对检索精度的变动率或者压缩率的目标值设定为超参数。

这里，在将使用查询对特征矢量210进行检索的次数设为X、将检索结果为正确的数量设为Y时，检索精度由Y/X表示。另外，在将特征矢量集合200转换为压缩码集合260之前的检索精度设为Zb、将特征矢量集合200转换为压缩码集合260之后的检索精度设为Za时，检索结果的变动率由1－Za/Zb表示。另外，在将特征矢量集合200的数据大小设为x、将使压缩码集合260与码本240相加而得的数据大小设为y时，压缩率由y/x表示。

检索精度的变动率、压缩率根据直积量化的量化等级而变化。因此，在本实施例中，以使检索精度的变动率或者压缩率接近于作为超参数而设定的目标值的方式，对成为决定量化等级的参数的簇数上限值T进行调整。但是，若探索全部的簇数上限，则计算量变得庞大，因此通过后述的方法使探索高效化。

图10是表示第二实施例的数据处理装置10B的功能性的构成例的框图。本实施例的数据处理装置10B如图10所示那样是对上述的第一实施例的数据处理装置10A(参照图6)追加了参数调整部14的构成。另外，在本实施例中，作为超参数，除了设定两个簇数上限值Ta、Tb之外，还设定针对检索精度的变动率或者压缩率的目标值和探索的重复次数。

参数调整部14为了使上述的检索精度的变动率或者压缩率接近作为超参数而设定的目标值，重复进行通过后述的方法变更两个簇数上限值Ta、Tb中的某一方的操作，重复次数是作为超参数而设定的，由此探索性地决定簇数上限值T。

本实施例的数据处理装置10B分别使用作为超参数而设定的两个簇数上限值Ta、Tb，独立地进行基于与第一实施例相同的直积量化的特征矢量集合200的压缩。并且，按照簇数上限值Ta、Tb的每一个来计算上述的检索精度的变动率或者压缩率。此时的计算结果能够分类为图11所示的3个模式。参数调整部14对应这3个模式，如以下那样变更簇数上限值Ta、Tb中的某一方，并探索最佳的簇数上限值T。图11是说明簇数上限值T的探索方法的图，示出了以使压缩率接近目标值的方式探索最佳的簇数上限值T的情况下的例子。

图11(a)示出了使用簇数上限值Ta的情况下的压缩率与使用簇数上限值Tb的情况下的压缩率这两方比目标值高的情况。在该情况下，期望调整簇数上限值T以使压缩率变低。因此，参数调整部14对压缩率接近目标值的一方的簇数上限值T(在图11(a)的例子中是簇数上限值Ta)进行固定，并对另一方的簇数上限值T(在图11(a)的例子中是簇数上限值Tb)进行变更。此时，如图11(a)的例子那样，如果使用固定的簇数上限值T时的压缩率和使用变更的簇数上限值时的压缩率之间的斜率为正，则将变更的簇数上限值T变更为比固定的簇数上限值T小的值。另一方面，如果该斜率为负，则将变更的簇数上限值T变更为比固定的簇数上限值T大的值。

图11(b)示出了使用簇数上限值Ta的情况下的压缩率与使用簇数上限值Tb的情况下的压缩率这两方比目标值低的情况。在该情况下，期望调整簇数上限值T以使压缩率变高。因此，参数调整部14将压缩率接近目标值的一方的簇数上限值T(在图11(b)的例子中是簇数上限值Tb)固定，将另一方的簇数上限值T(在图11(b)的例子中是簇数上限值Ta)以增减的方向与图11(a)的例子相反的方式进行变更。即，如图11(b)的例子那样，如果使用固定的簇数上限值T时的压缩率和使用变更的簇数上限值时的压缩率之间的斜率为正，则将变更的簇数上限值T变更为比固定的簇数上限值T大的值。另一方面，如果该斜率为负，则将变更的簇数上限值T变更为比固定的簇数上限值T小的值。

图11(c)示出了在使用簇数上限值Ta的情况下的压缩率与使用簇数上限值Tb的情况下的压缩率中的一方比目标值高而另一方比目标值低的情况。在该情况下，在两个簇数上限值Ta、Tb之间存在最佳的簇数上限值T的可能性较高。因此，参数调整部14将压缩率接近目标值的一方的簇数上限值T(在图11(c)的例子中是簇数上限值Ta)固定，将另一方的簇数上限值T(在图11(c)的例子中是簇数上限值Tb)变更为两个簇数上限值Ta、Tb的中间的值。

在将检索精度的变动率设为目标值时，图11(a)、图11(b)以及图11(c)所示的3个模式所对应的处理也相同。即，在使用簇数上限值Ta的情况下的检索精度的变动率与使用簇数上限值Tb的情况下的检索精度的变动率这两方比目标值高的情况下，与图11(a)的例子相同，将簇数上限值Ta、Tb中的某一方变更，在使用簇数上限值Ta的情况下的检索精度的变动率与使用簇数上限值Tb的情况下的检索精度的变动率这两方比目标值低的情况下，与图11(b)的例子相同，将簇数上限值Ta、Tb中的某一方变更，在使用簇数上限值Ta的情况下的检索精度的变动率与使用簇数上限值Tb的情况下的检索精度的变动率中的某一方比目标值高、另一方比目标值低的情况下，与图11(c)的例子相同，将簇数上限值Ta、Tb中的某一方变更即可。

每当参数调整部14变更簇数上限值Ta、Tb中的某一方时，本实施例的数据处理装置10B使用变更后的簇数上限值T，进行基于与第一实施例相同的直积量化的特征矢量集合200的压缩，计算上述的检索精度的变动率或者压缩率。并且，重复上述的处理，直至达到作为超参数而被设定的重复次数，从而能够高效地限缩最佳的簇数上限值T。

如以上那样，在本实施例中，由于以使基于直积量化的检索精度的变动率或者压缩率接近设定的目标值的方式探索性地决定簇数上限值T，因此除了能够与上述的第一实施例相同地改善特征矢量210的量化效率之外，还可获得能够容易地进行符合目的的参数调整这一效果。

＜第三实施例＞

接下来，对第三实施例进行说明。本实施例相对于上述的第二实施例附加了如下功能：在特征矢量集合200中追加了新的特征矢量210的情况下，判断是否需要更新码本240，仅在判断为需要更新的情况下将码本240更新。其他的功能与上述的第一实施例相同，因此以下仅对本实施例特有的功能进行说明。

在实际的运用中，有时要求随时对应保留的特征矢量集合200追加新的特征矢量210。这里，若每当对特征矢量集合200追加新的特征矢量210就将码本240更新，则更新码本240将会需要很多的计算时间，并不高效。因此，在本实施例中，在对特征矢量集合200追加了新的特征矢量210的情况下，判断是否需要更新码本240。并且，在判断为需要更新的情况下，仅将码本240的必要的部分更新。

需要更新码本240的情况是指，从新的特征矢量210生成的维可变子矢量220中的至少一个未落入该维可变子矢量220所对应的簇的分散的范围的情况，换句话说，是由于新的特征矢量210的追加使得至少某个子矢量群230的某个簇的分散的范围扩大的情况。在本实施例中，在这样的情况下，将分散的范围扩大的簇作为更新的对象，对码本240的该簇的代表矢量进行更新。

图12是表示第三实施例的数据处理装置10C的功能性的构成例的框图。本实施例的数据处理装置10C如图12所示，是对上述的第一实施例的数据处理装置10A(参照图6)追加了差分查找表生成部15和码本更新部16的构成。

差分查找表生成部15生成差分查找表280。差分查找表28是对从原来的特征矢量集合200生成的M个子矢量群230分别将表示每个簇的维可变子矢量220的分散的范围的值与该簇的索引建立起对应的查找表。簇中的维可变子矢量220的分散的范围能够由该簇的代表矢量与属于该簇的维可变子矢量220之间的距离的最大值表示。因此，通过按照每个簇将该簇的代表矢量和维可变子矢量220之间的距离的最大值与索引建立对应地储存，能够生成差分查找表280。

图13是表示差分查找表280的一个例子的图。差分查找表280如图13所示，是与上述的码本240相同的形式的查找表，但与每个子矢量群230的簇的索引建立对应地储存的要素值并非该簇的代表矢量，而是成为该簇的代表矢量与维可变子矢量220之间的距离的最大值(表示该簇的分散的范围的值)。

差分查找表280例如能够在生成码本240时与码本240一并生成。即，按照每个子矢量群230将维可变子矢量220聚类并求出各簇的代表矢量之后，按照各个簇的每一个，求出该簇的代表矢量与属于该簇的各个维可变子矢量220之间的距离。并且，将求出的距离的最大值与该簇的索引建立对应，从而能够生成图13所示的那种差分查找表280。

码本更新部16在对特征矢量集合200追加了新的特征矢量210的情况下，以与上述的第一实施例相同的方法，从新的特征矢量210生成N个维可变子矢量220。并且，对于这些N个维可变子矢量220的每一个，求出该维可变子矢量220所对应的子矢量群230(从原来的特征矢量集合200生成的M个子矢量群230中的一个)的簇中的、具有距该维可变子矢量220最近的代表矢量的簇。并且，码本更新部16参照上述差分查找表280，将从新的特征矢量210生成的维可变子矢量220与簇的代表矢量之间的距离，与和该簇的索引建立对应并储存于差分查找表280的要素值进行比较，判断从新的特征矢量210生成的维可变子矢量220是否落入簇的分散的范围内。即，如果从新的特征矢量210生成的维可变子矢量220与簇的代表矢量之间的距离在差分查找表280中储存的要素值以下，则码本更新部16判断为落入分散的范围，如果从新的特征矢量210生成的维可变子矢量220与簇的代表矢量之间的距离比差分查找表280中储存的要素值大，则码本更新部16判断为未落入分散的范围。

码本更新部16对于从新的特征矢量210生成的维可变子矢量220的全部进行以上的判断，在全部的维可变子矢量220落入对应的簇的分散的范围的情况下，判断为不需要更新码本240。另一方面，在存在未落入对应的簇的分散的范围的维可变子矢量220的情况下，判断为需要更新码本240。并且，码本更新部16将由于加入了从新的特征矢量210生成的维可变子矢量220而扩大了分散的范围的簇作为更新的对象，对还包括从新的特征矢量210生成的维可变子矢量220在内的、属于该簇的维可变子矢量220进行X－means聚类。并且，以通过该X－means聚类获得的簇的质心的值，更新在码本240之中成为更新的对象的簇的代表矢量。

此时，码本更新部16在通过X－means聚类获得了多个质心的情况下，将码本240之中成为更新的对象的簇分割为多个簇。并且，按照分割后的每个簇，以其质心的值为代表矢量而与索引建立对应。其结果，码本240的索引的数量增加。

图14是说明码本更新部16进行的处理的概要的图，示出了将由维X₁与维X₂构成的二维的维可变子矢量220映射到子矢量空间的情形。这里，通过对于从原来的特征矢量集合200生成的子矢量群230进行聚类，各维可变子矢量220如图14(a)所示那样聚类为簇C1与簇C2这两个簇。

这里，考虑从新的特征矢量210生成的新的维可变子矢量220如图14(b)所示那样被映射到特征矢量空间上的情况。在该图14(b)所示的例子中，新的维可变子矢量220落入簇C2的分散的范围R＿C2内。因此，码本更新部16对于由维X₁与维X₂构成的二维的维可变子矢量220，判断为不需要由于追加新的特征矢量210而更新码本240。并且，如果对于其他维的维可变子矢量220也同样判断为不需要更新码本240，即使新的特征矢量210被追加到特征矢量集合200，码本更新部16也不会更新码本240。

接下来，考虑的情况是：新追加的特征矢量210有多个，且从这多个特征矢量210的每一个生成的维X₁与维X₂所构成的二维的维可变子矢量220如图14(c)所示那样被映射到特征矢量空间上。这里，多个新的维可变子矢量220相对于簇C1的代表矢量，更接近于簇C2的代表矢量。在该图14(c)所示的例子中，新的维可变子矢量22中的几个脱离了簇C2的分散的范围R＿C2。因此，码本更新部16将簇C2作为更新的对象。并且，将属于簇C2的原来的维可变子矢量220与新的维可变子矢量220作为对象进行X－means聚类，以通过该X－means聚类获得的质心的值更新码本240的簇C2的代表矢量。

此时，在通过X－means聚类如图14(d)所示那样获得了两个质心的情况下，换句话说是在通过X－means聚类将簇C2分割为两个簇C2a、C2b的情况下，码本更新部16将码本240的簇C2分割为两个簇C2a、C2b，将各个质心作为簇C2a、C2b的代表矢量，独立地与索引建立对应。通过以上的处理，能够高效地进行在特征矢量集合200中追加了新的特征矢量210时的、码本240的更新。

如以上那样，在本实施例中，在特征矢量集合200中追加了新的特征矢量210的情况下，判断是否需要更新码本240，仅在判断为需要更新的情况下将码本240更新，因此除了能够与上述的第一实施例相同地改善特征矢量210的量化效率之外，还可获得如下效果：能够高效地进行由于追加新的特征矢量210而引起的码本240的更新。

＜补充说明＞

上述各实施例的数据处理装置10A、10B、10C(以下，通称表述为“数据处理装置10”)作为一个例子，能够利用在使用了作为一般计算机的硬件的运行环境下运行的程序来进行安装。在该情况下，数据处理装置10中的上述的各功能性的构成要素(子矢量群生成部11、码本生成部12、转换部13、参数调整部14、差分查找表生成部15、码本更新部16)可通过硬件与软件(程序)的配合来实现。

图15是表示数据处理装置10的硬件构成例的框图。数据处理装置10例如如图15所示，能够作为利用了一般计算机的硬件构成，该利用了一般计算机的硬件构成具备CPU(Central Processing Unit：中央处理单元)101等处理器电路、ROM(Read Only Memory：只读存储器)102或RAM(Random Access Memory：随机存储器)103等存储装置、连接有显示面板或各种操作设备的输入输出I/F104、连接于网络而进行通信的通信I/F105、将各部连接的总线106等。

另外，在上述构成的硬件上执行的程序例如以可安装的形式或者可执行的形式的文件，记录于CD－ROM(Compact Disk Read Only Memory：光盘只读存储器)、软盘(FD)、CD－R(Compact Disk Recordable：可记录光盘)、DVD(Digital Versatile Disc：数字通用光盘)等计算机能够读取的记录介质中而作为计算机程序产品来提供。另外，也可以构成为，将在上述构成的硬件上执行的程序储存在与因特网等网络连接的计算机上，并经由网络下载来提供。另外，也可以构成为，将在上述构成的硬件上执行的程序经由因特网等网络提供或者发布。另外，也可以构成为，将在上述构成的硬件上执行的程序预先装入ROM102等来提供。

在上述构成的硬件上执行的程序成为包含数据处理装置10的各功能的构成要素的模块结构，例如，CPU101(处理器电路)将程序从上述记录介质读出并执行，由此上述各部被加载到RAM103(主存储)上，并在RAM103(主存储)上生成。此外，数据处理装置10的各功能性的构成要素也可以是跨越多个计算机来实现的构成。另外，也能够使用ASIC(Application Specific Integrated Circuit：专用集成电路)、FPGA(Field-Programmable Gate Array：现场可编程门阵列)等专用硬件来实现上述的功能性的构成要素的一部分或者全部。

根据以上叙述的至少一个实施方式，能够高效地将特征矢量量化。

虽然对本发明的实施方式进行了说明，但这里说明的实施方式是作为例子提出的，并非旨在限定发明的保护范围。这里说明的新的实施方式能够以其他各种方式实施，在不偏离发明宗旨的范围内，可以进行各种省略、替换、变更。这里说明的实施方式及其变形包含在发明的保护范围及主旨中，并且，包含在权利要求书所记载的发明和其等同的保护范围内。

Claims

1.一种数据处理装置，具备：

子矢量群生成部，从由N个D维特征矢量构成的特征矢量集合生成M个子矢量群，上述M个子矢量群分别包括从上述N个D维特征矢量的每一个获得的N个维可变子矢量，上述N个维可变子矢量分别将从上述D维特征矢量提取的1以上的维的值作为元素，上述M个子矢量群中的至少一个子矢量群中的上述维可变子矢量的元素的数量与其他子矢量群中的上述维可变子矢量的元素的数量不同，其中，M＜D；

码本生成部，按照上述M个子矢量群的每一个，对上述N个维可变子矢量进行聚类，生成将各簇的代表矢量与索引建立起对应的码本；以及

转换部，通过使用了上述码本的直积量化，将上述N个D维特征矢量分别转换为由M个索引的组合构成的压缩码，

上述子矢量群生成部以使上述M个子矢量群彼此之间上述维可变子矢量的分散的程度变近的方式，生成上述M个子矢量群。

2.如权利要求1所述的数据处理装置，其中，

上述码本生成部按照上述M个子矢量群的每一个，基于推断的子矢量群的最佳簇数对上述N个维可变子矢量进行聚类，生成上述M个子矢量群中的至少一个子矢量群所对应的簇数与其他子矢量群所对应的簇数不同的上述码本。

3.如权利要求1所述的数据处理装置，其中，

上述子矢量群生成部对于上述N个D维特征矢量的各维，求出最佳簇数C，将最佳簇数C相同的维进行分组，对于由GC表示的子矢量群的最佳簇数超过簇数上限值T的组，对组进行分割直至GC≤T或者G＝1为止，由此从上述特征矢量集合生成上述M个子矢量群，其中，G是属于组的维的数量。

4.如权利要求3所述的数据处理装置，其中，

还具备参数调整部，该参数调整部探索性地决定上述簇数上限值T，使得在上述N个D维特征矢量被分别转换为上述压缩码的前后的检索精度的变动率或者上述N个D维特征矢量被分别转换为上述压缩码时的压缩率接近所设定的目标值。

5.如权利要求1至4中任一项所述的数据处理装置，其中，还具备：

差分查找表生成部，对于上述M个子矢量群的每一个，生成将表示每个上述簇的上述维可变子矢量的分散的范围的值与上述索引建立起对应的差分查找表；以及

码本更新部，在上述特征矢量集合中追加了新的特征矢量的情况下，求出从新的特征矢量生成的维可变子矢量各自的簇，参照上述差分查找表，判断从新的特征矢量生成的维可变子矢量是否全部落入对应的簇的分散的范围，在有未落入对应的簇的分散的范围的维可变子矢量时，对上述码本的该簇的代表矢量进行更新。

6.如权利要求5所述的数据处理装置，其中，

上述码本更新部将成为更新的对象的簇分割为多个簇，按照分割后的每个簇，将代表矢量与索引建立对应。

7.一种数据处理方法，其中，

从由N个D维特征矢量构成的特征矢量集合生成M个子矢量群，其中，M＜D，

上述M个子矢量群分别包括从上述N个D维特征矢量的每一个获得的N个维可变子矢量，上述N个维可变子矢量分别将从上述D维特征矢量提取的1以上的维的值作为元素，上述M个子矢量群中的至少一个子矢量群中的上述维可变子矢量的元素的数量与其他子矢量群中的上述维可变子矢量的元素的数量不同，以使上述M个子矢量群彼此之间上述维可变子矢量的分散的程度变近的方式，生成上述M个子矢量群，

按照上述M个子矢量群的每一个，对上述N个维可变子矢量进行聚类，生成将各簇的代表矢量与索引建立起对应的码本，

通过使用了上述码本的直积量化，将上述N个D维特征矢量的每一个转换为由M个索引的组合构成的压缩码。

8.一种记录介质，记录有用于使计算机执行以下步骤的程序：