CN1552042A

CN1552042A - 近似性计算方法和设备

Info

Publication number: CN1552042A
Application number: CNA038009765A
Authority: CN
Inventors: 安部素嗣; ֮; 西口正之
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-07-09
Filing date: 2003-06-26
Publication date: 2004-12-01
Anticipated expiration: 2023-06-26
Also published as: KR101021044B1; JP4623920B2; EP1521210A1; CN1324509C; EP1521210A4; US7260488B2; JP2004046370A; US20050033523A1; DE60330147D1; WO2004006185A1; EP1521210B9; EP1521210B1; KR20050016278A

Abstract

在近似性向量检测设备(2)中，向量变换器(20)、(21)通过顺序矩阵、离散余弦变换、离散傅立叶变换、Walsh－Hadamard变换、或Karhunen－Lueve变换而对登记向量g和输入向量f进行变换。分级距离计算单元(23)按照从具有高有效位的向量分量，即在上述变换操作中具有大离差或唯一值的分量的顺序，或按照从低频分量的顺序，执行两个向量之间的距离计算。而且，当阈值判断部分(24)判断直至某一级所计算的距离的积分值高于距离的阈值S时，仅通过输出表示该积分值高于该阈值S的事实，以中断该距离计算。

Description

近似性计算方法和设备

技术领域

本发明涉及一种近似计算方法、近似计算设备、高速执行两个向量之间的模式(pattern)匹配的程序和记录介质。

本申请要求2002年7月9日提交的日本专利申请号2002-200481的优先权，这里通过引用而并入全文。

背景技术

到目前为止，为了从未知信号中检测与已知模式基本相同的模式，或为了估计两个信号之间的近似性，在与信号处理相关的所有技术领域，例如声学处理技术、图像处理技术、通信技术、和/或雷达技术等中，进行了对于数据近似性或一致性的判断。一般来说，对于模拟数据的检测，使用了一种技术，即允许数据成为特征向量，以通过其距离或角度(相关性)的大小而判断近似性。

具体说，所谓全搜索就是确定输入值和各候选者之间的近似性以随后确定距离最近的数据，全搜索是最简单且没有检测泄漏的技术，并且当数据量小时频繁使用所谓全搜索。然而，例如在从大量积累图像或语音(声音)中检索与输入图像或输入语音(声音)相似的部分的情况下，由于每秒钟的特征向量的维数大，并且对已经过几十或几百小时积累的特征向量进行检索，所以存在当执行这样的简单全搜索时检索时间变长的问题。

另一方面，为了检索大量数据，在进行编码数据的完全一致检索，例如文档检索的情况下，使用例如二叉树搜索或散列方法的高速运算技术。根据该技术，数据按顺序排放的状态被预先存储，以省略检索时比较与输入数据不同的分枝或表，从而实现高速运算。然而，在物理信号，例如图像或声音等，用作主体的情况下，由于在数据中本质上存在失真和/或噪音，所以编码数据很少彼此完全一致。结果，在使用高速运算技术的情况下，将发生大量检测泄漏。另外，由于数据本质上是多维的，所以存在很难实现预先对数据单意排序的问题。

考虑到以上情况，在日本专利公开号H08-123460中提出了一种技术，其中在数据登记时执行对距离近的多个向量分组以用一个代表性向量代表所分组的向量的处理，以在检索时第一次计算输入向量和代表性向量之间的距离，以仅对于该组中距离近的向量进行组内所有向量的比较，从而允许以高速执行近似(类似)向量检索，并具有用多维反映向量失真的能力。

而且，在日本专利公开号2001-134573中提出了一种技术，其中对向量编码以用短码索引它们，从而抑制距离计算次数的增加，以允许高速近似(类似)数据检索。

然而，在上述日本专利公开号H08-123460描述的技术中，存在以下问题，即在登记时需要对代表性向量的合适分组和选择，从而登记操作变得麻烦。而且，还存在问题，即因为在检索时不限制，例如与输入向量距离最近的登记向量属于与输入向量距离最近的代表性向量所代表的组，所以确定将要检索的组的操作变得麻烦。

而且，在上述日本专利公开号2001-134573描述的技术中，存在以下问题，即当执行编码时丢失了向量之间的距离关系，或导致非添加或非单调方式的复杂的距离关系，使得登记和/或检索机构变得麻烦。

这里，由于图像和/或声音实质上是时序的，所以需要基于实时进行登记，并需要在检索时反映出时间顺序。换言之，存在这种技术的例子，即在上述日本专利公开号H08-123460和日本专利公开号2001-134573描述的技术不适于时序数据的检索的情况下，需要登记操作以交换时序，和/或需要对在登记时已登记数据的数据或索引进行再分配(改组)。

也就是说，需要这样的机构，能以远远短于全搜索的时间执行检索，同时满足以下条件：

(a)不丢失关于全搜索失真的结构简单性和鲁棒性，

(b)实时进行登记和/或删除，和

(c)登记或删除不需要对于其他已登记数据的操作。

发明内容

考虑到这样的传统实际情况而提出了本发明，并且其目的是提供当满足上述条件时，以高速执行两个向量之间的模式匹配的一种近似性计算方法和一种近似性计算设备，以及允许计算机执行该近似性计算处理的程序、和记录有该程序的计算机可读记录介质。

为了达到上述目的，根据本发明的近似性计算方法针对一种确定两个输入向量之间的近似性的近似性计算方法，并包括：分级距离计算步骤，用于以分级方式执行所述两个输入向量之间的距离计算；阈值比较步骤，用于将在该分级距离计算步骤的各级所计算的距离的积分值与预先设置的阈值进行比较；控制步骤，用于根据该阈值比较步骤的比较结果而控制在该分级距离计算步骤的距离计算；和输出步骤，用于输出直至最后一级计算的距离的积分值作为该近似性，其中，在该控制步骤，在阈值比较步骤中直至某一级所计算的距离的积分值高于该阈值的情况下，进行控制使得舍位该距离计算。

在该近似性计算方法中，以分级方式执行两个向量之间的距离计算，从而在直至某一级所计算的距离的积分值高于预定阈值的情况下，仅检测距离的积分值高于该阈值而不计算实际距离，以从而允许以高速执行操作。

而且，该近似性计算方法还包括变换步骤，用于对所述两个输入向量进行预定变换操作。在这种情况下，在该分级距离计算步骤，基于预定变换操作、按照预定次序执行在该变换步骤所变换的两个输入向量之间的距离计算。这里，该预定变换操作是例如根据各分量的离差幅度对构成输入向量的各分量的次序执行排序的变换、离散余弦变换、离散傅立叶变换、Walsh-Hadamard变换或Karhunen-Lueve变换。

而且，该近似性计算方法可包括分离步骤，用于以预定次序取出构成在该变换步骤所变换的两个输入向量的各分量，以将它们分离为分级的多个局部向量。在这种情况下，在该分级距离计算步骤，按照从最高级的局部向量的次序、以分级方式执行构成局部向量的各分量之间的距离计算，从而在构成直至某一级的局部向量的所有分量之间的计算距离的积分值低于该阈值的情况下，执行构成较低一级的局部向量的各分量之间的距离计算。

而且，为了达到上述目的，根据本发明的近似性计算设备针对一种确定两个输入向量之间的近似性的近似性计算设备，并包括：分级距离计算装置，用于以分级方式执行所述两个输入向量之间的距离计算；阈值比较装置，用于将该分级距离计算装置在各级所计算的距离的积分值与预先设置的阈值进行比较；控制装置，用于根据该阈值比较装置的比较结果而控制该分级距离计算装置的距离计算；和输出装置，用于输出直至最后一级所计算的距离的积分值作为该近似性，其中该控制装置进行控制，使得在该阈值比较装置的比较结果是直至某一级所计算的距离的积分值高于该阈值的情况下，中断(舍位)距离计算。

该近似计算设备以分级方式执行两个向量之间的距离计算，从而在直至某一级所计算的距离的积分值高于预定阈值的情况下，仅检测距离的积分值是该阈值或更大而不计算实际距离，以从而允许以高速进行操作。

而且，该近似性计算设备还包括变换装置，用于对所述两个输入向量进行预定变换操作。在这种情况下，该分级距离计算装置基于预定变换操作、按照预定次序执行由该变换装置所变换的两个输入向量之间的距离计算。这里，该预定变换操作是例如根据各分量的离差幅度对构成输入向量的各分量的次序执行排序的变换、离散余弦变换、离散傅立叶变换、Walsh-Hadamard变换或Karhunen-Lueve变换。

而且，该近似性计算设备可包括分离装置，用于以预定次序取出构成由该变换装置所变换的两个输入向量的各分量，以将它们分离为分级的多个局部向量。在这种情况下，该分级距离计算装置按照从最高级的局部向量的次序、以分级方式执行构成局部向量的各分量之间的距离计算，从而在构成直至某一级的局部向量的所有分量之间所计算的计算距离的积分值低于该阈值的情况下，执行构成较低一级的局部向量的各分量之间的距离计算。

另外，根据本发明的程序允许计算机执行上述近似性计算处理，而根据本发明的记录介质是记录有该程序的计算机可读记录介质。

通过对下面给出的实施例的描述，本发明的其他目的和本发明获得的实际优点将变得更加清楚。

附图说明

图1是用于解释第一实施例的近似向量检测设备的配置的轮廓的视图。

图2是解释该近似向量检测设备中向量登记时的处理的流程图。

图3是解释该近似向量检测设备中向量检索时的处理的流程图。

图4是直观解释第一实施例中的处理的视图。

图5是示出了特征空间内的向量分布存在偏离的例子的视图。

图6是用于解释第二实施例中近似向量检测设备的配置的轮廓的视图。

图7是解释该近似向量检测设备中向量登记时的处理的流程图。

图8是解释该近似向量检测设备中向量检索时的处理的流程图。

图9是用于解释第三实施例中近似向量检测设备的配置的轮廓的视图。

图10是解释该近似向量检测设备中向量登记时的处理的流程图。

图11是解释该近似向量检测设备中向量检索时的处理的流程图。

图12是解释用于从声学信号中提取声学特征向量处理的例子的流程图。

图13是解释用于从声学信号中提取声学特征向量的处理的例子的视图。

图14是解释声学信号的变换编码的视图。

图15是解释用于从编码的声学信号中提取声学特征向量的处理的例子的流程图。

图16是解释用于从编码的声学信号中提取声学特征向量的处理的例子的视图。

图17是解释用于从视频信号中提取图像特征向量的处理的一个例子的流程图。

图18是解释用于从视频信号中提取图像特征向量的处理的一个例子的视图。

图19是解释用于从视频信号中提取图像特征向量的处理的另一个例子的流程图。

图20是解释用于从视频信号中提取图像特征向量的处理的另一个例子的视图。

图21是解释用于从编码的视频信号中提取图像特征向量的处理的另一个例子的流程图。

图22是解释用于从编码的视频信号中提取图像特征向量的处理的另一个例子的视图。

具体实施方式

下面将参考附图结合应用本发明的实际实施例而给出详细解释。在该实施例中，本发明应用了一种近似向量检测方法及其设备，用于以高速从多个登记向量中检测与输入向量相似的向量。

具体说，在该实施例的近似向量检测方法及其设备中，在计算两个向量之间的距离时，采用了一种方案，当对应距离低于预定阈值时计算距离，而当对应距离高于该预定值时仅检测对应距离大于阈值而无需计算实际距离，从而允许以高速进行近似向量检测的操作。应注意在该实施例的近似向量检测设备中，在距离大于阈值的情况下，为方便起见，假设将输出-1。

以下，由下列公式表示用于计算距离的两个向量f和g。

f＝(f[1]，f[2]，...，f[N])^t …(1)

g＝(g[1]，g[2]，...，g[N])^t …(2)

这里，在公式(1)中，f[1]，f[2]，...表示向量f的各分量。在公式(2)中，g[1]，g[2]，...表示向量g的各分量。另外，t表示移项，而N表示向量的维数。

(1)第一实施例

图1示出了第一实施例中近似向量检测设备的配置的略图。如图1所示，该近似向量检测设备1用于输入向量f和向量g，并输出向量(或-1)之间的平方距离，并且该近似向量检测设备1由记录单元10、分级距离计算单元11、和阈值判断单元12组成。

将通过利用图2的流程图解释在该近似向量检测设备1中的登记时的处理。首先，在步骤S1，记录单元10(图1)预先输入登记的向量g。一般来说，向量g是复数，并在很多情况下将变为特别大的数。而且，在接下来的步骤S2，记录单元10记录输入的向量g。

如上所述，在该第一实施例中，由于在登记时不必要进行特殊的操作，所以该设备简单并适于基于实时的处理。在该例子中，该记录单元10是例如磁盘、光盘或半导体存储器等。

随后，将通过利用图3的流程图解释在该近似向量检测设备1中的检索时的处理。首先，在步骤S10，阈值判断单元12(图1)设置距离的阈值S。在随后的步骤S11，该分级距离计算单元11输入向量f，并获取在记录单元10中记录的一个向量g。

随后，在步骤S12，该分级距离计算单元11将用作内部变量的分量编号i设置为1，并将距离的积分值sum(和)设置为0。在步骤S13，在向量f的第i个分量f[i]和向量g的第i个分量g[i]之间执行如以下公式(3)所示的积分操作。

sum＝sum+(f[i]-g[i])² …(3)

在步骤S14，该阈值判断单元12辨别积分值sum是否小于阈值S。在积分值sum小于阈值S的情况下(是)，处理进行到步骤S16。在积分值sum是阈值S或更大的情况下(否)，该阈值判断单元12在步骤S15输出-1以完成处理。这里，如上所述，输出的-1是表示输入向量f和获取向量g之间的距离高于阈值S的合适数值，而向量g无效。如上所述，在积分操作的中间级，积分值sum高于该阈值S的情况下，阈值判断单元12提供阈值S并在分级距离计算单元11进行舍位(truncate)积分操作，以从而实现高速处理。

在步骤S16，辨别分量号i是否是向量f或向量g的维数N或更小。在分量号i是N或更小的情况下(是)，在步骤S17中i被递增以返回步骤S13。另一方面，在分量号i大于N的情况下(否)，因为已完成了积分操作，所以该阈值判断单元12在步骤S18输出积分值sum，直至向量f或向量g的最后一个分量，以完成处理。应注意此时的积分值sum是向量之间距离的平方。

尽管在图3的流程图中已表示了对于一个登记向量g的处理，实际上执行对于登记的所有向量g的近似处理，以输出作为与向量f相似的向量的所有向量g，其中与向量f的距离的积分值sum低于阈值S。

当直观解释上述第一实施例中的处理时，该处理对应于以下处理：仅计算关于登记的向量的精确距离，其中图4中由图中的×表示的输入向量与多个由黑圆圈表示的登记向量的距离在半径为的大球的范围内，并当每个轴的距离的积分值高于半径时，无效在该时间点不在该范围内的登记向量。

应注意尽管在上述说明中使用了向量之间的平方距离，但也可使用关于任意距离的近似技术而不限于平方距离。应注意在使用平方距离的情况下，不可能因为积分值sum相对于各分量之间的距离的积分值单调增加，而引起错误无效发生。而且，由于各分量之间的距离的总和与向量之间的距离一致，所以关于向量f和g输出与简单全搜索方法完全相同的距离，其中距离是阈值或更小，从而不可能发生错误。

而且，在这种技术的情况下，由于不必要准备会破坏时序关系的参考表等，所以可根据时序顺序进行数据的更新和/或删除，从而处理和/或管理简单。另外，也很可能根据时序顺序容易地进行检索，或指定将要检索的时序范围。

(2)第二实施例

在上述第一实施例中，设置了距离的阈值S，从而可能以高速进行与全搜索等效的检索。然而，在这种技术的情况下，由于从何处开始向量分量的检索取决于向量的排列川页序，该排列川页序导致检索速度的不同。例如在图5所示的特征空间内的向量分布存在偏离的情况下，依据f[1]轴或f[2]轴中的哪一个被首先积分，检索速度将显著改变。在这个例子中，采用首先评估f[2]轴的方法导致较小的额外积分，从而实现高速操作。

考虑到以上，在下面将描述的第二实施例中，如下列公式(4)和(5)所示，对于输入向量f和登记向量g进行普通正交变换矩阵U的相乘，以执行正交变换操作，以通过使用正交变换向量f’和g’而按照有效位的顺序进行检索，从而允许以高速进行检索。

f’＝Uf …(4)

g’＝Ug …(5)

应注意如以下公式(6)所示，普通正交变换矩阵U不改变两个向量g和f之间的平方距离d²。

d²＝‖f’-g’‖²＝‖U(f-g)‖²＝(f-g)^tU^tU(f-g)＝(f-g)^t(f-g)＝‖f-g‖² …(6)

图6中示出了第二实施例中近似向量检测设备的配置的略图。如图6所示，该近似向量检测设备2用于输入向量f和g，并输出向量之间的距离(或-1)，并且该近似向量检测设备2由向量变换单元20和21、记录单元22、分级距离计算单元23、和阈值判断单元24组成。这里，所述向量变换单元20和21分别用于实现向量g和f的近似变换操作。另外，该记录单元22是例如磁盘、光盘或半导体存储器等。

将通过利用图7的流程图解释该近似向量检测设备2中登记时的处理。首先，在步骤S20，该向量变换单元20(图6)预先输入登记的向量g。在随后的步骤S21，如上述公式(5)所示变换向量g以产生向量g’。而且，在步骤S22，该记录单元10记录变换的向量g’。

接下来，将通过利用图8的流程图解释该近似向量检测设备2中检索时的处理。首先，在步骤S30，该阈值判断单元24(图6)设置距离的阈值S。在随后的步骤S31，该向量变换单元21输入向量f，并且该分级距离计算单元23获取在该记录单元22中记录的一个向量g’。

随后，在步骤S32，该向量变换单元21如上述公式(4)所示变换向量f，以产生向量f’。

在步骤S33，该分级距离计算单元23将用作内部变量的分量号i设置为1，并将距离的积分值sum设置为0。在步骤S34，在向量f’的第i个分量f’[i]和向量g’的第i个分量g’[i]之间执行如以下公式(7)所示的积分操作。

sum＝sum+(f’[i]-g’[i])² …(7)

在步骤S35，该阈值判断单元24辨别积分值sum是否小于阈值S。在积分值sum小于阈值S的情况下(是)，处理进行到步骤S37。在积分值sum是阈值S或更大的情况下(否)，该阈值判断单元24在步骤S36输出-1以完成处理。

在步骤S37，辨别分量号i是否是向量f’和向量g’的维数N或更小。在分量号i是N或更小的情况下(是)，在步骤S38中i被递增以返回步骤S34。另一方面，在分量号i大于N的情况下(否)，因为已完成了积分操作，所以该阈值判断单元24在步骤S39输出积分值sum直至向量f’和向量g’的最后一个分量，以完成处理。应注意此时的积分值sum是向量之间距离的平方。

尽管在图8的流程图中已表示了对于一个登记向量g’的处理，实际上可采用以下方案，即执行对于登记的所有向量g’的近似处理，以输出作为与向量f’相似的向量的所有向量g’，其中与向量f’的距离的积分值sum低于阈值S。

这里，尽管各种矩阵可用作上述普通正交变换矩阵U，但下面将通过实际上的四个例子来给出解释。

(2-1)正交变换的实际例子

(2-1-1)

顺序(sequential)矩阵被称为最简单的正交变换。在该顺序矩阵中，向量分量的阶次经过简单的排序。例如，用以下公式(8)所示的形式表达八阶顺序矩阵P。

P = [\begin{matrix} 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 \end{matrix}] - - - (8)

在各向量的分量的分布与上述图5的情况不一样的情况下，很显然分量的离差越大，距离的分布越大。因此，在确定排序顺序时，最适宜预先准备采样(sample)向量g_i的足够数目(I)，以设置按以下公式(9)计算的离差向量V的幅度顺序排列的顺序矩阵。

V = Σ_{i = 1}^{I} {(g_{i} - \overset{&OverBar;}{g})}^{2}, \overset{&OverBar;}{g} = \frac{1}{I} \underset{i}{Σ} g_{i} - - - (9)

应注意在扩展各向量分量的方式不同的情况下，利用该顺序矩阵的正交变换是有效的，并由于其足够执行排序所以速度高，从而不必要进行乘/除和/或条件跳变。

(2-1-2)

在相邻分量之间的相关关系大的特征量，例如图像特征量或声学特征量中，在特征向量被视为离散信号时，能量偏离到较低频率分量。

考虑到以上，由以下公式(10)、(11)表示的离散余弦变换(DCT)和由以下公式(12)、(13)表示的离散傅里叶变换(DFT)被用作正交变换，以按照从低频率分量开始的顺序进行积分，从而可能按照从高有效位分量开始的顺序进行积分。因而，以高速进行距离计算。

D = [\begin{matrix} D_{11} & \cdot \cdot \cdot & D_{1 N} \\ \cdot_{\cdot}^{\cdot} & \cdot \cdot \cdot & \cdot_{\cdot}^{\cdot} \\ D_{N 1} & \cdot \cdot \cdot & D_{NN} \end{matrix}] - - - (10)

F = [\begin{matrix} F_{11} & \cdot \cdot \cdot & F_{1 N} \\ \cdot_{\cdot}^{\cdot} & \cdot \cdot \cdot & \cdot_{\cdot}^{\cdot} \\ F_{N 1} & \cdot \cdot \cdot & F_{NN} \end{matrix}] - - - (12)

这里，由于高速变换方法可用于离散余弦变换或离散傅里叶变换，并由于不必要保持所有变换矩阵，所以在计算机实现操作的情况下，与执行所有矩阵计算的情况相比，存储器使用量和/或操作速度很有利。

(2-1-3)

Walsh-Hadamard(沃尔什-哈德玛德)变换是仅由±1构成变换矩阵的各元素的正交变换，并因为在变换时不需要乘法，所以适于高速变换。这里，将顺序用作与频率相近的概念，并按照从低频开始的阶次排列分量，从而可实现高速的向量距离计算，其中相邻分量之间的相关关系与上述离散余弦变换或离散傅里叶变换很近似。

根据傅里叶变换矩阵的代码组成该Walsh-Hadmard变换矩阵，或由矩阵的递归扩展操作组成该Walsh-Hadmard变换矩阵。作为一个例子，以下公式(14)示出了按顺序的阶次排列的八阶Walsh-Hadmard变换矩阵W。

W = \frac{1}{\sqrt{8}} [\begin{matrix} 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 & - 1 & - 1 & - 1 & - 1 \\ 1 & 1 & - 1 & - 1 & - 1 & - 1 & 1 & 1 \\ 1 & 1 & - 1 & - 1 & 1 & 1 & - 1 & - 1 \\ 1 & - 1 & - 1 & 1 & 1 & - 1 & - 1 & 1 \\ 1 & - 1 & - 1 & 1 & - 1 & 1 & 1 & - 1 \\ 1 & - 1 & 1 & - 1 & - 1 & 1 & - 1 & 1 \\ 1 & - 1 & 1 & - 1 & 1 & - 1 & 1 & - 1 \end{matrix}] - - - (14)

(2-1-4)

在预先收集足够数目采样向量，且变换操作需要一定数量成本的情况下，将Karhunen-Loeve(卡胡恩-劳亦夫)变换(以下称为KL变换)用作正交变换是有效的。

该KL变换矩阵T是本征矩阵，其中采样向量的离差矩阵V分解为本征值，并在本征值假设为λ₁，...λ_N的情况下，被定义为如以下公式(15)所示。

V＝T^tΛT，Λ＝diag{λ₁，λ₂，...，λ_N} …(15)

这里，该KL变换是完全去除各个分量之间的相关关系的正交变换矩阵，并且变换向量分量的离差导致本征值λ_i。因此构成该KL变换矩阵T使得按幅度的阶次安排本征值λ_i，以从而积分所有分量，去除重叠信息，此后具有执行到离差最大的轴的距离的积分的能力。

应注意在利用该KL变换的技术中，由于操作时原则上必须保持整个维数上的KL变换矩阵T，并由于必须对于所有变量执行所有阶次的矩阵操作，所以操作成本高。然而，由于在登记时执行该操作，所以不能说需要高速的检索处理所需的时间显著增加了。

另外，尽管伴随了精度的轻微降级，但采用了一种方案，仅提取具有大本征值的向量分量，以保持它们而不保持具有小本征值的向量分量，以从而压缩向量本身，也因此可能降低记录单元22的存储区域和/或数据读入时间(图6)。

(3)第三实施例

尽管上述第一和第二实施例中距离计算的高速实现可以高速进行检索操作，但从记录单元，例如硬盘等的数据读入时间也导致执行检索中的大开销。

这里，上述第二实施例中的KL变换对应于多元分析领域中称为主分量分析的分析方法，并且该KL变换是提取组成向量的主分量的操作。考虑到以上，在下面将解释的第三实施例中，将第二实施例中获得的变换向量g’的主分量记录为索引向量g₁，并将剩余分量记录为细节分量g₂。在检索时，仅在结果小于阈值S的情况下，首先执行关于索引向量g₁的距离计算以获取细节分量g₂，以进一步执行距离计算，从而可能缩短数据读入时间。

图9中示出了第三实施例中近似向量检测设备的配置的略图。如图9所示，该近似向量检测设备3输入向量f和向量g，并输出向量之间的平方距离(或-1)，并且该近似向量检测设备3由向量变换单元30和31、索引记录单元32、细节记录单元33、分级距离计算单元34、和阈值判断单元35组成。这里，所述向量变换单元30和31对向量g和f分别执行与上述第二实施例相似的变换操作。另外，所述索引记录单元32和细节记录单元33是例如磁盘、光盘或半导体存储器等。

将通过利用图10的流程图解释在该近似向量检测设备3中的登记时的处理。首先，在步骤S40，向量变换单元30(图9)预先输入登记的向量g。在接下来的步骤S41，按上述公式(5)所示变换向量g以产生向量g’。而且，该向量变换单元30将其分为具有预定数目M(1≤M≤N)个分量的索引向量g₁和具有剩余分量的细节向量g₂，所述剩余分量按照具有小分量号的分量的顺序，即具有上述变换操作中的大离差或本征值的分量或低频分量。而且，在步骤S42，该索引记录单元32记录索引向量g₁。在步骤S43，该细节记录单元33记录细节向量g₂。

接下来，将通过利用图11的流程图解释在该近似向量检测设备3中的检索时的处理。首先，在步骤S50，该阈值判断单元35(图9)设置距离的阈值S。在随后的步骤S51，该向量变换单元31输入向量f，而该分级距离计算单元34获取在索引记录单元32中记录的一个索引向量g₁。

随后，在步骤S52，该向量变换单元31按上述公式(4)所示变换向量f以产生向量f’。而且，该向量变换单元31将其分为具有预定数目M(1≤M≤N)个分量的索引向量f₁和具有剩余分量的细节向量f₂，所述剩余分量按照具有小分量号的分量的顺序。

在步骤S53，该分级距离计算单元34将用作内部变量的分量号i设置为1，并将距离的积分值sum设置为0。在步骤S54，在向量f’的第i个分量f’[i]和向量g’的第i个分量g’[i]之间执行如以下公式(16)所示的积分操作。

sum＝sum(f’[i]-g’[i])² …(16)

在步骤S55，该阈值判断单元35辨别积分值sum是否小于阈值S。在积分值sum小于阈值S的情况下(是)，处理进行到步骤S57。在积分值sum是阈值S或更大的情况下(否)，该阈值判断单元35在步骤S56输出-1以完成处理。这里，如上所述，输出的-1是表示距离高于阈值使得其为零的合适数值。

在步骤S57，辨别分量号i是否是索引向量f₁和索引向量g₁的维数M或更小。在分量号i是M或更小的情况下(是)，在步骤S58中i被递增以返回步骤S54。另一方面，在分量号i大于M的情况下(否)，该分级距离计算单元34获取在该细节记录单元33中记录的一个细节向量g₂。

在步骤S60，该分级距离计算单元34在向量f’的第i个分量f’[i]和向量g’的第i个分量g’[i]之间执行如上述公式(16)所示的积分操作。

在步骤S61，该阈值判断单元35辨别积分值sum是否小于阈值S。在积分值sum小于阈值S的情况下(是)，处理进行到步骤S63。在积分值sum是阈值S或更大的情况下(否)，该阈值判断单元35在步骤S62输出-1以完成处理。

在步骤S63，辨别分量号i是否是向量f’或向量g’的维数N或更小。在分量号i是N或更小的情况下(是)，在步骤S64中i被递增以返回步骤S60。另一方面，在分量号i大于N的情况下(否)，因为已完成了积分操作，所以该阈值判断单元35在步骤S65输出积分值sum，直至向量g’的最后一个分量，以完成处理。应注意此时的积分值sum导致向量之间距离的平方。

尽管在图11的流程图中已表示了对于一个登记向量g’的处理，实际上执行对于登记的所有向量g’的近似处理，以输出作为与向量f’相似的向量的所有向量g’，其中与向量f’的距离的积分值sum低于阈值S。

在上述第三实施例中，与第一和第二实施例相比，存储容量和/或精度没有改变，而操作速度几乎未改变。然而，在索引向量g₁的阶段大多数比较被无效使得不必获取细节向量g₂的情况下，消除了数据存取的开销。

尽管在上述解释中假设向量被分为索引向量和细节向量两阶段，但问题是可对多阶段作出扩展，例如索引向量还被近似分为高阶的索引向量和细节索引向量，从而提供了三级配置。

(4)提取特征向量

下面将给出关于从声学信号或视频信号中提取特征向量的解释。以下述方式，提取声学特征向量和/或图像特征向量以将它们用作上述向量f和g，从而可能在输入声学信号或视频信号的情况下，通过利用上述第一到第三实施例的技术以高速从登记的声学信号或视频信号中检索近似的声学或视频信号。

(4-1)声学特征向量的提取

(4-1-1)

将通过结合将功率谱系数用作与声学信号相关的特征量的例子、并利用图12和13的流程图给出解释。首先，在步骤S70，如图13所示，从目标时间周期内的声学信号获取关于每一时间周期T的声学信号。

随后，在步骤S71，对获取的声学信号实现频谱操作，例如高速傅立叶变换，以确定关于每一短时间周期的功率谱系数Sq(q＝0，1，...，Q-1)。这里，q是代表离散频率的索引，而Q是最大离散频率。

随后，在步骤S72，辨别是否完成了目标时间周期内的计算。在完成该计算的情况下(是)，处理进行到步骤S73。在没有完成该计算的情况下(否)，处理进行到步骤S70。

在步骤S73，计算确定的功率谱系数Sq的平均频谱S’q。在步骤S74，将该平均频谱S’q改变为向量以产生声学特征向量a。由例如以下公式(17)代表该声学特征向量a。

a＝(S0，...，S_Q-1) …(17)

应注意尽管在上述例子中给出解释的前提是将目标时间周期内的声学信号分成每一时间周期T，但在目标时间周期短的情况下，可实现频谱操作而无须分成每一时间周期T。

另外，尽管已在上述例子中解释了利用功率谱系数的例子，但本发明不限于这种实现，而也可以使用具有等同信息的倒频谱系数等。而且，代替傅立叶变换，通过利用AR(自动-回归)模型的线性预测系数也可获得相似效果。

(4-1-2)

由于该声学信号很大，所以存在很多例子，即这类信号在压缩编码之后被记录或经历发送。尽管可能在将编码的声学信号解码为基带信号后利用上述技术提取声学特征向量a，但如果只能通过部分解码提取声学特征向量a，则可以高速有效地进行提取处理。

这里，在作为通常使用的编码方法的变换编码中，如图14所示，将用作原始声音的声学信号分成关于每一时间周期T的许多帧。而且，对每一帧的声学信号进行例如修改离散余弦变换(MDCT)的正交变换等，并量化和编码其系数。在该例子中，对于每一频带提取用作幅度的标准化系数的比例因子，并单独编码该比例因子。考虑到以上，通过仅解码所述比例因子，它们可被用作声学特征向量a。

将通过结合将比例因子用作与声学信号相关的特征量的例子并利用图15和16的流程图给出解释。首先，在步骤S80，获取目标时间周期的时间周期T内的编码声学信号。在步骤S81，部分解码每一帧的比例因子。

随后，在步骤S82，辨别是否已完成目标时间周期内的解码。在完成了该解码的情况下(是)，处理进行到步骤S83。在没有完成该解码的情况下(否)，处理返回到步骤S80。

在步骤S83，对于每一频带从目标时间周期内的比例因子中检测最大比例因子。在步骤S84，这些比例因子被改变为向量以产生声学特征向量a。

以这种方式，可能以高速提取与以上等同的声学特征向量a，而无须完全解码编码的声学信号。

(4-2)图像特征向量的提取

(4-2-1)

将通过结合将亮度信息和颜色信息用作与视频信号相关的特征量的例子并利用图17和18的流程图给出解释。首先，在步骤S90，如图18所示，在目标时间周期T内从视频信号获取图像帧。

随后，在步骤S91，基于获取的全部图像帧而准备时间平均图像100。

随后，在步骤S92，沿宽度和广度方向将准备的时间平均图像100分成X×Y个小块，以准备其中平均了各块内的像素值的块平均图像110。

而且，在步骤S93，按R、G、B的顺序排列这些小块，例如从左上方向到右下方向，以产生一维图像特征向量v。由例如以下公式(18)代表该图像特征向量v。

v＝(R₀₀，...，R_X-1，Y-1，G₀₀，...，G_X-1，Y-1，B₀₀，...，B_X-1，Y-1) …(18)

应注意已结合了重新排列分割时间平均图像100的块平均图像110的像素值、以产生一维图像特征向量v的例子在上述例子中给出了解释，然而，本发明不限于这样的实现，而可采用以下方案，即重新排列时间平均图像100的像素值而无需准备该块平均图像110，以产生一维图像特征向量v。

另外，由于在常态下视频信号的时间改变不太迅速，所以也可能通过采用一种方案来获得相同的效果/优点，即选择目标时间周期内的一帧作为代表性图像，而无需准备该时间平均图像100来替换它。

(4-2-2)

即使在对应视频信号不是完全相同的视频信号的情况下，仍有很多例子，即当从新闻图像的相同角度拍照的例如演播图像等的所有图像的颜色分布近似时，存在图像的某一关系。由此，需要在将这些图像认为是相同的情形下执行检索。在这一情况下，采用拒绝图像的空间依赖性的方法以准备颜色分布的直方图进行比较是有效的。

考虑到以上，将通过结合将颜色分布的直方图以这种方式用作特征量的例子并利用图19和20的流程图给出解释。首先，在步骤S100，如图20所示，从目标时间周期T内的视频信号获取图像帧。

随后，在步骤S101，根据各图像帧的信号值来准备关于例如R、G、B的各种颜色的信号值的直方图。

而且，在步骤S102，按例如R、G、B的顺序排列这些颜色，以产生一维图像特征向量v。由以下公式(19)代表该图像特征向量v。

v＝(R₀，...，R_N-1，G₀，...，G_N-1，B₀，...，B_N-1) …(19)

应注意尽管在准备了R、G、B的信号值的直方图的前提下，在上述例子中已给出了解释，然而，即使在准备了亮度(Y)和色差(Cb，Cr)的信号值的直方图的情况下，也可能获得相似的效果/优点。

(4-2-3)

由于视频信号很大，所以存在很多例子，即这类信号在压缩编码之后被记录或经历发送。尽管可能在采用将编码的视频信号解码为基带信号的方案之后利用上述技术提取图像特征向量v，但如果仅通过部分解码提取图像特征向量v，也可以高速有效地进行提取处理。

将结合通过MPEG1(活动图像专家组1)或MPEG2从压缩编码的视频信号中提取图像特征向量v的例子并利用图21和22的流程图给出解释。首先，在步骤S110，获取将被改变为向量的、与目标时间周期T最近的编码组(画面组：GOP)的编码视频信号，以获取该GOP内的帧内编码画面(I画面)。

这里，用宏块MB(16×16像素，或8×8像素)作为单位对帧图像进行编码，并使用离散余弦变换(DCT)。这些DC变换的DC系数对应于宏块内图像的像素值的平均值。

考虑到以上，在步骤S111，获取这些DC系数。在随后的步骤S112，按例如Y、Cb、Cr的顺序安排这些系数，以产生一维图像特征向量v。由例如以下公式(20)代表该图像特征向量v。

v＝(Y₀₀，...，Y_X-1，Y-1，Cb₀₀，...，Cb_X-1，Y-1，Cr₀₀，...，Cr_X-1，Y-1) …(20)

以这种方式，可能以高速提取图像特征向量v而无需完全解码编码的视频信号。

应注意尽管已在假设使用由MPEG1或MPEG2压缩编码的视频信号的上述例子中给出了解释，然而，本发明也可应用到其他压缩编码系统。

(5)其他

如上所述，根据该实施例，当距离的积分值高于预先设置的距离的阈值时，基于向量之间的距离对检测类似(近似)向量执行分级距离积分操作，以舍位距离积分操作，从而可能以高速检测近似向量。具体说，在从大量登记向量中检测与输入向量近似的向量的情况下，由于多数登记向量不近似，使得距离的积分值高于阈值，因此可在早期阶段舍位该距离计算。由此，可最大程度缩短检测时间。

另外，通过预先对向量实行顺序变换、离散余弦变换、离散傅立叶变换、Walsh-Hadamard变换或KL变换，以按照从具有高有效位的向量分量，即在上述变换操作中具有大离差或本征值的分量，的顺序，或按照从低频分量的顺序，执行积分操作，则可能考虑到向量分量的分布而有效高速地检测近似向量。

因此，也在执行声学信号或视频信号的检索时，预先提取声学特征向量和/或图像特征向量以登记由此提取的向量，从而在输入任意声学信号或视频信号的情况下，可以高速检索近似声学或视频信号，并同时保持与全搜索近似的结构简单性和/或检索精度。

尽管已根据在附图中示出的和在以上说明中详细描述的特定实施例描述了本发明，但本领域普通技术人员应明白本发明不限于这些实施例，在不脱离所附权利要求限定的本发明的范围和精神的情况下，可实现各种修改、替换实施例或等同方式。

例如，尽管在上述实施例中将本发明解释为硬件配置，但本发明不限于这种实现实现，通过允许CPU(中央处理单元)执行计算机程序也可实现任意处理。在这种情况下，计算机程序可记录在记录介质上，或通过例如因特网的其他传输介质而经受传输。

工业实用性

根据上述本发明，采用了以分级方式执行两个向量之间的距离计算的方案，从而在最高至某一等级所计算的距离的积分值高于预定阈值的情况下，仅检测距离的积分值是阈值或更大，而无需计算实际距离，从而允许以高速进行操作。具体说，在从大量登记向量中检测与输入向量近似的向量的情况下，由于大多数登记向量不近似，并由此距离的积分值高于阈值，所以可在早期阶段对距离计算进行舍位。所以，可最大程度缩短检测时间。

Claims

1.一种确定两个输入向量之间的近似性的近似性计算方法，包括：

分级距离计算步骤，用于以分级方式执行所述两个输入向量之间的距离计算，

阈值比较步骤，用于将在该分级距离计算步骤的各级所计算的距离的积分值与预先设置的阈值进行比较，

控制步骤，用于根据该阈值比较步骤的比较结果而控制在该分级距离计算步骤的距离计算，和

输出步骤，用于输出直至最后一级的计算距离的积分值，作为该近似性，

其中，在该控制步骤进行控制，使得在直至某一级别所计算的距离的积分值高于阈值的情况下，对该距离计算进行舍位。

2.根据权利要求1的近似性计算方法，其中在该分级距离计算步骤以分级方式执行构成所述两个输入向量的各分量之间的距离计算，从而在直至某一级别所计算的距离的积分值低于该阈值的情况下，执行随后分量之间的距离计算。

3.根据权利要求2的近似性计算方法，还包括变换步骤，用于对所述两个输入向量进行预定变换操作，

其中在该分级距离计算步骤，基于预定变换操作、按照预定次序执行在该变换步骤所变换的两个输入向量之间的距离计算。

4.根据权利要求3的近似性计算方法，其中该预定变换操作是根据各分量的离差幅度对构成所述两个输入向量的各分量的次序执行排序的变换操作，并且

其中在该分级距离计算步骤，按照从大离差的分量的次序执行在该变换步骤所变换的两个输入向量之间的距离计算。

5.根据权利要求3的近似性计算方法，其中该预定变换操作是离散余弦变换操作或离散傅立叶变换操作，并且

其中在该分级距离计算步骤，按照从低频分量的次序执行在该变换步骤所变换的两个输入向量之间的距离计算。

6.根据权利要求3的近似性计算方法，其中该预定变换操作是Walsh-Hadamard变换操作，并且

7.根据权利要求3的近似性计算方法，其中该预定变换操作是Karhunen-Loeve变换操作，并且

其中在该分级距离计算步骤，按照从大本征值的分量的次序执行在该变换步骤所变换的两个输入向量之间的距离计算。

8.根据权利要求3的近似性计算方法，还包括分离步骤，用于以预定次序取出构成在该变换步骤所变换的两个输入向量的各分量，以将它们分离为分级的多个局部向量，

其中在该分级距离计算步骤，按照从最高级的局部向量的次序、以分级方式执行构成局部向量的各分量之间的距离计算，从而在直至某一级构成局部向量的所有分量之间的计算距离的积分值低于该阈值的情况下，执行构成较低一级的局部向量的各分量之间的距离计算。

9.根据权利要求1的近似性计算方法，其中通过将声学信号改变为特征向量而获得该输入向量，并且

其中通过将该声学信号的预定时间周期内的功率谱系数改变为向量而获得该特征向量。

10.根据权利要求1的近似性计算方法，其中通过将声学信号改变为特征向量而获得该输入向量，并且

其中通过将该声学信号的预定时间周期内的线性预测系数改变为向量而获得该特征向量。

11.根据权利要求1的近似性计算方法，其中通过将编码的声学信号改变为特征向量而获得该输入向量，并且

其中通过将表示该编码的声学信号的各帧内的频率分量强度的参数改变为向量而获得该特征向量。

12.根据权利要求1的近似性计算方法，其中通过将视频信号改变为特征向量而获得该输入向量，并且

其中通过将该视频信号的预定时间周期内的代表图像、预定时间周期内的帧图像的平均图像、或通过基于预定块单元分离所述代表图像或平均图像而获得的小图像的信号值改变为向量而获得该特征向量。

13.根据权利要求1的近似性计算方法，其中通过将视频信号改变为特征向量而获得该输入向量，并且

其中通过将该视频信号的预定时间周期内的帧图像的亮度和/或颜色的直方图改变为向量而获得该特征向量。

14.根据权利要求1的近似性计算方法，其中通过将编码的视频信号改变为特征向量而获得该输入向量，并且

其中通过将用作与该编码的视频信号的预定时间周期相近的帧内编码图像的编码单元的各块的DC分量的信号值改变为向量而获得该特征向量。

15.一种用于确定两个输入向量之间的近似性的近似性计算设备，包括：

分级距离计算装置，用于以分级方式执行所述两个输入向量之间的距离计算，

阈值比较装置，用于将该分级距离计算装置在各级所计算的距离的积分值与预先设置的阈值进行比较，

控制装置，用于根据该阈值比较装置的比较结果而控制该分级距离计算装置的距离计算，和

输出装置，用于输出直至最后一级所计算的距离的积分值作为该近似性，

其中，操作该控制装置使得在该阈值比较装置的比较结果是直至某一级所计算的距离的积分值高于该阈值的情况下，该控制装置进行控制以舍位距离计算。

16.根据权利要求15的近似性计算设备，其中该分级距离计算装置以分级方式执行构成所述两个输入向量的各分量之间的距离计算，从而在直至某一级所计算的距离的积分值低于该阈值的情况下，执行随后分量之间的距离计算。

17.根据权利要求16的近似性计算设备，还包括变换装置，用于对所述两个输入向量进行预定变换操作，

其中该分级距离计算装置基于预定变换操作、按照预定次序执行由该变换装置所变换的两个输入向量之间的距离计算。

18.根据权利要求17的近似性计算设备，还包括分离装置，用于以预定次序取出构成由该变换装置所变换的两个输入向量的各分量，以将它们分离为分级的多个局部向量，

其中该分级距离计算装置按照从最高等级的局部向量的次序、以分级方式执行构成局部向量的各分量之间的距离计算，从而在构成直至某一级的局部向量的所有分量之间所计算的计算距离的积分值低于该阈值的情况下，该分级距离计算装置执行构成较低一级的局部向量的各分量之间的距离计算。

19.一种程序，用于允许计算机执行确定两个输入向量之间的近似性的近似性计算处理，包括：

输出步骤，用于输出直至最后一级所计算的距离的积分值作为该近似性，

其中，在该控制步骤，在该阈值比较步骤中直至某一级所计算的距离的积分值高于该阈值的情况下，进行控制使得舍位距离计算。

20.根据权利要求19的程序，其中在该分级距离计算步骤以分级方式执行构成所述两个输入向量的各分量之间的距离计算，从而在直至某一级所计算的距离的积分值低于该阈值的情况下，执行随后分量之间的距离计算。

21.根据权利要求20的程序，还包括变换步骤，用于对所述两个输入向量进行预定变换操作，

其中，在该分级距离计算步骤，基于预定变换操作、按照预定次序执行在该变换步骤所变换的两个输入向量之间的距离计算。

22.根据权利要求21的程序，还包括分离步骤，用于以预定次序取出构成在该变换步骤所变换的两个输入向量的各分量，以将它们分离为分级的多个局部向量，

其中在该分级计算步骤，按照从最高级的局部向量的次序、以分级方式执行构成局部向量的各分量之间的距离计算，从而在构成直至某一级的局部向量的所有分量之间的计算距离的积分值低于该阈值的情况下，执行构成较低一级的局部向量的各分量之间的距离计算。

23.一种计算机可读介质，记录有允许计算机执行确定两个向量之间的近似性的近似性计算处理的程序，

该程序包括：

24.根据权利要求23的记录介质，其中在该分级距离计算步骤以分级方式执行构成所述两个输入向量的各分量之间的距离计算，从而在直至某一级所计算的距离的积分值低于该阈值的情况下，执行随后分量之间的距离计算。

25.根据权利要求24的记录介质，其中该程序还包括变换步骤，用于对所述两个输入向量进行预定变换操作，并且

26.根据权利要求25的记录介质，其中该程序包括分离步骤，用于以预定次序取出构成在该变换步骤所变换的两个输入向量的各分量，以将它们分离为分级的多个局部向量，并且

其中在该分级距离计算步骤，按照从最高级的局部向量的次序、以分级方式执行构成局部向量的各分量之间的距离计算，从而在构成直至某一级的局部向量的所有分量之间的计算距离的积分值低于该阈值的情况下，执行构成较低一级的局部向量的各分量之间的距离计算。