CN102292728A

CN102292728A - 数据检索设备

Info

Publication number: CN102292728A
Application number: CN2010800053263A
Authority: CN
Inventors: 岩元浩太; 大纲亮磨
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-01-23
Filing date: 2010-01-14
Publication date: 2011-12-21
Anticipated expiration: 2030-01-14
Also published as: US8244739B2; JPWO2010084712A1; US20110099177A1; EP2287749A4; WO2010084712A1; KR20110112822A; EP2287749A1; KR101277419B1; JP4697355B2; CN102292728B

Abstract

一种数据检索设备包括第一跳过对应关系表，该第一跳过对应关系表是对应于待搜索数据序列中的相应数据的表，并且记录跳过目的地数据信息，其中关于相应数据和搜索数据之间的相似度的相应的可能相似度范围，跳过目的地数据信息在其与搜索数据之间的相似度与预定阈值相比时可以具有预定关系的数据中指示首先出现在该相应数据之后的数据片；控制装置，其中当要从待搜索数据序列中检索其与搜索数据的相似度是所述阈值或者低于所述阈值时，使用第一跳过对应关系表来缩窄待搜索数据序列中必须要计算与搜索数据的相似度的数据。

Description

数据检索设备

技术领域

本发明涉及数据检索设备，并且更具体地，涉及用于从检索目标数据序列中检索与检索数据相似的数据的数据检索设备。

背景技术

用于从检索目标数据序列中检索与检索数据相似的数据(包括存储在存储设备中的视频数据和音频数据)的典型方法包括：计算检索数据与检索目标数据序列中所有数据片之间的相似度；以及将计算得到的相似度与阈值进行比较。然而，由于针对数据片之间相似度的计算量通常很大，因此在其中必须计算检索数据与检索目标数据序列中所有数据片之间的相似度的上述方法需要很长的时间用于检索。因此，提出了某些方法用于加速此类检索。

例如，专利文献1在背景技术部分描述了一种用于通过这样一种方式高速执行检索的方法，该方式在相似度超过某一阈值时终止相似度计算。专利文献1还提出了一种用于计算数据序列一部分与另一部分或多个部分之间的相似度作为自身相似度表，并且使用该表来高速执行检索的方法。

现有技术文献

专利文献

专利文献1：日本未审专利公开No.2005-62555

发明内容

待由本发明解决的技术问题

如图17(a)所示，设检索目标数据序列是包括y_j、y_j+1、y_j+2、y_j+3、y_j+4、y_j+5等的数据序列。在这种情况下，如图17(b)中所示，前导数据y_j的自身相似度表是包含数据y_j与数据y_j+1之间的相似度d(y_j，y_j+1)、数据y_j与数据y_j+2之间的相似度d(y_j，y_j+2)、数据y_j与数据y_j+3之间的相似度d(y_j，y_j+3)、数据y_j与数据y_j+4之间的相似度d(y_j，y_j+4)和数据y_j与数据y_j+5之间的相似度d(y_j，y_j+5)等的表。假设相似度的值取0或更大的正值，并且值越小相似度越高。

在从检索目标数据序列检索数据的情况下(其中该数据与检索数据x_i的相似度小于或等于阈值th)，以下列过程来执行使用自身相似性的检索。

首先，计算检索数据x_i与数据y_j之间的相似度。假设获得的相似度为D(x_i，y_j)，使用以下表达式1来确定数据y_j是检索数据x_i的相似数据或非相似数据。因此，如果相似度D(x_i，y_j)小于或等于阈值th，则数据y_j被输出为相似数据，而如果该相似度大于阈值th，则数据y_j被认为是非相似数据。

[表达式1]

D(x_i，y_j)≤th

如果数据y_j被认为是非相似数据，则通过以下方式确定下一数据，其中在该下一数据上执行与检索数据x_i的相似度计算。首先，从数据y_j的自身相似度表获得数据y_j与紧接着的数据y_j+1之间的相似度d(y_j，y_j+1)，并且从相似度D(x_i，y_j)减去d(y_j，y_j+1)。然后，将减去的结果[D(x_i，y_j)-d(y_j，y_j+1)]与阈值th进行比较，并且如果[D(x_i，y_j)-d(y_j，y_j+1)≤th]，则数据y_j+1被确定为下一个与检索数据x_i执行相似度计算的数据。另一方面，如果[D(x_i，y_j)-d(y_j，y_j+1)＞th]，则数据y_j+1从相似度计算的目标中排除，这是因为即便计算了数据y_j+1与检索数据x_i之间的相似度，逻辑上也不可能出现计算结果变得小于或等于阈值th。如果数据y_j+1从相似度计算的目标排除，则在后续数据片上按顺序重复执行与在数据y_j+1上执行的确定相同的确定，由此确定用于与检索数据x_i进行相似度计算的数据。

通过使用上文描述的自身相似度表，可以减少应当与检索数据x_i计算相似度的数据的数目，由此可以以更高速度执行检索。

然而，需要执行相似度的减法以及针对数据y_j之后的相应数据片按顺序进行阈值确定的过程，直到确定用于相似度计算的数据，这对进一步加速造成了障碍。

本发明的一个目标是提供能够从检索目标数据序列中高速检索数据的数据检索设备，其中该数据与检索数据的相似度小于或等于预定阈值。

用于解决上述问题的技术手段

根据本发明的一方面，数据检索设备包括第一跳过(skip)对应关系表，该第一跳过对应关系表对应于检索目标数据序列中的每片数据，并且针对对应数据与检索数据之间相似度采取的每个可能的相似度范围，记录用于指定在数据片中对应数据之后首先出现的数据的跳过目的地数据信息，其中该数据与检索数据的相似度具有在与预定阈值比较中具有预定关系的可能性；以及控制单元，当从检索目标数据序列中检索与检索数据的相似度小于或等于阈值的数据时，该控制单元使用第一跳过对应关系表来选择检索目标数据序列中有必要与检索数据进行相似度计算的数据。

本发明的技术效果

根据本发明，可以从检索目标数据序列中高速检索与检索数据的相似度小于或等于预定阈值的数据。

附图说明

图1是本发明第一实施方式的框图。

图2是示出了根据本发明第一实施方式由第一跳过对应关系表生成部分执行的示例性过程的流程图。

图3示出了根据本发明第一实施方式以供第一跳过对应关系表生成部分使用的内部表的示例性配置和检索目标数据序列的示例。

图4示出了根据本发明第一实施方式以供第一跳过对应关系表生成部分使用的内部表的特定示例。

图5示出了根据本发明第一实施方式的第一跳过对应关系表的特定示例。

图6示出了根据本发明第一实施方式的第一跳过对应关系表的另一特定示例。

图7是示出了根据本发明第一实施方式由控制部分执行的示例性过程的流程图。

图8是本发明第二实施方式的框图。

图9是示出了是示出了根据本发明第二实施方式由第二跳过对应关系表生成部分执行的示例性过程的流程图。

图10示出了根据本发明第二实施方式以供第二跳过对应关系表生成部分使用的内部表的示例性配置和检索目标数据序列的示例。

图11示出了根据本发明第二实施方式以供第二跳过对应关系表生成部分使用的内部表的特定示例。

图12示出了根据本发明第二实施方式的第二跳过对应关系表的特定示例。

图13示出了根据本发明第二实施方式的第二跳过对应关系表的另一特定示例。

图14是示出了根据本发明第二实施方式由控制部分执行的示例性过程的流程图。

图15是本发明第三实施方式的框图。

图16是示出了根据本发明第三实施方式由控制部分执行的示例性过程的流程图。

图17示出了自身相似度表的示例。

具体实施方式

[第一实施方式]

参考图1，根据本发明第一实施方式的数据检索设备包括：相似度计算部分110、控制部分120、第一跳过对应关系表生成部分130、检索目标数据序列存储部分140和第一跳过对应关系表存储部分150。

检索目标数据序列存储部分140存储一个或多个检索目标数据序列。一个检索目标数据序列包括多个数据串。如果数据检索设备100例如是运动图像检索设备，则检索目标数据序列对应于时序信号，其中运动图像的连续帧图像或帧图像的特征向量以时间顺序对准，并且一片数据对应于一个帧图形或者其特征向量。本发明的数据检索设备不仅可用于运动图像的检索，还可以用于各种类型的检索(诸如，音频检索)。然而为了方便起见，在以下描述中，假设检索目标数据序列是其中运动图像的连续帧图像的特征向量是以时间顺序对准的信号。

第一跳过对应关系表生成部分130是用于生成检索目标数据序列存储部分140中存储的检索目标数据序列中的每片数据的第一跳过对应关系表的装置。应当指出，数据片的第一跳过对应关系表表示针对上述数据与检索数据之间相似度可以采取的每个范围而言包含以下信息的表，该信息用于在可以存在与检索数据的相似度达到预定阈值或更小的数据中指定在上述数据之后首先出现的数据。

第一跳过对应关系表存储部分150是用于存储由第一跳过对应关系表生成部分130生成的第一跳过对应关系表的装置。第一跳过对应关系表以这样一种方式与检索目标数据序列中的数据相关联地存储在第一跳过对应关系表存储部分150中，该方式为对应于该表的数据明显可区分。

相似度计算部分110是用于计算检索数据与检索目标数据序列中的数据之间相似度的装置。检索数据还可以是由多个数据串组成的数据串中的数据片。在本实施方式中，检索目标数据序列中的每片数据是特征向量，并且检索数据也是特征向量。相似度计算部分110计算向量之间的距离(例如，汉明距离、欧氏距离或欧氏距离的平方)作为相似度。在此情况下，随着相似度的值更靠近0，向量更加相似。在本发明中，可以使用任意尺度的相似度，因此当然可以通过除了上文描述以外的计算方法来计算相似度。

控制部分120是用于控制整个数据检索设备100的装置。当检索数据从数据检索设备100的外部输入时，控制部分120控制相似度计算部分110来计算检索数据与检索目标数据序列中数据之间的近似度，将该计算结果与预定阈值th进行比较，从而确定上述数据是否与检索数据相似。如果数据与检索数据相似，则控制部分120输出该数据作为检索结果，并且针对下一数据重复该相同过程。相反，如果数据与检索数据不相似，则控制部分120根据数据与检索数据之间的相似度和数据的第一跳过对应关系表来确定检索目标数据序列中下一个与检索数据计算相似度的数据，并且对确定的数据重复该相同的过程。

接下来，将描述数据检索设备100根据本实施方式进行的操作。

数据检索设备100的操作粗略地被分成在执行实际数据检索操作之前执行的第一跳过对应关系表生成操作，以及使用所生成的第一跳过对应关系表的数据检索操作。

(1)第一跳过对应关系表生成操作

第一跳过对应关系表生成部分130按照图2的流程图中所示的流程，针对检索目标数据序列存储部分140中存储的检索目标数据序列中的每个数据生成数据的第一跳过对应关系表。

首先，第一跳过对应关系表生成部分130关注于检索目标数据序列中的数据片，用于生成第一跳过对应关系表(步骤S101)。在本说明书中，假设检索目标数据序列是由y_j、y_j+1、y_j+2、y_j+3、y_j+4、y_j+5等组成的一序列数据(如图3(a)所示)(在该示例中，为n维特征向量)，并且为了方便起见，关注于前导数据y_j。

接下来，第一跳过对应关系表生成部分130计算受关注数据y_j与后续m片数据y_j+1、y_j+2…y_j+m之间的相似度d(y_j，y_j+1)、d(y_j，y_j+2)...d(y_j，y_j+m)，并且将计算结果存储到内部表中(步骤S102)。用于计算相似度的后续数据的数目m是任意的。如果后续数据的数目m较大，虽然可以减少与检索数据执行相似度计算的数据的较大数目，但是会增加跳过对应关系表所需的存储容量。因此，预先确定m的值并同时考虑两者。

图3(b)示出了以供第一跳过对应关系表生成部分130在生成第一跳过对应关系表过程中使用的示例性内部表。该内部表最大包括m个条目，并且每个条目由5个项目组成，包括：后续数据、相似度、最小值、跳过可能条件和连续跳过可能条件。在步骤S102，第一跳过对应关系表生成部分130在内部表的相应条目中向后续数据的项目设置y_j+1、y_j+2…y_j+m，并且向相似度项目设置与数据y_j的相似度d(y_j，y_j+1)、d(y_j，y_j+2)...d(y_j，y_j+m)。

接下来，针对后续数据y_j+1、y_j+2…y_j+m的每一个，第一跳过对应关系表生成部分130使用检索数据与数据y_j之间的相似度D(x，y_j)以及数据y_j与后续数据之间的相似度来计算与检索数据相似度的最小值，并且向内部表中的最小值项目设置该值(步骤S103)。例如，在后续数据y_j+1的情况下，由于与数据y_j的相似度为d(y_j，y_j+1)并且与检索数据的相似度为D(x，y_j)，因此检索数据与后续数据y_j+1之间相似度的最小值为[D(x，y_j)-d(y_j，y_j+1)]。

接下来，针对后续数据y_j+1、y_j+2…y_j+m的每一个，第一跳过对应关系表生成部分130通过使用与接收数据相似度的最小值和单独提供的阈值th，来计算数据y_j与检索数据之间不可能使与检索数据的相似度变得小于或等于阈值(不可能与检索数据相似)的相似度范围的下限，并且向内部表的跳过可能条件的项目设置该值(步骤S104)。例如，在后续数据y_j+1的情况下，由于根据表达式1不可能有数据与检索数据相似甚至是最小值[D(x，y_j)-d(y_j，y_j+1)]也大于阈值th，因此将[D(x，y_j)＞th+d(y_j，y_j+1)]设置为跳过可能条件。

接下来，针对后续数据y_j+1、y_j+2…y_j+m的每一个，第一跳过对应关系表生成部分130计算由自身数据与该自身数据之前的其他后续数据的跳过可能条件给出的相似度的下限的最大值，并且向内部表的连续跳过可能条件的项目设置该值(步骤S105)。

接下来，根据后续数据y_j+1、y_j+2…y_j+m的连续跳过可能条件，第一跳过对应关系表生成部分130生成受关注数据y_j的第一跳过对应关系表，并且将该表存储到第一跳过对应关系表存储部分150中(步骤S106)。具体地，从后续数据y_j+1、y_j+2…y_j+m的连续跳过可能条件给出的相似度的下限中，第一跳过对应关系表生成部分130生成第一相似度范围，其中具有最小值的下限被设置成下限值而具有第二最小值的下限被设置成上限值，并且将具有连续跳过可能条件的后续数据中等于第一相似度范围的上限值的最后数据设置为用于受关注数据y_j与检索数据之间的相似度满足第一相似度范围情况下的跳过目的地数据。接下来，从后续数据y_j+1、y_j+2…y_j+m的连续跳过可能条件给出的相似度的下限中，第一跳过对应关系表生成部分130生成第二相似度范围，其中具有第二最小值的下限被设置成下限值而具有第三最小值的下限被设置成上限值，并且将具有连续跳过可能条件的后续数据中等于第二相似度范围的上限值的最后数据设置为用于受关注数据y_j与检索数据之间的相似度满足第二相似度范围情况下的跳过目的地数据。第一跳过对应关系表生成部分130重复该相同过程，直到出现相似度范围，在该相似度范围中由后续数据y_j+1、y_j+2…y_j+m的连续跳过可能条件给出的相似度的下限中的最大值被设置成下限值。

图4示出了在生成数据y_j的第一跳过对应关系表过程中使用的内部表的特定示例，并且图5示出了数据y_j的第一跳过对应关系表的特定示例。在该示例中，阈值th是50，并且数目m是13。

在图4所示的内部表中，后续数据y_j+3的条目例如指示与数据y_j的相似度为12、与检索数据的相似度的最小值为[D(x，y_j)-12]、跳过可能条件为[D(x，y_j)＞62]以及连续跳过可能条件为[D(x，y_j)＞64]。后续数据y_j+3的连续跳过可能条件不是[D(x，y_j)＞62]的跳过可能条件而是[D(x，y_j)＞64]的跳过可能条件的原因是因为自身数据y_j+3之前的数据y_j+2的跳过可能条件是[D(x，y_j)＞64]。

此外，在图5中，数据y_j的第一跳过对应关系表中的第一条目指示数据y_j与检索数据之间的相似度是否大于60并且等于或小于64，与检索目标数据计算相似度的下一数据为数据y_j+2。第一条目是根据图4所示的内部表中后续数据y_j+1和y_j+2的连续跳过可能条件生成的数据。

此外，图5所示的数据y_j的第一跳过对应关系表中的第二条目例如指示数据y_j与检索数据之间的相似度是否大于64并且等于或小于67，与检索目标数据计算相似度的下一数据为数据y_j+5。第二条目是根据图4所示的内部表中后续数据y_j+2至y_j+5的连续跳过可能条件生成的数据。

第一跳过对应关系表生成部分130根据与针对数据y_j相同的过程，生成存储在检索目标数据序列存储部分140中的检索目标数据序列中除了数据y_j以外的数据的第一跳过对应关系表。然而，由于在检索目标数据序列中最后一个数据没有后续数据，因此没有对最后一个数据生成第一跳过对应关系表。此外，还可以不对除了最后一个数据的所有数据生成第一跳过对应关系表，而仅对预定的部分数据生成第一跳过对应关系表。部分数据的示例包括偶数数据、奇数数据、每隔P(＞2)个数的数据等。

此外，第一跳过对应关系表生成部分130可以执行将图2中的步骤S106生成的第一跳过对应关系表中的多个连续条目组成一个条目从而减少第一跳过对应关系表中条目的数目的过程。通过组合多个连续条目而形成的条目具有以下相似度范围，其中在组合之前多个条目的相似度范围的下限的最小值为下限值，而其相似度范围的上限的最大值为上限值，并且具有在组合之前在多个条目的跳过目的地数据中作为前导数据的跳过目的地数据。例如，在图5的第一跳过对应关系表中，如果第五条目与第六条目被组成一个条目并且第七条目和第八条目被组成一个条目，则生成图6中所示的第一跳过对应关系表。

如上文所述，通过组合第一跳过对应关系表中的多个条目以减少条目数目，可以通过牺牲跳过是可能的最大范围(跳过实际上可以被执行得更长)来减少第一跳过对应关系表所需的存储容量。

当组合第一跳过对应关系表中的多个条目时，可以采取以下过程。

例如，如果设置了可以向第一跳过对应关系表分配的存储容量的上限，则可以通过组合条目来重复减少条目的数目，直到用于第一跳过对应关系表的存储容量变得小于上限。

此外，当组合多个条目时，还可以选择条目进行组合从而减少例如将被条目组合牺牲的相似度范围(跳过实际上可以被执行得更长一点)。具体地，如果图5中所示的第五条目和第六条目被组成一个条目，则第六条目的相似度范围(即，[75＜D≤77])被牺牲(跳过实际上可以被执行得更长一点)。如果第七条目和第八条目被组成一个条目，则第八条目的相似度范围(即，[80＜D≤84])被牺牲(跳过实际上可以被执行得更长一点)。当比较这两种情况时，由于待牺牲的相似度范围在前一情况中较小，因此组合第五条目和第六条目更高效。在该情况下，可以考虑待牺牲的帧的数目或可由相似度采用的可能性。通过组合第一跳过对应关系表中的条目同时考虑上述牺牲的可能性而减少条目的数目，针对第一跳过对应关系表的单位存储能力，这可以最大化用于加速由第一跳过对应关系表提供的检索操作的效率。

(2)数据检索操作

在接收检索数据之后，控制部分120沿着图7的流程图中所示的流程从检索目标数据序列检索与检索数据相似的数据。如果存在多个检索目标数据序列，则对每个检索目标数据序列执行相同的过程。下文针对示例性情况给出根据本实施方式的数据检索操作，其中关注于一个检索目标数据序列，并且从该数据序列中检索与检索数据相似的数据。

控制部分120最初将变量j设置为1，用于从检索目标数据序列的头部开始管理用于处理的数据的顺序(步骤S111)，并且通过相似度计算部分110来计算第一数据与检索数据之间的相似度(步骤S112)。

如果第一数据与检索数据之间的相似度小于或等于阈值th(在步骤S113为是)，则第一数据输出为相似数据(步骤S114)。然后，控制部分120通过加1将变量j改变成2(步骤S115)，经由步骤S119返回步骤S112；将第二数据设置为下一个计算相似度的数据；以及重复与应用于第一数据相同的过程。

另一方面，如果第一数据与检索数据之间的相似度大于阈值th(在步骤S113为否)，则控制部分120检验第一数据的第一跳过对应关系表是否存储在存储部分150中(步骤S116)。如果没有存储该表，则控制部分120通过加1将变量j改变成2(步骤S115)，经由步骤S119返回步骤S112；将第二数据设置为下一个计算相似度的数据；以及重复与应用于第一数据相同的过程。

如果存储了该第一数据的第一跳过对应关系表，则控制部分120检验第一跳过对应关系表是否包括包含第一数据与检索数据之间相似度的相似度范围(步骤S117)。如果该表不包括该范围，则控制部分120通过加1将变量j改变成2(步骤S115)，经由步骤S119返回步骤S112；将第二数据设置为下一个计算相似度的数据；以及重复与应用于第一数据相同的过程。

如果第一数据的第一跳过对应关系表包括包含该第一数据与检索数据之间相似度的相似度范围，则控制部分120将对应于相似度范围记录的跳过目的地数据设置为下一个计算相似度的数据(即，改变变量j使得指示跳过目的地数据)(步骤S118)，经由步骤S119返回步骤S112，并且针对跳过目的地数据重复与应用于第一数据相同的过程。

在步骤S119，控制部分120确定变量j的改变值是否超过检索目标数据序列的数据数目的最大值j_max，并且如果值没有超过该最大值，则返回步骤S112，而如果值超过了该最大值，则结束针对检索目标数据序列的检索过程。

如上文所述，根据本实施方式，可以从检索目标数据序列中高速地检索数据，其中该数据与检索数据的相似度小于或等于预定阈值。这是因为如果检索目标数据序列中的数据与检索数据之间的相似度大于阈值，则没必要进行相似度计算的数据可以通过参考该数据的第一跳过对应关系表而被跳过。

例如，如果检索目标数据序列中的数据y_j与检索数据之间的相似度为72，则根据图5或图6中所示的数据y_j的第一跳过对应关系表得出跳过目的地数据为j+7。因此，由于与检索数据的相似度计算没有在检索目标数据序列中的6片数据y_j+1、y_j+2、y_j+3、y_j+4、y_j+5和y_j+6上执行，从而减少了用于那些数据的检索时间。此外，由于没必要关于相应数据y_j+1、y_j+2、y_j+3、y_j+4、y_j+5和y_j+6确定与检索数据执行相似度计算的必要性，从而可以进一步减少用于上述计算的检索时间。

应当指出，虽然在本实施方式中阈值th被固定为一个值，但是本发明可应用于其中使用了多个阈值th的数据检索设备。在该情况下，预先生成并存储针对每个阈值th的第一跳过对应关系表。例如，如果有三个阈值th(诸如，50、60和70)，则可以生成并存储针对th＝50的第一跳过对应关系表；针对th＝60的第一跳过对应关系表；以及针对th＝70的第一跳过对应关系表。

[第二实施方式]

参考图8，根据本发明第二实施方式的数据检索设备200有别于根据第一实施方式的数据检索设备100之处在于包括了控制部分220、第二跳过对应关系表生成部分230和第二跳过对应关系表存储部分250，而不是控制部分120、第一跳过对应关系表生成部分130和第一跳过对应关系表存储部分150。

第二跳过对应关系表生成部分230是用于生成检索目标数据序列存储部分140中存储的检索目标数据序列中的每片数据的第二跳过对应关系表的装置。应当指出，数据片的第二跳过对应关系表表示针对上述数据与检索数据之间相似度可以采取的每个范围包含以下信息的表，该信息用于在与检索数据的相似度可以大于预定阈值th的数据中指定在上述数据之后首先出现的数据。

第二跳过对应关系表存储部分250是用于存储由第二跳过对应关系表生成部分230生成的第二跳过对应关系表的装置。第二跳过对应关系表以这样一种方式与检索目标数据序列中的数据相关联地存储在第二跳过对应关系表存储部分250中，该方式为对应于该表的数据明显可区分。

控制部分220是用于控制整个数据检索设备200的装置。当检索数据从数据检索设备200的外部输入时，控制部分220控制相似度计算部分110来计算检索数据与检索目标数据序列中数据之间的近似度，将该计算结果与预定阈值th进行比较，从而确定上述数据是否与检索数据相似。如果上述数据与检索数据相似，则控制部分220输出该数据作为检索结果，并且根据上述数据与检索数据之间的相似度和上述数据的第二跳过对应关系表来确定检索目标数据序列中下一个与检索数据计算相似度的数据。如果所确定数据不是上述数据的下一数据，则控制部分220输出范围从上述数据的下一数据到所确定数据紧挨着的前一数据中的数据作为相似数据，并且对所确定数据重复该相同过程。相反，如果上述数据与检索数据不相似，则控制部分120对上述数据的下一数据重复该相同的过程。

接下来，将描述数据检索设备200根据本实施方式进行的操作。

数据检索设备200的操作粗略地被分成在执行实际数据检索操作之前执行的第二跳过对应关系表生成操作，以及使用所生成的第二跳过对应关系表的数据检索操作。

(1)第二跳过对应关系表生成操作

第二跳过对应关系表生成部分230按照图9的流程图中所示的流程，针对检索目标数据序列存储部分140中存储的检索目标数据序列中的每个数据生成数据的第二跳过对应关系表。

首先，第二跳过对应关系表生成部分230关注于检索目标数据序列中的数据片，用于生成第二跳过对应关系表(步骤S201)。在本说明书中，假设检索目标数据序列是由y_j、y_j+1、y_j+2、y_j+3、y_j+4、y_j+5等组成的一序列数据(如图10(a)所示)(在该示例中，为n维特征向量)，并且为了方便起见，关注于前导数据y_j。

接下来，第二跳过对应关系表生成部分230计算受关注数据y_j与后续m片数据y_j+1、y_j+2…y_j+m之间的相似度d(y_j，y_j+1)、d(y_j，y_j+2)...d(y_j，y_j+m)，并且将计算结果存储到内部表中(步骤S202)。用于计算相似度的后续数据的数目m是任意的。如果后续数据的数目m较大，虽然可以减少与检索数据执行相似度计算的数据的较大数目，但是会增加跳过对应关系表所需的存储容量。因此，预先确定m的值并同时考虑两者。

图10(b)示出了以供第二跳过对应关系表生成部分230在生成第二跳过对应关系表过程中使用的示例性内部表。该内部表最大包括m个条目，并且每个条目由5个项目组成，包括：后续数据、相似度、最大值、跳过可能条件和连续跳过可能条件。在步骤S202，第二跳过对应关系表生成部分230在内部表的相应条目中向后续数据的项目设置y_j+1、y_j+2…y_j+m，并且向相似度项目设置与数据y_j的相似度d(y_j，y_j+1)、d(y_j，y_j+2)...d(y_j，y_j+m)。

接下来，针对后续数据y_j+1、y_j+2…y_j+m的每一个，第二跳过对应关系表生成部分230使用检索数据与数据y_j之间的相似度D(x，y_j)以及数据y_j与后续数据之间的相似度来计算与检索数据相似度的最大值，并且向内部表中的最大值项目设置该值(步骤S203)。例如，在后续数据y_j+1的情况下，由于与数据y_j的相似度为d(y_j，y_j+1)并且数据y_j与检索数据之间的相似度为D(x，y_j)，因此检索数据与后续数据y_j+1之间相似度的最大值为[D(x，y_j)+d(y_j，y_j+1)]。

接下来，针对后续数据y_j+1、y_j+2…y_j+m的每一个，第二跳过对应关系表生成部分230通过使用与检索数据相似度的最大值和单独提供的阈值th，来计算数据y_j与检索数据之间不可能使与检索数据的相似度变得大于阈值(不可能与检索数据不相似)的相似度范围的上限，并且向内部表的跳过可能条件的项目设置该值(步骤S204)。例如，在后续数据y_j+1的情况下，由于即便最大值[D(x，y_j)+d(y_j，y_j+1)]小于或等于阈值th也没有数据与检索数据相似，因此将[D(x，y_j)≤th-d(y_j，y_j+1)]设置为跳过可能条件。

接下来，针对后续数据y_j+1、y_j+2…y_j+m的每一个，第二跳过对应关系表生成部分230计算由自身数据与该自身数据之前的其他后续数据的跳过可能条件给出的相似度的上限的最小值，并且向内部表的连续跳过可能条件的项目设置该值(步骤S205)。

接下来，根据后续数据y_j+1、y_j+2…y_j+m的连续跳过可能条件，第二跳过对应关系表生成部分230生成受关注数据y_j的第二跳过对应关系表，并且将该表存储到第二跳过对应关系表存储部分250中(步骤S206)。具体地，从后续数据y_j+1、y_j+2…y_j+m的连续跳过可能条件给出的相似度的上限中，第二跳过对应关系表生成部分230生成第一相似度范围，其中具有最大值的上限被设置成上限值而具有第二最大值的上限被设置成下限值，并且将具有连续跳过可能条件的后续数据中等于第一相似度范围的下限值的最后数据设置为用于受关注数据y_j与检索数据之间的相似度满足第一相似度范围情况下的跳过目的地数据。接下来，从后续数据y_j+1、y_j+2…y_j+m的连续跳过可能条件给出的相似度的上限中，第二跳过对应关系表生成部分230生成第二相似度范围，其中具有第二最大值的上限被设置成上限值而具有第三最大值的上限被设置成下限值，并且将具有连续跳过可能条件的后续数据中等于第二相似度范围的下限值的最后数据设置为用于受关注数据y_j与检索数据之间的相似度满足第二相似度范围情况下的跳过目的地数据。第二跳过对应关系表生成部分130重复该相同过程，直到出现相似度范围，在该相似度范围中由后续数据y_j+1、y_j+2…y_j+m的连续跳过可能条件给出的相似度的上限中的最小值被设置成下限值。

图11示出了在生成数据y_j的第一跳过对应关系表过程中使用的内部表的特定示例，并且图12示出了数据y_j的第二跳过对应关系表的特定示例。在该示例中，阈值th是50，并且数目m是13。

在图11所示的内部表中，后续数据y_j+3的条目例如指示与数据y_j的相似度为12、与检索数据的相似度的最大值为[D(x，y_j)+12]、跳过可能条件为[D(x，y_j)≤38]以及连续跳过可能条件为[D(x，y_j)≤36]。后续数据y_j+3的连续跳过可能条件不是[D(x，y_j)≤38]的跳过可能条件而是[D(x，y_j)≤36]的跳过可能条件的原因是因为自身数据y_j+3之前的数据y_j+2的跳过可能条件是[D(x，y_j)≤36]。

此外，在图12中，数据y_j的第二跳过对应关系表中的第一条目指示数据y_j与检索数据之间的相似度是否大于36并且等于或小于40，与检索目标数据计算相似度的下一数据为数据y_j+2。第一条目是根据图11所示的内部表中后续数据y_j+1和y_j+2的连续跳过可能条件生成的数据。

此外，图12所示的数据y_j的第一跳过对应关系表中的第二条目例如指示数据y_j与检索数据之间的相似度是否大于33并且等于或小于36，与检索目标数据计算相似度的下一数据为数据y_j+5。第二条目是根据图11所示的内部表中后续数据y_j+2至y_j+5的连续跳过可能条件生成的数据。

第二跳过对应关系表生成部分230根据与针对数据y_j相同的过程，生成存储在检索目标数据序列存储部分140中的检索目标数据序列中除了数据y_j以外的数据的第二跳过对应关系表。然而，由于在检索目标数据序列中最后一个数据没有后续数据，因此没有对最后一个数据生成第二跳过对应关系表。此外，还可以不对除了最后一个数据的所有数据生成第二跳过对应关系表，而仅对预定的部分数据生成第二跳过对应关系表。部分数据的示例包括偶数数据、奇数数据、每隔P(＞2)个数的数据等。

此外，第二跳过对应关系表生成部分230可以执行将图9步骤S206生成的第二跳过对应关系表中的多个连续条目组成一个条目从而减少第二跳过对应关系表中条目的数目的过程。通过组合多个连续条目而形成的条目具有以下相似度范围，其中在组合之前多个条目的相似度范围的下限的最小值为下限值，而其相似度范围的上限的最大值为上限值，并且具有在组合之前在多个条目的跳过目的地数据中为前导数据的跳过目的地数据。例如，在图12的第二跳过对应关系表中，如果第五条目与第六条目被组成一个条目并且第七条目和第八条目被组成一个条目，则生成图13中所示的第一跳过对应关系表。

如上文所述，通过组合第二跳过对应关系表中的多个条目以减少条目数目，可以通过牺牲跳过是可能的最大范围(跳过实际上可以被执行得更长一点)来减少第二跳过对应关系表所需的存储容量。

当组合第二跳过对应关系表中的多个条目时，可以采取以下过程。

例如，如果设置了可以向第二跳过对应关系表分配的存储容量的上限，则可以通过组合条目来重复减少条目的数目，直到用于第二跳过对应关系表的存储容量变得小于上限。

此外，当组合多个条目时，还可以选择条目进行组合从而减少例如将被条目组合牺牲的相似度范围(跳过实际上可以被执行得更长一点)。具体地，如果图12中所示的第五条目和第六条目被组成一个条目，则第六条目的相似度范围(即，[23＜D≤25])被牺牲(跳过实际上可以被执行得更长一点)。如果第七条目和第八条目被组成一个条目，则第八条目的相似度范围(即，[16＜D≤20])被牺牲(跳过实际上可以被执行得更长一点)。当比较这两种情况时，由于待牺牲的相似度范围在前一情况中较小，因此组合第五条目和第六条目更高效。在该情况下，可以考虑待牺牲的帧的数目或可由相似度采用的可能性。通过组合第二跳过对应关系表中的条目同时考虑上述牺牲的可能性而减少条目的数目，针对第二跳过对应关系表的单位存储能力，这可以最大化用于加速由第二跳过对应关系表提供的检索操作的效率。

(2)数据检索操作

在接收检索数据之后，控制部分220沿着图14的流程图中所示的流程从检索目标数据序列检索与检索数据相似的数据。如果存在多个检索目标数据序列，则对每个检索目标数据序列执行相同的过程。下文针对示例性情况给出根据本实施方式的数据检索操作，其中关注于一个检索目标数据序列，并且从该数据序列检索与检索数据相似的数据。

控制部分220最初将变量j设置为1，用于从检索目标数据序列的头部开始管理用于处理的数据的顺序(步骤S211)，并且通过相似度计算部分110来计算第一数据与检索数据之间的相似度(步骤S212)。

如果第一数据与检索数据之间的相似度小于或等于阈值th(在步骤S213为是)，则第一数据输出为相似数据(步骤S215)。然后，控制部分220检验该第一数据的第二跳过对应关系表是否存储在存储部分250中(步骤S216)。如果没有存储该表，则控制部分220通过加1将变量j改变成2(步骤S214)，经由步骤S221返回步骤S212；将第二数据设置为下一个计算相似度的数据；以及重复与应用于第一数据相同的过程。

如果存储了该第一数据的第二跳过对应关系表，则控制部分220检验第二跳过对应关系表是否包括包含第一数据与检索数据之间相似度的相似度范围(步骤S217)。如果该表不包括该范围，则控制部分220通过加1将变量j改变成2(步骤S214)，经由步骤S221返回步骤S212；将第二数据设置为下一个计算相似度的数据；以及重复与应用于第一数据相同的过程。

如果第一数据的第二跳过对应关系表包括包含该第一数据与检索数据之间相似度的相似度范围，则控制部分220确定对应于相似度范围记录的跳过目的地数据是否是当前正在处理的数据的下一数据(步骤S218)。如果该跳过目的地数据不是当前正在处理的数据的下一数据(这意味着如果跳过了某些数据片)，则控制部分220输出范围从当前正在处理的数据的下一数据到紧挨着该跳过目的地数据的前一数据中的数据作为相似数据(步骤S219)。然后，控制部分220将该跳过目的地数据设置为下一个计算相似度的数据(即，改变变量j使得指示跳过目的地数据)(步骤S220)，经由步骤S221返回步骤S212，并且针对跳过目的地数据重复与应用于第一数据相同的过程。备选地，如果该跳过目的地数据是当前正在处理的数据的下一数据，则控制部分220不执行步骤S219，并且将该跳过目的地数据设置为下一个计算相似度的数据(即，改变变量j使得指示跳过目的地数据)(步骤S220)，经由步骤S221返回步骤S212，并且针对跳过目的地数据重复与应用于第一数据相同的过程。

另一方面，如果第一数据与检索数据之间的相似度大于阈值th(在步骤S213为否)，则控制部分220通过加1将变量j改变成2(步骤S214)，经由步骤S221返回步骤S212；将第二数据设置为下一个计算相似度的数据；以及重复与应用于第一数据相同的过程。

在步骤S221，控制部分220确定变量j的改变值是否超过检索目标数据序列的数据数目的最大值j_max，并且如果值没有超过该最大值，则返回步骤S112，而如果值超过了该最大值，则结束针对检索目标数据序列的检索过程。

如上文所述，根据本实施方式，可以从检索目标数据序列中高速地检索数据，其中该数据与检索数据的相似度小于或等于预定阈值。这是因为如果检索目标数据序列中的数据与检索数据之间的相似度变得小于或等于阈值，则没必要进行相似度计算的数据可以通过参考该数据的第二跳过对应关系表而被跳过。

例如，如果检索目标数据序列中的数据y_j与检索数据之间的相似度为28，则根据图12或图13中所示的数据y_j的第二跳过对应关系表得出跳过目的地数据为j+7。因此，由于与检索数据的相似度计算没有在检索目标数据序列中的6片数据y_j+1、y_j+2、y_j+3、y_j+4、y_j+5和y_j+6上执行，从而减少了用于那些数据的检索时间。此外，由于没必要关于相应数据y_j+1、y_j+2、y_j+3、y_j+4、y_j+5和y_j+6确定与检索数据执行相似度计算的必要性，从而可以进一步减少用于上述计算的检索时间。

应当指出，虽然在本实施方式中阈值th被固定为一个值，但是本发明可应用于其中使用了多个阈值th的数据检索设备。在该情况下，预先生成并存储针对每个阈值th的第二跳过对应关系表。例如，如果有三个阈值th(诸如，50、60和70)，则可以生成并存储针对th＝50的第二跳过对应关系表；针对th＝60的第二跳过对应关系表；以及针对th＝70的第二跳过对应关系表。

[第三实施方式]

参考图15，根据本发明第三实施方式的数据检索设备300有别于根据第一实施方式的数据检索设备100之处在于添加了第二跳过对应关系表生成部分230和第二跳过对应关系表存储部分250，并且还包括了控制部分320而不是控制部分120。

第二跳过对应关系表生成部分230与根据第二实施方式的第二跳过对应关系表生成部分230完全相同，是用于生成检索目标数据序列存储部分140中存储的检索目标数据序列中的每片数据的第二跳过对应关系表的装置。另外，第二跳过对应关系表存储部分250与根据第二实施方式的第二跳过对应关系表存储部分250完全相同，是用于存储由第二跳过对应关系表生成部分230生成的第二跳过对应关系表的装置。

控制部分320是用于控制整个数据检索设备200的装置。当检索数据从数据检索设备300的外部输入时，控制部分320控制相似度计算部分110来计算检索数据与检索目标数据序列中数据之间的近似度，将该计算结果与预定阈值th进行比较，从而确定上述数据是否与检索数据相似。

如果该数据与检索数据不相似，则控制部分320根据该数据与检索数据之间的相似度和该数据的第一跳过对应关系表来确定检索目标数据序列中下一个与检索数据计算相似度的数据，并且对所确定数据重复该相同过程。

相反，如果该数据与检索数据相似，则控制部分320输出该数据作为检索结果，并且根据上述数据与检索数据之间的相似度和上述数据的第二跳过对应关系表来确定检索目标数据序列中下一个与检索数据计算相似度的数据。如果所确定数据不是上述数据的下一数据，则控制部分320输出范围从上述数据的下一数据到紧挨着所确定数据的前一数据中的数据作为相似数据，并且对所确定数据重复该相同过程。

接下来，将描述数据检索设备300根据本实施方式进行的操作。

数据检索设备300的操作粗略地被分成在执行实际数据检索操作之前执行的第一和第二跳过对应关系表生成操作，以及使用所生成的第一和第二跳过对应关系表的数据检索操作。

(1)第一和第二跳过对应关系表生成操作

由于第一跳过对应关系表生成部分130用于生成检索目标数据序列存储部分140中存储的检索目标数据序列中的每片数据的第一跳过对应关系表进行的操作与第一跳过对应关系表生成部分130根据第一实施方式执行的操作相同，并且上文已经对其详细操作进行了描述，因此略去该描述。

由于第二跳过对应关系表生成部分230用于生成检索目标数据序列存储部分140中存储的检索目标数据序列中的每片数据的第二跳过对应关系表进行的操作与第二跳过对应关系表生成部分230根据第二实施方式执行的操作相同，并且上文已经对其详细操作进行了描述，因此略去该描述。

(2)数据检索操作

在接收检索数据之后，控制部分320沿着图16的流程图中所示的流程从检索目标数据序列检索与检索数据相似的数据。如果存在多个检索目标数据序列，则对每个检索目标数据序列执行相同的过程。下文针对示例性情况给出根据本实施方式的数据检索操作，其中关注于一个检索目标数据序列，并且从该数据序列中检索与检索数据相似的数据。

控制部分320最初将变量j设置为1，用于从检索目标数据序列的头部开始管理用于处理的数据的顺序(步骤S311)，并且通过相似度计算部分110来计算第一数据与检索数据之间的相似度(步骤S312)。

如果第一数据与检索数据之间的相似度大于阈值th(在步骤S313为否)，则控制部分320检验该第一数据的第一跳过对应关系表是否存储在存储部分150中(步骤S314)。如果没有存储该表，则控制部分320通过加1将变量j改变成2(步骤S317)，经由步骤S324返回步骤S312；将第二数据设置为下一个计算相似度的数据；以及重复与应用于第一数据相同的过程。

如果存储了该第一数据的第一跳过对应关系表，则控制部分320检验第一跳过对应关系表是否包括包含第一数据与检索数据之间相似度的相似度范围(步骤S315)。如果该表不包括该范围，则控制部分320通过加1将变量j改变成2(步骤S317)，经由步骤S324返回步骤S312；将第二数据设置为下一个计算相似度的数据；以及重复与应用于第一数据相同的过程。

如果第一数据的第一跳过对应关系表包括包含该第一数据与检索数据之间相似度的相似度范围，则控制部分320将对应于相似度范围记录的跳过目的地数据设置为下一个计算相似度的数据(即，改变变量j使得指示跳过目的地数据)(步骤S316)，经由步骤S324返回步骤S312，并且针对跳过目的地数据重复与应用于第一数据相同的过程。

如果第一数据与检索数据之间的相似度小于或等于阈值th(在步骤S313为是)，则第一数据输出为相似数据(步骤S318)。然后，控制部分320检验该第一数据的第二跳过对应关系表是否存储在存储部分250中(步骤S319)。如果没有存储该表，则控制部分320通过加1将变量j改变成2(步骤S317)，经由步骤S324返回步骤S312；将第二数据设置为下一个计算相似度的数据；以及重复与应用于第一数据相同的过程。

如果存储了该第一数据的第二跳过对应关系表，则控制部分320检验第二跳过对应关系表是否包括包含第一数据与检索数据之间相似度的相似度范围(步骤S320)。如果该表不包括该范围，则控制部分320通过加1将变量j改变成2(步骤S317)，经由步骤S324返回步骤S312；将第二数据设置为下一个计算相似度的数据；以及重复与应用于第一数据相同的过程。

如果第一数据的第二跳过对应关系表包括包含该第一数据与检索数据之间相似度的相似度范围，则控制部分320确定对应于相似度范围记录的跳过目的地数据是否是当前正在处理的数据的下一数据(步骤S321)。如果该跳过目的地数据不是当前正在处理的数据的下一数据(这意味着如果跳过了某些数据片)，则控制部分320输出范围从当前正在处理的数据的下一数据到紧挨着该跳过目的地数据的前一数据中的数据作为相似数据(步骤S322)。然后，控制部分320将该跳过目的地数据设置为下一个计算相似度的数据(即，改变变量j使得指示跳过目的地数据)(步骤S323)，经由步骤S324返回步骤S312，并且针对跳过目的地数据重复与应用于第一数据相同的过程。备选地，如果该跳过目的地数据是当前正在处理的数据的下一数据，则控制部分320不执行步骤S322，并且将该跳过目的地数据设置为下一个计算相似度的数据(即，改变变量j使得指示跳过目的地数据)(步骤S323)，经由步骤S324返回步骤S312，并且针对跳过目的地数据重复与应用于第一数据相同的过程。

在步骤S324，控制部分320确定变量j的改变值是否超过检索目标数据序列的数据数目的最大值j_max，并且如果值没有超过该最大值，则返回步骤S312，而如果值超过了该最大值，则结束针对检索目标数据序列的检索过程。

如上文所述，根据本实施方式，可以从检索目标数据序列中高速地检索与检索数据的相似度小于或等于预定阈值的数据。

第一原因在于当检索目标数据序列中的数据与检索数据之间的相似度大于阈值时，没必要进行相似度计算的数据可以通过参考上述数据的第一跳过对应关系表而被跳过。

第二原因在于当检索目标数据序列中的数据与检索数据之间的相似度小于或等于阈值时，没必要进行相似度计算的数据可以通过参考上述数据的第二跳过对应关系表而被跳过。

应当指出，虽然在本实施方式中阈值th被固定为一个值，但是本发明可应用于其中使用了多个阈值th的数据检索设备。在该情况下，预先生成并存储针对每个阈值th的第一和第二跳过对应关系表。例如，如果有三个阈值th(诸如，50、60和70)，则可以生成并存储针对th＝50的第一和第二跳过对应关系表；针对th＝60的第一和第二跳过对应关系表；以及针对th＝70的第一和第二跳过对应关系表。

虽然上文已经描述了本发明的实施方式，但是本发明不限于这些示例。本领域中的普通技术人员应当理解，可以在形式和细节方面进行各种修改而不脱离本发明的范围。此外，本发明的数据检索设备是适配的，从而使得其功能可以由计算机和程序以及硬件实现。上述程序以写在计算机可读记录介质(诸如，磁盘、半导体存储器等)上的形式提供，例如当计算机启动时由计算机读取，并且控制计算机的操作，由此允许计算机具有上述实施方式的相似度计算部分、控制部分、第一跳过对应关系表生成部分、第二跳过对应关系表生成部分等的功能。

本申请基于并要求2009年1月23日提交的日本专利申请No.2009-12811的优先权，通过参考将其全部公开内容并入于此。

参考标号

100、200、300 数据检索设备

110 相似度计算部分

120、220、320 控制部分

130 第一跳过对应关系表生成部分

140 检索目标数据序列存储部分

150 第一跳过对应关系表存储部分

230 第二跳过对应关系表生成部分

250 第二跳过对应关系表存储部分

Claims

1.一种数据检索设备，包括：

第一跳过对应关系表，所述第一跳过对应关系表对应于检索目标数据序列中的每片数据，并且针对对应数据与检索数据之间相似度采取的每个可能的相似度范围，记录用于指定在数据片中所述对应数据之后首先出现的数据的跳过目的地数据信息，其中所述数据与所述检索数据的相似度具有在与预定阈值比较中具有预定关系的可能性；以及

控制单元，当从所述检索目标数据序列中检索与所述检索数据的相似度小于或等于所述阈值的数据时，所述控制单元使用所述第一跳过对应关系表来选择所述检索目标数据序列中有必要与所述检索数据进行相似度计算的数据。

2.根据权利要求1所述的数据检索设备，其中

所述预定关系是其中与所述检索数据的相似度小于或等于所述阈值的关系。

3.根据权利要求2所述的数据检索设备，其中

如果针对所述检索目标数据序列中的数据片计算的与所述检索数据的相似度不小于或等于所述阈值，则所述控制单元根据计算得到的所述相似度和所述数据片的所述第一跳过对应关系表确定所述检索目标数据序列中下一个与所述检索数据计算相似度的数据。

4.根据权利要求3所述的数据检索设备，其中

如果包括所述数据片与所述检索数据之间相似度的相似度范围存在于所述第一跳过对应关系表中，则所述控制单元确定由跳过目的地数据信息指示的数据是所述检索目标数据序列中下一个与所述检索数据计算相似度的数据，其中所述跳过目的地数据信息是对应于所述第一跳过对应关系表中存在的相似度范围进行记录的。

5.根据权利要求2至4中任意一项所述的数据检索设备，进一步包括

第一跳过对应关系表生成单元，其接收所述检索目标数据序列，并且生成所述检索目标数据序列中的每个数据的所述第一跳过对应关系表。

6.根据权利要求5所述的数据检索设备，其中

所述第一跳过对应关系表生成单元计算所述第一跳过对应关系表中的生成目标数据的后续数据与所述生成目标数据之间的相似度；从所述相似度和所述阈值获得指示所述生成目标数据与所述检索数据之间不可能使所述后续数据与所述检索数据之间的相似度变得小于或等于阈值的相似度下限的跳过可能条件；计算指示由自身数据与所述自身数据之前的后续数据的所述跳过可能条件提供的相似度下限的最大值的连续跳过可能条件；以及根据计算得到的所述连续跳过可能条件，生成所述生成目标数据的第一跳过对应关系表。

7.根据权利要求1所述的数据检索设备，其中

所述预定关系是其中与所述检索数据的相似度大于所述阈值的关系。

8.根据权利要求7所述的数据检索设备，其中

如果针对所述检索目标数据序列中的数据片计算的与所述检索数据的相似度小于或等于所述阈值，则所述控制单元根据计算得到的所述相似度和所述数据片的所述第一跳过对应关系表确定所述检索目标数据序列中下一个与所述检索数据计算相似度的数据。

9.根据权利要求8所述的数据检索设备，其中

10.根据权利要求7至9中任意一项所述的数据检索设备，进一步包括

11.根据权利要求10所述的数据检索设备，其中

所述第一跳过对应关系表生成单元计算所述第一跳过对应关系表中的生成目标数据的后续数据与所述生成目标数据之间的相似度；从所述相似度和所述阈值获得指示所述生成目标数据与所述检索数据之间不可能使所述后续数据与所述检索数据之间的相似度变得大于所述阈值的相似度上限的跳过可能条件；计算指示由自身数据与所述自身数据之前的后续数据的所述跳过可能条件提供的相似度上限的最小值的连续跳过可能条件；以及根据计算得到的所述连续跳过可能条件，生成所述生成目标数据的第一跳过对应关系表。

12.根据权利要求6或11所述的数据检索设备，其中

所述第一跳过对应关系表生成单元将所生成的第一跳过对应关系表中的多个连续相似度范围组合成一个相似度范围，并且在组合之前分配对应于所述相似度范围的多个跳过目的地数据中的最先前数据作为对应于所组合成的相似度范围的跳过目的地数据。

13.根据权利要求4、5、6、10、11或12所述的数据检索设备，其中

所述第一跳过对应关系表生成单元仅针对所述检索目标数据序列中的部分数据生成所述第一跳过对应关系表。

14.根据权利要求2所述的数据检索设备，进一步包括

第二跳过对应关系表，所述第二跳过对应关系表对应于检索目标数据序列中的每片数据，并且针对对应数据与检索数据之间相似度采取的每个可能的相似度范围，记录用于指定在数据片中所述对应数据之后首先出现的数据的跳过目的地数据信息，其中所述数据与所述检索数据的相似度具有不与所述阈值具有所述预定关系的可能性，其中

所述控制单元使用所述第一跳过对应关系表和所述第二跳过对应关系表来选择所述检索目标数据序列中有必要与所述检索数据进行相似度计算的数据。

15.根据权利要求14所述的数据检索设备，其中

如果针对所述检索目标数据序列中的数据片计算的与所述检索数据的相似度不小于或等于所述阈值，则所述控制单元根据计算得到的所述相似度和所述数据片的所述第一跳过对应关系表确定所述检索目标数据序列中下一个与所述检索数据计算相似度的数据；以及

如果针对所述检索目标数据序列中的数据片计算的与所述检索数据的相似度小于或等于所述阈值，则所述控制单元根据计算得到的所述相似度和所述数据片的所述第二跳过对应关系表确定所述检索目标数据序列中下一个与所述检索数据计算相似度的数据。

16.根据权利要求15所述的数据检索设备，其中

如果包括所述数据片与所述检索数据之间相似度的相似度范围存在于所述第一跳过对应关系表中，则所述控制单元确定由跳过目的地数据信息指示的数据是所述检索目标数据序列中下一个与所述检索数据计算相似度的数据，其中所述跳过目的地数据信息是对应于所述第一跳过对应关系表中存在的相似度范围进行记录的；以及

如果包括所述数据片与所述检索数据之间相似度的相似度范围存在于所述第二跳过对应关系表中，则所述控制单元确定由跳过目的地数据信息指示的数据是所述检索目标数据序列中下一个与所述检索数据计算相似度的数据，其中所述跳过目的地数据信息是对应于所述第一跳过对应关系表中存在的相似度范围进行记录的。

17.根据权利要求14至16中任意一项所述的数据检索设备，进一步包括

第一跳过对应关系表生成单元，其接收所述检索目标数据序列，并且生成所述检索目标数据序列中的每个数据的所述第一跳过对应关系表；以及

第二跳过对应关系表生成单元，其接收所述检索目标数据序列，并且生成所述检索目标数据序列中的每个数据的所述第二跳过对应关系表。

18.根据权利要求17所述的数据检索设备，其中

所述第一跳过对应关系表生成单元计算所述第一跳过对应关系表中的生成目标数据的后续数据与所述生成目标数据之间的相似度；从所述相似度和所述阈值获得指示所述生成目标数据与所述检索数据之间不可能使所述后续数据与所述检索数据之间的相似度变得小于或等于所述阈值的相似度下限的跳过可能条件；计算指示由自身数据与所述自身数据之前的后续数据的所述跳过可能条件提供的相似度下限的最大值的连续跳过可能条件；以及根据计算得到的所述连续跳过可能条件，生成所述生成目标数据的第一跳过对应关系表；以及

所述第二跳过对应关系表生成单元计算所述第二跳过对应关系表中的生成目标数据的后续数据与所述生成目标数据之间的相似度；从所述相似度和所述阈值获得指示所述生成目标数据与所述检索数据之间不可能使所述后续数据与所述检索数据之间的相似度变得大于所述阈值的相似度上限的跳过可能条件；计算指示由自身数据与所述自身数据之前的后续数据的所述跳过可能条件提供的相似度上限的最小值的连续跳过可能条件；以及根据计算得到的所述连续跳过可能条件，生成所述生成目标数据的第二跳过对应关系表。

19.根据权利要求18所述的数据检索设备，其中

所述第一跳过对应关系表生成单元将所生成的第一跳过对应关系表中的多个连续相似度范围组合成一个相似度范围，并且在组合之前分配对应于所述相似度范围的多个跳过目的地数据中的最先前数据作为对应于所组合成的相似度范围的跳过目的地数据；以及

所述第二跳过对应关系表生成单元将所生成的第二跳过对应关系表中的多个连续相似度范围组合成一个相似度范围，并且在组合之前分配对应于所述相似度范围的多个跳过目的地数据中的最先前数据作为对应于所组合成的相似度范围的跳过目的地数据。

20.根据权利要求17至19中任意一项所述的数据检索设备，其中

所述第一跳过对应关系表生成单元仅针对所述检索目标数据序列中的部分数据生成所述第一跳过对应关系表；以及

所述第二跳过对应关系表生成单元仅对所述检索目标数据序列中的部分数据生成所述第二跳过对应关系表。

21.根据权利要求1至20中任意一项所述的数据检索设备，其中

所述数据是特征向量；以及

所述相似度是特征向量之间的距离。

22.一种数据检索方法，包括：使用第一跳过对应关系表，所述第一跳过对应关系表对应于检索目标数据序列中的每片数据，并且针对对应数据与检索数据之间相似度采取的每个可能的相似度范围，记录用于指定在数据片中所述对应数据之后首先出现的数据的跳过目的地数据信息，其中所述数据与所述检索数据的相似度具有在与预定阈值比较中具有预定关系的可能性，当从所述检索目标数据序列中检索与所述检索数据的相似度小于或等于所述阈值的数据时，

选择所述检索目标数据序列中有必要与所述检索数据进行相似度计算的数据。

23.根据权利要求22所述的数据检索方法，其中

24.根据权利要求23所述的数据检索方法，其中

所述选择包括：如果针对所述检索目标数据序列中的数据片计算的与所述检索数据的相似度不小于或等于所述阈值，则根据计算得到的所述相似度和所述数据片的所述第一跳过对应关系表确定所述检索目标数据序列中下一个与所述检索数据计算相似度的数据。

25.根据权利要求24所述的数据检索方法，其中

所述选择包括：如果包括所述数据片与所述检索数据之间相似度的相似度范围存在于所述第一跳过对应关系表中，则确定由跳过目的地数据信息指示的数据是所述检索目标数据序列中下一个与所述检索数据计算相似度的数据，其中所述跳过目的地数据信息是对应于所述第一跳过对应关系表中存在的相似度范围进行记录的。

26.根据权利要求23至25中任意一项所述的数据检索方法，进一步包括

接收所述检索目标数据序列，并且生成所述检索目标数据序列中的每个数据的所述第一跳过对应关系表。

27.根据权利要求26所述的数据检索方法，其中

所述生成所述第一跳过对应关系表包括计算所述第一跳过对应关系表中的生成目标数据的后续数据与所述生成目标数据之间的相似度；从所述相似度和所述阈值获得指示所述生成目标数据与所述检索数据之间不可能使所述后续数据与所述检索数据之间的相似度变得小于或等于所述阈值的相似度下限的跳过可能条件；计算指示由自身数据与所述自身数据之前的后续数据的所述跳过可能条件提供的相似度下限的最大值的连续跳过可能条件；以及根据计算得到的所述连续跳过可能条件，生成所述生成目标数据的第一跳过对应关系表。

28.根据权利要求22所述的数据检索方法，其中

29.根据权利要求28所述的数据检索方法，其中

所述选择包括：如果针对所述检索目标数据序列中的数据片计算的与所述检索数据的相似度小于或等于所述阈值，则根据计算得到的所述相似度和所述数据片的所述第一跳过对应关系表确定所述检索目标数据序列中下一个与所述检索数据计算相似度的数据。

30.根据权利要求28所述的数据检索方法，其中

31.根据权利要求28至30中任意一项所述的数据检索方法，进一步包括

32.根据权利要求31所述的数据检索方法，其中

所述生成所述第一跳过对应关系表包括计算所述第一跳过对应关系表中的生成目标数据的后续数据与所述生成目标数据之间的相似度；从所述相似度和所述阈值获得指示所述生成目标数据与所述检索数据之间不可能使所述后续数据与所述检索数据之间的相似度变得大于所述阈值的相似度上限的跳过可能条件；计算指示由自身数据与所述自身数据之前的后续数据的所述跳过可能条件提供的相似度上限的最小值的连续跳过可能条件；以及根据计算得到的所述连续跳过可能条件，生成所述生成目标数据的第一跳过对应关系表。

33.根据权利要求27或32所述的数据检索方法，其中

所述生成所述第一跳过对应关系表包括将所生成的第一跳过对应关系表中的多个连续相似度范围组合成一个相似度范围，并且在组合之前分配对应于所述相似度范围的多个跳过目的地数据中的最先前数据作为对应于所组合成的相似度范围的跳过目的地数据。

34.根据权利要求25、26、27、31、32或33所述的数据检索方法，其中

在所述生成所述第一跳过对应关系表中，仅针对所述检索目标数据序列中的部分数据生成所述第一跳过对应关系表。

35.根据权利要求23所述的数据检索方法，进一步包括

所述选择包括：除了所述第一跳过对应关系表，还使用第二跳过对应关系表，所述第二跳过对应关系表对应于检索目标数据序列中的每片数据，并且针对对应数据与检索数据之间相似度采取的每个可能的相似度范围，记录用于指定在数据片中所述对应数据之后首先出现的数据的跳过目的地数据信息，其中所述数据与所述检索数据的相似度具有不与所述阈值具有所述预定关系的可能性，选择所述检索目标数据序列中有必要与所述检索数据进行相似度计算的数据。

36.根据权利要求35所述的数据检索方法，其中

所述选择包括：

如果针对所述检索目标数据序列中的数据片计算的与所述检索数据的相似度不小于或等于所述阈值，则根据计算得到的所述相似度和所述数据片的所述第一跳过对应关系表确定所述检索目标数据序列中下一个与所述检索数据计算相似度的数据；以及

如果针对所述检索目标数据序列中的数据片计算的与所述检索数据的相似度小于或等于所述阈值，则根据计算得到的所述相似度和所述数据片的所述第二跳过对应关系表确定所述检索目标数据序列中下一个与所述检索数据计算相似度的数据。

37.根据权利要求36所述的数据检索方法，其中

所述选择包括：

如果包括所述数据片与所述检索数据之间相似度的相似度范围存在于所述第一跳过对应关系表中，则确定由跳过目的地数据信息指示的数据是所述检索目标数据序列中下一个与所述检索数据计算相似度的数据，其中所述跳过目的地数据信息是对应于所述第一跳过对应关系表中存在的相似度范围进行记录的；以及

如果包括所述数据片与所述检索数据之间相似度的相似度范围存在于所述第二跳过对应关系表中，则确定由跳过目的地数据信息指示的数据是所述检索目标数据序列中下一个与所述检索数据计算相似度的数据，其中所述跳过目的地数据信息是对应于所述第一跳过对应关系表中存在的相似度范围进行记录的。

38.根据权利要求35至37中任意一项所述的数据检索方法，进一步包括

接收所述检索目标数据序列，并且生成所述检索目标数据序列中的每个数据的所述第一跳过对应关系表；以及

接收所述检索目标数据序列，并且生成所述检索目标数据序列中的每个数据的所述第二跳过对应关系表。

39.根据权利要求38所述的数据检索方法，其中

所述生成所述第一跳过对应关系表包括计算所述第一跳过对应关系表中的生成目标数据的后续数据与所述生成目标数据之间的相似度；从所述相似度和所述阈值获得指示所述生成目标数据与所述检索数据之间不可能使所述后续数据与所述检索数据之间的相似度变得小于或等于所述阈值的相似度下限的跳过可能条件；计算指示由自身数据与所述自身数据之前的后续数据的所述跳过可能条件提供的相似度下限的最大值的连续跳过可能条件；以及根据计算得到的所述连续跳过可能条件，生成所述生成目标数据的第一跳过对应关系表；以及

所述生成所述第二跳过对应关系表包括计算所述第二跳过对应关系表中的生成目标数据的后续数据与所述生成目标数据之间的相似度；从所述相似度和所述阈值获得指示所述生成目标数据与所述检索数据之间不可能使所述后续数据与所述检索数据之间的相似度变得大于所述阈值的相似度上限的跳过可能条件；计算指示由自身数据与所述自身数据之前的后续数据的所述跳过可能条件提供的相似度上限的最小值的连续跳过可能条件；以及根据计算得到的所述连续跳过可能条件，生成所述生成目标数据的第二跳过对应关系表。

40.根据权利要求39所述的数据检索方法，其中

所述生成所述第一跳过对应关系表包括将所生成的第一跳过对应关系表中的多个连续相似度范围组合成一个相似度范围，并且在组合之前分配对应于所述相似度范围的多个跳过目的地数据中的最先前数据作为对应于所组合成的相似度范围的跳过目的地数据；以及

所述生成所述第二跳过对应关系表包括将所生成的第二跳过对应关系表中的多个连续相似度范围组合成一个相似度范围，并且在组合之前分配对应于所述相似度范围的多个跳过目的地数据中的最先前数据作为对应于所组合成的相似度范围的跳过目的地数据。

41.根据权利要求38至40中任意一项所述的数据检索方法，其中

在所述生成所述第一跳过对应关系表中，仅针对所述检索目标数据序列中的部分数据生成所述第一跳过对应关系表；以及

在所述生成所述第二跳过对应关系表中，仅对所述检索目标数据序列中的部分数据生成所述第二跳过对应关系表。

42.根据权利要求22至41中任意一项所述的数据检索方法，其中

所述数据是特征向量；以及

所述相似度是特征向量之间的距离。

43.一种程序，使得计算机使用第一跳过对应关系表来执行以下过程，所述第一跳过对应关系表对应于检索目标数据序列中的每片数据，并且针对对应数据与检索数据之间相似度采取的每个可能的相似度范围，记录用于指定在数据片中所述对应数据之后首先出现的数据的跳过目的地数据信息，其中所述数据与所述检索数据的相似度具有在与预定阈值比较中具有预定关系的可能性，当从所述检索目标数据序列中检索与所述检索数据的相似度小于或等于所述阈值的数据时，包括以下过程：

使用所述第一跳过对应关系表来选择所述检索目标数据序列中有必要与所述检索数据进行相似度计算的数据。