CN1809826A - 使用位矢量索引的多维数据对象搜索 - Google Patents

使用位矢量索引的多维数据对象搜索 Download PDF

Info

Publication number
CN1809826A
CN1809826A CNA2004800172021A CN200480017202A CN1809826A CN 1809826 A CN1809826 A CN 1809826A CN A2004800172021 A CNA2004800172021 A CN A2004800172021A CN 200480017202 A CN200480017202 A CN 200480017202A CN 1809826 A CN1809826 A CN 1809826A
Authority
CN
China
Prior art keywords
interval
multidimensional
dimension
data object
feature space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800172021A
Other languages
English (en)
Inventor
J·D·高尔斯特恩
J·C·普拉特
C·J·戈盖斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1809826A publication Critical patent/CN1809826A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/957Multidimensional
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

在搜索数据对象组装的多维特征空间之前,该特征空间的每个维度被划分为多个间隔。当接收查询时,从每个维度选择由该查询重叠的单个间隔。然后,选择减少的数据对象的集,该对象的集只包括与已选择的间隔重叠的那些数据对象。然后,特征空间中的减少的数据对象的集,而非全部数据对象的集,被用于为该查询确定匹配。

Description

使用位矢量索引的多维数据对象搜索
背景技术
已经提出多个策略用于标识并检索存储在数据库中的多媒体数据对象。这些策略的每个的中心问题是搜索问题,将查询点和一组数据库中多维(MD)对象比较。例如,具有多个特性(维度)的歌曲的采样可与存储在数据库中的多首歌曲比较,以发现一首或多首具有相同或类似特性的歌曲。搜索的结果是,或者发现一个或多个匹配,或者数据库内的对象的集内没有匹配。这些搜索问题通常被构造成一些高维搜索的形式,其中数据和查询点被映射到相同的高维特征空间。对特定的查询点,通过在被认为匹配的足够接近查询点的特征空间内寻找数据点来发现匹配。更为具体地,这些近似的匹配问题通常被构造成使用某种Lp度量标准的ε(epsilon)距离的查询,这样使用的ε显著小于点之间的平均距离。
用于解决这些问题(例如,最近邻域、ε距离搜索)的传统的查询处理策略,因为与高维度相关联的固有困难而性能很差。当为不同的数据点使用不同的匹配距离时,这些传统的查询处理策略就更有问题了,对复杂的高维度搜索,如音频指纹识别等等来说,这证明是非常重要的情况。结果是,对解决这些问题最直接的方法,线性扫描一般做得比更为复杂的方法好。不幸的是,尽管简单的线性扫描对复杂的高维度扫描而言,比更为复杂的查询处理策略一般可获得更好的性能,然而线性扫描是时间非常密集的过程。
发明内容
这里描述的是方便了多维特征空间内的多维数据对象的快速搜索的各种系统和方法。根据一个实施例,在搜索之前,多维特征空间的每个维度被划分为多个间隔。当接收到查询时,从每个维度中选择与该查询点重叠的单个间隔。然后,选择减少的多维数据对象集,该集只包括与已选择的间隔重叠的那些多维数据对象。然后,这个减少的多维数据对象集,而非特征空间的多维数据对象的整个集被用于确定该查询点的匹配,因此极大地提高了搜索过程的效率。
附图说明
图1说明示例性的数据映射和搜索系统。
图2说明图1的数据映射和搜索系统的示例性的特征空间。
图3是说明可在准备进行图2的特征空间的搜索中执行的各种操作的示例性的操作流程图。
图4是说明可在准备进行图2的特征空间的搜索中执行的各种操作的另一个示例性的操作流程图。
图5是说明可在搜索图2的特征空间中执行的各种操作的示例性的操作流程图。
图6是说明可在搜索图2的特征空间中执行的各种操作的另一个示例性的操作流程图。
图7说明计算系统的一个实施例,其中可以实现图1的数据映射和搜索系统和图4到图6的操作流。
具体实施例
一般地,这里描述的系统和方法涉及,或可协力用于搜索多个多维数据对象,以确定多维数据对象的哪一个或哪一些与给定的查询点重叠。根据各个实施例,多维数据对象表示为特征空间内的超矩形。如果要搜索的多维数据对象不是超矩形,则多维数据对象首先映射到特征空间内的超矩形。为了方便超矩形的快速搜索,特征空间内的每个维度首先被划分为多个预定的间隔。然后,为每个维度内的每个间隔创建位矢量所索引。每个位矢量索引指示特征空间内的每个超矩形是否与位矢量相关联的间隔重叠。
当接收到查询点时,从每个维度中选择与查询点重叠的单个间隔。然后,与每个已选择的间隔相关联的位矢量索引逻辑“与”在一起,以形成单个结果位矢量索引。该结果位矢量索引标识特征空间内减少的超矩形集。然后,可使用线性扫描快速搜索该减少的超矩形集,或搜索由减少的集内的超矩形约计的多维数据对象,以确定该查询点的一个或一些匹配。
现在转到图1,这里说明的是示例性的数据映射和搜索系统100的一个实施例。如图所示,搜索系统100包括数据存储器102、映射模块104、搜索模块106、形状近似器模块108、以及多维特征空间110。包括在数据存储器102中的是多个数据项112(D1到Dn)。耦合到多维特征空间110的是第一类型的多个多维数据对象114(S1到Sn)和第二类型的多个多维数据对象116(R1到Rn)。
根据一个实施例,多维特征空间110是用于映射、处理、存储、和/或访问计算系统或计算进程中的多维数据点或对象的类型。根据这个实施例,多维特征空间110内的多维数据点是值的矢量。这些矢量的长度等于多维特征空间内的维度数量。这些特征内的每个索引的精确的形式和意义根据多维特征空间的形式而变化。根据这个实施例,多维数据对象114和116是多维数据点集。多维数据对象114和116可被定义为确定多维数据点是否是由多维对象定义的多个数据点集成员的函数或算法。如这里所使用的,当定义多维对象的基本函数或算法处理其类型对应于多维特征空间的矢量时,就说多维数据对象“耦合到”多维特征空间。
本领域的技术人员认识到,可用几何学来定义或描述多维数据点和对象。根据这个几何学定义,认为多维数据点矢量是高维空间的坐标。多维数据对象时多维数据点集,因此可被认为时高维空间内的形状或区域。因此,这里将多维数据点或对象“在多维特征空间之内”或“耦合到”(coupled to)多维特征空间。就是说,多维特征空间“包括”多维数据点或对象。
关于在多维特征空间112内搜索,这里,受到搜索的多维数据点指查询点。如果该查询点是虚构多维速据对象的多个多维数据点的集的成员,则说多维数据对象与查询点重叠。通过把多维对象的基本函数或算法应用于查询点,可确定该集的成员资格。进一步,如果多维数据对象很可能与查询点重叠,则多维数据对象与查询点匹配。因此,匹配是重叠的近似。这里使用短语“搜索特征空间”来描述执行耦合到多维特征空间的多维数据点和对象的匹配和重叠操作。
一般地,搜索模块106适合于确定数据存储器102中的数据项112是否与给定的数据点122匹配。然而,正如下面详细说明,搜索模块106不直接在数据存储器102中搜索数据项112。相反,数据项112首先被映射模块104映射到特征空间110内的多维数据对象。然后,搜索模块106评价查询点和特征空间110内的多维数据对象,以确定与查询点122匹配的多维数据对象。
根据一个实施例,映射模块104直接把数据项112映射到第二类型的多维数据对象116。然后,关于第二类型的多维数据对象116,搜索模块106进行搜索。根据另一个实施例,映射模块104把数据项112映射到第一类型的多维数据对象114。在这个实施例中,形状近似器模块108然后把第一类型的多维数据对象114转换或映射为第二类型的多维数据对象116。搜索模块106然后关于第二类型的多维数据对象116和/或第一类型的多维数据对象114进行该搜索。
根据一个实施例,数据存储器102由计算机可读介质组成或包括它们。例如,而非限制,根据一个实施例,数据存储器102是具有存储在计算机可读介质,如磁性或光介质上的数据对象的数据库。作为这里使用,计算机可读介质可为能存储和/或包含数据和/或计算机可执行指令、并可由计算系统或计算进程访问的任何可用介质。计算机可读介质可包括,但不限于,易失的和非易失的介质、可移动的和不可移动的介质、以及调制数据信号。术语“调制数据信号”指具有一个或多个以在信号中编码信息的方式设置或改变其特征的信号。
根据一个实施例,数据存储器102内的每个数据项112是数据样本或文件。例如,而非限制,根据一个实施例,每个数据项112是介质样本或文件,如声频或视频样本或文件。根据另一个实施例,数据项112可为其他类型的采样或文件。
一般地,映射模块104适合于把数据存储器内的数据项112映射到特征空间108内的多维数据对象。如之前提及,数据项112可映射为第一类型的多维数据对象114或映射为第二类型的多维数据对象116。然而,如以下将更为详细描述的,映射模块104一般把数据项112映射到第一类型的多维数据对象114。
本领域的技术人员将认识到,多维数据对象有许多不同的类型(形状)和大小。两种常见类型的多维数据对象是超球形和超矩形。其他类型的多维数据对象是(并非限制),超椭圆体或多面体。
如以下更为详细描述的,根据这里描述的各种实施例,第一类型的多维数据对象114为超球形,而第二类型的多维数据对象116为超矩形。因此,为了简化,第一类型的多维数据对象114这里将称为超球形,而第二类型的多维数据对象116这里将称为超矩形。然而,应该理解,这里描述的各种方法和系统可同样应用于第一类型的多维数据对象为其他类型的多维数据对象变体的场合。
超矩形可被定义为多维特征空间内所有点的集,这样每个点在特征空间内的每个维度有值,该值处于每个维度的最小值和最大值之间。超球形可被定义为多维特征空间内所有点的集,这样每个点到一固定点的距离为欧几里得(Euclidean)距离,该距离小于或等于阈值。该固定点作为超球形的中心是已知的。
转到图2,这里说明的是包括多个超矩形214到222的特征空间110的概括的示例性表示。为了简化表示,所示为包括两个维度的超矩形的2维特征空间。然而,应该理解,特征空间110和其中包括的超矩形,可为任何正数数量的维度。
如图2所示,特征空间110有第一维度(dim1)210和第二维度(dim2)212。如之前提及,特征空间110内的每个维度能获得一个范围的可能值。沿每个维度显示该范围的可能值。尽管图2中只显示了沿维度210和212的正整数值,但应该认识到,每个维度也包括负数值和浮点值。同样地,应该认识到,尽管图2只显示了具有正整数值范围的超矩形,但值的范围延伸至负数值的超矩形、只有负数值范围的超矩形、或具有浮点值范围的超矩形也是可能的。
可使用多个不同的惯例来指定特征空间110内的超矩形的大小和位置。图2说明可用于指定特征空间110内的超矩形的大小和位置的一个示例性的惯例。特别是,特征空间110内的每个超矩形包括标识符(R1、R2……等),以及两个坐标对。如所示,第一个坐标对标识关于特征空间110的超矩形的较低左边角的位置,而第二个坐标对指示关于特征空间110的超矩形的较高的右边角的位置。例如,特征空间内较低的最左边的超矩形214表示为R1{1,1}-{4,2}。此例中,R1指示超矩形标识符,{1,1}指示超矩形214的较低的左边角,而{4,2}指示超矩形214的较高的右边角。将认识到,从这些有序的坐标对,可以确定超矩形R1到R5沿维度一和维度二的属性的范围。
现在回到图1,根据一个实施例,搜索模块106、映射模块104、以及形状近似器模块108每个由计算机可执行指令构成,或包括计算机可执行指令。根据一个实施例,这些计算机可执行指令存储或包含在一种或多种类型的计算机可读介质中,且由一个或多个计算进程或设备执行,如以下关于图7所示和所述。
应该理解,尽管这里作为包含或包括包含在计算机可读介质中的计算机可执行指令来描述搜索模块106、映射模块104、以及形状近似器模块108,但搜索模块106、映射模块104、形状近似器模块108、及其因此执行的任何或所有功能或操作,同样可全部或部分作为计算设备内的互连的机器逻辑电路或电路模块来体现。换个方式说,可以预期,搜索模块106、映射模块104、形状近似器模块108、及其操作和功能可作为硬件、软件、固件、或者硬件、软件和/或固件的各种结合来实现。
一般地,如之前所述,形状近似器模块108适合于把特征空间110内的超球形114映射或转换为超矩形116。由形状近似器模块108完成的这种映射的方式可基于要被映射或转换的超球形114的类型而变化。例如,而非限制,根据一个实施例,每个超球形114被映射到大小完全包围该超球形的超矩形116。例如,超球形114可被映射到具有维度的超矩形116,这样,如果超球形114置于超矩形116的中心,则超球形114将完全包含在超矩形116中。因此,应该认识到,超矩形的整个大小或体积将依赖于要被映射的超矩形的整个大小或体积。
一个实施例中,每个超矩形116将是完全包围要被映射的超球形114的最小可能的超矩形。在另一个实施例中,如果允许错误的负数搜索结果,则每个超矩形116可以比完全包围要被映射的超球形114的最小可能的超矩形更小。
应该理解,尽管作为使用形状近似器模块108在特征空间110内映射超球形来描述了超矩形116,但根据另一个实施例,可以使用其他模块或系统或映射技术在特征空间110中创建特征空间内的超矩形116,或将其映射到特征空间110。
一般地,搜索模块106执行特征空间110的搜索,以标识与给定的查询点122重叠的超矩形。假定超矩形是多维数据对象,则以上描述了与超矩形重叠和匹配的定义。根据一个实施例,搜索模块106执行图3,4,5和/或6说明的操作,现在将作描述。
首先转到图3,这里说明的是包括操作300的示例性的操作流,该操作将在搜索特征空间110之前由搜索模块执行。根据一个实施例,一旦特征空间110已经被超矩形116组装,就执行操作300。如以下将更为详细的描述,操作300创建搜索过程中使用的位矢量索引的集。操作300可在各种时间执行。然而,一般地,操作300在每个搜索操作之前不会执行。相反,操作300一般在大量超矩形116已经被添加到特征空间110或从中移除时执行。例如,操作300只在关于位矢量索引已经发生给定数量的修改后才执行。
如图3所示,在操作流300的开始,划分操作310把特征空间110内的每个维度划分为多个不相交间隔。例如,如图2所示,维度210和212都被划分为三个不相交的间隔。如所示,维度一210已被划分为包含维度一210内小于4的所有值的间隔一224;包含维度一内的4和8之间的所有值的间隔二226;以及包含维度一内大于8的所有值的间隔三228。尽管并未明确示出,但维度二以及特征空间110内的任何其他维度也以类似方式划分。
确定间隔的开始点和结束点的精确方式可以变化,且依赖于如超矩形分布和/或超球形大小等情况。例如,而非限制,根据一个实施例,当想要m个间隔时,在间隔之间选择m-1个划分或间隔分隔物。例如,如图2所示,三个间隔要求选择两个间隔分隔物(3-1=2)。根据这个实施例,每个维度内的第一个和最后一个间隔一侧不被限制。例如,如图2所示,间隔一224一侧被值4所限制,但在另一侧仍不受限制。类似地,间隔一228一侧被值8所限制,但在另一侧仍不受限制。
根据一个实施例,选择每个间隔分隔物的位置,以便该位置处于特征空间内的其中一个超矩形的值范围的起点或末端(边界)中。例如,如图2所示,间隔一224和间隔二226之间的分隔物230出现在沿维度一210的R1 214的值范围的末端。类似地,间隔二226和间隔三228之间的分隔物232出现在沿维度一210的R2 216的值范围的末端。
根据一个实施例,间隔分隔物的位置确定如下。假设|S|等于特征空间内的超矩形的数量,m是想要的间隔的数量,a/b用于表示a除以b的截断取整,a%b表示a除以b的余数,而k=(2×|S|)%m。
等式(1)FirstIDsj=j×[(2×|S|/m]+j  1≤j≤k
等式(2)RemainingIDsj=j×[(2×|S|)/m]+k  k+1≤j≤m
等式(1)给出了与最小边界ID相关并以增序分类的m个分隔物的前k个[j=1到k]分隔物的的ID(其中ID=n是沿该轴的第n个最小的超矩形的边界)。等式(2)给出了剩余的分隔物的ID。例如,如果FirstIDs1=5,则第一个分隔物是沿该轴的第5个最小的超矩形的边界。在这个实施例中,是想把大约相等数量的多维数据对象分配给每个间隔,因为这最终导致更有效的搜索。
关于图2所示的特征空间和超矩形使用等式(1),可以看到k=(2×5)%3=1。因此,FirstIDs1=1×[(2×5)/3]+1=4。那么,第一个分隔物在第四个矩形的边界(其中以增序对边界分类)。关于图2所示的特征空间和超矩形使用等式(2),可以看到RemainingIDs2=2×[(2×5)/3]+1=7。因此,第二个分隔物在第七个矩形的边界。既然第四个和第七个边界分别在4和8处,则这里就是放置分隔物的地方。根据一个实施例,基于查询点分布的先前知识,使用受限的矩形边界的集。那么,以和已经描述的相同方式来使用该受限的矩形边界的集。
划分操作310之后,位矢量索引构造操作然后构造与每个维度内的每个间隔对应的位矢量索引。特别是,对每个间隔,创建指定特征空间110内的每个超矩形116是否与该间隔重叠的位矢量索引。如果所有或部分超矩形116的值范围落入由该间隔指定的值范围,就说超矩形116与某一维中的间隔重叠。例如,关于图2,超矩形R1 214、R4 220、R5 222的每一个与间隔一224重叠;超矩形R2 216、R4220、R5 222的每一个与间隔二226重叠;而超矩形R3 218和R5 222的每一个与间隔三228重叠。
根据一个实施例,每个位矢量索引包括与特征空间内的超矩形的数量相同的位。而且,位矢量索引内的每个位与特征空间内的单个超矩形相关联。根据另一个实施例,位矢量可包括比超矩形更大数量的位。例如,在一个实施例中,当从特征空间内移除超矩形时,与其相关联的位可简单设定为“0”,而非从位矢量索引中移除。
位矢量索引中的每个位指示与它相关联的超矩形是否和与位矢量索引相关联的间隔重叠。例如,值为“1”的位可能指示它相关联的超矩形和与位矢量索引相关联的间隔重叠,而值为“0”的位可能指示它相关联的超矩形和与位矢量索引相关联的间隔不重叠。例如,关于图2,与间隔一224相关联的第一位矢量索引包括五个位,且可写作[10011],其中第一个位(1)指示R1与间隔一重叠,第二个位(0)指示R2与间隔一不重叠,第三个位(0)指示R3与间隔一不重叠,第四个位(1)指示R4与间隔一重叠,而第五个位(1)指示R5与间隔一重叠。使用这种惯例,与间隔二226相关联的位矢量索引为[01011],而与间隔三228相关联的位矢量索引为[00101]。
现在转到图4,这里说明的是包括操作的详细的示例性操作流400,这些操作可用于为特征空间110构造位矢量索引。应该认识到,操作流400适合于为特征空间110内任何数量的维度和任何数量的维度间隔处理位矢量索引的构造。
如所示,在操作流400的开始,维度设定操作410设定或初始化维度变量(dim)为值1。维度设定操作410之后,划分维度操作410把维度“维度(dim)”划分为间隔,如上所述。将会认识到,既然当前维度变量dim设定为1,则划分维度操作412将划分给定特征空间的第一个维度。划分维度操作412之后,设定间隔操作414设定或初始化间隔变量intvl为值1。接着,设定超矩形操作416设定或初始化超矩形变量rect为值1。
设定超矩形操作416之后,设定位操作418在由维度变量dim指定的维度内,确定由超矩形变量rect指定的超矩形是否与由间隔变量intvl指定的间隔重叠。如果在指定的维度内,确定指定的超矩形与指定的间隔重叠,则设定位操作418在与指定的维度内指定的间隔关联的位矢量索引内设定与位矢量索引内指定的超矩形相关联的位为1。然而,如果在指定的维度内,且确定指定的超矩形与指定的间隔不重叠,则设定位操作418在与指定的维度内指定的间隔关联的位矢量索引内设定与位矢量索引内指定的超矩形相关联的位为0。
接着,增量超矩形操作420递增超矩形变量rect。矩形数量确定操作422然后确定超矩形变量rect是否等于特征空间内的超矩形的数量加1。如果超矩形变量rect不等于特征空间内的超矩形的数量加1,则操作流400返回设定位操作418。然而,如果超矩形变量rect等于特征空间内的超矩形的数量加1,则操作流400继续到递增间隔操作424,其中间隔变量intvl递增。
递增间隔操作424之后,间隔确定操作426确定间隔变量intvl是否等于由维度变量dim指定的维度内的间隔的数量加1。如果间隔变量intvl不等于由维度变量dim指定的维度内的间隔的数量加1,则操作流返回到设定超矩形操作416。然而,如果间隔变量intvl等于由维度变量dim指定的维度内的间隔的数量加1,则操作流继续到增量维度操作428,其中维度变量dim递增。
递增维度操作428之后,维度确定操作430确定维度变量dim是否等于特征空间内的维度数量加1。如果维度变量dim不等于特征空间内的维度数量加1,则操作流400返回到划分维度操作412。然而,如果维度变量dim等于特征空间内的维度数量加1,则操作流400结束。
现在转到图5,这里说明的是可用于搜索特征空间110的示例性的操作流500。更为具体地,操作流500可用于在已经为特征空间110内的每个间隔创建位矢量索引之后,如上所述地根据操作流300和/或400,或者通过一些其他操作搜索特征空间110。如所示,在操作流500的开始,接收查询操作514接收查询项。接着,映射查询操作515把该查询项映射到多维特征空间的查询点。
映射查询操作515之后,间隔选择操作516从与查询点重叠的每个维度中选择间隔。如果维度内的查询点的值处于由该间隔指定的值范围内,就说维度内的间隔与查询点重叠。接着,“与”操作518把与间隔选择操作516中选择的间隔对应的所有位矢量索引逻辑“与”。位矢量索引的这种逻辑“与”产生单个结果位矢量索引,该结果位矢量索引指定了与接收到的查询点匹配的超矩形的集。将认识到,由结果位矢量索引指定的超矩形的集大多数情况下将明显小于特征空间110内的所有超矩形的集。
“与”操作518之后,匹配操作520比较接收到的查询点和由结果位矢量索引中的1索引的每个超矩形,以确定与接收到的查询点重叠的超矩形。在从相关联的多维数据对象中映射每个超矩形的情况下,并非比较接收到的查询点和由结果位矢量索引指定的每个超矩形,而是可以直接比较接收到的查询点和多维数据对象,该多维数据对象与由结果位矢量索引中的1索引的超矩形相关联。
现在转到图6,这里说明的是包括可用于搜索特征空间110的操作的另一个更为详细的示例性的操作流600。作为操作流,操作流600可在已经为特征空间110内的每个间隔创建位矢量索引之后,如上所述地根据操作流300和/或400,或者由一些其他操作实施。如所示,在操作流600的开始,接收查询操作610接收查询点。在已经接收查询点之后,设定维度操作612设定维度变量dim等于1。接着,确定间隔操作614确定由包括查询点的维度变量dim指定的维度内的间隔。换种方式说,确定间隔操作614确定由与查询点重叠的维度变量dim指定的维度内的间隔。选择位矢量索引操作616然后选择与在确定间隔操作614中确定的间隔对应的位矢量索引。
选择位矢量索引操作616之后,维度确定操作618确定维度变量dim是否等于1。如果维度变量dim等于1,则设定结果位矢量索引操作620设定结果位矢量索引等于在选择位矢量索引操作616中选择的位矢量索引,且操作流继续到维度变量递增操作624。然而,如果维度确定操作618确定维度变量dim不等于1,则操作流600继续到“与”操作622,其中在选择位矢量索引操作616中选择的位矢量索引与结果位矢量索引逻辑“与”,或“与”入结果位矢量索引。接着,维度变量递增操作624递增维度变量dim。
维度变量递增操作624之后,维度确定操作626确定维度变量dim是否等于特征空间内的维度数量。如果维度变量dim不等于特征空间内的维度数量,则操作流600返回到确定间隔操作614。然而,如果维度变量dim等于特征空间内的维度数量,则操作流继续到发现超矩形操作628,其中发现了对应于结果位矢量索引中的每个“1”的超矩形。接着,比较数据对象操作630比较接收到的查询点和与发现超矩形操作628发现的超矩形相关联的所有多维数据对象。返回数据对象操作630然后返同与接收到的查询点匹配的所有多维数据对象,且操作流600结束。
图7说明操作环境710的一个实施例,其中可以实现这里描述的各种系统、方法、以及数据结构。图7的示例性的操作环境710包括以计算机720形式的通用计算设备,它包括处理单元721\系统存储器722、以及可操作地连接各种系统组件,包括把系统存储器连接到处理单元721的系统总线723。这里可只有一个或更多处理单元721,这样计算机720的处理器包含单个中央处理单元(CPU)、或者多个处理单元(一般称为并行处理环境)。计算机720可为传统的计算机、分布式计算机、或任何其他类型的计算机。
系统总线723可为几种类型的总线结构的任何一种,包括:存储器总线或存储器控制器、外围总线、以及使用任何一种总线结构的局部总线。系统存储器可简单地称为内存,且包括只读存储器(ROM)724和随机存取存储器(RAM)725。基本输入/输出系统(BIOS)726一般存储在ROM 724内,它包括如启动时帮助在计算机720内的元件间传输信息的基本例程。计算机720还包括用于从硬盘读取和向其中写入的硬盘驱动器727(未示出)、用于从可移动的磁盘729读取或向其中写入的磁盘驱动器728、以及用于向如CD ROM或其它光学介质的可移动的光盘731读写的光盘驱动器730。
硬盘驱动器727、磁盘驱动器728和光盘驱动器730分别由硬盘驱动器接口732、磁盘驱动器接口733和光盘驱动器接口734连接到系统总线723。这些驱动器及其相关联的计算机可读介质提供了计算机可读指令、数据结构、程序模块以及其他用于计算机720的数据的非易失的存储。本领域的技术人员应该认识到,能够存储由计算机访问的数据的任何类型的计算机可读介质,如磁性盒式磁带、闪存卡、数字视频盘、柏努利(Bernoulli)磁带、随机存取存储器(RAM)、只读存储器(ROM)等等,都可用于示例性的操作环境。
包括操作系统735、一个或多个应用程序736、其他程序模块737、以及程序数据738的多个程序模块可存储在硬盘、磁盘729、光盘731、ROM724、RAM725中。用户可通过输入设备,如键盘40和定点设备742向计算机720输入命令和信息。其它输入设备(未示出)可包括话筒、操作杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些以及其它输入设备通常通过连接到系统总线的串口接口746,连接到处理单元721,但是也可以通过其它接口连接,如并行端口、游戏端口或通用串行总线(USB)。监视器747或其它类型的显示设备也通过接口,如视频适配器748连接到系统总线723。除了监视器以外,计算机一般包括其他外围输出设备(未示出),如扬声器和打印机。
计算机720可以工作在使用到一个或多个如远程计算机749的远程计算机的逻辑连接的网络化环境中。这些逻辑连接可通过连接到计算机720的通信设备或计算机720的一部分、或者其他方式来实现。远程计算机749可以是个人计算机、服务器、路由器、网络PC、客户机、对等设备或其他公共网络节点,且一般包括与计算机720相关的许多或所有上述元件,尽管图7中仅说明了存储器存储设备750。图7所示的逻辑连接包括局域网(LAN)751以及广域网(WAN)752。这种网络环境常见于办公室网络、企业范围的计算机网络、内联网以及因特网,它可以是所有类型的网络。
当用于LAN网络环境时,计算机720通过网络接口或适配器753连接到局域网751,网络接口或适配器753是一种类型的通信设备。当用于WAN网络环境时,计算机720一般包括调制解调器754,这是一种类型的通信设备,或包括用于在广域网752上建立通信的任何其他类型的通信设备。调制解调器754可为内置或外置,它通过串口接口746连接到系统总线723。在网络化的环境中,所述与个人计算机720有关的程序模块,或其一部分可存储在远程存储设备内。应该认识到。所示的网络连接是示例性的,并且用于在计算机间建立通信的其他手段和通信设备也可以使用。
已经提出了可以使用、或者可协力使用超矩形和位矢量索引的各种搜索方法的各种系统和方法。这些系统、方法和数据结构已经作为结合附加的权利要求中叙述的各种元素或操作来描述。然而,应该理解,前面的描述并不意图限制本专利的范围。相反,可以预期,类似于一种已经描述的,结合其他现有的或将来的技术,本发明所要求的系统、方法以及数据结构也可以其他方式来具体化,以包括不同的操作或元素、或者操作或元素的结合来体现。

Claims (31)

1.一种方法,它包含:
把多维特征空间内的每个维度划分为多个间隔;
在每个维度内标识与查询点重叠的间隔;
发现与多维特征空间耦合的与已标识的所有间隔匹配的一个或多个多维数据对象;以及
评价与所有已标识的间隔匹配的第一多维数据对象,以确定第一多维数据对象是否与该查询点重叠。
2.如权利要求1所述的方法,其特征在于,每个多维数据对象包含超矩形。
3.如权利要求1所述的方法,其特征在于,每个多维数据对象与数据项相关联。
4.如权利要求3所述的方法,其特征在于,每个数据项包含媒体数据项。
5.如权利要求1所述的方法,其特征在于,每个多维数据对象包含超球形。
6.如权利要求5所述的方法,其特征在于,每个超球形与数据项相关联。
7.如权利要求1所述的方法,其特征在于,所述发现连与已标识的所有间隔匹配的多维特征空间耦合的一个或多个多维数据对象的动作包含:
为每个间隔形成相关联的数据结构,该数据结构指示与该间隔匹配的多维数据对象;以及
处理与已标识的间隔相关联的每个数据结构,以产生多维数据对象的集,该集内的每个多维数据对象与每一个已标识的间隔匹配。
8.如权利要求7所述的方法,其特征在于,每个数据结构包含位矢量索引。
9.如权利要求8所述的方法,其特征在于,每个位矢量索引包含多个位,并且其中位矢量内的每个位与单个多维数据对象对应。
10.如权利要求9所述的方法,其特征在于,超矩形与每个多维数据对象相关联,并且其中位矢量索引内的每个位指示对应的超矩形是否与相应的间隔重叠。
11.如权利要求8所述的方法,其特征在于,所述处理动作包含:把与所有已选择的间隔相关联的位矢量索引进行逻辑“与”。
12.如权利要求1所述的方法,其特征在于,每个多维数据对象与和多维特征空间耦合的超矩形相关联,并且其中所述发现与已标识的所有间隔匹配的多维特征空间耦合的一个或多个多维数据对象的动作包含:比较所述查询点和与所有已标识的间隔重叠的每个超矩形。
13.如权利要求12所述的方法,其特征在于,每个多维数据对象包含超球形。
14.一种包含用于执行以下动作的计算机可执行指令的计算机可读介质,所述动作包含:
把多维特征空间内的每个维度划分为多个间隔;
为每个间隔形成相关联的数据结构,该数据结构指示与所述多维特征空间耦合的多个多维数据对象中与该间隔匹配的多维数据对象;
接收查询点并在每个维度内选择由该查询点重叠的间隔;
处理与已选择的间隔相关联的每个数据结构,以确定多维数据对象的集;以及
确定与所述查询点重叠的多维数据对象的子集。
15.如权利要求14所述的计算机可读介质,其特征在于,每个数据结构包含位矢量索引。
16.如权利要求15所述的计算机可读介质,其特征在于,所述处理与已选择的间隔相关联的每个数据结构,以确定多维数据对象的集的动作包含:把所有位矢量索引进行逻辑“与”,以确定多维数据对象的集。
17.如权利要求15所述的计算机可读介质,其特征在于,每个位矢量索引有多个位,且位矢量内的每个位与耦合到多维特征空间的多维数据对象对应。
18.如权利要求15所述的计算机可读介质,其特征在于,每个位矢量索引有多个位,位矢量内的每个位与单个超矩形对应,并指示相应的超矩形是否和与所述数据结构相关联的间隔重叠。
19.如权利要求14所述的计算机可读介质,其特征在于,所述把多维特征空间内的每个维度划分为多个间隔的动作包含:把每个维度划分为多个不相交间隔。
20.如权利要求14所述的计算机可读介质,其特征在于,至少一个间隔被两个间隔分隔物所限制。
21.如权利要求14所述的计算机可读介质,其特征在于,至少一个间隔在沿一个维度的一个方向上不受限制。
22.如权利要求14所述的计算机可读介质,其特征在于,多个维度的第一维度的至少一个间隔被间隔分隔物所限制,并且其中根据FirstIDsj=j×[(2×|S|)/m]+j,来选择至少一个间隔分隔物,其中FirstIDsj表示沿第一维度的至少一个间隔分隔物的位置,m是沿第一维度选择的间隔分隔物的数量,1≤j≤(2×|S|)%m,且|S|等于耦合到所述多维特征空间的超矩形的数量。
23.如权利要求14所述的计算机可读介质,其特征在于,多个维度的第一维度的至少一个间隔被间隔分隔物所限制,并且其中根据RemainingIDsj=j×[(2×|S|)/m]+(2×|S|)%m,来选择至少一个间隔分隔物,其中RemainingIDsj表示沿第一维度的间隔分隔物的位置,m是沿第一维度选择的间隔分隔物的数量,(2×|S|)%m+1≤j≤m,且|S|等于耦合到所述多维特征空间的超矩形的数量。
24.一种系统,它包含:
包含多个数据项的数据存储器;
具有在其中定义的与多个多维数据对象耦合的多维特征空间的计算机可读介质,每个多维数据对象与数据项相关联;和
搜索模块,它适合于:
把多维特征空间内的每个维度划分为多个间隔;
在每个维度中选择与查询点重叠的间隔;
确定与所有已选择的间隔匹配的多个多维数据对象的子集;以及
基于所述查询点和确定的多维数据对象的子集,选择数据项。
25.如权利要求24所述的系统,其特征在于,该系统还包含:
适合于把多个数据项的每个映射到耦合到所述多维特征空间的多维对象的映射模块。
26.如权利要求25所述的系统,其特征在于,该系统还包含:
适合于把每个多维对象映射到耦合到所述多维特征空间的超矩形的形状近似器模块。
27.如权利要求25所述的系统,其特征在于,每个多维对象包含超球形。
28.如权利要求27所述的系统,其特征在于,至少两个超球形大小不同。
29.如权利要求26所述的系统,其特征在于,至少两个超矩形大小不同。
30.一种具有用于执行下列动作的计算机可执行指令的计算机可读介质,所述动作包含:
把多维特征空间内的每个维度划分为多个间隔,该特征空间与多个多维数据对象耦合,每个多维数据对象与数据项相关联;
在每个维度中标识包括查询点的间隔;
标识耦合到特征空间的一个或多个与所有已标识的间隔匹配的多维数据对象;以及
使用所述查询点和已标识的一个或多个多维数据对象,标识与该查询点匹配的数据项。
31.如权利要求30所述的计算机可读介质,其特征在于,所述标识数据项的动作包含:确定与数据项相关联的每个多维数据对象是否与所述查询点重叠。
CNA2004800172021A 2003-06-23 2004-05-06 使用位矢量索引的多维数据对象搜索 Pending CN1809826A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/602,438 US6941315B2 (en) 2003-06-23 2003-06-23 Multidimensional data object searching using bit vector indices
US10/602,438 2003-06-23

Publications (1)

Publication Number Publication Date
CN1809826A true CN1809826A (zh) 2006-07-26

Family

ID=33518093

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800172021A Pending CN1809826A (zh) 2003-06-23 2004-05-06 使用位矢量索引的多维数据对象搜索

Country Status (7)

Country Link
US (3) US6941315B2 (zh)
EP (1) EP1629397A4 (zh)
JP (1) JP4516071B2 (zh)
KR (1) KR101015324B1 (zh)
CN (1) CN1809826A (zh)
TW (1) TWI360756B (zh)
WO (1) WO2005002243A2 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866358A (zh) * 2010-06-12 2010-10-20 中国科学院计算技术研究所 一种多维区间查询方法及系统
CN102255788A (zh) * 2010-05-19 2011-11-23 北京启明星辰信息技术股份有限公司 报文分类决策构建系统及方法、报文分类系统及方法
CN102426523A (zh) * 2010-10-21 2012-04-25 微软公司 多维对象
CN103049296A (zh) * 2012-12-28 2013-04-17 北界创想(北京)软件有限公司 为下载设备自动匹配目标应用的方法和装置
CN107992503A (zh) * 2016-10-26 2018-05-04 微软技术许可有限责任公司 数据分析中的查询处理

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
US20080015870A1 (en) * 2003-05-30 2008-01-17 Lawrence Benjamin Elowitz Apparatus and method for facilitating a search for gems
US7831615B2 (en) * 2003-10-17 2010-11-09 Sas Institute Inc. Computer-implemented multidimensional database processing method and system
US20070198494A1 (en) * 2005-07-08 2007-08-23 Vadon Mark C Apparatus and method for facilitating a search for sets of gems
US8271521B2 (en) * 2006-03-20 2012-09-18 Blue Nile, Inc. Computerized search technique, such as an internet-based gemstone search technique
US20070239675A1 (en) * 2006-03-29 2007-10-11 Microsoft Corporation Web search media service
US20080086493A1 (en) * 2006-10-09 2008-04-10 Board Of Regents Of University Of Nebraska Apparatus and method for organization, segmentation, characterization, and discrimination of complex data sets from multi-heterogeneous sources
US20080263010A1 (en) * 2006-12-12 2008-10-23 Microsoft Corporation Techniques to selectively access meeting content
CN101861579A (zh) * 2007-11-17 2010-10-13 潘世爵 后续地联络人际关系的装置、方法及系统
US8688723B2 (en) * 2007-12-21 2014-04-01 Hewlett-Packard Development Company, L.P. Methods and apparatus using range queries for multi-dimensional data in a database
US8024288B2 (en) * 2008-08-27 2011-09-20 Oracle International Corporation Block compression using a value-bit format for storing block-cell values
US8055687B2 (en) * 2009-01-20 2011-11-08 Hewlett-Packard Development Company, L.P. System and method for determining intervals of a space filling curve in a query box
US8738354B2 (en) * 2009-06-19 2014-05-27 Microsoft Corporation Trans-lingual representation of text documents
US8229716B2 (en) * 2010-01-05 2012-07-24 The United States Of America As Represented By The Secretary Of The Navy Fast tracking methods and systems for air traffic modeling using a Monotonic Lagrangian Grid
US8676801B2 (en) 2011-08-29 2014-03-18 Sas Institute Inc. Computer-implemented systems and methods for processing a multi-dimensional data structure
JP2014006613A (ja) * 2012-06-22 2014-01-16 Dainippon Screen Mfg Co Ltd 近傍探索方法および類似画像探索方法
US9298757B1 (en) * 2013-03-13 2016-03-29 International Business Machines Corporation Determining similarity of linguistic objects
CN104935504B (zh) * 2014-03-17 2018-05-22 中国移动通信集团河北有限公司 一种确定数据包对应的数据规则的方法及装置
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
US10733164B2 (en) 2015-06-23 2020-08-04 Microsoft Technology Licensing, Llc Updating a bit vector search index
US10467215B2 (en) 2015-06-23 2019-11-05 Microsoft Technology Licensing, Llc Matching documents using a bit vector search index
US10565198B2 (en) 2015-06-23 2020-02-18 Microsoft Technology Licensing, Llc Bit vector search index using shards
US10242071B2 (en) 2015-06-23 2019-03-26 Microsoft Technology Licensing, Llc Preliminary ranker for scoring matching documents
US10229143B2 (en) 2015-06-23 2019-03-12 Microsoft Technology Licensing, Llc Storage and retrieval of data from a bit vector search index
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
JP6638484B2 (ja) * 2016-03-10 2020-01-29 富士通株式会社 情報処理装置、類似検索プログラム、及び類似検索方法
US10650012B1 (en) * 2016-07-13 2020-05-12 United States Of America As Represented By Secretary Of The Navy Multi-dimensional range-index searching using search box approximation and splitting
JP6666312B2 (ja) 2017-08-03 2020-03-13 株式会社日立製作所 多次元データ管理システム及び多次元データ管理方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1647992A (en) * 1923-10-08 1927-11-08 Walter F Stimpson Adjustable leveling foot for scale bases
US1690408A (en) * 1926-10-25 1928-11-06 Champion Hardware Company Hasp
US2583806A (en) * 1950-11-08 1952-01-29 Joseph H Batzle Garment carrying rack for automobiles
JPS4823376Y1 (zh) * 1969-10-04 1973-07-07
US3912315A (en) * 1972-12-13 1975-10-14 Aisin Seiki Door latch device
DE8715925U1 (de) * 1987-12-02 1988-02-11 Kiekert AG, 42579 Heiligenhaus Kraftfahrzeugtürverschluß mit Schließkeil und Schloß
US5499360A (en) * 1994-02-28 1996-03-12 Panasonic Technolgies, Inc. Method for proximity searching with range testing and range adjustment
US5761652A (en) * 1996-03-20 1998-06-02 International Business Machines Corporation Constructing balanced multidimensional range-based bitmap indices
US5781906A (en) * 1996-06-06 1998-07-14 International Business Machines Corporation System and method for construction of a data structure for indexing multidimensional objects
US6134541A (en) * 1997-10-31 2000-10-17 International Business Machines Corporation Searching multidimensional indexes using associated clustering and dimension reduction information
US6122628A (en) * 1997-10-31 2000-09-19 International Business Machines Corporation Multidimensional data clustering and dimension reduction for indexing and searching
US6490532B1 (en) * 1999-01-25 2002-12-03 Mount Sinai Hospital Method to construct protein structures
US6871201B2 (en) * 2001-07-31 2005-03-22 International Business Machines Corporation Method for building space-splitting decision tree
KR100483321B1 (ko) * 2001-10-17 2005-04-15 한국과학기술원 하이퍼사각형 기반의 다차원 데이터 세그먼테이션을이용한 유사성 검색 장치와 그 방법
JP2003330943A (ja) * 2002-05-17 2003-11-21 Fujitsu Ltd 多次元インデクス生成装置、多次元インデクス生成方法、近似情報作成装置、近似情報作成方法、及び検索装置
US6928445B2 (en) * 2002-06-25 2005-08-09 International Business Machines Corporation Cost conversant classification of objects

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102255788A (zh) * 2010-05-19 2011-11-23 北京启明星辰信息技术股份有限公司 报文分类决策构建系统及方法、报文分类系统及方法
CN102255788B (zh) * 2010-05-19 2014-08-20 北京启明星辰信息技术股份有限公司 报文分类决策构建系统及方法、报文分类系统及方法
CN101866358A (zh) * 2010-06-12 2010-10-20 中国科学院计算技术研究所 一种多维区间查询方法及系统
CN101866358B (zh) * 2010-06-12 2012-09-05 中国科学院计算技术研究所 一种多维区间查询方法及系统
CN102426523A (zh) * 2010-10-21 2012-04-25 微软公司 多维对象
CN103049296A (zh) * 2012-12-28 2013-04-17 北界创想(北京)软件有限公司 为下载设备自动匹配目标应用的方法和装置
CN107992503A (zh) * 2016-10-26 2018-05-04 微软技术许可有限责任公司 数据分析中的查询处理
CN107992503B (zh) * 2016-10-26 2022-05-24 微软技术许可有限责任公司 数据分析中的查询处理
US11445240B2 (en) 2016-10-26 2022-09-13 Microsoft Technology Licensing, Llc Query processing in data analysis

Also Published As

Publication number Publication date
TWI360756B (en) 2012-03-21
US7325001B2 (en) 2008-01-29
WO2005002243A3 (en) 2005-06-30
EP1629397A4 (en) 2012-03-21
KR20060033733A (ko) 2006-04-19
US6941315B2 (en) 2005-09-06
JP4516071B2 (ja) 2010-08-04
JP2007521565A (ja) 2007-08-02
TW200508911A (en) 2005-03-01
WO2005002243A2 (en) 2005-01-06
US7430567B2 (en) 2008-09-30
US20050171972A1 (en) 2005-08-04
EP1629397A2 (en) 2006-03-01
KR101015324B1 (ko) 2011-02-15
US20040260727A1 (en) 2004-12-23
US20060041541A1 (en) 2006-02-23

Similar Documents

Publication Publication Date Title
CN1809826A (zh) 使用位矢量索引的多维数据对象搜索
Wang et al. Contextual weighting for vocabulary tree based image retrieval
US7966327B2 (en) Similarity search system with compact data structures
Liu et al. An investigation of practical approximate nearest neighbor algorithms
Zhou et al. Spatial coding for large scale partial-duplicate web image search
CA2598750C (en) Method and apparatus for efficient indexed storage for unstructured content
KR101266358B1 (ko) 다중 길이 시그니처 파일 기반 분산 색인 시스템 및 방법
US20070005556A1 (en) Probabilistic techniques for detecting duplicate tuples
CN111801665B (zh) 用于大数据应用的分层局部敏感哈希(lsh)分区索引
CN1957310A (zh) 用于内容项目签名匹配的方法和装置
CN101751517B (zh) 一种基因组短序列映射的快速处理方法及系统
CN1352432A (zh) 索引和搜索特征向量空间的方法
Fei et al. A simple hierarchical pooling data structure for loop closure
CN1193623C (zh) 彩色图象处理方法
CN104834663A (zh) 面向光盘库的全文检索系统
CN112632118A (zh) 查询数据的方法、装置、计算设备和存储介质
Mao et al. On optimizing distance-based similarity search for biological databases
Chiu et al. Approximate asymmetric search for binary embedding codes
KR100446639B1 (ko) 셀 기반의 고차원 데이터 색인 장치 및 그 방법
JP2001052024A (ja) 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体
Assent et al. Adaptable Distance Functions for Similarity-based Multimedia Retrieval.
US8019768B1 (en) Bidirectional data structure processing
CN116737973A (zh) 一种基于倒排索引融合的多特征图像检索方法
Müller Alignments and beyond: A versatile swarm-based framework for de novo amplicon clustering
CN116049102A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20060726