CZ297222B6 - Pocítacový zpusob reprezentace vícerozmerných dat, zarízení pro ulození programu a pocítacový program - Google Patents

Pocítacový zpusob reprezentace vícerozmerných dat, zarízení pro ulození programu a pocítacový program Download PDF

Info

Publication number
CZ297222B6
CZ297222B6 CZ20001552A CZ20001552A CZ297222B6 CZ 297222 B6 CZ297222 B6 CZ 297222B6 CZ 20001552 A CZ20001552 A CZ 20001552A CZ 20001552 A CZ20001552 A CZ 20001552A CZ 297222 B6 CZ297222 B6 CZ 297222B6
Authority
CZ
Czechia
Prior art keywords
data
cluster
burst
clusters
specified
Prior art date
Application number
CZ20001552A
Other languages
English (en)
Other versions
CZ20001552A3 (cs
Inventor
Castelli@Vittorio
Li@Chung-Sheng
Thamasian@Alexander
Original Assignee
International Business Machines Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corporation filed Critical International Business Machines Corporation
Publication of CZ20001552A3 publication Critical patent/CZ20001552A3/cs
Publication of CZ297222B6 publication Critical patent/CZ297222B6/cs

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Predlozený vynález se týká vylepseného zpusobu indexování vícerozmerných dat, který vytvárí kompaktní indexy takovým zpusobem, ze vsechny nebo vetsina indexu muze být rezidentní v hlavní pameti v libovolném okamziku. Behem shlukování a snízení pocturozmeru jsou vytvoreny informace o shlukování (111) a informace o snízení poctu rozmeru (112), které jsou vyuzity v následné vyhledávací fázi. Zpusobindexování muze být efektivní i za prítomnosti promenných, které nejsou vysoce korelovány. Dalsí nástroje slouzí pro efektivní provádení exaktního vyhledávání a vyhledávání nejblizsího souseda s vyuzitím informace o shlukování (111) a informace o snízení poctu rozmeru (112). Jeden príklad snízení poctu rozmeru vyuzívá postupu dekompozice singulární hodnoty. Zpusob muze být rovnez aplikován rekurzivne na kazdý ze shluku o snízeném poctu rozmeru. Snízení poctu rozmeru muze být rovnez aplikováno na celou databázi jako prvotní krok pri vytvárení indexu.

Description

Oblast techniky
Předložený vynález se týká vylepšeného informačního systému. Zvláštní myšlenka předloženého vynálezu se týká vytvoření a hledání kompaktních reprezentací vícerozměrných dat. Dalším aspektem předloženého vynálezu je vytvoření a hledání reprezentací vícerozměrných dat s pomocí kompaktních indexů v databázových systémech s využitím přidružené informace o shlukování a informace o snížení počtu rozměrů.
Dosavadní stav techniky
Vícerozměrné indexování je zásadní pro prostorové databáze, které jsou široce aplikovatelné v geografických informačních systémech (GIS), pro podporu rozhodování při přímých analýzách (Online Analytical Processing, OLAP) při použití velkých datových skladů a v multimediálních databázích, kde jsou z obrazových dat a videozáznamů odvozovány mnohorozměrné popisné vektory.
Podpora rozhodování se rychle stává klíčovou technologií obchodního úspěchu. Podpora rozhodování umožňuje v obchodu vyvodit užitečné informace, obvykle nazývané datovým skladem, z operační databáze. Jelikož operační databáze obsahuje informace, zachycující určitý stav, obsahuje datový sklad obvykle historické informace. Uživatele datových skladů převážně zajímá více sledování trendů než pozorování izolovaných záznamů. Dotazy pro podporu rozhodování jsou tedy výpočetně více náročné a mají za následek značné využití agregace. Z toho mohou vyplývat dlouhé dokončovací prodlevy a nepřípustná omezení produktivity.
Známými postupy, využívanými pro zmenšení prodlev jsou například předzpracování často používaných dotazů, použití postupů vzorkování nebo obojí. Zvláště pak aplikování metod přímých analýz (OLAP), jako například datových krychlí, na rozsáhlých relačních databázích nebo datových skladech pro podporu rozhodování zaznamenalo v minulosti vzrůstající pozornost (viz např. Jim Gray, Adam Bosworth, Andrew Layman a Hamid Pirahesh, „Data Cube: A Relational Aggregation Operátor Generalizing Group-By, Cross-Tab, and Sub-Totals“, Intemational Conference on Data Engineering, 1996, New Orleans, str. 152-160) [Gray], Uživatelé zde obvykle nahlížejí na historická data z datových skladů jako na vícerozměrné datové krychle. Každá buňka (či bod mřížky) v dané krychli je pohledem sestávajícím ze seskupení zájmů jako například celkový obrat.
Vícerozměrné indexy mohou být využity pro odpovídání na různé typy dotazů, jako například:
- vyhledávání záznamů s danými hodnotami indexovaných sloupců (exaktní vyhledání);
- vyhledání záznamů, které se nacházejí mezi [al..a2], \bl..b2], ... ,[zl...z2], kde a, b a z představují různé rozměry (vyhledání rozsahu); a
- vyhledání A: záznamů nejvíce podobných uživatelem definovanému vzoru nebo příkladu (vyhledání k-nejbližších sousedů).
Vícerozměrné indexování je rovněž použitelné pro dolování obrazových dat. Příkladem produktu pro dolování obrazových dat je produkt IBM pod obchodním názvem MEDIAMINER, poskytující dva nástroje: Query by Image Content (QBIC) a IMAGEMINER, pro získávání obrazových dat na základě analýzy jejich obsahu, narozdíl od prohledávání manuálně vytvořeného seznamu přidružených klíčových slov.
QBIC je vhodným nástrojem pro aplikace v oblastech, kde klíčová slova nemohou poskytnout vyhovující výsledek, jako například v knihovnách, muzeích a uměleckých galeriích; nebo v případě snímků pro online elektronické obchodování (Electronic Commerce), kde vizuální katalogy dovolují uživateli vyhledávat tematicky, například plakáty a módu, s využitím barev a textury. Aplikace pro dolování obrazových dat jako například IMAGEMINER umožňují dotazovat obrazovou databázi využitím pojmových dotazů jako například „zalesněná plocha“, „led“ nebo „válec“. Obsah obrazových dat jako je barva, textura a obrys je kombinován do formy jednoduchých objektů, které jsou systémem automaticky rozpoznávány.
Tyto jednoduché objekty jsou popsány ve znalostní bázi. Výsledkem této analýzy je textový popis, který je indexován pro pozdější vyhledávání.
Během provádění databázového dotazu program pro prohledávání databáze provádí přístup do části uložených dat a do části indexové struktury; objem dat, ke kterému je prováděn přístup je závislý na druhu dotazu a na údajích poskytnutých uživatelem, právě tak, jako na efektivnosti algoritmu pro indexování. Rozsáhlé databáze se vyznačují tím, že data a alespoň část indexové struktury je rezidentní v rozsáhlejší, pomalejší a levnější části paměťové hierarchie počítačového systému, obvykle představované jedním nebo více pevnými disky. Během procesu vyhledávání je část dat a indexové struktury převedena do rychlejších částí paměťové hierarchie, jako například do hlavní paměti a do jedné nebo více úrovní vyrovnávací paměti. Rychlejší části paměťové hierarchie jsou obecně nákladnější a představují tedy menší procento kapacity paměti celkové paměťové hierarchie. Program, používající instrukce a data, která mohou být zcela převedena do jedné či více úrovní vyrovnávací paměti je rychlejší a efektivnější než proces, který navíc používá instrukce a data, která jsou rezidentní ve hlavní paměti, který je rychlejší oproti programu, který zároveň používá instrukce a data rezidentní na pevných discích. Technologická omezení spočívají ve vysokých nákladech na vyrovnávací a hlavní paměť, které způsobují, že cena počítačových systémů, které by byly vybaveny dostatečnou kapacitou hlavní či vyrovnávací pamětí schopných zcela pojmout rozsáhlé databáze, je neúnosná.
Vyvstává tedy potřeba vytvořit vylepšený způsob indexování, produkující indexy takového rozsahu, že všechny indexy nebo jejich většinu bude možno převést v libovolném okamžiku do hlavní paměti; tímto je vymezeno množství dat převáděných z pevného disku do hlavní paměti během procesu vyhledávání. Předložený vynález řeší tyto požadavky.
Některé známé postupy prostorového indexování, jako například R-trees, mohou být použity pro řadu dotazů typu nejbližší soused. Popis R-trees je uveden například v dokumentu A. Guttmana „R-trees: A Dynamic Index Structure for Spatial Searching“, ACM SIGMOD Conf. on Management of Data, Boston, MA, červen 1994. Efektivita těchto postupů se však výrazně zhoršuje s rostoucím počtem rozměrů příznakového prostoru, přičemž vyhledávací prostor se stává velmi řídkým. Například je známo, že postupy jako R-trees nejsou použitelné v případech, kdy počet rozměrů je větší než 8, kde kriteriem použitelnosti je čas pro provedení požadavku v porovnání s časem potřebným pro jeho provedení postupem, při kterém dojde k postupnému prohledání všech záznamů v databázi. Neefektivnost běžných postupů indexování v mnohorozměrných prostorech je důsledkem známého jevu zvaného „curse of dimensionality“ popsaného například v dokumentu „From Statistics to Neural Networks“, NATO ASI Series, vol. 136, SpringerVerlag, 1994, autoři V. Cherkassky, J. H. Fřiedman a Ch. Wechsles. Závažným důsledkem uvedeného jevu je fakt, že shlukování indexového prostoru do vícerozměrných krychlí je neefektivním postupem pro tvorbu příznakových prostorů o větším počtu rozměrů.
Z důvodu neefektivnosti spojené s použitím existujících postupů prostorového indexování pro indexování příznakového mnohorozměrného prostoru byly vyvinuty v oboru známé postupy pro snížení počtu rozměrů příznakového prostoru. Počet rozměrů může být snížen například výběrem proměnné podmnožiny (též známé jako výběr třídy) nebo pomocí dekompozice singulární hodnoty s následným výběrem proměnné podmnožiny, jak popisuje například C. T. Chen, Linear
-2CZ 297222 B6
Systém Theory and Design, Holt, Rinehart and Winston, Appendix E, 1984. Výběr proměnné podmnožiny je dobře znám, je živou oblastí studia ve statistice a byly předloženy četné metodiky (viz např. Shibata et al., An Optimal Selection of Regression Variables, Biometrika vol. 68, No. 1, 1981, str. 45-54). Tyto metody jsou efektivní v systému pro tvorbu indexů pouze v případě, že velké množství proměnných (sloupce databáze) je vysoce korelováno. Tento předpoklad je v případě reálných databází obecně neplatný.
Vyvstává tedy rovněž potřeba vytvoření vylepšeného postupu indexování mnohorozměrných dat právě pro případ výskytu proměnných, které nejsou vysoce korelovány. Postup má vytvářet indexy efektivní z hlediska využití paměti a rychlosti vyhledávání. Předložený vynález řeší tyto požadavky.
Podstata vynálezu
Ve shodě se shora uvedenými požadavky vytváří předložený vynález způsob pro tvorbu kompaktní reprezentace vícerozměrných dat, jak je uvedeno v nároku 1. Předložený vynález vytváří nástroje pro tvorbu vícerozměrných indexů pro databáze. Předložený vynález dále vytváří nástroje pro pružné vytváření indexů a pro efektivní provádění exaktních a podobnostních vyhledávání. Předložený vynález navíc vytváří nástroje pro vytváření kompaktních indexů, které výhodně omezují objem dat, přenášený z disku do hlavní paměti během vyhledávacího procesu.
Příkladem použití předloženého vynálezu je využití pro vícerozměrné indexování. Vícerozměrné indexování je zásadní pro prostorové databáze, které jsou široce aplikovatelné: v geografických informačních systémech (GIS); pro podporu rozhodování při přímých analýzách (Online Analytical Processing, OLAP) při použití velkých datových skladů; a pro produkty pro dolování obrazových dat pro MINING multimediálních databází, kde jsou z obrazových dat a videozáznamů odvozovány mnohorozměrné popisné vektory.
Předložený příklad provedení vynálezu zahrnuje navíc další nástroje pro tvorbu a ukládání indexu o sníženém počtu rozměrů pro shluky o sníženém počtu rozměrů.
V závislosti na konkrétním způsobu prostorového indexování, použitém uvnitř každého jednotlivého shluku, může být cílový vektor získán použitím odpovídajícího způsobu indexování. Například běžné postupy pro vícerozměrné indexování včetně, ale nikoli pouze R-tree, mohou být použity pro indexování uvnitř každého shluku. Případně, pokud není k dispozici struktura prostorových indexů, může být pro vyhledání uvnitř shluku použit postup lineárního prohledání.
V přednostním provedení vynálezu je pro snížení rozměru použito dekompozice singulární hodnoty a v indexu je vyhledáván odpovídající shluk o sníženém počtu rozměrů, v závislosti na daných rozložených datech. Příkladem informace o snížení počtu rozměrů je transformační matice (obsahující vlastní hodnoty a vlastní vektory) vytvořená pomocí dekompozice singulární hodnoty a vybrané vlastní hodnoty transformační matice.
Další příklad způsobu tvorby vícerozměrných indexů, mající rysy předloženého vynálezu, zahrnuje kroky: vytvoření reprezentace databáze určené k indexování jako množiny vektorů, kde každý vektor představuje řádek v databázi a prvky každého z vektorů představují hodnoty pro jednotlivý řádek, obsažené ve sloupcích, pro které musí být vytvořen index; množina vektorů je poté pomocí postupu pro shlukování rozdělena do jedné nebo více skupin (zvaných též shluky) a rovněž jsou vytvořeny a uloženy připojené informace týkající se shlukování; poté je na každý shluk samostatně aplikován postup pro snížení počtu rozměrů za účelem vytvoření reprezentace prvků shluku o malém počtu rozměrů stejně jako v případě informace o snížení počtu rozměrů; a pro každý shluk o sníženém počtu rozměrů je vytvořen index pomocí postupu, který vytváří efektivní indexy pro množství rozměrů shluku.
-3 CZ 297222 B6
Podle dalšího provedení předloženého vynálezu může být způsob aplikován samostatně na každý ze shluků se sníženým počtem rozměrů a způsob se tedy stává rekurzivním. Proces, při kterém je rekurzivně aplikováno snížení počtu rozměrů i shlukování je ukončen v momentě, kdy již není možné snížit počet rozměrů.
Podle dalšího provedení předloženého vynálezu může být krok snížení počtu rozměrů aplikován na celou databázi jako první krok při vytváření indexů (před krokem rozdělení databáze). Během kroku rozdělení (též zvaného shlukování) a snížení počtu rozměrů je vytvořena informace o shlukování a o snížení počtu rozměrů pro další použití při vyhledávací fázi.
Podle dalšího provedení předloženého vynálezu může být použit krok shlukování za účelem zjednodušení kroku snížení počtu rozměrů. Toho může být dosaženo například prostředky způsobu pro shlukování, který rozděluje prostor v závislosti na místní kovarianční struktuře dat, namísto minimalizace ztráty vyplývající z prostorově neměnné funkce vzdálenosti jako je například Euklidovská vzdálenost.
Předložený vynález rovněž vytváří nástroje pro odhad, zda jiné shluky mohou obsahovat prvky, které jsou blíže určitým datům než nejvzdálenější z k nalezených nejvíce podobných prvků. Jak je známo z dosavadního stavu techniky, informace o shlukování může být použita pro rekonstrukci hranic shluků a tyto hranice mohou být použity pro určení, zda shluk může obsahovat jednoho z k nejbližších sousedů. Odborníci znali problematiky uznají, že hranice shluku jsou jednoduchou aproximací struktury samotného shluku, zejména z matematického popisu hranice není možné stanovit, zda se v blízkosti libovolné zvolené pozice hranice nacházejí prvky nebo shluky. Jako příklad může sloužit případ, kdy databáze obsahuje dva sférické shluky dat a tyto shluky jsou vzájemně extrémně vzdálené. Rozumnou hranicí pro tento případ bud vícerozměrná plocha, kolmá ke spojnici těžišť shluků, ekvidistantní vzhledem k těmto těžištím. Vzhledem k tomu, že shluky jsou vzájemně značně vzdáleny, neexistuje žádný datový bod v blízkosti hranice. V jiných případech může být hranice velmi blízko značnému množství prvků obou shluků. Předložený vynález tedy rovněž vytváří nástroje pro stanovení, zda shluk může obsahovat jednoho nebo více k-nejbližších sousedů daných dat, využívající hierarchie aproximací konkrétní geometrické struktury každého ze shluků.
Podle přednostního provedení je předložený vynález proveden ve formě software uloženého na zařízení pro uložení programu, ze kterého je možné jej načíst do počítače zhmotňujícího program sestávající z instrukcí spustitelných na počítači za účelem provedení kroků způsobu pro vytvoření kompaktních reprezentací vícerozměrných dat; efektivního provádění exaktního a podobnostního vyhledávání; vytváření vícerozměrných indexů pro vyhledávání v databázích; efektivního provádění exaktního a podobnostního vyhledávání s použitím indexů.
Přehled obrázků na výkresech
Tyto a další rysy a výhody předloženého vynálezu se stanou srozumitelnějšími po shlédnutí následujících obrázků, kde: obr. 1 znázorňuje příklad blokového diagramu síťového systému klinet/server, obr. 2 znázorňuje příklad rozdělení datových bodů a představu snížení počtu rozměrů po provedení shlukování, obr. 3 znázorňuje příklad zobrazení tří bodů z trojrozměrného prostoru do dvojrozměrného prostoru tak, že zobrazení zachovává relativní vzdálenost mezi libovolnými dvěma body z daných tří bodů, obr. 4 znázorňuje příklad zobrazení tří bodů z trojrozměrného prostoru do dvojrozměrného prostoru, kde pořadí relativních vzdáleností je ovlivněno zobrazení, obr. 5 znázorňuje příklad výpočtu vzdálenosti mezi body původního prostoru a zobrazeného podprostoru, obr. 6 znázorňuje příklad logického postupu pro tvorbu vícerozměrného indexování na základě dat v databázi, obr. 7 znázorňuje příklad logického postupu pro provádění snížení počtu rozměrů dat, obr. 8 znázorňuje příklad logického postupu pro exaktní vyhledávání s použitím indexu vytvořeného bez použití rekurzivní dekompozice a shlukování, obr. 9 znázorňuje příklad logického postupu pro exaktní vyhledávání s použitím indexu vytvořeného s použitím rekurzivní
-4CZ 297222 B6 dekompozice a shlukování, obr. 10 znázorňuje příklad logického postupu pro vyhledávání knejbližších sousedů s použitím indexu vytvořeného bez použití rekurzivní dekompozice a shlukování, obr. 11 znázorňuje příklad logického postupu pro vyhledávání E-nejbližších sousedů s použitím indexu vytvořeného s použitím rekurzivní dekompozice a shlukování, obr. 12 znázorňuje příklad dat ve trojrozměrném prostoru a porovnání výsledků postupu shlukování založeného na Euklidovské vzdálenosti a na postupu shlukování, který se přizpůsobuje místní struktuře dat, obr. 13 znázorňuje příklad logického postupu pro shlukování, který se přizpůsobuje místní struktuře dat, obr. 14 znázorňuje příklad komplexní nadplochy ve trojrozměrném prostoru a dvě po sobě jdoucí aproximace vytvořené pomocí algoritmu pro vytvoření trojrozměrného quad tree a obr. 15 znázorňuje příklad logického postupu pro určení shluků, které mohou obsahovat prvky nacházející se ve vzdálenosti menší než je pevně daná vzdálenost od daného vektoru, s použitím po sobě následujících aproximací geometrie shluků.
Příklady provedení vynálezu
Obr. 1 znázorňuje příklad architektury klient/server podle předloženého vynálezu. Jak je patrné, několik klientů 101 a několik serverů 106 je vzájemně propojeno pomocí sítě 102. Server 106 je vybaven systémem pro správu databází (DBMS) 104 a paměťovým zařízením s přímým přístupem (DASD) 105. Dotaz je obvykle vytvořen na počítači klienta 101 a předán serveru 106 prostřednictvím sítě 102. Dotaz obvykle obsahuje přesné údaje jako například uživatelem poskytnutý příklad nebo vzor pro vyhledávání a vzájemně reaguje se systémem pro správu databází (DBMS) 104 za účelem získání či obnovení databáze uložené v DASD 105. Příkladem DBMS může být systém IBM nabízený pod obchodním označením DB2.
Podle jednoho hlediska předloženého vynálezu dotazy vyžadující vícerozměrné indexování, například prostorové indexování (včetně dotazů na rozsah či dotazy typu nejbližší soused) vyvolají stroj pro vícerozměrné indexování 107. Stroj pro vícerozměrné indexování 107 (popsaný s odkazem na obr. 8 až 11) je zodpovědný za získání vektorů či záznamů, které splní vymezení popsaná dotazem na základě jednoho či více kompaktních vícerozměrných indexů 108, informace o shlukování 111 a informace o snížení počtu rozměrů 112 vytvořených pomocí logiky pro tvorbu indexů 110 podle předloženého vynálezu (popsaných s odkazem na obr. 6 a 7). Většina indexů, pokud ne všechny kompaktní vícerozměrné indexy 108 podle předloženého vynálezu, může být přednostně uložena v hlavní paměti a/nebo ve vyrovnávací paměti serveru 106. Odborníci znalí problematiky uznají, že databáze, kterou může být prostorová databáze může být rezidentní na jednom či více systémech. Odborníci znalí problematiky rovněž uznají, že stroj pro vícerozměrné indexování 107 a/nebo logika pro tvorbu indexu 110 mohou být kombinovány nebo začleněny jako součást DBMS 104. Efektivní logika pro tvorbu indexů 110 a stroj pro vícerozměrná indexování (též nazývaný vyhledávací logika) mohou být zhmotněny ve formě software v počítačovém programovém vybavení spustitelném na serveru 106.
Příkladem provedení vynálezu může být uložení pokladních transakcí supermarketu obsahující geografickou polohu (zeměpisná šířka a délka) prodejních míst. V tomto případě může server 106 přednostně obsahovat aplikace pro podporu rozhodování za účelem získání znalostí nebo modelu z uložených dat. Například může být použit stroj pro přímé analýzy (OLAP) 103 pro zachycení dotazů, které se týkají OLAP, za účelem zjednodušení jejich zpracování. Podle předloženého vynálezu stroj pro OLAP, který může být zároveň ve spojení s DBMS, využívá stroje pro vícerozměrné indexování 107 pro prohledávání indexu 108 na dotazy týkající se OLAP. Odborníci znalí problematiky uznají, že logika pro tvorbu indexů 110 podle předloženého vynálezu je aplikovatelná na reprezentace datových skladů pomocí vícerozměrných datových krychlí. Příklad způsobu a zařízení pro tvorbu reprezentace datového skladu pomocí vícerozměrných datových krychlí je popsán v přihlášce vynálezu Spojených Států S/N 08/843,290 podané dne 14. dubna 1997 pod názvem „Systém and Method for Generating Multi-Representations of a Data Cube“, Castelli et al., která je zde uvedena jako odkaz v celém jejím rozsahu.
-5CZ 297222 B6
Multimediální data jsou jiným příkladem dat, která mohou být výhodně zpracována pomocí prostorového indexování. Multimediální data jako zvuk, videozáznam či obrazová data mohou být uložena odděleně od metadat používaných pro indexování. Klíčovou součástí metadat, která může být použita pro usnadnění indexování a získávání mediálních dat jsou popisné vektory, vytvořené na základě původních dat. Z oblastí obrazových dat mohou být například získány textury, barevné histogramy a tvary, které mohou být použity pro vytvoření indexů 108 pro získávání dat.
Příkladem aplikace pro odolování obrazových dat je QBIC, což je integrovaný vyhledávací prostředek nazvaný Image Extender systému DB2 firmy IBM. QBIC obsahuje stroj pro dotazování obrazových dat (server) a vzorového klienta sestávajícího z HTML předpisu grafického uživatelského rozhraní (GUI) a přidruženého předpisu CGI (Common Gateway Interface), které dohromady tvoří základ kompletní aplikace. Jak server, tak klient jsou rozšiřitelné v tom smyslu, že je možné vytvořit specifické rozpoznávací funkce dle druhu aplikace a přidat tyto do QBIC. Server pro vyhledávání obrazových dat umožňuje dotazovat rozsáhlé obrazové databáze na základě vizuálního obsahu obrazových dat. To zahrnuje:
- Dotazování na vizuální média. „Ukaž mi obrázky jako je tento“, kde „jako“ je možné definovat ve smyslu barev, rozvržení, textury atd.
- Uspořádání obrazových dat podle podobnosti s dotazovaným obrazem.
- Automatické indexování obrazových dat, kde jsou uloženy číselné popisné údaje barev a textur. Během vyhledávání jsou tyto vlastnosti využity pro nalezení podobných obrazů.
- Kombinace vizuálních dotazů s dotazy textovými nebo dotazy typu parametrů jako například datum.
Podobně mohou být indexy vytvořeny nejprve pomocí vytvoření reprezentace databáze, která bude indexována jako množina vektorů, kde každý vektor představuje řádek v databázi a prvky každého z vektorů představují hodnoty pro jednotlivý řádek, obsažené ve sloupcích, pro které musí být vytvořen index.
Vytvoření reprezentace databáze jako množiny vektorů je v oboru dobře známo. Reprezentace může být vytvořena například následovně: pro každý řádek databáze je vytvořeno pole o délce shodné s rozměrem vytvořeného indexu; hodnoty obsažené ve sloupcích jsou zkopírovány do prvků pole pro odpovídající řádek, pro který musí být vytvořen index.
Za předpokladu, že z-tý prvek vektoru v je označen vb může být vektor v vyjádřen jako [11 kde 'N'je počet rozměrů vektoru, použitý pro indexování.
Strana klienta může obvykle specifikovat tři druhy dotazů, z nichž každý vyžaduje určitou formu prostorového indexování, jak je popsáno v dosavadním stavu techniky:
(1) Exaktní dotazy·, je specifikován vektor a budou nalezeny záznamy nebo multimediální data, která odpovídají vektoru;
(2) Dotazy na rozsah·, je specifikována dolní a horní mez každého z rozměrů vektoru;
-6CZ 297222 B6 (3) Dotazy typu nejbližši soused', jsou vyhledány nejvíce podobné vektory na základě podobnostní míry.
Nejvíce běžně používanou podobnostní mírou dvou vektorů, vl a v2, je Euklidovská vzdálenost d, definovaná jako d2= Z(Wry2/)2 [2]
Všimněme si, že není nutné, aby se ve výpočtu dotazu na rozsah ani v případě dotazu typu nejbližši soused vyskytovaly všechny rozměry i. V obou případech může být pro získání výsledků specifikována podmnožina rozměrů.
Obr. 2 znázorňuje příklad rozdělení vektorů ve vícerozměrném prostoru. Jak je vyobrazeno, celkový počet rozměrů nutných pro reprezentaci celého prostoru je roven třem. Avšak pro reprezentaci každého shluku je zapotřebí pouze dvou rozměrů, protože shluky 201, 202 a 203 jsou umístěny v rovinách x-y, y-z, respektive z-x. Z toho je možné vyvodit, že vhodným shlukováním dat může být dosaženo snížení počtu rozměrů. Stejného snížení počtu rozměrů nemůže být dosaženo pouze pomocí dekompozice singulární hodnoty, která může pouze přeorientovat příznakový prostor takovým způsobem, že osa v prostoru koinciduje s převládajícími rozměry (v tomto příkladu jsou tři).
Vyloučení jednoho či více rozměrů vektoru je ekvivalentní zobrazení původních bodů do podprostoru. Z rovnice [2] je patrné, že je nutné vypočítat pouze rozměry, kde samostatné prvky vektoru jsou odlišné. V důsledku toho zobrazení vektoru do podprostoru neovlivní výpočet vzdálenosti, díky čemuž se vyloučené prvky v původním prostoru nezmění.
Obr. 3 znázorňuje příklad výpočtu vzdálenosti v původním prostoru a zobrazeném podprostoru, kde zobrazení zachovává relativní vzdálenost mezi libovolnými dvěma ze tří bodů. Jak je patrné, v původním trojrozměrném prostoru je bod 301 vzdálen více od druhého bodu 302, než od třetího bodu 303. V tomto případě zobrazení těchto bodů (304, 305 respektive 306) do dvojrozměrného podprostoru zachovává relativní vzdálenosti mezi body.
Obr. 4 znázorňuje příklad zobrazení tří bodů z trojrozměrného prostoru do prostoru dvojrozměrného, kdy zobrazení ovlivňuje pořadí relativních vzdáleností. Jak je patrné, vzdálenost mezi body 401 a 402 ve trojrozměrném prostoru je větší než mezi body 402 a 403. V tomto případě je však vzdálenost mezi odpovídajícími zobrazenými body 404 a 405 menší než mezi body 405 a 406. Relativní vzdálenost mezi dvěma body nemůže být v tomto případě ve zobrazeném podprostoru zachována.
V následujících odstavcích bude odvozena metodika odhadu maximální chyby, která může nastat v důsledku zobrazení vektorů do podprostoru. Postup začíná určením meze maximální chyby. Označme těžiště shluku jako Pc, definované jako [3] kde N je celkový počet vektorů ve shluku, který sestává z vektorů {VI,... ,VN}. Poté co je shluk zobrazen do ^-rozměrného podprostoru, kde je beze ztráty všeobecnosti vyloučeno posledních (n-k) rozměrů, je vzdálenost libovolných dvou vektorů v podprostoru vzhledem k původnímu prostoru zatížena chybou. Tato chyba je popsána výrazem
Chyba2 - Σ jak+1 (Vi j - V27) [4]
-7CZ 297222 B6
Platí následující nerovnosti:
Chyba2 <. Ση mm (|ViJ + |V2,/|)2 * Σημ)Μ (2max (|V1(/|, |V2,/|))2 [5] á 4 Σ%+ι max ([Ví , |V2.4)2
Z rovnice [5] je patrné, že maximální chyba způsobená výpočtem vzdálenosti ve zobrazeném podprostoru je omezena.
Obr. 5 znázorňuje příklad aproximace výpočtu vzdálenosti podle předloženého vynálezu. Vzdálenost mezi vzorovým bodem T 501 a jeho obrazem V 506 je dána rovnicí [2]. Tato Euklidovská vzdálenost je invariantní vůči: rotaci referenčního souřadného systému; posunu počátku souřadného systému; zrcadlení souřadných os; a pořadí souřadnic. Nechť beze ztráty všeobecnosti obraz V 506 náleží Shluku 1 na obr. 5. Uvažujme nyní referenční souřadný systém definovaný vlastními vektory kovarianční matice Shluku 1 a dále nechť počátkem referenčního souřadného systému je Těžiště 1. Vzdálenost mezi vzorovým bodem T 501 a obecným bodem V 505 ve Shluku 1 je možné zapsat jako d2= Eí=i(7;-v(f [β] kde souřadnice T, a V\ jsou relativní vzhledem k referenčnímu systému. Dále zobrazme prvky Shluku 1 505 na Podprostor 1 přiřazením nulových hodnot posledním n-k+1 souřadnicím. Vzdálenost mezi vzorovým bodem T501 a obrazem F'507 bodu V 506 je dána vztahem tf 2 = Σ*μ (7,- V,)2 + (7,)2 [7] *d,2 = *2
Výraz <7/ představuje Euklidovskou vzdálenost mezi zobrazením 504 vzorového bodu na Podprostor 1, zvaným Zobrazení 1 a zobrazováním E'507 vektoru V 506 na Podprostor 1; výraz d2 představuje vzdálenost mezi vzorovým bodem T 501 a Zobrazením 1 504, neboli jeho zobrazením na Podprostor 1; jinými slovy d2 představuje vzdálenost mezi vzorovým bodem T 501 a Podprostorem 1. Uvedená aproximace může být nyní vymezena nahrazením rovnice [6] rovnicí [7] při výpočtu vzdálenosti mezi vzorovým bodem T 501 a vektorem V 506. Ze základů geometrie je známo, že tři znázorněné body T 501, V 506 a KZ5O7 definují samostatný dvourozměrný podprostor (rovinu). Pro zjednodušení úvahy předpokládejme, že touto rovinou je rovina 520 zobrazená na obr. 5. Potom vzdálenost d daná rovnicí [6] je rovna délce úsečky spojující T 501 a V 506, vzdálenost ď daná rovnicí [7] je rovna délce úsečky spojující T 501 a V' 507. Známá věta z geometrie říká, že délka strany trojúhelníka je větší než absolutní hodnota rozdílu délek zbývajících dvou stran a menší než jejich součet. Z toho vyplývá, že chyba způsobená nahrazením vzdálenosti d definovaná rovnicí [6] vzdálenosti ďdefinovanou rovnicí [7] je menší nebo rovna délce úsečky spojující V 506 a Uz507; velikost chyby je tedy vymezena výrazem:
οή^ίΣΑ^μν,)2 [β]
Obr. 6 znázorňuje příklad diagramu postupu pro tvorbu hierarchie shluků o sníženém počtu rozměrů a indexů o malém počtu rozměrů pro shluky na nejnižší úrovni hierarchie. V kroku 601
-8CZ 297222 B6 používá shlukovací proces jako vstupní data původní data 602; rozdělí data do shluků 603; a vytvoří informaci o shlukování 604 obsahující detaily o sekci. Každý záznam v původních datech obsahuje vektorový atribut definovaný rovnicí [1]. Algoritmem pro shlukování může ale nutně nemusí být libovolný algoritmus pro shlukování či pro kvantování vektorů známý z dosavadního stavu techniky, viz například kniha Leonarda Kaufmanna a Petera J. Rousseeuwa „Finding Groups in Data“, John Wiley & Sons, 1990; nebo „An Algorithm for Vector Quantizer Design“, autoři Yoseph Lindě, Andres Buzo a Robert M. Gray, publikováno v IEEE Transactions and Communications, Vol. COM-28, No. 1, v lednu 1980, str. 84-95. Informace o shlukování 604 vytvořená během učící fáze algoritmu pro shlukování je závislá na druhu algoritmu; takováto informace umožňuje v klasifikační fázi algoritmu přiřadit číslo shluku novému, doposud neznámému vzorku a vytvořit pro každý shluk reprezentativní vektor. Přednostně informace o shlukování obsahuje těžiště shluků, přičemž každému je přiřazeno jednoznačné označení (viz např. Yoseph Lindě, Andres Buzo a Robert M. Gray, „An Algorithm for Vector Quantizer Design“). V kroku 605 nastupuje logika pro sekvenční zpracování, ovládající postup operací tak, že jsou tyto operace postupně a samostatně aplikovány na každý ze shluků. Odborníci znalí problematiky uznají, že v případě několikanásobných výpočetních obvodů může být logika pro sekvenční zpracování 605 nahrazena přidělovací logikou, která spouští současně probíhající výpočty v různých výpočetních obvodech, z nichž každý zpracovává odlišný datový shluk. V kroku 606 logika pro snížení počtu rozměrů 606 obdrží datový shluk 602 a vytvoří informaci o snížení počtu rozměrů 607 a datový shluk o sníženém počtu rozměrů 608. V kroku 609 je proveden test splnění podmínky ukončení (viz dále). Pokud podmínka ukončení není splněna, mohou být rekurzivně uplatněny kroky 601 až 609 po nahrazení původních dat 602 v kroku 611 datovým shlukem o sníženém počtu rozměrů 608 a postup se vrací ke kroku 601. Pokud je v kroku 610 podmínka ukončení splněna, je pro shluk vytvořen vyhledávací index 612. Krokem 613, je-li počet již analyzovaných shluků roven celkovému počtu shluků 603 vytvořených pomocí algoritmu pro shlukování v kroku 601, výpočet končí. Jinak se proces vrací ke kroku 605. Volba počtu shluků je obvykle prováděna uživatelem, ale z dosavadního stavu techniky jsou již známy i automatické procedury; viz např. Brian Everitt, „Cluster Analysis“, Halsted Press, 1973, kapitola 4.2.
Příklad testu splnění podmínky ukončení z kroku 609 může být založen na koncepci objemu dat F(X), definovaného jako
V(X) = Σ%·=1 n, kde Xje množina záznamů, n, je rozsah ž-tého záznamu a součet je proveden přes všechny prvky X. Mají-li záznamy stejný rozsah S před provedením kroku snížení počtu rozměrů 606 a n představuje počet záznamů ve shluku, pak objem shlukuje Sn. Pokud S'představuje rozsah záznamu po provedení kroku snížení počtu rozměrů 606, pak objem shluku po provedení snížení počtu rozměrů je S'n. Podmínka ukončení může být testována porovnáním objemů Sn a S'n a ukončení provedeno pokud Sn - S'n.
Podle dalšího provedení není test splnění podmínky ukončení podle kroku 609 prováděn a není prováděna ani rekurzivní aplikace postupu.
Obr. 7 znázorňuje příklad logiky pro snížení počtu rozměrů kroku 606. Jak je patrné, v kroku 701 vstupuje datový shluk 702 do zpracování pomocí logiky pro dekompozici singulární hodnoty 701, která vypočte transformační matici 703 a vlastní hodnoty 704 (nebo charakteristické hodnoty) transformační matice 703. Sloupce transformační matice jsou vlastními vektory (nebo charakteristickými vektory) transformační matice. Algoritmy pro dekompozici singulární hodnoty jsou dobře známy z dosavadního stavu techniky; viz např. R. A. Horn a C. R. Johnson, „Matrix Analysis“, Cambridge, University Press, 1985. Odborníci znalí problematiky uznají, že logika pro dekompozici singulární hodnoty může být nahrazena libovolnou logikou provádějící stejnou
-9CZ 297222 B6 nebo ekvivalentní operaci. V alternativním provedení vynálezu může být logika pro dekompozici singulární hodnoty nahrazena logikou pro analýzu hlavních komponent, též známou z dosavadního stavu techniky.
V kroku 705 jsou vlastní hodnoty 704 vstupem pro třídicí logiku, která uspořádá vlastní hodnoty podle klesající velikosti 706. Třídicí logikou může být libovolná z četných třídicích logik známých z dosavadního stavu techniky. V kroku 707 výběrová logika zvolí podmnožinu uspořádaných vlastních hodnot 706 obsahující největší vlastní hodnoty 708 podle výběrového kriteria. Výběrovým kriteriem může, ale nemusí nutně být, výběr nejmenší skupiny vlastních hodnot, jejichž součet je větší než uživatelem specifikované procento stopy transformační matice 703, kde stopa matice je definována jako součet prvků na hlavní diagonále, jak je známo z dosavadního stavu techniky. V tomto příkladu transformační matice 703 a vybrané vlastní hodnoty 708 představují informaci o snížení počtu rozměrů 607. Alternativně může být výběr vlastních hodnot založen na porovnání přesnosti vůči odezvě (popsáno níže).
V kroku 709 jsou vstupem transformační logiky datový shluk 702 a transformační matice 703; transformační logika aplikuje transformaci danou transformační maticí 703 na prvky datového shluku 702 a tím vytvoří transformovaný datový shluk 710. V kroku 711 jsou vybrané vlastní hodnoty 708 a transformovaný datový shluk 710 použity pro vytvoření datového shluku o sníženém počtu rozměrů 712· V přednostním provedení vynálezu je snížení počtu rozměrů dosaženo zachováním takového nejmenšího počtu rozměrů, že množina odpovídajících vlastních hodnot představuje alespoň pevně dané procento celkového rozptylu, kde například dané procento může být položeno rovno 95 %.
Alternativně může být výběr vlastních hodnot založen na porovnání přesnosti s odezvou. Pro porozumění pojmům přesnost a odezva je důležité mít na paměti, že vyhledávací operace prováděná způsobem podle předloženého vynálezu může být přibližná (jak bude vysvětleno s odkazem na obr. 10 až 11). Nechť AJe požadovaný počet nejbližších sousedů vzoru v databázi o A prvcích. Protože operace je přibližná, uživatel obvykle obdrží počet výsledků, který je větší než k. Nechť n je počet obdržených výsledků; z počtu n výsledků bude pouze c výsledků správných v tom smyslu, že jsou mezi k nejbližšími sousedy vzoru. Přesnost je úměrná počtu obdržených výsledků, které jsou správné a je definována následovně přesnost = c / n, a odezva je rovněž úměrná počtu obdržených výsledků, které jsou správné a je definována jako odezva = c / k.
Protože se přesnost a odezva mění s výběrem vzoru, jejich očekávané hodnoty jsou lepším měřítkem výkonu systému. Přesnost a odezva jsou tedy uvažovány jako očekávané hodnoty (£) uvažované nad rozdělením vzorů, jako funkce pevně daných hodnot n a k:
přesnost = E(c) /n, odezva = E(c) /k.
Všimněme si, že se vzrůstajícím počtem obdržených výsledků n klesá přesnost, zatímco odezva vzrůstá. Obecně nejsou přesnost a odezva funkcemi monotónními. Protože E(c) závisí na n, bývá křivka efektivnosti vůči odezvě znázorněna jako parametrická funkce η. V přednostním provedení vynálezu tazatel specifikuje požadovanou přesnost vyhledávání a nižší dovolenou mez odezvy. Poté logika pro snížení počtu rozměrů provede snížení počtu rozměrů založené na přesnosti a odezvě následovně: po uspořádání vlastních hodnot sestupně vypustí logika pro snížení počtu rozměrů (krok 606, obr. 6) rozměr odpovídající nejmenší vlastní hodnotě a provede odhad výsledné funkce přesnosti vůči odezvě založený na testovací množině vzorů náhodně vybraných
-10CZ 297222 B6 z původní trénovací množiny nebo poskytnutých uživatelem. Z funkční závislosti přesnosti na odezvě odvodí logika pro snížení počtu rozměrů maximální hodnotu přesnosti Mmax, pro kterou je dosaženo požadované odezvy. Poté logika pro snížení počtu rozměrů opakuje stejnou proceduru vypuštěním rozměru odpovídajícího následující nejmenší vlastní hodnotě a vypočte odpovídající přesnost, pro kterou je dosaženo požadované odezvy. Iterační procedura je ukončena v okamžiku, kdy vypočtená přesnost je nižší než přesnost zadaná uživatelem a logika pro snížení počtu rozměrů zachová pouze rozměry, které byly zachovány v iteraci, která bezprostředně předcházela té, za které byla splněna podmínka ukončení.
Podle dalšího provedení předloženého vynálezu tazatel zadává pouze hodnotu požadované odezvy a logika pro snížení počtu rozměrů provádí odhad nákladů zvýšení přesnosti pro dosažení požadované odezvy. Tyto náklady mají dvě složky: jednu, která klesá s počtem rozměrů, protože výpočet vzdálenosti a hledání nejbližších sousedů je efektivnější pro prostory o menším počtu rozměrů; dále pak složku rostoucí, vyjadřující skutečnost, že počet obdržených výsledků musí vzrůstat se snižujícím se počtem zachovaných rozměrů pro zajištění požadované hodnoty odezvy. Získání většího množství n nejbližších sousedů je nákladnější i při použití efektivních způsobů, protože část prohledávaného prostoru, který musí být analyzován vzrůstá s počtem požadovaných výsledků. V tom případě logika pro snížení počtu rozměrů provádí hledáním pomocí zevrubného prohledávání počet dále zachovaných rozměrů, který minimalizuje náklady vyhledávání podle uživatelem zadané hodnoty odezvy.
Shlukování a dekompozice singulární hodnoty mohou být aplikovány na vektory rekurzivně (kroky 601 až 611) až do splnění podmínky ukončení (krok 609). Takovou podmínkou ukončení může být například skutečnost, že již není možné snížit počet rozměrů shluků, jak je zde vysvětleno. Případně je možné poté aplikovat některé běžné postupy pro prostorové indexování, jako například R-tree, na každý ze shluků. Tyto postupy jsou mnohem efektivnější pro shluky o minimalizovaném počtu rozměrů. Tím je tedy ukončen celý proces tvorby indexů pro množinu mnohorozměrných vektorů.
Jak bude popsáno s odkazem na obr. 8 až 15, předložený vynález rovněž vytváří nástroje pro provádění efektivních vyhledávání využívající kompaktní reprezentace vícerozměrných dat. Odborníci znalí problematiky uznají, že způsoby vyhledávání podle předloženého vynálezu nejsou omezeny na zde popsané specifické kompaktní reprezentace vícerozměrných dat.
Obr. 8 znázorňuje příklad logického postupu pro proces exaktního vyhledávání, založeného na vyhledávacím indexu (108 nebo 612) vytvořeném podle předloženého vynálezu. V tomto příkladě je index vytvořen bez rekurzivního použití shlukování a dekompozice singulární hodnoty. Exaktní vyhledávání je procesem získání záznamu či záznamů, které se přesně shodují s vyhledávacím dotazem, jímž může být vzor pro vyhledání. Jak je znázorněno, je v kroku 802 strojem pro vícerozměrné indexování 107 (též zvaným logika pro vyhledávání shluků) obdržen dotaz obsahující specifická data jako například vzor pro vyhledání 801. V kroku 802 je informace o shlukování 604, vytvořená v kroku 601 na obr. 6, použita pro identifikaci shluku, kterému náleží vzor pro vyhledání. V kroku 803 je informace o snížení počtu rozměrů 607, vytvořená během kroku 606 na obr. 6 použita pro zobrazení vstupního vzoru na podprostor shluku identifikovaného během kroku 802 a pro vytvoření obrazu vzoru 804. V kroku 805 logika pro vyhledávání uvnitř shluku využívá vyhledávací index 612 vytvořený během kroku 610 na obr. 6 pro vyhledání zobrazeného vzoru. Všimněme si, že nejjednodušším vyhledávacím mechanismem uvnitř každého shlukuje provedení lineárního prohledání, pokud nemůže být využito žádné struktury prostorových indexů. Ve většině případů mohou struktury prostorových indexů jako R-trees poskytnout lepší efektivitu (v porovnání s lineárním prohledáváním) v případě, že počet rozměrů shluku je relativně malý (ve většině případů menší než 10).
Obr. 9 znázorňuje jiný příklad diagramu postupu pro proces exaktního vyhledávání založeného na vyhledávacím vícerozměrném indexu (108 nebo 612) vytvořeném podle předloženého vynálezu. V tomto případě byl index (108 nebo 612) vytvořen s použitím rekurzivní aplikace logiky
- 11 CZ 297222 B6 pro shlukování a pro snížení počtu rozměrů. Exaktní vyhledávání je procesem získání záznamu či záznamů, které se přesně shodují s vyhledávacím dotazem, jímž může být vzor pro vyhledání. Jak je znázorněno, je v kroku 902 použit jako vstup pro logiku pro vyhledávání shluků, která je analogická logice pro vyhledávání shluků 802 na obr. 8, dotaz obsahující specifická data, jako vyhledávací vzor 901. V kroku 902 je informace o shlukování 604, vytvořená v kroku 601 na obr. 6, použita pro identifikaci shluku, kterému náleží vzor pro vyhledání 901.
V kroku 903 (analogickém kroku 803 na obr. 8) je informace o snížení počtu rozměrů 607, vytvořená během kroku 606 na obr. 6 použita pro zobrazení vstupního vzoru na podprostor shluku identifikovaného během kroku 902 a pro vytvoření obrazu vzoru 904. V kroku 905 je rozhodnuto, zda aktuální shluk je koncový, tj. zda na tomto shluku nebyly během procesu tvorby vícerozměrného indexu provedeny žádné další kroky rekurzivního shlukování a dekompozice singulární hodnoty. Pokud se nejedná o koncový shluk, je během kroku 907 nahrazen vyhledávací vzor 901 obrazem vzoru 904 a proces se vrací ke kroku 902. Je-li shluk koncový, pak je během kroku 906 logikou pro vyhledávání uvnitř shluků použit vyhledávací index pro vyhledání zobrazeného vzoru. Jak bylo zmíněno, nejjednodušším vyhledávacím mechanismem uvnitř každého shluku je provedení lineárního prohledání, pokud nemůže být využito žádné struktury prostorových indexů. Ve většině případů mohou struktury prostorových indexů jako R-trees poskytnout lepši efektivitu (v porovnání s lineárním prohledáváním) v případě, že počet rozměrů shluku je relativně malý (ve většině případů menší než 10).
Předložený vynález rovněž vytváří nástroje pro odhad, zda další shluky mohou obsahovat prvky, které jsou blíže specifickým datům, než nej vzdálenější z k nej podobnějších zjištěných prvků. Jak je známo z dosavadního stavu techniky, informace o shlukování může být použita pro rekonstrukci hranic sekcí a tyto hranice mohou být použity pro určení, zda shluk může obsahovat jednoho z k nejbližších sousedů. Odborníci znalí problematiky uznají, že hranice shluku jsou jednoduchým přiblížením struktury samotného shluku. Jinými slovy z matematického popisu hranice není možné stanovit, zda se v blízkosti libovolné zvolené pozice hranice nacházejí prvky nebo shluky. Jako příklad může sloužit případ, kdy databáze obsahuje dva sférické shluky dat a tyto shluky jsou vzájemně extrémně vzdálené. Rozumnou hranicí pro tento případ bude vícerozměrná plocha, kolmá ke spojnici těžišť shluků, ekvidistantní vzhledem k těmto těžištím. Vzhledem k tomu, že shluky jsou vzájemně značně vzdáleny, neexistuje žádný datový bod v blízkosti hranice.
V jiných případech může být hranice velmi blízko značnému množství prvků obou shluků.
Jak bude popsáno s odkazem na obr. 14 a 15, předložený vynález vytváří kromě informace o shlukování nástroje pro výpočet a uložení hierarchie aproximací skutečné geometrické struktury každého ze shluků; a využívá hierarchie aproximací pro identifikaci shluků, které mohou obsahovat prvky, které se nacházejí v menší vzdálenosti, než je pevně daná vzdálenost od daného vektoru.
Obr. 10 znázorňuje příklad diagramu postupu vyhledání k-nejbližších sousedů pomocí indexu 612 vytvořeného podle předloženého vynálezu. V tomto příkladě je index vytvořen bez rekurzivního použití shlukování a dekompozice singulární hodnoty. Výsledkem vyhledání k- nej bližších sousedů je £ nejbližších záznamů v databázi, které vyhovují dotazu. Požadovaný počet (nr) shod k 1000 je použit v kroku 1002 pro inicializaci množiny k-nejbližších sousedů 1009 tak, že obsahuje nejvýše k prvků a tak, že je prázdná před započetím kroku. V kroku 1003 obdrží logika pro vyhledávání shluků dotaz, jímž může být vyhledávací vzor 1001 a určí, kterému shluku náleží vzor pro vyhledání s použitím informace o shlukování 604, vytvořené během kroku 601 na obr. 6. V kroku 1004 je dále vzor zobrazen na podprostor shluku, kterému náleží, s použitím informace o snížení počtu rozměrů 607. Zobrazovací krok 1004 vytváří obraz vzoru 1006 a informaci o snížení počtu rozměrů 1005, která obsahuje ortogonální doplněk obrazu vzoru 1006 (definovaný jako rozdíl vektorů vyhledávacího vzoru 1001 a obrazu vzoru 1006) a Euklidovskou vzdálenost ortogonálního doplňku. Informace o snížení počtu rozměrů 1005 a obraz vzoru 1006 mohou být použity pro logiku pro vyhledávání uvnitř shluku v kroku 1007, která obnoví množinu A nejbližších sousedů 1009 s použitím vícerozměrného indexu. Příklady logiky pro vyhledávání
- 12CZ 297222 B6 uvnitř shluku přizpůsobitelné podle předloženého vynálezu zahrnují libovolné ze způsobů vyhledání nejbližšího souseda známých z dosavadního stavu techniky; viz např. „Nearest Neighbour Pattem Classification Techniques“, Belur V. Desarathy (redaktor), IEEE Computer Society, 1991. Příklad logiky pro vyhledávání uvnitř shluku (krok 1007) podle předloženého vynálezu zahrnuje kroky: výpočet kvadrátu vzdálenosti mezi obrazem vzoru 1006 a prvky shluku ve vektorovém prostoru o sníženém počtu rozměrů; výsledek je přičten ke kvadrátu vzdálenosti mezi vyhledávacím vzorem 1001 a podprostorem shluku; konečný výsledek je definován jako „suma“ kvadrátů délek ortogonálních doplňků (vypočtená během kroku 1004), která je součástí informace o snížení počtu rozměrů 1005:
δ2 (vzor,prvek) =E? (obraz__vzoru,prvek) +Z\\ortogonální_doplněk\\2
Je-li množina A—nejbližších sousedů 1009 prázdná na začátku kroku 1007, pak logika pro vyhledání uvnitř shluku naplní množinu £-nejbližších sousedů k prvky shluku, které jsou nejblíže obrazu vzoru 1006 v případě, že počet prvků shluku je větší než k, nebo všemi prvky shluku v ostatních případech. Každému z prvků množiny k-nejbližších sousedů je přiřazen odpovídající index neshody δ2.
Není-li množina k-nejbližších sousedů 1009 prázdná na začátku kroku 1007, pak logika pro vyhledání uvnitř shluku během kroku 1007 obnoví množinu nejbližších sousedů v případě, že je nalezen prvek, jehož index neshody δ2 je menší, než největší z indexů aktuálně přiřazených prvkům množiny k-nejbližších sousedů 1009. Množina A—nejbližších sousedů může být obnovena vyjmutím prvku s největším indexem neshody δ2 z množiny A—nej bližších sousedů 1009 a jeho nahrazením nově nalezeným prvkem.
Obsahuje-li množina A—nejbližších sousedů 1009 méně než k prvků, jsou chybějící prvky považovány za prvky v nekonečné vzdálenosti. V kroku 1008 je rozhodnuto, zda existuje další kandidát na shluk, který by mohl obsahovat nejbližší sousedy. Tento krok má na vstupu informaci o shlukování 604, pomocí které je možné zjistit hranice shluku. Pokud hranice shluku, do kterého vyhledávací vzor 1001 nenáleží, jsou blíže než nejvzdálenější prvek množina A—nejbližších sousedů 1009, pak shluk je kandidátem. Pokud neexistuje kandidát, proces je ukončen a obsah množiny ^-nejbližších sousedů 1009 je vrácen jako výsledek. V opačném případě se proces vrací ke kroku 1004, kde se aktuální shluk stává kandidátem identifikovaným během kroku 1008.
Obr. 11 znázorňuje příklad diagramu postupu vyhledání A—nejbližších sousedů pomocí indexu 612 vytvořeného podle předloženého vynálezu. V tomto příkladě je index vytvořen pomocí rekurzivního použití shlukování a dekompozice singulární hodnoty. Výsledkem vyhledání knejbližších sousedů je k nejbližších záznamů v databázi, které vyhovují dotazu ve formě vyhledávacího vzoru. Jak je patrné, během kroku 1102 je množina A-nejbližších sousedů inicializována jako prázdná a požadovaný počet shod k 1100 je použit pro inicializaci množiny ^-nejbližších sousedů 1111 tak, že může obsahovat nejvýše k prvků. Během kroku 1103 má logika pro vyhledávání shluků na vstupu vyhledávací vzor 1101 a přiřadí vyhledávací vzor odpovídajícímu shluku s použitím informace o shlukování 604 vytvořené během kroku 601 na obr. 6. V kroku 1104 je vzor 1101 zobrazen na podprostor, přiřazený shluku identifikovanému během kroku 1103 na základě informace o snížení počtu rozměrů 607, vytvořené během kroku 606 na obr. 6. V kroku 1104 je vzor 1101 zobrazen na podprostor, přiřazený shluku identifikovanému během kroku 1103 na základě informace o snížení počtu rozměrů 607, vytvořené během kroku 606 na obr. 6. Během kroku 1104 je vytvořen obraz vzoru 1106 a informace o snížení počtu rozměrů 1105. Přednostně obsahuje informace o snížení počtu rozměrů 1105 ortogonální doplněk obrazu vzoru 1106 (definovaný jako rozdíl vektorů vyhledávacího vzoru 1101 a obrazu vzoru 1106) a Euklidovskou vzdálenost ortogonálního doplňku. V kroku 1107 je zjištěno, zda aktuální shluk je koncový, tj. zda na tomto shluku nebyly během procesu tvorby vícerozměrného indexu provedeny žádné další kroky rekurzivního shlukování a dekompozice singulární hodnoty. Pokud se nejedná o koncový shluk, je během kroku 1108 vyhledávací vzor 1101 nahrazen obrazem vzoru 1106 a proces se
- 13CZ 297222 B6 vrací ke kroku 1103. V opačném případě je informace o snížení počtu rozměrů 1105 se zobrazeným vzorem 1106 použita logikou pro vyhledávání uvnitř shluku během kroku 1109 pro obnovení množiny k-nejbližších sousedů 1111 na základě vyhledávacího indexu 612. Příklady logiky pro vyhledávání uvnitř shluku přizpůsobitelné podle předloženého vynálezu zahrnují libovolné ze 5 způsobu vyhledání nejbližšího souseda známých z dosavadního stavu techniky; viz např.
„Nearest Neighbour Pattem Classification Techniques“, Belur V. Desarathy (redaktor), IEEE Computer Society, 1991. Příklad logiky pro vyhledávání uvnitř shluku (krok 1007) podle předloženého vynálezu zahrnuje kroky: výpočet kvadrátu vzdálenosti mezi obrazem vzoru 1006 a prvky shluku ve vektorovém prostoru o sníženém počtu rozměrů; výsledek je přičten ke kvadrátu vzdálo lenosti mezi vyhledávacím vzorem 1001 a podprostorem shluku; konečný výsledek je definován jako „suma“ kvadrátů délek ortogonálních doplňků (vypočtená během kroku 1004). která je součástí informace o snížení počtu rozměrů 1005:
δ2 (vzor,prvek) =02 (obraz_vzoru,prvek) +2||ortogonálnz_doplněk||2
Je-li množina A-nejbližších sousedů 1111 prázdná na začátku kroku 1009, pak logika pro vyhledání uvnitř shluku naplní množinu A-nejbližších sousedů 1111 buď: k prvky shluku, které jsou nejblíže obrazu vzoru 1106 v případě, že počet prvků shluku je větší než kr, nebo všemi prvky shluku v případě, že počet prvků shluku je roven nebo menší než k. Každému z prvků množiny 20 A-nejbližších sousedů 1111 je přednostně přiřazen odpovídající index neshody δ2.
Není-li množina A-nejbližších sousedů 1111 prázdná na začátku kroku 1009, pak logika pro vyhledání uvnitř shluku obnoví množinu A-nejbližších sousedů v případě, že je nalezen prvek, jehož index neshody δ2 je menší, než největší z indexů aktuálně přiřazených prvkům množiny A25 nejbližších sousedů 1111. Obnovení může být provedeno vyjmutím prvku s největším indexem neshody δ2 z množiny A-nejbližších sousedů 1111 a jeho nahrazením nově nalezeným prvkem.
Obsahuje-li množina A-nejbližších sousedů 1111 méně než A prvků, jsou chybějící prvky považovány za prvky v nekonečné vzdálenosti. V kroku 1110 je rozhodnuto, zda aktuální úroveň hierar30 chie je úrovní nejvyšší (před tím, než je proveden první krok shlukování). Je-li aktuální úroveň úrovní nejvyšší, potom jsou vráceny jako výsledek meze a obsah množiny A-nejbližších sousedů 1111. Není-li aktuální úroveň úrovní nejvyšší, potom je během kroku 1114 provedeno vyhledání kandidáta shluku v aktuální úrovni, tj. shluku, který by mohl obsahovat některé z A-nejbližších sousedů. Vyhledání je provedeno s použitím informace o snížení počtu rozměrů 1105 a infor35 mace o shlukování 604. V kroku 1114 je použita informace o shlukování 604 pro zjištění hranic shluku. Pokud hranice shluku, do kterého vyhledávací vzor 1001 nenáleží, jsou blíže než nejvzdálenější prvek množiny A-nejbližších sousedů 1111, pak shluk je kandidátem. Pokud neexistuje kandidát, pak je v kroku 1113 aktuální úroveň označena předcházející úrovní hierarchie, informace o snížení počtu rozměrů je obnovena a proces se vrací ke kroku 1110. Pokud kandidát 40 existuje, pak je v kroku 1115 vzor zobrazen na kandidující shluk, čímž se obnoví obraz vzoru 1106; a je obnovena informace o snížení počtu rozměrů. Proces se poté vrací ke kroku 1107.
Obr. 12(a) až 12(c) porovnávají výsledky postupů pro shlukování založené pouze na podobnosti (například založené na minimalizaci Euklidovské vzdálenosti mezi prvkem každého shluku 45 a odpovídajících těžišť podle Lindeho, Buza a Graye v „An Algorithm for Vector Quantizer
Design“) s použitím shlukování využívajícího algoritmus, který se přizpůsobuje lokální struktuře dat. Obr. 12(a) znázorňuje referenční souřadný systém 1201 a množinu vektorů 1202. Jestliže je použit postup pro shlukování, založený na minimalizaci Euklidovské vzdálenosti mezi prvky každého ze shluků a odpovídajícím těžištěm, pak možný výsledek je znázorněn na obr. 12(b): množi50 na vektorů 1202 je nadrovinami 1203 a 1204 rozdělena do tří shluků, Shluk 1 1205, Shluku 2 1206 a Shluku 3 1207. Výsledné shluky obsahují vektory, které jsou si vzájemně podobné, ale nezachycují strukturu dat a výsledkem nebude optimální snížení počtu rozměrů. Obr. 12(c) znázorňuje výsledky shlukování s použitím algoritmu, který se přizpůsobuje lokální struktuře dat.
- 14CZ 297222 B6
Výsledkem jsou tri shluky, Shluk 1 1208, Shluk 2 1209 a Shluk 3 1210, které lépe zachycují lokální strukturu dat a jsou více poddajné nezávislému snížení počtu rozměrů.
Obr. 13 znázorňuje příklad algoritmu pro shlukování, který se přizpůsobuje lokální struktuře dat. V kroku 1302 je množina vektorů 1301, určených ke shlukování společně s požadovaným počtem shluků použita pro volbu počátečních hodnot těžiště 1303. Podle přednostního provedení je náhodně vybrán jeden prvek z množiny vektorů pro každý z celkového požadovaného počtu shluků NC s použitím libovolného ze známých postupů vzorkování bez záměny. V kroku 1304 je vytvořena první množina shluků, například použitím libovolného způsobu založeného na Euklidovské vzdálenosti. Výsledkem jsou vzorky rozdělené do NC shluků 1305. V kroku 1306 jsou vypočtena těžiště 1307 každého z NC shluků, například jako průměr vektorů shluku. V kroku 1308 mohou být vypočteny vlastní hodnoty a vlastní vektory 1309 shluků 1305 s použitím logiky pro dekompozici singulární hodnoty (obr. 7, krok 701). V kroku 1310 je použita informace o těžišti 1307 společně s vlastními vektory a vlastními hodnotami 1309 pro určení rozdílných délkových matrik pro každý ze shluků. Příkladem délkové matriky pro jednotlivý shluk je Euklidovská vzdálenost v otočeném prostoru definovaná pomocí vlastních vektorů, s váhami rovnými druhým odmocninám vlastních hodnot.
Smyčka vytvořená logickými kroky 1312, 1313 a 1314 vytvoří nové shluky. V kroku 1312 opakuje ovládací logika kroky 1313 a 1314 pro všechny vektory množiny vektorů 1301. V kroku 1313 je vypočtena vzdálenost mezi zvoleným vektorem a každým z těžišť shluků pomocí délkových matrik 1311. V kroku 1314 je vektor přiřazen nejbližšímu shluku, čímž dojde k obnovení shluků 1305. V kroku 1315, je-li splněna podmínka ukončení, je proces ukončen; jinak proces pokračuje krokem 1306. Podle přednostního provedení je výpočet ukončen, pokud se neobjeví změna ve složení shluků během dvou následujících iterací.
Obr. 14 znázorňuje příklad komplexní plochy 1401 ve trojrozměrném prostoru a její dvě po sobě jdoucí aproximace 1402 a 1403 na principu trojrozměrného quad tree, jak popisuje H. Samet v „Region Representation Quadtree from Boundary Codes“, Comm. ACM 23,3, str. 163-170, březen 1980. První aproximací 1402 je opsaný kvádr. Druhou aproximací 1403 je druhý krok tvorby quad tree, kde opsaný kvádr byl rozdělen do 8 nadpravoúhelníků rozdělením opsaného kvádru ve středovém bodě v každém z rozměrů a zachováním pouze těch nadpravoúhelníků, které protínají plochu.
Podle přednostního provedení je hierarchie aproximací vytvořena jako Ar-rozměmý quad tree. Příklad způsobu pro vytvoření hierarchie aproximací podle předloženého vynálezu zahrnuje kroky: vytvoření hranic shluku, které odpovídají aproximaci geometrie shluků nultého řádu; aproximace konvexní slupky každého ze shluků pomocí opsaného kvádru, čímž je vytvořena aproximace prvního řádu geometrie každého shluku; rozdělení opsaného kvádru do z nadpravoúhelníků jeho rozdělení ve středovém bodě v každém z rozměrů; zachování pouze těch nadpravoúhelníků, které obsahují body a tedy vytvoření aproximace geometrie shluku druhého řádu; opakování posledních dvou kroků pro každý ze zachovaných nadpravoúhelníků pro následné vytvoření aproximace geometrie shluku třetího, čtvrtého,..., n-tého řádu.
Obr. 15 znázorňuje příklad logického postupu pro identifikaci shluků, které mohou obsahovat prvky bližší než je předepsaná vzdálenost od daného datového bodu, s použitím hierarchie následujících aproximací geometrie shluků. Podle jednoho provedení vynálezu je geometrií shluku konvexní slupka shluku. Podle jiného provedení je geometrií shluku pružný spojitý povrch, který obsahuje všechny body. Tato logika může být použita pro vyhledání kandidátů shluků, např. v kroku 1008 na obr. 10. Podle obr. 15 je v kroku 1502 původní množina shluků společně s hierarchií jejích geometrických aproximací vstupem procesu. Během kroku 1502 je množina kandidátů 1505 inicializována jako původní množina 1501. V kroku 1506 je proveden další inicializační krok nastavením aktuálních aproximací geometrie jako aproximaci nultého řádu. Podle přednostního provedení jsou aproximace shluků nultého řádu stanoveny rozhodovacími oblastmi algoritmu pro shlukování použity pro vytvoření shluků. V kroku 1507 jsou vypočteny
- 15 CZ 297222 B6 vzdálenosti mezi aktuálními aproximacemi geometrie shluku a datovým bodem 1503. Všechny shluky vzdálenější než množina kandidátů 1505 jsou vyřazeny a je vytvořena množina zachovaných shluků 1508. V kroku 1509 je zjištěno, zda v hierarchii existují lepší aproximace. Pokud lepší aproximace neexistují, je výpočet ukončen položením výsledné množiny 1512 rovné aktuál5 ně zachované množině 1508. Jinak je v kroku 1510 množině kandidátů přiřazena aktuálně zachovaná množina 1508, aktuální geometrické aproximaci je přiřazena aktuální lepší aproximace v hierarchii a proces se vrací ke kroku 1507.

Claims (28)

15 1. Počítačový způsob reprezentace vícerozměrných dat, vyznačující se tím, že zahrnuje kroky: a) rozdělení vícerozměrných dat do jednoho nebo více shluků, b) vytvoření a uložení informace o shlukování pro zmíněný shluk nebo více shluků, c) vytvoření jednoho nebo více shluků o sníženém počtu rozměrů a informace o snížení počtu rozměrů pro zmíněný shluk nebo více shluků a d) uložení informace o snížení počtu rozměrů.
2. Způsob podle nároku 1, vyznačující se tím, že navíc zahrnuje kroky: vytvoření a uložení indexu o sníženém počtu rozměrů pro zmíněný shluk nebo více shluků o sníženém počtu rozměrů.
25
3. Způsob podle nároku 1, vyznačující se tím, že data jsou uložena v jedné nebo více prostorových databázích nebo v multimediální databázi, která obsahuje množství datových záznamů, z nichž každý obsahuje množství polí, dále zahrnující kroky: vytvoření reprezentace databáze určené k indexování jako množiny vektorů, kde každý z vektorů odpovídá řádku v databázi a prvky každého z vektorů představují hodnoty pro jednotlivý řádek, obsažené ve sloupcích, 30 pro které bude vytvořen index; a zmíněné rozdělení zahrnující rozdělení vektorů do zmíněného jednoho či více shluků.
4. Způsob podle nároku 2, vyznačující se tí m, že navíc zahrnuje krok uložení celého indexu ve hlavní paměti počítače.
5. Způsob podle nároku 2, vyznačující se tím, že zmíněné vytvoření shluku o sníženém počtu rozměrů zahrnuje dekompozici singulární hodnoty, dále zahrnující kroky: vytvoření transformační matice a vlastních hodnot transformační matice pro každý ze zmíněných shluků; a výběr podmnožiny vlastních hodnot sestávající z největších vlastních hodnot, kde informace
40 o snížení počtu rozměrů obsahuje transformační matici a podmnožinu vlastních hodnot.
6. Způsob podle nároku 5 pro vyhledání k záznamů nejvíce podobných specifikovaným datům pomocí indexu o sníženém počtu rozměrů, vyznačující se tím, že zahrnuje kroky: přiřazení specifikovaných dat zmíněnému shluku nebo více shlukům na základě uložené informace
45 o shlukování; zobrazení specifikovaných dat na podprostor pro přidružený shluk na základě uložené informace o snížení počtu rozměrů pro přidružený shluk; vytvoření informace o snížení počtu rozměrů obsahující ortogonální doplněk specifikovaných zobrazených dat odpovídající zmíněnému zobrazení; vyhledání přidruženého shluku, majícího k záznamů nejvíce podobných specifikovaným zobrazeným datům pomocí indexu; určení, zda libovolný další přidružený shluk může 50 obsahovat libovolný z k záznamů nejvíce podobných specifikovaným zobrazeným datům; a opakování zmíněného vyhledávání libovolného shluku, který může obsahovat libovolný z k záznamů nejvíce podobných specifikovaným datům.
-16CZ 297222 B6
7. Způsob podle nároku 6, vyznačující se t í m , že specifikovaná data obsahují vzor pro vyhledání a dále zahrnující kroky: zmíněný krok zahrnující zobrazení vzoru s použitím informace o snížení počtu rozměrů na podprostor přidružený shluku, do kterého náleží; vytvoření informace o snížení počtu rozměrů pro zobrazený vzor, kde zmíněné vyhledání pomocí indexuje založeno na zobrazeném vzoru a informaci o snížení počtu rozměrů; a obnovení množiny £-nejbližších sousedů £ záznamů nevíce podobných vzoru pro vyhledání.
8. Způsob podle nároku 5, vyznačující se tím, že zmíněný výběr množiny vlastních hodnot je funkcí přesnosti a odezvy navrácených výsledků.
9. Způsob podle nároku 2 pro vyhledání k záznamů nejvíce podobných specifikovaným datům, vyznačující se tím, že zahrnuje kroky: identifikace shluku, do kterého náležejí specifikovaná data, založená na informaci o shlukování; snížení počtu rozměrů specifikovaných dat na základě informace o snížení počtu rozměrů pro identifikovaný shluk; vytvoření informace o snížení počtu rozměrů pro specifikovaná data o sníženém počtu rozměrů, odpovídající zmíněnému snížení; prohledání vícerozměrného indexu pomocí informace o snížení počtu rozměrů pro získání verze shluku o sníženém počtu rozměrů, kterému náležejí specifikovaná data; získání k nejvíce podobných záznamů ve shluku pomocí vícerozměrného indexu; identifikace dalších kandidátů na shluky, které mohou obsahovat záznamy bližší specifikovaným datům, než je nej vzdálenější z k získaných nejvíce podobných záznamů; vyhledání dalšího kandidáta na shluk nejbližšího specifikovaným datům odpovídajícího zmíněnému určujícímu kroku; a opakování zmíněných kroků identifikace a vyhledávání pro všechny zmíněné další kandidující shluky.
10. Způsob podle alespoň jednoho z nároků 6 nebo 9, vyznačující se tím, že dále zahrnuje kroky: výpočet vzdálenosti (D) mezi k nejbližšími sousedy ve verzi shluku a zobrazenými specifikovanými daty jako funkce indexu neshody δ2, kde δ2 (vzor,prvek) =& ( obra z__v zořu,prvek) +£\\ortogonální_doplněk\\2
11. Způsob podle nároku 1, vyznačující se tím, že informace o shlukování obsahuje informaci o těžišti zmíněného shluku nebo více shluků, dále zahrnující krok přiřazení jednoznačného označení těžiště.
12. Způsob podle nároku 1, vyznačující se tím, že počet rozměrů dat je > 8.
13. Způsob podle nároku 1 pro provedení exaktního vyhledání, vyznačující se tím, že zahrnuje kroky: přiřazení specifikovaných dat jednomu ze shluků na základě uložené informace o shlukování; snížení počtu rozměrů specifikovaných dat na základě uložené informace o snížení počtu rozměrů pro verzi shluku o sníženém počtu rozměrů, odpovídající zmíněnému přiřazovacímu kroku; a vyhledání verze shluku o sníženém počtu rozměrů odpovídající specifikovaným datům na základě specifikovaných dat o sníženém počtu rozměrů.
14. Způsob podle nároku 13, vyznačující se tím, že zmíněné vyhledání navíc zahrnuje krok lineárního prohledání pro porovnání specifikovaných dat.
15. Způsob podle nároku 13, vyznačující se tím, že navíc zahrnuje kroky vytvoření hierarchie shluků o sníženém počtu rozměrů rekurzivním aplikováním zmíněných kroků a) až d); a vytvoření a uložení jednoho či více vícerozměrných indexů pro shluky na nejnižší úrovni zmíněné hierarchie.
16. Způsob podle nároku 15 pro provedení exaktního vyhledání, vyznačující se tím, že zahrnuje kroky: rekurzivní aplikování kroků: vyhledání shluku, kterému náležejí specifikovaná data, s použitím uložené informace o shlukování; a snižování počtu rozměrů specifikovaných
- 17CZ 297222 B6 dat s použitím uložené informace o snížení počtu rozměrů, dokud není dosaženo odpovídající nejnižší úrovně hierarchie shluků o sníženém počtu rozměrů; a vyhledání verze shluku o sníženém počtu rozměrů, odpovídajícího specifikovaným datům, pomocí indexů o nízkém počtu rozměrů.
17. Způsob podle nároku 15 pro provedení podobnostního vyhledání, vyznačující se t í m , že zahrnuje kroky: rekurzivní aplikování kroků: vyhledání shluku, kterému náležejí specifikovaná data, s použitím uložené informace o shlukování; a snížení počtu rozměrů specifikovaných dat na nejnižší úroveň hierarchie shluků o sníženém počtu rozměrů s použitím uložené informace o snížení počtu rozměrů; vyhledání kandidujících koncových shluků, které mohou obsahovat jednoho nebo více z k nejbližších sousedů specifikovaných dat na každé úrovni hierarchie shluků o sníženém počtu rozměrů, počínaje koncovým shlukem na nejnižší úrovni zmíněné hierarchie, do kterého náležejí specifikovaná data; a provedení vyhledání k nejbližších sousedů specifikovaných dat uvnitř každého z kandidujících koncových shluků.
18. Způsob podle nároku 15 pro provedení podobnostního vyhledání, vyznačující se t í m , že dále zahrnuje kroky: snížení počtu rozměrů specifikovaných dat; rekurzivní aplikování kroků: vyhledání shluku, kterému náležejí specifikovaná data, s použitím uložené informace o shlukování; a snížení počtu rozměrů specifikovaných dat o sníženém počtu rozměrů tak, aby odpovídala nejnižší úrovni hierarchie shluků o sníženém počtu rozměrů, s použitím uložené informace o snížení počtu rozměrů; vyhledání kandidujících koncových shluků, které mohou obsahovat jednoho nebo více z k nejbližších sousedů specifikovaných dat na každé úrovni hierarchie shluků o sníženém počtu rozměrů, počínaje koncovým shlukem na nejnižší úrovni zmíněné hierarchie, do kterého náležejí specifikovaná data; a provedení vyhledání knejbližších sousedů specifikovaných dat o sníženém počtu rozměrů uvnitř každého z kandidujících koncových shluků.
19. Způsob podle nároku 1, vyznačující se tím, že data jsou uložena v databázi, dále zahrnující kroky: snížení počtu rozměrů databáze a vytvoření informace o snížení počtu rozměrů, přidružené k databázi; a uložení informace o snížení počtu rozměrů, přidružené k databázi; zmíněný dělicí krok je citlivý na zmíněný redukční krok.
20. Způsob podle nároku 19 pro provedení exaktního vyhledání, vyznačující se tím, že zahrnuje kroky: snížení počtu rozměrů specifikovaných dat na základě informace o snížení počtu rozměrů pro databázi; přiřazení specifikovaných dat o sníženém počtu rozměrů jednomu ze shluků na základě informace o shlukování, odpovídající zmíněnému snížení; snížení počtu rozměrů specifikovaných dat na počet rozměrů shluku o sníženém počtu rozměrů definovaného přidruženým shlukem na základě informace o snížení počtu rozměrů pro přidružený shluk; a vyhledání odpovídajícího shluku o sníženém počtu rozměrů na základě verze specifikovaných dat o sníženém počtu rozměrů.
21. Způsob podle nároku 19 pro provedení podobnostního vyhledání, vyznačující se t í m , že zahrnuje kroky: snížení počtu rozměrů specifikovaných dat s použitím informace o snížení počtu rozměrů přidružené k databázi; vyhledání shluku, kterému náležejí data o sníženém počtu rozměrů, na základě informace o shlukování; snížení počtu rozměrů specifikovaných dat o sníženém počtu rozměrů na základě informace o snížení počtu rozměrů pro identifikovaný shluk; vyhledání verze shluku o sníženém počtu rozměrů, kterému náležejí specifikovaná data o dále sníženém počtu rozměrů; získání k záznamů nejvíce podobných specifikovaným datům o dále sníženém počtu rozměrů ve shluku pomocí vícerozměrného indexu; stanovení, zda další shluky mohou obsahovat záznamy bližší specifikovaným datům než nejvzdálenější z k získaných záznamů; vyhledání dalšího nejbližšího shluku specifikovaným datům odpovídajícího zmíněnému stanovujícímu kroku; opakování zmíněného stanovení a vyhledání pro všechny další zmíněné shluky.
- 18CZ 297222 B6
22. Způsob podle nároku 19, vyznačující se tím, že data jsou uložena v databázi, dále zahrnující krok: vytvoření a uložení jednoho či více vyhledávacích indexů pro zmíněný shluk či více shluků o sníženém počtu rozměrů.
23. Způsob podle nároku 19 pro provedení exaktního vyhledání, vyznačující se tím, že zahrnuje kroky: přiřazení specifikovaných dat jednomu ze shluků na základě uložené informace o shlukování; rozklad specifikovaných dat do shluku o sníženém počtu rozměrů definovaného přiřazeným shlukem a uloženou informaci o snížení počtu rozměrů pro přiřazený shluk, odpovídající zmíněnému přiřazení; a vyhledání odpovídajícího shluku o sníženém počtu rozměrů ve zmíněných indexech na základě rozložených specifikovaných dat.
24. Způsob podle nároku 23, v y z n ač uj í c í se t í m , že dotaz obsahuje vzor pro vyhledávání, dále zahrnující kroky: zmíněné přiřazení zahrnující identifikaci vzoru pro vyhledávání se shlukem na základě uložené informace o shlukování; zmíněný rozklad zahrnující zobrazení vzoru pro vyhledávání na podprostor pro identifikovaný shluk na základě uložené informace o snížení počtu rozměrů; a zmíněné vyhledání zahrnující provedení vyhledání zobrazeného vzoru uvnitř shluku.
25. Způsob podle nároku 1, vyznačuj ící se t í m , že dále zahrnuje kroky: a) vytvoření hranic shluků, které odpovídají aproximaci nultého řádu geometrie zmíněných shluků, b) aproximování geometrie každého ze shluků pomocí opsaného pravoúhelníku a z něj vytvořené aproximace prvního řádu geometrie každého ze shluků; c) rozdělení opsaného pravoúhelníku do 2“ nadpravoúhelníků, přičemž zmíněné rozdělení je provedeno ve středovém bodě v každém z rozměrů; d) zachování pouze těch nadpravoúhelníků, které obsahují datové body a následné vytvoření aproximace druhého řádu geometrie shluku pomocí těchto nadpravoúhelníků; a e) opakování zmíněných kroků c) a d) pro každý zachovaný nadpravoúhelník pro vytvoření následných aproximací třetího, čtvrtého,..., n-tého řádu geometrie shluku.
26. Způsob podle nároku 25 pro vyhledání hierarchie aproximací geometrické struktury každého ze shluků, vyznačující se tím, že dále zahrnuje kroky: snížení počtu rozměrů specifikovaných dat s použitím informace o snížení počtu rozměrů, přidružené k databázi; vyhledání shluku, kterému náležejí specifikovaná data o sníženém počtu rozměrů, na základě informace o shlukování; snížení počtu rozměrů specifikovaných dat o sníženém počtu rozměrů na základě informace o snížení počtu rozměrů pro identifikovaný shluk; vyhledání verze shluku o sníženém počtu rozměrů, kterému náležejí specifikovaná data o dále sníženém počtu rozměrů; získání k záznamů nejvíce podobných specifikovaným datům o dále sníženém počtu rozměrů ve shluku pomocí vícerozměrného indexu; stanovení, zda jeden či více dalších shluků může obsahovat záznamy bližší specifikovaným datům než nej vzdálenější z A: získaných záznamů; zachování dalšího shluku pouze v případě, že může obsahovat libovolného z k nejbližších sousedů specifikovaných dat na základě hranic shluku; iterativní stanovení, zda zachovaný shluk může obsahovat libovolného z A: nejbližších sousedů na základě aproximací geometrie o vzrůstající přesnosti a zachování zachovaného shluku pouze v případě, že shluk je akceptován na nejpřesnějši úrovni hierarchie následujících aproximací; a identifikace zachovaného shluku jako kandidujícího shluku obsahujícího jednoho či více z A nejbližších sousedů dat, odpovídajících zmíněnému kroku iterativního stanovení.
27. Zařízení pro uložení programu čitelné počítačem, vyznačující se tím, že obsahuje jeden či více indexů o sníženém počtu rozměrů pro vícerozměrná data, zařízení pro uložení programu zhmotňujícího program sestavený z instrukcí spustitelných na počítači za účelem provedení kroků způsobu reprezentace vícerozměrných dat podle nároku 1.
- 19CZ 297222 B6
28. Počítačový program, vyznačující se tím, že zahrnuje počítačem využitelné médium obsahující prostředky počítačového programového kódu na něm vytvořené pro reprezentaci vícerozměrných dat, prostředky počítačového programového kódu ve zmíněném počítačo5 vém programu zahrnují: prostředky počítačového programového kódu pro shlukování, určené pro rozdělení vícerozměrných dat počítačem do jednoho či více shluků; prostředky počítačového programu spřažené se zmíněnými prostředky pro shlukování za účelem vytvoření a uložení informace o shlukování počítačem pro zmíněný shluk či více shluků; prostředky počítačového programového kódu pro snížení počtu rozměrů, spřažené se zmíněnými prostředky pro shlukování za io účelem vytvoření jednoho či více shluků o sníženém počtu rozměrů a informace o snížení počtu rozměrů pro zmíněný shluk či více shluků počítačem; a prostředky počítačového programového kódu spřažené se zmíněnými prostředky pro snížení počtu rozměrů za účelem uložení informace o snížení počtu rozměrů počítačem.
CZ20001552A 1997-10-31 1998-10-27 Pocítacový zpusob reprezentace vícerozmerných dat, zarízení pro ulození programu a pocítacový program CZ297222B6 (cs)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/960,540 US6122628A (en) 1997-10-31 1997-10-31 Multidimensional data clustering and dimension reduction for indexing and searching

Publications (2)

Publication Number Publication Date
CZ20001552A3 CZ20001552A3 (cs) 2000-08-16
CZ297222B6 true CZ297222B6 (cs) 2006-10-11

Family

ID=25503305

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ20001552A CZ297222B6 (cs) 1997-10-31 1998-10-27 Pocítacový zpusob reprezentace vícerozmerných dat, zarízení pro ulození programu a pocítacový program

Country Status (12)

Country Link
US (1) US6122628A (cs)
EP (1) EP1025514B1 (cs)
JP (1) JP3113861B2 (cs)
KR (1) KR100385528B1 (cs)
CN (1) CN100429650C (cs)
CZ (1) CZ297222B6 (cs)
DE (1) DE69802960T2 (cs)
HU (1) HUP0100581A3 (cs)
IL (1) IL131820A (cs)
PL (1) PL340039A1 (cs)
TW (1) TW410304B (cs)
WO (1) WO1999023578A1 (cs)

Families Citing this family (368)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903454A (en) * 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
USRE46310E1 (en) 1991-12-23 2017-02-14 Blanding Hovenweep, Llc Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US6850252B1 (en) 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
USRE47908E1 (en) 1991-12-23 2020-03-17 Blanding Hovenweep, Llc Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
USRE48056E1 (en) 1991-12-23 2020-06-16 Blanding Hovenweep, Llc Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
JP3780623B2 (ja) * 1997-05-16 2006-05-31 株式会社日立製作所 動画像の記述方法
WO1998054658A1 (fr) * 1997-05-30 1998-12-03 Hitachi, Ltd. Systeme de recherche d'informations spatiales
US6289352B1 (en) * 1998-05-29 2001-09-11 Crystal Decisions, Inc. Apparatus and method for compound on-line analytical processing in databases
SE512540C2 (sv) * 1998-06-22 2000-04-03 Umetri Ab Metod och anordning för kalibrering av indata
US7197451B1 (en) 1998-07-02 2007-03-27 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US7152031B1 (en) * 2000-02-25 2006-12-19 Novell, Inc. Construction, manipulation, and comparison of a multi-dimensional semantic space
US6574618B2 (en) 1998-07-22 2003-06-03 Appstream, Inc. Method and system for executing network streamed application
US20010044850A1 (en) 1998-07-22 2001-11-22 Uri Raz Method and apparatus for determining the order of streaming modules
US6311221B1 (en) 1998-07-22 2001-10-30 Appstream Inc. Streaming modules
US7197570B2 (en) * 1998-07-22 2007-03-27 Appstream Inc. System and method to send predicted application streamlets to a client device
EP0990998A3 (en) 1998-09-30 2005-04-20 Canon Kabushiki Kaisha Information search apparatus and method
US6493705B1 (en) * 1998-09-30 2002-12-10 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
US6493692B1 (en) * 1998-09-30 2002-12-10 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
US6397166B1 (en) * 1998-11-06 2002-05-28 International Business Machines Corporation Method and system for model-based clustering and signal-bearing medium for storing program of same
US6334125B1 (en) * 1998-11-17 2001-12-25 At&T Corp. Method and apparatus for loading data into a cube forest data structure
US6424967B1 (en) * 1998-11-17 2002-07-23 At&T Corp. Method and apparatus for querying a cube forest data structure
EP1141811A2 (en) * 1998-12-08 2001-10-10 Mediadna, Inc. A system and method of obfuscating data
US6356214B1 (en) 1999-02-02 2002-03-12 Cisco Technology, Inc. Fast look-up table based scheme for NRZI encoding/decoding and zero insertion/removal in serial bit streams
US6304867B1 (en) * 1999-02-25 2001-10-16 Electronic Data Systems Corporation System and method for enhanced performance of a relational database management system through the use of application-specific memory-resident data
US6567796B1 (en) 1999-03-23 2003-05-20 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US6741980B1 (en) 1999-03-23 2004-05-25 Microstrategy Inc. System and method for automatic, real-time delivery of personalized informational and transactional data to users via content delivery device
US8321411B2 (en) 1999-03-23 2012-11-27 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US6694316B1 (en) 1999-03-23 2004-02-17 Microstrategy Inc. System and method for a subject-based channel distribution of automatic, real-time delivery of personalized informational and transactional data
US6349309B1 (en) * 1999-05-24 2002-02-19 International Business Machines Corporation System and method for detecting clusters of information with application to e-commerce
US9208213B2 (en) 1999-05-28 2015-12-08 Microstrategy, Incorporated System and method for network user interface OLAP report formatting
US8607138B2 (en) * 1999-05-28 2013-12-10 Microstrategy, Incorporated System and method for OLAP report generation with spreadsheet report within the network user interface
US6279033B1 (en) * 1999-05-28 2001-08-21 Microstrategy, Inc. System and method for asynchronous control of report generation using a network interface
US6381605B1 (en) * 1999-05-29 2002-04-30 Oracle Corporation Heirarchical indexing of multi-attribute data by sorting, dividing and storing subsets
US6470344B1 (en) * 1999-05-29 2002-10-22 Oracle Corporation Buffering a hierarchical index of multi-dimensional data
US6701305B1 (en) 1999-06-09 2004-03-02 The Boeing Company Methods, apparatus and computer program products for information retrieval and document classification utilizing a multidimensional subspace
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US6477536B1 (en) * 1999-06-22 2002-11-05 Microsoft Corporation Virtual cubes
US6424972B1 (en) * 1999-06-22 2002-07-23 Microsoft Corporation Floating point conversion for records of multidimensional database
US6424969B1 (en) * 1999-07-20 2002-07-23 Inmentia, Inc. System and method for organizing data
US6272498B1 (en) * 1999-07-22 2001-08-07 Lucent Technologies Inc. Method for partitioning multi-dimensional data sets into rectangular partitions
US6581054B1 (en) 1999-07-30 2003-06-17 Computer Associates Think, Inc. Dynamic query model and method
US6691140B1 (en) * 1999-07-30 2004-02-10 Computer Associates Think, Inc. Method and system for multidimensional storage model with interdimensional links
US6842758B1 (en) 1999-07-30 2005-01-11 Computer Associates Think, Inc. Modular method and system for performing database queries
US7644366B1 (en) 1999-07-30 2010-01-05 Computer Associates Think, Inc. Method and system for displaying a plurality of discrete files in a compound file
US6408292B1 (en) 1999-08-04 2002-06-18 Hyperroll, Israel, Ltd. Method of and system for managing multi-dimensional databases using modular-arithmetic based address data mapping processes on integer-encoded business dimensions
US6385604B1 (en) 1999-08-04 2002-05-07 Hyperroll, Israel Limited Relational database management system having integrated non-relational multi-dimensional data store of aggregated data elements
US6421668B1 (en) * 1999-08-05 2002-07-16 Agilent Technologies, Inc. Method and system for partitioning data into subsets of related data
US8130918B1 (en) 1999-09-13 2012-03-06 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing
US6606596B1 (en) 1999-09-13 2003-08-12 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through digital sound files
US6964012B1 (en) 1999-09-13 2005-11-08 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts
US6829334B1 (en) 1999-09-13 2004-12-07 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with telephone-based service utilization and control
US6836537B1 (en) 1999-09-13 2004-12-28 Microstrategy Incorporated System and method for real-time, personalized, dynamic, interactive voice services for information related to existing travel schedule
US6751343B1 (en) * 1999-09-20 2004-06-15 Ut-Battelle, Llc Method for indexing and retrieving manufacturing-specific digital imagery based on image content
US6741983B1 (en) * 1999-09-28 2004-05-25 John D. Birdwell Method of indexed storage and retrieval of multidimensional information
US6510420B1 (en) * 1999-09-30 2003-01-21 International Business Machines Corporation Framework for dynamic hierarchical grouping and calculation based on multidimensional member characteristics
JP3480563B2 (ja) * 1999-10-04 2003-12-22 日本電気株式会社 パターン識別のための特徴抽出装置
US6647381B1 (en) * 1999-10-27 2003-11-11 Nec Usa, Inc. Method of defining and utilizing logical domains to partition and to reorganize physical domains
US6526405B1 (en) * 1999-12-17 2003-02-25 Microsoft Corporation Determining similarity between event types in sequences
US6446068B1 (en) * 1999-11-15 2002-09-03 Chris Alan Kortge System and method of finding near neighbors in large metric space databases
US7016540B1 (en) * 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US6983315B1 (en) 2000-01-18 2006-01-03 Wrq, Inc. Applet embedded cross-platform caching
US6662195B1 (en) 2000-01-21 2003-12-09 Microstrategy, Inc. System and method for information warehousing supporting the automatic, real-time delivery of personalized informational and transactional data to users via content delivery device
US7318053B1 (en) * 2000-02-25 2008-01-08 International Business Machines Corporation Indexing system and method for nearest neighbor searches in high dimensional data spaces
US20020029207A1 (en) 2000-02-28 2002-03-07 Hyperroll, Inc. Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein
US7117215B1 (en) 2001-06-07 2006-10-03 Informatica Corporation Method and apparatus for transporting data for data warehousing applications that incorporates analytic data interface
KR20020004301A (ko) * 2000-07-04 2002-01-16 이동호 구형 피라미드 기법을 이용한 최근접 질의 처리 방법
US7672952B2 (en) * 2000-07-13 2010-03-02 Novell, Inc. System and method of semantic correlation of rich content
US7653530B2 (en) * 2000-07-13 2010-01-26 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US7286977B1 (en) * 2000-09-05 2007-10-23 Novell, Inc. Intentional-stance characterization of a general content stream or repository
US7389225B1 (en) 2000-10-18 2008-06-17 Novell, Inc. Method and mechanism for superpositioning state vectors in a semantic abstract
US6877006B1 (en) 2000-07-19 2005-04-05 Vasudevan Software, Inc. Multimedia inspection database system (MIDaS) for dynamic run-time data evaluation
US6850947B1 (en) * 2000-08-10 2005-02-01 Informatica Corporation Method and apparatus with data partitioning and parallel processing for transporting data for data warehousing applications
US7120657B2 (en) * 2000-08-29 2006-10-10 Science Applications International Corporation System and method for adaptive filtering
US7177922B1 (en) 2000-09-05 2007-02-13 Novell, Inc. Policy enforcement using the semantic characterization of traffic
US20090234718A1 (en) * 2000-09-05 2009-09-17 Novell, Inc. Predictive service systems using emotion detection
US20100122312A1 (en) * 2008-11-07 2010-05-13 Novell, Inc. Predictive service systems
US7958096B2 (en) * 2000-09-20 2011-06-07 Ndsu-Research Foundation System and method for organizing, compressing and structuring data for data mining readiness
AUPR033800A0 (en) * 2000-09-25 2000-10-19 Telstra R & D Management Pty Ltd A document categorisation system
US7051315B2 (en) 2000-09-26 2006-05-23 Appstream, Inc. Network streaming of multi-application program code
US6757894B2 (en) 2000-09-26 2004-06-29 Appstream, Inc. Preprocessed applications suitable for network streaming applications and method for producing same
WO2002031815A1 (en) * 2000-10-13 2002-04-18 Science Applications International Corporation System and method for linear prediction
US7689621B1 (en) * 2000-11-06 2010-03-30 Navteq North America, Llc Multi-dimensional spatial index for a geographic database
KR100440949B1 (ko) * 2000-11-14 2004-07-21 삼성전자주식회사 특징 벡터 공간내에서의 적응적 검색 방법
KR100429792B1 (ko) * 2000-11-15 2004-05-03 삼성전자주식회사 특징 벡터 공간의 인덱싱 방법 및 검색 방법
EP1211614A1 (fr) * 2000-11-28 2002-06-05 Koninklijke Philips Electronics N.V. Procédé de recherche dans une structure hiérarchique d'objets
US20020138466A1 (en) * 2001-01-13 2002-09-26 International Business Machines Corporation Method, computer program and data processing system for data clustering
US7493391B2 (en) * 2001-02-12 2009-02-17 International Business Machines Corporation System for automated session resource clean-up by determining whether server resources have been held by client longer than preset thresholds
AU2002254162A1 (en) * 2001-03-08 2002-09-24 Chromavision Medical Systems, Inc. Apparatus and method for labeling rows and columns in an irregular array
US20020165839A1 (en) * 2001-03-14 2002-11-07 Taylor Kevin M. Segmentation and construction of segmentation classifiers
US6615211B2 (en) * 2001-03-19 2003-09-02 International Business Machines Corporation System and methods for using continuous optimization for ordering categorical data sets
US6944619B2 (en) * 2001-04-12 2005-09-13 Primentia, Inc. System and method for organizing data
US6970881B1 (en) 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
USRE46973E1 (en) 2001-05-07 2018-07-31 Ureveal, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7536413B1 (en) 2001-05-07 2009-05-19 Ixreveal, Inc. Concept-based categorization of unstructured objects
US7627588B1 (en) 2001-05-07 2009-12-01 Ixreveal, Inc. System and method for concept based analysis of unstructured data
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
WO2002091244A1 (en) * 2001-05-09 2002-11-14 Appfluent Technology, Inc. System and method for clustering database caches
US6697818B2 (en) 2001-06-14 2004-02-24 International Business Machines Corporation Methods and apparatus for constructing and implementing a universal extension module for processing objects in a database
US7162643B1 (en) 2001-06-15 2007-01-09 Informatica Corporation Method and system for providing transfer of analytic application data over a network
DE60129942T2 (de) * 2001-06-18 2008-04-17 Hewlett-Packard Development Co., L.P., Houston Verfahren und System zur Identifizierung von Geräten, welche über ein Netzwerk verbunden sind, wie z.B. Personal Computer
US20070043774A1 (en) * 2001-06-27 2007-02-22 Inxight Software, Inc. Method and Apparatus for Incremental Computation of the Accuracy of a Categorization-by-Example System
US7089238B1 (en) * 2001-06-27 2006-08-08 Inxight Software, Inc. Method and apparatus for incremental computation of the accuracy of a categorization-by-example system
US7720842B2 (en) 2001-07-16 2010-05-18 Informatica Corporation Value-chained queries in analytic applications
US6888548B1 (en) * 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US6978274B1 (en) 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US6778995B1 (en) * 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
KR100483321B1 (ko) * 2001-10-17 2005-04-15 한국과학기술원 하이퍼사각형 기반의 다차원 데이터 세그먼테이션을이용한 유사성 검색 장치와 그 방법
US6820077B2 (en) 2002-02-22 2004-11-16 Informatica Corporation Method and system for navigating a large amount of data
US7271804B2 (en) * 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area
US8589413B1 (en) 2002-03-01 2013-11-19 Ixreveal, Inc. Concept-based method and system for dynamically analyzing results from search engines
US7043514B1 (en) 2002-03-01 2006-05-09 Microsoft Corporation System and method adapted to facilitate dimensional transform
US20040024608A1 (en) * 2002-04-03 2004-02-05 Javier Saenz System and method for customer contact management
US20040143496A1 (en) * 2002-04-03 2004-07-22 Javier Saenz System and method for offering awards to patrons of an establishment
CA2488432C (en) * 2002-04-03 2014-12-23 Venture Catalyst Incorporated System and method for customer contact management
US8630526B1 (en) 2002-04-12 2014-01-14 At&T Intellectual Property Ii, L.P. Method of indexing multimedia content by creating database records that include location data
US7080081B2 (en) * 2002-04-15 2006-07-18 International Business Machines Corporation Multidimensional data clustering scheme for query processing and maintenance in relational databases
JP2006511850A (ja) * 2002-04-19 2006-04-06 コンピュータ アソシエイツ シンク,インコーポレイテッド データマイニングのためのニューラルネットワークの使用
US7777743B2 (en) * 2002-04-19 2010-08-17 Computer Associates Think, Inc. Viewing multi-dimensional data through hierarchical visualization
US8082286B1 (en) 2002-04-22 2011-12-20 Science Applications International Corporation Method and system for soft-weighting a reiterative adaptive signal processor
US7373353B2 (en) * 2002-05-10 2008-05-13 International Business Machines Corporation Reducing index size for multi-level grid indexes
US7143098B2 (en) * 2002-05-10 2006-11-28 International Business Machines Corporation Systems, methods, and computer program products to reduce computer processing in grid cell size determination for indexing of multidimensional databases
US7383275B2 (en) 2002-05-10 2008-06-03 International Business Machines Corporation Methods to improve indexing of multidimensional databases
FR2840424B1 (fr) * 2002-05-30 2004-09-03 Thomson Licensing Sa Procede et dispositif de fragmentation de donnees multimedia
US6996575B2 (en) * 2002-05-31 2006-02-07 Sas Institute Inc. Computer-implemented system and method for text-based document processing
US7647233B2 (en) 2002-06-21 2010-01-12 United Parcel Service Of America, Inc. Systems and methods for providing business intelligence based on shipping information
AU2003284118A1 (en) * 2002-10-14 2004-05-04 Battelle Memorial Institute Information reservoir
WO2004040779A2 (en) * 2002-10-25 2004-05-13 Science Applications International Corporation Adaptive filtering in the presence of multipath
US7392247B2 (en) * 2002-12-06 2008-06-24 International Business Machines Corporation Method and apparatus for fusing context data
JP3974511B2 (ja) * 2002-12-19 2007-09-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム
US7158996B2 (en) * 2003-01-27 2007-01-02 International Business Machines Corporation Method, system, and program for managing database operations with respect to a database table
US20040158561A1 (en) * 2003-02-04 2004-08-12 Gruenwald Bjorn J. System and method for translating languages using an intermediate content space
US20040181518A1 (en) * 2003-03-14 2004-09-16 Mayo Bryan Edward System and method for an OLAP engine having dynamic disaggregation
US7668801B1 (en) * 2003-04-21 2010-02-23 At&T Corp. Method and apparatus for optimizing queries under parametric aggregation constraints
WO2004098115A2 (en) 2003-04-28 2004-11-11 Alcatel Ip Networks, Inc. Oam echo messaging to verify a service-based network distribution path
US7765211B2 (en) * 2003-04-29 2010-07-27 International Business Machines Corporation System and method for space management of multidimensionally clustered tables
US7139779B1 (en) 2003-05-29 2006-11-21 Microsoft Corporation Method and system for developing extract transform load systems for data warehouses
US20040249831A1 (en) * 2003-06-09 2004-12-09 Ronald Fagin Efficient similarity search and classification via rank aggregation
US6941315B2 (en) * 2003-06-23 2005-09-06 Microsoft Corp. Multidimensional data object searching using bit vector indices
US7590638B2 (en) * 2003-06-24 2009-09-15 Microsoft Corporation System and method for online analytical processing using dimension attributes and multiple hierarchies where first hierarchy has at least one attribute from the defined dimension not present in the second hierarchy
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US7421458B1 (en) 2003-10-16 2008-09-02 Informatica Corporation Querying, versioning, and dynamic deployment of database objects
US7353359B2 (en) * 2003-10-28 2008-04-01 International Business Machines Corporation Affinity-based clustering of vectors for partitioning the columns of a matrix
US7254590B2 (en) * 2003-12-03 2007-08-07 Informatica Corporation Set-oriented real-time data processing based on transaction boundaries
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US7668845B1 (en) 2004-02-18 2010-02-23 Microsoft Corporation C-tree for multi-attribute indexing
EP1571571A1 (de) * 2004-03-02 2005-09-07 Henner Lüttich Automatisierte multivariate Priorisierungs- und Selektierungslogik
US20050198008A1 (en) * 2004-03-02 2005-09-08 Adler David W. Index exploitation for spatial data
US8572221B2 (en) 2004-05-26 2013-10-29 Facebook, Inc. System and method for managing an online social network
WO2006002328A2 (en) * 2004-06-23 2006-01-05 Plain Sight Systems, Inc. System and method for document analysis, processing and information extraction
US7512587B2 (en) 2004-07-01 2009-03-31 Microsoft Corporation Efficient computation of web page rankings
US7599978B2 (en) * 2004-07-06 2009-10-06 Telefonaktiebolaget L M Ericsson (Publ) Digital signal decimation by subspace projection
US7379947B2 (en) * 2004-07-30 2008-05-27 Microsoft Corporation Efficiently ranking web pages via matrix index manipulation and improved caching
WO2006047407A2 (en) * 2004-10-26 2006-05-04 Yahoo! Inc. Method of indexing gategories for efficient searching and ranking
US7389283B2 (en) * 2004-12-07 2008-06-17 International Business Machines Corporation Method for determining an optimal grid index specification for multidimensional data
JP4556120B2 (ja) * 2005-01-07 2010-10-06 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7404151B2 (en) * 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7356777B2 (en) 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US20060179051A1 (en) * 2005-02-09 2006-08-10 Battelle Memorial Institute Methods and apparatus for steering the analyses of collections of documents
US7797320B2 (en) * 2005-03-15 2010-09-14 Hyperion Solutions Corporation Dimensionality reduction
CN100383787C (zh) * 2005-03-17 2008-04-23 华为技术有限公司 一种数据库多表信息初始化方法
KR100620125B1 (ko) * 2005-07-18 2006-09-06 인하대학교 산학협력단 공간 데이터 웨어하우스에서 부분 색인 전송을 이용한 색인재구성 시스템 및 방법
US20070067106A1 (en) * 2005-09-20 2007-03-22 Antoine Lennox B Streaming geometry using quasi-pyramidal structure
US7535473B2 (en) * 2005-09-20 2009-05-19 Erdas, Inc. Collaborative environments in a graphical information system
EP1952280B8 (en) 2005-10-11 2016-11-30 Ureveal, Inc. System, method&computer program product for concept based searching&analysis
US9529984B2 (en) 2005-10-26 2016-12-27 Cortica, Ltd. System and method for verification of user identification based on multimedia content elements
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US9235557B2 (en) 2005-10-26 2016-01-12 Cortica, Ltd. System and method thereof for dynamically associating a link to an information resource with a multimedia content displayed in a web-page
US10949773B2 (en) 2005-10-26 2021-03-16 Cortica, Ltd. System and methods thereof for recommending tags for multimedia content elements based on context
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US9286623B2 (en) 2005-10-26 2016-03-15 Cortica, Ltd. Method for determining an area within a multimedia content element over which an advertisement can be displayed
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US9646005B2 (en) 2005-10-26 2017-05-09 Cortica, Ltd. System and method for creating a database of multimedia content elements assigned to users
US9256668B2 (en) 2005-10-26 2016-02-09 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US10742340B2 (en) 2005-10-26 2020-08-11 Cortica Ltd. System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto
US9087049B2 (en) 2005-10-26 2015-07-21 Cortica, Ltd. System and method for context translation of natural language
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US11019161B2 (en) 2005-10-26 2021-05-25 Cortica, Ltd. System and method for profiling users interest based on multimedia content analysis
US9558449B2 (en) 2005-10-26 2017-01-31 Cortica, Ltd. System and method for identifying a target area in a multimedia content element
US9384196B2 (en) 2005-10-26 2016-07-05 Cortica, Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US9953032B2 (en) 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US10380164B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for using on-image gestures and multimedia content elements as search queries
US8818916B2 (en) 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US9639532B2 (en) 2005-10-26 2017-05-02 Cortica, Ltd. Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts
US11620327B2 (en) 2005-10-26 2023-04-04 Cortica Ltd System and method for determining a contextual insight and generating an interface with recommendations based thereon
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US9191626B2 (en) 2005-10-26 2015-11-17 Cortica, Ltd. System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US11386139B2 (en) 2005-10-26 2022-07-12 Cortica Ltd. System and method for generating analytics for entities depicted in multimedia content
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US10387914B2 (en) 2005-10-26 2019-08-20 Cortica, Ltd. Method for identification of multimedia content elements and adding advertising content respective thereof
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US9330189B2 (en) 2005-10-26 2016-05-03 Cortica, Ltd. System and method for capturing a multimedia content item by a mobile device and matching sequentially relevant content to the multimedia content item
US9489431B2 (en) 2005-10-26 2016-11-08 Cortica, Ltd. System and method for distributed search-by-content
US9466068B2 (en) 2005-10-26 2016-10-11 Cortica, Ltd. System and method for determining a pupillary response to a multimedia data element
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US10776585B2 (en) 2005-10-26 2020-09-15 Cortica, Ltd. System and method for recognizing characters in multimedia content
US9396435B2 (en) 2005-10-26 2016-07-19 Cortica, Ltd. System and method for identification of deviations from periodic behavior patterns in multimedia content
US10372746B2 (en) 2005-10-26 2019-08-06 Cortica, Ltd. System and method for searching applications using multimedia content elements
US20160321253A1 (en) 2005-10-26 2016-11-03 Cortica, Ltd. System and method for providing recommendations based on user profiles
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
US10607355B2 (en) 2005-10-26 2020-03-31 Cortica, Ltd. Method and system for determining the dimensions of an object shown in a multimedia content item
US9218606B2 (en) 2005-10-26 2015-12-22 Cortica, Ltd. System and method for brand monitoring and trend analysis based on deep-content-classification
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US7630992B2 (en) * 2005-11-30 2009-12-08 Selective, Inc. Selective latent semantic indexing method for information retrieval applications
JP4777059B2 (ja) * 2005-12-22 2011-09-21 パナソニック株式会社 画像検索装置および画像検索方法
US7676485B2 (en) 2006-01-20 2010-03-09 Ixreveal, Inc. Method and computer program product for converting ontologies into concept semantic networks
JP5130634B2 (ja) * 2006-03-08 2013-01-30 ソニー株式会社 自発光表示装置、電子機器、焼き付き補正装置及びプログラム
US7738709B2 (en) * 2006-05-05 2010-06-15 New Jersey Institute Of Technology Method for identifying marked content, such as by using a class-wise non-principal component approach
US9087335B2 (en) 2006-09-29 2015-07-21 American Express Travel Related Services Company, Inc. Multidimensional personal behavioral tomography
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
EP2860434B1 (en) * 2006-11-07 2018-01-10 Intelligent Energy Limited Magnetic fluid coupling assemblies and methods
US7664719B2 (en) * 2006-11-16 2010-02-16 University Of Tennessee Research Foundation Interaction method with an expert system that utilizes stutter peak rule
US7624087B2 (en) * 2006-11-16 2009-11-24 University Of Tennessee Research Foundation Method of expert system analysis of DNA electrophoresis data
US7640223B2 (en) * 2006-11-16 2009-12-29 University Of Tennessee Research Foundation Method of organizing and presenting data in a table using stutter peak rule
US8583419B2 (en) * 2007-04-02 2013-11-12 Syed Yasin Latent metonymical analysis and indexing (LMAI)
JP5045240B2 (ja) * 2007-05-29 2012-10-10 富士通株式会社 データ分割プログラム、該プログラムを記録した記録媒体、データ分割装置、およびデータ分割方法
CN100534967C (zh) * 2007-06-12 2009-09-02 无锡百川化工股份有限公司 烷氧基化三羟甲基丙烷的生产方法
CN100472537C (zh) * 2007-06-20 2009-03-25 中国科学院计算技术研究所 一种资源空间模型的存储与访问方法
US8051073B2 (en) * 2007-06-26 2011-11-01 Endeca Technologies, Inc. System and method for measuring the quality of document sets
US8935249B2 (en) 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
WO2009055961A1 (fr) * 2007-10-30 2009-05-07 Mingzhong Li Ressource d'indexation d'objets dans une structure multidimensionnelle, entrepôt de stockage d'objets, procédé d'accès aux objets et système d'accès aux objets
WO2009065262A1 (fr) * 2007-11-23 2009-05-28 Mingzhong Li Procédé de collecte d'objets dans une structure multidimensionnelle, système de collecte d'objets et support d'enregistrement
US8078394B2 (en) * 2008-02-26 2011-12-13 Microsoft Corp. Indexing large-scale GPS tracks
US8015144B2 (en) 2008-02-26 2011-09-06 Microsoft Corporation Learning transportation modes from raw GPS data
US8972177B2 (en) 2008-02-26 2015-03-03 Microsoft Technology Licensing, Llc System for logging life experiences using geographic cues
US8966121B2 (en) * 2008-03-03 2015-02-24 Microsoft Corporation Client-side management of domain name information
DE102008002544A1 (de) * 2008-06-19 2009-12-24 Psylock Gmbh Verfahren und Vorrichtung zur Identifizierung einer Person mittels ihres Tippverhaltens unter Berücksichtigung der örtlichen Verteilung der Tasten einer Tastatur
US20090327339A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Partition templates for multidimensional databases
US8762383B2 (en) * 2008-08-06 2014-06-24 Obschestvo s organichennoi otvetstvennostiu “KUZNETCH” Search engine and method for image searching
US20100114905A1 (en) * 2008-11-03 2010-05-06 Elvin Slavik Method, System, and Product for Managing Spatial Data in a Database
KR101052592B1 (ko) * 2008-11-19 2011-07-29 한국과학기술정보연구원 계층적 클러스터링에서 최적의 군집 분할 방법 및 시스템
US8301622B2 (en) * 2008-12-30 2012-10-30 Novell, Inc. Identity analysis and correlation
US8296297B2 (en) * 2008-12-30 2012-10-23 Novell, Inc. Content analysis and correlation
US8386475B2 (en) * 2008-12-30 2013-02-26 Novell, Inc. Attribution analysis and correlation
TWI413020B (zh) * 2008-12-31 2013-10-21 Ind Tech Res Inst 全域極小值的搜尋方法及系統
US9063226B2 (en) 2009-01-14 2015-06-23 Microsoft Technology Licensing, Llc Detecting spatial outliers in a location entity dataset
US20100194560A1 (en) * 2009-02-02 2010-08-05 United Parcel Service Of America, Inc. Systems and methods for enhanced business process monitoring
JP5459312B2 (ja) * 2009-03-27 2014-04-02 日本電気株式会社 パターン照合装置、パターン照合方法及びパターン照合プログラム
US20100250479A1 (en) * 2009-03-31 2010-09-30 Novell, Inc. Intellectual property discovery and mapping systems and methods
US9245243B2 (en) 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
US8925034B1 (en) 2009-06-30 2014-12-30 Symantec Corporation Data protection requirements specification and migration
US8713018B2 (en) 2009-07-28 2014-04-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via inclusion
US8352937B2 (en) * 2009-08-03 2013-01-08 Symantec Corporation Streaming an application install package into a virtual environment
US8387047B1 (en) 2009-08-03 2013-02-26 Symantec Corporation Method of virtualizing file extensions in a computer system by determining an association between applications in virtual environment and a file extension
EP2471009A1 (en) 2009-08-24 2012-07-04 FTI Technology LLC Generating a reference set for use during document review
US8090744B1 (en) 2009-08-26 2012-01-03 Symantec Operating Corporation Method and apparatus for determining compatibility between a virtualized application and a base environment
US8473444B1 (en) 2009-08-28 2013-06-25 Symantec Corporation Management of actions in multiple virtual and non-virtual environments
US8438555B1 (en) 2009-08-31 2013-05-07 Symantec Corporation Method of using an encapsulated data signature for virtualization layer activation
US8458310B1 (en) 2009-09-14 2013-06-04 Symantec Corporation Low bandwidth streaming of application upgrades
US9009177B2 (en) 2009-09-25 2015-04-14 Microsoft Corporation Recommending points of interests in a region
TWI585596B (zh) * 2009-10-01 2017-06-01 Alibaba Group Holding Ltd How to implement image search and website server
EP2486532A4 (en) * 2009-10-05 2013-08-21 Callspace Inc CONTEXT-RELATED TELEPHONE MESSAGE MANAGEMENT
US8566297B1 (en) 2010-01-14 2013-10-22 Symantec Corporation Method to spoof data formats from image backups
US8290912B1 (en) 2010-01-29 2012-10-16 Symantec Corporation Endpoint virtualization aware backup
US8179300B2 (en) * 2010-01-29 2012-05-15 Mitsubishi Electric Research Laboratories, Inc. Method for suppressing clutter in space-time adaptive processing systems
US9261376B2 (en) 2010-02-24 2016-02-16 Microsoft Technology Licensing, Llc Route computation based on route-oriented vehicle trajectories
US10288433B2 (en) * 2010-02-25 2019-05-14 Microsoft Technology Licensing, Llc Map-matching for low-sampling-rate GPS trajectories
CN102255788B (zh) * 2010-05-19 2014-08-20 北京启明星辰信息技术股份有限公司 报文分类决策构建系统及方法、报文分类系统及方法
US9593957B2 (en) 2010-06-04 2017-03-14 Microsoft Technology Licensing, Llc Searching similar trajectories by locations
US8495625B1 (en) 2010-07-27 2013-07-23 Symantec Corporation Method and system for creation of streamed files on-demand
US10431336B1 (en) 2010-10-01 2019-10-01 Cerner Innovation, Inc. Computerized systems and methods for facilitating clinical decision making
US20120089421A1 (en) 2010-10-08 2012-04-12 Cerner Innovation, Inc. Multi-site clinical decision support for sepsis
US11398310B1 (en) 2010-10-01 2022-07-26 Cerner Innovation, Inc. Clinical decision support for sepsis
US8571333B2 (en) * 2010-10-17 2013-10-29 Canon Kabushiki Kaisha Data clustering
US8645380B2 (en) 2010-11-05 2014-02-04 Microsoft Corporation Optimized KD-tree for scalable search
US10628553B1 (en) 2010-12-30 2020-04-21 Cerner Innovation, Inc. Health information transformation system
WO2012138428A2 (en) 2011-02-23 2012-10-11 Beckman Coulter, Inc. Method and apparatus for displaying multidimensional data
US20120246054A1 (en) * 2011-03-22 2012-09-27 Gautham Sastri Reaction indicator for sentiment of social media messages
US8370363B2 (en) 2011-04-21 2013-02-05 Microsoft Corporation Hybrid neighborhood graph search for scalable visual indexing
WO2012163387A1 (en) * 2011-05-27 2012-12-06 Telefonaktiebolaget L M Ericsson (Publ) A method of conditioning communication network data relating to a distribution of network entities across a space
CN102306202B (zh) * 2011-09-30 2013-09-04 中国传媒大学 一种基于街区距离的高维向量快速检索算法
AU2011226985B2 (en) * 2011-09-30 2014-05-01 Canon Kabushiki Kaisha Image retrieval method
US8856156B1 (en) 2011-10-07 2014-10-07 Cerner Innovation, Inc. Ontology mapper
US9754226B2 (en) 2011-12-13 2017-09-05 Microsoft Technology Licensing, Llc Urban computing of route-oriented vehicles
US20130166188A1 (en) 2011-12-21 2013-06-27 Microsoft Corporation Determine Spatiotemporal Causal Interactions In Data
WO2013116779A1 (en) * 2012-02-01 2013-08-08 Futurewei Technologies, Inc. System and method for organizing multimedia content
CN104246728B (zh) * 2012-04-27 2018-04-17 英派尔科技开发有限公司 用于数据库索引的多个可变覆盖率存储器
US10249385B1 (en) 2012-05-01 2019-04-02 Cerner Innovation, Inc. System and method for record linkage
CN102799682B (zh) * 2012-05-10 2015-01-07 中国电力科学研究院 一种海量数据预处理方法及其系统
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
EP2883179A2 (en) * 2012-08-07 2015-06-17 Koninklijke Philips N.V. Population classification of genetic data set using tree based spatial data structure
US8756237B2 (en) * 2012-10-12 2014-06-17 Architecture Technology Corporation Scalable distributed processing of RDF data
US10946311B1 (en) 2013-02-07 2021-03-16 Cerner Innovation, Inc. Discovering context-specific serial health trajectories
US10769241B1 (en) 2013-02-07 2020-09-08 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
US11894117B1 (en) 2013-02-07 2024-02-06 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
US9880776B1 (en) 2013-02-22 2018-01-30 Veritas Technologies Llc Content-driven data protection method for multiple storage devices
US20140278490A1 (en) * 2013-03-12 2014-09-18 Opera Solutions, Llc System and Method For Grouping Medical Codes For Clinical Predictive Analytics
US9760654B2 (en) 2013-04-26 2017-09-12 Wal-Mart Stores, Inc. Method and system for focused multi-blocking to increase link identification rates in record comparison
US9235592B2 (en) 2013-04-26 2016-01-12 Wal-Mart Stores, Inc. Method and system for multi-block overlap-detection in a parallel environment without inter-process communication
CN104182411B (zh) * 2013-05-24 2018-08-17 日电(中国)有限公司 基于Map-Reduce的高维数据相似性连接方法和装置
KR101560274B1 (ko) 2013-05-31 2015-10-14 삼성에스디에스 주식회사 데이터 분석 장치 및 방법
US10483003B1 (en) 2013-08-12 2019-11-19 Cerner Innovation, Inc. Dynamically determining risk of clinical condition
US12020814B1 (en) 2013-08-12 2024-06-25 Cerner Innovation, Inc. User interface for clinical decision support
US11581092B1 (en) 2013-08-12 2023-02-14 Cerner Innovation, Inc. Dynamic assessment for decision support
CN103678550B (zh) * 2013-09-09 2017-02-08 南京邮电大学 一种基于动态索引结构的海量数据实时查询方法
US9306643B2 (en) * 2013-10-01 2016-04-05 Alcatel Lucent Decentralized slow-fading precoding for multi-cell wireless systems
WO2016015752A1 (en) 2014-07-29 2016-02-04 Hewlett-Packard Development Company, L.P. Method and apparatus for validity determination of a data dividing operation
CN105320685B (zh) * 2014-07-29 2019-03-19 富士通株式会社 哈希编码方法和装置
US9438412B2 (en) * 2014-12-23 2016-09-06 Palo Alto Research Center Incorporated Computer-implemented system and method for multi-party data function computing using discriminative dimensionality-reducing mappings
US10509800B2 (en) 2015-01-23 2019-12-17 Hewlett-Packard Development Company, L.P. Visually interactive identification of a cohort of data objects similar to a query based on domain knowledge
JP6586764B2 (ja) * 2015-04-17 2019-10-09 株式会社Ihi データ分析装置及びデータ分析方法
KR101714698B1 (ko) * 2015-11-25 2017-03-09 고려대학교 산학협력단 전력신호를 이용한 가전기기 식별 장치 및 식별 방법
US11144793B2 (en) 2015-12-04 2021-10-12 Hewlett Packard Enterprise Development Lp Incremental clustering of a data stream via an orthogonal transform based indexing
US11037015B2 (en) 2015-12-15 2021-06-15 Cortica Ltd. Identification of key points in multimedia data elements
US11195043B2 (en) 2015-12-15 2021-12-07 Cortica, Ltd. System and method for determining common patterns in multimedia content elements based on key points
CN106897276A (zh) * 2015-12-17 2017-06-27 中国科学院深圳先进技术研究院 一种互联网数据聚类方法及系统
CN105488231B (zh) * 2016-01-22 2018-07-20 杭州电子科技大学 一种基于自适应表维度划分的大数据处理方法
US20170255866A1 (en) * 2016-03-03 2017-09-07 Canice Lambe Architectures and mechanisms for providing analysis of complex object structures
CN105912877A (zh) * 2016-05-12 2016-08-31 成都鼎智汇科技有限公司 医药产品数据处理方法
AU2017274558B2 (en) 2016-06-02 2021-11-11 Nuix North America Inc. Analyzing clusters of coded documents
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10841321B1 (en) * 2017-03-28 2020-11-17 Veritas Technologies Llc Systems and methods for detecting suspicious users on networks
JP6721535B2 (ja) * 2017-05-09 2020-07-15 日本電信電話株式会社 Lle計算装置、lle計算方法及びlle計算プログラム
CN108984574B (zh) 2017-06-05 2021-01-05 北京嘀嘀无限科技发展有限公司 数据处理方法及装置
WO2019008581A1 (en) 2017-07-05 2019-01-10 Cortica Ltd. DETERMINATION OF DRIVING POLICIES
US11899707B2 (en) 2017-07-09 2024-02-13 Cortica Ltd. Driving policies determination
US10346716B2 (en) * 2017-09-15 2019-07-09 International Business Machines Corporation Fast joint template machining
US10616338B1 (en) 2017-09-25 2020-04-07 Amazon Technologies, Inc. Partitioning data according to relative differences indicated by a cover tree
US10936627B2 (en) * 2017-10-27 2021-03-02 Intuit, Inc. Systems and methods for intelligently grouping financial product users into cohesive cohorts
CN108090182B (zh) * 2017-12-15 2018-10-30 清华大学 一种大规模高维数据的分布式索引方法及系统
KR102175167B1 (ko) 2018-05-09 2020-11-05 서강대학교 산학협력단 K-평균 클러스터링 기반의 데이터 마이닝 시스템 및 이를 이용한 k-평균 클러스터링 방법
US10846544B2 (en) 2018-07-16 2020-11-24 Cartica Ai Ltd. Transportation prediction system and method
CN109344722B (zh) * 2018-09-04 2020-03-24 阿里巴巴集团控股有限公司 一种用户身份确定方法、装置及电子设备
US11181911B2 (en) 2018-10-18 2021-11-23 Cartica Ai Ltd Control transfer of a vehicle
US10839694B2 (en) 2018-10-18 2020-11-17 Cartica Ai Ltd Blind spot alert
US20200133308A1 (en) 2018-10-18 2020-04-30 Cartica Ai Ltd Vehicle to vehicle (v2v) communication less truck platooning
US11126870B2 (en) 2018-10-18 2021-09-21 Cartica Ai Ltd. Method and system for obstacle detection
US10748038B1 (en) 2019-03-31 2020-08-18 Cortica Ltd. Efficient calculation of a robust signature of a media unit
US11700356B2 (en) 2018-10-26 2023-07-11 AutoBrains Technologies Ltd. Control transfer of a vehicle
US10789535B2 (en) 2018-11-26 2020-09-29 Cartica Ai Ltd Detection of road elements
US11643005B2 (en) 2019-02-27 2023-05-09 Autobrains Technologies Ltd Adjusting adjustable headlights of a vehicle
US11285963B2 (en) 2019-03-10 2022-03-29 Cartica Ai Ltd. Driver-based prediction of dangerous events
US11694088B2 (en) 2019-03-13 2023-07-04 Cortica Ltd. Method for object detection using knowledge distillation
US11132548B2 (en) 2019-03-20 2021-09-28 Cortica Ltd. Determining object information that does not explicitly appear in a media unit signature
JP7349124B2 (ja) * 2019-03-28 2023-09-22 国立研究開発法人 海上・港湾・航空技術研究所 原動機の状態判断方法及び状態判断プログラム
US10796444B1 (en) 2019-03-31 2020-10-06 Cortica Ltd Configuring spanning elements of a signature generator
US10789527B1 (en) 2019-03-31 2020-09-29 Cortica Ltd. Method for object detection using shallow neural networks
US11222069B2 (en) 2019-03-31 2022-01-11 Cortica Ltd. Low-power calculation of a signature of a media unit
US10776669B1 (en) 2019-03-31 2020-09-15 Cortica Ltd. Signature generation and object detection that refer to rare scenes
US11593662B2 (en) 2019-12-12 2023-02-28 Autobrains Technologies Ltd Unsupervised cluster generation
US10748022B1 (en) 2019-12-12 2020-08-18 Cartica Ai Ltd Crowd separation
US11730420B2 (en) 2019-12-17 2023-08-22 Cerner Innovation, Inc. Maternal-fetal sepsis indicator
CN111143746B (zh) * 2019-12-27 2023-10-20 支付宝(杭州)信息技术有限公司 一种灰度任务的发布方法、装置及设备
KR102234013B1 (ko) * 2020-01-13 2021-03-30 성균관대학교산학협력단 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법 및 장치
US11590988B2 (en) 2020-03-19 2023-02-28 Autobrains Technologies Ltd Predictive turning assistant
US11827215B2 (en) 2020-03-31 2023-11-28 AutoBrains Technologies Ltd. Method for training a driving related object detector
US11756424B2 (en) 2020-07-24 2023-09-12 AutoBrains Technologies Ltd. Parking assist
US11836176B2 (en) * 2020-09-22 2023-12-05 Cognism Limited System and method for automatic profile segmentation using small text variations
CN112348079B (zh) * 2020-11-05 2023-10-31 平安科技(深圳)有限公司 数据降维处理方法、装置、计算机设备及存储介质
CN117131251B (zh) * 2023-06-20 2024-05-14 佛山悦启科技有限公司 一种基于云计算的多维数据分析处理系统及方法
CN117194737B (zh) * 2023-09-14 2024-06-07 上海交通大学 基于距离阈值的近似近邻搜索方法、系统、介质及设备
CN117807461B (zh) * 2024-02-26 2024-04-26 中国计量科学研究院 一种基于大数据的威士忌酒产地溯源方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5016170A (en) * 1988-09-22 1991-05-14 Pollalis Spiro N Task management
US5179643A (en) * 1988-12-23 1993-01-12 Hitachi, Ltd. Method of multi-dimensional analysis and display for a large volume of record information items and a system therefor
US5647058A (en) * 1993-05-24 1997-07-08 International Business Machines Corporation Method for high-dimensionality indexing in a multi-media database

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) * 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
US5359724A (en) * 1992-03-30 1994-10-25 Arbor Software Corporation Method and apparatus for storing and retrieving multi-dimensional data in computer memory
US5463702A (en) * 1992-05-12 1995-10-31 Sony Electronics Inc. Perceptual based color-compression for raster image quantization
WO1995002222A1 (en) * 1993-07-07 1995-01-19 European Computer-Industry Research Centre Gmbh Database structures
CA2117846C (en) * 1993-10-20 2001-02-20 Allen Reiter Computer method and storage structure for storing and accessing multidimensional data
US5497486A (en) * 1994-03-15 1996-03-05 Salvatore J. Stolfo Method of merging large databases in parallel
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5787422A (en) * 1996-01-11 1998-07-28 Xerox Corporation Method and apparatus for information accesss employing overlapping clusters
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
JP3598183B2 (ja) * 1996-10-16 2004-12-08 株式会社東芝 多次元データ管理方法、多次元データ管理装置、多次元データ管理プログラムを記録した媒体
KR100233365B1 (ko) * 1996-12-13 1999-12-01 윤덕용 Hg-트리 색인 구조 및 그의 삽입, 삭제, 검색 방법
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
JPH10301937A (ja) * 1997-04-23 1998-11-13 Nippon Telegr & Teleph Corp <Ntt> 多次元ベクトル空間内の近傍検索方法とそのプログラムの記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5016170A (en) * 1988-09-22 1991-05-14 Pollalis Spiro N Task management
US5179643A (en) * 1988-12-23 1993-01-12 Hitachi, Ltd. Method of multi-dimensional analysis and display for a large volume of record information items and a system therefor
US5647058A (en) * 1993-05-24 1997-07-08 International Business Machines Corporation Method for high-dimensionality indexing in a multi-media database

Also Published As

Publication number Publication date
JPH11242674A (ja) 1999-09-07
CZ20001552A3 (cs) 2000-08-16
JP3113861B2 (ja) 2000-12-04
HUP0100581A3 (en) 2004-04-28
CN100429650C (zh) 2008-10-29
EP1025514B1 (en) 2001-12-12
HUP0100581A2 (hu) 2001-06-28
EP1025514A1 (en) 2000-08-09
KR100385528B1 (ko) 2003-05-27
US6122628A (en) 2000-09-19
IL131820A (en) 2002-11-10
TW410304B (en) 2000-11-01
CN1216841A (zh) 1999-05-19
PL340039A1 (en) 2001-01-15
DE69802960D1 (de) 2002-01-24
IL131820A0 (en) 2001-03-19
WO1999023578A1 (en) 1999-05-14
KR20010031345A (ko) 2001-04-16
DE69802960T2 (de) 2002-08-29

Similar Documents

Publication Publication Date Title
CZ297222B6 (cs) Pocítacový zpusob reprezentace vícerozmerných dat, zarízení pro ulození programu a pocítacový program
US6134541A (en) Searching multidimensional indexes using associated clustering and dimension reduction information
US7266545B2 (en) Methods and apparatus for indexing in a database and for retrieving data from a database in accordance with queries using example sets
US6003029A (en) Automatic subspace clustering of high dimensional data for data mining applications
US6505205B1 (en) Relational database system for storing nodes of a hierarchical index of multi-dimensional data in a first module and metadata regarding the index in a second module
Kohonen et al. Self organization of a massive document collection
Sheikholeslami et al. SemQuery: semantic clustering and querying on heterogeneous features for visual data
US5978794A (en) Method and system for performing spatial similarity joins on high-dimensional points
Gunopulos et al. Time series similarity measures (tutorial pm-2)
Cui et al. Indexing high-dimensional data for efficient in-memory similarity search
Angelov et al. Look‐a‐like: a fast content‐based image retrieval approach using a hierarchically nested dynamically evolving image clouds and recursive local data density
Celebi et al. Clustering of texture features for content-based image retrieval
El-Kwae et al. Binary object representation and recognition using the Hilbert morphological skeleton transform
US7236638B2 (en) Methods and apparatus for reduction of high dimensional data
Volmer Buoy indexing of metric feature spaces for fast approximate image queries
Nagthane Content based image retrieval system using k-means clustering technique
Li et al. S-STIR: similarity search through iterative refinement
Arslan et al. Content and concept indexing for high-dimensional multimedia data
Natsev et al. New anchor selection methods for image retrieval
Thomasian et al. Persistent clustered main memory index for accelerating k-NN queries on high dimensional datasets
Thomasian et al. CSVD: approximate similarity searches in high-dimensional spaces using clustering and singular value decomposition
Mao et al. On index methods for an image database
Park et al. Spy-Tec+: an integrated index structure for k-nearest neighbor queries with semantic predicates in multimedia database
CN117971924A (zh) 一种连续域上的大数据索引和相似性检索方法及介质
Priya et al. Incremental indexing for high-dimensional data using tree structure

Legal Events

Date Code Title Description
PD00 Pending as of 2000-06-30 in czech republic
MM4A Patent lapsed due to non-payment of fee

Effective date: 20131027