CZ294171B6

CZ294171B6 - Způsob přímého vyhledávání v rozsáhlé databázi

Info

Publication number: CZ294171B6
Application number: CZ20001630A
Authority: CZ
Inventors: Aggarwaláchandra; Yuáphilip
Original assignee: Internationalábusinessámachinesácorporation
Priority date: 1997-11-04
Filing date: 1998-09-29
Publication date: 2004-10-13
Also published as: AU750629B2; KR100382296B1; US6092064A; CZ20001630A3; HUP0100161A3; EP1034489A1; HK1033987A1; DE69809964D1; CA2304646C; EP1034489B1; HUP0100161A2; WO1999023577A1; AU9272698A; CN1278345A; CN1138222C; ES2184322T3; TW505868B; CA2304646A1; JP2001522095A; KR20010031687A

Abstract

Počítačový způsob získávání kvantitativních asociačních pravidel sestává ze dvou etapŹ etapy předzpracování následované etapou přímého vytvoření pravidla@ Požadovaný výpočetní výkon je snížen díky etapě předzpracování definované předzpracováním dat pro organizaci vztahů mezi předpokládanými atributy za účelem vytvoření hierarchicky uspořádané vícerozměrné indexové struktury@ Výsledná struktura zvyšuje výkonnost druhé etapyŹ přímého zpracováníŹ která představuje vytvoření kvantitativních asociačních pravidel@ Druhá etapaŹ přímé vytvoření pravidelŹ využívá vícerozměrné indexové struktury vytvořené během etapy předzpracování nejprve vyhledáním oblastí datŹ odpovídajících pravidlům a poté používá kroku spojování pro vytvoření sloučeného stromu za účelem pečlivě sloučené zájmové oblasti a za účelem poskytnutí hierarchické reprezentace množiny pravidel@ Sloučený strom je poté použit pro vlastní vytvoření pravidelŕ

Description

Předložený vynález se týká přímého vyhledávání datových závislostí v rozsáhlých databázích (vyhledávání dat).

Dosavadní stav techniky

Vyhledávání dat, známé jako získávání znalostí z databází, se stalo novým oborem databázového výzkumu. Objem dat uložených v elektronickém formátu během posledních dvou desetiletí významně vzrostl. Růst používání elektronických zařízení pro sběr dat, jako jsou zařízení prodejních míst či zařízení pro dálkový výzkum, přispěl k tomuto prudkému růstu množství dostupných dat. Ukládání dat se stává pro obchodní organizace jednodušším a atraktivnějším díky dostupnosti velkého množstvím výpočetní kapacity a díky snižování nákladnosti prostředků pro ukládání dat.

V souvislosti s hromaděním dat vznikla doplňková potřeba zaměřit se na využití těchto hodnotných zdrojů informací. Společnosti shledaly, že hodnotné poznatky mohou být získány pomocí rozhodovacích nástrojů, které představují využití uložených dat. S využitím dat společností používajících čárové kódy nebo dat o odbytu katalogových společností je možné získat hodnotné informace o nákupním chování zákazníka. Odvozená informace může být využita například maloobchodními organizacemi při rozhodování, jakou položku umístit do určitého regálu v supermarketu nebo pro navržení dobře cíleného marketingového programu. Četné významné poznatky mohou být vyhledány pomocí využití vhodných analytických postupů. V obecném smyslu se vyhledávání dat týká analýzy dat a použití softwarových postupů pro nalezení charakteristik a pravidelností v datových množinách.

Technologie pro vyhledávání dat jsou charakterizovány intenzivními výpočty na velkých datových objemech. Rozsáhlé databáze je možné definovat jako databáze o milionu a více záznamech. V typické aplikaci koncoví uživatelé testují asociační pravidla jako „75 % zákazníků kupujících colu rovněž kupuje praženou kukuřici“, kde 78 % představuje faktor spolehlivosti pravidla. Podporou pravidla je procento transakcí, které obsahují jak colu, tak praženou kukuřici.

Dosavadní stav techniky se doposud nezabývá otázkou přímého vyhledávání, namísto toho se zaměřuje na přístup množiny položek. Významnou nevýhodou přístupu množiny položek je ten, že uživatel testuje databázi na asociační pravidla při různých hodnotách podpory a spolehlivosti, přičemž musí být provedeno vícenásobné prohledání databáze, která může představovat řádově gigabyty. Pro velmi rozsáhlé databáze to může znamenat značné množství vstupů/výstupů a v určitých situacích to může vést k nepřijatelným dobám odezvy přímých dotazů. Uživatel musí provést několik dotazů na databázi, protože je apriori těžké odhadnout, kolik pravidel může splnit danou hladinu podpory a spolehlivosti. Obvykle může uživatele zajímat pouze malé množství pravidel. To činí problém složitějším, protože uživatel může chtít spustit dotaz několikrát za účelem nalezení přiměřených hladin minimální podpory a minimální spolehlivosti pro vyhledávání pravidel. Jinými slovy problém vyhledávání asociačních pravidel může vyžadovat značné manuální ladění parametrů opakovaným dotazováním před tím, než může být užitečná obchodní informace získaná z databáze transakcí. Dosud popsané výpočetní způsoby vyhledávání jsou proto nevhodné pro opakované přímé dotazy vzhledem k vyplývajícím četným vstupům/výstupům či výpočtům vedoucím k nepřístupným dobám odezvy. Potřeba expandování množství vyhledávání dat do prostředí internetu vyžaduje přímé dynamické způsoby namísto dávkově orientovaného způsobu přístupu množiny položek.

-1 CZ 294171 B6

Podstata vynálezu

Předložený vynález vytváří způsob přímého vyhledávání v rozsáhlé databázi, obsahující množství záznamů, každý ze záznamů má množství kvantitativních a kategorických položek pro vytváření kvantitativních asociačních pravidel, zahrnující kroky:

a) přijetí uživatele definované hodnoty minimální spolehlivosti, uživatelem definované hodnoty minimální podpoiy a uživatelského dotazu obsahujícího předpokládané a důsledkové atributy vyjádřené pomocí zmíněných kvantitativních a/nebo kategorických položek;

b) organizace vztahu mezi předpokládanými atributy a důsledkovými atributy pomocí před-uložení předpokládaných dat hierarchicky do indexového stromu, obsahujícího množství indexových uzlů, přičemž indexový uzel obsahuje primární a sekundární hodnotu představující aktuální podporu a spolehlivost pro každý z důsledkových atributů uživatelského dotazu; a

c) odvození odpovědi ze zmíněných před-uložených dat jako odezvy na zmíněný uživatelský dotaz prohledáním všech indexových uzlů zmíněného indexového stromu za účelem izolování těch uzlů, jejichž rozsah předpokládaných atributů odpovídá rozsahu pro předpokládané atributy dle uživatelského dotazu a které mají spolehlivost alespoň zmíněné uživatelem definované hodnotě minimální spolehlivosti a hodnotu podpory alespoň rovnu zmíněné uživatelem definovat né minimální hodnotě podpory.

Podle přednostního provedení vynálezu zmíněná odpověď zahrnuje jedno nebo více kvantitativních asociačních pravidel, aktuální hodnotu spolehlivosti přiřazenou každému pravidlu aktuální hodnotu podpory přiřazenou každému pravidlu a hladinu zájmu přiřazenou každému pravidlu, přičemž jedno či více zmíněných kvantitativních asociačních pravidel sestává pouze z těch pravidel, která jsou zajímavá (např. jejich vypočtená hladina zájmu je alespoň rovna zmíněné uživatelem definované hladině zájmu).

Příhodná a faktická definice hladiny zájmu je (například) jako minimum z vypočteného primárního a sekundárního poměru, kde zmíněný primární poměr je definován jako aktuální spolehlivost dělená očekávanou spolehlivosti a sekundární poměr je definován jako aktuální podpora dělená očekávanou podporou, kde zmíněná očekávaná spolehlivost a podpora jsou vypočtené hodnoty založené na předpokladu statistické nezávislosti.

Podle přednostního provedení vynálezu zmíněné předpokládané atributy sestávají z kategorických a kvantitativních atributů, kde kvantitativní atributy jsou dále definovány rozsahem daným dolní a horní mezí.

Zmíněný organizační krok přednostně zahrnuje rozdělení zmíněných předcházejících dat hierarchicky do indexového stromu, kde zmíněný indexový strom obsahuje množství indexových uzlů, pomocí kroků:

a) uložení primární hodnoty v každém indexovém uzlu zmíněného indexového stromu, představující aktuální podporu; a

b) uložení sekundární hodnoty v každém indexovém uzlu zmíněného indexového stromu, představující četnost výskytu důsledkového atributu pro každý z uživatelských dotazů.

V takovém provedení vynálezu může být krok odvození efektivně realizován pomocí:

i) prohledání všech indexových uzlů zmíněného indexového stromu za účelem izolování těch uzlů, jejichž rozsah předpokládaných atributů odpovídá rozsahu pro předpokládané atributy dle zmíněného uživatelského dotazu

-2CZ 294171 B6 ii) výběru uzlů, z uzlů zjištěných v kroku i), které mají důsledkový atribut alespoň roven zmíněné uživatelem definované hodnotě minimální spolehlivosti; a iii) vytvoření sloučeného stromu z uzlů zjištěných v kroku ii).

Přednostně krok vytvoření dále zahrnuje vymazání bezvýznamných uzlů za účelem vytvoření sloučeného stromu, kde bezvýznamný uzel je uzel, který nemá odpovídající vypočtenou hodnotu spolehlivosti alespoň rovnu zmíněné uživatelem definované hodnotě minimální spolehlivosti. Sloučený strom může být vytvořen pro samostatný nebo pro více důsledkových atributů.

Podle přednostního provedení vynálezu zmíněný krok přijetí zahrnuje vstup počítačových dat, obsahujících uživatelem definovanou hodnotu minimální podpory, uživatelem definovanou hodnotu zájmu a uživatelský dotaz obsahující podmínku předpokladu a důsledku, kde podmínka předpokladu a důsledku dále obsahují množství kvantitativních a kategorických atributů;

zmíněný organizační krok a krok před-uložení zahrnují vytvoření indexového stromu o jednom nebo více rozměrech v paměti, kde každý rozměr je definován jedním z kvantitativních atributů poskytnutých uživatelem, obsažených ve zmíněné podmínce předpokladu, zmíněný indexový strom sestávající z množství indexových uzlů, kde zmíněné indexové uzly sestávají z množství datových záznamů;

a zmíněný krok odvození zahrnuje vytvoření jednoho nebo více kvantitativních asociačních pravidel z indexových uzlů, které splňují zmíněný uživatelský dotaz a jejichž podpora je alespoň rovna zmíněné minimální podpoře a jejichž spolehlivost je alespoň rovna zmíněné minimální spolehlivosti; a zobrazení výstupních dat uživateli, sestávajících ze: zmíněných kvantitativních asociačních pravidel z kroku vytvoření; hodnoty aktuální spolehlivosti přiřazené každému z vytvořených kvantitativních asociačních pravidel; hodnoty podpory přiřazené každému z vytvořených kvantitativních asociačních pravidel; a hodnoty hladiny zájmu přiřazené každému z vytvořených kvantitativních asociačních pravidel.

Krok vytvoření jednoho nebo více kvantitativních asociačních pravidel může být opakován tak, že zmíněný uživatelský dotaz je interaktivně modifikován pro další definování zmíněných asociačních pravidel.

Krok vytvoření indexového stromu přednostně zahrnuje kroky: vytvoření binárního indexového stromu o jednom nebo více rozměrech, kde každý rozměr je definován jedním ze zmíněných uživatelem poskytnutých kvantitativních předpokládaných atributů; a uložení zmíněné hladiny podpory a hladiny spolehlivosti v každém indexovém uzlu.

Krok vytvoření nesloučeného stromu pravidel rovněž přednostně zahrnuje kroky: prohledání každého uzlu zmíněného indexového stromu; a výběr uzlů, obsahujících pravidla, která uspokojují uživatelem danou podmínku důsledku spolehlivosti alespoň rovnu zmíněné uživatelem dané minimální spolehlivosti a hodnotu podpory alespoň rovnu zmíněné uživatelem dané hodnotě minimální podpory. Tento další výběrový krok může být proveden kroky:

vytvoření ukazatele;

přiřazení zmíněného kořenového uzlu ve zmíněném indexovém stromu;

přidání zmíněného uzlu přiřazenému ke zmíněnému ukazateli do seznamu;

přidání všech následníků uzlu odkazovaného zmíněným ukazatelem, spředpokládaným atributem zcela obsaženým uvnitř parametrů zmíněného uživatelem definovaného předpokládaného

- o CZ 294171 B6 atributu a s minimální hodnotou podpory alespoň rovnou zmíněné uživatelem zadané podpoře, do seznamu;

zjištění, zda datové záznamy uložené v uzlu odkazovaném zmíněným ukazatelem jsou alespoň rovny uživatelem specifikované podmínce důsledku a mají spolehlivost alespoň rovnu zmíněné uživatelem definované minimální spolehlivosti;

vytvoření kvantitativního asociačního pravidla přiřazeného zmíněným podmínkám důsledku; smazání zmíněného uzlu ze zmíněného seznamu, pokud podmínky předchozího kroku nejsou splněny; zjištění, zda zmíněný seznam je prázdný; a ukončení, pokud zmíněný seznam je prázdný, jinak přiřazení zmíněného ukazatele dalšímu uzlu zmíněného indexového stromu a opakování shora uvedených kroků od zmíněného kroku přidání uzlu přiřazeného zmíněným ukazatelem do seznamu dále.

Dále je upřednostněno, že krok vytvoření sloučeného stromu pravidel zahrnuje:

a) posun každého uzlu nesloučeného stromu pravidel do dalšího řádu;

b) zhodnocení každého posunutého uzlu pro zařazení či vyloučení z nesloučeného stromu pravidel pomocí:

i) zjištění, zda každá ze zmíněných hodnot uživatelem definovaného důsledkového atributu je větší než hodnota atributu důsledku uložená ve zmíněném uzlu;

ii) zachování zmíněného uzlu ve zmíněném sloučeném stromu pravidel, v případě splnění podmínky (i);

iii) smazání zmíněného uzlu ze zmíněného sloučeného stromu pravidel v případě nesplnění podmínky (i) a pokud zmíněný uzel nemá přiřazeny žádné následující uzly;

iv) smazání zmíněného uzlu ze zmíněného sloučeného stromu pravidel a přímé přiřazení předchozího uzlu a následujícího uzlu zmíněného smazaného uzlu při nesplnění podmínky (i) a pokud zmíněný uzel má jeden následující uzel; a

v) nastavení rozsahu zmíněného důsledkového atributu, pokud podmínka (i) není splněna;

kde zmíněný krok zhodnocení je opakován až do posunu všech uzlů do dalšího řádu.

Vynález dále vytváří zařízení pro přímé vyhledávání v rozsáhlé databázi, obsahující množství záznamů, každý ze záznamů má množství kvantitativních a kategorických položek pro vytváření kvantitativních asociačních pravidel, zahrnující:

prostředky pro přijetí uživatelem definované hodnoty minimální spolehlivosti, uživatelem definované hodnoty minimální podpory a uživatelského dotazu obsahujícího předpokládané a důsledkové atributy vyjádřené pomocí zmíněných kvantitativních a/nebo kalorických položek;

prostředky pro organizaci vztahu mezi předpokládanými atributy a důsledkovými atributy pomocí před-uložení předpokládaných dat hierarchicky do indexového stromu, obsahujícího množství indexových uzlů, přičemž každý indexový uzel obsahuje primární a sekundární hodnotu představující aktuální podporu a spolehlivost pro každý z důsledkových atributů uživatelského dotazu; a prostředky pro odvození odpovědi ze zmíněných před-uložených dat jako odezvy na zmíněný uživatelský dotaz prohledáním všech indexových uzlů zmíněného indexového stromu za účelem

-4CZ 294171 B6 izolování těch uzlů, jejichž rozsah předpokládaných atributů odpovídá rozsahu pro předpokládané atributy dle uživatelského dotazu a kterém mají spolehlivost alespoň rovnu zmíněné uživatelem definované hodnotě minimální spolehlivosti a hodnotu podpory alespoň rovnu zmíněné uživatelem definované minimální hodnotě podpory.

Podle jiného hlediska vynález rovněž vytváří počítačem vykonávaný proces přímého vyhledávání v rozsáhlé databázi, obsahující množství záznamů, každý ze záznamů má množství kvantitativních a kategorických položek pro vytváření kvantitativních asociačních pravidel, zahrnující kroky:

vstup počítačových dat, obsahujících uživatelem definovanou hodnotu minimální podpoiy, uživatelem definovanou hodnotu minimální spolehlivosti, uživatelem definovanou hodnotu zájmu a uživatelský dotaz obsahující podmínku předpokladu a důsledku, kde podmínka předpokladu a důsledku dále obsahují množství kvantitativních a kategorických atributů;

vytvoření indexového stromu o jednom nebo více rozměrech v paměti, kde každý rozměr je definován jedním z kvantitativních atributů poskytnutých uživatelem, obsažených ve zmíněné podmínce předpokladu, zmíněný indexový strom sestávající z množství indexových uzlů, kde zmíněné indexové uzly sestávají z množství datových záznamů;

vytvoření nesloučeného stromu pravidel v paměti ze zmíněného indexového stromu sestávajícího z množství indexových uzlů, přičemž každý indexový uzel dále sestává z množství datových záznamů;

vytvoření sloučeného stromu pravidel v paměti ze zmíněného nesloučeného stromu pravidel sestávajícího z množství indexových uzlů, přičemž každý indexový uzel dále sestává z množství datových záznamů;

vytvoření jednoho nebo více kvantitativních asociačních pravidel z indexových uzlů, které splňují zmíněný uživatelský dotaz a jejichž podpora je alespoň rovna zmíněné minimální podpoře a jejichž spolehlivost je alespoň rovna zmíněné minimální spolehlivosti; a zobrazení výstupních dat uživateli, sestávajících ze:

zmíněných kvantitativních asociačních pravidel z kroku vytvoření;

hodnoty aktuální spolehlivosti přiřazené každému z vytvořených kvantitativních asociačních pravidel; hodnoty podpoiy přiřazené každému z vytvořených kvantitativních asociačních pravidel; a hodnoty hladiny zájmu přiřazené každému z vytvořených kvantitativních asociačních pravidel.

Přednostně krok vytvoření nesloučeného stromu pravidel zahrnuje prohledání každého uzlu zmíněného indexového stromu a výběr vhodných uzlů pomocí kroků:

i) vytvoření ukazatele;

ii) přiřazení zmíněného ukazatele kořenovému uzlu ve zmíněném indexovém stromu;

iii) přidání zmíněného uzlu přiřazenému ke zmíněnému ukazateli do seznamu;

iv) přidání všech následníků uzlu odkazovaného zmíněným ukazatelem, s předpokládaným atributem zcela obsaženým uvnitř parametrů zmíněného uživatelem definovaného předpokládaného atributu a s minimální hodnotou podpory alespoň rovnou zmíněné uživatelem zadané minimální podpoře;

-5CZ 294171 B6

v) zjištění, zda datové záznamy uložené v uzlu odkazovaném zmíněným ukazatelem jsou alespoň rovny uživatelem specifikované podmínce důsledku a mají spolehlivost alespoň rovnu zmíněné uživatelem definované minimální spolehlivosti pro uzel odkazovaný zmíněným ukazatelem;

vi) vytvoření kvantitativního asociačního pravidla přiřazeného zmíněným podmínkám důsledku;

vii) smazání zmíněného uzlu ze zmíněného seznamu, pokud podmínky předchozího kroku nejsou splněny;

viii) zjištění, zda zmíněný seznam je prázdný;

ix) ukončení, pokud zmíněný seznam je prázdný;

x) přiřazení zmíněného ukazatele dalšímu uzlu zmíněného indexového stromu, pokud podmínka z kroku ix) není splněna;

xi) opakování kroků iii) až x), pokud podmínka z kroku ix) není splněna.

Přednostně krok vytvoření sloučeného stromu pravidel zahrnuje kroky:

a) posun každého uzlu nesloučeného stromu pravidel do dalšího řádu;

b) zhodnocení každého posunutého uzlu pro zařazení či vyloučení z nesloučeného stromu pravidel, dále zahrnující kroky:

v) nastavení rozsahu zmíněného důsledkového atributu, pokud podmínka kroku (i) není splněna;

vi) přímé přiřazení předchozího uzlu a následujícího uzlu zmíněného smazaného uzlu, pokud podmínka kroku iv) je splněna;

vii) opakování kroků i) až vi) až do posunu všech uzlů do dalšího řádu.

Shora popsaný výpočetně efektivní přístup dovoluje přímým dotazům na databázi uplatnit sílu asociačních pravidel využívajících uživatelem poskytnutých hladin podpory a spolehlivosti jako prediktorů a odhalit nová kvantitativní asociační pravidla díky efektivnímu provedení přímého vyhledávání kvantitativních asociačních pravidel. Asociační pravidlo může být obecně definováno jako podmíněný výraz, naznačující, že existuje jistá korelace mezi jeho dvěma součástmi, předpokladem a důsledkem. Předpoklad i důsledek v kvantitativním asociačním pravidle jsou sestaveny z uživatelem specifikované kombinace kvantitativních a kategorických atributů.

-6CZ 294171 B6

Společně s navrženým pravidlem uživatel poskytuje tři další vstupy, představující hladinu spolehlivosti a podpory zájmu uživatele a hodnotu odkazovanou jako hladinu zájmu. Tyto vstupy poskytují údaj o síle pravidla navrženého uživatelem (uživatelského dotazu), jinými slovy síly naznačené korelace mezi předpokladem a důsledkem, definované uživatelským dotazem.

Za účelem uskutečnění tohoto přistupuje popsán způsob předzpracování surových dat s využitím předpokládaných atributů pro rozdělení dat tak, že je vytvořena vícerozměrná indexová struktura s následným krokem přímého vytvoření pravidel. Efektivním předzpracováním dat do indexové struktury jsou tato převedena do podoby vhodné ke zodpovězení opakovaných přímých dotazů s téměř okamžitými odezvami. Je-li indexová struktura již jednou vytvořena, vylučuje nutnost provádět více procházení celou databází. Indexová struktura vnáší významné výkonnostní výhody do předchozích postupů. Indexová struktura ( předzpracovaná data) je uložena v takové podobě, že přímé zpracování může být provedeno aplikací teoretického vyhledávacího algoritmu, jehož složitost je přímo úměrná rozsahu výstupu. To vede k přímému algoritmu, který je téměř okamžitý ve smyslu času odezvy, minimalizujícímu nadměrné množství vstupů/výstupů nebo výpočtů.

Přehled obrázků na výkresech

Příklad způsobu přímého vyhledávání kvantitativních asociačních pravidel podle předloženého vynálezu je podrobně popsán na příkladu s odkazem na následující obrázky, kde:

Obr. 1 představuje celkový popis počítačové sítě;

Obr. 2 představuje celkový popis způsobu vyhledávání dat, sestávajícího ze dvou etap popsaných na obr. 2a a obr. 2b. obr. 2a představuje popis etapy předzpracování. Obr. 2b představuje popis přímé etapy algoritmu;

Obr. 3 představuje podrobný popis tvorby indexového stromu pomocí předcházející množiny. Může být považován za rozepsání kroku 75 na obr. 2a;

Obr. 4 představuje podrobný popis tvorby nespojeného stromu pravidel z indexového stromu. Může být považován za rozepsání kroku 100 na obr. 2b;

Obr. 5 představuje popis tvorby spojeného stromu pravidel z nespojeného stromu pravidel a

Obr. 6 představuje popis generování kvantitativních asociačních pravidel ze spojeného stromu pravidel na určité hladině r specifikované uživatelem.

Příklady provedení vynálezu

Tradiční databázové dotazy představují jednoduché otázky typu „Jaký odbyt pomerančového džusu v lednu 1995 pro oblast Long Island?“. Vyhledávání dat se oproti tomu pokouší získat rozeznatelné charakteristiky a trendy v datech a vyvozuje z těchto charakteristik pravidla. S pomocí těchto pravidel je pak uživatel schopen činit, posuzovat a zkoumat rozhodnutí v příbuzném obchodním či vědeckém oboru. Uvažujeme například supermarket s velkým množstvím různých položek. Typická obchodní rozhodování zahrnují co dát do výprodeje, jak navrhnout zásobovací lístky a jakým způsobem rozmístit zboží do regálů za účelem maximalizace profitu. Analýza dat předchozích transakcí je běžně používaným přístupem pro zlepšení kvality takovýchto rozhodnutí. Moderní technologie umožnila ukládat tzv. data koše, zahrnujícího položky získané během transakce. Organizace sbírají velké objemy takovýchto dat. Problémem je vyhledání velkého množství transakcí pro asociační pravidla mezi množinami položek s určitou minimální spolehlivostí. Pro danou množinu transakcí, kde každá transakceje množinou položek,

-7CZ 294171 B6 je asociačním pravidlem výraz ve formě X => Y, kde X a Y jsou množiny položek. Příkladem asociačního pravidla je: 30 % transakcí obsahujících pivo zároveň obsahuje dětské plenky; 2 % všech transakcí obsahují obě tyto položky. V tomto příkladu 30 % představuje spolehlivost pravidla a 2 % podporu pravidla.

Dalším příkladem takového asociačního pravidla je údaj, že 90 % zákaznických transakcí, kde se jedná o nákup chleba a másla, zároveň obsahuje mléko. Předpoklad tohoto pravidla, X, sestává z chleba a másla a důsledek, Y, sestává ze samotného mléka. 90 % představuje faktor spolehlivosti pravidla. Může být žádoucí vyhledat například všechna pravidla obsahující dalamánky v předpokladu, které mohou pomoci určit, které produkty (v důsledku) mohou být ovlivněny, pokud prodejce přestane dalamánky prodávat.

Uvažujeme-li množinu hrubých transakcí, D, problém vyhledávání asociačních pravidel v nalezení všech pravidel, které mají podporu a spolehlivost větší než uživatelem dané hodnoty minimální podpory 5 a minimální spolehlivosti c. Obecně představuje podporu pravidla X => Y procento zákaznických transakcí v generálizované databázi, obsahující obě množiny položek X a Y. V přesné matematické terminologii vyjádřeno, pravidlo X => Y má podporu 5 v množině transakcí D, pokud s % transakcí v D obsahuje sjednocení X a Y, X v Y. Spolehlivost pravidla X => Y je definována jako procento transakcí obsahujících X, které zároveň obsahují Y. Nebo formálněji, pravidlo X => Y má spolehlivost c v množině transakcí D, pokud c % transakcí v D, obsahujících X zároveň obsahuje Y. Pokud tedy pravidlo má spolehlivost 90 %, znamená to, že 90 % transakcí obsahujících X zároveň obsahuje Y.

Jak bylo dříve uvedeno, asociační pravidlo je výraz ve formě X => Y. Například jsou-li množiny položek X a Y vzájemně definovány

X = [mléko & sýr & máslo]

Y = [vejce & šunka] potom pravidlo může být interpretováno jako:

PRAVIDLO: X => Y, implikuje při daném výskytu mléka, sýra a másla v transakci, jaká je pravděpodobnost výskytu vajec a šunky v té samé transakci při určité definované hladině podpory a spolehlivosti.

Podpora a spolehlivost pravidla souhrnně definují sílu pravidla. Existuje mnoho způsobů, kterými může uživatel postavit pravidlo takovýmto v systému za účelem testování jeho síly. Nevyčerpávající, přesto však reprezentativní seznam druhů přímých dotazů podporovaných takovým systémem může zahrnovat:

(1) Najdi všechna asociační pravidla nad hladin dané hladiny minimální podpory a minimální spolehlivosti.

(2) Při dané hladině minimální podpory a minimální spolehlivosti najdi všechna asociační pravidla, mající množinu položek X v předpokladu.

(3) Při dané hladině minimální podpory a minimální spolehlivosti najdi všechna asociační pravidla, mající množinu položek Y v důsledku.

(4) při dané hladině minimální podpory a minimální spolehlivosti najdi všechna asociační pravidla, mající množinu položek Y v předpokladu či v důsledku nebo rozdělenu mezi předpoklad a důsledek.

-8CZ 294171 B6 (5) najdi počet asociačních pravidel/množin položek pro libovolný ze shora uvedených případů (1),(2),(3),(4).

(6) Při dané hladině minimální podpory existuje přesně k množin položek, obsahujících množinu položek Z.

Předložený způsob zužuje způsob odhalení obecných asociačních pravidel na nalezení kvantitativních pravidel v rozsáhlé databázi sestávající z množiny surových transakcí, D, definovaného pomocí různých kvantitativních a kategorických atributů.

Typická kvantitativní/kategorická databáze pro obecný marketingový průzkum může například sestávat z řady záznamů, kde každý záznam odráží určitou kombinaci charakteristik a priorit zákazníka:

Záznam (1) = věk = 21, pohlaví = muž, vlastník domácnosti = ne

Záznam (2) = věk = 43, pohlaví = muž, vlastník domácnosti = ano

Záznam (3) = věk = 55, pohlaví = žena, vlastník domácnosti = ne

Obecně je kvantitativní asociační pravidlo podmínka v podobě:

Obecné pravidlo:

XI [1 l..ul], X2 [12..u2],.. Xk [lk..uk] Y1 = cl, Y2 = c2..Yr = cr =} Zl = zl, Z2 = z2 kde XI, X2,..Xk představují kvantitativní předpokládané atributy a Yl, Y2,..Yr a C představují kategorické předpokládané atributy. [1 l..ul], [12..u2], [lk..uk] zde odpovídají rozsahům různých kvantitativních atributů. Zl a Z2 představují vícenásobnou podmínku důsledku.

Předložený způsob vyžaduje poskytnutí tří vstupů uživatelem s navrženým pravidlem, též odkazovaným jako uživatelský dotaz, v podobě dvojice předpoklad/důsledek. Kromě navrženého pravidla uživatel poskytuje hodnotu minimální spolehlivosti c a minimální požadované podpory s, pro testování síly navrženého pravidla (uživatelského dotazu).

Minimální spolehlivost i minimální podpora jsou tak významné pro odhalení kvantitativních asociačních pravidel, jako pro odhalení obecných asociačních pravidel. Příkladem typického uživatelského vstupu může být:

Příklad A: Typický uživatelský dotaz

1. Uživatel zadá navržené Pravidlo k testování (dotaz)

PODMÍNKA PŘEDPOKLADU______________ PODMÍNKA DŮSLEDKU

Věk [20 až 40], Plat [100kaž200k], Pohlaví = žena => Automobily = 2

2. Uživatel zadá hodnotu spolehlivosti pro navržené pravidlo, odkazovanou jako MinSpolehlivost, c.

MinSpolehlivosti = 50 %

3. Uživatel zadá hodnotu podpory pro navržené pravidlo, odkazovanou jako MinPodpora, s. MinPodpora = 10 %

-9CZ 294171 B6

Obr. 1 představuje celkový popis architektury předloženého způsobu. Předpokládá několik klientů 40, kteří mohou přistupovat k předzpracovaným datům pomocí sítě 35. Předzpracovaná data jsou uložena na serveru 5. Na serveru může existovat vyrovnávací paměť 25 kromě předzpracovaných dat 20. Předzpracování je stejně jako přímé zpracování prováděno v procesoru 10. Kromě toho je pro případ uložení dat na disku přítomen disk 15.

Předložený způsob sestává ze dvou etap, etapy předzpracování, následované etapou zpracování. Obr. 2 ukazuje celkový popis kroku předzpracování stejně jako kroky přímého zpracování (vytvoření pravidel) algoritmu. Etapa předzpracování zahrnuje vytvoření struktury binárního indexového stromu, viz krok 75 na obr. 2 a příslušný detailní popis na obr. 3 (a). Struktura indexového stromu je známa v oboru jako prostorová datová struktura, používaná jako prostředek pro indexování vícerozměrných dat. Tuto oblast v dosavadním stavu techniky popisuje např. Guttman, A., A dynamic Index Structure for Spatial searching, Proceedings of the ACM SIGMOD Conference. Předložený způsob využívá obměny této struktury indexového stromu za účelem vykonání přímých dotazů. Předpokládané atributy jsou využity pro rozdělení dat za účelem vytvoření vícerozměrné indexové struktury. Indexová struktura je dvojúrovňová struktura, kde uzlům vyšší hladiny jsou přiřazeny nejvýše dva následující uzly a uzly nižší hladiny mohou mít více než dva následuj ící uzly. Vytvoření indexové struktury je rozhodující pro provádění efektivního přímého vyhledávání dat. Klíčová výhoda spočívá v minimalizaci množství diskových vstupů/výstupů nutných pro odezvu na uživatelské dotazy.

Grafická analogie indexové struktury, uložené v paměti počítače, je znázorněna na obr. 3 (b) v podobě indexového stromu. Indexový strom je dobře známou prostorovou strukturou, využívanou pro indexování vícerozměrných dat. V paměti počítače je vytvořena samostatná indexová struktura pro každý rozměr, definovaná konkrétním kvantitativním atributem, zadaným uživatelem v přímém dotazu. Obr. 3 (b) představuje konkrétní příklad indexové struktury, reprezentující podmínku předpokladu, „Věk“ a její přidruženou podmínku důsledku. „Poprvé nakupující“. Pro další objasnění pojetí indexového stromu může obr. 3 (b) „Věk“ představovat rozměr v následujícím příkladu:

Příklad B: Ukázka uživatelského dotazu

PODMÍNKA PŘEDPOKLADU PODMÍNKA DŮSLEDKU

PLAT [40 až 85K], Věk [0 až 100] => Poprvé nakupující

Obecně neexistují omezení množství či kombinací kvantitativních a kategorických atributů, které představují podmínky předpokladu a důsledku.

Kořenový uzel struktury indexového stromu na obr. 3 (b) definuje uživatelem daný kvantitativní atribut, Věk [0 až 100]. Každý z následujících uzlů stromu rovněž představuje kvantitativní atribut, Věk, s postupně užšími mezerami rozsahu směrem od vrcholu k nejnižší úrovni stromové hierarchie. Například binární následovníci kořenového uzlu pro Věk [0 až 100] jsou Věk [0 až 45] a Věk [45 až 100]. Předložený způsob ukládá dvě části dat v každém z uzlů indexového stromu, reprezentující hladiny spolehlivosti a podpory zájmu. S odkazem na obr. 3 (b) jsou například uloženy dvě části dat, sestávající z:

1. hladina spolehlivosti = 50 %

2. hladina podpory = funkce datového vstupu surové databáze

Takto je v kořenovém uzlu definována spolehlivost a podpora uživatelského dotazu (dvojice předpoklad/důsledek),

Věk [0 až 100] =5 Poprvé nakupující

-10CZ 294171 B6

Obr. 3 (a) představuje detailní diagram postupu etapy předzpracování, uvedené na obr. 2 jako prvek 75. Kroky postupu této etapy zahrnují vytvoření struktury binárního indexového stromu a uložení hladin podpory a spolehlivosti důsledkového atributu v každém uzlu struktury, následované využitím komprimačního algoritmu na nižší hladiny struktury za účelem zajištění, že se indexový strom vejde do dostupné paměti. Krok 300 je místem vstupu do etapy předzpracování. Krok 310 představuje software pro implementaci kroku využití binarizačního algoritmu po vytvoření binárního indexového stromu. Krok binarizace popisuje v dosavadním stavu techniky např. Aggarwal C.C., Wolf J., Yu P.S. a Epalman, M.A., The S-Tree: An effícient index tree for multidimensional index trees, Symposium of Spatial Databases, 1997. Předložený způsob se však od dosavadního stavu techniky odlišuje nejméně jednou myšlenkou. V kroku 315 je způsob organizace údajů indexového uzlu jedinečný ve smyslu uložení hladin podpory a spolehlivosti pro každou hodnotu důsledkového atributu v každém uzlu struktury. Krok 320 představuje krok využití softwarového komprimačního algoritmu ke komprimaci indexových uzlů nižších hladin do jediného uzlu.

Obr. 4 (a) představuje detailní diagram postupu primárního vyhledávacího algoritmu, použitého za účelem vytvoření nesloučeného stromu pravidel z indexového stromu, znázorněného na obr. 2 (b) jako prvek WO. Algoritmus vyžaduje na vstupu zadání uživatelem definované hodnoty minimální spolehlivosti c, minimální podpory s a uživatelského dotazu, sestávajícího z dotazovaného pole Q a jedné nebo více pravostranných hodnot, Z1 = zl, Z2 = z2. Dotazované pole je pouze popisným údajem pro označení levostranné či předpokladové části uživatelského dotazu. Za účelem dalšího objasnění významu Dotazovaného pole popisuje následující příklad C, co je požadováno od přímého uživatele jako vstup podle předloženého způsobu.

Příklad C: Typický uživatelský dotaz

Uživatel specifikuje:

(1.) hodnotu minimální spolehlivosti [minSpolehlivost, c] (2.) hodnotu minimální podpory [MinPodpora, s]

Navíc musí uživatel zadat uživatelský dotaz (navržené pravidlo) v podobě dvojice (předpoklad/důsledek), položky (3.) a (4.).

(3.) Dotazované pole, „Q“ [předpoklad] (4.) Zl = zl, Z2 = z2, atd. [důsledek]

Položka (3.), Dotazované pole, je dále popsáno na následujících příkladech, obecně může sestávat z libovolné kombinace kvantitativních a kategorických atributů. Položka (4.), důsledkový atribut, může sestávat z jednoho či více kategorických atributů.

[Příklad 1]: Tento uživatelský dotaz sestává z podmínky předpokladu, dotazového pole o dvou rozměrech, Věk a Levák, a jednoduché kategorické podmínky důsledku, Nekuřák.

Dotazové pole

Věk [0 až 24], Levák => Nekuřák

-11 CZ 294171 B6 [Příklad 2]: Tento uživatelský dotaz sestává z podmínky předpokladu, dotazového pole o dvou rozměrech, Výška a Příjem a vícenásobné podmínky důsledku.

________Dotazové pole__________

Výška [5 až 7], Příjem [ 1 Ok až 40k] => vlastní domácnost, vlastní automobil [Příklad 3]: Tento uživatelský dotaz sestává z podmínky předpokladu, dotazového pole o jednom rozměru, Věk, a jednoduché kategorické podmínky důsledku.

Dotazové pole

Věk [10 až 43] => Nekuřák

Shora uvedený PŘIKLAD C popisuje v obecném smyslu, co zadává uživatel jako vstup pro popisovaný způsob. PŘÍKLAD D uvedený níže, poskytuje reprezentativní příklad, s použitím uživatelského dotazu ze shora uvedeného Příkladu 2, jak může vypadat vstup/výstup typického výsledku:

Příklad C: Typický uživatelský vstup

Uživatel specifikuje jako vstup:

1. MinSpolehlivost = .50

2. MinPodpora = .4

3. dotazové pole (podmínka předpokladu) = Výška [5 až 7],

Příjem [lOk až 40k]

4. zájmová podmínka důsledku = vlastní domácnost = 1, vlastní automobil = 1 uživatelský dotaz vytvořený z položek 3.a 4.:

Výška [5 až 7], Příjem [lOk až 40k] => vlastní domácnost, vlastní automobil

Výsledný výstup: vytvořené pravidlo

Výška [5.5 až 6.2], Příjem [ 13k až 27.4k] => vlastní domácnost = 1, vlastní automobil = 1

Obecně je možné, že na výstupu nejsou vytvořena žádná pravidla, může být vytvořeno jediné pravidlo nebo více pravidel. Jediné pravidlo bylo vytvořeno ve shora uvedeném příkladu. Vytvořené pravidlo splňuje uživatelský dotaz, (dvojici předpoklad/důsledek), při uživatelem dané hladině spolehlivosti a podpory 0,5 resp. 0,4.

Algoritmus pro vytvoření nesloučeného stromu pravidel z indexového stromu definovaný na obr. 4 (a), pokračuje prohledáním všech uzlů indexového stromu jednoho po druhém. Krok 400 je místem vstupu do primárního vyhledávacího algoritmu. Krok 410 představuje krok nastavení ukazatele, Aktuální Uzel, na kořenový uzel indexového stromu. Ukazatel Aktuální Uzel vždy ukazuje na konkrétní uzel indexového stromu, který je právě prohledáván. Krok 420 definuje SEZNAM jako množinu uzlů, které jsou považovány za vhodné k prohledání pomocí vyhledáva

-12CZ 294171 B6 čího algoritmu. SEZNAM je inicializován tak, že v kroku 420 obsahuje pouze kořenový uzel. Krok 430 reprezentuje krok přidání všech následujících uzlů uzlu označeného ukazatelem Aktuální uzel do SEZNAMU, které mají průnik Dotazovaným polem Q a mají podporu alespoň rovnu uživatelem dané vstupní hodnotě, MinPodpora, s. Následující uzel má průnik s Dotazovaným polem Q, pokud všechny podmínky předpokladu přiřazené tomuto následujícímu uzlu jsou zcela obsaženy uvnitř podmínky předpokladu definované Dotazovaným polem. Krok 440 je rozhodovacím krokem, který určuje, zda individuální datové záznamy obsažené v Aktuálním uzlu splňují podmínku důsledku, Z1 = zl a Z2 = z2 alespoň v c procentech případů. Pokud je podmínka kroku 440 splněna algoritmus pokračuje krokem 445. Krok 445 vytváří pravidlo odpovídající množině atributů na pravé straně, podmínce důsledku. Krok 450 následuje po krocích 440 a 445 a představuje krok smazání uzlu, dříve odkazovaného ukazatelem Aktuální uzel ze SEZNAMU a nastavení ukazatele Aktuální uzel na další uzel obsažený v SEZNAMU. Krok 460 určuje, zda SEZNAM je prázdný a ukončuje algoritmus v případě splnění podmínky, viz krok 470. Jinak se algoritmus vrací ke kroku 430 a opakuje kroky pro uzel aktuálně odkazovaný ukazatelem Aktuální uzel. Při ukončení algoritmu je na vytvořen nesloučený strom pravidel, sestávající ze všech uzlů, které splňují uživatelem danou minimální podporu, MinPodpora s.

Obr. 5 (a) představuje detailní diagram postupu, popisující postup vytvoření sloučeného stromu pravidel z nesloučeného stromu pravidel. Algoritmus popsaný v diagramu komprimuje nesloučený strom pravidel za účelem získání hierarchické reprezentace pravidel. Nesloučený strom pravidel je posunut v hloubce prvního vyhledávacího řádu, kde v každém uzlu je provedeno rozhodnutí, zda daný uzel je významný. Významný uzel je takový uzel, ke kterému je přiřazeno nějaké pravidlo. Pravidlo mohlo a nemuselo být uzlu přiřazeno při tvorbě nesloučeného stromu. Pro další objasnění rozdílu mezi významnými a nevýznamnými uzly se vraťme zpět k obr. 4(b), nesloučenému stromu pravidel, kde významné uzly představují uzly 1, 2 a 4. Všechny významné uzly jsou ve sloučeném stromu pravidel zachovány. Pokud je uzel označen jako nevýznamný, algoritmus buď tento uzel vyloučí, nebo sloučí více následujících uzlů do jediného uzlu, pokud jsou splněny určité podmínky.

Krok 500 je místem vstupu do algoritmu. Krok 510 představuje software pro implementaci kroku zjištění, zda nesloučený strom pravidel je posunut v hloubce prvního řádu. Krok 515 představuje krok pokračování k dalšímu uzlu v nesloučeném stromu pravidel v prvním posunu hloubky. Krok 520 představuje rozhodovací krok, určující, zda aktuální uzel pravidel je významným uzlem. Větvení ke kroku 530 je provedeno pro případ shledání aktuálního uzlu významným. Jinak se algoritmus větví ke kroku 540, čímž je uzel klasifikován jako nevýznamný. Krok 540 je rozhodovací krok, určující, zda nevýznamný uzel má následující uzel. Pokud nevýznamný uzel nemá následující uzel, je provedeno větvení ke kroku 550. Krok 550 je krokem smazání aktuálního nevýznamného uzlu. Jinak, pokud je v kroku 540 určeno, že aktuální uzel má následující uzel, je provedeno větvení ke kroku 560. Krok 560 ie rozhodovací krok za účelem zjištění, zda aktuální nevýznamný uzel má jeden nebo více než jeden následující uzel. Pokud aktuální uzel má pouze jeden následující uzel, je provedeno větvení ke kroku 570. Krok 570 představuje software pro implementaci kroku smazání aktuální uzlu a přímého propojení předcházejícího a následujícího uzlu smazaného nevýznamného uzlu dohromady v indexovém stromě. Jinak, v případě kdy aktuální uzel má více následujících uzlů, je provedeno větvení ke kroku 580. Krok 580 je rozhodovací krok, zjišťující, zda minimální opsaný pravoúhelník dvou následujících uzlů je větší než minimální opsaný pravoúhelník nevýznamného předcházejícího uzlu. Minimální opsaný pravoúhelník je definován horní a dolní mezí (rozsahem) kvantitativního atributu pro každý následující uzel. Pokud jsou rozsahy následujících uzlů kombinovány a shledány širšími než rozsah předcházejícího uzlu, dochází ke sloučení. Například, pokud následující uzly byly definovány jako:

následující uzel 1 - věk [10 až 20] následující uzel 2 - věk [30 až 40]

-13 CZ 294171 B6 a odpovídající předcházející uzel byl definován jako:

předcházející uzel - věk [10 až 30] pak v tomto případě dojde ke sloučení, jelikož kombinace rozsahů atributů následujících uzlů dává kombinovaný rozsah [10 až 40], který je širší než rozsah daný předcházejícím uzlem, [10 až 30].

Pokud minimální opsaný pravoúhelník dvou následujících uzlů přesáhne minimální popsaný pravoúhelník předcházejícího uzlu, vyskytne se větvení ke kroku 590. Krok 590 představuje software pro provedení kroku nastavení minimálního opsaného pravoúhelníku předcházejícího uzlu jako minimálního opsaného pravoúhelníku dvou následujících uzlů. Větvení k rozhodovacímu kroku 600, zda existují uzly k posunutí ve stromu. Větvení k ukončovacímu kroku 610 se uskuteční, pokud neexistují další uzly k posunu, jinak jsou kroky 490 až 515 opakovány pro zbývající indexové uzly.

Obr. 6 je detailní diagram postupu, popisující postup využití sloučeného stromu pravidel jako vstupu pro definování pravidel na uživatelem definované hladině zájmu r. Sloučený strom pravidel je posunut v hloubce prvního řádu. Krok 616 je místem vstupu do diagramu postupu. Uživatel specifikuje jako vstup hodnotu r, představující hladinu zájmu. Krok 618 představuje výběr textového uzlu ve sloučeného stromu pravidel v prvním řádu hloubky. Krok 620 je rozhodovacím krokem, představujícím prohlédnutí všech předcházejících uzlů aktuálního zájmového uzlu za účelem zjištění, zda libovolný z nich má hodnotu spolehlivosti alespoň rovnu hodnotě 1/r aktuálního uzlu. Větvení ke kroku 630 je provedeno v případě splnění podmínky. Krok 630 představuje zjednodušení pravidla přiřazeného aktuálního uzlu. Pokud podmínka není splněna, je provedeno větvení ke kroku 640. Krok 640 je rozhodovací krok, zajišťující, zda ve sloučeném stromě existují zbylé uzly určené k ohodnocení. Kroky postupu jsou opakovány, dokud existují další uzly určené k ohodnocení, jinak je postup v tomto bodě ukončen.

Shrneme-li předchozí skutečnosti, je možné vytvořit přímý způsob vyhledávání datových položek pro nalezení kvantitativních asociačních pravidel, kde datové položky zahrnují různé druhy kvantitativních a kategorických atributů.

Claims

1. Způsob přímého vyhledávání v rozsáhlé databázi, obsahující množství záznamů, každý ze záznamů má množství kvantitativních a kategorických položek pro vytváření kvantitativních asociačních pravidel, zahrnující kroky:

a) přijetí uživatele definované hodnoty minimální spolehlivosti, uživatelem definované hodnoty minimální podpory a uživatelského dotazu obsahujícího předpokládané a důsledkové atributy vyjádřené pomocí zmíněných kvantitativních a/nebo kategorických položek;

c) odvození odpovědi ze zmíněných před-uložených dat jako odezvy na zmíněný uživatelský dotaz prohledáním všech indexových uzlů zmíněného indexového stromu za účelem izolování

-14CZ 294171 B6 těch uzlů, jejichž rozsah předpokládaných atributů odpovídá rozsahu pro předpokládané atributy dle uživatelského dotazu a které mají spolehlivost alespoň zmíněné uživatelem definované hodnotě minimální spolehlivosti a hodnotu podpory alespoň rovnu zmíněné uživatelem definované minimální hodnotě podpory.

2. Způsob podle nároku 1, vyznačuj ící se t í m , že zmíněná odpověď zahrnuje jedno nebo více kvantitativních asociačních pravidel, aktuální hodnotu spolehlivosti přiřazenou každému pravidlu a aktuální hodnotu podpory přiřazenou každému pravidlu.

3. Způsob podle alespoň jednoho z nároku 1 nebo 2, vyznačující se tím, že během zmíněného kroku přijetí je poskytnuta uživatelem definovaná hladina zájmu a zmíněná odpověď obsahuje hladinu zájmu přiřazenou každému pravidlu, přičemž jedno či více zmíněných kvantitar tivních asociačních pravidel sestává pouze z těch pravidel, jejichž vypočtená hladina zájmu je alespoň rovna zmíněné uživatelem definované hladině zájmu.

4. Způsob podle nároku 3, vyznačující se tím, že zmíněná hladina zájmu je definována jako minimum z vypočteného primárního a sekundárního poměru, kde zmíněný primární poměr je definován jako aktuální spolehlivost dělená očekávanou spolehlivostí a sekundární poměr je definován jako aktuální podpora dělená očekávanou podporou, kde zmíněná očekávaná spolehlivost a podpora jsou vypočtené hodnoty založené na předpokladu statistické nezávislosti.

5. Způsob podle alespoň jednoho z nároků 1 až 4, vyznačující se tím, že zmíněné předpokládané atributy sestávají z kategorických a kvantitativních atributů.

6. Způsob podle nároku 5, vyznačující se tím, že zmíněné kvantitativní atributy jsou dále definovány rozsahem daným dolní a horní mezí.

7. Způsob podle alespoň jednoho z nároků 1 až6, vyzn aču j í cí se tí m , že zmíněný krok odvození zahrnuje vytvoření sloučeného stromu vymazáním bezvýznamných uzlů a spojením ostatních uzlů, kde bezvýznamný uzel je uzel, který nemá odpovídající vypočtenou hodnotu spolehlivosti alespoň rovnu zmíněné uživatelem definované hodnotě minimální spolehlivosti.

8. Způsob podle nároku 7, vyznačující se tím, že sloučený strom může být vytvořen pro samostatný nebo pro více důsledkových atributů.

9. Způsob podle nároku 1, vy zn a č uj í c í se tím, že:

zmíněný krok přijetí zahrnuje vstup počítačových dat, obsahujících uživatelem definovanou hodnotu minimální podpory, uživatelem definovanou hodnotu zájmu a uživatelský dotaz obsahující podmínku předpokladu a důsledku, kde podmínka předpokladu a důsledku dále obsahují množství kvantitativních a kategorických atributů;

zmíněný organizační krok a krok před-uložení zahrnují vytvoření indexového stromu o jednom nebo více rozměrech v paměti, kde každý rozměr je definován jedním z kvantitativních atributů poskytnutých uživatelem, obsažených ve zmíněné podmínce předpokladu, zmíněný indexový strom sestávající z množství indexových uzlů, kde zmíněné indexové uzly sestávají z množství datových záznamů; a zmíněný krok odvození zahrnuje vytvoření nesloučeného stromu pravidel v paměti ze zmíněného indexového stromu a sloučeného stromu pravidel ze zmíněného nesloučeného stromu pravidel a vytvoření jednoho nebo více kvantitativních asociačních pravidel ze zmíněných indexových uzlů, které uspokojují zmíněný uživatelský dotaz a jejichž podpora je alespoň rovna zmíněné minimální podpoře a jejichž spolehlivost je alespoň rovna zmíněné minimální spolehlivosti;

-15 CZ 294171 B6 zmíněný způsob dále zahrnuje krok zobrazení výstupních dat uživateli, sestávajících ze: zmíněných kvantitativních asociačních pravidel z kroku vytvoření; hodnoty aktuální spolehlivosti přiřazené každému z vytvořených kvantitativních asociačních pravidel; hodnoty podpory přiřazené každému z vytvořených kvantitativních asociačních pravidel; a hodnoty hladiny zájmu přiřazené každému z vytvořených kvantitativních asociačních pravidel.

10. Způsob podle nároku 9, vyznačující se tím, že krok vytvoření jednoho nebo více kvantitativních asociačních pravidel je opakován tak, že zmíněný uživatelský dotaz je interaktivně modifikován pro další definování zmíněných asociačních pravidel.

11. Způsob podle alespoň jednoho z nároku 9 nebo 10, vy z n a č uj í c í se tím, že krok vytvoření indexového stromu zahrnuje kroky:

vytvoření binárního indexového stromu o jednom nebo více rozměrech, kde každý rozměr je definován jedním ze zmíněných uživatelem poskytnutých kvantitativních předpokládaných atributů; a uložení zmíněné hladiny podpory a hladiny spolehlivosti v každém indexovém uzlu.

12. Způsob podle alespoň jednoho z nároků 9až 11, vyznaču j ící se tí m, že krok vytvoření nesloučeného stromu pravidel zahrnuje kroky:

prohledání každého uzlu zmíněného indexového stromu; a výběr uzlů, obsahujících pravidla, která uspokojují uživatelem danou podmínku důsledku a mají spolehlivost alespoň rovnu zmíněné uživatelem dané minimální spolehlivosti a hodnotu podpory alespoň rovnu zmíněné uživatelem dané hodnotě minimální podpory.

13. Způsob podle nároku 12, vy z n a č uj í c í se t í m , že krok výběru uzlů, které obsahují pravidla uspokojující uživatelem definovanou podmínku důsledku, zahrnuje:

vytvoření ukazatele;

přiřazení zmíněného kořenového uzlu ve zmíněném indexovém stromu;

přidání všech následníků uzlu odkazovaného zmíněným ukazatelem, s předpokládaným atributem zcela obsaženým uvnitř parametrů zmíněného uživatelem definovaného předpokládaného atributu a s minimální hodnotou podpoiy alespoň rovnou zmíněné uživatelem zadané podpoře, do seznamu;

vytvoření kvantitativního asociačního pravidla přiřazeného zmíněným podmínkám důsledku;

smazání zmíněného uzlu ze zmíněného seznamu, pokud podmínky předchozího kroku nejsou splněny; zjištění, zda zmíněný seznam je prázdný; a ukončení, pokud zmíněný seznam je prázdný, jinak přiřazení zmíněného ukazatele dalšímu uzlu zmíněného indexového stromu a opakování shora uvedených kroků od zmíněného kroku přidání uzlu přiřazeného zmíněným ukazatelem do seznamu dále.

-16CZ 294171 B6

14. Způsob podle alespoň jednoho z nároků 9 až 13, vyznačující se tím, že krok vytvoření sloučeného stromu pravidel zahrnuje:

a) posun každého uzlu nesloučeného stromu pravidel do dalšího řádu;