CZ294171B6 - Způsob přímého vyhledávání v rozsáhlé databázi - Google Patents

Způsob přímého vyhledávání v rozsáhlé databázi Download PDF

Info

Publication number
CZ294171B6
CZ294171B6 CZ20001630A CZ20001630A CZ294171B6 CZ 294171 B6 CZ294171 B6 CZ 294171B6 CZ 20001630 A CZ20001630 A CZ 20001630A CZ 20001630 A CZ20001630 A CZ 20001630A CZ 294171 B6 CZ294171 B6 CZ 294171B6
Authority
CZ
Czechia
Prior art keywords
node
user
tree
quantitative
index
Prior art date
Application number
CZ20001630A
Other languages
English (en)
Other versions
CZ20001630A3 (en
Inventor
Aggarwaláchandra
Yuáphilip
Original Assignee
Internationalábusinessámachinesácorporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Internationalábusinessámachinesácorporation filed Critical Internationalábusinessámachinesácorporation
Publication of CZ20001630A3 publication Critical patent/CZ20001630A3/cs
Publication of CZ294171B6 publication Critical patent/CZ294171B6/cs

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/954Relational
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/956Hierarchical
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/964Database arrangement
    • Y10S707/966Distributed
    • Y10S707/967Peer-to-peer
    • Y10S707/968Partitioning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Počítačový způsob získávání kvantitativních asociačních pravidel sestává ze dvou etapŹ etapy předzpracování následované etapou přímého vytvoření pravidla@ Požadovaný výpočetní výkon je snížen díky etapě předzpracování definované předzpracováním dat pro organizaci vztahů mezi předpokládanými atributy za účelem vytvoření hierarchicky uspořádané vícerozměrné indexové struktury@ Výsledná struktura zvyšuje výkonnost druhé etapyŹ přímého zpracováníŹ která představuje vytvoření kvantitativních asociačních pravidel@ Druhá etapaŹ přímé vytvoření pravidelŹ využívá vícerozměrné indexové struktury vytvořené během etapy předzpracování nejprve vyhledáním oblastí datŹ odpovídajících pravidlům a poté používá kroku spojování pro vytvoření sloučeného stromu za účelem pečlivě sloučené zájmové oblasti a za účelem poskytnutí hierarchické reprezentace množiny pravidel@ Sloučený strom je poté použit pro vlastní vytvoření pravidelŕ

Description

Předložený vynález se týká přímého vyhledávání datových závislostí v rozsáhlých databázích (vyhledávání dat).
Dosavadní stav techniky
Vyhledávání dat, známé jako získávání znalostí z databází, se stalo novým oborem databázového výzkumu. Objem dat uložených v elektronickém formátu během posledních dvou desetiletí významně vzrostl. Růst používání elektronických zařízení pro sběr dat, jako jsou zařízení prodejních míst či zařízení pro dálkový výzkum, přispěl k tomuto prudkému růstu množství dostupných dat. Ukládání dat se stává pro obchodní organizace jednodušším a atraktivnějším díky dostupnosti velkého množstvím výpočetní kapacity a díky snižování nákladnosti prostředků pro ukládání dat.
V souvislosti s hromaděním dat vznikla doplňková potřeba zaměřit se na využití těchto hodnotných zdrojů informací. Společnosti shledaly, že hodnotné poznatky mohou být získány pomocí rozhodovacích nástrojů, které představují využití uložených dat. S využitím dat společností používajících čárové kódy nebo dat o odbytu katalogových společností je možné získat hodnotné informace o nákupním chování zákazníka. Odvozená informace může být využita například maloobchodními organizacemi při rozhodování, jakou položku umístit do určitého regálu v supermarketu nebo pro navržení dobře cíleného marketingového programu. Četné významné poznatky mohou být vyhledány pomocí využití vhodných analytických postupů. V obecném smyslu se vyhledávání dat týká analýzy dat a použití softwarových postupů pro nalezení charakteristik a pravidelností v datových množinách.
Technologie pro vyhledávání dat jsou charakterizovány intenzivními výpočty na velkých datových objemech. Rozsáhlé databáze je možné definovat jako databáze o milionu a více záznamech. V typické aplikaci koncoví uživatelé testují asociační pravidla jako „75 % zákazníků kupujících colu rovněž kupuje praženou kukuřici“, kde 78 % představuje faktor spolehlivosti pravidla. Podporou pravidla je procento transakcí, které obsahují jak colu, tak praženou kukuřici.
Dosavadní stav techniky se doposud nezabývá otázkou přímého vyhledávání, namísto toho se zaměřuje na přístup množiny položek. Významnou nevýhodou přístupu množiny položek je ten, že uživatel testuje databázi na asociační pravidla při různých hodnotách podpory a spolehlivosti, přičemž musí být provedeno vícenásobné prohledání databáze, která může představovat řádově gigabyty. Pro velmi rozsáhlé databáze to může znamenat značné množství vstupů/výstupů a v určitých situacích to může vést k nepřijatelným dobám odezvy přímých dotazů. Uživatel musí provést několik dotazů na databázi, protože je apriori těžké odhadnout, kolik pravidel může splnit danou hladinu podpory a spolehlivosti. Obvykle může uživatele zajímat pouze malé množství pravidel. To činí problém složitějším, protože uživatel může chtít spustit dotaz několikrát za účelem nalezení přiměřených hladin minimální podpory a minimální spolehlivosti pro vyhledávání pravidel. Jinými slovy problém vyhledávání asociačních pravidel může vyžadovat značné manuální ladění parametrů opakovaným dotazováním před tím, než může být užitečná obchodní informace získaná z databáze transakcí. Dosud popsané výpočetní způsoby vyhledávání jsou proto nevhodné pro opakované přímé dotazy vzhledem k vyplývajícím četným vstupům/výstupům či výpočtům vedoucím k nepřístupným dobám odezvy. Potřeba expandování množství vyhledávání dat do prostředí internetu vyžaduje přímé dynamické způsoby namísto dávkově orientovaného způsobu přístupu množiny položek.
-1 CZ 294171 B6
Podstata vynálezu
Předložený vynález vytváří způsob přímého vyhledávání v rozsáhlé databázi, obsahující množství záznamů, každý ze záznamů má množství kvantitativních a kategorických položek pro vytváření kvantitativních asociačních pravidel, zahrnující kroky:
a) přijetí uživatele definované hodnoty minimální spolehlivosti, uživatelem definované hodnoty minimální podpoiy a uživatelského dotazu obsahujícího předpokládané a důsledkové atributy vyjádřené pomocí zmíněných kvantitativních a/nebo kategorických položek;
b) organizace vztahu mezi předpokládanými atributy a důsledkovými atributy pomocí před-uložení předpokládaných dat hierarchicky do indexového stromu, obsahujícího množství indexových uzlů, přičemž indexový uzel obsahuje primární a sekundární hodnotu představující aktuální podporu a spolehlivost pro každý z důsledkových atributů uživatelského dotazu; a
c) odvození odpovědi ze zmíněných před-uložených dat jako odezvy na zmíněný uživatelský dotaz prohledáním všech indexových uzlů zmíněného indexového stromu za účelem izolování těch uzlů, jejichž rozsah předpokládaných atributů odpovídá rozsahu pro předpokládané atributy dle uživatelského dotazu a které mají spolehlivost alespoň zmíněné uživatelem definované hodnotě minimální spolehlivosti a hodnotu podpory alespoň rovnu zmíněné uživatelem definovat né minimální hodnotě podpory.
Podle přednostního provedení vynálezu zmíněná odpověď zahrnuje jedno nebo více kvantitativních asociačních pravidel, aktuální hodnotu spolehlivosti přiřazenou každému pravidlu aktuální hodnotu podpory přiřazenou každému pravidlu a hladinu zájmu přiřazenou každému pravidlu, přičemž jedno či více zmíněných kvantitativních asociačních pravidel sestává pouze z těch pravidel, která jsou zajímavá (např. jejich vypočtená hladina zájmu je alespoň rovna zmíněné uživatelem definované hladině zájmu).
Příhodná a faktická definice hladiny zájmu je (například) jako minimum z vypočteného primárního a sekundárního poměru, kde zmíněný primární poměr je definován jako aktuální spolehlivost dělená očekávanou spolehlivosti a sekundární poměr je definován jako aktuální podpora dělená očekávanou podporou, kde zmíněná očekávaná spolehlivost a podpora jsou vypočtené hodnoty založené na předpokladu statistické nezávislosti.
Podle přednostního provedení vynálezu zmíněné předpokládané atributy sestávají z kategorických a kvantitativních atributů, kde kvantitativní atributy jsou dále definovány rozsahem daným dolní a horní mezí.
Zmíněný organizační krok přednostně zahrnuje rozdělení zmíněných předcházejících dat hierarchicky do indexového stromu, kde zmíněný indexový strom obsahuje množství indexových uzlů, pomocí kroků:
a) uložení primární hodnoty v každém indexovém uzlu zmíněného indexového stromu, představující aktuální podporu; a
b) uložení sekundární hodnoty v každém indexovém uzlu zmíněného indexového stromu, představující četnost výskytu důsledkového atributu pro každý z uživatelských dotazů.
V takovém provedení vynálezu může být krok odvození efektivně realizován pomocí:
i) prohledání všech indexových uzlů zmíněného indexového stromu za účelem izolování těch uzlů, jejichž rozsah předpokládaných atributů odpovídá rozsahu pro předpokládané atributy dle zmíněného uživatelského dotazu
-2CZ 294171 B6 ii) výběru uzlů, z uzlů zjištěných v kroku i), které mají důsledkový atribut alespoň roven zmíněné uživatelem definované hodnotě minimální spolehlivosti; a iii) vytvoření sloučeného stromu z uzlů zjištěných v kroku ii).
Přednostně krok vytvoření dále zahrnuje vymazání bezvýznamných uzlů za účelem vytvoření sloučeného stromu, kde bezvýznamný uzel je uzel, který nemá odpovídající vypočtenou hodnotu spolehlivosti alespoň rovnu zmíněné uživatelem definované hodnotě minimální spolehlivosti. Sloučený strom může být vytvořen pro samostatný nebo pro více důsledkových atributů.
Podle přednostního provedení vynálezu zmíněný krok přijetí zahrnuje vstup počítačových dat, obsahujících uživatelem definovanou hodnotu minimální podpory, uživatelem definovanou hodnotu zájmu a uživatelský dotaz obsahující podmínku předpokladu a důsledku, kde podmínka předpokladu a důsledku dále obsahují množství kvantitativních a kategorických atributů;
zmíněný organizační krok a krok před-uložení zahrnují vytvoření indexového stromu o jednom nebo více rozměrech v paměti, kde každý rozměr je definován jedním z kvantitativních atributů poskytnutých uživatelem, obsažených ve zmíněné podmínce předpokladu, zmíněný indexový strom sestávající z množství indexových uzlů, kde zmíněné indexové uzly sestávají z množství datových záznamů;
a zmíněný krok odvození zahrnuje vytvoření jednoho nebo více kvantitativních asociačních pravidel z indexových uzlů, které splňují zmíněný uživatelský dotaz a jejichž podpora je alespoň rovna zmíněné minimální podpoře a jejichž spolehlivost je alespoň rovna zmíněné minimální spolehlivosti; a zobrazení výstupních dat uživateli, sestávajících ze: zmíněných kvantitativních asociačních pravidel z kroku vytvoření; hodnoty aktuální spolehlivosti přiřazené každému z vytvořených kvantitativních asociačních pravidel; hodnoty podpory přiřazené každému z vytvořených kvantitativních asociačních pravidel; a hodnoty hladiny zájmu přiřazené každému z vytvořených kvantitativních asociačních pravidel.
Krok vytvoření jednoho nebo více kvantitativních asociačních pravidel může být opakován tak, že zmíněný uživatelský dotaz je interaktivně modifikován pro další definování zmíněných asociačních pravidel.
Krok vytvoření indexového stromu přednostně zahrnuje kroky: vytvoření binárního indexového stromu o jednom nebo více rozměrech, kde každý rozměr je definován jedním ze zmíněných uživatelem poskytnutých kvantitativních předpokládaných atributů; a uložení zmíněné hladiny podpory a hladiny spolehlivosti v každém indexovém uzlu.
Krok vytvoření nesloučeného stromu pravidel rovněž přednostně zahrnuje kroky: prohledání každého uzlu zmíněného indexového stromu; a výběr uzlů, obsahujících pravidla, která uspokojují uživatelem danou podmínku důsledku spolehlivosti alespoň rovnu zmíněné uživatelem dané minimální spolehlivosti a hodnotu podpory alespoň rovnu zmíněné uživatelem dané hodnotě minimální podpory. Tento další výběrový krok může být proveden kroky:
vytvoření ukazatele;
přiřazení zmíněného kořenového uzlu ve zmíněném indexovém stromu;
přidání zmíněného uzlu přiřazenému ke zmíněnému ukazateli do seznamu;
přidání všech následníků uzlu odkazovaného zmíněným ukazatelem, spředpokládaným atributem zcela obsaženým uvnitř parametrů zmíněného uživatelem definovaného předpokládaného
- o CZ 294171 B6 atributu a s minimální hodnotou podpory alespoň rovnou zmíněné uživatelem zadané podpoře, do seznamu;
zjištění, zda datové záznamy uložené v uzlu odkazovaném zmíněným ukazatelem jsou alespoň rovny uživatelem specifikované podmínce důsledku a mají spolehlivost alespoň rovnu zmíněné uživatelem definované minimální spolehlivosti;
vytvoření kvantitativního asociačního pravidla přiřazeného zmíněným podmínkám důsledku; smazání zmíněného uzlu ze zmíněného seznamu, pokud podmínky předchozího kroku nejsou splněny; zjištění, zda zmíněný seznam je prázdný; a ukončení, pokud zmíněný seznam je prázdný, jinak přiřazení zmíněného ukazatele dalšímu uzlu zmíněného indexového stromu a opakování shora uvedených kroků od zmíněného kroku přidání uzlu přiřazeného zmíněným ukazatelem do seznamu dále.
Dále je upřednostněno, že krok vytvoření sloučeného stromu pravidel zahrnuje:
a) posun každého uzlu nesloučeného stromu pravidel do dalšího řádu;
b) zhodnocení každého posunutého uzlu pro zařazení či vyloučení z nesloučeného stromu pravidel pomocí:
i) zjištění, zda každá ze zmíněných hodnot uživatelem definovaného důsledkového atributu je větší než hodnota atributu důsledku uložená ve zmíněném uzlu;
ii) zachování zmíněného uzlu ve zmíněném sloučeném stromu pravidel, v případě splnění podmínky (i);
iii) smazání zmíněného uzlu ze zmíněného sloučeného stromu pravidel v případě nesplnění podmínky (i) a pokud zmíněný uzel nemá přiřazeny žádné následující uzly;
iv) smazání zmíněného uzlu ze zmíněného sloučeného stromu pravidel a přímé přiřazení předchozího uzlu a následujícího uzlu zmíněného smazaného uzlu při nesplnění podmínky (i) a pokud zmíněný uzel má jeden následující uzel; a
v) nastavení rozsahu zmíněného důsledkového atributu, pokud podmínka (i) není splněna;
kde zmíněný krok zhodnocení je opakován až do posunu všech uzlů do dalšího řádu.
Vynález dále vytváří zařízení pro přímé vyhledávání v rozsáhlé databázi, obsahující množství záznamů, každý ze záznamů má množství kvantitativních a kategorických položek pro vytváření kvantitativních asociačních pravidel, zahrnující:
prostředky pro přijetí uživatelem definované hodnoty minimální spolehlivosti, uživatelem definované hodnoty minimální podpory a uživatelského dotazu obsahujícího předpokládané a důsledkové atributy vyjádřené pomocí zmíněných kvantitativních a/nebo kalorických položek;
prostředky pro organizaci vztahu mezi předpokládanými atributy a důsledkovými atributy pomocí před-uložení předpokládaných dat hierarchicky do indexového stromu, obsahujícího množství indexových uzlů, přičemž každý indexový uzel obsahuje primární a sekundární hodnotu představující aktuální podporu a spolehlivost pro každý z důsledkových atributů uživatelského dotazu; a prostředky pro odvození odpovědi ze zmíněných před-uložených dat jako odezvy na zmíněný uživatelský dotaz prohledáním všech indexových uzlů zmíněného indexového stromu za účelem
-4CZ 294171 B6 izolování těch uzlů, jejichž rozsah předpokládaných atributů odpovídá rozsahu pro předpokládané atributy dle uživatelského dotazu a kterém mají spolehlivost alespoň rovnu zmíněné uživatelem definované hodnotě minimální spolehlivosti a hodnotu podpory alespoň rovnu zmíněné uživatelem definované minimální hodnotě podpory.
Podle jiného hlediska vynález rovněž vytváří počítačem vykonávaný proces přímého vyhledávání v rozsáhlé databázi, obsahující množství záznamů, každý ze záznamů má množství kvantitativních a kategorických položek pro vytváření kvantitativních asociačních pravidel, zahrnující kroky:
vstup počítačových dat, obsahujících uživatelem definovanou hodnotu minimální podpoiy, uživatelem definovanou hodnotu minimální spolehlivosti, uživatelem definovanou hodnotu zájmu a uživatelský dotaz obsahující podmínku předpokladu a důsledku, kde podmínka předpokladu a důsledku dále obsahují množství kvantitativních a kategorických atributů;
vytvoření indexového stromu o jednom nebo více rozměrech v paměti, kde každý rozměr je definován jedním z kvantitativních atributů poskytnutých uživatelem, obsažených ve zmíněné podmínce předpokladu, zmíněný indexový strom sestávající z množství indexových uzlů, kde zmíněné indexové uzly sestávají z množství datových záznamů;
vytvoření nesloučeného stromu pravidel v paměti ze zmíněného indexového stromu sestávajícího z množství indexových uzlů, přičemž každý indexový uzel dále sestává z množství datových záznamů;
vytvoření sloučeného stromu pravidel v paměti ze zmíněného nesloučeného stromu pravidel sestávajícího z množství indexových uzlů, přičemž každý indexový uzel dále sestává z množství datových záznamů;
vytvoření jednoho nebo více kvantitativních asociačních pravidel z indexových uzlů, které splňují zmíněný uživatelský dotaz a jejichž podpora je alespoň rovna zmíněné minimální podpoře a jejichž spolehlivost je alespoň rovna zmíněné minimální spolehlivosti; a zobrazení výstupních dat uživateli, sestávajících ze:
zmíněných kvantitativních asociačních pravidel z kroku vytvoření;
hodnoty aktuální spolehlivosti přiřazené každému z vytvořených kvantitativních asociačních pravidel; hodnoty podpoiy přiřazené každému z vytvořených kvantitativních asociačních pravidel; a hodnoty hladiny zájmu přiřazené každému z vytvořených kvantitativních asociačních pravidel.
Přednostně krok vytvoření nesloučeného stromu pravidel zahrnuje prohledání každého uzlu zmíněného indexového stromu a výběr vhodných uzlů pomocí kroků:
i) vytvoření ukazatele;
ii) přiřazení zmíněného ukazatele kořenovému uzlu ve zmíněném indexovém stromu;
iii) přidání zmíněného uzlu přiřazenému ke zmíněnému ukazateli do seznamu;
iv) přidání všech následníků uzlu odkazovaného zmíněným ukazatelem, s předpokládaným atributem zcela obsaženým uvnitř parametrů zmíněného uživatelem definovaného předpokládaného atributu a s minimální hodnotou podpory alespoň rovnou zmíněné uživatelem zadané minimální podpoře;
-5CZ 294171 B6
v) zjištění, zda datové záznamy uložené v uzlu odkazovaném zmíněným ukazatelem jsou alespoň rovny uživatelem specifikované podmínce důsledku a mají spolehlivost alespoň rovnu zmíněné uživatelem definované minimální spolehlivosti pro uzel odkazovaný zmíněným ukazatelem;
vi) vytvoření kvantitativního asociačního pravidla přiřazeného zmíněným podmínkám důsledku;
vii) smazání zmíněného uzlu ze zmíněného seznamu, pokud podmínky předchozího kroku nejsou splněny;
viii) zjištění, zda zmíněný seznam je prázdný;
ix) ukončení, pokud zmíněný seznam je prázdný;
x) přiřazení zmíněného ukazatele dalšímu uzlu zmíněného indexového stromu, pokud podmínka z kroku ix) není splněna;
xi) opakování kroků iii) až x), pokud podmínka z kroku ix) není splněna.
Přednostně krok vytvoření sloučeného stromu pravidel zahrnuje kroky:
a) posun každého uzlu nesloučeného stromu pravidel do dalšího řádu;
b) zhodnocení každého posunutého uzlu pro zařazení či vyloučení z nesloučeného stromu pravidel, dále zahrnující kroky:
i) zjištění, zda každá ze zmíněných hodnot uživatelem definovaného důsledkového atributu je větší než hodnota atributu důsledku uložená ve zmíněném uzlu;
ii) zachování zmíněného uzlu ve zmíněném sloučeném stromu pravidel, v případě splnění podmínky (i);
iii) smazání zmíněného uzlu ze zmíněného sloučeného stromu pravidel v případě nesplnění podmínky (i) a pokud zmíněný uzel nemá přiřazeny žádné následující uzly;
iv) smazání zmíněného uzlu ze zmíněného sloučeného stromu pravidel a přímé přiřazení předchozího uzlu a následujícího uzlu zmíněného smazaného uzlu při nesplnění podmínky (i) a pokud zmíněný uzel má jeden následující uzel; a
v) nastavení rozsahu zmíněného důsledkového atributu, pokud podmínka kroku (i) není splněna;
vi) přímé přiřazení předchozího uzlu a následujícího uzlu zmíněného smazaného uzlu, pokud podmínka kroku iv) je splněna;
vii) opakování kroků i) až vi) až do posunu všech uzlů do dalšího řádu.
Shora popsaný výpočetně efektivní přístup dovoluje přímým dotazům na databázi uplatnit sílu asociačních pravidel využívajících uživatelem poskytnutých hladin podpory a spolehlivosti jako prediktorů a odhalit nová kvantitativní asociační pravidla díky efektivnímu provedení přímého vyhledávání kvantitativních asociačních pravidel. Asociační pravidlo může být obecně definováno jako podmíněný výraz, naznačující, že existuje jistá korelace mezi jeho dvěma součástmi, předpokladem a důsledkem. Předpoklad i důsledek v kvantitativním asociačním pravidle jsou sestaveny z uživatelem specifikované kombinace kvantitativních a kategorických atributů.
-6CZ 294171 B6
Společně s navrženým pravidlem uživatel poskytuje tři další vstupy, představující hladinu spolehlivosti a podpory zájmu uživatele a hodnotu odkazovanou jako hladinu zájmu. Tyto vstupy poskytují údaj o síle pravidla navrženého uživatelem (uživatelského dotazu), jinými slovy síly naznačené korelace mezi předpokladem a důsledkem, definované uživatelským dotazem.
Za účelem uskutečnění tohoto přistupuje popsán způsob předzpracování surových dat s využitím předpokládaných atributů pro rozdělení dat tak, že je vytvořena vícerozměrná indexová struktura s následným krokem přímého vytvoření pravidel. Efektivním předzpracováním dat do indexové struktury jsou tato převedena do podoby vhodné ke zodpovězení opakovaných přímých dotazů s téměř okamžitými odezvami. Je-li indexová struktura již jednou vytvořena, vylučuje nutnost provádět více procházení celou databází. Indexová struktura vnáší významné výkonnostní výhody do předchozích postupů. Indexová struktura ( předzpracovaná data) je uložena v takové podobě, že přímé zpracování může být provedeno aplikací teoretického vyhledávacího algoritmu, jehož složitost je přímo úměrná rozsahu výstupu. To vede k přímému algoritmu, který je téměř okamžitý ve smyslu času odezvy, minimalizujícímu nadměrné množství vstupů/výstupů nebo výpočtů.
Přehled obrázků na výkresech
Příklad způsobu přímého vyhledávání kvantitativních asociačních pravidel podle předloženého vynálezu je podrobně popsán na příkladu s odkazem na následující obrázky, kde:
Obr. 1 představuje celkový popis počítačové sítě;
Obr. 2 představuje celkový popis způsobu vyhledávání dat, sestávajícího ze dvou etap popsaných na obr. 2a a obr. 2b. obr. 2a představuje popis etapy předzpracování. Obr. 2b představuje popis přímé etapy algoritmu;
Obr. 3 představuje podrobný popis tvorby indexového stromu pomocí předcházející množiny. Může být považován za rozepsání kroku 75 na obr. 2a;
Obr. 4 představuje podrobný popis tvorby nespojeného stromu pravidel z indexového stromu. Může být považován za rozepsání kroku 100 na obr. 2b;
Obr. 5 představuje popis tvorby spojeného stromu pravidel z nespojeného stromu pravidel a
Obr. 6 představuje popis generování kvantitativních asociačních pravidel ze spojeného stromu pravidel na určité hladině r specifikované uživatelem.
Příklady provedení vynálezu
Tradiční databázové dotazy představují jednoduché otázky typu „Jaký odbyt pomerančového džusu v lednu 1995 pro oblast Long Island?“. Vyhledávání dat se oproti tomu pokouší získat rozeznatelné charakteristiky a trendy v datech a vyvozuje z těchto charakteristik pravidla. S pomocí těchto pravidel je pak uživatel schopen činit, posuzovat a zkoumat rozhodnutí v příbuzném obchodním či vědeckém oboru. Uvažujeme například supermarket s velkým množstvím různých položek. Typická obchodní rozhodování zahrnují co dát do výprodeje, jak navrhnout zásobovací lístky a jakým způsobem rozmístit zboží do regálů za účelem maximalizace profitu. Analýza dat předchozích transakcí je běžně používaným přístupem pro zlepšení kvality takovýchto rozhodnutí. Moderní technologie umožnila ukládat tzv. data koše, zahrnujícího položky získané během transakce. Organizace sbírají velké objemy takovýchto dat. Problémem je vyhledání velkého množství transakcí pro asociační pravidla mezi množinami položek s určitou minimální spolehlivostí. Pro danou množinu transakcí, kde každá transakceje množinou položek,
-7CZ 294171 B6 je asociačním pravidlem výraz ve formě X => Y, kde X a Y jsou množiny položek. Příkladem asociačního pravidla je: 30 % transakcí obsahujících pivo zároveň obsahuje dětské plenky; 2 % všech transakcí obsahují obě tyto položky. V tomto příkladu 30 % představuje spolehlivost pravidla a 2 % podporu pravidla.
Dalším příkladem takového asociačního pravidla je údaj, že 90 % zákaznických transakcí, kde se jedná o nákup chleba a másla, zároveň obsahuje mléko. Předpoklad tohoto pravidla, X, sestává z chleba a másla a důsledek, Y, sestává ze samotného mléka. 90 % představuje faktor spolehlivosti pravidla. Může být žádoucí vyhledat například všechna pravidla obsahující dalamánky v předpokladu, které mohou pomoci určit, které produkty (v důsledku) mohou být ovlivněny, pokud prodejce přestane dalamánky prodávat.
Uvažujeme-li množinu hrubých transakcí, D, problém vyhledávání asociačních pravidel v nalezení všech pravidel, které mají podporu a spolehlivost větší než uživatelem dané hodnoty minimální podpory 5 a minimální spolehlivosti c. Obecně představuje podporu pravidla X => Y procento zákaznických transakcí v generálizované databázi, obsahující obě množiny položek X a Y. V přesné matematické terminologii vyjádřeno, pravidlo X => Y má podporu 5 v množině transakcí D, pokud s % transakcí v D obsahuje sjednocení X a Y, X v Y. Spolehlivost pravidla X => Y je definována jako procento transakcí obsahujících X, které zároveň obsahují Y. Nebo formálněji, pravidlo X => Y má spolehlivost c v množině transakcí D, pokud c % transakcí v D, obsahujících X zároveň obsahuje Y. Pokud tedy pravidlo má spolehlivost 90 %, znamená to, že 90 % transakcí obsahujících X zároveň obsahuje Y.
Jak bylo dříve uvedeno, asociační pravidlo je výraz ve formě X => Y. Například jsou-li množiny položek X a Y vzájemně definovány
X = [mléko & sýr & máslo]
Y = [vejce & šunka] potom pravidlo může být interpretováno jako:
PRAVIDLO: X => Y, implikuje při daném výskytu mléka, sýra a másla v transakci, jaká je pravděpodobnost výskytu vajec a šunky v té samé transakci při určité definované hladině podpory a spolehlivosti.
Podpora a spolehlivost pravidla souhrnně definují sílu pravidla. Existuje mnoho způsobů, kterými může uživatel postavit pravidlo takovýmto v systému za účelem testování jeho síly. Nevyčerpávající, přesto však reprezentativní seznam druhů přímých dotazů podporovaných takovým systémem může zahrnovat:
(1) Najdi všechna asociační pravidla nad hladin dané hladiny minimální podpory a minimální spolehlivosti.
(2) Při dané hladině minimální podpory a minimální spolehlivosti najdi všechna asociační pravidla, mající množinu položek X v předpokladu.
(3) Při dané hladině minimální podpory a minimální spolehlivosti najdi všechna asociační pravidla, mající množinu položek Y v důsledku.
(4) při dané hladině minimální podpory a minimální spolehlivosti najdi všechna asociační pravidla, mající množinu položek Y v předpokladu či v důsledku nebo rozdělenu mezi předpoklad a důsledek.
-8CZ 294171 B6 (5) najdi počet asociačních pravidel/množin položek pro libovolný ze shora uvedených případů (1),(2),(3),(4).
(6) Při dané hladině minimální podpory existuje přesně k množin položek, obsahujících množinu položek Z.
Předložený způsob zužuje způsob odhalení obecných asociačních pravidel na nalezení kvantitativních pravidel v rozsáhlé databázi sestávající z množiny surových transakcí, D, definovaného pomocí různých kvantitativních a kategorických atributů.
Typická kvantitativní/kategorická databáze pro obecný marketingový průzkum může například sestávat z řady záznamů, kde každý záznam odráží určitou kombinaci charakteristik a priorit zákazníka:
Záznam (1) = věk = 21, pohlaví = muž, vlastník domácnosti = ne
Záznam (2) = věk = 43, pohlaví = muž, vlastník domácnosti = ano
Záznam (3) = věk = 55, pohlaví = žena, vlastník domácnosti = ne
Obecně je kvantitativní asociační pravidlo podmínka v podobě:
Obecné pravidlo:
XI [1 l..ul], X2 [12..u2],.. Xk [lk..uk] Y1 = cl, Y2 = c2..Yr = cr =} Zl = zl, Z2 = z2 kde XI, X2,..Xk představují kvantitativní předpokládané atributy a Yl, Y2,..Yr a C představují kategorické předpokládané atributy. [1 l..ul], [12..u2], [lk..uk] zde odpovídají rozsahům různých kvantitativních atributů. Zl a Z2 představují vícenásobnou podmínku důsledku.
Předložený způsob vyžaduje poskytnutí tří vstupů uživatelem s navrženým pravidlem, též odkazovaným jako uživatelský dotaz, v podobě dvojice předpoklad/důsledek. Kromě navrženého pravidla uživatel poskytuje hodnotu minimální spolehlivosti c a minimální požadované podpory s, pro testování síly navrženého pravidla (uživatelského dotazu).
Minimální spolehlivost i minimální podpora jsou tak významné pro odhalení kvantitativních asociačních pravidel, jako pro odhalení obecných asociačních pravidel. Příkladem typického uživatelského vstupu může být:
Příklad A: Typický uživatelský dotaz
1. Uživatel zadá navržené Pravidlo k testování (dotaz)
PODMÍNKA PŘEDPOKLADU______________ PODMÍNKA DŮSLEDKU
Věk [20 až 40], Plat [100kaž200k], Pohlaví = žena => Automobily = 2
2. Uživatel zadá hodnotu spolehlivosti pro navržené pravidlo, odkazovanou jako MinSpolehlivost, c.
MinSpolehlivosti = 50 %
3. Uživatel zadá hodnotu podpory pro navržené pravidlo, odkazovanou jako MinPodpora, s. MinPodpora = 10 %
-9CZ 294171 B6
Obr. 1 představuje celkový popis architektury předloženého způsobu. Předpokládá několik klientů 40, kteří mohou přistupovat k předzpracovaným datům pomocí sítě 35. Předzpracovaná data jsou uložena na serveru 5. Na serveru může existovat vyrovnávací paměť 25 kromě předzpracovaných dat 20. Předzpracování je stejně jako přímé zpracování prováděno v procesoru 10. Kromě toho je pro případ uložení dat na disku přítomen disk 15.
Předložený způsob sestává ze dvou etap, etapy předzpracování, následované etapou zpracování. Obr. 2 ukazuje celkový popis kroku předzpracování stejně jako kroky přímého zpracování (vytvoření pravidel) algoritmu. Etapa předzpracování zahrnuje vytvoření struktury binárního indexového stromu, viz krok 75 na obr. 2 a příslušný detailní popis na obr. 3 (a). Struktura indexového stromu je známa v oboru jako prostorová datová struktura, používaná jako prostředek pro indexování vícerozměrných dat. Tuto oblast v dosavadním stavu techniky popisuje např. Guttman, A., A dynamic Index Structure for Spatial searching, Proceedings of the ACM SIGMOD Conference. Předložený způsob využívá obměny této struktury indexového stromu za účelem vykonání přímých dotazů. Předpokládané atributy jsou využity pro rozdělení dat za účelem vytvoření vícerozměrné indexové struktury. Indexová struktura je dvojúrovňová struktura, kde uzlům vyšší hladiny jsou přiřazeny nejvýše dva následující uzly a uzly nižší hladiny mohou mít více než dva následuj ící uzly. Vytvoření indexové struktury je rozhodující pro provádění efektivního přímého vyhledávání dat. Klíčová výhoda spočívá v minimalizaci množství diskových vstupů/výstupů nutných pro odezvu na uživatelské dotazy.
Grafická analogie indexové struktury, uložené v paměti počítače, je znázorněna na obr. 3 (b) v podobě indexového stromu. Indexový strom je dobře známou prostorovou strukturou, využívanou pro indexování vícerozměrných dat. V paměti počítače je vytvořena samostatná indexová struktura pro každý rozměr, definovaná konkrétním kvantitativním atributem, zadaným uživatelem v přímém dotazu. Obr. 3 (b) představuje konkrétní příklad indexové struktury, reprezentující podmínku předpokladu, „Věk“ a její přidruženou podmínku důsledku. „Poprvé nakupující“. Pro další objasnění pojetí indexového stromu může obr. 3 (b) „Věk“ představovat rozměr v následujícím příkladu:
Příklad B: Ukázka uživatelského dotazu
PODMÍNKA PŘEDPOKLADU PODMÍNKA DŮSLEDKU
PLAT [40 až 85K], Věk [0 až 100] => Poprvé nakupující
Obecně neexistují omezení množství či kombinací kvantitativních a kategorických atributů, které představují podmínky předpokladu a důsledku.
Kořenový uzel struktury indexového stromu na obr. 3 (b) definuje uživatelem daný kvantitativní atribut, Věk [0 až 100]. Každý z následujících uzlů stromu rovněž představuje kvantitativní atribut, Věk, s postupně užšími mezerami rozsahu směrem od vrcholu k nejnižší úrovni stromové hierarchie. Například binární následovníci kořenového uzlu pro Věk [0 až 100] jsou Věk [0 až 45] a Věk [45 až 100]. Předložený způsob ukládá dvě části dat v každém z uzlů indexového stromu, reprezentující hladiny spolehlivosti a podpory zájmu. S odkazem na obr. 3 (b) jsou například uloženy dvě části dat, sestávající z:
1. hladina spolehlivosti = 50 %
2. hladina podpory = funkce datového vstupu surové databáze
Takto je v kořenovém uzlu definována spolehlivost a podpora uživatelského dotazu (dvojice předpoklad/důsledek),
Věk [0 až 100] =5 Poprvé nakupující
-10CZ 294171 B6
Obr. 3 (a) představuje detailní diagram postupu etapy předzpracování, uvedené na obr. 2 jako prvek 75. Kroky postupu této etapy zahrnují vytvoření struktury binárního indexového stromu a uložení hladin podpory a spolehlivosti důsledkového atributu v každém uzlu struktury, následované využitím komprimačního algoritmu na nižší hladiny struktury za účelem zajištění, že se indexový strom vejde do dostupné paměti. Krok 300 je místem vstupu do etapy předzpracování. Krok 310 představuje software pro implementaci kroku využití binarizačního algoritmu po vytvoření binárního indexového stromu. Krok binarizace popisuje v dosavadním stavu techniky např. Aggarwal C.C., Wolf J., Yu P.S. a Epalman, M.A., The S-Tree: An effícient index tree for multidimensional index trees, Symposium of Spatial Databases, 1997. Předložený způsob se však od dosavadního stavu techniky odlišuje nejméně jednou myšlenkou. V kroku 315 je způsob organizace údajů indexového uzlu jedinečný ve smyslu uložení hladin podpory a spolehlivosti pro každou hodnotu důsledkového atributu v každém uzlu struktury. Krok 320 představuje krok využití softwarového komprimačního algoritmu ke komprimaci indexových uzlů nižších hladin do jediného uzlu.
Obr. 4 (a) představuje detailní diagram postupu primárního vyhledávacího algoritmu, použitého za účelem vytvoření nesloučeného stromu pravidel z indexového stromu, znázorněného na obr. 2 (b) jako prvek WO. Algoritmus vyžaduje na vstupu zadání uživatelem definované hodnoty minimální spolehlivosti c, minimální podpory s a uživatelského dotazu, sestávajícího z dotazovaného pole Q a jedné nebo více pravostranných hodnot, Z1 = zl, Z2 = z2. Dotazované pole je pouze popisným údajem pro označení levostranné či předpokladové části uživatelského dotazu. Za účelem dalšího objasnění významu Dotazovaného pole popisuje následující příklad C, co je požadováno od přímého uživatele jako vstup podle předloženého způsobu.
Příklad C: Typický uživatelský dotaz
Uživatel specifikuje:
(1.) hodnotu minimální spolehlivosti [minSpolehlivost, c] (2.) hodnotu minimální podpory [MinPodpora, s]
Navíc musí uživatel zadat uživatelský dotaz (navržené pravidlo) v podobě dvojice (předpoklad/důsledek), položky (3.) a (4.).
(3.) Dotazované pole, „Q“ [předpoklad] (4.) Zl = zl, Z2 = z2, atd. [důsledek]
Položka (3.), Dotazované pole, je dále popsáno na následujících příkladech, obecně může sestávat z libovolné kombinace kvantitativních a kategorických atributů. Položka (4.), důsledkový atribut, může sestávat z jednoho či více kategorických atributů.
[Příklad 1]: Tento uživatelský dotaz sestává z podmínky předpokladu, dotazového pole o dvou rozměrech, Věk a Levák, a jednoduché kategorické podmínky důsledku, Nekuřák.
Dotazové pole
Věk [0 až 24], Levák => Nekuřák
-11 CZ 294171 B6 [Příklad 2]: Tento uživatelský dotaz sestává z podmínky předpokladu, dotazového pole o dvou rozměrech, Výška a Příjem a vícenásobné podmínky důsledku.
________Dotazové pole__________
Výška [5 až 7], Příjem [ 1 Ok až 40k] => vlastní domácnost, vlastní automobil [Příklad 3]: Tento uživatelský dotaz sestává z podmínky předpokladu, dotazového pole o jednom rozměru, Věk, a jednoduché kategorické podmínky důsledku.
Dotazové pole
Věk [10 až 43] => Nekuřák
Shora uvedený PŘIKLAD C popisuje v obecném smyslu, co zadává uživatel jako vstup pro popisovaný způsob. PŘÍKLAD D uvedený níže, poskytuje reprezentativní příklad, s použitím uživatelského dotazu ze shora uvedeného Příkladu 2, jak může vypadat vstup/výstup typického výsledku:
Příklad C: Typický uživatelský vstup
Uživatel specifikuje jako vstup:
1. MinSpolehlivost = .50
2. MinPodpora = .4
3. dotazové pole (podmínka předpokladu) = Výška [5 až 7],
Příjem [lOk až 40k]
4. zájmová podmínka důsledku = vlastní domácnost = 1, vlastní automobil = 1 uživatelský dotaz vytvořený z položek 3.a 4.:
Výška [5 až 7], Příjem [lOk až 40k] => vlastní domácnost, vlastní automobil
Výsledný výstup: vytvořené pravidlo
Výška [5.5 až 6.2], Příjem [ 13k až 27.4k] => vlastní domácnost = 1, vlastní automobil = 1
Obecně je možné, že na výstupu nejsou vytvořena žádná pravidla, může být vytvořeno jediné pravidlo nebo více pravidel. Jediné pravidlo bylo vytvořeno ve shora uvedeném příkladu. Vytvořené pravidlo splňuje uživatelský dotaz, (dvojici předpoklad/důsledek), při uživatelem dané hladině spolehlivosti a podpory 0,5 resp. 0,4.
Algoritmus pro vytvoření nesloučeného stromu pravidel z indexového stromu definovaný na obr. 4 (a), pokračuje prohledáním všech uzlů indexového stromu jednoho po druhém. Krok 400 je místem vstupu do primárního vyhledávacího algoritmu. Krok 410 představuje krok nastavení ukazatele, Aktuální Uzel, na kořenový uzel indexového stromu. Ukazatel Aktuální Uzel vždy ukazuje na konkrétní uzel indexového stromu, který je právě prohledáván. Krok 420 definuje SEZNAM jako množinu uzlů, které jsou považovány za vhodné k prohledání pomocí vyhledáva
-12CZ 294171 B6 čího algoritmu. SEZNAM je inicializován tak, že v kroku 420 obsahuje pouze kořenový uzel. Krok 430 reprezentuje krok přidání všech následujících uzlů uzlu označeného ukazatelem Aktuální uzel do SEZNAMU, které mají průnik Dotazovaným polem Q a mají podporu alespoň rovnu uživatelem dané vstupní hodnotě, MinPodpora, s. Následující uzel má průnik s Dotazovaným polem Q, pokud všechny podmínky předpokladu přiřazené tomuto následujícímu uzlu jsou zcela obsaženy uvnitř podmínky předpokladu definované Dotazovaným polem. Krok 440 je rozhodovacím krokem, který určuje, zda individuální datové záznamy obsažené v Aktuálním uzlu splňují podmínku důsledku, Z1 = zl a Z2 = z2 alespoň v c procentech případů. Pokud je podmínka kroku 440 splněna algoritmus pokračuje krokem 445. Krok 445 vytváří pravidlo odpovídající množině atributů na pravé straně, podmínce důsledku. Krok 450 následuje po krocích 440 a 445 a představuje krok smazání uzlu, dříve odkazovaného ukazatelem Aktuální uzel ze SEZNAMU a nastavení ukazatele Aktuální uzel na další uzel obsažený v SEZNAMU. Krok 460 určuje, zda SEZNAM je prázdný a ukončuje algoritmus v případě splnění podmínky, viz krok 470. Jinak se algoritmus vrací ke kroku 430 a opakuje kroky pro uzel aktuálně odkazovaný ukazatelem Aktuální uzel. Při ukončení algoritmu je na vytvořen nesloučený strom pravidel, sestávající ze všech uzlů, které splňují uživatelem danou minimální podporu, MinPodpora s.
Obr. 5 (a) představuje detailní diagram postupu, popisující postup vytvoření sloučeného stromu pravidel z nesloučeného stromu pravidel. Algoritmus popsaný v diagramu komprimuje nesloučený strom pravidel za účelem získání hierarchické reprezentace pravidel. Nesloučený strom pravidel je posunut v hloubce prvního vyhledávacího řádu, kde v každém uzlu je provedeno rozhodnutí, zda daný uzel je významný. Významný uzel je takový uzel, ke kterému je přiřazeno nějaké pravidlo. Pravidlo mohlo a nemuselo být uzlu přiřazeno při tvorbě nesloučeného stromu. Pro další objasnění rozdílu mezi významnými a nevýznamnými uzly se vraťme zpět k obr. 4(b), nesloučenému stromu pravidel, kde významné uzly představují uzly 1, 2 a 4. Všechny významné uzly jsou ve sloučeném stromu pravidel zachovány. Pokud je uzel označen jako nevýznamný, algoritmus buď tento uzel vyloučí, nebo sloučí více následujících uzlů do jediného uzlu, pokud jsou splněny určité podmínky.
Krok 500 je místem vstupu do algoritmu. Krok 510 představuje software pro implementaci kroku zjištění, zda nesloučený strom pravidel je posunut v hloubce prvního řádu. Krok 515 představuje krok pokračování k dalšímu uzlu v nesloučeném stromu pravidel v prvním posunu hloubky. Krok 520 představuje rozhodovací krok, určující, zda aktuální uzel pravidel je významným uzlem. Větvení ke kroku 530 je provedeno pro případ shledání aktuálního uzlu významným. Jinak se algoritmus větví ke kroku 540, čímž je uzel klasifikován jako nevýznamný. Krok 540 je rozhodovací krok, určující, zda nevýznamný uzel má následující uzel. Pokud nevýznamný uzel nemá následující uzel, je provedeno větvení ke kroku 550. Krok 550 je krokem smazání aktuálního nevýznamného uzlu. Jinak, pokud je v kroku 540 určeno, že aktuální uzel má následující uzel, je provedeno větvení ke kroku 560. Krok 560 ie rozhodovací krok za účelem zjištění, zda aktuální nevýznamný uzel má jeden nebo více než jeden následující uzel. Pokud aktuální uzel má pouze jeden následující uzel, je provedeno větvení ke kroku 570. Krok 570 představuje software pro implementaci kroku smazání aktuální uzlu a přímého propojení předcházejícího a následujícího uzlu smazaného nevýznamného uzlu dohromady v indexovém stromě. Jinak, v případě kdy aktuální uzel má více následujících uzlů, je provedeno větvení ke kroku 580. Krok 580 je rozhodovací krok, zjišťující, zda minimální opsaný pravoúhelník dvou následujících uzlů je větší než minimální opsaný pravoúhelník nevýznamného předcházejícího uzlu. Minimální opsaný pravoúhelník je definován horní a dolní mezí (rozsahem) kvantitativního atributu pro každý následující uzel. Pokud jsou rozsahy následujících uzlů kombinovány a shledány širšími než rozsah předcházejícího uzlu, dochází ke sloučení. Například, pokud následující uzly byly definovány jako:
následující uzel 1 - věk [10 až 20] následující uzel 2 - věk [30 až 40]
-13 CZ 294171 B6 a odpovídající předcházející uzel byl definován jako:
předcházející uzel - věk [10 až 30] pak v tomto případě dojde ke sloučení, jelikož kombinace rozsahů atributů následujících uzlů dává kombinovaný rozsah [10 až 40], který je širší než rozsah daný předcházejícím uzlem, [10 až 30].
Pokud minimální opsaný pravoúhelník dvou následujících uzlů přesáhne minimální popsaný pravoúhelník předcházejícího uzlu, vyskytne se větvení ke kroku 590. Krok 590 představuje software pro provedení kroku nastavení minimálního opsaného pravoúhelníku předcházejícího uzlu jako minimálního opsaného pravoúhelníku dvou následujících uzlů. Větvení k rozhodovacímu kroku 600, zda existují uzly k posunutí ve stromu. Větvení k ukončovacímu kroku 610 se uskuteční, pokud neexistují další uzly k posunu, jinak jsou kroky 490 až 515 opakovány pro zbývající indexové uzly.
Obr. 6 je detailní diagram postupu, popisující postup využití sloučeného stromu pravidel jako vstupu pro definování pravidel na uživatelem definované hladině zájmu r. Sloučený strom pravidel je posunut v hloubce prvního řádu. Krok 616 je místem vstupu do diagramu postupu. Uživatel specifikuje jako vstup hodnotu r, představující hladinu zájmu. Krok 618 představuje výběr textového uzlu ve sloučeného stromu pravidel v prvním řádu hloubky. Krok 620 je rozhodovacím krokem, představujícím prohlédnutí všech předcházejících uzlů aktuálního zájmového uzlu za účelem zjištění, zda libovolný z nich má hodnotu spolehlivosti alespoň rovnu hodnotě 1/r aktuálního uzlu. Větvení ke kroku 630 je provedeno v případě splnění podmínky. Krok 630 představuje zjednodušení pravidla přiřazeného aktuálního uzlu. Pokud podmínka není splněna, je provedeno větvení ke kroku 640. Krok 640 je rozhodovací krok, zajišťující, zda ve sloučeném stromě existují zbylé uzly určené k ohodnocení. Kroky postupu jsou opakovány, dokud existují další uzly určené k ohodnocení, jinak je postup v tomto bodě ukončen.
Shrneme-li předchozí skutečnosti, je možné vytvořit přímý způsob vyhledávání datových položek pro nalezení kvantitativních asociačních pravidel, kde datové položky zahrnují různé druhy kvantitativních a kategorických atributů.

Claims (14)

1. Způsob přímého vyhledávání v rozsáhlé databázi, obsahující množství záznamů, každý ze záznamů má množství kvantitativních a kategorických položek pro vytváření kvantitativních asociačních pravidel, zahrnující kroky:
a) přijetí uživatele definované hodnoty minimální spolehlivosti, uživatelem definované hodnoty minimální podpory a uživatelského dotazu obsahujícího předpokládané a důsledkové atributy vyjádřené pomocí zmíněných kvantitativních a/nebo kategorických položek;
b) organizace vztahu mezi předpokládanými atributy a důsledkovými atributy pomocí před-uložení předpokládaných dat hierarchicky do indexového stromu, obsahujícího množství indexových uzlů, přičemž indexový uzel obsahuje primární a sekundární hodnotu představující aktuální podporu a spolehlivost pro každý z důsledkových atributů uživatelského dotazu; a
c) odvození odpovědi ze zmíněných před-uložených dat jako odezvy na zmíněný uživatelský dotaz prohledáním všech indexových uzlů zmíněného indexového stromu za účelem izolování
-14CZ 294171 B6 těch uzlů, jejichž rozsah předpokládaných atributů odpovídá rozsahu pro předpokládané atributy dle uživatelského dotazu a které mají spolehlivost alespoň zmíněné uživatelem definované hodnotě minimální spolehlivosti a hodnotu podpory alespoň rovnu zmíněné uživatelem definované minimální hodnotě podpory.
2. Způsob podle nároku 1, vyznačuj ící se t í m , že zmíněná odpověď zahrnuje jedno nebo více kvantitativních asociačních pravidel, aktuální hodnotu spolehlivosti přiřazenou každému pravidlu a aktuální hodnotu podpory přiřazenou každému pravidlu.
3. Způsob podle alespoň jednoho z nároku 1 nebo 2, vyznačující se tím, že během zmíněného kroku přijetí je poskytnuta uživatelem definovaná hladina zájmu a zmíněná odpověď obsahuje hladinu zájmu přiřazenou každému pravidlu, přičemž jedno či více zmíněných kvantitar tivních asociačních pravidel sestává pouze z těch pravidel, jejichž vypočtená hladina zájmu je alespoň rovna zmíněné uživatelem definované hladině zájmu.
4. Způsob podle nároku 3, vyznačující se tím, že zmíněná hladina zájmu je definována jako minimum z vypočteného primárního a sekundárního poměru, kde zmíněný primární poměr je definován jako aktuální spolehlivost dělená očekávanou spolehlivostí a sekundární poměr je definován jako aktuální podpora dělená očekávanou podporou, kde zmíněná očekávaná spolehlivost a podpora jsou vypočtené hodnoty založené na předpokladu statistické nezávislosti.
5. Způsob podle alespoň jednoho z nároků 1 až 4, vyznačující se tím, že zmíněné předpokládané atributy sestávají z kategorických a kvantitativních atributů.
6. Způsob podle nároku 5, vyznačující se tím, že zmíněné kvantitativní atributy jsou dále definovány rozsahem daným dolní a horní mezí.
7. Způsob podle alespoň jednoho z nároků 1 až6, vyzn aču j í cí se tí m , že zmíněný krok odvození zahrnuje vytvoření sloučeného stromu vymazáním bezvýznamných uzlů a spojením ostatních uzlů, kde bezvýznamný uzel je uzel, který nemá odpovídající vypočtenou hodnotu spolehlivosti alespoň rovnu zmíněné uživatelem definované hodnotě minimální spolehlivosti.
8. Způsob podle nároku 7, vyznačující se tím, že sloučený strom může být vytvořen pro samostatný nebo pro více důsledkových atributů.
9. Způsob podle nároku 1, vy zn a č uj í c í se tím, že:
zmíněný krok přijetí zahrnuje vstup počítačových dat, obsahujících uživatelem definovanou hodnotu minimální podpory, uživatelem definovanou hodnotu zájmu a uživatelský dotaz obsahující podmínku předpokladu a důsledku, kde podmínka předpokladu a důsledku dále obsahují množství kvantitativních a kategorických atributů;
zmíněný organizační krok a krok před-uložení zahrnují vytvoření indexového stromu o jednom nebo více rozměrech v paměti, kde každý rozměr je definován jedním z kvantitativních atributů poskytnutých uživatelem, obsažených ve zmíněné podmínce předpokladu, zmíněný indexový strom sestávající z množství indexových uzlů, kde zmíněné indexové uzly sestávají z množství datových záznamů; a zmíněný krok odvození zahrnuje vytvoření nesloučeného stromu pravidel v paměti ze zmíněného indexového stromu a sloučeného stromu pravidel ze zmíněného nesloučeného stromu pravidel a vytvoření jednoho nebo více kvantitativních asociačních pravidel ze zmíněných indexových uzlů, které uspokojují zmíněný uživatelský dotaz a jejichž podpora je alespoň rovna zmíněné minimální podpoře a jejichž spolehlivost je alespoň rovna zmíněné minimální spolehlivosti;
-15 CZ 294171 B6 zmíněný způsob dále zahrnuje krok zobrazení výstupních dat uživateli, sestávajících ze: zmíněných kvantitativních asociačních pravidel z kroku vytvoření; hodnoty aktuální spolehlivosti přiřazené každému z vytvořených kvantitativních asociačních pravidel; hodnoty podpory přiřazené každému z vytvořených kvantitativních asociačních pravidel; a hodnoty hladiny zájmu přiřazené každému z vytvořených kvantitativních asociačních pravidel.
10. Způsob podle nároku 9, vyznačující se tím, že krok vytvoření jednoho nebo více kvantitativních asociačních pravidel je opakován tak, že zmíněný uživatelský dotaz je interaktivně modifikován pro další definování zmíněných asociačních pravidel.
11. Způsob podle alespoň jednoho z nároku 9 nebo 10, vy z n a č uj í c í se tím, že krok vytvoření indexového stromu zahrnuje kroky:
vytvoření binárního indexového stromu o jednom nebo více rozměrech, kde každý rozměr je definován jedním ze zmíněných uživatelem poskytnutých kvantitativních předpokládaných atributů; a uložení zmíněné hladiny podpory a hladiny spolehlivosti v každém indexovém uzlu.
12. Způsob podle alespoň jednoho z nároků 9až 11, vyznaču j ící se tí m, že krok vytvoření nesloučeného stromu pravidel zahrnuje kroky:
prohledání každého uzlu zmíněného indexového stromu; a výběr uzlů, obsahujících pravidla, která uspokojují uživatelem danou podmínku důsledku a mají spolehlivost alespoň rovnu zmíněné uživatelem dané minimální spolehlivosti a hodnotu podpory alespoň rovnu zmíněné uživatelem dané hodnotě minimální podpory.
13. Způsob podle nároku 12, vy z n a č uj í c í se t í m , že krok výběru uzlů, které obsahují pravidla uspokojující uživatelem definovanou podmínku důsledku, zahrnuje:
vytvoření ukazatele;
přiřazení zmíněného kořenového uzlu ve zmíněném indexovém stromu;
přidání zmíněného uzlu přiřazenému ke zmíněnému ukazateli do seznamu;
přidání všech následníků uzlu odkazovaného zmíněným ukazatelem, s předpokládaným atributem zcela obsaženým uvnitř parametrů zmíněného uživatelem definovaného předpokládaného atributu a s minimální hodnotou podpoiy alespoň rovnou zmíněné uživatelem zadané podpoře, do seznamu;
zjištění, zda datové záznamy uložené v uzlu odkazovaném zmíněným ukazatelem jsou alespoň rovny uživatelem specifikované podmínce důsledku a mají spolehlivost alespoň rovnu zmíněné uživatelem definované minimální spolehlivosti;
vytvoření kvantitativního asociačního pravidla přiřazeného zmíněným podmínkám důsledku;
smazání zmíněného uzlu ze zmíněného seznamu, pokud podmínky předchozího kroku nejsou splněny; zjištění, zda zmíněný seznam je prázdný; a ukončení, pokud zmíněný seznam je prázdný, jinak přiřazení zmíněného ukazatele dalšímu uzlu zmíněného indexového stromu a opakování shora uvedených kroků od zmíněného kroku přidání uzlu přiřazeného zmíněným ukazatelem do seznamu dále.
-16CZ 294171 B6
14. Způsob podle alespoň jednoho z nároků 9 až 13, vyznačující se tím, že krok vytvoření sloučeného stromu pravidel zahrnuje:
a) posun každého uzlu nesloučeného stromu pravidel do dalšího řádu;
b) zhodnocení každého posunutého uzlu pro zařazení či vyloučení z nesloučeného stromu pravidel pomocí:
i) zjištění, zda každá ze zmíněných hodnot uživatelem definovaného důsledkového atributu je větší než hodnota atributu důsledku uložená ve zmíněném uzlu;
ii) zachování zmíněného uzlu ve zmíněném sloučeném stromu pravidel, v případě splnění podmínky (i);
iii) smazání zmíněného uzlu ze zmíněného sloučeného stromu pravidel v případě nesplnění podmínky (i) a pokud zmíněný uzel nemá přiřazeny žádné následující uzly;
iv) smazání zmíněného uzlu ze zmíněného sloučeného stromu pravidel a přímé přiřazení předchozího uzlu a následujícího uzlu zmíněného smazaného uzlu při nesplnění podmínky (i) a pokud zmíněný uzel má jeden následující uzel; a
v) nastavení rozsahu zmíněného důsledkového atributu, pokud podmínka (i) není splněna;
kde zmíněný krok zhodnocení je opakován až do posunu všech uzlů do dalšího řádu.
CZ20001630A 1997-11-04 1998-09-29 Způsob přímého vyhledávání v rozsáhlé databázi CZ294171B6 (cs)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/964,064 US6092064A (en) 1997-11-04 1997-11-04 On-line mining of quantitative association rules

Publications (2)

Publication Number Publication Date
CZ20001630A3 CZ20001630A3 (en) 2001-05-16
CZ294171B6 true CZ294171B6 (cs) 2004-10-13

Family

ID=25508083

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ20001630A CZ294171B6 (cs) 1997-11-04 1998-09-29 Způsob přímého vyhledávání v rozsáhlé databázi

Country Status (15)

Country Link
US (1) US6092064A (cs)
EP (1) EP1034489B1 (cs)
JP (1) JP3575602B2 (cs)
KR (1) KR100382296B1 (cs)
CN (1) CN1138222C (cs)
AU (1) AU750629B2 (cs)
CA (1) CA2304646C (cs)
CZ (1) CZ294171B6 (cs)
DE (1) DE69809964T2 (cs)
ES (1) ES2184322T3 (cs)
HK (1) HK1033987A1 (cs)
HU (1) HUP0100161A3 (cs)
PL (1) PL340380A1 (cs)
TW (1) TW505868B (cs)
WO (1) WO1999023577A1 (cs)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684985A (en) * 1994-12-15 1997-11-04 Ufil Unified Data Technologies Ltd. Method and apparatus utilizing bond identifiers executed upon accessing of an endo-dynamic information node (EDIN)
JPH11328186A (ja) * 1997-11-11 1999-11-30 Mitsubishi Electric Corp 相関ルール生成方法および相関ルール生成装置
IL122850A0 (en) * 1998-01-05 1999-03-12 Wizsoft Pattern recognition using generalized association rules
US6185549B1 (en) * 1998-04-29 2001-02-06 Lucent Technologies Inc. Method for mining association rules in data
US6311179B1 (en) * 1998-10-30 2001-10-30 International Business Machines Corporation System and method of generating associations
US6278998B1 (en) * 1999-02-16 2001-08-21 Lucent Technologies, Inc. Data mining using cyclic association rules
AU769673C (en) * 1999-04-09 2006-12-14 Berkeley * Ieor Process for determining object level profitability
US6542878B1 (en) 1999-04-23 2003-04-01 Microsoft Corporation Determining whether a variable is numeric or non-numeric
US6529895B2 (en) 1999-04-23 2003-03-04 Microsoft Corporation Determining a distribution of a numeric variable
US6321225B1 (en) * 1999-04-23 2001-11-20 Microsoft Corporation Abstracting cooked variables from raw variables
US6405200B1 (en) 1999-04-23 2002-06-11 Microsoft Corporation Generating a model for raw variables from a model for cooked variables
KR100344530B1 (ko) * 1999-12-20 2002-07-24 한국과학기술원 시계열 데이터베이스에서 윈도우 구성의 이원성을 사용한 서브시퀀스 매칭방법
US6865582B2 (en) * 2000-01-03 2005-03-08 Bechtel Bwxt Idaho, Llc Systems and methods for knowledge discovery in spatial data
US7007020B1 (en) * 2000-03-10 2006-02-28 Hewlett-Packard Development Company, L.P. Distributed OLAP-based association rule generation method and system
KR20020018777A (ko) * 2000-09-04 2002-03-09 박대희 패턴 분류를 위한 점증적 갱신의 데이터 마이닝 방법
US6711577B1 (en) 2000-10-09 2004-03-23 Battelle Memorial Institute Data mining and visualization techniques
US7539677B1 (en) 2000-10-09 2009-05-26 Battelle Memorial Institute Sequential pattern data mining and visualization
US20020072941A1 (en) * 2000-12-07 2002-06-13 Ibm Corporation Method and apparatus for processing electronic records for physical transactions
US6757678B2 (en) 2001-04-12 2004-06-29 International Business Machines Corporation Generalized method and system of merging and pruning of data trees
JP4571404B2 (ja) * 2001-07-26 2010-10-27 インターナショナル・ビジネス・マシーンズ・コーポレーション データ処理方法、データ処理システムおよびプログラム
KR20030032096A (ko) * 2001-10-10 2003-04-26 이창환 데이터 마이닝 방법 및 컴퓨터로 판독가능한 기록 매체
KR100500329B1 (ko) * 2001-10-18 2005-07-11 주식회사 핸디소프트 워크플로우 마이닝 시스템 및 방법
US6714940B2 (en) 2001-11-15 2004-03-30 International Business Machines Corporation Systems, methods, and computer program products to rank and explain dimensions associated with exceptions in multidimensional data
KR100497212B1 (ko) * 2002-03-02 2005-06-23 (주)비엘시스템스 데이터 마이닝에서의 앙상블 기법에 적용되는 연관성 규칙생성 장치 및 그 방법
JP2005525630A (ja) * 2002-04-19 2005-08-25 コンピューター アソシエイツ シンク,インク. 推論サービスを提供するためのシステム及び方法
US7152056B2 (en) * 2002-04-19 2006-12-19 Dow Jones Reuters Business Interactive, Llc Apparatus and method for generating data useful in indexing and searching
US6920459B2 (en) * 2002-05-07 2005-07-19 Zycus Infotech Pvt Ltd. System and method for context based searching of electronic catalog database, aided with graphical feedback to the user
US6993534B2 (en) * 2002-05-08 2006-01-31 International Business Machines Corporation Data store for knowledge-based data mining system
US7010526B2 (en) 2002-05-08 2006-03-07 International Business Machines Corporation Knowledge-based data mining system
US8214391B2 (en) * 2002-05-08 2012-07-03 International Business Machines Corporation Knowledge-based data mining system
US6947929B2 (en) * 2002-05-10 2005-09-20 International Business Machines Corporation Systems, methods and computer program products to determine useful relationships and dimensions of a database
US7447687B2 (en) * 2002-05-10 2008-11-04 International Business Machines Corporation Methods to browse database query information
US7716167B2 (en) * 2002-12-18 2010-05-11 International Business Machines Corporation System and method for automatically building an OLAP model in a relational database
US7953694B2 (en) * 2003-01-13 2011-05-31 International Business Machines Corporation Method, system, and program for specifying multidimensional calculations for a relational OLAP engine
US7895191B2 (en) 2003-04-09 2011-02-22 International Business Machines Corporation Improving performance of database queries
US20040260680A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation Personalized indexing and searching for information in a distributed data processing system
US7289983B2 (en) * 2003-06-19 2007-10-30 International Business Machines Corporation Personalized indexing and searching for information in a distributed data processing system
US7426520B2 (en) * 2003-09-10 2008-09-16 Exeros, Inc. Method and apparatus for semantic discovery and mapping between data sources
US7958132B2 (en) * 2004-02-10 2011-06-07 Microsoft Corporation Voting based scheme for electronic document node reuse
US7707143B2 (en) * 2004-06-14 2010-04-27 International Business Machines Corporation Systems, methods, and computer program products that automatically discover metadata objects and generate multidimensional models
US20050283494A1 (en) * 2004-06-22 2005-12-22 International Business Machines Corporation Visualizing and manipulating multidimensional OLAP models graphically
US7480663B2 (en) * 2004-06-22 2009-01-20 International Business Machines Corporation Model based optimization with focus regions
US8924343B2 (en) 2005-03-23 2014-12-30 International Business Machines Coporation Method and system for using confidence factors in forming a system
KR100812378B1 (ko) * 2005-11-28 2008-03-11 이원석 지속적으로 발생되는 트랜잭션 데이터 집합인 데이터 스트림 환경에서 빈발항목집합 탐색을 위한 축약형 전위 트리를 이용한 빈발항목집합 탐색 방법
US20070250476A1 (en) * 2006-04-21 2007-10-25 Lockheed Martin Corporation Approximate nearest neighbor search in metric space
KR100799665B1 (ko) * 2007-04-10 2008-01-30 삼육대학교산학협력단 노인 복지 서비스를 위한 욕구 사정 예측 방법 및 상기방법을 수행하기 위한 시스템
US8401987B2 (en) * 2007-07-17 2013-03-19 International Business Machines Corporation Managing validation models and rules to apply to data sets
JP5228461B2 (ja) * 2007-12-05 2013-07-03 富士通株式会社 パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法
US9720971B2 (en) * 2008-06-30 2017-08-01 International Business Machines Corporation Discovering transformations applied to a source table to generate a target table
US20100030719A1 (en) * 2008-07-10 2010-02-04 Covey Todd M Methods and apparatus related to bioinformatics data analysis
US8185531B2 (en) * 2008-07-24 2012-05-22 Nahava Inc. Method and apparatus for partitioning high-dimension vectors for use in a massive index tree
US8290955B2 (en) * 2008-09-18 2012-10-16 International Business Machines Corporation Classification of data in a hierarchical data structure
US20110035444A1 (en) * 2009-08-06 2011-02-10 Timedright Inc. Relationship security in online social and professional networks and communities
CN101996102B (zh) * 2009-08-31 2013-07-17 中国移动通信集团公司 数据关联规则挖掘实现方法与系统
CN102117302B (zh) * 2009-12-31 2013-01-23 南京理工大学 传感器数据流复杂查询结果的数据起源跟踪方法
US8930303B2 (en) 2012-03-30 2015-01-06 International Business Machines Corporation Discovering pivot type relationships between database objects
JP6020031B2 (ja) 2012-10-19 2016-11-02 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
JP6003561B2 (ja) 2012-11-15 2016-10-05 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
JP5962471B2 (ja) 2012-11-30 2016-08-03 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
JP6136685B2 (ja) * 2013-07-16 2017-05-31 富士通株式会社 データ抽出方法及びデータ抽出プログラム
JP6102594B2 (ja) * 2013-07-16 2017-03-29 富士通株式会社 データ出力方法及びデータ出力プログラム
US9672495B2 (en) * 2014-12-23 2017-06-06 Sap Se Enhancing frequent itemset mining
US10671607B2 (en) * 2016-09-23 2020-06-02 Futurewei Technologies, Inc. Pipeline dependent tree query optimizer and scheduler
US20190191004A1 (en) * 2017-05-23 2019-06-20 Hitachi ,Ltd. System and method to reduce network traffic and load of host servers
CN107703383A (zh) * 2017-09-21 2018-02-16 国网上海市电力公司 一种信息采集系统故障诊断知识库的建立方法
CN112183823B (zh) * 2020-09-08 2023-12-05 国网江苏省电力有限公司营销服务中心 一种基于规则树的电能计量装置选型方法和系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664171A (en) * 1994-04-14 1997-09-02 International Business Machines Corporation System and method for query optimization using quantile values of a large unordered data set
US5819266A (en) * 1995-03-03 1998-10-06 International Business Machines Corporation System and method for mining sequential patterns in a large database
US5737550A (en) * 1995-03-28 1998-04-07 Advanced Micro Devices, Inc. Cache memory to processor bus interface and method thereof
US5794209A (en) * 1995-03-31 1998-08-11 International Business Machines Corporation System and method for quickly mining association rules in databases
US5615341A (en) * 1995-05-08 1997-03-25 International Business Machines Corporation System and method for mining generalized association rules in databases
JP2963033B2 (ja) * 1995-09-29 1999-10-12 株式会社野村総合研究所 サンプル分類支援装置
JPH09114669A (ja) * 1995-10-16 1997-05-02 Hitachi Ltd ルール生成方法
US5724573A (en) * 1995-12-22 1998-03-03 International Business Machines Corporation Method and system for mining quantitative association rules in large relational tables
JPH09251467A (ja) * 1996-03-15 1997-09-22 Mitsubishi Electric Corp データマイニングシステムおよびデータマイニング方法
JP3952518B2 (ja) * 1996-03-29 2007-08-01 株式会社日立製作所 多次元データ処理方法
GB9611403D0 (en) * 1996-05-31 1996-08-07 Northern Telecom Ltd Network data analysis method

Also Published As

Publication number Publication date
AU750629B2 (en) 2002-07-25
KR100382296B1 (ko) 2003-05-09
US6092064A (en) 2000-07-18
CZ20001630A3 (en) 2001-05-16
HUP0100161A3 (en) 2004-03-01
EP1034489A1 (en) 2000-09-13
HK1033987A1 (en) 2001-10-05
DE69809964D1 (de) 2003-01-16
CA2304646C (en) 2003-10-28
EP1034489B1 (en) 2002-12-04
HUP0100161A2 (hu) 2001-05-28
WO1999023577A1 (en) 1999-05-14
AU9272698A (en) 1999-05-24
CN1278345A (zh) 2000-12-27
CN1138222C (zh) 2004-02-11
ES2184322T3 (es) 2003-04-01
TW505868B (en) 2002-10-11
CA2304646A1 (en) 1999-05-14
JP2001522095A (ja) 2001-11-13
KR20010031687A (ko) 2001-04-16
DE69809964T2 (de) 2003-08-28
JP3575602B2 (ja) 2004-10-13
PL340380A1 (en) 2001-01-29

Similar Documents

Publication Publication Date Title
CZ294171B6 (cs) Způsob přímého vyhledávání v rozsáhlé databázi
US5943667A (en) Eliminating redundancy in generation of association rules for on-line mining
Hossain et al. Market basket analysis using apriori and FP growth algorithm
Brijs et al. Building an association rules framework to improve product assortment decisions
US6263327B1 (en) Finding collective baskets and inference rules for internet mining
Sagin et al. Determination of association rules with market basket analysis: application in the retail sector
US7818286B2 (en) Computer-implemented dimension engine
US20020124002A1 (en) Analysis of massive data accumulations using patient rule induction method and on-line analytical processing
Gurudath Market basket analysis & recommendation system using association rules
Adewole et al. Frequent pattern and association rule mining from inventory database using apriori algorithm
Melab Data mining: A key contribution to E-business
Kabir Data mining framework for generating sales decision making information using association rules
Martinez et al. Market basket analysis with association rules in the retail sector using Orange. Case Study: Appliances Sales Company
Rosliadewi et al. Analysis of transaction data for modeling the pattern of goods purchase supporting goods location
Janhavi et al. Sentiment Analysis of Customer Reviews on Laptop Products for Flipkart
Novian The Analysis of the Application of Customer Purchase Mining Data on Paint Sales Using Apriori Algorithm (Case Study: PT Indowarna Cemerlang Indonesia)
Sudirman et al. Using Association Rule to Analyze Hypermarket Customer Purchase Patterns
Putra et al. Implementation of Association Rules Algorithm to Identify Popular Topping Combinations in Orders
Khanzadeh et al. Utilizing association rules for improving the performance of collaborative filtering
Hosseini et al. Analysis of user behavior using hierarchical classification and fuzzy logic
Sreelakshmi et al. An optimized approach towards increasing the sale rate in a Grocery Mart by using Association Rule Mining Approaches
Gubbiotti Tailoring the Knowledge Data Discovery process to e-commerce reviews.= Tailoring the Knowledge Data Discovery process to e-commerce reviews.
Rana et al. A framework for identifying and evaluating technologies of interest for effective business strategy: Using text analytics to augment technology forecasting
El Mahjouby et al. Association rules forecasting for the foreign exchange market.
Patel Instacart Market Basket Analysis

Legal Events

Date Code Title Description
PD00 Pending as of 2000-06-30 in czech republic
MM4A Patent lapsed due to non-payment of fee

Effective date: 20060929