CZ20003776A3

CZ20003776A3 - Způsob rozpoznání zákaznického zneužití služeb provozovatele sítě pomocí online analýzy datových souborů, vztažených k zákazníkovi

Info

Publication number: CZ20003776A3
Application number: CZ20003776A
Authority: CZ
Inventors: Rolf Hager; Rudolf Mathar; Martin Hellebrandt; Reinhold Töx
Original assignee: Detemobil Deutsche Telekom Mobilnet Gmbh
Priority date: 1999-02-11
Filing date: 2000-02-11
Publication date: 2001-03-14
Also published as: AU2910500A; PL343458A1; EP1072165B1; CZ300962B6; RU2263408C2; ATE300159T1; DE19905884A1; WO2000048418A1; DE50010735D1; EP1072165A1; DE19905884B4; ES2246225T3

Description

ZPŮSOB ROZPOZNÁNÍ ZÁKAZNICKÉHO ZNEUŽITÍ SLUŽEB PROVOZOVATELE SÍTĚ POMOCÍ ONLINE ANALÝZY DATOVÝCH SOUBORŮ, VZTAŽENÝCH K ZÁKAZNÍKOVI

Oblast techniky

Vynález se týká způsobu podle úvodní části nároku 1, jakož zařízení pro zpracování dat k provádění způsobu.

Dosavadní stav techniky

Sice jsou již známy způsoby typu, uvedeného na začátku, tyto ale trpí nevýhodou, že pracují pomalu a nepřesně a relativně často vytvářejí nežádoucí chybný alarm.

Vynález má proto za úkol, vytvořit podstatně vyšší pravděpodobnost detekování zneužití vůči existujícím způsobům, přičemž se má dosáhnout menší pravděpodobnost chybného alarmu (falešně podezřelý normální zákazník) vzhledem k existujícím způsobům.

Podstata vynálezu

K řešení uvedeného úkolu slouží technická nauka, reprodukovaná v nároku 1. Další provedení a modifikace myšlenky vynálezu jsou předmětem vedlejších nároků.

V předloženém popisu vynálezu se datové soubory provozovatele mobilní sítě pro chování uživatele v mobilní radiotelefonní síti rozkládají na soubory pro čestné

1680666 (80666b)

PV 2000-3776

• · I • · ·*

Φ· i

φφφ ·« zákazníky a na soubory logicky a s pomocí stochastických modelů, rozpoznání podvodu se filtry, implementovanými pro zákazníky s podvodnými úmysly, výpočetní techniky na základě Způsoby k počítačově podporovanému vyvíjejí nad jednodimenzionálními do MEGS.

1. S pomoci analýzy hlavních komponent se nabízí grafický nástroj, se kterým se pomocí dvojdimenzionálních diagramů a příslušného zabarvení nechají lehce identifikovat data podvodníků. Toto se děje pomocí vizuální inspekce nebo automatického, vnitřního počítačového testu.

2. Na základě Fisherovy čiskriminantní analýzy se navrhuje automatický test, který simultánně identifikuje z vysoce dimenzionálních datových souborů takové, které patří podvodníkům.

Oba způsoby se při nepatrných nárocích na výpočet vyznačují malou pravděpodobností chyby 1. a 2. typu. Toto znamená vysokou pravděpodobnost detekování při nepatrném počtu chybných alarmů.

Způsob se v podstatě sestává z následujících kroků, které se, řízeny programem, provádějí v zařízení na zpracování dat:

1. Zjištění vstupních datových souborů z následujících složek:

1.1 kumulované datové soubory přes pevný časový interval, např. 30-ti denní datové soubory;

1.2 data jednotlivých spojení poslední doby, povolená z hlediska zákonné ochrany dat (t.č. 5 dní):

80666 (80666b)

PV 2000 - 3776 ,··· «·*» · » ·· * I · » t » · * · (I «.»* I « y τ * • · · · · » » * »» ·♦·· ·« ··« «· ··· cílové telefonní číslo, doba trvání hovoru, typ spojení atd.);

1.3 data, specifická pro zákazníka (stáří zákazníka v síti, typ platby atd.).

2. Akumulování vstupních znaků podle tříd (typ cílového telefonního čísla, počty hovorů, typy hovorů atd.): každý datový soubor z akumulovaných dat se znázorňuje vysoce dimenzionálním reálným vektorem.

3. Provádění analýzy hlavních komponent:

3.1 Provedení analýzy hlavních komponent na datových souborech již rozpoznaných podvodníků;

3.2 spektrální rozklad příslušné kovarianční matice;

3.3 určení relevantních hlavních komponent;

3.4 klasifikace hlavních komponent, relevantních pro podvodné chování.

4. Transformace hlavních komponent nedetekovaných datových souborů na základě spektrálního rozkladu kovarianční matice v kroku 3.

5. Znázornění (eventuálně komponent datových souborů a grafické) hlavních (eventuálně vizuální) diskriminace příp. podvodného chování.

6. Odhad a zjištění empirických kvantil hlavních komponent k řízení pravděpodobnosti chyb prvního a druhého typu při automatickém detekování a generování alarmu.

7. Fisherova diskriminantní analýza k určení dělicí nadroviny mezi datovými soubory identifikovaných

80666 (80666b)

PV 2000 - 3776

Í« * * Β V »V t »' »» • ♦ · f · · ·

Β · 4 · ϊ | · ♦ Β · ··· » Β » 4 « « ·· >444 44 444 «4 444 podvodníků a normálních zákazníků s grafickým znázorněním.

8. Odhad a zjištění empirických kvantil množství promítnutých dat k řízení pravděpodobností chyb 1. a 2. typu při automatickém detekování a generování alarmů.

Přednosti způsobu podle vynálezu jsou následující:

1. jednoduchá schopnost výpočtu za podmínek reálného času: nutné jsou pouze vektorové součty, násobení a maticová inverze;

2. způsob je nezávislý na architektuře počítače a protokolu;

3. způsob zahrnuje možnost automatického, vnitřního počítačového testu na podvodný úmysl s následným automatickým alarmem;

4. datové soubory, korespondující se zneužitím, se mohou za účelem detekování znázorňovat graficky: optická rozlišitelnost;

5. způsob se učí z minulých datových souborů, aktuální datové soubory se tak mohou lépe diskriminovat;

6. způsob je schopný adaptace na nové podvodné profily.

Definování problému

Cílem tohoto vynálezu je včasné rozpoznání podvodných úmyslů ze strany uživatelů mobilní radiotelefonní sítě. Tím se mají omezit finanční ztráty provozovatele. Přitom se pozorují nejenom případy úmyslného zneužití, nýbrž také takové, ve kterých je třeba předvídat, že účastník nebude

80666 (80666b)

PV 2000 - 3776

I *

«

• · · * • · « « '« · · · f • · ·· « · · s to, hradit své náklady na telefon. V této práci se dále mezi těmito dvěma rozdílnými aspekty nerozlišuje.

Chování účastníků a stanovení možného podvodného úmyslu se charakterizují s pomocí statistických metod a modelů. Za tímto účelem se používají datové soubory, které se evidují k vyúčtování hovorů ze strany provozovatele sítě. Přitom se jedná o data účastníků, jejíchž informace se vztahují na časový interval 80 dní. V těchto takzvaných 80-ti denních datových souborech se nacházejí informace o jednotlivých celkových denních obratech zákazníků, denní obraty při mezinárodních a roamingových spojeních, jakož i příslušnost účastníků k třídě, která zobrazuje jeho věk v síti, tedy dobu jeho příslušnosti k síti. K testovacím účelům byly vyšetřovány 80-ti denní datové soubory zákaznických segmentů 19 a 28, to znamená zákazníků, jejichž mobilní radiotelefonní číslo začíná 19 nebo 28.

K dispozici jsou dále data jednotlivých spojení zákazníků, ze kterých se nechají vyčíst příslušná cílová telefonní čísla, začátek, trvání a náklady hovoru, jakož i další informace, jako například buňka, ze které byl telefonát veden. Osobní data účastníka, jako jeho MSISDN číslo a cílové telefonní číslo, jsou přitom přirozeně z důvodu ochrany dat buď zakódována, nebo zkrácena. Data jednotlivých spojení se vztahují na účastnické segmenty 19, 28, 30 a 31 a vztahují se vždy na časový interval jednoho týdne. Segmenty 30 a 31 byly vyhledány speciálně, protože se jedná o již velmi dlouho existující zákaznické segmenty, které dobře zrcadlí chování účastníků bez podvodných úmyslů. Popsaná data účastníka, která jsou podkladem této práce, se dělí na informace, které patří zákazníkům bez podvodných úmyslů a na data od podvodníků, provozovatelem sítě již

80666 (80666b)

PV 2000 - 3776 * f 4 · « « · ♦ · 4 « « » ·« · ·· ·

• « «

• · · * 4 rozpoznaných a zablokovaných.

Za účelem analýzy chování účastníků s podvodným úmyslem nebo bez něho se v první části zprávy vyvíjejí statistické modely, s jejíchž pomocí se mohou vystihnout různé aspekty chování zákazníka, důležité pro rozpoznání podvodu.

Protože se chování zákazníků s podvodným úmyslem při hovoru znázorňuje jako příliš nehomogenní pro společné zpracování, klasifikují se takoví zákazníci podle znaků jejich hovoru. Pro každou takovou třídu se udávají možnosti k identifikaci. Třídění se přitom uskutečňuje podle chování, kterým se vyznačuje určitá skupina účastníků s podvodným úmyslem a kterým se signifikantně odlišuje od individuálního chování ostatních účastníků. Přitom se používají metody multivariantní statistiky a diskriminantní analýzy. Toto umožňuje, že se chování zákazníků s podvodnými úmysly přesně popisuje jenom s pomocí dvou znaků a podrobuje se testům, které spočívají na těchto znacích.

V poslední části výzkumů se hodnotí určité filtry ze systému rozpoznávání zneužití MEGS vzhledem k jejich kvalitě, to znamená jejich pravděpodobnosti chyby k rozpoznání podvodníků. Údaje se přitom vztahují na empirická data daná k dispozici, která se shromažďovala systémem MEGS.

Tvorba modelu

K vyšetřování chování účastníků s podvodným úmyslem nebo bez něho se určují charakteristické veličiny rozdělení denního obratu. Následovně se zkoumají příslušnosti k třídám

80666 (80666b)

PV 2000 - 3776 ·* ···· t* *·« φ* ·»· v základních zákaznických segmentech 19 a 28 na jejich využitelnost. Dále se určují empirické rozdělovači funkce a hustoty čítání, potřebné k pozdější analýze filtrů MEGS.

Rozdělení denních obratů

Denní obraty v obou pozorovaných skupinách účastníků se považují za realizace nekorelovaných náhodných proměnných X_epro normální zákazníky a Xb pro podvodníky. Důležité charakteristické znaky obou rozdělení jsou dány empirickou střední hodnotou a empirickým rozptylem pozorování. Seznam zjištěných veličin se nachází v následující tabulce.

	normální zákazníci	podvodníci
očekávaná hodnota	205.88	11738.1
rozptyl	378174	8.95e+08

Pro segmenty 19 a 28 existují 80-ti denní datové soubory, ze kterých se ještě jednou počítají empirické střední hodnoty denních celkových obratů pro oba segmenty. Přitom se narozdíl od výše uvedeného výpočtu hodnot z dat jednotlivých spojení také zohledňuje, zda účastník vůbec telefonuje ve stejný den. V následující tabulce jsou uvedeny příslušné hodnoty a počty pozorování.

	segment 19...	Segment 28...
očekávaná hodnota	0.22539	1.3335
počet pozorování	512703	5876000

Nápadný rozdíl v odhadech parametrů mezi segmenty 19 a se nechá vysvětlit tím, že se u segmentu 19 jedná o zcela nový zákaznický segment, ve kterém existuje první použití

Θ0666 (80666b)

PV 2000 - 3776 » · • 4 ···· • · «· * teprve k časovému okamžiku 11. července 1998. Dále se nechá poznamenat, že mnoho nových účastníků tohoto segmentu nově přibylo teprve po 11. červenci. Tak dostaneme empirickou střední hodnotu prvního použití v jednotce MEGS v segmentu 19 takto:

empirická střední hodnota X (první použití)	1269.33
počet pozorování (=účastník v segmentu 19)	18989

Tím se nechá vysvětlit rozdíl segmentů 19 a 28 ohledně jejich empirických středních hodnot, protože mnoho uživatelů segmentu 19 přichází do úvahy jako uživatelé teprve k relativně dlouhému časovému intervalu, tzn. ve dnech před jejich vstupem do sítě je jejich celkový denní obrat od 11. července roven 0, což má samozřejmě rychle vliv na empirickou střední hodnotu.

Příslušnost k třídám

K dalšímu vyšetření chování normálních zákazníků se nyní pozoruje příslušnost účastníka k třídám. Podle stáří zákazníka jsou účastníkovi provozovatelem sítě přiřazeny třídy A, B, C, D a E, které tvoří dobrý základ pro posuzování platební morálky účastníků.

Na základě nedostatečné databáze se tento znak k charakterizování chování účastníků ale dosud nenechal přesně vyšetřit, protože segment 19 obsahuje velmi mladé zákazníky (ve smyslu stáří v síti) a v důsledku toho jsou téměř všichni zákazníci zařazeni do třídy A. Podobně pro segment 28. Zde je zařazen převažující podíl zákazníků již do tříd C a D, takže s tímto datovým souborem není možné učinit žádné přesné výpovědi. Další segmenty nejsou při

80666 (80666b)

PV 2000 - 3776

* « * *	* »	• t	« r	« «
« « ·	» *		♦ · ·
• * *	•	•
·* ····		« · «		α *

dosavadních vyšetřováních k dispozici, čímž se přesné pozorování rozdělení příslušnosti k třídám nemůže uskutečnit bez dodatečných dat. Četnosti příslušností k třídám v segmentech 19 a 28 jsou uvedeny v následující tabulce a mají objasnit výše uvedené vývody.

třída	segment 19...	segment 28...
neklasifikováno	909	77
třída A	18078	6234
třída B	1	6933
třída C	1	13419
třída D	0	46784
třída E	0	3

Charakterizování chování účastníka na základě dat jednotlivého spojení

Po vyšetření 80-ti denních dat se existující data o spojení jednotlivých hovorů zahrnují do pozorování, protože se v těchto datových souborech nechají najít dodatečné informace o chování zákazníka. Zejména se zpracovávají marginální rozložení, potřebná k analýze filtrů MEGS.

K popisu chování účastníka jsou zde především data o zvoleném cílovém telefonním čísle zákazníka, doba trvání hovoru uskutečněného volání a počet volání během dne, jakož i rozdělení obratů zvláštního významu, protože ukazují velmi dobře rozdílné aspekty chování zákazníka. K těmto třem znakům byly zhotoveny stochastické modely a rozdělovači předpoklady.

První vyšetření v tomto rámci platí pro rozdělení doby

1680666 (80666b)

PV 2000 - 3776 • · φφφφ • φ» trvání hovoru jednotlivých spojení. Na doby trvání hovoru se nahlíží jako na realizace kontinuální náhodné proměnné D, ačkoliv v datových souborech existují jako diskrétní hodnoty. Grafické znázornění relativních četností dob trvání hovorů je znázorněno na obrázcích 12 a 13.

Jako další se uskutečňuje sestavení modelu k rozdělení cílových telefonních čísel účastníků. Cíl, který zákazník zvolí, se opět považuje za náhodný. Popisuje se pomocí diskrétní proměnné Z, jejíž profil se dále bude vysvětlovat podrobněj i.

Oblast cílových telefonních čísel se na základě velkého počtu možností dělí do různých kategorií, které potom slouží jako body profilu Z. Toto rozdělení je s několika vysvětlivkami shrnuto v tabulce 1.

Předvolby	Popis
0177/0171/0172	předvolby německých poskytovatelů služeb mobilní radiotelefonie
0130/0180/0190	německá čísla předvoleb se speciálními tarify
2.../3883	čísla služeb (Service) provozovatele sítě (např. T-Box)
ostatní	všechny ještě nezachycené německé
národní předvolby	předvolby
roaming	spojení s ostatními mobilními radiotelefonními sítěmi (bez mezinárodního roamingu, žádné oznámení cíle)
MTC	MTC-spojení, žádné oznámení cíle (také call

80666 (80666b)

PV 2000 - 3776 • * · · · · » <· * · · » · · · « · ···· · ··· ·· «*ι

	forward, International, roaming)
faxové spojení	national, International, roaming
mezinárodní předvolby	celkový počet všech mezinárodních spojení a rozdělení podle jednotlivých států (také mezinárodní roaming)

Tabulka 1: kategorie cílových telefonních čísel

Přitom je třeba dbát na to, že se z dat jednotlivých spojení požadují nejenom informace o cílových telefonních číslech, nýbrž dodatečně také ještě takzvaný „Calltype, který udává, zda se jedná o národní, mezinárodní nebo roamingový hovor a který vykazuje mobile terminated calls (MTC).

Volba bodů profilu se uskutečňuje zejména podle hlediska nabíhajících nákladů na jeden hovor. Toto se týká zejména zvláštních čísel 0130 a 0180 a servisních čísel 2... a

3..., jejichž tarify jsou ve spolkové republice jednotné. Stejný argument platí také pro různé poskytovatele mobilní radiotelefonie v Německu, kteří se berou jako jedna kategorie. Tarify rozdílných spojení 0190 se sice liší mezi sebou, ale všechna spojení tohoto typu se shrnují v jedné skupině, aby se počet bodů profilu vzhledem k dalším pozorováním příliš nezvětšil. Rozdělení na roamingové, mezinárodní hovory a MTC se sice nevyznačují jednotnými náklady, odlišují se ale na základě své tarifní struktury od dosud uvedených kategorií. Aby se nechalo dosáhnout všech cílů, pozorují se dodatečně faxová volání, protože se zde nejedná o hovory, ale o přenos dat. Kategorie ostatních národních cílových telefonních čísel nemá žádnou jednotnou strukturu nákladů. Přesto se tato cílová telefonní čísla musí také zachytit, abychom obdrželi úplné vyhodnocení. Na

80666 (80666b)

RV 2000 - 3776 ··♦* * · ·· «-«» * · · · * · « • * I ««* «t* ·· *··· «· »·♦ ·· «·· základě rozmanitosti národních čísel předvoleb a jejich tarifních struktur se zde nemůže dále rozdělovat do skupin. Profil T_z náhodné proměnné se tak nechá znázornit jako

T_z = {'01770171','0172013001800190 ', ¹ Service', 'national','roaming','MTC','Fax','International', } = : {ti, t₂, ti2l

Ξ pomocí dat jednotlivých hovorů ze segmentů 19, 28, 30 a 31 se nyní určuje empirické rozdělení náhodných proměnných Ž. Výčet vypočítaných relativních četností se nachází v obrázcích 4-11. Aby se nalezl ještě přesnější obraz rozdělení cílových telefonních čísel, dělí se bod profilu ti? = 'International' ještě jednou podle různých mezinárodních předvoleb. Dostaneme tedy rozšířený model, který se popisuje pomocí náhodné proměnné Z s profilem

T_ž - {ti,..., tu, iiz Í2/-/ Í225} ti, i=l,..., 11 jsou přitom definovány přesně jako nahoře, a body profilu i_k, k=l,..., 225 jsou pro velikost podle 225 různých mezinárodních čísel předvoleb, uspořádaných sestupně.

Také zde je opět empirické rozdělení Ž obsaženo v tabulkách 12-18.

Poté, co bylo popsáno rozdělení cílových telefonních čísel s pomocí právě popsaného modelu a náhodné proměnné Z, nechají se spolu s modelem rozdělení doby hovoru udat některá marginální rozložení, která vyjadřují pravděpodobnosti tvaru

60666(80666b)

PV 2000 - 3776

9 9 9 · 9 «9 • 99 · 9 « 99· ·« 9··· 99 «99 99 ···

I P(D = χ|β = ti), ί=1, ..., 12 a jejich empirické očekávané hodnoty a rozptyly jsou shrnuty v tabulkách 12-18. Tyto informace se budou používat později, aby se analyzovaly filtry MEGS.

Z diagramů relativních četností počtů volání se nechá odečíst, že N postačuje diskrétnímu rozdělení, jehož hustota čítání má přibližně následující tvar:

a (k + b)^c, pro k e N

Parametry a, b a c se nechají vypočítat odhadem z existujících dat. Na základě tvaru hustoty čítání ostatně není nutně dána jejich čítatelnost. Obrázek 25 ukazuje relativní četnosti počtů volání u normálních zákazníků a aproximaci empirických hodnot pomocí funkce t(x)=113,5* (4.34 + x) *³·⁴².

Parametry t (x) se pro toto zobrazení počítaly numericky. Na základě menšího počtu pozorování ukazují grafy počty volání u známých podvodníků velký rozptyl než u zákazníků bez podvodného úmyslu. Příslušné zobrazení se nachází v obrázku 21.

Jak bylo již zmíněno u rozdělení doby trvání hovoru, jsou také u rozdělení počtu volání na den a u rozdělení obratu znázorněna příslušná společná rozdělení pomocí empirické střední hodnoty a empirického rozptylu na obrázcích 12 až 18.

80666 (80666b)

PV 2000 - 3776

• » « ·	« v v«	• “ · ----
• · ·	• « ·	• · i
• « « « * ·	···	«« ···

Stochastická závislost cílových telefonních čísel

Aby se mohly analyzovat filtry systému MEGS, použité provozovatelem sítě, jsou nutné dodatečné informace k rozdělení cílových telefonních čísel.

Tak jsou některé filtry dimenzovány na zachytily ty účastníky, kteří v jednom dni telefonují do pravděpodobnosti to, aby vícekrát určité světové zóny. Empirické převážného telefonování do jedné ze světových zón se u výše popsaného modelu mohou odečítat z obrázků. Pokud by jevy, že hovor spadá do jedné z popsaných kategorii, byly stochasticky nezávislé, mohla by se pravděpodobnost pro to, že se v jednom dni k-krát telefonuje do určité cílové třídy, vyjádřit k-násobným součinem empirických pravděpodobností příslušných tříd u rozdělení Z popř. Ž.

Jak jsme se již domnívali, kategorie cílových telefonních čísel ale nejsou stochasticky nezávislé. To se ukazuje, tím, že párově stochastickou nezávislost dvou tříd vyvracíme s pomocí testu, založeném na kontingenčních tabulkách.

V dalším se mají pozorovat náhodné proměnné X a Y s nominálním vyjádřením, přičemž X udává kategorii posledního zavolání a Y kategorii příštího hovoru. Mají tedy oba z profilů T=T_Z\{'MTC'}. Pod nominálním vyjádřením se přitom rozumí hodnoty, které nepodléhají žádnému marginálnímu rozložení a nejsou srovnatelné, jako třeba body profilu '0171', '180', Ό190’ .

Ke znázornění, nominálních náhodných proměnných a jejich

80666 (80666b)

PV 2000 - 3776 * · · 9 * * · · ♦ ·· · · · 9 9 9 9 9 9 • 9 9 9 9 9 9 9 9

9999 «· ··· ·« ··<

vyšetřování se používá koncept kontingenčních tabulek. K tomu mají X I a Y J nominální vyjádření. Existuje tedy M=I*J možných kombinací k popsání vztahu mezi X a Y. Pozorování (X,Y) páru znaků mají pravděpodobnostní rozdělení, které se znázorňuje v tabulce s I řádky a J sloupci. Buňky tabulky reprezentují I*J možných výsledků. Jejich pravděpodobnosti se označují pij, přičemž pij udává pravděpodobnost, že pozorování spadá do buňky (i, j). Pokud jsou v buňkách četnosti páru znaků, hovoří se o (I x J} kontingenční tabulce.

Pravděpodobnostní rozdělení p^j je společným rozdělením X a Y. Marginální rozložení, které dostáváme jako řádkové popř. sloupcové součty přes pij, se označují pomocí

Pí. = Σ Píí ^a Pj = Σ Pii i i

Obecně se přitom musí ještě splnit následující vedlejší podmínka:

Σ Pí. - Σ p.í = Σ Σ Pí? -¹ i j i j

Aby se mohla testovat nezávislost, kontroluje se hypotéza

	H_o : Pij = Pí. * p.j	popr. m_Xj -	n
přičemž	n je celkový počet	všech pozorování	a míj	, mi., m.j
udáváj í	příslušné očekávané	četnosti, míj se	může	vypočítat

z pozorovaných četností pomocí odhadu Maximum-Likelihood

30666 (80666b)

PV 2000 - 3776 • * · » · · · * · • V ·««« ·· ··· M ···

Hypotéza H_o se odmítá k úrovni a, když hodnota statistiky testu ^{1 J} (n

ΣΣ — i=l i=l

- ^ij)² m_; je větší než (1-a) kvantilu příslušného χ² rozdělení s (1-1)*(J-l) stupňů volnosti.

S pomocí tohoto testu se může pro každou běžnou a úroveň odmítnout hypotéza párově stochasticky nezávislých kategorií cílových telefonních čísel při zavolání v jednom dni.

Plánované vyšetření dat jednotlivých spojení

U vyšetřování chování účastníků s a nebo bez podvodného úmyslu je zvláště zajímavá, jak již bylo zmíněno výše, příslušnost zákazníka k třídě, která dokumentuje jeho platební morálku. Toto rozdělení, provedené provozovatelem sítě, bohužel není k dispozici jako informace v datech jednotlivých spojení, takže pro segmenty 30 a 31 se ohledně toho nemohla provést žádná vyšetření. Rozdělení do tříd jsou k dispozici jenom v 80-ti denních datových souborech, tedy pro segmenty 19 a 28. Segment 19 se ovšem nehodí, z důvodů uvedených na . úvod, pro vyšetřování tohoto znaku chování. Použití těchto informací je možné teprve tehdy, když je k dispozici dostatečně mnoho dat. Proto se k pozorování tohoto znaku chování vyžaduje příslušnost ke třídě spolu s daty jednotlivého spojení, abychom dostali jisté výsledky.

80666 (80666b)

PV 2000 - 3776 φ* *··« ·· φφφ

Dále je plánováno vyšetřování buněk, ze kterých vedou zákazníci své telefonické hovory. Má se zjistit, zda existují buňky, tedy geografické oblasti, se zvláště vysokými počty podvodů. Také k tomu ovšem není existující databáze poznaných podvodníků postačující, abychom získali jisté výsledky.

Zákazníci s podvodným úmyslem

Nyní se má chování podvodníků analyzovat a matematicky popisovat. Informační bázi pro následující pozorování tvoří data již poznaných podvodníků z různých segmentů, daná k dispozici provozovatelem sítě.

Denní obraty 80-ti denních dat

Z předložených dat podvodníků k 80-ti denním datovým souborům není možné, dělat výpověď o rozdělení pro denní obrat u účastníků s podvodným úmyslem, protože k informacím zákazníků 18989 popř. 73450 segmentu 19 popř. 28 existují celkem jenom data o 8 popř. 4 podvodnících příslušných skupin účastníků. Mimoto byli 3 z těchto 12 zákazníků pomocí doplňkových informací, které nejsou k dispozici, rozpoznáni jako podvodníci, protože jejich celkové obraty činí v pozorovaných 8 0 dnech jenom 1 až 6 DM, čímž pro odhad rozdělení přichází do úvahy jenom 8 pozorování.

Chování podvodníků na základě dat jednotlivých spojení

K charakterizování chování podvodníků existují data jednotlivých spojení 57 podvodníků, již rozpoznaných provozovatelem sítě. Bohužel se jedná přitom jenom o

80666 (80666b)

PV 2000 - 3776

--- -- -• · 4 4 4 « « • 4 4444 44 444 4* 4*4 informace z 3708 jednotlivých hovorů, což je oproti více než miliónu datových souborů k normálnímu chování zákazníků velmi malé číslo. Na základě malého počtu pozorování nebude stále možné, pro všechny aspekty chování podvodníků verifikovat rozdělení pravděpodobnosti. Odhad prvního a druhého momentu ale zůstává možný a účelný.

Klasifikace rozpoznaných podvodníků

Na základě existujících informací o podvodnících, již rozpoznaných provozovatelem sítě, se v dalším provádí rozdělení účastníků s podvodnými úmysly do tříd. Tím se má od sebe oddělit chování určitých skupin podvodníků, aby se takto mohly uvést ostré testy k jejich rozpoznání.

Jako motivace k tomu může sloužit srovnání celkového denního obratu a denního obratu na číslech 190 z obrázku 26. Je možno zřetelně rozeznat, že množství bodů se rozpadá do dvou tříd, totiž za prvé na body podél hlavní diagonály pro zákazníky, jejichž celkový obrat se skládá z hovorů na číslech 190. Za druhé odpovídají body podél osy x datovým souborům s jenom nepatrným obratem na číslech 190.

Ke klasifikaci zákazníků s podvodným úmyslem provádíme analýzu hlavních komponent odhadnuté kovarianční matice R_b. Podkladem je datový soubor na den a účastníka, sestávající ze 30 znaků. Pozorují se denní obraty, počet hovorů na den a denní doby trvání hovorů. Každý z těchto tří hlavních znaků se dělí na deset již jmenovaných kategorií cílových telefonních čísel. Uvnitř datového souboru se vždy používají v pořadí čísel 171-, 172-, 177-, 180-, 190-, mezinárodní hovor, ostatní národní spojení, roaming, služby (service) a MTC volání pro hlavní znaky. K tomu označuje yi £ R³⁰, i=l,

80666 (80666b)

PV 2000 - 3776

9114113 • «· * • · · ··» * « · ®· ··«« ·· »«· »· ···

..., η, vektor se znaky denního datového souboru zákazníka s podvodným úmyslem a n jejich počet. Dále budiž ⁿ y = - Σ Vi n JTi odhadnutá očekávaná hodnota. Potom použijeme odhadu MaximumLikelihood kovarianční matice y_t-y y_t-y

Nyní představíme matici R_b jako

R_h = TAT^r s ortogonální maticí T a diagonální maticí Λ, která jako diagonální zápisy obsahuje ty o velikosti podle vzestupně uspořádaných vlastních hodnot

Přitom dostaneme aj. . ., σ²ΪΟ = (8e + 08, 2e + 08, 7e + OS, 3e + 06, 2e + 06, le + 06, le + 05, 6e + 04, 4e + 04, le + 04, le + 04, 4406, 2434, 480, 308, 147, 115, 115, 35.3, 19.4, 7.3, 1.8, 1.1, 0.6, 0.3, 0.1, 0.02, 0.01,

0.002) .

Podíl celkové variability, popsaný pomocí prvních obou hlavních komponent, leží očividně při

80666 (60666b)

PV 2000 - 3776 ;υκι crčena strana • 4 · « · 4 ··· 44 444 σ, + σ:

+ ^σ3ο

98.6% .

To znamená, že transformované datové soubory

Yi = (y_iřl' · · Yi30) = rfc - y), í = 1, leží až na zanedbatelně malou chybu v dvojdimenzionálním podprostoru, který je napnut pomocí prvních dvou jednotkových vektorů. Dále má j-tá hlavní komponenta ý_bj očekávanou hodnotu 0, rozptyl <s\ a různé hlavní komponenty jsou nekorelované.

Vlastní vektory ti matice jsou sloupci ortogonální transformační matice T, to znamená

T = (t_lř t₃₀) .

Kvůli, v absolutní hodnotě největším, záznamům prvního a druhého vektoru se nechají diskriminovat podvodníci, tím že se na kategorie, patřící k těmto komponentám, hledí jako na klasifikující znaky pro podvodné chování. Podle vlastních vektorů, patřících k σ³ a σί, dostaneme rozdělení účastníků s podvodným úmyslem na takové zákazníky, jejichž zneužití se vyznačuje čísly 0190 nebo zahraničními hovory. Na obrázku 27 je skupina podvodníků 0190 znázorněna první hlavní komponentou, která probíhá ve směru osy x. Ostatní podvodníci, kteří jsou nápadní zahraničními hovory, se nechají rozpoznat pomocí druhé hlavní komponenty ve směru osy y.

Testy k rozpoznání podvodníků

80666 (80666b)

PV 2000 - 3776

I · »τφ - • · «φ·· φφφ φ · » φφφ φφφ φφ φφφφ φφ φφφ φφ «φφ

Po diskriminování podvodníků, rozpoznaných již provozovatelem sítě pomocí analýzy hlavních komponent, se nyní udávají statistické způsoby testování k rozpoznání podvodníků. K tomu se nahlíží na pozorování chování účastníků bez podvodného úmyslu jako na náhodné a označuje se náhodnými proměnnými X ~ {μ, R_e), jejichž rozložení má očekávanou hodnotu μ a rozptyl R_e. Matice R_e se dále rozkládá na

Re = SOS', přičemž S = (Si ..., s₃₀) je ortogonální matice.

Θ = diag(&², .. .$₃₀) s . > θ_3ύ označuje diagonální matici uspořádaných vlastních hodnot R_e, jejichž odhady jsou dány pomocí θ²,..., θ²30 = (2e + 05, 7e + 04, 7e+04, 6e+04, 2e+04,

2e+O4,le+04, le+04, 7226, 6757,

4732, 2922, 1099, 983, 646, 440, 322, 293, 162, 4.4 3.9, 1.7, 0.8, 0.4, 0.4, 0.3, 0.2, 0.16, 0.01,

0.002) .

S pomocí ortogonální matice T z transformace hlavních komponent z R_b tvoříme

X = Τ’ (χ - μ), z čehož s linearitou očekávané hodnoty vyplývá e[x] =0 a e[xX'] = Τ'R_eT . Pří použití vlastních vektorů ti, t₃ k oběma

80666 (80666b)

PV 2000 - 3776 ovcím strana • · » » · ·»· ·· ···· »· ·· ·· ·*· větším vlastním hodnotám kovarianční matice R_b podvodníků z předchozího úseku vyplývá

E[t(x]=0 a Varfcit) = £ i = l popřípadě

E[t₂'x] = 0 a Var(tíx) = £ i = l ti,i a t_2ji označují přitom i-tou komponentu vektoru ti popř. t₂. Zejména platí Var(tíx) =< S²Vi = 1,...,30. Dále je střední hodnota datových souborů Yi při výše uvedené transformaci q m — = Σ^T' (ví - μ) = τ' (ϋ - μ) m ti a rozptyly souhlasí s hodnotami íL, θ²0 z Λ.

Protože hodnoty μ a R_e nejsou známy, odhadují se z existujících n pozorování Xi s pomocí odhadu MaximumLikelihood μ = X, a R. = - £ (X_k - XfX. - X) n _i=1

Použitelnost rozkladu odhadnuté kovarianční matice na transformaci hlavních komponent je zajištěna.

Výsledky vyšetřování podvodníků z posledního odstavce jsou nyní shrnuty spolu s právě provedenou transformací

80666 (80666b)

PV 2000 - 3776 i : «jevena sirana • * * · · · · · · ·

	« · · «* ····	• * ··	• · · · «·· ···
hlavních	komponent	dat normálních	zákazníků	na	obrázku 21.
V tomto	obrázku se	nechá dobře	rozpoznat	zřetelně menší
rozptyl	hlavních	komponent u	normálních	zákazníků

Var^-X) < = 2 * 10⁵ na rozdíl od 9*’ > 2 * 10⁹, který spolu s posuvem očekávaných hodnot pro zákazníky s podvodným úmyslem ve směru větších hlavních komponent umožňuje použití testu na útlum.

Za účelem uvedení testu k rozpoznání podvodu se vždy pozorují obě hlavní komponenty odděleně, to znamená že se vyvíjí speciální test pro 190 a pro zahraniční podvodníky. Nejdříve se odhaduje empirický (1-oí) kvantil QÍ__a, 1=1, 2 pro obě hlavní komponenty. Používá se k tomu n stanovených pozorování

V¹ Y¹ Y¹ ^Λ1:η' ^Λ2:η' · · · ' ^Λη:π

Následovně se určuje to číslo k, pro které platí ίη(Ι-α)

-Ϊ

Ln [ (1-Of) +1] pokud n(l-a) je celočíselné pro ostatní

Potom je kvantil = XJ._n. Pro speciálně existující data vyplývají pro α = 0.005 kvantily Q^_a = -0.0035 a,

QÍ__a = 14.1089.

S pomocí empirických kvantilů se muže nyní uspořádat test na podvodný úmysl pomocí transformace hlavních komponent dat účastníka jednoho dne. Pokud leží hodnota transformace dat zákazníka nad jedním z obou vypočítaných kvantilů Q^_a, předpokládá se, že se jedná o podvodníka.

80666 (80666b)

PV 2000 - 3776

□praveny strana ♦ * · · v·· *♦ ♦*·

Parametr a přitom udává pravděpodobnost chyby pro to, že zákazník bez podvodného úmyslu se nesprávně rozpozná jako podvodník. Tento omyl je přirozeně třeba udržovat co nejmenší. K použití testu není nutné, pokaždé znovu počítat kvantity Q^__a, nýbrž stačí periodický nový výpočet těchto hodnot. Vedle tohoto testu ještě existuje možnost, najít podle grafického znázornění transformace hlavních komponent ty účastníky, jejichž hodnoty se nenacházejí na vypočítaných transformačních osách a kteří tak jsou nápadní svým chováním, protože podvádějí kombinací volání 0190 a zahraničních hovorů. Příslušná data zákazníků se mohou potom manuálně překontrolovat ohledně podvodného úmyslu, protože právě popsaným testem nejsou odfiltrováni jako podvodníci (příklady k tomu je možno rozpoznat na obrázku 21).

Dosud popisovaný postup transformace hlavních komponent a následného testu podvodníků se nechá použít nejenom na denní datové soubory účastníků, nýbrž data, která jsou základem, se mohou sbírat po libovolný časový interval a vyhodnotit. Tím dostáváme možnost, automaticky zkoumat chování účastníků přes různé časové intervaly.

Nápadnost účastníků byla dosud měřena jenom podle prvních dvou dominujících hlavních komponent, to znamená 190 a zahraničních spojení, protože již rozpoznaní podvodníci v datovém materiálu, který je k dispozici, se vyznačují jenom těmito oběma aspekty v jejích chování. Účelné ale je rozpoznání každého typu abnormality v chování vzhledem k účastníkům bez podvodných úmyslů. Z tohoto důvodu se používá test na vícedimenzionální útlum. Toto spočívá na Mahalanobis-distanci (x₁ -x)'r;¹(x_i - X'),

80666 (80666b)

PV 2000 3776 • ♦ • 9 • * ·9·*

9· σ^ιαιοΰίοι sirana • '4 9 · · ς · · * »·· 99 99· která měří odchylku chování od chování normálních zákazníků. Explicitní údaj testu se nemůže uskutečnit, protože jsou k dispozici jenom data o podvodnících obou již jmenovaných tříd. Jako alternativa k odchylce chování účastníka od chování normálních zákazníků se může přirozeně také měřit odchylka od podvodného chování použitím R“¹ . Pomocí těchto distancí jsme v situaci, že můžeme lépe přehlédnout chování účastníků a testovat odchylky. Na základě omezeného počtu odlišitelných typů podvodníků v datech, která jsou k dispozici, ale není možné další pozorování vícedimenzionálních testů na útlum k současnému časovému okamžiku.

Jako další postup testu k rozpoznávání podvodníků se může používat Fisherova diskriminantní analýza, která je založena na oddělení podvodníků od normálních zákazníků pomocí roviny. Hledá se lineární funkce a ^fx, která maximalizuje poměr čtverců vzdáleností mezi oběma skupinami účastníků a tyto tak odděluje od sebe. Vektor a je přitom vlastní vektor k největší vlastní hodnotě matice W^B, která se vypočítává z

B

Přitom ni. dává počet dat normálních zákazníků a n- počet dat podvodníků. Příslušný vlastní vektor a vyplývá jako a = Navrhuje se statistika testu

80666 (80666b)

PV 2000 - 3776 < 4

I 4 » i •4 ··«· upiavena strana » · · · · • · · * .·* ·· *·· ď W^_1{X - - (μ + Y) } která používá polohu bodu ke sřednímu bodu spojovací dráhy mezi pa Ϋ. Pro použití k definování problému rozpoznání podvodu je ostatně u provozovatele sítě účelné, tuto testovací hodnotu používat v jiném měřítku, což samo o sobě nemá žádný vliv na správnost postupu. Výsledky použití Fisherovy diskriminantní analýzy jsou znázorněny na obrázku

28. Na ose y jsou vyneseny hodnoty statistiky (1) hodnot i/rií pro čestné uživatele a hodnot j/n₂ pro podvodníky.

Ukazuje se, že přibližně 30 % dat podvodníků leží pod čarou danou y = 0.0025. Nechá se očekávat, že pomocí příslušného diskriminantního testu vynikne vysoký podíl podvodníků. Všimněme si, že různé datové soubory patří stejné osobě; v pojednávaném případu existuje 213 datových souborů k 57 rozpoznaným podvodníkům. 30 % odpovídá přibližně 70 datových souborů, které byly rozpoznány jako podvodné.

Algoritmus k rozpoznání podvodu

Jsou dána nová pozorování X a kvantily

1. Vypočítej transformaci hlavních komponent X = Τ'(X - μ)

2. Otestuj transformaci na

1/2

80666 (80666b)

PV 2000 - 3776 • «· : i : upravena s^ana ! ···· »*t* ;

« «1 » «»· · · * »1 «1*1 ·· ·<· ·· ···

X > Qj__a pro i X je podvodník, jdi na 3.

Xi < Qi__a pro ϊ X je normální zákazník, jdi na 4.

3. Modifikace očekávané hodnoty a kovarianční matice u podvodníků

ΠΥ±Χ η + 1 „ , nR_b + (X - ΫξΧ - Ϋ)' ^Rt * Ι7Ξ

4. Modifikace očekávané hodnoty a kovarianční matice u normálních zákazníků _ ημ + X μ <--Γη + 1 ^Re nR_e + (X - μΧΧ - μ) η + 1

Posouzení zvolených filtrů MEGS

V tomto oddíle se vyhodnocují zvolené filtry systému MEGS ve smyslu pravděpodobností chyb 1. a 2. typu, které se získávají z empirického modelu rozdělení telefonních čísel.

Každý filtr i se může chápat jako test hypotézy

Ηθ : účastník není podvodník

H( : účastník je podvodník tzn. zákazník je podchycen filtrem i, tedy se akceptuje

1680666 (80666b)

PV 2000 - 3776 ··· · · · ··*·*·« · ·*· ·· ··· hypotéza Η*, tedy jeho podvodný úmysl.

U testů hypotéz tohoto typu se mohou udělat dvě různé chyby. Normální zákazník se může jednak mylně rozpoznat jako podvodník. Tento omyl se nazývá chyba 1. typu, nebo také a chyba. Jednak se může přirozeně přihodit, že se u testovaného účastníka jedná o podvodníka a test se přesto rozhoduje pro hypotézu . Toto se potom označuje jako chyba 2. typu, nebo jako β - chyba. Ve smyslu stanovení problému je účelné, omezit chybu 1. typu, aby se zbytečně neztráceli zákazníci, jejichž připojení bylo mylně zablokováno.

Dříve zmíněné pravděpodobnosti chyb by se nyní měly popsat na základě zjištěných empirických pravděpodobností, abychom tak získali měřítko hodnocení použitých filtrů. Následující tabulka ukazuje soupis výsledků tohoto vyšetřování.

16Θ0666 (80666b)

PV 2000 - 3776 ; i’ ί ; ;

·*· · * · · * -ϊ.

·« ·· ··· ·· ···

popis filtru	ot-chyba	β-chyba
Ό190* 100 DM/den	0.000042	0.987325
'roaming' > 500 DM/den	0.000004	1
světová zóna 2+9 > 300 DM/den	0	0.995955
1 zavolání světová zóna 2	0.000462	0.837108
1 zavolání světová zóna 8	0.000389	0.989753
1 zavolání světová zóna 9	0.000189	0.898056
2 zavolání/den ve světové zóně 2+5	0.000160	0.991640
2 zavolání/den ve světové zóně 2+8	0.000162	0.994337
2 zavolání/den ve světové zóně 2+9	0.000468	0.990291
2 zavolání/den ve světové zóně 5+8	0.000121	0.994876
2 zavolání/den ve světové zóně 5+9	0.000430	0.989482
2 zavolání/den ve světové zóně 8+9	0.000431	0.992179
5 zavolání/den ve světové zóně 2	0.000016	0.995146
5 zavolání/den ve světové zóně 5	0.000012	0.997303
5 zavolání/den ve světové zóně 9	0.000062	0.994876

α-chyba se počítá jako relativní četnost příslušného filtru u účastníků bez podvodného úmyslu a β-chyba jako 1relativnl četnost filtru u podvodníků.

Nechá se rozpoznat, že pozorované filtry vykazují velmi malou pravděpodobnost chyby 1. typu, ale také velmi vysokou β-chybu.

Provozovatel sítě používá ještě velký počet dalších filtrů, které se ale k tomuto okamžiku nemohou vyhodnocovat, protože tyto používají stáři zákazníka, tedy jeho příslušnost k třídě, která bohužel není obsažena v datech, která jsou k dispozici.

80666(80666b)

PV 2000 - 3776 ^1^· *« 4 *

4·4 αιια ···

Přehled obrázků na výkresech

Vynález bude blíže vysvětlen prostřednictvím konkrétních příkladů provedení znázorněných na výkresech, na kterých představuje obr. 1 relativní normálních četnost zákazníků, obratů hovorů obr. 2 relativní četnost obratů hovorů u podvodníků, obr. 3 relativní četnost počtu volání na den u podvodníků, obr. 4 obr. 5a a 5b tabulka hodnot empirického rozdělení cílových telefonních čísel, tabulka dat rozšíření modelu pro různá mezinárodní telefonní čísla, obr. 6 tabulka četnosti volání 2 ciziny do

Německa podle cílových telefonních čísel (účastníci bez podvodného úmyslu), obr. 7 tabulka četnosti volání z ciziny do

Německa ve srovnání s ostatními cílovým zeměmi (účastníci bez podvodného úmyslu), obr. 8 tabulka četnosti zavolání z ciziny do

Německa od účastníků s podvodným úmyslem,

80666 (80666b)

PV 2000 - 3776 obr. 9 i . . · . -ír -t-ir *»'«·»« : ·: · t • ft ···· ·· ··· ·· ··· tabulka četnosti zavolání z ciziny od účastníků s podvodným úmyslem, obr. 10 a obr. 11 empirické hodnoty cílových telefonních čísel účastníků s podvodným úmyslem, obr. 12 až 16 empirická střední hodnota a empirický rozptyl doby rozhovoru u normálních zákazníků a u podvodníků, obr. 17 až 18 empirické hodnoty rozdělení obratu u normálních zákazníků a u podvodníků, obr. 19 kontingenční tabulka pro test na párovou nezávislost telefonních čísel v určitém časovém intervalu pozorování, obr. 20 znázornění hlavních komponent, přiřazených 612 nebo 622, obr. 21 výsledek analýze, k Fisherově diskriminantní obr. 22 přístrojově-technické znázornění průběhu způsobu podle obr. 23,

obr.	23	vývojový podvodu s	diagram přístroj i	způsobu k podle obr. 22	rozpoznání
obr.	24	četnosti	denních	obratů u	normálních
		zákazníků	(výřez),
obr.	25	relativní	četnosti	počtů volání	na den u

Θ0666 (00666b) PV 2000 - 3776 obr obr obr oyana « · ·· ·«·· • 9 · * 9 • · » · ««· ·* ·*· normálních zákazníků a aproximace pomocí funkce (výřez), celkový denní obrat vzhledem k obratu na číslech 190, hlavní komponenty, přiřazené σ² popř. σ' výsledek Fisherovy diskriminantní analýzy.

Příklady provedení vynálezu

Tabulka podle obr. 4 obsahuje hodnoty empirického rozdělení cílových telefonních čísel pro profily T_z = (ti, t₂, tj.2} - Přitom je třeba respektovat, že různé kategorie, jako například 'Service' a 'MTC' se ještě dále člení, aby se mohly lépe extrahovat z předložených dat jednotlivých spojení. Ve druhé tabulce podle obr. 5 jsou obsažena data rozšíření modelu pro různá mezinárodní telefonní čísla. Přitom se jedná o rozštěpení kategorie 'mezinárodní spojení'. Databáze se skládá z 1391739 pozorování.

V tabulce podle obr. 6 a obr. 7 jsou pro účastníky bez podvodného úmyslu uvedena speciálně ještě jednou volání z ciziny do Německa, tedy ta s předvolbou 0049. Relativní četnosti se zde vztahují na příslušný počet spojení 0049 v předcházející tabulce.

Zcela analogicky k tabulkám účastníků bez podvodného úmyslu jsou na obrázcích 8, 9 a 10 vypsány empirické hodnoty cílových telefonních čísel podvodníků ve třech tabulkách.

80666(80666b)

PV 2000 - 3776 • · »· ··♦· • « *4 --• · · • · ·

Obr. 8 přitom uvádí četnost zvolených cílových kategorií, zatímco obrázek 9 (s pokračováním pomocí obrázku 10) ukazuje předvolby, zvolené podvodníky z ciziny, a jejich četnost. Na obr. 11 je zobrazena cílová kategorie, zvolená podvodníky jako nejčastější.

V tabulkách obrázků 13 až 18 jsou znázorněny empirické hodnoty pro rozdělení u určených kategorií cílových telefonních čísel. Obrázek 12 ukazuje rozdělení doby trvání rozhovoru u normálních zákazníků a obrázek 13 u podvodníků.

Obrázek 14 ukazuje počet volání na den u normálních zákazníků a obrázek 15 u podvodníků.

Obrázek 16 a 17 ukazuje rozdělení obratu u normálních zákazníků a obrázek 18 u podvodníků.

Obrázek 19 ukazuje konečně test nezávislosti pro kategorie cílových telefonních čísel. Tabulka ukazuje kontingenční tabulku pro test na párovou nezávislost kategorií telefonních čísel. Přitom je třeba dbát toho, že nebyla pozorována žádna čísla '0130', jedná se tedy o tabulku 9x9, která má příslušné X² (Chi-Quadrat) rozdělení, tedy 64 stupňů volnosti. Při vysoké hodnotě statistuky restu se hypotéza nezávislosti přirozeně odmítá pro všechny vhodné úrovně a. Z odmítnutí párové stochastické nezávislosti vyplývá, že nemůže platit žádná společná stochastická nezávislost kategorií cílových telefonních čísel. Toto platí adekvátně pro všechny dny.

Obrázek 20 ukazuje grafické znázornění hlavních komponent, přiřazených σ² popř. σ², zatímco obrázek 21 ukazuje výsledek Fisherovy diskriminantní analýzy jako

80666 (80666b,

PV 2000 - 3776

- w|/iav95ii«i strana «·* · · » · • · » · · · ·· · · ·· #·· grafické znázornění.

Obr. 22 ukazuje přístrojově-technické provedení způsobu podle vynálezu, které je znázorněno jako blokové schéma na obr. 23.

Ve znázorněném kroku 1 jsou příkladně znázorněny telekomunikační síťové členy. Označení M5C znamená mobilní ústřednu, znázorněnou počítačem ústředny, zatímco VMS je takzvaný Voice Mail System, se kterým se vytvářejí síťové hlasové výstupy závislé na uživateli. Přístrojové jednotky VAS-NE znamenají dodatečné síťové členy, jako např. členy zpoplatňování a další. Datové soubory provozovatele sítě, které se vytvářejí v tomto přístrojovém prostředí, se přenášejí přes signalizační systém č. 7 (Filé Transfer Access and Management) k počítači k rozpoznání zneužití.

Tento počítač se také označuje jako server zákaznických dat.

Zde zmíněný signalizační systém č. 7 (FTAM) je 7-vrstvý protokol, který přenáší celé svazky datových souborů najednou. Jedná se tedy o datové pole (Filé), ve kterém je obsaženo mnoho tisíc datových souborů, které se Online přenášejí na server zákaznických dat.

V kroku 2 se nechá probíhat celý 2působ, jehož blokový diagram je na obr. 22 a 23 vyznačený jako krok 2. Důležité je, že kroky výpočtu, jako transformace hlavních komponent (Fisherova diskriminantní analýza a všechny ostatní kroky výpočtu) probíhají v reálném čase na tomto počítači.

Vypočítají se výsledky a mohou se v kroku 3 přenášet v reálném čase na zákaznickou pracovní stanici (Customer Care Workstation) . U konzole této stanice nyní sedí obsluhující osoba,- a na její obrazovce vzniká optický a/nebo

80666 (80666b)

PV 2000 - 3776

·· ··*· ~r*^Mt^vaf^M φίαιια · · · · • · * · ««« ·» ··· akustický alarm, pokud se rozpoznalo zneužití. Obsluhující osoba potom může ještě během probíhajícího neoprávněného hovoru zasáhnout a například tento hovor přerušit, nebo zabránit opakované volbě atp. Může se rovněž vydat akustická výstraha, týkající se zneužití.

Existuje také zpětné hlášení od zákaznického serveru na počítač, týkající se zneužití. Obsluhující osoba může například změnit na zákaznickém počítači (při vyvolaném alarmu) práh alarmu nebo jiná kritéria zakročení. Tato data se sdělují počítači, týkajícího se zneužití, který se z nich učí a zahrnuje je do svých výpočtů.

Obrázek 23 ukazuje vývojový diagram způsobu podle vynálezu. Zde probíhající kroky jsou uloženy ve znacích nároku 1.

Důležité je zpětné vedení z funkčních bloků, uspořádaných v obrázku na spodním okraji. Přes toto zpětné vedení se uskutečňuje aktualizace vypočítaných kovariančních a středních hodnot. Systém má tedy schopnost se sám učit.

Vyšetřování datového materiálu, který je k dispozici, ukázalo, že se chování účastníků s podvodným úmyslem nechá v podstatě charakterizovat jenom dvěma znaky. Dosažené výsledky v příkladném provedení a znázorněných tabulkách se vztahují na příkladný datový soubor provozovatele sítě. Na základě existujících dat se mohly určit pouze dvě různé skupiny účastníků s podvodným úmyslem.

Zastupuje:

Dr. Miloš Všetečka v.r.

1680666 (80666b)

PV 2000 - 3776 : ; ^w^ega-^trana auvundl ,· .»·* ·»·· ·

12000Praha2,Hálkova2 *··* ·♦♦ ·· ···

Claims

PATENTOVÉ NÁROKY

1. Způsob rozpoznání zneužití služeb provozovatele sítě zákazníkem pomocí online analýzy datových souborů, vztažených k zákazníkovi, s následujícími kroky:

1. Online zjištění souboru vstupních dat ze síťových elementů z následujících komponent:

1.1 kumulované datové soubory přes pevný časový interval, např. 30-denní datové soubory;

1.2 data jednotlivých spojení poslední doby, povolená z hlediska zákonné ochrany dat, ve dnech (t. č. 5 dní): cílové telefonní číslo, doba trvání hovoru, typ spojení atd;

1.3 data, specifická pro zákazníka (stáří zákazníka v síti, typ platby atd.);
2. Akumulování vstupních znaků podle tříd (typ cílového telefonního čísla, počty hovoru, typy hovorů atd.);
3. Provádění analýzy hlavních komponent:

3.1 Provádění analýzy hlavních komponent na datových souborech již rozpoznaných podvodníků;

3.2 spektrální rozložení příslušné kovarianční matice;

3.3 určení relevantních hlavních komponent;

3.4 klasifikace hlavních komponent, relevantních pro podvodné chování;
4. Transformace hlavních komponent nedetekovaných datových souborů na základě spektrálního rozkladu kovarianční matice v kroku 3
5. Znázornění hlavních komponent datových souborů a diskriminace popř. podvodného chování
6. Odhad a zjištění empirického kvantilu hlavních komponent k řízení pravděpodobností chyb prvního a druhého typu při automatickém detekování a generování alarmů;

16 80666 (80666b)

PV 2000 - 3776 • * · • · · « · φ ·· ··«· ’ ϊ granit · φφφ· ·
7. Fisherova diskriminantní analýza ke zjištění dělicí nadroviny mezi datovými soubory identifikovaných podvodníků a normálních zákazníků, s grafickým znázorněním
8. Odhad a zjištění empirických kvantilů promítnutých dat k řízení pravděpodobností chyb 1. a 2. typu při automatickém detekování a generování alarmu.

2. Způsob podle nároku 1, vyznačující se tím, že v kroku 2 způsobu se každý datový soubor z akumulovaných dat znázorňuje vysoce dimenzionálním reálným vektorem.

3. Způsob podle nároku 1 nebo 2, vyznačující se tím, že v 5. kroku způsobu se hlavní komponenty datových souborů znázorňují graficky. 4. Způsob podle některého z nároků 1 až 3, vyznačující se tím, že v 5. kroku způsobu se zjištěné podvodné chování znázorňuje vizuálně. 5. Způsob podle některého z nároků 1 až 4, vy značující se tím, že datové soubory uživatelů se

analyzují podle jejích hovorových znaků a člení se do přidělených tříd, a že rozčlenění do tříd se uskutečňuje na základě chování, že určité pozdravy vyznačují zákazníky s podvodným úmyslem a že se podstatně odlišuje od individuálního chování ostatních účastníků.

6. Způsob podle některého z nároků 1 až 5, vyznačující se tím, že chování zákazníků s podvodným úmyslem se vyznačuje následujícími dvěma znaky:

1. zneužití čísel 0190 a zároveň

2. vedení nápadného množství zahraničních hovorů ve zkoumaném období.

16 80666(80666b)

PV 2000 - 3776 • * · • · · *· ····

Μ J vija ^rčind

4 · 4 * 4 4 4 4 4 «44 4« ···

7. Způsob podle některého z nároků 1 až 7, vyznačující se tím, že algoritmus k rozpoznání podvodu se skládá z následujících vztahů:

Jsou dána nová pozorování X a kvantily Q₁ ¹__a

1. Vypočítej transformaci hlavních komponent X = T^r(X - μ

Otestuj transformaci na

X, < i = 1,2

X > Ota pro i \ QÍ-α P^{r0 1}

X je podvodník, jdi na 3

X je normální zákazník, jdi na 4

3. Modifikace očekávané hodnoty a kovarianční matice u podvodníků „ nY + X

R>

··?-. + (^x - -'(< - Ů η + 1

4. Modifikace očekávané hodnoty a kovarianční matice u normálních zákazníků ημ + X η + 1

16 80666 (80666b)

PV 2000 - 3776

; i · · ; • · · *: i • · · · · • a ··· ·* - r--jM^uand • · • • ♦ · • · · ·« ··· nR_e + (x - μΧχ - μ)' η + 1 8. Způsob podle některého z nároků 1 až 6,

vyznačující se tím, že rozpoznání podvodníků se uskutečňuje Fisherovou diskriminantní analýzou.