CZ20003776A3 - Způsob rozpoznání zákaznického zneužití služeb provozovatele sítě pomocí online analýzy datových souborů, vztažených k zákazníkovi - Google Patents

Způsob rozpoznání zákaznického zneužití služeb provozovatele sítě pomocí online analýzy datových souborů, vztažených k zákazníkovi Download PDF

Info

Publication number
CZ20003776A3
CZ20003776A3 CZ20003776A CZ20003776A CZ20003776A3 CZ 20003776 A3 CZ20003776 A3 CZ 20003776A3 CZ 20003776 A CZ20003776 A CZ 20003776A CZ 20003776 A CZ20003776 A CZ 20003776A CZ 20003776 A3 CZ20003776 A3 CZ 20003776A3
Authority
CZ
Czechia
Prior art keywords
data
customer
fraudsters
behavior
main components
Prior art date
Application number
CZ20003776A
Other languages
English (en)
Other versions
CZ300962B6 (cs
Inventor
Rolf Hager
Rudolf Mathar
Martin Hellebrandt
Reinhold Töx
Original Assignee
Detemobil Deutsche Telekom Mobilnet Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Detemobil Deutsche Telekom Mobilnet Gmbh filed Critical Detemobil Deutsche Telekom Mobilnet Gmbh
Publication of CZ20003776A3 publication Critical patent/CZ20003776A3/cs
Publication of CZ300962B6 publication Critical patent/CZ300962B6/cs

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/121Wireless intrusion detection systems [WIDS]; Wireless intrusion prevention systems [WIPS]
    • H04W12/122Counter-measures against attacks; Protection against rogue devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Complex Calculations (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

ZPŮSOB ROZPOZNÁNÍ ZÁKAZNICKÉHO ZNEUŽITÍ SLUŽEB PROVOZOVATELE SÍTĚ POMOCÍ ONLINE ANALÝZY DATOVÝCH SOUBORŮ, VZTAŽENÝCH K ZÁKAZNÍKOVI
Oblast techniky
Vynález se týká způsobu podle úvodní části nároku 1, jakož zařízení pro zpracování dat k provádění způsobu.
Dosavadní stav techniky
Sice jsou již známy způsoby typu, uvedeného na začátku, tyto ale trpí nevýhodou, že pracují pomalu a nepřesně a relativně často vytvářejí nežádoucí chybný alarm.
Vynález má proto za úkol, vytvořit podstatně vyšší pravděpodobnost detekování zneužití vůči existujícím způsobům, přičemž se má dosáhnout menší pravděpodobnost chybného alarmu (falešně podezřelý normální zákazník) vzhledem k existujícím způsobům.
Podstata vynálezu
K řešení uvedeného úkolu slouží technická nauka, reprodukovaná v nároku 1. Další provedení a modifikace myšlenky vynálezu jsou předmětem vedlejších nároků.
V předloženém popisu vynálezu se datové soubory provozovatele mobilní sítě pro chování uživatele v mobilní radiotelefonní síti rozkládají na soubory pro čestné
1680666 (80666b)
PV 2000-3776
• · I • · ·*
Φ· i
φφφ ·« zákazníky a na soubory logicky a s pomocí stochastických modelů, rozpoznání podvodu se filtry, implementovanými pro zákazníky s podvodnými úmysly, výpočetní techniky na základě Způsoby k počítačově podporovanému vyvíjejí nad jednodimenzionálními do MEGS.
1. S pomoci analýzy hlavních komponent se nabízí grafický nástroj, se kterým se pomocí dvojdimenzionálních diagramů a příslušného zabarvení nechají lehce identifikovat data podvodníků. Toto se děje pomocí vizuální inspekce nebo automatického, vnitřního počítačového testu.
2. Na základě Fisherovy čiskriminantní analýzy se navrhuje automatický test, který simultánně identifikuje z vysoce dimenzionálních datových souborů takové, které patří podvodníkům.
Oba způsoby se při nepatrných nárocích na výpočet vyznačují malou pravděpodobností chyby 1. a 2. typu. Toto znamená vysokou pravděpodobnost detekování při nepatrném počtu chybných alarmů.
Způsob se v podstatě sestává z následujících kroků, které se, řízeny programem, provádějí v zařízení na zpracování dat:
1. Zjištění vstupních datových souborů z následujících složek:
1.1 kumulované datové soubory přes pevný časový interval, např. 30-ti denní datové soubory;
1.2 data jednotlivých spojení poslední doby, povolená z hlediska zákonné ochrany dat (t.č. 5 dní):
80666 (80666b)
PV 2000 - 3776 ,··· «·*» · » ·· * I · » t » · * · (I «.»* I « y τ * • · · · · » » * »» ·♦·· ·« ··« «· ··· cílové telefonní číslo, doba trvání hovoru, typ spojení atd.);
1.3 data, specifická pro zákazníka (stáří zákazníka v síti, typ platby atd.).
2. Akumulování vstupních znaků podle tříd (typ cílového telefonního čísla, počty hovorů, typy hovorů atd.): každý datový soubor z akumulovaných dat se znázorňuje vysoce dimenzionálním reálným vektorem.
3. Provádění analýzy hlavních komponent:
3.1 Provedení analýzy hlavních komponent na datových souborech již rozpoznaných podvodníků;
3.2 spektrální rozklad příslušné kovarianční matice;
3.3 určení relevantních hlavních komponent;
3.4 klasifikace hlavních komponent, relevantních pro podvodné chování.
4. Transformace hlavních komponent nedetekovaných datových souborů na základě spektrálního rozkladu kovarianční matice v kroku 3.
5. Znázornění (eventuálně komponent datových souborů a grafické) hlavních (eventuálně vizuální) diskriminace příp. podvodného chování.
6. Odhad a zjištění empirických kvantil hlavních komponent k řízení pravděpodobnosti chyb prvního a druhého typu při automatickém detekování a generování alarmu.
7. Fisherova diskriminantní analýza k určení dělicí nadroviny mezi datovými soubory identifikovaných
80666 (80666b)
PV 2000 - 3776
Í« * * Β V »V t »' »» • ♦ · f · · ·
Β · 4 · ϊ | · ♦ Β · ··· » Β » 4 « « ·· >444 44 444 «4 444 podvodníků a normálních zákazníků s grafickým znázorněním.
8. Odhad a zjištění empirických kvantil množství promítnutých dat k řízení pravděpodobností chyb 1. a 2. typu při automatickém detekování a generování alarmů.
Přednosti způsobu podle vynálezu jsou následující:
1. jednoduchá schopnost výpočtu za podmínek reálného času: nutné jsou pouze vektorové součty, násobení a maticová inverze;
2. způsob je nezávislý na architektuře počítače a protokolu;
3. způsob zahrnuje možnost automatického, vnitřního počítačového testu na podvodný úmysl s následným automatickým alarmem;
4. datové soubory, korespondující se zneužitím, se mohou za účelem detekování znázorňovat graficky: optická rozlišitelnost;
5. způsob se učí z minulých datových souborů, aktuální datové soubory se tak mohou lépe diskriminovat;
6. způsob je schopný adaptace na nové podvodné profily.
Definování problému
Cílem tohoto vynálezu je včasné rozpoznání podvodných úmyslů ze strany uživatelů mobilní radiotelefonní sítě. Tím se mají omezit finanční ztráty provozovatele. Přitom se pozorují nejenom případy úmyslného zneužití, nýbrž také takové, ve kterých je třeba předvídat, že účastník nebude
80666 (80666b)
PV 2000 - 3776
I *
«
• · · * • · « « '« · · · f • · ·· « · · s to, hradit své náklady na telefon. V této práci se dále mezi těmito dvěma rozdílnými aspekty nerozlišuje.
Chování účastníků a stanovení možného podvodného úmyslu se charakterizují s pomocí statistických metod a modelů. Za tímto účelem se používají datové soubory, které se evidují k vyúčtování hovorů ze strany provozovatele sítě. Přitom se jedná o data účastníků, jejíchž informace se vztahují na časový interval 80 dní. V těchto takzvaných 80-ti denních datových souborech se nacházejí informace o jednotlivých celkových denních obratech zákazníků, denní obraty při mezinárodních a roamingových spojeních, jakož i příslušnost účastníků k třídě, která zobrazuje jeho věk v síti, tedy dobu jeho příslušnosti k síti. K testovacím účelům byly vyšetřovány 80-ti denní datové soubory zákaznických segmentů 19 a 28, to znamená zákazníků, jejichž mobilní radiotelefonní číslo začíná 19 nebo 28.
K dispozici jsou dále data jednotlivých spojení zákazníků, ze kterých se nechají vyčíst příslušná cílová telefonní čísla, začátek, trvání a náklady hovoru, jakož i další informace, jako například buňka, ze které byl telefonát veden. Osobní data účastníka, jako jeho MSISDN číslo a cílové telefonní číslo, jsou přitom přirozeně z důvodu ochrany dat buď zakódována, nebo zkrácena. Data jednotlivých spojení se vztahují na účastnické segmenty 19, 28, 30 a 31 a vztahují se vždy na časový interval jednoho týdne. Segmenty 30 a 31 byly vyhledány speciálně, protože se jedná o již velmi dlouho existující zákaznické segmenty, které dobře zrcadlí chování účastníků bez podvodných úmyslů. Popsaná data účastníka, která jsou podkladem této práce, se dělí na informace, které patří zákazníkům bez podvodných úmyslů a na data od podvodníků, provozovatelem sítě již
80666 (80666b)
PV 2000 - 3776 * f 4 · « « · ♦ · 4 « « » ·« · ·· ·
• « «
• · · * 4 rozpoznaných a zablokovaných.
Za účelem analýzy chování účastníků s podvodným úmyslem nebo bez něho se v první části zprávy vyvíjejí statistické modely, s jejíchž pomocí se mohou vystihnout různé aspekty chování zákazníka, důležité pro rozpoznání podvodu.
Protože se chování zákazníků s podvodným úmyslem při hovoru znázorňuje jako příliš nehomogenní pro společné zpracování, klasifikují se takoví zákazníci podle znaků jejich hovoru. Pro každou takovou třídu se udávají možnosti k identifikaci. Třídění se přitom uskutečňuje podle chování, kterým se vyznačuje určitá skupina účastníků s podvodným úmyslem a kterým se signifikantně odlišuje od individuálního chování ostatních účastníků. Přitom se používají metody multivariantní statistiky a diskriminantní analýzy. Toto umožňuje, že se chování zákazníků s podvodnými úmysly přesně popisuje jenom s pomocí dvou znaků a podrobuje se testům, které spočívají na těchto znacích.
V poslední části výzkumů se hodnotí určité filtry ze systému rozpoznávání zneužití MEGS vzhledem k jejich kvalitě, to znamená jejich pravděpodobnosti chyby k rozpoznání podvodníků. Údaje se přitom vztahují na empirická data daná k dispozici, která se shromažďovala systémem MEGS.
Tvorba modelu
K vyšetřování chování účastníků s podvodným úmyslem nebo bez něho se určují charakteristické veličiny rozdělení denního obratu. Následovně se zkoumají příslušnosti k třídám
80666 (80666b)
PV 2000 - 3776 ·* ···· t* *·« φ* ·»· v základních zákaznických segmentech 19 a 28 na jejich využitelnost. Dále se určují empirické rozdělovači funkce a hustoty čítání, potřebné k pozdější analýze filtrů MEGS.
Rozdělení denních obratů
Denní obraty v obou pozorovaných skupinách účastníků se považují za realizace nekorelovaných náhodných proměnných Xe pro normální zákazníky a Xb pro podvodníky. Důležité charakteristické znaky obou rozdělení jsou dány empirickou střední hodnotou a empirickým rozptylem pozorování. Seznam zjištěných veličin se nachází v následující tabulce.
normální zákazníci podvodníci
očekávaná hodnota 205.88 11738.1
rozptyl 378174 8.95e+08
Pro segmenty 19 a 28 existují 80-ti denní datové soubory, ze kterých se ještě jednou počítají empirické střední hodnoty denních celkových obratů pro oba segmenty. Přitom se narozdíl od výše uvedeného výpočtu hodnot z dat jednotlivých spojení také zohledňuje, zda účastník vůbec telefonuje ve stejný den. V následující tabulce jsou uvedeny příslušné hodnoty a počty pozorování.
segment 19... Segment 28...
očekávaná hodnota 0.22539 1.3335
počet pozorování 512703 5876000
Nápadný rozdíl v odhadech parametrů mezi segmenty 19 a se nechá vysvětlit tím, že se u segmentu 19 jedná o zcela nový zákaznický segment, ve kterém existuje první použití
Θ0666 (80666b)
PV 2000 - 3776 » · • 4 ···· • · «· * teprve k časovému okamžiku 11. července 1998. Dále se nechá poznamenat, že mnoho nových účastníků tohoto segmentu nově přibylo teprve po 11. červenci. Tak dostaneme empirickou střední hodnotu prvního použití v jednotce MEGS v segmentu 19 takto:
empirická střední hodnota X (první použití) 1269.33
počet pozorování (=účastník v segmentu 19) 18989
Tím se nechá vysvětlit rozdíl segmentů 19 a 28 ohledně jejich empirických středních hodnot, protože mnoho uživatelů segmentu 19 přichází do úvahy jako uživatelé teprve k relativně dlouhému časovému intervalu, tzn. ve dnech před jejich vstupem do sítě je jejich celkový denní obrat od 11. července roven 0, což má samozřejmě rychle vliv na empirickou střední hodnotu.
Příslušnost k třídám
K dalšímu vyšetření chování normálních zákazníků se nyní pozoruje příslušnost účastníka k třídám. Podle stáří zákazníka jsou účastníkovi provozovatelem sítě přiřazeny třídy A, B, C, D a E, které tvoří dobrý základ pro posuzování platební morálky účastníků.
Na základě nedostatečné databáze se tento znak k charakterizování chování účastníků ale dosud nenechal přesně vyšetřit, protože segment 19 obsahuje velmi mladé zákazníky (ve smyslu stáří v síti) a v důsledku toho jsou téměř všichni zákazníci zařazeni do třídy A. Podobně pro segment 28. Zde je zařazen převažující podíl zákazníků již do tříd C a D, takže s tímto datovým souborem není možné učinit žádné přesné výpovědi. Další segmenty nejsou při
80666 (80666b)
PV 2000 - 3776
* « * * * » • t « r « «
« « · » * ♦ · ·
• * *
·* ···· « · « α *
dosavadních vyšetřováních k dispozici, čímž se přesné pozorování rozdělení příslušnosti k třídám nemůže uskutečnit bez dodatečných dat. Četnosti příslušností k třídám v segmentech 19 a 28 jsou uvedeny v následující tabulce a mají objasnit výše uvedené vývody.
třída segment 19... segment 28...
neklasifikováno 909 77
třída A 18078 6234
třída B 1 6933
třída C 1 13419
třída D 0 46784
třída E 0 3
Charakterizování chování účastníka na základě dat jednotlivého spojení
Po vyšetření 80-ti denních dat se existující data o spojení jednotlivých hovorů zahrnují do pozorování, protože se v těchto datových souborech nechají najít dodatečné informace o chování zákazníka. Zejména se zpracovávají marginální rozložení, potřebná k analýze filtrů MEGS.
K popisu chování účastníka jsou zde především data o zvoleném cílovém telefonním čísle zákazníka, doba trvání hovoru uskutečněného volání a počet volání během dne, jakož i rozdělení obratů zvláštního významu, protože ukazují velmi dobře rozdílné aspekty chování zákazníka. K těmto třem znakům byly zhotoveny stochastické modely a rozdělovači předpoklady.
První vyšetření v tomto rámci platí pro rozdělení doby
1680666 (80666b)
PV 2000 - 3776 • · φφφφ • φ» trvání hovoru jednotlivých spojení. Na doby trvání hovoru se nahlíží jako na realizace kontinuální náhodné proměnné D, ačkoliv v datových souborech existují jako diskrétní hodnoty. Grafické znázornění relativních četností dob trvání hovorů je znázorněno na obrázcích 12 a 13.
Jako další se uskutečňuje sestavení modelu k rozdělení cílových telefonních čísel účastníků. Cíl, který zákazník zvolí, se opět považuje za náhodný. Popisuje se pomocí diskrétní proměnné Z, jejíž profil se dále bude vysvětlovat podrobněj i.
Oblast cílových telefonních čísel se na základě velkého počtu možností dělí do různých kategorií, které potom slouží jako body profilu Z. Toto rozdělení je s několika vysvětlivkami shrnuto v tabulce 1.
Předvolby Popis
0177/0171/0172 předvolby německých poskytovatelů služeb mobilní radiotelefonie
0130/0180/0190 německá čísla předvoleb se speciálními tarify
2.../3883 čísla služeb (Service) provozovatele sítě (např. T-Box)
ostatní všechny ještě nezachycené německé
národní předvolby předvolby
roaming spojení s ostatními mobilními radiotelefonními sítěmi (bez mezinárodního roamingu, žádné oznámení cíle)
MTC MTC-spojení, žádné oznámení cíle (také call
80666 (80666b)
PV 2000 - 3776 • * · · · · » <· * · · » · · · « · ···· · ··· ·· «*ι
forward, International, roaming)
faxové spojení national, International, roaming
mezinárodní předvolby celkový počet všech mezinárodních spojení a rozdělení podle jednotlivých států (také mezinárodní roaming)
Tabulka 1: kategorie cílových telefonních čísel
Přitom je třeba dbát na to, že se z dat jednotlivých spojení požadují nejenom informace o cílových telefonních číslech, nýbrž dodatečně také ještě takzvaný „Calltype, který udává, zda se jedná o národní, mezinárodní nebo roamingový hovor a který vykazuje mobile terminated calls (MTC).
Volba bodů profilu se uskutečňuje zejména podle hlediska nabíhajících nákladů na jeden hovor. Toto se týká zejména zvláštních čísel 0130 a 0180 a servisních čísel 2... a
3..., jejichž tarify jsou ve spolkové republice jednotné. Stejný argument platí také pro různé poskytovatele mobilní radiotelefonie v Německu, kteří se berou jako jedna kategorie. Tarify rozdílných spojení 0190 se sice liší mezi sebou, ale všechna spojení tohoto typu se shrnují v jedné skupině, aby se počet bodů profilu vzhledem k dalším pozorováním příliš nezvětšil. Rozdělení na roamingové, mezinárodní hovory a MTC se sice nevyznačují jednotnými náklady, odlišují se ale na základě své tarifní struktury od dosud uvedených kategorií. Aby se nechalo dosáhnout všech cílů, pozorují se dodatečně faxová volání, protože se zde nejedná o hovory, ale o přenos dat. Kategorie ostatních národních cílových telefonních čísel nemá žádnou jednotnou strukturu nákladů. Přesto se tato cílová telefonní čísla musí také zachytit, abychom obdrželi úplné vyhodnocení. Na
80666 (80666b)
RV 2000 - 3776 ··♦* * · ·· «-«» * · · · * · « • * I ««* «t* ·· *··· «· »·♦ ·· «·· základě rozmanitosti národních čísel předvoleb a jejich tarifních struktur se zde nemůže dále rozdělovat do skupin. Profil Tz náhodné proměnné se tak nechá znázornit jako
Tz = {'01770171','0172013001800190 ', 1 Service', 'national','roaming','MTC','Fax','International', } = : {ti, t2, ti2l
Ξ pomocí dat jednotlivých hovorů ze segmentů 19, 28, 30 a 31 se nyní určuje empirické rozdělení náhodných proměnných Ž. Výčet vypočítaných relativních četností se nachází v obrázcích 4-11. Aby se nalezl ještě přesnější obraz rozdělení cílových telefonních čísel, dělí se bod profilu ti? = 'International' ještě jednou podle různých mezinárodních předvoleb. Dostaneme tedy rozšířený model, který se popisuje pomocí náhodné proměnné Z s profilem
Tž - {ti,..., tu, iiz Í2/-/ Í225} ti, i=l,..., 11 jsou přitom definovány přesně jako nahoře, a body profilu ik, k=l,..., 225 jsou pro velikost podle 225 různých mezinárodních čísel předvoleb, uspořádaných sestupně.
Také zde je opět empirické rozdělení Ž obsaženo v tabulkách 12-18.
Poté, co bylo popsáno rozdělení cílových telefonních čísel s pomocí právě popsaného modelu a náhodné proměnné Z, nechají se spolu s modelem rozdělení doby hovoru udat některá marginální rozložení, která vyjadřují pravděpodobnosti tvaru
60666(80666b)
PV 2000 - 3776
9 9 9 · 9 «9 • 99 · 9 « 99· ·« 9··· 99 «99 99 ···
I P(D = χ|β = ti), ί=1, ..., 12 a jejich empirické očekávané hodnoty a rozptyly jsou shrnuty v tabulkách 12-18. Tyto informace se budou používat později, aby se analyzovaly filtry MEGS.
Z diagramů relativních četností počtů volání se nechá odečíst, že N postačuje diskrétnímu rozdělení, jehož hustota čítání má přibližně následující tvar:
a (k + b)c, pro k e N
Parametry a, b a c se nechají vypočítat odhadem z existujících dat. Na základě tvaru hustoty čítání ostatně není nutně dána jejich čítatelnost. Obrázek 25 ukazuje relativní četnosti počtů volání u normálních zákazníků a aproximaci empirických hodnot pomocí funkce t(x)=113,5* (4.34 + x) *3·42.
Parametry t (x) se pro toto zobrazení počítaly numericky. Na základě menšího počtu pozorování ukazují grafy počty volání u známých podvodníků velký rozptyl než u zákazníků bez podvodného úmyslu. Příslušné zobrazení se nachází v obrázku 21.
Jak bylo již zmíněno u rozdělení doby trvání hovoru, jsou také u rozdělení počtu volání na den a u rozdělení obratu znázorněna příslušná společná rozdělení pomocí empirické střední hodnoty a empirického rozptylu na obrázcích 12 až 18.
80666 (80666b)
PV 2000 - 3776
• » « · « v v« • “ · ----
• · · • « · • · i
• « « « * · ··· «« ···
Stochastická závislost cílových telefonních čísel
Aby se mohly analyzovat filtry systému MEGS, použité provozovatelem sítě, jsou nutné dodatečné informace k rozdělení cílových telefonních čísel.
Tak jsou některé filtry dimenzovány na zachytily ty účastníky, kteří v jednom dni telefonují do pravděpodobnosti to, aby vícekrát určité světové zóny. Empirické převážného telefonování do jedné ze světových zón se u výše popsaného modelu mohou odečítat z obrázků. Pokud by jevy, že hovor spadá do jedné z popsaných kategorii, byly stochasticky nezávislé, mohla by se pravděpodobnost pro to, že se v jednom dni k-krát telefonuje do určité cílové třídy, vyjádřit k-násobným součinem empirických pravděpodobností příslušných tříd u rozdělení Z popř. Ž.
Jak jsme se již domnívali, kategorie cílových telefonních čísel ale nejsou stochasticky nezávislé. To se ukazuje, tím, že párově stochastickou nezávislost dvou tříd vyvracíme s pomocí testu, založeném na kontingenčních tabulkách.
V dalším se mají pozorovat náhodné proměnné X a Y s nominálním vyjádřením, přičemž X udává kategorii posledního zavolání a Y kategorii příštího hovoru. Mají tedy oba z profilů T=TZ\{'MTC'}. Pod nominálním vyjádřením se přitom rozumí hodnoty, které nepodléhají žádnému marginálnímu rozložení a nejsou srovnatelné, jako třeba body profilu '0171', '180', Ό190’ .
Ke znázornění, nominálních náhodných proměnných a jejich
80666 (80666b)
PV 2000 - 3776 * · · 9 * * · · ♦ ·· · · · 9 9 9 9 9 9 • 9 9 9 9 9 9 9 9
9999 «· ··· ·« ··<
vyšetřování se používá koncept kontingenčních tabulek. K tomu mají X I a Y J nominální vyjádření. Existuje tedy M=I*J možných kombinací k popsání vztahu mezi X a Y. Pozorování (X,Y) páru znaků mají pravděpodobnostní rozdělení, které se znázorňuje v tabulce s I řádky a J sloupci. Buňky tabulky reprezentují I*J možných výsledků. Jejich pravděpodobnosti se označují pij, přičemž pij udává pravděpodobnost, že pozorování spadá do buňky (i, j). Pokud jsou v buňkách četnosti páru znaků, hovoří se o (I x J} kontingenční tabulce.
Pravděpodobnostní rozdělení p^j je společným rozdělením X a Y. Marginální rozložení, které dostáváme jako řádkové popř. sloupcové součty přes pij, se označují pomocí
Pí. = Σ Píí a Pj = Σ Pii i i
Obecně se přitom musí ještě splnit následující vedlejší podmínka:
Σ Pí. - Σ p.í = Σ Σ Pí? -1 i j i j
Aby se mohla testovat nezávislost, kontroluje se hypotéza
Ho : Pij = Pí. * p.j popr. mXj - n
přičemž n je celkový počet všech pozorování a míj , mi., m.j
udáváj í příslušné očekávané četnosti, míj se může vypočítat
z pozorovaných četností pomocí odhadu Maximum-Likelihood
30666 (80666b)
PV 2000 - 3776 • * · » · · · * · • V ·««« ·· ··· M ···
Hypotéza Ho se odmítá k úrovni a, když hodnota statistiky testu 1 J (n
ΣΣ — i=l i=l
- ^ij)2 m; je větší než (1-a) kvantilu příslušného χ2 rozdělení s (1-1)*(J-l) stupňů volnosti.
S pomocí tohoto testu se může pro každou běžnou a úroveň odmítnout hypotéza párově stochasticky nezávislých kategorií cílových telefonních čísel při zavolání v jednom dni.
Plánované vyšetření dat jednotlivých spojení
U vyšetřování chování účastníků s a nebo bez podvodného úmyslu je zvláště zajímavá, jak již bylo zmíněno výše, příslušnost zákazníka k třídě, která dokumentuje jeho platební morálku. Toto rozdělení, provedené provozovatelem sítě, bohužel není k dispozici jako informace v datech jednotlivých spojení, takže pro segmenty 30 a 31 se ohledně toho nemohla provést žádná vyšetření. Rozdělení do tříd jsou k dispozici jenom v 80-ti denních datových souborech, tedy pro segmenty 19 a 28. Segment 19 se ovšem nehodí, z důvodů uvedených na . úvod, pro vyšetřování tohoto znaku chování. Použití těchto informací je možné teprve tehdy, když je k dispozici dostatečně mnoho dat. Proto se k pozorování tohoto znaku chování vyžaduje příslušnost ke třídě spolu s daty jednotlivého spojení, abychom dostali jisté výsledky.
80666 (80666b)
PV 2000 - 3776 φ* *··« ·· φφφ
Dále je plánováno vyšetřování buněk, ze kterých vedou zákazníci své telefonické hovory. Má se zjistit, zda existují buňky, tedy geografické oblasti, se zvláště vysokými počty podvodů. Také k tomu ovšem není existující databáze poznaných podvodníků postačující, abychom získali jisté výsledky.
Zákazníci s podvodným úmyslem
Nyní se má chování podvodníků analyzovat a matematicky popisovat. Informační bázi pro následující pozorování tvoří data již poznaných podvodníků z různých segmentů, daná k dispozici provozovatelem sítě.
Denní obraty 80-ti denních dat
Z předložených dat podvodníků k 80-ti denním datovým souborům není možné, dělat výpověď o rozdělení pro denní obrat u účastníků s podvodným úmyslem, protože k informacím zákazníků 18989 popř. 73450 segmentu 19 popř. 28 existují celkem jenom data o 8 popř. 4 podvodnících příslušných skupin účastníků. Mimoto byli 3 z těchto 12 zákazníků pomocí doplňkových informací, které nejsou k dispozici, rozpoznáni jako podvodníci, protože jejich celkové obraty činí v pozorovaných 8 0 dnech jenom 1 až 6 DM, čímž pro odhad rozdělení přichází do úvahy jenom 8 pozorování.
Chování podvodníků na základě dat jednotlivých spojení
K charakterizování chování podvodníků existují data jednotlivých spojení 57 podvodníků, již rozpoznaných provozovatelem sítě. Bohužel se jedná přitom jenom o
80666 (80666b)
PV 2000 - 3776
--- -- -• · 4 4 4 « « • 4 4444 44 444 4* 4*4 informace z 3708 jednotlivých hovorů, což je oproti více než miliónu datových souborů k normálnímu chování zákazníků velmi malé číslo. Na základě malého počtu pozorování nebude stále možné, pro všechny aspekty chování podvodníků verifikovat rozdělení pravděpodobnosti. Odhad prvního a druhého momentu ale zůstává možný a účelný.
Klasifikace rozpoznaných podvodníků
Na základě existujících informací o podvodnících, již rozpoznaných provozovatelem sítě, se v dalším provádí rozdělení účastníků s podvodnými úmysly do tříd. Tím se má od sebe oddělit chování určitých skupin podvodníků, aby se takto mohly uvést ostré testy k jejich rozpoznání.
Jako motivace k tomu může sloužit srovnání celkového denního obratu a denního obratu na číslech 190 z obrázku 26. Je možno zřetelně rozeznat, že množství bodů se rozpadá do dvou tříd, totiž za prvé na body podél hlavní diagonály pro zákazníky, jejichž celkový obrat se skládá z hovorů na číslech 190. Za druhé odpovídají body podél osy x datovým souborům s jenom nepatrným obratem na číslech 190.
Ke klasifikaci zákazníků s podvodným úmyslem provádíme analýzu hlavních komponent odhadnuté kovarianční matice Rb. Podkladem je datový soubor na den a účastníka, sestávající ze 30 znaků. Pozorují se denní obraty, počet hovorů na den a denní doby trvání hovorů. Každý z těchto tří hlavních znaků se dělí na deset již jmenovaných kategorií cílových telefonních čísel. Uvnitř datového souboru se vždy používají v pořadí čísel 171-, 172-, 177-, 180-, 190-, mezinárodní hovor, ostatní národní spojení, roaming, služby (service) a MTC volání pro hlavní znaky. K tomu označuje yi £ R30, i=l,
80666 (80666b)
PV 2000 - 3776
9114113 • «· * • · · ··» * « · ®· ··«« ·· »«· »· ···
..., η, vektor se znaky denního datového souboru zákazníka s podvodným úmyslem a n jejich počet. Dále budiž n y = - Σ Vi n JTi odhadnutá očekávaná hodnota. Potom použijeme odhadu MaximumLikelihood kovarianční matice yt-y yt-y
Nyní představíme matici Rb jako
Rh = TATr s ortogonální maticí T a diagonální maticí Λ, která jako diagonální zápisy obsahuje ty o velikosti podle vzestupně uspořádaných vlastních hodnot
Přitom dostaneme aj. . ., σ2ΪΟ = (8e + 08, 2e + 08, 7e + OS, 3e + 06, 2e + 06, le + 06, le + 05, 6e + 04, 4e + 04, le + 04, le + 04, 4406, 2434, 480, 308, 147, 115, 115, 35.3, 19.4, 7.3, 1.8, 1.1, 0.6, 0.3, 0.1, 0.02, 0.01,
0.002) .
Podíl celkové variability, popsaný pomocí prvních obou hlavních komponent, leží očividně při
80666 (60666b)
PV 2000 - 3776 ;υκι crčena strana • 4 · « · 4 ··· 44 444 σ, + σ:
+ σ3ο
98.6% .
To znamená, že transformované datové soubory
Yi = (yiřl' · · Yi30) = rfc - y), í = 1, leží až na zanedbatelně malou chybu v dvojdimenzionálním podprostoru, který je napnut pomocí prvních dvou jednotkových vektorů. Dále má j-tá hlavní komponenta ýbj očekávanou hodnotu 0, rozptyl <s\ a různé hlavní komponenty jsou nekorelované.
Vlastní vektory ti matice jsou sloupci ortogonální transformační matice T, to znamená
T = (t t30) .
Kvůli, v absolutní hodnotě největším, záznamům prvního a druhého vektoru se nechají diskriminovat podvodníci, tím že se na kategorie, patřící k těmto komponentám, hledí jako na klasifikující znaky pro podvodné chování. Podle vlastních vektorů, patřících k σ3 a σί, dostaneme rozdělení účastníků s podvodným úmyslem na takové zákazníky, jejichž zneužití se vyznačuje čísly 0190 nebo zahraničními hovory. Na obrázku 27 je skupina podvodníků 0190 znázorněna první hlavní komponentou, která probíhá ve směru osy x. Ostatní podvodníci, kteří jsou nápadní zahraničními hovory, se nechají rozpoznat pomocí druhé hlavní komponenty ve směru osy y.
Testy k rozpoznání podvodníků
80666 (80666b)
PV 2000 - 3776
I · »τφ - • · «φ·· φφφ φ · » φφφ φφφ φφ φφφφ φφ φφφ φφ «φφ
Po diskriminování podvodníků, rozpoznaných již provozovatelem sítě pomocí analýzy hlavních komponent, se nyní udávají statistické způsoby testování k rozpoznání podvodníků. K tomu se nahlíží na pozorování chování účastníků bez podvodného úmyslu jako na náhodné a označuje se náhodnými proměnnými X ~ {μ, Re), jejichž rozložení má očekávanou hodnotu μ a rozptyl Re. Matice Re se dále rozkládá na
Re = SOS', přičemž S = (Si ..., s30) je ortogonální matice.
Θ = diag(&2, .. .$30) s . > θ označuje diagonální matici uspořádaných vlastních hodnot Re, jejichž odhady jsou dány pomocí θ2,..., θ230 = (2e + 05, 7e + 04, 7e+04, 6e+04, 2e+04,
2e+O4,le+04, le+04, 7226, 6757,
4732, 2922, 1099, 983, 646, 440, 322, 293, 162, 4.4 3.9, 1.7, 0.8, 0.4, 0.4, 0.3, 0.2, 0.16, 0.01,
0.002) .
S pomocí ortogonální matice T z transformace hlavních komponent z Rb tvoříme
X = Τ’ (χ - μ), z čehož s linearitou očekávané hodnoty vyplývá e[x] =0 a e[xX'] = Τ'ReT . Pří použití vlastních vektorů ti, t3 k oběma
80666 (80666b)
PV 2000 - 3776 ovcím strana • · » » · ·»· ·· ···· »· ·· ·· ·*· větším vlastním hodnotám kovarianční matice Rb podvodníků z předchozího úseku vyplývá
E[t(x]=0 a Varfcit) = £ i = l popřípadě
E[t2'x] = 0 a Var(tíx) = £ i = l ti,i a t2ji označují přitom i-tou komponentu vektoru ti popř. t2. Zejména platí Var(tíx) =< S2Vi = 1,...,30. Dále je střední hodnota datových souborů Yi při výše uvedené transformaci q m — = ΣT' (ví - μ) = τ' (ϋ - μ) m ti a rozptyly souhlasí s hodnotami íL, θ20 z Λ.
Protože hodnoty μ a Re nejsou známy, odhadují se z existujících n pozorování Xi s pomocí odhadu MaximumLikelihood μ = X, a R. = - £ (Xk - XfX. - X) n i=1
Použitelnost rozkladu odhadnuté kovarianční matice na transformaci hlavních komponent je zajištěna.
Výsledky vyšetřování podvodníků z posledního odstavce jsou nyní shrnuty spolu s právě provedenou transformací
80666 (80666b)
PV 2000 - 3776 i : «jevena sirana • * * · · · · · · ·
« · · «* ···· • * ·· • · · · «·· ···
hlavních komponent dat normálních zákazníků na obrázku 21.
V tomto obrázku se nechá dobře rozpoznat zřetelně menší
rozptyl hlavních komponent u normálních zákazníků
Var^-X) < = 2 * 105 na rozdíl od 9*’ > 2 * 109, který spolu s posuvem očekávaných hodnot pro zákazníky s podvodným úmyslem ve směru větších hlavních komponent umožňuje použití testu na útlum.
Za účelem uvedení testu k rozpoznání podvodu se vždy pozorují obě hlavní komponenty odděleně, to znamená že se vyvíjí speciální test pro 190 a pro zahraniční podvodníky. Nejdříve se odhaduje empirický (1-oí) kvantil QÍ_a, 1=1, 2 pro obě hlavní komponenty. Používá se k tomu n stanovených pozorování
V1 Y1 Y1 Λ1:η' Λ2:η' · · · ' Λη:π
Následovně se určuje to číslo k, pro které platí ίη(Ι-α)
Ln [ (1-Of) +1] pokud n(l-a) je celočíselné pro ostatní
Potom je kvantil = XJ.n. Pro speciálně existující data vyplývají pro α = 0.005 kvantily Q^a = -0.0035 a,
QÍ_a = 14.1089.
S pomocí empirických kvantilů se muže nyní uspořádat test na podvodný úmysl pomocí transformace hlavních komponent dat účastníka jednoho dne. Pokud leží hodnota transformace dat zákazníka nad jedním z obou vypočítaných kvantilů Q^a, předpokládá se, že se jedná o podvodníka.
80666 (80666b)
PV 2000 - 3776
□praveny strana ♦ * · · v·· *♦ ♦*·
Parametr a přitom udává pravděpodobnost chyby pro to, že zákazník bez podvodného úmyslu se nesprávně rozpozná jako podvodník. Tento omyl je přirozeně třeba udržovat co nejmenší. K použití testu není nutné, pokaždé znovu počítat kvantity Q^_a, nýbrž stačí periodický nový výpočet těchto hodnot. Vedle tohoto testu ještě existuje možnost, najít podle grafického znázornění transformace hlavních komponent ty účastníky, jejichž hodnoty se nenacházejí na vypočítaných transformačních osách a kteří tak jsou nápadní svým chováním, protože podvádějí kombinací volání 0190 a zahraničních hovorů. Příslušná data zákazníků se mohou potom manuálně překontrolovat ohledně podvodného úmyslu, protože právě popsaným testem nejsou odfiltrováni jako podvodníci (příklady k tomu je možno rozpoznat na obrázku 21).
Dosud popisovaný postup transformace hlavních komponent a následného testu podvodníků se nechá použít nejenom na denní datové soubory účastníků, nýbrž data, která jsou základem, se mohou sbírat po libovolný časový interval a vyhodnotit. Tím dostáváme možnost, automaticky zkoumat chování účastníků přes různé časové intervaly.
Nápadnost účastníků byla dosud měřena jenom podle prvních dvou dominujících hlavních komponent, to znamená 190 a zahraničních spojení, protože již rozpoznaní podvodníci v datovém materiálu, který je k dispozici, se vyznačují jenom těmito oběma aspekty v jejích chování. Účelné ale je rozpoznání každého typu abnormality v chování vzhledem k účastníkům bez podvodných úmyslů. Z tohoto důvodu se používá test na vícedimenzionální útlum. Toto spočívá na Mahalanobis-distanci (x1 -x)'r;1(xi - X'),
80666 (80666b)
PV 2000 3776 • ♦ • 9 • * ·9·*
9· σ^ιαιοΰίοι sirana • '4 9 · · ς · · * »·· 99 99· která měří odchylku chování od chování normálních zákazníků. Explicitní údaj testu se nemůže uskutečnit, protože jsou k dispozici jenom data o podvodnících obou již jmenovaných tříd. Jako alternativa k odchylce chování účastníka od chování normálních zákazníků se může přirozeně také měřit odchylka od podvodného chování použitím R“1 . Pomocí těchto distancí jsme v situaci, že můžeme lépe přehlédnout chování účastníků a testovat odchylky. Na základě omezeného počtu odlišitelných typů podvodníků v datech, která jsou k dispozici, ale není možné další pozorování vícedimenzionálních testů na útlum k současnému časovému okamžiku.
Jako další postup testu k rozpoznávání podvodníků se může používat Fisherova diskriminantní analýza, která je založena na oddělení podvodníků od normálních zákazníků pomocí roviny. Hledá se lineární funkce a fx, která maximalizuje poměr čtverců vzdáleností mezi oběma skupinami účastníků a tyto tak odděluje od sebe. Vektor a je přitom vlastní vektor k největší vlastní hodnotě matice W^B, která se vypočítává z
B
Přitom ni. dává počet dat normálních zákazníků a n- počet dat podvodníků. Příslušný vlastní vektor a vyplývá jako a = Navrhuje se statistika testu
80666 (80666b)
PV 2000 - 3776 < 4
I 4 » i •4 ··«· upiavena strana » · · · · • · · * .·* ·· *·· ď W_1{X - - (μ + Y) } která používá polohu bodu ke sřednímu bodu spojovací dráhy mezi pa Ϋ. Pro použití k definování problému rozpoznání podvodu je ostatně u provozovatele sítě účelné, tuto testovací hodnotu používat v jiném měřítku, což samo o sobě nemá žádný vliv na správnost postupu. Výsledky použití Fisherovy diskriminantní analýzy jsou znázorněny na obrázku
28. Na ose y jsou vyneseny hodnoty statistiky (1) hodnot i/rií pro čestné uživatele a hodnot j/n2 pro podvodníky.
Ukazuje se, že přibližně 30 % dat podvodníků leží pod čarou danou y = 0.0025. Nechá se očekávat, že pomocí příslušného diskriminantního testu vynikne vysoký podíl podvodníků. Všimněme si, že různé datové soubory patří stejné osobě; v pojednávaném případu existuje 213 datových souborů k 57 rozpoznaným podvodníkům. 30 % odpovídá přibližně 70 datových souborů, které byly rozpoznány jako podvodné.
Algoritmus k rozpoznání podvodu
Jsou dána nová pozorování X a kvantily
1. Vypočítej transformaci hlavních komponent X = Τ'(X - μ)
2. Otestuj transformaci na
1/2
80666 (80666b)
PV 2000 - 3776 • «· : i : upravena s^ana ! ···· »*t* ;
« «1 » «»· · · * »1 «1*1 ·· ·<· ·· ···
X > Qj_a pro i X je podvodník, jdi na 3.
Xi < Qi_a pro ϊ X je normální zákazník, jdi na 4.
3. Modifikace očekávané hodnoty a kovarianční matice u podvodníků
ΠΥ±Χ η + 1 „ , nRb + (X - ΫξΧ - Ϋ)' Rt * Ι7Ξ
4. Modifikace očekávané hodnoty a kovarianční matice u normálních zákazníků _ ημ + X μ <--Γη + 1 Re nRe + (X - μΧΧ - μ) η + 1
Posouzení zvolených filtrů MEGS
V tomto oddíle se vyhodnocují zvolené filtry systému MEGS ve smyslu pravděpodobností chyb 1. a 2. typu, které se získávají z empirického modelu rozdělení telefonních čísel.
Každý filtr i se může chápat jako test hypotézy
Ηθ : účastník není podvodník
H( : účastník je podvodník tzn. zákazník je podchycen filtrem i, tedy se akceptuje
1680666 (80666b)
PV 2000 - 3776 ··· · · · ··*·*·« · ·*· ·· ··· hypotéza Η*, tedy jeho podvodný úmysl.
U testů hypotéz tohoto typu se mohou udělat dvě různé chyby. Normální zákazník se může jednak mylně rozpoznat jako podvodník. Tento omyl se nazývá chyba 1. typu, nebo také a chyba. Jednak se může přirozeně přihodit, že se u testovaného účastníka jedná o podvodníka a test se přesto rozhoduje pro hypotézu . Toto se potom označuje jako chyba 2. typu, nebo jako β - chyba. Ve smyslu stanovení problému je účelné, omezit chybu 1. typu, aby se zbytečně neztráceli zákazníci, jejichž připojení bylo mylně zablokováno.
Dříve zmíněné pravděpodobnosti chyb by se nyní měly popsat na základě zjištěných empirických pravděpodobností, abychom tak získali měřítko hodnocení použitých filtrů. Následující tabulka ukazuje soupis výsledků tohoto vyšetřování.
16Θ0666 (80666b)
PV 2000 - 3776 ; i’ ί ; ;
·*· · * · · * -ϊ.
·« ·· ··· ·· ···
popis filtru ot-chyba β-chyba
Ό190* 100 DM/den 0.000042 0.987325
'roaming' > 500 DM/den 0.000004 1
světová zóna 2+9 > 300 DM/den 0 0.995955
1 zavolání světová zóna 2 0.000462 0.837108
1 zavolání světová zóna 8 0.000389 0.989753
1 zavolání světová zóna 9 0.000189 0.898056
2 zavolání/den ve světové zóně 2+5 0.000160 0.991640
2 zavolání/den ve světové zóně 2+8 0.000162 0.994337
2 zavolání/den ve světové zóně 2+9 0.000468 0.990291
2 zavolání/den ve světové zóně 5+8 0.000121 0.994876
2 zavolání/den ve světové zóně 5+9 0.000430 0.989482
2 zavolání/den ve světové zóně 8+9 0.000431 0.992179
5 zavolání/den ve světové zóně 2 0.000016 0.995146
5 zavolání/den ve světové zóně 5 0.000012 0.997303
5 zavolání/den ve světové zóně 9 0.000062 0.994876
α-chyba se počítá jako relativní četnost příslušného filtru u účastníků bez podvodného úmyslu a β-chyba jako 1relativnl četnost filtru u podvodníků.
Nechá se rozpoznat, že pozorované filtry vykazují velmi malou pravděpodobnost chyby 1. typu, ale také velmi vysokou β-chybu.
Provozovatel sítě používá ještě velký počet dalších filtrů, které se ale k tomuto okamžiku nemohou vyhodnocovat, protože tyto používají stáři zákazníka, tedy jeho příslušnost k třídě, která bohužel není obsažena v datech, která jsou k dispozici.
80666(80666b)
PV 2000 - 3776 ^1^· *« 4 *
4·4 αιια ···
Přehled obrázků na výkresech
Vynález bude blíže vysvětlen prostřednictvím konkrétních příkladů provedení znázorněných na výkresech, na kterých představuje obr. 1 relativní normálních četnost zákazníků, obratů hovorů obr. 2 relativní četnost obratů hovorů u podvodníků, obr. 3 relativní četnost počtu volání na den u podvodníků, obr. 4 obr. 5a a 5b tabulka hodnot empirického rozdělení cílových telefonních čísel, tabulka dat rozšíření modelu pro různá mezinárodní telefonní čísla, obr. 6 tabulka četnosti volání 2 ciziny do
Německa podle cílových telefonních čísel (účastníci bez podvodného úmyslu), obr. 7 tabulka četnosti volání z ciziny do
Německa ve srovnání s ostatními cílovým zeměmi (účastníci bez podvodného úmyslu), obr. 8 tabulka četnosti zavolání z ciziny do
Německa od účastníků s podvodným úmyslem,
80666 (80666b)
PV 2000 - 3776 obr. 9 i . . · . -ír -t-ir *»'«·»« : ·: · t • ft ···· ·· ··· ·· ··· tabulka četnosti zavolání z ciziny od účastníků s podvodným úmyslem, obr. 10 a obr. 11 empirické hodnoty cílových telefonních čísel účastníků s podvodným úmyslem, obr. 12 až 16 empirická střední hodnota a empirický rozptyl doby rozhovoru u normálních zákazníků a u podvodníků, obr. 17 až 18 empirické hodnoty rozdělení obratu u normálních zákazníků a u podvodníků, obr. 19 kontingenční tabulka pro test na párovou nezávislost telefonních čísel v určitém časovém intervalu pozorování, obr. 20 znázornění hlavních komponent, přiřazených 612 nebo 622, obr. 21 výsledek analýze, k Fisherově diskriminantní obr. 22 přístrojově-technické znázornění průběhu způsobu podle obr. 23,
obr. 23 vývojový podvodu s diagram přístroj i způsobu k podle obr. 22 rozpoznání
obr. 24 četnosti denních obratů u normálních
zákazníků (výřez),
obr. 25 relativní četnosti počtů volání na den u
Θ0666 (00666b) PV 2000 - 3776 obr obr obr oyana « · ·· ·«·· • 9 · * 9 • · » · ««· ·* ·*· normálních zákazníků a aproximace pomocí funkce (výřez), celkový denní obrat vzhledem k obratu na číslech 190, hlavní komponenty, přiřazené σ2 popř. σ' výsledek Fisherovy diskriminantní analýzy.
Příklady provedení vynálezu
Tabulka podle obr. 4 obsahuje hodnoty empirického rozdělení cílových telefonních čísel pro profily Tz = (ti, t2, tj.2} - Přitom je třeba respektovat, že různé kategorie, jako například 'Service' a 'MTC' se ještě dále člení, aby se mohly lépe extrahovat z předložených dat jednotlivých spojení. Ve druhé tabulce podle obr. 5 jsou obsažena data rozšíření modelu pro různá mezinárodní telefonní čísla. Přitom se jedná o rozštěpení kategorie 'mezinárodní spojení'. Databáze se skládá z 1391739 pozorování.
V tabulce podle obr. 6 a obr. 7 jsou pro účastníky bez podvodného úmyslu uvedena speciálně ještě jednou volání z ciziny do Německa, tedy ta s předvolbou 0049. Relativní četnosti se zde vztahují na příslušný počet spojení 0049 v předcházející tabulce.
Zcela analogicky k tabulkám účastníků bez podvodného úmyslu jsou na obrázcích 8, 9 a 10 vypsány empirické hodnoty cílových telefonních čísel podvodníků ve třech tabulkách.
80666(80666b)
PV 2000 - 3776 • · »· ··♦· • « *4 --• · · • · ·
Obr. 8 přitom uvádí četnost zvolených cílových kategorií, zatímco obrázek 9 (s pokračováním pomocí obrázku 10) ukazuje předvolby, zvolené podvodníky z ciziny, a jejich četnost. Na obr. 11 je zobrazena cílová kategorie, zvolená podvodníky jako nejčastější.
V tabulkách obrázků 13 až 18 jsou znázorněny empirické hodnoty pro rozdělení u určených kategorií cílových telefonních čísel. Obrázek 12 ukazuje rozdělení doby trvání rozhovoru u normálních zákazníků a obrázek 13 u podvodníků.
Obrázek 14 ukazuje počet volání na den u normálních zákazníků a obrázek 15 u podvodníků.
Obrázek 16 a 17 ukazuje rozdělení obratu u normálních zákazníků a obrázek 18 u podvodníků.
Obrázek 19 ukazuje konečně test nezávislosti pro kategorie cílových telefonních čísel. Tabulka ukazuje kontingenční tabulku pro test na párovou nezávislost kategorií telefonních čísel. Přitom je třeba dbát toho, že nebyla pozorována žádna čísla '0130', jedná se tedy o tabulku 9x9, která má příslušné X2 (Chi-Quadrat) rozdělení, tedy 64 stupňů volnosti. Při vysoké hodnotě statistuky restu se hypotéza nezávislosti přirozeně odmítá pro všechny vhodné úrovně a. Z odmítnutí párové stochastické nezávislosti vyplývá, že nemůže platit žádná společná stochastická nezávislost kategorií cílových telefonních čísel. Toto platí adekvátně pro všechny dny.
Obrázek 20 ukazuje grafické znázornění hlavních komponent, přiřazených σ2 popř. σ2, zatímco obrázek 21 ukazuje výsledek Fisherovy diskriminantní analýzy jako
80666 (80666b,
PV 2000 - 3776
- w|/iav95ii«i strana «·* · · » · • · » · · · ·· · · ·· #·· grafické znázornění.
Obr. 22 ukazuje přístrojově-technické provedení způsobu podle vynálezu, které je znázorněno jako blokové schéma na obr. 23.
Ve znázorněném kroku 1 jsou příkladně znázorněny telekomunikační síťové členy. Označení M5C znamená mobilní ústřednu, znázorněnou počítačem ústředny, zatímco VMS je takzvaný Voice Mail System, se kterým se vytvářejí síťové hlasové výstupy závislé na uživateli. Přístrojové jednotky VAS-NE znamenají dodatečné síťové členy, jako např. členy zpoplatňování a další. Datové soubory provozovatele sítě, které se vytvářejí v tomto přístrojovém prostředí, se přenášejí přes signalizační systém č. 7 (Filé Transfer Access and Management) k počítači k rozpoznání zneužití.
Tento počítač se také označuje jako server zákaznických dat.
Zde zmíněný signalizační systém č. 7 (FTAM) je 7-vrstvý protokol, který přenáší celé svazky datových souborů najednou. Jedná se tedy o datové pole (Filé), ve kterém je obsaženo mnoho tisíc datových souborů, které se Online přenášejí na server zákaznických dat.
V kroku 2 se nechá probíhat celý 2působ, jehož blokový diagram je na obr. 22 a 23 vyznačený jako krok 2. Důležité je, že kroky výpočtu, jako transformace hlavních komponent (Fisherova diskriminantní analýza a všechny ostatní kroky výpočtu) probíhají v reálném čase na tomto počítači.
Vypočítají se výsledky a mohou se v kroku 3 přenášet v reálném čase na zákaznickou pracovní stanici (Customer Care Workstation) . U konzole této stanice nyní sedí obsluhující osoba,- a na její obrazovce vzniká optický a/nebo
80666 (80666b)
PV 2000 - 3776
·· ··*· ~r*MtvafM φίαιια · · · · • · * · ««« ·» ··· akustický alarm, pokud se rozpoznalo zneužití. Obsluhující osoba potom může ještě během probíhajícího neoprávněného hovoru zasáhnout a například tento hovor přerušit, nebo zabránit opakované volbě atp. Může se rovněž vydat akustická výstraha, týkající se zneužití.
Existuje také zpětné hlášení od zákaznického serveru na počítač, týkající se zneužití. Obsluhující osoba může například změnit na zákaznickém počítači (při vyvolaném alarmu) práh alarmu nebo jiná kritéria zakročení. Tato data se sdělují počítači, týkajícího se zneužití, který se z nich učí a zahrnuje je do svých výpočtů.
Obrázek 23 ukazuje vývojový diagram způsobu podle vynálezu. Zde probíhající kroky jsou uloženy ve znacích nároku 1.
Důležité je zpětné vedení z funkčních bloků, uspořádaných v obrázku na spodním okraji. Přes toto zpětné vedení se uskutečňuje aktualizace vypočítaných kovariančních a středních hodnot. Systém má tedy schopnost se sám učit.
Vyšetřování datového materiálu, který je k dispozici, ukázalo, že se chování účastníků s podvodným úmyslem nechá v podstatě charakterizovat jenom dvěma znaky. Dosažené výsledky v příkladném provedení a znázorněných tabulkách se vztahují na příkladný datový soubor provozovatele sítě. Na základě existujících dat se mohly určit pouze dvě různé skupiny účastníků s podvodným úmyslem.
Zastupuje:
Dr. Miloš Všetečka v.r.
1680666 (80666b)
PV 2000 - 3776 : ; ^w^ega-^trana auvundl ,· .»·* ·»·· ·
12000Praha2,Hálkova2 *··* ·♦♦ ·· ···

Claims (8)

  1. PATENTOVÉ NÁROKY
    1. Způsob rozpoznání zneužití služeb provozovatele sítě zákazníkem pomocí online analýzy datových souborů, vztažených k zákazníkovi, s následujícími kroky:
    1. Online zjištění souboru vstupních dat ze síťových elementů z následujících komponent:
    1.1 kumulované datové soubory přes pevný časový interval, např. 30-denní datové soubory;
    1.2 data jednotlivých spojení poslední doby, povolená z hlediska zákonné ochrany dat, ve dnech (t. č. 5 dní): cílové telefonní číslo, doba trvání hovoru, typ spojení atd;
    1.3 data, specifická pro zákazníka (stáří zákazníka v síti, typ platby atd.);
  2. 2. Akumulování vstupních znaků podle tříd (typ cílového telefonního čísla, počty hovoru, typy hovorů atd.);
  3. 3. Provádění analýzy hlavních komponent:
    3.1 Provádění analýzy hlavních komponent na datových souborech již rozpoznaných podvodníků;
    3.2 spektrální rozložení příslušné kovarianční matice;
    3.3 určení relevantních hlavních komponent;
    3.4 klasifikace hlavních komponent, relevantních pro podvodné chování;
  4. 4. Transformace hlavních komponent nedetekovaných datových souborů na základě spektrálního rozkladu kovarianční matice v kroku 3
  5. 5. Znázornění hlavních komponent datových souborů a diskriminace popř. podvodného chování
  6. 6. Odhad a zjištění empirického kvantilu hlavních komponent k řízení pravděpodobností chyb prvního a druhého typu při automatickém detekování a generování alarmů;
    16 80666 (80666b)
    PV 2000 - 3776 • * · • · · « · φ ·· ··«· ’ ϊ granit · φφφ· ·
  7. 7. Fisherova diskriminantní analýza ke zjištění dělicí nadroviny mezi datovými soubory identifikovaných podvodníků a normálních zákazníků, s grafickým znázorněním
  8. 8. Odhad a zjištění empirických kvantilů promítnutých dat k řízení pravděpodobností chyb 1. a 2. typu při automatickém detekování a generování alarmu.
    2. Způsob podle nároku 1, vyznačující se tím, že v kroku 2 způsobu se každý datový soubor z akumulovaných dat znázorňuje vysoce dimenzionálním reálným vektorem.
    3. Způsob podle nároku 1 nebo 2, vyznačující se tím, že v 5. kroku způsobu se hlavní komponenty datových souborů znázorňují graficky. 4. Způsob podle některého z nároků 1 až 3, vyznačující se tím, že v 5. kroku způsobu se zjištěné podvodné chování znázorňuje vizuálně. 5. Způsob podle některého z nároků 1 až 4, vy značující se tím, že datové soubory uživatelů se
    analyzují podle jejích hovorových znaků a člení se do přidělených tříd, a že rozčlenění do tříd se uskutečňuje na základě chování, že určité pozdravy vyznačují zákazníky s podvodným úmyslem a že se podstatně odlišuje od individuálního chování ostatních účastníků.
    6. Způsob podle některého z nároků 1 až 5, vyznačující se tím, že chování zákazníků s podvodným úmyslem se vyznačuje následujícími dvěma znaky:
    1. zneužití čísel 0190 a zároveň
    2. vedení nápadného množství zahraničních hovorů ve zkoumaném období.
    16 80666(80666b)
    PV 2000 - 3776 • * · • · · *· ····
    Μ J vija ^rčind
    4 · 4 * 4 4 4 4 4 «44 4« ···
    7. Způsob podle některého z nároků 1 až 7, vyznačující se tím, že algoritmus k rozpoznání podvodu se skládá z následujících vztahů:
    Jsou dána nová pozorování X a kvantily Q1 1_a
    1. Vypočítej transformaci hlavních komponent X = Tr(X - μ
    Otestuj transformaci na
    X, < i = 1,2
    X > Ota pro i \ QÍ-α Pr0 1
    X je podvodník, jdi na 3
    X je normální zákazník, jdi na 4
    3. Modifikace očekávané hodnoty a kovarianční matice u podvodníků „ nY + X
    R>
    ··?-. + (x - -'(< - Ů η + 1
    4. Modifikace očekávané hodnoty a kovarianční matice u normálních zákazníků ημ + X η + 1
    16 80666 (80666b)
    PV 2000 - 3776
    ; i · · ; • · · *: i • · · · · • a ··· ·* - r--jM^uand • · • • ♦ · • · · ·« ··· nRe + (x - μΧχ - μ)' η + 1 8. Způsob podle některého z nároků 1 6,
    vyznačující se tím, že rozpoznání podvodníků se uskutečňuje Fisherovou diskriminantní analýzou.
CZ20003776A 1999-02-11 2000-02-11 Zpusob rozpoznání zákaznického zneužití služeb provozovatele síte pomocí online analýzy datových souboru, vztažených k zákazníkovi CZ300962B6 (cs)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19905884A DE19905884B4 (de) 1999-02-11 1999-02-11 Verfahren zur Erkennung von kundenbezogenen Mißbräuchen von Dienstleistungen des Netzbetreibers mittels Online-Analyse von kundenbezogenen Datensätzen

Publications (2)

Publication Number Publication Date
CZ20003776A3 true CZ20003776A3 (cs) 2001-03-14
CZ300962B6 CZ300962B6 (cs) 2009-09-23

Family

ID=7897299

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ20003776A CZ300962B6 (cs) 1999-02-11 2000-02-11 Zpusob rozpoznání zákaznického zneužití služeb provozovatele síte pomocí online analýzy datových souboru, vztažených k zákazníkovi

Country Status (9)

Country Link
EP (1) EP1072165B1 (cs)
AT (1) ATE300159T1 (cs)
AU (1) AU2910500A (cs)
CZ (1) CZ300962B6 (cs)
DE (2) DE19905884B4 (cs)
ES (1) ES2246225T3 (cs)
PL (1) PL343458A1 (cs)
RU (1) RU2263408C2 (cs)
WO (1) WO2000048418A1 (cs)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006062210A1 (de) * 2006-12-22 2008-06-26 Deutsche Telekom Ag Verfahren zur Frauderkennung bei Roamingverbindungen in mobilen Kommunikationsnetzen
WO2015091784A1 (en) * 2013-12-19 2015-06-25 Bae Systems Plc Data communications performance monitoring
US10601688B2 (en) 2013-12-19 2020-03-24 Bae Systems Plc Method and apparatus for detecting fault conditions in a network
GB201322573D0 (en) * 2013-12-19 2014-02-05 Bae Systems Plc Data communications performance monitoring
KR20200034020A (ko) 2018-09-12 2020-03-31 삼성전자주식회사 전자 장치 및 그의 제어 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US596650A (en) * 1898-01-04 Car-ventilator
GB2303275B (en) * 1995-07-13 1997-06-25 Northern Telecom Ltd Detecting mobile telephone misuse
DE19729630A1 (de) * 1997-07-10 1999-01-14 Siemens Ag Erkennung eines betrügerischen Anrufs mittels eines neuronalen Netzes
GB9715497D0 (en) * 1997-07-22 1997-10-01 British Telecomm A telecommunications network
DE19743561B4 (de) * 1997-10-01 2006-02-16 T-Mobile Deutschland Gmbh Verfahren zur Authentisierung von Teilnehmern eines digitalen Mobilfunknetzes

Also Published As

Publication number Publication date
WO2000048418A1 (de) 2000-08-17
DE19905884A1 (de) 2000-08-31
PL343458A1 (en) 2001-08-13
DE50010735D1 (de) 2005-08-25
AU2910500A (en) 2000-08-29
CZ300962B6 (cs) 2009-09-23
RU2263408C2 (ru) 2005-10-27
EP1072165B1 (de) 2005-07-20
ES2246225T3 (es) 2006-02-16
DE19905884B4 (de) 2005-01-13
EP1072165A1 (de) 2001-01-31
ATE300159T1 (de) 2005-08-15

Similar Documents

Publication Publication Date Title
Umayaparvathi et al. A survey on customer churn prediction in telecom industry: Datasets, methods and metrics
Xing et al. Employing latent dirichlet allocation for fraud detection in telecommunications
CN109274834B (zh) 一种基于通话行为的快递号码识别方法
CN107679046A (zh) 一种欺诈用户的检测方法及装置
Sánchez‐Meca et al. Testing continuous moderators in meta‐analysis: A comparison of procedures
CN117993919A (zh) 一种基于多特征融合的银行反电诈数据模型构建方法
CN107230154A (zh) 具有团伙欺诈风险的寿险理赔案件的识别方法及装置
CN111445259A (zh) 业务欺诈行为的确定方法、装置、设备及介质
CZ20003776A3 (cs) Způsob rozpoznání zákaznického zneužití služeb provozovatele sítě pomocí online analýzy datových souborů, vztažených k zákazníkovi
JP2005505193A (ja) 電気通信システムにおける不正行為を妨げるために、悪い請求番号レコードを使用するための方法およびシステム
Ząbkowski et al. Insolvency modeling in the cellular telecommunication industry
CN113919932A (zh) 一种基于贷款申请评分模型的客户评分偏移检测方法
CN116781431A (zh) 一种基于流量特征的api接口异常行为监测方法
CN108874619B (zh) 一种信息监控方法、存储介质和服务器
CN109510903B (zh) 一种识别国际诈骗号码的方法
CN110706118A (zh) 基于数据分析的风险案件筛选方法及相关设备
CN112615966B (zh) 一种猫池终端识别方法
CN109902545A (zh) 用户特征分析方法及系统
Kim Mobile Subscribers' Willingness to Churn Under the Mobile Number Portability (MNP)
Mandić et al. Performance comparison of six Data mining models for soft churn customer prediction in Telecom
TR202020455A2 (tr) Ri̇skli̇ aboneleri̇n tespi̇t edi̇lmesi̇ni̇ sağlayan bi̇r si̇stem
Nonyelum Fraud Detection in Mobile Communications Using Rule-Based and Neural Network System.
Mandić et al. Performance comparison of Machine Learning methods for customer churn prediction in Telecom
CN116975765A (zh) 异常交易数据检测方法、装置、设备及存储介质
CN116665708A (zh) 一种违规业务操作检测系统及其方法

Legal Events

Date Code Title Description
MM4A Patent lapsed due to non-payment of fee

Effective date: 20170211