CZ300962B6 - Zpusob rozpoznání zákaznického zneužití služeb provozovatele síte pomocí online analýzy datových souboru, vztažených k zákazníkovi - Google Patents

Zpusob rozpoznání zákaznického zneužití služeb provozovatele síte pomocí online analýzy datových souboru, vztažených k zákazníkovi Download PDF

Info

Publication number
CZ300962B6
CZ300962B6 CZ20003776A CZ20003776A CZ300962B6 CZ 300962 B6 CZ300962 B6 CZ 300962B6 CZ 20003776 A CZ20003776 A CZ 20003776A CZ 20003776 A CZ20003776 A CZ 20003776A CZ 300962 B6 CZ300962 B6 CZ 300962B6
Authority
CZ
Czechia
Prior art keywords
data
customer
main components
fraudulent
behavior
Prior art date
Application number
CZ20003776A
Other languages
English (en)
Other versions
CZ20003776A3 (cs
Inventor
Hager@Rolf
Mathar@Rudolf
Hellebrandt@Martin
Töx@Reinhold
Original Assignee
T-Mobile Deutschland Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by T-Mobile Deutschland Gmbh filed Critical T-Mobile Deutschland Gmbh
Publication of CZ20003776A3 publication Critical patent/CZ20003776A3/cs
Publication of CZ300962B6 publication Critical patent/CZ300962B6/cs

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/121Wireless intrusion detection systems [WIDS]; Wireless intrusion prevention systems [WIPS]
    • H04W12/122Counter-measures against attacks; Protection against rogue devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Complex Calculations (AREA)

Abstract

Zpusob má následující kroky: a) online zjištení souboru vstupních dat ze sítových elementu; b) akumulování vstupních znaku podle tríd: typ cílového telefonního císla, pocty hovoru, typy hovoru; c) provádení analýzy hlavních komponent; d) transformace hlavních komponent nedetekovaných datových souboru na základe spektrálního rozkladu kovariacní matice v kroku c); e) znázornení hlavních komponent datových souboru a diskriminace popr. podvodného chování; f) odhad a zjištení empirických kvantilu hlavních komponent k rízení pravdepodobností chyb prvního a druhého typu pri automatickém detekování a generování alarmu; g) Fischerova diskriminantní analýza ke zjištení delicí nadroviny mezi datovými soubory identifikovaných podvodníku a normálních zákazníku, s grafickým znázornením; h) odhad a zjištení empirických kvantilu promítnutých dat k rízení pravdepodobnosti chyb 1. a 2. typu pri automatickém detekování a generování alarmu.

Description

Vynález se týká způsobu rozpoznání zneužití služeb provozovatele sítě zákazníkem pomocí Online analýzy datových souborů, vztažených k zákazníkovi.
Dosavadní stav techniky
Sice jsou již známy způsoby typu, uvedeného na začátku, tyto ale trpí nevýhodou, že pracují pomalu a nepřesně a relativně Často vytvářejí nežádoucí chybný alarm.
Podstata vynálezu
Vynález má proto za úkol, vytvořit podstatně vyšší pravděpodobnost detekování zneužití vůči 20 existujícím způsobům, přičemž se má dosáhnout menší pravděpodobnost chybného alarmu (falešně podezřelý normální zákazník) vzhledem k existujícím způsobům.
Tento úkol je řešen způsobem rozpoznání zneužití služeb provozovatele sítě zákazníkem pomocí online analýzy datových souborů, vztažených k zákazníkovi, který se vyznačuje následujícími kroky:
a) Online zjištění souboru vstupních dat ze síťových elementů z následujících komponent:
i) kumulované datové soubory přes pevný časový interval, zejména 30-denní datové soubory;
ío ii) data jednotlivých spojení poslední doby, povolená z hlediska zákonné ochrany dat, ve dnech obsahující: cílové telefonní číslo, dobu trvání hovoru, typ spojení;
iii) data, specifická pro zákazníka, obsahující zejména: stáří zákazníka v síti, typ platby;
b) Akumulování vstupních znaků podle tříd: typ cílového telefonního čísla, počty hovorů, typy hovorů;
c) Provádění analýzy hlavních komponent;
i) Provádění analýzy hlavních komponent na datových souborech jíž rozpoznaných podvodníků;
i i) spektrální rozložení příslušné kovarianční matice;
iii)určení relevantních hlavních komponent;
ΐίίί) klasifikace hlavních komponent, relevantních pro podvodné chování;
d) Transformace hlavních komponent nedetekovaných datových souborů na základě spektrální45 ho rozkladu kovarianční matice v kroku c);
e) Znázornění hlavních komponent datových souborů a diskriminace popř. podvodného chování;
f) Odhad a zjištění empirických kvantilů hlavních komponent k řízení pravděpodobností chyb prvního a druhého typu při automatickém detekování a generování alarmů;
g) Fisherova diskriminantní analýza ke zjištění dělicí nadroviny mezi datovými soubory identifikovaných podvodníků a normálních zákazníků, s grafickým znázorněním;
h) Odhad a zjištění empirických kvant i lů promítnutých dat k řízení pravděpodobností chyb 1. a
2. typu při automatickém detekování a generování alarmu.
Výhodné provedení způsobu podle vynálezu spočívá v tom, že v kroku b) způsobu se každý datový soubor z akumulovaných dat znázorňuje vysoce dimenzionálním reálným vektorem.
io Další výhodné provedení způsobu podle vynálezu spočívá v tom, že v kroku e) způsobu se hlavní komponenty datových souborů znázorňuje graficky.
Další výhodné provedení způsobu podle vynálezu spočívá v tom, že v kroku e) způsobu se zjištěné podvodné chování znázorňuje vizuálně.
Další výhodné provedení způsobu podle vynálezu spočívá v tom, že datové soubory uživatelů se analyzují podle jejich hovorových znaků a člení se do přidělených tříd, a že členění do tříd se uskutečňuje na základě chování, které vyznačuje skupiny Účastníků s podvodným úmyslem a které se podstatně odlišuje od individuálního chování ostatních účastníků.
Další výhodné provedení způsobu podle vynálezu spočívá vtom, že chování zákazníků s podvodným úmyslem se vyznačuje následujícími dvěma znaky:
a) zneužití čísel 0190 a zároveň
b) vedení nápadného množství zahraničních hovorů ve zkoumaném období.
Další výhodné provedení způsobu podle vynálezu spočívá v tom, že algoritmus k rozpoznání podvodu se skládá z následujících vztahů:
Jsou dána nová pozorování X a kvantity Q'i_(1
a) Vypočítej transformaci hlavních komponent í5 Χ=Τ'(Χ-μ)
b) Otestuj transformaci na \ < Qt„, i = 1,2 40
c) Aktualizace očekávané hodnoty a kovariační matice u podvodníků
Y 4nY + X η + 1 nRb + (x - yXx - y)’ n 4* 1
d) Aktualizace očekávané hodnoty a kovarianční matice u normálních zákazníků
CZ 300962 Bó μ <“ nRe + (X - μΧχ - μ)' η + 1 kde:
X jsou ještě nedetekované datové soubory, které patří k účastníkovi a které ještě nebyly zkoumány způsobem na rozpoznání podvodu, μ je očekávaný vektor X, ίο T je matice, která byla vypočítána v rámci transformace hlavních komponent již rozpoznaných podvodníků, obsahuje co do chování relevantní informace podvodníků a slouží jako váha, tzn. vztažný bod pro ještě neklasifikovaného účastníka,
Qi a kvantily, udávají mez, od které se usuzuje na podvod nebo nikoli, 15
Y je odhadnutá očekávaná hodnota,
Rb je odhadnutá kovariační matice pro zákazníky s podvodným úmyslem,
A je odhadnutá očekávaná hodnota normálního zákazníka, tzn. bez podvodného úmyslu,
Re je odhadnutá kovariační matice pro normálního zákazníka, tzn. bez podvodného úmyslu, n je počet sledování, tzn, datových souborů.
Další výhodné provedení způsobu podle vynálezu spočívá v tom, že rozpoznání podvodníků se uskutečňuje Fisherovou diskriminantní analýzou.
V předloženém popisu vynálezu se datové soubory provozovatele mobilní sítě pro chování uži30 vatele v mobilní radiotelefonní síti rozkládají na soubory pro čestné zákazníky a na soubory pro zákazníky s podvodnými úmysly, logicky a s pomocí výpočetní techniky na základě stochastických modelů. Způsoby k počítačově podporovanému rozpoznání podvodu se vyvíjí nad jednodimenzionálními filtry, implementovanými do MEGS.
Jinými slovy se tedy:
1. S pomocí analýzy hlavních komponent se nabízí grafický nástroj, se kterým se pomocí dvojdimenzionálních diagramů a příslušného zabarvení nechají lehce identifikovat data podvodníků. Toto se děje pomocí vizuální inspekce nebo automatického, vnitřního počítačového testu.
2. Na základě Fisherovy diskriminantní analýzy se navrhuje automatický test, který simultánně identifikuje z vysoce dimenzionálních datových souborů takové, které patří podvodníkům.
Oba způsoby se při nepatrných nárocích na výpočet vyznačují malou pravděpodobností chyby 1.
a 2. typu. Toto znamená vysokou pravděpodobnost detekování při nepatrném počtu chybných alarmů.
_ 3 _
Způsob se v podstatě sestává z následujících kroků, které se, řízeny programem, provádějí v zařízení na zpracování dat:
1. Zjištění vstupních datových souborů z následujících složek:
1.1 kumulované datové soubory přes pevný časový interval, např. 30-ti denní datové soubory;
1.2 data jednotlivých spojení poslední doby, povolená z hlediska zákonné ochrany dat, např. 5 dní: cílové telefonní číslo, doba trvání hovoru, typ spojení atd.;
1.3 data, specifická pro zákazníka, např. stáří zákazníka v síti, typ platby atd..
ío 2. Akumulování vstupního čísla, počty hovorů, typy hovorů atd.): každý datový soubor z akumulovaných dat se znázorňuje vysoce dimenzionálním reálným vektorem.
3. Provádění analýzy hlavních komponent:
3.1 Provedení analýzy hlavních komponent na datových souborech již rozpoznaných podvodní15 ků;
3.2 spektrální rozklad příslušné kovarianční matice;
3.3 určení relevantních hlavních komponent;
3.4 klasifikace hlavních komponent, relevantních pro podvodné chování.
4. Transformace hlavních komponent nedetekovaných datových souborů na základě spektrálního rozkladu kovarianční matice v kroku 3,
5. Znázornění (eventuálně grafické) hlavních komponent datových souborů a, eventuálně vizuální, diskriminace příp. podvodného chování.
6. Odhad a zjištění empirických kvantil hlavních komponent k řízení pravděpodobnosti chyb prvního a druhého typu při automatickém detekování a generování alarmu.
7. Fisherova diskriminantní analýza k určení dělicí nadroviny mezi datovými soubory identifikovaných podvodníků a normálních zákazníků s grafickým znázorněním.
8. Odhad a zjištění empirických kvantil množství promítnutých dat k řízení pravděpodobnosti chyb 1. a 2. typu při automatickém detekování a generování alarmů.
Přednost způsobu podle vynálezu jsou následující:
I. jednoduchá schopnost výpočtu za podmínek reálního času: nutné jsou pouze vektorové součty, násobení a maticová inverze;
2. způsob je nezávislý na architektuře počítače a protokolu;
3. způsob zahrnuje možnost automatického, vnitřního počítačového testu na podvodný úmysl s následným automatickým alarmem;
4. datové soubory, korespondující se zneužitím, se mohou za účelem detekování znázorňovat graficky: optická rozlišitelnost;
5. způsob se učí z minulých datových souborů, aktuální datové soubory se tak mohou lépe diskriminovat;
6. způsob je schopný adaptace na nové podvodné profily.
Definování problému
Cílem tohoto vynálezu je včasné rozpoznání podvodných úmyslů ze strany uživatelů mobilní radiotelefonní sítě. Tím se musí omezit finanční ztráty provozovatele. Přitom se pozorují neje55 nom případy úmyslného zneužití, nýbrž také takové, ve kterých je třeba předvídat, že účastník nebude s to, hradit své náklady na telefon. V této práci se dále mezi těmito dvěma rozdílnými aspekty nerozlišuje.
Chování účastníků a stanovení možného podvodného úmyslu se charakterizují s pomocí statistic5 kých metod a modelů. Za tímto účelem se používají datové soubory, které se evidují k vyúčtování hovorů ze strany provozovatele sítě. Přitom se jedná o data účastníků, jejichž informace se vztahují na Časový interval 80 dní.V těchto takzvaných 80-ti denních datových souborech se nacházejí informace o jednotlivých celkových denních obratech zákazníků, denní obraty při mezinárodních a roamingových spojeních, jakož i příslušnost účastníků k třídě, která zobrazuje io jeho věk v síti, tedy dobu jeho příslušnosti k síti. K testovacím účelům byly vyšetřovány 80-ti denní datové soubory zákaznických segmentů 19 a 28, to znamená zákazníků, jejichž mobilní radiotelefonní číslo začíná 19 nebo 28.
K dispozici jsou dále data jednotlivých spojení zákazníků, ze kterých se nechají vyčíst příslušná cílová telefonní čísla, začátek, trvání a náklady hovoru, jakož i další informace, jako například buňka, ze které byl telefonát veden. Osobní data účastníka, jako jeho MSISDN číslo a cílové telefonní číslo, jsou přitom přirozeně z důvodu ochrany dat buď zakódována, nebo zkrácena. Data jednotlivých spojení se vztahují na účastnické segmenty 19, 28, 30 a 31 a vztahují se vždy na časový interval jednoho týdne. Segmenty 30 a 31 byly vyhledány speciálně, protože se jedná o již velmi dlouhou existující zákaznické segmenty, které dobře zrcadlí chování účastníků bez podvodných úmyslů. Popsaná data účastníka, která jsou podkladem této práce, se dělí na informace, které patří zákazníkům bez podvodných úmyslů a na data od podvodníků, provozovatelem sítě již rozpoznaných a zablokovaných.
Za účelem analýzy chování účastníků s podvodným úmyslem nebo bez něho se v první části zprávy vyvíjejí statistické modely, s jejichž pomocí se mohou vystihnout různé aspekty chování zákazníka, důležité pro rozpoznání podvodu.
Protože se chování zákazníků s podvodným úmyslem pří hovoru znázorňuje jako příliš nehomo30 genní pro společné zpracování, klasifikují se takoví zákazníci podle znaků jejich hovoru. Pro každou takovou třídu se udávají možnosti k identifikací. Třídění se přitom uskutečňuje podle chování, kterým se vyznačuje určitá skupina účastníků s podvodným úmyslem a kterým se signifikantně odlišuje od individuálního chování ostatních účastníků. Přitom se používají metody multivariantní statisticky a diskriminantní analýzy. Toto umožňuje, že se chování zákazníků s podvodnými úmysly přesně popisuje jenom s pomocí dvou znaků a podrobuje s testům, které spočívají na těchto znacích.
V poslední části výzkumů se hodnotí určité filtry ze systému rozpoznávání zneužití MEGS vzhledem kjejich kvalitě, to znamená jejich pravděpodobnosti chyby k rozpoznání podvodníků.
4o Údaje se přitom vztahují na empirická data daná k dispozici, která se shromažďovala systémem MEGS.
Tvorba modelu
K vyšetřování chování účastníků s podvodným úmyslem nebo bez něho se určují charakteristické veličiny rozdělení denního obratu. Následovně se zkoumají příslušnosti k třídám v základních zákaznických segmentech 19 a 28 na jejich využitelnost. Dále se určují empirické rozdělovači funkce a hustoty čítání, potřebné k pozdější analýze filtrů MEGS.
Rozdělení denních obratů
Denní obraty v obou pozorovaných skupinách účastníků se považují za realizace nekorelovaných náhodných proměnných X« pro normální zákazníky a Xb pro podvodníky. Důležité charakteristické znaky obou rozdělení jsou dány empirickou střední hodnotou a empirickým rozptylem pozorování. Seznam zjištěných veličin se nachází v následující tabulce.
- -á .
normální zákazníci podvodníci
očekávaná hodnota 205.88 11738.1
rozptyl 378174 8.95e+Q8
Pro segmenty 19 a 28 existují 80-ti denní datové soubory, ze kterých se ještě jednou počítají empirické střední hodnoty denních celkových obratů pro oba segmenty. Přitom se narozdíl od výše uvedeného výpočtu hodnot z dat jednotlivých spojení také zohledňuje, zda účastník vůbec telefonuje ve stejný den. V následující tabulce jsou uvedeny příslušné hodnoty a počty pozorování.
segment 19... Segment 28...
očekávaná hodnota 0.22539 1.3335
počet pozorování 512703 5876000
io
Nápadný rozdíl v odhadech parametrů mezi segmenty 19 a 28 se nechá vysvětlit tím, že se u segmentu 19 jedná o zcela nový zákaznický segment, ve kterém existuje první použití teprve k časovému okamžiku 11. července 1998. Dále je možno poznamenat, že mnoho nových účastníků tohoto segmentu nově přibylo teprve po 11. červenci. Tak dostaneme empirickou střední hodnotu prvního použití v jednotce MEGS v segmentu 19 takto:
empirická střední hodnota X (první použití) 1269.33
počet pozorování (-účastník v segmentu 19) 18989
Tím se nechá vysvětlit rozdíl segmentů 19 a 28 ohledně jejich empirických středních hodnot, pro20 tože mnoho uživatelů segmentu 19 přichází do úvahy jako uživatele teprve k relativně dlouhému časovému intervalu, tzn. ve dnech před jejich vstupem do sítě je jejich celkový denní obrat od 11. července roven 0, což má samozřejmě okamžitě vliv na empirickou střední hodnotu.
Příslušnost k třídám
K dalšímu vyšetření chování normálních zákazníků se nyní pozoruje příslušnost účastníka k třídám. Podle stáří zákazníka jsou účastníkovi provozovatele sítě přiřazeny třídy A, B, C, D a E, které tvoří dobrý základ pro posuzování platební morálky účastníků.
jo Na základě nedostatečné databáze se tento znak k charakterizování chování účastníků ale dosud nenechal přesně vyšetřit, protože segment 19 obsahuje velmi mladé zákazníky (ve smyslu stáří v síti) a v důsledku toho jsou téměř všichni zákazníci zařízení do třídy A. Podobně pro segment 28. Zde je zařazen převažující podíl zákazníků již do tříd C a D, takže s tímto datovým souborem není možné učinit žádné přesné výpovědi. Další segmenty nejsou při dosavadních vyšetřováních k dispozici, čímž se přesné pozorování rozdělení příslušnosti k třídám nemůže uskutečnit bez dodatečných dat. Četnost příslušností k třídám v segmentech 19 a 28 jsou uvedeny v následující tabulce a mají objasnit výše uvedené závěry.
třída segment 19... segment 28...
neklasífikováno 909 77
třída A 18078 6234
třída B 1 6933
třída C 1 13419
třída D 0 46784
třída E 0 3
Charakterizování chování účastníka na základě dat jednotlivého spojení
Po vyšetření 80-ti denních dat se existující data o spojení jednotlivých hovorů zahrnují do pozorování, protože se v těchto datových souborech nechají najít dodatečné informace o chování zákazníka. Zejména se zpracovávají marginální rozložení, potřebná k analýze filtrů MEGS.
K popisu chování účastníka jsou zde především data o zvoleném cílovém telefonním čísle zákazío nika, doba trvání hovoru uskutečněného volání a počet volání během dne, jakož i rozdělení obratů zvláštního významu, protože ukazují velmi dobře rozdílné aspekty chování zákazníka. K těmto třem znakům byly zhotoveny stochastické modely a rozdělovači předpoklady.
První vyšetření v tomto rámci platí pro rozdělení doby trvání hovoru jednotlivých spojení. Na doby trvání hovoru se nahlíží jako na realizace kontinuální náhodné proměnné D, ačkoliv v datových souborech existují jako diskrétní hodnoty. Grafické znázornění relativních četností dob trvání hovorů je znázorněno na obrázcích 12 a 13.
Jako další se uskutečňuje sestavení modelu k rozdělení cílových telefonních čísel účastníků. Cíl, který zákazník zvolí, se opět považuje za náhodný. Popisuje se pomocí diskrétní proměnné Z, jejíž profil se dále bude vysvětlovat podobněji.
Oblast cílových telefonních čísel se na základě velkého počtu možností dělí do různých kategorií, které potom slouží jako body profilu Z. Toto rozdělení je s několika vysvětlivkami shrnuto v tabulce 1.
T
Předvolby Popis
017*7/0171/0172 předvolby německých poskytovatelů služeb mobilní radiotelefonie
0130/0180/0190 německá čísla předvoleb se speciálními tarify
2.../3883 čísla služeb (Service) provozovatele sítě (např. T-Box)
ostatní všechny ještě nezachycené německé
národní předvolby předvolby
roaming spojení s ostatními mobilními radiotelefonními sítěmi (bez mezinárodního roamingu, žádné oznámení cíle)
MTC MTC-spojení, žádné oznámení cíle (také call forward, International, roaming)
faxové spojení national, International, roaming
mezinárodní celkový počet všech mezinárodních spojení a
předvolby rozdělení podle jednotlivých států (také mezinárodní roaming)
Tabulka 1: kategorie cílových telefonních čísel
Přitom je třeba dbát na to, že se z dat jednotlivých spojení požadují nejenom informace o cílových telefonních číslech, nýbrž dodatečně také ještě takzvaný „Calltype“, který udává, zda se jedná o národní, mezinárodní nebo roamingový hovor a který vykazuje mobile terminated calls ío (MTC),
Volba bodů profilu se uskutečňuje zejména podle hlediska nabíhajících nákladů najeden hovor. Toto se tyká zejména zvláštních čísel 0130 a 0180 a servisních čísel 2.. a 3.., jejichž tarify jsou ve spolkové republice jednotné. Stejný argument platí také pro různé poskytovatele mobilní radio15 telefonie v Německu, kteří se berou jako jedna kategorie. Tarify rozdílných spojení 0190 se sice liší mezi sebou, ale všechna spojení tohoto typu se shrnují v jedné skupině, aby se počet bodů profilu vzhledem k dalším pozorováním příliš nezvětšil. Rozdělení na roamingové, mezinárodní hovory a MTC se sice nevyznaěují jednotlivými náklady, odlišují se ale na základě své tarifní struktury od dosud uvedených kategorií. Aby se nechalo dosáhnout všech cílů, pozorují se doda20 tečně faxová volání, protože se zde nejedná o hovory, ale o přenos dat. Kategorie ostatních národních cílových telefonních čísel nemá žádnou jednotnou strukturu nákladů. Přesto se tato cílová telefonní čísla musí také zachytit, abychom obdrželi úplné vyhodnocení. Na základě rozCZ 300962 B6 manitosti národních čísel předvoleb ajejich tarifních struktur se zde nemůže dále rozdělovat do skupin.
Profil T2 náhodné proměnné se tak nechá znázornit jako
T2= {'0177', '0171; '130', '0180', '0190', ,Service4, 'national', 'roaming', 'MTC', 'Fax', 'intemation al',} =: {ti, t2,t|2} io S pomocí dat jednotlivých hovorů ze segmentů 19, 28, 30 a 31 se nyní určuje empirické rozdělení náhodných proměnných Z. Výčet vypočítaných relativních četností se nachází v obrázcích 4-11. Aby se nalezl ještě přesnější obraz rozdělení cílových telefonních čísel, dělí se bod profilu t|2 = 'International' ještě jednou podle různých mezinárodních předvoleb. Dostaneme tedy rozšířený model, který se popisuje pomocí náhodné proměnné 2s profilem
Tž = { ti, tu, ilř ižř -ř Í225 }
C i=l11 jsou přitom definovány přesně jako nahoře, a body profilu ik, k=l,.„, 225 jsou pro velikost podle 225 různých mezinárodních čísel předvoleb, uspořádaných sestupně.
Také zde je opět empirické rozdělení 2 obsaženo v tabulkách 12-18.
Poté, co bylo popsáno rozdělení cílových telefonních čísel s pomocí právě popsaného modelu a náhodné proměnné Z, nechají se spolu s modelem rozdělení doby hovoru udat některá marginální rozložení, která vyjadřují pravděpodobnosti tvaru
IPÍO = x\Z = tn, i=l, ..., 12 ajejich empirické očekávané hodnoty a rozptyly jsou shrnuty v tabulkách 12-18. Tyto informace se budou používat později, aby se analyzovaly filtry MEGS.
Z diagramů relativních četností počtů volání se nechá odečíst, že N postačuje diskrétnímu rozdělení, jehož hustota čítání má přibližně následující tvar:
35 a(k + b)c, pro k e N
Parametry a, b a c se nechají vypočítat odhadem z existujících dat. Na základě tvaru hustoty čítání ostatně není nutně dána jejich čitatelnost. Obrázek 25 ukazuje relativní četnosti počtů volání u normálních zákazníků a aproximaci empirických hodnot pomocí funkce t (x) =113, 5* (4.34+x)’3,42.
Parametry t(x) se pro toto zobrazení počítaly numericky. Na základě menšího počtu pozorování ukazují grafy počty volání u známých podvodníků větší rozptyl než u zákazníků bez podvodného úmyslu. Příslušné zobrazení se nachází v obrázku 21.
Jak bylo již zmíněno u rozdělení doby trvání hovoru, jsou také u rozdělení počtu volání na den a u rozdělení obratu znázorněna příslušná společná rozdělení pomocí empirické střední hodnoty a empirického rozptylu na obrázcích 12 až 18.
Stochastická závislost cílových telefonních čísel o
Aby se mohly analyzovat filtry systému MEGS, použité provozovatelem sítě, jsou nutné dodatečné informace k rozdělení cílových telefonních čísel.
Tak jsou některé filtry dimenzovány na to, aby zachytily ty účastníky, kteří v jednom dni vícekrát telefonují do určité světové zóny. Empirické pravděpodobnosti převážného telefonování do jedné ze světových zón se u výše popsaného modelu mohou odečítat z obrázků. Pokud by jevy, že hovor spadá do jedné z popsaných kategorií, byly stochasticky nezávislé, mohla by se pravděpodobnost pro to, že se v jednom dni k-krát telefonuje do určité cílové třídy, vyjádřit k-násobným součinem empirických pravděpodobností příslušných tříd u rozdělení Z popr. Z.
Jak jsme se již domnívali, kategorie cílových telefonních čísel ale nejsou stochasticky nezávislé. To se ukazuje, tím že párově stochastickou nezávislost dvou tříd vyvracíme s pomocí testu, založeného na kontingenčních tabulkách.
V dalším se mají pozorovat náhodné proměnné X a Y s nominálním vyjádřením, přičemž X udává kategorii posledního zavolání a Y kategorii příštího hovoru. Mají tedy oba z profilů T=TZ\{'MTC'}. Pod nominálním vyjádřením se přitom rozumí hodnoty, které nepodléhají žádnému marginálnímu rozložení a nejsou srovnatelné, jako třeba body profilu '0171', '180', '190'.
Ke znázornění nominálních náhodných proměnných a jejich vyšetřování se používá koncept kontingenčních tabulek. K tomu mají X I a Y J nominální vyjádření. Existuje tedy M=Í*J možných kombinací k popsání vztah mezi X a Y. Pozorování (X,Y) páru znaků mají pravděpodobnostní rozdělení, které se znázorňuje v tabulce s I řádky a J sloupci. Buňky tabulky reprezentují 1 *J možných výsledků. Jejich pravděpodobnosti se označují Py, přičemž Py udává pravděpodob25 nost, že pozorování spadá do buňky (i, j). Pokud jsou v buňkách četnosti páru znaků, hovoří se O (I x J) kontingentní tabulce.
Pravděpodobnostní rozdělení py je společným rozdělením X a Y. Marginální rozložení, které dostáváme jako řádkové popr. sloupcové součty přes py, se označují pomocí
Pi. = Σ Ph a p.j = Σ ph ί 1
Obecně se přitom musí ještě splnit následující vedlejší podmínka:
Σ Pi. = Σ p.j = Σ Σ Pij =1 1 j
Aby se mohla testovat nezávislost, kontroluje se hypotéza
m. * m.
Ho : Pij - Pí. * p.j popř. mij = —-J n přičemž n je celkový počet všech pozorování a my, m,., m.j udávají příslušné očekávané četnosti. m,j se může vypočítat z pozorovaných četností pomocí odhadu Maximum-Likelihood
Hypotéza Ho se odmítá k úrovni a, když hodnota statistiky testu ť = Σ Σ -J ~A— i = l j = l mij je větší než (1-a) kvantilu příslušného χ2 rozdělení s (H)*(J-1) stupňů volnosti.
S pomocí tohoto testu se může pro každou běžnou a úroveň odmítnout hypotéza párové stochasticky nezávislých kategorií cílových telefonních Čísel při volání v jednom dni.
Plánované vyšetření dat jednotlivých spojení io U vyšetřování chování účastníků s a nebo bez podvodného úmyslu je zvláště zajímavá, jak již bylo zmíněno výše, příslušnost zákazníka k třídě, která dokumentuje jeho platební morálku. Toto rozdělení, provede provozovatelem sítě, bohužel není k dispozici jako informace v datech jednotlivých spojení, takže pro segmenty 30 a 31 se ohledně toho nemohla provést žádná vyšetření. Rozdělení do tříd jsou k dispozici jenom v 80-ti denních datových souborech, tedy pro segmenty
19 a 28. Segment 19 se ovšem nehodí, z důvodů uvedených na úvod, pro vyšetřování tohoto znaku chování. Použití těchto informací je možné teprve tehdy, když je k dispozici dostatečně mnoho dat. Proto se k pozorování tohoto znaku chování vyžaduje příslušnost ke třídě spolu s daty jednotlivého spojení, abychom dostali jisté výsledky.
Dále je plánováno vyšetřování buněk, ze kterých vedou zákazníci své telefonické hovory. Má se zjistit, zda existují buňky, tedy geografické oblasti, se zvláště vysokými počty podvodů. Také k tomu ovšem není existující databáze poznaných podvodníků postačující, abychom získali jisté výsledky.
Zákazníci s podvodným úmyslem
Nyní se má chování podvodníků analyzovat a matematicky popisovat. Informační bázi pro následující pozorování tvoří data již poznaných podvodníků z různých segmentů, daná k dispozici pozorovatelem sítě.
Denní obraty 80-ti denních dat
Z předložených dat podvodníků k 80-ti denním datovým souborům není možné, dělat výpověď o rozdělení pro denní obrat u účastníků s podvodným úmyslem, protože k informacím zákazníků
18989 popř. 73450 segmentu 19 popř. 28 existují celkem jenom data o 8 popř. 4 podvodních příslušných skupin účastníků. Mimoto byli 3 z těchto 12 zákazníků pomocí doplňkových informací, které nejsou k dispozici, rozpoznání jako podvodníci, protože jejich celkové obraty činí v pozorovaných 80 dnech jenom 1 až 6 DM, čímž pro odhad rozdělení přichází do úvahu jenom 8 pozorování.
Chovní podvodníků na základě dat jednotlivých spojení
K charakterizování chování podvodníků existují data jednotlivých spojení 57 podvodníků, již rozpoznaných provozovatelem sítě. Bohužel se jedná přitom jenom o informace z 3708 jednotli45 vých hovorů, což je oproti více než miliónu datových souborů k normálnímu chování zákazníků velmi malé číslo. Na základě malého počtu pozorování nebude stále možné, pro všechny aspekty chování podvodníků verifikovat rozdělení pravděpodobnosti. Odhad prvního a druhého momentu ale zůstává možný a účelný.
_ 1 1 _
Klasifikace rozpoznaných podvodníků
Na základě existujících informací o podvodnících, již rozpoznaných provozovatelem sítě, se v dalším provádí rozdělení účastníků s podvodnými úmysly do tříd. Tím se má od sebe oddělit ? chování určitých skupin podvodníků, aby se takto mohly provést ostré testy k jejich rozpoznání.
Jako motivace k tomu může sloužit srovnání celkového denního obratu a denního obratu na číslech 190 z obrázku 26. Je možné zřetelně rozeznat, že množství bodů se rozpadá do dvou tříd, totiž za prvé na body podél hlavní diagonály pro zákazníky, jejichž celkový obrat se skládá ío z hovorů na číslech 190, Za druhé odpovídají body podél osy x datovým souborům s jenom nepatrným obratem na číslech 190.
Ke klasifikaci zákazníků s podvodným úmyslem provádíme analýzu hlavních komponent odhadnuté kovarianční matice Rb. Podkladem je datový soubor na den a účastníka, sestávají ze 30 znaků. Pozorují se denní obraty, počet hovorů na den a denní doby trvání hovorů. Každý z těchto tri hlavních znaků se dělí na deset již jmenovaných kategorií cílových telefonních čísel. Uvnitř datového souboru se vždy používají v pořadí čísel 171-, 172-, 177-, 180-, 190-, mezinárodní hovor, ostatní národní spojení, roaming, služby (service) a MTC volání pro hlavní znaky, K tomu označují yi ε R30, i-1, n, vektor se znaky denního datového souboru zákazníka s podvodným úmyslem a n jej ich počet. Dále budiž odhadnutá očekávaná hodnota. Potom použijeme odhadu Maximum-Likelihood kovariační mati25 ce
Nyní představíme matici Rh jako
Rb = ΤΛΤ* s ortogonální maticí T a diagonální maticí A, která jako diagonální zápisy obsahuje ty o velikosti podle vzestupně uspořádaných vlastních hodnot
Přitom dostaneme σ2|..., σ2]0 - (8e + 08, 2e + 08, 7e + 06, 3e + 06, 2e + 06, 1 e + 06, 1 e + 05, 6e + 04, 4e + 04, 1 e + 04, le + 04, 4406, 2434, 480, 308, 147, 115, 115, 35.3, 19.4, 7.3, 1.8, 1.1,0.6, 0.3,0.1,0.02, 0,01,0.002).
Podíl celkové variability, popsaný pomocí prvních obou hlavních komponent, leží očividně při σ2 + σ2 = 98.6% .
Το znamená, že transformované datové soubory ý4 = (λ,κ > λ') = rfo - yl i = i,..., n, leží až na zanedbatelně malou chybu v dvojdimenzionálním podprostoru, který je napnut pomocí prvních dvou jednotkových vektorů. Dále má j-tá hlavní komponenty yjj očekávanou hodnotu 0, rozptyl o2t a různé hlavní komponenty jsou nekorelované.
Vlastní vektory t, matice Rb jsou sloupci ortogonální transformační matice T, to znamená
T ~ (ti, ...f t30) .
Kvůli, v absolutní hodnotě největším, záznamům hlavního a druhého vektoru se nechají diskriminovat podvodníci, tím že se na kategorii, patřící k těmto komponentám, hledí jako na klasifikující znaky pro podvodné chování. Podle vlastních vektorů, patřících k ση a σ22, dostaneme rozdělení účastníků s podvodným úmyslem na takové zákazníky, jejíchž zneužití se vyznačuje čísly 0190 nebo zahraničními hovory. Na obrátku 27 je skupina podvodníků 0190 znázorněna první hlavní komponentou, která probíhá ve směru osy x. Ostatní podvodníci, kteří jsou nápadní zahraničními hovory, se nechají rozpoznat pomocí druhé hlavní komponenty ve směru osy y. Testy k rozpoznání podvodníků
Po diskriminování podvodníků, rozpoznaných již provozovatelem sítě pomocí analýzy hlavních komponent, se nyní udávají statistické způsoby testování krozpoznání podvodníků. Ktomu se nahlíží na pozorování chování účastníků bez podvodnému úmyslu jako na náhodné a označuje se náhodnými proměnnými X (μ, RJ, jejichž rozložení má očekávanou hodnotu μ a rozptyl R^.
Matice Rc se dále rozkládá na
Re = přičemž S - (sts3o) je ortogonální matice.
Θ = diagfsj,.. s > ... ž S’o označuje diagonální matici uspořádaných vlastních hodnot R^, jejich odhady jsou dány pomocí
32, ...,320 - (2e+05, 7e+04, 7e+04, 6e+04, 2e+04,
2e+04,le+04, le+04, 7226, 6757,
4732, 2922, 1099, 983, 646, 440, 322, 293, 162, 4.4, 3.9, 1.7, 0.8, 0.4, 0.4, 0.3, 0.2, 0.16, 0.01,
0.002).
S pomocí ortogonální matice T z transformace hlavních komponent z Rb tvoříme
X = T(X - μ), z čehož s linearitou očekávané hodnoty vyplývá E[X] = 0 a E[XX'] - Τ%Τ. Při použití vlastních vektorů tt, t2 k oběma větším vlastním hodnotám kovarianční matice Rb podvodníků z předchozího úseku vyplývá
1
E[tíx] = 0 a Var(tjX) = J i = l popřípadě t|,i a tij označují přitom i-tou komponentu vektoru ti popř. t2. Zejména platí Var(f |X)-< θ2ι Vi =
1,...,30. Dáleje střední hodnota datových souborů Yj při výše uvedené transformaci
- = ΣT' Oi - μ) = Τ' (Ϋ - μ)
Η» m ít a rozptyly souhlasí s hodnotami θ2η ..., z Λ.
Protože hodnoty μ a Re nejsou známy, odhadují se z existujících n pozorování X, s pomocí odha15 du Maximum-Likelihood μ = X- a R = i t(Xi - xXx; - x)'
Použitelnost rozkladu odhadnuté kovariační matice na transformaci hlavních komponent je zajiš20 těna.
Výsledky vyšetřování podvodníků z posledního odstavce jsou nyní shrnuty spolu s právě provedenou transformací hlavních komponent dat normálních zákazníků na obrázku 21. V tomto obrázku se nechá dobře rozpoznat zřetelně menší rozptyl hlavních komponent u normálních
.. ... Var(t'x) < 3’ = 2 * 105 na rozdíl od 9^2*10', ,t , zákazníku \ i / i 2 který spolu s posuvem očekávaných hodnot pro zákazníky s podvodným úmyslem ve směru větších hlavních komponent umožňuje použití testu na útlum.
Za účelem uvedení testu k rozpoznání podvodu se vždy pozorují obě hlavní komponenty odděle30 ně, to znamená že se vyvíjí speciální test pro 190 a pro zahraniční podvodníky. Nejdříve se odhaduje empirický (Líx) kvalit Q'i a, z=1, 2 pro obě hlavní komponenty. Používá se k tomu n stanovených pozorování
Následně se určuje to číslo k, pro které platí fn(l-a) pokud n(l-a} je celočíselné k = ·ί
Ιη[(1-α)+1] pro ostatní
Potom je kvantil Q'i a = Xlkn. Pro speciálně existující data vyplývají pro a = 0,005 kvantily Q’ia = -0.0035 a, Q2,^ = 14.1089.
S pomocí empirických kvantilů se může nyní uspořádat test na podvodný úmysl pomocí transformace hlavních komponent dat účastníka jednoho dne. Pokud leží hodnota transformace dat zákazníka nad jedním z obou vypočítaných kvantilů Ql] _a, předpokládá se, že se jedná o podvodCl 300962 B6 nika. Parametr a přitom udává pravděpodobnost chyby pro to, že zákazník bez podvodného úmyslu se nesprávně rozpozná jako podvodník. Tento omyl je přirozeně třeba udržovat co nejmenší. K použití testu není nutné, pokaždé znovu počítat kvantily Q'i^, nýbrž stačí periodický nový výpočet těchto hodnot. Vedle tohoto testu ještě existuje možnost, najít podle grafického znázornění transformace hlavních komponent ty účastníky, jejichž hodnoty se nenacházejí na vypočítaných transformačních osách a kteří tak jsou nápadní svým chováním, protože podvádějí kombinací volání 0190 a zahraničních hovorů. Příslušná data zákazníků se mohou potom manuálně překontrolovat ohledně podvodného úmyslu, protože právě popsaným testem nejsou odfiltrováni jako podvodníci (příklady k tomu je možno rozpoznat na obrázku 21).
io
Dosud popisovaný postup transformace hlavních komponent a následného testu podvodníka se nechá použít nejenom na denní datové soubory účastníků, nýbrž data, která jsou základem, se mohou sbírat po libovolný častový interval a vyhodnotit. Tím dostáváme možnost, automaticky zkoumat chování účastníků pres různé časové intervaly.
Nápadnost účastníků byla dosud měřena jenom podle prvních dvou dominujících hlavních komponent, to znamená 190 a zahraničních spojení, protože již rozpoznaní podvodníci v datovém materiálu, který je k dispozici, se vyznačují jenom těmito oběma aspekty v jejich chování. Účelné ale je rozpoznání každého typu abnormality v chování vzhledem k účastníkům bez podvodných úmyslů. Z tohoto důvodu se používá test na vícedimenzionální útlum. Toto spočívá na Mahalanobis-distanci (\ - - χ')ζ která měří odchylku chování od chování normálních zákazníků. Explicitní údaj testu se nemůže uskutečnit, protože jsou k dispozici jenom data o podvodnících obou již jmenovaných tříd. Jako alternativa k odchylce chování účastníka od chování normálních zákazníků se může přirozeně také měřit odchylka od podvodného chování použitím R'lb. Pomocí těchto distancí jsme v situaci, že můžeme lépe přehlédnout chování účastníků a testovat odchylky. Na základě omezeného počtu odlišitelných typů podvodníků v datech, která jsou k dispozici, ale není možné další pozorování vícedimenzionálních testů na útlum k současnému časovému okamžiku.
Jako další postup testu k rozpoznávání podvodníků se může používat Fisherova distriminantní analýza, která je založena na oddělení podvodníků od normálních zákazníků pomocí roviny.
Hledá se lineární funkce aíc, která maximalizuje poměr čtverců vzdáleností mezi oběma skupinami účastníků a tyto tak odděluje od sebe. Vektor a je přitom vlastní vektor k největší vlastní hodnotě matice WB, která se vypočítává z í¥ = n2Re + a
B - přičemž d = μ - Ϋ.
Přitom Π] dává počet dat normálních zákazníků a n2 počet dat podvodníků. Příslušný vlastní vektor a vyplývá jako a = Navrhuje se statistika testu ď W_1{X - | (μ + Ϋ) }
- 1 š _ ίο která používá polohu bodu ke střednímu bodu spojovací dráhy mezi μ a Y. Pro použití k definování problému rozpoznání podvodu je ostatně u provozovatele sítě účelné, tuto testovací hodnotu používat v jiném měřítku, což samo o sobě nemá žádný vliv na správnost postupu. Výsledky použití Fisherovy diskriminantní analýzy jsou znázorněny na obrázku 28. Na ose y jsou vyneseny hodnoty statistiky (1) hodnot i/rt; pro čestné uživatele a hodnot j/n2 pro podvodníky.
Ukazuje se, že přibližně 30 % dat podvodníků leží pod čarou danou y = 0,0025. Nechá se očekávat, že pomocí příslušného diskriminantního testu vynikne vysoký podíl podvodníků. Všimněme si, že různé datové soubory patří stejné osobě; v pojednávaném případu existuje 213 datových souborů k 57 rozpoznaným podvodníkům. 30 % odpovídá přibližně 70 datových souborů, které byly rozpoznány jako podvodné.
Algoritmus k rozpoznání podvodu
Jsou dána nová pozorováníXa kvantity Q1^
1. Vypočítej transformaci hlavních komponent X = Τ' (X - μ)
2. Otestuj transformaci na
X > Qi.a pro i Xi “ QÍ-α Pro 1
Xi * QÍ-α, i = 1.2
X je podvodník, jdi na 3.
X je normální zákazník, jdi na 4.
3, Modifikace očekávané hodnoty a kovarianění matice u podvodníků
ΠΥ±Χ η + 1
β.
nRb + (X - γξΧ - Y) 1
4. Modifikace očekávané hodnoty a kovarianění matice u normálních zákazníků ημ + X Re nRe + (X - μΧχ - μ)'
Posouzení zvolených filtrů MEGS
V tomto oddíle se vyhodnocují zvolené filtry systému MEGS ve smyslu pravděpodobností chyb 1. a 2. typu, které se získávají z empirického modelu rozdělení telefonních čísel.
Každý filtr i se může chápat jako test hypotézy
HJ0: účastník není podvodník H',: účastník je podvodník tzn. zákazník je podchycen filtrem i, tedy se akceptuje hypotéza H'i, tedy je podvodný úmysl.
U testů hypotéz tohoto typu se mohou udělat dvě různé chyby. Normální zákazník se může jednak mylně rozpoznat jako podvodník. Tento omyl se nazývá chyba 1. typu, nebo také a - chyba. Jednak se může přirozeně přihodit, že se u testovaného účastníka jedná o podvodníka a test se io přesto rozhoduje pro hodnotu Ho. Toto se potom označuje jako chyba 2. typu, nebo jako β chyba. Ve smyslu stanovení problému je účelné, omezit chybu 1. typu, aby se zbytečně neztráceli zákazníci, jejichž připojení bylo mylně zablokováno.
Dříve zmíněné pravděpodobnosti chyb by se nyní měly popsat na základě zjištěných empirických 15 pravděpodobností, abychom tak získali měřítko hodnot použitých filtrů. Následující tabulka ukazuje soupis výsledků tohoto vyšetřování.
popis filtru a-chyba β-chyba
'0190' 100 DM/den 0.000042 0.987325
'roaming* > 500 DM/den 0.000004 1
světová zóna 2+9 > 300 DM/den 0 0.995955
1 zavoláni světová zóna 2 0.000462 0.837108
1 zavolání světová zóna 8 0.000389 0.989753
1 zavolání světová zóna 9 0.000189 0.898056
2 zavolání/den ve světové 2Óně 2+5 0.000160 0.991640
2 zavolání/den ve světové zóně 2+8 0.000162 0.994337
2 zavolání/den ve světové zóně 2+9 0.000468 0.990291
2 zavolání/den ve světové zóně 5+8 0.000121 0.994876
2 zavolání/den ve světové zóně 5+9 0.000430 0.989482
2 zavolání/den ve světové zóně 8+9 0.000431 0.992179
5 zavolání/den ve světové zóně 2 0.000016 0.995146
5 zavolání/den ve světové zóně 5 0.000012 0.997303
5 zavolání/den ve světové zóně 9 0.000062 0.994876
a~chyba se počítá jako relativní četnost příslušného filtru u účastníka bez podvodného úmyslu a β-chyba jako 1-relativní četnost filtru u podvodníků.
Nechá se rozpoznat, že pozorované filtry vykazují velmi malou pravděpodobnost chyby 1. typu, ale také velmi vysokou β-chybu.
Ί
Provozovatel sítě používá ještě velký počet dalších filtrů, které se ale k tomuto okamžiku nemohou vyhodnocovat protože tyto používají stáří zákazníka, tedy jeho příslušnost k třídě, která bohužel není obsažena v datech, která jsou k dispozici.
Přehled obrázků na výkresech obr. 1 obr.2 obr. 3 obr. 4 obr. 5a a 5b obr. 6 obr. 7 obr. 8 obr. 9 obr 10 a obr obr. 12 až 16 obr, 17 až 18 obr 19 obr 20 obr. 21 obr 22 obr 23 obr. 24 obr 25 obr 26 obr 27 obr 28
Vynález bude blíže vysvětlen prostřednictvím konkrétních příkladů provedení znázorněných na výkresech, na kterých představuje io obr. 1 relativní četnost obratů hovorů u normálních zákazníků, relativní četnost obratů hovorů u podvodníků, relativní četnost počtu volání na den u podvodníků, tabulka hodnot empirického rozdělení cílových telefonních čísel, tabulka dat rozšíření modelu pro různé mezinárodní telefonní čísla, obr. 6 tabulka četnost volání z ciziny do Německa podle cílových telefonních čísel (účastníci bez podvodného úmyslu), tabulka četnosti volání z ciziny do Německa ve srovnání s ostatními cílovými zeměmi (účastníci bez podvodného úmyslu), tabulka četnosti zavolání z ciziny do Německa od účastníků s podvodným úmyslem, tabulka četnosti zavolání z ciziny od účastníků s podvodným úmyslem, empirické hodnoty cílových telefonních čísel účastníků s podvodným úmyslem, empirická střední hodnota a empirický rozptyl doby rozhovoru u normálních zákazníků a u podvodníků, empirické hodnoty rozdělení obratu u normálních zákazníků a u podvodníků, kontingenční tabulka pro test na párovou nezávislost telefonních čísel v určitém časovém intervalu pozorování, znázornění hlavních komponent, přiřazených 612 nebo 622, výsledek k Fisherově diskriminantní analýze, obr. 22 přístrojově-technické znázornění průběhu způsobu podle obr. 23, vývojový diagram způsobu k rozpoznání podvodu s přístroji podle obr. 22, četnost denních obratů u normálních zákazníků (výřez), relativní četnost počtů volání na den u normálních zákazníků a aproximace pomocí funkce (výřez), obr 26 celkový denní obrat vzhledem k obratu na číslech 190, hlavní komponent, přirozené σ2] popř. σ22, a výsledek Fisherovy diskriminantní analýzy.
Příklady provedení vynálezu
Tabulka podle obr 4 obsahuje hodnoty empirického rozdělení cílových telefonních čísel pro profily Tz = jt], t2,tl2}. Přitom je třeba respektovat, že různé kategorie, jako například 'Service' a 'MTC' se ještě dále člení, aby se mohly lépe extrahovat z předložených dat jednotlivých spojení.
Ve druhé tabulce podle obr. 5 jsou obsažena data rozšíření modelu pro různá mezinárodní telefonní čísla. Přitom se jedná o rozštěpení kategorie ,mezinárodní spojení'. Databáze se skládá z 1391739 pozorování.
V tabulce podle obr. 6 a obr. 7 jsou pro účastníky bez podvodného úmyslu uvedena speciálně ještě jednou volání z ciziny do Německa, tedy ta s předvolbou 0049. Relativní četnost se zde vztahují na příslušný počet spojení 0049 v předcházející tabulce.
Zcela analogicky k tabulkám účastníků bez podvodného úmyslu jsou na obrázcích 8, 9 a 10 vypsány empirické hodnoty cílových telefonních čísel podvodníků ve třech tabulkách. Obr. 8 přitom uvádí četnost zvolených cílových kategorií, zatímco obrázek 9 (s pokračováním pomocí obrázku 10) ukazuje předvolby, zvolené podvodníky z ciziny, ajejich četnost. Na obr. 11 je zobrazena cílová kategorie, zvolená podvodníky jako nejčastější.
io
V tabulkách obrázků 13 až 18 jsou znázorněny empirické hodnoty pro rozdělení u určených kategorií cílových telefonních čísel. Obrázek 12 ukazuje rozdělení doby trvání rozhovoru u normálních zákazníků a obrázek 13 u podvodníků.
Obrázek 14 ukazuje počet volání na den u normálních zákazníků a obrázek 15 u podvodníků. Obrázek 16 a 17 ukazuje rozdělení obratu u normálních zákazníků a obrázek 18 u podvodníků.
Obrázek 19 ukazuje konečně test nezávislosti pro kategorie cílových telefonních čísel. Tabulka ukazuje kontingenční tabulku pro test na párovou nezávislost kategorií telefonních čísel. Přitom je třeba dbát toho, že nebyla pozorována žádná čísla Ol30', jedná se tedy o tabulku 9x9, která má příslušné X2 (Chi-Quadrat) rozdělení, tedy 64 stupňů volnosti. Při vysoké hodnotě statistiky restu se hypotéza nezávislosti přirozeně odmítá pro všechny vhodné úrovně a. Z odmítnutí párové stochastické nezávislosti vyplývá, že nemůže platit žádná společná stochastická nezávislost kate25 gorií cílových telefonních čísel. Toto platí adekvátně pro všechny dny.
Obrázek 20 ukazuje grafické znázornění hlavních komponent, přirozeně σ2ι popř. σ22, zatímco obrázek 21 ukazuje výsledek Fisherovy diskriminantní analýzy jako grafické znázornění.
Obr. 22 ukazuje přístrojové-technické provedení způsobu podle vynálezu, které je znázorněno jako blokové schéma na obr. 23.
Ve znázorněném kroku 1 jsou příkladně znázorněny telekomunikační síťové členy. Obr. 22 ukazuje mobilní ústřednu MSC, znázorněnou počítačem ústředny, Voice Mail System, tzn. systém hlasové pošty VMS, se kterým se vytvářejí síťové hlasové výstupy závislé na uživateli. Přístrojové členy VAS-NE znamenají dodatečné síťové členy, jako např. členy zpoplatňování a další. Datové soubory provozovatele sítě, které se vytvářejí v tomto přístrojovém prostředí, se přenášejí přes signalizační systém FTAM (Filé Transfer Access and Management) k počítači k rozpoznání zneužití. Tento počítač se také označuje jako server zákaznických dat. Zde zmíněný signalizační systém FTAM je 7-vrstvý protokol, který přenáší celé svazky datových souborů najednou. Jedná se tedy o datové celé svazky datových souborů najednou. Jedná se tedy o datové pole (Filé), ve kterém je obsaženo mnoho tisíc datových souborů, které se Online přenášejí na server zákaznických dat.
V kroku 2 se nechá probíhat celý způsob, jehož blokový diagram se na obr. 22 a 23 vyznačený jako krok 2. Důležité je, že kroky výpočtu, jako transformace hlavních komponent (Fisherova diskriminantní analýza a všechny ostatní kroky výpočtu) probíhající v reálném čase na tomto počítači.
Vypočítají se výsledky a mohou se v kroku 3 přenášet v reálném čase na zákaznickou pracovní stanici (Customer Care Workstation). U konzole této stanice nyní sedí obsluhující osoba, a na její obrazovce vzniká optický a/nebo akustický alarm, pokud se rozpoznalo zneužití. Obsluhující osoba potom může ještě během probíhajícího neoprávněného hovoru zasáhnout a například tento hovor přerušit, nebo zabránit opakované volbě atp. Může se rovněž vydat akustická výstraha, týkající se zneužití.
ta _
CZ 300962 Bó
Existuje také zpětné hlášení od zákaznického serveru na počítač, týkající se zneužití. Obsluhující osoba může například změnit na zákaznickém počítači (při vyvolaném alarmu) práh alarmu nebo jiná kritéria zakročení. Tato data se sdělují počítači, týkajícího se zneužití, který se z nich učí a zahmujeje do svých výpočtů.
Obrázek 23 ukazuje vývojový diagram způsobu podle vynálezu. Zde probíhající kroky jsou uvedeny ve znacích nároku 1.
ío Důležité je zpětné vedení z funkčních bloků, uspořádaných v obrázku na spodním okraji. Přes toto zpětné vedení se uskutečňuje aktualizace vypočítaných kovariančních a středních hodnot. Systém má tedy schopnost se sám učit.
Vyšetřování datového materiálu, který je k dispozici, ukázalo, že se chování účastníků s podvodným úmyslem nechá v podstatě charakterizovat jenom dvěma znaky. Dosažené výsledky v příkladném provedení a znázorněných tabulkách se vztahují na příkladný datový soubor provozovatele sítě. Na základě existujících dat se mohly určit pouze dvě různé skupiny účastníků s podvodným úmyslem.

Claims (7)

1. Způsob rozpoznání zneužití služeb provozovatele sítě zákazníkem pomocí online analýzy datových souborů, vztažených k zákazníkovi, vyznačující se následujícími kroky:
a) Online zjištění souboru vstupních dat ze síťových elementů z následujících komponent:
30 i) kumulované datové soubory přes pevný časový interval, zejména 30-denní datové soubory;
ii) data jednotlivých spojení poslední doby, povolená z hlediska zákonné ochrany dat, ve dnech obsahující: cílové telefonní číslo, dobu trvání hovoru, typ spojení;
iii) data, specifická pro zákazníka, obsahující zejména: stáří zákazníka v síti, typ platby;
b) Akumulování vstupních znaků podle tříd: typ cílového telefonního čísla, počty hovorů, typy hovorů;
c) Provádění analýzy hlavních komponent:
to i) provádění analýzy hlavních komponent na datových souborech již rozpoznaných podvodníků;
i i) spektrální rozložení příslušné kovarianční matice; i i i) určení relevantních hlavních komponent;
i iii) klasifikace hlavních komponent, relevantních pro podvodné chovaní;
d) Transformace hlavních komponent nedetekovaných datových souborů na základě spektrálního rozkladu kovarianční matice v kroku c);
e) Znázornění hlavních komponent datových souborů a diskriminace popř. podvodného chová50 ní;
f) Odhad a zjištění empirických kvantilů hlavních komponent k řízení pravděpodobností chyb prvního a druhého typu při automatickém detekování a generování alarmů;
g) Fisherova diskriminantní analýza ke zjištění dělicí nadroviny mezi datovými soubory identifikovaných podvodníků a normálních zákazníků, s grafickým znázorněním;
h) Odhad a zjištění empirických kvantilů promítnutých dat k řízení pravděpodobností chyb 1. a
5 2. typu při automatickém detekování a generování alarmu.
2. Způsob podle nároku 1, vyznačující se tím, že v kroku b) způsobu se každý datový soubor z akumulovaných dat znázorňuje vysoce dimenzionálním reálným vektorem.
ío
3. Způsob podle nároku 1 nebo 2, vyznačující se tím, že v kroku e) způsobu se hlavní komponenty datových souborů znázorňují graficky.
4. Způsob podle některého z nároků 1 až 3, vyznačující se tím, že v kroku e) způsobu se zjištěné podvodné chování znázorňuje vizuálně.
5. Způsob podle některého z nároků laž4, vyznačující se tím, že datové soubory uživatelů se analyzují podle jejich hovorových znaků a člení se do přidělených tříd, a že členění do tříd se uskutečňuje na základě chování, které vyznačuje skupiny účastníků s podvodným úmyslem a které se podstatně odlišuje od individuálního chování ostatních účastníků.
6. Způsob podle některého z nároků 1 až 5, vyznačující se tím, že chování zákazníků s podvodným úmyslem se vyznačuje následujícími dvěma znaky:
a) zneužití čísel 0190 a zároveň
b) vedení nápadného množství zahraničních hovorů ve zkoumaném období.
7. Způsob podle některého z nároků 1 až ó vyznačující se tím, že algoritmus k rozpoznání podvodu se skládá z následujících vztahů:
Jsou dána nová pozorování X a kvantity Q1^ a) Vypočítej transformací hlavních komponent
X ~Τ\Χ-μ) b) Otestuj transformaci na * i = U X > QÍ-a pro i X je podvodník, jdi na c) Xi 5 QÍ-α Pro 1 => X je normální zákazník, jdi na d)
c) Aktualizace očekávané hodnoty a kovarianční matice u podvodníků
Y <Ί 1
R, nRb + (X - yXx - Y) η + 1
d) Aktualizace očekávané hodnoty a kovarianční matice u normálních zákazníku ημ + X nRe + (X - μξΧ - μ)' η + 1 kde:
X jsou ještě nedetekované datové soubory, které patří k účastníkovi a které ještě nebyly zkouio many způsobem na rozpoznání podvodu, μ je očekávaný vektor X,
T je matice, která byla vypočítána v rámci transformace hlavních komponent již rozpoznaných 15 podvodníků, obsahuje co do chování relevantní informace podvodníků a slouží jako váha, tzn. vztažný bod pro ještě neklasifíkovaného účastníka,
1 ΰ kvantily, udávají mez, od které se usuzuje na podvod nebo nikoli,
20 Y je odhadnutá očekávaná hodnota,
Rb je odhadnutá kovariační matice pro zákazníky s podvodným úmyslem,
Z2 je odhadnutá očekávaná hodnota normálního zákazníka, tzn. bez podvodného úmyslu,
Re je odhadnutá kovariační matice pro normálního zákazníka, tzn. bez podvodného úmyslu, n je počet sledování, tzn. datových souborů.
30 8. Způsob podle některého z nároků 1 až 6, vyznačující se tím, že rozpoznání podvodníků se uskutečňuje Fisherovou diskriminantní analýzou.
CZ20003776A 1999-02-11 2000-02-11 Zpusob rozpoznání zákaznického zneužití služeb provozovatele síte pomocí online analýzy datových souboru, vztažených k zákazníkovi CZ300962B6 (cs)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19905884A DE19905884B4 (de) 1999-02-11 1999-02-11 Verfahren zur Erkennung von kundenbezogenen Mißbräuchen von Dienstleistungen des Netzbetreibers mittels Online-Analyse von kundenbezogenen Datensätzen

Publications (2)

Publication Number Publication Date
CZ20003776A3 CZ20003776A3 (cs) 2001-03-14
CZ300962B6 true CZ300962B6 (cs) 2009-09-23

Family

ID=7897299

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ20003776A CZ300962B6 (cs) 1999-02-11 2000-02-11 Zpusob rozpoznání zákaznického zneužití služeb provozovatele síte pomocí online analýzy datových souboru, vztažených k zákazníkovi

Country Status (9)

Country Link
EP (1) EP1072165B1 (cs)
AT (1) ATE300159T1 (cs)
AU (1) AU2910500A (cs)
CZ (1) CZ300962B6 (cs)
DE (2) DE19905884B4 (cs)
ES (1) ES2246225T3 (cs)
PL (1) PL343458A1 (cs)
RU (1) RU2263408C2 (cs)
WO (1) WO2000048418A1 (cs)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006062210A1 (de) * 2006-12-22 2008-06-26 Deutsche Telekom Ag Verfahren zur Frauderkennung bei Roamingverbindungen in mobilen Kommunikationsnetzen
WO2015091785A1 (en) 2013-12-19 2015-06-25 Bae Systems Plc Method and apparatus for detecting fault conditions in a network
GB201322573D0 (en) * 2013-12-19 2014-02-05 Bae Systems Plc Data communications performance monitoring
US10153950B2 (en) 2013-12-19 2018-12-11 Bae Systems Plc Data communications performance monitoring
KR20200034020A (ko) 2018-09-12 2020-03-31 삼성전자주식회사 전자 장치 및 그의 제어 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US596650A (en) * 1898-01-04 Car-ventilator
DE19729630A1 (de) * 1997-07-10 1999-01-14 Siemens Ag Erkennung eines betrügerischen Anrufs mittels eines neuronalen Netzes
CZ20001186A3 (cs) * 1997-10-01 2000-09-13 Detemobil Deutsche Telekom Mobilnet Gmbh Způsob autentifikování účastníků mobilní radiotelefonní sítě

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2303275B (en) * 1995-07-13 1997-06-25 Northern Telecom Ltd Detecting mobile telephone misuse
GB9715497D0 (en) * 1997-07-22 1997-10-01 British Telecomm A telecommunications network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US596650A (en) * 1898-01-04 Car-ventilator
DE19729630A1 (de) * 1997-07-10 1999-01-14 Siemens Ag Erkennung eines betrügerischen Anrufs mittels eines neuronalen Netzes
CZ20001186A3 (cs) * 1997-10-01 2000-09-13 Detemobil Deutsche Telekom Mobilnet Gmbh Způsob autentifikování účastníků mobilní radiotelefonní sítě

Also Published As

Publication number Publication date
EP1072165B1 (de) 2005-07-20
EP1072165A1 (de) 2001-01-31
ATE300159T1 (de) 2005-08-15
CZ20003776A3 (cs) 2001-03-14
WO2000048418A1 (de) 2000-08-17
RU2263408C2 (ru) 2005-10-27
DE19905884A1 (de) 2000-08-31
AU2910500A (en) 2000-08-29
DE19905884B4 (de) 2005-01-13
PL343458A1 (en) 2001-08-13
ES2246225T3 (es) 2006-02-16
DE50010735D1 (de) 2005-08-25

Similar Documents

Publication Publication Date Title
Xing et al. Employing latent dirichlet allocation for fraud detection in telecommunications
Umayaparvathi et al. A survey on customer churn prediction in telecom industry: Datasets, methods and metrics
CN116342259A (zh) 一种用户信用自动评级方法、装置、电子设备及介质
US20110055620A1 (en) Identifying and Predicting Errors and Root Causes in a Data Processing Operation
CN106384273A (zh) 恶意刷单检测系统及方法
GB2321363A (en) Telecommunications
Sánchez‐Meca et al. Testing continuous moderators in meta‐analysis: A comparison of procedures
CN107679046A (zh) 一种欺诈用户的检测方法及装置
CN117993919A (zh) 一种基于多特征融合的银行反电诈数据模型构建方法
CA2248939C (en) Fraud monitoring in a telecommunications network
CN109274834B (zh) 一种基于通话行为的快递号码识别方法
Irarrázaval et al. Telecom traffic pumping analytics via explainable data science
CZ300962B6 (cs) Zpusob rozpoznání zákaznického zneužití služeb provozovatele síte pomocí online analýzy datových souboru, vztažených k zákazníkovi
US8392237B2 (en) Compliance methodology
CN113919679B (zh) 业务流程风险防控方法及系统
CN111064849B (zh) 一种基于呼叫中心系统线路资源的利用和管控分析方法
CN107835174A (zh) 一种基于物联网的账本反欺诈系统及方法
Chen et al. A multi-layer dynamic model for customer experience analytics
CN110062114A (zh) 基于arima的诈骗电话预测方法及预测系统
CN109902545A (zh) 用户特征分析方法及系统
US10387890B2 (en) Method and apparatus for managing financial control validation processes
TWI357027B (en) A network system, method, and computer software pr
Ibrahim et al. Fraud management system in detecting fraud in cellular telephone networks
CN114492877B (zh) 一种业务系统的运维分析方法及装置
Cîmpan et al. Connections between the Model of the Supreme Public Audit Institution and Some Economic, Social, Political, and Cultural Variables

Legal Events

Date Code Title Description
MM4A Patent lapsed due to non-payment of fee

Effective date: 20170211