ES2246225T3

ES2246225T3 - Procedimiento para el reconocimiento de uso fraudulento de servicios de un operador de red y dispositivo de procesado de datos para la realizacion del procedimiento.

Info

Publication number: ES2246225T3
Application number: ES00907552T
Authority: ES
Inventors: Rolf Hager; Rudolf Mathar; Martin Hellebrandt; Reinhold Tox
Original assignee: T Mobile Deutschland GmbH
Current assignee: Telekom Deutschland GmbH
Priority date: 1999-02-11
Filing date: 2000-02-11
Publication date: 2006-02-16
Anticipated expiration: 2020-02-11
Also published as: DE19905884A1; DE50010735D1; EP1072165A1; CZ300962B6; ATE300159T1; AU2910500A; PL343458A1; DE19905884B4; CZ20003776A3; WO2000048418A1; EP1072165B1; RU2263408C2

Abstract

Procedimiento para el reconocimiento de uso fraudulento de servicios del operador de red por parte de clientes mediante un análisis en línea de juegos de datos referidos a los clientes, con las siguientes etapas: a) Registro en línea de los juegos de datos de entrada a partir de los elementos de red a partir de las siguientes componentes i) Juegos de datos acumulados a lo largo de un periodo fijo; ii) Datos de conexiones individuales de la última duración en días autorizada por la ley alemana de protección de datos, comprendiendo: números llamados, duración de las llamadas, tipo de la conexión, etc.; iii) Datos específicos de los clientes. b) Acumulación de las características de entrada por clases: tipo de número llamado, números de llamadas, tipos de llamadas.

Description

Procedimiento para el reconocimiento de uso fraudulento de servicios de un operador de red y dispositivo de procesado de datos para la realización del procedimiento.

La invención se refiere a un procedimiento según el preámbulo de la reivindicación 1 así como a un dispositivo de tratamiento de datos para la realización del procedimiento.

Ciertamente, ya se han dado a conocer procedimientos del tipo mencionado al comienzo, aunque les afectaba la desventaja de que trabajaban de un modo lento e impreciso y generaban frecuentemente falsas alarmas indeseadas.

El documento WO97/03533A1 da a conocer una disposición para el reconocimiento del uso fraudulento de un teléfono móvil por medio de un abonado de una red de telefonía móvil. La disposición comprende un procesador de entrada, una red neuronal unida con el procesador de entrada y un programa de procesado posterior de salida, que está unido con la red neuronal. El procesador de entrada calcula para cada abonado un primer perfil de llamada de larga duración, un segundo perfil de llamada de corta duración y un patrón de perfil de abonado que contiene la diferencia entre el primer y el segundo perfil. Cada patrón de perfil de llamada y de perfil de abonado contiene un juego de valores para un juego correspondiente de atributos de llamada. La red neuronal contiene un diagrama que se organiza a sí mismo, que está conformado para realizar un reconocimiento del patrón del patrón del perfil de abonado y un perceptrón de varias capas que calcula para cada patrón reconocido un valor que indica la probabilidad de un fraude referido al patrón correspondiente.

Así pues, la invención se basa en el objetivo de crear una probabilidad de detección fundamentalmente más elevada para usuarios fraudulentos en comparación con los procedimientos existentes, habiéndose de conseguir una menor probabilidad para una falsa alarma (cliente normal tomado erróneamente por sospechoso) en comparación con los procedimientos existentes.

Para la consecución del objetivo marcado sirve la exposición técnica reproducida en la reivindicación 1. Otras configuraciones y variantes de la idea de la invención son objeto de las reivindicaciones subordinadas.

En la presente descripción de la invención, se descomponen, de modo lógico y conforme a la técnica del tratamiento de datos, juegos de datos de un operador de telefonía móvil relativos al comportamiento de los usuarios en la red de telefonía móvil entre los correspondientes a aquellos clientes que son honrados y a aquellos con intenciones fraudulentas, tomando como base modelos estocásticos. Más allá del filtro unidimensional implementado en MEGS, se desarrollan procedimientos para el reconocimiento de fraude asistido por ordenador.

-: Con la ayuda del análisis de las componentes principales se ofrece una herramienta gráfica con la que, por medio de trazados bidimensionales y una coloración correspondiente, se pueden identificar de una manera sencilla datos de defraudadores. Esto sucede por medio de la inspección visual o por medio de una prueba interna del ordenador automática.

-: Tomando como base el análisis de discriminación de Fisher se propone una prueba automática que, de modo simultáneo, a partir de los juegos de datos de elevada dimensión, identifica aquellos que pertenecen a defraudadores.

Los dos procedimientos se distinguen, con un coste de cálculo reducido, por pequeñas probabilidades de error 1 de primer y segundo orden. Esto supone una probabilidad de detección elevada con un número reducido de falsas alarmas.

El procedimiento está formado fundamentalmente por las siguientes etapas, que son llevadas a cabo controladas por un programa en una instalación de procesado de datos:

a): Registro de los juegos de datos de entrada a partir de las siguientes componentes:

i): Juegos de datos acumulados a lo largo de un periodo fijo, por ejemplo, juegos de datos de 30 días;

ii): Datos de conexiones individuales de la última duración autorizada por la alemana de protección de datos en días (actualmente 5 días): número llamado, duración de las llamadas, tipo de la conexión, etc.;

iii): Datos específicos de los clientes (antigüedad del cliente en la red, forma de pago, etc.).

b): Acumulación de las características de entrada por clases (tipo de número llamado, números de llamadas, tipos de llamadas, etc.):

: Cada juego de datos formado por datos acumulados se representa por medio de un vector real de múltiples dimensiones.

c): Realización del análisis de las componentes principales:

i): Realización de un análisis de las componentes principales en busca de juegos de datos de defraudadores ya reconocidos;

ii): Descomposición espectral de la matriz de covarianza correspondiente;

iii): Determinación de las componentes principales relevantes;

iiii): Clasificación de las componentes principales relevantes para los comportamientos fraudulentos.

d): Transformación de las componentes principales de los juegos de datos no detectados tomando como base la descomposición espectral de la matriz de covarianza en la etapa c).

e): Representación (eventualmente gráfica) de las componentes principales de juegos de datos y discriminación (eventualmente visual) relativa al comportamiento fraudulento.

f): Estimación y cálculo de las cuantilas empíricas de las componentes principales para el control de las probabilidades de error de primer y segundo orden con una detección automática y generación de alarma.

g): Análisis de discriminación de Fisher para la determinación de un hiperplano que separa entre juegos de datos de defraudadores identificados y clientes normales con representación gráfica.

h): Estimación y cálculo de las cuantilas empíricas de los datos proyectados para el control de probabilidades de error de primer y segundo orden con detección automática y generación de alarma.

Las ventajas del procedimiento conforme a la invención son las siguientes:

-: posibilidad de cálculo sencillo bajo condiciones de tiempo real: solo se requieren adiciones de vectores, multiplicación e inversión de matrices;

-: el procedimiento es independiente de las arquitecturas del ordenador y de los protocolos;

-: el procedimiento contiene la posibilidad de una prueba interna del ordenador automática en busca de intención de fraude con posterior alarma automática;

-: los juegos de datos correspondientes a usuarios fraudulentos se pueden representar gráficamente con la finalidad de la detección: posibilidad de diferenciación óptica;

-: el procedimiento aprende a partir de juegos de datos anteriores, con ello, los juegos de datos actuales pueden ser discriminados mejor;

-: el procedimiento es capaz de adaptarse a nuevos perfiles de fraude.

Formulación del problema

El objetivo de esta invención es el reconocimiento prematuro de intenciones fraudulentas por parte de los usuarios de redes de comunicaciones móviles. De este modo, se trata de limitar las pérdidas económicas para el operador. En este caso se consideran no solo los casos de uso fraudulento intencionado, sino también aquellos en los que se preve a que el abonado no estará en la disposición de hacerse cargo de sus costes telefónicos. En este trabajo no se diferencia más explícitamente entre estos dos aspectos diferentes.

El comportamiento de los abonados y la verificación de una posible intención de fraude se caracterizan con la ayuda de procedimientos y modelos estadísticos. Con esta finalidad se hace uso de los datos existentes que se registran para la facturación de llamadas por parte del operador de red. En este caso se trata de datos de los abonados, cuyas informaciones se refieren a un periodo de 80 días. En estos denominados juegos de datos de 80 días se encuentran informaciones sobre los importes totales diarios individuales de los clientes, los importes diarios en caso de conexiones internacionales e itinerantes ("roaming") así como la pertenencia del abonado a una clase, que refleja su antigüedad en la red, es decir, la duración de su pertenencia a la red. A efectos de prueba se analizaron juegos de datos de 80 días de los segmentos de clientes 19 y 28, es decir, de clientes cuyo número de teléfono móvil empieza con 19 ó 28.

Adicionalmente están disponibles los datos de las conexiones individuales de los clientes a partir de las que se pueden leer, respectivamente, los números llamados, el comienzo, la duración y los costes de la llamada, así como otras informaciones, como por ejemplo la célula desde la que ha realizado la llamada telefónica. Naturalmente, en este caso, por razones de protección de datos, los datos personales del abonado, como su número MSISDN y el número llamado, se han codificado o recortado. Los datos de las conexiones individuales se refieren a los segmentos de abonados 19, 28, 30 y 31, y se extienden respectivamente a lo largo de un periodo de una semana. Los segmentos 30 y 31 han sido seleccionados especialmente, ya que se trata de segmentos de clientes existentes desde hace mucho tiempo, que reflejan bien el comportamiento de abonados sin intenciones fraudulentas. Los datos de abonados descritos en los que se basa este trabajo se dividen en informaciones que pertenecen a clientes sin intenciones fraudulentas y datos de defraudadores que ya han sido reconocidos y bloqueados por parte del operador de red.

Para el análisis del comportamiento de los abonados con y sin intención fraudulenta, en la primera parte del informe se han desarrollado modelos estadísticos, con cuya ayuda se pueden expresar aspectos del comportamiento del cliente importantes para el reconocimiento de fraude.

Puesto que el comportamiento de llamadas de los clientes con intención fraudulenta se representa como excesivamente carente de homogeneidad para un tratamiento común, este tipo de clientes se clasifican a partir de las características de sus llamadas. Para cada una de estas clases se indican posibilidades para el reconocimiento. La división se realiza en este caso a partir del comportamiento que distingue a un determinado grupo de abonados con intención fraudulenta y que se diferencia del comportamiento individual del resto de abonados de un modo significativo. En este caso entran en acción procedimientos de la estadística de varias variables y análisis de discriminación. Estos hacen posible describir de un modo preciso el comportamiento de clientes con intención fraudulenta por medio de solo dos características e indicar pruebas que se basen en estas características.

En la última parte de las investigaciones se evalúan filtros determinados del sistema de reconocimiento de fraude MEGS respecto a su calidad, es decir, sus probabilidades de error para el reconocimiento de defraudadores. Las indicaciones en torno a este particular se refieren a los datos empíricos disponibles que han sido recopilados con el sistema MEGS.

Construcción del modelo

Para la investigación del comportamiento de abonados con y sin intención fraudulenta se determinan magnitudes características de las distribuciones de importe diario. A continuación, se investiga la aceptabilidad de la pertenencia a clases en los segmentos de abonados 19 y 28 que se toman como base. Adicionalmente, se determinan las funciones de distribución empíricas y la densidad de números requeridas para el análisis posterior de los filtros MEGS.

Distribución de los importes diarios

Los importes diarios de los dos grupos de usuarios considerados se ven como realizaciones de variables aleatorias incorreladas X_{e} para clientes normales y X_{b} para defraudadores. Las características importantes de las dos distribuciones vienen dadas mediante el valor medio empírico y por medio de la varianza empírica de las observaciones. Una relación de las magnitudes calculadas se encuentra en la siguiente tabla.

	Clientes normales	Defraudadores
Valor esperado	205,88	11738,1
Varianza	378174	8,95e+08

Para los segmentos 19 y 28 existen juegos de datos de 80 días, a partir de los cuales se vuelven a calcular los valores medios empíricos de los importes totales diarios para los dos segmentos. En este caso, a diferencia del cálculo anterior de los valores a partir de los datos de conexiones individuales, también se tiene en cuenta si un abonado realiza llamadas telefónicas en un día. En la siguiente tabla se listan los valores correspondientes y los números de las observaciones.

	Segmento 19...	Segmento 28...
Valor esperado	0,22539	1,3335
Número de observaciones	512703	5876000

La llamativa diferencia en las estimaciones de los parámetros entre los segmentos 19 y 28 se puede aclarar por medio del hecho de que en el caso del segmento 19 se trata de un segmento de abonados completamente nuevo, en el que el día 11 de Julio del 98 tuvo lugar un primer uso. Adicionalmente, se puede destacar que muchos abonados nuevos de este segmento se añadieron después del 11 de Julio del 98. Así se obtiene el valor empírico medio del primer uso en la unidad MEGS en el segmento 19:

Valor medio empírico X (primer uso)	1269,33
Número de las observaciones (=abonados en el segmento 19)	18989

Con ello se puede aclarar la diferencia de los segmentos 19 y 28 por lo que se refiere a sus valores medios empíricos, ya que muchos abonados del segmento 19 aparecen como usuarios en un momento relativamente tardío, es decir, en los días antes de su entrada en la red, su importe total diario desde el 11 de Julio del 98 es igual a 0, lo que tiene un efecto inmediato, naturalmente, en el valor medio empírico.

Pertenencia a clases

Para la investigación posterior del comportamiento de los clientes normales se considera ahora la pertenencia del abonado a una clase. Dependiendo de la antigüedad del cliente, el operador de red ha asignado los abonados a las clases A, B, C, D y E, que forma una buena base para juzgar la moral de pago de los abonados.

Sin embargo, como consecuencia de una base de datos deficiente, hasta ahora no se puede investigar esta característica de modo preciso para la caracterización del comportamiento de los abonados, ya que el segmento 19 contiene clientes muy jóvenes (en el sentido de la antigüedad en la red) y, como consecuencia de ello, casi todos los abonados están clasificados en la clase A. Lo mismo se aplica al segmento 28. En este caso, la mayor parte de los clientes ya están clasificados en las clases C y D, de manera que solo con este juego de datos tampoco se puede llegar a afirmación precisas. No están disponibles otros segmentos en las investigaciones llevadas a cabo hasta el momento, por lo que sin datos adicionales no se puede realizar una observación precisa de la distribución de las pertenencias de clases. Las frecuencias de las pertenencias de clases en los segmentos 19 y 28 están listadas en la siguiente tabla y pretenden aclarar las explicaciones antes mencionadas.

Clase	Segmento 19...	Segmento 28...
No clasificada	909	77
Clase A	18078	6234
Clase B	1	6933
Clase C	1	13419
Clase D	0	46784
Clase E	0	3

Caracterización del comportamiento de los abonados a partir de los datos de las conexiones individuales.

Después de las investigaciones de los datos de 80 días se integran los datos de conexiones existentes de las llamadas individuales en las observaciones, ya que en estos juegos de datos se pueden encontrar informaciones adicionales sobre el comportamiento de los clientes. En particular, se tratan las distribuciones marginales necesarias para el análisis de los filtros MEGS.

Para la descripción del comportamiento del abonado, son particularmente interesantes, sobre todo, los datos referidos a los números de llamada marcados del cliente, la duración de las llamadas de una llamada telefónica realizada y el número diario de las llamadas telefónicas así como la distribución de los importes con un interés especial, ya que muestran muy bien los diferentes aspectos del comportamiento del cliente. Se han realizado modelos estocásticos y supuestos de distribuciones en relación con estas tres características.

Las primeras investigaciones en este marco sirven para la distribución de la duración de las llamadas de las conexiones individuales. Las duraciones de las llamadas se consideran realizaciones de una variable aleatoria D constante, aunque están presentes en los juegos de datos como valores discretos. Una representación gráfica de las frecuencias relativas de las duraciones de las llamadas está representada en las Figuras 12 y 13.

A continuación se realiza el establecimiento de un modelo para la distribución de los números llamados de los abonados. De nuevo, el número llamado que un cliente marca se puede ver como aleatorio. Este se pretende describir por medio de la variable aleatoria Z discreta, cuyo portador se explica a continuación con más detalle.

El intervalo de números llamados se divide como consecuencia de la pluralidad de posibilidades en diferentes categorías que, a continuación, sirven como puntos del portador de Z. Esta división está resumida en la tabla 1 con algunas explicaciones.

TABLA 1

Categorías de números llamados
Prefijos	Descripción
0177/0171/0172	Prefijos de los operadores alemanes de telefonía móvil
130/0180/0190	Números de prefijo alemanes con tarifas especiales
2.../3883	Números de servicio de operadores de red (por ejemplo, T-Box)
Otros prefijos nacionales	Todos los prefijos alemanes que todavía no han sido registrados
Itinerantes	\begin{minipage}[t]{115mm} Conexión a otras redes de telefonía móvil (sin itinerancia internacional, sin indicación de número llamado)\end{minipage}
MTC	\begin{minipage}[t]{115mm} Conexiones MTC, sin indicación de número llamado (también "call forward", internacional, itinerante)\end{minipage}
Conexiones de fax	Nacional, internacional e itinerante
Prefijos internacionales	\begin{minipage}[t]{115mm} Número completo de las conexiones internacionales y subdivisión según los estados individuales (también itinerancia internacional)\end{minipage}

En este caso hay que prestar especial atención al hecho de que no solo se requiere la información propia del número llamado a partir de los datos de las conexiones individuales, sino adicionalmente también el denominado tipo de llamada ("calltype"), que indica si se trata de una llamada nacional, internacional o de una llamada itinerante y que identifica las llamadas terminadas en móvil (MTC).

La elección de los puntos portadores se realiza, en particular, según el punto de vista de los costes en los que se incurre para una llamada. Esto se refiere, en particular, a los números especiales 0130 y 0180, y a los números de servicios 2... y 3..., cuyas tarifas son las mismas en toda la república. El mismo argumento también es válido para los diferentes operadores de telefonía móvil en Alemania, que han sido agrupados, correspondientemente, como una categoría propia. Ciertamente, las tarifas de las diferentes conexiones 0190 se diferencian entre ellas, pero todas las conexiones de este tipo se agrupan en un grupo para, de este modo, no incrementar demasiado el número de los puntos portadores por lo que se refiere al resto de consideraciones. Ciertamente, las divisiones de itinerancia, llamadas internacionales y MTC no se caracterizan, por costes uniformes, pero destacan respecto a las categorías mencionadas hasta el momento como consecuencia de su estructura de tarifas. Para poder registrar todos los destinos, se consideran adicionalmente de modo especial las llamadas de fax, ya que en este caso no se trata de llamadas, sino de una transmisión de datos. La categoría del resto de números llamados nacionales no presenta una estructura de costes uniforme. A pesar de ello, también se han de registrar estos números llamados para obtener una evaluación completa. Como consecuencia de la pluralidad de los prefijos nacionales y de sus estructuras de tarifas, en este caso ya no se puede dividir en más clases. Por lo tanto, el portador T_{z} de las variables aleatorias se puede representar como

T_{Z} = {"0177", "0171", "0172", "0130", "0180", "0190", "servicio", "nacional", "itinerante", "MTC", "fax", "internacional"=: {t_{1}, t_{2}, ..., t_{12}}

Con la ayuda de los datos de llamadas individuales existentes de los segmentos 19, 28, 30 y 31 se determina ahora la distribución empírica de las variables aleatorias Z. Un listado de las frecuencias relativas calculadas se encuentra en las figuras de los dibujos 4 -11. Para encontrar una imagen aún más precisa de la distribución de números llamados, el punto portador t_{12} = "internacional" se vuelve a dividir en función de los diferentes prefijos internacionales. Así pues, se obtiene un modelo ampliado, que se describe por medio de la variable \hat{Z} , con portador

T_{Z} = \{t_{1}, ..., t_{11}, i_{1}, i_{2}, ..., i_{225}\}

En este caso, los t_{i}, i = 1, ..., 11 son exactamente tal y como se han definido más arriba, y los puntos portadores i_{k}, k = 1, ..., 225 representan los 225 diferentes prefijos internacionales ordenados de modo decreciente según su magnitud.

También en este caso, de nuevo, la distribución empírica de \hat{Z} está contenida en las tablas 12-18.

Después de que ahora se haya descrito la distribución de los números llamados con la ayuda del modelo que se acaba de describir y de las variables aleatorias Z, se pueden indicar, conjuntamente con el modelo de la distribución de las duraciones de las llamadas, algunas distribuciones marginales, que expresan probabilidades de la forma

|P(D = x|Z = t_{j}), i = 1, ..., 12

y cuyos valores esperados empíricos y varianzas están resumidos en las tablas 12-18. Estas informaciones se usan posteriormente para analizar los filtros MEGS.

A partir de los dibujos de las frecuencias relativas de los números de llamadas se puede leer que N de una distribución discreta es suficiente, cuya densidad de números posee aproximadamente la siguiente forma:

a \ (k + b)^{c}, \ para \ k \ \epsilon \ N

Los parámetros a, b y c se pueden calcular por medio de estimaciones a partir de los datos existentes. Sin embargo, como consecuencia de la forma de la densidad de números, no está necesariamente dada la posibilidad de su suma. La Figura 25 muestra las frecuencias relativas de los números de llamadas en el caso de clientes normales y la aproximación de los valores empíricos por medio de una función t(x) = 113,5*(4,34 + x)-^{3,42}. Los parámetros de t(x) han sido calculados para esta representación de modo numérico. Como consecuencia de un menor número de observaciones, los gráficos de los números de llamadas en el caso de defraudadores reconocidos muestran una mayor dispersión que en el caso de los clientes sin intenciones fraudulentas. Una representación correspondiente se encuentra en la Figura 21.

Tal y como ya se ha mencionado en la distribución de la duración de las llamadas, también en el caso de las distribuciones del número de llamadas por día y de la distribución de importe, las distribuciones comunes correspondientes están representadas por medio del valor medio empírico y de la varianza empírica en las Figuras 12-18.

Dependencia estocástica de los números llamados

Para poder analizar los filtros del sistema MEGS usados por el operador de red, son necesarias informaciones adicionales relativas a la distribución de números llamados.

De esta manera, algunos filtros están diseñados para registrar aquellos abonados que realizan llamadas telefónicas a una zona determinada del mundo varias veces en un día. Las probabilidades empíricas de realizar llamadas telefónicas a una de las zonas del mundo se puede extraer en el modelo descrito anteriormente a partir de las figuras de los dibujos. En caso de que los sucesos de que una llamada entrara dentro de las categorías descritas fueran independientes de modo estocástico, se podrían indicar las probabilidades de que en un día se realicen llamadas telefónicas k veces en una clase de destino determinada por medio del producto por k de las probabilidades empíricas de la clase correspondiente con la distribución Z ó \hat{Z}.

Tal y como ya se ha supuesto, sin embargo, las categorías de números llamados no son independientes desde el punto de vista estocástico. Esto se muestra refutando la independencia estocástica por parejas de dos clases, respectivamente, con la ayuda de una prueba que se basa en tablas de contingencia.

En lo sucesivo, las variables aleatorias X e Y se han de considerar con expresiones nominales, indicando X la categoría de la última llamada e Y la categoría de la siguiente llamada. Así pues, las dos poseen el portador T = T_{z} \ {"MTC"}. Por el concepto de expresión nominal se entienden en este caso los valores que no están sometidos a ninguna jerarquía de clasificación y que no son comparables, como por ejemplo los puntos portadores "0171", "0180" y "0190".

Para la representación de las variables aleatorias nominales y para su investigación se usa el concepto de tablas de contingencia. Para ello, X tiene I expresiones nominales, e Y tiene J. Así pues, hay M = I * J posibles combinaciones para describir relaciones entre X e Y. Las observaciones (X, Y) de una pareja de características tienen una distribución de probabilidad que se representa en una tabla con I filas y J columnas. Las células de las tablas representan los I * J resultados posibles. Denomínense sus probabilidades p_{ij}, indicando p_{ij} la probabilidad de que la observación caiga en la célula (i, j). Cuando en las células figuran las frecuencias de una pareja de características, se habla de una tabla de contingencia (I x J).

La distribución de probabilidades del p_{ij} es la distribución conjunta de X e Y. Las distribuciones marginales que resultan de las sumas de filas o de columnas a lo largo de los p_{ij} se denominan

p_{i}= \sum\limits_{j} p_{ij}

\hskip1cm

y

\hskip1cm

p_{j} =\sum\limits_{i} p_{ij}.

En general, en este caso, también se ha de cumplir con la siguiente condición secundaria.

\sum\limits_{i} p_{i} = \sum\limits_{j} p_{j} = \sum\limits_{i} \sum\limits_{j}p_{ij} = 1

Para comprobar la independencia, se comprueba la hipótesis

H_{0} : p_{ij} = p_{i}.* p_{j}

\hskip1cm

ó

\hskip1cm

m_{ij} = \frac{m_{j.}*m_{.j}}{n}

indicando n el número total de todas las observaciones y m_{ij}, m_{j}., m_{.j}, las frecuencias esperadas correspondientes. m_{ij} se puede calcular a partir de las frecuencias observadas por medio del estimador de máxima verosimilitud

\hat{m}_{ij} = \frac{n_{i.}*n_{.j}}{n}

La hipótesis H_{0} se rechaza al nivel á cuando el valor de la estadística de prueba

X^{2} = \sum\limits_{i=1}^{I}\sum\limits_{j=1}^{J}\frac{(n_{ij}-\hat{m}_{ij})^{2}}{\hat{m}_{ij}}

es mayor que la cuantila (1 - \alpha) de la distribución X^{2} correspondiente con (I - 1)*(J - 1) grados de libertad.

Con la ayuda de esta prueba, para cada nivel á habitual se puede rechazar la hipótesis de categorías de números llamados independientes de modo estocástico por parejas en llamadas en un día.

Investigaciones previstas de los datos de conexiones individuales

Especialmente interesante en la investigación del comportamiento de los abonados con y sin intención fraudulenta, tal y como ya se ha mencionado anteriormente, es la pertenencia del cliente a una clase, que documenta su moral de pago. Desafortunadamente, esta división llevada a cabo por el operador de red no está disponible como información en los datos de conexión individuales, de manera que para los segmentos 30 y 31 no se pueden llevar a cabo investigaciones en este sentido. Las clasificaciones en clases solo existen en los juegos de datos de 80 días, es decir, para los segmentos 19 y 28. Sin embargo, por las razones mencionadas al comienzo, el segmento 19 no es apropiado para una investigación de esta característica del comportamiento. Por eso, el uso de estas informaciones se hace posible cuando se dispone de suficientes datos para ello. Por este motivo, para la observación de esta característica del comportamiento se requieren las pertenencias a clases conjuntamente con los datos de conexión individuales, para obtener resultados seguros.

Adicionalmente se prevé una investigación de las células desde las que los clientes llevan a cabo sus llamadas telefónicas. Se ha de verificar si hay células, es decir, regiones geográficas, con tasas de fraude especialmente elevadas. Sin embargo, tampoco es suficiente en este caso la base de datos existente de los defraudadores reconocidos para obtener conocimientos seguros.

Clientes con intención fraudulenta

Ahora se ha de analizar y describir matemáticamente el comportamiento de defraudadores. La base de información para las siguientes observaciones está conformada por los datos proporcionados por el operador de red sobre defraudadores ya reconocidos procedentes de diferentes segmentos.

Importes diarios de los datos de 80 días

A partir de los datos existentes sobre los defraudadores existentes referidos a los juegos de datos de 80 días no es posible hacer una afirmación sobre la distribución para el importe total diario en el caso de abonados con intención fraudulenta, ya que para las informaciones de los 18989 ó 73450 clientes del segmento 19 ó 28 solo se dispone de una totalidad de datos sobre 8 ó 4 defraudadores de los grupos de abonados correspondientes. Adicionalmente, 3 de estos 12 clientes han sido reconocidos como defraudadores por medio de informaciones adicionales no disponibles, ya que sus importes totales en los 80 días considerados ascendían únicamente a un importe de entre 1 y 6 DM, con lo que para una estimación de la distribución ya solo se consideran 8 observaciones.

Comportamiento fraudulento a partir de los datos de conexiones individuales

Para la caracterización del comportamiento fraudulento se dispone de los datos de conexiones individuales de 57 defraudadores que ya han sido reconocidos por el operador de red. Desafortunadamente, en este caso se trata únicamente de informaciones sobre 3708 llamadas individuales, lo cuál es un número muy pequeño en comparación con más de un millón de juegos de datos referidos al comportamiento de clientes normales. Como consecuencia del reducido número de observaciones, no siempre será posible verificar distribuciones de probabilidad para todos los aspectos del comportamiento fraudulento. Una estimación de los momentos primeros y segundos, sin embargo, sigue siendo posible y razonable.

Clasificación de los defraudadores reconocidos

A partir de las informaciones existentes sobre defraudadores que ya han sido reconocidos por el operador de red, a continuación se lleva a cabo una división en clases de los usuarios con intenciones fraudulentas. Con ello se ha de delimitar el comportamiento de grupos determinados de defraudadores entre ellos para, de esta manera, poder indicar pruebas precisas para su reconocimiento.

A modo de motivación puede servir en este caso la comparación del importe total diario y el importe diario en los números 190 de la Figura 26. Se puede reconocer claramente que la cantidad de puntos se descompone en dos clases, en concreto, por un lado, puntos a lo largo de las diagonales principales para clientes cuyo importe total está formado por llamadas con números 190. Por otro lado, los puntos a lo largo del eje x se corresponden con juegos de datos con solo un importe únicamente reducido relativo a números 190.

Para la clasificación de los clientes con intención fraudulenta, llevamos a cabo un análisis de las componentes principales de la matriz de covarianza R_{b} estimada. Se toma como base para cada día y abonado un juego de datos diario compuesto por 30 características. Se observan los importes diarios, el número de llamadas por día y las duraciones diarias de las llamadas. Cada una de estas tres características principales se subdivide en las diez categorías de números llamados ya mencionadas. Dentro del juego de datos, se usan para las características principales respectivamente en orden correlativo números 171, números 172, números 177, números 180, números 190, llamadas internacionales, otras conexiones nacionales, itinerantes, servicio y llamadas MTC. Para ello, desígnese yi

\euro

R^{30}, i = 1, ..., n el vector con características de un juego de datos diarios de un cliente con intención fraudulenta y n su número. Adicionalmente, sea

\bar{y} = \frac{l}{n}\sum\limits^{n}_{i=1} y_{i}

el valor esperado estimado. A continuación usamos la estimación de máxima verosimilitud de la matriz de covarianza

R_{b} = \frac{l}{n} \sum\limits^{n}_{i=1}(y_{i}-\bar{y})(y_{i}-\bar{y})^{T}

Representamos ahora la matriz R_{b} como

R_{b} = T \wedge T'

con una matriz ortogonal T y una matriz diagonal \wedge, que contiene como entradas diagonales los valores propios ordenados en orden descendente según su magnitud

\sigma_{1}^{2}\geq...\geq\sigma_{n}^{2}

En este caso obtenemos

: (ó_{1}^{2}, ..., ó_{30}^{2}) = (8e + 08, 2e + 08, 7e + 06, 3e + 06, 2e + 06, 1e + 06,1e + 05, 6e + 04, 4e + 04, 1e + 04,1e + 04,4406, 2434, 480, 308, 147, 115, 115, 35,3, 19,4, 7,3, 1,8, 1,1, 0,6, 0,3, 0,1, 0,02, 0,01, 0,002).

Evidentemente, la parte de la variabilidad total descrita por medio de las dos primeras componentes principales viene dada por

\frac{\sigma_{1}^{2}+\sigma_{2}^{2}}{\sigma_{1}^{2}+...+\sigma_{30}^{2}}=98,60%

Es decir, que los juegos de datos transformados

\tilde{y}_{i}(\tilde{y}_{i,1},...,\tilde{y}_{i,30}) = T^{'}(y_{i}-\bar{y}), i = 1,...,n

se encuentran en un subespacio bidimensional con un margen de error despreciablemente pequeño, que está fijado por medio de los dos primeros vectores unitarios. Adicionalmente, la componente principal \tilde{y}_{ij} j-ésima posee el valor esperado 0, la varianza ó_{i}^{2}, y las diferentes componentes principales están incorreladas.

Los vectores propios t_{i} de la matriz R_{b} son las columnas de la matriz de transformación T ortogonal, es decir

T = (t_{1}, ..., t_{30})

Por medio de las entradas máximas en cuanto a importe del primer y del segundo vector propio se pueden discriminar los defraudadores, considerando las categorías pertenecientes a estas componentes como característica de clasificación para el comportamiento fraudulento. A partir de los vectores propios que pertenecen a ó_{1}^{2} y a ó_{2}^{2} resulta la división de abonados con intención fraudulenta entre aquellos clientes cuyo uso fraudulento está caracterizado por números 0190 o por llamadas internacionales. En la Figura 27 está representado el grupo de los defraudadores de los números 0190 por medio de la primera componente principal que discurre en la dirección del eje x. Se puede reconocer al resto de los defraudadores que destacan por las llamadas internacionales por las segundas componentes principales en la dirección del eje y.

Pruebas para el reconocimiento de defraudadores

Después de la discriminación de los defraudadores ya reconocidos por el operador de red por medio de un análisis de las componentes principales se indican ahora procedimientos estadísticos de prueba para el reconocimiento de defraudadores. Para ello se consideran las observaciones del comportamiento de abonados sin intención fraudulenta como aleatorias y se designan con las variables aleatorias X - (\mu, R_{e}) cuya distribución posee el valor esperado \mu y la varianza R_{e}. La matriz R_{e} se vuelve a descomponer en

R_{e} = S\Theta S^{'},

siendo S = (s_{1}, ..., s_{30}) una matriz ortogonal.

\Theta = diag(\vartheta_{1}^{2},...,\vartheta_{30}^{2}) \ con \ \vartheta_{1}^{2}\geq...\geq\vartheta_{30}^{2}

denomina a la matriz diagonal de los valores propios ordenados de Re, cuyas estimaciones vienen dadas por

: \vartheta_{1}^{2},...,\vartheta_{30}^{2}) = (2e + 05, 7e + 04, 7e + 04, 6e + 04, 2e + 04,2e + 04, 1e + 04, 1e + 04, 7226, 6757, 4732, 2922, 1099, 983, 646, 440, 322, 293, 162, 4.4, 3,9, 1,7, 0,8, 0,4, 0,4, 0,3, 0,2, 0,16, 0,01, 0,002).

Con la ayuda de la matriz ortogonal T a partir de la transformación de las componentes principales de Rb, conformamos

\tilde{X} = T' (X-\mu),

a partir de donde se continua con la linealidad del valor esperado

E[\tilde{X}] = 0

y

E[\tilde{X}\tilde{X}'] = T'R_{e}T

Haciendo uso de los vectores propios t_{1}, t_{2} respecto a los mayores valores propios de la matriz de covarianza R_{b} de los defraudadores a partir de la sección anterior, resulta

E[t_{1}'\bar{X}] = 0

\hskip1cm

y

\hskip1cm

Var(t_{1}'\bar{X}) = \sum\limits^{30}_{i=1}t_{1,i}^{2}\vartheta_{1}^{2}

E[t_{2}'\bar{X}] = 0

\hskip1cm

y

\hskip1cm

Var(t_{2}'\bar{X}) = \sum\limits_{i=1}^{30}t_{2,i}^{2}\vartheta_{1}^{2}

representando t_{1,i} y t_{2,i} en este caso la componente i-ésima del vector t_{1} o t_{2}. En particular, se da que

Var(t_{1}'\tilde{X} = \leq\vartheta_{1}^{2}\forall i = 1,...,30

Adicionalmente, el valor medio de los juegos de datos Y_{i} bajo la transformación indicada anteriormente

\frac{1}{m}\sum\limits_{i=1}^{m}T'(y_{i}-\mu)=T'(\bar{Y}-\mu)

y las varianzas coinciden con los valores \vartheta_{1}^{2},...,\vartheta_{30}^{2} de \lambda.

Puesto que los valores \mu, R_{e} no son conocidos, se estiman a partir de las n observaciones X_{i} existentes con la ayuda de los estimadores de máxima verosimilitud

\mu = \bar{X}_{1},

\hskip1cm

y

\hskip1cm

R_{e} = \frac{1}{n}\sum\limits_{i=1}^{n}(X_{i}-\bar{X})(X_{i}-\bar{X})'

La posibilidad de usar la descomposición de la matriz de covarianza para la transformación de las componentes principales está garantizada.

Los resultados de las investigaciones de los defraudadores del último párrafo se resumen ahora conjuntamente con la transformación de las componentes principales que acaba de ser realizada de los datos de los clientes normales en la Figura 21. En este gráfico se puede reconocer bien la varianza claramente inferior de las componentes principales en los clientes normales

(Var(t_{i}'\tilde{X}\leq\vartheta_{1}^{2} = 2\text{*}10^{5}

en contraposición con \vartheta_{2}^{2} \geq 2*10^{8}) que, conjuntamente con el desplazamiento de los valores esperados para clientes con intención fraudulenta en la dirección de mayores componentes principales, hace posible el uso de la prueba del valor extraño.

Con la finalidad de indicar una prueba para el reconocimiento de defraudadores se consideran las dos componentes principales de un modo especial, es decir, se desarrolla una prueba especial para los defraudadores de 190 y para los defraudadores de llamadas internacionales. En primer lugar, se estima la cuantila empírica (1-\alpha) Q^{i}_{1-\alpha}, i = 1, 2 para las dos componentes principales. Para ello se utilizan las n observaciones dispuestas

X_{1:n}^{i},X_{2:n}^{i},...,X_{n:n}^{i}

A continuación se determina el número k correspondiente, para el que rige

1

Entonces, la cuantila Q^{i}_{1-\alpha} es= X^{i}_{k:n} . Para los datos existentes especialmente resulta entonces para \alpha= 0,005 la cuantila Q^{1}_{1-\alpha}= -0,035 y Q^{2}_{1-\alpha}= 14,1089.

Con la ayuda de las cuantilas empíricas se puede conformar ahora la prueba relativa a la intención fraudulenta por medio de la transformación de las componentes principales de los datos del abonado de un día. En caso de que el valor de la transformación de los datos del cliente esté por encima de una de las dos cuantilas Q^{i}_{1-\alpha} calculadas, se supone que se trata de un defraudador. El parámetro \alpha da en este caso la probabilidad de error de que un cliente sin intención fraudulenta sea reconocido injustamente como defraudador. Esta inexactitud, naturalmente, se ha de mantener lo más baja posible. Para el uso de la prueba no es necesario volver a calcular la cuantila Q^{i}_{1-\alpha} cada vez, sino que es suficiente un nuevo cálculo periódico de estos valores. Aparte de esta prueba, también existe la posibilidad de encontrar, a partir de la representación gráfica de la transformación de las componentes principales, a aquellos abonados cuyos valores no se encuentren en los ejes de transformación calculados y cuyo comportamiento destaca porque realizan un fraude por medio de una combinación de llamadas a números 0190 y llamadas internacionales. Los datos de clientes correspondientes se pueden comprobar entonces de modo manual por lo que se refiere a la intención fraudulenta, ya que no son filtrados como defraudadores por medio de la prueba que se acaba de describir. (Los ejemplos relativos a este particular se pueden reconocer en la figura 21.).

El proceso descrito hasta el momento de la transformación de las componentes principales y de la prueba de fraude realizada a continuación no solo se puede usar con los juegos de datos diarios de los abonados, sino que los datos en los que se basa se pueden recopilar y evaluar transcurrido un periodo arbitrario. Debido a ello, surge la posibilidad de investigar de modo automático el comportamiento de los abonados transcurridos diferentes periodos.

Las particularidades de los clientes se medían hasta el momento únicamente a partir de sus dos componentes principales dominantes, es decir, los números 190 y las conexiones internacionales, ya que los defraudadores ya reconocidos en el material de datos disponible solo se caracterizan en su comportamiento por medio de estos dos aspectos. Sin embargo, tendría sentido el reconocimiento de cualquier tipo de anomalía de comportamiento en comparación con los usuarios sin intenciones fraudulentas. Por esta razón se utiliza una prueba de valores extraños multidimensionales. Esta está basada en la distancia de Mahalanobis

(X_{i}-\bar{X})'R_{e}^{-1}(X_{i}-\bar{X}'),

que mide las desviaciones del comportamiento respecto al de los clientes normales. No se puede realizar una indicación explícita de la prueba, ya que solo existen datos sobre defraudadores de las dos clases que ya han sido mencionadas. Alternativamente a la desviación del comportamiento de un usuario respecto al de los clientes normales, también se puede medir, naturalmente, la desviación del comportamiento de los defraudadores por medio de la aplicación de R^{-1}_{b}. Por medio de estas distancias se puede tener una mejor visión general del comportamiento de los usuarios y realizar pruebas sobre desviaciones significativas. Sin embargo, como consecuencia del limitado número de tipos de defraudadores que se puedan diferenciar en los datos proporcionados, no es posible una observación más profunda de las pruebas de valores extraños multidimensionales en el momento actual.

A modo de otro procedimiento de prueba para el reconocimiento de defraudadores se puede usar el análisis de discriminación de Fisher, que se basa en la separación de los defraudadores de los clientes normales por medio de un plano. Se busca una función lineal a'x que maximice la relación de las distancias al cuadrado entre los dos grupos de usuarios, y de esta manera los separe entre ellos. El vector \beta, en este caso, es el vector propio referido al mayor valor propio de la matriz W^{-1}B, que se calcula a partir de

W = n_{1}R_{e} + n_{2}R_{b},

y

B = \left(\frac{n_{1}n_{2}}{n}\right)dd'

siendo d = \mu - \bar{Y}.

En este caso, n_{1} indica el número de datos de clientes normales y n_{2} indica el número de datos de defraudadores. El vector propio correspondiente a se obtiene de a = W^{-1}d. Se propone la estadística de prueba

d'W^{-1}\left\{X-\frac{1}{1}(\mu+\bar{Y})\right\}

que usa la posición de un punto respecto al punto central del recorrido de unión entre \mu e \bar{Y}. Sin embargo, para la aplicación en el planteamiento del problema del reconocimiento de defraudadores en el operador de red tiene sentido escalar este valor de prueba de otra manera, que no tiene efectos en la corrección del procedimiento propiamente dicha. Los resultados de la aplicación del análisis de la discriminación de Fisher están representados en la Figura 28. En el eje y están representados los valores de la estadística (1) respecto a los valores i / n_{1} para los usuarios honrados y j / n_{2} para los defraudadores.

Se muestra que aproximadamente el 30% de los datos de los defraudadores se encuentra por debajo de la línea con y = 0,0025. Es de esperar que por medio de una correspondiente prueba de discriminación destaque una mayor proporción de defraudadores. Se ha de tener en cuenta que diferentes juegos de datos pertenecen a la misma persona; en el caso tratado, hay 213 juegos de datos para 57 defraudadores reconocidos. El 30% se corresponde aproximadamente con 70 juegos de datos de los que han sido reconocidos como fraudulentos.

Algoritmo para el reconocimiento de defraudadores

Sea la nueva observación X y la cuantila Q^{i}_{1-\alpha}

a) Se calcula la transformación de las componentes principales

\tilde{X} = T'(X-\mu)

b) Compruébese la transformación relativa a

: \tilde{X}_{i}\leq Q_{1-\alpha}^{i}, i = 1, 2

: \tilde{X}_{i} > Q_{1-\alpha}^{i} para un i \Rightarrow X es un defraudador, ir a c)

: \tilde{X}_{i}\leq Q_{1-\alpha}^{i} para un j \Rightarrow X es un cliente normal, ir a d)

c) Actualización del valor esperado y de la matriz de covarianza en el caso de defraudadores

\bar{Y}\leftarrow \frac{nY+X}{n+1}

\newpage

R_{b}\leftarrow\frac{nR_{b}+(X-\bar{Y})(X-\bar{Y})^{'}}{n+1}

d) Actualización del valor esperado y de la matriz de covarianza en el caso de clientes normales

\bar{\mu}\leftarrow \frac{n\mu+X}{n+1}

R_{e}\leftarrow \frac{nR_{e}+(X-\mu)(X-\mu)^{'}}{n+1}

Valoración de los filtros MEGS seleccionados

En esta sección se evalúan filtros seleccionados del sistema MEGS en el sentido de las probabilidades de error de primer y segundo orden que han sido obtenidas a partir del modelo empírico de la distribución de números llamados.

Cada filtro i se puede concebir como prueba de la hipótesis

H^{i}_{1}: El abonado no es un defraudador

H^{0}_{1}: El abonado es un defraudador,

es decir, cuando un usuario ha sido registrado por medio del filtro i, se supone la hipótesis H^{i}_{1}, es decir, su intención fraudulenta.

Al probar las hipótesis de este tipo, se pueden cometer dos errores diferentes. Por un lado, se puede reconocer un cliente normal erróneamente como defraudador. Esta inexactitud se denomina error de primer orden, o también error \alpha. Por otro lado puede suceder, naturalmente, que en el caso del abonado comprobado se trate de un defraudador y que la prueba, aún así se decida por la hipótesis H^{i}_{0}. Esto se denomina entonces error de segundo orden, o error \beta. En el sentido del planteamiento del problema es razonable limitar el error de primer orden para no perder clientes innecesariamente cuya conexión haya sido bloqueada por error.

Las probabilidades de error indicadas con anterioridad se han de representar ahora a partir de las probabilidades empíricas calculadas para, de esta manera, obtener una medida de evaluación para los filtros empleados. La siguiente tabla muestra un listado de los resultados de esta investigación.

Descripción del filtro %	Error \alpha	Error \beta
"190"\geq 100 DM/día	0,000042	0,987325
"itinerante"\geq 500 DM/día	0,000004	1
Zona mundial 2+9 \geq 300 DM/día	0	0,995955
1 llamada a la zona mundial 2	0,000462	0,837108
1 llamada a la zona mundial 8	0,000389	0,989753
1 llamada a la zona mundial 9	0,000189	0,898056
2 llamadas/día a la zona mundial 2+5	0,000160	0,991640
2 llamadas/día a la zona mundial 2+8	0,000162	0,994337
2 llamadas/día a la zona mundial 2+9	0,000468	0,990291
2 llamadas/día a la zona mundial 5+8	0,000121	0,994876
2 llamadas/día a la zona mundial 5+9	0,000430	0,989482
2 llamadas/día a la zona mundial 8+9	0,000431	0,992179
5 llamadas/día a la zona mundial 2	0,000016	0,995146
5 llamadas/día a la zona mundial 5	0,000012	0,997303
5 llamadas/día a la zona mundial 9	0,000062	0,994876

El error \alpha se calcula como frecuencia relativa del filtro correspondiente en abonados sin intención fraudulenta, y el error \beta como frecuencia relativa 1 - del filtro en el caso de defraudadores.

Se puede reconocer que todos los filtros considerados presentan una probabilidad de error de primer orden muy pequeña, pero también un error \beta muy elevado.

Por parte del operador de red se emplea una pluralidad de filtros adicionales, que, sin embargo, no han podido ser evaluados hasta el momento, ya que utilizan la antigüedad del cliente, es decir, su pertenencia a una clase, que desafortunadamente no está contenida en los datos disponibles.

A continuación, se explica la invención con más detalle a partir de tablas y dibujos. En este caso, a partir de los dibujos, tablas y su descripción resultan otras ventajas y características fundamentales para la invención.

Muestran

Fig. 1: frecuencia relativa de los importes de las llamadas en el caso de clientes normales

Fig. 2: frecuencia relativa de los importes de las llamadas en el caso de defraudadores

Fig. 3: frecuencia relativa de los números de llamadas por día en el caso de defraudadores

Fig. 4: tabla de los valores de la distribución empírica de los números llamados.

Fig. 5a y 5b: tabla de los datos de la ampliación del modelo para los diferentes números internacionales

Fig. 6: tabla de la frecuencia de llamadas desde el extranjero a Alemania según los números llamados (abonados sin intención fraudulenta)

Fig. 7: tabla de la frecuencia de llamadas desde el extranjero a Alemania en comparación con otros países de destino (abonados sin intención fraudulenta)

Fig. 8: tabla de la frecuencia de llamadas desde el extranjero a Alemania por parte de abonados con intención fraudulenta

Fig. 9: tabla de la frecuencia de llamadas desde el extranjero por parte de abonados con intención fraudulenta

Fig. 10 y Fig. 11: valores empíricos de los números llamados por parte de abonados con intención fraudulenta

Fig. 12 a Fig. 16: valor empírico y varianza empírica de la duración de las llamadas en el caso de clientes normales y en el caso de defraudadores

Fig. 17 a Fig. 18: valores empíricos de la distribución de importes en el caso de clientes normales y en el caso de defraudadores

Fig. 19: tabla de contingencia para la prueba de la independencia por parejas de los números llamados en un periodo de observación determinado

Fig. 20: representación de las componentes principales asignadas a 612 y a 622

Fig. 21: resultado del análisis de discriminación de Fisher

Fig. 22: la representación desde el punto de vista del dispositivo de la secuencia del proceso según la Fig. 23

Fig. 23: diagrama de secuencia del procedimiento para el reconocimiento de defraudadores con los dispositivos según la Fig. 22

Fig. 24: frecuencias de los importes diarios en el caso de clientes normales (detalle)

Fig. 25: frecuencias relativas de los números de llamadas por día en el caso de clientes normales y aproximación por medio de función (detalle)

Fig. 26: importe total diario respecto a importe diario a números 190

Fig. 27: las componentes principales asignadas a \sigma^{2}_{1} o a \sigma^{2}_{2}

Fig. 28: resultado del análisis de discriminación de Fisher

\newpage

La tabla según la Fig. 4 contiene los valores de la distribución empírica de los números llamados para el portador T_{z} = {t_{1}, t_{2},..., t_{12}}. En este caso hay que prestar atención al hecho de que las diferentes categorías, como, por ejemplo, "servicio" y "MTC", están subdivididas aún más para que puedan ser extraídas con más facilidad a partir de los datos de conexiones individuales existentes. En la segunda tabla según la Fig. 5 están contenidos los datos para la ampliación del modelo para los diferentes números llamados internacionales. En este caso se trata de una división de la categoría "conexiones internacionales". La base de datos está formada por 1391739 observaciones.

En la tabla según la Fig. 6 y la Fig. 7 están listados de modo especial para abonados sin intención fraudulenta las llamadas desde el extranjero a Alemania, es decir, aquellas con prefijo 0049. Las frecuencias relativas se refieren en este caso al número correspondiente de las conexiones 0049 en la tabla anterior.

De modo completamente análogo a las tablas de los abonados sin intención fraudulenta, en las Figuras 8, 9 y 10 están listados en tres tablas los valores empíricos de los números llamados de los defraudadores. En este caso, la Fig. 8 lista la frecuencia de la categoría de destino marcada, mientras que la Figura 9 (con la continuación por medio de la Figura 10), muestra los prefijos marcados por los defraudadores desde el extranjero y su frecuencia. En la Figura 11 está representada la categoría de destino marcada con mayor frecuencia por parte del defraudador.

En las tablas de las figuras 13 a 18 están representados los valores empíricos para distribuciones con categorías de números de destino prefijadas.

La Figura 12 muestra las distribuciones de duración de las llamadas en el caso de clientes normales, y la Figura 13 en el caso de defraudadores.

La Figura 14 muestra el número de llamadas por día en el caso de clientes normales, y la Figura 15 en el caso de defraudadores.

Las Figuras 16 y 17 muestran la distribución de los importes en el caso de clientes normales, y la Figura 18 en el caso de defraudadores.

La Figura 19 muestra, finalmente, la prueba de independencia para categorías de números llamados.

La tabla muestra la tabla de contingencia para la prueba de la independencia por parejas de las categorías de números llamados. En este caso se ha de tener en cuenta que no se ha observado ningún número "0130", es decir, que se trata de una tabla 9 x 9, la distribución X^{2} (chi-cuadrado), así pues, posee 64 grados de libertad. Con el elevado valor de la estadística de prueba, naturalmente, se rechaza la hipótesis de independencia para todos los niveles \alpha razonables.

A partir del rechazo de la independencia estocástica por parejas se concluye que no puede ser válida ninguna independencia estocástica conjunta de las categorías de números llamados. Esto es cierto de modo correspondiente para todos los días.

La Figura 20 muestra la representación gráfica de las componentes principales asignadas a \sigma^{2}_{1} o a \sigma^{2}_{2}, mientras que la Figura 21 muestra el resultado del análisis de discriminación de Fisher como representación gráfica.

La Fig. 22 muestra la realización desde el punto de vista de la técnica del dispositivo del procedimiento según la invención, que está representado como diagrama de bloques en la Fig. 23.

En la etapa a) representada están representados a modo de ejemplo los elementos de la red de telecomunicaciones. La designación MSC supone la unidad de conmutación electrónica, representada por medio de un ordenador de conmutación, mientras que VMS es un denominado sistema de buzón de voz, con el que se generan respuestas habladas de la red dependientes del usuario.

Las unidades de dispositivos VAS-NE significan elementos de red adicionales, como por ejemplo elementos del registro de facturación, y otros.

Los juegos de datos del operador de red que se generan en este entorno de dispositivos se transmiten por medio del sistema de señalización número 7 (File Transfer Access and Management) al ordenador para el reconocimiento de uso fraudulento. Este ordenador también se denomina servidor de datos de cliente.

El sistema de señalización número 7 (FTAM) mencionado aquí es un protocolo de nivel 7, que transmite de una vez paquetes completos de juegos de datos. Así pues, se trata de un campo de datos (File), en el que están contenidos muchos miles de juegos de datos, que son transmitidos en línea al servidor de datos de clientes.

En las etapas b) a g) se deja que se desarrolle todo el procedimiento, que está caracterizado por el diagrama de bloques en las Fig. 22 y 23 como etapa b) a g). Es importante que las etapas de cálculo, como las transformaciones de las componentes principales (análisis de discriminación de Fisher) y todas las demás etapas de cálculo, se ejecuten en tiempo real en este ordenador.

Se calculan los resultados y pueden ser transmitidos en la etapa h) a la estación de tratamiento de clientes (Customer Care Workstation) en tiempo real. En la consola de esta estación hay un operario, en cuya pantalla se genera una alarma óptica y/o acústica cuando se ha reconocido un uso fraudulento. El operario puede actuar entonces incluso durante la llamada fraudulenta en curso, y por ejemplo, puede interrumpir esta llamada, o puede impedir una marcación posterior o similar. Igualmente, se puede emitir una advertencia acústica al usuario fraudulento.

También hay una realimentación del servidor de clientes al ordenador de uso fraudulento. El operario puede, por ejemplo, modificar en el ordenador de clientes (en caso de que se haya disparado una alarma) el umbral de alarma u otros criterios de actuación. Estos datos se le indican al ordenador de uso fraudulento, que aprende a partir de ellos y los incorpora a sus cálculos.

La Figura 23 muestra el diagrama de secuencia del procedimiento conforme a la invención. Las etapas a) a h) ejecutadas en este caso están expuestas en las características de la reivindicación 1.

Es importante la línea de retorno desde los bloques funcionales dispuestos en el dibujo en el borde inferior. Por medio de esta línea de retorno se lleva a cabo una actualización de las covarianzas y de los valores medios calculados. El sistema, así pues, realiza un autoaprendizaje.

Las investigaciones del material de datos proporcionado han mostrado que el comportamiento de los abonados con intención fraudulenta se puede caracterizar fundamentalmente por medio de dos características. Los resultados conseguidos en el ejemplo de realización y en las tablas representadas se refieren a un juego de datos a modo de ejemplo de un operador de red. A partir de los datos existentes solo se pudieron determinar dos diferentes grupos de abonados con intención fraudulenta.

Claims

1. Procedimiento para el reconocimiento de uso fraudulento de servicios del operador de red por parte de clientes mediante un análisis en línea de juegos de datos referidos a los clientes, con las siguientes etapas:

a): Registro en línea de los juegos de datos de entrada a partir de los elementos de red a partir de las siguientes componentes

i): Juegos de datos acumulados a lo largo de un periodo fijo;

ii): Datos de conexiones individuales de la última duración en días autorizada por la ley alemana de protección de datos, comprendiendo: números llamados, duración de las llamadas, tipo de la conexión, etc.;

iii): Datos específicos de los clientes.

b): Acumulación de las características de entrada por clases: tipo de número llamado, números de llamadas, tipos de llamadas;

c): Realización del análisis de las componentes principales:

ii): Descomposición espectral de la matriz de covarianza correspondiente;

iii): Determinación de las componentes principales relevantes;

iiii): Clasificación de las componentes principales relevantes para el comportamiento fraudulento.

e): Representación de las componentes principales de juegos de datos y discriminación relativa al comportamiento fraudulento

f): Estimación y cálculo de las cuantilas empíricas de las componentes principales para el control de las probabilidades de error de primer y segundo orden con una detección automática y generación de alarma;

g): Análisis de discriminación de Fisher para la determinación de un hiperplano de separación entre juegos de datos de defraudadores identificados y clientes normales con representación gráfica

2. Procedimiento según la reivindicación 1, caracterizado porque en la etapa del procedimiento b), cada juego de datos de datos acumulados se representa por medio de un vector real de múltiples dimensiones.

3. Procedimiento según la reivindicación 1 ó 2, caracterizado porque en la etapa del procedimiento e), las componentes principales de los juegos de datos se representan de modo gráfico.

4. Procedimiento según una de las reivindicaciones 1-3, caracterizado porque, en la etapa del procedimiento e), el comportamiento fraudulento calculado se representa de modo visual.

5. Procedimiento según una de las reivindicaciones 1-4, caracterizado porque los juegos de datos de los usuarios se analizan según las características de su llamada y se dividen en clases asignadas y porque la división en clases se realiza a partir del comportamiento que distingue a un grupo determinado de abonados con intención fraudulenta y que se diferencia del comportamiento individual del resto de abonados de modo significativo.

6. Procedimiento según una de las reivindicaciones 1-5, caracterizado porque el comportamiento de los clientes con intención fraudulenta está caracterizado por medio de las siguientes dos características

a) Uso fraudulento de números 0190 y, al mismo tiempo,

b) Realización de un número destacadamente elevado de llamadas internacionales en el periodo investigado.

\newpage

7. Procedimiento según una de las reivindicaciones 1-6, caracterizado porque un algoritmo para el reconocimiento de fraude está formado por las siguientes relaciones:

Sean la nueva observación y las cuantilas Q^{i}_{1-\alpha}

a) Calcúlese la transformación de las componentes principales

\tilde{X} = T'(X-\mu)

b) Compruébese la transformación por lo que se refiere a

: \tilde{X}_{i}\leq Q_{1-\alpha}^{i}, i = 1, 2

\bar{Y}\leftarrow \frac{nY+X}{n+1}

R_{b}\leftarrow\frac{nR_{b}+(X-\bar{Y})(X-\bar{Y})'}{n+1}

\bar{\mu}\leftarrow \frac{n\mu+X}{n+1}

R_{e}\leftarrow \frac{nR_{e}+(X-\mu)(X-\mu)'}{(n+1)}

8. Procedimiento según una de las reivindicaciones 1-7, caracterizado porque el reconocimiento de defraudadores se lleva a cabo por medio del análisis de discriminación de Fisher.