ES2246225T3 - Procedimiento para el reconocimiento de uso fraudulento de servicios de un operador de red y dispositivo de procesado de datos para la realizacion del procedimiento. - Google Patents
Procedimiento para el reconocimiento de uso fraudulento de servicios de un operador de red y dispositivo de procesado de datos para la realizacion del procedimiento.Info
- Publication number
- ES2246225T3 ES2246225T3 ES00907552T ES00907552T ES2246225T3 ES 2246225 T3 ES2246225 T3 ES 2246225T3 ES 00907552 T ES00907552 T ES 00907552T ES 00907552 T ES00907552 T ES 00907552T ES 2246225 T3 ES2246225 T3 ES 2246225T3
- Authority
- ES
- Spain
- Prior art keywords
- data
- fraudulent
- data sets
- fraudsters
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
- H04W12/121—Wireless intrusion detection systems [WIDS]; Wireless intrusion prevention systems [WIPS]
- H04W12/122—Counter-measures against attacks; Protection against rogue devices
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Complex Calculations (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
Procedimiento para el reconocimiento de uso fraudulento de servicios del operador de red por parte de clientes mediante un análisis en línea de juegos de datos referidos a los clientes, con las siguientes etapas: a) Registro en línea de los juegos de datos de entrada a partir de los elementos de red a partir de las siguientes componentes i) Juegos de datos acumulados a lo largo de un periodo fijo; ii) Datos de conexiones individuales de la última duración en días autorizada por la ley alemana de protección de datos, comprendiendo: números llamados, duración de las llamadas, tipo de la conexión, etc.; iii) Datos específicos de los clientes. b) Acumulación de las características de entrada por clases: tipo de número llamado, números de llamadas, tipos de llamadas.
Description
Procedimiento para el reconocimiento de uso
fraudulento de servicios de un operador de red y dispositivo de
procesado de datos para la realización del procedimiento.
La invención se refiere a un procedimiento según
el preámbulo de la reivindicación 1 así como a un dispositivo de
tratamiento de datos para la realización del procedimiento.
Ciertamente, ya se han dado a conocer
procedimientos del tipo mencionado al comienzo, aunque les afectaba
la desventaja de que trabajaban de un modo lento e impreciso y
generaban frecuentemente falsas alarmas indeseadas.
El documento WO97/03533A1 da a conocer una
disposición para el reconocimiento del uso fraudulento de un
teléfono móvil por medio de un abonado de una red de telefonía
móvil. La disposición comprende un procesador de entrada, una red
neuronal unida con el procesador de entrada y un programa de
procesado posterior de salida, que está unido con la red neuronal.
El procesador de entrada calcula para cada abonado un primer perfil
de llamada de larga duración, un segundo perfil de llamada de corta
duración y un patrón de perfil de abonado que contiene la diferencia
entre el primer y el segundo perfil. Cada patrón de perfil de
llamada y de perfil de abonado contiene un juego de valores para un
juego correspondiente de atributos de llamada. La red neuronal
contiene un diagrama que se organiza a sí mismo, que está conformado
para realizar un reconocimiento del patrón del patrón del perfil de
abonado y un perceptrón de varias capas que calcula para cada patrón
reconocido un valor que indica la probabilidad de un fraude referido
al patrón correspondiente.
Así pues, la invención se basa en el objetivo de
crear una probabilidad de detección fundamentalmente más elevada
para usuarios fraudulentos en comparación con los procedimientos
existentes, habiéndose de conseguir una menor probabilidad para una
falsa alarma (cliente normal tomado erróneamente por sospechoso) en
comparación con los procedimientos existentes.
Para la consecución del objetivo marcado sirve la
exposición técnica reproducida en la reivindicación 1. Otras
configuraciones y variantes de la idea de la invención son objeto de
las reivindicaciones subordinadas.
En la presente descripción de la invención, se
descomponen, de modo lógico y conforme a la técnica del tratamiento
de datos, juegos de datos de un operador de telefonía móvil
relativos al comportamiento de los usuarios en la red de telefonía
móvil entre los correspondientes a aquellos clientes que son
honrados y a aquellos con intenciones fraudulentas, tomando como
base modelos estocásticos. Más allá del filtro unidimensional
implementado en MEGS, se desarrollan procedimientos para el
reconocimiento de fraude asistido por ordenador.
- -
- Con la ayuda del análisis de las componentes principales se ofrece una herramienta gráfica con la que, por medio de trazados bidimensionales y una coloración correspondiente, se pueden identificar de una manera sencilla datos de defraudadores. Esto sucede por medio de la inspección visual o por medio de una prueba interna del ordenador automática.
- -
- Tomando como base el análisis de discriminación de Fisher se propone una prueba automática que, de modo simultáneo, a partir de los juegos de datos de elevada dimensión, identifica aquellos que pertenecen a defraudadores.
Los dos procedimientos se distinguen, con un
coste de cálculo reducido, por pequeñas probabilidades de error 1 de
primer y segundo orden. Esto supone una probabilidad de detección
elevada con un número reducido de falsas alarmas.
El procedimiento está formado fundamentalmente
por las siguientes etapas, que son llevadas a cabo controladas por
un programa en una instalación de procesado de datos:
- a)
- Registro de los juegos de datos de entrada a partir de las siguientes componentes:
- i)
- Juegos de datos acumulados a lo largo de un periodo fijo, por ejemplo, juegos de datos de 30 días;
- ii)
- Datos de conexiones individuales de la última duración autorizada por la alemana de protección de datos en días (actualmente 5 días): número llamado, duración de las llamadas, tipo de la conexión, etc.;
- iii)
- Datos específicos de los clientes (antigüedad del cliente en la red, forma de pago, etc.).
- b)
- Acumulación de las características de entrada por clases (tipo de número llamado, números de llamadas, tipos de llamadas, etc.):
- Cada juego de datos formado por datos acumulados se representa por medio de un vector real de múltiples dimensiones.
- c)
- Realización del análisis de las componentes principales:
- i)
- Realización de un análisis de las componentes principales en busca de juegos de datos de defraudadores ya reconocidos;
- ii)
- Descomposición espectral de la matriz de covarianza correspondiente;
- iii)
- Determinación de las componentes principales relevantes;
- iiii)
- Clasificación de las componentes principales relevantes para los comportamientos fraudulentos.
- d)
- Transformación de las componentes principales de los juegos de datos no detectados tomando como base la descomposición espectral de la matriz de covarianza en la etapa c).
- e)
- Representación (eventualmente gráfica) de las componentes principales de juegos de datos y discriminación (eventualmente visual) relativa al comportamiento fraudulento.
- f)
- Estimación y cálculo de las cuantilas empíricas de las componentes principales para el control de las probabilidades de error de primer y segundo orden con una detección automática y generación de alarma.
- g)
- Análisis de discriminación de Fisher para la determinación de un hiperplano que separa entre juegos de datos de defraudadores identificados y clientes normales con representación gráfica.
- h)
- Estimación y cálculo de las cuantilas empíricas de los datos proyectados para el control de probabilidades de error de primer y segundo orden con detección automática y generación de alarma.
Las ventajas del procedimiento conforme a la
invención son las siguientes:
- -
- posibilidad de cálculo sencillo bajo condiciones de tiempo real: solo se requieren adiciones de vectores, multiplicación e inversión de matrices;
- -
- el procedimiento es independiente de las arquitecturas del ordenador y de los protocolos;
- -
- el procedimiento contiene la posibilidad de una prueba interna del ordenador automática en busca de intención de fraude con posterior alarma automática;
- -
- los juegos de datos correspondientes a usuarios fraudulentos se pueden representar gráficamente con la finalidad de la detección: posibilidad de diferenciación óptica;
- -
- el procedimiento aprende a partir de juegos de datos anteriores, con ello, los juegos de datos actuales pueden ser discriminados mejor;
- -
- el procedimiento es capaz de adaptarse a nuevos perfiles de fraude.
El objetivo de esta invención es el
reconocimiento prematuro de intenciones fraudulentas por parte de
los usuarios de redes de comunicaciones móviles. De este modo, se
trata de limitar las pérdidas económicas para el operador. En este
caso se consideran no solo los casos de uso fraudulento
intencionado, sino también aquellos en los que se preve a que el
abonado no estará en la disposición de hacerse cargo de sus costes
telefónicos. En este trabajo no se diferencia más explícitamente
entre estos dos aspectos diferentes.
El comportamiento de los abonados y la
verificación de una posible intención de fraude se caracterizan con
la ayuda de procedimientos y modelos estadísticos. Con esta
finalidad se hace uso de los datos existentes que se registran para
la facturación de llamadas por parte del operador de red. En este
caso se trata de datos de los abonados, cuyas informaciones se
refieren a un periodo de 80 días. En estos denominados juegos de
datos de 80 días se encuentran informaciones sobre los importes
totales diarios individuales de los clientes, los importes diarios
en caso de conexiones internacionales e itinerantes ("roaming")
así como la pertenencia del abonado a una clase, que refleja su
antigüedad en la red, es decir, la duración de su pertenencia a la
red. A efectos de prueba se analizaron juegos de datos de 80 días de
los segmentos de clientes 19 y 28, es decir, de clientes cuyo número
de teléfono móvil empieza con 19 ó 28.
Adicionalmente están disponibles los datos de las
conexiones individuales de los clientes a partir de las que se
pueden leer, respectivamente, los números llamados, el comienzo, la
duración y los costes de la llamada, así como otras informaciones,
como por ejemplo la célula desde la que ha realizado la llamada
telefónica. Naturalmente, en este caso, por razones de protección de
datos, los datos personales del abonado, como su número MSISDN y el
número llamado, se han codificado o recortado. Los datos de las
conexiones individuales se refieren a los segmentos de abonados 19,
28, 30 y 31, y se extienden respectivamente a lo largo de un periodo
de una semana. Los segmentos 30 y 31 han sido seleccionados
especialmente, ya que se trata de segmentos de clientes existentes
desde hace mucho tiempo, que reflejan bien el comportamiento de
abonados sin intenciones fraudulentas. Los datos de abonados
descritos en los que se basa este trabajo se dividen en
informaciones que pertenecen a clientes sin intenciones fraudulentas
y datos de defraudadores que ya han sido reconocidos y bloqueados
por parte del operador de red.
Para el análisis del comportamiento de los
abonados con y sin intención fraudulenta, en la primera parte del
informe se han desarrollado modelos estadísticos, con cuya ayuda se
pueden expresar aspectos del comportamiento del cliente importantes
para el reconocimiento de fraude.
Puesto que el comportamiento de llamadas de los
clientes con intención fraudulenta se representa como excesivamente
carente de homogeneidad para un tratamiento común, este tipo de
clientes se clasifican a partir de las características de sus
llamadas. Para cada una de estas clases se indican posibilidades
para el reconocimiento. La división se realiza en este caso a partir
del comportamiento que distingue a un determinado grupo de abonados
con intención fraudulenta y que se diferencia del comportamiento
individual del resto de abonados de un modo significativo. En este
caso entran en acción procedimientos de la estadística de varias
variables y análisis de discriminación. Estos hacen posible
describir de un modo preciso el comportamiento de clientes con
intención fraudulenta por medio de solo dos características e
indicar pruebas que se basen en estas características.
En la última parte de las investigaciones se
evalúan filtros determinados del sistema de reconocimiento de fraude
MEGS respecto a su calidad, es decir, sus probabilidades de error
para el reconocimiento de defraudadores. Las indicaciones en torno a
este particular se refieren a los datos empíricos disponibles que
han sido recopilados con el sistema MEGS.
Para la investigación del comportamiento de
abonados con y sin intención fraudulenta se determinan magnitudes
características de las distribuciones de importe diario. A
continuación, se investiga la aceptabilidad de la pertenencia a
clases en los segmentos de abonados 19 y 28 que se toman como base.
Adicionalmente, se determinan las funciones de distribución
empíricas y la densidad de números requeridas para el análisis
posterior de los filtros MEGS.
Los importes diarios de los dos grupos de
usuarios considerados se ven como realizaciones de variables
aleatorias incorreladas X_{e} para clientes normales y X_{b}
para defraudadores. Las características importantes de las dos
distribuciones vienen dadas mediante el valor medio empírico y por
medio de la varianza empírica de las observaciones. Una relación de
las magnitudes calculadas se encuentra en la siguiente tabla.
Clientes normales | Defraudadores | |
Valor esperado | 205,88 | 11738,1 |
Varianza | 378174 | 8,95e+08 |
Para los segmentos 19 y 28 existen juegos de
datos de 80 días, a partir de los cuales se vuelven a calcular los
valores medios empíricos de los importes totales diarios para los
dos segmentos. En este caso, a diferencia del cálculo anterior de
los valores a partir de los datos de conexiones individuales,
también se tiene en cuenta si un abonado realiza llamadas
telefónicas en un día. En la siguiente tabla se listan los valores
correspondientes y los números de las observaciones.
Segmento 19... | Segmento 28... | |
Valor esperado | 0,22539 | 1,3335 |
Número de observaciones | 512703 | 5876000 |
La llamativa diferencia en las estimaciones de
los parámetros entre los segmentos 19 y 28 se puede aclarar por
medio del hecho de que en el caso del segmento 19 se trata de un
segmento de abonados completamente nuevo, en el que el día 11 de
Julio del 98 tuvo lugar un primer uso. Adicionalmente, se puede
destacar que muchos abonados nuevos de este segmento se añadieron
después del 11 de Julio del 98. Así se obtiene el valor empírico
medio del primer uso en la unidad MEGS en el segmento 19:
Valor medio empírico X (primer uso) | 1269,33 |
Número de las observaciones (=abonados en el segmento 19) | 18989 |
Con ello se puede aclarar la diferencia de los
segmentos 19 y 28 por lo que se refiere a sus valores medios
empíricos, ya que muchos abonados del segmento 19 aparecen como
usuarios en un momento relativamente tardío, es decir, en los días
antes de su entrada en la red, su importe total diario desde el 11
de Julio del 98 es igual a 0, lo que tiene un efecto inmediato,
naturalmente, en el valor medio empírico.
Para la investigación posterior del
comportamiento de los clientes normales se considera ahora la
pertenencia del abonado a una clase. Dependiendo de la antigüedad
del cliente, el operador de red ha asignado los abonados a las
clases A, B, C, D y E, que forma una buena base para juzgar la moral
de pago de los abonados.
Sin embargo, como consecuencia de una base de
datos deficiente, hasta ahora no se puede investigar esta
característica de modo preciso para la caracterización del
comportamiento de los abonados, ya que el segmento 19 contiene
clientes muy jóvenes (en el sentido de la antigüedad en la red) y,
como consecuencia de ello, casi todos los abonados están
clasificados en la clase A. Lo mismo se aplica al segmento 28. En
este caso, la mayor parte de los clientes ya están clasificados en
las clases C y D, de manera que solo con este juego de datos tampoco
se puede llegar a afirmación precisas. No están disponibles otros
segmentos en las investigaciones llevadas a cabo hasta el momento,
por lo que sin datos adicionales no se puede realizar una
observación precisa de la distribución de las pertenencias de
clases. Las frecuencias de las pertenencias de clases en los
segmentos 19 y 28 están listadas en la siguiente tabla y pretenden
aclarar las explicaciones antes mencionadas.
Clase | Segmento 19... | Segmento 28... |
No clasificada | 909 | 77 |
Clase A | 18078 | 6234 |
Clase B | 1 | 6933 |
Clase C | 1 | 13419 |
Clase D | 0 | 46784 |
Clase E | 0 | 3 |
Caracterización del comportamiento de los
abonados a partir de los datos de las conexiones individuales.
Después de las investigaciones de los datos de 80
días se integran los datos de conexiones existentes de las llamadas
individuales en las observaciones, ya que en estos juegos de datos
se pueden encontrar informaciones adicionales sobre el
comportamiento de los clientes. En particular, se tratan las
distribuciones marginales necesarias para el análisis de los filtros
MEGS.
Para la descripción del comportamiento del
abonado, son particularmente interesantes, sobre todo, los datos
referidos a los números de llamada marcados del cliente, la duración
de las llamadas de una llamada telefónica realizada y el número
diario de las llamadas telefónicas así como la distribución de los
importes con un interés especial, ya que muestran muy bien los
diferentes aspectos del comportamiento del cliente. Se han realizado
modelos estocásticos y supuestos de distribuciones en relación con
estas tres características.
Las primeras investigaciones en este marco sirven
para la distribución de la duración de las llamadas de las
conexiones individuales. Las duraciones de las llamadas se
consideran realizaciones de una variable aleatoria D constante,
aunque están presentes en los juegos de datos como valores
discretos. Una representación gráfica de las frecuencias relativas
de las duraciones de las llamadas está representada en las Figuras
12 y 13.
A continuación se realiza el establecimiento de
un modelo para la distribución de los números llamados de los
abonados. De nuevo, el número llamado que un cliente marca se puede
ver como aleatorio. Este se pretende describir por medio de la
variable aleatoria Z discreta, cuyo portador se explica a
continuación con más detalle.
El intervalo de números llamados se divide como
consecuencia de la pluralidad de posibilidades en diferentes
categorías que, a continuación, sirven como puntos del portador de
Z. Esta división está resumida en la tabla 1 con algunas
explicaciones.
Categorías de números llamados | |
Prefijos | Descripción |
0177/0171/0172 | Prefijos de los operadores alemanes de telefonía móvil |
130/0180/0190 | Números de prefijo alemanes con tarifas especiales |
2.../3883 | Números de servicio de operadores de red (por ejemplo, T-Box) |
Otros prefijos nacionales | Todos los prefijos alemanes que todavía no han sido registrados |
Itinerantes | \begin{minipage}[t]{115mm} Conexión a otras redes de telefonía móvil (sin itinerancia internacional, sin indicación de número llamado)\end{minipage} |
MTC | \begin{minipage}[t]{115mm} Conexiones MTC, sin indicación de número llamado (también "call forward", internacional, itinerante)\end{minipage} |
Conexiones de fax | Nacional, internacional e itinerante |
Prefijos internacionales | \begin{minipage}[t]{115mm} Número completo de las conexiones internacionales y subdivisión según los estados individuales (también itinerancia internacional)\end{minipage} |
En este caso hay que prestar especial atención al
hecho de que no solo se requiere la información propia del número
llamado a partir de los datos de las conexiones individuales, sino
adicionalmente también el denominado tipo de llamada
("calltype"), que indica si se trata de una llamada nacional,
internacional o de una llamada itinerante y que identifica las
llamadas terminadas en móvil (MTC).
La elección de los puntos portadores se realiza,
en particular, según el punto de vista de los costes en los que se
incurre para una llamada. Esto se refiere, en particular, a los
números especiales 0130 y 0180, y a los números de servicios 2... y
3..., cuyas tarifas son las mismas en toda la república. El mismo
argumento también es válido para los diferentes operadores de
telefonía móvil en Alemania, que han sido agrupados,
correspondientemente, como una categoría propia. Ciertamente, las
tarifas de las diferentes conexiones 0190 se diferencian entre
ellas, pero todas las conexiones de este tipo se agrupan en un grupo
para, de este modo, no incrementar demasiado el número de los puntos
portadores por lo que se refiere al resto de consideraciones.
Ciertamente, las divisiones de itinerancia, llamadas internacionales
y MTC no se caracterizan, por costes uniformes, pero destacan
respecto a las categorías mencionadas hasta el momento como
consecuencia de su estructura de tarifas. Para poder registrar todos
los destinos, se consideran adicionalmente de modo especial las
llamadas de fax, ya que en este caso no se trata de llamadas, sino
de una transmisión de datos. La categoría del resto de números
llamados nacionales no presenta una estructura de costes uniforme. A
pesar de ello, también se han de registrar estos números llamados
para obtener una evaluación completa. Como consecuencia de la
pluralidad de los prefijos nacionales y de sus estructuras de
tarifas, en este caso ya no se puede dividir en más clases. Por lo
tanto, el portador T_{z} de las variables aleatorias se puede
representar como
T_{Z} = {"0177", "0171", "0172",
"0130", "0180", "0190", "servicio",
"nacional", "itinerante", "MTC", "fax",
"internacional"=: {t_{1}, t_{2}, ..., t_{12}}
Con la ayuda de los datos de llamadas
individuales existentes de los segmentos 19, 28, 30 y 31 se
determina ahora la distribución empírica de las variables aleatorias
Z. Un listado de las frecuencias relativas calculadas se encuentra
en las figuras de los dibujos 4 -11. Para encontrar una imagen aún
más precisa de la distribución de números llamados, el punto
portador t_{12} = "internacional" se vuelve a dividir en
función de los diferentes prefijos internacionales. Así pues, se
obtiene un modelo ampliado, que se describe por medio de la variable
\hat{Z} , con portador
T_{Z} =
\{t_{1}, ..., t_{11}, i_{1}, i_{2}, ...,
i_{225}\}
En este caso, los t_{i}, i = 1, ..., 11 son
exactamente tal y como se han definido más arriba, y los puntos
portadores i_{k}, k = 1, ..., 225 representan los 225 diferentes
prefijos internacionales ordenados de modo decreciente según su
magnitud.
También en este caso, de nuevo, la distribución
empírica de \hat{Z} está contenida en las tablas
12-18.
Después de que ahora se haya descrito la
distribución de los números llamados con la ayuda del modelo que se
acaba de describir y de las variables aleatorias Z, se pueden
indicar, conjuntamente con el modelo de la distribución de las
duraciones de las llamadas, algunas distribuciones marginales, que
expresan probabilidades de la forma
|P(D =
x|Z = t_{j}), i = 1, ...,
12
y cuyos valores esperados empíricos
y varianzas están resumidos en las tablas 12-18.
Estas informaciones se usan posteriormente para analizar los filtros
MEGS.
A partir de los dibujos de las frecuencias
relativas de los números de llamadas se puede leer que N de una
distribución discreta es suficiente, cuya densidad de números posee
aproximadamente la siguiente forma:
a \ (k +
b)^{c}, \ para \ k \ \epsilon \
N
Los parámetros a, b y c se pueden calcular por
medio de estimaciones a partir de los datos existentes. Sin embargo,
como consecuencia de la forma de la densidad de números, no está
necesariamente dada la posibilidad de su suma. La Figura 25 muestra
las frecuencias relativas de los números de llamadas en el caso de
clientes normales y la aproximación de los valores empíricos por
medio de una función t(x) = 113,5*(4,34 +
x)-^{3,42}. Los parámetros de t(x) han sido
calculados para esta representación de modo numérico. Como
consecuencia de un menor número de observaciones, los gráficos de
los números de llamadas en el caso de defraudadores reconocidos
muestran una mayor dispersión que en el caso de los clientes sin
intenciones fraudulentas. Una representación correspondiente se
encuentra en la Figura 21.
Tal y como ya se ha mencionado en la distribución
de la duración de las llamadas, también en el caso de las
distribuciones del número de llamadas por día y de la distribución
de importe, las distribuciones comunes correspondientes están
representadas por medio del valor medio empírico y de la varianza
empírica en las Figuras 12-18.
Para poder analizar los filtros del sistema MEGS
usados por el operador de red, son necesarias informaciones
adicionales relativas a la distribución de números llamados.
De esta manera, algunos filtros están diseñados
para registrar aquellos abonados que realizan llamadas telefónicas a
una zona determinada del mundo varias veces en un día. Las
probabilidades empíricas de realizar llamadas telefónicas a una de
las zonas del mundo se puede extraer en el modelo descrito
anteriormente a partir de las figuras de los dibujos. En caso de que
los sucesos de que una llamada entrara dentro de las categorías
descritas fueran independientes de modo estocástico, se podrían
indicar las probabilidades de que en un día se realicen llamadas
telefónicas k veces en una clase de destino determinada por medio
del producto por k de las probabilidades empíricas de la clase
correspondiente con la distribución Z ó \hat{Z}.
Tal y como ya se ha supuesto, sin embargo, las
categorías de números llamados no son independientes desde el punto
de vista estocástico. Esto se muestra refutando la independencia
estocástica por parejas de dos clases, respectivamente, con la ayuda
de una prueba que se basa en tablas de contingencia.
En lo sucesivo, las variables aleatorias X e Y se
han de considerar con expresiones nominales, indicando X la
categoría de la última llamada e Y la categoría de la siguiente
llamada. Así pues, las dos poseen el portador T = T_{z} \
{"MTC"}. Por el concepto de expresión nominal se entienden en
este caso los valores que no están sometidos a ninguna jerarquía de
clasificación y que no son comparables, como por ejemplo los puntos
portadores "0171", "0180" y "0190".
Para la representación de las variables
aleatorias nominales y para su investigación se usa el concepto de
tablas de contingencia. Para ello, X tiene I expresiones nominales,
e Y tiene J. Así pues, hay M = I * J posibles combinaciones para
describir relaciones entre X e Y. Las observaciones (X, Y) de una
pareja de características tienen una distribución de probabilidad
que se representa en una tabla con I filas y J columnas. Las células
de las tablas representan los I * J resultados posibles. Denomínense
sus probabilidades p_{ij}, indicando p_{ij} la probabilidad de
que la observación caiga en la célula (i, j). Cuando en las células
figuran las frecuencias de una pareja de características, se habla
de una tabla de contingencia (I x J).
La distribución de probabilidades del p_{ij} es
la distribución conjunta de X e Y. Las distribuciones marginales que
resultan de las sumas de filas o de columnas a lo largo de los
p_{ij} se denominan
p_{i}=
\sum\limits_{j} p_{ij}
\hskip1cmy
\hskip1cmp_{j} =\sum\limits_{i} p_{ij}.
En general, en este caso, también se ha de
cumplir con la siguiente condición secundaria.
\sum\limits_{i} p_{i} =
\sum\limits_{j} p_{j} = \sum\limits_{i} \sum\limits_{j}p_{ij} =
1
Para comprobar la independencia, se comprueba la
hipótesis
H_{0} : p_{ij}
= p_{i}.* p_{j}
\hskip1cmó
\hskip1cmm_{ij} = \frac{m_{j.}*m_{.j}}{n}
indicando n el número total de
todas las observaciones y m_{ij}, m_{j}., m_{.j}, las
frecuencias esperadas correspondientes. m_{ij} se puede calcular a
partir de las frecuencias observadas por medio del estimador de
máxima
verosimilitud
\hat{m}_{ij} =
\frac{n_{i.}*n_{.j}}{n}
La hipótesis H_{0} se rechaza al nivel á cuando
el valor de la estadística de prueba
X^{2} =
\sum\limits_{i=1}^{I}\sum\limits_{j=1}^{J}\frac{(n_{ij}-\hat{m}_{ij})^{2}}{\hat{m}_{ij}}
es mayor que la cuantila (1 -
\alpha) de la distribución X^{2} correspondiente con (I - 1)*(J
- 1) grados de
libertad.
Con la ayuda de esta prueba, para cada nivel á
habitual se puede rechazar la hipótesis de categorías de números
llamados independientes de modo estocástico por parejas en llamadas
en un día.
Especialmente interesante en la investigación del
comportamiento de los abonados con y sin intención fraudulenta, tal
y como ya se ha mencionado anteriormente, es la pertenencia del
cliente a una clase, que documenta su moral de pago.
Desafortunadamente, esta división llevada a cabo por el operador de
red no está disponible como información en los datos de conexión
individuales, de manera que para los segmentos 30 y 31 no se pueden
llevar a cabo investigaciones en este sentido. Las clasificaciones
en clases solo existen en los juegos de datos de 80 días, es decir,
para los segmentos 19 y 28. Sin embargo, por las razones mencionadas
al comienzo, el segmento 19 no es apropiado para una investigación
de esta característica del comportamiento. Por eso, el uso de estas
informaciones se hace posible cuando se dispone de suficientes datos
para ello. Por este motivo, para la observación de esta
característica del comportamiento se requieren las pertenencias a
clases conjuntamente con los datos de conexión individuales, para
obtener resultados seguros.
Adicionalmente se prevé una investigación de las
células desde las que los clientes llevan a cabo sus llamadas
telefónicas. Se ha de verificar si hay células, es decir, regiones
geográficas, con tasas de fraude especialmente elevadas. Sin
embargo, tampoco es suficiente en este caso la base de datos
existente de los defraudadores reconocidos para obtener
conocimientos seguros.
Ahora se ha de analizar y describir
matemáticamente el comportamiento de defraudadores. La base de
información para las siguientes observaciones está conformada por
los datos proporcionados por el operador de red sobre defraudadores
ya reconocidos procedentes de diferentes segmentos.
A partir de los datos existentes sobre los
defraudadores existentes referidos a los juegos de datos de 80 días
no es posible hacer una afirmación sobre la distribución para el
importe total diario en el caso de abonados con intención
fraudulenta, ya que para las informaciones de los 18989 ó 73450
clientes del segmento 19 ó 28 solo se dispone de una totalidad de
datos sobre 8 ó 4 defraudadores de los grupos de abonados
correspondientes. Adicionalmente, 3 de estos 12 clientes han sido
reconocidos como defraudadores por medio de informaciones
adicionales no disponibles, ya que sus importes totales en los 80
días considerados ascendían únicamente a un importe de entre 1 y 6
DM, con lo que para una estimación de la distribución ya solo se
consideran 8 observaciones.
Para la caracterización del comportamiento
fraudulento se dispone de los datos de conexiones individuales de 57
defraudadores que ya han sido reconocidos por el operador de red.
Desafortunadamente, en este caso se trata únicamente de
informaciones sobre 3708 llamadas individuales, lo cuál es un número
muy pequeño en comparación con más de un millón de juegos de datos
referidos al comportamiento de clientes normales. Como consecuencia
del reducido número de observaciones, no siempre será posible
verificar distribuciones de probabilidad para todos los aspectos del
comportamiento fraudulento. Una estimación de los momentos primeros
y segundos, sin embargo, sigue siendo posible y razonable.
A partir de las informaciones existentes sobre
defraudadores que ya han sido reconocidos por el operador de red, a
continuación se lleva a cabo una división en clases de los usuarios
con intenciones fraudulentas. Con ello se ha de delimitar el
comportamiento de grupos determinados de defraudadores entre ellos
para, de esta manera, poder indicar pruebas precisas para su
reconocimiento.
A modo de motivación puede servir en este caso la
comparación del importe total diario y el importe diario en los
números 190 de la Figura 26. Se puede reconocer claramente que la
cantidad de puntos se descompone en dos clases, en concreto, por un
lado, puntos a lo largo de las diagonales principales para clientes
cuyo importe total está formado por llamadas con números 190. Por
otro lado, los puntos a lo largo del eje x se corresponden con
juegos de datos con solo un importe únicamente reducido relativo a
números 190.
Para la clasificación de los clientes con
intención fraudulenta, llevamos a cabo un análisis de las
componentes principales de la matriz de covarianza R_{b} estimada.
Se toma como base para cada día y abonado un juego de datos diario
compuesto por 30 características. Se observan los importes diarios,
el número de llamadas por día y las duraciones diarias de las
llamadas. Cada una de estas tres características principales se
subdivide en las diez categorías de números llamados ya mencionadas.
Dentro del juego de datos, se usan para las características
principales respectivamente en orden correlativo números 171,
números 172, números 177, números 180, números 190, llamadas
internacionales, otras conexiones nacionales, itinerantes, servicio
y llamadas MTC. Para ello, desígnese yi
\euroR^{30}, i = 1, ..., n el vector con características de un juego de datos diarios de un cliente con intención fraudulenta y n su número. Adicionalmente, sea
\bar{y} =
\frac{l}{n}\sum\limits^{n}_{i=1}
y_{i}
el valor esperado estimado. A
continuación usamos la estimación de máxima verosimilitud de la
matriz de
covarianza
R_{b} =
\frac{l}{n}
\sum\limits^{n}_{i=1}(y_{i}-\bar{y})(y_{i}-\bar{y})^{T}
Representamos ahora la matriz R_{b} como
R_{b} = T
\wedge
T'
con una matriz ortogonal T y una
matriz diagonal \wedge, que contiene como entradas diagonales los
valores propios ordenados en orden descendente según su
magnitud
\sigma_{1}^{2}\geq...\geq\sigma_{n}^{2}
En este caso obtenemos
- (ó_{1}^{2}, ..., ó_{30}^{2}) = (8e + 08, 2e + 08, 7e + 06, 3e + 06, 2e + 06, 1e + 06,1e + 05, 6e + 04, 4e + 04, 1e + 04,1e + 04,4406, 2434, 480, 308, 147, 115, 115, 35,3, 19,4, 7,3, 1,8, 1,1, 0,6, 0,3, 0,1, 0,02, 0,01, 0,002).
Evidentemente, la parte de la variabilidad total
descrita por medio de las dos primeras componentes principales viene
dada por
\frac{\sigma_{1}^{2}+\sigma_{2}^{2}}{\sigma_{1}^{2}+...+\sigma_{30}^{2}}=98,60%
Es decir, que los juegos de datos
transformados
\tilde{y}_{i}(\tilde{y}_{i,1},...,\tilde{y}_{i,30})
= T^{'}(y_{i}-\bar{y}), i =
1,...,n
se encuentran en un subespacio
bidimensional con un margen de error despreciablemente pequeño, que
está fijado por medio de los dos primeros vectores unitarios.
Adicionalmente, la componente principal \tilde{y}_{ij} j-ésima
posee el valor esperado 0, la varianza ó_{i}^{2}, y las
diferentes componentes principales están
incorreladas.
Los vectores propios t_{i} de la matriz R_{b}
son las columnas de la matriz de transformación T ortogonal, es
decir
T = (t_{1},
...,
t_{30})
Por medio de las entradas máximas en cuanto a
importe del primer y del segundo vector propio se pueden discriminar
los defraudadores, considerando las categorías pertenecientes a
estas componentes como característica de clasificación para el
comportamiento fraudulento. A partir de los vectores propios que
pertenecen a ó_{1}^{2} y a ó_{2}^{2} resulta la división de
abonados con intención fraudulenta entre aquellos clientes cuyo uso
fraudulento está caracterizado por números 0190 o por llamadas
internacionales. En la Figura 27 está representado el grupo de los
defraudadores de los números 0190 por medio de la primera componente
principal que discurre en la dirección del eje x. Se puede reconocer
al resto de los defraudadores que destacan por las llamadas
internacionales por las segundas componentes principales en la
dirección del eje y.
Después de la discriminación de los defraudadores
ya reconocidos por el operador de red por medio de un análisis de
las componentes principales se indican ahora procedimientos
estadísticos de prueba para el reconocimiento de defraudadores. Para
ello se consideran las observaciones del comportamiento de abonados
sin intención fraudulenta como aleatorias y se designan con las
variables aleatorias X - (\mu, R_{e}) cuya distribución posee el
valor esperado \mu y la varianza R_{e}. La matriz R_{e} se
vuelve a descomponer en
R_{e} =
S\Theta
S^{'},
siendo S = (s_{1}, ..., s_{30})
una matriz
ortogonal.
\Theta =
diag(\vartheta_{1}^{2},...,\vartheta_{30}^{2}) \ con \
\vartheta_{1}^{2}\geq...\geq\vartheta_{30}^{2}
denomina a la matriz diagonal de
los valores propios ordenados de Re, cuyas estimaciones vienen dadas
por
- \vartheta_{1}^{2},...,\vartheta_{30}^{2}) = (2e + 05, 7e + 04, 7e + 04, 6e + 04, 2e + 04,2e + 04, 1e + 04, 1e + 04, 7226, 6757, 4732, 2922, 1099, 983, 646, 440, 322, 293, 162, 4.4, 3,9, 1,7, 0,8, 0,4, 0,4, 0,3, 0,2, 0,16, 0,01, 0,002).
Con la ayuda de la matriz ortogonal T a partir de
la transformación de las componentes principales de Rb,
conformamos
\tilde{X} = T'
(X-\mu),
a partir de donde se continua con
la linealidad del valor
esperado
E[\tilde{X}] =
0
y
E[\tilde{X}\tilde{X}'] =
T'R_{e}T
Haciendo uso de los vectores propios t_{1},
t_{2} respecto a los mayores valores propios de la matriz de
covarianza R_{b} de los defraudadores a partir de la sección
anterior, resulta
E[t_{1}'\bar{X}] = 0
\hskip1cmy
\hskip1cmVar(t_{1}'\bar{X}) = \sum\limits^{30}_{i=1}t_{1,i}^{2}\vartheta_{1}^{2}
E[t_{2}'\bar{X}] = 0
\hskip1cmy
\hskip1cmVar(t_{2}'\bar{X}) = \sum\limits_{i=1}^{30}t_{2,i}^{2}\vartheta_{1}^{2}
representando t_{1,i} y t_{2,i}
en este caso la componente i-ésima del vector t_{1} o t_{2}. En
particular, se da
que
Var(t_{1}'\tilde{X} =
\leq\vartheta_{1}^{2}\forall i =
1,...,30
Adicionalmente, el valor medio de los juegos de
datos Y_{i} bajo la transformación indicada anteriormente
\frac{1}{m}\sum\limits_{i=1}^{m}T'(y_{i}-\mu)=T'(\bar{Y}-\mu)
y las varianzas coinciden con los
valores \vartheta_{1}^{2},...,\vartheta_{30}^{2}
de
\lambda.
Puesto que los valores \mu, R_{e} no son
conocidos, se estiman a partir de las n observaciones X_{i}
existentes con la ayuda de los estimadores de máxima
verosimilitud
\mu =
\bar{X}_{1},
\hskip1cmy
\hskip1cmR_{e} = \frac{1}{n}\sum\limits_{i=1}^{n}(X_{i}-\bar{X})(X_{i}-\bar{X})'
La posibilidad de usar la descomposición de la
matriz de covarianza para la transformación de las componentes
principales está garantizada.
Los resultados de las investigaciones de los
defraudadores del último párrafo se resumen ahora conjuntamente con
la transformación de las componentes principales que acaba de ser
realizada de los datos de los clientes normales en la Figura 21. En
este gráfico se puede reconocer bien la varianza claramente inferior
de las componentes principales en los clientes normales
(Var(t_{i}'\tilde{X}\leq\vartheta_{1}^{2}
=
2\text{*}10^{5}
en contraposición con
\vartheta_{2}^{2} \geq 2*10^{8}) que, conjuntamente con el
desplazamiento de los valores esperados para clientes con intención
fraudulenta en la dirección de mayores componentes principales, hace
posible el uso de la prueba del valor
extraño.
Con la finalidad de indicar una prueba para el
reconocimiento de defraudadores se consideran las dos componentes
principales de un modo especial, es decir, se desarrolla una prueba
especial para los defraudadores de 190 y para los defraudadores de
llamadas internacionales. En primer lugar, se estima la cuantila
empírica (1-\alpha) Q^{i}_{1-\alpha}, i = 1,
2 para las dos componentes principales. Para ello se utilizan las n
observaciones dispuestas
X_{1:n}^{i},X_{2:n}^{i},...,X_{n:n}^{i}
A continuación se determina el número k
correspondiente, para el que rige
Entonces, la cuantila Q^{i}_{1-\alpha} es=
X^{i}_{k:n} . Para los datos existentes especialmente resulta
entonces para \alpha= 0,005 la cuantila Q^{1}_{1-\alpha}=
-0,035 y Q^{2}_{1-\alpha}= 14,1089.
Con la ayuda de las cuantilas empíricas se puede
conformar ahora la prueba relativa a la intención fraudulenta por
medio de la transformación de las componentes principales de los
datos del abonado de un día. En caso de que el valor de la
transformación de los datos del cliente esté por encima de una de
las dos cuantilas Q^{i}_{1-\alpha} calculadas, se supone que se
trata de un defraudador. El parámetro \alpha da en este caso la
probabilidad de error de que un cliente sin intención fraudulenta
sea reconocido injustamente como defraudador. Esta inexactitud,
naturalmente, se ha de mantener lo más baja posible. Para el uso de
la prueba no es necesario volver a calcular la cuantila
Q^{i}_{1-\alpha} cada vez, sino que es suficiente un nuevo
cálculo periódico de estos valores. Aparte de esta prueba, también
existe la posibilidad de encontrar, a partir de la representación
gráfica de la transformación de las componentes principales, a
aquellos abonados cuyos valores no se encuentren en los ejes de
transformación calculados y cuyo comportamiento destaca porque
realizan un fraude por medio de una combinación de llamadas a
números 0190 y llamadas internacionales. Los datos de clientes
correspondientes se pueden comprobar entonces de modo manual por lo
que se refiere a la intención fraudulenta, ya que no son filtrados
como defraudadores por medio de la prueba que se acaba de describir.
(Los ejemplos relativos a este particular se pueden reconocer en la
figura 21.).
El proceso descrito hasta el momento de la
transformación de las componentes principales y de la prueba de
fraude realizada a continuación no solo se puede usar con los juegos
de datos diarios de los abonados, sino que los datos en los que se
basa se pueden recopilar y evaluar transcurrido un periodo
arbitrario. Debido a ello, surge la posibilidad de investigar de
modo automático el comportamiento de los abonados transcurridos
diferentes periodos.
Las particularidades de los clientes se medían
hasta el momento únicamente a partir de sus dos componentes
principales dominantes, es decir, los números 190 y las conexiones
internacionales, ya que los defraudadores ya reconocidos en el
material de datos disponible solo se caracterizan en su
comportamiento por medio de estos dos aspectos. Sin embargo, tendría
sentido el reconocimiento de cualquier tipo de anomalía de
comportamiento en comparación con los usuarios sin intenciones
fraudulentas. Por esta razón se utiliza una prueba de valores
extraños multidimensionales. Esta está basada en la distancia de
Mahalanobis
(X_{i}-\bar{X})'R_{e}^{-1}(X_{i}-\bar{X}'),
que mide las desviaciones del
comportamiento respecto al de los clientes normales. No se puede
realizar una indicación explícita de la prueba, ya que solo existen
datos sobre defraudadores de las dos clases que ya han sido
mencionadas. Alternativamente a la desviación del comportamiento de
un usuario respecto al de los clientes normales, también se puede
medir, naturalmente, la desviación del comportamiento de los
defraudadores por medio de la aplicación de R^{-1}_{b}. Por
medio de estas distancias se puede tener una mejor visión general
del comportamiento de los usuarios y realizar pruebas sobre
desviaciones significativas. Sin embargo, como consecuencia del
limitado número de tipos de defraudadores que se puedan diferenciar
en los datos proporcionados, no es posible una observación más
profunda de las pruebas de valores extraños multidimensionales en el
momento
actual.
A modo de otro procedimiento de prueba para el
reconocimiento de defraudadores se puede usar el análisis de
discriminación de Fisher, que se basa en la separación de los
defraudadores de los clientes normales por medio de un plano. Se
busca una función lineal a'x que maximice la relación de las
distancias al cuadrado entre los dos grupos de usuarios, y de esta
manera los separe entre ellos. El vector \beta, en este caso, es
el vector propio referido al mayor valor propio de la matriz
W^{-1}B, que se calcula a partir de
W = n_{1}R_{e}
+
n_{2}R_{b},
y
B =
\left(\frac{n_{1}n_{2}}{n}\right)dd'
siendo d = \mu -
\bar{Y}.
En este caso, n_{1} indica el número de datos
de clientes normales y n_{2} indica el número de datos de
defraudadores. El vector propio correspondiente a se obtiene de a =
W^{-1}d. Se propone la estadística de prueba
d'W^{-1}\left\{X-\frac{1}{1}(\mu+\bar{Y})\right\}
que usa la posición de un punto
respecto al punto central del recorrido de unión entre \mu e
\bar{Y}. Sin embargo, para la aplicación en el planteamiento del
problema del reconocimiento de defraudadores en el operador de red
tiene sentido escalar este valor de prueba de otra manera, que no
tiene efectos en la corrección del procedimiento propiamente dicha.
Los resultados de la aplicación del análisis de la discriminación de
Fisher están representados en la Figura 28. En el eje y están
representados los valores de la estadística (1) respecto a los
valores i / n_{1} para los usuarios honrados y j / n_{2} para
los
defraudadores.
Se muestra que aproximadamente el 30% de los
datos de los defraudadores se encuentra por debajo de la línea con y
= 0,0025. Es de esperar que por medio de una correspondiente prueba
de discriminación destaque una mayor proporción de defraudadores. Se
ha de tener en cuenta que diferentes juegos de datos pertenecen a la
misma persona; en el caso tratado, hay 213 juegos de datos para 57
defraudadores reconocidos. El 30% se corresponde aproximadamente con
70 juegos de datos de los que han sido reconocidos como
fraudulentos.
Algoritmo para el reconocimiento de
defraudadores
Sea la nueva observación X y la cuantila
Q^{i}_{1-\alpha}
a) Se calcula la transformación de las
componentes principales
\tilde{X} =
T'(X-\mu)
b) Compruébese la transformación
relativa
a
- \tilde{X}_{i}\leq Q_{1-\alpha}^{i}, i = 1, 2
- \tilde{X}_{i} > Q_{1-\alpha}^{i} para un i \Rightarrow X es un defraudador, ir a c)
- \tilde{X}_{i}\leq Q_{1-\alpha}^{i} para un j \Rightarrow X es un cliente normal, ir a d)
c) Actualización del valor esperado
y de la matriz de covarianza en el caso de
defraudadores
\bar{Y}\leftarrow
\frac{nY+X}{n+1}
\newpage
R_{b}\leftarrow\frac{nR_{b}+(X-\bar{Y})(X-\bar{Y})^{'}}{n+1}
d) Actualización del valor esperado
y de la matriz de covarianza en el caso de clientes
normales
\bar{\mu}\leftarrow
\frac{n\mu+X}{n+1}
R_{e}\leftarrow
\frac{nR_{e}+(X-\mu)(X-\mu)^{'}}{n+1}
En esta sección se evalúan filtros seleccionados
del sistema MEGS en el sentido de las probabilidades de error de
primer y segundo orden que han sido obtenidas a partir del modelo
empírico de la distribución de números llamados.
Cada filtro i se puede concebir como prueba de la
hipótesis
H^{i}_{1}: El abonado no es un
defraudador
H^{0}_{1}: El abonado es un defraudador,
es decir, cuando un usuario ha sido
registrado por medio del filtro i, se supone la hipótesis
H^{i}_{1}, es decir, su intención
fraudulenta.
Al probar las hipótesis de este tipo, se pueden
cometer dos errores diferentes. Por un lado, se puede reconocer un
cliente normal erróneamente como defraudador. Esta inexactitud se
denomina error de primer orden, o también error \alpha. Por otro
lado puede suceder, naturalmente, que en el caso del abonado
comprobado se trate de un defraudador y que la prueba, aún así se
decida por la hipótesis H^{i}_{0}. Esto se denomina entonces
error de segundo orden, o error \beta. En el sentido del
planteamiento del problema es razonable limitar el error de primer
orden para no perder clientes innecesariamente cuya conexión haya
sido bloqueada por error.
Las probabilidades de error indicadas con
anterioridad se han de representar ahora a partir de las
probabilidades empíricas calculadas para, de esta manera, obtener
una medida de evaluación para los filtros empleados. La siguiente
tabla muestra un listado de los resultados de esta
investigación.
Descripción del filtro % | Error \alpha | Error \beta |
"190"\geq 100 DM/día | 0,000042 | 0,987325 |
"itinerante"\geq 500 DM/día | 0,000004 | 1 |
Zona mundial 2+9 \geq 300 DM/día | 0 | 0,995955 |
1 llamada a la zona mundial 2 | 0,000462 | 0,837108 |
1 llamada a la zona mundial 8 | 0,000389 | 0,989753 |
1 llamada a la zona mundial 9 | 0,000189 | 0,898056 |
2 llamadas/día a la zona mundial 2+5 | 0,000160 | 0,991640 |
2 llamadas/día a la zona mundial 2+8 | 0,000162 | 0,994337 |
2 llamadas/día a la zona mundial 2+9 | 0,000468 | 0,990291 |
2 llamadas/día a la zona mundial 5+8 | 0,000121 | 0,994876 |
2 llamadas/día a la zona mundial 5+9 | 0,000430 | 0,989482 |
2 llamadas/día a la zona mundial 8+9 | 0,000431 | 0,992179 |
5 llamadas/día a la zona mundial 2 | 0,000016 | 0,995146 |
5 llamadas/día a la zona mundial 5 | 0,000012 | 0,997303 |
5 llamadas/día a la zona mundial 9 | 0,000062 | 0,994876 |
El error \alpha se calcula como frecuencia
relativa del filtro correspondiente en abonados sin intención
fraudulenta, y el error \beta como frecuencia relativa 1 - del
filtro en el caso de defraudadores.
Se puede reconocer que todos los filtros
considerados presentan una probabilidad de error de primer orden muy
pequeña, pero también un error \beta muy elevado.
Por parte del operador de red se emplea una
pluralidad de filtros adicionales, que, sin embargo, no han podido
ser evaluados hasta el momento, ya que utilizan la antigüedad del
cliente, es decir, su pertenencia a una clase, que
desafortunadamente no está contenida en los datos disponibles.
A continuación, se explica la invención con más
detalle a partir de tablas y dibujos. En este caso, a partir de los
dibujos, tablas y su descripción resultan otras ventajas y
características fundamentales para la invención.
Muestran
Fig. 1: frecuencia relativa de los importes de
las llamadas en el caso de clientes normales
Fig. 2: frecuencia relativa de los importes de
las llamadas en el caso de defraudadores
Fig. 3: frecuencia relativa de los números de
llamadas por día en el caso de defraudadores
Fig. 4: tabla de los valores de la distribución
empírica de los números llamados.
Fig. 5a y 5b: tabla de los datos de la ampliación
del modelo para los diferentes números internacionales
Fig. 6: tabla de la frecuencia de llamadas desde
el extranjero a Alemania según los números llamados (abonados sin
intención fraudulenta)
Fig. 7: tabla de la frecuencia de llamadas desde
el extranjero a Alemania en comparación con otros países de destino
(abonados sin intención fraudulenta)
Fig. 8: tabla de la frecuencia de llamadas desde
el extranjero a Alemania por parte de abonados con intención
fraudulenta
Fig. 9: tabla de la frecuencia de llamadas desde
el extranjero por parte de abonados con intención fraudulenta
Fig. 10 y Fig. 11: valores empíricos de los
números llamados por parte de abonados con intención fraudulenta
Fig. 12 a Fig. 16: valor empírico y varianza
empírica de la duración de las llamadas en el caso de clientes
normales y en el caso de defraudadores
Fig. 17 a Fig. 18: valores empíricos de la
distribución de importes en el caso de clientes normales y en el
caso de defraudadores
Fig. 19: tabla de contingencia para la prueba de
la independencia por parejas de los números llamados en un periodo
de observación determinado
Fig. 20: representación de las componentes
principales asignadas a 612 y a 622
Fig. 21: resultado del análisis de discriminación
de Fisher
Fig. 22: la representación desde el punto de
vista del dispositivo de la secuencia del proceso según la Fig.
23
Fig. 23: diagrama de secuencia del procedimiento
para el reconocimiento de defraudadores con los dispositivos según
la Fig. 22
Fig. 24: frecuencias de los importes diarios en
el caso de clientes normales (detalle)
Fig. 25: frecuencias relativas de los números de
llamadas por día en el caso de clientes normales y aproximación por
medio de función (detalle)
Fig. 26: importe total diario respecto a importe
diario a números 190
Fig. 27: las componentes principales asignadas a
\sigma^{2}_{1} o a \sigma^{2}_{2}
Fig. 28: resultado del análisis de
discriminación de Fisher
\newpage
La tabla según la Fig. 4 contiene los valores de
la distribución empírica de los números llamados para el portador
T_{z} = {t_{1}, t_{2},..., t_{12}}. En este caso hay que
prestar atención al hecho de que las diferentes categorías, como,
por ejemplo, "servicio" y "MTC", están subdivididas aún
más para que puedan ser extraídas con más facilidad a partir de los
datos de conexiones individuales existentes. En la segunda tabla
según la Fig. 5 están contenidos los datos para la ampliación del
modelo para los diferentes números llamados internacionales. En este
caso se trata de una división de la categoría "conexiones
internacionales". La base de datos está formada por 1391739
observaciones.
En la tabla según la Fig. 6 y la Fig. 7 están
listados de modo especial para abonados sin intención fraudulenta
las llamadas desde el extranjero a Alemania, es decir, aquellas con
prefijo 0049. Las frecuencias relativas se refieren en este caso al
número correspondiente de las conexiones 0049 en la tabla
anterior.
De modo completamente análogo a las tablas de los
abonados sin intención fraudulenta, en las Figuras 8, 9 y 10 están
listados en tres tablas los valores empíricos de los números
llamados de los defraudadores. En este caso, la Fig. 8 lista la
frecuencia de la categoría de destino marcada, mientras que la
Figura 9 (con la continuación por medio de la Figura 10), muestra
los prefijos marcados por los defraudadores desde el extranjero y su
frecuencia. En la Figura 11 está representada la categoría de
destino marcada con mayor frecuencia por parte del defraudador.
En las tablas de las figuras 13 a 18 están
representados los valores empíricos para distribuciones con
categorías de números de destino prefijadas.
La Figura 12 muestra las distribuciones de
duración de las llamadas en el caso de clientes normales, y la
Figura 13 en el caso de defraudadores.
La Figura 14 muestra el número de llamadas por
día en el caso de clientes normales, y la Figura 15 en el caso de
defraudadores.
Las Figuras 16 y 17 muestran la distribución de
los importes en el caso de clientes normales, y la Figura 18 en el
caso de defraudadores.
La Figura 19 muestra, finalmente, la prueba de
independencia para categorías de números llamados.
La tabla muestra la tabla de contingencia para la
prueba de la independencia por parejas de las categorías de números
llamados. En este caso se ha de tener en cuenta que no se ha
observado ningún número "0130", es decir, que se trata de una
tabla 9 x 9, la distribución X^{2} (chi-cuadrado),
así pues, posee 64 grados de libertad. Con el elevado valor de la
estadística de prueba, naturalmente, se rechaza la hipótesis de
independencia para todos los niveles \alpha razonables.
A partir del rechazo de la independencia
estocástica por parejas se concluye que no puede ser válida ninguna
independencia estocástica conjunta de las categorías de números
llamados. Esto es cierto de modo correspondiente para todos los
días.
La Figura 20 muestra la representación gráfica de
las componentes principales asignadas a \sigma^{2}_{1} o a
\sigma^{2}_{2}, mientras que la Figura 21 muestra el resultado
del análisis de discriminación de Fisher como representación
gráfica.
La Fig. 22 muestra la realización desde el punto
de vista de la técnica del dispositivo del procedimiento según la
invención, que está representado como diagrama de bloques en la Fig.
23.
En la etapa a) representada están representados a
modo de ejemplo los elementos de la red de telecomunicaciones. La
designación MSC supone la unidad de conmutación electrónica,
representada por medio de un ordenador de conmutación, mientras que
VMS es un denominado sistema de buzón de voz, con el que se generan
respuestas habladas de la red dependientes del usuario.
Las unidades de dispositivos
VAS-NE significan elementos de red adicionales, como
por ejemplo elementos del registro de facturación, y otros.
Los juegos de datos del operador de red que se
generan en este entorno de dispositivos se transmiten por medio del
sistema de señalización número 7 (File Transfer Access and
Management) al ordenador para el reconocimiento de uso fraudulento.
Este ordenador también se denomina servidor de datos de cliente.
El sistema de señalización número 7 (FTAM)
mencionado aquí es un protocolo de nivel 7, que transmite de una vez
paquetes completos de juegos de datos. Así pues, se trata de un
campo de datos (File), en el que están contenidos muchos miles de
juegos de datos, que son transmitidos en línea al servidor de datos
de clientes.
En las etapas b) a g) se deja que se desarrolle
todo el procedimiento, que está caracterizado por el diagrama de
bloques en las Fig. 22 y 23 como etapa b) a g). Es importante que
las etapas de cálculo, como las transformaciones de las componentes
principales (análisis de discriminación de Fisher) y todas las demás
etapas de cálculo, se ejecuten en tiempo real en este ordenador.
Se calculan los resultados y pueden ser
transmitidos en la etapa h) a la estación de tratamiento de clientes
(Customer Care Workstation) en tiempo real. En la consola de esta
estación hay un operario, en cuya pantalla se genera una alarma
óptica y/o acústica cuando se ha reconocido un uso fraudulento. El
operario puede actuar entonces incluso durante la llamada
fraudulenta en curso, y por ejemplo, puede interrumpir esta llamada,
o puede impedir una marcación posterior o similar. Igualmente, se
puede emitir una advertencia acústica al usuario fraudulento.
También hay una realimentación del servidor de
clientes al ordenador de uso fraudulento. El operario puede, por
ejemplo, modificar en el ordenador de clientes (en caso de que se
haya disparado una alarma) el umbral de alarma u otros criterios de
actuación. Estos datos se le indican al ordenador de uso
fraudulento, que aprende a partir de ellos y los incorpora a sus
cálculos.
La Figura 23 muestra el diagrama de secuencia del
procedimiento conforme a la invención. Las etapas a) a h) ejecutadas
en este caso están expuestas en las características de la
reivindicación 1.
Es importante la línea de retorno desde los
bloques funcionales dispuestos en el dibujo en el borde inferior.
Por medio de esta línea de retorno se lleva a cabo una actualización
de las covarianzas y de los valores medios calculados. El sistema,
así pues, realiza un autoaprendizaje.
Las investigaciones del material de datos
proporcionado han mostrado que el comportamiento de los abonados con
intención fraudulenta se puede caracterizar fundamentalmente por
medio de dos características. Los resultados conseguidos en el
ejemplo de realización y en las tablas representadas se refieren a
un juego de datos a modo de ejemplo de un operador de red. A partir
de los datos existentes solo se pudieron determinar dos diferentes
grupos de abonados con intención fraudulenta.
Claims (8)
1. Procedimiento para el reconocimiento de uso
fraudulento de servicios del operador de red por parte de clientes
mediante un análisis en línea de juegos de datos referidos a los
clientes, con las siguientes etapas:
- a)
- Registro en línea de los juegos de datos de entrada a partir de los elementos de red a partir de las siguientes componentes
- i)
- Juegos de datos acumulados a lo largo de un periodo fijo;
- ii)
- Datos de conexiones individuales de la última duración en días autorizada por la ley alemana de protección de datos, comprendiendo: números llamados, duración de las llamadas, tipo de la conexión, etc.;
- iii)
- Datos específicos de los clientes.
- b)
- Acumulación de las características de entrada por clases: tipo de número llamado, números de llamadas, tipos de llamadas;
- c)
- Realización del análisis de las componentes principales:
- i)
- Realización de un análisis de las componentes principales en busca de juegos de datos de defraudadores ya reconocidos;
- ii)
- Descomposición espectral de la matriz de covarianza correspondiente;
- iii)
- Determinación de las componentes principales relevantes;
- iiii)
- Clasificación de las componentes principales relevantes para el comportamiento fraudulento.
- d)
- Transformación de las componentes principales de los juegos de datos no detectados tomando como base la descomposición espectral de la matriz de covarianza en la etapa c).
- e)
- Representación de las componentes principales de juegos de datos y discriminación relativa al comportamiento fraudulento
- f)
- Estimación y cálculo de las cuantilas empíricas de las componentes principales para el control de las probabilidades de error de primer y segundo orden con una detección automática y generación de alarma;
- g)
- Análisis de discriminación de Fisher para la determinación de un hiperplano de separación entre juegos de datos de defraudadores identificados y clientes normales con representación gráfica
- h)
- Estimación y cálculo de las cuantilas empíricas de los datos proyectados para el control de probabilidades de error de primer y segundo orden con detección automática y generación de alarma.
2. Procedimiento según la reivindicación 1,
caracterizado porque en la etapa del procedimiento b), cada
juego de datos de datos acumulados se representa por medio de un
vector real de múltiples dimensiones.
3. Procedimiento según la reivindicación 1 ó 2,
caracterizado porque en la etapa del procedimiento e), las
componentes principales de los juegos de datos se representan de
modo gráfico.
4. Procedimiento según una de las
reivindicaciones 1-3, caracterizado porque,
en la etapa del procedimiento e), el comportamiento fraudulento
calculado se representa de modo visual.
5. Procedimiento según una de las
reivindicaciones 1-4, caracterizado porque
los juegos de datos de los usuarios se analizan según las
características de su llamada y se dividen en clases asignadas y
porque la división en clases se realiza a partir del comportamiento
que distingue a un grupo determinado de abonados con intención
fraudulenta y que se diferencia del comportamiento individual del
resto de abonados de modo significativo.
6. Procedimiento según una de las
reivindicaciones 1-5, caracterizado porque el
comportamiento de los clientes con intención fraudulenta está
caracterizado por medio de las siguientes dos
características
a) Uso fraudulento de números 0190 y, al mismo
tiempo,
b) Realización de un número destacadamente
elevado de llamadas internacionales en el periodo investigado.
\newpage
7. Procedimiento según una de las
reivindicaciones 1-6, caracterizado porque un
algoritmo para el reconocimiento de fraude está formado por las
siguientes relaciones:
Sean la nueva observación y las cuantilas
Q^{i}_{1-\alpha}
a) Calcúlese la transformación de las componentes
principales
\tilde{X} =
T'(X-\mu)
b) Compruébese la transformación
por lo que se refiere
a
- \tilde{X}_{i}\leq Q_{1-\alpha}^{i}, i = 1, 2
- \tilde{X}_{i} > Q_{1-\alpha}^{i} para un i \Rightarrow X es un defraudador, ir a c)
- \tilde{X}_{i}\leq Q_{1-\alpha}^{i} para un j \Rightarrow X es un cliente normal, ir a d)
c) Actualización del valor esperado y de la
matriz de covarianza en el caso de defraudadores
\bar{Y}\leftarrow
\frac{nY+X}{n+1}
R_{b}\leftarrow\frac{nR_{b}+(X-\bar{Y})(X-\bar{Y})'}{n+1}
d) Actualización del valor esperado
y de la matriz de covarianza en el caso de clientes
normales
\bar{\mu}\leftarrow
\frac{n\mu+X}{n+1}
R_{e}\leftarrow
\frac{nR_{e}+(X-\mu)(X-\mu)'}{(n+1)}
8. Procedimiento según una de las
reivindicaciones 1-7, caracterizado porque el
reconocimiento de defraudadores se lleva a cabo por medio del
análisis de discriminación de Fisher.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19905884A DE19905884B4 (de) | 1999-02-11 | 1999-02-11 | Verfahren zur Erkennung von kundenbezogenen Mißbräuchen von Dienstleistungen des Netzbetreibers mittels Online-Analyse von kundenbezogenen Datensätzen |
DE19905884 | 1999-02-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2246225T3 true ES2246225T3 (es) | 2006-02-16 |
Family
ID=7897299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00907552T Expired - Lifetime ES2246225T3 (es) | 1999-02-11 | 2000-02-11 | Procedimiento para el reconocimiento de uso fraudulento de servicios de un operador de red y dispositivo de procesado de datos para la realizacion del procedimiento. |
Country Status (9)
Country | Link |
---|---|
EP (1) | EP1072165B1 (es) |
AT (1) | ATE300159T1 (es) |
AU (1) | AU2910500A (es) |
CZ (1) | CZ300962B6 (es) |
DE (2) | DE19905884B4 (es) |
ES (1) | ES2246225T3 (es) |
PL (1) | PL343458A1 (es) |
RU (1) | RU2263408C2 (es) |
WO (1) | WO2000048418A1 (es) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006062210A1 (de) | 2006-12-22 | 2008-06-26 | Deutsche Telekom Ag | Verfahren zur Frauderkennung bei Roamingverbindungen in mobilen Kommunikationsnetzen |
GB201322573D0 (en) * | 2013-12-19 | 2014-02-05 | Bae Systems Plc | Data communications performance monitoring |
US10153950B2 (en) | 2013-12-19 | 2018-12-11 | Bae Systems Plc | Data communications performance monitoring |
AU2014368581A1 (en) | 2013-12-19 | 2016-07-07 | Bae Systems Plc | Method and apparatus for detecting fault conditions in a network |
KR20200034020A (ko) | 2018-09-12 | 2020-03-31 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US596650A (en) * | 1898-01-04 | Car-ventilator | ||
GB2303275B (en) * | 1995-07-13 | 1997-06-25 | Northern Telecom Ltd | Detecting mobile telephone misuse |
DE19729630A1 (de) * | 1997-07-10 | 1999-01-14 | Siemens Ag | Erkennung eines betrügerischen Anrufs mittels eines neuronalen Netzes |
GB9715497D0 (en) * | 1997-07-22 | 1997-10-01 | British Telecomm | A telecommunications network |
DE19743561B4 (de) * | 1997-10-01 | 2006-02-16 | T-Mobile Deutschland Gmbh | Verfahren zur Authentisierung von Teilnehmern eines digitalen Mobilfunknetzes |
-
1999
- 1999-02-11 DE DE19905884A patent/DE19905884B4/de not_active Expired - Fee Related
-
2000
- 2000-02-11 WO PCT/EP2000/001136 patent/WO2000048418A1/de active IP Right Grant
- 2000-02-11 DE DE50010735T patent/DE50010735D1/de not_active Expired - Lifetime
- 2000-02-11 ES ES00907552T patent/ES2246225T3/es not_active Expired - Lifetime
- 2000-02-11 PL PL00343458A patent/PL343458A1/xx not_active Application Discontinuation
- 2000-02-11 CZ CZ20003776A patent/CZ300962B6/cs not_active IP Right Cessation
- 2000-02-11 RU RU2000128650/09A patent/RU2263408C2/ru not_active IP Right Cessation
- 2000-02-11 EP EP00907552A patent/EP1072165B1/de not_active Expired - Lifetime
- 2000-02-11 AT AT00907552T patent/ATE300159T1/de active
- 2000-02-11 AU AU29105/00A patent/AU2910500A/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
DE19905884A1 (de) | 2000-08-31 |
DE50010735D1 (de) | 2005-08-25 |
EP1072165A1 (de) | 2001-01-31 |
CZ300962B6 (cs) | 2009-09-23 |
ATE300159T1 (de) | 2005-08-15 |
AU2910500A (en) | 2000-08-29 |
PL343458A1 (en) | 2001-08-13 |
DE19905884B4 (de) | 2005-01-13 |
CZ20003776A3 (cs) | 2001-03-14 |
WO2000048418A1 (de) | 2000-08-17 |
EP1072165B1 (de) | 2005-07-20 |
RU2263408C2 (ru) | 2005-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108924333B (zh) | 诈骗电话识别方法、装置和系统 | |
CN106686261B (zh) | 一种信息处理方法及系统 | |
US6526389B1 (en) | Telecommunications system for generating a three-level customer behavior profile and for detecting deviation from the profile to identify fraud | |
EP1121668B1 (de) | Vorrichtung und verfahren zur biometrischen identifikation einer person | |
CN109819126A (zh) | 一种异常号码识别方法及装置 | |
CN110493476B (zh) | 一种检测方法、装置、服务器及存储介质 | |
CN107145212A (zh) | 终端解锁方法、装置及终端 | |
CN109345671A (zh) | 基于人脸识别的小区安全警示方法、装置及存储介质 | |
ES2246225T3 (es) | Procedimiento para el reconocimiento de uso fraudulento de servicios de un operador de red y dispositivo de procesado de datos para la realizacion del procedimiento. | |
CN110188805B (zh) | 一种诈骗群体的识别方法 | |
CN109474755B (zh) | 基于排序学习和集成学习的异常电话主动预测方法、系统及计算机可读存储介质 | |
JP2000507765A (ja) | 遠隔通信網における不正監視 | |
CN109147276A (zh) | 监护方法及装置 | |
CN109147204A (zh) | 一种个人防护用品自动发放方法及系统 | |
CN100558198C (zh) | 基于移动通信网的sars疫情信息快速采集系统及方法 | |
CN110442740A (zh) | 一种身份认证方法及系统 | |
CN110866049A (zh) | 目标对象类别的确认方法及装置、存储介质、电子装置 | |
CN114647827A (zh) | 核酸记录及结果的显示及监管方法及系统 | |
CN113096292A (zh) | 一种智能健康监测方法、系统及设备 | |
DE102017208234A1 (de) | Verfahren und System zur verhaltensbasierten Authentifizierung | |
Chen et al. | A multi-layer dynamic model for customer experience analytics | |
CN109767536A (zh) | 一种出入口门禁自助访问方法及系统 | |
KR101585985B1 (ko) | 개인정보 비식별화 전송장치 및 전송방법 | |
CN109509106A (zh) | 单位类型确定方法及相关产品 | |
CN117952336A (zh) | 一种面向残疾人创业就业的服务系统及方法 |