ES2877112T3

ES2877112T3 - Detección de anomalías mejorada

Info

Publication number: ES2877112T3
Application number: ES18765600T
Authority: ES
Inventors: Tomá Matyska; Eugen Stripling; Barak Chizi
Original assignee: KBC Group NV
Current assignee: KBC Group NV
Priority date: 2017-08-31
Filing date: 2018-08-31
Publication date: 2021-11-16
Anticipated expiration: 2038-08-31
Also published as: US11599524B2; AU2018326573A1; IL272764B1; EP3451219A1; US11194787B2; IL272764B2; HUE054547T2; JP7224339B2; WO2019043163A1; JP2020532010A; CA3070309A1; IL272764A; AU2018326573B2; US20200334228A1; EP3676740B1; EP3676740A1; CA3070309C; US20220050820A1

Abstract

Un sistema de detección de anomalías, comprendiendo dicho sistema - un módulo de comunicación que tiene acceso a una base de datos que comprende una pluralidad de registros de entidades físicas, comprendiendo cada registro de entidades físicas valores de datos físicos para al menos un atributo numérico (13, 14) y valores de especificación de partición (11, 12) referentes a valores para uno o más atributos nominales; - un dispositivo informático que comprende un procesador, una memoria no volátil tangible, un código de programa presente en dicha memoria para enseñar a dicho procesador; donde el módulo de comunicación está dispuesto para proporcionar a dicho dispositivo informático acceso a dicha base de datos, donde dicho dispositivo informático está configurado para llevar a cabo un procedimiento para calcular una puntuación de anomalías para cada uno de dicha pluralidad de registros de entidades físicas, comprendiendo dicho procedimiento las etapas de: (a) recuperación de dicha pluralidad de registros de entidades físicas mediante dicho módulo de comunicación y, opcionalmente, preparación de dicha pluralidad de registros de entidades físicas para su partición; (b) partición de dicha pluralidad de registros de entidades físicas, asociando una partición con cada combinación distinta de los valores de especificación de partición (11, 12) presentes en dicha pluralidad de registros de entidades físicas y agrupando dichos registros de entidades físicas según dichas particiones; (c) para cada una de dichas particiones obtenidas en la etapa (b), entrenamiento de un algoritmo de detección de anomalías no supervisado sobre los valores de datos físicos de los registros de entidades físicas pertenecientes a dicha partición, para obtener un modelo de detección de anomalías entrenado para cada una de dichas particiones; (d) para cada registro de entidades físicas perteneciente a dicha pluralidad de registros de entidades físicas, cálculo de la puntuación de anomalías (17) por medio del modelo de detección de anomalías entrenado que está asociado con la partición a la que pertenece el registro de entidades físicas; (e) preferentemente, a través del módulo de comunicación, actualización de cada registro de entidades físicas en la base de datos añadiendo su puntuación de anomalías asociada (17) calculada en la etapa (d) y/o preferentemente, a través del módulo de comunicación, almacenamiento de cada uno de dichos modelos de detección de anomalías entrenados para cada una de dichas particiones en dicha base de datos.

Description

DESCRIPCIÓN

Detección de anomalías mejorada

Campo técnico

La invención pertenece al campo técnico de la detección automática de anomalías mediante ingeniería de características.

Antecedentes

Sigue existiendo la necesidad en la técnica de un sistema mejorado para detectar automáticamente anomalías en grandes conjuntos de datos.

La técnica anterior relacionada la proporcionan los documentos US 2016/0379309 y WO 2017/032775.

El documento US 2016/0379309 da a conocer un método y un sistema implementados por ordenador para detectar posibles casos de fraude en datos de reclamaciones de seguros. Los datos históricos de reclamaciones se obtienen durante un período de tiempo para una compañía de seguros. Se calculan la tasa de frecuencia de fraude y la tasa de pérdida porcentual de la compañía de seguros. La tasa de frecuencia de fraude y la tasa de pérdida porcentual de la compañía de seguros se comparan con los índices de referencia del sector de seguros para la tasa de frecuencia de fraude y la tasa de pérdida porcentual. Sobre la base de la comparación con los índices de referencia del sector, el sistema informático determina si realizar un análisis de modelos predictivos en caso de que la compañía de seguros se encuentre dentro de un primer rango de los índices de referencia, si realizar un análisis estadístico de los datos de reclamaciones en caso de que la compañía de seguros esté por debajo del primer rango de los índices de referencia o si realizar análisis forenses en caso de que la compañía de seguros esté por encima del primer rango de los índices de referencia. Un problema del documento US 2016/0379309 es que es demasiado complejo y su uso se limita al fraude en los datos de reclamaciones de seguros.

El documento WO 2017/032775 da a conocer una clasificación de eventos que se entrena mediante aprendizaje automático. Para ello, se lleva a cabo una detección de anomalías para detectar eventos en un conjunto de datos de imagen. Sobre la base de la realización de la detección de anomalías, se determina un supuesto modelo de la clasificación de eventos. Sin embargo, el objetivo del documento WO 2017/032775 es entrenar una clasificación de eventos y carece de medios para mejorar la detección de anomalías.

En (M. E. Otey et al., Fast Distributed Outlier Detection in Mixed-Attribute Data Sets, Data Mining and Knowledge Discovery 12 (2-3):203-228, Kluwer Academic Publishers, 2006), Otey y sus coautores divulgan métodos y sistemas relacionados para la detección de valores atípicos.

La presente invención tiene como objetivo resolver al menos algunos de los problemas mencionados anteriormente.

Breve descripción de la invención

En un primer aspecto, la presente invención proporciona un sistema para la detección de anomalías; dicho sistema comprende:

- un módulo de comunicación que tiene acceso a una base de datos que comprende una pluralidad de registros de entidad física; cada registro de entidad física comprende valores de datos físicos para al menos un atributo numérico y valores de especificación de partición concernientes a valores para uno o más atributos nominales;

- un dispositivo informático que comprende un procesador, una memoria tangible no volátil, un código de programa presente en dicha memoria para instruir a dicho procesador;

en el que el módulo de comunicación está dispuesto para proporcionar al dispositivo informático acceso a dicha base de datos;

en el que dicho dispositivo informático está configurado para llevar a cabo un método para calcular una puntuación de anomalía para cada uno de dicha pluralidad de registros de entidades físicas; dicho método comprende los pasos de:

(a) recuperar dicha pluralidad de registros de entidad física a través de dicho módulo de comunicación y, opcionalmente, preparar dicha pluralidad de registros de entidad física para su partición;

(b) particionar dicha pluralidad de registros de entidad física, asociando una partición con cada combinación distinta de valores de especificación de partición presentes en dicha pluralidad de registros de entidad física y agrupando dichos registros de entidad física según dichas particiones;

(c) para cada una de dichas particiones obtenidas en el paso (b), entrenar un algoritmo de detección de anomalías no supervisado sobre los valores de datos físicos de los registros de entidades físicas pertenecientes a dicha partición, obteniendo un modelo de detección de anomalías entrenado para cada una de dichas particiones;

(d) para cada registro de entidad física perteneciente a dicha pluralidad de registros de entidad física, calcular la puntuación de anomalía mediante el modelo de detección de anomalías entrenado que está asociado con la partición a la que pertenece el registro de entidad física;

(e) preferiblemente, a través del módulo de comunicación, actualizar cada registro de entidad física en la base de datos, agregando su puntuación de anomalía asociada calculada en el paso (d) y/o preferiblemente, a través del módulo de comunicación, almacenando cada uno de dichos modelos entrenados de detección de anomalías para cada una de las particiones en dicha base de datos.

Una primera ventaja de este sistema radica en que permite realizar la detección de anomalías condicionalmente en grupos de referencia (es decir, particiones) que son significativos para los operadores que operan el sistema. Las particiones se definen mediante distintas combinaciones de valores de atributos nominales seleccionados, mientras que las técnicas de detección de anomalías no supervisadas existentes ignoran los atributos nominales. Basándose en la observación de que, en muchas aplicaciones, los registros en general constan de atributos tanto nominales como numéricos, la presente invención produce una precisión mejorada en esos casos, haciendo uso de toda la información disponible, incluidos los valores para uno o más atributos nominales. Por lo tanto, las puntuaciones de anomalías resultantes son más precisas que en un caso en el que la detección de anomalías se realiza sin tener en cuenta adecuadamente los atributos nominales. Esto se hace de tal manera que se puede utilizar un algoritmo no supervisado y, por lo tanto, altamente automatizado para detectar los valores atípicos.

Una segunda ventaja del sistema es que permite una integración perfecta con la aplicación de un algoritmo de clasificación supervisado, como se analiza más adelante en este documento.

Según otros aspectos, la invención proporciona un método según la afirmación 13, un uso según la afirmación 14 y un uso según la afirmación 15.

Las ventajas del método y los usos son similares a los del sistema según la presente invención.

Otras realizaciones preferidas y sus ventajas se analizan en la descripción detallada y las afirmaciones.

Descripción de figuras

La Figura 1 ilustra el principio de funcionamiento de una realización de la presente invención.

La Figura 2 ilustra un ejemplo de una aplicación de árbol de aislamiento.

La Figura 3 muestra una comparación de la detección de anomalías según los métodos de la técnica anterior y según la presente invención para un ejemplo específico.

La Figura 4 muestra un ejemplo específico con mapeo arbitrario de valores de dos atributos nominales.

La Figura 5 ilustra el flujo de trabajo en una realización de ejemplo de la presente invención.

Descripción detallada de la invención

La presente invención se refiere a un sistema y uso de dicho sistema para detectar anomalías.

En el contexto de este documento, los términos «registro de entidad física» y «registro» se usan indistintamente y se refieren a datos que representan una entidad física. El registro comprende valores de datos físicos para al menos un atributo numérico. Además, el registro comprende valores que especifican la partición en relación con los valores de uno o más atributos nominales. Un ejemplo es un registro que comprende mediciones de, por ejemplo, la ubicación de una persona física, el tiempo pasado en un estado determinado y datos relacionados, como se puede encontrar, por ejemplo, en los registros de reclamaciones de seguros. De este modo, el tiempo empleado puede estar comprendido, por ejemplo, en los valores de datos físicos, mientras que las categorías relacionadas con el reclamante, es decir, la persona a la que se aplica la reclamación, pueden formar parte de los valores que especifican la partición. Además, la pluralidad de registros de entidades físicas puede estar conectada por alguna forma de relación mutua. En una realización, pueden ser medidas idénticas relativas a una pluralidad de personas. En otra realización, el registro se refiere a una imagen, por ejemplo, un mapa de bits que comprende una matriz de píxeles. Entonces, la pluralidad de registros puede referirse a un conjunto de datos de imágenes compuesto por una secuencia temporal de imágenes y, como tal, constituir una secuencia de vídeo en la que se realiza la detección de valores atípicos. La pluralidad puede derivar alternativamente o adicionalmente de una pluralidad de canales de diferentes espectros o diferentes métodos de contraste. En otra realización más, el registro puede referirse a otro formato, como un archivo de sonido o un archivo de vídeo. En otra realización, el registro puede definirse como parte de una reclamación de seguro y, por ejemplo, puede referirse a una imagen que proporciona evidencia en el contexto de una reclamación de seguro. En tal caso, la imagen puede referirse a los valores de datos físicos o estar comprendida en ellos, mientras que los valores que especifican la partición pueden referirse a los metadatos de la imagen o a la información sobre el reclamante asociado con la reclamación a la que pertenece la imagen.

En este documento, el término «fraude» se refiere a un engaño deliberado perpetrado contra o por una compañía o agente de seguros con el propósito de obtener ganancias financieras. El fraude se puede clasificar como fraude «fraude duro» y «fraude blando». El fraude duro ocurre cuando se falsifica una reclamación de seguro o cuando varias partes coordinan un esquema complejo que involucra a varias partes, como agentes, médicos, abogados, reclamantes y testigos. El fraude blando ocurre cuando el reclamante exagera el valor de una reclamación legítima o tergiversa la información en un intento de pagar primas de póliza más bajas.

En este documento, el término «detección de anomalías» se refiere a un método para conocer las características de un conjunto de datos dado con el fin de ser suficientemente capaz de distinguir los puntos de datos anómalos de los normales. Generalmente, las anomalías o valores atípicos se consideran excepciones o peculiaridades en los datos que no se ajustan al comportamiento normal o esperado de la mayoría. Al visualizar los datos, las anomalías se identifican por ser relativamente pequeñas en número y estar separadas de la mayor parte de los datos. Cabe tener en cuenta que la detección de anomalías está relacionada con campos de investigación como la detección de valores atípicos y la detección de novedades y, por lo tanto, la aplicación de algunos métodos de detección se encuentra a menudo en estos campos. A continuación, el debate se centra principalmente en el algoritmo de bosque de aislamiento. Se proporciona más información sobre métodos de detección de anomalías y valores atípicos en «Hodge, V. J., & Austin, J. (2004); A Survey of Outlier Detection Methodologies; Artificial Intelligence Review, 22 (2), 85-126» y «Chandola, V., Banerjee, A., & Kumar, V. (2009); Anomaly Detection:A Survey; ACM Computing Surveys (CSUR), 41 (3), 15:1-15:58», a continuación citado como «Chandola et al. (2009)».

En este documento, el concepto de «algoritmo de detección de anomalías basado en el aislamiento» se utiliza como término general para técnicas como iForest, SCiForest o iNNE (ver más abajo), es decir, algoritmos que, por medio del aislamiento, son capaces de modelar anomalías directamente, a diferencia de la mayoría otros métodos que identifican anomalías como desviaciones de una región inferida que representan un comportamiento normal; ver también Chandola et al. (2009).

El bosque de aislamiento (iForest) es propuesto por Liu et al., en «Liu, F. T., Ting, K. M., & Zhou, Z. -H. (2008); Isolation Forest; en Proceedings of the Fighth IEE^eInternational Conference on Data Mining (ICDM'08) (pp. 413 422)», citado a continuación como «Liu et al. (2008)». Es un método de detección de anomalías no paramétrico, dado que no realiza suposiciones sobre la distribución de los datos. A pesar de la gran simplicidad del diseño, el algoritmo iForest es muy competitivo tanto en rendimiento de detección como en eficiencia de tiempo. Los creadores de iForest demostraron que su algoritmo supera a varios otros detectores de anomalías de última generación en varios conjuntos de datos del mundo real. En cuanto a la escalabilidad de iForest, el análisis de complejidad presentado en «Liu, F. T., Ting, K. M., & Zhou, Z. -H. (2012); Isolation-Based Anomaly Detection; ACM Transactions on Knowledge Discovery from Data (TKDD), 6 (1), 3:1-3:39», citado en adelante como «Liu et al. (2012)», reveló que tiene una complejidad de tiempo de O(ty2) para el entrenamiento y una complejidad de tiempo de O(nty) para la evaluación, lo que equivale a una complejidad de tiempo total de O(ty(n+y), donde n denota el número de instancias en el conjunto de datos. Es importante señalar que la complejidad del entrenamiento no involucra ninguna variable dependiente de los datos, ya que la complejidad del entrenamiento de iForest depende únicamente de sus parámetros de entrada invariables y conocidos. La complejidad espacial del bosque de aislamiento es igual a O(ty). Para resumir, iForest es un algoritmo muy escalable, e incluso cuando se trata de grandes conjuntos de datos, posee una baja complejidad de tiempo lineal (p. ej., ty2«n) con un bajo requerimiento de memoria, ver Liu et al. (2012).

Además, los árboles o iTrees desempeñan un papel importante en iForest, que es un método de conjunto basado en árboles no supervisado que aplica el concepto novedoso de aislamiento a la detección de anomalías. El aislamiento se refiere a la separación de cada instancia del resto. Al explotar la propiedad básica de las anomalías para que sean «pocas y diferentes», la noción de un método basado en el aislamiento es que las instancias anómalas son más fáciles de separar (es decir, requieren menos particiones de datos) que las instancias normales. Únicamente se requieren las estructuras de árbol del conjunto aprendido para generar puntuaciones de anomalía, por lo que este método evita calcular medidas de densidad o distancia computacionalmente costosas. En general, el aislamiento es un mejor indicador para la detección de anomalías que la distancia y la densidad. Es decir, los puntos de datos normales cercanos al grupo de anomalías denso exhiben una distancia mayor o menor densidad que los puntos anómalos, que es lo opuesto al resultado deseado, mientras que los métodos basados en el aislamiento asignan consistentemente valores razonables a los puntos anómalos y normales. El algoritmo de aprendizaje base de iForest se llama árbol de aislamiento (iTree); consultar también los Ejemplos 2 y 3 a continuación.

En el contexto del entrenamiento de algoritmos, se utilizan los siguientes términos. El «conjunto de entrenamiento» es el conjunto de observaciones de datos (también llamado «ejemplos» o «instancias») que se utiliza para entrenar el modelo o para que este aprenda. Un modelo analítico tiene parámetros que deben estimarse para poder hacer buenas predicciones. Esto se traduce en encontrar los valores óptimos de los parámetros para el modelo analítico. Por esta razón, utilizamos el conjunto de entrenamiento para encontrar o estimar los valores óptimos de los parámetros. Una vez que tenemos un modelo entrenado, podemos usarlo para hacer predicciones. En una tarea de clasificación supervisada, también se adjuntan etiquetas de clase (por ejemplo, «fraude», «no fraude») a cada observación para estimar los valores óptimos de los parámetros. Esto permite entrenar al algoritmo en patrones que son útiles para identificar casos de fraude. El «conjunto de validación» se refiere a modelos con parámetros que no pueden estimarse directamente a partir de los datos. Sin embargo, para encontrar también valores óptimos para esos parámetros (denominados hiperparámetros), se utiliza el llamado conjunto de validación. Normalmente, se puede identificar un conjunto de valores candidatos para los hiperparámetros. Uno elige un valor candidato, entrena el modelo en el conjunto de entrenamiento y evalúa el rendimiento de la predicción en el conjunto de validación. A continuación, se elige el siguiente valor candidato y se procede de forma similar hasta que se hayan probado todos los valores candidatos. Al final, para cada valor candidato se obtiene una estimación correspondiente del rendimiento de la predicción. Sobre la base de los rendimientos estimados en el conjunto de validación, se puede elegir el valor candidato que corresponda al rendimiento óptimo. Es importante tener en cuenta que el conjunto de entrenamiento y el conjunto de validación están estrictamente separados en todo el proceso para obtener estimaciones de rendimiento fiables. Es decir, las observaciones en el conjunto de validación no pueden estar en el conjunto de entrenamiento (o en el conjunto de prueba para el caso). El «conjunto de prueba», también «muestra de reserva», es el conjunto de observaciones de datos que se utiliza para probar si el modelo entrenado hace buenas predicciones. Es decir, en la fase de evaluación del modelo, se conocen los valores verdaderos de las observaciones de prueba y se puede verificar cuántos de los valores predichos son correctos comparándolos con los valores verdaderos. Es importante señalar que aquí las etiquetas de clase solo se utilizan para evaluar el rendimiento de la predicción (por ejemplo, la precisión) del modelo de clasificación. También es importante tener en cuenta que el conjunto de entrenamiento, el conjunto de validación y el conjunto de prueba están estrictamente separados para obtener una estimación de rendimiento fiable. Es decir, las observaciones del conjunto de prueba no pueden estar en el conjunto de entrenamiento o en el conjunto de validación. La separación estricta es crucial, porque se deseaba que el modelo hiciera predicciones sobre las observaciones que no se han utilizado en el proceso de entrenamiento. Solo cuando esto está garantizado y el modelo muestra un buen rendimiento, se puede estar seguro de que el modelo también funcionará bien con datos nuevos que no se hayan visto anteriormente. La «estrategia de retención» o «estrategia de división de prueba de tren único» se refiere a la división más simple, porque los datos se dividen en dos subconjuntos: uno para entrenamiento y otro para pruebas. Se puede entrenar el modelo con el primero y luego probarlo con el segundo. Téngase en cuenta que el proceso de prueba de tren solo se realiza una vez. Esta división de datos se realiza de forma aleatoria, es decir, las observaciones se asignan aleatoriamente para que pertenezcan al conjunto de entrenamiento o prueba. El rendimiento se evalúa en el conjunto de pruebas, generalmente para un conjunto de modelos candidatos, y se elige el mejor modelo. Algunos modelos poseen parámetros que no pueden estimarse directamente a partir de los datos; se llaman hiperparámetros. Se puede confiar en un conjunto de validación para encontrar el mejor modelo. En este caso, se pueden dividir los datos en tres subconjuntos: uno para entrenamiento, otro para validación y otro para pruebas. La división también se realiza de forma aleatoria. Con la ayuda del conjunto de validación, se puede encontrar el modelo con los valores óptimos de hiperparámetros (es decir, una selección de modelo) y finalmente se evalúa el mejor modelo en el conjunto de prueba. Téngase en cuenta que la elección para la selección del mejor modelo de predicción, entre un conjunto de varios modelos candidatos, se realiza en función del rendimiento medido en el conjunto de prueba. Por ejemplo, es posible que se deba decidir si el modelo de regresión logística, el árbol de decisiones o el bosque aleatorio es el modelo de mejor rendimiento. Para tomar esta decisión, el rendimiento en el equipo de prueba es crucial. Cuando se encuentra el modelo de predicción final, se puede poner en práctica en el sistema operativo para realizar predicciones de datos nuevos que no se habían visto previamente. El término «estrategia de validación cruzada de K iteraciones» se refiere a una alternativa a la división simple de prueba de tren. Corresponde a una división repetitiva de prueba de tren, mediante la cual el conjunto de prueba se desplaza sistemáticamente. A continuación, se promedian los rendimientos obtenidos en los equipos de prueba. La ventaja de esta estrategia es que cada observación figurará una vez en el conjunto de prueba. Sin embargo, lo que es más importante, el rendimiento de predicción estimado se vuelve más fiable, lo que a su vez proporciona una mejor imagen del rendimiento de generalización del modelo.

En una realización de la invención, el sistema o el sistema operativo maneja registros referentes a reclamaciones de seguros. En este contexto, se asume que una compañía de seguros puede requerir dicho sistema o dicho sistema operativo para el procesamiento y análisis de datos sobre reclamaciones de seguros y pago de reclamaciones de seguros. El sistema y el sistema operativo pueden ser de varios niveles, en los que los datos se reciben por parte de los reclamantes, proveedores de atención médica, profesionales médicos, personas responsables de diagnóstico, así como procesamiento interno por parte de miembros de la compañía de seguros. Los datos presentes en el registro de la reclamación de seguro generalmente se procesan y analizan con las reglas comerciales establecidas de la compañía de seguros. En este contexto, el «usuario» que proporciona una reclamación de seguro puede ser, en una realización, el reclamante, pero también puede ser cualquier persona involucrada en el procesamiento de la reclamación. Por otro lado, el «operador» suele ser alguien de la compañía de seguros, pero también puede estar relacionado con un tercero responsable de realizar la detección de fraude en las reclamaciones de seguros.

preferiblemente, a través del módulo de comunicación, actualizar cada registro de entidad física en la base de datos, agregando su puntuación de anomalía asociada calculada en el paso (d) y/o preferiblemente, a través del módulo de comunicación, almacenando cada uno de dichos modelos entrenados de detección de anomalías para cada una de las particiones en dicha base de datos.

La ventaja de este sistema radica en la consideración completa de los atributos nominales, como se ha indicado brevemente con anterioridad. Como se ha mencionado, en muchas aplicaciones, los registros en general constan de atributos nominales y numéricos. De hecho, muchos conjuntos de datos, incluidos los conjuntos de datos de detección de fraudes de seguros, generalmente constan de atributos nominales y numéricos (Chandola, V., Banerjee, A. y Kumar, V. (2009). «Anomaly Detection:A Survey». ACM Computing Surveys (CSUR), 41 (3), 15:1 — 15:58). Como tal, la presente invención es particularmente útil para aplicaciones tales como detección de fraude de seguros donde los atributos nominales están disponibles, utilizando toda la información disponible en la detección de anomalías.

En una realización preferida, dicho algoritmo de detección de anomalías no supervisado se refiere a un algoritmo de detección de anomalías basado en aislamiento como iForest, SCiForest, iNNE o un algoritmo de detección de anomalías no basado en aislamiento, como ORCA o factor atípico local, preferiblemente iForest, y dicha partición con especificación de valores se refiere preferiblemente a valores para dos atributos nominales.

Una realización con iForest como algoritmo de detección de anomalías no supervisado es particularmente ventajosa, ya que se ha demostrado empíricamente (Liu et al. 2008, 2012) que el rendimiento de detección de iForest, especialmente cuando el número de instancias es superior a 1000, es superior a los algoritmos de detección de anomalías de última generación. Además, la presente invención se combina ventajosamente con iForest, que en sí mismo no permite la incorporación de atributos nominales. En el sistema de acuerdo con la presente invención, la información de atributos nominales se incorpora de manera significativa, aplicando iForest a registros de datos que pertenecen a la misma partición, con características nominales coincidentes. Esto establece una línea de base más homogénea (es decir, grupo de referencia) que a su vez conduce a «puntuaciones de anomalías menos distorsionadas» (ver también ejemplos).

Dado que iForest, como muchos algoritmos relacionados, requiere que todos los atributos en su entrada sean numéricos, una configuración de acuerdo con el estado de la técnica es convertir atributos nominales en atributos numéricos y alimentar estos atributos convertidos al algoritmo de detección de anomalías. Esta configuración se encuentra, por ejemplo, en «Sun, L., Versteeg, S., Boztas, S., & Rao, A. (2016); Detecting Anomalous User Behavior Using an Extended Isolation Forest Algorithm.An Enterprise Case Study; CoRR, abs/1609. 06676», citado como «Sun et al. (2016)» en adelante. Una ventaja de la presente invención es que, al evitar la conversión de atributos nominales en atributos numéricos, la información presente en el conjunto de datos se tiene en cuenta sin distorsiones, lo que conduce a un rendimiento superior de detección de anomalías.

Aunque que los algoritmos de detección de anomalías como ORCA (un método basado en la distancia, véase «Bay, S. D., & Schwabacher, M. (2003); Mining Distance-based Outliers in Near Linear Time with Randomization and a Simple Pruning Rule;en Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 29-38)»), LOF (Factor Atípico Local, un método basado en densidad; ver «Breunig, M. M., Kriegel, H. -P., Ng, R. T., & Sander, J. (2000); LOF.Identifying Density-based Local Outliers; en ACM Sigmod Record (Vol. 29, pp. 93-104)»), SVM de una clase (Support Vector Machine, un método basado en modelos; véase «Scholkopf, B., Platt, J. C., Shawe-Taylor, J. C., Smola, A. J., & Williamson, R. C. (2001); Estimating the Support of a High-Dimensional Distribution; Neural Computation, 13 (7), 1443-1471») y bosque aleatorio con matrices de proximidad (un método basado en modelos; véase «Shi, T., & Horvath, S. (2006); Unsupervised Learning With Random Forest Predictors; Journal of Computational and Graphical Statistics, 15 (1), 118-138») se pueden aplicar igualmente en la presente invención, iForest supera a estos métodos cuando se trata del rendimiento de detección para una gran cantidad de instancias. El algoritmo iForest también es capaz de detectar de forma eficaz anomalías en espacios de alta dimensión, incluso cuando no se presentaron instancias anómalas en la muestra de entrenamiento. El algoritmo es computacionalmente muy eficiente, ya que no se basa en el cálculo de costosas medidas de distancia o densidad. Sin embargo, en presencia de anomalías locales y/o agrupadas, las capacidades de detección de anomalías de iForest son menos efectivas en esas circunstancias. De hecho, iForest apunta principalmente a anomalías dispersas, ya que la puntuación de anomalía derivada se calcula globalmente, lo que no es sensible a las distribuciones de datos locales. En realizaciones alternativas, SCiForest (bosque de aislamiento con criterio de selección dividida; véase «Liu, F. T., Ting, K. M., & Zhou, Z. -H. (2010); On Detecting Clustered Anomalies Using SCiForest; en Proceedings of the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD'10) (pp. 274-290)») o iNNE (Aislamiento mediante el conjunto de vecinos más cercanos; véase «Bandaragoda, T. R., Ting, K. M., Albrecht, D., Liu, F. T., & Wells, J. R. (2014); Efficient Anomaly Detection by Isolation Using Nearest Neighbour Ensemble; en Proceedings of the 2014 IEEE International Conference on Data Mining Workshop (ICDMW) (pp. 698-705)») se pueden aplicar en los pasos de detección de anomalías (c) y (d), que pueden complementar el enfoque adecuado y muy diferente de acuerdo con la presente invención, en el que un paso de partición independiente precede a la aplicación del algoritmo de detección de anomalías no supervisado.

En otra realización preferida, en la que dichos valores de datos físicos se refieren a imágenes, en la que dichos valores de especificación de partición se refieren preferiblemente a valores para atributos nominales almacenados como metadatos con respecto a dichas imágenes tales como información EXIF, fechas de archivo o nombres de archivo. La ventaja de utilizar metadatos como el formato de archivo de imagen intercambiable (EXIF) es que un conjunto de datos de imágenes suele tener algunos metadatos disponibles. Muy a menudo, estos metadatos informan sobre la naturaleza de los datos y la agrupación de imágenes asociadas a una determinada hora del día, un determinado evento o un determinado lugar. En una realización alternativa, los valores que especifican la partición pueden extraerse de la propia información de píxeles, extrayendo valores relacionados con, por ejemplo, brillo, luminancia, contraste, profundidad de color, espectro de color, etc.

Según otra realización, dicha pluralidad de registros de entidad física se prepara para su partición en la etapa (a), en la que dicha preparación comprende actualizar dicha pluralidad de registros de entidad física, en donde dicha actualización comprende especificar, preferiblemente automáticamente, qué atributos nominales se van a utilizar como valores de especificación de partición desde el paso (b) en adelante. Esto es supone una ventaja, ya que permite seleccionar automáticamente atributos nominales de tal manera que aumenta el rendimiento general de detección de anomalías. En esta realización preferida, los atributos nominales que son útiles para especificar particiones pueden identificarse completando todos los pasos del método para una elección hipotética de valores de especificación de partición y, por tanto, generando una «vista previa» asociada con dicha elección. La calidad de esta vista previa puede ser evaluada manualmente por un operador o automáticamente por medio de una función objetiva. Este esquema puede repetirse iterativamente hasta que el operador esté satisfecho con el resultado o se cumpla algún criterio relacionado con la función objetivo, como alcanzar un umbral predefinido que se compara con la salida de la función objetivo. En una realización relacionada con ventajas similares, el módulo de comunicación está configurado para recibir información de un usuario; en el que la actualización, como parte de la preparación en el paso (a), comprende recibir dicha entrada del usuario a través del módulo de comunicación; y en el que dicha entrada del usuario comprende la especificación de los atributos nominales que se utilizarán como valores de especificación de partición a partir del paso (b).

En una realización preferida, la actualización de dicha pluralidad de registros de entidad física comprende transformar, preferiblemente automáticamente, al menos un atributo numérico en un atributo nominal recién creado; en el que esta transformación se refiere a asociar al menos una etiqueta nominal a al menos un intervalo numérico, y en el que esta especificación de qué atributos nominales se utilizarán como valores de especificación de partición desde el paso (b) en adelante comprende el atributo nominal recién creado.

Según otra realización preferida, la base de datos comprende datos de entrenamiento referentes a una pluralidad de registros de entidades físicas relacionados con el entrenamiento, comprendidos en dicha pluralidad de registros de entidades físicas; estos datos de entrenamiento comprenden una pluralidad de etiquetas que indican si los registros de entidad física relacionados con el entrenamiento se adhieren a un criterio predefinido de relación con anomalías, como la relación con el fraude, y en el que dicho dispositivo informático está configurado para realizar los siguientes pasos adicionales (f)-(j) después del paso (e):

(f) actualizar cada registro de entidad física agregando su puntuación de anomalía asociada calculada en el paso (d); (g) recuperar los datos de entrenamiento a través del módulo de comunicación;

(h) en base a los datos de entrenamiento recibidos en el paso (g), entrenar un algoritmo de clasificación supervisada en los registros de entidad física actualizados obtenidos en el paso (f), obtener un modelo de clasificación supervisado entrenado;

(i) para cada registro de entidad física perteneciente a la pluralidad de registros de entidad física, calculando una puntuación de predicción, dicha puntuación de predicción indica hasta qué punto el registro de entidad física se adhiere al criterio de relación de anomalías predefinido por medio del modelo de clasificación supervisado entrenado;

(j) preferiblemente, a través del módulo de comunicación, actualizar cada registro de entidad física en la base de datos agregando su puntuación de predicción asociada calculada en el paso (i) y/o, preferiblemente, a través del módulo de comunicación, almacenando dicho modelo de clasificación supervisado entrenado en la base de datos. En otra realización preferida, para cada registro de entidad física, la actualización del paso (f) se refiere a reemplazar los valores de especificación de partición con la puntuación de anomalía asociada con el registro de entidad física. Esta realización supone una ventaja, ja que la detección de anomalías ahora ayuda a dirigir los esfuerzos del algoritmo de clasificación supervisada hacia las anomalías. Como tal, el sistema correspondiente es capaz de proporcionar una síntesis del conocimiento obtenido de las etiquetas, por un lado, y puntuaciones de anomalías generadas automáticamente, por el otro. Normalmente, las etiquetas pueden referirse a etiquetas aplicadas manualmente asignadas por expertos en el dominio, como se analiza a continuación en el Ejemplo 5.

En otra realización más, el algoritmo de clasificación supervisado entrenado en el paso (h) y aplicado en el paso (i) se refiere a la regresión logística, árbol de decisión CART o bosque aleatorio o SVM con kernel lineal o ^sV^mcon función de base radial.

Según otra realización más, el entrenamiento del algoritmo de clasificación supervisado en el paso (h) comprende dividir los registros de entidad física relacionados con el entrenamiento y los datos de entrenamiento asociados de acuerdo con cualquiera de las siguientes estrategias: retención y validación cruzada de K iteraciones.

Esto supone una ventaja, ya que permite una predicción superior.

En un segundo aspecto, la presente invención proporciona un sistema operativo para puntuar un registro de entidad física proporcionado por el usuario; dicho sistema comprende:

- un módulo de comunicación operativa que tiene acceso a una base de datos que comprende al menos un modelo de detección de anomalías entrenado generado por un sistema según cualquiera de las afirmaciones de la 1 a la 10; - un dispositivo informático que comprende un procesador, una memoria tangible no volátil, un código de programa presente en la memoria para instruir al procesador;

en el que el módulo de comunicación operativa está dispuesto para proporcionar al dispositivo informático acceso a la base de datos y está dispuesto además para recibir información de un usuario;

en el que el dispositivo informático operativo está configurado para realizar los pasos de:

(01) recibir un registro de entidad física proporcionado por el usuario a través del módulo de comunicación operativa; dicho registro de entidad física proporcionado por el usuario comprende valores de datos físicos para al menos un atributo numérico y valores de especificación de partición concernientes a valores para uno o más atributos nominales;

(02) preparar el registro de entidad física proporcionado por el usuario para puntuarlo; dicha preparación comprende la selección de uno o más atributos nominales correspondientes a valores que especifican la partición;

(03) recuperar el modelo de detección de anomalías entrenado que corresponde a los atributos nominales seleccionados en el paso (02) de la base de datos a través del módulo de comunicación operativa;

(04) calcular la puntuación de anomalía del registro de entidad física proporcionado por el usuario por medio del modelo de detección de anomalías entrenado recuperado en el paso (03).

En una realización, el sistema operativo y el sistema están comprendidos en el mismo supersistema, que abarca toda la funcionalidad proporcionada por el sistema y el sistema operativo. En este supersistema, el módulo de comunicación y el módulo de comunicación operativo pueden estar unidos; el dispositivo informático y el dispositivo informático operativo también pueden estar unidos.

En una realización preferida del sistema operativo según la presente invención, la base de datos también comprende al menos un modelo de clasificación supervisado entrenado generado por un sistema según la presente invención, en el que dicho dispositivo informático operativo está configurado para llevar a cabo los pasos adicionales (05)-(07) después del paso (04):

(05) actualizar dicho registro de entidad física proporcionado por el usuario añadiendo su puntuación de anomalía asociada calculada en el paso (04);

(06) recuperar el modelo de clasificación supervisado entrenado que corresponde a los atributos nominales seleccionados en el paso (02) de la base de datos a través del módulo de comunicación;

(07) calcular la puntuación de predicción del registro de entidad física proporcionado por el usuario por medio del ^{modelo de clasificación supervisado entrenado recuperado en el paso (}06^).

Según otra realización preferida, el módulo de comunicación operativa está dispuesto para generar una alerta para un operador, preferiblemente una alerta visual o acústica; en el que dicho dispositivo informático operativo está configurado para comparar la puntuación de anomalía calculada en el paso (04) o la puntuación de predicción calculada en el paso (07); en el que la alerta para el operador se genera cuando la comparación revela que un valor de alerta predefinido coincide o se excede.

En un tercer aspecto, la presente invención se refiere al uso de un sistema o sistema operativo según la presente invención por una compañía de seguros para detectar fraudes relacionados con registros de entidades físicas referentes a reclamaciones de seguros.

En un cuarto aspecto, la presente invención proporciona el uso de un modelo de detección de anomalías entrenado o un modelo de clasificación supervisado entrenado generado por un sistema según la presente invención para determinar si un registro de entidad física proporcionado por el usuario relativo a una reclamación de seguro es fraudulento.

En varias realizaciones de la presente invención, el entrenamiento del algoritmo de clasificación supervisada permite una mayor precisión en la clasificación de registros. El paso de aprendizaje supervisado aprovecha la detección de anomalías realizada en el paso anterior, logrando así una curva de aprendizaje particularmente pronunciada. Tal curva de aprendizaje corresponde a un esfuerzo relativamente pequeño para la anotación manual mientras se logra una alta precisión.

En un aspecto adicional, la presente invención proporciona un sistema operativo para puntuar un registro de entidad física proporcionado por el usuario; dicho sistema comprende:

En un aspecto adicional, la presente invención se refiere al uso de un sistema o sistema operativo según la presente invención por una compañía de seguros para detectar fraudes relacionados con registros de entidades físicas referentes a reclamaciones de seguros.

En un aspecto adicional, la presente invención proporciona el uso de un modelo de detección de anomalías entrenado o un modelo de clasificación supervisado entrenado generado por un sistema según la presente invención para determinar si un registro de entidad física proporcionado por el usuario relativo a una reclamación de seguro es fraudulento.

La invención se describe adicionalmente mediante los siguientes ejemplos no limitantes que ilustran adicionalmente la invención y no pretenden, ni así debe interpretarse, limitar el alcance de la invención.

Ejemplos

Example 1: Ejemplo de principio de funcionamiento de la presente invención

La Figura 1 ilustra el principio de funcionamiento de una realización de la presente invención. El sistema de detección de anomalías tiene acceso a una base de datos que comprende una pluralidad de registros de entidades físicas. Cada uno de estos registros tiene una estructura de acuerdo con la Figura 1a. Cada registro comprende múltiples atributos de tipo mixto (11, 12, 13, 14, 15), siendo el número de atributos igual a d, d>3, donde j es el índice sobre los atributos. Con al menos algunos de los registros (los datos de entrenamiento, ver más abajo), se asocia una etiqueta (16) que es indicativa de un criterio de relación con anomalías predefinido, como la relación con el fraude.

La Figura 1a corresponde a un paso de selección. De todos los atributos de tipo mixto (11, 12, 13, 14, 15), se selecciona al menos un atributo nominal y al menos uno numérico. En este ejemplo, del conjunto de atributos, se selecciona el primer atributo (11, 12) (con índice j=1) como atributo nominal para la detección de anomalías. De este modo, el atributo nominal (11, 12) puede tomar solo dos posibles valores de especificación de partición, es decir, un primer valor de especificación de partición (11) o un segundo valor de especificación de partición (12). El segundo (13) (con índice j=2) y el tercer (14) atributo (con índice j=3) se seleccionan del conjunto total de atributos como primer atributo numérico (13) y segundo atributo numérico (14), respectivamente. Juntos, el atributo nominal con sus dos valores que especifican la partición (11, 12) y los dos atributos numéricos (13, 14) de cada registro se toman como entrada al sistema.

El paso de partición se ilustra en la Fig. 1b. Con los valores de especificación de partición (11, 12) como punto de partida, la pluralidad de registros de entidad física se divide en dos particiones, de las cuales la primera partición está asociada con el primer valor de especificación de partición (11) y la segunda partición está asociada con el segundo valor de especificación de partición (12). Con fines ilustrativos, en la Fig. 1b, para cada una de ambas particiones, los puntos de datos correspondientes a combinaciones específicas del primer (13) y segundo (14) atributo numérico se establecen en un primer y un segundo gráfico bidimensional (18, 19), respectivamente.

La Fig. 1c ilustra el paso de detección de anomalías, en el que la detección de anomalías está condicionada con respecto al atributo nominal (11, 12). Para el primer valor de especificación de partición (11), el algoritmo de detección de anomalías no supervisado se entrena sobre los valores de datos físicos del primer y segundo atributo numérico (13, 14) de cada uno de los registros que pertenecen a la primera partición. Se obtiene un primer modelo de detección de anomalías entrenado, que luego se utiliza para calcular la puntuación de anomalía de cada uno de los registros pertenecientes a la primera partición. Asimismo, para el segundo valor de especificación de partición (12), el algoritmo de detección de anomalías no supervisado se entrena sobre los valores de datos físicos del primer y segundo atributo numérico (13, 14) de cada uno de los registros pertenecientes a la segunda partición. Se obtiene un segundo modelo de detección de anomalías entrenado, que luego se utiliza para calcular la puntuación de anomalía (17) de cada uno de los registros pertenecientes a la segunda partición. Como resultado, se puntúan todos los registros y cada registro se actualiza en la base de datos agregando su puntuación de anomalía asociada (17). Para cada una de ambas particiones, la puntuación de anomalía (17) puede calcularse para cada combinación del primer (13) y segundo (14) atributo numérico, como se ilustra con un primer y un segundo gráfico bidimensional (20, 21), respectivamente. De este modo, las curvas de nivel unen puntos de igual puntuación de anomalía (ver también los Ejemplos 3 y 4). Preferiblemente, el algoritmo de detección de anomalías no supervisado se refiere a iForest. En este ejemplo, la puntuación de anomalía se escala en el rango [-0,5, 0,5], por lo que una puntuación cercana al límite superior se considera una anomalía.

La Fig. 1d ilustra una realización preferida de la invención, con el paso adicional de entrenar un algoritmo de clasificación. En este paso, se identifica un conjunto de entrenamiento, que comprende una pluralidad de registros de entidad física relacionados con el entrenamiento y está completamente contenido en la pluralidad de registros de entidad física. Los datos de entrenamiento comprenden una pluralidad de etiquetas (16) indicativas de si dichos registros de entidad física relacionados con el entrenamiento se adhieren a un criterio predefinido de relación con anomalías, como la relación con el fraude. Los registros que pertenecen al conjunto de entrenamiento se alimentan junto con sus etiquetas y las puntuaciones de anomalía asociadas a un algoritmo de clasificación supervisado, como la regresión logística. En la realización preferida ilustrada en la Fig. 1d, el atributo nominal (11, 12) y el primer y segundo atributo numérico (13, 14) seleccionados en el primer paso no se conservan en este paso, sino que se reemplazan por completo por las puntuaciones de anomalía (17). Se consideran los atributos no seleccionados (15), es decir, los atributos que no fueron seleccionados en el primer paso, con el conjunto de índices J'. Esto produce un modelo de clasificación supervisado entrenado que luego se utiliza para calcular una puntuación de predicción para cada uno de los registros en el conjunto de datos. La puntuación de predicción es indicativa de la medida en que el registro de entidad física se adhiere al criterio predefinido de relación con anomalías.

Example 2: Ejemplo de aplicación de árbol de aislamiento

La Figura 2 ilustra un ejemplo de una aplicación de árbol de aislamiento. Esto se refiere a realizaciones de la presente invención en las que el algoritmo de detección de anomalías no supervisado comprende iForest, preferiblemente con respecto a iForest. El algoritmo de aprendizaje base de iForest se llama árbol de aislamiento (iTree), que construye un árbol binario adecuado de manera completamente aleatoria en base a una submuestra de tamaño ^y, siendo ^yun número natural, tomado de los datos de entrenamiento sin reemplazo (valor predeterminado propuesto: y = 256). Mediante un enfoque de «divide y vencerás», iTree divide de forma recursiva el espacio en rectángulos paralelos a los ejes progresivamente más pequeños, para aislar instancias. Idealmente, solo queda una instancia en cada nodo hoja. Dadas sus propiedades, las anomalías son más susceptibles de aislamiento y, por lo tanto, tienden a estar más cerca de la raíz de un iTree que las instancias normales. Esto se ilustra en la Figura 2. La Figura 2a muestra un gráfico bidimensional con 6 muestras, cada una asociada con diferentes valores para los atributos numéricos continuos X1 y X2. Un nodo iTree se crea seleccionando aleatoriamente un atributo junto con un valor dividido extraído aleatoriamente, que se encuentra entre el mínimo y el máximo del atributo seleccionado. En este ejemplo, el primer atributo seleccionado al azar es X1 y el primer valor dividido elaborado al azar es a. Esto da como resultado la línea vertical en la Figura 2a, correspondiente a la división en el nodo #0 de iTree, como se muestra en la Figura 2b. Este procedimiento de seleccionar un atributo y determinar un valor de división se repite hasta que se alcanza alguna condición de parada, como que el número de muestras en cada nodo hoja sea igual a 1. En general, la anomalía (indicada con un triángulo en la Figura 2a) cae en el nodo de la hoja directamente debajo de la raíz y, por lo tanto, se separa (aísla) más rápido que los puntos de datos normales (indicados con círculos en la Figura 2a). Téngase en cuenta que la aplicación de iTrees solo es significativa en los atributos numéricos. Cuando una instancia de prueba pasa a través de un iTree, en cada nodo no hoja, el valor del atributo correspondiente se recupera y se prueba con el valor dividido para decidir su recorrido hacia el nodo secundario izquierdo o derecho.

Example 3: Ejemplo de definición de puntuación de anomalía con iForest

Como en el Ejemplo 2, también este ejemplo se refiere a realizaciones de la presente invención en las que el algoritmo de detección de anomalías no supervisado comprende iForest, preferiblemente se refiere a iForest, con el uso de iTrees preferiblemente de acuerdo con el Ejemplo 2. Para determinar una puntuación de anomalía para una instancia de vector dada x con d valores reales escalares, (es decir, d atributos diferentes que representan el número de mediciones de atributos), iForest aprovecha únicamente las estructuras de árbol aprendidas de los iTrees T, siendo T un número natural. Dado que las anomalías son más susceptibles al aislamiento, se espera que una instancia anómala tenga una longitud de ruta más corta que una instancia normal cuando atraviesa un iTree desde la raíz hasta la hoja. Dado un árbol de aislamiento ht, la longitud de la ruta ht (x), por ejemplo x , siendo ht (x) un número positivo real, se obtiene contando el número de aristas e desde la raíz hasta el nodo hoja en el que se encuentra x . Para tener en cuenta la posibilidad de que el aislamiento de un conjunto de instancias en el nodo hoja no haya sido completamente exitoso, se agrega el siguiente ajuste a e como una función del tamaño del nodo hoja n; ver Liu et al. (2012):

donde H( ) es el número armónico que puede ser aproximado por H(a) ~ ln(a) + 0,5772156649 (constante de Euler). Dado que un iTree es estructuralmente equivalente a un árbol de búsqueda binaria (BST), el ajuste se deriva de búsquedas fallidas en BST y tiene como objetivo dar cuenta de la longitud de ruta promedio de un subárbol aleatorio que podría construirse dado el tamaño del nodo hoja (Liu et al., 2008, 2012). La longitud de ruta promedio de la instancia x se puede calcular utilizando la colección de iTrees construidos en T:

£ (ft(

donde ht(x) = e c(n) es la longitud de la ruta de x derivada del árbol de aislamiento tth. Liu et al. (2008, 2012) mostraron empíricamente que, ya con un tamaño de conjunto moderado (valor predeterminado propuesto: T = 100), la longitud media de la trayectoria se estabiliza rápidamente y tiende a ser mucho menor para casos anómalos. Finalmente, la puntuación de anomalía s, siendo s un número real, por ejemplo x , se puede calcular de la siguiente manera (Liu et al., 2008, 2012):

donde E(h(x)) se define como en (2) y c(y) sirve como factor de normalización para realizar una comparación adecuada de modelos con diferentes tamaños de submuestra. Se considera que este último es la longitud de camino promedio de atravesar un árbol aleatorio que se construyó en base a una muestra de tamaño, véase «Zhou, Z. -H. (2012); Ensemble Methods:Foundations and Algorithms (1a ed. ); CRC press». El paso de mapeo final en (3) asegura que la puntuación de anomalía se encuentre en el intervalo [0, 1]. Sin embargo, en una realización preferida, las puntuaciones de anomalías se calculan de la siguiente manera:

E (ftfrO )

En consecuencia, las puntuaciones de anomalía se centran alrededor de cero con intervalo [-0,5, 0,5]. Por lo tanto, una instancia con una puntuación cercana al límite superior se considera una anomalía.

Example 4: Ejemplo de medidas de tamaño/peso

En este ejemplo, el sistema de detección de anomalías se aplica a un ejemplo específico con medidas de tamaño/peso. Estos son atributos intuitivos que normalmente se encuentran en un conjunto de datos de seguros de vida. Los factores importantes para que las organizaciones de seguros de vida determinen la clase de tarifa son la altura, el peso y el sexo de una persona. Afortunadamente, la literatura de investigación proporciona estimaciones de parámetros para distribuciones de datos, lo que simplifica la creación de valores artificiales de estos tres atributos. Más específicamente, se genera una muestra representativa de distribuciones bivariadas precisas para la altura y el peso de hombres y mujeres en los EE. UU., donde los parámetros de distribución se infirieron a partir de una gran encuesta de población. Claramente, en este ejemplo, se supone que estos tres atributos son significativos para los usuarios en el contexto de una aplicación comercial de seguros de vida.

El trazado de datos revela que las distribuciones de datos de hombres y mujeres se superponen en gran medida. Esto se muestra en la Figura 3a en un gráfico bidimensional (310), donde el primer atributo numérico (301) (índice de atributo 2) representa el peso (en kg) y el segundo atributo numérico (302) (índice de atributo 3) la altura (en cm). El atributo nominal (índice de atributo 1) se refiere al género. Los puntos de datos correspondientes a las mujeres se representan con triángulos que apuntan hacia arriba, de los cuales cinco están etiquetados (33, 104, 119, 143, 156). Asimismo, los puntos de datos correspondientes a los hombres se representan con triángulos que apuntan hacia abajo, de los cuales cinco están etiquetados (3, 23, 128, 148, 181). Las curvas de nivel 311 y 312 son indicativas de la agrupación de puntos de datos para hombres y mujeres, respectivamente. Los puntos de datos individuales pueden apreciarse como anomalías a partir de la inspección visual del gráfico 310. Por ejemplo, la observación 156 (128) es la mujer más alta (el hombre más bajo), y puede considerarse como una peculiaridad interesante para el usuario, sin embargo, cuando los datos se ven en su totalidad, esta observación no parece una peculiaridad, ya que queda oculta por los datos del otro género. Esto también es evidente en las puntuaciones de anomalía producidos por un sistema de acuerdo con el estado de la técnica con el iForest entrenado de manera convencional, lo que significa que los atributos nominales se descartan y no se realiza una partición de datos, en particular en el ejercicio de detección de anomalías. Esto se muestra en la Figura 3b, donde las curvas de nivel 321-324 unen puntos de igual puntuación de anomalía, en orden descendente de valor de puntuación de anomalía.

Sin embargo, en entornos como, por ejemplo, el fraude de seguros, se desea incluir también información de atributos nominales de manera significativa con el objetivo de mejorar aún más el rendimiento de detección y presentar anomalías a los usuarios que podrían ser más interesantes para ellos. En particular, la presente invención permite a los usuarios detectar anomalías ocultas aprovechando la información del atributo de género nominal. Para permitir la detección de estas instancias, la selección de pasos, la división y la detección de anomalías del enfoque discutido en el Ejemplo 1 se llevan a cabo con S nom num = {2, 3}, donde Snom denota el conjunto de índices de atributos referentes a atributos nominales seleccionados y Snum denota el conjunto de índices de atributos que se refieren a atributos numéricos seleccionados. Por lo tanto, solo hay un conjunto relevante de valores que especifican la partición, denotado V1 = {mujer, hombre}. El producto cartesiano resultante de todas las combinaciones de atributos nominales, denominado K, es un conjunto de dos 1-tuplas:K = {(mujer), (hombre)}, lo que da como resultado dos particiones de datos divididas según mujer y hombre con |D(mujer)| = 104 y |D(hombre)| = 96, donde D(mujer) (D(hombre)) se refiere a la partición del conjunto de datos condicionado a las mujeres (hombres), y |D()| denota el número de registros en la partición dada. A continuación, la detección de anomalías condicional se realiza entrenando un iForest en cada partición de datos y examinando las puntuaciones de anomalías. Evidentemente, el patrón resultante se desvía del análisis anterior, que ahora identifica claramente la instancia 156 (128) como una observación periférica. Esto se ilustra, por un lado, en la Figura 3c, con un gráfico 330 separado para los hombres, donde las curvas de nivel 331-334 unen puntos de igual puntuación de anomalía, en orden descendente de valor de puntuación de anomalía. Por otro lado, esto se ilustra en la Figura 3d, con un gráfico 340 separado para las mujeres, donde las curvas de nivel 341-344 unen puntos de igual puntuación de anomalía, en orden descendente de valor de puntuación de anomalía.

La comparación de las puntuaciones de anomalías, así como los rangos resultantes, corrobora además que la inclusión de atributos nominales, como en los sistemas de acuerdo con la presente invención, es muy beneficiosa para detectar anomalías que de otro modo no se detectarían. Esto se ilustra en la siguiente tabla.

íF o r o s t (F o re s ta , Enfoque ¡ForestCAD propuesto

iF o re s t(h o m b re ) iF o re s t(m u je r) R a n g a s

i ^{G é n e ro}

( » - 200} (n ~ 200) (« - m (n «= 101) 42ÍX>) Anom 3 ^{H o m b re} 0.1310 (■0 0.0890 (5) 0.0887 (3)

23 ^{H o m b re} -0.0261 (58) 0.0292 (21) 0.0161 (7) (13) Sí

33 ^{M u je r} 0.1478 (2) 0.1305 (2) 0.1408 (2) (5)

101 ^{M u je r} 0.0366 (12) 0.0151 (28) 0.0068 (12) (25)

119 ^{M u je r} 0,0111 (H) 0.0817 (n 0.0893 (4) (6)

12S ^{H o m b re} -0.0067 (41) 0.0930 (4) 0.1179 (1) (3) Sí

113 ^{M u je r} 0,1786 0 ) 0,1511 (1) 0.1561 (1) (1)

118 ^{H o m b re} -0.0630

0.03S3 (16) 0.0627 (4) (B) Sí

156 ^{M u je r} -0.0709 (120) 0.0833 (6) 0.0975 (3) (5) sí

181 ^{H o m b re} 0,1318 (3) 0.1181 (3) 0.1075 (2) (■0

Por ejemplo, la observación 156 (128) tiene una puntuación de anomalía de -0,0709 (-0,0067) y recibe una clasificación de 120 (41) en el enfoque convencional. Por lo tanto, esta observación probablemente se consideraría normal en lugar de anómala. Por otro lado, el enfoque propuesto (puntuaciones de anomalías en la quinta y sexta columna, con la etiqueta iForestcAD) muestra una fuerte indicación de que esta observación es anómala y eleva el rango de 120 (41) a 5 (3). Esta discrepancia en puntuaciones y rangos demuestra evidentemente que estas anomalías ocultas probablemente no se hubieran detectado con el enfoque convencional. Sin embargo, también es importante señalar que las puntuaciones de anomalías y los rangos de las anomalías globales permanecen más o menos sin cambios (ver, por ejemplo, la observación 3 —el hombre más alto— y 143 —la mujer más baja—). A pesar de realizar una detección de anomalías condicional, el sistema de ejemplo de acuerdo con la presente invención continúa reflejando coherentemente las anomalías globales, por lo que se puede argumentar que el sistema amplía las capacidades de detección del iForest regular.

Un enfoque alternativo para incorporar atributos nominales en la detección de anomalías es establecer un orden arbitrario y asignar valores nominales a valores numéricos, como propusieron Sun et al. (2016), citado como iForestext. Por lo tanto, siguiendo este enfoque, los valores «mujer» y «hombre» en nuestro ejemplo se pueden asignar a los valores numéricos 0 y 1, respectivamente. El resultado de este análisis para instancias seleccionadas se muestra en la columna iForestext de la tabla anterior. Cabe destacar que este método asigna rangos más o menos similares a la mayoría de las instancias seleccionadas como el enfoque iForestoAD para este ejemplo simple, excepto por las dos anomalías ocultas i = 23 e i = 148, los rangos dados por el sistema de acuerdo con la presente invención son casi el doble. De esta forma, incluso un ejemplo simple permite mostrar la diferencia significativa en el rendimiento de detección de anomalías. Esto se debe al hecho de que el método iForestext de Sun et al. (2016) para incorporar atributos nominales es inadecuado a nivel conceptual. Recuérdese que un atributo se elige al azar en cada nodo en la construcción de un iTree. Por lo tanto, al considerar el ejemplo actual, la información de que los datos se generan a partir de diferentes distribuciones no se procesa correctamente, ya que iTree hará divisiones que se determinan a partir de datos masculinos y femeninos cuando se selecciona un atributo numérico. Por lo tanto, el bosque de aislamiento extendido (Sun et al., 2016) carece de la franqueza del enfoque de acuerdo con la presente invención, con una distinción estricta entre valores nominales. Debido a la detección separada de anomalías en particiones de datos que no se solapan en un sistema según la presente invención, las anomalías se detectan estrictamente con respecto a su propio grupo de referencia, mientras que el iForestext salta estocásticamente a través de los valores mapeados del atributo nominal y, por lo tanto, difumina la relación con el grupo de referencia. Sin duda, esto influye en la construcción de iTrees, así como en las puntuaciones de anomalías. Una consecuencia no deseada de este simple mapeo nominal a numérico es que las instancias a las que se les asigna el valor mapeado más bajo o más alto reciben una puntuación de anomalía más alta simplemente debido a la disposición de valores en el espacio. Esto se ilustra en la Figura 4 mediante un gráfico bidimensional (400) con el primer atributo nominal genérico (410) y el segundo atributo nominal genérico (420). De este modo, las curvas de nivel 401-405 unen puntos de igual puntuación de anomalía, en orden descendente de valor de puntuación de anomalía. Esto, por supuesto, es inadecuado a nivel conceptual, ya que el mapeo de valores nominales a numéricos es arbitrario. Por tanto, esto da como resultado un rendimiento de detección de anomalías inferior en comparación con la salida del sistema según la presente invención.

Example 5: Imágenes de ejemplo

En este ejemplo, el Ejemplo 4, se aborda desde una perspectiva diferente, con una aplicación diferente. De este modo, los registros se refieren a imágenes en bruto sin comprimir tomadas, por ejemplo, por una cámara de seguridad fija. El primer atributo numérico (índice de atributo 2) se refiere al brillo general de la imagen, en una escala de 0 a 255, donde 0 corresponde a una imagen completamente negra y 255 corresponde a una imagen completamente blanca. El segundo atributo numérico (índice de atributo 3) se refiere al contraste de la imagen, en una escala de 0 a 255, donde 0 corresponde a una imagen en un valor de color único (si se trata de imágenes en color) o un valor de intensidad único (si se trata de imágenes en blanco y negro), y valores cercanos a 255 correspondientes a la presencia dominante tanto de píxeles muy oscuros (casi negros) como de píxeles muy claros (casi blancos). En una realización de ejemplo, el atributo nominal (índice de atributo 1) se refiere a la cámara con la que se toma la imagen, que puede estar disponible en la información EXIF o puede inferirse del formato del nombre del archivo; el conjunto de datos comprende un grupo de imágenes tomadas por dos cámaras diferentes, denominadas «Cámara A» y «Cámara B».

Además, supongamos que todas las imágenes se toman el mismo día, en el mismo período de tiempo, por ejemplo, entre las 14:00 y las 15:00 h. En tal caso, las imágenes de una sola cámara suelen ser muy similares a menos que tenga lugar un evento. Por lo tanto, una anomalía puede indicar que se ha producido un evento. Sin embargo, las imágenes de una cámara suelen ser muy diferentes de las tomadas con otra cámara debido a la escena diferente representada. Alternativamente, ambas cámaras pueden apuntar aproximadamente a la misma escena, pero pueden ser diferentes en términos de componentes técnicos (por ejemplo, objetivos), procesamiento interno o en términos de año de fabricación.

Adoptando la misma notación que en el Ejemplo 4, la selección de pasos, el particionamiento y la detección de anomalías del enfoque discutido en el Ejemplo 1 se llevan a cabo con S nom = {1} y s num = {2, 3}. Solo hay un conjunto de valores relevantes, denominado V1 = {Cámara A, Cámara B}. El producto cartesiano es un conjunto de dos 1-tuplas:K = {(Cámara A), (Cámara B)}, lo que da como resultado dos particiones de datos divididas según la Cámara A y la Cámara B con |D(Cámara A)| = 104 y |D(Cámara B)| = 96. A continuación, la detección de anomalías condicional se realiza entrenando un iForest en cada partición de datos y examinando las puntuaciones de anomalía como se muestra en la Figura 3, con resultados idénticos y análisis a los discutidos en el Ejemplo 4. De este modo, en la Figura 3, el primer atributo numérico (301) representa el brillo general (en una escala de 0 a 255) y el segundo atributo numérico (302) el contraste (en una escala de 0 a 255). Los puntos de datos correspondientes a la Cámara A se representan con triángulos que apuntan hacia arriba, los puntos de datos correspondientes a la Cámara B se representan con triángulos que apuntan hacia abajo. Las anomalías detectadas son las indicadas en el Ejemplo 4.

Example 6: Ejemplo de indemnización laboral

En este ejemplo, el sistema actual, en lo sucesivo denominado «enfoque iForestoAD» se aplica a las reclamaciones de WC (work compensation, indemnización laboral) del mundo real recibidas de una importante organización de seguros europea. El objetivo es detectar si las reclamaciones de seguros individuales son fraudulentas. En particular, describimos la incorporación de atributos nominales de acuerdo con iForestcAD que son significativos para la unidad de investigación especial (SIU) con el fin de mejorar la detección de reclamaciones fraudulentas de WC. Después de una motivación general del contexto, se destaca el ejemplo específico.

El seguro de indemnización para trabajadores (WC) proporciona una cobertura de costes en caso de que los empleados sufran una lesión o enfermedad relacionada con el trabajo que se produzca como resultado del desempeño de sus obligaciones laborales. Por ejemplo, en EE. UU., es posible que se requiera cobertura para costes como sustitución de salario, atención médica y rehabilitación, ayudas por fallecimiento para las personas dependientes si el empleado falleció en un accidente relacionado con el trabajo (incluidos ataques terroristas), etc. La WC se considera una de las líneas de seguros más vulnerables al fraude. Se determina que se produce un fraude de seguros si (al menos) se presentan los siguientes elementos; véase «Viaene, S., & Dedene, G. (2004); Insurance Fraud:lssues and Challenges; The Geneva Papers on Risk and Insurance, 29 (2), 313-333», citado a continuación como Viaene y Dedene (2004):

1. Tergiversación de circunstancias o hechos materiales en forma de mentira, falsificación u ocultación,

2. plan deliberado para engañar y

3. propósito de recibir beneficios no autorizados.

Además, Viaene y Dedene (2004) clasificaron el fraude de seguros en tres categorías amplias:

(1) interno-externo, (2) suscripción-reclamación y (3) blando-duro.

La primera categoría (interno-externo) intenta distinguir entre los diversos tipos de perpetradores. Es decir, el fraude interno se comete desde dentro de la organización de seguros, como aseguradores, agentes, empleados de la aseguradora, etc., mientras que el fraude externo es perpetrado por personas ajenas a la organización, como solicitantes, asegurados, reclamantes, etc. La distinción a veces se vuelve borrosa en situaciones que involucran una colusión entre partes internas y externas. La segunda categoría (suscripción-reclamación) tiene como objetivo abordar los diversos tipos de fraude, donde es particularmente importante distinguir entre cometer fraude en la suscripción y hacerlo en el momento de la reclamación. El primero se refiere, por ejemplo, a actividades fraudulentas en el momento de la renovación del contrato de seguro o la tergiversación de información durante la solicitud (fraude de solicitudes) con el objetivo de obtener cobertura o una prima menor (fraude de prima). Por otro lado, el último tipo de fraude de seguros suele ser más prominente y se refiere al fraude de reclamaciones, en el que las reclamaciones están deliberadamente infladas o son falsas o ficticias. La categoría final (blando-duro) tiene como objetivo proporcionar una indicación del grado de intención, mediante la asignación de etiquetas, a la gravedad del fraude cometido. El fraude blando, a menudo también denominado fraude oportunista, describe los casos en los que, por ejemplo, el reclamante aprovecha la oportunidad para exagerar el daño de una reclamación legítima (relleno de la reclamación). En contraste, el fraude duro generalmente se asocia con estafas cuidadosamente planificadas y bien ejecutadas con el propósito de desplumar a las aseguradoras. Claramente, el fraude duro se refiere a la delincuencia bien organizada y ejecutada por personas astutas con intenciones maliciosas o redes de fraude sofisticadas (por ejemplo, la presentación deliberada de reclamaciones falsas).

La asimetría de información es el fertilizante natural del fraude, como enfatizan Viaene y Dedene (2004). La parte con la ventaja informativa lleva la delantera en la relación comercial, algo que los defraudadores aprovechan para obtener un trato comercial más beneficioso. En el caso de la WC, los reclamantes se encuentran naturalmente en una posición ventajosa al presentar la reclamación a la aseguradora, ya que la aseguradora a menudo no tiene otra opción que confiar en la información proporcionada en la reclamación. En este caso, el fraude puede variar, por ejemplo, desde la exageración de una lesión menor (es decir, fraude oportunista) hasta escenarios más graves, como organizar intencionalmente un accidente (es decir, fraude duro) para obtener beneficios ilegítimos.

Un riesgo denominado «riesgo moral», un término bien establecido en la literatura de seguros, a menudo se asocia con el seguro de WC que surge de las asimetrías de información. En la literatura se caracterizan dos tipos de riesgo moral: riesgo moral ex ante y riesgo moral ex post. El primero, por ejemplo, describe la influencia del nivel de beneficios de WC en la actitud de los trabajadores hacia la seguridad, ya que los trabajadores saben que el seguro compensará los costes asociados con la lesión. Por otro lado, el riesgo moral ex post equivale a las definiciones de fraude preestablecidas. Por lo tanto, este término abarca el fraude blando (por ejemplo, lesiones exageradas) y el fraude duro (por ejemplo, falsificación de lesiones, escenificación de accidentes o presentación de reclamaciones por lesiones anteriores o no relacionadas con el trabajo). Hay que tener muy en cuenta que, a diferencia de otros seguros sociales, las prestaciones de WC esencialmente compensan a las personas por no trabajar. Los estudios de investigación han demostrado que la cantidad de reclamaciones presentadas generalmente aumentará a medida que aumenten los beneficios. Además, bajo ciertos supuestos, el nivel de beneficios de WC tiene un impacto más fuerte en la probabilidad de informar de una lesión difícil de diagnosticar (p. ej., lesiones relacionadas con la espalda, esguinces, distensiones y problemas relacionados con el estrés) que en la probabilidad de informar de una lesión fácil de diagnosticar (p. ej., contusión, fractura y quemadura por fricción). Además, los incentivos económicos afectan significativamente a la duración de la reclamación. Los factores para una discapacidad más prolongada pueden incluir edad avanzada, sexo femenino y un diagnóstico de síndrome del túnel carpiano (STC) o esguince de espalda/cuello. También informaron, aunque con una magnitud estimada más baja, que el estado civil de divorciado, el tamaño de la empresa de menos de cincuenta empleados, las tasas de desempleo más altas del condado, así como las personas que trabajan en sectores como la construcción y la agricultura influyen significativamente en el riesgo de discapacidad a largo plazo.

Los estafadores consideran el fraude de seguros como un juego de bajo riesgo y alta recompensa, ya que ganar dinero es mucho más seguro que con otros delitos graves, como el tráfico de drogas o el robo a mano armada. Además, en EE. UU., el enjuiciamiento de los defraudadores de seguros se fomenta menos por razones como la falta de leyes específicas contra el fraude de seguros (en seis estados de EE. UU. ) y las sentencias de cárcel generalmente se adjudican a personas condenadas por delitos más violentos. El seguro de WC no es menos susceptible al fraude que otras líneas de seguro. Específicamente con lesiones difíciles de diagnosticar, las aseguradoras tienen dificultades para verificar la verdadera naturaleza de la lesión, lo que da facilidades a los estafadores. Además, en el seguro de WC, una condena requiere pruebas contundentes que demuestren un comportamiento fraudulento «más allá de toda duda razonable», pero esto tiene un precio elevado, ya que se requiere mucho esfuerzo y tiempo para obtener la prueba definitiva. Los estafadores intentarán constantemente encontrar formas de burlar el sistema para recibir beneficios de WC no autorizados. Una vez que se encuentran en condiciones de recibir beneficios, es probable que intenten prolongar indebidamente el período compensado por WC. Por tanto, los avances en la tecnología analítica seguirán desempeñando un papel fundamental en la lucha contra el fraude.

El conjunto de datos consta de 9. 572 reclamaciones de seguros de WC en el mundo real de 2011 a 2015, con 23 atributos de predicción y una variable de respuesta binaria que indica si una reclamación es fraudulenta o no. Por razones de confidencialidad, solo se discuten tres atributos que cabría esperar encontrar en un conjunto de datos dada la naturaleza del seguro, es decir, el tipo de lesión que sufrió el reclamante por el accidente de trabajo (X1), el sector industrial del asegurado (X2) y la duración de la incapacidad registrada en el sistema de WC (X3). Los dos primeros son atributos nominales, donde X1 tiene valores como fractura, conmoción cerebral, etc., y X2 muestra valores como construcción, fabricación, etc. El último atributo, X3, es una medida numérica para el período de tiempo por el que el reclamante está declarado incapacitado para reanudar el trabajo (es decir, el tiempo estimado necesario para recuperarse de la lesión registrada en el sistema de WC). Este es el período de tiempo en el que el reclamante recibe los beneficios de WC.

Las conversaciones con la SIU revelaron que, por su naturaleza, es complejo probar que una reclamación de WC es fraudulenta. Se requieren pruebas definitivas para procesar al defraudador en procedimientos judiciales que se alargan. Por lo tanto, solo en unos pocos casos la SIU puede estar absolutamente segura de que una reclamación es fraudulenta. Por supuesto, la compañía de seguros está muy interesada en detectar y prevenir el fraude lo antes posible. Por este motivo, la SIU ha asignado una etiqueta de fraude a las reclamaciones con una alta sospecha de fraude. Sin embargo, la variable objetivo Y sigue estando muy desequilibrada. Además de esto, la gran cantidad de reclamaciones presentadas en un período de tiempo determinado hace que sea muy difícil para la SIU verificar cada reclamación. Es posible estar bastante seguro de que la asignación de etiquetas de fraude es casi perfecta, pero esto no es necesariamente cierto para la asignación de etiquetas de no fraude. En otras palabras, es posible que haya una serie de reclamaciones en las que los estafadores lograron pasar desapercibidos y, por lo tanto, se asignan etiquetas incorrectas a esas reclamaciones. Nos referimos a esta situación como «ruido en las etiquetas de fraude», que también se puede observar en otras líneas de seguros.

A continuación, se detallan los pasos de selección, partición y detección de anomalías del enfoque iForestCAD propuesto para motivar las elecciones realizadas bajo la guía del conocimiento experto. El conocimiento acumulado de los investigadores privados (IP) sugiere persistentemente que el tiempo de recuperación (es decir, X3) es a menudo un buen indicador de comportamiento sospechoso, en combinación con otra información. En particular, se cree que las personas que trabajan en algunos sectores son más propensas a cometer fraudes que en otros, así como que los defraudadores prolongan indebidamente el período de recuperación en el que reciben beneficios de WC. Por tanto, la tarea asignada al sistema según la presente invención es la siguiente:identificar las reclamaciones de WC que presentan un tiempo de recuperación anormal dado el tipo de lesión y el sector en el que el reclamante desempeña sus funciones laborales. Esta tarea se puede dividir en varias subtareas:

- Determinar si un tiempo de recuperación dado es anómalo sin necesidad de juicio humano.

- Por lo tanto, se tiene en cuenta el tipo de lesión, ya que algunas lesiones requieren un tiempo de recuperación más largo que otras.

- Ajustar la prevalencia del tipo de lesión en los distintos sectores.

La presente invención permite cumplir con éxito esta tarea. Más específicamente, los pasos posteriores del enfoque iForestCAD se llevan a cabo con Snom = {1, 2} y Snum = {3} para realizar la detección de anomalías condicional. De esta manera, se determina, a partir de los datos, si una reclamación posee una duración anómala de incapacidad dados sus grupos de referencia (por ejemplo, todos los reclamantes que informaron de una fractura y que trabajan en la construcción). Téngase en cuenta que, bajo la guía del conocimiento experto, los valores de los atributos nominales, X1 y X2, se reagrupan, de modo que el número de instancias en cada combinación distinta es aproximadamente igual al tamaño de la submuestra, es decir, |Dk| “ Y para todo k en K, con y = 256.

Hay dos formas sencillas de incorporar las puntuaciones de anomalías en la detección de fraudes. La primera forma implica la eliminación de los atributos seleccionados y la adición de las puntuaciones de anomalía. La segunda forma es aumentar el conjunto de datos con las puntuaciones de anomalías sin eliminar ningún atributo. Se examinaron ambas opciones y no se encontraron diferencias considerables en el rendimiento de detección medido en términos del área bajo la curva ROC (AUC). Por lo tanto, como primera opción, se opta por incorporar el enfoque iForestCAD, ya que mostró una mayor apreciación entre los IP y parece permitir una comunicación más fácil. Esto se debe principalmente al beneficio de reducción de dimensionalidad, que requiere explicar un menor número de atributos a los IP. Además, lo importante desde un punto de vista práctico es que la reducción de dimensionalidad acelera el tiempo de entrenamiento de todos los modelos de clasificación.

En este ejemplo, también consideramos los siguientes métodos de clasificación binaria comunes: regresión logística, árbol de decisión (CART), bosque aleatorio, SVM con kernel lineal y SVM con kernel de función de base radial (RBF). Las preparaciones de datos se adaptan al clasificador específico. Es decir, los atributos se procesan adecuadamente para los métodos de aprendizaje automático como SVM, que requieren una entrada estandarizada (es decir, atributos con media cero y varianza unitaria). Se asignan pesos inversamente proporcionales a las frecuencias de clase en los datos de entrada para abordar el problema de desequilibrio de clases, ya que se puede activar para cada clasificador. El rendimiento de la detección se mide mediante el AUC resultante del procedimiento de validación cruzada (CV) estratificado de 10 iteraciones. Nos aseguramos de que los rendimientos se evalúen en las mismas muestras exactas para todos los modelos de clasificación. Para clasificadores como los SVM que requieren ajuste de hiperparámetros, se aplica el procedimiento de CV estratificado de 10 iteraciones en combinación con la búsqueda de cuadrícula para encontrar los valores óptimos de hiperparámetros, de acuerdo con el criterio del AUC.

De los 20 valores del AUC, 16 están en el nivel del 80 % o más (véase tabla a continuación).

O Sin puntuaciones de anomalía iForestCAD Q Con puntuaciones de anomalía IForestCAD

C la s if ic a d o r S in p e so s C on pesos S in pesos Con pesos

^Logística0.8766 (0.0675) 0.8612 (0.0698) 0.8068 (0.0597) 0.8030 (0.0571)

^CART0.7569 (0.1227) 0.8019 (0.1076) 0.7237 (0.0699) 0.6305 (0.12S5)

^{Bosque a lea torio}0.8705 (0.0695) ^0.8725(Ü.G5G4) 0.8027 (0.0640) 0.8100 (0.0475)

^{SVM lineal 0.8772}(0.0674) 0.8584 (0.07061 0.8075 (0.0575) 0.8038 (0.0572)

^{SVM RBF}0.8375 (0.0689) 0.8721 (0.0611) 0.7798 (0.0522) _0.8174(0.05261

Se utilizan dos conjuntos de atributos para entrenar a los clasificadores:(1) (en círculo) corresponde al conjunto en el que no se realiza ninguna transformación de atributo de acuerdo con el enfoque iForetCAD propuesto, mientras que (2) (en círculo) corresponde al conjunto en el que se realiza. La ponderación se utiliza para hacer frente al problema del desequilibrio de clases, donde las ponderaciones son inversamente proporcionales a las frecuencias de clase en los datos de entrada. Un número en negrita (cursiva) indica el mejor (segundo mejor) desempeño dentro de una condición.

Existe una tendencia a que los modelos de caja negra (es decir, bosque aleatorio, SVM lineal y SVM RBF) posean un mayor poder predictivo, sin embargo, la diferencia con el modelo logístico de caja blanca es marginal en cada condición. Para el conjunto de datos de fraude dado, no hay una indicación clara de que la aplicación de la ponderación ayude a hacer frente al desequilibrio de clases. La mayor mejora en el rendimiento del AUC al aplicar la ponderación se observa para el RBF SVM, pero las diferencias en las medias están dentro de una desviación estándar. Un patrón claro surge cuando los clasificadores se entrenan con diferentes conjuntos de atributos (marcados como (1) y (2) en la tabla anterior), donde la diferencia entre el conjunto de atributos (1) y (2) es que este último contiene el atributo de puntuación de anomalía condicional producido de acuerdo con el enfoque iForestCAD propuesto. Cuando se entrena con el conjunto (1), el rendimiento del AUC es mayor dentro de los clasificadores en comparación con cuando se entrena con el conjunto de atributos (2). Para este último, el atributo métrico que contiene las puntuaciones de anomalía de iForestCAD se identifica como el que tiene el poder discriminativo más alto de acuerdo con todos los clasificadores que proporcionan inherentemente una indicación de la importancia de la variable.

Los valores del AUC presentados en la tabla anterior son relativamente altos para la mayoría de los clasificadores, lo que indica un buen rendimiento de detección de reclamaciones de WC fraudulentas. Sin embargo, el mero desempeño del AUC no debería ser el único criterio de evaluación para evaluar el enfoque de detección del fraude. Otros criterios de evaluación son, por ejemplo, la facilidad de interpretación y la aceptación del enfoque de modelado por parte de las partes interesadas. Estos criterios son menos sencillos de cuantificar numéricamente.

La estrecha colaboración con la SIU de la aseguradora mostró que el enfoque iForestCAD propuesto encuentra una mayor apreciación entre los IP. Esto se debe principalmente a la idea central de detectar comportamientos anómalos dentro de grupos de referencia que sean significativos e interesantes para ellos. El enfoque iForestCAD fue finalmente validado en un entorno práctico mediante el uso del clasificador elegido para predecir reclamaciones de WC fraudulentas. Las predicciones, a su vez, fueron evaluadas por los IP para evaluar la calidad de las pistas sobre fraude. No se puede revelar información detallada sobre el desempeño exacto, pero se identificó una gran proporción de reclamaciones sospechosas no identificadas previamente. Además, el resultado del estudio confirmó que las etiquetas de fraude son realmente ruidosas (como se menciona en la subsección sobre los datos de reclamaciones del seguro de compensación para trabajadores). Es decir, algunas reclamaciones de WC lograron pasar desapercibidas y, por lo tanto, se les asignó la etiqueta incorrecta de no fraude.

Para volver a relacionarnos con los resultados de la tabla anterior, es probable que una explicación del menor rendimiento del AUC del enfoque iForestCAD propuesto se deba a la diferente clasificación.

Téngase en cuenta que la interpretación estadística del AUC es la siguiente:«el AUC de un clasificador es equivalente a la probabilidad de que el clasificador clasifique una instancia positiva elegida al azar como más alta que una instancia negativa elegida al azar». En este ejemplo, una instancia positiva es una reclamación de WC con una etiqueta de fraude. La piedra angular del enfoque iForestCAD es la creación de un nuevo atributo que asigna puntuaciones de anomalía más granulares a las instancias, lo que en consecuencia afecta a los mecanismos de construcción internos de los clasificadores. Como se demostró en el Ejemplo 4, las observaciones marcadas como anomalías ocultas tienen puntuaciones de anomalía muy diferentes. Cuando se toman las puntuaciones de anomalía de iForestCAD como entrada y se tiene en cuenta el ruido en las etiquetas de fraude, es probable que más reclamaciones con una etiqueta de no fraude, pero que son intrínsecamente sospechosas o anómalas, reciban una clasificación más alta por parte del clasificador. Como resultado, el rendimiento de la clasificación recibe un valor del AUC más bajo, ya que, para esas afirmaciones, se asigna actualmente la etiqueta incorrecta. Sin embargo, según lo confirmado por la s Iu , la aplicación práctica de iForestCAD exhibe un alto rendimiento de detección de reclamaciones sospechosas que anteriormente no se detectaban, lo que contribuye a los méritos de la presente invención. Recuérdese que iForest es un algoritmo de detección de anomalías no supervisado, lo que significa que no requiere información de etiqueta para la construcción del modelo. El enfoque de iForestCAD propuesto en este ejemplo tiene, por lo tanto, un componente no supervisado incorporado combinado con potentes técnicas de clasificación supervisada. La combinación de conceptos de aprendizaje supervisados y no supervisados proporciona una explicación de la alta tasa de detección de fraude cuando se puso en práctica el enfoque propuesto.

Example 7: Ejemplo de sistema operativo según la presente invención

Este ejemplo se ilustra en la Figura 5, que ilustra el flujo de trabajo en una realización de ejemplo del sistema operativo según la presente invención, en el que los registros se refieren a reclamaciones de seguros y el criterio relacionado con anomalías se refiere a si una reclamación es fraudulenta. El sistema operativo selecciona aquellos atributos que se requieren para construir las características utilizadas para construir los modelos. A continuación, se realiza el paso de preprocesamiento de datos necesario. Por ejemplo, si una variable de fecha contiene dos formatos diferentes, como «dd/mm/aaaa» y «aaaa-mm-dd», es necesario asegurarse de que el formato sea coherente para todas las observaciones. Posteriormente, los datos se transforman para construir las características necesarias para realizar predicciones. Concretamente, esto implica:

- seleccionar los mismos atributos que en la etapa de selección del sistema según la presente invención;

- determinar las particiones;

- recuperar el correspondiente modelo de detección de anomalías entrenado no supervisado para calcular las puntuaciones de anomalías condicionales;

- como en la fase de entrenamiento del sistema según la presente invención, actualizar los registros eliminando los atributos seleccionados y agregando las puntuaciones de anomalías condicionales como atributo al conjunto de datos.

A continuación, se recupera el modelo de clasificación supervisado entrenado. Finalmente, cada etiqueta entrante, por ejemplo, una reclamación de seguro, se puntúa con la ayuda del modelo de clasificación.

La puntuación de predicción (en este contexto también la puntuación de fraude) es un valor entre cero y uno. Permite clasificar las reclamaciones de seguros según su propensión a ser fraudulentas (según lo estimado por el modelo). Por ejemplo, es más probable que una reclamación de seguros con una puntuación de fraude alta (es decir, cercana a uno) sea fraudulenta que una reclamación con una puntuación de fraude baja (es decir, cercana a cero). De esta manera, las reclamaciones interesantes se pueden «filtrar» de entre típicamente decenas de miles de reclamaciones de seguros, lo que es útil para centrar los esfuerzos de investigación en los casos de fraude y, por lo tanto, aumentar la eficacia de la detección de fraudes.

Claims

REIVINDICACIONES

1. Un sistema de detección de anomalías, comprendiendo dicho sistema

- un módulo de comunicación que tiene acceso a una base de datos que comprende una pluralidad de registros de entidades físicas, comprendiendo cada registro de entidades físicas valores de datos físicos para al menos un atributo numérico (13, 14) y valores de especificación de partición (11, 12) referentes a valores para uno o más atributos nominales;

- un dispositivo informático que comprende un procesador, una memoria no volátil tangible, un código de programa presente en dicha memoria para enseñar a dicho procesador;

donde el módulo de comunicación está dispuesto para proporcionar a dicho dispositivo informático acceso a dicha base de datos,

donde dicho dispositivo informático está configurado para llevar a cabo un procedimiento para calcular una puntuación de anomalías para cada uno de dicha pluralidad de registros de entidades físicas, comprendiendo dicho procedimiento las etapas de:

(a) recuperación de dicha pluralidad de registros de entidades físicas mediante dicho módulo de comunicación y, opcionalmente, preparación de dicha pluralidad de registros de entidades físicas para su partición;

(b) partición de dicha pluralidad de registros de entidades físicas, asociando una partición con cada combinación distinta de los valores de especificación de partición (11, 12) presentes en dicha pluralidad de registros de entidades físicas y agrupando dichos registros de entidades físicas según dichas particiones;

(c) para cada una de dichas particiones obtenidas en la etapa (b), entrenamiento de un algoritmo de detección de anomalías no supervisado sobre los valores de datos físicos de los registros de entidades físicas pertenecientes a dicha partición, para obtener un modelo de detección de anomalías entrenado para cada una de dichas particiones; (d) para cada registro de entidades físicas perteneciente a dicha pluralidad de registros de entidades físicas, cálculo de la puntuación de anomalías (17) por medio del modelo de detección de anomalías entrenado que está asociado con la partición a la que pertenece el registro de entidades físicas;

(e) preferentemente, a través del módulo de comunicación, actualización de cada registro de entidades físicas en la base de datos añadiendo su puntuación de anomalías asociada (17) calculada en la etapa (d) y/o preferentemente, a través del módulo de comunicación, almacenamiento de cada uno de dichos modelos de detección de anomalías entrenados para cada una de dichas particiones en dicha base de datos.

2. El sistema según la reivindicación 1, donde dicho algoritmo de detección de anomalías no supervisado se refiere a un algoritmo de detección de anomalías basado en el aislamiento tal como iForest o SCiForest o iNNE o un algoritmo de detección de anomalías no basado en el aislamiento tal como ORCA o un factor atípico local, preferentemente iForest, y donde dichos valores de especificación de partición (11, 12) se refieren preferentemente a valores para dos atributos nominales.

3. El sistema según cualquiera de las reivindicaciones 1-2, donde dichos valores de datos físicos se refieren a imágenes, y donde dichos valores de especificación de partición (11, 12) se refieren preferentemente a valores para atributos nominales almacenados como metadatos con respecto a dichas imágenes tales como información EXIF, fechas de archivo o nombres de archivo.

4. El sistema según cualquiera de las reivindicaciones 1 a 3, donde dicha pluralidad de registros de entidades físicas se prepara para la partición en la etapa (a), donde dicha preparación comprende actualizar dicha pluralidad de registros de entidades físicas, donde dicha actualización comprende especificar, preferentemente de forma automática, qué atributos nominales deben usarse como valores de especificación de partición (11, 12) desde la etapa (b) en adelante.

5. El sistema según la reivindicación 4, donde dicho módulo de comunicación está configurado para recibir entrada de un usuario; donde dicha actualización como parte de dicha preparación en la etapa (a) comprende recibir dicha entrada de dicho usuario a través de dicho módulo de comunicación; y donde dicha entrada de dicho usuario comprende dicha especificación de los atributos nominales que se utilizarán como valores de especificación de partición (11, 12) desde la etapa (b) en adelante.

6. El sistema según cualquiera de las reivindicaciones 4 a 5, donde dicha actualización de dicha pluralidad de registros de entidades físicas comprende transformar, preferentemente de forma automática, al menos un atributo numérico en un atributo nominal recién creado; donde dicha transformación se refiere a asociar al menos una etiqueta nominal a al menos un intervalo numérico; y donde dicha especificación de qué atributos nominales se van a utilizar como valores de especificación de partición (11, 12) desde la etapa (b) en adelante comprende dicho atributo nominal recién creado.

7. El sistema según cualquiera de las reivindicaciones 1 a 6, donde dicha base de datos comprende datos de entrenamiento relacionados con una pluralidad de registros de entidades físicas relacionados con el entrenamiento comprendidos en dicha pluralidad de registros de entidades físicas; donde dichos datos de entrenamiento comprenden una pluralidad de etiquetas indicativas de si dichos registros de entidades físicas relacionados con el entrenamiento se ciñen a un criterio predefinido de relación con anomalías, como estar relacionados con fraude; y donde dicho dispositivo informático está configurado para realizar las siguientes etapas adicionales (f)-(j) después de la etapa (e):

(f) actualización de cada registro de entidades físicas añadiendo su puntuación de anomalías asociada (17) calculada en la etapa (d);

(g) recuperación de dichos datos de entrenamiento a través de dicho módulo de comunicación;

(h) basado en dichos datos de entrenamiento recibidos en la etapa (g), entrenamiento de un algoritmo de clasificación supervisado en los registros de entidades físicas actualizados obtenidos en la etapa (f), obteniendo un modelo de clasificación supervisado entrenado;

(i) para cada registro de entidades físicas perteneciente a dicha pluralidad de registros de entidades físicas, cálculo de una puntuación de predicción, siendo dicha puntuación de predicción indicativa de la medida en que dicho registro de entidades físicas se ciñe a dicho criterio de relación con anomalías predefinido por medio del modelo de clasificación supervisado entrenado;

(j) preferentemente, a través del módulo de comunicación, actualización de cada registro de entidades físicas en la base de datos añadiendo su puntuación de predicción asociada calculada en la etapa (i) y/o preferentemente, a través del módulo de comunicación, almacenamiento de dicho modelo de clasificación supervisado entrenado en dicha base de datos.

8. El sistema según la reivindicación 7, donde para cada registro de entidades físicas, dicha actualización en la etapa (f) se refiere a reemplazar dichos valores de especificación de partición (11, 12) con dicha puntuación de anomalías (17) asociada con dicho registro de entidades físicas.

9. El sistema según cualquiera de las reivindicaciones 7-8, donde dicho algoritmo de clasificación supervisado entrenado en la etapa (h) y aplicado en la etapa (i) se refiere a la regresión logística o árbol de decisión CART o bosque aleatorio o SVM con kernel lineal o SVM con función de base radial.

10. El sistema según cualquiera de las reivindicaciones 7-9, donde dicho entrenamiento de dicho algoritmo de clasificación supervisado en la etapa (h) comprende dividir dichos registros de entidades físicas relacionados con el entrenamiento y datos de entrenamiento asociados según cualquiera de las siguientes estrategias: retención, validación cruzada de k veces.

11. El sistema según cualquiera de las reivindicaciones 1 a 10, donde el módulo de comunicación está además dispuesto para recibir entrada de un usuario; donde dicho sistema está configurado para llevar a cabo las etapas adicionales de:

(01) recepción de un registro de entidades físicas proporcionado por el usuario de dicho usuario a través de dicho módulo de comunicación, comprendiendo dicho registro de entidades físicas proporcionado por el usuario valores de datos físicos para al menos un atributo numérico (13, 14) y valores de especificación de partición (11, 12) referentes a valores para uno o más atributos nominales;

(02) preparación de dicho registro de entidades físicas proporcionado por el usuario para su puntuación, comprendiendo dicha preparación la selección de uno o más atributos nominales correspondientes a valores de especificación de partición (11, 12);

(03) recuperación del modelo de detección de anomalías entrenado que corresponde a los atributos nominales seleccionados en la etapa (02) de dicha base de datos a través de dicho módulo de comunicación;

(04) cálculo de la puntuación de anomalías (17) de dicho registro de entidades físicas proporcionado por el usuario por medio del modelo de detección de anomalías entrenado recuperado en la etapa (03).

12. El sistema según la reivindicación 11, donde dicha base de datos comprende además al menos un modelo de clasificación supervisado entrenado, donde dicho sistema está configurado para llevar a cabo las etapas adicionales (05) -(07) después de la etapa (04):

(05) actualización de dicho registro de entidades físicas proporcionado por el usuario añadiendo su puntuación de anomalías asociada (17) calculada en la etapa (04);

(06) recuperación del modelo de clasificación supervisado entrenado que corresponde a los atributos nominales seleccionados en la etapa (02) de dicha base de datos a través de dicho módulo de comunicación;

(07) cálculo de la puntuación de predicción de dicho registro de entidades físicas proporcionado por el usuario por medio del modelo de clasificación supervisado entrenado recuperado en la etapa (06).

13. El sistema según las reivindicaciones 11 o 12, donde dicho módulo de comunicación está además dispuesto para generar una alerta para un operador, preferentemente una alerta visual o acústica, y donde dicho sistema está además configurado para comparar la puntuación de anomalías (17) calculada en la etapa (04) o la puntuación de predicción calculada en la etapa (07) con un valor de alerta predefinido, donde dicha alerta para el operador se genera cuando dicha comparación arroja que el valor de alerta predefinido coincide o se supera.

14. Un procedimiento implementado por ordenador para detectar anomalías con respecto a una pluralidad de registros de entidades físicas, comprendiendo cada registro de entidades físicas valores de datos físicos para al menos un atributo numérico (13, 14) y valores de especificación de partición (11, 12) referentes a valores para uno o más atributos nominales; comprendiendo dicho procedimiento las etapas de:

- obtención de dicha pluralidad de registros de entidades físicas a partir de una base de datos y, opcionalmente, preparación de dicha pluralidad de registros de entidades físicas para su partición;

- partición de dicha pluralidad de registros de entidades físicas, asociando una partición con cada combinación distinta de los valores de especificación de partición (11, 12) presentes en dicha pluralidad de registros de entidades físicas y agrupando dichos registros de entidades físicas según dichas particiones;

- para cada una de dichas particiones obtenidas en dicha etapa de partición, entrenamiento de un algoritmo de detección de anomalías no supervisado sobre los valores de datos físicos de los registros de entidades físicas pertenecientes a dicha partición, obteniendo un modelo de detección de anomalías entrenado para cada una de dichas particiones;

- para cada registro de entidades físicas perteneciente a dicha pluralidad de registros de entidades físicas, cálculo de la puntuación de anomalías (17) por medio del modelo de detección de anomalías entrenado que está asociado con la partición a la que pertenece el registro de entidades físicas;

- preferentemente, actualización de cada registro de entidades físicas sumando su puntuación de anomalías asociada (17) calculada en dicha etapa de cálculo y/o preferentemente, almacenamiento de cada uno de dichos modelos de detección de anomalías entrenados para cada una de dichas particiones en dicha base de datos.