ES2896124T3

ES2896124T3 - Detección de infracción de cumplimiento

Info

Publication number: ES2896124T3
Application number: ES17743444T
Authority: ES
Inventors: Michael Aksionkin; Boris Asipov; Saikat Guha; Leena Jain Sheth; Rithesh Baradi; Alisson Sol
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-07-20
Filing date: 2017-07-13
Publication date: 2022-02-24
Anticipated expiration: 2037-07-13
Also published as: EP3488586A1; US20180025011A1; US11755529B2; WO2018017377A1; US11042506B2; EP3488586B1; CN109479061B; US20210271633A1; CN109479061A

Abstract

Un método (500) caracterizado por: evaluar (504) datos de red para generar una o más agrupaciones para los datos de red, comprendiendo cada agrupación uno o más archivos de datos de red relacionados, en base a un tipo de archivo de datos de red; aplicar (506) reglas de identificación de datos para identificar un esquema de datos en uno o más archivos en una agrupación respectiva; determinar (508) una o más reglas de política que se aplican al uno o más archivos asociados con el esquema de datos; escanear (510) una porción de un archivo asociado con el esquema de datos para determinar el cumplimiento de una o más reglas de política; y generar (512), para el archivo escaneado, un informe de cumplimiento con una o más reglas de política.

Description

DESCRIPCIÓN

Detección de infracción de cumplimiento

Antecedentes

Los datos dentro de las grandes organizaciones pueden almacenarse en múltiples servicios, en múltiples geografías y sujetos a múltiples regulaciones. La mayoría de las tecnologías para el almacenamiento de datos garantizan la integridad, protegen contra el acceso no autorizado, pero no hacen cumplir las regulaciones legales o las reglas comerciales. Existen reglas comerciales que impiden el flujo de datos a través de ciertos límites, como las regulaciones de la Unión Europea que prohíben la copia de "datos personales" más allá de ciertos límites. También existen leyes y reglas comerciales para los datos en reposo, por ejemplo, requisitos para eliminar los datos personales que identifican a los usuarios conectados a un servicio en línea después de un período de tiempo (por ejemplo, 18 meses). Sin embargo, es poco común encontrar almacenes de datos que identifiquen automáticamente posibles infracciones de políticas y hagan cumplir los datos de vencimiento (basados en reglas comerciales flexibles). Además, es difícil auditar grandes almacenes de datos que pueden almacenar varios tipos de información que pueden estar sujetos a diferentes políticas para verificar el cumplimiento de dichas políticas.

Como tal, los ejemplos de la presente solicitud están dirigidos al entorno técnico general relacionado con la detección y gestión de infracciones de cumplimiento relacionadas con datos que se almacenan o se procesan en tiempo real, entre otros ejemplos.

El documento US 7996373 B1 divulga un método y un aparato para escanear datos estructurados de un repositorio de datos que tiene un esquema de datos arbitrario y para aplicar una política a los datos del repositorio de datos. Sumario

Según aspectos de la presente invención, se proporciona un sistema y un método, como se define en las reivindicaciones adjuntas.

Breve descripción de los dibujos

Se describen ejemplos no limitativos y no exhaustivos con referencia a las siguientes figuras.

La figura 1 es un diagrama de bloques que ilustra un ejemplo de un dispositivo informático con el que se pueden practicar aspectos de la presente divulgación.

Las figuras 2A y 2B son diagramas de bloques simplificados de un dispositivo informático móvil con el que se pueden practicar aspectos de la presente divulgación.

La figura 3 es un diagrama de bloques simplificado de un sistema informático distribuido en el que se pueden practicar aspectos de la presente divulgación.

La figura 4 es un flujo de proceso ejemplar relacionado con la detección de infracciones de cumplimiento en almacenes de datos cuyos aspectos de la presente divulgación se pueden practicar.

La figura 5 es un método ejemplar relacionado con la detección de infracciones de cumplimiento con las que se pueden practicar aspectos de la presente divulgación.

La figura 6 ilustra un sistema ejemplar implementable en uno o más dispositivos informáticos en los que se pueden practicar aspectos de la presente divulgación.

Descripción detallada

Los ejemplos en el presente documento describen el escaneo de datos para verificar el cumplimiento de las reglas de política. Una regla de política puede ser cualquier tipo de regla que pueda aplicarse a los datos y/o al contenido de un archivo de datos. Las reglas de política pueden comprender, entre otras: reglas comerciales, reglas de privacidad, reglas de regulación gubernamental y reglas legales, entre otros ejemplos. Como se identificó anteriormente, es poco común encontrar un almacén de datos que identifique automáticamente posibles infracciones de políticas y haga cumplir los datos de vencimiento (según las reglas comerciales flexibles). Además, es difícil auditar grandes almacenes de datos que pueden almacenar varios tipos de información que pueden estar sujetos a diferentes políticas para verificar el cumplimiento de dichas políticas. Los ejemplos en el presente documento escanean de manera eficiente los datos de la red para identificar infracciones de cumplimiento dentro de los datos de la red. Se pueden descubrir de forma recursiva datos de red ejemplares. Los datos de red pueden comprender cualquiera de: datos almacenados en uno o más almacenes de datos de una red distribuida, datos recibidos en un cortafuegos, datos almacenados en un dispositivo informático cliente y datos de una aplicación que se ejecuta en el dispositivo informático cliente. Los datos de la red se evalúan para generar una o más agrupaciones según el tipo de archivo de los datos de la red. Para mejorar la eficiencia en el escaneo de datos de la red (por ejemplo, minimizar la cantidad de datos que se leen durante el escaneo), los datos de la red pueden agruparse para identificar datos que incluyen contenido similar. En un ejemplo, los datos se pueden agrupar según el tipo de archivo. Por ejemplo, se puede usar una convención de nomenclatura de un archivo o el formato de archivo para agrupar archivos.

Además de agrupar datos similares, la eficiencia en el escaneo de datos se puede mejorar aún más identificando, antes de escanear para verificar el cumplimiento, los esquemas de datos de datos de red específicos. Un esquema de datos como se define en el presente documento puede relacionarse con una definición de una estructura dentro de un archivo de datos de red. Un archivo puede comprender una pluralidad de esquemas de datos. La identificación de esquemas de datos dentro de un archivo (de datos de red) ayuda a identificar mejor los tipos de datos dentro de un archivo para determinar de manera más eficiente y precisa las reglas de política aplicables. Considere un ejemplo donde se almacena un archivo de hoja de cálculo donde el archivo de hoja de cálculo incluye una pluralidad de columnas y filas de información. Un esquema de datos ejemplar puede ser una porción del archivo (por ejemplo, columna 1 /fila 1 de la hoja de cálculo) que almacena un primer tipo de datos (por ejemplo, un nombre). Esa misma hoja de cálculo puede incluir otro esquema de datos (por ejemplo, columna 2/fila 2) que almacena un segundo tipo de datos (por ejemplo, una dirección de Protocolo de Internet (IP)). Continuando con este ejemplo, la hoja de cálculo puede incluir otro esquema de datos (por ejemplo, columna 3/fila 3) que almacena un objeto de lenguaje de marcado como un objeto de notación de objetos JavaScript (JSON). En tal caso, el objeto JSON puede estar anidado y comprender varios campos o propiedades. Tal información puede identificarse mediante un esquema de datos ejemplar. Los ejemplos descritos en el presente documento aplican operaciones de procesamiento que identifican diferentes esquemas de datos de datos de archivo (por ejemplo, una muestra de columnas) para que se pueda tomar una determinación en cuanto a las reglas de política que se aplican a esquemas de datos específicos. A continuación, se pueden aplicar operaciones de procesamiento para verificar un tipo de datos derivado (de los esquemas de datos). En los ejemplos, los patrones relacionados con los esquemas de datos (y el contenido dentro de los esquemas de datos) se pueden analizar para confirmar los esquemas de datos dentro de un archivo. Las soluciones alternativas pueden depender de los metadatos de un archivo para la identificación de datos. Sin embargo, confiar solo en los metadatos para la identificación de datos de archivos puede generar muchos falsos positivos cuando se trata de la identificación de datos, ya que los metadatos cambian continuamente. En última instancia, esto puede conducir a una menor eficiencia durante el escaneo y una menor precisión en la identificación de cumplimiento, entre otros ejemplos. Como tal, es beneficioso validar los esquemas de datos dentro de un archivo antes de ejecutar operaciones de escaneo. Una vez que se agrupan los datos de la red y se validan los esquemas de datos de datos de red específicos, se pueden aplicar más operaciones de procesamiento para determinar las reglas de política que son aplicables a los esquemas de datos específicos dentro de un archivo.

Además de las prácticas ejemplares para la agrupación de datos de la red y la identificación de esquemas de datos específicos dentro de un archivo, el escaneo de los datos del archivo se puede optimizar cuando se intenta determinar el cumplimiento de reglas políticas ejemplares. Los ejemplos descritos en el presente documento optimizan el escaneo minimizando la cantidad de datos que se leen durante un escaneo. No es necesario analizar todos los archivos de datos de la red (o incluso todos los archivos de un grupo) para identificar patrones de infracciones de cumplimiento. Al agrupar archivos, se pueden escanear muestras de datos de archivos de una agrupación. En un ejemplo, se puede escanear un archivo más reciente de los datos de archivo de una agrupación para determinar el cumplimiento de las reglas de política. En otros ejemplos, se puede escanear al menos otro archivo de la agrupación, por ejemplo, un archivo que tiene una fecha que excede un período de tiempo de una política de retención de una regla de política. En algunos ejemplos, es posible que el escaneo solo tenga que escanear una porción de un archivo que se corresponda con una posición de un esquema de datos al que se aplica una regla de política. Como tal, se puede escanear una pequeña cantidad de archivos (o porciones del archivo) para identificar infracciones de cumplimiento. Los archivos posteriores se pueden analizar si se identifican problemas de cumplimiento en una muestra de archivos que se analizan. Sin embargo, un experto en la técnica que comprenda la presente divulgación debería reconocer que el muestreo de archivos, patrones para escanear (incluida la habilitación de escaneos completos de datos de red) pueden variar según los desarrolladores y/o usuarios de un servicio de escaneo.

En consecuencia, la presente divulgación proporciona una pluralidad de ventajas técnicas que incluyen, entre otras: organización mejorada y agrupación de datos de red para la identificación de cumplimiento de políticas, coincidencia de patrones para validar esquemas de datos dentro de datos de red específicos, sistemas y métodos mejorados para escanear datos de red para cumplimiento con las reglas de política, operación más eficiente de los dispositivos de procesamiento (por ejemplo, ahorro de ciclos de computación/recursos informáticos) durante el escaneo de datos de red para cumplir con las reglas de política, capacidad de muestrear datos de red al ejecutar operaciones de escaneo y extensibilidad para integrar el servicio de escaneo a través de componentes de un sistema distribuido, así como a nivel de dispositivo o de aplicación, entre otros ejemplos.

Las figuras 1-3 y las descripciones asociadas proporcionan una discusión de una variedad de entornos operativos en los que se pueden practicar ejemplos de la invención. Sin embargo, los dispositivos y sistemas ilustrados y discutidos con respecto a las figuras 1-3 son a modo de ejemplo e ilustración y no limitan un gran número de configuraciones de dispositivos informáticos que pueden utilizarse para poner en práctica ejemplos de la invención, descrita en el presente documento.

La figura 1 es un diagrama de bloques que ilustra los componentes físicos de un dispositivo informático 102, por ejemplo, un dispositivo de procesamiento móvil, con el que se pueden practicar ejemplos de la presente divulgación. Por ejemplo, el dispositivo informático 102 puede ser un dispositivo informático ejemplar configurado para implementar operaciones para el escaneo de cumplimiento como se describe en los ejemplos del presente documento. En una configuración básica, el dispositivo 102 informático puede incluir al menos una unidad de procesamiento 104 y una memoria del sistema 106. Dependiendo de la configuración y el tipo de dispositivo informático, la memoria del sistema 106 puede comprender, pero no se limita a, almacenamiento volátil (por ejemplo, memoria de acceso aleatorio), almacenamiento no volátil (por ejemplo, memoria de solo lectura), memoria flash o cualquier combinación de esos recuerdos. La memoria del sistema 106 puede incluir un sistema operativo 107 y uno o más módulos de programa 108 adecuados para ejecutar programas/módulos de software 120 tales como el administrador de E/S 124, otra utilidad 126 y la aplicación 128. Como ejemplos, la memoria del sistema 106 puede almacenar instrucciones para su ejecución. Otros ejemplos de memoria del sistema 106 pueden almacenar datos asociados con aplicaciones. El sistema operativo 107, por ejemplo, puede ser adecuado para controlar el funcionamiento del dispositivo informático 102. Además, los ejemplos de la invención se pueden poner en práctica junto con una biblioteca de gráficos, otros sistemas operativos o cualquier otro programa de aplicación y no se limita a ninguna aplicación o sistema particular. Esta configuración básica se ilustra en la figura 1 por aquellos componentes dentro de una línea discontinua 122. El dispositivo informático 102 puede tener características o funciones adicionales. Por ejemplo, el dispositivo informático 102 también puede incluir dispositivos de almacenamiento de datos adicionales (extraíbles y/o no extraíbles) como, por ejemplo, discos magnéticos, discos ópticos o cinta. Dicho almacenamiento adicional se ilustra en la figura 1 mediante un dispositivo de almacenamiento extraíble 109 y un dispositivo de almacenamiento no extraíble 110.

Como se indicó anteriormente, varios módulos de programa y archivos de datos pueden almacenarse en la memoria del sistema 106. Mientras se ejecutan en la unidad de procesamiento 104, los módulos de programa 108 (por ejemplo, el administrador de entrada/salida (E/S) 124, otra utilidad 126 y la aplicación 128) pueden realizar procesos que incluyen, entre otros, una o más de las etapas de las operaciones descritas a lo largo de esta divulgación. Otros módulos de programa que pueden usarse de acuerdo con ejemplos de la presente invención pueden incluir aplicaciones de contactos y correo electrónico, aplicaciones de procesamiento de textos, aplicaciones de hojas de cálculo, aplicaciones de bases de datos, aplicaciones de presentación de diapositivas, programas de aplicación de dibujo o asistidos por ordenador, aplicaciones de edición de fotografías, aplicaciones de autoría, etc.

Además, se pueden practicar ejemplos de la invención en un circuito eléctrico que comprende elementos electrónicos discretos, chips electrónicos empaquetados o integrados que contienen puertas lógicas, un circuito que utiliza un microprocesador o en un solo chip que contiene elementos electrónicos o microprocesadores. Por ejemplo, los ejemplos de la invención se pueden poner en práctica mediante un sistema en un chip (SOC) en el que todos o muchos de los componentes ilustrados en la figura 1 puede integrarse en un solo circuito integrado. Tal dispositivo SOC puede incluir una o más unidades de procesamiento, unidades gráficas, unidades de comunicaciones, unidades de virtualización del sistema y diversas funcionalidades de aplicación, todas las cuales están integradas (o "quemadas") en el sustrato del chip como un solo circuito integrado. Cuando se opera a través de un SOC, la funcionalidad descrita en el presente documento se puede operar a través de la lógica específica de la aplicación integrada con otros componentes del dispositivo informático 102 en el circuito integrado único (chip). Los ejemplos de la presente divulgación también se pueden poner en práctica usando otras tecnologías capaces de realizar operaciones lógicas tales como, por ejemplo, Y, O y NO, que incluyen, pero no se limitan a tecnologías mecánicas, ópticas, fluídicas y cuánticas. Además, los ejemplos de la invención se pueden poner en práctica dentro de un ordenador de propósito general o en cualquier otro circuito o sistema.

El dispositivo informático 102 también puede tener uno o más dispositivos de entrada 112 tales como un teclado, un ratón, un lápiz, un dispositivo de entrada de sonido, un dispositivo para entrada/reconocimiento de voz, un dispositivo de entrada táctil, etc. El dispositivo(s) de salida 114 como una pantalla, altavoces, una impresora, etc. también pueden incluirse. Los dispositivos mencionados anteriormente son ejemplos y se pueden usar otros. El dispositivo informático 102 puede incluir una o más conexiones de comunicación 116 que permiten las comunicaciones con otros dispositivos informáticos 118. Los ejemplos de conexiones de comunicación adecuadas 116 incluyen, pero no se limitan a, circuitos de transmisor, receptor y/o transceptor de RF; bus serie universal (USB), paralelo y/o puertos en serie.

El término medio legible por ordenador, tal como se utiliza aquí, puede incluir medios de almacenamiento informático. Los medios de almacenamiento informático pueden incluir medios volátiles y no volátiles, extraíbles y no extraíbles implementados en cualquier método o tecnología para el almacenamiento de información, como instrucciones legibles por ordenador, estructuras de datos o módulos de programa. La memoria del sistema 106, el dispositivo de almacenamiento extraíble 109 y el dispositivo de almacenamiento no extraíble 110 son todos ejemplos de medios de almacenamiento de ordenador (es decir, almacenamiento de memoria). Los medios de almacenamiento de ordenador pueden incluir RAM, ROM, memoria de solo lectura borrable eléctricamente (EEPROM), memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento óptico, casetes magnéticos, cinta magnética, almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro artículo de fabricación que se pueda utilizar para almacenar información y al que se pueda acceder mediante el dispositivo informático 102. Cualquiera de dichos medios de almacenamiento informático puede formar parte del dispositivo informático 102. Los medios de almacenamiento informáticos no incluyen una onda portadora u otra señal de datos propagada o modulada.

Los medios de comunicación pueden estar incorporados por instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada, como una onda portadora u otro mecanismo de transporte, e incluye cualquier medio de entrega de información. El término "señal de datos modulados" puede describir una señal que tiene una o más características establecidas o cambiadas de tal manera que codifique información en la señal. A modo de ejemplo, y no de limitación, los medios de comunicación pueden incluir medios alámbricos tales como una red alámbrica o una conexión alámbrica directa, y medios inalámbricos tales como medios acústicos, de radiofrecuencia (RF), infrarrojos y otros medios inalámbricos.

Las figuras 2A y 2B ilustran un dispositivo informático móvil 200, por ejemplo, un teléfono móvil, un teléfono inteligente, un asistente de datos personales, una tableta, un ordenador personal, un phablet, una pizarra, un ordenador portátil y similares, con los cuales se pueden practicar ejemplos de la invención. El dispositivo informático móvil 200 puede ser un dispositivo informático ejemplar configurado para implementar operaciones para el escaneo de cumplimiento como se describe en los ejemplos del presente documento. Con referencia a la figura 2A, se ilustra un ejemplo de un dispositivo informático móvil 200 para implementar los ejemplos. En una configuración básica, el dispositivo informático móvil 200 es un ordenador de mano que tiene tanto elementos de entrada como de salida. El dispositivo informático móvil 200 incluye típicamente una pantalla 205 y uno o más botones de entrada 210 que permiten al usuario introducir información en el dispositivo informático móvil 200. La pantalla 205 del dispositivo informático móvil 200 también puede funcionar como un dispositivo de entrada (por ejemplo, una pantalla táctil). Si se incluye, un elemento de entrada lateral opcional 215 permite una entrada adicional del usuario. El elemento de entrada lateral 215 puede ser un conmutador giratorio, un botón o cualquier otro tipo de elemento de entrada manual. En ejemplos alternativos, el dispositivo informático móvil 200 puede incorporar más o menos elementos de entrada. Por ejemplo, la pantalla 205 puede no ser una pantalla táctil en algunos ejemplos. En otro ejemplo alternativo más, el dispositivo informático móvil 200 es un sistema telefónico portátil, tal como un teléfono celular. El dispositivo informático móvil 200 también puede incluir un teclado 235 opcional. El teclado 235 opcional puede ser un teclado físico o un teclado "suave" generado en la pantalla táctil o cualquier otro panel de entrada suave (SIP). En varios ejemplos, los elementos de salida incluyen la pantalla 205 para mostrar una GUI, un indicador visual 220 (por ejemplo, un diodo emisor de luz) y/o un transductor de audio 225 (por ejemplo, un altavoz). En algunos ejemplos, el dispositivo informático móvil 200 incorpora un transductor de vibración para proporcionar al usuario retroalimentación táctil. En otro ejemplo más, el dispositivo informático móvil 200 incorpora puertos de entrada y/o salida, tales como una entrada de audio (por ejemplo, un conector de micrófono), una salida de audio (por ejemplo, un conector de auriculares) y una salida de video (por ejemplo, un Puerto HDMI) para enviar o recibir señales de un dispositivo externo.

La figura 2B es un diagrama de bloques que ilustra la arquitectura de un ejemplo de un dispositivo informático móvil. Es decir, el dispositivo informático móvil 200 puede incorporar un sistema (es decir, una arquitectura) 202 para implementar algunos ejemplos. En un ejemplo, el sistema 202 se implementa como un "teléfono inteligente" capaz de ejecutar una o más aplicaciones (por ejemplo, navegador, correo electrónico, calendario, administradores de contactos, clientes de mensajería, juegos y clientes/reproductores multimedia). En algunos ejemplos, el sistema 202 está integrado como un dispositivo informático, como un asistente digital personal integrado (PDA), tableta y teléfono inalámbrico.

Uno o más programas de aplicación 266 pueden cargarse en la memoria 262 y ejecutarse en el sistema operativo 264 o en asociación con él. Ejemplos de programas de aplicación incluyen programas de marcación telefónica, programas de correo electrónico, programas de gestión de información personal (PIM), programas de procesamiento de textos, programas de hojas de cálculo, programas de navegador de Internet, programas de mensajería, etc. El sistema 202 también incluye un área 268 de almacenamiento no volátil dentro de la memoria 262. El área de almacenamiento no volátil 268 puede usarse para almacenar información persistente que no debería perderse si el sistema 202 está apagado. Los programas de aplicación 266 pueden usar y almacenar información en el área de almacenamiento no volátil 268, tal como correo electrónico u otros mensajes usados por una aplicación de correo electrónico y similares. Una aplicación de sincronización (no mostrada) también reside en el sistema 202 y está programada para interactuar con una aplicación de sincronización correspondiente residente en un ordenador central para mantener la información almacenada en el área de almacenamiento no volátil 268 sincronizada con la información correspondiente almacenada en el ordenador central. Como debe apreciarse, otras aplicaciones pueden cargarse en la memoria 262 y ejecutarse en el dispositivo informático móvil 200 descrito en el presente documento.

El sistema 202 tiene una fuente de alimentación 270, que puede implementarse como una o más baterías. La fuente de alimentación 270 podría incluir además una fuente de alimentación externa, como un adaptador de CA o una base de acoplamiento con alimentación que complementa o recarga las baterías.

El sistema 202 puede incluir un puerto de dispositivo periférico 230 que realiza la función de facilitar la conectividad entre el sistema 202 y uno o más dispositivos periféricos. Las transmisiones hacia y desde el puerto del dispositivo periférico 230 se realizan bajo el control del sistema operativo (OS) 264. En otras palabras, las comunicaciones recibidas por el puerto del dispositivo periférico 230 se pueden difundir a los programas de aplicación 266 a través del sistema operativo 264, y viceversa.

El sistema 202 también puede incluir una capa de interfaz de radio 272 que realiza la función de transmitir y recibir comunicaciones de radiofrecuencia. La capa de interfaz de radio 272 facilita la conectividad inalámbrica entre el sistema 202 y el "mundo exterior", a través de un operador de comunicaciones o proveedor de servicios. Las transmisiones hacia y desde la capa de interfaz de radio 272 se realizan bajo el control del sistema operativo 264. En otras palabras, las comunicaciones recibidas por la capa de interfaz de radio 272 pueden difundirse a los programas de aplicación 266 a través del sistema operativo 264, y viceversa.

El indicador visual 220 puede usarse para proporcionar notificaciones visuales, y/o puede usarse una interfaz de audio 274 para producir notificaciones audibles a través del transductor de audio 225 (por ejemplo, identificado en la figura 2A). En el ejemplo ilustrado, el indicador visual 220 es un diodo emisor de luz (LED) y el transductor de audio 225 es un altavoz. Estos dispositivos se pueden acoplar directamente a la fuente de alimentación 270 de modo que cuando se activan, permanecen encendidos durante un tiempo determinado por el mecanismo de notificación, aunque el procesador 260 y otros componentes puedan apagarse para conservar la energía de la batería. El LED puede programarse para permanecer encendido indefinidamente hasta que el usuario tome medidas para indicar el estado de encendido del dispositivo. La interfaz de audio 274 se usa para proporcionar señales audibles y recibir señales audibles del usuario. Por ejemplo, además de estar acoplada al transductor de audio 225, la interfaz de audio 274 también puede estar acoplada a un micrófono para recibir una entrada audible, para facilitar una conversación telefónica. De acuerdo con los ejemplos de la presente invención, el micrófono también puede servir como sensor de audio para facilitar el control de las notificaciones, como se describirá a continuación. El sistema 202 puede incluir además una interfaz de video 276 que permite el funcionamiento de una cámara integrada 230 para grabar imágenes fijas, flujo de video y similares.

Un dispositivo informático móvil 200 que implemente el sistema 202 puede tener características o funciones adicionales. Por ejemplo, el dispositivo informático móvil 200 también puede incluir dispositivos de almacenamiento de datos adicionales (extraíbles y/o no extraíbles) tales como discos magnéticos, discos ópticos o cinta. Dicho almacenamiento adicional se ilustra en la figura 2B por el área de almacenamiento no volátil 268.

Los datos/información generados o capturados por el dispositivo informático móvil 200 y almacenados a través del sistema 202 pueden almacenarse localmente en el dispositivo informático móvil 200, como se describe anteriormente, o los datos pueden almacenarse en cualquier número de medios de almacenamiento a los que pueda acceder el dispositivo a través de la radio 272 o mediante una conexión por cable entre el dispositivo informático móvil 200 y un dispositivo informático independiente asociado con el dispositivo informático móvil 200, por ejemplo, un ordenador servidor en una red informática distribuida, como Internet. Como debe apreciarse, se puede acceder a dichos datos/información a través del dispositivo informático móvil 200 a través de la radio 272 o mediante una red informática distribuida. De manera similar, dichos datos/información pueden transferirse fácilmente entre dispositivos informáticos para su almacenamiento y uso de acuerdo con medios de almacenamiento y transferencia de datos/información bien conocidos, incluyendo correo electrónico y sistemas de intercambio de datos/información colaborativos.

La figura 3 ilustra un ejemplo de la arquitectura de un sistema para aprovisionar una aplicación que accede de manera confiable a los datos de destino en un sistema de almacenamiento y maneja fallas de comunicación a uno o más dispositivos cliente, como se describió anteriormente. El sistema de la figura 3 puede ser un sistema ejemplar configurado para implementar operaciones para el escaneo de cumplimiento como se describe en los ejemplos en el presente documento. Los datos objetivo a los que se accede, interactúan o editan en asociación con los módulos de programación 108, las aplicaciones 120 y el almacenamiento/memoria pueden almacenarse en diferentes canales de comunicación u otros tipos de almacenamiento. Por ejemplo, se pueden almacenar varios documentos usando un servicio de directorio 322, un portal web 324, un servicio de buzón de correo 326, una tienda de mensajería instantánea 328 o un sitio de redes sociales 330, aplicación 128, administrador IO 124, otra utilidad 126 y sistemas de almacenamiento pueden usar cualquiera de estos tipos de sistemas o similares para permitir la utilización de datos, como se describe en el presente documento. Un servidor 320 puede proporcionar un sistema de almacenamiento para que lo utilice un cliente que opere en el dispositivo informático general 102 y el dispositivo móvil 200 a través de la red 315. A modo de ejemplo, la red 315 puede comprender Internet o cualquier otro tipo de red de área local o amplia, y los nodos de cliente pueden implementarse como un dispositivo informático 102 incorporado en un ordenador personal, una tableta y/o un dispositivo informático móvil 200 (por ejemplo, dispositivo de procesamiento móvil). Cualquiera de estos ejemplos del dispositivo informático cliente 102 o 200 puede obtener contenido de la tienda 316.

La figura 4 es un flujo de proceso 400 ejemplar relacionado con la detección de infracciones de cumplimiento en almacenes de datos en los que se pueden practicar aspectos de la presente divulgación. Como ejemplo, el flujo de proceso 400 puede ser ejecutado por un dispositivo y/o sistema de procesamiento ejemplar como los mostrados en las figuras 1-3. En los ejemplos, el flujo de proceso 400 puede ejecutarse en un dispositivo que comprende al menos un procesador configurado para almacenar y ejecutar operaciones, programas o instrucciones. La descripción del flujo de proceso 400 está relacionada con operaciones de procesamiento que pueden ser ejecutadas por un sistema y/o servicio que ejecuta programas informáticos, interfaces de programación de aplicaciones (API), redes neuronales o procesamiento de aprendizaje automático, entre otros ejemplos. Como ejemplo, las operaciones de procesamiento relacionadas con el flujo de proceso 400 pueden ser realizadas por uno o más componentes de hardware. En otro ejemplo, las operaciones de procesamiento relacionadas con el flujo de proceso 400 pueden ser realizadas por uno o más componentes de software. En algunos ejemplos, el flujo de proceso 400 puede estar asociado con una o más aplicaciones y/o un servicio web que tiene acceso a una pluralidad de aplicaciones/servicios, dispositivos, recursos de conocimiento, etc. El flujo de proceso 400 es un ejemplo de un flujo de proceso para implementar operaciones relacionadas con el escaneo para el cumplimiento de la política como se describe en los ejemplos del presente documento. La figura 4 puede comprender componentes que incluyen, pero no se limitan a: almacenes de datos 402, un servicio de escaneo de datos 404, un repositorio de reglas de identificación de datos 406, un repositorio de políticas de almacenamiento de datos 408 e informe de cumplimiento 410.

Los componentes del flujo de proceso 400 interactúan para permitir el escaneo de los almacenes de datos 402. Los datos almacenados en los almacenes de datos 402 son un ejemplo de datos de red (descritos anteriormente). Un almacén de datos (de almacenes de datos 402) puede ser un contenedor de datos (por ejemplo, carpeta del sistema de archivos, AZURE BLOB, base de datos SQL, etc.). En algunos ejemplos, los almacenes de datos 402 pueden ser uno o más almacenamientos (por ejemplo, dispositivos informáticos que incluyen servidor(es), sistemas de gestión de datos, etc.) conectados a través de una red distribuida. En otros ejemplos, los almacenes de datos 402 pueden ser un almacenamiento virtual mantenido en uno o más dispositivos informáticos de una red distribuida. En otros ejemplos, los almacenes de datos 402 pueden ser uno o más almacenes asociados con un dispositivo informático de cliente. Los almacenes de datos 402 pueden almacenar archivos de datos de red que pueden mantenerse en cualquier disposición jerárquica (por ejemplo, carpetas, subcarpetas, directorios, etc.). Los almacenes de datos 402 pueden asociarse con cualquier tipo de tecnología, incluidos, entre otros, los ejemplos mostrados en el flujo de proceso 400 (por ejemplo, c Os MOS, AZURE, ONEDRIVE, etc.).

El servicio de escaneo de datos 404 es un servicio de escaneo de cumplimiento de la privacidad ejemplar que puede interactuar con los almacenes de datos 402 para evaluar los datos de red almacenados en los almacenes de datos 402. Si bien los ejemplos relacionados con el flujo de proceso 400 describen la identificación de datos y el escaneo de datos que se mantienen en los almacenes de datos 402, un servicio de escaneo de datos 404 puede configurarse para evaluar cualquier tipo de datos de red, como se describió anteriormente. El servicio de escaneo de datos 404 puede ejecutar operaciones de procesamiento relacionadas con: la identificación de datos de red, agrupación de elementos de datos relacionados de datos de red, identificación de datos de esquemas de datos dentro de datos de red específicos, identificación de reglas de políticas, escaneo de datos de red para cumplimiento de políticas, informes de cumplimiento de políticas y gestión de infracciones de cumplimiento, entre otros ejemplos. Ejemplos de operaciones de procesamiento que pueden ejecutarse mediante un servicio de escaneo de datos 404 ejemplar se describen en la descripción del método 500 (de la figura 5).

En ejemplos, el servicio de escaneo de datos 404 puede interactuar además con el repositorio para las reglas de identificación de datos 406 y el repositorio para las políticas de almacenamiento de datos 408. El repositorio para las reglas de identificación de datos 406 puede mantener información para las reglas de identificación de datos que pueden utilizarse para agrupar y analizar elementos de datos almacenados en los almacenes de datos 402. El servicio de escaneo de datos 404 puede utilizar además las reglas de identificación de datos para identificar esquemas de datos específicos dentro de los datos de archivos específicos almacenados en los almacenes de datos 402. Las reglas de identificación de datos son reglas que se pueden establecer para aplicar operaciones de procesamiento para identificar la estructura de una instancia específica de datos de red (por ejemplo, la estructura de un archivo). Las reglas de identificación de datos se aplican para identificar uno o más esquemas de datos a partir de los datos de archivo de una agrupación. Un esquema de datos como se define en el presente documento puede relacionarse con una definición de una estructura dentro de un archivo de datos de red. Un archivo puede comprender una pluralidad de esquemas de datos. Como se describió anteriormente, los archivos pueden ser complejos (por ejemplo, anidados en diferentes niveles). La identificación de esquemas de datos dentro de un archivo (de datos de red) ayuda a identificar mejor los tipos de datos dentro de un archivo para determinar de manera más eficiente y precisa las reglas de política aplicables. El servicio de escaneo de datos 404 ejecuta operaciones tales como: descubrir datos de red, agrupar elementos de datos (de los datos de red) e identificar el esquema de datos de elementos de datos agrupados, como se describe en la descripción del método 500 (de la figura 5).

El repositorio para las políticas de almacenamiento de datos 408 puede mantener información para las reglas de política que pueden ser ejecutables para los elementos de datos almacenados en los almacenes de datos 402. Una regla de política puede ser cualquier tipo de regla que pueda aplicarse a los datos y/o al contenido de un archivo de datos. Las reglas de política pueden comprender, entre otras: reglas comerciales, reglas de privacidad, reglas de regulación gubernamental y reglas legales, entre otros ejemplos. El servicio de escaneo de datos 404 puede utilizar reglas de políticas del repositorio para las políticas de almacenamiento de datos 408 para escanear datos de archivos de los almacenes de datos 402 con el fin de determinar infracciones de cumplimiento con las reglas de políticas. Al hacerlo, el servicio de escaneo de datos 404 ejecuta operaciones tales como: determinar las reglas de política aplicables a los esquemas de datos para archivos de datos de red, utilizando las reglas de política para determinar si un archivo (o porción del archivo) cumple con una regla de política, y notificación del cumplimiento de las políticas, como se describe en la descripción del método 500 (de la figura 5).

Las operaciones de procesamiento ejecutadas por el servicio de escaneo de datos 404 pueden generar un informe de conformidad 410 con las reglas de política basado en el escaneo de datos de archivos de los almacenes de datos 402. El informe de cumplimiento 410 puede estar en cualquier formato de archivo y puede comprender cualquier número y tipo de campos de datos que rastrean los resultados de una exploración de los datos de archivo de los almacenes de datos 402. Como ejemplo, un informe de cumplimiento 410 puede comprender campos de datos que incluyen, entre otros: identificación de archivos (o porciones del archivo escaneados), identificación de infracciones de cumplimiento con reglas de política, identificación de la ubicación de infracciones de cumplimiento en el archivo, identificación de un propietario de datos de archivo, identificación de un almacén de datos en particular, proporcionar acciones de remediación para remediar una infracción de cumplimiento, borrar archivos debido a infracciones de cumplimiento, incluidos enlaces a aplicaciones/servicios y/u otros recursos, en un ejemplo, el servicio de escaneo de datos 404 puede almacenar o mantener un informe de cumplimiento 410. En otros ejemplos, el servicio de escaneo de datos 404 puede interactuar con otro componente (por ejemplo, el componente de gestión de cumplimiento 610 de la figura 6) para el almacenamiento de un informe de cumplimiento 410 y/o la gestión de las infracciones de cumplimiento identificadas.

El flujo de proceso 400 es repetible para la detección continua de problemas de cumplimiento relacionados con los datos almacenados. En los ejemplos, el flujo de proceso 400 puede ser ejecutado por una aplicación/servicio. En un caso, las operaciones para escanear en busca de infracciones de cumplimiento pueden ocurrir como procesamiento en segundo plano durante la ejecución de un dispositivo de procesamiento. Las características y/o configuraciones del servicio de escaneo de datos 404 pueden configurarse para variar la frecuencia de escaneo, nivel de escaneo, notificación de infracciones de cumplimiento, etc.

En un ejemplo alternativo, un servicio de escaneo de datos 404 ejemplar puede configurarse para escanear información dentro de una aplicación en ejecución para mantener el cumplimiento de las reglas de política. Por ejemplo, se puede estar ejecutando una aplicación de hoja de cálculo donde se puede ingresar una columna de datos de números de seguridad social (y considerarse como datos de red definidos en el presente documento). En tal ejemplo, el servicio de escaneo de datos 404 puede configurarse para modificar la presentación de dicha información sensible en tiempo real (por ejemplo, mostrar solo los últimos cuatro dígitos de un número de la seguridad social) o proporcionar una notificación de que dicha información no se puede guardar, entre otros ejemplos.

La figura 5 es un método ejemplar 500 relacionado con la detección de infracciones de cumplimiento con las que se pueden practicar aspectos de la presente divulgación. Como ejemplo, el método 500 puede ejecutarse mediante un dispositivo y/o sistema de procesamiento ejemplar, como los que se muestran en las figuras 1-3. En los ejemplos, el método 500 puede ejecutarse en un dispositivo que comprende al menos un procesador configurado para almacenar y ejecutar operaciones, programas o instrucciones. Las operaciones realizadas en el método 500 pueden corresponder a operaciones ejecutadas por un sistema y/o servicio que ejecuta programas informáticos, interfaces de programación de aplicaciones (API), redes neuronales o procesamiento de aprendizaje automático, entre otros ejemplos. Como ejemplo, las operaciones de procesamiento ejecutadas en el método 500 pueden ser realizadas por uno o más componentes de hardware. En otro ejemplo, las operaciones de procesamiento ejecutadas en el método 500 pueden ser realizadas por uno o más componentes de software. En algunos ejemplos, las operaciones de procesamiento descritas en el método 500 pueden ser ejecutadas por una o más aplicaciones/servicios asociados con un servicio web que tiene acceso a una pluralidad de aplicaciones/servicios, dispositivos, recursos de conocimiento, etc.

El método 500 comienza en la operación 502, donde los elementos de datos se descubren de forma recursiva. En un ejemplo, los elementos de datos corresponden a datos de red. Los datos de red pueden comprender cualquiera de: datos almacenados en uno o más almacenes de datos de una red distribuida, datos recibidos en un cortafuegos, datos almacenados en un dispositivo informático cliente y datos de una aplicación que se ejecuta en el dispositivo informático cliente. Como ejemplo, una aplicación/servicio puede escanear almacenamientos de datos y/o uno o más dispositivos informáticos para descubrir (operación 502) datos de red. En un caso, la operación 502 puede comprender ejecutar escaneo/análisis de archivos en almacenes de datos 402 como se describe en la descripción de la figura 4. Por ejemplo, se puede ejecutar una aplicación/servicio que descubre qué archivos/tablas se encuentran en un almacén de datos específico. En algunos ejemplos, la operación 502 puede descubrir solo un archivo (o unos pocos archivos), por ejemplo, cuando una aplicación/servicio de escaneo está escaneando nuevos datos de archivos en tiempo real (por ejemplo, en un cortafuegos, los datos se ingresan en una aplicación o antes de descargar contenido a un dispositivo informático, etc.).

El flujo puede continuar con la operación 504, donde se agrupan los elementos de datos relacionados de los datos de red descubiertos. Las operaciones de procesamiento se aplican en la operación 504 para evaluar los datos de la red con el fin de generar una o más agrupaciones para los datos de la red descubiertos. Una agrupación puede ser uno o más archivos de datos de red. Para mejorar la eficiencia en el escaneo de datos de la red (por ejemplo, minimizar la cantidad de datos que se leen durante el escaneo), los datos de la red pueden agruparse para identificar datos que incluyen contenido similar. En la invención, las agrupaciones se basan en el tipo de archivo de los datos de la red. Por ejemplo, se puede usar una convención de nomenclatura de un archivo o el formato de archivo para agrupar archivos. En un caso, una primera agrupación puede ser archivos con una convención de nomenclatura de (XXX.doc) y una segunda agrupación pueden ser archivos con una convención de nomenclatura de (XXX.xml). Sin embargo, un experto en la técnica que comprenda la presente divulgación debería reconocer que la agrupación de datos de archivo no se limita a la agrupación de datos de red únicamente por tipo de archivo. Es posible que se apliquen otros factores al agrupar datos, incluidos, entre otros: nombre de archivo, tamaño de archivo, diseño de un archivo, contenido dentro de un archivo, fecha, ubicación del archivo y cuentas de usuario asociadas con el archivo, entre otros ejemplos.

En un ejemplo, la agrupación de elementos relacionados puede comprender operaciones de procesamiento que extraen un patrón para una convención de nomenclatura de cada elemento de datos (por ejemplo, archivo) de datos de red. Las operaciones de procesamiento se pueden aplicar además para comparar los patrones extraídos y agrupar elementos relacionados en una agrupación. Puede crearse una pluralidad de agrupaciones para diferentes grupos de elementos de datos relacionados. Para cada grupo de elementos de datos que tienen el mismo patrón, se pueden aplicar operaciones de procesamiento para clasificar los elementos agrupados por fecha (por ejemplo, fecha de creación, fecha de modificación, fecha de almacenamiento, etc.). Sin embargo, un experto en la técnica que comprenda la presente divulgación debería reconocer que la clasificación/ordenación de datos agrupados puede ocurrir de varias formas.

En la operación 506, se aplican reglas de identificación de datos para determinar los esquemas de datos asociados con elementos de datos agrupados. Las reglas de identificación de datos son reglas que se pueden establecer para aplicar operaciones de procesamiento para identificar la estructura de una instancia específica de datos de red (por ejemplo, la estructura de un archivo). Las reglas de identificación de datos se aplican para identificar uno o más esquemas de datos a partir de los datos de archivo de una agrupación. Un esquema de datos como se define en el presente documento puede relacionarse con una definición de una estructura dentro de un archivo de datos de red. Un archivo puede comprender una pluralidad de esquemas de datos. Como se describió anteriormente, los archivos pueden ser complejos (por ejemplo, anidados en diferentes niveles). La identificación de esquemas de datos dentro de un archivo (de datos de red) ayuda a identificar mejor los tipos de datos dentro de un archivo para determinar de manera más eficiente y precisa las reglas de política aplicables.

Como ejemplo, la operación 506 puede comprender analizar datos de archivo de una agrupación (identificada en la operación 504). En un caso, puede determinarse una muestra del elemento de datos más reciente (por ejemplo, archivo) de una agrupación y usarse para la evaluación de otros elementos de datos relacionados en una agrupación. El muestreo puede resultar útil para evaluar rápidamente los esquemas de datos de otros elementos de datos relacionados en una agrupación. El tamaño de la muestra puede variar, donde los ajustes asociados con un sistema o método de ejecución de aplicación 500 pueden usarse para ajustar el tamaño de una muestra. Por ejemplo, las 200 filas superiores de un archivo de valores separados por comas (CSV) o los 10 megabytes (MB) superiores se pueden utilizar para una muestra. A partir de esta muestra, se puede producir el esquema tabular (una lista de columnas y contenido asociado con posiciones en la columna). En un ejemplo, para las columnas anidadas que se descubren durante el análisis (por ejemplo, columnas que contienen, digamos, JavaScript Object Notation (JSON) o lenguaje de marcado extensible (XML)), un esquema de nomenclatura puede ser similar a: <parent column>.<child column> .<child N column> . En otro ejemplo, un esquema de nomenclatura para matrices puede ser similar a: <parent column>[].<child column>.

En ejemplos alternativos, cada archivo de una agrupación de datos se puede evaluar de forma independiente sin muestreo. Se pueden aplicar configuraciones para modificar cualquier operación de procesamiento descrita en el método 500 dependiendo de la disponibilidad de tiempo y recursos de red durante el escaneo, entre otros ejemplos. Una vez que se determina el esquema (por ejemplo, a partir de la muestra), la operación 506 puede comprender una o más operaciones de procesamiento para leer una muestra más grande de elementos de datos de la agrupación. La aplicación de las reglas de identificación de datos (operación 506) puede comprender determinar una posición de un esquema de datos en los datos de archivo de una agrupación. Se pueden analizar uno o más archivos de una agrupación para determinar los esquemas de datos del archivo. En un ejemplo, los valores del esquema de datos se recopilan y se comparan con las reglas de identificación de datos, por ejemplo, para cada posición (por ejemplo, columna) en un archivo. La operación 506 puede comprender aplicar las reglas de identificación de datos para generar un listado que proporcione información posicional de los esquemas de datos dentro de un archivo. Por ejemplo, se pueden identificar las columnas/filas en el archivo y el esquema de datos asociados con la columna/filas. Por ejemplo, pueden existir diferentes tipos de datos en los datos de archivo, donde los diferentes tipos de datos pueden aparecer en diferentes columnas de la misma línea de un archivo. Por ejemplo, la línea 1, columna 1 puede contener un campo de texto básico; línea 1, columna 2 contiene un objeto JSON, etc. Sin embargo, un experto en la técnica que comprenda la presente divulgación debería reconocer que un esquema de datos de archivo no está restringido a una lista de datos por columna. Por ejemplo, los datos del archivo se pueden organizar de cualquier manera, incluidos, entre otros: tipo de datos, columna, fila, página, ecuaciones, expresiones regulares, etc.

La operación 506 puede proceder a evaluar el contenido del esquema de datos identificado dentro de un archivo. Para cada archivo, se genera información sobre qué tipos de datos se identificaron en qué posiciones del archivo, cuántas coincidencias ocurrieron, qué tipo de coincidencia (total/parcial/algunas palabras), la confianza total para cada tipo de datos coincidente, etc. En los ejemplos, la operación 506 puede comprender generar una puntuación de confianza para la identificación del esquema de datos basándose en la coincidencia de patrones que evalúa el contenido de la posición en los datos del archivo usando una o más señales. Los datos de la señal pueden ser cualquier dato que se pueda analizar para ayudar en la identificación de un esquema de datos para la coincidencia de patrones. Generalmente, cuantos más datos de señales se puedan confirmar, mayor será la puntuación de confianza. Los datos de señal que se pueden usar para la coincidencia de patrones incluyen, entre otros: evaluación de esquemas de datos específicos en un archivo, evaluación de la relación de un esquema de datos con otros esquemas de datos de un archivo, convenciones de nomenclatura para un esquema de datos, coincidencia de diccionario para el esquema de datos y/o contenido dentro del esquema de datos, contenido dentro de un esquema de datos, formato del contenido, tipo de archivo, propietario de datos de un archivo, patrones para la comparación de ecuaciones, patrones para expresiones y análisis de clasificador estadístico, entre otros ejemplos. En ejemplos, una aplicación/servicio de escaneo de datos puede interactuar con uno o más de otros servicios de una red distribuida para proporcionar acceso a una variedad de recursos para analizar diferentes aspectos de un esquema de datos.

Considere un ejemplo en el que un esquema de datos identifica un campo como un número de teléfono, por ejemplo, simplemente analizando los datos de la señal relacionados con el nombre de una columna (por ejemplo, "número de teléfono"). Es posible que una convención de nomenclatura sea incorrecta o que los datos de la columna no estén relacionados con un número de teléfono. Si solo se analizó una señal, la puntuación de confianza puede ser menor que el esquema de datos relacionado con un número de teléfono. Sin embargo, en algunos casos, a ciertos datos de señales se les da más peso (por ejemplo, ponderando parámetros más altos). Estos factores se pueden incorporar en el modelado para generar una puntuación de confianza para la identificación de datos de un esquema de datos. Considere otro ejemplo, donde una columna se denomina "direcciones IP" y una entrada de la primera fila (segunda fila de la columna 1) es "255.255.255.0". Los ejemplos descritos en el presente documento pueden aplicar el procesamiento de coincidencia de patrones utilizando diferentes señales para determinar qué datos están en la columna 1, fila 2. Al hacerlo, se pueden analizar una variedad de señales diferentes, tales como: nombre de la columna, formato del contenido ingresado en la fila (por ejemplo, si es un número separado por puntos; son los números entre 0 y 255), etc.) con el fin de generar una puntuación de confianza para la identificación del contenido en la fila 2, columna 1 del archivo.

Se puede aplicar el modelado (factorizando tantos datos de señal como sea posible) para generar puntajes de confianza. En un ejemplo, las coincidencias para tipos de datos con confianza por encima de un cierto umbral se consideran resultados "positivos". En algunos casos, los archivos (o porciones del archivo) con puntuaciones de confianza bajas pueden marcarse para una revisión adicional (por ejemplo, revisión manual en un momento posterior).

El flujo puede continuar con la operación 508, donde se pueden determinar las políticas que se aplican a los esquemas de datos específicos. Por ejemplo, las operaciones de procesamiento pueden identificar reglas de políticas aplicables basadas en tipos de esquemas de datos identificados dentro de un archivo. En un ejemplo, el repositorio de políticas de almacenamiento de datos 408 (descrito en el flujo de proceso 400 de la figura 4) se puede acceder para recuperar las reglas de política aplicables para escanear archivos (de datos de red). En algunos casos, pueden aplicarse varias versiones de las reglas de política a los documentos de un grupo. Por ejemplo, las reglas de política pueden haber cambiado para documentos en un cierto rango de fechas. En cualquier momento durante el procesamiento del método 500, la agrupación (operación descrita 504) puede volver a realizarse para reagruparse, por ejemplo, en base a las reglas de política aplicables.

En la operación 510, los elementos de datos se escanean para verificar el cumplimiento de las reglas de política. Los ejemplos descritos en el presente documento optimizan el escaneo minimizando la cantidad de datos que se leen durante un escaneo. Como tal, se puede escanear una pequeña cantidad de archivos (o porciones del archivo) para identificar infracciones de cumplimiento. En algunos ejemplos, no es necesario analizar todos los archivos de datos de la red (o incluso todos los archivos de un grupo) para identificar patrones de infracciones de cumplimiento. Además, es posible que no sea necesario escanear todas las porciones de un archivo. En algunos ejemplos, es posible que el escaneo solo tenga que escanear una porción de un archivo que se corresponda con una posición de un esquema de datos al que se aplica una regla de política.

Al agrupar archivos, se pueden escanear muestras de datos de archivos de una agrupación. En un ejemplo, se puede escanear un archivo más reciente de los datos de archivo de una agrupación para determinar el cumplimiento de las reglas de política. Analizar un archivo/versión más reciente es beneficioso porque un archivo más reciente se relaciona mejor con las reglas de política más actuales que se están aplicando. En un caso, el análisis de un archivo más reciente puede activar el análisis de archivos adicionales en función de los resultados del análisis del archivo más reciente. En otros ejemplos, se puede escanear al menos otro archivo de la agrupación, por ejemplo, un archivo que tiene una fecha que excede un período de tiempo de una política de retención de una regla de política. Por ejemplo, considere el ejemplo en el que una regla de política es que las direcciones IP no deben conservarse para los registros de búsqueda que tienen más de 180 días. Un escaneo puede resultar en el escaneo de un registro de búsqueda más reciente y un registro de búsqueda que tiene 181 días de antigüedad. Los archivos posteriores se pueden analizar si se identifican problemas de cumplimiento en una muestra de archivos que se analizan. Sin embargo, un experto en la técnica que comprenda la presente divulgación debe reconocer que el muestreo de archivos, patrones para escanear (incluida la habilitación de escaneos completos de datos de red) pueden variar según los desarrolladores y/o usuarios de un servicio de escaneo, donde 1 a la totalidad de archivos en una agrupación se pueden escanear.

En la operación 512, se genera un informe para los datos escaneados. Como ejemplo, el informe puede comprender una lista de cualquier infracción de cumplimiento identificada para archivos escaneados en una o más agrupaciones de datos de red. Como ejemplo, una aplicación/servicio puede generar un informe tal como el servicio de escaneo de datos 404 como se describe en la descripción de la figura 4. En los ejemplos, se pueden generar uno o más informes para el cumplimiento de las reglas de política.

En la operación de decisión 514, se determina si se identifica alguna infracción de política en el informe (generado en la operación 512). Si no se identifican infracciones de cumplimiento, el flujo puede bifurcar NO y volver a la operación 502, donde los dispositivos de procesamiento individuales y/o los componentes de una red distribuida se analizan de forma recursiva para descubrir elementos de datos para el escaneo posterior.

Si se identifica alguna infracción de la política, el flujo se bifurca SÍ y pasa a la operación 516, donde se pueden ejecutar una o más acciones para remediar las infracciones de cumplimiento identificadas. Una acción ejecutada puede comprender uno o más de: solicitar al propietario de los datos de un archivo que repare la infracción de cumplimiento, limpiar un archivo para remediar una infracción de cumplimiento y eliminar un archivo que incluye la infracción de cumplimiento, entre otros ejemplos.

La figura 6 ilustra un sistema ejemplar 600 que se puede implementar en uno o más dispositivos informáticos en los que se pueden practicar aspectos de la presente divulgación. El sistema 600 puede ser un sistema ejemplar para el procesamiento relacionado con la gestión y el uso de definiciones de tareas para el seguimiento del estado de las tareas como se describe en el presente documento. El sistema ejemplar 600 presentado es una combinación de componentes interdependientes que interactúan para formar un todo integrado para implementar operaciones para el escaneo de cumplimiento como se describe en los ejemplos en el presente documento. Los componentes del sistema 600 pueden ser componentes de hardware o software implementados y/o ejecutados por componentes de hardware. En ejemplos, el sistema 600 puede incluir cualquiera de los componentes de hardware (por ejemplo, ASIC, otros dispositivos usados para ejecutar/ejecutar un SO y componentes de software (por ejemplo, aplicaciones, interfaces de programación de aplicaciones, módulos, máquinas virtuales, bibliotecas de tiempo de ejecución) que se ejecutan en hardware. En un ejemplo, un sistema ejemplar 600 puede proporcionar un entorno para que los componentes de software se ejecuten, obedecer las restricciones establecidas para el funcionamiento y hacer uso de recursos o instalaciones de los sistemas/dispositivos de procesamiento, donde los componentes pueden ser software (por ejemplo, aplicación, programa, módulo) que se ejecuta en uno o más dispositivos de procesamiento. Por ejemplo, el software (por ejemplo, aplicaciones, instrucciones operativas, módulos) puede ejecutarse en un dispositivo de procesamiento como un ordenador, dispositivo móvil (por ejemplo, teléfono inteligente/teléfono, tableta) y/o cualquier otro tipo de dispositivo electrónico. Como ejemplo de un entorno operativo de dispositivo de procesamiento, consulte los entornos operativos de las figuras 1-3. En otros ejemplos, los componentes de los sistemas descritos en el presente documento se pueden distribuir en múltiples dispositivos. Por ejemplo, la entrada se puede escanear en un dispositivo informático de cliente donde las operaciones de procesamiento pueden ocurrir a través de uno o más dispositivos en una red distribuida, tal como uno o más dispositivos de servidor.

En ejemplos, uno o más almacenes/almacenamientos de datos u otra memoria están asociados con el sistema 600. Por ejemplo, un componente del sistema 600 puede tener uno o más almacenamiento(s) de datos 614 (descritos a continuación) asociados con él. Los datos asociados con un componente del sistema 600 pueden almacenarse en el mismo, así como las operaciones/instrucciones de procesamiento ejecutadas por un componente del sistema 600. Además, se presenta que los componentes de la aplicación del sistema 600 pueden interactuar con otros servicios de la aplicación. Los servicios de aplicación pueden ser cualquier recurso que pueda ampliar la funcionalidad de uno o más componentes del sistema 600. Los servicios de aplicaciones pueden incluir, entre otros: servicios de búsqueda web, aplicaciones de correo electrónico, calendarios, servicios de administración de dispositivos, servicios de libreta de direcciones, servicios informativos, etc.), servicios de administración de línea de negocio (LOB), administración de relaciones con el cliente. (CRM), servicios de depuración, servicios de contabilidad, servicios de nómina y servicios y/o sitios web alojados o controlados por terceros, entre otros ejemplos. Los servicios de aplicaciones pueden incluir además otros sitios web y/o aplicaciones alojadas por terceros, como sitios web de redes sociales; sitios web para compartir fotos; sitios web de transmisión de vídeos y música; sitios web de motores de búsqueda; sitios web de deportes, noticias o entretenimiento, y similares. Los servicios de aplicación pueden proporcionar además servicios de análisis, compilación y/o almacenamiento de datos, etc., en asociación con los componentes del sistema 600. El sistema ejemplar 600 comprende componentes de aplicación 606 que incluyen un componente de escaneo de datos 608 y un componente de gestión de cumplimiento 610, donde cada uno de los componentes identificados puede comprender uno o más componentes adicionales.

El sistema 600 puede comprender además uno o más almacenamiento(s) 614 que pueden almacenar datos asociados con el funcionamiento de uno o más componentes del sistema 600. En ejemplos, el almacenamiento(s) 614 puede interactuar con otros componentes del sistema 600. Los datos asociados con cualquier componente del sistema 600 pueden almacenarse en almacenamiento(s) 614, donde los componentes pueden conectarse a almacenamiento(s) 614 a través de una red distribuida que incluye plataformas de computación en la nube y servicios de infraestructura. El almacenamiento(s) de ejemplo 614 puede ser cualquiera de una fuente de una primera parte, una fuente de una segunda parte y una fuente de una tercera parte. El almacenamiento(s) 614 son cualquier espacio de memoria física o virtual. Los almacenes de datos 402 (de la figura 4) son un ejemplo de almacenamiento(s) de datos 614.

El almacenamiento(s) 614 puede almacenar cualquier dato para operaciones de procesamiento realizadas por componentes del sistema 600, datos retenidos de operaciones de procesamiento, programas almacenados, código o interfaces de programación de aplicaciones (API), datos de entrenamiento, enlaces a recursos internos y externos al sistema 600 y datos de conocimiento entre otros ejemplos. Además, en los ejemplos, los componentes del sistema 600 pueden utilizar datos de conocimiento en el procesamiento por los componentes del sistema 600. El conocimiento puede ser utilizado por uno o más componentes del sistema 600 para mejorar el procesamiento de cualquiera de los componentes de la aplicación 606 donde los datos del conocimiento pueden obtenerse de recursos internos o externos al sistema 600. En los ejemplos, los datos de conocimiento pueden mantenerse en almacenamiento(s) 614 o recuperarse de uno o más recursos externos al sistema 600 mediante la operación de búsqueda de conocimiento. En los ejemplos (como se describe a continuación), el almacenamiento(s) 614 puede almacenar programas/servicios de datos ejemplares y otros tipos de datos para: identificación de datos de red, agrupación de datos de red, identificación de datos (y reglas/políticas de identificación de datos), reglas de políticas ejemplares, informes generados a partir del escaneo, el estado de las soluciones para las infracciones de cumplimiento, la información de la cuenta del arrendatario y la información de configuración, entre otros ejemplos.

En la figura 6, el dispositivo de procesamiento 602 puede ser cualquier dispositivo que comprenda al menos un procesador y al menos una memoria/almacenamiento. Los ejemplos de dispositivo de procesamiento 602 pueden incluir, entre otros: dispositivos de procesamiento como ordenadores de escritorio, servidores, teléfonos, tabletas, phablets, pizarras, ordenadores portátiles, relojes y cualquier otra colección de componentes eléctricos, como dispositivos que tienen uno o más procesadores o circuitos. En un ejemplo, el dispositivo de procesamiento 602 puede ser un dispositivo de un usuario que está ejecutando aplicaciones/servicios. En ejemplos, el dispositivo de procesamiento 602 puede comunicarse con los componentes de aplicación 606 a través de una red 604. En un aspecto, la red 604 es una red informática distribuida, como Internet. Los servicios de aplicación pueden comunicarse con los componentes 606 de la aplicación a través de la red 604. El dispositivo de procesamiento 602 puede ser un dispositivo como se describe en la descripción de las figuras 1-3. En algunos ejemplos, el dispositivo de procesamiento 602 puede comprender múltiples dispositivos conectados. El dispositivo de procesamiento 602 es un ejemplo de un dispositivo informático de usuario. Las operaciones de procesamiento descritas en el presente documento se pueden ejecutar para escanear datos de red almacenados en el dispositivo de procesamiento 602 y/o datos recibidos a través de aplicaciones/servicios a los que se accede mediante el dispositivo de procesamiento 602. El dispositivo de procesamiento 602 puede conectarse además con el almacenamiento(s) 614 a través de una red distribuida. Uno o más recursos de arrendatario 612 (por ejemplo, recurso de arrendatario A, recurso de arrendatario B, recurso de arrendatario C, etc.) pueden estar asociados con el dispositivo de procesamiento 602. Un recurso de arrendatario puede ser una cuenta de usuario asociada con un dispositivo de procesamiento y/o un servicio de red distribuido. Los datos asociados con un recurso de arrendatario 612 pueden almacenarse en almacenamiento(s) 614, donde se puede utilizar una cuenta de arrendatario para acceder a los datos almacenados mediante el dispositivo de procesamiento 602 y/u otros dispositivos de procesamiento.

Los componentes de la aplicación 606 son una colección de componentes configurados para implementar el escaneo de datos y la gestión del cumplimiento con las reglas de política. Los componentes de aplicación 606 pueden comprender un componente de escaneo de datos 608 y un componente de gestión de cumplimiento 610. El componente de exploración de datos 608 es un componente que implementa las operaciones de procesamiento descritas en las descripciones del flujo de proceso 400 (figura 4) y el método 500 (figura 5). Como ejemplo, el componente de escaneo de datos 608 ejecuta operaciones de procesamiento relacionadas con el descubrimiento de datos de red, agrupando elementos de datos relacionados, aplicando reglas de identificación de datos, escaneando elementos de datos y generando un informe de infracciones de cumplimiento. En algunos ejemplos, el componente de exploración de datos 608 puede configurarse además para remediar las infracciones de cumplimiento identificadas. Sin embargo, en otro ejemplo, el componente de exploración de datos 608 interactúa con el componente de gestión de cumplimiento 610, que maneja la ejecución de acciones relacionadas con la gestión de una infracción de cumplimiento identificada.

Claims

REIVINDICACIONES

1. Un método (500) caracterizado por:

evaluar (504) datos de red para generar una o más agrupaciones para los datos de red, comprendiendo cada agrupación uno o más archivos de datos de red relacionados, en base a un tipo de archivo de datos de red; aplicar (506) reglas de identificación de datos para identificar un esquema de datos en uno o más archivos en una agrupación respectiva;

determinar (508) una o más reglas de política que se aplican al uno o más archivos asociados con el esquema de datos;

escanear (510) una porción de un archivo asociado con el esquema de datos para determinar el cumplimiento de una o más reglas de política; y

generar (512), para el archivo escaneado, un informe de cumplimiento con una o más reglas de política.

2. El método (500) de la reivindicación 1, que comprende además descubrir de forma recursiva (502) los datos de la red, en el que los datos de la red son uno o más seleccionados de un grupo que consta de:

datos almacenados en uno o más almacenes de datos de una red distribuida, datos recibidos en un cortafuegos, datos almacenados en un dispositivo informático cliente y datos de una aplicación que se ejecuta en el dispositivo informático cliente.

3. El método (500) de la reivindicación 1, en el que el escaneo (510) comprende además escanear un archivo más reciente a partir de los datos del archivo de una o más agrupaciones para determinar el cumplimiento de las reglas de política, y escanear al menos un archivo de los datos del archivo que tiene una fecha que excede una política de retención para una regla de política que es aplicable a dicho al menos un esquema.

4. El método (500) de la reivindicación 1, en el que la aplicación (506) de reglas de identificación de datos comprende además determinar una posición del al menos un esquema en los datos de archivo de uno o más agrupamientos.

5. El método (500) de la reivindicación 4, en el que la aplicación (506) de las reglas de identificación de datos para identificar el al menos un esquema de datos comprende además generar una puntuación de confianza para la identificación del al menos un esquema de datos basado en la coincidencia de patrones que evalúa el contenido de la posición utilizando datos que se pueden analizar para ayudar en la identificación de un esquema de datos para la coincidencia de patrones.

6. El método (500) de la reivindicación 4, en el que el escaneo (510) comprende además escanear, para una o más agrupaciones, una porción del al menos un archivo que se corresponde con la posición del al menos un esquema de datos al que se aplica una regla política.

7. El método (500) de la reivindicación 1, que comprende además ejecutar (516) al menos una acción para remediar una infracción de cumplimiento identificada en el informe, en el que la al menos una acción es una o más seleccionadas de un grupo que consiste en: solicitar un propietario de datos del al menos un archivo para remediar la infracción de cumplimiento, borrando el al menos un archivo para remediar una o más infracciones de cumplimiento y eliminando el al menos un archivo que incluye la infracción de cumplimiento.

8. Un sistema (102) que comprende:

al menos un procesador (104); y

una memoria (106) operativamente conectada con el al menos un procesador (104) que almacena instrucciones ejecutables por ordenador que, cuando son ejecutadas por el al menos un procesador (104), hacen que el al menos un procesador (104) ejecute un método (500) caracterizado por:

evaluar (504) datos de la red para generar una agrupación de datos de la red en base al tipo de archivo de los datos de la red, en el que la agrupación comprende uno o más archivos de datos de la red;

aplicar (506) reglas de identificación de datos para identificar un esquema de datos en uno o más archivos de datos de red,

determinar (508) una o más reglas de política que se aplican a uno o más archivos de datos de red asociados con el esquema de datos,

escanear (510) al menos un archivo asociado con el esquema de datos para determinar el cumplimiento de una o más reglas de política, y

generar (512), para el al menos un archivo escaneado, un informe de cumplimiento con una o más reglas de política.

9. El sistema (102) de la reivindicación 8, en el que el método (500) ejecutado por el al menos un procesador (104) comprende además: descubrir recursivamente (502) los datos de la red, y en el que los datos de la red son uno o más seleccionados de un grupo que consta de: datos almacenados en uno o más almacenes de datos de una red distribuida, datos recibidos en un cortafuegos, datos almacenados en un dispositivo informático cliente y datos de una aplicación que se ejecuta en el dispositivo informático cliente.

10. El sistema (102) de la reivindicación 8, en el que el escaneo (510) comprende además escanear un archivo más reciente de los datos del archivo de una o más agrupaciones para determinar el cumplimiento de las reglas de política, y escanear al menos un archivo de los datos del archivo que tiene una fecha que excede un período de tiempo de una política de retención para una regla de política que es aplicable a dicho al menos un esquema.

11. El sistema (102) de la reivindicación 8, en el que el método (500) ejecutado por el al menos un procesador (104) comprende además: ejecutar (516) al menos una acción para remediar una infracción de cumplimiento identificada en el informe, y en el que la al menos una acción es una o más seleccionadas de un grupo que consiste en: solicitar al propietario de los datos del al menos un archivo para remediar la infracción de cumplimiento, borrar el al menos un archivo para remediar una o más infracciones de cumplimiento y eliminar el al menos un archivo que incluye la infracción de cumplimiento.