ES2848537T3 - Sistema en red altamente seguro y procedimientos para el almacenamiento, procesamiento y transmisión de información personal sensible - Google Patents

Sistema en red altamente seguro y procedimientos para el almacenamiento, procesamiento y transmisión de información personal sensible Download PDF

Info

Publication number
ES2848537T3
ES2848537T3 ES15875851T ES15875851T ES2848537T3 ES 2848537 T3 ES2848537 T3 ES 2848537T3 ES 15875851 T ES15875851 T ES 15875851T ES 15875851 T ES15875851 T ES 15875851T ES 2848537 T3 ES2848537 T3 ES 2848537T3
Authority
ES
Spain
Prior art keywords
data
values
personal information
hashed
plaintext
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES15875851T
Other languages
English (en)
Inventor
Robin Edison
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Optum Inc
Original Assignee
Optum Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Optum Inc filed Critical Optum Inc
Application granted granted Critical
Publication of ES2848537T3 publication Critical patent/ES2848537T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0272Virtual private networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/083Network architectures or network communication protocols for network security for authentication of entities using passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/0643Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3236Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
    • H04L9/3239Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions involving non-keyed hash functions, e.g. modification detection codes [MDCs], MD5, SHA or RIPEMD
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/50Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/88Medical equipments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/082Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00 applying multi-factor authentication

Abstract

Un entorno informático seguro (108) para transformar, proteger y transmitir información personal, que comprende: un procesador (118); y un dispositivo de memoria que incluye instrucciones operables para ser ejecutadas por el procesador (118) para realizar un conjunto de acciones, y la configuración del procesador (118) para: recibir los primeros valores desinfectados de información personal a la que se ha aplicado la función hash (220) y los datos de texto claro correspondientes de entornos informáticos colaboradores de datos (102) que están en comunicación con el entorno informático seguro (108); transformar (206) los primeros valores desinfectados de información personal a la que se ha aplicado la función hash (220) en segundos valores de información personal a los que se ha aplicado la función hash (226); vincular (210), mediante el uso de ID únicas, los segundos valores de información personal a los que se ha aplicado la función hash (226) con los segundos valores de datos hash (226) adicionales almacenados anteriormente dentro de una bóveda de identidades (120, 228), en el que cada uno de las ID únicas se asocian con uno de los segundos valores de datos hash almacenados anteriormente; generar un diccionario de datos en respuesta a la recepción de los parámetros del proyecto de investigación, el diccionario de datos incluye los datos de texto claro de múltiples almacenamientos de datos, en el que cada uno de los entornos informáticos colaboradores de datos incluye uno de los múltiples almacenamientos de datos que alojan los datos de texto claro, al menos algunos de los datos de texto claro asociados por las ID únicas; aplicar reglas estadísticas y de cumplimiento a los datos de texto claro del diccionario de datos; almacenar el diccionario de datos como una vista certificada cuando los datos de texto no cifrado del diccionario de datos se determinan en conformidad con las reglas estadísticas y de cumplimiento proporcionar acceso restringido a los datos de texto claro del diccionario de datos a través de interfaces de escritorio virtuales seguras.

Description

DESCRIPCIÓN
Sistema en red altamente seguro y procedimientos para el almacenamiento, procesamiento y transmisión de información personal sensible
Campo de la tecnología
La presente divulgación se refiere, en general, a redes seguras y, más particularmente, a la protección de la información dentro de una red de ordenadores.
Antecedentes
Varias industrias recopilan información personal sobre individuos. Independientemente de la industria en particular, la información personal se considera altamente sensible y a menudo necesita ser protegida en un intento de evitar el acceso no autorizado. Por ejemplo, en el contexto de la atención médica, los proveedores de atención médica a menudo usan plataformas informáticas mantenidas localmente para administrar y proteger los registros de los pacientes. Estas plataformas informáticas mantenidas localmente permiten a los proveedores de atención médica satisfacer sus deberes bajo los estándares de la industria y el gobierno, tal como la Health Insurance Portability and Accountability Act ("HIPAA").
A menudo, los investigadores y otros terceros desean acceder a la información personal. En la industria de la salud, la información personal no puede darse a los investigadores hasta que esté protegida. Sin embargo, la tecnología informática moderna con frecuencia permite realizar ingeniería inversa de la información personal "segura" en sus datos de origen no seguros. Esto no es conveniente debido a que da a terceros acceso no autorizado a información personal sensible.
El documento US 2002/073138 A1 divulga la desidentificación y vinculación de los registros de datos usados en hospitales y bancos, en el que un servidor recibe de los registros de datos desidentificados de los ordenadores cliente y compara los registros desidentificados recibidos con los registros maestros de la base de datos con el fin de determinar cuáles registros de los registros desidentificados y los registros maestros deben vincularse.
El documento US 7 870 614 B1 divulga un procedimiento de procesamiento para el uso de conjuntos de datos asociados con identificadores de tarjetas de transacciones, al mantener una asociación entre identificadores de alias e identificadores de tarjetas de transacciones para un acceso seguro y la decodificación.
El documento US 2005/268094 A1 divulga el cifrado de registros de datos de pacientes de múltiples fuentes para superar las variaciones de las fuentes de datos en técnicas de cifrado individuales y en el contenido de los registros de datos, en el que los registros de datos desidentificados recibidos de múltiples fuentes de datos se ensamblan en una base de datos longitudinal para la investigación de mercado y otros análisis.
Sumario
La presente invención define un entorno informático seguro de acuerdo con la reivindicación 1 y un procedimiento de acuerdo con la reivindicación 11. Las realizaciones adicionales se establecen en las reivindicaciones dependientes 2­ 10 y 12-15.
La presente divulgación en general proporciona un sistema en red altamente seguro y procedimiento para el almacenamiento, procesamiento y transmisión de información sensible, tal como personal/privada. Los entornos informáticos colaboradores de datos almacenan información personal sensible. La información personal se limpia por un entorno informático colaborador de datos mediante el uso de reglas/lógica específicas proporcionadas a los entornos informáticos colaboradores de datos por un entorno informático de instalaciones seguras. El entorno informático de instalaciones seguras transmite las mismas reglas/lógica a cada entorno informático colaborador de datos. Por lo tanto, la limpieza de datos en cada entorno informático colaborador de datos se produce de la misma manera.
La información personal limpia se sala (mediante el uso de una sal pública) y se aplica una función hash mediante el uso de un algoritmo hash unidireccional. Cada entorno informático colaborador de datos usa el mismo algoritmo hash unidireccional y sal pública. Esto garantiza que a la información personal limpia para un individuo o agrupación de individuos asociados con cualquier entorno informático colaborador determinado se le aplique una función hash en un campo al que se le ha aplicado la función hash estructurado de forma idéntica o registre en múltiples entornos informáticos colaboradores de datos (es decir, todos los entornos informáticos colaboradores proporcionan datos que deben protegerse de esa instalación estructurados de la misma manera).
Los datos (que incluyen al menos parcialmente la información personal a la que se ha aplicado la función hash) se comunican desde los entornos informáticos colaboradores de datos al entorno informático de instalaciones seguras. La información personal a la que se ha aplicado la función hash se sala y se aplica una función hash en la misma una segunda vez mediante el uso de una sal privada y un algoritmo hash unidireccional. La sal privada se mantiene únicamente dentro del entorno informático de instalaciones seguras y no se comunica ni es accesible de cualquier otra manera a terceros (es decir, entornos informáticos colaboradores de datos y/o terceros, por ejemplos, investigadores, dispositivos informáticos). Esto protege además los datos privados de una manera que impide que terceros vuelvan a identificar la segunda información personal a la que se ha aplicado la función hash en sus datos de origen a los que no se ha aplicado la función hash.
El segundo valor de datos personales hash se vincula a los segundos valores de datos hash previamente (cuando sea posible) y se le asigna una ID única. Esta vinculación de los valores de los datos a una ID única proporciona una plataforma de datos segura y sólida, por ejemplo, para investigación o minería de datos, debido a que los datos a los que no se ha aplicado la función hash de un entorno informático colaborador de datos se vinculan y son accesibles junto con los datos relacionados de otros entornos informáticos colaboradores de datos a través de las ID únicas.
En una realización, individuos particulares proporcionaron acceso a la información altamente segura, tal como investigadores, que desean acceder a los datos, identificar parámetros para un proyecto de investigación. En respuesta, el entorno informático de instalaciones seguras compila datos de diversas fuentes (vinculadas mediante el uso de ID únicas) en un diccionario de datos. El diccionario de datos se somete a análisis estadístico y de cumplimiento relacionados con el potencial de que un investigador vuelva a identificar los datos de origen a los que no se ha aplicado la función hash. Cuando el diccionario de datos satisface el análisis estadístico y de cumplimiento, el diccionario de datos se almacena y se presenta al investigador como una vista certificada.
Un investigador puede tener acceso a una o más vistas certificadas a través de una red privada virtual. Cada vista certificada puede presentarse a través de una interfaz de escritorio virtual diferente. El acceso a las vistas certificadas, a través de la red privada virtual, por un ordenador del investigador puede implicar un proceso de autenticación de dos factores. De esta manera, se proporciona una solución técnica para permitir, entre otras cosas, que los almacenes de datos privados se mantengan de forma segura como datos privados mientras que de cualquier otra manera se pone a disposición de manera más segura para los usuarios certificados de una manera limitada y controlada.
Breve descripción de los dibujos
Las realizaciones de dispositivos, sistemas, y procedimientos se ilustran en las figuras de dibujos adjuntos, los cuales se destinan a ser ejemplares y no limitantes, en los cuales las referencias similares se destinan a referirse a partes similares o correspondientes, y en las cuales:
La Figura 1 ilustra una realización de un sistema en red seguro para proteger la información personal/privada y proporcionar acceso limitado/controlado a la información personal segura de acuerdo con la presente divulgación;
La Figura 2A es un diagrama de flujo de proceso que ilustra un procedimiento para transformar información personal en información personal segura en la red de acuerdo con la presente divulgación;
La Figura 2B es un diagrama de flujo de proceso que ilustra además el procedimiento de la Figura 2A para transformar la información personal en información personal segura por dos colaboradores de datos separados y distintos en la red de acuerdo con la presente divulgación;
La Figura 3 es un diagrama de flujo de proceso que ilustra un procedimiento para hacer coincidir y vincular valores de datos hash de una bóveda de identidades mediante el uso de ID únicas de acuerdo con la presente divulgación;
Las Figuras 4A y 4B son diagramas de flujo de proceso que ilustran un procedimiento para reintroducir/reafirmar las ID únicas generadas previamente de acuerdo con la presente divulgación;
La Figura 5 ilustra una representación de estructura de datos ejemplar de ID únicas y valores hash concatenados asociados dentro de la bóveda de identidades de acuerdo con la presente divulgación;
La Figura 6 ilustra un ejemplo de cómo los datos de reclamaciones relacionados y los datos de registros clínicos pueden asociarse en diversos almacenamientos de datos mediante el uso de una ID única en una realización de datos de atención médica de una red de acuerdo con la presente divulgación; y
La Figura 7 ilustra una arquitectura de sistema de la red privada virtual (VPN) ilustrada en la Figura 1 de acuerdo con la presente divulgación.
Descripción detallada
La descripción detallada de la presente divulgación expuesta en la presente memoria hace referencia a los dibujos adjuntos, los cuales muestran diversas realizaciones a modo de ilustración. Si bien estas diversas realizaciones se describen con suficiente detalle para permitir que los expertos en la técnica lleven a la práctica la divulgación, debe entenderse que pueden realizarse otras realizaciones y que pueden realizarse cambios lógicos y físicos sin apartarse del espíritu y el ámbito de la divulgación. Por lo tanto, la descripción detallada en la presente memoria se presenta únicamente con fines ilustrativos y no de limitación. Por ejemplo, las etapas enumeradas en cualquiera de las descripciones del procedimiento o proceso pueden ejecutarse en un orden distinto al presentado y no se limitan al orden presentado. Además, las referencias a una realización singular pueden incluir realizaciones plurales, y las referencias a más de un componente pueden incluir una realización singular.
La presente divulgación proporciona procesos extensos y especializados para transformar la información personal en datos seguros. La presente divulgación proporciona además bases de datos particularizadas que contienen grandes cantidades de reclamaciones médicas desidentificadas, registros médicos electrónicos y otros datos, tales como información sociodemográfica recopilada de bases de datos de investigación de consumidores estructuradas para proporcionar acceso automatizado a grandes cantidades de información. Si bien las realizaciones ilustrativas descritas en la presente memoria pueden relacionarse con la información de atención médica, debe apreciarse que los sistemas seguros descritos pueden implementarse de acuerdo con la divulgación para la protección y transformación de otros tipos de información sensible, tal como información financiera, información legal, información de seguridad nacional, o similares (en general denominada en la presente memoria como información "personal" o "privada"). Los sistemas y procesos en red sofisticados, especializados y especialmente configurados descritos en la presente memoria, por ejemplo, pueden facilitar la investigación de atención médica basada en datos sin comprometer la privacidad con respecto a la información personal sensible (de nuevo, la información protegida, podría ser fácilmente otra información que requiera altos niveles de seguridad, privacidad y control mientras que facilita el acceso controlado para la manipulación y procesamiento). Específicamente, los sistemas en la realización ilustrada se configuran para proporcionar, entre otras cosas, altos niveles de seguridad de grandes cantidades de datos personales/privados mientras que proporcionan acceso a los datos personales/privados seguros de una manera que beneficia a la industria de la salud y sus pacientes.
La protección y la seguridad de los datos digitales personales es un problema técnico persistente que surgió después de la llegada del ordenador. El problema se ve agravado por la proliferación del uso de dispositivos digitales y los volúmenes de datos recopilados, accesibles y procesados por dichos dispositivos. Un problema técnico adicional se refiere al mantenimiento de la seguridad y la privacidad de grandes cantidades de datos personales mientras que proporcionan acceso digital a los datos para la investigación destinada a promover el uso y la utilidad de las grandes cantidades de datos, tal como para mejorar los resultados de los consumidores y pacientes y la prestación de atención médica. Resultará evidente de la lectura de la descripción detallada a continuación que estos problemas técnicos se resuelven mediante las diversas enseñanzas en la presente memoria.
Con referencia a la Figura 1, se describe un sistema en red seguro 100 para proteger la información personal y proporcionar acceso limitado y controlado a los datos seguros. El sistema 100 incluye uno o más entornos informáticos colaboradores de datos 102. Cada entorno informático colaborador de datos 102 incluye un almacenamiento de datos 104 que contiene datos de texto claro. Por ejemplo, los datos de texto claro pueden incluir datos de reclamaciones de atención médica y datos clínicos que se componen parcialmente de información personal. Los datos de reclamaciones de atención médica de texto claro pueden ser datos separados y distintos de los datos clínicos de texto claro. Cada entorno informático colaborador de datos 102 también incluye un procesador 106 que está en comunicación con el almacenamiento de datos 104 y que se configura para desinfectar o limpiar y aplicar la función hash a la información personal como se describe a continuación con respecto a las Figuras 2A y 2B.
Por lo general, la información personal limpia y a la que se ha aplicado la función hash y la información no personal de texto claro asociada se comunica a una zona de recepción de datos 110 de un entorno informático de instalaciones seguras 108. La transmisión de los datos puede producirse activamente por el procesador 106 (es decir, la zona de recepción de datos 110 recibe pasivamente los datos). Alternativamente, la transmisión de los datos puede producirse pasivamente con respecto al entorno informático colaborador de datos 102 (es decir, un procesador del entorno informático de instalaciones seguras 108 puede recuperar activamente los datos del entorno informático colaborador de datos 102). La transmisión de estos datos puede producirse en tiempo real o puede producirse en procesos por lotes. En la zona de recepción de datos 110, los datos se organizan y preparan para su posterior procesamiento como se divulga a continuación en la presente memoria.
Los datos limpios se cargan y almacenan en el almacenamiento o las bases de datos respectivas. Por ejemplo, los datos de reclamaciones de atención médica y los datos clínicos pueden almacenarse en bases de datos, tales como un almacenamiento de reclamaciones desidentificadas 112 y un almacenamiento clínico desidentificado 114 de una zona de extracción 116, transformación y carga (ETL) del entorno informático de instalaciones seguras 108, respectivamente. Un procesador 118 de la zona ETL 114 aplica la función hash a la información personal previamente cifrada por segunda vez, como se describe a continuación en la presente memoria con referencia a las Figuras 2A y 2B.
Los segundos valores de información personal a los que se ha aplicado la función hash se almacenan dentro de una bóveda de identidades 112. Los valores de información personal a los que se ha aplicado la función hash nuevamente y almacenados se "vinculan" después por el procesador 118 como se describe con referencia a la Figura 3 a continuación. Una vez que una ID única se asocia con un valor de información personal almacenado recientemente, la misma ID única se asocia con los segundos datos limpios y a los que se ha aplicado la función hash (dentro de los diversos almacenamientos) a los cuales se refiere. Por ejemplo, cuando los datos son datos de atención médica, la ID única se asocia dentro de los segundos datos de reclamaciones limpios a los que se ha aplicado la función hash y los datos clínicos almacenados en los almacenamientos de reclamaciones y clínicos desidentificados 116, 118.
Antes de que los datos limpios a los que se ha aplicado la función hash se almacenen en diversas bases de datos de almacenamiento, pueden procesarse para cambiar las ID de encuentro, las ID de proveedor y las ID de instalación, proporcionados por el entorno informático colaborador de datos 102, en ID alternativas secuenciales. Esto ayuda a eliminar el seguimiento de los datos limpios desidentificados a sus datos de origen almacenados dentro del almacenamiento de datos 104 del entorno informático colaborador de datos 102.
Cuando un investigador, a través de un dispositivo informático investigador 122, indica que quiere llevar a cabo una investigación, se crea un "diccionario de datos" a partir de los datos clínicos y de reclamaciones dentro de los almacenamientos de reclamaciones y clínicos desidentificados 112, 114. El diccionario de datos es esencialmente una descripción de los datos presentados en una vista certificada. Los datos que componen un diccionario de datos pueden ser específicos de un área/ubicación geográfica, pertenencia (por ejemplo, pertenencia a un plan o programa de cobertura particular), un dominio de datos, tipo de datos o algún otro interés definido por el investigador. Por ejemplo, un diccionario de datos ilustrativo puede contener indicadores como el nombre de la tabla, el nombre del campo, la descripción de la empresa y diversos parámetros, que incluyen el tipo de datos, la longitud del campo y los valores válidos.
El diccionario de datos generado se comunica a una zona de almacenamiento de datos 124 donde se analiza el diccionario de datos para el cumplimiento con respecto a los estándares de claridad/propiedad. La zona de almacenamiento de datos 124 incluye un almacenamiento del esquema de administración 126 que almacena reglas/lógica relacionadas con estándares de claridad/propiedad que los datos deben cumplir antes de ser visibles por un investigador. Una regla ilustrativa identifica los campos de datos que presentan riesgo de reidentificación y que deben eliminarse del diccionario de datos. Otra regla ilustrativa identifica los campos que presentan riesgo de reidentificación y contienen valores que deben consolidarse para disminuir el riesgo. Una lista ilustrativa y no limitante de estos valores de datos incluye el tamaño de la base, el estado de descarga y los canales de admisión. Una regla ilustrativa adicional identifica los campos que requieren un lenguaje estándar para cumplir con la auditoría. Otra regla ilustrativa puede identificar campos que deben marcarse como características de información personal potencialmente identificables.
También pueden aplicarse varias reglas/lógica de desidentificación estadística a los diccionarios de datos en la zona de almacenamiento de datos 124. Las reglas/lógica de desidentificación estadísticas usan metodología estadística para evaluar los datos de un diccionario de datos, así como los registros públicos para, mediante la reducción de datos y la consolidación de valores, lograr una determinación estadística de un riesgo muy pequeño de reidentificación. Puede establecerse un valor de riesgo umbral de reidentificación de datos desidentificados en función, por ejemplo, de la ubicación geográfica, el número de pacientes, la edad, momento de la aparición de la enfermedad, el número de proveedores o los datos relacionados. Las reglas/lógica de desidentificación estadísticas pueden almacenarse en el almacenamiento del esquema de administración 126 o en un almacenamiento separado (no se ilustra).
Cuando un diccionario de datos pasa los estándares de cumplimiento, como se establece en las reglas/lógica de la zona de almacenamiento de datos 124, el diccionario de datos se comunica a una zona de acceso a datos 128 donde se almacena en un almacenamiento de vista certificado 130. Cada almacenamiento de vista certificado 130 puede incluir sólo un diccionario de datos. Alternativamente, cada almacenamiento de vistas certificadas 130 puede contener todas las vistas certificadas aprobadas para su visualización por un solo investigador, o las vistas certificadas pueden no requerir almacenamiento. Un investigador puede ver diferentes vistas certificadas desde diferentes escritorios a la manera de una y sola vista por escritorio. Esto evita el acceso no autorizado a vistas certificadas por investigadores no aprobados. Si bien puede haber una superposición (por ejemplo, datos comunes) entre dos puntos de vistas certificadas, puede ser conveniente por motivos de seguridad que cada vista certificada sea totalmente independiente de otra.
Un investigador puede indicar que desea que se aumente una vista certificada previamente aprobada para incluir más tipos de datos. Cuando esto ocurre, los otros tipos de datos se identifican dentro de los almacenamientos de datos 112, 114. A continuación estos datos se compilan en los datos originales de la vista certificada. Después la recopilación de datos actualizada posteriormente se somete a los análisis estadístico y de cumplimiento descritos con respecto a la generación de un nuevo diccionario de datos. Si se analiza la vista certificada aumentada para que tenga un riesgo muy pequeño de reidentificación de datos de origen, se almacena como una vista certificada actualizada y se publica a los investigadores autorizados para ver la vista certificada original.
El entorno informático de instalaciones seguras 108 también incluye una red privada virtual (VPN) 132 que se configura para restringir el acceso del ordenador del investigador 122 a ciertas vistas certificadas. La estructura de la VPN 132 y su interacción con la zona de acceso a datos 128 y los ordenadores de los investigadores 122 se describen además con detalle a continuación con respecto a la Figura 7.
Ahora se presta atención a la Figura 2A, que ilustra un procedimiento 200 para transformar y proteger la información personal/privada/sensible (todos denominadas en la presente memoria como "información personal"), de acuerdo con la presente divulgación. En el bloque 202, un entorno informático colaborador de datos 102 estandariza/desinfecta el texto claro de la información personal. En el bloque 204, el entorno informático colaborador de datos 102 sala y aplica la función hash a la información personal estandarizada/desinfectada. En el bloque 206 el entorno informático de instalaciones seguras 108 recibe después la información limpia del entorno informático colaborador y sala y aplica la función hash a los valores de información personal previamente limpios/a los que se ha aplicado la función hash. En el bloque 208, el entorno informático de instalaciones seguras 108 almacena los segundos valores de información personal salados y a los que se ha aplicado la función hash dentro de una bóveda de identidades. La bóveda de identidades contiene los segundos valores de información personal almacenados anteriormente, salados y a los que se ha aplicado la función hash asociados con ID únicas. En el bloque 210, el entorno informático de instalaciones seguras 108 vincula los segundos valores de información personal almacenados, salados y a los que se ha aplicado la función hash con los valores hash almacenados anteriormente (si es posible, como se describe en la presente memoria) y asocia los segundos valores de información personal salados y a los que se ha aplicado la función hash con ID únicas asociadas.
Cada uno de los bloques ilustrados en el procedimiento 200 de la Figura 2A implica múltiples etapas de procesamiento, las cuales se describen más específicamente con referencia a la Figura 2B. La Figura 2B ilustra la transformación y protección de los datos de información personal mediante dos entornos informáticos colaboradores de datos separados y distintos 102. Los bloques/procesos correspondientes de los entornos informáticos colaboradores de datos 102 se describen y numeran colectivamente en la presente memoria debido a que el procesamiento de datos de información personal por diferentes entornos informáticos colaboradores datos 102 es exactamente el mismo. Esto garantiza que el procesamiento de datos de información personal por diferentes entornos informáticos colaboradores de datos 102 genere valores hash de salida estructurados sustancialmente de manera similar que pueden vincularse con éxito por el entorno informático de instalaciones seguras 108.
Cada entorno informático colaborador de datos 102 estandariza/desinfecta el texto claro de la información personal mediante el uso de reglas/lógica específicas (ilustradas como 212). Una lista ilustrativa y no limitante de información personal incluye el número de seguro social (SSN), nombre, apellido y dirección. Aunque no es información personal, las ID de colaboradores también se salan y se les aplica la función hash de acuerdo con las enseñanzas descritas en la presente memoria. En el contexto de la industria de la salud, la información personal puede incluir además la ID de Medicare, el número de beneficiario de Medicaid y el número de familia de Medicaid, por ejemplo. Una regla de desinfección ilustrativa puede cambiar el texto claro (que puede incluir caracteres tanto en mayúsculas como minúsculas) en texto puramente en mayúsculas o puramente en minúsculas. Esta regla garantiza que la aplicación de la función hash del texto claro produzca valores idénticos debido a que, por ejemplo, "E" produce un valor hash diferente que "e". Otra regla ilustrativa elimina los signos de puntuación/caracteres del texto claro. Otra regla ilustrativa elimina los espacios dentro del texto claro. Una regla ilustrada adicional elimina los finales de líneas y los retornos de carro del texto claro.
El texto estandarizado/desinfectado se sala mediante el uso de una "sal común" (ilustrada como 214). El término "sal común", como se usa en la presente memoria, se refiere a una sola sal usada por cada entorno informático colaborador de datos 102. "Salazón", como se conoce a los expertos en la técnica es un concepto de criptografía que implica proporcionar datos adicionales, como un número aleatorio común, como una entrada adicional (por ejemplo, junto con información confidencial o privada) a una función unidireccional a la que se aplica la función hash a la información privada.
La concatenación de la sal y el texto claro desinfectado de la información personal se convierte en el resumen del mensaje (ilustrado como 216) que se introduce y se aplica una función hash mediante el uso de algoritmo hash (ilustrado como 218). Por ejemplo, el algoritmo hash puede ser un algoritmo hash unidireccional tal como SHA-256. Sin embargo, un experto en la técnica debe apreciar que pueden usarse diferentes algoritmos hash unidireccionales, en dependencia de los datos a los que se va a aplicar la función hash y el nivel de seguridad que se va a alcanzar. Los valores hash de información personal resultantes (ilustrados como 220) pueden representarse como valores de 64 caracteres.
A modo de ilustración, la Tabla 1 a continuación representa información personal ilustrativa de texto claro antes de la desinfección y la Tabla 2 representa los valores hash resultantes de la información personal protegida desinfectada y salada.
Tabla 1. Información personal de texto claro de predesinfección ilustrativa.
Figure imgf000006_0001
Tabla 2. Valores hash ilustrativos resultantes de la información personal desinfectada y salada de la Tabla 1.
Figure imgf000007_0002
Una vez que el entorno informático de instalaciones seguras 108 comunica y recibe los valores hash (ilustrados como 220), los valores hash se salan mediante el uso de una "sal privada" (ilustrada como 222). Como se usa en la presente memoria, el término "sal privada" se refiere a una sal mantenida dentro y usada únicamente por el entorno informático de instalaciones seguras 108. La sal privada no se comunica a los entornos informáticos colaboradores de datos 102. Esto proporciona un nivel adicional de seguridad que impide la ingeniería inversa de valores hash en sus datos de origen sin aplicación de la función hash.
A los valores salados (ilustrados como 222) se les aplica la función hash por segunda vez mediante el uso de un algoritmo hash unidireccional (ilustrado como 224). La segunda aplicación de la función hash de los datos puede producir valores de 64 caracteres. Al igual que con la primera aplicación de la función hash de los datos (ilustrado como 218), el algoritmo hash SHA-256 también puede usarse por el entorno informático de instalaciones seguras 108. Del mismo modo, un experto en la técnica debe apreciar que pueden usarse diferentes algoritmos hash en dependencia del tipo de datos hash y el nivel de seguridad que se va a alcanzar. Un experto en la técnica debe apreciar que los algoritmos hash usados para aplicar la función hash a los datos (ilustrados como 218 y 224) pueden ser los mismos o diferentes en dependencia de la implementación de la presente divulgación.
A modo de ilustración, la Tabla 3 siguiente representa los segundos valores hash resultantes de los primeros valores hash de la Tabla 2. Una comparación de las Tablas 2 y 3 ilustra que los valores hash generados por los entornos informáticos colaboradores de datos 102 son diferentes de los generados por el entorno informático de instalaciones seguras 108. Este es el resultado directo del uso de las diferentes sales (es decir, públicas y privadas). Esto disminuye o elimina el potencial de los segundos datos hash que se vuelven a identificar en sus datos de origen de texto claro.
Tabla 3. Segundos valores hash resultantes ilustrativos de los primeros valores hash de la Tabla 2.
Figure imgf000007_0001
Los diferentes campos ejecutados a través del algoritmo hash pueden etiquetarse con una etiqueta hash 226 que identifica eficazmente el campo del valor hash antes del almacenamiento dentro de una bóveda de identidades, o la salida del valor hash del algoritmo hash 224 puede ser la etiqueta hash 226 para el almacenamiento en la bóveda de identidades. Los segundos valores hash, en cualquier caso, se almacenan después en la bóveda de identidades (como la bóveda de identidades 120) (ilustrada como 228).
Una vez almacenados en la bóveda de identidades, los segundos valores hash coinciden y se vinculan a los segundos valores hash almacenados anteriormente, siempre que sea posible (ilustrado como 230). La coincidencia y vinculación de los datos implica el uso de ID únicas. Cada ID única se asocia con datos representativos de una persona específica. Los segundos datos hash almacenados recientemente reciben una ID única recién generada (cuando la persona asociada con los datos almacenados recientemente no está representada por datos almacenados anteriormente en la bóveda de identidades) o recibe una ID única generada anteriormente (cuando la persona asociada a los datos almacenados recientemente está representada por datos almacenados anteriormente almacenados en la bóveda de identidades).
Se describe un procedimiento 300 para generar una ID única y hacer coincidir y vincular valores de datos hash con la bóveda de identidades con referencia a la Figura 3. Los valores hash individuales (por ejemplo, ID de colaborador, SSN, nombre, apellido, dirección, DOB, etc.) se concatenan para cada registro/archivo cargado en la bóveda de identidades (ilustrado como 302). En un ejemplo ilustrativo de la industria de la salud, los valores hash individuales pueden incluir además una ID de Medicare. Un procesador determina si existe una coincidencia exacta entre el valor de ID colaborador al que se ha aplicado la función hash recientemente cargado/almacenado y un valor de ID de colaborador al que se ha aplicado la función hash almacenado anteriormente (ilustrado como 304). El procesador también puede determinar si existe una coincidencia exacta entre el valor SSN al que se ha aplicado la función hash almacenado recientemente y el valor DOB de texto claro asociado, y los valores SSN a los que se ha aplicado la función hash almacenados anteriormente y sus valores DOB de texto claro asociados (ilustrados como 306). El procesador puede determinar además si existe una coincidencia exacta entre el valor ID de Medicare al que se ha aplicado la función hash almacenado recientemente y el valor DOB de texto claro asociado, y los valores ID de Medicare a los que se ha aplicado la función hash almacenados anteriormente y sus valores DOB de texto claro asociados (ilustrados como 308). El procesador puede determinar además si existe una coincidencia exacta entre el valor de nombre al que se ha aplicado la función hash almacenado recientemente, el valor de apellido al que se ha aplicado la función hash y su valor DOB de texto claro asociado, valor de estado y el valor de código postal, y los valores de nombre a los que se ha aplicado la función hash almacenados anteriormente, los valores de apellidos a los que se ha aplicado la función hash , y sus valores DOB de texto claro asociados, valores de estado y valores de código postal (ilustrados como 310). Si se determina que existe coincidencia, la ID única asociada a los datos almacenados anteriormente se asocia con los datos almacenados recientemente (ilustrado como 312). La vinculación de los datos garantiza que la información personal a la que se ha aplicado la función hash almacenada de una persona esté asociada dentro de la bóveda de identidades. Esto proporciona un conjunto de datos sólido para fines de investigación. Alternativamente, si no se determina que existen coincidencias, se genera una nueva ID única no generada anteriormente y se asocia con la información personal a la que se ha aplicado la función hash almacenada recientemente (ilustrada como 314). Si los datos hash almacenados recientemente son el primer lote de datos recibidos de un entorno informático colaborador de datos 102 específico, el punto de decisión 304 puede omitirse debido a que no existirá ninguna ID de colaborador a la que se ha aplicado la función hash coincidente para ese colaborador en la bóveda de identidades.
Si se determina una coincidencia exacta entre el valor de los datos hash almacenados recientemente y los datos almacenados anteriormente, el procesador puede comparar todos los valores demográficos de los datos almacenados anteriormente (que incluyen los valores hash y de texto claro) con valores análogos de los datos almacenados anteriormente coincidentes (no se ilustra). Cada ID única generada puede ser un valor alfa, numérico o alfanumérico.
Con referencia ahora a las Figuras 4A y 4B, se describe un procedimiento 400 para volver a reintroducir/reafirmar ID únicas generadas anteriormente. Es posible que sea necesario modificar/reafirmar una ID única asociada a los datos hash específicos cuando los datos adicionales se almacenan posteriormente dentro de la bóveda de identidades. Reafirmar las ID únicas puede implicar un proceso de reintroducción. Por ejemplo, cuando los datos hash almacenados posteriormente incluyen un valor elemento/campo de datos adicional que no está presente en los datos almacenados anteriormente, la ID única de los datos almacenados anteriormente puede modificarse/reintroducirse y aplicarse a los datos hash almacenados anterior y posteriormente y relacionados. De acuerdo con un ejemplo, los datos hash almacenados pueden ser un registro de puente que asocia múltiples archivos de datos hash. Si el registro de puente se elimina/corrompe (por ejemplo, durante el mantenimiento del entorno informático de instalaciones seguras 108), es posible que sea necesario que se reafirme la ID única asociada con el registro de puente para el registro de puente y/o cualquier registro/archivo de datos asociado.
La reintroducción puede implicar determinar si existe una coincidencia exacta entre un valor de ID colaborador al que se ha aplicado la función hash recientemente cargado/almacenado y valores de ID colaboradores a los que se ha aplicado la función hash almacenados anteriormente (ilustrado como 402). La reintroducción también puede incluir determinar si existe una coincidencia exacta entre un valor SSN al que se ha aplicado la función hash almacenado recientemente y su valor DOB de texto claro asociado, y valores SSN a los que se ha aplicado la función hash almacenados anteriormente y sus valores DOB de texto claro asociados (ilustrados como 404). La reintroducción puede implicar además determinar si existe una coincidencia exacta entre el valor ID de Medicare al que se ha aplicado la función hash almacenado recientemente y el valor DOB de texto claro asociado, y los valores ID de Medicare a los que se ha aplicado la función hash almacenados anteriormente y sus valores DOB de texto claro asociados (ilustrados como 406 Además, la reintroducción puede incluir determinar si existe una coincidencia exacta entre los valores de nombre y apellido a los que se ha aplicado la función hash almacenados recientemente, y su valor DOB de texto claro asociado, el valor de estado y el valor de código postal, y los valores de nombre y apellido a los que se ha aplicado la función hash almacenados anteriormente, y sus valores DOB de texto claro, valores de estado y valores de código postal (ilustrados como 408). Mientras que los procesos de reintroducción descritos son idénticos a los usados para la coincidencia/vinculación de datos descritos en la presente memoria con respecto a la Figura 3, un experto en la técnica debe apreciar que la lógica/procesos usados en los procesos de reintroducción y coincidencia/vinculación pueden ser diferentes.
Si se determina que no existen coincidencias, se genera una nueva ID única y se asocia con los datos hash almacenados recientemente (ilustrados como 410). Por el contrario, si se determina que existe una coincidencia, se comparan todos los campos de datos de los datos almacenados actualmente y que coinciden con los datos almacenados anteriormente (ilustrado como 412). Si hay una coincidencia exacta en todos los campos de datos, la ID única asociada con los datos almacenados anteriormente permanece sin cambios y también se asocia con los datos almacenados recientemente (ilustrado como 414). Alternativamente, si los valores de ID de colaboradores a los que se ha aplicado la función hash coinciden y al menos un campo de datos demográficos (por ejemplo, DOB, estado, código postal, etc.) de los datos almacenados recientemente no está presente en los datos almacenados anteriormente, se genera una nueva ID única y se asocia con los datos almacenados anteriormente y recientemente (ilustrado como 416). Cuando se produce la etapa 416, los datos almacenados anteriormente ya no están asociados con su ID única anterior.
La Figura 5 ilustra cómo pueden representarse las ID únicas y sus valores hash concatenados asociados en la bóveda de identidades. Como se ha indicado anteriormente con respecto a la Figura 1, una vez que una ID única se asocia con la información personal a la que se ha aplicado la función hash cargada recientemente, la misma ID única también se asocia con los datos de texto claro (por ejemplo, dentro de los almacenamientos de reclamaciones y clínicos desidentificados 116, 118) a los que se refiere. La Figura 6 ilustra cómo los datos de reclamaciones de atención médica y datos de registros clínicos relacionados pueden asociarse en los almacenamientos de datos a través de una ID única. El formato de datos ilustrado en la Figura 6 puede ser cómo se representan los datos de un diccionario de datos.
Ahora se presta atención a la Figura 7, que ilustra la arquitectura del sistema de la VPN 132 ilustrado en la Figura 1. Un investigador, a través de un dispositivo informático 122, accede a vistas certificadas para las que se ha concedido acceso al investigador. A cada investigador puede concedérsele acceso a una sola vista certificada o múltiples vistas certificadas. Cuando un investigador autentica correctamente una sesión (como se describe en detalle a continuación), la VPN 132 accede a las vistas certificadas del investigador desde el almacenamiento de vistas certificadas 130 de la zona de acceso a datos 128 (ilustrado en la Figura 1) y las coloca en el aislamiento de procesos 702. El aislamiento de procesos 702 proporciona al investigador acceso a todas sus vistas autorizadas durante una sola sesión. Cada vista certificada puede corresponder con una interfaz de escritorio virtual (VDI). Por ejemplo, un investigador que tiene acceso a dos (2) vistas certificadas pueden presentarse con dos (2) VDI al acceder a la red privada virtual (VPN) 132. Esta separación de las vistas certificadas elimina la posibilidad de que un investigador con acceso a múltiples vistas certificadas combine datos de dos o más vistas certificadas, al limitar de esta manera eficazmente el riesgo de reidentificación de la información personal.
El acceso del ordenador del investigador 122 a la vista certificada a través de la VPN 132 puede estar restringido por una autenticación de dos factores. Una autenticación ilustrativa de dos factores incluye (1) un factor de nombre de usuario y contraseña y (2) un factor de teléfono. Cada uno de los factores de autenticación puede usar protocolos seguros y puede almacenarse de forma cifrada. El factor de nombre de usuario y contraseña puede implicar que el investigador introduzca un nombre de usuario y contraseña específicos de un directorio particular en su dispositivo informático 122. Una vez que se proporcionan las credenciales de nombre de usuario y contraseña, se solicita al investigador que realice la segunda autenticación (es decir, factor de teléfono). Esta autenticación puede realizarse de varias maneras. Por ejemplo, la VPN 132 puede hacer que el teléfono del investigador reciba una llamada. Para autenticarse, el investigador responde la llamada telefónica y proporciona un número de identificación personal (PIN). En otro ejemplo, la VPN 132 hace que el teléfono del investigador reciba un mensaje de texto. Para autenticarse, el investigador responde al mensaje de texto mediante el uso del PIN. En otro ejemplo, la VPN 132 puede hacer que una aplicación en el teléfono del investigador reciba una notificación. Para autenticarse, el investigador accede a la aplicación, introduce el PIN y selecciona "autenticar".
La información de autenticación de dos factores (es decir, nombre de usuario, contraseña y PIN) se comunica desde el ordenador del investigador 122 a través de un cortafuegos 704 a un servidor de análisis 706. Por ejemplo, el servidor de análisis 706 puede ser el servidor NETEZZA MAKO® producido por International Business Machines Corporation (IBM). Para autenticar al investigador dentro de la VPN 132, el servidor de análisis 706 se comunica con un servidor de autenticación 708. El servidor de autenticación puede ser un servidor ligero de protocolo de acceso a directorios (LDAP).
Aunque los aspectos de la presente divulgación se describen con respecto a ejemplos en un entorno de datos de atención médica, debe entenderse que diversas técnicas divulgadas pueden usarse en numerosos otros campos de la tecnología en los cuales la información sensible debe transformarse, protegerse y proporcionarse a las personas en una base de acceso limitado y controlado. Diversas aplicaciones de las técnicas divulgadas proporcionan mejoras sustanciales en el funcionamiento del aparato informático y los entornos técnicos en los cuales se implementan las diversas aplicaciones.

Claims (15)

REIVINDICACIONES
1. Un entorno informático seguro (108) para transformar, proteger y transmitir información personal, que comprende:
un procesador (118); y
un dispositivo de memoria que incluye instrucciones operables para ser ejecutadas por el procesador (118) para realizar un conjunto de acciones, y la configuración del procesador (118) para:
recibir los primeros valores desinfectados de información personal a la que se ha aplicado la función hash (220) y los datos de texto claro correspondientes de entornos informáticos colaboradores de datos (102) que están en comunicación con el entorno informático seguro (108);
transformar (206) los primeros valores desinfectados de información personal a la que se ha aplicado la función hash (220) en segundos valores de información personal a los que se ha aplicado la función hash (226);
vincular (210), mediante el uso de ID únicas, los segundos valores de información personal a los que se ha aplicado la función hash (226) con los segundos valores de datos hash (226) adicionales almacenados anteriormente dentro de una bóveda de identidades (120, 228), en el que cada uno de las ID únicas se asocian con uno de los segundos valores de datos hash almacenados anteriormente;
generar un diccionario de datos en respuesta a la recepción de los parámetros del proyecto de investigación, el diccionario de datos incluye los datos de texto claro de múltiples almacenamientos de datos, en el que cada uno de los entornos informáticos colaboradores de datos incluye uno de los múltiples almacenamientos de datos que alojan los datos de texto claro, al menos algunos de los datos de texto claro asociados por las ID únicas;
aplicar reglas estadísticas y de cumplimiento a los datos de texto claro del diccionario de datos;
almacenar el diccionario de datos como una vista certificada cuando los datos de texto no cifrado del diccionario de datos se determinan en conformidad con las reglas estadísticas y de cumplimiento
proporcionar acceso restringido a los datos de texto claro del diccionario de datos a través de interfaces de escritorio virtuales seguras.
2. El entorno informático seguro (108) de la reivindicación 1, en el que los primeros valores desinfectados de información personal a la que se ha aplicado la función hash (220) y los datos de texto claro correspondientes se reciben desde los dispositivos informáticos de los proveedores de atención médica,
en el que a los primeros valores desinfectados de información personal a la que se ha aplicado la función hash (220) se les aplica la función hash por los dispositivos informáticos del proveedor de atención médica mediante el uso de una única sal común (214), y
en el que los segundos valores de información personal a los que se ha aplicado la función hash (226) se generan mediante el uso de una sal privada (222) inaccesible para los dispositivos de terceros.
3. El entorno informático seguro (108) de la reivindicación 1 o la reivindicación 2, en el que proporcionar acceso restringido a los datos de texto claro incluye compilar las vistas certificadas aprobadas para un solo investigador en un único almacenamiento y proporcionar una interfaz de escritorio virtual para cada vista certificada, los datos accesibles a través de una interfaz de escritorio virtual no son transmisibles con los datos accesibles a través de otra interfaz de escritorio virtual.
4. El entorno informático seguro (108) de una cualquiera de las reivindicaciones 1 a 3, en el que el procesador se configura además para generar una nueva ID única para los segundos valores de información personal a los que se ha aplicado la función hash (226) cuando los segundos valores de información personal a los que se ha aplicado la función hash (226) no se vinculan con los valores de datos hash almacenados anteriormente (226).
5. El entorno informático seguro (108) de una cualquiera de las reivindicaciones 1 a 4, en el que los primeros valores de información personal a los que se ha aplicado la función hash desinfectados (220) se representan como valores de 64 caracteres.
6. El entorno informático seguro (108) de una cualquiera de las reivindicaciones 1 a 5, en el que los segundos valores de información personal a los que se ha aplicado la función hash (226) asociados a un único registro individual se concatenan antes de vincularse mediante el uso de las ID únicas.
7. Un sistema altamente seguro (100) para transformar y proteger la información personal, que comprende:
un entorno informático colaborador de datos (102) que incluye un procesador (106) configurado para: desinfectar la información personal de texto claro; y
transformar, mediante el uso de una sal común (214) y un primer algoritmo hash (218), la información personal de texto claro desinfectado en los primeros valores hash (220); y
un entorno informático de instalaciones seguras (108) de cualquiera de las reivindicaciones anteriores, en el que el procesador (118) se configura además para:
almacenar los segundos valores de información personal a los que se ha aplicado la función hash (226) dentro de la bóveda de identidades (120, 228), la bóveda de identidades (120, 228) incluye los valores de información personal a los que se ha aplicado la función hash almacenados anteriormente (226) asociados con ID únicas, cada ID única corresponde a una sola persona;
asociaren los múltiples almacenamientos de datos (112, 114) cada información no personal de texto claro almacenado con una ID única asociada con un segundo valor de información personal a la que se ha aplicado la función hash correspondiente (226);
generar la vista certificada para un investigador, la vista certificada compuesta por el diccionario de datos, el diccionario de datos que incluye datos de los múltiples almacenamientos de datos (112, 114); y controlar de forma segura, mediante el uso de una red privada virtual (132), el acceso a la vista certificada por un ordenador del investigador (112).
8. El sistema (100) de la reivindicación 7, en el que la información personal de texto claro se desinfecta con al menos uno de cambiar el texto claro en texto puramente en mayúscula o puramente en minúscula, eliminar signos de puntuación del texto claro, eliminar espacios del texto claro o eliminar los finales de líneas del texto claro.
9. El sistema (100) de la reivindicación 7 o la reivindicación 8, en el que los segundos valores de información personal a los que se ha aplicado la función hash (226) se vinculan a los valores de información personal a los que se ha aplicado la función hash almacenados anteriormente (226) para determinar la satisfacción de al menos uno de los siguientes valores:
(i) una coincidencia exacta entre los valores de ID de colaboradores a los que se ha aplicado la función hash; (ii) una coincidencia exacta entre los valores de los números de seguridad social a los que se ha aplicado la función hash y los valores DOB del texto claro;
(iii) una coincidencia exacta entre los valores ID de Medicare a los que se ha aplicado la función hash y los valores DOB del texto claro; y
(iv) una coincidencia exacta entre valores de nombres a los que se ha aplicado la función hash, valores de apellido a los que se ha aplicado la función hash, valores DOB de texto claro, valores de dirección de estado de texto claro y valores de código postal de texto claro.
10. El sistema (100) de una cualquiera de las reivindicaciones 7 a 9,
en el que la red privada virtual (132) se configura para presentar acceso a múltiples vistas certificadas a un solo dispositivo informático del investigador (122), cada una de las vistas certificadas que pueden verse a través de su propia interfaz de escritorio virtual correspondiente, la red privada virtual (132) se configura además para evitar que el dispositivo informático del investigador (122) comunique datos desde una interfaz de escritorio virtual a otra interfaz de escritorio virtual,
en el que el primer algoritmo hash (218) y un segundo algoritmo hash (224) usados para transformar los primeros valores de información personal a los que se ha aplicado la función hash desinfectados (220) en segundos valores de información personal a los que se ha aplicado la función hash (226) son el mismo algoritmo hash unidireccional; y
en el que la red privada virtual (132) requiere que un investigador realice un proceso de autenticación de dos factores con el fin de obtener acceso a la vista certificada.
11. Un procedimiento para transformar, proteger y transmitir información personal mediante un entorno informático seguro (108), que comprende las etapas de:
recibir los primeros valores de información personal a los que se ha aplicado la función hash desinfectados (220) y los datos de texto claro correspondientes de entornos informáticos colaboradores de datos (102) que están en comunicación con el entorno informático seguro (108);
transformar (206) los primeros valores de información personal a los que se ha aplicado la función hash desinfectados (220) en segundos valores de información personal a los que se ha aplicado la función hash (226);
vincular (210) los segundos valores de información personal a los que se ha aplicado la función hash (226) a otros segundos valores de datos hash almacenados anteriormente dentro de una bóveda de identidades (120, 228), vincular los valores al incluir el uso de ID únicas, en el que cada una de las ID únicas se asocia a uno de los segundos valores de datos hash almacenados anteriormente;
generar un diccionario de datos en respuesta a la recepción de los parámetros del proyecto de investigación, el diccionario de datos incluye los datos de texto claro de múltiples almacenamientos de datos, en el que cada uno de los entornos informáticos colaboradores de datos incluye uno de los múltiples almacenamientos de datos que alojan los datos de texto claro, al menos algunos de los datos de texto claro asociados por las ID únicas;
aplicar reglas estadísticas y de cumplimiento a los datos de texto claro del diccionario de datos; almacenar el diccionario de datos como una vista certificada cuando los datos de texto no cifrado del diccionario de datos se determinan en conformidad con las reglas estadísticas y de cumplimiento; y
proporcionar acceso restringido a los datos de texto claro del diccionario de datos a través de interfaces de escritorio virtuales seguras.
12. El procedimiento de la reivindicación 11, en el que los primeros valores de información personal a los que se ha aplicado la función hash desinfectados (220) se generan mediante el uso de procesos de manipulación de texto, una sal común (214) y un algoritmo hash unidireccional, y
en el que los procesos de manipulación de texto, la sal común (214) y el algoritmo hash unidireccional se usan de forma idéntica por los diversos dispositivos informáticos colaboradores de datos.
13. El procedimiento de la reivindicación 11 o la reivindicación 12,
en el que cada una de las interfaces de escritorio virtual proporciona acceso a una vista certificada.
14. El procedimiento de una cualquiera de las reivindicaciones 11 a 13, que comprende además la etapa de: actualizar la ID única asociada con determinados segundos valores particulares de información personal a los que se ha aplicado la función hash (226) cuando posteriormente se vinculan los segundos valores de información personal a los que se ha aplicado la función hash (226) asociados con los segundos valores particulares de información personal a los que se ha aplicado la función hash (226) que incluyen al menos un campo de datos no presente en los segundos valores particulares de información personal a los que se ha aplicado la función hash (226).
15. El procedimiento de una cualquiera de las reivindicaciones 11 a 14, en el que:
los primeros valores de información personal a los que se ha aplicado la función hash desinfectados (220) se generan mediante el uso de una sal común (214) usada por todos los dispositivos informáticos colaboradores de datos; y
los segundos valores de información personal a los que se ha aplicado la función hash (226) se generan mediante el uso de una sal privada (222) inaccesible para los dispositivos informáticos colaboradores de datos y los dispositivos informáticos del investigador (122).
ES15875851T 2014-10-07 2015-10-07 Sistema en red altamente seguro y procedimientos para el almacenamiento, procesamiento y transmisión de información personal sensible Active ES2848537T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201462060898P 2014-10-07 2014-10-07
PCT/US2015/054444 WO2016108983A2 (en) 2014-10-07 2015-10-07 Highly secure networked system and methods for storage, processing, and transmission of sensitive personal information

Publications (1)

Publication Number Publication Date
ES2848537T3 true ES2848537T3 (es) 2021-08-10

Family

ID=56285132

Family Applications (1)

Application Number Title Priority Date Filing Date
ES15875851T Active ES2848537T3 (es) 2014-10-07 2015-10-07 Sistema en red altamente seguro y procedimientos para el almacenamiento, procesamiento y transmisión de información personal sensible

Country Status (5)

Country Link
US (4) US10956612B2 (es)
EP (2) EP3767472B1 (es)
ES (1) ES2848537T3 (es)
PT (1) PT3204858T (es)
WO (1) WO2016108983A2 (es)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8285656B1 (en) 2007-03-30 2012-10-09 Consumerinfo.Com, Inc. Systems and methods for data verification
US8312033B1 (en) 2008-06-26 2012-11-13 Experian Marketing Solutions, Inc. Systems and methods for providing an integrated identifier
US9256904B1 (en) 2008-08-14 2016-02-09 Experian Information Solutions, Inc. Multi-bureau credit file freeze and unfreeze
US10262362B1 (en) 2014-02-14 2019-04-16 Experian Information Solutions, Inc. Automatic generation of code for attributes
US10757154B1 (en) 2015-11-24 2020-08-25 Experian Information Solutions, Inc. Real-time event-based notification system
US10558817B2 (en) * 2017-01-30 2020-02-11 Foley & Lardner LLP Establishing a link between identifiers without disclosing specific identifying information
WO2018144612A1 (en) 2017-01-31 2018-08-09 Experian Information Solutions, Inc. Massive scale heterogeneous data ingestion and user resolution
US10735183B1 (en) 2017-06-30 2020-08-04 Experian Information Solutions, Inc. Symmetric encryption for private smart contracts among multiple parties in a private peer-to-peer network
US10963434B1 (en) 2018-09-07 2021-03-30 Experian Information Solutions, Inc. Data architecture for supporting multiple search models
US11620403B2 (en) 2019-01-11 2023-04-04 Experian Information Solutions, Inc. Systems and methods for secure data aggregation and computation
US11941065B1 (en) 2019-09-13 2024-03-26 Experian Information Solutions, Inc. Single identifier platform for storing entity data
CA3164250A1 (en) * 2019-12-05 2021-06-10 Liveramp, Inc. Multi-controller opt-out system and method
US11823775B2 (en) * 2020-11-09 2023-11-21 Merative Us L.P. Hashing electronic records
US11880377B1 (en) 2021-03-26 2024-01-23 Experian Information Solutions, Inc. Systems and methods for entity resolution
CN113065126B (zh) * 2021-06-03 2022-05-27 北京数安行科技有限公司 基于分布式数据沙盒的个人信息合规的方法和装置
WO2023069444A1 (en) * 2021-10-21 2023-04-27 Liveramp, Inc. Personal data protection

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013315B1 (en) 1996-11-13 2006-03-14 Intellisync Corporation Synchronization of databases with record sanitizing and intelligent comparison
US20020073138A1 (en) * 2000-12-08 2002-06-13 Gilbert Eric S. De-identification and linkage of data records
US7673344B1 (en) 2002-09-18 2010-03-02 Symantec Corporation Mechanism to search information content for preselected data
EP1743294A4 (en) * 2004-05-05 2009-08-05 Ims Software Services Ltd MULTI-SOURCE LONGITUDINAL DATA ENCRYPTION PROCESS AT PATIENT LEVEL
US7797725B2 (en) * 2004-12-02 2010-09-14 Palo Alto Research Center Incorporated Systems and methods for protecting privacy
JP4715509B2 (ja) * 2005-12-28 2011-07-06 富士通株式会社 個人情報証明方法及び個人情報証明システム
US7873577B1 (en) * 2006-01-27 2011-01-18 Aspect Loss Prevention, LLC Sensitive data aliasing for transaction-card and other applications
US20080005194A1 (en) * 2006-05-05 2008-01-03 Lockheed Martin Corporation System and method for immutably cataloging and storing electronic assets in a large scale computer system
US9355273B2 (en) * 2006-12-18 2016-05-31 Bank Of America, N.A., As Collateral Agent System and method for the protection and de-identification of health care data
US20090048866A1 (en) * 2007-08-17 2009-02-19 Prakash Mahesh Rules-Based System For Routing Evidence and Recommendation Information to Patients and Physicians By a Specialist Based on Mining Report Text
US20120110469A1 (en) * 2010-11-01 2012-05-03 Gregory Magarshak Systems and Methods for Cross Domain Personalization
US9953099B2 (en) * 2010-12-17 2018-04-24 Dst Health Solutions, Llc Repackageable virtualized transparent access to heterogeneous data sources
US9202078B2 (en) * 2011-05-27 2015-12-01 International Business Machines Corporation Data perturbation and anonymization using one way hash
WO2014018731A1 (en) * 2012-07-25 2014-01-30 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for providing a secure virtual research space
US20160085915A1 (en) * 2014-09-23 2016-03-24 Ims Health Incorporated System and method for the de-identification of healthcare data

Also Published As

Publication number Publication date
US11907399B2 (en) 2024-02-20
US10956612B2 (en) 2021-03-23
EP3767472B1 (en) 2023-09-06
US11657182B2 (en) 2023-05-23
WO2016108983A2 (en) 2016-07-07
EP3204858A2 (en) 2017-08-16
US20170249481A1 (en) 2017-08-31
US20200349290A1 (en) 2020-11-05
US20220358244A1 (en) 2022-11-10
EP3204858A4 (en) 2018-05-30
US11423173B2 (en) 2022-08-23
PT3204858T (pt) 2020-11-20
EP3767472A1 (en) 2021-01-20
EP3204858B9 (en) 2021-03-31
US20230252186A1 (en) 2023-08-10
WO2016108983A3 (en) 2016-08-25
EP3204858B1 (en) 2020-09-09

Similar Documents

Publication Publication Date Title
ES2848537T3 (es) Sistema en red altamente seguro y procedimientos para el almacenamiento, procesamiento y transmisión de información personal sensible
US10579824B2 (en) Secure access to individual information
US11531781B2 (en) Encryption scheme for making secure patient data available to authorized parties
US20160034713A1 (en) Decentralized Systems and Methods to Securely Aggregate Unstructured Personal Data on User Controlled Devices
US9977922B2 (en) Multi-tier storage based on data anonymization
US20120303616A1 (en) Data Perturbation and Anonymization Using One Way Hash
US10893027B2 (en) Secure access to individual information
Heurix et al. Privacy-preserving storage and access of medical data through pseudonymization and encryption
US10216940B2 (en) Systems, methods, apparatuses, and computer program products for truncated, encrypted searching of encrypted identifiers
Esther Omolara et al. HoneyDetails: A prototype for ensuring patient’s information privacy and thwarting electronic health record threats based on decoys
Goel et al. Using healthcare authority and patient blockchains to develop a tamper-proof record tracking system
US20130266135A1 (en) System for DNA Identification Hiding Personal Traits
Yasnoff A secure and efficiently searchable health information architecture
Gupta et al. A systematic review on blockchain in transforming the healthcare sector
Yongjoh et al. Development of an internet-of-healthcare system using blockchain
Rai et al. Patient controlled Pseudonym-based mechanism suitable for privacy and security of Electronic Health Record
Bamford et al. Sharing Anonymized and Functionally Effective (SAFE) data standard for safely sharing rich clinical trial data
Mohan et al. Cyber Security in Health Care
Elngar et al. Data protection and privacy in healthcare: research and innovations
Abouakil et al. Data models for the pseudonymization of DICOM data
Nagamani et al. A mobile cloud-based approach for secure m-health prediction application
Pujari et al. Identity resilience in the digital health ecosystem: A key recovery-enabled framework
El Kettani et al. Confidentiality in Electronic Health Records Systems: a Review
BRODY ARE YOU PREPARED FOR A DATA BREACH?
Sumdeepthi A Review: Security And Privacy In Healthcare Using Bigdata