EP3752948A1

EP3752948A1 - Procédé de traitement automatique pour l'anonymisation d'un jeu de données numériques

Info

Publication number: EP3752948A1
Application number: EP19710728.7A
Authority: EP
Inventors: Fatma BOUATTOUR; Mohamed KASRAOUI; Paul-Olivier GIBERT
Original assignee: Digital & Ethics
Current assignee: Digital & Ethics
Priority date: 2018-02-13
Filing date: 2019-02-08
Publication date: 2020-12-23
Also published as: FR3077894A1; FR3077894B1; WO2019158840A1

Abstract

L'invention concerne le domaine du traitement des données numériques et plus particulièrement des traitements automatiques de grands volumes de données numériques consistant à modifier le contenu et/ou la structure de ces données afin de rendre très difficile ou impossible la « réidentification » des personnes (physiques ou morales) ou des entités concernées, notamment en procédant à 1 'anonymisation.

Description

PROCEDE DE TRAITEMENT AUTOMATIQUE POUR L'ANONYMISATION

D'UN JEU DE DONNEES NUMERIQUES

Domaine de 1 ' invention

La présente invention concerne le domaine du traitement des données numériques et plus particulièrement des traitements automatiques de grands volumes de données numériques consistant à modifier le contenu et/ou la structure de ces données afin de rendre très difficile ou impossible la « ré-identification » des personnes (physiques ou morales) ou des entités concernées, notamment en procédant à 1 ' anonymisation .

Les entreprises accumulent aujourd'hui d'importants volumes de données dont le traitement et la monétisation peut créer de la valeur. Ces données couvrent les données à caractère personnel ce qui les soumet à des exigences réglementaires et éthiques avant leur diffusion. L'anonymisation des données est donc une étape cruciale pour prévenir l'accès aux données à caractère personnel. L'anonymisation engendre généralement une perte d'informations qu'il faudra cependant contrôler afin de garder l'utilité des données pour les utilisateurs. Afin de bien cibler l'anonymisation, il convient donc de décider des variables qualifiées comme identificatrices ou comme sensibles à la divulgation. Une analyse rationnalisée des attributs d'un jeu de données, de leurs caractéristiques et de leurs modalités est donc indispensable pour faire la classification des attributs, préalable aux exercices d'anonymisation et/ ou d'évaluation du risque de divulgation des données à caractère personnel. La rationalisation de l'identification des attributs pour anonymisation permettre de résoudre les potentiels problèmes de subjectivité et / ou de non précision des analyses, qui pourront émerger quand la classification des attributs est laissée au choix de l'utilisateur/ anonymisateur et ne se base pas sur l'avis d'un expert.

Le choix d'anonymiser des données résulte souvent d'un compromis déontologique, juridique et éthique, entre une volonté ou une obligation de protéger les individus et leurs données personnelles. L'anonymisation est en particulier employée pour la diffusion et le partage de données jugées d'intérêt public, comme les données ouvertes (Open data).

Une première étape consiste généralement à supprimer les identifiants des fiches ou des bases de données concernées tels que les noms, prénoms, identifiants fiscaux, numéros de sécurité sociale, ...

L'étape suivante consistera à appliquer aux fichiers ou bases de données des « filtres » et « transformations cryptographiques » (ex : chiffrement et/ou hachage de données par un algorithme dédié, par exemple SHA pour Secure Hash Algorithm) , mais avant ce travail, le gestionnaire des données procède ou fait procéder à une étude clarifiant son besoin d'anonymisation, ses objectifs et ses exigences (ex : doit-il y avoir une réversibilité possible de l'anonymisation), hiérarchisant le cas échéant les données à protéger, selon leur degré de "sensibilité" et en fonction de la finalité du traitement que doivent ensuite subir les informations. Il peut ainsi produire et comparer plusieurs scenarii d'anonymisation pour mieux choisir la solution lui semblant la plus pertinente (en fonction de ses exigences, et des exigences de la Loi). Dans tous les cas l'anonymisation doit résister aux attaques par dictionnaire.

Plusieurs phases et niveaux d'anonymisation se succèdent parfois : par exemple l'hôpital procède à une première anonymisation, le centre de traitement des données peut ensuite compléter ce travail, et les utilisateurs secondaires (chercheurs en général) peuvent encore sur- anonymiser la donnée retravaillée (avant sa publication dans une revue ou distribution à d'autres utilisateurs). De nombreuses méthodes existent (effacement de certaines données (suppression) et/ou transcodage manuel, généralisation, ajout de bruit; utilisation de pseudonymes par exemple pour le couple médecin/patient ; de chiffrement (généralement avec une clé publique - éventuellement fragmentée - possédée par 1 ' autorité compétente ) .

Dans le domaine médical, la notion d'identité anonymisée et de ré-identification du patient concerne les moyens directs et indirects de ré-identification (ex : nom, adresse...) mais également les données chiffrées si le moyen de décryptage est disponible.

Pour limiter les risques de fuites d'informations, une personnes (ex : un patient) ne figure dans une base de donnée anonyme que si cela est obligatoire ou vraiment utile, et à un projet peut n'être associé qu'une seule base anonymisée. Une sécurité juridique accrue est obtenue si toutes les personnes y figurant ont donné leur consentement (par écrit ou via la fourniture de son identifiant, pour une étude de nature médico-commerciale, par exemple, mais ce type de base induit des biais d'interprétation.

Bien entendu, à chaque niveau de production ou stockage de données :

- Les personnels internes doivent être soumis à des mécanismes de contrôles d'accès devant interdire tout accès non autorisé ;

- Des mécanismes doivent être prévus pour détecter et bloquer les tentatives d'intrusion (par l'Internet ou d'autres moyens) et en particulier les tentatives malveillantes d'inférence de données, d'abus de pouvoir, etc.

Etat de la technique La demande de brevet WO 2015066523 décrit un exemple de procédé implémenté par ordinateur, pour fournir de meilleurs niveaux de confidentialité des données, d'anonymat et de sécurité en autorisant des sujets auxquels des données appartiennent, à rester "anonymes de façon dynamique," autrement dit anonymes aussi longtemps qu'ils le souhaitent et dans la mesure souhaitée.

Des modes de réalisation comprennent des systèmes qui créent, accèdent à, utilisent, enregistrent et/ou effacent des données avec des niveaux accrus de confidentialité, anonymat et sécurité, pour obtenir ainsi des informations mieux qualifiées et plus précises. Pour les données devant être partagées avec des tiers, des modes de réalisation peuvent rendre possible un partage contrôlé d'informations qui permet de délivrer des informations limitées temporellement , géographiquement et/ou par l'usage, à la partie réceptrice. Dans un exemple, des scores de mesures d'anonymat peuvent être calculés pour les éléments de données partagés, de sorte qu'un niveau de consentement/engagement requis par l'objet de données avant le partage des éléments de données pertinents à des tiers puisse être spécifié.

La demande de brevet W02012080081 porte sur un procédé mis en oeuvre par ordinateur d'anonymisation de données provenant d'une source de données pour une application cible, le procédé consistant à : identifier des éléments de données sensibles dans des données provenant de la source de données par l'intermédiaire d'un outil de découverte et générer des définitions de données pour des éléments de données indiquant les éléments de données sensibles, les définitions de données comprenant au moins une propriété pour les éléments de données ; spécifier un ensemble de règles de moteur d ' exécution comprenant au moins une règle de moteur d'exécution, la règle de moteur d'exécution comprenant un protocole d'anonymisation de moteur d'exécution, l'ensemble de règles de moteur d'exécution étant spécifiées par l'intermédiaire d'une interface ; mapper l'ensemble de règles de moteur d'exécution aux définitions de données générées par l'outil de découverte pour chacun des éléments de données sensibles ; et consommer les définitions de données générées et appliquer le protocole d'anonymisation de moteur d'exécution mappé à la définition de données d'élément de données sensible, afin d'anonymisation l'élément de données sensible pour l'application cible.

On connaît aussi la demande de brevet EP2752786 qui décrit un dispositif d'anonymisation et un procédé d'anonymisation caractérisés en ce que toutes les données satisfont des niveaux demandés d'anonymat pour chacune, et en ce qu'ils empêchent la perte de valeur de l'information qui résulte de l'abstraction de la collection de données tout entière. Le présent dispositif d'anonymisation comprend : un moyen d'anonymisation servant à effectuer un traitement d'anonymisation lors duquel un groupe de données est traité comme une unité de traitement pour une collection de données comprenant au moins deux données ; un moyen de spécification du niveau d'anonymat servant à spécifier un niveau d'anonymat adaptatif pour chaque groupe ; et un moyen d'évaluation de l'anonymat servant à juger si un groupe satisfait le niveau d'anonymat adaptatif spécifié. Le moyen d'anonymisation, sur la base du résultat d'évaluation du moyen d'évaluation de l'anonymat, effectue de plus un traitement d'anonymisation de la collection de données pour laquelle le traitement d'anonymisation a été effectué.

La demande de brevet européenne EP2573699 décrit un autre exemple de dispositif d'anonymisation servant à configurer automatiquement un arbre hiérarchique général de valeurs d'attribut dans la technologie de protection des informations d'identité. De plus, le dispositif d'anonymisation décrit, évalue quantitativement la quantité d'informations qui est perdue lors de la généralisation d'une valeur d'attribut, et peut ainsi automatiquement évaluer des priorités entre des données anonymisées et entre des données qui sont en cours d'anonymisation. Des informations de chaque personne comprennent des valeurs d'attribut de la personne pour une pluralité d'attributs. Une anonymisation est réalisée par obscurcissement des valeurs d'attribut, et une structure dans laquelle des valeurs d'attribut devant être obscurcies, sont exprimées dans une structure arborescente conformément au niveau d'obscurcissement est appelée arbre hiérarchique général. Le dispositif d'anonymisation d'informations d'identité décrit réalise une configuration automatique par configuration d'un arbre à l'aide d'informations de fréquence de valeurs d'attribut. De plus, par définition d'un moyen de mesure de quantité d'informations perdue, à l'aide de l'arbre hiérarchique général, une quantité d'informations perdue entre deux données anonymisées ou entre des données en cours d'anonymisation est quantitativement évaluée.

La demande de brevet US 2107/ 0124336 décrit une méthode automatisée d'identification des attributs pour l'exercice d'anonymisation. Cette méthode se base sur un cryptage des données, étape préalable à l'étude du niveau de sensibilité des données et donc de leurs degrés d'exigence en termes d'anonymisation. Ce brevet propose trois méthodes pour choisir les valeurs / attributs pour anonymisation. Une première méthode consiste en la comparaison des différentes valeurs avec des valeurs présentes dans un dictionnaire, auxquelles sont associés différents niveaux de sensibilité. Les attributs pour lesquels la présence des valeurs sensibles dans le jeu de données dépasse un certain seuil prédéterminé, seront sélectionnés pour anonymisation. Une deuxième méthode de classification est basée sur une comparaison des distributions des valeurs d'un attribut dans le jeu de données et dans une distribution connue. Cette méthode peut confirmer les résultats de la première méthode d'identification des attributs à anonymiser. Une dernière méthode est de fournir à 1 ' anonymisateur une partie du jeu de données dans sa version originale (avant cryptage) et de générer à partir de cet échantillon un nombre d'expressions pour un ou plusieurs attribut (s). Le reste du jeu de données sera crypté et comparé à ces expressions générées afin d'identifier certains attributs et leur sensibilité.

Inconvénients de l'art antérieur

Les solutions de l'art antérieur sont adaptées pour préparer des bases de données anonymisées lors de leur création. Par contre, ces solutions ne permettent pas de faire évoluer facilement l'anonymisation, par exemple lorsque l'ajout de nouvelles entrées modifie le contexte de d'anonymisation. Les solutions de l'art antérieur nécessitent dans ce cas le retraitement de l'intégralité de la base de données, ce qui peut nécessiter un temps de calcul considérable, pour des bases de données pouvant représenter plusieurs téraoctets.

Par ailleurs, les solutions de l'art antérieur ne permettent pas d'ajuster de manière flexible, et dynamiquement évolutive, le niveau d'exigence d'anonymisation en fonction des possibilités de ré-identification par des traitements élaborés des données.

Une anonymisation trop exigeante conduit à la perte de toute utilité/valeur des données.

Par contre, si on privilégie la richesse des informations accessibles par le traitement des données, l'anonymisation risque d'être insuffisante au regard des normes règlementaires.

Cet arbitrage entre ces deux contraintes évolue en fonction du nombre et de la nature des entrées enregistrées dans la base de données.

A titre d'exemple, une information relative au sexe combinée avec une information relative à l'âge peut être identificatrice , ce qui nécessite une action de transformation/ anonymisation, surtout lorsque le jeu de données contient en plus des informations relatives à une pathologie donnée. Toutefois, si la totalité des entrées/ enregistrements correspondent à un même sexe, ou à une même tranche d'âge, l'information n'est en réalité pas identificatrice . Mais si des entrées nouvelles modifient cette situation, l'information « sexe » ou « âge » peut nécessiter un traitement différent.

De plus, l'anonymisation nécessite une étape préalable d'identification des attributs / valeurs à anonymiser. Cette étape est laissée au choix de 1 ' anonymisateur/ utilisateur et est donc sujette à un problème de subjectivité et de non précision de la classification. De plus, même les travaux qui se concentrent sur la classification des attributs, ne fournissent pas de méthodologie claire et documentée de qualification des attributs .

Solution apportée par l'invention

La présente invention vise à remédier à ces inconvénients en proposant un procédé permettant d'avoir différents niveaux d'anonymisation au travers d'une classification des variables d'une base de données.

L'invention concerne selon son acception la plus générale un procédé de traitement automatique d'un jeu de données numériques consistant :

à enregistrer dans une mémoire non permanente un jeu de données originelles,

à enregistrer dans une mémoire permanente

o un fichier numérique constitué par une table déterminant au moins des identifiants/ dénominations des variables, et pour chacune desdites variables

■ un paramètre « Statut identifiant »

[identifiant « I », quasi-identifiant « QI », non identifiant « NP » ] ^■ un paramètre « Statut Sensibilité » [ : oui

« S », ou non « NS » ] . Ce paramètre dépend de la définition de sensibilité retenue :

Sensibilité « règlementaire » , se limitant aux exigences juridiques en termes de protection de la vie privée.

- Sensibilité « générale », englobant d'autres aspects comme le psychologique, le culturel,... o Un fichier numérique constitué par une table de variables de recensement de la population de référence avec pour chacune

^■ Les différentes modalités/ valeurs prises par chaque variable selon le recensement

^■ La fréquence d'apparition de chaque modalité dans la population de référence (France, Etats Unis , .. )

^■ Un ordre du pouvoir d'identification des différentes variables du recensement o Un fichier numérique constitué par une table de variables avec un ordre établi du degré de facilité (208) par lequel un potentiel attaquant peut accéder à l'information sur les différentes variables. Cet ordre peut être déduit de certaines bases de données retraçant l'historique des attaques. o Un fichier numérique constitué par une table d'attributs « sensibles », pour lesquels les valeurs/ modalités sont classées par ordre de sensibilité.

Le procédé consistant à appliquer :

un premier traitement se basant sur le référentiel des attributs, noté « Classification Initiale » consistant à o associer à chacune des variables dudit jeu de données originel un paramètre « statut » et à traiter les variables associées à un statut « caché» (« I », « Qi » ou « S »), c'est-à-dire nécessitant une action avant partage des données, pour empêcher leur utilisation normale (sans anonymisation par exemple) dans ledit jeu de données

o à affecter à chacune des variables associées à un statut « NP» / « NS» un drapeau de non traitement et de conservation définitifs dans le jeu de données final un deuxième traitement concernant les variables résiduelles associées à un statut « quasi-identifiant » consistant à :

o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale dudit jeu de données OU

affecter à chacune desdites variables résiduelles :

^■ un premier indicateur correspondant à la disponibilité de la valeur associée à partir de sources de données extérieures, par exemple à partir d'un web crawler ou d'un référentiel ou d'historiques d'attaques

et/ou

^■ un second indicateur correspondant à la fréquence des valeurs de ladite variables associées dans la population générale (appelée aussi population de référence) dont le jeu de données constitue un sous-ensemble

à ordonner chacune desdites variables résiduelles en fonction desdits indicateurs associés, ce qui se traduira par exemple par des niveaux de traitement/ anonymisation différents lors du processus d'anonymisation. Cet ordre traduit la classification finale des attributs affectés à une séquence numérique « QI » . un troisième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « règlementaire » consistant à :

o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale (215) dudit jeu de données

OU

o Affecter à chacune de ces variables résiduelles un indicateur de sensibilité en se référant à une liste de variables sensibles avec leurs différentes modalités/ valeurs allant des plus sensibles aux moins sensibles. Ces indicateurs sont calculés sur la base de la fréquence d'apparition des valeurs les plus sensibles de l'attribut sensible. Ils seront ensuite comparés à un seuil de fréquence

« acceptable » préalablement défini,

o Garder pour chacune des variables résiduelles caractérisées, par une fréquence d'apparition des valeurs sensibles supérieure à une valeur seuil, leur statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données,

o Affecter aux variables restantes un statut « caché » mais plus « flexible » en termes d'exigences de traitements lors du processus d'anonymisation.

Selon un mode de mise en œuvre particulier, un quatrième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « générale » consistant à affecter à certaines desdites variables un statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données. Selon une variante, le procédé comporte avant l'étape de première classification un traitement pour affecter à chacune des variables pour lesquelles aucune correspondance avec le référentiel des attributs (201) n'est établie, un statut provisoire dans le référentiel des attributs (201), qui peut être modifié en statut définitif ou rejeté selon l'avis d'un opérateur.

Avantageusement, le procédé comporte en outre une étape consistant à appliquer dynamiquement aux variables non associables au référentiel des attributs, un traitement spécifique consistant à enregistrer dans ledit référentiel le couple « variable, statut » en attente de validation/ rejet selon l'avis d'un opérateur. Cela impliquerait aussi des enrichissements potentiels des référentiels de « Pouvoir d'identification » (207) et/ ou de « sensibilité ».

Selon une variante, lesdits traitements sont appliqués périodiquement [par exemple lors de chaque évolution du jeu de données (210) ou à chaque évolution du cadre règlementaire] .

Avantageusement, lesdits traitements appliqués aux variables / valeurs « cachées» consistent à :

supprimer lesdites variables / valeurs (notamment pour les variables affectées au statut « I »)

enregistrer lesdites variables dans une DMZ

l'anonymisation d'une partie au moins des valeurs correspondant auxdites variables.

Description détaillée d'un exemple non limitatif de

1 ' invention La présente invention sera mieux comprise à la lecture de la description détaillée d'un exemple non limitatif de l'invention qui suit, se référant aux dessins annexés, où :

La figure 1 représente du logigramme de l'ensemble des traitements.

- La figure 2 représente l'ensemble des modules des traitements pour la mise en œuvre de l'invention.

La figure 3 présente une vue détaillée du logigramme de la première étape de classification.

La figure 4 présente une vue détaillée du logigramme de l'analyse du pouvoir d'identification des attributs.

La figure 5 présente une vue détaillée du logigramme de l'analyse de la sensibilité des attributs .

Contexte de l'invention

La présente invention concerne la classification automatique des attributs d'un jeu de données numériques permettant de mieux cibler les exercices d'anonymisation et/ ou d'évaluation du risque de ré-identification (RI). Le but est d'automatiser les traitements techniques permettant d'assurer le respect du cadre règlementaire sur la protection des données à caractère personnel.

La multiplication des données à caractère personnel et les évolutions juridiques et légales dans ce domaine rendent l'exercice de l'anonymisation des bases de données un enjeu pour les propriétaires/ utilisateurs des bases de données numériques .

Certains organismes nationaux et européens tels que la CNIL ou le G29 insistent sur l'importance de la protection des données à caractère personnel, en proposant des méthodologies d'anonymisation permettant d'avoir un compromis entre la protection de la vie privée et l'exploitation des données. Le cadre réglementaire est renforcé en plus par le règlement européen sur la protection des données (RGPD) qui vise à harmoniser les législations européennes sur la question de la protection des données à caractère personnel. Afin de garantir la protection des données, les travaux d'anonymisation devront être vérifiés en évaluant le risque de ré-identification des données à caractère personnel.

L'anonymisation et l'évaluation du risque de divulgation des données à caractère personnel concernent généralement certaines variables d'un jeu de données, particulièrement celles ayant un caractère identifiant ou celles ayant un caractère sensible. En même temps, l'anonymisation implique une perte d'information sur le jeu de données, pouvant affecter l'utilité des données pour des utilisateurs tels que les chercheurs. Pour cela, il est pertinent pour un utilisateur ou propriétaire des données de bien cibler les variables sur lesquelles l'anonymisation ou la mesure de risque de ré-identification seront effectuées. Ainsi, la classification des attributs d'un jeu de données serait-elle un atout pour faire l'équilibre entre l'obligation du respect de la vie privée et la garantie de l'utilité des données .

La classification des attributs est effectuée par un traitement « manuel » par le propriétaire des données et reste liée à son appréciation. Cela laisse la question de la classification des variables sujette à la subjectivité et donc pouvant engendrer des décisions d'anonymisation ou d'évaluation du risque de ré-identification qui ne sont pas en conformité avec les exigences de la manipulation des données à caractère personnel. De plus, le contexte de diffusion des jeux de données, l'évolution des lois et des coutumes ainsi que les caractéristiques de certains jeux de données font que la classification des variables n'est pas définitive et qu'une appréciation d'expert est toujours souhaitable pour garantir l'utilisation éthique des données à caractère personnel. Au vu de ces éléments, Il existe donc un problème technique lié à l'analyse préalable (manuelle ou automatique) des attributs d'un jeu de données afin de bien cibler les exercices d'anonymisation et/ ou d'évaluation du risque de réidentification des données par un attaquant potentiel du jeu de données .

Il existe dans ce cas un besoin de rationaliser la classification des attributs afin d'introduire tout d'abord de l'objectivité à cette tâche souvent sujette à la subjectivité, de manière automatique compte tenu du nombre considérable de données nécessitant un traitement, dans certaines applications. Cela rendra possible la comparaison entre jeux de données de même nature, en termes de risque de divulgation. Une bonne classification des attributs facilitera la décisions concernant les méthodes d'anonymisation et / ou de mesure de risque de divulgation des données à caractère personnel. De plus, avoir une classification des attributs qui dépend du jeu de données et qui n'est pas forcément définitive offre plus de flexibilité pour les propriétaires des données pour pouvoir satisfaire différents couples contextes d'utilisation/nature des clients.

La présente invention propose une méthodologie de classification des attributs afin d'aider les propriétaires des données à partager leurs données tout en respectant les exigences des données à caractère personnel de manière automatique et de manière dynamique, permettant de faire évoluer automatiquement les paramètres en fonction de l'introduction de nouvelles données dans la base de données.

Le propriétaire des données accède à un jeu de données comportant des attributs . Chaque attribut a une dénomination permettant de le classer. Chaque attribut peut prendre différentes modalités/ valeurs et peut être donc aussi classer selon la composition de ces valeurs (distribution, fréquence ou autre).

L'innovation de cette méthodologie de classification réside donc particulièrement dans l'intervention des modalités des différents attributs d'un jeu de données dans le processus de classification des attributs.

Description de l'invention

Cette invention comporte deux étapes de classification des données. La classification commence par une première étape, où les attributs du jeu de données à traiter sont soumis à un premier classement, en se servant d'une base de données créée appelée « Référentiel des attributs » . Cette invention sera décrite selon un exemple détaillé en référence aux figures 1 à 5 annexées présentant l'architecture fonctionnelle et les logigrammes des principaux modules fonctionnels .

1- Référentiel des attributs (201)

Le «Référentiel des attributs» (201) consiste à appliquer une classification des attributs selon deux principaux critères d'anonymisation des données personnelles à savoir :

- leur caractère identifiant (202) et

- leur caractère sensible (203)

Le caractère identifiant (202) se traduit par l'enregistrement d'une séquence numérique pouvant prendre trois états : « I » lorsque la variable est directement identificatrice comme le numéro de sécurité sociale , « QI » lorsque la variable peut devenir identificatrice , combinée avec d'autres variables associées à un même état comme le code postal, ou « NP ». Les variables associées à la séquence numérique « NP » ne font pas l'objet d'un traitement dans le cadre de cette invention, ce qui peut réduire le temps de calcul dans le processus/ la démarche d'anonymisation (204).

Le caractère sensible (203) se traduit par l'enregistrement d'une séquence numérique pouvant prendre deux états : « S » lorsque la variable est sensible dans le sens où sa divulgation doit être évitée et « NS » dans les autres cas.

Le référentiel (201) se traduit par un fichier rassemblant des variables, recensées à partir de l'état de l'art, des préconisations des instituts de protection de la vie privée ainsi que des cas d'usage rencontrés. Ces variables sont classées par catégorie afin de faciliter l'utilisation du référentiel lors de la classification des attributs d'un jeu de données considéré. Les catégories recensées sont les suivantes : santé, éducation et travail, adresses, numéros et dates...

La classification des attributs est ensuite basée sur deux éléments:

- le caractère identifiant (202) des attributs et précisément leur pouvoir d'identification des attributs, et

- le caractère sensible (203) des données au sens de la loi et aussi plus généralement au sens des coutumes, société... Pour le caractère sensible, on considère :

- l'appartenance à une catégorie particulière au sens juridique et

- une sensibilité plus générale ne se limitant pas au niveau d'exigence juridique.

Les attributs appartenant, selon la loi, à une «catégorie particulière» sont classés en tant que variables sensibles affectées de la séquence numérique « S », par exemple les données de santé, le casier judiciaire...

La sensibilité « générale » ne se réduit cependant pas à la sensibilité juridique ; elle prend en compte des aspects éthiques et sociaux. Le nombre de redoublements par exemple peut être considéré comme une variable sensible, et donc cette variable pourra être associée à une séquence « S » ou « NS » selon le choix de l'utilisateur.

Ces critères sont issus de la littérature sur l'anonymisation et leur prise en compte pour faire la catégorisation des variables permet d'atténuer la subjectivité de la qualification et des analyses. En effet, la plupart des logiciels/ outils d'anonymisation ne fournissent pas de l'assistance à leurs utilisateurs dans l'étape de classification des attributs des jeux de données.

Ce référentiel (201) peut être enrichi de façon continue et est supposé rassembler un ensemble important de variables se rattachant à de nombreux secteurs d'activité, afin de faire croître son utilité.

Le traitement se traduit par l'enrichissement de la table des données constituant le référentiel (201) par des paramètres numériques définis comme suit:

^■ Catégorie : Il s'agit du thème auquel se rapporte 1 ' attribut .

^■ Attribut : Dénomination de l'attribut.

^■ Statut Identifiant : Il s'agit de classer la variable comme identificatrice « I, à éliminer de la version anonymisée », quasi-identificatrice « QI » ou non

« NP » .

^■ Catégorie particulière au sens juridique : Il

s'agit des attributs qui doivent être considérés comme sensibles et donc à protéger au sens la loi.

^■ Sensibilité Générale : La sensibilité inclut la sensibilité au sens juridique mais aussi au sens de l'éthique, la coutume, la société, ...

^■ Remarques supplémentaires : Précisions à prendre en compte lors de la classification. Deux autres référentiels s'ajoutent pour affiner la classification des attributs (2^eme étape de classification) :

2- Référentiel de sensibilité des attributs (205)

Afin d'offrir une flexibilité aux utilisateurs au moment de la classification des attributs, le référentiel de « sensibilité des attributs » (205) propose de référencer selon le degré de sensibilité, les différentes modalités / valeurs d'un attribut classé comme sensible et donc affecté de la séquence numérique « S ».

Certains attributs classés « sensibles » et affectés à la séquence numérique « S » prennent des valeurs n'ayant pas forcément le même degré de sensibilité et/ ou d'exigence de protection, d'où l'intérêt de proposer une analyse plus fine de sensibilité et de un ordre de sensibilité pour les différentes modalités des attributs sensibles (206).

Par exemple, pour établir l'ordre de sensibilité des modalités que peut prendre l'attribut « Maladie », il est pertinent de prendre en compte que certaines maladies sont plus sensibles à la divulgation que d'autres, c'est-à-dire que leur divulgation pourrait causer plus de préjudice à la (les) personne ( s ) concernée ( s ) .

En se basant sur les classifications internationales des maladies publiées par l'Organisation Mondiale de Santé (OMS), nous pouvons proposer un ordre de sensibilité des différentes maladies (selon le degré de dangerosité et/ ou de jugements sociaux) qui prendra par exemple la forme suivante :

Maladies à sensibilité forte: Maladies sexuellement transmissibles, ...

Maladies à sensibilité modérée: Maladies chroniques ,...

Maladies à faible sensibilité : autres La validation de cette catégorisation nécessiterait 1 'avis d 'un expert .

In fine, le « Référentiel de sensibilité des attributs » (205) est constitué par la liste des attributs sensibles recensée grâce au « Référentiel des attributs » (201) et pour chaque attribut, les différentes modalités possibles (pouvant évoluer) sont classées par ordre de sensibilité et / ou d'exigence en termes de protection de la vie privée et d'un point de vue socio-culturel.

3- Référentiel du Pouvoir d'identification des données 207)

La qualification des attributs quasi-identifiants , affectés à une séquence numérique « QI » peut être améliorée en passant à un degré plus fin d'analyse (212). En effet, le pouvoir d'identification peut varier d'un attribut quasi- identifiant à un autre. Ainsi, le niveau d'exigence en termes d'anonymisation et / ou d'évaluation d'anonymisation pourrait être différent selon le niveau de pouvoir d'un quasi- identifiant dans la ré-identification d'un individu.

Deux règles de décisions facilitant le classement des quasi-identifiants selon leur pouvoir d'identification sont déterminées, le but étant de créer un « Référentiel de Pouvoir d'identification » (207). Précisément, nous proposons deux critères sur lesquels se base l'ordre de pouvoir d'identification : la « facilité d'accès des attributs» et la « fréquence d'apparition dans la population de référence».

3.1- *Référentiel de facilité d'accès des attributs (208)

Le principe de base de ce « Référentiel de facilité d'accès des attributs» (208) est qu'un attaquant potentiel ne pourrait pas accéder à tous les attributs quasi- identificateurs, affectés à la séquence numérique « QI », avec le même degré de facilité. En effet, toutes choses étant égales par ailleurs, certains attributs quasi-identifiants « QI » sont plus faciles d'accès que d'autres du fait de leur disponibilité publique (sur Internet, sur les sites officiels, les résultats de concours,..).

Nous proposons donc un ordre par catégorie d'attributs. Si on considère par exemple la catégorie des « dates », les différentes dates qu'on peut trouver dans les jeux de données n'ont pas forcément le même degré d'accessibilité. Nous considérons par exemple la classification suivante:

Dates faciles d'accès : dates de naissance,...

Dates moins accessibles : dates d'hospitalisation,...

Dates difficiles d'accès : dates de contrôle médical ,...

Le but est d'avoir un référentiel des attributs quasi-identifiants , affectés par la séquence numérique « QI », classés selon leur facilité d'accès par un potentiel attaquant .

3.2- *Référentiel de Population de référence (209)

Nous considérons aussi que le pouvoir d'identification d'un attribut quasi-identifiant, affecté par une séquence numérique « QI » , pourrait dépendre de la fréquence de l'apparition de ses différentes modalités dans la population de référence, comme la population française. Par exemple, toutes choses étant égales par ailleurs, nous pouvons considérer que la variable « date de naissance » a un pouvoir d'identification plus élevé que l'âge. La « date de naissance » donne en effet plus d'information que ce l'âge donne et est plus identificatrice des individus. Dans le même esprit, « être une femme/ homme » est moins identifiant qu' « être un enseignant en philosophie».

Le « Référentiel de Population de référence » (209) se base donc sur la distribution des différents attributs dans la population de référence, par exemple un pays. Pour la France, nous nous référons par exemple aux données du dernier recensement de la population française de 2013 pour en déduire la distribution d'un ensemble d'attributs.

Les données recensées concernent à ce niveau les variables suivantes : âge, catégorie socio-professionnelle, département de naissance, département de résidence antérieure, département de résidence actuelle, département de travail, diplôme obtenu, nationalité, le secteur d'activité, la région de naissance, la région de résidence antérieure, la région de travail, le sexe, l'état matrimonial et le type d'activité. Cette liste peut être enrichie par d'autres données sur la population française ce qui permettra d'élargir la liste des attributs .

A partir de ce recensement, les attributs sont classés selon les fréquences d'apparition de leurs différentes modalités / valeurs proposées. La règle de décision est la suivante :

Les fréquences d'apparition des valeurs/modalités les moins fréquentes, de deux attributs quasi-identifiants A et B, sont comparées. L'attribut pour lequel la modalité la moins fréquente a un pourcentage d'apparition plus faible sera considéré comme attribut ayant un pouvoir d'identification supérieur, ce qui se traduira par la suite par un niveau d'anonymisation et/ ou de risque de ré-identification plus important . Ce traitement permet de donner un ordre de pouvoir d'identification des attributs. Ce référentiel de population de référence (209) peut être élargi par la prise en compte des caractéristiques d'autres populations de référence, comme les Etats Unis ou le Canada. Nous aurons donc, in fine, une base de données donnant les principales caractéristiques des populations de référence (populations auxquelles se rattachent les jeux de données).

Ces deux critères de « facilité d’ accès » et de « population de référence » permettront d’ avoir un référentiel de pouvoir d’ identification (207).

Les deux critères peuvent être complémentaires pour couvrir le plus d’ attributs quasi-identifiants , affectés de la séquence numérique « QI », d’ un jeu de données.

Description d'un exemple de mise en œuyre de l'invention

La classification des attributs peut suivre la méthodologie suivante :

Etape (1) s le propriétaire des données/ utilisateur accède à un jeu de données (210) qui contient des attributs avec des dénominations différentes. Le propriétaire des données examine le dictionnaire des attributs (s'il existe) ou directement les attributs afin de les classer.

Etape (2) : Au cours de cette étape, l'utilisateur accède au « référentiel des attributs » (201).

Etape (3) : Au cours de cette étape, le calculateur traite le jeu de données (210) pour mettre en concordance chacun des attributs avec le référentiel des attributs (201). Pour les attributs du jeu de données (210), pour lesquels une mise en concordance est réalisée, le traitement consiste à leur affecter un marqueur. Cette correspondance peut se faire manuellement par l'utilisateur en comparant la liste des attributs de son jeu de données au référentiel des attributs ou automatiquement en créant des algorithmes d'automatisation de la recherche tels que l'algorithme Rabin-Karp, String searching, approximate string searching, ou encore les algorithmes de recherche sémantique tels que l'algorithme de Lesk.

Etape (4) : Cette étape distingue les attributs du jeu de données (201) pour lesquels une mise en concordance a été réalisée d'une part, et les attributs pour lesquels aucune mise en concordance n'a été déterminée, d'autre part.

Etape (5) : Cette étape consiste à enregistrer dans le référentiel des attributs (201), les attributs du jeu de données (210) pour lesquels aucune concordance n'a été trouvée. Ces variables sont enregistrées avec un statut provisoire, qui pourra être modifié en statut définitif ou rejeté selon l'avis d'un opérateur.

Etape ( 6 ) : Cette étape à procéder à une première classification des attributs, notée « Classification Initiale » (211), en se basant sur « le référentiel des attributs » (201). Cette étape ne concerne que les attributs pour lesquels une concordance avec le « référentiel des attributs » (201) a été établie. A la fin de cette étape, chacun des attributs marqués aura un statut basé sur le référentiel des attributs (201) traduit par une séquence numérique qui peut prendre différents états : « I », « QI »,

« NP », « S » ou « NS » .

Cette étape est décrite plus en détail en référence au logigramme objet de la figure 3.

En se servant de ce référentiel, un utilisateur/ un propriétaire des données peut faire une première classification, notée « Classification Initiale » (211) des attributs de son jeu de données en vue de bien cibler les exercices d'anonymisation/mesure du risque de divulgation.

Un utilisateur accède (301) au dictionnaire des attributs du jeu de données à étudier et au « référentiel des attributs » (201). Pour les attributs dont une correspondance dans le référentiel des attributs a été trouvée (303), une détermination de leur statut identifiant (304)/ sensible (305) permettra d'avoir une classification initiale des attributs (306). La détermination de cette première classification se fait en se référant aux les différentes colonnes du fichier du « référentiel des attributs » (201). Là encore, la correspondance entre les attributs du jeu de données (201) et leur statut dans le « référentiel des attributs » (201) peut se faire manuellement ou automatiquement par des algorithmes d'automatisation de la recherche.

Pour les attributs du jeu de données (210) affectés d'une séquence numérique « I », « NP » ou « NS », la classification initiale des attributs (306) correspond à leur classification définitive. Ces attributs seront donc conservés de manière définitive dans le module de classification (213), sur lequel se base le processus d'anonymisation :

- Les attributs affectés à une séquence numérique « I » subiront des traitements particuliers et n ' apparaîtront pas dans le jeu de données final (215) afin de garantir le respect de la vie privée.

- Les attributs affectés d'une séquence numérique « NP » ou « NS » ne subiront pas (214) de traitements particuliers (204) et seront conservés directement dans le jeu de données final (215).

Etape (7) : L'utilisateur détermine ensuite une option consistant à accorder aux attributs affectés à une séquence numérique « QI » ou « S » un statut caché empêchant leur utilisation normale dans le jeu de données final (215) et à passer directement au processus d'anonymisation (204) ou de procéder à un traitement additionnel du jeu de données (210), décrit ci-après.

Etape (8) : Cette étape ne s'applique qu'aux attributs, affectés à une séquence numérique « S », déterminés par un module de filtrage (501). Cette étape, nommée « Analyse de la sensibilité » (206), est présentée de manière plus détaillée par le logigramme, objet de la figure 5.

Le traitement s'appuiera sur le résultat de la classification initiale des attributs (306) et sur le « référentiel de sensibilité » (205).

En accédant (502) au « référentiel de sensibilité des attributs» (205), le calculateur examinera la distribution des modalités de l'attribut sensible dans le jeu de données (503). Les fréquences d'apparition des modalités les plus sensibles de l'attribut sont ensuite calculées pour le jeu de données à étudier (504).

La fréquence d'apparition des modalités sensibles (de cet attribut sensible) est ensuite comparée à un seuil de fréquence défini auparavant (505). L'attribut en question conservera son caractère « sensible » si la fréquence d'apparition des modalités « sensibles » dans le jeu de données dépasse le seuil préalablement choisi (506). Sinon, l'attribut sera affecté à une classe « moins sensible » (507). On obtient donc une classification finale des attributs sensibles (508). Cette règle permettra d'offrir une certaine flexibilité aux utilisateurs lors du processus d'anonymisation (204) dans le but d'obtenir la version finale du jeu de données ( 215 ) . Etape (9) : Cette étape ne s'applique qu'aux attributs, affectés à une séquence numérique « QI », déterminés par un module de filtrage (401). Cette étape, nommée « Analyse du pouvoir d'identification » (212), est présentée de manière plus détaillée par le logigramme, objet de la figure 4.

Le traitement s'appuiera sur le résultat de la classification initiale des attributs (306) et sur le « référentiel de pouvoir d'identification » (207).

Le calculateur accède (402) au « référentiel de facilité d'accès des attributs » (208) et compare (403) ensuite les degrés de facilité d'accès des différents attributs du jeu de données (210) affectés à une séquence numérique « QI », en se basant sur le même référentiel (208). Cette comparaison aboutit à un ordre de « facilité d'accès » des différents attributs.

Le calculateur accède ensuite (404) au « référentiel de population de référence» (209) et fera un tri (405) des attributs affectés d'une séquence numérique « QI » selon l'ordre établi dans le « référentiel de population de référence » (209). Cet ordre peut être fait manuellement ou automatiquement par des algorithmes de tri, à savoir « le tri par sélection » , le « tri arborescent »...

La comparaison des attributs quasi-identifiants d'un point de vue de la facilité d'accès (403) et l'ordre des différents attributs en termes des caractéristiques dans la population de référence (405), permettent d'avoir un ordre final (406) des attributs affectés à une séquence numérique « QI » selon leur pouvoir de ré-identification. Cet ordre permettra d'offrir une certaine flexibilité aux utilisateurs lors du processus d'anonymisation (204), en termes de besoin d'anonymisation pour les différents attributs marqués du jeu de données (210). Etape (10) : Cette étape présente la fin du processus de classification des attributs du jeu de données (210). Les résultats des analyses de sensibilité (206) et du pouvoir d'identification (212) sont groupés dans un module de classification (213), sur lequel se basera le calculateur pour le traitement des données (204) du jeu de données (210). Ce traitement peut se traduire par une anonymisation de certains attributs, avec des degrés d'exigence différents afin d'aboutir à une version finale du jeu de données (215). Dans tous les cas, le traitement des données doit répondre à des besoins de protection de la vie privée tout en conservant l'utilité du jeu de données (210).

Claims

Revendications

1 - Procédé de traitement automatique d'un jeu de données numériques consistant :

à enregistrer dans une mémoire non permanente un jeu de données originelles,

à enregistrer dans une mémoire permanente

o un fichier numérique (201) constitué par une table déterminant au moins des identifiants/ dénominations des variables, et pour chacune desdites variables

^■ un paramètre « Statut identifiant »

[identifiant « I », quasi-identifiant « QI », non identifiant « NP » ]

^■ un paramètre « Statut Sensibilité » [ : oui

« S », ou non « NS » ]

o Un fichier numérique constitué par une table de variables de recensement de la population de référence (209) avec pour chacune

^■ Un ordre du pouvoir d'identification des différentes variables du recensement

o Un fichier numérique constitué par une table de variables avec un ordre établi du degré de facilité (208) par lequel un potentiel attaquant peut accéder à l'information sur les différentes variables o Un fichier numérique constitué par une table d'attributs « sensibles » (205), pour lesquels les valeurs/ modalités sont classées par ordre de sensibilité . le procédé consistant à appliquer : un premier traitement se basant sur le référentiel des attributs (201), noté « Classification Initiale » (211) consistant à

o associer à chacune des variables dudit jeu de données originel un paramètre « statut » et à traiter les variables associées à un statut « caché» ( « I », « QI » ou « S » ) ,

o à affecter à chacune des variables associées à un statut « NP» / « NS» un drapeau de non traitement et de conservation définitifs (214) dans le jeu de données final (215) un deuxième traitement concernant les variables résiduelles associées à un statut « quasi-identifiant » consistant à :

o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale (215) dudit jeu de données (210)

OU

o affecter à chacune desdites variables résiduelles :

^■ un premier indicateur correspondant à la disponibilité de la valeur associée à partir de sources de données extérieures

et/ou

^■ un second indicateur correspondant à la fréquence des valeurs de ladite variables associées dans la population générale dont le jeu de données constitue un sous-ensemble o à ordonner chacune desdites variables résiduelles en fonction desdits indicateurs associés, ce qui se traduira par exemple par des niveaux de traitement/ anonymisation différents lors du processus d'anonymisation (204) déterminant la classification finale des attributs affectés à une séquence numérique « QI » (406) un troisième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « règlementaire » consistant à :

OU

o Affecter à chacune de ces variables résiduelles un indicateur de sensibilité en se référant à une liste de variables sensibles avec leurs différentes modalités/ valeurs (205) allant des plus sensibles aux moins sensibles, calculés sur la base de la fréquence d'apparition des valeurs les plus sensibles de l'attribut sensible

o Affecter aux variables restantes un statut « caché » mais plus « flexible » en termes d'exigences de traitements lors du processus d'anonymisation (204).

2 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte en outre un quatrième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « générale » consistant à affecter à certaines desdites variables un statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données. 3 - Procédé selon la revendication 2 caractérisé en ce qu'il comporte avant l'étape de première classification un traitement pour affecter à chacune des variables pour lesquelles aucune correspondance avec le référentiel des attributs (201) n'est établie, un statut provisoire dans le référentiel des attributs (201), qui peut être modifié en statut définitif ou rejeté selon l'avis d'un opérateur.

4 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte en outre une étape consistant à appliquer dynamiquement aux variables non associables au référentiel des attributs (201), un traitement spécifique consistant à enregistrer dans ledit référentiel le couple « variable, statut » en attente de validation/ rejet selon l'avis d'un opérateur. Cela impliquerait aussi des enrichissements potentiels des référentiels de « Pouvoir d'identification » (207) et/ ou de « sensibilité » (205).

5 - Procédé selon la revendication 1, caractérisé en ce que lesdits traitements sont appliqués périodiquement [par exemple lors de chaque évolution du jeu de données (210) ou à chaque évolution du cadre règlementaire].

6 - Procédé selon la revendication 1 caractérisé en ce que lesdits traitements appliqués aux variables / valeurs « cachées» consistent à :

enregistrer lesdites variables dans une DMZ