FR3077894A1

FR3077894A1 - AUTOMATIC PROCESSING METHOD FOR ANONYMOUSING A SET OF DIGITAL DATA

Info

Publication number: FR3077894A1
Application number: FR1851182A
Authority: FR
Inventors: Fatma Bouattour; Mohamed Kasraoui; Paul-Olivier Gibert
Original assignee: Digital & Ethics
Current assignee: Digital & Ethics
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2019-08-16
Anticipated expiration: 2038-02-13
Also published as: FR3077894B1; WO2019158840A1; EP3752948A1

Abstract

L'invention concerne le domaine du traitement des données numériques et plus particulièrement des traitements automatiques de grands volumes de données numériques consistant à modifier le contenu et/ou la structure de ces données afin de rendre très difficile ou impossible la « ré-identification » des personnes (physiques ou morales) ou des entités concernées, notamment en procédant à l'anonymisation.The invention relates to the field of digital data processing and more particularly automatic processing of large volumes of digital data by modifying the content and / or the structure of these data in order to make it very difficult or impossible to "re-identify" the data. persons (natural or legal) or entities concerned, in particular by proceeding with anonymisation.

Description

PROCEDE DE TRAITEMENT AUTOMATIQUE POUR L'ANONYMISATION D'UN JEU DE DONNEES NUMERIQUESAUTOMATIC PROCESSING METHOD FOR THE ANONYMIZATION OF A DIGITAL DATA GAME

Domaine de 1'inventionField of the invention

La présente invention concerne le domaine du traitement des données numériques et plus particulièrement des traitements automatiques de grands volumes de données numériques consistant à modifier le contenu et/ou la structure de ces données afin de rendre très difficile ou impossible la « ré-identification » des personnes (physiques ou morales) ou des entités concernées, notamment en procédant à 1'anonymisation.The present invention relates to the field of digital data processing and more particularly to the automatic processing of large volumes of digital data consisting in modifying the content and / or the structure of this data in order to make it very difficult or impossible to "re-identify" individuals (natural or legal) or entities concerned, in particular by anonymizing.

Les entreprises accumulent aujourd'hui d'importants volumes de données dont le traitement et la monétisation peut créer de la valeur. Ces données couvrent les données à caractère personnel ce qui les soumet à des exigences réglementaires et éthiques avant leur diffusion. L'anonymisation des données est donc une étape cruciale pour prévenir l'accès aux données à caractère personnel. L'anonymisation engendre généralement une perte d'informations qu'il faudra cependant contrôler afin de garder l'utilité des données pour les utilisateurs. Afin de bien cibler l'anonymisation, il convient donc de décider des variables qualifiées comme identificatrices ou comme sensibles à la divulgation. Une analyse rationnalisée des attributs d'un jeu de données, de leurs caractéristiques et de leurs modalités est donc indispensable pour faire la classification des attributs, préalable aux exercices d'anonymisation et/ ou d'évaluation du risque de divulgation des données à caractère personnel. La rationalisation de l'identification des attributs pour anonymisation permettre de résoudre les potentiels problèmes de subjectivité et / ou de non précision des analyses, qui pourront émerger quand la classification des attributs est laissée au choix de l'utilisateur/ anonymisateur et ne se base pas sur l'avis d'un expert.Companies today accumulate large volumes of data, the processing and monetization of which can create value. These data cover personal data which subjects them to regulatory and ethical requirements before their dissemination. The anonymization of data is therefore a crucial step to prevent access to personal data. Anonymization generally generates a loss of information which must however be controlled in order to keep the data useful for users. In order to properly target anonymization, it is therefore necessary to decide on the variables qualified as identifiers or as sensitive to disclosure. A rationalized analysis of the attributes of a data set, their characteristics and their modalities is therefore essential to classify the attributes, prior to the anonymization exercises and / or evaluation of the risk of disclosure of personal data. . The streamlining of the identification of attributes for anonymization makes it possible to resolve the potential problems of subjectivity and / or non-precision of the analyzes, which may arise when the classification of attributes is left to the choice of the user / anonymizer and is not based on the advice of an expert.

Le choix d¹anonymiser des données résulte souvent d'un compromis déontologique, juridique et éthique, entre une volonté ou une obligation de protéger les individus et leurs données personnelles. L'anonymisation est en particulier employée pour la diffusion et le partage de données jugées d'intérêt public, comme les données ouvertes (Open data).Choosing ¹ anonymize data often results from a compromise ethical, legal and ethical, between a desire or an obligation to protect individuals and their personal data. Anonymization is used in particular for the dissemination and sharing of data deemed to be of public interest, such as open data.

Une première étape consiste généralement à supprimer les identifiants des fiches ou des bases de données concernées tels que les noms, prénoms, identifiants fiscaux, numéros de sécurité sociale,...A first step generally consists in deleting the identifiers from the files or databases concerned such as names, first names, fiscal identifiers, social security numbers, etc.

L'étape suivante consistera fichiers ou bases de données des « transformations cryptographiques » (ex à appliquer aux filtres » et « chiffrement et/ou hachage de données par un algorithme dédié, par exemple SHA pour Secure Hash Algorithm), mais avant ce travail, le gestionnaire des données procède ou fait procéder à une étude clarifiant son besoin d'anonymisation, ses objectifs et ses exigences (ex : doit-il y avoir une réversibilité possible de l'anonymisation), hiérarchisant le cas échéant les données à protéger, selon leur degré de sensibilité et en fonction de la finalité du traitement que doivent ensuite subir les informations. Il peut ainsi produire et comparer plusieurs scenarii d'anonymisation pour mieux choisir la solution lui semblant la plus pertinente (en fonction de ses exigences, et des exigences de la Loi). Dans tous les cas l'anonymisation doit résister aux attaques par dictionnaire.The next step will consist of files or databases of “cryptographic transformations” (eg to apply to filters ”and“ encryption and / or hashing of data by a dedicated algorithm, for example SHA for Secure Hash Algorithm), but before this work, the data manager carries out or has carried out a study clarifying his need for anonymization, his objectives and his requirements (ex: should there be a possible reversibility of anonymization), prioritizing if necessary the data to be protected, according to their degree of sensitivity and according to the purpose of the processing which the information must then undergo. He can thus produce and compare several anonymization scenarios to better choose the solution which seems to him the most relevant (according to his requirements, and the requirements of the Law). In all cases, anonymization must resist dictionary attacks.

Plusieurs phases et niveaux d'anonymisation se succèdent parfois : par exemple l'hôpital procède à une première anonymisation, le centre de traitement des données peut ensuite compléter ce travail, et les utilisateurs secondaires (chercheurs en général) peuvent encore sur anonymiser la donnée retravaillée (avant sa publication dans une revue ou distribution à d'autres utilisateurs). De nombreuses méthodes existent (effacement de certaines données (suppression) et/ou transcodage manuel, généralisation, ajout de bruit; utilisation de pseudonymes par exemple pour le couple médecin/patient ; de chiffrement (généralement avec une clé publique - éventuellement fragmentée - possédée par 1'autorité compétente).Several phases and levels of anonymization sometimes follow one another: for example, the hospital performs an initial anonymization, the data processing center can then complete this work, and secondary users (researchers in general) can still anonymize the reworked data. (before publication in a journal or distribution to other users). Many methods exist (erasure of certain data (deletion) and / or manual transcoding, generalization, addition of noise; use of pseudonyms for example for the doctor / patient couple; encryption (generally with a public key - possibly fragmented - possessed by The competent authority).

Dans le domaine médical, la notion d'identité anonymisée et de ré-identification du patient concerne les moyens directs et indirects de ré-identification (ex : nom, adresse...) mais également les données chiffrées si le moyen de décryptage est disponible.In the medical field, the notion of anonymized identity and patient re-identification concerns the direct and indirect means of re-identification (ex: name, address ...) but also the figures if the means of decryption is available. .

Pour limiter les risques de fuites d'informations, une personnes (ex : un patient) ne figure dans une base de donnée anonyme que si cela est obligatoire ou vraiment utile, et à un projet peut n'être associé qu'une seule base anonymisée. Une sécurité juridique accrue est obtenue si toutes les personnes y figurant ont donné leur consentement (par écrit ou via la fourniture de son identifiant, pour une étude de nature médico-commerciale, par exemple, mais ce type de base induit des biais d'interprétation.To limit the risk of information leaks, a person (eg a patient) is only included in an anonymous database if this is mandatory or really useful, and a project can be associated with only one anonymous database . Increased legal certainty is obtained if all the persons appearing there have given their consent (in writing or by providing their identifier, for a study of a medico-commercial nature, for example, but this type of basis induces bias in interpretation .

Bien entendu, à chaque niveau de production ou stockage de données :Of course, at each level of data production or storage:

- Les personnels internes doivent être soumis à des mécanismes de contrôles d'accès devant interdire tout accès non autorisé ;- Internal staff must be subject to access control mechanisms designed to prevent unauthorized access;

- Des mécanismes doivent être prévus pour détecter et bloquer les tentatives d'intrusion (par l'Internet ou d'autres moyens) et en particulier les tentatives malveillantes d'inférence de données, d'abus de pouvoir, etc.- Mechanisms must be provided to detect and block intrusion attempts (via the Internet or other means) and in particular malicious attempts at data inference, abuse of power, etc.

Etat de la techniqueState of the art

La demande de brevet WO 2015066523 décrit un exemple de procédé implémenté par ordinateur, pour fournir de meilleurs niveaux de confidentialité des données, d'anonymat et de sécurité en autorisant des sujets auxquels des données appartiennent, à rester anonymes de façon dynamique, autrement dit anonymes aussi longtemps qu'ils le souhaitent et dans la mesure souhaitée.Patent application WO 2015066523 describes an example of a computer-implemented method for providing better levels of data confidentiality, anonymity and security by allowing subjects to whom data belongs to remain dynamically anonymous, in other words anonymous as long as they wish and to the extent desired.

Des modes de réalisation comprennent des systèmes qui créent, accèdent à, utilisent, enregistrent et/ou effacent des données avec des niveaux accrus de confidentialité, anonymat et sécurité, pour obtenir ainsi des informations mieux qualifiées et plus précises. Pour les données devant être partagées avec des tiers, des modes de réalisation peuvent rendre possible un partage contrôlé d'informations qui permet de délivrer des informations limitées temporellement, géographiquement et/ou par l'usage, à la partie réceptrice. Dans un exemple, des scores de mesures d'anonymat peuvent être calculés pour les éléments de données partagés, de sorte qu'un niveau de consentement/engagement requis par l'objet de données avant le partage des éléments de données pertinents à des tiers puisse être spécifié.Embodiments include systems that create, access, use, store and / or erase data with increased levels of confidentiality, anonymity and security, thereby obtaining better qualified and more accurate information. For the data to be shared with third parties, embodiments can make possible a controlled sharing of information which makes it possible to deliver information limited in time, geographically and / or by use, to the receiving party. In one example, anonymity measure scores can be calculated for shared data items, so that a level of consent / commitment required by the data object before sharing of relevant data items to third parties can be specified.

La demande de brevet WO2012080081 porte sur un procédé mis en oeuvre par ordinateur d'anonymisation de données provenant d'une source de données pour une application cible, le procédé consistant à : identifier des éléments de données sensibles dans des données provenant de la source de données par 1'intermédiaire d'un outil de découverte et générer des définitions de données pour des éléments de données indiquant les éléments de données sensibles, les définitions de données comprenant au moins une propriété pour les éléments de données ; spécifier un ensemble de règles de moteur d'exécution comprenant au moins une règle de moteur d'exécution, la règle de moteur d'exécution comprenant un protocole d'anonymisation de moteur d'exécution, l'ensemble de règles de moteur d'exécution étant spécifiées parPatent application WO2012080081 relates to a computer-implemented method of anonymizing data originating from a data source for a target application, the method consisting in: identifying sensitive data elements in data originating from the data through a discovery tool and generating data definitions for data elements indicating sensitive data elements, the data definitions comprising at least one property for the data elements; specify a set of execution engine rules comprising at least one execution engine rule, the execution engine rule comprising an execution engine anonymization protocol, the execution engine rule set being specified by

1'intermédiaire d'une interface ; mapper 1'ensemble de règles de moteur d'exécution aux définitions de données générées par 1'outil de découverte pour chacun des éléments de données sensibles ; et consommer les définitions de données générées et appliquer le protocole d'anonymisation de moteur d'exécution mappé à la définition de données d'élément de données sensible, afin d'anonymisation l'élément de données sensible pour l'application cible.1'intermediate interface; mapping the set of execution engine rules to the definitions of data generated by the discovery tool for each of the sensitive data elements; and consuming the generated data definitions and applying the execution engine anonymization protocol mapped to the sensitive data item data definition, in order to anonymize the sensitive data item for the target application.

On connaît aussi la demande de brevet EP2752786 qui décrit un dispositif d'anonymisation et un procédé d'anonymisation caractérisés en ce que toutes les données satisfont des niveaux demandés d'anonymat pour chacune, et en ce qu'ils empêchent la perte de valeur de l'information qui résulte de 1'abstraction de la collection de données tout entière. Le présent dispositif d'anonymisation comprend : un moyen d'anonymisation servant à effectuer un traitement d'anonymisation lors duquel un groupe de données est traité comme une unité de traitement pour une collection de données comprenant au moins deux données ; un moyen de spécification du niveau d'anonymat servant à spécifier un niveau d'anonymat adaptatif pour chaque groupe ; et un moyen d'évaluation de l'anonymat servant à juger si un groupe satisfait le niveau d'anonymat adaptatif spécifié. Le moyen d'anonymisation, sur la base du résultat d'évaluation du moyen d'évaluation de l'anonymat, effectue de plus un traitement d'anonymisation de la collection de données pour laquelle le traitement d'anonymisation a été effectué.Also known is patent application EP2752786 which describes an anonymization device and an anonymization process characterized in that all the data satisfy the requested levels of anonymity for each, and in that they prevent the loss of value of information that results from abstracting the entire data collection. The present anonymization device comprises: an anonymization means for carrying out an anonymization processing during which a group of data is treated as a processing unit for a collection of data comprising at least two data; an anonymity level specifying means for specifying an adaptive anonymity level for each group; and an anonymity assessment means for judging whether a group meets the specified adaptive anonymity level. The anonymization means, on the basis of the evaluation result of the anonymity evaluation means, moreover performs an anonymization processing of the data collection for which the anonymization processing has been carried out.

La demande de brevet européenne EP2573699 décrit un autre exemple de dispositif d'anonymisation servant à configurer automatiquement un arbre hiérarchique général de valeurs d¹ attribut dans la technologie de protection des informations d'identité. De plus, le dispositif d'anonymisation décrit, évalue quantitativement la quantité d'informations qui est perdue lors de la généralisation d'une valeur d'attribut, et peut ainsi automatiquement évaluer des priorités entre des données anonymisées et entre des données qui sont en cours d'anonymisation. Des informations de chaque personne comprennent des valeurs d¹ attribut de la personne pour une pluralité d'attributs. Une anonymisation est réalisée par obscurcissement des valeurs d'attribut, et une structure dans laquelle des valeurs d'attribut devant être obscurcies, sont exprimées dans une structure arborescente conformément au niveau d'obscurcissement est appelée arbre hiérarchique général. Le dispositif d'anonymisation d'informations d'identité décrit réalise une configuration automatique par configuration d'un arbre à l'aide d'informations de fréquence de valeurs d'attribut. De plus, par définition d'un moyen de mesure de quantité d'informations perdue, à l'aide de l'arbre hiérarchique général, une quantité d'informations perdue entre deux données anonymisées ou entre des données en cours d'anonymisation est quantitativement évaluée.The European patent application EP2573699 describes another example of anonymization device for automatically configuring a hierarchical tree of values General ¹ attribute in protecting identity information technology. In addition, the anonymization device described, quantitatively assesses the amount of information which is lost during the generalization of an attribute value, and can thus automatically evaluate priorities between anonymized data and between data which are in anonymization course. Information of each person include the values of ^one attribute of the person for a plurality of attributes. Anonymization is achieved by obscuring attribute values, and a structure in which attribute values to be obscured are expressed in a tree structure according to the level of obscuration is called a general hierarchical tree. The described identity information anonymization device performs an automatic configuration by configuring a tree using attribute value frequency information. In addition, by definition of a means of measuring the amount of information lost, using the general hierarchical tree, an amount of information lost between two anonymized data or between data being anonymized is quantitatively evaluated.

La demande de brevet US 2107/ 0124336 décrit une méthode automatisée d'identification des attributs pour l'exercice d'anonymisation. Cette méthode se base sur un cryptage des données, étape préalable à l'étude du niveau de sensibilité des données et donc de leurs degrés d'exigence en termes d'anonymisation. Ce brevet propose trois méthodes pour choisir les valeurs / attributs pour anonymisation. Une première méthode consiste en la comparaison des différentes valeurs avec des valeurs présentes dans un dictionnaire, auxquelles sont associés différents niveaux de sensibilité. Les attributs pour lesquels la présence des valeurs sensibles dans le jeu de données dépasse un certain seuil prédéterminé, seront sélectionnés pour anonymisation. Une deuxième méthode de classification est basée sur une comparaison des distributions des valeurs d'un attribut dans le jeu de données et dans une distribution connue. Cette méthode peut confirmer les résultats de la première méthode d'identification des attributs à anonymiser. Une dernière méthode est de fournir à 1'anonymisateur une partie du jeu de données dans sa version originale (avant cryptage) et de générer à partir de cet échantillon un nombre d'expressions pour un ou plusieurs attribut(s). Le reste du jeu de données sera crypté et comparé à ces expressions générées afin d'identifier certains attributs et leur sensibilité.The patent application US 2107/0124336 describes an automated method of identifying attributes for the exercise of anonymization. This method is based on data encryption, a step prior to studying the level of sensitivity of the data and therefore their degree of requirement in terms of anonymization. This patent proposes three methods for choosing the values / attributes for anonymization. A first method consists in comparing the different values with values present in a dictionary, with which various levels of sensitivity are associated. Attributes for which the presence of sensitive values in the data set exceeds a certain predetermined threshold will be selected for anonymization. A second classification method is based on a comparison of the distributions of the values of an attribute in the dataset and in a known distribution. This method can confirm the results of the first method of identifying attributes to be anonymized. A final method is to provide the anonymizer with part of the original version of the data set (before encryption) and to generate from this sample a number of expressions for one or more attributes. The rest of the dataset will be encrypted and compared to these generated expressions to identify certain attributes and their sensitivity.

Inconvénients de l'art antérieurDisadvantages of the prior art

Les solutions de l'art antérieur sont adaptées pour préparer des bases de données anonymisées lors de leur création. Par contre, ces solutions ne permettent pas de faire évoluer facilement l'anonymisation, par exemple lorsque l'ajout de nouvelles entrées modifie le contexte de d'anonymisation. Les solutions de l'art antérieur nécessitent dans ce cas le retraitement de l'intégralité de la base de données, ce qui peut nécessiter un temps de calcul considérable, pour des bases de données pouvant représenter plusieurs téraoctets.The solutions of the prior art are adapted to prepare anonymized databases during their creation. On the other hand, these solutions do not make it possible to easily change the anonymization, for example when the addition of new entries modifies the context of anonymization. The solutions of the prior art in this case require the reprocessing of the entire database, which can require considerable computation time, for databases which can represent several terabytes.

Par ailleurs, les solutions de l'art antérieur ne permettent pas d'ajuster de manière flexible, et dynamiquement évolutive, le niveau d'exigence d'anonymisation en fonction des possibilités de ré-identification par des traitements élaborés des données.Furthermore, the solutions of the prior art do not make it possible to flexibly and dynamically evolve the level of requirement for anonymization as a function of the possibilities of re-identification by elaborate processing of the data.

Une anonymisation trop exigeante conduit à la perte de toute utilité/valeur des données.Too demanding anonymization leads to the loss of any usefulness / value of the data.

Par contre, si on privilégie la richesse des informations accessibles par le traitement des données, l'anonymisation risque d'être insuffisante au regard des normes règlementaires.On the other hand, if we privilege the wealth of information accessible by data processing, anonymization risks being insufficient with regard to regulatory standards.

Cet arbitrage entre ces deux contraintes évolue en fonction du nombre et de la nature des entrées enregistrées dans la base de données.This trade-off between these two constraints evolves according to the number and nature of the entries recorded in the database.

A titre d'exemple, une information relative au sexe combinée avec une information relative à l'âge peut être identificatrice, ce qui nécessite une action de transformation/ anonymisation, surtout lorsque le jeu de données contient en plus des informations relatives à une pathologie donnée. Toutefois, si la totalité des entrées/ enregistrements correspondent à un même sexe, ou à une même tranche d'âge, l'information n'est en réalité pas identificatrice. Mais si des entrées nouvelles modifient cette situation, l'information « sexe » ou « âge » peut nécessiter un traitement différent.For example, information relating to sex combined with information relating to age can be identifying, which requires a transformation / anonymization action, especially when the data set contains in addition information relating to a given pathology . However, if all the entries / records correspond to the same sex, or to the same age group, the information is in reality not identifying. But if new entries change this situation, the “sex” or “age” information may require different processing.

De plus, l'anonymisation nécessite une étape préalable d'identification des attributs / valeurs à anonymiser. Cette étape est laissée au choix de 1'anonymisateur/ utilisateur et est donc sujette à un problème de subjectivité et de non précision de la classification. De plus, même les travaux qui se concentrent sur la classification des attributs, ne fournissent pas de méthodologie claire et documentée de qualification des attributs.In addition, anonymization requires a prior step of identifying the attributes / values to be anonymized. This step is left to the choice of the anonymizer / user and is therefore subject to a problem of subjectivity and non-precision of the classification. Furthermore, even the works which focus on the classification of attributes, do not provide a clear and documented methodology for qualifying attributes.

Solution apportée par l'inventionSolution provided by the invention

La présente invention vise à remédier à ces inconvénients en proposant un procédé permettant d'avoir différents niveaux d'anonymisation au travers d'une classification des variables d'une base de données.The present invention aims to remedy these drawbacks by proposing a method making it possible to have different levels of anonymization through a classification of the variables of a database.

L'invention concerne selon son acception la plus générale un procédé de traitement automatique d'un jeu de données numériques consistant :The invention relates, according to its most general meaning, to a method of automatic processing of a set of digital data consisting of:

à enregistrer dans une mémoire non permanente un jeu de données originelles, à enregistrer dans une mémoire permanente o un fichier numérique constitué par une table déterminant au moins des identifiants/ dénominations des variables, et pour chacune desdites variables un paramètre « Statut identifiant » [identifiant « I », quasi-identifiant « QI », non identifiant « NP »] un paramètre « Statut Sensibilité » [: oui « S », ou non « NS » ] . Ce paramètre dépend de la définition de sensibilité retenue :to save in a non-permanent memory a set of original data, to save in a permanent memory o a digital file constituted by a table determining at least identifiers / denominations of the variables, and for each of said variables a parameter "Identifier status" [identifier “I”, quasi-identifier “QI”, non-identifier “NP”] a “Sensitivity Status” parameter [: yes “S”, or not “NS”]. This parameter depends on the definition of sensitivity adopted:

Sensibilité « règlementaire », se limitant aux exigences juridiques en termes de protection de la vie privée.“Regulatory” sensitivity, limited to legal requirements in terms of protection of privacy.

- Sensibilité « générale », englobant d'autres aspects comme le psychologique, le culturel,...- "General" sensitivity, encompassing other aspects such as psychological, cultural, ...

o Un fichier numérique constitué par une table de variables de recensement de la population de référence avec pour chacuneo A digital file consisting of a table of census variables of the reference population with each for

Les différentes modalités/ valeurs prises par chaque variable selon le recensementThe different modalities / values taken by each variable according to the census

La fréquence d'apparition de chaque modalité dans la population de référence (France, Etats Unis,..)The frequency of appearance of each modality in the reference population (France, United States, etc.)

Un ordre du pouvoir d'identification des différentes variables du recensement o Un fichier numérique constitué par une table de variables avec un ordre établi du degré de facilité (208) par lequel un potentiel attaquant peut accéder à l'information sur les différentes variables. Cet ordre peut être déduit de certaines bases de données retraçant l'historique des attaques.An order of the power to identify the different census variables o A digital file consisting of a table of variables with an established order of the degree of ease (208) by which a potential attacker can access information on the different variables. This order can be deduced from certain databases retracing the history of attacks.

o Un fichier numérique constitué par une table d'attributs « sensibles », pour lesquels les valeurs/ modalités sont classées par ordre de sensibilité.o A digital file made up of a table of “sensitive” attributes, for which the values / methods are classified in order of sensitivity.

Le procédé consistant à appliquer :The process of applying:

un premier traitement se basant sur le référentiel des attributs, noté « Classification Initiale » consistant à o associer à chacune des variables dudit jeu de données originel un paramètre « statut » et à traiter les variables associées à un statut « caché» (« I », « Qi » ou « S »), c'est-à-dire nécessitant une action avant partage des données, pour empêcher leur utilisation normale (sans anonymisation par exemple) dans ledit jeu de données o à affecter à chacune des variables associées à un statut « NP» / « NS» un drapeau de non traitement et de conservation définitifs dans le jeu de données final un deuxième traitement concernant les variables résiduelles associées à un statut « quasi-identifiant » consistant à :a first processing based on the attributes repository, noted “Initial Classification” consisting in o associating with each of the variables of said original data set a “status” parameter and in processing the variables associated with a “hidden” status (“I” , "Qi" or "S"), that is to say requiring action before data sharing, to prevent their normal use (without anonymization for example) in said dataset o to be assigned to each of the variables associated with a “NP” / “NS” status, a flag of definitive non-processing and conservation in the final data set, a second processing concerning the residual variables associated with a “quasi-identifying” status consisting of:

o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale dudit jeu de données OU o affecter à chacune desdites variables résiduelles :o Prohibit their exploitation consisting in assigning a “hidden” status to prevent their normal use in the final version of said dataset OR o assign to each of said residual variables:

un premier indicateur correspondant à la disponibilité de la valeur associée à partir de sources de données extérieures, par exemple à partir d'un web crawler ou d'un référentiel ou d'historiques d'attaques et/ou un second indicateur correspondant à la fréquence des valeurs de ladite variables associées dans la population générale (appelée aussi population de référence) dont le jeu de données constitue un sous-ensemble o à ordonner chacune desdites variables résiduelles en fonction desdits indicateurs associés, ce qui se traduira par exemple par des niveaux de traitement/ anonymisation différents lors du processus d'anonymisation. Cet ordre traduit la classificationa first indicator corresponding to the availability of the associated value from external data sources, for example from a web crawler or a repository or attack histories and / or a second indicator corresponding to the frequency values of said associated variables in the general population (also called reference population) whose dataset constitutes a subset o to order each of said residual variables as a function of said associated indicators, which will result for example in levels of different processing / anonymization during the anonymization process. This order translates the classification

finale des numérique « digital final attributs QI » . attributes IQ ”. affectés à assigned to une séquence a sequence un a troisième third traitement treatment concernant concerning les variables the variables résiduelles associées à un residuals associated with a paramètre setting de sensibilité of sensitivity

« règlementaire » consistant à :"Regulatory" consisting of:

o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale (215) dudit jeu de donnéeso Prohibit their exploitation consisting in assigning a “hidden” status to prevent their normal use in the final version (215) of said dataset

OU o Affecter à chacune de ces variables résiduelles un indicateur de sensibilité en se référant à une liste de variables sensibles avec leurs différentes modalités/ valeurs allant des plus sensibles aux moins sensibles. Ces indicateurs sont calculés sur la base de la fréquence d'apparition des valeurs les plus sensibles de l'attribut sensible. Ils seront ensuite comparés à un seuil de fréquence « acceptable » préalablement défini.OR o Assign a sensitivity indicator to each of these residual variables by referring to a list of sensitive variables with their different modalities / values ranging from the most sensitive to the least sensitive. These indicators are calculated on the basis of the frequency of appearance of the most sensitive values of the sensitive attribute. They will then be compared to a previously defined “acceptable” frequency threshold.

o Garder pour chacune des variables résiduelles caractérisées, par une fréquence d'apparition des valeurs sensibles supérieure à une valeur seuil, leur statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données.o Keep for each of the residual variables characterized, by a frequency of appearance of sensitive values greater than a threshold value, their "hidden" status to prevent their normal use in said data set.

o Affecter aux variables restantes un statut « caché » mais plus « flexible » en termes d'exigences de traitements lors du processus d'anonymisation.o Assign the remaining variables a “hidden” but more “flexible” status in terms of processing requirements during the anonymization process.

Selon un mode de mise en œuvre particulier, un quatrième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « générale » consistant à affecter à certaines desdites variables un statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données.According to a particular mode of implementation, a fourth processing concerning the residual variables associated with a “general” sensitivity parameter consisting in assigning to some of said variables a “hidden” status to prevent their normal use in said data set.

Selon une variante, le procédé comporte avant l'étape de première classification un traitement pour affecter à chacune des variables pour lesquelles aucune correspondance avec le référentiel des attributs (201) n'est établie, un statut provisoire dans le référentiel des attributs (201), qui peut être modifié en statut définitif ou rejeté selon l'avis d'un opérateur.According to one variant, before the first classification step, the method includes processing to assign to each of the variables for which no correspondence with the attribute repository (201) is established, a provisional status in the attribute repository (201) , which can be changed into final status or rejected according to the opinion of an operator.

Avantageusement, le procédé comporte en outre une étape consistant à appliquer dynamiquement aux variables non associables au référentiel des attributs, un traitement spécifique consistant à enregistrer dans ledit référentiel le couple « variable, statut » en attente de validation/ rejet selon l'avis d'un opérateur. Cela impliquerait aussi des enrichissements potentiels des référentiels de « Pouvoir d'identification » (207) et/ ou de « sensibilité ».Advantageously, the method further comprises a step consisting in dynamically applying to the variables not associable with the frame of reference of the attributes, a specific processing consisting in recording in said frame of reference the couple “variable, status” awaiting validation / rejection according to the opinion of an operator. This would also imply potential enhancements to the “Identification power” (207) and / or “sensitivity” benchmarks.

Selon une variante, lesdits traitements sont appliqués périodiquement [par exemple lors de chaque évolution du jeu de données (210) ou à chaque évolution du cadre règlementaire].According to a variant, said processing operations are applied periodically [for example during each evolution of the data set (210) or each evolution of the regulatory framework].

Avantageusement, lesdits traitements appliqués aux variables / valeurs « cachées» consistent à :Advantageously, said treatments applied to “hidden” variables / values consist of:

supprimer lesdites variables / valeurs (notamment pour les variables affectées au statut « I ») enregistrer lesdites variables dans une DMZ l'anonymisation d'une partie au moins des valeurs correspondant auxdites variables.delete said variables / values (in particular for variables assigned to status "I") record said variables in a DMZ the anonymization of at least part of the values corresponding to said variables.

Description détaillée d'un exemple non limitatif deDetailed description of a nonlimiting example of

1'invention1'invention

La présente invention sera mieux comprise à la lecture de la description détaillée d'un exemple non limitatif de l'invention qui suit, se référant aux dessins annexés, où :The present invention will be better understood on reading the detailed description of a nonlimiting example of the invention which follows, referring to the appended drawings, where:

La figure 1 représente du logigramme de l'ensemble des traitements.FIG. 1 represents the flow diagram of all the treatments.

- La figure 2 représente l'ensemble des modules des traitements pour la mise en œuvre de l'invention.- Figure 2 shows all the processing modules for the implementation of the invention.

La figure 3 présente une vue détaillée du logigramme de la première étape de classification.Figure 3 presents a detailed view of the flow diagram of the first classification step.

La figure 4 présente une vue détaillée du logigramme de l'analyse du pouvoir d'identification des attributs.FIG. 4 presents a detailed view of the flow diagram of the analysis of the power of identification of the attributes.

La figure 5 présente une vue détaillée du logigramme de l'analyse de la sensibilité des attributs.Figure 5 presents a detailed view of the flowchart of the attribute sensitivity analysis.

Contexte de l'inventionContext of the invention

La présente invention concerne la classification automatique des attributs d'un jeu de données numériques permettant de mieux cibler les exercices d'anonymisation et/ ou d'évaluation du risque de ré-identification (RI). Le but est d'automatiser les traitements techniques permettant d'assurer le respect du cadre règlementaire sur la protection des données à caractère personnel.The present invention relates to the automatic classification of the attributes of a digital data set allowing better targeting of anonymization and / or re-identification risk assessment (IR) exercises. The aim is to automate technical processing to ensure compliance with the regulatory framework for the protection of personal data.

La multiplication des données à caractère personnel et les évolutions juridiques et légales dans ce domaine rendent l'exercice de l'anonymisation des bases de données un enjeu pour les propriétaires/ utilisateurs des bases de données numériques.The proliferation of personal data and legal and legal developments in this area make the exercise of database anonymization a challenge for owners / users of digital databases.

Certains organismes nationaux et européens tels que la CNIL ou le G2 9 insistent sur l'importance de la protection des données à caractère personnel, en proposant des méthodologies d'anonymisation permettant d'avoir un compromis entre la protection de la vie privée et l'exploitation des données. Le cadre réglementaire est renforcé en plus par le règlement européen sur la protection des données (RGPD) qui vise à harmoniser les législations européennes sur la question de la protection des données à caractère personnel. Afin de garantir la protection des données, les travaux d'anonymisation devront être vérifiés en évaluant le risque de ré-identification des données à caractère personnel.Certain national and European organizations such as the CNIL or the G2 9 insist on the importance of the protection of personal data, by proposing anonymization methodologies making it possible to have a compromise between the protection of privacy and the data analysis. The regulatory framework is further strengthened by the European Data Protection Regulation (GDPR) which aims to harmonize European laws on the issue of the protection of personal data. In order to guarantee data protection, anonymization work must be checked by assessing the risk of re-identification of personal data.

L'anonymisation et l'évaluation du risque de divulgation des données à caractère personnel concernent généralement certaines variables d'un jeu de données, particulièrement celles ayant un caractère identifiant ou celles ayant un caractère sensible. En même temps, l'anonymisation implique une perte d'information sur le jeu de données, pouvant affecter l'utilité des données pour des utilisateurs tels que les chercheurs. Pour cela, il est pertinent pour un utilisateur ou propriétaire des données de bien cibler les variables sur lesquelles l'anonymisation ou la mesure de risque de ré-identification seront effectuées. Ainsi, la classification des attributs d'un jeu de données serait-elle un atout pour faire l'équilibre entre l'obligation du respect de la vie privée et la garantie de l'utilité des données.The anonymization and the evaluation of the risk of disclosure of personal data generally concern certain variables of a data set, particularly those having an identifying character or those having a sensitive character. At the same time, anonymization implies a loss of information about the dataset, which can affect the usefulness of the data for users such as researchers. For this, it is relevant for a user or owner of the data to target the variables on which anonymization or the risk of re-identification will be carried out. Thus, the classification of the attributes of a data set would be an asset to strike a balance between the obligation of respect for private life and the guarantee of the usefulness of the data.

La classification des attributs est effectuée par un traitement « manuel » par le propriétaire des données et reste liée à son appréciation. Cela laisse la question de la classification des variables sujette à la subjectivité et donc pouvant engendrer des décisions d'anonymisation ou d'évaluation du risque de ré-identification qui ne sont pas en conformité avec les exigences de la manipulation des données à caractère personnel. De plus, le contexte de diffusion des jeux de données, l'évolution des lois et des coutumes ainsi que les caractéristiques de certains jeux de données font que la classification des variables n'est pas définitive et qu'une appréciation d'expert est toujours souhaitable pour garantir l'utilisation éthique des données à caractère personnel.The classification of attributes is carried out by “manual” processing by the data owner and remains linked to his assessment. This leaves the question of the classification of variables subject to subjectivity and therefore capable of giving rise to decisions on anonymisation or assessment of the risk of re-identification which are not in accordance with the requirements of the manipulation of personal data. Furthermore, the context of dissemination of the data sets, the evolution of laws and customs as well as the characteristics of certain data sets mean that the classification of the variables is not final and that an expert assessment is always desirable to guarantee the ethical use of personal data.

Au vu de ces éléments, Il existe donc un problème technique lié à l'analyse préalable (manuelle ou automatique) des attributs d'un jeu de données afin de bien cibler les exercices d'anonymisation et/ ou d'évaluation du risque de réidentification des données par un attaquant potentiel du jeu de données.In view of these elements, there is therefore a technical problem related to the prior analysis (manual or automatic) of the attributes of a data set in order to properly target the anonymization and / or assessment of the risk of re-identification exercises. data by a potential attacker of the dataset.

Il existe dans ce cas un besoin de rationaliser la classification des attributs afin d'introduire tout d'abord de l'objectivité à cette tâche souvent sujette à la subjectivité, de manière automatique compte tenu du nombre considérable de données nécessitant un traitement, dans certaines applications. Cela rendra possible la comparaison entre jeux de données de même nature, en termes de risque de divulgation. Une bonne classification des attributs facilitera la décisions concernant les méthodes d'anonymisation et / ou de mesure de risque de divulgation des données à caractère personnel. De plus, avoir une classification des attributs qui dépend du jeu de données et qui n'est pas forcément définitive offre plus de flexibilité pour les propriétaires des données pour pouvoir satisfaire différents couples contextes d'utilisation/nature des clients.In this case, there is a need to rationalize the classification of the attributes in order to firstly introduce objectivity to this task often subject to subjectivity, automatically given the considerable amount of data requiring processing, in certain cases. applications. This will make it possible to compare data sets of the same kind, in terms of risk of disclosure. A good classification of the attributes will facilitate the decisions concerning the methods of anonymization and / or measurement of risk of disclosure of the personal data. In addition, having a classification of attributes which depends on the data set and which is not necessarily final offers more flexibility for data owners to be able to satisfy different pairs of contexts of use / nature of customers.

La présente invention propose une méthodologie de classification des attributs afin d'aider les propriétaires des données à partager leurs données tout en respectant les exigences des données à caractère personnel de manière automatique et de manière dynamique, permettant de faire évoluer automatiquement les paramètres en fonction de l'introduction de nouvelles données dans la base de données.The present invention provides an attribute classification methodology to help data owners share their data while respecting personal data requirements automatically and dynamically, allowing parameters to evolve automatically based on the introduction of new data into the database.

Le propriétaire des données accède à un jeu de données comportant des attributs. Chaque attribut a une dénomination permettant de le classer. Chaque attribut peut prendre différentes modalités/ valeurs et peut être donc aussi classer selon la composition de ces valeurs (distribution, fréquence ou autre).The data owner accesses a dataset with attributes. Each attribute has a name allowing it to be classified. Each attribute can take different modalities / values and can therefore also be classified according to the composition of these values (distribution, frequency or other).

L'innovation de cette méthodologie de classification réside donc particulièrement dans l'intervention des modalités des différents attributs d'un jeu de données dans le processus de classification des attributs.The innovation of this classification methodology therefore lies particularly in the intervention of the modalities of the different attributes of a data set in the process of classification of attributes.

Description de l'inventionDescription of the invention

Cette invention comporte deux étapes de classification des données. La classification commence par une première étape, où les attributs du jeu de données à traiter sont soumis à un premier classement, en se servant d'une base de données créée appelée « Référentiel des attributs ». Cette invention sera décrite selon un exemple détaillé en référence aux figures 1 à 5 annexées présentant l'architecture fonctionnelle et les logigrammes des principaux modules fonctionnels.This invention has two stages of data classification. Classification begins with a first step, where the attributes of the data set to be processed are subjected to a first classification, using a database created called "Attribute repository". This invention will be described according to a detailed example with reference to Figures 1 to 5 annexed presenting the functional architecture and the flow diagrams of the main functional modules.

1- Référentiel des attributs (201)1- Attributes repository (201)

Le «Référentiel des attributs» (201) consiste à appliquer une classification des attributs selon deux principaux critères d'anonymisation des données personnelles à savoir :The “Attributes repository” (201) consists in applying a classification of attributes according to two main criteria for anonymizing personal data, namely:

- leur caractère identifiant (202) et- their identifying character (202) and

- leur caractère sensible (203)- their sensitive nature (203)

Le caractère identifiant (202) se traduit par l'enregistrement d'une séquence numérique pouvant prendre trois états : « I » lorsque la variable est directement identificatrice comme le numéro de sécurité sociale , « QI » lorsque la variable peut devenir identificatrice, combinée avec d'autres variables associées à un même état comme le code postal, ou « NP ». Les variables associées à la séquence numérique « NP » ne font pas l'objet d'un traitement dans le cadre de cette invention, ce qui peut réduire le temps de calcul dans le processus/ la démarche d'anonymisation (204).The identifying character (202) results in the recording of a numerical sequence which can take three states: "I" when the variable is directly identifying like the social security number, "QI" when the variable can become identifying, combined with other variables associated with the same state such as postal code, or "NP". The variables associated with the numerical sequence "NP" are not the subject of a processing within the framework of this invention, which can reduce the computation time in the anonymization process / process (204).

Le caractère sensible (203) se traduit par l'enregistrement d'une séquence numérique pouvant prendre deux états : « S » lorsque la variable est sensible dans le sens où sa divulgation doit être évitée et « NS » dans les autres cas.The sensitive character (203) results in the recording of a numerical sequence which can take two states: "S" when the variable is sensitive in the sense that its disclosure must be avoided and "NS" in other cases.

Le référentiel (201) se traduit par un fichier rassemblant des variables, recensées à partir de l'état de l'art, des préconisations des instituts de protection de la vie privée ainsi que des cas d'usage rencontrés. Ces variables sont classées par catégorie afin de faciliter l'utilisation du référentiel lors de la classification des attributs d'un jeu de données considéré. Les catégories recensées sont les suivantes : santé, éducation et travail, adresses, numéros et dates...The repository (201) translates into a file gathering variables, listed on the basis of the state of the art, the recommendations of the privacy protection institutes as well as the use cases encountered. These variables are classified by category in order to facilitate the use of the repository when classifying the attributes of a given data set. The categories listed are: health, education and work, addresses, numbers and dates ...

La classification des attributs est ensuite basée sur deux éléments:The classification of attributes is then based on two elements:

- le caractère identifiant (202) des attributs et précisément leur pouvoir d'identification des attributs, et- the identifying character (202) of the attributes and precisely their power of identifying the attributes, and

- le caractère sensible (203) des données au sens de la loi et aussi plus généralement au sens des coutumes, société... Pour le caractère sensible, on considère :- the sensitive nature (203) of the data within the meaning of the law and also more generally within the meaning of customs, society ... For the sensitive nature, we consider:

- l'appartenance à une catégorie particulière au sens juridique et- belonging to a particular category in the legal sense and

- une sensibilité plus générale ne se limitant pas au niveau d'exigence juridique.- a more general sensitivity, not limited to the level of legal requirements.

Les attributs appartenant, selon la loi, à une «catégorie particulière» sont classés en tant que variables sensibles affectées de la séquence numérique « S », par exemple les données de santé, le casier judiciaire...The attributes belonging, according to the law, to a “particular category” are classified as sensitive variables affected by the numerical sequence “S”, for example health data, criminal record ...

La sensibilité « générale » ne se réduit cependant pas à la sensibilité juridique ; elle prend en compte des aspects éthiques et sociaux. Le nombre de redoublements par exemple peut être considéré comme une variable sensible, et donc cette variable pourra être associée à une séquence « S » ou « NS » selon le choix de l'utilisateur.“General” sensitivity cannot, however, be reduced to legal sensitivity; it takes into account ethical and social aspects. The number of repetitions for example can be considered as a sensitive variable, and therefore this variable could be associated with a sequence "S" or "NS" according to the choice of the user.

Ces critères sont issus de la littérature sur l'anonymisation et leur prise en compte pour faire la catégorisation des variables permet d'atténuer la subjectivité de la qualification et des analyses. En effet, la plupart des logiciels/ outils d'anonymisation ne fournissent pas de l'assistance à leurs utilisateurs dans l'étape de classification des attributs des jeux de données.These criteria come from the literature on anonymization and taking them into account to categorize the variables makes it possible to attenuate the subjectivity of the qualification and the analyzes. Indeed, most anonymization software / tools do not provide assistance to their users in the step of classifying the attributes of the data sets.

Ce référentiel (201) peut être enrichi de façon continue et est supposé rassembler un ensemble important de variables se rattachant à de nombreux secteurs d'activité, afin de faire croître son utilité.This repository (201) can be continuously enriched and is supposed to bring together a large set of variables relating to numerous sectors of activity, in order to increase its usefulness.

Le traitement se traduit par l'enrichissement de la table des données constituant le référentiel (201) par des paramètres numériques définis comme suit:The processing results in the enrichment of the data table constituting the repository (201) by numerical parameters defined as follows:

Catégorie : Il s'agit du thème auquel se rapporte 1'attribut.Category: This is the theme to which the attribute relates.

Attribut : Dénomination de l'attribut.Attribute: Name of the attribute.

Statut Identifiant : Il s'agit de classer la variable comme identificatrice « I, à éliminer de la version anonymisée », quasi-identif icatrice « QI » ou non « NP » .Status Identifier: This involves classifying the variable as identifier "I, to be eliminated from the anonymized version", quasi-identifier "QI" or not "NP".

Catégorie particulière au sens juridique : Il s'agit des attributs qui doivent être considérés comme sensibles et donc à protéger au sens la loi.Special category in the legal sense: These are attributes that must be considered sensitive and therefore protected in the sense of the law.

Sensibilité Générale : La sensibilité inclut la sensibilité au sens juridique mais aussi au sens de l'éthique, la coutume, la société, ...General Sensitivity: Sensitivity includes sensitivity to the legal sense but also to the sense of ethics, custom, society, ...

Remarques supplémentaires : Précisions à prendre en compte lors de la classification.Additional remarks: Precisions to be taken into account during classification.

Deux autres référentiels s'ajoutent pour affiner la classification des attributs (2^eme étape de classification) :Two other standards are added to refine the classification of attributes ^(2nd classification stage):

2- Référentiel de sensibilité des attributs (205)2- Attribute sensitivity reference (205)

Afin d'offrir une flexibilité aux utilisateurs au moment de la classification des attributs, le référentiel de « sensibilité des attributs » (205) propose de référencer selon le degré de sensibilité, les différentes modalités / valeurs d'un attribut classé comme sensible et donc affecté de la séquence numérique « S ».In order to offer flexibility to users when classifying attributes, the “attribute sensitivity” reference frame (205) proposes to reference, according to the degree of sensitivity, the different modalities / values of an attribute classified as sensitive and therefore assigned the digital sequence "S".

Certains attributs classés « sensibles » et affectés à la séquence numérique « S » prennent des valeurs n'ayant pas forcément le même degré de sensibilité et/ ou d'exigence de protection, d'où l'intérêt de proposer une analyse plus fine de sensibilité et de un ordre de sensibilité pour les différentes modalités des attributs sensibles (206).Certain attributes classified as “sensitive” and assigned to the numerical sequence “S” take on values that do not necessarily have the same degree of sensitivity and / or protection requirement, hence the advantage of offering a more detailed analysis of sensitivity and an order of sensitivity for the different modalities of sensitive attributes (206).

Par exemple, pour établir l'ordre de sensibilité des modalités que peut prendre l'attribut « Maladie », il est pertinent de prendre en compte que certaines maladies sont plus sensibles à la divulgation que d'autres, c'est-à-dire que leur divulgation pourrait causer plus de préjudice à la (les) personne(s) concernée(s).For example, to establish the order of sensitivity of the modalities that the attribute "Disease" can take, it is relevant to take into account that certain diseases are more sensitive to disclosure than others, that is to say, that their disclosure could cause more harm to the person (s) concerned.

En se basant sur les classifications internationales des maladies publiées par l'Organisation Mondiale de Santé (OMS), nous pouvons proposer un ordre de sensibilité des différentes maladies (selon le degré de dangerosité et/ ou de jugements sociaux) qui prendra par exemple la forme suivante :Based on the international classifications of diseases published by the World Health Organization (WHO), we can propose an order of sensitivity of the different diseases (according to the degree of dangerousness and / or social judgments) which will take for example the form next :

Maladies à sensibilité forte: Maladies sexuellement transmissibles, ...Highly sensitive diseases: Sexually transmitted diseases, ...

Maladies à sensibilité modérée: Maladies chroniques,...Moderately sensitive diseases: Chronic diseases, ...

Maladies à faible sensibilité : autresLow sensitivity diseases: others

In fine, le « Référentiel de sensibilité des Ultimately, the "Sensitivity reference system for attributs attributes » (205) est constitué par la liste des attributs "(205) consists of the list of attributes sensibles sensitive recensée grâce au « Référentiel des attributs » identified using the "Attribute repository" (201) et (201) and pour chaque attribut, les différentes modalités for each attribute, the different modalities possibles possible (pouvant évoluer) sont classées par ordre de (which may evolve) are classified in order of

sensibilité et / ou d'exigence en termes de protection de la vie privée et d'un point de vue socio-culturel.sensitivity and / or requirement in terms of privacy protection and from a socio-cultural point of view.

3- Référentiel du Pouvoir d'identification des données (207)3- Data identification power repository (207)

La qualification des attributs quasi-identifiants, affectés à une séquence numérique « QI » peut être améliorée en passant à un degré plus fin d'analyse (212). En effet, le pouvoir d'identification peut varier d'un attribut quasiidentif iant à un autre. Ainsi, le niveau d'exigence en termes d'anonymisation et / ou d'évaluation d'anonymisation pourrait être différent selon le niveau de pouvoir d'un quasiidentif iant dans la ré-identification d'un individu.The qualification of the quasi-identifying attributes, assigned to a numerical sequence "IQ" can be improved by passing to a finer degree of analysis (212). Indeed, the power of identification can vary from one quasi-identifying attribute to another. Thus, the level of requirement in terms of anonymization and / or evaluation of anonymization could be different depending on the level of power of a quasiidentifier in the re-identification of an individual.

Deux règles de décisions facilitant le classement des quasi-identifiants selon leur pouvoir d'identification sont déterminées, le but étant de créer un « Référentiel de Pouvoir d'identification » (207). Précisément, nous proposons deux critères sur lesquels se base l'ordre de pouvoir d'identification : la « facilité d'accès des attributs» et la « fréquence d'apparition dans la population de référence».Two decision rules facilitating the classification of quasi-identifiers according to their power of identification are determined, the aim being to create a "Repository of Power of identification" (207). Specifically, we propose two criteria on which the order of identification power is based: "ease of access to attributes" and "frequency of appearance in the reference population".

3.1- *Référentiel de facilité d'accès des attributs (208)3.1- * Accessibility repository for attributes (208)

Le principe de base de ce « Référentiel de facilité d'accès des attributs» (208) est qu'un attaquant potentiel ne pourrait pas accéder à tous les attributs quasi21 identificateurs, affectés à la séquence numérique « QI », avec le même degré de facilité. En effet, toutes choses étant égales par ailleurs, certains attributs quasi-identifiants « QI » sont plus faciles d'accès que d'autres du fait de leur disponibilité publique (sur Internet, sur les sites officiels, les résultats de concours,..).The basic principle of this "Attribute ease of access repository" (208) is that a potential attacker could not access all the quasi-identifier attributes, assigned to the numerical sequence "QI", with the same degree of ease. In fact, all other things being equal, certain quasi-identifying attributes "IQ" are easier to access than others because of their public availability (on the Internet, on official sites, results of competitions, etc.). ).

Nous proposons donc un ordre par catégorie d'attributs. Si on considère par exemple la catégorie des « dates », les différentes dates qu'on peut trouver dans les jeux de données n'ont pas forcément le même degré d'accessibilité. Nous considérons par exemple la classification suivante:We therefore propose an order by attribute category. If we consider for example the category of "dates", the different dates that we can find in the datasets do not necessarily have the same degree of accessibility. We consider for example the following classification:

Dates faciles d'accès : dates de naissance,...Easy access dates: birth dates, ...

Dates moins d ' hospitalisation,...Dates less hospitalization, ...

Dates difficiles médical,...Difficult medical dates, ...

Le but est d'avoir quasi-identifiants, affectés par classés selon leur facilité attaquant.The goal is to have quasi-identifiers, assigned by classified according to their attacking ease.

accessibles : dates d'accès : dates de contrôle un référentiel des attributs la séquence numérique « QI », d'accès par un potentielaccessible: dates of access: dates of control a repository of attributes the numerical sequence "QI", of access by a potential

3.2- *Référentiel de Population de référence (209)3.2- * Reference population reference (209)

Nous considérons aussi que le pouvoir d'identification d'un attribut quasi-identifiant, affecté par une séquence numérique « QI », pourrait dépendre de la fréquence de l'apparition de ses différentes modalités dans la population de référence, comme la population française. Par exemple, toutes choses étant égales par ailleurs, nous pouvons considérer que la variable « date de naissance » a un pouvoir d'identification plus élevé que l'âge. La « date de naissance » donne en effet plus d'information que ce l'âge donne et est plus identificatrice des individus. Dans le même esprit, « être une femme/ homme » est moins identifiant qu' « être un enseignant en philosophie».We also consider that the power of identification of a quasi-identifying attribute, affected by a numerical sequence "QI", could depend on the frequency of the appearance of its different modalities in the reference population, like the French population. For example, all other things being equal, we can consider that the variable “date of birth” has a higher identification power than age. The “date of birth” gives more information than this age gives and is more identifying of individuals. In the same spirit, "being a woman / man" is less identifying than "being a teacher of philosophy".

Le « Référentiel de Population de référence » (209) se base donc sur la distribution des différents attributs dans la population de référence, par exemple un pays. Pour la France, nous nous référons par exemple aux données du dernier recensement de la population française de 2013 pour en déduire la distribution d'un ensemble d'attributs.The "Reference Population Reference System" (209) is therefore based on the distribution of the various attributes in the reference population, for example a country. For France, we refer for example to data from the last census of the French population in 2013 to deduce the distribution of a set of attributes.

Les données recensées concernent à ce niveau les variables suivantes : âge, catégorie socio-professionnelle, département de naissance, département de résidence antérieure, département de résidence actuelle, département de travail, diplôme obtenu, nationalité, le secteur d'activité, la région de naissance, la région de résidence antérieure, la région de travail, le sexe, l'état matrimonial et le type d'activité. Cette liste peut être enrichie par d'autres données sur la population française ce qui permettra d'élargir la liste des attributs.The data collected concern the following variables at this level: age, socio-professional category, birth department, previous residence department, current residence department, work department, diploma obtained, nationality, sector of activity, region of birth, region of previous residence, region of work, sex, marital status and type of activity. This list can be enriched by other data on the French population which will allow to widen the list of attributes.

A partir de ce recensement, les attributs sont classés selon les fréquences d'apparition de leurs différentes modalités / valeurs proposées. La règle de décision est la suivante :From this census, the attributes are classified according to the frequencies of appearance of their different modalities / values proposed. The decision rule is as follows:

Les fréquences d'apparition des valeurs/modalités de deux attributs quasi-identifiants A et B, sont comparées. L'attribut pour lequel la modalité la moins fréquente a un pourcentage d'apparition plus faible sera considéré comme attribut ayant un pouvoir d'identification supérieur, ce qui se traduira par la suite par un niveau d'anonymisation et/ ou de risque de ré-identification plus important.The frequencies of appearance of the values / modalities of two quasi-identifying attributes A and B are compared. The attribute for which the least frequent modality has a lower percentage of appearance will be considered as an attribute with a higher power of identification, which will result in a level of anonymization and / or risk of re - more important identification.

Ce traitement permet de donner un ordre de pouvoir d'identification des attributs. Ce référentiel de population de référence (209) peut être élargi par la prise en compte des caractéristiques d'autres populations de référence, comme les Etats Unis ou le Canada. Nous aurons donc, in fine, une base de données donnant les principales caractéristiques des populations de référence (populations auxquelles se rattachent les jeux de données).This processing makes it possible to give an order of power to identify the attributes. This reference population reference frame (209) can be widened by taking into account the characteristics of other reference populations, such as the United States or Canada. We will therefore have, ultimately, a database giving the main characteristics of the reference populations (populations to which the data sets are attached).

Ces deux critères de « facilité d’ accès » et de « population de référence » permettront d ’ avoir un référentiel de pouvoir d’ identification (207).These two criteria of "ease of access" and "reference population" will make it possible to have a repository of power of identification (207).

Les deux critères peuvent être complémentaires pour couvrir le plus d’ attributs quasi-identifiants, affectés de la séquence numérique « QI », d’ un jeu de données.The two criteria can be complementary to cover the most quasi-identifying attributes, assigned the numerical sequence "IQ", of a dataset.

Description d'un exemple de mise en œuvre de l'inventionDescription of an example of implementation of the invention

La classification des attributs peut suivre la méthodologie suivante :The classification of attributes can follow the following methodology:

Etape (1) : le propriétaire des données/ utilisateur accède à un jeu de données (210) qui contient des attributs avec des dénominations différentes. Le propriétaire des données examine le dictionnaire des attributs (s'il existe) ou directement les attributs afin de les classer.Step (1): the data owner / user accesses a data set (210) which contains attributes with different names. The data owner examines the attribute dictionary (if it exists) or the attributes directly to classify them.

Etape Step (2) : (2): Au At cours de cette étape during this stage , l'utilisateur , the user accède accessed au « at " référentiel repository des of the attributs » (201). attributes ”(201). Etape Step (3) : (3): Au At cours de cette étape, during this stage, le calculateur the calculator traite treaty le the jeu de game of données data (210) pour mettre (210) to put en concordance in agreement chacun each des of the attributs avec attributes with le référentiel des attributs (201). the attributes repository (201).

Pour les attributs du jeu de données (210), pour lesquels une mise en concordance est réalisée, le traitement consiste à leur affecter un marqueur. Cette correspondance peut se faire manuellement par l'utilisateur en comparant la liste des attributs de son jeu de données au référentiel des attributs ou automatiquement en créant des algorithmes d'automatisation de la recherche tels que l'algorithme Rabin-Karp, String searching, approximate string searching, ou encore les algorithmes de recherche sémantique tels que l'algorithme de Lesk.For the attributes of the data set (210), for which a matching is carried out, the processing consists in assigning them a marker. This correspondence can be done manually by the user by comparing the list of attributes in his dataset to the attributes repository or automatically by creating search automation algorithms such as the Rabin-Karp algorithm, String searching, approximate string searching, or even semantic search algorithms such as Lesk's algorithm.

Etape (4) : Cette étape distingue les attributs du jeu de données (201) pour lesquels une mise en concordance a été réalisée d'une part, et les attributs pour lesquels aucune mise en concordance n'a été déterminée, d'autre part.Step (4): This step distinguishes the attributes of the data set (201) for which a matching has been carried out on the one hand, and the attributes for which no matching has been determined, on the other hand .

Etape (5) : Cette étape consiste à enregistrer dans le référentiel des attributs (201), les attributs du jeu de données (210) pour lesquels aucune concordance n'a été trouvée. Ces variables sont enregistrées avec un statut provisoire, qui pourra être modifié en statut définitif ou rejeté selon l'avis d'un opérateur.Step (5): This step consists in recording in the attributes repository (201), the attributes of the data set (210) for which no match has been found. These variables are saved with a provisional status, which can be modified in final status or rejected according to the opinion of an operator.

Etape (6)Stage (6)

Cette étape à procéder à une première classification des attributs, notée « ClassificationThis step to proceed to a first classification of the attributes, noted “Classification

Initiale » (211), en se basant sur « le référentiel des attributs » (201)Initial ”(211), based on“ the attributes repository ”(201)

Cette étape ne concerne que les attributs pour lesquels une concordance avec le « référentiel des attributs » (201) a été établie. A la fin de cette étape, chacun des attributs marqués aura un statut basé sur le référentiel des attributs (201) traduit par une séquence numérique qui peut prendre différents étatsThis step only concerns the attributes for which a concordance with the "attributes repository" (201) has been established. At the end of this step, each of the marked attributes will have a status based on the attributes repository (201) translated by a numerical sequence which can take different states.

I », « NP », « S » ou « NS »I "," NP "," S "or" NS "

Cette étape est décrite plus en détail en référence au logigramme objet de la figure 3This step is described in more detail with reference to the object flow diagram in FIG. 3

En se servant de ce référentiel, un utilisateur/ un propriétaire des données peut faire une première classification, notée « Classification Initiale » (211) des attributs de son jeu de données en vue de bien cibler les exercices d'anonymisation/mesure du risque de divulgation.Using this repository, a user / owner of the data can make a first classification, denoted “Initial Classification” (211) of the attributes of their data set in order to properly target the anonymization / risk measurement exercises. disclosure.

Un utilisateur accède (301) au dictionnaire des attributs du jeu de données à étudier et au « référentiel des attributs » (201). Pour les attributs dont une correspondance dans le référentiel des attributs a été trouvée (303), une détermination de leur statut identifiant (304)/ sensible (305) permettra d'avoir une classification initiale des attributs (306). La détermination de cette première classification se fait en se référant aux les différentes colonnes du fichier du « référentiel des attributs » (201). Là encore, la correspondance entre les attributs du jeu de données (201) et leur statut dans le « référentiel des attributs » (201) peut se faire manuellement ou automatiquement par des algorithmes d'automatisation de la recherche.A user accesses (301) the dictionary of attributes of the data set to be studied and the "attributes repository" (201). For the attributes for which a correspondence in the attributes repository has been found (303), a determination of their identifying (304) / sensitive (305) status will make it possible to have an initial classification of the attributes (306). The determination of this first classification is done by referring to the different columns of the file of the "attributes repository" (201). Here again, the correspondence between the attributes of the data set (201) and their status in the "attributes repository" (201) can be done manually or automatically by algorithms for automating the search.

Pour les attributs du jeu de données (210) affectés d'une séquence numérique « I », « NP » ou « NS », la classification initiale des attributs (306) correspond à leur classification définitive. Ces attributs seront donc conservés de manière définitive dans le module de classification (213), sur lequel se base le processus d'anonymisation :For the attributes of the data set (210) assigned a numerical sequence "I", "NP" or "NS", the initial classification of the attributes (306) corresponds to their final classification. These attributes will therefore be permanently stored in the classification module (213), on which the anonymization process is based:

- Les attributs affectés à une séquence numérique « I » subiront des traitements particuliers et n'apparaîtront pas dans le jeu de données final (215) afin de garantir le respect de la vie privée.- The attributes assigned to a digital sequence "I" will undergo special processing and will not appear in the final data set (215) in order to guarantee respect for private life.

- Les attributs affectés d'une séquence numérique « NP » ou « NS » ne subiront pas (214) de traitements particuliers (204) et seront conservés directement dans le jeu de données final (215).- The attributes assigned to a numerical sequence "NP" or "NS" will not undergo (214) special processing (204) and will be stored directly in the final data set (215).

Etape (7) : L'utilisateur détermine ensuite une option consistant à accorder aux attributs affectés à une séquence numérique « QI » ou « S » un statut caché empêchant leur utilisation normale dans le jeu de données final (215) et à passer directement au processus d'anonymisation (204) ou de procéder à un traitement additionnel du jeu de données (210), décrit ci-après.Step (7): The user then determines an option consisting in granting to the attributes assigned to a numerical sequence "IQ" or "S" a hidden status preventing their normal use in the final data set (215) and to pass directly to the anonymization process (204) or to carry out additional processing of the data set (210), described below.

Etape (8 ) :Step (8):

Cette étape ne s'applique qu'aux attributs, affectés à une séquence numérique « S », déterminés par un module de filtrage (501). Cette étape, nommée « Analyse de la sensibilité » (206), est présentée de manière plus détaillée par le logigramme, objet de la figure 5.This step only applies to attributes, assigned to a digital sequence "S", determined by a filtering module (501). This step, called “Sensitivity analysis” (206), is presented in more detail by the flow diagram, object of FIG. 5.

Le traitement s'appuiera sur le résultat de la classification initiale des attributs (306) et sur le « référentiel de sensibilité » (205).The processing will be based on the result of the initial classification of attributes (306) and on the "sensitivity benchmark" (205).

En accédant (502) au « référentiel de sensibilité des attributs» (205), le calculateur examinera la distribution des modalités de l'attribut sensible dans le jeu de données (503 ) .By accessing (502) the "attribute sensitivity reference frame" (205), the computer will examine the distribution of the modalities of the sensitive attribute in the data set (503).

Les fréquences d'apparition des modalités les plus sensibles de l'attribut sont ensuite calculées pour le jeu de données à étudier (504).The frequencies of appearance of the most sensitive modalities of the attribute are then calculated for the data set to be studied (504).

La fréquence d'apparition des modalités sensibles (de cet attribut sensible) est ensuite comparée à un seuil de fréquence défini auparavant (505). L'attribut en question conservera son caractère « sensible » si la fréquence d'apparition des modalités « sensibles » dans le jeu de données dépasse le seuil préalablement choisi (506). Sinon, l'attribut sera affecté à une classe « moins sensible » (507). On obtient donc une classification finale des attributs sensibles (508). Cette règle permettra d'offrir une certaine flexibilité aux utilisateurs lors du processus d'anonymisation (204) dans le but d'obtenir la version finale du jeu de données (215).The frequency of appearance of the sensitive modalities (of this sensitive attribute) is then compared with a frequency threshold defined previously (505). The attribute in question will retain its "sensitive" character if the frequency of appearance of the "sensitive" modalities in the data set exceeds the previously chosen threshold (506). Otherwise, the attribute will be assigned to a "less sensitive" class (507). We therefore obtain a final classification of sensitive attributes (508). This rule will allow users to be flexible during the anonymization process (204) in order to obtain the final version of the data set (215).

Etape (9) : Cette étape ne s'applique qu'aux attributs, affectés à une séquence numérique « QI », déterminés par un module de filtrage (401). Cette étape, nommée « Analyse du pouvoir d'identification » (212), est présentée de manière plus détaillée par le logigramme, objet de la figure 4.Step (9): This step only applies to attributes, assigned to a “QI” digital sequence, determined by a filtering module (401). This step, called “Analysis of the power of identification” (212), is presented in more detail by the flowchart, object of FIG. 4.

Le traitement s'appuiera sur le résultat de la classification initiale des attributs (306) et sur le « référentiel de pouvoir d'identification » (207).The processing will be based on the result of the initial classification of attributes (306) and on the "repository of power of identification" (207).

ensuite des différents de facilité les degrésthen different degrees of ease

numérique d'accèsdigital access

données une séquencegiven a sequence

aboutit à un de « facilité d'accès » ordreresults in an "easy access" order

Cette comparaisonThis comparison

ensuitethen

« référentiel de population de référence» (209) et fera un tri (405) des attributs affectés d'une séquence numérique « QI » selon l'ordre établi dans le « référentiel de population de référence » (209). Cet ordre peut être fait manuellement ou automatiquement par des algorithmes de tri, à savoir « le tri par sélection », le « tri arborescent »..."Reference population reference" (209) and will sort (405) the attributes assigned to a numerical sequence "IQ" according to the order established in the "reference population reference" (209). This order can be done manually or automatically by sorting algorithms, namely "sorting by selection", "tree sorting" ...

La comparaison des attributs quasi-identifiants d'un point de vue de la facilité d'accès (403) et l'ordre des différents attributs en termes des caractéristiques dans la population de référence (405), permettent d'avoir un ordre final (406) des attributs affectés à une séquence numérique « QI » selon leur pouvoir de ré-identification. Cet ordre permettra d'offrir une certaine flexibilité aux utilisateurs lors du processus d'anonymisation (204), en termes de besoin d'anonymisation pour les différents attributs marqués du jeu de données (210 ) .The comparison of quasi-identifying attributes from the point of view of ease of access (403) and the order of the different attributes in terms of the characteristics in the reference population (405), make it possible to have a final order ( 406) attributes assigned to a “IQ” digital sequence according to their power of re-identification. This order will provide flexibility for users during the anonymization process (204), in terms of the need for anonymization for the different marked attributes of the data set (210).

Etape (10) : Cette étape présente la fin du processus de classification des attributs du jeu de données (210). Les résultats des analyses de sensibilité (206) et du pouvoir d'identification (212) sont groupés dans un module de 5 classification (213), sur lequel se basera le calculateur pour le traitement des données (204) du jeu de données (210). Ce traitement peut se traduire par une anonymisation de certains attributs, avec des degrés d'exigence différents afin d'aboutir à une version finale du jeu de données (215). Dans 10 tous les cas, le traitement des données doit répondre à des besoins de protection de la vie privée tout en conservant l'utilité du jeu de données (210).Step (10): This step presents the end of the classification process of the attributes of the data set (210). The results of the analyzes of sensitivity (206) and of the power of identification (212) are grouped in a classification module (213), on which the calculator will be based for processing the data (204) of the data set (210 ). This processing can result in the anonymization of certain attributes, with different degrees of requirement in order to arrive at a final version of the data set (215). In all cases, the processing of the data must meet privacy needs while retaining the usefulness of the data set (210).

Claims

claims

1 - Method for automatic processing of a digital data set consisting of:

to save in a non-permanent memory a set of original data, to save in a permanent memory o a digital file (201) constituted by a table determining at least identifiers / denominations of the variables, and for each of said variables a parameter "Identifying Status »[Identifier“ I ”, quasi-identifier“ QI ”, non-identifier“ NP ”] a parameter“ Sensitivity Status ”[: yes“ S ”, or not“ NS ”] o A digital file consisting of a table of variables of census of the reference population (209) with for each The different modalities / values taken by each variable according to the census The frequency of appearance of each modality in the reference population (France, United States, ..) An order of power identification of the different census variables o A digital file consisting of a table of variables with an established order of the degree of ease (208) by which el a potential attacker can access information on the different variables o A digital file consisting of a table of “sensitive” attributes (205), for which the values / methods are classified in order of sensitivity.

the process consisting in applying:

a first processing based on the attributes repository (201), noted “Initial Classification” (211) consisting in o associating with each of the variables of said original data set a “status” parameter and in processing the variables associated with a status “ hidden ”(“ I ”,“ IQ ”or“ S ”), o to assign to each of the variables associated with a“ NP ”/“ NS ”status a flag of final non-processing and conservation (214) in the game final data (215) a second processing concerning the residual variables associated with a “quasi-identifying” status consisting of:

o Prohibit their exploitation consisting in assigning a “hidden” status to prevent their normal use in the final version (215) of said dataset (210) OR o assign to each of said residual variables:

a first indicator corresponding to the availability of the associated value from external data sources and / or a second indicator corresponding to the frequency of the values of said associated variable in the general population of which the data set constitutes a subset o to order each of said residual variables as a function of said associated indicators, which will result, for example, in different processing / anonymization levels during the anonymization process (204) determining the final classification of the attributes assigned to a numerical sequence "IQ" (406 ) a third treatment concerning the residual variables associated with a “regulatory” sensitivity parameter consisting of:

o Prohibit their exploitation consisting in assigning a “hidden” status to prevent their normal use in the final version (215) of said dataset (210)

OR

Assign each of these residual variables a sensitivity indicator by referring to a list of sensitive variables with their different modalities / values (205) ranging from the most sensitive to the least sensitive, calculated on the basis of the frequency of occurrence of the most more sensitive to the sensitive attribute

Keep for each of the residual variables characterized, by a frequency of appearance of sensitive values greater than a threshold value, their "hidden" status to prevent their normal use in said dataset

Assign the remaining variables a “hidden” but more “flexible” status in terms of processing requirements during the anonymization process (204)

2 - Method according to claim 1 characterized in that it further comprises a fourth treatment concerning the residual variables associated with a "general" sensitivity parameter consisting in assigning to some of said variables a "hidden" status to prevent their normal use in said data set.

3 - Method according to claim 2 characterized in that before the first classification step a treatment to assign to each of the variables for which no correspondence with the attributes repository (201) is established, a provisional status in the attributes repository (201), which can be modified in final status or rejected according to the opinion of an operator.

4 - Method according to claim 1 characterized in that it further comprises a step consisting in applying dynamically to the variables not associable with the repository of attributes (201), a specific processing consisting in recording in said repository the couple "variable, status" awaiting validation / rejection according to the opinion of an operator. This would also imply potential enhancements to the "Identification power" (207) and / or "sensitivity" (205) benchmarks.

5 - Method according to claim 1, characterized in that said treatments are applied periodically [for example during each evolution of the data set (210) or each evolution of the regulatory framework].

6 - Method according to claim 1 characterized in that said treatments applied to "hidden" variables / values consist of:

delete said variables / values (in particular for variables assigned to status "I") record said variables in a DMZ the anonymization of at least part of the values corresponding to said variables.

1/5