EP3752948A1 - Procédé de traitement automatique pour l'anonymisation d'un jeu de données numériques - Google Patents

Procédé de traitement automatique pour l'anonymisation d'un jeu de données numériques

Info

Publication number
EP3752948A1
EP3752948A1 EP19710728.7A EP19710728A EP3752948A1 EP 3752948 A1 EP3752948 A1 EP 3752948A1 EP 19710728 A EP19710728 A EP 19710728A EP 3752948 A1 EP3752948 A1 EP 3752948A1
Authority
EP
European Patent Office
Prior art keywords
variables
status
attributes
data
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP19710728.7A
Other languages
German (de)
English (en)
Inventor
Fatma BOUATTOUR
Mohamed KASRAOUI
Paul-Olivier GIBERT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital & Ethics
Original Assignee
Digital & Ethics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital & Ethics filed Critical Digital & Ethics
Publication of EP3752948A1 publication Critical patent/EP3752948A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Definitions

  • the present invention relates to the field of digital data processing and more particularly automatic processing of large volumes of digital data by modifying the content and / or structure of these data in order to make it very difficult or impossible to "re-identify” the data.
  • anonymizing data is often the result of an ethical, legal and ethical compromise between a desire or an obligation to protect individuals and their personal data.
  • anonymization is used for the dissemination and sharing of data deemed to be of public interest, such as open data.
  • a first step usually consists of removing the identifiers from the cards or databases concerned, such as surnames, first names, tax identifiers, social security numbers, etc.
  • the next step will be to apply to the files or databases "filters” and “cryptographic transformations” (eg encryption and / or hashing of data by a dedicated algorithm, for example SHA for Secure Hash Algorithm), but before this work , the data manager carries out or commission a study clarifying its need for anonymisation, its objectives and its requirements (eg must there be a possible reversibility of the anonymisation), prioritizing where necessary the data to be protected, according to their degree of "sensitivity” and according to the purpose of the treatment that must then undergo the information. It can thus produce and compare several anonymisation scenarios in order to better choose the solution that seems most relevant to it (according to its requirements, and the requirements of the Law). In all cases the anonymization must resist dictionary attacks.
  • filters eg encryption and / or hashing of data by a dedicated algorithm, for example SHA for Secure Hash Algorithm
  • the notion of anonymized identity and re-identification of the patient concerns the direct and indirect means of re-identification (eg name, address %) but also the encrypted data if the decryption means is available .
  • a person (ex: a patient) is included in an anonymous database only if it is obligatory or really useful, and to a project can be associated only one anonymized database .
  • Increased legal certainty is obtained if all the persons listed in it have given their consent (in writing or via the provision of their identifier, for a medico-commercial study, for example), but this type of basis induces interpretation bias. .
  • Mechanisms should be provided to detect and block attempts to intrude (through the Internet or other means) and in particular malicious attempts at data inference, abuse of power, etc.
  • Patent application WO 2015066523 describes an example of a computer-implemented method, to provide better levels of data privacy, anonymity and security by allowing subjects to whom data belong, to remain "anonymous dynamically," otherwise Anonymous says as long as they wish and to the extent desired.
  • Embodiments include systems that create, access, use, store, and / or erase data with increased levels of privacy, anonymity, and security, thereby obtaining better qualified and more accurate information.
  • embodiments may make possible controlled information sharing that can deliver temporally, geographically and / or usage limited information to the receiving party.
  • anonymity score scores can be calculated for the shared data items, so that a level of consent / commitment required by the data object before the sharing of the relevant data items to third parties can be done. to be specified.
  • the patent application WO2012080081 relates to a computer-implemented method of anonymizing data from a data source for a target application, the method comprising: identifying sensitive data elements in data from the source of data; data through a discovery tool and generating data definitions for data items indicating the sensitive data items, the data definitions including at least one property for the data items; specify a set of runtime rules including at least one runtime rule, the runtime rule including an runtime anonymizer protocol, the runtime engine rule set being specified by via an interface; map the runtime ruleset to the data definitions generated by the discovery tool for each of the sensitive data items; and consuming the generated data definitions and applying the mapped runtime anonymization protocol to the sensitive data item data definition, to anonymize the sensitive data item for the target application.
  • Patent Application EP2752786 is also known which describes an anonymization device and an anonymization method characterized in that all the data satisfy the requested anonymity levels for each, and in that they prevent the loss of value of the information that results from the abstraction of the entire data collection.
  • the present anonymization device comprises: an anonymization means for performing an anonymization processing in which a group of data is treated as a processing unit for a data collection comprising at least two data; an anonymity level specifying means for specifying an adaptive anonymity level for each group; and an anonymity rating means for judging whether a group meets the specified adaptive anonymity level.
  • the anonymization means on the basis of the evaluation result of the anonymity evaluation means, further performs an anonymization processing of the data collection for which the anonymization processing has been carried out.
  • European Patent Application EP2573699 discloses another example of an anonymization device for automatically configuring a general hierarchical tree of attribute values in identity information protection technology.
  • the anonymization device describes, quantitatively evaluates the amount of information that is lost during the generalization of an attribute value, and can thus automatically evaluate priorities between anonymized data and between data that are being anonymized.
  • Information of each person includes attribute values of the person for a plurality of attributes.
  • An anonymization is performed by obscuring the attribute values, and a structure in which attribute values to be obscured, are expressed in a tree structure according to the obscuration level is called a general hierarchical tree.
  • the described identity information anonymization device performs automatic configuration by configuring a tree using frequency information of attribute values.
  • a quantity of information lost between two anonymized data or between data being anonymized is quantitatively evaluated.
  • US patent application 2107/0124336 describes an automated method of identifying the attributes for the anonymisation exercise. This method is based on data encryption, a step prior to studying the level of sensitivity of the data and therefore their degree of requirement in terms of anonymization.
  • This patent proposes three methods for choosing values / attributes for anonymization.
  • a first method consists in comparing the different values with values present in a dictionary, with which different levels of sensitivity are associated. Attributes for which the presence of sensitive values in the dataset exceeds a certain predetermined threshold will be selected for anonymization.
  • a second classification method is based on a comparison of the distributions of the values of an attribute in the dataset and in a known distribution. This method can confirm the results of the first method of identifying the attributes to be anonymized.
  • a final method is to provide the anonymizer with a portion of the dataset in its version. original (before encryption) and generate from this sample a number of expressions for one or more attribute (s). The rest of the dataset will be encrypted and compared to these generated expressions to identify certain attributes and their sensitivity.
  • the solutions of the prior art are adapted to prepare anonymous databases when they are created. On the other hand, these solutions do not make it possible to easily change the anonymization, for example when the addition of new entries modifies the context of anonymisation.
  • the solutions of the prior art require in this case the reprocessing of the entire database, which may require considerable computation time, for databases that may represent several terabytes.
  • sex information combined with age information can be identifying, which requires a transformation / anonymization action, especially when data contains in addition information relating to a given pathology.
  • the information is in fact not identifiable. But if new entries change this situation, the information "sex" or "age” may require different treatment.
  • the anonymization requires a preliminary step of identifying the attributes / values to be anonymized. This step is left to the choice of the anonymizer / user and is therefore subject to a problem of subjectivity and non-precision of the classification. Moreover, even work that focuses on the classification of attributes does not provide a clear and documented methodology for qualifying attributes.
  • the present invention aims to overcome these disadvantages by proposing a method for having different levels of anonymization through a classification of the variables of a database.
  • the invention relates in its most general sense to a method of automatically processing a digital data set consisting of:
  • a digital file constituted by a table determining at least identifiers / denominations of the variables, and for each of said variables
  • An order of the power of identification of the different census variables o
  • a numerical file constituted by a table of variables with an established order of the degree of facility (208) by which an attacking potential can access the information on the different variables. This order can be deduced from some databases tracing the history of attacks.
  • o A digital file consisting of a table of "sensitive" attributes, for which the values / modalities are classified in order of sensitivity.
  • a first indicator for the availability of the associated value from external data sources, such as from a web crawler or a repository or historical attacks
  • the data set is a subset
  • a sensitivity indicator by referring to a list of sensitive variables with their different modalities / values ranging from the most sensitive to the least sensitive. These indicators are calculated based on the occurrence frequency of the most sensitive values of the sensitive attribute. They will then be compared to a frequency threshold
  • a fourth processing concerning the residual variables associated with a "general" sensitivity parameter of assigning some of said variables a "hidden” status to prevent their normal use in said set of data comprises, prior to the first classification step, a processing for assigning to each of the variables for which no correspondence with the attribute repository (201) is established, a provisional status in the attribute repository (201) , which can be changed to definitive status or rejected according to the opinion of an operator.
  • the method further comprises a step consisting in dynamically applying to the variables that can not be associated with the referential of the attributes, a specific processing consisting in registering in said repository the pair "variable, status" awaiting validation / rejection according to the opinion of an operator.
  • a step consisting in dynamically applying to the variables that can not be associated with the referential of the attributes, a specific processing consisting in registering in said repository the pair "variable, status" awaiting validation / rejection according to the opinion of an operator.
  • said processes are applied periodically [for example during each evolution of the data set (210) or at each evolution of the regulatory framework].
  • said treatments applied to the "hidden" variables / values consist of:
  • Figure 1 shows the flow diagram of the set of treatments.
  • FIG. 2 represents the set of processing modules for implementing the invention.
  • Figure 3 shows a detailed view of the logic diagram of the first classification step.
  • Figure 4 presents a detailed view of the logic diagram of the attribute identification power analysis.
  • Figure 5 provides a detailed view of the logic diagram of attribute sensitivity analysis.
  • the present invention relates to the automatic classification of the attributes of a digital data set to better target the anonymisation and / or risk assessment of re-identification (RI) exercises.
  • the aim is to automate the technical processes to ensure compliance with the regulatory framework on the protection of personal data.
  • the anonymisation and assessment of the risk of disclosure of personal data generally concern certain variables in a dataset, particularly those with an identifying nature or those with a sensitive character.
  • anonymization involves loss of information about the dataset, which can affect the usefulness of the data for users such as researchers. For that, it is relevant for a user or owner of the data to target the variables on which the anonymization or the re-identification risk measurement will be carried out.
  • the classification of the attributes of a dataset would be an asset in striking a balance between the obligation to respect one's private life and the guarantee of the usefulness of the data.
  • the classification of the attributes is carried out by a "manual" treatment by the owner of the data and remains linked to its appreciation. This leaves the question of the classification of variables subject to subjectivity and thus may result in decisions of anonymisation or assessment of the risk of re-identification that are not in conformity with the requirements of the manipulation of personal data.
  • the context of dissemination of datasets, the evolution of laws and customs as well as the characteristics of certain data sets mean that the classification of variables is not final and that an expert assessment is always desirable to ensure the ethical use of personal data. Given these elements, there is therefore a technical problem related to the preliminary analysis (manual or automatic) of the attributes of a dataset in order to target the anonymisation exercises and / or assessment of the risk of re-identification. data by a potential attacker of the dataset.
  • the present invention provides an attribute classification methodology to help data owners share their data while respecting the requirements of personal data automatically and dynamically, allowing the parameters to be automatically scaled according to the introduction of new data into the database.
  • the data owner accesses a dataset with attributes.
  • Each attribute has a name to classify it.
  • Each attribute can take different modalities / values and so can also be classify according to the composition of these values (distribution, frequency or other).
  • the innovation of this classification methodology therefore lies particularly in the intervention of the modalities of the different attributes of a dataset in the classification process of the attributes.
  • This invention has two stages of classification of the data.
  • the classification begins with a first step, where the attributes of the dataset to be processed are subject to a first classification, using a created database called "Attributes Repository".
  • This invention will be described according to a detailed example with reference to Figures 1 to 5 annexed showing the functional architecture and the logic of the main functional modules.
  • the "Attributes framework” (201) consists of applying a classification of the attributes according to two main criteria of anonymization of the personal data, namely:
  • the identifier character (202) results in the recording of a three-state numerical sequence: "I” when the variable is directly identifying as the social security number, "IQ” when the variable can become an identifier, combined with other variables associated with the same state as the postal code, or "NP".
  • the variables associated with the numerical sequence "NP" are not treated in the the scope of this invention, which can reduce computational time in the anonymization process / process (204).
  • the sensitive character (203) results in the recording of a digital sequence that can take two states: "S” when the variable is sensitive in the sense that its disclosure should be avoided and "NS” in the other cases.
  • the repository (201) is translated into a file containing variables, listed from the state of the art, the recommendations of the institutes for the protection of privacy and the use cases encountered. These variables are categorized to facilitate the use of the repository when classifying the attributes of a given dataset. The categories listed are: health, education and work, addresses, numbers and dates ...
  • Attribute classification is then based on two elements:
  • Attributes belonging, according to the law, to a "particular category" are classified as sensitive variables assigned to the numerical sequence "S", for example health data, criminal record, etc.
  • This repository (201) can be continuously enriched and is supposed to bring together a large set of variables related to many sectors of activity, in order to increase its usefulness.
  • Attribute The name of the attribute.
  • Identifier status This is to classify the variable as identifier "I, to be eliminated from the anonymized version", quasi-identifier "IQ" or not.
  • Sensitivity includes sensitivity in the legal sense but also in the sense of ethics, custom, society, ...
  • the "sensitivity of attributes” repository (205) proposes to reference, according to the degree of sensitivity, the different modalities / values of an attribute classified as sensitive and therefore assigned the numerical sequence "S".
  • Certain attributes classified as “sensitive” and assigned to the numerical sequence “S” take values that do not necessarily have the same degree of sensitivity and / or protection requirement, hence the interest of proposing a more refined analysis of sensitivity and sensitivity order for the different modalities of the sensitive attributes (206).
  • the "Attributes Sensitivity Repository” (205) is constituted by the list of sensitive attributes identified by the “Attributes Reference” (201) and for each attribute, the various possible modalities (that can evolve) are classified by order sensitivity and / or requirement in terms of protection of privacy and from a socio-cultural point of view.
  • the qualification of the quasi-identifier attributes assigned to a numerical sequence "IQ" can be improved by passing to a finer degree of analysis (212). Indeed, the power of identification can vary from one quasi-identifying attribute to another. Thus, the level of requirement in terms of anonymization and / or anonymization evaluation could be different depending on the level of power of a virtual identifier in the re-identification of an individual.
  • Dates easy to access dates of birth, ...
  • Dates less accessible dates of hospitalization, ...
  • Dates difficult to access medical check dates, ...
  • the goal is to have a repository of quasi-identifying attributes, affected by the numerical sequence "IQ", classified according to their ease of access by an attacking potential.
  • the "Reference Population Reference” (209) is therefore based on the distribution of the different attributes in the reference population, for example a country. For France, we refer for example to the data of the last census of the French population of 2013 to deduce the distribution of a set of attributes.
  • the data recorded concern the following variables at this level: age, socio-professional category, department of birth, department of previous residence, department of current residence, department of work, degree obtained, nationality, sector of activity, region of birth, region of previous residence, region of work, sex, marital status and type of activity.
  • This list can be enriched by other data on the French population which will expand the list of attributes.
  • This processing makes it possible to give an order of power of identification of the attributes.
  • This reference population reference system (209) can be extended by taking into account the characteristics of other reference populations, such as the United States or Canada. We will have, in fine, a database giving the main characteristics of the reference populations (populations to which the data sets are attached).
  • the two criteria may be complementary to cover the most quasi-identifying attributes, assigned the numerical sequence "IQ", of a dataset.
  • Step (1) the data owner / user accesses a dataset (210) that contains attributes with different denominations.
  • the data owner examines the attribute dictionary (if it exists) or attributes directly to classify them.
  • Step (2) During this step, the user accesses the "attribute repository" (201).
  • Step (3) In this step, the calculator processes the data set (210) to match each of the attributes with the attribute repository (201). For attributes of the dataset (210), for which matching is performed, the processing consists of assign them a marker. This correspondence can be done manually by the user by comparing the list of attributes of his dataset to the attribute repository or automatically by creating search automation algorithms such as the Rabin-Karp algorithm, String searching, approximate string searching, or else semantic search algorithms such as the Lesk algorithm.
  • search automation algorithms such as the Rabin-Karp algorithm, String searching, approximate string searching, or else semantic search algorithms such as the Lesk algorithm.
  • Step (4) This step distinguishes the attributes of the dataset (201) for which a matching has been performed on the one hand, and the attributes for which no matching has been determined, on the other hand .
  • Step (5) This step consists in registering in the attribute repository (201) the attributes of the dataset (210) for which no match has been found. These variables are registered with a temporary status, which can be changed to final status or rejected according to the opinion of an operator.
  • Step (6) This step to perform a first classification of the attributes, denoted “Initial Classification” (211), based on “the referential of the attributes” (201). This step only affects those attributes for which a match with the "attribute repository” (201) has been established. At the end of this step, each of the marked attributes will have a status based on the attribute repository (201) translated by a numerical sequence that can take different states: "I”, "IQ”,
  • a user / owner of the data can make a first classification, denoted "Initial Classification” (211) of the attributes of its data set in order to target the anonymisation / disclosure risk measurement exercises.
  • a user accesses (301) the attribute dictionary of the dataset to be studied and the "attribute repository" (201). For attributes whose matching in the attribute repository has been found (303), a determination of their identifier (304) / sensitive (305) status will allow for an initial classification of the attributes (306). The determination of this first classification is done by referring to the different columns of the file of the "referential of the attributes” (201). Again, the correspondence between the attributes of the dataset (201) and their status in the "attribute repository” (201) can be done manually or automatically by search automation algorithms.
  • the initial classification of the attributes (306) corresponds to their definitive classification. These attributes will therefore be permanently stored in the classification module (213), on which the anonymization process is based:
  • Step (7) The user then determines an option to grant the attributes assigned to a digital sequence "IQ" or "S” a hidden status preventing their normal use in the final data set (215) and go directly to the anonymisation process (204) or to further processing of the data set (210), described below.
  • Step (8) This step only applies to attributes, assigned to a numerical sequence "S”, determined by a filtering module (501). This step, called “sensitivity analysis” (206), is presented in more detail by the logic diagram, object of FIG.
  • the processing will be based on the result of the initial classification of the attributes (306) and the "sensitivity reference" (205).
  • the calculator By accessing (502) the "attribute sensitivity repository" (205), the calculator will examine the distribution of the modalities of the sensitive attribute in the data set (503). The occurrence frequencies of the most sensitive categories of the attribute are then calculated for the data set to be studied (504).
  • Step (9) This step only applies to the attributes assigned to a numerical sequence "QI" determined by a filtering module (401). This step, named “Analysis of the power of identification” (212), is presented in more detail by the logic diagram, object of Figure 4.
  • the processing will be based on the result of the initial classification of the attributes (306) and on the "identification power referential" (207).
  • the computer accesses (402) the "attribute access facility repository” (208) and compares (403) thereafter the degrees of ease of access of the various attributes of the dataset (210) assigned to a digital sequence "IQ" ", Based on the same repository (208). This comparison results in an order of "ease of access” of the different attributes.
  • the calculator then accesses (404) the "reference population reference” (209) and will sort (405) attributes assigned a numerical sequence "IQ" according to the order established in the "reference population reference”. (209).
  • This order can be done manually or automatically by sorting algorithms, namely “selection sorting", “tree sorting” ...
  • Step (10) This step presents the end of the classification process of the attributes of the dataset (210).
  • the results of the sensitivity analyzes (206) and the identification power (212) are grouped in a classification module (213), on which the computer for the data processing (204) of the data set (210) will be based. .
  • This processing may result in an anonymization of certain attributes, with different degrees of requirement in order to arrive at a final version of the dataset (215). In all cases, data processing must meet privacy needs while maintaining the usefulness of the dataset (210).

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

L'invention concerne le domaine du traitement des données numériques et plus particulièrement des traitements automatiques de grands volumes de données numériques consistant à modifier le contenu et/ou la structure de ces données afin de rendre très difficile ou impossible la « réidentification » des personnes (physiques ou morales) ou des entités concernées, notamment en procédant à 1 'anonymisation.

Description

PROCEDE DE TRAITEMENT AUTOMATIQUE POUR L'ANONYMISATION
D'UN JEU DE DONNEES NUMERIQUES
Domaine de 1 ' invention
La présente invention concerne le domaine du traitement des données numériques et plus particulièrement des traitements automatiques de grands volumes de données numériques consistant à modifier le contenu et/ou la structure de ces données afin de rendre très difficile ou impossible la « ré-identification » des personnes (physiques ou morales) ou des entités concernées, notamment en procédant à 1 ' anonymisation .
Les entreprises accumulent aujourd'hui d'importants volumes de données dont le traitement et la monétisation peut créer de la valeur. Ces données couvrent les données à caractère personnel ce qui les soumet à des exigences réglementaires et éthiques avant leur diffusion. L'anonymisation des données est donc une étape cruciale pour prévenir l'accès aux données à caractère personnel. L'anonymisation engendre généralement une perte d'informations qu'il faudra cependant contrôler afin de garder l'utilité des données pour les utilisateurs. Afin de bien cibler l'anonymisation, il convient donc de décider des variables qualifiées comme identificatrices ou comme sensibles à la divulgation. Une analyse rationnalisée des attributs d'un jeu de données, de leurs caractéristiques et de leurs modalités est donc indispensable pour faire la classification des attributs, préalable aux exercices d'anonymisation et/ ou d'évaluation du risque de divulgation des données à caractère personnel. La rationalisation de l'identification des attributs pour anonymisation permettre de résoudre les potentiels problèmes de subjectivité et / ou de non précision des analyses, qui pourront émerger quand la classification des attributs est laissée au choix de l'utilisateur/ anonymisateur et ne se base pas sur l'avis d'un expert.
Le choix d'anonymiser des données résulte souvent d'un compromis déontologique, juridique et éthique, entre une volonté ou une obligation de protéger les individus et leurs données personnelles. L'anonymisation est en particulier employée pour la diffusion et le partage de données jugées d'intérêt public, comme les données ouvertes (Open data).
Une première étape consiste généralement à supprimer les identifiants des fiches ou des bases de données concernées tels que les noms, prénoms, identifiants fiscaux, numéros de sécurité sociale, ...
L'étape suivante consistera à appliquer aux fichiers ou bases de données des « filtres » et « transformations cryptographiques » (ex : chiffrement et/ou hachage de données par un algorithme dédié, par exemple SHA pour Secure Hash Algorithm) , mais avant ce travail, le gestionnaire des données procède ou fait procéder à une étude clarifiant son besoin d'anonymisation, ses objectifs et ses exigences (ex : doit-il y avoir une réversibilité possible de l'anonymisation), hiérarchisant le cas échéant les données à protéger, selon leur degré de "sensibilité" et en fonction de la finalité du traitement que doivent ensuite subir les informations. Il peut ainsi produire et comparer plusieurs scenarii d'anonymisation pour mieux choisir la solution lui semblant la plus pertinente (en fonction de ses exigences, et des exigences de la Loi). Dans tous les cas l'anonymisation doit résister aux attaques par dictionnaire.
Plusieurs phases et niveaux d'anonymisation se succèdent parfois : par exemple l'hôpital procède à une première anonymisation, le centre de traitement des données peut ensuite compléter ce travail, et les utilisateurs secondaires (chercheurs en général) peuvent encore sur- anonymiser la donnée retravaillée (avant sa publication dans une revue ou distribution à d'autres utilisateurs). De nombreuses méthodes existent (effacement de certaines données (suppression) et/ou transcodage manuel, généralisation, ajout de bruit; utilisation de pseudonymes par exemple pour le couple médecin/patient ; de chiffrement (généralement avec une clé publique - éventuellement fragmentée - possédée par 1 ' autorité compétente ) .
Dans le domaine médical, la notion d'identité anonymisée et de ré-identification du patient concerne les moyens directs et indirects de ré-identification (ex : nom, adresse...) mais également les données chiffrées si le moyen de décryptage est disponible.
Pour limiter les risques de fuites d'informations, une personnes (ex : un patient) ne figure dans une base de donnée anonyme que si cela est obligatoire ou vraiment utile, et à un projet peut n'être associé qu'une seule base anonymisée. Une sécurité juridique accrue est obtenue si toutes les personnes y figurant ont donné leur consentement (par écrit ou via la fourniture de son identifiant, pour une étude de nature médico-commerciale, par exemple, mais ce type de base induit des biais d'interprétation.
Bien entendu, à chaque niveau de production ou stockage de données :
- Les personnels internes doivent être soumis à des mécanismes de contrôles d'accès devant interdire tout accès non autorisé ;
- Des mécanismes doivent être prévus pour détecter et bloquer les tentatives d'intrusion (par l'Internet ou d'autres moyens) et en particulier les tentatives malveillantes d'inférence de données, d'abus de pouvoir, etc.
Etat de la technique La demande de brevet WO 2015066523 décrit un exemple de procédé implémenté par ordinateur, pour fournir de meilleurs niveaux de confidentialité des données, d'anonymat et de sécurité en autorisant des sujets auxquels des données appartiennent, à rester "anonymes de façon dynamique," autrement dit anonymes aussi longtemps qu'ils le souhaitent et dans la mesure souhaitée.
Des modes de réalisation comprennent des systèmes qui créent, accèdent à, utilisent, enregistrent et/ou effacent des données avec des niveaux accrus de confidentialité, anonymat et sécurité, pour obtenir ainsi des informations mieux qualifiées et plus précises. Pour les données devant être partagées avec des tiers, des modes de réalisation peuvent rendre possible un partage contrôlé d'informations qui permet de délivrer des informations limitées temporellement , géographiquement et/ou par l'usage, à la partie réceptrice. Dans un exemple, des scores de mesures d'anonymat peuvent être calculés pour les éléments de données partagés, de sorte qu'un niveau de consentement/engagement requis par l'objet de données avant le partage des éléments de données pertinents à des tiers puisse être spécifié.
La demande de brevet W02012080081 porte sur un procédé mis en oeuvre par ordinateur d'anonymisation de données provenant d'une source de données pour une application cible, le procédé consistant à : identifier des éléments de données sensibles dans des données provenant de la source de données par l'intermédiaire d'un outil de découverte et générer des définitions de données pour des éléments de données indiquant les éléments de données sensibles, les définitions de données comprenant au moins une propriété pour les éléments de données ; spécifier un ensemble de règles de moteur d ' exécution comprenant au moins une règle de moteur d'exécution, la règle de moteur d'exécution comprenant un protocole d'anonymisation de moteur d'exécution, l'ensemble de règles de moteur d'exécution étant spécifiées par l'intermédiaire d'une interface ; mapper l'ensemble de règles de moteur d'exécution aux définitions de données générées par l'outil de découverte pour chacun des éléments de données sensibles ; et consommer les définitions de données générées et appliquer le protocole d'anonymisation de moteur d'exécution mappé à la définition de données d'élément de données sensible, afin d'anonymisation l'élément de données sensible pour l'application cible.
On connaît aussi la demande de brevet EP2752786 qui décrit un dispositif d'anonymisation et un procédé d'anonymisation caractérisés en ce que toutes les données satisfont des niveaux demandés d'anonymat pour chacune, et en ce qu'ils empêchent la perte de valeur de l'information qui résulte de l'abstraction de la collection de données tout entière. Le présent dispositif d'anonymisation comprend : un moyen d'anonymisation servant à effectuer un traitement d'anonymisation lors duquel un groupe de données est traité comme une unité de traitement pour une collection de données comprenant au moins deux données ; un moyen de spécification du niveau d'anonymat servant à spécifier un niveau d'anonymat adaptatif pour chaque groupe ; et un moyen d'évaluation de l'anonymat servant à juger si un groupe satisfait le niveau d'anonymat adaptatif spécifié. Le moyen d'anonymisation, sur la base du résultat d'évaluation du moyen d'évaluation de l'anonymat, effectue de plus un traitement d'anonymisation de la collection de données pour laquelle le traitement d'anonymisation a été effectué.
La demande de brevet européenne EP2573699 décrit un autre exemple de dispositif d'anonymisation servant à configurer automatiquement un arbre hiérarchique général de valeurs d'attribut dans la technologie de protection des informations d'identité. De plus, le dispositif d'anonymisation décrit, évalue quantitativement la quantité d'informations qui est perdue lors de la généralisation d'une valeur d'attribut, et peut ainsi automatiquement évaluer des priorités entre des données anonymisées et entre des données qui sont en cours d'anonymisation. Des informations de chaque personne comprennent des valeurs d'attribut de la personne pour une pluralité d'attributs. Une anonymisation est réalisée par obscurcissement des valeurs d'attribut, et une structure dans laquelle des valeurs d'attribut devant être obscurcies, sont exprimées dans une structure arborescente conformément au niveau d'obscurcissement est appelée arbre hiérarchique général. Le dispositif d'anonymisation d'informations d'identité décrit réalise une configuration automatique par configuration d'un arbre à l'aide d'informations de fréquence de valeurs d'attribut. De plus, par définition d'un moyen de mesure de quantité d'informations perdue, à l'aide de l'arbre hiérarchique général, une quantité d'informations perdue entre deux données anonymisées ou entre des données en cours d'anonymisation est quantitativement évaluée.
La demande de brevet US 2107/ 0124336 décrit une méthode automatisée d'identification des attributs pour l'exercice d'anonymisation. Cette méthode se base sur un cryptage des données, étape préalable à l'étude du niveau de sensibilité des données et donc de leurs degrés d'exigence en termes d'anonymisation. Ce brevet propose trois méthodes pour choisir les valeurs / attributs pour anonymisation. Une première méthode consiste en la comparaison des différentes valeurs avec des valeurs présentes dans un dictionnaire, auxquelles sont associés différents niveaux de sensibilité. Les attributs pour lesquels la présence des valeurs sensibles dans le jeu de données dépasse un certain seuil prédéterminé, seront sélectionnés pour anonymisation. Une deuxième méthode de classification est basée sur une comparaison des distributions des valeurs d'un attribut dans le jeu de données et dans une distribution connue. Cette méthode peut confirmer les résultats de la première méthode d'identification des attributs à anonymiser. Une dernière méthode est de fournir à 1 ' anonymisateur une partie du jeu de données dans sa version originale (avant cryptage) et de générer à partir de cet échantillon un nombre d'expressions pour un ou plusieurs attribut (s). Le reste du jeu de données sera crypté et comparé à ces expressions générées afin d'identifier certains attributs et leur sensibilité.
Inconvénients de l'art antérieur
Les solutions de l'art antérieur sont adaptées pour préparer des bases de données anonymisées lors de leur création. Par contre, ces solutions ne permettent pas de faire évoluer facilement l'anonymisation, par exemple lorsque l'ajout de nouvelles entrées modifie le contexte de d'anonymisation. Les solutions de l'art antérieur nécessitent dans ce cas le retraitement de l'intégralité de la base de données, ce qui peut nécessiter un temps de calcul considérable, pour des bases de données pouvant représenter plusieurs téraoctets.
Par ailleurs, les solutions de l'art antérieur ne permettent pas d'ajuster de manière flexible, et dynamiquement évolutive, le niveau d'exigence d'anonymisation en fonction des possibilités de ré-identification par des traitements élaborés des données.
Une anonymisation trop exigeante conduit à la perte de toute utilité/valeur des données.
Par contre, si on privilégie la richesse des informations accessibles par le traitement des données, l'anonymisation risque d'être insuffisante au regard des normes règlementaires.
Cet arbitrage entre ces deux contraintes évolue en fonction du nombre et de la nature des entrées enregistrées dans la base de données.
A titre d'exemple, une information relative au sexe combinée avec une information relative à l'âge peut être identificatrice , ce qui nécessite une action de transformation/ anonymisation, surtout lorsque le jeu de données contient en plus des informations relatives à une pathologie donnée. Toutefois, si la totalité des entrées/ enregistrements correspondent à un même sexe, ou à une même tranche d'âge, l'information n'est en réalité pas identificatrice . Mais si des entrées nouvelles modifient cette situation, l'information « sexe » ou « âge » peut nécessiter un traitement différent.
De plus, l'anonymisation nécessite une étape préalable d'identification des attributs / valeurs à anonymiser. Cette étape est laissée au choix de 1 ' anonymisateur/ utilisateur et est donc sujette à un problème de subjectivité et de non précision de la classification. De plus, même les travaux qui se concentrent sur la classification des attributs, ne fournissent pas de méthodologie claire et documentée de qualification des attributs .
Solution apportée par l'invention
La présente invention vise à remédier à ces inconvénients en proposant un procédé permettant d'avoir différents niveaux d'anonymisation au travers d'une classification des variables d'une base de données.
L'invention concerne selon son acception la plus générale un procédé de traitement automatique d'un jeu de données numériques consistant :
à enregistrer dans une mémoire non permanente un jeu de données originelles,
à enregistrer dans une mémoire permanente
o un fichier numérique constitué par une table déterminant au moins des identifiants/ dénominations des variables, et pour chacune desdites variables
■ un paramètre « Statut identifiant »
[identifiant « I », quasi-identifiant « QI », non identifiant « NP » ] un paramètre « Statut Sensibilité » [ : oui
« S », ou non « NS » ] . Ce paramètre dépend de la définition de sensibilité retenue :
Sensibilité « règlementaire » , se limitant aux exigences juridiques en termes de protection de la vie privée.
- Sensibilité « générale », englobant d'autres aspects comme le psychologique, le culturel,... o Un fichier numérique constitué par une table de variables de recensement de la population de référence avec pour chacune
Les différentes modalités/ valeurs prises par chaque variable selon le recensement
La fréquence d'apparition de chaque modalité dans la population de référence (France, Etats Unis , .. )
Un ordre du pouvoir d'identification des différentes variables du recensement o Un fichier numérique constitué par une table de variables avec un ordre établi du degré de facilité (208) par lequel un potentiel attaquant peut accéder à l'information sur les différentes variables. Cet ordre peut être déduit de certaines bases de données retraçant l'historique des attaques. o Un fichier numérique constitué par une table d'attributs « sensibles », pour lesquels les valeurs/ modalités sont classées par ordre de sensibilité.
Le procédé consistant à appliquer :
un premier traitement se basant sur le référentiel des attributs, noté « Classification Initiale » consistant à o associer à chacune des variables dudit jeu de données originel un paramètre « statut » et à traiter les variables associées à un statut « caché» (« I », « Qi » ou « S »), c'est-à-dire nécessitant une action avant partage des données, pour empêcher leur utilisation normale (sans anonymisation par exemple) dans ledit jeu de données
o à affecter à chacune des variables associées à un statut « NP» / « NS» un drapeau de non traitement et de conservation définitifs dans le jeu de données final un deuxième traitement concernant les variables résiduelles associées à un statut « quasi-identifiant » consistant à :
o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale dudit jeu de données OU
affecter à chacune desdites variables résiduelles :
un premier indicateur correspondant à la disponibilité de la valeur associée à partir de sources de données extérieures, par exemple à partir d'un web crawler ou d'un référentiel ou d'historiques d'attaques
et/ou
un second indicateur correspondant à la fréquence des valeurs de ladite variables associées dans la population générale (appelée aussi population de référence) dont le jeu de données constitue un sous-ensemble
à ordonner chacune desdites variables résiduelles en fonction desdits indicateurs associés, ce qui se traduira par exemple par des niveaux de traitement/ anonymisation différents lors du processus d'anonymisation. Cet ordre traduit la classification finale des attributs affectés à une séquence numérique « QI » . un troisième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « règlementaire » consistant à :
o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale (215) dudit jeu de données
OU
o Affecter à chacune de ces variables résiduelles un indicateur de sensibilité en se référant à une liste de variables sensibles avec leurs différentes modalités/ valeurs allant des plus sensibles aux moins sensibles. Ces indicateurs sont calculés sur la base de la fréquence d'apparition des valeurs les plus sensibles de l'attribut sensible. Ils seront ensuite comparés à un seuil de fréquence
« acceptable » préalablement défini,
o Garder pour chacune des variables résiduelles caractérisées, par une fréquence d'apparition des valeurs sensibles supérieure à une valeur seuil, leur statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données,
o Affecter aux variables restantes un statut « caché » mais plus « flexible » en termes d'exigences de traitements lors du processus d'anonymisation.
Selon un mode de mise en œuvre particulier, un quatrième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « générale » consistant à affecter à certaines desdites variables un statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données. Selon une variante, le procédé comporte avant l'étape de première classification un traitement pour affecter à chacune des variables pour lesquelles aucune correspondance avec le référentiel des attributs (201) n'est établie, un statut provisoire dans le référentiel des attributs (201), qui peut être modifié en statut définitif ou rejeté selon l'avis d'un opérateur.
Avantageusement, le procédé comporte en outre une étape consistant à appliquer dynamiquement aux variables non associables au référentiel des attributs, un traitement spécifique consistant à enregistrer dans ledit référentiel le couple « variable, statut » en attente de validation/ rejet selon l'avis d'un opérateur. Cela impliquerait aussi des enrichissements potentiels des référentiels de « Pouvoir d'identification » (207) et/ ou de « sensibilité ».
Selon une variante, lesdits traitements sont appliqués périodiquement [par exemple lors de chaque évolution du jeu de données (210) ou à chaque évolution du cadre règlementaire] .
Avantageusement, lesdits traitements appliqués aux variables / valeurs « cachées» consistent à :
supprimer lesdites variables / valeurs (notamment pour les variables affectées au statut « I »)
enregistrer lesdites variables dans une DMZ
l'anonymisation d'une partie au moins des valeurs correspondant auxdites variables.
Description détaillée d'un exemple non limitatif de
1 ' invention La présente invention sera mieux comprise à la lecture de la description détaillée d'un exemple non limitatif de l'invention qui suit, se référant aux dessins annexés, où :
La figure 1 représente du logigramme de l'ensemble des traitements.
- La figure 2 représente l'ensemble des modules des traitements pour la mise en œuvre de l'invention.
La figure 3 présente une vue détaillée du logigramme de la première étape de classification.
La figure 4 présente une vue détaillée du logigramme de l'analyse du pouvoir d'identification des attributs.
La figure 5 présente une vue détaillée du logigramme de l'analyse de la sensibilité des attributs .
Contexte de l'invention
La présente invention concerne la classification automatique des attributs d'un jeu de données numériques permettant de mieux cibler les exercices d'anonymisation et/ ou d'évaluation du risque de ré-identification (RI). Le but est d'automatiser les traitements techniques permettant d'assurer le respect du cadre règlementaire sur la protection des données à caractère personnel.
La multiplication des données à caractère personnel et les évolutions juridiques et légales dans ce domaine rendent l'exercice de l'anonymisation des bases de données un enjeu pour les propriétaires/ utilisateurs des bases de données numériques .
Certains organismes nationaux et européens tels que la CNIL ou le G29 insistent sur l'importance de la protection des données à caractère personnel, en proposant des méthodologies d'anonymisation permettant d'avoir un compromis entre la protection de la vie privée et l'exploitation des données. Le cadre réglementaire est renforcé en plus par le règlement européen sur la protection des données (RGPD) qui vise à harmoniser les législations européennes sur la question de la protection des données à caractère personnel. Afin de garantir la protection des données, les travaux d'anonymisation devront être vérifiés en évaluant le risque de ré-identification des données à caractère personnel.
L'anonymisation et l'évaluation du risque de divulgation des données à caractère personnel concernent généralement certaines variables d'un jeu de données, particulièrement celles ayant un caractère identifiant ou celles ayant un caractère sensible. En même temps, l'anonymisation implique une perte d'information sur le jeu de données, pouvant affecter l'utilité des données pour des utilisateurs tels que les chercheurs. Pour cela, il est pertinent pour un utilisateur ou propriétaire des données de bien cibler les variables sur lesquelles l'anonymisation ou la mesure de risque de ré-identification seront effectuées. Ainsi, la classification des attributs d'un jeu de données serait-elle un atout pour faire l'équilibre entre l'obligation du respect de la vie privée et la garantie de l'utilité des données .
La classification des attributs est effectuée par un traitement « manuel » par le propriétaire des données et reste liée à son appréciation. Cela laisse la question de la classification des variables sujette à la subjectivité et donc pouvant engendrer des décisions d'anonymisation ou d'évaluation du risque de ré-identification qui ne sont pas en conformité avec les exigences de la manipulation des données à caractère personnel. De plus, le contexte de diffusion des jeux de données, l'évolution des lois et des coutumes ainsi que les caractéristiques de certains jeux de données font que la classification des variables n'est pas définitive et qu'une appréciation d'expert est toujours souhaitable pour garantir l'utilisation éthique des données à caractère personnel. Au vu de ces éléments, Il existe donc un problème technique lié à l'analyse préalable (manuelle ou automatique) des attributs d'un jeu de données afin de bien cibler les exercices d'anonymisation et/ ou d'évaluation du risque de réidentification des données par un attaquant potentiel du jeu de données .
Il existe dans ce cas un besoin de rationaliser la classification des attributs afin d'introduire tout d'abord de l'objectivité à cette tâche souvent sujette à la subjectivité, de manière automatique compte tenu du nombre considérable de données nécessitant un traitement, dans certaines applications. Cela rendra possible la comparaison entre jeux de données de même nature, en termes de risque de divulgation. Une bonne classification des attributs facilitera la décisions concernant les méthodes d'anonymisation et / ou de mesure de risque de divulgation des données à caractère personnel. De plus, avoir une classification des attributs qui dépend du jeu de données et qui n'est pas forcément définitive offre plus de flexibilité pour les propriétaires des données pour pouvoir satisfaire différents couples contextes d'utilisation/nature des clients.
La présente invention propose une méthodologie de classification des attributs afin d'aider les propriétaires des données à partager leurs données tout en respectant les exigences des données à caractère personnel de manière automatique et de manière dynamique, permettant de faire évoluer automatiquement les paramètres en fonction de l'introduction de nouvelles données dans la base de données.
Le propriétaire des données accède à un jeu de données comportant des attributs . Chaque attribut a une dénomination permettant de le classer. Chaque attribut peut prendre différentes modalités/ valeurs et peut être donc aussi classer selon la composition de ces valeurs (distribution, fréquence ou autre).
L'innovation de cette méthodologie de classification réside donc particulièrement dans l'intervention des modalités des différents attributs d'un jeu de données dans le processus de classification des attributs.
Description de l'invention
Cette invention comporte deux étapes de classification des données. La classification commence par une première étape, où les attributs du jeu de données à traiter sont soumis à un premier classement, en se servant d'une base de données créée appelée « Référentiel des attributs » . Cette invention sera décrite selon un exemple détaillé en référence aux figures 1 à 5 annexées présentant l'architecture fonctionnelle et les logigrammes des principaux modules fonctionnels .
1- Référentiel des attributs (201)
Le «Référentiel des attributs» (201) consiste à appliquer une classification des attributs selon deux principaux critères d'anonymisation des données personnelles à savoir :
- leur caractère identifiant (202) et
- leur caractère sensible (203)
Le caractère identifiant (202) se traduit par l'enregistrement d'une séquence numérique pouvant prendre trois états : « I » lorsque la variable est directement identificatrice comme le numéro de sécurité sociale , « QI » lorsque la variable peut devenir identificatrice , combinée avec d'autres variables associées à un même état comme le code postal, ou « NP ». Les variables associées à la séquence numérique « NP » ne font pas l'objet d'un traitement dans le cadre de cette invention, ce qui peut réduire le temps de calcul dans le processus/ la démarche d'anonymisation (204).
Le caractère sensible (203) se traduit par l'enregistrement d'une séquence numérique pouvant prendre deux états : « S » lorsque la variable est sensible dans le sens où sa divulgation doit être évitée et « NS » dans les autres cas.
Le référentiel (201) se traduit par un fichier rassemblant des variables, recensées à partir de l'état de l'art, des préconisations des instituts de protection de la vie privée ainsi que des cas d'usage rencontrés. Ces variables sont classées par catégorie afin de faciliter l'utilisation du référentiel lors de la classification des attributs d'un jeu de données considéré. Les catégories recensées sont les suivantes : santé, éducation et travail, adresses, numéros et dates...
La classification des attributs est ensuite basée sur deux éléments:
- le caractère identifiant (202) des attributs et précisément leur pouvoir d'identification des attributs, et
- le caractère sensible (203) des données au sens de la loi et aussi plus généralement au sens des coutumes, société... Pour le caractère sensible, on considère :
- l'appartenance à une catégorie particulière au sens juridique et
- une sensibilité plus générale ne se limitant pas au niveau d'exigence juridique.
Les attributs appartenant, selon la loi, à une «catégorie particulière» sont classés en tant que variables sensibles affectées de la séquence numérique « S », par exemple les données de santé, le casier judiciaire...
La sensibilité « générale » ne se réduit cependant pas à la sensibilité juridique ; elle prend en compte des aspects éthiques et sociaux. Le nombre de redoublements par exemple peut être considéré comme une variable sensible, et donc cette variable pourra être associée à une séquence « S » ou « NS » selon le choix de l'utilisateur.
Ces critères sont issus de la littérature sur l'anonymisation et leur prise en compte pour faire la catégorisation des variables permet d'atténuer la subjectivité de la qualification et des analyses. En effet, la plupart des logiciels/ outils d'anonymisation ne fournissent pas de l'assistance à leurs utilisateurs dans l'étape de classification des attributs des jeux de données.
Ce référentiel (201) peut être enrichi de façon continue et est supposé rassembler un ensemble important de variables se rattachant à de nombreux secteurs d'activité, afin de faire croître son utilité.
Le traitement se traduit par l'enrichissement de la table des données constituant le référentiel (201) par des paramètres numériques définis comme suit:
Catégorie : Il s'agit du thème auquel se rapporte 1 ' attribut .
Attribut : Dénomination de l'attribut.
Statut Identifiant : Il s'agit de classer la variable comme identificatrice « I, à éliminer de la version anonymisée », quasi-identificatrice « QI » ou non
« NP » .
Catégorie particulière au sens juridique : Il
s'agit des attributs qui doivent être considérés comme sensibles et donc à protéger au sens la loi.
Sensibilité Générale : La sensibilité inclut la sensibilité au sens juridique mais aussi au sens de l'éthique, la coutume, la société, ...
Remarques supplémentaires : Précisions à prendre en compte lors de la classification. Deux autres référentiels s'ajoutent pour affiner la classification des attributs (2eme étape de classification) :
2- Référentiel de sensibilité des attributs (205)
Afin d'offrir une flexibilité aux utilisateurs au moment de la classification des attributs, le référentiel de « sensibilité des attributs » (205) propose de référencer selon le degré de sensibilité, les différentes modalités / valeurs d'un attribut classé comme sensible et donc affecté de la séquence numérique « S ».
Certains attributs classés « sensibles » et affectés à la séquence numérique « S » prennent des valeurs n'ayant pas forcément le même degré de sensibilité et/ ou d'exigence de protection, d'où l'intérêt de proposer une analyse plus fine de sensibilité et de un ordre de sensibilité pour les différentes modalités des attributs sensibles (206).
Par exemple, pour établir l'ordre de sensibilité des modalités que peut prendre l'attribut « Maladie », il est pertinent de prendre en compte que certaines maladies sont plus sensibles à la divulgation que d'autres, c'est-à-dire que leur divulgation pourrait causer plus de préjudice à la (les) personne ( s ) concernée ( s ) .
En se basant sur les classifications internationales des maladies publiées par l'Organisation Mondiale de Santé (OMS), nous pouvons proposer un ordre de sensibilité des différentes maladies (selon le degré de dangerosité et/ ou de jugements sociaux) qui prendra par exemple la forme suivante :
Maladies à sensibilité forte: Maladies sexuellement transmissibles, ...
Maladies à sensibilité modérée: Maladies chroniques ,...
Maladies à faible sensibilité : autres La validation de cette catégorisation nécessiterait 1 'avis d 'un expert .
In fine, le « Référentiel de sensibilité des attributs » (205) est constitué par la liste des attributs sensibles recensée grâce au « Référentiel des attributs » (201) et pour chaque attribut, les différentes modalités possibles (pouvant évoluer) sont classées par ordre de sensibilité et / ou d'exigence en termes de protection de la vie privée et d'un point de vue socio-culturel.
3- Référentiel du Pouvoir d'identification des données 207)
La qualification des attributs quasi-identifiants , affectés à une séquence numérique « QI » peut être améliorée en passant à un degré plus fin d'analyse (212). En effet, le pouvoir d'identification peut varier d'un attribut quasi- identifiant à un autre. Ainsi, le niveau d'exigence en termes d'anonymisation et / ou d'évaluation d'anonymisation pourrait être différent selon le niveau de pouvoir d'un quasi- identifiant dans la ré-identification d'un individu.
Deux règles de décisions facilitant le classement des quasi-identifiants selon leur pouvoir d'identification sont déterminées, le but étant de créer un « Référentiel de Pouvoir d'identification » (207). Précisément, nous proposons deux critères sur lesquels se base l'ordre de pouvoir d'identification : la « facilité d'accès des attributs» et la « fréquence d'apparition dans la population de référence».
3.1- *Référentiel de facilité d'accès des attributs (208)
Le principe de base de ce « Référentiel de facilité d'accès des attributs» (208) est qu'un attaquant potentiel ne pourrait pas accéder à tous les attributs quasi- identificateurs, affectés à la séquence numérique « QI », avec le même degré de facilité. En effet, toutes choses étant égales par ailleurs, certains attributs quasi-identifiants « QI » sont plus faciles d'accès que d'autres du fait de leur disponibilité publique (sur Internet, sur les sites officiels, les résultats de concours,..).
Nous proposons donc un ordre par catégorie d'attributs. Si on considère par exemple la catégorie des « dates », les différentes dates qu'on peut trouver dans les jeux de données n'ont pas forcément le même degré d'accessibilité. Nous considérons par exemple la classification suivante:
Dates faciles d'accès : dates de naissance,...
Dates moins accessibles : dates d'hospitalisation,...
Dates difficiles d'accès : dates de contrôle médical ,...
Le but est d'avoir un référentiel des attributs quasi-identifiants , affectés par la séquence numérique « QI », classés selon leur facilité d'accès par un potentiel attaquant .
3.2- *Référentiel de Population de référence (209)
Nous considérons aussi que le pouvoir d'identification d'un attribut quasi-identifiant, affecté par une séquence numérique « QI » , pourrait dépendre de la fréquence de l'apparition de ses différentes modalités dans la population de référence, comme la population française. Par exemple, toutes choses étant égales par ailleurs, nous pouvons considérer que la variable « date de naissance » a un pouvoir d'identification plus élevé que l'âge. La « date de naissance » donne en effet plus d'information que ce l'âge donne et est plus identificatrice des individus. Dans le même esprit, « être une femme/ homme » est moins identifiant qu' « être un enseignant en philosophie».
Le « Référentiel de Population de référence » (209) se base donc sur la distribution des différents attributs dans la population de référence, par exemple un pays. Pour la France, nous nous référons par exemple aux données du dernier recensement de la population française de 2013 pour en déduire la distribution d'un ensemble d'attributs.
Les données recensées concernent à ce niveau les variables suivantes : âge, catégorie socio-professionnelle, département de naissance, département de résidence antérieure, département de résidence actuelle, département de travail, diplôme obtenu, nationalité, le secteur d'activité, la région de naissance, la région de résidence antérieure, la région de travail, le sexe, l'état matrimonial et le type d'activité. Cette liste peut être enrichie par d'autres données sur la population française ce qui permettra d'élargir la liste des attributs .
A partir de ce recensement, les attributs sont classés selon les fréquences d'apparition de leurs différentes modalités / valeurs proposées. La règle de décision est la suivante :
Les fréquences d'apparition des valeurs/modalités les moins fréquentes, de deux attributs quasi-identifiants A et B, sont comparées. L'attribut pour lequel la modalité la moins fréquente a un pourcentage d'apparition plus faible sera considéré comme attribut ayant un pouvoir d'identification supérieur, ce qui se traduira par la suite par un niveau d'anonymisation et/ ou de risque de ré-identification plus important . Ce traitement permet de donner un ordre de pouvoir d'identification des attributs. Ce référentiel de population de référence (209) peut être élargi par la prise en compte des caractéristiques d'autres populations de référence, comme les Etats Unis ou le Canada. Nous aurons donc, in fine, une base de données donnant les principales caractéristiques des populations de référence (populations auxquelles se rattachent les jeux de données).
Ces deux critères de « facilité d’ accès » et de « population de référence » permettront d’ avoir un référentiel de pouvoir d’ identification (207).
Les deux critères peuvent être complémentaires pour couvrir le plus d’ attributs quasi-identifiants , affectés de la séquence numérique « QI », d’ un jeu de données.
Description d'un exemple de mise en œuyre de l'invention
La classification des attributs peut suivre la méthodologie suivante :
Etape (1) s le propriétaire des données/ utilisateur accède à un jeu de données (210) qui contient des attributs avec des dénominations différentes. Le propriétaire des données examine le dictionnaire des attributs (s'il existe) ou directement les attributs afin de les classer.
Etape (2) : Au cours de cette étape, l'utilisateur accède au « référentiel des attributs » (201).
Etape (3) : Au cours de cette étape, le calculateur traite le jeu de données (210) pour mettre en concordance chacun des attributs avec le référentiel des attributs (201). Pour les attributs du jeu de données (210), pour lesquels une mise en concordance est réalisée, le traitement consiste à leur affecter un marqueur. Cette correspondance peut se faire manuellement par l'utilisateur en comparant la liste des attributs de son jeu de données au référentiel des attributs ou automatiquement en créant des algorithmes d'automatisation de la recherche tels que l'algorithme Rabin-Karp, String searching, approximate string searching, ou encore les algorithmes de recherche sémantique tels que l'algorithme de Lesk.
Etape (4) : Cette étape distingue les attributs du jeu de données (201) pour lesquels une mise en concordance a été réalisée d'une part, et les attributs pour lesquels aucune mise en concordance n'a été déterminée, d'autre part.
Etape (5) : Cette étape consiste à enregistrer dans le référentiel des attributs (201), les attributs du jeu de données (210) pour lesquels aucune concordance n'a été trouvée. Ces variables sont enregistrées avec un statut provisoire, qui pourra être modifié en statut définitif ou rejeté selon l'avis d'un opérateur.
Etape ( 6 ) : Cette étape à procéder à une première classification des attributs, notée « Classification Initiale » (211), en se basant sur « le référentiel des attributs » (201). Cette étape ne concerne que les attributs pour lesquels une concordance avec le « référentiel des attributs » (201) a été établie. A la fin de cette étape, chacun des attributs marqués aura un statut basé sur le référentiel des attributs (201) traduit par une séquence numérique qui peut prendre différents états : « I », « QI »,
« NP », « S » ou « NS » .
Cette étape est décrite plus en détail en référence au logigramme objet de la figure 3.
En se servant de ce référentiel, un utilisateur/ un propriétaire des données peut faire une première classification, notée « Classification Initiale » (211) des attributs de son jeu de données en vue de bien cibler les exercices d'anonymisation/mesure du risque de divulgation.
Un utilisateur accède (301) au dictionnaire des attributs du jeu de données à étudier et au « référentiel des attributs » (201). Pour les attributs dont une correspondance dans le référentiel des attributs a été trouvée (303), une détermination de leur statut identifiant (304)/ sensible (305) permettra d'avoir une classification initiale des attributs (306). La détermination de cette première classification se fait en se référant aux les différentes colonnes du fichier du « référentiel des attributs » (201). Là encore, la correspondance entre les attributs du jeu de données (201) et leur statut dans le « référentiel des attributs » (201) peut se faire manuellement ou automatiquement par des algorithmes d'automatisation de la recherche.
Pour les attributs du jeu de données (210) affectés d'une séquence numérique « I », « NP » ou « NS », la classification initiale des attributs (306) correspond à leur classification définitive. Ces attributs seront donc conservés de manière définitive dans le module de classification (213), sur lequel se base le processus d'anonymisation :
- Les attributs affectés à une séquence numérique « I » subiront des traitements particuliers et n ' apparaîtront pas dans le jeu de données final (215) afin de garantir le respect de la vie privée.
- Les attributs affectés d'une séquence numérique « NP » ou « NS » ne subiront pas (214) de traitements particuliers (204) et seront conservés directement dans le jeu de données final (215).
Etape (7) : L'utilisateur détermine ensuite une option consistant à accorder aux attributs affectés à une séquence numérique « QI » ou « S » un statut caché empêchant leur utilisation normale dans le jeu de données final (215) et à passer directement au processus d'anonymisation (204) ou de procéder à un traitement additionnel du jeu de données (210), décrit ci-après.
Etape (8) : Cette étape ne s'applique qu'aux attributs, affectés à une séquence numérique « S », déterminés par un module de filtrage (501). Cette étape, nommée « Analyse de la sensibilité » (206), est présentée de manière plus détaillée par le logigramme, objet de la figure 5.
Le traitement s'appuiera sur le résultat de la classification initiale des attributs (306) et sur le « référentiel de sensibilité » (205).
En accédant (502) au « référentiel de sensibilité des attributs» (205), le calculateur examinera la distribution des modalités de l'attribut sensible dans le jeu de données (503). Les fréquences d'apparition des modalités les plus sensibles de l'attribut sont ensuite calculées pour le jeu de données à étudier (504).
La fréquence d'apparition des modalités sensibles (de cet attribut sensible) est ensuite comparée à un seuil de fréquence défini auparavant (505). L'attribut en question conservera son caractère « sensible » si la fréquence d'apparition des modalités « sensibles » dans le jeu de données dépasse le seuil préalablement choisi (506). Sinon, l'attribut sera affecté à une classe « moins sensible » (507). On obtient donc une classification finale des attributs sensibles (508). Cette règle permettra d'offrir une certaine flexibilité aux utilisateurs lors du processus d'anonymisation (204) dans le but d'obtenir la version finale du jeu de données ( 215 ) . Etape (9) : Cette étape ne s'applique qu'aux attributs, affectés à une séquence numérique « QI », déterminés par un module de filtrage (401). Cette étape, nommée « Analyse du pouvoir d'identification » (212), est présentée de manière plus détaillée par le logigramme, objet de la figure 4.
Le traitement s'appuiera sur le résultat de la classification initiale des attributs (306) et sur le « référentiel de pouvoir d'identification » (207).
Le calculateur accède (402) au « référentiel de facilité d'accès des attributs » (208) et compare (403) ensuite les degrés de facilité d'accès des différents attributs du jeu de données (210) affectés à une séquence numérique « QI », en se basant sur le même référentiel (208). Cette comparaison aboutit à un ordre de « facilité d'accès » des différents attributs.
Le calculateur accède ensuite (404) au « référentiel de population de référence» (209) et fera un tri (405) des attributs affectés d'une séquence numérique « QI » selon l'ordre établi dans le « référentiel de population de référence » (209). Cet ordre peut être fait manuellement ou automatiquement par des algorithmes de tri, à savoir « le tri par sélection » , le « tri arborescent »...
La comparaison des attributs quasi-identifiants d'un point de vue de la facilité d'accès (403) et l'ordre des différents attributs en termes des caractéristiques dans la population de référence (405), permettent d'avoir un ordre final (406) des attributs affectés à une séquence numérique « QI » selon leur pouvoir de ré-identification. Cet ordre permettra d'offrir une certaine flexibilité aux utilisateurs lors du processus d'anonymisation (204), en termes de besoin d'anonymisation pour les différents attributs marqués du jeu de données (210). Etape (10) : Cette étape présente la fin du processus de classification des attributs du jeu de données (210). Les résultats des analyses de sensibilité (206) et du pouvoir d'identification (212) sont groupés dans un module de classification (213), sur lequel se basera le calculateur pour le traitement des données (204) du jeu de données (210). Ce traitement peut se traduire par une anonymisation de certains attributs, avec des degrés d'exigence différents afin d'aboutir à une version finale du jeu de données (215). Dans tous les cas, le traitement des données doit répondre à des besoins de protection de la vie privée tout en conservant l'utilité du jeu de données (210).

Claims

Revendications
1 - Procédé de traitement automatique d'un jeu de données numériques consistant :
à enregistrer dans une mémoire non permanente un jeu de données originelles,
à enregistrer dans une mémoire permanente
o un fichier numérique (201) constitué par une table déterminant au moins des identifiants/ dénominations des variables, et pour chacune desdites variables
un paramètre « Statut identifiant »
[identifiant « I », quasi-identifiant « QI », non identifiant « NP » ]
un paramètre « Statut Sensibilité » [ : oui
« S », ou non « NS » ]
o Un fichier numérique constitué par une table de variables de recensement de la population de référence (209) avec pour chacune
Les différentes modalités/ valeurs prises par chaque variable selon le recensement
La fréquence d'apparition de chaque modalité dans la population de référence (France, Etats Unis , .. )
Un ordre du pouvoir d'identification des différentes variables du recensement
o Un fichier numérique constitué par une table de variables avec un ordre établi du degré de facilité (208) par lequel un potentiel attaquant peut accéder à l'information sur les différentes variables o Un fichier numérique constitué par une table d'attributs « sensibles » (205), pour lesquels les valeurs/ modalités sont classées par ordre de sensibilité . le procédé consistant à appliquer : un premier traitement se basant sur le référentiel des attributs (201), noté « Classification Initiale » (211) consistant à
o associer à chacune des variables dudit jeu de données originel un paramètre « statut » et à traiter les variables associées à un statut « caché» ( « I », « QI » ou « S » ) ,
o à affecter à chacune des variables associées à un statut « NP» / « NS» un drapeau de non traitement et de conservation définitifs (214) dans le jeu de données final (215) un deuxième traitement concernant les variables résiduelles associées à un statut « quasi-identifiant » consistant à :
o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale (215) dudit jeu de données (210)
OU
o affecter à chacune desdites variables résiduelles :
un premier indicateur correspondant à la disponibilité de la valeur associée à partir de sources de données extérieures
et/ou
un second indicateur correspondant à la fréquence des valeurs de ladite variables associées dans la population générale dont le jeu de données constitue un sous-ensemble o à ordonner chacune desdites variables résiduelles en fonction desdits indicateurs associés, ce qui se traduira par exemple par des niveaux de traitement/ anonymisation différents lors du processus d'anonymisation (204) déterminant la classification finale des attributs affectés à une séquence numérique « QI » (406) un troisième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « règlementaire » consistant à :
o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale (215) dudit jeu de données (210)
OU
o Affecter à chacune de ces variables résiduelles un indicateur de sensibilité en se référant à une liste de variables sensibles avec leurs différentes modalités/ valeurs (205) allant des plus sensibles aux moins sensibles, calculés sur la base de la fréquence d'apparition des valeurs les plus sensibles de l'attribut sensible
o Garder pour chacune des variables résiduelles caractérisées, par une fréquence d'apparition des valeurs sensibles supérieure à une valeur seuil, leur statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données,
o Affecter aux variables restantes un statut « caché » mais plus « flexible » en termes d'exigences de traitements lors du processus d'anonymisation (204).
2 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte en outre un quatrième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « générale » consistant à affecter à certaines desdites variables un statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données. 3 - Procédé selon la revendication 2 caractérisé en ce qu'il comporte avant l'étape de première classification un traitement pour affecter à chacune des variables pour lesquelles aucune correspondance avec le référentiel des attributs (201) n'est établie, un statut provisoire dans le référentiel des attributs (201), qui peut être modifié en statut définitif ou rejeté selon l'avis d'un opérateur.
4 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte en outre une étape consistant à appliquer dynamiquement aux variables non associables au référentiel des attributs (201), un traitement spécifique consistant à enregistrer dans ledit référentiel le couple « variable, statut » en attente de validation/ rejet selon l'avis d'un opérateur. Cela impliquerait aussi des enrichissements potentiels des référentiels de « Pouvoir d'identification » (207) et/ ou de « sensibilité » (205).
5 - Procédé selon la revendication 1, caractérisé en ce que lesdits traitements sont appliqués périodiquement [par exemple lors de chaque évolution du jeu de données (210) ou à chaque évolution du cadre règlementaire].
6 - Procédé selon la revendication 1 caractérisé en ce que lesdits traitements appliqués aux variables / valeurs « cachées» consistent à :
supprimer lesdites variables / valeurs (notamment pour les variables affectées au statut « I »)
enregistrer lesdites variables dans une DMZ
l'anonymisation d'une partie au moins des valeurs correspondant auxdites variables.
EP19710728.7A 2018-02-13 2019-02-08 Procédé de traitement automatique pour l'anonymisation d'un jeu de données numériques Pending EP3752948A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1851182A FR3077894B1 (fr) 2018-02-13 2018-02-13 Procede de traitement automatique pour l’anonymisation d’un jeu de donnees numeriques
PCT/FR2019/050280 WO2019158840A1 (fr) 2018-02-13 2019-02-08 Procédé de traitement automatique pour l'anonymisation d'un jeu de données numériques

Publications (1)

Publication Number Publication Date
EP3752948A1 true EP3752948A1 (fr) 2020-12-23

Family

ID=62528569

Family Applications (1)

Application Number Title Priority Date Filing Date
EP19710728.7A Pending EP3752948A1 (fr) 2018-02-13 2019-02-08 Procédé de traitement automatique pour l'anonymisation d'un jeu de données numériques

Country Status (3)

Country Link
EP (1) EP3752948A1 (fr)
FR (1) FR3077894B1 (fr)
WO (1) WO2019158840A1 (fr)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111298432B (zh) * 2020-01-16 2021-07-06 腾讯科技(深圳)有限公司 虚拟对象信息获取方法、装置、服务器及可读存储介质
CN113468561B (zh) * 2021-06-18 2024-04-23 宝湾资本管理有限公司 数据保护方法、装置及服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130138698A1 (en) 2010-05-19 2013-05-30 Kunihiko Harada Identity information de-identification device
US9323948B2 (en) 2010-12-14 2016-04-26 International Business Machines Corporation De-identification of data
WO2013031997A1 (fr) 2011-09-02 2013-03-07 日本電気株式会社 Dispositif et procédé de désidentification
WO2015066523A2 (fr) 2013-11-01 2015-05-07 Anonos Inc. Désidentification et anonymat dynamiques
US10013576B2 (en) * 2014-12-12 2018-07-03 Panasonic Intellectual Property Management Co., Ltd. History information anonymization method and history information anonymization device for anonymizing history information
US9858426B2 (en) 2015-11-03 2018-01-02 Palo Alto Research Center Incorporated Computer-implemented system and method for automatically identifying attributes for anonymization

Also Published As

Publication number Publication date
FR3077894A1 (fr) 2019-08-16
FR3077894B1 (fr) 2021-10-29
WO2019158840A1 (fr) 2019-08-22

Similar Documents

Publication Publication Date Title
Oliveira et al. Biogeography of Amazon birds: rivers limit species composition, but not areas of endemism
KR102430649B1 (ko) 익명화를 위해 속성들을 자동으로 식별하기 위한 컴퓨터 구현 시스템 및 방법
Goldsteen et al. Data minimization for GDPR compliance in machine learning models
Diakopoulos Algorithmic accountability reporting: On the investigation of black boxes
US20220100899A1 (en) Protecting sensitive data in documents
EP3908952B1 (fr) Procédé de création d'avatars pour protéger des données sensibles
Nazah et al. An unsupervised model for identifying and characterizing dark web forums
Min Global business analytics models: Concepts and applications in predictive, healthcare, supply chain, and finance analytics
EP3752948A1 (fr) Procédé de traitement automatique pour l'anonymisation d'un jeu de données numériques
Doss Cyber privacy: who has your data and why you should care
Rizk et al. Media coverage of online social network privacy issues in Germany: A thematic analysis
Luz et al. Data preprocessing and feature extraction for phishing URL detection
Felmlee et al. Can social media anti-abuse policies work? A quasi-experimental study of online sexist and racist slurs
Olson et al. The Best Ends for the Best Means: Ethical Concerns in App Reviews
Siadaty et al. Locating previously unknown patterns in data-mining results: a dual data-and knowledge-mining method
US20220382891A1 (en) Detecting sensitive information in records using context and decoys
Tjikhoeri et al. The best ends by the best means: ethical concerns in app reviews
Alben When artificial intelligence and big data collide—How data aggregation and predictive machines threaten our privacy and autonomy
San Predictions from data analytics: Does Malaysian data protection law apply?
Ricker et al. AI-Generated Faces in the Real World: A Large-Scale Case Study of Twitter Profile Images
Goethals et al. The Impact of Cloaking Digital Footprints on User Privacy and Personalization
Sloan et al. When is an algorithm fair? errors, proxies, and predictions in algorithmic decision making
Alonso Zero-Order Privacy Violations and Automated Decision-Making about Individuals
da Silveira Democracy and invisible codes: How algorithms are modulating behaviors and political choices
Vogelsong et al. Disclosive search ethics: Illuminating the gatekeepers of knowledge

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20200717

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20230208

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20240626