EP2847690A1 - Procede de verification des donnees d'une base de donnees relative a des personnes - Google Patents

Procede de verification des donnees d'une base de donnees relative a des personnes

Info

Publication number
EP2847690A1
EP2847690A1 EP13719807.3A EP13719807A EP2847690A1 EP 2847690 A1 EP2847690 A1 EP 2847690A1 EP 13719807 A EP13719807 A EP 13719807A EP 2847690 A1 EP2847690 A1 EP 2847690A1
Authority
EP
European Patent Office
Prior art keywords
data
person
age
gender
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP13719807.3A
Other languages
German (de)
English (en)
Inventor
Olivier CIPIERE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Idemia Identity and Security France SAS
Original Assignee
Morpho SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Morpho SA filed Critical Morpho SA
Publication of EP2847690A1 publication Critical patent/EP2847690A1/fr
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/436Filtering based on additional data, e.g. user or group profiles using biological or physiological data of a human being, e.g. blood pressure, facial expression, gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • G06F17/175Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method of multidimensional data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Definitions

  • the invention relates to the verification of the content of a database in which data relating to persons, such as their name, age, date of birth, sex, portrait, fingerprint and / or other biometric data, are stored. for the purpose of identifying data entry errors and / or fraud attempts at this data stored in this database.
  • the subject of the invention is a method for automatically verifying certain data of a database relating to a set of persons, and comprising for each person several data such as age, first name, gender , this method integrating:
  • the invention also relates to a method as defined above, in which the data stored for each person comprises on the one hand the gender as well as the date of birth, and on the other hand a portrait and a fingerprint, and in which method implements for each person correlations of gender and age with the portrait and with the fingerprint.
  • the invention also relates to a method as defined above, in which the data stored for
  • each person includes the first name, and in which this method implements for each person a correlation corresponding to a statistic derived from national data and representative of the frequency of the first name of this person for the year in which it was born.
  • the invention also relates to a method as defined above, implementing a correlation value corresponding to a statistical data from national data representative of the frequency of the name of the person in question for the year she was born and for the kind of this person.
  • FIG. 1 is a graph with a scatter plot representing a population of men represented by triangles and women represented by circles which gives for each individual age by year on the abscissa and the width of the ribs of his fingerprint in millimeters on the ordinates;
  • FIG. 2 is the graph of Figure 1 in which there is shown a middle region and a lower region which respectively constitute a zone of confidence and a zone of suspicion for the masculine gender;
  • FIG. 3 is the graph of FIG. 1 in which there is shown an upper region and a middle region which respectively constitute a suspicion zone and a confidence zone for the feminine gender;
  • FIG. 4 is the graph of FIG. 1 in which there is shown a middle region constituting a zone of confidence for age as well as an upper zone and a lower zone which constitute zones of suspicion for age;
  • FIG. 5 is a representative graph of the frequency per year of the first name Jacob for boys born in the United States in which the years of birth are represented on the abscissa in which the frequency by thousand of individuals appear on the ordinate.
  • the idea underlying the invention is to determine for each person several correlations each linking some of the data of this person, and to combine these correlations to identify individually and directly each data appearing inconsistent, instead of limiting themselves to identify only those individuals whose data would appear to be inconsistent.
  • the score of each data to be verified is then compared with a threshold value to determine whether the verified data should be considered valid, or as doubtful, to establish a warning message in case of doubtful data.
  • the invention is implemented to check the sex, age and first name of a set of persons or individuals stored in a database with additional data including in particular a fingerprint and a fingerprint. portrait for each of these people.
  • the width of fingerprint ribs in a population is generally larger in men than in women, and it increases with the age of individuals in this population.
  • the confidence zone for the male gender corresponds to a band encompassing the majority of men (represented by triangles), and the area of suspicion for the male gender is a region below the zone of confidence of the male. male, and with almost no male.
  • the zone of confidence for the masculine gender which is indicated in Figure 2 by a male acronym surrounded, can be defined by first defining an average value curve for the masculine gender, corresponding to the high curve of Figure 1, and defining on either side of this average curve two envelopes curves to encompass for example 95% of the male population.
  • the area of suspicion for the male gender which is identified in Figure 2 by the male symbol crossed out, can be defined by defining a high curve below the average curve of the masculine gender, but above only 2% male individuals.
  • the zone of suspicion for the masculine gender is then constituted by the whole region situated under the curve thus defined.
  • a possibility consists in determining if the point defines by the age of this person and by the thickness of the veins of its fingerprint is located in the zone of confidence for the masculine gender, or on the contrary in the zone of suspicion.
  • a value of 1 can then be assigned to Cge if this point falls within the confidence zone for the masculine gender, and a value of 0 can be attributed to this correlation if the point falls within the suspicion zone.
  • An intermediate value for example 0.5, is assigned if the point is outside the confidence zone and outside the suspicion zone.
  • Another solution may be to calculate the distance between the age-defined point and the impression rib thickness, the average curve for the male gender (high curve in Figure 1), and to attribute to Cge a value between 0 and 1 all the higher as this distance is small.
  • a zone of trust and a zone of suspicion for the female gender can be similarly defined.
  • the zone of confidence for the feminine gender which is identified by the female acronym circled, is a band situated in the median position in the graph, and which surrounds the average curve. for women, namely the low curve in Figure 1, encompassing a high proportion, such as 95% of female individuals.
  • the zone of suspicion for the female gender which is marked by the female symbol with a crossed out symbol, is an upper region situated above the zone of confidence, so as to include a very small proportion of female individuals, such as for example 2%. .
  • Another possibility may be to determine, for a given individual registered as a woman, the distance between the point corresponding to the age and width of the ribs of her fingerprints, and the average curve for women that is the low curve of Figure 1. The value of Cge, between 0 and 1, is then even higher than the distance in question is low.
  • the area of confidence for age which is indicated by the letter A circled in Figure 4, is a median band that encompasses the majority of individuals (men and women) in the population considered.
  • This median band can be defined by first calculating the average curve for all individuals, which corresponds to the average between the high and low curves of Figure 1, then determining two envelope curves above and below this average curve to encompass for example 95% of individuals.
  • the two age suspicion zones correspond to two regions above and below the median age confidence zone, respectively. areas of suspicion covering a very small proportion of individuals in the population, corresponding for example to 2% of the population.
  • the determination of the value of the Cae correlation of age with the fingerprint for a given individual can again be ensured by determining whether the point corresponding to the individual in question falls within the zone of confidence or in a zone of suspicion for age, in order to assign the value 1 or 0 to Cae.
  • Another solution is also to determine the distance separating the point representing the individual considered from the average curve of all the individuals, to give a correlation value Cae, between 0 and 1, which is even higher than this distance. is weak.
  • the graph of FIGS. 1 to 4 whose data result for example from statistics made on a given population sample, makes it possible to determine, for each person registered in the database, a correlation Cge of his kind with his fingerprint, and a Cae correlation of his age with his fingerprint.
  • a correlation of age with the portrait can be established by first providing a system, a series of portraits with each of them the actual age. When the system is then given an unknown portrait, it is compared to the series of portraits available to it, which is its reference space for determining the most similar portraits, possibly calculating a degree of resemblance. The age is then determined by calculating an average, weighted by the degrees of similarity, of the ages of the likeness portraits.
  • a correlation, noted Cgp, of the kind with the portrait is established analogously.
  • external statistics can be used to establish one or more correlations for each person stored in the database.
  • Cpa linking the first name and the age of a given individual.
  • the correlation value in question can be determined by considering that it is weak, and is worth, for example, 0, if the proportion of birth for the given first name and the year of birth in question is less than a threshold value, this threshold value being for example 1 or 2 per 1000 birth.
  • the Cpa correlation of the first name with age is low for a person named Jacob who was born in 1956 in the United States, which suggests that there would be an error of seizure for example on his year of birth to the extent that the same first name, namely Jacob, for the boys born in 1976 in the United States represents more than 1 or 2 per thousandths of the births of boys.
  • Another way to determine the correlation value Cpa may be to compute a numerical value that is all the smaller as the given name was infrequent for the year in question.
  • these first name statistics also make it possible to determine a correlation value between the first name and the gender, noted Cpg, because these statistics are generally available for boys and girls. by years of birth.
  • Cap age-portrait
  • Cae age-imprint
  • Cgp gender-portrait
  • Cge impression-type
  • Cpa first name
  • Cpg first name-gender, which are all between 0 and 1.
  • Correlations can be combined directly to define each score, from which a score of confidence and a suspicion threshold are then defined for each score. The data is then considered valid if its score is higher than the confidence threshold, and doubtful if its score is below the threshold of suspicion, which then leads to establish an alert. It can be decided that the data having a score between these two thresholds are either doubtful or valid.
  • the score associated with a given data can be everything simply the sum of the correlations involving this data, possibly divided by the number of correlations added to bring the result back to a value necessarily between 0 and 1.
  • the suspicion threshold and the confidence threshold can be determined empirically.
  • Another possibility may be to calculate the scores of each data after converting each correlation value into a so-called suspicion value that can be either 0 or 1, or 2, depending on whether the correlation in question has a score respectively greater than a threshold of confidence, between the confidence threshold and a threshold of suspicion, or well below the threshold of suspicion.
  • the data age score is then 1
  • the invention is implemented at the level of a computer system comprising processor, memory and other means for operating a computer program in order to process the contents of a database.
  • the program then analyzes the contents of a database that is submitted to it to return, after processing this database, a list of data that appears dubious. Once the correlation statistics are established on a representative enchantment, the invention also makes it possible to evaluate on the fly the confidence in the manual entry of identity data.
  • the database includes the date of acquisition of the portrait and / or em ⁇ digital preinte of each person, and age is taken into account is the person's age at the date of acqui ⁇ sition of his portrait and / or his fingerprint.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Algebra (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Collating Specific Patterns (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

L'invention concerne un procédé pour vérifier de manière automatisée certaines données d'une base de données relative à un ensemble de personnes, et comportant pour chaque personne plusieurs données telles que l'âge, le prénom, et le genre, le portrait, les images des empreintes digitales ou autres données biométriques ce procédé intégrant : - la détermination pour chaque personne de plusieurs corrélations liant les unes aux autres certaines des données de cette personne; - le calcul, pour chaque donnée vérifiée, d'un score de confiance dépendant d'au moins une première corrélation de la donnée vérifiée avec une première autre donnée de la même personne et une seconde corrélation de la donnée vérifiée avec une seconde autre donnée de la même personne; - une étape de comparaison du score avec une valeur seuil pour déterminer si la donnée vérifiée est valable ou non.

Description

PROCÉDÉ DE VÉRIFICATION DES DONNÉES D'UNE BASE DE DONNÉES RELATIVE À DES PERSONNES
L' invention concerne la vérification du contenu d'une base dans laquelle sont mémorisées des données relatives à des personnes, telles que leur nom, leur âge leur date de naissance, leur sexe, leur portrait, leurs empreintes digitales ou/et autres données biométriques dans le but d'identifier des erreurs de saisie et/ou des tentatives de fraude au niveau de ces données mémorisées dans cette base.
RESUME DE L'INVENTION
A cet effet, l'invention a pour objet un procédé pour vérifier de manière automatisée certaines données d'une base de données relative à un ensemble de personnes, et comportant pour chaque personne plusieurs données telles que l'âge, le prénom, le genre, ce procédé intégrant :
la détermination pour chaque personne de plusieurs corrélations liant les unes aux autres certaines des données de cette personne ;
- le calcul, pour chaque donnée vérifiée, d'un score de confiance dépendant d'au moins une première corrélation de la donnée vérifiée avec une première autre donnée de la même personne et une seconde corrélation de la donnée vérifiée avec une seconde autre donnée de la même personne ;
- une étape de comparaison du score avec une valeur seuil pour déterminer si la donnée vérifiée est valable ou non.
L'invention concerne également un procédé tel que défini ci-dessus, dans lequel les données mémorisées pour chaque personnes comportent d'une part le genre ainsi que la date de naissance, et d'autre part un portrait et une empreinte digitale, et dans lequel le procédé met en oeuvre pour chaque personne des corrélations du genre et de l'âge avec le portrait et avec l'empreinte digitale.
L'invention concerne également un procédé tel que défini ci-dessus, dans lequel les données mémorisées pour
FEUILLE DE REMPLACEMENT (RÈGLE 26) chaque personne comportent le prénom, et dans lequel ce procédé met en oeuvre pour chaque personne une corrélation correspondant à une statistique issue de données nationales et représentative de la fréquence du prénom de cette personne pour l'année où elle est née.
L'invention concerne également un procédé tel que défini ci-dessus, mettant en oeuvre une valeur de corrélation correspondant à une statistique issue de données nationales représentative de la fréquence du prénom de la personne considérée pour l'année où elle est née et pour le genre de cette personne.
BREVE DESCRIPTION DES FIGURES
- La figure 1 est un graphe comportant un nuage de points représentant une population d'hommes représentés par des triangles et de femmes représentées par des cercles qui donne pour chaque individu son âge par années sur les abscisses et la largeur des nervures de son empreinte digitale en millimètres sur les ordonnées ;
- La figure 2 est le graphe de la figure 1 dans lequel on a représenté une région médiane et une région inférieure qui constituent respectivement une zone de confiance et une zone de suspicion pour le genre masculin ;
- La figure 3 est le graphe de la figure 1 dans lequel on a représenté une région supérieure et une région médiane qui constituent respectivement une zone de suspicion et une zone de confiance pour le genre féminin ;
- La figure 4 est le graphe de la figure 1 dans lequel on a représenté une région médiane constituant une zone de confiance pour l'âge ainsi qu'une zone supérieure et une zone inférieure qui constituent des zones de suspicion pour l'âge ;
- La figure 5 est un graphe représentatif de la fréquence par année du prénom Jacob pour les garçons nés aux Etats-Unis dans lequel les années de naissance sont représentées en abscisses dans lequel la fréquence par millier d'individus apparaît en ordonnées.
DESCRIPTION DETAILLEE DE L'INVENTION
L'idée à la base de l'invention est de déterminer pour chaque personne plusieurs corrélations liant chacune certaines des données de cette personne, et de combiner ces corrélations pour identifier individuellement et de manière directe chaque donnée paraissant inconsistante, au lieu de se borner à identifier seulement chaque personne dont les données sembleraient incohérentes.
Ceci est assuré en évaluant pour chaque donnée vérifiée (prénom, date de naissance ou genre) , sa cohérence avec au moins deux autres données distinctes relatives à la même personne. Le score de confiance d'une donnée est ainsi déterminé avec un calcul combinant la valeur de corrélation de cette donnée avec une première autre donnée, et la valeur de corrélation de cette donnée avec une seconde autre donnée.
Le score de chaque donnée à vérifier est ensuite comparé à une valeur seuil pour déterminer si la donnée vérifiée doit être considérée comme valide, ou comme douteuse, pour établir un message d'alerte en cas de donnée douteuse .
Dans l'exemple ci-après, l'invention est implémentée pour vérifier le sexe, l'âge et le prénom d'un ensemble de personnes ou individus mémorisés dans une base de données avec des données supplémentaires incluant en particulier une empreinte digitale et un portrait pour chacune de ces personnes.
Concrètement, il existe une corrélation entre la largeur des nervures de l'empreinte digitale d'un individu et son sexe, et une autre corrélation entre la largeur de ces nervures et l'âge de l'individu en question. Ceci est détaillé dans l'article intitulé "Epidermal Ridge Breadth, an indicator of âge and sex in paleodermatoglyphics" de Mi- roslav Kralik et Vladimir Novotny, qui est accessible à 1 ' adresse
http : //www .staff . amu . edu . pl/~anthro/pdf/ve/volO 1 l/01kralik. pdf .
De manière analogue, une corrélation lie le portrait d'un individu à son sexe, et une autre corrélation lie le portrait de cet individu à son âge. Ceci est détaillé notamment dans l'article intitulé "Estimating Age, Gender and Identity using First Name Priors", de Andrew Gallagher et Tsuhan Chen, accessible depuis l'adresse sui- vante :
http : //chenlab . ece . corne11. edu/people/Andy/proj ectpage_name s . html .
Comme illustré dans la figure 1, la largeur des nervures des empreintes digitales d'une population est d'une manière générale plus importante chez les hommes que chez les femmes, et elle augmente par ailleurs avec l'âge des individus de cette population.
On peut donc définir dans ce graphe une région médiane qui correspond à une zone de confiance pour le genre masculin, et une région inférieure qui correspond à une zone de suspicion pour le genre masculin.
Comme illustré à la figure 2, la zone de confiance pour le genre masculin correspond à une bande englobant la majorité des hommes (représentés par des triangles), et la zone de suspicion pour le genre masculin est une région située sous la zone de confiance du genre masculin, et ne comportant quasiment aucun individu masculin.
La zone de confiance pour le genre masculin, qui est repérée dans la figure 2 par un sigle masculin entouré, peut être délimitée en définissant d'abord une courbe moyenne de valeurs pour le genre masculin, correspondant à la courbe haute de la figure 1, et en définissant de part et d'autre de cette courbe moyenne deux courbes enveloppes permettant d'englober par exemple 95 % de la population masculine. De manière analogue, la zone de suspicion pour le genre masculin, qui est repérée dans la figure 2 par le sigle masculin barré, peut être délimitée en définissant une courbe haute située sous la courbe moyenne du genre masculin, mais au dessus de seulement 2% des individus masculins. La zone de suspicion pour le genre masculin est alors constituée par toute la région située sous la courbe ainsi définie.
On peut ainsi déterminer une corrélation, notée Cge , entre le genre d'une personne enregistrée dans la base de données comme étant un homme et son empreinte digitale : une possibilité consiste à déterminer si le point définit par l'âge de cette personne et par l'épaisseur des nervures de son empreinte digitale est situé dans la zone de confiance pour le genre masculin, ou bien au contraire dans la zone de suspicion.
Une valeur de 1 peut alors être attribuée à à Cge si ce point tombe dans la zone de confiance pour le genre masculin, et une valeur de 0 peut être attribuée à cette corrélation si le point tombe dans la zone de suspicion. Une valeur intermédiaire, valant par exemple 0,5, est attribuée si le point est situé hors de la zone de confiance et hors de la zone de suspicion.
Une autre solution peut consister à calculer la distance qui sépare le point défini par l'âge et l'épaisseur de nervure d'empreinte, de la courbe moyenne pour le genre masculin (courbe haute de la figure 1), et à attribuer à Cge une valeur comprise entre 0 et 1 d'autant plus élevée que cette distance est faible.
On peut définir de manière analogue une zone de confiance et une zone de suspicion pour le genre féminin.
Comme illustré schématiquement en figure 3, la zone de confiance pour le genre féminin, qui est repérée par le sigle féminin entouré, est une bande située en position médiane dans le graphe, et qui entoure la courbe moyenne pour les femmes, à savoir la courbe basse de la figure 1, en englobant une proportion élevée, telle que 95 % des individus féminins .
La zone de suspicion pour le genre féminin, qui est repérée par le sigle féminin barré, est une région supérieure située au dessus de la zone de confiance, de manière à englober une très faible proportion d'individus féminins, telle que par exemple 2 %.
Tout comme pour le cas du genre masculin, on peut attribuer 1 comme valeur à Cge pour tous les individus déclarés féminins qui tombent dans la zone de confiance pour le genre féminin, et la valeur 0 pour les individus enregistrés comme étant des femmes mais qui tombent dans la zone de suspicion pour le genre féminin. Une valeur intermédiaire, de 0,5 par exemple, est attribuée à Cge si le point tombe hors de la zone de confiance et de la zone de suspicion.
Là aussi, une autre possibilité peut consister à déterminer, pour un individu donné enregistré comme une femme, la distance entre le point correspondant à l'âge et à la largeur des nervures de ses empreintes digitales, et la courbe moyenne pour les femmes qui est la courbe basse de la figure 1. La valeur de Cge, comprise entre 0 et 1, est alors d'autant plus élevée que la distance en question est faible.
Comme indiqué plus haut, il existe également une corrélation, notée Cae , entre l'épaisseur de nervures d'empreintes digitales et l'âge des individus considérés. Cette corrélation permet de délimiter dans le graphe de la figure 1 une zone de confiance et deux zones de suspicion en ce qui concerne l'âge.
La zone de confiance pour l'âge, qui est repérée par la lettre A entourée dans la figure 4, est une bande médiane qui englobe la majorité des individus (hommes et femmes) de la population considérée. Cette bande médiane peut être définie en calculant dans un premier temps la courbe moyenne pour tous les individus, ce qui correspond à la moyenne entre les courbes haute et basse de la figure 1, puis en déterminant deux courbes enveloppe situées au dessus et au dessous de cette courbe moyenne pour englober par exemple 95 % des individus.
Les deux zones de suspicion en ce qui concerne l'âge, qui sont repérées par la lettre A barrée dans la figure 4, correspondent à deux régions situées respectivement au dessus et au dessous de la zone médiane de confiance pour l'âge, ces deux zones de suspicion couvrant une proportion très faible des individus de la population, correspondant par exemple à 2 % de la population .
La détermination de la valeur de la corrélation Cae de l'âge avec l'empreinte digitale pour un individu donné peut là aussi être assurée en déterminant si le point correspondant à 1 ' individu en question tombe dans la zone de confiance ou dans une zone de suspicion pour l'âge, afin d'attribuer la valeur 1 ou bien 0 à Cae . Une autre solution consiste aussi à déterminer la distance séparant le point représentant l'individu considéré de la courbe moyenne de tous les individus, pour donner une valeur de corrélation Cae , comprise entre 0 et 1, qui est d'autant plus élevée que cette distance est faible.
Comme on l'a compris, le graphe des figures 1 à 4, dont les données résultent par exemple de statistiques réalisées sur un échantillon de population donné, permet de déterminer, pour chaque personne enregistrée dans la base de données, une corrélation Cge de son genre avec son empreinte digitale, et une corrélation Cae de son âge avec son empreinte digitale.
Le portrait de chaque personne enregistrée dans la base permet d'établir deux autres corrélations concernant son âge et son genre. Une corrélation de l'âge avec le portrait, notée Cap, peut être établie en fournissant dans un premier temps à un système, une série de portraits avec pour chacun d'eux l'âge réel. Lorsqu'on fournit ensuite au système un portrait inconnu, il le compare à la série de portraits dont il dispose et qui constitue son espace de référence pour déterminer les portraits les plus ressemblants, en calculant éventuellement un degré de ressemblance. L'âge est ensuite déterminé en calculant une moyenne, pondérée par les degrés de ressemblance, des âges des portraits ressemblants. Une corrélation, notée Cgp, du genre avec le portait est établie de manière analogue.
Complémentairement , des statistiques externes peuvent être utilisées pour établir une ou des corrélations supplémentaires pour chaque personne mémorisée dans la base de données.
En particulier, il existe généralement des statistiques nationales qui permettent de connaître la proportion de naissances que représente un prénom donné, année par année, pour un genre donné.
De telles statistiques permettent de constituer un graphe tel que celui de la figure 5 qui donne la proportion de naissances que représente le prénom Jacob pour les garçons nés aux Etats-Unis depuis 1830, année par année.
Ce graphe permet d'établir une corrélation, notée
Cpa, liant le prénom et l'âge d'un individu donné. La valeur de corrélation en question peut être déterminée en considérant qu'elle est faible, et vaut par exemple 0, si la proportion de naissance pour le prénom considéré et à l'année de naissance considérée est inférieure à une valeur seuil, cette valeur seuil étant par exemple de 1 ou bien 2 pour 1000 naissance.
Dans ce cas, la corrélation Cpa du prénom avec l'âge est faible pour une personne prénommée Jacob qui serait née en 1956 aux Etats-Unis, ce qui laisse entendre qu'il existerait une erreur de saisie par exemple sur son année de naissance dans la mesure où le même prénom, à savoir Jacob, pour les garçons nés en 1976 aux Etats-Unis représente plus de 1 ou 2 pour millièmes des naissances de garçons .
Une autre manière de déterminer la valeur de corrélation Cpa peut consister à déterminer par calcul une valeur numérique d'autant plus faible que le prénom considéré était peu fréquent pour l'année considérée.
D'une manière analogue, et comme on le comprend, ces statistiques sur les prénoms permettent également de déterminer une valeur de corrélation entre le prénom et le genre, notée Cpg, du fait que ces statistiques sont généralement disponibles pour les garçons et pour les filles par années de naissances.
Finalement, pour chaque personne apparaissant dans la base de dinnées, on établit les six corrélations suivantes : Cap = âge-portrait ; Cae = âge-empreinte ; Cgp = genre-portrait ; Cge = genre-empreinte ; Cpa = prénom-âge ; Cpg = prénom-genre, qui sont toutes comprises entre 0 et 1.
Ces corrélations sont ensuite combinées pour déterminer pour chaque personne un score se rapportant à son genre, un score se rapportant à son âge, et un score se rapportant à son prénom.
Les corrélations peuvent être combinées de manière directe pour définir chaque score, à partir de quoi l'on définit alors pour chaque score un seuil de confiance et un seuil de suspicion. La donnée est alors considérée valable si son score est supérieur au seuil de confiance, et douteuse si son score est inférieur au seuil de suspicion, ce qui conduit alors à établir une alerte. On peut décider que les données ayant un score compris entre ces deux seuils sont soit douteuses, soit valables.
Le score associé à une donnée peut être tout simplement la somme des corrélations faisant intervenir cette donnée, éventuellement divisée par le nombre de corrélations additionnées pour ramener le résultat à une valeur nécessairement comprise entre 0 et 1. Le seuil de suspicion et le seuil de confiance peuvent être déterminés de manière empirique.
Une autre possibilité peut consister à calculer les scores de chaque données après avoir converti chaque valeur de corrélation en une valeur dite de suspicion pouvant valoir soit 0 soit 1, soit 2, selon que la corrélation en question a un score respectivement supérieur à un seuil de confiance, compris entre le seuil de confiance et un seuil de suspicion, ou bien inférieur au seuil de suspicion.
Cette solution permet de définir les seuils non pas par rapport aux scores qui résultent eux-mêmes de la combinaison de plusieurs corrélations, mais directement par rapport aux corrélations dont le niveau de performance et/ou de fiabilité est généralement connu, ce qui facilite nécessairement la détermination de ces seuils.
Dans ce cas, le score de la donnée âge vaut alors 1
(Sap + Saf + Sna)/3, le score de la donnée genre vaut alors 1 - (SSgp + SSgf + SSng) /3, et le score de la donnée prénom vaut 1 - (SSng + SSna)/2.
On peut décider d'établir une alerte pour chaque donnée ayant un score négatif, et considérer qu'une donnée est valable si son score vaut 1. Et l'on peut considérer que les données ayant un score compris entre 0 et 1 sont soit douteuses, soit valables, ou encore qu'elles donnent lieu à une alerte de faible importance.
Comme on l'aura compris, l'invention est implémen- tée au niveau d'un système informatique comprenant des moyens de type processeur, mémoire et autre, pour exploiter un programme informatique afin de traiter le contenu d'une base de données. Le programme analyse alors le contenu d'une base de données qui lui est soumise pour retourner, après avoir traité cette base de données, une liste des données qui paraissent douteuses. Une fois les statistiques de corrélation établies sur un enchantillon représentatif, l'invention permet aussi d'évaluer à la volée la confiance dans la saisie manuelle de données d'identitée.
Par ailleurs, en ce qui concerne la question de l'âge des individus d'une base de données, il est générale¬ ment déterminé à partir de la date de naissance mémorisée pour chaque individu. Avantageusement, la base de données comporte la date d'acquisition du portrait et/ou de l'em¬ preinte digitale de chaque personne, et l'âge qui est pris en compte est alors l'âge de la personne à la date d'acqui¬ sition de son portrait et/ou de son empreinte digitale.

Claims

REVENDICATIONS
1. Procédé pour vérifier de manière automatisée certaines données d'une base de données relative à un en- semble de personnes, et comportant pour chaque personne plusieurs données telles que l'âge, le prénom, le genre, leur portrait, leurs empreintes digitales ou autres données biométriques ce procédé intégrant :
la détermination pour chaque personne de plu- sieurs corrélations liant les unes aux autres certaines des données de cette personne ;
le calcul, pour chaque donnée vérifiée, d'un score de confiance dépendant d'au moins une première corré¬ lation de la donnée vérifiée avec une première autre donnée de la même personne et une seconde corrélation de la donnée vérifiée avec une seconde autre donnée de la même per¬ sonne ;
- une étape de comparaison du score avec une valeur seuil pour déterminer si la donnée vérifiée est valable ou non.
2. Procédé selon la revendication 1, dans lequel les données mémorisées pour chaque personnes comportent d'une part le genre ainsi que la date de naissance, et d'autre part un portrait et une empreinte digitale, et dans lequel le procédé met en oeuvre pour chaque personne des corrélations du genre et de l'âge avec le portrait et avec l'empreinte digitale.
3. Procédé selon la revendication 2, dans lequel les données mémorisées pour chaque personne comportent le prénom, et dans lequel ce procédé met en oeuvre pour chaque personne une corrélation correspondant à une statistique issue de données nationales et représentative de la fré¬ quence du prénom de cette personne pour l'année où elle est née .
4. Procédé selon la revendication 3, mettant en oeuvre une valeur de corrélation correspondant à une sta- tistique issue de données nationales représentative de la fréquence du prénom de la personne considérée pour l'année où elle est née et pour le genre de cette personne.
EP13719807.3A 2012-05-09 2013-04-25 Procede de verification des donnees d'une base de donnees relative a des personnes Ceased EP2847690A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1254220A FR2990537B1 (fr) 2012-05-09 2012-05-09 Procede de verification des donnees d'une base de donnees relative a des personnes
PCT/EP2013/058588 WO2013167388A1 (fr) 2012-05-09 2013-04-25 Procede de verification des donnees d'une base de donnees relative a des personnes

Publications (1)

Publication Number Publication Date
EP2847690A1 true EP2847690A1 (fr) 2015-03-18

Family

ID=46963791

Family Applications (1)

Application Number Title Priority Date Filing Date
EP13719807.3A Ceased EP2847690A1 (fr) 2012-05-09 2013-04-25 Procede de verification des donnees d'une base de donnees relative a des personnes

Country Status (15)

Country Link
US (2) US20150100603A1 (fr)
EP (1) EP2847690A1 (fr)
JP (1) JP6113270B2 (fr)
KR (1) KR101709765B1 (fr)
CN (1) CN104520846B (fr)
AU (2) AU2013258296A1 (fr)
BR (1) BR112014027747A2 (fr)
CA (1) CA2872095A1 (fr)
FR (1) FR2990537B1 (fr)
HK (1) HK1206120A1 (fr)
IL (1) IL235513B (fr)
MX (1) MX357138B (fr)
RU (1) RU2604988C2 (fr)
WO (1) WO2013167388A1 (fr)
ZA (1) ZA201408751B (fr)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467204B2 (en) 2016-02-18 2019-11-05 International Business Machines Corporation Data sampling in a storage system
US10437840B1 (en) * 2016-08-19 2019-10-08 Palantir Technologies Inc. Focused probabilistic entity resolution from multiple data sources

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684892A (en) * 1995-08-22 1997-11-04 Taguchi; Genichi Method for pattern recognition
JPH09297686A (ja) * 1996-05-07 1997-11-18 Mitsubishi Electric Corp データマイニング装置
RU2107461C1 (ru) * 1996-09-17 1998-03-27 Бюро судебно-медицинской экспертизы Министерства здравоохранения Ленинградской области Способ идентификации личности по скелетированным костным останкам
US6523019B1 (en) * 1999-09-21 2003-02-18 Choicemaker Technologies, Inc. Probabilistic record linkage model derived from training data
US6993378B2 (en) * 2001-06-25 2006-01-31 Science Applications International Corporation Identification by analysis of physiometric variation
JP3823162B2 (ja) 2001-07-31 2006-09-20 株式会社エイアンドティー 臨床検査分析装置、臨床検査分析方法および臨床検査分析プログラム
US20040153421A1 (en) * 2001-09-21 2004-08-05 Timothy Robinson System and method for biometric authorization of age-restricted transactions conducted at an unattended device
AU2003265238A1 (en) * 2002-05-21 2004-01-06 Bio-Key International, Inc. Systems and methods for secure biometric authentication
US7287019B2 (en) * 2003-06-04 2007-10-23 Microsoft Corporation Duplicate data elimination system
US7263213B2 (en) * 2003-12-11 2007-08-28 Lumidigm, Inc. Methods and systems for estimation of personal characteristics from biometric measurements
US7836004B2 (en) * 2006-12-11 2010-11-16 International Business Machines Corporation Using data mining algorithms including association rules and tree classifications to discover data rules
CN101546312B (zh) * 2008-03-25 2012-11-21 国际商业机器公司 用于检测异常的数据记录的方法和设备
JP5164646B2 (ja) * 2008-04-08 2013-03-21 国立大学法人高知大学 臨床検査データ解析支援装置、臨床検査データ解析支援方法及びそのプログラム
US8995946B2 (en) * 2010-03-30 2015-03-31 Salamander Technologies System and method for accountability by interlinking electronic identities for access control and tracking of personnel during an incident or at an emergency scene
CN102025531B (zh) * 2010-08-16 2014-03-05 北京亿阳信通科技有限公司 一种性能数据的填补方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2013167388A1 *

Also Published As

Publication number Publication date
CN104520846B (zh) 2019-03-19
MX357138B (es) 2018-06-27
FR2990537B1 (fr) 2014-05-30
KR20150008462A (ko) 2015-01-22
IL235513A0 (en) 2015-01-29
KR101709765B1 (ko) 2017-02-23
CA2872095A1 (fr) 2013-11-14
RU2604988C2 (ru) 2016-12-20
HK1206120A1 (en) 2015-12-31
BR112014027747A2 (pt) 2017-06-27
WO2013167388A1 (fr) 2013-11-14
JP2015521314A (ja) 2015-07-27
US20190026495A1 (en) 2019-01-24
RU2014149344A (ru) 2016-07-10
AU2013258296A1 (en) 2014-11-27
US20150100603A1 (en) 2015-04-09
AU2018204929A1 (en) 2018-07-26
IL235513B (en) 2018-03-29
FR2990537A1 (fr) 2013-11-15
JP6113270B2 (ja) 2017-04-12
ZA201408751B (en) 2016-09-28
MX2014013479A (es) 2015-05-07
CN104520846A (zh) 2015-04-15

Similar Documents

Publication Publication Date Title
JP4273359B2 (ja) 年齢推定システム及び年齢推定方法
CN108960833B (zh) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
Barakat et al. Intelligible support vector machines for diagnosis of diabetes mellitus
Espinoza et al. Vulnerabilities of fingerprint reader to fake fingerprints attacks
EP2518684B1 (fr) Dispositif de determination de faux doigt
Duggal et al. Prediction of thyroid disorders using advanced machine learning techniques
US9514167B2 (en) Behavior based record linkage
US8411964B2 (en) Method and apparatus for analyzing nudity of image using body part detection model, and method and apparatus for managing image database based on nudity and body parts
TW200828053A (en) A method for grid-based data clustering
WO2019042196A1 (fr) Procédé et dispositif de détermination de trajet de cible humaine
CN106960387A (zh) 个人信用风险评估方法及系统
Sobrino et al. Prevalence of masked hypertension and associated factors in normotensive healthcare workers
CN107025387B (zh) 一种用于癌症生物标志物识别的方法
CN116072302A (zh) 基于有偏随机森林模型的医疗不平衡数据分类方法
WO2013167388A1 (fr) Procede de verification des donnees d'une base de donnees relative a des personnes
Richetelli et al. Empirically observed and predicted estimates of chance association: Estimating the chance association of randomly acquired characteristics in footwear comparisons
Islam et al. Prediction of Diabetes at Early Stage using Interpretable Machine Learning
US8607064B2 (en) Biometric authentication device and biometric authentication method
Zhang et al. Order-restricted inference for clustered ROC data with application to fingerprint matching accuracy
CN114004877B (zh) 视觉场景中物体稀疏性的判断方法、系统和设备
Li et al. An efficient clustering method for medical data applications
Liu et al. Reproducibility of artificial cut on heel area of rubber outsole
Yoshida et al. English version of the interim report published in 1998 by the members of the Advisory Committee on Atopic Dermatitis Severity Classification Criteria of the Japanese Dermatological Association
Last et al. Applying fuzzy hypothesis testing to medical data
Malihi et al. Improvement in Classification Accuracy Rate Using Multiple Classifier Fusion Towards Computer Vision Detection of Malaria Parasite (Plasmodium vivax)

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20141106

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20180702

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: IDEMIA IDENTITY & SECURITY FRANCE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20190927