FR3105529A1 - Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées - Google Patents
Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées Download PDFInfo
- Publication number
- FR3105529A1 FR3105529A1 FR1914750A FR1914750A FR3105529A1 FR 3105529 A1 FR3105529 A1 FR 3105529A1 FR 1914750 A FR1914750 A FR 1914750A FR 1914750 A FR1914750 A FR 1914750A FR 3105529 A1 FR3105529 A1 FR 3105529A1
- Authority
- FR
- France
- Prior art keywords
- document
- image
- type
- segmentation
- reference image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000011218 segmentation Effects 0.000 claims abstract description 41
- 230000009466 transformation Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- 238000013434 data augmentation Methods 0.000 claims description 5
- 230000015556 catabolic process Effects 0.000 claims description 4
- 238000006731 degradation reaction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000003416 augmentation Effects 0.000 claims description 2
- 238000004737 colorimetric analysis Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 13
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
- G06V10/7515—Shifting the patterns to accommodate for positional errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Document Processing Apparatus (AREA)
Abstract
« Titre : Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées » La présente invention concerne un procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées, le procédé comprenant des étapes de : (C2) Détermination d’un type de document par une méthode de classification, ledit type étant choisi parmi un ensemble de types possible chacun associé à une image de référence du type de document, l’image de référence étant une image comportant uniquement le document ; (C3) Estimation des paramètres d’une transformation géométrique à appliquer à l’image de référence du type de document déterminé à l’étape (C2) pour obtenir le document tel que représenté par l’image d’entrée ; (C4) Détermination d’un masque de segmentation à partir des paramètres de la transformation géométrique estimés à l’étape (C3) et de l’image de référence du type de document déterminé à l’étape (C2). Figure pour l’abrégé : Fig. 1
Description
DOMAINE TECHNIQUE GENERAL
La présente invention concerne le domaine de l’identification des documents comportant des informations structurées, par exemple sous la forme de cases à cocher. Plus particulièrement elle concerne une méthode d’identification (classification) et de segmentation d’un tel document, par exemple un bulletin de jeu, dans une image prise dans un environnement non contrôlé.
ETAT DE L’ART
Par document comportant des informations structurées on comprendra un élément, généralement sur support papier ayant une forme et des motifs prédéfinis, comportant des indications et un ensemble de zones à remplir, par exemple des cases à cocher. Un tel document peut-être par exemple un bulletin de jeu (de loterie par exemple), un formulaire, ou un questionnaire à choix multiples.
Le traitement des documents comportant des informations structurées a connu de nombreux développements grâce aux avancées faites dans le domaine de la vision par ordinateur.
Des procédés ont ainsi été proposé tel que celui décrit dans le brevet FR2983607, permettant le suivi d’un objet dans une séquence d’au moins deux images, reposant sur une extraction de points caractéristiques dans les images, par exemple par des descripteurs SIFT (scale-invariant feature transform), ainsi qu’une mise en correspondance des points caractéristiques entre les images. Ce procédé comprend une étape de sélection de points dits « singuliers » qui permet de réduire les ambiguïtés dans le cas de documents qui présentent des motifs répétitifs comme les cases des bulletins de jeu. Il permet d’assurer le suivi d’un document présent dans un flux vidéo, sans que le modèle de document ne soit connu au préalable, et exploite un ensemble de points d’intérêts présents dans les images. Ce procédé permet ainsi de déterminer une zone de présence et une segmentation de l’objet, issue de l’analyse du mouvement entre les images. Cependant, les performances de l’extraction des points d’intérêt de cette approche sont limitées par l’absence d’image de référence. En fonction des documents il peut y avoir des régions avec peu ou pas de points caractéristiques, qui seront alors mal détectées par le procédé. Enfin dans les cas d’empilement de documents, le dernier document ajouté peut provoquer un mouvement de documents situés en dessous, dont certaines parties peuvent alors être incorrectement détectées. Enfin ce procédé à comme inconvénient majeur qu’il ne permet pas d’identifier le modèle de document.
Un autre procédé, proposé dans le brevet FR3027136, permet l’identification d’au moins un signe d’un document déformé reposant sur la segmentation de régions de signes candidates, puis l’identification conjointe de ces régions de signes candidates et d’un modèle de déformation par rapport à des modèles de documents préalablement stockés. Cependant, ce procédé présente certains inconvénients, tout d’abord, il ne permet pas de classifier et segmenter une image, son but est simplement de décoder un document donné à partir d’un patron de document. De plus, le procédé décrit dans ce brevet requiert une délimitation manuelle des régions du documents comprenant des informations afin d’identifier celui-ci. Enfin, comme ce procédé ne comprend pas d’étape de segmentation, il peut être perturbé par la présence d’autre documents dans le champ de vision du système d’acquisition utilisé.
PRESENTATION DE L’INVENTION
Selon un premier aspect, la présente invention concerne un procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées, le procédé comprenant la mise en œuvre par des moyens de traitement (11) des étapes de:
(C2) Détermination d’un type de document par une méthode de classification, ledit type étant choisi parmi un ensemble de types possible chacun associé à une image de référence du type de document ;
(C3) Estimation des paramètres d’une transformation géométrique à appliquer à l’image de référence du type de document déterminé à l’étape (C2) pour obtenir le document tel que représenté par l’image d’entrée;
(C4) Détermination d’un masque de segmentation à partir des paramètres de la transformation géométrique estimés à l’étape (C3) et de l’image de référence du type de document déterminé à l’étape (C2).
Selon d’autres caractéristiques avantageuses et non limitatives:
le procédé comprend en outre une étape (C1) d’acquisition d’une image comprenant le document comportant des informations structurées à segmenter, réalisée avant l’étape (C2)
les documents peuvent être des tickets de jeux comportant des cases à cocher;
la méthode de classification peut être un réseau de neurones profond, et plus particulièrement un réseau de neurones profond de type convolutif;
la méthode de classification peut être une méthode de type point d’intérêt combinée avec un partitionnement des points d’intérêt;
l’étape (C1) d’acquisition d’une image comprenant au moins un document comportant des informations structurées à segmenter comprend en outre une étape de sous-échantillonnage de l’image comprenant le au moins un document comportant des informations structurées à segmenter;
les déformations géométriques sont des déformations représentées par des fonctions affines;
l’estimation des paramètres de la transformation géométrique de l’étape (C3) est réalisée par un réseau de neurones profond.
Selon un second aspect, l’invention concerne un procédé d’augmentation des données d’entrainement pour l’entrainement d’un procédé de segmentation selon le premier aspect, à partir d’une unique image de référence pour chaque type de documents à segmenter, le procédé comprenant, pour chaque type de documents, la mise en œuvre par des moyens de traitement (31) des étapes de:
(E2) Simulation de déformation géométrique aléatoires;
(E3) Simulation d’un fond à l’image par incrustation de l’image ayant subi les déformations dans une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant le fond de l’image;
(E4) Simulation de dégradations photométriques par modification du contraste et de la colorimétrie de l’image générée à l’étape précédente;
(E5) Ajout d’un bruit numérique à l’image générée à l’étape précédente,
les étapes précédentes étant répétées autant de fois que l’on souhaite avoir d’exemples d’entrainement pour le type de document.
Selon d’autres caractéristiques avantageuses et non limitatives:
le procédé comprend en outre une étape (E1) d’acquisition d’une image de référence du type de document réalisée avant l’étape (E2).
les déformations géométriques peuvent être des déformations représentées par des fonctions affines;
le procédé comprend en outre une étape (E3bis) de masquage, permettant masquer les zones de l’image de référence du type de document pouvant être différentes d’un document du même type à l’autre en appliquant une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant un motif variable;
L’invention propose en outre un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé de segmentation selon le premier aspect ou d’un procédé d’augmentation des données d’entrainement selon le second aspect, lorsque ledit programme est exécuté sur un ordinateur ; et un moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé de segmentation selon le premier aspect ou d’un procédé d’augmentation des données d’entrainement selon le second aspect, lorsque ledit programme est exécuté sur un ordinateur.
PRESENTATION DES FIGURES
D’autres caractéristiques et avantages de la présente invention apparaîtront à la lecture de la description qui va suivre d’un mode de réalisation préférentiel. Cette description sera donnée en référence aux dessins annexés dans lesquels :
[Fig. 4] la figure 4 illustre des exemples d’images générées par le procédé d’augmentation de données.
DESCRIPTION DETAILLEE
Architecture
Selon deux aspects complémentaires de l’invention, sont proposés:
Un procédé de segmentation d’un document comportant des informations structurées;
Un Procédé d’augmentation des données d’entrainement pour l’entrainement d’un procédé de segmentation selon le premier aspect à partir d’une unique image de référence pour chaque type de documents à segmenter.
Ces procédés sont mis en œuvre au sein d’une architecture telle que représentée par lafigure 1, grâce à un serveur de segmentation 1 (mettant en œuvre le procédé de segmentation), un serveur d’apprentissage 3 (mettant en œuvre le procédé d’apprentissage), une base de données 4 (servant à stocker les images de référence des différents types de documents) et un client 2 (disposant d’images de documents à segmenter), par exemple un terminal d’un utilisateur tel qu’un ordinateur portable ou un smartphone. Il est tout à fait possible que certains ou la totalité de ces équipements soient confondus, par exemple le serveur de segmentation 1 peut être regroupé avec le client 2, et le serveur d’apprentissage peut comprendre la base de données.
Les équipements 1, 2, et 3 sont typiquement des équipements informatiques distants reliées à un réseau étendu 10 tel que le réseau internet pour l’échange des données chacun comprend des moyens de traitement de données respectivement 11, 21, 31 de type processeur, et des moyens de stockage de données 12, 22, 32 tel qu’une mémoire informatique, par exemple un disque. Le client 2 comprend en outre des moyens d’acquisition d’images 23 afin d’obtenir des images des documents à segmenter.
La base de données 4, peut être soit un serveur indépendant des moyens de traitement de données et de stockage propres, soit un serveur de fichier (par exemple un serveur NAS), soit un système de gestion de base de données intégré au serveur d’apprentissage. Cette base de données stocke des images de référence pour chaque type de documents à segmenter.
Par image de référence, on entend une image de bonne qualité (sans défaut de prise de vue) comportant uniquement le document à l’échelle (donc non déformé), une telle image peut être par exemple un fichier source généré par un logiciel de dessin assisté par ordinateur.
Principe
L’idée des procédés proposés est de permettre l’utilisation et l’entrainement de méthodes de segmentation nécessitant de grandes quantités de données, tel que les réseaux de neurones, en se contentant d’un exemple par classe (ou type de document) lors de l’entrainement et en appliquant une chaine d’augmentation d’images suffisamment représentative des images de documents réels et permettant ainsi d’avoir un volume d’images suffisant pour l’apprentissage de la méthode de segmentation.
Pour cela, le procédé de segmentation est divisé en un sous-procédé de classification suivis d’une estimation des paramètres d’une transformation géométrique qui, lorsqu’elle est appliquée à l’image de de référence du type de document déterminé par la méthode de classification, fait correspondre la forme de l’image de référence à la forme du document dans l’image à segmenter. Elle permet ainsi de segmenter des documents dont la forme et les contours sont connu à l’avance sans avoir besoin d’entrainer une méthode de segmentation sur des exemples ou chaque pixel de l’image a été annoté manuellement. De plus, la séparation des étapes de segmentation et de classification simplifie l’ajout d’un nouveau type de document au modèle car il n’est alors pas nécessaire de réentraîner l’ensemble du modèle, seulement les portions qui ont changées.
L’utilisation de méthodes basées sur les réseaux de neurones permet en outre de réduire les temps de calculs nécessaires par rapport à l’état de la technique, en effet contrairement aux méthodes de point d’intérêt qui ne nécessitent pas forcément d’entrainement comme les réseaux de neurones, mais ont un temps de calcul dépendant de la complexité des données d’entrées, les réseaux de neurones permettent en revanche d’avoir un temps de calcul constant quel que soit l’image d’entrée lors de la classification. De plus, de manière surprenante, la décomposition de la classification et de la segmentation en deux tâches différentes permet aussi de réduire le temps de calcul par rapport à une méthode réalisant la classification et la segmentation dans un même temps. En effet, le procédé de segmentation étant spécifique à chaque type de document et donc moins complexes, et la classification étant une opération plus simple que la segmentation, la charge de calcul induite par l’utilisation de ces deux procédés est inférieure à celle d’un procédé réalisant les deux opérations dans le même temps.
Phase de classification et de segmentation
En référence à lafigure 2, le procédé de segmentation comprend une première étape, C1, d’acquisition d’une image à traiter comportant le document à classer et segmenter. Cette image peut être acquise soit par des moyens de prise de vue 23, intégrés au client 2, soit être acquises via un réseau d’échange de données 10 tel que l’internet, cette étape peut en outre comprendre un sous-échantillonnage de l’image acquise afin de simplifier son traitement.
L’image à traiter est ensuite transmise à un classifieur afin de déterminer le type du document lors d’une étape C2, cette classification peut alors être réalisée par un algorithme standard de classification, par exemple un réseau de neurones convolutif (CNN) tel que VGG16, DenseNet, ResNet etc. ou une méthode correspondance de points d’intérêt tel que SIFT ou SURF (Speeded Up Robust Features).
Une fois le type de document identifié, une méthode de régression est utilisée afin d’estimer les paramètres d’une transformation géométrique (par exemple une transformation affine) qui lorsqu’elle est appliquée à l’image de référence du type de document identifié, permet de retrouver la forme du document présent dans l’image à traiter. Cette régression peut être faite grâce à un réseau de neurones profond d’un type similaire à celui utilisé pour l’étape de classification (de préférence un CNN tel que VGG16, DenseNet, ResNet etc.) auquel est ajoutée une couche de connexion dense destinée à estimer les paramètres de la transformation géométrique, il est aussi possible de combiner le réseau de classification et le réseau régression en réutilisant les premières couches du réseau de classification pour la régression. La régression peut aussi être faite à partir des coins du documents à segmenter si celui-ci à une forme polygonale ou bien à partir de points de marquage ajoutés à tous les documents d’un même type. Il suffit alors de trouver les paramètres d’une transformation géométrique qui permet de faire correspondre à un point ou coté du document dans l’image de référence du type de document, le point ou coté équivalent dans le document à segmenter.
Enfin, un masque de segmentation est créé en appliquant la transformation géométrique calculée à l’étape précédente au contour du document de l’image de référence afin d’obtenir le contour du document présent dans l’image à traiter.
Phase d’entrainement
En référence à lafigure 3, un procédé d’augmentation des données d’entrainement est proposé. Ce procédé est mis en œuvre par les moyens de traitement 31 du serveur d’apprentissage, afin de générer un nombre d’images d’entrainement suffisant pour permettre l’entrainement d’un modèle de segmentation efficace. Pour cela, on pourra utiliser une unique image de référence de bonne qualité pour chaque type de document à identifier, acquise lors d’une étape E1 soit par des moyens de prise de vue 23, soit sous la forme d’un fichier source à l’origine de l’image de référence du type de document.
Des déformations géométriques aléatoires sont ensuite simulées à l’étape E2, en appliquant une transformation géométrique (par exemple une transformation affine), dont les paramètres ont été déterminés aléatoirement, à l’image de référence générant ainsi des images ayant subi des translations, des symétries, des homothéties etc.
Ensuite, afin de simuler la présence d’un fond dans l’image, des textures représentant des images de fond sont créées en générant une image comportant des motifs aléatoires. Les images de document ayant subi des déformations générées à l’étape précédente sont ensuite incrustées sur les images de fond lors d’une étape E3. Il est aussi possible d’ajouter un masque sur certaines parties de l’image du document si celui-ci comporte une ou plusieurs régions susceptibles d’être différentes d’un document du même type à l’autre et ainsi améliorer la capacité de généralisation du modèle entrainé. Pour cela une texture peut être générée de la même façon que les images de fond et appliqué à la région de l’image désirée, la texture de masquage étant de préférence différente de la texture de fond.
Puis, afin de simuler des prises de vues faites dans des mauvaises conditions (par exemple mauvais éclairage, ou mauvaise mise au point), des dégradations photométriques sont appliquées, lors d’une étape E4, aux images générées à l’étape précédente. Ces dégradations peuvent être un effet de flou, une modification de la luminosité de l’image ou du contraste, ou encore des altérations des couleurs de l’image.
Enfin, un bruit numérique (par exemple bruit gaussien) est appliqué aux images générées dans une étape E5.
Des exemples de documents ayant subi le procédé d’augmentation de données sont illustrés enfigure 4.
L’ensemble de ces étapes est répété pour chaque type de document, et autant de fois que l’on souhaite obtenir d’exemple par type de document. Cela permet de résoudre le problème de la constitution d’une base de données pour l’entrainement des modèles de segmentation.
Produit programme d’ordinateur
Selon des aspects complémentaires, l’invention concerne un produit programme d’ordinateur comprenant des instructions de code pour l’exécution (en particulier sur les moyens de traitement de données 11, 21 et 31 des serveurs 1 et/ou 3, et/ou du client 2) d’un procédé de segmentation d’un document comportant des informations structurées selon au moins une référence associée à un type de documents, le document étant présent dans une image d’entrée, ainsi que d’un procédé d’augmentation des données d’entrainement pour l’entrainement du procédé de segmentation décrit à partir d’une unique image de référence pour chaque type de documents à classifier et segmenter. De même, l’invention concerne aussi des moyens de stockage lisibles par un équipement informatique (une mémoire 12, 22 et 32 des serveurs 1 et/ou 3, et/ou du client 2) sur lequel on trouve ce produit programme d’ordinateur.
Claims (15)
- Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées, le procédé comprenant la mise en œuvre par des moyens de traitement (11) des étapes de:
(C2) Détermination d’un type de document par une méthode de classification, ledit type étant choisi parmi un ensemble de types possible chacun associé à une image de référence du type de document, l’image de référence étant une image comportant uniquement le document ;
(C3) Estimation des paramètres d’une transformation géométrique à appliquer à l’image de référence du type de document déterminé à l’étape (C2) pour obtenir le document tel que représenté par l’image d’entrée;
(C4) Détermination d’un masque de segmentation à partir des paramètres de la transformation géométrique estimés à l’étape (C3) et de l’image de référence du type de document déterminé à l’étape (C2). - Procédé de segmentation selon la revendication 1, caractérisé en ce qu’il comprend en outre une étape (C1) d’acquisition d’une image comprenant le document comportant des informations structurées à segmenter, réalisée avant l’étape (C2).
- Procédé de segmentation selon l’une des revendications 1 et 2, caractérisé en ce que les documents sont des tickets de jeux comportant des cases à cocher.
- Procédé de segmentation selon l’une des revendications 1 à 3, caractérisé en ce que la méthode de classification est un réseau de neurones profond.
- Procédé de segmentation selon la revendication 4, caractérisé en ce que le réseau de neurones profond est un réseau de neurones profond de type convolutif.
- Procédé de segmentation selon l’une des revendications 1 à 3, caractérisé en ce que la méthode de classification est une méthode de type point d’intérêt combinée avec un partitionnement des points d’intérêt.
- Procédé de segmentation selon la revendication 2, caractérisé en ce que l’étape (C1) d’acquisition d’une image comprenant au moins un document comportant des informations structurées à segmenter comprend en outre une étape de sous-échantillonnage de l’image comprenant le au moins un document comportant des informations structurées à segmenter.
- Procédé de segmentation selon l’une des revendications 1 à 7 caractérisé en ce que les transformations géométriques sont des déformations représentées par des fonctions affines.
- Procédé de segmentation selon l’une des revendications 1 à 8 caractérisé en ce que l’estimation des paramètres de la transformation géométrique de l’étape (C3) est réalisée par un réseau de neurones profond.
- Procédé d’augmentation des données d’entrainement pour l’entrainement d’un procédé de segmentation selon l’une des revendications 1 à 9 à partir d’une unique image de référence pour chaque type de documents à segmenter, le procédé comprenant, pour chaque type de documents, la mise en œuvre par des moyens de traitement (31) des étapes de:
(E2) Simulation de déformation géométrique aléatoires;
(E3) Simulation d’un fond à l’image par incrustation de l’image ayant subi les déformations dans une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant le fond de l’image;
(E4) Simulation de dégradations photométriques par modification du contraste et de la colorimétrie de l’image générée à l’étape précédente;
(E5) Ajout d’un bruit numérique à l’image générée à l’étape précédente,
les étapes précédentes étant répétées autant de fois que l’on souhaite avoir d’exemples d’entrainement pour le type de document. - Procédé d’augmentation des données d’entrainement selon la revendication 10, caractérisé en ce qu’il comprend en outre une étape (E1) d’acquisition d’une image de référence du type de document réalisée avant l’étape (E2).
- Procédé d’augmentation des données d’entrainement selon l’une des revendications 10 et 11, caractérisé en ce que les déformations géométriques sont des déformations représentées par des fonctions affines.
- Procédé d’augmentation des données d’entrainement selon l’une des revendications 10 à 12, caractérisé en ce qu’il comprend en outre une étape (E3bis) de masquage, permettant masquer les zones de l’image de référence du type de document pouvant être différentes d’un document du même type à l’autre en appliquant une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant un motif variable.
- Produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé de segmentation selon l’une des revendications 1 à 9 ou d’un procédé d’augmentation des données d’entrainement selon l’une des revendications 10 à 13, lorsque ledit programme est exécuté sur un ordinateur.
- Moyen de stockage lisible par un équipement informatique sur lequel est enregistré un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé de segmentation selon l’une des revendications 1 à 9 ou d’un procédé d’augmentation des données d’entrainement selon l’une des revendications 10 à 13, lorsque ledit programme est exécuté sur un ordinateur.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1914750A FR3105529B1 (fr) | 2019-12-18 | 2019-12-18 | Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées |
EP20838959.3A EP4078435A1 (fr) | 2019-12-18 | 2020-12-18 | Procédé de segmentation d'une image d'entrée représentant un document comportant des informations structurées |
PCT/EP2020/087081 WO2021123209A1 (fr) | 2019-12-18 | 2020-12-18 | Procédé de segmentation d'une image d'entrée représentant un document comportant des informations structurées |
CA3161385A CA3161385A1 (fr) | 2019-12-18 | 2020-12-18 | Procede de segmentation d'une image d'entree representant un document comportant des informations structurees |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1914750A FR3105529B1 (fr) | 2019-12-18 | 2019-12-18 | Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées |
FR1914750 | 2019-12-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
FR3105529A1 true FR3105529A1 (fr) | 2021-06-25 |
FR3105529B1 FR3105529B1 (fr) | 2022-10-28 |
Family
ID=71661901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1914750A Active FR3105529B1 (fr) | 2019-12-18 | 2019-12-18 | Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP4078435A1 (fr) |
CA (1) | CA3161385A1 (fr) |
FR (1) | FR3105529B1 (fr) |
WO (1) | WO2021123209A1 (fr) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114495146A (zh) * | 2022-02-17 | 2022-05-13 | 平安普惠企业管理有限公司 | 图像文本检测方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100239118A1 (en) * | 2009-03-17 | 2010-09-23 | Behm William F | Optical Signature to Enable Image Correction |
FR2983607A1 (fr) | 2011-12-02 | 2013-06-07 | Morpho | Procede et dispositif de suivi d'un objet dans une sequence d'au moins deux images |
FR3027136A1 (fr) | 2014-10-10 | 2016-04-15 | Morpho | Procede d'identification d'un signe sur un document deforme |
EP3153991A1 (fr) * | 2015-10-05 | 2017-04-12 | Safran Identity & Security | Procédé d'analyse d'un contenu d'au moins une image d'un document structuré déformé |
CN110263694A (zh) * | 2019-06-13 | 2019-09-20 | 泰康保险集团股份有限公司 | 一种票据识别方法及装置 |
-
2019
- 2019-12-18 FR FR1914750A patent/FR3105529B1/fr active Active
-
2020
- 2020-12-18 EP EP20838959.3A patent/EP4078435A1/fr active Pending
- 2020-12-18 WO PCT/EP2020/087081 patent/WO2021123209A1/fr unknown
- 2020-12-18 CA CA3161385A patent/CA3161385A1/fr active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100239118A1 (en) * | 2009-03-17 | 2010-09-23 | Behm William F | Optical Signature to Enable Image Correction |
FR2983607A1 (fr) | 2011-12-02 | 2013-06-07 | Morpho | Procede et dispositif de suivi d'un objet dans une sequence d'au moins deux images |
FR3027136A1 (fr) | 2014-10-10 | 2016-04-15 | Morpho | Procede d'identification d'un signe sur un document deforme |
EP3153991A1 (fr) * | 2015-10-05 | 2017-04-12 | Safran Identity & Security | Procédé d'analyse d'un contenu d'au moins une image d'un document structuré déformé |
CN110263694A (zh) * | 2019-06-13 | 2019-09-20 | 泰康保险集团股份有限公司 | 一种票据识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
ROCCO IGNACIO ET AL: "Convolutional Neural Network Architecture for Geometric Matching", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE COMPUTER SOCIETY, USA, vol. 41, no. 11, 1 November 2019 (2019-11-01), pages 2553 - 2567, XP011748098, ISSN: 0162-8828, [retrieved on 20191001], DOI: 10.1109/TPAMI.2018.2865351 * |
Also Published As
Publication number | Publication date |
---|---|
CA3161385A1 (fr) | 2021-06-24 |
FR3105529B1 (fr) | 2022-10-28 |
EP4078435A1 (fr) | 2022-10-26 |
WO2021123209A1 (fr) | 2021-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1298588B1 (fr) | Procédé de traitement d'images pour l'extraction automatique d'éléments sémantiques | |
US20220044366A1 (en) | Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks | |
US20220044365A1 (en) | Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network | |
EP3832535A1 (fr) | Procédé de détection d'au moins un élément d'intérêt visible dans une image d'entrée au moyen d'un réseau de neurones à convolution | |
CA3043090C (fr) | Procede de reconnaissance de caracteres | |
FR2907239A1 (fr) | Procede de recherche et de reconnaissance rapides d'une image numerique representative d'au moins un motif graphique dans une banque d'images numeriques | |
EP3570212A1 (fr) | Procédé de reconnaissance de caractères | |
EP1327156B1 (fr) | Procede d'individualisation d'un element de circuit integre | |
FR3087033A1 (fr) | Procedes d'apprentissage de parametres d'un reseau de neurones a convolution et de detection d'elements d'interet visibles dans une image | |
FR3105529A1 (fr) | Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées | |
WO2019129985A1 (fr) | Procede de formation d'un reseau de neurones pour la reconnaissance d'une sequence de caracteres et procede de reconnaissance associe | |
EP3966739B1 (fr) | Procédé d'analyse automatique d'images pour reconnaître automatiquement au moins une caractéristique rare | |
EP4016381A1 (fr) | Procédé d'extraction d'une signature d'une empreinte digitale et dispositif mettant en oeuvre ledit procédé | |
EP3929809A1 (fr) | Procédé de détection d'au moins un trait biométrique visible sur une image d entrée au moyen d'un réseau de neurones à convolution | |
FR3123748A1 (fr) | Apprentissage automatique sans annotation ameliore par regroupements adaptatifs en ensemble ouvert de classes | |
EP3956809A1 (fr) | Procédé de traitement d'image d'un document d'identité | |
WO2019077026A1 (fr) | Procede de calcul d'un descripteur global d'une image | |
CN113628089A (zh) | 图像处理方法、装置、存储介质及计算机设备 | |
FR3126529A1 (fr) | Procédé de mise en relation d’une image candidate avec une image de référence. | |
EP4396789A1 (fr) | Procédé de mise en relation d'une image candidate avec une image de référence | |
FR2982057A1 (fr) | Procede de reconnaissance d'une image dans une scene | |
WO2021144427A1 (fr) | Procede de traitement d'une image candidate | |
WO2012107696A1 (fr) | Procédés, dispositif et programmes d'ordinateur pour la reconnaissance de formes, en temps réel, à l'aide d'un appareil comprenant des ressources limitées | |
FR2946773A1 (fr) | Procede et dispositif de reconnaissance d'informations au moyen d'une balise graphique. | |
WO2020021209A1 (fr) | Procede de restructuration d'objets graphiques destructures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 2 |
|
PLSC | Publication of the preliminary search report |
Effective date: 20210625 |
|
PLFP | Fee payment |
Year of fee payment: 3 |
|
TP | Transmission of property |
Owner name: GOLD FRANCE, FR Effective date: 20220607 |
|
CA | Change of address |
Effective date: 20220825 |
|
CD | Change of name or company name |
Owner name: CARRUS GAMING, FR Effective date: 20220825 |
|
PLFP | Fee payment |
Year of fee payment: 4 |
|
PLFP | Fee payment |
Year of fee payment: 5 |