BE1025134A1 - Procédé d'identification d'un caractère dans une image numérique - Google Patents

Procédé d'identification d'un caractère dans une image numérique Download PDF

Info

Publication number
BE1025134A1
BE1025134A1 BE20175263A BE201705263A BE1025134A1 BE 1025134 A1 BE1025134 A1 BE 1025134A1 BE 20175263 A BE20175263 A BE 20175263A BE 201705263 A BE201705263 A BE 201705263A BE 1025134 A1 BE1025134 A1 BE 1025134A1
Authority
BE
Belgium
Prior art keywords
character
segmentation
characters
graph
ocr
Prior art date
Application number
BE20175263A
Other languages
English (en)
Other versions
BE1025134B1 (fr
Inventor
Frédéric Collet
Jordi Hautot
Michel Dauw
Muelenaere Pierre De
Original Assignee
Iris Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iris Sa filed Critical Iris Sa
Priority to BE20175263A priority Critical patent/BE1025134B1/fr
Publication of BE1025134A1 publication Critical patent/BE1025134A1/fr
Application granted granted Critical
Publication of BE1025134B1 publication Critical patent/BE1025134B1/fr

Links

Landscapes

  • Character Input (AREA)

Abstract

L'invention concerne un procédé de combinaison d'une première reconnaissance de caractères optique (OCR) (12) et d'une seconde OCR (100). La première OCR (12) opère d'abord sur une image de chaîne de caractères (11). Sa sortie (13) (premiers caractères identifiés, positions des caractères et paramètres de vraisemblance des caractères) est utilisée pour générer un premier graphe (16). Des points de segmentation rapportés aux positions des premiers caractères identifiés (14) sont utilisés comme entrée par la seconde OCR (100) en effectuant une segmentation et une classification combinées sur l'image de chaîne de caractères (11). La sortie (17) (seconds caractères identifiés, positions des caractères et paramètres de vraisemblance des caractères) de la seconde OCR (100) est utilisée pour mettre à jour (20) le premier graphe (16) afin de générer un second graphe (21) qui combine la sortie (13) de la première OCR (12) avec la sortie (17) de la seconde OCR (100). Des modèles de décision sont ensuite utilisés pour modifier (22) les pondérations de trajets dans le second graphe (21) afin de générer un troisième graphe (23). Un meilleur trajet est déterminé (24) sur le troisième graphe (23) afin d'obtenir l'identification (25) des caractères présents dans l'image de chaîne de caractères (11).

Description

(30) Données de priorité :
(71) Demandeur(s) :
I.R.I.S.
1435, MONT-SAINT-GUIBERT
Belgique (72) Inventeur(s) :
COLLET Frédéric 1040 ETTERBEEK
Belgique
HAUTOT Jordi 4122 NEUPRE
Belgique
DAUW Michel
1831 MACHELEN
Belgique
DE MUELENAERE Pierre 1490 COURT-SAINT-ETIENNE Belgique (54) Procédé d'identification d'un caractère dans une image numérique (57) L'invention concerne un procédé de combinaison d'une première reconnaissance de caractères optique (OCR) (12) et d'une seconde OCR (100). La première OCR (12) opère d'abord sur une image de chaîne de caractères (11). Sa sortie (13) (premiers caractères identifiés, positions des caractères et paramètres de vraisemblance des caractères) est utilisée pour générer un premier graphe (16). Des points de segmentation rapportés aux positions des premiers caractères identifiés (14) sont utilisés comme entrée par la seconde OCR (100) en effectuant une segmentation et une classification combinées sur l'image de chaîne de caractères (11). La sortie (17) (seconds caractères identifiés, positions des caractères et paramètres de vraisemblance des caractères) de la seconde OCR (100) est utilisée pour mettre à jour (20) le premier graphe (16) afin de générer un second graphe (21) qui combine la sortie (13) de la première OCR (12) avec la sortie (17) de la seconde OCR (100). Des modèles de décision sont ensuite utilisés pour modifier (22) les pondérations de trajets dans le second graphe (21) afin de générer un troisième graphe (23). Un meilleur trajet est déterminé (24) sur le troisième graphe (23) afin d'obtenir l'identification (25) des caractères présents dans l'image de chaîne de caractères (11).
... image da chair® fis caramàres
Première OCR !......î
Première candie,-sis carecteras ' Γ.
eari iiiiais cara·:;·;·',?
Génération du prernit-r graph*
Premier graphe
..5
.... ·δ
Sftcond candidat •trarectère avec s? position '' ___ eUaprr»ab>iité Ξ1..............7.............
Miss ί jour du graphe t>ei»fî4ms~ „___JjraplB___
Addiiinr· 7 rnodSëJ]/ 22 ™ -.:.7
SI
Figure BE1025134A1_D0001
issîwîicaûon dos
B E2017/5263
La présente invention concerne des procédés et des programmes peur identifier des caractères dans une image numérique.
Technique d’arrière-plan
On connaît des procédés de reconnaissance optique de caractères (OCR) qui convertissent un texte présent dans une image en un code lisible sur machine.
Le brevet US n° 5 519 786 décrit un procédé de mise en œuvre d'un schéma de vote pondéré pour lire et reconnaître de manière précise des caractères dans une image balayée. Une pluralité de processeurs de reconnaissance optique de caractères balaye l’image et lisent les mêmes caractères d’image. Chaque processeur OCR délivre un caractère rapporté correspondant à chaque caractère lu. Pour une 15 lecture de caractère particulière, les caractères rapportés par chaque processeur OCR sont groupés en un ensemble de candidats caractères.
Pour chaque car roldat caractère, une pondération est générée
conformément à u? ie matrice de confusion qui stocke les probabilités
d’une CCR particuH ère pour identifier les caractères de manière précise.
Les pondérations si ^nt ensuite comparées ocur déterminer quel candidat
vre
Figure BE1025134A1_D0002
Figure BE1025134A1_D0003
En deuxième lieu, un préprocesseur doit quantifier les forces et les faiblesses des processeurs OCR pour générer les cellules de la matrice de confusion qui contiennent dos probabilités que le 30 caractère lu par un processeur OCR soit le caractère rapporté par le processeur OCR. Cette étape peut prendre du temps. En outre, si cette
B E2017/5263 étape n’est pas bien exécutée, par exempte du fait que l’ensemble de formation utilisé à cet effet ne convient pas à un type donné de caractère, une probabilité peut être faible pour un caractère qui est en fait bien reconnu et le procédé OCR peut fournir des résultats pires que les processeurs OCR pris indépendamment.
d’identification meilleurs et/ou plus rapides. Cet objectif est atteint selon l’invention par un procédé de sélection de candidats caractères dans un procédé d’identiïteatlon de caractères d’une image numérique, le procédé cempranani les étapes consistant à :
a) appliquer un premier processus d’identification de caractères pour déterminer des premiers candidats caractères et une liste de points de segmentation des premiers candidats caractères,
b) générer une liste de largeurs de caractères correspondant à un point de segmentation d’entre te liste de points de segmentation,
V5 · SX»’ e partie de l'image numérique correspondant au point de segmentation et à une largeur de caractère d'entre la liste de largeurs de caractères,
d) appliquer un procédé de classification de caractères sur la partie de l'image numérique pour obtenir une hypothèse ID d’un caractère éventuellement présent dans la partie de l’image numérique et un paramètre de vraisemblance qui se rapporte à la vraisemblance que
Figure BE1025134A1_D0004
e) sélectionner l'hypothèse ID comme second candidat caractère dans l’image numérique si le paramètre de vraisemblance
Figure BE1025134A1_D0005
remplit un premier critère prédéterminé.
B E2017/5263
Dans te procédé selon l’invention, tes points de segmentation déterminés à partir du premier processus d’identification de caractères (première OCR) sont utilisés comme entrée pour un processus combiné de segmentation et de classification (qui comprend 5 tes étapes b, c, d et e), qui est une seconde OCR. En conséquence, la seconde OCR est à même d’effectuer une meilleure segmentation que si elfe l’opérait seule sans l’entrée de ia première OCR. Cela permet à la seconde OCR d’utiliser des points de segmentation qu’elle n’aurait pas déterminés seule et donc de reconnaître certains caractères, par 10 exemple des caractères asiatiques, qu’elle n’aurait pas reconnus seule.
En outre, ia seconde OCR travaille plus rapidement avec cette entrée de la première OCR, car son estimation initiale de la largeur du caractère suivant est meilleure que sans cette entrée.
□ans des modes de réalisation de l’invention, le procédé 15 comprend en outre une étape f) de mise à jour de la liste de points de segmentation avec un autre point de segmentation déterminé sur la base de la partie de l’image numérique correspondant au second caractère candidat sélectionné. On s’attend à ce que cet autre point de segmentation soit utile pour le caractère suivant te caractère qui a juste 20 été identifié.
Dans un mode de réalisation de l’invention, l’étape f) comprend :
te contrôle du fait que l’autre point de segmentation est ou non déjà dans la liste de points de segmentation et l'addition de l'autre point de segmentation à la liste de points de segmentation si l’autre point de segmentation n’est pas déjà présent dans te liste de points de segmentation.
Dans un mode de réalisation de l’invention, à l’étape b), la liste de largeurs de caractères est générée sur te base d’au moins te liste 30 de points de segmentation des premiers candidats caractères. La liste de largeurs de caractères peut donc être générée rapidement et de manière
B E2017/5263 fiable, car sa détermination est basée sur des données provenant de la première OCR.
De manière avantageuse, les étapes b, c, d et e sont effectuées pour chaque point de segmentation de ia liste de points de 5 segmentation.
Dans un mode de réalisation de l’invention, les étapes a, d et e sont répétées pour une autre largeur de caractères de la liste de largeurs de caractères si le paramètre de vraisemblance ne satisfait pas au premier critère prédéterminé. Si le paramètre de vraisemblance ne 10 satisfait pas au premier critère prédéterminé, H indique que l’hypothèse ID peut ne pas être correcte. Il vaut donc mieux considérer une autre partie de l’image numérique démarrant au même point de segmentation et qui couvre en conséquence au moins en partie les mêmes composants connectés.
Dans un mode de réalisation de l’invention, les étapes c, d
et e sont répétées pour une autre largeur de caractère de la liste de
largeurs de caractères si le paramètre de vraisemblance satisfait au
premier critère prédéterminé et ne satisfait pas à un deuxième critère
prédéterminé.
Dans un mode de réalisation de rinvenuon. le procédé
comprend en outre les étapes consistant à :
générer une structure de données à partir des premiers
candidats caractères et de leurs points de segmentation et mettre à jour la structure de données avec ie second candidat caractère sélectionné et un point de segmentation suivant calculé à partir de la largeur de caractère du second candidat caractère sélectionné et du point de segmentation utilisé pour déterminer la partie de l’image numérique correspondant au second candidat caractère sélectionné.
B E2017/5263
Un premier but de le structure de données est de combiner les résultats du procédé de classification de caractères avec tes résultats du premier processus d’identification de caractères.
Figure BE1025134A1_D0006
Dans un mode de réalisation de l’invention, l’étape a) comprend la détermination de premiers paramètres de vraisemblance des premiers candidats caractères fournissant une indication de la chance que te caractère candidat soit correct, la structure de données comprend tes premiers paramètres de vraisemblance des premiers candidats caractères et le procédé comprend en outre tes étapes consistant à :
changer l'échelle des premiers paramètres de vraisemblance des premiers candidats caractères et/ou des paramètres de vraisemblance des seconds candidats caractères pour tes rendre comparables l’un à l’autre et mettre à jour ia structure de données avec tes paramètres de vraisemblance des seconds candidats caractères.
Figure BE1025134A1_D0007
es candidats caractères
Figure BE1025134A1_D0008
Avantageusement, le procédé comprend l’étape d’application d’un procédé de modélisation de décision sur ia structure de données mise à jour. Les modèles de décision améliorent la précision du procédé.
Dans un mode de réalisation de l’invention. te procédé comprend en outre les étapes consistant à :
déterminer un meilleur trajet dans te structure de données mise à jour et
B E2017/5263 de un
De préférence, l'étape d’appHcatïon d’un procédé de modélisation de décision comprend te fait d’avantager tes candidate caractères qui ont ies premiers paramètres de vraisemblance premiers candidate caractères et ies seconds paramètres vraisemblance de seconds candidats caractères satisfaisant à troisième critère prédéterminé.
Dans un mode de réalisation de l’invention, le premier procédé d’identification de caractères fournit des premiers candidate caractères pour des caractères d’un premier type, dans lequel le procédé de classification de caractères fournit des seconds candidats caractères pour des caractères d'un second type, et le procédé de modélisation de décision comprend le fait d'avantager les candidats caractères du premier type si tes candidate caractères sont fournis par le premier processus d'identification de caractères et le fait de favoriser tes candidats caractères du second type si tes candidats caractères sont
B E2017/5263 positions de premiers candidats caractères par segmentation et classification combinées ou par une étape indépendante effectuée de préférence entre les étapes a) et b) et éventuellement entre les étapes b) et c).
Un autre objectif de ia présente invention est de fournir un procédé d’identification de caractères dans une image numérique.
Cet objectif est atteint selon l’invention par un procédé comprenant :
a) l’application d'un premier procédé d'identification de caractères pour déterminer des premiers candidats caractères et des premiers points de segmentation correspondant aux premiers candidats caractères,
b) la génération d’un premier graphe sur la base des premiers candidats caractères et des premiers points de segmentation, dans lequel tes premiere points de segmentation sont représentés par des sommets et les premiers candidats caractères per des bords,
c) l'application d’un second procédé d’identification de caractères sur au moins une partie de l'image numérique pour générer au moins un second candidat caractère,
d) la mise è jour du graphe par addition du au moins un second candidat caractère au premier graphe et
e) la sélection dans le graphe mis à jour de candidats caractères comme caractères de l’image numérique.
Dans ce procédé, le graphe, lorsqu’il est généré, comprend comme sommets tes points de segmentation provenant de ia première
OCR et comme bords les ID provenant de la première OCR. Le graphe est ensuite mis à jour avec de nouveaux sommets et de nouveaux bords provenant de la seconde OCR. Au cours de te sélection de candidats caractères (étape e), tous tes bords sont considérés et aucun d’entre eux n’est a prion mis au rebut Ii ri y a aucune nécessité de tester les OCR l'un vis-à-vis de l'autre pour déterminer leurs faiblesses, car toutes les ID
B E2017/5263 provenant de toutes tes OCR sont considérés même si une règle de décision favorisant certains bords selon certaines conditions pourrait être introduite dans te graphe. Il n’y a aucune nécessité d’une structure comme la matrice de confusion non plus.
De préférence, te second procédé d’identification de caractères génère au moins un second point de segmentation et le au moins un second point de segmentation est ajouté au graphe à l’étape d).
Dans un mode de réalisation de l’invention, le premier procédé d’identification de caractères fournit des premiers paramètres de vraisemblance fournissant une vraisemblance que tes premiers candidats caractères sont corrects, le second procédé d’identification de caractères fournit des seconds paramètres de vraisemblance fournissant une vraisemblance que te au moins un second candidat caractère est correct, et ie procédé comprend en outre tes étapes consistant à :
changer l’échelle des premiers paramètres de vraisemblance et/ou des seconds paramètres de vraisemblance pour tes rendre comparantes l'un à l’autre, ajouter tes premiers paramètres de vraisemblance dans le premier graphe et ajouter tes seconds paramètres de vraisemblance dans te graphe mis à jour.
Avantageusement, Ie procédé comprend l’étape d’application d’un procédé de modélisation de décision sur le graphe mis à jour.
Dans un mode de réalisation de l’invention, ie procédé de modélisation de décision comprend une règle qui favorise les candidats caractères qui ont te premier paramètre de vraisemblance et ies seconds paramètres de vraisemblance répondant à un troisième critère prédéterminé.
Figure BE1025134A1_D0009
Figure BE1025134A1_D0010
B E2017/5263 on ou d'un second type et le procédé de modélisation de décision comprend une règle qui favorise les candidats caractères correspondant au premier type do caractères si ces candidats caractères ont été déterminés par ie premier procédé d’identification de caractères et favorise les candidats caractères correspondant au second type de caractères si ces candidats caractères ont été déterminés par le second procédé d’identification de caractères.
segmentation provenant du premier procédé d’identification de caractères. Avec ce procédé, le second procédé d’identification de caractères est à même d'effectuer une meilleure segmentation que s’il transitoire lisible sur ordinateur stockant un programme amena ordinateur à exécuter un procédé pour identifier des caractères dans
b) nor un de une
c) correspondant au point de segmentation fourni par ia position d'un premier candidat caractère initiai et à une largeur de caractère provenant de ia liste de largeurs de caractères.
B E2017/5263
d) appliquer un procédé de classification de caractères sur ia partie de l'image numérique pour obtenir une hypothèse ID d’un caractère éventuellement présent dans la partie de l’image numérique et un paramètre de vraisemblance qui se rapporte à la vraisemblance que l’hypothèse ID est correcte et
e) sélectionner l’hypothèse ID comme caractère dans l’image numérique si le paramètre de vraisemblance répond à un premier critère prédéterminé.
Le procédé selon l’invention est de préférence conçu peur tourner sur un ordinateur.
Brève description des dessins
L’invention sera mieux comprise au moyen de ia description suivante et des figures ci-annexées.
La Fig. 1 illustre un schéma fonctionnel d’un procédé OGR selon l’invention.
essi
BE2017/5263 revendications. Les dessins décrits sont seulement schématiques et ne sont pas limitatifs. Dans les dessins, ia taille de certains des éléments peut être exagérée et non à l’échelle à des fins Illustratives. Les dimensions et tes dimensions relatives ne correspondent donc pas 5 nécessairement aux réductions réelles pour mettre en pratique l’invention.
En outre, tes termes premier, deuxième, troisième, etc.
dans la description et tes revendications sont utilisés pour distinguer entre des éléments similaires et pas nécessairement pour décrire un ordre séquentiel ou chronologique. Les termes sont interchangeables dans des circonstances appropriées et les modes de réalisation de l’invention peuvent opérer dans d’autres séquences que celtes décrites ou illustrées ici.
n outre, les termes dessus, dessous, sur, sous et similaires dans la description et les revendications sont utilisés à des fins descriptives et pas nécessairement pour décrire des positions relatives. Les termes ainsi utilisés sont interchangeables dans des circonstances appropriées et les modes de réalisation de l’invention décrits ici peuvent opérer dans d’autres orientations que celtes décrites ou illustrées ici.
Figure BE1025134A1_D0011
Figure BE1025134A1_D0012
m
Figure BE1025134A1_D0013
lesquels l'invention peut être mise en œuvre plutôt que de limiter la portée de l’invention.
Le terme « comprenant » utilisé dans tes revendications ne doit pas être interprété comme étant limité aux éléments ou aux étapes énumérés ensuite ; il n’exclut pas d’autres éléments ou d’autres étapes. H doit être Interprété comme spécifiant la présence des caractéristiques, nombres entiers, étapes eu composants mentionnés auxquels on se réfère, mais n’empêche pas la présence eu l'addition d’une ou plusieurs autres caractéristiques, nombres entiers, étapes ou composants ou de leurs groupes. Par suite, la portée de l’expression « un dispositif
BE2017/5263 comprenant A et B » ne doit pas être limitée à des dispositifs constitués uniquement des composants A et B plutôt par rapport à la présente Invention, les seuls composants énumérés du dispositif sont A et B et, en outre, la revendication doit être Interprétée comme incluant des équivalente de ces composants.
Le terme « caractère », tel qu’on l’utilise ici, se réfère à un symbole ou à un signe utilisé en écriture comme un graphème, un logogramme, une lettre alphabétique, une ligature typographique, un chiffre numérique ou un signe de ponctuation.
Les expressions « identification, identifiant et ID », tels qu’on les utilise ici, se réfèrent à un ou plusieurs caractères reconnus en code lisible sur machine pour obtenir une chaîne explorable de
Le terme « position », tel qu’on l'utilise ici en se référant à une position particulière, se réfère à des données qui permettent de iocaiiser le caractère. Par exemple, la position peut être fournie par les coordonnées des pixels d’une boîte de délimitation qui entoure ie caractère.
Figure BE1025134A1_D0014
caractère peut,
Figure BE1025134A1_D0015
pixel noir Ie plus à gauche d’une boîte de délimitation du caractère ou par le pixel noir le plus à gauche du caractère.
L’expression « partie de segmentation », telle qu'on l’utilise ici, se réfère à une partie d’une image d’une chaîne de caractères qui subit des processus pour déterminer si elle représente un caractère, un groupe de caractères, un motif, etc. Le point le plus à gauche d’une partie de segmentation est de préférence un point de segmentation.
Le terme « classification », tel qu’on l'utilise ici, se réfère à la génération d’au moins une hypothèse sur l’identification d’un ou
B E2017/5263 plusieurs caractères. Chaque hypothèse d’identification ou hypothèse ID est associée à un paramètre de vraisemblance.
L’expression « reconnaissance optique de caractères (OCR) », telle qu’on l’utilise Ici, se réfère à une conversion 5 quelconque en un texte présent dans une image en code lisible sur d’une image en noir et blanc est censée se référer à un groupe de pixels noirs qui sont connectés l’un à l’autre perdes pixels noirs.
B E2017/5263
La Fig. 1 représente un schéma synoptique d’un procédé
OCR 10 selon l’invention.
érence des segmentation 14 des caractères de l'image et de pondérations 18 des caractères, les pondérations étant des paramètres de vraisemblance. Les premiers candidats caractères 13 avec les pointe de segmentation 14 des caractères dans l’image peuvent être une dénommés premiers points de segmentation 14. La pîurallté de points de segmentation 14 peut être considérée comme une liste de pointe de
La première OCR peut ou non uiihser des modèles de des premiers points de segmentation provenant des pointe de segmentation de candidats caractères 14. Si nécessaire, la génération 15 du premier graphe convertit les pondérations 18 en premiers paramètres de vraisemblance pour faire en sorte qu'ils correspondent à une autre
B E2017/5263 termine premiers points de segmentation sont représentés sous la forme de sommets, les premiers candidats caractères étant représentés comme des bords et les premiers paramètres de vraisemblance des premiers candidats caractères sont représentés sous la forme de valeurs de bord correspondants.
Un graphe démarre typiquement avec un premier sommet qui correspond à un point de segmentation initial qui est ie point de segmentation 1e plus à la gauche de l'image de la chaîne de caractères
11. Le premier sommet est relié à un autre sommet qui correspond à un autre point de segmentation par un bord correspondant au caractère identifié entre le point initial et les autres points de segmentation. Le graphe continue par un sommet pour chaque point de segmentation et un bord pour chaque caractère entre les points de segmentation. Les paramètres de vraisemblance des caractères sont représentés par des de bord au niveau des bords correspondants. Le graphe se par un sommet correspondant â un point sur la droite du premier e dans l’image de la chaîne de caractères 11. Ce point sur la 5re de l image de la chaîne de caractères 11 n’est de preference pas un point de segmentation.
D'aubes types de structures de données qu’un graphe peuvent être utilisés pour ordonner ies sorties de POCR sans sortir de la portée de l’invention.
La Fig. 2 illustre une image d'une chaîne de caractères 11. Dans cet exemple 201, ia première OCR 12 a été identifiée par un b partant d’un point de segmentation 202 avec un paramètre de vraisemblance de 80 % et par un t partant d'un point de segmentation 203 avec un paramètre de vraisemblance de 95 %.
La Fig, 3 illustre le premier graphe 301 généré à l’étape 15 à partir de la sortie 13 de la première OCR 12. Le sommet 302 correspond au point de segmentation 202. Le bord 304 correspond à la lettre b et le paramètre associé de 8Q % 305 est également inclus dans le caracre droite du dernier carao
B E2017/5263
Figure BE1025134A1_D0016
“i π s V premier graphe 301. Le sommet 303 correspond au peint de segmentation 203. Le bord 306 correspond à la lettre t et le paramètre associé de 95 % 307 est également inclus dans le premier graphe 301.
En se référant à présent à la Fig. 1 , le premier point de segmentation 14 et l'image de la chaîne de caractères 11 sont utilisés comme entrée pour la segmentation et la classification combinées 100. Dans un mode de réalisation de l'invention, dans lequel tes positions sont délivrées par la première OCR 12 au lieu des premiers points de segmentation 14, les premiers points de segmentation 14 sont déterminés à une autre étape du procédé 10, par exemple, au cours de la segmentation et de la classification combinées 100. Par exempte, si la première OCR 12 délivre les boîtes de limitation des premiers caractères, les points de segmentation peuvent être déterminés comme les points du pixel noir le plus à gauche dans chaque boîte de délimitation.
La segmentation et te classification combinées 100 constituent une seconde OCR et seront décrites par la suite en se référant à la Fig. 4. La segmentation et la Glassification combinées 100 génèrent de préférence au moins une fois pour chaque caractère dans l’image de la chaîne de caractères 11 au moins un second candidat
Figure BE1025134A1_D0017
Figure BE1025134A1_D0018
Figure BE1025134A1_D0019
Figure BE1025134A1_D0020
second point de segmentation. La probabilité du second candidat caractère est un second paramètre de vraisemblance.
Dans un mode de réalisation de l'invention, il peut y avoir un ou plusieurs seconds candidats caractères ayant chacun sa position correspondante et de préférence chacun ayant sa probabilité déterminée par la segmentation et la classification combinées 100 pour chaque caractère de l’image de la chaîne de caractères 11.
B E2017/5263
Le second candidat caractère, sa position et sa probabilité sont, chaque fois qu’ils sent générés, utilisés comme entrée pour une mise à jour 20 du graphe qui met à jour le premier graphe 16. la fin de la segmentation et de la classification combinées 100, la sortie globale des mises à jour 20 du graphe est un second graphe 21 qui combine la sortie de la première OCR 12 et la sortie de la segmentation et de la classification combinées 100. Si nécessaire, la mise à jour 20 du graphe convertit les probabilités en seconds paramètres de vraisemblance ayant la même échelle que les premiers paramètres de vraisemblance pour les rendre comparables. La mise à jour 20 du graphe ajoute un nouveau bord pour chaque seconde ID. La misa à jour 20 du graphe ajoute un nouveau sommet à l’extrémité de chaque nouveau bord qui ne se termine pas sur un sommet déjà présent dans le graphe.
Le second graphe 21 comprend un bord pour chacune des premières ID et pour chacune des secondes ID associés avec leur paramétre de vraisemblance respectif, et un sommet peur chacun des premiers points de segmentation et pour chacun des seconds points de segmentation. Un exemple du second graphe est illustré dans la Fig. 7 et
Figure BE1025134A1_D0021
la première OCR ou à partir de la
Figure BE1025134A1_D0022
combinées 100.
Le second graphe 21 est ensuite utilisé comme entrée dans une étape facultative d’addition de modèles de décision 22, qui génère un troisième graphe de décision 23. L’étape 22 peut ajouter les modèles de décision au graphe par l’utilisation d’un algorithme à base de transducteur d’état fini pondéré (WFST). Cette étape 22 est en fait une application d’un procédé de modélisation de décision. L'addition de modèles de décision 22 modifie les paramètres de vraisemblance des bords, c’est-à-dire tes caractères ou te groupe de bords, c’est-à-dire des groupes de caractères afin de favoriser ceux qui sont a priori les plus
B E2017/5263 probables, par exempte en raison du contexte. Les modèles de décision modifient les pondérations des trajets. Les modèles de décision sont de préférence apparentés à la décision contextuelle. Les modèles de décision améliorent fortement la précision d'identification.
Les modèles de décision peuvent Impliquer des bigrammes, des métriques typographiques, des listes de mots comme des dictionnaires, des π-grammes de caractères, des règles de ponctuation et des règles d’espacement.
Un premier type de modèle de décision est un modèle linguistique. Si le mot « ornate » est présent dans l’image de la chaîne de caractères à identifier, la première ou la seconde OCR peut par exemple trouver te mot « ornate » et le mot « ornate » comme ID avec des paramètres de vraisemblance similaires du fait que les lettres rn prises conjointement ressemblent à ia lettre m. Un modèle linguistique utilisant un dictionnaire est capable de détecter que te mot « ornate » n’existe pas, tandis que le mot « ornate » existe.
Dans un mode de réalisation de la présente invention, te modèle linguistique utilise un modèle de n~grammes. SI te mot « TRESMEUR » est présent dans l’image de la chaîne de caractères 11, « i RE5MEUR » et le mut ·'< TRESMbUR » comme ID avec des paramètres de vraisemblance similaires du fait que tes lettres « S » peuvent ressembler à ia lettre « 5 » dans un texte imprimé. Un modèle linguistique utilisant un modèle de bi~gramme (n-gramme avec n~2) préférerait « TRESMEUR » si « ES » et « SM » avaient de meilleures probabilités d’occurrence que « E5 » et « SM s.
Un autre type de modèle utilisé dans un mode de réalisation de la présente Invention est un modèle typographique. Si le mot « Loguivy » est présent dans l’image de ia chaîne de caractères 11, la première ou ia seconde OCR peut par exemple trouver le mot « Loguivy x et te mot « Loguivv » comme ID avec des paramètres de
B E2017/5263 vraisemblance similaires du fait que les lettres « y » peuvent ressembler à la lettre « v » dans un texte imprimé. Un modèle typographique utilisant des métriques de police préférerait « Loguivy » du fait que la position du fond du caractère final correspond plus vraisemblablement à la position inférieure d’un « y » (dans son modèle) que d’un « v ».
Dans un mode de réalisation de la présente invention, le modèle typographique considère la position du caractère dans limage pour vérifier si les tailles et les positions sont attendues ou non.
Dans un modèle de décision impliquant des règles de ponctuation et d’espacement, certaines combinaisons de ponctuation et/ou d’espaces sont défavorisées.
Dans un mode de réalisation de l’invention, un modèle de décision est ajouté à l'étape 22 qui favorise les ID qui ont te premier paramètre de vraisemblance et le second paramètre de vraisemblance répondant à un critère prédéterminé. En fait, on s’attend à ce que, si une même ID est de-couverte par la première OCR 12 et te segmentation et la classification combinées 100, HD soit plus crédible. En conséquence, si pour une ID, a la fois ie premier paramètre de vraisemblance et le second paramètre de vraisemblance se situent au-dessus d’un seuil, par exemple, de $10 %, ΙΊΟ peul être favorisée.
Figure BE1025134A1_D0023
l'invention, un modèle de décision est ajouté a l'étape 22, qui équivaut à un vote OCR du fait qu’il favorise la première OCR dans certains cas et la seconde OCR dans d’autres cas. Par exemple, si la première OCR est connue pour être 25 extrêmement précise pour un premier type de caractères, tels que des caractères katakana, tandis que la segmentation et la classification combinées 100 sont connues pour être extrêmement précises pour un second type de caractères, comme kanji, un modèle de décision peut être ajouté qui favorise les ID correspondant au premier type de 30 caractères (katakana) si ces ID ont été déterminées par la première OCR et favorise les ID correspondant au second type de caractères (kanji) si
B E2017/5263
Figure BE1025134A1_D0024
ceux-ci ont été déterminés par la segmentation et ta classification combinées 100.
détermination du meilleur trajet 24 détermine, entre les trajets possibles définis par les bords joints par des sommets dans ie troisième pondération do trajet pour trouver la un schéma fonctionnel pour combinées 100 selon un mode
Ce schéma fonctionrieî compre compren-a des noints de segmentation de qui
Au cours de cette étape 101, les données caractères 13 pourraient
La segmentation et la classification combinées 100 commencent à effectuer une itération sur les points de segmentation de l’empilement avec un indice de point de segmentation i qui est réglé égal
B E2017/5263 à une première valeur, par exemple 1. Un point de segmentation correspondant 121 provenant de l’empilement 102 est considéré. La première fois qu’un point de segmentation 121 est considéré dans la segmentation et la classification combinées 100, le point de 5 segmentation 121 est de préférence l’un des premiers points de segmentation 14 qui a été déterminé par la première OCR. Le point de segmentation 121 est de préférence retiré de l’empilement 102 de sorte que l'empilement 102 ne contienne que les points de segmentation qui doivent encore être considérés. Le point de segmentation 121 est de 10 préférence placé dans une liste de points de segmentation déjà traités.
Ensuite, la segmentation et la classification combinées 100 déterminent à l’étape 130 une liste de largeurs 131. De préférence, cette détermination 130 n’utilise pas comme entrée une liste de largeurs déterminées pour un autre point de segmentation. Dans un mode de 15 réalisation de l’invention, la liste 131 de largeurs est générée à l’étape 130 comme décrit dans te demande de brevet US nc 14/254 096 qui est incorporée à la présente demande par référence, dans laquelle tes premiers points de segmentation 14 sont utilisés comme entrée. L’image de ia chaîne de caractères 11 et/ou les premiers candidats caractères 20 peuvent également être utilisés comme entrées. Dans un mode de realisation de l'invention, la détermination 130 utilise une base de données 132 stockant des largeurs de caractères de référence, stockant une largeur moyenne et éventuellement stockant d’autres statistiques de caractères. La détermination 130 est de préférence basée sur cette 25 largeur moyenne fournie par te base de données 132 et la ou tes tailles du ou des composants connectés autour du point de segmentation i, la ou les tailles étant fournies par l’image 11 de ia chaîne de caractères. La détermination 130 est basée mieux encore sur cette largeur moyenne fournie par la base de données 132 et la ou les tailles du ou des 30 composants connectés suivant te point de segmentation i, te ou les tailles étant fournies par l’image 11 de la chaîne de caractères.
B E2017/5263
5: ·χη U.' V
Ensuite, la segmentation et ia classification combinées 100 commencent à effectuer une itération sur les largeurs de la liste de largeurs 131, un indice de largeur j étant réglé égal à une première valeur, par exemple 1. Une largeur 1.24 provenant de la liste de largeurs 131 est considérée. La combinaison du point de segmentation i et de la largeur j fournit une partie de segmentation 125 qui est une partie de l’image de la chaîne de caractères 11. Une classification de caractères 126 est effectuée sur ia partie de segmentation 125. La classification de caractères 126 est de préférence une classification de caractères uniques. La classification de caractères 126 peut comprendre une classification de caractères conçue pour un premier iype de caraciêres, par exemple des caractères asiatiques, et une ciassiFloatlon de caractères conçue pour un second type de caractères, par exemple des caractères latins. Une telle classification de caractères est décrite dans la demande de brevet US ns 14/299 205 qui est incorporée à la présente demande par référence.
La classification de caractères 126 fournit une hypothèse ID 127a avec une vraisemblance d'erreur Perr 127b. L’hypothèse ID 127a est une hypothèse sur le caractère éventuellement présent sur la partie de segmentation 125. La vraisemblance de l’erreur P 127b est un paramètre de vraisemblance. La vraisemblance de l’erreur Pefr 127b est un pourcentage qui diminue avec la probabilité que la classification 126 a
B E2017/5263 correctement identifié la teneur de la partie de segmentation 125. La probabilité que la classification 126 a correctement identifié te teneur de ia partie de segmentation 125 est égale à 1-Pefr. Perr et la probabilité égale à 1~Pe(T peuvent tous deux être dénommés « second paramètre de vraisemblance », car ils fournissent tous deux une indication de la probabilité que l’hypothèse d'identification 127a est correcte pour la classification de caractères 126.
La segmentation-classification combinée 100 vérifie ensuite, à l’étape 128, si la vraisemblance de l'erreur Perr répond à un premier critère prédéterminé qui est que Pf::7 est plus petite qu'un seuil pour avoir une vraisemblance élevée d’erreur Therf. Therf est de préférence choisie proche de 100 %, par exemple égale à 99,9 %. Ainsi, ie premier critère prédéterminé écarte les hypothèses qui sont réellement invraisemblables. Si le premier critère prédéterminé n’est pas satisfait, l’indice j est incrémenté et l’on considère une largeur suivante provenant de la liste de largeurs 131.
Si le premier critère prédéterminé est satisfait, il indique que l’hypothèse iD pourrait avoir une chance d’être correcte. Si ie premier critère prédéterminé est satisfait, une mise à jour 110 de l'empilement est effectuée. Cette mise à jour 110 de l’empilement est décrite ci-dessous en se référant à ia Fig. 5.
Si le premier critère prédéterminé est satisfait, une mise à jour 150 de la liste moyenne est effectuée et la largeur moyenne mise à jour remplace la largeur moyenne dans la base de données 132. Dans un mode de réalisation de l’invention, ia mise à jour 150 de la largeur moyenne est effectuée comme décrit dans te demande de brevet US rr 14/254 096 qui est incorporée à la présente demande par référence.
Dans un mode de réalisation de l’invention, ia mise à jour 150 de ia largeur moyenne est suivie par la détermination 130 de la liste de largeurs qui génère la liste de largeurs 131 à utiliser pour le même
B E2017/5263 point de segmentation i dans la prochaine itération sur les largeurs par la segmentation et la Glassification combinées 100.
Si le premier critère prédéterminé est satisfait, le second candidat caractère, sa position et sa probabilité 17’ sont ajoutés dans Ie graphe au cours de la mise à jour correspondante 20 du graphe (Fig. 1). Le second candidat caractère, sa position et sa probabilité 17 ne peuvent être mis à jour en tant que tels par la segmentation et la classification combinées 100, mais juste ajoutés au graphe. Le second candidat caractère est égal à l’hypothèse ID 127a. En d’autres termes, l'hypothèse
D est choisie comme second candidat caractère. La position du second candidat caractère est fournie par la partie de segmentation où le second candidat caractère a été Identifié, c'est-à-dire, par le point de segmentation i et la largeur j qui ont été considérés. La probabilité du second candidat caractère est égale à i-Pen-, avec la valeur de Psn- de 127b.
prédéterminé 128.
La classification de caractères 126 peut fournir une pluralité d’hypothèses ID 127a chacune avec leur vraisemblance respective d'erreur Ps„ 127b, toutes correspondant à la même partie de segmentation 125. Dans un tel cas, les contrôles 128 et 140 sont effectués sur l’hypothèse ID avec la P8rf la plus basse, c’est-à-dire l’hypothèse ID dont on attend le plus qu’elle soit correcte. Le « second candidat caractère avec la position et la probabilité » 17 des figures comprend alors la pluralité d'hypothèses ID, avec chacune leur position et leur probabilité respectives, Elles sont toutes incluses dans le graphe
B E2017/5263 directement avant de se déplacer vers une nouvelle partie de segmentation 125.
Dans la segmentation et la classification combinées 100, une partie de segmentation quelconque 125 est considérée seulement une fois.
Le premier critère prédéterminé fournit un paramètre réglable pour déterminer le seuil de probabilité à partir duquel ies hypothèses ID 127a sent ajoutées dans ie graphe. Une Therr très élevée fournit un second graphe très grand 21 qui donne une précision élevée, mais pourrait ralentir ie procédé OCR 10. Une Thsn· inférieure fournit un second graphe plus petit 21, qui pourrait donner une moindre précision, mais accélère le procédé OCR 10,
Dans un mode de réalisation de l’invention, différents <A .‘-S.
sr
B E2017/5263
Si l’empilement 102 contient encore au moins un point de segmentation, l’indice i de points de segmentation est incréments et un point de segmentation suivant 121 est considéré.
Si l'empilement 102 ne contient pas de point de 5 segmentation, la segmentation-classification combinée 100 effectue de préférence une étape de fin d’empilement 142. L'étape de fin d'empilement 142 comprend une vérification que la fin de l’image de la chaîne de caractères 11 a été atteinte, par exemple en vérifiant que HD du caractère situé le plus à droite dans le second graphe 21 comprend le 10 pixel noir ie plus à droite de l’image de ia chaîne de caractères 11.
Si la fin de l’image de la chaîne de caractères 1i n'a pas été atteinte, un caractère vide avec une probabilité égale à 0 est inséré dans le graphe en partant du sommet correspondant au point de segmentation le plus à droite qui a été considéré, un point de 15 segmentation correspondant à la fin de ce caractère vide est placé dans l’empilement 102 et la segmentation et la classification combinées 100 reprennent avec ce point de segmentation.
SI la fin de l’image de la chaîne de caractères 11 a été atteinte, un caractère vide avec une probabilité égaie à 0 peut être ajouté 20 au second graphe 21 entre chaque sommet qui n’est pas connecté à un sommet suivant (chaque point de segmentation pour lequel aucun second candidat caractère 17 n’a été sélectionné} et le sommet suivant.
La Fig. 5 montre la mise à jour 110 de l’empilement selon un mode de réalisation de l’invention. Lorsqu'elle est effectuée, la mise à 25 jour 110 de l’empilement prend comme entrées la partie de segmentation 125 considérée à ce stade dans la segmentation et classification combinées 100 et l’image de la chaîne de caractères 11. La mise à jour 110 de l’empilement comprend une détermination 111 d’un autre point de segmentation. Cet autre point de segmentation 112 est censé 30 correspondre au début d’un caractère à la droite du caractère qui a juste été identifié dans la partie de segmentation 125 par la classification de
B E2017/5263 caractères 126. L'autre point de segmentation 112 est de préférence déterminé comme la pixel noir le plus à gauche à la droite de la partie de segmentation 125. L’espace entre caractères peut avoir une valeur prédéterminée ou être calculé au cours de la segmentation et de la classification combinées 100.
En variante, l’autre point de segmentation 112 peut être calculé, par exempte, au cours de la classification de caractères 126 et fournit la mise à jour 110 de l’empilement.
Dans un mode de réalisation de l'invention, la détermination 111 d’un autre point de segmentation utilise des informations venant de la base de données 132.
La mise à jour 110 de l’empilement vérifie ensuite à l’étape 113 si l’autre point de segmentation 112 est couramment présent dans l’empilement 102 ou dans la liste de points de segmentation déjà traitée. Sinon, l’autre point de segmentation 112 est placé dans l’empilement 102.
Comme un caractère est censé démarrer un bit après le caractère précédent, cette mise à jour 110 de l’empilement génère des points de segmentation qui sont des points de départ probables pour un caractère suivant. La vérification à l'étape 113 évite qu’un point de segmentation n'apparaisse deux fois dans l’empilement 102.
La Fig. 6 illustre un exemple très simple de la segmentation et de la classification combinées 100 selon l'invention. La Fig. 7 illustre le second graphe 21 à la fin de te segmentation et de la classification combinées 100 illustrée sur la Fig. 6.
La Fig. 6a montre une image d’une chaîne de caractères 11 avec le mot lot et dans lequel ies lettres I et o sont si proches qu’il est difficile de déterminer s’il s’agit de I et de o ou de b. La première OCR 12 a fourni les ID b et t avec leur position et leur probabilité (P~80 % pour b et P~S5 % pour t). A partir de leur position, les points de segmentation 601 et 602 peuvent être déterminés (Fig. 6a). Le graphe qui est le
B E2017/5263 premier graphe à ce stade comprend les sommets 711, 712 et 713 et les bords 701 et 702 (Fig. 7).
L'empilement contient les points de segmentation 601 et
602. Pour te point de segmentation 601. la détermination 130 de la liste de largeurs détermine des largeurs possibles comprenant une largeur
603. La largeur 603 est placée dans la liste 131 de largeurs.
La Fig. 6b montre la largeur 603 qui est considérée comme te première conjointement avec le point de segmentation 601 dans la classification 126. La classification 126 trouve que la partie de segmentation fournie par le point de segmentation 6Û1 et la largeur 603 représente un b avec une probabilité de 70 %. Comme PS!T (30 %) est inférieure à Thgfr (99,9 %), un bord correspondant 793 est ajouté au graphe 21 au cours d'une mise à jour 20 du graphe. La mise à jour 110 de l'empilement détermine l’autre peint de segmentation (étape 111 ). On découvre à l'étape 102 que cet autre point de segmentation qui correspond au point 692 est déjà dans l’empilement 102. En conséquence, cet autre point de segmentation n’est pas ajouté à l’empilement 102. La mise à jour 150 de la largeur moyenne est effectuée, qui met à jour ia base de données 132. La détermination 130
Figure BE1025134A1_D0025
pas
Figure BE1025134A1_D0026
inférieure à Ti0rf (20 %), une autre largeur 604 de la liste 131 est testée.
Figure BE1025134A1_D0027
La Fig. 6c montre te largeur 604 qui est considérée conjointement avec te point de segmentation 601 dans ia classification 126. La classification 126 trouve que la partie de segmentation fournie par le point de segmentation 601 et la largeur 604 représente un I avec une probabilité de 85 %. Comme Pgrr (15 %) est Inférieure à Thsn· (99,9 %), un bord correspondant 704 est ajouté au graphe 21 au cours d’une mise à jour 20 du graphe et un sommet 714, qui correspond à un point de segmentation 605 à la fin du I, est ajouté au graphe 21.
B E2017/5263
Un autre point de segmentation 60S est ensuite déterminé à l’étape 111 de la mise à jour 110 de (’empilement Comme le point 605 n’est pas dans l'empilement (étape 113), ii est ajouté à l'empilement La mise à jour 150 de la largeur moyenne et ia détermination 130 de la liste de largeurs sont également réalisées.
Comme Pefr (15 %) est inférieure à ΤΙ3!Τ(20%), il y a une vérification (étape 141) pour vérifier s’il y a un point de segmentation quelconque laissé dans l'empilement 102. Les points de segmentation 602 et 605 étant encore dans l’empilement 102, le point de segmentation suivant 602 est considéré.
La Fig. 6d montre le point de segmentation 602 considéré conjointement avec la largeur 606 dans ia classification 126, La classification 126 trouve que ia partie de segmentation fournie par le point de segmentation 602 et la largeur 606 représente un t avec une probabilité de 99,5 %. Comme Perr (0,5 %) est inférieure à Thefr (99,9 %), un bord correspondant 705 est ajouté au graphe 21 au cours d'une mise à jour 20 du graphe. La mise à jour 110 de l’empilement n’est pas réalisée du mise à jour de largeurs vérification (étape 141) pour vérifier s’il y a un point de segmentation quelconque laissé dans l’empilement 102. La segmentation 605 étant encore dans l’empilement 162, oe point de segmentation 605 est considéré.
La Fig. 6e montre le point de segmentation 605 considéré conjointement avec une largeur 607 dans la classification 126. La classification 126 trouve que la padie de segmentation fournie par le point de segmentation 605 et ia largeur 607 représente un o avec une probabilité de 85 %. Comme Perr (15 %) est inférieure à Therf (99,9 %), un bord correspondant 706 est ajouté au graphe 21 au cours d’une mise à de ia me caractères a ete atteinte. La sont effectuées
B E2017/5263 jour 20 du graphe. La mise à jour 110 de l’empilement détermine l'autre peint de segmentation (étape 111). On constate à l’étape 112 que cet autre point de segmentation qui correspond au point 602 se trouve dans la liste de points de segmentation qui ont déjà été traités. En conséquence, cet autre point de segmentation n’est pas ajouté à l’empilement 102. La mise à jour 150 de la largeur moyenne et la détermination 130 de la liste de largeurs sont également effectuées.
Comme PeiT(15%) est inférieure à ΤΙΘ!Τ (20 %), il y a une vérification (étape 141) pour vérifier s’il y a un point do segmentation quelconque laissé dans l’empilement 102. Comme l’empilement 102 est vide, la segmentation et la classification combinées 100 se déplacent aux étapes 142 de fin d'empilement.
Les étapes de fin d’empilement vérifient que le pixel te plus à droite de l’image de te chaîne de caractères 11 est en fait une partie du t. Tous les sommets du graphe 21 sont raccordés à un sommet suivant
Figure BE1025134A1_D0028
Figure BE1025134A1_D0029
Figure BE1025134A1_D0030
indiquées dans le graphe.
Un modèle de
Figure BE1025134A1_D0031
Figure BE1025134A1_D0032
exemple à
Figure BE1025134A1_D0033
lot » par ia chaîne de caractères « bt ».
La présente invention comprend une combinaison d’une première OCR 12 et d'une seconde OCR, qui est la segmentation et ia classification combinées 100, à divers stades: à l’entrée des premiers points de segmentation 14 de l’empilement 102 de la seconde OCR 100, à te mise à jour 20 du graphe généré par la première OCR 12 qui génère le second graphe 21 et dans tes modèles de décision 22.
L'invention ne nécessite pas d'avoir un aperçu de la manière dont la première OCR 12 est effectuée. Elle nécessite seulement d’obtenir de la première OCR 12 te séquence d'ID de
B E2017/5263 caractères, leur position dans l'image de la chaîne de caractères et, si possible, leurs paramètres de vraisemblance, qui sont les sorties usuelles de n’importe quelle OCR. En conséquence, l’invention est capable de combiner presque n'importe quelle OCR commerciale avec la seconde OCR.
En outre, l’invention prend la meilleure des deux OCR de •ip que la sortie de ia première OCR 12 et meilleure que la sortie de seconde OCR = 00.
segmentatie ns b·:
des points de:
;C·«· cours de points de entrée
Selon un mode de réalisation de i’invention, au moins une
B E2017/5263
En d’autres termes, l'invention concerne un procédé et un programme de combinaison d'une première reconnaissance optique de caractères (OCR) 12 et d’une seconde OCR 100. La première OCR 12 opère d’abord sur une image d'une chaîne de caractères 11. Sa sortie 5 13 (premiers caractères identifiés, positions des caractères et paramètres de vraisemblance des caractères) est utilisée pour générer un premier graphe 16. Des points de segmentation en rapport avec les positions des premiers caractères identifiés 14 sont utilisés comme entrée par la seconde OCR 100 en effectuant une segmentation et une classification 10 combinées sur l’image de chaîne de caractères 11. La sortie 17 (seconds caractères identifiés, positions des caractères et paramètres de vraisemblance des caractères) de la seconde OCR 100 est utilisée pour mettre à jour 20 le premier graphe 16, générer un second graphe 21 qui combine la sortie 13 de la première OCR 12 avec la sortie 17 de la 15 seconde OCR 100. Des modèles de décision sont ensuite utilisés pour modifier les pondérations '22 des trajets dans le deuxième graphe 21 afin de générer un troisième graphe 23. Un meilleur trajet 24 est déterminé sur le troisième graphe 23 pour obtenir l'identification 25 des caractères présents dans l’image de ka chaîne de caractères 11.
B E2017/5263

Claims (4)

  1. Revendications
    1. Procédé de sélection de candidats caractères dans un précédé d’identification de caractères dans une image numérique, le procédé comprenant les étapes consistant à :
    a) appliquer un premier processus d'identification de caractères pour déterminer des premiers candidats caractères et une liste de peints de segmentation des premiers candidats caractères,
    b) générer une liste de largeurs de caractères correspondant à un point de segmentation d’entre la liste de points de segmentation,
    c) déterminer une partie de l’image numérique correspondant au peint de segmentation et à une largeur de caractère d'entre ia liste de largeurs de caractères,
    d) appliquer un procédé de classification de caractères sur la partie de l’image numérique pour obtenir une hypothèse ID d’un caractère éventuellement présent dans la partie de l’image numérique et un paramètre de vraisemblance qui se rapporte à la vraisemblance que l’hypothèse ID seit correcte et
    e) sélectionner l’hypothèse ID comme second candidat caractère dans l'image numérique si le paramètre de vraisemblance remplit un premier critère prédéterminé.
  2. 2. Procédé selon la revendication 1, le procédé comprenant de ia liste de points de segmentation avec un autre point de segmentation déterminé sur la base de ia partie de l’image numérique correspondant au second caractère candidat sélectionné.
  3. 3. Procédé selon la revendication 2, dans lequel l’étape f) comprend :
    le contrôle du fait que l’autre point de segmentation est ou
    B E2017/5263
    B E2017/5263 comprend les premiers paramètres de vraisemblance des premiers candidats caractères et le procédé comprend en outre les étapes consistant à :
    changer l’échelle des premiers paramètres de vraisemblance des premiers candidats caractères et/ou des paramètres de vraisemblance des seconds candidats caractères pour les rendre comparables Tun â l’autre et mettre à jour la structure de données avec les paramètres de vraisemblance des seconds candidats caractères.
    10. Procédé selon la revendications, dans lequel la
    B E2017/5263 tes candidats caractères sont fournis par le premier processus d’identification de caractères et le fait de favoriser les candidats caractères du second type si tes candidats caractères sont fournis par le procédé de classification.
  4. 5 15. Procédé selon ia revendication 1 , dans lequel te premier procédé d’identification de caractères comprend un procédé de modélisation de décision.
    16. Procédé selon la revendication 1, dans lequel te premier processus d’identification de caractères fournit des positions de premiers candidats caractères et comprend en outre une étape de détermination de la liste de points de segmentation des premiers candidats caractères à partir des posions des premiers candidats caractères.
    17. Procédé d’identification de caractères dans une image numérique, procédé comprenant ies étapes consistant à :
    a) appliquer un premier procédé d'identification de caractères pour déterminer des premiers candidats caractères et des premiers points de segmentation correspondant aux premiers candidats caractères,
    b) générer un premier graphe sur la base des premiers candidats caractères et des premiers points de segmentation, dans lequel les premiers points de segmentation sont représentés par des procédé d’identification de caractères sur au moins une partie de l’image numérique pour générer au moins un second candidat caractère,
    d) mettre é jour te graphe par addition du au moins un second candidat caractère au premier graphe et
    e) sélectionner dans le graphe mis à jour des candidats caractères comme caractères de l’image numérique.
    18. Procédé selon ia revendication 17, dans lequel le second procédé d’identification de caractères génère au moins un
    B E2017/5263 second point de segmentation et dans lequel le au moins un second point de segmentation est ajouté au graphe à l’étape d)..
    19. Procédé selon la revendication 18, dans lequel le premier procédé d'identification de caractères fournit des premiers paramètres de vraisemblance fournissant une vraisemblance que les premiers candidats caractères sont corrects, le second procédé d’identification de caractères fournit des seconds paramètres de vraisemblance fournissant une vraisemblance que te au moins un second candidat caractère est correct, et te procédé comprend en outre les étapes consistant à :
    changer l’échelle des premiers paramètres de vraisemblance et/ou des seconds paramétres de vraisemblance pour les rendre comparables l’un à l’autre, ajouter les premiers paramètres de vraisemblance dans le premier graphe et ajouter les seconds paramètres de vraisemblance dans te graphe mis â jour.
    20. Procédé selon la revendication 19, comprenant en outre l’étape d’application d’un procédé de modélisation de décision sur le les seconds paramètres de vraisemblance répondant â un troisième critère prédéterminé.
    22. Procédé selon la revendication 21, dans lequel le premier procédé d'identification de caractères fournit des candidats caractères pour des caractères d'un premier type, dans lequel te second procédé d’identification de caractères fournit des candidats caractères pour des caractères d’un second type et dans lequel le procédé de modélisation de décision comprend une règle qui favorise les candidats caractères correspondant au premier type de caractères si ces candidats
    B E2017/5263 caractères ont été déterminés par te premier procédé d'identification de caractères et favorise les candidats caractères correspondant au second type de caractères si ces candidats caractères ont été déterminés par te second procédé d'identification de caractères.
    23. Procédé selon la revendication 17, dans lequel te second procédé d’identification de caractères utilise comme entrée, à l’étape c), les premiers points de segmentation provenant du premier procédé d’identification de caractères.
    24. Support non transitoire lisible sur ordinateur stockant un
    B E2017/5263
    B E2017/5263
    B E2017/5263 isle de largeurs
    J s ί i
    I ΐ
    I quelconquâ\ Oui aonnees
    Parue de segmentation -de segmentation ï + largeur j
    Second candidat caractère avec sa josition et sa probabilité
    B E2017/5263
    B E2017/5263
    BE2017/5263
    Procédé d’identiflcatton d’un caractère dans une image numérique
    L’invention concerne un procédé de combinaison d’uns première reconnaissance de caractères optique (OCR) (12) et d’une seconde 5 OCR (100). La première OCR (12) opère d’abord sur une image de chaîne de caractères (11). Sa sortis (13) (premiers caractères identifiés, positions des caractères et paramètres de vraisemblance des caractères) est utilisée pour générer un premier graphe (16). Des points de segmentation rapportés aux positrons des premiers caractères 10 identifiés (14) sont utilisés comme entrée par la seconde OCR (100) en effectuant une segmentation et une classification combinées sur l’image de chaîne de caractères (11). La sortie (17) (seconds caractères identifiés, positions des caractères et paramètres de vraisemblance des caractères) de la seconde OCR (100) est utilisée pour mettre à jour (20) 15 le premier graphe (16) afin de générer un second graphe (21) qui combine ia sortie (13) de la première OCR (12) avec la sortie (17) de la seconde OCR (100). Des modèles de décision sont ensuite utilisés pour mod-Her (22) les pondérations de trajets dans le second graphe (21) afin de générer un troisième graphe (23). Un meilleur trajet est déterminé (24) 20 sur te troisième graphe (23) afin rttebtenir l'identification (25) des caractères présents dans l'image de chaîne de caractères (11).
BE20175263A 2017-04-13 2017-04-13 Procédé d'identification d'un caractère dans une image numérique BE1025134B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
BE20175263A BE1025134B1 (fr) 2017-04-13 2017-04-13 Procédé d'identification d'un caractère dans une image numérique

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BE20175263A BE1025134B1 (fr) 2017-04-13 2017-04-13 Procédé d'identification d'un caractère dans une image numérique

Publications (2)

Publication Number Publication Date
BE1025134A1 true BE1025134A1 (fr) 2018-11-09
BE1025134B1 BE1025134B1 (fr) 2018-11-16

Family

ID=64050002

Family Applications (1)

Application Number Title Priority Date Filing Date
BE20175263A BE1025134B1 (fr) 2017-04-13 2017-04-13 Procédé d'identification d'un caractère dans une image numérique

Country Status (1)

Country Link
BE (1) BE1025134B1 (fr)

Also Published As

Publication number Publication date
BE1025134B1 (fr) 2018-11-16

Similar Documents

Publication Publication Date Title
BE1024194A9 (fr) Procédé d&#39;indentification d&#39;un caractère dans une image numérique
BE1022562B1 (fr) Procédé de reconnaissance optique de caractères
US8965126B2 (en) Character recognition device, character recognition method, character recognition system, and character recognition program
US10699109B2 (en) Data entry from series of images of a patterned document
EP3660733A1 (fr) Procédé et système d&#39;extraction d&#39;informations à partir d&#39;images de documents à l&#39;aide d&#39;une interface de conversation et d&#39;une interrogation de base de données
EP1836651B1 (fr) Procédé de recherche, reconnaissance et localisation d&#39;un terme dans l&#39;encre, dispositif, programme d&#39;ordinateur correspondants
KR101633570B1 (ko) 문자 판독용의 프로그램 및 문자 판독 장치 및 문자 판독 방법
BE1025503B1 (fr) Procede de segmentation de ligne
KR20200055760A (ko) 이미지 컨텐츠 인식 방법 및 장치
US9286526B1 (en) Cohort-based learning from user edits
FR2982388A1 (fr) Systeme et procede pour la generation productive de mots composes dans une traduction automatique statistique
FR2963695A1 (fr) Apprentissage de poids de polices pour des echantillons tapes dans le reperage de mots-cles manuscrits
BE1026039B1 (fr) Procede de traitement d&#39;image et systeme de traitement d&#39;image
FR2911201A1 (fr) Procede d&#39;edition d&#39;un texte exprime dans une langue
BE1025006B1 (fr) Procède mis en oeuvre par ordinateur et système de reconnaissance de caractère optique
BE1026159B1 (fr) Système de traitement d’image et procede de traitement d’image
JP2018205800A (ja) 画像解析装置、ニューラルネットワーク装置、学習装置、画像解析方法およびプログラム
CN114429636B (zh) 图像扫描识别方法、装置及电子设备
CN114254643A (zh) 文本纠错方法、装置、电子设备与存储介质
JP2008226030A (ja) 単語認識方法および単語認識プログラム
BE1025134A1 (fr) Procédé d&#39;identification d&#39;un caractère dans une image numérique
US10803309B2 (en) Identifying versions of a form
RU2657181C1 (ru) Способ улучшения качества распознавания отдельного кадра
CN114373178A (zh) 一种图片文字检测与识别方法及系统
FR3095286A1 (fr) Procédé de traitement d’image d’un document d’identité.

Legal Events

Date Code Title Description
FG Patent granted

Effective date: 20181116

MM Lapsed because of non-payment of the annual fee

Effective date: 20190430