FR2955407A1 - Document i.e. text file, compression method, involves generating error of image reconstruction from calculated variation between image and image reconstruction, and compressing error - Google Patents

Document i.e. text file, compression method, involves generating error of image reconstruction from calculated variation between image and image reconstruction, and compressing error Download PDF

Info

Publication number
FR2955407A1
FR2955407A1 FR1050271A FR1050271A FR2955407A1 FR 2955407 A1 FR2955407 A1 FR 2955407A1 FR 1050271 A FR1050271 A FR 1050271A FR 1050271 A FR1050271 A FR 1050271A FR 2955407 A1 FR2955407 A1 FR 2955407A1
Authority
FR
France
Prior art keywords
error
image
processor
document
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1050271A
Other languages
French (fr)
Inventor
Jerome Berger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sagemcom Documents SAS
Original Assignee
Sagem Communications SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sagem Communications SAS filed Critical Sagem Communications SAS
Priority to FR1050271A priority Critical patent/FR2955407A1/en
Publication of FR2955407A1 publication Critical patent/FR2955407A1/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Processing (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

The method involves performing recognition of a text (112) and recognition of a font (113) of an image (10) of a document, where the document is scanned using a scanner of a scanning device. A reconstruction (12) of the image is generated using a processor (20) from the recognized text and the recognized font. Variation between the image and the image reconstruction is computed. An error (13) of the reconstruction is generated from the calculated variation between the image and the image reconstruction. The error is compressed. Independent claims are also included for the following: (1) a processor cooperating with a scanning device for forming an image (2) a computer program product comprising a set of instructions for implementing a method for compressing a document (3) a method for decompressing an error (4) a system for decompressing an error (5) a computer program product comprising a set of instructions for implementing a method for decompressing an error.

Description

DOMAINE TECHNIQUE GENERAL La présente invention concerne un procédé de compression d'un document comportant du texte, le document étant scanné sur un dispositif comportant un scanner pour former une image du document et apte à coopérer avec un processeur. L'invention concerne également un processeur de mise en oeuvre d'un tel procédé, ainsi qu'un produit programme d'ordinateur qui, une fois chargé sur un processeur précité, permet la mise en oeuvre d'un tel procédé. GENERAL TECHNICAL FIELD The present invention relates to a method of compressing a document comprising text, the document being scanned on a device comprising a scanner to form an image of the document and adapted to cooperate with a processor. The invention also relates to a processor for implementing such a method, as well as a computer program product which, when loaded onto a processor mentioned above, allows the implementation of such a method.

En outre, l'invention concerne un procédé de décompression d'une erreur générée par un procédé de compression précité. L'invention concerne enfin un système de mise en oeuvre d'un tel procédé de décompression, ainsi qu'un produit programme d'ordinateur qui, une fois chargé sur un système précité, permet la mise en oeuvre d'un tel procédé. ETAT DE L'ART Comme le montrent les figures 1, l'art antérieur envisage deux solutions pour compresser des images scannées qui représentent du texte. Comme le montre la figure 1A, la première solution connue consiste à traiter le document comme une image, sans tenir compte du fait qu'elle contient du texte. La première solution présente ainsi l'avantage selon lequel une vue du document, au moment de l'affichage ou de l'impression, est parfaitement fidèle à l'original. Elle présente l'inconvénient selon lequel les fichiers générés sont d'un volume important sur une mémoire. Comme le montre la figure 1 B, la deuxième solution connue consiste à appliquer une reconnaissance de caractères et une reconnaissance de police, en utilisant l'un parmi les plusieurs logiciels connus et disponibles dans le commerce, comme par exemple le logiciel de la marque OmniPage, et à stocker le document comme un fichier texte. Le document est reconstitué sous forme de vue au moment de l'affichage ou de l'impression. La deuxième solution présente ainsi l'avantage selon lequel les fichiers générés ont un fort taux de compression et sont d'un volume faible sur une mémoire. Elle présente l'inconvénient selon lequel la vue n'est pas parfaitement fidèle à l'original. En particulier, et comme le montre la figure 1 B, si le logiciel de reconnaissance de caractères se trompe (lecture de « ine » au lieu de « me » dans l'exemple de la figure 1 B), l'erreur est directement répercutée à l'affichage ou lors de l'impression. Afin de permettre la recherche de texte dans le document, la première solution est parfois complétée par une reconnaissance de caractères. On stocke alors deux versions du document : une vue sous forme d'image pure, destinée à l'affichage et à l'impression, et une représentation sous forme d'un fichier texte, invisible pour un utilisateur, mais utilisée pour la recherche. Dans ce cas, le fichier est bien évidemment encore plus volumineux. PRESENTATION DE L'INVENTION L'invention propose de pallier au moins un de ces inconvénients. In addition, the invention relates to a method of decompressing an error generated by a compression method mentioned above. Finally, the invention relates to a system for implementing such a decompression method, and a computer program product which, when loaded on a system mentioned above, allows the implementation of such a method. STATE OF THE ART As shown in FIG. 1, the prior art envisages two solutions for compressing scanned images that represent text. As shown in Figure 1A, the first known solution is to treat the document as an image, regardless of whether it contains text. The first solution thus has the advantage that a view of the document, at the time of display or printing, is perfectly faithful to the original. It has the disadvantage that the generated files are of a large volume on a memory. As shown in FIG. 1B, the second known solution consists in applying a character recognition and a font recognition, using one of the several known and commercially available software, for example the OmniPage brand software. , and to store the document as a text file. The document is reconstructed as a view at the time of display or printing. The second solution thus has the advantage that the files generated have a high compression ratio and are of a low volume on a memory. It has the disadvantage that the view is not perfectly faithful to the original. In particular, and as shown in Figure 1 B, if the character recognition software is wrong (reading "ine" instead of "me" in the example of Figure 1 B), the error is directly passed on on display or when printing. In order to allow searching for text in the document, the first solution is sometimes supplemented by a character recognition. Two versions of the document are stored: a pure image view, intended for display and printing, and a representation in the form of a text file, invisible to a user, but used for searching. In this case, the file is obviously even larger. PRESENTATION OF THE INVENTION The invention proposes to overcome at least one of these disadvantages.

A cet effet, on propose selon l'invention un procédé de compression d'un document comportant du texte, le document étant scanné sur un dispositif comportant un scanner pour former une image du document et apte à coopérer avec un processeur, ledit procédé étant caractérisé en ce que le processeur effectue une reconnaissance de texte et une reconnaissance de police sur l'image ; génère une reconstitution de l'image, à partir du texte reconnu et de la police reconnue ; calcule un écart entre l'image et la reconstitution ; génère une erreur de la reconstitution, à partir de l'écart calculé ; et compresse l'erreur. L'invention est avantageusement complétée par les caractéristiques 25 suivantes, prises seules ou en une quelconque de leur combinaison techniquement possible : - le processeur calcule l'écart entre l'image et la reconstitution par différence, pixel par pixel, entre l'image et la reconstitution ; - le processeur calcule l'écart entre l'image et la reconstitution par 30 transparence, en comparant la différence entre l'image et la reconstitution, pour au moins un pixel, à un seuil, et en marquant ledit au moins un pixel comme opaque ou au moins partiellement transparent en fonction du résultat de la comparaison au seuil ; - le processeur marque ledit au moins un pixel comme opaque dans l'erreur si la différence est supérieure au seuil, et copie alors dans l'erreur la couleur correspondante de l'image ; ou marque ledit au moins un pixel comme opaque ou au moins partiellement transparent dans l'erreur si la différence est inférieure au seuil, et copie alors dans l'erreur respectivement la couleur correspondante de l'image ou une couleur favorisant l'étape de compression et de stockage ; et - le processeur place un drapeau dans l'erreur ou dans un fichier pour indiquer un mode de génération de l'erreur à un système de 10 décompression. L'invention concerne également un processeur de mise en oeuvre d'un tel procédé, ainsi qu'un produit programme d'ordinateur qui, une fois chargé sur un processeur précité, permet la mise en oeuvre d'un tel procédé. En outre, on propose selon l'invention un procédé de décompression d'une 15 erreur générée à partir d'une image d'un document comportant du texte par un procédé précité, ledit procédé de décompression étant mis en oeuvre sur un système comportant un microprocesseur, et caractérisé en ce que le microprocesseur : génère une reproduction de l'image, à partir d'un texte et d'une police reconnus dans le document ; accède à l'erreur et la 20 décompresse ; et génère une vue du document en combinant l'erreur ainsi décompressée et la reproduction ainsi générée. L'invention concerne enfin un système de mise en oeuvre d'un tel procédé de décompression, ainsi qu'un produit programme d'ordinateur qui, une fois chargé sur un système précité, permet la mise en oeuvre d'un tel 25 procédé. L'invention présente de nombreux avantages. L'invention permet notamment d'obtenir un taux de compression meilleur que la première solution connue, tout en permettant une reproduction fidèle, même en cas d'erreur lors de la reconnaissance de 30 caractères, contrairement à la deuxième solution connue. For this purpose, it is proposed according to the invention a method of compressing a document comprising text, the document being scanned on a device comprising a scanner to form an image of the document and able to cooperate with a processor, said method being characterized in that the processor performs text recognition and font recognition on the image; generates a reconstruction of the image, from the recognized text and the recognized font; calculates a difference between the image and the reconstruction; generates an error of the reconstitution, starting from the calculated difference; and compresses the error. The invention is advantageously completed by the following features, taken alone or in any of their technically possible combination: the processor calculates the difference between the image and the pixel-by-pixel difference reconstruction between the image and reconstitution; the processor calculates the difference between the image and the reconstitution by transparency, comparing the difference between the image and the reconstruction, for at least one pixel, at a threshold, and marking said at least one pixel as opaque or at least partially transparent depending on the result of the threshold comparison; the processor marks said at least one pixel as opaque in the error if the difference is greater than the threshold, and then copies in the error the corresponding color of the image; or mark said at least one pixel as opaque or at least partially transparent in the error if the difference is less than the threshold, and then copy in the error respectively the corresponding color of the image or a color promoting the compression step and storage; and the processor places a flag in the error or in a file to indicate a mode of generating the error to a decompression system. The invention also relates to a processor for implementing such a method, as well as a computer program product which, when loaded onto a processor mentioned above, allows the implementation of such a method. Further, according to the invention there is provided a method of decompressing an error generated from an image of a document having text by a method, said decompression method being implemented on a system having a microprocessor, and characterized in that the microprocessor: generates a reproduction of the image, from a text and a font recognized in the document; access the error and decompress it; and generates a view of the document by combining the error thus decompressed and the reproduction thus generated. The invention finally relates to a system for implementing such a decompression method, as well as a computer program product which, when loaded onto a system mentioned above, allows the implementation of such a method. The invention has many advantages. The invention makes it possible in particular to obtain a better compression ratio than the first known solution, while allowing faithful reproduction, even in the event of an error when recognizing 30 characters, unlike the second known solution.

PRESENTATION DES FIGURES D'autres caractéristiques, buts et avantages de l'invention ressortiront de la description qui suit, qui est purement illustrative et non limitative, et qui doit être lue en regard des dessins annexés sur lesquels : - les figures 1, déjà commentées, représentent schématiquement des vues générées par des solutions connues selon l'art antérieur ; - les figures 2 représentent schématiquement les étapes principales d'un procédé de compression selon l'invention, mis en oeuvre notamment sur un processeur selon l'invention ; - la figure 3 représente schématiquement une erreur générée lors de la mise en oeuvre de l'invention ; - la figure 4 représente schématiquement les principales étapes de génération d'une erreur selon la figure 3 ; - les figures 5 représentent schématiquement les étapes principales d'un 15 procédé de décompression selon l'invention, mis en oeuvre notamment sur un système selon l'invention ; et - la figure 6 représente schématiquement les principales étapes de génération d'une vue selon l'invention. Sur l'ensemble des figures, les éléments similaires portent des 20 références numériques identiques. DESCRIPTION DETAILLEE Comme le montrent les figures 2B et 5B, l'invention concerne à la fois la compression d'un document 1 comportant du texte 100, et la décompression d'un tel document compressé. 25 Avant sa compression, le document 1 est scanné sur un dispositif 2 comportant un scanner 3 pour former une image 10 du document 1. L'image 10 peut être stockée sur une mémoire du dispositif 2 ou distante du dispositif 2, en attente de son traitement, ou traitée immédiatement. Le dispositif 2 est notamment mais non limitativement un scanner, une 30 imprimante, un photocopieur, un télécopieur, ou toute machine multifonction pouvant incorporer un scanner 3 pour le scan d'un document comportant du texte 100. PRESENTATION OF THE FIGURES Other features, objects and advantages of the invention will emerge from the description which follows, which is purely illustrative and nonlimiting, and which should be read with reference to the appended drawings in which: FIGS. , schematically represent views generated by known solutions according to the prior art; - Figures 2 schematically show the main steps of a compression process according to the invention, implemented in particular on a processor according to the invention; - Figure 3 schematically shows an error generated during the implementation of the invention; FIG. 4 diagrammatically represents the main steps of generating an error according to FIG. 3; - Figures 5 schematically represent the main steps of a decompression process according to the invention, implemented in particular on a system according to the invention; and FIG. 6 schematically represents the main steps of generating a view according to the invention. In all of the figures, similar elements bear identical reference numerals. DETAILED DESCRIPTION As shown in FIGS. 2B and 5B, the invention concerns both the compression of a document 1 comprising text 100, and the decompression of such a compressed document. Before compression, the document 1 is scanned on a device 2 comprising a scanner 3 to form an image 10 of the document 1. The image 10 can be stored on a memory of the device 2 or remote device 2, waiting for its treatment, or treated immediately. The device 2 includes but is not limited to a scanner, a printer, a photocopier, a fax machine, or any multifunction machine that can incorporate a scanner 3 for scanning a document with text 100.

Comme l'indique la figure 2B, le dispositif 2 est apte à coopérer avec un processeur 20, comportant tous les moyens classiques de stockage (mémoire) et de traitement pour la mise oeuvre d'un procédé selon l'invention. As indicated in FIG. 2B, the device 2 is able to cooperate with a processor 20, comprising all the conventional storage (memory) and processing means for implementing a method according to the invention.

Le processeur 20 peut ainsi être incorporé au dispositif 2 (traits pleins), ou être distant (traits pointillés), par exemple incorporé à un ordinateur ou à tout autre ensemble comportant une mémoire et des moyens de traitement. Dans les deux cas, le processeur 20 peut ainsi accéder notamment à l'image 10 du document 1. The processor 20 can thus be incorporated in the device 2 (solid lines), or remote (dashed lines), for example incorporated in a computer or any other assembly comprising a memory and processing means. In both cases, the processor 20 can thus access in particular the image 10 of the document 1.

On décrit dans un premier temps l'invention en ce qui concerne la compression. Les figures 2, en combinaison avec la figure 4, représentent schématiquement les étapes principales d'un procédé de compression selon l'invention (figure 2A), mis en oeuvre notamment sur un processeur 20 selon l'invention (figure 2B). Selon le procédé de compression selon l'invention, le processeur 20 effectue, lors d'une première étape El, une reconnaissance de texte 112 et une reconnaissance de police 113 sur l'image 10. Sur l'exemple de la figure 4, l'image 10 comporte le texte « me » avec 20 deux légères imperfections : une au-dessus de la première barre du « m » et une autre au niveau du premier jambage du « m ». La reconnaissance de caractères et la reconnaissance de police sont connues en elles-mêmes de l'homme du métier et ne sont pas décrites plus en détail dans la suite de la présente description. Elles peuvent être 25 effectuées par la mise en oeuvre par le processeur 20 de l'un parmi les plusieurs logiciels disponibles dans le commerce, comme par exemple le logiciel de la marque OmniPage. Lors d'une deuxième étape E2 optionnelle, le processeur 20 stocke le texte 112 et la police 113 reconnus , par exemple sur une mémoire 21. 30 Comme l'indique la figure 2B, la mémoire 21 peut être incorporée au dispositif 2, ou au processeur 20, ou à un ensemble distant du dispositif 2 et du processeur 20, par exemple sur un serveur distant ou un autre ensemble comportant une mémoire de stockage. The invention is first described with regard to compression. Figures 2, in combination with Figure 4, schematically show the main steps of a compression process according to the invention (Figure 2A), implemented in particular on a processor 20 according to the invention (Figure 2B). According to the compression method according to the invention, the processor 20 performs, during a first step E1, a text recognition 112 and a font recognition 113 on the image 10. In the example of FIG. Fig. 10 has the text "me" with two slight imperfections: one above the first bar of the "m" and another at the first leg of the "m". Character recognition and font recognition are known in themselves to those skilled in the art and are not described in more detail later in this description. They may be performed by the processor 20 of one of several commercially available software, such as the OmniPage brand software. In an optional second step E2, the processor 20 stores the recognized text 112 and font 113, for example on a memory 21. As shown in FIG. 2B, the memory 21 may be incorporated into the device 2, or processor 20, or to a remote set of the device 2 and the processor 20, for example on a remote server or another set comprising a storage memory.

L'étape E2 de stockage est optionnelle, mais dans tous les cas, le processeur 20 doit avoir accès au texte 112 et à la police 113 reconnus, pour une étape E3 décrite par la suite. Dans l'exemple de la figure 4, le texte 112 reconnu est « ine » et la 5 police 113 reconnue est du type Times New Roman. Lors d'une troisième étape E3, le processeur 20 génère une reconstitution 12 de l'image 10, à partir du texte 112 reconnu et de la police 113 reconnue. La reconstitution 12 se présente alors sous la forme « ine ». 10 Lors d'une étape E4, le processeur 20 calcule un écart A entre l'image 10 et la reconstitution 12. Le calcul de l'écart A est décrit plus en détail dans la suite de la présente description. Lors d'une étape E5, le processeur 20 génère une erreur 13 de la reconstitution 12, à partir de l'écart A calculé. 15 L'erreur 13 est représentée en fin de chaîne sur la figure 4, et plus précisément sur la figure 3, et correspond aux parties foncées sur ces figures. Lors d'une étape E6, le processeur 20 compresse l'erreur 13. Lors de l'étape E6, le processeur 20 peut 20 - soit stocker l'erreur 13 sur la mémoire 21, soit transférer l'erreur 13 compressée vers un système de décompression, par exemple par l'intermédiaire d'un réseau de télécommunications. Très avantageusement, l'erreur 13 est associée au texte 112 et à la 25 police 113 reconnus, en vue d'une décompression ultérieure décrite par la suite. L'erreur 13 contient peu d'informations et se compresse donc mieux que l'image 10, avec un volume moins important sur la mémoire 21. Avantageusement, la reconstitution 12 est effacée pour encore gagner 30 en espace mémoire. Le texte 112 et la police 113 reconnus peuvent également être compressés. La compression notamment de l'erreur 13 effectuée par le processeur 20 est connue en soi par l'homme du métier, et peut par exemple, mais non limitativement, être du type jpeg (« Joint Photographic Experts Group » selon la terminologie anglo-saxonne généralement utilisée), png (« Portable Network Graphics » selon la terminologie anglo-saxonne généralement utilisée), jbig (Joint Bi-level Image experts Group), etc. The storage step E2 is optional, but in all cases, the processor 20 must have access to the recognized text 112 and font 113 for a step E3 described below. In the example of Figure 4, the recognized text 112 is "ine" and the recognized font 113 is Times New Roman. In a third step E3, the processor 20 generates a reconstruction 12 of the image 10, from the recognized text 112 and the recognized font 113. The reconstitution 12 is then in the form "ine". In a step E4, the processor 20 calculates a gap A between the image 10 and the reconstruction 12. The calculation of the difference A is described in more detail later in this description. During a step E5, the processor 20 generates an error 13 of the reconstruction 12, starting from the calculated distance A. The error 13 is represented at the end of the chain in FIG. 4, and more specifically in FIG. 3, and corresponds to the dark portions in these figures. In a step E6, the processor 20 compresses the error 13. In the step E6, the processor 20 can either store the error 13 on the memory 21 or transfer the compressed error 13 to a system decompression, for example via a telecommunications network. Very advantageously, error 13 is associated with recognized text 112 and font 113 for subsequent decompression described later. The error 13 contains little information and therefore compresses better than the image 10, with a smaller volume on the memory 21. Advantageously, the reconstruction 12 is erased to further gain 30 memory space. The recognized text 112 and font 113 can also be compressed. The compression, in particular of the error 13 performed by the processor 20, is known per se by the person skilled in the art, and may for example, but not exclusively, be of the jpeg ("Joint Photographic Experts Group") type according to the English terminology. generally used), png ("Portable Network Graphics" according to the English terminology generally used), jbig (Joint Bi-level Image Experts Group), etc.

Très avantageusement, lors de l'étape E6 par exemple, le processeur 20 crée également un fichier 110 comportant le texte 112 reconnu, la police 113, reconnue, et l'erreur 13 compressée. Le fichier 110 est stocké de préférence sur la mémoire 21, ou peut être envoyé vers un système de décompression par l'intermédiaire d'un réseau de télécommunications. Very advantageously, during the step E6 for example, the processor 20 also creates a file 110 comprising the recognized text 112, the recognized font 113, and the compressed error 13. The file 110 is stored preferably on the memory 21, or may be sent to a decompression system via a telecommunications network.

On décrit ici deux exemples possibles de modes de génération de l'erreur 13, à partir de l'écart A. Selon un premier mode, le processeur 20 calcule, lors de l'étape E4, l'écart A entre l'image 10 et la reconstitution 12 par différence, pixel par pixel, entre l'image 10 et la reconstitution 12. L'écart A pixel par pixel permet alors la génération de l'erreur 13 pour les pixels pour lesquels la différence est non nulle. Selon un deuxième mode, le processeur 20 calcule, lors de l'étape E4, l'écart A entre l'image 10 et la reconstitution 12 par transparence. Selon le deuxième mode, l'erreur 13 contient, pour chaque pixel ou chaque groupe de pixels, une information de transparence (opacité, transparence partielle ou transparence) et une information de couleur. Dans le deuxième mode, le processeur 20 compare la différence entre l'image 10 et la reconstitution 12, pour au moins un pixel, à un seuil S. En d'autres termes, le processeur peut comparer la différence pixel par pixel, ou pour un groupe de pixels de l'image 10 et de la reconstitution 12. La valeur du seuil S est fixée par conception et dépend du niveau de précision souhaitée. Le processeur 20 marque alors ledit au moins un pixel comme opaque ou au moins partiellement transparent en fonction du résultat de la 30 comparaison au seuil S. Si la différence est supérieure au seuil S, le processeur 20 marque ledit au moins un pixel comme opaque dans l'erreur 13, et copie avantageusement alors dans l'erreur 13 la couleur correspondante de l'image 10. Si la différence est inférieure au seuil S, le processeur 20 peut marquer ledit au moins un pixel comme opaque dans l'erreur 13 et peut copier alors respectivement la couleur correspondante de l'image 10 si cette dernière favorise l'étape E6 de compression et de stockage. Si la couleur correspondante de l'image 10 ne favorise pas l'étape E6 de compression et de stockage, le processeur 20 peut marquer ledit au moins un pixel comme au moins partiellement transparent dans l'erreur 13 et choisir une opacité et une couleur qui optimisent la compression, tout en permettant de reconstituer l'image originale. Le processeur 20 peut également marquer le pixel ou le groupe de pixels comme transparent, et dans ce cas peut choisir n'importe quelle couleur favorisant l'étape E6 de compression et de stockage en fonction des pixels voisins. Two possible examples of error generation modes 13 are described here, starting from the gap A. According to a first mode, the processor 20 calculates, during the step E4, the difference A between the image 10 and the pixel-by-pixel difference reconstruction 12 between the image 10 and the reconstruction 12. The gap A pixel by pixel then allows the generation of the error 13 for the pixels for which the difference is non-zero. According to a second mode, the processor 20 calculates, during the step E4, the gap A between the image 10 and the reconstitution 12 by transparency. According to the second mode, the error 13 contains, for each pixel or group of pixels, transparency information (opacity, partial transparency or transparency) and color information. In the second mode, the processor 20 compares the difference between the image 10 and the reconstruction 12, for at least one pixel, with a threshold S. In other words, the processor can compare the difference pixel by pixel, or for a group of pixels of the image 10 and the reconstruction 12. The value of the threshold S is set by design and depends on the desired level of precision. The processor 20 then marks said at least one pixel as opaque or at least partially transparent as a function of the result of the comparison with the threshold S. If the difference is greater than the threshold S, the processor 20 marks said at least one pixel as opaque in the error 13, and advantageously then copies in error 13 the corresponding color of the image 10. If the difference is smaller than the threshold S, the processor 20 can mark said at least one pixel as opaque in the error 13 and can then copy respectively the corresponding color of the image 10 if the latter favors the step E6 of compression and storage. If the corresponding color of the image 10 does not favor the compression and storage step E6, the processor 20 can mark said at least one pixel as at least partially transparent in the error 13 and choose an opacity and a color that optimize the compression, while allowing to reconstitute the original image. The processor 20 may also mark the pixel or group of pixels as transparent, and in this case may choose any color favoring the compression and storage step E6 depending on the neighboring pixels.

Une telle gestion de la transparence en fonction du seuil S est connue en soi par l'homme du métier et n'est pas décrite plus en détail dans la présente description. Le processeur 20 place avantageusement un drapeau 111 (ou « flag » selon la terminologie généralement utilisée par l'homme du métier) dans l'erreur 13 ou le fichier 110 pour indiquer le mode de génération de l'erreur 13 (premier mode ou deuxième mode précités) à un système de décompression, décrit dans la suite. Such management of the transparency as a function of the threshold S is known per se by those skilled in the art and is not described in more detail in the present description. The processor 20 advantageously places a flag 111 (or "flag" according to the terminology generally used by those skilled in the art) in the error 13 or the file 110 to indicate the generation mode of the error 13 (first mode or second aforementioned mode) to a decompression system, described below.

On décrit dans un deuxième temps l'invention en ce qui concerne la 25 décompression. On rappelle que l'erreur 13 compressée est stockée sur une mémoire 21, ou compressée et envoyée à un système 2000 décrit ci-dessous. L'erreur 13 est par exemple contenue dans un fichier 110. Les figures 5, en combinaison avec la figure 6, représentent 30 schématiquement les étapes principales d'un procédé de décompression selon l'invention (figure 5A), mis en oeuvre notamment sur un système 2000 selon l'invention (figure 5B). In a second step, the invention is described with regard to decompression. It is recalled that the compressed error 13 is stored on a memory 21, or compressed and sent to a system 2000 described below. The error 13 is for example contained in a file 110. FIGS. 5, in combination with FIG. 6, schematically represent the main steps of a decompression method according to the invention (FIG. 5A), implemented in particular on a system 2000 according to the invention (Figure 5B).

Le système 2000 comporte notamment un microprocesseur 200 présentant tous les moyens classiques de stockage (mémoire) et de traitement pour la mise oeuvre d'un procédé selon l'invention Le système 2000 peut comporter également un écran d'affichage 201 5 et/ou une imprimante 202. Le système 2000 est notamment mais non limitativement un micro-ordinateur, un scanner, une imprimante, un photocopieur, un télécopieur, ou toute machine multifonction pour l'affichage sur l'écran 201 et/ou l'impression sur l'imprimante 202 d'une vue 1000 du document 1. 10 On comprend que le système 2000 et le dispositif 2 peuvent ne former qu'une seule entité, ou être distincts et séparés physiquement l'un de l'autre, reliés ou non entre eux par un réseau de télécommunication (par exemple des réseaux locaux du type LAN (« local area network » selon la terminologie anglo-saxonne) ou globaux du type Internet. 15 Comme l'indique la figure 5B, le système 2000 est apte à accéder notamment à l'erreur 13 compressée et, au moins au texte 112 reconnu et à la police 113 reconnue. Comme mentionné plus haut, l'accès peut se faire par une coopération avec une mémoire 21, ou grâce à un réseau de télécommunications lié au processeur 20. 20 Selon le procédé de décompression selon l'invention, le microprocesseur 200 génère, lors d'une étape E10, une reproduction 120 de l'image 10, à partir du texte 112 et de la police 113 reconnus dans le document 1. Sur l'exemple de la figure 6, la reproduction 120 présente sous la 25 forme « ine ». Lors d'une étape E11, le microprocesseur 200 accède à l'erreur 13 et la décompresse. La décompression de l'erreur 13, effectuée par le microprocesseur 200, est connue en soi par l'homme du métier, et dépend de la 30 compression, par exemple, mais non limitativement, du type jpeg, png, jbig, etc. The system 2000 comprises in particular a microprocessor 200 having all the conventional means of storage (memory) and processing for the implementation of a method according to the invention. The system 2000 may also comprise a display screen 201 and / or a The system 2000 includes, but is not limited to, a microcomputer, a scanner, a printer, a photocopier, a fax machine, or any multifunction machine for displaying on the screen 201 and / or printing on the screen. printer 202 of a view 1000 of the document 1. It is understood that the system 2000 and the device 2 may form a single entity, or be separate and physically separated from each other, connected or not between them by a telecommunication network (for example LANs of the LAN type ("local area network" in the English terminology) or global networks of the Internet type.) As shown in FIG. 5B, the system 2000 is able to access in particularthe compressed error 13 and at least the recognized text 112 and the recognized font 113. As mentioned above, the access can be done by cooperation with a memory 21, or through a telecommunications network linked to the processor 20. According to the decompression method according to the invention, the microprocessor 200 generates, when a step E10, a reproduction 120 of the image 10, from the text 112 and the font 113 recognized in the document 1. In the example of Figure 6, the reproduction 120 has the form "ine". During a step E11, the microprocessor 200 accesses the error 13 and decompresses it. The decompression of the error 13, carried out by the microprocessor 200, is known per se to those skilled in the art, and depends on the compression, for example, but not exclusively, of the type jpeg, png, jbig, etc.

On comprend que pour les étapes E10 ou E11, le microprocesseur 200 peut également accéder, le cas échéant, au fichier 110 regroupant notamment le texte 112 reconnu, la police 113 reconnue, et l'erreur 13. Le microprocesseur 200 génère, lors d'une étape E12, une vue 1000 du document 10 en combinant l'erreur 13 ainsi décompressée et la reproduction 120 ainsi générée, comme le montre la figure 6. Avantageusement, le microprocesseur 200 du système 2000 utilise le drapeau 111 du fichier 110 ou de l'erreur 13 indiquant le mode de génération de l'erreur 13, pour effectuer la combinaison. It is understood that for the steps E10 or E11, the microprocessor 200 can also access, where appropriate, the file 110 including including the text 112 recognized, the font 113 recognized, and the error 13. The microprocessor 200 generates, when a step E12, a view 1000 of the document 10 by combining the error 13 thus decompressed and the reproduction 120 thus generated, as shown in FIG. 6. Advantageously, the microprocessor 200 of the system 2000 uses the flag 111 of the file 110 or the error 13 indicating the generation mode of the error 13, to effect the combination.

Les étapes de combinaison sont décrites plus en détail dans la suite de la présente description. Le microprocesseur 200 génère une vue 1000 fidèle du document 1 pour son affichage sur l'écran d'affichage 201 ou sur l'imprimante 202, comme le montre la figure 6, même en cas d'erreur lors de la reconnaissance de caractères (« ine » dans la reproduction 120). On décrit ici deux exemples possibles de modes de génération de la vue 1000, en fonction du mode de génération de l'erreur 13, indiqué au microprocesseur 200 grâce au drapeau 111. Selon un premier mode de génération, l'erreur 13 a été générée par 20 différence, et le microprocesseur 200 génère la vue en additionnant l'erreur décompressée à la reproduction 120. Selon un deuxième mode de génération, l'erreur 13 a été générée par transparence. Si un pixel de l'erreur 13 est marqué comme transparent, le microprocesseur 200 copie la couleur du pixel correspondant de la 25 reproduction 120 dans la vue 1000. Si un pixel de l'erreur 13 est marqué comme opaque, le microprocesseur 200 copie la couleur dudit pixel de l'erreur 13 dans la vue 1000. Si un pixel est marqué comme partiellement transparent, le microprocesseur 200 calcule une moyenne entre la couleur de la reproduction 120 et la couleur de l'erreur 13, pondérée par l'opacité 30 dudit pixel de l'erreur 13. Une telle gestion de la transparence est connue en soi par l'homme du métier et n'est pas décrite plus en détail dans la présente description. The combination steps are described in more detail later in this description. The microprocessor 200 generates a faithful view 1000 of the document 1 for its display on the display screen 201 or on the printer 202, as shown in FIG. 6, even in the event of an error in the recognition of characters (" ine "in reproduction 120). Two possible examples of generation modes of the view 1000 are described here, as a function of the generation mode of the error 13, indicated to the microprocessor 200 by the flag 111. According to a first generation mode, the error 13 has been generated. as a difference, and the microprocessor 200 generates the view by adding the decompressed error to the reproduction 120. According to a second generation mode, the error 13 has been generated by transparency. If a pixel of the error 13 is marked as transparent, the microprocessor 200 copies the color of the corresponding pixel of the reproduction 120 into the view 1000. If a pixel of the error 13 is marked as opaque, the microprocessor 200 copies the color of said error pixel 13 in the view 1000. If a pixel is marked as partially transparent, the microprocessor 200 calculates an average between the color of the reproduction 120 and the color of the error 13, weighted by the opacity 30 said pixel of the error 13. Such a management of the transparency is known per se by the person skilled in the art and is not described in more detail in the present description.

L'invention concerne également un produit programme d'ordinateur qui, une fois chargé sur un processeur précité, permet la mise en oeuvre d'un procédé de compression précité, ainsi qu'un produit programme d'ordinateur qui, une fois chargé sur un système précité, permet la mise en oeuvre d'un procédé de décompression précité. The invention also relates to a computer program product which, when loaded onto a processor mentioned above, allows the implementation of a compression method mentioned above, as well as a computer program product which, when loaded onto a aforementioned system, allows the implementation of a decompression method above.

Claims (10)

REVENDICATIONS1. Procédé de compression d'un document (1) comportant du texte (100), le document (1) étant scanné sur un dispositif (2) comportant un scanner (3) pour former une image (10) du document (1) et apte à coopérer avec un processeur (20), ledit procédé étant caractérisé en ce que le processeur (20) - effectue (El) une reconnaissance de texte et une reconnaissance de police sur l'image (10) ; - génère (E3) une reconstitution (12) de l'image (10), à partir du texte (112) reconnu et de la police (113) reconnue ; - calcule (E4) un écart (A) entre l'image (10) et la reconstitution (12) ; - génère (E5) une erreur (13) de la reconstitution (12), à partir de l'écart (A) calculé ; et - compresse (E6) l'erreur (13). REVENDICATIONS1. A method of compressing a document (1) comprising text (100), the document (1) being scanned on a device (2) comprising a scanner (3) to form an image (10) of the document (1) and suitable cooperating with a processor (20), said method being characterized in that the processor (20) performs (E1) text recognition and font recognition on the image (10); generates (E3) a reconstruction (12) of the image (10), from the recognized text (112) and the recognized font (113); calculates (E4) a difference (A) between the image (10) and the reconstruction (12); generates (E5) an error (13) of the reconstitution (12), starting from the calculated difference (A); and - compresses (E6) the error (13). 2. Procédé selon la revendication 1, dans lequel le processeur (20) calcule (E4) l'écart (A) entre l'image (10) et la reconstitution (12) par différence, pixel par pixel, entre l'image (10) et la reconstitution (12). 2. Method according to claim 1, wherein the processor (20) calculates (E4) the difference (A) between the image (10) and the reconstruction (12) by difference, pixel by pixel, between the image ( 10) and reconstitution (12). 3. Procédé selon la revendication 1, dans lequel le processeur (20) calcule (E4) l'écart (A) entre l'image (10) et la reconstitution (12) par transparence, en comparant la différence entre l'image (10) et la reconstitution (12), pour au moins un pixel, à un seuil (S), et en marquant ledit au moins un pixel comme opaque ou au moins partiellement transparent en fonction du résultat de la comparaison au seuil. The method according to claim 1, wherein the processor (20) calculates (E4) the gap (A) between the image (10) and the reconstruction (12) by transparency, comparing the difference between the image ( 10) and the reconstruction (12), for at least one pixel, at a threshold (S), and marking said at least one pixel as opaque or at least partially transparent depending on the result of the threshold comparison. 4. Procédé selon la revendication 3, dans lequel le processeur (20) - marque ledit au moins un pixel comme opaque dans l'erreur (13) si la différence est supérieure au seuil (S), et copie alors dans l'erreur (13) la couleur correspondante de l'image (10) ; ou - marque ledit au moins un pixel comme opaque ou au moins partiellement transparent dans l'erreur (13) si la différence est inférieure au seuil (S), et copie alors dans l'erreur (13) respectivement la couleur correspondante de l'image (10) ou une couleur favorisant l'étape (E6) de compression et de stockage. The method according to claim 3, wherein the processor (20) - marks said at least one pixel as opaque in the error (13) if the difference is greater than the threshold (S), and then copies in the error ( 13) the corresponding color of the image (10); or - marks said at least one pixel as opaque or at least partially transparent in the error (13) if the difference is less than the threshold (S), and then copies in the error (13) respectively the corresponding color of the image (10) or a color promoting the step (E6) of compression and storage. 5. Procédé selon l'une des revendications 1 à 4, dans lequel le processeur (20) place un drapeau (111) dans l'erreur (13) ou dans un fichier (110) pour indiquer un mode de génération de l'erreur (13) à un système (2000) de décompression. 5. Method according to one of claims 1 to 4, wherein the processor (20) places a flag (111) in the error (13) or in a file (110) to indicate a mode of generating the error (13) to a system (2000) for decompression. 6. Processeur (20) apte à coopérer avec un dispositif (2) comportant un scanner (3) pour former une image (10) d'un document (1) comportant du texte (100), ledit processeur (20) étant caractérisé en ce qu'il est adapté pour la mise en oeuvre d'un procédé selon l'une des revendications 1 à 5. Processor (20) adapted to cooperate with a device (2) comprising a scanner (3) for forming an image (10) of a document (1) comprising text (100), said processor (20) being characterized in it is suitable for the implementation of a method according to one of claims 1 to 5. 7. Produit programme d'ordinateur qui, une fois chargé sur un processeur (20) selon la revendication 6, permet la mise en oeuvre d'un procédé selon l'une des revendications 1 à 5. 7. Computer program product which, when loaded on a processor (20) according to claim 6, allows the implementation of a method according to one of claims 1 to 5. 8. Procédé de décompression d'une erreur (13) générée à partir d'une 20 image (10) d'un document (1) comportant du texte (100) par un procédé selon l'une des revendications 1 à 5, ledit procédé de décompression étant - mis en oeuvre sur un système (2000) comportant un microprocesseur (200), et 25 - caractérisé en ce que le microprocesseur (200) : - génère (E10) une reproduction (120) de l'image (10), à partir d'un texte (112) et d'une police (113) reconnus dans le document (1) ; - accède (E11) à l'erreur (13) et la décompresse (E11) ; et - génère (E12) une vue (1000) du document (10) en combinant 30 l'erreur (13) ainsi décompressée et la reproduction (120) ainsi générée. A method of decompressing an error (13) generated from an image (10) of a document (1) having text (100) by a method according to one of claims 1 to 5, said decompression method being implemented on a system (2000) comprising a microprocessor (200), and characterized in that the microprocessor (200): generates (E10) a reproduction (120) of the image (10); ), from a text (112) and a font (113) recognized in the document (1); - accesses (E11) the error (13) and the decompress (E11); and - generates (E12) a view (1000) of the document (10) by combining the error (13) thus decompressed and the reproduction (120) thus generated. 9. Système (2000) comportant un microprocesseur (200), caractérisé en ce que le microprocesseur (200) est adapté pour la mise en oeuvre d'un procédé selon la revendication 8. 9. System (2000) comprising a microprocessor (200), characterized in that the microprocessor (200) is adapted for carrying out a method according to claim 8. 10. Produit programme d'ordinateur qui, une fois chargé sur un système (2000) selon la revendication 9, permet la mise en oeuvre d'un procédé selon la revendication 8. 10. Computer program product which, when loaded on a system (2000) according to claim 9, allows the implementation of a method according to claim 8.
FR1050271A 2010-01-15 2010-01-15 Document i.e. text file, compression method, involves generating error of image reconstruction from calculated variation between image and image reconstruction, and compressing error Pending FR2955407A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1050271A FR2955407A1 (en) 2010-01-15 2010-01-15 Document i.e. text file, compression method, involves generating error of image reconstruction from calculated variation between image and image reconstruction, and compressing error

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1050271A FR2955407A1 (en) 2010-01-15 2010-01-15 Document i.e. text file, compression method, involves generating error of image reconstruction from calculated variation between image and image reconstruction, and compressing error

Publications (1)

Publication Number Publication Date
FR2955407A1 true FR2955407A1 (en) 2011-07-22

Family

ID=42358646

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1050271A Pending FR2955407A1 (en) 2010-01-15 2010-01-15 Document i.e. text file, compression method, involves generating error of image reconstruction from calculated variation between image and image reconstruction, and compressing error

Country Status (1)

Country Link
FR (1) FR2955407A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388814A2 (en) * 2002-04-25 2004-02-11 Microsoft Corporation Clustering of a document image

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388814A2 (en) * 2002-04-25 2004-02-11 Microsoft Corporation Clustering of a document image

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "An Introduction to JBIG2", 9 January 2008 (2008-01-09), XP002595786, Retrieved from the Internet <URL:http://web.archive.org/web/20080109065614/http://jbig2.com/jb2com_history.html> [retrieved on 20100806] *
BRICKMAN: "WORD AUTOCORRELATION REDUNDANCY MATCH TECHNOLOGY", IBM JOURNAL OF RESEARCH AND DEVELOPMENT, vol. 26, 1 January 1986 (1986-01-01), INTERNATIONAL BUSINESS MACHINES CORPORATION, NEW YORK, NY, US, pages 681 - 686, XP008072375, ISSN: 0018-8646 *
HADI GRAILU ET AL: "A lossy/lossless compression method for printed typeset bi-level text images based on improved pattern matching", INTERNATIONAL JOURNAL OF DOCUMENT ANALYSIS AND RECOGNITION (IJDAR), vol. 11, no. 4, 23 January 2009 (2009-01-23), SPRINGER, BERLIN, DE, pages 159 - 182, XP019661606, ISSN: 1433-2825 *
HADI GRAILU ET AL: "Farsi and Arabic document images lossy compression based on the mixed raster content model", INTERNATIONAL JOURNAL OF DOCUMENT ANALYSIS AND RECOGNITION (IJDAR), vol. 12, no. 4, 30 June 2009 (2009-06-30), SPRINGER, BERLIN, DE, pages 227 - 248, XP019742896, ISSN: 1433-2825, DOI: 10.1007/S10032-009-0088-6 *
IAN H. WITTEN, ALISTAIR MOFFAT, THIMOTHY C. BELL: "Managing Gigabytes", 7 February 2000, MORGAN KAUFMAN, San Francisco, CA, USA, ISBN: 1558605703, XP002595864 *
PATRICE J CAPITANT AND ROBERT H WALLIS: "The application of optical character recognition techniques to bandwidth compression of facsimile data", AFIPS JOINT COMPUTER CONFERENCES, 19 May 1980 (1980-05-19) - 22 May 1980 (1980-05-22), Anaheim, CA, USA, pages 415 - 421, XP040464244 *
WITTEN I H ET AL: "Textual image compression", DATA COMPRESSION CONFERENCE, 24 March 1992 (1992-03-24), SNOWBIRD, UT, USA, pages 42 - 51, XP010027561, ISBN: 978-0-8186-2717-0, DOI: 10.1109/DCC.1992.227477 *

Similar Documents

Publication Publication Date Title
Cheng et al. Robust algorithm for exemplar-based image inpainting
EP0997042B1 (en) Method for marking a compressed digital video signal
US8503036B2 (en) System and method of improving image quality in digital image scanning and printing by reducing noise in output image data
EP3216219A1 (en) Method for producing animated images
FR2909474A1 (en) Method for coding digital image, involves coding successive digital images corresponding to several versions of one and same initial image at spatial resolutions different from that of initial image
FR2907239A1 (en) Predetermined digital image searching and recognizing method for microcomputer, involves allocating subscript to index to provide image that obtains reduced image having value chosen by function applied to pixels of reduced image
EP2347590B1 (en) Image prediction with forward motion compensation
FR2917525A1 (en) PROCESSING BIOMETRIC DATA BY TRANSFORMATION
EP1467316A1 (en) Colour adaptive watermarking of images in wavelet space
FR2955407A1 (en) Document i.e. text file, compression method, involves generating error of image reconstruction from calculated variation between image and image reconstruction, and compressing error
Karaduzovic-Hadziabdic et al. Expert evaluation of deghosting algorithms for multi-exposure high dynamic range imaging
EP2815378A1 (en) Method for inserting a digital mark into an image, and corresponding method for detecting a digital mark in an image to be analysed
CA2416198A1 (en) Image watermarking decoding and processing system
EP2364489B1 (en) Method and device for embedding a binary sequence in a compressed video stream
FR2755564A1 (en) Image data coding using adjacent pixels in successive scan lines
EP1390905B1 (en) Method for detecting text zones in a video image
WO2020070409A1 (en) Coding and decoding of an omnidirectional video
FR3109685A1 (en) Methods and devices for encoding and decoding a multi-view video sequence
WO2020169781A1 (en) Method for concealing data in an image or a video stream inside a compression chain
WO2019166720A1 (en) Dynamic detection of stray light in a digital image
Jadav et al. A Comparative study of different techniques in image Inpainting
Walsh How to preserve your films forever
BE1022166B1 (en) IMAGE COMPRESSION METHOD
FR2859591A1 (en) DVD and digital television image processing circuit includes external volatile memory for processing multiple video and graphical planes
JP2006222940A (en) Image processing apparatus

Legal Events

Date Code Title Description
TP Transmission of property

Owner name: SAGEMCOM DOCUMENTS SAS, FR

Effective date: 20111005