JP2009182655A - Image processing apparatus - Google Patents

Image processing apparatus Download PDF

Info

Publication number
JP2009182655A
JP2009182655A JP2008019690A JP2008019690A JP2009182655A JP 2009182655 A JP2009182655 A JP 2009182655A JP 2008019690 A JP2008019690 A JP 2008019690A JP 2008019690 A JP2008019690 A JP 2008019690A JP 2009182655 A JP2009182655 A JP 2009182655A
Authority
JP
Japan
Prior art keywords
image
image information
character
partial area
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008019690A
Other languages
Japanese (ja)
Other versions
JP4957570B2 (en
Inventor
Katsuya Koyanagi
勝也 小柳
Kazuhiro Otani
和宏 大谷
Kenji Furuyama
健司 古山
Masataka Kamiya
昌孝 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2008019690A priority Critical patent/JP4957570B2/en
Publication of JP2009182655A publication Critical patent/JP2009182655A/en
Application granted granted Critical
Publication of JP4957570B2 publication Critical patent/JP4957570B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

<P>PROBLEM TO BE SOLVED: To provide an image processing apparatus generating a PDF file which performs a character recognition processing in a high image quality and a high compression rate. <P>SOLUTION: Out of characters extracted by an extraction means for extracting characters from an image, partial area characters included in partial areas of the image expressed only in a single color and lighter in color than the corresponding partial area are retrieved. For characters not retrieved, first binary image information consisting of only characters having the same color as that of the characters not retrieved is generated. For the partial areas including the retrieved partial area characters, when partial area images from which the partial area characters have been eliminated can be expressed only in a single color, second binary image information consisting of the partial area images and characters having the same color as that of the partial area images is generated. Using the generated first binary image information and second binary image information, multivalued image information is generated by erasing the areas extracted as the binary images using the peripheral colors of those areas, and character information indicating only the characters extracted by the extraction means is generated. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、画像処理装置に関する。   The present invention relates to an image processing apparatus.

従来より、電子ファイルのフォーマットとしてPDF(Portable Document Format)がる。このPDFは、例えばスキャナで読み込んだ画像を電子化する際にも用いられる。   Conventionally, PDF (Portable Document Format) has been used as an electronic file format. This PDF is also used when, for example, an image read by a scanner is digitized.

このようなPDFに関する技術として、特許文献1には、多値画像から文字領域を抽出し、文字無し多値画像と文字画像を生成し、高圧縮PDFを得る技術が開示されている。具体的には、反転文字領域(白抜き文字)も文字と判断された場合、白文字部を抽出して白文字として2値化処理する方法と、下字と文字部を分ける1つのしきい値を検出し反転パターンであれば反転する方法とが開示されている。
特開2002−077633号公報
As a technique related to such a PDF, Patent Document 1 discloses a technique for extracting a character region from a multi-value image, generating a character-free multi-value image and a character image, and obtaining a highly compressed PDF. Specifically, when the reverse character area (outline character) is also determined to be a character, a method of extracting the white character portion and binarizing it as a white character, and one threshold for dividing the lower character and the character portion A method is disclosed in which a value is detected and reversed if the pattern is reversed.
JP 2002-077633 A

上記PDFにおいて、文字認識を行う場合、2値画像または文字部分を背景色で埋めた多値画像に対して行われるが、白抜き文字のように周辺濃度より淡い文字の場合、文字部分を背景色で埋めるより、文字を囲う部分を背景色で埋めるほうが高画質、高圧縮を実現できる。しかし文字でない部分を2値化して残し、文字部分を多値画像に残す場合、文字(2値画像)画素を利用した文字認識処理(OCR処理)など、2次利用する場合に正しく処理ができないという問題があった。   In the PDF, when character recognition is performed, a binary image or a multi-value image in which character portions are filled with a background color is performed. Higher image quality and higher compression can be achieved by filling the area surrounding the character with the background color than filling it with color. However, when a non-character part is binarized and the character part is left in a multi-valued image, the character recognition process (OCR process) using character (binary image) pixels cannot be correctly processed in the secondary use. There was a problem.

本発明は上記問題点に鑑み、高画質かつ高圧縮で文字認識処理を実行可能なPDFファイルを生成する画像処理装置を提供することを目的とする。   In view of the above problems, an object of the present invention is to provide an image processing apparatus that generates a PDF file that can execute character recognition processing with high image quality and high compression.

上記目的を達成するために、請求項1の発明は、記録媒体に描かれた画像を読み込み、前記画像を示す画像情報を生成する画像情報生成手段と、前記画像情報生成手段により生成された画像情報から、前記画像内における文字を抽出する抽出手段と、前記抽出手段により抽出された文字のうち、単一色のみで表現された前記画像の部分領域に含まれた文字である部分領域文字の色の濃度が、前記部分領域の色の濃度と比較して薄い文字を検索する検索手段と、前記検索手段により検索されなかった文字の場合はその文字と同色の文字のみで構成された第1の2値画像情報を生成する第1の2値画像生成手段と、前記検索手段により検索された前記部分領域文字を含む前記部分領域で、前記部分領域文字を除く領域を示す部分領域画像を前記単一色のみで表現可能な場合に、前記部分領域画像及び前記部分領域画像と同色の文字のみで構成された第2の2値画像情報を生成する第2の2値画像手段と、前記第1の2値画像生成手段により生成された前記第1の2値画像情報、及び前記第2の生成手段により生成された前記第2の2値画像情報を用いて、当該2値画像として抽出された領域をその領域の周辺色を用いることで消去した多値画像情報を生成する多値画像情報生成手段と、前記抽出手段により抽出された文字のみを示す文字情報を生成する文字情報生成手段と、前記文字情報、前記第1の2値画像情報、前記第2の2値画像情報、及び前記多値画像情報を、前記画像を示す情報として関連づける関連づけ手段と、を有する画像処理装置。   In order to achieve the above object, the invention of claim 1 reads an image drawn on a recording medium, generates image information indicating the image, and an image generated by the image information generation unit. Extraction means for extracting characters in the image from the information, and the color of the partial area character that is a character included in the partial area of the image represented by only a single color among the characters extracted by the extraction means A search means for searching for a character that is lighter than the color density of the partial area, and a character that is not searched for by the search means is a first character composed of only characters of the same color as the character. A first binary image generating means for generating binary image information; and a partial area image indicating an area excluding the partial area character in the partial area including the partial area character searched by the search means. A second binary image means for generating second binary image information composed only of characters of the same color as the partial area image and the partial area image when the color can be expressed only by the color; An area extracted as the binary image using the first binary image information generated by the binary image generation means and the second binary image information generated by the second generation means. Multi-value image information generating means for generating multi-value image information erased by using the peripheral color of the area, character information generating means for generating character information indicating only the characters extracted by the extracting means, An image processing apparatus comprising: an association unit that associates character information, the first binary image information, the second binary image information, and the multi-value image information as information indicating the image.

上記目的を達成するために、請求項2の発明は、記録媒体に描かれた画像を読み込み、前記画像を示す画像情報を生成する画像情報生成手段と、前記画像情報生成手段により生成された画像情報から、前記画像内における文字を抽出する抽出手段と、前記抽出手段により抽出された文字と同色の文字のみで構成された第1の2値画像情報を生成する第1の2値画像生成手段と、前記抽出手段により抽出された文字のうち、単一色のみで表現された前記画像の部分領域に含まれた文字である部分領域文字の色の濃度が、前記部分領域の色の濃度と比較して薄い文字を検索する検索手段と、前記検索手段により検索された部分領域文字を含む前記部分領域で、当該部分領域文字を除く領域を示す部分領域画像を前記単一色のみで表現可能な場合に、前記部分領域画像及び前記部分領域画像と同色の文字のみで構成された第2の2値画像情報を生成する第2の2値画像生成手段と、前記第1の2値画像生成手段により生成された前記第1の2値画像情報、及び前記第2の生成手段により生成された前記第2の2値画像情報を用いて、2値画像として抽出された領域をその領域の周辺色を用いることで消去した多値画像情報を生成する多値画像情報生成手段と、前記検索手段により検索された前記部分領域文字のみを含む画像を示す第3の2値画像情報を生成する第3の2値画像情報生成手段と、前記抽出手段により抽出された文字のみを示す文字情報を生成する文字情報生成手段と、前記文字情報、前記第1の2値画像情報、前記第2の2値画像情報、前記第3の2値画像情報、及び前記多値画像情報を、前記画像を示す情報として関連づける関連づけ手段と、を有する画像処理装置。   In order to achieve the above object, the invention according to claim 2 reads an image drawn on a recording medium, generates image information indicating the image, and an image generated by the image information generation unit. Extraction means for extracting characters in the image from information, and first binary image generation means for generating first binary image information composed only of characters having the same color as the characters extracted by the extraction means And the density of the color of the partial area character that is included in the partial area of the image expressed by only a single color among the characters extracted by the extracting means is compared with the density of the color of the partial area. A partial area image showing an area excluding the partial area character in the partial area including the partial area character searched by the searching means and the partial area character searched by the search means can be expressed only by the single color In A second binary image generating unit configured to generate second binary image information including only the partial region image and characters of the same color as the partial region image; and the first binary image generating unit. The area extracted as a binary image using the first binary image information and the second binary image information generated by the second generation means uses a peripheral color of the area. Multi-value image information generating means for generating multi-value image information erased in step 3, and third binary value for generating third binary image information indicating an image including only the partial area characters searched by the search means Image information generating means, character information generating means for generating character information indicating only the characters extracted by the extracting means, the character information, the first binary image information, the second binary image information, The third binary image information, and the Image processing apparatus having a value image information, and means associated with associating the information indicating the image.

また、請求項3の発明は、請求項1又は請求項2の発明において、前記多値画像情報を圧縮する第1の圧縮手段と、前記文字情報、前記第1の2値画像情報、及び前記第2の2値画像情報のうちの少なくとも1つの情報を圧縮する第2の圧縮手段と、を更に有するものである。   The invention according to claim 3 is the invention according to claim 1 or 2, wherein the first compression means for compressing the multi-value image information, the character information, the first binary image information, and the And second compression means for compressing at least one piece of the second binary image information.

請求項1の発明によれば、高画質かつ高圧縮で文字認識処理を実行可能なPDFファイルを生成する画像処理装置を提供することができる。   According to the first aspect of the present invention, it is possible to provide an image processing apparatus that generates a PDF file that can execute character recognition processing with high image quality and high compression.

請求項2の発明によれば、高画質かつ高圧縮で文字認識処理を実行可能なPDFファイルを生成する画像処理装置を提供することができる。   According to the second aspect of the present invention, it is possible to provide an image processing apparatus that generates a PDF file that can execute character recognition processing with high image quality and high compression.

請求項3の発明によれば、文字情報、第1の2値画像情報、及び第2の2値画像情報のうちの少なくとも1つの情報を圧縮できるので、全体の情報量を圧縮することができる。   According to the invention of claim 3, since at least one of the character information, the first binary image information, and the second binary image information can be compressed, the entire information amount can be compressed. .

以下、図面を参照して、本発明の実施の形態について詳細に説明する。なお、以下の説明では、画像処理装置をプリンタに適用した実施例について説明する。また、紙等の記録媒体を用紙と表現する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the following description, an embodiment in which the image processing apparatus is applied to a printer will be described. A recording medium such as paper is expressed as paper.

まず、図1を用いてプリンタ10のハードウェア構成について説明する。プリンタ10は、CPU(Central Processing Unit)40と、フラッシュメモリ42と、RAM(Random Access Memory)44と、NVM(Non-Volatile Memory)46と、UI(User Interface)48と、HDD(Hard Disk Drive)50と、プリンタエンジン52と、スキャナエンジン54と、バス56とを含む。   First, the hardware configuration of the printer 10 will be described with reference to FIG. The printer 10 includes a central processing unit (CPU) 40, a flash memory 42, a random access memory (RAM) 44, a non-volatile memory (NVM) 46, a user interface (UI) 48, and a hard disk drive (HDD). ) 50, a printer engine 52, a scanner engine 54, and a bus 56.

CPU40は、プリンタ10の全体の動作を司るものであり、後述するフローチャートに示される処理は、CPU40により実行される。フラッシュメモリ42は、RAM44に展開されるプログラム及び起動時に動作するブートプログラム等が記憶されている。   The CPU 40 governs the overall operation of the printer 10, and the processing shown in the flowchart described later is executed by the CPU 40. The flash memory 42 stores a program developed in the RAM 44, a boot program that operates at startup, and the like.

RAM44は、OS(Operating System)やプログラムや画像情報等が展開される記憶装置である。NVM46には、プリンタ10に係る設定値等が記憶される。   The RAM 44 is a storage device in which an OS (Operating System), programs, image information, and the like are expanded. The NVM 46 stores setting values and the like related to the printer 10.

プリンタエンジン52は、用紙に画像を印刷するエンジンである。スキャナエンジン54は、用紙に描かれた画像を読み込み、画像を示す画像情報を生成するものである。   The printer engine 52 is an engine that prints an image on paper. The scanner engine 54 reads an image drawn on a sheet and generates image information indicating the image.

HDD50は、画像情報等が記録される記憶装置である。UI48は、ユーザがプリンタ10の操作や情報を入力する際に用いられるものである。バス56は、情報のやりとりが行われる際に使用される。   The HDD 50 is a storage device that stores image information and the like. The UI 48 is used when the user inputs operations of the printer 10 and information. The bus 56 is used when information is exchanged.

なお、以上説明した構成に、ネットワークと接続するためのNIC(Network Interface Card)やそのドライバ、或いはUSBデバイスや、電話回線と接続するためのインタフェース等、画像処理に関するものを加えるようにしても良い。   It should be noted that a NIC (Network Interface Card) for connecting to a network, a driver thereof, a USB device, an interface for connecting to a telephone line, or the like may be added to the configuration described above. .

以下、フローチャートを用いて、本実施の形態に係る画像処理について説明する。まず、図2を用いて、画像処理(その1)について説明する。この画像処理は、図3に示される用紙(以下、原稿と記す)を読み込み、図4、図5に示される画像を生成する処理を示すものである。これらの図面とともにフローチャートの説明をする。   Hereinafter, image processing according to the present embodiment will be described using a flowchart. First, image processing (part 1) will be described with reference to FIG. This image processing shows processing for reading the paper shown in FIG. 3 (hereinafter referred to as a document) and generating the images shown in FIGS. The flowchart will be described with these drawings.

まず、ステップ101で、用紙(図3の原稿)に描かれた画像をスキャナエンジン54により読み込み、画像を示す画像情報を生成する。なお、この図3の原稿において、文字A、文字Cは単一色で同色とする。また、部分領域A、Bは単一色で同色とする。更に、また、文字Bは白抜き文字とする。   First, in step 101, an image drawn on a sheet (original in FIG. 3) is read by the scanner engine 54, and image information indicating the image is generated. In the document shown in FIG. 3, the characters A and C are the same color with a single color. The partial areas A and B are a single color and the same color. Furthermore, the character B is a white character.

次のステップ102で、画像内における文字を抽出する。図3の原稿では、文字A〜Cの3つの「ABC」が抽出される。次のステップ103で、抽出された文字を含む単一色の部分領域があるか否か判断する。図3の原稿では、同図に示されるように2つの部分領域があると判断される。   In the next step 102, characters in the image are extracted. In the manuscript of FIG. 3, three “ABC” characters A to C are extracted. In the next step 103, it is determined whether or not there is a single color partial region including the extracted character. In the document of FIG. 3, it is determined that there are two partial areas as shown in FIG.

上記ステップ103で、否定判断した場合には、ステップ111で、文字情報を生成し、ステップ112で圧縮処理を行い、ステップ113で画像情報と文字情報を関連づける。ここで、文字情報とは、OCR(Optical Character Recognition)処理対象として最適な2値画像情報で、例えば、図5に示されるような文字のみの画像を示す情報である。また、圧縮処理とは、多値画像を圧縮する場合は、例えば、JPEG形式で圧縮し、2値画像を圧縮する場合は、例えば、MMR形式で圧縮する処理を示している。   If a negative determination is made in step 103, character information is generated in step 111, compression processing is performed in step 112, and image information and character information are associated in step 113. Here, the character information is binary image information that is optimal as an OCR (Optical Character Recognition) processing target, and is information that indicates, for example, a character-only image as shown in FIG. The compression process indicates a process of compressing, for example, in the JPEG format when compressing a multi-valued image, and compressing in a MMR format, for example, when compressing a binary image.

更に画像情報と文字情報を関連づけるとは、画像情報に描かれている文字を示す情報として文字情報を関連づけたPDFファイルを作成するという意味である。この関連づけに関しては、以下の説明でも関連づけたPDFファイルを作成するという意味で用いることとする。   Further, associating image information with character information means creating a PDF file in which character information is associated as information indicating characters drawn in the image information. This association is used in the following description in the sense of creating an associated PDF file.

ステップ103の処理に戻り、図3の場合は、同図に示されるように、抽出された文字を含む単一色の部分領域A、Bがあるため、このステップでは肯定判断されることとなる。   Returning to the processing of step 103, in the case of FIG. 3, as shown in FIG. 3, since there are single-color partial areas A and B including the extracted characters, an affirmative determination is made in this step.

このステップ103で肯定判断した場合には、次のステップ104で、文字の色の濃度が部分領域の色の濃度より低い文字を検索する。図3の原稿の場合、文字Bを含む部分領域において、文字Bの色の濃度が部分領域の色の濃度より低いため、この部分領域に含まれる文字Bが検索されることとなる。なお、本実施の形態における濃度とは、例えば、R(Red)G(Green)B(Blue)の各値に重み付けをした和を示し、この和が大きいほど濃度は低いとするようにしても良い。   If the determination in step 103 is affirmative, in step 104, a character having a character color density lower than the partial region color density is searched. In the case of the original shown in FIG. 3, since the color density of the character B is lower than the color density of the partial area in the partial area including the character B, the character B included in the partial area is searched. The density in the present embodiment indicates, for example, the sum of weighted values of R (Red), G (Green), and B (Blue), and the larger the sum, the lower the density. good.

次のステップ105で、検索されなかった文字の場合はその文字と同色の文字のみで構成された第1の2値画像情報を生成する。図3の場合、検索されなかった文字は、文字A、及び文字Cである。従って、第1の2値画像は、図4(B)に示される画像となる。   In the next step 105, in the case of a character that has not been searched, first binary image information composed only of characters having the same color as the character is generated. In the case of FIG. 3, the characters that have not been searched are the characters A and C. Therefore, the first binary image is the image shown in FIG.

次のステップ106で、検索された部分領域文字を含む部分領域で、部分領域文字を除く領域を示す部分領域画像を単一色のみで表現可能な場合に、部分領域画像及び部分領域画像と同色の文字のみで構成された第2の2値画像情報を生成する。検索された文字は、文字Bであり、この文字を含む部分領域画像は部分領域Bであるので、第2の2値画像情報は、図4(C)に示される画像となる。   In the next step 106, if the partial area image including the searched partial area character and representing the area excluding the partial area character can be expressed only in a single color, the partial area image and the same color as the partial area image are displayed. Second binary image information composed only of characters is generated. Since the searched character is the character B, and the partial region image including this character is the partial region B, the second binary image information is an image shown in FIG.

次のステップ107で、第1の2値画像情報が示す画像及び第2の2値画像情報が示す画像のいずれにも含まれない画像を示す多値画像情報を生成する。図4(B)に文字A、C、図4(C)に文字Bが示されているので、図3に示された画像で図4(B)、図4(C)のいずれにも含まれない画像は図4(A)となる。   In the next step 107, multi-value image information indicating an image not included in any of the image indicated by the first binary image information and the image indicated by the second binary image information is generated. Since characters A and C are shown in FIG. 4 (B) and character B is shown in FIG. 4 (C), the image shown in FIG. 3 is included in both FIG. 4 (B) and FIG. 4 (C). The unsuccessful image is shown in FIG.

次のステップ108で、文字情報を生成する。この文字情報は、ステップ102により抽出された文字のみを示す情報であり、図3の原稿の場合、図5に示される画像となる。これはOCR処理対象となる画像である。   In the next step 108, character information is generated. This character information is information indicating only the characters extracted in step 102, and in the case of the original shown in FIG. 3, the image shown in FIG. 5 is obtained. This is an image to be subjected to OCR processing.

次のステップ109で、上述した圧縮処理を行う。この圧縮処理では、図4(A)に示される多値画像情報を圧縮(例えばJPEG形式等)し、文字画像情報、第1の2値画像情報、及び前記第2の2値画像情報のうちの少なくとも1つの情報を圧縮(例えばMMR形式)する。   In the next step 109, the above-described compression processing is performed. In this compression processing, the multi-valued image information shown in FIG. 4A is compressed (for example, JPEG format), and the character image information, the first binary image information, and the second binary image information are At least one piece of information is compressed (for example, MMR format).

次のステップ110で、第1の2値画像情報、第2の2値画像情報、多値画像情報、文字情報を関連づける。なお、この処理は、第1の2値画像情報、第2の2値画像情報、多値画像情報が、1つの画像のレイヤとなっていることを示すための処理であり、文字情報はこの画像に描かれている文字を示す情報として文字情報を関連づけられる。   In the next step 110, the first binary image information, the second binary image information, the multi-value image information, and the character information are associated. This process is a process for indicating that the first binary image information, the second binary image information, and the multi-value image information are layers of one image. Character information can be associated as information indicating the character drawn on the image.

このように、2値画像として表現可能なもの2値画像として生成し、そうではないものは多値画像として生成するため、高画質な画像が得られる。また、多値画像の情報量を減らすことで、高圧縮を実現することができる。更に、文字情報が生成されているので、改めてOCR処理を実施する必要もない。   In this way, what can be expressed as a binary image is generated as a binary image, and what is not can be generated as a multi-valued image, so that a high-quality image can be obtained. Further, high compression can be realized by reducing the information amount of the multi-valued image. Furthermore, since character information is generated, there is no need to perform OCR processing again.

次に、図6、図7を用いて、画像処理(その2)について説明する。この画像処理は、図8に示される用紙(以下、原稿と記す)を読み込み、図9、図10に示される画像と、図5に示した画像とを示す文字情報を生成する処理を示すものである。これらの図面とともにフローチャートの説明をする。   Next, image processing (part 2) will be described with reference to FIGS. This image processing shows processing for reading the paper shown in FIG. 8 (hereinafter referred to as a document) and generating character information indicating the images shown in FIGS. 9 and 10 and the image shown in FIG. It is. The flowchart will be described with these drawings.

まず、ステップ201で、図8の原稿に描かれた画像を読み込み、画像を示す画像情報を生成する。なお、この図8の原稿において、文字A、文字Cは単一色で同色とする。また、文字A、B、Cは単一色であるが、全て異なる色とする。また、文字Bは、図3の原稿と異なり、白抜きではなく部分領域とは異なる単一色であるとする。更に、部分領域A、Bは単一色で同色とする。   First, in step 201, an image drawn on the original in FIG. 8 is read to generate image information indicating the image. In the document shown in FIG. 8, the characters A and C are the same color with a single color. Characters A, B, and C have a single color, but are all different colors. Further, unlike the original of FIG. 3, the character B is not white and has a single color different from the partial area. Furthermore, the partial areas A and B are a single color and the same color.

次のステップ202で、画像内における文字を抽出する。図8の原稿では、文字A〜Cの3つの「ABC」が抽出される。次のステップ203で、抽出された文字を含む単一色の部分領域があるか否か判断する。   In the next step 202, characters in the image are extracted. In the manuscript of FIG. 8, three “ABC” characters A to C are extracted. In the next step 203, it is determined whether or not there is a single color partial area including the extracted character.

上記ステップ203で、否定判断した場合には、ステップ206で、図5に示した文字情報を生成し、ステップ207で上述した圧縮処理を行い、ステップ208で画像情報と文字情報を関連づける。   If a negative determination is made in step 203, the character information shown in FIG. 5 is generated in step 206, the compression processing described above is performed in step 207, and the image information and character information are associated in step 208.

ステップ203の処理に戻り、図8の場合は、同図に示されるように、抽出された文字を含む単一色の部分領域があるため、このステップでは肯定判断されることとなる。   Returning to the processing of step 203, in the case of FIG. 8, since there is a single color partial region including the extracted character as shown in FIG. 8, an affirmative determination is made in this step.

このステップ203で肯定判断した場合には、次のステップ204で、文字の色の濃度が部分領域の色の濃度より低い文字を検索する。図8の原稿の場合、文字Bを含む部分領域において、文字Bの色の濃度が部分領域の色の濃度より低いため、この部分領域に含まれる文字Bは検索されることとなる。   If the determination in step 203 is affirmative, in step 204, a character having a character color density lower than the partial region color density is searched. In the case of the manuscript of FIG. 8, since the density of the color of the character B is lower than the density of the color of the partial area in the partial area including the character B, the character B included in the partial area is searched.

次のステップ205で、抽出された文字と同色の文字のみで構成された第1の2値画像情報を生成する。本実施の形態の場合、第1の2値画像は、図9(B)、図10(B)に示される画像となる。   In the next step 205, first binary image information composed only of characters of the same color as the extracted characters is generated. In the case of this embodiment, the first binary image is the image shown in FIGS. 9B and 10B.

このフローチャートの続きを、図7を用いて説明する。ステップ209で、検索された部分領域文字を含む部分領域で、当該部分領域文字を除く領域を示す部分領域画像を単一色のみで表現可能な場合に、部分領域画像及び部分領域画像と同色の文字のみで構成された第2の2値画像情報を生成する。   The continuation of this flowchart will be described with reference to FIG. In step 209, if the partial area image including the searched partial area character and the partial area image indicating the area excluding the partial area character can be expressed by only a single color, the partial area image and the character of the same color as the partial area image 2nd binary image information comprised only by this is produced | generated.

図8の場合、検索された部分領域文字を含む部分領域画像は、部分領域Bを示す画像であり、部分領域画像と同色の文字は、文字Cである。従って、第2の2値画像情報は、図9(C)、図10(C)に示される画像となる。   In the case of FIG. 8, the partial area image including the searched partial area character is an image showing the partial area B, and the character having the same color as the partial area image is the character C. Accordingly, the second binary image information is the image shown in FIGS. 9C and 10C.

次のステップ210で、検索された部分領域文字のみを含む画像を示す第3の2値画像情報を生成するか否か判断する。ステップ210で否定判断した場合には、ステップ216で、第1の2値画像情報が示す画像及び第2の2値画像情報が示す画像のいずれにも含まれない画像を示す多値画像情報を生成する。この多値画像情報が示す画像は、図9(A)に示される画像となる。   In the next step 210, it is determined whether or not to generate the third binary image information indicating an image including only the searched partial area characters. If a negative determination is made in step 210, multi-value image information indicating an image that is not included in either the image indicated by the first binary image information or the image indicated by the second binary image information is obtained in step 216. Generate. The image indicated by the multi-value image information is the image shown in FIG.

その後、ステップ217で、図5に示される文字情報を生成し、ステップ218で上述した圧縮処理行い、ステップ219で、第1の2値画像情報、第2の2値画像情報、多値画像情報、文字情報を関連づけて終了する。   Thereafter, in step 217, the character information shown in FIG. 5 is generated, the compression processing described above is performed in step 218, and in step 219, the first binary image information, the second binary image information, and the multi-value image information. Then, the process ends after associating the character information.

一方、ステップ210で肯定判断した場合には、ステップ211で、検索された部分領域文字のみを含む画像を示す第3の2値画像情報を生成する。図8の原稿では、文字Bのみを含む画像を示すものであるので、第3の2値画像情報が示す画像は、図10(D)に示される画像となる。   On the other hand, when an affirmative determination is made in step 210, in step 211, third binary image information indicating an image including only the searched partial region characters is generated. Since the original in FIG. 8 shows an image including only the letter B, the image indicated by the third binary image information is the image shown in FIG.

次のステップ212で、第1の2値画像情報が示す画像、第2の2値画像情報、及び第3の2値画像情報が示す画像が示す画像のいずれにも含まれない画像を示す多値画像情報を生成する。この多値画像情報が示す画像は、図10(A)に示される画像となる。   In the next step 212, multiple images indicating images that are not included in any of the image indicated by the first binary image information, the second binary image information, and the image indicated by the third binary image information. Value image information is generated. The image indicated by the multi-value image information is the image shown in FIG.

その後、ステップ213で、図5に示される文字情報を生成し、ステップ214で上述した圧縮処理行い、ステップ219で、第1の2値画像情報、第2の2値画像情報、第3の2値画像情報、多値画像情報、文字情報を関連づけて終了する。   After that, in step 213, the character information shown in FIG. 5 is generated, and in step 214, the above-described compression processing is performed. In step 219, the first binary image information, the second binary image information, the third 2 The process ends after associating value image information, multi-value image information, and character information.

なお、上記圧縮処理は、多値画像情報を圧縮し、文字画像情報、第1の2値画像情報、前記第2の2値画像情報、及び前記第3の2値画像情報のうちの少なくとも1つの情報を圧縮(例えばMMR形式)する処理である。   The compression process compresses the multi-value image information, and at least one of the character image information, the first binary image information, the second binary image information, and the third binary image information. This is a process of compressing one piece of information (for example, MMR format).

このように、画像処理(その2)においても、2値画像として表現可能なもの2値画像として生成し、そうではないものは多値画像として生成するため、高画質な画像が得られる。また、多値画像の情報量を減らすことで、高圧縮を実現することができる。また、文字情報が生成されているので、改めてOCR処理を実施する必要もない。   As described above, in the image processing (part 2), since a binary image that can be expressed as a binary image is generated and a non-image is generated as a multi-valued image, a high-quality image can be obtained. Further, high compression can be realized by reducing the information amount of the multi-valued image. In addition, since character information is generated, it is not necessary to perform OCR processing again.

なお、以上説明した各フローチャートの処理の流れは一例であり、本発明の主旨を逸脱しない範囲内で処理順序を入れ替えたり、新たなステップを追加したり、不要なステップを削除したりすることができることは言うまでもない。   The processing flow of each flowchart described above is an example, and the processing order may be changed, new steps may be added, or unnecessary steps may be deleted without departing from the scope of the present invention. Needless to say, you can.

プリンタのハードウェア構成を示す図である。FIG. 2 is a diagram illustrating a hardware configuration of a printer. 画像処理を示すフローチャートである(その1)。It is a flowchart which shows image processing (the 1). 原稿を示す図である(その1)。FIG. 3 is a diagram illustrating a document (part 1). 多値画像情報、第1、第2の2値画像情報が示す画像を示す図である。It is a figure which shows the image which multi-value image information and 1st, 2nd binary image information show. 文字情報を示す画像を示す図である。It is a figure which shows the image which shows character information. 画像処理を示すフローチャートである(その2の1)。It is a flowchart which shows an image process (1 of the 2). 画像処理を示すフローチャートである(その2の2)。It is a flowchart which shows an image process (the 2 of 2). 原稿を示す図である(その2)。It is a figure which shows a manuscript (the 2). 多値画像情報、第1、第2の2値画像情報が示す画像を示す図である。It is a figure which shows the image which multi-value image information and 1st, 2nd binary image information show. 多値画像情報、第1、第2、第3の2値画像情報が示す画像を示す図である。It is a figure which shows the image which multi-value image information and 1st, 2nd, 3rd binary image information show.

符号の説明Explanation of symbols

10 プリンタ
40 CPU
44 RAM
52 プリンタエンジン
54 スキャナエンジン
10 Printer 40 CPU
44 RAM
52 Printer Engine 54 Scanner Engine

Claims (3)

記録媒体に描かれた画像を読み込み、前記画像を示す画像情報を生成する画像情報生成手段と、
前記画像情報生成手段により生成された画像情報から、前記画像内における文字を抽出する抽出手段と、
前記抽出手段により抽出された文字のうち、単一色のみで表現された前記画像の部分領域に含まれた文字である部分領域文字の色の濃度が、前記部分領域の色の濃度と比較して薄い文字を検索する検索手段と、
前記検索手段により検索されなかった文字の場合はその文字と同色の文字のみで構成された第1の2値画像情報を生成する第1の2値画像生成手段と、
前記検索手段により検索された前記部分領域文字を含む前記部分領域で、前記部分領域文字を除く領域を示す部分領域画像を前記単一色のみで表現可能な場合に、前記部分領域画像及び前記部分領域画像と同色の文字のみで構成された第2の2値画像情報を生成する第2の2値画像手段と、
前記第1の2値画像生成手段により生成された前記第1の2値画像情報、及び前記第2の生成手段により生成された前記第2の2値画像情報を用いて、当該2値画像として抽出された領域をその領域の周辺色を用いることで消去した多値画像情報を生成する多値画像情報生成手段と、
前記抽出手段により抽出された文字のみを示す文字情報を生成する文字情報生成手段と、
前記文字情報、前記第1の2値画像情報、前記第2の2値画像情報、及び前記多値画像情報を、前記画像を示す情報として関連づける関連づけ手段と、
を有する画像処理装置。
Image information generating means for reading an image drawn on a recording medium and generating image information indicating the image;
Extraction means for extracting characters in the image from the image information generated by the image information generation means;
Of the characters extracted by the extracting means, the density of the color of the partial area character that is a character included in the partial area of the image expressed only in a single color is compared with the color density of the partial area. A search means for searching for thin characters;
First binary image generation means for generating first binary image information composed only of characters having the same color as the character in the case of a character not searched by the search means;
In the partial area including the partial area character searched by the search means, the partial area image and the partial area can be expressed only when the partial area image indicating the area excluding the partial area character can be expressed by the single color. Second binary image means for generating second binary image information composed only of characters of the same color as the image;
As the binary image, the first binary image information generated by the first binary image generating unit and the second binary image information generated by the second generating unit are used. Multi-value image information generating means for generating multi-value image information in which the extracted region is erased by using the peripheral color of the region;
Character information generating means for generating character information indicating only the characters extracted by the extracting means;
Association means for associating the character information, the first binary image information, the second binary image information, and the multi-value image information as information indicating the image;
An image processing apparatus.
記録媒体に描かれた画像を読み込み、前記画像を示す画像情報を生成する画像情報生成手段と、
前記画像情報生成手段により生成された画像情報から、前記画像内における文字を抽出する抽出手段と、
前記抽出手段により抽出された文字と同色の文字のみで構成された第1の2値画像情報を生成する第1の2値画像生成手段と、
前記抽出手段により抽出された文字のうち、単一色のみで表現された前記画像の部分領域に含まれた文字である部分領域文字の色の濃度が、前記部分領域の色の濃度と比較して薄い文字を検索する検索手段と、
前記検索手段により検索された部分領域文字を含む前記部分領域で、当該部分領域文字を除く領域を示す部分領域画像を前記単一色のみで表現可能な場合に、前記部分領域画像及び前記部分領域画像と同色の文字のみで構成された第2の2値画像情報を生成する第2の2値画像生成手段と、
前記第1の2値画像生成手段により生成された前記第1の2値画像情報、及び前記第2の生成手段により生成された前記第2の2値画像情報を用いて、2値画像として抽出された領域をその領域の周辺色を用いることで消去した多値画像情報を生成する多値画像情報生成手段と、
前記検索手段により検索された前記部分領域文字のみを含む画像を示す第3の2値画像情報を生成する第3の2値画像情報生成手段と、
前記抽出手段により抽出された文字のみを示す文字情報を生成する文字情報生成手段と、
前記文字情報、前記第1の2値画像情報、前記第2の2値画像情報、前記第3の2値画像情報、及び前記多値画像情報を、前記画像を示す情報として関連づける関連づけ手段と、
を有する画像処理装置。
Image information generating means for reading an image drawn on a recording medium and generating image information indicating the image;
Extraction means for extracting characters in the image from the image information generated by the image information generation means;
First binary image generation means for generating first binary image information composed only of characters of the same color as the characters extracted by the extraction means;
Of the characters extracted by the extracting means, the density of the color of the partial area character that is a character included in the partial area of the image expressed only in a single color is compared with the color density of the partial area. A search means for searching for thin characters;
In the partial area including the partial area character searched by the search means, the partial area image and the partial area image when the partial area image indicating the area excluding the partial area character can be expressed only by the single color. Second binary image generation means for generating second binary image information composed only of characters of the same color as
Extracted as a binary image using the first binary image information generated by the first binary image generation means and the second binary image information generated by the second generation means Multi-value image information generating means for generating multi-value image information obtained by erasing the generated region by using the peripheral color of the region;
Third binary image information generating means for generating third binary image information indicating an image including only the partial area character searched by the search means;
Character information generating means for generating character information indicating only the characters extracted by the extracting means;
Association means for associating the character information, the first binary image information, the second binary image information, the third binary image information, and the multi-value image information as information indicating the image;
An image processing apparatus.
前記多値画像情報を圧縮する第1の圧縮手段と、
前記文字情報、前記第1の2値画像情報、及び前記第2の2値画像情報のうちの少なくとも1つの情報を圧縮する第2の圧縮手段と、
を更に有する請求項1又は請求項2に記載の画像処理装置。
First compression means for compressing the multi-value image information;
Second compression means for compressing at least one of the character information, the first binary image information, and the second binary image information;
The image processing apparatus according to claim 1, further comprising:
JP2008019690A 2008-01-30 2008-01-30 Image processing device Expired - Fee Related JP4957570B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008019690A JP4957570B2 (en) 2008-01-30 2008-01-30 Image processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008019690A JP4957570B2 (en) 2008-01-30 2008-01-30 Image processing device

Publications (2)

Publication Number Publication Date
JP2009182655A true JP2009182655A (en) 2009-08-13
JP4957570B2 JP4957570B2 (en) 2012-06-20

Family

ID=41036273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008019690A Expired - Fee Related JP4957570B2 (en) 2008-01-30 2008-01-30 Image processing device

Country Status (1)

Country Link
JP (1) JP4957570B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004260327A (en) * 2003-02-24 2004-09-16 Canon Inc Image compression apparatus
JP2005071088A (en) * 2003-08-25 2005-03-17 Canon Inc Image processor, image processing method, and program, and storage medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004260327A (en) * 2003-02-24 2004-09-16 Canon Inc Image compression apparatus
JP2005071088A (en) * 2003-08-25 2005-03-17 Canon Inc Image processor, image processing method, and program, and storage medium

Also Published As

Publication number Publication date
JP4957570B2 (en) 2012-06-20

Similar Documents

Publication Publication Date Title
JP4745830B2 (en) Image processing apparatus, image processing method, and computer program
US8331671B2 (en) Image processing apparatus and image encoding method related to non-photo image regions
JP4250483B2 (en) Image processing apparatus, image processing method, program, and storage medium
JP5219706B2 (en) Image processing apparatus, image processing method, and image processing program
JP2008141682A (en) Image processing apparatus and method
JP4632443B2 (en) Image processing apparatus, image processing method, and program
JP2008028717A (en) Image processor and method and program
JP4364809B2 (en) Image processing apparatus, image processing method, program, and recording medium
JP2008165381A (en) Image processing device and image processing method
JP5178490B2 (en) Image processing apparatus, image processing method, and computer program
US8810877B2 (en) Image processing apparatus, image processing method, and storage medium for eliminating blurring of scanned image
JP7379876B2 (en) Character recognition device, document file generation method, document file generation program
JP4792835B2 (en) Image processing device
JP2005275854A (en) Image processor, image processing method, image processing program and recording medium with this program stored thereon
JP4135656B2 (en) Image region determination method, image processing apparatus, and program
JP2008124996A (en) Image processing apparatus, and image processing method
JP4957570B2 (en) Image processing device
JP5284431B2 (en) Device for decoding two-dimensional code, method for controlling device for decoding two-dimensional code, and program
JP2008193234A (en) Image processor, control method of image processor and control program of image processor
JP4742632B2 (en) Image processing apparatus, image processing method, and program
JP2005204206A (en) Image processing apparatus, image processing program, and storage medium
JP4847565B2 (en) Apparatus for creating copies, control method for apparatus for creating copies, and program
JP2005316813A (en) Image processing method, image processing program, and image processor
US8515186B2 (en) Image processor, image processing method and storage medium
JP4383187B2 (en) Image processing apparatus, image processing program, and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120305

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees