JP5256165B2 - Image reading apparatus and image reading system - Google Patents

Image reading apparatus and image reading system Download PDF

Info

Publication number
JP5256165B2
JP5256165B2 JP2009242336A JP2009242336A JP5256165B2 JP 5256165 B2 JP5256165 B2 JP 5256165B2 JP 2009242336 A JP2009242336 A JP 2009242336A JP 2009242336 A JP2009242336 A JP 2009242336A JP 5256165 B2 JP5256165 B2 JP 5256165B2
Authority
JP
Japan
Prior art keywords
image
processing unit
resolution
unit
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009242336A
Other languages
Japanese (ja)
Other versions
JP2011091537A (en
Inventor
博之 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2009242336A priority Critical patent/JP5256165B2/en
Publication of JP2011091537A publication Critical patent/JP2011091537A/en
Application granted granted Critical
Publication of JP5256165B2 publication Critical patent/JP5256165B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Facsimile Heads (AREA)
  • Facsimiles In General (AREA)
  • Facsimile Scanning Arrangements (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

本発明は、画像読取り装置および画像読取りシステムに関し、特にOCR機能を有するものに関する。   The present invention relates to an image reading apparatus and an image reading system, and more particularly, to an apparatus having an OCR function.

ネットワークで使用されるスキャナや、MFP(Multi-Function Product/Printer/Peripheral)などの画像形成装置におけるスキャナ部分から成る画像読取り装置では、前記OCR(光学文字認識:Optical Character Recognition、或いは光学式文字読取り装置:Optical Character Reader))機能が搭載されて、スキャナ読込み画像から、自動的に文字認識が行われて、文字データの作成が可能となっている。   In an image reading apparatus comprising a scanner portion in an image forming apparatus such as a scanner used in a network or an MFP (Multi-Function Product / Printer / Peripheral), the OCR (Optical Character Recognition or optical character reading) is used. (Equipment: Optical Character Reader)) function is installed, character recognition is automatically performed from the scanned image, and character data can be created.

たとえば、特許文献1では、ファクシミリにおいて、前記スキャナ読込み画像から、文字と認識できた部分はOCR処理を行って文字コードを出力し、文字と認識できなかった部分は画像データとして、送信相手先が対応している場合には前記文字コードおよび画像データをそのまま送信し、対応していない場合には、前記文字コードを再びフォントに展開して画像データと共に送信することが示されている。   For example, in Patent Document 1, in a facsimile, a portion that can be recognized as a character is output from the scanner read image by performing OCR processing, and a character code is output. If it is compatible, the character code and the image data are transmitted as they are, and if not compatible, the character code is again developed into a font and transmitted together with the image data.

特開2000−348137号公報JP 2000-348137 A

上述の従来技術では、前記スキャナから出力された常に固定の解像度の画像データから、OCR処理を行っている。たとえば、前記解像度としては、300dpi程度であり、これに対して、特に高機能な前記MFPでスキャナの性能が向上し、解像度としては、600dpiや1200dpiのものまで登場している。   In the above-described prior art, OCR processing is performed from image data with a fixed resolution output from the scanner. For example, the resolution is about 300 dpi. On the other hand, the performance of the scanner is improved with the particularly high-function MFP, and resolutions of 600 dpi and 1200 dpi have appeared.

一方、OCRの認識率としては、通常使用の10〜12ポイント以上の文字の場合、解像度を高くしても、あまり向上はしない。しかしながら、添字や注記などのポイント数の少ない文字の場合、解像度を高めることは、前記認識率の向上に効果的である。そこで、全般に解像度を高めると、認識の処理量が飛躍的に増大し、処理時間が大幅に増加するという問題がある。たとえば、複写動作と並行してOCR処理を行う場合などでは、スキャナ読込みから印字出力が終了しても、OCRの認識処理が殆ど終了していないと言うようなことになる。   On the other hand, the OCR recognition rate does not improve much even if the resolution is increased in the case of characters of 10 to 12 points or more that are normally used. However, in the case of characters with a small number of points such as subscripts and notes, increasing the resolution is effective in improving the recognition rate. Therefore, when the resolution is generally increased, there is a problem that the processing amount of recognition increases dramatically, and the processing time greatly increases. For example, when the OCR process is performed in parallel with the copying operation, the OCR recognition process is hardly completed even when the print output is completed after the scanner reading.

本発明の目的は、処理速度の大きな低下や、処理量の大幅な増加を招くことなく、認識率を高めることができる画像読取り装置および画像読取りシステムを提供することである。   An object of the present invention is to provide an image reading apparatus and an image reading system capable of increasing the recognition rate without causing a large decrease in processing speed and a large increase in processing amount.

本発明の一局面に係る画像読取り装置は、原稿画像を読取る画像読取り部と、前記画像読取り部での読取り画像データに対して、予め定める高解像度の形式での画像処理を行う第1の画像処理部と、前記第1の画像処理部での処理後の画像データを一時保存する第1の記憶部と、前記第1の記憶部に保存されている画像データを読出し、予め定める低解像度の形式での画像処理を行う第2の画像処理部と、前記第2の画像処理部での処理後の低解像度の画像データを保存する第2の記憶部と、文字のフォントサイズに応じて、フォントサイズが小さいほど解像度が高くなるように、前記第2の画像処理部での解像度を予め定めているOCR処理部とを含み、前記OCR処理部は、前記第2の記憶部に保存されている画像データを読出し、OCR処理をして、文字のフォントサイズの解析を実施することにより、前記第2の記憶部から読出した画像データで示される画像に含まれる各段落について、段落の最先端文字及び最後端文字のフォントサイズを確認し、最先端文字及び最後端文字のフォントサイズが予め定める値以下の段落が出現した場合、前記第1の記憶部に記憶されている画像データの中から、該当段落を位置指定して、再度読出させるとともに、該当段落の最先端文字及び最後端文字のフォントサイズに割り当てられた解像度に、前記第2の画像処理部の解像度を高め、改めて高解像な画像データでのOCR処理を該当段落に対して行うことを特徴とする。
本発明の他の局面に係る画像読取り装置は、原稿画像を読取る画像読取り部と、前記画像読取り部での読取り画像データに対して、予め定める高解像度の形式での画像処理を行う第1の画像処理部と、前記第1の画像処理部での処理後の画像データを一時保存する第1の記憶部と、前記第1の記憶部に保存されている画像データを読出し、予め定める低解像度の形式での画像処理を行う第2の画像処理部と、前記第2の画像処理部での処理後の(出力画像データとなる)画像データを保存する第2の記憶部と、前記第2の記憶部に保存されている画像データを読出し、OCR処理を行い、その処理の結果、認識率の低い文字が出現した場合、前記第1の記憶部に記憶されている画像データの中から、該当文字を位置指定して、再度読出させるとともに、前記第2の画像処理部における解像度を高め、改めて高解像な画像データでのOCR処理を行うOCR処理部とを含むことを特徴とする。
An image reading apparatus according to an aspect of the present invention includes an image reading unit that reads a document image, and a first image that performs image processing in a predetermined high resolution format on image data read by the image reading unit. A processing unit, a first storage unit that temporarily stores image data after processing by the first image processing unit, and image data stored in the first storage unit are read out, and a predetermined low resolution A second image processing unit that performs image processing in a format, a second storage unit that stores low-resolution image data processed by the second image processing unit, and a font size of characters, An OCR processing unit that determines the resolution in the second image processing unit in advance so that the resolution increases as the font size decreases, and the OCR processing unit is stored in the second storage unit. Read out image data and By performing processing and analyzing the font size of the character, the font of the leading edge character and the last character of the paragraph is included for each paragraph included in the image indicated by the image data read from the second storage unit. Check the size, and if a paragraph whose font size is less than or equal to a predetermined value appears, specify the position of the paragraph from the image data stored in the first storage unit. In addition, the resolution of the second image processing unit is increased to the resolution assigned to the font size of the leading edge character and the last character of the corresponding paragraph, and OCR processing is performed again with high resolution image data. Is performed on the corresponding paragraph.
An image reading apparatus according to another aspect of the present invention includes an image reading unit that reads a document image, and a first high-resolution image processing that is performed on image data read by the image reading unit. An image processing unit, a first storage unit that temporarily stores image data after processing by the first image processing unit, and image data stored in the first storage unit are read out, and a predetermined low resolution A second image processing unit that performs image processing in the format, a second storage unit that stores image data (to be output image data) after processing by the second image processing unit, and the second The image data stored in the storage unit is read out, OCR processing is performed, and, as a result of the processing, when characters with a low recognition rate appear, from among the image data stored in the first storage unit, Position the character and read it again Both enhance resolution in the second image processing unit, characterized in that it comprises a OCR processing unit that performs OCR processing anew high-resolution image data.

上記の構成によれば、ネットワークスキャナやMFPなどとして実現され、画像読取り部で原稿画像を読取り、その読取り画像データに対して、第1の画像処理部で、領域分離や文字の切出しなどの予め定める高解像度、たとえば階調8ビット、解像度600dpiの形式での画像処理を行い、その処理後の画像データを第1の記憶部に一時保存させ、適宜読出して第2の画像処理部が、変倍や文字に対するエッジ強調などの予め定める低解像度、たとえば階調1ビット、解像度200dpiの形式での画像処理を行い、出力画像データとなるその処理後の画像データを第2の記憶部で保存し、適宜出力するようにした画像読取り装置において、OCR機能を、以下のように実現する。   According to the above configuration, it is realized as a network scanner, an MFP, and the like. The original image is read by the image reading unit, and the read image data is preliminarily processed by the first image processing unit, such as area separation and character extraction. The image processing is performed in a defined high resolution, for example, a gradation of 8 bits and a resolution of 600 dpi, and the processed image data is temporarily stored in the first storage unit, read out as appropriate, and the second image processing unit Image processing is performed in a predetermined low resolution such as double or edge enhancement for characters, for example, 1 bit gradation, 200 dpi resolution, and the processed image data to be output image data is stored in the second storage unit The OCR function is realized as follows in the image reading apparatus adapted to output appropriately.

すなわち、通常、OCR処理部は、前記第2の記憶部に保存されている画像データを読出し、固定解像度でOCR処理を行ったデータをそのまま出力データとしているのに対して、本発明では、処理の結果、認識率の低い文字が出現した場合、解像度を高めて、再度OCR処理を行うようにする。その再度の処理では、前記OCR処理部は、前記第1の記憶部に記憶されている画像データの中から、該当文字を位置指定して、再度読出させるとともに、前記第2の画像処理部における解像度を高め、改めて高解像な画像データでOCR処理を行う。   In other words, the OCR processing unit normally reads out the image data stored in the second storage unit, and uses the OCR processing data at a fixed resolution as output data as it is. As a result, when a character with a low recognition rate appears, the resolution is increased and the OCR process is performed again. In the re-processing, the OCR processing unit designates the corresponding character from the image data stored in the first storage unit, causes the character to be read again, and at the second image processing unit. The resolution is increased and OCR processing is performed again with high resolution image data.

したがって、文字サイズが小さい場合などで1度目の低解像度でのOCR処理で認識できなかった文字だけを、2度目の高解像度でのOCR処理で再度認識を試みるので、処理速度の大きな低下や、処理量の大幅な増加を招くことなく、認識率を高めることができる。   Therefore, since only the characters that could not be recognized by the first low-resolution OCR processing when the character size is small are re-recognized by the second high-resolution OCR processing, the processing speed is greatly reduced. The recognition rate can be increased without causing a significant increase in processing amount.

また、本発明の画像読取り装置では、前記OCR処理部は、前記該当文字に予め定める認識率が得られるまで、前記第2の画像処理部における解像度を徐々に高めることを特徴とする。   In the image reading apparatus of the present invention, the OCR processing unit gradually increases the resolution in the second image processing unit until a predetermined recognition rate is obtained for the character.

上記の構成によれば、OCR処理によって認識率の低い文字が出現した場合、その該当文字に予め定める認識率が得られるまで、前記第2の画像処理部における解像度を少しずつ高めて再認識を行う処理を繰返す。   According to the above configuration, when a character with a low recognition rate appears by OCR processing, the resolution in the second image processing unit is increased little by little until a predetermined recognition rate is obtained for the corresponding character. Repeat the process to be performed.

したがって、認識処理の処理量の増加を最少限に抑えることができる。   Therefore, an increase in the amount of recognition processing can be minimized.

さらにまた、本発明の画像読取り装置では、前記OCR処理部は、認識中の文字のフォントサイズの解析を実施し、その解析の結果、予め定めるサイズ以下の文字の場合に、前記認識率の低い文字が出現したと判定することを特徴とする。   Furthermore, in the image reading apparatus according to the present invention, the OCR processing unit analyzes the font size of the character being recognized. As a result of the analysis, the recognition rate is low when the character is smaller than a predetermined size. It is determined that a character has appeared.

上記の構成によれば、添字や注記等で文字のフォントサイズが予め定めるサイズ以下の場合には、前述のようにOCR処理部での認識率が低くなるので、これらの文字が出現した場合、該OCR処理部は、自動的に上述のような高解像度のデータを用いてOCR処理を行う。   According to the above configuration, when the character font size is not more than a predetermined size, such as a subscript or a note, the recognition rate in the OCR processing unit is reduced as described above, so when these characters appear, The OCR processing unit automatically performs OCR processing using the high-resolution data as described above.

したがって、当初から正確な認識を行うことができる。   Therefore, accurate recognition can be performed from the beginning.

また、本発明の画像読取り装置では、前記OCR処理部は、前記フォントサイズの解析の結果、予め定めるサイズ以下の文字の場合に、前記第2の画像処理部に、拡大、スムージング、ノイズ除去の少なくとも1つの画像処理を行わせた後、OCR処理を行うことを特徴とする。   In the image reading apparatus according to the present invention, the OCR processing unit may cause the second image processing unit to perform enlargement, smoothing, and noise removal when the font size is analyzed and the character is smaller than a predetermined size. OCR processing is performed after at least one image processing is performed.

上記の構成によれば、所定のフォントサイズ以下の文字と判定した場合、適切な画像処理を実施し、OCR処理を行う。   According to the above configuration, when it is determined that the character is equal to or smaller than the predetermined font size, appropriate image processing is performed and OCR processing is performed.

したがって、認識率の高いOCRデータを完成させ、パーソナルコンピュータなどの外部の需要先に供給することができる。   Accordingly, OCR data with a high recognition rate can be completed and supplied to an external customer such as a personal computer.

さらにまた、本発明の画像読取りシステムは、前記の画像読取り装置に、当該画像読取り装置による読取りデータを利用する外部機器を備えて構成され、前記OCR処理部は、前記外部機器側に搭載されることを特徴とする。   Furthermore, the image reading system of the present invention is configured such that the image reading apparatus includes an external device that uses data read by the image reading device, and the OCR processing unit is mounted on the external device side. It is characterized by that.

上記の構成によれば、前述のように画像データが高解像となって処理が重くなる可能性のあるOCR処理を、このOCRデータを利用するパーソナルコンピュータなどの外部の機器で行わせることができる。   According to the above configuration, as described above, it is possible to cause an external device such as a personal computer using the OCR data to perform the OCR processing that may cause the image data to be high resolution and processing heavy. it can.

本発明の画像読取り装置および画像読取りシステムは、以上のように、画像読取り部で原稿画像を読取り、その読取り画像データに対して、第1の画像処理部で高解像度な画像処理を行い、その処理後の画像データを第1の記憶部に一時保存させ、適宜読出して第2の画像処理部が低解像度な画像処理を行い、出力画像データとなるその処理後の画像データを第2の記憶部で保存し、適宜出力するようにした画像読取り装置において、OCR処理部は、前記第2の記憶部の画像データを読出し、認識処理の結果、認識率の低い文字が出現した場合、解像度を高めて、再度OCR処理を行うようにする。   As described above, the image reading apparatus and the image reading system of the present invention read an original image by the image reading unit, perform high-resolution image processing on the read image data by the first image processing unit, and The processed image data is temporarily stored in the first storage unit, read out as appropriate, the second image processing unit performs low-resolution image processing, and the processed image data to be output image data is stored in the second storage. In the image reading apparatus that is stored in the unit and appropriately output, the OCR processing unit reads the image data in the second storage unit, and if a character having a low recognition rate appears as a result of the recognition process, the resolution is set. The OCR process is performed again.

それゆえ、文字サイズが小さい場合などで1度目の低解像度でのOCR処理で認識できなかった文字だけを、2度目の高解像度でのOCR処理で再度認識を試みるので、処理速度の大きな低下や、処理量の大幅な増加を招くことなく、認識率を高めることができる。   Therefore, since only the characters that could not be recognized by the first low-resolution OCR processing when the character size is small are re-recognized by the second high-resolution OCR processing, the processing speed is greatly reduced. The recognition rate can be increased without causing a significant increase in the processing amount.

本発明の実施の一形態に係るMFPのブロック図である。1 is a block diagram of an MFP according to an embodiment of the present invention. 本発明の実施の一形態のOCR処理の手順を説明するための図である。It is a figure for demonstrating the procedure of the OCR process of one Embodiment of this invention. 本発明の実施の他の形態の画像読取りシステムにおけるOCR処理の手順を説明するための図である。It is a figure for demonstrating the procedure of the OCR process in the image reading system of the other embodiment of this invention.

(実施の形態1)
図1は、本発明の実施の一形態に係るMFP1のブロック図である。MFPは、複写機としての機能以外に、プリンタ、スキャナ、ファクシミリなどの複数の機能を備えている。このため、このMFP1は、画像読取り部2と、画像処理部3と、第1の画像記憶部4と、第2の画像記憶部5と、画像形成部6と、通信部7と、入力操作部8と、システム制御部9とを備えて構成される。
(Embodiment 1)
FIG. 1 is a block diagram of an MFP 1 according to an embodiment of the present invention. The MFP has a plurality of functions such as a printer, a scanner, and a facsimile in addition to the function as a copying machine. Therefore, the MFP 1 includes an image reading unit 2, an image processing unit 3, a first image storage unit 4, a second image storage unit 5, an image forming unit 6, a communication unit 7, and an input operation. Unit 8 and a system control unit 9.

前記画像読取り装置2は、イメージセンサや走査光学系および自動原稿給送装置ならびにそれらの制御のための制御部を備えて構成される。前記画像処理部3は、ASIC(Application Specific Integrated Circuit)などから成り、前記第1の記憶部4は半導体メモリなどから成り、前記第2の記憶部5はハードディスク装置などから成り、本発明に係るこれらの詳しい動作については、後に詳述する。   The image reading device 2 includes an image sensor, a scanning optical system, an automatic document feeder, and a control unit for controlling them. The image processing unit 3 includes an application specific integrated circuit (ASIC), the first storage unit 4 includes a semiconductor memory, and the second storage unit 5 includes a hard disk device. Details of these operations will be described later.

画像形成部6は、電子写真などによる画像形成部に、記録紙の搬送系ならびにそれらの制御のための制御部を備えて構成される。前記通信部7は、プリンタ連動する際のネットワークインタフェイスや、ファクシミリ通信を行う際のモデムとしての機能を有する。前記入力操作部8は、テンキーやタッチパネルなどの入力部81、液晶表示装置などから成る表示部82およびそれらの制御部83を備えて構成される。前記システム制御部9は、マイクロコンピュータに、その周辺回路などを備えて構成され、該MFP1の全体の動作を制御する。   The image forming unit 6 includes a recording paper conveyance system and a control unit for controlling them in addition to an electrophotographic image forming unit. The communication unit 7 has a function as a network interface when linked with a printer and a modem when performing facsimile communication. The input operation unit 8 includes an input unit 81 such as a numeric keypad or a touch panel, a display unit 82 including a liquid crystal display device, and a control unit 83 thereof. The system control unit 9 includes a microcomputer and its peripheral circuits, and controls the overall operation of the MFP 1.

このMFP1において、本発明の画像読取り装置に係る部分は、画像読取り部2およびその読取り画像の処理部であり、具体的には、この図1内で、通信部7および画像形成部6を除く部分である。   In this MFP 1, the part related to the image reading apparatus of the present invention is an image reading unit 2 and a processing unit for the read image. Specifically, in FIG. 1, the communication unit 7 and the image forming unit 6 are excluded. Part.

前記画像処理部3は、前記画像読取り部2での読取り画像データに対して、入力処理として、領域分離や文字の切出しなどの予め定める多値および高解像度、たとえば階調8ビット、解像度600dpiの形式での画像処理を行う第1の画像処理部31と、前記第1の画像処理部31での処理後の画像データに、中間処理として、変倍や文字に対するエッジ強調などの予め定める低解像度、たとえば階調1ビット、解像度200dpiの形式での画像処理を行い、出力画像データを作成する第2の画像処理部32と、出力処理として、画像の合成などの編集を行う画像編集部33と、参照画像(サムネイル)を作成する参照画像作成部34と、前記第2の画像処理部32での処理画像データから、必要に応じてOCR処理を行うOCR処理部35とを備えて構成される。   The image processing unit 3 performs, as an input process on the read image data from the image reading unit 2, a predetermined multi-value and high resolution such as region separation and character cutout, for example, 8-bit gradation and resolution of 600 dpi. A first low-resolution image processing unit 31 that performs image processing in a format and a predetermined low resolution such as scaling or edge enhancement for characters as intermediate processing in the image data processed by the first image processing unit 31 For example, a second image processing unit 32 that performs image processing in a format of gradation 1 bit and resolution 200 dpi and creates output image data, and an image editing unit 33 that performs editing such as image composition as output processing A reference image creation unit 34 that creates a reference image (thumbnail), and an OCR processing unit that performs OCR processing as needed from the processed image data in the second image processing unit 32 5 and configured to include a.

前記第1の画像処理部31での処理後の画像データは、前記第1の画像記憶部4に一時保存され、第2の画像処理部32によって適宜読出される。同様に、前記第2の画像処理部32での処理後の画像データは、前記第2の画像記憶部5に保存されてゆき、画像形成部6や通信部7によって適宜読出されるとともに、本願発明のOCR処理に使用される。   The image data processed by the first image processing unit 31 is temporarily stored in the first image storage unit 4 and appropriately read by the second image processing unit 32. Similarly, the image data processed by the second image processing unit 32 is stored in the second image storage unit 5 and is appropriately read out by the image forming unit 6 and the communication unit 7, and Used for OCR processing of the invention.

上述のように構成されるMFP1において、注目すべきは、前記OCR処理部35は、前記第2の画像記憶部5に保存されている画像データを読出してOCR処理を行い、その処理の結果、認識率の低い文字が出現した場合、前記第1の画像記憶部4に記憶されている画像データの中から、該当文字を位置指定して、再度読出させるとともに、前記第2の画像処理部32における解像度を高めて画像処理を行わせ、その画像処理後の高解像な画像データを用いて、改めてOCR処理を行い、先のOCR処理結果に嵌め込むことである。   In the MFP 1 configured as described above, it should be noted that the OCR processing unit 35 reads out image data stored in the second image storage unit 5 and performs OCR processing. When a character with a low recognition rate appears, the character is positioned from the image data stored in the first image storage unit 4 and read again, and the second image processing unit 32 is read out. The image processing is performed by increasing the resolution in the image processing, the OCR processing is performed again using the high-resolution image data after the image processing, and the result is inserted into the previous OCR processing result.

図2は、上述のようなOCR処理の手順を説明するための図である。通常の複写動作の場合、前記画像読取り部2での原画像の読取り画像データは、参照符号F1で示すように取込まれ、前述のように、第1の画像処理部31において、入力処理として、領域分離や文字の切出しなどの予め定める多値および高解像度、たとえば8ビット600dpiの形式での画像処理が行われて中間画像のデータとなる。   FIG. 2 is a diagram for explaining the procedure of the OCR processing as described above. In the case of a normal copying operation, the read image data of the original image in the image reading unit 2 is taken in as indicated by reference numeral F1, and as described above, the first image processing unit 31 performs input processing. Then, image processing is performed in a predetermined multi-value and high resolution, for example, 8-bit 600 dpi format such as region separation and character cutout, and the intermediate image data is obtained.

続いて、第2の画像処理部32において、前記中間画像のデータに、中間処理として、変倍や文字に対するエッジ強調などの予め定める低解像度、たとえば1ビット200dpiの形式での画像処理が行われて出力画像となり、画像出力部36から、参照符号F2で示すように画像形成部6へ出力され、記録紙に印字されて出力される。   Subsequently, in the second image processing unit 32, image processing is performed on the intermediate image data as intermediate processing, such as scaling and edge enhancement for characters, in a predetermined low resolution, for example, 1 bit 200 dpi format. The output image is output from the image output unit 36 to the image forming unit 6 as indicated by reference numeral F2, printed on a recording sheet, and output.

また、スキャナ動作時には、前記画像読取り部2での原画像の読取り画像データは、参照符号F11で示すように取込まれ、参照画像作成部34において、前述のように、参照画像(サムネイル)が作成されて、参照符号F12で示すように第1の画像記憶部4に記憶される。一方、前記原画像の読取り画像データは、参照符号F21で示すように取込まれ、第1の画像処理部31において、前述のように、入力処理として、領域分離や文字の切出しなどの予め定める多値および高解像度、たとえば8ビット600dpiの形式での画像処理が行われ、前記参照画像に対応付けて前記第1の画像記憶部4に記憶されるとともに、画像編集部33によってレイアウト情報等が作成される。   Further, during the scanner operation, the read image data of the original image by the image reading unit 2 is taken in as indicated by reference numeral F11, and the reference image creating unit 34 generates the reference image (thumbnail) as described above. Created and stored in the first image storage unit 4 as indicated by reference numeral F12. On the other hand, the read image data of the original image is taken in as indicated by reference numeral F21, and as described above, as the input processing, the first image processing unit 31 determines in advance such as region separation and character cutout. Image processing in multi-value and high resolution, for example, 8-bit 600 dpi format is performed, stored in the first image storage unit 4 in association with the reference image, and layout information or the like is stored by the image editing unit 33. Created.

こうして第1の画像記憶部4に記憶された原画像のデータは、参照符号F22で示すように第2の画像処理部32に逐次読出され、前述のように、中間処理として、変倍や文字に対するエッジ強調などの予め定める低解像度、たとえば1ビット200dpiの形式での画像処理が行われる。前記第2の画像処理部32で得られた出力画像データは、第2の画像記憶部5に記憶されるとともに、参照符号F23で示すように、この第2の画像記憶部5から逐次読出され、ファイル化部37において、所定のファイル形式に纏められて、前記通信部7から外部のパーソナルコンピュータ10などへ出力される。   The original image data thus stored in the first image storage unit 4 is sequentially read out to the second image processing unit 32 as indicated by reference numeral F22, and as described above, as intermediate processing, scaling and character Image processing is performed in a predetermined low resolution, for example, 1 bit 200 dpi, such as edge enhancement for. The output image data obtained by the second image processing unit 32 is stored in the second image storage unit 5 and is sequentially read out from the second image storage unit 5 as indicated by reference numeral F23. In the file forming unit 37, the files are collected in a predetermined file format and output from the communication unit 7 to an external personal computer 10 or the like.

このような複写動作時に、前記入力操作部8によって、或いはスキャナ読込み時に、前記入力操作部8または前記パーソナルコンピュータ10から、OCR処理を行うことが選択されると、前記OCR処理部35は、前記第2の画像記憶部5に記憶されている出力画像データの内、文字領域のデータを逐次読出し、OCR処理を実行する。得られたテキストデータは、パーソナルコンピュータ10などに出力される。   When the OCR processing is selected by the input operation unit 8 or the personal computer 10 during the copying operation or by the input operation unit 8 or the personal computer 10 when reading the scanner, the OCR processing unit 35 Of the output image data stored in the second image storage unit 5, the data of the character area is sequentially read and the OCR process is executed. The obtained text data is output to the personal computer 10 or the like.

その際、通常、OCR処理部35は、参照符号F31で示すように、前記第2の記憶部5に保存されている画像データを読出し、固定解像度でOCR処理を行ったデータを、参照符号F32で示すようにそのまま出力データとしているのに対して、注目すべきは、本実施の形態では、処理の結果、認識率の低い文字が出現した場合、解像度を高めて、再度OCR処理を行うようにすることである。   At this time, normally, as indicated by the reference symbol F31, the OCR processing unit 35 reads out the image data stored in the second storage unit 5, and performs the OCR processing at a fixed resolution as the reference symbol F32. However, in this embodiment, when a character with a low recognition rate appears as a result of the processing, the resolution is increased and the OCR processing is performed again. Is to do.

具体的には、その再度の処理では、前記OCR処理部35は、前記第1の記憶部4に記憶されている画像データの中から、該当文字が出現すると、その該当文字が原稿のどの位置に存在するか把握できるので、参照符号F33で示すように、その該当文字の文書IDおよびを位置指定して、前記第1の記憶部4から、参照符号F34で示すように再度読出させるとともに、前記第2の画像処理部5における解像度を高め、たとえば300dpiの高解像な画像データを得て、改めてOCR処理を行う。それでも認識率が低い場合、前記OCR処理部35は、400dpi、600dpiと、階調および解像度を高めてゆき、該当文字のOCR処理を繰返す。   Specifically, in the re-processing, when the corresponding character appears in the image data stored in the first storage unit 4, the OCR processing unit 35 determines which position of the document the corresponding character appears. Therefore, the position of the document ID and the character of the corresponding character is designated as indicated by the reference symbol F33, and read again from the first storage unit 4 as indicated by the reference symbol F34. The resolution in the second image processing unit 5 is increased, for example, high resolution image data of 300 dpi is obtained, and OCR processing is performed again. If the recognition rate is still low, the OCR processing unit 35 increases the gradation and resolution to 400 dpi and 600 dpi, and repeats the OCR processing of the corresponding character.

したがって、文字サイズが小さい場合などで、1度目の低解像度でのOCR処理で認識できなかった文字だけを、2度目の高解像度でのOCR処理で再度認識を試みるので、処理速度の大きな低下や、処理量の大幅な増加を招くことなく、認識率を高めることができる。これによって、複写動作やスキャナ読込み動作に大きく遅れることなく、併せて抽出したOCRデータを、パーソナルコンピュータ10などの外部の需要先に供給することができる。   Therefore, when the character size is small, only characters that could not be recognized by the first low-resolution OCR process are re-recognized by the second high-resolution OCR process. The recognition rate can be increased without causing a significant increase in the processing amount. As a result, the extracted OCR data can be supplied to an external customer such as the personal computer 10 without greatly delaying the copying operation or the scanner reading operation.

上述の説明では、複写動作時またはスキャナ読込み時に、並行してOCR処理を行うように説明しているけれども、OCR処理のみが単独で行われてもよい。   In the above description, it has been described that the OCR process is performed in parallel during the copying operation or the scanner reading, but only the OCR process may be performed alone.

好ましくは、添字や注記等で文字のフォントサイズが小さな場合は、OCR処理部35での認識率が低くなることが充分予想されることから、前記画像編集部33において、レイアウト情報として、文字のフォントサイズが分ることを利用して、予め認識中の文字のフォントサイズの解析を実施し、これら添字や注記等の認識率が低くなる文字が出現した場合、該OCR処理部35は、自動的に上述のような高解像度のデータを用いてOCR処理を行うことである。   Preferably, when the font size of a character such as a subscript or a note is small, the recognition rate in the OCR processing unit 35 is sufficiently expected to be low. Therefore, the image editing unit 33 uses the character information as layout information. Using the fact that the font size is known, the font size of the currently recognized character is analyzed, and when a character with a low recognition rate such as a subscript or a note appears, the OCR processing unit 35 automatically Specifically, OCR processing is performed using high resolution data as described above.

この場合、上述のように、解像度を徐々に高めてゆくのではなく、たとえば12ポイント文字の場合は通常の1ビット200dpi、10ポイント文字の場合は2ビット300dpi、8ポイント文字の場合は4ビット400dpi、6ポイント文字の場合は8ビット600dpiというように、予めポイント数に応じて、解像度を定めておくようにしてもよい。これによって、低い認識率での処理回数を削減することができる。また、添字の場合は散発的に出現することが多いのに対して、注記などは大体段落等で纏まって出現することが多い。そこで、段落毎に最先端文字と最後端文字とのポイント数を確認し、低ポイントの場合には、前記画像編集部で認識された段落の全体に亘って、同じ高い解像度を適用して認識するようにしてもよい。   In this case, as described above, the resolution is not gradually increased. For example, in the case of a 12-point character, the normal 1-bit 200 dpi, in the case of a 10-point character, the 2-bit 300 dpi, and in the case of an 8-point character, 4 bits. In the case of 400 dpi, 6-point characters, the resolution may be determined in advance according to the number of points, such as 8-bit 600 dpi. As a result, the number of processes with a low recognition rate can be reduced. In addition, subscripts often appear sporadically, whereas notes and the like often appear together in a paragraph or the like. Therefore, the number of points between the most advanced character and the last character is confirmed for each paragraph, and in the case of a low point, the same high resolution is applied to the entire paragraph recognized by the image editing unit. You may make it do.

また好ましくは、前記OCR処理部35は、前記フォントサイズの解析の結果、予め定めるサイズ以下の文字の場合に、前記第2の画像処理部5に、拡大、スムージング、ノイズ除去の少なくとも1つの画像処理を行わせた後、OCR処理を行うことである。こうして、認識率が低いことが予想される低ポイント数の文字に対して、適切な画像処理を実施した上でOCR処理を行うことで、認識率の高いOCRデータを完成させることができる。   Preferably, the OCR processing unit 35 sends at least one image of enlargement, smoothing, and noise removal to the second image processing unit 5 when the font size is analyzed and the character is a predetermined size or less. The OCR process is performed after the process is performed. In this way, OCR data with a high recognition rate can be completed by performing OCR processing after performing appropriate image processing on characters with a low number of points that are expected to have a low recognition rate.

(実施の形態2)
図3は、本発明の実施の他の形態の画像読取りシステムにおけるOCR処理の手順を説明するための図である。この図3は、図2に類似し、対応する部分には同一の参照符号を付して示し、その説明を省略する。注目すべきは、このMFPでは、画像処理部3’には前記OCR処理部35が設けられておらず、代わりに、スキャナ読込み画像を利用する外部のパーソナルコンピュータ10’側に、OCR処理部35’が設けられていることである。
(Embodiment 2)
FIG. 3 is a diagram for explaining the procedure of the OCR process in the image reading system according to another embodiment of the present invention. This FIG. 3 is similar to FIG. It should be noted that in this MFP, the OCR processing unit 35 is not provided in the image processing unit 3 ′, and instead, the OCR processing unit 35 is provided on the external personal computer 10 ′ side that uses the scanner read image. 'Is provided.

したがって、パーソナルコンピュータ10’側では、前記第1の画像処理部4および第2の画像処理部5で処理の施された画像データが参照符号F23で示すようにして通信部7を介して入力され、記憶部10aに蓄積されてゆくとともに、前記OCR処理部35’が、逐次OCR処理を行い、その処理結果のテキストデータも記憶部10aに蓄積されてゆく。このとき、認識率の低い文字が出現すると、前記OCR処理部35’は、参照符号F35からF36で示すように、前記第1の画像記憶部4から該当文字の画像データを出力させるとともに、第2の画像処理部32の解像度を高めた出力画像データを得て、再度OCR処理を行う。   Therefore, on the personal computer 10 'side, the image data processed by the first image processing unit 4 and the second image processing unit 5 is input via the communication unit 7 as indicated by reference numeral F23. The OCR processing unit 35 'sequentially performs OCR processing and the text data of the processing result is also stored in the storage unit 10a. At this time, when a character with a low recognition rate appears, the OCR processing unit 35 ′ outputs the image data of the corresponding character from the first image storage unit 4 as indicated by reference numerals F35 to F36, and The output image data in which the resolution of the second image processing unit 32 is increased is obtained, and the OCR process is performed again.

このように構成することで、認識率の低い文字が多くなると、画像データが高解像となって処理が重くなる可能性のあるOCR処理を、このOCRデータを利用するパーソナルコンピュータ10’などの演算処理の得意な外部の機器で行わせることができ、MFP側の画像処理部3’には、OCR機能を搭載していない従来のものと殆ど変らない能力のものを使用することができる。また、画像処理部3’とパーソナルコンピュータ10’との間の転送データ量も、認識率の低い文字データの再問い合せ分が増加するだけであるので、大幅な増加はない。   With this configuration, when the number of characters having a low recognition rate increases, the OCR processing, which may cause the image data to be high resolution and heavy processing, can be performed on a personal computer 10 ′ or the like using this OCR data. The image processing unit 3 ′ on the MFP side can be used with an apparatus capable of performing almost the same processing as the conventional one not equipped with the OCR function. In addition, the amount of data transferred between the image processing unit 3 'and the personal computer 10' is not significantly increased because only the amount of re-queries for character data with a low recognition rate is increased.

1 MFP
2 画像読取り部
3,3’ 画像処理部
31 第1の画像処理部
32 第2の画像処理部
33 画像編集部
34 参照画像作成部
35,35’ OCR処理部
36 画像出力部
37 ファイル化部
4 第1の画像記憶部
5 第2の画像記憶部
6 画像形成部
7 通信部
8 入力操作部
81 入力部
82 表示部
83 制御部
9 システム制御部
10,10’ パーソナルコンピュータ
10a 記憶部
1 MFP
2 image reading unit 3, 3 ′ image processing unit 31 first image processing unit 32 second image processing unit 33 image editing unit 34 reference image creation unit 35, 35 ′ OCR processing unit 36 image output unit 37 filing unit 4 1st image memory | storage part 5 2nd image memory | storage part 6 Image formation part 7 Communication part 8 Input operation part 81 Input part 82 Display part 83 Control part 9 System control part 10,10 'Personal computer 10a Memory | storage part

Claims (3)

原稿画像を読取る画像読取り部と、
前記画像読取り部での読取り画像データに対して、予め定める高解像度の形式での画像処理を行う第1の画像処理部と、
前記第1の画像処理部での処理後の画像データを一時保存する第1の記憶部と、
前記第1の記憶部に保存されている画像データを読出し、予め定める低解像度の形式での画像処理を行う第2の画像処理部と、
前記第2の画像処理部での処理後の低解像度の画像データを保存する第2の記憶部と、
文字のフォントサイズに応じて、フォントサイズが小さいほど解像度が高くなるように、前記第2の画像処理部での解像度を予め定めているOCR処理部とを含み、
前記OCR処理部は、前記第2の記憶部に保存されている画像データを読出し、OCR処理をして、文字のフォントサイズの解析を実施することにより、前記第2の記憶部から読出した画像データで示される画像に含まれる各段落について、段落の最先端文字及び最後端文字のフォントサイズを確認し、最先端文字及び最後端文字のフォントサイズが予め定める値以下の段落が出現した場合、前記第1の記憶部に記憶されている画像データの中から、該当段落を位置指定して、再度読出させるとともに、該当段落の最先端文字及び最後端文字のフォントサイズに割り当てられた解像度に、前記第2の画像処理部の解像度を高め、改めて高解像な画像データでのOCR処理を該当段落に対して行うことを特徴とする画像読取り装置。
An image reading unit for reading a document image;
A first image processing unit that performs image processing in a predetermined high-resolution format on image data read by the image reading unit;
A first storage unit for temporarily storing image data after processing by the first image processing unit;
A second image processing unit that reads out image data stored in the first storage unit and performs image processing in a predetermined low-resolution format;
A second storage unit for storing low-resolution image data processed by the second image processing unit;
Depending on the character of the font size, the more so the resolution is high is small font size, look including the OCR processing unit that defines the resolution at the second image processing unit in advance,
The OCR processing unit reads the image data stored in the second storage unit, performs OCR processing, and analyzes the font size of the character, thereby reading the image read from the second storage unit. For each paragraph included in the image indicated by the data, check the font size of the leading edge character and the last character of the paragraph, and if a paragraph whose font size is equal to or less than the predetermined value appears, From the image data stored in the first storage unit, the corresponding paragraph is positioned and read again, and at the resolution assigned to the font size of the leading edge character and the last character of the paragraph, An image reading apparatus, wherein the resolution of the second image processing unit is increased, and OCR processing with high-resolution image data is performed again on the corresponding paragraph .
前記OCR処理部は、前記フォントサイズの解析の結果、予め定めるサイズ以下の文字の場合に、前記第2の画像処理部に、拡大、スムージング、ノイズ除去の少なくとも1つの画像処理を行わせた後、OCR処理を行うことを特徴とする請求項1記載の画像読取り装置。 The OCR processing unit causes the second image processing unit to perform at least one of image processing for enlargement, smoothing, and noise removal in the case where the character size is not more than a predetermined size as a result of the font size analysis. The image reading apparatus according to claim 1 , wherein OCR processing is performed . 前記請求項1又は2に記載の画像読取り装置に、当該画像読取り装置による読取りデータを利用する外部機器を備えて構成され、前記OCR処理部は、前記外部機器側に搭載されることを特徴とする画像読取りシステム
The image reading apparatus according to claim 1 or 2, further comprising an external device that uses data read by the image reading device, and the OCR processing unit is mounted on the external device side. Image reading system .
JP2009242336A 2009-10-21 2009-10-21 Image reading apparatus and image reading system Expired - Fee Related JP5256165B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009242336A JP5256165B2 (en) 2009-10-21 2009-10-21 Image reading apparatus and image reading system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009242336A JP5256165B2 (en) 2009-10-21 2009-10-21 Image reading apparatus and image reading system

Publications (2)

Publication Number Publication Date
JP2011091537A JP2011091537A (en) 2011-05-06
JP5256165B2 true JP5256165B2 (en) 2013-08-07

Family

ID=44109398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009242336A Expired - Fee Related JP5256165B2 (en) 2009-10-21 2009-10-21 Image reading apparatus and image reading system

Country Status (1)

Country Link
JP (1) JP5256165B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6016763B2 (en) * 2013-12-12 2016-10-26 京セラドキュメントソリューションズ株式会社 Image forming apparatus
JP6801637B2 (en) * 2017-12-08 2020-12-16 京セラドキュメントソリューションズ株式会社 Image forming device
JP7312357B2 (en) * 2019-05-16 2023-07-21 京セラドキュメントソリューションズ株式会社 image forming device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319831A (en) * 1996-05-27 1997-12-12 Murata Mach Ltd Document reader
JPH11341198A (en) * 1998-05-26 1999-12-10 Canon Inc Facsimile communication equipment and facsimile communication method
JP3767670B2 (en) * 1999-09-30 2006-04-19 コニカミノルタビジネステクノロジーズ株式会社 Image transmission device
JP2001118032A (en) * 1999-10-15 2001-04-27 Ricoh Co Ltd Device and method for character recognition, and computer-readable recording medium with recorded program making computer implement character recognizing method
JP2006172055A (en) * 2004-12-15 2006-06-29 Canon Software Inc Character recognition device, character recognition accuracy decision method, program and recording medium

Also Published As

Publication number Publication date
JP2011091537A (en) 2011-05-06

Similar Documents

Publication Publication Date Title
EP2264995B1 (en) Image processing apparatus, image processing method, and computer program
CN102404478B (en) Image forming apparatus and system, information processing apparatus, and image forming method
JP5066977B2 (en) Image processing apparatus, image forming apparatus, and program
JP2022147074A (en) Image processing apparatus, image processing method, and program
JP5256165B2 (en) Image reading apparatus and image reading system
JP2009260721A (en) Image processing apparatus, image scanner, image output system, image storage system, image printing apparatus, image copying apparatus, image storage apparatus, program, and recording medium
JP4544315B2 (en) Paper document processing apparatus and program
JP2008160810A (en) Image scanning device, and image scanning system
JP4419893B2 (en) Image processing apparatus and image processing method
JP5040543B2 (en) Image processing apparatus, image forming system, image processing method, and image processing program
JP4933415B2 (en) Image processing apparatus, method, and program
US9888147B2 (en) Image processing apparatus, electronic file generating method, and recording medium
JP4310023B2 (en) Reduced image creation method and apparatus, and storage medium
JP2006196976A (en) Copying system with automatic clean copy function using ocr
US20060274390A1 (en) Image processing device, image processing method, and image processing program product allowing reproduction of information lost in printing
JP7102932B2 (en) Image processing device and control program for image processing device
JP4396710B2 (en) Image processing apparatus, image processing apparatus control method, and image processing apparatus control program
US11288536B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
US20060170952A1 (en) Image processing apparatus and method
US20090097699A1 (en) Information processing apparatus and method, computer program and computer-readable recording medium
JP2006115348A (en) Image information device and image printing method
JP2011090583A (en) Image reader and image reading system
JP2013083862A (en) Image processing device and image processing system
JP4998421B2 (en) Image forming apparatus and image forming program
JP4793429B2 (en) Image processing apparatus and image processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130422

R150 Certificate of patent or registration of utility model

Ref document number: 5256165

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees