JP5280425B2 - 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体 - Google Patents

画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体 Download PDF

Info

Publication number
JP5280425B2
JP5280425B2 JP2010253878A JP2010253878A JP5280425B2 JP 5280425 B2 JP5280425 B2 JP 5280425B2 JP 2010253878 A JP2010253878 A JP 2010253878A JP 2010253878 A JP2010253878 A JP 2010253878A JP 5280425 B2 JP5280425 B2 JP 5280425B2
Authority
JP
Japan
Prior art keywords
character
image data
size
image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010253878A
Other languages
English (en)
Other versions
JP2012104028A (ja
Inventor
仁志 廣畑
章人 ▲吉▼田
淳寿 森本
陽介 小西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2010253878A priority Critical patent/JP5280425B2/ja
Priority to US13/292,194 priority patent/US8941864B2/en
Priority to CN201110364658.7A priority patent/CN102469234B/zh
Publication of JP2012104028A publication Critical patent/JP2012104028A/ja
Application granted granted Critical
Publication of JP5280425B2 publication Critical patent/JP5280425B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40062Discrimination between different image types, e.g. two-tone, continuous tone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/166Normalisation of pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00408Display of information to the user, e.g. menus
    • H04N1/00413Display of information to the user, e.g. menus using menus, i.e. presenting the user with a plurality of selectable options
    • H04N1/00416Multi-level menus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/04Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa
    • H04N1/12Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa using the sheet-feed movement or the medium-advance or the drum-rotation movement as the slow scanning component, e.g. arrangements for the main-scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3877Image rotation
    • H04N1/3878Skew detection or correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

本発明は、原稿を読み取って取得した原稿画像データに基づいて上記原稿に記載されている文字の文字認識処理を行う画像処理装置および画像処理方法に関するものである。
従来から、紙媒体に記載されている情報をスキャナで読み取って画像データを作成し、画像データに含まれる文字について文字認識処理(OCR(Optical Character Recognition)処理)を施してテキストデータを作成する技術がある。
例えば、特許文献1には、小さな文字を高精度に読み取れるとともに、大きな文字を高速に読み取ることを可能にするために、画素数が多い高解像度の光電変換手段と画素数が少ない低解像度の光電変換手段とで画像を読み取り、小さな文字の場合には高解像度の光電変換手段で読み取った画像データを用い、大きな文字の場合には低解像度の光電変換手段で読み取った画像データを用いて文字認識を行う技術が開示されている。
特開平6−231301号公報(平成6年8月19日公開) 特開平7−192086号公報(平成7年7月28日公開) 特開平6−189083号公報(平成6年7月8日公開)
しかしながら、上記特許文献1の技術では、複数の光電変換手段を備える必要があるので、装置構成の複雑化および装置コストの増大を招いてしまうという問題がある。
本発明は、上記の課題に鑑みてなされたものであり、その目的は、多様な文字サイズの文字に対する文字認識処理を簡単な構成で精度よく行うことにある。
本発明の画像処理装置は、上記の課題を解決するために、原稿を読み取って取得した画像データに基づいて上記原稿に記載されている文字の文字認識処理を行う画像処理装置であって、画像データに含まれる文字の文字認識処理を行う認識処理部と、上記画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定する文字サイズ判定部と、上記文字サイズ判定部によって上記画像データにおける文字認識処理の対象とする文字のサイズが上記所定サイズよりも大きいと判定された場合に、上記画像データにおける少なくとも上記所定サイズよりも大きいと判定された文字を含む領域を当該文字のサイズが上記所定サイズ以下になるように縮小処理する縮小処理部とを備え、上記認識処理部は、上記文字サイズ判定部によって上記画像データにおける文字認識処理の対象とする文字のサイズが上記所定サイズよりも大きいと判定された場合に、上記縮小処理部によって縮小処理された画像データを用いて上記文字の文字認識処理を行うことを特徴としている。
本発明の画像処理方法は、上記の課題を解決するために、原稿を読み取って取得した画像データに基づいて上記原稿に記載されている文字の文字認識処理を行う画像処理方法であって、上記画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定する文字サイズ判定工程と、上記文字サイズ判定工程によって上記画像データにおける文字認識処理の対象とする文字のサイズが上記所定サイズよりも大きいと判定された場合に、上記画像データにおける少なくとも上記所定サイズよりも大きいと判定された文字を含む領域を当該文字のサイズが上記所定サイズ以下になるように縮小処理する縮小処理工程と、上記画像データに含まれる文字の文字認識処理を行う認識処理工程とを含み、上記認識処理工程は、上記文字サイズ判定工程によって上記画像データにおける文字認識処理の対象とする文字のサイズが上記所定サイズよりも大きいと判定された場合に、上記縮小処理工程によって縮小処理された画像データを用いて上記文字の文字認識処理を行うことを特徴としている。
上記の画像処理装置および画像処理方法によれば、画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定し、所定サイズよりも大きいと判定された場合に、画像データにおける少なくとも上記所定サイズよりも大きいと判定された文字を含む領域を当該文字のサイズが上記所定サイズ以下になるように縮小処理し、縮小処理された画像データを用いて上記文字の文字認識処理を行う。これにより、文字サイズが所定サイズよりも大きい文字の文字認識処理を行う場合であっても、文字認識処理を精度よく行うことができる。すなわち、多様な文字サイズの文字の文字認識処理を簡単な構成で精度よく行うことができる。
また、上記所定サイズは、上記認識処理部において所定の文字認識精度を得るための上記認識処理部の仕様上の上限値、または当該上限値より小さい値に設定されている構成としてもよい。
上記の構成によれば、文字認識処理の対象とする文字のサイズが認識処理部において所定の文字認識精度を得るための認識処理部の仕様上の上限値よりも大きい場合であっても、所定の文字認識精度を得ることができる。
また、上記文字サイズ判定部は、上記画像データにおける領域毎、あるいは上記画像データにおける行毎に文字サイズの判定を行う構成としてもよい。
上記の構成によれば、画像データにおける領域毎、あるいは画像データにおける行毎に文字サイズの判定を行うことにより、文字サイズが領域毎あるいは行毎に異なる場合であっても文字認識処理を精度よく行うことができる。
また、ユーザからの文字サイズの選択指示を受け付ける操作入力部を備え、
上記文字サイズ判定部は、上記操作入力部を介して入力される上記選択指示に基づいて上記画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定する構成としてもよい。
上記の構成によれば、ユーザからの選択指示に基づいて画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定することができるので、文字サイズの判定を容易に行うことができる。
また、上記文字サイズ判定部は、上記画像データに基づいて文字認識処理の対象とする文字が含まれる領域における、各文字の外接矩形、各文字の高さ、各行の高さ、または複数の文字からなる文字群の外接矩形を検出し、この検出結果に基づいて上記画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定する構成としてもよい。
上記の構成によれば、文字サイズ判定部が画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを自動判定するので、ユーザの利便性を向上させることができる。
また、上記文字認識処理の結果に応じたテキストデータを含む出力ファイルを生成するフォーマット化処理部を備えている構成としてもよい。なお、上記出力ファイルは、テキストデータのみからなるファイルであってもよく、画像データとテキストデータとを対応付けたものであってもよい。
また、本発明の画像読取装置は、原稿を読み取って画像データを取得する画像入力装置と、上記画像入力装置が取得した画像データに基づいて上記原稿に記載されている文字の文字認識処理を行う、上記したいずれかの画像処理装置とを備えていることを特徴としている。
上記の構成によれば、文字サイズが所定サイズよりも大きい文字の文字認識処理を行う場合であっても、文字認識処理を精度よく行うことができる。また、画像入力装置の取得した画像データを必要に応じて低解像度化して文字認識処理を行うので、上記特許文献1の技術のように複数の光電変換手段を備える必要がない。したがって、装置構成の複雑化および装置コストの増大を招くことなく、多様な文字サイズの文字の文字認識処理を簡単な構成で精度よく行うことができる。
本発明の画像形成装置は、上記フォーマット化処理部を備えた上記画像処理装置と、上記画像データに応じた画像を記録材上に形成する画像形成部と、上記出力ファイルを所定の送信先に送信するか、あるいは所定の保存先に保存するファイル出力処理部とを備えている。
上記の構成によれば、多様な文字サイズの文字の文字認識処理を簡単な構成で精度よく行い、文字認識処理の結果に応じたテキストデータを含む出力ファイルを所定の送信先に送信するか、あるいは所定の保存先に保存することができる。
なお、上記画像処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各部として動作させることにより、上記画像処理装置をコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。
以上のように、本発明の画像処理装置は、上記画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定する文字サイズ判定部と、上記文字サイズ判定部によって上記画像データにおける文字認識処理の対象とする文字のサイズが上記所定サイズよりも大きいと判定された場合に、上記画像データにおける少なくとも上記所定サイズよりも大きいと判定された文字を含む領域を当該文字のサイズが上記所定サイズ以下になるように縮小処理する縮小処理部と、上記画像データに含まれる文字の文字認識処理を行う認識処理部とを備え、上記認識処理部は、上記文字サイズ判定部によって上記画像データにおける文字認識処理の対象とする文字のサイズが上記所定サイズよりも大きいと判定された場合に、上記縮小処理部によって縮小処理された画像データを用いて上記文字の文字認識処理を行う。
また、本発明の画像処理方法は、上記画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定する文字サイズ判定工程と、上記文字サイズ判定工程によって上記画像データにおける文字認識処理の対象とする文字のサイズが上記所定サイズよりも大きいと判定された場合に、上記画像データにおける少なくとも上記所定サイズよりも大きいと判定された文字を含む領域を当該文字のサイズが上記所定サイズ以下になるように縮小処理する縮小処理工程と、上記画像データに含まれる文字の文字認識処理を行う認識処理工程とを含み、上記認識処理工程は、上記文字サイズ判定工程によって上記画像データにおける文字認識処理の対象とする文字のサイズが上記所定サイズよりも大きいと判定された場合に、上記縮小処理工程によって縮小処理された画像データを用いて上記文字の文字認識処理を行う。
それゆえ、多様な文字サイズの文字の文字認識処理を簡単な構成で精度よく行うことができる。
本発明の一実施形態にかかる画像処理装置において行われるスキャンモードの処理の流れを示すフローチャートである。 本発明の一実施形態にかかる画像処理装置を備えた画像形成装置の構成を示すブロック図である。 本発明の一実施形態にかかる画像処理装置を備えた画像形成装置の構成を示すブロック図である。 図2の画像形成装置に備えられる画像入力装置の構成を示す説明図である。 本発明の一実施形態にかかる画像処理装置に備えられる原稿検知部の構成を示すブロック図である。 (a)は図2および図3に示した画像形成装置の操作パネルに表示される表示画面の一例を示す説明図であり、(b)は(a)に示した表示画面においてユーザが選択可能な内容を示す説明図である。 (a)は図2および図3に示した画像形成装置の操作パネルに表示される表示画面の一例を示す説明図であり、(b)は(a)に示した表示画面においてユーザが選択可能な内容を示す説明図である。 (a)は図2および図3に示した画像形成装置の操作パネルに表示される表示画面の一例を示す説明図であり、(b)は(a)に示した表示画面においてユーザが選択可能な内容を示す説明図である。 (a)および(b)は、図5に示した原稿検知部に備えられる文字サイズ判定部における文字サイズの判定方法の一例を示す説明図である。 (a)および(b)は、図5に示した原稿検知部に備えられる行数判定部における行数の判定方法の一例を示す説明図である。 (a)および(b)は図5に示した原稿検知部に備えられる縮小処理部において行われる縮小処理の縮小率の設定方法を示す説明図である。 (a)および(b)は図5に示した原稿検知部に備えられるレイアウト解析部におけるレイアウト解析方法を示す説明図である。 図2および図3に示した画像形成装置の変形例を示すブロック図である。 図2および図3に示した画像形成装置の変形例を示すブロック図である。 本発明の一実施形態にかかる画像処理装置において行われる帳票登録モードの処理の流れを示すフローチャートである。 図15に示した帳票登録モードの処理において新規登録される帳票原稿の一例を示す説明図である。 (a)〜(e)は、図16に示した帳票原稿を読み取った結果に基づいて表示される表示画面の一例を示す説明図である。 図16に示した帳票原稿においてOCR領域として設定される領域の例を示す説明図である。 (a)および(b)は図15に示した帳票登録モードの処理におけるOCR領域の設定方法を示す説明図である。 (a)および(b)は図15に示した帳票登録モードの処理におけるOCR領域の設定方法を示す説明図である。 (a),(c)〜(e)は、図15に示した帳票登録モードの処理においてOCR条件の設定処理を行う際に操作パネルの表示部に表示されるOCR条件設定画面の一例を示す説明図であり、(b)はOCR条件設定画面における各選択項目についてのユーザが選択可能な条件を示している。 図15に示した帳票登録モードにおいて登録される帳票の登録情報の例を示す説明図である。 本発明の一実施形態にかかる画像処理装置において行われる帳票OCRモードの処理の流れを示すフローチャートである。 (a)は図23に示した帳票OCRモードの処理において処理対象とされる帳票原稿の一例を示す説明図であり、(b)は(a)に示した帳票原稿の画像データに対する文字認識処理によって検出されるテキストデータの一例を示す説明図である。 本発明の一実施形態にかかる画像処理装置を備えた画像読取装置の構成例を示すブロック図である。 本発明の一実施形態にかかる画像処理装置を備えた情報処理装置の構成例を示すブロック図である。
本発明の一実施形態について説明する。なお、本実施形態では、本発明をデジタルカラー複合機(コピア機能、スキャナ機能、プリンタ機能、ファクシミリ送受信機能、scan to e-mail機能等を備える複合機)に適用する場合の実施例について主に説明する。
(1−1.デジタルカラー複合機1の全体構成)
図2および図3は、本実施形態にかかる画像処理装置を備えたデジタルカラー複合機(画像読取装置、画像形成装置)1の概略構成を示すブロック図である。この図に示すように、デジタルカラー複合機1は、画像入力装置2、画像処理装置3、画像出力装置4、通信装置5、記憶部6、制御部7、および操作パネル8を備えている。
このデジタルカラー複合機1は、(1)画像入力装置2で読み取った画像データまたは通信装置5によって外部から受信した画像データに応じた画像を画像出力装置4によって記録材上に形成(印刷)する画像形成モード、および(2)画像入力装置2で読み取った画像データを通信装置5により外部装置に送信する画像送信モードを備えている。また、画像送信モードは、スキャンモード(通常読取モード)、帳票OCRモード、および帳票登録モードを備えている。さらに、スキャンモードでは、原稿から読み取った画像データに基づいて原稿の文字認識処理(OCR処理)を行うことの要否を選択できるようになっている。図2は画像形成モードにおけるデータの流れを示しており、図3は画像送信モードにおけるデータの流れの一例を示している。通信装置5によって外部から受信した画像データは、一旦、記憶部6に記憶され、ユーザからの指示入力により、記憶部6より読み出されて出力処理が行われる。
画像入力装置2は、原稿の画像を読み取って画像データ(原稿画像データ)を生成するものであり、例えばCCD(Charge Coupled Device )ラインセンサなどの光学情報を電気信号に変換するデバイス(光電変換手段)を備えたスキャナ部より構成されている。本実施形態では、画像入力装置2は、原稿からの反射光像を、RGB(R:赤・G:緑・B:青)のアナログ信号として画像処理装置3に出力する。画像入力装置2の詳細については後述する。
画像処理装置3は、画像形成モードでは、画像入力装置2から入力された画像データに種々の画像処理を施して得られるCMYKの画像データを画像出力装置4に出力する。また、画像送信モードでは、画像入力装置2から入力された画像データに種々の画像処理を施し、ユーザによって指定されたファイル形式の画像ファイル(出力ファイル)を生成して通信装置5に出力する。この際、文字認識処理の実行が指定されている場合には、画像データと文字認識処理の結果とを対応付けた画像ファイル、あるいは文字認識処理の結果に応じて生成したテキストデータを含むファイル(出力ファイル)を生成して通信装置5に出力する。なお、画像処理装置3の詳細については後述する。
画像出力装置(画像出力部)4は、画像処理装置3から入力された画像データを記録材(例えば紙等)上に出力するものである。画像出力装置4の構成は特に限定されるものではなく、例えば、電子写真方式あるいはインクジェット方式を用いた画像出力装置を用いることができる。
通信装置5は、例えばモデムやネットワークカードより構成される。通信装置5は、ネットワークカード、LANケーブル等を介して、ネットワークに接続された他の装置(例えば、パーソナルコンピュータ、サーバ装置、表示装置、他のデジタル複合機、ファクシミリ装置等)とデータ通信を行う。
操作パネル8は、例えば、液晶ディスプレイなどの表示部と設定ボタンなどからなる操作入力部により構成され(いずれも図示せず)、制御部7の指示に応じた情報を上記表示部に表示するとともに、上記設定ボタンを介してユーザから入力される情報を制御部7に伝達する。なお、操作パネル8として表示部と操作入力部とが一体化されたタッチパネルを用いてもよい。ユーザは、操作パネル8を介して入力画像データに対する処理モード、印刷枚数、用紙サイズ、送信先アドレスなどの各種情報を入力することができる。
記憶部6は、画像処理装置3で扱われる各種データ(画像データ、帳票の登録情報等)を記憶する記憶手段である。記憶部6の構成は特に限定されるものではないが、例えばハードディスクなどを用いることができる。
制御部7は、例えばCPU(Central Processing Unit)等からなり、図示しないROM等に格納されたプログラムや各種データ、操作パネル8から入力される情報、画像入力装置2あるいは画像出力装置4に備えられる各種センサの検知結果等に基づいて、デジタルカラー複合機1の各部の動作を制御する。
(1−2.画像入力装置2の構成)
図4は、画像入力装置2の構成を示す説明図である。この図に示すように、画像入力装置2は、第2コンタクトガラス52上を搬送される原稿の上面側の画像を読み取るイメージセンサ部53と、第2コンタクトガラス52上を搬送される原稿の下面側の画像を読み取る機能、および第1コンタクトガラス51上に載置されている原稿を走査することによりこの原稿の下面側を読み取る読取部54とを備えている。これにより、画像入力装置2は、原稿を静止させて画像を読み取る静止読取モード、原稿を搬送させながら原稿を読み取る走行読取モードを実行できるようになっている。また、走行読取モードでは、搬送されている原稿の片面の画像を読み取る片面読取モードおよび両面の画像を読み取る両面読取モードを実行できるようになっている。
第2コンタクトガラス52上を移動するように原稿を搬送するために、画像入力装置2はADF(Auto Document Feeder)50を備えている。このADF50は、図4に示すように整合ローラ対55を備えている。整合ローラ対55は、搬送されてきた原稿の先端が整合ローラ対55のニップ部に突き当たるように配置されている。そして、原稿が上記ニップ部に突き当たることによって原稿に所定の撓みが形成された後、整合ローラ対55が回動することによってこの原稿を下流側の原稿搬送路56に搬送することで、原稿の先端を搬送方向に垂直になるように原稿の向きを整合させるようになっている。
また、ADF50における第1コンタクトガラス51との対向面には第1コンタクトガラス51上に載置された原稿を抑える原稿押さえマット57が備えられており、ADF50における第2コンタクトガラス52との対向面には原稿の搬送方向を規制するためのガイド58が備えられている。また、第2コンタクトガラス52におけるイメージセンサ部53との対向面とは反対側の面には、読取部54の光源62から照射される光がイメージセンサ部53に入射してイメージセンサ部53が画像を適切な濃度で読み取れなくなるのを防止するための遮光部材59が配置されている。
なお、上記した各部材のうち、原稿押さえマット57、整合ローラ対55、原稿搬送路56、イメージセンサ部53、および上側原稿搬送ガイド58等が上部筐体(原稿カバー)60に備えられ、第1コンタクトガラス51、第2コンタクトガラス52、および読取部54が下部筐体61に備えられている。また、上部筐体60は下部筐体61に対して開閉可能に構成されている。
上記読取部54は、第1走査ユニット63、第2走査ユニット64、結像レンズ65、およびCCD(Charge Coupled Device)66を備えている。第1走査ユニット63は、第1コンタクトガラス51に沿って(図4の左から右に向かって)一定速度Vで移動しながら原稿を露光するものであり、光源(露光ランプ)62と、原稿の反射光を第2走査ユニット64に導く第1反射ミラー67とを有している。
第2走査ユニット64は、第1走査ユニット63に追随してV/2の速度で移動するようになっており、第1反射ミラー67からの光を結像レンズ65に導くための第2反射ミラー68および第3反射ミラー69を備えている。
結像レンズ65は、第3反射ミラー69からの反射光をCCD66上で結像させるものである。CCD66は結像レンズ65からの光をアナログの電気信号に変換するものである。なお、このアナログの電気信号は、後述する画像処理装置3によってデジタルの画像データに変換される。
走行読取モード(片面読取モード、両面読取モード)で原稿を読み取る場合、読取部54は、ホームポジション(図示せず)から、図4に示したように第2コンタクトガラス52に対向する位置に移動する。また、静止読取モードで原稿を読み取る場合、読取部54は、図4に示した位置Pから原稿サイズ検出手段(図示せず)で検出された原稿サイズに応じた距離だけ第1コンタクトガラス51に沿った方向に移動するようになっている。上記原稿サイズ検出手段は、例えば、画像入力装置2内に配置されたフォトトランジスタなどの光電変換素子により第1コンタクトガラス51上に載置された原稿の主走査方向および副走査方向の原稿サイズを検知するものであってもよく、あるいは、操作パネル8を介してユーザが選択した原稿のサイズを検知するものであってもよい。
なお、両面読取モードで原稿を読み取った場合、例えば、原稿の表面が読取部54で読み取られるように設定されている場合には読取部54で読み取られた画像データがまず画像処理装置3に出力され、その後、イメージセンサ部53で読み取られた原稿の裏面の画像データが画像処理装置3に入力されるようになっている。なお、読取部54で読み取られた画像データが画像処理装置3で処理されている間、イメージセンサ部53で読み取られた画像データは後述する記憶部6に格納され、読取部54で読み取られた画像データの画像処理が終了した後(あるいは読取部54で読み取られた画像データに対する画像処理の進行状況に応じて)、記憶部6から読み出されて画像処理が施される。
なお、画像入力装置2の構成はこれに限るものではなく、原稿を読み取って画像データを生成できるものであればよい。例えば、原稿台に載置された原稿を読み取る機能、または搬送されている原稿を読み取る機能の一方のみを備えたものであってもよい。
(1−3.画像処理装置3の構成および画像形成モードの動作)
次に、画像処理装置3の構成および動作について説明する。まず、画像形成モードの場合の動作について説明する。
画像処理装置3は、図2に示したように、A/D変換部11、シェーディング補正部12、入力処理部13、原稿検知部14、原稿補正部15、色補正部16、黒生成下色除去部17、空間フィルタ部18、出力階調補正部19、中間調生成部(中間調生成部)20、領域分離部21、認識処理部22、描画コマンド生成部23、およびフォーマット化処理部24を備えている。
画像形成モードの場合、まず、A/D変換部11が、画像入力装置2から入力されたRGBのアナログ信号をデジタル信号に変換してシェーディング補正部12に出力する。
シェーディング補正部12は、A/D変換部11から送られてきたデジタルのRGB信号に対して、画像入力装置2の照明系、結像系、撮像系で生じる各種の歪みを取り除く処理を施し、入力処理部13に出力する。
入力処理部(入力階調補正部)13は、シェーディング補正部12にて各種の歪みが取り除かれたRGB信号に対して、カラーバランスを整えると同時に、濃度信号など画像処理装置3に採用されている画像処理システムの扱い易い信号に変換する処理を施す。また、下地濃度の除去やコントラストなどの画質調整処理を行う。また、入力処理部13は、上記の各処理を施した画像データを記憶部6に一旦記憶させる。
原稿検知部14は、入力処理部13によって上記の処理が施された画像データに基づいて原稿画像の傾き角度、天地方向、画像データ中の画像が存在する領域である画像領域などを検出し、その検出結果を原稿補正部15に出力する。
原稿補正部15は、原稿検知部14の検知結果(原稿傾き検知部34による傾き検知結果および天地方向検知部35による天地方向検知結果)に基づいて、入力処理部13によって上述の処理が施された画像データに原稿傾き補正処理および天地方向補正処理を行う。
なお、本実施形態では、原稿補正部15が原稿検知部14の傾き検知結果に基づいて原稿傾き補正処理を行い、原稿傾き補正後の画像データを記憶部6に一旦記憶させ、原稿傾き補正後の画像データを記憶部6から原稿検知部14に再入力し、この再入力された画像データに基づいて原稿検知部14が天地判定を行い、天地判定結果に基づいて原稿補正部15が天地方向補正処理を行って天地方向補正後の画像データを記憶部6に一旦記憶させるようになっている。ただし、これに限らず、原稿検知部14において傾き検知処理および天地判定処理を行ってこれら両処理の結果を原稿補正部15に出力し、原稿補正部15が上記両処理の結果に基づいて原稿傾き補正処理および天地方向補正処理を行うようにしてもよい。
また、原稿検知部14は、文字認識処理を行うモードが選択されている場合には、原稿補正部15によって原稿傾き補正および天地方向補正が行われた画像データに基づいて作成した2値画像データ、および2値画像データに基づいてレイアウト解析処理(文字の方向が縦書きであるか横書きであるかを解析する処理)を行った結果を認識処理部22に出力する。なお、原稿補正部15が原稿検知部14によって生成された2値画像データに対して原稿傾き補正および天地方向補正を行い、その結果を認識処理部22に出力するようにしてもよい。
また、原稿補正部15によって原稿傾き補正処理および天地方向補正処理が施された画像データをファイリングデータとして管理するようにしてもよい。この場合、上記画像データは、例えば、JPEG圧縮アルゴリズムに基づいてJPEGコードに圧縮されて記憶部6に格納される。そして、この画像データに対するコピー出力動作やプリント出力動作が指示された場合には、記憶部6からJPEGコードが引き出されて不図示のJPEG伸張部に引き渡され、復号化処理が施されてRGBデータに変換される。また、上記の画像データに対して送信動作が指示された場合には、記憶部6からJPEGコードが引き出され、ネットワーク網や通信回線を介して通信装置5から外部装置へ送信される。
図5は、原稿検知部14の概略構成を示すブロック図である。この図に示すように、原稿検知部14は、信号変換部31、解像度変換部32、2値化処理部33、原稿傾き検知部34、天地方向検知部35、レイアウト解析部36、文字サイズ判定部37、縮小処理部38、および行数判定部39を備えている。
信号変換部31は、入力処理部13によって上記各処理が施された画像データがカラー画像である場合にこの画像データを無彩化して、明度信号もしくは輝度信号に変換し、解像度変換部32に出力する。
例えば、信号変換部31は、Yi=0.30Ri+0.59Gi+0.11Biを演算することによりRGB信号を輝度信号Yに変換する。ここで、Yは各画素の輝度信号であり、R,G,Bは各画素のRGB信号における各色成分であり、添え字のiは画素毎に付与された値(iは1以上の整数)である。あるいは、RGB信号をCIE1976L*a*b*信号(CIE:Commission International de l'Eclairage、L*:明度、a*,b*:色度)に変換してもよく、G信号を用いてもよい。
解像度変換部32は、画像データの解像度を低解像度に変換し、2値化処理部33に出力する。解像度変換の方法は特に限定されるものではなく、例えば、公知のニアレストネイバー法、バイリニア法、バイキュービック法、平均値法などを用いることができる。
本実施形態では、解像度変換部32は、画像入力装置2において1200dpiあるいは600dpiで読み込まれた画像データの解像度を第1解像度(例えば300dpi)に変換した画像データと第1解像度よりも低い第2解像度(例えば75dpi)に変換した画像データとを生成する。
2値化処理部33は、解像度変換部32によって解像度変換された第1解像度の画像データ、および第2解像度の画像データをそれぞれ2値化し、第1解像度の2値画像データAおよび第2解像度の2値画像データBを生成する。具体的には、画像データにおける各画素の濃度(画素値)と予め設定された閾値とを比較することにより各画素の画素値を2値化する。例えば、画像データが8ビットである場合、上記閾値を128とする。あるいは、複数の画素(例えば5画素×5画素)からなるブロックにおける濃度(画素値)の平均値を閾値としてもよい。また、2値化処理部33は、第1解像度の画像データを原稿傾き検知部34および天地方向検知部35に出力し、第1解像度の画像データおよび第2解像度の画像データを行数判定部39に出力する。
原稿傾き検知部34は、2値化処理部33から入力される第1解像度の2値画像データAに基づいて、画像読取時のスキャン位置(正規の原稿位置)に対する原稿の傾き角度を検知し、検知した傾き角度を原稿補正部15に出力する。つまり、原稿傾き検知部34は、画像入力装置2におけるスキャン位置(正規の原稿位置)に対して、画像読取時における原稿の位置が傾いていた場合に、この傾き角度を検知し、原稿補正部15に出力する。
傾き角度の検知方法は特に限定されるものではなく、例えば従来から公知の方法を用いることができる。例えば、特許文献2に記載されている方法を用いてもよい。この方法では、2値化された画像データからを黒画素と白画素との境界点(例えば各文字の上端における白/黒の境界点の座標)を複数個抽出し、各境界点の点列の座標データを求める。黒画素と白画素の境界については、例えば、各文字の上端における白/黒境界点の座標を求める。そして、この点列の座標データに基づいて回帰直線を求め、その回帰係数bを下記式(1)に基づいて算出する。
b=Sxy/Sx ・・・(1)
なお、Sx,Syはそれぞれ変量x,yの残差平方和であり、Sxyはxの残差とyの残差の積の和である。すなわち、Sx,Sy,Sxyは下記式(2)〜(4)で表わされる。
Figure 0005280425
そして、上記のように算出した回帰係数bより、下記式(5)に基づいて傾き角度θを算出する。
tanθ=b ・・・(5)
天地方向検知部35は、2値化処理部33から入力される第1解像度の2値画像データAに基づいて、画像読取時の原稿の天地方向を検知し、検知した天地方向を原稿補正部15に出力する。
天地方向の検知方法は特に限定されるものではなく、例えば従来から公知の方法を用いることができる。例えば、特許文献3に記載されている方法を用いてもよい。この方法では、以下の(1)〜(6)の処理により原稿の天地方向を検知する。
(1)原稿内の文字を文字毎に切り出して各文字をパターン化して文字パターンを生成する。
(2)文字パターンには文字以外のノイズも含まれるため、文字の可能性が高い文字パターン(例えば、縦横比が1:2〜2:1である文字パターン)を選別する。
(3)文字パターンの特徴とデータベース化された文字パターン情報とを比較(マッチング)する。例えば、データベース化された文字パターンに切り出された文字パターン(入力パターン)を重ね合わせ、画素ごとの白黒を比較する。そして、データベース化された文字パターンの中に全ての画素が合致する文字パターンが存在する場合には当該文字パターンに対応する文字を入力パターンの文字であると判別する。また、全ての画素が合致する文字パターンが存在しない場合、合致する画素の数が所定のマッチング割合に達しているか否かを判断し、達していない場合にはその文字パターンは判別不能と判断する。一方、所定のマッチング割合に達している場合には、合致する画素が最も多い文字パターンに対応する文字を入力パターンの文字であると判別する。
(4)切り出された文字パターンを90°、180°、270°回転させ、上記(2)および(3)の処理を繰り返す。
(5)上記各回転角(0°、90°、180°、270°)について、上記(2),(3)によって判別可能であった文字の数を比較し、判別可能な文字数が最も多い回転角を原稿の文字方向として原稿の天地方向を判定する。
(6)天地方向の判定結果として0°、90°、180°、および270°のうちのいずれかを出力する。
レイアウト解析部36、文字サイズ判定部37、縮小処理部38、および行数判定部39は、画像出力モードでは動作を行わない。これら各部の詳細については後述する。
色補正部16は、原稿補正部15によって原稿傾き補正処理および天地方向補正処理が施された画像データを記憶部6から読み出し、読み出した画像データをRGB信号の補色であるCMY(C:シアン・M:マゼンタ・Y:イエロー)信号に変換するとともに、色再現性を高める処理を行う。
黒生成下色除去部17は、色補正後のCMYの3色信号から黒(K)信号を生成する黒生成、元のCMY信号から黒生成で得たK信号を差し引いて新たなCMY信号を生成する処理を行うものである。これにより、CMYの3色信号はCMYKの4色信号に変換される。
空間フィルタ部18は、黒生成下色除去部17より入力されるCMYK信号の画像データに対して、領域識別信号を基にデジタルフィルタによる空間フィルタ処理(強調処理および/または平滑化処理)を行い、空間周波数特性を補正する。これにより、出力画像のぼやけや粒状性劣化を軽減することができる。
出力階調補正部19は、用紙等の記録材に出力するための出力γ補正処理を行い、出力γ補正処理後の画像データを中間調生成部20に出力する。
中間調生成部20は、最終的に画像を画素に分離してそれぞれの階調を再現できるように処理する階調再現処理(中間調生成)を施す。
領域分離部21は、RGB信号より、入力画像中の各画素を黒文字領域、色文字領域、網点領域、印画紙写真(連続階調領域)領域の何れかに分離するものである。領域分離部21は、分離結果に基づき、画素がどの領域に属しているかを示す領域分離信号を、黒生成下色除去部17、空間フィルタ部18、および中間調生成部20へと出力する。黒生成下色除去部17、空間フィルタ部18、および中間調生成部20では、入力された領域分離信号に基づいて、各領域に適した処理が行われる。領域分離処理の方法は特に限定されるものではなく、従来から公知の方法を用いることができる。
認識処理部(OCRエンジン)22、描画コマンド生成部23、およびフォーマット化処理部24は、画像形成モードでは動作を行わない。これら各部の詳細については後述する。
上述した各処理が施された画像データは、一旦、記憶部6あるいは他のメモリ(図示せず)に記憶されたのち、所定のタイミングで読み出されて画像出力装置4に入力される。
(1−4.画像処理装置3の構成および画像送信モードの動作)
次に、画像送信モードにおける画像処理装置3の動作、および原稿検知部14に備えられるレイアウト解析部36、文字サイズ判定部37、縮小処理部38、および行数判定部39の構成、認識処理部22、描画コマンド生成部23、およびフォーマット化処理部24の構成について説明する。
デジタルカラー複合機1は、画像送信モードとして、スキャンモード(通常読取モード)、帳票OCRモード、および帳票登録モードを備えており、図6(a)、図7(a)および図8(a)に示すように操作パネル8の表示部に表示されたスキャンモードのタブT1、帳票OCRモードのタブT2、および帳票登録モードのタブT3の中からユーザが所望するモードのタブを選択するようになっている。
図6(a)は画像送信モードのタブT1が選択された場合に操作パネル8の表示部に表示される表示画面の一例を示す説明図であり、図6(b)は図6(a)の表示画面に表示される各項目についてユーザが選択可能な設定値(設定内容)を示す説明図である。
また、図7(a)は帳票登録モードのタブT3が選択された場合に操作パネル8の表示部に表示される表示画面の一例を示す説明図であり、図7(b)は図7(a)の表示画面に表示される各項目についてユーザが選択可能な設定値(設定内容)を示す説明図である。
また、図8(a)は帳票OCRモードのタブT2が選択された場合に操作パネル8の表示部に表示される表示画面の一例を示す説明図であり、図8(b)は図8(a)の表示画面に表示される各項目についてユーザが選択可能な設定値(設定内容)を示す説明図である。
(1−4−1.スキャンモードの処理)
まず、スキャンモードが選択された場合について説明する。図1はスキャンモードにおける画像処理装置3の処理の流れを示すフローチャートである。なお、画像入力装置2、A/D変換部11、シェーディング補正部12、入力処理部13、および領域分離部21の処理内容は画像形成モードの場合と同様なので、ここではその説明を省略する。
本実施形態では、図6(a)および図6(b)に示したように、スキャンモードにおいて、ユーザが、(1)出力画像データのフォーマット(本実施形態ではPDF、PDF(OCR)、TIFF、JPEGのうちのいずれか)、(2)出力画像データの解像度(本実施形態では600dpi,400dpi,300dpi,200dpi,100dpiのうちのいずれか)、(3)出力画像データのカラータイプ(本実施形態ではカラー、グレー、白黒2値のうちのいずれか)、(4)原稿傾き補正を行うか否か、および(5)天地方向補正を行うか否かを選択することができるようになっている。
また、スキャンモードでは、出力画像データのフォーマットとしてPDF(OCR)が選択された場合にのみ文字認識処理を行い、文字認識結果を透明テキストデータとして画像データに重畳させたPDF(Portable Document Format)形式の画像ファイルを生成するようになっている。
さらに、出力画像データのフォーマットとしてPDF(OCR)が選択された場合、すなわち文字認識処理を行う場合には、ユーザが、(a)OCR言語(本実施形態では日本語または英語のいずれか)、および(b)文字サイズ(本実施形態では「標準」、「大きい」、「かなり大きい」、「自動判定」のいずれか)を選択できるようになっている。
なお、出力画像データのフォーマットとして、文字認識処理を行わないフォーマット(PDF、TIFF、またはJPEG)が選択された場合には、図6(a)に表示されている項目のうち、OCR設定に関する項目(OCR言語、文字サイズ)についてはグレイアウト表示または非表示とされる。
図6(a)の表示画面において上記の各項目が設定された後、「原稿の読み取り」ボタンが操作された場合、制御部7は、画像入力装置2、A/D変換部11、シェーディング補正部12、および入力処理部13に上述した画像形成モードにおける処理と同様の処理を行わせる。
そして、入力処理部13の処理が終わった後、制御部7は、原稿傾き補正を行うか否かを判断する(S1)。この判断は、図6(a)に示した表示画面においてユーザが原稿傾き補正を行うことを選択したか否かに応じて行えばよい。
そして、S1において原稿傾き補正を行うと判断した場合、制御部7は、入力処理部13において上述の処理が施された画像データに対して信号変換部31、解像度変換部32、および2値化処理部33に上述した各処理を行わせ、その結果に基づいて原稿傾き検知部34に原稿傾き検知処理を行わせ(S2)、原稿補正部15に原稿傾き補正処理を行わせる(S3)。原稿補正部15は、原稿傾き補正処理後の画像データを記憶部6に一旦記憶させる。
S1において原稿傾き補正を行わないと判断した場合、あるいはS3において原稿傾き補正処理を行った後、制御部7は、天地方向補正を行うか否かを判断する(S4)。この判断は、図6(a)に示した表示画面においてユーザが天地方向補正を行うことを選択したか否かに応じて行えばよい。
そして、S4において天地方向補正を行うと判断した場合、制御部7は、S3において原稿傾き補正処理が施された画像データ、あるいは入力処理部13において上述の処理が施された画像データを記憶部6から読み出して信号変換部31、解像度変換部32、および2値化処理部33に上述した各処理を行わせ、その結果に基づいて天地方向検知部35に天地方向検知処理を行わせ(S5)、原稿補正部15に天地方向補正処理を行わせる(S6)。原稿補正部15は、天地方向補正処理後の画像データを記憶部6に一旦記憶させる。
S4において天地方向補正を行わないと判断した場合、あるいはS6において天地方向補正処理を行った後、制御部7は、文字認識処理を行うか否かを判断する(S7)。この判断は、例えば、図6(a)に示した表示画面において出力画像データのフォーマットとしてPDF(OCR)が選択されたか否かに応じて行えばよい。
S7において文字認識処理を行わないと判断した場合、制御部7は、後述するS14の処理を行う。
一方、S7において文字認識処理を行うと判断した場合、制御部7は、原稿の文字サイズが「標準」、「大きい」、「かなり大きい」のうちのいずれに属するかを特定する(S8)。具体的には、制御部7は、図6(a)に示した表示画面に対して、ユーザが「標準」、「大きい」、「かなり大きい」のうちのいずれかを選択する選択指示を行った場合にはその選択指示に応じて文字サイズを特定する。また、ユーザが「自動判定」を選択した場合には、制御部7は、原稿検知部14に備えられる文字サイズ判定部37に文字サイズの自動判定処理(文字サイズが「標準」、「大きい」、「かなり大きい」のうちのいずれに属するかを判定する処理)を行わせ、その判定処理結果に応じて文字サイズを特定する。
なお、本実施形態では、原稿の文字サイズが認識処理部22における文字認識において所定の文字認識精度が得られる認識処理部22の仕様上の上限値(例えば文字の高さサイズ17mm)以下の場合には「標準」サイズとし、上記上限値より大きく所定値(例えば上記上限値の2倍)以下の場合には「大きい」サイズとし、上記所定値より大きい場合には「かなり大きい」とするようになっている。ただし、これに限らず、認識処理部22の仕様上の上限値よりも低い値を閾値として設定し、文字サイズがこの閾値以下の場合には「標準」サイズとし、上記閾値より大きく所定値(例えば上記閾値の2倍)以下の場合には「大きい」サイズとし、上記所定値より大きい場合には「かなり大きい」とするようにしてもよい。また、上記の上限値は、認識処理部22の製造者が仕様値として公表している値であってもよく、複数種類の文字が複数の文字サイズで印字されたサンプル原稿の画像データに基づいて認識処理部22で文字認識処理を行って認識成功率を算出し、所定の認識成功率(文字認識精度)が得られる文字サイズの上限値を算出した結果であってもよい。
また、文字サイズ判定部37における文字サイズの自動判定方法は特に限定されるものではないが、例えば、以下に示す(例1)〜(例5)のうちのいずれかの方法を用いることができる。
(例1):2値化処理部33によって生成された第1解像度または第2解像度の2値画像データに基づいて文字の外接矩形を求め、外接矩形のサイズ(高さ、または、幅)についてのヒストグラムを作成し、最も頻度の高いサイズをその原稿における外接矩形のサイズとして算出する。そして、予め設定しておいた外接矩形のサイズと文字サイズ(「標準」、「大きい」、「かなり大きい」)との関係に基づいて文字サイズを特定する。
なお、外接矩形の求め方は後述するレイアウト解析部36における外接矩形の求め方と同様である。このため、レイアウト解析部36における外接矩形の算出結果を用いて文字サイズの自動判定処理を行うようにしてもよく、文字サイズ判定部37において外接矩形を算出し、この算出結果をレイアウト解析部36におけるレイアウト解析処理でも利用するようにしてもよい。
(例2):天地方向検知部35における天地方向検知処理で求めた文字パターンのうち、データベース化された文字パターンに対するマッチング割合が高い文字パターン(マッチング割合が所定値以上である文字パターン)のサイズ(高さ、または、幅)のヒストグラムを作成し、最も頻度の高いサイズに基づいて原稿の文字サイズ(「標準」、「大きい」、「かなり大きい」)を特定する。
(例3):OCR対象領域に含まれる行が1行のみである場合、図9(a)に示すように、文字サイズ判定部37が2値化処理部33によって生成された第1解像度または第2解像度の2値画像データに基づいてOCR対象領域の高さ(矩形形状からなるOCR対象領域の高さ)を検出し、その検出結果に基づいて文字サイズ(「標準」、「大きい」、「かなり大きい」)を特定する。
なお、OCR対象領域が1行のみであるか複数行であるかは、ユーザが操作パネル8を介して指定してもよく、行数判定部39が行数を自動判定するようにしてもよい。
また、行数判定部39における行数の自動判定方法は特に限定されるものではないが、例えば、2値化処理部33によって生成された第1解像度または第2解像度の2値画像データに基づいて、画像データの各ラインについて当該各ラインの延伸方向(行の延伸方向)に沿った白画素と黒画素との反転回数のヒストグラムを生成し、このヒストグラムに基づいて判定するようにしてもよい。
この方法では、反転回数が所定値(例えば20)以下のラインが所定ライン数以上連続して存在する場合に、その連続するラインからなる領域を空白領域として検出する。また、検出された空白領域の中に最初のラインまたは最終のラインが含まれる空白領域が存在する場合には、当該空白領域は行間領域ではなく原稿の余白領域であると判断し、当該空白領域を除外した空白領域を行間領域として検出する。そして、行間領域が存在するか否かを判断し、存在する場合には行数は複数行であると判断する。一方、行間領域が存在しない場合には行数は1行であると判断する。
なお、上記の所定ライン数は、行間として判断する行間領域の高さの閾値と行数判定処理に用いる画像データの解像度とに応じて適宜設定すればよい。例えば、画像データの解像度が300dpiであり、上記閾値が1mmとする場合、上記所定ライン数は12ライン程度に設定される。
図10(a)は複数の文字行が存在する場合の画像データ、およびこの画像データに基づいて行数判定部39によって生成されるヒストグラムの例を示している。この図に示すように、複数の文字行が存在する場合には、反転回数の分布は、文字行部分において反転回数の多いラインが連続し、空白領域(行間領域および余白領域)において反転回数の少ないラインが連続した分布となる。
図10(b)は、行数が1行のみである場合の画像データ、およびこの画像データに基づいて行数判定部39によって生成されるヒストグラムの例を示している。この図に示すように、行数が1行のみである場合には反転回数の多いラインが連続して存在する領域は文字行部分のみとなり、空白領域は余白領域のみとなる。
したがって、ライン方向(行方向)に沿った画素値の反転回数(白画素と黒画素との反転回数)の分布を求め、余白領域を除く空白領域である行間領域の有無を判定することで、複数の文字行が存在する画像であるか行数が1行のみの画像であるかを判別できる。なお、反転回数が所定値以上であるラインの連続部分が所定値(例えば1mm以上)である場合に、その連続部分を行として抽出してもよく、また当該連続部分のラインの延伸方向に対して垂直な方向の長さを行の高さとして抽出するようにしてもよい。
(例4):OCR対象領域に含まれる行が1行のみである場合、図9(b)に示すように、文字サイズ判定部37が2値化処理部33によって生成された第1解像度または第2解像度の2値画像データに基づいてOCR対象領域に含まれる文字群の外接矩形を求め、その矩形サイズの高さに基づいて文字サイズ(「標準」、「大きい」、「かなり大きい」)を特定する。
(例5):OCR対象領域に含まれる行が複数行である場合、行数判定部39にOCR対象領域に含まれる行の高さを抽出させ、抽出された行の高さに基づいて文字サイズ(「標準」、「大きい」、「かなり大きい」)を特定する。行数判定部39における行の抽出方法としては上記(例4)で示した方法を用いることができる。
次に、制御部7は、S5で特定した文字サイズに基づいて、文字サイズが「標準」であるか否か、すなわち原稿の文字サイズが認識処理部22における文字認識において所定の文字認識精度が得られる認識処理部22の仕様上の上限値以下であるか否かを判断する(S9)。文字サイズが「標準」ではないと判断した場合、すなわち特定された文字サイズが「大きい」または「かなり大きい」である場合、制御部7は、縮小処理部38を制御し、2値化処理部33によって生成された第1解像度および第2解像度の2値画像データに対して、縮小後の画像データにおける文字サイズが「標準」に収まるサイズになるように、特定された文字サイズに応じて縮小処理を行わせ(S10)、縮小処理後の第2解像度の2値画像データをレイアウト解析部36に出力させ、縮小処理後の第1解像度の2値画像データを認識処理部22に出力させる。
一方、文字サイズが「標準」であると判断した場合、制御部7は、縮小処理部38を制御し、2値化処理部33によって生成された第2解像度の2値画像データを縮小処理せずにそのままレイアウト解析部36に出力させ、第1解像度の2値画像データを縮小処理せずにそのまま認識処理部22に出力させ、には後述するS11の処理に進む。
具体的には、図11(a)に示すように、文字サイズが「大きい」である場合には画像サイズを1/2倍に縮小し、文字サイズが「かなり大きい」の場合には画像サイズを1/4倍に縮小する。なお、文字サイズを「標準」、「大きい」、「かなり大きい」に分類するのではなく、文字の高さサイズに応じて分類してもよい。この場合、例えば図11(b)に示すように、文字の高さに応じた文字サイズの分類結果に応じて画像データの縮小率(縮小倍率)を設定すればよい。
また、特定された文字サイズが「標準」である場合、縮小処理部38は、縮小倍率を等倍とする。すなわち、縮小処理部38は、2値化処理部33によって生成された第2解像度の2値画像データをそのままレイアウト解析部36に出力し、2値化処理部33によって生成された第1解像度の2値画像データを認識処理部22に出力する。
なお、本実施形態では、各文字サイズに応じた画像データの縮小率を2の累乗(べき乗)に設定している。この場合、2×2、4×4のマスク(ブロック)の画素値の平均値を求めて1画素に置き換えることにより縮小処理を行うことができるので、縮小処理を簡略化することができる。ただし、これに限らず、縮小率を2の累乗以外の値に設定してもよい。
次に、制御部7は、レイアウト解析部36を制御し、第2解像度の2値画像データに基づいて、画像データに含まれる文字の方向が縦書きであるか横書きであるかを解析するレイアウト解析処理を行わせる(S11)。なお、レイアウト解析部36ではレイアウトの概要を認識できればよく、必ずしも高精細な画像データは必要でないことから、本実施形態では原稿傾き検知部34および天地方向検知部35において用いられる第1解像度の2値画像データよりも低解像度の第2解像度の2値画像データを用いてレイアウト解析処理を行う。
具体的には、レイアウト解析部36は、図12に示すように、文字の外接矩形を求め、外接矩形間の距離に基づいて縦書きか横書きであるかを判定する。文字の外接矩形については以下に示す(1)〜(4)の処理によって求める。
(1)最初のライン(1番上のライン)を注目ラインとし、黒画素にラベリングを行う。
(2)注目ラインを一つ下のラインにずらし、黒画素について上記ラインとは異なるラベルをセットする。
(3)注目ラインとその1つ上のラインの黒画素の連結状態を判定し、連結している場合は画素が繋がっていると判断し、1つ上のラインにおける連結している黒画素と同じラベルに置き換える。
(4)上記処理を各ラインについて順次行い、各ラインのラベル付け結果に基づいて文字の抽出を行う。抽出した文字における上端、下端、左端および右端の画素位置(画素の座標)を基に外接矩形を抽出する。なお、画素の座標は、読み込まれた画像データの左端かつ上端の位置を原点として求める。
その後、制御部7は、認識処理部22を制御し、縮小処理部38から入力される第1解像度の2値画像データ、およびレイアウト解析部36から入力されるレイアウト解析結果(縦書きであるか横書きであるか)に基づいて、画像データに対する文字認識処理を行わせ、文字認識処理結果を描画コマンド生成部23に出力させる(S12)。
具体的には、認識処理部22は、縮小処理部38から入力された第1解像度の2値画像データに基づいて画像データに含まれる文字の特徴量を抽出し、抽出結果を辞書データに含まれる文字の特徴量と比較して文字認識を行い、類似する文字に対応する文字コードを検出する。なお、上記辞書データとして、図7(a)の表示画面において選択されたOCR言語に対応する辞書データを用いるようにしてもよい。また、図7(a)に示した例では、OCR言語として日本語または英語のいずれかを選択するものとしたが、これに限らず、他の言語を選択可能にしてもよく、文字種別(例えば、数字、英字、記号、カタカナなど)、あるいは文字種別の組み合わせ(例えば、数字と記号との組み合わせな)を選択可能にし、選択された文字種別に応じた辞書データを用いるようにしてもよい。
また、画像データに含まれる文字の特徴量を抽出する際、認識処理部22が、レイアウト解析部36の判定結果(縦書きであるか横書きであるか)に基づいて、隣接する文字によって構成される単語の認識処理を行うようにしてもよい。つまり、レイアウト解析結果に応じた方向に隣接する文字の組み合わせと、辞書データに含まれる単語データとのマッチングを行うことによって原稿に記載されている単語の認識処理を行うようにしてもよい。また、画像データに含まれる文字(あるいは単語)に対応する文字(あるいは単語)の候補が複数検出された場合、これら複数の候補をそれぞれ文字認識処理結果として描画コマンド生成部23に出力させるようにしてもよい。
次に、制御部7は、描画コマンド生成部23を制御し、認識処理部22による文字認識結果に対応する透明テキストを画像ファイル内に配置させるための命令を生成させる(S13)。ここで、透明テキストとは、認識された文字(あるいは、文字および単語)をテキスト情報として見掛け上は見えない形で画像データに重ね合わせる(あるいは埋め込む)ためのデータである。例えば、PDFファイルでは、画像データに透明テキストを付加した画像ファイルが一般に使用されている。
次に、制御部7は、フォーマット化処理部24を制御し、中間調生成部20から入力される画像データに基づいて図6(a)の表示画面においてユーザが指定したフォーマットの画像ファイル(出力ファイル)を生成させ(S14)、生成された画像ファイルを通信装置5によって所定の送信先に送信させるか、あるいは記憶部6またはデジタルカラー複合機1に着脱可能に装着される記録媒体等に保存するなどのファイル出力処理を行って処理を終了する。具体的には、出力画像データのフォーマットとしてPDF(OCR)が選択されている場合には、中間調生成部20から入力される画像データに、描画コマンド生成部23から入力される命令に応じた透明テキストを埋め込んだPDFフォーマットの画像ファイルを生成させる。また、出力画像データのフォーマットとしてPDF(OCR)以外のフォーマット(PDF、TIFF、あるいはJPEG)が選択されている場合には当該フォーマットの画像ファイルを生成させる。
なお、図1には示していないが、制御部7は、図6(a)の表示画面における解像度およびカラータイプの画像データが中間調生成部20からフォーマット化処理部24に出力されるように画像処理装置3の各部を制御する。
具体的には、制御部7は、原稿検知部14に備えられる解像度変換部32を制御して入力処理部13から出力される画像データを図6(a)において選択された解像度の画像データに変換させる。なお、このとき、原稿検知部14の信号変換部31、2値化処理部33、原稿傾き検知部34および原稿補正部15の処理はスルー(何も処理を行わない)となり、原稿補正部15から出力された画像データが記憶部6に記憶される。
また、制御部7は、色補正部16を制御して図6(a)において選択されたカラータイプの画像データに色変換させる。例えば、カラータイプとしてカラーが選択されている場合、制御部7は、色補正部16を制御し、原稿補正部15から入力される画像入力装置2の画像読取特性に依存したR,G,Bの画像データを、一般に普及している表示装置の表示特性に適合したR’G’B’の画像データ(例えば、sRGBデータ)に変換させる。また、カラータイプとしてグレーが選択されている場合、原稿補正部15から入力される画像入力装置2の画像読取特性に依存したR,G,Bの画像データをグレースケールの画像データに変換させる。また、カラータイプとして白黒2値が選択されている場合、原稿補正部15から入力される画像入力装置2の画像読取特性に依存したR,G,Bの画像データを白黒の2値画像データに変換させる。
また、制御部7は、画像送信モードでは黒生成下色除去部17および中間調生成部20には処理を行わせず、黒生成下色除去部17および中間調生成部20については前段の処理部から入力された画像データをそのまま次段の処理部に出力(スルー)させる。
また、制御部7は、空間フィルタ部18を制御し、領域分離信号に基づいてデジタルフィルタによる空間フィルタ処理(強調処理,平滑化処理)を行わせる。また、制御部7は、出力階調補正部19を制御し、所定の出力階調補正処理を行わせる。
なお、本実施形態では、認識処理部22が原稿検知部14から入力される2値化画像データおよびレイアウト解析結果に基づいて文字認識処理を施すものとしているが、これに限るものではない。例えば、図13に示すように、領域分離部21から出力される領域分離信号を認識処理部22に入力させ、認識処理部22がこの領域分離信号に基づいて文字領域(文字エッジと判定された画素からなる画像領域)を示すテキストマップを生成し、原稿検知部14から入力される2値化画像データにおける文字領域に対してのみレイアウト解析結果を考慮して文字認識処理を行うようにしてもよい。
また、図14に示すように、画像データに基づいて原稿の種別を判別する原稿種別自動判別部25を設け、この原稿種別自動判別部25から出力される原稿種別判別信号を認識処理部22に入力させ、原稿種別判別信号が文字を含む原稿(例えば文字原稿、文字印刷写真原稿、文字印画紙写真原稿など)であることを示す場合にのみ、認識処理部22が原稿検知部14から入力される2値化画像データおよびレイアウト解析結果に基づいて文字認識処理を行うようにしてもよい。原稿種別自動判別部25における原稿種別の判別方法は、少なくとも文字を含む原稿と文字を含まない原稿とを判別できる方法であれば特に限定されるものではなく、従来から公知の種々の方法を用いることができる。
また、本実施形態では、フォーマット化処理部24が、文字認識結果に応じた透明テキストデータを画像データに埋め込んだ画像ファイルを生成するものとしたが、これに限るものではない。例えば、文字認識処理結果に応じたテキストデータを透明テキストとは異なる方法で画像データに対応付けた画像ファイルを生成してもよい。また、文字認識処理結果に応じたテキストファイルを画像データが格納される画像ファイルとは別に生成するようにしてもよい。
また、本実施形態では、スキャンモードでは文字サイズを原稿全体について一律に判別しているが、これに限らず、原稿上の領域毎あるいは行毎に文字サイズを判別し、領域毎あるいは行毎に縮小処理を行うか否かを判断するようにしてもよい。また、原稿上の領域毎に文字サイズを判別する場合、ユーザからの指示に応じて各領域を設定してもよく、領域分離部21による領域分離処理の結果に応じて各領域を設定してもよい。
(1−4−2.帳票登録モードの処理)
次に、帳票登録モードの処理について説明する。本実施形態では、帳票登録モードにおいて、所定の帳票フォーマットの原稿(帳票原稿)について、帳票番号(帳票識別情報)、文字認識処理(OCR処理)の対象とする原稿上の領域であるOCR領域(文字認識処理領域)、および当該OCR領域に対する文字認識処理を行う際の処理条件であるOCR条件(文字認識処理条件)を予め登録しておく。そして、後述する帳票OCRモードにおいて帳票原稿の文字認識処理を行う場合に、登録されているOCR領域およびOCR条件に基づいて文字認識処理を行う。
なお、帳票登録モードでは、新たな帳票フォーマットを登録する新規登録処理、および既に登録されている帳票原稿についてのOCR領域および/またはOCR条件を編集する編集処理を行えるようになっている。
図15は帳票登録モードにおける画像処理装置3の処理の流れを示すフローチャートである。
まず、図7(a)に示した表示画面においてユーザが帳票番号を指定すると(S21)、指定された帳票番号に基づいて新規登録であるか否かを判断する(S22)。
具体的には、図7(a)の表示画面において帳票番号を選択するための入力領域の一部(例えば三角印部)に触れると、図7(b)に示す帳票番号のリストが操作パネル8の表示部に表示される。また、このリストでは、OCR領域およびOCR条件が既に登録されている帳票番号の下地領域が、OCR領域およびOCR条件が登録されていない帳票番号の下地領域とは異なる色で表示される。これにより、ユーザは、新規登録処理を行う場合には未登録の帳票番号の中から所望する番号を選択し、編集処理を行う場合には登録済みの帳票番号の中からOCR領域およびOCR条件を編集したい帳票の帳票番号を選択できるようになっている。また、制御部7は、未登録の帳票番号が選択された場合には新規登録処理であると判断し、登録済みの帳票番号が選択された場合には編集処理であると判断する。
なお、上記リストの中からユーザが所望する帳票番号を選択すると、図7(a)に示したように、当該帳票番号に対応する帳票の帳票名が操作パネル8の表示部に表示されるようになっている。この帳票名は、未登録の帳票番号である場合にはデフォルトで設定された帳票名(本実施形態では、「帳票」という文字列の後に帳票番号を組み合わせた帳票名。例えば「帳票2」、「帳票3」など)とされる。また、登録済みの帳票番号の帳票名については、ユーザが操作パネル8を操作することによって任意に編集できるようになっている。
また、帳票登録モードのタブT3が選択された場合、最初の(デフォルト)表示は、帳票番号が空白(何も選択されていない状態)とするが、帳票番号1を選択しておいてもよいし、未登録の帳票番号の中で、最小の帳票番号を選択しておいてもよい。
して、S22において新規登録処理ではないと判断した場合、すなわち編集処理であると判断した場合には、制御部7は、S26の処理を行う。
一方、S22において新規登録処理であると判断した場合、制御部7は、ユーザが操作パネル8を介して入力する読み取り条件設定を受け付ける(S23)。本実施形態では、読み取り条件設定として、図7(a)に示したように、読み取り解像度、原稿傾き補正の要否、および天地方向補正の要否をユーザが選択できるようになっている。また、読み取り解像度については、図7(b)に示したように、100dpi,200dpi,300dpi,400dpi、600dpiの中からユーザが所望する解像度を選択するようになっている。また、S23において設定された読み取り解像度、原稿傾き補正の要否、および天地方向補正の要否は、この新規登録処理を行う帳票原稿に対して共通のOCR条件として登録される。
S23においてユーザが読み取り条件設定を行った後、「帳票の読み取り」ボタンを操作すると、制御部7は、画像入力装置2を制御して登録処理の対象とする帳票原稿の読み取り処理を行わせる(S24)。また、制御部7は、認識処理部22を制御し、帳票原稿を読み取って取得した画像データに基づいて、帳票原稿における所定位置b1(本実施形態では右下端部)に印字されている帳票種別情報の文字認識処理(帳票種別OCR処理)を行わせる(S25)。
次に、制御部7は、S24で帳票原稿を読み取って取得した画像データに応じた画像を操作パネル8の表示部に表示させる(S26)。
図16は新規登録処理を行う帳票原稿の一例を示す説明図であり、図17(a)は図16に示した帳票原稿を読みよって取得した画像データに基づいて操作パネル8の表示部に表示される画像の一例を示す説明図である。なお、新規登録処理を行う際の帳票原稿は、図16の例のように帳票中の各記入項目に数値や名称等の内容が記載されていないものであることが好ましいが、これに限らず、各記入項目に数値や名称等の内容が記載されているものを用いてもよい。
なお、図17(a)に示したように、操作パネル8の表示部には、帳票原稿の画像と、「キャンセル」、「拡大」、「縮小」、「登録」の各ボタンが表示される。「拡大」または「縮小」のボタンが操作されると、制御部7は、帳票原稿の画像を拡大または縮小して操作パネル8の表示部に表示させる。また、「キャンセル」のボタンが操作されると、制御部7は、S24で読み取った画像データを破棄し、S21の処理に戻って図7(a)に示した表示画面を表示させる。
次に、制御部7は、操作パネル8を介してユーザが選択するOCR領域(原稿中の文字認識処理の対象とする部分)の選択指示を受け付ける(S27)。
例えば、図18における太線で囲んだ各領域をOCR領域として指定する場合、領域a1〜a3のように罫線で囲まれていない領域については、ユーザは、OCR領域とする領域の始点Sおよび終点Eを指定する。具体的には、図19(a)に示すように、操作パネル8の表示部に表示されている原稿画像におけるOCR領域の始点Sとする位置に指やスタイラスペン等でタッチし、タッチしたまま終点Eとする位置まで移動した後、タッチを離すことで始点Sと終点Eを指定する。これにより、図19(b)に示すように、始点Sおよび終点Eを対角線上に配置される頂点とする矩形形状のOCR領域が設定される。
また、領域a4〜a6のように罫線で囲まれている領域については、ユーザは、OCR領域とする罫線枠内の領域に指やスタイラスペン等でタッチし、そのまま表示画面から離すことによってOCR領域とする罫線枠を指定する。具体的には、図20(a)に示すように、ユーザが罫線枠内の点に指やスタイラスペン等でタッチすると、制御部7は、図20(b)に示すようにユーザがタッチした点を含む罫線枠(図中の太線部)を検出し、当該罫線枠によって囲まれた領域をOCR領域とする。なお、罫線枠の検出方法は特に限定されるものではなく、例えば従来から公知の方法を用いることができる。また、ユーザがタッチした点を含む罫線枠として検出した領域の面積(大きさ)が所定値以上(例えば100000画素以上)の場合、あるいは帳票原稿の周縁部分に接している場合には、当該領域は罫線で囲まれていない部分であると判断し、ユーザに警告を出し、OCR領域として設定しないようにしてもよい。
また、ユーザが最初にタッチした表示画面上の点が始点Sを指定するためのものであるのか、罫線枠を指定するためのものであるのかについては、最初にタッチした点から離した点までの距離が所定値(例えば表示部の解像度が300dpiである場合、50画素に相当する距離)以上であるか否かによって判断すればよい。
次に、制御部7は、S27で選択されたOCR領域に対するOCR条件に関するユーザからの指示入力を受け付け、この指示入力に応じてOCR条件の設定を行う(S28)。
例えば、S27でにおいてOCR領域として選択された領域のうち、OCR条件が未設定の領域の外縁部を図17(b)に示すように所定の色の枠(例えば赤色の枠。図17(b)では破線の枠で示している。)で囲んで表示し、当該領域にユーザが再度タッチすると、当該領域に対するOCR条件の設定処理に移行する。
また、OCR領域として指定された領域のうち、OCR条件の設定が完了した領域については、図17(c)に示すようにOCR条件の設定が完了していない領域とは異なる色の枠(例えば青色の枠。図17(c)では一点鎖線の枠で示している。)で囲んで表示する。そして、OCR条件を設定済みの領域にユーザがタッチすると、当該領域に対するOCR条件の設定処理(編集処理)に移行する。
なお、OCR領域の設定処理およびOCR条件の設定処理は、OCR領域を設定したときに当該OCR領域のOCR条件を続けて設定するようにしてもよく、原稿上の全てのOCR領域を設定した後、各OCR領域に対するOCR条件の設定を順次行うようにしてもよい。また、複数のOCR領域を設定した後、ユーザが任意のタイミングで任意の1または複数のOCR領域を選択し、選択したOCR領域のOCR条件を設定するようにしてもよい。
複数のOCR領域を選択するためには、図17(d)のように、「複数選択モード」ボタン、および、「編集」ボタンを設ける。図17(e)は、「複数選択モード」を有効にした状態を表し、任意のOCR領域をタッチするとそのOCR領域が選択状態となる。選択状態のOCR領域をタッチするとそのOCR領域の選択が解除される(タッチするたびにON、OFFが変わるトグル動作)。ユーザは、連続して所望するOCR領域を選択した後、「編集」ボタンをタッチして編集モードに遷移させ、OCR条件の設定を一括して行うことができる。選択されたOCR領域を長くタッチすることにより、編集モードに遷移してOCR条件の設定を一括して行えるようにしてもよい。
なお、複数のOCR領域が選択された場合、OCR領域固有の情報は編集できないため、編集画面は、図21(e)のように、「項目番号」、「項目名」はグレイアウト、あるいは全く表示せず、共通設定が可能な項目「文字サイズ」、「行数」、「文字種別」についてのみ表示や変更可能とする。
図21(a)は、OCR条件の設定処理を行う際に操作パネル8の表示部に表示されるOCR条件設定画面の一例を示す説明図である。また、図21(b)は、図21(a)の表示画面における各選択項目について選択可能な条件を示している。本実施形態では、図21(a)に示したように、OCR領域毎に、「文字サイズ」、「行数」、「文字種別」を設定できるようになっている。「文字サイズ」としては、図21(b)に示したように、上述したスキャンモードの場合と同様、「標準」、「大きい」、「かなり大きい」、「自動判定」のいずれかを選択するようになっている。また、「行数」としては、図21(b)に示したように、「1行」、「複数行」、「自動判定」のいずれかを選択できるようになっている。また、「文字種別」としては、「日本語」、「英語」、「数字」、「英字/記号」、「カタカナ」のいずれか、あるいはこれらの組み合わせを選択できるようになっている。
図21(a)の表示画面においてユーザが項目番号を選択するための入力領域の一部(例えば三角印部)に触れると、図21(b)に示す項目番号のリストが操作パネル8の表示部に表示される。また、このリストでは、OCR条件が既に登録されている項目番号の下地領域(図21(b)の例では項目番号1,2)が、OCR条件が登録されていない項目番号(図21(b)の例では項目番号3〜6)の下地領域とは異なる色で表示される。これにより、ユーザは、項目を新規登録する場合には未登録の項目番号の中から所望する番号を選択し、登録済みの項目の編集処理を行う場合には登録済みの項目番号の中からOCR条件を編集したい項目の項目番号を選択できるようになっている。
なお、上記の項目名は、未登録の項目番号である場合にはデフォルトで設定された項目名(本実施形態では、「項目」という文字列の後に項目番号を組み合わせた項目名。例えば「項目1」、「項目2」など)とされる。また、登録済みの項目番号の項目名については、ユーザが操作パネル8を操作することによって任意に編集できるようになっている。
また、条件が登録されていないOCR領域に対する、図21(a)の最初(デフォルト)の表示は、項目番号を空白(何も選択されていない状態)とするが、帳票番号1を選択しておいてもよいし、未登録の帳票番号の中で、最小の帳票番号を選択しておいてもよい。
項目番号を選択した後、ユーザは、「文字サイズ」、「行数」、「文字種別」を選択する。そして、ユーザがOCR条件設定画面に表示されている「設定」ボタンを操作すると、制御部7は、その時点でOCR条件設定画面において設定されているOCR条件を設定対象としているOCR領域についてのOCR条件として確定し、図17(c)に示したように原稿画像を表示させるとともに原稿画像上における当該OCR領域の枠をOCR条件設定済みの色で表示させる。
また、「キャンセル」ボタンが操作された場合、制御部7は、OCR条件設定画面に表示されているOCR条件を採用せず、操作パネル8の表示部の表示をこのOCR条件設定画面を表示させる前の状態に戻す。
また、「消去」ボタンが操作された場合、制御部7は、編集中のOCR領域をOCR領域から除外し、当該OCR領域を選択する前の状態の表示画面(例えば図17(a)の表示画面)を表示させる。
図21(c)は、登録済みの項目番号1が選択された場合のOCR条件設定画面(OCR条件編集画面)の例を示している。この例は、図18に示した領域a4(「番号」に対応する罫線枠内の領域)に対するOCR条件であり、項目名が「番号」に設定され、文字サイズは「標準」、行数は「1行」、文字種別は「数字」+「英字/記号」に設定されている。
図21(d)は、登録済みの項目番号2が選択された場合のOCR条件設定画面(OCR条件編集画面)の例を示している。この例は、図18に示した領域a1に対するOCR条件であり、項目名が「住所」に設定され、文字サイズは「標準」、行数は「複数行」、文字種別は「日本語」に設定されている。
このように、行数が「1行」であるのか「複数行」であるのかを指定することにより、「1行」である場合には帳票OCRモードの処理を行うときにレイアウト解析処理を省略することができ、また行数に応じた文字認識処理を行うことで文字認識精度を向上させたりすることができる。また、「文字種別」を指定することにより、帳票OCRモードの処理を行うときに指定された「文字種別」に応じた文字認識処理を行うことで文字認識精度を向上させたりすることができる。
その後、制御部7は、新規登録処理あるいは編集処理を行っている帳票原稿に対するOCR領域およびOCR条件の設定処理が全て完了したか否かを判断する(S29)。例えば、制御部7は、図17(a)〜図17(c)のいずれかの表示画面において、「登録」ボタンが操作されたときに全ての設定処理が完了したと判断する。そして、完了していないと判断した場合、制御部7は、S26の処理に戻る。
一方、完了したと判断した場合、制御部7は、この帳票に関する帳票番号、帳票名、帳票種別、OCR領域、およびOCR条件を記憶部6に記憶(登録)させ(S30)、処理を終了する。
図22は、1つの帳票についての登録情報の例を示す説明図である。この図に示すように、各帳票について、「帳票共通」情報、および1または複数の「項目」情報が登録される。
「帳票共通」情報とは、その帳票全体について共通の情報(項目)であり、帳票番号、帳票名、帳票種別、読み取り解像度、原稿傾き補正の要否、天地方向補正の要否、および項目数が含まれる。
帳票種別はS24,S25の処理において帳票原稿の所定位置b1を読み取った画像に基づいて文字認識処理を行った結果を示すテキストデータである。
読み取り解像度、原稿傾き補正の要否、および天地方向補正の要否は、S23においてユーザが指定した読み取り条件である。なお、これら各条件については、帳票OCRモードにおいて帳票の読み取り処理を行う毎にユーザが任意に変更できるようになっている。
項目数は、S28の処理において設定された項目数である。なお、本実施形態では、図22に示したように、各項目について、当該項目を適用するOCR領域の位置情報(図22の例では左上X座標、左上Y座標、幅、および高さ)が登録されるようになっている。
(1−4−3.帳票OCRモードの処理)
次に、帳票OCRモードの処理について説明する。なお、帳票OCRモードでは、帳票原稿を読み取って画像データを取得し、この画像データから予め登録されているOCR領域に応じた領域の画像を切り出し、予め登録されているOCR条件に応じて文字認識処理を行う。この際、文字サイズが「標準」以外であるOCR領域について、画像データを「標準」の文字サイズに収まるように縮小処理した結果に基づいて文字認識処理を行う。また、帳票OCRモードでは、文字認識処理によって生成されたテキストデータを画像データに対応付けた画像ファイルを生成するのではなく、文字認識処理の結果に基づいてCSV(Comma Separated Values)フォーマット(カンマ区切りのテキストフォーマット)のテキストデータを含む出力ファイルを生成して出力するようになっている。また、複数の同一の帳票原稿を連続して読み取った場合には、原稿ページ間に改行コードを挿入したCSVフォーマットのテキストデータを生成して出力する。なお、CSVフォーマットのテキストデータの1行目には項目名を記載し、実際の文字認識結果については2行目以降に記載するようにしてもよい。
連続して読み取った帳票原稿が全て同じフォーマットである場合には、1つのCSVフォーマットのテキストデータを生成するが、異なるフォーマットである場合には、帳票フォーマット毎にCSVフォーマットのテキストデータの生成を行う。例えば、1ページが帳票A、2ページ目が帳票B、3ページ目が帳票Aである場合、1ページ目と3ページ目の結果は、1つのCSVフォーマットのテキストデータになり、2ページ目の結果は、別の1つのCSVフォーマットのテキストデータとなる。帳票原稿のフォーマットが同じであるか、異なるかの判断は、帳票に記されている帳票番号によって行う。
図8(a)に示したように、帳票OCRモードが選択されると、操作パネル8の表示部には、帳票名、原稿傾き補正の要否、および天地方向補正の要否をユーザが選択するための表示、および原稿の読み取り開始指示を行うための「原稿の読み取り」ボタンが表示される。
図8(b)に示すように、帳票名としては、自動判別、帳票番号1(1:帳票1)、帳票番号2(2:帳票2)、帳票番号3(3:帳票3)、帳票番号4(4:帳票4)・・・が選択可能になっている。
なお、図8(a)の表示画面において帳票名が選択された場合に、当該帳票名に対応する帳票の登録情報から原稿傾き補正の要否、および天地方向補正の要否に関する登録情報を読み出し、これらの登録情報に応じて図8(a)の表示画面における原稿傾き補正の要否、および天地方向補正の要否の表示状態を変更するようにしてもよい。例えば、選択された帳票の登録情報において原稿傾き補正が不要(しない)と設定されている場合には、図8(a)における原稿傾き補正の要否に関する入力項目を「しない」に変更するようにしてもよい。
図23は帳票OCRモードにおける画像処理装置3の処理の流れを示すフローチャートである。
図8(a)の表示画面において上記の各項目が設定された後、「原稿の読み取り」ボタンが選択された場合、制御部7は、画像入力装置2、A/D変換部11、シェーディング補正部12、および入力処理部13に上述した画像形成モードにおける処理と同様の処理を行わせる。
そして、入力処理部13の処理が終わった後、制御部7は、図8(a)の表示画面において選択された帳票番号に基づいて、帳票OCR処理に適用する帳票(帳票の登録情報)を特定する(S41)。
なお、図8(a)の表示画面において帳票番号として「自動判別」が選択された場合、制御部7は、画像データにおける所定位置b1(「帳票種別」に対応する領域)について文字認識処理を行って帳票種別を読み出す。そして、画像データから読み出した帳票番号と登録されている各帳票の帳票番号とを比較し、一致する帳票が存在する場合にはその帳票を帳票OCR処理に適用する帳票として特定する。なお、画像データから帳票番号を読み取る際の原稿傾き補正の要否および天地方向補正の要否については、帳票にかかわらず共通の設定としてデフォルト設定されていてもよく、自動判別が選択されて「原稿の読み取り」ボタンが操作されたときの図8(a)の表示画面における設定内容に応じて設定してもよい。
また、制御部7は、原稿傾き補正を行うか否かを判断する(S42)。この判断は、図8(a)に示した表示画面においてユーザが原稿傾き補正を行うことを選択したか否かに応じて行えばよい。
そして、S42において原稿傾き補正を行うと判断した場合、制御部7は、入力処理部13において上述の処理が施された画像データに対して信号変換部31、解像度変換部32、および2値化処理部33に上述した各処理を行わせ、その結果に基づいて原稿傾き検知部34に原稿傾き検知処理を行わせ(S43)、原稿補正部15に原稿傾き補正処理を行わせる(S44)。原稿補正部15は、原稿傾き補正処理後の画像データを記憶部6に一旦記憶させる。
S42において原稿傾き補正を行わないと判断した場合、あるいはS44において原稿傾き補正処理を行った後、制御部7は、天地方向補正を行うか否かを判断する(S45)。この判断は、図8(a)に示した表示画面においてユーザが天地方向補正を行うことを選択したか否かに応じて行えばよい。
そして、S45において天地方向補正を行うと判断した場合、制御部7は、S44において原稿傾き補正処理が施された画像データ、あるいは入力処理部13において上述の処理が施された画像データを記憶部6から読み出して信号変換部31、解像度変換部32、および2値化処理部33に上述した各処理を行わせ、その結果に基づいて天地方向検知部35に天地方向検知処理を行わせ(S46)、原稿補正部15に天地方向補正処理を行わせる(S47)。原稿補正部15は、天地方向補正処理後の画像データを記憶部6に一旦記憶させる。
S45において天地方向補正を行わないと判断した場合、あるいはS47において天地方向補正処理を行った後、制御部7は、S41で選択された帳票の登録情報に基づいて1または複数のOCR領域を抽出し、抽出したOCR領域の中から文字認識処理を行っていないOCR領域を1つ選択する(S48)。
そして、制御部7は、記憶部6から画像データ(原稿傾き補正処理および/または天地方向補正処理が施された画像データ、あるいは入力処理部13において上述の処理が施された画像データ)を読み出し、この画像データからS48で選択したOCR領域の画像データ(部分画像データ)を切り出し、切り出した画像データに対して信号変換部31、解像度変換部32、および2値化処理部33に上述した各処理を行わせて原稿検知部14に出力させる(S49)。例えば、帳票の登録情報においてOCR領域が図18に示したように設定されており、帳票原稿が図24(a)に示す原稿である場合、図24(b)に示す部分画像データのうち、処理対象としているOCR領域に対応する部分画像データが切り出される。なお、OCR領域の部分画像データを切り出す処理を行う部分画像抽出部(図示せず)を制御部7とは別に設けてもよい。
また、制御部7は、原稿の文字サイズが「標準」、「大きい」、「かなり大きい」のうちのいずれに属するかを特定する(S50)。具体的には、制御部7は、切り出されたOCR領域に対して登録されているOCR条件情報に応じて文字サイズを特定する。また、OCR条件で、「自動判定」が登録されている場合には、制御部7は、原稿検知部14に備えられる文字サイズ判定部37に文字サイズの自動判定処理(文字サイズが「標準」、「大きい」、「かなり大きい」のうちのいずれに属するかを判定する処理)を行わせ、その判定処理結果に応じて文字サイズを特定する。文字サイズの自動判定方法としては、上述した方法を用いることができる。
次に、制御部7は、S5で特定した文字サイズに基づいて、文字サイズが「標準」であるか否か、すなわち原稿の文字サイズが認識処理部22における文字認識において所定の文字認識精度が得られる認識処理部22の動作仕様の上限値以下であるか否かを判断する(S51)。そして、文字サイズが「標準」であると判断した場合には後述するS53の処理に進む。
一方、文字サイズが「標準」ではないと判断した場合、すなわち特定された文字サイズが「大きい」または「かなり大きい」である場合、制御部7は、縮小処理部38を制御し、2値化処理部33によって生成された第1解像度および第2解像度の2値画像データ(S49で切り出された部分画像データに基づいて生成された2値画像データ)に対して、縮小後の画像データにおける文字サイズが「標準」に収まるサイズになるように特定された文字サイズに応じて縮小処理を行わせ(S52)、縮小処理後の第2解像度の2値画像データをレイアウト解析部36に出力させ、縮小処理後の第1解像度の2値画像データを認識処理部22に出力させる。
次に、制御部7は、レイアウト解析部36を制御し、縮小処理部38から入力された第2解像度の2値画像データに基づいて、画像データに含まれる文字の方向が縦書きであるか横書きであるかを解析するレイアウト解析処理を行わせる(S53)。
その後、制御部7は、認識処理部22を制御し、縮小処理部38から入力される第1解像度の2値画像データ、レイアウト解析部36から入力されるレイアウト解析結果(縦書きであるか横書きであるか)、およびS41で選択した帳票の登録情報に含まれている処理中のOCR領域についてのOCR条件に基づいて、画像データに対する文字認識処理を行わせ、文字認識処理結果を描画コマンド生成部23に出力させる(S54)。なお、本実施形態では帳票OCRモードではテキストデータを画像データに対応付けた画像ファイルは生成せず、描画コマンド生成部23は入力された文字認識処理結果をそのままフォーマット化処理部24に出力するようになっている。
次に、制御部7は、S41で選択した帳票の登録情報に含まれている全てのOCR領域について文字認識処理を行ったか否かを判断する(S55)。そして、文字認識処理を行っていないOCR領域が残っている場合にはS48の処理に戻る。
一方、全てのOCR領域について文字認識処理を完了したと判断した場合、制御部7は、フォーマット化処理部24を制御し、描画コマンド生成部23から入力される文字認識処理結果に基づいてCSVフォーマットのテキストデータを生成させ(S56)、通信装置5によって所定の送信先に送信させて処理を終了する。
なお、テキストデータとともに帳票原稿の画像データを送信するようにしてもよく、その場合には中間調生成部20から出力される画像データをフォーマット化処理部24によって所定の出力フォーマットに変換させ、通信装置5によって所定の送信先に送信させるようにすればよい。
また、画像データについては出力せず、テキストデータのみを出力するようにしてもよく、その場合には色補正部16、黒生成下色除去部17、空間フィルタ部18、出力階調補正部19、中間調生成部20、および領域分離部21の処理を省略してもよい。
以上のように、本実施形態にかかるデジタルカラー複合機1は、画像データの文字認識処理を行う際、文字認識処理の対象となる文字列の文字サイズが認識処理部22において所定の文字認識精度が得られる認識処理部22の動作仕様の上限値(上限サイズ)よりも大きい場合に、上記文字列の文字サイズが上記上限値以下になるように画像データに縮小処理を施して得られる画像データに基づいて文字認識処理を行う。
これにより、上記上限値よりも大きい文字についても精度よく文字認識処理を行うことができる。また、画像入力装置2においては文字サイズにかかわらず共通の光電変換手段を用いて画像読取処理を行うことができるので、画像入力装置2の装置構成を複雑化させることなく、簡単な構成で高精度の文字認識処理を行うことができる。
なお、本実施形態では、本発明をデジタルカラー複合機1に適用する場合について説明したが、本発明の適用対象はこれに限るものではない。例えば、デジタルカラー複合機1が有する上記各機能(コピア機能、スキャナ機能、プリンタ機能、ファクシミリ送受信機能、scan to e-mail機能)のうちの一部のみを有する装置(例えば複写機、スキャナなど)に適用することもできる。また、外部から取得した画像データに対して文字認識処理を施す画像処理装置(例えばパーソナルコンピュータ、サーバ装置等に備えられる画像処理装置)に適用することもできる。
図25は、本発明をカラースキャナ(画像読取装置)1bに適用する場合の構成例を示すブロック図である。なお、デジタルカラー複合機1に備えられる各部材と同様の機能を有する部材については同じ符号を付している。
図25に示すように、カラースキャナ1bは、画像入力装置2、画像処理装置3b、記憶部6、制御部7、および操作パネル8を備えている。また、画像処理装置3bは、A/D変換部11、シェーディング補正部12、入力処理部13、原稿検知部14、原稿補正部15、色補正部16、認識処理部22、描画コマンド生成部23、およびフォーマット化処理部24を備えている。これにより、カラースキャナ1bでは、デジタルカラー複合機1における画像送信モードの処理と同様の処理が行われる。なお、フォーマット化処理部24において所定のフォーマットに変換された画像ファイルを、例えばコンピュータやサーバ等へ出力するようにしてもよい。
図26は、本発明をパーソナルコンピュータあるいはサーバ装置等の情報処理装置1cに適用する場合の構成例を示すブロック図である。なお、デジタルカラー複合機1に備えられる各部材と同様の機能を有する部材については同じ符号を付している。
図26に示すように、この情報処理装置1cは、画像処理装置3c、記憶部6、制御部7、およびユーザインターフェース部8bを備えている。また、画像処理装置3cは、入力処理部13、原稿検知部14、原稿補正部15、認識処理部22、描画コマンド生成部23、およびフォーマット化処理部24を備えている。ユーザインターフェース部8bはデジタルカラー複合機1における操作パネル8と同様の処理を行うものであり、表示部8cと操作入力部8dとを備えている。表示部8cとしては例えば液晶表示装置等と用いることができる。また、操作入力部8dとしては、キーボードやマウス等を用いることができる。
上記構成により、情報処理装置1cでは、デジタルカラー複合機1における文字認識処理と同様の処理が行われる。また、フォーマット化処理部24において所定のフォーマットに変換された画像ファイルは、記憶部6に保存されるか、あるいは他の装置に出力される。
また、本実施形態において、デジタルカラー複合機1、カラースキャナ1b、および情報処理装置1cに備えられる各部(各ブロック)を、CPU等のプロセッサを用いてソフトウェアによって実現してもよい。この場合、デジタルカラー複合機1、カラースキャナ1b、および情報処理装置1cは、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアであるデジタルカラー複合機1、カラースキャナ1b、および情報処理装置1cの制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、デジタルカラー複合機1、カラースキャナ1b、および情報処理装置1cに供給し、そのコンピュータ(またはCPUやMPU(Micro Processing Unit))が記録媒体に記録されているプログラムコードを読み出し実行することによって達成される。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、デジタルカラー複合機1、カラースキャナ1b、および情報処理装置1cを通信ネットワークと接続可能に構成し、通信ネットワークを介して上記プログラムコードを供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
また、デジタルカラー複合機1、カラースキャナ1b、および情報処理装置1cの各ブロックは、ソフトウェアを用いて実現されるものに限らず、ハードウェアロジックによって構成されるものであってもよく、処理の一部を行うハードウェアと当該ハードウェアの制御や残余の処理を行うソフトウェアを実行する演算手段とを組み合わせたものであってもよい。
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
本発明は、原稿を読み取って取得した画像データに基づいて上記原稿に記載されている文字の文字認識処理を行う画像処理装置および画像処理方法に適用できる。
1 デジタルカラー複合機(画像読取装置、画像形成装置)
1b カラースキャナ(画像読取装置)
1c 情報処理装置
2 画像入力装置
3,3b,3c 画像処理装置
4 画像出力装置(画像形成部)
5 通信装置(ファイル出力処理部)
6 記憶部
7 制御部
8 操作パネル(操作入力部)
8b ユーザインターフェース部(操作入力部)
14 原稿検知部
15 原稿補正部
22 認識処理部
23 描画コマンド生成部
24 フォーマット化処理部
25 原稿種別自動判別部
31 信号変換部
32 解像度変換部
33 2値化処理部
34 原稿傾き検知部
35 天地方向検知部
36 レイアウト解析部
37 文字サイズ判定部
38 縮小処理部
39 行数判定部

Claims (11)

  1. 原稿を読み取って取得した画像データに基づいて上記原稿に記載されている文字の文字認識処理を行う画像処理装置であって、
    上記画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定する文字サイズ判定部と、
    上記文字サイズ判定部によって上記画像データにおける文字認識処理の対象とする文字のサイズが上記所定サイズよりも大きいと判定された場合に、上記画像データにおける少なくとも上記所定サイズよりも大きいと判定された文字を含む領域を当該文字のサイズが上記所定サイズ以下になるように縮小処理する縮小処理部と、
    上記画像データに含まれる文字の文字認識処理を行う認識処理部とを備え、
    上記文字サイズ判定部は、上記画像データにおける複数の文字を含む領域毎または行毎に、当該領域または行に含まれる文字のサイズが所定サイズよりも大きいか否かを判定し、かつ、文字のサイズが上記所定サイズよりも大きいと判定した領域または行を、当該領域または当該行の文字のサイズの上記所定サイズに対する比率に応じて予め定めた複数のレベルのうちのいずれかに分類し、
    上記縮小処理部は、上記文字サイズ判定部による分類結果に応じて、上記画像データにおける文字のサイズが上記所定サイズよりも大きいと判定された領域または行を、上記レベル毎に予め設定された縮小率で縮小処理し、
    上記認識処理部は、上記文字サイズ判定部によって上記画像データにおける文字認識処理の対象とする文字のサイズが上記所定サイズよりも大きいと判定された領域または行について、上記縮小処理部によって縮小処理された画像データを用いて文字認識処理を行うことを特徴とする画像処理装置。
  2. 上記所定サイズは、上記認識処理部において所定の文字認識精度を得るための上記認識処理部の仕様上の上限値、または当該上限値より小さい値に設定されていることを特徴とする請求項1に記載の画像処理装置。
  3. 上記レベル毎に予め設定された上記縮小率は、2の累乗であることを特徴とする請求項1または2に記載の画像処理装置。
  4. ユーザからの文字サイズの選択指示を受け付ける操作入力部を備え、
    上記文字サイズ判定部は、上記操作入力部を介して入力される上記選択指示に基づいて上記画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定することを特徴とする請求項1から3のいずれか1項に記載の画像処理装置。
  5. 上記文字サイズ判定部は、上記画像データに基づいて文字認識処理の対象とする文字が含まれる領域における、各文字の外接矩形、各文字の高さ、各行の高さ、または複数の文字からなる文字群の外接矩形を検出し、この検出結果に基づいて上記画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定することを特徴とする請求項1から3のいずれか1項に記載の画像処理装置。
  6. 上記文字認識処理の結果に応じたテキストデータを含む出力ファイルを生成するフォーマット化処理部を備えていることを特徴とする請求項1から5のいずれか1項に記載の画像処理装置。
  7. 原稿を読み取って画像データを取得する画像入力装置と、
    上記画像入力装置が取得した画像データに基づいて上記原稿に記載されている文字の文字認識処理を行う、請求項1から6のいずれか1項に記載の画像処理装置とを備えていることを特徴とする画像読取装置。
  8. 請求項6に記載の画像処理装置と、
    上記画像データに応じた画像を記録材上に形成する画像形成部と、
    上記出力ファイルを所定の送信先に送信するか、あるいは所定の保存先に保存するファイル出力処理部とを備えていることを特徴とする画像形成装置。
  9. 原稿を読み取って取得した画像データに基づいて上記原稿に記載されている文字の文字認識処理を行う画像処理方法であって、
    上記画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定する文字サイズ判定工程と、
    上記文字サイズ判定工程によって上記画像データにおける文字認識処理の対象とする文字のサイズが上記所定サイズよりも大きいと判定された場合に、上記画像データにおける少なくとも上記所定サイズよりも大きいと判定された文字を含む領域を当該文字のサイズが上記所定サイズ以下になるように縮小処理する縮小処理工程と、
    上記画像データに含まれる文字の文字認識処理を行う認識処理工程とを含み、
    上記文字サイズ判定工程では、上記画像データにおける複数の文字を含む領域毎または行毎に、当該領域または行に含まれる文字のサイズが所定サイズよりも大きいか否かを判定し、かつ、文字のサイズが上記所定サイズよりも大きいと判定した領域または行を、当該領域または当該行の文字のサイズの上記所定サイズに対する比率に応じて予め定めた複数のレベルのうちのいずれかに分類し、
    上記縮小処理工程では、上記文字サイズ判定工程による分類結果に応じて、上記画像データにおける文字のサイズが上記所定サイズよりも大きいと判定された領域または行を、上記レベル毎に予め設定された縮小率で縮小処理し、
    上記認識処理工程は、上記文字サイズ判定工程によって上記画像データにおける文字認識処理の対象とする文字のサイズが上記所定サイズよりも大きいと判定された領域または行について、上記縮小処理工程によって縮小処理された画像データを用いて文字認識処理を行うことを特徴とする画像処理方法。
  10. 請求項1から6のいずれか1項に記載の画像処理装置を動作させるプログラムであって、コンピュータを上記各部として機能させるためのプログラム。
  11. 請求項10に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2010253878A 2010-11-12 2010-11-12 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体 Active JP5280425B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010253878A JP5280425B2 (ja) 2010-11-12 2010-11-12 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
US13/292,194 US8941864B2 (en) 2010-11-12 2011-11-09 Image processing apparatus, image reading apparatus, image forming apparatus, and image processing method
CN201110364658.7A CN102469234B (zh) 2010-11-12 2011-11-11 图像处理装置、图像读取装置、图像形成装置和图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010253878A JP5280425B2 (ja) 2010-11-12 2010-11-12 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2012104028A JP2012104028A (ja) 2012-05-31
JP5280425B2 true JP5280425B2 (ja) 2013-09-04

Family

ID=46047508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010253878A Active JP5280425B2 (ja) 2010-11-12 2010-11-12 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体

Country Status (3)

Country Link
US (1) US8941864B2 (ja)
JP (1) JP5280425B2 (ja)
CN (1) CN102469234B (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010099224A1 (en) * 2009-02-24 2010-09-02 Adapx Inc. Systems and methods for reviewing digital pen data
BE1021013B1 (fr) * 2013-10-04 2014-12-11 I.R.I.S. Procede et systeme pour ameliorer la qualite d'images en couleur.
CN103823863B (zh) * 2014-02-24 2017-07-25 联想(北京)有限公司 一种信息处理方法以及电子设备
JP5821994B2 (ja) * 2014-04-21 2015-11-24 富士ゼロックス株式会社 画像処理装置、画像形成装置およびプログラム
JP2015215853A (ja) * 2014-05-13 2015-12-03 株式会社リコー システム、画像処理装置、画像処理方法およびプログラム
JP6330506B2 (ja) 2014-06-18 2018-05-30 ブラザー工業株式会社 画像読取装置
JP6330505B2 (ja) * 2014-06-18 2018-05-30 ブラザー工業株式会社 画像読取装置
JP6204280B2 (ja) * 2014-06-27 2017-09-27 京セラドキュメントソリューションズ株式会社 画像読取装置
JP2016092479A (ja) * 2014-10-30 2016-05-23 京セラドキュメントソリューションズ株式会社 画像読取装置および画像形成装置
US10049268B2 (en) * 2015-03-06 2018-08-14 Kofax, Inc. Selective, user-mediated content recognition using mobile devices
CN104915114B (zh) * 2015-05-29 2018-10-19 小米科技有限责任公司 信息记录方法和装置、智能终端
JP6197840B2 (ja) * 2015-08-24 2017-09-20 コニカミノルタ株式会社 画像処理装置、電子ファイル生成方法及びプログラム
JP6658078B2 (ja) * 2016-02-25 2020-03-04 ブラザー工業株式会社 画像処理装置、コンピュータプログラム、および、システム
JP6233557B1 (ja) * 2016-04-28 2017-11-22 京セラドキュメントソリューションズ株式会社 データ送信システム及びデータ送信方法
US20170372414A1 (en) * 2016-06-22 2017-12-28 Ricoh Company, Ltd. Information processing system and information processing apparatus
JP6531738B2 (ja) * 2016-08-08 2019-06-19 京セラドキュメントソリューションズ株式会社 画像処理装置
JP2018029289A (ja) * 2016-08-18 2018-02-22 ブラザー工業株式会社 画像処理装置および画像処理方法
CN106570502A (zh) * 2016-11-14 2017-04-19 南京邮电大学 基于安卓平台图像文字识别及播放方法
JP6803251B2 (ja) * 2017-02-03 2020-12-23 理想科学工業株式会社 画像処理装置
US10019772B1 (en) * 2017-10-06 2018-07-10 Vertifi Software, LLC Document image orientation, assessment and correction
JP6801637B2 (ja) * 2017-12-08 2020-12-16 京セラドキュメントソリューションズ株式会社 画像形成装置
CN108210186B (zh) * 2018-01-29 2020-02-25 张燕 产妇辅助恢复装置
JP7224856B2 (ja) * 2018-11-02 2023-02-20 キヤノン株式会社 画像生成装置、画像生成方法、及びプログラム
JP7322407B2 (ja) * 2019-01-11 2023-08-08 京セラドキュメントソリューションズ株式会社 情報処理装置
JP6849121B2 (ja) * 2019-03-15 2021-03-24 株式会社リコー コンテンツ解析エンジンによるCloud EMR通信のためのアプローチ
JP2020167618A (ja) * 2019-03-29 2020-10-08 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
GB2585633B (en) * 2019-05-14 2021-09-22 Wheelright Ltd Tyre sidewall imaging method
JP7379876B2 (ja) * 2019-06-17 2023-11-15 株式会社リコー 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
JP7483384B2 (ja) * 2020-01-21 2024-05-15 キヤノン株式会社 文書を電子化する画像処理システム、その制御方法及びプログラム
CN112016481B (zh) * 2020-08-31 2024-05-10 民生科技有限责任公司 基于ocr的财务报表信息检测和识别方法
WO2022081126A1 (en) * 2020-10-12 2022-04-21 Hewlett-Packard Development Company, L.P. Document-occluding artifact removal
WO2022081127A1 (en) * 2020-10-12 2022-04-21 Hewlett-Packard Development Company, L.P. Document language prediction
US20230360420A1 (en) * 2020-10-14 2023-11-09 Hewlett-Packard Development Company, L.P. Document image capture

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5148295A (en) * 1988-11-30 1992-09-15 Kabushiki Kaisha Toshiba Information processing apparatus
US4977602A (en) * 1989-11-20 1990-12-11 Eastman Kodak Company Character normalization using an elliptical sampling window for optical character recognition
EP0471472B1 (en) * 1990-08-03 1998-04-22 Canon Kabushiki Kaisha Image processing method and apparatus therefor
JPH04174088A (ja) * 1990-11-02 1992-06-22 Mitsubishi Electric Corp 印刷文字認識装置
JPH06189083A (ja) 1992-02-13 1994-07-08 Ricoh Co Ltd 画像方向認識装置および画像方向認識方法
JPH06231301A (ja) 1993-01-29 1994-08-19 Oki Electric Ind Co Ltd 光学式文字読取装置
EP0981243B1 (en) * 1993-07-16 2010-03-17 Sharp Kabushiki Kaisha Image processor
JPH07121733A (ja) * 1993-10-20 1995-05-12 Fuji Xerox Co Ltd 文書画像処理装置
JP3338537B2 (ja) 1993-12-27 2002-10-28 株式会社リコー 画像傾き検出装置
JPH08194776A (ja) * 1995-01-17 1996-07-30 Nippon Telegr & Teleph Corp <Ntt> 帳票処理方法及び装置
JPH11144068A (ja) * 1997-11-10 1999-05-28 Seiko Epson Corp 文字列画像の作成および処理方法並びにそれらの装置
JP2004110529A (ja) * 2002-09-19 2004-04-08 Dainippon Printing Co Ltd 手書き文字認識システム、手書き文字認識プログラム、並びに電子ペン用帳票
JP2006011967A (ja) * 2004-06-28 2006-01-12 Fuji Xerox Co Ltd 文字認識装置、文字認識プログラム
JP5034398B2 (ja) * 2006-09-14 2012-09-26 富士通株式会社 文字認識プログラム、文字認識方法および文字認識装置
JP4956366B2 (ja) * 2007-10-16 2012-06-20 キヤノン株式会社 画像処理装置
JP2009230471A (ja) 2008-03-24 2009-10-08 Fuji Xerox Co Ltd 画像処理装置および画像処理プログラム
JP5132438B2 (ja) * 2008-06-19 2013-01-30 キヤノン株式会社 画像処理装置および画像処理方法
JP5322517B2 (ja) * 2008-07-08 2013-10-23 キヤノン株式会社 画像処理装置および方法
JP4737269B2 (ja) * 2008-10-31 2011-07-27 富士ゼロックス株式会社 画像処理装置及びプログラム
JP4758502B2 (ja) * 2008-12-10 2011-08-31 シャープ株式会社 画像処理装置、画像読取装置、画像送信装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
JP2010146185A (ja) * 2008-12-17 2010-07-01 Sharp Corp 画像処理装置、画像読取装置、画像送信装置、画像処理方法、プログラムおよびその記録媒体
JP4725645B2 (ja) * 2008-12-26 2011-07-13 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、データ量削減方法およびデータ量削減プログラム
JP4772888B2 (ja) * 2009-03-27 2011-09-14 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体

Also Published As

Publication number Publication date
CN102469234B (zh) 2014-11-05
US20120120444A1 (en) 2012-05-17
CN102469234A (zh) 2012-05-23
JP2012104028A (ja) 2012-05-31
US8941864B2 (en) 2015-01-27

Similar Documents

Publication Publication Date Title
JP5280425B2 (ja) 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
JP4772888B2 (ja) 画像処理装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
JP4758502B2 (ja) 画像処理装置、画像読取装置、画像送信装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
US8532434B2 (en) Image processing method and apparatus for determining orientations based on reliabilities of a plurality of portions into which image has been divided or for determining orientations of portions of image divided by user&#39;s input so as to recognize characters for each divided portion of image, image forming apparatus, and storage medium
US8363963B2 (en) Apparatus, method and computer readable medium that associates a plurality of possible word recognition results with an image
US8848240B2 (en) Image processing apparatus, image reading apparatus, image forming apparatus, image processing method, and recording medium
JP5972578B2 (ja) 画像処理装置、画像形成装置、プログラム、記録媒体
JP2011008549A (ja) 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体
JP5183587B2 (ja) 画像処理装置及び画像処理方法、画像処理方法を実行させるためのプログラム
JP2012118863A (ja) 画像読取装置、画像形成装置、画像読取方法、プログラムおよびその記録媒体
US8184912B2 (en) Image processing apparatus, image forming apparatus, image processing system, and image processing method
JP2012074852A (ja) 画像処理装置、画像形成装置、画像読取装置、画像処理方法、画像処理プログラムおよび記録媒体
JP2010273119A (ja) 画像処理装置、画像形成装置、画像処理方法、コンピュータプログラム及び記録媒体
JP6860609B2 (ja) 画像処理装置、画像形成装置、コンピュータプログラム及び記録媒体
JP2010287178A (ja) 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体
JP2010161745A (ja) 画像処理装置、画像読取装置、画像送信装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
JP5197464B2 (ja) 画像処理方法、画像処理装置、画像形成装置、コンピュータプログラム及び記録媒体
JP6688675B2 (ja) 画像処理装置および画像形成装置
JP2010286917A (ja) 画像処理装置、画像読取装置、複合機、画像処理方法、プログラムおよび記録媒体
JP2011010232A (ja) 画像処理装置、画像読取装置、複合機、画像処理方法、プログラムおよび記録媒体
JP2016178451A (ja) 画像処理装置、画像形成装置、コンピュータプログラム及び記録媒体
JP5474222B2 (ja) 画像処理装置及び画像処理方法、プログラム
JP2015226264A (ja) 画像処理装置、それを備えた画像形成装置、画像処理プログラム、及びそのプログラムを記録した記録媒体
JP6399000B2 (ja) 画像処理装置、及び画像作成プログラム
JP6137998B2 (ja) 画像処理装置、画像形成装置、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130522

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5280425

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150