JP7030462B2 - スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム - Google Patents

スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP7030462B2
JP7030462B2 JP2017181698A JP2017181698A JP7030462B2 JP 7030462 B2 JP7030462 B2 JP 7030462B2 JP 2017181698 A JP2017181698 A JP 2017181698A JP 2017181698 A JP2017181698 A JP 2017181698A JP 7030462 B2 JP7030462 B2 JP 7030462B2
Authority
JP
Japan
Prior art keywords
aspect ratio
area
ocr
image
pixel block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017181698A
Other languages
English (en)
Other versions
JP2019057174A (ja
JP2019057174A5 (ja
Inventor
妙子 山▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017181698A priority Critical patent/JP7030462B2/ja
Priority to US16/128,972 priority patent/US10574839B2/en
Publication of JP2019057174A publication Critical patent/JP2019057174A/ja
Publication of JP2019057174A5 publication Critical patent/JP2019057174A5/ja
Application granted granted Critical
Publication of JP7030462B2 publication Critical patent/JP7030462B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Description

本発明は、スキャン画像から文字情報を取得するための文字認識技術に関する。
従来より、文書の管理手法として、紙文書をスキャンして電子化する手法が広く行われている。そして、文書の電子化に際して、スキャンされた画像データに対して文字認識処理(OCR処理)を行い、認識された文字を電子化した文書ファイルのファイル名に使用する技術がある。このような作業は、通常、MFP(Multi Function Peripheral)等の装置において行われる。その際、先ず文字列の位置の抽出のための解析処理を行なってその結果をUI画面上にプレビュー表示し、その後にOCR処理を行って得られた文字認識結果を使ってファイル名生成などが行われる。そして、ユーザがストレスなく一連の操作を行なうには、迅速なプレビュー表示と高い精度でのOCR処理の両方が求められる。
ここで、迅速なプレビュー表示の実現には、上記解析処理における二値化処理を高速で行うことが求められる一方で、ファイル名生成のためのOCR処理を高精度で行うには、OCR処理に適した高画質の二値画像が必要となる。高画質の二値画像を得る技術としては、例えば特許文献1や2に開示の手法がある。特許文献1の手法では、二値化処理を行った後に文字列の並びに対して垂直方向に走査して投影分布図を作り、文字の途切れや文字間の接触の有無に応じて再度二値化処理を行なう。また、特許文献2では、文字列の状態の判定情報と、文字認識の状態の判定情報とに基づいて、二値化の閾値であるスライスレベルを決定する。
特開平02-056688号公報 特開平11-232388号公報
特許文献1の手法では、二値画像の状態判定を1文字単位で行う。そうなると、OCR処理の対象言語が日本語の場合、例えば、平仮名の“い”や漢字の“社”などの文字は、投影分布図を作る際に過分割されてしまうことがある。よって、特許文献1の手法によって、文字の途切れを正確に判断することは難しく、大量の文字列が含まれる文書を高速に処理するのにも適さない。また、特許文献2の手法では、入力画像の全体に対して、二値化の閾値を1つ決定するので、例えば入力画像に輝度が高い色の文字領域と輝度の低い色の文字領域が含まれていたりすると、適切に二値化することができなくなってしまう。
本発明に係る画像処理装置は、スキャン画像から文字情報を取得する画像処理装置であって、第1の二値化手法を用いて前記スキャン画像を二値化することにより第1の二値画像を取得する第1の二値化手段と、前記第1の二値画像に対し領域分割処理を行って、テキスト領域を抽出する解析手段と、前記テキスト領域に含まれる画素塊を囲む外接矩形の縦横比が、基準となる縦横比の範囲内であるか否か判定する第1の判定手段と、前記第1の判定手段において前記黒画素塊を囲む外接矩形の縦横比が前記基準となる縦横比の範囲内であると判定した場合、前記テキスト領域に含まれる黒画素塊の一部に対してOCR処理を行うことにより得られるOCR結果の信頼度が所定の閾値より高いか否か判定する第2の判定手段と、前記第1の判定手段において前記黒画素塊を囲む外接矩形の縦横比が前記基準となる縦横比の範囲内でないと判定した場合、もしくは、前記第2の判定手段において前記OCR結果の信頼度が前記所定の閾値以下であると判定した場合、第2の二値化手法を用いて少なくとも前記テキスト領域に対応する前記スキャン画像内の領域を二値化することにより第2の二値画像を取得する第2の二値化手段と、前記第2の判定手段において前記OCR結果の信頼度が前記所定の閾値より高いと判定した場合は、前記第1の二値画像を用いてOCR処理を行い、前記第1の判定手段において前記黒画素塊を囲む外接矩形の縦横比が前記基準となる縦横比の範囲内でないと判定した場合、もしくは、前記第2の判定手段において前記OCR結果の信頼度が前記所定の閾値以下であると判定した場合は、前記第2の二値画像を用いてOCR処理を行なう文字認識手段と、を備えることを特徴とする。
本発明によれば、スキャン画像から文字情報を取得する際のプレビュー表示の高速化とOCR処理の精度向上とを両立させることができる。
画像処理システムの全体構成を示す図 MFPのハードウェア構成図 ファイルサーバのハードウェア構成図 MFPのソフトウェア構成図 スキャン画像の生成からアップロードまでの動作制御の流れを示すフローチャート スキャン設定画面の一例を示す図 領域分割処理の結果の一例を示す図 プレビュー画面の一例を示す図 アップロード画面の一例を示す図 実施例1に係る、ファイル名生成処理の詳細を示すフローチャート 二値画像状態判定処理の詳細を示すフローチャート OCR処理結果を用いてファイル名が設定される様子を説明する図 実施例2に係る、ファイル名生成処理の詳細を示すフローチャート ゾーンOCRの詳細を示すフローチャート
以下、本発明を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。
<画像処理システムの構成>
図1は、本実施例に係る画像処理システムの全体構成を示す図である。画像処理システムは、MFP110とファイルサーバ120とで構成され、LAN(Local Area Network)を介して互いに通信可能に接続されている。
MFP(Multi Function Printer)110は、スキャナやプリンタといった複数の機能を有する複合機であり、画像処理装置の一例である。ファイルサーバ120は、電子化された文書ファイルを保存・管理する外部サーバの一例である。本実施例の画像処理システムは、MFP110とファイルサーバ120とからなる構成としているがこれに限定されない。例えば、MFP110がファイルサーバ120の役割を兼ね備えてもよい。また、LANに代えてインターネットなどを介した接続形態であってもよい。また、MFP110は、PSTN(Public Switched Telephone Networks)に接続され、ファクシミリ装置(不図示)との間で画像データをファクシミリ通信することができる。
図2は、MFP110のハードウェア構成図である。MFP110は、制御部210、操作部220、プリンタ部221、スキャナ部222、モデム223で構成される。制御部210は、以下の各部211~219で構成され、MFP110全体の動作を制御する。CPU211は、ROM212に記憶された制御プログラムを読み出して、読取/印刷/通信などMFP110が有する各種機能を実行・制御する。RAM213は、CPU211の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、本実施例では1つのCPU211が1つのメモリ(RAM213またはHDD214)を用いて後述のフローチャートに示す各処理を実行するものとするが、これに限定されない。例えば、複数のCPUや複数のRAMまたはHDDを協働させて各処理を実行してもよい。HDD214は、画像データや各種プログラムを記憶する大容量記憶部である。操作部I/F215は、操作部220と制御部210とを接続するインタフェースである。操作部220には、タッチパネルやキーボードなどが備えられており、ユーザによる操作/入力/指示を受け付ける。プリンタI/F216は、プリンタ部221と制御部210とを接続するインタフェースである。印刷用の画像データはプリンタI/F216を介して制御部210からプリンタ部221へ転送され、記録媒体上に印刷される。スキャナI/F217は、スキャナ部222と制御部210とを接続するインタフェースである。スキャナ部222は、不図示の原稿台やADF(Auto Document Feeder)にセットされた原稿を読み取って画像データを生成し、スキャナI/F217を介して制御部210に入力する。MFP110は、スキャナ部222で生成された画像データをプリンタ部221から印刷出力(コピー)する他、ファイル送信またはメール送信することができる。モデムI/F218は、モデム223と制御部210とを接続するインタフェースである。モデム223は、PSTN上のファクシミリ装置との間で画像データをファクシミリ通信する。ネットワークI/F219は、制御部210(MFP110)をLANに接続するインタフェースである。MFP110は、ネットワークI/F219を用いてLAN上の外部装置(ファイルサーバ120など)に画像データや情報を送信したり、各種情報を受信したりする。
図3は、ファイルサーバ120のハードウェア構成図である。ファイルサーバ120は、CPU311、ROM312、RAM313、HDD314及びネットワークI/F315で構成される。CPU311は、ROM312に記憶された制御プログラムを読み出して各種処理を実行することで、ファイルサーバ120全体の動作を制御する。RAM313は、CPU311の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD314は、画像データや各種プログラムを記憶する大容量記憶部である。ネットワークI/F315は、ファイルサーバ120をLANに接続するインタフェースである。ファイルサーバ120は、ネットワークI/F315を用いてLAN上の他の装置(MFP110など)との間で各種情報を送受信する。
<MFPのソフトウェア構成>
図4は、MFP110のソフトウェア構成図である。MFP110のソフトウェアは、ネイティブ機能モジュール410とアディショナル機能モジュール420の大きく2つに分けられる。ネイティブ機能モジュール410に含まれる各部は、MFP110に標準的に備えられた機能モジュールである。これに対し、アディショナル機能モジュール420に含まれる各部は、MFP110に追加的に備わる機能モジュールであり、例えばアプリケーションのインストールによって実現される機能モジュールである。本実施例におけるアディショナル機能モジュール420は、Java(登録商標)をベースとしたアプリケーションであり、MFP110への機能追加を容易に実現できる。なお、MFP110には図示しない他のアプリケーションがインストールされていても良い。以下、両機能モジュール410及ぶ420を構成する各部について説明する。
アプリケーション表示部423は、操作部220のタッチパネルに、ユーザによる各種操作を受け付けるためのユーザインタフェース画面(UI画面)を表示する表示制御を行う。表示するUI画面の詳細については後述する。スキャン指示部421は、UI画面を介して入力されたユーザ指示に従い、スキャン設定や転送設定の情報を含んだスキャン要求をスキャン実行部411に送信して、スキャン処理を実行させる。このスキャン要求には、後述するアプリケーション受信部422が受信する画像データが、当該スキャン要求に対応したものかどうかを識別するための要求IDも含まれる。
スキャン実行部411は、スキャン指示部421からのスキャン要求を受けて、スキャナI/F217を介してスキャナ部222を制御しスキャン処理を実行する。これにより、原稿が読み取られて画像データが生成される。スキャンによって生成された画像データ(以下、「スキャン画像データ」と呼ぶ。)はその転送先を特定する転送設定の情報と共に転送部412に渡される。転送部412は、スキャン実行部411から受け取ったスキャン画像データを、転送設定に従って転送する。スキャン画像データの転送先としては、ファイルサーバ120や、LAN上のPC(不図示)等を設定可能である。ただし、本実施例では、スキャン実行部411で生成されたスキャン画像データは、一旦全て、アディショナル機能モジュール420に転送するように設定されているものとする。転送部412は、FTP(File Transfer Protocol)クライアント機能を有しており、FTPサーバ機能を有するアプリケーション受信部422に対してFTPでスキャン画像データを転送する。
アプリケーション受信部422は、転送部412から内部転送されたスキャン画像データを受信し、アプリケーション転送部424に渡す。アプリケーション転送部424は、受信したスキャン画像データを画像解析部425に渡す。画像解析部425は、受け取ったスキャン画像データに対してテキスト領域の特定や文字認識といった画像解析処理を行なう。そして、スキャン画像データとその解析結果は、アプリケーション転送部424を介してプレビュー表示部426に渡される。プレビュー表示部426は、スキャン画像データとその解析結果に基づき、ユーザがファイル名設定を行うためのUI画面を生成し、操作部220の液晶パネルに表示するといった表示制御を行う。
アップロード指示部427は、ユーザがフォルダパス設定を行うためのUI画面を生成し、操作部220のタッチパネルに表示する。アプリケーション転送部424は、ファイルサーバ120にスキャン画像データを転送(送信)する。アプリケーション転送部424は、転送が終了すると、アプリケーション表示部423に転送が終了したことを通知する。アプリケーション表示部423は、アプリケーション転送部424からの通知を受けて、表示内容を更新する。また、アプリケーション転送部424は、SMB(Server Message Block)クライアント機能を有している。これにより、SMBサーバ機能を有するファイルサーバ120に対して、SMBを用いてファイル操作及びフォルダ操作を行う。なお、使用するプロトコルは、SMBに限定されるものではなく、WebDAV、FTP、SMTP等であってもよい。また、SOAPやRESTといったファイル送信目的以外のプロトコルも使用可能である。
続いて、MFP110において原稿からスキャン画像を生成し、ファイルサーバ120にアップロードする際の動作制御について説明する。図5は、スキャン画像の生成からアップロードまでの制御の流れを示すフローチャートである。この一連の処理は、制御部210において、CPU211がHDD214に記憶された制御プログラムを実行することにより実現される。以下、詳しく説明する。
ステップ501では、アプリケーション表示部423により、スキャン処理のための各種設定を行うためのUI画面(以下、「スキャン設定画面」と呼ぶ。)が、操作部220のタッチパネルに表示される。図6は、スキャン設定画面の一例を示す図である。図6のスキャン設定画面600には、5つの設定ボタン601~605が存在する。[カラー設定]ボタン601は、原稿をスキャンする際のカラー/モノクロを設定するためのボタンである。[解像度設定]ボタン602は、原稿をスキャンする際の解像度を設定するためのボタンである。[両面読み取り設定]ボタン603は、原稿の両面をスキャンしたい場合に用いる設定ボタンである。[原稿混載設定]ボタン604は、サイズが異なる原稿をまとめてスキャンしたい場合に用いる設定ボタンである。[画像形式設定]ボタン605は、スキャン画像データの保存形式を指定する際に用いる設定ボタンである。これら設定ボタン601~605を用いた設定時には、MFP110においてサポートされている範囲で設定可能な候補(選択肢)が表示され、ユーザは表示された候補から望むものを選択する。なお、上述の設定ボタンは一例であって、これらすべての設定項目が存在しなくても良いし、これら以外の設定項目が存在してもよい。ユーザは、このようなスキャン設定画面600を介してスキャン処理についての詳細な設定を行なう。[キャンセル]ボタン620は、スキャン設定を中止する場合に用いるボタンである。[スキャン開始]ボタン621は、原稿台等にセットした原稿に対するスキャン処理の開始を指示するためのボタンである。
ステップ502では、アプリケーション表示部423により、ユーザによるボタン操作の内容によって処理の切り分けがなされる。[スキャン開始]ボタン621の押下が検出された場合は、アプリケーション表示部423によって各設定ボタン601~605で設定された内容とスキャン処理の実行開始の受付が、スキャン指示部421に対して伝えられる。一方、[キャンセル]ボタン620の押下が検出された場合は本処理を終える。
ステップ503では、スキャン指示部421からの指示に応答して、スキャン実行部411によってスキャン処理が実行される。これにより得られたスキャン画像データは、ステップ504において、転送部412を通じてアプリケーション受信部422にFTPで内部転送され、さらにアプリケーション転送部424を介して画像解析部425に送られる。
ステップ505では、画像解析部425において、スキャン画像データの解析処理が実行される。具体的には、まず、スキャン画像データに対し、画像信号の二値化やスキャン時にずれた原稿の傾きの修正、原稿が正立する方向への回転などを行なって、解析処理を行いやすい状態に補正する。ここでの二値化においては、精度よりも処理速度を優先する。すなわち、精度についてはその後に行う領域分割処理が可能な程度であればよく、例えば、大津法のような画像全体に対して単一の閾値を用いる手法によって、高速に二値化処理を行なう。そして、白黒に二値化された画像内に存在するテキスト属性の領域(テキスト領域)を特定する処理(領域分割処理)を行う。具体的には、まず、白黒の二値画像に対し輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。そして、面積が所定の面積よりも大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行い、白画素の塊を抽出し、さらに一定面積以上の白画素の塊の内部から再帰的に黒画素の塊を抽出する。こうして得られた黒画素の塊を、大きさ及び形状で分類し、異なる属性を持つ領域へ分類していく。例えば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素塊とする。さらに近接する文字が整列良くグループ化され得る部分を文字領域(Text)とする。扁平な画素塊を線領域(LINE)とする。一定大きさ以上でかつ矩形の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域(TABLE)とする。不定形の画素塊が散在している領域を写真領域(PHOTO)とする。そして、それ以外の任意形状の画素塊を図画領域(PICTURE)とする。こうしてオブジェクトの属性毎に領域分割されたものの中から、テキスト領域が特定される。図7は、領域分割処理の結果の一例を示す図である。図7(a)は解析対象のスキャン画像を示している。図7(a)のスキャン画像において、「会社名」など殆どの文字列は、前景部分(文字)を構成する画素の色成分は黒、背景部分を構成する画素の色成分は白である。しかし、「注文書」の文字列は、前景部分を構成する画素の色成分は濃いグレー、背景部分を構成する画素の色成分は白である。また、「\428,760」の文字列は、前景部分を構成する画素の色成分は黒、背景部分を構成する画素の色成分は薄いグレーである。図7(b)は、図7(a)のスキャン画像に対して二値化処理を行い、その後に領域分割処理によって得られたテキスト領域を示している。図7(b)において、実線で示す矩形701は、近接する複数行の文字列をまとめて1つの領域としたブロック領域(Text-block area)を示している。破線で示す矩形702はブロック領域701を行単位で分割した行領域(Text-line area)を示している。また、点線で示す矩形703は行領域702を1文字単位の外接矩形で切り出した文字枠(Character bounding box)を示している。各ブロック領域701から行領域702を抽出するには、まずブロック領域701内の文字列が縦書きか横書きかを判定する必要がある(組版方向判定)。ブロック領域701に対して垂直方向と水平方向の2方向に投影ヒストグラムを生成し、規則性のある谷が垂直方向に出現すれば縦書き、水平方向に出現すれば横書きとなる。図7の例では、すべてのブロック領域701が横書きと判定されることになる。そして、判定された組版方向に沿って、再度、投影ヒストグラムを生成し、谷の部分で分割した文字枠群について、それぞれ始点となる左上と終点となる右下の座標を求めることで行領域702が得られる。ここで、図7(a)のスキャン画像の場合、「注文書」や「\428,760」の文字列における前景部分と背景部分との濃淡差と、「会社名」等の他の文字列における前景部分と背景部分との濃淡差とが異なっている。このように濃淡差にばらつきがあると、二値化処理の結果において、前景部分のオン画素が欠損したり(文字の掠れ)、オン画素が存在する領域が拡がったり(文字潰れ)などして、文字の外接矩形として不正確なものが含まれる可能性が高くなる。そこで、本実施例では、後段のファイル名生成処理(ステップ507)において、二値画像の状態判定を行い、必要に応じて高精度の二値化処理を行った上でOCR処理を実行するようにしている。本ステップの解析処理で特定された行領域702の情報(以下、「行領域情報」と呼ぶ。)は、画像解析データとしてアプリケーション転送部424に渡される。なお、行領域情報には、各行領域が属するブロック領域や文字枠の情報も含まれる。画像解析データは、例えばCSVやXMLのフォーマットとするが、他のフォーマットであっても構わない。また、HDD214に一旦保存した上で、所定のタイミングで渡してもよい。図5のフローの説明に戻る。
ステップ506では、プレビュー表示部426により、ステップ503で読み込まれたスキャン画像が、操作部220のタッチパネルにプレビュー表示される。このプレビュー表示用の画面データは、アプリケーション表示部423によって生成・提供される。ユーザは、スキャン画像がプレビュー表示されたUI画面(以下、「プレビュー画面」と呼ぶ。)を介して、スキャン画像データのファイル名を設定することができる。図8(a)は、プレビュー画面の一例を示す図である。プレビュー画面800において、画面中央にあるプレビュー領域810内に、読み込まれたスキャン画像が表示される。そして、プレビュー領域810内には、スキャン画像と共にその表示状態を変更するための複数のボタン811~814も表示される。ボタン811及び812はスキャン画像の全体を表示しきれないときに現れるボタンで、表示領域を縦方向にスクロールするためのボタンである。MFP110が備えるタッチパネルは通常それほど大きくはない。そこで、例えば、スキャン画像がA4縦・横書きの原稿を読み取ったものである場合は、スキャン画像の幅方向(短手方向)全体がプレビュー領域810にちょうど収まるように上詰めで縮小表示されるよう初期設定される。つまり、初期設定においては、A4縦のスキャン画像の下部はプレビュー領域810内に表示されないことになる。このようなとき、「↓」ボタン812を押下すると下に表示領域がスクロールし、下部を表示させることができる。さらに、スキャン画像が例えばA4横やA3などの場合には、表示領域を横方向にスクロールするためのボタンを設ければよい。ボタン813及び814は、表示領域を拡大・縮小するためのボタンであり、「+」のボタン813を押下するとズームインし、「-」のボタン814を押下するとズームアウトする。これらボタン操作による動作を、プレビュー画面上でのスワイプやピンチアウト/ピンチインといったユーザの指による操作で実現してもよい。また、プレビュー領域810には、ステップ505の画像解析処理によって特定された行領域が、上述の行領域情報に基づき、ユーザに識別可能な態様で表示される。図8(b)は、図8(a)のプレビュー画面800において、各行領域が囲み枠によって識別可能に表示された状態を示す図である。ユーザが、プレビュー領域810に表示された行領域の中から任意の行領域を選択(例えば指でタッチ)すると、そこに含まれる文字列がファイル名入力欄801に表示、すなわち自動入力され、ファイル名を構成する文字列の一部となる。これらボタン操作による動作を、プレビュー画面上でのスワイプやピンチアウト/ピンチインといったユーザの指による操作で実現してもよい。[戻る]ボタン820は、プレビュー表示を中止する場合に用いるボタンである。[次へ]ボタン821は、読み込まれたスキャン画像データのアップロード先を設定する画面に移行するためのボタンである。なお、上述した各種ボタンの種類、各行領域の表示や選択の態様は一例にすぎず、これに限定されない。例えば、ブロック領域の中に複数の行領域が存在する場合において、一定の条件下で、行領域単位ではなくブロック領域単位でプレビュー画面内に表示するようにしてもよい。このようなケースとしては、1つのセル内に複数行の文字列が記載された表を含む帳票をスキャンした場合が考えられる。この場合、領域分割処理の属性判定の結果を利用することで、1つのセル内に記載された行文字列かどうかを判断すればよい。また、ファイル名入力欄801に表示された文字列を修正・変更したり、ファイル名を確定したりするためのボタンがあってもよい。
ステップ507では、プレビュー表示部426により、読み込まれたスキャン画像に対するファイル名の生成がなされる。このファイル名生成処理の詳細については後述する。所望するファイル名が生成されてユーザが[次へ]ボタン821を押下すると、ステップ508へ進む。
ステップ508では、プレビュー表示部426により、ステップ502と同様、ユーザによるボタン操作の内容によって処理の切り分けがなされる。[次へ]ボタン821の押下が検出された場合は、ファイル名入力欄801に表示中のファイル名(ファイル名として設定された文字列)の情報がアップロード指示部427へ送られ、ステップ509へ進む。一方、[戻る]ボタン820の押下が検出された場合は、ステップ501(スキャン設定画面の表示)へ戻る。
ステップ509では、アップロード指示部427により、スキャン画像データの転送先を設定するためのUI画面(以下、「アップロード設定画面」と呼ぶ。)が、操作部220のタッチパネルに表示される。ユーザは、このアップロード設定画面を介して、ファイルサーバ120へのアップロードに関する詳細設定を行う。図9は、アップロード設定画面の一例を示す図である。ユーザは、[フォルダパス]入力欄901に、ファイルサーバ120へ外部転送する際のフォルダパスの名称(パス名)を入力する。図9の例では、“2017_04_04”がパス名として入力されている。入力方法としては、例えばフォルダパス入力欄901へのタップ操作に応じてキーボード画面のサブウインドウ(不図示)を表示し、ユーザに、当該キーボード画面を介してパス名を入力させる方法がある。あるいは、HDD214内に保持するアドレス帳の中から選択して設定できるようにしてもよい。[戻る]ボタン920は、アップロードに関する詳細設定を中止する場合に用いるボタンである。[アップロード]ボタン921は、[フォルダパス]入力欄901で設定したフォルダパスへのアップロードを指示するためのボタンである。
ステップ510では、アップロード指示部427により、ステップ508と同様、ユーザによるボタン操作の内容によって処理の切り分けがなされる。[アップロード]ボタン921の押下が検出された場合は、ステップ511へ進む。その際、フォルダパス入力欄901に入力されたパス名、ステップ507で生成されたファイル名、ファイルサーバ設定の各情報が、アプリケーション転送部424へ渡される。ここで、ファイルサーバ設定は、ファイルサーバ120にスキャン画像データを格納するために必要な情報であり、具体的には、ホスト名、フォルダパスの起点、ログイン用のユーザ名とパスワードといった情報を含む。一方、[戻る]ボタン920の押下が検出された場合は、ステップ506(プレビュー画面の表示)へ戻る。
ステップ511では、アプリケーション転送部424により、スキャン画像データの格納先パスが、アップロード指示部427から受け取った情報に基づき生成される。具体的には、ファイルサーバ設定(ファイルサーバ120のホスト名、フォルダパスの起点)にフォルダパスを加えて生成される。これにより、例えば“\\server01\Share\2017_04_04”といった格納先パスが生成される。そして、ステップ512では、アプリケーション転送部424により、ファイルサーバ120に対するアクセスが実行される。この際、ファイルサーバ設定に含まれるユーザ名とパスワードをファイルサーバ120に送信する。ユーザ名とパスワードを受け取ったファイルサーバ120では、認証処理が実行される。
ステップ513では、アプリケーション転送部424により、ファイルサーバ120での認証結果に従って処理の切り分けがなされる。すなわち、ファイルサーバ120から認証成功の通知を受信した場合は、ステップ514に進む。一方、認証失敗の通知を受信した場合は、本処理を終了する。
ステップ514では、アプリケーション転送部424により、ステップ511で生成された格納先パスが示すフォルダにスキャン画像データが外部転送され、ファイルサーバ120内に格納される。
以上が、本実施例に係るスキャン画像の生成からアップロードまでの動作制御の内容である。なお、本実施例では、ステップ505及びステップ506の各処理を、スキャンによって生成された1ページ分の画像データに対して行うことを想定している。例えば、プレビュー画面800内に次のページの画像解析を行うためのボタンを設け、その解析によって得られた次ページのプレビュー表示を行って、次ページ以降のブロック領域からファイル名を構成する文字列を設定できるようにしてもよい。
<ファイル名の生成>
図10は、プレビュー表示部426におけるファイル名生成処理(ステップ507)の詳細を示すフローチャートである。以下、図10のフローに沿って説明する。
ステップ1001では、タッチパネル上に表示されたプレビュー画面800へのユーザによるタッチ操作の有無が監視される。タッチ操作が検出されるとステップ1002へ進む。続くステップ1002では、タッチ操作の内容によって処理の切り分けがなされる。タッチ操作の内容が、[次へ]ボタン821または[戻る]ボタン820の押下であった場合は、本処理を終了する。[次へ]ボタン821または[戻る]ボタン820の押下ではなかった場合は、ステップ1003へ進む。
ステップ1003では、タッチ操作がなされたタッチパネル上の位置座標(x,y)が取得される。続くステップ1004では、タッチ操作された位置座標が、いずれかの行領域と重なるかどうかが判定される。例えば、タッチ操作された位置座標が、プレビュー領域810に表示された各行領域の内側(行領域の四隅を表す位置座標で特定される矩形の内側)に含まれるかどうかで判定する。タッチ操作された位置座標がいずれかの行領域と重なっている場合は、ステップ1005へ進む。一方、重なっていない場合は、ステップ1001に戻る。
ステップ1005では、画像解析部425によって、タッチ操作された行領域の二値画像がOCR処理に適した画像状態かどうかを判定し、適した状態でなければ新たな二値画像を生成する処理(二値画像状態判定処理)が実行される。先に述べたとおり、ステップ505の画像解析処理における二値化は、領域分割が可能なレベルでの処理速度を優先した高速な二値化であり、この後行うOCR処理に適した二値画像が得られているとは限らない。よって、OCR処理に先立って、ユーザがタッチ操作した行領域における二値画像の状態を判定し、必要であれば精度を優先した二値化処理を行なって、OCR処理に適した2値画像を生成することとしている。図11は、二値画像状態判定処理の詳細を示すフローチャートである。以下、図11のフローに沿って説明する。
ステップ1101では、上述の行領域情報に基づき、タッチ操作された行領域内にの文字枠のサイズ(幅及び高さ)情報が取得される。本実施例では、タッチ操作された行領域自身の文字枠のサイズ情報に加え、当該行領域が属するブロック領域内にある他の行領域(タッチ操作されていない行領域)内の文字枠のサイズ情報を含めて取得する。その理由は、日本語などの東アジア言語は、複数のパーツから成り立っている文字が少なくないためである。例えば、平仮名の“い”や、漢字の“社”はいずれも2つのパーツから成り立っている。このような文字を単純に投影ヒストグラムの谷の部分で分割すると、2つの縦長のパーツに分割されてしまう。そこで、ユーザ選択に係る行領域が属するブロック領域に含まれるすべての文字枠のサイズ情報を用いることで、算出対象の文字枠の母集団を増やし、より正確に文字幅を推定することとしている。なお、英語などの言語であれば、ユーザ選択に係る行領域内に存在する文字枠のサイズ情報のみを取得すれば足りることになる。
ステップ1102では、取得したすべての文字枠のサイズ情報を用いて、全文字枠における縦横比の平均値が算出される。ここで、文字枠の縦横比を求める理由を説明する。まず、文字枠が縦長であった場合は、文字の掠れによって細分化されてしまった可能性がある。一方、文字枠が横長であった場合は、文字の潰れによって文字間が密着してしまっている可能性がある。そこで、タッチ操作された行領域について、文字枠の縦横比を求め、その比率が1:1以外であれば、二値画像の状態はOCR処理に適さない状態であると判断できる。なお、本ステップでは、既に領域分割処理で得られている文字枠のサイズ情報を用いるので、新たな解析を行う必要がなく、高速な判定が可能となる。
ステップ1103では、ステップ1102で求めた文字枠の縦横比の平均値に基づき、読み取った文字に潰れや掠れが生じているかどうか(その可能性が高いかどうか)が判定される。上述のとおり、文字が掠れて文字枠が過度に分割されている場合は、文字枠の比率は縦長になる。一方、文字が潰れてしまっている場合は、文字間のスペースがなくなって文字同士が密着するので、文字枠の比率は横長になる。この特性を利用し、文字の潰れや掠れの発生の有無を判断する。詳細には、主要なフォントにおける文字枠の縦横比の平均値を予め保持しておき、当該平均値と近い(例えば差分が15%以内)かどうかで判断する。文字に潰れや掠れが生じていない(その可能性が低い)と判定された場合は、ステップ1107に進む。一方、文字に潰れや掠れが生じている(その可能性が高い)と判定された場合は、ステップ1104へ進む。
ステップ1104では、タッチ操作された行領域内の任意の文字枠を対象にOCR処理が実行される。この処理は、文字同士が密着するほどではないが、文字内部が潰れてしまっているケースを考慮したものである。よって、文字枠の縦横比に基づく判定で問題がない場合でも、タッチ操作された行領域内の任意の文字枠に対してOCR処理を実行し、文字認識結果の信頼度に基づき、二値画像の状態を判定するようにしている。なお、任意の文字枠の数は少数(1個ないしは数個)でよい。
ステップ1105では、ステップ1104のOCR処理によって得られた文字認識結果の信頼度が高いかどうかが判定される。OCR処理では、予め様々な文字についての特徴量(パターン)が登録された辞書データを用いて、入力文字と特徴量が一致する文字を辞書データの中から見つけることにより特定の文字を認識する。したがって、特徴量が一致する割合が高いほど、認識結果が正しい(特定された文字が正解である可能性が高い)ことになる。そして、文字に掠れや潰れがあるほど、この一致率は低下する傾向にある。そこで、文字認識結果における特徴量の一致率を信頼度とし、その値が低ければOCR処理に適さない二値画像、その値が高ければOCR処理に適した二値画像であると判断する。なお、この信頼度は、使用するOCRエンジンに依存する。このため、使用するOCRエンジンから実験的に求めた基準となる信頼度の値(例えば、95%以上といった所定の閾値)を予め保持しておき、ステップ1104で得られた文字認識結果の信頼度と閾値との比較処理によって、信頼度が高いかどうかの判定を行う。文字認識結果の信頼度が閾値以上であればステップ1106に進み、閾値未満であればステップ1107に進む。
ステップ1106では、ステップ505における画像解析時に生成(領域分割処理に先立って生成)した二値画像を、OCR処理でもそのまま用いることが決定される。一方、ステップ1107では、処理速度よりも精度を優先した二値化手法を用いて、OCR処理に適した二値画像が生成される。こうして新たに生成された二値画像が、画像解析時の二値画像に代えて、次のOCR処理で用いられることになる。ここで、精度を優先した二値化手法は、例えば、複数の閾値を用いる手法であって局所的(8×8画素のブロック単位など)に閾値を変化させて二値画像を生成する適応二値化手法や、濃度勾配が強いところ(エッジ)を抽出する手法などがある。なお、この際の対象範囲は、ユーザがタッチ操作した行領域のみでよい。二値化処理の対象範囲を行領域に限定することで、使用するメモリ量を削減して処理速度を上げることができる。なお、精度優先の二値化手法を適用する際は、ユーザ選択された行領域から所定の範囲内も含めて処理対象として、適応的に二値化していくようにしてもよい。このようにすれば、行領域の周囲の画像の情報も参照しながら二値化閾値を決定していくことが可能になる。
以上が、二値画像状態判定処理の内容である。図10のフローの説明に戻る。
ステップ1006では、タッチ操作された行領域の二値画像(ステップ1106で決定された二値画像又はステップ1107で再生成された二値画像)に対してOCR処理が実行され、当該行領域内の文字列が抽出される。そして、ステップ1007では、ファイル名入力欄801に現在表示中のファイル名の文字列がまず取得され、当該文字列に区切り文字(例えばハイフン“-”)を付加した上で、その後ろにステップ1006で抽出した文字列が追加される。なお、ファイル名入力欄801が空(文字列が未入力)の場合は、区切り文字を付加せずに、抽出した文字列をそのまま追加する。こうして、得られた文字列が、続くステップ1008で、ファイル名入力欄801に表示(自動入力)される。図12に具体例を示す。いま、プレビュー領域810において図示された順に行領域がタッチ操作されたとする。この場合、ファイル名入力欄801には「見積書-株式会社川崎総合研究所」の文字列が表示されることになる。これに合わせ、プレビュー領域810におけるタッチ操作された行領域の表示態様を変更(例えば網掛にしたり、色を変えたり)してもよい。
以上が、本実施例に係る、ファイル名生成処理の内容である。
<変形例>
上述の実施例では、領域分割向けに生成した二値画像がOCR処理に適しているかどうかの状態判定を行い、二値画像の状態がOCR処理に適していない場合だけ、ユーザ選択に係る行領域に対して二値化処理を再度行っていた。このような二値画像の状態判定を行うことなく、ユーザ選択に係る行領域に対しては一律に、高精度の二値化処理を行なうようにしてもよい。この場合、後続のOCR処理に対する影響を考慮する必要がなくなるので、領域分割向けの二値化処理においてより簡易かつ高速な手法を採用することが可能となる。
本実施例によれば、スキャン画像の解析(領域分割)段階では、処理速度を優先した二値化手法によって二値画像を生成する。一方、OCR処理の段階では、ユーザ選択された行領域について精度を優先した二値化手法を用い、OCR処理に適した二値画像を生成するようにしている。これにより、スキャン画像から文字情報を取得する際の、プレビュー表示の高速化とOCR処理における文字認識精度の向上との両立が可能になる。
次に、画像内の行領域に対してOCR処理を順次行なう態様を、実施例2として説明する。なお、実施例1と共通する内容については説明を省略するものとし、以下では差異点であるファイル名生成処理を中心に説明を行うものとする。
図13は、本実施例に係る、プレビュー表示部426におけるファイル名生成処理(ステップ507)の詳細を示すフローチャートである。以下、図13のフローに沿って詳しく説明する。
ステップ1301では、タッチパネル上に表示されたプレビュー画面800へのユーザによるタッチ操作の有無が監視される。タッチ操作が検出されるとステップ1302へ進む。一方、タッチ操作が検出されなければ、ステップ1304へ進む。
ステップ1302では、タッチ先によって処理の切り分けがなされる。タッチ先が、[次へ]ボタン821または[戻る]ボタン820であった場合は、本処理を終了する。タッチ先がプレビュー領域810内に表示中の行領域のいずれかであった場合は、ステップ130へ進む。タッチ先がその他のボタンであった場合は、ステップ1303に進む。
ステップ1303では、タッチ先のボタンに応じた処理が実行される。例えば、タッチ先が「↓」ボタン812であれば下方向へ表示領域をスクロールし、「-」ボタン814であれば表示領域をズームアウトする。以降のステップ1304~ステップ1309までの各処理は、プレビュー表示部426からの指示に基づき画像解析部425において実行される。
ステップ1304では、現在のプレビュー領域810の範囲(現プレビュー範囲)における表示領域の情報が取得され、必要に応じて更新される。すなわち、後述のステップ1309でOCR処理の一括実行が開始されている場合、現時点でOCR処理が済んだ行領域をハイライト表示(網掛け、枠や色の変更等)するなどして、未済のものと識別できるように表示態様が変更される。また、ステップ1303で表示領域のスクロールや拡大・縮小といった処理がなされていれば、当該処理後の現プレビュー範囲内における表示領域を基に、行領域の表示態様の変更がなされる。なお、ユーザが何も操作していなければ、前述の初期設定に従った表示領域(例えばA4縦・横書き原稿のスキャン画像であれば、その幅方向全体が収まるよう上詰めで表示)の情報が、現プレビュー範囲の情報として取得されることになる。
ステップ1305では、現プレビュー範囲内にOCR処理が未済の行領域が存在するかどうかが判定される。現プレビュー範囲の内側にOCR処理が未済の行領域が存在する場合は、ステップ1306に進み、現プレビュー範囲内に存在する行領域のうち、OCR処理が未済の行領域の情報(以下、「OCR未済一覧」と呼ぶ。)が取得される。このとき、現プレビュー範囲の内と外(境界)に跨っている行領域も、OCR処理が済んでいなければその対象となる。また、現プレビュー範囲に一定程度マージンを持たせるようにしてもよい。すなわち、現プレビュー範囲の周辺範囲までを、“現プレビュー範囲”として扱ってもよい。これにより、ユーザがプレビューの表示領域をある程度スクロールさせても、現プレビュー範囲の周辺に存在する行領域であればOCR処理が既済となっているので、速やかにファイル名入力欄801に文字列が反映されることになる。このように、現プレビュー範囲にマージンを持たせる手法は、例えばプレビューを拡大表示している時やタッチパネル自体が小さい場合に有効である。判定の結果、現プレビュー範囲内に、OCR処理が未済の行領域が存在しない場合は、ステップ1307に進む。
ステップ1307では、現プレビュー範囲外にOCR処理が未済の行領域が存在するかどうかが判定される。現プレビュー範囲の外側にOCR処理が未済の行領域が存在する場合は、ステップ1308に進み、現プレビュー範囲外に存在する行領域のうち、OCR処理が未済の行領域の情報(OCR未済一覧)が取得される。一方、OCR処理が未済の文行領域が存在しない場合は、ステップ1301に戻る。
ステップ1309では、ステップ1306又はステップ1308で取得したOCR未済一覧の中の所定の行領域に対し、OCR処理の一括実行(以下、「ゾーンOCR」と呼ぶ)が開始される。ここで、所定の行領域は、例えば行領域の位置座標やサイズを基準とした、予め定めた条件に従って決定される。行領域の位置座標に基づく条件としては、例えば、y座標が小さいものを第1優先、x座標が小さいものを第2優先とし、上位3つの行領域をゾーンOCRの対象にする、といったものが考えられる。また、行領域のサイズに基づく条件としては、例えば、サイズが大きいものほど高い優先順位とし、上位3つの行領域をゾーンOCRの対象にする、といったものが考えられる。ここで例示したように、ゾーンOCRの対象を決定するための条件は、ユーザや管理者によって演算リソース等を考慮して決定される。なお、ゾーンOCRはバックグラウンドで処理され、その実行開始と共にステップ1301に戻る。図14は、ゾーンOCRの詳細を示すフローチャートである。以下、図14のフローに沿って、ゾーンOCRについて説明する。
ステップ1401では、OCR未済一覧の中から、注目する行領域(以下、「注目行領域」)が1つ選択される。続くステップ1402では、注目行領域に対してOCR処理が実行される。そして、ステップ1403では、実施例1における図11のフローのステップ1105と同様、OCR処理によって得られた文字認識結果の信頼度が高いかどうかが判定される。文字認識結果の信頼度が高い(閾値以上)場合はステップ1406に進み、低い(閾値未満)の場合はステップ1404に進む。ステップ1404では、実施例1における図11のフローのステップ1107と同様、精度を優先した二値化手法を用いて、OCR処理に適した二値画像が生成される。そして、続く1405では、ステップ1404で生成した二値画像を用いて、注目行領域に対してOCR処理が再度実行される。ステップ1406では、OCR未済一覧の中に未処理の行領域があるかどうかが判定される。未処理の行領域があれば、ステップ1401に戻って次の注目行領域を選択して処理を続行する。一方、OCR未済一覧の中の全ての行領域が処理されていれば、本処理を終える。以上が、ゾーンOCRの内容である。図13のフローの説明に戻る。
プレビュー領域810内に表示中のいずれかの行領域へのタッチ操作が検出された場合のステップ1310では、タッチ操作に係る行領域へのOCR処理が既に済んでいるかどうかが判定される。判定の結果、OCR処理が既済の場合は、ステップ1315に進む。一方、OCR処理が未済の場合は、ステップ1311に進む。
ステップ1311では、上述のゾーンOCRが実行中であるかどうかが判定される。ゾーンOCRが実行中であれば、ステップ1312にてゾーンOCRの実行が中止される。一方、ゾーンOCRが実行中でなければステップ1313に進み、前述の二値画像状態判定処理(前述の図11のフローを参照)が実行される。すなわち、タッチ操作された行領域の二値画像がOCR処理に適した画像状態かどうかの判定を行い、必要に応じて精度を優先した二値化処理を行なって、OCR処理に適した二値画像を生成する。そして、ステップ1314では、タッチ操作された行領域に対し、必要に応じて精度の高い二値化手法で生成された二値画像を用いてOCR処理が実行される。
ステップ1315では、タッチ操作された行領域についての、ステップ1314で抽出された文字列又はゾーンOCRによって抽出済みの文字列が取得される。そして、ステップ1316では、ファイル名入力欄801に現在表示中のファイル名が取得され、そこにステップ1315で取得した文字列が追加されて、ファイル名の構成要素として新たに設定される。そして、ステップ1317では、現時点で設定されている文字列が、ファイル名入力欄801に表示(自動入力)される。
以上が、本実施例に係る、ファイル名生成処理の内容である。
本実施例によれば、ユーザが所望の行領域をタッチした時点で、当該行領域に対するOCR処理が済んでいれば、抽出済みの認識文字列を速やかに表示することが可能になる。これにより、ファイル名等の設定をより効率よく行なうことが可能となる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。

Claims (8)

  1. スキャン画像から文字情報を取得する画像処理装置であって、
    第1の二値化手法を用いて前記スキャン画像を二値化することにより第1の二値画像を取得する第1の二値化手段と、
    前記第1の二値画像に対し領域分割処理を行って、テキスト領域を抽出する解析手段と、
    前記テキスト領域に含まれる画素塊を囲む外接矩形の縦横比が、基準となる縦横比の範囲内であるか否か判定する第1の判定手段と、
    前記第1の判定手段において前記黒画素塊を囲む外接矩形の縦横比が前記基準となる縦横比の範囲内であると判定した場合、前記テキスト領域に含まれる黒画素塊の一部に対してOCR処理を行うことにより得られるOCR結果の信頼度が所定の閾値より高いか否か判定する第2の判定手段と、
    前記第1の判定手段において前記黒画素塊を囲む外接矩形の縦横比が前記基準となる縦横比の範囲内でないと判定した場合、もしくは、前記第2の判定手段において前記OCR結果の信頼度が前記所定の閾値以下であると判定した場合、第2の二値化手法を用いて少なくとも前記テキスト領域に対応する前記スキャン画像内の領域を二値化することにより第2の二値画像を取得する第2の二値化手段と、
    前記第2の判定手段において前記OCR結果の信頼度が前記所定の閾値より高いと判定した場合は、前記第1の二値画像を用いてOCR処理を行い、前記第1の判定手段において前記黒画素塊を囲む外接矩形の縦横比が前記基準となる縦横比の範囲内でないと判定した場合、もしくは、前記第2の判定手段において前記OCR結果の信頼度が前記所定の閾値以下であると判定した場合は、前記第2の二値画像を用いてOCR処理を行なう文字認識手段と、
    を備えることを特徴とする画像処理装置。
  2. 前記第1の判定手段での判定の対象となるテキスト領域は、前記解析手段で抽出されたテキスト領域のうち、ユーザによって選択されたテキスト領域であることを特徴とする請求項1に記載の画像処理装置。
  3. 前記テキスト領域は、文字行単位で分割された領域であり、
    前記第1の判定手段で使用される前記基準となる縦横比の範囲は、前記文字行単位で分割されたテキスト領域に含まれる黒画素塊を囲む外接矩形の縦横比の平均値に基づき決定される
    ことを特徴とする請求項1または2に記載の画像処理装置。
  4. 前記第1の二値化手法は、前記第2の二値化手法よりも処理速度が早い二値化手法であることを特徴とする請求項1乃至のいずれか1項に記載の画像処理装置。
  5. 前記第1の二値化手法は、単一の閾値を用いる二値化手法であり、
    前記第2の二値化手法は、複数の閾値を用いる二値化手法である
    ことを特徴とする請求項1乃至のいずれか1項に記載の画像処理装置。
  6. 前記解析手段により文字行単位で抽出された前記テキスト領域のうち、任意の文字行のテキスト領域の選択を受け付けるユーザインタフェースをさらに備え、
    前記第1の判定手段は、前記ユーザインタフェースを介してユーザが選択した文字行のテキスト領域に含まれる画素塊を囲む外接矩形の縦横比が、前記基準となる縦横比の範囲内であるか否か判定する
    ことを特徴とする請求項1に記載の画像処理装置。
  7. スキャン画像から文字情報を取得する画像処理方法であって、
    第1の二値化手法を用いて前記スキャン画像を二値化することにより第1の二値画像を取得する第1の二値化ステップと、
    前記第1の二値画像に対し領域分割処理を行って、テキスト領域を抽出する解析ステップと、
    前記テキスト領域に含まれる画素塊を囲む外接矩形の縦横比が、基準となる縦横比の範囲内であるか否か判定する第1の判定ステップと、
    前記第1の判定ステップにて前記黒画素塊を囲む外接矩形の縦横比が前記基準となる縦横比の範囲内であると判定された場合、前記テキスト領域に含まれる黒画素塊の一部に対してOCR処理を行うことにより得られるOCR結果の信頼度が所定の閾値より高いか否か判定する第2の判定ステップと、
    前記第1の判定ステップにて前記黒画素塊を囲む外接矩形の縦横比が前記基準となる縦横比の範囲内でないと判定された場合、もしくは、前記第2の判定ステップにて前記OCR結果の信頼度が前記所定の閾値以下であると判定された場合、第2の二値化手法を用いて少なくとも前記テキスト領域に対応する前記スキャン画像内の領域を二値化することにより第2の二値画像を取得する第2の二値化ステップと、
    前記第2の判定ステップにて前記OCR結果の信頼度が前記所定の閾値より高いと判定された場合は、前記第1の二値画像を用いてOCR処理を行い、前記第1の判定ステップにて前記黒画素塊を囲む外接矩形の縦横比が前記基準となる縦横比の範囲内でないと判定された場合、もしくは、前記第2の判定ステップにて前記OCR結果の信頼度が前記所定の閾値以下であると判定された場合は、前記第2の二値画像を用いてOCR処理を行なう文字認識ステップと、
    を含むことを特徴とする画像処理方法。
  8. コンピュータを、請求項1乃至のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
JP2017181698A 2017-09-21 2017-09-21 スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム Active JP7030462B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017181698A JP7030462B2 (ja) 2017-09-21 2017-09-21 スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム
US16/128,972 US10574839B2 (en) 2017-09-21 2018-09-12 Image processing apparatus, method and storage medium for acquiring character information from scanned image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017181698A JP7030462B2 (ja) 2017-09-21 2017-09-21 スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2019057174A JP2019057174A (ja) 2019-04-11
JP2019057174A5 JP2019057174A5 (ja) 2020-08-06
JP7030462B2 true JP7030462B2 (ja) 2022-03-07

Family

ID=65720853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017181698A Active JP7030462B2 (ja) 2017-09-21 2017-09-21 スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US10574839B2 (ja)
JP (1) JP7030462B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6968647B2 (ja) * 2017-10-03 2021-11-17 キヤノン株式会社 スキャン画像にファイル名を設定するための装置、その制御方法及びプログラム
JP6983675B2 (ja) * 2018-01-23 2021-12-17 キヤノン株式会社 スキャン画像に関連する情報を設定するための装置、方法、プログラム、およびシステム
JP7330742B2 (ja) * 2019-04-19 2023-08-22 キヤノン株式会社 スキャン画像にプロパティを設定するための画像処理装置、その制御方法及びプログラム
JP7225017B2 (ja) * 2019-04-19 2023-02-20 キヤノン株式会社 タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム
CN111918065A (zh) * 2019-05-08 2020-11-10 中兴通讯股份有限公司 一种信息压缩/解压缩方法及装置
EP4071665A4 (en) * 2019-12-05 2023-11-22 Canaan Bright Sight Co., Ltd. CHARACTER SEGMENTATION METHOD AND APPARATUS, AND COMPUTER-READABLE STORAGE MEDIUM
JP7400548B2 (ja) * 2020-03-03 2023-12-19 富士フイルムビジネスイノベーション株式会社 情報処理装置、画像処理装置、情報処理システム、及びプログラム
JP2022011034A (ja) * 2020-06-29 2022-01-17 キヤノン株式会社 データ入力支援装置、データ入力支援方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043313A (ja) 1999-07-30 2001-02-16 Toshiba Corp 文字切出し方法
JP2006172284A (ja) 2004-12-17 2006-06-29 Canon Inc 画像処理装置、画像処理方法、コンピュータプログラム
US20070263930A1 (en) 2006-05-11 2007-11-15 Fuji Xerox Co., Ltd. Character recognition processing system and computer readable medium storing program for character recognition processing

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535921A (ja) * 1991-07-26 1993-02-12 Sumitomo Metal Ind Ltd 文字照合装置及びそのための方法
JPH08272902A (ja) * 1995-04-03 1996-10-18 Fuji Electric Co Ltd 異字体異品質文字の認識方法
JP3422896B2 (ja) * 1996-05-10 2003-06-30 株式会社神戸製鋼所 画像認識方法及びその装置
JPH11232388A (ja) 1998-02-10 1999-08-27 Hitachi Ltd 文書・帳票認識システム
JP4590433B2 (ja) 2007-06-29 2010-12-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP5137759B2 (ja) * 2008-09-18 2013-02-06 キヤノン株式会社 画像処理装置
US10607381B2 (en) 2014-07-07 2020-03-31 Canon Kabushiki Kaisha Information processing apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043313A (ja) 1999-07-30 2001-02-16 Toshiba Corp 文字切出し方法
JP2006172284A (ja) 2004-12-17 2006-06-29 Canon Inc 画像処理装置、画像処理方法、コンピュータプログラム
US20070263930A1 (en) 2006-05-11 2007-11-15 Fuji Xerox Co., Ltd. Character recognition processing system and computer readable medium storing program for character recognition processing

Also Published As

Publication number Publication date
US10574839B2 (en) 2020-02-25
US20190089849A1 (en) 2019-03-21
JP2019057174A (ja) 2019-04-11

Similar Documents

Publication Publication Date Title
JP7030462B2 (ja) スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム
JP6953230B2 (ja) スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム
JP6891073B2 (ja) スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム
US10652409B2 (en) Apparatus for setting information relating to scanned image, method and storage medium
JP6968647B2 (ja) スキャン画像にファイル名を設定するための装置、その制御方法及びプログラム
US10929657B2 (en) Apparatus, method, and storage medium for setting information related to scanned image
JP7062388B2 (ja) スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム
US11144189B2 (en) Determination and relocation of movement targets based on a drag-and-drop operation of a thumbnail across document areas
US11341733B2 (en) Method and system for training and using a neural network for image-processing
US11843732B2 (en) Image processing apparatus for inputting characters using touch panel, control method thereof and storage medium
US10306085B2 (en) Information processing apparatus, control method of information processing apparatus, and recording medium
JP2016021086A (ja) 電子文書生成システム、電子文書生成装置およびプログラム
US11265431B2 (en) Image processing apparatus for inputting characters using touch panel, control method thereof and storage medium
US11393234B2 (en) Image processing system for computerizing document, control method thereof, and storage medium
US20230156138A1 (en) Information processing apparatus, method of controlling information processing apparatus, and storage medium
US11528372B2 (en) Image processing system for providing attribute information, image processing method and storage medium
JP2021026604A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2019068323A (ja) スキャン画像にファイル名を設定するための装置、その制御方法及びプログラム
JP7476557B2 (ja) 機器、処理実行システム、処理実行方法、プログラム
JP2019159420A (ja) 画像処理装置、制御方法、およびそのプログラム
JP7150967B2 (ja) スキャン画像に関連する情報を設定するための装置、方法、およびプログラム
JP2024034740A (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム
US10713413B2 (en) Image processing apparatus and recording medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200622

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220222

R151 Written notification of patent or utility model registration

Ref document number: 7030462

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151