JP5672953B2 - 画像処理装置、画像処理方法及び画像処理プログラム - Google Patents

画像処理装置、画像処理方法及び画像処理プログラム Download PDF

Info

Publication number
JP5672953B2
JP5672953B2 JP2010239704A JP2010239704A JP5672953B2 JP 5672953 B2 JP5672953 B2 JP 5672953B2 JP 2010239704 A JP2010239704 A JP 2010239704A JP 2010239704 A JP2010239704 A JP 2010239704A JP 5672953 B2 JP5672953 B2 JP 5672953B2
Authority
JP
Japan
Prior art keywords
character
image
character recognition
image processing
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010239704A
Other languages
English (en)
Other versions
JP2012093895A (ja
Inventor
修 小河原
修 小河原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2010239704A priority Critical patent/JP5672953B2/ja
Publication of JP2012093895A publication Critical patent/JP2012093895A/ja
Application granted granted Critical
Publication of JP5672953B2 publication Critical patent/JP5672953B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Character Discrimination (AREA)

Description

本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関し、特に、文字認識により生成された電子文書の利用性の向上に関する。
近年、情報の電子化が推進される傾向にあり、電子化された情報の出力に用いられるプリンタやファクシミリ及び書類の電子化に用いるスキャナ等の画像処理装置は欠かせない機器となっている。このような画像処理装置は、撮像機能、画像形成機能及び通信機能等を備えることにより、プリンタ、ファクシミリ、スキャナ、複写機として利用可能なMFP(MultiFunction Peripheral:複合機)として構成されることが多い。
このような画像処理装置のうち、書類の電子化に用いるスキャナにおいては、読み取りによって生成された画像に含まれる文字を、OCR(Optical Character Recognition)により認識して文字情報を生成することにより、画像として電子化された文書内の情報の検索を可能とすることや、コピー&ペーストや修正等の編集を可能とすることが行われている。
このような電子文書は、書類の読み取りにより生成された画像情報と、上記OCR処理により生成された文字情報とで構成される。そして、OCR処理により生成された文字情報は、画像上において文字が認識された座標に対応する位置に配置される。更に、画像上に配置される文字情報は、ユーザによって直接視認されないよう、透明のレイヤとして付加される。
このような態様により生成された電子文書を、対応するビューア等で開いて文字列の検索を行うと、ユーザの視覚上、あたかも画像に含まれる文字が検索によって抽出されたように表示される。また、画像上の文字列を選択するようにユーザがマウス操作等を行うと、透明のレイヤとして付加された文字情報が選択されることにより、ユーザの視覚上は、画像に含まれる文字が選択されたように表示され、文字情報のコピー等が可能となる。
しかしながら、OCRにおいて100%の認識率を達成することは困難であるため、上記電子文書において、画像には含まれている文字列が文字情報として認識されておらず、検索によって抽出されない場合があり得る。また、文字が誤認識された結果、選択によりコピーした文字列が、画像として表示されている文字列とは異なる場合があり得る。
このような課題は、日本語のように文字種類が多く、カタカナの“ロ”と漢字の“口”や、カタカナの“エ”と漢字の“工”等、似た形状の文字が多く存在する言語において特に顕著である。
また、OCRによる文字認識の精度は、書類上のフォント種類やフォントサイズ等の文字種類及び日本語や英語等の言語種類と、OCRアルゴリズムとの相性に左右される。例えば、ある方式のOCRアルゴリズムでは、アルファベットの認識精度が高いが、仮名や漢字の認識精度が低く、ある方式のOCRアルゴリズムでは、仮名や漢字の認識精度が高く、アルファベットの認識精度が低いということがあり得る。
従って、文字種類や言語種類に応じてOCRアルゴリズムを選択することにより、認識精度を向上することが好ましいが、複数の言語種類や文字種類によって作成された書類の場合、ページごとや単語ごとにOCRアルゴリズムを選択することは困難であった。
このようなOCRによる文字認識の精度を向上するため、複数のOCRアルゴリズムによりOCR処理を行い、複数のOCR認識結果のうちから最も確からしいものを1つ選択して認識結果とする方法が提案されている(例えば、特許文献1参照)。特許文献1に開示された技術においては、複数のOCR認識結果による多数決や言語処理による文字の補完により、複数のOCR認識結果のうちから最も確からしいものを1つ選択する。
特許文献1に開示された発明においては、複数のOCR認識結果から1つの結果を選択する際、書類の読み取りの都度、ユーザが手動で選択を行うのは現実的ではないため、上述したような多数決や言語処理により自動選択が採用されるが、正しい認識結果を選択することについて困難性がある。そのため、間違った認識結果が選択されてしまうこともあり、その場合、依然として課題は解決されない。
また、複数の認識結果のうちから正しい認識結果を選択する際の精度を向上するためには高度な処理を実行する必要があるため、処理負荷が高く、処理時間が増大する。また、上述したように似た形状の文字が多く存在する言語において、文字の形状に基づいて文字を判別することが困難であるという課題も解決することができない。
本発明は、このような課題を解決するためになされたものであり、画像に含まれる文字を認識して生成した文字情報を元の画像に重畳することにより、電子文書に検索可能性や編集可能性を持たせる場合において、検索性や編集性の向上を図ることを目的とする。
上記課題を解決するために、本発明の一態様は、画像として表示されている文字を認識して文字情報を生成する画像処理装置であって、文字が表示された画像を取得する画像取得部と、複数の異なる文字認識方式により前記取得された画像に表示されている文字を認識して文字情報を生成することにより、複数の文字認識結果を生成する文字認識部と、前記複数の文字認識結が不一致である場合に、果夫々の差異に基づき、前記複数の文字認識結果の優先順位を決定する優先順位決定部と、前記複数の文字認識結果として生成された文字列を、前記決定された優先順位に従って前記取得された画像上に透明なレイヤとして重畳する画像重畳部とを含み、前記画像重畳部は、前記複数の文字認識結果夫々における前記文字列の認識位置が不一致である場合に、前記決定された優先順位に従って前記文字列を透明なレイヤとして重畳する位置を決定することを特徴とする。
本発明によれば、画像に含まれる文字を認識して生成した文字情報を元の画像に重畳することにより、電子文書に検索可能性や編集可能性を持たせる場合において、検索性や編集性の向上を図ることができる。
本発明の実施形態に係る画像形成装置のハードウェア構成を模式的に示すブロック図である。 本発明の実施形態に係る画像形成装置の機能構成を示すブロック図である。 本発明の実施形態に係る画像処理部の機能構成を示すブロック図である。 本発明の実施形態に係る画像処理部の動作を示すフローチャートである。 本発明の実施形態に係るOCRパラメータの入力画面を示す図である。 本発明の実施形態に係る画像処理部の動作を示すフローチャートである。 本発明の実施形態に係る優先度の調整態様を示す図である。 本発明の実施形態に係る文字列の重畳位置を示す図である。 本発明の実施形態に係る文字列の透明レイヤの重畳態様を示す図である。
以下、図面を参照して、本発明の実施形態を詳細に説明する。本実施形態においては、スキャンにより読み取った書類の画像に含まれる文字を認識して文字情報を生成し、文字情報を透明のレイヤとして画像に重畳して電子文書を生成する画像処理装置を例として説明する。本実施形態に係る画像処理装置は、複数の文字認識方法により文字認識を実行して複数の文字認識結果を生成し、文字認識結果の内容に基づいて夫々の文字認識結果の優先順位を決定し、決定した優先順位の順に全ての文字認識結果を重畳する機能を特徴的な機能として含む。
図1は、本実施形態に係る画像処理装置のハードウェア構成を示すブロック図である。本実施形態に係る画像処理装置1は、撮像機能、画像形成機能及び通信機能等を備えることにより、プリンタ、ファクシミリ、スキャナ、複写機として利用可能な複合機である。尚、画像処理装置1は、図1に示すハードウェア構成に加えて、スキャナ、プリンタ等を実現するためのエンジンを備える。
図1に示すように、本実施形態に係る画像処理装置1は、一般的なサーバやPC等と同様の構成を含む。即ち、本実施形態に係る画像処理装置1は、CPU(Central Processing Unit)10、RAM(Random Access Memory)20、ROM(Read Only Memory)30、HDD(Hard Disk Drive)40及びI/F50がバス80を介して接続されている。また、I/F50にはLCD(Liquid Crystal Display)60及び操作部70が接続されている。
CPU10は演算手段であり、画像処理装置1全体の動作を制御する。RAM20は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU10が情報を処理する際の作業領域として用いられる。ROM30は、読み出し専用の不揮発性記憶媒体であり、ファームウェア等のプログラムが格納されている。HDD40は、情報の読み書きが可能な不揮発性の記憶媒体であり、OS(Operating System)や各種の制御プログラム、アプリケーション・プログラム等が格納される。
I/F50は、バス80と各種のハードウェアやネットワーク等を接続し制御する。LCD60は、ユーザが画像処理装置1の状態を確認するための視覚的ユーザインタフェースである。操作部70は、キーボードやマウス等、ユーザが画像処理装置1に情報を入力するためのユーザインタフェースである。
このようなハードウェア構成において、ROM30やHDD40若しくは図示しない光学ディスク等の記憶媒体に格納されたプログラムがRAM20に読み出され、それらのプログラムに従ってCPU10が演算を行うことにより、ソフトウェア制御部が構成される。このようにして構成されたソフトウェア制御部と、ハードウェアとの組み合わせによって、本実施形態に係る画像処理装置1の機能を実現する機能ブロックが構成される。
次に、本実施形態に係る画像処理装置1の機能構成について、図2を参照して説明する。図2は、本実施形態に係る画像処理装置1の機能構成を示すブロック図である。図2に示すように、本実施形態に係る画像処理装置1は、コントローラ100、ADF(Auto Documennt Feeder:原稿自動搬送装置)101、スキャナユニット102、排紙トレイ103、ディスプレイパネル104、給紙テーブル105、プリントエンジン106、排紙トレイ107及びネットワークI/F108を有する。
また、コントローラ100は、主制御部111、エンジン制御部112、入出力制御部113、画像処理部114及び操作表示制御部115を含む。図2に示すように、本実施形態に係る画像処理装置1は、スキャナユニット102、プリントエンジン106を有する複合機として構成されている。尚、図2においては、電気的接続を実線の矢印で示しており、用紙若しくは文書束の流れを破線の矢印で示している。
ディスプレイパネル104は、画像処理装置1の状態を視覚的に表示する出力インタフェースであると共に、タッチパネルとしてユーザが画像処理装置1を直接操作し、若しくは画像処理装置1に対して情報を入力する際の入力インタフェース(操作部)でもある。ディスプレイパネル104は、図2に示すLCD60及び操作部70によって実現される。
ネットワークI/F108は、画像処理装置1がネットワークを介して機器と通信するためのインタフェースであり、Ethernet(登録商標)やUSBインタフェースが用いられる。ネットワークI/F108は、図2に示すI/F50によって実現される。
コントローラ100は、ソフトウェアとハードウェアとの組み合わせによって構成される。具体的には、ROM30や不揮発性メモリ並びにHDD40や光学ディスク等の不揮発性記憶媒体に格納されたプログラムが、RAM20等の揮発性メモリ(以下、メモリ)にロードされ、それらのプログラムに従ってCPU10が演算を行うことにより構成されるソフトウェア制御部と集積回路などのハードウェアとによってコントローラ100が構成される。コントローラ100は、画像処理装置1全体を制御する制御部として機能する。
主制御部110は、コントローラ100に含まれる各部を制御する役割を担い、コントローラ100の各部に命令を与える。エンジン制御部120は、プリントエンジン106やスキャナユニット102等を制御若しくは駆動する駆動手段としての役割を担う。画像処理部130は、主制御部110の制御に従い、印刷出力すべき画像情報に基づいて描画情報を生成する。この描画情報とは、画像形成部であるプリントエンジン106が画像形成動作において形成すべき画像を描画するための情報である。
また、画像処理部130は、スキャナユニット102から入力される撮像データを処理し、画像データを生成する。この画像データとは、スキャナ動作の結果物として画像処理装置1の記憶領域に格納される情報である。更に、画像処理部130は、本実施形態の要旨に係る機能として、上記生成した画像データにおいて画像として含まれる文字を認識し、文字情報を生成するOCR(Optical Charatcer Recognition)機能を含む。このOCR機能については後に詳述する。
操作表示制御部140は、ディスプレイパネル104に情報表示を行い若しくはディスプレイパネル104を介して入力された情報を主制御部110に通知する。入出力制御部150は、ネットワークI/F108を介して入力される情報を主制御部110に入力する。また、主制御部110は、入出力制御部150を制御し、ネットワークI/F108及びネットワークを介してクライアント端末2にアクセスする。
画像処理装置1がプリンタとして動作する場合は、まず、入出力制御部150がネットワークI/F108を介して印刷ジョブを受信する。入出力制御部150は、受信した印刷ジョブを主制御部110に転送する。主制御部110は、印刷ジョブを受信すると、画像処理部130を制御して印刷ジョブに含まれる文書情報若しくは画像情報に基づいて描画情報を生成させる。
画像処理部130は、描画情報を生成すると、生成した描画情報をHDD40や図示しない不揮発性メモリ等に記憶させる。エンジン制御部120は、上記記憶された描画情報を読み出してプリントエンジン106に入力し、給紙テーブル105から搬送される用紙に対して画像形成を実行させる。プリントエンジン106の具体的態様としては、インクジェット方式による画像形成機構や電子写真方式による画像形成機構等を用いることが可能である。プリントエンジン106によって画像形成が施された文書は排紙トレイ107に排紙される。
画像処理装置1がスキャナとして動作する場合は、ユーザによるディスプレイパネル104の操作若しくはネットワークI/F108を介して外部の機器から入力されるスキャン実行指示に応じて、操作表示制御部115若しくは入出力制御部113が主制御部111にスキャン実行信号を転送する。主制御部111は、受信したスキャン実行信号に基づき、エンジン制御部112を制御する。
エンジン制御部112は、ADF101を駆動し、ADF101にセットされた撮像対象原稿をスキャナユニット102に搬送する。また、エンジン制御部112は、スキャナユニット102を駆動し、ADF101から搬送される原稿を撮像する。また、ADF101に原稿がセットされておらず、スキャナユニット102に直接原稿がセットされた場合、スキャナユニット102は、エンジン制御部112の制御に従い、セットされた原稿を撮像する。即ち、スキャナユニット102が撮像部として動作する。
撮像動作においては、スキャナユニット102に含まれるCCD等の撮像素子が原稿を光学的に走査し、光学情報に基づいて生成された撮像情報が生成される。エンジン制御部112は、スキャナユニット102が生成した撮像情報を画像処理部114に転送する。画像処理部114は、主制御部111の制御に従い、エンジン制御部112から受信した撮像情報に基づき画像情報を生成する。画像処理部114が生成した画像情報はHDD40等の画像処理装置1に装着された記憶媒体に保存される。
画像処理部114によって生成された画像情報は、ユーザの指示に応じてそのままHDD40等に格納され若しくは入出力制御部113及びネットワークI/F108を介して文書管理サーバ2等の外部の装置に送信される。また、画像処理装置1が複写機として動作する場合は、エンジン制御部112がスキャナユニット102から受信した撮像情報若しくは画像処理部114が生成した画像情報に基づき、画像処理部114が描画情報を生成する。その描画情報に基づいてプリンタ動作の場合と同様に、エンジン制御部112がプリントエンジン106を駆動する。
このような画像処理装置1において、上述したように画像処理部114によるOCR機能が本実施形態に係る要旨の1つである。以下、本実施形態に係る画像処理部114のOCR機能について説明する。図3は、本実施形態に係る画像処理部114の機能のうち、OCRに関する機能の構成を示すブロック図である。
図3に示すように、本実施形態に係る画像処理部114は、情報取得部141、OCR制御部142、第一OCR処理部143、第二OCR処理部144、第三OCR処理部145、第四OCR処理部146、OCR結果順序判定部147、文書生成部148及び文書出力部149を含む。図3に示すように、本実施形態に係る画像処理部114は、夫々異なるアルゴリズムに従って文字認識を行う複数のOCR処理部を含み、夫々のOCR結果を全て画像に重畳することが特徴の1つである。
情報取得部141は、スキャンの実行に応じて画像処理部114が生成した画像情報や、OCRを伴うスキャンの実行に際して、ユーザによってディスプレイパネル104を介して入力されたパラメータ等の情報を取得する。OCR制御部142は、ユーザによってディスプレイパネル104を介して入力されたパラメータに基づき、複数のOCD処理部によるOCR処理の実行を制御する。
第一OCR処理部143〜第四OCR処理部146は、夫々異なったOCRアルゴリズムにより文字認識を実行する。OCR結果順序判定部147は、第一OCR処理部143〜第四OCR処理部146によるOCR処理の結果に基づき、夫々の文字認識結果の優先順位を判定する。このOCR結果順序判定部147による処理が、本実施形態に係る要旨の1つである。
文書生成部148は、OCR結果順序判定部147による判定結果に基づき、元の画像にOCRによって生成された文字情報の透明レイヤを重畳して電子文書を生成する。文書出力部149は、文書生成部148によって生成された電子文書を出力する。
次に、本実施形態に係る画像処理装置1において、OCRを伴うスキャンが実行される場合の動作について、図4のフローチャートを参照して説明する。図4に示すように、OCRを伴うスキャンが実行される場合、まず、ユーザがディスプレイパネル104を介して、OCR処理についてのパラメータ等と共にスキャンの実行指示を入力する。これにより、操作表示制御部115、主制御部111を介して、画像処理部114の情報取得部141がOCRパラメータ等の操作情報を取得する(S401)。
図5に、ユーザがOCR処理についてのパラメータを入力するための画面の例を示す。図5に示すように、OCRパラメータ入力画面において、ユーザは、OCRの回数を入力、若しくは選択すると共に、実行するOCR方式を選択し、選択したOCR方式の優先順位を入力する。これらの情報がディスプレイパネル104を介して操作表制御部115に入力され、主制御部114によって画像処理部114に入力される。
情報取得部141が操作情報を取得すると、OCR制御部142は、それらの情報に基づき、OCR回数、方式及び優先度を設定する(S402)。そして、スキャンの実行指示に応じてスキャンが実行され、画像処理部114に画像情報が入力されると、情報取得部141がその画像情報を取得する(S403)。即ち、S403において、情報取得部141が画像取得部として機能する。情報取得部141が画像情報を取得すると、OCR制御部142は、選択されたOCR方式に対応するOCR処理部に対してOCRパラメータを設定する(S404)と共に、そのOCR方式に応じてOCR対象の画像を加工して(S405)入力し、OCR処理を実行させる(S406)。ここでは、OCR制御部142及び第一OCR処理部143〜第四OCR処理部146が、文字認識部として機能する。
OCR制御部142は、設定されたOCR回数分S404〜S406の処理を繰り返し(S407/NO)、設定されたOCR回数分、即ち、指定された全てのOCR方式についてOCR処理が完了すると(S407/YES)、OCR結果順序判定部147が、全てのOCR結果に基づいて夫々のOCR方式による文字認識結果の優先度を調整する(S408)。即ち、OCR結果順序判定部147が、優先順位決定部として機能する。
ここで、S408の処理の詳細について、図6を参照して説明する。図6に示すように、OCR結果順序判定部147は、OCR結果の優先順位調整動作において、夫々のOCR処理部によって生成されたOCR処理結果から1つの処理結果を取得し(S601)、OCRによって認識された文字列の先頭から順に単語を1つ選択する(S602)。
OCR結果順序判定部147は、全方式によるOCR結果について1つずつ単語を取得するまでS601、S602の処理を繰り返し(S603/NO)、全方式によるOCR結果について1つずつ単語を取得すると(S603/YES)、夫々の単語の文字列が一致するか否か判断する(S604)。S604の判断により、全単語の文字列が一致した場合(S604/YES)、その単語について1つのテキストレイヤを作成する(S605)。
他方、全単語の文字列が一致しなかった場合(S604/NO)、OCR結果順序判定部147は、異なる単語毎に優先順位を調整する(S609)。S609の処理について、図7(a)〜(c)を参照して説明する。図7(a)に示すように、4つのOCR方式夫々の文字認識結果が、“カエル”(全て片仮名)、“加二ノレ”(漢字の“加”、漢字の“二”に片仮名の“ノレ”)、“カエル”(全て片仮名)、“力工ル”(漢字の“力”、漢字の“工”に片仮名の“ル”)だった場合を考える。
図7(a)に示すように、文字認識の結果としては、図5に示す画面において入力されたOCR方式の優先順位に加えて、夫々のOCR方式が文字認識の結果の確かさを示す数値として出力した確度の情報が含まれる。即ち、夫々のOCR処理部が、文字認識結果の確かさを示す情報を文字認識結果と共に生成する。OCR結果順序判定部147は、図7(b)に示すように、夫々の認識結果について優先度を+若しくは−する。図7(b)の例においては、優先順位1と優先順位3の文字認識結果が同一であるため、OCR結果判定部147は、優先順位1と優先順位3の文字認識結果の優先度を+する。
また、優先順位2の文字認識結果の確度が低いため、OCR結果順序判定部147は、優先順位2の文字認識結果の優先度を−する。図7(b)の例の他、例えば、4つの文字認識結果において文字列が異なる結果が1つである場合、その文字認識結果の優先度を−する態様が考えられる。
図7(b)に示すように認識結果の優先度を調整すると、OCR結果順序判定部147は、図7(c)に示すように、優先順位1と優先順位3の文字認識結果が同一であるため、優先順位の高い方の文字認識結果を採用する。また、図7(c)に示すように、OCR結果順序判定部147は、S609による優先度の調整結果に基づき、優先順位を入れ替える。
S609の処理により優先度を調整して優先順位を入れ替えると、OCR結果順序判定部147は、文字認識結果のうち異なる文字列毎にテキストレイヤを生成する(S610)。S610の処理において、OCR結果順序判定部147が生成するテキストレイヤは、図7(c)に示すようなテキストのレイヤであるが、その色は透明である。これにより、スキャンによって生成された画像の上にテキストレイヤを重畳する際、ユーザには通常の閲覧態様では見えないようにすることができる。
S605またはS610の処理が完了すると、OCR結果順序判定部147は、夫々の文字認識結果の文字列が認識された位置、即ち画像情報の座標が同一か否か判断する(S606)。全ての文字列の位置が同一であった場合(S606/YES)、OCR結果順序判定部147は、その位置をテキストレイヤの位置として決定し、図8に示すように、各文字列の優先順位に従って第1レイヤ、第2レイヤ、第3レイヤの順にテキストレイヤを格納する(S607)。尚、S605の処理を経た場合、生成されたテキストレイヤは1つのみであるため、第1レイヤのみにテキストレイヤが格納される。
他方、全ての文字列の位置が同一ではなかった場合(S606/NO)、OCR結果順序判定部147は、最も優先順位の高い文字列の認識位置をテキストレイヤの位置として決定し、図8に示すように各文字列の優先順位に従って第1レイヤ、第2レイヤ、第3レイヤの順にテキストレイヤを格納する(S611)。
OCR結果順序判定部147は、文字認識結果に含まれる全単語についてS601からの処理が完了するまで繰り返し(S608/NO)、文字認識結果に含まれる全単語についてS601からの処理が完了したら(S608/YES)、処理を終了する。このような処理により、本実施形態に係るOCR結果の順序調整処理が完了する。
図4のS408において、OCR結果順序調整処理が完了すると、OCR結果順序判定部147は、図6の処理により優先順位に応じてテキストレイヤを格納した夫々のレイヤを、スキャンにより生成された元の画像に重畳して電子文書を作成する(S409)。即ち、文書生成部148が、画像重畳部として機能する。画像処理部114は、S403からS409の処理を、読み取り対象としてセットされた全ての原稿について繰り返し(S410/NO)、全ての原稿についてS403〜S409の処理が完了したら(S410/YES)、生成した電子文書を出力して(S411)、処理を終了する。このような処理により、OCRを伴うスキャンが実行される場合における、画像処理部114の動作が完了する。
図9に、図4のS409の処理により生成された電子文書のレイヤ構造を示す。図9に示すように、本実施形態において生成された電子文書は、スキャンにより生成された元の画像の上に、図6の処理によって生成された夫々のレイヤが重畳されて構成されている。尚、図3において説明したように、本実施形態に係る画像処理部114は、夫々異なる方式によってOCRを実行する第一OCR処理部143〜第四OCR処理部146を含むため、最大で4つのレイヤが生成される可能性がある。従って、元の画像の上に重畳されるレイヤは、第1レイヤから第4レイヤまでの4つのレイヤである。
このように、本実施形態に係る画像処理部114は、スキャンに伴ってOCRを実行して電子文書を生成する際、異なる複数の方式によりOCRを実行し、夫々の実行結果における文字列が異なる場合、異なる文字列を全て保存して別レイヤで元の画像に重畳する。これにより、異なる複数の文字列が認識された場合に、元の画像に重畳するための文字列としていずれか1つを選択するための処理が不要となり、処理を低減することが出来る。
また、元の画像に重畳するための文字列としていずれか1つを選択した場合、正確に認識された文字列ではなく、誤認識された文字列が選択されてしまう場合があり得る。そのような場合、ユーザが電子文書を閲覧用のアプリケーション等で閲覧して文字列を検索しても、本来抽出されるはずの文字列が抽出されないこととなる。これに対して、本実施形態の場合、正確認に認識された文字列も誤認識された文字列も、異なる認識結果を全て保持するため、上記課題を解決することができる。
また、似た形状の文字が多く存在する言語において、文字の形状に基づいて文字を判別することが困難であるという場合においても、より多くの文字認識方式による認識結果を全て画像上に重畳することにより、正しい認識結果を得る確率を向上することができる。
他方、図9に示すように、認識結果として異なる文字列を異なるレイヤに格納した場合、正確に認識された文字列が下位のレイヤに格納されていると、ユーザが文字列をコピー&ペーストしたい場合に不都合が生じる。即ち、図9のようなレイヤ構造の場合、選択してコピーされる文字列は、通常の閲覧用アプリケーションでは、先頭のレイヤのみである。従って、正確に認識された文字列が下位のレイヤに格納されていると、正確に認識された文字列をコピーすることができない。
これに対して、本実施形態においては、OCR結果順序判定部147が、図6において説明したような処理により、夫々異なる文字認識結果の優先度を調整し、優先度の高い文字列を上位のレイヤに格納するため、誤認識された文字列が第1レイヤに、正確に認識された文字列が下位のレイヤに格納されるような状態を防ぎ、正確に認識された文字列がコピーされるようにすることができる。
1 画像形成装置
10 CPU
20 RAM
30 ROM
40 HDD
50 I/F
60 LCD
70 操作部
80 バス
100 コントローラ
101 ADF
102 スキャナユニット
103 排紙トレイ
104 ディスプレイパネル
105 給紙テーブル
106 プリントエンジン
107 排紙トレイ
108 ネットワークI/F
110 主制御部
112 エンジン制御部
113 入出力制御部
114 画像処理部
115 操作表示制御部
141 情報取得部
142 OCR制御部
143 第一OCR処理部
144 第二OCR処理部
145 第三OCR処理部
146 第四OCR処理部
147 OCR結果順序判定部
148 文書生成部
149 文書出力部
特開2001−22883号公報

Claims (9)

  1. 画像として表示されている文字を認識して文字情報を生成する画像処理装置であって、
    文字が表示された画像を取得する画像取得部と、
    複数の異なる文字認識方式により前記取得された画像に表示されている文字を認識して文字情報を生成することにより、複数の文字認識結果を生成する文字認識部と、
    前記複数の文字認識結果が不一致である場合に、夫々の差異に基づき、前記複数の文字認識結果の優先順位を調整して決定する優先順位決定部と、
    前記複数の文字認識結果として生成された文字列を、前記決定された優先順位に従って前記取得された画像上に透明なレイヤとして重畳する画像重畳部とを含み、
    前記画像重畳部は、前記複数の文字認識結果夫々における前記文字列の認識位置が不一致である場合に、前記決定された優先順位に従って前記文字列を透明なレイヤとして重畳する位置を決定することを特徴とする画像処理装置。
  2. 前記優先順位決定部は、同一の認識対象に基づいて前記複数の文字認識方式により夫々認識された複数の文字列を取得し、前記複数の文字列のうち異なる文字列毎に優先順位を決定することを特徴とする請求項1に記載の画像処理装置。
  3. 前記優先順位決定部は、前記複数の文字列のうち、他に同一の文字列がある文字認識結果の優先度を上げることを特徴とする請求項2に記載の画像処理装置。
  4. 前記優先順位決定部は、前記複数の文字列のうち、他に同一の文字列が無い文字認識結果の優先度を下げることを特徴とする請求項2または3に記載の画像処理装置。
  5. 前記画像重畳部は、同一の認識対象に基づく文字認識結果として生成された複数の文字列夫々の前記画像上における認識位置のうち、優先順位が最も高い文字列の前記画像上における認識位置に、前記複数の文字列を重畳することを特徴とする請求項1乃至4いずれかに記載の画像処理装置。
  6. 前記複数の異なる文字認識方式夫々の優先順位を指定する優先順位指定情報をユーザによる操作に応じて取得する操作情報取得部を更に含み、
    前記優先順位決定部は、前記複数の文字認識結果夫々の差異に応じて前記取得された優先順位指定情報によって指定される優先順位を調整することにより、前記複数の文字認識結果の優先順位を決定することを特徴とする請求項1乃至5いずれかに記載の画像処理装置。
  7. 前記文字認識部は、前記文字認識結果の確かさを示す情報を前記文字認識結果と共に生成し、
    前記優先順位決定部は、前記文字認識結果の確かさを示す情報に基づいて、前記文字認識結果の優先度を調整することを特徴とする請求項1乃至6いずれかに記載の画像処理装置。
  8. 画像として表示されている文字を認識して文字情報を生成する画像処理方法であって、
    文字が表示された画像を取得して記憶媒体に記憶し、
    複数の異なる文字認識方式により前記取得された画像に表示されている文字を認識して文字情報を生成して記憶媒体に記憶することにより、複数の文字認識結果を生成し、
    前記複数の文字認識結果が不一致である場合に、夫々の差異に基づき、前記複数の文字認識結果の優先順位を調整して決定して記憶媒体に記憶し、
    前記複数の文字認識結果として生成された文字列を、前記決定された優先順位に従って前記取得された画像上に透明なレイヤとして重畳して記憶媒体に記憶し、
    前記複数の文字認識結果夫々における前記文字列の認識位置が不一致である場合に、前記決定された優先順位に従って前記文字列を透明なレイヤとして重畳する位置を決定することを特徴とする画像処理方法。
  9. 画像として表示されている文字を認識して文字情報を生成する画像処理プログラムであって、
    文字が表示された画像を取得して記憶媒体に記憶するステップと、
    複数の異なる文字認識方式により前記取得された画像に表示されている文字を認識して文字情報を生成して記憶媒体に記憶することにより、複数の文字認識結果を生成するステップと、
    前記複数の文字認識結果が不一致である場合に、夫々の差異に基づき、前記複数の文字認識結果の優先順位を調整して決定して記憶媒体に記憶するステップと、
    前記複数の文字認識結果として生成された文字列を、前記決定された優先順位に従って前記取得された画像上に透明なレイヤとして重畳して記憶媒体に記憶するステップとと、
    前記複数の文字認識結果夫々における前記文字列の認識位置が不一致である場合に、前記決定された優先順位に従って前記文字列を透明なレイヤとして重畳する位置を決定するステップとを情報処理装置に実行させることを特徴とする画像処理プログラム。
JP2010239704A 2010-10-26 2010-10-26 画像処理装置、画像処理方法及び画像処理プログラム Expired - Fee Related JP5672953B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010239704A JP5672953B2 (ja) 2010-10-26 2010-10-26 画像処理装置、画像処理方法及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010239704A JP5672953B2 (ja) 2010-10-26 2010-10-26 画像処理装置、画像処理方法及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2012093895A JP2012093895A (ja) 2012-05-17
JP5672953B2 true JP5672953B2 (ja) 2015-02-18

Family

ID=46387164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010239704A Expired - Fee Related JP5672953B2 (ja) 2010-10-26 2010-10-26 画像処理装置、画像処理方法及び画像処理プログラム

Country Status (1)

Country Link
JP (1) JP5672953B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6236973B2 (ja) 2013-08-09 2017-11-29 株式会社リコー 表示システム、情報端末、表示装置、再生制御プログラム、再生プログラム及び再生制御方法
JP5660241B1 (ja) 2013-09-10 2015-01-28 株式会社リコー 通信システム、通信制御システム、通信装置、通信方法及び接続プログラム
US10359842B2 (en) 2014-09-16 2019-07-23 Ricoh Company, Limited Information processing system and information processing method
JP6484974B2 (ja) * 2014-09-24 2019-03-20 富士ゼロックス株式会社 情報処理装置、情報処理システム及びプログラム
JP6474504B1 (ja) * 2018-01-23 2019-02-27 株式会社野村総合研究所 手書文字認識システム
CN112784825B (zh) * 2019-11-01 2024-04-30 株式会社理光 图片中文字的识别方法、关键字检索方法、装置及设备
JP7404943B2 (ja) * 2020-03-10 2023-12-26 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN113313114B (zh) * 2021-06-11 2023-06-30 北京百度网讯科技有限公司 证件信息获取方法、装置、设备以及存储介质
CN114938433B (zh) * 2022-07-25 2022-10-11 四川赛狄信息技术股份公司 基于fpga的视频图像处理方法、系统、终端及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2553608B2 (ja) * 1988-01-04 1996-11-13 住友電気工業 株式会社 光学文字読取装置
JPH07239914A (ja) * 1994-02-28 1995-09-12 Nippon Steel Corp 文字認識装置
JP3095069B2 (ja) * 1998-03-26 2000-10-03 日本電気株式会社 文字認識装置、学習方法および文字認識プログラムを記録した記録媒体
JP4320124B2 (ja) * 2001-03-05 2009-08-26 株式会社リコー パターン認識方法、装置及びプログラム
JP2006031163A (ja) * 2004-07-13 2006-02-02 Ricoh Co Ltd 文字認識結果処理装置、文字認識結果処理方法、文字認識結果処理プログラムおよびこのプログラムが格納された記録媒体
JP5090983B2 (ja) * 2008-03-25 2012-12-05 シャープ株式会社 情報処理装置、情報処理方法、情報処理プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体
JP5353325B2 (ja) * 2009-03-10 2013-11-27 株式会社リコー 文書データ生成装置と文書データ生成方法

Also Published As

Publication number Publication date
JP2012093895A (ja) 2012-05-17

Similar Documents

Publication Publication Date Title
JP5672953B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
US11386046B2 (en) Apparatus for setting file name for scan image, method of controlling same, and storage medium
US8839104B2 (en) Adjusting an image using a print preview of the image on an image forming apparatus
KR20190021161A (ko) 스캔 화상에 대해 파일명 등을 설정하기 위한 장치, 그 제어 방법 및 저장 매체
JP6427964B2 (ja) 画像処理システム、情報処理装置及びプログラム
US20200202155A1 (en) Method for image processing, and image-processing system
US10810383B2 (en) Image processing apparatus for comparing documents in different languages
JP5594269B2 (ja) ファイル名作成装置、画像形成装置、およびファイル名作成プログラム
JP2016015115A (ja) 情報処理装置、情報処理方法、及び記録媒体
JP4808661B2 (ja) 画像処理装置、プログラムおよび画像加工方法
CN111580758B (zh) 图像形成装置
JP5939043B2 (ja) 画像処理装置の制御システム、制御プログラム及び制御方法
US10902223B2 (en) Image processing apparatus
US20170346961A1 (en) Modified document generation
US11849086B2 (en) Image processing apparatus capable of extracting portion of document image specified by preset index and subjecting character string in extracted portion to processing associated with index
JP6119427B2 (ja) 画像処理装置、画像読取装置、画像処理装置の制御方法、及び画像処理装置の制御プログラム
US11032439B2 (en) Image processing apparatus
JP5380521B2 (ja) 操作装置及び画像形成装置
JP2016184785A (ja) 画像処理装置及び画像処理方法
JP2024060455A (ja) 画像読取装置及び画像形成装置
JP4725663B2 (ja) 画像出力プログラム、画像出力システム及び画像出力装置
JP5084679B2 (ja) 画像処理装置、プログラム、および画像処理方法
JP2010165217A (ja) 文書情報処理装置、文書情報処理方法、制御プログラム及び記録媒体
JP2011135455A (ja) 画像形成装置
JP2012186716A (ja) ファイル名作成装置およびファイル名作成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140818

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141215

R151 Written notification of patent or utility model registration

Ref document number: 5672953

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees