JP2007086954A - 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム - Google Patents

文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2007086954A
JP2007086954A JP2005273253A JP2005273253A JP2007086954A JP 2007086954 A JP2007086954 A JP 2007086954A JP 2005273253 A JP2005273253 A JP 2005273253A JP 2005273253 A JP2005273253 A JP 2005273253A JP 2007086954 A JP2007086954 A JP 2007086954A
Authority
JP
Japan
Prior art keywords
character recognition
unit
recognition processing
probability
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005273253A
Other languages
English (en)
Inventor
Etsuko Ito
悦子 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005273253A priority Critical patent/JP2007086954A/ja
Publication of JP2007086954A publication Critical patent/JP2007086954A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 文字認識の精度を向上させることを可能とした装置、および方法を提供する。
【解決手段】 文字認識処理手段(OCR)において、入力画像データに基づく文字認識処理を実行し、実行された文字認識処理の確からしさを算出して、算出した文字認識確からしさを、予め設定した閾値と比較する評価処理を行い、文字認識確からしさが閾値より低い場合、異なる文字認識処理手法を文字認識処理手段に実行させる。本構成により、より高い確からしさを持つ情報を文字認識処理結果として出力することが可能となり、ユーザによる修正処理対象文字の絶対量の削減が可能であり、高精度な文字認識処理が実現される。
【選択図】 図1

Description

本発明は、文字認識処理装置、および文字認識処理方法、および文字認識処理方法、並びにコンピュータ・プログラムに関する。さらに詳細には、OCR(Optical Caracter Recognition)等の文書画像データに基づく文字認識処理の精度を向上させた文字認識処理装置、および文字認識処理方法、および文字認識処理方法、並びにコンピュータ・プログラムに関する。
文書原稿を電子保存する場合、原稿を画像データ化した状態で保持しておくことが一般的である。特にデータの再利用性の観点からみると、テキスト領域については、文字認識処理(OCR:Optical Caracter Recognition)によって、コード化して保存することが好ましい。
OCRによる文字認識率は電子文書の信頼度に大きく関わってくる。しかしながらOCRの認識率、文字判定確からしさは100%ではなく、多くの場合、文書を電子化して保存する場合には、OCRにおいて誤認識された文字の修正処理が必要となる。
OCRにおいて認識された文字については、正しく認識されたと判定された文字データと、正しく認識されていない可能性の高い文字データとが混在する。これら文字認識の確からしさを、各認識文字について判別し、不確かな文字のみについて修正を促すことで、修正を行なうユーザの負担を軽減させようという技術が提案されている。例えば、特許文献1には、OCRによって読み取られた文字毎に文字認識の確からしさを判定し、確からしさが低いと判定された文字を誤り候補として抽出し、これらの誤り候補についてスペースまたは特定文字などで置き換えるといった構成を開示している。
しかし、このような文字認識の確からしさについての情報を、修正処理を行なうユーザに提示しても、結果としては修正処理を行うのはユーザであり、修正の絶対量が削減されることにはつながらない。
特開2003−203204号公報
本発明は、上述の問題点に鑑みてなされたものであり、文書データの文字認識処理(OCR)を実行する構成において、文字認識率としての確からしさに応じて、文字認識処理の態様を変更することで文字認識の精度を向上させ、ユーザによる修正が必要なデータの絶対量を削減し、ユーザ負担を軽減させることを可能とした高精度な文字認識処理を実現する文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
入力画像データに基づく文字認識処理を実行する文字認識処理手段と、
前記文字認識処理手段において実行可能な異なる複数の文字認識処理手法の実行情報を格納した記憶部と、
前記文字認識処理手段において実行された文字認識処理の確からしさを算出する文字認識確からしさ算出部と、
前記文字認識確からしさ算出部の算出した文字認識確からしさを、予め設定した閾値との比較によって評価する文字認識確からしさ評価部と、
前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、実行済みの手法と異なる手法の実行情報を前記記憶部から取得して文字認識処理手段に実行させる処理変更部と、
を有することを特徴とする文字認識処理装置にある。
さらに、本発明の文字認識処理装置の一実施例において、前記記憶部は、前記文字認識処理手段において実行可能な複数の異なる二値化処理手法の実行情報を格納した構成であり、前記処理変更部は、前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、実行済みの二値化処理手法と異なる二値化処理手法の実行情報を前記記憶部から取得して文字認識処理手段に実行させる構成であることを特徴とする。
さらに、本発明の文字認識処理装置の一実施例において、前記記憶部は、前記文字認識処理手段において実行可能な複数の異なる二値化閾値を持つ二値化処理手法の実行情報を格納した構成であり、前記処理変更部は、前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、実行済みの二値化処理に適用した二値化閾値と異なる二値化閾値を設定した二値化処理手法の実行情報を前記記憶部から取得して文字認識処理手段に実行させる構成であることを特徴とする。
さらに、本発明の文字認識処理装置の一実施例において、前記記憶部は、前記文字認識処理手段において実行可能な固定閾値二値化処理手法と、浮動二値化処理手法の実行情報を格納した構成であり、前記処理変更部は、前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、実行済みの二値化処理手法と異なる、固定閾値二値化処理手法または浮動二値化処理手法のいずれかの実行情報を前記記憶部から取得して文字認識処理手段に実行させる構成であることを特徴とする。
さらに、本発明の文字認識処理装置の一実施例において、前記記憶部は、前記文字認識処理手段において実行可能な複数のウィンドウサイズを適用した異なる浮動二値化処理手法の実行情報を格納した構成であり、前記処理変更部は、前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、実行済みの浮動二値化処理に適用したウィンドウサイズと異なるウィンドウサイズを設定した浮動二値化処理手法の実行情報を前記記憶部から取得して文字認識処理手段に実行させる構成であることを特徴とする。
さらに、本発明の文字認識処理装置の一実施例において、前記記憶部は、前記文字認識処理手段において実行可能な複数の異なるOCRエンジンの実行情報を格納した構成であり、前記処理変更部は、前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、実行済みのOCRエンジンと異なるOCRエンジンの実行情報を前記記憶部から取得して文字認識処理手段に実行させる構成であることを特徴とする。
さらに、本発明の文字認識処理装置の一実施例において、前記記憶部は、前記文字認識処理手段において実行可能な複数の異なるOCRエンジンに関する情報として処理実行順番を規定したOCRエンジンリストを格納した構成であり、前記処理変更部は、前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、前記OCRエンジンリストの上位から順に、前記文字認識処理手段に実行させる構成であることを特徴とする。
さらに、本発明の文字認識処理装置の一実施例において、前記記憶部は、前記文字認識処理手段において実行可能な複数の異なるOCRエンジンに関する情報として、処理対象文書カテゴリに応じて分類したOCRエンジンリストを格納した構成であり、前記処理変更部は、OCR処理対象文書の解析に基づいて処理対象文書のカテゴリを特定し、前記記憶部から、該特定カテゴリに対応して分類されたOCRエンジンを優先的に選択して、前記文字認識処理手段において実行させる構成であることを特徴とする。
さらに、本発明の文字認識処理装置の一実施例において、前記文字認識処理手段は、複数の異なる文字認識処理手法を並列に実行する構成であり、前記文字認識確からしさ算出部は、前記文字認識処理手段において実行された複数の文字認識処理の確からしさを算出し、前記文字認識確からしさ評価部は、前記文字認識確からしさ算出部の算出した複数の文字認識確からしさ中、最も高い確からしさを持つ処理結果を出力対象として選択する構成であることを特徴とする。
さらに、本発明の文字認識処理装置の一実施例において、文字認識確からしさ算出部は、前記文字認識処理手段において実行された文字認識処理の確からしさを、一定のデータ領域単位で算出する構成であり、前記文字認識確からしさ評価部は、前記データ領域単位で、前記文字認識確からしさ算出部の算出した文字認識確からしさを、予め設定した閾値との比較によって評価する構成であり、前記処理変更部は、前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低いデータ領域についてのみ、実行済みの手法と異なる手法の実行情報を前記記憶部から取得して文字認識処理手段に実行させる構成であることを特徴とする。
さらに、本発明の文字認識処理装置の一実施例において、前記データ領域は、前記文字認識処理手段において設定されるレイアウト区分領域であることを特徴とする。
さらに、本発明の文字認識処理装置の一実施例において、前記文字認識確からしさ算出部は、前記レイアウト区分領域毎に文字認識確からしさの平均値を算出し、前記文字認識確からしさ評価部は、前記平均値と前記閾値との比較に基づく評価処理を実行する構成であることを特徴とする。
さらに、本発明の文字認識処理装置の一実施例において、前記文字認識確からしさ算出部は、前記レイアウト区分領域毎に文字認識確からしさの平均値と分散値を算出し、前記文字認識確からしさ評価部は、前記平均値と分散値とに基づく評価処理を実行する構成であることを特徴とする。
さらに、本発明の文字認識処理装置の一実施例において、前記データ領域は、一文字単位、またはページ単位であることを特徴とする。
さらに、本発明の第2の側面は、
文字認識処理手段において、入力画像データに基づく文字認識処理を実行する文字認識処理ステップと、
前記文字認識処理ステップにおいて実行された文字認識処理の確からしさを算出する文字認識確からしさ算出ステップと、
前記文字認識確からしさ算出ステップにおいて算出した文字認識確からしさを、予め設定した閾値との比較によって評価する文字認識確からしさ評価ステップと、
前記文字認識確からしさ評価ステップにおける評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、複数の文字認識処理手法の実行情報を格納した記憶部から、実行済みの手法と異なる手法の実行情報を取得し、文字認識処理手段に実行させる処理変更ステップと、
を有することを特徴とする文字認識処理方法にある。
さらに、本発明の第3の側面は、
情報処理装置において文字認識処理を実行させるコンピュータ・プログラムであり、
文字認識処理手段において、入力画像データに基づく文字認識処理を実行する文字認識処理ステップと、
前記文字認識処理ステップにおいて実行された文字認識処理の確からしさを算出する文字認識確からしさ算出ステップと、
前記文字認識確からしさ算出ステップにおいて算出した文字認識確からしさを、予め設定した閾値との比較によって評価する文字認識確からしさ評価ステップと、
前記文字認識確からしさ評価ステップにおける評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、複数の文字認識処理手法の実行情報を格納した記憶部から、実行済みの手法と異なる手法の実行情報を取得し、文字認識処理手段に実行させる処理変更ステップと、
を有することを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の構成によれば、文字認識処理手段(OCR)において、入力画像データに基づく文字認識処理を実行し、実行された文字認識処理の確からしさを算出して、算出した文字認識確からしさを、予め設定した閾値との比較による評価を行い、文字認識確からしさが閾値より低い場合、複数の文字認識処理手法の実行情報を格納した記憶部から、実行済みの手法と異なる手法の実行情報を取得して、文字認識処理手段に実行させて、より高い確からしさを持つ情報を文字認識処理結果として出力する構成としたので、ユーザによる修正処理対象文字の絶対量を削減することが可能となり、高精度な文字認識処理が実現される。
以下、図面を参照しながら本発明の実施形態に係る文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラムの詳細について説明する。
[実施例1]
まず、図1を参照して、本発明の一実施例に係る文字認識処理装置の構成および処理について説明する。図1は、本発明の一実施例に係る文字認識処理装置100の構成を示すブロック図である。なお、本発明の文字認識処理装置100の実行するデータ処理は、文字認識処理装置100の有するハードウェアと、ソフトウェアとしてのコンピュータ・プログラムを適用することによって実行されるものであり、図1に示す図は、本発明の文字認識処理装置において実行される複数の処理を個別に説明するために各処理ごとのブロックとして示したブロック図である。なお、文字認識処理装置のハードウェア構成の具体例については、後段で説明する。
文字認識処理装置100は、図1に示すように、画像入力部101、文字認識処理手段としてのOCR(Optical Caracter Recognition)手段102、文字認識確からしさ算出部103、文字認識確からしさ評価部104、二値化手法変更部105、二値化手法記憶部106、OCR結果出力部107を有し、OCR手段102は、二値化部111、レイアウト解析部112、文字認識部113を有する。
画像入力部101は、文字認識処理対象となる画像データ、すなわち文字を含む文書ドキュメントの画像データを入力する。例えばスキャナによって読み取られた画像データ、あるいはハードディスクなどのデータベースから入力する。なお、入力ドキュメントは、イメージデータ、テキストデータ、さらにレイアウト情報などの属性データを含むドキュメントなど様々なデータが含まれる。
画像入力部101に入力された文書データは、OCR手段102において、文字認識処理(OCR:Optical Caracter Recognition)が実行される。OCR手段102は、二値化部111、レイアウト解析部112、文字認識部113を有する。二値化部111では、画像入力部101から入力する画像データを、予め設定された閾値を適用して二値化処理を行なう、すなわち、例えば濃淡レベルを指定するある閾値を適用して、画像データについて、白[0]、黒[1]の二値化処理を実行する。
レイアウト解析部112は、解析対象のドキュメントの画像データを入力し、ドキュメントのレイアウト解析を実行する。なお、原本ドキュメントに属性情報としてレイアウト情報が含まれる場合は、その情報を適用してもよい。レイアウト情報が含まれない場合は、ドキュメントの画像データに基づいてレイアウト解析を実行する。レイアウト解析手段112におけるレイアウト解析は、ドキュメントに含まれる文字領域の区分処理によって複数のレイアウト区分領域を設定する処理などである。なお、後述するが、本発明の装置では、各レイアウト区分毎に文字認識の確からしさについての評価を実行し、評価値に基づいて、各レイアウト区分毎に二値化処理に適用する閾値の変更などを行なう。
文字認識部113は、二値化部111において生成した画像データの二値化情報に基づいて文字認識を実行する。なお、文字認識処理は、レイアウト解析手段112におけるレイアウト解析結果としてのレイアウト区分毎に実行される。文字認識部113の処理結果は、文字認識確からしさ算出部103に算出される。文字認識確からしさ算出部103では、OCR手段102において実行された文字認識処理の確からしさを各レイアウト単位で検証する処理を実行する。
図2を参照して、OCR手段102および文字認識確からしさ算出部103において実行される具体的な処理例について説明する。画像入力部101には、例えばスキャン処理対象となる原稿画像201に基づく画像データの読み取りが実行される。図2に示すステップS11のスキャン処理が画像入力部101の処理に相当する。
その後、図2に示すステップS12において、OCR手段による二値化処理、レイアウト解析処理が実行される。図2に示す解析画像データ202が、二値化処理、レイアウト解析処理の結果の一例である。画像データは、複数のレイアウト区分L1〜Lnに区分される。その後、ステップS13において、文字認識部105における文字認識処理が実行され、例えば図2に示す文字認識結果データ203が生成される。
図2に示す例では、レイアウト区分L3では、全ての文字が正しく認識されているが、レイアウト区分L1,L2には誤って認識された文字が含まれる。図1に示す文字認識確からしさ算出部103は、文字認識部113の文字認識の確からしさをレイアウト区分毎に算出する。
この確からしさは、文字認識部113の文字認識結果として得られた文字コード情報の信頼度を示す値として算出される値である。例えば、特許2991779号公報に記載の文字の信頼度値を適用することができる。文字認識確からしさ算出部103は、図2に示すように文字認識部113の文字認識の確からしさを、レイアウト解析手段112におけるレイアウト解析結果としてのレイアウト区分毎に算出する。
図2に示す例では、
レイアウト区分L1の確からしさ=60%
レイアウト区分L2の確からしさ=75%
レイアウト区分L3の確からしさ=100%
というような結果を文字認識確からしさ算出部103において算出した例を示している。このように、文字認識確からしさ算出部103は、レイアウト区分ごとに文字認識の確からしさを算出する。
文字認識確からしさ評価部104は、文字認識確からしさ算出部103の算出した各レイアウト区分の確からしさの値を予め定めた閾値(Th1)と比較し、各レイアウト区分毎の文字認識結果の確からしさについて、閾値以上の確からしさであるか閾値未満の確からしさであるかを判別する。
例えば、閾値(Th1)=確からしさ80%とした場合、図2に示す例では、レイアウト区分L1,L2が閾値未満と評価され、レイアウト区分L3については閾値以上であると判定される。
文字認識確からしさ評価部104において、閾値未満の評価がなされたレイアウトについては、二値化手法変更部105において、二値化手法記憶部106に記録された異なる複数の二値化処理アルゴリズムを順次、選択し、実行済みの二値化アルゴリズムと異なるアルゴリズムを適用して、再度、低評価のレイアウト区分の画像データについて異なる処理アルコリズムでの二値化処理を実行する。
すなわち、図2に示すステップS14の処理に示すように、二値化処理に適用するパラメータ、アルゴリズムなどを変更して異なる文字認識処理手法を実行する。この処理手法の変更処理は、所定回数、繰り返し実行される。すなわち、文字認識確からしさ評価部104において、閾値以上の確からしさが得られるまで、パラメータ、手法などの変更によるアルゴリズム変更処理を行なって繰り返し実行する。なお、図1に示す二値化手法記憶部106に、文字認識処理手段としてのOCR手段102において実行可能な異なる複数の文字認識処理手法の実行情報が格納され、二値化手法変更部105は、文字認識確からしさ評価部104における評価結果に基づいて、文字認識確からしさが閾値より低い場合、実行済みの手法と異なる手法の実行情報を記憶部106から取得して文字認識処理手段としてのOCR手段102に実行させる。
この結果、図2に示すように、例えばレイアウト区分L1は、1回目の処理では、確からしさ60%のOCR結果しか得られていないが、アルゴリズムを変更した2回目の処理では確からしさ80%となり、閾値(80%)をクリアする結果が得られる。同様に、レイアウト区分L2は、1回目の処理では、確からしさ75%のOCR結果しか得られていないが、アルゴリズムを変更した2回目の処理では確からしさ85%となり、閾値をクリアする結果が得られる。
なお、アルゴリズム変更処理は、閾値以上の確からしさが得られるまで、繰り返し実行するが、予め二値化手法記憶部106に記録された全てのアルゴリズムに従ってOCR処理を実行しても、閾値未満の確からしさの評価しか得られない場合は、実行済みの処理結果から、最高の確からしさを持つ処理結果を選択して出力情報とする。
図1に示すOCR結果出力部107からは、これらの結果の最終結果が出力される。すなわち、各レイアウト区分ごとの確からしさが全て閾値以上、あるいは一部レイアウト区分については、閾値未満であっても、準備された二値化アルゴリズムを適用した処理中、最高の確からしさを持つOCR結果データが出力される。
図3、図4に示すフローチャートを参照して、本実施例に係る文字認識処理装置の処理手順について説明する。図3は、本実施例に係る文字認識処理装置の処理全体の手順を示すフローチャートであり、図4は、二値化処理および二値化処理のアルゴリズム変更処理の詳細シーケンスを説明するフローチャートである。
まず、図3のフローに従って、本実施例に係る文字認識処理装置の処理全体の手順について説明する。ステップS101において、例えばスキャナによって読み取られた画像データ、あるいはハードディスクなどのデータベースからOCR処理対象となる画像データを入力する。
次に、ステップS102〜S104において、OCR手段による処理が実行される。ステップS102は、図1に示す二値化部111の処理であり、入力画像データを、予め設定された閾値を適用して二値化処理を行なう、ステップS103は、レイアウト解析部112の処理であり、解析対象のドキュメントの画像データを入力し、ドキュメントのレイアウト解析を実行する。ステップS104は、文字認識部113の処理であり、二値化部111において生成した画像データの二値化情報に基づいて文字認識を実行する。なお、文字認識処理は、例えば、予め各文字毎に準備されたパターンデータとの一致度を判別して、認識文字を決定するパターンマッチング処理として実行される。
次のステップS105は、文字認識確からしさ算出部103の処理であり、レイアウト解析手段112におけるレイアウト解析結果としてのレイアウト区分毎に文字認識の確からしさを算出する。
次のステップS106は、文字認識確からしさ評価部104の処理であり、文字認識確からしさ算出部103の算出した各レイアウト区分の確からしさの値を予め定めた閾値(Th1)と比較し、各レイアウト区分毎の文字認識結果の確からしさについて、閾値以上の確からしさであるか閾値未満の確からしさであるかを判別する。
ステップS107において、各レイアウト区分についての文字データの認識の確からしさが判定され、文字データの認識の確からしさが閾値以上である場合は、ステップS109において保存データとされ、閾値未満である場合は、ステップS108に進み、そのレイアウトについての二値化処理態様を変更して、ステップS102以下の処理を異なる処理アルゴリズムを適用して繰り返し実行する。
ステップS107において、レイアウト区分についての文字データの認識の確からしさが閾値以上となった場合は、保存データとされ、全てのアルゴリズムについて実行しても、閾値未満である場合は、ステップS109において、これらのデータの中から、最高の確からしさを持つデータを選択して保存データとする。
この処理によって、各レイアウト区分ごとの確からしさが全て閾値以上のOCR結果データ、あるいは一部レイアウト区分については、閾値未満でも準備された二値化アルゴリズムを適用した処理中、最高の確からしさを持つOCR結果データが出力される。
次に、図4に示すフローチャートを参照して、二値化処理および二値化処理のアルゴリズム変更処理の詳細シーケンスについて説明する。図2に示すフローは、ステップS201における、確からしさと閾値(Th1)との比較処理からスタートしている。この処理は、図1に示す文字認識確からしさ評価部104におけるレイアウト単位の確からしさ評価処理である。
文字認識確からしさ評価部104におけるレイアウト単位の確からしさが閾値以上となった場合(ステップS201:Yes)は、ステップS202以下の二値化ルゴリズムの変更処理は実行されず、そのレイアウトについての処理は終了し、これが保存データとされる。
文字認識確からしさ評価部104におけるレイアウト単位の確からしさが閾値未満となった場合(ステップS201:No)は、そのレイアウトについて、ステップS202以下の二値化ルゴリズムの変更処理が実行される。まず、ステップS202において、注目レイアウト内の入力画像の濃度ヒストグラムを生成し参照し、ステップS203において、最大ピーク値を持つ濃度レベルZを背景構成データの持つ濃度であると判定し、この濃度と、二値化処理に適用した閾値Aを比較する。
ステップS204では、二値化閾値Aを変更する。具体的には、
Z≧Aである場合は、閾値Aの濃度レベルを上げる(例えば+5%)、
Z<Aである場合は、閾値Aの濃度レベルを下げる(例えば−5%)、
とする閾値変更処理を実行する。
この処理の後、ステップS206のOCR処理を再度実行する。なお、ステップS205では、閾値変更可能範囲の閾値変更処理が全て終了しているか否かを判定し、閾値変更可能範囲の閾値変更処理が全て終了している場合には、処理を終了するか、またはステップS221以下の処理を実行する。ステップS204での閾値変更処理を実行してステップS206におけるOCR処理を実効した結果、ステップS201における確からしさ評価結果が、確からしさが閾値以上となった場合は、その時点で、そのレイアウトに対するOCR処理は終了する。
ステップS205において、閾値変更可能範囲の閾値変更処理が全て終了している場合には、処理を終了するか、またはステップS221以下の処理を実行する。ステップS221〜S225の処理は、浮動二値化処理アルゴリズムによるOCR処理を示している。ステップS201〜S206までの処理は、固定化した閾値を適用した処理であり、固定閾値二値化処理と呼ばれる。一方、ステップS221〜S225の処理は、二値化閾値を二値化処理を実行する領域(局所領域)ごとに変更する処理であり、浮動二値化処理と呼ばれる。浮動二値化処理では、特定の二値化閾値を設定する領域(局所領域)の大きさ(ウィンドウサイズ)を設定して、二値化処理を実行する。
ステップS201〜S206の処理において、設定可能な全ての閾値を適用したOCR処理においても、確からしさが閾値以上にならない場合には、その時点で、最高の確からしさを持つデータを結果データとして保存してもよいが、ステップS221以下の浮動二値化処理を実行する構成としてもよい。
ステップS221では、まず、浮動二値化処理を実行する場合の局所領域サイズ(ウィンドウサイズ)を決定する。ウィンドウサイズは、例えば[11×11画素]→[9×9画素]→[7×7画素]ように、認識率が上がらない場合は、順次小さくして設定する。
確からしさが閾値を超える結果が得られる(ステップS225:Yes)か、全ての設定可能なウィンドウサイズの設定が終了するまで(ステップS222:Yes)繰り返し実行する。ステップS224の浮動二値化OCR処理を、ウィンドウサイズを変更して繰り返し実行する。これらの繰り返し処理において、確からしさが閾値を超えた場合(S225:Yes)は、その時点で、そのデータを保存データとする。すべてのウィンドウサイズ変更許容範囲の処理を実行しても確からしさが閾値以上とならない場合は、実行済みのOCR結果中、最も高い確からしさを持つOCR結果データを保存データとして出力する。
このように、本実施例の構成を適用したOCR処理によれば、各レイアウト区分ごとの確からしさが全て閾値以上、あるいは一部レイアウト区分については、閾値未満であっても、準備された二値化アルゴリズムを適用した処理中、最高の確からしさを持つOCR結果データを得ることができる。
なお、上述の実施例では、確からしさの評価単位、アルゴリズムの変更単位をレイアウト単位とした例を説明したが、原稿全体やページを1つの単位として処理する構成としてもよく、また、各文字単位で評価を行い、処理手法、アルゴリズムを文字単位で変更する構成としてもよい。また、確からしさの評価を、レイアウト等の所定のデータ領域単位で実行する場合、そのデータ領域に含まれる文字の認識の確からしさの平均値を算出して、平均値と閾値との比較を行う方法や、確からしさの平均値、分散値を算出して、これらの値に基づく評価を実行する構成としてもよい。
[実施例2]
次に、図5を参照して、本発明の実施例2に係る文字認識処理装置の構成および処理について説明する。図5は、本発明の実施例2に係る文字認識処理装置300の構成を示すブロック図である。文字認識処理装置300は、画像入力部301、文字認識処理手段としてのOCR(Optical Caracter Recognition)手段302、文字認識確からしさ算出部303、文字認識確からしさ評価部304、OCRエンジン変更部305、OCRエンジン記憶部206、OCR結果出力部207を有するなお、OCR手段302は、先の実施例と同様、例えば二値化部、レイアウト解析部、文字認識部を有するOCR手段である。
画像入力部301は、文字認識処理対象となる画像データ、すなわち文字を含む文書ドキュメントの画像データを入力する。例えばスキャナによって読み取られた画像データ、あるいはハードディスクなどのデータベースから入力する。なお、入力ドキュメントは、イメージデータ、テキストデータ、さらにレイアウト情報などの属性データを含むドキュメントなど様々なデータが含まれる。
画像入力部301に入力された文書データは、OCR手段302において、文字認識処理(OCR:Optical Caracter Recognition)が実行される。本実施例においても、レイアウト解析後にレイアウト単位での文字認識処理が実行される。レイアウト解析は、ドキュメントに含まれる文字領域を区分する処理である。なお、後述するが、本発明の装置では、各レイアウト区分毎に文字認識の確からしさについての評価を実行し、評価値に基づいて、各レイアウト区分毎にOCRエンジンの変更などを行なう。
図6を参照して、OCR手段302による具体的な処理例について説明する。画像入力部301には、例えばスキャン処理対象となる原稿画像401に基づく画像データの読み取りが実行される。図6に示すステップS21のスキャン処理が画像入力部301の処理に相当する。
その後、図6に示すステップS22において、OCR手段による二値化処理、レイアウト解析処理が実行される。図6に示す解析画像データ202が、二値化処理、レイアウト解析処理の結果の一例である。画像データは、複数のレイアウト区分L1〜Lnに区分される。その後、ステップS23において、文字認識処理が実行され、例えば図6に示す文字認識結果データ403が生成される。
図6に示す例では、レイアウト区分L3では、全ての文字が正しく認識されているが、レイアウト区分L1,L2には誤って認識された文字が含まれる。図5に示す文字認識確からしさ算出部303は、OCR手段302における文字認識の確からしさをレイアウト区分毎に算出する。
文字認識確からしさ算出部303は、図6に示すように文字認識の確からしさを、レイアウト区分毎に算出する。図6に示す例では、まず、最初のOCRエンジンであるOCRエンジンAを適用した結果として、
レイアウト区分L1の確からしさ=60%
レイアウト区分L2の確からしさ=80%
レイアウト区分L3の確からしさ=100%
という結果を算出した例である。
文字認識確からしさ評価部304は、文字認識確からしさ算出部303の算出した各レイアウト区分の確からしさの値を予め定めた閾値(Th2)と比較し、各レイアウト区分毎の文字認識結果の確からしさについて、閾値以上の確からしさであるか閾値未満の確からしさであるかを判別する。
例えば、閾値(Th2)=確からしさ80%とした場合、図6に示す例では、レイアウト区分L1が閾値未満と評価され、レイアウト区分L2,L3については閾値以上であると判定される。
文字認識確からしさ評価部304において、閾値未満の評価がなされたレイアウトについては、OCRエンジン変更部305において、OCRエンジン記憶部306に記録された異なる複数のOCRエンジンを順次、選択し、実行済みのOCRエンジンと異なるOCRエンジンを適用して、再度、低評価のレイアウト区分の画像データについて異なるOCRエンジンを適用したOCR処理を実行する。
すなわち、図6に示すステップS24の処理に示すように、適用するOCRエンジンを変更してOCR処理を実行する。このOCRエンジンの変更処理は、所定回数、繰り返し実行される。すなわち、文字認識確からしさ評価部304において、閾値以上の確からしさが得られるまで、変更処理を行なって繰り返しOCR処理を実行する。この結果、図6に示すように、例えばレイアウト区分L1は、OCRエンジンAを適用した1回目の処理では、確からしさ60%のOCR結果しか得られていないが、OCRエンジンBを適用した2回目の処理では確からしさ85%となり、閾値(80%)をクリアする結果が得られる。
なお、OCRエンジン変更処理は、閾値以上の確からしさが得られるまで、繰り返し実行するが、予めOCRエンジン記憶部306に記録された全てのOCRエンジンに従ってOCR処理を実行しても、閾値未満の確からしさの評価しか得られない場合は、実行済みの処理結果から、最高の確からしさを持つ処理結果を選択して出力情報とする。
図6に示すOCR結果出力部307からは、これらの結果の最終結果が出力される。すなわち、各レイアウト区分ごとの確からしさが全て閾値以上、あるいは一部レイアウト区分については、閾値未満であっても、準備された二値化アルゴリズムを適用した処理中、最高の確からしさを持つOCR結果データが出力される。
図7に示すフローチャートを参照して、本実施例に係る文字認識処理装置の処理手順について説明する。ステップS301において、例えばスキャナによって読み取られた画像データ、あるいはハードディスクなどのデータベースからOCR処理対象となる画像データを入力する。
次に、ステップS302において、OCR手段による処理が実行される。この処理は、具体的には、先の実施例1で説明した二値化処理、レイアウト解析処理、パターンマッチングによる文字認識処理等が含まれる処理である。次のステップS303は、文字認識確からしさ算出部303の処理であり、レイアウト区分毎に文字認識の確からしさを算出する。
次のステップS304は、文字認識確からしさ評価部304の処理であり、文字認識確からしさ算出部303の算出した各レイアウト区分の確からしさの値を予め定めた閾値(Th2)と比較し、各レイアウト区分毎の文字認識結果の確からしさについて、閾値以上の確からしさであるか閾値未満の確からしさであるかを判別する。
ステップS305において、各レイアウト区分についての文字データの認識の確からしさが判定され、文字データの認識の確からしさが閾値以上である場合は、ステップS307において保存データとされ、閾値未満である場合は、ステップS306に進み、そのレイアウトについてOCRエンジンを変更して、ステップS302以下の処理を繰り返し実行する。
ステップS305において、レイアウト区分についての文字データの認識の確からしさが閾値以上となった場合は、保存データとされ、全てのOCRエンジンによる処理を実行しても、閾値未満である場合は、ステップS307において、これらのデータの中から、最高の確からしさを持つデータを選択して保存データとする。
この処理によって、各レイアウト区分ごとの確からしさが全て閾値以上のOCR結果データ、あるいは一部レイアウト区分については、閾値未満でも準備されたOCRエンジンを適用した処理中、最高の確からしさを持つOCR結果データが出力される。
なお、上述した処理シーケンスでは、複数のOCRエンジンについて、シーケンシャルに1つずつ実行する処理例として説明したが、複数の異なるOCRエンジンによる処理を並列に実行して、その実行結果から最大の確からしさを持つ結果のみを選択する手法を適用してもよい。
なお、例えば、1つずつ異なるOCRエンジンを適用した処理を行なう場合、実行するOCRエンジンの順番を設定したリストをOCRエンジン記憶部306に格納し、OCRエンジン選択部305が、そのリストから順番に実行するOCRエンジンを選択する構成とする。例えば、図8に示すOCRエンジンリストをOCRエンジン記憶部306に格納する。図8に示すOCRエンジンリストは、例えば過去に実行したOCR処理結果に基づいて、確からしさの高い結果を出力したOCRエンジンを字容易に設定したリストである。このようなリストの順に従って、OCR処理を実行することで、より早い段階で、確からしさの高い結果を得ることができる。
また、各OCRエンジンには、特徴があり、例えば、帳票文書に対しての認識率が高いエンジンや、新聞などの文書データについての認識率の高いエンジンなど、それぞれのOCRエンジンの得意とする文書がある。このようなOCRエンジンの特徴を利用し、解析対象とする文書の種類を解析した上で、適用するOCRエンジンの順番を動的に設定する構成としてもよい。
例えば、図9に示すように、
OCRエンジンA=帳票用、
OCRエンジンB=新聞、雑誌用、
OCRエンジンC=英文用、
このように、適用対象の文書種類毎に区分したOCRエンジンリストをOCRエンジン記憶部306に格納する。
OCRエンジン変更部305は、図9に示すように、登録単語検索部351、OCRエンジン選択部352、登録単語格納部353を有し、登録単語検索部351において、OCR手段302のOCR結果を入力して、入力文書データから、登録単語格納部353に格納された単語と一致する情報を検索する。登録単語格納部353には、例えば文書が帳票である場合に頻出する単語情報、文書が新聞である場合に頻出する単語情報、文書が英文である場合に頻出する単語情報など、文書カテゴリごとの単語情報が登録されており、登録単語検索部351は、OCR結果と登録情報とを参照して一致する単語を検索する。
OCRエンジン選択部352は、登録単語検索部351の検索結果に基づいて、OCR手段302によって読み取られた文書の種類を特定して、特定した文書種類に適したOCRエンジンをOCRエンジン記憶部306から選択して、この選択したOCRエンジンを次に実行するOCR処理に適用するOCRエンジンとする。
この処理によって、処理対象とする文書のカテゴリに応じた最適なOCRエンジンが選択され、より早い段階で、高い認識率のOCR結果を得ることが可能となる。
最後に、図10を参照して、本発明の文字認識処理装置のハードウェア構成例について説明する。図10に示す構成は、例えばPCなどによって構成される文字認識処理装置であり、スキャナ等のデータ読み取り部531と、プリンタなどのデータ出力部532を備えたハード構成例を示している。
CPU(Central Processing Unit)501は、上述の実施例において説明した各種のデータ処理、すなわち、OCR処理、OCRにおける二値化手法変更処理、OCRエンジン変更処理、確からしさ算出処理、確からしさ評価処理等の各処理の実行シーケンスを記述したコンピュータ・プログラムに従った処理を実行する制御部である。
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージ情報として表示する。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、入力された原本ドキュメントやOCR結果データ、さらに複数の異なる二値化手法(アルゴリズム)、複数の異なるOCRエンジンなどが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。リムーバブル記録媒体521も、ハードディスクと同様のデータ記録領域として利用可能である。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部531は、ドキュメントの読み取り処理を実行し、データ出力部532は、ドキュメントデータの出力処理を実行する。
なお、図10に示す文字認識処理装置のハードウェア構成例は、1つの装置例を示すものであり、本発明の文字認識処理装置は、図10に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の構成によれば、文字認識処理手段(OCR)において、入力画像データに基づく文字認識処理を実行し、実行された文字認識処理の確からしさを算出して、算出した文字認識確からしさを、予め設定した閾値との比較による評価を行い、文字認識確からしさが閾値より低い場合、複数の文字認識処理手法の実行情報を格納した記憶部から、実行済みの手法と異なる手法の実行情報を取得して、文字認識処理手段に実行させて、より高い確からしさを持つ情報を文字認識処理結果として出力する構成としたので、ユーザによる修正処理対象文字の絶対量を削減することが可能となり、高精度な文字認識処理が実現される。
本発明の一実施例に係る文字認識処理装置の構成を示すブロック図である。 本発明の一実施例に係る文字認識処理装置の実行する処理例について説明する図である。 本発明の一実施例に係る文字認識処理装置の実行する処理シーケンスについて説明するフローチャートを示す図である。 本発明の一実施例に係る文字認識処理装置の実行する二値化手法変更処理シーケンスについて説明するフローチャートを示す図である。 本発明の一実施例に係る文字認識処理装置の構成を示すブロック図である。 本発明の一実施例に係る文字認識処理装置の実行する処理例について説明する図である。 本発明の一実施例に係る文字認識処理装置の実行する処理シーケンスについて説明するフローチャートを示す図である。 本発明の一実施例に係る文字認識処理装置の利用するOCRエンジンリストの例について説明する図である。 本発明の一実施例に係る文字認識処理装置の利用するOCRエンジンリストの例および処理構成について説明する図である。 本発明の文字認識処理装置のハードウェア構成例について説明する図である。
符号の説明
100 文字認識処理装置
101 画像入力部
102 OCR手段
103 文字認識確からしさ算出部
104 文字認識確からしさ評価部
105 二値化手法変更部
106 二値化手法記憶部
107 OCR結果出力部
111 二値化部
112 レイアウト解析部
113 文字認識部
300 文字認識処理装置
301 画像入力部
302 OCR手段
303 文字認識確からしさ算出部
304 文字認識確からしさ評価部
305 OCRエンジン変更部
306 OCRエンジン記憶部
307 OCR結果出力部
351 登録単語検索部
352 OCRエンジン選択部
353 登録単語格納部
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器
531 データ読み取り部
532 データ出力部

Claims (16)

  1. 入力画像データに基づく文字認識処理を実行する文字認識処理手段と、
    前記文字認識処理手段において実行可能な異なる複数の文字認識処理手法の実行情報を格納した記憶部と、
    前記文字認識処理手段において実行された文字認識処理の確からしさを算出する文字認識確からしさ算出部と、
    前記文字認識確からしさ算出部の算出した文字認識確からしさを、予め設定した閾値との比較によって評価する文字認識確からしさ評価部と、
    前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、実行済みの手法と異なる手法の実行情報を前記記憶部から取得して文字認識処理手段に実行させる処理変更部と、
    を有することを特徴とする文字認識処理装置。
  2. 前記記憶部は、前記文字認識処理手段において実行可能な複数の異なる二値化処理手法の実行情報を格納した構成であり、
    前記処理変更部は、
    前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、実行済みの二値化処理手法と異なる二値化処理手法の実行情報を前記記憶部から取得して文字認識処理手段に実行させる構成であることを特徴とする請求項1に記載の文字認識処理装置。
  3. 前記記憶部は、前記文字認識処理手段において実行可能な複数の異なる二値化閾値を持つ二値化処理手法の実行情報を格納した構成であり、
    前記処理変更部は、
    前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、実行済みの二値化処理に適用した二値化閾値と異なる二値化閾値を設定した二値化処理手法の実行情報を前記記憶部から取得して文字認識処理手段に実行させる構成であることを特徴とする請求項1に記載の文字認識処理装置。
  4. 前記記憶部は、前記文字認識処理手段において実行可能な固定閾値二値化処理手法と、浮動二値化処理手法の実行情報を格納した構成であり、
    前記処理変更部は、
    前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、実行済みの二値化処理手法と異なる、固定閾値二値化処理手法または浮動二値化処理手法のいずれかの実行情報を前記記憶部から取得して文字認識処理手段に実行させる構成であることを特徴とする請求項1に記載の文字認識処理装置。
  5. 前記記憶部は、前記文字認識処理手段において実行可能な複数のウィンドウサイズを適用した異なる浮動二値化処理手法の実行情報を格納した構成であり、
    前記処理変更部は、
    前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、実行済みの浮動二値化処理に適用したウィンドウサイズと異なるウィンドウサイズを設定した浮動二値化処理手法の実行情報を前記記憶部から取得して文字認識処理手段に実行させる構成であることを特徴とする請求項1に記載の文字認識処理装置。
  6. 前記記憶部は、前記文字認識処理手段において実行可能な複数の異なるOCRエンジンの実行情報を格納した構成であり、
    前記処理変更部は、
    前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、実行済みのOCRエンジンと異なるOCRエンジンの実行情報を前記記憶部から取得して文字認識処理手段に実行させる構成であることを特徴とする請求項1に記載の文字認識処理装置。
  7. 前記記憶部は、前記文字認識処理手段において実行可能な複数の異なるOCRエンジンに関する情報として処理実行順番を規定したOCRエンジンリストを格納した構成であり、
    前記処理変更部は、
    前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、前記OCRエンジンリストの上位から順に、前記文字認識処理手段に実行させる構成であることを特徴とする請求項1に記載の文字認識処理装置。
  8. 前記記憶部は、前記文字認識処理手段において実行可能な複数の異なるOCRエンジンに関する情報として、処理対象文書カテゴリに応じて分類したOCRエンジンリストを格納した構成であり、
    前記処理変更部は、
    OCR処理対象文書の解析に基づいて処理対象文書のカテゴリを特定し、前記記憶部から、該特定カテゴリに対応して分類されたOCRエンジンを優先的に選択して、前記文字認識処理手段において実行させる構成であることを特徴とする請求項1に記載の文字認識処理装置。
  9. 前記文字認識処理手段は、複数の異なる文字認識処理手法を並列に実行する構成であり、
    前記文字認識確からしさ算出部は、
    前記文字認識処理手段において実行された複数の文字認識処理の確からしさを算出し、
    前記文字認識確からしさ評価部は、
    前記文字認識確からしさ算出部の算出した複数の文字認識確からしさ中、最も高い確からしさを持つ処理結果を出力対象として選択する構成であることを特徴とする請求項1に記載の文字認識処理装置。
  10. 文字認識確からしさ算出部は、
    前記文字認識処理手段において実行された文字認識処理の確からしさを、一定のデータ領域単位で算出する構成であり、
    前記文字認識確からしさ評価部は、
    前記データ領域単位で、前記文字認識確からしさ算出部の算出した文字認識確からしさを、予め設定した閾値との比較によって評価する構成であり、
    前記処理変更部は、前記文字認識確からしさ評価部における評価結果に基づいて、文字認識確からしさが前記閾値より低いデータ領域についてのみ、実行済みの手法と異なる手法の実行情報を前記記憶部から取得して文字認識処理手段に実行させる構成であることを特徴とする請求項1乃至9いずれかに記載の文字認識処理装置。
  11. 前記データ領域は、
    前記文字認識処理手段において設定されるレイアウト区分領域であることを特徴とする請求項10に記載の文字認識処理装置。
  12. 前記文字認識確からしさ算出部は、
    前記レイアウト区分領域毎に文字認識確からしさの平均値を算出し、
    前記文字認識確からしさ評価部は、
    前記平均値と前記閾値との比較に基づく評価処理を実行する構成であることを特徴とする請求項11に記載の文字認識処理装置。
  13. 前記文字認識確からしさ算出部は、
    前記レイアウト区分領域毎に文字認識確からしさの平均値と分散値を算出し、
    前記文字認識確からしさ評価部は、
    前記平均値と分散値とに基づく評価処理を実行する構成であることを特徴とする請求項11に記載の文字認識処理装置。
  14. 前記データ領域は、
    一文字単位、またはページ単位であることを特徴とする請求項10に記載の文字認識処理装置。
  15. 文字認識処理手段において、入力画像データに基づく文字認識処理を実行する文字認識処理ステップと、
    前記文字認識処理ステップにおいて実行された文字認識処理の確からしさを算出する文字認識確からしさ算出ステップと、
    前記文字認識確からしさ算出ステップにおいて算出した文字認識確からしさを、予め設定した閾値との比較によって評価する文字認識確からしさ評価ステップと、
    前記文字認識確からしさ評価ステップにおける評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、複数の文字認識処理手法の実行情報を格納した記憶部から、実行済みの手法と異なる手法の実行情報を取得し、文字認識処理手段に実行させる処理変更ステップと、
    を有することを特徴とする文字認識処理方法。
  16. 情報処理装置において文字認識処理を実行させるコンピュータ・プログラムであり、
    文字認識処理手段において、入力画像データに基づく文字認識処理を実行する文字認識処理ステップと、
    前記文字認識処理ステップにおいて実行された文字認識処理の確からしさを算出する文字認識確からしさ算出ステップと、
    前記文字認識確からしさ算出ステップにおいて算出した文字認識確からしさを、予め設定した閾値との比較によって評価する文字認識確からしさ評価ステップと、
    前記文字認識確からしさ評価ステップにおける評価結果に基づいて、文字認識確からしさが前記閾値より低い場合、複数の文字認識処理手法の実行情報を格納した記憶部から、実行済みの手法と異なる手法の実行情報を取得し、文字認識処理手段に実行させる処理変更ステップと、
    を有することを特徴とするコンピュータ・プログラム。
JP2005273253A 2005-09-21 2005-09-21 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム Pending JP2007086954A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005273253A JP2007086954A (ja) 2005-09-21 2005-09-21 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005273253A JP2007086954A (ja) 2005-09-21 2005-09-21 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム

Publications (1)

Publication Number Publication Date
JP2007086954A true JP2007086954A (ja) 2007-04-05

Family

ID=37973901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005273253A Pending JP2007086954A (ja) 2005-09-21 2005-09-21 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP2007086954A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010049413A (ja) * 2008-08-20 2010-03-04 Canon Inc 情報処理装置、制御方法、及びプログラム
JP2010123090A (ja) * 2008-11-23 2010-06-03 Nidec Sankyo Corp 文字列認識方法及び文字列認識装置
JP2012230482A (ja) * 2011-04-25 2012-11-22 Ntt Docomo Inc 評価画像処理装置及び評価画像処理方法
KR101549495B1 (ko) 2013-12-26 2015-09-03 조선대학교산학협력단 문자 추출 장치 및 그 방법
JP2016071892A (ja) * 2014-09-30 2016-05-09 キヤノンマーケティングジャパン株式会社 帳票システムと、その処理方法及びプログラム
EP3065081A1 (en) * 2015-03-04 2016-09-07 Kabushiki Kaisha Toshiba Delivery processing apparatus and method for recognizing information provided on delivery target item
WO2019116466A1 (ja) * 2017-12-13 2019-06-20 株式会社Pfu 情報処理装置、制御方法及び制御プログラム
JP2020144636A (ja) * 2019-03-07 2020-09-10 セイコーエプソン株式会社 情報処理装置、学習装置及び学習済モデル
JP2020160609A (ja) * 2019-03-25 2020-10-01 東芝テック株式会社 プログラム及び文字認識方法
CN112368657A (zh) * 2018-06-28 2021-02-12 施耐德电子系统美国股份有限公司 管线和仪表图的机器学习分析
JP7452059B2 (ja) 2020-02-12 2024-03-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7452060B2 (ja) 2020-02-12 2024-03-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8559728B2 (en) 2008-08-20 2013-10-15 Canon Kabushiki Kaisha Image processing apparatus and image processing method for evaluating a plurality of image recognition processing units
JP2010049413A (ja) * 2008-08-20 2010-03-04 Canon Inc 情報処理装置、制御方法、及びプログラム
JP2010123090A (ja) * 2008-11-23 2010-06-03 Nidec Sankyo Corp 文字列認識方法及び文字列認識装置
JP2012230482A (ja) * 2011-04-25 2012-11-22 Ntt Docomo Inc 評価画像処理装置及び評価画像処理方法
KR101549495B1 (ko) 2013-12-26 2015-09-03 조선대학교산학협력단 문자 추출 장치 및 그 방법
JP2016071892A (ja) * 2014-09-30 2016-05-09 キヤノンマーケティングジャパン株式会社 帳票システムと、その処理方法及びプログラム
EP3065081A1 (en) * 2015-03-04 2016-09-07 Kabushiki Kaisha Toshiba Delivery processing apparatus and method for recognizing information provided on delivery target item
WO2019116466A1 (ja) * 2017-12-13 2019-06-20 株式会社Pfu 情報処理装置、制御方法及び制御プログラム
CN112368657A (zh) * 2018-06-28 2021-02-12 施耐德电子系统美国股份有限公司 管线和仪表图的机器学习分析
JP2020144636A (ja) * 2019-03-07 2020-09-10 セイコーエプソン株式会社 情報処理装置、学習装置及び学習済モデル
JP7077998B2 (ja) 2019-03-07 2022-05-31 セイコーエプソン株式会社 情報処理装置
JP2020160609A (ja) * 2019-03-25 2020-10-01 東芝テック株式会社 プログラム及び文字認識方法
US11100363B2 (en) 2019-03-25 2021-08-24 Toshiba Tec Kabushiki Kaisha Character recognition program and method
JP7274322B2 (ja) 2019-03-25 2023-05-16 東芝テック株式会社 プログラム及び文字認識方法
JP7452059B2 (ja) 2020-02-12 2024-03-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7452060B2 (ja) 2020-02-12 2024-03-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Similar Documents

Publication Publication Date Title
JP2007086954A (ja) 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム
US8411955B2 (en) Image processing apparatus, image processing method and computer-readable medium
US9384409B1 (en) Word segmentation for document image using recursive segmentation
US8059896B2 (en) Character recognition processing system and computer readable medium storing program for character recognition processing
US7889926B2 (en) Image dictionary creating apparatus, coding apparatus, image dictionary creating method
US7190807B2 (en) Digital watermark extracting method, apparatus, program and storage medium
US9613299B2 (en) Method of identifying pattern training need during verification of recognized text
WO2014131339A1 (zh) 字符识别方法和字符识别装置
US20030118211A1 (en) Watermark information extraction apparatus and method of controlling thereof
JP2005148987A (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
JP2000285190A (ja) 帳票識別方法および帳票識別装置および記憶媒体
JP2008011484A (ja) 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
JPH10307889A (ja) 文字認識方法、装置及び文字認識プログラムを記録した記録媒体
JP2007086956A (ja) 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム
JP3090070B2 (ja) 帳票識別方法及び装置
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JP4471202B2 (ja) 画像処理装置、画像処理方法及び同方法に用いるプログラム
JP4162195B2 (ja) 画像処理装置、及び画像処理プログラム
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
JP6003375B2 (ja) 画像処理装置及び画像処理プログラム
JP2019164687A (ja) 情報処理装置
JP5821648B2 (ja) 情報処理装置及び情報処理プログラム
JP2002279344A (ja) 文字認識装置、文字認識方法および記録媒体
JP2001236467A (ja) パターン認識方法、装置、およびパターン認識プログラムを記録した記録媒体
JP4089807B2 (ja) バーコード認識方法および装置並びにプログラム