JP2010102709A

JP2010102709A - 文字列認識方法、文字列認識システム及び文字列認識プログラム用記録媒体

Info

Publication number: JP2010102709A
Application number: JP2009241530A
Authority: JP
Inventors: Byoung Seok Yang; 炳 ▲督▼ 梁; Hee Cheol Seo; 熙 ▲兢▼ 徐; Byoung Hoon Yoon; 秉勳尹; Kijoon Sung; 耆浚成; Do Gil Lee; 道佶李
Original assignee: NHN Corp
Current assignee: NHN Corp
Priority date: 2008-10-22
Filing date: 2009-10-20
Publication date: 2010-05-06
Also published as: KR20100044668A; KR101028670B1

Abstract

【課題】イメージ領域及びテキスト領域からなる文書に含まれている文字を認識する方法、システム、及びコンピュータで読み取り可能な記録媒体を提供する。
【解決手段】（ａ）文書の文書構造を分析し、テキスト領域とイメージ／ノイズ領域に分類するステップと、（ｂ）第１のＯＣＲを用いて、テキスト領域内に含まれている文字列を認識するステップと、（ｃ）言語モデルによって、テキスト領域のうち、テキスト領域に誤分類された特定領域に含まれている文字列を見出し、第１のＯＣＲから得られた特定領域に対する位置情報を参照し、特定領域をイメージ／ノイズ領域に再分類するステップと、（ｄ）ステップ（ａ）乃至ステップ（ｃ）で分類されたイメージ／ノイズ領域に対して、第２のＯＣＲを用いて、イメージ／ノイズ領域に含まれている文字列を認識するステップと、を含む方法。
【選択図】図３

Description

本発明は、言語モデルとＯＣＲを用いて文書に含まれている文字列を認識する方法、システム及びコンピュータで読み取り可能な記録媒体に関し、より詳しくは、言語モデルによって、ＯＣＲ結果に含まれているテキストノイズを除去し、ＯＣＲ認識結果と言語モデルとによって、イメージ領域を判断し、イメージとして判断された領域については、イメージに特化したＯＣＲエンジンを用いて認識を行う方法、システム、及び、コンピュータで読み取り可能な文字列認識プログラム用記録媒体に関する。

最近、デジタル保存媒体の急速な補給によって、既存の紙文書に対するデジタル化作業が盛んに展開されている。このような現象は、文書に含まれている文字を自動に認識する技術である光学式文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ；ＯＣＲ）技術の発展につれてさらに加速化していることが実状である。

文書の中にイメージとテキストが並存する場合は、文字認識のために、テキスト領域とイメージ領域とを区別することが必要となるが、このようにテキスト領域とイメージ領域とを区別することが容易ではないという問題点があった。

ここで、文書に含まれている文字列を認識する方法は様々であるが、その一つが言語モデルを用いることである。言語モデルとは、辞典、使用頻度、使用確率等に基づき、多数の入力文字列に対して、文法や確率を基に、正しい文字である可能性が最も高い出力を出す方法である。このような言語モデルについては、韓国公開特許第２００６‐４６１２８号公報の「カメラ入力された文書のための低解像ＯＣＲ」等に開示されており、文字認識方法及びシステム等において広く用いられている。

しかしながら、イメージ領域の一部がテキスト領域に挿入される場合は、上記した従来の言語モデルを用いたとしても、イメージ領域の一部がテキスト領域に挿入された状態における文法や確率を基に正しい文字である可能性が最も高い出力を行うようになるので、極めて雑然とした認識結果となってしまう。実際に、文書構造分析作業、すなわち、文書をイメージ領域及びテキスト領域に正確に区分することが技術的に困難であるので、上記の問題が頻繁に発生した。

韓国公開特許第２００６‐４６１２８号公報

本発明は、上記問題点に鑑みなされたものであり、その目的は、イメージ／ノイズ領域及びテキスト領域からなる文書に含まれている文字をより正確に認識するために、言語モデルによる分析、及びＯＣＲ機器への入力文字が文書全体のどこに位置するかに対する情報を参照して、テキスト領域に誤って取り込まれたイメージ／ノイズ領域を判断可能にすることにある。

また、他の目的は、イメージ／ノイズ領域及びテキスト領域からなる文書において、高確度でイメージ／ノイズ領域とテキスト領域とを区分し、イメージ／ノイズ領域に区分された領域に含まれている文字に対し、イメージ特化したＯＣＲ技術を用いて、文字認識を成功するようにできることにある。

以下、上記した本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成について説明する。

本発明の一実施形態は、文書に含まれている文字列を認識する方法であって、（ａ）前記文書の文書構造を分析し、テキスト領域とイメージ／ノイズ領域とに分類するステップと、（ｂ）第１のＯＣＲを用いて、前記テキスト領域内に含まれている文字列を認識するステップと、（ｃ）言語モデルによって、前記テキスト領域のうち、テキスト領域に誤分類された特定領域に含まれている文字列を見出し、前記第１のＯＣＲから得られた前記特定領域に対する位置情報を参照し、前記特定領域を前記イメージ／ノイズ領域に再分類するステップと、（ｄ）前記ステップ（ａ）及び前記ステップ（ｃ）で分類されたイメージ／ノイズ領域に対して、第２のＯＣＲを用いて、前記イメージ／ノイズ領域に含まれている文字列を認識するステップと、を含む方法を提供する。

また、前記第１のＯＣＲは、一般テキストに特化したＯＣＲであり、前記第２のＯＣＲは、イメージに特化したＯＣＲでもよい。

また、本発明の一実施形態では、前記ステップ（ｂ）及び前記ステップ（ｄ）で認識された結果を併合して提供するステップをさらに含んでもよい。

また、前記ステップ（ｃ）において、前記特定領域は、前記テキスト領域に含まれている文字を認識した結果に対して距離値（ｄｉｓｔａｎｃｅｖａｌｕｅ、ディスタンス値）を求める場合、距離値が特定の閾値を超える文字を含む領域に該当されてもよい。

また、前記ステップ（ｄ）は、ワード単位でノイズを判断し、前記認識された文字列からノイズを除去するステップを含んでもよい。

本発明の他の実施形態では、テキスト領域及びイメージ／ノイズ領域からなる文書に含まれている文字列を認識するシステムにおいて、第１のＯＣＲを用いて、前記テキスト領域内に含まれている文字列を認識する第１のＯＣＲ部と、第２のＯＣＲを用いて、前記イメージ／ノイズ領域内に含まれている文字列を認識する第２のＯＣＲ部と、前記文書の文書構造を分析し、テキスト領域とイメージ／ノイズ領域に暫定的に分類した後、言語モデルによって、前記テキスト領域のうち、テキスト領域に誤分類された特定領域に含まれている文字列を見出し、前記第１のＯＣＲ部から得られた前記特定領域の位置情報を参照して、前記特定領域を前記イメージ／ノイズ領域に再分類する文書構造分析部と、を備えるシステムを提供する。

また、前記システムは、前記第１のＯＣＲ部によって認識された結果と、前記第２のＯＣＲ部によって認識された結果とを併合して提供する制御部をさらに備えてもよい。

また、前記特定領域は、前記テキスト領域に含まれている文字を認識した結果に対して距離値を求める場合、距離値が特定の閾値を超える文字を含む領域に該当してもよい。

また、前記第２のＯＣＲ部は、前記第２のＯＣＲを用いて認識された結果からノイズを除去してもよい。

また、前記第２のＯＣＲ部は、前記ノイズを除去するために、ワード単位でノイズを判断してもよい。

これ以外にも、他の方法、他のシステム、及び前記方法を実行するためのコンピュータプログラムを記録するコンピュータで読み取り可能な文字列認識プログラム用記録媒体がさらに提供される。

本発明の特徴的な構成によって達成される本発明の効果は、次の通りである。

１．本発明によれば、イメージ領域及びテキスト領域からなる文書に対して、従来のＯＣＲを用いるよりも文字認識の確度を高くすることができる。

２．本発明によれば、任意の文書に含まれているイメージ領域及びテキスト領域を正確に区分し、テキスト専用ＯＣＲ及びイメージ専用ＯＣＲ等を適材適所に適用することができる。

本発明の一実施形態における光学式文字認識システムの構成を例示的に示す図である。本発明の一実施形態におけるテキストＯＣＲ部の詳細な構成を例示的に示す図である。本発明の一実施形態におけるテキスト領域及びイメージ領域からなる文書に含まれている文字列を認識する過程を示す概略図である。本発明の一実施形態におけるテキスト領域及びイメージ領域からなる文書に含まれている文字列を認識する場合の例示を示す図である。

後述する本発明についての詳細な説明においては、本発明の実施形態を例示として示す添付図面を参照する。これらの実施形態は、当業者が本発明を十分に実施することができるように詳細に説明される。本発明の多様な実施形態は、互いに異なるが、相互排他的である必要はない。例えば、ここに記載されている特定の形状、構造及び特性は、一実施形態と関連して、本発明の精神及び範囲から逸脱することなく様々な他の実施形態に具現され得る。また、それぞれの開示された実施形態内の個別構成要素の位置または配置は、本発明の精神及び範囲から逸脱することなく変更され得ることが理解されるべきである。従って、後述する詳細な説明は、限定的な意味として解釈されてはならず、本発明の範囲は、特許請求の範囲によってのみ限定される。なお、図面において、類似した参照符号同士は、いくつかの側面にわたって同一または類似の機能を有する。

以下、本発明の属する技術の分野における通常の知識を有する者が、本発明を容易に実施することができるようにするため、添付した図面を参照し、本発明の好適な実施形態について詳述する。

本発明の明細書においては、テキスト領域に対して光学式文字認識を行うＯＣＲとして、一般テキスト特化したＯＣＲを想定し、イメージ領域に含まれている文字に対して光学式文字認識を行うＯＣＲとして、イメージ特化したＯＣＲを想定して記述しているが、必ずしも本発明に用いるＯＣＲはこれに限定されるものではなく、テキスト領域に対して光学式文字認識を行うＯＣＲとして、テキスト及びイメージのいずれに対しても使用可能なＯＣＲや、その他のタイプのＯＣＲを採用する場合や、イメージ領域に含まれている文字に対して光学式文字認識を行うＯＣＲとして、イメージ及びテキストのいずれに対しても使用可能なＯＣＲや、その他のタイプのＯＣＲを採用する場合も、本発明の権利範囲に含まれる。

［本発明の好適な実施形態］
図１は、本発明の一実施形態による光学式文字認識システム１００の構成を例示的に示す図である。

図１を参照すると、光学式文字認識システム１００は、文書情報入力部１１０、文書構造分析部１２０、テキストＯＣＲ部１３０、イメージＯＣＲ部１４０、制御部１５０、及び通信部１６０を備える。本発明の一実施形態において、文書情報入力部１１０、文書構造分析部１２０、テキストＯＣＲ部１３０、イメージＯＣＲ部１４０、制御部１５０、及び通信部１６０は、そのうち、少なくとも一部が、外部端末装置や外部サーバ等と通信するプログラムモジュールであってもよい。このようなプログラムモジュールは、運用システム、応用プログラムモジュール及びその他のプログラムモジュールとして、光学式文字認識システム１００に含まれていてもよく、物理的には様々な公知の記憶装置上に保存されていてもよい。また、このようなプログラムモジュールは、光学式文字認識システム１００と通信可能な遠隔記憶装置に保存されていてもよい。一方、このようなプログラムモジュールは、本発明について後述する特定の業務を行い、または、特定の抽象データ型を実行するルーチン、サブルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を包括するが、これに制限されるものではない。

本発明の一実施形態による光学式文字認識システム１００は、スキャナ、カメラ等のような画像データ生成装置に包含または接続されてもよく、本発明の他の実施形態による光学式文字認識システム１００は、個人用コンピュータ（例えば、デスクトップコンピュータ、ノート型パソコン、タブレット型パソコン、パームトップコンピュータ等）、ワークステーション、ＰＤＡ、ウェブパッド、携帯電話等のようなデジタル機器に包含または接続されてもよい。ここで、通信ネットワークは、有線及び無線等のようなその通信様態によらず、ローカルエリア・ネットワーク（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、都市規模ネットワーク（ＭＡＮ：ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）、広域ネットワーク（ＷＡＮ：ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）等の多様なネットワークで構成されてもよい。

本発明の一実施形態による文書情報入力部１１０は、デジタル機器からテキスト及び／またはイメージが含まれている文書についての情報を受信することができ、前記受信された文書についての情報を文書構造分析部１２０に伝達する機能を行うことができる。

本発明の一実施形態による文書構造分析部１２０は、文書の構造を把握するにあたって、文書の全領域をテキスト領域とイメージ領域等に分類することができる。文書構造に対する分析は、ゾーン（Ｚｏｎｅ）単位で行われるが、一般に、このような単位は、文字列の段落単位とほぼ類似している。前記文書構造分析部１２０については、以下において詳細に説明される。

本発明の一実施形態によるテキストＯＣＲ部１３０は、テキスト領域に含まれている文字を認識する機能を行う。図２に示すように、テキストＯＣＲ部１３０は、セグメンテーション部１３１、文字正規化部１３２、及び文字認識部１３３を有してもよいが、必ずしもこれに限定されるものではない。

本発明の一実施形態によるセグメンテーション部１３１は、テキスト領域に含まれている文字列を文字別に分割する機能を行うことができる。

具体的に、セグメンテーション部１３１は、テキスト領域に対して、行間走査（Ｐｒｏｊｅｃｔｉｏｎ）によって、テキスト領域内に含まれているラインを分割する機能を行うことができ、分割されたラインに連結成分ラベリング（ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔＬａｂｅｌｉｎｇ）技法を適用し、コンマ、ピリオド、感嘆符、コロン、セミコロン、括弧、引用符号等のような句読点を認識する機能を行うことができ、句読点を中心に分離されたワードを、空白を基準として再分割する機能を行い、該当する言語の特性によって文字を分割する機能を行うことができる。本発明のセグメンテーション部１３１は、前記機能に限定されるものではなく、様々な変形例を実現可能である。

一方、本発明の一実施形態による文字正規化部１３２は、分割された文字を特定の比率で正規化する機能を行うことができ、文字認識部１３３は、正規化した文字を認識する機能を行うことができる。

本発明の一実施形態によるイメージＯＣＲ部１４０は、イメージ／ノイズ領域に含まれている文字を認識する機能を行う。

本発明の一実施形態によるイメージＯＣＲ部１４０は、公知のイメージに特化したＯＣＲを用いて具現することができる。例えば、イメージに特化したＯＣＲ技術は、ＣｈｕａｎｇＬｉらが著述し、２００１年ＩＥＥＥに掲載された論文である「ＡｕｔｏｍａｔｉｃＴｅｘｔＬｏｃａｔｉｏｎｉｎＮａｔｕｒａｌＳｃｅｎｅＩｍａｇｅｓ」及びＬｉＸｕらが著述し、中国上海ＪｉａｏＴｏｎｇ大学のＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇにおいて発表した論文である「ＡＮｏｖｅｌＭｅｔｈｏｄｆｏｒＣｈａｒａｃｔｅｒＳｅｇｍｅｎｔａｔｉｏｎｉｎＮａｔｕｒａｌＳｃｅｎｅｓ」等のような公知の技術のうち、少なくとも一つを用いて行われてもよい（前記論文に記載の内容は、その全体が本明細書に併合されているものと考慮されなければならない）。但し、上記に列挙された公知の技術によって、本発明が限定されて解釈されるものではない。
また、本発明の一実施形態による制御部１５０は、文書情報入力部１１０、文書構造分析部１２０、テキストＯＣＲ部１３０、イメージＯＣＲ部１４０、及び通信部１６０間のデータの流れを制御する。

また、本発明の一実施形態による通信部１６０により、本発明による光学式文字認識システム１００が、スキャナ、カメラ等のような外部装置と通信できるようにしてもよい。

以下、本発明の一実施形態による光学式文字認識システム１００が、イメージ領域及びテキスト領域からなる文書に含まれている文字列を認識するための過程について、図３及び図４を参照して詳述する。

１．テキスト領域とイメージ／ノイズ領域の区分け
図３は、本発明の一実施形態によって、テキスト領域及びイメージ領域からなる文書に含まれている文字列を認識する過程を具体的に示す図である。

ステップＳ１１０において、先ず、入力された文書の文書構造を分析し、前記文書をテキスト領域とイメージ／ノイズ領域に暫定的に分離する。

文書構造分析部１２０は、二進化された映像情報の領域に基づいて、文書の構造を分析することができる。暫定的に二進化された映像情報を記憶装置内のテキスト標準パターンと比較して類似度の高い領域を区画化し、テキスト領域として分類し、テキスト標準パターンと比較して類似度の低い領域を区画化し、イメージ／ノイズ領域として分類する。テキスト標準パターンは、多様な書体のフォント情報であって、データベースの形態で記憶装置に保存されていてもよく、文書構造分析部１２０が文書の構造を分析して領域を分類する過程で参照されてもよい。この際、全文書において、テキスト領域及びイメージ／ノイズ領域が占める位置に対する情報が保存されてもよい。

２．テキスト領域内の文字列の認識
ステップＳ１２０において、上記したステップにより分類されたテキスト領域を分析し、テキスト領域内に含まれている文字列に関する情報を認識する。

テキストＯＣＲ部１３０は、上述したように、セグメンテーション部１３１においてテキスト領域に含まれている文字列をそれぞれの構成文字に分割し、文字正規化部１３２は、分割された文字を特定の比率で正規化し、文字認識部１３３は、正規化した文字を認識することができる。

３．テキスト領域と判断された特定領域をテキスト領域から除外
テキスト領域と判断された領域のうち、特定領域をテキスト領域から除外するステップＳ１３０が行われる。

先ず、前記ステップＳ１３０の説明に先立って、本ステップで適用される言語モデルの概念について説明する。言語モデルは、ＯＣＲされた結果を補正する機能を有する。具体的には、イメージ領域と暫定的に判定された領域のうち、ある特定領域がテキスト領域として誤って分類されてＯＣＲされたか否かを判断するために、前記イメージ領域中の特定領域に含まれている文字の距離値が特定の閾値を超えるか否かを判断し、前記特定の閾値を超える場合は、前記特定領域がテキスト領域として誤分類されたイメージ／ノイズ領域であるものとして、言語モデルの出力データから除去する。ここで、任意の領域に含まれている文字の距離を計算する方法そのものは、字画の数の差または字画の位置の差等を用いて求め、または、様々な従来技術を参照して実現可能であり、当業者において公知であるので、詳細な説明は省略する。

この際、文書構造分析部１２０は、上述した言語モデルに通じて、テキスト領域内の特定領域に属する文字の距離値が、特定の閾値を超える場合、前記特定領域を誤った領域（テキスト領域に分類されてはならない領域）と判断し、言語モデルの出力データから除去することができるが、この際、テキストＯＣＲ部１３０により補助してもよい。言語モデルの入力値そのものは、純粋なテキスト値としてのみ存在するため、前記特定領域を出力データから除去するためには、テキストＯＣＲ部１３０が得ている入力文字の位置情報を参照する必要があるからである。このように、言語モデルを通じて、文字の距離値が特定の閾値を超える特定領域を見出し、ＯＣＲによって、前記特定領域の位置情報を見つけることにより、どんな単位でテキスト領域とイメージ／ノイズ領域を分離するのが良いかについて判断することができる。

４．除外された特定領域をイメージ／ノイズ領域に併合
文書構造分析部１２０とテキストＯＣＲ部１３０によって、テキスト領域から除外された特定領域をイメージ／ノイズ領域に併合するステップＳ１４０が行われる。

通信部１６０は、文書構造分析部１２０によって、ステップＳ１１０においてイメージ／ノイズ領域に分類された領域と、ステップＳ１３０においてテキスト領域から除外され、イメージ／ノイズ領域に再分類された領域とを併合する。

例えば、図４を参照すると、ステップＳ１３０及びステップＳ１４０によって、任意の文書４００を、テキスト領域４００ａ及びイメージ／ノイズ領域４００ｂに正確に分類できることが分かる。

５．イメージ／ノイズ領域内の文字列を認識
ステップＳ１５０において、上記併合されたイメージ／ノイズ領域を、イメージに特化した光学式文字読取装置を備えるイメージＯＣＲ部１４０によって分析し、イメージ／ノイズ領域内に存在する文字列を認識する。

図４を参照すると、ステップＳ１５０によって、イメージ／ノイズ領域４００ｂ内に存在する文字列４２０、４４０が認識されていることが分かる。ここで、イメージ／ノイズ領域４００ｂ内に存在する領域４１０、４３０については、領域４１０、４３０に文字が含まれているものと誤って認識された場合に、言語モデルによって、ワード単位でノイズ判断を行い、このような領域４１０、４３０を、イメージに特化したОＣＲによって認識した結果、「
」や「
」は、ノイズと判断され、ＯＣＲ結果から除去され得る。

６．テキスト領域及びイメージ／ノイズ領域内の文字列を併合
ステップＳ１６０において、テキスト領域において認識された文字列と、前記イメージ／ノイズ領域において認識された文字列とを併合する。

通信部１６０は、テキストＯＣＲ部１３０によって認識された文字列と、前記イメージＯＣＲ部１４０によって認識された文字列とを併合する。

図４を参照すると、テキストＯＣＲ部１３０によって認識されたテキスト領域４００ａ内の文字列と、イメージＯＣＲ部１４０によって認識されたイメージ／ノイズ領域４００ｂ内の文字列４２０、４４０とが併合されて提供されることが分かる。

上述した本発明による実施形態は、様々なコンピュータ構成要素を通じて行われるプログラム命令語の形で具現され、コンピュータで読み取り可能な記録媒体に記録されてもよい。コンピュータで読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造等を単独でまたは組み合わせて含んでもよい。前記記録媒体に記録されるプログラム命令語は、本発明のために特に設計されて構成されたものであるが、コンピュータソフトウェア分野の当業者に公知されて使用可能なものでもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、及び磁気テープのような磁気媒体、ＣＤ‐ＲＯＭ、ＤＶＤ等のような光記録媒体、フロプティカルディスクのような磁気‐光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリ等のような、プログラム命令語を保存して実行するように構成されたハードウェア装置が挙げられるが、これに限られない。プログラム命令語の例としては、コンパイラで作成されるような機械語コードのみならず、インタープリター等を用いてコンピュータで実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために、一つ以上のソフトウェアモジュールとして動作可能に構成されてもよく、その逆も同様である。

以上、本発明の実施形態が、具体的な構成要素等のような特定事項と、限定された実施形態及び図面によって説明されているが、これは、本発明の全般的な理解のためのものであるだけで、本発明が上記した実施形態に限定されるものではなく、本発明の属する分野における通常の知識を有する者であれば、このような記載から様々な修正及び変形を行うことができる。

従って、本発明の思想は、上述された実施形態に限定されるものではなく、後述する特許請求の範囲のみならず、この特許請求の範囲と均等にまたは等価的に変形された全てのものについても、本発明の思想が及ぶものと言える。

１００光学式文字認識システム
１１０文書情報入力部
１２０文書構造分析部
１３０テキストＯＣＲ部
１３１セグメンテーション部
１３２文字正規化部
１３３文字認識部
１４０イメージＯＣＲ部
１５０制御部
１６０通信部

Claims

文書に含まれている文字列を認識する方法であって、
（ａ）前記文書の文書構造を分析し、テキスト領域とイメージ／ノイズ領域とに分類するステップと、
（ｂ）第１のＯＣＲを用いて、前記テキスト領域内に含まれている文字列を認識するステップと、
（ｃ）言語モデルによって、前記テキスト領域のうち、前記テキスト領域に誤分類された特定領域に含まれている文字列を見出し、前記第１のＯＣＲから得られた前記特定領域の位置情報を参照し、前記特定領域を前記イメージ／ノイズ領域に再分類するステップと、
（ｄ）前記ステップ（ａ）及び前記ステップ（ｃ）で分類されたイメージ／ノイズ領域に対して、第２のＯＣＲを用いて、前記イメージ／ノイズ領域に含まれている文字列を認識するステップと、
を含むことを特徴とする文字列認識方法。
前記第１のＯＣＲは、一般テキストに特化したＯＣＲであり、前記第２のＯＣＲは、イメージに特化したＯＣＲであることを特徴とする請求項１に記載の文字列認識方法。
前記ステップ（ｂ）及び前記ステップ（ｄ）で認識された結果を併合して提供するステップ（ｅ）をさらに含むことを特徴とする請求項１または請求項２に記載の文字列認識方法。
前記特定領域は、
前記テキスト領域中の文字を認識した結果に対して距離値を求めた場合に距離値が特定の閾値を超える文字を含む領域であることを特徴とする請求項１から請求項３のいずれかに記載の文字列認識方法。
前記ステップ（ｄ）は、
ワード単位でノイズを判断し、前記認識された文字列からノイズを除去するステップを含むことを特徴とする請求項１から請求項４のいずれかに記載の文字列認識方法。
請求項１から請求項５のいずれかに記載の方法を実行するためのコンピュータプログラムを記録したことを特徴とするコンピュータで読み取り可能な文字列認識プログラム用記録媒体。
テキスト領域及びイメージ／ノイズ領域からなる文書に含まれている文字列を認識するシステムにおいて、
第１のＯＣＲを用いて、前記テキスト領域内に含まれている文字列を認識する第１のＯＣＲ部と、
第２のＯＣＲを用いて、前記イメージ／ノイズ領域内に含まれている文字列を認識する第２のＯＣＲ部と、
前記文書の文書構造を分析し、テキスト領域とイメージ／ノイズ領域とに暫定的に分類した後、言語モデルによって、前記テキスト領域のうち、テキスト領域に誤分類された特定領域に含まれている文字列を見出し、前記第１のＯＣＲから得られた前記特定領域に対する位置情報を参照して、前記特定領域を前記イメージ／ノイズ領域に再分類する文書構造分析部と、
を備えることを特徴とする文字列認識システム。
前記第１のＯＣＲは、一般テキストに特化したＯＣＲであり、前記第２のＯＣＲは、イメージに特化したＯＣＲであることを特徴とする請求項７に記載の文字列認識システム。
前記第１のＯＣＲ部によって認識された結果と、前記第２のＯＣＲ部によって認識された結果とを併合して提供する制御部をさらに備えることを特徴とする請求項７または請求項８に記載の文字列認識システム。
前記特定領域は、
前記テキスト領域に含まれている文字を認識した結果に対して距離値を求める場合、距離値が特定の閾値を超える文字を含む領域に該当されることを特徴とする請求項７から請求項９のいずれかに記載の文字列認識システム。
前記第２のＯＣＲ部は、
前記第２のＯＣＲを用いて認識された結果からノイズを除去することを特徴とする請求項７から請求項１０のいずれかに記載の文字列認識システム。
前記第２のＯＣＲ部は、
前記ノイズを除去するために、ワード単位でノイズを判断することを特徴とする請求項１１に記載の文字列認識システム。