JP2010102709A - 文字列認識方法、文字列認識システム及び文字列認識プログラム用記録媒体 - Google Patents

文字列認識方法、文字列認識システム及び文字列認識プログラム用記録媒体 Download PDF

Info

Publication number
JP2010102709A
JP2010102709A JP2009241530A JP2009241530A JP2010102709A JP 2010102709 A JP2010102709 A JP 2010102709A JP 2009241530 A JP2009241530 A JP 2009241530A JP 2009241530 A JP2009241530 A JP 2009241530A JP 2010102709 A JP2010102709 A JP 2010102709A
Authority
JP
Japan
Prior art keywords
ocr
character string
area
image
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009241530A
Other languages
English (en)
Inventor
Byoung Seok Yang
炳 ▲督▼ 梁
Hee Cheol Seo
熙 ▲兢▼ 徐
Byoung Hoon Yoon
秉 勳 尹
Kijoon Sung
耆 浚 成
Do Gil Lee
道 佶 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NHN Corp
Original Assignee
NHN Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NHN Corp filed Critical NHN Corp
Publication of JP2010102709A publication Critical patent/JP2010102709A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

【課題】イメージ領域及びテキスト領域からなる文書に含まれている文字を認識する方法、システム、及びコンピュータで読み取り可能な記録媒体を提供する。
【解決手段】(a)文書の文書構造を分析し、テキスト領域とイメージ/ノイズ領域に分類するステップと、(b)第1のOCRを用いて、テキスト領域内に含まれている文字列を認識するステップと、(c)言語モデルによって、テキスト領域のうち、テキスト領域に誤分類された特定領域に含まれている文字列を見出し、第1のOCRから得られた特定領域に対する位置情報を参照し、特定領域をイメージ/ノイズ領域に再分類するステップと、(d)ステップ(a)乃至ステップ(c)で分類されたイメージ/ノイズ領域に対して、第2のOCRを用いて、イメージ/ノイズ領域に含まれている文字列を認識するステップと、を含む方法。
【選択図】図3

Description

本発明は、言語モデルとOCRを用いて文書に含まれている文字列を認識する方法、システム及びコンピュータで読み取り可能な記録媒体に関し、より詳しくは、言語モデルによって、OCR結果に含まれているテキストノイズを除去し、OCR認識結果と言語モデルとによって、イメージ領域を判断し、イメージとして判断された領域については、イメージに特化したOCRエンジンを用いて認識を行う方法、システム、及び、コンピュータで読み取り可能な文字列認識プログラム用記録媒体に関する。
最近、デジタル保存媒体の急速な補給によって、既存の紙文書に対するデジタル化作業が盛んに展開されている。このような現象は、文書に含まれている文字を自動に認識する技術である光学式文字認識(Optical Character Recognition;OCR)技術の発展につれてさらに加速化していることが実状である。
文書の中にイメージとテキストが並存する場合は、文字認識のために、テキスト領域とイメージ領域とを区別することが必要となるが、このようにテキスト領域とイメージ領域とを区別することが容易ではないという問題点があった。
ここで、文書に含まれている文字列を認識する方法は様々であるが、その一つが言語モデルを用いることである。言語モデルとは、辞典、使用頻度、使用確率等に基づき、多数の入力文字列に対して、文法や確率を基に、正しい文字である可能性が最も高い出力を出す方法である。このような言語モデルについては、韓国公開特許第2006‐46128号公報の「カメラ入力された文書のための低解像OCR」等に開示されており、文字認識方法及びシステム等において広く用いられている。
しかしながら、イメージ領域の一部がテキスト領域に挿入される場合は、上記した従来の言語モデルを用いたとしても、イメージ領域の一部がテキスト領域に挿入された状態における文法や確率を基に正しい文字である可能性が最も高い出力を行うようになるので、極めて雑然とした認識結果となってしまう。実際に、文書構造分析作業、すなわち、文書をイメージ領域及びテキスト領域に正確に区分することが技術的に困難であるので、上記の問題が頻繁に発生した。
韓国公開特許第2006‐46128号公報
本発明は、上記問題点に鑑みなされたものであり、その目的は、イメージ/ノイズ領域及びテキスト領域からなる文書に含まれている文字をより正確に認識するために、言語モデルによる分析、及びOCR機器への入力文字が文書全体のどこに位置するかに対する情報を参照して、テキスト領域に誤って取り込まれたイメージ/ノイズ領域を判断可能にすることにある。
また、他の目的は、イメージ/ノイズ領域及びテキスト領域からなる文書において、高確度でイメージ/ノイズ領域とテキスト領域とを区分し、イメージ/ノイズ領域に区分された領域に含まれている文字に対し、イメージ特化したOCR技術を用いて、文字認識を成功するようにできることにある。
以下、上記した本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成について説明する。
本発明の一実施形態は、文書に含まれている文字列を認識する方法であって、(a)前記文書の文書構造を分析し、テキスト領域とイメージ/ノイズ領域とに分類するステップと、(b)第1のOCRを用いて、前記テキスト領域内に含まれている文字列を認識するステップと、(c)言語モデルによって、前記テキスト領域のうち、テキスト領域に誤分類された特定領域に含まれている文字列を見出し、前記第1のOCRから得られた前記特定領域に対する位置情報を参照し、前記特定領域を前記イメージ/ノイズ領域に再分類するステップと、(d)前記ステップ(a)及び前記ステップ(c)で分類されたイメージ/ノイズ領域に対して、第2のOCRを用いて、前記イメージ/ノイズ領域に含まれている文字列を認識するステップと、を含む方法を提供する。
また、前記第1のOCRは、一般テキストに特化したOCRであり、前記第2のOCRは、イメージに特化したOCRでもよい。
また、本発明の一実施形態では、前記ステップ(b)及び前記ステップ(d)で認識された結果を併合して提供するステップをさらに含んでもよい。
また、前記ステップ(c)において、前記特定領域は、前記テキスト領域に含まれている文字を認識した結果に対して距離値(distance value、ディスタンス値)を求める場合、距離値が特定の閾値を超える文字を含む領域に該当されてもよい。
また、前記ステップ(d)は、ワード単位でノイズを判断し、前記認識された文字列からノイズを除去するステップを含んでもよい。
本発明の他の実施形態では、テキスト領域及びイメージ/ノイズ領域からなる文書に含まれている文字列を認識するシステムにおいて、第1のOCRを用いて、前記テキスト領域内に含まれている文字列を認識する第1のOCR部と、第2のOCRを用いて、前記イメージ/ノイズ領域内に含まれている文字列を認識する第2のOCR部と、前記文書の文書構造を分析し、テキスト領域とイメージ/ノイズ領域に暫定的に分類した後、言語モデルによって、前記テキスト領域のうち、テキスト領域に誤分類された特定領域に含まれている文字列を見出し、前記第1のOCR部から得られた前記特定領域の位置情報を参照して、前記特定領域を前記イメージ/ノイズ領域に再分類する文書構造分析部と、を備えるシステムを提供する。
また、前記第1のOCRは、一般テキストに特化したOCRであり、前記第2のOCRは、イメージに特化したOCRでもよい。
また、前記システムは、前記第1のOCR部によって認識された結果と、前記第2のOCR部によって認識された結果とを併合して提供する制御部をさらに備えてもよい。
また、前記特定領域は、前記テキスト領域に含まれている文字を認識した結果に対して距離値を求める場合、距離値が特定の閾値を超える文字を含む領域に該当してもよい。
また、前記第2のOCR部は、前記第2のOCRを用いて認識された結果からノイズを除去してもよい。
また、前記第2のOCR部は、前記ノイズを除去するために、ワード単位でノイズを判断してもよい。
これ以外にも、他の方法、他のシステム、及び前記方法を実行するためのコンピュータプログラムを記録するコンピュータで読み取り可能な文字列認識プログラム用記録媒体がさらに提供される。
本発明の特徴的な構成によって達成される本発明の効果は、次の通りである。
1.本発明によれば、イメージ領域及びテキスト領域からなる文書に対して、従来のOCRを用いるよりも文字認識の確度を高くすることができる。
2.本発明によれば、任意の文書に含まれているイメージ領域及びテキスト領域を正確に区分し、テキスト専用OCR及びイメージ専用OCR等を適材適所に適用することができる。
本発明の一実施形態における光学式文字認識システムの構成を例示的に示す図である。 本発明の一実施形態におけるテキストOCR部の詳細な構成を例示的に示す図である。 本発明の一実施形態におけるテキスト領域及びイメージ領域からなる文書に含まれている文字列を認識する過程を示す概略図である。 本発明の一実施形態におけるテキスト領域及びイメージ領域からなる文書に含まれている文字列を認識する場合の例示を示す図である。
後述する本発明についての詳細な説明においては、本発明の実施形態を例示として示す添付図面を参照する。これらの実施形態は、当業者が本発明を十分に実施することができるように詳細に説明される。本発明の多様な実施形態は、互いに異なるが、相互排他的である必要はない。例えば、ここに記載されている特定の形状、構造及び特性は、一実施形態と関連して、本発明の精神及び範囲から逸脱することなく様々な他の実施形態に具現され得る。また、それぞれの開示された実施形態内の個別構成要素の位置または配置は、本発明の精神及び範囲から逸脱することなく変更され得ることが理解されるべきである。従って、後述する詳細な説明は、限定的な意味として解釈されてはならず、本発明の範囲は、特許請求の範囲によってのみ限定される。なお、図面において、類似した参照符号同士は、いくつかの側面にわたって同一または類似の機能を有する。
以下、本発明の属する技術の分野における通常の知識を有する者が、本発明を容易に実施することができるようにするため、添付した図面を参照し、本発明の好適な実施形態について詳述する。
本発明の明細書においては、テキスト領域に対して光学式文字認識を行うOCRとして、一般テキスト特化したOCRを想定し、イメージ領域に含まれている文字に対して光学式文字認識を行うOCRとして、イメージ特化したOCRを想定して記述しているが、必ずしも本発明に用いるOCRはこれに限定されるものではなく、テキスト領域に対して光学式文字認識を行うOCRとして、テキスト及びイメージのいずれに対しても使用可能なOCRや、その他のタイプのOCRを採用する場合や、イメージ領域に含まれている文字に対して光学式文字認識を行うOCRとして、イメージ及びテキストのいずれに対しても使用可能なOCRや、その他のタイプのOCRを採用する場合も、本発明の権利範囲に含まれる。
[本発明の好適な実施形態]
図1は、本発明の一実施形態による光学式文字認識システム100の構成を例示的に示す図である。
図1を参照すると、光学式文字認識システム100は、文書情報入力部110、文書構造分析部120、テキストOCR部130、イメージOCR部140、制御部150、及び通信部160を備える。本発明の一実施形態において、文書情報入力部110、文書構造分析部120、テキストOCR部130、イメージOCR部140、制御部150、及び通信部160は、そのうち、少なくとも一部が、外部端末装置や外部サーバ等と通信するプログラムモジュールであってもよい。このようなプログラムモジュールは、運用システム、応用プログラムモジュール及びその他のプログラムモジュールとして、光学式文字認識システム100に含まれていてもよく、物理的には様々な公知の記憶装置上に保存されていてもよい。また、このようなプログラムモジュールは、光学式文字認識システム100と通信可能な遠隔記憶装置に保存されていてもよい。一方、このようなプログラムモジュールは、本発明について後述する特定の業務を行い、または、特定の抽象データ型を実行するルーチン、サブルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を包括するが、これに制限されるものではない。
本発明の一実施形態による光学式文字認識システム100は、スキャナ、カメラ等のような画像データ生成装置に包含または接続されてもよく、本発明の他の実施形態による光学式文字認識システム100は、個人用コンピュータ(例えば、デスクトップコンピュータ、ノート型パソコン、タブレット型パソコン、パームトップコンピュータ等)、ワークステーション、PDA、ウェブパッド、携帯電話等のようなデジタル機器に包含または接続されてもよい。ここで、通信ネットワークは、有線及び無線等のようなその通信様態によらず、ローカルエリア・ネットワーク(LAN:Local Area Network)、都市規模ネットワーク(MAN:Metropolitan Area Network)、広域ネットワーク(WAN:Wide Area Network)等の多様なネットワークで構成されてもよい。
本発明の一実施形態による文書情報入力部110は、デジタル機器からテキスト及び/またはイメージが含まれている文書についての情報を受信することができ、前記受信された文書についての情報を文書構造分析部120に伝達する機能を行うことができる。
本発明の一実施形態による文書構造分析部120は、文書の構造を把握するにあたって、文書の全領域をテキスト領域とイメージ領域等に分類することができる。文書構造に対する分析は、ゾーン(Zone)単位で行われるが、一般に、このような単位は、文字列の段落単位とほぼ類似している。前記文書構造分析部120については、以下において詳細に説明される。
本発明の一実施形態によるテキストOCR部130は、テキスト領域に含まれている文字を認識する機能を行う。図2に示すように、テキストOCR部130は、セグメンテーション部131、文字正規化部132、及び文字認識部133を有してもよいが、必ずしもこれに限定されるものではない。
本発明の一実施形態によるセグメンテーション部131は、テキスト領域に含まれている文字列を文字別に分割する機能を行うことができる。
具体的に、セグメンテーション部131は、テキスト領域に対して、行間走査(Projection)によって、テキスト領域内に含まれているラインを分割する機能を行うことができ、分割されたラインに連結成分ラベリング(Connected Component Labeling)技法を適用し、コンマ、ピリオド、感嘆符、コロン、セミコロン、括弧、引用符号等のような句読点を認識する機能を行うことができ、句読点を中心に分離されたワードを、空白を基準として再分割する機能を行い、該当する言語の特性によって文字を分割する機能を行うことができる。本発明のセグメンテーション部131は、前記機能に限定されるものではなく、様々な変形例を実現可能である。
一方、本発明の一実施形態による文字正規化部132は、分割された文字を特定の比率で正規化する機能を行うことができ、文字認識部133は、正規化した文字を認識する機能を行うことができる。
本発明の一実施形態によるイメージOCR部140は、イメージ/ノイズ領域に含まれている文字を認識する機能を行う。
本発明の一実施形態によるイメージOCR部140は、公知のイメージに特化したOCRを用いて具現することができる。例えば、イメージに特化したOCR技術は、Chuang Liらが著述し、2001年IEEEに掲載された論文である「Automatic Text Location in Natural Scene Images」及びLi Xuらが著述し、中国上海JiaoTong大学のDepartment of Computer Science and Engineeringにおいて発表した論文である「A Novel Method for Character Segmentation in Natural Scenes」等のような公知の技術のうち、少なくとも一つを用いて行われてもよい(前記論文に記載の内容は、その全体が本明細書に併合されているものと考慮されなければならない)。但し、上記に列挙された公知の技術によって、本発明が限定されて解釈されるものではない。
また、本発明の一実施形態による制御部150は、文書情報入力部110、文書構造分析部120、テキストOCR部130、イメージOCR部140、及び通信部160間のデータの流れを制御する。
また、本発明の一実施形態による通信部160により、本発明による光学式文字認識システム100が、スキャナ、カメラ等のような外部装置と通信できるようにしてもよい。
以下、本発明の一実施形態による光学式文字認識システム100が、イメージ領域及びテキスト領域からなる文書に含まれている文字列を認識するための過程について、図3及び図4を参照して詳述する。
1.テキスト領域とイメージ/ノイズ領域の区分け
図3は、本発明の一実施形態によって、テキスト領域及びイメージ領域からなる文書に含まれている文字列を認識する過程を具体的に示す図である。
ステップS110において、先ず、入力された文書の文書構造を分析し、前記文書をテキスト領域とイメージ/ノイズ領域に暫定的に分離する。
文書構造分析部120は、二進化された映像情報の領域に基づいて、文書の構造を分析することができる。暫定的に二進化された映像情報を記憶装置内のテキスト標準パターンと比較して類似度の高い領域を区画化し、テキスト領域として分類し、テキスト標準パターンと比較して類似度の低い領域を区画化し、イメージ/ノイズ領域として分類する。テキスト標準パターンは、多様な書体のフォント情報であって、データベースの形態で記憶装置に保存されていてもよく、文書構造分析部120が文書の構造を分析して領域を分類する過程で参照されてもよい。この際、全文書において、テキスト領域及びイメージ/ノイズ領域が占める位置に対する情報が保存されてもよい。
2.テキスト領域内の文字列の認識
ステップS120において、上記したステップにより分類されたテキスト領域を分析し、テキスト領域内に含まれている文字列に関する情報を認識する。
テキストOCR部130は、上述したように、セグメンテーション部131においてテキスト領域に含まれている文字列をそれぞれの構成文字に分割し、文字正規化部132は、分割された文字を特定の比率で正規化し、文字認識部133は、正規化した文字を認識することができる。
3.テキスト領域と判断された特定領域をテキスト領域から除外
テキスト領域と判断された領域のうち、特定領域をテキスト領域から除外するステップS130が行われる。
先ず、前記ステップS130の説明に先立って、本ステップで適用される言語モデルの概念について説明する。言語モデルは、OCRされた結果を補正する機能を有する。具体的には、イメージ領域と暫定的に判定された領域のうち、ある特定領域がテキスト領域として誤って分類されてOCRされたか否かを判断するために、前記イメージ領域中の特定領域に含まれている文字の距離値が特定の閾値を超えるか否かを判断し、前記特定の閾値を超える場合は、前記特定領域がテキスト領域として誤分類されたイメージ/ノイズ領域であるものとして、言語モデルの出力データから除去する。ここで、任意の領域に含まれている文字の距離を計算する方法そのものは、字画の数の差または字画の位置の差等を用いて求め、または、様々な従来技術を参照して実現可能であり、当業者において公知であるので、詳細な説明は省略する。
この際、文書構造分析部120は、上述した言語モデルに通じて、テキスト領域内の特定領域に属する文字の距離値が、特定の閾値を超える場合、前記特定領域を誤った領域(テキスト領域に分類されてはならない領域)と判断し、言語モデルの出力データから除去することができるが、この際、テキストOCR部130により補助してもよい。言語モデルの入力値そのものは、純粋なテキスト値としてのみ存在するため、前記特定領域を出力データから除去するためには、テキストOCR部130が得ている入力文字の位置情報を参照する必要があるからである。このように、言語モデルを通じて、文字の距離値が特定の閾値を超える特定領域を見出し、OCRによって、前記特定領域の位置情報を見つけることにより、どんな単位でテキスト領域とイメージ/ノイズ領域を分離するのが良いかについて判断することができる。
4.除外された特定領域をイメージ/ノイズ領域に併合
文書構造分析部120とテキストOCR部130によって、テキスト領域から除外された特定領域をイメージ/ノイズ領域に併合するステップS140が行われる。
通信部160は、文書構造分析部120によって、ステップS110においてイメージ/ノイズ領域に分類された領域と、ステップS130においてテキスト領域から除外され、イメージ/ノイズ領域に再分類された領域とを併合する。
例えば、図4を参照すると、ステップS130及びステップS140によって、任意の文書400を、テキスト領域400a及びイメージ/ノイズ領域400bに正確に分類できることが分かる。
5.イメージ/ノイズ領域内の文字列を認識
ステップS150において、上記併合されたイメージ/ノイズ領域を、イメージに特化した光学式文字読取装置を備えるイメージOCR部140によって分析し、イメージ/ノイズ領域内に存在する文字列を認識する。
図4を参照すると、ステップS150によって、イメージ/ノイズ領域400b内に存在する文字列420、440が認識されていることが分かる。ここで、イメージ/ノイズ領域400b内に存在する領域410、430については、領域410、430に文字が含まれているものと誤って認識された場合に、言語モデルによって、ワード単位でノイズ判断を行い、このような領域410、430を、イメージに特化したОCRによって認識した結果、「
」や「
」は、ノイズと判断され、OCR結果から除去され得る。
6.テキスト領域及びイメージ/ノイズ領域内の文字列を併合
ステップS160において、テキスト領域において認識された文字列と、前記イメージ/ノイズ領域において認識された文字列とを併合する。
通信部160は、テキストOCR部130によって認識された文字列と、前記イメージOCR部140によって認識された文字列とを併合する。
図4を参照すると、テキストOCR部130によって認識されたテキスト領域400a内の文字列と、イメージOCR部140によって認識されたイメージ/ノイズ領域400b内の文字列420、440とが併合されて提供されることが分かる。
上述した本発明による実施形態は、様々なコンピュータ構成要素を通じて行われるプログラム命令語の形で具現され、コンピュータで読み取り可能な記録媒体に記録されてもよい。コンピュータで読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造等を単独でまたは組み合わせて含んでもよい。前記記録媒体に記録されるプログラム命令語は、本発明のために特に設計されて構成されたものであるが、コンピュータソフトウェア分野の当業者に公知されて使用可能なものでもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、及び磁気テープのような磁気媒体、CD‐ROM、DVD等のような光記録媒体、フロプティカルディスクのような磁気‐光媒体(magneto−optical media)、及びROM、RAM、フラッシュメモリ等のような、プログラム命令語を保存して実行するように構成されたハードウェア装置が挙げられるが、これに限られない。プログラム命令語の例としては、コンパイラで作成されるような機械語コードのみならず、インタープリター等を用いてコンピュータで実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために、一つ以上のソフトウェアモジュールとして動作可能に構成されてもよく、その逆も同様である。
以上、本発明の実施形態が、具体的な構成要素等のような特定事項と、限定された実施形態及び図面によって説明されているが、これは、本発明の全般的な理解のためのものであるだけで、本発明が上記した実施形態に限定されるものではなく、本発明の属する分野における通常の知識を有する者であれば、このような記載から様々な修正及び変形を行うことができる。
従って、本発明の思想は、上述された実施形態に限定されるものではなく、後述する特許請求の範囲のみならず、この特許請求の範囲と均等にまたは等価的に変形された全てのものについても、本発明の思想が及ぶものと言える。
100 光学式文字認識システム
110 文書情報入力部
120 文書構造分析部
130 テキストOCR部
131 セグメンテーション部
132 文字正規化部
133 文字認識部
140 イメージOCR部
150 制御部
160 通信部

Claims (12)

  1. 文書に含まれている文字列を認識する方法であって、
    (a)前記文書の文書構造を分析し、テキスト領域とイメージ/ノイズ領域とに分類するステップと、
    (b)第1のOCRを用いて、前記テキスト領域内に含まれている文字列を認識するステップと、
    (c)言語モデルによって、前記テキスト領域のうち、前記テキスト領域に誤分類された特定領域に含まれている文字列を見出し、前記第1のOCRから得られた前記特定領域の位置情報を参照し、前記特定領域を前記イメージ/ノイズ領域に再分類するステップと、
    (d)前記ステップ(a)及び前記ステップ(c)で分類されたイメージ/ノイズ領域に対して、第2のOCRを用いて、前記イメージ/ノイズ領域に含まれている文字列を認識するステップと、
    を含むことを特徴とする文字列認識方法。
  2. 前記第1のOCRは、一般テキストに特化したOCRであり、前記第2のOCRは、イメージに特化したOCRであることを特徴とする請求項1に記載の文字列認識方法。
  3. 前記ステップ(b)及び前記ステップ(d)で認識された結果を併合して提供するステップ(e)をさらに含むことを特徴とする請求項1または請求項2に記載の文字列認識方法。
  4. 前記特定領域は、
    前記テキスト領域中の文字を認識した結果に対して距離値を求めた場合に距離値が特定の閾値を超える文字を含む領域であることを特徴とする請求項1から請求項3のいずれかに記載の文字列認識方法。
  5. 前記ステップ(d)は、
    ワード単位でノイズを判断し、前記認識された文字列からノイズを除去するステップを含むことを特徴とする請求項1から請求項4のいずれかに記載の文字列認識方法。
  6. 請求項1から請求項5のいずれかに記載の方法を実行するためのコンピュータプログラムを記録したことを特徴とするコンピュータで読み取り可能な文字列認識プログラム用記録媒体。
  7. テキスト領域及びイメージ/ノイズ領域からなる文書に含まれている文字列を認識するシステムにおいて、
    第1のOCRを用いて、前記テキスト領域内に含まれている文字列を認識する第1のOCR部と、
    第2のOCRを用いて、前記イメージ/ノイズ領域内に含まれている文字列を認識する第2のOCR部と、
    前記文書の文書構造を分析し、テキスト領域とイメージ/ノイズ領域とに暫定的に分類した後、言語モデルによって、前記テキスト領域のうち、テキスト領域に誤分類された特定領域に含まれている文字列を見出し、前記第1のOCRから得られた前記特定領域に対する位置情報を参照して、前記特定領域を前記イメージ/ノイズ領域に再分類する文書構造分析部と、
    を備えることを特徴とする文字列認識システム。
  8. 前記第1のOCRは、一般テキストに特化したOCRであり、前記第2のOCRは、イメージに特化したOCRであることを特徴とする請求項7に記載の文字列認識システム。
  9. 前記第1のOCR部によって認識された結果と、前記第2のOCR部によって認識された結果とを併合して提供する制御部をさらに備えることを特徴とする請求項7または請求項8に記載の文字列認識システム。
  10. 前記特定領域は、
    前記テキスト領域に含まれている文字を認識した結果に対して距離値を求める場合、距離値が特定の閾値を超える文字を含む領域に該当されることを特徴とする請求項7から請求項9のいずれかに記載の文字列認識システム。
  11. 前記第2のOCR部は、
    前記第2のOCRを用いて認識された結果からノイズを除去することを特徴とする請求項7から請求項10のいずれかに記載の文字列認識システム。
  12. 前記第2のOCR部は、
    前記ノイズを除去するために、ワード単位でノイズを判断することを特徴とする請求項11に記載の文字列認識システム。
JP2009241530A 2008-10-22 2009-10-20 文字列認識方法、文字列認識システム及び文字列認識プログラム用記録媒体 Pending JP2010102709A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080103890A KR101028670B1 (ko) 2008-10-22 2008-10-22 언어모델과 ocr을 이용하여 문서에 포함된 문자열을 인식하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Publications (1)

Publication Number Publication Date
JP2010102709A true JP2010102709A (ja) 2010-05-06

Family

ID=42219336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009241530A Pending JP2010102709A (ja) 2008-10-22 2009-10-20 文字列認識方法、文字列認識システム及び文字列認識プログラム用記録媒体

Country Status (2)

Country Link
JP (1) JP2010102709A (ja)
KR (1) KR101028670B1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014223422A (ja) * 2014-07-10 2014-12-04 株式会社三洋物産 遊技機
CN110533020A (zh) * 2018-05-25 2019-12-03 腾讯科技(深圳)有限公司 一种文字信息的识别方法、装置及存储介质
WO2020060632A1 (en) * 2018-09-21 2020-03-26 Microsoft Technology Licensing, Llc Converting an image into a structured table

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220648B (zh) * 2017-04-11 2018-06-22 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器
KR102129485B1 (ko) * 2018-11-30 2020-07-03 동국대학교 산학협력단 태그 클라우드 생성 장치 및 방법
KR102480235B1 (ko) 2020-11-16 2022-12-22 엔에이치엔클라우드 주식회사 딥러닝 기반 광학문자인식 장치 및 그 시스템
KR102324221B1 (ko) * 2021-03-31 2021-11-10 주식회사 매직핑거 이미지 문서의 비정형 레이아웃 인식 방법
KR20230079938A (ko) 2021-11-29 2023-06-07 (주)아이씨엔아이티 Ocr을 이용하여 문서이미지에 포함된 객체를 추출하는 시스템 및 그 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06180771A (ja) * 1992-12-11 1994-06-28 Matsushita Electric Ind Co Ltd 英文字認識装置
JPH07160818A (ja) * 1993-12-02 1995-06-23 Fujitsu Ltd 集中文字認識システム及び文字認識装置
JPH09218959A (ja) * 1996-02-13 1997-08-19 Ricoh Co Ltd 画像処理装置
JP2001243425A (ja) * 2000-02-29 2001-09-07 Mitsubishi Electric Corp オンライン文字認識装置およびオンライン文字認識方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328304A (ja) 1998-05-13 1999-11-30 Oki Electric Ind Co Ltd 文字読取システム
JP2001069299A (ja) 1999-08-27 2001-03-16 Ricoh Co Ltd ファクシミリ装置
US7480403B2 (en) 2004-11-16 2009-01-20 International Business Machines Corporation Apparatus, system, and method for fraud detection using multiple scan technologies

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06180771A (ja) * 1992-12-11 1994-06-28 Matsushita Electric Ind Co Ltd 英文字認識装置
JPH07160818A (ja) * 1993-12-02 1995-06-23 Fujitsu Ltd 集中文字認識システム及び文字認識装置
JPH09218959A (ja) * 1996-02-13 1997-08-19 Ricoh Co Ltd 画像処理装置
JP2001243425A (ja) * 2000-02-29 2001-09-07 Mitsubishi Electric Corp オンライン文字認識装置およびオンライン文字認識方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014223422A (ja) * 2014-07-10 2014-12-04 株式会社三洋物産 遊技機
CN110533020A (zh) * 2018-05-25 2019-12-03 腾讯科技(深圳)有限公司 一种文字信息的识别方法、装置及存储介质
WO2020060632A1 (en) * 2018-09-21 2020-03-26 Microsoft Technology Licensing, Llc Converting an image into a structured table
US10990814B2 (en) 2018-09-21 2021-04-27 Microsoft Technology Licensing, Llc Converting an image into a structured table

Also Published As

Publication number Publication date
KR20100044668A (ko) 2010-04-30
KR101028670B1 (ko) 2011-04-12

Similar Documents

Publication Publication Date Title
CA3027038C (en) Document field detection and parsing
JP2010102709A (ja) 文字列認識方法、文字列認識システム及び文字列認識プログラム用記録媒体
Namboodiri et al. Document structure and layout analysis
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
Sain et al. Multi-oriented text detection and verification in video frames and scene images
JP4516778B2 (ja) データ処理システム
JP6188976B2 (ja) 画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体
US20160307067A1 (en) Method and apparatus for determining a document type of a digital document
US8345978B2 (en) Detecting position of word breaks in a textual line image
US20190019052A1 (en) Text Region Detection in Digital Images using Image Tag Filtering
JP4598466B2 (ja) インク入力内のリストを検出するシステムおよび方法
US20150055866A1 (en) Optical character recognition by iterative re-segmentation of text images using high-level cues
JP5539488B2 (ja) 参照背景色に基づく透明化塗りつぶしの判定
CN115082942A (zh) 一种基于YOLO v5的文档图像流程图识别方法、设备及介质
Wang et al. A study on the document zone content classification problem
US9811726B2 (en) Chinese, Japanese, or Korean language detection
KR20220001958A (ko) 다중 클래스 객체 인식 장치 및 방법
Feild Improving text recognition in images of natural scenes
Liu et al. Detection and segmentation text from natural scene images based on graph model
US10977527B2 (en) Method and apparatus for detecting door image by using machine learning algorithm
CN111488870A (zh) 文字识别方法和文字识别装置
KR20140112869A (ko) 문자 인식 장치 및 방법
JP2002245404A (ja) 領域切り出しプログラムおよび装置
CN115082919B (zh) 一种地址识别方法、电子设备及存储介质
KR102303848B1 (ko) 이미지 분석을 통한 위치 탐색 방법 및 그 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20131118

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140520