JP5634972B2 - テキストセグメンテーションのための方法、コンピュータプログラム製品およびシステム - Google Patents

テキストセグメンテーションのための方法、コンピュータプログラム製品およびシステム Download PDF

Info

Publication number
JP5634972B2
JP5634972B2 JP2011246300A JP2011246300A JP5634972B2 JP 5634972 B2 JP5634972 B2 JP 5634972B2 JP 2011246300 A JP2011246300 A JP 2011246300A JP 2011246300 A JP2011246300 A JP 2011246300A JP 5634972 B2 JP5634972 B2 JP 5634972B2
Authority
JP
Japan
Prior art keywords
text
point
division
points
split
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011246300A
Other languages
English (en)
Other versions
JP2012234512A (ja
Inventor
アーマッド・アブドゥルカデル
フセイン・ハリド・アル−オマリ
モハメド・スレイマン・ホルシード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
King Abdulaziz City for Science and Technology KACST
Original Assignee
King Abdulaziz City for Science and Technology KACST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by King Abdulaziz City for Science and Technology KACST filed Critical King Abdulaziz City for Science and Technology KACST
Publication of JP2012234512A publication Critical patent/JP2012234512A/ja
Application granted granted Critical
Publication of JP5634972B2 publication Critical patent/JP5634972B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

発明の分野
本発明は、概してテキスト画像のセグメンテーションのための方法およびシステムに関する。より具体的には、本発明はテキストの画像を複数のテキストセグメントにセグメント化する方法およびシステムに関する。
発明の背景
スキャンした文書を編集可能で検索可能なテキストに自動的に変換することは、正確で堅牢な光学式文字認識(OCR)システムの使用を要求する。OCRシステムは、テキストの入力画像を文字の単位にセグメント化することによって画像からのテキストを認識することを含む。英語のテキストのためのOCRシステムは、さまざまな理由によって高いレベルの正確性に達した。主な理由の1つは、英語のテキストを分離した文字へと前処理してOCRシステムへの入力として与える能力である。印刷された英語のテキストのくっついていない性質のため、英語のテキストの各々の文字は分離可能である。しかしながら、互いに触れ合う文字を持つテキストのスキャンされた画像は、OCRシステムへの試みをもたらすと共に、そのピッチが可変である場合に正確性を低減させる。そのような互いにくっつく種類の文字は、さまざまな言語に関するテキストにおいて見出し得る。
たとえば、アラビア語のスキャンされたテキストは、一連の触れ合う文字を含み、それゆえにそのテキストを文字にセグメント化することはより一層難しい。さらに、アラビア語のテキストは、文字およびそれに続く母音の発音を示すための、文字の上または下に置かれた点およびアクセント記号を含み得るが、それはOCRシステムに対する別の試みを提供する。これは、英語のために設計された周知の前処理の技術が正確にアラビア語のテキストを処理することを妨げる。さらに、アラビア語の文字は、直交するものではなく、それらの文字のいくつかは、他の文字のサブセットである。このことは、セグメント化処理を複雑にするが、それはテキストの内容を考慮する必要があり得るためである。
アラビア語のテキストの別の特徴は、アラビア語のテキストは、母音を示すアクセント記号があってもなくても記述可能であるということである。さらに、多くのアラビア語の文字は、その文字が単語の最初、単語の中、単語の終わりに置かれているか、または孤立した文字として置かれているかどうかに依存して3または4の形状を含む。したがって、単語内の文字のアクセント記号および位置によりアラビア語のテキストはさまざまな組合せが可能であるということは、現在のOCR前処理システムでのアラビア語のテキストの前処理をより不正確なものにする。さらに、一列以上のアラビア語のテキストおよび非テキストの項目を有する画像の場合、各列に関連するアラビア語のテキストは、フォントのサイズ、フォントのスタイル、フォントの色などを変化させ得る。フォントのサイズが変化することにより、隣の列を正確にセグメント化できない可能性がある。
アラビア語のテキストをセグメント化するための技術は、テキストの画像の黒色の画素を右から左に追跡して、文字の外形を特定し、続いて文字をセグメント化することを含む。他の技術は、画像中のテキストの文字をセグメント化するために水平または垂直の投影を利用する。しかしながら、これらの技術は完全に自動化され、アラビア語のテキストのさまざまな特徴に対応できない可能性がある。
したがって、テキストのさまざまな特徴を十分に考慮して、テキストを複数のテキストセグメントにセグメント化する方法およびシステムに対する必要性が存在する。
図面の簡単な説明
添付の図面は、同様の参照符号が別々の図面を通して同一または機能的に同様の要素を参照するものであり、以下の詳細な説明と共に、明細書に取り入れられて明細書の一部を形成するものであるが、さらにさまざまな実施の形態を図示するものであり、本発明に従うさまざまな原理および利点を説明するものである。
本発明の実施の形態に従う、テキストをセグメント化する方法のフロー図を示す。 本発明の別の実施の形態に従う、テキストをセグメント化する方法のフロー図を示す。 本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。 本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。 本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。 本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。 本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。 本発明の実施の形態に従う、テキストをセグメント化するためのシステムを示す。
当業者は、図中の要素が単純さおよび明確さのために図示されており、拡大縮小して描かれる必要がないということを理解するであろう。たとえば、図中のいくつかの要素の寸法は、本発明の実施の形態の理解の改善に役立つように、他の要素に対して誇張されている。
発明の詳細な説明
本発明に従う実施の形態を詳細に説明する前に、実施の形態は、主としてテキストをセグメント化するための方法およびシステムに関する方法のステップと装置の構成要素との組合せに存在することが見てとれるべきである。したがって、装置の構成要素および方法のステップは、図中の従来の記号によって適切に表現され、本明細書の記載の恩恵を有する当業者にとって直ちに明らかになるであろう詳細の開示を隠すことがないように、本発明の実施の形態を理解することに関連して、それらの具体的な詳細を示すのみである。
この文書において、第1および第2、上および下などの関連する用語は、そのような実体または行為の間の現実のそのような関係または順番を必ずしも要求または暗示することなく、単に、1つの実体または行為を他の実体または行為から区別するために用いられ得る。「備える(comprises)」、「備えている(comprising)」またはそれらの他のいかなる変形の用語も、要素のリストを備えるプロセス、方法、項目または装置が、それらの要素のみを含むということではなく、明確に挙げられていないか、または隠されているそのようなプロセス、方法、項目または装置の他の要素を含み得るように、排他的ではない包含を含めるものである。「…を備える(comprises...a)」によって続けられる要素は、さらなる制約なく、その要素を備えるプロセス、方法、項目または装置における追加の同一の要素の存在を排除するものではない。
この明細書に記載された本発明の実施の形態は、1以上の従来のトランザクション−クライアントおよび固有の保存されたプログラム命令を備え得るが、その命令は、1以上のトランザクション−クライアントを制御して、ある非トランザクション−クライアント回路と関連して、画像中のテキストを認識するために画像をセグメント化するためのいくつかの、あるいは大抵の、あるいはすべての方法の機能を実現する。非トランザクション−クライアント回路は、無線受信機と、無線送信機と、信号駆動機と、クロック回路と、電源回路と、ユーザ入力装置とを含み得るが、これらに限定されるものではない。そのようなものとして、これらの機能は、画像中のテキストを認識するために画像をセグメント化するための方法のステップとして解釈され得る。代わりに、いくつかあるいはすべての機能は、保存されたプログラム命令を有していないステートマシンによって実現されてもよく、あるいは1以上の特定用途集積回路(ASIC)によって実現されてもよく、ASICにおいては、各機能またはある機能のいくつかの組合せは、カスタムロジックとして実現される。当然ながら、2つのアプローチの組合せも用いられ得る。したがって、これらの機能のための方法および手段は、本明細書において記述される。さらに、たとえば、利用可能な時間、現在の技術および経済的な考慮によって動機付けられる可能な重要な努力および多くの設計の選択にも拘らず、当業者は直ちに、そのようなソフトウェア命令およびプログラムおよびICを最少の実験で生成することが直ちに可能であるだろう。
一般的に言えば、さまざまな実施の形態に従い、本発明はテキストを複数のセクションにセグメント化するための方法およびシステムを提供する。方法は、テキストの複数の分割点のうちの1以上の分割点に対応する1以上の入力ラベルをユーザから受けることを含む。テキストの複数の分割点は、テキストに1以上の分割ヒューリスティックを適用することによって得られる。ユーザによって与えられる1以上の入力ラベルは、テキストの複数の分割点にラベル付けをするために用いられる。ラベル付けに応じて、検証が実行されて、複数の分割点のある分割点が妥当な分割点であるかどうかが特定される。その後、検証に基づいて、妥当な分割点の組が複数の分割点のうちの1以上の分割点で更新される。妥当な分割点の組は、複数のセクションを認識するためのテキストのセグメント化を容易にする。
図1は、本発明の実施の形態に従う、テキストをセグメント化する方法のフロー図を示す。テキストの複数のテキストセグメントを得るために、テキストはセグメント化される。複数のテキストセグメントは、少なくとも1つの文字、単語、ラインおよび特殊文字を含み得る。本発明のさまざまな実施の形態において、テキストは画像の形態であり得る。画像は、グレースケール画像およびカラー画像のうちの1つであり得る。画像は1以上の文書をスキャンすることによって得られ得る。しかしながら、当業者にとっては、テキストは他の任意の形態で得られ得るということが明らかであるだろう。これらの文書はオフラインまたはオンラインで利用可能であり得る。文書は、手書きまたはタイプされたものであり得る。文書の画像からテキストを認識するために、ステップ102における方法は、テキストの複数の分割点のうちの1以上の分割点に対応する、1以上の入力ラベルをユーザから受けることを含む。複数の分割点は、テキストの画像に1以上の分割ヒューリスティックを適用することによって得られる。1以上の分割ヒューリスティックの例は、水平および垂直画素濃度ヒストグラムおよびヒューリスティックに基づく外形検出を含むが、それに限定されるものではない。1以上の分割ヒューリスティックを利用することによって、画像中のテキストは複数の分割点で印付けされる。複数の分割点のうちのある分割点は、テキストの1以上のテキストセグメントを分離する点または境界に対応する。たとえば、ある分割点はテキストの2つの文字を分離し得る。
複数の分割点の決定により、1以上の分割点に対応する手入力がユーザによってなされる。手入力は、複数の分割点のうちの1以上の分割点に対応する1以上の入力ラベルをユーザから受けることによってなされる。1以上の入力ラベルは、ユーザインターフェイスを利用することによってユーザから受信され得る。ユーザインターフェイスの例は、タッチスクリーン、キーボード、マウスなどを含むがこれらに限定されるものではない。
1以上の入力ラベルは、テキストの分割点の正しさを示す。さらに、1以上の入力ラベルは、画像のサンプル部分において、ユーザから受信され得る。たとえば、入力ラベルは、画像の小さな部分内のテキストの一部の1以上の分割点に対応し、ユーザによって提供され得る。これらの入力ラベルは、次にテキストの全体の画像において分割点の正しさを確認するために利用され得る。ある実施の形態において、1以上の分割点のためにユーザに対して生成される質問への回答として、入力ラベルは提供され得る。たとえば、質問は、1以上の分割点の正しさを確認するために対応する、ユーザへの質問であり得る。質問に応じて、ユーザは1以上の分割点のうちの1以上の妥当な分割点を示す1以上の入力ラベルを提供することによって回答を提出することができる。他の実施の形態において、入力ラベルは、1以上の分割点の妥当性を示すバイナリ値であり得る。たとえば、ユーザは、妥当な分割点に対して入力ラベル「1」を提供し、妥当ではない分割点に対して入力ラベル「0」を提供し得る。ユーザは、他の任意の形態で1以上の入力ラベルを提供し得る。
ユーザから1以上の入力ラベルを受けることにより、ステップ104において、その1以上の入力ラベルに基づく複数の分割点の分析が実行される。1以上の入力ラベルに対応する1以上の分割点のマッピングを複数の分割点で特定するために、複数の分割点が分析される。マッピングに基づいて、複数の分割点における妥当な分割点が特定され得る。
分析に応じて、ステップ106において、複数の分割点のうちのある分割点が検証される。検証は、複数の分割点のうちのある分割点が妥当な分割点を示すものであるかどうかを特定することを含む。妥当な分割点は、テキストの少なくとも2つのテキストセグメントを分離する。任意の分割点が妥当な分割点として一旦特定されると、この妥当な分割点は、妥当な分割点の組に加えられ得る。妥当な分割点の組は、初めに知られ得るそのような分割点をグループ化することによって生成される。1つの実施形態において、分割点の組はいくつかの標準的な分割点をグループ化することによって生成され得る。たとえば、妥当な分割点の組は、点、スペースおよび特殊文字のようないくつかの分割点を含むことによって生成され得る。さらに、その分割点の組は、既知の1以上の文字を含み得る。
その後、ステップ108において、検証に基づいて妥当な分割点の組が更新される。更新は、妥当な分割点の組の中に1以上の分割点を含むことを要する。したがって、ステップ106で実行された検証に基づき、妥当な分割点を示す1以上の分割点が妥当な分割点の組に加えられる。妥当な分割点の組は、次に、テキストを複数のテキストセグメントにセグメント化するために用いられる。当該技術において知られているさまざまな手法が、妥当な分割点の組を利用することによってテキストをセグメント化するために用いられ得る。更新によって、妥当な分割点の組は、テキストの1以上の部分のセグメント化を容易にし得る。1以上の部分の例は、単一の単語、文および段落を含むがこれらに限定されるものではない。したがって、テキストの残りの部分は、フロー図の上記のステップを利用することによってさらに分析される。フロー図の上記のステップは繰返し実行されて、テキストの実質的な部分がセグメント化されて、テキストを認識するためにテキストをセグメント化するために、妥当な分割点の総合的な組が得られる。
ここで図2に戻り、本発明の別の実施の形態に従う、テキストをセグメント化する方法のフロー図が示される。ステップ202において、方法はテキストの画像に1以上の分割ヒューリスティックを適用することを含む。画像は、グレースケール画像およびカラー画像のうちの1つであり得る。画像は、1以上の文書をスキャンすることによって得られ得る。これらの文書はオフラインまたはオンラインで利用可能であり得る。さらに、文書は手書きまたはタイプされたものであり得る。テキストの画像は水平および垂直投影、および外形ベースのヒューリスティックのような1以上の分割ヒューリスティックを利用することによって分析されるが、分割ヒューリスティックはこれらに限定されるものではない。1以上の分割ヒューリスティックを利用することによって、画像中のテキストは複数の分割点で印付けされる。複数の分割点のうちのある分割点は、テキストの1以上のテキストセグメントを分離する点または境界に対応する。たとえば、ある分割点はテキストの2つの文字を分離し得る。
複数の分割点の決定により、ステップ204において、1以上の入力ラベルが、複数の分割点のうちの1以上の分割点に対応してユーザから受信される。1以上の入力ラベルは、ユーザインターフェイスを利用することによってユーザから受信され得る。ユーザインターフェイスの例は、タッチスクリーン、キーボード、マウスなどを含むがこれらに限定されるものではない。
1以上の入力ラベルは、テキストの分割点の正しさを示す。さらに、1以上の入力ラベルは、画像のサンプル部分において、ユーザから受信され得る。たとえば、入力ラベルは、画像の小さな部分内のテキストの一部の1以上の分割点に対応し、ユーザによって提供され得る。これらの入力ラベルは、次に全体の画像において分割点の正しさを確認するために利用され得る。ある実施の形態において、1以上の分割点のためにユーザに対して生成される質問への回答として、入力ラベルは提供され得る。たとえば、質問は、1以上の分割点の正しさを確認するために対応する、ユーザへの質問であり得る。質問に応じて、ユーザは1以上の分割点のうちの1以上の妥当な分割点のための1以上の入力ラベルを提供することによって回答を提供することができる。他の実施の形態において、入力ラベルは、1以上の分割点の妥当性を示すバイナリ値であり得る。たとえば、ユーザは、妥当な分割点に対して入力ラベル「1」を提供し、妥当ではない分割点に対して入力ラベル「0」を提供し得る。ユーザは、他の任意の形態で1以上の入力ラベルを提供し得る。
その後、ステップ206において、1以上の入力ラベルに対応する1以上の分割点のマッピングが、複数の分割点により実行される。1以上の分割点は、ユーザによって提供された1以上の入力ラベルが正しい分割を示すための分割点である。これらの分割点はテキスト中の複数の分割点と比較されて、様々な分割点の間でマッピングが観察される。これは図3a−eに関連して詳細に説明される。
マッピングに基づき、ステップ208において、テキストに複数の分割点のうちのある分割点を印付けすることが実行される。印付けは、1以上の入力ラベルに対応する1以上の分割点と整合する分割点をラベル付けすることを含む。たとえば、テキスト中のある分割点が、ユーザによって妥当とラベル付けされた分割点と同様であると考える。次に、そのような分割点が印付けされつつラベル付けされる。
印付けにより、ステップ210において、入力ラベルに対応する分割点に対する信頼値の割当てが実行される。信頼値は、妥当な分割点を示す分割点の確率を示す。したがって、信頼値は分割点に対応するユーザの入力を確定するために用いられる。ユーザによってラベル付けされた分割点が、複数の分割点のうちのより多数の分割点と整合するならば、その分割点に対して信頼レベルは「高」と割当てられる。さらに、その分割点が複数の分割点のうちのより少数の分割点と一致する場合に、その分割点の信頼レベルは「低」と割当てられる。ユーザによってラベル付けされた分割点が複数の分割点のうちのどの分割点にも整合しない場合には信頼レベルはゼロであり得る。信頼レベルの値はユーザによって割当てられ得る。信頼レベルは、パーセンテージ形式または比率の形式で表現され得る。
ある例示的な実施の形態において、ユーザによってラベル付けされた第1の分割点が複数の分割点のうちの5つの分割点に整合すると考える。さらに、第2の分割点が複数の分割点のうちの1つの分割点に整合する。この場合、第1の分割点の信頼レベルは第2の分割点の信頼レベルよりも高い。
ステップ212において、ある分割点に対応する信頼レベルが、予め定められたしきい値レベルに関して決定される。信頼レベルを決定することは、その信頼レベルが予め定められたしきい値レベルより上または下のいずれであるかを特定することを含む。予め定められたしきい値レベルは、ユーザによって特定され得る。予め定められたしきい値レベルは、その信頼レベルの許容値を示す。
信頼レベルに基づいて、ステップ214において、妥当な分割点の組が更新される。妥当な分割点の組は、初めに知られ得る妥当な分割点をグループ化することによって生成され得る。1つの実施形態において、分割点の組はいくつかの標準的な分割点をグループ化することによって生成され得る。たとえば、妥当な分割点の組は、点、スペースおよび特殊文字のようないくつかの分割点を含むことによって生成され得る。その後、妥当な分割点の組が連続的に更新される。更新は、妥当な分割点の組の中に1以上の分割点を追加することを要する。したがって、ステップ206で実行された検証に基づき、妥当な分割点を示す1以上の分割点が妥当な分割点の組に加えられる。妥当な分割点の組は、テキストを複数のテキストセグメントにセグメント化するために用いられる。当該技術において知られているさまざまな手法が、妥当な分割点の組を利用することによってテキストをセグメント化するために用いられ得る。更新によって、妥当な分割点の組は、テキストの1以上の部分のセグメント化を容易にし得る。したがって、テキストの残りの部分は、フロー図の上記のステップを利用することによってさらに分析される。これらのステップは繰返し実行されて、テキストの実質的な部分がセグメント化されて、テキストを認識するためにテキストをセグメント化するために、妥当な分割点の総合的な組が得られる。
図3a−eは、本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略図を示す。図3aは、アラビア語のテキストの画像を図示する。図3aに示されるように、アラビア語のテキストは互いに触れ合う文字で記述される。さらに、アラビア語のテキストは、主要なテキストの上または下に1以上の点を含む。したがって、アラビア語のテキストの画像のセグメント化を実行することは困難である。アラビア語のテキストのセグメント化は一例として含まれているが、セグメント化の方法は、互いに触れ合うまたは互いに接続される文字を含む他の言語に関連するテキストのために用いられ得る。
所与のアラビア語のテキストをセグメント化するために、1以上の分割ヒューリスティックがアラビア語のテキストの画像に適用される。1以上の分割ヒューリスティックの適用は、結果として複数の分割点をもたらす。図3bは、分割点302−1,分割点302−2などのような複数の分割点302−nを有するアラビア語のテキストを図示する。1以上の分割ヒューリスティックおよび複数の分割点は、図1および図2に関連して詳細に説明される。
複数の分割点302−nを取得することにより、1以上の入力ラベルが1以上の分割点302−nに対応してユーザから受信される。1以上の分割点302−nは、テキストのサンプル部分と関連し得る。図3cに図示されるように、1以上の入力ラベルは、アラビア語のテキストの画像の第1の部分に関連する1以上の分割点302−nに対してユーザから受信される。したがって、1以上の入力ラベルは、分割点302−1から分割点302−11までユーザから受信される。1以上の入力ラベルを受信するために、ユーザに対して質問が生成される。質問に応答して、1以上の入力ラベルを与えることにより、1以上の分割点302−nを検証することがユーザに要求される。1以上の入力ラベルは、1以上の分割点302−nを示すバイナリ値であり得る。したがって、ある分割点に対して入力ラベルが「1」である場合、その分割点はユーザに従うと妥当な分割点である。しかしながら、ある分割点に対して入力ラベルが「0」である場合、その分割点はユーザに従うと妥当ではない。たとえば、ユーザは分割点302−1、分割点302−4、分割点302−6、分割点302−7に対して「1」の入力ラベルを与え得る。さらに、ユーザは分割点302−1から分割点302−11までの残りの分割点に対して「0」の入力ラベルを与え得る。1以上の分割点に対応する1以上の入力ラベルを受信する方法は、図1および図2に関連して詳細に説明される。
1以上の入力ラベルに基づき、ユーザが真の(「1」)入力ラベルを与えた1以上の分割点が、テキストの画像中の複数の分割点を分析するために用いられる。分割点302−1、分割点302−4、分割点302−6、分割点302−7のような1以上の分割点はアラビア語のテキストの画像の第2の部分における1以上の分割点を分析するために用いられる。したがって、妥当であると印付けされた分割点の間でのマッピングが、画像の第2の部分における1以上の分割点により実行される。分析およびマッピングのステップは図1および図2に関連して詳細に説明される。
マッピングに基づき、第2の部分における1以上の分割点が印付けされる。たとえば、図3dに示されるように、分割点302−12および分割点302−13が印付けされる。図3cおよび図3dに見られるように、分割点302−6は分割点302−12でマッピングされ、分割点302−7は分割点302−13でマッピングされる。したがって、応じて印付けが実行される。さらに、ユーザが真の(「1」)入力ラベルを与えた1以上の分割点に対して信頼レベルが割当てられる。所与の例において、マッピングが特定されたので分割点302−6および分割点302−7に対して信頼レベルが「高」と割当てられ得る。さらに、マッピングが特定されていないので、分割点302−1および302−4に対して信頼レベルが「低」と割当てられ得る。その後、「高」信頼レベルを有する1以上の分割点が妥当な分割点の組に加えられる。妥当な分割点の組は、テキストを複数のテキストセグメントにセグメント化するために用いられる。当該分野において知られているさまざまな手法が、妥当な分割点の組を利用することによりテキストをセグメント化するために用いられ得る。
妥当な分割点の組を更新することにより、ラベル付けされていない、画像中の1以上の分割点がさらに分析される。これら1以上の分割点に対応する入力ラベルはユーザから受信される。その後、上記のステップが繰返し実行されて、テキストの実質的な部分がセグメント化されてテキストをセグメント化するために妥当な分割点の総合的な組が取得される。
たとえば、図3eに図示されるように、複数の繰返しの後で、分割点302−4、分割点302−6、分割点302−7、分割点302−12、分割点302−13が妥当な分割点として特定される。続いて、これらの分割点を用いてテキストの画像がセグメント化され得る。
図4は、本発明のある実施の形態に従う、テキストをセグメント化するためのシステム400のブロック図を示す。図4に示されるように、システム400は、プロセッサ402と、プロセッサ402に結合されたメモリ404とを含む。
プロセッサ402は、テキストの複数の分割点のうちの1以上の分割点に対応する1以上の入力ラベルをユーザから受信するように構成される。複数の分割点は、1以上の分割ヒューリスティックをテキストの画像に適用することによって取得される。1以上の分割ヒューリスティックは、図1および図2に関連して詳細に説明される。複数の分割点のうちの1つの分割点は、テキストの1以上のテキストセグメントを分離する点または境界に対応する。たとえば、分割点は、テキストの2つの文字を分離し得る。プロセッサ402は、1以上の入力ラベルを受信するためにユーザインターフェイスと結合され得る。この場合、1以上の入力ラベルはそのユーザインターフェイスを通じてユーザによって入力される。たとえば、プロセッサ402は、タッチスクリーン、キーボード、マウスなどの少なくとも1つと結合され得る。
プロセッサ402は、さらに1以上の入力ラベルに基づいて複数の分割点を分析するように構成される。1以上の入力ラベルに対応する1以上の分割点のマッピングを特定するために、複数の分割点が分析される。マッピングに基づき、複数の分割点のうちの妥当な分割点が特定され得る。
その後、プロセッサ402は複数の分割点のうちのある分割点の検証を実行する。検証は、複数の分割点のうちのある分割点が妥当な分割点を示すかどうかを特定することを含む。妥当な分割点は、テキストの少なくとも2つのテキストセグメントを分離する。任意の分割点が妥当な分割点として一旦特定されると、この妥当な分割点は、妥当な分割点の組に加えられ得る。妥当な分割点の組は、初めに知られているそのような分割点をグループ化することによって作成される。ある実施の形態において、妥当な分割点の組は、いくつかの標準的な分割点をグループ化することによって生成され得る。たとえば、妥当な分割点の組は、点、スペースおよび特殊文字のようないくつかの分割点を含むことによって生成され得る。
検証に基づいて、妥当な分割点の組が更新される。更新することは、妥当な分割点の組に1以上の分割点を含めることを要する。妥当な分割点の組は、次にテキストを複数のテキストセグメントにセグメント化するために用いられる。これは、図1および図2に関連して詳細に説明される。
そのようにして得られた妥当な分割点の組がメモリ404に保存される。テキストの画像、複数の分割点および1以上の入力ラベルのような他の情報も、またメモリ404に保存され得る。
本発明のさまざまな実施の形態は、テキストをセグメント化するための方法およびシステムを提供し、そのテキストは画像の形態である。方法およびシステムは、アラビア語のテキストのような互いに触れ合う文字を有するテキストの効率的なセグメント化を可能にする。方法は、分割ヒューリスティックのような自動化された技術を適用することによって特定された、分割点の小さな組に対するユーザ入力を受けることを含む。したがって、自動化方法によっては気づかない可能性があるテキストのさまざまな特徴がユーザ入力の間に十分に考慮される。さらに、ユーザによって提供される入力は、分割点の多数の組に適用されて、自動化技術を用いることによって妥当な分割点を特定する。これらの妥当な分割点は、繰返しの方法により特定されて集められる。したがって、テキストに妥当な分割点を特定するための有効な学習アプローチが結果として生じる。この有効な学習アプローチは、継続的に更新される妥当な分割点の組の発展を可能にする。したがって、妥当な分割点の組を準備するために自己学習技術が利用される。
当業者は、上記の認識された利点および本明細書に記述された他の利点が単に例示的なものであり、本発明のさまざまな実施の形態のすべての利点を完全に与えるということを意味するものではないということを理解するであろう。
上述の明細書において、本発明の特定の実施の形態が記述される。しかしながら、当業者はさまざまな変形および変更が、以下の請求項に記載されるような本発明の精神から逸脱することなくなされ得るということを理解するであろう。したがって、明細書および図面は限定的な意味ではなく例示的な意味とみなされるべきであり、すべてのそのような変形は、本発明の精神の中に含まれることが意図される。任意の恩恵、利点または解決を生じさせたり、あるいはより明白にしたりし得る、恩恵、利点、課題に対する解決は、請求項の任意のまたはすべての重要な、必要な、または本質的な特徴または要素として解釈されるべきではない。本発明は、本願の係属中になされた任意の補正を含む添付の請求項、および発行されたこれらの請求項のすべての均等物によってのみ定義される。
102〜108,202〜214 ステップ、302−1〜302−13,302−n 分割点、400 システム、402 プロセッサ、404 メモリ。

Claims (15)

  1. テキストを複数のテキストセグメントにセグメント化する方法であって、前記方法は、
    少なくとも1つの分割ヒューリスティックを前記テキストに適用することによって得られた前記テキストの複数の分割点のうちの少なくとも1つの分割点に対応し、テキストの分割点の正しさを示す、前記テキストの妥当な分割点に対応する少なくとも1つの入力ラベルをユーザから受信するステップと、
    受信された前記少なくとも1つの入力ラベルに基づいて前記複数の分割点を分析するステップと、
    分析するステップに応じて、前記複数の分割点のうちのある分割点が、妥当な分割点を示すかどうかを検証するステップと、
    前記検証に基づいて、妥当な分割点の組を前記複数の分割点のうちの少なくとも1つの分割点で更新するステップとを備え、前記妥当な分割点の組は、前記テキストを前記複数のテキストセグメントにセグメント化することを可能にし、
    妥当な分割点は、前記テキストの前記複数のテキストセグメントのうちの少なくとも2つのテキストセグメントを分離し、
    分析するステップは、入力ラベルに対応する分割点に前記複数の分割点をマッピングするステップと、
    前記入力ラベルに対応する前記分割点によるマッピングに基づいて、前記複数の分割点のうちのある分割点に印付けするステップとを含み、
    検証するステップは、入力ラベルに対応する分割点に信頼値を割当てるステップを含み、前記信頼値は、妥当な分割点を示す前記分割点の確率を示す、方法。
  2. 前記テキストはアラビア語のテキストである、請求項1に記載の方法。
  3. 前記テキストは画像の形式である、請求項1に記載の方法。
  4. 前記複数のテキストセグメントのうちのあるテキストセグメントは、文字、単語およびラインのうちの少なくとも1つを備える、請求項1に記載の方法。
  5. 入力ラベルは質問に対する回答であり、前記質問は前記少なくとも1つの分割点のうちのある分割点に対応して生成される、請求項1に記載の方法。
  6. 入力ラベルはバイナリ値であり、前記バイナリ値は分割点の妥当性を示す、請求項1に記載の方法。
  7. 検証するステップは、さらに、前記信頼値が予め定められたしきい値限界より上または下のいずれであるかを決定するステップを備える、請求項1に記載の方法。
  8. 更新するステップは、
    前記妥当な分割点の組の中に、前記検証するステップにおける検証に基づく妥当な分割点である少なくとも1つの分割点を追加することで、前記妥当な分割点の組を更新するステップを備え、前記分割点の信頼値は、予め定められたしきい値限界より上である、請求項に記載の方法。
  9. テキストを複数のテキストセグメントにセグメント化するためのコンピュータ読取可能なプログラムであって、前記コンピュータ読取可能なプログラムはコンピュータ上で実行されたときに、前記コンピュータに、
    少なくとも1つの分割ヒューリスティックを前記テキストによって得られた前記テキストの複数の分割点のうちの少なくとも1つの分割点に対応し、テキストの分割点の正しさを示す、前記テキストの妥当な分割点に対応する少なくとも1つの入力ラベルをユーザから受信させ、
    受信された前記少なくとも1つの入力ラベルに基づいて前記複数の分割点を分析させ、
    分析に基づいて、前記複数の分割点のうちのある分割点が妥当な分割点を示すかどうかを検証させ、
    前記検証に基づいて、妥当な分割点の組を複数の分割点のうちのある分割点で更新させ、
    前記妥当な分割点の組は、前記テキストを、前記複数のテキストセグメントにセグメント化することを可能にし、
    妥当な分割点は、前記テキストの前記複数のテキストセグメントのうちの少なくとも2つのテキストセグメントを分離し、
    分析するステップは、入力ラベルに対応する分割点に前記複数の分割点をマッピングするステップと、
    前記入力ラベルに対応する前記分割点によるマッピングに基づいて、前記複数の分割点のうちのある分割点に印付けするステップとを含み、
    検証するステップは、入力ラベルに対応する分割点に信頼値を割当てるステップを含み、前記信頼値は、妥当な分割点を示す前記分割点の確率を示す、プログラム。
  10. 前記テキストはアラビア語のテキストである、請求項に記載のプログラム。
  11. 前記プログラムは、さらに、
    前記少なくとも1つの入力ラベルのうちのある入力ラベルに対応する分割点に信頼値を割当て、前記信頼値は妥当な分割点を示す前記分割点の確率であり、さらに、
    前記信頼値がしきい値限界より上または下のいずれであるかを決定する
    ことによって前記コンピュータに検証させる、請求項に記載のプログラム。
  12. 前記プログラムは、さらに、
    前記妥当な分割点の組の中の前記少なくとも1つの入力ラベルのうちのある入力ラベルに対応するある分割点を追加することによって前記コンピュータに更新させ、前記分割点の信頼値は、予め定められたしきい値限界より上である、請求項11に記載のプログラム。
  13. テキストを複数のテキストセグメントにセグメント化するためのシステムであって、前記システムは、
    プロセッサを備え、前記プロセッサは、
    少なくとも1つの分割ヒューリスティックを前記テキストに適用することによって得られた前記テキストの複数の分割点のうちの少なくとも1つの分割点に対応し、テキストの分割点の正しさを示す、前記テキストの妥当な分割点に対応する少なくとも1つの入力ラベルをユーザから受信し、
    受信された前記少なくとも1つの入力ラベルに基づいて前記複数の分割点を分析し、
    前記入力ラベルのラベル付けに応じて、前記複数の分割点のうちのある分割点が妥当な分割点を示すかどうかを検証し、
    前記検証に基づいて、妥当な分割点の組を複数の分割点のうちの少なくとも1つの分割点で更新するように構成され、
    前記妥当な分割点の組は、前記テキストを、前記複数のテキストセグメントにセグメント化することを可能にし、
    前記システムは、さらに、前記妥当な分割点の組を記憶するためのメモリを備え、
    前記プロセッサは、
    入力ラベルに対応する分割点を前記複数の分割点でマッピングし、
    前記入力ラベルに対応する前記分割点によるマッピングに基づいて前記複数の分割点のうちのある分割点に印付けする
    ことによって分析するように構成され、
    前記プロセッサは、
    ある入力ラベルに対応する分割点に信頼値を割当てることによって検証するように構成され、前記信頼値は妥当な分割点を示す前記分割点の確率を示し、
    さらに、前記プロセッサは、
    前記信頼値が予め定められたしきい値限界より上または下のいずれであるかを決定するように構成される、システム。
  14. 前記テキストはアラビア語のテキストである、請求項13に記載のシステム。
  15. 前記プロセッサは、前記妥当な分割点の組の中の前記少なくとも1つの入力ラベルのうちのある入力ラベルに対応するある分割点を追加することによって、前記妥当な分割点の組を更新するように構成され、
    前記分割点の信頼値は、予め定められたしきい値限界より上である、請求項13に記載のシステム。
JP2011246300A 2011-05-06 2011-11-10 テキストセグメンテーションのための方法、コンピュータプログラム製品およびシステム Expired - Fee Related JP5634972B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/102,373 US20120281919A1 (en) 2011-05-06 2011-05-06 Method and system for text segmentation
US13/102,373 2011-05-06

Publications (2)

Publication Number Publication Date
JP2012234512A JP2012234512A (ja) 2012-11-29
JP5634972B2 true JP5634972B2 (ja) 2014-12-03

Family

ID=44351378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011246300A Expired - Fee Related JP5634972B2 (ja) 2011-05-06 2011-11-10 テキストセグメンテーションのための方法、コンピュータプログラム製品およびシステム

Country Status (3)

Country Link
US (1) US20120281919A1 (ja)
EP (1) EP2521071A3 (ja)
JP (1) JP5634972B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160006682A1 (en) * 2014-07-07 2016-01-07 International Business Machines Corporation Utilizing social networks for problem solving
JP5979650B2 (ja) 2014-07-28 2016-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
US9665786B2 (en) * 2015-02-20 2017-05-30 Conduent Business Services, Llc Confirming automatically recognized handwritten answers
CN107305630B (zh) * 2016-04-25 2021-03-19 腾讯科技(深圳)有限公司 文本序列识别方法和装置
US20210034907A1 (en) * 2019-07-29 2021-02-04 Walmart Apollo, Llc System and method for textual analysis of images

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4562594A (en) * 1983-09-29 1985-12-31 International Business Machines Corp. (Ibm) Method and apparatus for segmenting character images
JPH0610829B2 (ja) * 1984-06-29 1994-02-09 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 手書き文字認識方法
EP0498978A1 (en) * 1991-02-13 1992-08-19 International Business Machines Corporation Mechanical recognition of characters in cursive script
US5442715A (en) * 1992-04-06 1995-08-15 Eastman Kodak Company Method and apparatus for cursive script recognition
JP3178686B2 (ja) * 1992-10-22 2001-06-25 武藤工業株式会社 パターン認識方法および装置
EP0609474A1 (en) * 1993-02-03 1994-08-10 International Business Machines Corporation Method and apparatus for transforming an image for classification or pattern recognition
US5812697A (en) * 1994-06-10 1998-09-22 Nippon Steel Corporation Method and apparatus for recognizing hand-written characters using a weighting dictionary
US5933525A (en) * 1996-04-10 1999-08-03 Bbn Corporation Language-independent and segmentation-free optical character recognition system and method
CN1173247C (zh) * 1999-01-13 2004-10-27 国际商业机器公司 具有文字分割用户接口的手写信息处理系统
US6298154B1 (en) * 1999-03-29 2001-10-02 Eastman Kodak Company Method for rendering improved personal handwriting
WO2002037933A2 (en) * 2000-11-08 2002-05-16 New York University System, process and software arrangement for recognizing handwritten characters
US6950555B2 (en) * 2001-02-16 2005-09-27 Parascript Llc Holistic-analytical recognition of handwritten text
AUPR824501A0 (en) * 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and systems (npw003)
US7174043B2 (en) * 2003-02-25 2007-02-06 Evernote Corp. On-line handwriting recognizer
US7424672B2 (en) * 2003-10-03 2008-09-09 Hewlett-Packard Development Company, L.P. System and method of specifying image document layout definition
ATE368895T1 (de) * 2004-12-10 2007-08-15 Ibm System und verfahren zur verdeutlichung nicht diakritisierter arabischer wörter in einem text
KR101145986B1 (ko) * 2005-02-28 2012-05-21 지 데쿠마 아베 세그먼트화-기반 인식
RU2007135945A (ru) * 2005-02-28 2009-04-10 Зи Декума Аб (Se) Граф распознавания
US7657094B2 (en) * 2005-12-29 2010-02-02 Microsoft Corporation Handwriting recognition training and synthesis
US7657091B2 (en) * 2006-03-06 2010-02-02 Mitek Systems, Inc. Method for automatic removal of text from a signature area
US7724957B2 (en) * 2006-07-31 2010-05-25 Microsoft Corporation Two tiered text recognition
US20080136820A1 (en) * 2006-10-20 2008-06-12 Microsoft Corporation Progressive cut: interactive object segmentation
US8005294B2 (en) * 2006-11-29 2011-08-23 The Mitre Corporation Cursive character handwriting recognition system and method
US7974472B2 (en) * 2007-06-29 2011-07-05 Microsoft Corporation Feature design for HMM based Eastern Asian character recognition
CN101458681A (zh) * 2007-12-10 2009-06-17 株式会社东芝 语音翻译方法和语音翻译装置
JP4565015B2 (ja) * 2008-05-15 2010-10-20 シャープ株式会社 画像処理装置、画像形成装置、画像処理システム、画像処理プログラムおよびその記録媒体
US8150160B2 (en) * 2009-03-26 2012-04-03 King Fahd University Of Petroleum & Minerals Automatic Arabic text image optical character recognition method
KR101468231B1 (ko) * 2009-09-11 2014-12-04 삼성전자주식회사 라벨 검색 방법 및 장치

Also Published As

Publication number Publication date
EP2521071A3 (en) 2015-06-03
US20120281919A1 (en) 2012-11-08
JP2012234512A (ja) 2012-11-29
EP2521071A2 (en) 2012-11-07

Similar Documents

Publication Publication Date Title
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
US10915788B2 (en) Optical character recognition using end-to-end deep learning
US9286527B2 (en) Segmentation of an input by cut point classification
US10133965B2 (en) Method for text recognition and computer program product
US8340425B2 (en) Optical character recognition with two-pass zoning
US20160371246A1 (en) System and method of template creation for a data extraction tool
CN109766885B (zh) 一种文字检测方法、装置、电子设备及存储介质
EP3522038A1 (en) Method for translating characters and apparatus therefor
JP5634972B2 (ja) テキストセグメンテーションのための方法、コンピュータプログラム製品およびシステム
CN111507330B (zh) 习题识别方法、装置、电子设备及存储介质
KR101377601B1 (ko) 모바일 카메라를 이용한 자연 영상 다국어 문자 인식과 번역 시스템 및 방법
CN103606305A (zh) 一种汉字书写学习系统
WO2007094078A1 (ja) 文字列検索方法およびその装置
CN114092949A (zh) 类别预测模型的训练、界面元素类别的识别方法及装置
WO2023038722A1 (en) Entry detection and recognition for custom forms
US9536180B2 (en) Text recognition based on recognition units
US9418281B2 (en) Segmentation of overwritten online handwriting input
JP2008225695A (ja) 文字認識誤り修正装置およびプログラム
JP2020087112A (ja) 帳票処理装置および帳票処理方法
CN115147846A (zh) 多语言票据识别方法、装置、设备及存储介质
CN111476090B (zh) 水印识别方法和装置
Sotoodeh et al. A music symbols recognition method using pattern matching along with integrated projection and morphological operation techniques
CN112070092A (zh) 一种验证码参数的获取方法及装置
EP3757825A1 (en) Methods and systems for automatic text segmentation
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130607

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20130607

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20130719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140708

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140716

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141015

LAPS Cancellation because of no payment of annual fees