JP5634972B2

JP5634972B2 - テキストセグメンテーションのための方法、コンピュータプログラム製品およびシステム

Info

Publication number: JP5634972B2
Application number: JP2011246300A
Authority: JP
Inventors: アーマッド・アブドゥルカデル; フセイン・ハリド・アル−オマリ; モハメド・スレイマン・ホルシード
Original assignee: King Abdulaziz City for Science and Technology KACST
Current assignee: King Abdulaziz City for Science and Technology KACST
Priority date: 2011-05-06
Filing date: 2011-11-10
Publication date: 2014-12-03
Anticipated expiration: 2031-11-10
Also published as: EP2521071A3; US20120281919A1; JP2012234512A; EP2521071A2

Description

発明の分野
本発明は、概してテキスト画像のセグメンテーションのための方法およびシステムに関する。より具体的には、本発明はテキストの画像を複数のテキストセグメントにセグメント化する方法およびシステムに関する。

発明の背景
スキャンした文書を編集可能で検索可能なテキストに自動的に変換することは、正確で堅牢な光学式文字認識（ＯＣＲ）システムの使用を要求する。ＯＣＲシステムは、テキストの入力画像を文字の単位にセグメント化することによって画像からのテキストを認識することを含む。英語のテキストのためのＯＣＲシステムは、さまざまな理由によって高いレベルの正確性に達した。主な理由の１つは、英語のテキストを分離した文字へと前処理してＯＣＲシステムへの入力として与える能力である。印刷された英語のテキストのくっついていない性質のため、英語のテキストの各々の文字は分離可能である。しかしながら、互いに触れ合う文字を持つテキストのスキャンされた画像は、ＯＣＲシステムへの試みをもたらすと共に、そのピッチが可変である場合に正確性を低減させる。そのような互いにくっつく種類の文字は、さまざまな言語に関するテキストにおいて見出し得る。

たとえば、アラビア語のスキャンされたテキストは、一連の触れ合う文字を含み、それゆえにそのテキストを文字にセグメント化することはより一層難しい。さらに、アラビア語のテキストは、文字およびそれに続く母音の発音を示すための、文字の上または下に置かれた点およびアクセント記号を含み得るが、それはＯＣＲシステムに対する別の試みを提供する。これは、英語のために設計された周知の前処理の技術が正確にアラビア語のテキストを処理することを妨げる。さらに、アラビア語の文字は、直交するものではなく、それらの文字のいくつかは、他の文字のサブセットである。このことは、セグメント化処理を複雑にするが、それはテキストの内容を考慮する必要があり得るためである。

アラビア語のテキストの別の特徴は、アラビア語のテキストは、母音を示すアクセント記号があってもなくても記述可能であるということである。さらに、多くのアラビア語の文字は、その文字が単語の最初、単語の中、単語の終わりに置かれているか、または孤立した文字として置かれているかどうかに依存して３または４の形状を含む。したがって、単語内の文字のアクセント記号および位置によりアラビア語のテキストはさまざまな組合せが可能であるということは、現在のＯＣＲ前処理システムでのアラビア語のテキストの前処理をより不正確なものにする。さらに、一列以上のアラビア語のテキストおよび非テキストの項目を有する画像の場合、各列に関連するアラビア語のテキストは、フォントのサイズ、フォントのスタイル、フォントの色などを変化させ得る。フォントのサイズが変化することにより、隣の列を正確にセグメント化できない可能性がある。

アラビア語のテキストをセグメント化するための技術は、テキストの画像の黒色の画素を右から左に追跡して、文字の外形を特定し、続いて文字をセグメント化することを含む。他の技術は、画像中のテキストの文字をセグメント化するために水平または垂直の投影を利用する。しかしながら、これらの技術は完全に自動化され、アラビア語のテキストのさまざまな特徴に対応できない可能性がある。

したがって、テキストのさまざまな特徴を十分に考慮して、テキストを複数のテキストセグメントにセグメント化する方法およびシステムに対する必要性が存在する。

図面の簡単な説明
添付の図面は、同様の参照符号が別々の図面を通して同一または機能的に同様の要素を参照するものであり、以下の詳細な説明と共に、明細書に取り入れられて明細書の一部を形成するものであるが、さらにさまざまな実施の形態を図示するものであり、本発明に従うさまざまな原理および利点を説明するものである。

本発明の実施の形態に従う、テキストをセグメント化する方法のフロー図を示す。本発明の別の実施の形態に従う、テキストをセグメント化する方法のフロー図を示す。本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。本発明の実施の形態に従う、テキストをセグメント化するためのシステムを示す。

当業者は、図中の要素が単純さおよび明確さのために図示されており、拡大縮小して描かれる必要がないということを理解するであろう。たとえば、図中のいくつかの要素の寸法は、本発明の実施の形態の理解の改善に役立つように、他の要素に対して誇張されている。

発明の詳細な説明
本発明に従う実施の形態を詳細に説明する前に、実施の形態は、主としてテキストをセグメント化するための方法およびシステムに関する方法のステップと装置の構成要素との組合せに存在することが見てとれるべきである。したがって、装置の構成要素および方法のステップは、図中の従来の記号によって適切に表現され、本明細書の記載の恩恵を有する当業者にとって直ちに明らかになるであろう詳細の開示を隠すことがないように、本発明の実施の形態を理解することに関連して、それらの具体的な詳細を示すのみである。

この文書において、第１および第２、上および下などの関連する用語は、そのような実体または行為の間の現実のそのような関係または順番を必ずしも要求または暗示することなく、単に、１つの実体または行為を他の実体または行為から区別するために用いられ得る。「備える（comprises）」、「備えている（comprising）」またはそれらの他のいかなる変形の用語も、要素のリストを備えるプロセス、方法、項目または装置が、それらの要素のみを含むということではなく、明確に挙げられていないか、または隠されているそのようなプロセス、方法、項目または装置の他の要素を含み得るように、排他的ではない包含を含めるものである。「…を備える（comprises...a）」によって続けられる要素は、さらなる制約なく、その要素を備えるプロセス、方法、項目または装置における追加の同一の要素の存在を排除するものではない。

この明細書に記載された本発明の実施の形態は、１以上の従来のトランザクション−クライアントおよび固有の保存されたプログラム命令を備え得るが、その命令は、１以上のトランザクション−クライアントを制御して、ある非トランザクション−クライアント回路と関連して、画像中のテキストを認識するために画像をセグメント化するためのいくつかの、あるいは大抵の、あるいはすべての方法の機能を実現する。非トランザクション−クライアント回路は、無線受信機と、無線送信機と、信号駆動機と、クロック回路と、電源回路と、ユーザ入力装置とを含み得るが、これらに限定されるものではない。そのようなものとして、これらの機能は、画像中のテキストを認識するために画像をセグメント化するための方法のステップとして解釈され得る。代わりに、いくつかあるいはすべての機能は、保存されたプログラム命令を有していないステートマシンによって実現されてもよく、あるいは１以上の特定用途集積回路（ＡＳＩＣ）によって実現されてもよく、ＡＳＩＣにおいては、各機能またはある機能のいくつかの組合せは、カスタムロジックとして実現される。当然ながら、２つのアプローチの組合せも用いられ得る。したがって、これらの機能のための方法および手段は、本明細書において記述される。さらに、たとえば、利用可能な時間、現在の技術および経済的な考慮によって動機付けられる可能な重要な努力および多くの設計の選択にも拘らず、当業者は直ちに、そのようなソフトウェア命令およびプログラムおよびＩＣを最少の実験で生成することが直ちに可能であるだろう。

一般的に言えば、さまざまな実施の形態に従い、本発明はテキストを複数のセクションにセグメント化するための方法およびシステムを提供する。方法は、テキストの複数の分割点のうちの１以上の分割点に対応する１以上の入力ラベルをユーザから受けることを含む。テキストの複数の分割点は、テキストに１以上の分割ヒューリスティックを適用することによって得られる。ユーザによって与えられる１以上の入力ラベルは、テキストの複数の分割点にラベル付けをするために用いられる。ラベル付けに応じて、検証が実行されて、複数の分割点のある分割点が妥当な分割点であるかどうかが特定される。その後、検証に基づいて、妥当な分割点の組が複数の分割点のうちの１以上の分割点で更新される。妥当な分割点の組は、複数のセクションを認識するためのテキストのセグメント化を容易にする。

図１は、本発明の実施の形態に従う、テキストをセグメント化する方法のフロー図を示す。テキストの複数のテキストセグメントを得るために、テキストはセグメント化される。複数のテキストセグメントは、少なくとも１つの文字、単語、ラインおよび特殊文字を含み得る。本発明のさまざまな実施の形態において、テキストは画像の形態であり得る。画像は、グレースケール画像およびカラー画像のうちの１つであり得る。画像は１以上の文書をスキャンすることによって得られ得る。しかしながら、当業者にとっては、テキストは他の任意の形態で得られ得るということが明らかであるだろう。これらの文書はオフラインまたはオンラインで利用可能であり得る。文書は、手書きまたはタイプされたものであり得る。文書の画像からテキストを認識するために、ステップ１０２における方法は、テキストの複数の分割点のうちの１以上の分割点に対応する、１以上の入力ラベルをユーザから受けることを含む。複数の分割点は、テキストの画像に１以上の分割ヒューリスティックを適用することによって得られる。１以上の分割ヒューリスティックの例は、水平および垂直画素濃度ヒストグラムおよびヒューリスティックに基づく外形検出を含むが、それに限定されるものではない。１以上の分割ヒューリスティックを利用することによって、画像中のテキストは複数の分割点で印付けされる。複数の分割点のうちのある分割点は、テキストの１以上のテキストセグメントを分離する点または境界に対応する。たとえば、ある分割点はテキストの２つの文字を分離し得る。

複数の分割点の決定により、１以上の分割点に対応する手入力がユーザによってなされる。手入力は、複数の分割点のうちの１以上の分割点に対応する１以上の入力ラベルをユーザから受けることによってなされる。１以上の入力ラベルは、ユーザインターフェイスを利用することによってユーザから受信され得る。ユーザインターフェイスの例は、タッチスクリーン、キーボード、マウスなどを含むがこれらに限定されるものではない。

１以上の入力ラベルは、テキストの分割点の正しさを示す。さらに、１以上の入力ラベルは、画像のサンプル部分において、ユーザから受信され得る。たとえば、入力ラベルは、画像の小さな部分内のテキストの一部の１以上の分割点に対応し、ユーザによって提供され得る。これらの入力ラベルは、次にテキストの全体の画像において分割点の正しさを確認するために利用され得る。ある実施の形態において、１以上の分割点のためにユーザに対して生成される質問への回答として、入力ラベルは提供され得る。たとえば、質問は、１以上の分割点の正しさを確認するために対応する、ユーザへの質問であり得る。質問に応じて、ユーザは１以上の分割点のうちの１以上の妥当な分割点を示す１以上の入力ラベルを提供することによって回答を提出することができる。他の実施の形態において、入力ラベルは、１以上の分割点の妥当性を示すバイナリ値であり得る。たとえば、ユーザは、妥当な分割点に対して入力ラベル「１」を提供し、妥当ではない分割点に対して入力ラベル「０」を提供し得る。ユーザは、他の任意の形態で１以上の入力ラベルを提供し得る。

ユーザから１以上の入力ラベルを受けることにより、ステップ１０４において、その１以上の入力ラベルに基づく複数の分割点の分析が実行される。１以上の入力ラベルに対応する１以上の分割点のマッピングを複数の分割点で特定するために、複数の分割点が分析される。マッピングに基づいて、複数の分割点における妥当な分割点が特定され得る。

分析に応じて、ステップ１０６において、複数の分割点のうちのある分割点が検証される。検証は、複数の分割点のうちのある分割点が妥当な分割点を示すものであるかどうかを特定することを含む。妥当な分割点は、テキストの少なくとも２つのテキストセグメントを分離する。任意の分割点が妥当な分割点として一旦特定されると、この妥当な分割点は、妥当な分割点の組に加えられ得る。妥当な分割点の組は、初めに知られ得るそのような分割点をグループ化することによって生成される。１つの実施形態において、分割点の組はいくつかの標準的な分割点をグループ化することによって生成され得る。たとえば、妥当な分割点の組は、点、スペースおよび特殊文字のようないくつかの分割点を含むことによって生成され得る。さらに、その分割点の組は、既知の１以上の文字を含み得る。

その後、ステップ１０８において、検証に基づいて妥当な分割点の組が更新される。更新は、妥当な分割点の組の中に１以上の分割点を含むことを要する。したがって、ステップ１０６で実行された検証に基づき、妥当な分割点を示す１以上の分割点が妥当な分割点の組に加えられる。妥当な分割点の組は、次に、テキストを複数のテキストセグメントにセグメント化するために用いられる。当該技術において知られているさまざまな手法が、妥当な分割点の組を利用することによってテキストをセグメント化するために用いられ得る。更新によって、妥当な分割点の組は、テキストの１以上の部分のセグメント化を容易にし得る。１以上の部分の例は、単一の単語、文および段落を含むがこれらに限定されるものではない。したがって、テキストの残りの部分は、フロー図の上記のステップを利用することによってさらに分析される。フロー図の上記のステップは繰返し実行されて、テキストの実質的な部分がセグメント化されて、テキストを認識するためにテキストをセグメント化するために、妥当な分割点の総合的な組が得られる。

ここで図２に戻り、本発明の別の実施の形態に従う、テキストをセグメント化する方法のフロー図が示される。ステップ２０２において、方法はテキストの画像に１以上の分割ヒューリスティックを適用することを含む。画像は、グレースケール画像およびカラー画像のうちの１つであり得る。画像は、１以上の文書をスキャンすることによって得られ得る。これらの文書はオフラインまたはオンラインで利用可能であり得る。さらに、文書は手書きまたはタイプされたものであり得る。テキストの画像は水平および垂直投影、および外形ベースのヒューリスティックのような１以上の分割ヒューリスティックを利用することによって分析されるが、分割ヒューリスティックはこれらに限定されるものではない。１以上の分割ヒューリスティックを利用することによって、画像中のテキストは複数の分割点で印付けされる。複数の分割点のうちのある分割点は、テキストの１以上のテキストセグメントを分離する点または境界に対応する。たとえば、ある分割点はテキストの２つの文字を分離し得る。

複数の分割点の決定により、ステップ２０４において、１以上の入力ラベルが、複数の分割点のうちの１以上の分割点に対応してユーザから受信される。１以上の入力ラベルは、ユーザインターフェイスを利用することによってユーザから受信され得る。ユーザインターフェイスの例は、タッチスクリーン、キーボード、マウスなどを含むがこれらに限定されるものではない。

１以上の入力ラベルは、テキストの分割点の正しさを示す。さらに、１以上の入力ラベルは、画像のサンプル部分において、ユーザから受信され得る。たとえば、入力ラベルは、画像の小さな部分内のテキストの一部の１以上の分割点に対応し、ユーザによって提供され得る。これらの入力ラベルは、次に全体の画像において分割点の正しさを確認するために利用され得る。ある実施の形態において、１以上の分割点のためにユーザに対して生成される質問への回答として、入力ラベルは提供され得る。たとえば、質問は、１以上の分割点の正しさを確認するために対応する、ユーザへの質問であり得る。質問に応じて、ユーザは１以上の分割点のうちの１以上の妥当な分割点のための１以上の入力ラベルを提供することによって回答を提供することができる。他の実施の形態において、入力ラベルは、１以上の分割点の妥当性を示すバイナリ値であり得る。たとえば、ユーザは、妥当な分割点に対して入力ラベル「１」を提供し、妥当ではない分割点に対して入力ラベル「０」を提供し得る。ユーザは、他の任意の形態で１以上の入力ラベルを提供し得る。

その後、ステップ２０６において、１以上の入力ラベルに対応する１以上の分割点のマッピングが、複数の分割点により実行される。１以上の分割点は、ユーザによって提供された１以上の入力ラベルが正しい分割を示すための分割点である。これらの分割点はテキスト中の複数の分割点と比較されて、様々な分割点の間でマッピングが観察される。これは図３ａ−ｅに関連して詳細に説明される。

マッピングに基づき、ステップ２０８において、テキストに複数の分割点のうちのある分割点を印付けすることが実行される。印付けは、１以上の入力ラベルに対応する１以上の分割点と整合する分割点をラベル付けすることを含む。たとえば、テキスト中のある分割点が、ユーザによって妥当とラベル付けされた分割点と同様であると考える。次に、そのような分割点が印付けされつつラベル付けされる。

印付けにより、ステップ２１０において、入力ラベルに対応する分割点に対する信頼値の割当てが実行される。信頼値は、妥当な分割点を示す分割点の確率を示す。したがって、信頼値は分割点に対応するユーザの入力を確定するために用いられる。ユーザによってラベル付けされた分割点が、複数の分割点のうちのより多数の分割点と整合するならば、その分割点に対して信頼レベルは「高」と割当てられる。さらに、その分割点が複数の分割点のうちのより少数の分割点と一致する場合に、その分割点の信頼レベルは「低」と割当てられる。ユーザによってラベル付けされた分割点が複数の分割点のうちのどの分割点にも整合しない場合には信頼レベルはゼロであり得る。信頼レベルの値はユーザによって割当てられ得る。信頼レベルは、パーセンテージ形式または比率の形式で表現され得る。

ある例示的な実施の形態において、ユーザによってラベル付けされた第１の分割点が複数の分割点のうちの５つの分割点に整合すると考える。さらに、第２の分割点が複数の分割点のうちの１つの分割点に整合する。この場合、第１の分割点の信頼レベルは第２の分割点の信頼レベルよりも高い。

ステップ２１２において、ある分割点に対応する信頼レベルが、予め定められたしきい値レベルに関して決定される。信頼レベルを決定することは、その信頼レベルが予め定められたしきい値レベルより上または下のいずれであるかを特定することを含む。予め定められたしきい値レベルは、ユーザによって特定され得る。予め定められたしきい値レベルは、その信頼レベルの許容値を示す。

信頼レベルに基づいて、ステップ２１４において、妥当な分割点の組が更新される。妥当な分割点の組は、初めに知られ得る妥当な分割点をグループ化することによって生成され得る。１つの実施形態において、分割点の組はいくつかの標準的な分割点をグループ化することによって生成され得る。たとえば、妥当な分割点の組は、点、スペースおよび特殊文字のようないくつかの分割点を含むことによって生成され得る。その後、妥当な分割点の組が連続的に更新される。更新は、妥当な分割点の組の中に１以上の分割点を追加することを要する。したがって、ステップ２０６で実行された検証に基づき、妥当な分割点を示す１以上の分割点が妥当な分割点の組に加えられる。妥当な分割点の組は、テキストを複数のテキストセグメントにセグメント化するために用いられる。当該技術において知られているさまざまな手法が、妥当な分割点の組を利用することによってテキストをセグメント化するために用いられ得る。更新によって、妥当な分割点の組は、テキストの１以上の部分のセグメント化を容易にし得る。したがって、テキストの残りの部分は、フロー図の上記のステップを利用することによってさらに分析される。これらのステップは繰返し実行されて、テキストの実質的な部分がセグメント化されて、テキストを認識するためにテキストをセグメント化するために、妥当な分割点の総合的な組が得られる。

図３ａ−ｅは、本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略図を示す。図３ａは、アラビア語のテキストの画像を図示する。図３ａに示されるように、アラビア語のテキストは互いに触れ合う文字で記述される。さらに、アラビア語のテキストは、主要なテキストの上または下に１以上の点を含む。したがって、アラビア語のテキストの画像のセグメント化を実行することは困難である。アラビア語のテキストのセグメント化は一例として含まれているが、セグメント化の方法は、互いに触れ合うまたは互いに接続される文字を含む他の言語に関連するテキストのために用いられ得る。

所与のアラビア語のテキストをセグメント化するために、１以上の分割ヒューリスティックがアラビア語のテキストの画像に適用される。１以上の分割ヒューリスティックの適用は、結果として複数の分割点をもたらす。図３ｂは、分割点３０２−１，分割点３０２−２などのような複数の分割点３０２−ｎを有するアラビア語のテキストを図示する。１以上の分割ヒューリスティックおよび複数の分割点は、図１および図２に関連して詳細に説明される。

複数の分割点３０２−ｎを取得することにより、１以上の入力ラベルが１以上の分割点３０２−ｎに対応してユーザから受信される。１以上の分割点３０２−ｎは、テキストのサンプル部分と関連し得る。図３ｃに図示されるように、１以上の入力ラベルは、アラビア語のテキストの画像の第１の部分に関連する１以上の分割点３０２−ｎに対してユーザから受信される。したがって、１以上の入力ラベルは、分割点３０２−１から分割点３０２−１１までユーザから受信される。１以上の入力ラベルを受信するために、ユーザに対して質問が生成される。質問に応答して、１以上の入力ラベルを与えることにより、１以上の分割点３０２−ｎを検証することがユーザに要求される。１以上の入力ラベルは、１以上の分割点３０２−ｎを示すバイナリ値であり得る。したがって、ある分割点に対して入力ラベルが「１」である場合、その分割点はユーザに従うと妥当な分割点である。しかしながら、ある分割点に対して入力ラベルが「０」である場合、その分割点はユーザに従うと妥当ではない。たとえば、ユーザは分割点３０２−１、分割点３０２−４、分割点３０２−６、分割点３０２−７に対して「１」の入力ラベルを与え得る。さらに、ユーザは分割点３０２−１から分割点３０２−１１までの残りの分割点に対して「０」の入力ラベルを与え得る。１以上の分割点に対応する１以上の入力ラベルを受信する方法は、図１および図２に関連して詳細に説明される。

１以上の入力ラベルに基づき、ユーザが真の（「１」）入力ラベルを与えた１以上の分割点が、テキストの画像中の複数の分割点を分析するために用いられる。分割点３０２−１、分割点３０２−４、分割点３０２−６、分割点３０２−７のような１以上の分割点はアラビア語のテキストの画像の第２の部分における１以上の分割点を分析するために用いられる。したがって、妥当であると印付けされた分割点の間でのマッピングが、画像の第２の部分における１以上の分割点により実行される。分析およびマッピングのステップは図１および図２に関連して詳細に説明される。

マッピングに基づき、第２の部分における１以上の分割点が印付けされる。たとえば、図３ｄに示されるように、分割点３０２−１２および分割点３０２−１３が印付けされる。図３ｃおよび図３ｄに見られるように、分割点３０２−６は分割点３０２−１２でマッピングされ、分割点３０２−７は分割点３０２−１３でマッピングされる。したがって、応じて印付けが実行される。さらに、ユーザが真の（「１」）入力ラベルを与えた１以上の分割点に対して信頼レベルが割当てられる。所与の例において、マッピングが特定されたので分割点３０２−６および分割点３０２−７に対して信頼レベルが「高」と割当てられ得る。さらに、マッピングが特定されていないので、分割点３０２−１および３０２−４に対して信頼レベルが「低」と割当てられ得る。その後、「高」信頼レベルを有する１以上の分割点が妥当な分割点の組に加えられる。妥当な分割点の組は、テキストを複数のテキストセグメントにセグメント化するために用いられる。当該分野において知られているさまざまな手法が、妥当な分割点の組を利用することによりテキストをセグメント化するために用いられ得る。

妥当な分割点の組を更新することにより、ラベル付けされていない、画像中の１以上の分割点がさらに分析される。これら１以上の分割点に対応する入力ラベルはユーザから受信される。その後、上記のステップが繰返し実行されて、テキストの実質的な部分がセグメント化されてテキストをセグメント化するために妥当な分割点の総合的な組が取得される。

たとえば、図３ｅに図示されるように、複数の繰返しの後で、分割点３０２−４、分割点３０２−６、分割点３０２−７、分割点３０２−１２、分割点３０２−１３が妥当な分割点として特定される。続いて、これらの分割点を用いてテキストの画像がセグメント化され得る。

図４は、本発明のある実施の形態に従う、テキストをセグメント化するためのシステム４００のブロック図を示す。図４に示されるように、システム４００は、プロセッサ４０２と、プロセッサ４０２に結合されたメモリ４０４とを含む。

プロセッサ４０２は、テキストの複数の分割点のうちの１以上の分割点に対応する１以上の入力ラベルをユーザから受信するように構成される。複数の分割点は、１以上の分割ヒューリスティックをテキストの画像に適用することによって取得される。１以上の分割ヒューリスティックは、図１および図２に関連して詳細に説明される。複数の分割点のうちの１つの分割点は、テキストの１以上のテキストセグメントを分離する点または境界に対応する。たとえば、分割点は、テキストの２つの文字を分離し得る。プロセッサ４０２は、１以上の入力ラベルを受信するためにユーザインターフェイスと結合され得る。この場合、１以上の入力ラベルはそのユーザインターフェイスを通じてユーザによって入力される。たとえば、プロセッサ４０２は、タッチスクリーン、キーボード、マウスなどの少なくとも１つと結合され得る。

プロセッサ４０２は、さらに１以上の入力ラベルに基づいて複数の分割点を分析するように構成される。１以上の入力ラベルに対応する１以上の分割点のマッピングを特定するために、複数の分割点が分析される。マッピングに基づき、複数の分割点のうちの妥当な分割点が特定され得る。

その後、プロセッサ４０２は複数の分割点のうちのある分割点の検証を実行する。検証は、複数の分割点のうちのある分割点が妥当な分割点を示すかどうかを特定することを含む。妥当な分割点は、テキストの少なくとも２つのテキストセグメントを分離する。任意の分割点が妥当な分割点として一旦特定されると、この妥当な分割点は、妥当な分割点の組に加えられ得る。妥当な分割点の組は、初めに知られているそのような分割点をグループ化することによって作成される。ある実施の形態において、妥当な分割点の組は、いくつかの標準的な分割点をグループ化することによって生成され得る。たとえば、妥当な分割点の組は、点、スペースおよび特殊文字のようないくつかの分割点を含むことによって生成され得る。

検証に基づいて、妥当な分割点の組が更新される。更新することは、妥当な分割点の組に１以上の分割点を含めることを要する。妥当な分割点の組は、次にテキストを複数のテキストセグメントにセグメント化するために用いられる。これは、図１および図２に関連して詳細に説明される。

そのようにして得られた妥当な分割点の組がメモリ４０４に保存される。テキストの画像、複数の分割点および１以上の入力ラベルのような他の情報も、またメモリ４０４に保存され得る。

本発明のさまざまな実施の形態は、テキストをセグメント化するための方法およびシステムを提供し、そのテキストは画像の形態である。方法およびシステムは、アラビア語のテキストのような互いに触れ合う文字を有するテキストの効率的なセグメント化を可能にする。方法は、分割ヒューリスティックのような自動化された技術を適用することによって特定された、分割点の小さな組に対するユーザ入力を受けることを含む。したがって、自動化方法によっては気づかない可能性があるテキストのさまざまな特徴がユーザ入力の間に十分に考慮される。さらに、ユーザによって提供される入力は、分割点の多数の組に適用されて、自動化技術を用いることによって妥当な分割点を特定する。これらの妥当な分割点は、繰返しの方法により特定されて集められる。したがって、テキストに妥当な分割点を特定するための有効な学習アプローチが結果として生じる。この有効な学習アプローチは、継続的に更新される妥当な分割点の組の発展を可能にする。したがって、妥当な分割点の組を準備するために自己学習技術が利用される。

当業者は、上記の認識された利点および本明細書に記述された他の利点が単に例示的なものであり、本発明のさまざまな実施の形態のすべての利点を完全に与えるということを意味するものではないということを理解するであろう。

上述の明細書において、本発明の特定の実施の形態が記述される。しかしながら、当業者はさまざまな変形および変更が、以下の請求項に記載されるような本発明の精神から逸脱することなくなされ得るということを理解するであろう。したがって、明細書および図面は限定的な意味ではなく例示的な意味とみなされるべきであり、すべてのそのような変形は、本発明の精神の中に含まれることが意図される。任意の恩恵、利点または解決を生じさせたり、あるいはより明白にしたりし得る、恩恵、利点、課題に対する解決は、請求項の任意のまたはすべての重要な、必要な、または本質的な特徴または要素として解釈されるべきではない。本発明は、本願の係属中になされた任意の補正を含む添付の請求項、および発行されたこれらの請求項のすべての均等物によってのみ定義される。

１０２〜１０８，２０２〜２１４ステップ、３０２−１〜３０２−１３，３０２−ｎ分割点、４００システム、４０２プロセッサ、４０４メモリ。

Claims

テキストを複数のテキストセグメントにセグメント化する方法であって、前記方法は、
少なくとも１つの分割ヒューリスティックを前記テキストに適用することによって得られた前記テキストの複数の分割点のうちの少なくとも１つの分割点に対応し、テキストの分割点の正しさを示す、前記テキストの妥当な分割点に対応する少なくとも１つの入力ラベルをユーザから受信するステップと、
受信された前記少なくとも１つの入力ラベルに基づいて前記複数の分割点を分析するステップと、
分析するステップに応じて、前記複数の分割点のうちのある分割点が、妥当な分割点を示すかどうかを検証するステップと、
前記検証に基づいて、妥当な分割点の組を前記複数の分割点のうちの少なくとも１つの分割点で更新するステップとを備え、前記妥当な分割点の組は、前記テキストを前記複数のテキストセグメントにセグメント化することを可能にし、
妥当な分割点は、前記テキストの前記複数のテキストセグメントのうちの少なくとも２つのテキストセグメントを分離し、
分析するステップは、入力ラベルに対応する分割点に前記複数の分割点をマッピングするステップと、
前記入力ラベルに対応する前記分割点によるマッピングに基づいて、前記複数の分割点のうちのある分割点に印付けするステップとを含み、
検証するステップは、入力ラベルに対応する分割点に信頼値を割当てるステップを含み、前記信頼値は、妥当な分割点を示す前記分割点の確率を示す、方法。
前記テキストはアラビア語のテキストである、請求項１に記載の方法。
前記テキストは画像の形式である、請求項１に記載の方法。
前記複数のテキストセグメントのうちのあるテキストセグメントは、文字、単語およびラインのうちの少なくとも１つを備える、請求項１に記載の方法。
入力ラベルは質問に対する回答であり、前記質問は前記少なくとも１つの分割点のうちのある分割点に対応して生成される、請求項１に記載の方法。
入力ラベルはバイナリ値であり、前記バイナリ値は分割点の妥当性を示す、請求項１に記載の方法。
検証するステップは、さらに、前記信頼値が予め定められたしきい値限界より上または下のいずれであるかを決定するステップを備える、請求項１に記載の方法。
更新するステップは、
前記妥当な分割点の組の中に、前記検証するステップにおける検証に基づく妥当な分割点である少なくとも１つの分割点を追加することで、前記妥当な分割点の組を更新するステップを備え、前記分割点の信頼値は、予め定められたしきい値限界より上である、請求項７に記載の方法。
テキストを複数のテキストセグメントにセグメント化するためのコンピュータ読取可能なプログラムであって、前記コンピュータ読取可能なプログラムはコンピュータ上で実行されたときに、前記コンピュータに、
少なくとも１つの分割ヒューリスティックを前記テキストによって得られた前記テキストの複数の分割点のうちの少なくとも１つの分割点に対応し、テキストの分割点の正しさを示す、前記テキストの妥当な分割点に対応する少なくとも１つの入力ラベルをユーザから受信させ、
受信された前記少なくとも１つの入力ラベルに基づいて前記複数の分割点を分析させ、
分析に基づいて、前記複数の分割点のうちのある分割点が妥当な分割点を示すかどうかを検証させ、
前記検証に基づいて、妥当な分割点の組を複数の分割点のうちのある分割点で更新させ、
前記妥当な分割点の組は、前記テキストを、前記複数のテキストセグメントにセグメント化することを可能にし、
妥当な分割点は、前記テキストの前記複数のテキストセグメントのうちの少なくとも２つのテキストセグメントを分離し、
分析するステップは、入力ラベルに対応する分割点に前記複数の分割点をマッピングするステップと、
前記入力ラベルに対応する前記分割点によるマッピングに基づいて、前記複数の分割点のうちのある分割点に印付けするステップとを含み、
検証するステップは、入力ラベルに対応する分割点に信頼値を割当てるステップを含み、前記信頼値は、妥当な分割点を示す前記分割点の確率を示す、プログラム。
前記テキストはアラビア語のテキストである、請求項９に記載のプログラム。
前記プログラムは、さらに、
前記少なくとも１つの入力ラベルのうちのある入力ラベルに対応する分割点に信頼値を割当て、前記信頼値は妥当な分割点を示す前記分割点の確率であり、さらに、
前記信頼値がしきい値限界より上または下のいずれであるかを決定する
ことによって前記コンピュータに検証させる、請求項９に記載のプログラム。
前記プログラムは、さらに、
前記妥当な分割点の組の中の前記少なくとも１つの入力ラベルのうちのある入力ラベルに対応するある分割点を追加することによって前記コンピュータに更新させ、前記分割点の信頼値は、予め定められたしきい値限界より上である、請求項１１に記載のプログラム。
テキストを複数のテキストセグメントにセグメント化するためのシステムであって、前記システムは、
プロセッサを備え、前記プロセッサは、
少なくとも１つの分割ヒューリスティックを前記テキストに適用することによって得られた前記テキストの複数の分割点のうちの少なくとも１つの分割点に対応し、テキストの分割点の正しさを示す、前記テキストの妥当な分割点に対応する少なくとも１つの入力ラベルをユーザから受信し、
受信された前記少なくとも１つの入力ラベルに基づいて前記複数の分割点を分析し、
前記入力ラベルのラベル付けに応じて、前記複数の分割点のうちのある分割点が妥当な分割点を示すかどうかを検証し、
前記検証に基づいて、妥当な分割点の組を複数の分割点のうちの少なくとも１つの分割点で更新するように構成され、
前記妥当な分割点の組は、前記テキストを、前記複数のテキストセグメントにセグメント化することを可能にし、
前記システムは、さらに、前記妥当な分割点の組を記憶するためのメモリを備え、
前記プロセッサは、
入力ラベルに対応する分割点を前記複数の分割点でマッピングし、
前記入力ラベルに対応する前記分割点によるマッピングに基づいて前記複数の分割点のうちのある分割点に印付けする
ことによって分析するように構成され、
前記プロセッサは、
ある入力ラベルに対応する分割点に信頼値を割当てることによって検証するように構成され、前記信頼値は妥当な分割点を示す前記分割点の確率を示し、
さらに、前記プロセッサは、
前記信頼値が予め定められたしきい値限界より上または下のいずれであるかを決定するように構成される、システム。
前記テキストはアラビア語のテキストである、請求項１３に記載のシステム。
前記プロセッサは、前記妥当な分割点の組の中の前記少なくとも１つの入力ラベルのうちのある入力ラベルに対応するある分割点を追加することによって、前記妥当な分割点の組を更新するように構成され、
前記分割点の信頼値は、予め定められたしきい値限界より上である、請求項１３に記載のシステム。