JP5986051B2

JP5986051B2 - アラビア語テキストを自動的に認識するための方法

Info

Publication number: JP5986051B2
Application number: JP2013187257A
Authority: JP
Inventors: モハメド・スレイマン・ホルシード; フセイン・ハリド・アル−オマリ; マジェド・イブラヒム・ビン・オスフォー; アブドゥルアジズ・オバイド・アロバイド; フッサム・アブドゥルラフマン・アルファレフ; アルワ・イブラヘム・ビン・アスフォー
Original assignee: King Abdulaziz City for Science and Technology KACST
Current assignee: King Abdulaziz City for Science and Technology KACST
Priority date: 2013-05-12
Filing date: 2013-09-10
Publication date: 2016-09-06
Anticipated expiration: 2033-09-10
Also published as: JP2014219954A; EP2804131A3; EP2804131A2

Description

本願は、２０１２年１１月２６日に同じ発明者によって提出され、「有効なアラビア語テキスト特徴抽出に基づいたアラビア語テキストの認識のためのシステムおよび方法（System and methods for Arabic text recognition based on effective Arabic text feature extraction）」と題された同一出願人による係属中の米国特許出願第１３／６８５，０８８号の一部継続出願であり、これに対する優先権を主張するものである。米国特許出願第１３／６８５，０８８号は、２０１１年１２月１４日に同じ発明者によって出願され、「有効なアラビア語テキスト特徴抽出に基づいたアラビア語テキストの認識のためのシステムおよび方法（System and methods for Arabic text recognition based on effective Arabic text feature extraction）」と題された同一出願人による係属中の米国特許出願第１３／３２５，７８９号の継続出願であり、これに対する優先権を主張するものである。米国特許出願第１３／３２５，７８９号は、２００９年４月２７日に同じ発明者によって出願され、「有効なアラビア語テキスト特徴抽出に基づいたアラビア語テキストの認識のためのシステムおよび方法（System and methods for Arabic text recognition based on effective Arabic text feature extraction）」と題された米国特許出願第１２／４３０，７７３号の継続出願であり、その開示が引用によりこの明細書中に援用されている。

本願は、概して、アラビア語テキストの自動認識に関する。

発明の背景
テキスト認識、すなわちテキストの自動読取りはパターン認識から派生したものである。テキスト認識の目的は、印刷されたテキストを人間並みの精度でより高速に読取ることである。大抵のテキスト認識法では、テキストを個々の文字に分離できるよう想定されている。このような技術は、ラテン語のタイプされたテキストまたは活字テキストでは成功しているものの、アラビア語などの筆記体の手書き文字に適用するには確実ではない。アラビア語の手書き文字認識についての従来の研究では、アラビア語の単語を個々の文字に分割しようとする試みが困難であることが確認された。

アラビア語は、テキスト認識アルゴリズムに対していくつかの課題をもたらす。アラビア文字は本質的に筆記体であり、分離した文字をブロック字体で書くことは受け入れられない。さらに、アラビア文字の形は文脈に影響を受け易く、ある１つの単語内の文字の位置に左右される可能性がある。

さらに、すべてのアラビア文字が一単語内で連結されるとは限らない。単語間の境界を自動的に判断することは困難であるかもしれない。なぜなら、一単語内のいくつかの文字が間隔によって分離されている可能性もあるからである。加えて、アラビア語テキストの中には、母音化して書かれるものもあり、母音化せずに書かれるものもある。アラビア語テキストの中には、ハムザ（Hamza）や、単語の末尾におけるYa文字の下にある点を無視しているものもある。アラビア語テキストの中には、非アラビア語から派生した単語を含むものもある。

統計的モデルなどのさまざまな分類体系が、アラビア語テキストのテキスト認識に適用されてきた。しかしながら、テキスト特徴を適切に抽出するという点が、依然として、アラビア語テキストを正確に認識するための大きな障害として残っている。

本願に記載されるシステムおよび方法は、アラビア語テキスト中の特徴を抽出するための包括的、定量的かつ正確な技術を提供する。開示されるアラビア文字認識はまた、より効率的であり、いくつかの従来の技術よりも演算時間が少なくて済む。開示されるシステムおよび方法はまた、いくつかの従来の技術よりもより単純かつ容易に使用できる。

本願はさらに、アラビア語コーパスを構築するためのインテリジェントな適応的方法を開示する。開示される方法は、句読点の有無、母音化の有無、非アラビア語の有無など、さまざまなアラビア語の文体を考慮に入れることができる。アラビア語コーパスの構築のために用いられるアラビア語のテキストファイルについてのさまざまな文体は、ユーザによって選択可能であるか、またはコンピュータによって自動的に設定可能である。アラビア語のテキストファイルは、アラビア語テキストをより正確にトレーニング（学習）および認識できるように、これらの文体に基づいて適切にインデックス付けされる。文字認識のための知識ベースとして用いられるアラビア語テキストのさまざまな文体についての構造化されたカタログがあるので、アラビア文字の認識が改善される。

一般的な局面においては、本発明は、アラビア語テキストを自動的に認識する方法に関する。当該方法は、アラビア語のテキストファイルと、アラビア語テキストファイルの各々に対応するグラウンドトルース（ground truths）とを含むアラビア語コーパスを構築するステップを含み、アラビア語テキストファイルは、さまざまな文体で書かれたアラビア語テキストを含む。当該方法は、コンピュータにより、文体インデックスをアラビア語テキストファイルに関連付けて記憶するステップを含み、文体インデックスの各々は、アラビア語テキストファイルのうちの１つが文体のうちの１つで書かれていることを示す。当該方法はさらに、アラビア文字の線を含むテキスト画像を得るステップと、アラビア文字の線をデジタル化して、各々がピクセル値に関連付けられるピクセル（pixel；画素）の２次元配列を形成するステップを含み、ピクセル値は２進数で表わされる。当該方法はさらに、アラビア文字の線を複数の線画像に分割するステップと、複数の線画像のうちの１つにおいて複数のセルを規定するステップとを含み、複数のセルの各々は隣接するピクセルの群を含む。当該方法はさらに、複数の線画像のうちの１つにおける複数のセルの各々においてピクセルのピクセル値を並べて２進数のセル番号を形成するステップと、複数の線画像のうちの１つにおける複数のセルから得られる２進数のセル番号に従ってテキスト特徴ベクトルを形成するステップと、アラビア語テキストファイルに関連付けられた文体インデックスに従ってアラビア語コーパスにおけるアラビア語テキストファイルおよびグラウンドトルースを用いて隠れマルコフモデル（Hidden Markov Model）をトレーニングするステップと、テキスト特徴ベクトルを隠れマルコフモデルに供給してアラビア文字の線を認識するステップとを含む。

システムの実現例は、以下のうち１つ以上を含み得る。上記方法はさらに、２進数のセル番号を１０進数のセル番号に変換するステップと、複数の線画像のうちの１つにおける複数のセルから得られる１０進数のセル番号を並べて、１０進数のセル番号のストリングを形成するステップと、複数の線画像のうちの１つにおける複数のセルから得られる１０進数のセル番号のストリングに従ってテキスト特徴ベクトルを形成するステップとを含む。文体は、アラビア語テキストにおける句読点の有無を規定することができる。文体は、アラビア語テキストにおける母音化の有無を規定することができる。文体は、アラビア語テキストファイルにおける非アラビア語テキストの存在の有無を規定することができる。アラビア語コーパスを構築するステップは、アラビア語テキストファイルのうちの１つに関連付けられた文体に関する入力をユーザから受理するステップを含み得る。アラビア語コーパスを構築するステップは、コンピュータによってアラビア語テキストファイルのうちの１つに関連付けられた文体を自動的に判断するステップを含み得る。文体に対応して関連付けられた文体インデックスは、アラビア語テキストファイルのうちの１つに関連付けて自動的に記憶される。ピクセルの２次元配列は、第１の方向に複数の行と第２の方向に複数の列とを含み得る。アラビア文字の線は、実質的に第１の方向に沿って位置合わせすることができ、複数の線画像は、第１の方向に沿って順次位置合わせされる。ピクセルの２次元配列は、Ｎ行のピクセルを含み得る。複数の線画像のうち少なくとも１つは、第１の方向におけるＭ個の行によって規定される高さと、第２の方向におけるＮ個の列によって規定される幅とを有し、ＭおよびＮは整数である。Ｎは、２〜約１００の間の範囲にあり得る。ピクセルの２次元配列におけるピクセル値は、シングルビットの２進数で表わすことができる。ピクセルの２次元配列におけるピクセル値は、マルチビットの２進数で表わすことができる。

別の一般的な局面においては、本発明は、アラビア語テキストを自動的に認識する方法に関する。当該方法は、アラビア語テキストファイルと、アラビア語テキストファイルの各々に対応するグラウンドトルースとを含むアラビア語コーパスを構築するステップを含む。アラビア語テキストファイルは、さまざまな文体で書かれたアラビア語テキストを含む。当該方法は、コンピュータによって文体インデックスをアラビア語テキストファイルに関連付けて記憶するステップを含み、文体インデックスの各々は、アラビア語テキストファイルのうちの１つが文体のうちの１つで書かれていることを示す。当該方法はさらに、アラビア文字の線を含むテキスト画像を得るステップと、アラビア文字の線をデジタル化して、各々がピクセル値に関連付けられるピクセルの２次元配列を形成するステップと、アラビア文字の線を複数の線画像に分割するステップと、複数の線画像のうち少なくとも１つを縮小して、縮小された線画像を生成するステップと、縮小された線画像の各列におけるピクセルのピクセル値を並べて、並べられた数字のストリングを形成するステップとを含み、並べられた数字のストリングはテキスト特徴ベクトルを形成する。当該方法はさらに、アラビア語テキストファイルに関連付けられた文体インデックスに従ってアラビア語コーパスにおけるアラビア語テキストファイルおよびグラウンドトルースを用いて隠れマルコフモデルをトレーニングするステップと、隠れマルコフモデルにテキスト特徴ベクトルを供給してアラビア文字の線を認識するステップとを含む。

本発明は、特に複数の実施例に関連付けて図示および記載されるが、当業者であれば、形状および詳細を本発明の精神および範囲から逸脱することなくさまざまに変更できることを理解するだろう。

添付の図面は、明細書において援用され、その一部を形成しており、本発明の実施例を図示し、以下の記載と合わせて本発明の原理を説明する役割を果たす。

本開示におけるアラビア語テキスト認識のステップについての例示的なフロー図である。アラビア語テキストを含むテキスト画像を示す図である。各々が複数のピクセルを含む複数の線画像へのテキスト画像の分割を示す図である。図３Ａに示される線画像の一部におけるピクセルおよびピクセル値を示す図である。図３Ａに示される線画像の一部におけるピクセルおよびピクセル値を示す図である。本願に従ったテキスト特徴抽出方法を示す図である。図４に示されるテキスト特徴抽出のステップについての例示的なフロー図である。本願に従った別のテキスト特徴抽出方法を示す図である。本開示に従った別のテキスト特徴抽出方法を示す図である。本開示に従った別のテキスト特徴抽出方法を示す図である。本開示に従った別のテキスト特徴抽出方法を示す図である。本開示に従った別のテキスト特徴抽出方法を示す図である。図７Ａから図７Ｄに示されるテキスト特徴抽出のステップを示すフロー図である。アラビア語コーパスを構築するためのインテリジェントな適応的方法についてのフロー図である。アラビア語コーパスを構築するための処理済みアラビア語テキストファイルに関し、選択された文体オプションが埋込まれた例示的なインデックス構造を示す図である。

図１は、本発明に従ったアラビア語テキスト認識の一般的な流れを示す。アラビア語コーパスは、アラビア語テキストの文体を判断および追跡するインテリジェントな適応的方法を用いて構築される（ステップ１００、図１）。図９および図１０に関連付けて以下により詳細に説明するように、アラビア語コーパスは、テキスト、テキスト画像、および本発明に従ってテキストまたはテキスト画像に関連付けられたグラウンドトルース（すなわち公知の意味）を含む。コーパス構築は、アラビア語テキストにおける多くの文体および書式を考慮に入れており、開示されるアラビア語コーパスにおけるテキストファイルは、アラビア語の文体または書式の種類によって適切にラベル付けされ、これにより、開示されるアラビア語コーパスが用いられる場合にアラビア文字認識の精度が高められる。文体インデックスは、アラビア語テキストファイルに関連付けて記憶される（ステップ１０５）。文体インデックスは各々、アラビア語テキストファイルのうちの１つが文体のうちの１つで書かれていることを示す。

図１〜図３Ｃを参照すると、テキスト画像２００は、アラビア語テキスト文書から得られる（ステップ１１０、図１）。テキスト画像２００におけるアラビア語テキストは、複数のテキスト行２１１〜２１４に配置されてもよく、複数のテキスト行２１１〜２１４の各々は一連の筆記体のアラビア文字を含む。テキスト行２１１〜２１４は、複数の線画像３１１〜３１３に分割される（ステップ１２０、図１）。線画像３１１、３１２または３１３は次いでピクセル（pixel；画素）３２１〜３２３に分割され、ピクセル３２１〜３２３の各々にはピクセル値が割当てられる（ステップ１３０、図１）。線画像３１１、３１２または３１３の幅は、２個のピクセル〜１００個のピクセルの間の範囲にあってもよく、または、３個のピクセル〜１０個のピクセルの間の範囲にあってもよい。線画像３１１、３１２または３１３は１つの完全な文字、部分的な文字または連結文字を含み得る。

ピクセル値は、特定のピクセルの位置においてテキスト画像２００の明度を表わす。一実現例においては、高い輝度値は、白色背景にあり得るピクセルで明画像色（または低密度）を表わし得る。低い明度は、アラビア文字の一画分の範囲内にあり得るピクセルで暗画像色（または高密度）を表わし得る。ピクセル値は、２進数、１０進数および１６進数などのさまざまな数値体系で表わすことができる。

図３Ａ〜図３Ｃを参照すると、線画像３１１は画像部分３２０を含み、画像部分３２０は複数のピクセル３２１〜３２３を含み、その各々には２進数のピクセル値「０」または「１」が割当てられている。ピクセル値「１」は白色背景を表わす。ピクセル値「０」は、アラビア文字の一画分の範囲内における暗画像色（すなわち低輝度）を表わす。開示されるシステムおよび方法が、画像濃度をマルチトーンレベル（たとえばグレイスケール）で表わすことのできるマルチビットの２進数ピクセル値とも互換性があることに留意されたい。

本開示に従うと、テキスト特徴ベクトルはテキスト行２１１または線画像３１１〜３１３から抽出することができる（ステップ１４０、図１）。テキスト特徴抽出のさまざまな実現例についての詳細を図４〜図８に関連付けて以下に説明する。テキスト特徴ベクトルの正確な形は、以下に記載するように、抽出方法に応じて異なり得る。

ステップ１４０において得られる特徴ベクトルは、次に、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）に供給される（ステップ１５０、図１）。本開示においては、ＨＭＭは、隠れマルコフモデルを構築および操作するための携帯型ツールキットである隠れマルコフモデルツールキット（ＨＴＫ：Hidden Markov Model tool kit）によって実現可能である。ＨＴＫは、辞書が含まれておらず、トレーニングサンプルからの文字モデルおよび文法に依存する。ＨＭＭは、特徴ベクトルにおいて見出されるパターンでの変化を許容し得る確率解釈を提供する。ＨＴＫの機能の多くは、Ｃソースコードで利用可能なライブラリモジュールに組込むことができる。これらのモジュールは、従来のコマンドラインスタイルインターフェイスで実行するよう設計されており、このため、ＨＴＫツールの実行を制御するために簡単にスクリプトを書き込むことができる。

ＨＭＭは、アラビア語テキストの文体に従ってアラビア語コーパスにおけるアラビア語テキストおよび関連するグラウンドトルースから得られる特徴ベクトルを用いてトレーニング可能である（ステップ１６０、図１）。図９および図１０に関連付けて以下に説明するように、文体はアラビア語テキストファイルに関連付けて記憶された文体インデックスによって示される。ＨＴＫには、サンプルのトレーニングのために文字モデルおよびグラウンドトルースが備わっている。文字モデル化の構成要素は、特徴ベクトルおよび対応するグラウンドトルースを取得し、文字モデルを評価する。トレーニングサンプルによって得られる観察結果がモデルパラメータを調整するのに用いられるのに対して、テストサンプルによって得られる観察結果はシステム性能を調べるのに用いられる。モデルにおける各々の状態は文字をアルファベットのセットで表わしており、各々の特徴ベクトルは１つの観察結果に相当する。ＨＴＫトレーニングツールは、既知のデータ転記を予測するよう、準備したトレーニングデータを用いて、文字モデルパラメータを調整することができる。

ＨＭＭパラメータは、トレーニング画像セグメントについてのグラウンドトルースから評価された。テキストおよびグラウンドトルースは、図９および図１０に関連付けて以下に説明される適応的方法を用いて、アラビア語コーパスビルダによって生成される。このセグメンテーションが輪郭線に適用されることにより、セグメンテーション点を見出し、これらのセグメントから特徴を抽出し、特徴ベクトルを観察シーケンスに移行させ得る。セグメンテーションベースの技術では、単語画像とストリングとを一致させるためにダイナミックプログラミングが用いられた。トレーニング段階では、テキスト画像のうちテキスト相当分でありグラウンドトルースと関係するスキャン済みのテキスト行を入力として取得する。次いで、各々の行は、狭い垂直な窓に分割され、そこから特徴ベクトルが抽出される。

次いで、辞書および言語モデルを用いて特徴ベクトルにおけるアラビア語テキストを認識するために、トレーニングされたＨＭＭが用いられる（ステップ１７０、図１）。認識段階の後、可能性が最も高い文字シーケンスを見出すために、トレーニング段階において評価されたさまざまな知識ソースと共に用いられる特徴ベクトルを抽出するステップが行なわれる。認識ツールは、ネットワークが１つのモデルから別のモデルへの遷移確率を記述することを必要とする。辞書および言語モデルをツールに入力して、レコグナイザが正確な状態シーケンスを出力するのを支援することができる。

いくつかの実施例においては、図３Ａ〜図５を参照すると、アラビア語コーパスは、アラビア語テキストの文体を判断および追跡するインテリジェントな適応的方法を用いて構築される（ステップ５００、図１）。図９および図１０に関連付けて以下により詳細に説明されるように、アラビア語コーパスは、テキスト、テキスト画像、および本発明に従ってテキストまたはテキスト画像に関連付られるグラウンドトルース（すなわち、公知の意味）を含む。コーパス構築は、アラビア語テキストにおける多くの文体および書式を考慮に入れており、開示されるアラビア語コーパスにおけるテキストファイルは、アラビア語の文体または書式の種類によって適切にラベル付けされ、これにより、開示されるアラビア語コーパスが用いられる場合にアラビア文字認識の精度を高める。

文体インデックスはアラビア語テキストファイルに関連付けて記憶される（ステップ５０５）。文体インデックスは各々、アラビア語テキストファイルのうちの１つが文体のうちの１つで書かれていることを示す。

コーパスビルダによって生成される線画像３１１〜３１３は、ピクセル値によって各々が特徴付けられるピクセル３２１〜３２３の配列にデジタル化される（ステップ５１０、図５）。線画像３１１は、図４に図示のとおり、複数のセル４１０〜４６０に分割される（ステップ５２０、図５）。各々のセル４１０〜４６０は、３ピクセル×３ピクセルの配列などの隣接するピクセルの群を含む。たとえば、セル４２０はピクセル４２２、ピクセル４２３および他のピクセルを含む。

各々のセルにおけるピクセル値は、さらに、２進数のセル番号で表わされる（ステップ５３０、図５）。各々のセルにおけるピクセル値は、まず、順番に並べられる。たとえば、セル４２０における９つのピクセル３２２〜３２３は３つの連続した行の順序、すなわち、１、１、１、１、０、０、１、０、０で順番に並べられる。次いで、この一連の２進数のピクセル値が９ビットの２進数のセル番号にマップされる。

ピクセル３２２におけるピクセル値が最上位ビットにマップされ、ピクセル３２３におけるピクセル値が最下位ビットにマップされる。結果として、セル４２０におけるピクセル値は、９ビットの２進数のセル番号１１１１００１００によって表わされる。同様に、セル４１０〜４６０におけるピクセル値は、２進数のセル番号４８０に変換され、その各々は０から５１１の範囲にある。

次いで、線画像３１１のセルにおける２進数のセル番号が、１０進数のセル番号４９０に変換される（ステップ５４０、図５）。次いで、１０進数のセル番号４９０が順番に並べられて、線画像３１１のための特徴ベクトルを形成する（ステップ５５０、図５）。さまざまな線画像のためにステップ５２０〜５５０が繰返される。

ステップ１６０（図１）と同様に、ＨＭＭは、アラビア語テキストの文体に従ってアラビア語コーパスにおけるアラビア語テキストおよび関連するグラウンドトルースから得られる特徴ベクトルを用いて、トレーニング可能である（ステップ５６０）。図９および図１０に関連付けて以下に説明するように、文体は、アラビア語テキストファイルに関連付けて記憶された文体インデックスによって示される。次いで、特徴ベクトルがさまざまな線画像３１１〜３１３から隠れマルコフモデルに供給されて、テキスト行におけるアラビア文字が認識される（ステップ５７０、図５）。

図４および図５に関連付けて上述した抽出方法は、図１に例示されるプロセスについてのテキスト特徴抽出の実現例を表わす。上述のテキスト特徴抽出方法が、データストリングの列におけるマルチビット・ピクセル値および他の数値表現と互換性のあることが理解されるはずである。たとえば、ピクセル値は３ビットまたは５ビットの２進数で表わすことができ、これは、テキスト画像におけるグレイスケール情報（またはマルチトーン）を取得することを可能にする。マルチビット・ピクセル値により、一画分毎のエッジに沿ったテキスト特徴を記述する精度が向上し得る。

さらに、２進数の代わりに、ピクセル値は、最小値から最大値の間の如何なる数値範囲でも表わすことができる。いくつかの実現例においては、ピクセル値は、［０，１］または［−１，１］などの予め定められた範囲に直線的にスケーリング（または正規化）することができる。次いで、ピクセル値を量子化することができる。特徴ベクトルはステップ５３０〜５５０と同様に得ることができる。

いくつかの実施例においては、図６を参照すると、線画像６１０は解像度が縮尺(すなわち縮小)されて、これにより、縮小された線画像６２０が形成される。たとえば、線画像６１０は６０ピクセルの高さを有し得る。縮小された線画像６２０は、２０ピクセルの高さを有してもよく、寸法が１／３に縮小されている。縮小された線画像６２０はデジタル化されて、各々がピクセル値によって表わされるピクセルからなる配列６３０を形成する。配列６３０における各列のピクセル値は、２進数を形成するよう順番に並べられる。さまざまな列からの２進数がデータストリング６４０を形成し、これが特徴ベクトルを形成する。テキスト行の線画像から得られる特徴ベクトルが隠れマルコフモデルに供給されて、テキスト行におけるアラビア文字が認識され得る（ステップ５７０、図５）。

図７Ａ、図７Ｂおよび図８を参照すると、線画像７００は、ステップ５１０（図５）と同様にピクセルの配列にデジタル化される（ステップ８１０、図８）。ピクセルは複数の列に配置される。ピクセル値は、「１」または「０」の値を有するシングルビットの２進数で表わされる。各列におけるピクセル値は順番に並べられて、シングルビットの２進数のストリングを形成する（ステップ８３０、図８）。

次いで、図７Ｃおよび図７Ｄに示されるように、連続したピクセルが「０」および「１」からなる同じ２進ピクセル値を有する頻度が計算される（ステップ８４０、図８）。これらの頻度はカットオフ遷移数になるまでカウントされる。これらの頻度を表にして、頻度カウント７５０および７６０を形成する（ステップ８５０、図８）。同じ遷移数ではあるが相補的なピクセル値を有する２列のピクセルを識別するために、たとえば、

頻度カウントは、列における最上部のピクセルから「１」の数をカウントし始めることによって行なわれる。左側にある最初の列は、ピクセル値「１」が「０」個であり、次いで、「０」のピクセル値が「３」個となる。２つの列における相補的なピクセル値は、結果として、以下の頻度カウントとなるだろう。

各列の冒頭にある最初のピクセルカウントも、本発明の精神から逸脱することなく、ピクセル値「０」に関して行うことができることが理解されるはずである。

表にされた頻度カウント７５０および７６０における各々の行（図７Ｃおよび図７Ｄ）は、ピクセル値が（「１」のピクセル値を有する）白色背景から（「０」のピクセル値を有する）濃色テキスト領域へ、またはこれとは逆の態様で、遷移することを表わしている。データを圧縮するために、頻度カウントは最大遷移数でカットオフされる。

表にされた頻度カウント７５０および７６０の各列における頻度カウントは特徴ベクトルを形成する（ステップ８６０、図８）。したがって、列は、ここに記載された実施例においてはベクトルとも称される。特徴ベクトルを線画像におけるさまざまな列から隠れマルコフモデルへと供給する（ステップ８７０、図８）。

最大遷移数は、アラビア語テキストの大規模なサンプルについての統計解析によって決定される。表１に示されるように、列の約９９．３１％は６以下の遷移数を有する。言いかえれば、テキスト画像の大部分は、カットオフ遷移数として６を選択することによって適切に特徴付けることができる。

ＨＭＭベースのシステムを構築する場合、このシステムをトレーニングおよびテストするのに用いられるべき特徴ベクトルの種類が最初に規定される。特徴ベクトルは、連続的な種類および離散的な種類として分類することができる。連続的な特徴ベクトルを用いるシステムにおいては、モデルを供給するために係数の配列またはしばしばマトリックスが用いられる。離散的なシステムにおいては、単一の係数がモデルに供給される。ベクトル量子化とは、連続的なベクトルを離散的なベクトルに変換することを意味し、これは、ＨＴＫに付属するＨＱｕａｎｔツールおよびＨＣｏｐｙツールを用いて行うことができる。ＨＱｕａｎｔは、離散的なベクトルを生成するために、後でＨＣｏｐｙツールと共に用いられるべきトレーニングデータからコードブックを構築するのに用いられる。コードブックの構築は、そのサイズに応じてシステムの性能に影響を及ぼし、それを構築するのに用いられるデータの量によって影響を受ける。ＨＱｕａｎｔは、コードブックを構築するために線形ベクトル量子化アルゴリズムを用いる。これは、コンピュータでは計算するのに高価なアルゴリズムである。本開示においては、固有ベクトル量子化（ＵＶＱ：Unique Vector Quantization）と称される新しい方法を導入して、計算時間を減らし、システムの性能を向上させる。この方法は、特徴ベクトルの反復を消去することによって線形ベクトル量子化アルゴリズムを用いてコードブックを構築するのに用いられ、かつ、各々の特徴ベクトルの単一のコピーを保持するのに用いられる特徴ベクトルの数を減らすことに焦点を合わせている。表２に示されるように、コーパス内の特徴ベクトルの数が大幅に減じられる。

我々は、２０００の異なる線画像の特徴ベクトルをすべて用いてコードブックを構築しようと試みた時に、このコードブックについて構築することのできる最大サイズが７２８であることを見出した。このコードブックを構築するのにかかった時間は、固有特徴ベクトルのみから１０２４サイズのコードブックを構築するのにかかる１時間３０分ではなく、約９時間であった。モノ−モデルを用いたこれらの実験から得られる認識率を表３に示す。固有特徴ベクトルが線形ベクトル量子化アルゴリズムと共に用いられると、コードブックのサイズが大きくなる。計算時間は６分の１に減じられ、認識率が高まった。

適応性のあるアラビア語コーパスの構築
光学式文字認識（ＯＣＲ：Optical Character Recognition）システムは、アラビア文字のトレーニングおよび認識のためのコーパス、すなわちデータセット、を必要とする。コーパスは２つの主要な部分を含む。第１に、ページ、記事、行、単語または文字画像のセット、第２に、当該ページ、記事、行、単語または文字画像のセットからなる同等のテキストを表わすグラウンドトルースである。

コーパスの構築は退屈で時間のかかるタスクであり、このタスクには、目標の文書を走査すること、ならびに、トレーニングおよびテストのために必要なサンプルを提供するために管理されたセグメンテーションを実行することが含まれる。さらに、コーパスの構築には、テキスト画像のニーズに相当するテキストをタイプするタスクが含まれる。

アラビア語の場合、アラビア語の文体に多様性があるために、コーパス構築には余分な労力および時間が必要となる。アラビア語テキストの中には、母音化して書かれるものもあれば、母音化なしで書かれるものもある。アラビア語テキストの中には、ハムザや、単語の末尾におけるYa文字の下にある点を無視するものもある。アラビア語テキストの中には、非アラビア語からの単語を含むものもある。これらの理由から、さまざまな書式のアラビア語テキストを含むコーパスを見出して整えることは困難である。

上述の課題を克服するために、本願は、アラビア語コーパスを構築するためのインテリジェントな適応的方法を開示する。開示された方法は、アラビア語テキストをユーザまたはコンピュータによって選択されるとおりの如何なる書式または文体にも変換することができる。これらのオプションの例として、母音化の追加または削除、ハムザおよび単語の末尾におけるYa文字の下にある点の追加または削除、ならびに、他の言語からの単語の追加または削除が含まれ得る。開示された方法は、ユーザまたはコンピュータがフォントの種類およびフォントのサイズを選択することを可能にする。開示された方法ではまた、サンプルテキストを選択された書式で表わすことができる。

いくつかの実施例においては、図９を参照すると、開示されたアラビア語コーパス構築方法は、以下のステップのうち１つ以上を含み得る。当該方法は、処理すべきファイルがあるかどうかをチェックする（ステップ９１０）ことから始められる。ファイルは、トレーニングの目的でアラビア語コーパスを構築するのに用いられるページ、記事、行、単語または文字画像のセットを指す。

処理すべきファイルがある場合、当該方法は、アラビア語コーパスが句読点なしを可能にすべきかどうかをチェックする（ステップ９１５）。可能にすべきであれば、句読点なしのコーパスが構築される（ステップ９２０）。テキスト行は一行ずつ読取られる。「ＨＡＭＺＡＨ」および「ＡＬＹＡＡＡＬＭＡＱＳＯＯＲＡＨ」についてのドットは、これらのアラビア文字のうちどちらか一方または両方を含む如何なる単語からも削除される。

（ステップ９２０において）句読点が削除された後、または句読点なしを可能にすべきでない（ステップ９１５）場合、当該方法はアラビア語コーパスが母音化を可能にすべきかどうかをチェックする（ステップ９２５）。そうであれば、テキスト行が一行ずつ読取られる。各単語毎の母音化は、テキストの文脈におけるその単語の文法上の役割に左右される。母音化が完了したファイルから読取られたアラビア語テキストが出力される（ステップ９３０）。

（ステップ９３０において）母音化が完了した後、または母音化を可能にすべきでない（ステップ９２５）場合、当該方法では、アラビア語コーパスが多言語を可能にすべきどうかをチェックする（ステップ９３５）。そうであれば、ユーザまたはコンピュータが、自身がアラビア語コーパスに含むことを希望する非アラビア語を選択することが可能となる。ファイルから読取られたテキスト行に現われる非アラビア語の文字および単語は、アラビア語に翻訳される（ステップ９４０）。翻訳された単語を含むアラビア語テキストは、多言語のアラビア語コーパスにおいて用いられる。

アラビア語コーパスが多言語を可能にすべきでない（ステップ９３５）場合、ステップ９１５〜９３０から得られるテキストファイルの各々における行の数が確認される（ステップ９４５）。当該方法は、各々のテキストファイルが所定の最大数（たとえば１００本の行）を上回る数の行を確実に含まないようにする。最大許容数を上回る数の行を有するテキストファイルは複数のファイルに分割されるが、これら複数のファイルの各々は最大数未満の数の行を有している。

ステップ９４０および９４５の後、それまでの処理ステップによって得られたテキストファイルが、文体インデックスによってインデックス付けされる（ステップ９５０）。文体インデックスにより、テキストファイルが、処理ステップにおいて収集または生成された情報で有効かつ正確にラベル付けされる。

ここで開示される方法は、さまざまなインデックス構造と適合性がある。たとえば、文体インデックスは８つの数字を含み得る。最初の２つの数字は、ステップ９１５〜９４５における処理のためにユーザまたはコンピュータが選択した文体オプションを表わし得る。たとえば、最初の２つの数字において、００は、いずれの文体オプションも選択されていないことを意味し得る。０１は、第１のオプションが選択されていることを意味し得る、等々である。３番目および４番目の数字はフォントの種類を表わし、５番目および６番目の数字は選択されたフォントサイズを表わし、７番目および８番目の数字はフォルダにおけるファイル位置を表わす。

図１０は、選択された文体オプションに関する文体インデックスの最初の２つの数字についての例示的なコーディングを示す。ステップ９２０、９３０および９４０におけるオプション（すなわち句読点なし、母音化および多言語）は、それぞれ、第１のオプション、第２のオプションおよび第３のオプションと称される。上述のとおり、００はオプションがいずれも選択されていないことを意味し得る。０１、０２および０４は、それぞれ、第１のオプション、第２のオプションまたは第３のオプションのうちの１つだけが選択されていることを表わす。０３、０５、０６は各々、３つのオプションのうち２つのオプションが選択されていることを表わす。０７は、３つのオプションがすべて選択されている場合を指す。

アラビア語テキストファイルは、アラビア語テキストをより正確にトレーニングおよび認識するためにこれらの文体に基づいて適切にインデックス付けされる。たとえば、開示されたアラビア語コーパスは、句読点の有無に関わらず、母音化の有無に関わらず、かつ、多言語の有無に関わらず、アラビア語テキストの自動識別を可能にし、これにより、さまざまな文体のアラビア語テキストをより正確にグラウンドトルースに関連付けることが可能となる。文字認識のための知識ベースとして用いられるアラビア語テキストのさまざまな文体についての構造化されたカタログがあるので、アラビア文字の認識が改善される。

先のステップによって処理され、適切にインデックス付けされたテキストは、ユーザが検討および確認できるように画像に変換することができる（ステップ９５５）。各テキストファイルは、テキストファイルに関連付けられた画像に変換される。次いで、画像がいくつかの線画像に分割され、各々の線画像にはテキストファイル名および線の通し番号が付される。線の通し番号は（最大の線番号を１００として）０〜９９の範囲内にあり得る。

上述の方法においては、さまざまな文体またはテキスト形式がユーザまたはコンピュータによって選択可能であることに留意されたい。コンピュータアルゴリズムは、たとえば、３つのすべての文体オプションを考慮に入れるようにデフォルト設定を行うことができる。コンピュータアルゴリズムはまた、テキストファイルの処理を考慮に入れて文体を動的に決定するために、コーパス構築のために用いられるテキストファイル（ページ、記事、行、単語または文字画像）を自動的に分析することができる。たとえば、コンピュータは、テキストファイルにおける非アラビア語の存在を検出し、非アラビア語を自動的に翻訳して多言語コーパスを構築することができる。コンピュータはまた、コーパス構築に用いられる各テキストファイルにおける句読点または母音化の状態を動的に判断することができる。テキスト画像は、上述のとおり、検出された文体を示すよう自動的にラベル付けされる。文体に対応して関連付けられた文体インデックスは、アラビア語テキストファイルのうちの１つに関連付けてコンピュータによって自動的に記憶される。

上述の方法が、使用される特定の例に限定されないことが理解されるはずである。構成は、本発明の精神から逸脱することなく変更可能である。たとえば、カットオフ遷移数は６以外の数となるよう選択することができる。線画像の高さおよび幅、ならびに線画像内のセルのサイズもまた、上述で用いられた例とは異なっていてもよい。テキスト特徴ベクトルの形は抽出方法に応じて異なり得る。たとえば、特徴ベクトルは、一連の２進数、１０進数または他の数値体系での数の形であってもよい。

２００テキスト画像、２１１、２１２、２１３、２１４テキスト行、３１１、３１２、３１３線画像。

Claims

アラビア語テキストを自動的に認識するための方法であって、
アラビア語テキストファイルと、アラビア語テキストファイルの各々に対応するグラウンドトルースとを含むアラビア語コーパスを構築するステップを含み、アラビア語テキストファイルは、さまざまな文体で書かれたアラビア語テキストを含み、前記方法はさらに、
コンピュータによって文体インデックスをアラビア語テキストファイルに関連付けて記憶するステップを含み、文体インデックスの各々は、アラビア語テキストファイルのうちの１つが文体のうちの１つで書かれていることを示し、前記方法はさらに、
アラビア文字の線を含むテキスト画像を得るステップと、
アラビア文字の線をデジタル化して、各々がピクセル値に関連付けられているピクセルの２次元配列を形成するステップとを含み、ピクセル値は２進数で表わされ、前記方法はさらに、
アラビア文字の線を複数の線画像に分割するステップと、
複数の線画像のうちの１つにおける複数のセルを規定するステップとを含み、複数のセルの各々は、隣接するピクセルの群を含み、前記方法はさらに、
複数の線画像のうちの１つにある複数のセルの各々におけるピクセルのピクセル値を並べて、２進数のセル番号を形成するステップと、
複数の線画像のうちの１つにある複数のセルから得られる２進数のセル番号に従ってテキスト特徴ベクトルを形成するステップと、
アラビア語テキストファイルに関連付けられた文体インデックスに従ってアラビア語コーパスにおけるアラビア語テキストファイルおよびグラウンドトルースを用いて隠れマルコフモデルをトレーニングするステップと、
テキスト特徴ベクトルを隠れマルコフモデルに供給してアラビア文字の線を認識するステップとを含む、方法。
２進数のセル番号を１０進数のセル番号に変換するステップと、
複数の線画像のうちの１つにある複数のセルから得られる１０進数のセル番号を並べて、１０進数のセル番号のストリングを形成するステップと、
複数の線画像のうちの１つにある複数のセルから得られる１０進数のセル番号のストリングに従ってテキスト特徴ベクトルを形成するステップとをさらに含む、請求項１に記載の方法。
文体は、アラビア語テキストにおいて句読点の有無を規定する、請求項１に記載の方法。
文体は、アラビア語テキストにおいて母音化の有無を規定する、請求項１に記載の方法。
文体は、アラビア語テキストファイルにおいて非アラビア語テキストの存在の有無を規定する、請求項１に記載の方法。
アラビア語コーパスを構築するステップは、
アラビア語テキストファイルのうちの１つに関連付けられた文体に関する入力をユーザから受理するステップを含む、請求項１に記載の方法。
アラビア語コーパスを構築するステップは、
コンピュータによってアラビア語テキストファイルのうちの１つに関連付けられる文体を自動的に判断するステップを含み、文体に対応して関連付けられた文体インデックスが、アラビア語テキストファイルのうちの１つに関連付けて自動的に記憶される、請求項１に記載の方法。
ピクセルの２次元配列は、第１の方向において複数の行と、第２の方向において複数の列とを含み、アラビア文字の線は、実質的に第１の方向に沿って位置合わせされ、複数の線画像は、第１の方向に沿って順次位置合わせされる、請求項１に記載の方法。
ピクセルの２次元配列は、Ｎ行のピクセルを含み、複数の線画像のうち少なくとも１つは、第１の方向においてＭ個の行によって規定される高さと、第２の方向においてＮ個の列によって規定される幅とを有し、ＭおよびＮは整数である、請求項８に記載の方法。
Ｎは、２〜約１００の間の範囲にある、請求項９に記載の方法。
ピクセルの２次元配列におけるピクセル値はシングルビットの２進数で表わされる、請求項１に記載の方法。
ピクセルの２次元配列におけるピクセル値はマルチビットの２進数で表わされる、請求項１に記載の方法。
アラビア語テキストを自動的に認識する方法であって、
アラビア語テキストファイルと、アラビア語テキストファイルの各々に対応するグラウンドトルースとを含むアラビア語コーパスを構築するステップを含み、アラビア語テキストファイルは、さまざまな文体で書かれたアラビア語テキストを含み、前記方法はさらに、
コンピュータによってアラビア語テキストファイルに関連付けて文体インデックスを記憶するステップとを含み、文体インデックスの各々は、アラビア語テキストファイルのうちの１つが文体のうちの１つで書かれていることを示し、前記方法はさらに、
アラビア文字の線を含むテキスト画像を得るステップと、
アラビア文字の線をデジタル化して、各々がピクセル値に関連付けられるピクセルの２次元配列を形成するステップと、
アラビア文字の線を複数の線画像に分割するステップと、
複数の線画像のうち少なくとも１つを縮小して、縮小された線画像を生成するステップと、
縮小された線画像の各列におけるピクセルのピクセル値を並べて、並べられた数字のストリングを形成するステップとを含み、並べられた数字のストリングはテキスト特徴ベクトルを形成し、前記方法はさらに、
アラビア語テキストファイルに関連付けられた文体インデックスに従ってアラビア語コーパスにおけるアラビア語テキストファイルおよびグラウンドトルースを用いて隠れマルコフモデルをトレーニングするステップと、
テキスト特徴ベクトルを隠れマルコフモデルに供給してアラビア文字の線を認識するステップとを含む、方法。
ピクセルの２次元配列は、第１の方向において複数の行と、第２の方向において複数の列とを含み、アラビア文字の線は、実質的に第１の方向に沿って位置合わせされ、複数の線画像は、第１の方向に沿って順次位置合わせされる、請求項１３に記載の方法。
ピクセルの２次元配列は、Ｎ行のピクセルを含み、複数の線画像のうち少なくとも１つは、第１の方向においてＭ個の行によって規定される高さと、第２の方向においてＮ個の列によって規定される幅とを有し、ＭおよびＮは整数である、請求項１４に記載の方法。
文体は、アラビア語テキストにおける句読点の有無、アラビア語テキストにおける母音化の有無、およびアラビア語テキストファイルにおける非アラビア語テキストの存在の有無を規定する、請求項１３に記載の方法。
アラビア語コーパスを構築するステップは、アラビア語テキストファイルのうちの１つに関連付けられた文体に関する入力をユーザから受理するステップを含む、請求項１３に記載の方法。
アラビア語コーパスを構築するステップは、コンピュータによってアラビア語テキストファイルのうちの１つに関連付けられる文体を自動的に判断するステップを含み、文体に対応して関連付けられた文体インデックスが、自動的にアラビア語テキストファイルのうちの１つに関連付けて記憶される、請求項１３に記載の方法。