JP2014106961A - アラビア語テキストを自動的に認識するためのコンピュータによって実行される方法、およびコンピュータプログラム - Google Patents

アラビア語テキストを自動的に認識するためのコンピュータによって実行される方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP2014106961A
JP2014106961A JP2013118680A JP2013118680A JP2014106961A JP 2014106961 A JP2014106961 A JP 2014106961A JP 2013118680 A JP2013118680 A JP 2013118680A JP 2013118680 A JP2013118680 A JP 2013118680A JP 2014106961 A JP2014106961 A JP 2014106961A
Authority
JP
Japan
Prior art keywords
pixels
column
pixel value
arabic
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013118680A
Other languages
English (en)
Other versions
JP2014106961A5 (ja
Inventor
S Khorsheed Mohammad
モハメド・エス・ホルシード
Hussein K Al-Omari
フセイン・ケィ・アル−オマリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
King Abdulaziz City for Science and Technology KACST
Original Assignee
King Abdulaziz City for Science and Technology KACST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by King Abdulaziz City for Science and Technology KACST filed Critical King Abdulaziz City for Science and Technology KACST
Publication of JP2014106961A publication Critical patent/JP2014106961A/ja
Publication of JP2014106961A5 publication Critical patent/JP2014106961A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation
    • G06V30/2276Character recognition characterised by the type of writing of cursive writing using stroke segmentation with probabilistic networks, e.g. hidden Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

【課題】アラビア語テキストの認識において、適切にテキスト特徴を抽出する。
【解決手段】アラビア語の文字のラインがデジタル化されることにより、各々が2進数で表現された画素値に関連付けられた二次元の画素の配列が形成される。画素値は2進数で表現される。さらに、アラビア語の文字のラインが複数のライン画像へと分割されて、複数のライン画像の中の1つにおいて複数のセルが規定される。複数のセルの各々は、隣接した画素のグループを有する。さらに、複数のライン画像の中の1つにおいて複数のセルの各々の画素の画素値がシリアル化されることにより、2値セル番号が形成される。また、複数のライン画像の中の1つにおける複数のセルから取得された2値セル番号に従ってテキスト特徴ベクトルが形成される。そして、テキスト特徴ベクトルが隠れマルコフモデルに送られることによりアラビア語の文字のラインが認識される。
【選択図】図1

Description

本特許出願は、同一発明者によって2011年12月14日に出願され、同一譲受人の、係属する米国特許出願第13/325,789号、名称「効果的なアラビア語テキスト特徴の抽出に基づく、アラビア語テキスト認識のためのシステムおよび方法」の継続出願であり、当該出願についての優先権を主張する。米国特許出願第13/325,789号は、同一発明者によって2009年4月27日に出願された、米国特許出願第12/430,773号、名称「効果的なアラビア語テキスト特徴の抽出に基づく、アラビア語テキスト認識のためのシステムおよび方法」の継続出願であり、その開示は、ここに参照により組み込まれる。
発明の背景
本願は、概して、アラビア語テキストの自動的な認識に関する。
テキスト認識、つまり、テキストの自動読取は、パターン認識の一分野である。テキスト認識の目的は、印刷されたテキストを、人間の精度で、かつ、より速く、読取ることである。多くのテキスト認識の方法は、テキストが個々の文字へと分離できることを前提としている。このような技術では、タイプライタで打たれた、または、活字に組まれたラテン語については首尾よくいくが、アラビア語のような筆記体には、信頼できる程度に適用することはできない。これまでのアラビア語の手描きテキストの認識についての研究によれば、アラビア語の単語を個々の文字へとセグメント化する試みにおける困難性が確認されている。
アラビア語テキストの認識には、統計モデルのような異なる分類体系が適用されてきた。しかしながら、適切にテキスト特徴を抽出することは、未だ、正確なアラビア語テキストの認識を達成することにおいての主要な障害のままである。
発明の概要
概略的な側面において、本願発明は、アラビア語テキストを自動的に認識するための方法に関する。当該方法は、アラビア語の文字のラインを含むテキスト画像を取得することと、アラビア語の文字のラインをデジタル化することにより、各々が画素値に関連付けられた二次元的の画素の配列を形成することとを含み、画素値は2進数で表現され、上記方法は、さらに、アラビア語の文字のラインを複数のライン画像へと分割することと、複数のライン画像の中の1つにおいて複数のセルを規定することとを含み、複数のセルの各々は、隣接した画素のグループを有し、上記方法は、さらに、複数のライン画像の中の1つにおいて複数のセルの各々の画素の画素値をシリアル化することにより2値セル番号を形成することと、複数のライン画像の中の1つにおける複数のセルから取得された2値セル番号に従ってテキスト特徴ベクトルを形成することと、テキスト特徴ベクトルを隠れマルコフモデル(Hidden Markov Model)に送ることによりアラビア語の文字のラインを認識することとを含む。
他の概略的な局面において、本願発明は、アラビア語テキストを自動的に認識するための方法に関する。当該方法は、アラビア語の文字のラインを含むテキスト画像を取得すること、アラビア語の文字のラインをデジタル化することにより、各々が2進数で表現された画素値に関連付けられた二次元の画素の配列を形成することを含み、二次元の画素の配列は、第1の方向における複数の行と、第2の方向における複数の列とを含み、上記方法は、さらに、画素の列において同じ画素値を有する連続する画素の頻度をカウントすることと、画素の列から得られた頻度カウントを利用してテキスト特徴ベクトルを形成することと、当該テキスト特徴ベクトルを隠れマルコフモデルへ送ることによりアラビア語の文字のラインを認識することとを含む。
他の概略的な局面において、本願発明は、アラビア語テキストを自動的に認識するための方法に関する。当該方法は、アラビア語の文字のラインを含むテキスト画像を取得することと、アラビア語の文字のラインをデジタル化することにより、各々が画素値に関連付けられた二次元の画素の配列を形成することと、当該アラビア語の文字のラインを複数のライン画像へと分割することと、当該複数のライン画像の少なくとも1つを小型化することにより小型化されたライン画像を生成することと、小型化されたライン画像の各々の列の画素の画素値をシリアル化することにより一連のシリアル化された番号を形成することとを含み、一連のシリアル化された番号はテキスト特徴ベクトルを形成し、上記方法は、さらに、当該テキスト特徴ベクトルを隠れマルコフモデルへ送ることによりアラビア語の文字のラインを認識することとを含む。
他の概略的な局面において、本願発明は、コンピュータ読取可能なプログラムコード関数を含むコンピュータプログラムに関し、当該コード関数は、コンピュータに、アラビア語の文字のラインを含むテキスト画像を取得させ、アラビア語の文字のラインをデジタル化させることにより、各々が画素値に関連付けられた二次元の画素の配列を形成させ、当該画素値は2進数で表現され、上記コード関数は、上記コンピュータに、さらに、アラビア語の文字のラインを複数のライン画像へと分割させ、複数のライン画像の中の1つにおける複数のセルを規定させ、複数のセルの各々は隣接する画像のグループを有し、上記コード関数は、上記コンピュータに、さらに、複数のライン画像の中の1つにおける複数のセルの各々の画素の画素値をシリアル化させ、複数のライン画像の中の1つにおける複数のセルから取得された2進数のセル番号に応じてテキスト特徴ベクトルを形成させ、当該テキスト特徴ベクトルを隠れマルコフモデルに送ることによりアラビア語の文字のラインを認識させる。
システムの実現は、以下に示されたもののうち1またはそれ以上を含む場合がある。上記方法は、さらに、2進数のセル番号を10進数のセル番号へと変換することと、複数のライン画像の中の1つにおける複数のセルから取得された10進数のセル番号をシリアル化することにより一連の10進数のセル番号を形成することと、複数のライン画像の中の1つにおける複数のセルから取得された一連の10進数のセル番号に従ってテキスト特徴ベクトルを形成することとを含み得る。二次元の画素の配列は、第1の方向における複数の行と、第2の方向における複数の列とを含み得る。アラビア語の文字のラインは、実質的に上記第1の方向に沿って並び得る。複数のライン画像は、上記第1の方向に沿って連続的に並び得る。複数のライン画像の中の少なくとも1つは、第1の方向におけるM個の行によって定義される高さと、第2の方向におけるN個の列によって規定される幅とを有し得る。MおよびNは、整数である。二次元の画素の配列は、N行の画素を含み得る。Nは、2とおよそ100との間の範囲にあり得る。Nは、3とおよそ10との間の範囲にあり得る。二次元の画素の配列における画素値は、単一のビットの2進数で表現され得る。二次元の画素の配列における画素値は、マルチビットの2進数で表現され得る。隠れマルコフモデルは、隠れマルコフモデルツールキットとして実装され得る。
本願において記述されるシステムおよび方法は、アラビア語テキストにおける特徴の抽出のための、包括的な、定量的な、かつ正確な技術を提供する。開示されたアラビア語の文字の認識は、いくつかの従来の技術よりも、より効率的であり、かつ計算時間が短い。開示されたシステムおよび方法は、さらにいくつかの従来の技術よりも、より単純かつ私用しやすい。
発明は複数の実施例を参照することにより具体的に示され記述されているが、形式上の種々の変更や詳細は、発明の精神および範囲を離れることなくなされ得ることが、当業者によって、理解されるであろう。
図面の簡単な説明
以下の図面は、出願書類に組込まれかつその一部を形成し、本願発明の実施例を説明し、かつ、明細書とともに、発明の本質を説明するために供される。
本開示におけるアラビア語のテキスト認識の工程を説明するためのフロー図である。 アラビア語テキストを含むテキスト画像を説明する図である。 テキスト画像を、各々が複数の画素を含む複数のライン画像へと分割することを説明する図である。 図3Aに示されたライン画像の一部分における、画素および画素値を説明する図である。 図3Aに示されたライン画像の一部分における、画素および画素値を説明する図である。 本願に従ったテキスト特徴抽出の方法を説明する図である。 図4に示されたテキスト特徴抽出の工程を説明するフロー図である。 本願に従ったテキスト特徴抽出の他の方法を説明する図である。 本開示に従った他のテキスト特徴抽出方法を説明する図である。 本開示に従った他のテキスト特徴抽出方法を説明する図である。 本開示に従った他のテキスト特徴抽出方法を説明する図である。 本開示に従った他のテキスト特徴抽出方法を説明する図である。 図7A〜図7Dに示されたテキスト特徴抽出の工程を説明するフロー図である。
発明の詳細な説明
図1は、本発明に従ったアラビア語のテキスト認識の概略的な流れを説明する。図1〜図3Cを参照して、アラビア語のテキスト文書から、テキスト画像200が取得される(図1のステップ110)。テキスト画像200におけるアラビア語テキストは、複数のテキストライン211−214に配置され得、その各々は、筆記体のアラビア語の文字のストリングを含む。テキストライン211−214は、複数のライン画像311−313へと分割される(図1のステップ120)。ライン画像311,312,または313は、それから、各々が画素値を割り当てられた画素321−323へと分割される(図1のステップ130)。ライン画像311,312,または313の幅は、2画素と100画素との間の範囲にあり得、または、3画素と10画素との間の範囲にあり得る。ライン画像311,312,または313は、完全な文字、部分的な文字、または結合した文字を含み得る。
画素値は、特定の画素の位置でのテキスト画像200の明度値を表わす。ある実装では、明度値が高いことは、白色背景に位置し得る画素における明るい画像の色(または、低密度)を表す。明度値が低いことは、一筆のアラビア語の文字(a stroke of an Arabic character)内に位置し得る暗い画像の色(または、高密度)を表わす。画素値は、2進数、10進数、および16進数のような、異なる計数法で表現されてもよい。
図3A〜図3Cを参照して、ライン画像311は、複数の画素321−323を含む画像部分320を含む。画素321−323の各々は、2進数の画素値「0」または「1」を割り当てられている。画素値「1」は、白色の背景を表わす。画素値「0」は、一筆のアラビア語の文字内にある、暗画像色(つまり、低い明度値)を表わす。開示されたシステムおよび方法は、2進数で表わされたマルチビットの画素値にも適合可能であり、当該2進数で表わされたマルチビットの画素値は、多段階のトーンレベル(たとえば、グレースケール)で、画像濃度を表わし得る。
本開示に従うと、テキスト特徴ベクトルは、テキストライン211またはライン画像311−313から抽出され得る(図1のステップ140)。テキスト特徴抽出のさまざまな実装の詳細については、以下に、図4〜図8に関連付けられて、議論される。テキスト特徴ベクトルの厳密な形態は、以下に記載されるように、抽出方法によって変化し得る。
ステップ140において取得された特徴ベクトルは、次に、隠れマルコフモデル(HMM)に送られる(図1のステップ150)。本開示では、HMMは、隠れマルコフモデルツールキット(HTK)によって実装される場合があり、それは、隠れマルコフモデルを構築し操作するための移植可能なツールキットである。HTKは、語彙集がなく、学習用サンプル文字からのモデルおよび文法に依存する。HMMは、確率解釈を提供し、特徴ベクトルにおいて見い出されたパターンにおける変化を許容し得る。HTKの機能性の大部分は、Cソースコードで利用可能なライブラリモジュールに組込まれ得る。これらのモジュールは、従来のコマンドライン形式のインターフェイスで動作するように設計されているため、HTKツールの実行を制御するためのスクリプトの記述がシンプルになる。
HMMは、既知のアラビア語の単語を含むテキスト画像から取得された特徴ベクトルを用いることによって、学習させることができる(データ転記)(図1のステップ160)。HTKは、学習用サンプルのための文字モデルとグランドツルース(ground truth)とともに提供される。文字のモデル化のためのコンポーネントは、特徴ベクトルとそれに対応するグランドツルースとを利用し、文字モデルを評価する。学習用サンプルによって生成された観察結果は、モデルパラメータを調整するのに用いられるが、テスト用のサンプルによって生成された観察結果は、システムの性能を調査するのに利用される。モデルの各状態は、アルファベットの組における字を表わし、各特徴ベクトルは、1つの観察結果に相当する。HTK学習ツールは、準備された学習用データを利用して文字モデルパラメータを調整し、既知のデータ転記を予測することができる。
HMMパラメータは、学習用画像セグメントのためのグランドツルースから推定された。このセグメント化は輪郭にも適用されて、セグメント化のポイントを発見し、これらのセグメントから特徴を抽出し、そして、特徴ベクトルを観察シーケンスに伝達し得る。セグメント化を基礎とした技術は、単語の画像と文字列とを一致させるためのダイナミックプログラミングに利用される。学習段階では、テキスト画像に相当するテキストであるグランドツルースと一体となった、走査されたテキストのラインが、入力として取得される。そして、各ラインは、狭い縦割りの窓へと分割され、そこから特徴ベクトルが抽出される。
学習したHMMは、辞書および言語モデルを利用して、特徴ベクトルにおけるアラビア語テキストを認識するために用いられる(図1のステップ170)。認識段階は、最も高い尤度の文字シーケンスを見つけるための学習段階において推定された異なる知識源とともに用いられる特徴ベクトルを抽出するのと同じ工程に引き続く。認識ツールは、あるモデルから他のモデルへの遷移確率を記述するために、ネットワークを必要とする。辞書および言語モデルが当該ツールに入力され、認識装置が正しい状態シーケンスを出力するのに役立つことができる。
いくつかの実施形態では、図3A〜図5を参照して、ライン画像311−313は、各々が画素値によって特徴付けられる画素321−323の配列へとデジタル化される(図5のステップ510)。ライン画像311は、図4に示されるように、複数のセル410−460へと分割される(図5のステップ520)。セル410−460の各々は、3×3画素の配列のような、隣接する画素のグループを含む。たとえば、セル420は、画素422,423および他の画素を含む。
次に、各々のセルの画素値が、2進数のセル番号で表わされる(図5のステップ530)。各セルにおける画素値は、まず、シリアル化される。たとえば、セル420における9つの画素322−323は、連続する3行の順に、次のようにシリアル化される:1,1,1,1,0,0,1,0,0。一連の2進数の画素値は、その後、9ビットの2進数のセル番号へとマップされる。画素322の画素値は、最上位ビットにマップされ、画素323の画素値は、最下位ビットにマップされる。結果として、セル420における画素値は、2進数で表わされる9ビットのセル番号111100100で表わされる。同様に、セル410−460における画素値が、それぞれが0と511との間の範囲にある、2進数で表わされるセル番号480へと変換される。
ライン画像311のセルにおける、2進数のセル番号は、次に、10進数のセル番号490へと変換される(図5のステップ540)。10進数のセル番号490は、その後、ライン画像311のための特徴ベクトルを形成するためにシリアル化される(図5のステップ550)。ステップ520−550は、別のライン画像のために繰返される。別のライン画像311−313からの特徴ベクトルは、その後、隠れマルコフモデルへと送られ、テキストラインにおけるアラビア語の文字を認識する(図5のステップ560)。
図4〜図5と併せて記述された上記の抽出方法は、図1において説明された処理のためのテキスト特徴抽出の実装を表す。上記のテキスト特徴抽出方法は、データストリングにおけるマルチビットの画素値および他の数値表現に適合することが理解されるべきである。たとえば、画素値は、テキスト画像におけるグレースケール情報(または、マルチトーン)を取り込むことのできる、3ビットまたは5ビットの2進数によって表わされ得る。マルチビットの画素値は、ストロークのエッジに沿ったテキスト特徴の記述の精度を改善し得る。
さらに、2進数の代わりに、画素値は、最小値と最大値との間のいかなる数値範囲によっても表わされ得る。いくつかの実装においては、画素値は、[0,1]または[−1,1]のような、所定の範囲に比例した(または、正規化された)値となり得る。そして、画素値は、量子化され得る。特徴ベクトルは、ステップ530−550と同様に取得され得る。
いくつかの実施形態では、図6を参照して、ライン画像610は、分解能において縮小され(つまり、小型化され)、これにより、小型化されたライン画像620が形成される。たとえば、ライン画像610は、60画素の高さを有し得る。小型化されたライン画像620は、1/3倍の寸法で、20画素の高さを有し得る。小型化されたライン画像620は、各々が画素値によって表わされる画素の配列630を形成するために、デジタル化される。配列630における各列の画素値は、2進数を形成するために、シリアル化される。異なる列からの2進数は特徴ベクトルを形成するデータストリング640を形成する。テキストラインのライン画像から取得された特徴ベクトルは、隠れマルコフモデルへ送られ、これにより当該テキストラインにおけるアラビア語の文字を認識することができる(図5のステップ560)。
図7A,図7B,および図8を参照して、ライン画像700は、ステップ510(図5)と同様に、画素の配列へとデジタル化される(図8のステップ810)。画素は、複数の列に配置される。画素値は、値「1」または値「0」を有する、単一のビットの2進数によって表わされる。各列の画素値がシリアル化されることにより、単一のビットの2進数の列が形成される(図8のステップ830)。
次に、図7Cおよび図7Dに示されるように、値「0」および値「1」の、同じ2進数の画素値を有する連続した画素の頻度が、計算される(図8のステップ840)。当該頻度は、足切遷移番号(cut off transition number)まで、カウントされる。当該頻度を表形式化して、頻度カウント750および760を形成する(図8のステップ850)。コンプリメンタリ画素値、たとえば、
以外同じ数の遷移を有する2つの画素の列を区別するために、列の最上部の画素から値「1」の数のカウントを開始することによって、頻度カウントが実行される。左側の列では、初めは、画素値「1」のカウントは「0」であり、「3」カウントの画素値「0」が続く。当該2つの列におけるコンプリメンタリ画素値は、結果として、次の頻度カウントのようになる:
各列の初めにおける、当初の画素カウントが、本発明の精神から逸脱することなく、画素値「0」について行なうこともできることが、理解されるべきである。
表形式の頻度カウント750,760(図7C,図7D)における各行は、白色の背景(画素値「1」を有する)から暗テキスト領域(画素値「0」を有する)への、またはその逆の、画素値における遷移を表わしている。データを圧縮するために、頻度カウントが、最大遷移番号で切り捨てられている。
表形式の頻度カウント750,760の各列における頻度カウントは、特徴ベクトルを形成している(図8のステップ860)。したがって、本実施の形態では、各列は、ベクトルと称することもできる。ライン画像におけるさまざまな列からの特徴ベクトルが、隠れマルコフモデルへ送られる(図8のステップ870)。
最大遷移番号は、アラビア語テキストの大標本についての統計的解析によって決定される。表1に示されるように、およそ99.31%の列が、6以下の遷移を有している。換言すれば、テキスト画像の大多数が、足切遷移番号として6を選択することにより適切に特徴付けられ得る。
HMMをベースとしたシステムを構築するときには、このシステムの学習および検査において用いられる特徴ベクトルのタイプが最初に規定される。特徴ベクトルは、継続タイプと分離タイプとに分類されることができる。継続タイプの特徴ベクトルを利用するシステムでは、上記モデルに送られる係数の配列が、またある場合はマトリクスが、利用される。分離タイプの特徴ベクトルが利用されるシステムでは、単一の係数が、上記モデルに送られる。ベクトル量子化手段が、継続タイプのベクトルを分離タイプのベクトルに変換し、これは、HTKに伴うHQuantツールとHCopyツールとが用いられることによってなされる。HQuantは、後に分離タイプのベクトルを生成するHCopyとともに用いられる学習用データからコードブックを構築するために用いられる。コードブックの構築は、システムのサイズに応じて当該システムの性能に影響を及ぼし、また、その構築に利用されたデータの量に影響を受ける。HQuantは、コードブックの構築に、線形ベクトル量子化アルゴリズム(Liner Vector Quantization Algorithm)を利用し、これは、計算するのには計算コストが高いアルゴリズムである。本開示では、ユニークベクトル量子化(Unique Vector Quantization(UVQ))という名前の新しい方法が導入され、これにより、演算時間が削減され、そして、システムの性能が改善される。この方法は、特徴ベクトルの繰返しを削除することによって、線形ベクトル量子化アルゴリズム(Liner Vector Quantization Algorithm)を利用するコードブックの構築に利用される特徴ベクトルの数を減らすことおよび、各特徴ベクトルのたった一つのコピーを保持するために用いられる特徴ベクトルの数を減らすことに焦点を当てている。表2に示されるように、コーパス内の特徴ベクトルの数は、大幅に削減されている。
2000個の異なるライン画像の特徴ベクトルのすべてを用いてコードブックを構築しようとしたとき、このコードブックについて構築できる最大のサイズが728であることを発見した。ユニーク特徴ベクトルのみから1024サイズのコードブックを構築するのに1時間30分を要したのに対し、このコードブックの構築にはおよそ9時間を要した。モノラルモデル(mono models)を用いたこれらの実験からの認識速度は、表3に示される。ユニークな特徴ベクトルが線形ベクトル量子化アルゴリズムとともに用いられると、コードブックのサイズは増大する。計算速度は6倍に上昇し、認識速度は上昇した。
上述の方法は、言及された特定の例に限定されるものではないことが、理解されるべきである。設定は、発明の精神から逸脱することなく変更され得る。たとえば、足切遷移番号は、6以外にも選択され得る。ライン画像の高さおよび幅は、当該ライン画像内のセルのサイズと同様に、上述の例とは異なるものにされ得る。テキスト特徴ベクトルの形態は、抽出方法に応じて変更され得る。たとえば、特徴ベクトルは、2進数、10進数、または他の記数法で記述された数値の形態を取り得る。
今回開示された実施の形態およびその変形例はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。実施の形態およびその変形例において開示された技術は、可能な限り単独でも組み合わせても実施され得ることが意図される。

Claims (16)

  1. アラビア語テキストを自動的に認識するための、コンピュータによって実行される方法であって、
    アラビア語の文字のラインを含むテキスト画像を取得することと、
    当該アラビア語の文字のラインをデジタル化することにより、各々が2進数で表現された画素値に関連付けられた二次元の画素の配列を形成することとを備え、前記二次元の画素の配列は、第1の方向における複数の行と第2の方向における複数の列とを含み、
    前記方法は、さらに、
    画素の列における画素のストリング中の同じ画素値の連続する画素の頻度をカウントすることを備え、各々が異なる画素値を有する隣接した画素のストリングは、それらの間での遷移によって規定され、前記カウントすることは、さらに、
    列の遷移数が予め定められた足切遷移番号に達したときに、当該列における同じ画素値の連続する画素の頻度のカウントを停止することと、
    前記画素の列におけるストリングから取得される頻度カウントを用いてテキスト特徴ベクトルを形成することと、
    当該テキスト特徴ベクトルを隠れマルコフモデルに送ることによりアラビア語の文字のラインを認識することとを備える、方法。
  2. 前記アラビア語の文字のラインは、複数のアラビア語の単語を含む、請求項1に記載のコンピュータによって実行される方法。
  3. 前記テキスト特徴ベクトルは、前記画素の列における連続する画素のストリングから取得された一連の頻度カウントによって形成される、請求項1に記載のコンピュータによって実行される方法。
  4. 前記予め定められた足切遷移番号は、前記アラビア語の文字のラインをデジタル化するステップに先立つ、アラビア語テキストについての統計的解析によって取得される、請求項1に記載のコンピュータによって実行される方法。
  5. 前記予め定められた足切遷移番号は6である、請求項1に記載のコンピュータによって実行される方法。
  6. 前記二次元の配列における画素値は、単一のビットの2進数で表現される、請求項1に記載のコンピュータによって実行される方法。
  7. 前記頻度をカウントすることは、
    列における最初の1またはそれ以上の画素の画素値が「0」であるときに、第1の頻度カウントの値に「0」を割り当てることを含み、前記第1の頻度カウントの次に、当該列の初めに画素値「0」を有する連続した画素の数が続く、請求項6に記載のコンピュータによって実行される方法。
  8. 前記頻度をカウントすることは、
    列の頂点の1またはそれ以上の画素の画素値が「1」であるときに、第1の頻度カウントの値として「0」を割り当てることを含み、前記第1の頻度カウントの次に、当該列の初めに画素値「1」を有する連続した画素の数が続く、請求項6に記載のコンピュータによって実行される方法。
  9. コンピュータに以下のことを実行させるためのコンピュータ読取可能なプログラムであって、プログラムコード関数を含み、前記プログラムコード関数は、コンピュータに、
    アラビア語の文字のラインを含むテキスト画像を取得させ、
    アラビア語の文字のラインをデジタル化させることにより、各々が2進数で表現された画素値に関連付けられた二次元の画素の配列を形成させ、前記二次元の画素の配列は、第1の方向における複数の行と第2の方向における複数の列とを含み、
    前記プログラムコード関数は、さらに、前記コンピュータに、画素の列における画素のストリング中の同じ画素値の連続する画素の頻度をカウントさせ、各々が異なる画素値を有する隣接した画素のストリングはそれらの間での遷移によって規定され、前記カウントするステップは、さらに、前記列における遷移の数が予め定められた足切遷移番号に到達したときに、同じ画素値の連続する画素の頻度のカウントを停止することを含み、
    前記プログラムコード関数は、前記コンピュータに、
    前記画素列におけるストリングから取得される頻度カウントを用いてテキスト特徴ベクトルを形成することと、
    前記テキスト特徴ベクトルを隠れマルコフモデルに送ることによりアラビア語の文字のラインを認識することとを実行させる、コンピュータプログラム。
  10. 前記アラビア語の文字のラインラインは、複数のアラビア語の単語を含む、請求項9に記載のコンピュータプログラム。
  11. 前記テキスト特徴ベクトルは、前記画素の列における連続する画素のストリングから取得された一連の頻度カウントによって形成される、請求項9に記載のコンピュータプログラム。
  12. 前記予め定められた足切遷移番号は、前記アラビア語の文字のラインをデジタル化するステップに先立つ、アラビア語テキストについての統計的解析によって取得される、請求項9に記載のコンピュータプログラム。
  13. 前記予め定められた足切遷移番号は6である、請求項9に記載のコンピュータプログラム。
  14. 前記二次元の配列における画素値は、単一のビットの2進数で表現される、請求項9に記載のコンピュータプログラム。
  15. 前記頻度をカウントするステップは、
    列における最初の1またはそれ以上の画素の画素値が「0」であるときに、第1の頻度カウントの値に「0」を割り当てることを含み、前記第1の頻度カウントの次に、当該列の初めに画素値「0」を有する連続した画素の数が続く、請求項9に記載のコンピュータプログラム。
  16. 前記頻度をカウントするステップは、
    列の頂点の1またはそれ以上の画素の画素値が「1」であるときに、第1の頻度カウントの値として「0」を割り当てることを含み、前記第1の頻度カウントの次に、当該列の初めに画素値「1」を有する連続した画素の数が続く、請求項9に記載のコンピュータプログラム。
JP2013118680A 2009-04-27 2013-06-05 アラビア語テキストを自動的に認識するためのコンピュータによって実行される方法、およびコンピュータプログラム Pending JP2014106961A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/430,773 US8111911B2 (en) 2009-04-27 2009-04-27 System and methods for arabic text recognition based on effective arabic text feature extraction
US13/685,088 US8472707B2 (en) 2009-04-27 2012-11-26 System and methods for Arabic text recognition based on effective Arabic text feature extraction
US13/685,088 2012-11-26

Publications (2)

Publication Number Publication Date
JP2014106961A true JP2014106961A (ja) 2014-06-09
JP2014106961A5 JP2014106961A5 (ja) 2016-06-23

Family

ID=42992189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013118680A Pending JP2014106961A (ja) 2009-04-27 2013-06-05 アラビア語テキストを自動的に認識するためのコンピュータによって実行される方法、およびコンピュータプログラム

Country Status (2)

Country Link
US (5) US8111911B2 (ja)
JP (1) JP2014106961A (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8111922B2 (en) * 2007-06-08 2012-02-07 Microsoft Corporation Bi-directional handwriting insertion and correction
US8111911B2 (en) * 2009-04-27 2012-02-07 King Abdulaziz City For Science And Technology System and methods for arabic text recognition based on effective arabic text feature extraction
US9014477B2 (en) * 2011-10-27 2015-04-21 King Abdulaziz City for Science and Technology (KACST) Method and apparatus for automatically identifying character segments for character recognition
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US20130194448A1 (en) * 2012-01-26 2013-08-01 Qualcomm Incorporated Rules for merging blocks of connected components in natural images
EP2662802A1 (en) * 2012-05-09 2013-11-13 King Abdulaziz City for Science & Technology (KACST) Method and system for preprocessing an image for optical character recognition
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9014480B2 (en) 2012-07-19 2015-04-21 Qualcomm Incorporated Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
JP5986051B2 (ja) * 2013-05-12 2016-09-06 キング・アブドゥルアジズ・シティ・フォー・サイエンス・アンド・テクノロジー(ケイ・エイ・シィ・エス・ティ)King Abdulaziz City For Science And Technology (Kacst) アラビア語テキストを自動的に認識するための方法
US9495620B2 (en) 2013-06-09 2016-11-15 Apple Inc. Multi-script handwriting recognition using a universal recognizer
US9465985B2 (en) 2013-06-09 2016-10-11 Apple Inc. Managing real-time handwriting recognition
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
WO2014204336A1 (en) * 2013-06-18 2014-12-24 Abbyy Development Llс Methods and systems that build a hierarchically organized data structure containing standard feature symbols for conversion of document images to electronic documents
RU2631168C2 (ru) * 2013-06-18 2017-09-19 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и устройства, которые преобразуют изображения документов в электронные документы с использованием trie-структуры данных, содержащей непараметризованные символы для определения слов и морфем на изображении документа
DK179329B1 (en) 2016-06-12 2018-05-07 Apple Inc Handwriting keyboard for monitors
US10062001B2 (en) * 2016-09-29 2018-08-28 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images
CN108073679B (zh) * 2017-11-10 2021-09-28 中国科学院信息工程研究所 一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质
CN107967314B (zh) * 2017-11-22 2022-01-21 珠海市君天电子科技有限公司 文本特征值的提取方法、装置及电子设备
US10565443B2 (en) * 2018-02-16 2020-02-18 Wipro Limited Method and system for determining structural blocks of a document
US10699112B1 (en) * 2018-09-28 2020-06-30 Automation Anywhere, Inc. Identification of key segments in document images
US11194467B2 (en) 2019-06-01 2021-12-07 Apple Inc. Keyboard management user interfaces
CN113254654B (zh) * 2021-07-05 2021-09-21 北京世纪好未来教育科技有限公司 模型训练、文本识别方法、装置、设备和介质
US11914943B1 (en) 2022-08-22 2024-02-27 Oracle International Corporation Generating an electronic document with a consistent text ordering
CN116523544B (zh) * 2023-06-25 2023-11-14 江西省机电设备招标有限公司 一种软件价格测算方法、系统、存储介质以及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008138356A2 (en) * 2007-05-15 2008-11-20 The Engineering Company For The Development Of Computer Systems ; (Rdi) System and method for arabic omni font written optica character recognition
JP2009545807A (ja) * 2006-07-31 2009-12-24 マイクロソフト コーポレーション 2段階テキスト認識
US20100246963A1 (en) * 2009-03-26 2010-09-30 Al-Muhtaseb Husni A Automatic arabic text image optical character recognition method
US20100272361A1 (en) * 2009-04-27 2010-10-28 Khorsheed Mohammad S System and methods for arabic text recognition based on effective arabic text feature extraction

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0498978A1 (en) * 1991-02-13 1992-08-19 International Business Machines Corporation Mechanical recognition of characters in cursive script
US5933525A (en) * 1996-04-10 1999-08-03 Bbn Corporation Language-independent and segmentation-free optical character recognition system and method
ATE368895T1 (de) * 2004-12-10 2007-08-15 Ibm System und verfahren zur verdeutlichung nicht diakritisierter arabischer wörter in einem text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009545807A (ja) * 2006-07-31 2009-12-24 マイクロソフト コーポレーション 2段階テキスト認識
WO2008138356A2 (en) * 2007-05-15 2008-11-20 The Engineering Company For The Development Of Computer Systems ; (Rdi) System and method for arabic omni font written optica character recognition
US20100246963A1 (en) * 2009-03-26 2010-09-30 Al-Muhtaseb Husni A Automatic arabic text image optical character recognition method
US20100272361A1 (en) * 2009-04-27 2010-10-28 Khorsheed Mohammad S System and methods for arabic text recognition based on effective arabic text feature extraction
US20120087584A1 (en) * 2009-04-27 2012-04-12 Khorsheed Mohammad S System and methods for arabic text recognition based on effective arabic text feature extraction

Also Published As

Publication number Publication date
US20130251247A1 (en) 2013-09-26
US20130077864A1 (en) 2013-03-28
US20100272361A1 (en) 2010-10-28
US8369612B2 (en) 2013-02-05
US8111911B2 (en) 2012-02-07
US20120087584A1 (en) 2012-04-12
US8761500B2 (en) 2014-06-24
US20140219562A1 (en) 2014-08-07
US8472707B2 (en) 2013-06-25
US8908961B2 (en) 2014-12-09

Similar Documents

Publication Publication Date Title
JP2014106961A (ja) アラビア語テキストを自動的に認識するためのコンピュータによって実行される方法、およびコンピュータプログラム
US10936862B2 (en) System and method of character recognition using fully convolutional neural networks
JP2667954B2 (ja) 静的及び動的パラメータを使用する自動手書き文字認識装置及び方法
KR101376863B1 (ko) 문서 시각 구조의 문법 분석
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
Mathew et al. Benchmarking scene text recognition in Devanagari, Telugu and Malayalam
CN110114776B (zh) 使用全卷积神经网络的字符识别的系统和方法
Oni et al. Computational modelling of an optical character recognition system for Yorùbá printed text images
Jayanthi et al. Recognition of HandwrittenWords from DigitalWriting Pad Using MMU-SNet.
Ashraf et al. An analysis of optical character recognition (ocr) methods
JP5986051B2 (ja) アラビア語テキストを自動的に認識するための方法
Ajao et al. Hidden markov model approach for offline Yoruba handwritten word recognition
EP2735999A2 (en) Systems and methods for arabic text recognition based on effective arabic text feature extraction
O’Brien et al. Optical character recognition
Thuon et al. Syllable Analysis Data Augmentation for Khmer Ancient Palm leaf Recognition
RU2792743C1 (ru) Идентификация используемых в документах систем письма
Dutta Handwritten word recognition for Indic & Latin scripts using deep CNN-RNN hybrid networks
JP5853488B2 (ja) 情報処理装置およびプログラム
Nakarmi et al. Nepal Script Text Recognition Using CRNN CTC Architecture
Win et al. OCRMPD: OCR system for Myanmar printed document image with a novel segmentation method and hierarchical classification scheme
CN102142088B (zh) 基于有效阿拉伯文特征提取的阿拉伯文识别方法及系统
Shah et al. Word-Level Devanagari Text Recognition
CN115862038A (zh) 一种基于端到端神经网络的木板印刷满文识别方法
Goni et al. Scientific African
Levkov et al. Transfer Learning for Russian Handwriting Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160510

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160510

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160726

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161221

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170221