JP5211050B2 - 2段階テキスト認識 - Google Patents

2段階テキスト認識 Download PDF

Info

Publication number
JP5211050B2
JP5211050B2 JP2009522761A JP2009522761A JP5211050B2 JP 5211050 B2 JP5211050 B2 JP 5211050B2 JP 2009522761 A JP2009522761 A JP 2009522761A JP 2009522761 A JP2009522761 A JP 2009522761A JP 5211050 B2 JP5211050 B2 JP 5211050B2
Authority
JP
Japan
Prior art keywords
character
component
text
recognition
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009522761A
Other languages
English (en)
Other versions
JP2009545807A (ja
Inventor
エー.アブドゥルカデール アーマッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2009545807A publication Critical patent/JP2009545807A/ja
Application granted granted Critical
Publication of JP5211050B2 publication Critical patent/JP5211050B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)

Description

本発明は、2段階テキスト認識に関する。
コンピュータ技術の進歩(例えば、マイクロプロセッサの処理速度、メモリ容量、データ転送帯域幅、ソフトウェアの機能性など)は、さまざまな産業において、コンピュータアプリケーションの進展に広く貢献してきた。例えば、コンピュータを基礎とする意思決定支援システムは、OCR(Optical Character Recognition)などの認識システムおよびそれに関連したテキスト認識アプリケーションに一般的に用いられている。
典型的には、初めにスキャナまたは光学読取装置(optical imagers)が、映像を、「デジタル化」(例えば、画像をコンピュータシステムに入力する場合)するために開発された。続いてそのようなシステムは、他の印刷や写植の機材に適用され、OCRシステムは、複数のコンピュータアプリケーションに徐々に拡張された。一般的にOCR技術は、実現可能なフォントの種類のうち、制限されたまたは限定された選択を認識するように調整されている。一般的にそのようなシステムは、文字を、事前に存在するフォントのデータベースと比較することによって、文字を「認識」できる。フォントに一貫性がないと見なされた場合、OCR技術は、同一であることを確認できないまたは存在しない文字を返し、そのような一貫性のないテキストを、非認識と表示する。
さらに筆跡認識は、テキスト認識よりもさらに困難なシナリオであることが分かっている。一般的に人の筆跡は、書き方によって示される個性的な表現を例示している。従ってまさにその性質上、筆跡パターンは、同じ文字でさえ多様な形を示す。特定の文字に対して考えられるかぎりの筆跡の形を記憶させることは、明らかに実行不可能である。
そのような手書き文字と関連付けられたパターンを認識するために、さまざまな手法が開発されてきた。多くの筆跡認識システムは、ニューラルネット、HMM(Hidden Markov Model)またはKNN(K-Nearest-Neighbor)手法に基づいた認識装置を用いる。一般的にそのようなシステムは、文字の全体外観に基づいて文字を分類するタスクを、適切に実行する。例えば、類似性のレベルは、パターン間の距離測度を作り出すことによって決定できる。
しかし、オフライン筆跡認識として一般的に知られている、画像の中の手書きテキストの認識は、困難なタスクのままである。商業的に実行可能な大規模なシステムが効率的に構築できるまでに、まだやるべき作業が多くある。これらの問題は、それと関連した認識問題を伴う取り組みに対してあまり研究努力が与えられてないアラビア語、ペルシア語などの非ラテン言語/スクリプトによって、さらに拡大される。
典型的には、アラビア語のオフライン認識の研究の大半は、数字と単一文字の認識を対象としてきた。アラビア語のオフライン認識問題が取り組まれた例は、ほとんど存在しない。近年における手書きのアラビア語テキストの画像(例えば、IFN/INITデータベースなど)を公的に利用できるデータベースの標準の構築は、このようなスクリプト/言語に対するより一層の研究活動を、徐々に促進している。
対照的に、ラテン語スクリプトでは、HMM(Hidden Markov Model)を基礎とする手法が、オフラインの草書体単語認識の分野を支配している。典型的な設定では、辞書が提供され、認識装置の出力を制約している。次にHMMは、辞書のすべての単語に対して構築でき、それに対応する尤度(モデルによって作り出されているデータの確率)が計算される。一般的には最も予想される解釈が、正しいものと仮定される。
アラビア語のテキスト認識に対する少数の報告された手法において、ラテン語のテキスト認識方法論と同一の手法が、典型的に用いられてきた。さらに前処理と特徴抽出のフェーズを変更して、アラビア語の筆跡スクリプトの異なる性質に対応するために実行されたさまざまな試みは、効率的であると証明されていない。さらに、一般的にそのような試みは、認識目的に対する結合ルールを条件付けるような、アラビア語スクリプトの固有の特性を利用しない。
本明細書に説明したいくつかの態様の基本的な理解を提供するために、簡略化した概要を以下に示す。本開示は、請求された発明の対象を広域に要約するものではない。請求された発明の対象の主要なまたは重要な要素を明らかにする目的でも、それらの範囲を区別する目的でもない。その唯一の目的は、後に示されるより詳細な説明への前置きとして、簡略化形式においていくつかの概念を示すことである。
本発明の対象は、2段階手法を用いることによって、テキスト認識を提供することであって、その認識のために、1段階では、テキスト(単語のサブグループ)と関連付けられた言語の結合ルールに基づいてつながれた、所定の結合文字グループを認識し、もう1つの段階では、それぞれの構成文字(所定の結合文字グループを形成する)に対するそれらの結合文字を分析する。例えば、認識の1段階では、初めに、アラビア言語の結合ルールの条件(例えば、PAW(Part of an Arabic Word)など)に基づいてあらかじめ定義された、ユーザが定義したアラビア語テキストの辞書を識別できる。最も一致するPAWを決定すると、もう1つの段階は、認識プロセスを、そのようなPAWを形成する文字の探索へと導く。従って、このような段階的手法は、その探索が、所定の文字(それらの単語のサブグループ)の組み合わせに限られているため、文字認識の高い尤度を提供する。
従って、本発明の対象は、認識方法論を、並行して実行できる2つのプロセスに分解できる。第1プロセスは、探索を、テキストと関連付けられた言語の結合ルールに基づいてつながれた、所定の結合文字グループに制約する。第2プロセスにおいて、その探索は、所定の結合文字グループを形成する個々の文字に制約される。例えば、アラビア言語において、探索の第1プロセス(例えば、段階1)は、文字によって、PAW辞書に制約される。段階2において、その探索は、PAWによって、文字辞書に制約される。探索を導くのは、ニューラルネットを基礎とするPAW認識装置である。
関連した態様において、2段階手法を実施するシステムは、所定の結合文字グループを識別する(例えば、PAWを識別する場合)ニューラルネットを基礎とする、動作認識装置コンポーネントを用いることができる。さらに、訓練コンポーネントは、認識装置コンポーネントを訓練して、追加的な文字グループ(例えば、結合単語グループが、最初に、外国語の名前、つづり間違いなどが定義されないため、PAWは、最初は認識されない。)を、所定のグループの一部として識別できる。さまざまな人工知能コンポーネントも、本発明の目的の異なる態様を容易にするために用いることができる。
以下の説明および付属図は、請求された発明の対象の特定の具体的な態様を、詳細に示す。これらの態様は、発明の対象の原則を用いることができるさまざまな方法のほんの数例を示すが、請求された発明の対象は、このような態様およびそれらと同等のものすべてを含むことを目的としている。他の利点および新たな機能は、図とともに検討されるので、以下の詳細な説明によって明らかになる。
発明の目的の態様に係る、2段階テキスト認識システムを実行する例示的なシステムのブロック図である。 テキストと関連付けられた言語の結合ルールに基づいてつながった所定の結合文字グループの例示的な関係を示す図である。 発明の目的のさまざまな態様を可能にする、アラビア語のテキスト認識を対象とする結合ルールを条件の特定の態様を示す図である。 発明の目的のさまざまな態様を可能にする、アラビア語のテキスト認識を対象とする結合ルールを条件の特定の態様を示す図である。 発明の目的の態様に係る、抑制できるアラビア語テキストの例示的な認識エラーを示す図である。 発明の目的の態様に係る、2段階テキスト認識の関連した方法論を示す図である。 発明の目的の特定の態様に係る、前処理、正規化、分割、認識、および探索動作を説明する関連した方法論を示す図である。 発明の目的の態様に係る、単語のサブグループのさまざまなシナリオに対する例示的なラベル付けを示す図である。 発明の目的の態様に係る、単語のサブグループのさまざまなシナリオに対する例示的なラベル付けを示す図である。 発明の目的の態様に係る、単語のサブグループのさまざまなシナリオに対する例示的なラベル付けを示す図である。 関連付けられた言語の結合ルールに基づいてつながった所定の結合文字グループの認識を容易にするシステムを示す図である。 発明の目的の特定の態様に係る、人工知能コンポーネントを用いるアラビア語のテキスト認識システムを示す図である。 発明の目的のさまざまな態様を実施する例示的な動作環境を示す図である。
発明の目的のさまざまな態様は、全体を通じて、同様の数字は、同様のまたは一致する要素を表す付属図を参照して説明する。しかし当然のことながら、図およびそれらと関連する詳細な説明は、請求される発明の対象を、開示された特定の形態に限定することを目的としない。むしろ、その意図は、請求される発明の対象の精神および範囲に含まれるすべての変更、同等、および代替を補うものである。
最初に図1を参照すると、発明の目的の態様に従って、テキスト認識システム100が示されている。この認識システム100は、テキストと関連付けられた言語(language)の結合ルール(joining rules)に基づいて互いにつながった、あらかじめ定義された結合文字(linked letters)グループ(単語のサブグループ(word subgroups))を識別する、認識装置コンポーネント110をさらに含む。同様に認識装置コンポーネント112は、所定の結合文字グループを形成する個々の文字(individual letters)を認識できる。従って発明の目的は、認識方法論を、並行して実行できる2つのプロセスに分解できる。第1プロセスは、テキストと関連付けられた言語の結合ルールに基づいてつながった所定の結合文字グループの探索に制約する。第2プロセスにおいて、その探索は、所定の結合文字グループを形成する個々の文字に制約される。
例えば、認識装置コンポーネント110は、入力テキスト信号103または「視覚パターン」を処理し、それらのパターンと、所定の文字グループを格納するデータベース105とを比較する。所定の文字グループは、それらのテキストと関連付けられた言語のルールに基づいて、前もって定義できる。例えば、認識装置コンポーネント110は、特徴抽出レイヤおよび分類レイヤ(図示せず)を含むことができる。従って認識装置コンポーネント110は、テキスト入力103(例えば、2次元ビットマップ入力パターンなど)を受信し、それらのパターンが、記憶媒体105に格納された、あらかじめ定義されたつながった文字グループのパターンと一致する確率を提供できる。テキスト入力103の入力信号は、そのシステムに直接入力できるまたはリモートリンク(例えば、ネットワークもしくは通信リンクなど)を経由して受信できる。
当然のことながらテキスト認識システム100は、手書きパターンの認識および/または文字認識を実行するために利用することもできる。例えば、そのパターンは、走査文書から得られるおよび/またはペンもしくはマウスの軌跡の2次元ビットマップ投影にできる。またこれらの受信データは、任意の文字および/または手書きされたユーザからの入力になり得る。例えば、さまざまな計算装置および/またはシステムは、タブレット、PDA(portable data assistant)、モバイル通信装置、スタイラスペン、ペン型スキャナ、タッチスクリーン機能を有する対話型ディスプレイ装置などの筆跡入力を利用するが、これらに限定されない。
例示的な一態様において、テキスト認識システム100は、CNN(convolutional neural network)アーキテクチャに基づいて動作し、先に説明したように、特徴抽出レイヤおよび分類レイヤをさらに含むことができる。一般的に「畳み込みレイヤ」は、グループ(例えば、特徴マップなど)が、異なる場所における実質的に同じ係数または重みの組を用いて、受信した入力を変更するニューラルネットワークのコンポーネントであると言える。さまざまなグループ(例えば、特徴マップなど)は、異なる係数の組を使用することも実現可能である。従って、それらのグループ(例えば、特徴マップなど)は、異なる特徴を、受信された入力から抽出できる。特徴抽出レイヤの出力は、分類レイヤに接続できる。さらにテキスト認識システム100は、クロスエントロピー誤差最小化を利用するなどの、入力訓練データから学習できる。例えば、テキスト認識システム100は、クロスエントロピー誤差を最小化する確率的な勾配降下(stochastic gradient descent)を使用して訓練できる。
さらに、データが、認識装置コンポーネント110および/または認識装置コンポーネント112によって不明瞭と見なされた場合、ユーザ専用のポストプロセッサ技術を利用して、文字および/または画像を分類する「コンフュージョンルール」を用いることができる。従ってMLLR(Maximum Likelihood Linear Regression)に適応した密度モデル、ダイレクト密度モデル、およびダイレクト識別モデルなどの、異なる種類のポストプロセッサのタイプを、発明の目的の範囲内に利用できる。異なるモデルおよび分類器(classifiers)を用いるこのような柔軟性によって、発明の目的は、従来の筆跡認識技術と容易に統合できる。従って、発明の目的は、本発明において特定のユーザからのデータを識別する筆跡認識システムの機能を高めるために、ユーザ専用の分類器以外の他の手段による一般的な分類器によって適用されている、複数のユーザおよび/またはユーザ専用分類器からの集団観測に基づいて、一般的な分類器を利用できる。
図2に、テキストと関連付けられた言語の結合ルールに基づいてつながった、所定の結合文字グループの例示的な図200を示す。例えば、そのようなテキストの筆跡と関連付けられた言語の結合ルールに基づいて、互いに結合されている結合文字(例えば、単語のサブパートなど)のグループに関するサブグループ202、204、206、208(nが整数であるW1からWnまでの数)などである。さらに、確率的手法は、結合文字が筆跡サンプルの所定の頻度よりも多く発生する場合に識別される、これらの結合文字202、204、206、および208を生成し、定義する基準として用いることもできる。
例えば、アラビア言語のアルファベットは、28の基本文字から成り、そのスクリプトは草書体で、すべての主要な文字は、文字のグリフに対して、それらが単語の初めにあるか、中間または終わりにあるかどうかに応じて条件付けられた形式を有する。文字の4つの際立った形(最初、中間、最後または単独)まで示すことができる。さらに、わずか6文字、つまり
Figure 0005211050
は、単独の形か最後の形かのどちらかを有し、最初の形または中間の形を有しない。これらの文字に別の文字が続く場合、典型的にはそれらとともに結合しない。従って一般的に、その次の文字は、たとえその文字が単語の最初の文字でなくても、その最初の形または単独の形のみを有することしかできない。このようなルールは、数字および非アラビア文字にも当てはまり、典型的には条件付け結合と呼ばれる。図3aおよび3bに、アラビア語スクリプトにおける例示的な条件付け結合の特性を示す。図3aに、結合文字に続く文字の最後の形を示す。同様に、図3bに、非結合文字に続くそれと同じ文字の単独になった最後の形を示す。このような条件付け結合の特性によって、互いに結合されたアラビア文字の配列であるPAW(Part of Arabic Word)を定義できる。一般的に、どのアラビア語も確定的に、1または2以上のPAWに分割できる。
さらにアラビア語の筆跡スクリプトのこのような条件付け結合の特性を考慮すると、単語は、PAWの配列から成っていると考えることができる。言い換えればPAWは、代替的アルファベットと見なすことができる。単語辞書を構成するPAWの固有の数は、有限数に限定でき、例えば、辞書の単語の数とともに半直線的に増加する。よって発明の対象の目的の態様に従って、アラビア語の辞書は、2つの辞書に分解できる。1つは、文字アルファベットに関して、固有のPAWおよびそれらのつづりすべてをリスト化する文字辞書に対するPAWである。もう1つは、PAWアルファベットに関して、固有の単語およびそれらのつづりすべてをリスト化するPAW辞書に対する単語である。
その結果、画像に対して最も一致する辞書エントリを見つける方法論では、同時に実行できる2つの関連したプロセスに分解できる。1つのプロセスは、PAWによって文字辞書に制約されたPAWに対する文字から、最も可能性のあるマッピングを見つけることである。もう1つのプロセスは、単語によってPAW辞書に制約された単語に対するPAWから、最も可能性のあるマッピングを識別することである。
このような2段階の手法は、認識エラーを抑制できる。例えば、辞書は、認識プロセスの出力を制約でき、複数の文字認識エラーも、PAW認識フェーズにおいて解決できる。図4に、抑制できる例示的な認識エラーを、発明の目的の態様に従って示す。図4に示したように、
Figure 0005211050
と意図されている第2文字404は、文字認識装置によって、下手に書かれていると仮定されると、当初のように識別された/提示されたであろうことは考えにくい。よって、例えば、PAWは、
Figure 0005211050
の画像を、有効なPAW辞書である
Figure 0005211050
と混同する可能性があるが、認識フェーズにおいて容易に処理できる。当然のことながら、単語の中のPAWの出現確率とそれぞれの使用頻度も、PAW認識装置コンポーネントによって用いられ、より多くのPAWの発生に有利に働くことができる。このような優先確率は、典型的には認識プロセスを促進する言語的nグラム文字モデルと考えることができる。
図5に、発明の目的の態様に従って、関連した方法論500を示す。例示的な方法を、さまざまなイベントおよび/または作用を代表する一連のブロックとして本明細書に説明しているが、発明の目的は、図示したこれらのブロックの順序によって限定されない。発明に従って、例えば、一部の作用もしくはイベントは、本明細書に示した順序とは別に、異なる順序および/または他の作用もしくはイベントと同時に、発生させることができる。さらに発明の目的に従って、図示したすべてのブロック、イベントまたは作用が、方法論を実施するのに必要とされるとは限らない。その上当然のことながら、発明に従って例示的な方法および他の方法は、本明細書に説明した方法と関連付けて実施できると同様に、説明していない他のシステムおよび装置も関連付けて実施できる。最初に510において認識を要求するテキスト入力は、発明の目的のテキスト認識システムによって受信される。それらの入力は、そのシステムに直接入力されるまたはリモートリンク(例えば、ネットワークまたは通信リンクなど)を経由して受信される入力信号を経由して受信できる。次に520において入力画像は、テキストと関連付けられた言語の結合ルールに基づいてつながった、所定の結合文字グループと比較される。このような比較の後、530において、最も予想される一致が選択される。続いて、発明の目的の追加的な認識段階の一部として、結合文字のこのような最も予想される一致は、所定の結合文字グループを形成する構成文字と比較される。従ってこのような段階的手法は、探索が所定の単語と文字との組み合わせに限られているため、文字に対する認識の高い尤度を提供する。
図6に、発明の目的の特定の態様に従って、前処理、正規化、分割、認識、および探索作用を説明する、関連した方法論600を示す。610において受信画像は、画像2値化、トリミング、単語分割、ノイズ削減などの基本処理を通過する。続いて620において、つながった単語のサブグループ(例えば、テキストと関連付けられた言語の結合ルールに基づいてつながった、所定の結合文字グループなど)が、検出できる。例えば、幅と高さが、ある範囲未満である単語のつながったサブグループが得られる。ブロック620では、追加的なノイズ削減として動作できる。
続いて単語のつながったサブグループは、それらの右端のポイントに基づいて、右側から左側にソートできる。このことよって、発明の目的の探索アルゴリズムが、単語のサブグループによって、筆跡順序を近似する順序に配列できる。次に単語のつながったサブグループは、630においてラベル付け(例えば、「一次の」、「二次の」など)できる。ラベル付けは、図7に示したように、単語のつながったサブグループ間の比較的水平な重複を検出することと、単語のサブグループの安全な範囲を適用することによって実行できる。
例えば、各々が二次的につながったサブグループは、一次的なものと関連付けることができ、典型的には、二次的でないコンポーネントは、単独で存在できる。640において、画像入力と関連した特徴は、650において、あらかじめ定義された単語のサブグループ(例えば、PAWなど)のニューラルネットワークの分類認識として抽出できる。例えば、2つのニューラルネットPAW分類器を用いることができる。第1分類器は、入力画像がそのアスペクト比を維持しながら、固定された格子寸法に合うように拡大縮小された、畳み込みニューラルネットワークを構成することができる。PAWの文字数は、1から8まで変化し得るので、その格子のアスペクト比は、典型的には最大限幅広いPAWに対応するために十分な幅が選択され、さらにその明瞭さも維持する。第2分類器は、PAWを構成するつながった文字(下位単語グループ)の指示コードから抽出された特徴に基づくことができる。例えば、アラビア言語に対して、2つの分類器の各々は、単語辞書のPAWの所定の分布を反映する訓練セットを用いて訓練できる762出力を有することができる。
上記に詳細に説明したように発明の目的は、単語辞書を、2つの辞書すなわち、PAW辞書に対する文字と単語辞書に対するPAWに分解する。PAW辞書に対する文字を使用して、PAW認識装置の出力を制約し、単語認識装置に対するPAWを用いて、最も一致する単語の探索を制約する。
さらに発明の目的に関連して、発見的な機能(例えば、最良優先探索、ビーム探索法)を用いることができる。発見的探索として、例えば、ビーム探索法を利用して、PAW認識装置の出力を使用することによって、画像に対して最も一致する単語を見つけることができる。その探索は、つながった単語のサブグループを介して配列し、新しいPAWを開始するか、サブグループを従来のPAWに追加するかのどちらかを検討する。PAW認識装置によって作り出された、可能性のあるPAWとPAWに対応する後の確率のリストを、保持できる。PAWマッピングに対して異なってつながったサブグループ単語は、実現可能な分割の格子に保持できる。すべてのサブグループを介して配列した後、最も可能性のある分割を評価し、最良の仮説として選ぶことができる。
例えば、格子の中において確実に、分割の確率が急上昇しないようにするには、典型的には2つの発見を用いることができ、そこでPAWごとにつながった単語グループの最大数は、例えば、4に制限することができる(訓練データに基づいて実験的に決定されている。)さらに、格子のすべてのステップにおいて、所定の範囲によって、最も起こり得る分割よりも低い確率を有する分割の確率は、取り除くことができる。
発明の目的の態様に従って、図7a、図7b、および図7cに、単語のサブグループのさまざまなシナリオの例示的なラベル付けを示す。図7aに、つながった単語702、704、706、および708の各々の単語/サブグループが、有効のPAWである例を示す。典型的には、このようなシナリオは、アラビア語テキストの単語総数のおよそ65パーセントを占める。同様に図7bに、PAWが、2つのグループ710、712に分けられ、これらの2つのグループ710、712の組み合わせが、単一PAW(例えば、上部分割の場合)と一致できる例を示す。このようなシナリオは、典型的には、単語総数のおよそ30パーセントに発生する。同様に図7cに、サブグループ720が、互いに接する2つの有効なPAWであるシナリオを示す。一般的にこのような例は、全体のおよそ5パーセントを占める。2以上のPAWが、1つにつながった単語グループ720として分割されている、このような下部分割の例と取り組むために、追加的な動作を含むことができ、格子の一番の確率の分割パスが所定の範囲よりも低い場合にトリガーされる。従ってトリガーされた場合、つながった単語のサブグループの個々のPAW認識結果によって、ビタビ探索法が実行できる。この探索において、単語辞書に対する各々のPAWとそれらの認識結果との間の編集距離が、計算される。PAWの挿入と削除の両方が、各々と関連付けられたペナルティに使用できる。
発明の目的の態様に従って、図8を参照して、所定の結合文字グループ(言語の結合ルールの基づいてつながっている)、および/または異字体訓練分類器を利用して、筆跡と関連付けられた文字の認識を容易にするシステム800を示す。システム800は、異字体データを用いて分類器(図示せず)を訓練できる個性化コンポーネント802を含むことができ、このような訓練は、手書き文字の認識を容易にする。例えば、異字体データは、筆跡様式と関連したデータを、自動的に作成するおよび/または手動で作成することができる。個性化コンポーネント802は、インタフェースコンポーネント804を経由して、手書き文字および/または筆跡サンプルと関連したデータを受信でき、分類器の訓練時に異字体データの利用の少なくとも一部に基づいて、筆跡認識の最適化を提供できる。例えば、受信データは、以下に詳細に説明するように、任意の文字および/または単語のサブグループにできる。例えば、さまざまな計算装置および/またはシステムは、タブレット、PDA(portable data assistant)、モバイル通信装置、スタイラスペン、ペン型スキャナ、タッチスクリーン機能を有する対話型ディスプレイ装置などの筆跡入力を利用する。
個性化コンポーネント802は、書き手への適応を提供でき、これは、一般的な(例えば、書き手に依存しない場合)筆跡認識装置を、特定ユーザに合わせて精度を向上させた個性化された(例えば、書き手に依存する場合)認識装置に変換するプロセスである。個性化コンポーネント802は、特定のユーザからのわずかなサンプルを用いて、適応技術を実装できる。
異字体データは、手動、自動、および/またはそれらの任意の組み合わせによって作成できる。例えば、異字体データは、任意の適応するクラスタリング技法を用いて、自動的に作成できる。従ってクラスタリングによって、手書き文字から異字体を識別する(例えば、文字の形状および/または様式)自動的手法を、実装できる。別の例において、異字体データは、筆跡と関連付けられた種類および/または様式を提供するために筆跡エキスパートを利用して、手動で提供できる。
さらに個性化コンポーネント802は、異字体データを用いて分類器を訓練することができ、その結果を、非異字体を基礎とする分類器の組み合わせに実装することによって、最適化された筆跡認識を提供できる。個性化コンポーネント802は、シームレスに従来の認識装置(例えば、筆跡文字の認識装置など)と統合でき、個人からの新しいサンプルを用いて、それらと同等になるように向上できる。例えば、単に文字を一致させるのではなく、個性化コンポーネント802は、文字(letter)および/または(数字、符号を含んだ)文字(character)を、特定の様式および/または異字体と一致させることができる。従って個性化コンポーネント802は、マッピング技法および/または、筆跡サンプルならびに/もしくはユーザからの実例があれば学習可能な機能を利用できる。個性化コンポーネント802は、従来型および/または伝統的な分類器からの出力を利用して、マッピング機能および/または、各文字ならびに/もしくは数字を含んだ文字の確率を提供する技法を、筆跡認識を最適化するために適用することができる。
さらに、システム800は、さまざまなアダプタ、コネクタ、チャンネル、通信パスなどを提供して、個性化コンポーネント802を事実上どのようなオペレーティングシステムおよび/またはデータベースシステムにも統合する、任意の適合するおよび/または必要なインタフェースコンポーネント804を含むことができる。さらにインタフェースコンポーネント804は、個性化コンポーネント802、データ、筆跡データ、最適化された筆跡認識と関連付けられたデータ、および最適化された筆跡認識との相互作用を提供するさまざまなアダプタ、コネクタ、チャンネル、通信パスなどを提供できる。
図9に、発明の目的の態様に従って、アラビア語の筆跡スクリプトの文字特性の条件付け結合を利用して、認識プロセスを2つの認識プロセスに分解して、同時に解決できるようにするアラビア語のテキスト認識システム900を示す。ニューラルネットワークを基礎とするPAW認識装置を使用することによって、2段階ビーム探索法を実行し、入力画像と最も一致する単語を見つける。さらにAI(artificial intelligence)コンポーネント902を用いて、認識プロセスを容易にできる。本明細書に使用されたように、一般的に、「推定」の語は、イベントおよび/またはデータによって得られた際の一連の観察から、システムの状態、環境、および/またはユーザを推理するもしくは推論するプロセスを参照する。推定を用いて、例えば、特定の文脈または動作を識別できる、または状態に対する確率分布を作り出すことができる。推定は、確率的な、つまりデータおよびイベントの考察に基づいた関心の程度に対して確率分布を計算できる。推定は、一連のイベントおよび/またはデータから、高いレベルのイベントを構成するために用いられた技法を参照することもできる。このような推定は、イベントが、時間的に近接して相関しているかどうか、イベントおよびデータが、1または複数のイベントおよびデータ資源からくるかどうかといった一連の観察されたイベントおよび/または格納されたイベントデータから、新しいイベントまたは動作の構成が得られる。
例えば、先に説明したように、PAWおよび/または個々の構成文字を認識するプロセスは、自動分類システムおよびプロセスによって容易にできる。分類は、入力属性ベクトル、X=(X1、X2、X3、X4、Xn)を、その入力が、クラスつまりf(x)=confidence(class)に属するコンフィデンス(confidence)にマップする関数である。このような分類は、確率および/または統計を基礎とする分析(例えば、効用ならびに費用の分析に組み込む場合)を用いて、ユーザが自動的に実行するように望む作用を予知または推定できる。
SVM(support vector machine)は、用いることができる分類器の一例である。SVMは、入力可能な空間に超曲面を見つけることによって動作し、超曲面は、トリガー基準を、トリガーしないイベントから分割しようと試みる。直観的に、このため分類が、訓練データと近似しているが同一でない実験データを修正できるようになる。異なる独立パターンを提供する、例えば単純ベイズ、ベイジアンネットワーク、決定木、ニューラルネットワーク、ファジー理論モデル、および確率的分類モデルを含む、他の有向モデルおよび無向モデル分類手法を用いることができる。本明細書に使用された分類は、優先モデルを開発するために利用される統計的回帰も含めている。
明細の目的から容易に認識されるように、発明の目的は、明示的に訓練された(例えば、一般的な訓練データによる場合)分類と同様に、非明示的に訓練された(例えば、ユーザ動向の観察、外部情報の受信による場合)分類も用いることができる。例えばSVMは、分類コンストラクタモジュールおよび特徴選択モジュールの学習フェーズまたは訓練フェーズを経由して組み込まれる。従って分類器は、多数の機能を自動的に学習し、実行するために使用できるが、これらの機能は、以前に推定されたスキーマをいつアップデートするかまたは精緻化するか、いつ処理されているデータの種類(例えば財政上対非財政上、個人対非個人などの場合)に基づいて推定するアルゴリズムの基準を厳しくし、どの時刻に厳しくした基準の制御を実装すべきか(例えば、システムの実行が、あまり過密していない夕方など)の所定の基準に従った決定を含むが、これらに限定されない。
図10を参照すると、本明細書に開示されたさまざまな態様を実装する例示的な環境1010は、コンピュータ1012(例えば、デスクトップ、ラップトップ、サーバ、携帯端末機器、プログラム可能な家庭用または工業用電化製品など)を含む。コンピュータ1012は、処理ユニット1014、システムメモリ1016、およびシステムバス1018を含む。システムバス1018は、システムメモリ1016を含むシステムコンポーネントを、処理ユニット1014に接続するが、これらに限定されない。処理ユニット1014は、さまざまに利用できる任意のマイクロプロセッサにできる。デュアルマイクロプロセッサおよび他のマイクロプロセッサアーキテクチャ(例えば、マルチコアなど)も、処理ユニット1014として用いることができる。
システムバス1018は、メモリバスもしくはメモリコントローラ、周辺バスもしくは外付けバスを含むいくつかの種類のバス構造、および/または11ビットバス、ISA(Industrial Standard Architecture)、MSA(Micro-Channel Architecture)、EISA(Extended ISA)、IDE(Intelligent Drive Electronic)、VLB(VESA Local Bus)、PCI(Peripheral Component Interconnect)、USB(Universal Serial Bus)、AGP(Advanced Graphic Port)、PCMCIA(Personal Computer Memory Card International Association bus)、およびSCSI(Small Computer System Interface)を含む、利用できるさまざまなバスアーキテクチャを使用するローカルバスの任意のいくつかの種類にできるが、これらに限定されない。
システムメモリ1016は、揮発性メモリ1020および不揮発性メモリ1022を含む。起動時などの、コンピュータ1012内の要素間の情報を転送する基本ルーチンを含むBIOS(basic input/output system)は、不揮発性メモリ1022に格納される。実例として不揮発性メモリ1022は、ROM(read only memory)、PROM(programmable ROM)、EPROM(electrically programmable ROM)、EEPROM(electrically erasable ROM)、またはフラッシュメモリを含むことができるが、これらに限定されない。揮発性メモリ1020は、外付けのキャッシュメモリとして作用するRAM(random access memory)を含む。
コンピュータ1012は、取り外し可能/取り外し不能、揮発性/不揮発性のコンピュータ記憶媒体も含む。例えば図10に、大容量または外部記憶装置1024を示す。大容量記憶装置1024は、磁気ディスクドライブ、フロッピー(登録商標)ディスクドライブ、テープドライブ、ジャズドライブ、ジップドライブ、LS−100ドライブ、フラッシュメモリカード、メモリスティックなどの装置を含むが、これらに限定されない。さらに大容量記憶装置1024は、単独でまたはCD−ROM(compact disk ROM device)、CD−R Drive(CD recordable drive)、CD−RW Drive(CD rewritable drive)もしくはDVD−ROM(digital versatile disk ROM drive)を含む他の記憶媒体との組み合わせによる記憶媒体を含むことができるが、これらに限定されない。大容量記憶装置1024が、システムバス1018への接続を容易にするために、典型的には、インタフェース1026などの取り外し可能また取り外し不能インタフェースが使用される。
当然のことながら、図10は、ユーザと、適応する動作環境1010において説明した基本的なコンピュータ資源との間の媒介として作用するソフトウェアを説明している。そのようなソフトウェアは、動作システム1028を含む。大容量記憶装置1024に格納でき、システムメモリ1016にロードできるオペレーティングシステム1028は、システム1012の資源を制御し、割り当てるために作用する。システムアプリケーション1030は、システムメモリ1016か大容量記憶装置1024のどちらかに格納されたプログラムモジュール1032およびプログラムデータ1034を介してシステム1028を動作させることによって、資源の管理を活用する。当然のことながら、発明の目的は、さまざまな動作システムまたは動作システムの組み合わせを用いて実装できる。
ユーザは、コマンドまたは情報を、入力装置1036を介してコンピュータ1012に入力する。入力装置1036は、マウス、トラックボール、スタイラスペン、タッチパッド、キーボード、マイクロホン、ジョイスティック、ゲームパッド、パラボラアンテナ、スキャナ、TVチューナカード、デジタルカメラ、デジタルビデオカメラ、ウェブカメラなどのポインティングディバイスを含むが、これらに限定されない。これらと他の入力装置は、インタフェースポート1038を経由してシステムバス1018を通って処理ユニット1014に接続する。例えばインタフェースポート1038は、直列ポート、並列ポート、ゲームポート、およびUSB(universal serial bus)を含む。出力装置1040は、入力装置1036と同じ種類のポートをいくつか使用する。例えばUSBポートを使用して、コンピュータ1012への入力と、コンピュータ1012から出力装置1040への出力情報とを提供できる。出力アダプタ1042を提供して、ディスプレイ(例えば、フラットパネル、CRT、LCD、プラズマなど)、スピーカ、およびプリンタなどの出力装置1040がいくつかあることを示すが、特に出力装置1040は、特定のアダプタを必要とする。実例として出力アダプタ1042は、出力装置1040とシステムバス1018との間の接続手段を提供するビデオカードとサウンドカードを含むが、これらに限定されない。当然のことながら、他の装置および/または装置のシステムは、リモートコンピュータ1044などの入力機能と出力機能の両方を提供する。
コンピュータ1012は、リモートコンピュータ1044などの、1または2以上のリモートコンピュータへの論理接続を使用するネットワーク環境において動作できる。リモートコンピュータ1044は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ワークステーション、マイクロプロセッサを基礎とする電気器具、ピア装置または他の共通ネットワークノードなどにでき、典型的には、コンピュータ1012と比較して説明した多数のまたはすべての要素を含む。簡略化するために、メモリ記憶装置1046のみ、リモートコンピュータ1044とともに示す。リモートコンピュータ1044は、ネットワークインタフェース1048を介してコンピュータ1012に論理的に接続され、通信接続1050を経由して物理的に(例えば、有線または無線の場合)接続される。ネットワークインタフェース1048は、LAN(local-area network)およびWAN(wide-area network)などの通信ネットワークに及ぶ。
通信接続1050は、ネットワークインタフェース1048を、バス1018へ接続するために用いられたハードウェア/ソフトウェアを参照する。通信接続1050は、コンピュータ1016の内部を明確に説明するために示されているが、コンピュータ1012の外付けにすることもできる。ネットワークインタフェース1048への接続に必要なハードウェア/ソフトウェアは、例示のみを目的として、標準電話用モデム、ケーブルモデム、パワーモデムならびにDSLモデム、ISDNアダプタ、およびイーサネット(登録商標)カードもしくはコンポーネントを含むモデムなどの内部および外部の技術を含む。
上記の内容は、請求された発明の対象の態様の具体例を含む。請求された発明の対象の説明の目的として、考えられるすべてのコンポーネントまたは方法論の組み合わせを説明することは当然不可能であるが、当業者は、開示された発明の対象のさらに多くの組み合わせおよび置換が実現可能であることを認識できる。従って、開示された発明の対象は、添付の請求の精神と範囲に含まれるこのような代替、変更、および変化のすべてを包括的に捉えることを目的としている。さらに、「include」、「has」もしくは「having」またはそれらの変化形の語は、詳細な説明か請求項のどちらかにおいて使用され、これらの語は、「comprising」が請求項の中の区切りの単語として解釈されるのと同じく、語「comprising」と同様に包括的であることを目的としている。

Claims (16)

  1. テキスト認識を容易にするシステムであって、
    前記テキストと関連付けられた言語の結合ルールに基づいてあらかじめ定義された単語グループを認識する単語グループコンポーネントであって、前記結合ルールは、アラビア言語の結合ルール(PAW)を定義し、前記単語グループコンポーネントは、前記単語グループ間の水平な重複に基づいて前記単語グルーブにラベル付けし、前記テキストのアスペクト比を維持しながら、固定された格子寸法に合うように前記テキストを拡大縮小する第1分類器と、前記PAWを構成する結合文字の特徴に基づいた第2分類器とを用いて、前記テキストから特徴を抽出して前記テキストの前記単語グループを認識すること、
    前記単語グループを形成する構成文字を認識する文字コンポーネントであって、前記単語グループコンポーネントと実質的に同時に前記構成文字を認識して、前記単語グループを認識する文字コンポーネントと
    を備えたことを特徴とするシステム。
  2. 前記文字コンポーネントは、前記構成文字が前記文字コンポーネントにより不明瞭とみなされたとき、ユーザ専用のポストプロセッサ技術を用いて、前記構成文字を認識することを特徴とする請求項1に記載のシステム。
  3. 前記単語グループコンポーネントおよび前記文字コンポーネントは、ニューラルネットを基礎とすることを特徴とする請求項1に記載のシステム。
  4. 異字体データと関連付けられた分類器を訓練する個性化コンポーネントをさらに備えたことを特徴とする請求項1に記載のシステム。
  5. 前記異字体データは、手書きの異字体データを含むことを特徴とする請求項4に記載のシステム。
  6. 前記個性化コンポーネントは、書き手に依存しない筆跡を、ユーザの個性化した手書きに変換する適応機能を含むことを特徴とする請求項4に記載のシステム。
  7. 前記ユーザ専用のポストプロセッサ技術は、密度モデルに適応された最大尤度線形回帰(MLLR)を用いることを特徴とする請求項2に記載のシステム。
  8. 前記単語グループコンポーネントは、ビーム探索機能を用いて、前記単語グループを認識することを特徴とする請求項1に記載のシステム。
  9. 前記個性化コンポーネントは、文字の出現に対する確率を提供するマッピング機能を含むことを特徴とする請求項6に記載のシステム。
  10. テキストを認識する方法であって、
    テキスト入力を、前記テキスト入力の言語に対する結合ルールに基づいてつながった、あらかじめ定義された結合文字グループと比較して、前記テキスト入力の結合文字を認識すること、および、前記テキスト入力と前記あらかじめ定義された結合文字グループを形成する1または複数の構成文字と比較することを同時に実行すること、
    前記結合文字間の水平な重複に基づいて前記テキスト入力の前記結合文字にラベル付けすること、および
    前記テキスト入力のアスペクト比を維持しながら固定された格子寸法に合うように前記テキストを拡大縮小する第1分類器と、前記結合文字の特徴に基づいた第2分類器とを用いて、前記テキスト入力から特徴を抽出して前記テキスト入力の前記結合文字を認識すること
    を備えたことを特徴とする方法。
  11. ビタビ探索法を用いることをさらに備え、前記ビタビ探索法は、2つの構成文字間の編集距離を決定することを含むことを特徴とする請求項10に記載の方法。
  12. 上部分割シナリオを決定することをさらに備えたことを特徴とする請求項10に記載の方法。
  13. 異字体データに基づいて分類器を訓練することをさらに備えたことを特徴とする請求項10に記載の方法。
  14. 前記訓練動作に基づいて筆跡認識を最適化することをさらに備えたことを特徴とする請求項13に記載の方法。
  15. 一般的な手書きを、個性化した筆跡に変換することをさらに備えたことを特徴とする請求項14に記載の方法。
  16. 文字のマッピングに基づいて、文字を特定の様式に一致させることをさらに備えたことを特徴とする請求項15に記載の方法。
JP2009522761A 2006-07-31 2007-06-28 2段階テキスト認識 Expired - Fee Related JP5211050B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/461,050 US7724957B2 (en) 2006-07-31 2006-07-31 Two tiered text recognition
US11/461,050 2006-07-31
PCT/US2007/015214 WO2008016454A1 (en) 2006-07-31 2007-06-28 Two tiered text recognition

Publications (2)

Publication Number Publication Date
JP2009545807A JP2009545807A (ja) 2009-12-24
JP5211050B2 true JP5211050B2 (ja) 2013-06-12

Family

ID=38986369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009522761A Expired - Fee Related JP5211050B2 (ja) 2006-07-31 2007-06-28 2段階テキスト認識

Country Status (8)

Country Link
US (1) US7724957B2 (ja)
EP (1) EP2047409B1 (ja)
JP (1) JP5211050B2 (ja)
KR (1) KR101312804B1 (ja)
CN (1) CN101496036B (ja)
CA (1) CA2654893C (ja)
IL (1) IL196017A (ja)
WO (1) WO2008016454A1 (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100407223C (zh) * 2004-04-02 2008-07-30 诺基亚公司 一种用于手写识别的设备和方法
US7646913B2 (en) * 2005-12-19 2010-01-12 Microsoft Corporation Allograph based writer adaptation for handwritten character recognition
US9141607B1 (en) * 2007-05-30 2015-09-22 Google Inc. Determining optical character recognition parameters
CA2598400A1 (en) * 2007-08-22 2009-02-22 Hazem Y. Abdelazim System and method for onscreen text recognition for mobile devices
CN101398902B (zh) * 2008-09-27 2012-07-04 宁波新然电子信息科技发展有限公司 一种自然手写阿拉伯字母联机识别方法
US8331739B1 (en) * 2009-01-21 2012-12-11 Google Inc. Efficient identification and correction of optical character recognition errors through learning in a multi-engine environment
US8150160B2 (en) * 2009-03-26 2012-04-03 King Fahd University Of Petroleum & Minerals Automatic Arabic text image optical character recognition method
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB201016385D0 (en) * 2010-09-29 2010-11-10 Touchtype Ltd System and method for inputting text into electronic devices
US8111911B2 (en) * 2009-04-27 2012-02-07 King Abdulaziz City For Science And Technology System and methods for arabic text recognition based on effective arabic text feature extraction
US8644611B2 (en) * 2009-06-03 2014-02-04 Raytheon Bbn Technologies Corp. Segmental rescoring in text recognition
US8271873B2 (en) * 2009-10-30 2012-09-18 International Business Machines Corporation Automatically detecting layout of bidirectional (BIDI) text
US8660835B2 (en) * 2009-10-30 2014-02-25 International Business Machines Corporation System and a method for automatically detecting text type and text orientation of a bidirectional (BIDI) text
US8401293B2 (en) * 2010-05-03 2013-03-19 Microsoft Corporation Word recognition of text undergoing an OCR process
US8194983B2 (en) * 2010-05-13 2012-06-05 Hussein Khalid Al-Omari Method and system for preprocessing an image for optical character recognition
US8218875B2 (en) * 2010-06-12 2012-07-10 Hussein Khalid Al-Omari Method and system for preprocessing an image for optical character recognition
CN102609422A (zh) * 2011-01-25 2012-07-25 阿里巴巴集团控股有限公司 类目错放识别方法和装置
US20120272144A1 (en) * 2011-04-20 2012-10-25 Microsoft Corporation Compact control menu for touch-enabled command execution
US8754984B2 (en) * 2011-05-02 2014-06-17 Futurewei Technologies, Inc. System and method for video caption re-overlaying for video adaptation and retargeting
US20120281919A1 (en) * 2011-05-06 2012-11-08 King Abdul Aziz City For Science And Technology Method and system for text segmentation
US8286104B1 (en) * 2011-10-06 2012-10-09 Google Inc. Input method application for a touch-sensitive user interface
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US9053361B2 (en) 2012-01-26 2015-06-09 Qualcomm Incorporated Identifying regions of text to merge in a natural image or video frame
EP2662802A1 (en) * 2012-05-09 2013-11-13 King Abdulaziz City for Science & Technology (KACST) Method and system for preprocessing an image for optical character recognition
KR101365404B1 (ko) * 2012-07-10 2014-02-20 한밭대학교 산학협력단 이미지 인식 방법 및 이를 이용한 인식 장치
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9014480B2 (en) 2012-07-19 2015-04-21 Qualcomm Incorporated Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
CN103778407A (zh) * 2012-10-23 2014-05-07 南开大学 一种迁移学习框架下基于条件随机场的手势识别算法
JP5986051B2 (ja) * 2013-05-12 2016-09-06 キング・アブドゥルアジズ・シティ・フォー・サイエンス・アンド・テクノロジー(ケイ・エイ・シィ・エス・ティ)King Abdulaziz City For Science And Technology (Kacst) アラビア語テキストを自動的に認識するための方法
WO2014204337A1 (en) * 2013-06-18 2014-12-24 Abbyy Development Llc Methods and systems that convert document images to electronic documents using a trie data structure containing standard feature symbols to identify morphemes and words in the document images
US20160147747A1 (en) * 2013-06-18 2016-05-26 Abbyy Development Llc Methods and systems that build a hierarchically organized data structure containing standard feature symbols for conversion of document images to electronic documents
US8825492B1 (en) * 2013-10-28 2014-09-02 Yousef A. E. S. M. Buhadi Language-based video game
KR101687941B1 (ko) * 2014-11-27 2016-12-20 주식회사 셀바스에이아이 온라인 필기 데이터 라인 분할 방법 및 이를 이용하는 장치
CN104572892B (zh) * 2014-12-24 2017-10-03 中国科学院自动化研究所 一种基于循环卷积网络的文本分类方法
US9904847B2 (en) * 2015-07-10 2018-02-27 Myscript System for recognizing multiple object input and method and product for same
US11244225B2 (en) * 2015-07-10 2022-02-08 Samsung Electronics Co., Ltd. Neural network processor configurable using macro instructions
CN107851195B (zh) * 2015-07-29 2022-02-11 诺基亚技术有限公司 利用神经网络进行目标检测
CN106709490B (zh) * 2015-07-31 2020-02-07 腾讯科技(深圳)有限公司 一种字符识别方法和装置
CN108292369A (zh) * 2015-12-10 2018-07-17 英特尔公司 使用深度学习属性来进行视觉识别
US10095957B2 (en) 2016-03-15 2018-10-09 Tata Consultancy Services Limited Method and system for unsupervised word image clustering
CN107239786B (zh) 2016-03-29 2022-01-11 阿里巴巴集团控股有限公司 一种字符识别方法和装置
CN105957238B (zh) * 2016-05-20 2019-02-19 聚龙股份有限公司 一种纸币管理方法及其系统
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
CN106228166B (zh) * 2016-07-27 2019-05-21 北京交通大学 字符图像的识别方法
KR102073644B1 (ko) 2017-05-04 2020-02-06 주식회사 매스프레소 이미지에 포함된 텍스트 인식장치, 텍스트 인식방법 및 텍스트 인식방법을 실행하기 위한 프로그램을 기록한 기록매체
US10163022B1 (en) * 2017-06-22 2018-12-25 StradVision, Inc. Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same
KR102483643B1 (ko) 2017-08-14 2023-01-02 삼성전자주식회사 모델을 학습하는 방법 및 장치 및 상기 뉴럴 네트워크를 이용한 인식 방법 및 장치
KR102089797B1 (ko) * 2017-08-22 2020-03-17 주식회사 나솔시스템즈 인공지능 기반의 홈페이지 개인정보유출차단시스템
RU2691214C1 (ru) * 2017-12-13 2019-06-11 Общество с ограниченной ответственностью "Аби Продакшн" Распознавание текста с использованием искусственного интеллекта
US10719737B2 (en) 2018-08-23 2020-07-21 Denso International America, Inc. Image classification system for resizing images to maintain aspect ratio information
BR112021005549A2 (pt) 2018-10-24 2021-06-29 Fujitsu Frontech Limited dispositivo de inspeção de notas, método de fiscalização de notas e programa de inspeção de notas
US20210406471A1 (en) * 2020-06-25 2021-12-30 Seminal Ltd. Methods and systems for abridging arrays of symbols
US11682220B2 (en) 2021-03-15 2023-06-20 Optum Technology, Inc. Overlap-aware optical character recognition
CN113792850B (zh) * 2021-09-09 2023-09-01 北京百度网讯科技有限公司 字体生成模型训练方法、字库建立方法、装置及设备

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5729745B2 (ja) * 1974-09-25 1982-06-24
JPS59173835A (ja) 1983-03-23 1984-10-02 Nec Corp 字形選択装置
US5005205A (en) * 1990-01-12 1991-04-02 International Business Machines Corporation Handwriting recognition employing pairwise discriminant measures
US5029223A (en) * 1990-02-02 1991-07-02 International Business Machines Corporation Constraint driven-on line recognition of handwritten characters and symbols
US5442715A (en) * 1992-04-06 1995-08-15 Eastman Kodak Company Method and apparatus for cursive script recognition
US5392363A (en) * 1992-11-13 1995-02-21 International Business Machines Corporation On-line connected handwritten word recognition by a probabilistic method
US6011865A (en) * 1993-05-12 2000-01-04 International Business Machines Corporation Hybrid on-line handwriting recognition and optical character recognition system
US5454046A (en) * 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US5438631A (en) * 1993-10-12 1995-08-01 Dai; Xiao-Wei Handwriting and character recognition system
CA2153684C (en) * 1993-12-01 2000-03-21 John L. C. Seybold Combined dictionary based and likely character string method of handwriting recognition
JPH07182465A (ja) * 1993-12-22 1995-07-21 Hitachi Ltd 文字認識方法
US5764799A (en) 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
US6041137A (en) * 1995-08-25 2000-03-21 Microsoft Corporation Radical definition and dictionary creation for a handwriting recognition system
JPH0991385A (ja) * 1995-09-21 1997-04-04 Matsushita Graphic Commun Syst Inc 文字認識辞書追加方法及びこれを用いた端末ocr装置
EP0768617A3 (en) * 1995-10-16 1997-07-23 At & T Corp Intermediate and segmental method of handwriting recognition
CA2166248C (en) * 1995-12-28 2000-01-04 Abdel Naser Al-Karmi Optical character recognition of handwritten or cursive text
US5933525A (en) * 1996-04-10 1999-08-03 Bbn Corporation Language-independent and segmentation-free optical character recognition system and method
WO1998015914A1 (en) * 1996-10-04 1998-04-16 Philips Electronics N.V. Method and apparatus for on-line handwriting recognition based on feature vectors that use aggregated observations derived from time-sequential frames
US6249605B1 (en) * 1998-09-14 2001-06-19 International Business Machines Corporation Key character extraction and lexicon reduction for cursive text recognition
US6567548B2 (en) 1999-01-29 2003-05-20 International Business Machines Corporation Handwriting recognition system and method using compound characters for improved recognition accuracy
US7142715B2 (en) * 2003-01-17 2006-11-28 Sakhr Software Company Arabic handwriting recognition using feature matching
US7184591B2 (en) * 2003-05-21 2007-02-27 Microsoft Corporation Systems and methods for adaptive handwriting recognition

Also Published As

Publication number Publication date
JP2009545807A (ja) 2009-12-24
EP2047409B1 (en) 2015-12-09
IL196017A (en) 2012-02-29
CA2654893C (en) 2014-10-07
KR20090035541A (ko) 2009-04-09
IL196017A0 (en) 2009-09-01
CN101496036B (zh) 2012-09-19
CN101496036A (zh) 2009-07-29
US7724957B2 (en) 2010-05-25
KR101312804B1 (ko) 2013-09-27
EP2047409A1 (en) 2009-04-15
US20080025610A1 (en) 2008-01-31
EP2047409A4 (en) 2013-03-27
CA2654893A1 (en) 2008-02-07
WO2008016454A1 (en) 2008-02-07

Similar Documents

Publication Publication Date Title
JP5211050B2 (ja) 2段階テキスト認識
US9911052B2 (en) System and method for superimposed handwriting recognition technology
Zhou et al. Handwritten Chinese/Japanese text recognition using semi-Markov conditional random fields
US10007859B2 (en) System and method for superimposed handwriting recognition technology
CN100492392C (zh) 手写字符识别方法及识别装置
US20170124435A1 (en) Method for Text Recognition and Computer Program Product
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
US20230289396A1 (en) Apparatuses and methods for linking posting data
US20230298630A1 (en) Apparatuses and methods for selectively inserting text into a video resume
Singh et al. Online handwritten Gurmukhi strokes dataset based on minimal set of words
Sundaram et al. Bigram language models and reevaluation strategy for improved recognition of online handwritten Tamil words
US5757964A (en) System and method for automatic subcharacter unit and lexicon generation for handwriting recognition
Kasem et al. Advancements and Challenges in Arabic Optical Character Recognition: A Comprehensive Survey
US20150186797A1 (en) Data reduction in nearest neighbor classification
CN107912062B (zh) 叠覆手写的系统和方法
US6320985B1 (en) Apparatus and method for augmenting data in handwriting recognition system
Rouabhi et al. Optimizing Handwritten Arabic Character Recognition: Feature Extraction, Concatenation, and PSO-Based Feature Selection.
Simayi et al. Study the preprocessing effect on RNN based online Uyghur handwritten word recognition
Zhelezniakov et al. A New Approach to Data Annotation Automation for Online Handwritten Mathematical Expression Recognition based on Recurrent Neural Networks
Solanki et al. A Review On Offline Gujarati Word Categories Using Hybrid Features
MURRU et al. Surveying Advancements in Offline Handwritten Text Recognition: A Comprehensive Approach to Addressing Strokes’ Ambiguity and Enhancing Document Quality.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100422

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130225

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees