JP4594551B2 - 統合された確率的ランゲージ・モデルを用いたドキュメント画像復号化方法 - Google Patents
統合された確率的ランゲージ・モデルを用いたドキュメント画像復号化方法 Download PDFInfo
- Publication number
- JP4594551B2 JP4594551B2 JP2001134011A JP2001134011A JP4594551B2 JP 4594551 B2 JP4594551 B2 JP 4594551B2 JP 2001134011 A JP2001134011 A JP 2001134011A JP 2001134011 A JP2001134011 A JP 2001134011A JP 4594551 B2 JP4594551 B2 JP 4594551B2
- Authority
- JP
- Japan
- Prior art keywords
- language model
- character
- image
- node
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
本発明は、一般に、マルコフ・ソースなどの確率的有限状態ネットワーク(Stochastic finite state networks)を用いる画像復号化および画像認識の方法に関する。特に、本発明は、テキストライン画像復号化に用いる、テキストライン画像の確率的有限状態ネットワーク表現へのランゲージ・モデルの効率的な統合の方法を提供する。
【0002】
【従来の技術】
米国特許第5,321,773号は、「ドキュメント画像復号化」(Document Image Decoding、以下では、DIDと呼ぶ)として知られる古典的情報理論に基づくドキュメント認識方法を開示している。このDIDモデルは、確率的メッセージ・ソースと、イメージャーと、チャンネルと、デコーダ(復号器)を含む。
【0003】
メッセージ・ソースとイメージャーの機能は組み合わせられて、マルコフ・ソースとして実現される単一の複合画像ソースになる。マルコフ・ソースとは、ある特定クラスのドキュメント画像に生ずる二次元(2D)空間レイアウトおよび画像成分を正規文法として記述する確率的有限状態ネットワークである。この有限状態ネットワークは、ノード(状態)の組と、各ノードへの有向遷移(directed transitions)の組を含む。ネットワーク内の任意の二つの先行状態と後続状態の間の有向遷移には、文字テンプレートQ、ラベル又はメッセージ・ストリングm、遷移確率α、二次元整数ベクトル変位Δ、を含む属性の組が伴っている。変位は、画像のテキストラインでのテンプレートのセット幅である水平(X方向)距離を表す。
【0004】
画像の復号化は転写(transcription)を生ずるが、これはダイナミック・プログラミング作業によって遂行され、普通はビタビ(Viterbi)アルゴリズムによって実行される。ダイナミック・プログラミング作業は、ある遷移のテンプレートが、その画像点の近傍で復号される画像領域に対応する確率の計算を含む。このテンプレート−画像確率は、ある特定テンプレートとその画像点における画像領域とのマッチングの測定量を示すテンプレート−画像マッチング・スコアによって表される。
【0005】
米国特許第5,526,444号(以下では‘444ICP特許と呼ぶ)は、DIDシステムによる復号化の計算効率を改良するいくつかの方法を開示している。
特に、この‘444ICP特許は、ある発見法的なアルゴリズムを開示して、ほとんどの水平な画素列の完全ビタビ復号化をその列に関するスコアの単純な上限の計算で置き換えて、それによって計算時間を減らしている。
【0006】
米国特許第5,883,986 号(以下では、‘986特許と呼ぶ)は、DIDシステムの有用性を転写における誤りの修正にまで拡張した。
転写の誤りを修正するための開示された方法の一つは、ランゲージ・モデルを用いるものである。ランゲージ・モデルは、復号化している画像における文字画像の予期されるシーケンスについての外部から供給される明示された情報を、アプリオリに、提供する。ランゲージ・モデルは、実質的に、ある転写の有効性についてのソフト尺度(soft measure)である。スペル修正装置はランゲージ・モデルの一つの単純な形である。
【0007】
‘986特許では、N−グラム・ランゲージ・モデルが画像の確率的有限ネットワーク表現に取り込まれる。
DID画像認識システムでは、モデルによって定義される画像のサイズと複雑さ(すなわち、遷移の数)およびマッチさせるテンプレートの数、が計算時間の主な因子である。復号化作業にランゲージ・モデルを組み込むと復号化の複雑さが顕著に増大する。N−グラム・ランゲージ・モデルは、m次マルコフ過程に対応する、ここでm=N−1である。全部でM個のキャラクタ・テンプレートを有するm次マルコフ過程を組み込むと、ダイナミック・プログラミング復号化作業の計算は因子Mmだけ増加する。例えば、画像モデルが100個のテンプレートを含む場合、画像モデルにバイグラム(bigram;N=2)モデルを組み込むと復号化計算はほぼ100倍だけ増加する。確率的ランゲージ・モデルを組み込むための復号化データ構造の拡大により、到底不可能なほどの記憶量が必要になる。
【0008】
【発明が解決しようとする課題】
‘444ICP特許および‘986特許で開示された技術的進歩によって得られる改良は、画像復号化作業にランゲージ・モデルをいかにして効率的に取り込むかということを問題にしていない。
【0009】
DIDシステムにおけるランゲージ・モデルの利用は、復号化で生成される転写出力の精度改善という顕著な利益をもたらし、ユーザーはテキスト認識システムが商業的に実用となる時間枠でほぼエラーがない結果を出し、認識後のマニュアルのエラー修正がほとんど全く必要なくなると期待できる。したがって、復号化作業にランゲージ・モデルを計算的に効率的な仕方で利用できるようにする方法を提供することが望まれる。
【0010】
【課題を解決するための手段】
本発明は、DIDシステムにおいてランゲージ・モデルを利用できるようにする鍵は、復号化データ構造におけるノードの拡大を効果的かつ正確に管理して、グラフにおける可能な最良パスに対して得られる完全条件付の確率に対処し、全ての画像位置(image position)での最大累積パス・スコアを生成するために必要な復号化計算で生ずる増加をコントロールするものである。
【0011】
本発明は、画像ネットワークを表す拡大されていない復号化データ構造における枝に関連した上限スコアによる復号化作業からスタートする。上限スコアは、ある枝に完全な文字ヒストリにしたがって関連づけられるであろうランゲージ・モデル確率又は重みの上限を表す。
【0012】
次に、最良パス探索オペレーションが、グラフを通る完全推定最良パスを見つける。そのパスが識別されたら、最良パスのノードに関してネットワーク拡大オペレーションを行って、完了したばかりの反復の推定最良パスに基づく明確な文字ヒストリのパスを反映する新しいノードおよび枝によってネットワークを拡大する。新たに加えられた枝は、利用できる文字ヒストリに基づくランゲージ・モデル・スコアでエッジ・スコアを有する。次に、復号化および拡大オペレーションを停止条件が満たされるまで繰り返す。本発明は、画像モデルの状態を必要な場合にだけ拡大して、完全に文脈的(contextual)なランゲージ・モデル確率、又は各推定最良パスになった画像ネットワーク中の比較的少数のノードによって表現し、画像モデルの状態の管理可能な効率的な拡大でランゲージ・モデルを取り入れることを可能にするものである。
【0013】
本発明のある態様では、あるストリングにおける一つ以上の先行文字が与えられたとき、ある文字があるストリングに現れる確率を示す確率分布をランゲージ・モデルによって生成し、生成された確率の上限を非拡大画像ネットワークの枝に最初に割り当てる。そして最良パス探索オペレーションを実行し、まず上限スコアを用いて画像ネットワークを通る推定最良パスを決定する。復号化の後、推定最良パスにあるノードについて選択的に、新しいノード及び、その新しいノードに入来するインカミング枝を用いてパスを拡大し、上限スコアの代わりに実際の文字ヒストリを反映させた新しいランゲージ・モデル・スコアを適用する。復号化および画像ネットワークの選択的拡大は、最終的に出力されるべきテキスト画像の転写として、例えば認識の結果の文字列データが生成されるまで続けられる。
【0014】
【発明の実施の形態】
図1は、テキストライン・デコーダ200の入力および出力データ構造を示している。テキストライン画像10が復号化されるべき画像であり、文字画像、画像「グリフ」とも呼ばれるものを含んでいる。グリフは、画像として表現された文字又は記号の一例である。
【0015】
画像ソース・モデル800は、確率的な有限状態ネットワークとしてのあるクラスの単一テキストライン画像の空間的レイアウトを表す。文字テンプレート・ライブラリー20は、画像モデル800の一部である。テンプレート・ライブラリー20における各テンプレート・データ構造は、ある文字のビットマップ画像を表し、あるセット幅(変位)wを有する。復号化されるべきテキストライン画像に現れてきそうなあらゆるフォントのあらゆる記号に対して一つの文字テンプレートがあるのが普通である。
【0016】
各テンプレート・データ構造は、また、その文字を一意に識別する文字ラベルを示す。
【0017】
テキストライン復号化オペレーション200は、出力として、テキストライン画像10の画像グリフの転写40を生成する。
【0018】
復号化オペレーション200は、画像モデルにおける確率セットを用いる。この画像モデルは、画像を所定の確率にて予測し、各ノードにおいて、画像点の近傍にある画像の領域に対応する遷移のテンプレートの確率を計算するものである。ここで、テンプレート−画像確率は、ある文字cに関連したある特定の文字テンプレートと画像点xにおける画像領域との間の一致度(match)の測定値を示すテンプレート−画像マッチング・スコアで表される。
【0019】
テンプレート−画像マッチング・スコアは、matchscore(x,c)と表される。この実施形態では、そのヒストリ(history)hが同じ文字cで終わる位置x′における全てのノードは同じテンプレート−画像matchscore(x,c)を共有する、ここでmatchscore(x,c)は、x=x′からcと関連した空間変位を差し引いたものである。
【0020】
画像モデル800を表すデータ構造は、ノードと、ノードの間の枝(branch)、又はエッジ、からなるグラフである。各枝にはエッジ・スコアが付され、又は関係づけられている。画像モデルが確率的ランゲージ・モデルを含む場合、画像ネットワークにおける各枝に関係づけられ、又は割り当てられた全エッジ・スコアは、テンプレート−画像マッチ・スコアおよびランゲージ・モデル・スコアを含む。ランゲージ・モデル・スコアは、ランゲージ・モデル重み又は上限スコアである。エッジには対数確率で記されているので、あるエッジの全スコアは、単純に、テンプレート−画像マッチ・スコアとランゲージ・モデル・スコアを加えることで計算される。
【0021】
ランゲージ・モデル60は、復号化オペレーション200が、ある転写、又は文字シーケンス、を他のものよりも、アプリオリに優先させる方法を提供する。
この実施形態では、用いられるランゲージ・モデルは、因果的シーケンシャル予測確率分布(causal sequential predictive probability distribution)であり、確率的ランゲージ・モデルと呼ばれる。このモデルは、各文字に対して、前の文字の出現に条件付けられた確率分布を与える。これによって、この確率分布は、テキストライン画像のある文字ストリングの有効性(validity)についての確率的な記述を与える。任意の長さNの有限ストリングについて、確率的ランゲージ・モデルは長さNの全てのストリングにわたって有効確率分布を定める。確率分布は、分布している確率の総和が1になり、負でないときに有効(valid)である。
【0022】
文字ストリングから導かれる確率は何らかの便利な方法で計算可能でなければならない。最も便利な方法は、それを条件付シーケンシャル確率分布(conditional sequential probability distributions)の積に因数分解することである。すなわち、全メッセージの全体確率、P(ν1,ν2,...,νk)、はメッセージの個々の文字の確率の各々の積である。最も一般的な場合、全体確率は前にある(前に現れている;previous)文字全部に条件付けられる。例えば、
【数1】
【0023】
この定式化は、追跡すべき文字と組み合わせの数が指数関数的に大きくなり実際的ではない。ランゲージ・モデルは式(1)の近似である。ある文字の出現が、先行する一つの条件文字に条件付けられる場合、この近似は次のような形になる。
【数2】
【0024】
ある文字の出現が、先行する二つの条件文字に条件付けられる場合、この近似は次のような形になる。
【数3】
【0025】
条件付ける文字の数を表す条件付け変数i、を用いてモデルを一般化すると、
【数4】
となる。式(4)で表されるタイプのランゲージ・モデルはN−グラム・モデルと呼ばれる。N−グラムの「N」は、ある候補文字を条件付ける文字の最大数、又はヒストリを表す。N−グラム・ランゲージ・モデルは、m次マルコフ過程に対応する、ここでm=N−1である。例えば、バイグラム・ランゲージ・モデル(N=2)は、一次マルコフ過程である。可変N−グラム・モデルは、大きなNでのN−グラム・ランゲージ・モデルの特別な場合である。可変N−グラム(variable N-gram)・ランゲージ・モデルは、文字に条件付き確率を付与する際に意味があると見なすヒストリの長さを低減できる。
【0026】
図2は、図1のランゲージ・モデル60の一例であるN−グラム・ランゲージ・モデル62の機能を図示している。モデル62は、長さN−1の文字シーケンスを取り、画像モデル800におけるM文字全てに関する有効確率分布を生成する。ランゲージ・モデル重み(language model weight)、又は単に重み(weight)、という用語は、ランゲージ・モデル62によって生成される有効な確率分布において、モデルの全てのストリングに対しある与えられた文字ストリングに関する一つの確率を意味するものとして用いられる。適切に拡大された復号化データ構造では、あるノードに入る各枝には、そのノードに関連した文字ヒストリが与えられると、その枝に関連した文字のランゲージ・モデル重みが割り当てられる。
【0027】
復号化オペレーション200は、最初、画像ネットワークを拡大されない格子状グラフ・データ構造として表し、ネットワークの各枝に上限スコアを結びつける。上限スコアは、確率そのものではなく、それがない場合にそのヒストリにしたがって枝に結びつけられるランゲージ・モデル重みの上限である。上限スコアは、ストリングの楽観的な(optimistic)有効度測定値である。
【0028】
上限スコアは、普通、復号化に先立って計算され、復号化オペレーション200がアクセスできるように適当なデータ構造に格納される。図3は、上限スコアを生成するためのオペレーション400の入力と出力を示す。オペレーション400は、入力として画像モデル800におけるM文字記号、N−グラム・ランゲージ・モデル62、および上限関数(upper bound function)66を取る。次に、オペレーション400は、上限スコア関数66によって、Mにおける全ての文字νに関する上限スコアを生成する。ある与えられたνの上限スコアは、νに先立つ全てのパスの上限である。
【0029】
代表的な上限スコア関数66は次のように表すことができる。
【0030】
【数5】
ここで、Bは先行するj文字のシーケンス、0≦j≦N−1、Aは(N−j−1)の長さの文字シーケンス全部にわたる。j=0のとき、q(νk|B)は単にq(νk)であり、上限関数はユニグラム(unigram)関数である。j=1のとき、上限関数はバイグラム関数である。バイグラム上限スコアは各文字のランゲージ・モデル重みを最後のN文字ではなく最後の一文字に依存するある量で上限を定める。式(4)と(5)は、合わせて、以下で図4に関連して記述されるq(h,c)関数を構成する。可能な各文字について、オペレーション400は、式(5)を用いてN−グラム・ランゲージ・モデル62での有効な確率分布を生成し、次に最大ランゲージ・モデル重みを求めてその確率分布を探索する。この最大ランゲージ・モデル重みは、その文字で終わる全ての文字シーケンスを表すのに用いられる上限スコアである。復号化オペレーション200によって生成されるパスは、楽観的な(optimistic)上限スコアを用いて予測されるものよりも良いことは決してなく、用いるデータ(スコア)での最適(optimal)パスである。
【0031】
式(5)は、ランゲージ・モデル確率に対する厳密な上限を生成する。しかし、厳密な上限スコアを生成しない他の上限スコア関数も可能である。
オペレーション400の出力は、画像ソース・モデルにおける全ての文字に関する上限スコアであり、図3のアレー(array)70など適当なデータ構造に格納される。アレー70はM×M次元である、ここでMは画像ソース・モデルにおけるユニーク文字記号の総数である。上限スコアのアレー70では、与えられたνk−1に基づくνkのランゲージ・モデル重みに上限がある。ユニグラム上限スコア関数を用いる場合、上限スコアは長さMのベクトルに格納される、ここでMはソース・モデルにおけるユニーク文字記号の総数である。
【0032】
一般に、N−グラム・モデルの場合、復号化で必要とされる全ての上限スコアをあらかじめ計算する結果必要になる格納のためのコストは、ランゲージ・モデルの数N、および、テンプレート・ライブラリー20における文字の数k、という因子に依存し、一般にkN エントリーとして記述される。
【0033】
バイグラム上限関数は、ユニグラム上限関数よりも厳密な上限を与える。何故なら、バイグラム上限関数はより広い範囲の上限スコアを与えると予測されるからである。
【0034】
図4は、ダイナミック・プログラミングによるテキストライン復号化オペレーション200の実施形態の主なプロセスのトップレベル・フローチャート図である。オペレーション200は、選択的グラフ拡大プロセスを用いて復号化グラフによって表される画像ネットワークにランゲージ・モデルを統合している。オペレーション200は、ボックス220および400における二つの準備関数(preparatory functions)からスタートする。ボックス220では、初期化プロセスで、すべての空間位置xでのゼロ次ノード(以下で定義される)で初期化する、すなわち、復号化のときにあるノードのまわりで情報を追跡するのに用いられるすべての位置xに関するノード・データ構造を生成する。次に、オペレーション400が、上のセクション2で述べたように、画像モデルの各文字についてランゲージ・モデル確率の上限を生成し、これらの上限スコアを最良パス探索オペレーション240に提供する。
【0035】
図4は、反復プロセスとしての復号化プロセスを示す。準備タスク220および400を完了した後、処理コントロールは、オペレーション240と300の反復シーケンスに移行し、それはボックス298で終止条件がテストされて満たされるまで続く。復号化は、上限スコアが付されているノードへの遷移を有する拡大されていない画像ネットワークから始まり、このネットワークを通る見込みのありそうなパス(promising paths)が見つかるにつれて選択的に拡大する。復号化オペレーション240の各反復において、復号化グラフを通る推定最良パスの候補(現行パス(current path)と呼ばれるもの)が生成される。現行パスは、上限スコアを用いる探索プロセスのときに得られる最大累積パス(maximum cumulative path)を用いて決定される。ボックス298において終止条件が満たされない場合、ネットワーク拡大オペレーション300の拡大関数(expansion function)が実行される。ネットワーク拡大オペレーション300は、識別された最良パス・ノードに対し高次ノード(以下で定義される)を付加することにより、現行パスのノードに関して復号化グラフを拡大する。ネットワーク拡大オペレーション300は、また、高次ノードに関連した特定文字シーケンスについてランゲージ・モデル重みを計算し、新たに計算されたこれらのランゲージ・モデル確率をそれぞれのノードと関連させる。
【0036】
処理コントロールは、ネットワーク拡大オペレーション300から最良パス探索オペレーション240に移行して新たな反復を開始する。オペレーション240の各反復における最良パス探索に利用できる復号化グラフは、ネットワーク拡大オペレーション300で生成されたばかりの新しいランゲージ・モデル・スコアを有する新しい高次のノードおよび枝を含んでおり、そこには利用できる文字ヒストリが反映されている。復号化は、復号化グラフの現行最良パスに含まれる各ノードがその最大オーダー(以下で定義される)にあるとき終了する。復号化が完了すると、ボックス299で、転写出力が出されて、印刷又は別のオペレーションによる処理に利用できるようになる。
【0037】
本発明は、次のような特定の用語および定義を用いてさらに良く理解される。ある候補文字cに関するランゲージ・モデル重みは、cまで続くある特定先行文字シーケンスに依存する。cまでの、およびcも含む、h個の先行する文字の組は、cの「ヒストリ(history)」、又は「コンテキスト(context)」、と呼ばれる。ヒストリは長さ|h|を有する。復号化グラフにおけるノードとは、テキストライン画像における空間位置xおよびヒストリh、によってユニークに定められる(状態、位置)対である。グラフの枝(エッジ、又は遷移、とも呼ばれる)は、二つのノードを結合する。枝の属性は、あるノードによってマークされる画像位置に終端位置を有する文字テンプレート、およびその文字を同定する関連文字ラベル、を示す。あるノードのオーダー(次数)とは、そのノードに関連したヒストリhの長さである。したがって、ヒストリhが1文字であるノードは一次のノードであり、ヒストリhが2文字であるノードは二次のノードであり、以下同様である。テキストライン画像上の同じ空間位置xに二つ以上のノードがあっても良い。何故なら、ノードは次数が異なることがあるからである。画像ネットワークの各空間位置xには、少なくとも一つのノード、ゼロ次ノードと呼ばれるもの、がある。ゼロ次ノードは、ゼロ長さの空(empty)の、又はヌル(null)のヒストリを有し、スコアリングの目的でのそのノードへの遷移に関連したランゲージ・モデルからの上限スコアを有する。図では、異なる次数のノードは異なるレベルに示される、すなわち、ゼロ次ノードが最も低いレベルに示され、一次ノードがゼロ次ノードの上のレベルに示され、以下同様に示される。h′と表されるヒストリは、|h′|>|h|でありh′がその最後の|h|文字でhとマッチする場合、ヒストリhの「後方延長」(backward extension)である。
【0038】
復号化オペレーション200は、N−グラム・ランゲージ・モデルの使用に関連して二つの関数を利用する。与えられた文字シーケンス・ヒストリh、に対してismax(h)と記される最大オーダー関数は、ランゲージ・モデルが、すぐ後で定義される関数qを計算するときにhの全ての後方延長h′をhと等価に扱う場合かつその場合に限り、真になる。ismax(h)が真(true)になるとき、文字シーケンス・ヒストリhは、用いているランゲージ・モデルに関して、そのランゲージ・モデルが文字シーケンス・ヒストリhに対してランゲージ・モデル重みを生成できるような最大オーダーにあると定義される。文字シーケンス・ヒストリhが最大オーダーにあるとき、全ての後方延長h′も最大オーダーにあり、そのランゲージ・モデルによってhと等価な仕方で扱われる。復号化オペレーション200で用いられる復号化グラフにおけるある最良パスに含まれると識別されたノードに関して、あるノードは、ismax(h)が真であり(ここでismax(h)は今定義したもの)、hがそのノードに関連したヒストリである場合、最大オーダーである。ismax(h)が偽(false)であるとき、文字シーケンス・ヒストリhは、用いているランゲージ・モデルに関して最大オーダーになく、そのランゲージ・モデルはhよりも長いある長さの文字シーケンス・ヒストリに対してのみランゲージ・モデル重みを生成できる。ある固定されたN−グラム・ランゲージ・モデルで、|h|=N−1である場合かつその場合に限りismax(h)関数が真になるという規則には、テキストラインの初めにある、利用できるヒストリがN−1より短い長さであるテキストライン・ストリングの部分では例外がある、ということに注意しよう。その場合、hが利用できるヒストリ全体である場合かつその場合に限りismax(h)関数が真になる。ismax(h)関数はテーブル・ルックアップとして実装できるということに注意されたい。
【0039】
二番目の関数、q(h,c)と記される関数、は、ヒストリがhであるときに文字cに関連したスコアを返す。ismax(h)が真であれば、q(h,c)は、ランゲージ・モデル62によって、かつ式(4)を用いて、与えられたhでcに対して有効な確率分布を生成し、cのランゲージ・モデル重みがこの分布から得られる。ismax(h)が偽であれば、スコアは、hの全ての後方延長h′にわたって与えられたh′でのcのランゲージ・モデル確率の上限スコアであり、例えば式(5)を用いて計算される。関数q(h,c)は、ランゲージ・モデル重みに対して、与えられた文字シーケンス・ヒストリでそれができる最も厳しい上限を計算し、ランゲージ・モデル重みはノード(およびそれに関連したヒストリ)が用いているランゲージ・モデルで最大オーダーにあるときに最も正確である。
【0040】
グラフ・データ構造は、復号化グラフを表し、各ノードを処理するのに必要なデータを格納する。ここで用いられる場合、データ構造とは、関連したデータ項目の何らかの組み合わせであって、何も特定のデータ組織(organization)を意味しない。
【0041】
ノードは、その空間位置xおよびヒストリhによって識別される。各ノード・データ構造は、また、ノードの次数を識別するノード・オーダー情報、および、そのノードの近傍におけるパスについての情報、を含んでいる。特に、すべてのノードに関し、最良インカミング枝(incoming branch)、その最良インカミング枝に関連した文字テンプレートの文字ラベル、およびこのノードへの最良パスの累積パス・スコアも含まれる。ノード・データ構造は、また、このノードからの最良アウトゴーイング枝(outgoing branch)およびこの位置xにおける次のノード(異なる次数の)のノード・データ構造へのポインタも含む。例示された実施形態では、そのテキストラインの各空間位置xにおけるノードのリストを含むその他のデータ構造が管理されている。
【0042】
復号化オペレーション240の終わりに行われるバックトレーシング・オペレーション290では、すべてのノード・データ構造を含むグラフ・データ構造を用いて、テキストライン画像の終わりからスタートして、各ノードについて格納されている最良インカミング・ブランチおよび累積パス・スコアを用いて復号化グラフをさかのぼってトレースすることによって、現行推定最良パスにおけるノードの位置を識別する。
【0043】
図5は、図1の画像ネットワーク800の一部を表す一次元復号化グラフ500のグラフィック表現である。復号化グラフ500は、テキストラインの左端に対応するグラフの左側にスタート状態NIを有する。テキストラインの右端における最終状態NFは図示されていない。復号化グラフ500には、一連の画素位置502が垂直チック・マークで表示されている。図5は、復号化グラフを構成している少数の可能なノード512およびノードの間の枝514を示している。復号化グラフ500におけるノードは、ゼロ次のノードであり、小さな黒い丸で示されている。長さが最も短い枝は、その属性として比較的小さなセット幅の文字テンプレートを有し、中間の長さの枝は中間サイズのセット幅の文字テンプレートを示し、最も長い枝はセット幅が最も大きい文字テンプレートを示す。ある与えられた位置での与えられた文字テンプレートでのグラフの各枝は、それに関連した複合エッジ・スコア(composite edge score;Ecと記される)を有する。例えば、枝514には、複合エッジ・スコア510が表示されている。複合エッジ・スコアは、その画像位置における文字テンプレートに関するテンプレート−画像マッチング・スコアを表す対数確率(log probability)とランゲージ・モデル重みの対数の和を含む。ゼロ次ノードのランゲージ・モデル重みの値は、上限スコアである。復号化が進行して、より高次のノードが作られると、エッジ・スコアのランゲージ・モデル重み成分はq(h,c)関数を用いて計算される。
【0044】
最良パス探索オペレーション240の前進段階(forward phase)(図6)では、画像の各画素位置に対して、各文字テンプレートを印刷することによって生成されたパスのうちから、そして以前に計算された位置に到達するための最もありそうな(最尤;most likely)パスのすべてを用いて、その位置に到達するための最もありそうなパスを識別する。各画像位置、およびすべてのノードへの各遷移に対し、オペレーション240は、複合エッジ・スコアおよび以前に計算した累積パス・スコアを用いて、最良パスがこのノードで終端する確率および遷移によって通過した後の画像位置を計算する。オペレーション240は、最良パスの終端点が一意に(unambiguously)識別されるまで前進して行われる。
【0045】
図6のフローチャート図は、最良パス探索オペレーション240の処理の流れを示している。オペレーション240は、処理の流れをコントロールする三つの主なループ構造を含んでいる。オペレーション240の始めに、ボックス244で、ループ・オペレーションをコントロールする変数x,n,およびfがゼロに初期化される。一番外側のループ(ボックス248とボックス284で区切られるループ)は復号化しようとするテキストライン画像の各画像位置xを、ラインの終わりに到達するまで処理する。中間ループ(ボックス252とボックス282で区切られるループ)は、与えられた画像位置におけるnodenと記される各ノードnを処理する。各画像位置には、各々が異なる次数を有する複数のノードがあり得ることを考えると、中間ループはこれらのノードがすべて処理されるようにする。最も内側のループ(ボックス254とボックス280で区切られるループ)は文字テンプレート・ライブラリー20の各文字cfの処理をコントロールする。各文字cfの処理は、ボックス258からボックス274までの関数によって扱われる。以前のネットワーク拡大オペレーション300の実行の際にランゲージ・モデルから計算された新しいランゲージ・モデル・スコアがこの復号化反復でグラフ・データ構造に格納されている累積パス・スコアに変化を生じたとき、これらの関数はこの累積パス・スコアを更新する。
【0046】
オペレーション240のプロセスを、図7に示される部分復号化グラフ500を参照して記述する。復号化グラフ500は、画像テキストラインの画像位置の選択された部分を表す三行の垂直チック・マークで表されている。行502は、ヌル、又は空(empty)の、ヒストリhを有するゼロ次ノードの位置を示し、行520は、一つの先行文字からなるヒストリhを有する一次ノードの位置を示し、行522は、二つの先行文字からなるヒストリhを有する二次ノードの位置を示している。復号化グラフ500は、それまでに繰り返された何回かの最良パス探索オペレーション240とそれに続くネットワーク拡大オペレーション300の結果として図7に示される状態にまで拡大される。図7は、いくつかのノードから、オペレーション240の際に用いられるグラフ・データ構造のうちから選択されたデータ項目に向いた矢印を示している。復号化グラフ500はゼロ次ノード526から二次ノード540への枝528を示している。枝528は、テンプレート・ライブラリーからの文字cfの指定でラベルづけされており、ノード540での文字cfのエッジ・スコアであるデータ項目532に向けてカーブした矢印を有する。
【0047】
次に、図6を参照して、いくつかの画像位置xを通る処理が既に完了し、ループ・コントロール変数nおよびfがボックス286でゼロにリセットされた場合について説明する。また、ループ変数xがボックス248でインクリメントされて復号化グラフ500で画像位置524に到達したとする。コントロールは、次に、ボックス252に移行し、そこでノード・ループ変数nをインクリメントして画像位置524のノードの最初のもの、すなわち、ノード526を処理する。コントロールは、次に、ボックス254に移行し、そこでライブラリー20の文字の最初のもの、cfと指定されるもの、を同定して処理する。オペレーション240は、ボックス258で、位置524における画像位置xにその変位(セット幅)dを加えて文字cfの終端画像位置を計算する。これは図7でx+dcfと記され変位530によって示される。次に、ボックス260において、ノード526のヒストリがデータ項目604のグラフ・データ構造から検索され、処理されている現在の文字cf、がノード・ヒストリに添付されてヒストリhcfがボックス264で形成される。
【0048】
次に、ボックス268において、オペレーション240は画像位置x+dcfにおいてhcfと矛盾しないノード・ヒストリを有する最高次数のノードを決定し、このノードをSと記す。このためには、ノード540,542,および544のそれぞれに対応するノード・ヒストリ644,664,および684を調べる必要がある。ゼロ次ノードのヒストリ(すなわち、ヌル・ヒストリ)は常にヒストリhcfと整合(consistent)するし、全ての画像位置には少なくとも一つのゼロ次ノードがあるので、ノードSは常に存在する。与えられたノードのヒストリは、そのノードのヒストリがhcfと同一であるか、そのノードのヒストリがhcfの初めの部分と同一であるとき、hcfと整合する。例えば、hcfがストリング「rec」を示している場合、ノード・ヒストリ「rec」および「re」はどちらもhcfと整合する。
【0049】
説明のために、ノード540のノード・ヒストリ644がヒストリhcfと矛盾しないとする。実際には、オペレーション240はノード526からノード540への枝528を調べて、この枝がノード540の累積パス・スコアを改善するかどうか判定する。このために、オペレーション240は、ボックス270において、ノード540に対する最良累積パス・スコア654(ボックス270でSbestscoreと記されるもの)を検索し、ノード540に対するバック・ポインター(最良インカミング枝)648(Sbackptrと記される)を検索する。次に、オペレーション240は、枝528によるノード540への累積パス・スコアを計算する。これは、ノード526における累積パス・スコア614(nbestscore)と記される、をノード540におけるエッジ・スコアcfに加えることによって行われ、ボックス274でEdgescore と記される。次に、ボックス274は、この新しい累積パス・スコアをSbestscore(ノード540の累積パス・スコア)と比較して、もしもEdgescore+nbestscoreがSbestscoreよりも大きい場合、コントロールはボックス278に移行し、そこでノード540の累積パス・スコア654とバックポインター648を、それぞれ、Edgescore+nbestscoreとノード526に更新する。次に、コントロールはボックス280に移行する。もしもEdgescore+nbestscoreがSbestscoreよりも大きくない場合は、コントロールはボックス280に移行し、そこでテンプレート・ライブラリーに処理すべき文字がまだあるかどうかを尋ねる。
【0050】
まだ文字がある場合、コントロールはボックス254に移行し、そこで文字処理をコントロールするループ変数fをインクリメントして次の文字を処理する。次の文字cfがボックス258からボックス274までの同じシーケンスのオペレーションで処理される。ボックス258で次のノード位置x+dcfが計算され、ボックス260および264でヒストリhcfが生成される。次に、オペレーション240は、画像位置x+dcfでヒストリhcfを有する最高次数のノードを求めてノード・グラフ・データ構造を調べる。次に、オペレーション240は、ボックス274において、画像位置x+dcfにおけるその最高次数のノードに関する累積パス・スコアおよびバックポインターを更新すべきかどうかを決定する。ノード526に関する処理は、このように、テンプレート・ライブラリー20の全ての文字について続けられる。
【0051】
テンプレート・ライブラリー20の全ての文字がノード526に関して処理されたときには、コントロールはボックス280からボックス282におけるクエリ(query)に移行し、画像位置524に他のノードがあるかどうかが調べられる。もしもそうであれば、文字処理をコントロールするループ変数fをボックス283においてゼロにセットし、コントロールはボックス252に移行し、そこで現在の画像位置でのノード処理をコントロールするループ変数nがインクリメントされる。図7に示されている復号化グラフ500においては、ノード525がノード526について今述べたと同じ仕方で次に処理される。与えられた画像位置で、その位置でのノードはどんな順序でも処理できる。画像位置524での全てのノードが処理されたら、ボックス282におけるテストはコントロールをボックス284に移して、そこで行の終端条件がテストされる。処理すべき画像位置がもっとある場合、ボックス286においてループ・コントロール変数fおよびnをゼロにセットし、コントロールはボックス248に移行し、そこでループ・コントロール変数xをインクリメントしてテキストライン画像の次の画像位置xを処理する。
【0052】
テキストライン画像の終わりに到達すると、コントロールはバックトレース処理部290に移行し、それは復号化オペレーション240によって更新されたグラフ・データ構造を用いて、テキストラインの最後のノードからデータ構造のバックポインター・データアイテムを用いてさかのぼってトレースする。このような仕方によるバックトレーシングによって、画像ネットワークを通るノードと枝からなる推定最良パスが生成される。最良パスにおけるノードは、画像におけるグリフの位置を決定する。終端条件298(図4)が満たされると、復号化オペレーション200は完了し、メッセージ・ストリング、又は転写、がこのパスから生成される。転写は、推定最良パスのノードのインカミング枝の属性であるテンプレートに関連した、接合された(concatnated)文字ラベルの順序付けられたシーケンスから構成される。
【0053】
オペレーション240における処理ループの順序は、最良累積パス・スコアがテキストラインを通って前方へ伝播するように設計されており、その結果、量nbestscoreは行の終わりで有効であり最終的なものとなる。
ネットワーク拡大オペレーション300(図9)の機能の一つは、状態(ノード)を効率的に拡大し、復号化グラフ500の枝を含めることにより、ランゲージ・モデル重みが利用できるようになるとそれを反映させることである。オペレーション300の別の機能は、復号化グラフ500の拡大後の全ての枝に適当なランゲージ・モデル・スコア、上限スコア又はランゲージ・モデル重み、が表示されるようにすることである。ランゲージ・モデルが復号化において有効であるためには、全ての拡大されたパスが一意の特定ヒストリに条件付けられていなければならず、エッジ・スコアがパスの集まりではなく、ある特定パスに依存しなければならない。
【0054】
図8は、復号化グラフ500を通る、ノード及び、ノード間の枝からなるシーケンスで表される代表的なパス504の一部を示している。復号化オペレーション240が推定最良パス504を生成し、それがさらに、メッセージ・ストリング「irrnm n」を有する転写503を生成した。
【0055】
オペレーション300(図9)は、グラフ・データ構造の各ノードを処理し、まずボックス304でループ・コントロール変数nをゼロに初期化することからスタートする。ノードは、普通、画像位置の順序で処理される。ボックス308と350は、ノード処理ループの範囲を限定している。nodenと記される各ノードについて、オペレーション300は、ボックス312で、nodenのヒストリhを取得し、ボックス316で、ismax(h)関数を用いてnodenが最大オーダーであるかどうかを決定する。ismax(h)が真(true)であれば、コントロールはボックス350におけるテストに移行し、さらにノードを処理することを続けるべきかどうかを決定する。nodenが最大オーダーでなかったら(ismax(h)が偽(false)であれば)、コントロールはボックス320に移行し、そこでグラフ・データ構造に少なくとも一つの新しい、高次のノードを生成する。この新しい、高次のノードは、「コンテキスト・ノード(context node)」であり、その関連するインカミング枝は「コンテキスト枝(context branch)」である。コンテキスト・ノードのノード・データ構造は[表1]に示されたデータを有する。
【0056】
【表1】
【0057】
さらに、コンテキスト・ノードは、それに関連したインカミング枝についてエッジ・スコアを計算し格納しておかなければならない。コンテキスト枝のエッジ・スコアは、nodenに関する同じテンプレート−画像マッチング・スコアmatchscore(x,c)と、関数q(h,c)を用いて生成される更新されたランゲージ・モデル重みと、を含む、ここでhは新しい高次ノードに関連したヒストリであり、cはこの新しい高次ノードに関する最良インカミング枝の文字である。このランゲージ・モデル・スコアは、もしもコンテキスト・ノードが最大オーダーでない場合、上限スコアであるか、又はコンテキスト・ノードが最大オーダーである場合、 ランゲージ・モデル重みであるということに注意されたい。
【0058】
図10は、オペレーション300の結果を概念的に示す。図8に示されているゼロ次ノードのパス504の部分に対し、オペレーション300は、全てのゼロ・ノードについて一次ノードを生成する。例えば、オペレーション300は、ノード506と同じ位置xに一次ノード507を生成する。図8の転写503を参照すると、ノード507は「i」のヒストリhを有する。ノード506への最良インカミング枝は、それに関係づけられた文字「r」を有し、したがって、ノード507への最良インカミング枝は、やはりそれに関連する文字「r」を有するブランチ550である。事前に計算していない場合、オペレーション320は、また、ブランチ550に関連したエッジ・スコアを計算する。これは、位置506における文字「r」に関するテンプレート−画像マッチング・スコアと、q(「i」,「r」)の結果である関数q(h,c)によって生成されるランゲージ・モデル・スコアとを含む。
【0059】
図10は、また、一次ノード515から二次ノード517への復号化グラフ500の拡大を示している。ノード515を処理するとき、ボックス316におけるismax(h)関数を用いるテスト(図9)が偽となり、ノード515は最大オーダーではないということを示したとする。すると、処理コントロールは、ボックス320に進み、そこで同じ位置xに新しい高次のノードを生成する。図8の転写503を参照すると、ノード515は、ボックス518に示されるように、「m」のヒストリhを有し、したがって、ボックス519に示されるように、ノード517は「nm」のヒストリhを有する。ノード515への最良インカミング枝はそれに関連したスペース記号を有し、したがって、ノード517への最良インカミング枝は、やはりそれに関連したスペース記号を有する枝554である。やはり、事前に計算していない場合、オペレーション320は、また、枝554に関連したエッジ・スコアを計算する。これは、位置515におけるスペース記号(以下、便宜的に「_」と記す)に関するテンプレート−画像マッチング・スコアと、q(「nm」,「_」)の結果である関数q(h,c)によって生成されるランゲージ・モデル・スコアを含む。
【0060】
オペレーション320(図9)は、nodenに対し少なくとも一つの高次ノードを生成しなければならないが、同時に1以上で、用いているランゲージ・モデルの最大オーダーまでの複数の高次ノードを生成することができる。
複数の高次ノードを一斉に加えることは正しいパスをもっと速やかに決定できるようにするかもしれないが、このような決定は推測になってしまうであろう。与えられたノードのグラフ拡大オプションは、一度に一つの高次ノードだけを加えること、全ての高次ノードを一斉に加えること、又は、いくつかの中間個数のノードを、何回の反復を行ったかの推定に基づいて(parhaps based)加えることを含む。
【0061】
Bをランゲージ・モデルなしの基礎グラフ・サイズとすると、グラフは各反復で高々因子Nだけ拡大する。全グラフ・サイズはO(BNI)となる、ここでIは反復回数である。テンプレートの数である因子Mは、基礎グラフ・サイズB=O(MX)に現れる、ここでXは行の上の位置の数である。
【0062】
エッジ・スコアにおいてランゲージ・モデルによって生成される全条件付確率を用いる方法はいろいろある。例えば、全条件付確率をPで表し、マッチ・スコアをMで表すと、そのノードへの枝のエッジ・スコアはlog M+αlog Pで定義できる、ここで量αはランゲージ・モデルによって生成される全条件付確率に対する重みとしてのα関数である。
【0063】
ランゲージ・モデル62(q関数)は、直接、所望の量を与えることがあり得る。ismax(h)が真であるときにランゲージ・モデルが有効な確率分布を与えるということは必ずしも常に厳密な必要条件ではない。すなわち、「確率」という用語が用いられていても、復号化グラフのエッジ・スコアのランゲージ・モデル成分は、もっと一般的に、復号化しているテキストの言語での「妥当性の度合い」を表している。
【0064】
ボックス298(図6)でテストされる終止条件は、現行推定最良パスにおけるすべてのノードが最大オーダーであるかどうか、ということである。
この必要条件は、用いているランゲージ・モデルの挙動に関する仮定された制限が前提になっている、すなわち、それが有意と見なすヒストリの長さはストリングの位置あたり一文字以下の速さでしか増加しないということである。N−グラム・モデルはこの前提と両立する。
【0065】
しかし、復号化に用いられる合理的な確率ランゲージ・モデルであって、最良パスの全てのノードが最大オーダーにあることが適当な停止条件ではないかもしれないものがある。ボックス298におけるテストは、用いているランゲージ・モデルの条件に基づいて決定される。
【0066】
本発明は、プロセッサでコントロールされるどんなマシンでも利用できるものであり、どのような特定のプロセッサ、マシン、システム、又はその他の装置にも本質的に結びつくものではない。本発明を実行する目的でマシン又はシステムを特に構成し最適化することもできるし、あるいは又、マシンは汎用コンピュータを含み、そのコンピュータに格納されているコンピュータ・プログラムによってそれを選択的に実行(activate)又は再構成(reconfigure)してもよい。マシンは、また、汎用コンピュータと補助的な専用ハードウエアの組み合わせであってもよい。
【図面の簡単な説明】
【図1】本発明のテキストライン画像デコーダの全体的な動作を説明する入力および出力データ構造を示すブロック図である。
【図2】図1のランゲージ・モデルの機能を示すブロック図である。
【図3】ランゲージ・モデルを用いて上限スコア又は重みを生成するオペレーションのための入力および出力データ構造を示すブロック図である。
【図4】ランゲージ・モデルを画像ネットワークおよびテキストラインの復号化に統合するオペレーションの処理の流れを示すトップレベルのフローチャート図である。
【図5】本発明で用いられるタイプの復号化グラフの一部を示す概念図であり、グラフ中の可能なノードおよび枝の一部を示した図である。
【図6】図4の最良パス探索オペレーションの機能を示すフローチャート図である。
【図7】図6に示された最良パス探索オペレーションで用いられるグラフのノードと枝に関連した復号化グラフの一部とデータ項目を概念的に示した図である。
【図8】図5の復号化グラフを概念的に示し、最良パス探索オペレーションの一回反復で得られるそのグラフを通るパスを示す説明図である。
【図9】確率的ランゲージ・モデルを取り入れるために、図5の復号化グラフを拡大する図4のポスト−ライン復号化ネットワーク拡大の主な機能を示すフローチャート図である。
【図10】図9のフローチャート図による図8の復号化グラフのノードと枝の拡大を概念的に示す説明図である。
【符号の説明】
10 テキストライン画像、40 テキストライン転写、60 ランゲージモデル、800 画像モデル。
Claims (2)
- プロセッサによってコントロールされる装置を操作して、ランゲージ・モデルを用いてテキストライン画像を復号化する復号化オペレーションを実行する方法であって、
それぞれが文字記号を表す画像グリフ、を複数含んでなる入力テキストライン画像を受容するステップと、
入力されたテキストライン画像を、複数のノード及び、ノード間の枝を表す画像ネットワーク・データ構造として表現するステップであって、各ノードは一つの画像グリフの位置を表し、一つのノードに向かう各枝に画像グリフを同定する文字記号が関連づけられ、複数のノードおよび枝が画像ネットワークを通る複数の可能なパスを表し、各パスは入力されたテキストライン画像の可能な転写を表すようなステップと、
ランゲージ・モデルから計算されるランゲージ・モデル・スコアを画像ネットワークの各枝に、その枝に関連づけられる文字記号にしたがって割り当てるステップであって、ランゲージ・モデル・スコアはその枝に関連づけられる文字記号で終わる文字記号シーケンスの有効度を表すようなステップと、
最良パス探索オペレーションとそれに続くネットワーク拡大オペレーションの反復シーケンスを、停止条件が満たされるまで実行するステップであって、最良パス探索オペレーションは枝に割り当てられたランゲージ・モデル・スコアを用いて画像ネットワークを通る枝とノードの完全パスを生成し、ネットワーク拡大オペレーションは画像ネットワークに少なくとも一つのコンテキスト・ノードおよびコンテキスト枝を付加することを含み、コンテキスト・ノードはそれに関連した文字ヒストリを有し、コンテキスト枝は、そのコンテキスト枝に関連した文字記号で終わる文字ヒストリに関し更新されたランゲージ・モデル・スコアを表し、コンテキスト・ノードおよびコンテキスト枝が付加された画像ネットワークは最良パス探索オペレーションのその後の実行に利用できるようになるようなステップと、
停止条件が満たされたとき、完全パスの枝に関連づけられた文字記号を用いて、入力されたテキストライン画像の画像グリフによって表される画像記号の転写を生成するステップと、を含み、
ランゲージ・モデルは、選ばれた文字記号ν k に対して、その選ばれた文字記号に先行するN−1個の文字記号のシーケンスに基づくランゲージ・モデル重みを表す確率的N−グラムランゲージ・モデルであり、
ランゲージ・モデル・スコアは前記確率的ランゲージ・モデルを用いて上限関数から計算される上限スコアであり、上限関数は、
q(ν k |B)=max P(ν k |AB)
であり、ここで、qは上限スコア、Bは文字記号ν k に先行するj個の文字記号のシーケンス(ここで0≦j≦N−1)、Aは(N−j−1)個の文字記号のシーケンス、P(ν k |AB)は前記確率的N−グラムランゲージ・モデルにおいてN−1個の文字のシーケンスABの後に文字記号ν k が現れる条件付き確率、max演算はAを(N−j−1)個の文字記号のシーケンス全部にわたって変えたときのP(ν k |AB)の最大値を求める演算である、
ことを特徴とする方法。 - ビットマップ・テキストライン画像を分析して、マルコフ・ソースの復号化グラフによって計算される少なくとも一つの完全パスに基づいて、テンプレートのライブラリーから選ばれた文字記号テンプレートの組み合わせにする、コンピュータで実行される画像認識の方法において、
ランゲージ・モデルから計算されるランゲージ・モデル・スコアを復号化グラフの各遷移に対し、当該遷移に関連づけられる文字記号にしたがって、割り当てるステップであって、ランゲージ・モデル・スコアはその遷移に関連づけられる文字記号で終わる文字記号シーケンスの有効度を表すようなステップと、
最良パス探索オペレーションとそれに続くネットワーク拡大オペレーションの反復シーケンスを、停止条件が満たされるまで実行するステップであって、最良パス探索オペレーションは遷移に割り当てられたランゲージ・モデル・スコアを用いて復号化グラフを通るノードと遷移の完全パスを生成し、ネットワーク拡大オペレーションは完全パスに含まれる各ノードに対して一つのコンテキスト・ノードを含む拡大された復号化グラフを生成し、ネットワーク拡大オペレーションはあるコンテキスト・ノードに入る遷移に対し、そのインカミング遷移に関連づけられる文字記号で終わる文字記号のシーケンスについてランゲージ・モデルから計算される更新されたランゲージ・モデル・スコアを割り当て、拡大された復号化グラフは最良パス探索オペレーションのその後の実行に利用できるようになるようなステップと、を含み、
ランゲージ・モデルは、選ばれた文字記号ν k に対して、その選ばれた文字記号に先行するN−1個の文字記号のシーケンスに基づくランゲージ・モデル重みを表す確率的N−グラムランゲージ・モデルであり、
ランゲージ・モデル・スコアは前記確率的ランゲージ・モデルを用いて上限関数から計算される上限スコアであり、上限関数は、
q(ν k |B)=max P(ν k |AB)
であり、ここで、qは上限スコア、Bは文字記号ν k に先行するj個の文字記号のシーケンス(ここで0≦j≦N−1)、Aは(N−j−1)個の文字記号のシーケンス、P(ν k |AB)は前記確率的N−グラムランゲージ・モデルにおいてN−1個の文字のシーケンスABの後に文字記号ν k が現れる条件付き確率、max演算はAを(N−j−1)個の文字記号のシーケンス全部にわたって変えたときのP(ν k |AB)の最大値を求める演算である、
ことを特徴とする方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/570,730 US6678415B1 (en) | 2000-05-12 | 2000-05-12 | Document image decoding using an integrated stochastic language model |
US09/570,730 | 2000-05-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002032714A JP2002032714A (ja) | 2002-01-31 |
JP4594551B2 true JP4594551B2 (ja) | 2010-12-08 |
Family
ID=24280814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001134011A Expired - Fee Related JP4594551B2 (ja) | 2000-05-12 | 2001-05-01 | 統合された確率的ランゲージ・モデルを用いたドキュメント画像復号化方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6678415B1 (ja) |
JP (1) | JP4594551B2 (ja) |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW511006B (en) * | 2000-10-13 | 2002-11-21 | Oce Tech Bv | Distributed document handling system |
US7274800B2 (en) * | 2001-07-18 | 2007-09-25 | Intel Corporation | Dynamic gesture recognition from stereo sequences |
AUPR824501A0 (en) * | 2001-10-15 | 2001-11-08 | Silverbrook Research Pty. Ltd. | Methods and systems (npw003) |
AUPR824601A0 (en) * | 2001-10-15 | 2001-11-08 | Silverbrook Research Pty. Ltd. | Methods and system (npw004) |
US7130470B1 (en) * | 2002-03-15 | 2006-10-31 | Oracle International Corporation | System and method of context-based sorting of character strings for use in data base applications |
US7209883B2 (en) * | 2002-05-09 | 2007-04-24 | Intel Corporation | Factorial hidden markov model for audiovisual speech recognition |
US7165029B2 (en) | 2002-05-09 | 2007-01-16 | Intel Corporation | Coupled hidden Markov model for audiovisual speech recognition |
US20030212552A1 (en) * | 2002-05-09 | 2003-11-13 | Liang Lu Hong | Face recognition procedure useful for audiovisual speech recognition |
US7139967B2 (en) * | 2002-08-13 | 2006-11-21 | Vanu, Inc. | Convolutional decoding |
US7171043B2 (en) * | 2002-10-11 | 2007-01-30 | Intel Corporation | Image recognition using hidden markov models and coupled hidden markov models |
US7472063B2 (en) * | 2002-12-19 | 2008-12-30 | Intel Corporation | Audio-visual feature fusion and support vector machine useful for continuous speech recognition |
US7224836B2 (en) * | 2002-12-20 | 2007-05-29 | Palo Alto Research Center Incorporated | Systems and methods for style conscious field classification |
US7203368B2 (en) * | 2003-01-06 | 2007-04-10 | Intel Corporation | Embedded bayesian network for pattern recognition |
US7587307B2 (en) * | 2003-12-18 | 2009-09-08 | Xerox Corporation | Method and apparatus for evaluating machine translation quality |
US7832003B2 (en) * | 2005-04-28 | 2010-11-09 | Microsoft Corporation | Walled gardens |
US8249344B2 (en) * | 2005-07-01 | 2012-08-21 | Microsoft Corporation | Grammatical parsing of document visual structures |
US7536295B2 (en) * | 2005-12-22 | 2009-05-19 | Xerox Corporation | Machine translation using non-contiguous fragments of text |
US8509563B2 (en) * | 2006-02-02 | 2013-08-13 | Microsoft Corporation | Generation of documents from images |
US7623710B2 (en) * | 2006-02-14 | 2009-11-24 | Microsoft Corporation | Document content and structure conversion |
US20070226321A1 (en) * | 2006-03-23 | 2007-09-27 | R R Donnelley & Sons Company | Image based document access and related systems, methods, and devices |
US7542893B2 (en) * | 2006-05-10 | 2009-06-02 | Xerox Corporation | Machine translation using elastic chunks |
US9020804B2 (en) * | 2006-05-10 | 2015-04-28 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
US7848918B2 (en) * | 2006-10-04 | 2010-12-07 | Microsoft Corporation | Abbreviation expansion based on learned weights |
US20090077001A1 (en) * | 2006-11-02 | 2009-03-19 | William Macready | Integrating optimization directly into databases |
US8229232B2 (en) * | 2007-08-24 | 2012-07-24 | CVISION Technologies, Inc. | Computer vision-based methods for enhanced JBIG2 and generic bitonal compression |
JP5557419B2 (ja) * | 2007-10-17 | 2014-07-23 | スパンション エルエルシー | 半導体装置 |
US7480411B1 (en) * | 2008-03-03 | 2009-01-20 | International Business Machines Corporation | Adaptive OCR for books |
US7991153B1 (en) | 2008-08-26 | 2011-08-02 | Nanoglyph, LLC | Glyph encryption system and related methods |
US8373724B2 (en) | 2009-01-28 | 2013-02-12 | Google Inc. | Selective display of OCR'ed text and corresponding images from publications on a client device |
US8442813B1 (en) * | 2009-02-05 | 2013-05-14 | Google Inc. | Methods and systems for assessing the quality of automatically generated text |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP4318463A3 (en) | 2009-12-23 | 2024-02-28 | Google LLC | Multi-modal input on an electronic device |
WO2011106308A2 (en) * | 2010-02-23 | 2011-09-01 | Navia Systems, Inc. | Configurable circuitry for solving stochastic problems |
CN102844755A (zh) * | 2010-04-27 | 2012-12-26 | 惠普发展公司,有限责任合伙企业 | 提取命名实体的方法 |
US8340363B2 (en) * | 2010-05-27 | 2012-12-25 | Palo Alto Research Center Incorporated | System and method for efficient interpretation of images in terms of objects and their parts |
US8352245B1 (en) * | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US8953885B1 (en) * | 2011-09-16 | 2015-02-10 | Google Inc. | Optical character recognition |
US9064191B2 (en) | 2012-01-26 | 2015-06-23 | Qualcomm Incorporated | Lower modifier detection and extraction from devanagari text images to improve OCR performance |
US9053361B2 (en) | 2012-01-26 | 2015-06-09 | Qualcomm Incorporated | Identifying regions of text to merge in a natural image or video frame |
US9076242B2 (en) | 2012-07-19 | 2015-07-07 | Qualcomm Incorporated | Automatic correction of skew in natural images and video |
US9183458B2 (en) | 2012-07-19 | 2015-11-10 | Qualcomm Incorporated | Parameter selection and coarse localization of interest regions for MSER processing |
US9262699B2 (en) | 2012-07-19 | 2016-02-16 | Qualcomm Incorporated | Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR |
US9141874B2 (en) | 2012-07-19 | 2015-09-22 | Qualcomm Incorporated | Feature extraction and use with a probability density function (PDF) divergence metric |
US9047540B2 (en) | 2012-07-19 | 2015-06-02 | Qualcomm Incorporated | Trellis based word decoder with reverse pass |
US9817881B2 (en) * | 2013-10-16 | 2017-11-14 | Cypress Semiconductor Corporation | Hidden markov model processing engine |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9805713B2 (en) * | 2015-03-13 | 2017-10-31 | Google Inc. | Addressing missing features in models |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US10083697B2 (en) | 2015-05-27 | 2018-09-25 | Google Llc | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
US9966073B2 (en) | 2015-05-27 | 2018-05-08 | Google Llc | Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device |
US9870196B2 (en) | 2015-05-27 | 2018-01-16 | Google Llc | Selective aborting of online processing of voice inputs in a voice-enabled electronic device |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
US11269768B2 (en) | 2018-12-21 | 2022-03-08 | Home Box Office, Inc. | Garbage collection of preloaded time-based graph data |
US11204924B2 (en) | 2018-12-21 | 2021-12-21 | Home Box Office, Inc. | Collection of timepoints and mapping preloaded graphs |
US11474943B2 (en) | 2018-12-21 | 2022-10-18 | Home Box Office, Inc. | Preloaded content selection graph for rapid retrieval |
US11474974B2 (en) | 2018-12-21 | 2022-10-18 | Home Box Office, Inc. | Coordinator for preloading time-based content selection graphs |
US11829294B2 (en) | 2018-12-21 | 2023-11-28 | Home Box Office, Inc. | Preloaded content selection graph generation |
US11475092B2 (en) * | 2018-12-21 | 2022-10-18 | Home Box Office, Inc. | Preloaded content selection graph validation |
CN109781003B (zh) * | 2019-02-11 | 2020-10-09 | 华侨大学 | 一种结构光视觉系统的下一最佳测量位姿确定方法 |
CN114925659B (zh) * | 2022-05-18 | 2023-04-28 | 电子科技大学 | 动态宽度最大化解码方法、文本生成方法及存储介质 |
CN116955613B (zh) * | 2023-06-12 | 2024-02-27 | 广州数说故事信息科技有限公司 | 一种基于研报数据和大语言模型生成产品概念的方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5020112A (en) | 1989-10-31 | 1991-05-28 | At&T Bell Laboratories | Image recognition method using two-dimensional stochastic grammars |
US5199077A (en) | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5526444A (en) | 1991-12-10 | 1996-06-11 | Xerox Corporation | Document image decoding using modified branch-and-bound methods |
US5321773A (en) | 1991-12-10 | 1994-06-14 | Xerox Corporation | Image recognition method using finite state networks |
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
US5689620A (en) | 1995-04-28 | 1997-11-18 | Xerox Corporation | Automatic training of character templates using a transcription and a two-dimensional image source model |
US5706364A (en) | 1995-04-28 | 1998-01-06 | Xerox Corporation | Method of producing character templates using unsegmented samples |
US5594809A (en) * | 1995-04-28 | 1997-01-14 | Xerox Corporation | Automatic training of character templates using a text line image, a text line transcription and a line image source model |
US5883986A (en) | 1995-06-02 | 1999-03-16 | Xerox Corporation | Method and system for automatic transcription correction |
US5933525A (en) * | 1996-04-10 | 1999-08-03 | Bbn Corporation | Language-independent and segmentation-free optical character recognition system and method |
AU3286897A (en) * | 1996-05-23 | 1997-12-09 | United States Of America, Represented By The Secretary, Department Of Health And Human Services, The | System and method for combining multiple learning agents to produce a prediction method |
US6047251A (en) * | 1997-09-15 | 2000-04-04 | Caere Corporation | Automatic language identification system for multilingual optical character recognition |
US6112021A (en) * | 1997-12-19 | 2000-08-29 | Mitsubishi Electric Information Technology Center America, Inc, (Ita) | Markov model discriminator using negative examples |
-
2000
- 2000-05-12 US US09/570,730 patent/US6678415B1/en not_active Expired - Lifetime
-
2001
- 2001-05-01 JP JP2001134011A patent/JP4594551B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6678415B1 (en) | 2004-01-13 |
JP2002032714A (ja) | 2002-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4594551B2 (ja) | 統合された確率的ランゲージ・モデルを用いたドキュメント画像復号化方法 | |
JP3585523B2 (ja) | テキスト状画像認識方法 | |
JP4624593B2 (ja) | 文書画像復号方法 | |
JP3986531B2 (ja) | 形態素解析装置及び形態素解析プログラム | |
JPH0728949A (ja) | 筆跡認識装置及び方法 | |
JP2006031228A (ja) | 形態素解析装置、方法及びプログラム | |
US20090208112A1 (en) | Pattern recognition method, and storage medium which stores pattern recognition program | |
JPH07319924A (ja) | 手書き電子文書のインデックス付けおよび探索方法 | |
US6697769B1 (en) | Method and apparatus for fast machine training | |
CN111462751A (zh) | 解码语音数据的方法、装置、计算机设备和存储介质 | |
Shi et al. | Incremental sampling without replacement for sequence models | |
JP3428554B2 (ja) | 意味ネットワーク自動作成装置及びコンピュータ可読記録媒体 | |
US20080059149A1 (en) | Mapping of semantic tags to phases for grammar generation | |
US8208685B2 (en) | Word recognition method and word recognition program | |
JP2019204214A (ja) | 学習装置、学習方法、プログラム及び推定装置 | |
JP5709179B2 (ja) | 隠れマルコフモデルの推定方法,推定装置および推定プログラム | |
JP5252596B2 (ja) | 文字認識装置、文字認識方法及びプログラム | |
CN116167446B (zh) | 量子计算处理方法、装置及电子设备 | |
JP2022103676A (ja) | 情報処理装置、情報処理方法、プログラム | |
CN110728359A (zh) | 搜索模型结构的方法、装置、设备和存储介质 | |
KR101839121B1 (ko) | 사용자 질의 교정 시스템 및 방법 | |
JP2004078955A (ja) | 文書イメージデコードシステムおよび方法 | |
JP2000137766A (ja) | 単語認識装置および方法 | |
JP2003108187A (ja) | 類似性評価方法及び類似性評価プログラム | |
JP2004078954A (ja) | 文書イメージデコードシステムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080428 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100714 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100824 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100917 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130924 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4594551 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |