JP2002007966A - 文書画像復号方法 - Google Patents

文書画像復号方法

Info

Publication number
JP2002007966A
JP2002007966A JP2001130954A JP2001130954A JP2002007966A JP 2002007966 A JP2002007966 A JP 2002007966A JP 2001130954 A JP2001130954 A JP 2001130954A JP 2001130954 A JP2001130954 A JP 2001130954A JP 2002007966 A JP2002007966 A JP 2002007966A
Authority
JP
Japan
Prior art keywords
template
image
column
character
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001130954A
Other languages
English (en)
Other versions
JP4624593B2 (ja
Inventor
P Minka Thomas
ピー ミンカ トーマス
S Bloomberg Dan
エス ブルームバーグ ダン
Ashok C Popat
シー ポパット アショク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2002007966A publication Critical patent/JP2002007966A/ja
Application granted granted Critical
Publication of JP4624593B2 publication Critical patent/JP4624593B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 確率的有限状態ネットワークを用いて文書画
像レイアウトをモデル化するテキスト認識システムにお
いて、テキスト行復号の計算効率を改善する。 【解決手段】 復号処理における実テンプレート画像と
観測画像との間での一致度を求める実スコア計算を、列
ベースの(すなわち一次元)発見的スコアの計算に置き
換える。この場合、観測画像21の各画素列(縦列)毎
に黒画素数を求め、その黒画素数の1次元のアレイ42
を生成し、テンプレートにも同様の列毎の黒画素数のア
レイを生成する。そして、観測画像のアレイ42とテン
プレートのアレイとのマッチング処理により、列ベース
の発見的スコアを求める。この発見的スコアは、従来方
式で求められる実スコアの真の上界となるので、テキス
ト行復号時に実スコアの代わりに使用できる。テンプレ
ートとしては、バイレベル(2値)のものもマルチレベ
ルのものも使用できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、全般的には、マル
コフ情報源などの確率的有限状態ネットワークを使用す
る画像復号認識技法に関する。特に、本発明は、テキス
ト行画像を復号する際にダイナミック・プログラミング
(動的計画法)操作で使用できる発見的(ヒューリステ
ィック)スコアを作成する技法を提供する。
【0002】
【従来の技術】米国特許第5321773号は、従来の
通信理論に基づく文書画像復号(以下、DIDと略す。
DIDは、Document Image Decodingの略)と呼ばれる
文書認識技法を開示している。DIDモデルは、確率的
メッセージ情報源、イメージャ、チャネル、およびデコ
ーダを含む。確率的メッセージ情報源は、従来の確率分
布に従って1組の候補文字列から有限文字列Mを選択す
る。イメージャは、メッセージを理想的なバイナリ画像
Qに変換する。チャネル・モデルは、スキュー(斜め歪
み)、ブラー(ぼけ)、付加的ノイズ(additive nois
e)など、印刷および走査による歪みを導入することに
よって、理想画像を観測画像Zにマッピングする。最後
に、デコーダは、観測画像Zを受信し、ア・ポステオリ
(後験的)な(MAP)決定基準に従って最初のメッセ
ージの推定値M^(Mの上に“^”(ハット)が乗った
ものと解されたい。文字コードの制限上、このように表
記する)を作成する。最初のメッセージの推定値M^
は、観測されるメッセージZのトランスクリプション
(転写)と呼ばれることが多い。
【0003】メッセージ情報源およびイメージャの機能
が組み合わされることで、マルコフ情報源として実現さ
れる単一の合成情報源となる。マルコフ情報源とは、正
規文法として特定のクラスの文書画像に生じる二次元
(2D)空間レイアウト(配置)および画像構成要素群
の全体を記述する確率論的有限状態オートマトンであ
る。一般的なマルコフ情報源モデルは、1組の節(ノー
ド)と、各節への1組の有向遷移とを含む有限状態ネッ
トワークを備える。2つの顕著な節はそれぞれ、初期状
態および最終状態を示す。画像はネットワーク内を通る
道(パス)として表わされる。ネットワーク内の任意の
先行要素状態と後続要素状態との間の有向遷移は、1組
の属性に関連付けされている。これら属性の組には、遷
移確率と、英語の記号または文字を識別するためのメッ
セージ文字列と、ページ画像で使用されるフォントで表
された文字テンプレートと、道が次に取り出す画像内の
(x,y)位置を示すベクトル変位を含む。このベクト
ル変位は、(wt,0)とラベル付けされる。変位
(wt,0)は、テンプレートの「設定幅」である水平
距離wを示す。テンプレートの設定幅は、この遷移に関
連するテンプレートが画像内で占有するテキスト行上の
水平(x方向)距離を指定する。
【0004】米国特許第5321773号は、観測画像
の復号処理において、初期状態から最終状態へと、モデ
ルの節および画像平面の座標によってインデックスが付
された三次元(3D)復号トレリス(菱形)・データ構
造を通して最良の(MAP)道を見つけることを開示し
ている。復号では、二次元形式のビタビ(ダイナミック
・プログラミング:動的計画法)アルゴリズムを使用し
て、画像平面の各点で、再帰的に定義された1組の尤度
関数が算出される。ビタビ手順の前進フェーズでは、画
像内の各画素位置ごとに、各文字テンプレートを印刷す
ることで得られる道群の中から、すでに算出されている
すべての位置に到着するための最も可能性の高い道群を
使用することによって、その位置に到着する可能性の最
も高い道が識別される。
【0005】最良の道の尤度を算出する場合、ある確率
を有するある画像を予測するチャネル・モデルから導か
れた確率分布が使用される。観測画像Zを復号する場
合、画像平面の各点で、再帰的に定義された1組の尤度
関数が算出される。各々の節の計算では、遷移のテンプ
レートが、画像点の近傍で、復号すべき画像の領域に対
応している確率が算出される。このテンプレート画像確
率は、画像点での特定のテンプレートと画像領域との一
致(整合性)の度合いを示すテンプレート画像一致スコ
アによって表される。画像モデルを表す復号トレリスで
は、テンプレート画像一致スコアはトレリス内の枝をラ
ベル付けする。
【0006】最良の道上のソース・モデル内の開始節か
ら終了節までの各節間の遷移に関連する文字テンプレー
トの系列は、復号画像のメッセージまたはトランスクリ
プションを形成するように連結される。
【0007】モデルによって定義される画像のサイズお
よび複雑さ(すなわち、遷移の数)と、マッチング処理
すべきテンプレートの数は計算時間の主要な因子であ
る。
【0008】計算時間に影響を与える重要な因子は実テ
ンプレート画像スコアの計算である。ここで、各テンプ
レートは、当該画像中の各画像位置に整合している。
【0009】復号効率を改善する必要があることを認識
した米国特許第5526444号(以下、ICP特許第
5526444号と呼ぶ)は、各テキスト行を復号する
のに必要な時間を削減する繰り返し完全パス(Iter
ated CompletePath:以下、ICPと
略す)と呼ばれる発見的アルゴリズムを開示する。復号
時には、ICPによって、各節への削減された1組の遷
移群のみに対して水平モデルが実行される(すなわち、
実テンプレート画像一致スコアが算出される)。ここ
で、各節への削減された遷移の数は、その節へのすべて
の可能な遷移の数よりもかなり小さい。
【0010】ICPは、画素の水平行の大部分の全ビタ
ビ復号を、その行のスコアの単純上界の計算で置き換え
る。この上界スコアは発見的関数から導かれる。したが
って、水平テキスト行が生じる可能性があることを垂直
モデルが示す画像の各領域ごとに、各行がテキスト・ベ
ースラインであるかのようにこの領域内の各画素行に対
して全ビタビ復号を実行するのではなく、まず、各水平
行ごとに発見的スコアを導く。
【0011】
【発明が解決しようとする課題】ICPアルゴリズムは
全体的な復号時間を顕著に改善したが、DID法を使用
した単一列(単一コラム)のテキストだけの単一のペー
ジの文書認識は依然として商業的に実際的なものではな
かった。復号時間は、発見的スコアの代わりに実スコア
が算出されるときに、個々の水平テキスト行に対して全
ビタビ復号を実行することに費やされる。ICP特許第
5526444号で開示された技術的進歩によって実現
される改良は、顕著なものであるが、個々のテキスト行
の効率的な復号に対処するものではなかった。個々のテ
キスト行の復号時間をさらに短縮することが望ましい。
【0012】
【課題を解決するための手段】本発明の技法は、実スコ
アよりも計算するのが簡単であると共に復号計算におい
て実スコアを十分正確に表す発見的スコアを使用するこ
とで、テキスト行の全ビタビ復号中に実テンプレート画
像一致スコアを算出することを不要にすることができる
という観測に基づくものである。
【0013】本発明は、列画素カウントに基づく新しい
上界発見的テンプレート画像一致スコアを算出し、画像
情報源としての確率的有限状態ネットワークと、復号を
実行するためのビタビ手順などの動的計画法(ダイナミ
ック・プログラミング)演算とを使用する任意の全ペー
ジ・デコーダまたは全ライン・デコーダでのテキスト行
の復号時に、この新しいヒューリスティックを使用する
技法を導入する。
【0014】本発明のスコアリング・ヒューリステッィ
クには2つの重要な利点がある。発見的(ヒューリステ
ィック)列ベースのスコアリング(スコア付け演算)に
より、文書画像モデルを表す確率的有限状態ネットワー
ク内の行内節の真の上界スコアが作成され、これにより
行復号時にこの発見的スコアを使用することにより、算
出する必要のある実テンプレート画像一致スコアの数
を、行復号の精度を犠牲にすることなく減らすことがで
きる。
【0015】また、この発見的(ヒューリスティック)
スコアを使用すると、実テンプレート画像スコアの二次
元計算は主として、より簡単な、この発見的スコアの一
次元計算になる。列ベースの発見的スコアのより簡単で
あるが正確な計算により、従来の復号方法が必要とす
る、計算コストのかかる非常に多数の実テンプレート画
像スコアがこの発見的スコアで置き換えられるので、計
算効率が顕著に向上する。列ベースの発見的スコアは、
文字テンプレートの列内のON画像および画像の列内の
ON画像の数に関する情報を表す一次元データ構造を使
用して算出される。
【0016】
【発明の実施の形態】この実施の形態の技法は、ある定
義を考慮したときに最も良く理解される。すなわち、
「グリフ」という用語は、本明細書では、画像内に実現
される文字の単一のインスタンス、すなわち例を指す。
【0017】この実施の形態では、文字テンプレート・
データ構造のライブラリが使用される。テンプレート2
1(図2)などの各テンプレート・データ構造は、文字
のビットマップ画像を示す。文字には、その文字を一意
に識別するための文字ラベルが対応づけられている。
【0018】テンプレートは、寸法m×nの画素群を有
し、さらに、テンプレート21ではクロスバー(十字
形)によって示された原点と、文字の設定幅wとを有す
る。各テンプレートのテンプレート原点は、各テンプレ
ート内の同じ位置に指定されている。図2では文字テン
プレートが2D画素アレイとして示されているが、これ
はテンプレートを表すことのできるデータ構造の一つの
タイプである。テンプレートは、垂直ストローク、ジョ
イン(join:接合部)、アセンダ(英文組版で“x”よ
り上に伸びた部分)、ディセンダ(英文組版でベースラ
インより下に伸びた部分)、湾曲部などのようなビット
マップ文字の各断片を連結することによって作成する
か、あるいは完全な文字テンプレートを表す明示的な2
D画素アレイを出力として作成する形式モデルによって
表すこともできる。
【0019】ビットマップ文字テンプレートの「サポー
ト」または「前景」は、テンプレートが背景と異なる1
組の画素位置群である。白い背景上に黒いテキストを含
む文書では、テンプレート・サポートは1組の黒い
(「ON」)テンプレート画素群である。文字テンプレ
ートは、黒以外の色の前景画素を有するテンプレートと
して定義することもでき、あるいは黒い背景上に白いテ
キストを示す「反転ビデオ」テンプレートであってもよ
い。
【0020】テンプレートのサポート領域および背景領
域は、いくつかの異なるレベルに分離し、それぞれの画
像発生確率を割り当てることができる。サポート領域お
よび背景領域が2つの異なるレベル(1つが黒い背景画
素のレベル、もう1つが白い背景画素のレベル)である
に分離されるテンプレートを、本明細書では「バイレベ
ル(bi-level)」テンプレートと呼ぶ。このテンプレー
トは、最大で2つの画素レベルを示す。バイレベル・テ
ンプレートは、いくつかの黒い前景画素に関してそれぞ
れの異なる発生確率を示す、2つ以上の黒前景画素レベ
ルを含むマルチレベル・テンプレートと区別することが
できる。
【0021】本発明では、発見的スコアを算出するため
に特殊なデータ構造、すなわち、上界発見的スコアを効
率的に算出することを可能にする文字テンプレート・デ
ータ構造および画像テキスト行データ構造から導かれ
る、より簡単な一次元サロゲート(代用物)が作成され
る。このようなサロゲート・データ構造は「テンプレー
ト・アナログ・データ」構造および「画像アナログデー
タ」構造と呼ばれ、各データ構造は、それぞれの情報源
データ構造に存在する前景列画素カウント値に関する情
報を示す。
【0022】図1の演算200によって、テンプレート
・ライブラリ20内の各バイレベル・テンプレートまた
は標準テンプレートごとに1組の一次元(1D)1×m
テンプレート列アレイ(配列)群40が作成される。テ
ンプレート列アレイ内の各データ項目は、テンプレート
内の1列の画素に対応し、そのテンプレート画素列内の
ON画素の数を示す。図2は、テンプレート・ライブラ
リ内のテンプレート21、22、23、および24のテ
ンプレート列アレイ群40の作成を概略的に示してい
る。この例では、アレイ群40は、個々のテンプレート
21〜24にそれぞれ対応するテンプレート列アレイ4
2,44,46,48を含んでいる。テンプレート列ア
レイ群40を作成するプロセスの擬似コードは以下のと
おりである。
【0023】 [コード1] *1Dテンプレート画素カウント・アレイを算出 *k=テンプレートqの総数 *m=画素列群にわたるテンプレート幅 *n=画素行群にわたるテンプレート高さ i={1l,...k}について実行開始 j={1,...m}について実行開始 l={1,...n}について実行開始 テンプレート列アレイi(j)=テンプレート列アレイi(j)+qi(j,l) 終了 終了 終了
【0024】演算300では、観測画像Zと呼ばれる、
復号すべき画像内の幅Wの画像領域を入力として使用し
て、1×W画像テキスト行列アレイ60が作成される。
図3は、入力画像の画像領域50に関する画像テキスト
行列アレイ60の作成を概略的に示している。画像テキ
スト行列アレイ60は、以下では画像アレイ60と呼ば
れ、テキストのベースライン上にあるか、あるいはその
近傍にあるとみなされる画像Z内のある水平画素行yに
対して作成される。画像アレイ60内の各データ項目
は、Z内の画像幅分の画像領域の中の画素列に対応し、
その画素列内のON画素の数を示す。画像領域50は寸
法n×Wを有し、この場合、nはテンプレート・ライブ
ラリ内のテンプレートの高さを示す。画像アレイ60を
作成するプロセスの擬コードは以下のとおりである。
【0025】 [コード2] *画像Z内の行yに関して1D画像領域列画素カウントアレイICを算出 *y=1Dアレイについての画像Z内の水平行 *w=画素列群内の行yの幅 *n=画素行群内のテンプレート高さ j={1,...w}について実行開始 l={y−(n−1),...y}について実行開始 ICy(j)=ICy(j)+Z(j,l) 終了 終了
【0026】復号は、テンプレート列アレイ40および
画像アレイ60を使用して作成された発見的スコアを用
いて開始し、実テンプレート画像一致スコアは必要に応
じて算出される。また、発見的スコアは、画像ベースラ
インの周りにテンプレートを垂直に位置決めした場合の
いかなる場合にも有効である。
【0027】発見的列ベース・スコアリングを使用した
テキスト行の復号は、実テンプレート画像一致スコアで
はなく発見的列ベース・スコアを使用してテキスト行を
通る最良の道を識別することによって、ビタビ復号手順
を実行することから成る。ビタビ・デコーダは、テンプ
レート・ライブラリ内のすべてのテンプレートに画素位
置xiで観測画像との最良の一致を示す水平テキスト行
内の各画素位置xiごとのスコアを必要とする。列ベー
スの発見的スコアは、テキスト行復号が開始される前に
算出される。図1の演算400では、画像アレイ60お
よび1組のテンプレート列アレイ群40を入力として使
用して列ベースの発見的スコア70が作成される。発見
的スコア・アレイ70はk×wのアレイであり、この場
合、kは情報源モデル内のテンプレートの総数であり、
wは、復号中の画像テキスト行またはその一部の幅であ
る。列ベースの発見的スコアは、画像テキスト行のあら
ゆる画像位置iで、あらゆるテンプレートについて算出
され、すべてのスコアは、動的計画法(ダイナミック・
プログラミング)復号演算で使用できるように記憶され
る。
【0028】図4は、発見的スコア70がどのように作
成されるかを概略的に示している。画像アレイ60内の
各アレイ要素ICiは、テキスト行画像内の画素位置xi
に関する列ベースの画素カウントを表す。1組のk個の
テンプレート列アレイ群40内の各テンプレート列アレ
イ45は、その各エントリ43が当該テンプレート内の
その列に関する列ベースの画素カウントを表す1×mア
レイである。演算400では、復号中のテキスト行画像
内の各画素位置での各テンプレートごとに1つのスコ
ア、合計k×w個のスコアが作成される。図4は、k×
w発見的スコア・アレイ70に記憶されたこの1組の発
見的スコアを示している。テキスト行画像内の画素位置
iの発見的スコアを示すアレイ70内のスコアSk(i)
を作成する場合、各テンプレート列アレイ内の各エント
リが、文字テンプレートの幅にわたって、アレイ要素I
1から始まる画像アレイ60内の連続する同じ数のエ
ントリと1つずつ比較される。図4は、双方向矢印を含
む線を使用してこの比較を表している。比較された各エ
ントリ対の最小値(すなわち小さい方の値)が取り出さ
れ、そのテンプレートのスコアを示す連続和に加えられ
る。最小値のすべての和から得た最終テンプレート・ス
コアがスコア・アレイ70内のエントリSk(i)になる。
1組のアレイ群40内の各テンプレート列アレイは、同
様に、エントリICiから始まる画像アレイ60内の1
組のアレイ・エントリと比較される。上述の演算400
の擬似コードは以下のとおりである。
【0029】 [コード3] *1×mテンプレート列アレイを使用して1×w画像列アレイIC *内の各エントリごとに発見的スコアを算出 *w=(行y内の画素列の数を表す)画像列アレイ内のエントリの数 *k=テンプレート列アレイの総数 *m=テンプレート列アレイ内のエントリの数 *k×wスコア・アレイをゼロに初期設定 q={1,...k}について実行開始 i={1,...w}について実行開始 j={1,...m}について実行開始 スコア(q,i)=スコア(q,i)+min(テンプレート列アレイ(q,j),IC(i+ (j-l) ) 終了 終了 終了
【0030】発見的スコアを算出する際、特定の比較演
算に関して短すぎるか、あるいは長過ぎるデータ構造
は、計算を容易にするための必要に応じて、ゼロでパデ
ィングする(埋める)ことによって必要な長さに延ばさ
れるか、あるいは必要な長さに打ち切られる。列ベース
の発見的スコアは、実テンプレート画像一致スコアの真
の上界スコアである。実テンプレート画像一致スコアで
は、各テンプレート列の寄与は、テンプレート画像AN
D演算の後にONになる列内の画素の数である。AND
演算によって、このONテンプレート列画素数が、テン
プレート列内のON画素の数、すなわち突き合わせてい
る画像列内のON画素の数を超えることはなくなる。し
たがって、テンプレート内のON列画素の数と画像内の
ON列画素の数との間での最小値(小さい方)は、テン
プレートと画像の間の実一致スコアの真の上界である。
【0031】列ベースの発見的スコアリングは、マルチ
レベル・テンプレートを使用するシステムでのテキスト
行復号に適用することができる。マルチレベル・テンプ
レートを使用した復号は、バイレベル・テンプレートま
たは標準テンプレートを使用した場合よりも正確なトラ
ンスクリプション結果を与える。
【0032】マルチレベル・テンプレート620(図
5)は、前景画素および背景画素を観測画像内のそれら
の発生確率に従ってそれぞれの異なる画素グループに分
類する。各画素グループが、テンプレート・レベルであ
る。図5は、一例として5レベルのテンプレートを、5
つの矩形を積み重ねた集まりとして示している。ここで
各矩形はそれぞれ、寸法m×nを有し、指定された画素
を含む1つのテンプレート・レベルを示す。
【0033】単一レベルのテンプレートの各列内の黒画
素および白画素は、マルチレベル・テンプレートでは、
複数のテンプレート・レベルにわたって分散する。1つ
の画素が複数のレベルに属することはできず、各画素は
あるレベルにだけ存在し、したがって、各画素は1つの
レベルにだけ、1度だけ現れる。
【0034】テンプレート・レベルは3種類のうちの1
つとして指定することができる。第1の種類である黒画
素テンプレート・レベルは、文字画像内の黒画素のう
ち、背景画素であるよりも前景画素(黒)である方の確
率が高い画素のセットを含み、実テンプレート画像一致
スコアの算出時に正の重みが関連付けされる。テンプレ
ート・レベル621、622、623は、各レベルにお
いてラベル631「bl」(blackの略)で示されてい
るように黒画素テンプレートとして指定されている。第
2の種類である白画素テンプレート・レベルは、文字画
像内の白画素のうち、背景画素であるよりも白画素であ
る確率の方が高い画素のセットを含み、負の重みが関連
付けされる。図5のテンプレート620は、ラベル63
3「wh」で示(whiteの略)されているように1つの
白画素テンプレート・レベル624を含む。第3の種類
背景テンプレート・レベルは、文字画像の「サポート」
のいかなる部分も形成しない背景画素のセットである。
背景テンプレート・レベルはテンプレート画像一致スコ
アリング・プロセスに関与しない。図5のテンプレート
・レベル625は、ラベル634「bk」(background
の略)で示されているように背景画素テンプレートとし
て指定されている。一般に、マルチレベル・テンプレー
トは、少なくとも2つの黒前景画素レベルおよび1つの
背景中立画素レベルを含む。
【0035】またマルチレベル文字テンプレートは、各
レベル毎に関連づけて、観測画像内の文字画像に現れる
当該レベルの画素群の確率を示す確率または重みを有す
る。図5は、レベルの番号を示す下付き文字を有するw
で指定されたボックスとして確率650を示している。
【0036】nレベルのマルチレベル・テンプレートの
実スコアを算出するには、黒及び白のテンプレート・レ
ベル群のそれぞれと画像との(n−1)回のマッチング
処理が必要があり、この計算において中立(背景)レベ
ルは使用されない。図5の5レベル・テンプレート62
0の実スコアを算出するには、テンプレートと画像の4
回のテンプレート画像マッチング計算と、各テンプレー
ト・レベルでの各和の適切な重み付け(正または負)と
が必要である。
【0037】白画素テンプレート・レベルは、その確率
に対応する負の重みを有し、これにより、実テンプレー
ト画像一致スコアを算出する際にこのレベルを使用した
場合、一致スコアが低くなるか、あるいはスコアに対し
て影響がないかのいずれかである。
【0038】マルチレベル・テンプレートの発見的スコ
アを算出するプロセスは、観測画像内のON画素をテン
プレートの様々なレベルに割り当てることを暗黙的に考
慮して構成されている。マルチレベル・テンプレートを
使用した発見的スコアも列ベースのスコアである。スコ
アリング・プロセスは、計算効率が高いと共に、発見的
スコアを真の上界スコアになるように最大にする。
【0039】テンプレート620(図5)は、テンプレ
ート列内に総数でn個のON画素およびOFF画素を含
む。この場合、nは列の高さを画素単位で表した場合の
値である。このn個の画素は、様々なテンプレート・レ
ベルに割り当てられるか、すなわちこれらのテンプレー
ト・レベル間で分散される。
【0040】所与のテンプレートに関する列ベースのテ
ンプレート画像発見的スコアは、観測画像列(観測画像
内の列)内のON画素が、最高の確率を有する黒テンプ
レート・レベル列群に割り当てられたときに最大にな
る。これは、それら各黒テンプレート・レベル列ごとに
その最大ON画素数に達するまでである。次が中立背景
レベルに割り当てられたときであり最後が白テンプレー
ト・レベルに割り当てられたときである。このようにし
て各テンプレート・レベルの各列に画像列画素群を割り
当てることを、テンプレート・レベルの「充填(fil
l)」と言うことができる。発見的スコアは、観測画像
列内のON画素が黒テンプレート・レベルに割り当てら
れた黒画素を充填したときに高くなり、観測画像列内の
ON画素が、白テンプレート・レベルに割り当てられた
白画素を充填したときに低くなる。
【0041】
【表1】
【0042】表1は、図5の5レベル・テンプレート6
20を使用した、テンプレート列内の画素と画像列内の
画素との一致に関する列ベースの発見的スコアを算出す
るために使用されるサンプル・データを示している。表
1は、確率値の降順に配列された5つのテンプレート・
レベル620を示している。表1において、背景テンプ
レート・レベル625の確率の絶対値が、白テンプレー
ト・レベル624の確率の絶対値よりも高く、したがっ
て画素割付けの実行時に先に「充填される」ので、レベ
ル625がレベル624の前に位置することに留意され
たい。テンプレート620は、この例では画素高さが2
5画素であるものと仮定している。各テンプレート・レ
ベルにはいくつかのON画素またはOFF画素が割り当
てられる。たとえば、テンプレート・レベル623は9
つのON画素を含む。画素列黒画素カウント・データの
3つの例が表1に示されている。第1の例では、観測画
像列内に15個ないし21個の黒画素がある。これらの
黒画素は、合計で15個の黒画素によって黒テンプレー
ト・レベル621、622、および623を完全に充填
する。最大で6個の、観測画像列内の他の黒画素は、背
景レベル625を充填する。この観測画像列の発見的ス
コアは以下のように算出される。
【0043】 [数1] Score(15...21)=2*w621+4*w622+9*w623 (1) 背景レベル625は発見的スコアを算出する際には使用
されず、観測画像列内の黒画素16から21は発見的ス
コアに対して無効である。
【0044】表1の第2の観測画像の例において、23
個の黒画素は、合計で15個の黒画素によって黒テンプ
レート・レベル621、622、および623を充填す
る。観測画像列内の他の6個の黒画素は背景レベル62
5を完全に充填する。残りの2個の黒画素は白テンプレ
ート・レベル624を部分的に充填する。この観測画像
列の発見的スコアは以下のように算出される。
【0045】 [数2] Score(23)=2*w621+4*w622+9*w623+2*w624(ただしw624 <0) (2)
【0046】11個の黒画素を有する、表1内の第3の
観測画像列の例の発見的スコアは以下のように算出され
る。
【0047】 [数3] Score(11)=2*w621+4*w622+5*623 (3) 上述の、列ベースの発見的スコアを算出する擬似コード
は以下のとおりである。
【0048】 [コード4] *単一のテンプレート・スコア・テーブル内の単一のエントリを算出 bp:=画像列内の黒画素の数 wp:=画像列内の白画素の数 *黒テンプレート・レベルについて重みの降順にループ処理 p:=min(bp,テンプレート・レベル内の黒画素数) スコア:=スコア+p×(レベル重み) bp:=bp−p *白テンプレート・レベルについて重みの大きさの降順にループ処理 p:=(テンプレート・レベル内の白画素数)−wp p>0ならば #十分な白画素がない;p個を黒画素にマッチングさせなければならない スコア:=スコア+p×(レベル重み) wp:=0 そうでないならば wp:=−p *スコアを返す。
【0049】観測画像列内で取り得るすべての黒画素数
について、観測画像列とマルチレベル・テンプレート内
の列との一致に関する列ベースの発見的スコアを事前に
算出し、テーブルに格納しておくことができ、この場
合、観測画像列内の黒画素数は、そのテーブルの索引イ
ンデックスとして働く。上記の擬似コードに示されたプ
ロセスに従って算出されるスコアから成る個の1×nテ
ーブルの組が、テンプレート・ライブラリ内の各m×n
マルチレベル・テンプレートごとに作成される。
【0050】確率論的有限状態ネットワークがマルチレ
ベル・テンプレートを用いるときのテキスト行のデコー
ドに必要な発見的スコアの計算のための擬似コードを以
下に示す。
【0051】 [コード5] *複数組のテンプレート・スコア・テーブル群を使用して1×w画像列 *アレイIC内の各エントリについての発見的スコアを算出 *w=(行y内の画素列群の数を表す)画像列アレイ内のエントリの数 *k=1テンプレート当たり1組として、テンプレート・スコア・テーブル *の組の総数 *m=各マルチレベル・テンプレートごとのn×1テーブルの数 *k×wスコア・アレイをゼロに初期化 q={1,...k}について実行開始 i={1,...w}について実行開始 j={1,...m}について実行開始 スコア(q,i)=スコア(q,i)+テンプレート・スコア・テーブルq(IC(i+(j-1) )) 終了 終了 終了
【0052】この擬似コードは、k×w個の出力スコア
・アレイを作成する。この場合、kは情報源モデル内の
テンプレートの総数であり、wは、復号中の画像テキス
ト行またはその一部の幅である。
【0053】さらなる効率化を実現するに、テンプレー
ト列アレイと画像列アレイとの間で2分の1の比較およ
び加算しか必要とされない場合に、単一の発見的スコア
の計算を係数2で圧縮する(2分の1にする)ことがで
きる。これは、2つの隣接する画素列内の前景画素の和
である前景画素カウントを含む画像列アレイ群およびテ
ンプレート列アレイ群を作成することによって実現する
ことができる。
【0054】図6は、テンプレート列アレイ46内の2
つの列画素カウントから成る群を合計して単一の組合せ
列画素カウントを作成する方法を示す、1Dテンプレー
ト画素和データ構造86を概略的に示している。データ
構造86は、データ構造46と同じ1×mデータ構造で
あるように示されている。一つの実装では、図2のテン
プレート列アレイがまず算出され、次いで、隣接する列
前景画素のカウントが合計され、テンプレート列アレイ
・データ構造のエントリ群の2分の1に(すなわち、1
エントリおきに)格納される。もちろん他の実装方式も
可能である。
【0055】1D画像画素和データ構造を算出する場
合、画像アレイ60内のあらゆる2つの隣接する列画素
カウントが合計され単一の組合せ列画素カウントが作成
される。画像画素和データ構造内の各組合せカウント
は、画像アレイ60内の互いに隣接する列画素カウント
同士数の和を表し、ここで和をとる列画素カウントのペ
アは、隣接するペアと一部が重なる。
【0056】列ベースの発見的スコアを作成する場合、
テンプレート画素和データ構造内の組合せ列画素カウン
トが画像画素和データ構造内の対応する組合せ画素カウ
ント和と突き合され、最小画素カウント(小さい方のカ
ウント)が求められる。次いで、これらの最小値が合計
されスコアが作成される。
【0057】テキスト行画像内のあらゆる画像位置iで
の発見的スコアの計算を不要にすることによって、計算
をさらに削減することができる。ある画像位置の上界発
見的スコアを隣接する次の画像位置の上界発見的スコア
として使用することによって、他の上界発見的スコアを
算出することができる。
【0058】より少ない数の計算によって発見的スコア
を作成する上述の概念およびプロセスは、マルチレベル
・テンプレートのスコアの作成に適用することもでき
る。
【0059】ビタビ手順を列ベースの発見的スコアリン
グと共に使用してテキスト行画像を復号する主要な関数
を図7のフローチャートに示す。発見的スコアを使用し
た復号では通常、数回の反復が必要である。復号の反復
により、ボックス510で、テキスト行を通る節の最良
の道が推定される。この最良の道での節同士の間の遷移
は、現時点でのテキスト行の推定メッセージ(トランス
クリプション)を含む文字ラベル群を示す。次のビタビ
反復が開始される前に、ボックス530で、推定された
最良の道の一部として識別された各節について実テンプ
レート画像一致スコアが算出される。このプロセスを最
良の道の再スコアリングと呼ぶ。
【0060】次いで、推定された最良の道の各節の再ス
コアリングが完了すると、ボックス540で、各節毎
に、その節のx位置でのいくつかの異なる垂直(y)位
置において、推定された最良の道の一部として識別され
た各テンプレートがテキスト行画像と突き合される。各
y画像位置ごとに実テンプレート画像一致スコアが作成
される。各テンプレートに関して算出される最大実スコ
アが各節のy画像位置を示す。推定された最良の道に沿
った各節位置での単一のテンプレートの実スコアが算出
され、ベースラインの最良の位置が判定される。
【0061】次いで、ボックス510で、すでに推定さ
れている最良の道の再スコアリングされた節の実スコア
を使用すると共に、他のすべての画像位置に列ベースの
発見的スコアを使用して、テキスト行のビタビ復号が繰
り返される。最良の道に沿ったすべての節が再スコアリ
ングされるか、あるいは現在のビタビ位置が前の反復で
見つかった最良の道と同じになったことがボックス54
8のテストで示されるまで、テキスト行の復号が反復さ
れる。
【0062】実験結果は、フルページ(2D)ビタビ・
デコーダにおける列ベースの発見的スコアリングを使用
したテキスト行の復号の場合、全体の計算時間が係数4
0で圧縮されることを示している。この利得は2つの部
分において得られる。第1に、実験結果は、主として、
行復号のために実スコアではなく発見的スコアを算出す
ることによる時間短縮のために、単一のテキスト行を復
号するのに必要な計算時間が係数8だけ短縮されること
を示している。第2に、列ベースの発見的スコアリング
は、5つの垂直ベースライン位置について実テンプレー
ト画像一致スコアを作成することを不要にする。各ベー
スライン位置について実テンプレート画像一致スコアを
求めることは、フルページ(2D)ビタビ復号では、実
ベースラインが不明であるために必要になるものである
が、これが本実施形態の手法では不要になる。列ベース
の発見的スコアリングでは、ベースラインの最良の垂直
位置の上界が自動的に与えられる。
【0063】本実施形態の手法は、図8のプロセッサ制
御型マシン100と共通の構成要素、特性、および構成
を有するあらゆるマシンで実現することができる。
【0064】マシン100は、本実施形態の手法を実施
するために特別に構成し最適化したものでもよいし、記
憶したコンピュータ・プログラムによって選択的に活動
化または再構成される汎用コンピュータを備えたもので
もよい。
【0065】マシン100の物理的構成要素を実際に接
続する方法には、いくつかまたはすべての構成要素間の
ハード配線物理接続と、リモート通信網またはローカル
通信網ならびに赤外線接続および無線接続などによる、
有線通信設備または無線通信設備を介した接続を含める
ことができる。
【0066】マシン100は、例えば、図1の演算20
0、300、400、および500を実行して、テンプ
レート列アレイおよび画像領域列アレイを使用した列ベ
ースの発見的スコアを算出し、この発見的スコアを使用
してテキスト行画像復号を実行するように構成される。
あるいは、マシン100は、マルチレベル・テンプレー
トについて作成されたテンプレート・スコア・テーブル
を使用して列ベースの発見的スコアを算出する演算を行
うように構成することができる。入力観測画像は、信号
源158、すなわちたとえば、画像スキャナやデジタル
・カメラなどの撮像装置、メモリ装置、通信チャネル、
データ・バス、演算を実行する他のプロセッサ、他の適
切なビットマップ画像信号源など、から与えることがで
きる。信号源158から与えられた入力画像は、入力回
路156を介してプロセッサ140に転送され、データ
・メモリ114に記憶することができる。マシン100
には、画像を表示できる従来型の表示装置(図示せ
ず)、または印刷装置を含めることもできるが、このこ
とは必須ではない。
【0067】プロセッサ140は、プログラム・メモリ
110にアクセスして命令を取り出し、この命令を実行
することによって動作する。マシン100が、図1に示
された演算を実行するように構成されている場合、プロ
グラム・メモリ110は、列ベースの発見的スコアリン
グを使用したテキスト行復号を実行するために図1の演
算500を実施するテキスト行復号命令を含む。プログ
ラム・メモリ110は、このような演算に関して、既に
例示した擬似コードで示された処理内容に従って、テン
プレート列アレイ40、画像アレイ60、および発見的
列ベース・スコア70を作成する命令サブルーチンを含
む。
【0068】プロセッサ140は、命令の実行時に、デ
ータ・メモリ114にアクセスし、演算を実行するのに
必要なデータを得るか、あるいは格納する。たとえば、
プロセッサ140は、計算済みの発見的スコア70をデ
ータ・メモリ114に格納する。
【0069】図8は、マシン100でソフトウェア・プ
ロダクト160を使用できることも示している。ソフト
ウェア・プロダクト160は、記憶媒体アクセス回路1
50からアクセスできるデータ記憶媒体170を含む。
ソフトウェア・プロダクト160は、データ記憶媒体1
70と、このプロダクトについて説明した適切な文書と
を含む収縮包装(シュリンクラップ)パッケージの形で
市販することができる。
【0070】記憶媒体アクセス回路150は、データ記
憶媒体170が、サーバなどリモートに位置する記憶装
置の一部として記憶されているときに、データ記憶媒体
170上の命令データにアクセスするために通信アクセ
ス・ソフトウェアおよび回路を含む。ソフトウェア・プ
ロダクト160は、リモートに位置する記憶装置から通
信設備を介してユーザに送信される、本実施形態の方法
を実施するための命令データを示すデータ・ストリー
ム、の形で市販するか、あるいはその他の方法でユーザ
によって利用できるようにすることができる。
【0071】データ記憶媒体170は、列ベースの発見
的スコアリングを使用したテキスト行復号が使用される
ときに実行できるようにプロセッサ140に供給される
図1の演算200、300、400、および500を実
行するための命令データ166および168、またはマ
ルチレベル・テンプレートに関する演算を実行するため
の命令データを記憶する。
【図面の簡単な説明】
【図1】 列ベースの発見的スコアリングを使用して画
像テキスト行を復号する復号演算を示すフローチャート
である。
【図2】 1組のテンプレートに関して作成された、一
次元列ベースの、1組のテンプレート画素カウント・ア
レイの概略図である。
【図3】 入力画像の水平画像領域に関して作成され
た、一次元列ベースのテンプレート画素カウント・アレ
イの概略図である。
【図4】 列ベースの発見的スコアを算出する方法を説
明するための概略図である。
【図5】 本発明の第2の実施形態で使用される種類の
マルチレベル文字テンプレートの概略図である。
【図6】 複数のテンプレート画素カウント列が合計さ
れる発見的スコアリングの変形例の概略図である。
【図7】 列ベースの発見的スコアリングが使用される
ときに画像テキスト行復号手順の変形例を示すフローチ
ャートである。
【図8】 本発明を実施できるように構成されたマシン
を示し、本発明に係るソフトウェア・プロダクトと、こ
のプロダクトを上記のマシンと共に使用する方法とをさ
らに示す簡略化されたブロック図である。
【符号の説明】
21,22,23,24 テンプレート、40 テンプ
レート列アレイ群、42,44,46,48 テンプレ
ート列アレイ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アショク シー ポパット アメリカ合衆国 カリフォルニア州 サン カルロス セダー ストリート 625 アパートメント ケイ Fターム(参考) 5B064 DA11 DC25 5L096 BA17 GA28 JA06 JA09

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 プロセッサ制御型マシンを用いてテキス
    ト行画像を復号する方法であって、前記マシンはプロセ
    ッサと、データを記憶するメモリ装置とを含み、前記メ
    モリ装置に記憶されているデータは、前記プロセッサが
    前記マシンを操作するために実行する命令データを含
    み、前記プロセッサは、前記メモリ装置に記憶されてい
    る命令データにアクセスしそれを実行するために前記メ
    モリ装置に接続されているマシンを用いた復号方法にお
    いて、 それぞれが文字記号を示す複数の画像グリフを含むビッ
    トマップ画像領域を示す入力テキスト行画像を受け取る
    ステップと、 前記マシンの前記メモリ装置に記憶されている複数の文
    字テンプレート及び文字ラベルを取得するステップであ
    って、前記各文字テンプレートは文字記号の二次元ビッ
    トマップ画像を示すとともに、前記各文字テンプレー
    ト、当該文字テンプレートによって表される文字記号を
    識別するための文字ラベルに対応づけられているところ
    のステップと、 入力テキスト行画像の画像部分の列内の画像前景画素の
    画素カウント値を用いて一次元画像アナログデータ構造
    を作成するステップと、 複数の文字テンプレートのそれぞれの文字テンプレート
    の列内のテンプレート前景画素の画素カウント値を用い
    て複数の一次元テンプレートアナログデータ構造を作成
    するステップと、 前記一次元画像アナログデータ構造と前記複数の一次元
    テンプレートアナログデータ構造とを用いて複数のテン
    プレート・画像発見的スコアを算出するステップであっ
    て、これら各テンプレート画像発見的スコアのそれぞれ
    が、前記複数の文字テンプレートのうちの1つと前記入
    力テキスト行画像の画像部分の二次元領域との一致度の
    推定値を示すところのステップと、 複数の節と、前記入力テキスト行画像内の文字記号群の
    予測される空間配置のモデルを示すそれら各節間の遷移
    と、を含む確率的有限状態ネットワークを示す復号トレ
    リス・データ構造を使用して動的計画法演算を実行する
    ステップであって、前記動的計画法演算は、前記複数の
    テンプレート画像発見的スコアを用いて前記入力テキス
    ト画像を復号し、その中に含まれる画像グリフによって
    表される文字記号の文字ラベルを生成するところのステ
    ップと、 を含む方法。
  2. 【請求項2】 前記複数のテンプレートアナログデータ
    構造を作成するステップが、前記文字テンプレート内の
    各列ごとのテキスト列前景画素のカウント値を示す一次
    元テンプレート画素カウント・データ構造を、前記各文
    字テンプレートごとに作成するステップを含み、 前記一次元画像アナログデータ構造を作成するステップ
    が、前記画像部分内のそれぞれの列内の画像列前景画素
    のカウント値を含む1D画像画素カウント・データ構造
    を作成するステップを含み、 前記複数のテンプレート画像発見的スコアのそれぞれを
    算出するステップが、各々が前記文字テンプレートの1
    つの列内のテンプレート列前景画素のカウント値と、前
    記画像部分の1つの列内の画像列前景画素のカウント値
    と、の最小値であるところの複数の最小画素カウント値
    の和を算出するステップを含む、 請求項1に記載の方法。
  3. 【請求項3】 各文字テンプレートが少なくとも1つの
    前景テンプレート・レベルおよび背景テンプレート・レ
    ベルを含み、各前景テンプレート・レベルが、複数の前
    景画素を含むとともに、当該前景テンプレート・レベル
    に関連するテンプレート・レベル重み付け因子を示し、 前記複数の一次元テンプレートアナログ構造のそれぞれ
    が、前記文字テンプレートの各前景テンプレート・レベ
    ルごとに、そのレベルに関連付けされたテンプレート・
    レベル重み付け因子によって重み付けされたそれぞれの
    列ごとの前景画素テンプレート・レベル列カウント値を
    示す情報を含み、 前記一次元画像アナログデータ構造が、前記画像部分の
    それぞれの列内の画像前景画素のカウント値群を示す一
    次元画像画素カウント・データ構造であり、 前記複数のテンプレート画像発見的スコアのそれぞれを
    算出する際に、前記一次元画像画素カウント・データ構
    造および一次元テンプレートアナログデータ構造を使用
    して複数の列画素カウント値の和を算出する、 請求項1に記載の方法。
  4. 【請求項4】 ビットマップ・テキスト入力画像を分析
    し、マルコフ情報源の復号トレリスによって算出された
    少なくとも1つの完全な道に基づいて、テンプレートラ
    イブラリから選択された文字記号テンプレート群の組合
    せを得る、コンピュータによって実現される画像認識方
    法において、 前記復号トレリスの各遷移に関連する文字記号に応じ
    て、該遷移に対して、正確な確率の代用である発見的確
    率を割り当てるステップと、 動的計画法演算とその後に続く再スコアリング演算との
    反復シーケンスを、停止条件が満たされるまで実行する
    ステップであって、前記動的計画法演算により、遷移に
    割り当てられた発見的確率を用いて前記復号トレリスに
    よって節および遷移の完全な道が作成され、前記再スコ
    アリング演算により、発見的確率を有する前記完全な道
    内の各節に厳密な確率が割り当てられ、前記復号トレリ
    スが、動的計画法演算の後続の反復で利用できる厳密な
    確率を有する、ところのステップと、 を含む方法。
JP2001130954A 2000-05-12 2001-04-27 文書画像復号方法 Expired - Fee Related JP4624593B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/570,004 US6738518B1 (en) 2000-05-12 2000-05-12 Document image decoding using text line column-based heuristic scoring
US09/570,004 2000-05-12

Publications (2)

Publication Number Publication Date
JP2002007966A true JP2002007966A (ja) 2002-01-11
JP4624593B2 JP4624593B2 (ja) 2011-02-02

Family

ID=24277797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001130954A Expired - Fee Related JP4624593B2 (ja) 2000-05-12 2001-04-27 文書画像復号方法

Country Status (2)

Country Link
US (1) US6738518B1 (ja)
JP (1) JP4624593B2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002021438A2 (en) * 2000-09-07 2002-03-14 Koninklijke Philips Electronics N.V. Image matching
JP4116329B2 (ja) * 2002-05-27 2008-07-09 株式会社日立製作所 文書情報表示システム、文書情報表示方法及び文書検索方法
WO2004015873A1 (en) * 2002-08-13 2004-02-19 Vanu, Inc. Convolutional decoding
US7228501B2 (en) * 2002-11-01 2007-06-05 Microsoft Corporation Method for selecting a font
US7421393B1 (en) * 2004-03-01 2008-09-02 At&T Corp. System for developing a dialog manager using modular spoken-dialog components
US7412393B1 (en) * 2004-03-01 2008-08-12 At&T Corp. Method for developing a dialog manager using modular spoken-dialog components
US7643702B1 (en) * 2004-07-23 2010-01-05 Adobe Systems Incorporated Object detection in images using a graphics processor
US7236107B2 (en) * 2004-09-20 2007-06-26 Fujitsu Limited System and method for identifying optimal encoding for a given trace
US7580664B2 (en) * 2007-05-30 2009-08-25 Xerox Corporation System and method for positioning one or more stripper fingers (in a fusing system) relative to an image
US8996846B2 (en) 2007-09-27 2015-03-31 Nvidia Corporation System, method and computer program product for performing a scan operation
JP5557419B2 (ja) * 2007-10-17 2014-07-23 スパンション エルエルシー 半導体装置
US8073256B2 (en) * 2007-11-15 2011-12-06 Canon Kabushiki Kaisha Image processing apparatus and method therefor
US8661226B2 (en) * 2007-11-15 2014-02-25 Nvidia Corporation System, method, and computer program product for performing a scan operation on a sequence of single-bit values using a parallel processor architecture
US8773422B1 (en) 2007-12-04 2014-07-08 Nvidia Corporation System, method, and computer program product for grouping linearly ordered primitives
US7480411B1 (en) * 2008-03-03 2009-01-20 International Business Machines Corporation Adaptive OCR for books
US8311281B2 (en) * 2008-04-09 2012-11-13 Nec Corporation Object detection apparatus
US7991153B1 (en) 2008-08-26 2011-08-02 Nanoglyph, LLC Glyph encryption system and related methods
US8373724B2 (en) * 2009-01-28 2013-02-12 Google Inc. Selective display of OCR'ed text and corresponding images from publications on a client device
US8442813B1 (en) * 2009-02-05 2013-05-14 Google Inc. Methods and systems for assessing the quality of automatically generated text
US8508581B2 (en) * 2009-10-29 2013-08-13 Industrial Technology Research Institute Pixel data transformation method and apparatus for three dimensional display
US8023697B1 (en) 2011-03-29 2011-09-20 Kaspersky Lab Zao System and method for identifying spam in rasterized images
US8953885B1 (en) * 2011-09-16 2015-02-10 Google Inc. Optical character recognition
US9223769B2 (en) 2011-09-21 2015-12-29 Roman Tsibulevskiy Data processing systems, devices, and methods for content analysis
RU2648638C2 (ru) * 2014-01-30 2018-03-26 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов, использующие множество кластеров эталонов символов
CN104200204B (zh) * 2014-09-02 2017-10-03 福建富士通信息软件有限公司 一种图片处理装置及方法
US9443139B1 (en) * 2014-12-01 2016-09-13 Accusoft Corporation Methods and apparatus for identifying labels and/or information associated with a label and/or using identified information
CN105426890B (zh) * 2015-11-09 2018-12-18 成都数之联科技有限公司 一种字符扭曲粘连的图形验证码识别方法
US10235585B2 (en) * 2016-04-11 2019-03-19 The Nielsen Company (US) Methods and apparatus to determine the dimensions of a region of interest of a target object from an image using target object landmarks
CN109670480B (zh) * 2018-12-29 2023-01-24 深圳市丰巢科技有限公司 图像判别方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02255996A (ja) * 1988-12-09 1990-10-16 Ricoh Co Ltd 文字切出し方法
JPH05166009A (ja) * 1991-12-13 1993-07-02 Sumitomo Electric Ind Ltd 文字切出し・認識方法及び装置
JPH05303618A (ja) * 1991-12-10 1993-11-16 Xerox Corp 画像生成器
JPH06348852A (ja) * 1993-05-07 1994-12-22 Xerox Corp テキスト状画像認識方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4189711A (en) * 1977-11-08 1980-02-19 Bell Telephone Laboratories, Incorporated Multilevel processing of image signals
US5020112A (en) 1989-10-31 1991-05-28 At&T Bell Laboratories Image recognition method using two-dimensional stochastic grammars
US5199077A (en) 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
JP2891616B2 (ja) * 1993-09-24 1999-05-17 富士通株式会社 仮ラベル割付処理方式と実ラベル割付処理方式
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image
US5706364A (en) 1995-04-28 1998-01-06 Xerox Corporation Method of producing character templates using unsegmented samples
US5689620A (en) 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
US5883986A (en) 1995-06-02 1999-03-16 Xerox Corporation Method and system for automatic transcription correction
US6483942B1 (en) * 1999-09-27 2002-11-19 Xerox Corporation Micro region count image texture characterization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02255996A (ja) * 1988-12-09 1990-10-16 Ricoh Co Ltd 文字切出し方法
JPH05303618A (ja) * 1991-12-10 1993-11-16 Xerox Corp 画像生成器
JPH05166009A (ja) * 1991-12-13 1993-07-02 Sumitomo Electric Ind Ltd 文字切出し・認識方法及び装置
JPH06348852A (ja) * 1993-05-07 1994-12-22 Xerox Corp テキスト状画像認識方法

Also Published As

Publication number Publication date
JP4624593B2 (ja) 2011-02-02
US6738518B1 (en) 2004-05-18

Similar Documents

Publication Publication Date Title
JP4624593B2 (ja) 文書画像復号方法
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
JP4594551B2 (ja) 統合された確率的ランゲージ・モデルを用いたドキュメント画像復号化方法
CN107330379B (zh) 一种蒙古语手写识别方法和装置
CN109697451B (zh) 相似图像聚类方法及装置、存储介质、电子设备
KR101685472B1 (ko) 정보 처리 장치, 정보 처리 방법, 및 기억 매체
CN112070114B (zh) 基于高斯约束注意力机制网络的场景文字识别方法及系统
US6594393B1 (en) Dynamic programming operation with skip mode for text line image decoding
CN113435436A (zh) 一种基于线性约束矫正网络的场景文字识别方法
CN112132158A (zh) 一种基于自编码网络的可视化图片信息嵌入方法
CN111639594B (zh) 图像描述模型的训练方法及装置
CN110377591B (zh) 训练数据清洗方法、装置、计算机设备及存储介质
CN111612802B (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN111814508A (zh) 一种文字识别方法、系统及设备
JP4652698B2 (ja) 画像認識装置、画像認識方法及びプログラム
CN110852102B (zh) 一种中文的词性标注方法、装置、存储介质及电子设备
CN112508776A (zh) 动作迁移方法、装置和电子设备
CN115083001B (zh) 基于图像敏感位置定位的对抗补丁生成方法与装置
CN112232347B (zh) 基于概率矩阵的字符识别方法、装置、设备及存储介质
CN114140786B (zh) 基于HRNet编码与双分支解码的场景文本识别方法
Kim et al. Sequential Cross Attention Based Multi-Task Learning
JP2006235817A (ja) 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体
JP3977753B2 (ja) 情報源の符号化方法,情報源の符号化装置,情報源の符号化プログラム,情報源の符号化プログラムを記録した記録媒体
CN107094022B (zh) 一种用于VLSI设计的Huffman编码系统的实现方法
CN115565191A (zh) 一种倾斜文本行识别方法、系统及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080421

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101104

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees