JP3422541B2 - キーワードのモデル化方法及び非キーワードhmmの提供方法 - Google Patents

キーワードのモデル化方法及び非キーワードhmmの提供方法

Info

Publication number
JP3422541B2
JP3422541B2 JP30926493A JP30926493A JP3422541B2 JP 3422541 B2 JP3422541 B2 JP 3422541B2 JP 30926493 A JP30926493 A JP 30926493A JP 30926493 A JP30926493 A JP 30926493A JP 3422541 B2 JP3422541 B2 JP 3422541B2
Authority
JP
Japan
Prior art keywords
keyword
character
hmm
context
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP30926493A
Other languages
English (en)
Other versions
JPH0778222A (ja
Inventor
ディー.ウィルコックス リン
アール.チェン フランシーン
Original Assignee
ゼロックス・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ゼロックス・コーポレーション filed Critical ゼロックス・コーポレーション
Publication of JPH0778222A publication Critical patent/JPH0778222A/ja
Application granted granted Critical
Publication of JP3422541B2 publication Critical patent/JP3422541B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19187Graphical models, e.g. Bayesian networks or Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般的にはテキスト認
識に関し、より詳細には、文字列(キーワード)を構成
する個々の文字の検出または識別を必要とすることなく
その文字列を認識する技術に関する。
【0002】
【従来の技術および発明が解決しようとする課題】電子
的にコード化された文書のテキストは、2つの別個の形
式、すなわち、ビットマップ形式あるいは文字コード形
式のいずれかによって存在する傾向がある。ビットマッ
プ形式においては、ページの視覚的な外観に対応する画
素の配列によってテキストが定義される。2値のイメー
ジは、与えられた画素がON(典型的には、黒)かまた
はOFF(典型的には、白)のいずれかであるイメージ
である。画素は、より大きなデータ構造における1つの
ビットによって表現されてもよい。グレイスケールイメ
ージは、白から黒にわたる多数のグレイの陰影の1つを
それぞれの画素が有するイメージである。Nビットの画
素は2N 個のグレイの陰影を表現することができる。ビ
ットマップイメージにおいては、イメージのあらゆる画
素は等しい意義を有し、そして、ほぼどんな形態のイメ
ージ(テキストイメージ、線図形処理イメージ、およ
び、絵画的なイメージ)であってもこのような方法で表
現される。文字コード形式においては、テキストは文字
コードの列として表現され、そのもっとも一般的なもの
はASCIIコードである。文字は、典型的には、8ビ
ットによって表現される。
【0003】文書がビットマップ形式から文字コード形
式へ変換されなければならない多くのアプリケーション
が存在する。例えば、テキスト本文は印刷物(printed v
ersion) においてのみ利用することができ、編集のため
にはワードプロセッシングプログラムに入力されること
が必要とされる。その方法は、典型的には、キーボード
から文字ごとに人手によってテキストを入力するか、ま
たは、文書をスキャンして光学式文字認識(OCR : o
ptical character recognition)の技術を用いてビット
マップイメージを文字コードファイルに変換するか、の
いずれかによってである。その結果として生じる文書の
校正が一般に必要とされる。
【0004】OCRは、よく開発された技術でありまた
絶え間なく開発されている技術でもあるが、それ固有の
短所を有する。紙に書かれた文書をスキャンすることに
よって電子文書が得られた場合、避けることのできない
消失がある。もしスキャンされたイメージが第2または
第3の世代の写真複製であれば、問題がさらに悪化す
る。この点での特有の問題は、テキストにおける文字が
ぼやける(blur)かまたは混ぜこぜにされる傾向を示すこ
とである。文字は連結画素の独立した1つの組であると
いう仮定にOCRは基づいているので、文字が混ぜこぜ
にされた場合に文字識別は失敗する。OCR処理は時間
と処理労力に関して相当の負担を伴う。なぜなら、1つ
の文字のそれぞれのビットマップはそれの隣接するビッ
トマップから区別されなければならず、そのビットマッ
プの外観が解析されなければならず、そして、判定がな
されて、予め定められた文字の組の中での明確に判別で
きる文字としてそのビットマップを識別しなければない
からである。
【0005】しかしながら、個々の文字よりむしろワー
ド全体の識別のみを必要とするいくつかのアプリケーシ
ョンが存在する。壊され傷つけられた文字を含んだ劣化
したイメージに対してはワード全体の識別がより耐久性
のあることが証明されている(Ho、Hull、Srihari を参
照)。隠れマルコフモデル(HMMs : hidden Markov
models)に基づいたシステムの1つは、単一の状態の文
字HMMs の連結(concatenation) としてワードを表現
する(He、Chen、および、Kundu 参照)。このシステム
は、特徴抽出に先立って、文字のセグメンテーションを
必要とする。もう1つのシステムは、ワードを文字にす
るセグメンテーション(BoseおよびKou参照)を必要と
することなく文字をモデル化するために、複数の状態の
HMMsを使用する。しかしながら、ストローク解析お
よびアーク解析に基づいたワードを部分文字(sub-chara
cter) のセグメントにするセグメンテーションが、特徴
抽出に先立って必要とされる。これらのHMMに基づく
システムの両方において、セグメンテーションは処理の
初期段階において誤りをもたらすことがある。
【0006】
【課題を解決するための手段】本発明は、ユーザ定義キ
ーワードの非フォント依存型スポッティング(font-inde
pendent spotting) を可能にするために、ワードをモデ
ル化する技術を提供する。そのモデルは、スキャンされ
るイメージからベースライン情報を得る能力に依存せ
ず、したがって、たとえ個々のワードでも非常に耐性の
あるスポッティングを提供する。
【0007】要するに、本発明は、隠れマルコフモデル
(HMM)を用いた非フォント依存型文字モデルを生成
することと、文字HMM構成要素を連結することによっ
て任意のキーワードモデルを構築することと、を包含す
る。そして、キーワードモデルは、それぞれのワード境
界ボックス(bounding box)内のワードイメージあるいは
それぞれのテキスト行境界ボックス内のテキスト行を受
信するスポッティングネットワークにおいて用いられ
る。境界ボックスは、好ましくは、水平方向に適切に基
準化することによって、標準の高さに正規化される。
【0008】モデル化される特徴はワードの輪郭と内部
構造とを含む。ワードのイメージは水平軸に沿った多く
の異なる位置で得られる一連の特徴ベクトルによって特
徴づけられる。詳細な実施例においては、与えられる水
平位置での特徴ベクトルは、水平位置でのワードイメー
ジの上側輪郭と下側輪郭の垂直位置(正規化された境界
ボックスの上部と下部とに比較して)と、上側輪郭と下
側輪郭との間のワードの内部構造に関する情報と、を包
含する。1つの実施例においては、この内部構造情報
は、水平位置でのワードイメージの垂直スライスの種々
のずれ(lag) におけるいくつかの自己相関値を含む。も
う1つの実施例においては、内部構造情報は上側輪郭と
下側輪郭との間の画素遷移の数を含む。
【0009】文字HMMは、状態間の確率的な遷移とそ
れぞれの状態に関連する特徴とを備える一連の状態によ
って定義される。HMMにおける状態の数は文字に適合
されたものであり、それぞれの状態は、その文字の一部
分を特徴づける特徴ベクトル確率分布によって記述され
る。典型的には、2〜5個を状態が1つの文字をモデル
化するのに使用される。
【0010】文字間の間隔をモデル化するために、最後
の状態がすべての文字に付加される。すべての状態はガ
ウス観測分布を有し、それらは平均ベクトルと共分散正
方行列とによって特徴づけられる。文字の一部に対応す
る状態は独特のガウス観測分布を有するが、1つの文脈
における文字間の間隔に対応する状態は単一の共通分布
を共用する。そのような間隔の状態は等しい出力を有す
ると言われる。結果として、隣接する文字に無関係に、
その文字間の間隔は与えられた文脈に関してまったく同
じに取り扱われる。分布は、間隔が文字間に現れてもよ
い3つの場合をモデル化するための3つのガウス分布の
混合であり、それは、文字同志が接しない場合と、上部
でのみ接する場合と、そして下部でのみ接する場合とで
ある。
【0011】文字HMMsは4つまでの文脈に提供され
る。なぜなら、それぞれの文字は、その文字がアセンダ
またはディセンダを有するかどうか、およびその文字が
アセンダおよびディセンダを有する他の文字とともにワ
ードあるいはテキスト行に存在するかどうか、に依存し
て4つまでの文脈を有するかもしれないからである。文
字と文脈に依存するので、その文字は、上部余白を備え
た境界ボックスの下部の隣にか、下部余白を備えた境界
ボックスの上部の隣にか、あるいは、上部余白と下部余
白を備えた境界ボックス内の中央のいずれかに配置され
てもよく、または、その文字が境界ボックスの全体の高
さに伸長してもよい。
【0012】文字の形状と構造はモデルによって表現さ
れるが、モデルとスポッティング処理の根本原理は、特
徴ベクトルの生成に先立ってイメージ内のワードが文字
あるいは部分文字(ストロークのような)にセグメント
化されることを必要としない。さらに、正規化された境
界ボックス内に種々の可能な文字文脈を用意すること
が、ベースライン情報を必要とすることなく文字特徴を
うまくモデル化することを可能にする。このことが、例
えば孤立した短いワードまたは頭字語のようなベースラ
イン情報を抽出するのが困難なときでさえも強力で耐性
のあるスポッティングを提供するのである。
【0013】本発明のさらなる側面によれば、非キーワ
ードHMMがイメージ内のキーワードではないワードを
モデル化するのに使用される。非キーワードモデルの使
用は、キーワードのスコア(score) がイメージ品質とフ
ォントに依存する任意のしきい値とよりもむしろ非キー
ワードのスコアと比較されることを可能にする。非キー
ワードは文字レベルあるいは部分文字レベルのいずれで
モデル化されてもよい。文字レベルでは、文字セットに
おけるそれぞれのシンボルは、対応する文脈依存型文字
HMMによってモデル化される。部分文字レベルで非キ
ーワードをモデル化するために、ワードまたはテキスト
行内の画素の列かあるいはイメージスライスが、ガウス
分布による状態によって表現される。
【0014】非キーワードモデルは文脈非依存型かまた
は文脈依存型のいずれであってもよい。文脈非依存型モ
デルにおいては、文字モデルにおいて使用される4つの
ワード文脈は、非キーワードモデルにおけるリターンル
ープを伴わない個々の並列のパスによって表現される。
ゆえに、非キーワードに関するHMMを通しての最適の
パスは、単一の文脈に制約される。
【0015】文脈非依存型非キーワードモデルを生成す
るために、すべての文脈に関する1組の文字HMMまた
は1組のイメージスライスHMMが並列に接続される。
文脈依存型非キーワードモデルは、まず、与えられた文
脈に関する文字HMMsまたはイメージスライスHMM
sを並列に接続することによって生成されて、それぞれ
の文脈に対して1つすなわち4つのHMMを提供する。
つぎに、その4つのHMMsが、文脈依存型非キーワー
ドHMMを生成するために並列に接続される。
【0016】文字の列を含み、文字の列が水平方向へ延
出すると考えられるスキャンイメージにキーワードが存
在するかどうかを判定するプロセッサベースの方法にお
いて使用するために、キーワードをモデル化する方法で
あって、1組の単一文字隠れマルコフモデル(HMM)
を提供する段階と、キーワードHMMを定義するために
キーワード中の文字に対応する単一文字HMMを連結す
る段階と、キーワードHMMを含むHMMネットワーク
を構築する段階とを備え、前記提供する段階は、前記組
の単一文字HMMの1個が基づくそれぞれの文字が多数
の独特な部分を有し、それぞれの文字が水平方向の位置
の垂直スライスを表す少なくとも1個のパラメータによ
り文字に沿う複数の水平方向位置の各々で特徴付けられ
る形状を有し、与えられた文字に対する与えられた単一
文字HMMが多数の状態により特徴付けられ、この各状
態が与えられた文字の多数の独特な部分の1個に対応
し、各状態が与えられた文字の対応する独特な部分に対
する少なくとも1個のパラメータの統計的分布により特
徴付られ、垂直スライスを表すために使用されるパラメ
ータの何れもが文字のベースラインを参照されることが
なく、それぞれの単一文字HMMは文字がアセンダを持
つかデセンダを持つか、及びキーワード中の他の文字が
アセンダを持つかデセンダを持つか、に依存する多数の
可能な文脈を有し、キーワードHMMを形成するように
連結された単一文字HMMが同じ文脈を有する、ことを
特徴とすること、を含むキーワードのモデル化方法が得
られる。
【0017】少なくとも1つのキーワード隠れマルコフ
モデル(HMM)を含むキーワードスポッティングネッ
トワークにおいて使用するために、文脈非依存型の文字
に基づく非キーワードHMMを提供する方法であって、
それぞれが特定の文脈における1組の文字をモデル化す
る、第1、第2、第3、及び第4の組の文字HMMを提
供する段階と、HMMを通しての非キーワードに関する
最適なパスが非キーワード内の文字の文脈によって制約
されないように、リターンループを備えたヌル状態の間
に第1、第2、第3、及び第4の組の文字HMMから文
字HMMを並列に接続する段階と、を備えたことを特徴
とする文脈非依存型の文字に基づく非キーワードHMM
の提供方法が得られる。
【0018】少なくとも1つのキーワード隠れマルコフ
モデル(HMM)を含むキーワードスポッティングネッ
トワークにおいて使用するために、文脈依存型の文字に
基づく非キーワードHMMを提供する方法であって、そ
れぞれの組が特定の文脈における1組の文字をモデル化
する第1、第2、第3、及び第4の組の文字HMMを提
供する段階と、それぞれがリターンループを備えたヌル
状態の間に並列に接続されるそれぞれの文脈に関するそ
れぞれの組の文字HMMを有するそれぞれの単一文脈文
字セットHMMを構築する段階と、HMMを通しての非
キーワードに関する最適なパスが非キーワード内の文字
の文脈によって制約されるように、リターンループを備
えないヌル状態の間に単一文脈文字セットHMMを並列
に接続する段階と、を備えたことを特徴とする文脈依存
型の文字に基づく非キーワードHMMの提供方法が得ら
れる。
【0019】少なくとも1つのキーワード隠れマルコフ
モデル(HMM)を含むキーワードスポッティングネッ
トワークにおいて使用するために、文脈非依存型のイメ
ージスライスに基づく非キーワードHMMを提供する方
法であって、それぞれが1組の文字イメージをモデル化
する1組のイメージスライス状態を提供する段階と、H
MMを通しての非キーワードに関する最適なパスが非キ
ーワード内の文字の文脈によって制約されないように、
リターンループを備えたヌル状態の間にイメージスライ
スセット状態を並列に接続する段階と、を備えたことを
特徴とする文脈非依存型のイメージスライスに基づく非
キーワードHMMの提供方法が得られる。
【0020】少なくとも1つのキーワード隠れマルコフ
モデル(HMM)を含むキーワードスポッティングネッ
トワークにおいて使用するために、文脈依存型のイメー
ジスライスに基づく非キーワードHMMを提供する方法
であって、それぞれの組が特定の文脈における1組の文
字イメージの部分をモデル化する第1、第2、第3、お
よび第4の組のイメージスライス状態を提供する段階
と、それぞれがリターンループを備えたヌル状態の間に
接続されるそれぞれの文脈に関するイメージスライス状
態を有するそれぞれの単一文脈イメージスライスセット
HMMを構築する段階と、HMMを通しての非キーワー
ドに関する最適なパスが非キーワード内の文字の文脈に
よって制約されるように、リターンループを備えないヌ
ル状態の間に単一文脈イメージスライスセットHMMを
並列に接続する段階と、を備えたことを特徴とする文脈
依存型のイメージスライスに基づく非キーワードHMM
の提供方法が得られる。
【0021】以下の説明と図面を参照することによっ
て、本発明の性質と利点をさらに理解することができる
であろう。
【0022】
【実施例】
〔形態素に関する定義と専門用語〕ここでの論議は主と
して2値イメージを取り扱う。この背景において、”イ
メージ”という用語は、画素から構成される2次元デー
タ構造の表現を意味する。2値イメージは、与えられた
画素が”ON”かあるいは”OFF”のいずれかである
イメージである。2値イメージはいくつかの操作によっ
て加工され、そこでは、1つかあるいはそれ以上のソー
スイメージがデスティネーションイメージにマップされ
る。そのような操作の結果が、一般的には、イメージと
して参照される。処理に関しての開始時点にあるイメー
ジは、時々、オリジナルイメージとして参照される。処
理の与えられた段階でのイメージは、時々、カレントイ
メージとして参照される。ある処理の段階が任意に選択
できる場合には、カレントイメージが入力イメージであ
る。明示的に述べられた操作の結果から生じるイメージ
は、時々、結果イメージ(resultant image) として参照
される。
【0023】画素は、それらが黒の場合はONで定義さ
れ、それらが白の場合はOFFで定義される。ONとし
ての黒の指定とOFFとしての白の指定は、対象として
いる文書のほとんどが黒の前景と白の背景を有する事実
を反映することに注意されたい。本発明の技術は反対の
イメージにも適用されるが、ここでの論議は白の上の黒
に関してなされる。
【0024】AND、OR、およびXORは、2つの画
像の間で画素ごとに実行される論理操作である。
【0025】NOTは、単一の画像において画素ごとに
実行される論理操作である。
【0026】”縮小(reduction) ”はSCALE係数N
およびしきい値レベルTによって特徴づけられる基準化
操作である。SCALE=Nによる縮小は、ソースイメ
ージをN×Nの区画の画素に分割することと、ソースイ
メージにおけるそのようなそれぞれの区画をデスティネ
ーションイメージの単一の画素にマップすることと、を
引き起こす。デスティネーションイメージにおける画素
に対する値はしきい値レベルTによって決定され、その
Tは1からN2 の間の数である。画素区画におけるON
の画素の数がTより大きいかあるいは等しい場合にはデ
スティネーション画素はONであり、そうでない場合に
はデスティネーション画素はOFFである。
【0027】”4連結領域”(または、”4連結成
分”)は1組のONの画素であり、ここで、その組のど
んな2つの画素も、その2つの画素を含みかつその組の
画素だけを含むパスによって結合され、かつパス上のそ
れぞれの画素は、パス上の少なくとも1つの他の画素に
水平または垂直に隣接する。4連結近傍画素を持たない
孤立した1つのONの画素は、定義上は4連結領域とみ
なされるかもしれない。
【0028】”8連結領域”(または、”8連結成
分”)は1組のONの画素であり、ここで、その組のど
んな2つの画素も、その2つの画素を含みかつその組の
画素だけを含むパスによって結合され、かつパス上のそ
れぞれの画素は、パス上の少なくとも1つの他の画素に
水平または垂直または斜めに隣接する。8連結近傍画素
を持たない孤立した1つのONの画素は、定義上は8連
結領域とみなされるかもしれない。
【0029】いくつかの形態素的操作は、構造化要素
(SE:structuring element )と呼ばれる画素パター
ンによって定義される罫線に従って、ソースイメージを
等しいサイズで作られたデスティネーションイメージに
マップする。SEは1つの中心位置およびそれぞれが定
義された値(ONまたはOFFのいずれか)を有するい
くつかの画素の位置によって定義される。”無関心のも
の(don't care) ”として参照されるその他の画素の位
置は無視される。SEを定義する画素はお互いに隣接す
る必要はない。中心位置はパターンの幾何学的な中心に
ある必要はなく、また、そのパターンの内側にある必要
さえもない。
【0030】”べた塗りの(solid) ”SEは、その中の
すべての画素がONである外縁を有するSEを意味す
る。例えば、べた塗りの2×2のSEは、ONの画素の
2×2の区画である。べた塗りのSEは長方形である必
要はない。
【0031】”ヒットミスの(hit-miss)”SEは、少な
くとも1つのONの画素および少なくとも1つのOFF
の画素を指定するSEを意味する。
【0032】”収縮(erosion) ”は形態素的な操作であ
り、この操作では、デスティネーションイメージにおい
て与えられる画素は、SE中心をソースイメージにおけ
る対応する画素位置に重ね合わせた結果がSEのすべて
のON画素およびOFF画素とソースイメージにおける
下に横たわる画素との間で一致した場合にかつ一致した
場合にのみONになる。
【0033】”膨張(dilation)”は形態素的な操作であ
り、この操作では、ソースイメージにおいて与えられる
画素がONであることが、デスティネーションイメージ
における対応する位置でのSE中心によってSEをデス
ティネーションイメージに書き込む。膨張に用いられる
SEは、典型的には、OFFの画素を有しない。
【0034】”オープニング(opening) ”は収縮とそれ
に続く膨張とからなる形態素的な操作である。結果は、
ソースイメージにおけるそれぞれの一致に対してデステ
ィネーションイメージにSEを写すことになる。
【0035】”クロージング(closing) ”は膨張とそれ
に続く収縮とからなる形態素的な操作である。
【0036】オープニングおよびクロージングに関して
は、その結果はSEの中心位置に依存しない。なぜな
ら、それぞれの操作は同一のSEによる連続する相補的
な操作を含むからである。
【0037】上述において定義された種々の操作は、時
々、名詞、形容詞、および動詞の形式で参照される。例
えば、”膨張(名詞の形式)”の参照は、イメージを”
膨張する”または”膨張させられる”イメージ(動詞の
形式)、または”膨張の”操作を施されるイメージ(形
容詞の形式)、のような表現によってもよい。意味上の
違いは意図されない。
【0038】〔システムの概要〕図1は、その中に本発
明が具体化されることができる一般化されたイメージ処
理システム10の概略ブロック図である。この高い階層
において図示されたシステム構成は普通のものであり、
そのようなものとして、図1は”従来技術”として分類
される。しかしながら、本発明を具体化するように適切
にプログラムされるならば、システム10のようなシス
テムは従来技術ではない。
【0039】一般に、入力イメージは発生源装置12か
ら提供され、それはスキャナー、ファクシミリ装置、ま
たは記憶装置であってもよい。入力イメージはイメージ
処理装置15に送られ、それは本発明に従って構成され
るならば、汎用コンピュータのような良く知られたどの
ような装置であってもよい。ユーザインタフェース17
からのコマンドに応答して、イメージ処理装置15はデ
スティネーション装置18に出力イメージを提供し、そ
のデスティネーション装置18はプリンター、表示装
置、ファクシミリ装置、または他の記憶装置であっても
よい。いくつかの例においては、それは必ずしも実際に
出力イメージを提供しなくてもよい。むしろ、入力イメ
ージに関連する情報が要求されるもののすべてである。
【0040】図2(A)は、ワード境界ボックスを用い
るキーワードスポッティングシステム20のフローチャ
ートである。いくつかの典型的なアプリケーションは情
報フィルタリングを提供し、そこでは、後の処理のため
にキーワードを含むテキストが識別され選択される。図
2(A)は特定のアプリケーションを示し、ここでは、
テキストを含む複数ページの入力文書22(イメージの
形式の)が処理されて、キーワードを有するページのみ
を含む出力文書25(イメージの形式の)が生成され、
キーワードが強調表示される。
【0041】入力イメージは、イメージのすべての潜在
的なキーワードに関するワード境界ボックスを識別する
ワードボクサー(word boxer)30によって操作される。
それぞれの境界ボックスにおける潜在的なキーワードの
イメージは、潜在的なキーワードを分類するために、ワ
ード構造を解析し均一に間隔を置かれた水平位置で特徴
ベクトルを生成する特徴生成器32によって操作され
る。その潜在的なキーワードの組はワードイメージスポ
ッタ(word image spotter)35に適用される。ワードイ
メージスポッタ35はワードモデルを受信するネットワ
ークである。好ましい実施例においては、そのワードモ
デルは、ユーザ提供のキーワードの組47に従って選択
される文字モデルの組45の適切なものを連結すること
によって生成される(ステップ40)キーワードモデル
を含む。ワードイメージスポッタ35は、好ましくは、
キーワードモデルに加えて、少なくとも1つの非キーワ
ードモデルを含み、また機能語(前置詞、接続詞、およ
び冠詞)のモデルも提供される。
【0042】図2(B)は、テキスト行境界ボックスを
用いるキーワードスポッティングシステム50のフロー
チャートである。システム50は、システム50がテキ
スト行ボクサー52と、テキスト行を操作する特徴生成
器55と、キーワードがテキスト行の一部であるという
事実を考慮したワードイメージスポッタ60およびワー
ドモデル生成器65と、を備える点において、図2
(A)のシステム20と異なる。キーワードの入力と文
字モデル生成とは典型的にはシステム20と同じであ
る。
【0043】〔ワードボクサー〕 図3はワードボクサー30によって実行されるステップ
を示すフローチャートである。入力イメージの複製は、
好ましくは、SCALE=2において、しきい値レベル
1によりしきい値処理される縮小によって縮小される。
そして、縮小されたイメージのいくつかの複製が作ら
れ、それぞれの複製は、垂直のべた塗り構造化要素(S
E)73による形態素的クローズ操作(ステップ72)
および水平のべた塗りSE77によるクローズ操作(ス
テップ75)を施される。それぞれの複製は、異なった
寸法のフォントと文字間の間隔とを調節するために、異
なったサイズで作られたSE対によってクローズされ
る。例えば、1×4の水平SEは縮小されたイメージに
おける3画素幅の間隔を充填するのに適しており、また
1×6の水平SEは5画素幅の間隔を充填するのに適し
ている。例として、図面は、2×1の垂直クローズと1
×3の水平クローズとを施される1つの複製と、4×1
の垂直クローズと1×7の水平クローズとを施されるも
う1つの複製と、を示す。特定の実施例においては、つ
ぎのSE対によって9個の複製が処理される。(2,
3)、(2,4)、(3,5)、(3,6)、(4,
7)、(4,8)、(5,9)、(5,10)、(8,
15)、ここで、(m,n)は垂直のm×1クローズと
それに続く水平の1×nクローズとを表す。異なったス
キャン解像度による他の実施例は別のSE対を必要とす
る。
【0044】このようにしてクローズされたイメージの
それぞれの複製は、連結成分の境界ボックスを計算する
ための処理を施される(ステップ80)。しきい値処理
される縮小と形態素的クロージングの目的は、ワード間
の間隔を保持するとともに、ワードの中の個々の文字を
まとめて併合させることである。これらの連結成分は、
それらの併合された文字による潜在的なキーワードにな
ることが期待される。大きなSEによる水平のクローズ
は小さなフォントでの文字と同様に複数のワードを併合
させるが、小さなSEによる水平のクローズは大きなフ
ォントでの単一のワードの中の文字を併合させないこと
に注意されたい。従って、異なったサイズで作られたS
Eによるイメージ複製のクロージングは、与えられたフ
ォントサイズでのあるワードが、少なくとも1つの処理
されたイメージ複製において最後には単一の連結成分と
なることを確実にするための1つの方法である。
【0045】異なったサイズで作られたSE対によって
決定される境界ボックスが併合され、同じ境界ボックス
およびほとんど同じ境界ボックスが除去され、そして、
小さいサイズの成分または大きいサイズの成分が除去さ
れる(ステップ85)。特定の実施例においては、縮小
されたイメージにおけるボックスは、もしそれらが6×
6の画素より小さいかまたは1000×128の画素よ
り大きい場合に除去される。低いしきい値はイメージの
ノイズを除去する傾向があり、また高いしきい値は線図
形およびイメージの中間調領域を除外する傾向がある。
そして、境界ボックスの情報がオリジナルイメージとと
もに使用されて、標準の高さに基準化された潜在的なキ
ーワードの組を提供する(ステップ87)。
【0046】図4は、縮小されたイメージにおける連結
成分の座標情報を抽出する技術のフローチャートであ
る。8連結成分を用いた解析を行うことは可能である
が、以下では4連結成分が使用される。縮小されたイメ
ージの複製はコンピュータによってスキャンされ(すな
わち、それぞれの画素が評価され)、ONの画素が検出
されるまで、左上から開始し左から右そして上から下へ
進む(ステップ90)。その画素の座標は保存され、検
出された画素が属する連結成分の境界ボックスの角に関
する現在の最大の情報をまず表現する(境界ボックスの
左上と右下の角によってその境界ボックスは完全に指定
される)。検出された画素とそれの4連結近傍画素とが
OFFにされる(ステップ92)。それぞれの画素がO
FFにされると、それらの座標が現在の角の座標と比較
される。もしいずれかの座標が現在の境界ボックスの範
囲の外側であれば、角の適切な座標が更新されて今現在
の境界ボックスが拡張される。4連結近傍画素を検出し
てOFFにする技術は、AndrewS. Glassner(Academic P
ress, Inc. 1990) によって編集された『Graphics Gem
s,』のPaul S. Heckbertによる『A Seed Fill Algorith
m 』の頁275 〜277 および頁721 〜722 に記述される。
【0047】連結成分が消去されそれの境界ボックスの
座標が保存されると(ステップ95)、スキャンが再度
始められ(ステップ97)、消去されたばかりの成分に
おける最初の画素が検出された位置の直後から開始す
る。もし別のON画素が検出されれば(判断分岐9
8)、ステップ92から始まる手順が繰り返される。再
開されたスキャンがON画素を検出できなければ、処理
は完結し、関連する境界ボックスの情報が抽出される。
【0048】図5は、それぞれの潜在的なワードを標準
の高さのワードに変換するステップ87におけるサブス
テップのフローチャートである。境界ボックスのサイズ
をオリジナルイメージのサイズに戻すために、ステップ
85からの境界ボックスの座標が再基準化され(ステッ
プ100)、これらの座標が、それぞれのボックスのビ
ットマップ内容をオリジナルイメージから抽出するのに
使用される(ステップ102)。それぞれのボックス
は、余白を除去するために上部、下部、および左側でク
リップされる(ステップ105)。縮小されたイメージ
において実行されるクローズ操作は通常は連結成分を拡
大しないが、しきい値処理された縮小のために、連結成
分自体は対応するワードよりわずかに大きいかもしれな
い。したがって、クリッピングの後に、それぞれの境界
ボックスのオリジナルのビットマップ内容は、境界ボッ
クスの上部、下部、および左側と接触する。
【0049】境界ボックスの内容が1つのワード、1つ
のワードの一部分、または複数のワードであると仮定す
ると、1番目の文字は境界ボックスの左に接し、もっと
も高い文字は境界ボックスの上部に接し、そして、もっ
とも低いディセンダを備えた文字は境界ボックスの下部
に接するであろう。キーワードが境界ボックスにおいて
最後に検出される場合に適切なアクションがとられるよ
うに、境界ボックスの座標が保存される(ステップ10
7)。
【0050】つぎに、境界ボックスとその内容は、標準
の高さの倍数の上方向サンプリング(upsampling)(ステ
ップ110)と、フィルタリング(ステップ112)
と、標準の高さの下方向サンプリング(downsampling)
(ステップ113)と、を包含する複数ステップの処理
によって標準の高さに正規化されて、上方向へのサンプ
リングと下方向へのサンプリングの間に、それに応じて
結果として生じる幅が基準化される。この実施例におい
ては、標準の高さは32画素であるが、16画素の高さ
も考えられる。
【0051】フィルタリングステップは2次元低域通過
フィルタであり、再サンプリングによってもたらされる
エイリアシング(aliasing)を防止する。この時点におい
て、以前は2値イメージであったものが、今ではグレイ
スケールイメージ(特定の実施例においては1画素あた
り8ビット)である。32画素の列への正規化のため
に、文字は典型的には10〜30の列を備える。
【0052】イメージは任意選択で平均化ステップ11
5を施され、ここで、それぞれの画素はその水平に隣接
する画素と平均がとられる。このことは、32画素の正
規化が用いられるときにノイズを除去するように働く。
標準の16画素の高さは、32画素の代わりに用いられ
た場合、平均化を有効なものあるいは望ましいものにす
るのに十分な解像度を提供するようには思えない。
【0053】コンマの存在は潜在的に面倒なことであ
る。コンマがワードの最後の文字に接する場合、かつそ
のワードがディセンダを有しない場合、そのコンマは境
界ボックスの下側エッジを低すぎるものとし、そしてそ
のワードをわずかに誤って位置合わせする。このことは
深刻な問題とは思われない。なぜなら、わずかに誤って
位置合わせされたワードは、たとえそれがキーワードと
しても、非キーワードモデルよりもキーワードモデルに
依然として良く一致する傾向があるのである。
【0054】もしコンマが最後の文字に接していなけれ
ば、それは境界ボックスの正規化に先立って除去される
ことが可能である。このことは、境界ボックスの右下の
角におけるオリジナルのビットマップの部分の連結成分
の別個の解析をなし、そして、もしもっとも右側の連結
成分がコンマの予想される最大サイズより小さければ、
そのもっとも右側の連結成分を削除することによって実
現される。この処理はピリオドも削除することに注意さ
れたい。
【0055】図6は標準の高さに正規化されたいくつか
のワードを図式的に示す。より詳細には、121、12
2、123、そして124で指示される4つのワード
が、標準の高さの境界ボックス内に示される。この概略
図は理想化されたものを示す。なぜなら、上述したよう
に、正規化されたワードイメージは、かなり低い解像度
でのグレイスケールイメージであるからである。これら
の4つの正規化されたワードは2つの特徴を明示してい
る。第1に、最初は同じフォントサイズのワードが、ワ
ード内の文字のアセンダおよびディセンダの有無に依存
する異なった係数によって基準化される。第2に、与え
られた文字が、ワードにおけるそれの文脈に依存する異
なった方法で基準化される。文字”o”がアセンダのみ
を備えたワード(”of”)に存在するか、ディセンダ
のみを備えたワード(”gone”)に存在するか、ア
センダとディセンダを備えたワード(”fog”)に存
在するか、あるいは、アセンダもディセンダもないワー
ド(”on”)に存在するかどうかに依存して、文字”
o”は異なった係数で基準化されかつ垂直の方向で異な
って配置されている。アセンダ(または、ディセンダ)
を備えた文字は、典型的には、2つの可能な文脈のみを
有する。すなわち、アセンダ(ディセンダ)のみを、そ
してアセンダとディセンダを有する。
【0056】〔特徴生成〕それぞれのワードは1組の特
徴ベクトルによって表現され、ここで、それぞれのベク
トルは個々の水平の画素位置でのワード形状のある外観
の特徴を記述する。すなわち、画素のそれぞれの列は関
連する特徴ベクトルを有する。図7は特徴生成器32に
よって実行されるステップを示すフローチャートであ
る。それぞれのワードは、境界ボックスの上部に関連す
る上側の輪郭(ステップ130において決定される)
と、境界ボックスの下部に関連する下側の輪郭(ステッ
プ132において決定される)と、ワードの内部構造を
表現する自己相関値(ステップ135において決定され
る)と、によって特徴が記述される。画素の列に対する
特徴ベクトルは、その列に対する上側と下側の輪郭値お
よびいくつかの自己相関値とからなる。
【0057】より詳細には、与えられた画素列に関する
上側のワード輪郭値は、列において値がしきい値を超え
る最上位の画素の位置によって与えられる。8ビットの
画素に関しては、ここでの実施例においてはしきい値は
128である。2値イメージにおいては、輪郭値は最上
位のON画素の位置である。同様に、与えられた画素列
に関する下側のワード輪郭値は、列において値がしきい
値を超える最下位の画素の位置によって与えられる。こ
のことは図8(A)〜図8(D)の理想化された描写か
ら理解される。
【0058】図8(A)はその境界ボックスの中のワー
ド(”pole”)を示す。明確にするために、そのワ
ードは約64の水平の位置でサンプリングされた。図8
(B)は、64本の等間隔の垂直線がワード内の文字の
上側表面と交差する点を結ぶことによって形成される上
側の輪郭を示す。1つの垂直線が2つの文字の間に位置
する場合は、その点は境界ボックスの最下部から選択さ
れる。図8(C)は、64本の等間隔の垂直線がワード
内の文字の下側表面と交差する点を結ぶことによって形
成される下側の輪郭を示す。1つの垂直線が2つの文字
の間に位置する場合は、その点は境界ボックスの最上部
から選択される。図8(D)は境界ボックスにおいて重
畳された上側と下側の輪郭を示す。文字の概観が識別さ
れるとともに、文字間の間隔が一般的には長方形の完全
な高さ(full-height) の形として現れる。しかしなが
ら、この輪郭はワード内の文字の内部構造の特徴を記述
しはしない。例えば、”e”における水平のストローク
は現れないし、輪郭だけに基づいているので、そのワー
ドが”pole”かまたは”polo”のどちらである
かを決定することができない。
【0059】自己相関値が、ワード内の文字の内部構造
の特徴を記述するのに使用される。詳細には、与えられ
た画素列は、”ずれ”として参照される特定の増分だけ
垂直にシフトされ、そのシフトされた列と最初に配置さ
れた列との間の相関が、現時点で重なり合う画素の値を
乗算しそして画素全部に対しての和を計算する標準の方
法によって決定される。最大の値はずれ0においてであ
り、その他のずれにおける値がこの値に正規化される。
32画素の列によるここでの実施例において、相関は3
2個のずれ(0〜31個の画素のオフセット)に関して
計算され、それぞれの値はずれ0での値に比較して正規
化され、そして相関値の隣接するグループが平均化され
て平均相関値の減少された数を提供する。ここでは、7
つの値が使用される。値がずれ0での値に比較して一度
正規化されれば、ずれ0での正規化された値は定義によ
って1であり、ゆえに平均化には使用されないことに注
意されたい。なぜなら、それは付加的な情報を伝達しな
いからである。
【0060】図9は、その輪郭決定が図8(A)〜図8
(D)を参照して上述されたワード”pole”に関す
る自己相関決定を示す。自己相関値は実際にはそれぞれ
の画素列に対して決定されるが、自己相関は3つの水平
位置に関して図示される。明確にするために、7つのセ
グメントに分割された画素列による2値イメージが示さ
れる。それぞれのセグメントの値は、もしセグメントの
約半分またはそれ以上がON画素を有するならONであ
ると定義され、そうでなければ、OFFであると定義さ
れる。
【0061】3つの図示された位置は、”p”の垂直の
ストロークと、”o”および”e”の中央の部分とであ
る。図からわかるように、第1の水平位置は第2セグメ
ント〜第7セグメントをONにし、第2の水平位置は第
2セグメントおよび第6セグメントをONにし、第3の
水平位置は第2セグメント、第4セグメント、および第
6セグメントをONにする。
【0062】ここでの説明のための例において、列を得
て、0から6までのセグメントの範囲で動くずれによっ
て列の複製を垂直に変位させ、そして、最初の列と変位
させられた複製の両方が重なり合うONセグメントを有
する場合の数をそれぞれのずれにおいて決定することに
よって、与えられた列に関する自己相関が決定される。
0個のセグメントのずれでは、自己相関は単にONセグ
メントの数であり、そして、このことが最大値の1を有
するために自己相関値を正規化するのに使用される。7
つのセグメントだけしか存在しないので、7個のセグメ
ントのずれでは、自己相関は定義によって0である。な
ぜなら、列は重なり合わないからである。上述したよう
に、実際の実施例のグレイスケールの世界(realm) で
は、相関は画素値の乗算と加算によって評価される。
【0063】説明のための例における自己相関図は、水
平位置においてワードの文字の内部構造を導き出す。垂
直なストローク(”p”の垂直なストロークのような)
に関して、あるいは文字のどのような垂直な部分に関し
ても、相関図はその最大値からずれがそのストロークま
たは垂直な部分の高さを超えるときのゼロまで線型に減
衰する。”o”の中央のような白抜きの文字部分に関し
ては、自己相関はその白抜きの空間の高さによって分離
された2つのピークを有する。水平なストロークを包含
する内部の文字部分(”e”の中央のような)に関して
は、自己相関はその白抜きの空間の高さによって分離さ
れた3つのピークを有する。
【0064】文字の内部構造の特徴を記述するための自
己相関値を用いない別の方法は、上側の輪郭と下側の輪
郭との間の画素遷移をカウントすることである。図9の
2値イメージの例に関しては、第1の列(”p”の垂直
なストローク)は遷移がなく、第2の列(”o”の中央
の部分)は単一の白抜き領域を指示する2つの遷移を有
し、そして、第3の列(”e”の中央の部分)は2つの
白抜き領域を指示する4つの遷移を有する。グレイスケ
ールの世界では、遷移は画素のしきい値を介した遷移と
して定義される。
【0065】特徴生成は、文字のベースラインまたはエ
ックスハイト(小文字の”x”のようなアセンダあるい
はディセンダいずれをも備えない小文字の高さ)を検出
することを必要とせずに実行されることに注意された
い。ベースラインおよびエックスハイトの情報を抽出す
る技術は耐久性がない傾向があり、かつ単一ワード(sin
gle words)または頭文字語(acronyms)に対してまったく
動作しない傾向がある。境界ボックスの位置は耐久性が
あり、ゆえに耐久性のある特徴生成とスポッティングと
を可能にする。
【0066】〔隠れマルコフモデル(HMM)の概要〕
隠れマルコフモデル化は、認識されるべき音声の変動性
(variability) をモデル化するために、音声認識におい
て一般に使用される統計学的技術である。そのような変
動性は異なった会話者からだけでなく異なった会話速度
からも結果として生じる。本発明においては、隠れマル
コフモデル化は文字(実際にはワード)認識に適用され
る。ここで、変動性は、異なった文字のサイズおよびフ
ォントから、そしてスキャナ、複写機、およびファクシ
ミリ装置によって生成されるイメージのノイズから生じ
る。
【0067】隠れマルコフモデル(HMM)は、状態間
での確率的遷移と、それぞれの状態に関連する観測され
る特徴ベクトルの確率分布と、を有する1組の状態から
なる。音声認識においては、これらの特徴ベクトルは与
えられた時刻での音声のスペクトル内容を表現する。ワ
ードイメージスポッティングシステムにおいては、特徴
ベクトルは、与えられた位置での相関のずれの特徴と組
み合わされたその位置でのワード内の文字の上側輪郭と
下側輪郭からなる。状態間での遷移が観測列を特徴づけ
る。確率をそれぞれの状態の観測にだけでなく状態間で
の遷移にも関連づけることによって、HMMsは、音声
または文字イメージにおける変動性を統計的にモデル化
するのに使用される。
【0068】より詳細には、HMMは、1組のN個の状
態S1 ...SN と、1組の遷移確率aij(i=
1...N、j=1...N)と、そして、1組の確率
分布bi(X)(i=1...N)とからなり、ここで、a
ijは状態iから状態jへの遷移の確率であり、またb
i(X)は、状態がiでありかつ特徴ベクトルxを観測する
確率である。
【0069】HMMsを用いた認識は以下のようになさ
れる。認識されるべきそれぞれのオブジェクトがHMM
によってモデル化される。与えられた長さTの観測列X
(X=x1 ...xT )が、列Xをもっとも生成しそう
であったと決定されるHMMに対応するオブジェクトと
して認識される。このことをなす1つの方法は、フォー
ワードアルゴリズム(forward algorithm : Rabiner 参
照)を用いて、それぞれのHMMに与えられるXの尤度
(likelihood of X) を計算することによってなされる。
さらに有効な方法はビタービアルゴリズム(Viterbi alg
orithm) であり、これは以下のようになされる。認識さ
れるべきそれぞれのオブジェクトに関するHMMsが並
列に接続されてネットワークを形成する。記号
1 ...PM はそれぞれのオブジェクトの以前の確率
を意味する。観測列、X=x1 ...xTが与えられる
と、列Xをもっとも生成しそうであったネットワークを
通して状態列を検出するためにビタービアルゴリズム
(Rabiner 参照)が使用される。それぞれの状態列は1
つの認識されるべきオブジェクトのHMMに独特なもの
であるので、最適の状態列が認識されるべきオブジェク
トを特定する。
【0070】HMMに関するパラメータは遷移確率aij
および観測確率bi(X)である。これらのパラメータは、
HMMによってモデル化されたオブジェクトによって生
成されたことが分かっている1組の観測列Xによってそ
のHMMを教育することによって学習させることができ
る。バーム−ウェルチ手順(Baum-Welch procedure :Rab
iner 参照)として知られるアルゴリズムが一般に使用
される。
【0071】〔文字およびキーワードHMM〕 個々の英数字は、それに続くどのような間隔も同様に、
文脈依存型文字HMMによって表現される。上述におい
て論議したように、文字モデルに関する文脈はワード内
のアセンダおよびディセンダの存在に依存する。アセン
ダのみの場合、ディセンダのみの場合、アセンダとディ
センダの両方の場合、または、アセンダもディセンダも
ない場合の結果として生じる文脈において、4つまでの
モデルがそれぞれの文字に対して必要とされる。
【0072】文字HMMは、状態間での確率的遷移とそ
れぞれの状態に関連する特徴とを有する状態の列によっ
て定義される。HMMにおける状態の数は文字に適合さ
れたものであり、またそれぞれの状態は、文字のその部
分を特徴づける特徴ベクトルの確率分布によって記述さ
れる。典型的には、2〜5個の状態が文字をモデル化す
るのに使用される。文字間の間隔をモデル化するため
に、最終の状態がすべての文字に付加される。すべての
状態はガウス観測分布を有し、それは平均ベクトルと共
分散正方行列とによって特徴づけられる。文字部分に対
応する状態は独特のガウス観測分布を有するのに、1つ
の文脈における文字間の間隔に対応する状態は単一の共
通な分布を共有する。そのような間隔の状態は等しい出
力(tied output) を有すると言われる。結果として、隣
接する文字に無関係に、その文字間の間隔は与えられた
文脈に関してまったく同じに取り扱われる。分布は、間
隔が文字間に現れてもよい3つの場合をモデル化するた
めの3つのガウス分布の混合であり、それは、文字同志
が接しない場合と、上部でのみ接する場合と、そして、
下部でのみ接する場合とである。
【0073】図10(A)は、状態がいくつかの代表的
な文字の構造に、詳しくは小文字の”f”、”e”、お
よび”w”の構造にどのように関係するかの理想化され
た表現である。ワード”few”はその境界ボックス内
に示され、垂直線が状態を区画する(delineate) 。状態
の実際の区画は教育において決定される。文字”f”お
よび”e”のそれぞれは、文字構造の独特な部分に対応
する3つの状態を有し、文字”w”は5つの状態を有す
る。図示されるようなワード”few”の文脈におい
て、文字構造の状態のそれぞれの組の後には文字間の間
隔に対応する状態が続く。
【0074】図10(B)は、文字”f”および”e”
のいずれにも関するHMM状態図を示す。そのモデル
は、文字に特有の観測を生成する3つの状態S1
2 、S3と、等しい分布に従った文字間の間隔を生成
する状態S4 とからなる。aijは状態Si とSj との間
の遷移の確率である。確率a35による状態S3 からの可
能な遷移は、間隔の状態S4 を飛び越すことを表すとと
もに、潜在的なキーワードにおける2つの文字間に間隔
が存在しない場合にはつぎの文字の最初の状態へ跳躍す
ることを表す。図10(C)は、状態S6 がオプション
スペースの状態である”w”に関する状態図を示す。図
10(D)は、ワードの文脈における文字に対応する文
字モデルを結合することによって、ワード全体のモデル
がどのように構築されるかを図示する。
【0075】ある文字は複数の独特な形式で現れる。例
えば、文字”a”もいくつかのフォントと、例えば傾斜
したイタリック体のその他のフォントとによって現れ
る。このことを考慮するために、別個の文字モデルが多
様な変形に関して生成され、また別個のキーワードモデ
ルがそのような文字を含むどんなキーワードに関しても
生成される。
【0076】文字”i”および”j”はまたワード内に
アセンダが存在しない場合に特別な事態を呈する。その
ようなワードに関する境界ボックスはドットを包含する
かもしれないし、あるいは包含しないかもしれない。こ
のことを考慮するために、2つのキーワードモデルが構
築され、1つはアセンダがない文脈のためのモデルであ
り、もう1つはアセンダが存在することを仮定した文脈
のためのモデルである。
【0077】文字HMMは異なったフォントによるテキ
ストを用いて教育される。教育は、それぞれの文字のそ
れぞれの状態に関する観測分布と、間隔の状態に関する
観測分布と、そして標準のバーム−ウェルチ技術を用い
た状態間の遷移確率aijと、を学習することを包含す
る。教育データは、種々の文脈におけるそれぞれの文字
を含むワード全体からなる。個々の文字の境界に注目す
る必要はない(Paul参照)。モデルが正しく初期化され
ることを確実にするために、1組の予備の教育用データ
が使用され、それには文字間の間隔がかならず存在す
る。
【0078】〔非キーワードHMM〕非キーワードHM
Mは、イメージにおけるキーワードではないワードをモ
デル化するのに使用される。非キーワードモデルの使用
は、キーワードのスコアがイメージ品質とそのフォント
とに依存する任意のしきい値よりもむしろ非キーワード
のスコアと比較されることを可能にする。
【0079】モデルは文脈非依存(非感知)型(context
-insensitive) または文脈依存(感知)型(context-sen
sitive) のいずれかである。文脈依存型モデルにおいて
は、文字モデルにおいて使用される4つのワード文脈
(#1はアセンダのみ、#2はディセンダのみ、#3は
アセンダとディセンダの両方、#4はアセンダもディセ
ンダも存在しない)が、非キーワードモデルにおけるリ
ターンループを伴わない個々の並列のパスによって表現
される。ゆえに、非キーワードに関するHMMを通して
の最適のパスは、単一の文脈に制約される。
【0080】非キーワードは文字レベルあるいは部分文
字レベルのいずれでモデル化されてもよい。文字レベル
では、文字セットにおけるそれぞれのシンボルは、上述
されたように教育された対応する文脈依存型文字HMM
によってモデル化される。文字に基づく(character-bas
ed) 、文脈非依存型の非キーワードモデルを生成するた
めに、予め教育された文字HMMsの組が並列に接続さ
れる。
【0081】図11は、文脈非依存型の文字に基づく非
キーワードHMM150に関する状態図である。HMM
は、1対のヌル状態(null state)155および157の
間に並列に接続されるいくつかの文字HMM152を備
え、また、ヌル状態155および157の間にリターン
ループを含む。文字セットは、大文字と小文字、数字、
および特殊文字を含むN個の文字を包含すると仮定され
る。4つまでの別個の文字HMMが文字セットのそれぞ
れの文字に用意される。与えられた文字に対するHMM
の番号は、4つの可能な文脈のどれがその文字に当ては
まるかに依存する。HMM150は、非キーワードに関
するそのHMMを通しての最適のパスが非キーワードに
おける文字の文脈によって制約されないという意味で非
文脈依存型である。
【0082】文脈依存型の文字に基づく非キーワードモ
デルは、まず与えられた文脈に関する予め教育された文
字HMMを並列に接続することによって生成されて、
つの文脈に対してそれぞれ1つ、すなわち4つのHMM
を提供する。つぎにその4つのHMMsが、文脈依存型
の文字に基づく非キーワードHMMを生成するために並
列に接続される。
【0083】図12は、非キーワードHMMの構成要素
として使用される文字セットの一文脈のHMM160
(1)に関する状態図である。そのHMMは、1対のヌ
ル状態165と167の間に並列に接続された文字H
MM162からなり、またリターンループを包含する。
HMM160(1)は、HMM160(1)がこの場合
は文脈#1であるその単一の文脈において現れることの
できる文字HMMsのみを含むことが図11のHMM1
50と異なる。類似のHMMがその他の文脈に対して組
み立てられる。
【0084】図13は、1対のヌル状態172と175
の間に並列に接続された4つの単一文脈文字HMM16
0(1)、160(2)、160(3)、160(4)
からなる非キーワードの文脈依存型の文字に基づくHM
M170の状態図である。このHMMは、HMMを通し
ての非キーワードに関する最適なパスが非キーワードに
おける文字の文脈によって制約されるという意味で文脈
依存型である。
【0085】部分文字レベルで非キーワードをモデル化
するために、ワード境界ボックス内の画素列すなわちイ
メージスライス(図10(A)において垂直線により区
画されている)がガウス分布による状態によって表現さ
れる。部分文字に基づくHMMに関する観測分布および
遷移確率が文字モデルに関するデータと同じものを用い
て教育される。
【0086】図14(A)は、文脈非依存型のイメージ
スライスに基づく非キーワードHMM180を示す。こ
の非キーワードHMMは、1対のヌル状態185と18
7(S0 とS33)の間にリターンループを伴って、状態
182(S1 〜S32で示される)の並列ネットワークと
して生成される。状態S0 とS33がヌル状態であるのに
対して、状態S1 〜S32はガウス分布によって出力を生
成する状態である。この非キーワードHMMに関する出
力分布と遷移確率aijは、ラベルが用いられないことを
除いて、文字モデルに関するデータと同じものを用いて
教育される。状態に関するガウス出力分布の手段はラン
ダムに初期化される。
【0087】図14(B)は、文脈依存型非キーワード
HMMの構成要素として用いられる単一文脈イメージス
ライスHMM190(1)に関する状態図である。この
HMMは、1対のヌル状態195と197の間に並列に
接続されたイメージスライスを表現するガウス分布によ
るいくつかの(ここでは10個の)状態192からな
り、また、リターンループも含む。与えられた1つの文
脈に関して約10個の状態の組が、すべての文字が表現
されることを可能にすることがわかる。
【0088】文脈依存型モデルにおいては、データは、
文字モデルを教育するのに用いられるワードラベルから
導き出されるワード文脈によって分類される。そのワー
ドラベルはどのサブモデルを教育するかを決定するのに
使用される。
【0089】図14(C)は、1対のヌル状態202と
205の間に並列に接続された4つの単一文脈イメージ
スライスHMMs190(1)、190(2)、190
(3)、190(4)からなる文脈依存型のイメージス
ライスに基づく非キーワードHMM200の状態図であ
る。このHMMは、HMMを通しての非キーワードに関
する最適なパスが非キーワードにおける文字の文脈によ
って制約されるという意味で文脈依存型である。
【0090】〔より長いワードの一部であるキーワード
のスポッティング〕ときどき、キーワードの正確な形式
が前もって知られていない場合がある。例えば、ユーザ
は、それが単数形または複数形のいずれであるかにかか
わらずに名詞に興味を示し、あるいは、時制または人称
にかかわらずに動詞に興味を示す。キーワードはハイフ
ンでつながれたまたはハイフンでつながれていない複合
ワードの一部であるかもしれない。たとえ原形の形式が
ワードの断片部分であっても、キーワードの原形の形式
(root form) を得ることが可能な限界まで、本発明は、
より長いワードに組み込まれたそのような原形の形式を
検索する技術を提供する。この能力はまた、ワード間の
スペースがワードを区画するために使用されない日本語
のような言語にも適合する。
【0091】図15(A)は、より長いワードの一部で
あるキーワードを認識するのにネットワークにおいて使
用される第1の形態のキーワードHMM220に関する
状態図である。このHMMは、1対のヌル状態227と
228の間に並列に接続されたキーワードHMM構成要
素222および非キーワードHMM構成要素225から
なり、かつリターンループを含む。リターンループはよ
り長いワードにおけるキーワードの複数回の発生を考慮
するものである。非キーワードHMM構成要素225
が、上述したように文字に基づくものあるいはイメージ
スライスに基づくものであるに対して、キーワードHM
M構成要素222は、上述されたように文字HMMsの
連結として組み立てられる。もし非キーワードHMM構
成要素が文脈依存型であれば、それはキーワードHMM
構成要素と同じ文脈を有する。
【0092】アセンダとディセンダに関連するキーワー
ドの特性が既知であっても、そのキーワードがより長い
未知のワードの一部であるときは、モデルに関する適切
な文脈は未知なものとなる。特に、もしキーワードがア
センダのみを有するならば、その複合ワードはアセンダ
のみを有するかもしれないし、またはアセンダとディセ
ンダの両方を有するかもしれない。従って、キーワード
モデルは、アセンダとディセンダの両方の文脈に関する
図15(A)のHMMと並列に接続されたアセンダのみ
の文脈に関する図15(A)のHMMからなるネットワ
ークである。
【0093】もしキーワードがディセンダのみを有する
ならば、その複合ワードはディセンダのみを有するかも
しれないし、またはアセンダとディセンダの両方を有す
るかもしれない。従って、キーワードモデルは、アセン
ダとディセンダの両方の文脈に関する図15(A)のH
MMと並列に接続されたディセンダのみの文脈に関する
図15(A)のHMMからなるネットワークである。
【0094】もしキーワードがアセンダとディセンダの
両方を有するならば、その複合ワードはアセンダとディ
センダの両方を有する。従って、キーワードモデルは、
アセンダとディセンダの両方の文脈に関する図15
(A)の単一のHMMである。
【0095】もしキーワードがアセンダもディセンダも
有しないならば、その複合ワードはアセンダとディセン
ダのいずれかを有するか、いずれをも有しないか、ある
いはいずれをも有するか、のいずれかである。従って、
キーワードモデルは、4つの文脈すべてに関する図15
(A)のHMMの並列の接続を備えたネットワークであ
る。
【0096】図15(B)は、より長いワードに組み込
まれたキーワードを認識するのにネットワークにおいて
使用される第2の形態のキーワードHMM230に関す
る状態図である。このHMMは、1対のヌル状態235
と237の間に接続された1対の非キーワードHMM構
成要素233と直列のキーワードHMM構成要素232
からなる。キーワードが複合ワードの始めまたは終わり
にくる可能性に適合させるために飛び越しパスが提供さ
れる。このHMMはリターンループを包含しない。
【0097】もし図15(A)および図15(B)に示
されるようなキーワードHMMを使用すれば、ユーザ
は、キーワード”swim”を与えることによって、動
詞”swim”が”swims”かまたは”swimm
ing”で現れるときにその動詞”swim”を探すこ
とができるであろうが、”swam”の形式の場合を突
き止めないであろう。また、おそらくいくつかの接頭辞
かまたは接尾辞だけと接続するキーワードの特定の原形
の形式にしかユーザが興味を示さないいくつかの例もあ
る。例えば、ユーザは上述の”swim”の形式には興
味を示すかもしれないが、ワード”swimsuit”
には興味を示さないかもしれない。
【0098】もし接頭辞および接尾辞の可能な組がわか
っていれば、種々の可能な組み合わせに対する文字モデ
ルの連結として個々のキーワードモデルを構築すること
が普通は好ましい。
【0099】〔キーワードスポッティングネットワー
ク〕図16はキーワードスポッティングのためのHMM
ネットワーク35の状態図である。ネットワークは開始
状態または初期状態215と停止状態または最終状態2
17との間に並列に接続されたキーワードHMM260
と非キーワードHMM262とを包含する。キーワード
HMMと非キーワードHMMは、図10(B)〜(D)
および図15(A)〜(B)(キーワードHMM)そし
て図11〜図13および図14(A)〜(C)(非キー
ワードHMM)に関連して上述されたように組み立てら
れる。上述において言及したように、複数の形式で現れ
るある種の文字を含むいかなるキーワードに対しても個
々のキーワードHMMsが提供される。同様に、キーワ
ードが”i”かまたは”j”を含みかつアセンダを備え
た文字を含まないとき、2つの個々のキーワードHMM
sが好ましい。加えて、もし探索が大文字と小文字を区
別しないことを意図するのであれば、すべての小文字
と、すべての大文字と、そして先頭大文字変形(lead-up
percase variants)とに対して個々のワードモデルが提
供される。
【0100】スポッティングはネットワークを通してビ
タービ(Viterbi)検索を用いてなされる。もし
最適なパスがキーワードHMMを通して存在すれば、キ
ーワードは認識されたとみなされる。文字に基づいた非
キーワードモデルの場合における別の状況では、そのパ
スは非キーワードHMMを通して一連の文字を定義する
ことができ、ゆえにその結果として、ある意味で光学式
文字認識システムとして機能する。イメージスライスの
非キーワードモデルの場合においては、潜在的なキーワ
ードが非キーワードとして識別される。キーワードHM
MがキーワードHMM構成要素と非キーワードHMM構
成要素とを含む場合においては、最適のパスがキーワー
ドHMM構成要素を経由する場合にのみキーワードは認
識される。
【0101】すべての潜在的なキーワードをスポッティ
ングネットワークに適用することは可能であるが、一般
的には、その潜在的なキーワードを制限することが好ま
しい。潜在的なキーワードを制限するための1つの方法
は、それの境界ボックスの長さがキーワードと一致しな
いキーワードを除外することである。上述したように、
文字の幅は一般的に32画素の高さに対して10画素〜
30画素の程度である。したがって、キーワードの特定
の文字に基づけば、潜在的なキーワードの長さを推定す
ることが可能であり、はるかに長いかまたははるかに短
い潜在的なキーワードが除外される。また、これらをワ
ードボクシング(word boxing) 段階で除去して特徴抽出
に必要とされる計算を回避することも可能である。しか
しながら、多くのアプリケーションは同一文書上の複数
の探索を必要とすることが予想され、その場合には、た
とえそのようなワードが現在の探索基準を満足させるに
は長すぎるかまたは短すぎる場合であっても、すべての
ワードに関する特徴情報を保持することが有効である。
【0102】誤り検出(false alarms)のない(非キーワ
ードが認識されない)100%の成功率(キーワードの
すべての場合が認識される)は高尚な目標ではあるが、
ノイズとフォントの種類(font variations) がこの目標
の達成を見込みのないものにし、一般的に妥協が要求さ
れる。ある種のアプリケーションは、ほぼすべてのキー
ワードの場合が認識されることを必要とするかもしれな
いし、また誤り検出を許容することもあるかもしれな
い。別のアプリケーションは、キーワードの欠落により
許容度があるかもしれないが、多すぎる誤り検出によっ
て甚だしく損害を与えられるかもしれない。認識と誤り
検出との割合は、開始状態からのキーワードへの遷移確
率(P1 ...PM )および非キーワードへの遷移確率
(PNK)を変化させることによって制御されてもよい。
【0103】〔テキストの行におけるワードのスポッテ
ィング〕ワード境界ボックス よりもむしろテキスト行ボックスに
おいてキーワードをスポッティングすることが複数ワー
ドの句をスポッティングすることを可能にする。もしこ
の機能が要望されるのであれば、キーワードモデルは、
ワード間の間隔モデルによって分離された個々のワード
のHMMsの直列の接続として生成される。ワード間の
間隔モデルは、好ましくは、省略可能であり、従っ
て、"Keyword(スペースあり)"の探索は"Ke
yword(スペースなし)"をも検出するであろう。
ある意味では、任意選択のワード間の間隔モデルは特殊
文字と考えられる。
【0104】テキストの行に組み込まれたワードをスポ
ッティングするには、潜在的なテキスト行に関する境界
ボックスがまず識別される。このことは、ワード境界ボ
ックスの識別と類似した方法による形態素的な操作を用
いてなされてもよい。イメージは2×だけ縮小され、垂
直と水平のクロージング操作がなされる。垂直のSEは
ワード境界ボックスの識別に使用されるものと同じサイ
ズの範囲に存在する。対応する水平SEはより大きいの
で水平のクロージングは同一行のワードを併合すること
を確実にするが、複数の列にわたってワードを併合する
ほど大きくはない。任意選択で、テキストの列が予め識
別されてもよく、また行を識別するために形態素的な操
作がそれぞれの列に実行されてもよい。ワード境界ボッ
クスの識別における場合と同様に、異なったサイズに作
られたSE対が併合され、そして、同じもの、および小
さいサイズの成分または大きいサイズの成分が除去され
る。また、列の位置を決定することによって、そして、
列を正しく計測しない境界ボックスを除去することによ
って、行境界ボックスの数を減少させてもよい。特徴抽
出に先立って、左側、上部、および下部からだけでなく
それぞれのテキスト行の右側からも余白が除去される。
【0105】テキストの行におけるワードをスポッティ
ングするHMMは、それぞれのワードは文字間の間隔よ
り大きなワード間の間隔によって隣のワードから分離さ
れていると仮定する。行におけるキーワードの正確な位
置は、キーワードモデルに整列するフレーム番号を識別
することによって決定される。
【0106】図17はテキスト行に組み込まれたキーワ
ードをモデル化するのに使用される単一文脈HMM27
0の状態図である。このHMMは、1対のヌル状態27
5と277の間に並列に接続されるキーワードHMM構
成要素272および非キーワードHMM構成要素273
からなる。キーワードHMM構成要素および非キーワー
ドHMM構成要素からワード間の間隔状態278への遷
移に対する準備がなされる。また、キーワードHMM構
成要素、非キーワードHMM構成要素、およびワード間
の間隔状態からヌル状態275へのリターンループが存
在する。キーワードHMM構成要素272はそれ自体が
複数のキーワードを探索する並列接続のキーワードHM
Msのネットワークである。
【0107】より長いワードの一部であるキーワードに
関連して上述された文脈の論議がテキスト行の設定にお
いても生じる。1つ以上の文脈におけるキーワードをモ
デル化することが時々必要である。もしキーワードがア
センダのみを有するならば、そのキーワードが現れるテ
キスト行はアセンダのみを有するかもしれないが、また
アセンダとディセンダとを有するかもしれない。同様
に、もしキーワードがディセンダのみを有するならば、
そのキーワードが現れるテキスト行はディセンダのみを
有するかもしれないが、またアセンダとディセンダとを
有するかもしれない。もしキーワードがアセンダもディ
センダも有しなければ、そのキーワードが現れるテキス
ト行はアセンダもディセンダも有しないかもしれない
が、またディセンダのみ、アセンダのみ、あるいは、ア
センダおよびディセンダ、を包含するかもしれない。
【0108】ゆえに、アセンダもディセンダも有しない
キーワードは図18(A)に示されるようなネットワー
ク280によってモデル化されなければならない。この
ネットワークは、初期状態282と最終状態285の間
に並列に接続されたテキスト行HMMs270(1)、
270(2)、270(3)、270(4)を含み、こ
れらは4つの可能な文脈のそれぞれにおける図15のH
MMである。
【0109】アセンダのみを有するキーワードは図18
(B)に示されるようなネットワーク290によってモ
デル化されなければならない。このネットワークは、初
期状態292と最終状態295の間に並列に接続された
テキスト行HMM270(1)および270(3)を包
含する。テキスト行HMM270(1)および270
(3)は、アセンダのみの場合およびアセンダとディセ
ンダの両方の場合の2つの可能な文脈のそれぞれにおけ
る図17のHMMである。
【0110】また、ディセンダのみを有するキーワード
も、初期状態と最終状態の間に並列に接続されたテキス
ト行HMMを包含するネットワークによってモデル化さ
れなければならない。しかしながら、この場合は、テキ
スト行HMMは、ディセンダのみの場合およびアセンダ
とディセンダの両方の場合の2つの可能な文脈のそれぞ
れにおける図17のHMMである。アセンダとディセン
ダの両方を有するキーワードのみが、アセンダとディセ
ンダの両方を備えるテキスト行においてのみ存在するこ
とを保証され、ゆえに、アセンダとディセンダの両方の
場合の文脈における図17のHMMによって直接にモデ
ル化される。
【0111】〔ワードボクサーおよびテキスト行ボクサ
ーの第2実施例〕上述したように、イメージが形態素的
なクローズ操作を施されるときに、ワード間の間隔を詰
めないが文字間の間隔を詰める単一のサイズのSEは存
在しない。ゆえに、図3に関連して上述された方法は、
イメージの複数の複製に対して異なったサイズのSEに
よるクローズ操作を施す。この複数パス(multi-pass)の
方法は、その技術が多くのサイズのフォントを包含する
文書に適用できるという利点を有する。以下で記述され
る別の方法は、いくつかの予想される計算処理上の利点
を有する。なぜなら、その方法はイメージの単一の複製
を処理するだけだからである。
【0112】複数パスの方法が、境界ボックスのサイズ
に基づく上限によって中間調および図形を除去する傾向
があるのに対して、その別の方法は、イメージは水平お
よび垂直の罫線、図形、そして中間調、などのような非
テキスト成分を除去する処理がすでに施されているもの
と仮定する。この形態のイメージセグメンテーション
は、以下の特許明細書に記述されるようないくつかのど
の技術によっても成し遂げられ、それらのすべてがすべ
ての目的に援用される。
【0113】『IDENTIFICATION AND SEGMENTATION OF F
INELY TEXTURED AND SOLID REGIONSOF BINARY IMAGES
』と題するBloomberg による1991年11月12日発行の米
国特許第5,065,437 号。『SEGMENTATION OF TEXT AND G
RAPHICS 』と題するBloombergによる1989年12月 8日出
願の米国特許出願第07/449,626号。および『USE OF FAS
T TEXTURED REDUCTION FOR DISCRIMINATION OF DOCUMEN
T IMAGE COMPONENTS』と題するBloomberg による1992年
3月20日出願の米国特許出願第07/854,156号。
【0114】上述の米国特許第5,065,437 号は種々の形
態素的な操作をなすためのソースコードを包含する。
【0115】図19は、イメージにおいてワード境界ボ
ックスを検出する別の技術を説明するフローチャートで
ある。イメージの解析は実物大かまたはあるレベルの縮
小度で実行される。このために、イメージの複製が任意
に縮小される(ステップ300)。このことは、しきい
値処理される縮小(2×2の縮小に対しては1または2
のしきい値)としての2または4のいずれかの係数によ
ってか、または、サブサンプリングによってかのいずれ
であってもよい。つぎに、縮小されたかもしれないイメ
ージは、すべての連結成分の境界ボックスを計算する解
析が施される(ステップ302)。このことは図4に関
連して上述されたようになされてもよい。
【0116】つぎに、好ましくは、行優先順にソートさ
れ、イメージの先頭から開始し、与えられたテキスト行
の中を左から右にソートすることによって、その境界ボ
ックスがテキスト行に配列される(ステップ305)。
ついでに、テキスト行はイメージにおいて水平に伸長す
ると仮定される。もしそうでなければ、イメージは回転
させられるか、または順序づけが垂直に伸長するテキス
ト行に基づいたものとなるであろう。
【0117】つぎに、境界ボックス間の間隔のヒストグ
ラムが生成される(ステップ307)。もしイメージが
ほぼ同じサイズのテキストを包含するならば、ヒストグ
ラムは単一のヒストグラム、つまり、イメージ全体にわ
たって得られるヒストグラムである。逆に、もしイメー
ジが異なったフォントサイズのテキストブロックを包含
するならば、単一のヒストグラムは望めないかもしれな
い。もし個々のテキストブロックが識別されるようにイ
メージがセグメント化されていれば、ヒストグラムはそ
れぞれのテキストブロックに対して生成され、かつ、以
下で記述されるヒストグラム情報に基づいた解析は、ワ
ードボックスを得るためにそれぞれのテキストブロック
に対して個別に実行される。
【0118】つぎに、文字間およびワード間の間隔情報
を得るために、ヒストグラムが解析される(ステップ3
10)。詳細には、ヒストグラムは分離した2つのピー
クを含む。文字間の間隔に対応する第1のピークは分離
幅がより小さな値において存在するが、ワード間の間隔
に対応する第2のピークより多くの数のサンプルを含
む。2つのピークの間の低い部分はしきい値間隔として
定義され、第1のピークにおけるサンプルより大きくか
つ第2のピークにおけるサンプルより小さい。ヒストグ
ラム情報に基づいて、ワード境界ボックスが2つの方法
のいずれかで決定される(ステップ312)。
【0119】図20は、テキスト行における境界ボック
スの順序リスト(ordered list)を生成するステップ30
5を説明するフローチャートである。境界ボックスの組
は、まず、左から右にソートされる(ステップ32
0)。このソートは任意選択であるがむしろ選ばれたほ
うがよい。なぜなら、それに続く処理を速くするからで
ある。テキスト行はサブリストとして再構築される。そ
れぞれのボックスは、それがいずれかのサブリストにお
いて最後の順序づけされないボックスの右側のボックス
になるかどうかを決定するために検査される(ステップ
322)。もしそうであれば、そのボックスがサブリス
トの終わりに加えられ(ステップ325)、もしそうで
なければ、そのボックスは新規のサブリストの始まりと
して使用される(ステップ327)。
【0120】ボックスが既に存在するサブリストに所属
するかどうかの検査は、もしそのサブリストにおいて最
後の順序づけされないボックスとのいくらかの垂直的な
重なり合いかまたは少なくとも重なり合いに近いものが
存在するならば、新規のボックスはサブリストに所属す
るという規則に従ってなされる。典型的には、検査は最
後のボックスより多いボックスを包含する。なぜなら、
サブリストにおける最後のボックスだけとの重なり合い
に関する検査は、いかなる新規のボックスをもサブリス
トに加えられることを妨げる句読点に帰着するからであ
る。同時に、順序づけされないボックスのパラメーター
が大きすぎるはずはないし、あるいは大きなイメージ傾
斜は交差したテキスト行に帰着するであろう。最後の2
つのボックスに関してたった6画素の垂直的分離(重な
り合わない部分)を必要とするだけで良い結果を提供す
ることが知られている。
【0121】ソートするステップ320は任意選択であ
るが、続いて起こるテキスト行生成を非常に速いものに
する。もしボックスのリストが左から右に予めソートさ
れていなければ、テキスト行(サブリスト)の組み立て
のステップ数はn2 程度になるであろう。ここで、nは
ボックスの数である。ソートによって、そのステップ数
はn1.5 程度になる。ソートそれ自体はnlognとn
1.5 の間のある値である。
【0122】図21(A)は、ワード境界ボックスを生
成するのにヒストグラム情報を用いる第1の方法のフロ
ーチャートである。順序サブリストのそれぞれにおける
境界ボックスは、もしその間隔がしきい値より小さけれ
ばそれらの隣と結合され、もしその間隔がしきい値に等
しいかまたはしきい値より大きければそれらの隣と結合
されない(ステップ330)。つぎに、選択的に併合さ
れた境界ボックスは、任意選択の縮小を特徴づけたのと
同じ基準化係数によって拡大される(ステップ33
2)。
【0123】図21(B)は、ワード境界ボックスを生
成するのにヒストグラム情報を用いる第2の方法のフロ
ーチャートである。SEのサイズがヒストグラムにおけ
るピーク位置に基づいて選択される(ステップ34
0)。任意選択で縮小されたイメージが、個々の文字は
併合するがテキスト行のワードは併合しないぐらいのサ
イズで作られた水平SEによってクローズされる(ステ
ップ342)。つぎに、このようにしてクローズされた
イメージは、すべての連結成分の境界ボックスを計算す
る解析が施される(ステップ343)。つぎに、このよ
うにして決定された境界ボックスは、任意選択の縮小を
特徴づけた基準化係数と同じ基準化係数によって拡大さ
れる(ステップ345)。
【0124】上述された論議では、文字間隔のヒストグ
ラムは、完全な解像度(縮小なし)かまたは縮小された
解像度のいずれかによって、イメージ全体にわたって展
開された。ある特定の解像度によるイメージの一部分に
わたる間隔の統計量(spacingstatistics)、あるいは、
ある解像度によるイメージのある部分の間隔の統計量と
それとは異なる解像度によるその他の部分の間隔の統計
量、を収集することもまた可能である。もし縮小ののち
の第1のヒストグラムピークが範囲において比較的に小
さいならば、そのことは、すべての文字が最初から完全
な解像度でまとまって密集していたということかもしれ
ないし、また、縮小がすべての文字をまとめて併合した
ということかもしれない。この場合、第1のピークは第
2のピークよりもさらに小さいかもしれない。もし1つ
のピークだけが観測されるのであれば、このことは、す
べての文字が併合されてしまっていることを意味し、そ
してそのピークがワード間の距離に対応することを意味
し、あるいは、そのイメージが1行につき1つのワード
しか持たない変則的なイメージであることを意味する。
【0125】上述のようにして得られたヒストグラムは
またテキスト行の境界ボックスを決定するのに使用され
てもよい。詳細には、図21(A)の実施例が、間隔が
ワード間の間隔に対応するピーク位置よりも相当に大き
くさえなければ、隣り合った境界ボックス(文字ボック
スと仮定される)を併合するように変更されてもよい。
このことはテキストの列を併合することを防止する。イ
メージがテキストブロックにセグメント化されている場
合、それは与えられたテキスト行のすべてのブロックを
併合するのに十分でさえもある。なぜなら、列の隙間を
越えて併合することはないという疑問が存在しないから
である。同様に、図19(B)の実施例が、ワード間の
間隔に対応するピーク位置よりもいくぶん大きな水平S
Eを選択するように変更されてもよい。
【0126】〔実験結果〕本発明の実験のために、30
0dpi でスキャンされたテキストのイメージが使用され
た。教育データは、髭飾り(serif) および髭飾りなし(s
ans-serif)を含んだ、8種類のフォントによる、約21
00のトークン(token) から構成された。ボールドフォ
ントまたはイタリックフォントは含まれなかった。デー
タは、テキストパッセージ(text passage)だけでなく、
単独文字(isolated characters) 、無意義語(nonsense
words)、をも含んだものであった。教育は、教育コーパ
ス(training corpus) 全体にわたるバーム−ウェルチ手
順の5回の反復を用いてなされた。
【0127】テストイメージは5つの雑誌または議事録
から内容目録のスキャンされたイメージから構成され
た。上述において論議したように、スポッタ(spotter)
は、代替キーワードとして変形を提供することによっ
て、例えば先頭文字(lead-case)および複数形(pluraliz
ation) のようなワードの変形を検出するように指示さ
れてもよい。このモードにおいてスポッタを実行させ
て、テストイメージにおけるつぎのワードのグループを
スポッティングした。{Computer computer computers
}{Hidden hidden }{IEEE}{Identification iden
tification }{ImageImages image images }{Marko
v}{Models Model models model }{Parallelparalle
l }{Quantization quantization }{Quantizer Quan
tizers quantizer quantizers }{Recognition recogn
ition }{Recognizer Recognizers recognizer recogn
izers }{Society society }{Speaker Speakers spe
aker speakers }{Speech speech }{Synthesis synt
hesis }{Synthesizer Synthesizers synthesizer syn
thesizers }{Synthetic synthetic }{System Syste
mssystem systems }{Vector vector }{Verificatio
n verification }{Vision vision }{1985}{199
0}{1992}。5つの内容目録において全部で約160個の
キーワードが存在した。
【0128】ここでは構造化要素の列が使用されたが、
いくつかの小さなフォントに対してはボクサーが行内の
ワードのいくつかを併合するかもしれない。ここで使用
されたテスト装置構成では、キーワードにおいて3つの
そのような誤りがあり、これらは検出率の計算には含ま
れなかった。しかしながら、そのような誤りはテキスト
の行内のワードをスポッティングすることによって処理
されるであろう。
【0129】上述において説明されたように、テストは
フォーワードアルゴリズムを用いてなされた。キーワー
ドは、もしそれがそのキーワードを含むワードグループ
における変形のどれかとして識別されるのであれば、正
しくスポッティングされたとみなされた。誤り検出は、
非キーワードを含む境界ボックスが現時点のキーワード
グループにおけるキーワードのどれかとして識別された
場合に発生したとみなされた。
【0130】キーワード検出率は、キーワードの総数と
比較した正しくスポッティングされたキーワードの数と
して計算された。誤り検出率は、その実行でテストされ
た非キーワード境界ボックスの総数と比較した非キーワ
ード境界ボックスが識別された回数として計算された。
【0131】システム性能は、キーワードが正しく識別
された率P(D)と、非キーワードボックスがキーワー
ドのどれかとして不正に識別された率P(F)と、を比
較することによって評価された。しきい値Tは、検出率
に対する誤り検出率の範囲をスイープするように変化さ
せられた。典型的なシステム性能は、約0.2%の誤り
検出率とともに95〜96%程度のキーワード検出率を
有した。
【0132】図22〜図25は、異なったSEを用いて
ワードボクサーによって操作された代表的な入力イメー
ジを示す。これらの図は一般に実物大でイメージを示す
(実際には、17.5cmの元のテキスト幅からわずか
に縮小されている)。この縮小はボクシング操作におい
て実行されるしきい値処理される縮小とは別のものであ
り関係もない。大きな長方形は、単に処理されたイメー
ジの周囲の枠であり、元々のイメージすなわち処理され
たイメージの一部ではない。
【0133】図22は、(2,5)のSE対によって2
×の縮小がなされたイメージをクローズした結果によっ
て、すなわち、2×1のSEによる垂直クローズと1×
5のSEによる水平クローズとの結果によって生じたワ
ードボックスを示す。このSE対は一般的には小さすぎ
る。なぜなら、それは、小さなフォントのテキスト本体
においていくつかのワードをボックス化することに失敗
し、またより大きなフォントの表題においてワードをボ
ックス化することに一般的に失敗するからである。
【0134】図23は、2×の縮小がなされたイメージ
を(3,5)のSE対によってクローズした結果によっ
て生じたワードボックスを示す。このSE対は、テキス
ト本体をボックス化するのに多少はより良く作用する
が、より大きな垂直のSEは、時々、垂直に隣り合った
ワードを併合する。
【0135】図24は、2×の縮小がなされたイメージ
を(4,8)のSE対によってクローズした結果によっ
て生じたワードボックスを示す。このSE対は、テキス
ト本体において複数のワードをまとめて併合するが、表
題のワードをボックス化をうまく処理する。
【0136】図25は、複数のSE対によって提供され
る境界ボックスの組を連合を示す。分かるように、他の
SE対が失敗してしまったときにワードを正しくボック
ス化する1つのSE対が通常は存在する。
【0137】図26および図27は、2×の縮小がなさ
れたイメージを(2,20)のSE対および(2,2
5)のSE対によってクローズした結果によって生じた
テキスト行ボックスを示す。(2,20)のSE対は、
時々、完全なテキスト行をボックス化することに失敗す
るが、(2,25)のSE対によれば誤りが存在しな
い。
【0138】〔アプリケーション〕以下のアプリケーシ
ョンのそれぞれにおいて、ワードイメージスポッタは、
ユーザによって指定されるキーワードの位置の識別を可
能にする。ゆえに、完全なイメージの光学的文字認識が
なされることを必要としない、そして、ASCIIキー
ワードがイメージとともに記憶される必要がない、キー
ワードに基づくアプリケーションが開発されることが可
能である。このことは、テキストのイメージがキーワー
ドの存在を判定するのに一度だけ使用され、それでもし
キーワードが検出されなければ放棄される場合に特に有
益である。
【0139】ワードイメージスポッティングの1つのア
プリケーションは、テキストの関心のある部分または興
味のある項目を含んでいるテキストが識別され処理され
るような、情報フィルタリングの分野に存在する。例え
ば、書籍または長文の報告書が与えられれば、関心のあ
る部分を識別することがしばしば望まれる。ワードイメ
ージスポッティングが、この機能を提供するために複写
機に組み込まれてもよい。ユーザは関心のあるキーワー
ドの組をタイプ入力してもよい。つぎに、複写機がこれ
らのキーワードの発生に基づいて出力を生成するように
プログラムされる。例えば、複写機は、そのキーワード
を含むページ(または段落)だけを再生成してもよい
し、あるいは、キーワードまたはキーワードが検出され
た段落を強調表示してもよい。別の可能性は、例えばキ
ーワードフレーズ“個人データ”あるいは“著作権によ
り保護”のような特定のキーワードフレーズの発生が複
写機に警報フラグを設定するのに使用されてもよいこと
である。例えばファクシミリ文書が“緊急”あるいは
“至急”のようなワードを含む場合にユーザに通知する
ために、これらの技術がファクシミリ装置にも使用され
てもよい。
【0140】また、ワードイメージスポッタは、文書の
スキャンされたイメージからの情報検索におけるアプリ
ケーションをも有する。ここでは、ユーザ指定のキーワ
ードの組が興味のある文書を表示するのに使用される。
もっとも高くランクづけされた文書の検索の後、ユーザ
はキーワードの組を変更してもよい。
【0141】〔ソフトウェアに関する論議〕本発明の上
述された実施例はディジタル計算機のソフトウェアによ
って実現される。プログラムは、この分野に精通した者
には良く知られたC言語およびパール言語(perl langua
ges)によるものである。プログラムは、サンワークステ
ーション(Sun Workstation)で展示実
行されたが、この分野に精通した者には明らかなよう
に、多くの種類のプログラミング言語およびハードウェ
ア構成が、本発明の範囲から逸脱することなく本発明の
開示するところに基づいて容易に使用されるであろう。
【0142】〔終わりに〕最後に、本発明およびそれの
関連技術が、ユーザ定義キーワードをモデル化し、ワー
ドおよびスキャンされたイメージにおけるテキスト行の
境界ボックスを捜し出し、イメージにおけるキーワード
をスッポッティングするための、耐久性があり効果的な
技術を提供することがわかる。上述されたことは、本発
明の好ましい実施例の完全な説明であるが、種々の変
更、代替の構成、等価なものが使用されるかもしれな
い。
【0143】例えば、テキスト行を識別する別の方法
は、まず列を識別し、つぎにそれぞれの列にわたっての
黒の画素のコンピュータヒストグラムを生成することで
ある。ヒストグラムのピークがテキストの行に対応す
る。加えて、個々の特徴として上側および下側のワード
輪郭を用いる代わりに、単一の特徴としてそれらの差分
が用いられる。このように、それぞれの画素列におい
て、上側および下側のワード輪郭の値が計算され、つぎ
に、文字の形状を記述する単一の特徴として使用され
る。単一の特徴を用いるときに情報が紛失されるが、特
徴がワードのアセンダおよびディセンダの存在とそれら
の高さに依存しないという利点がある。
【0144】したがって、上述の記述および説明は本発
明の範囲を限定するものと解釈されるべきではない。
【0145】〔参考資料〕 1.1991年 9月のフランス国セイント−マロにおける文
書の解析と認識に関する国際会議の会報の頁963 〜971
の D.S. Bloomberg による『MultiresolutionMorpholog
ical Approach to Document Image Analysis 』。
【0146】2.1992年 9月のオランダ国におけるパタ
ーン認識に関する国際会議の会報の頁116 〜119 の C.
B. BoseおよびS.Kuo らによる『Connected and Degrade
d Text Recognition Using Hidden Markov Model 』。
【0147】3.1992年 3月のカリフォルニア州サンフ
ランシスコにおける音響と音声および信号処理に関する
国際会議の会報の第 3巻の頁153 〜156 の Y. He、M.Y.
Chen 、およびA. Kunduらによる『Handwritten Word R
ecognition Using HMM withAdaptive Length Viterbi A
lgorithm 』。
【0148】4.1990年11月のUSPS高度技術会議の
会報の頁217 〜231 の T.K. Ho、J.J. Hull 、およびS.
N. Srihariらによる『A Word Shape Analysis Approach
toRecognition of Degraded Word Images 』。
【0149】5.1987年 3月の『IEEE Trans.Pattern A
nalysis and Machine Intelligence』の第 2号の第 9巻
の S.Kahan、T. Pavlidis および H.S. Baird らによる
『Onthe Recognition of Printed Characters of Any F
ont and Size 』。
【0150】6.1988年の音響と音声および信号処理に
関する国際会議の会報の頁283 〜286 の D.B. Paulおよ
びE.A. Martin らによる『Speaker Stress-Resistant C
ontinuous Speech Recognition』。
【0151】7.1989年 2月の『IEEE Trans.Pattern A
nalysis and Machine Intelligence』の第 2号の第77巻
の L.R. Rabiner による『A Tutorial on Hidden Marko
v Models and Selected Applications in Speech Recog
nition』。
【図面の簡単な説明】
【図1】本発明が組み込まれてもよいコンピュータシス
テムのブロック図である。
【図2】(A)は、入力イメージにおいてキーワードを
スポッティングするための第1の方法の高い階層でのフ
ロー図であり、(B)は、入力イメージにおいてキーワ
ードをスポッティングするための第2の方法の高い階層
でのフロー図である。
【図3】ワードボックスを決定するための技術のフロー
チャートである。
【図4】連結成分の境界ボックスを決定するための特定
の技術のフローチャートである。
【図5】それらの境界ボックスにおける潜在的なキーワ
ードを正規化するための技術のフローチャートである。
【図6】ワードの高さの正規化を示す。
【図7】特徴生成におけるステップを説明するフローチ
ャートである。
【図8】(A)は境界ボックス内のワードを示し、
(B)は境界ボックスと比較した上側のワード輪郭を示
し、(C)は境界ボックスと比較した下側のワード輪郭
を示し、(D)は上側のワード輪郭と下側のワード輪郭
が重ね合わされたものを示す。
【図9】画素列の自己相関がどのようにして内部文字構
造を提供するかを概略的に示す。
【図10】(A)はいくつかの代表的な文字の状態を示
し、(B)および(C)は文字HMMに関する状態図で
あり、(D)は文字HMMsから構築されるキーワード
HMMに関する状態図である。
【図11】文字HMMから構築される文脈非依存型の非
キーワードHMMに関する状態図である。
【図12】文脈依存型の文字セットHMMに関する状態
図である。
【図13】その文脈依存型の文字セットHMMから構築
される文脈依存型非キーワードHMMに関する状態図で
ある。
【図14】(A)はイメージスライスを表現するガウス
分布から構築される文脈非依存型非キーワードHMMの
状態図であり、(B)は文脈依存型イメージスライスH
MMに関する状態図であり、(C)はその文脈依存型イ
メージスライスHMMから構築される文脈依存型非キー
ワードHMMに関する状態図である。
【図15】(A)および(B)は、不特定のより長いワ
ードの一部であるキーワードをスポッティングするのに
使用されるHMMに関する状態図である。
【図16】キーワードスポッティングネットワークの状
態図である。
【図17】テキスト中のワードの区別がつかない行にお
いてキーワードをスポッティングするのに使用されるH
MMの状態図である。
【図18】(A)および(B)は、特殊なキーワード文
脈に関するテキスト行HMMの状態図である。
【図19】ワードボックスを決定するためのもう1つの
技術のフローチャートである。
【図20】テキスト行において境界ボックスを順序づけ
するための技術のフローチャートである。
【図21】(A)および(B)は、ワードボックスを決
定するためにヒストグラム情報を用いるためのそれぞれ
異なった技術のフローチャートである。
【図22】ワードのボックス化のために種々の大きさの
構造化要素を用いてボックス化される代表的な入力イメ
ージを示す。
【図23】ワードのボックス化のために種々の大きさの
構造化要素を用いてボックス化される代表的な入力イメ
ージを示す。
【図24】ワードのボックス化のために種々の大きさの
構造化要素を用いてボックス化される代表的な入力イメ
ージを示す。
【図25】ワードのボックス化のために種々の大きさの
構造化要素を用いてボックス化される代表的な入力イメ
ージを示す。
【図26】テキスト行のボックス化のために種々の大き
さの構造化要素を用いてボックス化される代表的な入力
イメージを示す。
【図27】テキスト行のボックス化のために種々の大き
さの構造化要素を用いてボックス化される代表的な入力
イメージを示す。
【符号の説明】
10・・・イメージ処理システム 20・・・キーワードスポッティングシステム 22・・・入力文書 25・・・出力文書 50・・・キーワードスポッティングシステム
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G06K 9/50 G06K 9/50 9/72 9/72 Z G06T 7/00 350 G06T 7/00 350A (56)参考文献 特開 平4−329597(JP,A) 特開 平3−94299(JP,A) 特開 平1−265378(JP,A) 特開 平3−225488(JP,A) 特開 昭64−1086(JP,A) 特開 平6−223227(JP,A) 構文解析駆動型日本語連続音声認識シ ステム,電子情報通信学会論文誌,日 本,1989年,Vol.J72−D−2 N o.8,pp.1276−1283 (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82 G06F 17/30 G06T 7/00

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 潜在的にテキストを含み、該テキストが
    水平方向へ延出すると考えられるビットマップ入力イメ
    ージにキーワードが存在するかどうかを判定するプロセ
    ッサベースの方法において使用するために、キーワード
    が該ビットマップ入力イメージにおいて表されるよう
    に、該キーワードの外観をモデル化する方法であって、 文字セットの1組の単一文字隠れマルコフモデル(HM
    M)を提供する段階と、 キーワードHMMを定義するためにキーワード中の文字
    に対応する単一文字HMMを連結する段階と、 キーワードHMMを含むHMMネットワークを構築する
    段階と、 を備え、 前記提供する段階は、 それぞれの文字が水平方向の位置の垂直スライスを表す
    少なくとも1個のパラメータにより文字に沿う複数の水
    平方向位置の各々で特徴付けられる形状を有し、 前記文字セットのそれぞれの文字が複数の区分された部
    分を有し、少なくともいくつかの文字の該区分された部
    分の数は1より大きく、 それぞれの区分された部分は前記複数の水平方向位置の
    各々隣接するサブセットにおよび、 与えられた文字に対する与えられた単一文字HMMが複
    数の状態により特徴付けられ、この各状態が与えられた
    文字の複数の区分された部分のそれぞれ1個に対応し、 各状態が与えられた文字の対応する区分された部分に対
    する少なくとも1個のパラメータの統計的分布により特
    徴付けられ、 垂直スライスを表すために使用されるパラメータの何れ
    もが文字のベースラインを参照されることがなく、 それぞれの単一文字HMMは文字がアセンダを持つか、
    及び文字セット中の他の文字がアセンダを持つかデセン
    ダを持つか、に依存する複数の可能な文脈を有し、 キーワードHMMを形成するように連結された単一文字
    HMMが同じ文脈を有する、 ことを特徴とする、 キーワードの外観をモデル化する方法。
  2. 【請求項2】 (a)キーワードが入力イメージに表さ
    れるように、該キーワードの外観をモデル化する、少な
    くとも1つのキーワード隠れマルコフモデル(HM
    M)、および(b)入力画像のキーワードではないワー
    ドの外観をモデル化する非キーワードHMM、を含むキ
    ーワードスポッティングネットワークにおいて使用する
    ために、文脈非依存型の文字に基づく非キーワードHM
    Mを提供する方法であって、文字セットの1組の文字HMMを提供する段階であっ
    て、各々の文字HMMは、文字がアセンダを持つか、デ
    センダを持つか、および、該文字セットの他の文字がア
    センダを持つか、デセンダを持つか、による、複数の可
    能な文脈を有する、該段階と、 HMMを通しての非キーワードに関する最適なパスが非
    キーワード内の文字の文脈によって制約されないよう
    に、リターンループを備えたヌル状態の間に、同一文字
    の異なる文脈の文字HMMを含む、文字HMMを並列に
    接続する段階と、 を備える文脈非依存型の文字に基づく非キーワードHM
    Mの提供方法。
  3. 【請求項3】 (a)キーワードが入力イメージに表さ
    れるように、該キーワードの外観をモデル化する、少な
    くとも1つのキーワード隠れマルコフモデル(HM
    M)、および(b)入力画像のキーワードではないワー
    ドの外観をモデル化する非キーワードHMM、を含むキ
    ーワードスポッティングネットワークにおいて使用する
    ために、文脈依存型の文字に基づく非キーワードHMM
    を提供する方法であって、文字セットの1組の文字HMMを提供する段階であっ
    て、各々の文字HMMは、文字がアセンダを持つか、デ
    センダを持つか、および、該文字セットの他の文字がア
    センダを持つか、デセンダを持つか、による、複数の可
    能な文脈を有する、文字セットの1組の文字HMMを提
    供する段階と、 それぞれの組が特定の文脈に対応し、該特定の文脈を持
    つ文字HMMのみを含む、第1、第2、第3、及び第4
    の組の文字HMMを提供する段階と、 それぞれがリターンループを備えたヌル状態の間に並列
    に接続されるそれぞれの文脈に関するそれぞれの組の文
    字HMMを有するそれぞれの単一文脈文字セットHMM
    を構築する段階と、 HMMを通しての非キーワードに関する最適なパスが非
    キーワード内の文字の文脈によって制約されるように、
    リターンループを備えないヌル状態の間に単一文脈文字
    セットHMMを並列に接続する段階と、 を備える文脈依存型の文字に基づく非キーワードHMM
    の提供方法。
  4. 【請求項4】 (a)キーワードが入力イメージに表さ
    れるように、該キーワードの外観をモデル化する、少な
    くとも1つのキーワード隠れマルコフモデル(HM
    M)、および(b)入力画像のキーワードではないワー
    ドの外観をモデル化する非キーワードHMM、を含むキ
    ーワードスポッティングネットワークにおいて使用する
    ために、文脈非依存型のイメージスライスに基づく非キ
    ーワードHMMを提供する方法であって、 イメージスライス状態のセットを提供する段階であっ
    て、該イメージスライス状態は入力イメージの該部分の
    垂直スライスをモデル化し、文字がアセンダを持つか、
    デセンダを持つかに関する、入力イメージの部分の文字
    の文脈に関係なく提供する、該段階と、 HMMを通しての非キーワードに関する最適なパスが非
    キーワード内の文字の文脈によって制約されないよう
    に、リターンループを備えたヌル状態の間にイメージス
    ライス状態のセットを並列に接続する段階と、 を備える文脈非依存型のイメージスライスに基づく非キ
    ーワードHMMの提供方法。
  5. 【請求項5】 (a)キーワードが入力イメージに表さ
    れるように、該キーワードの外観をモデル化する、少な
    くとも1つのキーワード隠れマルコフモデル(HM
    M)、および(b)入力画像のキーワードではないワー
    ドの外観をモデル化する非キーワードHMM、を含むキ
    ーワードスポッティングネットワークにおいて使用する
    ために、文脈依存型のイメージスライスに基づく非キー
    ワードHMMを提供する方法であって、文字がアセンダを持つか、デセンダを持つかに関する、
    第1、第2、第3、および第4の文脈に対応する第1、
    第2、第3、および第4のイメージスライス状態のセッ
    トを提供する段階であって、与えられたセットのイメー
    ジスライス状態は文字イメージのセットの部分の垂直ス
    ライスをモデル化し、該セットの特定の文脈における該
    イメージスライス状態のセットを提供する、該段階と、 それぞれがリターンループを備えたヌル状態の間に接続
    されるそれぞれの文脈に関するイメージスライス状態を
    有するそれぞれの単一文脈イメージスライスセットHM
    Mを構築する段階と、 HMMを通しての非キーワードに関する最適なパスが非
    キーワード内の文字の文脈によって制約されるように、
    リターンループを備えないヌル状態の間に単一文脈イメ
    ージスライスセットHMMを並列に接続する段階と、 を備える文脈依存型のイメージスライスに基づく非キー
    ワードHMMの提供方法。
JP30926493A 1992-12-17 1993-12-09 キーワードのモデル化方法及び非キーワードhmmの提供方法 Expired - Lifetime JP3422541B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US99191192A 1992-12-17 1992-12-17
US991911 1992-12-17

Publications (2)

Publication Number Publication Date
JPH0778222A JPH0778222A (ja) 1995-03-20
JP3422541B2 true JP3422541B2 (ja) 2003-06-30

Family

ID=25537714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30926493A Expired - Lifetime JP3422541B2 (ja) 1992-12-17 1993-12-09 キーワードのモデル化方法及び非キーワードhmmの提供方法

Country Status (4)

Country Link
US (1) US5592568A (ja)
EP (1) EP0602956B1 (ja)
JP (1) JP3422541B2 (ja)
DE (1) DE69329330T2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
JP3195752B2 (ja) * 1997-02-28 2001-08-06 シャープ株式会社 検索装置
BR9913524A (pt) * 1998-09-09 2001-06-05 Asahi Chemical Ind Reconhecedor de voz, e, processo de reconhecimento de voz
US7392472B2 (en) * 2002-04-25 2008-06-24 Microsoft Corporation Layout analysis
US7110596B2 (en) * 2002-04-25 2006-09-19 Microsoft Corporation System and method facilitating document image compression utilizing a mask
US7164797B2 (en) * 2002-04-25 2007-01-16 Microsoft Corporation Clustering
US7024039B2 (en) * 2002-04-25 2006-04-04 Microsoft Corporation Block retouching
US7120297B2 (en) * 2002-04-25 2006-10-10 Microsoft Corporation Segmented layered image system
US7263227B2 (en) * 2002-04-25 2007-08-28 Microsoft Corporation Activity detector
US7043079B2 (en) * 2002-04-25 2006-05-09 Microsoft Corporation “Don't care” pixel interpolation
DE10224948A1 (de) * 2002-06-05 2004-05-27 Egner, Steffen, Dr. Vorrichtung und Verfahren zum Untersuchen von Bildern
US7962846B2 (en) * 2004-02-13 2011-06-14 Microsoft Corporation Organization of annotated clipping views
US7711192B1 (en) * 2007-08-23 2010-05-04 Kaspersky Lab, Zao System and method for identifying text-based SPAM in images using grey-scale transformation
US7706613B2 (en) * 2007-08-23 2010-04-27 Kaspersky Lab, Zao System and method for identifying text-based SPAM in rasterized images
US8041139B2 (en) * 2008-09-05 2011-10-18 The Neat Company, Inc. Method and apparatus for calculating the background color of an image
US9003531B2 (en) * 2009-10-01 2015-04-07 Kaspersky Lab Zao Comprehensive password management arrangment facilitating security
US20140337031A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9075961B2 (en) * 2013-09-10 2015-07-07 Crimsonlogic Pte Ltd Method and system for embedding data in a text document
CN105956588A (zh) * 2016-04-21 2016-09-21 深圳前海勇艺达机器人有限公司 智能扫描及朗读文字的方法及其机器人装置
CN106569997B (zh) * 2016-10-19 2019-12-10 中国科学院信息工程研究所 一种基于隐式马尔科夫模型的科技类复合短语识别方法
CN107895393A (zh) * 2017-10-24 2018-04-10 天津大学 一种综合文字和形状的故事图像序列生成方法
CN111626302B (zh) * 2020-05-25 2022-07-29 西北民族大学 乌金体藏文古籍文档图像的粘连文本行切分方法及系统
CN117612172B (zh) * 2024-01-24 2024-03-19 成都医星科技有限公司 脱敏位置定位及脱敏方法、装置、电子设备与存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3969698A (en) * 1974-10-08 1976-07-13 International Business Machines Corporation Cluster storage apparatus for post processing error correction of a character recognition machine
US4155072A (en) * 1976-12-17 1979-05-15 Ricoh Company, Ltd. Character recognition apparatus
US5060277A (en) * 1985-10-10 1991-10-22 Palantir Corporation Pattern classification means using feature vector regions preconstructed from reference data
US4754489A (en) * 1985-10-15 1988-06-28 The Palantir Corporation Means for resolving ambiguities in text based upon character context
US5075896A (en) * 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US5048109A (en) * 1989-12-08 1991-09-10 Xerox Corporation Detection of highlighted regions
US5151951A (en) * 1990-03-15 1992-09-29 Sharp Kabushiki Kaisha Character recognition device which divides a single character region into subregions to obtain a character code
US5081690A (en) * 1990-05-08 1992-01-14 Eastman Kodak Company Row-by-row segmentation and thresholding for optical character recognition
US5237627A (en) * 1991-06-27 1993-08-17 Hewlett-Packard Company Noise tolerant optical character recognition system
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5201011A (en) * 1991-11-19 1993-04-06 Xerox Corporation Method and apparatus for image hand markup detection using morphological techniques
US5321770A (en) * 1991-11-19 1994-06-14 Xerox Corporation Method for determining boundaries of words in text
CA2077604C (en) * 1991-11-19 1999-07-06 Todd A. Cass Method and apparatus for determining the frequency of words in a document without document image decoding
US5438630A (en) * 1992-12-17 1995-08-01 Xerox Corporation Word spotting in bitmap images using word bounding boxes and hidden Markov models

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
構文解析駆動型日本語連続音声認識システム,電子情報通信学会論文誌,日本,1989年,Vol.J72−D−2 No.8,pp.1276−1283

Also Published As

Publication number Publication date
JPH0778222A (ja) 1995-03-20
EP0602956B1 (en) 2000-08-30
EP0602956A2 (en) 1994-06-22
DE69329330D1 (de) 2000-10-05
DE69329330T2 (de) 2001-01-04
US5592568A (en) 1997-01-07
EP0602956A3 (en) 1995-01-18

Similar Documents

Publication Publication Date Title
JP3422542B2 (ja) プロセッサベースの判定方法
JP3272842B2 (ja) プロセッサベースの判定方法
JP3422541B2 (ja) キーワードのモデル化方法及び非キーワードhmmの提供方法
US5825919A (en) Technique for generating bounding boxes for word spotting in bitmap images
US8731300B2 (en) Handwritten word spotter system using synthesized typed queries
CA2174258C (en) Method and system for automatic transcription correction
US5390259A (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
US5491760A (en) Method and apparatus for summarizing a document without document image decoding
US5402504A (en) Segmentation of text styles
CA2171773C (en) Automatic training of character templates using a transcription and a two-dimensional image source model
EP2144188B1 (en) Word detection method and system
Chen et al. Word spotting in scanned images using hidden Markov models
Elms et al. The advantage of using an HMM-based approach for faxed word recognition
Chen et al. Detecting and locating partially specified keywords in scanned images using hidden Markov models
EP3539051A1 (en) System and method of character recognition using fully convolutional neural networks
US20030156754A1 (en) Method and system for extracting title from document image
Zhou et al. Learning-based scientific chart recognition
Elms The representation and recognition of text using hidden Markov models
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Kameshiro et al. A document image retrieval method tolerating recognition and segmentation errors of OCR using shape-feature and multiple candidates
EP0602955B1 (en) Text recognition
Reul et al. Automatic Semantic Text Tagging on Historical Lexica by Combining OCR and Typography Classification: A Case Study on Daniel Sander's Wörterbuch der Deutschen Sprache
US5940533A (en) Method for analyzing cursive writing
Pourreza et al. Sub-word based Persian OCR using auto-encoder features and cascade classifier
Chen et al. Detection and location of multicharacter sequences in lines of imaged text

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030408

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140425

Year of fee payment: 11

EXPY Cancellation because of completion of term