JP4418726B2

JP4418726B2 - 文字列探索装置、探索方法およびこの方法のプログラム

Info

Publication number: JP4418726B2
Application number: JP2004289881A
Authority: JP
Inventors: 章鈴木; 良規草地; 慎吾安藤; 賢一荒川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-10-01
Filing date: 2004-10-01
Publication date: 2010-02-24
Anticipated expiration: 2024-10-01
Also published as: JP2006106931A

Description

本発明は、濃淡画像から指定された文字列が存在する位置を探索する文字列探索装置、および方法に関する。

景観の濃淡画像に写った文字列の認識技術の一つに、画像を２値化せずに濃淡のままで用い、ずらしマッチングにより各文字カテゴリの基準となる形状を表す認識辞書と画像の各領域の近さを算出し、算出された近さの値のマップから局所的なピークを全て取り出し、それらピークの中であらかじめ決められた文字列の図形的な配置規則に従うピークの列を抽出する技術がある（例えば、特許文献１参照）。

この探索技術では濃淡画像を２値化しないため、撮影条件が悪く画像のコントラストが低い場合、部分的な隠蔽がある場合、文字間の接触、複雑な背景、文字の陰影等に対して強いという特徴がある。
特開２００１−３０７０２１号公報

前記の特許文献１の詳細な説明では、図３８に「電話会社」という文字列が写った濃淡画像の例を示すように、認識対象とする文字が変形しうる場合についての対策は記載されていないが、その[請求項７]には抽出の対象である画像もしくは認識辞書を変形させることで認識対象とする文字の変形に対処する方法が記載されている。

また、特許文献１の詳細な説明では、認識対象を数字の集合に限定しているが、これは他の場合、例えば漢字の集合に容易に拡張できる。

また、特許文献１の詳細な説明では、認識辞書と画像の各領域との近さの距離値としては相関を用いているが、これは他の距離値、例えばユークリッド距離、該特徴空間における少数の特徴ベクトルで近似された部分空間への投影距離（田村秀行：「コンピュータ画像処理」pp282-286、オーム社出版局、2002）、カーネル関数により定義された非線形変換を利用して作成した該部分空間への投影距離（前田英作、村瀬洋：「カーネル非線形部分空間法によるパターン認識」、電子情報通信学会論文誌D-II、VOL.J82-D-II、NO.4、pp600-612、1999年4月）、ベイズ推定や最尤推定等の特徴ベクトル空間における生起確率（Richard O.Duda、Peter E.Hart、David G.Stork：「パターン識別」84-101、新技術コミュニケーションズ、2001）が使用できることは容易に類推できる。

また、認識辞書と画像の各領域との近さの算出の際に、両者の画像をそのまま用いているが、これを他の特徴量、例えば画素値の２乗の合計が一定値になるように正規化したものや、濃淡の加重方向ヒストグラム特徴の各特徴量の２乗の合計値が一定値になるように正規化したものを用いることもできる。

ここで、説明のために、従来技術において、対象とする画像の解像度を複数段階に変化させることとし、またアフィン変換によって様々な歪を加えたテンプレートをあらかじめ用意しておき、それらのテンプレートを用いて解像度を複数段階に変化させた各画像に対してずらしマッチングを行なうこととする。また認識辞書と画像の各領域との近さの距離値としてはユークリッド距離を用いることとする。

複数段階の解像度の例として、図３９の（ａ）〜（ｄ）は、各々図３８の原画像を、０.７倍、０.８倍、１.０倍、１.２倍したものであり、各々の左上の矩形は、例とする観測窓の大きさ（４０画素×４０画素）を表している。走査の結果、各解像度毎に候補文字の検出結果が生成されるが、図４０は原画像を０.７倍に縮小した図３９（ａ）に対する走査結果の模式図である。図において、［］と■で表される点が正しい候補文字、（）と×で表される点が偽の候補文字である。［］、（）内の情報は、第１が候補文字、第２が認識結果の距離値である。このような結果が複数の解像度分だけ生成される。

従来技術においては、この後に、それらピークの中であらかじめ決められた文字列の図形的な配置規則に従うピークの列を抽出する処理を行なうが、認識対象がナンバープレート以外の場合（例えば日本語の看板等）には、この処理ではうまく働かないことがある。理由は、認識対象カテゴリを漢字のように大きなセット（ＪＩＳ第１水準のセットで２９６５個）にすると非常に多くの偽のピークが発生することと、文字の背景が無地であるナンバープレートとは異なり看板の文字の背景には模様がある場合がありその場合には模様の部分からやはり非常に多くの偽のピークが発生するため、文字列の図形的な配置規則に従う偽のピークの列が数多く抽出されることによる。

ここで、画像を検索するためであれば、必ずしも正しい文字列だけが抽出できなくとも、ピーク（以降、これを候補文字と呼ぶ）の集合をまとめたものをインデクスとし、このようなインデクスを用いて文字列をキーとして（例えば「電話会社」をキーとして入力して）画像を検索できればよいことに注目する。そのためには、背景からの偽の候補文字も大量に出現することを前提として「電話会社」のような文字列が空間的な規則性を持ってインデクスの中に存在する個所を探索する手段が必要である。これを行なうためには、検索キーとされた文字列の文字数をＬとした場合、候補文字の総数をＭとすると、Ｍ個の中からＬ個を選ぶ_MＣ_L個全ての組み合わせに対して、検索文字列と一致するか否か、さらに空間的に直線的に低ピッチで並んでいるか否か、を調べる必要があり、膨大な処理時間が必要であった。

本発明の目的は、濃淡画像を２値化することなく、濃淡画像から指定される文字列を探索する方式において、探索処理時間を大幅に短縮できる文字列探索装置、探索方法およびこの方法のプログラムを提供することにある。

本発明は、前記の課題を解決するため、探索の際に、探索キーとされた長さＬの文字列から、該文字列の前から後の方向に存在する全ての２個の文字の組である文字ペアを選び、各々の文字ペアに対して、候補文字集合中から文字カテゴリが一致する全ての２個の候補文字の組を探索する処理を行い、該処理の結果探索された全ての２個の候補文字の組に対して、ピッチが一定でかつ直線的に並ぶ文字列を特定するパラメータの組を算出し、該２個の候補文字の組と該パラメータの組の情報を投票空間に投票する処理を基本とする。

以上の処理の処理量の期待値は、下記の２つの数値Ａ，Ｂ、
・長さＬの文字列から抽出される文字ペアの個数：Ａ＝_LＣ₂
・Ｍ個の候補文字集合中に存在する、文字ペアと文字カテゴリが一致する全ての２個の候補文字の組の数の期待値：Ｂ＝（Ｍ／全認識対象カテゴリ数）²
の積に比例するため、従来の探索方法での処理量が_MＣ_Lに比例するのに比べて処理量を非常に小さくするもので、以下の装置、方法およびプログラムを特徴とする。

（装置の発明）
（１）画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索装置において、
前記探索を指定された文字列の任意の２個の文字に対応する候補文字のペアについて、２個の文字の文字位置から前記候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、２つの候補文字の大きさの関係が所定の範囲内で、かつ、前記文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと前記文字間ピッチの関係が所定の範囲内という条件を満足するものだけを選ぶ投票手段と、
前記候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納手段と、
前記投票空間格納手段によりまとまったもののうち、探索文字列の文字数から定まる所定数以上の候補文字があるものを抽出する候補点群作成手段と、
前記候補点群作成手段で抽出された候補文字の中から、なるべく直線的に並ぶ候補文字に絞る候補点選択手段とを備えたことを特徴とする。

（２）画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索装置において、
前記候補文字集合に含まれる候補文字を互いに比較し、解像度と空間的距離が近い候補文字の集合を選択し、該集合の中で相対的に認識結果の距離値が大きい候補文字を削除する候補文字絞込み手段と、
前記探索を指定された文字列から、該文字列の前から後の方向に存在する全ての２個の文字の組である文字ペアを選び、各々の文字ペアに対して前記候補文字集合中から文字カテゴリが一致する全ての２個の候補文字の組を探索する処理を行い、該処理の結果探索された全ての２個の候補文字の組に対して、前記候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、２つの候補文字の大きさの関係が所定の範囲内で、かつ、前記文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと前記文字間ピッチの関係が所定の範囲内という条件を満足するものだけを選ぶ投票手段と、
前記候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納手段と、
前記投票空間格納手段によりまとまった固まりのうち、記録された回数が探索を指定された文字列の長さ別に指定された閾値を越える固まりを抽出し、各抽出された固まりに対して、当該固まりに含まれる全ての候補文字の情報のリストである候補文字・文字位置リストを作成し、当該固まりに含まれる全ての候補文字の前記先頭文字の座標位置、および前記文字間ピッチの平均値を算出して候補文字・文字位置リストに記入する処理を行う候補点群作成手段と、
前記候補点群作成手段が作成した候補文字・文字位置リストに対して、それに含まれる前記平均値から、探索を指定された文字列の全ての文字位置に該当する画像中の座標を仮想座標として算出し、該候補文字・文字位置リストに、同一の文字位置の複数の候補文字が含まれる場合には、該文字位置に該当する前記仮想座標とのユークリッド距離が最小の候補文字を残して他を削除する処理を行なう候補点選択手段とを備えたことを特徴とする。

（３）上記の（２）に記載の文字列探索装置において、
複数の単語を含む単語辞書と、
前記候補文字絞込み手段によって得られる候補文字集合について、前記単語辞書中の単語の各々に対して、該単語を探索文字列として該探索文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索する処理を行い、該処理結果に該単語の文字数から定まる所定数以上の候補文字が存在する全ての単語について、各々の該探索処理における前記候補点選択手段の処理結果の情報を該単語と共にまとめて出力する単語辞書制御手段とを備えたことを特徴とする。

（方法の発明）
（４）画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索方法において、
前記探索を指定された文字列の任意の２個の文字に対応する候補文字のペアについて、２個の文字の文字位置から前記候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、２つの候補文字の大きさの関係が所定の範囲内で、かつ、前記文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと前記文字間ピッチの関係が所定の範囲内という条件を満足するものだけを選ぶ投票ステップと、
前記候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納ステップと、
前記投票空間格納ステップによりまとまったもののうち、探索文字列の文字数から定まる所定数以上の候補文字があるものを抽出する候補点群作成ステップと、
前記候補点群作成ステップで抽出された候補文字の中から、なるべく直線的に並ぶ候補文字に絞る候補点選択ステップとを備えたことを特徴とする。

（５）画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索方法において、
前記候補文字集合に含まれる候補文字を互いに比較し、解像度と空間的距離が近い候補文字の集合を選択し、該集合の中で相対的に認識結果の距離値が大きい候補文字を削除する候補文字絞込みステップと、
前記探索を指定された文字列から、該文字列の前から後の方向に存在する全ての２個の文字の組である文字ペアを選び、各々の文字ペアに対して前記候補文字集合中から文字カテゴリが一致する全ての２個の候補文字の組を探索する処理を行い、該処理の結果探索された全ての２個の候補文字の組に対して、前記候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、２つの候補文字の大きさの関係が所定の範囲内で、かつ、前記文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと前記文字間ピッチの関係が所定の範囲内という条件を満足するものだけを選ぶ投票ステップと、
前記候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納ステップと、
前記投票空間格納ステップによりまとまった固まりのうち、記録された回数が探索を指定された文字列の長さ別に指定された閾値を越える固まりを抽出し、各抽出された固まりに対して、当該固まりに含まれる全ての候補文字の情報のリストである候補文字・文字位置リストを作成し、当該固まりに含まれる全ての候補文字の前記先頭文字の座標位置、および前記文字間ピッチの平均値を算出して候補文字・文字位置リストに記入する処理を行う候補点群作成ステップと、
前記候補点群作成ステップが作成した候補文字・文字位置リストに対して、それに含まれる前記平均値から、探索を指定された文字列の全ての文字位置に該当する画像中の座標を仮想座標として算出し、該候補文字・文字位置リストに、同一の文字位置の複数の候補文字が含まれる場合には、該文字位置に該当する前記仮想座標とのユークリッド距離が最小の候補文字を残して他を削除する処理を行なう候補点選択ステップとを備えたことを特徴とする。

（６）上記の（５）に記載の文字列探索方法において、
複数の単語を含む単語辞書と、
前記候補文字絞込みステップによって得られる候補文字集合について、前記単語辞書中の単語の各々に対して、該単語を探索文字列として該探索文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索する処理を行い、該処理結果に該単語の文字数から定まる所定数以上の候補文字が存在する全ての単語について、各々の該探索処理における前記候補点選択ステップの処理結果の情報を該単語と共にまとめて出力する単語辞書制御ステップとを備えたことを特徴とする。
（プログラムの発明）
（７）上記の（１）〜（６）のいずれか１項に記載の文字列探索装置または探索方法における処理手順をコンピュータで実行可能に構成したことを特徴とする。

以上、詳細に説明した如く、本発明によれば、文字列探索の際に、探索キーとされた長さＬの文字列から、該文字列の前から後の方向に存在する全ての２個の文字の組である文字ペアを選び、各々の文字ペアに対して、候補文字集合中から文字カテゴリが一致する全ての２個の候補文字の組を探索する処理を行い、該処理の結果探索された全ての２個の候補文字の組に対して、ピッチが一定でかつ直線的に並ぶ文字列を特定するパラメータの組を算出し、該２個の候補文字の組と該パラメータの組の情報を投票空間に投票する処理を基本とする。

以上の処理の処理量の期待値は、下記の２つの数値Ａ，Ｂの積に比例するため、従来の考え方の方法の処理量が_MＣ_Lに比例するのに比べると処理量が非常に小さいという顕著な効果を奏するものである。

・長さＬの文字列から抽出される文字ペアの個数：Ａ＝_LＣ₂
・Ｍ個の候補文字集合中に存在する、文字ペアと文字カテゴリが一致する全ての２個の候補文字の組の数の期待値：Ｂ＝（Ｍ／全認識対象カテゴリ数）²
また、請求項３等によれば、画像に対してメタデータとして単語及び該単語が存在する場所の情報を付与することが可能となる。

図１は、本発明の一実施形態に係わる処理ブロック図である。同図において、１は候補文字絞込み手段、２は投票手段、３は投票空間格納手段、４は候補点群作成手段、５は候補点選択手段である。以下、図１のブロックの詳細な動作について説明する。

なお、本実施形態では、前記の図４０に示す解像度を０.７倍した画像からの候補文字集合の例で説明するが、他の解像度（０.８倍、１.２倍、１.４倍）からの候補文字集合も使用した候補文字集合を処理対象とする。
（１）候補文字絞込み手段
文字列探索には、最初に、候補文字絞込み手段１での処理が行なわれる。候補文字絞込み手段１は様々な構成が考えられるが、本実施形態では説明のために、図２に示す構成をとる。単一解像度候補文字絞込み手段１１は、候補文字集合を画像の解像度別に分け、各々の候補文字集合の中で絞込みを行なう処理である。それに対して、複数解像度候補文字絞込み手段１２は、全ての解像度の候補文字集合に対して絞込みを行なう処理である。本実施形態ではこの２つの手段を直列に接続して候補文字を絞込む。

まず、単一解像度候補文字絞込み手段１１は、ある解像度の画像に対して、１つの小ブロックにある候補文字数を距離によって絞込む。この絞込みは、升目の仕切位置を変更しても行う。この処理の詳細を説明する。ここでは、ある解像度における候補文字集合を、その中心座標によりブロック分割する。本実施形態では解像度が原画像の０.７倍の場合のみを図３〜図９を用いて説明する。他の解像度については単一解像度候補文字絞込み手段１１の処理内容の説明は省略するが、同様の処理である。

図３は、０.７倍の画像の場合の基本的なブロック分割の様子を示しており、各升目が４０画素×４０画素のブロックを表している。実際のブロック分割は、この基本的なブロック分割を基に、ブロック配列の位置を縦および横方向にずらした分割方法を複数用意する。図４（ａ）〜（ｄ）はその例で、これらのうち、太線で囲まれた正方形の閉領域が１つのブロックである。図４（ａ）は、図３の基本的なブロック分割をずらさずに用いたブロック分割結果であり、（ｂ）、（ｃ）はそれぞれ縦方向、横方向に２０画素ずらしたもの、（ｄ）は縦横に両方とも２０画素ずらしたものである。

単一解像度候補文字絞込み手段１１は、これらのブロック分割結果を順番に適用して絞込みを行なう。まず、図４（ａ）を用いた例を説明する。図４０の候補文字集合を図４（ａ）のブロック分割方法に従って分割したのが図５である。ここで、１ブロックの中での絞込みの方法を、候補文字を距離値の小さい順に並び替え、上位の候補文字から一定個数（この実施形態では２個）だけ採用して他を削除するものとする。他にも、候補文字を距離値の小さい順に並び替え、最小の距離値を持つ候補文字からの距離値の差分が一定閾値を越える候補文字を削除する方法もありうる。

図５の場合、複数の候補文字が存在するブロックは左上端から１ブロック分右下のブロックだけであり、このブロックにおける処理内容を説明する。このブロックには、（電、６００）と［電、４２０］と（黄、７８０）の３個が存在する。これを距離の小さい順に並び替えると、［電、４２０］、（電、６００）、（黄、７８０）となり、これを上位から２個だけ採用し他を削除すると、［電、４２０］、（電、６００）が残る。これを図示したのが図６である。

１ブロックの中での絞込みの方法としては、以上の他に、候補文字を距離値の小さい順に並び替えた後、上位の候補文字と同一の文字カテゴリを有する下位の候補文字を削除した後に、上位の候補文字から一定個数個（この実施形態では２個）だけ採用して他を削除する方法もある。図７は図５に対してこの方法を適用した結果である。

さて、単一解像度候補文字絞込み手段１１は、図６の結果に対して、次に、他のブロック分割方法を適用して絞込みを行なう。図８は、図６の結果に対して図４（ｂ）のブロック分割方法を当てはめた時のブロック分割の様子であり、図９はその絞込み結果である。これに対してさらに、図４（ｃ）、図４（ｄ）を当てはめるが、候補文字はこれ以上削減されない。従って、図９が解像度０.７倍の場合の単一解像度候補文字絞込み手段１１の処理結果である。同様に、他の解像度に対しても同様の処理結果が単一解像度候補文字絞込み手段１１から出力される。

次に、単一解像度候補文字絞込みの終了で、複数解像度候補文字絞込み手段１２の処理に移る。複数解像度候補文字絞込み手段１２は、距離が小さい候補文字は残す方針で、近さ判定関数を用いて、近くにある同じカテゴリ文字となる候補を削除する文字絞込みを行うもので、以下詳細に説明する。

複数解像度候補文字絞込み手段１２は、まず、単一解像度候補文字絞込み手段１１から出力された各解像度の絞込み結果を一つにまとめる。まとめた結果の例を図１０と図１１に示す。図１０において、［］と■は正しい候補文字（■は中心座標）、（）と×は誤った候補文字（×は中心座標）である。また、実線の正方形は正しい候補文字の窓の大きさを、破線の正方形は誤った候補文字の窓の大きさを表す。さらに［］、（）内の情報は、ＰＩＤ（単一解像度候補文字絞込み手段１１の処理の結果残った候補文字の０から始まる通し番号）、候補文字カテゴリ、中心点のＸ座標、中心点のＹ座標、観測窓の大きさを表す。ここで、観測窓の大きさは、基本的な観測窓の大きさ（縦４０画素、横４０画素）を画像の解像度の倍率で割った値である。

例えば、原画像を０.７倍した画像から検出された候補文字の観測窓の大きさは、縦４０画素、横４０画素を０.７で割った値であり、縦横共通に５７.１≒５７である。すなわち、図１０において観測窓の大きさ＝５７である候補文字が図９のデータ（解像度が０.７倍）に由来する。

図１１は、図１０の各候補文字をリストにまとめたものであり、図１０の情報に加えて候補文字の認識結果の距離値が情報として加わっている。また、図１１には「正誤」の情報が書かれているが、これは本実施形態の説明のために、正しい候補文字（正誤＝１）と誤った候補文字（正誤＝０）を区別するために便宜上書いたものであり、実際の処理とは無関係である。この図１１に例を示すリストを「入力データ配列」と呼ぶ。

次に、複数解像度候補文字絞込み手段１２では、入力データ配列のデータに対して図１２のフローチャートで示した処理を行なう。図１２の処理において、関数Ｆ１とは２つの候補文字が「近い」か「遠い」かを判定する関数である。具体的には、
（１）２つの候補文字の文字カテゴリが一致するか否か
（２）２つの候補文字の中心座標のユークリッド距離の近さ
（３）２つの候補文字の大きさの近さ
の３つの「近さ」を総合判断して決定する。総合判断の方法は様々に考えられるが、ここでは例として、（３）は無視して、（１）の文字カテゴリが一致し、かつ（２）のユークリッド距離が一定の閾値（この例では４０）以下である場合に、Ｆ１は「近い」と判断し、それ以外の場合は「遠い」と判断するものとし、その結果が図１４と図１５であり、途中経過を示すのが図１３である。

図１２のフローチャートでは、まず図１１で示す入力データ配列に対して、距離値の小さい順にソートするが、この場合の結果が図１３（ａ）である。またこの後に、入力データ配列の上位レコードから順次「大きさ」が−１でないものを取り出して行く。この実施形態では、入力データ配列のレコードの「大きさ」に「−１」を記入することは「削除」を意味しており、これはレコードの他の欄を用いてもよい。また、図１２におけるレコードバッファとは、入力データ配列におけるレコードの情報を複数個分コピーして一時格納しておくメモリである。

図１３（ａ）の例では、ｉ＝１から初めてｉ＝６までは、レコードバッファに格納されるのは入力データ配列のｉ番目のレコード１個だけであり、入力データ配列のデータは削除されない（すなわちいずれのレコードの「大きさ」も−１が書き込まれない）。これに対して、ｉ＝７の時には、レコードバッファに計３個のレコードが書き込まれる。これは図１３（ｂ）の網掛けで示した３つのレコード（ｉ＝７、９、１０）であり、書き込まれたレコードバッファが図１３（ｃ）である。このレコードバッファから上位一定個数（ここでは例として２個）のレコードを削除すると、この例ではＰＩＤ＝０のレコードだけが残り、このレコードのＰＩＤ＝０に該当する入力データ配列のレコードの「大きさ」の欄に−１を書き込んだのが図１３（ｄ）である。

さて、入力データ配列のｉ＝７に対する上記の処理の後、ｉ＝８から１１まで処理を行なった後でも入力データ配列の内容は図１３（ｄ）と変わらない。最後に入力データ配列をＰＩＤの小さい順にソートした結果が図１４、それを画像上に重畳して表示したのが図１５である。

なお、Ｆ１における総合判断の方法としては上記以外にも、（１）を無視することが考えられる。また（３）を無視せずに、２つの候補文字の大きさの近さが一定閾値以下である、という条件をＦ１の判断に論理積の形で加えることも考えられる。すなわち、（１）の文字カテゴリが一致し、かつ（２）のユークリッド距離が一定の閾値以下であり、かつ（３）の２つの候補文字の大きさの近さが一定閾値以下である場合にＦ１は「近い」と判断する。その場合の「大きさの近さ」とは例えば、具体的には大きい方の「大きさ」を小さい方の「大きさ」で割った値を尺度とすることが考えられる。この尺度を用いる場合には、この尺度は両者の大きさが最も近い場合には１となり、大きさが離れていくにつれて１よりも大きな値になっていくので、２つの候補文字の大きさの近さの閾値は１よりも大きい値に設定する必要がある（例えば、１.５など）。あるいは、１つの閾値を用いる代わりに、２つの候補文字の大きさの順序は考慮せずに機械的に片方の「大きさ」をもう片方の「大きさ」で割った値を尺度として、その値に２つの値で決定される範囲を設定する方法もある。この場合、この尺度は両者の大きさが最も近い場合には１となり、大きさが離れていくにつれて１よりも小さくなるか大きくなっていくので、１より小さい値（例えば、０.７）と大きい値（例えば、１.５）の２つの値によって設定された範囲に入っていれば（例えば、０.７以上かつ１.５以下の範囲）Ｆ１は「近い」と判定し、そうでなければ「近い」と判定しない。

また（２）と（３）の２つの「近さ」を個別に扱う代わりに、この２つの尺度を一つにまとめる、具体的には、２つの候補文字の（中心点のＸ座標、中心点のＹ座標、大きさ）の３次元ベクトル間のユークリッド距離、もしくは各次元に重みをつけたユークリッド距離が一定閾値以下であることを「近い」と判定する尺度とすることも考えられる。

また、以上の関数Ｆ１の説明では、比較する２つの候補文字の「大きさ」が等しい場合も「近い」と判定する可能性があるが、これを比較する２つの候補文字の「大きさ」が等しい場合は「近い」と判定しない、とすることも可能である。これは、単一解像度候補文字絞込み手段１１において既に「大きさ」が等しい候補文字の絞込みは既に済んでいるので不要、という考え方による。

また、候補文字絞込み手段１を単一解像度候補文字絞込み手段１１だけで構成することも可能である。その具体的な処理内容は、上記の候補文字絞込み手段１の説明において、単一解像度候補文字絞込み手段１１の未処理を行い、複数解像度候補文字絞込み手段１２では何もせずに単一解像度候補文字絞込み手段１１から受け取った処理結果をそのまま出力する処理に等しい。

また、以上の候補文字絞込み手段１の構成を、まず複数解像度候補文字絞込み手段１２を行って、その次に単一解像度候補文字絞込み手段１１を行う、という順番に構成することも可能である。例えば、複数解像度候補文字絞込み手段１２のＦ１の総合判定において、上記の（１）、（２）、（３）の３つの「近さ」の判定結果の論理積を用いることにすると、この複数解像度候補文字絞込み手段１２の処理によって、解像度と空間的な距離が近い同一カテゴリの候補文字を統合する効果となる。
（２）投票手段
候補文字絞込みの終了で、投票手段２の処理に移る。投票手段２は、探索キー（探索文字列）の２つの文字要素を取り出して、文字要素と候補のカテゴリが一致する組み合わせを求める。そして、文字の方向（縦書き、横書き）や文字間隔から適切な候補の組み合わせだけを残す。この処理はあらゆる２つの文字要素について行う。

この投票手段２の処理手順を示したのが図１６のフローチャートである。以下、図１４の入力データ配列を対象として動作を説明する。入力データ配列のレコード数をＫ個と置く。図１６のフローチャートは、以下の表記を用いている。まず、入力データ配列のＫ個の点をＰ１，Ｐ２，・・・，ＰＫで表し、この集合をＰＧで表す。また、探索キーとされた文字列をＷ（長さＬ）とし、Ｗを構成する文字をＣ１，Ｃ２，・・・，ＣＬで表す。さらに、ｍ，ｎを自然数（１≦ｍ＜ｎ≦Ｌ）とする。

ここで、Ｗを「電話会社」としたとき（すなわちＣ１＝電、Ｃ２＝話、Ｃ３＝会、Ｃ４＝社、とする）、図１６のフローチャートの中で、全てのｎとｍの可能な組み合わせにおいてＫ０とＫ１の処理（カテゴリ番号が一致する集合ＰＧＭ、ＰＧＮの作成処理）を図１４の入力データ配列に対して行い、各々を全ての組み合わせた結果を図１７に示す。図１７において、左側は集合ＰＧＭから抽出した要素、右側は集合ＰＧＮから抽出した要素である。ただし、各々の要素には、文字位置を表すｍ，ｎの数値を追加してある。このように、候補文字の情報に単語内の文字位置の情報を追加したデータを、以後「候補点」と呼ぶ。また、集合ＰＧＭから抽出した１個の「候補点」をＲ１，集合ＰＧＮから抽出した１個の「候補点」をＲ２と呼ぶ。また、図１７の各レコードには、説明のための通し番号が先頭に振ってある。

図１６のフローチャートのＫ２の処理では、これらの組み合わせに対して、
（Ａ１）文字列の中心位置座標の配列を規定する４つのパラメータ値（ａ，ｂ，ｃ，ｄ）の計算。
（Ｂ１）パラメータ値（ａ，ｂ，ｃ，ｄ）から、投票空間格納手段３に登録するための座標ベクトル（Ｒａ，Ｒｂ，Ｒｃ，Ｒｄ）を算出。
（Ｃ１）各々の候補点Ｒ１とＲ２の組み合わせの可否を判定する関数（組み合わせ判定関数）を適用。
（Ｄ１）組み合わせ判定関数が合格と判定した組み合わせを投票空間格納手段３に追加。
の４つの処理を行なう。なお（Ｂ１）におけるＲａ，Ｒｂ，Ｒｃ，Ｒｄは、それぞれａ，ｂ，ｃ，ｄの概値として算出される値である。また、（Ｃ１）における「Ｒ１とＲ２」は、集合ＰＧＭから抽出した１個の「候補点」と、集合ＰＧＮから抽出した１個の「候補点」を意味する。

以下、各々の処理を例を用いて説明する。

（Ａ１）における４つのパラメータ値（ａ，ｂ，ｃ，ｄ）は、それぞれ以下の意味である。

ａ：仮想的な開始点のＸ座標
ｂ：仮想的な開始点のＹ座標
ｃ：仮想的なＸ方向のピッチ（仮想的ピッチベクトルのＸ成分）
ｄ：仮想的なＹ方向のピッチ（仮想的ピッチベクトルのＹ成分）
これらを説明する模式図を図１８に示す。これは図１７における番号＝１１、（ｍ，ｎ）＝（２、３）のレコードを用いた時の模式図である。このレコードには、集合ＰＧＭから取り出した候補点Ｒ１＝（カテゴリ＝話、Ｘ１＝１６０、Ｙ１＝１９０、窓の大きさ＝５０、距離３７４、単語内文字位置＝２、ＰＩＤ＝９）と、集合ＰＧＮから取り出した候補点Ｒ２＝（カテゴリ＝会、Ｘ２＝２３０、Ｙ２＝１７０、窓の大きさ＝５０、距離＝４５０、単語内文字位置＝３、ＰＩＤ＝５）が存在する。

ここで、Ｒ１の中心のＸ座標＝Ｘ１，中心のＹ座標＝Ｙ１，単語内文字位置＝ｉとし、Ｒ２の中心のＸ座標＝Ｘ２，中心のＹ座標＝Ｙ２，単語内文字位置＝ｊとすると、ａ，ｂ，ｃ，ｄは下式で計算される。

ｃ＝（Ｘ２−Ｘ１）／（ｊ−ｉ）
ｄ＝（Ｙ２−Ｙ１）／（ｊ−ｉ）
ａ＝Ｘ１−ｃ×（ｉ−１）
ｂ＝Ｙ１−ｄ×（ｉ−１）
図１８の各レコードに対して上記の式により（ａ，ｂ，ｃ，ｄ）を計算した結果を図１９に示す。

次に（Ｂ１）の処理であるが、ここでは（Ｒａ，Ｒｂ，Ｒｃ，Ｒｄ）を（ａ，ｂ，ｃ，ｄ）の値から算出する。本実施形態では、
Ｒａ＝ａ／Ｃａ（Ｃａは定数）小数点１位を四捨五入
Ｒｂ＝ｂ／Ｃｂ（Ｃｂは定数）小数点１位を四捨五入
Ｒｃ＝ｃ／Ｃｃ（Ｃｃは定数）小数点１位を四捨五入
Ｒｄ＝ｄ／Ｃｄ（Ｃｄは定数）小数点１位を四捨五入
の演算で算出する。Ｃａ，Ｃｂ，Ｃｃ，Ｃｄは例として、６０、６０、９０、９０を用いる。ここで、Ｃａ，Ｃｂ，Ｃｃ，Ｃｄはそれぞれ、ａ，ｂ，ｃ，ｄを概値にするための値であり、同一文字列上に存在する候補文字のペアができるだけ同一の（Ｒａ，Ｒｂ，Ｒｃ，Ｒｄ）ベクトルの値をとるように、かつ同一文字列上に存在しない候補文字のペアができるだけ同一の（Ｒａ，Ｒｂ，Ｒｃ，Ｒｄ）ベクトルの値をとらないような大きさに調整する。図１９に対してこの処理を行なった結果を図２０に示す。

次に（Ｃ１）の処理における組み合わせ判定関数であるが、これは本実施形態ではまず、下記の３つの評価尺度を計算する。

・ｓ＝（Ｒ２の「大きさ」）÷（Ｒ１の「大きさ」）
・α＝仮想ピッチベクトルの角度（角度の取り方については図２２（ａ）を参照）
・Ｐｓ＝（ｃ×ｃ＋ｄ×ｄ）^0.5／{０.５×（Ｒ２の「大きさ」＋Ｒ１の「大きさ」）}
そして、組み合わせ判定関数は、
ｓ１＜ｓ＜ｓ２かつ α∈α１かつＰｓ１＜ｐｓ＜Ｐｓ２
の条件を満足した時に「組み合わせ可」、満足しない時に「組み合わせ不可」とする。上式において、ｓ１とｓ２はｓの範囲を表す数値で、本実施形態ではｓ１＝０.８、ｓ２＝１.２を用いる。また、Ｐｓ１とＰｓ２はＰｓの範囲を表す数値で、本実施形態ではＰｓ１＝０.９、Ｐｓ２＝３.０を用いる。

また、α１は許容されるαの範囲である。本実施形態では、左から右に書かれた、多少傾きがあり得る文字列を読み取り対象としており、そのためにα１は図２２（ｂ）のように（この図における、太い円弧で示した角度の範囲が該当）、Ｘ軸のプラス方向に対して±２０度の範囲内とした。ただし、この範囲は読み取りを想定する文字列の角度によって設定すればよい。例えば、左から右方向だけでなく、上から下に並んだ文字列も許容しようとすれば、図２２（ｃ）のように、Ｙ軸のマイナス方向の周囲にも許容する角度の範囲を設ければよい。

また、上記の「ｓ」は、２つの候補文字の大きさの比を意味する。同一文字列上に存在する候補文字は、通常は大きさが近いはずであり、この「ｓ」の範囲を限定することで候補文字の組み合わせを絞込むことができる。

また、Ｐｓは、Ｒ１の「大きさ」とＲ２の「大きさ」の平均値に対する、Ｒ１とＲ２から算出されるピッチの大きさの相対値であり、一般的な文字列はこの大きさに範囲があるので、この範囲を限定することで候補文字の組み合わせを絞込むことができる。

図２０の結果に対して、以上の処理（Ｃ１）を施した結果が図２１である。ここで、各レコードにおけるｓ，α，Ｐｓの欄に書かれた数値が算出された値であり、網掛けとなっているのが「組み合わせ不可」となった欄、３つの評価尺の中で１個でも「組み合わせ不可」となった場合には、「判定結果」が「×」となっており、これが組み合わせ判定関数の判定結果（この場合には「組み合わせ不可」）である。また「○」は３つの評価尺が全て「組み合わせ可」となり、組み合わせ判定関数が「組み合わせ可」と判定した結果である。

次に（Ｄ１）の処理であるが、ここでは組み合わせ判定関数が合格と判定した組み合わせを投票空間格納手段３に追加する。図２１の結果において、組み合わせ判定関数の判定結果が「組み合わせ可」（図２１では「○」）となったレコードだけを集めたものが図２３である。

なお、（Ｃ１）における組み合わせ判定関数であるが、上記の３つの条件に加えて、「Ｒ１とＲ２の距離値の合計が一定閾値以内」という判定を用いることも可能である。例えば、図２１の中のｍ＝１、ｎ＝２の表において、番号＝３の行におけるＲ１とＲ２の組み合わせは、集合ＰＧＭから取り出した要素の「正誤」の欄が「０」となっている（すなわち、誤った候補文字）にもかかわらず、判定結果は「○」となってしまい、誤った投票が行われてしまっている。これに対して、判定条件にさらに「Ｒ１とＲ２の距離値の合計が一定閾値（ここでは例として「９００」を用いる）以内であること」という判定条件を論理的な積として追加すると、番号＝３の行のＲ１とＲ２の組み合わせにおける両者の距離値の合計は「９２４」であるため、この判定条件を満足せず、判定結果は「×」となり、誤った投票を防ぐことができる。これに対して、それ以外の正しい組み合わせ、すなわち、図２１の全ての表における、集合ＰＧＭから取り出した要素と集合ＰＧＮから取り出した要素の「正誤」の欄が両方とも「１」となっている組み合わせでは、両者の距離値の合計はいずれも「９００」を下回るので、上記の新たな判定条件を満足するため、これらの正しい投票は妨げられない。
（３）投票空間格納手段
投票空間格納手段３は、２つの候補の組み合わせを、さらに組み合わせて整合するものを選択する。つまり、始点位置の概数（Ｒａ，Ｒｂ）とピッチの概数（Ｒｃ，Ｒｄ）が一致すれば整合すると判定する。

この投票空間格納手段の構成について説明する。投票空間格納手段３は、２個の候補点Ｒ１とＲ２の情報と、該２個の候補点の、探索を指定された文字列内の文字位置の情報と、ピッチが一定でかつ直線的に並ぶ文字列を特定するパラメータの組の情報とから構成されるレコードである投票レコードを複数格納する投票レコード格納手段と、該手段の中で該パラメータの組を持つ投票レコードが格納されているアドレスを示すインデクスを全て格納するインデクス格納手段とを有している。何も情報が登録されていない状態の投票空間格納手段３の実現例を図２４に示す。

（Ｄ１）の処理では、次の（Ｄ１−１）から（Ｄ１−５）の処理を行なう。

（Ｄ１−１）図２３に示す組み合わせ判定関数の判定結果が「組み合わせ可」（図２１では「○」)となったレコードを１個ずつ取り出す。

（Ｄ１−２）そのレコードの情報を投票レコード格納手段のまだ書き込まれていない最末端のレコードのエリアに書き込む。

（Ｄ１−３）この書き込んだ投票レコード格納手段のレコードのアドレスを一時保存する。

（Ｄ１−４）（Ｄ１−３）で書き込んだレコードの（Ｒｃ，Ｒｄ，Ｒａ，Ｒｂ）を調べ、これを（Ｒｃ０，Ｒｄ０，Ｒａ０，Ｒｂ０）とする。

（Ｄ１−５）投票空間格納手段３のインデクス格納手段における（Ｄ１−４）で調べた（Ｒｃ０，Ｒｄ０，Ｒａ０，Ｒｂ０）を持つレコードにアクセスし、該レコードの「投票数」を＋１し、該レコードの「アドレス格納部」に、（Ｄ１−３）で一時保存した投票レコード格納手段のレコードのアドレスを追加する。

以上の処理（Ｄ１）を図２３のデータ全てに対して行なった結果の投票空間格納手段３のデータを図２５に示す。

上記の（Ｄ１−５）の代わりに、次の（Ｄ１−５０）を行なう方法もある。

（Ｄ１−５０）投票空間格納手段３のインデクス格納手段における（Ｄ１−４）で調べた（Ｒｃ０，Ｒｄ０，Ｒａ０，Ｒｂ０）を持つレコード、および（Ｒｃ０，Ｒｄ０，Ｒａ０，Ｒｂ０）の近傍の（Ｒｃ，Ｒｄ，Ｒａ，Ｒｂ）を持つレコードにアクセスし、それらのレコードの「投票数」を＋１し、かつ「アドレス格納部」に、（Ｄ１−３）で一時保存した投票レコード格納手段のレコードのアドレスを追加する。

（Ｄ１−５０）において、（Ｒｃ０，Ｒｄ０，Ｒａ０，Ｒｂ０）の近傍の（Ｒｃ，Ｒｄ，Ｒａ，Ｒｂ）とは、Ｒｃ０，Ｒｄ０，Ｒａ０，Ｒｂ０の一部ないし全てに一定範囲に含まれる整数（例えば−１から１までの整数）を加えたものである。例えば、Ｒｃ０とＲｄ０の一方だけに−１から＋１の整数を加えることとした場合、（Ｒｃ０，Ｒｄ０，Ｒａ０，Ｒｂ０）＝（１、０、１、２）の近傍の（Ｒｃ，Ｒｄ，Ｒａ，Ｒｂ）は、（０、０、１、２）、（２、０、１、２）、（１、−１、１、２）、（１、１、１、２）の４個となる。

図２５は（Ｄ１−５）を用いた処理の結果であり、（Ｒｃ０，Ｒｄ０，Ｒａ０，Ｒｂ０）＝（１、０、１、２）のレコードに正しい組み合わせの多くが集まっているが、（Ｂ１）の処理で用いるＣａ，Ｃｂ，Ｃｃ，Ｃｄの値がさらに小さく設定されている場合には、接近した複数の（Ｒｃ，Ｒｄ，Ｒａ，Ｒｂ）に分かれてしまう可能性があり、それが原因で「投票数」が小さくなり、候補点群作成手段４の処理で正しくレコードが抽出されない危険がある。これに対して、例えば正しい組み合わせが（１、０、１、２）と（０、０、１、２）の２つ分かれたとしても、例えば、Ｒｃ０とＲｄ０の一方だけに−１から＋１の整数を加えるとしておけば、それぞれ
・（１、０、１、２）、（０、０、１、２）、（２、０、１、２）、（１、−１、１、２）、（１、１、１、２）
・（０、０、１、２）、（−１、０、１、２）、（１、０、１、２）（０、−１、１、２）、（０、１、１、２）
に投票し、（０、０、１、２）と（１、０、１、２）の（Ｒｃ，Ｒｄ，Ｒａ，Ｒｂ）を持つインデクスには、正しい組み合わせのレコードの「アドレス格納部」のアドレスが全て書き込まれることとなる。
（４）候補点群作成手段
投票空間格納処理の終了で、候補点群作成手段４の処理に移る。候補点群作成手段４は、探索キー（探索文字列）の文字数により、投票空間格納手段３の処理で所定文字数以上の固まりになったものを選択する。

この候補点群作成手段は、まず、投票空間格納手段３におけるインデクス格納手段の中から、投票数が探索キーとして指定された文字列の長さ別に設定された閾値を越えるインデクスを全て抽出する。この「投票数が探索キーとして指定された文字列の長さ別の閾値の設定方法」であるが、これには様々な方法が考えられるが、本実施形態では、下記のように設定する。まず、探索キーとして指定された文字列の中で、何文字の欠落まで許容するかを文字列の長さ毎に人手で設定する。本実施形態では、
単語長＝１は扱わない。

単語長＝２の場合：許容する最大欠落文字数＝０
単語長＝３の場合：許容する最大欠落文字数＝０
単語長＝４の場合：許容する最大欠落文字数＝１
単語長＝５の場合：許容する最大欠落文字数＝１
単語長＝６の場合：許容する最大欠落文字数＝２
単語長＝７の場合：許容する最大欠落文字数＝２
単語長≧８の場合：許容する最大欠落文字数＝単語長×一定数（例：０.２）を小数点１位切り上げ（例えば単語長＝８では、８×０.２＝１.６→２）
とする。

これに対して、「投票数が探索キーとして指定された文字列の長さ別の閾値」は、
（単語長−許容する最大欠落文字数）×（単語長−許容する最大欠落文字数−１）÷２
で計算する。すると、本実施形態における「電話会社」の単語長は４なので、閾値は「３」となる。すなわち、インデクス格納手段の中から「投票数」が３以上のインデクスを残らず抽出する。この場合、図２５のインデクス格納手段において「投票数」が３以上のインデクスは、（Ｒｃ，Ｒｄ，Ｒａ，Ｒｂ）＝（１、０、１、２）のレコードだけでありこれが抽出される。

次に、抽出されたインデクスに対して、該インデクスから手繰られる全てのレコード格納手段中の投票レコードを抽出し、それらに含まれる全ての候補点の情報および該候補文字の、探索を指定された文字列内の文字位置の情報を探索してそれらのリストである候補文字・文字位置リストを作成する。

図２３の（Ｒｃ，Ｒｄ，Ｒａ，Ｒｂ）＝（１、０、１、２）のインデクスのアドレス格納部の格納されたアドレスは、（１、３、４、５、７、９、１０、１１）であり、これらに該当する投票レコード格納手段のレコードを全て抽出した結果（候補文字・文字位置リスト）を図２６に示す。また、図２６にあるように、候補文字・文字位置リストには、全レコードのａ，ｂ，ｃ，ｄの平均値を格納するエリアも末端部に付属している。ただし、図２６ではまだ書き込まれていない。

次に、候補点群作成手段４は、全レコードのａの平均値を求め、次いで全レコードのｂの平均値を求め、次いで全レコードのｃの平均値を求め、次いで全レコードのｄの平均値を求め、各々の平均値を候補文字・文字位置リストの末端部の全レコードのａ，ｂ，ｃ，ｄの平均値を格納するエリアに書き込む。その結果が図２７である。

この例では、ｃ，ｄ，ａ，ｂの平均値は各々７４.４、−１０、８１.３、１９５となっている。次に、候補文字・文字位置リストに含まれる全てのＲ１とＲ２を抜き出し、リスト化する。これを候補点群リストと呼ぶ。図２７から作成した候補点群リストを図２８（ａ）に示す。
（５）候補点選択手段
候補点群作成手段４の処理の終了で、候補点選択手段５の処理に移る。候補点選択手段５は、候補点で重複するものは除いて、最後は候補の座標位置から１つに絞り込む。

図２８（ａ）から分かるように、候補点群作成手段４の処理結果には多くの候補点が重複して含まれているので、候補点選択手段５はまずこの重複を排除する処理を行なう。そのためにまず、候補点群リストを、ＰＩＤの小さい順に（ＰＩＤが等しい場合には「文字位置」の小さい順に）ソートする。この結果を図２８（ｂ）に示す。次に、候補点群リストのレコードを上位側から１個ずつ選び、自分自身のＰＩＤと文字位置の値が１つ下位のレコードのＰＩＤと文字位置の値と両方とも一致するか否かを調べ、一致していれば自分の「大きさ」の値に−１を記入する。この処理を逐次的に、下から２番目のレコードまで行なう。これを図２８（ｂ）に対して行なった結果が図２８（ｃ）である。次に、図２８（ｃ）に示す結果から、「大きさ」が−１のレコードを削除すると、図２８（ｄ）の結果となる。この結果を画像に重畳した表示したのが図２９である。この時点でまだ、文字位置＝１の候補点が２個残っていることが分かる。この中から正しい候補点を選択するために、候補点選択手段５は以下の処理を行なう。

まず、候補文字・文字位置リストに付属している全レコードのａ，ｂ，ｃ，ｄの平均値を格納するエリアから、ｃ，ｄ，ａ，ｂの平均値を取り出す。これを各々、ｃ０，ｄ０，ａ０，ｂ０と表記する。本実施形態での値は図２７から分かるように各々、７４.４、−１０、８１.３、１９５となる。

次に、このｃ０，ｄ０，ａ０，ｂ０の値から算出される仮想的な文字位置の中心座標を、複数の候補点が存在している文字位置について算出する（この場合には文字位置＝１）。文字位置ｉの仮想的な中心座標を（Ｘｅｉ，Ｙｅｉ）と表記すると、
Ｘｅｉ＝ａ０＋ｃ０（ｉ−１）、Ｙｅｉ＝ｂ０＋ｄ０（ｉ−１）
で計算する。従って、ｉ＝１の場合には、Ｘｅｌ＝８１.３、Ｙｅｌ＝１９５となる。

次に、複数の候補点が存在している文字位置について、各々の候補点の実際の中心座標と上記で計算された仮想的な中心座標のユークリッド距離を計算する。この実施形態での計算結果を図２８（ｅ）に示す。そして、この距離が最も小さい候補点を選択する。図２８（ｅ）では、ＰＩＤ＝１のレコードがこの（Ｘｅｌ，Ｙｅｌ）との距離が最も小さいので、このレコードが正しく選ばれる。そして、ここで選択されなかったレコードは、すべて候補点群リストから削除する（図２８（ｅ）ではＰＩＤ＝２のレコード）。図２８（ｄ）に対して、このＰＩＤ＝２のレコードを削除した結果が図３０（ａ）であり、これを原画像上に重畳表示したのが図３０（ｂ）である。

なお、投票空間格納手段３の（Ｄ１）の処理において（Ｄ１−５）の代わりに（Ｄ１−５０）を用いた場合には、候補点選択手段５からの出力中に、同じ候補点を持つ候補点群が重複して存在する可能性がある。その場合には、候補点選択手段５からの出力中の候補点群が同じ候補点を持つか否かを調べる処理と、重複している候補点群が存在している場合には候補点の個数が最も多い候補点群１個を残し、残りを削除する処理を候補点選択手段５の後で行なう。
（６）他の実施形態
図３１に本発明の請求項３等に対応する実施形態例を示す。図３１の中で、個別の要素１〜５は図１の実施形態のものと同一である。以下、図３１の動作を具体的に説明する。

まず、単語辞書６１の具体例を図３２に示す。図３２の単語辞書には４個の単語が含まれている。

図３１の動作は、最初に候補文字絞込み手段１から始まるが、この部分は図１と全く同じである。そこで、この部分の説明は省略し、候補文字絞込み手段１の処理の結果、図１４に示す入力データ配列が生成されたものとし、以降の説明を行なう。

図３１の実施形態では、候補文字絞込み手段１の処理の結果は単語辞書制御手段６２に送られる。単語辞書制御手段６２は、単語辞書６１から１個ずつ単語を取り出して、その単語を探索文字列として、候補文字絞込み手段１の処理の結果と共に投票手段２に送る。以降の、投票手段２から候補点選択手段５までの処理の内容は、図１の場合と全く同じである。

従って、まず図３２の辞書における単語番号＝１である単語「電話会社」が図１４に示す入力データ配列と共に投票手段２に送られると、投票手段２から候補点選択手段５までの処理の結果、候補点選択手段５からは図３０（ａ）の結果が単語辞書制御手段６２に送られる。単語辞書制御手段６２は、単語長別の下記の基準に照らして（例を下記に示す）、欠落文字数が最大欠落文字数以下であるか否かを調べ、欠落文字数が最大欠落文字数以下である単語だけを採用してまとめる。

単語長＝２の場合：許容する最大欠落文字数＝０
単語長＝３の場合：許容する最大欠落文字数＝０
単語長＝４の場合：許容する最大欠落文字数＝１
単語長＝５の場合：許容する最大欠落文字数＝１
単語長＝６の場合：許容する最大欠落文字数＝２
単語長＝７の場合：許容する最大欠落文字数＝２
単語長≧８の場合：許容する最大欠落文字数＝単語長×一定数（例：０.２）を小数点１位切り上げ（例えば単語長＝８では、８×０.２＝１.６→２）
単語番号＝１である単語「電話会社」の単語長は４であり、この場合の最大欠落文字数は１であるが、図３０（ａ）の結果では欠落文字数は０であることから、この単語は採用される。

また、単語番号＝２の「会社」の単語は、「電話会社」の後半２文字と同じ文字の組み合わせであり、「電話会社」の後半２文字と同様の処理過程を辿り、候補点選択手段５の結果は図３３のようになる。この結果、候補点選択手段５からは図３３（ａ）のデータが候補点選択手段５に送られる。

単語長＝２の場合、許容する最大欠落文字数は０だが、図３３（ａ）の結果における欠落文字数は０であるため、この単語は採用される。これに対して単語番号＝３の単語と単語番号＝４の単語は、図１４に示す入力データ配列の中に該当する候補文字が１個も含まれないため、投票手段２の処理の段階で投票数は全て０であり、候補点選択手段５からは空のデータが単語辞書制御手段６２に送られる。これらの場合には、単語の全ての文字が欠落されているため欠落文字数は単語長に等しく（両方とも６）、単語長＝６の場合の許容する最大欠落文字数＝２を上回るため、この２つの単語は採用されない。

単語辞書制御手段６２は、単語辞書６１に含まれる全ての単語に対して以上の処理を行なった後で、採用した単語とその候補点選択手段５から送られたデータをまとめてから出力する。本実施形態では、図３４がまとめられた結果である。

本実施形態によれば、画像に対してメタデータとして単語および該単語が存在する場所の情報を付与することが可能となる。

次に、本実施形態を用いた応用例について述べる。本実施形態を用いることによりい求項３。、、画像に対してメタデータとして単語および該単語が存在する場所の情報を付与することが可能となる。

具体例としては、まず、多くの画像を蓄積し、検索する画像データベースシステムにおいて、画像中に写った文字列をキーワードとして画像の検索が可能な検索技術が実現する。ブロック図の例を図３５に示す。このシステムでは、新規の画像を登録する際には、画像は画像蓄積手段２００と文字走査処理手段３００に送られる。説明の例として、このシステムに画像が１件も登録されていない状態のときに、図３８の画像が登録されるときの処理内容を説明する。画像蓄積手段２００では、画像は画像番号（管理するための通し番号）を振られて蓄積されるが、この場合は図３８の画像に画像番号「１」（１番目の登録画像の意味）が振られる。また、画像蓄積手段２００は、この画像番号をキーワード蓄積手段５００に送る。

次に、文字走査処理手段３００の処理に移る。この文字走査処理手段３００の処理内容は、「従来技術」で説明した文字走査処理をそのまま用い、その結果はキーワード付与手段１００に送られる。また、キーワード付与手段１００は、請求項３等で説明した文字列探索装置をそのまま用い、単語辞書は図３２の例を用いる。したがって、キーワード付与手段１００の結果としては、「電話会社」と「会社」の２つの単語が出力される。このキーワードはキーワード蓄積手段５００に送られる。

キーワード蓄積手段５００では画像蓄積手段２００から送られた画像番号とキーワード付与手段１００から送られたキーワードを関係付けて内部のテーブルに追加登録する。画像番号「１」とキーワード「電話会社」と「会社」が登録された内部のテーブルの模式図を図３６（ａ）に示す。

また、それ以降に画像３枚が図３５のシステムに登録のために入力され、その結果としてキーワード蓄積手段５００の内部のテーブルが図３６（ｂ）の模式図になったとする。この時点で、例として操作者が「電話会社」という文字列が写っている画像を検索したい場合、キーワード検索手段４００にキーボードなどで「電話会社」と入力すると、図３６（ｂ）のテーブルの中でキーワードの欄に「電話会社」と記入されたレコードを探し（この場合は画像番号＝１のレコードが検索される）、その画像番号に相当する画像を画像蓄積手段２００から取り寄せて検索結果として操作者に表示する。

別の具体例としては、表示装置とカメラを備えた携帯端末（カメラ付きのＰＤＡ、カメラ付きの携帯電話、カメラ付きの小型ノートＰＣなど）で撮影された文字列パターンを認識して機械翻訳した結果を表示する技術が実現される。ブロック図の例を図３７（ａ）に示す。画像撮影手段２０１は、端末が備えるカメラであり、結果表示手段５０１は、端末が備える液晶等のディスプレイである。それ以外の文字走査処理手段３００，キーワード付与手段１００、機械翻訳手段４０１は、携帯端末のＣＰＵで実行されるプログラム、もしくは携帯端末に内蔵された専用のハードウェア、もしくは携帯端末から送信された画像を受信する機能および結果を携帯端末に送信する機能を有するサーバー上のプログラムにより実現される。

まず、操作者が画像撮影手段２０１で文字列を撮影すると、その画像に対して文字走査処理手段３００とキーワード付与手段１００が画像中に写っている文字列を読み取ってキーワードとして出力される。例として、図３８の画像が撮影されたものとし、文字走査処理手段３００とキーワード付与手段１００として、上記の「画像データベースシステム」の説明で用いたものをそのまま用いたとすると、キーワード付与手段１００からは「電話会社」と「会社」が出力され、機械翻訳手段４０１に送られる。機械翻訳手段４０１は、その文字列を他の言語（例えば英語）に翻訳し、結果は結果表示手段５０１に送られて操作者に表示される。

また、図３７（ｂ）は、図３７（ａ）における機械翻訳機能４０１を、キーワード付与手段１００によって画像に付与されたキーワードを用いてそのキーワードに関連した情報を検索する「キーワードによる情報検索手段４０２」に置き換えたものであり、他の機能は図３７（ａ）と同じである。キーワードによる情報検索手段４０２の具体例としては、単語辞書、インターネットの検索エンジンなどがある。

なお、本発明は、図１等に示した装置又は図１２等に示した方法の一部又は全部の処理機能をプログラムとして構成してコンピュータで実行可能にすることができる。

本発明の一実施形態を示すブロック図。候補文字絞込み手段１の構成の例を示すブロック図。単一解像度候補文字絞込み手段１１の処理過程を示す模式図。単一解像度候補文字絞込み手段１１の処理過程を示す模式図。単一解像度候補文字絞込み手段１１の処理過程を示す模式図。単一解像度候補文字絞込み手段１１の処理過程を示す模式図。単一解像度候補文字絞込み手段１１の処理過程を示す模式図。単一解像度候補文字絞込み手段１１の処理過程を示す模式図。単一解像度候補文字絞込み手段１１の処理過程を示す模式図。複数解像度候補文字絞込み手段１２による絞込み処理過程を示す模式図。複数解像度候補文字絞込み手段１２の絞込み処理による入力データ配列の例。複数解像度候補文字絞込み手段１２における途中からのフローチャート。複数解像度候補文字絞込み手段１２におけるデータの処理過程を示す模式図。複数解像度候補文字絞込み手段１２におけるデータの処理過程を示す模式図。複数解像度候補文字絞込み手段１２におけるデータの処理過程を示す模式図。投票手段２の処理手順を示すフローチャート。投票手段２におけるデータの途中経過を示す図。投票手段２における、２個の候補点から算出される、仮想的な開始点のＸ座標、仮想的な開始点のＹ座標、仮想的なＸ方向のピッチ、仮想的なＹ方向のピッチ、仮想的ピッチベクトルのＸ成分、仮想的ピッチベクトル、等の概念を説明する模式図。投票手段２における途中でのデータ処理過程を示す模式図。投票手段２における途中でのデータ処理過程を示す模式図。投票手段２における途中でのデータ処理過程を示す模式図。投票手段２における途中でのデータ処理過程を示す模式図。投票手段２における途中でのデータ処理過程を示す模式図。投票空間格納手段３の初期状態を示す模式図。投票手段２の処理後の投票空間格納手段３の状態を示す模式図。候補文字・文字位置リストの例を示す模式図。候補文字・文字位置リストの例を示す模式図。候補点群リストの処理過程を示す図。候補点選択手段５における途中段階のデータを示す図。候補点選択手段５における最終結果を示す図。本発明の他の実施形態を示すブロック構成図。単語辞書の例。単語「会社」に対する候補点選択手段の処理結果例。単語辞書選択手段の最終的な結果の例。画像データベースシステムの画像中に写った文字列をキーワードとして画像を検索する装置のブロック図。キーワード蓄積手段５００に登録されたテーブルの模式図。カメラ付き携帯端末で撮影された文字列パターンを認識して機械翻訳する装置のブロック図。入力された原画像の例。原画像を複数の解像度に変換した例。原画像の中を０.７倍した解像度の画像から出力された候補文字を重畳表示した模式図。

符号の説明

１候補文字絞込み手段
２投票手段
３投票空間格納手段
４候補点群作成手段
５候補点選択手段
１１単一解像度候補文字絞込み手段
１２複数解像度候補文字絞込み手段
６１単語辞書
６２単語辞書制御手段
１００キーワード付与手段
２００画像蓄積手段
２０１画像撮影手段
３００文字走査処理手段
４００キーワード検索手段
４０１機械翻訳手段
４０２キーワードによる情報検索手段
５００キーワード蓄積手段
５０１結果表示手段

Claims

画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索装置において、
前記探索を指定された文字列の任意の２個の文字に対応する候補文字のペアについて、２個の文字の文字位置から前記候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、２つの候補文字の大きさの関係が所定の範囲内で、かつ、前記文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと前記文字間ピッチの関係が所定の範囲内という条件を満足するものだけを選ぶ投票手段と、
前記候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納手段と、
前記投票空間格納手段によりまとまったもののうち、探索文字列の文字数から定まる所定数以上の候補文字があるものを抽出する候補点群作成手段と、
前記候補点群作成手段で抽出された候補文字の中から、なるべく直線的に並ぶ候補文字に絞る候補点選択手段と、
を備えたことを特徴とする文字列探索装置。
画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索装置において、
前記候補文字集合に含まれる候補文字を互いに比較し、解像度と空間的距離が近い候補文字の集合を選択し、該集合の中で相対的に認識結果の距離値が大きい候補文字を削除する候補文字絞込み手段と、
前記探索を指定された文字列から、該文字列の前から後の方向に存在する全ての２個の文字の組である文字ペアを選び、各々の文字ペアに対して前記候補文字集合中から文字カテゴリが一致する全ての２個の候補文字の組を探索する処理を行い、該処理の結果探索された全ての２個の候補文字の組に対して、前記候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、２つの候補文字の大きさの関係が所定の範囲内で、かつ、前記文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと前記文字間ピッチの関係が所定の範囲内という条件を満足するものだけを選ぶ投票手段と、
前記候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納手段と、
前記投票空間格納手段によりまとまった固まりのうち、記録された回数が探索を指定された文字列の長さ別に指定された閾値を越える固まりを抽出し、各抽出された固まりに対して、当該固まりに含まれる全ての候補文字の情報のリストである候補文字・文字位置リストを作成し、当該固まりに含まれる全ての候補文字の前記先頭文字の座標位置、および前記文字間ピッチの平均値を算出して候補文字・文字位置リストに記入する処理を行う候補点群作成手段と、
前記候補点群作成手段が作成した候補文字・文字位置リストに対して、それに含まれる前記平均値から、探索を指定された文字列の全ての文字位置に該当する画像中の座標を仮想座標として算出し、該候補文字・文字位置リストに、同一の文字位置の複数の候補文字が含まれる場合には、該文字位置に該当する前記仮想座標とのユークリッド距離が最小の候補文字を残して他を削除する処理を行なう候補点選択手段と、
を備えたことを特徴とする文字列探索装置。
請求項２に記載の文字列探索装置において、
複数の単語を含む単語辞書と、
前記候補文字絞込み手段によって得られる候補文字集合について、前記単語辞書中の単語の各々に対して、該単語を探索文字列として該探索文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索する処理を行い、該処理結果に該単語の文字数から定まる所定数以上の候補文字が存在する全ての単語について、各々の該探索処理における前記候補点選択手段の処理結果の情報を該単語と共にまとめて出力する単語辞書制御手段と、
を備えたことを特徴とする文字列探索装置。
画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索方法において、
前記探索を指定された文字列の任意の２個の文字に対応する候補文字のペアについて、２個の文字の文字位置から前記候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、２つの候補文字の大きさの関係が所定の範囲内で、かつ、前記文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと前記文字間ピッチの関係が所定の範囲内という条件を満足するものだけを選ぶ投票ステップと、
前記候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納ステップと、
前記投票空間格納ステップによりまとまったもののうち、探索文字列の文字数から定まる所定数以上の候補文字があるものを抽出する候補点群作成ステップと、
前記候補点群作成ステップで抽出された候補文字の中から、なるべく直線的に並ぶ候補文字に絞る候補点選択ステップと、
を備えたことを特徴とする文字列探索方法。
画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索方法において、
前記候補文字集合に含まれる候補文字を互いに比較し、解像度と空間的距離が近い候補文字の集合を選択し、該集合の中で相対的に認識結果の距離値が大きい候補文字を削除する候補文字絞込みステップと、
前記探索を指定された文字列から、該文字列の前から後の方向に存在する全ての２個の文字の組である文字ペアを選び、各々の文字ペアに対して前記候補文字集合中から文字カテゴリが一致する全ての２個の候補文字の組を探索する処理を行い、該処理の結果探索された全ての２個の候補文字の組に対して、前記候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、２つの候補文字の大きさの関係が所定の範囲内で、かつ、前記文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと前記文字間ピッチの関係が所定の範囲内という条件を満足するものだけを選ぶ投票ステップと、
前記候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納ステップと、
前記投票空間格納ステップによりまとまった固まりのうち、記録された回数が探索を指定された文字列の長さ別に指定された閾値を越える固まりを抽出し、各抽出された固まりに対して、当該固まりに含まれる全ての候補文字の情報のリストである候補文字・文字位置リストを作成し、当該固まりに含まれる全ての候補文字の前記先頭文字の座標位置、および前記文字間ピッチの平均値を算出して候補文字・文字位置リストに記入する処理を行う候補点群作成ステップと、
前記候補点群作成ステップが作成した候補文字・文字位置リストに対して、それに含まれる前記平均値から、探索を指定された文字列の全ての文字位置に該当する画像中の座標を仮想座標として算出し、該候補文字・文字位置リストに、同一の文字位置の複数の候補文字が含まれる場合には、該文字位置に該当する前記仮想座標とのユークリッド距離が最小の候補文字を残して他を削除する処理を行なう候補点選択ステップと、
を備えたことを特徴とする文字列探索方法。
請求項５に記載の文字列探索方法において、
複数の単語を含む単語辞書と、
前記候補文字絞込みステップによって得られる候補文字集合について、前記単語辞書中の単語の各々に対して、該単語を探索文字列として該探索文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索する処理を行い、該処理結果に該単語の文字数から定まる所定数以上の候補文字が存在する全ての単語について、各々の該探索処理における前記候補点選択ステップの処理結果の情報を該単語と共にまとめて出力する単語辞書制御ステップと、
を備えたことを特徴とする文字列探索方法。
請求項１〜６のいずれか１項に記載の文字列探索装置または探索方法における処理手順をコンピュータで実行可能に構成したことを特徴とするプログラム。