JP5414631B2 - 文字列探索方法、文字列探索装置、記録媒体 - Google Patents

文字列探索方法、文字列探索装置、記録媒体 Download PDF

Info

Publication number
JP5414631B2
JP5414631B2 JP2010146893A JP2010146893A JP5414631B2 JP 5414631 B2 JP5414631 B2 JP 5414631B2 JP 2010146893 A JP2010146893 A JP 2010146893A JP 2010146893 A JP2010146893 A JP 2010146893A JP 5414631 B2 JP5414631 B2 JP 5414631B2
Authority
JP
Japan
Prior art keywords
character
candidate
characters
character string
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010146893A
Other languages
English (en)
Other versions
JP2012008979A (ja
Inventor
章 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010146893A priority Critical patent/JP5414631B2/ja
Publication of JP2012008979A publication Critical patent/JP2012008979A/ja
Application granted granted Critical
Publication of JP5414631B2 publication Critical patent/JP5414631B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、本発明は、濃淡画像から指定された文字列が存在する位置を探索する技術に関する。
景観の濃淡画像に写った文字列の認識技術の一つに、画像を2値化せずに濃淡のままで用い、ずらしマッチングにより各文字カテゴリの基準となる形状を表す認識辞書と画像の各領域の近さを算出し、算出された近さの値のマップから局所的なピークを全て取り出し、それらピークの中であらかじめ決められた文字列の図形的な配置規則に従うピークの列を抽出する技術がある(例えば、特許文献1参照)。
この探索技術では濃淡画像を2値化しないため、撮影条件が悪く画像のコントラストが低い場合、部分的な隠蔽がある場合、文字間の接触、複雑な背景、文字の陰影等に対して強いという特徴がある。
ここで、特許文献1の詳細な説明には、図42に「電話会社」という文字列が写った濃淡画像の例を示すように、認識対象とする文字が変形しうる場合についての対策は記載されていないが、その[請求項7]には抽出の対象である画像もしくは認識辞書を変形させることで認識対象とする文字の変形に対処する方法が記載されている。また、特許文献1の詳細な説明では、認識対象を数字の集合に限定しているが、これは他の場合、例えば漢字の集合に容易に拡張できる。
また、特許文献1の詳細な説明では、認識辞書と画像の各領域との近さの距離値としては相関を用いているが、これは他の距離値、例えばユークリッド距離、該特徴空間における少数の特徴ベクトルで近似された部分空間への投影距離(田村秀行:「コンピュータ画像処理」pp282-286、オーム社出版局、2002)、カーネル関数により定義された非線形変換を利用して作成した該部分空間への投影距離(前田英作、村瀬洋:「カーネル非線形部分空間法によるパターン認識」、電子情報通信学会論文誌D-II、VOL.J82-D-II、NO.4、pp600-612、1999年4月)、ベイズ推定や最尤推定等の特徴ベクトル空間における生起確率(Richard O.Duda、Peter E.Hart、David G.Stork:「パターン識別」84-101、新技術コミュニケーションズ、2001)などが使用できることは類推できる。また、認識辞書と画像の各領域との近さの算出の際に、両者の画像をそのまま用いているが、これを他の特徴量、例えば画素値の2乗の合計が一定値になるように正規化したものや、濃淡の加重方向ヒストグラム特徴の各特徴量の2乗の合計値が一定値になるように正規化したものを用いることもできる。
ここで、説明のために、従来技術において、対象とする画像の解像度を複数段階に変化させることとし、またアフィン変換によって様々な歪を加えたテンプレートをあらかじめ用意しておき、それらのテンプレートを用いて解像度を複数段階に変化させた各画像に対してずらしマッチングを行なうこととする。また認識辞書と画像の各領域との近さの距離値としてはユークリッド距離を用いることとする。複数段階の解像度の例として、図43の(a)〜(d)は、各々図42の原画像を、0.7倍、0.8倍、1.0倍、1.2倍したものであり、各々の左上の矩形は、例とする観測窓の大きさ(40画素×40画素)を表している。走査の結果、解像度毎に候補文字の検出結果が生成されるが、図44は原画像を0.7倍に縮小した図43(a)に対する走査結果の模式図である。図において、[]と■で表される点が正しい候補文字、()と×で表される点が偽の候補文字である。[]、()内の情報は、第1が候補文字、第2が認識結果の距離値である。このような結果が複数の解像度分だけ生成される。
特許文献1においては、この後に、それらピークの中であらかじめ決められた文字列の図形的な配置規則に従うピークの列を抽出する処理を行なうが、認識対象がナンバープレート以外の場合(例えば日本語の看板等)には、この処理ではうまく働かないことがある。理由は、認識対象カテゴリを漢字のように大きなセット(JIS第1水準のセットで2965個)にすると非常に多くの偽のピークが発生することと、文字の背景が無地であるナンバープレートとは異なり看板の文字の背景には模様がある場合がありその場合には模様の部分からやはり非常に多くの偽のピークが発生するため、文字列の図形的な配置規則に従う偽のピークの列が数多く抽出されることによる。
ここで、画像を検索するためであれば、必ずしも正しい文字列だけが抽出できなくとも、ピーク(以降、これを候補文字と呼ぶ)の集合をまとめたものをインデクスとし、このようなインデクスを用いて文字列をキーとして(例えば「電話会社」をキーとして入力して)画像を検索できれば良いことに注目する。そのためには、背景からの偽の候補文字も大量に出現することを前提として「電話会社」のような文字列が空間的な規則性を持ってインデクスの中に存在する個所を探索する手段が必要である。これを行なうためには、検索キーとされた文字列の文字数をLとした場合、候補文字の総数をMとすると、M個の中からL個を選ぶ個全ての組み合わせに対して、検索文字列と一致するか否か、さらに空間的に直線的に低ピッチで並んでいるか否か、を調べる必要があり、膨大な処理時間が必要である。
この問題を解決し、濃淡画像を2値化することなく濃淡画像から指定される文字列を探索する方式において、探索処理時間を大幅に短縮できる文字列探索技術の従来技術が特許文献2に示されている。ここでは、濃淡画像の小ブロックにある候補文字数を距離によって絞込み、近くにある同じカテゴリ文字となる候補を削除し、探索文字列の2つの文字を取り出して、これとカテゴリが一致する文字候補の組み合わせを求める。また、2つの候補の組み合わせを、さらに組み合わせて整合するものを選択する。次に、探索文字列の文字数により、所定文字数以上の固まりになったものを選択する。そして、候補点で重複するものは除いて、最後は候補の座標位置から1つに絞り込んでいる。
特開2001−307021号公報 特許第4418726号公報
しかしながら、特許文献2に示す方法では、画像に文字が含まれていない場合でも、画像内のテクスチャを文字として認識する場合があると考えられる。例えば、図20(a)は格子状のテクスチャの領域を撮影した景観画像の模式図である。この画像には文字列は含まれていないので、どのような検索文字列に対しても検索されれば誤りである。これに対して、濃淡画像からの候補文字の抽出処理によって出力された結果を原画像に重畳した模式図を図20(b)に示す。説明の簡単のために、2個の候補文字だけが抽出され候補文字集合を構成したとし、この候補文字集合を図20(c)に示す。
これに対して、探索キーとして2文字の文字列「土田」が投入されたとする。この時の特許文献2の技術の動作を確認する。まず、 図22(c)の候補文字集合が候補文字絞込み手段により処理される。まず単一解像度候補文字絞込み手段においてブロック内で候補文字から2個までに絞り込むが、この例では全部で2個の候補文字しかないので影響を受けない。次に、この結果が複数解像度候補文字絞込み手段に入力されるが、2個の候補文字は互いに文字カテゴリが一致しないので影響しない。
次に投票手段の処理に移る。ここでは投票手段は探索キーの2つの文字要素を取り出して、文字要素と候補のカテゴリが一致する組み合わせを求める。この場合、探索キーは「土田」で、2つの文字要素は「土」と「田」の組合せだけである。したがって、図20(c)のPID=0、PID=1の候補文字の組合せだけが選ばれる。次に、投票手段が以下(A1)〜(D1)の順に処理を行う。
まず、(A1)文字列の中心位置座標の配列を規定する4つのパラメータ値(a、b、c、d)を算出する。ここでは仮想ピッチベクトルを算出するが、PID=0、PID=1の候補文字とこれらを結ぶ仮想ピッチベクトルの関係を図示したのが図45である。この例では単語長さは2文字で候補文字も2個だけなので、aはPID=0のX座標110、bはPID=0のY座標100、cはPID=0を始点としPID=1を終点とするベクトルのX成分230−110=120、dはPID=0を始点としPID=1を終点とするベクトルのY成分120−130=−10、となる。
そして、(B1)パラメータ値(a、b、c、d)から、投票空間格納手段に登録するための座標ベクトル(Ra、Rb、Rc、Rd)を算出する。この処理結果は動作に影響しないので記述を省略する。
次に、(C1)各々の候補点R1とR2の組み合わせの可否を判定する関数(組み合わせ判定関数)を適用する。ここでは、
・s=(R2の「大きさ」)÷(R1の「大きさ」)=1
・α=仮想ピッチベクトルの角度=arctan(−10/120)=4.76度
・Ps=(c×c+d×d)0.5/0.5×(R2の「大きさ」+R1の「大きさ」)
=(120×120+(−10)×(−10))0.5/0.5×(50+50)
=120.4/50
=2.4
となる。これらの数値は、
「s1<s<s2 かつα∈α1かつPs1<ps<Ps2」
を満足する。したがって、次の処理である(D1)組み合わせ判定関数が合格と判定した組み合わせを投票空間格納手段に追加する処理を実施する。
これを受けて、投票空間格納手段は、2つの候補の組み合わせを、さらに組み合わせて整合するものを選択する。しかしこの場合は2つの候補の組み合わせは一つしかないので、それがそのまま選択され、投票空間に格納される。
次に候補点群作成手段は、探索キーの文字数により、投票空間格納手段の処理で所定文字数以上の固まりになったものを選択し、PID=0、PID=1の候補文字の組合せがそのまま選ばれる。次に候補点選択手段は、候補点で重複するものは除いて、最後は候補の座標位置から1つに絞り込むがこの場合はPID=0、PID=1の候補文字の組合せには重複は無いのでそのまま出力される。すなわち、検索文字列「土田」に対して、PID=0、PID=1の候補文字の組合せが検索結果として返されることとなる。すなわち、図20(a)の画像には文字が含まれていないのに、誤って検索結果として出力されるという処理の失敗が発生すると考えられる。
本発明は、このような状況に鑑みてなされたもので、画像に文字が含まれていない場合に文字列による検索を行う際、文字列が誤って検索されてしまうことを防ぎ、より精度良く文字列探索を行う文字列探索方法、文字列探索装置、記録媒体を提供する。
上述した課題を解決するために、本発明は、画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索装置の文字列探索方法において、すべての候補文字について、元の画像内の該当領域のパターンの変形角度を推定する変形角度推定ステップと、探索を指定された文字列の任意の2個の文字に対応する候補文字のペアについて、2個の文字の文字位置から候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、2つの候補文字の大きさの関係が所定の範囲内で、かつ、文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと文字間ピッチの関係が所定の範囲内という条件を満足し、かつ、2個の文字の文字位置から定まる両者の相対的な角度および両者の変形角度が定められた角度の条件を満足するものだけを選ぶ投票ステップと、候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納ステップと、投票空間格納ステップによりまとまったもののうち、探索文字列の文字数から定まる所定数以上の候補文字があるものを抽出する候補点群作成ステップと、候補点群作成ステップで抽出された候補文字の中から、なるべく直線的に並ぶ候補文字に絞る候補点選択ステップと、を備えたことを特徴とする。
また、本発明は、画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索装置において、すべての候補文字について、元の画像内の該当領域のパターンの変形角度を推定する変形角度推定手段と、探索を指定された文字列の任意の2個の文字に対応する候補文字のペアについて、2個の文字の文字位置から候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、2つの候補文字の大きさの関係が所定の範囲内で、かつ、文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと文字間ピッチの関係が所定の範囲内という条件を満足し、かつ、2個の文字の文字位置から定まる両者の相対的な角度および両者の変形角度が定められた角度の条件を満足するものだけを選ぶ投票手段と、候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納手段と、投票空間格納手段によりまとまったもののうち、探索文字列の文字数から定まる所定数以上の候補文字があるものを抽出する候補点群作成手段と、候補点群作成手段で抽出された候補文字の中から、なるべく直線的に並ぶ候補文字に絞る候補点選択手段と、を備えたことを特徴とする。
また、本発明は、上述の文字列探索方法における処理手順をコンピュータに実行させるプログラムを記録した記録媒体である。
以上説明したように、本発明によれば、文字列探索の際に、探索キーとされた長さLの文字列から、該文字列の前から後の方向に存在する全ての2個の文字の組である文字ペアを選び、各々の文字ペアに対して、候補文字集合中から文字カテゴリが一致する全ての2個の候補文字の組を探索する処理を行い、該処理の結果探索された全ての2個の候補文字の組に対して、ピッチが一定でかつ直線的に並ぶ文字列を特定するパラメータの組を算出する際に、候補文字パターンの変形角度を推定しその結果に基づく判定処理を行って合格した場合にだけ該2個の候補文字の組と該パラメータの組の情報を投票空間に投票するようにしたので、画像に文字が含まれていない場合に文字列による検索を行う際、文字列が誤って検索されてしまうことを防ぎ、より精度良く文字列探索を行うことが可能となる。
本発明の一実施形態による文字列探索装置の構成例を示すブロック図である。 本発明の一実施形態による候補文字絞込み手段の構成例を示すブロック図である。 本発明の一実施形態による単一解像度候補文字絞込み手段の処理過程を示す模式図である。 本発明の一実施形態による単一解像度候補文字絞込み手段の処理過程を示す模式図である。 本発明の一実施形態において元画像の中を0.7倍した解像度の画像から出力された候補文字を重畳表示した模式図である。 本発明の一実施形態による単一解像度候補文字絞込み手段の処理過程を示す模式図である。 本発明の一実施形態による単一解像度候補文字絞込み手段の処理過程を示す模式図である。 本発明の一実施形態による単一解像度候補文字絞込み手段の処理過程を示す模式図である。 本発明の一実施形態による単一解像度候補文字絞込み手段の処理過程を示す模式図である。 本発明の一実施形態による単一解像度候補文字絞込み手段の処理過程を示す模式図である。 本発明の一実施形態による単一解像度候補文字絞込み手段の処理過程を示す模式図である。 本発明の一実施形態による絞込み処理の入力データ配列の例を示す図である。 本発明の一実施形態による絞込み処理を示すフローチャートである。 本発明の一実施形態による複数解像度候補文字絞込み手段におけるデータの処理過程を示す模式図である。 本発明の一実施形態による複数解像度候補文字絞込み手段におけるデータの処理過程を示す模式図である。 本発明の一実施形態による複数解像度候補文字絞込み手段におけるデータの処理過程を示す模式図である。 本発明の一実施形態による変形角度推定手段の動作を説明するための、前提とする斜めからの撮影による文字パターン列の変形、および水平軸と垂直軸の角度変化についての模式図である。 本発明の一実施形態による変形角度推定手段20の構成例を示す図である。 本発明の一実施形態により元画像から抽出された2つの候補文字の領域の画像を示す図である。 本発明の一実施形態による処理対象となる文字が存在しない画像と、その画像から抽出された候補文字集合の模式図である。 本発明の一実施形態による文字パターンと勾配ベクトルの角度分布のグラフの例を示す図である。 本発明の一実施形態による文字パターンと勾配ベクトルの角度分布のグラフの例を示す図である。 本発明の一実施形態によるマスクと勾配ベクトルの角度分布のグラフの例を示す図である。 本発明の一実施形態によるマスク生成手段の処理過程を表す図である。 本発明の一実施形態による変形角度の推定結果の例を示す図である。 本発明の一実施形態による投票処理の処理を示すフローチャートである。 本発明の一実施形態による投票処理途中のデータ例を示す図である。 本発明の一実施形態により2個の候補点から算出される、仮想的な開始点のX座標、仮想的な開始点のY座標、仮想的なX方向のピッチ、仮想的なY方向のピッチ、仮想的ピッチベクトルのX成分、仮想的ピッチベクトル、等の概念を説明する模式図である。 本発明の一実施形態による投票処理のデータ処理過程を示す図である。 本発明の一実施形態による投票処理のデータ処理過程を示す図である。 本発明の一実施形態による投票処理のデータ処理過程を示す図である。 本発明の一実施形態による投票処理のデータ処理過程を示す図である。 本発明の一実施形態による2個の候補文字および各値の関係の示す模式図である。 本発明の一実施形態による投票処理のデータ処理過程を示す図である。 本発明の一実施形態による投票空間格納手段の初期状態を示す図である。 本発明の一実施形態による処理後の投票空間格納手段の状態を示す図である。 本発明の一実施形態による候補文字・文字位置リストの例を示す模式図である。 本発明の一実施形態による候補文字・文字位置リストの例を示す模式図である。 本発明の一実施形態による候補点群リストの処理過程を示す図である。 本発明の一実施形態による候補選択処理の処理過程を示す図である。 本発明の一実施形態による候補選択処理の処理結果を示す図である。 文字探索の処理対象である元画像の例を示す図である。 文字探索の処理対象である元画像を複数の解像度に変換した例を示す図である。 文字探索の処理対象である元画像を0.7倍した解像度の画像から出力された候補文字を重畳表示した模式図である。 文字探索の処理対象である元画像から抽出された2つの候補文字とそれらを組み合わせた仮想ピッチベクトルを表す図である。
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態による文字列探索装置1の構成を示すブロック図である。文字列探索装置1は、候補文字絞込み手段10と、変形角度推定手段20と、選択的投票手段30と、投票空間格納手段40と、候補点群作成手段50と、候補点選択手段60とを備えている。
候補文字絞込み手段10は、文字列探索における最初の処理を行う。候補文字絞込み手段10は様々な構成が考えられるが、本実施形態では説明のために、図2に示す構成をとる。候補文字絞込み手段10は、単一解像度候補文字絞込み手段11と、複数解像度候補文字絞込み手段12とを備えている。単一解像度候補文字絞込み手段11は、候補文字集合を画像の解像度別に分け、各々の候補文字集合の中での絞込み処理を行なう。これに対し、複数解像度候補文字絞込み手段12は、全ての解像度の候補文字集合に対する絞込み処理を行なう。本実施形態ではこの2つの手段を直列に接続して候補文字を絞込む。
単一解像度候補文字絞込み手段11は、例えば、ある解像度の画像に対して、1つの小ブロックにある候補文字数を距離によって絞込む。この絞込みは、升目の仕切位置を変更しても行う。この処理の詳細を説明する。ここでは、ある解像度における候補文字集合を、その中心座標によりブロック分割する。本実施形態では解像度が原画像の0.7倍の場合のみを図面を参照して説明する。他の解像度については単一解像度候補文字絞込み手段11の処理内容の説明は省略するが、同様の処理である。
図3は、0.7倍の画像の場合の基本的なブロック分割の様子を示しており、各升目が40画素×40画素のブロックを表している。実際のブロック分割は、この基本的なブロック分割を基に、ブロック配列の位置を縦および横方向にずらした分割方法を複数用意する。図4(a)〜(d)はその例で、これらのうち、太線で囲まれた正方形の閉領域が1つのブロックである。図4(a)は、図3の基本的なブロック分割をずらさずに用いたブロック分割結果であり、(b)、(c)はそれぞれ縦方向、横方向に20画素ずらしたもの、(d)は縦横に両方とも20画素ずらしたものである。
ここで、単一解像度候補文字絞込み手段11は、これらのブロック分割結果を順番に適用して絞込みを行なう。まず、図4(a)を用いた例を説明する。図5に示す候補文字集合を、図4(a)のブロック分割方法に従って分割したのが図6である。ここで、1ブロックの中での絞込みの方法を、候補文字を距離値の小さい順に並び替え、上位の候補文字から一定個数(この実施形態では2個)だけ採用して他を削除するものとする。他にも、候補文字を距離値の小さい順に並び替え、最小の距離値を持つ候補文字からの距離値の差分が一定閾値を越える候補文字を削除する方法もありうる。
図6の場合、複数の候補文字が存在するブロックは左上端から1ブロック分右下のブロックだけであり、このブロックにおける処理内容を説明する。このブロックには、(電、600)と[電、420]と(黄、780)の3個が存在する。これを距離の小さい順に並び替えると、[電、420]、(電、600)、(黄、780)となり、これを上位から2個だけ採用し他を削除すると、[電、420]、(電、600)が残る。これを図示したのが図7である。
1ブロックの中での絞込みの方法としては、以上の他に、候補文字を距離値の小さい順に並び替えた後、上位の候補文字と同一の文字カテゴリを有する下位の候補文字を削除した後に、上位の候補文字から一定個数個(この実施形態では2個)だけ採用して他を削除する方法もある。図8は図6に対してこの方法を適用した結果である。
さて、単一解像度候補文字絞込み手段11は、図7の結果に対して、次に、他のブロック分割方法を適用して絞込みを行なう。図9は、図7の結果に対して図4(b)のブロック分割方法を当てはめた時のブロック分割の様子であり、図10はその絞込み結果である。これに対してさらに、図4(c)、図4(d)を当てはめるが、候補文字はこれ以上削減されない。従って、図10が解像度0.7倍の場合の単一解像度候補文字絞込み手段11の処理結果である。同様に、他の解像度に対しても同様の処理結果が単一解像度候補文字絞込み手段11から出力される。
複数解像度候補文字絞込み手段12は、単一解像度候補文字絞込み手段11による単一解像度候補文字絞込みが行われた後の処理を行う。複数解像度候補文字絞込み手段12は、距離が小さい候補文字は残す方針による判定関数(F1)を用いて、近くにある同じカテゴリ文字となる候補を削除する文字絞込みを行うもので、以下詳細に説明する。複数解像度候補文字絞込み手段12は、まず、単一解像度候補文字絞込み手段11から出力された各解像度の絞込み結果を一つにまとめる。まとめた結果の例を図11と図12に示す。図11において、[]と■は正しい候補文字(■は中心座標)、()と×は誤った候補文字(×は中心座標)である。また、実線の正方形は正しい候補文字の窓の大きさを、破線の正方形は誤った候補文字の窓の大きさを表す。さらに[]、()内の情報は、PID(単一解像度候補文字絞込み手段11の処理の結果残った候補文字の0から始まる通し番号)、候補文字カテゴリ、中心点のX座標、中心点のY座標、観測窓の大きさを表す。ここで、観測窓の大きさは、基本的な観測窓の大きさ(縦40画素、横40画素)を画像の解像度の倍率で割った値である。例えば、原画像を0.7倍した画像から検出された候補文字の観測窓の大きさは、縦40画素、横40画素を0.7で割った値であり、縦横共通に57.1≒57である。すなわち、図11において観測窓の大きさ=57である候補文字が図10のデータ(解像度が0.7倍)に由来する。
図12は、図11の各候補文字をリストにまとめたものであり、図11の情報に加えて候補文字の認識結果の距離値が情報として加わっている。また、図12には「正誤」の情報が示されているが、これは本実施形態の説明のために、正しい候補文字(正誤=1)と誤った候補文字(正誤=0)を区別するために便宜上示したものであり、実際の処理とは無関係である。この図12に例を示すリストを「入力データ配列」と呼ぶ。
次に、複数解像度候補文字絞込み手段12では、入力データ配列のデータに対して図13のフローチャートで示した処理を行なう。図13の処理において、関数F1とは、2つの候補文字が「近い」か「遠い」かを判定する判定関数である。具体的には、
(1)2つの候補文字の文字カテゴリが一致するか否か
(2)2つの候補文字の中心座標のユークリッド距離の近さ
(3)2つの候補文字の大きさの近さ
の3つの「近さ」を総合判断して決定する。総合判断の方法は様々に考えられるが、ここでは例として、(3)は無視して、(1)の文字カテゴリが一致し、かつ(2)のユークリッド距離が一定の閾値(この例では40)以下である場合に、F1は「近い」と判断し、それ以外の場合は「遠い」と判断するものとする。その結果が図14と図15であり、途中経過を示すのが図16である。
図13のフローチャートでは、まず図12で示す入力データ配列に対して、距離値の小さい順にソートする(S0)が、この場合の結果が図16(a)である。またこの後に、入力データ配列の上位レコードから順次「大きさ」が−1でないものを取り出して行く。この実施形態では、入力データ配列のレコードの「大きさ」に「−1」を記入することは「削除」を意味しており、これはレコードの他の欄を用いてもよい。また、図13におけるレコードバッファとは、入力データ配列におけるレコードの情報を複数個分コピーして一時格納しておくメモリである。
図16(a)の例では、i=1から初めてi=6までは、レコードバッファに格納されるのは入力データ配列のi番目のレコード1個だけであり、入力データ配列のデータは削除されない(すなわちいずれのレコードの「大きさ」も−1が書き込まれない)。これに対して、i=7の時には、レコードバッファに計3個のレコードが書き込まれる(S5)。これは図16(b)の3つのレコード(i=7、9、10)であり、書き込まれたレコードバッファが図16(c)である。このレコードバッファから上位一定個数(ここでは例として2個)のレコードを削除すると(S6)、この例ではPID=0のレコードだけが残り、このレコードのPID=0に該当する入力データ配列のレコードの「大きさ」の欄に−1を書き込んだ(S8)のが図16(d)である。
さて、入力データ配列のi=7に対する上記の処理の後、i=8から11まで処理を行なった後でも入力データ配列の内容は図16(d)と変わらない。最後に入力データ配列をPIDの小さい順にソート(S2)した結果が図14であり、それを画像上に重畳して表示したのが図15である。
なお、F1における総合判断の方法としては上記以外にも、(1)を無視することが考えられる。また(3)を無視せずに、2つの候補文字の大きさの近さが一定閾値以下である、という条件をF1の判断に論理積の形で加えることも考えられる。すなわち、(1)の文字カテゴリが一致し、かつ(2)のユークリッド距離が一定の閾値以下であり、かつ(3)の2つの候補文字の大きさの近さが一定閾値以下である場合にF1は「近い」と判断する。その場合の「大きさの近さ」とは例えば、具体的には大きい方の「大きさ」を小さい方の「大きさ」で割った値を尺度とすることが考えられる。この尺度を用いる場合には、この尺度は両者の大きさが最も近い場合には1となり、大きさが離れていくにつれて1よりも大きな値になっていくので、2つの候補文字の大きさの近さの閾値は1よりも大きい値に設定する必要がある(例えば、1.5など)。あるいは、1つの閾値を用いる代わりに、2つの候補文字の大きさの順序は考慮せずに機械的に片方の「大きさ」をもう片方の「大きさ」で割った値を尺度として、その値に2つの値で決定される範囲を設定する方法もある。この場合、この尺度は両者の大きさが最も近い場合には1となり、大きさが離れていくにつれて1よりも小さくなるか大きくなっていくので、1より小さい値(例えば、0.7)と大きい値(例えば、1.5)の2つの値によって設定された範囲に入っていれば(例えば、0.7以上かつ1.5以下の範囲)F1は「近い」と判定し、そうでなければ「近い」と判定しない。
また、(2)と(3)の2つの「近さ」を個別に扱う代わりに、この2つの尺度を一つにまとめることも考えられる。具体的には、2つの候補文字の(中心点のX座標、中心点のY座標、大きさ)の3次元ベクトル間のユークリッド距離、もしくは各次元に重みをつけたユークリッド距離が一定閾値以下であることを「近い」と判定する尺度とする。
また、上述した関数F1の説明では、比較する2つの候補文字の「大きさ」が等しい場合も「近い」と判定する可能性があるが、これを比較する2つの候補文字の「大きさ」が等しい場合は「近い」と判定しない、とすることも可能である。これは、単一解像度候補文字絞込み手段11において既に「大きさ」が等しい候補文字の絞込みは既に済んでいるので不要、という考え方による。
ここで、候補文字絞込み手段10を単一解像度候補文字絞込み手段11だけで構成することも可能である。その具体的な処理内容は、上記の候補文字絞込み手段10の説明において、単一解像度候補文字絞込み手段11による処理を行い、複数解像度候補文字絞込み手段12では何もせずに単一解像度候補文字絞込み手段11から受け取った処理結果をそのまま出力することができる。
また、上述の候補文字絞込み手段10の構成を、まず複数解像度候補文字絞込み手段12による処理を行って、その次に単一解像度候補文字絞込み手段11による処理を行うという順番に構成することも可能である。例えば、複数解像度候補文字絞込み手段12のF1の総合判定において、上記の(1)、(2)、(3)の3つの「近さ」の判定結果の論理積を用いることにすると、この複数解像度候補文字絞込み手段12の処理によって、解像度と空間的な距離が近い同一カテゴリの候補文字を統合する効果となる。
次に、変形角度推定手段20を説明する。まず、変形角度推定手段20の動作を説明するために、前提とする斜めからの撮影による文字パターン列の変形、および水平軸と垂直軸の角度変化について模式図を用いて説明する。この説明では水平方向に文字が並んでいる模式図が例となっているが、縦方向に並ぶ場合も同様である。図17(a)は、検出対象である文字パターン列を正面から見た時の例で、個々の文字パターンの変形の様子を示すために外接矩形で囲んだ。個々の文字パターンは同じ大きさで一本の直線上に等間隔に並んでいるとする。このとき、個別の文字パターンと、文字列パターン全体は、水平軸と垂直軸の方向を表すベクトルuとvを共有している。
この文字パターン列を斜めから見た画像を想定すると、原画像に対して見かけの変形が加わるが、この変形をアフィン変換で近似することとして、このアフィン変換が加わった模式図を図17(b)である(この図では外接矩形だけを描いた)。アフィン変換は、文字パターン列の画像全体に対して、1)大きさの変化、2)縦横比率の変化、3)スキュー、4)回転、5)並行移動が加わるものであり、その度合いはすべての座標で一定である。したがって上記のベクトルuとvは画像全体で同一の変換がなされ、変換後のベクトルをUとVで表すと、この2つはアフィン変換後の文字列パターン全体と個々の文字パターンとの間で共通する。ここでは、このベクトルUとVをパターンの空間的配置の検定の新たな手がかりとして採用する。ただしベクトルの形態では扱わず、代わりに各々の変換後の画像の見かけ上の水平軸と垂直軸との間の角度(図17(c)のα^(α^(αハット)は、図中ではαの上部に^記号が付されたものである)とβ)を、方向を表す値として採用する。これら2角度は文字パターンの変形度合いを部分的に表しており、変形角度と呼ぶこととする。
これを前提として、変形角度推定手段20の具体的な動作を説明する。変形角度推定手段11は、候補文字絞込み手段10から出力された入力データ配列に格納されたすべての候補文字の情報に対して、変形角度α^、変形角度βを推定する。候補文字絞込み手段10から出力された入力データ配列における1個の候補文字のフォーマットは、(カテゴリ名、X座標、Y座標、大きさ、距離値)であるが、これに対して、変形角度α^とβの値が加わるので、新たなフォーマットは(カテゴリ名、X座標、Y座標、大きさ、距離値、変形角度α^、変形角度β)となる。ただし後述するように、文字カテゴリによっては変形角度α^とβとのいずれか、もしくは両方が推定できない場合もあり、その場合はこれらの値には無効を表す特別な値を入れる。
以下、変形角度推定手段20が個別の候補文字に対して、該当する画像中の領域のパターンの角度α^とβの推定を行う処理手順を説明する。変形角度推定手段20の構成例を図18に示す。変形角度推定手段20は、制御手段21と、マスクテーブル22と、角度算出手段23と、マスク生成手段24とを備えている。
マスクテーブル22は、各文字カテゴリについて、α^算出用のマスクと、β算出用のマスクと、この2種類のマスクの有無を示すフラグとを格納したテーブルである。マスクの内容については後述する。このマスクテーブル22に格納される個別のマスクの作成は、事前にマスク生成手段24によって実施される。このマスク生成手段24については後述する。
制御手段21は、変形角度推定手段20の全体的な制御を行う。制御手段21は、例えば、候補文字絞込み手段10から入力される入力データ配列から候補文字の情報を1つずつ取り出し、各々について以下の処理を行う。
まず、制御手段1010は、1個分の候補文字のレコードから候補文字の画像中のX座標とY座標とを取り出し、画像中から該当領域のパターンを切出して、文字カテゴリの情報と共に角度算出手段23に送る。図19の(a)と(b)に、図20(c)のPID=0、1の候補文字の領域の切出し画像を入力する。以降、制御手段21は、これをすべての候補文字について行う。
角度算出手段23は、制御手段21から候補文字の領域の切出画像が入力されると、マスクテーブル22を参照し、入力された候補文字に該当するマスクの有無を調べる。このマスクが有る場合と無い場合とで以後の処理が異なる。α^算出用のマスクとβ算出用のマスクとが両方とも無い場合のα^の算出とβの算出との例として、図21の左上に置かれた画像を対象とする例を述べる。このパターンは画像から切出した漢字の「土」のパターンの例であり、このパターンの領域が候補文字として検出され、候補文字カテゴリが正しく「土」であったとする。
角度算出手段23は、まず、以下の処理を行う。切出された文字パターンの座標(x、y)における輝度値をf(x、y)、座標(x、y)における勾配ベクトルを(fx、fy)とすると、勾配ベクトルの角度ψ(x、y)は、arctan(fy/fx)となる。このψ(x、y)の範囲を0≦ψ(x、y)<2πとし、これから下式によりひとつの角度ψ^(x、y)を得る。
if (ψ(x、y)<π) ψ^(x、y)=ψ(x、y)
else ψ^(x、y)=ψ(x、y)−π
((ψ(x、y)<π)が真の場合は、ψ^(x、y)の値をψ(x、y)、偽の場合はψ^(x、y)の値をψ(x、y)−πとする)
ψ(x、y)の範囲は0≦ψ(x、y)<πであり、この範囲を離散的に量子化し投票空間として使用する。角度算出手段23は、全座標(x、y)において、勾配ベクトル(fx、fy)を算出し、それから絶対値|(fx、fy)|と角度ψ^(x、y)とを算出し、その角度ψ^(x、y)を量子化した投票空間のブロックに|(fx、fy)|を加算する。投票では分布を平滑化するために前後のブロックにも|(fx、fy)|×0.3を加算することもありうる。またψ^(x、y)の量子化処理では、単位を「度」に変換し、0度から179度まで一度単位の投票空間として用いる。図21に示した「土」のパターンから以上の処理手順により得られた、ψ^(x、y)の各値における|(fx、fy)|の合計値の分布を図21に示す。「土」では水平方向のエッジと水平方向のエッジが共に多いのでピークが2箇所に出現している。
45≦ψ^<135度のピークからα^、それ以外の範囲のピークからβが算出される。エッジの勾配方向はエッジ方向と直交するため、ここでは94度から90度を減算した4度がα^として求められる。0度の別のピークがβで、この場合のβは0度と求められる。
次に、α^算出用マスクが存在するときのα^の値の算出処理過程の例を説明する。βについても、このα^と同様の処理が実施される。ここでは、図22の左上に示した文字パターンの画像を対象とする例の処理過程を説明する。この文字パターンは、ある景観画像の中から切出された片仮名「ビ」の文字パターンのサンプルであり、この文字パターンの領域が候補文字として検出されたと仮定し、さらに候補文字カテゴリが正しく「ビ」であったと仮定する。この場合は、マスクテーブルの「ビ」のα^算出用マスクの有無のフラグが1であるとして、そのマスクのデータをマスクテーブルから引き出して処理を行う。ここでは、図23の左上に示した画像がマスクの具体例とする。この例では、原パターンに重ねたマスクの黒い領域だけにおける勾配ベクトルの角度分布を集計することとする。マスクの有効性を示すため、マスクを用いたときの勾配ベクトルの角度分布と、マスクを使わないときの勾配ベクトルの角度分布を、おのおの図22と図23に示して比較する。
さて、「ビ」の文字パターンは、パターンの下部に水平方向のエッジがあるが、その一方でその上部に右肩上りのエッジが存在することから、勾配ベクトルの角度分布をグラフ化すると、45≦ψ^<135度の範囲に図22に示すように、2箇所のピークが出現する。この2つのピークの中で、変形角度α^に対応するのは正しくは左側であるが、いずれが正しいピークであるかをこの分布だけから識別することは困難である。これに対して図23ではマスクの効果によって「ビ」の下部の水平方向のエッジを中心とする領域のみで勾配ベクトルの角度分布が集計されるため、90度付近に正しく単一のピークが出現し、変形角度α^を容易に推定できる効果は図から明らかである。この説明は変形角度α^の推定の場合であるが、変形角度βの推定においても同様に文字カテゴリ毎にマスクを作成し、同様の処理を行うことで正しくβを推定することが可能である。
マスク生成手段24は、マスクテーブル22に記憶されるマスクを生成する。図24に、文字「全」を例とし、変形角度α^の推定のために用いるマスクを作成する処理の過程を示した。この図の例は、マスクを作成するための源となる情報として、ゴシック体の文字フォント1種類を2値画像にしたものを用いる。図において、(a)が1個のゴシック体の文字フォントの2値画像であり、それに対して(e)が得られたマスクの画像を示す。なお(e)では、黒い部分がエッジを集計する領域である。
まず、マスク生成手段24は、(a)の源の画像を加工して(b)に示すエッジの画像を作る。ここでは例として4近傍で黒画素を膨張させた後、元の画像との差分画像を用いることとする。次に(b)のエッジの画像を水平方向に1画素収縮させ、縦や斜めや短い水平方向のエッジを消すことで(c)の画像を作成する。そして(c)の画像に対して、水平方向の膨張を複数回行って途切れたエッジをつなぎ、さらに収縮を複数回行うことにより、(d)の画像を作成する。次に(d)の画像に対して、垂直方向に膨張を複数回行うことで、(e)に示すマスク画像を最終的に生成する。また、(f)は(e)のマスク画像をエッジ画像に重畳させて表したものである。なお、変形角度βを推定するためのマスクについては、以上の説明における垂直方向の処理と水平方向の処理を入れ替えて同様の処理を行うことにより作成することができる。
ところで、水平方向の長いエッジが少ない文字が少数ではあるが存在する。例としては、大部分が曲線により構成される文字(例:「の」)、大部分が斜め線により構成される文字(例:「へ」)、大部分が縦線で構成される文字(例:「川」)、などが挙げられる。これらの文字から変形角度α^を推定することは難しいため推定対象から除外することとする。選択の基準は、マスクとして採用する領域の、文字パターン全体の領域に対する面積の比率が一定値以下の文字については不採用とする、という基準を採用する。この基準による「採用」と「不採用」の情報が、マスクテーブル22に記憶された対応する文字カテゴリのマスクの有無のフラグに書き込まれる。変形角度βを推定するためのマスクについても。上記と同様の考え方で選択することとする。以上の処理を図17の(a)と(b)に適用した結果、両方ともα^=25度、β=0度と推定されたものとし、これを図25の表にまとめて示す。
選択的投票手段30は、候補文字の組合せに対して組み合わせ判定関数を適用し、合格したものだけを投票空間格納手段40におくる。例として、図25の表におけるPID=0の候補文字とPID=1の候補文字の組合せに対して適用した場合を説明する。組み合わせ判定関数は、従来技術と同様の組み合わせ判定関数(これを第1の判定関数と呼ぶ)に加えて、以下に説明する別種の組み合わせ判定関数(これを第2の判定関数と呼ぶ)を使用し、2つの判定関数の結果が両方とも「組み合わせ可」となった場合にだけ「組み合わせ可」とし、片方もしくは両方が「組み合わせ不可」となれば「組み合わせ不可」とする。
ここで、選択的投票手段30は、候補文字絞込み手段10によって絞り込まれた候補文字に対し、探索キー(探索文字列)の2つの文字要素を取り出して、文字要素と候補のカテゴリが一致する組み合わせを求める。そして、文字の方向(縦書き、横書き)や文字間隔から適切な候補の組み合わせだけを残す。この処理はあらゆる2つの文字要素について行う。この選択的投票手段30の処理手順を示したのが図26のフローチャートである。以下、図14の入力データ配列を対象として動作を説明する。入力データ配列のレコード数をK個と置く。このフローチャートは、以下の表記を用いている。まず、入力データ配列のK個の点をP1、P2、・・・、PKで表し、この集合をPGで表す。また、探索キーとされた文字列をW(長さL)とし、Wを構成する文字をC1、C2、・・・、CLで表す。さらに、m、nを自然数(1≦m<n≦L)とする。
ここで、Wを「電話会社」としたとき(すなわちC1=電、C2=話、C3=会、C4=社、とする)、このフローチャートの中で、全てのnとmの可能な組み合わせにおいてK0とK1の処理(カテゴリ番号が一致する集合PGM、PGNの作成処理)を図14の入力データ配列に対して行い、各々を全ての組み合わせた結果を図27に示す。図27において、左側は集合PGMから抽出した要素、右側は集合PGNから抽出した要素である。ただし、各々の要素には、文字位置を表すm、nの数値を追加してある。このように、候補文字の情報に単語内の文字位置の情報を追加したデータを、以後「候補点」と呼ぶ。また、集合PGMから抽出した1個の「候補点」をR1、集合PGNから抽出した1個の「候補点」をR2と呼ぶ。また、図27の各レコードには、説明のための通し番号が先頭に振ってある。
図26のフローチャートのK2の処理では、これらの組み合わせに対して、(A1)文字列の中心位置座標の配列を規定する4つのパラメータ値(a、b、c、d)を算出する。そして、(B1)パラメータ値(a、b、c、d)から、投票空間格納手段40に登録するための座標ベクトル(Ra、Rb、Rc、Rd)を算出する。次に、(C1)各々の候補点R1とR2の組み合わせの可否を判定する関数(第1の判定関数および第2の関数)を適用する。次に、(D1)第1の判定関数および第2の関数により合格と判定した組み合わせを投票空間格納手段40に追加する。このような、(A1)、(B1)、(C1)、(D1)の4つの処理を行なう。なお(B1)におけるRa、Rb、Rc、Rdは、それぞれa、b、c、dの概値として算出される値である。また、(C1)における「R1とR2」は、集合PGMから抽出した1個の「候補点」と、集合PGNから抽出した1個の「候補点」を意味する。以下、各々の処理を、例を用いて説明する。
(A1)における4つのパラメータ値(a、b、c、d)は、それぞれ以下の意味である。
a:仮想的な開始点のX座標
b:仮想的な開始点のY座標
c:仮想的なX方向のピッチ(仮想的ピッチベクトルのX成分)
d:仮想的なY方向のピッチ(仮想的ピッチベクトルのY成分)
これらを説明する模式図を図28に示す。これは図27における番号=11、(m、n)=(2、3)のレコードを用いた時の模式図である。このレコードには、集合PGMから取り出した候補点R1=(カテゴリ=話、X1=160、Y1=190、窓の大きさ=
50、距離374、単語内文字位置=2、PID=9)と、集合PGNから取り出した候補点R2=(カテゴリ=会、X2=230、Y2=170、窓の大きさ=50、距離=450、単語内文字位置=3、PID=5)が存在する。ここで、R1の中心のX座標=X1、中心のY座標=Y1、単語内文字位置=iとし、R2の中心のX座標=X2、中心のY座標=Y2、単語内文字位置=jとすると、a、b、c、dは下式で計算される。
c=(X2−X1)/(j−i)
d=(Y2−Y1)/(j−i)
a=X1−c×(i−1)
b=Y1−d×(i−1)
図27の各レコードに対して上記の式により(a、b、c、d)を計算した結果を図29に示す。
次に(B1)の処理であるが、ここでは(Ra、Rb、Rc、Rd)を(a、b、c、d)の値から算出する。本実施形態では、
Ra=a/Ca (Caは定数) 小数点1位を四捨五入
Rb=b/Cb (Cbは定数) 小数点1位を四捨五入
Rc=c/Cc (Ccは定数) 小数点1位を四捨五入
Rd=d/Cd (Cdは定数) 小数点1位を四捨五入
の演算で算出する。Ca、Cb、Cc、Cdは例として、60、60、90、90を用いる。ここで、Ca、Cb、Cc、Cdはそれぞれ、a、b、c、dを概値にするための値であり、同一文字列上に存在する候補文字のペアができるだけ同一の(Ra、Rb、Rc、Rd)ベクトルの値をとるように、かつ同一文字列上に存在しない候補文字のペアができるだけ同一の(Ra、Rb、Rc、Rd)ベクトルの値をとらないような大きさに調整する。図29に対してこの処理を行なった結果を図30に示す。
次に(C1)の処理における第1の判定関数であるが、これは本実施形態ではまず、下記の3つの評価尺度を計算する。
・s=(R2の「大きさ」)÷(R1の「大きさ」)
・α=仮想ピッチベクトルの角度(角度の取り方については図22(a)を参照)
・Ps=(c×c+d×d)0.5/{0.5×(R2の「大きさ」+R1の「大きさ」)}
ここで、第1の判定関数は、
s1<s<s2 かつ α∈α1 かつ Ps1<ps<Ps2
の条件を満足した時に「組み合わせ可」と判定し、満足しない時に「組み合わせ不可」と判定する。上式において、s1とs2はsの範囲を表す数値で、本実施形態ではs1=0.8、s2=1.2を用いる。また、Ps1とPs2はPsの範囲を表す数値で、本実施形態ではPs1=0.9、Ps2=3.0を用いる。
また、α1は許容されるαの範囲である。本実施形態では、左から右に書かれた、多少傾きがあり得る文字列を読み取り対象としており、そのためにα1は図31(b)のように(この図における、太い円弧で示した角度の範囲が該当)、X軸のプラス方向に対して±20度の範囲内とした。ただし、この範囲は読み取りを想定する文字列の角度によって設定すればよい。例えば、左から右方向だけでなく、上から下に並んだ文字列も許容しようとすれば、図31(c)のように、Y軸のマイナス方向の周囲にも許容する角度の範囲を設ければよい。
上述の「s」は、2つの候補文字の大きさの比を意味する。同一文字列上に存在する候補文字は、通常は大きさが近いはずであり、この「s」の範囲を限定することで候補文字の組み合わせを絞込むことができる。
Psは、R1の「大きさ」とR2の「大きさ」の平均値に対する、R1とR2から算出されるピッチの大きさの相対値であり、一般的な文字列はこの大きさに範囲があるので、この範囲を限定することで候補文字の組み合わせを絞込むことができる。
図30の結果に対して、上述の(C1)の処理を施し、第1の判定関数による判定を行った結果が図32である。ここで、各レコードにおけるs、α、Psの欄に書かれた数値が算出された値であり、「判定結果」が「×」となっているのが第1の判定関数により「組み合わせ不可」となったレコードである。3つの評価尺の中で1個でも「組み合わせ不可」となった場合には、「判定結果」が「×」となっており、これが組み合わせ判定関数の判定結果(この場合には「組み合わせ不可」)である。また「○」は3つの評価尺が全て「組み合わせ可」となり、組み合わせ判定関数が「組み合わせ可」と判定した結果である。
ここで、第1の判定関数においては、上記の3つの条件に加えて、「R1とR2の距離値の合計が一定閾値以内」という判定を用いることも可能である。例えば、図32の中のm=1、n=2の表において、番号=3の行におけるR1とR2の組み合わせは、集合PGMから取り出した要素の「正誤」の欄が「0」となっている(すなわち、誤った候補文字)にもかかわらず、判定結果は「○」となってしまい、誤った投票が行われてしまっている。これに対して、判定条件にさらに「R1とR2の距離値の合計が一定閾値(ここでは例として「900」を用いる)以内であること」という判定条件を論理的な積として追加すると、番号=3の行のR1とR2の組み合わせにおける両者の距離値の合計は「924」であるため、この判定条件を満足せず、判定結果は「×」となり、誤った投票を防ぐことができる。これに対して、それ以外の正しい組み合わせ、すなわち、図32の全ての表における、集合PGMから取り出した要素と集合PGNから取り出した要素の「正誤」の欄が両方とも「1」となっている組み合わせでは、両者の距離値の合計はいずれも「900」を下回るので、上記の新たな判定条件を満足するため、これらの正しい投票は妨げられない。
このような第1の判定関数に加えて、第2の判定関数は、以下に説明する条件(1)〜(4)を満足した時に「組み合わせ可」と判定し、満足しない時に「組み合わせ不可」と判定する。本実施例では文字列が横書きの場合を述べるが、縦書きの文字列の場合も同様に実施できる。4つの条件の説明のため、2個の候補文字をそれぞれ「第1の候補文字」、「第2の候補文字」と呼ぶ。原画像におけるこれら2個の候補文字と各値の関係の模式図を図33に示した。図33では、α、β、α、βの各値はすべて変形角度の推定結果である。これに対して、U、U、V、Vは、上記の変形角度と対をなす水平軸と垂直軸を表すベクトルを意味する。また、原画像における第1の候補文字と第2の候補文字の中心を通る直線を算出し、これをLで表す。さらに、LとベクトルU、Uがなす角度を算出して、これをθ、θで表すこととする。以上の各値が用意できたことを前提としたとき、第1の候補文字と第2の候補文字との組合せを「可」とする判定条件を、以下の4個の条件の論理積で表す。
条件(1):|α^−α^}|<Tha1
条件(2):|β−β|<Tha1
条件(3):|θ|<Tha2
条件(4):|θ|<Tha2
さて、既に説明したように第1の候補文字と第2の候補文字の文字カテゴリによっては、α^、β、α^、βの一部もしくは全部が算出できていない可能性があるが、その場合は上記の4つの条件の論理積の中から、該当する条件を削除して用いる。例としてβが算出されていないときは、条件(2)を論理積の中から削除する。また、α^が算出できない場合には条件(1)を削除する。またα^が算出できていなければθも算出できないので、条件(4)も削除することとなる。
以上の条件(1)〜(4)を、図25の表におけるPID=0の候補文字とPID=1の候補文字の組合せに対して適用する。まず、Tha1=10度、Tha2=10度とする。ここで、仮想ピッチベクトルの角度αは既に−4.76度と算出されている。α^1=α^2=25度、β1=β2=0度と既に推定されている。従って、θ1=α^1−α=25度−(−4.76度)=29.76度、同様にθ2=α^2−α=25度−(−4.76度)=29.76度である。これにより条件1〜4を判定すると、
条件(1):|25度−25度|<10度 であり、合格
条件(2):|0度−0度|<10度 であり、合格
条件(3):|29.76度|>10度 であり、不合格
条件(4):|29.76度|>10度 であり、不合格
となり、条件(3)と条件(4)が「不合格」のため、第2の判定関数は「組み合わせ不可」となる。このため、選択的投票手段30において、図25の表におけるPID=0の候補文字とPID=1の候補文字の組合せに対する組み合わせ判定関数の結果は「組み合わせ不可」となり、この組合せは後述する投票空間格納手段40には送られない。結果として以後の処理も行われず、探索キー「土田」に対する謝った検索は行われないこととなる。
次に(D1)の処理であるが、ここでは第1の判定関数および第2の判定関数により合格と判定した組み合わせを投票空間格納手段40に追加する。図32の結果において、組み合わせ判定関数の判定結果が「組み合わせ可」(図32では「○」)となったレコードだけを集めたものが図34である。
投票空間格納手段40は、2つの候補の組み合わせを、さらに組み合わせて整合するものを選択する。つまり、始点位置の概数(Ra、Rb)とピッチの概数(Rc、Rd)が一致すれば整合すると判定する。投票空間格納手段40は、2個の候補点R1とR2の情報と、該2個の候補点の、探索を指定された文字列内の文字位置の情報と、ピッチが一定でかつ直線的に並ぶ文字列を特定するパラメータの組の情報とから構成されるレコードである投票レコードを複数格納する投票レコード格納手段と、該手段の中で該パラメータの組を持つ投票レコードが格納されているアドレスを示すインデクスを全て格納するインデクス格納手段とを有している。何も情報が登録されていない状態の投票空間格納手段40の実現例を図35に示す。(D1)の処理では、次の(D1−1)から(D1−5)の処理を行なう。
(D1−1)図34に示す組み合わせ判定関数の判定結果が「組み合わせ可」(図32では「○」)となったレコードを1個ずつ取り出す。
(D1−2)そのレコードの情報を投票レコード格納手段のまだ書き込まれていない最末端のレコードのエリアに書き込む。
(D1−3)この書き込んだ投票レコード格納手段のレコードのアドレスを一時保存する。
(D1−4)(D1−3)で書き込んだレコードの(Rc、Rd、Ra、Rb)を調べ、これを(Rc0、Rd0、Ra0、Rb0)とする。
(D1−5)投票空間格納手段40のインデクス格納手段における(D1−4)で調べた(Rc0、Rd0、Ra0、Rb0)を持つレコードにアクセスし、該レコードの「投票数」を+1し、該レコードの「アドレス格納部」に、(D1−3)で一時保存した投票レコード格納手段のレコードのアドレスを追加する。
以上の処理(D1)を図34のデータ全てに対して行なった結果の投票空間格納手段40のデータを図36に示す。
上記の(D1−5)の代わりに、次の(D1−50)を行なう方法もある。すなわち、(D1−50)投票空間格納手段40のインデクス格納手段における(D1−4)で調べた(Rc0、Rd0、Ra0、Rb0)を持つレコード、および(Rc0、Rd0、Ra0、Rb0)の近傍の(Rc、Rd、Ra、Rb)を持つレコードにアクセスし、それらのレコードの「投票数」を+1し、かつ「アドレス格納部」に、(D1−3)で一時保存した投票レコード格納手段のレコードのアドレスを追加する。ここで、(Rc0、Rd0、Ra0、Rb0)の近傍の(Rc、Rd、Ra、Rb)とは、Rc0、Rd0、Ra0、Rb0の一部ないし全てに一定範囲に含まれる整数(例えば−1から1までの整数)を加えたものである。例えば、Rc0とRd0の一方だけに−1から+1の整数を加えることとした場合、(Rc0、Rd0、Ra0、Rb0)=(1、0、1、2)の近傍の(Rc、Rd、Ra、Rb)は、(0、0、1、2)、(2、0、1、2)、(1、−1、1、2)、(1、1、1、2)の4個となる。
図36は(D1−5)を用いた処理の結果であり、(Rc0、Rd0、Ra0、Rb0)=(1、0、1、2)のレコードに正しい組み合わせの多くが集まっているが、(B1)の処理で用いるCa、Cb、Cc、Cdの値がさらに小さく設定されている場合には、接近した複数の(Rc、Rd、Ra、Rb)に分かれてしまう可能性があり、それが原因で「投票数」が小さくなり、候補点群作成手段4の処理で正しくレコードが抽出されない危険がある。これに対して、例えば正しい組み合わせが(1、0、1、2)と(0、0、1、2)の2つ分かれたとしても、例えば、Rc0とRd0の一方だけに−1から+1の整数を加えるとしておけば、それぞれ
・(1、0、1、2)、(0、0、1、2)、(2、0、1、2)、(1、−1、1、2)、(1、1、1、2)
・(0、0、1、2)、(−1、0、1、2)、(1、0、1、2)(0、−1、1、2)、(0、1、1、2)
に投票し、(0、0、1、2)と(1、0、1、2)の(Rc、Rd、Ra、Rb)を持つインデクスには、正しい組み合わせのレコードの「アドレス格納部」のアドレスが全て書き込まれることとなる。
候補点群作成手段50は、投票空間格納手段40による投票処理が行われた後の処理を行う。候補点群作成手段50は、探索キー(探索文字列)の文字数により、投票空間格納手段40の処理によって所定文字数以上の固まりになったものを選択する。ここで、候補点群作成手段50は、まず、投票空間格納手段40におけるインデクス格納手段の中から、投票数が探索キーとして指定された文字列の長さ別に設定された閾値を越えるインデクスを全て抽出する。この「投票数が探索キーとして指定された文字列の長さ別の閾値の設定方法」には様々な方法が考えられるが、本実施形態では、下記のように設定する。まず、探索キーとして指定された文字列の中で、何文字の欠落まで許容するかを文字列の長さ毎に人手で設定する。本実施形態では、
単語長=1は扱わない。
単語長=2の場合:許容する最大欠落文字数=0
単語長=3の場合:許容する最大欠落文字数=0
単語長=4の場合:許容する最大欠落文字数=1
単語長=5の場合:許容する最大欠落文字数=1
単語長=6の場合:許容する最大欠落文字数=2
単語長=7の場合:許容する最大欠落文字数=2
単語長≧8の場合:許容する最大欠落文字数=単語長×一定数(例:0.2)を小数点1位切り上げ(例えば単語長=8では、8×0.2=1.6→2)
とする。
これに対して、「投票数が探索キーとして指定された文字列の長さ別の閾値」は、
(単語長−許容する最大欠落文字数)×(単語長−許容する最大欠落文字数−1)÷2
で計算する。すると、本実施形態における「電話会社」の単語長は4なので、閾値は「3」となる。すなわち、インデクス格納手段の中から「投票数」が3以上のインデクスを残らず抽出する。この場合、図36のインデクス格納手段において「投票数」が3以上のインデクスは、(Rc、Rd、Ra、Rb)=(1、0、1、2)のレコードだけでありこれが抽出される。
次に、抽出されたインデクスに対して、該インデクスから手繰られる全てのレコード格納手段中の投票レコードを抽出し、それらに含まれる全ての候補点の情報および該候補文字の、探索を指定された文字列内の文字位置の情報を探索してそれらのリストである候補文字・文字位置リストを作成する。
図34の(Rc、Rd、Ra、Rb)=(1、0、1、2)のインデクスのアドレス格納部の格納されたアドレスは、(1、3、4、5、7、9、10、11)であり、これらに該当する投票レコード格納手段のレコードを全て抽出した結果(候補文字・文字位置リスト)を図37に示す。図37にあるように、候補文字・文字位置リストには、全レコードのa、b、c、dの平均値を格納するエリアも末端部に付属している。ただし、図37ではまだ書き込まれていない。
次に、候補点群作成手段50は、全レコードのaの平均値を求め、次いで全レコードのbの平均値を求め、次いで全レコードのcの平均値を求め、次いで全レコードのdの平均値を求め、各々の平均値を候補文字・文字位置リストの末端部の全レコードのa、b、c、dの平均値を格納するエリアに書き込む。その結果が図38である。
この例では、c、d、a、bの平均値は各々74.4、−10、81.3、195となっている。次に、候補文字・文字位置リストに含まれる全てのR1とR2を抜き出し、リス
ト化する。これを候補点群リストと呼ぶ。図38から作成した候補点群リストを図39(a)に示す。
候補点選択手段60は、候補点群作成手段50による処理が行われた後の処理を行う。候補点選択手段60は、候補点で重複するものは除いて、最後は候補の座標位置から1つに絞り込む。
図39(a)から分かるように、候補点群作成手段50の処理結果には多くの候補点が重複して含まれているので、候補点選択手段60はまずこの重複を排除する処理を行なう。そのためにまず、候補点群リストを、PIDの小さい順に(PIDが等しい場合には「文字位置」の小さい順に)ソートする。この結果を図39(b)に示す。次に、候補点群リストのレコードを上位側から1個ずつ選び、自分自身のPIDと文字位置の値が1つ下位のレコードのPIDと文字位置の値と両方とも一致するか否かを調べ、一致していれば自分の「大きさ」の値に−1を記入する。この処理を逐次的に、下から2番目のレコードまで行なう。これを図39(b)に対して行なった結果が図39(c)である。次に、図39(c)に示す結果から、「大きさ」が−1のレコードを削除すると、図39(d)の結果となる。この結果を画像に重畳した表示したのが図40である。この時点でまだ、文字位置=1の候補点が2個残っていることが分かる。この中から正しい候補点を選択するために、候補点選択手段60は以下の処理を行なう。
まず、候補文字・文字位置リストに付属している全レコードのa、b、c、dの平均値を格納するエリアから、c、d、a、bの平均値を取り出す。これを各々、c0、d0、a0、b0と表記する。本実施形態での値は図38から分かるように各々、74.4、−10、81.3、195となる。
次に、このc0、d0、a0、b0の値から算出される仮想的な文字位置の中心座標を、複数の候補点が存在している文字位置について算出する(この場合には文字位置=1)。文字位置iの仮想的な中心座標を(Xei、Yei)と表記すると、
Xei=a0+c0(i−1)、Yei=b0+d0(i−1)
で計算する。従って、i=1の場合には、Xei=81.3、Yei=195となる。
次に、複数の候補点が存在している文字位置について、各々の候補点の実際の中心座標と上記で計算された仮想的な中心座標のユークリッド距離を計算する。この実施形態での計算結果を図39(e)に示す。そして、この距離が最も小さい候補点を選択する。図39(e)では、PID=1のレコードがこの(Xei、Yei)との距離が最も小さいので、このレコードが正しく選ばれる。そして、ここで選択されなかったレコードは、すべて候補点群リストから削除する(図39(e)ではPID=2のレコード)。図39(d)に対して、このPID=2のレコードを削除した結果が図41(a)であり、これを原画像上に重畳表示したのが図41(b)である。
なお、特許文献2には実施形態を用いた応用例として、多くの画像を蓄積し、検索する画像データベースシステムにおいて、画像中に写った文字列をキーワードとして画像の検索が可能な検索技術の記述があるが、本発明の実施例でも、同様の応用が可能である。また、画像に付与されるキーワードは単語辞書に含まれる単語に限定されるため、単語辞書に含まれない単語が画像中に存在している場合に従来技術で想定されているように画像検索における文字列間照合として完全一致を用いたのでは画像の検索に失敗する確率が高くなってしまう。そこで、以下のように部分一致を基本とする処理とすることで未登録語による影響をできる限り低減することが可能となる。
ユーザーが投入する検索文字列をQ、データベースに格納されている画像の枚数をM、各画像をI(1≦i≦M)、Iのキーワードの集合をDと表記する。ここで、Qに対する画像Iのスコアを以下の方法で計算を行う。最初に、Qの文字数分だけビットを並べたビット列を作成しSで表す。初期の状態では、Sを構成するビットには全部0を代入する。たとえばQを「駅周辺商店街」とすると、6文字なので初期ではS=[000000]となる。そして、Dに含まれる任意の単語をWで表すと、Qに含まれる文字とWの2文字以上とが連続して部分一致する文字列の箇所を探索し、検出できた場合には、Sの該当するビットに1を代入する。
この処理では文字位置を変えつつ探すので、文字位置は異なっていても良い。たとえばWを「商店主」とすると、QがWと2文字以上部分一致する箇所は「商店」の2文字であり、これによりSは[000110]にセットされる。また、他の単語として「周辺」があったとすると、Qの2文字目と3文字目に連続して部分一致するので、Sは[011110]にセットされる。この処理をDに含まれる全単語に対して行い、その後でSに含まれる1のビットの個数をカウントしてQへのIのスコアとして設定する。上記の例ではS=[011110]から4がスコアとなる。上記の方法は文字列の部分一致を基本とするので、Qと同じ文字列が単語として単語辞書に登録されていなくても、Qと部分的に文字列が一致する単語が登録されていれば検索できる可能性が生じる。以上のQによる画像へのスコア付けの処理をI(1≦i≦M)のすべてに対して行った後、スコアの大きさにより画像を並べ替え、最大値のスコアを有する画像を最終的な検索結果として出力する。最大値のスコアを持つ画像が複数ある場合には、それらを全部出力する。
以上、詳細に説明したように、本実施形態によれば、文字列探索の際に、探索キーとされた長さLの文字列から、該文字列の前から後の方向に存在する全ての2個の文字の組である文字ペアを選び、各々の文字ペアに対して、候補文字集合中から文字カテゴリが一致する全ての2個の候補文字の組を探索する処理を行い、該処理の結果探索された全ての2個の候補文字の組に対して、ピッチが一定でかつ直線的に並ぶ文字列を特定するパラメータの組を算出する際に、候補文字パターンの変形角度を推定しその結果に基づく判定処理を行って合格した場合にだけ該2個の候補文字の組と該パラメータの組の情報を投票空間に投票するようにしたので、従来技術に比べて文字が存在しない領域に対して文字列探索が誤って成功することを抑制できる。
なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより文字列探索を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
10 候補文字絞込み手段
11 単一解像度候補文字絞込み手段
12 複数解像度候補文字絞込み手段
20 変形角度推定手段
21 制御手段
22 マスクテーブル
23 角度算出手段
24 マスク生成手段
30 選択的投票手段
40 投票空間格納手段
50 候補点群作成手段
60 候補点選択手段

Claims (3)

  1. 画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索装置の文字列探索方法において、
    すべての候補文字について、元の画像内の該当領域のパターンの変形角度を推定する変形角度推定ステップと、
    前記探索を指定された文字列の任意の2個の文字に対応する候補文字のペアについて、2個の文字の文字位置から前記候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、2つの候補文字の大きさの関係が所定の範囲内で、かつ、前記文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと前記文字間ピッチの関係が所定の範囲内という条件を満足し、かつ、2個の文字の文字位置から定まる両者の相対的な角度および両者の変形角度が定められた角度の条件を満足するものだけを選ぶ投票ステップと、
    前記候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納ステップと、
    前記投票空間格納ステップによりまとまったもののうち、探索文字列の文字数から定まる所定数以上の候補文字があるものを抽出する候補点群作成ステップと、
    前記候補点群作成ステップで抽出された候補文字の中から、なるべく直線的に並ぶ候補文字に絞る候補点選択ステップと、
    を備えたことを特徴とする文字列探索方法。
  2. 画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索装置において、
    すべての候補文字について、元の画像内の該当領域のパターンの変形角度を推定する変形角度推定手段と、
    前記探索を指定された文字列の任意の2個の文字に対応する候補文字のペアについて、2個の文字の文字位置から前記候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、2つの候補文字の大きさの関係が所定の範囲内で、かつ、前記文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと前記文字間ピッチの関係が所定の範囲内という条件を満足し、かつ、2個の文字の文字位置から定まる両者の相対的な角度および両者の変形角度が定められた角度の条件を満足するものだけを選ぶ投票手段と、
    前記候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納手段と、
    前記投票空間格納手段によりまとまったもののうち、探索文字列の文字数から定まる所定数以上の候補文字があるものを抽出する候補点群作成手段と、
    前記候補点群作成手段で抽出された候補文字の中から、なるべく直線的に並ぶ候補文字に絞る候補点選択手段と、
    を備えたことを特徴とする文字列探索装置。
  3. 請求項1に記載の文字列探索方法における処理手順をコンピュータに実行させるプログラムを記録した記録媒体。
JP2010146893A 2010-06-28 2010-06-28 文字列探索方法、文字列探索装置、記録媒体 Expired - Fee Related JP5414631B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010146893A JP5414631B2 (ja) 2010-06-28 2010-06-28 文字列探索方法、文字列探索装置、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010146893A JP5414631B2 (ja) 2010-06-28 2010-06-28 文字列探索方法、文字列探索装置、記録媒体

Publications (2)

Publication Number Publication Date
JP2012008979A JP2012008979A (ja) 2012-01-12
JP5414631B2 true JP5414631B2 (ja) 2014-02-12

Family

ID=45539404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010146893A Expired - Fee Related JP5414631B2 (ja) 2010-06-28 2010-06-28 文字列探索方法、文字列探索装置、記録媒体

Country Status (1)

Country Link
JP (1) JP5414631B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015069737A2 (en) * 2013-11-08 2015-05-14 Google Inc. Presenting translations of text depicted in images
US9547644B2 (en) 2013-11-08 2017-01-17 Google Inc. Presenting translations of text depicted in images
AU2019451945A1 (en) * 2019-06-18 2022-01-27 Huawei Technologies Co., Ltd. Dynamic image resolution assessment

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4418726B2 (ja) * 2004-10-01 2010-02-24 日本電信電話株式会社 文字列探索装置、探索方法およびこの方法のプログラム
JP2006235817A (ja) * 2005-02-23 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体
JP4901676B2 (ja) * 2007-09-28 2012-03-21 株式会社東芝 ナンバープレート情報処理装置及びナンバープレート情報処理方法

Also Published As

Publication number Publication date
JP2012008979A (ja) 2012-01-12

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN107305630B (zh) 文本序列识别方法和装置
JP5522408B2 (ja) パターン認識装置
US20200065601A1 (en) Method and system for transforming handwritten text to digital ink
JP5073022B2 (ja) カメラで取得されたドキュメント用の低解像度のocr
RU2668717C1 (ru) Генерация разметки изображений документов для обучающей выборки
CN109740606B (zh) 一种图像识别方法及装置
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
JPH05217019A (ja) ビジネスフォーム識別システム及び画像処理システム
CN110852311A (zh) 一种三维人手关键点定位方法及装置
US8027978B2 (en) Image search method, apparatus, and program
CN113111880B (zh) 证件图像校正方法、装置、电子设备及存储介质
CN115240213A (zh) 表格图像识别方法、装置、电子设备及存储介质
WO2021060147A1 (ja) 類似領域検出装置、類似領域検出方法およびプログラム
Ramirez et al. Automatic recognition of square notation symbols in western plainchant manuscripts
JP5414631B2 (ja) 文字列探索方法、文字列探索装置、記録媒体
JP2018526754A (ja) 画像処理装置、画像処理方法及び記憶媒体
CN110738222B (zh) 图像匹配方法、装置、计算机设备和存储介质
JP5004082B2 (ja) 文書画像検索方法、文書画像登録方法、そのプログラムおよび装置
Chaki et al. Fragmented handwritten digit recognition using grading scheme and fuzzy rules
JP4418726B2 (ja) 文字列探索装置、探索方法およびこの方法のプログラム
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
JPH08320914A (ja) 表認識方法および装置
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
JP6310155B2 (ja) 文字認識装置、文字認識方法及び文字認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121005

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130605

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131112

R150 Certificate of patent or registration of utility model

Ref document number: 5414631

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees