JP5414631B2 - 文字列探索方法、文字列探索装置、記録媒体 - Google Patents
文字列探索方法、文字列探索装置、記録媒体 Download PDFInfo
- Publication number
- JP5414631B2 JP5414631B2 JP2010146893A JP2010146893A JP5414631B2 JP 5414631 B2 JP5414631 B2 JP 5414631B2 JP 2010146893 A JP2010146893 A JP 2010146893A JP 2010146893 A JP2010146893 A JP 2010146893A JP 5414631 B2 JP5414631 B2 JP 5414631B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- candidate
- characters
- character string
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
Description
ここで、特許文献1の詳細な説明には、図42に「電話会社」という文字列が写った濃淡画像の例を示すように、認識対象とする文字が変形しうる場合についての対策は記載されていないが、その[請求項7]には抽出の対象である画像もしくは認識辞書を変形させることで認識対象とする文字の変形に対処する方法が記載されている。また、特許文献1の詳細な説明では、認識対象を数字の集合に限定しているが、これは他の場合、例えば漢字の集合に容易に拡張できる。
まず、(A1)文字列の中心位置座標の配列を規定する4つのパラメータ値(a、b、c、d)を算出する。ここでは仮想ピッチベクトルを算出するが、PID=0、PID=1の候補文字とこれらを結ぶ仮想ピッチベクトルの関係を図示したのが図45である。この例では単語長さは2文字で候補文字も2個だけなので、aはPID=0のX座標110、bはPID=0のY座標100、cはPID=0を始点としPID=1を終点とするベクトルのX成分230−110=120、dはPID=0を始点としPID=1を終点とするベクトルのY成分120−130=−10、となる。
・s=(R2の「大きさ」)÷(R1の「大きさ」)=1
・α=仮想ピッチベクトルの角度=arctan(−10/120)=4.76度
・Ps=(c×c+d×d)0.5/0.5×(R2の「大きさ」+R1の「大きさ」)
=(120×120+(−10)×(−10))0.5/0.5×(50+50)
=120.4/50
=2.4
となる。これらの数値は、
「s1<s<s2 かつα∈α1かつPs1<ps<Ps2」
を満足する。したがって、次の処理である(D1)組み合わせ判定関数が合格と判定した組み合わせを投票空間格納手段に追加する処理を実施する。
次に候補点群作成手段は、探索キーの文字数により、投票空間格納手段の処理で所定文字数以上の固まりになったものを選択し、PID=0、PID=1の候補文字の組合せがそのまま選ばれる。次に候補点選択手段は、候補点で重複するものは除いて、最後は候補の座標位置から1つに絞り込むがこの場合はPID=0、PID=1の候補文字の組合せには重複は無いのでそのまま出力される。すなわち、検索文字列「土田」に対して、PID=0、PID=1の候補文字の組合せが検索結果として返されることとなる。すなわち、図20(a)の画像には文字が含まれていないのに、誤って検索結果として出力されるという処理の失敗が発生すると考えられる。
図1は、本実施形態による文字列探索装置1の構成を示すブロック図である。文字列探索装置1は、候補文字絞込み手段10と、変形角度推定手段20と、選択的投票手段30と、投票空間格納手段40と、候補点群作成手段50と、候補点選択手段60とを備えている。
(1)2つの候補文字の文字カテゴリが一致するか否か
(2)2つの候補文字の中心座標のユークリッド距離の近さ
(3)2つの候補文字の大きさの近さ
の3つの「近さ」を総合判断して決定する。総合判断の方法は様々に考えられるが、ここでは例として、(3)は無視して、(1)の文字カテゴリが一致し、かつ(2)のユークリッド距離が一定の閾値(この例では40)以下である場合に、F1は「近い」と判断し、それ以外の場合は「遠い」と判断するものとする。その結果が図14と図15であり、途中経過を示すのが図16である。
さて、入力データ配列のi=7に対する上記の処理の後、i=8から11まで処理を行なった後でも入力データ配列の内容は図16(d)と変わらない。最後に入力データ配列をPIDの小さい順にソート(S2)した結果が図14であり、それを画像上に重畳して表示したのが図15である。
また、上述した関数F1の説明では、比較する2つの候補文字の「大きさ」が等しい場合も「近い」と判定する可能性があるが、これを比較する2つの候補文字の「大きさ」が等しい場合は「近い」と判定しない、とすることも可能である。これは、単一解像度候補文字絞込み手段11において既に「大きさ」が等しい候補文字の絞込みは既に済んでいるので不要、という考え方による。
また、上述の候補文字絞込み手段10の構成を、まず複数解像度候補文字絞込み手段12による処理を行って、その次に単一解像度候補文字絞込み手段11による処理を行うという順番に構成することも可能である。例えば、複数解像度候補文字絞込み手段12のF1の総合判定において、上記の(1)、(2)、(3)の3つの「近さ」の判定結果の論理積を用いることにすると、この複数解像度候補文字絞込み手段12の処理によって、解像度と空間的な距離が近い同一カテゴリの候補文字を統合する効果となる。
まず、制御手段1010は、1個分の候補文字のレコードから候補文字の画像中のX座標とY座標とを取り出し、画像中から該当領域のパターンを切出して、文字カテゴリの情報と共に角度算出手段23に送る。図19の(a)と(b)に、図20(c)のPID=0、1の候補文字の領域の切出し画像を入力する。以降、制御手段21は、これをすべての候補文字について行う。
else ψ^(x、y)=ψ(x、y)−π
((ψ(x、y)<π)が真の場合は、ψ^(x、y)の値をψ(x、y)、偽の場合はψ^(x、y)の値をψ(x、y)−πとする)
a:仮想的な開始点のX座標
b:仮想的な開始点のY座標
c:仮想的なX方向のピッチ(仮想的ピッチベクトルのX成分)
d:仮想的なY方向のピッチ(仮想的ピッチベクトルのY成分)
これらを説明する模式図を図28に示す。これは図27における番号=11、(m、n)=(2、3)のレコードを用いた時の模式図である。このレコードには、集合PGMから取り出した候補点R1=(カテゴリ=話、X1=160、Y1=190、窓の大きさ=
50、距離374、単語内文字位置=2、PID=9)と、集合PGNから取り出した候補点R2=(カテゴリ=会、X2=230、Y2=170、窓の大きさ=50、距離=450、単語内文字位置=3、PID=5)が存在する。ここで、R1の中心のX座標=X1、中心のY座標=Y1、単語内文字位置=iとし、R2の中心のX座標=X2、中心のY座標=Y2、単語内文字位置=jとすると、a、b、c、dは下式で計算される。
c=(X2−X1)/(j−i)
d=(Y2−Y1)/(j−i)
a=X1−c×(i−1)
b=Y1−d×(i−1)
図27の各レコードに対して上記の式により(a、b、c、d)を計算した結果を図29に示す。
Ra=a/Ca (Caは定数) 小数点1位を四捨五入
Rb=b/Cb (Cbは定数) 小数点1位を四捨五入
Rc=c/Cc (Ccは定数) 小数点1位を四捨五入
Rd=d/Cd (Cdは定数) 小数点1位を四捨五入
の演算で算出する。Ca、Cb、Cc、Cdは例として、60、60、90、90を用いる。ここで、Ca、Cb、Cc、Cdはそれぞれ、a、b、c、dを概値にするための値であり、同一文字列上に存在する候補文字のペアができるだけ同一の(Ra、Rb、Rc、Rd)ベクトルの値をとるように、かつ同一文字列上に存在しない候補文字のペアができるだけ同一の(Ra、Rb、Rc、Rd)ベクトルの値をとらないような大きさに調整する。図29に対してこの処理を行なった結果を図30に示す。
・s=(R2の「大きさ」)÷(R1の「大きさ」)
・α=仮想ピッチベクトルの角度(角度の取り方については図22(a)を参照)
・Ps=(c×c+d×d)0.5/{0.5×(R2の「大きさ」+R1の「大きさ」)}
ここで、第1の判定関数は、
s1<s<s2 かつ α∈α1 かつ Ps1<ps<Ps2
の条件を満足した時に「組み合わせ可」と判定し、満足しない時に「組み合わせ不可」と判定する。上式において、s1とs2はsの範囲を表す数値で、本実施形態ではs1=0.8、s2=1.2を用いる。また、Ps1とPs2はPsの範囲を表す数値で、本実施形態ではPs1=0.9、Ps2=3.0を用いる。
Psは、R1の「大きさ」とR2の「大きさ」の平均値に対する、R1とR2から算出されるピッチの大きさの相対値であり、一般的な文字列はこの大きさに範囲があるので、この範囲を限定することで候補文字の組み合わせを絞込むことができる。
条件(2):|β1−β2|<Tha1
条件(3):|θ1|<Tha2
条件(4):|θ2|<Tha2
条件(1):|25度−25度|<10度 であり、合格
条件(2):|0度−0度|<10度 であり、合格
条件(3):|29.76度|>10度 であり、不合格
条件(4):|29.76度|>10度 であり、不合格
となり、条件(3)と条件(4)が「不合格」のため、第2の判定関数は「組み合わせ不可」となる。このため、選択的投票手段30において、図25の表におけるPID=0の候補文字とPID=1の候補文字の組合せに対する組み合わせ判定関数の結果は「組み合わせ不可」となり、この組合せは後述する投票空間格納手段40には送られない。結果として以後の処理も行われず、探索キー「土田」に対する謝った検索は行われないこととなる。
(D1−2)そのレコードの情報を投票レコード格納手段のまだ書き込まれていない最末端のレコードのエリアに書き込む。
(D1−3)この書き込んだ投票レコード格納手段のレコードのアドレスを一時保存する。
(D1−4)(D1−3)で書き込んだレコードの(Rc、Rd、Ra、Rb)を調べ、これを(Rc0、Rd0、Ra0、Rb0)とする。
(D1−5)投票空間格納手段40のインデクス格納手段における(D1−4)で調べた(Rc0、Rd0、Ra0、Rb0)を持つレコードにアクセスし、該レコードの「投票数」を+1し、該レコードの「アドレス格納部」に、(D1−3)で一時保存した投票レコード格納手段のレコードのアドレスを追加する。
以上の処理(D1)を図34のデータ全てに対して行なった結果の投票空間格納手段40のデータを図36に示す。
・(1、0、1、2)、(0、0、1、2)、(2、0、1、2)、(1、−1、1、2)、(1、1、1、2)
・(0、0、1、2)、(−1、0、1、2)、(1、0、1、2)(0、−1、1、2)、(0、1、1、2)
に投票し、(0、0、1、2)と(1、0、1、2)の(Rc、Rd、Ra、Rb)を持つインデクスには、正しい組み合わせのレコードの「アドレス格納部」のアドレスが全て書き込まれることとなる。
単語長=2の場合:許容する最大欠落文字数=0
単語長=3の場合:許容する最大欠落文字数=0
単語長=4の場合:許容する最大欠落文字数=1
単語長=5の場合:許容する最大欠落文字数=1
単語長=6の場合:許容する最大欠落文字数=2
単語長=7の場合:許容する最大欠落文字数=2
単語長≧8の場合:許容する最大欠落文字数=単語長×一定数(例:0.2)を小数点1位切り上げ(例えば単語長=8では、8×0.2=1.6→2)
とする。
(単語長−許容する最大欠落文字数)×(単語長−許容する最大欠落文字数−1)÷2
で計算する。すると、本実施形態における「電話会社」の単語長は4なので、閾値は「3」となる。すなわち、インデクス格納手段の中から「投票数」が3以上のインデクスを残らず抽出する。この場合、図36のインデクス格納手段において「投票数」が3以上のインデクスは、(Rc、Rd、Ra、Rb)=(1、0、1、2)のレコードだけでありこれが抽出される。
図34の(Rc、Rd、Ra、Rb)=(1、0、1、2)のインデクスのアドレス格納部の格納されたアドレスは、(1、3、4、5、7、9、10、11)であり、これらに該当する投票レコード格納手段のレコードを全て抽出した結果(候補文字・文字位置リスト)を図37に示す。図37にあるように、候補文字・文字位置リストには、全レコードのa、b、c、dの平均値を格納するエリアも末端部に付属している。ただし、図37ではまだ書き込まれていない。
この例では、c、d、a、bの平均値は各々74.4、−10、81.3、195となっている。次に、候補文字・文字位置リストに含まれる全てのR1とR2を抜き出し、リス
ト化する。これを候補点群リストと呼ぶ。図38から作成した候補点群リストを図39(a)に示す。
図39(a)から分かるように、候補点群作成手段50の処理結果には多くの候補点が重複して含まれているので、候補点選択手段60はまずこの重複を排除する処理を行なう。そのためにまず、候補点群リストを、PIDの小さい順に(PIDが等しい場合には「文字位置」の小さい順に)ソートする。この結果を図39(b)に示す。次に、候補点群リストのレコードを上位側から1個ずつ選び、自分自身のPIDと文字位置の値が1つ下位のレコードのPIDと文字位置の値と両方とも一致するか否かを調べ、一致していれば自分の「大きさ」の値に−1を記入する。この処理を逐次的に、下から2番目のレコードまで行なう。これを図39(b)に対して行なった結果が図39(c)である。次に、図39(c)に示す結果から、「大きさ」が−1のレコードを削除すると、図39(d)の結果となる。この結果を画像に重畳した表示したのが図40である。この時点でまだ、文字位置=1の候補点が2個残っていることが分かる。この中から正しい候補点を選択するために、候補点選択手段60は以下の処理を行なう。
次に、このc0、d0、a0、b0の値から算出される仮想的な文字位置の中心座標を、複数の候補点が存在している文字位置について算出する(この場合には文字位置=1)。文字位置iの仮想的な中心座標を(Xei、Yei)と表記すると、
Xei=a0+c0(i−1)、Yei=b0+d0(i−1)
で計算する。従って、i=1の場合には、Xei=81.3、Yei=195となる。
11 単一解像度候補文字絞込み手段
12 複数解像度候補文字絞込み手段
20 変形角度推定手段
21 制御手段
22 マスクテーブル
23 角度算出手段
24 マスク生成手段
30 選択的投票手段
40 投票空間格納手段
50 候補点群作成手段
60 候補点選択手段
Claims (3)
- 画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索装置の文字列探索方法において、
すべての候補文字について、元の画像内の該当領域のパターンの変形角度を推定する変形角度推定ステップと、
前記探索を指定された文字列の任意の2個の文字に対応する候補文字のペアについて、2個の文字の文字位置から前記候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、2つの候補文字の大きさの関係が所定の範囲内で、かつ、前記文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと前記文字間ピッチの関係が所定の範囲内という条件を満足し、かつ、2個の文字の文字位置から定まる両者の相対的な角度および両者の変形角度が定められた角度の条件を満足するものだけを選ぶ投票ステップと、
前記候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納ステップと、
前記投票空間格納ステップによりまとまったもののうち、探索文字列の文字数から定まる所定数以上の候補文字があるものを抽出する候補点群作成ステップと、
前記候補点群作成ステップで抽出された候補文字の中から、なるべく直線的に並ぶ候補文字に絞る候補点選択ステップと、
を備えたことを特徴とする文字列探索方法。 - 画像に対する注目位置および注目サイズを変更しながら、注目する領域と複数カテゴリの文字認識辞書との距離を算出する文字走査処理を行い、この文字走査処理により得られた候補文字集合に対して、探索を指定された文字列を構成する文字が一定のピッチで直線状に並んでいる個所を探索処理する文字列探索装置において、
すべての候補文字について、元の画像内の該当領域のパターンの変形角度を推定する変形角度推定手段と、
前記探索を指定された文字列の任意の2個の文字に対応する候補文字のペアについて、2個の文字の文字位置から前記候補文字のペアで想定される文字列における先頭文字の座標位置と文字間ピッチを求め、2つの候補文字の大きさの関係が所定の範囲内で、かつ、前記文字間ピッチで定まる文字の並びの方向が決められた方向の範囲内で、かつ、候補文字の大きさと前記文字間ピッチの関係が所定の範囲内という条件を満足し、かつ、2個の文字の文字位置から定まる両者の相対的な角度および両者の変形角度が定められた角度の条件を満足するものだけを選ぶ投票手段と、
前記候補文字のペアについて、その先頭文字の座標位置を定数で調整した始点の概値が一致し、かつ、文字間ピッチを定数で調整したピッチの概値が一致するものをまとめる投票空間格納手段と、
前記投票空間格納手段によりまとまったもののうち、探索文字列の文字数から定まる所定数以上の候補文字があるものを抽出する候補点群作成手段と、
前記候補点群作成手段で抽出された候補文字の中から、なるべく直線的に並ぶ候補文字に絞る候補点選択手段と、
を備えたことを特徴とする文字列探索装置。 - 請求項1に記載の文字列探索方法における処理手順をコンピュータに実行させるプログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010146893A JP5414631B2 (ja) | 2010-06-28 | 2010-06-28 | 文字列探索方法、文字列探索装置、記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010146893A JP5414631B2 (ja) | 2010-06-28 | 2010-06-28 | 文字列探索方法、文字列探索装置、記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012008979A JP2012008979A (ja) | 2012-01-12 |
JP5414631B2 true JP5414631B2 (ja) | 2014-02-12 |
Family
ID=45539404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010146893A Expired - Fee Related JP5414631B2 (ja) | 2010-06-28 | 2010-06-28 | 文字列探索方法、文字列探索装置、記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5414631B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9547644B2 (en) | 2013-11-08 | 2017-01-17 | Google Inc. | Presenting translations of text depicted in images |
EP3144823A1 (en) * | 2013-11-08 | 2017-03-22 | Google, Inc. | Presenting translations of text depicted in images |
CA3143928C (en) * | 2019-06-18 | 2023-06-13 | Huawei Technologies Co., Ltd | Dynamic image resolution assessment |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4418726B2 (ja) * | 2004-10-01 | 2010-02-24 | 日本電信電話株式会社 | 文字列探索装置、探索方法およびこの方法のプログラム |
JP2006235817A (ja) * | 2005-02-23 | 2006-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体 |
JP4901676B2 (ja) * | 2007-09-28 | 2012-03-21 | 株式会社東芝 | ナンバープレート情報処理装置及びナンバープレート情報処理方法 |
-
2010
- 2010-06-28 JP JP2010146893A patent/JP5414631B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012008979A (ja) | 2012-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN110032998B (zh) | 自然场景图片的文字检测方法、系统、装置和存储介质 | |
CN107305630B (zh) | 文本序列识别方法和装置 | |
JP5522408B2 (ja) | パターン認識装置 | |
US20200065601A1 (en) | Method and system for transforming handwritten text to digital ink | |
JP5073022B2 (ja) | カメラで取得されたドキュメント用の低解像度のocr | |
RU2668717C1 (ru) | Генерация разметки изображений документов для обучающей выборки | |
CN109740606B (zh) | 一种图像识别方法及装置 | |
JP6900164B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JPH05217019A (ja) | ビジネスフォーム識別システム及び画像処理システム | |
CN110852311A (zh) | 一种三维人手关键点定位方法及装置 | |
US8027978B2 (en) | Image search method, apparatus, and program | |
CN110738222B (zh) | 图像匹配方法、装置、计算机设备和存储介质 | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN113111880B (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN115240213A (zh) | 表格图像识别方法、装置、电子设备及存储介质 | |
WO2021060147A1 (ja) | 類似領域検出装置、類似領域検出方法およびプログラム | |
JP2014115781A (ja) | 文字認識装置及び方法、文字認識プログラム | |
Ramirez et al. | Automatic recognition of square notation symbols in western plainchant manuscripts | |
CN104361339B (zh) | 掌形图形提取及识别方法 | |
JP5414631B2 (ja) | 文字列探索方法、文字列探索装置、記録媒体 | |
JP2018526754A (ja) | 画像処理装置、画像処理方法及び記憶媒体 | |
JP5004082B2 (ja) | 文書画像検索方法、文書画像登録方法、そのプログラムおよび装置 | |
EP3702958B1 (en) | Method for verifying the identity of a user by identifying an object within an image that has a biometric characteristic of the user and separating a portion of the image comprising the biometric characteristic from other portions of the image | |
Chaki et al. | Fragmented handwritten digit recognition using grading scheme and fuzzy rules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121005 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130605 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5414631 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |