JP4859027B2 - 文字パターン生成方法および文字認識方法 - Google Patents

文字パターン生成方法および文字認識方法 Download PDF

Info

Publication number
JP4859027B2
JP4859027B2 JP2006035700A JP2006035700A JP4859027B2 JP 4859027 B2 JP4859027 B2 JP 4859027B2 JP 2006035700 A JP2006035700 A JP 2006035700A JP 2006035700 A JP2006035700 A JP 2006035700A JP 4859027 B2 JP4859027 B2 JP 4859027B2
Authority
JP
Japan
Prior art keywords
pattern
character
additional information
area ratio
basic shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006035700A
Other languages
English (en)
Other versions
JP2007213520A (ja
Inventor
真一郎 大町
雅一 岩村
誠一 内田
浩一 黄瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osaka Prefecture University
Original Assignee
Osaka Prefecture University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osaka Prefecture University filed Critical Osaka Prefecture University
Priority to JP2006035700A priority Critical patent/JP4859027B2/ja
Publication of JP2007213520A publication Critical patent/JP2007213520A/ja
Application granted granted Critical
Publication of JP4859027B2 publication Critical patent/JP4859027B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Description

この発明は、文字パターン生成方法および文字認識方法に関する。
デジタルカメラを入力デバイスとして取得した環境中の文字を認識する手法が検討されている(例えば、非特許文献1、2参照)。デジタルカメラによって取得した文字の画像は光学式スキャナで取得した画像と異なり、一般に低解像度であり、照明が非均一であり、幾何学的な変換を受けているため、高精度な認識を実現するのは非常に困難である。
高精度な認識の実現のために、文字画像と同時に認識補助のための付加情報を提示する方法が検討されている(例えば、非特許文献3、4参照)。
付加情報は、様々な幾何学的変換を受けても確実に抽出できることが要求される。幾何学的変換は、回転変換、ユークリッド変換、相似変換、アフィン変換、射影変換等に分類でき、後のものほど変換の自由度が高く変形が激しいと言える。
カメラで撮影された画像は、一般に射影変換を受けるため、射影変換を受けても変わらない量(射影不変量)を用いて付加情報を提示することが望ましい。射影不変量の一つに複比(例えば、非特許文献5参照)がある。
黄瀬浩一,大町真一郎,内田誠一,岩村雅一, "カメラを用いた文字認識・文書画像解析の現状と課題," 信学技報,PRMU2004-246,March 2005. D. Doermann, J. Liang and H. Li, "Progress in camera-based document image analysis," Proceedings of the Seventh International Conference on Document Analysis and Recognition (ICDAR 2003), pp.606-616, August 2003. 内田誠一, 岩村雅一, 大町真一郎, 黄瀬浩一, "カメラによる文字認識のための付加情報の埋め込みに関する検討," 画像の認識理解シンポジウム2005(MIRU2005)論文集,pp.235-242,July 2005. 岩村雅一, 内田誠一, 大町真一郎, 黄瀬浩一, "情報付加による認識率100%の実現 −人にも機械にも理解可能な情報伝達のために−," 画像の認識理解シンポジウム2005(MIRU2005)論文集,pp.901-908,July 2005. 佐藤 淳,"コンピュータビジョン −視覚の幾何学−," コロナ社,1999.
前記非特許文献3には、文字パターンを複比パターンと呼ばれる縞で表し、縞の間隔の複比の値をその文字のカテゴリに対応づけることで、カテゴリ情報を文字パターンに埋め込む方法が提案されている。しかし、複比パターンは文字パターンの概観を大きく変えるため、人間の読み易さを若干損ねるという問題点があった。
この発明は、文字パターンの概観をできるだけ損ねずに安定した付加情報の抽出を可能とする方法として、2領域の面積比を用いて付加情報を埋め込んだ文字パターンの生成方法を提案する。
この発明は、文字形状の好ましくは全部または一部の特徴部分を構成する第1パターンと第2パターンからなる文字パターンに当該文字パターンに係る情報を付与する方法が、第1パターンの面積に対する第2パターンの面積比を、付与する情報に固有の割合にすることを特徴とする付加情報付き文字パターンの生成方法を提供する。
また、この発明は、前記方法により生成された文字パターンを読み取り、読み取ったパターンから第1パターンと第2パターンとを抽出し、抽出された第1パターンと第2パターンとの面積比を求め、求めた面積比から得られる付加情報を得、得られた付加情報を用いて文字を認識する文字認識方法を提供する。
また、異なる観点から、この発明は、文字を入力する文字入力部と、各文字に対する付加情報を格納する付加情報格納部と、入力された文字に応じた付加情報を付加情報格納部から取得する付加情報取得部と、付加情報に応じた面積比の第1パターンと第2パターンとを含む文字パターンを生成する文字パターン生成部とを備えることを特徴とする文字パターン生成装置を提供する。
さらに、この発明は、前記文字パターン生成装置により生成された文字パターンの画像を入力する画像入力部と、入力された画像から第1パターンと第2パターンとを抽出する形状抽出部と、抽出された第1パターンと第2パターンの面積比から付加情報を算出する付加情報算出部と、算出された付加情報を用いて文字を認識する文字認識部と、認識結果を出力する認識結果出力部とを備える文字認識装置を提供する。
この発明の文字パターンの生成方法は、第1パターンの面積に対する第2パターンの面積比を、付与する情報に固有の割合にすることを特徴とする。2つの領域の面積の比はアフィン変換を施しても変化しないアフィン不変量である(例えば、高木幹雄,下田陽久監修,"新編 画像処理ハンドブック," 東京大学出版会,2004.参照)。したがって、この発明の方法で生成された文字パターンは、アフィン変換を受ける環境においても第1パターンと第2パターンの面積比から正確に埋め込まれた付加情報を抽出せることができる。また、抽出された付加情報を用いて精度よくその文字パターンを認識させることができる。
この明細書で、「文字」あるいは「字」とは、言語を表記するのに用いる符号であって人間が読み取るものをいう。アルファベットや仮名、漢字、数字、句読点やカッコなどであるが、さらに限られた分野で補助的に用いられる符号を含んでよい。「文字パターン」は、「文字」がパターンとして可視的に表現されたものをいう。
前述のようにカメラで撮影された画像は一般には射影変換を受ける。図12は、環境中の文字がカメラで撮影され射影変換を受けた従来の文字パターンの一例を示す。しかし、図12の例に示すように、個々の文字の領域に限定すれば、文字が受ける幾何学的変換は、近似的にアフィン変換とみなすことが可能な場合も多く、アフィン不変量を用いることで実用的に十分な精度で付加情報の抽出が実現できるものと考える。したがって、アフィン不変量である面積比を用いて付加情報を埋め込んだ文字パターンは、撮影された画像から精度よく認識され得る。
第1パターンが、文字の基本形状のパターンであり、第2パターンが、文字の修飾パターンであってもよい。
また、前記修飾パターンが、影のパターンであってもよい。さらに、付与する情報に応じて影の長さが設定されてもよい。あるいは、前記修飾パターンが、輪郭線であってもよい。さらに、付与する情報に応じて輪郭線の太さが設定されてもよい。文字に影を付加したり輪郭線を別の色とすることは文字パターンのデザインとしてすでに行われており、違和感を与えない。このようにすれば、文字パターンへの情報の付加は、影の長さや輪郭線の太さ、即ち、修飾部分の線幅を変えるにすぎない。したがって、自然な付加情報の埋め込みが可能となる。
さらにまた、第1パターンと第2パターンとが、文字の基本形状を分割して得られる各部分のパターンであってもよい。
第1パターンと第2パターンとが、互いに異なる色のパターンであってもよい。互いに異なる色のパターンは、文字認識の際に識別が容易であるので簡単かつ正確に面積比を取得させ、付加情報を抽出させることができる。
例えば、文字パターンを2色で印字し、それぞれの色の領域の面積比を特定の値とした文字パターンを生成すればよい。
あるいは、第1パターンと第2パターンとが、互いに異なる濃度のパターンであってもよい。異なる濃度のパターンは、文字認識の際に識別が容易であるので簡単かつ正確に面積比を取得させ、付加情報を抽出させることができる。
また、前記付加情報が、字種を識別するための値であって、各文字パターンに同じ長さの影を付加したときの前記面積比に基づいてその値が決定されてもよい。
あるいは、前記付加情報が、字種を識別するための値であって、各文字パターンに同じ太さの輪郭線を付加したときの前記面積比に基づいてその値が決定されてもよい。
ただし、前記付加情報の内容は字種に限定されるものではない。例えば、前記付加情報は、字種を表す代わりにフォントの種類を表す情報であってもよい。
さらに、前記付加情報が、字種を識別するための値であって、各文字パターンがアフィン変換を受けたときの前記面積比の誤差を考慮してその値が決定されてもよい。
また、この発明の文字認識方法は、抽出された第1パターンと第2パターンとの面積比を求め、求めた面積比から得られる付加情報を用いて文字を認識するので、読み取られた文字が幾何学的変換を受けていても正確に認識することができる。
前記パターンの読み取りが、カメラによる撮影であってもよい。この発明の文字認識方法は、アフィン変換を受けた文字パターンを高精度に認識するものである。前述のように、環境中の文字がカメラを入力デバイスとして読み取られた場合、近似的にアフィン変換を受けたとみなせることが多い。従って、この発明の文字認識方法は、カメラで撮影された文字を精度よく認識することが可能である。
また、この発明の文字パターン生成装置は、アフィン変換を受ける環境においても埋め込んだ付加情報を正確に抽出させることができる。したがって、付加情報を用いて精度よくその文字パターンを認識させることができる。
また、この発明の文字認識装置は、面積比から得られる付加情報を用いて文字を認識するので、読み取られた文字が幾何学的変換を受けていても正確に認識することができる。
以下、図面を用いてこの発明をさらに詳述する。以下の説明により、この発明をよりよく理解することが可能であろう。なお、以下の説明は、すべての点で例示であって、限定的なものではないと考えられるべきである。
1.面積比を用いた付加情報の埋め込み
1.1.埋め込み形態
この実施の形態では、文字パターンを単色ではなく2色を用いて印字し、それぞれの色の領域の面積比を特定の値とするようにパターンをデザインすることで情報を埋め込む。
図1は、面積比を用いて付加情報が埋め込まれた文字パターンの種々の形態を示す説明図である。図1に示す例のように、様々な埋め込みの形態が考えられる。図1(a)は影の部分とそれ以外の部分の面積の比を利用したもの、図1(b)は輪郭線の面積とそれ以外の部分の面積の比を利用したもの、図1(c)はツートンカラーのフォントのそれぞれの色の部分の面積を利用したものである。以下の説明では、最良の形態として図1(a)を例にとって説明するが、他の態様について限定を加えるものではない。
文字に影を付加したり輪郭線を別の色とすることは文字パターンのデザインとしてすでに行われており、提案手法はその線幅を変えるにすぎない。さらに、文字は字種ごとに固有の形を持つため、図1のどの形態で埋め込むにしても、字種によってある程度固有の「自然な」面積比が存在すると考えられる。従って、従来の複比パターンの埋め込みと比較してより自然な埋め込みが可能になると考えられる。
なお、本手法は文字切り出しの問題を解決する手段としても適用できる。個々の文字画像を正確に切り出すことは困難な問題である。特に分離文字の統合については、認識を併用する以外に本質的な解決策はないが、分離文字の個々の部分に対して同じ値を埋め込んでおくことにより、別々の文字なのか分離文字の個々の部分なのかが判断できる。
1.2.アフィン変換の例とアフィン不変性
文字パターンの生成方法を説明する前に、アフィン変換について簡単に説明する。アフィン変換は、一般に点(x,y)tを以下の式により点(x’,y’)tに写像するものである。なお、便宜上、この明細書にける座標の表記は、数式中においては縦ベクトルの表記とし、文中では横ベクトルに転置を表す「t」を付した表記とするが、両者は同じものを示している。
式(1)において、(e,f)tは平行移動のパラメータであるから、パターンの変形には関与しない。従って、実際には行列
による変換のみを考えればよい。式(2)のa,b,c,dの値を変化させることで様々な幾何学的な変形を行うことが可能である。
図2にアフィン変換を受けた文字パターンの一例を示す。図2(a)が元の画像であり、高さが500画素の文字「A」(フォントはArial)の文字部分(灰色部分)に対して影の部分(黒色部分)を付加したものである。図2(b)〜図2(d)は図2(a)の画像を下記表1に示したアフィン変換のパラメータa,b,c,dで変換した画像である。それぞれの灰色の画素の数に対する黒の画素の数の比をとして表1に示してある。表1から、アフィン変換を受けても比の値はほとんど変わらないことが分かる。
2.文字パターンのデザイン
面積比を付加情報として埋め込んだ文字パターンを生成する方法の一例を述べる。まず、面積比を情報として埋め込むための基礎データを得るためのシミュレーション実験とその結果について述べる。そして、字種固有の面積比について述べ、実際に情報を埋め込んだ文字パターンを作成する。
埋め込みの形態としては図1(a)に示すように、影を付加する方法を使用した。以下の説明で、図1(a)の灰色の部分を文字画像あるいは文字部分、黒色の部分を影の画像あるいは影の部分、図1(a)全体を文字パターンと呼んで区別する。文字部分は、文字の基本形状を示す部分である。
2.1.幾何学的変換による埋め込み値の変動
発明者は、面積比を用いて付加情報を埋め込むことの有効性を確認するために以下の基礎的な検討を行った。以下に、得られた知見を説明する。まず、アフィン変換を施した場合に、量子化誤差により埋め込んだ値がどのように変化するかを調べるために、情報を埋め込んだ文字パターンにアフィン変換を施した結果得られる画像について面積比を計算した。
アルファベット大文字26文字を用い、Arial,Arial Black,Helvetica, Times の4つのフォントについて、0.1,0.2,0.3の3種類の値を埋め込んだ文字パターンを作成した。すなわち、各字種ごとに12種類の文字パターンが存在する。具体的には、まず、各フォントにおける「A」の文字の高さが500画素になるように調整した文字画像を準備した。元の文字画像を右方向に1〜120画素、下方向に1〜30画素の範囲で移動した画像を影の画像とし、面積比を計算して埋め込むべき値と最も近くなる移動量を用い、情報を埋め込んだ文字パターンを作成した。
次に、得られた画像に対してアフィン変換を施す。ここで、変換の種類に対する埋め込んだ情報の劣化を直感的に把握するために、図3(b)〜(e)に示す4種類の変換を考える。図3(a)が元の画像である。(b)がアスペクト比を変える変換であり、x軸方向にα倍、y軸方向に1/α倍するものとする。
図3(c)はx軸に沿った剪断変換であり、傾き角度をψとする。図3(d)は回転変換であり、回転角をθとする。図3(e)は拡大・縮小変換であり、元の画像をγ倍する。なお、アフィン変換には図3(f)のような鏡像変換も含まれるが、ここでは考えない。
図3(b)〜(e)の変換はそれぞれ以下の行列で表せる。
これらを組み合わせることで、鏡像変換を除く任意の変換を表現できる。実際、
を解くことにより、ad−bc>0であれば、以下のようにパラメータが定まる。
式(4)〜(10)のパラメータを変えて文字パターンの画像を変換する。具体的には、まず式(11)の行列Pを用い、変換後の画像のi行j列の画素の位置に対応する変換前の画像の座標(i’,j’)tを求める。
ただし、(i0,j0tはi’≧0、j’≧0となるように定める。そして、変換前の画像のi’行j’列の画素値を変換後の画像のi行j列の画素値とする。(i,j)tと(i’,j’)tは一対一対応ではないため、量子化誤差が発生する。
次に、変換された画像の面積比を求める。そして、埋め込んだ値と抽出された値との差(誤差)を求め、各字種の各パラメータごとに、12種類の画像の中で誤差が最大となるものを求める。
結果を図4に示す。26字種すべての結果を表示するのは現実的ではないので、図4では、26字種の平均値、最大値、最小値を示してある。また、平均値よりも大きい値のみを母集団とした場合の標準偏差を平均値に加えた値を点線で、平均値よりも小さい値のみを母集団とした場合の標準偏差を平均値から引いた値を一点鎖線で示してある。
(1)アスペクト比の変換
式(4)を用い、αを様々に変えた場合の誤差を図4(a)に示す。横軸がαを表す。図より、αが1から離れるに従って誤差が急激に増大していることが分かる。また、字種により誤差の値に大きく差があった。「S」や「O」など曲線から構成される字種は誤差が小さく、最大でも0.005程度であった。一方「I」「J」「L」のような直線部分を含む字種は誤差が大きかった。全字種の誤差を例えば0.02程度に収めるためには、0.5≦α≦2.0程度にする必要がある。
(2)剪断変換
角度ψで画像を剪断変換した場合の結果を図4(b)に示す。横軸がψを表す。図から、僅かでも傾斜させると値が急激に増加するが、ψ=5°程度で頭打ちになることが分かる。この場合も、誤差が大きいのは「I」や「L」のような直線部分を含む字種であった。しかし、誤差は最大でも0.005程度であり、アスペクト比の変換と比較して影響が小さいことが分かる。
(3)回転変換
画像をθだけ回転させた場合の結果を図4(c)に示す。横軸がθを表す。僅かでも回転させると値が急激に増加するが、θ=5°程度で一旦頭打ちになる。そして、θ=45°付近で再び急激に増加する。しかし、最大でも0.01程度であり、やはりアスペクト比の変換と比較して回転変換の影響は小さいことが分かる。
(4)縮小変換
画像をγ倍(γ≦1.0)に縮小させた場合の結果を図4(d)に示す。横軸がγを表す。γが小さくなると誤差が非常に大きくなる。これは、文字パターンの大きさの変化による量子化誤差の影響が非常に大きいことを表している。
以上の結果より、回転や傾きといった変換と比較して、拡大・縮小による影響が非常に大きいことが分かる。また、字種によって誤差が大きく異なることも確認された。実際には、使用する文字や想定される変形の範囲によって生じ得る量子化誤差の最大値を予想し、埋め込む値の刻み幅を定める必要がある。
4つのパラメータのうち、αとγを0.5≦α≦2.0、0.8≦γと制限したときの、各字種ごとの、4種類の変換の中での最大の誤差(小数点以下4桁目を切り上げ)を表2に示す。
2.2.文字パターン固有の面積比
前述したように、字種ごとにある程度固有の「自然な」面積比が存在すると考えられる。そこで、Arial,Arial Black,Helvetica,Times の4つのフォントについて、アルファベット大文字26字種について図1(a)の形態の埋め込みを行った場合の面積比について調べた。
具体的には、「A」の高さが500画素となるように大きさを調整した文字画像を用い、文字画像を右方向に10画素、下方向に10画素ずらした画像を影の画像とした場合の、文字部分と影の部分の面積比を求めた。結果を図5に示す。図から分かるように、フォントによって若干のばらつきはあるものの、あるフォントで面積比が大きい字種は他のフォントでも大きく、あるフォントで面積比が小さい字種は他のフォントでも小さいという傾向があることが分かる。
以上の検討から、面積比を用いて付加情報を埋め込むことの有効性が確認された。
2.3.埋め込み例
実際に様々なフォントを用い、アルファベット26文字のそれぞれに対して情報を埋め込んだ例を示す。自然な埋め込みを行うために、図5から、字種ごとに各フォントにおける面積比を平均し、平均値が小さい順にソートする。そして、その値が小さい順に、小さい値を情報として埋め込む。
また、項目2.1で求めた誤差の範囲を考慮する。すなわち、ソートされたi番目の文字に埋め込む値をνiとし、表2中の値(誤差の最大値を切り上げたもの)をeiとしたとき、
がすべてのiについて成り立つようにする。埋め込む値の最小値は0.10とした。このようにして得られた値を表3に示す。Arial,Arial Black,Helvetica,Times の4つのフォントについて、表3に示す値を埋め込んだ画像を図6に示す。
図6に示す例では、文字パターンの概観は無視し、アフィン変換の許容範囲をある程度大きくし、しかもすべての字種に異なる情報を埋め込んだため、影が多い字種と少ない字種の影の部分の差が若干目立っている。実際に文字パターンを実用に供する場合には、アフィン変換の許容範囲に加えて後に述べる撮影画像からの情報抽出時の誤差も含めて考慮し、文字パターンのデザインを行うことにより違和感のない文字パターンを決定すればよい。
また、上記の例は、字種ごとに固有の自然な面積比に基づいてその付加情報を割り当てたが、2文字が連続する確率(文字バイグラム確率)が高い文字は、影の面積(付加情報)を優先的に近くすることにより、より自然に付加情報を埋め込むことができる。
また、連続している2文字もしくは2つの連結成分(黒画素の塊)が埋め込んだ付加情報で区別可能であれば、高い精度で文字を分離することが可能である。したがって、「見た目は似ているが、区別できる量」を調整することが肝心である。
3. 実験例
3.1. 文字認識アルゴリズム
この発明の有効性を確認するために、付加情報を埋め込んだ文字パターンを認識する実験を行った。認識させた文字パターンは図9のように、文字部分と影の部分からなる。ここでは図7に示す単純な文字認識アルゴリズムを用いた。まず、認識対象の文字パターンを正規化した後、全クラスの標準パターンとの類似度を計算した。それと同時に文字部分と影の部分との面積比を求めた。そして、求めた面積比から、文字パターンに埋め込まれた付加情報(埋め込み情報)を抽出した。最後に、計算した類似度と抽出された付加情報を組み合わせて字種の判別を行う。それぞれの処理については以下で述べる。
(1)正規化
アフィン変換を受けた画像を扱うので、まず、画像を正規化する。正規化の手順は図8に示す。まず、文字パターンを表す画素を探す(図8(a)参照)。連結成分毎に重心を計算し、重心に最小二乗法を適用して、図8(b)中の直線を決定する。直線の回転角度θを求めて、画像を回転させることで画像の回転を補正する(図8(b)参照)。次に、連結成分の列毎に重心を決定する。そして、最小二乗法を全ての連結成分の重心に適用して、直線を検出する。誤差を最小化して求めた直線の傾き角度ψを用いて剪断変換を補正する(図8(c)参照)。
(2)類似度計算
類似度基準としては正規化相互相関(Normalized cross correlation; NCC)を用いる。標準パターンは、事前に各クラスの文字パターンを平均して生成しておく。入力パターンと各クラスの標準パターンのNCCを計算する。認識による候補字種は、NCCを降順にソートして決める。
(3)埋め込まれた付加情報の抽出
埋め込まれた付加情報は、文字パターンの領域と影の領域の面積比を計算することで抽出する。表2に示す付加情報と抽出した面積比との差をクラス毎に計算する。付加情報による候補字種は、前述の差を昇順にソートして決める。
(4)結果の統合
認識結果と付加情報から最終結果を決定する。もし、補正処理によって回転角度θと傾き角度ψが正しく補正されており、かつ、パターンの変形をアフィン変換とみなすことができるのであれば、既存の文字認識手法で文字画像を認識することはそれほど難しくない。パターンが正しく認識されるとき、NCCは大きな値になると考えられるので、NCCがあらかじめ定めた閾値tより大きいときは類似度計算で得られた候補を最終結果とする。一方、NCCが閾値t以下ならば、類似度計算と付加情報から得られた2種類の候補順位を足し合わせたものを各クラスのスコアとする。すなわち、クラス“A”が類似度計算で3位、付加情報で2位だった場合、クラス“A”のスコアは5になる。スコアが最小のクラスを最終結果とする。実験ではt=0.6とした。
3.2.実験結果
Arial、Arial Black、Helvetica、Timesの4つのフォントの大文字を実験に用いた。上記項目2.3で述べた方法で付加情報をパターンに埋め込んだ。文字パターンを赤色、影を黄色とした。
文字パターンから、道路標識に使われる12単語のパターン (BEGIN、EAST、END、EXIT、LIMIT、NORTH、ONLY、ROAD、SOUTH、SPEED、 STOP、WEST; 合計52文字)を生成した。
各単語の画像はデジタルカメラで3種類の角度から撮影した。画像の縦幅、回転角度θ、傾き角度ψのおおよその値を表3に示す。各文字パターンを上記項目3.1で述べたアルゴリズムで認識した。
デジタルカメラで撮影した画像と正規化した画像をそれぞれ図9(a)と図9(b)に示す。図9(b)では、抽出した文字部分と影の部分だけを示す。図9(b)から、文字パターンはアフィン変換ではなく、実際には射影変換を受けていることがわかる。
認識精度を表5に示す。表中の“従来法”は付加情報を用いないときの結果である。付加情報を用いることで全てのフォントで精度が大幅に改善されたことから、この発明の有効性が確認された。
特にTimesフォントのパターンでは、従来法と提案手法の違いが大きかった。Timesフォントの文字パターンは構造が複雑で、アフィン変換のパラメータを正しく検出することができなかったため、従来法の認識精度が高くなかった。それに対して、抽出した付加情報が効果的に働いたため、この発明の文字認識方法による認識精度はそれほど低くなっていない。
4.文字パターン生成装置
この発明に係る文字パターンを生成する文字パターン生成装置について説明する。図10は、この発明による文字パターン生成装置の構成例を示すブロック図である。図10に示すように、文字パターン生成装置は、文字入力部11、付加情報格納部13、付加情報取得部15および文字パターン生成部17から構成される。
文字入力部11は、生成すべき文字が入力される部分である。付加情報格納部13は、各文字に対して予め定められた付加情報を格納する部分である。付加情報取得部15は、入力された文字に応じた付加情報を付加情報格納部13から取得する部分である。パターン生成部17は、付加情報取得部15が取得した付加情報に応じた面積比をもつ文字パターンを生成する部分である。
付加情報格納部13に格納された付加情報は、例えば、前記項目2.3の手法により決定された表3の値である。入力部は、例えば、ホストとしてのコンピュータから印字すべき文字が入力される。入力部への入力は、例えば、ページ記述言語などの形態で与えられる。付加情報取得部15は、ページ記述言語に記述された各文字の文字コードに応じた付加情報を付加情報格納部13から取得する。
例えば、付加情報を文字部分と影の部分の面積比として埋め込む場合、文字パターン生成部17は、取得された付加情報に応じた面積比の影が付いた文字パターンデータを生成する。
文字パターン生成装置の具体的な態様の一例は、図10の各部の機能を備えたプリンタコントローラである。付加情報取得部15、文字パターン生成部17の機能は、例えば、プリンタが有するマイクロコンピュータを用いて実現される。文字入力部11は、入力回路で実現される。付加情報格納部13は、ROMあるいはHDDなどの記憶装置によって実現される。プリンタコントローラは、生成した文字パターンをプリンタに印字させる。
5.文字認識装置
この発明に係る文字認識装置について説明する。図11は、この発明による文字認識装置の構成例を示すブロック図である。図11に示すように、文字認識装置は、画像入力部31、形状抽出部33、付加情報算出部35、文字認識部37、認識結果出力部39から構成される。
画像入力部31は、例えばカメラで撮影されてデジタル化された画像データが入力される部分である。形状抽出部33は、入力された画像データに、この発明に係る文字パターンが含まれているかどうかを判断し、含まれている場合に、その文字パターンの第1パターンと第2パターンとを抽出する。付加情報算出部35は、抽出された第1パターンと第2パターンの面積を求め、その面積比から付加情報を算出する部分である。文字認識部37は、入力された画像データから文字認識処理を行う部分であって、認識処理には、算出された付加情報が補助として用いられる。認識結果出力部39は、認識した結果を出力する部分である。
文字認識装置の具体的な態様の一例は、パーソナルコンピュータと、そのCPUが実行するプログラムとによって実現される。画像データが入力される入力回路部によって画像入力部31が実現され、CPUの処理によって、形状抽出部33、付加情報算出部35および文字認識部37の機能が実現される。また、ディスプレイなどの表示装置によって、認識結果出力部39の機能が実現される。
なお、実施形態においては、2種類の領域の面積を算出し、その比をアフィン変換量として用いたが、例えば、文字パターン、輪郭、影のように、3種類の面積を用いることにより、射影不変量を算出することも考えられる。
最後に、前述した実施の形態の他にも、この発明について種々の変形例があり得ることは明らかである。そのような変形例は、この発明の特徴及び範囲に属さないと解釈されるべきものではない。本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更とが含まれることが意図される。
面積比を用いて付加情報が埋め込まれたこの発明に係る文字パターンの種々の形態を示す説明図である。 アフィン変換を受けたこの発明に係る文字パターンの一例を示す説明図である。 この発明に係る文字パターンの文字部分がアフィン変換による種々の変換うけたものを示す説明図である。 この発明に係る文字パターンが図3に示す変換を受けた場合の面積比の誤差を示すグラフである。 この発明に係る各文字パターンに同じ長さの影を付けたときの文字部分と影の部分の面積比を示すグラフである。 この発明に係る文字パターンの4種類のフォントの例を示す説明図である。 この発明の文字認識方法による処理の一例を示すブロック図である。 図7の正規化を文字画像に適用する手順を示す説明図である。 図7の処理の適用例として、デジタルカメラで撮影した画像と正規化した画像を示す説明図である。 この発明による文字パターン生成装置の構成例を示すブロック図である。 この発明による文字認識装置の構成例を示すブロック図である。 環境中の文字がカメラで撮影され射影変換を受けた従来の文字パターンの一例を示す説明図である。
符号の説明
1 画像入力処理
2 正規化処理
3 類似度計算処理
4 付加情報(埋め込み情報)抽出処理
5 出力処理

Claims (10)

  1. 文字形状の全部または一部の特徴部分を構成する基本形状パターンその基本形状パターンを修飾する修飾パターンからなる文字パターンに字種を識別するための文字認識用情報を付与する方法が、
    前記基本形状パターンの面積に対する前記修飾パターンの面積比を、付与する情報に応じた固有の割合にするものであり、
    前記修飾パターンは、影または輪郭線のパターンであることを特徴とする付加情報付き文字パターンの生成方法。
  2. 前記修飾パターンが影のパターンであり、付与する情報に応じて影の長さが設定される請求項1に記載の文字パターン生成方法。
  3. 前記修飾パターンが輪郭線であり、付与する情報に応じて輪郭線の太さが設定される請求項1に記載の文字パターン生成方法。
  4. 前記付加情報が各文字の基本形状パターンに同じ長さの影を付加したときの前記基本形状パターンに対する影の面積比に基づいてその値が決定される請求項2に記載の文字パターン生成方法。
  5. 前記付加情報が各文字の基本形状パターンに同じ太さの輪郭線を付加したときの前記基本形状パターンに対する輪郭線の面積比に基づいてその値が決定される請求項3に記載の文字パターン生成方法。
  6. 前記付加情報が各文字パターンがアフィン変換を受けたときの前記面積比の誤差を考慮してその値が決定される請求項4または5に記載の文字パターン生成方法。
  7. 請求項1の方法により生成された文字パターンを読み取り、
    読み取ったパターンから基本形状パターン修飾パターンとを抽出し、
    抽出された基本形状パターン修飾パターンとの面積比を求め、
    求めた面積比から付加情報を得、
    得られた付加情報を用いて文字を認識する文字認識方法。
  8. 前記パターンの読み取りが、カメラによる撮影である請求項記載の文字認識方法。
  9. 文字を入力する文字入力部と、
    各文字に対して字種を識別するための文字認識用付加情報を格納する付加情報格納部と、
    入力された文字に応じた付加情報を付加情報格納部から取得する付加情報取得部と、
    付加情報に応じた面積比の基本形状パターンその基本形状パターンを修飾する修飾パターンとを含む文字パターンを生成する文字パターン生成部とを備え
    前記修飾パターンは、影または輪郭線のパターンであることを特徴とする文字パターン生成装置。
  10. 請求項9に記載の文字パターン生成装置により生成された文字パターンの画像を入力する画像入力部と、
    入力された画像から基本形状パターン修飾パターンとを抽出する形状抽出部と、
    抽出された基本形状パターン修飾パターンの面積比から付加情報を算出する付加情報算出部と、
    算出された付加情報を用いて文字を認識する文字認識部と、
    認識結果を出力する認識結果出力部とを備える文字認識装置。
JP2006035700A 2006-02-13 2006-02-13 文字パターン生成方法および文字認識方法 Expired - Fee Related JP4859027B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006035700A JP4859027B2 (ja) 2006-02-13 2006-02-13 文字パターン生成方法および文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006035700A JP4859027B2 (ja) 2006-02-13 2006-02-13 文字パターン生成方法および文字認識方法

Publications (2)

Publication Number Publication Date
JP2007213520A JP2007213520A (ja) 2007-08-23
JP4859027B2 true JP4859027B2 (ja) 2012-01-18

Family

ID=38491864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006035700A Expired - Fee Related JP4859027B2 (ja) 2006-02-13 2006-02-13 文字パターン生成方法および文字認識方法

Country Status (1)

Country Link
JP (1) JP4859027B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3370184B2 (ja) * 1994-06-20 2003-01-27 株式会社リコー オンライン手書き文字認識方法

Also Published As

Publication number Publication date
JP2007213520A (ja) 2007-08-23

Similar Documents

Publication Publication Date Title
KR100658119B1 (ko) 문자 인식 장치 및 방법
JP4777393B2 (ja) デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
EP1703444A2 (en) Detecting an orientation of characters in a document image
JP4758461B2 (ja) デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
Supriana et al. Arabic character recognition system development
JP6000992B2 (ja) 文書ファイル生成装置及び文書ファイル生成方法
JP5538812B2 (ja) 画像処理装置、画像処理方法及びプログラム
Naz et al. Challenges in baseline detection of Arabic script based languages
Suresh et al. Telugu Optical Character Recognition Using Deep Learning
Alaei et al. A baseline dependent approach for Persian handwritten character segmentation
JP4859027B2 (ja) 文字パターン生成方法および文字認識方法
Naz et al. Arabic script based character segmentation: a review
JP6432179B2 (ja) 文書ファイル生成装置及び文書ファイル生成方法
JP6310155B2 (ja) 文字認識装置、文字認識方法及び文字認識プログラム
CN109522892A (zh) 神经网络辅助的文字图像信息标注方法
JP7065065B2 (ja) 文字認識装置
JP5224156B2 (ja) 文字認識システムの学習文字サンプルの不足を補う方法
JP5913763B1 (ja) 基準線設定装置、基準線設定方法及び基準線設定プログラム
JP4697387B2 (ja) 原稿画像判定装置、原稿画像判定方法及びそのプログラム
CN113537216B (zh) 一种点阵字体文本行倾斜校正方法及装置
JP7410532B2 (ja) 文字判定装置及び文字判定プログラム
JP7382544B2 (ja) 文字列認識装置及び文字列認識プログラム
Juan et al. Font recognition by invariant moments of global textures
JP2004005761A (ja) キーワード抽出・検索装置
JP2803892B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111011

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111027

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees