JP4859027B2

JP4859027B2 - 文字パターン生成方法および文字認識方法

Info

Publication number: JP4859027B2
Application number: JP2006035700A
Authority: JP
Inventors: 真一郎大町; 雅一岩村; 誠一内田; 浩一黄瀬
Original assignee: Osaka Prefecture University
Current assignee: Osaka Prefecture University
Priority date: 2006-02-13
Filing date: 2006-02-13
Publication date: 2012-01-18
Anticipated expiration: 2026-02-13
Also published as: JP2007213520A

Description

この発明は、文字パターン生成方法および文字認識方法に関する。

デジタルカメラを入力デバイスとして取得した環境中の文字を認識する手法が検討されている（例えば、非特許文献１、２参照）。デジタルカメラによって取得した文字の画像は光学式スキャナで取得した画像と異なり、一般に低解像度であり、照明が非均一であり、幾何学的な変換を受けているため、高精度な認識を実現するのは非常に困難である。

高精度な認識の実現のために、文字画像と同時に認識補助のための付加情報を提示する方法が検討されている（例えば、非特許文献３、４参照）。
付加情報は、様々な幾何学的変換を受けても確実に抽出できることが要求される。幾何学的変換は、回転変換、ユークリッド変換、相似変換、アフィン変換、射影変換等に分類でき、後のものほど変換の自由度が高く変形が激しいと言える。

カメラで撮影された画像は、一般に射影変換を受けるため、射影変換を受けても変わらない量（射影不変量）を用いて付加情報を提示することが望ましい。射影不変量の一つに複比（例えば、非特許文献５参照）がある。
黄瀬浩一，大町真一郎，内田誠一，岩村雅一， "カメラを用いた文字認識・文書画像解析の現状と課題," 信学技報，PRMU2004-246，March 2005． D. Doermann, J. Liang and H. Li, "Progress in camera-based document image analysis," Proceedings of the Seventh International Conference on Document Analysis and Recognition (ICDAR 2003), pp.606-616, August 2003. 内田誠一, 岩村雅一, 大町真一郎, 黄瀬浩一， "カメラによる文字認識のための付加情報の埋め込みに関する検討," 画像の認識理解シンポジウム2005（MIRU2005）論文集，pp.235-242，July 2005．岩村雅一, 内田誠一, 大町真一郎, 黄瀬浩一， "情報付加による認識率100%の実現 −人にも機械にも理解可能な情報伝達のために−," 画像の認識理解シンポジウム2005（MIRU2005）論文集，pp.901-908，July 2005．佐藤淳，"コンピュータビジョン −視覚の幾何学−," コロナ社，1999．

前記非特許文献３には、文字パターンを複比パターンと呼ばれる縞で表し、縞の間隔の複比の値をその文字のカテゴリに対応づけることで、カテゴリ情報を文字パターンに埋め込む方法が提案されている。しかし、複比パターンは文字パターンの概観を大きく変えるため、人間の読み易さを若干損ねるという問題点があった。

この発明は、文字パターンの概観をできるだけ損ねずに安定した付加情報の抽出を可能とする方法として、２領域の面積比を用いて付加情報を埋め込んだ文字パターンの生成方法を提案する。

この発明は、文字形状の好ましくは全部または一部の特徴部分を構成する第１パターンと第２パターンからなる文字パターンに当該文字パターンに係る情報を付与する方法が、第１パターンの面積に対する第２パターンの面積比を、付与する情報に固有の割合にすることを特徴とする付加情報付き文字パターンの生成方法を提供する。

また、この発明は、前記方法により生成された文字パターンを読み取り、読み取ったパターンから第１パターンと第２パターンとを抽出し、抽出された第１パターンと第２パターンとの面積比を求め、求めた面積比から得られる付加情報を得、得られた付加情報を用いて文字を認識する文字認識方法を提供する。

また、異なる観点から、この発明は、文字を入力する文字入力部と、各文字に対する付加情報を格納する付加情報格納部と、入力された文字に応じた付加情報を付加情報格納部から取得する付加情報取得部と、付加情報に応じた面積比の第１パターンと第２パターンとを含む文字パターンを生成する文字パターン生成部とを備えることを特徴とする文字パターン生成装置を提供する。

さらに、この発明は、前記文字パターン生成装置により生成された文字パターンの画像を入力する画像入力部と、入力された画像から第１パターンと第２パターンとを抽出する形状抽出部と、抽出された第１パターンと第２パターンの面積比から付加情報を算出する付加情報算出部と、算出された付加情報を用いて文字を認識する文字認識部と、認識結果を出力する認識結果出力部とを備える文字認識装置を提供する。

この発明の文字パターンの生成方法は、第１パターンの面積に対する第２パターンの面積比を、付与する情報に固有の割合にすることを特徴とする。２つの領域の面積の比はアフィン変換を施しても変化しないアフィン不変量である（例えば、高木幹雄，下田陽久監修，"新編画像処理ハンドブック," 東京大学出版会，2004．参照）。したがって、この発明の方法で生成された文字パターンは、アフィン変換を受ける環境においても第１パターンと第２パターンの面積比から正確に埋め込まれた付加情報を抽出せることができる。また、抽出された付加情報を用いて精度よくその文字パターンを認識させることができる。

この明細書で、「文字」あるいは「字」とは、言語を表記するのに用いる符号であって人間が読み取るものをいう。アルファベットや仮名、漢字、数字、句読点やカッコなどであるが、さらに限られた分野で補助的に用いられる符号を含んでよい。「文字パターン」は、「文字」がパターンとして可視的に表現されたものをいう。

前述のようにカメラで撮影された画像は一般には射影変換を受ける。図１２は、環境中の文字がカメラで撮影され射影変換を受けた従来の文字パターンの一例を示す。しかし、図１２の例に示すように、個々の文字の領域に限定すれば、文字が受ける幾何学的変換は、近似的にアフィン変換とみなすことが可能な場合も多く、アフィン不変量を用いることで実用的に十分な精度で付加情報の抽出が実現できるものと考える。したがって、アフィン不変量である面積比を用いて付加情報を埋め込んだ文字パターンは、撮影された画像から精度よく認識され得る。

第１パターンが、文字の基本形状のパターンであり、第２パターンが、文字の修飾パターンであってもよい。
また、前記修飾パターンが、影のパターンであってもよい。さらに、付与する情報に応じて影の長さが設定されてもよい。あるいは、前記修飾パターンが、輪郭線であってもよい。さらに、付与する情報に応じて輪郭線の太さが設定されてもよい。文字に影を付加したり輪郭線を別の色とすることは文字パターンのデザインとしてすでに行われており、違和感を与えない。このようにすれば、文字パターンへの情報の付加は、影の長さや輪郭線の太さ、即ち、修飾部分の線幅を変えるにすぎない。したがって、自然な付加情報の埋め込みが可能となる。

さらにまた、第１パターンと第２パターンとが、文字の基本形状を分割して得られる各部分のパターンであってもよい。

第１パターンと第２パターンとが、互いに異なる色のパターンであってもよい。互いに異なる色のパターンは、文字認識の際に識別が容易であるので簡単かつ正確に面積比を取得させ、付加情報を抽出させることができる。

例えば、文字パターンを２色で印字し、それぞれの色の領域の面積比を特定の値とした文字パターンを生成すればよい。

あるいは、第１パターンと第２パターンとが、互いに異なる濃度のパターンであってもよい。異なる濃度のパターンは、文字認識の際に識別が容易であるので簡単かつ正確に面積比を取得させ、付加情報を抽出させることができる。

また、前記付加情報が、字種を識別するための値であって、各文字パターンに同じ長さの影を付加したときの前記面積比に基づいてその値が決定されてもよい。
あるいは、前記付加情報が、字種を識別するための値であって、各文字パターンに同じ太さの輪郭線を付加したときの前記面積比に基づいてその値が決定されてもよい。
ただし、前記付加情報の内容は字種に限定されるものではない。例えば、前記付加情報は、字種を表す代わりにフォントの種類を表す情報であってもよい。

さらに、前記付加情報が、字種を識別するための値であって、各文字パターンがアフィン変換を受けたときの前記面積比の誤差を考慮してその値が決定されてもよい。
また、この発明の文字認識方法は、抽出された第１パターンと第２パターンとの面積比を求め、求めた面積比から得られる付加情報を用いて文字を認識するので、読み取られた文字が幾何学的変換を受けていても正確に認識することができる。

前記パターンの読み取りが、カメラによる撮影であってもよい。この発明の文字認識方法は、アフィン変換を受けた文字パターンを高精度に認識するものである。前述のように、環境中の文字がカメラを入力デバイスとして読み取られた場合、近似的にアフィン変換を受けたとみなせることが多い。従って、この発明の文字認識方法は、カメラで撮影された文字を精度よく認識することが可能である。

また、この発明の文字パターン生成装置は、アフィン変換を受ける環境においても埋め込んだ付加情報を正確に抽出させることができる。したがって、付加情報を用いて精度よくその文字パターンを認識させることができる。

また、この発明の文字認識装置は、面積比から得られる付加情報を用いて文字を認識するので、読み取られた文字が幾何学的変換を受けていても正確に認識することができる。

以下、図面を用いてこの発明をさらに詳述する。以下の説明により、この発明をよりよく理解することが可能であろう。なお、以下の説明は、すべての点で例示であって、限定的なものではないと考えられるべきである。

１．面積比を用いた付加情報の埋め込み
１．１．埋め込み形態
この実施の形態では、文字パターンを単色ではなく２色を用いて印字し、それぞれの色の領域の面積比を特定の値とするようにパターンをデザインすることで情報を埋め込む。

図１は、面積比を用いて付加情報が埋め込まれた文字パターンの種々の形態を示す説明図である。図１に示す例のように、様々な埋め込みの形態が考えられる。図１（ａ）は影の部分とそれ以外の部分の面積の比を利用したもの、図１（ｂ）は輪郭線の面積とそれ以外の部分の面積の比を利用したもの、図１（ｃ）はツートンカラーのフォントのそれぞれの色の部分の面積を利用したものである。以下の説明では、最良の形態として図１（ａ）を例にとって説明するが、他の態様について限定を加えるものではない。

文字に影を付加したり輪郭線を別の色とすることは文字パターンのデザインとしてすでに行われており、提案手法はその線幅を変えるにすぎない。さらに、文字は字種ごとに固有の形を持つため、図１のどの形態で埋め込むにしても、字種によってある程度固有の「自然な」面積比が存在すると考えられる。従って、従来の複比パターンの埋め込みと比較してより自然な埋め込みが可能になると考えられる。

なお、本手法は文字切り出しの問題を解決する手段としても適用できる。個々の文字画像を正確に切り出すことは困難な問題である。特に分離文字の統合については、認識を併用する以外に本質的な解決策はないが、分離文字の個々の部分に対して同じ値を埋め込んでおくことにより、別々の文字なのか分離文字の個々の部分なのかが判断できる。

１．２．アフィン変換の例とアフィン不変性
文字パターンの生成方法を説明する前に、アフィン変換について簡単に説明する。アフィン変換は、一般に点（ｘ，ｙ）^tを以下の式により点（ｘ’，ｙ’）^tに写像するものである。なお、便宜上、この明細書にける座標の表記は、数式中においては縦ベクトルの表記とし、文中では横ベクトルに転置を表す「^t」を付した表記とするが、両者は同じものを示している。

式（１）において、（ｅ，ｆ）^tは平行移動のパラメータであるから、パターンの変形には関与しない。従って、実際には行列

による変換のみを考えればよい。式（２）のａ，ｂ，ｃ，ｄの値を変化させることで様々な幾何学的な変形を行うことが可能である。

図２にアフィン変換を受けた文字パターンの一例を示す。図２（ａ）が元の画像であり、高さが５００画素の文字「Ａ」（フォントはＡｒｉａｌ）の文字部分（灰色部分）に対して影の部分（黒色部分）を付加したものである。図２（ｂ）〜図２（ｄ）は図２（ａ）の画像を下記表１に示したアフィン変換のパラメータａ，ｂ，ｃ，ｄで変換した画像である。それぞれの灰色の画素の数に対する黒の画素の数の比をとして表１に示してある。表１から、アフィン変換を受けても比の値はほとんど変わらないことが分かる。

２．文字パターンのデザイン
面積比を付加情報として埋め込んだ文字パターンを生成する方法の一例を述べる。まず、面積比を情報として埋め込むための基礎データを得るためのシミュレーション実験とその結果について述べる。そして、字種固有の面積比について述べ、実際に情報を埋め込んだ文字パターンを作成する。

埋め込みの形態としては図１（ａ）に示すように、影を付加する方法を使用した。以下の説明で、図１（ａ）の灰色の部分を文字画像あるいは文字部分、黒色の部分を影の画像あるいは影の部分、図１（ａ）全体を文字パターンと呼んで区別する。文字部分は、文字の基本形状を示す部分である。

２．１．幾何学的変換による埋め込み値の変動
発明者は、面積比を用いて付加情報を埋め込むことの有効性を確認するために以下の基礎的な検討を行った。以下に、得られた知見を説明する。まず、アフィン変換を施した場合に、量子化誤差により埋め込んだ値がどのように変化するかを調べるために、情報を埋め込んだ文字パターンにアフィン変換を施した結果得られる画像について面積比を計算した。

アルファベット大文字２６文字を用い、Ａｒｉａｌ，ＡｒｉａｌＢｌａｃｋ，Ｈｅｌｖｅｔｉｃａ，Ｔｉｍｅｓの４つのフォントについて、０．１，０．２，０．３の３種類の値を埋め込んだ文字パターンを作成した。すなわち、各字種ごとに１２種類の文字パターンが存在する。具体的には、まず、各フォントにおける「Ａ」の文字の高さが５００画素になるように調整した文字画像を準備した。元の文字画像を右方向に１〜１２０画素、下方向に１〜３０画素の範囲で移動した画像を影の画像とし、面積比を計算して埋め込むべき値と最も近くなる移動量を用い、情報を埋め込んだ文字パターンを作成した。

次に、得られた画像に対してアフィン変換を施す。ここで、変換の種類に対する埋め込んだ情報の劣化を直感的に把握するために、図３（ｂ）〜（ｅ）に示す４種類の変換を考える。図３（ａ）が元の画像である。（ｂ）がアスペクト比を変える変換であり、ｘ軸方向にα倍、ｙ軸方向に１／α倍するものとする。

図３（ｃ）はｘ軸に沿った剪断変換であり、傾き角度をψとする。図３（ｄ）は回転変換であり、回転角をθとする。図３（ｅ）は拡大・縮小変換であり、元の画像をγ倍する。なお、アフィン変換には図３（ｆ）のような鏡像変換も含まれるが、ここでは考えない。
図３（ｂ）〜（ｅ）の変換はそれぞれ以下の行列で表せる。

これらを組み合わせることで、鏡像変換を除く任意の変換を表現できる。実際、

を解くことにより、ａｄ−ｂｃ＞０であれば、以下のようにパラメータが定まる。

式（４）〜（１０）のパラメータを変えて文字パターンの画像を変換する。具体的には、まず式（１１）の行列Ｐを用い、変換後の画像のｉ行ｊ列の画素の位置に対応する変換前の画像の座標（ｉ’，ｊ’）^tを求める。

ただし、（ｉ₀，ｊ₀）^tはｉ’≧０、ｊ’≧０となるように定める。そして、変換前の画像のｉ’行ｊ’列の画素値を変換後の画像のｉ行ｊ列の画素値とする。（ｉ，ｊ）^tと（ｉ’，ｊ’）^tは一対一対応ではないため、量子化誤差が発生する。

次に、変換された画像の面積比を求める。そして、埋め込んだ値と抽出された値との差（誤差）を求め、各字種の各パラメータごとに、１２種類の画像の中で誤差が最大となるものを求める。
結果を図４に示す。２６字種すべての結果を表示するのは現実的ではないので、図４では、２６字種の平均値、最大値、最小値を示してある。また、平均値よりも大きい値のみを母集団とした場合の標準偏差を平均値に加えた値を点線で、平均値よりも小さい値のみを母集団とした場合の標準偏差を平均値から引いた値を一点鎖線で示してある。

（１）アスペクト比の変換
式（４）を用い、αを様々に変えた場合の誤差を図４（ａ）に示す。横軸がαを表す。図より、αが１から離れるに従って誤差が急激に増大していることが分かる。また、字種により誤差の値に大きく差があった。「Ｓ」や「Ｏ」など曲線から構成される字種は誤差が小さく、最大でも０．００５程度であった。一方「Ｉ」「Ｊ」「Ｌ」のような直線部分を含む字種は誤差が大きかった。全字種の誤差を例えば０．０２程度に収めるためには、０．５≦α≦２．０程度にする必要がある。

（２）剪断変換
角度ψで画像を剪断変換した場合の結果を図４（ｂ）に示す。横軸がψを表す。図から、僅かでも傾斜させると値が急激に増加するが、ψ＝５°程度で頭打ちになることが分かる。この場合も、誤差が大きいのは「Ｉ」や「Ｌ」のような直線部分を含む字種であった。しかし、誤差は最大でも０．００５程度であり、アスペクト比の変換と比較して影響が小さいことが分かる。

（３）回転変換
画像をθだけ回転させた場合の結果を図４（ｃ）に示す。横軸がθを表す。僅かでも回転させると値が急激に増加するが、θ＝５°程度で一旦頭打ちになる。そして、θ＝４５°付近で再び急激に増加する。しかし、最大でも０．０１程度であり、やはりアスペクト比の変換と比較して回転変換の影響は小さいことが分かる。

（４）縮小変換
画像をγ倍（γ≦１．０）に縮小させた場合の結果を図４（ｄ）に示す。横軸がγを表す。γが小さくなると誤差が非常に大きくなる。これは、文字パターンの大きさの変化による量子化誤差の影響が非常に大きいことを表している。

以上の結果より、回転や傾きといった変換と比較して、拡大・縮小による影響が非常に大きいことが分かる。また、字種によって誤差が大きく異なることも確認された。実際には、使用する文字や想定される変形の範囲によって生じ得る量子化誤差の最大値を予想し、埋め込む値の刻み幅を定める必要がある。

４つのパラメータのうち、αとγを０．５≦α≦２．０、０．８≦γと制限したときの、各字種ごとの、４種類の変換の中での最大の誤差（小数点以下４桁目を切り上げ）を表２に示す。

２．２．文字パターン固有の面積比
前述したように、字種ごとにある程度固有の「自然な」面積比が存在すると考えられる。そこで、Ａｒｉａｌ，ＡｒｉａｌＢｌａｃｋ，Ｈｅｌｖｅｔｉｃａ，Ｔｉｍｅｓの４つのフォントについて、アルファベット大文字２６字種について図１（ａ）の形態の埋め込みを行った場合の面積比について調べた。

具体的には、「Ａ」の高さが５００画素となるように大きさを調整した文字画像を用い、文字画像を右方向に１０画素、下方向に１０画素ずらした画像を影の画像とした場合の、文字部分と影の部分の面積比を求めた。結果を図５に示す。図から分かるように、フォントによって若干のばらつきはあるものの、あるフォントで面積比が大きい字種は他のフォントでも大きく、あるフォントで面積比が小さい字種は他のフォントでも小さいという傾向があることが分かる。
以上の検討から、面積比を用いて付加情報を埋め込むことの有効性が確認された。

２．３．埋め込み例
実際に様々なフォントを用い、アルファベット２６文字のそれぞれに対して情報を埋め込んだ例を示す。自然な埋め込みを行うために、図５から、字種ごとに各フォントにおける面積比を平均し、平均値が小さい順にソートする。そして、その値が小さい順に、小さい値を情報として埋め込む。
また、項目２．１で求めた誤差の範囲を考慮する。すなわち、ソートされたｉ番目の文字に埋め込む値をν_iとし、表２中の値（誤差の最大値を切り上げたもの）をｅ_iとしたとき、

がすべてのｉについて成り立つようにする。埋め込む値の最小値は０．１０とした。このようにして得られた値を表３に示す。Ａｒｉａｌ，ＡｒｉａｌＢｌａｃｋ，Ｈｅｌｖｅｔｉｃａ，Ｔｉｍｅｓの４つのフォントについて、表３に示す値を埋め込んだ画像を図６に示す。

図６に示す例では、文字パターンの概観は無視し、アフィン変換の許容範囲をある程度大きくし、しかもすべての字種に異なる情報を埋め込んだため、影が多い字種と少ない字種の影の部分の差が若干目立っている。実際に文字パターンを実用に供する場合には、アフィン変換の許容範囲に加えて後に述べる撮影画像からの情報抽出時の誤差も含めて考慮し、文字パターンのデザインを行うことにより違和感のない文字パターンを決定すればよい。

また、上記の例は、字種ごとに固有の自然な面積比に基づいてその付加情報を割り当てたが、２文字が連続する確率（文字バイグラム確率）が高い文字は、影の面積（付加情報）を優先的に近くすることにより、より自然に付加情報を埋め込むことができる。
また、連続している２文字もしくは２つの連結成分（黒画素の塊）が埋め込んだ付加情報で区別可能であれば、高い精度で文字を分離することが可能である。したがって、「見た目は似ているが、区別できる量」を調整することが肝心である。

３．実験例
３．１．文字認識アルゴリズム
この発明の有効性を確認するために、付加情報を埋め込んだ文字パターンを認識する実験を行った。認識させた文字パターンは図９のように、文字部分と影の部分からなる。ここでは図７に示す単純な文字認識アルゴリズムを用いた。まず、認識対象の文字パターンを正規化した後、全クラスの標準パターンとの類似度を計算した。それと同時に文字部分と影の部分との面積比を求めた。そして、求めた面積比から、文字パターンに埋め込まれた付加情報（埋め込み情報）を抽出した。最後に、計算した類似度と抽出された付加情報を組み合わせて字種の判別を行う。それぞれの処理については以下で述べる。

（１）正規化
アフィン変換を受けた画像を扱うので、まず、画像を正規化する。正規化の手順は図８に示す。まず、文字パターンを表す画素を探す（図８（ａ）参照）。連結成分毎に重心を計算し、重心に最小二乗法を適用して、図８（ｂ）中の直線を決定する。直線の回転角度θを求めて、画像を回転させることで画像の回転を補正する（図８（ｂ）参照）。次に、連結成分の列毎に重心を決定する。そして、最小二乗法を全ての連結成分の重心に適用して、直線を検出する。誤差を最小化して求めた直線の傾き角度ψを用いて剪断変換を補正する（図８（ｃ）参照）。

（２）類似度計算
類似度基準としては正規化相互相関（Ｎｏｒｍａｌｉｚｅｄｃｒｏｓｓｃｏｒｒｅｌａｔｉｏｎ；ＮＣＣ）を用いる。標準パターンは、事前に各クラスの文字パターンを平均して生成しておく。入力パターンと各クラスの標準パターンのＮＣＣを計算する。認識による候補字種は、ＮＣＣを降順にソートして決める。

（３）埋め込まれた付加情報の抽出
埋め込まれた付加情報は、文字パターンの領域と影の領域の面積比を計算することで抽出する。表２に示す付加情報と抽出した面積比との差をクラス毎に計算する。付加情報による候補字種は、前述の差を昇順にソートして決める。

（４）結果の統合
認識結果と付加情報から最終結果を決定する。もし、補正処理によって回転角度θと傾き角度ψが正しく補正されており、かつ、パターンの変形をアフィン変換とみなすことができるのであれば、既存の文字認識手法で文字画像を認識することはそれほど難しくない。パターンが正しく認識されるとき、ＮＣＣは大きな値になると考えられるので、ＮＣＣがあらかじめ定めた閾値ｔより大きいときは類似度計算で得られた候補を最終結果とする。一方、ＮＣＣが閾値ｔ以下ならば、類似度計算と付加情報から得られた２種類の候補順位を足し合わせたものを各クラスのスコアとする。すなわち、クラス“Ａ”が類似度計算で３位、付加情報で２位だった場合、クラス“Ａ”のスコアは５になる。スコアが最小のクラスを最終結果とする。実験ではｔ＝０．６とした。

３．２．実験結果
Ａｒｉａｌ、ＡｒｉａｌＢｌａｃｋ、Ｈｅｌｖｅｔｉｃａ、Ｔｉｍｅｓの４つのフォントの大文字を実験に用いた。上記項目２．３で述べた方法で付加情報をパターンに埋め込んだ。文字パターンを赤色、影を黄色とした。

文字パターンから、道路標識に使われる１２単語のパターン（ＢＥＧＩＮ、ＥＡＳＴ、ＥＮＤ、ＥＸＩＴ、ＬＩＭＩＴ、ＮＯＲＴＨ、ＯＮＬＹ、ＲＯＡＤ、ＳＯＵＴＨ、ＳＰＥＥＤ、ＳＴＯＰ、ＷＥＳＴ；合計５２文字）を生成した。

各単語の画像はデジタルカメラで３種類の角度から撮影した。画像の縦幅、回転角度θ、傾き角度ψのおおよその値を表３に示す。各文字パターンを上記項目３．１で述べたアルゴリズムで認識した。

デジタルカメラで撮影した画像と正規化した画像をそれぞれ図９（ａ）と図９（ｂ）に示す。図９（ｂ）では、抽出した文字部分と影の部分だけを示す。図９（ｂ）から、文字パターンはアフィン変換ではなく、実際には射影変換を受けていることがわかる。

認識精度を表５に示す。表中の“従来法”は付加情報を用いないときの結果である。付加情報を用いることで全てのフォントで精度が大幅に改善されたことから、この発明の有効性が確認された。

特にＴｉｍｅｓフォントのパターンでは、従来法と提案手法の違いが大きかった。Ｔｉｍｅｓフォントの文字パターンは構造が複雑で、アフィン変換のパラメータを正しく検出することができなかったため、従来法の認識精度が高くなかった。それに対して、抽出した付加情報が効果的に働いたため、この発明の文字認識方法による認識精度はそれほど低くなっていない。

４．文字パターン生成装置
この発明に係る文字パターンを生成する文字パターン生成装置について説明する。図１０は、この発明による文字パターン生成装置の構成例を示すブロック図である。図１０に示すように、文字パターン生成装置は、文字入力部１１、付加情報格納部１３、付加情報取得部１５および文字パターン生成部１７から構成される。

文字入力部１１は、生成すべき文字が入力される部分である。付加情報格納部１３は、各文字に対して予め定められた付加情報を格納する部分である。付加情報取得部１５は、入力された文字に応じた付加情報を付加情報格納部１３から取得する部分である。パターン生成部１７は、付加情報取得部１５が取得した付加情報に応じた面積比をもつ文字パターンを生成する部分である。

付加情報格納部１３に格納された付加情報は、例えば、前記項目２．３の手法により決定された表３の値である。入力部は、例えば、ホストとしてのコンピュータから印字すべき文字が入力される。入力部への入力は、例えば、ページ記述言語などの形態で与えられる。付加情報取得部１５は、ページ記述言語に記述された各文字の文字コードに応じた付加情報を付加情報格納部１３から取得する。

例えば、付加情報を文字部分と影の部分の面積比として埋め込む場合、文字パターン生成部１７は、取得された付加情報に応じた面積比の影が付いた文字パターンデータを生成する。

文字パターン生成装置の具体的な態様の一例は、図１０の各部の機能を備えたプリンタコントローラである。付加情報取得部１５、文字パターン生成部１７の機能は、例えば、プリンタが有するマイクロコンピュータを用いて実現される。文字入力部１１は、入力回路で実現される。付加情報格納部１３は、ＲＯＭあるいはＨＤＤなどの記憶装置によって実現される。プリンタコントローラは、生成した文字パターンをプリンタに印字させる。

５．文字認識装置
この発明に係る文字認識装置について説明する。図１１は、この発明による文字認識装置の構成例を示すブロック図である。図１１に示すように、文字認識装置は、画像入力部３１、形状抽出部３３、付加情報算出部３５、文字認識部３７、認識結果出力部３９から構成される。

画像入力部３１は、例えばカメラで撮影されてデジタル化された画像データが入力される部分である。形状抽出部３３は、入力された画像データに、この発明に係る文字パターンが含まれているかどうかを判断し、含まれている場合に、その文字パターンの第１パターンと第２パターンとを抽出する。付加情報算出部３５は、抽出された第１パターンと第２パターンの面積を求め、その面積比から付加情報を算出する部分である。文字認識部３７は、入力された画像データから文字認識処理を行う部分であって、認識処理には、算出された付加情報が補助として用いられる。認識結果出力部３９は、認識した結果を出力する部分である。

文字認識装置の具体的な態様の一例は、パーソナルコンピュータと、そのＣＰＵが実行するプログラムとによって実現される。画像データが入力される入力回路部によって画像入力部３１が実現され、ＣＰＵの処理によって、形状抽出部３３、付加情報算出部３５および文字認識部３７の機能が実現される。また、ディスプレイなどの表示装置によって、認識結果出力部３９の機能が実現される。

なお、実施形態においては、２種類の領域の面積を算出し、その比をアフィン変換量として用いたが、例えば、文字パターン、輪郭、影のように、３種類の面積を用いることにより、射影不変量を算出することも考えられる。

最後に、前述した実施の形態の他にも、この発明について種々の変形例があり得ることは明らかである。そのような変形例は、この発明の特徴及び範囲に属さないと解釈されるべきものではない。本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更とが含まれることが意図される。

面積比を用いて付加情報が埋め込まれたこの発明に係る文字パターンの種々の形態を示す説明図である。アフィン変換を受けたこの発明に係る文字パターンの一例を示す説明図である。この発明に係る文字パターンの文字部分がアフィン変換による種々の変換うけたものを示す説明図である。この発明に係る文字パターンが図３に示す変換を受けた場合の面積比の誤差を示すグラフである。この発明に係る各文字パターンに同じ長さの影を付けたときの文字部分と影の部分の面積比を示すグラフである。この発明に係る文字パターンの４種類のフォントの例を示す説明図である。この発明の文字認識方法による処理の一例を示すブロック図である。図７の正規化を文字画像に適用する手順を示す説明図である。図７の処理の適用例として、デジタルカメラで撮影した画像と正規化した画像を示す説明図である。この発明による文字パターン生成装置の構成例を示すブロック図である。この発明による文字認識装置の構成例を示すブロック図である。環境中の文字がカメラで撮影され射影変換を受けた従来の文字パターンの一例を示す説明図である。

符号の説明

１画像入力処理
２正規化処理
３類似度計算処理
４付加情報（埋め込み情報）抽出処理
５出力処理

Claims

文字形状の全部または一部の特徴部分を構成する基本形状パターンとその基本形状パターンを修飾する修飾パターンからなる文字パターンに字種を識別するための文字認識用情報を付与する方法が、
前記基本形状パターンの面積に対する前記修飾パターンの面積比を、付与する情報に応じた固有の割合にするものであり、
前記修飾パターンは、影または輪郭線のパターンであることを特徴とする付加情報付き文字パターンの生成方法。
前記修飾パターンが影のパターンであり、付与する情報に応じて影の長さが設定される請求項１に記載の文字パターン生成方法。
前記修飾パターンが輪郭線であり、付与する情報に応じて輪郭線の太さが設定される請求項１に記載の文字パターン生成方法。
前記付加情報が、各文字の基本形状パターンに同じ長さの影を付加したときの前記基本形状パターンに対する影の面積比に基づいてその値が決定される請求項２に記載の文字パターン生成方法。
前記付加情報が、各文字の基本形状パターンに同じ太さの輪郭線を付加したときの前記基本形状パターンに対する輪郭線の面積比に基づいてその値が決定される請求項３に記載の文字パターン生成方法。
前記付加情報が、各文字パターンがアフィン変換を受けたときの前記面積比の誤差を考慮してその値が決定される請求項４または５に記載の文字パターン生成方法。
請求項１の方法により生成された文字パターンを読み取り、
読み取ったパターンから基本形状パターンと修飾パターンとを抽出し、
抽出された基本形状パターンと修飾パターンとの面積比を求め、
求めた面積比から付加情報を得、
得られた付加情報を用いて文字を認識する文字認識方法。
前記パターンの読み取りが、カメラによる撮影である請求項７記載の文字認識方法。
文字を入力する文字入力部と、
各文字に対して字種を識別するための文字認識用付加情報を格納する付加情報格納部と、
入力された文字に応じた付加情報を付加情報格納部から取得する付加情報取得部と、
付加情報に応じた面積比の基本形状パターンとその基本形状パターンを修飾する修飾パターンとを含む文字パターンを生成する文字パターン生成部とを備え、
前記修飾パターンは、影または輪郭線のパターンであることを特徴とする文字パターン生成装置。
請求項９に記載の文字パターン生成装置により生成された文字パターンの画像を入力する画像入力部と、
入力された画像から基本形状パターンと修飾パターンとを抽出する形状抽出部と、
抽出された基本形状パターンと修飾パターンの面積比から付加情報を算出する付加情報算出部と、
算出された付加情報を用いて文字を認識する文字認識部と、
認識結果を出力する認識結果出力部とを備える文字認識装置。