JP4271428B2

JP4271428B2 - 文字認識方法および文字認識装置

Info

Publication number: JP4271428B2
Application number: JP2002331726A
Authority: JP
Inventors: 修志久
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2002-11-15
Filing date: 2002-11-15
Publication date: 2009-06-03
Anticipated expiration: 2022-11-15
Also published as: JP2004164469A

Description

【０００１】
【発明の属する技術分野】
本発明は、文字認識方法に適用して有効な技術に関する。
【０００２】
【従来の技術】
紙媒体や景色の中から得られた文字情報を情報処理システムが文字パターンとして正確に認識する技術が必要とされている。
【０００３】
たとえばビデオカメラやデジタルカメラ等で街中の風景等を撮像した画像に存在する文字画像や、複写機での複写やファクシミリを介した書類上に印刷された文字画像では文字パターンがにじみやぼけが原因で肥大した文字線に含まれてしまい、従来の文字パターン認識にとって必須となる内部や外部の輪郭線が失われてしまうことが多かった。
【０００４】
ところで、文字パターンの認識技術としては、第１にメッシュ特徴量に基づく認識方法、第２にペリフェラル特徴量に基づく認識方法、第３に方向線素を用いた認識方法等が挙げられるが、以下これらの技術を図１乃至図１４を用いて説明する。
【０００５】
図１は、メッシュ特徴量について説明した図である。
メッシュ特徴量とは、画像各部分の文字と背景の面積比、すなわちメッシュ特徴量によって文字パターンの認識を行う。より具体的には、入力文字画像を横８×縦８の６４ブロックに分割し、各ブロック毎に文字と背景の面積比を算出する。こうして求められる６４次元ベクトルをメッシュ特徴量という。
【０００６】
しかし、メッシュ特徴量は、文字と背景の面積比を表わす特徴であるため、文字の輪郭線の方向は表現することができないという欠点があった。つまり、ブロック毎の面積比に大きな差が出ない場合、たとえば人の目では形状が異なって見えていても、メッシュ特徴量はほとんど同じになってしまうことがあった。たとえば図２に示した例では、漢字の「徴」と「微」に対するメッシュ特徴量を比較しているが、これら２つの文字のメッシュ特徴量は酷似しているので、類似度は０.９９と極めて高い値になり、「徴」と「微」の区別が困難であることを示している。
【０００７】
つまり、「徴」や「微」の文字画像を入力した場合には、類似度の差よりもノイズやフォントの違いによる差の影響で誤認識を起こし、その結果、認識率が低下してしまうという問題があった。
【０００８】
図３は、ペリフェラル特徴量について説明した図である。
ペリフェラル特徴量とは、文字周辺部の面積に着目した特徴量である。入力文字画像の外枠をそれぞれ８分割し、分割された外枠から水平(または垂直)方向にスキャンし、最初に遭遇する文字部までの余白の面積を１次ペリフェラル、２度目にぶつかる文字部までの面積(余白、文字線)を２次ペリフェラルという。
【０００９】
ここで、全ての外枠(８×４＝３２方向)に対して１次ペリフェラルと２次ペリフェラルを算出すると、３２×２＝６４次元のベクトルを得る。これをペリフェラル特徴量という。
【００１０】
ところで、ペリフェラル特徴量は、画像上をスキャンして文字部に遭遇するまでの面積を特徴量にしているので、遭遇した文字部の詳細な形状についての情報が得られないという欠点がある。つまり、文字部に遭遇するまでの位置がほとんど同じ場合には、たとえば人の目には形状が異なっていても、ペリフェラル特徴量はほとんど同じになる。
【００１１】
たとえば、図４の例では、「宇」と「字」に対してペリフェラル特徴量を抽出している。文字部に遭遇する位置がほとんど同じであり、ペリフェラル特徴は酷似している。そのため、「宇」と「字」の類似度は０.９９と極めて高くなり、区別できないことを示している。
【００１２】
つまり、「宇」や「字」の文字画像を入力した場合には、類似度の差よりもノイズやフォントの違いによる差の影響で誤認識を起こし、その結果、認識率が低下してしまうという問題があった。
【００１３】
以上のようなメッシュ特徴量やペリフェラル特徴量に基づく認識が十分ではないことから方向線素を用いた文字認識が注目されている。
【００１４】
図５は、方向線素を用いた文字認識の処理手順について概略的に説明した図である。
ここでは、まず、入力文字画像から方向線素パターンを抽出した後、方向線素特徴ベクトルを算出し、次いでデータベースに登録されている全ての標準ベクトルとの類似度を計算する。そして、類似度が最大となる文字を認識結果として出力するものである。
【００１５】
この方向線素を用いた処理手順をさらに詳細に示したものが図６である。
同図では、方向線素を用いた文字認識のデータと処理の流れを説明している。
同図において、まず第１に、「文字画像を含んだ撮像対象」を「撮像部」が取得し、「文字画像を含んだ画像データ」を生成する。
【００１６】
同図中、「文字画像抽出部」は、「文字画像を含んだ画像データ」から「正規化された一文字画像」を生成する機能部である。また、「方向線素パターン抽出部」は、「正規化された一文字画像」から「文字画像の方向線素パターン」を抽出する機能部である。
【００１７】
さらに、「方向線素特徴ベクトル算出部」は「方向線素パターン」から「方向線素特徴ベクトル」を算出する機能部である。
【００１８】
「標準パターンとの類似度演算部」は、「方向線素特徴ベクトル」と「標準ベクトルＤＢ」から得られる「標準ベクトル」との「類似度」を計算する。そして、「出力部」は、「類似度」が最大となる文字を「認識結果」として適当な形式で出力する。
【００１９】
「方向線素」は幅１ドットの線画を構成する画素に着目した時、どの向きの線分に属するかを判定する技術である。
どの向きの線分に属するかは、着目画素とその周囲の画素の位置関係から決まる。ここで、図７（ａ）は、着目画素の上下に画素が存在しており、着目画素は縦線の一部を構成していることがわかる。つまり、この中心画素は縦方向線素に分類される。
【００２０】
縦方向線素と同様に、周囲の画素との位置関係により、横方向線素、＋４５°方向線素、−４５°方向線素が存在する（図７の（ｂ)、（ｃ）、（ｄ））。
【００２１】
ところで、方向線素を利用するには幅１ドットの線画像が必要になる。文字認識の場合には、入力文字画像の輪郭線に着目して方向線素を利用する。ここでいう輪郭線とは、文字と背景の境界線を意味している。輪郭線には、文字線で囲われない開いた背景領域との境界線である「外部輪郭線」と、文字線で囲まれる閉じた背景領域との境界線となる「内部輪郭線」の２種類に分類される。
【００２２】
内部輪郭線は、他の内部輪郭線と近接していることが多く、劣化による文字のつぶれによって失われやすい傾向がある。
【００２３】
外部輪郭線には、最も外側に位置する「つぶれにくい外部輪郭線」と、他の外部輪郭線と近接する「つぶれやすい外部輪郭線」の２種類に分けられる。これを具体例で示したものが図８である。同図では、「温」の漢字を例に、つぶれやすい内部輪郭線と外部輪郭線の箇所を示している。
【００２４】
図９は、方向線素パターン抽出方法について説明している。すなわち図５で示した「方向線素パターンの抽出処理」を具体的に示したものである。
方向線素パターンとは、各方向線素が画像中のどこに分布するかを示すパターンである。この処理では、図８で述べたように、認識対象となる文字の輪郭線から方向線素パターンを抽出する。
【００２５】
そして、輪郭線上の各画素に着目し、周囲の画素との位置関係から４方向のいずれかに分類し、分類された方向の方向線素パターンにマッピングする。そして、輪郭線上の全ての画素について分類を実施すると、文字の輪郭線に対する、縦（図９の（ａ））、横（図の（ｂ））、＋４５°（図の（ｃ））、−４５°（図の（ｄ））の４種類の方向線素パターンが抽出される。
【００２６】
図１０は、前述で抽出された方向線素パターンに基づいた方向線素特徴ベクトルの算出方法について説明した図である。
入力文字画像を１６×１６画素のブロックに分割し、ブロック毎、線素方向毎に前記で得られた方向線素パターンの重み和を求める。それらを順に並べてベクトル化したものを「方向線素特徴ベクトル」という。
【００２７】
ここで、重み和は、方向線素パターンの各画素の値に、重みテーブルで定義される重みを乗じたものの総和である。この重み和は、方向線素がブロックの中心に分布すると高くなり、ブロックの端に分布すると低くなる性質を持っている。つまり、方向線素特徴ベクトルは、ブロック毎の主要な方向線素の分布を示しており、輪郭線の形状の情報を保存する特長がある。
【００２８】
ところで、従来の文字認識技法であるメッシュ特徴量やペリフェラル特徴量では、文字の詳細な形状についての情報が無い。そのため、図２または図４で示したような、大体の形状が類似して認識が困難な文字の組み合わせが多く存在する。
【００２９】
これに対して、方向線素特徴量を利用すると、文字の詳細な形状を表現できるため、メッシュ特徴やペリフェラル特徴では識別することができなかった文字を識別することが可能になる。
【００３０】
この方向線素特徴量を用いた認識技法の優位性を示したものが図１１である。同図の認識対象文字である「徴」と「微」の例では、メッシュ特徴量による類似度は０.９９と極めて高いが、方向線素特徴量による類似度は０.９０と下がっていることがわかる。「宇」と「字」に関しても同様の状態になっている。
【００３１】
つまり、メッシュ特徴量やペリフェラル特徴量では区別できなかった文字が、方向線素特徴量では区別できるようになっていることがわかる。
【００３２】
この類似度の差が認識率に与える影響について説明したものが図１２である。
文字認識は、あるフォントから算出した標準特徴量と、入力文字画像から算出した特徴量との間で類似度を算出し、類似度が最も高くなる文字種を認識結果とするのが一般的である。入力文字画像には、フォントの違い、正規化する際の誤差、その他のノイズなどにより、同じ文字画像でも数パーセント程度の誤差が入る。よって、算出する類似度は±数パーセントの幅を持つことになる。たとえば、「宇」と「字」の類似度０.９９の場合（図１２の（ａ））、入力文字画像「宇」に対して、「宇」の標準特徴量との類似度は、１〜０.９５程度となる。一方、「字」の標準特徴量との類似度も、１〜０.９５程度の値となってしまう。つまり、入力文字画像「宇」が、「宇」と認識される可能性（出現率）と「字」と認識される可能性がほぼ同じになってしまい、認識率の低下を招く。
【００３３】
一方、「宇」と「字」の類似度０.９２の場合（図１２の（ｂ））、入力文字画像「宇」に対して、「宇」の標準特徴量との類似度は、１〜０.９５程度となる。一方、「字」の標準特徴量との類似度は、０.９７〜０.８７程度となる。
つまり、「宇」の出現率が上がり、「字」の出現率が下がるため、誤認識が減り、認識率が維持されることになる。
【００３４】
次に、図１３を用いて本発明が対象としているつぶれ文字について説明する。
文字には、文字画像の劣化の程度を示す「文字品質」が定義される。フォントに近いほど文字品質は高い。逆にフォントからかけ離れるほど文字品質は低い。
【００３５】
文字を撮像した機器や環境が良好な場合、文字フォントのような高品質の文字画像を取得することができる。
【００３６】
一方、撮像した機器の性能が低かったり撮像環境が劣悪な場合で取得した場合、文字線がつぶれてにじんだり、かすれてなくなるような低品質の文字画像になってしまう。
【００３７】
本発明は、低品質の文字画像のうち、つぶれ（特に輪郭線が失われてしまうようなひどいつぶれ）文字を対象としたものである。
【００３８】
このつぶれ文字によって方向線素特徴量を用いた文字認識の認識率が低下してしまう問題のあることが本発明者によって見出された。
【００３９】
このことを図１４を用いて説明する。
まず認識対象となる入力文字につぶれが生じている場合、前述のように文字毎のつぶれやすい内部・外部輪郭線が失われている。この輪郭線が失われた状態で方向線素特徴量を算出すると、つぶれにくい外部輪郭線の情報だけを利用せざるを得ないことになる。つまり、つぶれにくい外部輪郭線が類似する文字同士の識別能力が下がってしまう。
【００４０】
図１４ではつぶれ文字「温」を入力した場合を示している。
同図では、パターンマッチングの結果、つぶれにくい外部輪郭線が類似した「漫」「遍」「温」「濃」「涙」の５つの文字が候補に上がっている。
【００４１】
つぶれて失われた輪郭線の影響で、類似度は０.７台の低い値になり、識別が困難な状態である。この状態で無理に認識結果を抽出すると、類似度が最大となる「漫」が認識結果として出力され、誤認識となる。
【００４２】
このように、方向線素特徴量を用いた文字認識を、つぶれ文字に対して適用すると、つぶれにくい外部輪郭線が類似する文字同士を誤認識することが多くなり、認識精度が低下してしまうという欠点がある。
【００４３】
以上のように、文字のつぶれによって方向線素特徴量を用いた認識が困難であることがわかった。
【００４４】
すなわち、情景画像内に含まれる文字画像を、従来の方向線素特徴量を用いた方式で文字パターン認識を行うと、比較的つぶれにくい外部輪郭線の情報だけを利用せざるを得なくなるため、外部輪郭線が類似する文字同士の認識率が低下してしまうという問題が残ったのである。
【００４５】
この点について、特開平１１−１９１１３７号公報（特許文献１）では、入力文字画像のつぶれを検出し、検出されたつぶれに対応して、入力文字画像から抽出された特徴を補正し、補正後の特徴と特徴マッチングのための辞書のモデルとの間でマッチングをとる技術が提案されている。
【００４６】
また、特開１９９５−３０２３０３号公報（特許文献２）では、文字識別部に於ける識別部から出力される候補文字のうち、必要なものについては整形部においてその特定部位のパターンをその文字に適した方法で整形を行なった後、入力画像切り換え部で入力画像を切り換えて、整形後の画像データから再度特徴抽出を行なう技術が提案されている。
【００４７】
【特許文献１】
特開平１１−１９１１３７号公報
【特許文献２】
特開１９９５−３０２３０３号公報
【００４８】
【発明が解決しようとする課題】
しかし、前記特許文献１は、つぶれによって失われた特徴を補正して単にパターンを修正する技術であり、内部輪郭線が全く失われてしまっているようなつぶれに対しては補正が困難であり認識が不可能であった。
【００４９】
また、前記特許文献２は、要するにつぶれやかすれ等で情報が失われている場合に有効な情報を残している箇所だけを利用して正確な認識を試みる技術であるが、つぶれやかすれが大きくなると利用できる情報が少なくなり、認識精度も下がってしまうという問題があった。
【００５０】
本発明はこのような点に鑑みてなされたものであり、あらかじめ用意した平均方向線素パターンを用いて、つぶれ領域内の失われた外部・内部輪郭線の方向線素パターンを復元し、原画像の方向線素パターンに補完することによって、つぶれ文字を高精度に認識することを技術的課題とする。
【００５１】
【課題を解決するための手段】
本発明は、前記課題を解決するために以下の手段を採用した。
すなわち、つぶれ領域を含む入力文字画像から文字認識を行う方法であって、前記入力文字画像から方向線素パターンを抽出するステップと、各文字の平均的な方向線素パターンを示す画像データである平均方向線素パターンが格納されているデータベースから、文字候補の平均方向線素パターンを読み出すステップと、前記入力文字画像から抽出された方向線素パターンに対し、前記文字候補の平均方向線素パターンを用いて前記つぶれ領域内の方向線素パターンを補完するステップと、補完された方向線素パターンから方向線素特徴ベクトルを算出し、該方向線素特徴ベクトルと前記文字候補の標準ベクトルとから前記入力文字画像と前記文字候補の類似度を評価するステップと、を含む文字認識方法である。
【００５２】
このように、本発明ではつぶれ処理を行い、このつぶれ処理の中で領域を指定しその中から方向線素パターンの抽出、補完を行うことにより、失われた輪郭線の情報を正確に復元することができ、つぶれ文字を高精度に認識することが可能となる。
【００５３】
【発明の実施の形態】
本発明の実施の形態を説明する前に、本発明の概念を説明する。
図１５は、本発明の文字認識の流れを説明する図である。
本発明は方向線素特徴量を用いた文字認識をベースとしており、図５で示した処理の流れに、「つぶれやすい内部・外部輪郭線の方向線素パターンの補完」の手順を加えたものになっている。
【００５４】
まず、入力文字画像から方向線素パターンを抽出する。この方向線素パターンの抽出処理は、図９で説明した処理に基づいて行われる。
【００５５】
次に、抽出された方向線素パターンから方向線素特徴ベクトルを算出する。この処理は、図１０で説明した通りである。
以上のようにして算出された方向線素特徴ベクトルを文字候補の標準ベクトルと比較して類似度を計算する。類似度の判定は図１４に示したような処理によって行う。
以上の処理は、従来技術で説明した処理である。
【００５６】
次に、本発明ではつぶれ判定を行う。つぶれ判定は「図形の線幅」や「類似度」等の特徴量を用いて行い、つぶれの程度が判定できるものであれば、その手法は問わない。このつぶれ判定はつぶれ度合いが一定以上であるか否かにより方向線素パターン補完処理を行うか否かを判断するステップである。
【００５７】
方向線素パターン補完処理では、まず、入力文字画像からつぶれ領域を検出する。次に、文字候補のつぶれ領域内の方向線素パターンを抽出する。次に、文字画像から抽出した方向線素パターンに、つぶれ領域内の方向線素パターンを補完する。そしてこの補完した方向線素パターンから方向線素特徴ベクトルを求める。そして最後に、求めた方向線素特徴ベクトルと、文字候補の標準ベクトルとの類似度を計算し、最も類似度が高くなる文字候補を認識結果として出力するものである。
【００５８】
本発明は、失われた「つぶれやすい内部・外部輪郭線」の方向線素パターンを復元することにより、つぶれ文字を高精度に認識することである（図１６参照）。すなわち、本発明ではまず、つぶれ文字画像に残存している、「つぶれにくい外部輪郭線」から方向線素パターンを求める。次に、あらかじめ用意した平均方向線素パターン辞書から、失われた「つぶれやすい内部・外部輪郭線」を求め、その方向線素パターンを抽出する。そして、「つぶれにくい外部輪郭線」からの方向線素パターンに、「つぶれやすい内部・外部輪郭線」方向線素パターンを補完する。最後に、補完した方向線素パターンから方向線素特徴量を求め、文字認識を行う。図１６の平均方向線素パターンデータベース（ＤＢ）には、つぶれやすい文字パターンを方向線素パターンとして格納している。
【００５９】
図１７は、本発明の実施形態の文字認識装置のハードブロック図である。
同図において、「HM入出力部」は、本装置の「利用者」と種々のやり取りをするための入出力機能を持つ部位である。キーボード、スイッチ、タッチパネル、モニターなど、利用者と本機器の間で情報を伝達するものであればその種類は問わない。
【００６０】
「撮像部」は、カメラやスキャナなどの撮像装置で文字を含んだ画像を撮影し、画像データに変換する機能を持つ部位である。この撮像部には、デジタルビデオカメラ、デジタルスチルカメラ、イメージスキャナ、ファクシミリ、複写機等が接続可能であり、これらの撮像画像を画像データに変換し本装置に入力する機能を有している。なお、「文字を含んだ画像データを取り込む機能」を有していればよく、前記カメラやスキャナのような撮像機器によって実在する風景や文書を撮像し、CPUなどの演算装置が扱えるデジタルデータに変換して格納する機能や、通信によって外部からデジタルデータを受信し格納する機能を有していればよい。
【００６１】
「演算部」は、各機能を（プログラムを実行することによって）駆動、処理するための演算機能を持つ部位である。一般にCPU（中央演算装置）で構成される。
【００６２】
「メモリ部」とは、「演算部」がプログラムを実行する実行エリアの部位である。
「ＤＢ管理部」とは、各種記憶媒体と記憶媒体上のデータの入出力を制御する機能を持つ部位である。記憶媒体としては、たとえばハードディスク、フロッピー（登録商標）ディスク、CD-ROM, CD-R、磁気カード、ICカードなどである。
【００６３】
「処理プログラム」とは、本装置が利用目的を達成するために必要なプログラムのことであり、OS（オペレーティングシステム）もここに含まれる。
「標準ベクトルＤＢ」は、文字認識に利用する全文字種の標準ベクトルを格納するデータベースである。
【００６４】
「平均方向線素パターンＤＢ」は、全文字種の平均方向線素パターンを格納するＤＢである。このパターンから、つぶれ領域内の方向線素パターンを生成する。
なお、同図に示す構成は一例にすぎず、目的や必要な機能に応じて構成を変えてもよい。
【００６５】
本実施形態におけるつぶれ文字認識装置の各機能は、主に処理プログラムがメモリ部を経て演算部に読み込まれて実行されることにより実現されている。
【００６６】
図１８は、本実施形態の各処理部の関連を示す説明図である。
同図に示し処理部群は、図６で説明した処理部群に、破線部分を追加したものである。
図６でも説明したように、「撮像部」は「文字領域を含んだ撮像対象」の画像を撮像してデジタル信号に処理する機能を有している。
「文字画像抽出部」は、「文字画像を含んだ画像データ」から「正規化された一文字画像」を生成する機能部である。
【００６７】
「方向線素パターン抽出部」は、「正規化された一文字画像」から「文字画像の方向線素パターン」を抽出する機能を有している。
【００６８】
「方向線素特徴ベクトル算出部」は、「方向線素パターン」から「方向線素特徴ベクトル」を算出し、これによって得られた「方向線素特徴ベクトル」に対して「標準パターンとの類似度演算部」が、「標準ベクトルＤＢ」から得られる「標準ベクトル」との「類似度」を計算するようになっている。
【００６９】
本実施形態では、さらに以下の処理を実行する機能部が追加されている。
図１８において、「つぶれ判定部」は、「図形の線幅」や「類似度」等の特徴量を用いて、入力文字がつぶれているかどうかを判定する機能を有している。
【００７０】
ここで、入力文字がつぶれていないとの判定を行った場合には、「出力部」から最大類似度の文字を「認識結果」として適当な形式で出力する機能を有している。そして、当該入力文字がつぶれを生じているとの判定を行った場合、「つぶれ判定部」は、類似度上位Ｋ個の文字候補を抽出し、「つぶれ領域検出部」を起動する。ただし、Ｋは適当な定数（整数）である。
【００７１】
「つぶれ領域検出部」は、「正規化された一文字画像」から「つぶれ領域マスク」を生成する機能を有している。
【００７２】
「つぶれ領域内の方向線素パターン抽出部」は、「平均方向線素パターンＤＢ」から読み出した「平均方向線素パターン」に前記の「つぶれ領域マスク」を重ね合わせ、その論理積により、文字候補毎に「つぶれ領域の方向線素パターン」を抽出する機能を有している。
【００７３】
「方向線素パターン補完部」は、前記で抽出された「つぶれ領域の方向線素パターン」を「入力画像の方向線素パターン」に補完し、文字候補毎に「補完された方向線素パターン」を合成する機能を有している。
【００７４】
次に、このようにした得られた「補完された方向線素パターン」は再度「方向線素ベクトル算出部」に入力されるようになっている。
なお、いずれの処理部も、「演算部」が「処理プログラム」を読み込むことによって実現されている。
【００７５】
以上の処理部によって実現される機能を時系列的に示したものが図１９のフロー図である。
また、図２０は、当該機能によって実現される具体的な処理手順を示すフロー図である。
【００７６】
以下、図２０のフロー図に基づいて説明する。
まず、「演算部」は「撮像部」からの割り込み信号の有無により、文字領域を含む画像を取得したか否かを判定する。
そして、「文字画像を含んだ画像データ」から「正規化された一文字画像」を抽出する処理を行うと（文字画像抽出部）、この「正規化された一文字画像」から「文字画像の方向線素パターン」が抽出される（方向線素パターン抽出部）。
【００７７】
次に、前記「文字画像の方向線素パターン」より「方向線素特徴ベクトル」が算出される（方向線素特徴ベクトル算出部）。
【００７８】
次に、「標準ベクトルＤＢ」より「標準ベクトル」が読み出されて、前記「方向線特徴ベクトル」と比較されてその類似度が算出される（標準パターンとの類似度演算部）。
【００７９】
次に、「つぶれ判定部」が、「図形の線幅」や「類似度」などの特徴量を利用して当該入力文字がつぶれているかいないかを判定する。ここで、入力文字がつぶれていないとの判定を行った場合には、「出力部」を通じて最大類似度の文字を「認識結果」として適当な形式で出力する。
【００８０】
一方、「つぶれ判定部」において当該入力文字がつぶれているとの判定を行った場合には、「つぶれ判定部」は、類似度上位Ｋ個の文字候補を抽出し、「つぶれ領域検出部」を起動する。
【００８１】
「つぶれ領域検出部」では、「正規化された一文字画像」から「つぶれ領域マスク」を生成する。
【００８２】
次に、「平均方向線素パターンＤＢ」から「平均方向線素パターン」を読み出して、これを前記「つぶれ領域マスク」と重ね合わせその論理積により当該文字の文字候補に対して「つぶれ領域の方向線素パターン」を抽出する（つぶれ領域内の方向線素パターン抽出部）。
【００８３】
次に、前記で抽出された「つぶれ領域の方向線素パターン」を「入力画像の方向線素パターン」に補完し、文字候補毎に「補完された方向線素パターン」を合成する（方向線素パターン補完部）。
次に、この「補完された方向線素パターン」に基づいて、「方向線素特徴ベクトル」を算出する（方向線素ベクトル算出部）。
【００８４】
以上の「方向線素特徴ベクトル」の算出を類似度上位Ｋ個の文字候補のそれぞれについて実行し、候補文字毎に「標準ベクトルＤＢ」から読み出した「標準ベクトル」と比較されてそれぞれの類似度が算出される。
そして、最終的に類似度が最大となった文字を「出力部」から出力して処理を終了する。
【００８５】
図２１は、「平均方向線素パターンＤＢ」に格納される「平均方向線素パターン」の生成方法を説明するための図である。
同図では平均方向線素パターンの作り方について説明する。ただしこれは一例にすぎず、目的とする結果が得られるのであれば処理方法を変えてもよい。
【００８６】
平均方向線素パターンとは、フォントの種類や文字のサイズによらない平均的な線素パターンである。
【００８７】
平均方向線素パターンは、文字認識に必須の標準ベクトル作成する過程から作成することができる。図２１は、漢字の「温」を例にした手順である。
【００８８】
（手順１）ある文字（ここでは「温」）の、Ａ種類のフォント、Ｂ種類のサイズの文字を、Ｃ種類のプリンタで印刷した、全（Ａ×Ｂ×Ｃ）個の文字サンプルを用意する。
【００８９】
（手順２）各文字サンプルから方向線素パターンを抽出する。この方向線素パターンは、画像データであり、ＶＲＡＭに展開可能な形式である。
【００９０】
（手順３）次に、各方向線素パターンから方向線素特徴ベクトルを算出し、それらの（Ａ×Ｂ×Ｃ）個の平均を算出すると、標準ベクトルが求まる。これを標準ベクトルＤＢに格納する。このときの方向線素特徴ベクトルの算出方法については図１０で説明した通りである。
【００９１】
（手順４）前記手順２で求めた方向線素パターンの（Ａ×Ｂ×Ｃ）個の平均を算出して平均方向線素パターンが得られる。これを平均方向線素パターンＤＢに格納する。同図に示すようにこの平均方向線素パターンも画像データである。
【００９２】
（手順５）以上の手順１〜４を全字種に対して行う。
同図では、ゴシック、明朝、楷書体の３種のフォントを、６、８、１０、１２、１４ポイントの５種類のサイズで、２種のプリンタを用いて印刷して作成した、計３０個の文字「温」のサンプルから、平均方向線素パターンと標準ベクトルを求めている様子を模式的に示している。
【００９３】
同図で示した書体（ゴシック体、明朝体、楷書体）や文字の大きさ（特に６ポイントと１４ポイント）は、これに限定されないことは勿論であるが、社会生活の中で最も用いられているのがこれらの書体であり、文字の大きさとしても一般的な新聞、雑誌や看板等の風景中に存在する文字の最大・最小値として一例を挙げたに過ぎない。
【００９４】
次に、図２２によって具体的な「温」の文字認識例を説明する。
つぶれの生じている入力文字画像「温」（図の（ａ））が入力されると、つぶれにくい外部輪郭線の方向線素パターンが抽出される（図の（ｂ））。
【００９５】
一方、入力文字画像からはつぶれ領域が検出される（図の（ｃ））。
このつぶれ領域で、「温」の平均方向線素パターン（図の（ｄ））をマスキングすると、つぶれやすい内部・外部輪郭線の方向線素パターンが求まる（図の（ｅ））。
【００９６】
次に、つぶれにくい外部輪郭線の方向線素パターンと、つぶれやすい内部・外部輪郭線の方向線素パターンとを重ね合わせると、補完された方向線素パターンが合成される（図の（ｆ））。
【００９７】
そして、この補完された方向線素パターンから求めた方向線素特徴ベクトル（図の（ｇ））と、「温」の標準ベクトル（図との（ｈ））の類似度を計算する。その結果、入力文字画像と漢字の「温」との類似度は０．９７と判定されている。
【００９８】
図２３は、方向線素パターン抽出処理の具体例を説明する図である。
前記図２２で行われる方向線素パターン抽出処理の具体例について説明する。ただこれは一例にすぎず、目的とする結果が得られるのであれば処理方法を変えてもよい。
【００９９】
まず、３×３ドットのマスク（図の(ａ)）を用意し、画像の左上から右下方向へと１ドットずつ右にずらしてマスクを移動させる。マスクを移動させる毎に、その中心画素の方向線素パターンを求めてゆく。
【０１００】
マスクの中心画素の方向線素パターンは、周囲の画素のパターンで決まる。中心の右隣から反時計周りの順に１〜８の番号を各画素に振る。画素が文字領域であれば１、背景であれば０を割り当て、１〜８の順に並べた１、０のビット列をマスクパターンとする。
【０１０１】
求めたマスクパターンで、マスクパターンに対する方向線素の値を定義した方向線素テーブル(図の(ｂ））を引き、その値を各方向線素パターンにマッピングする。
【０１０２】
図２３の（ｃ）の場合、マスクパターンは１１１００００１つまり０ｘｅ１となり、この値で方向線素テーブルを引くと、縦方向線素の値は１であるので、それを縦方向線素パターンにマッピングしている。
【０１０３】
同様に図（ｄ）の場合、マスクパターンは００１０００１０つまり０ｘ４４となり、同様に方向線素テーブルから縦方向線素値２を得るので、それを縦方向線素パターンにマッピングしている。
【０１０４】
この結果、得られた方向線素パターンの具体例を示したものが図２４である。
同図は、入力文字画像（図の(ａ)）に対して縦方向の方向線素パターンを抽出した具体例である。この方向線素パターンは、つぶれにくい外部輪郭線の方向線素パターンになっている。この例（図２２および図２３）では縦方向の方向線素パターンのみを説明したが、横方向、左上がり斜方向、左下がり斜め方向の方向線素パターンもそれぞれ同様に生成できる。
【０１０５】
図２５は、つぶれ領域抽出処理の具体例を説明する図である。
前記図２２で説明したつぶれ領域の抽出処理の具体例を説明する。ただしこれは一例にすぎず、目的とする結果が得られるのであれば処理方法を変えてもよい。
【０１０６】
つぶれ領域とは、もともと輪郭線だった箇所が文字部の中に含まれて失われた箇所である。
【０１０７】
平均方向線素パターンに、入力文字画像から輪郭線を除いた文字部でマスキングを行って取り出される方向線素パターンは、文字内部に含まれている失われた輪郭線の方向線素パターンであるといる。
【０１０８】
つまり、入力文字画像から輪郭線を取り除いた文字領域をつぶれ領域とすればよい。なお輪郭線は、たとえば文字領域を１画素分細めるなどの処理によって、取り除くことができる。
【０１０９】
図２６は、つぶれ領域内の方向線素パターン抽出処理の具体例について説明する図である。
前記図２２で説明したマスキング処理の具体例について説明する。ただしこれは一例にすぎず、目的とする結果が得られるのであれば処理方法を変えてもよい。
【０１１０】
つぶれ領域と平均方向線素パターンを重ね合わせる（論理積をとる）ことでマスキング処理を行うことができる。つまり、平均方向線素パターンの各画素について、そこがつぶれ領域内であれば値を残し、つぶれ領域でなければ値を０にすることで、つぶれ内部の方向線素パターンを求めることができる。
【０１１１】
これによって得られた方向線素パターンは、つぶれやすい内部・外部輪郭線の方向線素パターンに相当する。
【０１１２】
次に、図２７を用いて本実施形態の方向線素パターンの補完処理の具体例について説明する。
前記図２２で説明した補完処理の具体例について説明する。ただしこれは一例にすぎず、目的とする結果が得られるのであれば処理方法を変えてもよい。
【０１１３】
２つの方向線素パターンの和をとることで補完処理を行うことができる。つまり、各画素について、つぶれにくい外部輪郭線の方向線素パターンの値と、つぶれやすい内部・外部輪郭線の方向線素パターンの値を和を求め、その値をその画素の方向線素パターンとすればよい。
【０１１４】
図２８は、文字候補毎の類似度計算の結果例について説明する図である。
本実施形態では、従来方法による類似度上位Ｎ個の文字を、文字候補として取り出す。この文字候補毎に図２２で説明した処理を行い、類似度が最大となる文字を認識結果として出力する。
【０１１５】
まず、従来方法で入力文字画像を認識すると、類似度上位５個の文字「漫」、「遍」、「温」、「濃」、「涙」が抽出される（図１４参照）。
【０１１６】
次に、これら５つの文字に対し図２２の処理を施すと、文字候補「温」の類似度が０.９７と最大になり、これを認識結果として出力する。
【０１１７】
従来手法であるメッシュ特徴量、ペリフェラル特徴量、単なる方向線素技法では、「漫」の類似度が最大となっていたが、本発明の手法では「温」の類似度が最大となり、正しい認識結果を得られることがわかる。
【０１１８】
次に、本発明の適用範囲について説明する。
まず、このような文字がつぶれる要因としては以下のような場面が考えられる（図２９参照）。
【０１１９】
(１).「低品質文書」
もともと文字がつぶれて印刷されている場合であり、印刷装置の不具合、印字インクの品質劣化、印刷対象紙面の品質の劣悪、経年変化による劣化等が考えられる。また、複写機による複写を繰り返して複数世代を経た文書や、ファクシミリでの転送が繰り返された文書に現れる文字もこれに該当する。
【０１２０】
(２).「解像度の低いカメラ」
３０万画素以下のトイカメラと呼ばれる低解像度のデジタルカメラや、カメラ付携帯電話等で看板や標識等の文字のある風景を撮像した場合や、マクロ撮影機能の無い固定焦点型のデジタルカメラで文書等の接写を行った場合等のように、文字の輪郭線がぼやけてにじみやすい場合がこれに該当する。また、ビデオカメラで撮像された動画から文字を含む情景を静止画として抽出した場合もこれに該当する。
【０１２１】
(３).「照明不足、色むら」
デジタルスチルカメラやデジタルビデオカメラでの撮影時に照明不足やあるいはストロボ等の過光により色むらが生じている画像からは、画像データの二値化や正規化に失敗することが多い。
【０１２２】
(４).「手ぶれ」
カメラのシャッタ時の手ぶれにより撮像した文字部分の輪郭がつぶれることがある。
【０１２３】
(５).「奥行き方向の傾き」
レンズ精度によっては、撮像画像の周囲近辺がひずむことがあり、正対するように画像を補正すると撮像された文字につぶれが生じる。
【０１２４】
本発明はこのような分野での応用に効果を発揮する。
図３０は、つぶれ文字(入力)と、本発明を用いた応用事例(出力)の関係を示す図である。
同図に示すように、本発明では、文字がつぶれた文書や画像から文字を認識することができるため、低品質文書からより精度の高い文字認識を行うことができるため、認識した文字データを用いて当該文書を高品質文書に修正することができる（図３１参照）。
【０１２５】
また、撮像条件や撮像機器によらず利用が可能なため、応用範囲を広げることができる。すなわち従来は難しいとされていた低解像度のデジタルカメラを用いた文字認識が可能となる。
そして、このようにつぶれた文字が認識できることによって、図３１に示すような応用範囲が考えられる。
【０１２６】
たとえば、前述のように低品質文書から高品質文書に修正することは勿論、汎用的に使用可能な低解像度のデジタルスチルカメラやデジタルビデオカメラの画像からでも文字が認識できることで、以下のような応用範囲が考えられる。
たとえば、外国旅行中などに、意味のわからない文字（単語）が表された看板などをカメラで撮影し、当該文字を認識し、インターネット等のネットワークを介して翻訳機能を有するサーバにアクセスして、その場で当該文字（単語）の意味を調べることができる。
【０１２７】
また、地名、人名、商品名などが印刷された看板や値札やをデジタルスチルカメラやデジタルビデオカメラで撮影し、それに関する情報をその場で調べることができる。より具体的には、駅の駅名表示板、交差点表示板、店舗の看板等を撮像して、多少の文字のつぶれが生じていても文字認識を的確に行える。
【０１２８】
また、図３１に示したように、画像中の文字から自動的に写真にタグ付けをし、検索を容易にする、いわゆる自動インデキシングを可能にしてネットワーク上での検索を容易にすることもできる。
【０１２９】
図３２は、本発明を低品質文書に適用した場合を説明する図（１）である。
低品質文書の例として、複写機の出力が挙げられる。
繰り返しコピーを行ったり、複写時の濃度が高いと、文字がつぶれる傾向がある。また、本を複写した場合、綴じてある周辺部分の文字がつぶれる傾向がある。
【０１３０】
従来の複写機では、これらの問題を解決することは困難であった。
しかし、複写機に本発明を適用することにより（具体的には文字認識装置を備えた複写装置とする）、これらの問題を解決することができる。
【０１３１】
また、ＯＣＲアプリケーションプログラムによる文字認識技術を適用することにより、従来の複写機により出力された低品質文書中の文字も読み取ることが可能になる。
【０１３２】
図３３は、本発明を低品質文書に適用した場合を説明する図（２）である。
同じような低品質文書の例として、ファクシミリ装置の出力が挙げられる。
ファクシミリ装置は、一般的に２００ｄｐｉ程度で解像度が低く、文字がつぶれてしまう傾向がある。また、文書を画像として送信するため、データ量も大きくなる傾向がある。
【０１３３】
そのため、従来のファクシミリ装置では、データ量が大きいため送信に時間がかかり、しかも読みやすい文書を出力させることは困難であった。
したがって、ファクシミリ装置の送信部に本発明の文字認識装置を適用することにより、得られた低解像度画像から文字を抽出し、文字は文字コードとして受信側のファクシミリ装置に送信することで、データ量の削減が期待できる。このとき、受信側のファクシミリ装置にも文字コードを文字フォントに変換する装置を付加することによって送信文書のより高精度な再現が可能となる。
【０１３４】
一方、ファクシミリ装置の受信部に本発明の文字認識装置を適用することにより、得られた低解像度画像から文字を抽出し、補正し該文字に対応する適正なフォントを出力することで、高精度な文書を再現することができる。
【０１３５】
図３４は、本発明を解像度の低いカメラに対して適用した例について説明する図である。
カメラ付き携帯電話に搭載されているデジタルスチルカメラは、画素数が３０万画素程度と少なく、解像度が低いものがほとんどである。このため、これらのカメラで文字画像をとると、ぼやけやにじみによって文字の輪郭線がつぶれてしまうことが頻繁に起こる。
【０１３６】
本発明を利用すると、取得した文字画像につぶれやぼやけがあっても文字を認識することが可能になり、携帯電話のカメラを文字を取得するインタフェースとして利用することができる。同図の例では、看板に現れた文字である「京都」を撮影して、本発明によって文字認識を行い、文字情報に変換している。さらに、この文字情報を利用してインターネットを検索し、「京都」近辺の情報を取得して携帯電話の表示画面に表示している。
【０１３７】
図３５は、本発明を車載カメラに適用した例について説明する図である。
車載カメラにより撮像された画像は、車の動きや振動、または奥行き深度などにより、ぶれたり、ぼけたりして劣化することが多い。
【０１３８】
このような環境で撮影された画像中の文字はつぶれる傾向にあり、文字認識が困難である。そのため、車中から撮影を行おうとした場合には、一々車を停止させてデジタルカメラを構えて撮像するか、もしくはデジタルカメラの記憶媒体から読み出した画像を、人間の目で確認することによって文字認識を行わざるを得なかった。
【０１３９】
しかし、車載カメラに本発明の文字認識装置を適用することにより、車の機動性を損なわず、しかも人間の目による認識に依存すること無く、車載カメラの撮像画像から直接文字を自動認識することができる。そのため、カーナビゲーションシステム等と連動して看板や標識等の撮像画像から目的地や交通情報等を取得して車の誘導をより高精度に行うことが可能となる。
【０１４０】
なお、本実施形態では、処理装置の例として、デジタルカメラ、ファクシミリ装置、カメラ付携帯電話機、車載カメラ等を挙げたが、これらに限定されるものではない。すなわち、処理装置とは、文字を含んだ画像データを取り込む機能を持ち、本発明の処理を実行して文字を含んだ画像データから文字情報を抽出する機能を持ち、抽出した文字情報を利用する処理を実行する機能を持つものであれば如何なるものであってもよい。
【０１４１】
ここで、「文字を含んだ画像データから文字情報を抽出する機能」とは、デジタルデータとして格納された文字を含んだ画像を入力として、本発明の処理プログラムをCPU上で実行したり、もしくは、本発明の処理を実装した専用ICによって実行し、画像に含まれる文字に対応する文字コードを出力する機能である。
【０１４２】
そして、「抽出した文字情報を利用する処理」としては、例えばテキストエディタやメーラなどの文字コードを入力として必要とする処理や、例えば情報検索や辞書引きなどの文字コードで構成される単語や文からマッチする検索結果や辞書の内容を出力する処理や、ビデオやデジタルカメラなどの取得した画像データに文字コードでインデックスをつける機能を持った処理などが挙げられる。
【０１４３】
以上、本実施形態を具体的に説明したが、本発明はこれらに限定されるものではなく、以下の概念を含むものである。
【０１４４】
（１）入力された文字画像情報から方向線素パターンを抽出し、該方向線素パターンから方向線素特徴ベクトルを算出し、該方向線素特徴ベクトルと標準ベクトルとを比較してつぶれ処理を行うか否かの判定を行い、つぶれ処理を行う際にはつぶれ領域の検出を行い、該つぶれ領域内の方向線素パターンを抽出し、抽出された方向線素パターンを補完し、補完された方向線素パターンを対象に再度前記方向線素特徴ベクトルを算出するコンピュータ実行可能なプログラム、または該プログラムを記憶したコンピュータ読取り可能な記憶媒体。
【０１４５】
（２）前記（１）に記載したプログラムを実行する実行手段を備えた複写装置、ファクシミリ装置、デジタルカメラ、デジタルビデオカメラ、カメラ付携帯電話、または車載カメラ等からなる処理装置。
【発明の効果】
本発明によれば、入力文字画像から抽出した特徴と高品位パターンから抽出した特徴を合成することによって欠如した図形特徴を補完することができ、つぶれ文字を高精度に認識することができる。
【図面の簡単な説明】
【図１】文字認識の従来手法であるメッシュ特徴量による文字認識を説明するための図
【図２】メッシュ特徴量による文字認識の欠点を説明する図
【図３】文字認識の従来手法であるペリフェラル特徴量による文字認識を説明するための図
【図４】ペリフェラル特徴量による文字認識の欠点を説明する図
【図５】方向線素を用いた文字認識の処理手順について概略的に説明した図
【図６】方向線素を用いた処理手順をさらに詳細に示した図
【図７】方向線素について説明するための図
【図８】輪郭線に着目することを説明した図
【図９】方向線素パターン抽出について説明した図
【図１０】方向線素特徴ベクトルの算出方法について説明した図
【図１１】方向線素特徴量を用いた認識技法の優位性を説明するための図
【図１２】類似度の差が認識率に与える影響について説明するための図
【図１３】つぶれ文字を説明するための図
【図１４】つぶれ文字によって方向線素特徴量を用いた認識が失敗する場合を説明するための図
【図１５】本発明の文字認識の流れを説明する図
【図１６】本発明の概念を説明するための図
【図１７】実施形態の文字認識装置のハードブロック図
【図１８】実施形態の各処理部の関連を示す説明図
【図１９】実施形態の処理部によって実現される機能を時系列的に示した図
【図２０】実施形態の機能によって実現される具体的な処理手順を示すフロー図
【図２１】平均方向線素パターンの生成方法を説明するための図
【図２２】具体的な文字認識例を示す図
【図２３】方向線素パターン抽出処理の具体例を示す図
【図２４】方向線素パターン抽出処理の結果例を示す図
【図２５】つぶれ領域抽出処理の具体例を説明する図
【図２６】つぶれ領域内の方向線素パターン抽出処理の具体例を示す図
【図２７】方向線素パターンの補完処理の具体例を示す図
【図２８】文字候補毎の類似度計算の結果例を示す図
【図２９】文字がつぶれる要因について説明する図
【図３０】つぶれ文字(入力)と、本発明を用いた応用事例(出力)の関係を示す図
【図３１】つぶれた文字の認識の応用例を示す図
【図３２】低品質文書に適用した場合を説明する図（１）
【図３３】低品質文書に適用した場合を説明する図（２）
【図３４】本発明を解像度の低いカメラに対して適用した例について説明する図
【図３５】本発明を車載カメラに適用した例について説明する図

Claims

つぶれ領域を含む入力文字画像から文字認識を行う方法であって、
前記入力文字画像から方向線素パターンを抽出するステップと、
各文字の平均的な方向線素パターンを示す画像データである平均方向線素パターンが格納されているデータベースから、文字候補の平均方向線素パターンを読み出すステップと、
前記入力文字画像から抽出された方向線素パターンに対し、前記文字候補の平均方向線素パターンを用いて前記つぶれ領域内の方向線素パターンを補完するステップと、
補完された方向線素パターンから方向線素特徴ベクトルを算出し、該方向線素特徴ベクトルと前記文字候補の標準ベクトルとから前記入力文字画像と前記文字候補の類似度を評価するステップと、
を含む文字認識方法。
前記つぶれ領域内の方向線素パターンを補完するステップは、
前記入力文字画像から前記つぶれ領域のマスクを作成するステップと、
前記文字候補の平均方向線素パターンを前記マスクでマスキングすることにより、前記つぶれ領域内の方向線素パターンを抽出するステップと、
抽出した前記つぶれ領域内の方向線素パターンを、前記入力文字画像から抽出された方向線素パターンに重ね合わせて、前記補完された方向線素パターンを合成するステップと、
を含む請求項１に記載の文字認識方法。
つぶれ領域を含む入力文字画像から文字認識を行う文字認識装置であって、
前記入力文字画像から方向線素パターンを抽出する手段と、
各文字の平均的な方向線素パターンを示す画像データである平均方向線素パターンが格納されているデータベースから、文字候補の平均方向線素パターンを読み出す手段と、
前記入力文字画像から抽出された方向線素パターンに対し、前記文字候補の平均方向線素パターンを用いて前記つぶれ領域内の方向線素パターンを補完する手段と、
補完された方向線素パターンから方向線素特徴ベクトルを算出し、該方向線素特徴ベクトルと前記文字候補の標準ベクトルとから前記入力文字画像と前記文字候補の類似度を評価する手段と、
を備える文字認識装置。
前記つぶれ領域内の方向線素パターンを補完する手段は、
前記入力文字画像から前記つぶれ領域のマスクを作成し、
前記文字候補の平均方向線素パターンを前記マスクでマスキングすることにより、前記つぶれ領域内の方向線素パターンを抽出し、
抽出した前記つぶれ領域内の方向線素パターンを、前記入力文字画像から抽出された方向線素パターンに重ね合わせて、前記補完された方向線素パターンを合成する
請求項３に記載の文字認識装置。
つぶれ領域を含む入力文字画像から抽出した方向線素パターンを用いた文字認識方法において、前記つぶれ領域内の方向線素パターンを補完するために前記入力文字画像から抽出した方向線素パターンに合成される、平均方向線素パターンの生成方法であって、
平均方向線素パターンを生成する対象の文字について、書体及び／又は大きさが異なる複数のサンプル画像を用意するステップと、
各サンプル画像から方向線素パターンを抽出するステップと、
前記複数のサンプル画像から抽出された複数の方向線素パターンを平均化した画像データを、前記対象の文字の平均方向線素パターンとして生成するステップと、
を含む平均方向線素パターンの生成方法。
請求項３又は４に記載の文字認識装置を備えた処理装置。