JP4271428B2 - 文字認識方法および文字認識装置 - Google Patents

文字認識方法および文字認識装置 Download PDF

Info

Publication number
JP4271428B2
JP4271428B2 JP2002331726A JP2002331726A JP4271428B2 JP 4271428 B2 JP4271428 B2 JP 4271428B2 JP 2002331726 A JP2002331726 A JP 2002331726A JP 2002331726 A JP2002331726 A JP 2002331726A JP 4271428 B2 JP4271428 B2 JP 4271428B2
Authority
JP
Japan
Prior art keywords
line element
element pattern
character
direction line
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002331726A
Other languages
English (en)
Other versions
JP2004164469A (ja
Inventor
修 志久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP2002331726A priority Critical patent/JP4271428B2/ja
Publication of JP2004164469A publication Critical patent/JP2004164469A/ja
Application granted granted Critical
Publication of JP4271428B2 publication Critical patent/JP4271428B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文字認識方法に適用して有効な技術に関する。
【0002】
【従来の技術】
紙媒体や景色の中から得られた文字情報を情報処理システムが文字パターンとして正確に認識する技術が必要とされている。
【0003】
たとえばビデオカメラやデジタルカメラ等で街中の風景等を撮像した画像に存在する文字画像や、複写機での複写やファクシミリを介した書類上に印刷された文字画像では文字パターンがにじみやぼけが原因で肥大した文字線に含まれてしまい、従来の文字パターン認識にとって必須となる内部や外部の輪郭線が失われてしまうことが多かった。
【0004】
ところで、文字パターンの認識技術としては、第1にメッシュ特徴量に基づく認識方法、第2にペリフェラル特徴量に基づく認識方法、第3に方向線素を用いた認識方法等が挙げられるが、以下これらの技術を図1乃至図14を用いて説明する。
【0005】
図1は、メッシュ特徴量について説明した図である。
メッシュ特徴量とは、画像各部分の文字と背景の面積比、すなわちメッシュ特徴量によって文字パターンの認識を行う。より具体的には、入力文字画像を横8×縦8の64ブロックに分割し、各ブロック毎に文字と背景の面積比を算出する。こうして求められる64次元ベクトルをメッシュ特徴量という。
【0006】
しかし、メッシュ特徴量は、文字と背景の面積比を表わす特徴であるため、文字の輪郭線の方向は表現することができないという欠点があった。つまり、ブロック毎の面積比に大きな差が出ない場合、たとえば人の目では形状が異なって見えていても、メッシュ特徴量はほとんど同じになってしまうことがあった。たとえば図2に示した例では、漢字の「徴」と「微」に対するメッシュ特徴量を比較しているが、これら2つの文字のメッシュ特徴量は酷似しているので、類似度は0.99と極めて高い値になり、「徴」と「微」の区別が困難であることを示している。
【0007】
つまり、「徴」や「微」の文字画像を入力した場合には、類似度の差よりもノイズやフォントの違いによる差の影響で誤認識を起こし、その結果、認識率が低下してしまうという問題があった。
【0008】
図3は、ペリフェラル特徴量について説明した図である。
ペリフェラル特徴量とは、文字周辺部の面積に着目した特徴量である。入力文字画像の外枠をそれぞれ8分割し、分割された外枠から水平(または垂直)方向にスキャンし、最初に遭遇する文字部までの余白の面積を1次ペリフェラル、2度目にぶつかる文字部までの面積(余白、文字線)を2次ペリフェラルという。
【0009】
ここで、全ての外枠(8×4=32方向)に対して1次ペリフェラルと2次ペリフェラルを算出すると、32×2=64次元のベクトルを得る。これをペリフェラル特徴量という。
【0010】
ところで、ペリフェラル特徴量は、画像上をスキャンして文字部に遭遇するまでの面積を特徴量にしているので、遭遇した文字部の詳細な形状についての情報が得られないという欠点がある。つまり、文字部に遭遇するまでの位置がほとんど同じ場合には、たとえば人の目には形状が異なっていても、ペリフェラル特徴量はほとんど同じになる。
【0011】
たとえば、図4の例では、「宇」と「字」に対してペリフェラル特徴量を抽出している。文字部に遭遇する位置がほとんど同じであり、ペリフェラル特徴は酷似している。そのため、「宇」と「字」の類似度は0.99と極めて高くなり、区別できないことを示している。
【0012】
つまり、「宇」や「字」の文字画像を入力した場合には、類似度の差よりもノイズやフォントの違いによる差の影響で誤認識を起こし、その結果、認識率が低下してしまうという問題があった。
【0013】
以上のようなメッシュ特徴量やペリフェラル特徴量に基づく認識が十分ではないことから方向線素を用いた文字認識が注目されている。
【0014】
図5は、方向線素を用いた文字認識の処理手順について概略的に説明した図である。
ここでは、まず、入力文字画像から方向線素パターンを抽出した後、方向線素特徴ベクトルを算出し、次いでデータベースに登録されている全ての標準ベクトルとの類似度を計算する。そして、類似度が最大となる文字を認識結果として出力するものである。
【0015】
この方向線素を用いた処理手順をさらに詳細に示したものが図6である。
同図では、方向線素を用いた文字認識のデータと処理の流れを説明している。
同図において、まず第1に、「文字画像を含んだ撮像対象」を「撮像部」が取得し、「文字画像を含んだ画像データ」を生成する。
【0016】
同図中、「文字画像抽出部」は、「文字画像を含んだ画像データ」から「正規化された一文字画像」を生成する機能部である。また、「方向線素パターン抽出部」は、「正規化された一文字画像」から「文字画像の方向線素パターン」を抽出する機能部である。
【0017】
さらに、「方向線素特徴ベクトル算出部」は「方向線素パターン」から「方向線素特徴ベクトル」を算出する機能部である。
【0018】
「標準パターンとの類似度演算部」は、「方向線素特徴ベクトル」と「標準ベクトルDB」から得られる「標準ベクトル」との「類似度」を計算する。そして、「出力部」は、「類似度」が最大となる文字を「認識結果」として適当な形式で出力する。
【0019】
「方向線素」は幅1ドットの線画を構成する画素に着目した時、どの向きの線分に属するかを判定する技術である。
どの向きの線分に属するかは、着目画素とその周囲の画素の位置関係から決まる。ここで、図7(a)は、着目画素の上下に画素が存在しており、着目画素は縦線の一部を構成していることがわかる。つまり、この中心画素は縦方向線素に分類される。
【0020】
縦方向線素と同様に、周囲の画素との位置関係により、横方向線素、+45°方向線素、−45°方向線素が存在する(図7の(b)、(c)、(d))。
【0021】
ところで、方向線素を利用するには幅1ドットの線画像が必要になる。文字認識の場合には、入力文字画像の輪郭線に着目して方向線素を利用する。ここでいう輪郭線とは、文字と背景の境界線を意味している。輪郭線には、文字線で囲われない開いた背景領域との境界線である「外部輪郭線」と、文字線で囲まれる閉じた背景領域との境界線となる「内部輪郭線」の2種類に分類される。
【0022】
内部輪郭線は、他の内部輪郭線と近接していることが多く、劣化による文字のつぶれによって失われやすい傾向がある。
【0023】
外部輪郭線には、最も外側に位置する「つぶれにくい外部輪郭線」と、他の外部輪郭線と近接する「つぶれやすい外部輪郭線」の2種類に分けられる。これを具体例で示したものが図8である。同図では、「温」の漢字を例に、つぶれやすい内部輪郭線と外部輪郭線の箇所を示している。
【0024】
図9は、方向線素パターン抽出方法について説明している。すなわち図5で示した「方向線素パターンの抽出処理」を具体的に示したものである。
方向線素パターンとは、各方向線素が画像中のどこに分布するかを示すパターンである。この処理では、図8で述べたように、認識対象となる文字の輪郭線から方向線素パターンを抽出する。
【0025】
そして、輪郭線上の各画素に着目し、周囲の画素との位置関係から4方向のいずれかに分類し、分類された方向の方向線素パターンにマッピングする。そして、輪郭線上の全ての画素について分類を実施すると、文字の輪郭線に対する、縦(図9の(a))、横(図の(b))、+45°(図の(c))、−45°(図の(d))の4種類の方向線素パターンが抽出される。
【0026】
図10は、前述で抽出された方向線素パターンに基づいた方向線素特徴ベクトルの算出方法について説明した図である。
入力文字画像を16×16画素のブロックに分割し、ブロック毎、線素方向毎に前記で得られた方向線素パターンの重み和を求める。それらを順に並べてベクトル化したものを「方向線素特徴ベクトル」という。
【0027】
ここで、重み和は、方向線素パターンの各画素の値に、重みテーブルで定義される重みを乗じたものの総和である。この重み和は、方向線素がブロックの中心に分布すると高くなり、ブロックの端に分布すると低くなる性質を持っている。つまり、方向線素特徴ベクトルは、ブロック毎の主要な方向線素の分布を示しており、輪郭線の形状の情報を保存する特長がある。
【0028】
ところで、従来の文字認識技法であるメッシュ特徴量やペリフェラル特徴量では、文字の詳細な形状についての情報が無い。そのため、図2または図4で示したような、大体の形状が類似して認識が困難な文字の組み合わせが多く存在する。
【0029】
これに対して、方向線素特徴量を利用すると、文字の詳細な形状を表現できるため、メッシュ特徴やペリフェラル特徴では識別することができなかった文字を識別することが可能になる。
【0030】
この方向線素特徴量を用いた認識技法の優位性を示したものが図11である。同図の認識対象文字である「徴」と「微」の例では、メッシュ特徴量による類似度は0.99と極めて高いが、方向線素特徴量による類似度は0.90と下がっていることがわかる。「宇」と「字」に関しても同様の状態になっている。
【0031】
つまり、メッシュ特徴量やペリフェラル特徴量では区別できなかった文字が、方向線素特徴量では区別できるようになっていることがわかる。
【0032】
この類似度の差が認識率に与える影響について説明したものが図12である。
文字認識は、あるフォントから算出した標準特徴量と、入力文字画像から算出した特徴量との間で類似度を算出し、類似度が最も高くなる文字種を認識結果とするのが一般的である。入力文字画像には、フォントの違い、正規化する際の誤差、その他のノイズなどにより、同じ文字画像でも数パーセント程度の誤差が入る。よって、算出する類似度は±数パーセントの幅を持つことになる。たとえば、「宇」と「字」の類似度0.99の場合(図12の(a))、入力文字画像「宇」に対して、「宇」の標準特徴量との類似度は、1〜0.95程度となる。一方、「字」の標準特徴量との類似度も、1〜0.95程度の値となってしまう。つまり、入力文字画像「宇」が、「宇」と認識される可能性(出現率)と「字」と認識される可能性がほぼ同じになってしまい、認識率の低下を招く。
【0033】
一方、「宇」と「字」の類似度0.92の場合(図12の(b))、入力文字画像「宇」に対して、「宇」の標準特徴量との類似度は、1〜0.95程度となる。一方、「字」の標準特徴量との類似度は、0.97〜0.87程度となる。
つまり、「宇」の出現率が上がり、「字」の出現率が下がるため、誤認識が減り、認識率が維持されることになる。
【0034】
次に、図13を用いて本発明が対象としているつぶれ文字について説明する。
文字には、文字画像の劣化の程度を示す「文字品質」が定義される。フォントに近いほど文字品質は高い。逆にフォントからかけ離れるほど文字品質は低い。
【0035】
文字を撮像した機器や環境が良好な場合、文字フォントのような高品質の文字画像を取得することができる。
【0036】
一方、撮像した機器の性能が低かったり撮像環境が劣悪な場合で取得した場合、文字線がつぶれてにじんだり、かすれてなくなるような低品質の文字画像になってしまう。
【0037】
本発明は、低品質の文字画像のうち、つぶれ(特に輪郭線が失われてしまうようなひどいつぶれ)文字を対象としたものである。
【0038】
このつぶれ文字によって方向線素特徴量を用いた文字認識の認識率が低下してしまう問題のあることが本発明者によって見出された。
【0039】
このことを図14を用いて説明する。
まず認識対象となる入力文字につぶれが生じている場合、前述のように文字毎のつぶれやすい内部・外部輪郭線が失われている。この輪郭線が失われた状態で方向線素特徴量を算出すると、つぶれにくい外部輪郭線の情報だけを利用せざるを得ないことになる。つまり、つぶれにくい外部輪郭線が類似する文字同士の識別能力が下がってしまう。
【0040】
図14ではつぶれ文字「温」を入力した場合を示している。
同図では、パターンマッチングの結果、つぶれにくい外部輪郭線が類似した「漫」「遍」「温」「濃」「涙」の5つの文字が候補に上がっている。
【0041】
つぶれて失われた輪郭線の影響で、類似度は0.7台の低い値になり、識別が困難な状態である。この状態で無理に認識結果を抽出すると、類似度が最大となる「漫」が認識結果として出力され、誤認識となる。
【0042】
このように、方向線素特徴量を用いた文字認識を、つぶれ文字に対して適用すると、つぶれにくい外部輪郭線が類似する文字同士を誤認識することが多くなり、認識精度が低下してしまうという欠点がある。
【0043】
以上のように、文字のつぶれによって方向線素特徴量を用いた認識が困難であることがわかった。
【0044】
すなわち、情景画像内に含まれる文字画像を、従来の方向線素特徴量を用いた方式で文字パターン認識を行うと、比較的つぶれにくい外部輪郭線の情報だけを利用せざるを得なくなるため、外部輪郭線が類似する文字同士の認識率が低下してしまうという問題が残ったのである。
【0045】
この点について、特開平11−191137号公報(特許文献1)では、入力文字画像のつぶれを検出し、検出されたつぶれに対応して、入力文字画像から抽出された特徴を補正し、補正後の特徴と特徴マッチングのための辞書のモデルとの間でマッチングをとる技術が提案されている。
【0046】
また、特開1995−302303号公報(特許文献2)では、文字識別部に於ける識別部から出力される候補文字のうち、必要なものについては整形部においてその特定部位のパターンをその文字に適した方法で整形を行なった後、入力画像切り換え部で入力画像を切り換えて、整形後の画像データから再度特徴抽出を行なう技術が提案されている。
【0047】
【特許文献1】
特開平11−191137号公報
【特許文献2】
特開1995−302303号公報
【0048】
【発明が解決しようとする課題】
しかし、前記特許文献1は、つぶれによって失われた特徴を補正して単にパターンを修正する技術であり、内部輪郭線が全く失われてしまっているようなつぶれに対しては補正が困難であり認識が不可能であった。
【0049】
また、前記特許文献2は、要するにつぶれやかすれ等で情報が失われている場合に有効な情報を残している箇所だけを利用して正確な認識を試みる技術であるが、つぶれやかすれが大きくなると利用できる情報が少なくなり、認識精度も下がってしまうという問題があった。
【0050】
本発明はこのような点に鑑みてなされたものであり、あらかじめ用意した平均方向線素パターンを用いて、つぶれ領域内の失われた外部・内部輪郭線の方向線素パターンを復元し、原画像の方向線素パターンに補完することによって、つぶれ文字を高精度に認識することを技術的課題とする。
【0051】
【課題を解決するための手段】
本発明は、前記課題を解決するために以下の手段を採用した。
すなわち、つぶれ領域を含む入力文字画像から文字認識を行う方法であって、前記入力文字画像から方向線素パターンを抽出するステップと、各文字の平均的な方向線素パターンを示す画像データである平均方向線素パターンが格納されているデータベースから、文字候補の平均方向線素パターンを読み出すステップと、前記入力文字画像から抽出された方向線素パターンに対し、前記文字候補の平均方向線素パターンを用いて前記つぶれ領域内の方向線素パターンを補完するステップと、補完された方向線素パターンから方向線素特徴ベクトルを算出し、該方向線素特徴ベクトルと前記文字候補の標準ベクトルとから前記入力文字画像と前記文字候補の類似度を評価するステップと、を含む文字認識方法である。
【0052】
このように、本発明ではつぶれ処理を行い、このつぶれ処理の中で領域を指定しその中から方向線素パターンの抽出、補完を行うことにより、失われた輪郭線の情報を正確に復元することができ、つぶれ文字を高精度に認識することが可能となる。
【0053】
【発明の実施の形態】
本発明の実施の形態を説明する前に、本発明の概念を説明する。
図15は、本発明の文字認識の流れを説明する図である。
本発明は方向線素特徴量を用いた文字認識をベースとしており、図5で示した処理の流れに、「つぶれやすい内部・外部輪郭線の方向線素パターンの補完」の手順を加えたものになっている。
【0054】
まず、入力文字画像から方向線素パターンを抽出する。この方向線素パターンの抽出処理は、図9で説明した処理に基づいて行われる。
【0055】
次に、抽出された方向線素パターンから方向線素特徴ベクトルを算出する。この処理は、図10で説明した通りである。
以上のようにして算出された方向線素特徴ベクトルを文字候補の標準ベクトルと比較して類似度を計算する。類似度の判定は図14に示したような処理によって行う。
以上の処理は、従来技術で説明した処理である。
【0056】
次に、本発明ではつぶれ判定を行う。つぶれ判定は「図形の線幅」や「類似度」等の特徴量を用いて行い、つぶれの程度が判定できるものであれば、その手法は問わない。このつぶれ判定はつぶれ度合いが一定以上であるか否かにより方向線素パターン補完処理を行うか否かを判断するステップである。
【0057】
方向線素パターン補完処理では、まず、入力文字画像からつぶれ領域を検出する。次に、文字候補のつぶれ領域内の方向線素パターンを抽出する。次に、文字画像から抽出した方向線素パターンに、つぶれ領域内の方向線素パターンを補完する。そしてこの補完した方向線素パターンから方向線素特徴ベクトルを求める。そして最後に、求めた方向線素特徴ベクトルと、文字候補の標準ベクトルとの類似度を計算し、最も類度が高くなる文字候補を認識結果として出力するものである。
【0058】
本発明は、失われた「つぶれやすい内部・外部輪郭線」の方向線素パターンを復元することにより、つぶれ文字を高精度に認識することである(図16参照)。すなわち、本発明ではまず、つぶれ文字画像に残存している、「つぶれにくい外部輪郭線」から方向線素パターンを求める。次に、あらかじめ用意した平均方向線素パターン辞書から、失われた「つぶれやすい内部・外部輪郭線」を求め、その方向線素パターンを抽出する。そして、「つぶれにくい外部輪郭線」からの方向線素パターンに、「つぶれやすい内部・外部輪郭線」方向線素パターンを補完する。最後に、補完した方向線素パターンから方向線素特徴量を求め、文字認識を行う。図16の平均方向線素パターンデータベース(DB)には、つぶれやすい文字パターンを方向線素パターンとして格納している。
【0059】
図17は、本発明の実施形態の文字認識装置のハードブロック図である。
同図において、「HM入出力部」は、本装置の「利用者」と種々のやり取りをするための入出力機能を持つ部位である。キーボード、スイッチ、タッチパネル、モニターなど、利用者と本機器の間で情報を伝達するものであればその種類は問わない。
【0060】
「撮像部」は、カメラやスキャナなどの撮像装置で文字を含んだ画像を撮影し、画像データに変換する機能を持つ部位である。この撮像部には、デジタルビデオカメラ、デジタルスチルカメラ、イメージスキャナ、ファクシミリ、複写機等が接続可能であり、これらの撮像画像を画像データに変換し本装置に入力する機能を有している。なお、「文字を含んだ画像データを取り込む機能」を有していればよく、前記カメラやスキャナのような撮像機器によって実在する風景や文書を撮像し、CPUなどの演算装置が扱えるデジタルデータに変換して格納する機能や、通信によって外部からデジタルデータを受信し格納する機能を有していればよい。
【0061】
「演算部」は、各機能を(プログラムを実行することによって)駆動、処理するための演算機能を持つ部位である。一般にCPU(中央演算装置)で構成される。
【0062】
「メモリ部」とは、「演算部」がプログラムを実行する実行エリアの部位である。
「DB管理部」とは、各種記憶媒体と記憶媒体上のデータの入出力を制御する機能を持つ部位である。記憶媒体としては、たとえばハードディスク、フロッピー(登録商標)ディスク、CD-ROM, CD-R、磁気カード、ICカードなどである。
【0063】
「処理プログラム」とは、本装置が利用目的を達成するために必要なプログラムのことであり、OS(オペレーティングシステム)もここに含まれる。
「標準ベクトルDB」は、文字認識に利用する全文字種の標準ベクトルを格納するデータベースである。
【0064】
「平均方向線素パターンDB」は、全文字種の平均方向線素パターンを格納するDBである。このパターンから、つぶれ領域内の方向線素パターンを生成する。
なお、同図に示す構成は一例にすぎず、目的や必要な機能に応じて構成を変えてもよい。
【0065】
本実施形態におけるつぶれ文字認識装置の各機能は、主に処理プログラムがメモリ部を経て演算部に読み込まれて実行されることにより実現されている。
【0066】
図18は、本実施形態の各処理部の関連を示す説明図である。
同図に示し処理部群は、図6で説明した処理部群に、破線部分を追加したものである。
図6でも説明したように、「撮像部」は「文字領域を含んだ撮像対象」の画像を撮像してデジタル信号に処理する機能を有している。
「文字画像抽出部」は、「文字画像を含んだ画像データ」から「正規化された一文字画像」を生成する機能部である。
【0067】
「方向線素パターン抽出部」は、「正規化された一文字画像」から「文字画像の方向線素パターン」を抽出する機能を有している。
【0068】
「方向線素特徴ベクトル算出部」は、「方向線素パターン」から「方向線素特徴ベクトル」を算出し、これによって得られた「方向線素特徴ベクトル」に対して「標準パターンとの類似度演算部」が、「標準ベクトルDB」から得られる「標準ベクトル」との「類似度」を計算するようになっている。
【0069】
本実施形態では、さらに以下の処理を実行する機能部が追加されている。
図18において、「つぶれ判定部」は、「図形の線幅」や「類似度」等の特徴量を用いて、入力文字がつぶれているかどうかを判定する機能を有している。
【0070】
ここで、入力文字がつぶれていないとの判定を行った場合には、「出力部」から最大類似度の文字を「認識結果」として適当な形式で出力する機能を有している。そして、当該入力文字がつぶれを生じているとの判定を行った場合、「つぶれ判定部」は、類似度上位K個の文字候補を抽出し、「つぶれ領域検出部」を起動する。ただし、Kは適当な定数(整数)である。
【0071】
「つぶれ領域検出部」は、「正規化された一文字画像」から「つぶれ領域マスク」を生成する機能を有している。
【0072】
「つぶれ領域内の方向線素パターン抽出部」は、「平均方向線素パターンDB」から読み出した「平均方向線素パターン」に前記の「つぶれ領域マスク」を重ね合わせ、その論理積により、文字候補毎に「つぶれ領域の方向線素パターン」を抽出する機能を有している。
【0073】
「方向線素パターン補完部」は、前記で抽出された「つぶれ領域の方向線素パターン」を「入力画像の方向線素パターン」に補完し、文字候補毎に「補完された方向線素パターン」を合成する機能を有している。
【0074】
次に、このようにした得られた「補完された方向線素パターン」は再度「方向線素ベクトル算出部」に入力されるようになっている。
なお、いずれの処理部も、「演算部」が「処理プログラム」を読み込むことによって実現されている。
【0075】
以上の処理部によって実現される機能を時系列的に示したものが図19のフロー図である。
また、図20は、当該機能によって実現される具体的な処理手順を示すフロー図である。
【0076】
以下、図20のフロー図に基づいて説明する。
まず、「演算部」は「撮像部」からの割り込み信号の有無により、文字領域を含む画像を取得したか否かを判定する。
そして、「文字画像を含んだ画像データ」から「正規化された一文字画像」を抽出する処理を行うと(文字画像抽出部)、この「正規化された一文字画像」から「文字画像の方向線素パターン」が抽出される(方向線素パターン抽出部)。
【0077】
次に、前記「文字画像の方向線素パターン」より「方向線素特徴ベクトル」が算出される(方向線素特徴ベクトル算出部)。
【0078】
次に、「標準ベクトルDB」より「標準ベクトル」が読み出されて、前記「方向線特徴ベクトル」と比較されてその類似度が算出される(標準パターンとの類似度演算部)。
【0079】
次に、「つぶれ判定部」が、「図形の線幅」や「類似度」などの特徴量を利用して当該入力文字がつぶれているかいないかを判定する。ここで、入力文字がつぶれていないとの判定を行った場合には、「出力部」を通じて最大類似度の文字を「認識結果」として適当な形式で出力する。
【0080】
一方、「つぶれ判定部」において当該入力文字がつぶれているとの判定を行った場合には、「つぶれ判定部」は、類似度上位K個の文字候補を抽出し、「つぶれ領域検出部」を起動する。
【0081】
「つぶれ領域検出部」では、「正規化された一文字画像」から「つぶれ領域マスク」を生成する。
【0082】
次に、「平均方向線素パターンDB」から「平均方向線素パターン」を読み出して、これを前記「つぶれ領域マスク」と重ね合わせその論理積により当該文字の文字候補に対して「つぶれ領域の方向線素パターン」を抽出する(つぶれ領域内の方向線素パターン抽出部)。
【0083】
次に、前記で抽出された「つぶれ領域の方向線素パターン」を「入力画像の方向線素パターン」に補完し、文字候補毎に「補完された方向線素パターン」を合成する(方向線素パターン補完部)。
次に、この「補完された方向線素パターン」に基づいて、「方向線素特徴ベクトル」を算出する(方向線素ベクトル算出部)。
【0084】
以上の「方向線素特徴ベクトル」の算出を類似度上位K個の文字候補のそれぞれについて実行し、候補文字毎に「標準ベクトルDB」から読み出した「標準ベクトル」と比較されてそれぞれの類似度が算出される。
そして、最終的に類似度が最大となった文字を「出力部」から出力して処理を終了する。
【0085】
図21は、「平均方向線素パターンDB」に格納される「平均方向線素パターン」の生成方法を説明するための図である。
同図では平均方向線素パターンの作り方について説明する。ただしこれは一例にすぎず、目的とする結果が得られるのであれば処理方法を変えてもよい。
【0086】
平均方向線素パターンとは、フォントの種類や文字のサイズによらない平均的な線素パターンである。
【0087】
平均方向線素パターンは、文字認識に必須の標準ベクトル作成する過程から作成することができる。図21は、漢字の「温」を例にした手順である。
【0088】
(手順1)ある文字(ここでは「温」)の、A種類のフォント、B種類のサイズの文字を、C種類のプリンタで印刷した、全(A×B×C)個の文字サンプルを用意する。
【0089】
(手順2)各文字サンプルから方向線素パターンを抽出する。この方向線素パターンは、画像データであり、VRAMに展開可能な形式である。
【0090】
(手順3)次に、各方向線素パターンから方向線素特徴ベクトルを算出し、それらの(A×B×C)個の平均を算出すると、標準ベクトルが求まる。これを標準ベクトルDBに格納する。このときの方向線素特徴ベクトルの算出方法については図10で説明した通りである。
【0091】
(手順4)前記手順2で求めた方向線素パターンの(A×B×C)個の平均を算出して平均方向線素パターンが得られる。これを平均方向線素パターンDBに格納する。同図に示すようにこの平均方向線素パターンも画像データである。
【0092】
(手順5)以上の手順1〜4を全字種に対して行う。
同図では、ゴシック、明朝、楷書体の3種のフォントを、6、8、10、12、14ポイントの5種類のサイズで、2種のプリンタを用いて印刷して作成した、計30個の文字「温」のサンプルから、平均方向線素パターンと標準ベクトルを求めている様子を模式的に示している。
【0093】
同図で示した書体(ゴシック体、明朝体、楷書体)や文字の大きさ(特に6ポイントと14ポイント)は、これに限定されないことは勿論であるが、社会生活の中で最も用いられているのがこれらの書体であり、文字の大きさとしても一般的な新聞、雑誌や看板等の風景中に存在する文字の最大・最小値として一例を挙げたに過ぎない。
【0094】
次に、図22によって具体的な「温」の文字認識例を説明する。
つぶれの生じている入力文字画像「温」(図の(a))が入力されると、つぶれにくい外部輪郭線の方向線素パターンが抽出される(図の(b))。
【0095】
一方、入力文字画像からはつぶれ領域が検出される(図の(c))。
このつぶれ領域で、「温」の平均方向線素パターン(図の(d))をマスキングすると、つぶれやすい内部・外部輪郭線の方向線素パターンが求まる(図の(e))。
【0096】
次に、つぶれにくい外部輪郭線の方向線素パターンと、つぶれやすい内部・外部輪郭線の方向線素パターンとを重ね合わせると、補完された方向線素パターンが合成される(図の(f))。
【0097】
そして、この補完された方向線素パターンから求めた方向線素特徴ベクトル(図の(g))と、「温」の標準ベクトル(図との(h))の類似度を計算する。その結果、入力文字画像と漢字の「温」との類似度は0.97と判定されている。
【0098】
図23は、方向線素パターン抽出処理の具体例を説明する図である。
前記図22で行われる方向線素パターン抽出処理の具体例について説明する。ただこれは一例にすぎず、目的とする結果が得られるのであれば処理方法を変えてもよい。
【0099】
まず、3×3ドットのマスク(図の(a))を用意し、画像の左上から右下方向へと1ドットずつ右にずらしてマスクを移動させる。マスクを移動させる毎に、その中心画素の方向線素パターンを求めてゆく。
【0100】
マスクの中心画素の方向線素パターンは、周囲の画素のパターンで決まる。中心の右隣から反時計周りの順に1〜8の番号を各画素に振る。画素が文字領域であれば1、背景であれば0を割り当て、1〜8の順に並べた1、0のビット列をマスクパターンとする。
【0101】
求めたマスクパターンで、マスクパターンに対する方向線素の値を定義した方向線素テーブル(図の(b))を引き、その値を各方向線素パターンにマッピングする。
【0102】
図23の(c)の場合、マスクパターンは11100001つまり0xe1となり、この値で方向線素テーブルを引くと、縦方向線素の値は1であるので、それを縦方向線素パターンにマッピングしている。
【0103】
同様に図(d)の場合、マスクパターンは00100010つまり0x44となり、同様に方向線素テーブルから縦方向線素値2を得るので、それを縦方向線素パターンにマッピングしている。
【0104】
この結果、得られた方向線素パターンの具体例を示したものが図24である。
同図は、入力文字画像(図の(a))に対して縦方向の方向線素パターンを抽出した具体例である。この方向線素パターンは、つぶれにくい外部輪郭線の方向線素パターンになっている。この例(図22および図23)では縦方向の方向線素パターンのみを説明したが、横方向、左上がり斜方向、左下がり斜め方向の方向線素パターンもそれぞれ同様に生成できる。
【0105】
図25は、つぶれ領域抽出処理の具体例を説明する図である。
前記図22で説明したつぶれ領域の抽出処理の具体例を説明する。ただしこれは一例にすぎず、目的とする結果が得られるのであれば処理方法を変えてもよい。
【0106】
つぶれ領域とは、もともと輪郭線だった箇所が文字部の中に含まれて失われた箇所である。
【0107】
平均方向線素パターンに、入力文字画像から輪郭線を除いた文字部でマスキングを行って取り出される方向線素パターンは、文字内部に含まれている失われた輪郭線の方向線素パターンであるといる。
【0108】
つまり、入力文字画像から輪郭線を取り除いた文字領域をつぶれ領域とすればよい。なお輪郭線は、たとえば文字領域を1画素分細めるなどの処理によって、取り除くことができる。
【0109】
図26は、つぶれ領域内の方向線素パターン抽出処理の具体例について説明する図である。
前記図22で説明したマスキング処理の具体例について説明する。ただしこれは一例にすぎず、目的とする結果が得られるのであれば処理方法を変えてもよい。
【0110】
つぶれ領域と平均方向線素パターンを重ね合わせる(論理積をとる)ことでマスキング処理を行うことができる。つまり、平均方向線素パターンの各画素について、そこがつぶれ領域内であれば値を残し、つぶれ領域でなければ値を0にすることで、つぶれ内部の方向線素パターンを求めることができる。
【0111】
これによって得られた方向線素パターンは、つぶれやすい内部・外部輪郭線の方向線素パターンに相当する。
【0112】
次に、図27を用いて本実施形態の方向線素パターンの補完処理の具体例について説明する。
前記図22で説明した補完処理の具体例について説明する。ただしこれは一例にすぎず、目的とする結果が得られるのであれば処理方法を変えてもよい。
【0113】
2つの方向線素パターンの和をとることで補完処理を行うことができる。つまり、各画素について、つぶれにくい外部輪郭線の方向線素パターンの値と、つぶれやすい内部・外部輪郭線の方向線素パターンの値を和を求め、その値をその画素の方向線素パターンとすればよい。
【0114】
図28は、文字候補毎の類似度計算の結果例について説明する図である。
本実施形態では、従来方法による類似度上位N個の文字を、文字候補として取り出す。この文字候補毎に図22で説明した処理を行い、類似度が最大となる文字を認識結果として出力する。
【0115】
まず、従来方法で入力文字画像を認識すると、類似度上位5個の文字「漫」、「遍」、「温」、「濃」、「涙」が抽出される(図14参照)。
【0116】
次に、これら5つの文字に対し図22の処理を施すと、文字候補「温」の類似度が0.97と最大になり、これを認識結果として出力する。
【0117】
従来手法であるメッシュ特徴量、ペリフェラル特徴量、単なる方向線素技法では、「漫」の類似度が最大となっていたが、本発明の手法では「温」の類似度が最大となり、正しい認識結果を得られることがわかる。
【0118】
次に、本発明の適用範囲について説明する。
まず、このような文字がつぶれる要因としては以下のような場面が考えられる(図29参照)。
【0119】
(1).「低品質文書」
もともと文字がつぶれて印刷されている場合であり、印刷装置の不具合、印字インクの品質劣化、印刷対象紙面の品質の劣悪、経年変化による劣化等が考えられる。また、複写機による複写を繰り返して複数世代を経た文書や、ファクシミリでの転送が繰り返された文書に現れる文字もこれに該当する。
【0120】
(2).「解像度の低いカメラ」
30万画素以下のトイカメラと呼ばれる低解像度のデジタルカメラや、カメラ付携帯電話等で看板や標識等の文字のある風景を撮像した場合や、マクロ撮影機能の無い固定焦点型のデジタルカメラで文書等の接写を行った場合等のように、文字の輪郭線がぼやけてにじみやすい場合がこれに該当する。また、ビデオカメラで撮像された動画から文字を含む情景を静止画として抽出した場合もこれに該当する。
【0121】
(3).「照明不足、色むら」
デジタルスチルカメラやデジタルビデオカメラでの撮影時に照明不足やあるいはストロボ等の過光により色むらが生じている画像からは、画像データの二値化や正規化に失敗することが多い。
【0122】
(4).「手ぶれ」
カメラのシャッタ時の手ぶれにより撮像した文字部分の輪郭がつぶれることがある。
【0123】
(5).「奥行き方向の傾き」
レンズ精度によっては、撮像画像の周囲近辺がひずむことがあり、正対するように画像を補正すると撮像された文字につぶれが生じる。
【0124】
本発明はこのような分野での応用に効果を発揮する。
図30は、つぶれ文字(入力)と、本発明を用いた応用事例(出力)の関係を示す図である。
同図に示すように、本発明では、文字がつぶれた文書や画像から文字を認識することができるため、低品質文書からより精度の高い文字認識を行うことができるため、認識した文字データを用いて当該文書を高品質文書に修正することができる(図31参照)。
【0125】
また、撮像条件や撮像機器によらず利用が可能なため、応用範囲を広げることができる。すなわち従来は難しいとされていた低解像度のデジタルカメラを用いた文字認識が可能となる。
そして、このようにつぶれた文字が認識できることによって、図31に示すような応用範囲が考えられる。
【0126】
たとえば、前述のように低品質文書から高品質文書に修正することは勿論、汎用的に使用可能な低解像度のデジタルスチルカメラやデジタルビデオカメラの画像からでも文字が認識できることで、以下のような応用範囲が考えられる。
たとえば、外国旅行中などに、意味のわからない文字(単語)が表された看板などをカメラで撮影し、当該文字を認識し、インターネット等のネットワークを介して翻訳機能を有するサーバにアクセスして、その場で当該文字(単語)の意味を調べることができる。
【0127】
また、地名、人名、商品名などが印刷された看板や値札やをデジタルスチルカメラやデジタルビデオカメラで撮影し、それに関する情報をその場で調べることができる。より具体的には、駅の駅名表示板、交差点表示板、店舗の看板等を撮像して、多少の文字のつぶれが生じていても文字認識を的確に行える。
【0128】
また、図31に示したように、画像中の文字から自動的に写真にタグ付けをし、検索を容易にする、いわゆる自動インデキシングを可能にしてネットワーク上での検索を容易にすることもできる。
【0129】
図32は、本発明を低品質文書に適用した場合を説明する図(1)である。
低品質文書の例として、複写機の出力が挙げられる。
繰り返しコピーを行ったり、複写時の濃度が高いと、文字がつぶれる傾向がある。また、本を複写した場合、綴じてある周辺部分の文字がつぶれる傾向がある。
【0130】
従来の複写機では、これらの問題を解決することは困難であった。
しかし、複写機に本発明を適用することにより(具体的には文字認識装置を備えた複写装置とする)、これらの問題を解決することができる。
【0131】
また、OCRアプリケーションプログラムによる文字認識技術を適用することにより、従来の複写機により出力された低品質文書中の文字も読み取ることが可能になる。
【0132】
図33は、本発明を低品質文書に適用した場合を説明する図(2)である。
同じような低品質文書の例として、ファクシミリ装置の出力が挙げられる。
ファクシミリ装置は、一般的に200dpi程度で解像度が低く、文字がつぶれてしまう傾向がある。また、文書を画像として送信するため、データ量も大きくなる傾向がある。
【0133】
そのため、従来のファクシミリ装置では、データ量が大きいため送信に時間がかかり、しかも読みやすい文書を出力させることは困難であった。
したがって、ファクシミリ装置の送信部に本発明の文字認識装置を適用することにより、得られた低解像度画像から文字を抽出し、文字は文字コードとして受信側のファクシミリ装置に送信することで、データ量の削減が期待できる。このとき、受信側のファクシミリ装置にも文字コードを文字フォントに変換する装置を付加することによって送信文書のより高精度な再現が可能となる。
【0134】
一方、ファクシミリ装置の受信部に本発明の文字認識装置を適用することにより、得られた低解像度画像から文字を抽出し、補正し該文字に対応する適正なフォントを出力することで、高精度な文書を再現することができる。
【0135】
図34は、本発明を解像度の低いカメラに対して適用した例について説明する図である。
カメラ付き携帯電話に搭載されているデジタルスチルカメラは、画素数が30万画素程度と少なく、解像度が低いものがほとんどである。このため、これらのカメラで文字画像をとると、ぼやけやにじみによって文字の輪郭線がつぶれてしまうことが頻繁に起こる。
【0136】
本発明を利用すると、取得した文字画像につぶれやぼやけがあっても文字を認識することが可能になり、携帯電話のカメラを文字を取得するインタフェースとして利用することができる。同図の例では、看板に現れた文字である「京都」を撮影して、本発明によって文字認識を行い、文字情報に変換している。さらに、この文字情報を利用してインターネットを検索し、「京都」近辺の情報を取得して携帯電話の表示画面に表示している。
【0137】
図35は、本発明を車載カメラに適用した例について説明する図である。
車載カメラにより撮像された画像は、車の動きや振動、または奥行き深度などにより、ぶれたり、ぼけたりして劣化することが多い。
【0138】
このような環境で撮影された画像中の文字はつぶれる傾向にあり、文字認識が困難である。そのため、車中から撮影を行おうとした場合には、一々車を停止させてデジタルカメラを構えて撮像するか、もしくはデジタルカメラの記憶媒体から読み出した画像を、人間の目で確認することによって文字認識を行わざるを得なかった。
【0139】
しかし、車載カメラに本発明の文字認識装置を適用することにより、車の機動性を損なわず、しかも人間の目による認識に依存すること無く、車載カメラの撮像画像から直接文字を自動認識することができる。そのため、カーナビゲーションシステム等と連動して看板や標識等の撮像画像から目的地や交通情報等を取得して車の誘導をより高精度に行うことが可能となる。
【0140】
なお、本実施形態では、処理装置の例として、デジタルカメラ、ファクシミリ装置、カメラ付携帯電話機、車載カメラ等を挙げたが、これらに限定されるものではない。すなわち、処理装置とは、文字を含んだ画像データを取り込む機能を持ち、本発明の処理を実行して文字を含んだ画像データから文字情報を抽出する機能を持ち、抽出した文字情報を利用する処理を実行する機能を持つものであれば如何なるものであってもよい。
【0141】
ここで、「文字を含んだ画像データから文字情報を抽出する機能」とは、デジタルデータとして格納された文字を含んだ画像を入力として、本発明の処理プログラムをCPU上で実行したり、もしくは、本発明の処理を実装した専用ICによって実行し、画像に含まれる文字に対応する文字コードを出力する機能である。
【0142】
そして、「抽出した文字情報を利用する処理」としては、例えばテキストエディタやメーラなどの文字コードを入力として必要とする処理や、例えば情報検索や辞書引きなどの文字コードで構成される単語や文からマッチする検索結果や辞書の内容を出力する処理や、ビデオやデジタルカメラなどの取得した画像データに文字コードでインデックスをつける機能を持った処理などが挙げられる。
【0143】
以上、本実施形態を具体的に説明したが、本発明はこれらに限定されるものではなく、以下の概念を含むものである。
【0144】
(1) 入力された文字画像情報から方向線素パターンを抽出し、該方向線素パターンから方向線素特徴ベクトルを算出し、該方向線素特徴ベクトルと標準ベクトルとを比較してつぶれ処理を行うか否かの判定を行い、つぶれ処理を行う際にはつぶれ領域の検出を行い、該つぶれ領域内の方向線素パターンを抽出し、抽出された方向線素パターンを補完し、補完された方向線素パターンを対象に再度前記方向線素特徴ベクトルを算出するコンピュータ実行可能なプログラム、または該プログラムを記憶したコンピュータ読取り可能な記憶媒体。
【0145】
(2) 前記(1)に記載したプログラムを実行する実行手段を備えた複写装置、ファクシミリ装置、デジタルカメラ、デジタルビデオカメラ、カメラ付携帯電話、または車載カメラ等からなる処理装置。
【発明の効果】
本発明によれば、入力文字画像から抽出した特徴と高品位パターンから抽出した特徴を合成することによって欠如した図形特徴を補完することができ、つぶれ文字を高精度に認識することができる。
【図面の簡単な説明】
【図1】文字認識の従来手法であるメッシュ特徴量による文字認識を説明するための図
【図2】メッシュ特徴量による文字認識の欠点を説明する図
【図3】文字認識の従来手法であるペリフェラル特徴量による文字認識を説明するための図
【図4】ペリフェラル特徴量による文字認識の欠点を説明する図
【図5】方向線素を用いた文字認識の処理手順について概略的に説明した図
【図6】方向線素を用いた処理手順をさらに詳細に示した図
【図7】方向線素について説明するための図
【図8】輪郭線に着目することを説明した図
【図9】方向線素パターン抽出について説明した図
【図10】方向線素特徴ベクトルの算出方法について説明した図
【図11】方向線素特徴量を用いた認識技法の優位性を説明するための図
【図12】類似度の差が認識率に与える影響について説明するための図
【図13】つぶれ文字を説明するための図
【図14】つぶれ文字によって方向線素特徴量を用いた認識が失敗する場合を説明するための図
【図15】本発明の文字認識の流れを説明する図
【図16】本発明の概念を説明するための図
【図17】実施形態の文字認識装置のハードブロック図
【図18】実施形態の各処理部の関連を示す説明図
【図19】実施形態の処理部によって実現される機能を時系列的に示した図
【図20】実施形態の機能によって実現される具体的な処理手順を示すフロー図
【図21】平均方向線素パターンの生成方法を説明するための図
【図22】具体的な文字認識例を示す図
【図23】方向線素パターン抽出処理の具体例を示す図
【図24】方向線素パターン抽出処理の結果例を示す図
【図25】つぶれ領域抽出処理の具体例を説明する図
【図26】つぶれ領域内の方向線素パターン抽出処理の具体例を示す図
【図27】方向線素パターンの補完処理の具体例を示す図
【図28】文字候補毎の類似度計算の結果例を示す図
【図29】文字がつぶれる要因について説明する図
【図30】つぶれ文字(入力)と、本発明を用いた応用事例(出力)の関係を示す図
【図31】つぶれた文字の認識の応用例を示す図
【図32】低品質文書に適用した場合を説明する図(1)
【図33】低品質文書に適用した場合を説明する図(2)
【図34】本発明を解像度の低いカメラに対して適用した例について説明する図
【図35】本発明を車載カメラに適用した例について説明する図

Claims (6)

  1. つぶれ領域を含む入力文字画像から文字認識を行う方法であって、
    前記入力文字画像から方向線素パターンを抽出するステップと、
    各文字の平均的な方向線素パターンを示す画像データである平均方向線素パターンが格納されているデータベースから、文字候補の平均方向線素パターンを読み出すステップと、
    前記入力文字画像から抽出された方向線素パターンに対し、前記文字候補の平均方向線素パターンを用いて前記つぶれ領域内の方向線素パターンを補完するステップと、
    補完された方向線素パターンから方向線素特徴ベクトルを算出し、該方向線素特徴ベクトルと前記文字候補の標準ベクトルとから前記入力文字画像と前記文字候補の類似度を評価するステップと、
    を含む文字認識方法。
  2. 前記つぶれ領域内の方向線素パターンを補完するステップは、
    前記入力文字画像から前記つぶれ領域のマスクを作成するステップと、
    前記文字候補の平均方向線素パターンを前記マスクでマスキングすることにより、前記つぶれ領域内の方向線素パターンを抽出するステップと、
    抽出した前記つぶれ領域内の方向線素パターンを、前記入力文字画像から抽出された方向線素パターンに重ね合わせて、前記補完された方向線素パターンを合成するステップと、
    を含む請求項1に記載の文字認識方法。
  3. つぶれ領域を含む入力文字画像から文字認識を行う文字認識装置であって、
    前記入力文字画像から方向線素パターンを抽出する手段と、
    各文字の平均的な方向線素パターンを示す画像データである平均方向線素パターンが格納されているデータベースから、文字候補の平均方向線素パターンを読み出す手段と、
    前記入力文字画像から抽出された方向線素パターンに対し、前記文字候補の平均方向線素パターンを用いて前記つぶれ領域内の方向線素パターンを補完する手段と、
    補完された方向線素パターンから方向線素特徴ベクトルを算出し、該方向線素特徴ベクトルと前記文字候補の標準ベクトルとから前記入力文字画像と前記文字候補の類似度を評価する手段と、
    を備える文字認識装置。
  4. 前記つぶれ領域内の方向線素パターンを補完する手段は、
    前記入力文字画像から前記つぶれ領域のマスクを作成し、
    前記文字候補の平均方向線素パターンを前記マスクでマスキングすることにより、前記つぶれ領域内の方向線素パターンを抽出し、
    抽出した前記つぶれ領域内の方向線素パターンを、前記入力文字画像から抽出された方向線素パターンに重ね合わせて、前記補完された方向線素パターンを合成する
    請求項3に記載の文字認識装置。
  5. つぶれ領域を含む入力文字画像から抽出した方向線素パターンを用いた文字認識方法において、前記つぶれ領域内の方向線素パターンを補完するために前記入力文字画像から抽出した方向線素パターンに合成される、平均方向線素パターンの生成方法であって、
    平均方向線素パターンを生成する対象の文字について、書体及び/又は大きさが異なる複数のサンプル画像を用意するステップと、
    各サンプル画像から方向線素パターンを抽出するステップと、
    前記複数のサンプル画像から抽出された複数の方向線素パターンを平均化した画像データを、前記対象の文字の平均方向線素パターンとして生成するステップと、
    を含む平均方向線素パターンの生成方法。
  6. 請求項3又は4に記載の文字認識装置を備えた処理装置。
JP2002331726A 2002-11-15 2002-11-15 文字認識方法および文字認識装置 Expired - Fee Related JP4271428B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002331726A JP4271428B2 (ja) 2002-11-15 2002-11-15 文字認識方法および文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002331726A JP4271428B2 (ja) 2002-11-15 2002-11-15 文字認識方法および文字認識装置

Publications (2)

Publication Number Publication Date
JP2004164469A JP2004164469A (ja) 2004-06-10
JP4271428B2 true JP4271428B2 (ja) 2009-06-03

Family

ID=32809016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002331726A Expired - Fee Related JP4271428B2 (ja) 2002-11-15 2002-11-15 文字認識方法および文字認識装置

Country Status (1)

Country Link
JP (1) JP4271428B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4923134B2 (ja) * 2010-06-08 2012-04-25 株式会社スクウェア・エニックス リアルタイムなカメラ辞書
CN111966852B (zh) * 2020-06-28 2024-04-09 北京百度网讯科技有限公司 基于人脸的虚拟整容的方法和装置

Also Published As

Publication number Publication date
JP2004164469A (ja) 2004-06-10

Similar Documents

Publication Publication Date Title
JP3601658B2 (ja) 文字列抽出装置及びパターン抽出装置
US7376272B2 (en) Method for image segmentation to identify regions with constant foreground color
KR101237158B1 (ko) 화상 처리 시스템과 그것에 사용하는 촬상 대상물
US20080031490A1 (en) Position and orientation measuring apparatus and position and orientation measuring method, mixed-reality system, and computer program
US8126270B2 (en) Image processing apparatus and image processing method for performing region segmentation processing
JP4904426B1 (ja) 画像処理システムとそれに用いる撮像対象物
US8412705B2 (en) Image processing apparatus, image processing method, and computer-readable storage medium
JP2016538783A (ja) モバイル映像データを用いて長尺文書の合成画像を生成するためのシステムおよび方法
JP7387339B2 (ja) 画像処理システム、画像処理方法、及びプログラム
JP5640621B2 (ja) 赤目オブジェクト候補を分類する方法、コンピューター読み取り可能な媒体および画像処理装置
US20210286946A1 (en) Apparatus and method for learning text detection model
KR20010015046A (ko) 구조화된 배경 모델과 문자의 조합에 의한 배경위의 문자자동 인식 방법
US8229214B2 (en) Image processing apparatus and image processing method
JP4271428B2 (ja) 文字認識方法および文字認識装置
US11190684B2 (en) Image processing apparatus, image processing method, and storage medium
JP5651221B2 (ja) シンボル片、画像処理プログラム、及び画像処理方法
JP6540597B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP4936250B2 (ja) 書込み抽出方法、書込み抽出装置および書込み抽出プログラム
Konya et al. Adaptive methods for robust document image understanding
JP2004030696A (ja) 文字列抽出装置及びパターン抽出装置
JP5101740B2 (ja) 撮像対象物
US20220277473A1 (en) Pose estimation apparatus, learning apparatus, pose estimation method, and non-transitory computer-readable recording medium
JPH0916713A (ja) 画像領域分割方法
JP5140773B2 (ja) 画像処理プログラム、携帯端末、及び画像処理方法
Xu Content Understanding for Imaging Systems: Page Classification, Fading Detection, Emotion Recognition, and Saliency Based Image Quality Assessment and Cropping

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090217

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090225

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4271428

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140306

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees