JPH06215182A - 文字切り出し装置およびこれを用いた文字認識装置 - Google Patents

文字切り出し装置およびこれを用いた文字認識装置

Info

Publication number
JPH06215182A
JPH06215182A JP5005394A JP539493A JPH06215182A JP H06215182 A JPH06215182 A JP H06215182A JP 5005394 A JP5005394 A JP 5005394A JP 539493 A JP539493 A JP 539493A JP H06215182 A JPH06215182 A JP H06215182A
Authority
JP
Japan
Prior art keywords
character
characters
recognition
field
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5005394A
Other languages
English (en)
Other versions
JP2592756B2 (ja
Inventor
Michihiro Nagaishi
道博 長石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R SHICHOKAKU KIKO KENKYUSHO KK
ATR SHICHOKAKU KIKO KENKYUSHO
Original Assignee
A T R SHICHOKAKU KIKO KENKYUSHO KK
ATR SHICHOKAKU KIKO KENKYUSHO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R SHICHOKAKU KIKO KENKYUSHO KK, ATR SHICHOKAKU KIKO KENKYUSHO filed Critical A T R SHICHOKAKU KIKO KENKYUSHO KK
Priority to JP5005394A priority Critical patent/JP2592756B2/ja
Priority to DE69328078T priority patent/DE69328078T2/de
Priority to EP93105673A priority patent/EP0606519B1/en
Publication of JPH06215182A publication Critical patent/JPH06215182A/ja
Priority to US08/425,319 priority patent/US6330358B1/en
Application granted granted Critical
Publication of JP2592756B2 publication Critical patent/JP2592756B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 隣接文字と接近して書かれる手書き文字列か
ら、正しく文字を切り出すことができる文字切り出し装
置および文字の切り出しと認識の過程を簡素化できる文
字認識装置を提供する。 【構成】 入力手段1によって電子化された文字を入力
し、誘導場推定手段2によって文字画像の視覚の誘導場
を計算し、求められた複数の文字がつくり出す視覚の誘
導場を用いて、文字切り出し手段3によって個々の文字
の文字領域を決定して文字を文字列から切り出すことに
よって文字切り出し装置を構成する。この切り出された
文字の視覚の誘導場を、辞書として予め用意してある文
字の視覚の誘導場に一致させようと変形させることで生
ずる視覚の誘導場の歪みの大きさから相異なる文字の視
覚の誘導場の違いを定量的に評価して文字認識を行なう
ことにより文字認識装置を構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は文字切り出し装置およ
びこれを用いた文字認識装置に関し、特に、手書き文字
を入力し、その文字データから文字を切り出しその結果
を出力する文字切り出し装置およびその切り出された文
字を認識する文字認識装置に関する。
【0002】
【従来の技術】図15は従来の文字認識装置を示す概略
ブロック図である。図15において、文字は入力手段2
0によって電子化され、最初に文字切り出し手段21に
よって文字列から個々の文字に切り分けられる。切り分
けられた個々の文字は、特徴抽出手段22によって文字
の特徴が抽出される。そして、認識手段23では、抽出
された特徴量を基に、予め辞書として用意された特徴量
と、入力された文字の特徴量との距離を計算して文字の
識別を行なう。入力手段20と文字切り出し手段21と
特徴抽出手段22と認識手段23の出力結果や状態は出
力手段24によって行なわれる。
【0003】ところで、どのような文字認識装置におい
ても、必ず入力された文字画像から個々の文字を切り出
す必要がある。文字認識装置では、文字認識手段の性能
だけでなく、文字切り出し手段の性能も十分高くなけれ
ばならない。
【0004】また、文字を1文字ずつ切り出す前に、文
書中から文字列を抽出しなければならない。一般に、横
書きの場合は垂直方向の文書画像の射影から文字列が存
在する領域を推定することが行なわれる。手書きの文書
であっても、横書きの場合は文字列は傾いていても、比
較的直線的に筆記されることが多いので、文書画像の射
影を用いて、ほとんどの文書からほぼ正しく文字列を抽
出することが可能である。また、個々の手書き文字が丁
寧に書かれておらず、異なる文字列間の文字成分が重な
ったりしている場合でも、文書内における射影から、お
およその文字列の位置は推定することが可能である。こ
のように、手書き文字の文書から抽出した文字列には、
その文字列以外の他の文字列の成分があるかもしれない
が、少なくとも目的の文字列の文字が含まれている。こ
のように、従来の技術であっても、手書き文書内から文
字列を目的の文字を含んだ状態で抽出することが十分で
きる。
【0005】文字の切り出しは、文字と文字の間の間隙
の有無を調べることで行なわれ、一般的に横書きの場合
は水平方向への文字列画像の射影の切れ目を基準に、そ
こから一次元的に直線で切り出しを行なっている。活字
のイタリック体などは或る一定の角度で傾いているの
で、文字画像の射影をとる際に、射影方向をいろいろな
方向に変更して射影が最も先鋭になる方向の射影を用い
ることで、一般の文字と同様に射影を用いて文字の切り
出しを行なうことができる。
【0006】文字間隔が揃っている活字の場合に比べ、
手書き文字は、隣接文字同士が極めて接近している場合
が多い。このような場合、図3(a)に示す文字「食」
と文字「塩」の射影が示しているように射影に切れ目が
ないため、文字「食」と文字「塩」を射影の切れ目から
直接切り分けることはできない。そこで、一般に日本語
の場合、文字の高さと幅が同じことが多い性質を利用し
て、文字列の高さを文字の大きさと仮定し、強制的に文
字を切り出すなどの処理が行なわれる。図3(a)の場
合、文字「塩」と文字「の」の切れ目は推定できるの
で、ここを基準に強制的に文字「食」と文字「塩」を切
り出すことができる。
【0007】また、たとえば図3(b)に示す文字
「な」のように、文字内で各構成要素の間隔が開いてし
まうと、文字「な」の構成要素を別の文字として切り出
してしまう場合もある。あるいは、図3(b)の射影か
ら、文字「な」の左側の部分は別の文字の一部として切
り出されてしまう恐れがある。このように切れ目を文字
と文字の切れ目として100%信頼することはできな
い。そこで、認識結果や単語知識などを用いて、射影を
用いて仮に切り出した各部分をラベル付けした後、これ
らを組合せて文法的な意味から最適な組合せを探すこと
で最終的な切り出しを行なう総合的な方法も行なわれて
いる。
【0008】文字認識で使われる文字の特徴とは、文字
の基本的構成であるストロークなどや文字画像として見
た場合の座標点の分布状況を、多次元ベクトル量として
定量的に表わしたものである。これらの特徴量は、主と
して文字認識装置の設計者自身の直感などを基に考案さ
れており、非常に多くの種類の特徴量が文字認識装置で
用いられている。認識はこのようにして得られた多次元
ベクトル量を多変量解析の手法を基本に行なわれてい
る。
【0009】一方、文字の切り出しは、先に述べたよう
に、専ら射影が用いられている。このように、文字の切
り出しと認識過程では、全く異なった方法で別々に処理
が行なわれている。
【0010】
【発明が解決しようとする課題】しかしながら、認識結
果や単語知識などを用いて総合的に判定する方法をとっ
た場合、判定すべき組合せが非常に多くなり、判定に要
する時間が非常にかかる。判定時間は文字列が多ければ
多いほど、より多くの時間が必要である。さらに、この
ような判定を実行するソフトウェアは、判定に関する例
外処置への対応などのため、極めて複雑で、ソフトウェ
アを作成するのにも大変な努力が必要である。
【0011】また、漢字などの場合は、或る文字の構成
要素がそれぞれ別々の部分として切り出されたとき、偏
と旁が独立した文字として扱うことができる場合があ
る。この場合、単に文法的な知識だけではなく、文脈と
して解析しなければならない。そして、さらに組合せの
ために多くの検討時間と文脈と関する知識が必要となっ
てしまう。特に、極めて隣接文字と接近して書かれる手
書き文字の場合、射影を用いて個々の文字が正しく切り
出される確率が低いので、単純に切り出された部分の組
合せの最適化を行なおうとしても、なかなか良い結果が
得られないことが多い。
【0012】射影を用いた場合、切り出しは直線的なの
で、文字列の高さから推定された文字幅で文字列が強制
的に切り離された場合、切り出された文字領域内に他の
文字成分が存在することがあるので、このまま認識を行
なうと認識率の低下を招いてしまう。
【0013】活字のイタリック体のように射影方向を変
更することで、手書き文字の傾きなどに対応することも
考えられる。しかし、手書き文字は活字と異なり、同一
筆者が書いた場合でも、同じ文字列中に存在する個々の
文字の傾きが一定ではなく、さらに文字の回転や変形な
どが加わるので、射影方向をいろいろと変更しても、文
字の切れ目を正しく推定することは難しい。
【0014】このように、手書き文字は極めて隣接文字
と接近して書かれる場合が多いため、射影を用いて一次
元的に文字を抽出するのは知識など他の情報を使っても
困難である。
【0015】一方、文字の切り出しと認識は全く別の過
程で処理されている。そのため、それぞれの種類に応じ
た処理過程を用意しなくてはならないので、文字認識装
置全体が複雑になってしまう。また、文字の切り出しと
認識は全く別の形式の結果が得られるので、一方の結果
を他方に還元して結果の修正を行なう場合に、どのよう
な量が得られたらどのような修正を行なえばよいのか推
定することが非常に難しい。多くの場合、前述の知識処
理のように、文字の切り出しと認識から多くの候補を挙
げておき、文法的な知識を補助手段として、得られた候
補から文法的に最も正しいものを選択するのみである。
一方の結果を他方に還元して、積極的に結果の修正を行
なうことはあまりされていない。
【0016】それゆえに、この発明の主たる目的は、隣
接文字と接近して書かれる手書き文字列から、正しく文
字を切り出すことができる文字切り出し装置およびこの
ような文字切り出し装置を用いて文字の切り出しと認識
の過程を簡素化できる文字認識装置を提供することであ
る。
【0017】
【課題を解決するための手段】請求項1に係る発明は、
電子化された文字を入力する入力手段と、入力手段で得
られた文字画像の視覚の誘導場を計算する誘導場推定手
段と、誘導場推定手段で求められた複数の文字がつくり
出す視覚の誘導場を用いて個々の文字の文字領域を決定
して文字を文字列から切り出す文字切り出し手段と、入
力手段,誘導場推定手段および文字切り出し手段の出力
結果や状態を表示する出力手段とから構成される。
【0018】請求項2に係る発明は、電子化された文字
を入力する入力手段と、入力手段で得られた文字画像の
視覚の誘導場を計算する誘導場推定手段と、誘導場推定
手段で求められた複数の文字がつくり出す視覚の誘導場
を用いて個々の文字の文字領域を決定して文字を文字列
から切り出す文字切り出し手段と、文字切り出し手段で
切り出された文字の視覚の誘導場を、辞書として用意し
てある文字の視覚の誘導場に一致させようと変形させる
ことで生ずる視覚の誘導場の歪みの大きさから、相異な
る文字の視覚の誘導場の違いを定量的に評価して文字認
識を行なう認識手段と、入力手段,誘導場推定手段,文
字切り出し手段および認識手段の出力結果や状態を表示
する出力手段とから構成される。
【0019】
【作用】請求項1に係る文字切り出し装置は、生理学,
心理学的な知見に基づいて、文字画像に含まれる複数の
文字がつくり出す視覚の誘導場を推定し、視覚の誘導場
をポテンシャル値の低いところから高いところへ順に見
て、その分布の仕方の変化(単一閉曲線の存在)から文
字の二次元的な存在領域を推定することで、文字の切り
出しを行なうことにより、隣接文字と接近して書かれる
手書き文字列から文字を切り出すことができる。
【0020】請求項2に係る文字認識装置は、視覚の誘
導場を用いて切り出された文字の誘導場と、辞書として
予め用意してある他の誘導場に一致しようと誘導場が変
形することで生ずる歪みの大きさを定量化して認識を行
ない、視覚の誘導場を用いた文字切り出しと文字認識を
一貫して行なうことにより、文字認識装置の処理過程を
簡素化することができる。
【0021】
【実施例】まず、この発明の実施例について説明する前
に、この発明の原理について説明する。最初に、生理学
および心理学的な知見に基づいた文字画像の視覚の誘導
場の推定を行なう例として、電子化によって得られた文
字のディジタル画像から数値計算によって推定する方法
について説明する。
【0022】図4はディジタル画像の画素配列を示す図
である。ディジタル画像の画素は格子状に配列されてお
り、画素間距離を1とおく。図4に示すように、n個の
点列31から37の集まりである直線38によって任意
の点30に視覚の誘導場が形成されるものとする。曲線
38は線図形の線分や面図形の輪郭線に当たる。曲線3
8を構成している各点は、電荷1の点電荷と仮定する。
点30から曲線38上の各点31から37まで走査し
て、曲線38を構成するn個の点が見つかり、走査して
見つかった各点までの距離をri とすると、点Pにおけ
る視覚の誘導場の強さMP は次の第(1)式のように定
義される。
【0023】
【数1】
【0024】第(1)式を用いることにより、任意のデ
ィジタル画像の視覚の誘導場を求めることができる。な
お、第(1)式において、点Pから発した光が直接当た
る部分のみの走査についての和をとる。点Pから見て、
別の線分などで隠されて見えなかった部分からの寄与は
ないものとする。第(1)式には、このような制約条件
があるので、文字画像の走査を行なう際には注意が必要
である。
【0025】図5は前述の数値計算方法によって求めた
文字「E」の視覚の誘導場の例を示した図である。な
お、以下の説明では、視覚の誘導場はすべて前述の数値
計算方法によって求めるものとする。図5において、太
い線が文字「E」であり、その周囲に存在する線が視覚
の誘導場の同じ場の強さを結んだ等ポテンシャル面を示
す等高線である。図5中の数字は等ポテンシャル面にお
ける場の強さを示している。視覚の誘導場(以下、単に
誘導場と称する)は、文字の周りに分布し、その強さは
文字からの距離に依存し、文字に近いほど大きな値を持
つ。
【0026】まず、誘導場を用いた文字の切り出しにつ
いて述べる。手書き文字列は、原則として各文字の誘導
場の分布がなるべく互いに分離するように筆記される
(または、各文字の誘導場が干渉して、融合しないよう
になっている。)。そこで、文字列の誘導場の分布を調
べることで、文字の二次元的な存在領域を推定すること
が可能である。なお、誘導場を用いた文字の切り出しを
行なう場合に用いる文字列は、現在の射影を用いた方法
によって文書から抽出したものとする。射影を用いた方
法でも文書から文字列を十分な精度で抽出することが可
能だからである。
【0027】図6は隣接文字を含む文字画像について、
第(1)式を用いて対象画像の黒画素以外のすべての画
素に対し計算した誘導場の一例である。第(1)式を用
いることにより、隣接文字を含む文字画像のように形が
不定で複雑な画像であっても、誘導場を計算することが
できる。
【0028】図6において、文字「な」の構成要素は互
いにかなり離れているので、要素間の関係が希薄のよう
に見える。そのため、文字「な」の構成要素の誘導場が
他の文字成分の誘導場と融合するように思えるが、実際
の誘導場の分布からはそのようにはなっていない。文字
「な」の構成要素はそれぞれ等ポテンシャル面である閉
曲線62,63で囲まれている。さらに、文字「な」全
体は閉曲線60で囲まれ、文字「な」の存在領域を否定
している。閉曲線60より外側の等ポテンシャル面61
は、文字「な」以外の文字成分も含んでいる。文字
「な」の周りの等ポテンシャル面をポテンシャル値が低
いところから高いところへ順に見ていくと、最初は文字
周辺の他の文字成分などと融合しているが(等ポテンシ
ャル面61)、次第に小さくなり、或るポテンシャル値
のときに、1つの文字だけを包む閉曲線60が出現す
る。
【0029】さらに、ポテンシャル値が高くなると、文
字「な」の構成線分が分離している場合、等ポテンシャ
ル面も分離していく(閉曲線62,63)。このとき、
分離した閉曲線62,63は、最初に文字を包んでいた
閉曲線60に含まれている。つまり、閉曲線の包含関係
を基にした階層構造が見られる。
【0030】なお、ここで閉曲線が含まれているという
ことは、閉曲線の二次元平面上の位置で判定されている
ものとする。したがって、隣接文字を含む文字画像の誘
導場を求め、ポテンシャル値が低いところから高いとこ
ろへ順に等ポテンシャル面を調べて、その閉曲線の関係
を調べることにより、文字領域を規定する特定の閉曲線
を発見することができる。
【0031】閉曲線の領域に文字や文字成分があるのは
次の理由によるものである。クーロンポテンシャルとし
て理解できる視覚の誘導場は、遠隔作用や遮蔽という性
質がある。文字が単独で存在する場合、文字を囲む閉曲
線しか存在しないが、周りにその文字以外の成分がある
場合、誘導場はそれらと相互作用をする。作用は文字同
士が近い場合は強く、離れるに従って小さくなる。それ
が、誘導場の融合や分離という形で観察される。したが
って、文字を囲む閉曲線は、視覚の誘導場の性質から必
然的に現われる現象として理解することができる。
【0032】上述のごとく、図3(b)で示したように
射影を用いた場合、一次元的な射影だけの情報では、文
字「な」の文字領域の推定は不可能である。しかし、図
6のように誘導場を求め、文字「な」を囲む閉曲線を発
見することで文字「な」の二次元的な文字領域を推定で
きるので、推定された領域内にある黒画素を取り出すこ
とで文字の切り出しが可能になる。
【0033】続いて、誘導場による文字認識の原理につ
いて説明する。誘導場の分布は、同じカテゴリであれば
似ており、一方、異なった文字であれば全く異なった分
布を示している。さらに、文字の変形による文字の類似
性も分布の違いとして表現できる性質がある。このよう
な誘導場の分布の違いを定量化することにより、文字を
識別することができる。
【0034】図7は誘導場の分布の違いを用いた文字の
識別原理を説明するための図である。切り出された文字
の誘導場の分布状態の違いを考える場合、誘導場をゴム
のような弾性体として考える。一方の誘導場を他方の誘
導場に合わせようとゴムのように自由に曲げたり伸ばし
たりして変形させると弾性体に歪みが生ずる。歪みは弾
性体の変形が大きいほど大きいので、歪みの量を調べれ
ば両者の誘導場の違いを定量的に知ることができる。こ
の実施例では、歪みを定量的に知るために、弾性エネル
ギーを採用するものとする。
【0035】未知パターンと2つの基準パターンA,B
の誘導場が与えられている場合、各基準パターンに対し
未知パターンを変位させ、変位によって生ずる弾性エネ
ルギーの小さかった基準パターンが未知パターンに近い
と識別することができる。輪郭100は未知文字を示
し、輪郭101は基準パターンAを示し、輪郭102は
基準パターンBの誘導場における或る等ポテンシャル面
を示す。図7(a)は未知文字が基準パターンAの等ポ
テンシャル面に一致しようと変形する様子を示し、図7
(b)は未知文字が基準パターンBの等ポテンシャル面
に一致しようと変形する様子を示したものである。未知
文字の等ポテンシャル面は、パターンBよりもパターン
Aに近い分布をしているので、変形が小さい。認識はた
くさんの基準パターンを用意しておき、このような未知
文字と複数の基準パターンとの比較を行なうことで、未
知文字が基準パターンに一致しようとした際の弾性エネ
ルギーが最も小さかった基準パターンが認識結果であ
る。
【0036】以下、この発明による文字切り出し装置お
よび文字認識装置の具体的な実施例について説明する。
【0037】図1はこの発明の文字切り出し装置の一実
施例の概略ブロック図である。図1において、入力手段
1は電子化された文字を入力するものであり、入力され
た文字データは誘導場推定手段2に与えられる。誘導場
推定手段2は入力手段1から入力された文字画像の視覚
の誘導場を計算するものであり、その計算結果を文字切
り出し手段3に与えられる。文字切り出し手段3は誘導
場推定手段2によって求められた複数の文字がつくり出
す視覚の誘導場を用いて文字列から個々の文字を切り出
す。入力手段1と誘導場推定手段2と文字切り出し手段
3の出力結果や状態は出力手段4に表示される。
【0038】図2はこの発明の文字認識装置の一実施例
の概略ブロック図である。図2において、入力手段5と
誘導場推定手段6と文字切り出し手段7は図1の入力手
段1と誘導場推定手段2と文字切り出し手段3とほぼ同
様にして構成される。さらに、文字認識装置には、文字
切り出し手段7で切り出された文字の視覚の誘導場を用
いて文字認識を行なう認識手段8が設けられ、入力手段
5と誘導場推定手段6と文字切り出し手段7と認識手段
8の出力結果や状態は出力手段9に表示される。
【0039】図8は文字切り出し装置および文字認識装
置の実施例の一般的な電気的構成を示す図である。図8
において、CPU70は図1に示した誘導場推定手段2
と、文字切り出し手段3と、図2に示した認識手段8に
よる視覚の誘導場の推定,文字切り出し,文字認識処理
を実行するものであり、認識する文字データや文字切り
出し,認識過程のデータなどは一時的にRAM71に記
憶され、文字切り出しと認識に必要なプログラムなどは
ROM72に記憶されている。
【0040】なお、文字の切り出しについては、文字認
識装置と文字切り出し装置は共通であるため、ここでは
文字認識装置における動作について説明する。
【0041】図9はこの発明の文字認識装置の一実施例
の動作を説明するためのフローチャートであり、図10
は視覚の誘導場を三次元図形とみなした例を示す図であ
り、図11は図10の三次元図形を底面の面積が同じ容
器に入れて、或るポテンシャル値の高さまで水を注ぐと
仮定して注ぐことのできる水の体積を求めた一例を示す
図であり、図12はポテンシャル値が低いところから高
いところへ順に等ポテンシャル面の分布を調べ閉曲線を
抽出した例を示す図であり、図13は最初に抽出された
閉曲線のポテンシャル値Pi からΔPずつ増加させて抽
出される閉曲線を示した一例を示す図である。
【0042】次に、図2,図8〜図13を参照して、こ
の発明の一実施例の具体的な動作について説明する。な
お、この実施例で扱う文字画像は、文字切り出しの基本
動作を説明するために、文字同士の線分が接触,交差,
重複していないもので、文字列データ内には文字が1つ
だけ存在し、その他は別の文字の成分の一部しかないも
のとする。
【0043】入力手段1から手書き文字列が入力される
と、CPU70はステップ(図示ではSPと略称する)
SP1において、入力された文字画像の誘導場を、第
(1)式に基づいて計算して推定を行なう。次に、CP
U70はステップSP2において、文字領域を規定する
特定の閉曲線を探索する範囲を決定する。視覚の誘導場
が二次元平面上のスカラポテンシャルであることから、
図10に示すように、誘導場を三次元図形とみなすこと
ができる。この三次元図形を底面の面積が同じ容器に入
れて或るポテンシャル値の高さまで水を注ぐと仮定し
て、注ぐことのできる水の体積を求めると図11に示す
ようになる。
【0044】図11の縦軸は容器が空の場合に入る水の
体積を100%とし、或るポテンシャル値の高さまで注
ぐことのできる水の体積の割合を示し、横軸はポテンシ
ャル値を示している。文字が或る閉曲面で分離される体
積の割合は、実験的におよそ40%から70%の間であ
る。すなわち、すべての等ポテンシャル面上で閉曲線の
検索を行なう必要がない。対象とする文字データ列につ
いて、図11のように三次元図形の体積とポテンシャル
値の関係を求め、体積が40%から70%になるポテン
シャル値の範囲を閉曲線検索対象とする。
【0045】次に、CPU70はステップSP3におい
て、決定したポテンシャル値の範囲で閉曲線の検索を行
なう。図12に示すように、ポテンシャル値が低いとこ
ろから高いところへ順に等ポテンシャル面の分布を調べ
閉曲線を抽出していく。ポテンシャル値が低いとき、等
ポテンシャル面が文字画像の縁にあたっている場合は閉
曲線とはしない。次第にポテンシャル値を高くして、縁
にあたることなく単独で存在する閉曲線を探す。抽出し
た閉曲線は抽出された度にラベル付けを行なう。たとえ
ば、図12において、ポテンシャル値がPi からΔP増
加したときに初めて2つの閉曲線80,81が出現した
とする。
【0046】さらに、ポテンシャル値を徐々にΔPずつ
増加させて、次のような包含関係をもった複数の閉曲線
が得られたとする。ここで、閉曲線80,81,82,
83,84をそれぞれA,B,a1 ,b1 ,a12,a11
とする。
【0047】
【数2】
【0048】この例のように、最初に抽出された閉曲線
をA,BとしてA,Bに含まれる閉曲線をaijk...,b
ijk...と表わした場合、その包含関係を次のように表わ
す(i,j,kは整数)。
【0049】
【数3】
【0050】以上のようにして、最初に抽出された閉曲
線A,Bを起点に、包含関係によって階層的づけられた
閉曲線群を得ることができる。
【0051】次に、文字を含んでいる閉曲線群を選択す
る。文字の一部分や雑音などを含んでいる閉曲線群の面
積や周囲長などは、文字を囲んでいる閉曲線群に比べ小
さくなる。閉曲線群をA,B,C,D,…としたとき、
複数の閉曲線群xi の計量評価を行なう関数f(xi
によって文字を含んでいる閉曲線群を評価,決定するこ
とができる。一般に、文字を含んでいる閉曲線群は複数
であるが、仮定から文字が1つだけ含まれている場合
は、次の第(6)式に示す閉曲線群から文字領域を決定
できる。
【0052】 max f(A,B,C,D,…) …(6) 最後に、選択した閉曲線群から文字の切り出しに最適な
閉曲線を推定する。文字線分などが分離している場合が
あるので、次のように文字の存在領域を決定する。すな
わち、図13に示すように、最初に抽出された閉曲線9
0のポテンシャル値Pi からΔPずつ増加させて抽出さ
れる閉曲線を調べ、ポテンシャル値Pi+ΔPのとき、
閉曲線が複数になる。これらの閉曲線93,94および
閉曲線95,96は、それぞれ文字の構成線分の一部を
示しているものと考えられるので、単一の閉曲線しか存
在しないポテンシャル値Pj からPi の間の閉曲線内に
構成線分が分離することなく文字が存在している。文字
の存在領域を最も限定している閉曲線が、閉曲線の複数
化する直前のポテンシャル値Pj の閉曲線92であるこ
とから、この閉曲線92を文字の存在領域とする。文字
の切り出しは、このようにして決めた閉曲線92内に存
在する黒画素を求めることによって可能になる。
【0053】以上のようにして、文字の切り出しが終了
し、引き続いて文字認識を行なう。この実施例では、文
字認識も文字切り出しと同様に誘導場を用いるものとす
る。
【0054】CPU70はステップSP4において、予
めROM72に記憶されている或る辞書パターンの誘導
場に、先ほど切り出された文字の誘導場が一致しようと
変形する際の変位を計算する。切り出された文字の誘導
場は既に求められているので、特徴抽出など別の処理過
程を経ることなく、切り出された結果をそのまま認識に
用いることが可能である。もし、再度誘導場を求める際
でも、文字線分付近の場について求める必要がないの
で、切り出しが行なわれた閉曲線の外側だけを新たに求
めるだけでよい。
【0055】CPU70はステップSP5において得ら
れた変位から弾性エネルギーを得る。ステップSP6に
おいて、求められた弾性エネルギーの大きさから、切り
出された文字が現在照合中の辞書パターンであるかどう
かを判定し、切り出された文字が辞書パターンと同一で
あることが適切であれば処理を終了する。もし、適切で
ない場合は、ステップSP7において別な辞書パターン
を候補として選択し、再び変位と弾性エネルギーを計算
して識別の判定を行なう。
【0056】このようにして、切り出された文字パター
ンの誘導場と予め用意してある各辞書パターンの誘導場
の違いを弾性エネルギーとして順次評価して適切な辞書
を探すことで識別を行なう。このように、文字の切り出
しと認識を誘導場で一貫して処理を行なうことができる
ので、一般的な文字認識のように、切り出しは射影,認
識は特徴抽出という全く別の処理過程を設ける必要がな
い。したがって、文字認識装置の構成を簡素化すること
ができる。
【0057】図14は、実際の手書き文字列からこの実
施例の方法に基づいて文字の切り出しを行なった結果の
幾つかを示した図である。
【0058】どの場合も、文字画像の射影だけでは切り
出し不可能であるが、視覚の誘導場の閉曲線のみで二次
元的な文字領域が規定され、文字が切り出されているこ
とがわかる。なお、この実施例では、文字データには原
則として文字は1つしか含まれていないので、最初に抽
出された閉曲線の周囲長の最も大きいものを、文字が含
まれている閉曲線群として選択した。また、文字の存在
領域が二次元的に規定されるので、射影を用いて強制的
に一次元的に切り出した際に、他の文字成分が含まれて
しまうといった問題がない。したがって、切り出した結
果を基に認識を行なっても認識率の低下を防ぐことがで
きる。
【0059】文字画像に複数の文字が存在する場合、個
々の文字範囲を規定する複数の閉曲線群が存在する。こ
の場合、抽出した閉曲線群から雑音や文字成分の一部と
思われるものを含んでいる閉曲線群を閉曲線の周囲長な
どで判断して除けば、残りの閉曲線群は文字を含んでい
るので、これらの閉曲線群から、文字が1つの場合と同
様にして複数の文字の切り出しが可能である。雑音や文
字成分の一部である閉曲線群は、文字を含んでいる閉曲
線群に比べ、閉曲線の周囲長が極めて短い、ポテンシャ
ルエネルギーが小さいなどの性質を持ち得ることで判断
することが可能である。
【0060】また、文字の切り出しと認識とも全く同じ
処理を経ているので、認識結果を文字切り出しに反映さ
せやすく、知識を用いた文字認識装置全体としての認識
性能を向上させることが容易である。
【0061】たとえば、文字認識の結果、どの辞書と比
較しても右の部分の変形が大きく、照合性が非常に悪い
場合があったとする。もし、文字切り出しが不十分とす
れば、その文字の右にある文字または文字成分の一部が
融合したまま誤って切り出された可能性がある。そこ
で、切り出された文字の元の文字列の誘導場の状態を、
特に切り出された文字の右側の誘導場を重点的に再度検
討することで、最適な文字切り出しを行なうことが可能
である。誘導場を用いて認識を行なった場合、図7で示
したように、どの部分がどのくらい変形しているかを定
量的に知ることが可能である。その変形量を基に、文字
切り出しの再検討すべき範囲などを推定することができ
る。
【0062】
【発明の効果】以上のように、この発明によれば、生理
学,心理学的な知見に基づいて、文字画像に含まれる複
数の文字がつくり出す視覚の誘導場を推定し、視覚の誘
導場をポテンシャル値の低いところから高いところへ順
に見て、その分布の仕方の変化(単一閉曲線の存在)か
ら、文字の二次元的な存在領域を推定することで、文字
の切り出しを行なうことにより、文字画像の射影では切
り出すことの難しい隣接文字と隣接して書かれる手書き
文字列から文字を切り出すことができる。
【0063】また、この発明による文字認識装置は、文
字の切り出しと認識とが、同じ視覚の誘導場を用いた処
理を行なうので、処理過程が簡素化される。また、認識
結果を文字切り出しに反映させやすく、知識を用いて認
識性能を向上させることが容易である。
【図面の簡単な説明】
【図1】この発明の文字切り出し装置の構成を示す概略
ブロック図である。
【図2】この発明の文字認識装置の構成を示す概略ブロ
ック図である。
【図3】隣接文字同士が極めて接近している手書き文字
の一例を示す図である。
【図4】ディジタル画像の画素配列を示す図である。
【図5】文字「E」の視覚の誘導場の一例を示す図であ
る。
【図6】隣接文字を含む文字画像について対象画像の黒
画素以外のすべての画素に対して計算した誘導場の一例
を示す図である。
【図7】誘導場の分布の違いを用いた文字の識別原理を
説明するための図である。
【図8】この発明の文字切り出し装置および文字認識装
置の一実施例の一般的な電気的構成を示す図である。
【図9】この発明の文字認識装置の一実施例の動作を説
明するためのフローチャートである。
【図10】誘導場を三次元図形としてみなした図であ
る。
【図11】三次元図形を底面の面積が同じ容器に入れ
て、或るポテンシャル値の高さまで水を注ぐと仮定して
注ぐことのできる水の体積を求めた一例を示す図であ
る。
【図12】ポテンシャル値が低いところから高いところ
へ順に等ポテンシャル面の分布を調べ閉曲線を抽出した
例を示す図である。
【図13】最初に抽出された閉曲線のポテンシャル値P
i からΔPずつ増加させて抽出した閉曲線を示す図であ
る。
【図14】実際の手書き文字列からこの実施例の方法に
基づいて文字の切り出しを行なった結果の幾つかを示す
図である。
【図15】従来の文字認識装置の一例を示す概略ブロッ
ク図である。
【符号の説明】
1,5 入力手段 2,6 誘導場推定手段 3,7 文字切り出し手段 4,9 出力手段 8 認識手段

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 電子化された文字を入力するための入力
    手段、 前記入力手段で得られた文字画像の視覚の誘導場を計算
    する誘導場推定手段、前記誘導場推定手段で求められた
    複数の文字がつくり出す視覚の誘導場を用いて個々の文
    字の文字領域を決定して文字を文字列から切り出す文字
    切り出し手段、および前記入力手段と前記誘導場推定手
    段と前記文字切り出し手段の出力結果や状態を表示する
    出力手段を備えた、文字切り出し装置。
  2. 【請求項2】 電子化された文字を入力するための入力
    手段、 前記入力手段で得られた文字画像の視覚の誘導場を計算
    する誘導場推定手段、 前記誘導場推定手段で求められた複数の文字がつくり出
    す視覚の誘導場を用いて個々の文字の文字領域を決定し
    て文字を文字列から切り出す文字切り出し手段、 前記文字切り出し手段で切り出された文字の視覚の誘導
    場を、辞書として予め用意されている文字の視覚の誘導
    場に一致させようと変形させることで生ずる視覚の誘導
    場の歪みの大きさから、相異なる文字の視覚の誘導場の
    違いを定量的に評価して文字認識を行なう認識手段、お
    よび前記入力手段と前記誘導場推定手段と前記文字切り
    出し手段と前記認識手段の出力結果や状態を表示する出
    力手段を備えた、文字認識装置。
JP5005394A 1993-01-14 1993-01-14 文字切り出し装置およびこれを用いた文字認識装置 Expired - Fee Related JP2592756B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP5005394A JP2592756B2 (ja) 1993-01-14 1993-01-14 文字切り出し装置およびこれを用いた文字認識装置
DE69328078T DE69328078T2 (de) 1993-01-14 1993-04-06 Zeichensegmentierungsgerät und Zeichenerkennungsgerät, das dieses verwendet
EP93105673A EP0606519B1 (en) 1993-01-14 1993-04-06 Apparatus for character segmentation and apparatus for character recognition using the same
US08/425,319 US6330358B1 (en) 1993-01-14 1995-04-17 Apparatus for character segmentation and apparatus for character recognition using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5005394A JP2592756B2 (ja) 1993-01-14 1993-01-14 文字切り出し装置およびこれを用いた文字認識装置

Publications (2)

Publication Number Publication Date
JPH06215182A true JPH06215182A (ja) 1994-08-05
JP2592756B2 JP2592756B2 (ja) 1997-03-19

Family

ID=11609948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5005394A Expired - Fee Related JP2592756B2 (ja) 1993-01-14 1993-01-14 文字切り出し装置およびこれを用いた文字認識装置

Country Status (3)

Country Link
EP (1) EP0606519B1 (ja)
JP (1) JP2592756B2 (ja)
DE (1) DE69328078T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6198846B1 (en) 1998-01-22 2001-03-06 Nec Corporation Character recognition system
JP2014206973A (ja) * 2013-04-15 2014-10-30 ゼロックス コーポレイションXerox Corporation 自動ナンバープレート認識アプリケーションにおける文字切り出しのための方法およびシステム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5268328A (en) * 1975-12-04 1977-06-07 Fujitsu Ltd Pattern recognition processing system
JPS5269239A (en) * 1975-12-08 1977-06-08 Fujitsu Ltd Pattern recognition system
JPS60126780A (ja) * 1983-12-13 1985-07-06 Ricoh Co Ltd 画像正規化回路
JPS617988A (ja) * 1984-06-22 1986-01-14 Hitachi Ltd パタ−ン復元方式
JPH03273371A (ja) * 1990-03-22 1991-12-04 Nec Corp 文字認識装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57141779A (en) * 1981-02-26 1982-09-02 Nec Corp Character cutout system
US4906940A (en) * 1987-08-24 1990-03-06 Science Applications International Corporation Process and apparatus for the automatic detection and extraction of features in images and displays
US5267326A (en) * 1992-03-31 1993-11-30 Eastman Kodak Company Bitmap image segmentation using a charge model for pixels

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5268328A (en) * 1975-12-04 1977-06-07 Fujitsu Ltd Pattern recognition processing system
JPS5269239A (en) * 1975-12-08 1977-06-08 Fujitsu Ltd Pattern recognition system
JPS60126780A (ja) * 1983-12-13 1985-07-06 Ricoh Co Ltd 画像正規化回路
JPS617988A (ja) * 1984-06-22 1986-01-14 Hitachi Ltd パタ−ン復元方式
JPH03273371A (ja) * 1990-03-22 1991-12-04 Nec Corp 文字認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6198846B1 (en) 1998-01-22 2001-03-06 Nec Corporation Character recognition system
JP2014206973A (ja) * 2013-04-15 2014-10-30 ゼロックス コーポレイションXerox Corporation 自動ナンバープレート認識アプリケーションにおける文字切り出しのための方法およびシステム

Also Published As

Publication number Publication date
JP2592756B2 (ja) 1997-03-19
DE69328078T2 (de) 2000-09-14
EP0606519A3 (en) 1994-10-05
DE69328078D1 (de) 2000-04-20
EP0606519B1 (en) 2000-03-15
EP0606519A2 (en) 1994-07-20

Similar Documents

Publication Publication Date Title
KR100248917B1 (ko) 패턴인식장치및방법
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US7697758B2 (en) Shape clustering and cluster-level manual identification in post optical character recognition processing
US7650035B2 (en) Optical character recognition based on shape clustering and multiple optical character recognition processes
EP0740263B1 (en) Method of training character templates for use in a recognition system
US8111927B2 (en) Shape clustering in post optical character recognition processing
US7646921B2 (en) High resolution replication of document based on shape clustering
US5410611A (en) Method for identifying word bounding boxes in text
US5390259A (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
US20090324107A1 (en) Systems and methods for image recognition using graph-based pattern matching
EP2569930B1 (en) Segmentation of a word bitmap into individual characters or glyphs during an ocr process
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
US20100260420A1 (en) Variable glyph system and method
JP2005148987A (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
JPH06301781A (ja) コンピュータによるパターン認識のためのイメージ変換方法及び装置
JP7282989B2 (ja) テキスト分類
JP2007058882A (ja) パターン認識装置
US6330358B1 (en) Apparatus for character segmentation and apparatus for character recognition using the same
EP2116971A2 (en) Shape clustering in document image processing
JP4176175B2 (ja) パターン認識装置
JP2592756B2 (ja) 文字切り出し装置およびこれを用いた文字認識装置
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP2906758B2 (ja) 文字読取装置
JP2007026470A (ja) パターン認識装置
JPH09282417A (ja) 文字認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960910

LAPS Cancellation because of no payment of annual fees