JP2000322514A - パターン抽出装置及び文字切り出し装置 - Google Patents

パターン抽出装置及び文字切り出し装置

Info

Publication number
JP2000322514A
JP2000322514A JP11134539A JP13453999A JP2000322514A JP 2000322514 A JP2000322514 A JP 2000322514A JP 11134539 A JP11134539 A JP 11134539A JP 13453999 A JP13453999 A JP 13453999A JP 2000322514 A JP2000322514 A JP 2000322514A
Authority
JP
Japan
Prior art keywords
pattern
point
contact
graph
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11134539A
Other languages
English (en)
Other versions
JP3798179B2 (ja
Inventor
Misako Suwa
美佐子 諏訪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP13453999A priority Critical patent/JP3798179B2/ja
Publication of JP2000322514A publication Critical patent/JP2000322514A/ja
Application granted granted Critical
Publication of JP3798179B2 publication Critical patent/JP3798179B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 パターンの接触箇所の検出精度を向上させ
る。 【解決手段】 特徴点検出手段1は、パターンの端点、
交点、または屈曲点を検出し、接続関係判別手段2は、
パターンの端点、交点、または屈曲点の接続関係を判別
し、接触箇所判別手段3は、パターンの端点、交点、ま
たは屈曲点の接続関係に基づいて、パターンの接触箇所
を判別する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はパターン抽出装置及
び文字切り出し装置に関し、特に、接触文字の接触箇所
を検出する場合に適用して好適なものである。
【0002】
【従来の技術】従来の文字同士の接触位置の検出方法と
して、黒画素数ヒストグラムを用いる方法があった。こ
の方法では、文字列の方向と垂直方向の黒画素数をカウ
ントすることにより、黒画素数ヒストグラムを求め、そ
の黒画素数ヒストグラムの極小点を文字同士の接触位置
の候補とするものである。
【0003】図18は、従来の文字同士の接触位置の検
出方法を示す図である。図18(a)において、「印旛
郡白井町」と手書きで書かれた文字パターンが入力さ
れ、「郡」という文字と「白」という文字とがE4の位
置で接触しているものとする。
【0004】ここで、図18(a)のパターンの接触位
置を判定する場合、図18(b)に示すように、図18
(a)のパターンの黒画素数ヒストグラムを求める。そ
して、その黒画素数ヒストグラムの極小点K1〜K5を
接触箇所の候補とするようにしていた。
【0005】
【発明が解決しようとする課題】しかしながら、従来の
黒画素数ヒストグラムを用いる方法では、文字が傾いて
いたり、接触部分に別の文字線分が重なったり、横書き
の場合の縦文字線分同士が接触したりしている場合、接
触箇所に対応する黒画素数ヒストグラム値が極小となら
ない場合が発生し、接触箇所を検出することができない
という問題があった。
【0006】例えば、図18(a)の接触箇所E4に対
応する黒画素数ヒストグラム値は、図18(b)のE
4’の点に対応し、E4’の点は極小点ではないので、
図18(a)の接触箇所E4は接触箇所の候補から落と
される。この結果、図18(a)のパターンを接触箇所
E4の位置で切断することができなくなり、文字認識の
精度が悪化する。
【0007】そこで、本発明の目的は、パターンの接触
箇所の検出精度を向上させることが可能なパターン抽出
装置及び文字切り出し装置を提供することである。
【0008】
【課題を解決するための手段】上述した課題を解決する
ために、本発明によれば、パターンから抽出された特徴
点の接続関係に基づいて、パターンの接触箇所を判別す
るようにしている。
【0009】このことにより、文字同士が接触した時の
連結状態を考慮して文字の接触箇所を判別することが可
能となり、接触箇所を判別する際の文字の傾きの影響を
除去することが可能となることから、パターンの接触箇
所が黒画素数ヒストグラムの極小点に対応しない場合に
おいても、パターンの接触箇所を効率よく見つけ出すこ
とが可能となり、文字領域の切り出し精度を向上させる
ことが可能となる。
【0010】また、本発明の一態様によれば、パターン
の端点、交点、分岐点または屈曲点を検出し、これらの
点から文字同士の接触点を見つけるようにしている。こ
のことにより、文字同士が接触した場合、その接触点
は、通常、端点、交点、または屈曲点になるので、文字
同士の接触点の候補を効率よく見つけることが可能とな
る。
【0011】また、本発明の一態様によれば、パターン
の特徴点の位置でパターンを切断した場合、文字の配列
方向にパターンが分離されないものを、文字同士の接触
点の候補から除くようにしている。
【0012】このことにより、文字の接触方向とは異な
る方向にパターンが切断される切断箇所を文字同士の接
触点の候補から除くことが可能となり、文字同士の接触
点とはならない切断箇所を文字同士の接触点の候補とし
て考慮する必要がなくなることから、文字同士の接触点
を効率よく見つけることが可能となる。
【0013】また、本発明の一態様によれば、パターン
の接続関係を、パターンの特徴点を頂点とし、前記頂点
で挟まれた線分を辺とするグラフで表現するようにして
いる。
【0014】このことにより、パターンの接続情報のみ
を画像データから抽出することが可能となり、パターン
の接続関係を効率的に評価することが可能となることか
ら、文字同士の接触点を効率よく見つけることが可能と
なる。
【0015】また、本発明の一態様によれば、パターン
の接続関係を頂点隣接行列で表し、頂点隣接行列の対角
化ブロック数をカウントすることにより、グラフの連結
成分数を求めるようにしている。
【0016】このことにより、グラフの連結成分数を効
率よく求めることが可能となり、パターンを特徴点で切
断した際に、パターンが分離するかどうかを容易に調べ
ることが可能となることから、文字同士の接触点を効率
よく見つけることが可能となる。
【0017】また、本発明の一態様によれば、グラフの
辺の除去を行った時の前記グラフの連結成分数の変化に
基づいて、接触文字の切断箇所を検出するようにしてい
る。このことにより、パターンの連結成分数を求める場
合に、情報量の多い画像データから直接求める必要がな
くなり、画像データと比べて情報量の少ないグラフデー
タから連結成分数を求めることが可能となることから、
点接触の場合の接触位置を高速に検出することが可能と
なる。
【0018】また、本発明の一態様によれば、第1の線
分に接触している第2の線分の端点が検出された場合、
前記第1の線分方向の黒画素ランレングスが急激に減少
する箇所で、パターンを切断するようにしている。
【0019】このことにより、グラフ上の頂点で特定さ
れた接触箇所から実際のパターンの切断箇所を求めるこ
とが可能となり、点接触前のパターンの形状を再現可能
な位置で、接触パターンを切断することが可能となる。
【0020】また、本発明の一態様によれば、グラフの
辺及びその辺の両端の特徴点の二重化を行った時の前記
グラフの連結成分数の変化に基づいて、接触文字の切断
箇所を検出するようにしている。
【0021】このことにより、パターンの連結成分数を
求める場合に、情報量の多い画像データから直接求める
必要がなくなり、画像データと比べて情報量の少ないグ
ラフデータから連結成分数を求めることが可能となるこ
とから、辺接触の場合の接触位置を高速に検出すること
が可能となる。
【0022】また、本発明の一態様によれば、辺同士の
重なりが検出された場合、その辺を垂直方向に二等分し
た位置で、パターンを切断するようにしている。このこ
とにより、グラフ上の辺で特定された接触箇所から実際
のパターンの切断箇所を求めることが可能となり、辺接
触前のパターンの形状を再現可能な位置で、パターンを
切断することが可能となる。
【0023】また、本発明の一態様によれば、1つの接
触位置に対して、接触位置を示す候補点が複数得られた
場合、それらの候補点で切断したパターンの文字認識結
果に基づいて、それらの候補点が接触点かどうかを判別
するようにしている。
【0024】ここで、接触位置でない点で文字パターン
を切断した場合は、文字でないパターンが切り出され、
そのパターンの文字との相違度は高くなり、接触位置で
文字パターンを切断した場合は、文字パターンが切り出
され、その文字パターンの文字との相違度は低くなる。
このため、接触位置でない点が接触位置を示す候補点と
して検出された場合においても、その候補点を接触点か
ら除外することが可能となり、文字の接触箇所を精度よ
く見つけ出すことが可能となる。
【0025】また、本発明の一態様によれば、切断され
たパターンを他のパターンと組み合わせることにより複
数の文字候補のパターンを切り出す。そして、それらの
パターンと文字との相違度の合計が最も低くなる組み合
わせに基づいて、パターンの接触箇所を判定する。
【0026】このことにより、相違度の低い文字の切り
出し位置が検出された場合においても、それ以外の領域
に残っているパターンの文字との相違度が高い場合に
は、その切り出し位置を文字同士の接触箇所でないと判
断することが可能となり、文字列のパターンから相違度
の低い文字の切り出し位置の候補が複数得られた場合に
おいても、それらの候補を絞り込むことが可能となり、
文字同士の接触箇所の検出精度を向上させることが可能
となる。
【0027】
【発明の実施の形態】以下、本発明の一実施例に係わる
パターン抽出装置について図面を参照しながら説明す
る。図1は、本発明の一実施例に係わるパターン抽出装
置の構成を示すブロック図である。
【0028】図1において、特徴点検出手段1は、パタ
ーンの特徴点を検出する。ここで、特徴点は、パターン
の端点、交点、または屈曲点とすることができる。接続
関係判別手段2は、特徴点検出手段1により検出された
特徴点の接続関係を判別する。接触箇所判別手段3は、
接続関係判別手段2により判別された接続関係に基づい
て、パターンの接触箇所を判別する。ここで、パターン
を構成する線分の接続関係は、パターンが傾いてもその
まま保存される。また、文字同士が接触した場合、その
接触箇所には、パターンの交点、分岐点または屈曲点が
形成される。このため、パターンの特徴点の接続関係を
調べることにより、パターンが傾いている場合において
も、文字同士の接触箇所を精度よく検出することが可能
となる。パターンから抽出された特徴点が文字同士の接
触箇所であるかどうか調べる場合、その特徴点の位置で
パターンを切り離した時に、パターンが2つに分離する
かどうかにより判断する。
【0029】ここで、画像データの情報量は膨大であ
り、画像データそのものを直接処理して、パターンの連
結成分数を調べると、時間がかかる。そこで、接触箇所
判別手段3は、特徴点の接続関係をグラフで表現するよ
うにしてもよい。そして、グラフの辺や頂点を操作した
時にグラフの連結成分数が変化するかどうかを調べるこ
とより、パターンの接触箇所を判別するようにしてもよ
い。このことにより、パターンの特徴点の接続関係を表
すために必要な情報のみを画像データから抽出して、パ
ターンの特徴点の接続関係を調べることが可能となり、
処理時間を短縮することができる。
【0030】また、接触箇所判別手段3は、特徴点の接
続関係を表すグラフを頂点隣接行列で表現するようにし
てもよい。そして、グラフの辺や頂点の操作する前と後
で頂点隣接行列の対角化ブロック数が変化するかどうか
を調べることより、パターンの接触箇所を判別するよう
にしてもよい。
【0031】図2は、本発明の一実施例に係わる文字認
識装置の構成を示すブロック図である。なお、以下の実
施例では、文字が横書きで記入されている場合について
説明するが、文字が縦書きで記入されている場合につい
ても、行を列に置き換えることにより、同様に処理する
ことができる。
【0032】図2において、OCR(光学的文字認識装
置)11は、手書き文字が記入された帳票や文書を読み
込み、手書き文字の認識結果を出力する。観測部12
は、CCDやスキャナなどによって手書き文字が記入さ
れた帳票や文書を取り込み、取り込んだ画像データを白
黒の二値化データに変換する。文字列抽出部13は、画
像データのパターンを1行ごとに切り出し、文字列を抽
出する。接触文字判定部14は、各行画像中のパターン
のラベリングを行うことにより、各行画像中のパターン
の連結成分を抽出する。そして、連結成分の外接矩形の
サイズや縦横比などを調べることにより、文字どうしが
接触しているパターンかどうかを判定する。例えば、連
結成分の外接矩形の横方向の長さが縦方向の長さよりも
所定値以上長い場合、その連結成分は、文字どうしが接
触しているパターンであると判定する。
【0033】接触候補箇所決定・切断部15は、接触文
字判定部14で接触文字と判定されたパターンに対し、
切断候補箇所を決定する。ここで、接触候補箇所決定・
切断部15は、切断候補箇所を決定する場合、文字列の
黒画素数ヒストグラムの極小点を切断候補箇所に決定す
るのではなく、接触文字と判定されたパターンを構成す
る線分の接続関係を調べ、その線分の接続点を切断候補
箇所に決定する。このことにより、文字が傾いていた
り、接触部分に別の文字線分が重なったり、文字の線分
同士が接触したりしているために、文字の接触箇所で黒
画素数ヒストグラムが極小にならない場合においても、
文字の接触箇所を精度よく識別することができる。ここ
で、パターンの接続点を効率よく見つけるため、パター
ンの接続関係をグラフで表現したり、頂点隣接行列を用
いたりすることができる。
【0034】切断候補箇所が決まると、接触文字と判定
されたパターンを切断候補箇所で切断することにより、
部分パターンを生成する。候補文字ラティス生成部16
は、二端子有向グラフの最短経路問題におけるダイクス
トラの手法(以下、候補文字ラティス法と称す。)によ
り、候補文字二端子有向グラフ(以下、候補文字ラティ
スと称す。)を生成する。すなわち、接触候補箇所決定
・切断部15により切断された部分パターンと行画像中
の他のパターンの連結成分との可能な組み合せによる統
合パターンを生成する。そして、その統合パターン、あ
るいは、統合前の単独パターンに対し、認識辞書部17
に登録されている文字種との比較を行い、第N位までの
候補文字種及び相違度または類似度を求める。候補文字
種及び相違度または類似度が求まると、候補文字ラティ
スを生成し、1文字領域と認識の第1次候補を決定す
る。
【0035】言語処理部18は、知識辞書部19を使っ
て、認識の第1次候補をチェックし、第1次候補に文法
的に間違いがあれば、第1次候補を下位の候補に置き換
える。そして、文法的に間違いのない候補が得られる
と、その候補を文字認識結果として決定するとともに、
その候補の位置を1文字領域と決定する。
【0036】図3は、図2の接触候補箇所決定・切断部
15の処理を示すフローチャートである。図3におい
て、接触候補箇所決定・切断部15は、接触文字判定部
14により抽出された接触パターンの細線化を行う(ス
テップS1)。ここで、細線化は、接触パターンから端
点、交点、または屈曲点を求める場合に、これらの点を
求めやすくするために行う。従って、細線化は、元のパ
ターンに含まれる端点、交点、または屈曲点が保存され
るように行う。
【0037】図4は、本発明の一実施例に係わる細線化
パターンの具体例を示す図である。図4(a)におい
て、E1の点で接触している「静岡」というパターンを
細線化することにより、E1’の点で接触している図4
(b)の細線化パターンを得ることができる。
【0038】細線化パターンが得られると、その細線化
パターンから端点、交点、及び屈曲点を抽出し、これら
の点をグラフの頂点とする(ステップS2)。すなわ
ち、端点を1次の頂点、3本、4本の線分が交わる交点
をそれぞれ、3次、4次の頂点とする。2次の頂点は、
各辺における屈曲点とする。
【0039】図5は、次数2の頂点の決定方法を説明す
る図である。図5において、2つの頂点に挟まれた辺上
の着目点P0とその前後のサンプル点P1,P2を考
え、P1を始点、P0を終点とするベクトルをd1 、P
0を始点、P2を終点とするベクトルをd2 とした時、
ベクトルd1 、d2 の成す角θを以下の式で求める。
【0040】 θ=cos-1(d1 ・d2 /|d1 |・|d2 |) ここで、|d1 |、|d2 |はそれぞれ、ベクトル
1 、d2 の大きさである。角度θが、しきい値θth
り大きい場合、すなわち、θ>θthの場合、P0を次数
2の頂点とする。
【0041】グラフの頂点が求まると、輪郭追跡の手法
で細線化パターンを探索することにより、細線化パター
ンから抽出された端点、交点、及び屈曲点の接続関係を
求め、頂点間の隣接関係を求める(ステップS3)。そ
して、頂点の隣接関係が求まると、それらの頂点を辺で
接続したグラフを生成する。
【0042】図6(a)は、点接触したパターンの具体
例を示す図、図6(b)は、図6(a)のパターンをグ
ラフ化した例を示す図である。図6(a)において、E
2の位置で点接触している「上山」というパターンが接
触文字判定部14により抽出された場合、このパターン
を細線化し、細線化パターンの探索を行いながら、細線
化パターンの探索方向を調べる。そして、探索時に、探
索方向が所定の角度以上変化した場合、その点をグラフ
の2次の頂点とし、探索時に、探索方向が2つに枝分か
れした場合、その点をグラフの3次の頂点とし、探索時
に、探索方向が3つに枝分かれした場合、その点をグラ
フの4次の頂点とする。
【0043】以上の処理により、図6(a)のパターン
からV0〜V11の頂点が検出され、これらの頂点を辺
e0〜e10で接続した図6(b)のグラフG1を生成
することができる。
【0044】接触候補箇所決定・切断部15は、文字接
触パターンに対応したグラフを生成すると、そのグラフ
に対応した頂点隣接行列を求める(ステップS4)。頂
点隣接行列は、グラフの各頂点に対応する行成分及び列
成分を有する。そして、頂点間が1辺で連結している場
合、その2つの頂点で特定される行列成分は1の値をと
り、頂点間が連結していない場合、その2つの頂点で特
定される行列成分は0の値をとる性質を持つ。
【0045】図7(a)は、図6(b)のグラフの頂点
隣接行列を示す図である。図7(a)において、行及び
列の各成分は、グラフG1の頂点V0〜V11にそれぞ
れ対応している。ここで、図6(b)のグラフG1にお
いて、2つの頂点V0〜V11を接続する辺e0〜e1
0がある場合、その2つの頂点V0〜V11で特定され
る行列成分は1、2つの頂点V0〜V11を接続する辺
e0〜e10がない場合、その2つの頂点V0〜V11
で特定される行列成分は0となる。例えば、図6(b)
のグラフG1において、頂点V3、V4は辺e3で接続
されているので、頂点V3、V4で特定される行列成分
(4行5列目の成分及び5行4列目の成分)は、1とな
っている。また、図6(b)のグラフG1において、頂
点V2、V5は辺e0〜e10で接続されていないの
で、頂点V2、V5で特定される行列成分(3行6列目
の成分及び6行3列目の成分)は、0となっている。
【0046】頂点隣接行列が求まると、頂点隣接行列の
行または列を入れ替えることにより、頂点隣接行列のブ
ロック対角化を行う。そして、ブロック対角化後の頂点
隣接行列に含まれる対角化ブロック数をカウントする
(ステップS5)。ブロック対角化後の頂点隣接行列に
含まれる対角化ブロック数は、グラフの連結成分数に対
応しており、ブロック対角化後の頂点隣接行列に含まれ
る対角化ブロック数をカウントすることにより、グラフ
の連結成分数を求めることができる。
【0047】次に、点接触箇所候補の導出を行う(ステ
ップS6)。この点接触箇所候補の導出では、グラフの
辺を1つずつ除去し、辺の除去によりグラフが2つに分
離する場合、例えば、辺を除去する前のグラフの連結成
分が1であるとすると、辺を除去した後のグラフの連結
成分が2に増加する場合、その辺の両端の頂点を点接触
の切断箇所の候補とする。
【0048】ここで、辺を除去した後のグラフに対応す
る頂点隣接行列を、辺を除去する前のグラフに対応する
頂点隣接行列から求め、頂点隣接行列の行または列を入
れ替えることにより、頂点隣接行列のブロック対角化を
行う。そして、辺を除去する前のグラフに対応する頂点
隣接行列の対角化ブロック数と、辺を除去した後のグラ
フに対応する頂点隣接行列の対角化ブロック数との差分
が1となるかどうかを調べることにより、グラフが2つ
に分離するかどうかを判別することができる。図6
(c)は、図6(b)のグラフから辺を除去した場合に
グラフの連結成分数が増加する例を示す図である。
【0049】図6(c)において、図6(b)のグラフ
G1から辺e4を除去した場合、頂点V0〜V4からな
るグラフG2と、頂点V5〜V11からなるグラフG3
とに分離する。この場合、辺e4の両端の頂点V4、V
6を点接触の切断箇所の候補とする。このことにより、
図6(a)の接触パターンの接触点E2を切断箇所の候
補として検出することが可能となる。
【0050】図6(b)のグラフG1から辺e0〜e1
0を1つずつ除去し、グラフG1が2つに分離するかど
うかを調べることにより、点接触による切断箇所の候補
として、6つの頂点V1、V4、V6、V7、V9、V
11が検出される。なお、この段階では、接触点E2に
対応する頂点V6の他に、文字自体に含まれる交点や屈
曲点に対応する頂点V1、V4、V7、V9、V11も
検出される。
【0051】図7(b)は、図6(c)のグラフG2、
G3の頂点隣接行列を示す図である。図7(b)におい
て、図7(a)の頂点隣接行列から図7(b)の頂点隣
接行列を求める場合、図6(b)のグラフG1から除去
された辺の両端の頂点に対応する行列成分を0にする。
例えば、図6(b)のグラフG1から辺e4を除去する
ことにより、図6(c)のグラフG2、G3が生成され
たものとする。この場合、辺e4の両端の頂点はV4及
びV6であるので、図7(a)の頂点隣接行列の頂点V
4、V6で特定される成分、すなわち、(5、7)成分
及び(7、5)成分を0にする。この結果、図7(b)
の頂点隣接行列が得られる。
【0052】図7(b)の頂点隣接行列は、2つの正方
行列A1、A2が対角斜め方向に配置されており、2つ
の正方行列A1、A2の直和の形で表現できる。ここ
で、頂点隣接行列のブロック対角化により得られる対角
化ブロック数(対角斜め方向に配置される正方行列の個
数)は、その頂点隣接行列に対応するグラフの連結成分
数を表している。このため、頂点隣接行列を用いること
により、グラフから辺を除去した時に、グラフが2つに
分離するかどうかを判定することができ、その時の辺の
両端の頂点を点接触の切断箇所の候補とすることができ
る。
【0053】図8は、頂点隣接行列から接触点の候補を
求める方法を示すフローチャートである。なお、図8の
フローチャートでは、文字同士が複数の箇所で接触する
のは、通常2点程度であるので、2点接触まで求める処
理を示した。
【0054】図8において、グラフの頂点から2個選
び、その頂点に対応する頂点隣接行列のj行k列成分が
1かどうかを判定する(ステップS21)。そして、頂
点隣接行列のj行k列成分が1の場合、j行k列成分及
びk行j列成分を0にする(ステップS22)。次に、
j行k列成分及びk行j列成分を0にした頂点隣接行列
の行または列を入れ替えることにより、j行k列成分及
びk行j列成分を0にした頂点隣接行列のブロック対角
化を行い、ブロック対角化後の対角化ブロック数をカウ
ントする(ステップS23)。
【0055】次に、j行k列成分及びk行j列成分を0
にする前の頂点隣接行列の対角化ブロック数と、j行k
列成分及びk行j列成分を0にした後の頂点隣接行列の
対角化ブロック数とを比較し(ステップS24)、j行
k列成分及びk行j列成分を0にした後の頂点隣接行列
の対角化ブロック数が、j行k列成分及びk行j列成分
を0にする前の頂点隣接行列の対角化ブロック数より1
だけ増加した場合、頂点jと頂点kとを1点接触の切断
箇所の候補とする(ステップS25)。以上の処理を頂
点隣接行列のj行k列の全ての成分について繰り返す。
【0056】次に、一点接触の切断箇所の候補を除いた
グラフの頂点から4個選び、その頂点に対応する頂点隣
接行列のj行k列成分及びm行n列成分が1かどうかを
判定する(ステップS26)。そして、頂点隣接行列の
j行k列成分及びm行n列成分が1の場合、j行k列成
分及びk行j列成分を0にするとともに、m行n列成分
及びn行m列成分を0にする(ステップS27)。次
に、これらの4つの成分を0にした頂点隣接行列の行ま
たは列を入れ替えることにより、これらの4つの成分を
0にした頂点隣接行列のブロック対角化を行い、ブロッ
ク対角化後の対角化ブロック数をカウントする(ステッ
プS28)。
【0057】次に、これらの4つの成分を0にする前の
頂点隣接行列の対角化ブロック数と、これらの4つの成
分を0にした後の頂点隣接行列の対角化ブロック数とを
比較し(ステップS29)、これらの4つの成分を0に
した後の頂点隣接行列の対角化ブロック数が、これらの
4つの成分を0にする前の頂点隣接行列の対角化ブロッ
ク数より1だけ増加した場合、頂点j、頂点k、頂点
m、頂点nを2点接触の切断箇所の候補とする(ステッ
プS30)。以上の処理を頂点隣接行列のj行k列及び
m行n列の全ての成分の組み合わせについて繰り返す。
【0058】次に、辺接触候補箇所の導出を行う(ステ
ップS7)。この辺接触候補箇所の導出では、グラフの
1辺とその辺の両端に接続する2頂点を二重化し、二重
化によりグラフが2つに分離する場合、例えば、二重化
する前のグラフの連結成分が1であるとすると、二重化
した後のグラフの連結成分が2に増加する場合、その辺
を辺接触の切断箇所の候補とする。
【0059】ここで、辺及びその辺の両端に接続する2
頂点を二重化した後のグラフに対応する頂点隣接行列
を、辺及びその辺の両端に接続する2頂点を二重化する
前のグラフに対応する頂点隣接行列から求め、頂点隣接
行列の行または列を入れ替えることにより、頂点隣接行
列のブロック対角化を行う。そして、二重化する前のグ
ラフに対応する頂点隣接行列の対角化ブロック数と、二
重化した後のグラフに対応する頂点隣接行列の対角化ブ
ロック数との差分が1となるかどうかを調べることによ
り、グラフが2つに分離するかどうかを判別してもよ
い。
【0060】図9(a)は、辺接触したパターンの具体
例を示す図、図9(b)は、図9(a)のパターンをグ
ラフ化した例を示す図、図9(c)は、図9(b)のグ
ラフの辺及びその辺の端点の二重化を行った場合にグラ
フの連結成分数が増加する例を示す図である。
【0061】図9(a)において、E3の位置で辺接触
している「山口」というパターンが接触文字判定部14
により抽出された場合、このパターンを細線化し、細線
化パターンの探索を行いながら、細線化パターンの探索
方向を調べる。そして、探索時に、探索方向が所定の角
度以上変化した場合、その点をグラフの2次の頂点と
し、探索時に、探索方向が2つに枝分かれした場合、そ
の点をグラフの3次の頂点とし、探索時に、探索方向が
3つに枝分かれした場合、その点をグラフの4次の頂点
とする。
【0062】以上の処理により、図9(a)のパターン
からV0〜V7の頂点が検出され、これらの頂点を辺e
0〜e7で接続した図9(b)のグラフG11を生成す
ることができる。
【0063】次に、図9(b)のグラフG11におい
て、例えば、辺e4及びその辺e4の両端の頂点V4、
V5を二重化することにより、辺e4’及びその辺e
4’の両端に接続する頂点V4’、V5’を生成する。
ここで、二重化を行う場合、頂点V4、V5と他の頂点
V0〜V3、V6、V7との接続関係を調べる。そし
て、頂点V4、V5については、頂点V4、V5と左方
向に隣接する頂点との接続関係のみを付与し、頂点V
4’、V5’については、頂点V4、V5と右方向に隣
接する頂点との接続関係のみを付与する。
【0064】例えば、頂点V4に隣接している頂点とし
て、頂点V6が検出されると、頂点V6の頂点V4に対
する隣接方向を調べる。この結果、頂点V6が頂点V4
に対して右方向に隣接していると判別されると、グラフ
G12の頂点V4から頂点V6を切り離し、その頂点V
6をグラフG13の頂点V4’に接続する。また、頂点
V5に隣接している頂点として、頂点V3、V7が検出
されると、頂点V3、V7の頂点V5に対する隣接方向
を調べる。この結果、頂点V3は頂点V5に対して左方
向に隣接していると判別されると、グラフG13の頂点
V5’から頂点V3を切り離し、その頂点V3をグラフ
G12の頂点V5に接続する。また、頂点V7は頂点V
5に対して右方向に隣接していると判別されると、グラ
フG12の頂点V5から頂点V7を切り離し、その頂点
V7をグラフG13の頂点V5’に接続する。
【0065】この結果、図9(c)に示すように、頂点
V0〜V5からなるグラフG12と、頂点V4’、V
5’、V6、V7からなるグラフG13とに分離する。
この場合、辺e4を辺点接触の切断箇所の候補とする。
このことにより、図9(a)の接触パターンの接触辺E
3を切断箇所の候補として検出することが可能となる。
図9(b)のグラフにおいて、辺e0〜e7を1つずつ
二重化し、グラフが2つに分離するかどうかを調べるこ
とにより、辺接触による切断箇所の候補として、2つの
辺e0、e4を検出することができる。なお、この段階
では、接触箇所E3に対応する辺e4の他に、文字自体
を構成する線分に対応する辺e0も検出される。
【0066】図10(a)は、図9(b)のグラフの頂
点隣接行列を示す図、図10(b)は、図9(c)のグ
ラフの頂点隣接行列を示す図である。図10(a)にお
いて、行及び列の各成分は、グラフの頂点V0〜V7に
それぞれ対応している。ここで、図9(b)のグラフに
おいて、2つの頂点V0〜V7を接続する辺e0〜e7
がある場合、その2つの頂点V0〜V7で特定される行
列成分は1、2つの頂点V0〜V7を接続する辺e0〜
e7がない場合、その2つの頂点V0〜V7で特定され
る行列成分は0となる。
【0067】図10(a)の頂点隣接行列から図10
(b)の頂点隣接行列を求める場合、図9(b)の二重
化された辺の両端の頂点に対応する行及び列をコピーす
る。そして、コピー対象とされた行及び列の成分のう
ち、右方向に隣接する頂点の成分を0にするとともに、
コピーにより新たに挿入された行及び列の成分のうち、
左方向に隣接する頂点の成分を0にする。
【0068】例えば、図9(b)のグラフの辺e4及び
その辺e4の両端の頂点V4、V5を二重化することに
より、辺e4’及び辺e4’の両端に接続する頂点V
4’、V5’を生成し、図9(c)のグラフが生成され
たものとする。この場合、図10(a)の頂点隣接行列
の頂点V4に対応する行及び列をコピーすることによ
り、頂点V4’に対応する行及び列を新たに生成すると
ともに、頂点V5に対応する行及び列をコピーすること
により、頂点V4’に対応する行及び列を新たに生成す
る。ここで、頂点V4に対応する行及び列の成分のう
ち、頂点V4の右方向に隣接する頂点V6に対応する成
分を0とし、頂点V5に対応する行及び列の成分のう
ち、頂点V5の右方向に隣接する頂点V7に対応する成
分を0とし、頂点V5’に対応する行及び列の成分のう
ち、頂点V5の左方向に隣接する頂点V3に対応する成
分を0とする。そして、行及び列を入れ替えてブロック
対角化を行うことにより、図10(b)の頂点隣接行列
が得られる。
【0069】図10(b)の頂点隣接行列は、2つの正
方行列A1、A2が対角斜め方向に配置されており、2
つの正方行列A1、A2の直和の形で表現できる。ここ
で、頂点隣接行列のブロック対角化により得られる対角
化ブロック数(対角斜め方向に配置される正方行列の個
数)は、その頂点隣接行列に対応するグラフの連結成分
数を表している。このため、頂点隣接行列を用いること
により、グラフの辺を二重化した時に、グラフが2つに
分離するかどうかを判定することができ、その時の辺を
辺接触の切断箇所の候補とすることができる。
【0070】図11は、頂点隣接行列から辺接触の候補
を求める方法を示すフローチャートである。図11にお
いて、頂点隣接行列のj行k列成分が1かどうかを判定
する(ステップS41)。ここで、頂点隣接行列のj行
k列成分が1の場合、j行目に対応する頂点とk列目に
対応する頂点との間に挟まれた辺に対応するパターンの
文字線幅hが、以下の条件を満たすかどうかを調べる。
【0071】H×a<h (1.0<a) ここで、Hは平均文字幅、aは1より大きい値をとる定
数で、実験により定めることができる。そして、この条
件を満たさない辺は、二重化の候補から除外する(ステ
ップS42)。この処理により、二重化する辺の候補と
して、辺同士が接触したために線幅が他の辺よりも太く
なっているものだけを選ぶことができ、辺接触していな
いような細い線幅の辺を、辺接触の候補から除去するこ
とができる。
【0072】また、横書きの場合は縦方向、縦書きの場
合は横方向の辺のみを二重化するため、辺の傾きにも、
しきい値を設けるようにする。すなわち、対象とする辺
の傾きをS、傾きのしきい値をSthとすると、 S>Sth(横書きの場合) S<Sth(縦書きの場合) の条件を満たす候補のみについて、二重化を行うように
する(ステップS42)。なお、しきい値Sthは、実
験により定めることができる。
【0073】次に、頂点隣接行列のj行目をj+1行目
にコピーし、頂点隣接行列のj+1行目以降をシフトす
るとともに、頂点隣接行列のj列目をj+1列目にコピ
ーし、頂点隣接行列のj+1列目以降をシフトする(ス
テップS43)。
【0074】次に、横書きの場合、j番目の頂点の右方
向に隣接する頂点がある場合、j行目及びj列目の成分
のうち、右方向に隣接する頂点に対応する成分を0と
し、j番目の頂点の左方向に隣接する頂点がある場合、
j+1行目及びj+1列目の成分のうち、左方向に隣接
する頂点に対応する成分を0とする(ステップS4
4)。なお、縦書きの場合、j番目の頂点の上方向に隣
接する頂点がある場合、j行目及びj列目の成分のう
ち、上方向に隣接する頂点に対応する成分を0とし、j
番目の頂点の下方向に隣接する頂点がある場合、j+1
行目及びj+1列目の成分のうち、下方向に隣接する頂
点に対応する成分を0とする。
【0075】次に、頂点隣接行列のk行目をk+1行目
にコピーし、頂点隣接行列のk+1行目以降をシフトす
るとともに、頂点隣接行列のk列目をk+1列目にコピ
ーし、頂点隣接行列のk+1列目以降をシフトする(ス
テップS45)。
【0076】次に、横書きの場合、k番目の頂点の右方
向に隣接する頂点がある場合、k行目及びk列目の成分
のうち、右方向に隣接する頂点に対応する成分を0と
し、k番目の頂点の左方向に隣接する頂点がある場合、
k+1行目及びk+1列目の成分のうち、左方向に隣接
する頂点に対応する成分を0とする(ステップS4
6)。なお、縦書きの場合、k番目の頂点の上方向に隣
接する頂点がある場合、k行目及びk列目の成分のう
ち、上方向に隣接する頂点に対応する成分を0とし、k
番目の頂点の下方向に隣接する頂点がある場合、k+1
行目及びk+1列目の成分のうち、下方向に隣接する頂
点に対応する成分を0とする。
【0077】次に、j行k列成分で特定される辺を二重
化したグラフに対応する頂点隣接行列の行または列を入
れ替えることにより、その頂点隣接行列のブロック対角
化を行い、ブロック対角化後の対角化ブロック数をカウ
ントする(ステップS47)。次に、j行k列成分で特
定される辺を二重化する前のグラフに対応する頂点隣接
行列の対角化ブロック数と、j行k列成分で特定される
辺を二重化した後のグラフに対応する頂点隣接行列の対
角化ブロック数とを比較し(ステップS48)、j行k
列成分で特定される辺を二重化した後のグラフに対応す
る頂点隣接行列の対角化ブロック数が、j行k列成分で
特定される辺を二重化する前のグラフに対応する頂点隣
接行列の対角化ブロック数より1だけ増加した場合、頂
点jと頂点kとの間に挟まれる辺を辺接触の切断箇所の
候補とする(ステップS49)。以上の処理を、j=1
〜全頂点数、k=j+1〜全頂点数に対して繰り返す。
【0078】図3のステップS6、S7の処理により、
点接触箇所候補及び辺接触箇所候補がグラフから抽出さ
れると、接触箇所候補の絞り込みを行う(ステップS8
〜S10)。この接触箇所候補の絞り込みは、文字列方
向と垂直方向にパターンが分割されることを防止するた
めに行う。例えば、横書きの文字の場合、文字同士の接
触は横方向に発生し、縦書きの文字の場合、文字同士の
接触は縦方向に発生する。このため、横書きの文字の場
合、パターンを横方向に分割する接触箇所候補のみを選
別して、パターンを縦方向に分割する接触箇所候補を除
去する。また、されないようにする。また、縦書きの文
字の場合、パターンを縦方向に分割する接触箇所候補の
みを選別して、パターンを横方向に分割する接触箇所候
補を除去する。
【0079】ここでは、分離した各々のグラフの文字列
方向のサイズをWjとし、元のグラフの文字列方向のサ
イズをWとすると、 W×C1<Wj<W×C2 (0.0<C1<C2<1.0、j=1,2) となる切断候補のみを選択する。ここで、Cは、0と1
の間の値をとる定数であり、実験により定めることがで
きる。
【0080】接触箇所候補が決定すると、接触パターン
の切断を行い、部分パターンを作成する(ステップS1
1)。接触パターンの切断では、接触箇所候補として決
定されたグラフ上の頂点または辺から実際のパターン上
での切断位置を求め、その切断位置で接触パターンの切
断する。
【0081】図12は、点接触のパターンの切断方法を
示す図である。図12(a)において、グラフ上で点接
触箇所の候補が決定すると、点接触箇所の候補として決
定されたグラフ上の頂点に対応する接触パターン21上
の切断候補点22を求める。切断候補点22が求まる
と、端点が接触している文字線24を、切断候補点22
から細線化パターン25の辺に沿って追跡し、もう一方
の辺26と平行方向の黒画素ランレングスを求める。こ
の結果、黒画素ランレングスは、図12(b)に示すよ
うに、文字線24の接触箇所23の位置で急激に減少す
る。そこで、黒画素ランレングスが急激に減少する箇所
Kに対応する位置で、接触パターン21を切断する。こ
の結果、図12(c)に示すように、接触パターン21
の文字線24に対応した文字線24’と接触パターン2
1の文字線26に対応した文字線26’とを切り出すこ
とができる。
【0082】図13は、辺接触のパターンの切断方法を
示す図である。図13(a)において、グラフ上で辺接
触箇所の候補が決定すると、辺接触箇所の候補として決
定されたグラフ上の辺に対応する接触パターン21上の
文字線31を求める。文字線31が求まると、その文字
線31を細線化パターン32の辺で2分する。この結
果、図13(b)に示すように、接触パターン31の文
字線33に対応した文字線33’と接触パターン31の
文字線34に対応した文字線34’とを切り出すことが
できる。
【0083】図14は、図9(a)のパターンの切断例
を示す図である。図14において、図9(b)のグラフ
から点接触の候補となる頂点または辺接触の候補となる
辺が求まると、これらの接触箇所の候補の位置で図9
(a)のパターンを切断することにより、部分パターン
41〜44を得ることができる。
【0084】部分パターンが求まると、単独パターン、
あるいは、部分パターンと同一行の文字列に含まれる他
のパターンとの可能な組み合わせにより得られる統合パ
ターンに対し、文字認識を実行する。そして、認識候補
文字種及び相違度(あるいは類似度)を求め、例えば、
候補文字ラティス等の方法を用いることにより、一文字
領域と文字認識候補を決定する。
【0085】図15は、切断されたパターンの統合方法
を示す図である。図15において、図14の部分パター
ン41〜44が求まると、統合後の横方向の長さWを算
出し、統合後の横方向の長さWがしきい値Wthを越え
た時に統合をストップする。例えば、図15(a)にお
いて、図14の部分パターン41の横方向の長さW1が
しきい値Wthを越えているかどうか調べ、長さW1が
しきい値Wthを越えていない場合、図15(b)に示
すように、図14の部分パターン41、42を統合した
統合パターン45を生成する。
【0086】次に、統合パターン45の横方向の長さW
2がしきい値Wthを越えているかどうか調べ、長さW
2がしきい値Wthを越えていない場合、図15(c)
に示すように、図15(b)の統合パターン45と図1
4の部分パターン43を統合した統合パターン46を生
成する。
【0087】次に、統合パターン46の横方向の長さW
3がしきい値Wthを越えているかどうか調べ、長さW
3がしきい値Wthを越えていない場合、図15(d)
に示すように、図15(c)の統合パターン46と図1
4の部分パターン44を統合した統合パターン47を生
成する。
【0088】次に、統合パターン47の横方向の長さW
4がしきい値Wthを越えているかどうか調べ、長さW
4がしきい値Wthを越えている場合、図15(c)の
統合パターン46と図14の部分パターン44との統合
をストップする。
【0089】統合パターン45、46が求まると、統合
パターン45、46及び部分パターン41〜44の文字
認識を行い、文字との相違度の低いパターンを選別する
ことにより、一文字ごとの切り出しを行うことができ
る。
【0090】図16は、候補文字ラティス法による接触
位置の決定方法を説明する図である。図16(a)にお
いて、「山口市」というパターンから部分パターン51
〜55が切り出されたものとする。この場合、各パター
ンの横方向の長さを求めることにより、パターンの統合
が可能かどうかを調べ、統合後のパターンの横方向の長
さがしきい値Wth以下の場合、部分パターン51〜5
5を隣接パターンと統合する。この結果、部分パターン
51、52を統合した統合パターン56、部分パターン
52、53を統合した統合パターン57、部分パターン
51〜53を統合した統合パターン58、及び部分パタ
ーン53、54を統合した統合パターン59が生成され
る。
【0091】部分パターン51〜55及び統合パターン
56〜59が生成されると、これらのパターンの文字認
識を実行し、「山口市」というパターンに対応するよう
に、部分パターン51〜55及び統合パターン56〜5
9を組み合わせる。そして、これらの組み合わせの中か
ら、最も相違度の低い組み合わせを選択する。
【0092】例えば、図16(b)において、部分パタ
ーンの組み合わせとして、P1→P2→P3→P4→P
5というパスを選択した場合、これらのパターンの相違
度の合計は、284+189+126+177+203
=979となり、認識結果は「U−口市」となる。ま
た、部分パターンの組み合わせとして、P6→P9→P
5というパスを選択した場合、これらのパターンの相違
度の合計は、419+202+203=824となり、
認識結果は「ル口市」となる。この処理を部分パターン
51〜55及び統合パターン56〜59の全ての組み合
わせについて行う。
【0093】この結果、最も相違度の低い組み合わせと
して、P8→P4→P5というパスを選択することがで
き、統合パターン58及び部分パターン54,55をそ
れぞれ一文字領域として切り出すことができる。ここ
で、統合パターン58は「山口市」というパターンの中
の「山」という文字に対応し、部分パターン54は「山
口市」というパターンの中の「口」という文字に対応
し、部分パターン55は「山口市」というパターンの中
の「市」という文字に対応している。従って、「山口
市」というパターンの中の「山」という文字と「口」と
いう文字が辺接触している場合においても、1文字ごと
に切り出すことができる。
【0094】図17は、本発明の一実施例に係わるパタ
ーン抽出処理をソフトウエアを用いて実現した構成を示
すブロック図である。図17において、61は全体的な
処理を行う中央演算処理ユニット(CPU)、62はリ
ードオンリメモリ(ROM)、63はランダムアクセス
メモリ(RAM)、64は通信インターフェイス、65
は通信ネットワーク、66は入出力インターフェイス、
67は文字認識結果などを表示するディスプレイ、68
は文字認識結果などを印刷するプリンタ、69はスキャ
ナ70により読み取られた画像データなどを一時的に格
納するメモリ、70は入力画像などを読み取るスキャ
ナ、71はキーボード、72はマウスなどのポインティ
ングデバイス、73は記憶媒体を駆動するドライバ、7
4はハードディスク、75はICメモリカード、76は
磁気テープ、77はフロッピーディスク、78はCD−
ROMやDVD−ROMなどの光ディスク、79はバス
である。
【0095】パターン抽出処理や文字認識を行うプログ
ラム、画像データなどは、ハードディスク74、ICメ
モリカード75、磁気テープ76、フロッピーディスク
77、光ディスク78などの記憶媒体に格納される。そ
して、パターン抽出処理や文字認識を行うプログラム及
び画像データを、これらの記憶媒体からRAM63に読
み出すことにより、文字領域の切り出しを行うことがで
きる。また、パターン抽出処理や文字認識を行うプログ
ラムを、ROM62に格納しておくこともできる。
【0096】さらに、パターン抽出処理や文字認識を行
うプログラム、画像データ及び文字認識結果などを、通
信ネットワーク65を介して送受信したりすることもで
きる。通信インターフェイス64に接続される通信ネッ
トワーク65として、例えば、LAN(Local A
rea Network)、WAN(Wide Are
a Network)、インターネット、アナログ電話
網、デジタル電話網(ISDN:Integral S
ervice Digital Network)、P
HS(パーソナルハンディシステム)や衛星通信などの
無線通信網を用いることができる。
【0097】CPU61は、パターン抽出処理を行うプ
ログラムが起動されると、処理対象となる画像データの
ラベリングを行うことにより連結成分を抽出し、連結成
分として抽出されたパターンの細線化を行う。細線化が
終了すると、細線化パターンの探索を行うことにより、
パターンの端点、交点、または屈曲点を抽出し、これら
の端点、交点、または屈曲点の接続関係を調べる。接続
関係が求まると、これらの接続関係をグラフで表現し、
グラフの辺や頂点を操作した時にグラフの連結成分数が
変化するかどうかを調べることより、パターンの切断箇
所の候補を抽出する。
【0098】ここで、特徴点の接続関係を表すグラフを
頂点隣接行列で表現することができる。そして、グラフ
の連結成分数の変化を頂点隣接行列を用いて調べること
もできる。パターンの切断箇所の候補が抽出されると、
これらの切断箇所の候補の位置でパターンを切断する。
次に、文字認識を行うプログラムを起動し、切断された
部分パターン及び部分パターを統合した統合パターンに
ついて、文字認識を実行する。そして、相違度の最も小
さいパターンの組み合わせをパターンの切断箇所に決定
する。
【0099】
【発明の効果】以上説明したように、本発明によれば、
パターンの特徴点の接続関係に基づいて、パターンの接
触箇所を判別することにより、パターンが傾いている場
合においても、パターンの特徴点の接続関係は変化しな
いため、パターンの接触箇所を効率よく見つけることが
可能となり、文字領域の切り出し精度を向上させること
が可能となる。
【0100】また、本発明の一態様によれば、パターン
の端点、交点、分岐点または屈曲点を文字同士の接触点
の候補とすることにより、文字同士の接触点を効率よく
見つけることが可能となる。
【0101】また、本発明の一態様によれば、パターン
を切断した時のパターンの分離方向に基づいて、文字同
士の接触点の候補を絞り込むことにより、文字の構成部
分となる特徴点を文字同士の接触点の候補から除くこと
が可能となり、文字同士の接触点の検出を効率化するこ
とが可能となる。
【0102】また、本発明の一態様によれば、パターン
の接続関係をグラフで表現することにより、パターンの
接続情報のみを残したまま、それ以外の画像情報を除去
することが可能となり、パターンの接続関係を効率よく
評価することが可能となる。また、本発明の一態様によ
れば、パターンの接続関係を頂点隣接行列で表すことに
より、グラフの連結成分数を効率よく求めることが可能
となり、パターンを特徴点で切断した際に、パターンが
分離するかどうかを効率よく調べることが可能となる。
【0103】また、本発明の一態様によれば、グラフか
ら辺を除去した時のグラフの連結成分数をカウントする
ことにより、パターンの特徴点でパターンが分離するか
どうかを容易に判別することが可能となり、点接触の場
合の接触位置を高速に検出することが可能となる。
【0104】また、本発明の一態様によれば、パターン
を接触方向に沿って探索した時に、急に細くなる箇所で
パターンを切断することにより、点接触前のパターンの
形状を保ちつつ、パターンを切断することが可能とな
る。
【0105】また、本発明の一態様によれば、グラフの
辺及びその辺の両端の特徴点の二重化を行った時のグラ
フの連結成分数をカウントすることにより、パターンの
辺でパターンが分離するかどうかを容易に判別すること
が可能となり、辺接触の場合の接触位置を高速に検出す
ることが可能となる。
【0106】また、本発明の一態様によれば、パターン
の辺を垂直方向に二等分した位置で、パターンを切断す
ることにより、辺接触前のパターンの形状を保ちつつ、
パターンを切断することが可能となる。
【0107】また、本発明の一態様によれば、接触位置
を示す候補点で切断したパターンの文字認識結果に基づ
いて、それらの候補点が接触点かどうかを判別すること
により、1つの接触箇所に対して接触位置を示す候補点
が複数検出された場合においても、接触位置でない候補
点を接触点から除外することが可能となり、文字の接触
箇所を精度よく見つけ出すことが可能となる。
【0108】また、本発明の一態様によれば、相違度の
小さい文字の切り出しに成功しても、それ以外の領域か
ら1文字として切り出されたパターンの相違度が大きい
場合には、その切り出し位置を文字同士の接触箇所でな
いと判断することにより、文字列のパターンから相違度
の小さい文字の切り出し位置の候補が複数得られた場合
においても、それらの候補を絞り込むことが可能とな
り、文字同士の接触箇所の検出精度を向上させることが
可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例に係わるパターン抽出装置の
構成を示すブロック図である。
【図2】本発明の一実施例に係わる文字認識装置の構成
を示すブロック図である。
【図3】図2の接触候補箇所決定・切断部の処理を示す
フローチャートである。
【図4】本発明の一実施例に係わる細線化パターンの具
体例を示す図である。
【図5】次数2の頂点の決定方法を説明する図である。
【図6】(a)は、点接触したパターンの具体例を示す
図、(b)は、図6(a)のパターンをグラフ化した例
を示す図、(c)は、図6(b)のグラフから辺を除去
した場合にグラフの連結成分数が増加する例を示す図で
ある。
【図7】(a)は、図6(b)のグラフの頂点隣接行列
を示す図、(b)は、図6(c)のグラフの頂点隣接行
列を示す図である。
【図8】頂点隣接行列から接触点の候補を求める方法を
示すフローチャートである。
【図9】(a)は、辺接触したパターンの具体例を示す
図、(b)は、図9(a)のパターンをグラフ化した例
を示す図、(c)は、図9(b)のグラフの辺及びその
辺の端点の二重化を行った場合にグラフの連結成分数が
増加する例を示す図である。
【図10】(a)は、図9(b)のグラフの頂点隣接行
列を示す図、(b)は、図9(c)のグラフの頂点隣接
行列を示す図である。
【図11】頂点隣接行列から辺接触の候補を求める方法
を示すフローチャートである。
【図12】点接触のパターンの切断方法を示す図であ
る。
【図13】辺接触のパターンの切断方法を示す図であ
る。
【図14】図10(a)のパターンの切断例を示す図で
ある。
【図15】切断されたパターンの統合方法を示す図であ
る。
【図16】候補文字ラティス法による接触位置の決定方
法を説明する図である。
【図17】本発明の一実施例に係わるパターン抽出処理
をソフトウエアを用いて実現した構成を示すブロック図
である。
【図18】従来の文字同士の接触位置の検出方法を示す
図である。
【符号の説明】
1 特徴点検出手段 2 接続関係判別手段 3 接触箇所判別手段 11 OCR 12 観測部 13 文字列抽出部 14 接触文字判定部 15 接触候補箇所決定・切断部 16 候補文字ラティス生成部 17 認識辞書部 18 言語処理部 19 知識辞書部 61 CPU 62 ROM 63 RAM 64 通信インターフェイス 65 通信ネットワーク 66 入出力インターフェイス 67 ディスプレイ 68 プリンタ 69 メモリ 70 スキャナ 71 キーボード 72 ポインティングデバイス 73 ドライバ 74 ハードディスク 75 ICメモリカード 76 磁気テープ 77 フロッピーディスク 78 光ディスク 79 バス

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 パターンの特徴点を検出する特徴点検出
    手段と、 前記特徴点の接続関係を判別する接続関係判別手段と、 前記接続関係に基づいて、パターンの接触箇所を判別す
    る接触箇所判別手段とを備えることを特徴とするパター
    ン抽出装置。
  2. 【請求項2】 前記特徴点は、前記パターンの端点、交
    点、分岐点または屈曲点の少なくともいずれか1つであ
    ることを特徴とする請求項1に記載のパターン抽出装
    置。
  3. 【請求項3】 前記接触箇所判別手段は、前記特徴点同
    士を直接接続する線分を除去する線分除去手段を備え、 前記特徴点同士を接続する線分を除去した時の前記パタ
    ーンの連結成分数の変化に基づいて、前記パターンの接
    触箇所を判別することを特徴とする請求項1または2に
    記載のパターン抽出装置。
  4. 【請求項4】 前記接触箇所判別手段は、特徴点同士を
    接続する線分及び前記線分の両端の特徴点を二重化する
    二重化手段を備え、 前記二重化を行った時の前記パターンの連結成分数の変
    化に基づいて、前記パターンの接触箇所を判別すること
    を特徴とする請求項1〜3のいずれか1項に記載のパタ
    ーン抽出装置。
  5. 【請求項5】 パターンの特徴点を検出する特徴点検出
    手段と、 前記特徴点を頂点とし、前記頂点で挟まれた線分を辺と
    するグラフを生成するグラフ生成手段と、 前記グラフの辺の除去を行った時の前記グラフの連結成
    分数の変化に基づいて、接触文字の切断箇所を検出する
    切断箇所検出手段とを備えることを特徴とする文字切り
    出し装置。
  6. 【請求項6】 前記切断箇所検出手段は、辺を除去する
    前のグラフに対応した第1の頂点隣接行列を生成する第
    1の頂点隣接行列生成手段と、 辺を除去した後のグラフに対応した第2の頂点隣接行列
    を生成する第2の頂点隣接行列生成手段とを備え、 前記第1の頂点隣接行列と前記第2の頂点隣接行列との
    間で対角化ブロック数が変化した場合、除去された辺の
    端点を前記切断箇所の候補とすることを特徴とする請求
    項6に記載の文字切り出し装置。
  7. 【請求項7】 第1の線分に接触している第2の線分の
    端点が検出された場合、前記第1の線分方向の黒画素ラ
    ンレングスが急激に減少する箇所で、パターンを切断す
    るパターン切断手段を備えることを特徴とする請求項5
    または6に記載の文字切り出し装置。
  8. 【請求項8】 パターンの特徴点を検出する特徴点検出
    手段と、 前記特徴点を頂点とし、前記頂点で挟まれた線分を辺と
    するグラフを生成するグラフ生成手段と、 前記グラフの辺及びその辺の両端の特徴点の二重化を行
    った時の前記グラフの連結成分数の変化に基づいて、接
    触文字の切断箇所を検出する切断箇所検出手段をさらに
    備えることを特徴とする文字切り出し装置。
  9. 【請求項9】 前記切断箇所検出手段は、前記二重化を
    行う前のグラフに対応した第1の頂点隣接行列を生成す
    る第1の頂点隣接行列生成手段と、 前記二重化を行った後のグラフに対応した第2の頂点隣
    接行列を生成する第2の頂点隣接行列生成手段とを備
    え、 前記第1の頂点隣接行列と前記第2の頂点隣接行列との
    間で対角化ブロック数が変化した場合、二重化された辺
    の位置を前記切断箇所の候補とすることを特徴とする請
    求項8に記載の文字切り出し装置。
  10. 【請求項10】 辺同士の重なりが検出された場合、そ
    の辺を垂直方向に二等分した位置で、パターンを切断す
    るパターン切断手段を備えることを特徴とする請求項8
    または9に記載の文字切り出し装置。
  11. 【請求項11】 グラフの頂点間の辺の長さ、頂点間の
    水平方向の距離及び頂点間の垂直方向の距離に基づい
    て、グラフのサイズを算出するサイズ算出手段と、 分離後のグラフのサイズに基づいて、前記切断箇所検出
    手段により検出された切断箇所の候補の絞り込みを行う
    絞り込み手段とを備えることを特徴とする請求項5〜1
    0のいずれか1項に記載の文字切り出し装置。
  12. 【請求項12】 前記切断箇所で切断されたパターンに
    ついての文字認識を行う文字認識手段と、 相違度が所定値以下のパターンの切断箇所を前記パター
    ンの接触箇所と判定する接触箇所判定手段とを備えるこ
    とを特徴とする請求項5〜11のいずれか1項に記載の
    文字切り出し装置。
  13. 【請求項13】 切断されたパターンを他のパターンと
    組み合わせる組み合わせ手段を備え、 前記接触箇所判定手段は、組み合わせにより得られるパ
    ターンのうち、最も相違度の小さいパターンの組み合わ
    せから得られる切断箇所を、前記パターンの接触箇所と
    判定することを特徴とする請求項12に記載の文字切り
    出し装置。
  14. 【請求項14】 パターンを構成する線分の接続関係を
    求めるステップと、 前記線分の接続点で前記パターンを切断するステップ
    と、 切断されたパターンの認識結果に基づいて、前記接続点
    が文字同士の接触箇所かどうかを判別するステップとを
    備えることを特徴とする文字切り出し方法。
  15. 【請求項15】 パターンを構成する線分の接続関係を
    求めるステップと、 前記線分の接続点を前記パターンを切断箇所とするステ
    ップと、 第1の切断箇所で切断されたパターンの相違度を求める
    ステップと、 第2の切断箇所で切断されたパターンの相違度を求める
    ステップと、 前記第1の切断箇所で切断されたパターンの相違度より
    も前記第2の切断箇所で切断されたパターンの相違度の
    方が小さい場合、前記第2の切断箇所を文字の接触箇所
    と判定するステップとを備えることを特徴とする文字切
    り出し方法。
  16. 【請求項16】 パターンのサイズに基づいて、接触パ
    ターンを抽出するステップと、 前記接触パターンの細線化を行うステップと、 前記細線化パターンに設定された着目点からサンプル点
    へ向かうベクトルの成す角に基づいて、前記細線化パタ
    ーンの特徴点を抽出するステップと、 前記細線化パターンの探索結果に基づいて、前記特徴点
    の接続関係を求めるステップと、 前記特徴点を頂点とし、前記頂点で挟まれた線分を辺と
    するグラフを生成するステップと、 辺を除去した時にグラフの連結成分数を変化させる辺の
    両端の頂点の位置を、前記接触パターンの切断箇所の候
    補とするステップと、 前記切断箇所の候補の位置で切断されたパターンの文字
    認識を行うステップと、 前記認識結果に基づいて、前記切断箇所の候補が文字同
    士の接触箇所かどうかを判別するステップとを備えるこ
    とを特徴とする文字切り出し方法。
  17. 【請求項17】 辺及びその辺の両端の頂点を二重化し
    た時にグラフの連結成分数を変化させる辺の位置を、前
    記接触パターンの切断箇所の候補とするステップをさら
    に備えることを特徴とする請求項16に記載の文字切り
    出し方法。
  18. 【請求項18】 パターンの特徴点を検出するステップ
    と、 前記特徴点の接続関係を判別するステップと、 前記接続関係に基づいて、パターンの接触箇所を判別す
    るステップとを少なくとも実行するためのプログラムを
    格納したコンピュータ読み出し可能な記憶媒体。
JP13453999A 1999-05-14 1999-05-14 パターン抽出装置及び文字切り出し装置 Expired - Fee Related JP3798179B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13453999A JP3798179B2 (ja) 1999-05-14 1999-05-14 パターン抽出装置及び文字切り出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13453999A JP3798179B2 (ja) 1999-05-14 1999-05-14 パターン抽出装置及び文字切り出し装置

Publications (2)

Publication Number Publication Date
JP2000322514A true JP2000322514A (ja) 2000-11-24
JP3798179B2 JP3798179B2 (ja) 2006-07-19

Family

ID=15130692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13453999A Expired - Fee Related JP3798179B2 (ja) 1999-05-14 1999-05-14 パターン抽出装置及び文字切り出し装置

Country Status (1)

Country Link
JP (1) JP3798179B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009069953A (ja) * 2007-09-11 2009-04-02 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2009199102A (ja) * 2008-02-19 2009-09-03 Fujitsu Ltd 文字認識プログラム、文字認識装置及び文字認識方法
JP2010198308A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd 文字認識プログラム、文字認識方法および文字認識装置
JP2014130510A (ja) * 2012-12-28 2014-07-10 Glory Ltd 文字認識方法及び文字認識装置
JP2018060389A (ja) * 2016-10-06 2018-04-12 アイラボ株式会社 プログラム、情報記憶媒体及び文字分割装置
JPWO2021111606A1 (ja) * 2019-12-05 2021-06-10
JP7497734B2 (ja) 2019-12-05 2024-06-11 日本電気株式会社 グラフ探索装置、グラフ探索方法、及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009069953A (ja) * 2007-09-11 2009-04-02 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2009199102A (ja) * 2008-02-19 2009-09-03 Fujitsu Ltd 文字認識プログラム、文字認識装置及び文字認識方法
JP2010198308A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd 文字認識プログラム、文字認識方法および文字認識装置
JP2014130510A (ja) * 2012-12-28 2014-07-10 Glory Ltd 文字認識方法及び文字認識装置
JP2018060389A (ja) * 2016-10-06 2018-04-12 アイラボ株式会社 プログラム、情報記憶媒体及び文字分割装置
JPWO2021111606A1 (ja) * 2019-12-05 2021-06-10
JP7497734B2 (ja) 2019-12-05 2024-06-11 日本電気株式会社 グラフ探索装置、グラフ探索方法、及びプログラム

Also Published As

Publication number Publication date
JP3798179B2 (ja) 2006-07-19

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
KR100339446B1 (ko) 주소 인식 장치 및 주소 인식 방법
JP3445394B2 (ja) 少なくとも二つのイメージセクションの比較方法
US7181068B2 (en) Mathematical expression recognizing device, mathematical expression recognizing method, character recognizing device and character recognizing method
JP2951814B2 (ja) 画像抽出方式
CN113158808A (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
JPH08305796A (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JP6754120B2 (ja) プログラム、情報記憶媒体及び文字分割装置
CN115240213A (zh) 表格图像识别方法、装置、电子设备及存储介质
JP2730665B2 (ja) 文字認識装置および方法
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
EP1930852B1 (en) Image search method and device
JP2007058882A (ja) パターン認識装置
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Wang et al. A study on the document zone content classification problem
JP3798179B2 (ja) パターン抽出装置及び文字切り出し装置
Rebelo et al. A shortest path approach for staff line detection
JP5414631B2 (ja) 文字列探索方法、文字列探索装置、記録媒体
JP4176175B2 (ja) パターン認識装置
KR100449486B1 (ko) 수직선 인접 그래프를 이용한 문서 인식 시스템 및 방법
JP7338159B2 (ja) 情報処理装置及びプログラム
Amrouch et al. A novel feature set for recognition of printed amazigh text using maximum deviation and hmm
JP3620299B2 (ja) 文書ファイリング装置及び文書ファイリング方法
JP3209197B2 (ja) 文字認識装置及び文字認識プログラムを記録した記録媒体
JPH08287188A (ja) 文字列認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060419

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120428

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130428

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees