JPH08161421A - 文字列領域抽出装置および方法 - Google Patents
文字列領域抽出装置および方法Info
- Publication number
- JPH08161421A JPH08161421A JP6305022A JP30502294A JPH08161421A JP H08161421 A JPH08161421 A JP H08161421A JP 6305022 A JP6305022 A JP 6305022A JP 30502294 A JP30502294 A JP 30502294A JP H08161421 A JPH08161421 A JP H08161421A
- Authority
- JP
- Japan
- Prior art keywords
- character
- character string
- area
- candidate area
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
(57)【要約】
【目的】 文字以外の図形に関する厳密な知識を必要と
せず、文字の大きさや記載される位置、文字間隔、文字
列の方向等が面内で任意に書かれた紙面から文字列を精
度良く抽出するための文字列領域抽出装置および方法を
提供すること。 【構成】 本発明に係る文字列領域抽出装置は、文字と
文字以外の図形の混在した入力画像情報からプリミティ
ブを抽出するプリミティブ抽出手段と、抽出されたプリ
ミティブを元に文字列候補領域を生成する文字列候補領
域生成手段と、生成された文字列候補領域を文字認識す
る文字認識手段と、この文字認識手段による文字認識の
結果に基づき前記文字列候補領域が文字列領域であるか
否かを判断する文字列性判断手段とを具備してなること
を特徴とする。
せず、文字の大きさや記載される位置、文字間隔、文字
列の方向等が面内で任意に書かれた紙面から文字列を精
度良く抽出するための文字列領域抽出装置および方法を
提供すること。 【構成】 本発明に係る文字列領域抽出装置は、文字と
文字以外の図形の混在した入力画像情報からプリミティ
ブを抽出するプリミティブ抽出手段と、抽出されたプリ
ミティブを元に文字列候補領域を生成する文字列候補領
域生成手段と、生成された文字列候補領域を文字認識す
る文字認識手段と、この文字認識手段による文字認識の
結果に基づき前記文字列候補領域が文字列領域であるか
否かを判断する文字列性判断手段とを具備してなること
を特徴とする。
Description
【0001】
【産業上の利用分野】本発明は、文字と非文字とが混在
して書き込まれた紙面に対して、該紙面中の文字を認識
するための文字列領域抽出装置および方法に関する。
して書き込まれた紙面に対して、該紙面中の文字を認識
するための文字列領域抽出装置および方法に関する。
【0002】
【従来の技術】文字と文字以外の図形とが混在して書き
込まれている紙面には、帳票、図面、地図、文献紙面、
書籍といった印刷物から、手で書かれたメモに至るまで
様々なものがある。これら紙面に書かれた内容を自動認
識する技術において、図形領域と文字領域とを分離する
技術は不可欠のものである。
込まれている紙面には、帳票、図面、地図、文献紙面、
書籍といった印刷物から、手で書かれたメモに至るまで
様々なものがある。これら紙面に書かれた内容を自動認
識する技術において、図形領域と文字領域とを分離する
技術は不可欠のものである。
【0003】従来の文字領域の切り出し手法では、文字
のサイズが一般に文字以外の図形に比べて小さいことに
着目し、図形的に連結した領域の大きさを計測し、既知
である文字サイズとを比較することにより文字領域を抽
出していた。しかしこの方法では、文字が文字以外の図
形と接触していた場合、正しく文字領域を抽出すること
ができなかった。
のサイズが一般に文字以外の図形に比べて小さいことに
着目し、図形的に連結した領域の大きさを計測し、既知
である文字サイズとを比較することにより文字領域を抽
出していた。しかしこの方法では、文字が文字以外の図
形と接触していた場合、正しく文字領域を抽出すること
ができなかった。
【0004】また、これを解決するための手法も提案さ
れている。この手法では、文字以外の図形と接触してい
る文字とを分離するために、接触している背景図形に、
円や直線などの幾何学的な形状を仮定し、紙面内に書か
れている図形から仮定した形状を抽出した後、抽出され
なかった残りの図形を文字であるとしていた。その際、
文字候補として抽出した図形の中に非文字図形が含まれ
ることがあるが、このような場合、大きさや他の文字候
補図形との位置関係といった幾何学的な特徴を元にし
て、それら非文字図形を文字候補から省く処理を行って
いるだけであった。したがって、文字と背景図形の幾何
学的な特徴が類似している場合、文字列抽出を精度良く
行うことはできなかった。
れている。この手法では、文字以外の図形と接触してい
る文字とを分離するために、接触している背景図形に、
円や直線などの幾何学的な形状を仮定し、紙面内に書か
れている図形から仮定した形状を抽出した後、抽出され
なかった残りの図形を文字であるとしていた。その際、
文字候補として抽出した図形の中に非文字図形が含まれ
ることがあるが、このような場合、大きさや他の文字候
補図形との位置関係といった幾何学的な特徴を元にし
て、それら非文字図形を文字候補から省く処理を行って
いるだけであった。したがって、文字と背景図形の幾何
学的な特徴が類似している場合、文字列抽出を精度良く
行うことはできなかった。
【0005】ところで、篇と旁に分割されている漢字、
かすれている文字など近傍にある図形を連結することで
一文字となる図形が多くある。さらに、文字と文字は、
互いに連結することで初めて文字列となる。これら図形
どうしの連結をする際、どの程度の範囲にある図形まで
を連結するか、その連結範囲を定めなくてはならない。
連結範囲は、文字の大きさや文字間隔に依存するため、
同一紙面内に異なる大きさの文字や文字列が混在してい
るときは、紙面の場所ごとに連結範囲を適切に定める必
要がある。従来の文字領域抽出では、この範囲の広さを
あらかじめ定めておく必要があった。また、文字の記載
される位置が未知の場合には、連結範囲は紙面全体に対
して同一の値を用いていた。このため、紙面毎に文字の
大きさや文字間隔が異なるときには紙面毎にこの値を変
更しなくてはならなかった。また、同一紙面内に異なる
大きさの文字や異なる文字間隔の文字列が混在している
ときは、対処できなかった。
かすれている文字など近傍にある図形を連結することで
一文字となる図形が多くある。さらに、文字と文字は、
互いに連結することで初めて文字列となる。これら図形
どうしの連結をする際、どの程度の範囲にある図形まで
を連結するか、その連結範囲を定めなくてはならない。
連結範囲は、文字の大きさや文字間隔に依存するため、
同一紙面内に異なる大きさの文字や文字列が混在してい
るときは、紙面の場所ごとに連結範囲を適切に定める必
要がある。従来の文字領域抽出では、この範囲の広さを
あらかじめ定めておく必要があった。また、文字の記載
される位置が未知の場合には、連結範囲は紙面全体に対
して同一の値を用いていた。このため、紙面毎に文字の
大きさや文字間隔が異なるときには紙面毎にこの値を変
更しなくてはならなかった。また、同一紙面内に異なる
大きさの文字や異なる文字間隔の文字列が混在している
ときは、対処できなかった。
【0006】また、従来技術の多くは、この文字列の方
向を水平もしくは垂直と仮定したり、文字列の近くに文
字列の方向となる目安となる印、例えば文字列と平行に
記載された長い線分などの存在を仮定したりすることを
必要とし、任意の位置に任意の方向を向いて文字列が記
載された一般の紙面から精度良く文字列を抽出すること
は困難であった。
向を水平もしくは垂直と仮定したり、文字列の近くに文
字列の方向となる目安となる印、例えば文字列と平行に
記載された長い線分などの存在を仮定したりすることを
必要とし、任意の位置に任意の方向を向いて文字列が記
載された一般の紙面から精度良く文字列を抽出すること
は困難であった。
【0007】また、文字の大きさ、文字間隔、文字列の
方向が未知のとき、図形の密集している領域で文字列を
作成することはことさら困難であった。特に、文字候補
図形の中に非文字図形が多数含まれているときには、ど
の図形を文字扱いして文字列に組み込むべきかを判断
し、文字の大きさを指定し、さらに文字列の方向を推定
しつつ文字列を抽出しなくてはならなかったため、精度
良く文字列を抽出することが困難な上に時間がかかって
いた。
方向が未知のとき、図形の密集している領域で文字列を
作成することはことさら困難であった。特に、文字候補
図形の中に非文字図形が多数含まれているときには、ど
の図形を文字扱いして文字列に組み込むべきかを判断
し、文字の大きさを指定し、さらに文字列の方向を推定
しつつ文字列を抽出しなくてはならなかったため、精度
良く文字列を抽出することが困難な上に時間がかかって
いた。
【0008】
【発明が解決しようとする課題】従来の文字列領域抽出
装置および方法では、背景の図形と接触している文字領
域を抽出するのに、背景図形の幾何学的な形状を仮定し
ていたため、背景図形の形状を仮定することが困難な状
況では、精度の良い文字領域抽出が行えなかった。特
に、文字候補として抽出した図形の中に非文字図形が含
まれていたとき、その図形が実際に文字図形かどうかの
判断の基準が幾何学的な特徴に限られていたので、周囲
の文字と似た大きさの背景図形などによって、文字列抽
出を精度良く行うことができなかった。
装置および方法では、背景の図形と接触している文字領
域を抽出するのに、背景図形の幾何学的な形状を仮定し
ていたため、背景図形の形状を仮定することが困難な状
況では、精度の良い文字領域抽出が行えなかった。特
に、文字候補として抽出した図形の中に非文字図形が含
まれていたとき、その図形が実際に文字図形かどうかの
判断の基準が幾何学的な特徴に限られていたので、周囲
の文字と似た大きさの背景図形などによって、文字列抽
出を精度良く行うことができなかった。
【0009】また、従来の文字列領域抽出装置および方
法では、かすれた文字や篇と旁に別れた漢字などいくつ
かの図形を連結して一つの文字候補を作成するとき、も
しくは文字候補をいくつか連結して文字列候補を作成す
るとき、どの程度の範囲にある図形どうしを連結するか
を定めなくてはならない。従来の技術では、この値をあ
らかじめ定めていて、さらに紙面全体に対して同一の値
を問っていた。このため、紙面毎に文字の大きさや文字
間隔が異なるときには紙面毎にこの値を変更しなくては
ならなかった。また、同一紙面内に異なる大きさの文字
や異なる文字間隔の文字列が混在しているときは、対処
できなかった。
法では、かすれた文字や篇と旁に別れた漢字などいくつ
かの図形を連結して一つの文字候補を作成するとき、も
しくは文字候補をいくつか連結して文字列候補を作成す
るとき、どの程度の範囲にある図形どうしを連結するか
を定めなくてはならない。従来の技術では、この値をあ
らかじめ定めていて、さらに紙面全体に対して同一の値
を問っていた。このため、紙面毎に文字の大きさや文字
間隔が異なるときには紙面毎にこの値を変更しなくては
ならなかった。また、同一紙面内に異なる大きさの文字
や異なる文字間隔の文字列が混在しているときは、対処
できなかった。
【0010】また、従来技術の多くは、文字列の方向を
水平もしくは垂直に読み取れることを前提としており、
任意の位置に任意の方向を向いて文字列が記載された一
般の紙面から精度良く文字列を抽出することは困難であ
った。
水平もしくは垂直に読み取れることを前提としており、
任意の位置に任意の方向を向いて文字列が記載された一
般の紙面から精度良く文字列を抽出することは困難であ
った。
【0011】また、文字の大きさ、文字間隔、文字列の
方向が未知のとき、図形の密集している領域、特に文字
候補図形の中に非文字図形が多数含まれている領域で文
字列を作成することはことさら困難であった。
方向が未知のとき、図形の密集している領域、特に文字
候補図形の中に非文字図形が多数含まれている領域で文
字列を作成することはことさら困難であった。
【0012】本発明は、上記事情に鑑みてなされたもの
であり、文字以外の図形に関する厳密な知識を必要とせ
ずに、文字の大きさや記載される位置、文字間隔、文字
列の方向などが面内で任意に書かれた紙面から文字列を
精度良く抽出するための文字列領域抽出装置および方法
を提供することを目的とする。
であり、文字以外の図形に関する厳密な知識を必要とせ
ずに、文字の大きさや記載される位置、文字間隔、文字
列の方向などが面内で任意に書かれた紙面から文字列を
精度良く抽出するための文字列領域抽出装置および方法
を提供することを目的とする。
【0013】
【課題を解決するための手段】本発明に係る文字列領域
抽出装置は、文字と文字以外の図形の混在した入力画像
情報からプリミティブを抽出するプリミティブ抽出手段
と、抽出されたプリミティブを元に文字列候補領域を生
成する文字列候補領域生成手段と、生成された文字列候
補領域を文字認識する文字認識手段と、この文字認識手
段による文字認識の結果に基づき前記文字列候補領域が
文字列領域であるか否かを判断する文字列性判断手段と
を具備してなることを特徴とする。
抽出装置は、文字と文字以外の図形の混在した入力画像
情報からプリミティブを抽出するプリミティブ抽出手段
と、抽出されたプリミティブを元に文字列候補領域を生
成する文字列候補領域生成手段と、生成された文字列候
補領域を文字認識する文字認識手段と、この文字認識手
段による文字認識の結果に基づき前記文字列候補領域が
文字列領域であるか否かを判断する文字列性判断手段と
を具備してなることを特徴とする。
【0014】好ましくは、前記文字列候補領域生成手段
は、文字以外の図形の形状に関する知識が与えられた場
合、文字以外の図形を抽出し、抽出されなかった残りの
図形を文字候補領域とし、文字以外の図形に関する知識
がない場合、前記プリミティブの分布の複雑な領域を文
字候補領域とし、所定の条件に従って1つまたは複数の
文字候補領域を結合して文字列候補領域を生成すること
を特徴とする。
は、文字以外の図形の形状に関する知識が与えられた場
合、文字以外の図形を抽出し、抽出されなかった残りの
図形を文字候補領域とし、文字以外の図形に関する知識
がない場合、前記プリミティブの分布の複雑な領域を文
字候補領域とし、所定の条件に従って1つまたは複数の
文字候補領域を結合して文字列候補領域を生成すること
を特徴とする。
【0015】また、好ましくは、前記文字列候補領域生
成手段は、所定の条件に従って前記プリミティブを元に
文字候補領域を生成する手段と、前記文字列候補領域の
生成に用いる前記文字候補領域の連結範囲の条件を変化
させて複数の文字列候補領域を抽出する手段と、該連結
範囲の条件の変化に対する該文字列候補領域の形状の変
化から得られる情報を基に有効な連結範囲の条件を決定
する手段と、該有効な連結範囲の条件に従って前記文字
候補領域から生成された文字列候補領域を出力する手段
とを有することを特徴とする。
成手段は、所定の条件に従って前記プリミティブを元に
文字候補領域を生成する手段と、前記文字列候補領域の
生成に用いる前記文字候補領域の連結範囲の条件を変化
させて複数の文字列候補領域を抽出する手段と、該連結
範囲の条件の変化に対する該文字列候補領域の形状の変
化から得られる情報を基に有効な連結範囲の条件を決定
する手段と、該有効な連結範囲の条件に従って前記文字
候補領域から生成された文字列候補領域を出力する手段
とを有することを特徴とする。
【0016】また、好ましくは、前記文字列性判断手段
による判断の結果に基づき前記文字列候補領域の統合ま
たは分割の少なくとも一方を行って新たな文字列候補領
域を生成する文字列候補領域再構成手段とをさらに具備
してなることを特徴とする。
による判断の結果に基づき前記文字列候補領域の統合ま
たは分割の少なくとも一方を行って新たな文字列候補領
域を生成する文字列候補領域再構成手段とをさらに具備
してなることを特徴とする。
【0017】さらに、好ましくは、前記文字列候補領域
再構成手段は、文字列領域ではないと判断された文字列
候補領域を複数の文字列候補領域に分割した後、前記文
字認識手段に与える手段と、文字列領域であると判断さ
れた1つの文字列候補領域から抽出された文字配列方向
に関する情報に基づき該1つの文字列候補領域に他の文
字列候補領域を結合した後、前記文字認識手段に与える
手段とのうちの少なくとも一方を含むことを特徴とす
る。
再構成手段は、文字列領域ではないと判断された文字列
候補領域を複数の文字列候補領域に分割した後、前記文
字認識手段に与える手段と、文字列領域であると判断さ
れた1つの文字列候補領域から抽出された文字配列方向
に関する情報に基づき該1つの文字列候補領域に他の文
字列候補領域を結合した後、前記文字認識手段に与える
手段とのうちの少なくとも一方を含むことを特徴とす
る。
【0018】また、本発明に係る文字列領域抽出方法
は、入力画像情報からプリミティブを抽出し、抽出され
たプリミティブを元に文字列候補領域を生成し、生成さ
れた文字列候補領域を文字認識し、この文字認識手段に
よる文字認識の結果に基づき前記文字列候補領域が文字
列領域であるか否かを判断することを特徴とする。
は、入力画像情報からプリミティブを抽出し、抽出され
たプリミティブを元に文字列候補領域を生成し、生成さ
れた文字列候補領域を文字認識し、この文字認識手段に
よる文字認識の結果に基づき前記文字列候補領域が文字
列領域であるか否かを判断することを特徴とする。
【0019】好ましくは、前記文字列候補領域の生成で
は、文字以外の図形の形状に関する知識が与えられた場
合、文字以外の図形を抽出し、抽出されなかった残りの
図形を文字候補領域とし、文字以外の図形に関する知識
がない場合、前記プリミティブの分布の複雑な領域を文
字候補領域とした後、所定の条件に従って1つまたは複
数の文字候補領域を結合して文字列候補領域を生成する
ことを特徴とする。
は、文字以外の図形の形状に関する知識が与えられた場
合、文字以外の図形を抽出し、抽出されなかった残りの
図形を文字候補領域とし、文字以外の図形に関する知識
がない場合、前記プリミティブの分布の複雑な領域を文
字候補領域とした後、所定の条件に従って1つまたは複
数の文字候補領域を結合して文字列候補領域を生成する
ことを特徴とする。
【0020】また、好ましくは、前記文字列候補領域生
成手段は、所定の条件に従って前記プリミティブを元に
文字候補領域を生成し、前記文字列候補領域の生成に用
いる前記文字候補領域の連結範囲の条件を変化させて複
数の文字列候補領域を抽出し、該連結範囲の条件の変化
に対する該文字列候補領域の形状の変化から得られる情
報を基に有効な連結範囲の条件を決定し、該有効な連結
範囲の条件に従って前記文字候補領域から生成された文
字列候補領域を出力することを特徴とする。
成手段は、所定の条件に従って前記プリミティブを元に
文字候補領域を生成し、前記文字列候補領域の生成に用
いる前記文字候補領域の連結範囲の条件を変化させて複
数の文字列候補領域を抽出し、該連結範囲の条件の変化
に対する該文字列候補領域の形状の変化から得られる情
報を基に有効な連結範囲の条件を決定し、該有効な連結
範囲の条件に従って前記文字候補領域から生成された文
字列候補領域を出力することを特徴とする。
【0021】また、好ましくは、前記文字列候補領域が
文字列領域であるか否かの判断の結果、文字列領域では
ないと判断された文字列候補領域を複数の文字列候補領
域に分割する処理と、文字列領域であると判断された1
つの文字列候補領域から抽出された文字配列方向に関す
る情報に基づき該1つの文字列候補領域に他の文字列候
補領域を結合する処理の少なくとも一方を行い、この分
割された文字列候補領域または結合された文字列候補領
域を再度文字認識して文字列領域であるか否かを判断す
ることを特徴とする。
文字列領域であるか否かの判断の結果、文字列領域では
ないと判断された文字列候補領域を複数の文字列候補領
域に分割する処理と、文字列領域であると判断された1
つの文字列候補領域から抽出された文字配列方向に関す
る情報に基づき該1つの文字列候補領域に他の文字列候
補領域を結合する処理の少なくとも一方を行い、この分
割された文字列候補領域または結合された文字列候補領
域を再度文字認識して文字列領域であるか否かを判断す
ることを特徴とする。
【0022】
【作用】本発明による文字領域抽出装置および方法は、
文字認識によって文字図形と非文字図形との判断を行う
ため、非文字図形を文字列として扱う誤りを犯しにく
く、高い精度で文字列領域を抽出することができる。ま
た、文字図形の複雑さを用いて文字候補領域の抽出を行
うことにより、背景図形の形状に関する知識がないとき
でも、文字候補領域を精度良く抽出することができる。
文字認識によって文字図形と非文字図形との判断を行う
ため、非文字図形を文字列として扱う誤りを犯しにく
く、高い精度で文字列領域を抽出することができる。ま
た、文字図形の複雑さを用いて文字候補領域の抽出を行
うことにより、背景図形の形状に関する知識がないとき
でも、文字候補領域を精度良く抽出することができる。
【0023】また、文字列候補領域を生成する際、プリ
ミティブを元にした文字候補の連結範囲の変化に対する
連結関係の変化から得られる情報を元に連結範囲を決定
することにより、以下のような作用が得られる。文字候
補図形が一様に分布しているときは、連結範囲を広げる
に従い連結関係も一様に変化し、一方文字候補図形が局
在しているときは、連結範囲を広げても連結関係は一様
には変化しない。このことを用いると、例えば篇と旁と
に分離している漢字のように、いくつかの接近した図形
を連結した領域が他の図形から孤立するようなとき、篇
と旁とは連結するが、他の図形とは連結しないような連
結範囲の広さを導き出すことができる。しかも、このよ
うな他の図形から孤立するような連結範囲の広さを、文
字候補図形毎に定めることができる。また、文字候補領
域毎に、周囲の図形との連結領域の範囲の広さを定める
ことになるため、同一図面内の異なる大きさの文字や異
なる文字間隔の文字列が混在していても、それぞれの文
字に即した連結範囲の広さで周囲の図形を連結して文字
列候補領域を生成することができる。他の図形から孤立
している文字列は、この処理の段階で文字列として抽出
ができる。
ミティブを元にした文字候補の連結範囲の変化に対する
連結関係の変化から得られる情報を元に連結範囲を決定
することにより、以下のような作用が得られる。文字候
補図形が一様に分布しているときは、連結範囲を広げる
に従い連結関係も一様に変化し、一方文字候補図形が局
在しているときは、連結範囲を広げても連結関係は一様
には変化しない。このことを用いると、例えば篇と旁と
に分離している漢字のように、いくつかの接近した図形
を連結した領域が他の図形から孤立するようなとき、篇
と旁とは連結するが、他の図形とは連結しないような連
結範囲の広さを導き出すことができる。しかも、このよ
うな他の図形から孤立するような連結範囲の広さを、文
字候補図形毎に定めることができる。また、文字候補領
域毎に、周囲の図形との連結領域の範囲の広さを定める
ことになるため、同一図面内の異なる大きさの文字や異
なる文字間隔の文字列が混在していても、それぞれの文
字に即した連結範囲の広さで周囲の図形を連結して文字
列候補領域を生成することができる。他の図形から孤立
している文字列は、この処理の段階で文字列として抽出
ができる。
【0024】また、連結された図形の形状や、文字認識
の結果から文字列ではないと判断された図形は、文字候
補図形の分布の安定性を考慮しつつ分割し、文字である
と判断されるか分割が不可能になるまで、形状と文字認
識による文字かどうかの判断を繰り返す。一般に文字候
補図形の密集している領域には、非文字図形が多く含ま
れている。このような領域から、文字の大きさや文字列
の方向が未知のときに、文字列を作成することは従来技
術では困難であった。しかし、本発明によれば、非文字
図形と文字図形とが誤って同一文字列に連結されても、
文字認識により非文字図形と判断され、各要素に分割さ
れるため、最終的には文字毎の抽出が行われることにな
る。文字領域が定まれば、文字の大きさ、文字列の方向
などを推定できるため、その文字を含む文字列の構成が
用意になる。このことを利用して、文字列領域の再構成
を行い、文字候補図形の密集した領域でも精度良く文字
列抽出ができる。
の結果から文字列ではないと判断された図形は、文字候
補図形の分布の安定性を考慮しつつ分割し、文字である
と判断されるか分割が不可能になるまで、形状と文字認
識による文字かどうかの判断を繰り返す。一般に文字候
補図形の密集している領域には、非文字図形が多く含ま
れている。このような領域から、文字の大きさや文字列
の方向が未知のときに、文字列を作成することは従来技
術では困難であった。しかし、本発明によれば、非文字
図形と文字図形とが誤って同一文字列に連結されても、
文字認識により非文字図形と判断され、各要素に分割さ
れるため、最終的には文字毎の抽出が行われることにな
る。文字領域が定まれば、文字の大きさ、文字列の方向
などを推定できるため、その文字を含む文字列の構成が
用意になる。このことを利用して、文字列領域の再構成
を行い、文字候補図形の密集した領域でも精度良く文字
列抽出ができる。
【0025】
【実施例】以下、図面を参照しながら実施例を説明す
る。図1は、本発明の一実施例に係る文字領域抽出装置
を示す機能ブロック図である。図1のように、本実施例
の文字領域抽出装置は、入力部1、前処理部2、文字列
候補領域抽出部3、文字列候補領域情報抽出部4、文字
列候補領域統合/分割部5、文字列判断部6、文字認識
部7を用いて構成される。
る。図1は、本発明の一実施例に係る文字領域抽出装置
を示す機能ブロック図である。図1のように、本実施例
の文字領域抽出装置は、入力部1、前処理部2、文字列
候補領域抽出部3、文字列候補領域情報抽出部4、文字
列候補領域統合/分割部5、文字列判断部6、文字認識
部7を用いて構成される。
【0026】各ブロックの主な機能を以下に示す。入力
部1は、紙面に記載されている文字や図形を2値の画像
として取り込む。入力部1には、紙面上の画像を光学像
として取り込み電気信号に変換する装置、例えばイメー
ジスキャナを用いることができる。
部1は、紙面に記載されている文字や図形を2値の画像
として取り込む。入力部1には、紙面上の画像を光学像
として取り込み電気信号に変換する装置、例えばイメー
ジスキャナを用いることができる。
【0027】前処理部2は、取り込まれた画像から線分
等のプリミティブを抽出する。文字列候補領域抽出部3
は、抽出されたプリミティブのうち適切なものどうしを
結合して文字候補領域を生成し、さらに1つまたは複数
の文字候補領域からなる文字列候補領域を生成する。
等のプリミティブを抽出する。文字列候補領域抽出部3
は、抽出されたプリミティブのうち適切なものどうしを
結合して文字候補領域を生成し、さらに1つまたは複数
の文字候補領域からなる文字列候補領域を生成する。
【0028】文字列候補領域情報抽出部4は、文字列候
補領域の紙面上での分布や、後述する文字認識の結果を
用いて、文字列の方向や大きさや文字間隔等の文字列情
報を抽出する。
補領域の紙面上での分布や、後述する文字認識の結果を
用いて、文字列の方向や大きさや文字間隔等の文字列情
報を抽出する。
【0029】文字列候補領域統合/分割部5は、上記文
字列情報を利用した文字列候補領域の統合分割を行い、
より適切な文字列候補領域を生成する。文字列判断部6
は、生成された文字列候補領域が文字列であるかどうか
を判断する。この判断には、文字列候補領域の形状等の
他に文字認識部7を併用する。最終的に文字であると判
断されたものを、例えば文字コードとして出力する。
字列情報を利用した文字列候補領域の統合分割を行い、
より適切な文字列候補領域を生成する。文字列判断部6
は、生成された文字列候補領域が文字列であるかどうか
を判断する。この判断には、文字列候補領域の形状等の
他に文字認識部7を併用する。最終的に文字であると判
断されたものを、例えば文字コードとして出力する。
【0030】出力された文字コード等は、RAMもしく
はハードディスクなどの記憶装置に格納され、あるいは
CRTなどの表示装置に表示される。その際、文字コー
ドと該文字の紙面上の座標や該文字の大きさ、向きなど
の属性情報を組にして記憶しても良い。なお、属性情報
は図示しない公知の手段により容易に得ることができ
る。
はハードディスクなどの記憶装置に格納され、あるいは
CRTなどの表示装置に表示される。その際、文字コー
ドと該文字の紙面上の座標や該文字の大きさ、向きなど
の属性情報を組にして記憶しても良い。なお、属性情報
は図示しない公知の手段により容易に得ることができ
る。
【0031】図2は、本実施例の文字領域抽出装置を実
現するためのハードウェア構成の一例であり、文字領域
抽出処理を処理プロセッサにより実現した例である。図
2の構成では、装置全体の制御を処理プロセッサ11が
行う。入力したい紙面はイメージスキャナ12を用いて
2値画像として入力され、スキャナインタフェース13
を介し、画像メモリコントローラ14の制御により画像
バス19を経由して画像メモリ15に格納される。画像
メモリ15のアドレス制御は、アドレスコントローラ1
6が行う。あらかじめメモリ17に格納された文字領域
抽出プログラムにより、処理プロセッサ11において、
文字領域抽出処理を行う。処理結果である文字コード等
は一旦メモリ17に格納され、必要に応じてハードディ
スクなどの記憶装置やCRTなどの表示装置(図示せ
ず)に与えられる。なお、ハードディスクなどの記憶装
置やCRTなどの表示装置は、システムバス18に接続
される。
現するためのハードウェア構成の一例であり、文字領域
抽出処理を処理プロセッサにより実現した例である。図
2の構成では、装置全体の制御を処理プロセッサ11が
行う。入力したい紙面はイメージスキャナ12を用いて
2値画像として入力され、スキャナインタフェース13
を介し、画像メモリコントローラ14の制御により画像
バス19を経由して画像メモリ15に格納される。画像
メモリ15のアドレス制御は、アドレスコントローラ1
6が行う。あらかじめメモリ17に格納された文字領域
抽出プログラムにより、処理プロセッサ11において、
文字領域抽出処理を行う。処理結果である文字コード等
は一旦メモリ17に格納され、必要に応じてハードディ
スクなどの記憶装置やCRTなどの表示装置(図示せ
ず)に与えられる。なお、ハードディスクなどの記憶装
置やCRTなどの表示装置は、システムバス18に接続
される。
【0032】図2の構成の代わりに、本実施例の文字領
域抽出装置は、すべてハードウェア化しても良い。ま
た、図1の機能ブロックのうち所望のものだけハードウ
ェア化し、残りの機能ブロックはソフトウェアにより実
現しても良い。
域抽出装置は、すべてハードウェア化しても良い。ま
た、図1の機能ブロックのうち所望のものだけハードウ
ェア化し、残りの機能ブロックはソフトウェアにより実
現しても良い。
【0033】図3は、本実施例の文字領域抽出装置によ
る文字領域抽出処理の概要を示すフローチャートであ
る。最初に、文字領域抽出処理の概略を説明する。ま
ず、ステップS20にて、紙面に記載されている文字や
図形が2値の画像として取り込まれる。
る文字領域抽出処理の概要を示すフローチャートであ
る。最初に、文字領域抽出処理の概略を説明する。ま
ず、ステップS20にて、紙面に記載されている文字や
図形が2値の画像として取り込まれる。
【0034】次に、ステップS21にて、前処理が行わ
れる。この処理では、取り込まれた画像に対し、文字候
補領域の抽出に必要な前処理が行われ、プリミティブが
抽出される。
れる。この処理では、取り込まれた画像に対し、文字候
補領域の抽出に必要な前処理が行われ、プリミティブが
抽出される。
【0035】次に、ステップS22にて、文字候補領域
抽出処理が行われる。この処理では、文字領域を背景図
形と比較して形状が複雑な領域もしくは背景図形と比較
して小さい連結領域であるとみなし、そのような領域を
文字候補領域として抽出する。これにより、背景図形の
形状に関する仮定が立てられないときでも、背景図形と
接触している文字領域も含めて抽出できる。
抽出処理が行われる。この処理では、文字領域を背景図
形と比較して形状が複雑な領域もしくは背景図形と比較
して小さい連結領域であるとみなし、そのような領域を
文字候補領域として抽出する。これにより、背景図形の
形状に関する仮定が立てられないときでも、背景図形と
接触している文字領域も含めて抽出できる。
【0036】次に、ステップS23にて、文字列候補領
域作成処理が行われる。上記のように文字候補や文字列
候補を作成するために分離した図形どうしを連結する必
要がある。そこで、この処理では、連結の範囲を図形毎
に適切な広さに定めるために、まず、文字列候補図形の
分布情報を得る。分布情報を得るために、文字候補図形
を様々な連結範囲により連結し、連結範囲の変化に対す
る文字候補図形どうしの連結関係の変化を捉える。連結
関係の変化は、木構造により記述する。そして、この木
構造をもとに、連結範囲の変化に対して安定な連結関係
を各々の文字候補領域について求める。
域作成処理が行われる。上記のように文字候補や文字列
候補を作成するために分離した図形どうしを連結する必
要がある。そこで、この処理では、連結の範囲を図形毎
に適切な広さに定めるために、まず、文字列候補図形の
分布情報を得る。分布情報を得るために、文字候補図形
を様々な連結範囲により連結し、連結範囲の変化に対す
る文字候補図形どうしの連結関係の変化を捉える。連結
関係の変化は、木構造により記述する。そして、この木
構造をもとに、連結範囲の変化に対して安定な連結関係
を各々の文字候補領域について求める。
【0037】次に、ステップS24にて、文字列抽出処
理が行われる。複雑さと大きさだけを基準とすると、文
字候補領域に背景図形が多く含まれることになる。そこ
で、この処理では、得られた文字列候補領域に対して文
字認識処理を行い、文字として認識できるかどうかによ
って文字候補領域を文字領域と非文字領域とに分ける。
また、連結された図形の形状や文字認識の結果から非文
字であると判断された図形は、より狭い連結範囲による
文字列候補領域へと分解される。分割の際、連結関係の
木構造を参照しつつ、できるだけ安定な連結関係となる
ように連結範囲を定める。この操作により新たに生じた
文字列候補領域も、文字認識によって、文字図形か非文
字図形かを判断される。文字認識と分割の処理は、文字
図形であると判断されるか、分割が不可能になるまで繰
り返される。
理が行われる。複雑さと大きさだけを基準とすると、文
字候補領域に背景図形が多く含まれることになる。そこ
で、この処理では、得られた文字列候補領域に対して文
字認識処理を行い、文字として認識できるかどうかによ
って文字候補領域を文字領域と非文字領域とに分ける。
また、連結された図形の形状や文字認識の結果から非文
字であると判断された図形は、より狭い連結範囲による
文字列候補領域へと分解される。分割の際、連結関係の
木構造を参照しつつ、できるだけ安定な連結関係となる
ように連結範囲を定める。この操作により新たに生じた
文字列候補領域も、文字認識によって、文字図形か非文
字図形かを判断される。文字認識と分割の処理は、文字
図形であると判断されるか、分割が不可能になるまで繰
り返される。
【0038】そして、ステップS25にて、文字列領域
再構成処理が行われる。文字認識の結果、文字領域であ
ると判断された図形によって、その文字領域を構成する
文字の大きさと文字列の方向を推定することができる。
この処理では、これら文字の大きさや文字列の方向を参
照することによって、文字列領域の再構成を行う。
再構成処理が行われる。文字認識の結果、文字領域であ
ると判断された図形によって、その文字領域を構成する
文字の大きさと文字列の方向を推定することができる。
この処理では、これら文字の大きさや文字列の方向を参
照することによって、文字列領域の再構成を行う。
【0039】次に、本実施例の文字領域抽出処理をより
詳細に説明する。まず、上記のようにステップS20に
て入力部1から紙面に記載されている文字や図形が2値
の画像として取り込まれた後、ステップS21にて、入
力画像に対して文字候補領域の抽出に必要な前処理が前
処理部2により行われ、プリミティブが抽出される。本
実施例では、前処理としては、細線化とその折れ線近似
(以下、細線線分)、輪郭線追跡とその折れ線近似(以
下、輪郭線分)、細線線分と輪郭線分との対応付けが行
われる。これらの処理は、例えば、“A high speedrast
er to bector conversion using special hardware for
contour tracking” (IAPR workshop on CV - Special
hardware and industrial application, 1988, pp.18-
23)や“Pattern classificasion and scene analysis
” (A Wiley-interscince Publication.pp.338-339)
なる文献に紹介されるような手法を用いることにより実
行される。
詳細に説明する。まず、上記のようにステップS20に
て入力部1から紙面に記載されている文字や図形が2値
の画像として取り込まれた後、ステップS21にて、入
力画像に対して文字候補領域の抽出に必要な前処理が前
処理部2により行われ、プリミティブが抽出される。本
実施例では、前処理としては、細線化とその折れ線近似
(以下、細線線分)、輪郭線追跡とその折れ線近似(以
下、輪郭線分)、細線線分と輪郭線分との対応付けが行
われる。これらの処理は、例えば、“A high speedrast
er to bector conversion using special hardware for
contour tracking” (IAPR workshop on CV - Special
hardware and industrial application, 1988, pp.18-
23)や“Pattern classificasion and scene analysis
” (A Wiley-interscince Publication.pp.338-339)
なる文献に紹介されるような手法を用いることにより実
行される。
【0040】次に、ステップS22において、文字列候
補領域抽出部3により、紙面上から文字と思われる図形
(以下、文字候補図形)が抽出される。この処理では、
文字以外の背景図形の形状に関する知識があれば、背景
図形を抽出し、抽出されなかった図形が文字候補図形と
なる。背景図形に関する知識がなければ、線図形の分布
の複雑な領域を文字候補領域とする。複雑さの目安に
は、例えば、輪郭線の形状の複雑さ、図形を構成する線
分の短さなどを用いる。抽出された領域は、後に文字認
識する際のベースラインを得るためにも長方形で囲む。
長方形の長辺の向きは、図形の傾きを考慮して定める。
図形の傾きは、例えば、図形の2次モーメントを用いた
り、輪郭線上の2点のうち最も離れている2点を用いる
などして求める。
補領域抽出部3により、紙面上から文字と思われる図形
(以下、文字候補図形)が抽出される。この処理では、
文字以外の背景図形の形状に関する知識があれば、背景
図形を抽出し、抽出されなかった図形が文字候補図形と
なる。背景図形に関する知識がなければ、線図形の分布
の複雑な領域を文字候補領域とする。複雑さの目安に
は、例えば、輪郭線の形状の複雑さ、図形を構成する線
分の短さなどを用いる。抽出された領域は、後に文字認
識する際のベースラインを得るためにも長方形で囲む。
長方形の長辺の向きは、図形の傾きを考慮して定める。
図形の傾きは、例えば、図形の2次モーメントを用いた
り、輪郭線上の2点のうち最も離れている2点を用いる
などして求める。
【0041】図4に、文字候補領域の抽出処理の一例を
示す。この処理では、短い曲線図形を構成する線分で、
なおかつ複雑な形状をもつ輪郭線に対応する線分を、文
字の構成要素として抽出する。
示す。この処理では、短い曲線図形を構成する線分で、
なおかつ複雑な形状をもつ輪郭線に対応する線分を、文
字の構成要素として抽出する。
【0042】短い曲線図形を構成する線分は、細線線分
のうち、あらかじめ定められたしきい値より短い線分を
抽出する。選択された線分列を構成する線分のそれぞれ
に1のフラグを立てておく(ステップS30)。複雑な
形状をもつ輪郭線図形に対応する線分は、輪郭線分を参
照し、あらかじめ定められたしきい値より短い輪郭線分
にのみ対応する細線線分を抽出する(ステップS3
1)。抽出された線分のうち、すでに1のフラグが立っ
ている線分が候補線分である。
のうち、あらかじめ定められたしきい値より短い線分を
抽出する。選択された線分列を構成する線分のそれぞれ
に1のフラグを立てておく(ステップS30)。複雑な
形状をもつ輪郭線図形に対応する線分は、輪郭線分を参
照し、あらかじめ定められたしきい値より短い輪郭線分
にのみ対応する細線線分を抽出する(ステップS3
1)。抽出された線分のうち、すでに1のフラグが立っ
ている線分が候補線分である。
【0043】次に、文字候補線分のうち、図形的に連結
しているものどうしを統合し、文字候補領域を作成する
(ステップS32)。それぞれが文字候補図形の凸閉包
の周の2次モーメントから、文字図形の傾きを求める。
求めた傾きと平行な辺をもち文字候補図形を内に含むこ
とのできる最小の矩形を求め、文字候補図形の領域とす
る(ステップS33)。
しているものどうしを統合し、文字候補領域を作成する
(ステップS32)。それぞれが文字候補図形の凸閉包
の周の2次モーメントから、文字図形の傾きを求める。
求めた傾きと平行な辺をもち文字候補図形を内に含むこ
とのできる最小の矩形を求め、文字候補図形の領域とす
る(ステップS33)。
【0044】後述するように、本実施例では、文字列を
抽出する際に文字認識を併用するので、文字候補図形の
中に文字以外の図形が多く含まれていても、文字列を正
確に抽出することができる。
抽出する際に文字認識を併用するので、文字候補図形の
中に文字以外の図形が多く含まれていても、文字列を正
確に抽出することができる。
【0045】次に、図3のステップS23において、文
字列候補領域抽出部3は、近傍にある文字候補領域どう
しを結合して文字列候補を作成する。図5には、文字列
候補領域の作成フローチャートを示す。まず、文字候補
図形を連結する際、どの程度近くにある文字候補図形ま
でを連結するか、その対象となる範囲を定める(ステッ
プS40)。以下、この範囲の広さのことを、スケール
と呼ぶ。
字列候補領域抽出部3は、近傍にある文字候補領域どう
しを結合して文字列候補を作成する。図5には、文字列
候補領域の作成フローチャートを示す。まず、文字候補
図形を連結する際、どの程度近くにある文字候補図形ま
でを連結するか、その対象となる範囲を定める(ステッ
プS40)。以下、この範囲の広さのことを、スケール
と呼ぶ。
【0046】スケールの決定方法の一例を、図6のフロ
ーチャートを用いて説明する。本実施例では、各文字候
補図形の矩形領域を拡大し、拡大した矩形どうし接触す
る文字候補図形を連結する。この拡大の倍率が、上記の
スケールに相当する。
ーチャートを用いて説明する。本実施例では、各文字候
補図形の矩形領域を拡大し、拡大した矩形どうし接触す
る文字候補図形を連結する。この拡大の倍率が、上記の
スケールに相当する。
【0047】スケールの刻み幅Δsと最大値Sをあらか
じめ定めておき、1.0からSまでΔs刻みでスケール
を変化させて文字候補図形を連結する。スケールが大き
くなるに従って、より広い範囲の文字候補図形が連結さ
れる(ステップS50)。
じめ定めておき、1.0からSまでΔs刻みでスケール
を変化させて文字候補図形を連結する。スケールが大き
くなるに従って、より広い範囲の文字候補図形が連結さ
れる(ステップS50)。
【0048】連結図形の形状は、連結された図形をすべ
て内に含む矩形により代表される。矩形の傾きは、連結
要素となった各文字候補図形の中心点をすべて含む凸閉
包の2次モーメントにより求める(ステップS51)。
て内に含む矩形により代表される。矩形の傾きは、連結
要素となった各文字候補図形の中心点をすべて含む凸閉
包の2次モーメントにより求める(ステップS51)。
【0049】次に、スケールの変化による連結関係の変
化を、木構造により表現する(ステップS52)。木構
造の作成は、文字列候補領域情報抽出部4を利用して行
われる。
化を、木構造により表現する(ステップS52)。木構
造の作成は、文字列候補領域情報抽出部4を利用して行
われる。
【0050】図7には、スケールの変化による文字候補
図形の連結の変化の様子を示す。「イ」,「木」,
「み」,「3」,「4」を含む文字候補領域r1〜r5
が、スケールの拡大にともなって連結され、連結領域r
11,r21,r101,r1001が生成されていく
のが分かる。図8(a)には、図7に示した文字候補図
形のスケール変化に対する矩形の変化を表した木構造を
に示す。図形a,b,c,d,eは夫々、図7の休みの
「イ」,図7の休みの「木」,「み」,「3」,「4」
と対応している。木構造において枝の長さは、連結図形
の形状が変化しなかったスケールの変化量に相当する。
すなわち、枝が長い部分は、周囲の文字候補図形から孤
立している状態に対応している。
図形の連結の変化の様子を示す。「イ」,「木」,
「み」,「3」,「4」を含む文字候補領域r1〜r5
が、スケールの拡大にともなって連結され、連結領域r
11,r21,r101,r1001が生成されていく
のが分かる。図8(a)には、図7に示した文字候補図
形のスケール変化に対する矩形の変化を表した木構造を
に示す。図形a,b,c,d,eは夫々、図7の休みの
「イ」,図7の休みの「木」,「み」,「3」,「4」
と対応している。木構造において枝の長さは、連結図形
の形状が変化しなかったスケールの変化量に相当する。
すなわち、枝が長い部分は、周囲の文字候補図形から孤
立している状態に対応している。
【0051】次に、孤立した状態を一纏まりとして抽出
し、文字列候補領域を作成するために、スケールの変化
に対して安定な図形を抽出する。長い枝の探索は、再帰
的に行われる(ステップS53)。
し、文字列候補領域を作成するために、スケールの変化
に対して安定な図形を抽出する。長い枝の探索は、再帰
的に行われる(ステップS53)。
【0052】例えば、図8では、9本の枝があるが、枝
8が最も長いので、枝8に対応する図形、すなわち図形
dと図形eとが連結したものが安定した図形である。残
る図形a,図形b,図形cに対応する枝を図8(b)に
示す。このうち最も長いのは枝5なので、この枝5に対
応する図形、すなわち図形a,図形b,図形cが連結し
たものをもう一つの安定図形とみなす。
8が最も長いので、枝8に対応する図形、すなわち図形
dと図形eとが連結したものが安定した図形である。残
る図形a,図形b,図形cに対応する枝を図8(b)に
示す。このうち最も長いのは枝5なので、この枝5に対
応する図形、すなわち図形a,図形b,図形cが連結し
たものをもう一つの安定図形とみなす。
【0053】この処理によれば、どの文字候補図形も必
ずいずれかの安定図形に含まれる。このようにして、各
文字候補を連結する際のスケールが、文字候補図形ごと
に選択される。
ずいずれかの安定図形に含まれる。このようにして、各
文字候補を連結する際のスケールが、文字候補図形ごと
に選択される。
【0054】ところで、スケールの変化に対して安定し
ている図形が必ずしも文字列であるとは限らない。そこ
で、文字列判断部8により文字列らしさを判断する。そ
の形状から明らかに文字列でないと判断(図5のステッ
プS41)できる安定図形は、現在のスケールより小さ
なスケールの中で最も安定なスケールを連結関係の木構
造を参照して各文字候補領域毎に求め(ステップS4
2)、そのスケールによる連結関係に分割する(ステッ
プS43)。
ている図形が必ずしも文字列であるとは限らない。そこ
で、文字列判断部8により文字列らしさを判断する。そ
の形状から明らかに文字列でないと判断(図5のステッ
プS41)できる安定図形は、現在のスケールより小さ
なスケールの中で最も安定なスケールを連結関係の木構
造を参照して各文字候補領域毎に求め(ステップS4
2)、そのスケールによる連結関係に分割する(ステッ
プS43)。
【0055】形状の文字列らしさは、例えば、構成要素
が直線状に並んでいるかどうか、構成要素の高さが揃っ
ているかどうか、構成要素が等間隔に並んでいるかどう
か、構成要素の間隔が十分狭いかどうか、構成要素の面
積が揃っているかどうか、構成要素の傾きが揃っている
かどうか、構成要素の幅が揃っているかどうか、などと
いった条件の組合わせにより判断できる。本実施例にお
いては、文字列らしさの判断を、構成要素の並び方が直
線状かどうかと、構成要素の高さが揃っているかどうか
の二項目により行う。直線状かどうかは、各要素の中心
点の配置の偏平度により、高さが揃ってるかどうかは、
中心点の並ぶ方向に直交する直線への各要素の正射影を
比較することにより判断する。この処理は、文字列候補
領域情報抽出部4を利用して行われる。
が直線状に並んでいるかどうか、構成要素の高さが揃っ
ているかどうか、構成要素が等間隔に並んでいるかどう
か、構成要素の間隔が十分狭いかどうか、構成要素の面
積が揃っているかどうか、構成要素の傾きが揃っている
かどうか、構成要素の幅が揃っているかどうか、などと
いった条件の組合わせにより判断できる。本実施例にお
いては、文字列らしさの判断を、構成要素の並び方が直
線状かどうかと、構成要素の高さが揃っているかどうか
の二項目により行う。直線状かどうかは、各要素の中心
点の配置の偏平度により、高さが揃ってるかどうかは、
中心点の並ぶ方向に直交する直線への各要素の正射影を
比較することにより判断する。この処理は、文字列候補
領域情報抽出部4を利用して行われる。
【0056】図9に、文字列らしさの判断法の一例を示
す。c1は構成要素を、c2は構成要素の中心を夫々表
す。中心点の配置の偏平度は、全中心点の凸閉包の周の
長さL,面積Sを用いて、S/(L^2)により評価し
た。この値があらかじめ定めたしきい値より小さいと
き、その安定図形の構成要素は十分直線状に配置してい
ると判断する。図9(a)では凸閉包が十分偏平な例、
(b)は偏平ではない例を示している。また、高さが揃
っているかどうかは、領域の傾きに直交する直線に各要
素を射影し、射影された領域の上端,下端のずれがあら
かじめ定めたしきい値より小さいとき、十分高さが揃っ
ていると判断する。図9(c)は高さの揃っている例、
(d)は揃っていない例を示している。直線状であり、
かつ高さも揃っていると判断された安定図形を文字列候
補図形とする(図5のステップS44)。
す。c1は構成要素を、c2は構成要素の中心を夫々表
す。中心点の配置の偏平度は、全中心点の凸閉包の周の
長さL,面積Sを用いて、S/(L^2)により評価し
た。この値があらかじめ定めたしきい値より小さいと
き、その安定図形の構成要素は十分直線状に配置してい
ると判断する。図9(a)では凸閉包が十分偏平な例、
(b)は偏平ではない例を示している。また、高さが揃
っているかどうかは、領域の傾きに直交する直線に各要
素を射影し、射影された領域の上端,下端のずれがあら
かじめ定めたしきい値より小さいとき、十分高さが揃っ
ていると判断する。図9(c)は高さの揃っている例、
(d)は揃っていない例を示している。直線状であり、
かつ高さも揃っていると判断された安定図形を文字列候
補図形とする(図5のステップS44)。
【0057】文字候補図形が他の文字候補図形と連結さ
れることなく一つだけのときは、必ず文字列らしいと判
断されるので、分割の操作は必ず有限回で終わる。文字
列らしいと判断されなかったときの分割は、図8に示し
た木構造を元に、より小さなスケールの枝の中で安定な
枝を探すことにより行われる。最終的に、文字候補領域
は、必ずいずれかの文字列候補領域に含まれる。
れることなく一つだけのときは、必ず文字列らしいと判
断されるので、分割の操作は必ず有限回で終わる。文字
列らしいと判断されなかったときの分割は、図8に示し
た木構造を元に、より小さなスケールの枝の中で安定な
枝を探すことにより行われる。最終的に、文字候補領域
は、必ずいずれかの文字列候補領域に含まれる。
【0058】次に、図3のステップS24では、作成さ
れた文字列候補領域が文字認識部7に渡され、文字列か
否かの判断が行われる。文字認識部7では、文字列候補
領域内に含まれる図形のうち、文字候補図形のみを認識
の対象とする。
れた文字列候補領域が文字認識部7に渡され、文字列か
否かの判断が行われる。文字認識部7では、文字列候補
領域内に含まれる図形のうち、文字候補図形のみを認識
の対象とする。
【0059】図10に文字認識による文字列領域の作成
の手順を示す。文字の記載されている方向が未知のとき
は、文字候補図形を囲む矩形の各辺をベースラインとし
て、あらゆる方向から読む(ステップS90)。ある程
度、文字の記載されている方向が既知であるなら、その
知識に基づき読む方向を限定する。複数の方向から文字
認識をする際は、各々の方向での文字との類似度を記憶
しておき、最大の類似度を与える方向をもってベースラ
インとみなし、最大類似度をその文字候補の最終類似度
とみなす(ステップS91)。最終類似度があらかじめ
定めたしきい値より大きければ文字、小さければ非文字
と判断する(ステップS92)。非文字列と判断された
文字列候補領域は、図8の木構造を参照して現在より小
さなスケールで安定なスケールを各文字候補領域毎に求
め(ステップS93)、求めたスケールによる連結関係
に分割し、再度、文字認識部7に渡される(ステップS
95)。文字列であると判断されるか分割が不可能にな
るかまで、分割は繰り返される。なお、図10のステッ
プS93,ステップS95は、それぞれ図5のステップ
S42,ステップS43と同様の操作である。
の手順を示す。文字の記載されている方向が未知のとき
は、文字候補図形を囲む矩形の各辺をベースラインとし
て、あらゆる方向から読む(ステップS90)。ある程
度、文字の記載されている方向が既知であるなら、その
知識に基づき読む方向を限定する。複数の方向から文字
認識をする際は、各々の方向での文字との類似度を記憶
しておき、最大の類似度を与える方向をもってベースラ
インとみなし、最大類似度をその文字候補の最終類似度
とみなす(ステップS91)。最終類似度があらかじめ
定めたしきい値より大きければ文字、小さければ非文字
と判断する(ステップS92)。非文字列と判断された
文字列候補領域は、図8の木構造を参照して現在より小
さなスケールで安定なスケールを各文字候補領域毎に求
め(ステップS93)、求めたスケールによる連結関係
に分割し、再度、文字認識部7に渡される(ステップS
95)。文字列であると判断されるか分割が不可能にな
るかまで、分割は繰り返される。なお、図10のステッ
プS93,ステップS95は、それぞれ図5のステップ
S42,ステップS43と同様の操作である。
【0060】次に、図3のステップS25の文字領域再
構成処理を説明する。この処理は、主に文字列候補領域
統合/分割部5により行われる。さて、ステップS20
からステップS24までの処理を経て文字図形であると
判断された文字列領域は、文字候補図形がまばらな領域
では文字列単位で、文字図形と非文字図形とが混在し密
集している領域では文字単位で抽出されることが多い。
このうち文字単位に抽出された領域は、周囲の文字候補
図形を連結することにより、文字列に再構成する必要が
ある。文字認識の結果、文字扱いされた図形を参照する
ことにより、文字の大きさや文字列の方向を推定するこ
とができる。図11および図12に、文字領域を各とし
て文字列を再構成する手法を示す。なお、文字列の方向
や大きさを抽出する処理は、文字列候補領域情報抽出部
4を利用して行われる。
構成処理を説明する。この処理は、主に文字列候補領域
統合/分割部5により行われる。さて、ステップS20
からステップS24までの処理を経て文字図形であると
判断された文字列領域は、文字候補図形がまばらな領域
では文字列単位で、文字図形と非文字図形とが混在し密
集している領域では文字単位で抽出されることが多い。
このうち文字単位に抽出された領域は、周囲の文字候補
図形を連結することにより、文字列に再構成する必要が
ある。文字認識の結果、文字扱いされた図形を参照する
ことにより、文字の大きさや文字列の方向を推定するこ
とができる。図11および図12に、文字領域を各とし
て文字列を再構成する手法を示す。なお、文字列の方向
や大きさを抽出する処理は、文字列候補領域情報抽出部
4を利用して行われる。
【0061】まず、対象とする文字列領域を選ぶ(ステ
ップS100)。文字認識結果からベースラインが定ま
るので、このベースラインをもとに文字列の方向をある
程度定めることができ、注目している文字候補図形の隣
の文字候補図形を探す際の探索範囲を限定することがで
きる(ステップS101)。
ップS100)。文字認識結果からベースラインが定ま
るので、このベースラインをもとに文字列の方向をある
程度定めることができ、注目している文字候補図形の隣
の文字候補図形を探す際の探索範囲を限定することがで
きる(ステップS101)。
【0062】本実施例における探索範囲の定め方を図1
3に示す。文字認識結果から注目している文字図形の文
字数が分かる。ベースラインの長さを文字数で割ること
により、一文字あたりのベースラインの長さL1を求め
ることができる。ベースラインの延長線上にL1×nの
長さを底辺にもち高さが文字列領域と等しい矩形を想定
し、この想定した矩形を探索範囲とする(図13
(a))。ただし、nはあらかじめ定めたパラメータで
非負の実数である。
3に示す。文字認識結果から注目している文字図形の文
字数が分かる。ベースラインの長さを文字数で割ること
により、一文字あたりのベースラインの長さL1を求め
ることができる。ベースラインの延長線上にL1×nの
長さを底辺にもち高さが文字列領域と等しい矩形を想定
し、この想定した矩形を探索範囲とする(図13
(a))。ただし、nはあらかじめ定めたパラメータで
非負の実数である。
【0063】次に、探索範囲と接触している文字候補図
形から注目すべきものを選ぶ(ステップS102)。こ
の文字候補図形に対して、注目している文字列と連結可
能かの判断をする(ステップS103)。連結可能かど
うかの判断には、連結しても形状としての文字列らしさ
を失わないかどうかを調べ、文字列らしさを打ちなわな
いと判断されたときに連結可能とする(ステップS10
4)。文字列らしさの判断は、図5のステップS41と
同様の手法でよい。連結可能かどうかの判断を、探索範
囲と接触している文字候補図形の全てに対して行う(ス
テップS106)。
形から注目すべきものを選ぶ(ステップS102)。こ
の文字候補図形に対して、注目している文字列と連結可
能かの判断をする(ステップS103)。連結可能かど
うかの判断には、連結しても形状としての文字列らしさ
を失わないかどうかを調べ、文字列らしさを打ちなわな
いと判断されたときに連結可能とする(ステップS10
4)。文字列らしさの判断は、図5のステップS41と
同様の手法でよい。連結可能かどうかの判断を、探索範
囲と接触している文字候補図形の全てに対して行う(ス
テップS106)。
【0064】もしステップS106の段階で連結可能な
文字候補図形が見つかれば(ステップS107でYes
の場合)、その中で注目している文字列に最も距離の近
いものを選択する。本実施例では、矩形間の距離を各図
形の中心点間の距離とする(ステップS108)。文字
候補図形を連結したら、連結された図形を同一の矩形で
囲む(図13(b))(ステップS110)。連結され
た文字候補図形を文字認識部7に渡し、文字列かどうか
を判断する(ステップS111,S112)。
文字候補図形が見つかれば(ステップS107でYes
の場合)、その中で注目している文字列に最も距離の近
いものを選択する。本実施例では、矩形間の距離を各図
形の中心点間の距離とする(ステップS108)。文字
候補図形を連結したら、連結された図形を同一の矩形で
囲む(図13(b))(ステップS110)。連結され
た文字候補図形を文字認識部7に渡し、文字列かどうか
を判断する(ステップS111,S112)。
【0065】文字認識の結果、文字列であると判断され
たら、連結後に作成した矩形をもって文字領域とみなす
(ステップS114)。そして、図13(c)のように
新たなベースラインを元に文字探索範囲を作成し直し
(ステップS115)、ステップS102に戻って、連
結可能な図形を探す。
たら、連結後に作成した矩形をもって文字領域とみなす
(ステップS114)。そして、図13(c)のように
新たなベースラインを元に文字探索範囲を作成し直し
(ステップS115)、ステップS102に戻って、連
結可能な図形を探す。
【0066】文字認識の結果、文字列ではないと判断さ
れたら、連結した各要素に分解し連結前の状態に戻す
(ステップS113)。そして、他に連結して文字列領
域であるとみなせる文字候補図形が存在すれば(ステッ
プS116でYesの場合)、ステップS108に戻り
次に距離の近い文字候補図形を選択し以降の処理を繰り
返す。存在しなければ(ステップS116でNoの場
合)、処理を終了する。
れたら、連結した各要素に分解し連結前の状態に戻す
(ステップS113)。そして、他に連結して文字列領
域であるとみなせる文字候補図形が存在すれば(ステッ
プS116でYesの場合)、ステップS108に戻り
次に距離の近い文字候補図形を選択し以降の処理を繰り
返す。存在しなければ(ステップS116でNoの場
合)、処理を終了する。
【0067】なお、上記の矩形の作成法は図6のステッ
プS51と同様とし、文字列かどうかの判断は、図10
のステップS92と同様とする。一方、ステップS10
6の段階で連結可能な文字列候補図形がなければ(ステ
ップS107でNoの場合)、探索範囲に含まれる文字
候補図形を後述するようにして成形し、再度連結可能か
どうかを判断し、連結可能な文字が見つかれば連結する
(ステップS109)。そして、連結できる文字が見つ
かった場合(ステップS117でYesの場合)、ステ
ップS115からステップS102に戻り処理を繰り返
す。見つからなかった場合(ステップS117でNoの
場合)、処理を終了する。
プS51と同様とし、文字列かどうかの判断は、図10
のステップS92と同様とする。一方、ステップS10
6の段階で連結可能な文字列候補図形がなければ(ステ
ップS107でNoの場合)、探索範囲に含まれる文字
候補図形を後述するようにして成形し、再度連結可能か
どうかを判断し、連結可能な文字が見つかれば連結する
(ステップS109)。そして、連結できる文字が見つ
かった場合(ステップS117でYesの場合)、ステ
ップS115からステップS102に戻り処理を繰り返
す。見つからなかった場合(ステップS117でNoの
場合)、処理を終了する。
【0068】ここで、図14に、ステップS109の文
字候補図形を成形する手法を示す。なお、文字候補図形
を成形する処理は、文字列候補領域抽出部3を利用して
行われる。背景と滑らかに接続しているため文字の一部
が背景図形扱いされて掛けている文字図形、もしくは接
触している背景図形を図形の一部として含んでいる文字
図形を、ここでの操作により正しい文字図形に成形す
る。例えば、図15(a)に示した文字候補図形は、背
景と滑らかに接続しているために文字“2”の一部が欠
けており、さらに底辺の部分に余分な線分が連結されて
いる。これを、図15(e)のように正しい文字図形で
ある“2”に成形する。
字候補図形を成形する手法を示す。なお、文字候補図形
を成形する処理は、文字列候補領域抽出部3を利用して
行われる。背景と滑らかに接続しているため文字の一部
が背景図形扱いされて掛けている文字図形、もしくは接
触している背景図形を図形の一部として含んでいる文字
図形を、ここでの操作により正しい文字図形に成形す
る。例えば、図15(a)に示した文字候補図形は、背
景と滑らかに接続しているために文字“2”の一部が欠
けており、さらに底辺の部分に余分な線分が連結されて
いる。これを、図15(e)のように正しい文字図形で
ある“2”に成形する。
【0069】この処理では、まず、注目する文字列を選
択し(ステップS119)、探索範囲にある文字候補図
形を対象とする(ステップS120)。注目している文
字列のベースラインと文字の高さから、隣の文字が納ま
るであろう領域を文字候補成形領域として作成する(ス
テップS122)。本実施例では、注目している文字列
のベースラインの延長線上に一文字分のベースラインの
長さの底辺をもち、高さがその文字列に等しい矩形を文
字候補成形領域とする(図15(b))。文字候補図形
を構成している細線線分のうち文字候補成形領域からは
み出している細線線分を文字候補図形から除去する(ス
テップS123)。図15(c)では、点線に示した細
線線分が、成形領域からはみ出していたため、消去され
る。次に、その文字候補図形に接している非文字図形を
接触背景図形として探す。そして、接触背景図形を構成
する細線線分のうち、文字候補成形領域に含まれている
細線線分を曖昧線分として抽出する。図15(d)で
は、一本の曖昧線分が抽出される(ステップS12
4)。抽出された曖昧線分をN本とするとき、曖昧線分
の全部を文字候補図形に組み込まないとき、任意の1本
だけを組み込むとき、任意の2本を組み込むとき、と組
み込む本数を0本から次第に増やして行き、N本全てを
組み込むまであらゆる組合せで曖昧線分を文字候補図形
に組み込む(ステップS125)。組合せを変更する度
に、注目している文字列と連結しても形状の文字列らし
さを失わないかどうか判断する(ステップS126)。
この判断は、図5のステップS41と同様である。文字
列らしさを失わないと判断されたら、文字認識にかけ
(ステップS127)、類似度から文字列かどうかを判
断する(ステップS128)。文字列であると判断され
たら連結する(ステップS129)。図15(e)で
は、曖昧線分が文字候補図形に組み込まれたときに
「2」として認識されることになる。
択し(ステップS119)、探索範囲にある文字候補図
形を対象とする(ステップS120)。注目している文
字列のベースラインと文字の高さから、隣の文字が納ま
るであろう領域を文字候補成形領域として作成する(ス
テップS122)。本実施例では、注目している文字列
のベースラインの延長線上に一文字分のベースラインの
長さの底辺をもち、高さがその文字列に等しい矩形を文
字候補成形領域とする(図15(b))。文字候補図形
を構成している細線線分のうち文字候補成形領域からは
み出している細線線分を文字候補図形から除去する(ス
テップS123)。図15(c)では、点線に示した細
線線分が、成形領域からはみ出していたため、消去され
る。次に、その文字候補図形に接している非文字図形を
接触背景図形として探す。そして、接触背景図形を構成
する細線線分のうち、文字候補成形領域に含まれている
細線線分を曖昧線分として抽出する。図15(d)で
は、一本の曖昧線分が抽出される(ステップS12
4)。抽出された曖昧線分をN本とするとき、曖昧線分
の全部を文字候補図形に組み込まないとき、任意の1本
だけを組み込むとき、任意の2本を組み込むとき、と組
み込む本数を0本から次第に増やして行き、N本全てを
組み込むまであらゆる組合せで曖昧線分を文字候補図形
に組み込む(ステップS125)。組合せを変更する度
に、注目している文字列と連結しても形状の文字列らし
さを失わないかどうか判断する(ステップS126)。
この判断は、図5のステップS41と同様である。文字
列らしさを失わないと判断されたら、文字認識にかけ
(ステップS127)、類似度から文字列かどうかを判
断する(ステップS128)。文字列であると判断され
たら連結する(ステップS129)。図15(e)で
は、曖昧線分が文字候補図形に組み込まれたときに
「2」として認識されることになる。
【0070】文字列であると判断されなければ、まだ試
していない曖昧線分の組合せがあれば、それを試す。な
ければ、探索範囲にある他の文字候補図形に対して成形
を試みる。全ての文字候補図形に対して成形を試みて、
連結可能なものがなければ終了する。なお、文字列かど
うかの判断は、図10のステップS92と同様である。
以上のようにして紙面上に記載された様々な図形のう
ち文字列であると判断された図形は、例えばコード化さ
れて文字判断部6から出力される。
していない曖昧線分の組合せがあれば、それを試す。な
ければ、探索範囲にある他の文字候補図形に対して成形
を試みる。全ての文字候補図形に対して成形を試みて、
連結可能なものがなければ終了する。なお、文字列かど
うかの判断は、図10のステップS92と同様である。
以上のようにして紙面上に記載された様々な図形のう
ち文字列であると判断された図形は、例えばコード化さ
れて文字判断部6から出力される。
【0071】以上のように本実施例によれば、文字図形
の複雑さを用いて文字候補領域の抽出を行うため、背景
図形の形状に関する知識がないときでも、文字候補領域
を抽出することができる。しかも、文字認識によって文
字図形と非文字図形との判断を行うため、非文字図形を
文字列として扱う誤認を犯しにくい。
の複雑さを用いて文字候補領域の抽出を行うため、背景
図形の形状に関する知識がないときでも、文字候補領域
を抽出することができる。しかも、文字認識によって文
字図形と非文字図形との判断を行うため、非文字図形を
文字列として扱う誤認を犯しにくい。
【0072】本実施例で用いる文字候補図形の分布情報
を記述している木構造は、連結範囲の変化に対する連結
関係の変化を表現している。文字候補図形が一様に分布
しているときは、連結範囲を広げるに従い連結関係も一
様に変化し、一方文字候補図形が局在しているときは、
連結範囲を広げても連結関係は一様には変化しない。こ
の点を利用することで、例えば篇と旁とに分離している
漢字のように、いくつかの接近した図形を連結した領域
が他の図形から孤立するようなとき、篇と旁とは連結す
るが、他の図形とは連結しないような連結範囲の広さを
導き出すことができる。しかも、このような他の図形か
ら孤立するような連結範囲の広さを、文字候補図形毎に
定めることができる。
を記述している木構造は、連結範囲の変化に対する連結
関係の変化を表現している。文字候補図形が一様に分布
しているときは、連結範囲を広げるに従い連結関係も一
様に変化し、一方文字候補図形が局在しているときは、
連結範囲を広げても連結関係は一様には変化しない。こ
の点を利用することで、例えば篇と旁とに分離している
漢字のように、いくつかの接近した図形を連結した領域
が他の図形から孤立するようなとき、篇と旁とは連結す
るが、他の図形とは連結しないような連結範囲の広さを
導き出すことができる。しかも、このような他の図形か
ら孤立するような連結範囲の広さを、文字候補図形毎に
定めることができる。
【0073】また、本実施例では、文字候補図形毎に周
囲の図形との連結領域の範囲の広さを定めるため、同一
紙面内に異なる大きさの文字や異なる文字間隔の文字列
が混在していても、それぞれの文字に即した連結範囲の
広さで周囲の図形を連結することができる。他の図形か
ら孤立している文字列は、この処理の段階で文字列とし
て抽出ができる。
囲の図形との連結領域の範囲の広さを定めるため、同一
紙面内に異なる大きさの文字や異なる文字間隔の文字列
が混在していても、それぞれの文字に即した連結範囲の
広さで周囲の図形を連結することができる。他の図形か
ら孤立している文字列は、この処理の段階で文字列とし
て抽出ができる。
【0074】また、本実施例では、連結された図形の形
状や、文字認識の結果から文字列ではないと判断された
図形は、文字候補図形の分布の安定性を考慮しつつ分割
し、文字であると判断されるか分割が不可能になるま
で、形状と文字認識による文字かどうかの判断を繰り返
す。一般に、文字候補図形の密集している領域には、非
文字図形が多く含まれており、文字の大きさや文字列の
方向が未知のときにこのような領域から文字列を作成す
ることは従来は困難であったが、本実施例によれば、非
文字図形と文字図形とが誤って同一文字列に連結されて
も、文字認識により非文字図形と判断され、各要素に分
割されるため、最終的には文字毎の抽出が行われること
になる。文字領域が定まれば、文字の大きさ、文字列の
方向などを推定できるため、その文字を含む文字列の構
成が容易になる。このことを利用して、文字列領域の再
構成を行い、文字候補図形の密集した領域でも精度良く
文字列抽出ができる。また、本発明は上述した各実施例
に限定されるものではなく、その要旨を逸脱しない範囲
で、種々変形して実施することができる。
状や、文字認識の結果から文字列ではないと判断された
図形は、文字候補図形の分布の安定性を考慮しつつ分割
し、文字であると判断されるか分割が不可能になるま
で、形状と文字認識による文字かどうかの判断を繰り返
す。一般に、文字候補図形の密集している領域には、非
文字図形が多く含まれており、文字の大きさや文字列の
方向が未知のときにこのような領域から文字列を作成す
ることは従来は困難であったが、本実施例によれば、非
文字図形と文字図形とが誤って同一文字列に連結されて
も、文字認識により非文字図形と判断され、各要素に分
割されるため、最終的には文字毎の抽出が行われること
になる。文字領域が定まれば、文字の大きさ、文字列の
方向などを推定できるため、その文字を含む文字列の構
成が容易になる。このことを利用して、文字列領域の再
構成を行い、文字候補図形の密集した領域でも精度良く
文字列抽出ができる。また、本発明は上述した各実施例
に限定されるものではなく、その要旨を逸脱しない範囲
で、種々変形して実施することができる。
【0075】
【発明の効果】以上説明したように本発明によれば、紙
面上の画像から抽出された文字候補領域に対して、実際
に文字認識を行い、その認識結果を用いて文字列領域を
決定するようにしたので、従来の辞書パターンを備えさ
えすれば、文字以外の図形に対する厳密な知識を必要と
することなく、精度良く文字列抽出を行うことができ
る。
面上の画像から抽出された文字候補領域に対して、実際
に文字認識を行い、その認識結果を用いて文字列領域を
決定するようにしたので、従来の辞書パターンを備えさ
えすれば、文字以外の図形に対する厳密な知識を必要と
することなく、精度良く文字列抽出を行うことができ
る。
【0076】また、文字候補領域どうしを連結する際、
連結する範囲の広さの変化に対する連結関係の変化を参
照することにより、連結範囲を図形の密集の程度により
紙面の場所毎に設定することができる。このため、同一
紙面内に異なる大きさ、異なる方向、異なる文字間隔を
もつ文字列が混在していても文字列抽出を行うことがで
きる。
連結する範囲の広さの変化に対する連結関係の変化を参
照することにより、連結範囲を図形の密集の程度により
紙面の場所毎に設定することができる。このため、同一
紙面内に異なる大きさ、異なる方向、異なる文字間隔を
もつ文字列が混在していても文字列抽出を行うことがで
きる。
【0077】さらに、文字認識の結果、文字であると判
断された図形をもとに文字列を再構成することにより、
図形の密集した領域でも精度良く文字列抽出を行うこと
ができる。
断された図形をもとに文字列を再構成することにより、
図形の密集した領域でも精度良く文字列抽出を行うこと
ができる。
【図1】本発明の一実施例を示す機能ブロック図
【図2】同実施例のハードウェア構成の一例を示す図
【図3】同実施例の全体的な処理の流れを示すフローチ
ャート
ャート
【図4】同実施例の文字候補領域抽出処理の流れを示す
フローチャート
フローチャート
【図5】同実施例の文字列候補領域抽出処理の流れを示
すフローチャート
すフローチャート
【図6】同実施例の文字候補領域の分布情報を抽出する
処理の流れを示すフローチャート
処理の流れを示すフローチャート
【図7】連結範囲を変化させたときの文字候補領域の変
化を説明するための図
化を説明するための図
【図8】文字候補領域の分布情報を表現する木構造を示
す図
す図
【図9】文字候補領域の連結関係の幾何学的な文字列ら
しさの求め方を説明するための図
しさの求め方を説明するための図
【図10】同実施例の文字認識により文字列らしさを評
価する処理の流れを示すフローチャート
価する処理の流れを示すフローチャート
【図11】同実施例の文字列領域再構成の処理の流れを
示すフローチャート
示すフローチャート
【図12】同実施例の文字列領域再構成の処理の流れを
示すフローチャート
示すフローチャート
【図13】文字候補探索領域による文字列領域再構成の
様子を示す図
様子を示す図
【図14】同実施例の背景図形から文字候補図形を抽出
する処理の流れを示すフローチャート
する処理の流れを示すフローチャート
【図15】成形領域による細線線分の操作法を説明する
ための図
ための図
1…入力部、2…前処理部、3…文字列候補領域抽出
部、4…文字列候補領域情報抽出部、5…文字列候補領
域統合/分割部、6…文字列判断部、7…文字認識部、
11…CPU、12…イメージスキャナ、13…スキャ
ナインタフェース、14…メモリコントローラ、15…
画像メモリ、16…アドレスコントローラ、17…メモ
リ、18…システムバス、19…画像バス
部、4…文字列候補領域情報抽出部、5…文字列候補領
域統合/分割部、6…文字列判断部、7…文字認識部、
11…CPU、12…イメージスキャナ、13…スキャ
ナインタフェース、14…メモリコントローラ、15…
画像メモリ、16…アドレスコントローラ、17…メモ
リ、18…システムバス、19…画像バス
Claims (9)
- 【請求項1】文字と文字以外の図形の混在した入力画像
情報からプリミティブを抽出するプリミティブ抽出手段
と、 抽出されたプリミティブを元に文字列候補領域を生成す
る文字列候補領域生成手段と、 生成された文字列候補領域を文字認識する文字認識手段
と、 この文字認識手段による文字認識の結果に基づき前記文
字列候補領域が文字列領域であるか否かを判断する文字
列性判断手段とを具備してなることを特徴とする文字列
領域抽出装置。 - 【請求項2】前記文字列候補領域生成手段は、文字以外
の図形の形状に関する知識が与えられた場合、文字以外
の図形を抽出し、抽出されなかった残りの図形を文字候
補領域とし、文字以外の図形に関する知識がない場合、
前記プリミティブの分布の複雑な領域を文字候補領域と
し、所定の条件に従って1つまたは複数の文字候補領域
を結合して文字列候補領域を生成することを特徴とする
請求項1に記載の文字列領域抽出装置。 - 【請求項3】前記文字列候補領域生成手段は、所定の条
件に従って前記プリミティブを元に文字候補領域を生成
する手段と、前記文字列候補領域の生成に用いる前記文
字候補領域の連結範囲の条件を変化させて複数の文字列
候補領域を抽出する手段と、該連結範囲の条件の変化に
対する該文字列候補領域の形状の変化から得られる情報
を基に有効な連結範囲の条件を決定する手段と、該有効
な連結範囲の条件に従って前記文字候補領域から生成さ
れた文字列候補領域を出力する手段とを有することを特
徴とする請求項1または2に記載の文字列領域抽出装
置。 - 【請求項4】前記文字列性判断手段による判断の結果に
基づき前記文字列候補領域の統合または分割の少なくと
も一方を行って新たな文字列候補領域を生成する文字列
候補領域再構成手段とをさらに具備してなることを特徴
とする請求項1ないし3のいずれか1項に記載の文字列
領域抽出装置。 - 【請求項5】前記文字列候補領域再構成手段は、文字列
領域ではないと判断された文字列候補領域を複数の文字
列候補領域に分割した後、前記文字認識手段に与える手
段と、文字列領域であると判断された1つの文字列候補
領域から抽出された文字配列方向に関する情報に基づき
該1つの文字列候補領域に他の文字列候補領域を結合し
た後、前記文字認識手段に与える手段とのうちの少なく
とも一方を含むことを特徴とする請求項4に記載の文字
列領域抽出装置。 - 【請求項6】入力画像情報からプリミティブを抽出し、 抽出されたプリミティブを元に文字列候補領域を生成
し、 生成された文字列候補領域を文字認識し、 この文字認識手段による文字認識の結果に基づき前記文
字列候補領域が文字列領域であるか否かを判断すること
を特徴とする文字列領域抽出方法。 - 【請求項7】前記文字列候補領域の生成では、文字以外
の図形の形状に関する知識が与えられた場合、文字以外
の図形を抽出し、抽出されなかった残りの図形を文字候
補領域とし、文字以外の図形に関する知識がない場合、
前記プリミティブの分布の複雑な領域を文字候補領域と
した後、所定の条件に従って1つまたは複数の文字候補
領域を結合して文字列候補領域を生成することを特徴と
する請求項6に記載の文字列領域抽出方法。 - 【請求項8】前記文字列候補領域生成手段は、所定の条
件に従って前記プリミティブを元に文字候補領域を生成
し、前記文字列候補領域の生成に用いる前記文字候補領
域の連結範囲の条件を変化させて複数の文字列候補領域
を抽出し、該連結範囲の条件の変化に対する該文字列候
補領域の形状の変化から得られる情報を基に有効な連結
範囲の条件を決定し、該有効な連結範囲の条件に従って
前記文字候補領域から生成された文字列候補領域を出力
することを特徴とする請求項6または7に記載の文字列
領域抽出方法。 - 【請求項9】前記文字列候補領域が文字列領域であるか
否かの判断の結果、文字列領域ではないと判断された文
字列候補領域を複数の文字列候補領域に分割する処理
と、文字列領域であると判断された1つの文字列候補領
域から抽出された文字配列方向に関する情報に基づき該
1つの文字列候補領域に他の文字列候補領域を結合する
処理の少なくとも一方を行い、 この分割された文字列候補領域または結合された文字列
候補領域を再度文字認識して文字列領域であるか否かを
判断することを特徴とする請求項6ないし8のいずれか
1項に記載の文字列領域抽出方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30502294A JP3400151B2 (ja) | 1994-12-08 | 1994-12-08 | 文字列領域抽出装置および方法 |
US08/568,512 US5949906A (en) | 1994-12-08 | 1995-12-07 | Apparatus and method for extracting character string |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30502294A JP3400151B2 (ja) | 1994-12-08 | 1994-12-08 | 文字列領域抽出装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08161421A true JPH08161421A (ja) | 1996-06-21 |
JP3400151B2 JP3400151B2 (ja) | 2003-04-28 |
Family
ID=17940154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30502294A Expired - Fee Related JP3400151B2 (ja) | 1994-12-08 | 1994-12-08 | 文字列領域抽出装置および方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5949906A (ja) |
JP (1) | JP3400151B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014035622A (ja) * | 2012-08-08 | 2014-02-24 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
JP2016004553A (ja) * | 2014-06-19 | 2016-01-12 | 株式会社東芝 | 文字検出装置、方法およびプログラム |
JP2020513133A (ja) * | 2017-09-20 | 2020-04-30 | ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド | 画像品質の評価方法及び装置 |
JP2022023770A (ja) * | 2020-07-24 | 2022-02-08 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 文字の認識方法及び装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6104833A (en) * | 1996-01-09 | 2000-08-15 | Fujitsu Limited | Pattern recognizing apparatus and method |
JP3601658B2 (ja) * | 1997-12-19 | 2004-12-15 | 富士通株式会社 | 文字列抽出装置及びパターン抽出装置 |
JP3092576B2 (ja) * | 1998-01-22 | 2000-09-25 | 日本電気株式会社 | 文字認識装置 |
JP2000163044A (ja) * | 1998-11-30 | 2000-06-16 | Sharp Corp | 画像表示装置 |
US6876765B2 (en) * | 2000-03-30 | 2005-04-05 | Ricoh Company, Ltd. | Character recognition method and computer-readable storage medium |
JP4613397B2 (ja) * | 2000-06-28 | 2011-01-19 | コニカミノルタビジネステクノロジーズ株式会社 | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 |
JP4421134B2 (ja) * | 2001-04-18 | 2010-02-24 | 富士通株式会社 | 文書画像検索装置 |
JP3925112B2 (ja) * | 2001-06-20 | 2007-06-06 | 富士ゼロックス株式会社 | 画像処理装置 |
KR20060011828A (ko) * | 2003-04-03 | 2006-02-03 | 더블린 시티 유니버시티 | 멀티미디어 데이터를 인덱싱 및 검색하기 위한 형상 매칭방법 |
JP2006186656A (ja) * | 2004-12-27 | 2006-07-13 | Canon Inc | 画像処理装置、転送ジョブの管理方法、プログラムおよび記憶媒体 |
FR2880709B1 (fr) * | 2005-01-11 | 2014-04-25 | Vision Objects | Procede de recherche, reconnaissance et localisation dans l'encre, dispositif, programme et langage correspondants |
JP4470913B2 (ja) * | 2005-07-14 | 2010-06-02 | セイコーエプソン株式会社 | 文字列検索装置およびプログラム |
US7596270B2 (en) * | 2005-09-23 | 2009-09-29 | Dynacomware Taiwan Inc. | Method of shuffling text in an Asian document image |
JP5228897B2 (ja) * | 2008-01-31 | 2013-07-03 | セイコーエプソン株式会社 | 画像処理方法、そのプログラム及び画像処理装置 |
JP4549400B2 (ja) * | 2008-03-04 | 2010-09-22 | 富士通株式会社 | 文書認識プログラム、文書認識装置、および文書認識方法 |
US20090278848A1 (en) * | 2008-05-12 | 2009-11-12 | Microsoft Corporation | Drawing familiar graphs while system determines suitable form |
US8620080B2 (en) * | 2008-09-26 | 2013-12-31 | Sharp Laboratories Of America, Inc. | Methods and systems for locating text in a digital image |
JP5591578B2 (ja) * | 2010-04-19 | 2014-09-17 | 日本電産サンキョー株式会社 | 文字列認識装置および文字列認識方法 |
JP6208094B2 (ja) * | 2014-08-26 | 2017-10-04 | 株式会社東芝 | 情報処理装置、情報処理システム、情報処理方法及びそのプログラム |
JP6548920B2 (ja) | 2015-03-09 | 2019-07-24 | 株式会社東芝 | 情報処理装置、情報処理方法及びプログラム |
JP2017021695A (ja) | 2015-07-14 | 2017-01-26 | 株式会社東芝 | 情報処理装置および情報処理方法 |
CN106940799B (zh) | 2016-01-05 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本图像处理方法和装置 |
JP7247472B2 (ja) * | 2018-04-19 | 2023-03-29 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
JP6797869B2 (ja) * | 2018-08-08 | 2020-12-09 | シャープ株式会社 | 書物電子化装置および書物電子化方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5054104A (en) * | 1987-02-27 | 1991-10-01 | Sumitomo Electric Industries, Ltd. | Optical character reader |
EP0381773B1 (en) * | 1988-07-20 | 1998-06-10 | Fujitsu Limited | Character recognition apparatus |
US5341439A (en) * | 1989-09-21 | 1994-08-23 | Hsu Shin Yi | System for texture-based automatic detection of man-made objects in representations of sensed natural environmental scenes |
US5191612A (en) * | 1990-03-13 | 1993-03-02 | Fujitsu Limited | Character recognition system |
JP2821285B2 (ja) * | 1991-07-23 | 1998-11-05 | キヤノン株式会社 | 画像処理方法及び装置 |
CA2081406C (en) * | 1991-12-23 | 1997-09-16 | Chinmoy Bhusan Bose | Method and apparatus for connected and degraded text recognition |
US5335290A (en) * | 1992-04-06 | 1994-08-02 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
US5444797A (en) * | 1993-04-19 | 1995-08-22 | Xerox Corporation | Method and apparatus for automatic character script determination |
-
1994
- 1994-12-08 JP JP30502294A patent/JP3400151B2/ja not_active Expired - Fee Related
-
1995
- 1995-12-07 US US08/568,512 patent/US5949906A/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014035622A (ja) * | 2012-08-08 | 2014-02-24 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
JP2016004553A (ja) * | 2014-06-19 | 2016-01-12 | 株式会社東芝 | 文字検出装置、方法およびプログラム |
US10339657B2 (en) | 2014-06-19 | 2019-07-02 | Kabushiki Kaisha Toshiba | Character detection apparatus and method |
JP2020513133A (ja) * | 2017-09-20 | 2020-04-30 | ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド | 画像品質の評価方法及び装置 |
JP2022023770A (ja) * | 2020-07-24 | 2022-02-08 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 文字の認識方法及び装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム |
US11836996B2 (en) | 2020-07-24 | 2023-12-05 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for recognizing text |
Also Published As
Publication number | Publication date |
---|---|
US5949906A (en) | 1999-09-07 |
JP3400151B2 (ja) | 2003-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3400151B2 (ja) | 文字列領域抽出装置および方法 | |
JP3445394B2 (ja) | 少なくとも二つのイメージセクションの比較方法 | |
JP3618796B2 (ja) | パターン認識方法および装置 | |
JP4704601B2 (ja) | 文字認識方法,プログラム及び記録媒体 | |
JPH07220090A (ja) | 物体認識方法 | |
CN113420580B (zh) | 用于对二维码进行辅助定位符定位的方法及装置、二维码扫描设备、存储介质 | |
JP3634574B2 (ja) | 情報処理方法及び装置 | |
JP4570995B2 (ja) | マッチング方法およびマッチング装置ならびにプログラム | |
JP2006227824A (ja) | 図面認識方法および装置 | |
JPH05225394A (ja) | 文字認識システムの候補文字分類方法 | |
JPH0520794B2 (ja) | ||
JP2000322514A (ja) | パターン抽出装置及び文字切り出し装置 | |
JP7393655B2 (ja) | 経路認識プログラム、情報処理装置および経路認識方法 | |
JPH01147786A (ja) | 表を含む文書の読取装置 | |
JP4209511B2 (ja) | 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPS62192886A (ja) | 文字認識装置における特徴量生成方法 | |
JP2671984B2 (ja) | 情報認識装置 | |
JP4878057B2 (ja) | 文字認識方法,プログラム及び記録媒体 | |
JP2993533B2 (ja) | 情報処理装置及び文字認識装置 | |
JP3100825B2 (ja) | 線認識方法 | |
JP2792063B2 (ja) | 文字認識辞書作成方式 | |
JP2001266070A (ja) | 文字認識装置、文字認識方法および記憶媒体 | |
JP2023034823A (ja) | 画像処理装置、画像処理装置の制御方法およびプログラム | |
JP2740506B2 (ja) | 画像認識方法 | |
JPH05174114A (ja) | 情報処理装置及びそれを用いた文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090221 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |