JPH08161432A - 文字切り出し方法および文字切り出し装置 - Google Patents

文字切り出し方法および文字切り出し装置

Info

Publication number
JPH08161432A
JPH08161432A JP6299602A JP29960294A JPH08161432A JP H08161432 A JPH08161432 A JP H08161432A JP 6299602 A JP6299602 A JP 6299602A JP 29960294 A JP29960294 A JP 29960294A JP H08161432 A JPH08161432 A JP H08161432A
Authority
JP
Japan
Prior art keywords
cutout
character
candidate
cut
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6299602A
Other languages
English (en)
Inventor
Takashi Nitta
隆志 新田
Yoshiteru Uchiyama
喜照 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP6299602A priority Critical patent/JPH08161432A/ja
Publication of JPH08161432A publication Critical patent/JPH08161432A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 本発明は、文書画像から高速にかつ正確に文
字の切り出しを可能とし、さらに、漢字やひらがななど
に英数字記号の混在する文書における文字の切り出しを
高速にかつ正確に行うことを目的とする。 【構成】 各外接矩形の形状情報から切り出し候補を推
定し、この推定した切り出し候補に対して文字認識を行
い、この文字認識の結果により切り出し確定可能と判断
された切り出し候補に対してはそれを切り出し結果とし
て確定し、前記文字認識の結果により切り出し確定可能
と判断されなかった切り出し候補に対しては、各外接矩
形の組み合わせによる複数の切り出し候補を推定し、そ
れぞれの切り出し候補ごとに個々の矩形に対する認識評
価値を求め、これら個々の矩形に対する認識評価値を用
いた各切り出し候補ごとの組み合わせ評価値のうち最適
な組み合わせ評価値を得た切り出し候補を切り出し結果
として確定する。また、英数字記号のみを対象とした認
識を行って、英数字記号のみを先に確定したのちに、英
数字記号と確定された文字以外の文字の切り出しを行
う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識を行う前段階
の処理として読み取られた文書画像から文字の切り出し
を行う文字の切り出し方法および文字の切り出し装置に
関する。
【0002】
【従来の技術】スキャナなどにより読み込まれた文書画
像から文字認識を行うためには、認識すべき文字画像を
正確に切り出して文字認識部に渡す必要がある。
【0003】この文字画像の切り出しを行う際、文字画
像に対して外接矩形を抽出して切り出し処理を行うのが
普通である。
【0004】ここで、外接矩形とは、ある1つの文字
(またはこの文字を構成する一つ一つの構成要素)に接
するが如くその文字を包含する矩形をいう。たとえば、
アルファベットの「d」の外接矩形は、図10(a)の
点線で示すようになるが、日本語の場合、たとえば
「言」という文字の場合を例に取ると、横方向の一本一
本の線に対する4つの外接矩形と「口」に対する外接矩
形の合計5つの外接矩形で構成されるが、この「言」と
いう文字が存在する横方向(行方向)の文字列を抽出し
て、この行方向の文字列のみを考えた処理を行うことに
より、前記5つの外接矩形を列方向に統合して1つの外
接矩形として考える。したがって、たとえば、「請」と
いう文字の場合は、図10(b)の点線で示すように、
列方向に統合された2つの外接矩形K11,K12から
構成されることになる。以下、この列方向に統合された
外接矩形を単に外接矩形と呼ぶことにする。
【0005】このように、漢字の場合は一つの漢字であ
っても複数の外接矩形から構成されるものが多い。複数
の外接矩形から構成される文字が、或る1つの行に並ん
で存在している文書から文字の切り出しを行う場合は、
それぞれの外接矩形の組み合わせで文字を切り出すこと
が、例えば特公平4-76159等で従来より行われている。
【0006】たとえば、図11に示すように、「10状
態の矩形」というような文書から文字の切り出しを行う
場合を考える。なお、ここでは説明を簡単にするため、
「10状」の部分の切り出しについて説明する。
【0007】この「10状」は4つ外接矩形K1〜K4
から構成されている。そして、文字の切り出しにおける
これら外接矩形の組み合わせとしては、文字矩形の大き
さや文字間の距離を考慮すると、この場合、同図(b)
〜(f)のような5通りの組み合わせが考えられる。同
図(b)は4つの外接矩形K1〜K4がそれぞれ独立し
て切り出された場合、同図(c)は外接矩形K1とK2
がそれぞれ独立して切り出され、外接矩形K3とK4が
統合されて切り出された場合、同図(d)は外接矩形K
1が独立して切り出され、外接矩形K2とK3が統合さ
れて切り出され、さらに外接矩形K4が独立して切り出
された場合、同図(e)は外接矩形K1とK2が統合さ
れて切り出され、外接矩形K3とK4がそれぞれ独立し
て切り出された場合、同図(f)は外接矩形K1とK2
が統合されて切り出され、外接矩形K3とK4が統合さ
れて切り出され場合をそれぞれ示している。
【0008】このように外接矩形の組み合わせを行い、
それぞれの組み合わせに対して認識評価を行いその認識
評価値からどの組み合わせを採用するかを決定する。
【0009】すなわち、図11の例では、同図(b)の
場合、外接矩形K1の認識評価値は「300」、外接矩
形K2の認識評価値は「300」、外接矩形K3の認識
評価値は「50」、外接矩形K4の認識評価値は「80
0」であり、これら個々の外接矩形の認識評価値を用い
た組み合わせ評価値の合計は「1450」、同図(c)
の場合、外接矩形K1の認識評価値は「300」、外接
矩形K2の認識評価値は「300」、統合された外接矩
形K3とK4の認識評価値は「400×2」であり、こ
れら個々の外接矩形の認識評価値を用いた組み合わせ評
価値の合計は「1400」、同図(d)の場合、外接矩
形K1の認識評価値は「300」、統合された外接矩形
K2とK3の認識評価値は「200」、外接矩形K4の
認識評価値は「800」であり、これら個々の外接矩形
の認識評価値を用いた組み合わせ評価値の合計は「15
00」というように、組み合わせ評価値の合計を求め、
それを合計した数値からどれを採用するかを決定する。
したがって、この場合は、その合計点数から同図(d)
の組み合わせが採用されることになる(実際は同図(c)
が正解) 。
【0010】ところで、前記認識評価値において、外接
矩形K4の認識評価値が「800」と高いのはこの外接
矩形K4のみにおいても「犬」という意味を持った文字
となっているからである。また、図11(e)のように
外接矩形K1とK2の組み合わせによる認識評価値が
「200」と低いのは、数字の場合は一桁の組み合わせ
によって複数桁の数字を表すのが普通であり、「10」
という数字の辞書は一般には存在しないためである。
【0011】
【発明が解決しようとする課題】しかしながら、前記し
た従来技術のように、考えられる組み合わせ全てに対し
て「文字らしさ」の評価値を求める方法は、組み合わせ
数が多い場合は、処理に膨大な時間を要するという問題
がある。特に、評価値として認識情報を用いる場合に
は、認識処理自体に非常に時間がかかるため、さらに処
理に膨大な時間を要することになる。また、評価値とし
て認識情報を用いる場合に問題となるのは、コピー後の
文書画像のようにかすれやつぶれが生じて品質が悪く、
認識情報の信頼性が低い場合である。認識情報の信頼性
が低い場合は、当然のことながらそれによって得られる
認識評価値自体の信頼性も低いため、前記したような組
み合わせによる切り出しの正解率は低いものとなる。
【0012】また、前記した従来の方法は、個々の外接
矩形の認識評価値を用いた組み合わせ評価値を得て、こ
の組み合わせ評価値を合計した数値からどれを採用する
かを決定しているが、合計の評価値の高いものが必ずし
も正解とはならない場合もある。
【0013】つまり、図11(b)〜(f)の例では、
切り出しの正解は、本来、同図(c)であるが、この例
では各矩形の認識評価値を加算した合計点数にて判断し
ているため、各外接矩形に対応する認識評価値のうち一
つだけでも高い数値があると、低い数値の認識評価値が
あっても、合計点数のみから判断すると同図(d)の方
が高い数値となって、この組み合わせが採用されること
になり、誤った切り出しが行われるという問題があっ
た。
【0014】また、図11で示したような横書きの日本
語文書において、一般に、日本語の外接矩形の形状は縦
横の比が1(正方形)に近いものが多いが、この日本語
のなかに、同図のごとく「1」や「0」といった数字、
あるいはここでは図示されていないが「i」、「f」、
「(」などのような縦横の比が1に近くないアルファベ
ットや数字あるいは記号(漢字やひらがなに比べて横幅
の狭い縦長な文字)、さらに、「n」や「o」などのよ
うに他の文字と比較して縦横とも小さいアルファベッ
ト、数字あるいは記号(以下、これらをまとめて英数字
記号と呼ぶ)が混在すると、これらの英数字記号は文字
間のピッチが日本語の文字と異なるため、より一層、正
確な切り出しを行うのを困難なものとしている。
【0015】そこで本発明は、外接矩形の形状情報(文
字矩形の大きさや文字間の長さなどの情報)と外接矩形
の組み合わせによる評価値を用いて切り出しを行うこと
により、正確でしかも高速な文字の切り出しを可能と
し、また、漢字やひらがな、かたかなの中に、英数字記
号が混在している場合の文字の切り出しを正確でしかも
高速に可能とすることを目的とする。
【0016】
【課題を解決するための手段】本発明の文字切り出し方
法は、各文字を構成するそれぞれの外接矩形の形状情報
から切り出し候補を推定し、この推定した切り出し候補
に対して文字認識を行い、この文字認識の結果により切
り出し可能と判断された切り出し候補に対してはそれを
切り出し結果として確定し、前記文字認識の結果により
切り出し可能と判断されなかった切り出し候補に対して
は、前記各文字を構成するそれぞれの外接矩形の組み合
わせによる複数の切り出し候補を推定し、それぞれの切
り出し候補ごとに個々の矩形に対する認識評価値を求
め、これら個々の矩形の認識評価値を用いた各切り出し
候補ごとの組み合わせ評価値のうち最適な組み合わせ評
価値を得た切り出し候補を切り出し結果として確定する
ことを特徴とする。
【0017】また、各文字を構成するそれぞれの外接矩
形の組み合わせによる複数の切り出し候補を推定し、そ
れぞれの切り出し候補ごとに個々の矩形に対する認識評
価値を求め、これら個々の矩形の認識評価値を用いた各
切り出し候補ごとの組み合わせ評価値のうち最適な組み
合わせ評価値を得た切り出し候補を切り出し候補として
推定し、この推定された切り出し候補がその評価値から
切り出し可能と判断された場合には、それを切り出し結
果として確定し、切り出し可能と判断されなかった切り
出し候補に対しては、前記外接矩形の形状情報によって
切り出し処理を行うことを特徴とする。
【0018】また、各文字を構成するそれぞれの外接矩
形の形状情報から切り出し候補を推定し、この推定した
切り出し候補に対して文字認識を行い、この文字認識の
結果により切り出し可能と判断された切り出し候補に対
してはそれを切り出し結果として確定し、前記文字認識
の結果により切り出し可能と判断されなかった切り出し
候補に対しては、前記各文字を構成するそれぞれの外接
矩形の組み合わせによる複数の切り出し候補を推定し、
それぞれの切り出し候補ごとに個々の矩形に対する認識
評価値を求め、これら個々の矩形の認識評価値を用いた
各切り出し候補ごとの組み合わせ評価値のうち最適な組
み合わせ評価値を得た切り出し候補を切り出し候補とし
て推定し、この推定された切り出し候補がその評価値か
ら切り出し可能と判断された場合には、それを切り出し
結果として確定し、切り出し確定可能と判断されなかっ
た切り出し候補に対しては、再度、外接矩形の形状情報
によって切り出し処理を行うことを特徴とする。
【0019】そして、前記外接矩形の組み合わせによる
複数の切り出し候補を推定し、それぞれの切り出し候補
ごとに文字らしさを表す認識評価値を求める場合に、各
外接矩形を求める際に得た情報からその外接矩形の文字
画像が漢字の偏または旁であることを推定し、漢字の偏
または旁であると推定された外接矩形の文字画像に対し
ては文字認識処理を行わないことも可能である。
【0020】この外接矩形の文字画像が漢字の偏または
旁であることを推定するために用いる情報としては、矩
形の形状とその矩形内の文字画像の複雑度である。
【0021】また、前記各外接矩形の組み合わせによる
複数の切り出し候補のうちいずれかを切り出し候補とし
て推定する際は、各切り出し候補においてその切り出し
候補を構成する幾つかの矩形に対応するそれぞれの評価
値のうち最悪の認識評価値をもとに決定する。
【0022】また、各文字を構成するそれぞれの外接矩
形の形状情報からその外接矩形の文字画像が英数字記号
である可能性を推定し、英数字記号であると推定した矩
形については、英数字記号のみを対象とした文字認識を
行い、英数字記号を確定することを特徴とする。
【0023】また、各文字を構成するそれぞれの外接矩
形の形状情報からその外接矩形の文字画像が英数字記号
である可能性を推定し、英数字記号であると推定した矩
形については、英数字記号のみを対象とした文字認識を
行って、英数字記号を確定したのち、英数字記号と確定
された以外の文字に対する切り出し処理を行うことを特
徴とする。
【0024】前記英数字記号のみを対象とした文字認識
処理は、英数字記号であると推定された矩形の文字画像
の特徴量を抽出し、英数字記号としてあらかじめ設定さ
れた各英数字記号に対応する辞書とを比較することによ
り認識評価値を算出し、この認識評価値をもとに前記英
数字記号であると推定された矩形の文字画像が英数字記
号であるか否かを判別する。
【0025】そして、前記英数字記号と確定された以外
の文字に対する切り出し処理の一例としては、各文字を
構成するそれぞれの外接矩形の形状情報から切り出し候
補を推定し、この推定した切り出し候補に対して文字認
識を行い、この文字認識の結果により切り出し可能と判
断された切り出し候補に対してはそれを切り出し結果と
して確定し、前記文字認識の結果により切り出し可能と
判断されなかった切り出し候補に対しては、各文字を構
成するそれぞれの外接矩形の組み合わせによる複数の切
り出し候補を推定し、それぞれの切り出し候補ごとに個
々の矩形に対する認識評価値を求め、これら個々の矩形
の認識評価値を用いた各切り出し候補ごとの組み合わせ
評価値のうち最適な組み合わせ評価値を得た切り出し候
補を切り出し結果として確定する。
【0026】また、前記英数字記号と確定された以外の
文字に対する切り出し処理の他の例としては、各文字を
構成するそれぞれの外接矩形の組み合わせによる複数の
切り出し候補を推定し、それぞれの切り出し候補ごとに
個々の矩形に対する認識評価値を求め、これら個々の矩
形の認識評価値を用いた各切り出し候補ごとの組み合わ
せ評価値のうち最適な組み合わせ評価値を得た切り出し
候補を切り出し候補として推定し、この推定された切り
出し候補がその評価値から切り出し可能と判断された場
合には、それを切り出し結果として確定し、切り出し可
能と判断されなかった切り出し候補に対しては、前記外
接矩形の形状情報のみによって切り出し処理を行う。
【0027】さらにまた、前記英数字記号と確定された
以外の文字に対する切り出し処理のたの例としては、各
文字を構成するそれぞれの外接矩形の形状情報から切り
出し候補を推定し、この推定した切り出し候補に対して
文字認識を行い、この文字認識の結果により切り出し可
能と判断された切り出し候補に対してはそれを切り出し
結果として確定し、前記文字認識の結果により切り出し
可能と判断されなかった切り出し候補に対しては、前記
各文字を構成するそれぞれの外接矩形の組み合わせによ
る複数の切り出し候補を推定し、それぞれの切り出し候
補ごとに個々の矩形に対する認識評価値を求め、これら
個々の矩形の認識評価値を用いた各切り出し候補ごとの
組み合わせ評価値のうち最適な組み合わせ評価値を得た
切り出し候補を切り出し候補として推定し、この推定さ
れた切り出し候補がその評価値から切り出し可能と判断
された場合には、それを切り出し結果として確定し、切
り出し可能と判断されなかった切り出し候補に対して
は、再度、外接矩形の形状情報のみによって切り出し処
理を行う。
【0028】前記各外接矩形の組み合わせによる複数の
切り出し候補のうちいずれかを切り出し候補として推定
する際は、前記各切り出し候補ごとの組み合わせ評価値
を構成する各矩形に対する認識評価値のうち最悪の認識
評価値をもとに決定する。
【0029】また、本発明の文字切り出し装置は、各文
字を構成するそれぞれの外接矩形の形状情報から切り出
し候補を推定する第1の切り出し候補推定手段と、各文
字を構成するそれぞれの外接矩形の組み合わせによる複
数の切り出し候補を推定する第2の切り出し候補推定手
段と、各切り出し候補の文字認識を行う文字認識手段と
を有し、前記第1の切り出し候補推定手段により推定さ
れた切り出し候補に対して文字認識を行い、この文字認
識結果により切り出し可能と判断された切り出し候補に
対してはそれを切り出し結果として確定し、この文字認
識の結果により切り出し可能と判断されなかった切り出
し候補に対しては、前記第2の切り出し候補推定手段に
より前記それぞれの外接矩形の組み合わせによる複数の
切り出し候補を推定し、それぞれの切り出し候補ごとに
個々の矩形に対する認識評価値を求め、これら個々の矩
形の認識評価値を用いた各切り出し候補ごとの組み合わ
せ評価値のうち最適な組み合わせ評価値を得た切り出し
候補を切り出し結果として確定することを特徴とする。
【0030】また、各文字を構成するそれぞれの外接矩
形の形状情報から切り出し候補を仮推定する第1の切り
出し候補推定手段と、各文字を構成するそれぞれの外接
矩形の組み合わせによる複数の切り出し候補を仮推定す
る第2の切り出し候補推定手段と、各切り出し候補の文
字認識を行う文字認識手段とを有し、前記第2の切り出
し候補推定手段により各外接矩形の組み合わせによる複
数の切り出し候補を推定し、それぞれの切り出し候補ご
とに個々の矩形に対する認識評価値を求め、これら個々
の矩形の認識評価値を用いた各切り出し候補ごとの組み
合わせ評価値のうち最適な組み合わせ評価値を得た切り
出し候補を切り出し候補として推定し、この推定された
切り出し候補がその評価値から切り出し可能と判断され
た場合には、それを切り出し結果として確定し、切り出
し確定可能と判断されなかった切り出し候補に対して
は、前記第1の切り出し候補推定手段により外接矩形の
形状情報によって切り出し処理を行うことを特徴とす
る。
【0031】また、各文字を構成するそれぞれの外接矩
形の形状情報から切り出し候補を仮推定する第1の切り
出し候補推定手段と、各文字を構成するそれぞれの外接
矩形の組み合わせによる複数の切り出し候補を仮推定す
る第2の切り出し候補推定手段と、各切り出し候補の文
字認識を行う文字認識手段とを有し、前記第1の切り出
し候補推定手段により外接矩形の形状情報から切り出し
候補を推定し、この推定した切り出し候補に対して文字
認識を行い、この文字認識の結果により切り出し可能と
判断された切り出し候補に対してはそれを切り出し結果
として確定し、前記文字認識の結果により切り出し可能
と判断されなかった切り出し候補に対しては、前記第2
の切り出し候補推定手段により各外接矩形の組み合わせ
による複数の切り出し候補を推定し、それぞれの切り出
し候補ごとに個々の矩形に対する認識評価値を求め、こ
れら個々の矩形の認識評価値を用いた各切り出し候補ご
との組み合わせ評価値のうち最適な組み合わせ評価値を
得た切り出し候補を切り出し候補として推定し、この推
定された切り出し候補がその評価値から切り出し可能と
判断された場合には、それを切り出し結果として確定
し、切り出し可能と判断されなかった切り出し候補に対
しては、再度、前記第1の切り出し候補推定手段により
外接矩形の形状情報によって切り出し処理を行うことを
特徴とする。
【0032】そして、前記外接矩形の組み合わせによる
複数の切り出し候補を推定し、それぞれの切り出し候補
ごとに文字らしさを表す認識評価値を求める場合に、各
外接矩形を求める際に得た情報からその外接矩形の文字
画像が漢字の偏または旁であることを推定し、漢字の偏
または旁であると推定された外接矩形の文字画像に対し
ては文字認識処理を行わないことも可能である。
【0033】前記外接矩形の文字画像が漢字の偏または
旁であることを推定するに用いる情報としては、矩形の
形状とその矩形内の文字画像の複雑度である。
【0034】前記各外接矩形の組み合わせによる複数の
切り出し候補のうちいずれかを切り出し候補として推定
する際は、各切り出し候補においてその切り出し候補を
構成する幾つかの矩形に対応するそれぞれの評価値のう
ち最悪の認識評価値をもとに決定する。
【0035】また、各文字を構成するそれぞれの外接矩
形の形状情報からその外接矩形の画像が英数字記号であ
る可能性を推定する英数字記号推定手段と、この英数字
記号推定手段により英数字記号であると推定された矩形
については、英数字記号のみを対象とした文字認識を行
う英数字記号文字認識手段とを有したことを特徴とす
る。
【0036】また、各文字を構成するそれぞれの外接矩
形の形状情報から切り出し候補を仮推定する第1の切り
出し候補推定手段と、各文字を構成するそれぞれの外接
矩形の組み合わせによる複数の切り出し候補を仮推定す
る第2の切り出し候補推定手段と、各切り出し候補の文
字認識を行う文字認識手段と、各文字を構成するそれぞ
れの外接矩形の形状情報からその外接矩形の画像が英数
字記号である可能性を推定する英数字記号推定手段と、
この英数字記号推定手段により英数字記号であると推定
した矩形については、英数字記号のみを対象とした文字
認識を行う英数字記号文字認識手段とを有し、各外接矩
形の形状情報から英数字記号を推定し、英数字記号であ
ると推定した矩形については、英数字記号のみを対象と
した文字認識を行って、英数字記号を確定したのち、英
数字記号と確定された以外の文字に対する切り出し処理
を行うことを特徴とする文字切り出し装置。
【0037】前記英数字記号文字認識手段は、英数字記
号であると推定された矩形の文字画像の特徴量を抽出す
る特徴量抽出手段と、英数字記号としてあらかじめ設定
された各英数字記号に対応する辞書を格納する辞書格納
手段と、この辞書格納手段に格納された辞書と前記特徴
量抽出手段からの特徴量とを比較して認識評価値を計算
する評価値計算手段と、この評価値計算手段からの認識
評価値をもとに前記英数字記号であると推定された矩形
の文字画像が英数字記号であるか否かを判別する英数字
記号判別手段とを有したことを特徴とする。
【0038】前記英数字記号と確定された以外の文字に
対する切り出し処理の一例としては、前記第1の切り出
し候補推定手段によって、各文字を構成するそれぞれの
外接矩形の形状情報から切り出し候補を推定し、この推
定した切り出し候補に対して文字認識を行い、この文字
認識の結果により切り出し可能と判断された切り出し候
補に対してはそれを切り出し結果として確定し、前記文
字認識の結果により切り出し可能と判断されなかった切
り出し候補に対しては、前記第2の切り出し候補推定手
段によって、前記各文字を構成するそれぞれの外接矩形
の組み合わせによる複数の切り出し候補を推定し、それ
ぞれの切り出し候補ごとに個々の矩形に対する認識評価
値を求め、これら個々の矩形の認識評価値を用いた各切
り出し候補ごとの組み合わせ評価値のうち最適な組み合
わせ評価値を得た切り出し候補を切り出し結果として確
定する。
【0039】また、前記英数字記号と確定された以外の
文字に対する切り出し処理の他の例としては、前記第2
の切り出し候補推定手段によって、各文字を構成するそ
れぞれの外接矩形の組み合わせによる複数の切り出し候
補を推定し、それぞれの切り出し候補ごとに個々の矩形
に対する認識評価値を求め、これら個々の矩形の認識評
価値を用いた各切り出し候補ごとの組み合わせ評価値の
うち最適な組み合わせ評価値を得た切り出し候補を切り
出し候補として推定し、この推定された切り出し候補が
その評価値から切り出し可能と判断された場合、それを
切り出し結果として確定し、切り出し可能と判断されな
かった切り出し候補に対しては、前記第1の切り出し候
補推定手段によって、外接矩形の形状情報によって切り
出し処理を行う。
【0040】さらにまた、前記英数字記号と確定された
以外の文字に対する切り出し処理の他の例としては、前
記第1の切り出し候補推定手段によって、各文字を構成
するそれぞれの外接矩形の形状情報から切り出し候補を
推定し、この推定した切り出し候補に対して文字認識を
行い、この文字認識の結果により切り出し可能と判断さ
れた切り出し候補に対してはそれを切り出し結果として
確定し、前記文字認識の結果により切り出し可能と判断
されなかった切り出し候補に対しては、前記第2の切り
出し候補推定手段によって、各文字を構成するそれぞれ
の外接矩形の組み合わせによる複数の切り出し候補を推
定し、それぞれの切り出し候補ごとに個々の矩形に対す
る認識評価値を求め、これら個々の矩形の認識評価値を
用いた各切り出し候補ごとの組み合わせ評価値のうち最
適な組み合わせ評価値を得た切り出し候補を切り出し候
補として推定し、この推定された切り出し候補がその評
価値から切り出し可能と判断された場合、それを切り出
し結果として確定し、切り出し可能と判断されなかった
切り出し候補に対しては、再度、前記第1の切り出し候
補推定手段によって外接矩形の形状情報によって切り出
し処理を行う。
【0041】前記各外接矩形の組み合わせによる複数の
切り出し候補のうちいずれかを切り出し候補として推定
する際は、前記各切り出し候補ごとの組み合わせ評価値
を構成する各矩形に対する認識評価値のうち最悪の認識
評価値をもとに決定する。
【0042】
【作用】本発明によれば、外接矩形の形状情報から切り
出しの確定ができるものは確定し、ここで確定できなか
ったものに対しては、外接矩形の組み合わせによる複数
の切り出し候補を推定し、それぞれの切り出し候補ごと
に個々の矩形に対する認識評価値を求め、これら個々の
矩形の認識評価値を用いた各切り出し候補ごとの組み合
わせ評価値のうち最適な組み合わせ評価値を得た切り出
し候補を切り出し結果として確定するという処理を行
う。このような処理を行うことにより、形状情報によっ
てある程度の切り出しを行うことができるため、組み合
わせによる認識文字数を大幅に減らすことができる。
【0043】また、外接矩形の組み合わせによる複数の
切り出し候補を推定し、それぞれの切り出し候補ごとに
個々の矩形に対する認識評価値を求め、これら個々の矩
形の認識評価値を用いた各切り出し候補ごとの組み合わ
せ評価値のうち最適な組み合わせ評価値を得た切り出し
候補を切り出し候補として推定し、この推定された切り
出し候補がその評価値から切り出し可能と判断された場
合、それを切り出し結果として確定し、切り出し確定可
能と判断されなかった切り出し候補に対しては、外接矩
形の形状情報のみによって切り出し処理を行う。このよ
うな処理を行うことにより、文書画像がつぶれやかすれ
などによって品質が悪く認識の評価値に信頼性が無い場
合でも、形状情報によって切り出しを行うことができる
ので、品質の悪い文書画像でも高精度な切り出しが可能
となる。
【0044】また、これらを組み合わせて、最初に、形
状情報から切り出し候補を推定して、確定できるものは
確定して、確定できないものに対しては外接矩形の組み
合わせによる複数の切り出し候補を推定し、それぞれの
切り出し候補ごとに個々の矩形に対する認識評価値を求
め、これら個々の矩形の認識評価値を用いた各切り出し
候補ごとの組み合わせ評価値により確定できるものは確
定して、確定できないものに対しては、再度、外接矩形
の形状情報のみによって切り出し処理を行う。このよう
な処理を行うことにより、形状情報によってある程度の
切り出しを行うことができるため、組み合わせによる認
識文字数を大幅に減らすことができ、さらに、文書画像
がつぶれやかすれなどによって品質が悪く認識の評価値
に信頼性が無い場合でも、形状情報によって切り出しを
行うことができるので、品質の悪い文書画像でも高精度
な切り出しが可能となる。
【0045】また、外接矩形の組み合わせによる複数の
切り出し候補を推定し、それぞれの切り出し候補ごとに
文字らしさを表す認識評価値を求める場合に、各外接矩
形を求める際に得た情報からその外接矩形の文字画像が
漢字の偏または旁であると推定された外接矩形の文字画
像に対しては文字認識処理を行わない用にすることによ
り、無駄な処理を省くことができ、処理時間の削減、切
り出し正解率の向上を図ることができる。
【0046】また、外接矩形の組み合わせによる複数の
切り出し候補のうちいずれかを切り出し候補として推定
する際は、前記各切り出し候補ごとの組み合わせ評価値
を構成する各矩形に対する認識評価値のうち最悪の認識
評価値をもとに決定することにより、従来のようにり出
し候補を構成する幾つかの矩形に対応するそれぞれの評
価値を加算して合計の数値により判断する場合に比べて
正確な切り出しを行うことができる。
【0047】また、各文字を構成するそれぞれの外接矩
形の形状情報からその外接矩形の文字画像が英数字記号
である可能性を推定し、英数字記号であると推定した矩
形については、英数字記号のみを対象とした文字認識を
行って、英数字記号を確定したのち、英数字記号と確定
された以外の文字に対する切り出し処理を行うことによ
り、漢字やひらがなに英語や数字さらには記号といった
英数字記号が混在した文書の切り出しを行う際、最初
に、英数字記号を確定することができるため、あとは、
文字間ピッチがほぼ同じ文字の切り出し処理となるた
め、処理の高速化が図れ、切り出し正解率の向上を図る
ことができる。
【0048】
【実施例】以下、本発明の実施例を図面を参照して説明
する。
【0049】図1は本発明の実施例の構成を示すブロッ
ク図である。同図において、1はスキャナなどの文書画
像入力手段、2は文書画像入力手段1により入力された
文書画像について前記従来例の説明の項で述べたように
各文字の構成要素に対する外接矩形を抽出する外接矩形
抽出手段、3は切り出し対象の行を抽出する行抽出手
段、4はこの行抽出手段3によって抽出された行におけ
る外接矩形を列方向に統合する列方向統合手段、5は文
字の切り出しを行う文字切り出し手段、6は前述したよ
うな英語、各種記号、数字などを認識する英数字記号認
識手段、7は文字の認識を行う文字認識手段である。
【0050】また、前記文字切り出し手段5は、英数字
記号認識手段6によって認識された英数字記号を確定す
る英数字記号確定手段51、文字の形状情報(文字矩形
の大きさや文字間の距離など)によって切り出し候補を
推定する第1の切り出し候補推定手段52、各外接矩形
の組み合わせによって切り出し候補を推定する第2の切
り出し候補推定手段53を有している。なお、この文字
切り出し手段5の詳細な機能やその処理手順などについ
ては後に説明する。
【0051】また、文字認識手段7は、個々の切り出し
候補に対して「文字らしさ」の指標となる認識評価値を
出力する。この認識評価値は、できれば学習データにお
ける変動などを考慮し、フォントの違いや文字の大きさ
の違いに依存しない認識評価値を用いることが望まし
い。たとえば、平成6年11月9日付け(出願人整理番
号52913)にて本出願人がすでに出願済である算出
方法などを用いることができるが、本発明における認識
評価値はこの方法に限られるものではなく、一般的に用
いられるベクトル空間における特徴量ベクトル間の距離
などを用いても、同様の効果を得ることができる。要
は、この認識評価値が個々の切り出し候補に対して、そ
の切り出し候補が認識対象文字の中に含まれるかどうか
を判断したり、認識対象文字とどのくらい似ているかを
判断する指標であればよい。
【0052】(実施例1)前記のような構成において本
発明の実施例1について説明する。
【0053】まず、切り出し処理時間を短縮することを
主に考慮した方法について説明する。前述したように、
考えられる組み合わせに全てに対して「文字らしさ」の
評価値を求める方法は、組み合わせ数が多い場合は、処
理に膨大な時間を要するという問題がある。特に、評価
値として認識情報を用いる場合には、認識処理自体に非
常に時間がかかるため、さらに処理に膨大な時間を要す
ることになる。したがって、なるべく認識処理を行わな
いで済むような処理によって切り出しを行うようにする
のが望ましい。
【0054】このことを踏まえて、 (1)まず最初は、前記した文字矩形の大きさや文字間
の距離などの形状情報のみを使用して切り出し候補の推
定を行い、その推定した候補に対してまず認識を行う。
その結果、きわめて文字らしいと判断できるものに対し
ては、その段階で切り出しを確定し、また、認識結果を
確定することも可能とする。
【0055】(2)そして、前記(1)で確定できない
で残された矩形に対してのみ、組み合わせによる評価を
行い決定する。
【0056】前記(1),(2)の処理を図2のフロー
チャートを参照しながら説明する。まず、文書画像を入
力し(ステップS1)、入力された文字画像からその文
字を構成する各構成要素に対して外接矩形の抽出を行う
(ステップS2)。その後、切り出し対象の文字行の抽
出を行い(ステップS3)、その切り出し対象の文字行
について前記外接矩形の列方向の統合を行う(ステップ
S4)。
【0057】そして、文字切り出し手段5の第1の候補
推定手段52により、形状情報のみによる切り出し候補
の推定を行う(ステップS5)。この形状情報のみを使
用して切り出し候補の推定を行う例として、たとえば、
図3に示した「10状態の矩形」という文書を例にとっ
て説明する。なお、図3(a)は、前記ステップS4に
て列方向の統合処理が行われた後の矩形を示すもので、
同図(b)は、形状情報のみによる切り出し候補の推定
が行われた後の矩形を示すものである。
【0058】形状情報のみによる切り出し候補の推定
は、文字の縦横の大きさの比(日本語の場合は正方形に
近い)あるいは文字間の距離などをもとに、列方向に統
合された隣接する矩形同志の関連性を考慮して行う。そ
の結果、この例の場合、「10」,「状」,「態」,
「の」,「矩」,「形」というように切り出し候補の推
定がなされる。
【0059】そして、このように推定された切り出し候
補を認識し、それぞれの認識評価値を求める(ステップ
S6)。この認識評価値は前記したように文字らしさを
表す値であり、数値が高いほど文字らしさの度合いが高
いものとする。図3(b)において、各候補の下に記さ
れた数値が認識評価値を示しており、この場合、
「状」,「態」,「の」,「矩」,「形」は400と高
い数値となっており、「10」は200と比較的低い数
値となっている。この「10」が低い数値であるのは、
前記したように、数字の場合は一桁の組み合わせによっ
て複数桁の数字を表すのが普通であり、「10」という
2桁の数字の辞書は一般には登録されてないためであ
る。
【0060】このようにして、推定された切り出し候補
の認識評価値が計算されると、次は、それぞれの認識評
価値があらかじめ設定されたしきい値th1(ここで
は、th1=300とする)以上か否かを判定し(ステ
ップS7)、しきい値th1以上の認識評価値の候補
は、その段階で切り出し結果として確定する。
【0061】この場合、「状」,「態」,「の」,
「矩」,「形」の認識評価値がしきい値th1以上であ
るため、切り出し結果として確定されるが、「状」につ
いては、隣接候補「10」の認識評価値がしきい値th
1以下であるため、この「10」を構成する「0」との
組み合わせで何らかの文字が構成される可能性があるた
め、ここでは、この「状」は切り出し結果として確定し
ない。したがって、この場合は、「態」,「の」,
「矩」,「形」の4つの候補が切り出し結果として確定
され(ステップS8)、「10」と「状」は切り出し結
果として確定されないで残される。この確定されないで
残された外接矩形に対しては、考えられるすべての組み
合わせを行って切り出し候補を推定する(ステップS
9)。そして、複数の組み合わせのそれぞれの切り出し
候補に対して、各矩形の認識評価値を用いて組み合わせ
評価値を求め、その組み合わせ評価値が最適となる切り
出し候補を切り出し結果として確定する(ステップS1
0)。
【0062】この場合、「10」と「状」の組み合わせ
は、前記従来技術の項で説明したように(図11参
照)、5通りの組み合わせがあり、このなかでは、同図
(d)の組み合わせによる合計の評価値がこの場合「1
500」となって最も高い数値となる。しかし、合計の
評価値が最も高い組み合わせが、切り出し結果として正
解となるとは限らないことは前記した通りである。
【0063】そこで、ここでは各矩形の認識評価値を加
算した合計の評価値によって判断するのではなく、各組
み合わせにおける最悪の認識評価値をもとに決定する。
たとえば、図11(b)〜(f)を例に取れば、同図
(b)の場合は、組み合わせ評価値を構成する各矩形に
対する認識評価値のうち最悪の認識評価値は50、同図
(c)の場合は最悪の認識評価値は300、同図(d)
の場合は最悪の認識評価値は200、同図(e)の場合
は最悪の認識評価値は50、同図(f)の場合は最悪の
認識評価値は200となり、これらをそれぞれの組み合
わせにおける評価値とみなし、その最悪の認識評価値の
数値が最も高い組み合わせを正解とする。つまり、この
例では同図(c)の組み合わせを正解として、これを切
り出し結果として決定する。なお、組み合わせ評価値が
最適となる切り出し候補を切り出し結果として確定する
というステップS10の処理は、ここでは、前記したよ
うに、各組み合わせにおける最悪の認識評価値をもとに
決定する場合を例にとって説明したが、これに限られる
ものではない。
【0064】このように、まず最初は、前記した文字矩
形の大きさや文字間の距離などの形状情報のみを使用し
て切り出し候補の推定を行い、その推定した候補に対し
てまず認識を行い、その結果、きわめて文字らしいと判
断できるものに対しては、その段階で切り出しを確定
し、次に、これによって確定できないで残された矩形に
対してのみ、組み合わせによる認識評価を行って切り出
し候補を決定するというように2段階に分けて切り出し
処理を行っている。
【0065】これによれば、組み合わせ数を大幅に減ら
すことができ、組み合わせによる認識処理時間を大幅に
短縮することができ、切り出し処理全体の処理時間も大
幅に短縮することができる。また、形状情報によって切
り出し候補の推定を行うことから、たとえば「請」など
のように偏と旁がそれぞれ独立して文字としての意味を
持つ文字(分離有意文字という)に対しても高精度に切
り出しを行うことができる。さらに、ここでは組み合わ
せにより切り出し候補を決定する場合は、各組み合わせ
において、その組み合わせの中の最悪の認識評価値をそ
の組み合わせの評価値とし、この評価値をもとに切り出
し候補を決定するようにしているので、切り出し候補を
正確に決定することができる。
【0066】ところで、前記のように、組み合わせによ
る認識評価を行って切り出し候補を決定する際、入力文
書がコピーを繰り返した文書のように、つぶれやかす
れ、あるいはノイズのある品質の悪いものであると、認
識による評価値の信頼度が低くなる。このように認識に
よる信頼性の低い評価値を用いて推定された結果には誤
りがある場合が多い。
【0067】これに対処するため、本発明では、各組み
合わせにおける評価値のうち、評価値が最適となる候補
を切り出し候補として推定し、この推定された切り出し
候補の各矩形の認識評価値があらかじめ設定されたしき
い値(これをth2とする)より大きいか否かを判定し
て、このしきい値th2以上であればその切り出しは正
解であると判断して切り出し候補として決定するが、し
きい値th2以上でない場合は、認識評価値の信頼性は
低いとみなして形状情報のみによって切り出し候補を決
定する処理を行う。これは、品質の悪い文書の場合は、
認識による評価値の信頼度が低いため、形状情報によっ
て切り出しを行ったほうが正確な切り出し結果が得られ
る場合が多いからである。
【0068】具体的には、たとえば図4に示すような文
書画像において、各外接矩形の認識評価値が、同図
(a)のような数値であったとすると、前記しきい値t
h2をたとえば100と設定し、それぞれの認識評価値
をこのしきい値th2と比較して、その比較結果によ
り、切り出し候補として決定するか、形状情報のみによ
って切り出し候補を決定するかを決める。この図4
(a)の例では、各認識評価値は全てしきい値th2以
下であるので、文書画像の品質が悪く認識評価値の信頼
性が低いとみなして、形状情報のみによって切り出し候
補を決定する処理を行い、その切り出し結果は同図
(b)のようになる。
【0069】図5は、図2のフローチャートで説明した
処理と、上記各外接矩形のそれぞれの認識評価値が、あ
らかじめ設定されたしきい値th2より大きいか否かを
判定して、このしきい値th2以上であればその切り出
しは正解であると判断して切り出し結果を確定し、しき
い値th2以上でない場合は、形状情報のみによって切
り出し結果を確定する処理の両方を組み合わせて行うフ
ローチャートである。
【0070】図5において、ステップS21からステッ
プS30まで処理は、図2のステップS1からステップ
S10と同じである。ここまでの処理を要約すると次の
ようになる。
【0071】形状情報による切り出し候補の推定を行う
(ステップS25)。この形状情報を使用して切り出し
候補の推定を行う例として、この場合も、図3に示した
「10状態の矩形」という文書を例にとって説明する。
形状情報による切り出し候補の推定は、文字の縦横の大
きさの比(日本語の場合は正方形に近い)あるいは文字
間の距離などをもとに隣接する矩形同志の関連性を考慮
して行う。その結果、この例の場合、「10」,
「状」,「態」,「の」,「矩」,「形」というように
切り出し候補の推定がなされる。
【0072】そして、このように推定された切り出し候
補を認識し、それぞれの認識評価値を求める(ステップ
S26)。この認識評価値は前記したように文字らしさ
を表す値であり、数値が高いほど文字らしさの度合いが
高いものとする。図3において、各候補の下に記された
数値が認識評価値を示しており、この場合、「状」,
「態」,「の」,「矩」,「形」は400と高い数値と
なっており、「10」は200と比較的低い数値となっ
ている。
【0073】このようにして、推定された切り出し候補
の認識評価値が計算されると、次は、それぞれの認識評
価値があらかじめ設定されたしきい値th1(=30
0)以上か否かを判定し(ステップS27)、しきい値
th1以上の認識評価値の候補は、その段階で切り出し
文字として確定する。
【0074】この場合、「状」,「態」,「の」,
「矩」,「形」の認識評価値がしきい値th1以上であ
るため、切り出し文字として確定されるが、「状」につ
いては、隣接候補「10」の認識評価値がしきい値th
1より小さいため、この「10」との組み合わせで何ら
かの文字が構成される可能性があることから、ここで
は、この「状」は切り出し文字として確定しない。した
がって、この場合は、「態」,「の」,「矩」,「形」
の4つの候補が切り出し文字として確定され(ステップ
S28)、「10」と「状」は切り出し文字として確定
されないで残される。この確定されないで残された外接
矩形に対しては、考えられるすべての組み合わせを行っ
て切り出し候補を推定する(ステップS29)。そし
て、それぞれの切り出し候補に対して、各矩形の認識評
価値を用いて組み合わせ評価値を求め、その組み合わせ
評価値が最適となる切り出し候補を切り出し結果として
確定する(ステップS30)。
【0075】この場合も前記同様、各組み合わせ評価値
を構成する各矩形に対する認識評価値のうち最悪の認識
評価値をもとに推定する。たとえば、図11(b)〜
(f)を例に取れば、前記したように、この例では同図
(c)の組み合わせを切り出し結果として推定する。
【0076】そして、この場合、同図(c)の組み合わ
せにおけるそれぞれの矩形に対する認識評価値が、あら
かじめ設定されたしきい値th2より大きいか否かを判
定して(ステップS31)、このしきい値th2以上で
あれば切り出しは可能であると判断して切り出し結果と
して確定する(ステップS32)が、しきい値th2以
上でない場合は、形状情報のみによって切り出し候補を
決定する処理を行う(ステップS33)。
【0077】具体的には、前記しきい値th2を前記し
たようにたとえば100と設定し、図11(c)の組み
合わせにおけるそれぞれの矩形に対する認識評価値(こ
の場合、「300」,「300」,「400」)を前記
しきい値th2と比較して、その比較結果により、前記
ステップS30にて推定された候補を切り出し結果とし
て確定するか、再度、形状情報のみによって切り出し候
補を確定するかを決める。この場合は、前記したように
図11(c)の組み合わせにおいて、しきい値th2
(=100)以下という認識評価値はないため、図11
(c)の組み合わせの切り出し候補は切り出し可能と確
定されるが、もし、品質の悪い入力画像であって、図1
1(c)の組み合わせにおけるそれぞれの矩形に対する
認識評価値が全てしきい値th2より低い値である場合
には、再度、形状情報のみによって切り出し候補を決定
する処理を行う。
【0078】なお、ここでは、図11(c)の組み合わ
せにおけるそれぞれの矩形に対する認識評価値の全てが
しきい値th2より低い値である場合には、再度、形状
情報のみによって切り出し候補を決定するという処理を
例にとって説明したが、組み合わせにおけるそれぞれの
矩形に対する認識評価値の全てがしきい値th2より低
い値の場合という設定でなく、たとえば、1つだけでも
しきい値th2より低かった場合、あるいは、幾つかの
認識評価値がしきい値th2より低かった場合には、再
度、形状情報のみによって切り出し候補を決定するとい
うようにしてもよい。
【0079】以上のような処理を行うことにより、コピ
ー文書などのようにかすれつぶれなどを有した品質の悪
い文書であっても、高精度な切り出しが可能となる。
【0080】また、本発明では、外接矩形の組み合わせ
を行う際に、外接矩形から漢字の偏または旁であること
を推定し、漢字の偏または旁であると推定されるものは
認識処理を行わないようにする。以下、この処理につい
て説明する。
【0081】一般に、日本語の漢字やひらがなの外接矩
形は正方形に近く、括弧や数字あるいはアルファベット
などの英数字記号の外接矩形は横幅が細く縦長なものが
多い。これら英数字記号が日本語の中に混在すると、た
とえば1つの漢字を構成する偏および旁と英数字記号と
の組み合わせ処理あるいは英数字記号同志の組み合わせ
処理を複雑に行わなければならないことになる。このと
き、英数字記号の矩形と漢字を構成する偏および旁の矩
形とを区別して抽出することが必要となってくる。つま
り、或る1つの漢字を構成する偏と旁は両者で1つの漢
字を構成しているため、本来は分けて考える必要はない
が、英数字記号は1つ1つを分けて抽出することが必要
である。
【0082】したがって、本発明では、組み合わせによ
って複数の切り出し候補を推定し、、それぞれの切り出
し候補ごとに評価値を求める場合、列方向に統合された
外接矩形の形状情報からその矩形の画像が漢字の偏また
は旁であることを推定し、その推定された矩形画像に対
しては認識処理を行わないようにする。これは、矩形が
漢字の偏または旁であることがあらかじめ判明した場合
には、偏または旁を単独で認識処理するのは無駄な処理
であるからである。
【0083】列方向に統合された矩形の画像が漢字の偏
または旁であるか否かを判定する方法を以下に説明す
る。
【0084】この偏または旁であるか否かを判定には、
列方向に統合された矩形の形状情報を用いる。つまり、
形状情報としては、縦長で複雑度の高い矩形を漢字の偏
または旁であると判定する。この複雑度としては線密度
や統合数を用いる。これを図6を参照して説明する。
【0085】図6において、ここでは「請」という文字
を例にとると、この文字は、列方向に統合された2つの
外接矩形K11,K12から構成されている。外接矩形
K11の線密度と統合数について考える。ここで、線密
度というのは、行方向に沿った状態に存在する黒線が最
大で幾つ有るかを示す数値であり、この外接矩形K11
の場合は、黒線はL1〜L6の6本あるため、線密度は
「6」である。また、統合数は前記したように、列方向
に統合する前のそれぞれ独立した外接矩形の数を示して
いる。換言すれば、列方向に統合された外接矩形K11
を構成するために、独立した外接矩形を幾つ統合したか
を示す数値であり、この外接矩形K11の場合は、
「言」を構成する横方向の黒線の4つの外接矩形と
「口」の外接矩形の合計5個の独立した外接矩形とによ
り構成され、これにより統合数は「5」である。
【0086】一方、外接矩形K12は、黒線はL1〜L
7の7本あるため、線密度は「7」である。また、統合
数は「青」を構成する「主」の外接矩形と「月」の外接
矩形の合計2個の独立した外接矩形とにより構成され、
これにより統合数は「2」である。
【0087】これに対して、英数字記号は漢字の偏や旁
と外接矩形そのものの形状や大きさは同じようであるが
(縦長でいわゆる半角文字の大きさ)、英数字記号の一
つ一つの文字は簡単な構成であるため、前記した線密度
や統合数の数値は小さくなるのが普通である。
【0088】したがって、線密度と統合数の数値にそれ
ぞれしきい値を設定(たとえば、しきい値を「3」と設
定する)し、線密度と統合数の値がともに、最大または
平均「3」以上、あるいは、線密度と統合数の少なくと
も一方の値が最大または平均「3」以上であるときは、
それは漢字の偏または旁であるとの判定を行う。なお、
この線密度や統合数は、外接矩形の抽出(図2のステッ
プS2)、列方向の統合(図2のステップS4)などの
処理を行う際にデータとして取り出されているので、そ
のデータを使用する。
【0089】これにより、組み合わせによって複数の切
り出し候補を推定し、それぞれの切り出し候補ごとに評
価値を求める場合、列方向に統合された矩形の形状情報
をもとに得られた線密度とは統合数が幾つかを調べるこ
とにより、線密度と統合数がたとえば「3」であったと
すると、その矩形の画像は漢字の偏または旁であること
が推定される。このように、その矩形の画像が漢字の偏
または旁であることが推定されると、その推定された矩
形画像に対しては認識処理を行わないようにする。つま
り、矩形が漢字の偏または旁であることがあらかじめ判
明した場合には、偏または旁を単独で認識処理するのは
無駄な処理であるからである。
【0090】なお、漢字の偏または旁であっても、線密
度または統合数の小さいものもある。たとえば、にんべ
んなどはその例であるが、この場合には、漢字の偏また
は旁であることを推定できないので、認識処理を行うこ
とになる。しかし、組み合わせによって複数の切り出し
候補を推定し、それぞれの切り出し候補ごとに評価値を
求めるという処理を行う際、矩形の画像が漢字の偏また
は旁であることが推定できるものはその時点で漢字の偏
または旁であるとみなして、これらに対しては認識処理
を行わないようにするという処理を付加することによ
り、全てを認識処理する場合に比べて処理を大幅に削減
することができる。
【0091】(実施例2)前記したように、一般に、漢
字やひらがな、かたかななどの外接矩形の形状は縦横の
比が1(正方形)に近いものが多いが、この日本語のな
かに、図3のごとく「1」や「0」といった数字、ある
いはここでは図示されていないがたとえば「i」、
「f」、「(」などのような縦横の比が1に近くない英
語や数字あるいは記号(横幅が漢字やひらがなに対して
約半分程度の文字)、さらに、「n」や「o」などのよ
うに他の文字と比較して縦横とも小さい英数字記号が混
在すると、これらの英数字記号は文字間のピッチが日本
語の文字と異なるため、正確な切り出しを、より一層、
困難なものとする原因ともなっている。
【0092】前述した実施例1においても、日本語の中
に英数字記号が混在する場合の処理については説明した
が、この実施例2では、外接矩形の抽出、行方向の文字
列の抽出、列方向の統合といった処理を行ったのち、ま
ず最初に、文字間のピッチが漢字やひらがなどの文字と
異なる英数字記号のみを対象とした認識を行って、英数
字記号のみを先に確定したのちに、それ以外の文字の切
り出しを行おうとするものである。このように、横書き
の日本語文書のなかに英数字記号が混在した場合、切り
出しにくい英数字記号を最初に確定することによって、
文字間のピッチに大きな違いのない文字だけを残すこと
により、切り出しを容易に行うことを可能とする。
【0093】以下、この実施例2について説明する。
【0094】図7は前記実施例1の説明で用いた図2の
フローチャートに英数字記号のみを先に確定する処理を
加えた処理手順を示すフローチャートである。図7にお
いて、文字画像入力(ステップS41)、外接矩形抽出
(ステップS42)、文字列抽出(ステップS43)、
列方向の統合(ステップS44)は図2のステップS1
からステップS4と同じ処理であり、また、ステップS
49以降の処理は図2のステップS5以降の処理と同じ
である。
【0095】前記ステップS44における外接矩形の列
方向の統合処理結果の具体例として図3(a)を用い
る。このように、「10状態の矩形」という文書におい
て、英数字記号(この場合は「1」と「0」)の一つ一
つ、および漢字の偏と旁を分離した状態でそれぞれの外
接矩形が抽出される。
【0096】次に、ステップS45により、前記のよう
に列方向に統合されたそれぞれの外接矩形の形状情報か
ら、まず、英数字記号である可能性が高いか否かを判断
する。この判断は、縦長な矩形であるか否か、複雑度が
大きいか小さいか(英数字記号は一般に複雑度が小さ
い)などをもとにして行う。また、アルファベットの小
文字の場合は文字の位置や形状から判断可能である。た
とえば、「a」や「o」の矩形は、縦横の比は1に近い
が、横方向の長さと縦方向の長さが漢字やひらがなに比
べて小さい。つまり、横方向の長さは漢字やひらがなの
1/2程度、縦方向の長さは漢字やひらがなに対して8
0%程度であるのが一般的である。また、「p」などの
ようにベースラインより下に出るものもある。したがっ
て、このような形状情報をもとに英数字記号である可能
性が有るか否かの判断を行うことができる。
【0097】そして、英数字記号である可能性が高いと
判断されると、その矩形の画像の認識処理を行う(ステ
ップS46)。ここでの認識は、英数字記号のみを対象
とした認識処理である。つまり、英数字記号として予め
登録された辞書との比較により、それが英数字記号であ
るかの認識処理を行う(この点については後に説明す
る)。この認識処理の結果、その外接矩形の画像が英数
字記号であるか否かを判断し(ステップS47)、英数
字記号であれば英数字記号として確定処理し(ステップ
S48)、次のステップ49の処理に移る。また、前記
ステップS47における判断において、英数字記号でな
いと判断された場合は、そのままステップ49の処理に
移る。
【0098】前記ステップS47における判断におい
て、英数字記号でないと判断された場合におけるステッ
プ49以降の処理は、図2のステップ5以降の処理と同
じである。つまり、ステップS47における判断におい
て、英数字記号でないと判断された場合は、形状情報の
みによる切り出し候補の推定を行う(ステップS4
9)。この形状情報のみを使用して切り出し候補の推定
を行う例として、たとえば、図3に示した「10状態の
矩形」という文書を例にとって説明する。なお、図3
(a)は、前記ステップS44にて列方向の統合処理が
行われた後の矩形を示すもので、同図(b)は、形状情
報のみによる切り出し候補の推定が行われた後の矩形を
示すものである。
【0099】形状情報のみによる切り出し候補の推定
は、文字の縦横の大きさの比(日本語の場合は正方形に
近い)あるいは文字間の距離などをもとに、列方向に統
合された隣接する矩形同志の関連性を考慮して行う。そ
の結果、この例の場合、「10」,「状」,「態」,
「の」,「矩」,「形」というように切り出し候補の推
定がなされる。
【0100】そして、このように推定された切り出し候
補を認識し、それぞれの認識評価値を求める(ステップ
S50)。この認識評価値は前記したように文字らしさ
を表す値であり、数値が高いほど文字らしさの度合いが
高いものとする。図3(b)において、各候補の下に記
された数値が評価値を示しており、この場合、「状」,
「態」,「の」,「矩」,「形」は400と高い数値と
なっており、「10」は200と比較的低い数値となっ
ている。
【0101】このようにして、推定された切り出し候補
の認識評価値が計算されると、次は、それぞれの認識評
価値があらかじめ設定されたしきい値th1(ここで
は、th1=300とする)以上か否かを判定し(ステ
ップS51)、しきい値th1以上の認識評価値の候補
は、その段階で切り出し文字として確定する。
【0102】この場合、「状」,「態」,「の」,
「矩」,「形」の認識評価値がしきい値th1以上であ
るため、切り出し文字として確定されるが、「状」につ
いては、隣接候補「10」の認識評価値がしきい値th
1以下であるため、この「10」を構成する「0」との
組み合わせで何らかの文字が構成される可能性があるた
め、ここでは、この「状」は切り出し文字として確定し
ない。したがって、この場合は、「態」,「の」,
「矩」,「形」の4つの候補が切り出し文字として確定
され(ステップS52)、「10」と「状」は切り出し
文字として確定されないで残される。この確定されない
で残された外接矩形に対しては、考えられるすべての組
み合わせを行って切り出し候補を推定する(ステップS
53)。そして、複数の組み合わせのそれぞれの切り出
し候補に対して、各矩形の認識評価値を用いて組み合わ
せ評価値を求め、その組み合わせ評価値が最適となる切
り出し候補を切り出し結果として確定する(ステップS
54)。
【0103】一方、前記ステップS47に判断におい
て、英数字記号であると判断され、ステップS48で英
数字記号が確定された場合におけるステップ49以降の
処理も、図2のステップ5以降の処理とほぼ同じである
が、この場合は、すでに英数字記号の切り出しが確定さ
れているので、ステップ49以降の処理は、英数字記号
以外の文字の切り出し処理となる。つまり、図3を例に
すれば、「10状態の矩形」という文書のうち「1」と
「0」は英数字記号として、すでに確定されているの
で、「状態の矩形」という文書に対する切り出し処理を
行うことになる。
【0104】このように実施例2では、外接矩形の抽
出、行方向の文字列の抽出、列方向の統合といった処理
を行ったのち、まず最初に、英数字記号である可能性が
有るか否かを判断し、英数字記号のみを対象とした認識
を行って、英数字記号のみを先に確定したのちに、それ
以外の文字の切り出しを行おうとするものである。これ
により、漢字やひらがなとは文字間ピッチが異なる英数
字記号を最初に確定され、あとは文字間のピッチに大き
な違いのない漢字やひらがななどの文字だけが残される
ことになり、それ以降の処理、つまり、図7のステップ
S49(図2で説明したステップS5)以降の処理をき
わめて容易なものとすることができる。たとえば、図3
(a)を例にとれば、この場合、「1」と「0」が英数
字記号として最初に確定されるため、あとには「状態の
矩形」という日本語のみが残されることになる。したが
って、英数字記号の無い「状態の矩形」という日本語の
みの切り出しを行えばよいため、切り出し処理をきわめ
て容易なものとすることができ、処理を大幅に高速化す
ることができる。
【0105】ところで、前記ステップS46とステップ
S47における英数字記号認識および英数字記号判定処
理は、図8のような手段にて行う。図8において、11
は英数字記号である可能性が高いと判断された矩形の画
像の特徴量を抽出する特徴量抽出手段、12はアルファ
ベット、数字、括弧などの各英数字記号に対応するそれ
ぞれの辞書が格納されている辞書格納手段、13は前記
特徴量抽出手段11からの特徴量を、前記辞書格納手段
12内に登録されている全てのカテゴリに渡って比較し
て認識評価値を算出する認識評価値計算手段、14はこ
の認識評価値から何の英数字記号であるかを判定する英
数字記号判定手段、15はその英数字記号のコードを出
力するコード出力手段である。
【0106】なお、前記カテゴリとは、たとえば、アル
ファベットの小文字の「オー」を例に取ると、この文字
は「o」もあればまた「ο」もある。このように、ある
文字を表すための文字の種類をここではカテゴリとい
い、1文字で2つのカテゴリ、1文字で3つのカテゴリ
というように一つの文字で複数のカテゴリを持つ場合も
ある。したがって、実際には、前記辞書格納手段12内
には、本発明の処理を行うに必要とする英数字記号全カ
テゴリが登録されている。また、この英数字記号に対応
する辞書は、この英数字記号、漢字、ひらがな、かたか
ななどの全ての文字における全カテゴリに対応する辞書
から、本発明の処理を行うに必要とする英数字記号を抽
出して得ることができる。つまり、JIS 第1水準の文字
数約3000のうち、本発明の処理を行うに必要とする
英数字記号として数十個を抽出して得ている。
【0107】このような構成においてその処理手順を図
9のフローチャートを参照して説明する。まず、列方向
の統合されたそれぞれの外接矩形の形状情報から、ま
ず、英数字記号である可能性が高いか否か(前記したよ
うに横幅の狭い縦長な矩形であるか否かなど)を判断し
たのち、ステップS61にて、英数字記号である可能性
が高いと判断された矩形の画像に対して特徴量の抽出を
行う。そして、ステップS62とS63にて、その特徴
量と辞書格納手段12内の英数字記号に対する全カテゴ
リに対応する辞書との比較を行ったのち認識評価値を算
出する。つまり、英数字記号である可能性が高いと判断
された矩形の画像に対する特徴量と、一つ一つの英数字
記号に対応する辞書とをすべてのカテゴリにわたって比
較し認識評価値を求め、この認識評価値の数値により、
その文字がどのカテゴリに属するか否か判断する。そし
て、どのカテゴリに対しても十分な評価値が得られない
場合には、英数字記号ではないと判断され、或るカテゴ
リに対して高い認識評価値が得られれば、その矩形の画
像はその高い認識評価値の得られたカテゴリに属すると
判断される。
【0108】次に、これにより算出された認識評価値を
もとに英数字記号であるか否かの判断を行う(ステップ
S64)。そして、この判断処理の結果が英数字記号で
あるか否かを前記図7のフローチャートのステップS4
7で判定して、英数字記号であれば図7のステップ48
にて英数字記号として確定したのち、図7のステップ4
9の処理に移り、英数字記号でなければ、そのまま図7
のステップ49の処理に移る。
【0109】なお、以上の実施例2において、英数字記
号である可能性が有るか否かの判断を行うための形状情
報としては、前記したように、縦長な矩形であるか否
か、複雑度が大きいか小さいか(英数字記号は一般に複
雑度が小さい)、また、アルファベットの小文字の場合
は文字の位置(小文字は高さが低く、また、「p」など
のようにベースラインより下に出るものもある)や、形
状(正方形に近く大きさも小さい)などを用いた例を示
したが、これらをすべて用いずに、これらのうち幾つか
を用いることによっても実現できる。
【0110】また、この実施例2では、英数字記号のみ
を対象とした認識を行って、英数字記号のみを先に確定
したのちに、それ以外の文字の切り出しを行うという処
理を説明するために、前記実施例1の図2で示した処理
に適用した例を示したが、これに限られるものではな
い。
【0111】たとえば、英数字記号のみを対象とした認
識を行って、英数字記号のみを先に確定したのちに、各
外接矩形の組み合わせによる複数の切り出し候補を推定
し、それぞれの切り出し候補ごとに個々の矩形に対する
認識評価値を求め、これら個々の矩形に対する認識評価
値を用いた各切り出し候補ごとの組み合わせ評価値のう
ち最適な評価値を得た切り出し候補を切り出し候補とし
て推定し、この推定された切り出し候補がその評価値か
ら切り出し可能と判断された場合には、切り出し結果と
して確定し、切り出し可能と判断されなかった切り出し
候補に対しては、外接矩形の形状情報のみによって切り
出し処理を行うというような処理としてもよい。さら
に、英数字記号のみを対象とした認識を行って、英数字
記号のみを先に確定したのちに、各外接矩形の形状情報
から切り出し候補を推定し、この推定した切り出し候補
に対して文字認識を行い、この文字認識の結果により切
り出し可能と判断された切り出し候補に対してはそれを
切り出し結果として確定し、前記文字認識の結果により
切り出し可能と判断されなかった切り出し候補に対して
は、各外接矩形の組み合わせによる複数の切り出し候補
を推定し、それぞれの切り出し候補ごとに個々の矩形に
対する認識評価値を求め、これら個々の矩形に対する認
識評価値を用いた各切り出し候補ごとの組み合わせ評価
値のうち最適な評価値を得た切り出し候補を切り出し候
補として推定し、この推定された切り出し候補がその評
価値から切り出し可能と判断された場合には、切り出し
結果として確定し、切り出し可能と判断されなかった切
り出し候補に対しては、再度、外接矩形の形状情報のみ
によって切り出し処理を行うというような処理としても
よい。
【0112】このように、この実施例2は、日本語の中
に英数字記号が混在する文書の切り出しを行う処理に対
しては広く適用できるものである。
【0113】以上のように実施例2では、外接矩形の抽
出、行方向の文字列の抽出、列方向の統合といった処理
を行ったのち、まず最初に、英数字記号である可能性を
判断し、英数字記号のみを対象とした認識を行って、英
数字記号のみを先に確定し、そのあとで、それ以外の文
字の切り出しを行おうとするものである。つまり、漢字
やひらがななどの文字に対して文字間ピッチの異なる英
数字記号を最初に確定してしまうことにより、あとは文
字間のピッチに大きな違いのない漢字やひらがななどの
文字だけが残されることになり、それ以降の切り出し処
理をきわめて容易なものとすることができる、切り出し
処理をきわめて容易なものとすることができ、処理を大
幅に高速化することができる。また、英数字記号のみを
対象とした認識を行うことにより、その認識処理を行う
に必要な辞書のカテゴリ数はたかだか数十個であり、す
べての文字に対して認識処理を行う場合に比べて(JIS
第1水準の文字は約3000)高速に認識処理を行うこ
とができる。
【0114】
【発明の効果】以上説明したように本発明の文字切り出
し方法は、請求項1によれば、外接矩形の形状情報か
ら、まず、切り出しを確定できるものは確定し、残った
ものに対しては、外接矩形の組み合わせによる複数の切
り出し候補を推定し、それぞれの切り出し候補ごとに個
々の矩形に対する認識評価値を求め、これら個々の矩形
に対する認識評価値を用いた各切り出し候補ごとの組み
合わせ評価値のうち最適な組み合わせ評価値を得た切り
出し候補を切り出し結果として確定するようにしたの
で、全ての組み合わせに対して認識処理を行う場合に比
べて認識文字数を大幅に削減(1/3以下)することが
でき、これにより、処理時間も大幅に短くすることがで
き、さらに形状情報により切り出しを行うことから分離
有意文字に対しても正確に切り出しを行うことができ
る。
【0115】また、請求項2によれば、本発明は、外接
矩形の組み合わせによる複数の切り出し候補を推定し、
それぞれの切り出し候補ごとに個々の矩形に対する認識
評価値を求め、これら個々の矩形に対する認識評価値を
用いた各切り出し候補ごとの組み合わせ評価値のうち最
適な組み合わせ評価値を得た切り出し候補を切り出し候
補として推定し、この推定された切り出し候補がその評
価値から切り出し可能と判断された場合には、切り出し
結果として確定し、切り出し可能と判断されなかった切
り出し候補に対しては、前記外接矩形の形状情報のみに
よって切り出し処理を行うようにしている。これは、つ
ぶれやかすれの有る品質の悪い文書の場合、認識による
評価値の信頼性には問題が多く、この信頼性に問題のあ
る認識情報を用いた組み合わせによる切り出しは誤りが
多いことから、このような場合には、形状情報のみによ
って切り出し処理を行うようにしている。これにより、
文字画像の品質の悪い場合でも正確な切り出しが可能と
なる。
【0116】また、請求項3によれば、外接矩形の形状
情報から、まず、切り出しを確定できるものは確定し、
残ったものに対しては、外接矩形の組み合わせによる複
数の切り出し候補を推定し、それぞれの切り出し候補ご
とに個々の矩形に対する認識評価値を求め、これら個々
の矩形に対する認識評価値を用いた各切り出し候補ごと
の組み合わせ評価値のうち最適な組み合わせ評価値を得
た切り出し候補を切り出し結果として確定し、これによ
り確定できなかったものに対しては、再度、外接矩形の
形状情報のみによって切り出し処理を行うようにしたの
で、全ての組み合わせに対して認識処理を行う場合に比
べて認識文字数を大幅に削減(1/3以下)することが
でき、これにより、処理時間も大幅に短くすることがで
き、さらに形状情報により切り出しを行うことから分離
有意文字に対しても正確に切り出しを行うことができ、
さらに、文字画像の品質の悪い場合でも正確な切り出し
が可能となる。
【0117】また、請求項4によれば、前記外接矩形の
組み合わせによる複数の切り出し候補を推定し、それぞ
れの切り出し候補ごとに文字らしさを表す認識評価値を
求める場合に、各外接矩形を求める際に得た情報からそ
の外接矩形の文字画像が漢字の偏または旁であることを
推定し、漢字の偏または旁であると推定された外接矩形
の文字画像に対しては文字認識処理を行わないようにし
ている。これは、矩形が漢字の偏または旁であることが
あらかじめ判明した場合には、偏または旁を単独で認識
処理するのは無駄な処理であり、矩形の画像が漢字の偏
または旁であることが推定できるものはその時点で漢字
の偏または旁であるとみなして、これらに対しては認識
処理を行わないようにする。これにより、全てを認識処
理する場合に比べて認識処理の量を大幅に削減すること
ができ、処理の高速化が図れる。
【0118】また、請求項5によれば、前記外接矩形の
文字画像が漢字の偏または旁であることの推定は、矩形
の形状とその矩形内の文字画像の複雑度を用いて行うこ
とにより、簡単かつ高速に文字画像が漢字の偏または旁
であることを推定できる。
【0119】また、請求項6によれば、前記各外接矩形
の組み合わせによる複数の切り出し候補のうちいずれか
を切り出し候補として推定する際は、各切り出し候補ご
との組み合わせ評価値を構成する各矩形に対する認識評
価値のうち最悪の認識評価値をもとに決定することによ
り、従来のように、1つだけ極めて高い評価値が有るが
ために、低い評価値があっても合計の数値が高いと正解
とみなされるというような不具合がなくなり、正確な切
り出しが可能となる。
【0120】また、請求項7によれば、外接矩形の形状
情報からその外接矩形の文字画像が英数字記号である可
能性を推定し、英数字記号であると推定した矩形につい
ては、英数字記号のみを対象とした文字認識を行い、英
数字記号を確定するようにしたので、高精度な英数字記
号の認識が可能となる。
【0121】また、請求項8によれば、外接矩形の形状
情報からその外接矩形の文字画像が英数字記号である可
能性を推定し、英数字記号であると推定した矩形につい
ては、英数字記号のみを対象とした文字認識を行って、
英数字記号を確定したのち、英数字記号と確定された以
外の文字に対する切り出し処理を行うようにしたので、
最初に英数字記号が認識されることによって、あとは英
数字記号として認識された以外の文字に対する処理を行
えばよいことから、切り出し処理が簡素化され、処理時
間の大幅な短縮が図れるとともに正確切り出しが可能と
なる。
【0122】また、請求項9によれば、前記英数字記号
のみを対象とした文字認識処理は、英数字記号であると
推定された矩形の文字画像の特徴量を抽出し、英数字記
号としてあらかじめ設定された各英数字記号に対応する
辞書とを比較することにより認識評価値を算出し、この
認識評価値をもとに前記英数字記号であると推定された
矩形の文字画像が英数字記号であるか否かを判別するよ
うにしたので、高速かつ高精度に英数字記号の認識が可
能となる。
【0123】また、請求項10によれば、最初に英数字
記号が認識された後に、英数字記号として認識された以
外の文字に対する処理、つまり、外接矩形の形状情報か
ら、まず、切り出しを確定できるものは確定し、残った
ものに対しては、外接矩形の組み合わせによる複数の切
り出し候補を推定し、それぞれの切り出し候補ごとに個
々の矩形に対する認識評価値を求め、これら個々の矩形
に対する認識評価値を用いた各切り出し候補ごとの組み
合わせ評価値のうち最適な組み合わせ評価値を得た切り
出し候補を切り出し結果として確定する処理を行えばよ
いことから、漢字やひらがな、かたかなに英数字記号が
混在する文書の切り出しを行う場合、より一層、大幅な
処理の削減を図ることができ、これにより、処理時間も
大幅に短くすることができる。
【0124】また、請求項11によれば、最初に英数字
記号が認識された後に、英数字記号として認識された以
外の文字に対する処理、つまり、外接矩形の組み合わせ
による複数の切り出し候補を推定し、それぞれの切り出
し候補ごとに個々の矩形に対する認識評価値を求め、こ
れら個々の矩形に対する認識評価値を用いた各切り出し
候補ごとの組み合わせ評価値のうち最適な組み合わせ評
価値を得た切り出し候補を切り出し候補として推定し、
この推定された切り出し候補がその評価値から切り出し
可能と判断された場合には、切り出し結果として確定
し、切り出し可能と判断されなかった切り出し候補に対
しては、前記外接矩形の形状情報のみによって切り出し
処理を行うばよいことから、漢字やひらがな、かたかな
に英数字記号が混在する文書の切り出しを行う場合、よ
り一層、大幅な処理の削減を図ることができ、さらに、
つぶれやかすれの有る品質の悪い文字画像の場合でも正
確な切り出しが可能となる。
【0125】また、請求項12によれば、最初に英数字
記号が認識された後に、英数字記号として認識された以
外の文字に対する処理、つまり、外接矩形の形状情報か
ら、まず、切り出しを確定できるものは確定し、残った
ものに対しては、外接矩形の組み合わせによる複数の切
り出し候補を推定し、それぞれの切り出し候補ごとに個
々の矩形に対する認識評価値を求め、これら個々の矩形
に対する認識評価値を用いた各切り出し候補ごとの組み
合わせ評価値のうち最適な組み合わせ評価値を得た切り
出し候補を切り出し結果として確定し、これにより確定
できなかったものに対しては、再度、外接矩形の形状情
報のみによって切り出し処理を行えばよいことから、漢
字やひらがな、かたかなに英数字記号が混在する文書の
切り出しを行う場合、より一層、大幅な処理の削減を図
ることができ、さらに、つぶれやかすれの有る品質の悪
い文字画像の場合でも正確な切り出しが可能となる。
【0126】また、請求項13によれば、前記請求項1
0、請求項11、請求項12において、各外接矩形の組
み合わせによる複数の切り出し候補のうちいずれかを切
り出し候補として推定する際は、各切り出し候補ごとの
組み合わせ評価値を構成する各矩形に対する認識評価値
のうち最悪の認識評価値をもとに決定するようにしたの
で、従来のように、1つだけ極めて高い評価値が有るが
ために、低い評価値があっても合計の数値が高いと正解
とみなされるという不具合がなくなり、正確な切り出し
が可能となる。
【0127】また、本発明の文字切り出し装置は、請求
項14によれば、第1の切り出し候補推定手段によっ
て、外接矩形の形状情報から、まず、切り出しを確定で
きるものは確定し、残ったものに対しては、第2の切り
出し候補推定手段によって、外接矩形の組み合わせによ
る複数の切り出し候補を推定し、それぞれの切り出し候
補ごとに個々の矩形に対する認識評価値を求め、これら
個々の矩形に対する認識評価値を用いた各切り出し候補
ごとの組み合わせ評価値のうち最適な組み合わせ評価値
を得た切り出し候補を切り出し結果として確定するよう
にしたので、全ての組み合わせに対して認識処理を行う
場合に比べて認識文字数を大幅に削減(1/3以下)す
ることができ、これにより、処理時間も大幅に短くする
ことができ、また、形状情報により切り出しを行うこと
から分離有意文字に対しても正確に切り出しを行うこと
ができる。
【0128】また、請求項15によれば、本発明は、第
2の切り出し候補推定手段によって、外接矩形の組み合
わせによる複数の切り出し候補を推定し、それぞれの切
り出し候補ごとに個々の矩形に対する認識評価値を求
め、これら個々の矩形に対する認識評価値を用いた各切
り出し候補ごとの組み合わせ評価値のうち最適な組み合
わせ評価値を得た切り出し候補を切り出し候補として推
定し、この推定された切り出し候補がその評価値から切
り出し可能と判断された場合には、切り出し結果として
確定し、切り出し可能と判断されなかった切り出し候補
に対しては、前記第1の切り出し候補推定手段によっ
て、外接矩形の形状情報のみによって切り出し処理を行
うようにしている。これは、つぶれやかすれの有る品質
の悪い文書の場合、認識による評価値の信頼性には問題
が多く、この信頼性に問題の多い認識情報を用いた組み
合わせによる切り出しは誤りが多いことから、このよう
な場合には、形状情報のみによって切り出し処理を行う
ようにしている。これにより、文字画像の品質の悪い場
合でも正確な切り出しが可能となる。
【0129】また、請求項16によれば、第1の切り出
し候補推定手段によって、外接矩形の形状情報から、ま
ず、切り出しを確定できるものは確定し、残ったものに
対しては、第2の切り出し候補推定手段によって、外接
矩形の組み合わせによる複数の切り出し候補を推定し、
それぞれの切り出し候補ごとに個々の矩形に対する認識
評価値を求め、これら個々の矩形に対する認識評価値を
用いた各切り出し候補ごとの組み合わせ評価値のうち最
適な組み合わせ評価値を得た切り出し候補を切り出し結
果として確定し、これにより確定できなかったものに対
しては、再度、第1の切り出し候補推定手段によって、
外接矩形の形状情報のみによる切り出し処理を行うよう
にしたので、全ての組み合わせに対して認識処理を行う
場合に比べて認識文字数を大幅に削減(1/3以下)す
ることができ、これにより、処理時間も大幅に短くする
ことができ、また、形状情報により切り出しを行うこと
から分離有意文字に対しても正確に切り出しを行うこと
ができ、さらに、文字画像の品質の悪い場合でも正確な
切り出しが可能となる。
【0130】また、請求項17によれば、前記外接矩形
の組み合わせによる複数の切り出し候補を推定し、それ
ぞれの切り出し候補ごとに文字らしさを表す認識評価値
を求める場合に、各外接矩形を求める際に得た情報から
その外接矩形の文字画像が漢字の偏または旁であること
を推定し、漢字の偏または旁であると推定された外接矩
形の文字画像に対しては文字認識処理を行わないように
している。これは、矩形が漢字の偏または旁であること
があらかじめ判明した場合には、偏または旁を単独で認
識処理するのは無駄な処理であり、矩形の画像が漢字の
偏または旁であることが推定できるものはその時点で漢
字の偏または旁であるとみなして、これらに対しては認
識処理を行わないようにする。これにより、全てを認識
処理する場合に比べて認識処理の量を大幅に削減するこ
とができ、処理の高速化が図れる。
【0131】また、請求項18によれば、前記外接矩形
の文字画像が漢字の偏または旁であることの推定は、矩
形の形状とその矩形内の文字画像の複雑度を用いて行う
ことにより、簡単かつ高速に文字画像が漢字の偏または
旁であることを推定できる。
【0132】また、請求項19によれば、前記各外接矩
形の組み合わせによる複数の切り出し候補のうちいずれ
かを切り出し候補として推定する際は、各切り出し候補
ごとの組み合わせ評価値を構成する各矩形に対する認識
評価値のうち最悪の認識評価値をもとに決定することに
より、従来のように、1つだけ極めて高い評価値が有る
がために、低い評価値があっても合計の数値が高いと正
解とみなされるというような不具合がなくなり、正確な
切り出しが可能となる。
【0133】また、請求項20によれば、外接矩形の形
状情報からその外接矩形の文字画像が英数字記号である
可能性を推定し、英数字記号であると推定した矩形につ
いては、英数字記号のみを対象とした文字認識を行い、
英数字記号を確定するようにしたので、高精度な英数字
記号の認識が可能となる。
【0134】また、請求項21によれば、外接矩形の形
状情報からその外接矩形の文字画像が英数字記号である
可能性を推定し、英数字記号であると推定した矩形につ
いては、英数字記号のみを対象とした文字認識を行っ
て、英数字記号を確定したのち、英数字記号と確定され
た以外の文字に対する切り出し処理を行うようにしたの
で、最初に英数字記号が認識されることによって、あと
は英数字記号として認識された以外の文字に対する処理
を行えばよいことから、切り出し処理が簡素化され、処
理時間の大幅な短縮が図れるとともに正確切り出しが可
能となる。
【0135】また、請求項22によれば、前記英数字記
号のみを対象とした文字認識処理は、英数字記号である
と推定された矩形の文字画像の特徴量を抽出し、英数字
記号としてあらかじめ設定された各英数字記号に対応す
る辞書とを比較することにより認識評価値を算出し、こ
の認識評価値をもとに前記英数字記号であると推定され
た矩形の文字画像が英数字記号であるか否かを判別する
ようにしたので、高速かつ高精度に英数字記号の認識が
可能となる。
【0136】また、請求項23によれば、最初に英数字
記号が認識された後に、英数字記号として認識された以
外の文字に対する処理、つまり、外接矩形の形状情報か
ら、まず、切り出しを確定できるものは確定し、残った
ものに対しては、外接矩形の組み合わせによる複数の切
り出し候補を推定し、それぞれの切り出し候補ごとに個
々の矩形に対する認識評価値を求め、これら個々の矩形
に対する認識評価値を用いた各切り出し候補ごとの組み
合わせ評価値のうち最適な組み合わせ評価値を得た切り
出し候補を切り出し結果として確定する処理を行えばよ
いことから、漢字やひらがな、かたかなに英数字記号が
混在する文書の切り出しを行う場合、より一層、大幅な
処理の削減を図ることができ、これにより、処理時間も
大幅に短くすることができる。
【0137】また、請求項24によれば、最初に英数字
記号が認識された後に、英数字記号として認識された以
外の文字に対する処理、つまり、外接矩形の組み合わせ
による複数の切り出し候補を推定し、それぞれの切り出
し候補ごとに個々の矩形に対する認識評価値を求め、こ
れら個々の矩形に対する認識評価値を用いた各切り出し
候補ごとの組み合わせ評価値のうち最適な組み合わせ評
価値を得た切り出し候補を切り出し候補として推定し、
この推定された切り出し候補がその評価値から切り出し
可能と判断された場合には、切り出し結果として確定
し、切り出し可能と判断されなかった切り出し候補に対
しては、前記外接矩形の形状情報のみによって切り出し
処理を行うばよいことから、漢字やひらがな、かたかな
に英数字記号が混在する文書の切り出しを行う場合、よ
り一層、大幅な処理の削減を図ることができ、さらに、
つぶれやかすれの有る品質の悪い文字画像の場合でも正
確な切り出しが可能となる。
【0138】また、請求項25によれば、最初に英数字
記号が認識された後に、英数字記号として認識された以
外の文字に対する処理、つまり、外接矩形の形状情報か
ら、まず、切り出しを確定できるものは確定し、残った
ものに対しては、外接矩形の組み合わせによる複数の切
り出し候補を推定し、それぞれの切り出し候補ごとに個
々の矩形に対する認識評価値を求め、これら個々の矩形
に対する認識評価値を用いた各切り出し候補ごとの組み
合わせ評価値のうち最適な組み合わせ評価値を得た切り
出し候補を切り出し結果として確定し、これにより確定
できなかったものに対しては、再度、外接矩形の形状情
報のみによって切り出し処理を行えばよいことから、漢
字やひらがな、かたかなに英数字記号が混在する文書の
切り出しを行う場合、より一層、大幅な処理の削減を図
ることができ、さらに、つぶれやかすれの有る品質の悪
い文字画像の場合でも正確な切り出しが可能となる。
【0139】また、請求項26によれば、前記請求項2
3、請求項24、請求項25において、各外接矩形の組
み合わせによる複数の切り出し候補のうちいずれかを切
り出し候補として推定する際は、各切り出し候補ごとの
組み合わせ評価値を構成する各矩形に対する認識評価値
のうち最悪の認識評価値をもとに決定するようにしたの
で、従来のように、1つだけ極めて高い評価値が有るが
ために、低い評価値があっても合計の数値が高いと正解
とみなされるという不具合がなくなり、正確な切り出し
が可能となる。
【図面の簡単な説明】
【図1】本発明の実施例を説明するための全体の構成
図。
【図2】本発明の実施例1における具体的な処理の一例
を説明するフローチャート。
【図3】切り出し処理を行う文書例を示す図。
【図4】品質の悪い文書における処理を説明するための
図。
【図5】実施例1における具体的な処理の一例を説明す
るフローチャート。
【図6】文字の線密度と統合数を説明する図。
【図7】本発明の実施例2における具体的な処理の一例
を説明するフローチャート。
【図8】実施例2における英数字記号認識手段の構成
図。
【図9】英数字記号認識手段の処理手順を説明するフロ
ーチャート。
【図10】外接矩形を説明するための図。
【図11】外接矩形の組み合わせによる切り出しを処理
を説明する図。
【符号の説明】
1・・・文書画像入力手段 2・・・外接矩形抽出手段 3・・・行切り出し手段 4・・・列方向統合手段 5・・・文字切り出し手段 6・・・英数字記号認識手段 7・・・文字認識手段 51・・・英数字記号確定手段 52・・・第1の切り出し候補推定手段 53・・・第2の切り出し候補推定手段

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を読み取ってその文書画像から
    文字の切り出しを行う文字切り出し方法において、 各文字を構成するそれぞれの外接矩形の形状情報から切
    り出し候補を推定し、この推定した切り出し候補に対し
    て文字認識を行い、この文字認識の結果により切り出し
    可能と判断された切り出し候補に対してはそれを切り出
    し結果として確定し、前記文字認識の結果により切り出
    し可能と判断されなかった切り出し候補に対しては、前
    記各文字を構成するそれぞれの外接矩形の組み合わせに
    よる複数の切り出し候補を推定し、それぞれの切り出し
    候補ごとに個々の矩形に対する認識評価値を求め、これ
    ら個々の矩形の認識評価値を用いた各切り出し候補ごと
    の組み合わせ評価値のうち最適な組み合わせ評価値を得
    た切り出し候補を切り出し結果として確定することを特
    徴とする文字切り出し方法。
  2. 【請求項2】 文書画像を読み取ってその文書画像から
    文字の切り出しを行う文字切り出し方法において、各文
    字を構成するそれぞれの外接矩形の組み合わせによる複
    数の切り出し候補を推定し、それぞれの切り出し候補ご
    とに個々の矩形に対する認識評価値を求め、これら個々
    の矩形の認識評価値を用いた各切り出し候補ごとの組み
    合わせ評価値のうち最適な組み合わせ評価値を得た切り
    出し候補を切り出し候補として推定し、この推定された
    切り出し候補がその評価値から切り出し可能と判断され
    た場合にはそれを切り出し結果として確定し、切り出し
    可能と判断されなかった切り出し候補に対しては、前記
    外接矩形の形状情報によって切り出し処理を行うことを
    特徴とする文字切り出し方法。
  3. 【請求項3】 文書画像を読み取ってその文書画像から
    文字の切り出しを行う文字切り出し方法において、 各文字を構成するそれぞれの外接矩形の形状情報から切
    り出し候補を推定し、この推定した切り出し候補に対し
    て文字認識を行い、この文字認識の結果により切り出し
    可能と判断された切り出し候補に対してはそれを切り出
    し結果として確定し、前記文字認識の結果により切り出
    し可能と判断されなかった切り出し候補に対しては、前
    記各文字を構成するそれぞれの外接矩形の組み合わせに
    よる複数の切り出し候補を推定し、それぞれの切り出し
    候補ごとに個々の矩形に対する認識評価値を求め、これ
    ら個々の矩形の認識評価値を用いた各切り出し候補ごと
    の組み合わせ評価値のうち最適な組み合わせ評価値を得
    た切り出し候補を切り出し候補として推定し、この推定
    された切り出し候補がその評価値から切り出し可能と判
    断された場合にはそれを切り出し結果として確定し、切
    り出し確定可能と判断されなかった切り出し候補に対し
    ては、再度、外接矩形の形状情報によって切り出し処理
    を行うことを特徴とする文字切り出し方法。
  4. 【請求項4】 前記外接矩形の組み合わせによる複数の
    切り出し候補を推定し、それぞれの切り出し候補ごとに
    文字らしさを表す認識評価値を求める場合に、各外接矩
    形を求める際に得た情報からその外接矩形の文字画像が
    漢字の偏または旁であることを推定し、漢字の偏または
    旁であると推定された外接矩形の文字画像に対しては文
    字認識処理を行わないことを特徴とする請求項1、請求
    項2、請求項3のいずれかに記載の文字切り出し方法。
  5. 【請求項5】 前記外接矩形の文字画像が漢字の偏また
    は旁であることを推定するために用いる情報としては、
    矩形の形状とその矩形内の文字画像の複雑度であること
    を特徴とする請求項4記載の文字切り出し方法。
  6. 【請求項6】 前記各外接矩形の組み合わせによる複数
    の切り出し候補のうちいずれかを切り出し候補として推
    定する際は、各切り出し候補においてその切り出し候補
    を構成する幾つかの矩形に対応するそれぞれの評価値の
    うち最悪の評価値をもとに決定することを特徴とする請
    求項1、請求項2、請求項3のいずれかに記載の文字切
    り出し方法。
  7. 【請求項7】 文書画像を読み取ってその文書画像から
    文字の切り出しを行う文字切り出し方法において、 各文字を構成するそれぞれの外接矩形の形状情報からそ
    の外接矩形の文字画像がアルファベット、数字、記号な
    ど(英数字記号という)である可能性を推定し、英数字
    記号であると推定した矩形については、英数字記号のみ
    を対象とした文字認識を行い、英数字記号を確定するこ
    とを特徴とする文字切り出し方法。
  8. 【請求項8】 文書画像を読み取ってその文書画像から
    文字の切り出しを行う文字切り出し方法において、 各文字を構成するそれぞれの外接矩形の形状情報からそ
    の外接矩形の文字画像が英数字記号である可能性を推定
    し、英数字記号であると推定した矩形については、英数
    字記号のみを対象とした文字認識を行って、英数字記号
    を確定したのち、英数字記号と確定された以外の文字に
    対する切り出し処理を行うことを特徴とする文字切り出
    し方法。
  9. 【請求項9】 前記英数字記号のみを対象とした文字認
    識処理は、英数字記号であると推定された矩形の文字画
    像の特徴量を抽出し、英数字記号としてあらかじめ設定
    された各英数字記号に対応する辞書とを比較することに
    より認識評価値を算出し、この認識評価値をもとに前記
    英数字記号であると推定された矩形の文字画像が英数字
    記号であるか否かを判別することを特徴とする請求項
    7、請求項8のいずれかに記載の文字切り出し方法。
  10. 【請求項10】 前記英数字記号と確定された以外の文
    字に対する切り出し処理は、各文字を構成するそれぞれ
    の外接矩形の形状情報から切り出し候補を推定し、この
    推定した切り出し候補に対して文字認識を行い、この文
    字認識の結果により切り出し可能と判断された切り出し
    候補に対してはそれを切り出し結果として確定し、前記
    文字認識の結果により切り出し可能と判断されなかった
    切り出し候補に対しては、各文字を構成するそれぞれの
    外接矩形の組み合わせによる複数の切り出し候補を推定
    し、それぞれの切り出し候補ごとに個々の矩形に対する
    認識評価値を求め、これら個々の矩形の認識評価値を用
    いた各切り出し候補ごとの組み合わせ評価値のうち最適
    な組み合わせ評価値を得た切り出し候補を切り出し結果
    として確定することを特徴とする請求項8記載の文字切
    り出し方法。
  11. 【請求項11】 前記英数字記号と確定された以外の文
    字に対する切り出し処理は、各文字を構成するそれぞれ
    の外接矩形の組み合わせによる複数の切り出し候補を推
    定し、それぞれの切り出し候補ごとに個々の矩形に対す
    る認識評価値を求め、これら個々の矩形の認識評価値を
    用いた各切り出し候補ごとの組み合わせ評価値のうち最
    適な組み合わせ評価値を得た切り出し候補を切り出し候
    補として推定し、この推定された切り出し候補がその評
    価値から切り出し可能と判断された場合にはそれを切り
    出し結果として確定し、切り出し可能と判断されなかっ
    た切り出し候補に対しては、前記外接矩形の形状情報に
    よって切り出し処理を行うことを特徴とする請求項8記
    載の文字切り出し方法。
  12. 【請求項12】 前記英数字記号と確定された以外の文
    字に対する切り出し処理は、各文字を構成するそれぞれ
    の外接矩形の形状情報から切り出し候補を推定し、この
    推定した切り出し候補に対して文字認識を行い、この文
    字認識の結果により切り出し可能と判断された切り出し
    候補に対してはそれを切り出し結果として確定し、前記
    文字認識の結果により切り出し可能と判断されなかった
    切り出し候補に対しては、前記各文字を構成するそれぞ
    れの外接矩形の組み合わせによる複数の切り出し候補を
    推定し、それぞれの切り出し候補ごとに個々の矩形に対
    する認識評価値を求め、これら個々の矩形の認識評価値
    を用いた各切り出し候補ごとの組み合わせ評価値のうち
    最適な組み合わせ評価値を得た切り出し候補を切り出し
    候補として推定し、この推定された切り出し候補がその
    評価値から切り出し可能と判断された場合にはそれを切
    り出し結果として確定し、切り出し可能と判断されなか
    った切り出し候補に対しては、再度、外接矩形の形状情
    報によって切り出し処理を行うことを特徴とする請求項
    8記載の文字切り出し方法。
  13. 【請求項13】 前記各外接矩形の組み合わせによる複
    数の切り出し候補のうちいずれかを切り出し候補として
    推定する際は、前記各切り出し候補ごとの組み合わせ評
    価値を構成する各矩形に対する認識評価値のうち最悪の
    認識評価値をもとに決定することを特徴とする請求項1
    0、請求項11、請求項12のいずれかに記載の文字切
    り出し方法。
  14. 【請求項14】 文書画像を読み取ってその文書画像か
    ら文字の切り出しを行う文字切り出し装置において、 各文字を構成するそれぞれの外接矩形の形状情報から切
    り出し候補を推定する第1の切り出し候補推定手段と、 各文字を構成するそれぞれの外接矩形の組み合わせによ
    る複数の切り出し候補を推定する第2の切り出し候補推
    定手段と、 各切り出し候補の文字認識を行う文字認識手段と、 を有し、前記第1の切り出し候補推定手段により推定さ
    れた切り出し候補に対して文字認識を行い、この文字認
    識結果により切り出し可能と判断された切り出し候補に
    対してはそれを切り出し結果として確定し、この文字認
    識の結果により切り出し可能と判断されなかった切り出
    し候補に対しては、前記第2の切り出し候補推定手段に
    より前記それぞれの外接矩形の組み合わせによる複数の
    切り出し候補を推定し、それぞれの切り出し候補ごとに
    個々の矩形に対する認識評価値を求め、これら個々の矩
    形の認識評価値を用いた各切り出し候補ごとの組み合わ
    せ評価値のうち最適な組み合わせ評価値を得た切り出し
    候補を切り出し結果として確定することを特徴とする文
    字切り出し装置。
  15. 【請求項15】 文書画像を読み取ってその文書画像か
    ら文字の切り出しを行う文字切り出し装置において、 各文字を構成するそれぞれの外接矩形の形状情報から切
    り出し候補を仮推定する第1の切り出し候補推定手段
    と、 各文字を構成するそれぞれの外接矩形の組み合わせによ
    る複数の切り出し候補を仮推定する第2の切り出し候補
    推定手段と、 各切り出し候補の文字認識を行う文字認識手段と、 を有し、前記第2の切り出し候補推定手段により各外接
    矩形の組み合わせによる複数の切り出し候補を推定し、
    それぞれの切り出し候補ごとに個々の矩形に対する認識
    評価値を求め、これら個々の矩形の認識評価値を用いた
    各切り出し候補ごとの組み合わせ評価値のうち最適な組
    み合わせ評価値を得た切り出し候補を切り出し候補とし
    て推定し、この推定された切り出し候補がその評価値か
    ら切り出し可能と判断された場合にはそれを切り出し結
    果として確定し、切り出し確定可能と判断されなかった
    切り出し候補に対しては、前記第1の切り出し候補推定
    手段により外接矩形の形状情報によって切り出し処理を
    行うことを特徴とする文字切り出し装置。
  16. 【請求項16】 文書画像を読み取ってその文書画像か
    ら文字の切り出しを行う文字切り出し装置において、 各文字を構成するそれぞれの外接矩形の形状情報から切
    り出し候補を仮推定する第1の切り出し候補推定手段
    と、 各文字を構成するそれぞれの外接矩形の組み合わせによ
    る複数の切り出し候補を仮推定する第2の切り出し候補
    推定手段と、 各切り出し候補の文字認識を行う文字認識手段と、 を有し、前記第1の切り出し候補推定手段により外接矩
    形の形状情報から切り出し候補を推定し、この推定した
    切り出し候補に対して文字認識を行い、この文字認識の
    結果により切り出し可能と判断された切り出し候補に対
    してはそれを切り出し結果として確定し、前記文字認識
    の結果により切り出し可能と判断されなかった切り出し
    候補に対しては、前記第2の切り出し候補推定手段によ
    り各外接矩形の組み合わせによる複数の切り出し候補を
    推定し、それぞれの切り出し候補ごとに個々の矩形に対
    する認識評価値を求め、これら個々の矩形の認識評価値
    を用いた各切り出し候補ごとの組み合わせ評価値のうち
    最適な組み合わせ評価値を得た切り出し候補を切り出し
    候補として推定し、この推定された切り出し候補がその
    評価値から切り出し可能と判断された場合にはそれを切
    り出し結果として確定し、切り出し可能と判断されなか
    った切り出し候補に対しては、再度、前記第1の切り出
    し候補推定手段により外接矩形の形状情報によって切り
    出し処理を行うことを特徴とする文字切り出し装置。
  17. 【請求項17】 前記外接矩形の組み合わせによる複数
    の切り出し候補を推定し、それぞれの切り出し候補ごと
    に文字らしさを表す認識評価値を求める場合に、各外接
    矩形を求める際に得た情報からその外接矩形の文字画像
    が漢字の偏または旁であることを推定し、漢字の偏また
    は旁であると推定された外接矩形の文字画像に対しては
    文字認識処理を行わないことを特徴とする請求項14、
    請求項15、請求項16のいずれかに記載の文字切り出
    し装置。
  18. 【請求項18】 前記外接矩形の文字画像が漢字の偏ま
    たは旁であることを推定するに用いる情報としては、矩
    形の形状とその矩形内の文字画像の複雑度であることを
    特徴とする請求項17記載の文字切り出し装置。
  19. 【請求項19】 前記各外接矩形の組み合わせによる複
    数の切り出し候補のうちいずれかを切り出し候補として
    推定する際は、各切り出し候補においてその切り出し候
    補を構成する幾つかの矩形に対応するそれぞれの評価値
    のうち最悪の認識評価値をもとに決定することを特徴と
    する請求項14、請求項15、請求項16のいずれかに
    記載の文字切り出し装置。
  20. 【請求項20】 文書画像を読み取ってその文書画像か
    ら文字の切り出しを行う文字切り出し装置において、 各文字を構成するそれぞれの外接矩形の形状情報からそ
    の外接矩形の画像が英数字記号である可能性を推定する
    英数字記号推定手段と、 この英数字記号推定手段により英数字記号であると推定
    された矩形については、英数字記号のみを対象とした文
    字認識を行う英数字記号文字認識手段と、 を有したことを特徴とする文字切り出し装置。
  21. 【請求項21】 文書画像を読み取ってその文書画像か
    ら文字の切り出しを行う文字切り出し装置において、 各文字を構成するそれぞれの外接矩形の形状情報から切
    り出し候補を仮推定する第1の切り出し候補推定手段
    と、 各文字を構成するそれぞれの外接矩形の組み合わせによ
    る複数の切り出し候補を仮推定する第2の切り出し候補
    推定手段と、 各切り出し候補の文字認識を行う文字認識手段と、 各文字を構成するそれぞれの外接矩形の形状情報からそ
    の外接矩形の画像が英数字記号である可能性を推定する
    英数字記号推定手段と、 この英数字記号推定手段により英数字記号であると推定
    した矩形については、英数字記号のみを対象とした文字
    認識を行う英数字記号文字認識手段と、 を有し、各外接矩形の形状情報から英数字記号を推定
    し、英数字記号であると推定した矩形については、英数
    字記号のみを対象とした文字認識を行って、英数字記号
    を確定したのち、英数字記号と確定された以外の文字に
    対する切り出し処理を行うことを特徴とする文字切り出
    し装置。
  22. 【請求項22】 前記英数字記号文字認識手段は、 英数字記号であると推定された矩形の文字画像の特徴量
    を抽出する特徴量抽出手段と、 英数字記号としてあらかじめ設定された各英数字記号に
    対応する辞書を格納する辞書格納手段と、 この辞書格納手段に格納された辞書と前記特徴量抽出手
    段からの特徴量とを比較して認識評価値を計算する評価
    値計算手段と、 この評価値計算手段からのに認識評価値をもとに前記英
    数字記号であると推定された矩形の文字画像が英数字記
    号であるか否かを判別する英数字記号判別手段と、 を有したことを特徴とする請求項21、請求項22のい
    ずれかに記載の文字切り出し装置。
  23. 【請求項23】 前記英数字記号と確定された以外の文
    字に対する切り出し処理は、前記第1の切り出し候補推
    定手段によって、各文字を構成するそれぞれの外接矩形
    の形状情報から切り出し候補を推定し、この推定した切
    り出し候補に対して文字認識を行い、この文字認識の結
    果により切り出し可能と判断された切り出し候補に対し
    てはそれを切り出し結果として確定し、前記文字認識の
    結果により切り出し可能と判断されなかった切り出し候
    補に対しては、前記第2の切り出し候補推定手段によっ
    て、前記各文字を構成するそれぞれの外接矩形の組み合
    わせによる複数の切り出し候補を推定し、それぞれの切
    り出し候補ごとに個々の矩形に対する認識評価値を求
    め、これら個々の矩形の認識評価値を用いた各切り出し
    候補ごとの組み合わせ評価値のうち最適な組み合わせ評
    価値を得た切り出し候補を切り出し結果として確定する
    ことを特徴とする請求項21記載の文字切り出し装置。
  24. 【請求項24】 前記英数字記号と確定された以外の文
    字に対する切り出し処理は、前記第2の切り出し候補推
    定手段によって、各文字を構成するそれぞれの外接矩形
    の組み合わせによる複数の切り出し候補を推定し、それ
    ぞれの切り出し候補ごとに個々の矩形に対する認識評価
    値を求め、これら個々の矩形の認識評価値を用いた各切
    り出し候補ごとの組み合わせ評価値のうち最適な組み合
    わせ評価値を得た切り出し候補を切り出し候補として推
    定し、この推定された切り出し候補がその評価値から切
    り出し可能と判断された場合にはそれを切り出し結果と
    して確定し、切り出し可能と判断されなかった切り出し
    候補に対しては、前記第1の切り出し候補推定手段によ
    って、外接矩形の形状情報によって切り出し処理を行う
    ことを特徴とする請求項21記載の文字切り出し装置。
  25. 【請求項25】 前記英数字記号と確定された以外の文
    字に対する切り出し処理は、前記第1の切り出し候補推
    定手段によって、各文字を構成するそれぞれの外接矩形
    の形状情報から切り出し候補を推定し、この推定した切
    り出し候補に対して文字認識を行い、この文字認識の結
    果により切り出し可能と判断された切り出し候補に対し
    てはそれを切り出し結果として確定し、前記文字認識の
    結果により切り出し可能と判断されなかった切り出し候
    補に対しては、前記第2の切り出し候補推定手段によっ
    て、各文字を構成するそれぞれの外接矩形の組み合わせ
    による複数の切り出し候補を推定し、それぞれの切り出
    し候補ごとに個々の矩形に対する認識評価値を求め、こ
    れら個々の矩形の認識評価値を用いた各切り出し候補ご
    との組み合わせ評価値のうち最適な組み合わせ評価値を
    得た切り出し候補を切り出し候補として推定し、この推
    定された切り出し候補がその評価値から切り出し可能と
    判断された場合にはそれを切り出し結果として確定し、
    切り出し可能と判断されなかった切り出し候補に対して
    は、再度、前記第1の切り出し候補推定手段によって外
    接矩形の形状情報によって切り出し処理を行うことを特
    徴とする請求項21記載の文字切り出し装置。
  26. 【請求項26】 前記各外接矩形の組み合わせによる複
    数の切り出し候補のうちいずれかを切り出し候補として
    推定する際は、前記各切り出し候補ごとの組み合わせ評
    価値を構成する各矩形に対する認識評価値のうち最悪の
    認識評価値をもとに決定することを特徴とする請求項2
    3から請求項25のいずれかに記載の文字切り出し装
    置。
JP6299602A 1994-12-02 1994-12-02 文字切り出し方法および文字切り出し装置 Pending JPH08161432A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6299602A JPH08161432A (ja) 1994-12-02 1994-12-02 文字切り出し方法および文字切り出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6299602A JPH08161432A (ja) 1994-12-02 1994-12-02 文字切り出し方法および文字切り出し装置

Publications (1)

Publication Number Publication Date
JPH08161432A true JPH08161432A (ja) 1996-06-21

Family

ID=17874764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6299602A Pending JPH08161432A (ja) 1994-12-02 1994-12-02 文字切り出し方法および文字切り出し装置

Country Status (1)

Country Link
JP (1) JPH08161432A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062385A (ja) * 2002-07-26 2004-02-26 Ricoh Co Ltd 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
US8213748B2 (en) 2008-02-26 2012-07-03 Fuji Xerox Co., Ltd. Generating an electronic document with reference to allocated font corresponding to character identifier from an image
US8411955B2 (en) 2007-02-21 2013-04-02 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer-readable medium
US9280725B2 (en) 2013-02-14 2016-03-08 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062385A (ja) * 2002-07-26 2004-02-26 Ricoh Co Ltd 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
US8411955B2 (en) 2007-02-21 2013-04-02 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer-readable medium
US8213748B2 (en) 2008-02-26 2012-07-03 Fuji Xerox Co., Ltd. Generating an electronic document with reference to allocated font corresponding to character identifier from an image
US9280725B2 (en) 2013-02-14 2016-03-08 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium

Similar Documents

Publication Publication Date Title
US10936862B2 (en) System and method of character recognition using fully convolutional neural networks
JP3452774B2 (ja) 文字認識方法
EP0621553A2 (en) Methods and apparatus for inferring orientation of lines of text
JP4553241B2 (ja) 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
EP0381773A1 (en) Character recognition apparatus
JP2730665B2 (ja) 文字認識装置および方法
US5625710A (en) Character recognition apparatus using modification of a characteristic quantity
JP2000315247A (ja) 文字認識装置
JP7282989B2 (ja) テキスト分類
JPH08161432A (ja) 文字切り出し方法および文字切り出し装置
JPS60153574A (ja) 文字読取方法
JP3405155B2 (ja) 文書検索装置
JP4087191B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2917427B2 (ja) 図面読取装置
JP2006277149A (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP3710164B2 (ja) 画像処理装置及び方法
JP7382544B2 (ja) 文字列認識装置及び文字列認識プログラム
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2851102B2 (ja) 文字切出し方法
Leishman Shape-free statistical information in optical character recognition
KR910007032B1 (ko) 한글 문서 인식장치의 문자열과 개별문자 절출방법
JP2000207491A (ja) 文字列読取方法及び装置
JP2978801B2 (ja) 手書き文字認識の文字入力方式
KR100334624B1 (ko) 클러스터링기반문서영상분할방법
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体