JPH08161421A

JPH08161421A - 文字列領域抽出装置および方法

Info

Publication number: JPH08161421A
Application number: JP6305022A
Authority: JP
Inventors: Hidekata Mototani; 秀堅本谷; Shigeyoshi Shimotsuji; 成佳下辻
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1994-12-08
Filing date: 1994-12-08
Publication date: 1996-06-21
Anticipated expiration: 2018-04-28
Also published as: JP3400151B2; US5949906A

Abstract

(57)【要約】【目的】文字以外の図形に関する厳密な知識を必要と
せず、文字の大きさや記載される位置、文字間隔、文字
列の方向等が面内で任意に書かれた紙面から文字列を精
度良く抽出するための文字列領域抽出装置および方法を
提供すること。【構成】本発明に係る文字列領域抽出装置は、文字と
文字以外の図形の混在した入力画像情報からプリミティ
ブを抽出するプリミティブ抽出手段と、抽出されたプリ
ミティブを元に文字列候補領域を生成する文字列候補領
域生成手段と、生成された文字列候補領域を文字認識す
る文字認識手段と、この文字認識手段による文字認識の
結果に基づき前記文字列候補領域が文字列領域であるか
否かを判断する文字列性判断手段とを具備してなること
を特徴とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字と非文字とが混在
して書き込まれた紙面に対して、該紙面中の文字を認識
するための文字列領域抽出装置および方法に関する。

【０００２】

【従来の技術】文字と文字以外の図形とが混在して書き
込まれている紙面には、帳票、図面、地図、文献紙面、
書籍といった印刷物から、手で書かれたメモに至るまで
様々なものがある。これら紙面に書かれた内容を自動認
識する技術において、図形領域と文字領域とを分離する
技術は不可欠のものである。

【０００３】従来の文字領域の切り出し手法では、文字
のサイズが一般に文字以外の図形に比べて小さいことに
着目し、図形的に連結した領域の大きさを計測し、既知
である文字サイズとを比較することにより文字領域を抽
出していた。しかしこの方法では、文字が文字以外の図
形と接触していた場合、正しく文字領域を抽出すること
ができなかった。

【０００４】また、これを解決するための手法も提案さ
れている。この手法では、文字以外の図形と接触してい
る文字とを分離するために、接触している背景図形に、
円や直線などの幾何学的な形状を仮定し、紙面内に書か
れている図形から仮定した形状を抽出した後、抽出され
なかった残りの図形を文字であるとしていた。その際、
文字候補として抽出した図形の中に非文字図形が含まれ
ることがあるが、このような場合、大きさや他の文字候
補図形との位置関係といった幾何学的な特徴を元にし
て、それら非文字図形を文字候補から省く処理を行って
いるだけであった。したがって、文字と背景図形の幾何
学的な特徴が類似している場合、文字列抽出を精度良く
行うことはできなかった。

【０００５】ところで、篇と旁に分割されている漢字、
かすれている文字など近傍にある図形を連結することで
一文字となる図形が多くある。さらに、文字と文字は、
互いに連結することで初めて文字列となる。これら図形
どうしの連結をする際、どの程度の範囲にある図形まで
を連結するか、その連結範囲を定めなくてはならない。
連結範囲は、文字の大きさや文字間隔に依存するため、
同一紙面内に異なる大きさの文字や文字列が混在してい
るときは、紙面の場所ごとに連結範囲を適切に定める必
要がある。従来の文字領域抽出では、この範囲の広さを
あらかじめ定めておく必要があった。また、文字の記載
される位置が未知の場合には、連結範囲は紙面全体に対
して同一の値を用いていた。このため、紙面毎に文字の
大きさや文字間隔が異なるときには紙面毎にこの値を変
更しなくてはならなかった。また、同一紙面内に異なる
大きさの文字や異なる文字間隔の文字列が混在している
ときは、対処できなかった。

【０００６】また、従来技術の多くは、この文字列の方
向を水平もしくは垂直と仮定したり、文字列の近くに文
字列の方向となる目安となる印、例えば文字列と平行に
記載された長い線分などの存在を仮定したりすることを
必要とし、任意の位置に任意の方向を向いて文字列が記
載された一般の紙面から精度良く文字列を抽出すること
は困難であった。

【０００７】また、文字の大きさ、文字間隔、文字列の
方向が未知のとき、図形の密集している領域で文字列を
作成することはことさら困難であった。特に、文字候補
図形の中に非文字図形が多数含まれているときには、ど
の図形を文字扱いして文字列に組み込むべきかを判断
し、文字の大きさを指定し、さらに文字列の方向を推定
しつつ文字列を抽出しなくてはならなかったため、精度
良く文字列を抽出することが困難な上に時間がかかって
いた。

【０００８】

【発明が解決しようとする課題】従来の文字列領域抽出
装置および方法では、背景の図形と接触している文字領
域を抽出するのに、背景図形の幾何学的な形状を仮定し
ていたため、背景図形の形状を仮定することが困難な状
況では、精度の良い文字領域抽出が行えなかった。特
に、文字候補として抽出した図形の中に非文字図形が含
まれていたとき、その図形が実際に文字図形かどうかの
判断の基準が幾何学的な特徴に限られていたので、周囲
の文字と似た大きさの背景図形などによって、文字列抽
出を精度良く行うことができなかった。

【０００９】また、従来の文字列領域抽出装置および方
法では、かすれた文字や篇と旁に別れた漢字などいくつ
かの図形を連結して一つの文字候補を作成するとき、も
しくは文字候補をいくつか連結して文字列候補を作成す
るとき、どの程度の範囲にある図形どうしを連結するか
を定めなくてはならない。従来の技術では、この値をあ
らかじめ定めていて、さらに紙面全体に対して同一の値
を問っていた。このため、紙面毎に文字の大きさや文字
間隔が異なるときには紙面毎にこの値を変更しなくては
ならなかった。また、同一紙面内に異なる大きさの文字
や異なる文字間隔の文字列が混在しているときは、対処
できなかった。

【００１０】また、従来技術の多くは、文字列の方向を
水平もしくは垂直に読み取れることを前提としており、
任意の位置に任意の方向を向いて文字列が記載された一
般の紙面から精度良く文字列を抽出することは困難であ
った。

【００１１】また、文字の大きさ、文字間隔、文字列の
方向が未知のとき、図形の密集している領域、特に文字
候補図形の中に非文字図形が多数含まれている領域で文
字列を作成することはことさら困難であった。

【００１２】本発明は、上記事情に鑑みてなされたもの
であり、文字以外の図形に関する厳密な知識を必要とせ
ずに、文字の大きさや記載される位置、文字間隔、文字
列の方向などが面内で任意に書かれた紙面から文字列を
精度良く抽出するための文字列領域抽出装置および方法
を提供することを目的とする。

【００１３】

【課題を解決するための手段】本発明に係る文字列領域
抽出装置は、文字と文字以外の図形の混在した入力画像
情報からプリミティブを抽出するプリミティブ抽出手段
と、抽出されたプリミティブを元に文字列候補領域を生
成する文字列候補領域生成手段と、生成された文字列候
補領域を文字認識する文字認識手段と、この文字認識手
段による文字認識の結果に基づき前記文字列候補領域が
文字列領域であるか否かを判断する文字列性判断手段と
を具備してなることを特徴とする。

【００１４】好ましくは、前記文字列候補領域生成手段
は、文字以外の図形の形状に関する知識が与えられた場
合、文字以外の図形を抽出し、抽出されなかった残りの
図形を文字候補領域とし、文字以外の図形に関する知識
がない場合、前記プリミティブの分布の複雑な領域を文
字候補領域とし、所定の条件に従って１つまたは複数の
文字候補領域を結合して文字列候補領域を生成すること
を特徴とする。

【００１５】また、好ましくは、前記文字列候補領域生
成手段は、所定の条件に従って前記プリミティブを元に
文字候補領域を生成する手段と、前記文字列候補領域の
生成に用いる前記文字候補領域の連結範囲の条件を変化
させて複数の文字列候補領域を抽出する手段と、該連結
範囲の条件の変化に対する該文字列候補領域の形状の変
化から得られる情報を基に有効な連結範囲の条件を決定
する手段と、該有効な連結範囲の条件に従って前記文字
候補領域から生成された文字列候補領域を出力する手段
とを有することを特徴とする。

【００１６】また、好ましくは、前記文字列性判断手段
による判断の結果に基づき前記文字列候補領域の統合ま
たは分割の少なくとも一方を行って新たな文字列候補領
域を生成する文字列候補領域再構成手段とをさらに具備
してなることを特徴とする。

【００１７】さらに、好ましくは、前記文字列候補領域
再構成手段は、文字列領域ではないと判断された文字列
候補領域を複数の文字列候補領域に分割した後、前記文
字認識手段に与える手段と、文字列領域であると判断さ
れた１つの文字列候補領域から抽出された文字配列方向
に関する情報に基づき該１つの文字列候補領域に他の文
字列候補領域を結合した後、前記文字認識手段に与える
手段とのうちの少なくとも一方を含むことを特徴とす
る。

【００１８】また、本発明に係る文字列領域抽出方法
は、入力画像情報からプリミティブを抽出し、抽出され
たプリミティブを元に文字列候補領域を生成し、生成さ
れた文字列候補領域を文字認識し、この文字認識手段に
よる文字認識の結果に基づき前記文字列候補領域が文字
列領域であるか否かを判断することを特徴とする。

【００１９】好ましくは、前記文字列候補領域の生成で
は、文字以外の図形の形状に関する知識が与えられた場
合、文字以外の図形を抽出し、抽出されなかった残りの
図形を文字候補領域とし、文字以外の図形に関する知識
がない場合、前記プリミティブの分布の複雑な領域を文
字候補領域とした後、所定の条件に従って１つまたは複
数の文字候補領域を結合して文字列候補領域を生成する
ことを特徴とする。

【００２０】また、好ましくは、前記文字列候補領域生
成手段は、所定の条件に従って前記プリミティブを元に
文字候補領域を生成し、前記文字列候補領域の生成に用
いる前記文字候補領域の連結範囲の条件を変化させて複
数の文字列候補領域を抽出し、該連結範囲の条件の変化
に対する該文字列候補領域の形状の変化から得られる情
報を基に有効な連結範囲の条件を決定し、該有効な連結
範囲の条件に従って前記文字候補領域から生成された文
字列候補領域を出力することを特徴とする。

【００２１】また、好ましくは、前記文字列候補領域が
文字列領域であるか否かの判断の結果、文字列領域では
ないと判断された文字列候補領域を複数の文字列候補領
域に分割する処理と、文字列領域であると判断された１
つの文字列候補領域から抽出された文字配列方向に関す
る情報に基づき該１つの文字列候補領域に他の文字列候
補領域を結合する処理の少なくとも一方を行い、この分
割された文字列候補領域または結合された文字列候補領
域を再度文字認識して文字列領域であるか否かを判断す
ることを特徴とする。

【００２２】

【作用】本発明による文字領域抽出装置および方法は、
文字認識によって文字図形と非文字図形との判断を行う
ため、非文字図形を文字列として扱う誤りを犯しにく
く、高い精度で文字列領域を抽出することができる。ま
た、文字図形の複雑さを用いて文字候補領域の抽出を行
うことにより、背景図形の形状に関する知識がないとき
でも、文字候補領域を精度良く抽出することができる。

【００２３】また、文字列候補領域を生成する際、プリ
ミティブを元にした文字候補の連結範囲の変化に対する
連結関係の変化から得られる情報を元に連結範囲を決定
することにより、以下のような作用が得られる。文字候
補図形が一様に分布しているときは、連結範囲を広げる
に従い連結関係も一様に変化し、一方文字候補図形が局
在しているときは、連結範囲を広げても連結関係は一様
には変化しない。このことを用いると、例えば篇と旁と
に分離している漢字のように、いくつかの接近した図形
を連結した領域が他の図形から孤立するようなとき、篇
と旁とは連結するが、他の図形とは連結しないような連
結範囲の広さを導き出すことができる。しかも、このよ
うな他の図形から孤立するような連結範囲の広さを、文
字候補図形毎に定めることができる。また、文字候補領
域毎に、周囲の図形との連結領域の範囲の広さを定める
ことになるため、同一図面内の異なる大きさの文字や異
なる文字間隔の文字列が混在していても、それぞれの文
字に即した連結範囲の広さで周囲の図形を連結して文字
列候補領域を生成することができる。他の図形から孤立
している文字列は、この処理の段階で文字列として抽出
ができる。

【００２４】また、連結された図形の形状や、文字認識
の結果から文字列ではないと判断された図形は、文字候
補図形の分布の安定性を考慮しつつ分割し、文字である
と判断されるか分割が不可能になるまで、形状と文字認
識による文字かどうかの判断を繰り返す。一般に文字候
補図形の密集している領域には、非文字図形が多く含ま
れている。このような領域から、文字の大きさや文字列
の方向が未知のときに、文字列を作成することは従来技
術では困難であった。しかし、本発明によれば、非文字
図形と文字図形とが誤って同一文字列に連結されても、
文字認識により非文字図形と判断され、各要素に分割さ
れるため、最終的には文字毎の抽出が行われることにな
る。文字領域が定まれば、文字の大きさ、文字列の方向
などを推定できるため、その文字を含む文字列の構成が
用意になる。このことを利用して、文字列領域の再構成
を行い、文字候補図形の密集した領域でも精度良く文字
列抽出ができる。

【００２５】

【実施例】以下、図面を参照しながら実施例を説明す
る。図１は、本発明の一実施例に係る文字領域抽出装置
を示す機能ブロック図である。図１のように、本実施例
の文字領域抽出装置は、入力部１、前処理部２、文字列
候補領域抽出部３、文字列候補領域情報抽出部４、文字
列候補領域統合／分割部５、文字列判断部６、文字認識
部７を用いて構成される。

【００２６】各ブロックの主な機能を以下に示す。入力
部１は、紙面に記載されている文字や図形を２値の画像
として取り込む。入力部１には、紙面上の画像を光学像
として取り込み電気信号に変換する装置、例えばイメー
ジスキャナを用いることができる。

【００２７】前処理部２は、取り込まれた画像から線分
等のプリミティブを抽出する。文字列候補領域抽出部３
は、抽出されたプリミティブのうち適切なものどうしを
結合して文字候補領域を生成し、さらに１つまたは複数
の文字候補領域からなる文字列候補領域を生成する。

【００２８】文字列候補領域情報抽出部４は、文字列候
補領域の紙面上での分布や、後述する文字認識の結果を
用いて、文字列の方向や大きさや文字間隔等の文字列情
報を抽出する。

【００２９】文字列候補領域統合／分割部５は、上記文
字列情報を利用した文字列候補領域の統合分割を行い、
より適切な文字列候補領域を生成する。文字列判断部６
は、生成された文字列候補領域が文字列であるかどうか
を判断する。この判断には、文字列候補領域の形状等の
他に文字認識部７を併用する。最終的に文字であると判
断されたものを、例えば文字コードとして出力する。

【００３０】出力された文字コード等は、ＲＡＭもしく
はハードディスクなどの記憶装置に格納され、あるいは
ＣＲＴなどの表示装置に表示される。その際、文字コー
ドと該文字の紙面上の座標や該文字の大きさ、向きなど
の属性情報を組にして記憶しても良い。なお、属性情報
は図示しない公知の手段により容易に得ることができ
る。

【００３１】図２は、本実施例の文字領域抽出装置を実
現するためのハードウェア構成の一例であり、文字領域
抽出処理を処理プロセッサにより実現した例である。図
２の構成では、装置全体の制御を処理プロセッサ１１が
行う。入力したい紙面はイメージスキャナ１２を用いて
２値画像として入力され、スキャナインタフェース１３
を介し、画像メモリコントローラ１４の制御により画像
バス１９を経由して画像メモリ１５に格納される。画像
メモリ１５のアドレス制御は、アドレスコントローラ１
６が行う。あらかじめメモリ１７に格納された文字領域
抽出プログラムにより、処理プロセッサ１１において、
文字領域抽出処理を行う。処理結果である文字コード等
は一旦メモリ１７に格納され、必要に応じてハードディ
スクなどの記憶装置やＣＲＴなどの表示装置（図示せ
ず）に与えられる。なお、ハードディスクなどの記憶装
置やＣＲＴなどの表示装置は、システムバス１８に接続
される。

【００３２】図２の構成の代わりに、本実施例の文字領
域抽出装置は、すべてハードウェア化しても良い。ま
た、図１の機能ブロックのうち所望のものだけハードウ
ェア化し、残りの機能ブロックはソフトウェアにより実
現しても良い。

【００３３】図３は、本実施例の文字領域抽出装置によ
る文字領域抽出処理の概要を示すフローチャートであ
る。最初に、文字領域抽出処理の概略を説明する。ま
ず、ステップＳ２０にて、紙面に記載されている文字や
図形が２値の画像として取り込まれる。

【００３４】次に、ステップＳ２１にて、前処理が行わ
れる。この処理では、取り込まれた画像に対し、文字候
補領域の抽出に必要な前処理が行われ、プリミティブが
抽出される。

【００３５】次に、ステップＳ２２にて、文字候補領域
抽出処理が行われる。この処理では、文字領域を背景図
形と比較して形状が複雑な領域もしくは背景図形と比較
して小さい連結領域であるとみなし、そのような領域を
文字候補領域として抽出する。これにより、背景図形の
形状に関する仮定が立てられないときでも、背景図形と
接触している文字領域も含めて抽出できる。

【００３６】次に、ステップＳ２３にて、文字列候補領
域作成処理が行われる。上記のように文字候補や文字列
候補を作成するために分離した図形どうしを連結する必
要がある。そこで、この処理では、連結の範囲を図形毎
に適切な広さに定めるために、まず、文字列候補図形の
分布情報を得る。分布情報を得るために、文字候補図形
を様々な連結範囲により連結し、連結範囲の変化に対す
る文字候補図形どうしの連結関係の変化を捉える。連結
関係の変化は、木構造により記述する。そして、この木
構造をもとに、連結範囲の変化に対して安定な連結関係
を各々の文字候補領域について求める。

【００３７】次に、ステップＳ２４にて、文字列抽出処
理が行われる。複雑さと大きさだけを基準とすると、文
字候補領域に背景図形が多く含まれることになる。そこ
で、この処理では、得られた文字列候補領域に対して文
字認識処理を行い、文字として認識できるかどうかによ
って文字候補領域を文字領域と非文字領域とに分ける。
また、連結された図形の形状や文字認識の結果から非文
字であると判断された図形は、より狭い連結範囲による
文字列候補領域へと分解される。分割の際、連結関係の
木構造を参照しつつ、できるだけ安定な連結関係となる
ように連結範囲を定める。この操作により新たに生じた
文字列候補領域も、文字認識によって、文字図形か非文
字図形かを判断される。文字認識と分割の処理は、文字
図形であると判断されるか、分割が不可能になるまで繰
り返される。

【００３８】そして、ステップＳ２５にて、文字列領域
再構成処理が行われる。文字認識の結果、文字領域であ
ると判断された図形によって、その文字領域を構成する
文字の大きさと文字列の方向を推定することができる。
この処理では、これら文字の大きさや文字列の方向を参
照することによって、文字列領域の再構成を行う。

【００３９】次に、本実施例の文字領域抽出処理をより
詳細に説明する。まず、上記のようにステップＳ２０に
て入力部１から紙面に記載されている文字や図形が２値
の画像として取り込まれた後、ステップＳ２１にて、入
力画像に対して文字候補領域の抽出に必要な前処理が前
処理部２により行われ、プリミティブが抽出される。本
実施例では、前処理としては、細線化とその折れ線近似
（以下、細線線分）、輪郭線追跡とその折れ線近似（以
下、輪郭線分）、細線線分と輪郭線分との対応付けが行
われる。これらの処理は、例えば、“A high speedrast
er to bector conversion using special hardware for
contour tracking” (IAPR workshop on CV - Special
hardware and industrial application, 1988, pp.18-
23)や“Pattern classificasion and scene analysis
” (A Wiley-interscince Publication.pp.338-339)
なる文献に紹介されるような手法を用いることにより実
行される。

【００４０】次に、ステップＳ２２において、文字列候
補領域抽出部３により、紙面上から文字と思われる図形
（以下、文字候補図形）が抽出される。この処理では、
文字以外の背景図形の形状に関する知識があれば、背景
図形を抽出し、抽出されなかった図形が文字候補図形と
なる。背景図形に関する知識がなければ、線図形の分布
の複雑な領域を文字候補領域とする。複雑さの目安に
は、例えば、輪郭線の形状の複雑さ、図形を構成する線
分の短さなどを用いる。抽出された領域は、後に文字認
識する際のベースラインを得るためにも長方形で囲む。
長方形の長辺の向きは、図形の傾きを考慮して定める。
図形の傾きは、例えば、図形の２次モーメントを用いた
り、輪郭線上の２点のうち最も離れている２点を用いる
などして求める。

【００４１】図４に、文字候補領域の抽出処理の一例を
示す。この処理では、短い曲線図形を構成する線分で、
なおかつ複雑な形状をもつ輪郭線に対応する線分を、文
字の構成要素として抽出する。

【００４２】短い曲線図形を構成する線分は、細線線分
のうち、あらかじめ定められたしきい値より短い線分を
抽出する。選択された線分列を構成する線分のそれぞれ
に１のフラグを立てておく（ステップＳ３０）。複雑な
形状をもつ輪郭線図形に対応する線分は、輪郭線分を参
照し、あらかじめ定められたしきい値より短い輪郭線分
にのみ対応する細線線分を抽出する（ステップＳ３
１）。抽出された線分のうち、すでに１のフラグが立っ
ている線分が候補線分である。

【００４３】次に、文字候補線分のうち、図形的に連結
しているものどうしを統合し、文字候補領域を作成する
（ステップＳ３２）。それぞれが文字候補図形の凸閉包
の周の２次モーメントから、文字図形の傾きを求める。
求めた傾きと平行な辺をもち文字候補図形を内に含むこ
とのできる最小の矩形を求め、文字候補図形の領域とす
る（ステップＳ３３）。

【００４４】後述するように、本実施例では、文字列を
抽出する際に文字認識を併用するので、文字候補図形の
中に文字以外の図形が多く含まれていても、文字列を正
確に抽出することができる。

【００４５】次に、図３のステップＳ２３において、文
字列候補領域抽出部３は、近傍にある文字候補領域どう
しを結合して文字列候補を作成する。図５には、文字列
候補領域の作成フローチャートを示す。まず、文字候補
図形を連結する際、どの程度近くにある文字候補図形ま
でを連結するか、その対象となる範囲を定める（ステッ
プＳ４０）。以下、この範囲の広さのことを、スケール
と呼ぶ。

【００４６】スケールの決定方法の一例を、図６のフロ
ーチャートを用いて説明する。本実施例では、各文字候
補図形の矩形領域を拡大し、拡大した矩形どうし接触す
る文字候補図形を連結する。この拡大の倍率が、上記の
スケールに相当する。

【００４７】スケールの刻み幅Δｓと最大値Ｓをあらか
じめ定めておき、１．０からＳまでΔｓ刻みでスケール
を変化させて文字候補図形を連結する。スケールが大き
くなるに従って、より広い範囲の文字候補図形が連結さ
れる（ステップＳ５０）。

【００４８】連結図形の形状は、連結された図形をすべ
て内に含む矩形により代表される。矩形の傾きは、連結
要素となった各文字候補図形の中心点をすべて含む凸閉
包の２次モーメントにより求める（ステップＳ５１）。

【００４９】次に、スケールの変化による連結関係の変
化を、木構造により表現する（ステップＳ５２）。木構
造の作成は、文字列候補領域情報抽出部４を利用して行
われる。

【００５０】図７には、スケールの変化による文字候補
図形の連結の変化の様子を示す。「イ」，「木」，
「み」，「３」，「４」を含む文字候補領域ｒ１〜ｒ５
が、スケールの拡大にともなって連結され、連結領域ｒ
１１，ｒ２１，ｒ１０１，ｒ１００１が生成されていく
のが分かる。図８（ａ）には、図７に示した文字候補図
形のスケール変化に対する矩形の変化を表した木構造を
に示す。図形ａ，ｂ，ｃ，ｄ，ｅは夫々、図７の休みの
「イ」，図７の休みの「木」，「み」，「３」，「４」
と対応している。木構造において枝の長さは、連結図形
の形状が変化しなかったスケールの変化量に相当する。
すなわち、枝が長い部分は、周囲の文字候補図形から孤
立している状態に対応している。

【００５１】次に、孤立した状態を一纏まりとして抽出
し、文字列候補領域を作成するために、スケールの変化
に対して安定な図形を抽出する。長い枝の探索は、再帰
的に行われる（ステップＳ５３）。

【００５２】例えば、図８では、９本の枝があるが、枝
８が最も長いので、枝８に対応する図形、すなわち図形
ｄと図形ｅとが連結したものが安定した図形である。残
る図形ａ，図形ｂ，図形ｃに対応する枝を図８（ｂ）に
示す。このうち最も長いのは枝５なので、この枝５に対
応する図形、すなわち図形ａ，図形ｂ，図形ｃが連結し
たものをもう一つの安定図形とみなす。

【００５３】この処理によれば、どの文字候補図形も必
ずいずれかの安定図形に含まれる。このようにして、各
文字候補を連結する際のスケールが、文字候補図形ごと
に選択される。

【００５４】ところで、スケールの変化に対して安定し
ている図形が必ずしも文字列であるとは限らない。そこ
で、文字列判断部８により文字列らしさを判断する。そ
の形状から明らかに文字列でないと判断（図５のステッ
プＳ４１）できる安定図形は、現在のスケールより小さ
なスケールの中で最も安定なスケールを連結関係の木構
造を参照して各文字候補領域毎に求め（ステップＳ４
２）、そのスケールによる連結関係に分割する（ステッ
プＳ４３）。

【００５５】形状の文字列らしさは、例えば、構成要素
が直線状に並んでいるかどうか、構成要素の高さが揃っ
ているかどうか、構成要素が等間隔に並んでいるかどう
か、構成要素の間隔が十分狭いかどうか、構成要素の面
積が揃っているかどうか、構成要素の傾きが揃っている
かどうか、構成要素の幅が揃っているかどうか、などと
いった条件の組合わせにより判断できる。本実施例にお
いては、文字列らしさの判断を、構成要素の並び方が直
線状かどうかと、構成要素の高さが揃っているかどうか
の二項目により行う。直線状かどうかは、各要素の中心
点の配置の偏平度により、高さが揃ってるかどうかは、
中心点の並ぶ方向に直交する直線への各要素の正射影を
比較することにより判断する。この処理は、文字列候補
領域情報抽出部４を利用して行われる。

【００５６】図９に、文字列らしさの判断法の一例を示
す。ｃ１は構成要素を、ｃ２は構成要素の中心を夫々表
す。中心点の配置の偏平度は、全中心点の凸閉包の周の
長さＬ，面積Ｓを用いて、Ｓ／（Ｌ＾２）により評価し
た。この値があらかじめ定めたしきい値より小さいと
き、その安定図形の構成要素は十分直線状に配置してい
ると判断する。図９（ａ）では凸閉包が十分偏平な例、
（ｂ）は偏平ではない例を示している。また、高さが揃
っているかどうかは、領域の傾きに直交する直線に各要
素を射影し、射影された領域の上端，下端のずれがあら
かじめ定めたしきい値より小さいとき、十分高さが揃っ
ていると判断する。図９（ｃ）は高さの揃っている例、
（ｄ）は揃っていない例を示している。直線状であり、
かつ高さも揃っていると判断された安定図形を文字列候
補図形とする（図５のステップＳ４４）。

【００５７】文字候補図形が他の文字候補図形と連結さ
れることなく一つだけのときは、必ず文字列らしいと判
断されるので、分割の操作は必ず有限回で終わる。文字
列らしいと判断されなかったときの分割は、図８に示し
た木構造を元に、より小さなスケールの枝の中で安定な
枝を探すことにより行われる。最終的に、文字候補領域
は、必ずいずれかの文字列候補領域に含まれる。

【００５８】次に、図３のステップＳ２４では、作成さ
れた文字列候補領域が文字認識部７に渡され、文字列か
否かの判断が行われる。文字認識部７では、文字列候補
領域内に含まれる図形のうち、文字候補図形のみを認識
の対象とする。

【００５９】図１０に文字認識による文字列領域の作成
の手順を示す。文字の記載されている方向が未知のとき
は、文字候補図形を囲む矩形の各辺をベースラインとし
て、あらゆる方向から読む（ステップＳ９０）。ある程
度、文字の記載されている方向が既知であるなら、その
知識に基づき読む方向を限定する。複数の方向から文字
認識をする際は、各々の方向での文字との類似度を記憶
しておき、最大の類似度を与える方向をもってベースラ
インとみなし、最大類似度をその文字候補の最終類似度
とみなす（ステップＳ９１）。最終類似度があらかじめ
定めたしきい値より大きければ文字、小さければ非文字
と判断する（ステップＳ９２）。非文字列と判断された
文字列候補領域は、図８の木構造を参照して現在より小
さなスケールで安定なスケールを各文字候補領域毎に求
め（ステップＳ９３）、求めたスケールによる連結関係
に分割し、再度、文字認識部７に渡される（ステップＳ
９５）。文字列であると判断されるか分割が不可能にな
るかまで、分割は繰り返される。なお、図１０のステッ
プＳ９３，ステップＳ９５は、それぞれ図５のステップ
Ｓ４２，ステップＳ４３と同様の操作である。

【００６０】次に、図３のステップＳ２５の文字領域再
構成処理を説明する。この処理は、主に文字列候補領域
統合／分割部５により行われる。さて、ステップＳ２０
からステップＳ２４までの処理を経て文字図形であると
判断された文字列領域は、文字候補図形がまばらな領域
では文字列単位で、文字図形と非文字図形とが混在し密
集している領域では文字単位で抽出されることが多い。
このうち文字単位に抽出された領域は、周囲の文字候補
図形を連結することにより、文字列に再構成する必要が
ある。文字認識の結果、文字扱いされた図形を参照する
ことにより、文字の大きさや文字列の方向を推定するこ
とができる。図１１および図１２に、文字領域を各とし
て文字列を再構成する手法を示す。なお、文字列の方向
や大きさを抽出する処理は、文字列候補領域情報抽出部
４を利用して行われる。

【００６１】まず、対象とする文字列領域を選ぶ（ステ
ップＳ１００）。文字認識結果からベースラインが定ま
るので、このベースラインをもとに文字列の方向をある
程度定めることができ、注目している文字候補図形の隣
の文字候補図形を探す際の探索範囲を限定することがで
きる（ステップＳ１０１）。

【００６２】本実施例における探索範囲の定め方を図１
３に示す。文字認識結果から注目している文字図形の文
字数が分かる。ベースラインの長さを文字数で割ること
により、一文字あたりのベースラインの長さＬ１を求め
ることができる。ベースラインの延長線上にＬ１×ｎの
長さを底辺にもち高さが文字列領域と等しい矩形を想定
し、この想定した矩形を探索範囲とする（図１３
（ａ））。ただし、ｎはあらかじめ定めたパラメータで
非負の実数である。

【００６３】次に、探索範囲と接触している文字候補図
形から注目すべきものを選ぶ（ステップＳ１０２）。こ
の文字候補図形に対して、注目している文字列と連結可
能かの判断をする（ステップＳ１０３）。連結可能かど
うかの判断には、連結しても形状としての文字列らしさ
を失わないかどうかを調べ、文字列らしさを打ちなわな
いと判断されたときに連結可能とする（ステップＳ１０
４）。文字列らしさの判断は、図５のステップＳ４１と
同様の手法でよい。連結可能かどうかの判断を、探索範
囲と接触している文字候補図形の全てに対して行う（ス
テップＳ１０６）。

【００６４】もしステップＳ１０６の段階で連結可能な
文字候補図形が見つかれば（ステップＳ１０７でＹｅｓ
の場合）、その中で注目している文字列に最も距離の近
いものを選択する。本実施例では、矩形間の距離を各図
形の中心点間の距離とする（ステップＳ１０８）。文字
候補図形を連結したら、連結された図形を同一の矩形で
囲む（図１３（ｂ））（ステップＳ１１０）。連結され
た文字候補図形を文字認識部７に渡し、文字列かどうか
を判断する（ステップＳ１１１，Ｓ１１２）。

【００６５】文字認識の結果、文字列であると判断され
たら、連結後に作成した矩形をもって文字領域とみなす
（ステップＳ１１４）。そして、図１３（ｃ）のように
新たなベースラインを元に文字探索範囲を作成し直し
（ステップＳ１１５）、ステップＳ１０２に戻って、連
結可能な図形を探す。

【００６６】文字認識の結果、文字列ではないと判断さ
れたら、連結した各要素に分解し連結前の状態に戻す
（ステップＳ１１３）。そして、他に連結して文字列領
域であるとみなせる文字候補図形が存在すれば（ステッ
プＳ１１６でＹｅｓの場合）、ステップＳ１０８に戻り
次に距離の近い文字候補図形を選択し以降の処理を繰り
返す。存在しなければ（ステップＳ１１６でＮｏの場
合）、処理を終了する。

【００６７】なお、上記の矩形の作成法は図６のステッ
プＳ５１と同様とし、文字列かどうかの判断は、図１０
のステップＳ９２と同様とする。一方、ステップＳ１０
６の段階で連結可能な文字列候補図形がなければ（ステ
ップＳ１０７でＮｏの場合）、探索範囲に含まれる文字
候補図形を後述するようにして成形し、再度連結可能か
どうかを判断し、連結可能な文字が見つかれば連結する
（ステップＳ１０９）。そして、連結できる文字が見つ
かった場合（ステップＳ１１７でＹｅｓの場合）、ステ
ップＳ１１５からステップＳ１０２に戻り処理を繰り返
す。見つからなかった場合（ステップＳ１１７でＮｏの
場合）、処理を終了する。

【００６８】ここで、図１４に、ステップＳ１０９の文
字候補図形を成形する手法を示す。なお、文字候補図形
を成形する処理は、文字列候補領域抽出部３を利用して
行われる。背景と滑らかに接続しているため文字の一部
が背景図形扱いされて掛けている文字図形、もしくは接
触している背景図形を図形の一部として含んでいる文字
図形を、ここでの操作により正しい文字図形に成形す
る。例えば、図１５（ａ）に示した文字候補図形は、背
景と滑らかに接続しているために文字“２”の一部が欠
けており、さらに底辺の部分に余分な線分が連結されて
いる。これを、図１５（ｅ）のように正しい文字図形で
ある“２”に成形する。

【００６９】この処理では、まず、注目する文字列を選
択し（ステップＳ１１９）、探索範囲にある文字候補図
形を対象とする（ステップＳ１２０）。注目している文
字列のベースラインと文字の高さから、隣の文字が納ま
るであろう領域を文字候補成形領域として作成する（ス
テップＳ１２２）。本実施例では、注目している文字列
のベースラインの延長線上に一文字分のベースラインの
長さの底辺をもち、高さがその文字列に等しい矩形を文
字候補成形領域とする（図１５（ｂ））。文字候補図形
を構成している細線線分のうち文字候補成形領域からは
み出している細線線分を文字候補図形から除去する（ス
テップＳ１２３）。図１５（ｃ）では、点線に示した細
線線分が、成形領域からはみ出していたため、消去され
る。次に、その文字候補図形に接している非文字図形を
接触背景図形として探す。そして、接触背景図形を構成
する細線線分のうち、文字候補成形領域に含まれている
細線線分を曖昧線分として抽出する。図１５（ｄ）で
は、一本の曖昧線分が抽出される（ステップＳ１２
４）。抽出された曖昧線分をＮ本とするとき、曖昧線分
の全部を文字候補図形に組み込まないとき、任意の１本
だけを組み込むとき、任意の２本を組み込むとき、と組
み込む本数を０本から次第に増やして行き、Ｎ本全てを
組み込むまであらゆる組合せで曖昧線分を文字候補図形
に組み込む（ステップＳ１２５）。組合せを変更する度
に、注目している文字列と連結しても形状の文字列らし
さを失わないかどうか判断する（ステップＳ１２６）。
この判断は、図５のステップＳ４１と同様である。文字
列らしさを失わないと判断されたら、文字認識にかけ
（ステップＳ１２７）、類似度から文字列かどうかを判
断する（ステップＳ１２８）。文字列であると判断され
たら連結する（ステップＳ１２９）。図１５（ｅ）で
は、曖昧線分が文字候補図形に組み込まれたときに
「２」として認識されることになる。

【００７０】文字列であると判断されなければ、まだ試
していない曖昧線分の組合せがあれば、それを試す。な
ければ、探索範囲にある他の文字候補図形に対して成形
を試みる。全ての文字候補図形に対して成形を試みて、
連結可能なものがなければ終了する。なお、文字列かど
うかの判断は、図１０のステップＳ９２と同様である。
以上のようにして紙面上に記載された様々な図形のう
ち文字列であると判断された図形は、例えばコード化さ
れて文字判断部６から出力される。

【００７１】以上のように本実施例によれば、文字図形
の複雑さを用いて文字候補領域の抽出を行うため、背景
図形の形状に関する知識がないときでも、文字候補領域
を抽出することができる。しかも、文字認識によって文
字図形と非文字図形との判断を行うため、非文字図形を
文字列として扱う誤認を犯しにくい。

【００７２】本実施例で用いる文字候補図形の分布情報
を記述している木構造は、連結範囲の変化に対する連結
関係の変化を表現している。文字候補図形が一様に分布
しているときは、連結範囲を広げるに従い連結関係も一
様に変化し、一方文字候補図形が局在しているときは、
連結範囲を広げても連結関係は一様には変化しない。こ
の点を利用することで、例えば篇と旁とに分離している
漢字のように、いくつかの接近した図形を連結した領域
が他の図形から孤立するようなとき、篇と旁とは連結す
るが、他の図形とは連結しないような連結範囲の広さを
導き出すことができる。しかも、このような他の図形か
ら孤立するような連結範囲の広さを、文字候補図形毎に
定めることができる。

【００７３】また、本実施例では、文字候補図形毎に周
囲の図形との連結領域の範囲の広さを定めるため、同一
紙面内に異なる大きさの文字や異なる文字間隔の文字列
が混在していても、それぞれの文字に即した連結範囲の
広さで周囲の図形を連結することができる。他の図形か
ら孤立している文字列は、この処理の段階で文字列とし
て抽出ができる。

【００７４】また、本実施例では、連結された図形の形
状や、文字認識の結果から文字列ではないと判断された
図形は、文字候補図形の分布の安定性を考慮しつつ分割
し、文字であると判断されるか分割が不可能になるま
で、形状と文字認識による文字かどうかの判断を繰り返
す。一般に、文字候補図形の密集している領域には、非
文字図形が多く含まれており、文字の大きさや文字列の
方向が未知のときにこのような領域から文字列を作成す
ることは従来は困難であったが、本実施例によれば、非
文字図形と文字図形とが誤って同一文字列に連結されて
も、文字認識により非文字図形と判断され、各要素に分
割されるため、最終的には文字毎の抽出が行われること
になる。文字領域が定まれば、文字の大きさ、文字列の
方向などを推定できるため、その文字を含む文字列の構
成が容易になる。このことを利用して、文字列領域の再
構成を行い、文字候補図形の密集した領域でも精度良く
文字列抽出ができる。また、本発明は上述した各実施例
に限定されるものではなく、その要旨を逸脱しない範囲
で、種々変形して実施することができる。

【００７５】

【発明の効果】以上説明したように本発明によれば、紙
面上の画像から抽出された文字候補領域に対して、実際
に文字認識を行い、その認識結果を用いて文字列領域を
決定するようにしたので、従来の辞書パターンを備えさ
えすれば、文字以外の図形に対する厳密な知識を必要と
することなく、精度良く文字列抽出を行うことができ
る。

【００７６】また、文字候補領域どうしを連結する際、
連結する範囲の広さの変化に対する連結関係の変化を参
照することにより、連結範囲を図形の密集の程度により
紙面の場所毎に設定することができる。このため、同一
紙面内に異なる大きさ、異なる方向、異なる文字間隔を
もつ文字列が混在していても文字列抽出を行うことがで
きる。

【００７７】さらに、文字認識の結果、文字であると判
断された図形をもとに文字列を再構成することにより、
図形の密集した領域でも精度良く文字列抽出を行うこと
ができる。

【図面の簡単な説明】

【図１】本発明の一実施例を示す機能ブロック図

【図２】同実施例のハードウェア構成の一例を示す図

【図３】同実施例の全体的な処理の流れを示すフローチ
ャート

【図４】同実施例の文字候補領域抽出処理の流れを示す
フローチャート

【図５】同実施例の文字列候補領域抽出処理の流れを示
すフローチャート

【図６】同実施例の文字候補領域の分布情報を抽出する
処理の流れを示すフローチャート

【図７】連結範囲を変化させたときの文字候補領域の変
化を説明するための図

【図８】文字候補領域の分布情報を表現する木構造を示
す図

【図９】文字候補領域の連結関係の幾何学的な文字列ら
しさの求め方を説明するための図

【図１０】同実施例の文字認識により文字列らしさを評
価する処理の流れを示すフローチャート

【図１１】同実施例の文字列領域再構成の処理の流れを
示すフローチャート

【図１２】同実施例の文字列領域再構成の処理の流れを
示すフローチャート

【図１３】文字候補探索領域による文字列領域再構成の
様子を示す図

【図１４】同実施例の背景図形から文字候補図形を抽出
する処理の流れを示すフローチャート

【図１５】成形領域による細線線分の操作法を説明する
ための図

【符号の説明】

１…入力部、２…前処理部、３…文字列候補領域抽出
部、４…文字列候補領域情報抽出部、５…文字列候補領
域統合／分割部、６…文字列判断部、７…文字認識部、
１１…ＣＰＵ、１２…イメージスキャナ、１３…スキャ
ナインタフェース、１４…メモリコントローラ、１５…
画像メモリ、１６…アドレスコントローラ、１７…メモ
リ、１８…システムバス、１９…画像バス

Claims

【特許請求の範囲】

【請求項１】文字と文字以外の図形の混在した入力画像
情報からプリミティブを抽出するプリミティブ抽出手段
と、抽出されたプリミティブを元に文字列候補領域を生成す
る文字列候補領域生成手段と、生成された文字列候補領域を文字認識する文字認識手段
と、この文字認識手段による文字認識の結果に基づき前記文
字列候補領域が文字列領域であるか否かを判断する文字
列性判断手段とを具備してなることを特徴とする文字列
領域抽出装置。
【請求項２】前記文字列候補領域生成手段は、文字以外
の図形の形状に関する知識が与えられた場合、文字以外
の図形を抽出し、抽出されなかった残りの図形を文字候
補領域とし、文字以外の図形に関する知識がない場合、
前記プリミティブの分布の複雑な領域を文字候補領域と
し、所定の条件に従って１つまたは複数の文字候補領域
を結合して文字列候補領域を生成することを特徴とする
請求項１に記載の文字列領域抽出装置。
【請求項３】前記文字列候補領域生成手段は、所定の条
件に従って前記プリミティブを元に文字候補領域を生成
する手段と、前記文字列候補領域の生成に用いる前記文
字候補領域の連結範囲の条件を変化させて複数の文字列
候補領域を抽出する手段と、該連結範囲の条件の変化に
対する該文字列候補領域の形状の変化から得られる情報
を基に有効な連結範囲の条件を決定する手段と、該有効
な連結範囲の条件に従って前記文字候補領域から生成さ
れた文字列候補領域を出力する手段とを有することを特
徴とする請求項１または２に記載の文字列領域抽出装
置。
【請求項４】前記文字列性判断手段による判断の結果に
基づき前記文字列候補領域の統合または分割の少なくと
も一方を行って新たな文字列候補領域を生成する文字列
候補領域再構成手段とをさらに具備してなることを特徴
とする請求項１ないし３のいずれか１項に記載の文字列
領域抽出装置。
【請求項５】前記文字列候補領域再構成手段は、文字列
領域ではないと判断された文字列候補領域を複数の文字
列候補領域に分割した後、前記文字認識手段に与える手
段と、文字列領域であると判断された１つの文字列候補
領域から抽出された文字配列方向に関する情報に基づき
該１つの文字列候補領域に他の文字列候補領域を結合し
た後、前記文字認識手段に与える手段とのうちの少なく
とも一方を含むことを特徴とする請求項４に記載の文字
列領域抽出装置。
【請求項６】入力画像情報からプリミティブを抽出し、抽出されたプリミティブを元に文字列候補領域を生成
し、生成された文字列候補領域を文字認識し、この文字認識手段による文字認識の結果に基づき前記文
字列候補領域が文字列領域であるか否かを判断すること
を特徴とする文字列領域抽出方法。
【請求項７】前記文字列候補領域の生成では、文字以外
の図形の形状に関する知識が与えられた場合、文字以外
の図形を抽出し、抽出されなかった残りの図形を文字候
補領域とし、文字以外の図形に関する知識がない場合、
前記プリミティブの分布の複雑な領域を文字候補領域と
した後、所定の条件に従って１つまたは複数の文字候補
領域を結合して文字列候補領域を生成することを特徴と
する請求項６に記載の文字列領域抽出方法。
【請求項８】前記文字列候補領域生成手段は、所定の条
件に従って前記プリミティブを元に文字候補領域を生成
し、前記文字列候補領域の生成に用いる前記文字候補領
域の連結範囲の条件を変化させて複数の文字列候補領域
を抽出し、該連結範囲の条件の変化に対する該文字列候
補領域の形状の変化から得られる情報を基に有効な連結
範囲の条件を決定し、該有効な連結範囲の条件に従って
前記文字候補領域から生成された文字列候補領域を出力
することを特徴とする請求項６または７に記載の文字列
領域抽出方法。
【請求項９】前記文字列候補領域が文字列領域であるか
否かの判断の結果、文字列領域ではないと判断された文
字列候補領域を複数の文字列候補領域に分割する処理
と、文字列領域であると判断された１つの文字列候補領
域から抽出された文字配列方向に関する情報に基づき該
１つの文字列候補領域に他の文字列候補領域を結合する
処理の少なくとも一方を行い、この分割された文字列候補領域または結合された文字列
候補領域を再度文字認識して文字列領域であるか否かを
判断することを特徴とする請求項６ないし８のいずれか
１項に記載の文字列領域抽出方法。