JPH09269970A

JPH09269970A - 文字認識方法とその装置

Info

Publication number: JPH09269970A
Application number: JP8079011A
Authority: JP
Inventors: Makoto Takaoka; 真琴高岡
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-04-01
Filing date: 1996-04-01
Publication date: 1997-10-14

Abstract

(57)【要約】【課題】白抜き文字領域を含む文書の文字認識を簡単
な処理構成で、かつ、高信頼度で行うことができる文字
認識方法とその装置を提供する。【解決手段】画像の白抜き文字部を検出して、検出さ
れた白抜き文字部を白黒反転する白抜き文字判別部（１
-５、１-６）と、反転された画像部分について、文字認
識処理を行う文字認識部（１-７）とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字認識方法とそ
の装置、特に、白抜き文字部が含まれている文書であっ
ての文字認識を行う文字認識方法とその装置に関する。

【０００２】

【従来の技術】近年、原稿を光学的に読みとる装置とし
て、スキャナが著しく発達して、画像を読みとる解像度
も２００ＤＰＩ、３００ＤＰＩ、４００ＤＰＩ、６００
ＤＰＩといった高解像度となって、細かな文字の特徴も
判別するのに十分となってきた。このスキャナに文字
認識機能を合わせて製品とする形態が増えてきて、その
文字認識の精度を問われるケースが年々深まってきた。

【０００３】また、スキャナ単体とコンピュータの組み
合わせによる文字認識の現実に限らず、デジタル複写機
のスキャン機能と文字認識機能を持たせたり、ＦＡＸＯ
ＣＲといったＦＡＸに文字認識機能を持つ製品が開発さ
れるようになってきた。そして、それら装置の画像読取
部を用いて、画像データを得てきた。その画像データに
対して、文字認識処理を行なう場合、文字認識の対象と
している文字は、黒画素で構成されたものに限られてい
た。この理由は、文字とは本来、下地に対して目立つ色
で書かれるのが自然であり、黒で書かれるのが一般的で
あった。

【０００４】また、黒に限らず、緑、赤などの色がつい
ていたとしても、下地に対して、文字部に配色されてい
るものである。

【０００５】

【発明が解決しようとする課題】しかしながら、最近
は、少し他の文より目立たせるため、反転文字いわゆる
白抜き文字が使用されるようになってきた。これは、ワ
ープロ等の文書作成機器には、白抜き文字と言った、い
わゆる飾り文字が簡単に作成できるためである。その反
面、文字認識処理とは、一般文書を対象としており、原
稿中によくある反転文字いわゆる白抜き文字は、文字認
識できないというのが現状であった。

【０００６】電子情報交換が発達した今日ではあるが、
紙による情報交換も減るどころか、増加する一方で、年
々文字認識への期待は大きくなってきている。文書を各
自作成するというＤＴＰの発展、大量の文書を整理した
いというため、電子ファイリングの発展、などに呼応す
るように、紙の情報を再利用したいとする、要望が高ま
り、どのような文書に対しても全て文字認識してほしい
という要求が高まってきている。

【０００７】そのため、全ての文字に対して、認識する
ためには、多くの課題が明らかになってきた。その課題
の一つが、本発明で解決しようとしている、白抜き文字
である。文書中に、特に見出しや、強調文字部によく反
転文字とよばれる文字を多く見かける。これは、普通の
文字部が黒文字（場合によっては色付き）であるのに対
して、白抜き文字にするとかなり目立つ存在となる。

【０００８】しかしながら、この反転文字は、従来の文
字認識手法では、認識できない対象であった。このた
め、文書中の、とくに強調したい文字部や、見出し文字
部などが認識できないか、あるいは誤認識結果を出力し
ていた。これは文字認識の性能を悪く思われてしまう印
象を与えることとなっていた。以下、従来の問題点につ
いて、図を参照して説明する。

【０００９】図１に原稿中の白抜き文字の例を示す。図
１の（ａ）は白抜き文字部の含まれた文書を示す。
（ｂ）は、（ａ）の文書に対して領域分離を行ない、文
字領域、図形領域、写真領域などに分離した結果であ
る。（ｂ）中、３−１は、見出しにあるところが白抜き
文字で書かれている領域を抽出した場合を示す。３−２
は、本文中に強調文字部として白抜き文字部がある領域
を抽出した場合を示す。

【００１０】従来の方法でこれらの領域の種類を判定す
ると、３−１は図形領域、あるいは写真領域と判断す
る。また、３−２は文字領域と判断する。この状態で
は、３−１の領域は、従来の文字認識処理では認識でき
ない。本発明は、上記従来例に鑑みてなされたもので、
白抜き文字領域を含む文書の文字認識を簡単な処理構成
で、かつ、高信頼度で行うことができる文字認識方法と
その装置を提供することを目的とする。

【００１１】

【課題を解決するための手段】上記目的を達成するた
め、本発明の文字認識方法とその装置は以下の構成を備
える。即ち、画像の白抜き文字部を検出する白抜き文字
部検出手段と、前記白抜き文字部検出手段で検出された
白抜き文字部を白黒反転する反転手段と、前記反転手段
で反転された画像部分について、文字認識処理を行う文
字認識手段とを備える。

【００１２】また、別の発明は、画像の白抜き文字部を
検出する白抜き文字部検出工程と、前記白抜き文字部検
出工程で検出された白抜き文字部を白黒反転する反転工
程と、前記反転工程で反転された画像部分について、文
字認識処理を行う文字認識工程とを備える。

【００１３】また、別の発明は、コンピュータプログラ
ム製品であって、白抜き文字を含む画像の文字認識を行
う、コンピュータ読み取り可能なプログラムコード手段
を有するコンピュータ使用可能な媒体を備え、前記コン
ピュータプログラム製品は、画像の白抜き文字部を検出
する、コンピュータ読み取り可能な第１プログラムコー
ド手段と、前記第１プログラムコード手段で検出された
白抜き文字部を白黒反転する、コンピュータ読み取り可
能な第２プログラムコード手段と、前記第２プログラム
コード手段で反転された画像部分について、文字認識処
理を行う、コンピュータ読み取り可能な第３プログラム
コード手段とを備える。

【００１４】

【発明の実施の形態】はじめに、本発明の実施の形態の
文字認識方法とその装置のポイントを要約した後に、そ
の詳細な説明に入るものとする。本発明の実施の形態の
文字認識方法とその装置は、その文字認識部に、白抜き
文字部判定部を持たせることにより、文書中に見出しや
強調文字としてある白抜き文字（反転文字）を認識し
て、正しい文字認識結果を出力する。

【００１５】文字認識部では、入力された文書画像デー
タを領域分離処理により、文字部、写真部、図形部、キ
ャプション部、表部などの属性を持つ各領域に分離す
る。図２に、各属性に分離された文書画像データのうち
白抜きの文字ブロックの例を示す。ここで、白抜きの文
字ブロック（４−１）は、一旦、図形の属性を有すると
判断されたとする。

【００１６】次に、本実施の形態による白抜き文字判別
部により、写真部、図形部の中で、白文字部と判別され
るべき所を調べる。もし、白抜き文字部と判断されたな
らば、白抜き文字部と属性を変更し、白黒反転を行う。
文字部に関しては、文書のなかで、文書が連続してつな
がるように順序付けを行う。白抜き文字部と属性を変更
した部分はその順序付けの中に含まれるようにする。

【００１７】続いて、文字部に対して文字認識部で認識
処理を行う。文字認識の順番は、前述順序付けの番号順
に行なう。文字認識処理は、始めに、文字領域に対して
文字切り出し処理を行なう。次に切り出された文字と判
断された矩形に対して文字認識を行なうが、従来、文字
切り出し矩形が一文字より大きいと判断された矩形は、
文字認識処理を飛ばしていた。

【００１８】しかし、本実施の形態による白抜き文字処
理により、この大きな矩形に対して、白抜き文字の処理
を行なうことができる。具体的には、その矩形領域の白
黒反転処理を施して、再度文字切り出し処理、文字認識
処理を行なうことで可能となる。通常の文字部に対して
は、通常の文字認識処理を行なう。

【００１９】図２の４−２に文書中の黒白反転文字の入
った文書画像データの一例を示す。以上説明した処理手
順により、反転文字領域の文字認識が可能となる。以
下、本発明の実施の形態の文字認識方法とその装置の詳
細な説明を行う。＜実施形態１＞図３に実施形態１における文字認識処理
構成を示す。この構成は、スキャナ１−１２と、文字認
識装置１−１、コンピュータ１−１３を備える。

【００２０】スキャナ１−１２は読み込んだ画像データ
を文字認識装置１−１に送る。文字認識装置１−１で
は、入力画像に関して文字認識処理を行う。コンピュー
タ１−１３は、文字認識装置１−１に対して、文字認識
の実行開始／停止などを要求する。また、文字認識結果
を入力して、不図示のコンピュータ１−１３のディスプ
レイモニタなどに表示する。

【００２１】ＣＰＵ１−２は、文字認識装置全体の制御
を、言い換えれば、領域判別部１−５の領域判別部、１
−６白抜き判別部、１−７文字認識部、Ｉ／Ｆ（インタ
ーフェイス部）１−１０、１−１１の制御を、ＲＯＭ１
−３に格納された制御プログラムの実行にもとづいて行
う。尚、領域判別部１−５の領域判別部、１−６白抜き
判別部、１−７文字認識部での詳細な説明は後述する
が、これらの各処理部は、メモリであってもよい。即
ち、各処理部での処理手順に対応するプログラムが各メ
モリに格納されており、これらを、ＣＰＵ１−２が順に
読み出し、解釈し、実行するすることで、各処理の実行
を行うことができる。

【００２２】ＲＡＭ１−４は、スキャナ部１−１２から
入力した画像データを格納し、また、ＣＰＵ１−２の実
行のための作業領域などとして使われる。次に、図４、
図５のフローチャートを参照して、実施形態１の文字認
識手順の説明を行なう。

【００２３】まず始めに、原稿をスキャナー部で読みと
る（ステップＳ１）。次に、文書画像データに対して領
域判別処理を行なう（ステップＳ２）。これは、文書中
の文字部、タイトル部、図形部、表部、写真部、キャプ
ション部などの属性とその領域を判別する処理を行な
う。ここでの処理結果が、図１（ｂ）に示したような領
域判別結果である。

【００２４】ここで、以下説明する白抜き文字の処理の
ポイントを、簡単に説明する。図１（ｂ）において、３
−１は、見出しを強調するために、反転文字が使われて
いる例である。また、３−２は、文書中で特に強調した
い文字を示すために反転文字とした例である。３−１に
ついてそのまま、領域判別処理を行うと、黒画素部が多
く、大きな面積を占めるため、自然画（写真部）と判別
するか、あるいは、黒画素の比率から図形部と判断する
であろう。いずれにせよ文字部と判断できない。そのた
め、属性の訂正をする必要がある。

【００２５】また、３−２に示した文字部の反転文字
は、回りに文字が沢山あり、それほど大きな面積ではな
いため、文字部の一部として判断する可能性がある。そ
して、もし、文字部の一部として判定された場合、属性
は適性であるため、文字認識処理の前処理の段階で、反
転文字処理を行なって、その後、通常の文字認識処理を
行えばよい。

【００２６】図４のステップＳ３の処理を、次に、説明
する。ここでは、図形、写真部と判断された領域は、白
抜き文字部かどうかを調べるため、読み出す。ステップ
Ｓ４では、白抜き文字であるかどうかの判定を行なう。
この判定処理手順の詳細を図６のフローチャートに示
す。読者の理解を容易にするために、図６のフローチャ
ートの説明に入る前に、白抜き文字に関して、図２を参
照して言及する。

【００２７】図２の４−１は、見出し部に白抜き文字を
使用している例である。この場合、横書きのため、矩形
の横方向に長さＷが大きく、縦方向の長さｈが、Ｗに対
しては短いが、他の文字ブロックの一行よりは、十分長
い特徴を持っている。この白抜き文字を含む見出し部に
関する判別処理を、図６のフローチャートを参照して説
明する。

【００２８】ステップＳ３０では、図形、写真の属性の
切り出し領域を選択する。ステップＳ３１では、矩形領
域の縦横長さが所定の基準値範囲内に入るか否かの判定
を以下の手順で行なう。ここで、Ａ１、Ａ２はそれぞ
れ、文書の中の見出し文字の縦の長さの基準値範囲を規
定するものであって、また、Ｂ１、Ｂ２はそれぞれ、文
書の中の見出し文字の縦の長さの基準値範囲を規定する
ものであって、それぞれ変更可能な値であるとする。例
えば、Ａ１〜Ａ２：１.５〜３.０ｃｍＢ１〜Ｂ２：４.０〜１０.０ｃｍであれば、その大きさ内の矩形領域は、白抜き文字であ
る可能性があると判定し、ステップＳ３２に進む。その
範囲外であれば、白抜き文字である可能性がないと判定
して、ステップＳ３に戻り、次の切り出し領域に関して
同様の処理を繰り返す。

【００２９】ステップＳ３２では、さらに、白抜き文字
である可能性があると判定された矩形領域に対して、縦
横射影をとる。射影とは、方向別のヒストグラムをと
り、そのヒストグラムの高低差を見る処理である。ここ
で、射影は、白画素を数える。この射影処理結果に基づ
いて、文字の間隔を判別できるため、文字か非文字か判
別することができる。この射影処理結果の一例を示した
ものが図７である。ここで、６−１が縦方向の射影、６
−２が横方向の射影である。

【００３０】ステップＳ３３では、この射影に基づい
て、白抜き文字部かどうかを判別する。そして、白抜き
文字部と判断されたならば、ステップＳ５に進む。ま
た、白抜き文字部と判断されなければ、ステップＳ３に
に戻り、次の切り出し領域に関して同様の処理を繰り返
す。以上、ステップＳ４での白抜き文字部に関する判定
処理手順を説明した。

【００３１】次に、ステップＳ５では、ステップＳ４で
の白抜き文字部と判定された切りだし領域の属性を文字
部に修正する。ステップＳ６では、図形、写真の属性の
全ての切り出し領域に関して、上述の判定処理が終了し
たかどうか判定する。そして、まだ未処理の領域が残っ
ていれば、ステップＳ３に戻り、その未処理の領域に関
して同様の処理を繰り返す。もう未処理の領域が残って
いなければ、ステップＳ７に進む。

【００３２】次に、ステップＳ７では、文字部、白抜き
文字部への順序付けを行う。順序付けとは、文書の段組
順に番号を振る処理である。即ち、ステップＳ２にて文
字部と判定された領域と、ステップＳ５にて白抜き文字
部と判定された領域の各領域に対して、通し番号を付加
する。詳しく言えば、文脈が途切れる事なく、正しい文
章になるように、文章のブロックに順番を付ける事であ
る。この処理は、文字認識処理における「順序付け」あ
るいは「Reading Order」とよばれる通常の技術であるた
め、説明を割愛する。

【００３３】ステップＳ８では、順序付けの番号順に文
字領域を読み出す。文字領域が最後の場合は、ステップ
Ｓ９に進む。ステップＳ９では、順序付けされた全ての
文字領域に関して処理が終了したかどうか判定し、終了
であればステップＳ１９へ進む。逆に、未処理のものが
あれば、ステップＳ１０へ進む。

【００３４】ステップＳ１０では、ステップＳ８で読み
出された文字領域に関して、その属性が、白抜き文字属
性であるか、それ以外の属性（普通のテキスト、タイト
ル、キャプションなど）であるかを区別する。そして、
白抜き文字属性であれば、ステップＳ１１へ進む。それ
以外であれば、ステップＳ１２へ進む。ステップＳ１１
では、反転処理部にて、白抜き文字矩形領域に対して、
白黒反転処理を行なう。これは、後で実行される文字認
識処理は、黒文字を対象としているため、白抜き文字部
も同様の処理系を通過するようにするためである。

【００３５】次に、ステップＳ１２では、文字認識処理
の前処理に当たる“文字切り出し処理”を行なう。文字
切り出し処理は、以下の手順で実行する。まず、文字領
域の中から、一文字一文字の矩形を切り出す処理を行
う。これは、前述した射影処理を縦横に対してそれぞれ
行ない、矩形分けを行なう。さらに、その矩形に対し
て、例えば、「い」と言う文字のように、２つの矩形に
分かれそうな矩形は、回りの情報を元に結合処理を行な
う。いくつかの特殊処理を行って、文字切り処理を終了
する。特殊処理とは、また、何種類かの文字の特徴によ
り修正処理を行なうことである。

【００３６】ステップＳ１３では、切り出された文字に
ついて、文字認識処理を行なう。文字認識処理方法はい
くつかあるが、ここでは、特徴ベクトル抽出、比較方式
を用いる。詳細は後述する。認識結果は、結果蓄積メモ
リ１-８に格納する。この処理は、文字認識部１-７で実
行される。ステップＳ１４では、ステップＳ１２で切り
出された文字の全てが、ステップＳ１３で文字認識処理
されたかどうかチェックし、また、未処理の文字が残っ
ていれば、ステップＳ１６へ進む。逆に、そうでなけれ
ば、ステップＳ１８に進む。

【００３７】ステップＳ１６では、ステップＳ１２で切
り出された文字の次の文字矩形を選択する。そして、そ
の選択された文字について、ステップＳ１３の文字認識
処理を行う。ステップＳ１８では、文書画像データ中の
ＴＥＸＴ領域と判別した全てのブロックについて、上述
の処理がなされたかどうかチェックする。そして、全て
のブロックについて処理が終了すると、ステップＳ１９
に進む。逆に、まだ未処理のブロックが残っていると、
ステップＳ８に戻り、次のブロックについて同様の処理
を繰り返す。

【００３８】ステップＳ１９では、結果蓄積メモリ１-
８に格納された認識処理結果を、インターフェイス１-
１１を介してコンピュータ１-１３に転送する。コンピ
ュータ１-１３では、不図示の表示装置にその結果を表
示する。次に、ステップＳ２（領域判別部１-５に対
応）での領域判別処理の説明を行う。［領域判別処理］まず、ステップＳ１で入力された文書
画像データの黒画素を検出してゆき、輪郭線追跡、また
は、ラベリング方式により、黒画素ブロックの矩形のな
かの黒画素密度、隣接矩形ブロックの有無、矩形の縦横
比率などを判断基準にして、各矩形について文字領域
（タイトル、本文、キャプションなど）、図形領域、自
然画領域、表領域などを判別する。この処理結果より文
字領域の矩形情報が判別される。

【００３９】次に、ステップＳ１３での文字認識処理に
ついて説明する。［文字認識処理］文字認識処理の一つの方法として、特
徴ベクトル抽出、比較方式がある。図８は実施形態１で
用いられる文字認識処理の手法を説明する図である。図
８（ａ）は、処理対象の文書画像の一例を表しており、１．本発明の名称を含む領域８−１が文字領域として抽出されているとす
る。

【００４０】ここでは、図８（ｂ）に示されるように、
例えば、黒画素連続性の状態を検出することで、文字が
切り出されているものとする。ここで、まず、図８
（ｃ）に示されるように一文字の矩形をｍ×ｎのブロッ
ク（例えば、６４×６４のブロック）に分割する。そし
て、各分割領域（例えば、３×３の分割ウインド領域）
に関して、黒画素の分布方向（方向ベクトル情報）を抽
出する。

【００４１】図８（ｄ）は、その方向ベクトル情報を示
す例である。このベクトルが文字の特徴となる。得られ
た特徴ベクトルと、あらかじめ各文字について標準的な
ベクトルが登録されている文字認識辞書とを比較して、
両者が一番近い文字から順番に文字を抽出する。一番近
い文字が第一候補となり、続いて第二、第三候補とな
る。この両者の特徴ベクトルの近さが、その文字に対す
る距離の近さ、即ち、自信度、あるいは類似度となる。

【００４２】次に、上述した白抜き文字処理に関して、
さらに詳細な説明を行う。［白抜き文字処理］白抜き文字処理は、本実施の形態の
１つのポイントである。一般に白抜き文字は、文書中で
強調したいところで用いられる。黒枠内の白抜き文字
は、かなり目立つためである。しかしながら、この白抜
き文字は、文字認識処理では、このままでは処理できな
い。そのため、白抜き文字部を判別して、その領域を白
画素、黒画素反転処理を行なう必要がある。

【００４３】白抜き文字は、領域判別結果より、（１）図形、自然画領域（２）ＴＥＸＴ領域の２つの属性内にはいる。（１）の領域は、属性が異な
るため、まず、矩形の大きさにより、可能性のあるブロ
ックを抽出し、さらに矩形内部の白画素、黒画素の分布
を調べる。

【００４４】この一つの方法として、矩形内の射影を白
画素に対してとり、文字があるかどうかを判別する方
法、また、もう一つの方法に、領域判別時に得られた、
輪郭情報やラベリング情報を元に、矩形内に白画素が一
様に分布しているかを見る方法などがある。（２）ＴＥ
ＸＴ領域内の白抜き文字処理は、本文中に白抜き文字が
あるため、他の判別方法をとる。まず、文字認識の前処
理である文字切り出し処理を行なう。文字切り出しは、
文字領域ブロックに対して、縦横射影をとる。これによ
り大部分の一文字毎の矩形が切り出される。

【００４５】次に、切り出された黒画素の塊に対て、個
別の結合、分離処理を行なう。これにより文字きりを行
なう。その結果、白抜き文字列は、細長い矩形として切
り出される。通常、この矩形は、文字認識不能領域とな
るが、本実施の形態では、この領域に対して反転処理を
行なう。これは、細長い矩形が本文中にあるのは、白抜
き文字であるためだからである。

【００４６】以上のようにして、白抜き文字部は判別さ
れ、反転処理され、通常の文字認識処理へ送られる。次
に、ステップＳ１９で表示されるデータのデータ構造に
関して詳細な説明を行う。図９は最終的な文字認識を終
えた時点において、獲得されるデータを説明する図であ
る。上述したフローチャートに従う処理により、文書画
像データについて、（Ａ）原画像データ（Ｂ）領域判別データ（Ｃ）ＯＣＲ結果（文字認識結果）を得ることができる。

【００４７】（Ａ）原画像データは、文書方向が正しい
方向を向いている画像データである。（Ｂ）領域判別
データにおいて、「ｈｅａｄｅｒ」は以降のデータが領
域判別データであることを示す。「ｒｅｃｔ１」〜「ｒ
ｅｃｔｎ」はそれぞれ、９１に示すようなデータ構造を
有する。即ち、領域を特定するための番号を示す「ｏｒ
ｄｄｅｒ」、これは前述文字ブロックの順序の番号も兼
ねている。領域の属性を示す「ａｔｔ」、領域の位置
（矩形の左上の角）を示す「ｘ１，ｙ１」、領域の幅、
高さを表す「ｗ，ｈ」、当該領域の組方向（縦書き、横
書き）を表す「ｄｉｒｅｃｔｉｏｎ」の各データで構成
される。

【００４８】また、（Ｃ）ＯＣＲ結果（文字認識結果）
において、「ＯＣＲ１」〜「ＯＣＲｎ」の各データは、
「ｒｅｃｔ１」〜「ｒｅｃｔｎ」の各領域の文字認識結
果に対応し、それぞれ、９３に示すデータ構造を有す
る。また、ｂｌｋｈｅａｄｅｒは、各領域の文字認識
結果の前に付加するヘッダーであり、どのような矩形に
ついて文字認識したかの情報を入れる。

【００４９】このｂｌｋｈｅａｄｅｒは、「ｔｙｐ
ｅ」、「ｏｒｄｅｒ」、「ａｔｔ」、「ｘ１」、「ｙ
１」、「ｗ」、「ｈ」、「ｄｉｒｅｃｔｉｏｎ」を有す
る。「ｏｒｄｅｒ」〜「ｄｉｒｅｃｔｉｏｎ」の各デー
タは、上述の領域判別データ７１の各データと同様であ
る。「ｔｙｐｅ」は、以降のデータがｂｌｋｈｅａｄ
ｅｒであることを示す。また、文字認識結果について、
日本語、その他の言語等の区別も示す。

【００５０】文字認識結果９３における「ｔｙｐｅ」
は、以降のデータが文字認識結果であることを示すとい
う点を除いて、ｂｌｋｈｅａｄｅｒの「ｔｙｐｅ」と
同じである。また、「文字１」等は認識結果としての文
字コードである。更に、文字認識結果９３において、
「ｘ１」、「ｙ１」、「ｗ」、「ｈ」は一文字切り出し
た際の文字矩形情報である。

【００５１】更に、「ｒｅｓｅｒｖｅ」は予備部を示
す。以上のような情報は、アプリケーションにより使用
される。例えば、電子ファイリング、文書整形、ＤＴＰ
などで利用される。＜実施形態２＞図１０に実施形態２を示した。図１０
（ａ）は、スキャナー装置１０１とコンピュータ機器１
０２が、ＳＣＳＩなどのＩ／Ｆを介して直接継っている
形態である。これは、画像入力はスキャナ部１０１が司
り、その他の画像処理はコンピュータ１０２の内部処理
で行っている。即ち、全てソフトウェアによる構成であ
る。図１０（ｂ）に、その時のプログラムのタスク構
成を示した。

【００５２】管理タスク１０３が全体を管理するルーチ
ンである。画像入力タスク１０４が、スキャナ１０１よ
り読み込まれる画像データを管理する。画像データが用
意されたならば、領域判別タスク１０５が、画像データ
に対して領域判別を行なう。領域判別が終了すると、白
抜き文字部判別タスク１０６が、白抜き文字部を探索す
る。そして、白抜き文字部を検出したら反転処理を行な
う。次に、文字認識タスク１０７が、文字領域の文字認
識を実行する。そして、最後に結果出力タスク１０８
が、認識結果を出力する。

【００５３】このように、すべてソフトウェアの処理で
行なうことが可能であることは言うまでもない。ここで
は、処理形態を各タスク構成にしたが、もちろん一つの
プログラムにまとめてあっても同様に処理できることは
言うまでもない。＜実施形態３＞実施形態１において、図６を参照して、
写真部と判定された領域の白抜き判別処理フローを説明
したが、実施形態３では、図１１を参照して、別の処理
形態を示す。

【００５４】図６のステップＳ３０とステップＳ３１の
処理はそれぞれ、ステップＳ４０、Ｓ４１の処理と同じ
である。ステップＳ４２では、ステップＳ３２の射影処
理と異なる処理を行う。即ち、ステップＳ４２では、黒
画素、白画素の比率と白画素の分布状況をチェックする
処理を行う。これは、反転文字の場合、黒画素の対白画
素比率が、例えば、７０対３０の割合のように黒画素の
方が多くなり、かつ、ある一定量の白画素量があり、し
かも白画素が、矩形の大半の部分に分布している場合、
反転文字と判断する。これは、ステップＳ２の領域判別
結果の輪郭線情報やラベリング情報より判定できるた
め、射影方式より早く処理できるという利点がある。

【００５５】図６のステップＳ３３の処理は、ステップ
Ｓ４３の処理と同じである。なお、本発明は、複数の機
器（例えば、ホストコンピュータ，インタフェイス機
器，イメージリーダなど）から構成されるシステムに適
用しても、一つの機器からなる装置に適用してもよい。
また、本発明の目的は、前述した実施形態の機能を実現
するソフトウェアのプログラムコードを記録した記憶媒
体を、システムあるいは装置に供給し、そのシステムあ
るいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が
記憶媒体に格納されたプログラムコードを読出し実行す
ることによっても、達成されることは言うまでもない。

【００５６】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。プログラムコードを供給
するための記憶媒体としては、例えば、フロッピディス
ク，ハードディスク，光ディスク，光磁気ディスク，Ｃ
Ｄ−ＲＯＭ，ＣＤ−Ｒ，磁気テープ，不揮発性のメモリ
カード，ＲＯＭなどを用いることができる。

【００５７】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているＯＳ（オペレ
ーティングシステム）などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。

【００５８】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るＣＰＵなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。

【００５９】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードを格納することになるが、簡単に説
明すると、図１０（ｂ）に対応し、図１２のメモリマッ
プ例に示す各モジュールを記憶媒体に格納することにな
る。すなわち、少なくとも、全体の処理を管理する「管
理タスクモジュール」、文字認識対象の文字を含む画像
を入力する「画像入力タスクモジュール2」、入力画像
から、認識対象の領域を判別する「領域判別タスクモジ
ュール」、認識対象領域から白抜き文字領域を判別する
「白抜き文字判別タスクモジュール」、白抜き文字領域
の文字を認識処理する「文字認識タスクモジュール」、
各タスクでの処理結果を表示する「結果出力タスクモジ
ュール」の各モジュールのプログラムコードを記憶媒体
に格納すればよい。

【００６０】以上説明したように、本実施の形態によれ
ば、文書中に強調文字部として、白抜き文字部があった
としても、他の文字同様に文字認識が可能となり、信頼
性の高い認識結果を出力できる。特に、文書中の強調し
た部分は、必ず、文字コードとして認識してほしい部分
であり、ＯＣＲ結果を用いた検索システムなどには、特
に必要な技術である。

【００６１】

【発明の効果】以上説明したように本発明によれば、白
抜き文字領域を含む文書の文字認識を簡単な処理構成
で、かつ、高信頼度で行うことができる。

【図面の簡単な説明】

【図１】白抜き文字を含む原稿の一例を示す図である。

【図２】分離された白抜き文字ブロックの一例を示す図
である。

【図３】本発明の実施形態１の文字認識処理構成図であ
る。

【図４】本発明の実施形態１の文字認識処理のフローチ
ャートである。

【図５】本発明の実施形態１の文字認識処理のフローチ
ャートである。

【図６】本発明の実施形態１の文字認識処理のフローチ
ャートである。

【図７】射影処理を説明する図である。

【図８】処理対象の文書画像の認識処理を説明するため
の図である。

【図９】認識処理結果を説明する図である。

【図１０】実施形態２の構成図である。

【図１１】実施形態３の処理フローチャートである。

【図１２】コンピュータ読み取り可能な所定の記録媒体
に格納された各プログラムモジュールのレイアウトを示
す図である。

【符号の説明】

１−２ＣＰＵ１−３ＲＯＭ１−４ＲＡＭ１−５領域判別部１−６白抜き文字判別部１−７文字認識部

Claims

【特許請求の範囲】

【請求項１】画像の白抜き文字部を検出する白抜き文
字部検出手段と、前記白抜き文字部検出手段で検出された白抜き文字部を
白黒反転する反転手段と、前記反転手段で反転された画像部分について、文字認識
処理を行う文字認識手段とを備えることを特徴とする文
字認識装置。
【請求項２】前記白抜き文字部検出手段は、前記画像から、黒画素のスキャンに基づき、矩形領域を
抽出する第１抽出手段と、前記第１抽出手段で抽出された矩形領域のうちの非文字
属性の矩形領域から、所定のサイズ以内の非文字属性の
矩形領域を抽出する第２抽出手段と、前記第２抽出手段で抽出された所定のサイズ以内の非文
字属性の矩形領域の射影ヒストグラムに基づいて、前記
第２抽出手段で抽出された所定のサイズ以内の非文字属
性の矩形領域から白抜き文字の矩形領域である白抜き文
字部を抽出する第３抽出手段とを備えることを特徴とす
る請求項１に記載の文字認識装置。
【請求項３】前記非文字属性の矩形領域は、図形領域
を含むことを特徴とする請求項１に記載の文字認識装
置。
【請求項４】前記非文字属性の矩形領域は、自然画領
域を含むことを特徴とする請求項１に記載の文字認識装
置。
【請求項５】前記非文字属性の矩形領域は、表領域を
含むことを特徴とする請求項１に記載の文字認識装置。
【請求項６】前記非文字属性の矩形領域は、白抜き文
字の矩形領域を含むことを特徴とする請求項１に記載の
文字認識装置。
【請求項７】前記第１抽出手段は、前記画像から、黒画素のスキャンに基づき、文字属性や
非文字属性の矩形領域を抽出することを特徴とする請求
項１に記載の文字認識装置。
【請求項８】前記第３抽出手段は、前記第２抽出手段で抽出された矩形領域の黒画素数が白
画素数より多く、白画素数が所定の閾値より大きく、前
記白画素が前記第２抽出手段で抽出された矩形領域の概
全体に渡って分布している場合、前記矩形領域を白抜き
文字部として抽出することを特徴とする請求項２に記載
の文字認識装置。
【請求項９】前記文字認識手段は、前記反転手段で反転された画像部分の射影ヒストグラム
に基づいて、文字単位に分離する文字分離手段と、前記文字分離手段で分離された文字部の所定の特徴量と
所定文字特徴辞書とのマッチングに基づき、認識候補を
選択する認識候補選択手段とを備えることを特徴とする
請求項１に記載の文字認識装置。
【請求項１０】画像の白抜き文字部を検出する白抜き
文字部検出工程と、前記白抜き文字部検出工程で検出された白抜き文字部を
白黒反転する反転工程と、前記反転工程で反転された画像部分について、文字認識
処理を行う文字認識工程とを備えることを特徴とする文
字認識方法。
【請求項１１】前記白抜き文字部検出工程は、前記画像から、黒画素のスキャンに基づき、矩形領域を
抽出する第１抽出工程と、前記第１抽出工程で抽出された矩形領域のうちの非文字
属性の矩形領域から、所定のサイズ以内の非文字属性の
矩形領域を抽出する第２抽出工程と、前記第２抽出工程で抽出された所定のサイズ以内の非文
字属性の矩形領域の射影ヒストグラムに基づいて、前記
第２抽出工程で抽出された所定のサイズ以内の非文字属
性の矩形領域から白抜き文字の矩形領域である白抜き文
字部を抽出する第３抽出工程とを備えることを特徴とす
る請求項１０に記載の文字認識方法。
【請求項１２】前記非文字属性の矩形領域は、図形領
域を含むことを特徴とする請求項１０に記載の文字認識
方法。
【請求項１３】前記非文字属性の矩形領域は、自然画
領域を含むことを特徴とする請求項１０に記載の文字認
識方法。
【請求項１４】前記非文字属性の矩形領域は、表領域
を含むことを特徴とする請求項１０に記載の文字認識方
法。
【請求項１５】前記非文字属性の矩形領域は、白抜き
文字の矩形領域を含むことを特徴とする請求項１０に記
載の文字認識方法。
【請求項１６】前記第１抽出工程は、前記画像から、黒画素のスキャンに基づき、文字属性や
非文字属性の矩形領域を抽出することを特徴とする請求
項１０に記載の文字認識方法。
【請求項１７】前記第３抽出工程は、前記第２抽出工程で抽出された矩形領域の黒画素数が白
画素数より多く、白画素数が所定の閾値より大きく、前
記白画素が前記第２抽出工程で抽出された矩形領域の概
全体に渡って分布している場合、前記矩形領域を白抜き
文字部として抽出することを特徴とする請求項１１に記
載の文字認識方法。
【請求項１８】前記文字認識工程は、前記反転工程で反転された画像部分の射影ヒストグラム
に基づいて、文字単位に分離する文字分離工程と、前記文字分離工程で分離された文字部の所定の特徴量と
所定文字特徴辞書とのマッチングに基づき、認識候補を
選択する認識候補選択工程とを備えることを特徴とする
請求項１０に記載の文字認識方法。
【請求項１９】コンピュータプログラム製品であっ
て、白抜き文字を含む画像の文字認識を行う、コンピュータ
読み取り可能なプログラムコード手段を有するコンピュ
ータ使用可能な媒体を備え、前記コンピュータプログラ
ム製品は、画像の白抜き文字部を検出する、コンピュータ読み取り
可能な第１プログラムコード手段と、前記第１プログラムコード手段で検出された白抜き文字
部を白黒反転する、コンピュータ読み取り可能な第２プ
ログラムコード手段と、前記第２プログラムコード手段で反転された画像部分に
ついて、文字認識処理を行う、コンピュータ読み取り可
能な第３プログラムコード手段とを備えることを特徴と
するコンピュータプログラム製品。