JPH09269970A - 文字認識方法とその装置 - Google Patents

文字認識方法とその装置

Info

Publication number
JPH09269970A
JPH09269970A JP8079011A JP7901196A JPH09269970A JP H09269970 A JPH09269970 A JP H09269970A JP 8079011 A JP8079011 A JP 8079011A JP 7901196 A JP7901196 A JP 7901196A JP H09269970 A JPH09269970 A JP H09269970A
Authority
JP
Japan
Prior art keywords
character
rectangular area
area
character recognition
white
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8079011A
Other languages
English (en)
Inventor
Makoto Takaoka
真琴 高岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP8079011A priority Critical patent/JPH09269970A/ja
Publication of JPH09269970A publication Critical patent/JPH09269970A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 白抜き文字領域を含む文書の文字認識を簡単
な処理構成で、かつ、高信頼度で行うことができる文字
認識方法とその装置を提供する。 【解決手段】 画像の白抜き文字部を検出して、検出さ
れた白抜き文字部を白黒反転する白抜き文字判別部(1
-5、1-6)と、反転された画像部分について、文字認
識処理を行う文字認識部(1-7)とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識方法とそ
の装置、特に、白抜き文字部が含まれている文書であっ
ての文字認識を行う文字認識方法とその装置に関する。
【0002】
【従来の技術】近年、原稿を光学的に読みとる装置とし
て、スキャナが著しく発達して、画像を読みとる解像度
も200DPI、300DPI、400DPI、600
DPIといった高解像度となって、細かな文字の特徴も
判別するのに十分となってきた。 このスキャナに文字
認識機能を合わせて製品とする形態が増えてきて、その
文字認識の精度を問われるケースが年々深まってきた。
【0003】また、スキャナ単体とコンピュータの組み
合わせによる文字認識の現実に限らず、デジタル複写機
のスキャン機能と文字認識機能を持たせたり、FAXO
CRといったFAXに文字認識機能を持つ製品が開発さ
れるようになってきた。そして、それら装置の画像読取
部を用いて、画像データを得てきた。その画像データに
対して、文字認識処理を行なう場合、文字認識の対象と
している文字は、黒画素で構成されたものに限られてい
た。この理由は、文字とは本来、下地に対して目立つ色
で書かれるのが自然であり、黒で書かれるのが一般的で
あった。
【0004】また、黒に限らず、緑、赤などの色がつい
ていたとしても、下地に対して、文字部に配色されてい
るものである。
【0005】
【発明が解決しようとする課題】しかしながら、最近
は、少し他の文より目立たせるため、反転文字いわゆる
白抜き文字が使用されるようになってきた。これは、ワ
ープロ等の文書作成機器には、白抜き文字と言った、い
わゆる飾り文字が簡単に作成できるためである。その反
面、文字認識処理とは、一般文書を対象としており、原
稿中によくある反転文字いわゆる白抜き文字は、文字認
識できないというのが現状であった。
【0006】電子情報交換が発達した今日ではあるが、
紙による情報交換も減るどころか、増加する一方で、年
々文字認識への期待は大きくなってきている。文書を各
自作成するというDTPの発展、大量の文書を整理した
いというため、電子ファイリングの発展、などに呼応す
るように、紙の情報を再利用したいとする、要望が高ま
り、どのような文書に対しても全て文字認識してほしい
という要求が高まってきている。
【0007】そのため、全ての文字に対して、認識する
ためには、多くの課題が明らかになってきた。その課題
の一つが、本発明で解決しようとしている、白抜き文字
である。文書中に、特に見出しや、強調文字部によく反
転文字とよばれる文字を多く見かける。これは、普通の
文字部が黒文字(場合によっては色付き)であるのに対
して、白抜き文字にするとかなり目立つ存在となる。
【0008】しかしながら、この反転文字は、従来の文
字認識手法では、認識できない対象であった。このた
め、文書中の、とくに強調したい文字部や、見出し文字
部などが認識できないか、あるいは誤認識結果を出力し
ていた。これは文字認識の性能を悪く思われてしまう印
象を与えることとなっていた。以下、従来の問題点につ
いて、図を参照して説明する。
【0009】図1に原稿中の白抜き文字の例を示す。図
1の(a)は白抜き文字部の含まれた文書を示す。
(b)は、(a)の文書に対して領域分離を行ない、文
字領域、図形領域、写真領域などに分離した結果であ
る。(b)中、3−1は、見出しにあるところが白抜き
文字で書かれている領域を抽出した場合を示す。3−2
は、本文中に強調文字部として白抜き文字部がある領域
を抽出した場合を示す。
【0010】従来の方法でこれらの領域の種類を判定す
ると、3−1は図形領域、あるいは写真領域と判断す
る。また、3−2は文字領域と判断する。この状態で
は、3−1の領域は、従来の文字認識処理では認識でき
ない。本発明は、上記従来例に鑑みてなされたもので、
白抜き文字領域を含む文書の文字認識を簡単な処理構成
で、かつ、高信頼度で行うことができる文字認識方法と
その装置を提供することを目的とする。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、本発明の文字認識方法とその装置は以下の構成を備
える。即ち、画像の白抜き文字部を検出する白抜き文字
部検出手段と、前記白抜き文字部検出手段で検出された
白抜き文字部を白黒反転する反転手段と、前記反転手段
で反転された画像部分について、文字認識処理を行う文
字認識手段とを備える。
【0012】また、別の発明は、画像の白抜き文字部を
検出する白抜き文字部検出工程と、前記白抜き文字部検
出工程で検出された白抜き文字部を白黒反転する反転工
程と、前記反転工程で反転された画像部分について、文
字認識処理を行う文字認識工程とを備える。
【0013】また、別の発明は、コンピュータプログラ
ム製品であって、白抜き文字を含む画像の文字認識を行
う、コンピュータ読み取り可能なプログラムコード手段
を有するコンピュータ使用可能な媒体を備え、前記コン
ピュータプログラム製品は、画像の白抜き文字部を検出
する、コンピュータ読み取り可能な第1プログラムコー
ド手段と、前記第1プログラムコード手段で検出された
白抜き文字部を白黒反転する、コンピュータ読み取り可
能な第2プログラムコード手段と、前記第2プログラム
コード手段で反転された画像部分について、文字認識処
理を行う、コンピュータ読み取り可能な第3プログラム
コード手段とを備える。
【0014】
【発明の実施の形態】はじめに、本発明の実施の形態の
文字認識方法とその装置のポイントを要約した後に、そ
の詳細な説明に入るものとする。本発明の実施の形態の
文字認識方法とその装置は、その文字認識部に、白抜き
文字部判定部を持たせることにより、文書中に見出しや
強調文字としてある白抜き文字(反転文字)を認識し
て、正しい文字認識結果を出力する。
【0015】文字認識部では、入力された文書画像デー
タを領域分離処理により、文字部、写真部、図形部、キ
ャプション部、表部などの属性を持つ各領域に分離す
る。図2に、各属性に分離された文書画像データのうち
白抜きの文字ブロックの例を示す。ここで、白抜きの文
字ブロック(4−1)は、一旦、図形の属性を有すると
判断されたとする。
【0016】次に、本実施の形態による白抜き文字判別
部により、写真部、図形部の中で、白文字部と判別され
るべき所を調べる。もし、白抜き文字部と判断されたな
らば、白抜き文字部と属性を変更し、白黒反転を行う。
文字部に関しては、文書のなかで、文書が連続してつな
がるように順序付けを行う。白抜き文字部と属性を変更
した部分はその順序付けの中に含まれるようにする。
【0017】続いて、文字部に対して文字認識部で認識
処理を行う。文字認識の順番は、前述順序付けの番号順
に行なう。文字認識処理は、始めに、文字領域に対して
文字切り出し処理を行なう。次に切り出された文字と判
断された矩形に対して文字認識を行なうが、従来、文字
切り出し矩形が一文字より大きいと判断された矩形は、
文字認識処理を飛ばしていた。
【0018】しかし、本実施の形態による白抜き文字処
理により、この大きな矩形に対して、白抜き文字の処理
を行なうことができる。具体的には、その矩形領域の白
黒反転処理を施して、再度文字切り出し処理、文字認識
処理を行なうことで可能となる。通常の文字部に対して
は、通常の文字認識処理を行なう。
【0019】図2の4−2に文書中の黒白反転文字の入
った文書画像データの一例を示す。以上説明した処理手
順により、反転文字領域の文字認識が可能となる。以
下、本発明の実施の形態の文字認識方法とその装置の詳
細な説明を行う。 <実施形態1>図3に実施形態1における文字認識処理
構成を示す。この構成は、スキャナ1−12と、文字認
識装置1−1、コンピュータ1−13を備える。
【0020】スキャナ1−12は読み込んだ画像データ
を文字認識装置1−1に送る。文字認識装置1−1で
は、入力画像に関して文字認識処理を行う。コンピュー
タ1−13は、文字認識装置1−1に対して、文字認識
の実行開始/停止などを要求する。また、文字認識結果
を入力して、不図示のコンピュータ1−13のディスプ
レイモニタなどに表示する。
【0021】CPU1−2は、文字認識装置全体の制御
を、言い換えれば、領域判別部1−5の領域判別部、1
−6白抜き判別部、1−7文字認識部、I/F(インタ
ーフェイス部)1−10、1−11の制御を、ROM1
−3に格納された制御プログラムの実行にもとづいて行
う。尚、領域判別部1−5の領域判別部、1−6白抜き
判別部、1−7文字認識部での詳細な説明は後述する
が、これらの各処理部は、メモリであってもよい。即
ち、各処理部での処理手順に対応するプログラムが各メ
モリに格納されており、これらを、CPU1−2が順に
読み出し、解釈し、実行するすることで、各処理の実行
を行うことができる。
【0022】RAM1−4は、スキャナ部1−12から
入力した画像データを格納し、また、CPU1−2の実
行のための作業領域などとして使われる。次に、図4、
図5のフローチャートを参照して、実施形態1の文字認
識手順の説明を行なう。
【0023】まず始めに、原稿をスキャナー部で読みと
る(ステップS1)。次に、文書画像データに対して領
域判別処理を行なう(ステップS2)。これは、文書中
の文字部、タイトル部、図形部、表部、写真部、キャプ
ション部などの属性とその領域を判別する処理を行な
う。ここでの処理結果が、図1(b)に示したような領
域判別結果である。
【0024】ここで、以下説明する白抜き文字の処理の
ポイントを、簡単に説明する。図1(b)において、3
−1は、見出しを強調するために、反転文字が使われて
いる例である。また、3−2は、文書中で特に強調した
い文字を示すために反転文字とした例である。3−1に
ついてそのまま、領域判別処理を行うと、黒画素部が多
く、大きな面積を占めるため、自然画(写真部)と判別
するか、あるいは、黒画素の比率から図形部と判断する
であろう。いずれにせよ文字部と判断できない。そのた
め、属性の訂正をする必要がある。
【0025】また、3−2に示した文字部の反転文字
は、回りに文字が沢山あり、それほど大きな面積ではな
いため、文字部の一部として判断する可能性がある。そ
して、もし、文字部の一部として判定された場合、属性
は適性であるため、文字認識処理の前処理の段階で、反
転文字処理を行なって、その後、通常の文字認識処理を
行えばよい。
【0026】図4のステップS3の処理を、次に、説明
する。ここでは、図形、写真部と判断された領域は、白
抜き文字部かどうかを調べるため、読み出す。ステップ
S4では、白抜き文字であるかどうかの判定を行なう。
この判定処理手順の詳細を図6のフローチャートに示
す。読者の理解を容易にするために、図6のフローチャ
ートの説明に入る前に、白抜き文字に関して、図2を参
照して言及する。
【0027】図2の4−1は、見出し部に白抜き文字を
使用している例である。この場合、横書きのため、矩形
の横方向に長さWが大きく、縦方向の長さhが、Wに対
しては短いが、他の文字ブロックの一行よりは、十分長
い特徴を持っている。この白抜き文字を含む見出し部に
関する判別処理を、図6のフローチャートを参照して説
明する。
【0028】ステップS30では、図形、写真の属性の
切り出し領域を選択する。ステップS31では、矩形領
域の縦横長さが所定の基準値範囲内に入るか否かの判定
を以下の手順で行なう。ここで、A1、A2はそれぞ
れ、文書の中の見出し文字の縦の長さの基準値範囲を規
定するものであって、また、B1、B2はそれぞれ、文
書の中の見出し文字の縦の長さの基準値範囲を規定する
ものであって、それぞれ変更可能な値であるとする。例
えば、 A1〜A2:1.5〜 3.0cm B1〜B2:4.0〜10.0cm であれば、その大きさ内の矩形領域は、白抜き文字であ
る可能性があると判定し、ステップS32に進む。その
範囲外であれば、白抜き文字である可能性がないと判定
して、ステップS3に戻り、次の切り出し領域に関して
同様の処理を繰り返す。
【0029】ステップS32では、さらに、白抜き文字
である可能性があると判定された矩形領域に対して、縦
横射影をとる。射影とは、方向別のヒストグラムをと
り、そのヒストグラムの高低差を見る処理である。ここ
で、射影は、白画素を数える。この射影処理結果に基づ
いて、文字の間隔を判別できるため、文字か非文字か判
別することができる。この射影処理結果の一例を示した
ものが図7である。ここで、6−1が縦方向の射影、6
−2が横方向の射影である。
【0030】ステップS33では、この射影に基づい
て、白抜き文字部かどうかを判別する。そして、白抜き
文字部と判断されたならば、ステップS5に進む。ま
た、白抜き文字部と判断されなければ、ステップS3に
に戻り、次の切り出し領域に関して同様の処理を繰り返
す。以上、ステップS4での白抜き文字部に関する判定
処理手順を説明した。
【0031】次に、ステップS5では、ステップS4で
の白抜き文字部と判定された切りだし領域の属性を文字
部に修正する。ステップS6では、図形、写真の属性の
全ての切り出し領域に関して、上述の判定処理が終了し
たかどうか判定する。そして、まだ未処理の領域が残っ
ていれば、ステップS3に戻り、その未処理の領域に関
して同様の処理を繰り返す。もう未処理の領域が残って
いなければ、ステップS7に進む。
【0032】次に、ステップS7では、文字部、白抜き
文字部への順序付けを行う。順序付けとは、文書の段組
順に番号を振る処理である。即ち、ステップS2にて文
字部と判定された領域と、ステップS5にて白抜き文字
部と判定された領域の各領域に対して、通し番号を付加
する。詳しく言えば、文脈が途切れる事なく、正しい文
章になるように、文章のブロックに順番を付ける事であ
る。この処理は、文字認識処理における「順序付け」あ
るいは「Reading Order」とよばれる通常の技術であるた
め、説明を割愛する。
【0033】ステップS8では、順序付けの番号順に文
字領域を読み出す。文字領域が最後の場合は、ステップ
S9に進む。ステップS9では、順序付けされた全ての
文字領域に関して処理が終了したかどうか判定し、終了
であればステップS19へ進む。逆に、未処理のものが
あれば、ステップS10へ進む。
【0034】ステップS10では、ステップS8で読み
出された文字領域に関して、その属性が、白抜き文字属
性であるか、それ以外の属性(普通のテキスト、タイト
ル、キャプションなど)であるかを区別する。そして、
白抜き文字属性であれば、ステップS11へ進む。それ
以外であれば、ステップS12へ進む。ステップS11
では、反転処理部にて、白抜き文字矩形領域に対して、
白黒反転処理を行なう。これは、後で実行される文字認
識処理は、黒文字を対象としているため、白抜き文字部
も同様の処理系を通過するようにするためである。
【0035】次に、ステップS12では、文字認識処理
の前処理に当たる“文字切り出し処理”を行なう。文字
切り出し処理は、以下の手順で実行する。まず、文字領
域の中から、一文字一文字の矩形を切り出す処理を行
う。これは、前述した射影処理を縦横に対してそれぞれ
行ない、矩形分けを行なう。さらに、その矩形に対し
て、例えば、「い」と言う文字のように、2つの矩形に
分かれそうな矩形は、回りの情報を元に結合処理を行な
う。いくつかの特殊処理を行って、文字切り処理を終了
する。特殊処理とは、また、何種類かの文字の特徴によ
り修正処理を行なうことである。
【0036】ステップS13では、切り出された文字に
ついて、文字認識処理を行なう。文字認識処理方法はい
くつかあるが、ここでは、特徴ベクトル抽出、比較方式
を用いる。詳細は後述する。認識結果は、結果蓄積メモ
リ1-8に格納する。この処理は、文字認識部1-7で実
行される。ステップS14では、ステップS12で切り
出された文字の全てが、ステップS13で文字認識処理
されたかどうかチェックし、また、未処理の文字が残っ
ていれば、ステップS16へ進む。逆に、そうでなけれ
ば、ステップS18に進む。
【0037】ステップS16では、ステップS12で切
り出された文字の次の文字矩形を選択する。そして、そ
の選択された文字について、ステップS13の文字認識
処理を行う。ステップS18では、文書画像データ中の
TEXT領域と判別した全てのブロックについて、上述
の処理がなされたかどうかチェックする。そして、全て
のブロックについて処理が終了すると、ステップS19
に進む。逆に、まだ未処理のブロックが残っていると、
ステップS8に戻り、次のブロックについて同様の処理
を繰り返す。
【0038】ステップS19では、結果蓄積メモリ1-
8に格納された認識処理結果を、インターフェイス1-
11を介してコンピュータ1-13に転送する。コンピ
ュータ1-13では、不図示の表示装置にその結果を表
示する。次に、ステップS2(領域判別部1-5に対
応)での領域判別処理の説明を行う。 [領域判別処理]まず、ステップS1で入力された文書
画像データの黒画素を検出してゆき、輪郭線追跡、また
は、ラベリング方式により、黒画素ブロックの矩形のな
かの黒画素密度、隣接矩形ブロックの有無、矩形の縦横
比率などを判断基準にして、各矩形について文字領域
(タイトル、本文、キャプションなど)、図形領域、自
然画領域、表領域などを判別する。この処理結果より文
字領域の矩形情報が判別される。
【0039】次に、ステップS13での文字認識処理に
ついて説明する。 [文字認識処理]文字認識処理の一つの方法として、特
徴ベクトル抽出、比較方式がある。図8は実施形態1で
用いられる文字認識処理の手法を説明する図である。図
8(a)は、処理対象の文書画像の一例を表しており、 1.本発明の名称 を含む領域8−1が文字領域として抽出されているとす
る。
【0040】ここでは、図8(b)に示されるように、
例えば、黒画素連続性の状態を検出することで、文字が
切り出されているものとする。ここで、まず、図8
(c)に示されるように一文字の矩形をm×nのブロッ
ク(例えば、64×64のブロック)に分割する。そし
て、各分割領域(例えば、3×3の分割ウインド領域)
に関して、黒画素の分布方向(方向ベクトル情報)を抽
出する。
【0041】図8(d)は、その方向ベクトル情報を示
す例である。このベクトルが文字の特徴となる。得られ
た特徴ベクトルと、あらかじめ各文字について標準的な
ベクトルが登録されている文字認識辞書とを比較して、
両者が一番近い文字から順番に文字を抽出する。一番近
い文字が第一候補となり、続いて第二、第三候補とな
る。この両者の特徴ベクトルの近さが、その文字に対す
る距離の近さ、即ち、自信度、あるいは類似度となる。
【0042】次に、上述した白抜き文字処理に関して、
さらに詳細な説明を行う。 [白抜き文字処理]白抜き文字処理は、本実施の形態の
1つのポイントである。一般に白抜き文字は、文書中で
強調したいところで用いられる。黒枠内の白抜き文字
は、かなり目立つためである。しかしながら、この白抜
き文字は、文字認識処理では、このままでは処理できな
い。そのため、白抜き文字部を判別して、その領域を白
画素、黒画素反転処理を行なう必要がある。
【0043】白抜き文字は、領域判別結果より、 (1)図形、自然画領域 (2)TEXT領域 の2つの属性内にはいる。(1)の領域は、属性が異な
るため、まず、矩形の大きさにより、可能性のあるブロ
ックを抽出し、さらに矩形内部の白画素、黒画素の分布
を調べる。
【0044】この一つの方法として、矩形内の射影を白
画素に対してとり、文字があるかどうかを判別する方
法、また、もう一つの方法に、領域判別時に得られた、
輪郭情報やラベリング情報を元に、矩形内に白画素が一
様に分布しているかを見る方法などがある。(2)TE
XT領域内の白抜き文字処理は、本文中に白抜き文字が
あるため、他の判別方法をとる。まず、文字認識の前処
理である文字切り出し処理を行なう。文字切り出しは、
文字領域ブロックに対して、縦横射影をとる。これによ
り大部分の一文字毎の矩形が切り出される。
【0045】次に、切り出された黒画素の塊に対て、個
別の結合、分離処理を行なう。これにより文字きりを行
なう。その結果、白抜き文字列は、細長い矩形として切
り出される。通常、この矩形は、文字認識不能領域とな
るが、本実施の形態では、この領域に対して反転処理を
行なう。これは、細長い矩形が本文中にあるのは、白抜
き文字であるためだからである。
【0046】以上のようにして、白抜き文字部は判別さ
れ、反転処理され、通常の文字認識処理へ送られる。次
に、ステップS19で表示されるデータのデータ構造に
関して詳細な説明を行う。図9は最終的な文字認識を終
えた時点において、獲得されるデータを説明する図であ
る。上述したフローチャートに従う処理により、文書画
像データについて、 (A)原画像データ (B)領域判別データ (C)OCR結果(文字認識結果) を得ることができる。
【0047】(A)原画像データは、文書方向が正しい
方向を向いている画像データである。 (B)領域判別
データにおいて、「header」は以降のデータが領
域判別データであることを示す。「rect1」〜「r
ectn」はそれぞれ、91に示すようなデータ構造を
有する。即ち、領域を特定するための番号を示す「or
dder」、これは前述文字ブロックの順序の番号も兼
ねている。領域の属性を示す「att」、領域の位置
(矩形の左上の角)を示す「x1,y1」、領域の幅、
高さを表す「w,h」、当該領域の組方向(縦書き、横
書き)を表す「direction」の各データで構成
される。
【0048】また、(C)OCR結果(文字認識結果)
において、「OCR1」〜「OCRn」の各データは、
「rect1」〜「rectn」の各領域の文字認識結
果に対応し、それぞれ、93に示すデータ構造を有す
る。また、blk headerは、各領域の文字認識
結果の前に付加するヘッダーであり、どのような矩形に
ついて文字認識したかの情報を入れる。
【0049】このblk headerは、「typ
e」、「order」、「att」、「x1」、「y
1」、「w」、「h」、「direction」を有す
る。「order」〜「direction」の各デー
タは、上述の領域判別データ71の各データと同様であ
る。「type」は、以降のデータがblk head
erであることを示す。また、文字認識結果について、
日本語、その他の言語等の区別も示す。
【0050】文字認識結果93における「type」
は、以降のデータが文字認識結果であることを示すとい
う点を除いて、blk headerの「type」と
同じである。また、「文字1」等は認識結果としての文
字コードである。更に、文字認識結果93において、
「x1」、「y1」、「w」、「h」は一文字切り出し
た際の文字矩形情報である。
【0051】更に、「reserve」は予備部を示
す。以上のような情報は、アプリケーションにより使用
される。例えば、電子ファイリング、文書整形、DTP
などで利用される。 <実施形態2>図10に実施形態2を示した。図10
(a)は、スキャナー装置101とコンピュータ機器1
02が、SCSIなどのI/Fを介して直接継っている
形態である。これは、画像入力はスキャナ部101が司
り、その他の画像処理はコンピュータ102の内部処理
で行っている。即ち、全てソフトウェアによる構成であ
る。 図10(b)に、その時のプログラムのタスク構
成を示した。
【0052】管理タスク103が全体を管理するルーチ
ンである。画像入力タスク104が、スキャナ101よ
り読み込まれる画像データを管理する。画像データが用
意されたならば、領域判別タスク105が、画像データ
に対して領域判別を行なう。領域判別が終了すると、白
抜き文字部判別タスク106が、白抜き文字部を探索す
る。そして、白抜き文字部を検出したら反転処理を行な
う。次に、文字認識タスク107が、文字領域の文字認
識を実行する。そして、最後に結果出力タスク108
が、認識結果を出力する。
【0053】このように、すべてソフトウェアの処理で
行なうことが可能であることは言うまでもない。ここで
は、処理形態を各タスク構成にしたが、もちろん一つの
プログラムにまとめてあっても同様に処理できることは
言うまでもない。 <実施形態3>実施形態1において、図6を参照して、
写真部と判定された領域の白抜き判別処理フローを説明
したが、実施形態3では、図11を参照して、別の処理
形態を示す。
【0054】図6のステップS30とステップS31の
処理はそれぞれ、ステップS40、S41の処理と同じ
である。ステップS42では、ステップS32の射影処
理と異なる処理を行う。即ち、ステップS42では、黒
画素、白画素の比率と白画素の分布状況をチェックする
処理を行う。これは、反転文字の場合、黒画素の対白画
素比率が、例えば、70対30の割合のように黒画素の
方が多くなり、かつ、ある一定量の白画素量があり、し
かも白画素が、矩形の大半の部分に分布している場合、
反転文字と判断する。これは、ステップS2の領域判別
結果の輪郭線情報やラベリング情報より判定できるた
め、射影方式より早く処理できるという利点がある。
【0055】図6のステップS33の処理は、ステップ
S43の処理と同じである。なお、本発明は、複数の機
器(例えば、ホストコンピュータ,インタフェイス機
器,イメージリーダなど)から構成されるシステムに適
用しても、一つの機器からなる装置に適用してもよい。
また、本発明の目的は、前述した実施形態の機能を実現
するソフトウェアのプログラムコードを記録した記憶媒
体を、システムあるいは装置に供給し、そのシステムあ
るいは装置のコンピュータ(またはCPUやMPU)が
記憶媒体に格納されたプログラムコードを読出し実行す
ることによっても、達成されることは言うまでもない。
【0056】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。プログラムコードを供給
するための記憶媒体としては、例えば、フロッピディス
ク,ハードディスク,光ディスク,光磁気ディスク,C
D−ROM,CD−R,磁気テープ,不揮発性のメモリ
カード,ROMなどを用いることができる。
【0057】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
【0058】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0059】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードを格納することになるが、簡単に説
明すると、図10(b)に対応し、図12のメモリマッ
プ例に示す各モジュールを記憶媒体に格納することにな
る。すなわち、少なくとも、全体の処理を管理する「管
理タスクモジュール」、文字認識対象の文字を含む画像
を入力する「画像入力タスクモジュール2」、入力画像
から、認識対象の領域を判別する「領域判別タスクモジ
ュール」、認識対象領域から白抜き文字領域を判別する
「白抜き文字判別タスクモジュール」、白抜き文字領域
の文字を認識処理する「文字認識タスクモジュール」、
各タスクでの処理結果を表示する「結果出力タスクモジ
ュール」の各モジュールのプログラムコードを記憶媒体
に格納すればよい。
【0060】以上説明したように、本実施の形態によれ
ば、文書中に強調文字部として、白抜き文字部があった
としても、他の文字同様に文字認識が可能となり、信頼
性の高い認識結果を出力できる。特に、文書中の強調し
た部分は、必ず、文字コードとして認識してほしい部分
であり、OCR結果を用いた検索システムなどには、特
に必要な技術である。
【0061】
【発明の効果】以上説明したように本発明によれば、白
抜き文字領域を含む文書の文字認識を簡単な処理構成
で、かつ、高信頼度で行うことができる。
【図面の簡単な説明】
【図1】白抜き文字を含む原稿の一例を示す図である。
【図2】分離された白抜き文字ブロックの一例を示す図
である。
【図3】本発明の実施形態1の文字認識処理構成図であ
る。
【図4】本発明の実施形態1の文字認識処理のフローチ
ャートである。
【図5】本発明の実施形態1の文字認識処理のフローチ
ャートである。
【図6】本発明の実施形態1の文字認識処理のフローチ
ャートである。
【図7】射影処理を説明する図である。
【図8】処理対象の文書画像の認識処理を説明するため
の図である。
【図9】認識処理結果を説明する図である。
【図10】実施形態2の構成図である。
【図11】実施形態3の処理フローチャートである。
【図12】コンピュータ読み取り可能な所定の記録媒体
に格納された各プログラムモジュールのレイアウトを示
す図である。
【符号の説明】
1−2 CPU 1−3 ROM 1−4 RAM 1−5 領域判別部 1−6 白抜き文字判別部 1−7 文字認識部

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 画像の白抜き文字部を検出する白抜き文
    字部検出手段と、 前記白抜き文字部検出手段で検出された白抜き文字部を
    白黒反転する反転手段と、 前記反転手段で反転された画像部分について、文字認識
    処理を行う文字認識手段とを備えることを特徴とする文
    字認識装置。
  2. 【請求項2】 前記白抜き文字部検出手段は、 前記画像から、黒画素のスキャンに基づき、矩形領域を
    抽出する第1抽出手段と、 前記第1抽出手段で抽出された矩形領域のうちの非文字
    属性の矩形領域から、所定のサイズ以内の非文字属性の
    矩形領域を抽出する第2抽出手段と、 前記第2抽出手段で抽出された所定のサイズ以内の非文
    字属性の矩形領域の射影ヒストグラムに基づいて、前記
    第2抽出手段で抽出された所定のサイズ以内の非文字属
    性の矩形領域から白抜き文字の矩形領域である白抜き文
    字部を抽出する第3抽出手段とを備えることを特徴とす
    る請求項1に記載の文字認識装置。
  3. 【請求項3】 前記非文字属性の矩形領域は、図形領域
    を含むことを特徴とする請求項1に記載の文字認識装
    置。
  4. 【請求項4】 前記非文字属性の矩形領域は、自然画領
    域を含むことを特徴とする請求項1に記載の文字認識装
    置。
  5. 【請求項5】 前記非文字属性の矩形領域は、表領域を
    含むことを特徴とする請求項1に記載の文字認識装置。
  6. 【請求項6】 前記非文字属性の矩形領域は、白抜き文
    字の矩形領域を含むことを特徴とする請求項1に記載の
    文字認識装置。
  7. 【請求項7】 前記第1抽出手段は、 前記画像から、黒画素のスキャンに基づき、文字属性や
    非文字属性の矩形領域を抽出することを特徴とする請求
    項1に記載の文字認識装置。
  8. 【請求項8】 前記第3抽出手段は、 前記第2抽出手段で抽出された矩形領域の黒画素数が白
    画素数より多く、白画素数が所定の閾値より大きく、前
    記白画素が前記第2抽出手段で抽出された矩形領域の概
    全体に渡って分布している場合、前記矩形領域を白抜き
    文字部として抽出することを特徴とする請求項2に記載
    の文字認識装置。
  9. 【請求項9】 前記文字認識手段は、 前記反転手段で反転された画像部分の射影ヒストグラム
    に基づいて、文字単位に分離する文字分離手段と、 前記文字分離手段で分離された文字部の所定の特徴量と
    所定文字特徴辞書とのマッチングに基づき、認識候補を
    選択する認識候補選択手段とを備えることを特徴とする
    請求項1に記載の文字認識装置。
  10. 【請求項10】 画像の白抜き文字部を検出する白抜き
    文字部検出工程と、 前記白抜き文字部検出工程で検出された白抜き文字部を
    白黒反転する反転工程と、 前記反転工程で反転された画像部分について、文字認識
    処理を行う文字認識工程とを備えることを特徴とする文
    字認識方法。
  11. 【請求項11】 前記白抜き文字部検出工程は、 前記画像から、黒画素のスキャンに基づき、矩形領域を
    抽出する第1抽出工程と、 前記第1抽出工程で抽出された矩形領域のうちの非文字
    属性の矩形領域から、所定のサイズ以内の非文字属性の
    矩形領域を抽出する第2抽出工程と、 前記第2抽出工程で抽出された所定のサイズ以内の非文
    字属性の矩形領域の射影ヒストグラムに基づいて、前記
    第2抽出工程で抽出された所定のサイズ以内の非文字属
    性の矩形領域から白抜き文字の矩形領域である白抜き文
    字部を抽出する第3抽出工程とを備えることを特徴とす
    る請求項10に記載の文字認識方法。
  12. 【請求項12】 前記非文字属性の矩形領域は、図形領
    域を含むことを特徴とする請求項10に記載の文字認識
    方法。
  13. 【請求項13】 前記非文字属性の矩形領域は、自然画
    領域を含むことを特徴とする請求項10に記載の文字認
    識方法。
  14. 【請求項14】 前記非文字属性の矩形領域は、表領域
    を含むことを特徴とする請求項10に記載の文字認識方
    法。
  15. 【請求項15】 前記非文字属性の矩形領域は、白抜き
    文字の矩形領域を含むことを特徴とする請求項10に記
    載の文字認識方法。
  16. 【請求項16】 前記第1抽出工程は、 前記画像から、黒画素のスキャンに基づき、文字属性や
    非文字属性の矩形領域を抽出することを特徴とする請求
    項10に記載の文字認識方法。
  17. 【請求項17】 前記第3抽出工程は、 前記第2抽出工程で抽出された矩形領域の黒画素数が白
    画素数より多く、白画素数が所定の閾値より大きく、前
    記白画素が前記第2抽出工程で抽出された矩形領域の概
    全体に渡って分布している場合、前記矩形領域を白抜き
    文字部として抽出することを特徴とする請求項11に記
    載の文字認識方法。
  18. 【請求項18】 前記文字認識工程は、 前記反転工程で反転された画像部分の射影ヒストグラム
    に基づいて、文字単位に分離する文字分離工程と、 前記文字分離工程で分離された文字部の所定の特徴量と
    所定文字特徴辞書とのマッチングに基づき、認識候補を
    選択する認識候補選択工程とを備えることを特徴とする
    請求項10に記載の文字認識方法。
  19. 【請求項19】 コンピュータプログラム製品であっ
    て、 白抜き文字を含む画像の文字認識を行う、コンピュータ
    読み取り可能なプログラムコード手段を有するコンピュ
    ータ使用可能な媒体を備え、前記コンピュータプログラ
    ム製品は、 画像の白抜き文字部を検出する、コンピュータ読み取り
    可能な第1プログラムコード手段と、 前記第1プログラムコード手段で検出された白抜き文字
    部を白黒反転する、コンピュータ読み取り可能な第2プ
    ログラムコード手段と、 前記第2プログラムコード手段で反転された画像部分に
    ついて、文字認識処理を行う、コンピュータ読み取り可
    能な第3プログラムコード手段とを備えることを特徴と
    するコンピュータプログラム製品。
JP8079011A 1996-04-01 1996-04-01 文字認識方法とその装置 Pending JPH09269970A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8079011A JPH09269970A (ja) 1996-04-01 1996-04-01 文字認識方法とその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8079011A JPH09269970A (ja) 1996-04-01 1996-04-01 文字認識方法とその装置

Publications (1)

Publication Number Publication Date
JPH09269970A true JPH09269970A (ja) 1997-10-14

Family

ID=13678016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8079011A Pending JPH09269970A (ja) 1996-04-01 1996-04-01 文字認識方法とその装置

Country Status (1)

Country Link
JP (1) JPH09269970A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6798906B1 (en) 1999-06-14 2004-09-28 Fuji Xerox Co., Ltd. Image processing apparatus and method including line segment data extraction
WO2004097721A1 (ja) * 2003-04-25 2004-11-11 Sharp Kabushiki Kaisha 画像処理装置、画像処理方法、画像処理プログラムおよびそのプログラムを記録したコンピュータ読取可能な記録媒体
US8401303B2 (en) 2009-12-28 2013-03-19 Canon Kabushiki Kaisha Method and apparatus for identifying character areas in a document image

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6798906B1 (en) 1999-06-14 2004-09-28 Fuji Xerox Co., Ltd. Image processing apparatus and method including line segment data extraction
WO2004097721A1 (ja) * 2003-04-25 2004-11-11 Sharp Kabushiki Kaisha 画像処理装置、画像処理方法、画像処理プログラムおよびそのプログラムを記録したコンピュータ読取可能な記録媒体
US8401303B2 (en) 2009-12-28 2013-03-19 Canon Kabushiki Kaisha Method and apparatus for identifying character areas in a document image

Similar Documents

Publication Publication Date Title
US5774580A (en) Document image processing method and system having function of determining body text region reading order
US6137905A (en) System for discriminating document orientation
US6466694B2 (en) Document image processing device and method thereof
JP3278471B2 (ja) 領域分割方法
JPH0750483B2 (ja) 文書画像追加情報の蓄積方法
JPH08255236A (ja) 画像のファイリング装置及びファイリング方法
JPH08212298A (ja) 文書方向自動判別装置、及び文書方向自動補正装置
JPH09269970A (ja) 文字認識方法とその装置
JP3787377B2 (ja) 文書方向判定方法及び装置及び文字認識方法及び装置
JPH08180068A (ja) 電子ファイリング装置
JPH08329187A (ja) 文書読取装置
JPH08153110A (ja) 文書ファイリング装置及び方法
JP2002170079A (ja) 文書書式識別装置および識別方法
JPH0728935A (ja) 文書画像処理装置
JP3412998B2 (ja) 画像処理装置及びその方法
JPH0816719A (ja) 文字切り出し方法とこれを用いた文字認識方法及び装置
JPH08202859A (ja) 電子ファイリング装置及びその方法
JPH11187231A (ja) 画像検索装置及び画像検索方法
JPH117493A (ja) 文字認識処理装置
JPH0830725A (ja) 画像処理装置及び方法
JPH04287168A (ja) ファイリングの自動キーワード抽出方法
JP2887823B2 (ja) 文書認識装置
JPH09146947A (ja) 文字領域の順序付け方法及び装置
JPH11242716A (ja) 画像処理方法および記録媒体
JP3116453B2 (ja) 英文字認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070226