JP2887823B2

JP2887823B2 - 文書認識装置

Info

Publication number: JP2887823B2
Application number: JP3146513A
Authority: JP
Inventors: 淳一大住
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1991-05-23
Filing date: 1991-05-23
Publication date: 1999-05-10
Anticipated expiration: 2014-05-10
Also published as: JPH04346188A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書認識装置に関し、
特に、紙に記載され文字列の文書を認識する際に、各文
字列の文字行に対して文字種の識別を行い、文書画像か
ら文字読み取りを行う文字認識部を能率よく制御して、
効率的に文書認識を行う文書認識装置に関するものであ
る。

【０００２】

【従来の技術】紙の文書に印刷されている文字や図形を
認識処理し、ワードプロセッサなどの文書編集装置など
に入力するための文書認識装置に関する研究開発が行な
われている。画像の文字形状から文字を読み取る文字認
識技術は、その中の一つの要素技術であり、古くから研
究が行なわれている。このような文字認識装置として、
英語文字のみ認識対象とした英文用文字認識装置や、日
本語文字および英語文字の両方を認識対象とした和文用
文字認識装置などが開発されている。

【０００３】ところで、英語文字のみ認識対象とした英
文用文字認識装置と、日本語文字および英語文字の両方
を認識対象とした和文用文字認識装置とを比較した場
合、英文のみの認識対象に対しては、明らかに英文用文
字認識装置の方が認識率が優れている。これは、英語文
の方が文字種が少ないこと、アルファベットは日本語文
字のように、左右に分離できる要素で構成されている文
字、例えば文字「化」のように２つの要素“イ”と
“ヒ”で構成されている文字などがなく、文字の切り出
し処理に誤りがないことが理由として挙げられる。

【０００４】ところで、現実的に日本人が作成した通常
の文書においては、日本語文字列と英語文字列が混在し
ている場合が多い。このため、文字認識率を向上させる
ため、文書画像の文字認識を行う文書認識装置に対し
て、操作者が光学的に画像データとして読み取った文書
内容を英語文字列および日本語文字列に切り分け、それ
ぞれを英文用文字認識装置または和文用文字認識装置の
認識対象とする指定を行うことは煩雑な操作であり、そ
の作業を強いることは現実的ではない。このため、全て
の認識対象に対して、日本語文字および英語文字の両方
の文字を認識対象としている和文用文字認識装置の認識
対象とするようにすれば、操作者の作業負担はなくなる
が、英語文の文字列に対しては良い認識率を得ることは
できない。

【０００５】そこで、認識率を向上させるため、１つの
認識対象文書を英文用文字認識装置および和文用文字認
識装置の２つの文字認識装置の認識対象とし、２つの文
字認識装置から認識結果を得る時に、２つの文字認識装
置の文字認識結果の確からしさの高い方を採用するよう
な構成とすればよいが、この場合には、常に２つの認識
結果の１つを無駄な結果として捨てており、常に一方の
文字認識装置を無駄に動作させていることになる。和文
用文字認識装置は、比較すべき文字種が多いことから、
１つの文字に対する文字認識の処理時間が多くかかるの
で、全体的な文書認識の処理時間が多くかかることにな
る。

【０００６】ところで、文書画像の文字画像領域におい
て、文字列の英語文字／日本語文字の識別を行う英日文
字列識別方法については、例えば、論文「A.Lawrence S
pitz, “Recognition Processing for Multilingual Do
cuments", pp193〜205, EP90Proceedings of the Inter
national Conference on Electronic Publishing, Docu
ment Manipulation & Typography Gaithersburg, Maryl
and,September 1990, Edited by R. Furuta,CAMBRIDGE
UNIVERSITY PRESS」の記述に見られるように、従来から
一部で研究開発がなされている。この英日文字列識別方
法によると、与えられた文書画像の文字領域に関して、
縦方向および横方向に黒画素の頻度を射影し、その頻度
分布の特徴によって、文字領域の文字列の英語文字／日
本語文字の文字種の識別処理が行なわれる。

【０００７】しかし、この英日文字列識別方法により、
文字列の英語文字／日本語文字の文字種の識別処理を実
際に行う場合には、画像処理および識別処理のプロセス
が複雑となり、文字種の識別処理の効率が悪く、規則正
しく並んでいる英語文を日本語文と誤って判別してしま
う可能性がある。

【０００８】

【発明が解決しようとする課題】このように、従来の英
日文字列識別方法のように、文字領域の黒画素の縦横方
向の頻度分布の特徴により、文字領域の文字列の英語文
字／日本語文字の文字種の識別を行う日英文字列識別方
法では、実際の文書画像の識別において、確実に英語文
字／日本語文字の文字種を識別できない場合が多くあ
り、また、識別処理では縦方向および横方向の２方向に
黒画素の頻度を射影して、その頻度分布の特徴により識
別するため、処理が複雑となり、簡単に識別基準が決定
できないという問題点がある。

【０００９】本発明は、これらの問題点をを解決するた
めになされたものであり、本発明の第１の目的は、文書
認識装置において、文書画像の文字認識を行う前にその
認識対象とする文字行が例えば英語文であるか日本語文
であるかを判別する文字種の識別を効率よく行い、文字
種に応じて高い精度で文字行の文字認識を行うための文
書認識装置を提供することにある。

【００１０】本発明の第２の目的は、文書認識装置にお
いて、識別対象の文字列の文字種の識別のための特徴抽
出が容易であり、文字認識を行う前に認識対象とする文
字行の文字種の識別を効率よく行い、文字種の種類に応
じて適切な文字認識部を用いて文字認識処理を行い、異
なる言語の文字列が含まれた文書に対しても文字認識率
を向上させて、文書認識処理が行える文書認識装置を提
供することにある。

【００１１】

【課題を解決するための手段】上記の目的を達成するた
め、本発明の文書認識装置は、文書画像を入力し、文書
画像の各文字を読み取り、文字認識を行う文書認識装置
において、文書画像の文字行の各文字に対して文字中の
矩形を抽出する矩形抽出手段（２１）と、前記矩形抽出
手段により各文字中から取り出された矩形の数を文字行
領域毎に計数する矩形計数手段（２２）と、前記矩形計
数手段から取り出された各文字行内の矩形の計数値を基
に文字行の文字種を識別する文字種識別手段（２３）と
を備えることを特徴とする。

【００１２】また、文書認識装置において、更に、文書
画像の文字から第１の文字種の文字を認識する第１の文
字認識手段（７）と、文書画像の文字から第２の文字種
の文字を識識する第２の文字認識手段（８）と、前記文
字種識別手段（２３）からの判定信号に応じて、前記第
１の文字認識手段または前記第２の文字認識手段のいず
れかを選択的に起動して、文書画像の各文字の読み取り
制御を行う文書解析手段（６）とを備えることを特徴と
する。

【００１３】

【作用】文書認識装置において、文書画像を入力し、文
書画像の各文字を読み取り、文字認識する場合、まず、
矩形抽出手段（２１）が文書画像の文字行の各文字に対
して文字中の矩形を抽出し、次に、矩形計数手段（２
２）が、矩形抽出手段により各文字中から取り出された
矩形の数を文字行領域毎に計数する。そして、文字種識
別手段（２３）が、矩形計数手段から取り出された各文
字行内の矩形の計数値を基に文字行の文字の種類を識別
する。例えば、計数値が所定数以上のときの文字種は日
本語文字であると判定し、所数数以下のときの文字種は
欧米語文字（英字など）と判定する。

【００１４】次に、文字種識別手段（２３）が識別した
各文字行の文字種を識別結果に応じて、文書解析手段
（６）が、第１の文字認識手段（７）または第２の文字
認識手段（８）のいずれかを選択的に起動して、文書画
像の各文字の文字認識処理の制御を行う。例えば、文字
種識別手段（２３）からの判定信号により文字種が英語
文字列と判定された場合には第１の文字認識手段（７）
のみを起動して、英語文字の文字認識を行う。また、文
字種識別手段（２３）からの判定信号により文字種が日
本語文字列と判定された場合には第２の文字認識手段
（８）のみを起動して、日本語文字の文字認識を行う。

【００１５】ここでは、例えば、英語文および日本語文
の文字種を識別するために、文書画像の認識対象とする
文字行から各文字内の矩形を抽出し、この矩形の数を各
々の文字行内で計数し、矩形の個数が所定値を越えるこ
とを判定して文字種を識別する。これは、印刷活字を着
目した場合、日本語文字には、特に漢字には、矩形要素
が多く含まれているが、これに対して、英語文字では曲
線部が多く、矩形が皆無である特性を利用している。し
たがって、文字行において矩形がある場合を日本語文字
行であると判定する。矩形の抽出では、例えば、各々の
文字行において横線部と縦線部とを検出し、横線部およ
び縦線部により閉領域が形成できる部分を検出すること
により、各々の文字行の画像から矩形を抽出する。

【００１６】これにより、文書認識装置では、入力され
た文書画像から矩形を検出して各文字行に対し文字種の
識別を行うことができ、英語文および日本語文などの異
なる文字種が混在した文書でも、英語文の文字列に対し
ては英語文書認識装置と同等な高い認識率で文字認識を
行うことができる。また、操作者は特に文字列の切出し
処理における判別の操作を行なわなくて良いので、操作
者に対する負荷を軽減することができる。したがって、
英語文の文字列に対しては、英語文書認識装置と同等に
高い速い識別認識処理を行うことができ、全体としての
文書認識の処理時間を短時間で終了させることができ
る。

【００１７】

【実施例】以下、本発明の実施例を図面を参照して具体
的に説明する。次の実施例の説明では、認識する文書は
文字種として日本語文と英語文の２種類の文字種が混在
して用いられている文書であり、この文字種の文字認識
を行い文書識別を行う文書認識装置の例を説明する。図
１は本発明の一実施例にかかる文書認識装置の全体の構
成を示す処理部のブロック図である。図１において、１
は画像入力部、２はイメージメモリ、３は文字行抽出
部、４は英／日判定部、５は認識結果格納メモリ、６は
文書解析部である。７は英文文字認識部（ＯＣＲ；Opti
cal CharacterReader）、８は和文文字認識部（ＯＣ
Ｒ）、９は格納処理部、１０は文書ファイル格納装置、
１１は制御／操作部、１２は表示装置、１３はキーボー
ド、１４はポインティングデバイスのマウスである。

【００１８】画像入力部１において、紙の文書の文書画
像を光学式スキャナにより走査してラスタ画像を入力
し、その原画像をイメージメモリ２に格納する文書画像
入力処理を行う。なお、この文書画像の入力処理の際、
スキャナにより入力した文書画像を表示装置１２に表示
し、操作者に対して正規の入力画像であるか否かの確認
を求め、また、イメージ入力した画像の解像度などの確
認を求める確認操作を行う。この確認認作により、入力
処理な適切に行なわれていない場合には、オペレータは
再入力処理を行うように指示を出す。

【００１９】入力された文書画像はイメージメモリ２に
格納されるので、文字行抽出部３が入力された文書画像
をイメージメモリ２から読み出し、文書画像から文字行
を抽出する処理を行う。文字行抽出部３が行う文字行の
抽出処理では、イメージメモリ２内に格納されている画
像の横軸方向、つまり、文字の並んでいる行方向の黒画
素の頻度をとり、列方向でのヒストグラムを作成して、
文書画像から文字行の領域を抽出する。

【００２２】文字行抽出部３により、文字行領域として
抽出した結果（例えば、文字行の矩形枠を原画像上に描
画した結果）は、制御／操作部１１を通して、表示装置
１２に表示し、操作者に対して確認を求め、キーボード
１３，ポインティングデバイスのマウス１４を用いて、
文字行抽出処理が正しく行なわれなかった場合に対して
は再処理などの修正を行う。

【００２３】次に、英／日判定部４は、抽出された各々
の文字行に対して、各文字行が英語文字の行（アルファ
ベット，数字のみで書かれている行）であるか、または
日本語文字の行（漢字，ひらがな，カタカナ，一部で英
数字を含む行）であるかの文字種を判定する。この各々
の文字行の英／日の文字種の判定結果は、各文字行毎に
認識結果格納メモリ５内に格納される。

【００２４】英／日判定部４による英／日の文字種の判
定処理が終了すると、次に、文書解析部６では、認識結
果格納メモリ５に格納された英／日の文字種の判定結果
に従って、イメージメモリ２内の文書画像に対する文字
認識処理を行うため、英文用文字認識部７および和文文
字認識部８のいずれかの起動制御を行い、それぞれの文
字認識部により、各々の文字行の文字認識処理を行う。
すなわち、文字認識処理の制御は、英／日の文字種の判
定を行った各々の文字行毎に、認識結果格納メモリ５の
英／日判定結果情報に従って、英語文字の行に対しては
英文文字認識部７を起動して、英文用文字認識部７で文
字認識処理を行い、日本語文字の行に対しては和文文字
認識部８を起動して、和文文字認識部８で文字認識処理
を行う。文字認識処理の認識結果は、認識結果格納メモ
リ５における認識結果格納テーブル（５０；図３）の該
当する文字行の認識結果の欄に格納する。

【００２５】なお、文書解析部６では、文字認識処理の
制御に先立ち、英／日判定部４の文字種の判定処理によ
り、英／日判別不可能と判定された行および誤って判別
された行の文字種の判定結果の修正処理を行う。すなわ
ち、認識結果格納メモリ５に格納された判定結果で判定
不可能行と判定されている各々の文字行を探索し、その
文字行の判定結果を直後の行の判定結果（英語または日
本語の識別結果）と同一の判定結果に置き換える。ま
た、ある行の前後の行が同一であり、かつ当該行のみが
異なる行に対しては、この行が誤って判別されていると
して、当該行を前後行と同じ識別結果とする修正処理を
行う。

【００２６】このようにして文字種の判定結果により、
英語文字の行に対しては英文文字認識部７が起動され
て、英文用文字認識部７が当該文字行の文字認識処理を
行い、日本語文字の行に対しては和文文字認識部８が起
動されて、和文文字認識部８が当該文字行の文字認識処
理を行う。文字認識の結果は、認識結果格納メモリ５内
の該当する文字行の認識結果の欄に格納されるので、次
に、格納処理部９が、文字認識処理を行った読み取り文
書画像に対応するテキストデータを作成し、文書ファイ
ル格納装置１０に格納する処理を行う。

【００２７】格納処理部９が行う文字認識結果の文書フ
ァイル格納処理は、認識結果格納メモリ５に格納された
各文字行の認識結果を利用して文書画像に対応するテキ
ストデータを作成し、文書ファイル格納装置１０に格納
する処理である。この場合、格納処理部９が行う文書作
成の処理において、文書を作成する際の段落作成は、２
つの文字行間の距離を座標から調ベて近い行であり、か
つ、同じ種類（英語／日本語の種類）の行を、１つの段
落として扱う処理を行う。具体的には、認識結果の文字
列をつないで、先頭に段落記号をつないで先頭に段落記
号を挿入する。

【００２８】このような一連の処理により、文書画像に
対する文字認識処理が連続して行なわれる。この結果、
読み取り対象の文書画像の文字行に対して、自動的に英
／日の文字種の識別を行い、英語文字行に対しては英文
文字認識装置を用いた文字認識処理が行われ、日本語文
字行に対しては和文文字認識装置を用いた文字認識処理
が行われる。このため、総合的に文字認識率を向上させ
ることができ、認識処理時間も短くすることができる。
また、操作者に対する負荷を軽減することもでき、２つ
の文字認識装置に余分な動作をさせることもなくなる。

【００２９】次に、上述のように構成されている文書認
識装置における各処理部について更に詳細に説明する。
図２は文字行抽出部３が行う文字行抽出の処理を説明す
る図であり、図３は一連の処理のワークメモリとなる認
識結果格納メモリ５における認識結果格納テーブルの構
成の一例を示す図である。

【００３０】前述の文字行抽出部３が行う文字行抽出の
処理では、図２に示すように、イメージメモリに格納さ
れた文書画像２１に対して、文書画像２１から文字２２
の並んでいる行方向（Ｘ方向）に黒画素の頻度をとり、
文書画像ビットマップ領域の列方向（Ｙ方向）でのヒス
トグラムを作成すると、図２の左側に示すようなヒスト
グラムが作成される。図２の左側に示すヒストグラム
は、縦方向が右側の文書画像２２のビットマップ領域の
列方向（Ｙ方向）に対応している。図２から明らかなよ
うに、黒画素が多く集中している山の部分の上部端のＹ
座標と幅は、文字行における上部端のＹ座標と高さに一
致する。この文字行が含まれている範囲内に最も左端と
右端に位置する黒画素のＸ座標を取り出すことにより、
文字行の左端のＸ座標と幅を決定できる。これらの処理
によって順次に文書画像から文字行が抽出でき、各々の
文字行に対して、左上端のＸＹ座標，幅，高さが計算さ
れ、文字行領域が抽出される。抽出された各々の文字行
領域の抽出結果の各々のデータは、認識結果格納メモリ
５内に設けられた認識結果格納テーブルの各々の各行の
欄に格納される。

【００３１】図３に示すように、認識結果格納メモリ５
に設けるワークメモリとなる認識結果格納テーブル５０
は、各々の文字行のエントリ（文字行１，文字行２，文
字行３，…，）に対して、当該文字行の左上端点のＸ座
標値５１，当該文字行の左上端点のＹ座標値５２，当該
文字行の幅５３，当該文字行の高さ５４，当該文字行の
英／日判別結果５５，および、当該文字行の文字認識結
果５６を格納する各欄が設けられている。この各文字行
に対する抽出データの各々の欄に、文字行抽出処理で求
めた各文字行の左上端のＸＹ座標値，幅，高さ（ｘ，
ｙ，ｗ，ｈ）の各データが、格納される。なお、文字行
が抽出された時点では当該文字行の英／日判別結果５
５，文字認識結果５６の欄は、格納するデータが未だ確
定されていない状態であり、未定なので空欄のままとな
っている。

【００３２】図４は、英／日判定部４の要部の構成を示
すブロック図であり、図５は、英／日判定部４の処理要
素の矩形抽出部２１の要部の構成を示すブロック図であ
る。また、図６（ａ），図６（ｂ），および図６（ｃ）
は、それぞれ英語および日本語の文字種の複数の文字行
に対する文書原画像，縦横線抽出画像，および矩形抽出
画像の一例を示す図である。

【００３２】英／日判定部４は、図４に示すように、各
々の文字行内の矩形を抽出する矩形抽出部２１と、矩形
の数を計数する矩形計数部２２と、計数した矩形の数に
より英語文／日語語文の文字種の識別を行う英／日識別
部２３から構成されている。英／日判定部４における英
／日の文字種の判定処理では、まず、矩形抽出部２１が
各々の文字行内の矩形を抽出する処理を行い、矩形計数
部２２が各々の文字行で抽出した矩形の数を計数する。
そして、英／日識別部２３が、矩形計数部２２で計数し
た矩形の数により、当該文字行に対して英語文字の文字
行であるか日本語文字の文字行であるかの英／日の文字
種の識別結果を出力する。

【００３３】矩形抽出部２１の構成は、特に限定されな
いが、例えば、図５に示すように、横線検出部３１と、
縦線検出部３２と、縦線／横線合成部３３と、閉領域抽
出部３４とから構成されている。まず、横線検出部３１
が文字行のビットマップ領域の画像から所定の長さの以
上の横線（水平線）を検出し、縦線検出部３２が所定の
長さ以上の縦線（垂直線）を検出する。そして、縦線／
横線合成部３３が検出した縦線および横線の線分を合成
する。縦線および横線の合成処理により、合成された縦
横線の中で閉じた領域（矩形に相当する）が形成される
ので、閉領域抽出部３４が閉領域の抽出処理を行い、矩
形として抽出する。これにより、所定の大きさ以上の矩
形を文字画像の中から抽出する。

【００３４】横線検出部３１および縦線検出部３２が検
出する文字行画像からの所定の長さとしては、ここで
は、文字の大きさ（幅または高さ）の１／４〜１／３程
度にして、横線および縦線の検出を行うようにする。文
字の大きさとしては文字行の高さが文字の高さを示して
いるので、これを用いる。

【００３５】図５に示すような構成の矩形抽出部２１に
より、文字の画像から矩形を抽出する方法について、更
に詳細に説明すると、横線検出部３１では、文字行の画
像を作業用メモリに複写し、文字行の画像を水平方向に
走査して行き、黒画素に出会ったら黒画素の連続してい
る数を計数していく。文字行画像の水平方向の走査を続
けて行き、白画素に出会ったら計数を止める。このとき
の計数値が所定の数に満たない場合は計数してきた黒画
素を削除する。つまり、白画素に置き換える。そして、
再度、計数を止めた画素の位置から走査を再開し、同様
な処理を繰り返す。計数値が所定の数よりも大きい場合
は、黒画素はそのままにしておく。この処理を文字行の
全走査線について行う。これにより、作業用メモリ上に
所定長以上の横線のみが残る。

【００３６】次に、縦線検出部３２は走査方向を垂直方
向とし縦線の検出の処理を行う。縦線検出部３２では走
査方向が垂直方向であることを除いて、横線検出部３１
と同様な処理を行う。縦線／横線合成部３３は、この縦
線および横線の検出処理で得られた縦線／横線を作業用
メモリ上で合成する。すなわち、横線検出部３１の作業
用メモリの内容および縦線検出部３２の作業用メモリの
各々の内容の論理和をとる処理を行い、文字行画像に対
する縦横線のみの画像を得る。

【００３７】閉領域抽出部３４は、縦横線のみの画像中
にある閉領域を抽出する。この閉領域は縦線および横線
のみから構成される閉領域であり、ほぼ矩形と判定され
る領域である。閉領域の検出は、例えば、縦横線のみの
画像を含む文字行領域に対して、領域の外辺に接する全
ての白画素を黒に塗りつぶす処理を行うことにより実行
される。塗りつぶされなかった白画素領域がそれぞれ閉
領域となる。このような一連の処理により、矩形に相当
する閉領域が抽出される。

【００３８】以上の処理を実際に行った画像処理の例を
図６に示す。図６では、日本語文字行および英語文字行
の両者の比較のため、両者の複数の文字行を同時に処理
している画像処理例を示しているが、各々の矩形抽出の
処理内容は同様である。図示の例において、図６（ａ）
は複数の文字行の原画像を示し、図６（ｂ）は縦線／横
線のみを検出して合成した複数の文字行の縦横線画像を
示している。また、図６（ｃ）は矩形を抽出した複数の
文字行の抽出矩形画像を示している。図６（ａ）〜図６
（ｃ）は同一位置を表示しており、図から明らかなよう
に、最終的に得られる図６（ｃ）の抽出矩形画像では、
上部側の日本語文字行の部分では矩形が抽出されている
が、下部側の英語文字行の部分からは、矩形が抽出され
ていない画像となっている。

【００３９】このように、各々の文字行について矩形を
抽出し、文字行画像の領域の矩形を計数することによ
り、日本語文字行および英語文字行の文字種の識別を容
易に識別することができる。

【００４０】図７は、英／日判定部が処理を行う各々の
文字行に対する英／日の文字種の判定処理の一連の処理
手順を示すフローチャートである。図７のフローチャー
トを参照して説明すると、矩形抽出部２１が、まず、文
字行の画像につい矩形を抽出し（ステップ７１）、次
に、矩形計数部２２が、文字行の領域から矩形の数を計
数する（ステップ７２）。計数はラベリングの手法によ
り、抽出矩形画像を走査し、各々の矩形を順次に計数し
て、計数済みの矩形にはラベルを付加して、計数もれが
ないようにして計数する。

【００４１】続いて、英／日識別部２３が計数した矩形
の数および文字行の長さにより、当該文字行が日本語文
字行であるか英語文字行であるかの文字種を判定する。
すなわち、英／日識別部２３では、文字行について計数
した矩形の存在頻度は所定値ｂ以上であるか否かを判定
し（ステップ７３）、矩形の存在頻度は所定値ｂ以上で
あれば、当該文字行は日本語行と判定する（ステップ７
４）。ほとんどの英語文字の行では、矩形は抽出されな
いので、矩形があれば、文字種が日本語文字の文字行と
して良い。

【００４２】しかし、読み取り画像の品質が悪く、文字
がつぶれているような場合には、英語文字の文字行で
も、矩形が検出されることがある。このため、文字行の
矩形の頻度が所定値ｂ以上である場合には、文字種は日
本語文字の行と判定した方が高い精度で判定されること
になる。したがって、ここでは矩形の存在頻度として、
文字行内の文字数当りの矩形の数を取る。ここで用いる
各々の文字行の文字数としては、文字行の幅を文字行の
高さで割った値で代用する。

【００４３】頻度が少ないものは、文字種が英語文字の
行として良いが、極端に文字行が短い場合、日本語文字
の文字行であっても、当該文字行に矩形が含まれないこ
ともあり得る。そこで、判別する文字行の長さが閾値ａ
以上である場合には（ステップ７５）、当該文字行の文
字種を英語行と判定する（ステップ７６）が、文字行の
長さが閾値ａ以上でない場合には文字種の英／日の識別
は判別不可能と判定する（ステップ７７）。

【００４３】英／日識別部２３の処理では、上記のよう
な処理を行い、文字種が日本語文字の行であると判定し
た場合、認識結果格納テーブル５０内の英／日判別結果
５５の欄には“Ｊ（日本語）”の記号を記入する。文字
種が英語文字の行である判定した場合、認識結果格納テ
ーブル５０内の英／日判別結果５５の欄には“Ｅ（英
語）”の記号を記入する。判別不可能な場合には、認識
結果格納テーブル５０内の英／日判別結果５５の欄に
“？（日／英識別不可）”の記号を記入する。文字種の
判別で日／英識別不可とされた文字行については、前述
したように文書解析部６により、英／日判別結果の修正
処理が行なわれて、文字認識処理の制御が行なわれるこ
とになる。

【００４４】すなわち、文書解析部６で、英／日判別不
可能な文字行および誤って判別された文字行に対する英
／日判別結果の修正処理を行うが、これは、認識結果格
納テーブル５０の英／日判別結果５５の欄で“？”記号
が記入されている文字行を探索し、当該文字行の英／日
判別結果の種類を直後の文字行の種類（英語行または日
本語行との識別結果）と同一に置き換える処理により実
行する。そして、次の段階の修正処理により、前後の文
字行の判別結果は同一であるが、当該行のみが異なる文
字行に対して、当該文字行の判別結果は誤判別している
として当該文字行の異なる判別結果をその前後の文字行
と同じ識別結果とする修正処理を行う。このような修正
の結果は認識結果格納テーブル５０に格納される。

【００４５】次に、認識結果格納テーブル５０の情報に
従って、イメージメモリ２内の各々の文字行の文字種に
従って、文字認識部を起動して文字認識を行う。文字画
像の文字種が英語文字の行に対しては英文文字認識部７
を起動して、英文用文字認識部７で文字認識処理を行
い、日本語文字の行に対しては和文文字認識部８を起動
して、和文文字認識部８で文字認識処理を行う。認識結
果は、認識結果格納テーブル５０内の該当する文字行の
文字認識結果５６の欄に格納される。

【００４６】以上に本発明の一実施例を説明したが、こ
のような実施例の各々の処理部における処理を、次のよ
うな処理に変更することによっても、同様に本発明を実
施することができる。すなわち、（１）前述の実施例では、文字種の判定が英／日判定不
能の文字行の判別結果に対して、文書解析部６で判別結
果の修行処理を行い、日／英判別結果の文字種を仮決定
して、英文文字認識部７または和文文字認識部８のいず
れかを起動して文字認識を行うようにしているが、文字
種が判定不能の文字行に対しては、英文文字認識部７お
よび和文文字認識部８の両方を起動し、判定不能の文字
行を英文文字認識部７および和文文字認識部８の両方に
送出して、両方で文字認識処理を行い、得られた文字認
識結果から確からしさの高い方を最終的な文字認識結果
として採用するような構成としてもよい。（２）また、前述の実施例では、各文字行の英語文字／
日本語文字の文字種の判別の特徴パラメータとして、文
字行の文字形状から矩形を抽出し、矩形の頻度のみによ
り判定しているが、他の特徴（文字サイズ，文字ピッチ
等）を併用してもよい。（３）つぶれた英語文字では、矩形が抽出される場合が
あるが、この場合に対しては、予め文字画像を１画素分
〜２画素分だけ細めておいて、矩形抽出の処理を行うよ
うにすれば良い。（４）また、前述の実施例では、文書画像の認識処理を
文字行単位の処理で説明したが、文書画像の認識処理
は、前処理によって文字行，文字間隔などから予め抽出
される文字のブロック単位で処理を行うようにしてもよ
い。

【００４７】本発明の文書認識装置は、日本語／英語の
言語の識別に限られず、日本語とアルファベットとを用
いる言語でも識別可能なことはいうまでもなく、それ以
外にも、中国語とアルファベットを用いる言語等におい
ても識別可能である。この場合には、それらの言語用の
文字認識部を設ければよく、これにより、他の言語の認
識を行う場合にあっても、全体としての文書認識の処理
時間を短時間で終了させることができる。

【００４８】

【発明の効果】以上説明したように、本発明の文書認識
装置によれば、文書画像の文字領域の文字行に対して文
字種の識別を行ってから文字認識を行うので、例えば、
文字種が英語文字の文字行に対しては英文文字認識装置
を用いて文字認識処理を行うことができ、また、文字種
が日本語文字の文字行に対しては和文文字認識装置を用
いて文字認識処理を行うことができる。このため、総合
的に文字認識率を向上させることができ、文書の認識処
理時間も短くすることができる。

【図面の簡単な説明】

【図１】図１は本発明の一実施例にかかる文書認識装
置の全体の構成を示す処理部のブロック図、

【図２】図２は文字行抽出部が行う文字行抽出の処理
を説明する図、

【図３】図３は一連の処理のワークメモリとなる認識
結果格納メモリにおける認識結果格納テーブルの構成の
一例を示す図、

【図４】図４は、英／日判定部の要部の構成を示すブ
ロック図、

【図５】図５は、英／日判定部の処理要素の矩形抽出
部の要部の構成を示すブロック図、

【図６】図６（ａ），図６（ｂ），および図６（ｃ）
は、それぞれ英語および日本語の文字種の複数の文字行
に対する文書原画像，縦横線抽出画像，および矩形抽出
画像の一例を示す図、

【図７】図７は、英／日判定部が処理を行う各々の文
字行に対する英／日の文字種の判定処理の一連の処理手
順を示すフローチャートである。

【符号の説明】

１…画像入力部、２…イメージメモリ、３…文字行抽出
部、４…英／日判定部、５…認識結果格納メモリ、６…
文書解析部、７…英文文字認識部（ＯＣＲ）、８…和文
文字認識部（ＯＣＲ）、９…格納処理部、１０…文書フ
ァイル格納装置、１１…制御／操作部、１２…表示装
置、１３…キーボード、１４…マウス。

Claims

(57)【特許請求の範囲】

【請求項１】文書画像を入力し、文書画像の各文字を
読み取り、文字認識を行う文書認識装置において、文書
画像の文字行の各文字に対して文字中の矩形を抽出する
矩形抽出手段と、前記矩形抽出手段により各文字中から
取り出された矩形の数を文字行領域毎に計数する矩形計
数手段と、前記矩形計数手段から取り出された各文字行
内の矩形の計数値を基に文字行の文字種を識別する文字
種識別手段とを備えることを特徴とする文書認識装置。
【請求項２】請求項１に記載の文書認識装置におい
て、更に、文書画像の文字から第１の文字種の文字を認
識する第１の文字認識手段と、文書画像の文字から第２
の文字種の文字を識識する第２の文字認識手段と、前記
文字種識別手段からの判定信号に応じて、前記第１の文
字認識手段または前記第２の文字認識手段のいずれかを
選択的に起動して、文書画像の各文字の読み取り制御を
行う文書解析手段とを備えることを特徴とする文書認識
装置。