JPH0424757A

JPH0424757A - 文書処理装置

Info

Publication number: JPH0424757A
Application number: JP2125931A
Authority: JP
Inventors: Kinya Takahashi; 欣也高橋; Masashi Kiriyama; 桐山　雅至
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1990-05-15
Filing date: 1990-05-15
Publication date: 1992-01-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、文字認識装置に関し、特にＯＣＲ（光学式文
字読み取り装置）に関するものである。

〔従来の技術〕

新聞や書籍等の記事を電子化し、ファイリンクしたり、
データヘース化することにより、効率的にそれらを利用
しようとする動きが急速に高まってきており、印刷文書
を高速・高精度に入力できる文字認識装置の開発が急が
れている。

この文字認識装置の−っにＯＣＲ（光学式文字読取装置
）がある。

従来、このＯＣＲで認識した文書の出力形態は固定され
ており、ユーザが出力形態を指定することはできなかっ
た。つまり、目的の文書の体裁を無視し、文字コードだ
けを表示するか、目的の文書の体裁に合わせて、空白、
改行コードを出力するかは、あらかじめ決められていた
。又、段落の認識を高精度に認識することはできなかっ
た。

〔発明が解決しようとしている課題〕

しかし、上記従来例では、出力形態をユーザか変更でき
ないため次のような欠点があった。

（１）文字コートのみの出力の場合、目的の文書形態に
合わせて認識後にあらためて空白、改行コートの入力を
行う。

（２）初めから空白、段落を共に認識し、表示部に表示
すると、認識に時間がかかるという問題点か起こる。

つまり、出力形態を指定できないと、目的の文書を得る
のに時間がかかるという問題点があった。

（３）又、段落を認識する場合であっても、高精度に段
落を認識することができないという問題点があった。

〔課題を解決するための手段〕

本発明によれば、目的の出力形態を指定するだめの指示
手段、文字情報を格納するための記憶手段、空白、改行
、段落等の出力を制御する制御手段、文字の識別処理を
行う認識手段を設けることにより、ユーザが指定した認
識モードに従って文字を認識し、出力することが可能で
ある。

本発明によれば、文字行の間隔、或いは文字行の先頭部
の空白、或いは文字行の最終文字位置から高精度に段落
を認識することが可能となる。

〔実施例〕

以下に本発明の１実施例について詳細に説明する。

尚、本発明は、文字認識装置、或いは、文字認識装置を
有した文字処理装置に適用でき、又、１つの機器から成
る装置であっても良いし、複数の機器から成るシステム
であっても良いことは言うまでもない。

第１図はこの発明の一実施例を示す文字認装置のブロッ
ク図であり、ｌはＣＲＴ表示部で、ラスクスキャンして
文書画像データを表示する。２はビデオＲＡＭ　（ＶＲ
ＡＭ）で、ＣＲＴ表示部Ｉの１画面のパターン展開情報
を記憶する。３は表示制御部で、ＶＲＡＭ２へのパター
ン展開制御およびＣＲＴ表示部ｌへのパターン読み出し
を制御する。４はマイクロプロセッサ（ＭＰＵ）で、各
部を総括的に制御する。５は主メモリで、制御プログラ
ムを内蔵するＲＯＭとデータ処理のためのワークメモリ
となるＲＡＭから構成されている。６は文字認識部で、
文字イメージとパターンの整合をおこない文字コートを
出力する。７は外部磁気ディスク装置で、識別結果、及
び候補文字が書き込まれる。８はこの発明の指示手段を
兼ねるポインティングデバイス（ＰＤ）で、ＣＲＴ表示
部ｌの任意の位置を指定する。９はキーホード、１０は
Ｉ１０バスで、各ブロックとＭＰＵ４とを接続する。

尚、第１図のブロック図では、文字認識装置として説明
したが、前述した様に文字処理装置において、認識機能
を付加しても良く、その場合は、前述のＲＯＭは、文書
処理プログラムをも格納しているものである。又、ＭＰ
Ｕは、文字認識部６にも設けられ、ＭＰＵ４による文書
処理制御と並行的に処理が行なわれるものである。

文書編集中に、画面上で、認識処理への移行の為のアイ
コンが表示され、そのアイコンをＰＤ等で指示すると、
認識処理に移行し、例えば認識結果の出力形態を選択す
るメニューが表示される。或いは、スキャナからのイメ
ージを入力を行う為のアイコンを指示すると、自動的に
上述の第２図に示すメニューが表示される様にしても良
い。

第２図は、ＣＲＴ表示部１に表示された、出力形態を任
意に選択するためのメニュー画面である。この画面によ
り、ユーザは任意に出力形態を指示することができる。

認識結果出力部は、文字認識装置の出力データから指定
された出力モートに従った形態の文字列を生成する。

第３図（ａ）は、文書画像の一例を模式的に示した図で
ある。斜線の矩形（３１）は各文字の外接矩形を示す。

また、３２は文字行の矩形を示している。

文字認識装置では、文字の切り出し処理により文書画像
から各文字の外接矩形を求め、続いて、その文字画像に
対する文字コートを求める。これら各文字の文字コード
と外接矩形の位置は、本装置のＲＡＭ上に格納される。

尚、文字認識装置における文字の切り出し処理では、文
書画像に対して、まず、文字行方向の度数分布を求め文
字行の位置を検出し、ついて、各文字行部分の画像を文
字行と垂直方向の度数分布を求めることにより、その文
字行にある文字の左右端を検出している。従って、文字
認識の対象である文書の各行における先頭の文字と最後
の文字かとれであるかは文字認識装置により識別される
ので、その情報もＲＡＭ上に格納しておく。

第４図は、本装置のＲＡＭ上の主要なデータを示した図
である。

文字情報格納領域４１には、各文字に対する７つの情報
を文字の出現順に格納しである。ＣＤ　（ｉ）　（Ｑ≦
１〈全文字数）は、文字認識装置によって得られた文字
コート、又、第３図（ｂ）に示す様に、ＣＰＸ（ｉ）、
ＣＰＹ　（ｉ）、ＣＰＷ（ｉ）、ＣＰＨ（ｉ）は外接矩
形を表し、ＣＰＸ　（ｉ）、ＣＰＹ　（ｉ）はそれぞれ
、外接矩形の左上端のＸＳＹ座標を、ＣＰＷ（ｉ）、Ｃ
ＰＨ（ｉ）はそれぞれ、幅及び高さを表わす。ＢＬ　（
ｉ）は、その文字の直前に幾つの空白文字が入るかを表
わし、ＬＦ　（ｉ）は、段落の区切りとして、その文字
の直後にいくつの改行文字を入れるかを表わす。ＢＬ（
ｉ）、　ＬＦ　（ｉ）は初期値は０であり、後述の処理
により適宜、値が格納される。ＢＬ　（ｉ）、ＬＰ　（
ｉ）以外のフィールドは文字認識装置によって値が格納
される。

文字行情報格納領域４２には、各文字行に関する情報が
文字行の出現順に格納される。ＬＳ　（ｉ）にはその文
字行に含まれる文字に対する文字情報格納領域の先頭の
文字へのアドレスが格納されている。

又、第３図（ｂ）に示す様に、ＬＰＸ　（ｊ）、ＬＰＹ
　（ｊ）ＬＰＷ　（Ｄ、ＬＰＨ（ｊ）は文字行の矩形を
表わし、その文字行に含まれる全文字を包含する最小の
矩形である。ＰＴ　（ｊ）はその文字行を構成する文字
列の文字ピッチで、各文字位置から平均的な値を求め格
納する。また同様に、ＷＤ　（ｊ）は、その文字行の平
均的な文字幅を表わす。

第５図は認識結果出力部のフローである。

まず文書の左右端検出部５５−１では、対象の文書画像
（例えば第７図）の左端のＸ座標ＬＸ、右端のＸ座標Ｒ
Ｘ、を求める。左端座標ＬＸは文字行情報格納領域４２
の各文字行矩形の左端ＬＰＸ　（ｊ’）　（０≦ｊ＜Ｎ
Ｌ）（ＮＬは文字行数）の最小値として求める。同様に
、右端ＲＸには各文字行の右端座標ＬＰＸ（ｊ）＋ＬＰ
Ｗ（Ｊ）が最大のものを選ぶ。求められた文書の左端Ｌ
Ｘ及び右端ＲＸはＲＡＭ上に保存しておく。

文字高さ検出部５５−２ては、文書中の本文に相当する
部分の文字高さＦＨを求める。本文以外の文字行を除外
するため、前行と同し高さを持つ文字行矩形が最も多く
連続して現われる部分を抽出し、それらの高さの平均を
持って文字高さＦＨとする。

隣接する文字行が同し高さを持つかとうかの判定１−α
＜　ＬＰＨ（ｊ　−１）　／ＬＰＨ（ｊ）　＜　１＋α
旦し　１≦ｊ＜ＮＬ・・・・・・・・・・・・・式Ｓ５−２−１で行なう。

αは誤差を吸収するためのもので、例えば、０，２を、
用いる。これにより、第７図における見出し部７−１が
除外される。

文字行間隔検出部５５−３では、本文に相当する部分の
文字行間隔ＬＳを求める。文字高さ検出部と同様に、前
文字行間スペースと同し文字行間スペースが最も多く連
続して現われる部分を抽出し、それらの平均をもって文
字行間隔ＬＳとする。隣接する文字行間隔が、同じかと
うかの判定は、■−α＜　（ＬＰＹ（ｊ＋１）−ＬＰＹ
（ｊ）＋ＬＰＨ（ｊ）））／（ＬＰＹ（ｊ）−（ＬＰＹ
（ｊ−１）＋ＬＰＨ（ｊ−１）））＜１＋α 但し　１≦ｊ＜ＮＬ−１・・・・・・・・・・・・・式Ｓ５−３−１て行なう。

文字高さＦＨ及び文字行間隔ＬＳはＲＡＭ上に保存して
おく。これにより、後述の第７図においては、７−２と
７−３が識別できる。

空白検出部５５−４では、各文字行内で空白文字相当の
空白を見付は文字情報格納領域４１のＢＬ　（ｉ）に格
納する。

文字行Ｊて、文字】−１と文字ｉ（１≦１〈文字行Ｊて
の文字数）との間の空白の長さＣＰＸ　（ｉ）　−（Ｃ
ＰＸ（ｉ−１）＋ＣＰＷ　（１−１））か、その文字行
の文字ピッチＰＴ　（ｊ’）の何倍になっているかを算
出し、最も整数値をＢＬ　（ｉ）に格納する。■空白分
もおいていない場合には、０を代入する。また文字行最
初の文字Ｓに対しては、文書左端座標ＬＸとＣＰｘ　（
ｓ）との差が文字ピッチＰＴ　（ｊ）の何整数倍になっ
ているかを算出しＢＬ　（ｓ）に格納する。

段落検出部５５−５では、段落の区切りを見付け、その
区切りの文字のＬＰ　（ｉ）に所定の値を格納する。

段落の区切りは、以下の条件で定める。

（１）文字行間隔が本文文字行間隔ＬＳに比べ大きい部
分は段落の変わり目である。

（２）文字行の先頭部に空白がある文字行は、段落の先
頭行である。

（３）文字行最後の文字が文書右端まで至っていない文
字行は段落最終行である。

具体的には（１）　（２）　（３）は次のいづれかの条
件式を満足する場合に段落の境界とする。

文字行ｊ（１≦ｊ＜ＮＬ）について、（１’　）　（ＬＰＹ（、ｉ）　−ＬＰＹ（ｊ　−１）
＋Ｌ、ＰＨ（ｊ）））／ＬＳ〉　ｍ（２’）ＢＬ　　（ｓ）　　＞０（３’）ＲＸ−ＣＰＸ　　（ｅ）＞２ＷＤ　　（ｊ）こ
こてＳは文字行Ｊの先頭文字の文字番号、ｅは前文字行
ｊ−１の最後の文字の文字番号とする。ｍは例えば２を
その値とする。

（２′）あるいは（３′）が成立した場合には、ＬＦ（
ｅ）に１を代入する。また（１′）が成立した場合には
、（ＬＰＹ　（Ｊ）−（ＬＰＹ　（Ｊ−１）＋ＬＰＨ（
ｊｌ）））／　（ＰＨ＋ＬＳ）の値に最も近い整数値が
１以上の時にはその整数値＋１の値を、整数値が０の時
には、２をＬＰ　（ｅ）に代入する。尚、処理の手順の
詳細は、第７図、第８図において説明する。

文字列出力部５５−６では、指定された出力モードに従
って、所望の文字列を出力する。

出力モートは、行内の空白を認識するかしないかと、改
行コートを認識文書の行末毎に入れるか、段落ごとに入
れるか、それとも改行コートをとこにもいれないかが指
定できる。

第６図６は文字列出力部の詳細なフローである。

０からＮＬ−１のＮＬ行の文字行に対して、８６３〜Ｓ
６−１４の処理を行なう。５６−３では、文字行Ｊの最
初の文字の文字番号を１に代入する。文字行最初の文字
は文字行情報格納領域のＬＳ　（ｊ’）から知ることが
できる。文字行ｊの各文字について、５６−５〜Ｓ６−
１２の処理を行なう。その文字行の最後の文字であるか
とうかは５６−４の条件分岐で行なう。まず、出力モー
トが行内の空白を認識するモートの時で（Ｓ６−５）、
かつ文字ｉの前に空白文字分のスペースがおいている場
合（Ｓ６−６）には、５６−７てＢＬ　（ｉ）この空白
文字を出力する。

そうでない場合には、何も出力せず、５６−８の処理に
移る。５６−８では、認識装置で認識された結果の文字
コーｔ”ＣＤ（ｉ）を出力する。その後、出力モードが
段落の終わりに改行コードを認識するモートの峙て（Ｓ
６−９）、かつ改行コードを入れるべき場合（Ｓ６−１
０）、Ｓ６−１１でＬＰ　（ｉン個の改行コードを出力
する。文字行Ｊの全文字が終了した場合、Ｓ６−１３て
出力モートが、行末毎に改行するモートであるかを判断
し、その場合には、無条件に３６−１４で１個の改行コ
ートを出力する。５６−２で全文字行か終了したと判断
された時に本処理は終了する。

本実施例では、出力モートの種類に関わらず、５５−１
−３５−５の処理を全て行なっているが、出力モートに
応じて幾つかの処理をスキップしてもよい。例えば、段
落を認識しなくてもよいモートの時は、５５−２．５５
−３の処理をする必要はない。

また段落、行内の空白共に認識しなくてもよいモートの
時は、５５−１〜５５−５の処理は必要ない。このよう
な制御を組み込む事によって処理速度の向上をはかるこ
とができる。

次に、第５図の段落検出部５５−５について、詳述する
。ここでは、段落の区切りを見つけ、その区切りの文字
のＬＦ　（ｉ）に所定の値を格納する。

段落の区切りは、以下の条件により定める。

第７図は、入力文書の模式図である。

第７図の文書例では、文字行７−１は見出し部、７−２
は本文、７−３は例えば何条書き部分に相当する。本段
落検出部では、文字行７−１、文字行７−４から文字行
７−５まで、文字行７−６から文字行７−７まで、文字
行７−８から文字行７−９まで、文字行７−１０を段落
として検圧することを目的とする。尚、文字行７−８は
、右端まで文字があるので、文字行７−９まで連続して
いるわけである。

第８図は段落検出部の詳細フローである。

文字行番号０からＮＬ−１のＮＬ個の文字行に対して、
文字行番号１の文字行から順に処理を始める（Ｓ８−１
）。各文字行ｊに対して、５８−３から８８１２の処理
を行う。まず、文字行ｊの先頭の文字番号を第１図の４
或いは５に設けられるレジスタＳに格納する。他のレジ
スタも、前記場所に適宜、設けられており、プログラム
上の１つの保持、メモリとして、使用される。レジスタ
Ｓの領域はＲＡＭ上に確保する。先頭の文字番号は文字
行情報格納領域４２のＬＳ　（ｊ）から得ることができ
る。同様に、文字行Ｊの前の文字行ｊ−１の最後の文字
の番号をレジスタｅに格納する。ｅの領域はＲＡＭ上に
確保する。前文字行の最後の文字番号は文字行情報格納
領域４２のＬＳ　（ｊ）が指し示す文字の１つ前の文字
であることから容易に得ることができる。Ｓ８５では文
字行ｊ−１と文字行Ｊとの文字行間隔が本文部の文字行
間隔ＬＳと比較して大きい場合には、文字行ｊと文字行
ｊ−１は異なる段落と判断し、５８−６の処理に移行す
る。

５８−５の判断は、具体的には、（ＬＰＹ（ｊ）−（ＬＰＹ（ｊ−１）＋ＬＰＨ（ｊ−１
）））／ＬＳ〉ｍ　　・・式８−５−１て行う。ここてｍは例えば２とする。

５８−６では、空行か何行文かあるか算出しその値をレ
ジスタｎに格納する。ｎは具体的には、ｎ＝　（ＬＰＹ
（ｊ）−（ＬＰＹ（ｊ−１）＋ＬＰＨ（ｊ−１）＋ＬＰ
Ｈ（ｊ−１）））／（ＦＨ＋ＬＳ）・・・・・・・・・
・・・・・式８−６−１その結果、ｎが１以上の時には
（Ｓ８−７）、Ｓ８８でＬＦ　（ｅ’）にｎ＋１の値を
格納する。そうてない場合には、２をＬＦ　（ｅ）に格
納する。ＬＦ　（ｅ）の値は、後に改行コートを出力す
る際の改行コートの数に相当する。５−１０では、文字
行Ｊの先頭の文字Ｓの前に空白があるかとうかを判断す
る。具体的には、文字情報格納領域４１のＢＬ　（ｓ）
がＯより大きいかとうがて判断する。空白があると判断
された時には、５−１１に移行し、ＬＦ　（ｅ）に１を
格納する。

５−１２では、文字行ｊ−１の最後の文字ｅの後ろに、
空白があるかとうかを判断する。空白は最後の文字ｅの
位置と文書右端との距離により判断し、具体的には、ＲＸ−ＣＰＸ（ｅ）＞２ＷＤ（ｊ−１）　　−式８−１
２−１で定める。これにより、第７図における７−５，
７−９，７−１０の行が、各段落の終わりであることが
認識できる。

以上の処理をｊ＝１からＮＬ−１まで行い、本処理を終
了する。この結果、段落の区切りは、各文字のＬＦ　（
ｉ）の値を参照し、０より大きな値が格納されている文
字が段落の終わりの文字であることから認識できる。

〔効果〕

以上、詳述した様に、本発明により、所望の文書の体裁
に合わせて、認識された文書を出力することが可能とな
る。

【図面の簡単な説明】

第１図は本発明の実施例を示すブロック図、第２図は認
識モード選択画面の説明図、第３図（ａ）、（ｂ）は文
書画像の１例の模式図、第４図は主要なデータ領域を示
す図、第５図は認識結果出力部のフロー図、第６図は文字列出力部の詳細フロー図、第７図は文書画
像の１例を示す模式図、第８図は段落検出のフロー図、４はＭＰＵ５は主メモリ６は認識部

Claims

【特許請求の範囲】文書情報の認識を行う認識手段、文書情報の出力形態を指定する指定手段、前記指定手段によって指定された出力形態に基づいて、
前記認識手段によって認識された文書情報の出力形態を
制御する出力制御手段とを有したことを特徴とする文書
処理装置。