JP3064508B2

JP3064508B2 - 文書認識装置

Info

Publication number: JP3064508B2
Application number: JP3167830A
Authority: JP
Inventors: 昇清水
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1991-06-12
Filing date: 1991-06-12
Publication date: 2000-07-12
Anticipated expiration: 2015-07-12
Also published as: JPH05108876A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は文書画像内における文字
行の文字種識別を行う文書認識装置に関する。

【０００２】

【従来の技術】紙の文書に印刷されている文字や図形を
認識し、ワープロ等の文書編集装置等に入力するための
文書認識装置に関する研究が行われている。文字認識技
術はその中の１要素技術であり、古くから研究が行われ
ている。英文のみを対象とした英文用文字認識装置と、
日本文と英文両方を認識対象としている和文用文字認識
装置とを比較した場合、英文のみの対象に対しては、明
らかに英文用文字認識装置の方が認識率は優れている。
これは、英文の場合は文字種が少ないこと、そして、ア
ルファベットは日本語の文字のように左右に分離した要
素で構成されている文字（たとえば、“化“ は“イ
“と“ヒ“の要素で構成されている）がなく、文字切り
出しの誤りがないことが理由として上げられる。実際の
文書においては、日本文と英文が混在している場合は多
い。しかし、操作者が文書内を英文／和文に切り分け、
それぞれ英文用文字認識装置，和文用文字認識装置の
対象とすることはたいへん煩雑である。また、全てを和
文用文字認識装置の対象とすることは、英文の箇所に対
しては良い認識率を得ることができない。そこで、１
つの対象文書を２つの認識装置（英文用／和文用）の対
象とし、認識の確からしさの高い方を採用する手法はき
わめて容易に考えられる解決策である。また、Ａ．Ｌ
ａｗｒｅｎｃｅＳｐｉｔｚは黒画素の分布特徴より英
／日の識別を行っている。（ＥｌｅｃｔｒｉｃＰｕｂ
ｌｉｓｈｉｎｇ９０，ＣａｍｂｒｉｄｇｅＵｎ
ｉｖｅｒｃｉｔｙＰｒｅｓｓ，Ｒｅｃｏｇｎｉｔ
ｉｏｎＰｒｏｃｅｓｓｉｎｇｆｏｒＭｕｌｔｉｌ
ｉｎｇｕａｌＤｏｃｕｍｅｎｔｓ，ｐ．１９３〜２
０５）

【０００３】

【発明が解決しようとする課題】しかしながら、上記
の方法は常に２つのうち１つを無駄な結果として捨てて
おり、文字認識装置を無駄に作動させていることにな
る。たとえば、漢字“日“の文字を和文用文字認識装置
で処理した場合には漢字の“日“，確からしさが９５
％の結果となり、英文用文字認識装置で処理した場合に
は英字の“Ｂ“，確からしさ７０％の結果になったとす
る。この場合、確からしさは和文用文字認識装置の結果
の方が高いので、“日“を認識結果として採用すれば正
確な認識結果が得られる。しかし、英文用文字認識装置
の結果は使用されないことになるので、結果的には英文
用文字認識装置に無駄な処理を行わせたことになる。ま
た、この処理を順番に、たとえば和文用文字認識装置の
処理を行ってから、英文用文字認識装置の処理を行う、
ということを行っていたのでは、英文用文字認識装置で
の処理時間の分だけ余分に必要となる。また、上記の
方法は複雑で効率が悪く、文字列内の黒画素の縦方向の
分布特徴を利用しているために、規則正しく並んでいる
英文に対しては日本文と誤って判別する場合がある。

【０００４】本発明は以上のような点に鑑みてなされた
もので、その目的とするところは、異なる言語が混在し
ている文書に対しても、簡単な方法で精度のよい認識結
果を得ることができる文書認識装置を提供することにあ
る。

【０００５】

【課題を解決するための手段】本発明では上記課題を解
決するために、文書画像を認識する文書認識装置におい
て、文書画像を２値化する２値変換手段（図１の１）
と、この２値変換手段によって２値化された文書画像内
の文字行に対して該文字行の縦ないしは横方向に反転回
数を計数する２値反転計数手段（図１の４１）と、この
２値反転計数手段によって計数された２値反転回数の分
布から文字種の識別を行う文字種識別手段（図１の４
２）とを有する。

【０００６】

【作用】２値化手段（図１の１）は、文書画像内の文字
行を２値化する。２値反転計数手段（図１の４１）は、
２値化手段によって２値化された文字行に対してその文
字行の縦ないしは横方向に反転回数を計数する。文字種
識別手段（図１の４２）は、２値反転計数手段によって
計数された２値反転回数の分布から文字種の識別を行
う。これにより、自動的に文字行に対して文字種の識別
ができるようになり、文字種が混在している文書でも、
文字種に応じてそれぞれの文字種専用の文字認識装置が
使用可能となる。例えば英語と日本語が混在している文
章においては、英語の行に関しては英文用文字認識装置
を単独に用いた場合と同等な認識率を得ることができ、
また日本語の行に関しては和文用文字認識装置を単独に
用いた場合と同等な認識率を得ることができる。

【０００７】

【実施例】第２図は文書認識装置全体の概要を示すもの
である、この装置は、画像入力部１、イメージメモリ
２、文字行抽出部３、文字種判定部４、認識結果格納メ
モリ５、文書解析部６、英文用文字認識部（ＯＣＲ：
ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅ
ｒ）７、和文用文字認識部（ＯＣＲ）８、格納部９、文
書ファイル格納装置１０、制御／操作部１１からなって
いる。イメージスキャナ等の画像入力部１から紙の文書
の画像（原画像）をデジタル入力し、その原画像を２値
化してイメージメモリ２に格納しておく。この際、制御
／操作部１１を通して原画像を表示装置１１１に表示
し、操作者に対して正規の入力画像であるか、または画
質等の確認を求め、再入力させることも可能である。

【０００８】文字行抽出部３は入力された文書画像から
文字行を抽出する。まず、イメージメモリ２上に格納さ
れている画像を、図３（ａ）のように画像の横方向をＸ
軸、縦方向をＹ軸に座標指定し、次にＸ軸方向、つまり
文字行方向の黒画素の頻度を計数し、図３（ｂ）のよう
なヒストグラムを作成する。このヒストグラムにおい
て、Ｙ軸上に立つ各々のピークは画像上の夫々文字行に
対応する。すなわち、ヒストグラムにおける各々のピー
クのＹ座標値の上端値は画像上の各々の文字行における
Ｙ座標値の上端値と一致する。また、このヒストグラム
における各々のピークのＹ軸方向の幅は、各々の文字行
の高さに相当する。次に、図３（ａ）の画像上における
各々文字行の左端と右端の黒画素のＸ座標を取り出し、
文字行の左端のＸ座標と幅を決定する。これらの処理に
よって、文字行の左上端のＸＹ座標，幅，高さが計算さ
れる。文字行抽出の結果は図４に示すような認識結果格
納メモリ５内の認識結果格納表５１に格納する。この認
識結果格納表５１には文字行の左上のＸ，Ｙ座標と
幅，高さを表内の第１，２，３，４列（ｘ，ｙ，
ｗ，ｈ）に対応させて格納する。また、この際に文字
行を抽出した結果、たとえば文字行の矩形枠を原画像上
に描画した結果を制御／操作部１１を通して、表示装置
１１１に表示し、操作者に対して確認を求め、キーボー
ド１１２やポインティングデバイス１１３を用いて修正
することも可能である。抽出された各々の文字行が英語
（つまり、アルファベットや数字のみで書かれている
行）または日本語（つまり、漢字，ひらがな，カタカナ
を含んだ行であり、アルファベットおよび数字を含む場
合もある）の行であるかを文字種判定部４により判定す
る。

【０００９】文字種判定部４の処理内容を図６のフロー
チャートに沿って説明する。２値反転計数部４１では、
図５に示すように、行内をＹ軸方向（縦方向）に走査し
た場合の反転回数を計数し、Ｘ座標軸上にその回数分布
を作成する。そして、その行における回数の総計を計算
する（ステップ６１）。文字種識別部４２では、２値反
転計数部４１により計数されたＹ軸方向の反転回数の総
計が閾値ｂ以上であるかどうかを調べる（ステップ６
２）。反転回数の総計が閾値ｂ以上であれば日本語と判
定し、認識結果格納表５１内の英／日欄に “Ｊ（日本
語）“ の記号を記入する（ステップ６３）。反転回数
の総計が閾値ｂ未満の場合には、文字行の幅が閾値ａ
（たとえば、全文字行の幅の平均値の８０％以上の長
さ）以上であるかどうかを調べる（ステップ６４）。文
字行の幅が閾値ａ以上の場合は、英語であると判定し、
認識結果格納表５１内の英／日欄に “Ｅ（英語）“
の記号を記入する（ステップ６５）。

【００１０】文字行の幅が閾値ａ未満の場合、直前の行
があるかどうか調べる（ステップ６６）。ある場合は直
前の行の種類（英／日）と同一にする（ステップ６
７）。直前の行の種類は認識結果格納表５１の英／日欄
をコピーする。直前の行がない場合（つまり、先頭の行
の場合）、または直前の行が離れている場合（段の先頭
の場合）には、認識結果格納表５１内の英／日欄に“？
（英／日識別不可）“記号を記入しておく（ステップ６
８）。この英／日識別不可の行は、次の文書解析部６に
よって、英／日の決定が行われる。文書解析部６では、
英／日判別不可能行の修正と、誤って判別された行の修
正を行う。英／日判別不可能と判別された行は、その直
後の行の種類（英／日）と同一言語である場合がほとん
どであるという経験的事実より、認識結果格納表５１内
の英／日欄内で“？“記号が記入されている行、すなわ
ち英／日判別不可能行に対しては、その文字行の種類を
直後の行の種類（英／日）と同一言語とする。次に、前
後の行は同一言語であるがその行は違う言語と判別して
いる場合は誤って判別していることが多いという経験的
事実より、前後の行が同一言語であるがその行は違う言
語として判別している場合には、その前後の行と同一言
語とする。

【００１１】上記文書解析部６によって判別された結果
を格納している認識結果格納メモリ５内における認識結
果格納表５１の情報にしたがって、イメージメモリ２内
の文書画像について英文行は英文用文字認識部７で認識
し、日本文行は和文用文字認識部８で認識する。認識結
果は、認識結果格納表５１内の該当する行の認識結果欄
に格納する。格納部９では、認識結果格納表５１内の認
識結果を利用して文書を作成し、文書ファイル格納装置
１０に格納する。なお、文書内の段落作成は、認識結果
格納表５１内の各文字行の位置を利用し、近い文字行間
隔であって、かつ同じ種類（認識結果格納表５１の第５
列の“英／日“列）の行同士を合わせて、１つの段落を
形成すことによって行う。そして、同一段落内の文字行
の認識結果文字列を、各文字行の座標で上から順につな
いで、文書内の１つの段落として文書ファイル格納装置
１０に格納する。

【００１２】以上、本発明の実施例を詳述したが、本発
明は前記実施例に限定されるものではなく、特許請求の
範囲に記載された本発明を逸脱することなく、種々の変
更が可能である。（１）本実施例の２値反転計数部４１では、反転回数の
総計を計数しているが、各Ｙ軸における反転回数の最大
値を文字種識別の特徴として取り出すことも可能であ
る。（２）Ｘ方向もしくはＹ方向の反転回数によって特徴付
けられる言語同士、例えば、日本語とフランス語、ドイ
ツ語、スペイン語等のアルファベットを用いる言語が識
別可能であることはいうまでもない。それ以外にも、中
国語とアルファベットを用いる言語、ハングル文字とア
ルファベットを用いる言語、アラビア語と日本語、アラ
ビア語と中国語、およびアラビア語とハングル文字等に
おいても、英語と日本語の場合と同様に識別可能であ
る。この場合はそれらの言語用の文字認識部を設ければ
よい。

【００１３】

【発明の効果】以上述べたように本発明では、自動的に
文字行に対して文字種の識別ができるので、文字種が混
在している文書でも、それぞれの文字種専用の文書認識
装置を使用可能となる。例えば英語と日本語が混在して
いる文章においては、英語の行に関しては英文用文字認
識装置を単独に用いた場合と同等な認識率を得ることが
でき、また日本語の行に関しては和文用文字認識装置を
単独に用いた場合と同等な認識率を得ることができるた
め、総合的な認識率を向上させることができるという効
果を有する。さらに、操作者に対する負荷を軽減するこ
ともでき、２つの文字認識装置に余分な動作をさせるこ
ともなくなる、という効果を有する。

【図面の簡単な説明】

【図１】本発明の文字種判定部の内部を示す構成図で
ある。

【図２】文書認識装置全体の概要を示すブロック図で
ある。

【図３】文字行抽出を説明する図である。

【図４】認識結果格納表の構成を示している図であ
る。

【図５】英語と日本語の文字行内の反転回数分布の例
を示している図である。

【図６】文字種判定部のアルゴリズムを示すフローチ
ャートである。

【符号の説明】

１・・画像入力部２・・イメージメモリ３
・・文字行抽出部４・・文字種判定部５・・認識結果格納メモリ６・・文書解析部７・・英文用文字認識部（ＯＣ
Ｒ）８・・和文用文字認識部（ＯＣＲ）９・・・格納
部１０・・・文書ファイル格納装置１１・・・制御
／操作部

Claims

(57)【特許請求の範囲】

【請求項１】文書画像を入力する文書画像入力手段と、前記文書画像入力手段により入力された文書画像から文
字行およびその文字行の幅を抽出する文字行抽出手段
と、前記文字行抽出手段により抽出された文字行の文字種を
識別する第１の文字種識別手段と、前記文字行抽出手段により抽出された文字行の幅がある
基準値未満の場合は、直前の文字行の文字種と同一であ
ると識別する第２の文字種識別手段を具備したことを特
徴とする文書認識装置。
【請求項２】文書画像を入力する文書画像入力手段と、前記文書画像入力手段により入力された文書画像から文
字行およびその文字行の幅を抽出する文字行抽出手段
と、前記文字行抽出手段により抽出された文字行の文字種を
識別する第１の文字種識別手段と、前記第１の文字種識別手段により識別された文字種が日
本語文字ではないと識別された場合であり、かつ、前記
文字行抽出手段により抽出された文字行の幅がある基準
値未満の場合は、直前の文字行の文字種と同一であると
識別する第２の文字種識別手段を具備したことを特徴と
する文書認識装置。
【請求項３】文書画像を入力する文書画像入力手段と、前記文書画像入力手段により入力された文書画像から文
字行を抽出する文字行抽出手段と、前記文字行抽出手段により抽出された文字行の文字種を
識別する文字種識別手段と、前記文字種識別手段により識別された文字種が前後の文
字行の文字種と異なる場合は、その行の文字種を直前ま
たは直後の文字行の文字種と同一であると判別する文書
解析手段を具備したことを特徴とする文書認識装置。