JP3064508B2 - 文書認識装置 - Google Patents

文書認識装置

Info

Publication number
JP3064508B2
JP3064508B2 JP3167830A JP16783091A JP3064508B2 JP 3064508 B2 JP3064508 B2 JP 3064508B2 JP 3167830 A JP3167830 A JP 3167830A JP 16783091 A JP16783091 A JP 16783091A JP 3064508 B2 JP3064508 B2 JP 3064508B2
Authority
JP
Japan
Prior art keywords
character
line
unit
character line
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3167830A
Other languages
English (en)
Other versions
JPH05108876A (ja
Inventor
昇 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP3167830A priority Critical patent/JP3064508B2/ja
Publication of JPH05108876A publication Critical patent/JPH05108876A/ja
Application granted granted Critical
Publication of JP3064508B2 publication Critical patent/JP3064508B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書画像内における文字
行の文字種識別を行う文書認識装置に関する。
【0002】
【従来の技術】紙の文書に印刷されている文字や図形を
認識し、ワープロ等の文書編集装置等に入力するための
文書認識装置に関する研究が行われている。文字認識技
術はその中の1要素技術であり、古くから研究が行われ
ている。英文のみを対象とした英文用文字認識装置と、
日本文と英文両方を認識対象としている和文用文字認識
装置とを比較した場合、英文のみの対象に対しては、明
らかに英文用文字認識装置の方が認識率は優れている。
これは、英文の場合は文字種が少ないこと、そして、ア
ルファベットは日本語の文字のように左右に分離した要
素で構成されている文字(たとえば、“化“ は“イ
“と“ヒ“の要素で構成されている)がなく、文字切り
出しの誤りがないことが理由として上げられる。実際の
文書においては、日本文と英文が混在している場合は多
い。しかし、操作者が文書内を英文/和文に切り分け、
それぞれ英文用文字認識装置, 和文用文字認識装置の
対象とすることはたいへん煩雑である。また、全てを和
文用文字認識装置の対象とすることは、英文の箇所に対
しては良い認識率を得ることができない。そこで、1
つの対象文書を2つの認識装置(英文用/和文用)の対
象とし、認識の確からしさの高い方を採用する手法はき
わめて容易に考えられる解決策である。また、A.L
awrence Spitzは黒画素の分布特徴より英
/日の識別を行っている。(Electric Pub
lishing 90 , Cambridge Un
ivercity Press , Recognit
ion Processing for Multil
ingualDocuments , p.193〜2
05 )
【0003】
【発明が解決しようとする課題】しかしながら、上記
の方法は常に2つのうち1つを無駄な結果として捨てて
おり、文字認識装置を無駄に作動させていることにな
る。たとえば、漢字“日“の文字を和文用文字認識装置
で処理した場合には漢字の“日“, 確からしさが95
%の結果となり、英文用文字認識装置で処理した場合に
は英字の“B“,確からしさ70%の結果になったとす
る。この場合、確からしさは和文用文字認識装置の結果
の方が高いので、“日“を認識結果として採用すれば正
確な認識結果が得られる。しかし、英文用文字認識装置
の結果は使用されないことになるので、結果的には英文
用文字認識装置に無駄な処理を行わせたことになる。ま
た、この処理を順番に、たとえば和文用文字認識装置の
処理を行ってから、英文用文字認識装置の処理を行う、
ということを行っていたのでは、英文用文字認識装置で
の処理時間の分だけ余分に必要となる。また、上記の
方法は複雑で効率が悪く、文字列内の黒画素の縦方向の
分布特徴を利用しているために、規則正しく並んでいる
英文に対しては日本文と誤って判別する場合がある。
【0004】本発明は以上のような点に鑑みてなされた
もので、その目的とするところは、異なる言語が混在し
ている文書に対しても、簡単な方法で精度のよい認識結
果を得ることができる文書認識装置を提供することにあ
る。
【0005】
【課題を解決するための手段】本発明では上記課題を解
決するために、文書画像を認識する文書認識装置におい
て、文書画像を2値化する2値変換手段(図1の1)
と、この2値変換手段によって2値化された文書画像内
の文字行に対して該文字行の縦ないしは横方向に反転回
数を計数する2値反転計数手段(図1の41)と、この
2値反転計数手段によって計数された2値反転回数の分
布から文字種の識別を行う文字種識別手段(図1の4
2)とを有する。
【0006】
【作用】2値化手段(図1の1)は、文書画像内の文字
行を2値化する。2値反転計数手段(図1の41)は、
2値化手段によって2値化された文字行に対してその文
字行の縦ないしは横方向に反転回数を計数する。文字種
識別手段(図1の42)は、2値反転計数手段によって
計数された2値反転回数の分布から文字種の識別を行
う。これにより、自動的に文字行に対して文字種の識別
ができるようになり、文字種が混在している文書でも、
文字種に応じてそれぞれの文字種専用の文字認識装置が
使用可能となる。例えば英語と日本語が混在している文
章においては、英語の行に関しては英文用文字認識装置
を単独に用いた場合と同等な認識率を得ることができ、
また日本語の行に関しては和文用文字認識装置を単独に
用いた場合と同等な認識率を得ることができる。
【0007】
【実施例】第2図は文書認識装置全体の概要を示すもの
である、この装置は、画像入力部1、イメージメモリ
2、文字行抽出部3、文字種判定部4、認識結果格納メ
モリ5、文書解析部6、英文用文字認識部(OCR :
Optical Character Reade
r)7、和文用文字認識部(OCR)8、格納部9、文
書ファイル格納装置10、制御/操作部11からなって
いる。イメージスキャナ等の画像入力部1から紙の文書
の画像(原画像)をデジタル入力し、その原画像を2値
化してイメージメモリ2に格納しておく。この際、制御
/操作部11を通して原画像を表示装置111に表示
し、操作者に対して正規の入力画像であるか、または画
質等の確認を求め、再入力させることも可能である。
【0008】文字行抽出部3は入力された文書画像から
文字行を抽出する。まず、イメージメモリ2上に格納さ
れている画像を、図3(a)のように画像の横方向をX
軸、縦方向をY軸に座標指定し、次にX軸方向、つまり
文字行方向の黒画素の頻度を計数し、図3(b)のよう
なヒストグラムを作成する。このヒストグラムにおい
て、Y軸上に立つ各々のピークは画像上の夫々文字行に
対応する。すなわち、ヒストグラムにおける各々のピー
クのY座標値の上端値は画像上の各々の文字行における
Y座標値の上端値と一致する。また、このヒストグラム
における各々のピークのY軸方向の幅は、各々の文字行
の高さに相当する。次に、図3(a)の画像上における
各々文字行の左端と右端の黒画素のX座標を取り出し、
文字行の左端のX座標と幅を決定する。これらの処理に
よって、文字行の左上端のXY座標,幅,高さが計算さ
れる。文字行抽出の結果は図4に示すような認識結果格
納メモリ5内の認識結果格納表51に格納する。この認
識結果格納表51には文字行の左上のX, Y座標と
幅,高さを表内の第1,2,3,4列(x, y,
w, h)に対応させて格納する。また、この際に文字
行を抽出した結果、たとえば文字行の矩形枠を原画像上
に描画した結果を制御/操作部11を通して、表示装置
111に表示し、操作者に対して確認を求め、キーボー
ド112やポインティングデバイス113を用いて修正
することも可能である。抽出された各々の文字行が英語
(つまり、アルファベットや数字のみで書かれている
行)または日本語(つまり、漢字,ひらがな,カタカナ
を含んだ行であり、アルファベットおよび数字を含む場
合もある)の行であるかを文字種判定部4により判定す
る。
【0009】文字種判定部4の処理内容を図6のフロー
チャートに沿って説明する。2値反転計数部41では、
図5に示すように、行内をY軸方向(縦方向)に走査し
た場合の反転回数を計数し、X座標軸上にその回数分布
を作成する。そして、その行における回数の総計を計算
する(ステップ61)。文字種識別部42では、2値反
転計数部41により計数されたY軸方向の反転回数の総
計が閾値b以上であるかどうかを調べる(ステップ6
2)。反転回数の総計が閾値b以上であれば日本語と判
定し、認識結果格納表51内の英/日欄に “J(日本
語)“ の記号を記入する(ステップ63)。反転回数
の総計が閾値b未満の場合には、文字行の幅が閾値a
(たとえば、全文字行の幅の平均値の80%以上の長
さ)以上であるかどうかを調べる(ステップ64)。文
字行の幅が閾値a以上の場合は、英語であると判定し、
認識結果格納表51内の英/日欄に “E(英語)“
の記号を記入する(ステップ65)。
【0010】文字行の幅が閾値a未満の場合、直前の行
があるかどうか調べる(ステップ66)。ある場合は直
前の行の種類(英/日)と同一にする(ステップ6
7)。直前の行の種類は認識結果格納表51の英/日欄
をコピーする。直前の行がない場合(つまり、先頭の行
の場合)、または直前の行が離れている場合(段の先頭
の場合)には、認識結果格納表51内の英/日欄に“?
(英/日識別不可)“記号を記入しておく(ステップ6
8)。この英/日識別不可の行は、次の文書解析部6に
よって、英/日の決定が行われる。文書解析部6では、
英/日判別不可能行の修正と、誤って判別された行の修
正を行う。英/日判別不可能と判別された行は、その直
後の行の種類(英/日)と同一言語である場合がほとん
どであるという経験的事実より、認識結果格納表51内
の英/日欄内で“?“記号が記入されている行、すなわ
ち英/日判別不可能行に対しては、その文字行の種類を
直後の行の種類(英/日)と同一言語とする。次に、前
後の行は同一言語であるがその行は違う言語と判別して
いる場合は誤って判別していることが多いという経験的
事実より、前後の行が同一言語であるがその行は違う言
語として判別している場合には、その前後の行と同一言
語とする。
【0011】上記文書解析部6によって判別された結果
を格納している認識結果格納メモリ5内における認識結
果格納表51の情報にしたがって、イメージメモリ2内
の文書画像について英文行は英文用文字認識部7で認識
し、日本文行は和文用文字認識部8で認識する。認識結
果は、認識結果格納表51内の該当する行の認識結果欄
に格納する。格納部9では、認識結果格納表51内の認
識結果を利用して文書を作成し、文書ファイル格納装置
10に格納する。なお、文書内の段落作成は、認識結果
格納表51内の各文字行の位置を利用し、近い文字行間
隔であって、かつ同じ種類(認識結果格納表51の第5
列の“英/日“列)の行同士を合わせて、1つの段落を
形成すことによって行う。そして、同一段落内の文字行
の認識結果文字列を、各文字行の座標で上から順につな
いで、文書内の1つの段落として文書ファイル格納装置
10に格納する。
【0012】以上、本発明の実施例を詳述したが、本発
明は前記実施例に限定されるものではなく、特許請求の
範囲に記載された本発明を逸脱することなく、種々の変
更が可能である。 (1)本実施例の2値反転計数部41では、反転回数の
総計を計数しているが、各Y軸における反転回数の最大
値を文字種識別の特徴として取り出すことも可能であ
る。 (2)X方向もしくはY方向の反転回数によって特徴付
けられる言語同士、例えば、日本語とフランス語、ドイ
ツ語、スペイン語等のアルファベットを用いる言語が識
別可能であることはいうまでもない。それ以外にも、中
国語とアルファベットを用いる言語、ハングル文字とア
ルファベットを用いる言語、アラビア語と日本語、アラ
ビア語と中国語、およびアラビア語とハングル文字等に
おいても、英語と日本語の場合と同様に識別可能であ
る。この場合はそれらの言語用の文字認識部を設ければ
よい。
【0013】
【発明の効果】以上述べたように本発明では、自動的に
文字行に対して文字種の識別ができるので、文字種が混
在している文書でも、それぞれの文字種専用の文書認識
装置を使用可能となる。例えば英語と日本語が混在して
いる文章においては、英語の行に関しては英文用文字認
識装置を単独に用いた場合と同等な認識率を得ることが
でき、また日本語の行に関しては和文用文字認識装置を
単独に用いた場合と同等な認識率を得ることができるた
め、総合的な認識率を向上させることができるという効
果を有する。さらに、操作者に対する負荷を軽減するこ
ともでき、2つの文字認識装置に余分な動作をさせるこ
ともなくなる、という効果を有する。
【図面の簡単な説明】
【図1】 本発明の文字種判定部の内部を示す構成図で
ある。
【図2】 文書認識装置全体の概要を示すブロック図で
ある。
【図3】 文字行抽出を説明する図である。
【図4】 認識結果格納表の構成を示している図であ
る。
【図5】 英語と日本語の文字行内の反転回数分布の例
を示している図である。
【図6】 文字種判定部のアルゴリズムを示すフローチ
ャートである。
【符号の説明】
1・・画像入力部 2・・イメージメモリ 3
・・文字行抽出部 4・・文字種判定部 5・・認識結果格納メモリ 6・・文書解析部 7・・英文用文字認識部(OC
R) 8・・和文用文字認識部(OCR) 9・・・格納
部 10・・・文書ファイル格納装置 11・・・制御
/操作部

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】文書画像を入力する文書画像入力手段と、 前記文書画像入力手段により入力された文書画像から文
    字行およびその文字行の幅を抽出する文字行抽出手段
    と、 前記文字行抽出手段により抽出された文字行の文字種を
    識別する第1の文字種識別手段と、 前記文字行抽出手段により抽出された文字行の幅がある
    基準値未満の場合は、直前の文字行の文字種と同一であ
    ると識別する第2の文字種識別手段を具備したことを特
    徴とする文書認識装置。
  2. 【請求項2】文書画像を入力する文書画像入力手段と、 前記文書画像入力手段により入力された文書画像から文
    字行およびその文字行の幅を抽出する文字行抽出手段
    と、 前記文字行抽出手段により抽出された文字行の文字種を
    識別する第1の文字種識別手段と、 前記第1の文字種識別手段により識別された文字種が日
    本語文字ではないと識別された場合であり、かつ、前記
    文字行抽出手段により抽出された文字行の幅がある基準
    値未満の場合は、直前の文字行の文字種と同一であると
    識別する第2の文字種識別手段を具備したことを特徴と
    する文書認識装置。
  3. 【請求項3】文書画像を入力する文書画像入力手段と、 前記文書画像入力手段により入力された文書画像から文
    字行を抽出する文字行抽出手段と、 前記文字行抽出手段により抽出された文字行の文字種を
    識別する文字種識別手段と、 前記文字種識別手段により識別された文字種が前後の文
    字行の文字種と異なる場合は、その行の文字種を直前ま
    たは直後の文字行の文字種と同一であると判別する文書
    解析手段を具備したことを特徴とする文書認識装置。
JP3167830A 1991-06-12 1991-06-12 文書認識装置 Expired - Lifetime JP3064508B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3167830A JP3064508B2 (ja) 1991-06-12 1991-06-12 文書認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3167830A JP3064508B2 (ja) 1991-06-12 1991-06-12 文書認識装置

Publications (2)

Publication Number Publication Date
JPH05108876A JPH05108876A (ja) 1993-04-30
JP3064508B2 true JP3064508B2 (ja) 2000-07-12

Family

ID=15856884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3167830A Expired - Lifetime JP3064508B2 (ja) 1991-06-12 1991-06-12 文書認識装置

Country Status (1)

Country Link
JP (1) JP3064508B2 (ja)

Also Published As

Publication number Publication date
JPH05108876A (ja) 1993-04-30

Similar Documents

Publication Publication Date Title
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP2713622B2 (ja) 表形式文書読取装置
JP3232143B2 (ja) 復号していない文書画像の修正版を自動的に作成するための装置
US20010016069A1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JP3452774B2 (ja) 文字認識方法
JP3294995B2 (ja) 帳票読取装置
JPH05307638A (ja) ビットマップ・イメージ・ドキュメントのコード化データへの変換方法
US7099507B2 (en) Method and system for extracting title from document image
JPH04195692A (ja) 文書読取装置
Ascher et al. An interactive system for reading unformatted printed text
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
Saitoh et al. Document image segmentation and layout analysis
JP3064508B2 (ja) 文書認識装置
JP2887823B2 (ja) 文書認識装置
JPH10171920A (ja) 文字認識装置、その文字認識方法およびその記録媒体
JP3060248B2 (ja) 表認識装置
JPH0728935A (ja) 文書画像処理装置
JPH0528301A (ja) 文書認識装置
JP3052438B2 (ja) 表認識装置
JPH07160810A (ja) 文字認識装置
JPH04346189A (ja) 文字列種類識別装置
JP2804660B2 (ja) 文書処理装置
JPH08297718A (ja) 文字切り出し装置及び文字認識装置
JP2931485B2 (ja) 文字切出し装置及び方法
JPH0581318A (ja) デジタル翻訳装置