JPH0490083A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0490083A
JPH0490083A JP2205229A JP20522990A JPH0490083A JP H0490083 A JPH0490083 A JP H0490083A JP 2205229 A JP2205229 A JP 2205229A JP 20522990 A JP20522990 A JP 20522990A JP H0490083 A JPH0490083 A JP H0490083A
Authority
JP
Japan
Prior art keywords
character
document image
lines
horizontal
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2205229A
Other languages
English (en)
Inventor
Tadanori Nakatsuka
忠則 中塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2205229A priority Critical patent/JPH0490083A/ja
Priority to EP91307105A priority patent/EP0472313B1/en
Priority to DE69130469T priority patent/DE69130469T2/de
Publication of JPH0490083A publication Critical patent/JPH0490083A/ja
Priority to US08/135,129 priority patent/US5696841A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 【産業上の利用分野】
本発明は文書画像を入力して、該文書画像の文字等を認
識する文字認識装置に関するものである。
【従来の技術】
従来の文字認識装置は、文書画像等を読取って入力する
人力部と、入力画像に対して1文字のパターンを切出し
て各種の正規化を施す前処理部と、この正規化されたパ
ターンから幾何学的特徴を抽出し、予め辞書に格納され
ている標準パターンと照合してその文書画像の文字部分
を認識する認識部から構成されている。特に、日本語の
文字認識を行う文字認識装置では、邦文には横書き文書
以外に縦書きの文書が存在するため、1文字のパターン
を切出す前処理部では、横書き文書画像の場合には水平
方向の射影をとって文字行を抽出し、抽出された1行あ
るいは複数行毎に垂直方向の射影をとることにより1文
字を切出している。 また、縦書き文書画像の場合には、垂直方向の射影をと
って文字行を抽出し、抽出された1行あるいは複数行毎
に水平方向の射影を取ることにより1文字の切出しを行
なっている。
【発明が解決しようとする課題】 このため、邦文の文字認識を行う文字認識装置では、横
書きの文書の場合と、縦書き文書の場合とでは処理が異
なる。このため、横書文書或は縦書文書専用の文字認識
装置を用意するか、もしくは文字認識を行う前に、ユー
ザにより横書き文書であるか、縦書き文書であるかを指
示する必要があった。 本発明は上記従来例に鑑みてなされたもので、文書の画
像をもとに、その文書画像が縦書きか横書きかを検出し
て文字認識を行うことができる文字認識装置を提供する
ことを目的とする。
【課題を解決するための手段】
上記目的を達成するために本発明の文字認識装置は以下
の様な構成からなる。即ち、 文書画像を入力して、該文書画像の文字を認識する文字
認識装置であって、前記文書画像の文字行の方向を判定
する文字行判定手段と、前記文字行判定手段によって判
定された行方向に文字ノ(ターンを切出し、前記文字パ
ターンの特徴を認識用辞書に格納された標準パターンと
照合して文字認識を行なう認識手段とを有する。
【作用] 以上の構成において、文書画像の文字行の方向を判定し、その判定された行方向に文字パターンを切出し、その文字パターンの特徴を認識用辞書に格納された標準パターンと照合して文字認識を行なうように動作する。 【実施例】
以下、添付図面を参照して本発明の好適な実施例を詳細
に説明する。 〈文字認識装置の説明 (第1図)〉 第1図は本発明の実施例の文字認識装置の概略構成を示
すブロック図である。 第1図において、1は第1の実施例の文字認識装置を示
している。2は文書画像を読取って入力する入力部で、
例えばスキャナ等により構成され原稿画像データをデジ
タルで入力している。3は装置1全体を制御する演算処
理用の中央処理装置(以下、CPUという)を示してい
る。4はROMで、CPU3の第3図以降のフローチャ
ートで示された制御プログラムや各種データを格納して
いる。5はメモリ(RAM)で、CPU3のワークエリ
アとして使用されるとともに、入力部2より入力された
文書画像データを記憶する領域をも備えている。 6は文字行判定部で、メモリ5に記憶された文書画像の
文字行の方向、即ち文書画像の文書が縦書きか横書きか
を判定している。7は前処理部で、メモリ5に記憶され
た文書画像の1文字のパターンを切出し、各種の正規化
を実行している。 8は認識部で、前処理部7によって前処理されたパター
ンから幾何学的特徴を抽出し、予め認識用辞書9に格納
されている標準パターンと照合して文書画像の文字認識
を行っている。10は表示部で、入力された文書画像の
認識結果等を表示している。11はシステムバスで、C
PU3よりのデータバス、アドレスバス及び制御信号バ
ス等を含んでいる。12は外部の出力装置、例えばプリ
ンタ13等とのインターフェース制御を行うインターフ
ェース部を示している。 〈文書画像の説明 (第2図)〉 第2図は実施例の文字認識装置1に入力される文書画像
の一例を示す図である。 第2図において、21は入力部2で読取られる文書画像
を示している。そして、22は文書画像21を水平方向
に走査したときの文字画像の射影(黒画素の計数値)を
示し、23は同じく文書画像21を垂直方向に走査した
ときの文字画像の射影を示している。24.25のそれ
ぞれは基準値αを示す線分を示している。 第2図の例では、入力された文書画像21は横書きの文
書であり、各ライン毎に黒画素数をカウントした計数値
が基準値αを越えているライン数が、垂直方向に比べて
水平方向の方が多いことがわかる。 〈第1の実施例の説明 (第3図、第4図)〉第3図は
第1の実施例のCPU3の動作を説明するフローチャー
トで、この処理を実行する制御プログラムはROM4に
記憶されている。 まずステップSLで、入力部2において、操作者により
セットされた文書画像を入力部2(スキャナ)により読
取って入力し、メモリ5に記憶する。次にステップS2
に進み、文字判定部6において、メモリ5に記憶された
文書画像が横書きか縦書きかを判別する。これはメモリ
5に記憶されている文書画像の水平方向、垂直方向の射
影(黒画素数)を求め、その画素数が基準値0以上とな
るライン数が、文書画像全体のライン数のとれ(らいに
なるかを求めて比較する。 この文字行判定部6で実行されるステップS2の詳細は
第4図に示す通りである。第4図に従って説明すると、
まずステップSllで水平方向の1ライン毎に黒画素の
数をカウントし、ステップSL2でその計数値が基準値
α以上となるライン数を求める。これを文書画像の水平
方向の全ライン(THとする)に対して行ない、基準値
α以上となったライン数UHを求める。そして、全ライ
ン数THに対して、基準値α以上となったライン数UH
を基に、その割合RHを求める。このRHは、以下に示
す式により求められる。 RH= U H/T H 次にステップS13に進み、同様にして垂直方向の射影
を考える。ここでは、文書画像の垂直方向の1ライン毎
に黒画素の数をカウントする。ステップS14では、こ
の計数値が基準値α以上であるかチエツクし、これを垂
直方向の全ライン(TVとする)に対して行ない、基準
値α以上となったライン数UVを求める。そして、全ラ
イン数TVに対する基準値α以上となったライン数UV
を基に、基準値α以上となったライン数の割合RVを求
める。このRVは、以下に示す式で求められる。 RV = U V/T V こうして、ステップS15に進み、基準値α以上となっ
た水平方向及び垂直方向のライン数の全ライン数に対す
る割合RH,RVを比較する。ここで、RH≧RVを満
たせば、文書画像は横書きであると判定される。 再び、第3図のフローチャートに戻り、横書き文書のと
きはステップS3に進み、前処理部7において横書き用
の前処理を行なう。この横書き用の前処理とは、まず水
平方向の射影をとって文字行を抽出し、抽出された1行
あるいは複数行毎に垂直方向の射影を取ることにより1
文字を切出す文字切出し処理1位置、傾き、線幅、濃度
等の正規化処理、雑音除去処理等である。 また、ステップS2において、RH≧RVを満たさなか
った場合は、メモリ5に記憶されている文書画像は縦書
きであると判定してステップS4に進み、前処理部7に
おいて縦書き用の前処理を行なう。この縦書き用の前処
理とは、まず垂直方向の射影をとって文字行を抽出し、
抽出された1行あるいは複数行毎に水平方向の射影をと
ることにより1文字を切り出す文字切出し処理1位置。 傾き、線幅、濃度等の正規化処理、雑音除去処理等であ
る。 次にステップS5に進み、前処理部7において前処理さ
れた1文字毎の未知文字パターンに対して、認識部8で
輪郭線特徴等の抽出を行なう。この認識用辞書9には、
認識対象となっている全ての文字の標準パターンの特徴
が記憶されている。 この未知文字パターンの特徴と、辞書9に記憶されてい
る標準パターンの特徴をマツチングさせて最も確からし
いものを認識結果としてメモリ5に記憶し、入力された
文書画像内の全文字を同様に認識してメモリ5に記憶す
る。次にステップS6に進み、メモリ5に記憶された認
識結果を表示部10に表示する。尚、プリンタ13より
文字等を出力する処理については説明を省略している。 以上の説明により、第1の実施例によれば、横書き文書
にも縦書き文書にも対応できる、ユーザにとって使い易
い文字認識装置を実現することができる。 〈第2の実施例 (第S図)〉 第5図は第3図のステップS2の横書きか縦書きを判別
する第2の実施例の処理を示すフローチャートで、ここ
では第1の実施例のステップS11とS12と、ステッ
プS13と314を実行する順序を逆にしている。即ち
、第1の実施例では水平方向の次に垂直方向の画素数を
計数するようにしているが、第2の実施例では最初に垂
直方向の黒画素数を計数し、その後水平方向の黒画素数
を計数するようにしている。尚、第2の実施例における
文字認識装置の構成は第1図に示す第1の実施例と同様
である。 以上の説明により、第2の実施例においても、前述の第
1の実施例と同様の作用・効果を得ることができる。 〈第3の実施例 (第6図)〉 第6図は第3の実施例を示すフローチャートである。こ
こでは、第1の実施例のステップS2における黒画素の
カウントを白画素のカウントに置換えている。尚、この
第3の実施例における文字認識装置の構成及びステップ
S2以外のフローチャートは、第1の実施例(第1図と
第3図)と同じである。 まずステップS31で、水平方向の1ライン毎に白画素
の数をカウントする。次にステップS32で、その画素
数が基準値α以上であるかチエツクし、このカウント数
が入力画像全域で何ライン基準値α以上となったかカウ
ントする。そして、基準値α以上となったライン数の全
ライン数に対する割合をRHとする。 次にステップS33に進み、同様にして、垂直方向の1
ライン毎に白画素の数をカウントする。 次にステップS34で、その画素数が基準値α以上であ
るかチエツクし、このカウント数が入力画像全域で何ラ
イン基準値α以上となったかカウントする。そして、基
準値α以上となったライン数の全ライン数に対する割合
をRVとする。 次にステップS35に進み、前述のRHとRVを比較し
、RH≦RVを満たせば横書きと判定し、満たさなけれ
ば縦書きと判定する。 以上の説明により、第3の実施例においても前述の第1
及び第2の実施例と同様の作用・効果を得ることができ
る。 〈第4の実施例 (第7図)〉 第7図は第4の実施例を示すフローチャートである。こ
こでは、第1の実施例のステップS2における1ライン
毎の黒画素のカウントを複数ライン毎の黒画素のカウン
トに置換えている。この第4の実施例における文字認識
装置の構成及びステップS2以外のフローチャートは第
1の実施例(第1図と第3図)と同じである。 まずステップS41で水平方向の複数ライン毎に黒画素
の数をカウントする。そしてステップS42で、このカ
ウンタ数が基準値α以上であるかチエツクし、入力画像
全域で何ラインが基準値6以上となったかをみる。そし
て、基準値α以上となったライン数の、全ライン数に対
する割合をRHとする。 同様にして、ステップS43で垂直方向に黒画素数を計
数し、ステップS44で基準値α以上となったライン数
の、全ライン数に対する割合をRVとする。 こうして求めたRHとRVとをステップS45で比較し
て、RH≧RVを満たせば横書きと判定し、満たさなけ
れば縦書きと判定する。 以上の説明により第4の実施例においても前述の第1の
実施例と同様の作用・効果を得ることができる。 〈第5の実施例〉 前述した第3の実施例において、前述の第2の実施例の
如く水平方向と垂直方向の順序を入れ換えても、第1の
実施例と同様の作用・効果を得ることができる。なお、
このときの文字認識装置のブロック図、フローチャート
は第1の実施例(第1図と第3図)と同様であり、フロ
ーチャートのステップS2は第6図のS31.S32と
、S33、S34とを入れ換えて、ステップS33.S
34、S31そしてS32の順に実行する。 〈第6の実施例〉 前述の第3の実施例において、前述の実施例4の如(1
ライン毎のカウントを複数ライン毎にしても第1の実施
例と同様の効果が得られる。尚、このときの文字認識装
置のブロック図、フローチャートは第1の実施例(第1
図と第3図)と同じであり、フローチャートのステップ
S2は第6図のS31とS33の「1ライン毎」を「複
数ライン毎」に入れ換えたものと同じである。 く第7の実施例〉 前述の第4の実施例において、第2の実施例の如く水平
方向と垂直方向の順序を入れ換えても、第1の実施例と
同様の作用・効果を得ることができる。尚、このときの
文字認識装置のブロック図、フローチャートは第1の実
施例(第1図と第3図)と同じである。そして、第7の
実施例のフローチャートのステップS2(第3図)は第
7図のS43.S44とS41.S42とを入れ換えて
、ステップS43.S44.S41そしてS42の順で
実行したものと同じである。 〈第8の実施例 (第8図)〉 第1の実施例のステップS2(第4図)における「黒画
素数が基準値α以上」を「黒画素数が基準値α以下」に
おきかえても良い門この第8の実施例における文字認識
装置の構成及びステップS2以外のフローチャートは第
1の実施h+ (第1図と第3図)と同じである。 第8の実施例のフローチャートのステップS2の詳細を
第8図に示す。 ステップS51で水平方向の1ライン毎に黒画素の数を
カウントし、基準値α以下であるかチエツクする。そし
て、ステップS52で、入力画像全域で何ラインが基準
値α以下となったかカウントし、そのライン数の全ライ
ン数に対する割合をRHとする。 次にステップ853で、垂直方向の1ライン毎に黒画素
の数をカウントする。ステップS54では、基準値a以
下であるかチエツクして、入力画像全域で何ラインが基
準値α以下となったかカウントし、そのライン数の割合
なRVとする。次にステップS55に進み、この求めた
RHとRVを比較してRH≦RVを満たせば、文書画像
が横書きの文書画像と判定し、満たさなければ縦書きと
判定する。 以上の説明により、第8の実施例においても前述の第1
の実施例と同様の作用・効果を得ることができる。 以上説明したように本実施例によれば、文書の文字列の
方向を自動的に判定して、文書画像が横書き文書或は縦
書き文書であるかを認識できるようになる。このため、
文書原稿を読取って認識する際、ユーザが一々縦書き文
書か横書き文書かを指示しな(て良くなり、文字認識の
操作性が向上する効果がある。 【発明の効果] 以上説明したように本発明によれば、文書画像をもとに
、その文書画像が縦書きか横書きかを自動的に検出して
文字認識を行うことができる効果がある。
【図面の簡単な説明】
第1図は本発明の第1の実施例の文字認識装置の概略構
成を示すブロック図、 第2図は本実施例の文字認識装置で読取られる文書原稿
及び文書画像の水平・垂直射影例を示す図、 第3図は本発明の第1の実施例の文字認識装置における
文字認識処理を示すフローチャート、第4図は第1の実
施例の第3図のステップS2の詳細を示すフローチャー
ト、 第5図は第2の実施例のステップS2の詳細を示すフロ
ーチャート、 第6図は第3の実施例のステップS2の詳細を示すフロ
ーチャート、 第7図は第4の実施例のステップS2の詳細を示すフロ
ーチャート、そして 第8図は第8の実施例のステップS2の詳細を示すフロ
ーチャートである。 図中、1・・・文字認識装置、2・・・入力部、3・・
・CPU、4・・・ROM、5・・・メモリ、6・・・
文字行判定部、7・・・前処理部、8・・・認識部、9
・・・認識用辞書、10・・・表示部、11・・・シス
テムバス、12・・・インターフェース部、13・・・
プリンタ、21・・・文書画像、22・・・水平方向の
射影、23・・・垂直方向の射影である。 第2図 第5図 第4図 第6図

Claims (3)

    【特許請求の範囲】
  1. (1)文書画像を入力して、該文書画像の文字を認識す
    る文字認識装置であつて、 前記文書画像の文字行の方向を判定する文字行判定手段
    と、 前記文字行判定手段によつて判定された行方向に文字パ
    ターンを切出し、前記文字パターンの特徴を認識用辞書
    に格納された標準パターンと照合して文字認識を行なう
    認識手段と、 を有することを特徴とする文字認識装置。
  2. (2)前記文字行判定手段は、前記文書画像の水平方向
    及び垂直方向のそれぞれに対し所定量以上のイメージデ
    ータが出現するライン数を求める手段と、水平方向及び
    垂直方向のそれぞれに対して求められた前記ライン数の
    、前記水平及び垂直方向の全ライン数に対する割合をそ
    れぞれ算出する算出手段と、前記算出手段により算出さ
    れた前記水平及び垂直方向に対する割合を比較して前記
    文書画像の文字行の方向を判定する判定手段と、を有す
    ることを特徴とする請求項第1項記載の文字認識装置。
  3. (3)前記文字行判定手段は、前記文書画像の水平方向
    及び垂直方向のそれぞれに対し所定量以下のイメージデ
    ータが出現するライン数を求める手段と、水平方向及び
    垂直方向のそれぞれに対して求められた前記ライン数の
    、前記水平及び垂直方向の全ライン数に対する割合をそ
    れぞれ算出する算出手段と、前記算出手段により算出さ
    れた前記水平及び垂直方向に対する割合を比較して前記
    文書画像の文字行の方向を判定する判定手段と、を有す
    ることを特徴とする請求項第1項記載の文字認識装置。
JP2205229A 1990-08-03 1990-08-03 文字認識装置 Pending JPH0490083A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2205229A JPH0490083A (ja) 1990-08-03 1990-08-03 文字認識装置
EP91307105A EP0472313B1 (en) 1990-08-03 1991-08-02 Image processing method and apparatus therefor
DE69130469T DE69130469T2 (de) 1990-08-03 1991-08-02 Gerät und Verfahren zur Bildverarbeitung
US08/135,129 US5696841A (en) 1990-08-03 1993-10-12 Image processing method and apparatus for extracting vertically and horizontally written text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2205229A JPH0490083A (ja) 1990-08-03 1990-08-03 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0490083A true JPH0490083A (ja) 1992-03-24

Family

ID=16503545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2205229A Pending JPH0490083A (ja) 1990-08-03 1990-08-03 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0490083A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5680478A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
US6512848B2 (en) 1996-11-18 2003-01-28 Canon Kabushiki Kaisha Page analysis system
JP2008204203A (ja) * 2007-02-20 2008-09-04 Kobe Steel Ltd 文字列画像の画像処理方法,そのプログラム及びその装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680478A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US6115497A (en) * 1992-04-24 2000-09-05 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5854853A (en) * 1993-12-22 1998-12-29 Canon Kabushika Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
US6512848B2 (en) 1996-11-18 2003-01-28 Canon Kabushiki Kaisha Page analysis system
JP2008204203A (ja) * 2007-02-20 2008-09-04 Kobe Steel Ltd 文字列画像の画像処理方法,そのプログラム及びその装置

Similar Documents

Publication Publication Date Title
US5889897A (en) Methodology for OCR error checking through text image regeneration
US5696841A (en) Image processing method and apparatus for extracting vertically and horizontally written text
US6385338B1 (en) Image processing method and apparatus
KR100247970B1 (ko) 문서 영상의 방향 교정방법
JP3996579B2 (ja) 機械可読フォームのアクティブ領域を識別するためのフォーム処理システム
JPH08293001A (ja) 画像処理装置及び光学的文字認識装置及びそれらの方法
JPH096914A (ja) 画像処理方法及び装置
JPH0721310A (ja) 文書認識装置
US6504540B1 (en) Method and apparatus for altering one or more attributes of one or more blocks of image data in a document
US5271067A (en) Optical character recognition apparatus
JPH0490083A (ja) 文字認識装置
US20110187721A1 (en) Line drawing processing apparatus, storage medium storing a computer-readable program, and line drawing processing method
JPH06103411A (ja) 文書読取装置
JP3135290B2 (ja) 画像処理方法及び装置
EP0767941B1 (en) Automatic determination of landscape scan in binary images
JP3122476B2 (ja) 自動文書清書装置
JP3345246B2 (ja) 文字認識装置及び文字認識方法
JP3585143B2 (ja) 文字列抽出方法および装置
JPH117493A (ja) 文字認識処理装置
JP4270767B2 (ja) 罫線情報処理方法と罫線情報処理プログラムと画像処理装置及び記憶媒体
JPH0573718A (ja) 領域属性識別方式
JPH06150060A (ja) 画像傾き検出方法及び表処理方法
JP2003348340A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP3045086B2 (ja) 光学式文字読取方法および装置
JPH0721309A (ja) 文書認識装置