JPH0969136A - 文書方向判定方法及び装置及び文字認識装置、及びコンピュータ制御装置 - Google Patents

文書方向判定方法及び装置及び文字認識装置、及びコンピュータ制御装置

Info

Publication number
JPH0969136A
JPH0969136A JP7223591A JP22359195A JPH0969136A JP H0969136 A JPH0969136 A JP H0969136A JP 7223591 A JP7223591 A JP 7223591A JP 22359195 A JP22359195 A JP 22359195A JP H0969136 A JPH0969136 A JP H0969136A
Authority
JP
Japan
Prior art keywords
document
character
image data
determining
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7223591A
Other languages
English (en)
Other versions
JP3787377B2 (ja
Inventor
Makoto Takaoka
真琴 高岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP22359195A priority Critical patent/JP3787377B2/ja
Priority to US08/703,475 priority patent/US6137905A/en
Publication of JPH0969136A publication Critical patent/JPH0969136A/ja
Application granted granted Critical
Publication of JP3787377B2 publication Critical patent/JP3787377B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】文書画像データに含まれる複数領域について文
書方向を判別し、判別された各領域の方向に基づいて当
該文書画像の方向を決定することにより、より正確に文
書方向を判定する。 【解決手段】スキャナ部11より入力された文書画像デ
ータは領域分離部14によりを複数の領域に分離され
る。このとき、領域分離部14において得られた複数の
部分領域のそれぞれについて、属性が付与される。領域
の属性としては、例えば、本文中の文字領域、表組中の
文字領域等である。そして、これらの各属性には予め優
先度が与えられている。文字認識/方向判別部13は、
複数の部分領域のそれぞれについて、文字の方向を検出
して文書方向を判別する。そして、文字認識/方向判別
部13で判別された各部分領域の文書方向と、各部分領
域に付与されている属性の優先度に基づいて当該文書画
像データの方向を決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書原稿を光学的
に読み取って得られる画像データより当該文書原稿の方
向を判定する文書方向判定方法及び装置、及び該文書方
向判定装置を備えた文字認識装置に関する。
【0002】
【従来の技術】従来、文字認識処理においては、原稿を
光学的に読み取る装置、いわゆるスキャナを用いて画像
データを獲得し、この画像データに対して、文字認識を
行なっている。この場合、もし画像データが90°ある
いは180°回転されて読み取られたりしていると、文
字認識結果として全く異なるコードを出力してしまう。
これは、獲得された画像データについて一応文字認識を
実行するものの、文字の方向が正しくないため、認識結
果が滅茶苦茶なものとなってしまうためである。
【0003】そこで、正しく文字認識が行なわれるよう
に、文書の方向が不正である場合には、原稿の読取り方
向を人が直して、再度入力し、認識処理を行なってき
た。しかしながら、(1)スキャナの処理のスピードが
向上し、オートフィーダと呼ばれる原稿自動給紙機能が
附属され始めてから、大量の原稿を処理することが増え
てきて、人がいちいち原稿の方向を補正することがむず
かしくなってきた、(2)A4のスキャナの場合、原稿
の置きかたは一義的に決まってしまう、といった理由に
より、文書方向の自動判別/回転機能は必要な技術とな
ってきている。
【0004】図12は、文書方向の自動判別の代表的な
手法を説明する図である。図12において、(a)で
は、領域分離の結果を用いて表のような線のある部分1
000を抽出し、その方向性を見て(例えば、横方向に
長い線で分割されている特徴を用いて)その文書の方向
性を認識する方式が示されている。また、図12の
(b)に示されるように、縦方向と横方向の射影(ヒス
トグラム1001)を検出して、その区切れ具合を見て
方向を判断したり(例えば、ヒストグラムが細切れにな
っているほうを横方向とする)、領域分離して、文字領
域の特徴にマッチした矩形領域1002の横長、縦長と
いった特徴から文書の方向を判別する。
【0005】以上のような判別手法による文書方向の判
別結果より、文書が横方向か縦方向かを判別し、必要に
応じて画像の回転を行なっていた。そして回転された画
像に対して、文字認識処理を行ない、認識結果を得てい
た。
【0006】文字認識への期待は、大量の文書を整理し
たいという要求のもとで近年非常に高まっており、文字
認識装置は電子ファイリングやDTPに搭載されたり、
複写機のような大量に文書を処理する機器に搭載された
りしている。このような文字認識装置により、紙に書か
れた文書中の文字を、検索に利用したり、DTPソフト
上で処理したりすることが可能となる。
【0007】以上のように、文字認識装置において、人
間の手を煩わせない各種の自動化技術は、大きな課題と
なってきた。特に、文書方向自動補正技術は、なくては
ならない重要な技術である。
【0008】
【発明が解決しようとする課題】上述した従来の文字認
識装置には、以下に示されるような問題がある。即ち、 (1)文書が誤った方向に入力されたことによる、文字
認識の誤認識の発生。 (2)読み取り画像データが、横を向いていたり、逆さ
を向いていたりした場合、モニター等で確認した場合の
不都合さ。 (3)文書方向判別の精度。 (4)文書中に異なる方向の文字が混在するものに対す
る方向判別の精度。 という問題がある。上述の各問題について、以下に簡単
な説明を行なう。
【0009】(1)文書方向相違による誤認識の発生 図13は、「高」という文字に対して、読取り方向が回
転した場合の各方向における認識結果を示す図である。
なお、図13で示したのはあくまでも一例であり、誤認
識の結果は必ずしも図のとおりとなるとは限らない。図
13に示したように、文書の読取り方向が270度回転
した場合の認識結果は「打」、180度の場合は
「字」、90度の場合は認識不可能というように誤認
識、あるいは認識できないという結果を生じる。このよ
うに文字認識は、あくまでも文字が正方向を向いている
として、得られた特徴から文字候補を選び出すので、読
取り方向が回転すればその認識結果も誤ったものとな
る。
【0010】(2)モニタ上における画像データの確認
の際の不都合さの発生 図14は、スキャナ等で読み込まれた画像データをディ
スプレイ表示している状態を表す図である。(a)は、
A4縦方向の文書がA4縦置きで読み取られた場合の表
示例で、表示が正常な場合である。(b)は、A4縦方
向の文書をA4横置きで読み取られた場合の表示例で、
人間が見ると、90°回転している画像となっている。
これは、紙面上における文書の書かれ方(文書の方向)
と、スキャナから画像入力する際の原稿の置方の関係か
ら発生する。
【0011】図15は紙面上における文書の各種の配置
状態を説明する図である。紙面に対する文書の配置は、
図15に示すように各種の形態がある。(a)は、A4
縦置き文書で日本語の横書き文書や英語の文書等でよく
用いられる形態である。(b)は、A4横置きで、一行
の長さが長い文書や、OHP用の文書、A3、B4など
の文書を縮小コピーした場合などでよく用いられる形態
である。(c)はA4横置きで、真中で段組が切り替わ
っているもので、A4文書を2枚連続して縮小コピーし
た場合に用いられる形態である。(d)は、A4縦置き
における縦書き文書の形態である。
【0012】一方、スキャナは機種により読み取り方法
がまちまちである。例えば、原稿サイズ最大A4まで入
力できるフラットベットのスキャナや、A4原稿を縦方
向にスライドして読み込む方式のスキャナ等では、原稿
読み取り方向が一義的に決まってしまう。このため、文
書配置の形態によっては、方向が不正方向に読み込まれ
てしまう。
【0013】また、複写機のスキャナ部を利用して原稿
を読み取るものがある。このようなスキャナでは、読み
取るべき原稿の置方が比較的自由である。そのため、人
間が正しい方向に原稿をおいて画像入力することが可能
である。特に、原稿枚数の多い文書の読取りを行う際
に、オートフィーダーを用いて自動的に原稿を取り込ん
で読取りを行うことが可能なものもある。しかしなが
ら、オートフィーダーを用いて原稿の取り込を行う場
合、文書中に不正方向に向いている原稿がまじっていた
り、文書の配置方法が異なる原稿が含まれていたりする
と、画像が不正方向に入力されてしまうことになる。
【0014】以上のような原因により、図14に示した
ディスプレイ表示がおかしな方向になってしまう。この
ため画像を正常方向に回転する必要がある。
【0015】(3)文書方向判別の精度 文書の方向判別は、より精度の高いものでなければなら
ない。上記従来例のように文書中の表の線を用いる判定
は、それがない文書や縦横混在の線を含んだ文書の場合
は、方向判別を誤る可能性がある。また縦横の射影をと
る場合は、文字のみで行や段落がしっかり分かれている
文書に対しては、比較的精度よく回転方向を検出できる
が、文書中に図や自然画が含まれている文書の場合は、
方向判別を誤る可能性がある。さらに、0度と180
度、90度と270度の区別はつきにくく、方向判別の
精度は低い。
【0016】(4)異なる方向の文字が混在する文書に
おける方向判別の誤認識の発生 図16は1枚の原稿上に異なる方向の文字が混在する文
書の例を表す図である。同図(a)は、正常方向と異な
る方向の文字が存在する文書、例えば文書中の1010
に対する説明文字が存在する場合を示す。また、
(b)、(c)のように、2枚の原稿を縮小して1枚の
原稿にした文書において、片側は、縦置文書、もう片側
は横置文書の場合がある。これらは、文書中のどの文字
の方向を用いてその文書の方向を判断するかにより、方
向判断結果が異なってくる。
【0017】本発明は上記の問題に鑑みてなされたもの
であり、文書画像データに含まれる複数領域について文
書方向を判別し、判別された各領域の方向に基づいて当
該文書画像の方向を決定することにより、より正確に文
書方向を判定する文書方向判定方法及び装置を提供する
ことを目的とする。
【0018】また、上記各領域の方向の判別を、各領域
に含まれる文字の方向を判別することで行うことで、各
領域の方向をより正確に判定することを目的とする。
【0019】また、本発明で提供される文書方向判定装
置を備えることにより、文書の読取り方向に関らず正し
い方向で文書画像を表示するとともに、より文字認識精
度を向上する文字認識装置を提供することを目的とす
る。
【0020】
【課題を解決するための手段】上記の目的を達成するた
めの本発明の文書方向判定装置は以下の構成を備える。
即ち、入力された文書画像データを複数の部分領域に分
離する分離手段と、前記分離手段で得られた前記複数の
部分領域のそれぞれについて、予め優先度が与えられた
複数種類の属性のいずれに該当するかを判別し、判別さ
れた属性を付与する付与手段と、前記分離手段で得られ
た前記複数の部分領域のそれぞれについて、文書方向を
判別する判別手段と、前記判別手段で判別された各部分
領域の文書方向と、各部分領域に付与された属性の優先
度に基づいて前記文書画像データの方向を決定する決定
手段とを備える。
【0021】また、好ましくは、前記判別手段は、方向
判別の対象となっている部分領域に含まれる複数の文字
を抽出し、各文字について複数の方向から文字認識を行
い、認識度が最も高くなる方向を当該部分領域の方向と
する。文字の方向が文書方向を示す場合が多く、文字の
方向を検出することでより正確に文書方向をはんだでき
るからである。
【0022】また、好ましくは、前記決定手段は、優先
度の最も高い属性を有する部分領域の複数における文書
方向の判別結果が一致した場合、その文書方向を前記文
書画像データの方向として決定する。文書方向を決定す
るのに対して高い優先度を持つ複数の部分領域で方向が
一致した時点で文書方向判別の処理を打ち切ることが可
能となり、処理の効率が向上する。
【0023】また、好ましくは、前記複数の属性は、本
文中の文字領域である属性、表組中の文字領域である属
性、タイトル中の文字領域である属性、図の解説等のた
めの文字領域である属性を含む。これら文字領域を更に
細かく分類したものであり、方向判定に用いるべき文字
領域を適切に選択できる。
【0024】また、好ましくは、本文中の文字領域であ
る属性を最も優先度の高い属性とする。本文中の文字は
文書方向と一致する可能性が高いからである。
【0025】また、好ましくは、タイトル中の文字領域
である属性を最も優先度の高い属性とする。タイトル中
の文字領域に含まれる文字の方向は文書方向と一致する
可能性が高いからである。
【0026】また、上記の目的を達成する本発明の文書
方向判定装置は、入力された文書画像データより複数の
部分領域を抽出する抽出手段と、前記抽出手段で抽出さ
れた部分領域について方向を判別する判別手段と、前記
判別手段において所定以上の確実性を有して方向が判別
された複数の部分領域に関して、その判別された方向が
一致する場合、該方向を前記文書画像データの方向とし
て決定する決定手段とを備える。
【0027】また、上記構成において、好ましくは、前
記抽出手段は文字領域を部分領域として抽出し、前記判
別手段は、抽出された文字領域に含まれる文字について
複数方向からの認識処理を行い、認識度が最も高くなる
方向を該文字領域の方向とし、前記判別手段において得
られた認識度の最大値が所定値を越えるものを前記所定
値以上の確実性を有するものとする。
【0028】また、上記の目的を達成するための本発明
の文書方向判定装置は、入力された文書画像データより
複数の部分領域を抽出する抽出手段と、前記抽出手段で
抽出された複数の部分領域のそれぞれについて文書方向
を判別する判別手段と、各文書方向について前記判別手
段で判別された回数をカウントし、そのカウント値が最
大となる文書方向を前記文書画像データの方向として決
定する決定手段とを備える。
【0029】また、上記構成において、好ましくは、前
記抽出手段は、複数の文字領域を抽出し、前記判別手段
は、抽出された文字領域のそれぞれに関して、文字領域
に含まれる文字について複数の方向から認識処理を行
い、認識度が最も高くなる方向を該文字領域の方向とす
る。
【0030】また、本発明によれば、上記の構成を有す
る文書方向判定装置によって判定された文書画像データ
の方向に基づいて前記文書画像データを回転し、回転さ
れた文書画像データを用いて文字認識処理を行う認識手
段とを備える文字認識装置が提供される。入力された文
書画像データを正しい方向に回転するので、例えば文書
画像データの表示に際して、その文書画像データの入力
方向に関らず、正しい方向で文書画像を表示できるとと
もに、正しく文字認識を行うことが可能となる。
【0031】
【発明の実施の形態】以下に添付の図面を参照し手本発
明の好適な実施の形態を説明する。
【0032】<実施形態1>実施形態1における文字認
識装置では、文書方向判別の手法として、文字認識の認
識率を用いて、方向判別を行う。これは、文書の方向を
一番正確に現わしているのは、文字領域であることに注
目し、文書中の文字領域における複数の文字について、
0°、90°、180°、270°の方向から文字認識
を行い、最も類似度が高かった方向が正しい文書の方向
であると判断する。
【0033】文字認識処理では、まず画像中から文字切
りという手法で、一文字ごとに画像を切りだす。次に、
認識文字の選出は、文字ごとに算出される文字の特徴
が、より近い特徴の文字を選び出してくる。文字認識の
自信度(類似度)とは、その特徴にどれだけ近いかを示
す割合を示す。専門的にいうと文字の特徴分布のなかに
おける距離の近さを示す。文字認識の場合、近い文字を
数種類算出して候補文字とするが、その中でも一番距離
の近いものを第一候補文字とする。
【0034】以上のような認識処理を4方向に対して行
なうと、4方向とも文字認識は行うが、候補文字の距離
値(自信度)は異なってくる。もちろん正しい方向に向
いた文字のほうが、距離値は近い値となる。しかしなが
ら、たとえ距離値が近いといっても、それがかならずし
も正確であるとは限らない。偶然正方向以外の角度から
の文字認識に対して、誤方向の角度の方がよい値を出す
こともある。
【0035】そのため、複数の文字、例えば10文字を
抽出して方向判別し、その近さの距離を計算をし、そし
て、その平均値を用いて判断基準にする。さらに、より
精度を上げるため、文字のブロックを数ヶ所選んで同様
の処理を行う。以上のように、文字認識の認識率を利用
して文書の方向判別を行う。なお、以下の実施形態で
は、文字認識の精度を用いて方向判別する前に、以下の
ような処理を行う。
【0036】文書画像データに対して、領域分割処理を
最初に行う。この領域分割処理の結果、文字領域と判断
された領域について、文字認識処理を利用した方向判別
処理を行う。この判定に用いる文字領域は、領域分割処
理で得られる結果、更に詳細にその属性が得られる。例
えば、テキスト領域、タイトル領域、キャプション領
域、表中の文字領域に判別される。本実施形態の方式で
は、これらの属性の各々に対して優先順位を設定し、優
先順位の高い領域で判定された文書方向を優先的に採用
することを特徴とする。例えば、以下のような優先順位
が考えられる。
【0037】(1)タイトル優先 : 文書画像中、タ
イトルは文字サイズも大きく文字認識しやすく、更に、
その方向も正しい文書方向と一致する可能性が高い。よ
って、タイトル領域の優先順位を高く設定する。
【0038】(2)テキスト優先 : 文書画像中、本
文を表すテキスト領域は、文書中に一番多く存在する。
また大きさもある一定の大きさであることが多く文字認
識もしやすい。このためテキスト領域の優先順位を高く
設定する。
【0039】(3)表中文字非優先 : 文書画像中、
表が存在し、そのなかに、文字が存在する場合、その文
字がその原稿の本来の方向と異なる方向を向いている可
能性が高い。このため、表中の文字領域の優先順位を低
くする。
【0040】(4)キャプション文字非優先 : 文書
画像中、図や表が存在し、その上部、下部、横部のいず
れかに説明文字が存在することが多く、このような文字
の存在する領域をキャプション領域という。特に図や表
の横部分に存在するキャプション領域では、領域中の文
字がその原稿の本来の方向と異なる方向を向いている可
能性が高い。このため、キャプション領域の優先順位を
低くする。
【0041】以上のように、文字領域の属性に優先順位
を設けて、優先順位の高い文字領域の文字を用いて文書
方向の判定を行う。そして、この判定の結果に従って、
原画像を正しい方向に回転させて、文字認識結果と正方
向画像データを得る。以下、本実施形態1について詳細
に説明する。
【0042】図1は実施形態1における情報処理システ
ムの構成を表すブロック図である。本情報処理システム
は、画像の入力部、画像処理部、出力部、外部I/Fを
持つ画像入出力装置である。分離されたスキャナとプリ
ンタ装置の構成からなるスキャナプリンタや、一体化さ
れた複写機のようなシステムがこれに当てはまる。本シ
ステムは、I/Fを介してコンピュータとの接続も可能
であり、コンピュータ側からの指示により、各種動作を
行うことができるシステムである。
【0043】11はスキャナ部であり、文書原稿を光学
的に読み取って画像データを獲得する。スキャナ部11
には付加機能であるオートフィーダの取り付けが可能と
なっており、該オートフィーダを装着することにより、
複数枚の原稿を連続的に入力することが可能となる。1
2は主制御部であり、CPU12a及びメモリ12b
(ROM、RAMで構成される)を備える。主制御部1
2は文字認識/方向判別部13及び領域分離部14によ
る処理結果を用いて当該システムの各種制御を行うとと
もに、一時的に画像データを保存する。
【0044】13は文字認識/方向判別部であり、本実
施形態の特徴である文書方向の判別処理と文字認識とを
行うブロックである。14は領域分離部であり、文書画
像データより、文字領域、図形領域、自然画領域、表領
域などを矩形に分離して、各領域の属性を付加する処理
を行う。
【0045】15は記憶装置であり、各種処理結果(画
像データ、領域分離結果、文字認識結果など)を保存す
る。記憶装置15は、例えば、ハードディスクや光磁気
ディスクなどで構成される。16はI/F部であり、外
部の装置へデータを送るための構成で、データ伝送の形
態としてはSCSIやRS232Cなどがある。17は
コンピュータであり、I/F部16を介して情報を得た
り、記憶装置15よりデータを得て、それらを利用す
る。例えば、コンピュータ17上でDTP(Desktop Pu
blishing)アプリケーションを動作させ、文字認識処理
によって得られた文書データを記憶装置15から獲得
し、これを編集対象のデータとして用いるように構成で
きる。18はプリンタ部であり、領域分離情報や文字認
識情報によって加工されたデータを出力する。
【0046】次に、図2〜図4を用いて本実施形態1の
動作について説明する。図2〜図4は実施形態1におけ
る文字認識の手順を表すフローチャートである。なお、
本フローチャートで示される手順を実現するための制御
プログラムは、メモリ12bのROMに格納されてお
り、CPU12aによって実行される。
【0047】まず、ステップS1において、スキャナ部
11により原稿を読み込み、文書画像データを得る。得
られた文書画像データはメモリ12bのRAMに格納さ
れる。次に、ステップS2において、文書画像データに
対する領域分離処理を行う。領域分離処理は、メモリ1
2bに格納した文書画像データを領域分離部14へ入力
することで行われる。なお、領域分離処理の詳細につい
ては後述する。また、分離結果は、各領域を囲む矩形情
報とその属性情報とを有し、主記憶(メモり12bのR
AM)に格納される。この分離結果は後の処理において
CPU12aによって頻繁にアクセスされるためであ
る。
【0048】ステップS3では、上述の領域分離処理に
よって分離された各領域のうち、属性が文字領域と判定
された領域(テキスト領域、タイトル領域、表中の文字
領域、図のキャプション領域)を抽出し、以降のステッ
プS4〜ステップS16において抽出した文字領域の方
向判別処理を行う。
【0049】まず、ステップS4において、当該原稿中
に文字領域と判別される領域が存在するか否かを調べ
る。原稿中に文字領域が存在しなければ、ステップS2
1へ進み、方向判別不能とし、読み取られた方向がその
まま正しい方向である(方向0°)とする。
【0050】ステップS4において、文字領域が存在す
ればステップS5へ進む。ステップS5では、文字領域
と判断された領域の一つを抽出し、その属性に従って処
理を分岐する。即ち、抽出された文字領域の属性がタイ
トル領域であればステップS6へ、テキスト領域であれ
ばステップS7へ、キャプション領域であればステップ
S8へそれぞれ処理が分岐する。
【0051】ステップS6では、当該領域をタイトル領
域として、その旨を示すTITLEフラグを記憶する。ま
た、ステップS8では、当該領域をキャプション領域と
して、その旨を表すCAPTIONフラグを記憶する。
【0052】当該領域がテキスト領域の場合は、ステッ
プS9へ進み、当該テキスト領域が本文中のものか、表
中のものかを判断する。そして、本文中のテキスト領域
であればステップS10へ、表中のテキスト領域であれ
ばステップS11へそれぞれ進む。そしてステップS1
0では、当該領域が本文中のテキスト領域であることを
示す本文中TEXTフラグを記憶する。また、ステップS1
1では、当該文字領域が表中のテキスト領域であること
を示す表中TEXTフラグを記憶する。
【0053】ステップS12では複数の角度からの読取
りによる文字認識を行い、その文字認識結果に基づいて
当該領域における文書方向の判別を行う。なお、この文
書方向判別の詳細は後述する。ステップS12におい
て、当該領域における文書方向が判別できた場合はステ
ップS14へ、文書方向の判別が不能であった場合はス
テップS16へそれぞれ進む。
【0054】ステップS14では、各フラグ別(即ち、
TITLE,CAPTION,本文中TEXT,表中TEX別)に、ステッ
プS12による方向判別結果を記憶する。そして、ステ
ップS15では、本文中TEXTと判断された複数の文字領
域において、方向判別結果が一致したか判断する。もし
一致方向が検出できたら、その方向を方向判別結果とし
てステップS22へ進む。一方、一致方向の検出ができ
なかった場合はステップS16へ進み、全ての文字領域
について上述のステップS5からステップS15の処理
を行ったか否かを判断する。もしまだ未処理の文字領域
がある場合は、ステップS13へ進み、処理の対象を次
の文字領域へ移し、ステップS5へ戻る。
【0055】本文中のテキスト領域と判定された文字領
域で一致方向が検出できず、ステップS3で抽出された
全ての文字領域についてステップS5〜S15の処理が
終了している場合は、ステップS16からステップS1
7へ進む。ステップS17では、タイトル領域と判定さ
れた文字領域の複数領域で方向判別結果が一致したか判
断する。もし一致方向が検出できたら、該一致方向を方
向判別結果とし、ステップS22へ進む。
【0056】一方、ステップS17において一致方向を
検出できなければ、ステップS18へ進む。ステップS
18では、表中のテキスト領域と判定された文字領域で
複数箇所の方向判別結果が一致したか判断する。もし一
致方向が検出できたら、その方向を方向判別結果として
ステップS22へ進む。
【0057】ステップS18において一致方向が検出で
きなかった場合は、ステップS19へ進む。ステップS
19では、キャプション領域と判定された文字領域で複
数箇所の方向判別結果が一致したか判断する。もし一致
方向が検出できたら、その方向を方向判別結果としてス
テップS22へ進む。
【0058】ステップS19において、一致方向が検出
できなければステップS20へ進む。ステップS20で
は、抽出された文字領域のうち方向判別結果の得られた
領域があるかどうかを調査し、一つでも方向判別結果が
得られた領域が見つかれば、その領域の方向を方向判別
結果としてステップS22へ進む。ただし、ステップS
20における調査は、本文中のテキスト領域、タイトル
領域、表中のテキスト領域、キャプション領域の順に行
う。
【0059】ステップS20において方向判別結果の得
られた文字領域が存在しない場合はステップS21へ進
み、方向判別不能とする。この場合、スキャナ部11の
読取り方向をそのまま文書方向として(即ち、0度の画
像として)ステップS26へ進み、処理を続行する。
【0060】一方、何等かの方向判別結果が得られた場
合は、ステップS22においてその方向判別結果を取得
し、ステップS23で該方向判別結果が0度か否かを判
断する。方向判別結果が0度の場合は、画像回転を行わ
ないので、そのままステップS26へ進む。
【0061】ステップS24では、方向判別結果(本例
の場合、90°、180°、270°のいずれかとな
る)に従って、メモリ12bに格納された画像データを
回転する。そして、ステップS25にて、メモり12b
に格納された画像データに対して、再びステップS2と
同様の領域分離処理を行う。領域分離結果はステップS
2の場合と同様に主記憶(RAM)に記憶される。
【0062】ステップS26では、正しい方向に修正さ
れた画像データあるいは当初から正しい方向で読み込ま
れた画像データについて、全文字領域にわたって文字認
識を実行する。ステップS27では、その文字認識結果
を得て、これを記憶装置15に格納する。
【0063】以上のように、本実施形態1では、文書中
の文字領域を用いて文書方向の判別を行う訳だが、文書
中において各文字が最も正しい方向を向いていると判断
される本文中のテキスト領域を優先順位を高くして方向
判別に用いるので、方向判定結果の信頼性が向上する。
【0064】そして、もし文書方向が正しい方向である
と判定された場合は、引続き画像中の文字ブロックに対
して文字認識処理を行なう。一方、不正な方向に入力さ
れた場合は、当該画像データを正しい方向に回転させ
て、得られた回転画像に対して、再び領域分離補正処理
を行ない、文字認識を行う。
【0065】ここで、回転処理後の画像データに対して
再度領域分離を行うのは、画像回転に伴う領域分離情報
の相違を補正するためである。回転後の画像に対する領
域分離の方法としては、(A)回転後の全画像データに
対して再度領域分離処理を行なう方法、あるいは(B)
アドレス変換を領域分離結果にかける方法がある。領域
分離処理は、一般に画像が正方向であることを想定して
いるため、初めの段階で行なった領域分離処理と回転画
像データに対して行なった領域分離処理は、結果が異な
ることが多い。それゆえ(A)の方法を採用するのが一
般的である。
【0066】そして、回転画像データ中の各文字領域
は、文字認識処理系(文字認識/方向判別部13)で文
字認識される。この結果、回転処理を必要とする画像で
あっても、必要としない画像であっても、最終的に領域
分離情報と文字認識情報が得られることになる。更に、
この処理結果は、図1のI/F部16を介してコンピュ
ータ17に転送可能であり、コンピュータ17上のアプ
リケーションソフト(例えばファイリング処理や文書処
理等)で利用される。
【0067】もちろん、上記処理結果を記憶装置15に
転送して格納するようにしても良いことはいうまでもな
い。このように記憶装置15に転送する処理形態は、ス
キャナ11より連続的に画像情報を入力して処理結果を
記憶総理15に格納しておき、次にその情報をコンピュ
ータ17によってまとめて読み出すといったバッチ処理
的に使われる方式に利用される。
【0068】また、処理結果をプリンタ部17に転送す
る処理形態では、プリンタ装置にページ記述言語を解釈
する機能があるとして、文字認識と領域分離の処理によ
り逆PDL(画像データよりページ記述言語を作成する
方法)やHTML(レイアウトや文書構造を記述する方
法)で文書を再構成したり清書したりするシステムで利
用される。
【0069】次に、文字認識処理を用いた、文書方向判
別の手法について、説明する。
【0070】[領域分離処理]文書画像データの黒画素
を検出してゆき、輪郭線追跡、またはラベリング方式に
より、黒画素ブロックの矩形枠を作成する。次にその矩
形のなかの黒画素密度、隣接矩形ブロックの有無、矩形
の縦横比率などを判断基準にして、各矩形について文字
領域(タイトル、本文、キャプションなど)、図形領
域、自然画領域、表領域などを判別する。この処理結果
より文字領域の矩形情報が判別される。この領域分離処
理は、上述のステップS2,S25にて実行される。
【0071】[文字認識処理]文字認識処理の一つの方
法として、特徴ベクトル抽出、比較方式がある。図5は
実施形態1で用いられる文字認識処理の手法を説明する
図である。(a)は処理対象の文書画像を表しており、
「1.本発明の名称」を含む領域51が文字領域として
抽出されている。文字認識処理の第1段階として、
(b)に示されるように、文字の切り出し処理を行な
う。これは一つの文字の矩形を切り出す処理で、黒画素
連続性の状態を検出していけば求められる。
【0072】次に、第2段階として、(c)に示される
ように一文字の矩形をm×nのブロック(例えば、64
×64のブロック)に分割する。そして、そのなかから
3x3のウインドを用いて、黒画素の分布方向を抽出す
る(方向ベクトル情報)。(d)はその方向ベクトル情
報を示す例である。このウインドをずらしてゆき、方向
ベクトル情報を数十個得る。このベクトル情報が文字の
特徴となる。
【0073】この特徴ベクトルとあらかじめ各文字につ
いて標準的な特徴ベクトルが登録されている文字認識辞
書とを比較して、両者が一番近い文字から順番に文字を
抽出する。一番近い文字が第一候補となり、続いて第
二、第三となる。この両者の特徴ベクトルの近さが、そ
の文字に対する距離の近さ、前述の自信度という数値に
なる。
【0074】[文字方向判別]上述の文字認識処理で文
字の自信度が求まる訳だが、この文字認識処理を用いて
文書の方向を求める手順について図6を用いて説明す
る。図6は実施形態1における文書方向の検出方法を説
明する図である。(a)は正方向の文、(b)は270
度に回転した文を示す。ここで「本」に注目すると、
(c)に示すように、0度、90度、180度、270
度の方向から文字認識を行なってみる。各角度による認
識処理は、文字矩形の領域からの画像データの読みだし
方を変更することで実現でき、特に原画像データを回転
する必要はない。さて、各角度による文字認識結果
((c))をみると、認識文字が各角度で異なってい
る。なお、(c)に示した認識結果は、説明用の仮の文
字認識結果および自信度である。
【0075】(c)によれば、正方向の文字による認識
結果によれば、「本」と認識され、その自信度も0.9
0と高い値となる。90度回転すると「町」と認識さ
れ、自信度は0.40と落ちる。これは、不正な方向に
向いた文字の特徴より、特徴の近い文字を無理矢理引っ
張り出してきたためである。同様に180度、270度
の値も低い値を示す。この自信度は、複雑な文字程、そ
の差が顕著となる。
【0076】図6の(c)の結果によれば、文書は正方
向を向いている可能性が高いと判断される。より精度を
上げるため、さらに数個の文字について同様な処理を行
なう。一つの文字ブロックだけでは、特殊になる可能性
があるため、異なる文字領域についても行なってみる必
要がある。
【0077】各角度からの自信度の平均値より、回転し
ている方向の値が高い値となるため、方向が判別でき
る。0度と180度、90度と270度ではそれぞれ自
信度が異なるため、4方向の向きがわかることになる。
これにより、精度の高い方向判別結果を得る。
【0078】次に、もし回転すべきと判断されたなら
ば、原画像を回転する。これは、図1の主制御部12に
おけるCPU12a,メモリ12bを用い、公知の手法
で達成されるので、詳細な説明は省略する。
【0079】[最終的に獲得される情報(ステップS2
7)]図7は最終的な文字認識を終えた時点において獲
得されるデータを説明する図である。上図のような処理
により、最終的に文書方向が補正された画像について、
原画像データ(A)、領域分離データ(B)、OCR結
果(文字認識結果)(C)を得ることができる。
【0080】(A)の原画像データは、読取り方向が正
しい方向に修正された回転後の画像データである。
(B)の領域分離データにおいて、「header」は以降の
データが領域分離データであることを示す。「rect1」
〜「rectn」は、それぞれ検出された領域に対する領域
分離データである。「rect1」〜「rectn」はそれぞれ、
71に示すような構造を有する。即ち、領域を特定する
ための番号を示す「order」、領域の属性を示す「at
t」、領域の位置(矩形の左上の角)を示す「x1,y1」、
領域の幅、高さを表す「w,h」、当該領域の組方向(縦
書き、横書き)を表す「direction」の各データで構成
される。
【0081】また、文字認識情報は(C)に示すような
形態となっており、「OCR1」〜「OCRn」の各データは、
「rect1」〜「rectn」の各領域の文字認識結果である。
文字認識結果はそれぞれ、73に示すデータ構造を有す
る。また、blk headerは、各領域の文字認識結果の前に
付加するヘッダーであり、どのような矩形領域について
文字認識処理したかの情報を入れる。このblk headr
は、「type」「order」「att」「x1」「y1」「w」「h」
「direction」を有する。「order」〜「direction」の
各データは、上述の領域分離データ71の各データと同
様である。「type」は、以降のデータがblk headerであ
ることを示す。また、文字認識結果について、日本語、
英語、その他の言語等の区別も示す。
【0082】文字認識結果73における「type」は、以
降のデータが文字認識結果であることを示すという点を
除いて、blk headerの「type」と同じである。また、
「文字1」等は認識結果としての文字コードである。更
に、文字認識結果73において、「x1」「y1」「w」
「h」は一文字切り出した際の文字矩形情報である。更
に、「reserve」は予備部を示す。以上のような情報
は、アプリケーションにより使用される。例えば、電子
ファイリング、文書整形、DTPなどで利用される。
【0083】上記実施形態1では、文書中の文字領域の
属性を優先順位の項目としており、本文中のテキストを
最も優先順位を高くしているが、優先順位の設定はこれ
に限られるものではない。例えばタイトル領域が最も正
方向を向いている確率が高いとして、タイトル領域の優
先順位を最も高くしてもよい。
【0084】実施形態1の処理手順において、方向判定
の優先順位は、図3のステップS15、S17〜S19
においてどの属性の領域が参照されているかによって決
定されている。そして、若いステップ番号で参照される
領域ほど優先順位が高くなる。よって、これらのステッ
プにおいて参照する領域の属性を変更することで、方向
判定における優先順位を変更できる。図8は、タイトル
領域を最高優先度の領域とした場合の文字認識処理手順
を説明するフローチャートである。なお、図8で示され
る処理手順は、図3で示される処理手順に対応し、同じ
処理を行うステップには同一のステップ番号を付した。
図8と図3の対比から明らかなように、ステップS1
5、S17で参照される領域の属性を入れ換えてステッ
プS15’、S17’とすることで、優先順位の変更が
達成される。
【0085】また、逆に、文書中の図や表などの脇に添
えて書かれたキャプション領域の属性を最も低い優先順
位としたが、表中の文字領域の方が変な方向に向いてい
る可能性が高いとして、表中の文字領域を最も優先順位
の低い領域とすることもできることは明らかである。
【0086】<実施形態2>上記実施形態1では、文字
領域の属性に優先順位を与えて、優先順位の高い属性を
有する文字領域から判定される文書方向を優先的に用い
て文書方向の判定を行っている。本実施形態2では、文
字領域の方向判定において自信度の高い判定結果を用
い、この判定結果が複数の文字領域で一致する場合、そ
の方向を文書方向として決定するものである。
【0087】実施形態2によれば、文書画像データに対
して、領域分割処理を行い、この領域分割処理の結果、
文字領域と判断された領域について、文字認識処理を利
用した方向判別処理を行う。そして、文字領域内で、あ
る程度以上の自信度を有した方向判別の結果が得られれ
ば、それを第1候補の方向認識結果とする。引き続き他
の文字領域について方向判定を行い、所定値以上の自信
度を有した方向判別の結果が得られればそれを第2候補
の方向認識結果とする。
【0088】以上のようにして得られた第1及び第2候
補の方向認識結果が一致すれば、その方向を当該文書の
方向と判断する。
【0089】なお、実施形態2におけるシステムの構成
は実施形態18図1と同様であるので説明を省略する。
【0090】図9及び図10は実施形態2における文字
認識処理の手順を表すフローチャートである。ステップ
S41では、スキャナ部11により画像を光学的に読取
り、画像データを得る。ステップS42では、得られた
画像データに対して実施形態1で説明した領域分離処理
を行う。そして、ステップS43にて、分離された領域
より、文字領域を抽出する。
【0091】ステップS44では、抽出された文字領域
の一つについて文書方向を判別する。文書方向の判別方
法は実施形態1で説明した通りである。ここで、当該文
字領域の文字方向が判別できなければステップS45へ
進み、次の未処理の文字ブロックがあるかどうかを判定
する。未処理の文字ブロックがあればステップS44へ
戻る。一方、ステップS45において未処理の文字ブロ
ックがなくなれば、回転方向の判別が不能であるとして
そのままステップS54へ進む。なお、ステップS44
における文書方向の判別の可否は、所定の自信度を有す
る判定結果を得たか否かによって行う。従って、この自
信度をある程度高い値とすることにより、自信度の小さ
い判定結果は排除される。
【0092】ステップS46では、ステップS44の文
書方向判別の結果が第1判別方向として保存される。即
ち、ステップS44、S45の処理において、所定値以
上の自信度を有する文書方向の判別結果が得られた場合
に、その判別方向を第1判別方向として保存する。
【0093】続いて、ステップS47〜ステップS49
において、ステップS44〜ステップS46と同様な処
理を行い、所定値以上の自信度を有する文書方向の判別
結果が得られれば、これを第2判別方向として保存す
る。
【0094】ステップS49において、第2判別方向が
保存されると、ステップS50において第1判別方向と
第2判別方向が同じであるか否かを判定する。両判別方
向が同じであれば、ステップS51へ進み、それらの判
別方向が何度であるかによって処理を分岐する。ステッ
プS51において、判別方向が0度であれば、画像回転
等の処理が不要であるので、ステップS54へ進み、そ
のまま文字認識処理を実行する。
【0095】一方、ステップS51において、判別方向
が90度、270度、360度のいずれかであれば、ス
テップS52へ進み、検出された判別方向に基づいて、
当該画像が正しい方向を向くように画像を回転させる。
そして、ステップS53において、回転後の画像データ
において再度領域分離を行い、全文字について文字認識
を行うべくステップS54へ進む。
【0096】また、ステップS47において、第2判別
方向が検出される前に処理すべき文字領域が無くなれ
ば、ステップS46で保存した第1判別方向を当該文書
画像の方向として採用し、そのままステップS51へ進
む。
【0097】また、ステップS50において、両判別方
向が一致しなければ、文書方向の判別は不能として、ス
テップS54へ進む(即ち、画像の回転等を行わずに、
全文字の認識処理を実行する)。
【0098】ステップS54では、画像データ中の全文
字領域について文字認識を実行する。そして、ステップ
S54において、図7で示したような領域分離情報と文
字認識情報を生成する。
【0099】以上のように、上記実施形態2において
は、文書方向の判別における判別の可否のチェックを所
定値以上の自信度を有するか否かで行い、自信度の小さ
い判別結果を採用しないようにして、方向判別の精度を
向上している。また、複数の方向判別結果を参照するこ
とにより、更に向判別の精度を向上している。
【0100】上記実施形態1では、文書中の所定値以上
の自信度を有する方向判別結果が得られた文書領域を2
ヶ所検出し、これらの文書領域の方向判別結果が一致す
れば、これを方向判別結果として獲得している。しかし
ながら、3つ以上の文字領域で判別方向が一致するか否
かで判断するように構成することも可能である。
【0101】また、上記実施形態2では、最初に検出さ
れた第1判別方向と第2判別方向の一致で文書方向を決
定し、このような方向の不確定な文書に対して、方向判
別のための処理に時間を駈けないようにしている。しか
しながら、ステップS50で第1及び第2判別方向が一
致しない場合、ステップS44へ処理を戻して、他の文
字領域を用いて方向検出をやり直すように構成してもよ
い。このとき、他の文字領域によって検出された方向が
上述の第1判別方向と第2判別方向のいずれかと一致す
るとき、その方向を文書方向として決定するようにすれ
ばよい。
【0102】<実施形態3>本実施形態3では、方向判
別に全文字領域の方向判定を行い、判別回数の多い方向
をもって、当該文書の方向に決定する方法を説明する。
【0103】図11は実施形態3における文字認識処理
の手順を表すフローチャートである。同図において、ス
テップS61〜ステップS63は、図9のステップS4
1〜ステップS43と同様の処理を行う。ステップS6
4では、ステップS63で抽出された文字領域の一つに
ついて方向判別を行う。そして、その結果、所定値以上
の自信度を有する方向が判別されれば、ステップS65
へ進む。ステップS65では、ステップS64で判別さ
れた方向毎に、判別回数をカウントする。判別回数のカ
ウント値は、メモり12bのRAMに所定の領域を設け
て格納する。そして、ステップS66へ進む。
【0104】一方、ステップS64で、所定値以上の自
信度を有する方向判定が行えなかった場合はそのままス
テップS66へ進む。ステップS66では、次の未処理
の文字領域が存在するか否かを判定し、未処理の文字領
域があればステップS64へ戻る。また、未処理の文字
領域が無くなれば、ステップS67へ進む。以上のよう
にして、すべての文字領域について方向判別が行われ、
所定値以上の自信度を有して判別された回数が各方向毎
(本例では0度、90度、180度、270度)にカウ
ントされる。
【0105】ステップS67では、判別回数が最大とな
った方向を検出し、これを当該文書の方向として決定す
る。以上のようにして決定された方向を判別結果として
ステップS51へ進む。なお、ステップS51〜ステッ
プS55は、図10で示した各ステップと同様であるの
で、ここでは説明を省略する。
【0106】以上説明したように、実施形態3によれ
ば、文字領域全体について方向判定を行い、最も判定さ
れた回数の多い方向を文書方向とするので、精度よく文
書方向を判定できる。
【0107】以上のように各実施形態によれば、文書中
の複数の文字領域を検査することにより、その文書の方
向を判定するので、より精度の高い判別結果を得ること
が可能となる。このため、文書方向が誤った方向で文書
入力が行われても、自動的に補正することが可能とな
り、特に大量に入力された文書をファイリングするシス
テムにおいて、人間の手間を省くことができる効果があ
る。文字認識処理においても、間違った方向のまま文字
認識されることがなくなり、誤認識を防止できると共
に、画像データも正しい方向で保存される。
【0108】上記情報処理システムにおける文書方向判
別及び文字認識処理は、パーソナルコンピュータ等にス
キャナを接続した構成においても実現できる。よって、
上記装置の機能もしくは方法の機能によって達成される
本発明の目的は、前述の実施例のプログラムを記憶させ
た記憶媒体によっても達成できるものである。即ち、上
記装置に、その記憶媒体を装着し、その記憶媒体から読
み出したプログラム自体が本発明の新規な機能を達成す
るからである。なお、記憶媒体を例えばフロッピーディ
スクとすれば、フロッピーディスクドライバを記憶装置
15の一部として組込み、該フロッピーディスクより制
御プログラムを読み出してメモり12bへ格納し、これ
をCPU12aで実行するようにすれば良い。
【0109】このための、本発明にかかるプログラムの
構造的特徴は、図17に示す通りである。
【0110】図17の(a)において、1701は分離
処理であり、入力された文書画像データを複数の部分領
域に分離する。また、1702は付与処理であり、上記
分離処理1701で得られた複数の部分領域のそれぞれ
について、予め優先度が与えられた複数種類の属性のい
ずれに該当するかを判別し、判別された属性を付与す
る。以上の処理は、図2のステップS2に相当する処理
である。
【0111】また、1703は判別処理であり、上記分
離処理1701で得られた前記複数の部分領域のそれぞ
れについて、文書方向を判別する。これは、図3のステ
ップS12に相当する処理である。そして、1704は
決定処理であり、判別処理1703で判別された各部分
領域の文書方向と、各部分領域に付与されている属性の
優先度に基づいて当該文書画像データの方向を決定す
る。これは図3のステップS15〜ステップS20に相
当する。
【0112】図17の(b)は、上述の各処理を実行す
るためのプログラムモジュールを記憶媒体に格納した場
合のメモりマップを表す図である。分離処理モジュール
1701’、付与処理モジュール1702’、判別処理
モジュール1703’、決定処理モジュール1704’
は、それぞれ、分離処理1701、付与処理1702、
判別処理1703、決定処理1704を実行するプログ
ラムモジュールである。
【0113】また、図18は、本発明にかかる他のプロ
グラムを説明する図である。図18の(a)において、
1801は抽出処理であり、入力された文書画像データ
より複数の部分領域を抽出する。これは、図9のステッ
プS41〜S43に相当する処理である。1802は判
別処理であり、抽出処理1801で抽出された部分領域
について方向を判別する。これは、図9のステップS4
4、S47に相当する処理である。1803は決定処理
であり、判別処理1802において所定以上の確実性を
有して方向が判別された複数の部分領域に関して、その
判別された方向が一致する場合、該方向を前記文書画像
データの方向として決定する。これは、図9のステップ
S46、S49、図10のステップS50に相当する処
理である。
【0114】図18の(b)は、上述の各処理を実行す
るためのプログラムモジュールを記憶媒体に格納した場
合のメモりマップを表す図である。分離処理モジュール
1801’、判別処理モジュール1802’、決定処理
モジュール1803’は、それぞれ、分離処理180
1、判別処理1802、決定処理1803を実行するプ
ログラムモジュールである。
【0115】また、図19は、本発明にかかる更に他の
プログラムを説明する図である。図19の(a)におい
て、1901は抽出処理であり、入力された文書画像デ
ータより複数の部分領域を抽出する。これは図11のス
テップS61〜S63の処理に相当する。また、190
2は判別処理であり、上記抽出工程1901で抽出され
た複数の部分領域のそれぞれについて文書方向を判別す
る。これはステップS64の処理に相当する。また、1
903は決定処理であり、各文書方向について上記判別
処理1902で判別された回数をカウントし、そのカウ
ント値が最大となる文書方向を前記文書画像データの方
向として決定する。これは、ステップS65、S67に
相当する。
【0116】また、本発明は、複数の機器から構成され
るシステムに適用しても、1つの機器からなる装置に適
用してもよい。また、本発明はシステム或は装置にプロ
グラムを供給することによって達成される場合にも適用
できることは言うまでもない。この場合、本発明に係る
プログラムを格納した記憶媒体が、本発明を構成するこ
とになる。そして、該記憶媒体からそのプログラムをシ
ステム或は装置に読み出すことによって、そのシステム
或は装置が、予め定められた仕方で動作する。
【0117】
【発明の効果】以上のように本発明によれば、文書画像
データに含まれる複数領域について文書方向を判別し、
判別された各領域の方向に基づいて当該文書画像の方向
を決定することが可能となり、より正確に文書方向を判
定できる。
【0118】また、本発明によれば、各部分領域の方向
の判別を、各領域に含まれる文字の方向を判別すること
によって行うことで、各領域の方向をより正確に判定す
ることが可能となる。
【0119】また、本発明によれば、文書の読取り方向
に関らず正しい方向で文書画像が表示され、より文字認
識精度が向上する。
【0120】
【図面の簡単な説明】
【図1】実施形態1における情報処理システムの構成を
表すブロック図である。
【図2】実施形態1における文字認識の手順を表すフロ
ーチャートである。
【図3】実施形態1における文字認識の手順を表すフロ
ーチャートである。
【図4】実施形態1における文字認識の手順を表すフロ
ーチャートである。
【図5】実施形態1で用いられる文字認識処理の手法を
説明する図である。
【図6】実施形態1における文書方向の検出方法を説明
する図である。
【図7】最終的な文字認識を終えた時点において獲得さ
れるデータを説明する図である。
【図8】タイトル領域を最高優先度の領域とした場合の
文字認識処理手順を説明するフローチャートである。
【図9】実施形態2における文字認識処理の手順を表す
フローチャートである。
【図10】実施形態2における文字認識処理の手順を表
すフローチャートである。
【図11】実施形態3における文字認識処理の手順を表
すフローチャートである。
【図12】文書方向の自動判別の代表的な手法を説明す
る図である。
【図13】「高」という文字に対して、読取り方向が回
転した場合の各方向における認識結果を示す図である。
【図14】スキャナ等で読み込まれた画像データをディ
スプレイ表示している状態を表す図である。
【図15】紙面上における文書の各種の配置状態を説明
する図である。
【図16】1枚の原稿上に異なる方向の文字が混在する
文書の例を表す図である。
【図17】本実施の形態の制御を実現するための制御プ
ログラムを格納した記憶媒体の構成を説明する図であ
る。
【図18】本実施の形態の制御を実現するための制御プ
ログラムを格納した記憶媒体の他の構成を説明する図で
ある。
【図19】本実施の形態の制御を実現するための制御プ
ログラムを格納した記憶媒体の他の構成を説明する図で
ある。
【符号の説明】
11 スキャナ部 12 主制御部 13 文字認識/方向判別部 14 領域分離部 15 記憶装置 16 I/F部 17 コンピュータ 18 プリンタ部

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書画像データを複数の部分
    領域に分離する分離手段と、 前記分離手段で得られた前記複数の部分領域のそれぞれ
    について、予め優先度が与えられた複数種類の属性のい
    ずれに該当するかを判別し、判別された属性を付与する
    付与手段と、 前記分離手段で得られた前記複数の部分領域のそれぞれ
    について、文書方向を判別する判別手段と、 前記判別手段で判別された各部分領域の文書方向と、各
    部分領域に付与された属性の優先度に基づいて前記文書
    画像データの方向を決定する決定手段とを備えることを
    特徴とする文書方向判定装置。
  2. 【請求項2】 前記判別手段は、方向判別の対象となっ
    ている部分領域に含まれる複数の文字を抽出し、各文字
    について複数の方向から文字認識を行い、認識度が最も
    高くなる方向を当該部分領域の方向とすることを特徴と
    する請求項1に記載の文書方向判定装置。
  3. 【請求項3】 前記決定手段は、優先度の最も高い属性
    を有する部分領域の複数における文書方向の判別結果が
    一致した場合、その文書方向を前記文書画像データの方
    向として決定することを特徴とする請求項1に記載の文
    書方向判定装置。
  4. 【請求項4】 前記複数の属性は、本文中の文字領域で
    ある属性、表組中の文字領域である属性、タイトル中の
    文字領域である属性、図の解説等のための文字領域であ
    る属性を含むことを特徴とする請求項1に記載の文書方
    向判定装置。
  5. 【請求項5】 本文中の文字領域である属性を最も優先
    度の高い属性とすることを特徴とする請求項3に記載の
    文書方向判定装置。
  6. 【請求項6】 タイトル中の文字領域である属性を最も
    優先度の高い属性とすることを特徴とする請求項3に記
    載の文書方向判定装置。
  7. 【請求項7】 入力された文書画像データより複数の部
    分領域を抽出する抽出手段と、 前記抽出手段で抽出された部分領域について方向を判別
    する判別手段と、 前記判別手段において所定以上の確実性を有して方向が
    判別された複数の部分領域に関して、その判別された方
    向が一致する場合、該方向を前記文書画像データの方向
    として決定する決定手段とを備えることを特徴とする文
    書方向判定装置。
  8. 【請求項8】 前記抽出手段は文字領域を部分領域とし
    て抽出し、 前記判別手段は、抽出された文字領域に含まれる文字に
    ついて複数方向からの認識処理を行い、認識度が最も高
    くなる方向を該文字領域の方向とし、 前記所定以上の確実性とは、前記判別手段において得ら
    れた認識度の最大値が所定値を越えるものであることを
    特徴とする請求項7に記載の文書方向判定装置。
  9. 【請求項9】 入力された文書画像データより複数の部
    分領域を抽出する抽出手段と、 前記抽出手段で抽出された複数の部分領域のそれぞれに
    ついて文書方向を判別する判別手段と、 各文書方向について前記判別手段で判別された回数をカ
    ウントし、そのカウント値が最大となる文書方向を前記
    文書画像データの方向として決定する決定手段とを備え
    ることを特徴とする文書方向判定装置。
  10. 【請求項10】 前記抽出手段は、複数の文字領域を抽
    出し、 前記判別手段は、抽出された文字領域のそれぞれに関し
    て、文字領域に含まれる文字について複数の方向から認
    識処理を行い、認識度が最も高くなる方向を該文字領域
    の方向とすることを特徴とする請求項9に記載の文書方
    向判定装置。
  11. 【請求項11】 請求項1乃至10のいずれかに記載の
    文書方向判定装置によって判定された文書画像データの
    方向に基づいて前記文書画像データを回転する回転手段
    と、 前記回転手段で回転された文書画像データを用いて文字
    認識処理を行う認識手段とを備えることを特徴とする文
    字認識装置。
  12. 【請求項12】 入力された文書画像データを複数の部
    分領域に分離する分離工程と、 前記分離工程で得られた前記複数の部分領域のそれぞれ
    について、予め優先度が与えられた複数種類の属性のい
    ずれに該当するかを判別し、判別された属性を付与する
    付与工程と、 前記分離工程で得られた前記複数の部分領域のそれぞれ
    について、文書方向を判別する判別工程と、 前記判別工程で判別された各部分領域の文書方向と、各
    部分領域に付与された属性の優先度に基づいて前記文書
    画像データの方向を決定する決定工程とを備えることを
    特徴とする文書方向判定方法。
  13. 【請求項13】 入力された文書画像データより複数の
    部分領域を抽出する抽出工程と、 前記抽出工程で抽出された部分領域について方向を判別
    する判別工程と、 前記判別工程において所定以上の確実性を有して方向が
    判別された複数の部分領域に関して、その判別された方
    向が一致する場合、該方向を前記文書画像データの方向
    として決定する決定工程とを備えることを特徴とする文
    書方向判定方法。
  14. 【請求項14】 入力された文書画像データより複数の
    部分領域を抽出する抽出工程と、 前記抽出工程で抽出された複数の部分領域のそれぞれに
    ついて文書方向を判別する判別工程と、 各文書方向について前記判別工程で判別された回数をカ
    ウントし、そのカウント値が最大となる文書方向を前記
    文書画像データの方向として決定する決定工程とを備え
    ることを特徴とする文書方向判定方法。
  15. 【請求項15】 メモリ媒体から所定のプログラムを読
    みこんでコンピュータを制御するコンピュータ制御装置
    であって、前記メモリ媒体は、 入力された文書画像データを複数の部分領域に分離する
    分離工程の手順コードと、 前記分離工程で得られた前記複数の部分領域のそれぞれ
    について、予め優先度が与えられた複数種類の属性のい
    ずれに該当するかを判別し、判別された属性を付与する
    付与工程の手順コードと、 前記分離工程で得られた前記複数の部分領域のそれぞれ
    について、文書方向を判別する判別工程の手順コード
    と、 前記判別工程で判別された各部分領域の文書方向と、各
    部分領域に付与された属性の優先度に基づいて前記文書
    画像データの方向を決定する決定工程の手順コードとを
    備えることを特徴とするコンピュータ制御装置。
  16. 【請求項16】 メモリ媒体から所定のプログラムを読
    みこんでコンピュータを制御するコンピュータ制御装置
    であって、前記メモリ媒体は、 入力された文書画像データより複数の部分領域を抽出す
    る抽出工程の手順コードと、 前記抽出工程で抽出された部分領域について方向を判別
    する判別工程の手順コードと、 前記判別工程において所定以上の確実性を有して方向が
    判別された複数の部分領域に関して、その判別された方
    向が一致する場合、該方向を前記文書画像データの方向
    として決定する決定工程の手順コードとを備えることを
    特徴とするコンピュータ制御装置。
  17. 【請求項17】 メモリ媒体から所定のプログラムを読
    みこんでコンピュータを制御するコンピュータ制御装置
    であって、前記メモリ媒体は、 入力された文書画像データより複数の部分領域を抽出す
    る抽出工程の手順コードと、 前記抽出工程で抽出された複数の部分領域のそれぞれに
    ついて文書方向を判別する判別工程の手順コードと、 各文書方向について前記判別工程で判別された回数をカ
    ウントし、そのカウント値が最大となる文書方向を前記
    文書画像データの方向として決定する決定工程の手順コ
    ードとを備えることを特徴とするコンピュータ制御装
    置。
JP22359195A 1995-08-31 1995-08-31 文書方向判定方法及び装置及び文字認識方法及び装置 Expired - Fee Related JP3787377B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP22359195A JP3787377B2 (ja) 1995-08-31 1995-08-31 文書方向判定方法及び装置及び文字認識方法及び装置
US08/703,475 US6137905A (en) 1995-08-31 1996-08-28 System for discriminating document orientation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22359195A JP3787377B2 (ja) 1995-08-31 1995-08-31 文書方向判定方法及び装置及び文字認識方法及び装置

Publications (2)

Publication Number Publication Date
JPH0969136A true JPH0969136A (ja) 1997-03-11
JP3787377B2 JP3787377B2 (ja) 2006-06-21

Family

ID=16800576

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22359195A Expired - Fee Related JP3787377B2 (ja) 1995-08-31 1995-08-31 文書方向判定方法及び装置及び文字認識方法及び装置

Country Status (1)

Country Link
JP (1) JP3787377B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151423A (en) * 1998-03-04 2000-11-21 Canon Kabushiki Kaisha Character recognition with document orientation determination
US6633406B1 (en) 1998-07-31 2003-10-14 Minolta Co., Ltd. Image processing apparatus and image forming apparatus which recognize orientation of document image
US6798905B1 (en) 1998-07-10 2004-09-28 Minolta Co., Ltd. Document orientation recognizing device which recognizes orientation of document image
US8532434B2 (en) 2009-06-15 2013-09-10 Sharp Kabushiki Kaisha Image processing method and apparatus for determining orientations based on reliabilities of a plurality of portions into which image has been divided or for determining orientations of portions of image divided by user's input so as to recognize characters for each divided portion of image, image forming apparatus, and storage medium
WO2018037520A1 (ja) * 2016-08-24 2018-03-01 株式会社Pfu モバイル端末、画像処理方法、および、プログラム
CN110443239A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 文字图像的识别方法及其装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151423A (en) * 1998-03-04 2000-11-21 Canon Kabushiki Kaisha Character recognition with document orientation determination
US6798905B1 (en) 1998-07-10 2004-09-28 Minolta Co., Ltd. Document orientation recognizing device which recognizes orientation of document image
US6633406B1 (en) 1998-07-31 2003-10-14 Minolta Co., Ltd. Image processing apparatus and image forming apparatus which recognize orientation of document image
US8532434B2 (en) 2009-06-15 2013-09-10 Sharp Kabushiki Kaisha Image processing method and apparatus for determining orientations based on reliabilities of a plurality of portions into which image has been divided or for determining orientations of portions of image divided by user's input so as to recognize characters for each divided portion of image, image forming apparatus, and storage medium
WO2018037520A1 (ja) * 2016-08-24 2018-03-01 株式会社Pfu モバイル端末、画像処理方法、および、プログラム
CN110443239A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 文字图像的识别方法及其装置

Also Published As

Publication number Publication date
JP3787377B2 (ja) 2006-06-21

Similar Documents

Publication Publication Date Title
US6137905A (en) System for discriminating document orientation
US6148119A (en) Character recognition in input images divided into areas
US5822454A (en) System and method for automatic page registration and automatic zone detection during forms processing
US8233671B2 (en) Reading device with hierarchal navigation
US7305619B2 (en) Image processing method, device and storage medium therefor
JP3278471B2 (ja) 領域分割方法
US5191612A (en) Character recognition system
US7528986B2 (en) Image forming apparatus, image forming method, program therefor, and storage medium
KR100247970B1 (ko) 문서 영상의 방향 교정방법
US20010014176A1 (en) Document image processing device and method thereof
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
US8201084B2 (en) Image processing apparatus and computer readable medium
JPH09185477A (ja) ディジタル画像におけるテキストフィールドおよびチェックボックスを識別する方法および装置
JP3787377B2 (ja) 文書方向判定方法及び装置及び文字認識方法及び装置
US20010043742A1 (en) Communication document detector
JP3285686B2 (ja) 領域分割方法
US8125691B2 (en) Information processing apparatus and method, computer program and computer-readable recording medium for embedding watermark information
US6678427B1 (en) Document identification registration system
JPH09269970A (ja) 文字認識方法とその装置
CN115131806B (zh) 一种基于深度学习的各类证件ocr图像信息识别方法、系统
CN100578530C (zh) 图像处理设备和图像方向判定方法
JP3412998B2 (ja) 画像処理装置及びその方法
CN113033360A (zh) 文档图像识别装置及方法
JPH0830725A (ja) 画像処理装置及び方法
JPH09146947A (ja) 文字領域の順序付け方法及び装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060327

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100331

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100331

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110331

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120331

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130331

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130331

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140331

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees