JP2004272798A

JP2004272798A - 画像読み取り装置

Info

Publication number: JP2004272798A
Application number: JP2003065467A
Authority: JP
Inventors: Nobuyuki Okubo; 伸幸大窪
Original assignee: PFU Ltd
Current assignee: PFU Ltd
Priority date: 2003-03-11
Filing date: 2003-03-11
Publication date: 2004-09-30
Also published as: US20040179733A1

Abstract

【課題】文書画像を読み取る画像入力装置において、ＯＣＲなどの文字認識機能を使用しないで、原稿画像の向きを自動判定することができる画像入力装置を実現する。
【解決手段】画像入力装置１により読み取られた二値画像データから、黒ピクセルのつながりを判定することで、黒ピクセルの連続領域を一つのグループとしてグループ化し、グループ化された各黒ピクセル連続領域の外接矩形情報を抽出する、ラベリング処理手段３を備える。ラベリング処理手段３により抽出されたグループ外接矩形情報から、原稿画像に含まれる行矩形情報を抽出する行抽出処理手段４と、この行抽出処理手段４により抽出された行矩形に含まれる句読点を識別する句読点識別手段５を備え、これらにより、抽出された行矩形情報と、句読点のグループ外接矩形情報から、行内における句読点の相対位置を調べることで、行の向きを自動判別する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、文字情報を含んだ文書画像の読み取りに関し、画像読み取り装置の使用者が原稿の向きを設定することなく、自動で原稿の向きを判定し、回転補正し読み取りした画像を出力することができる画像読み取り装置を実現するものである。
【０００２】
【従来の技術】
文字情報を含んだ文書画像の読み取りにおいて、読み取り対象となる原稿に、向きの異なるものが混在している場合、従来は、原稿ごとに使用者が原稿の向きを手動で設定し、この設定情報をもとに画像読み取りを行っていた。
【０００３】
このような装置では、原稿が大量にある場合、原稿ごとに手動の設定処理が入るため、読み取りに時間がかかり、非常に使いにくいものであった。
【０００４】
この問題を解決するため、画像読み取り装置にＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）機能を搭載し、原稿に書かれた文字を認識することで、原稿の向きを判定する装置が考案されている。（例えば、特許文献１を参照。）
【０００５】
これは、図１０に示すような処理を行うことで実現されている。画像入力装置５０により原稿に書かれた文字画像を画像データとして読み取り、これを画像データの回転処理部５１において、０度、９０度、１８０度、２７０度に回転した画像データを作成する。
【０００６】
回転された画像データごとに文字認識処理部５２において認識辞書５３に格納された文字データとパターンマッチングを行うことで文字認識を行い、それぞれの回転した画像ごとに認識の確かさを示す判定確率を求める。
【０００７】
これによって、求められた文字認識の判定確率情報を受けた向き判定部５４では、この中で最も判定確率の高い向きを原稿の向きと判定するものである。
【０００８】
また、誤判定を防ぐため、上記の処理を原稿に書かれた複数の文字について行い、統計的処理により、原稿の向きの確率の高い向きを選択するなどの処理も行われている。
【０００９】
しかし、このようなＯＣＲの文字認識技術を使用した原稿の向きの判定は、画像読み取り装置にＯＣＲ機能が搭載されていることが必要であること、ＯＣＲ機能で文字認識を行うためには、原稿に書かれた文字の言語ごとに専用のＯＣＲエンジンが必要なため、向きの判定を行うためには、その前に言語を手動で設定させることが必要であること、また、数種類の言語が混在した原稿に対応できない場合があることといった問題があった。
【００１０】
また、上記の通り、原稿の向きを判定するためには、何度も文字認識を行う必要があり、原稿の向きの判定処理に時間がかかり、画像の読み取り速度が遅くなってしまうという問題があった。
【００１１】
また、原稿の向きの判定は、画像読み取りの際、毎回行うものであるので、なるべく短時間に処理を行う必要があり、ハードウェア機能として実現することが望ましいが、ＯＣＲ機能をハードウェア機能として実現することは非常に困難であり、複数の言語に対応したＯＣＲ機能をハードウェア化して画像読み取り装置に組み込むことは現実的には不可能であるという問題があった。
【００１２】
【特許文献１】
実開平５−１２９６０号公報
【発明が解決しようとする課題】
前記のごとく、従来の技術では次のような問題点がある。
【００１３】
文字情報を含んだ画像の画像読み取りを行う画像読み取り装置において、読み取り対象である原稿の向きが、原稿ごとに異なったものが混在している場合、原稿の読み取り時に、使用者によって手動で向きの設定を行わせるようにしており、非常に使いにくいという問題があった。
【００１４】
この問題の解決方法として、画像読み取り装置にＯＣＲ機能を持たせ、文字認識を行うことで、最も認識確度の高い向きを原稿の向きとして自動判定する装置が考案されている。
【００１５】
しかし、この方法では画像読み取り装置にＯＣＲ機能を搭載することが必要であり装置が高価となることや、ＯＣＲの文字認識を利用した方法では時間がかかり、処理の短時間化のためのハードウェア化もできないという問題や、複数の言語の混在した原稿に対応できないという問題があった。
【００１６】
この発明の課題は、原稿の画像を電子データとして読み取る画像読み取り装置において、文字情報を含む画像を読み取る場合、ＯＣＲなどの複雑で高価な文字認識機能を使用せずに、原稿画像の向きを自動判定することができる画像読み取り装置を実現することにある。
【００１７】
【課題を解決するための手段】
前記の問題点を解決するために、この発明では次に示す手段を取った。
【００１８】
画像入力装置により読み取られた画像データが多値データの場合は、二値化する手段を備える。
【００１９】
上記の二値化手段により、白と黒のモノクロ画像データに変換された画像データから、黒ピクセルのつながりを判定することで黒ピクセルの連続領域を抽出し、グループ化を行い、グループ化された黒ピクセル連続領域のグループ外接矩形情報を抽出するラベリングと呼ばれる処理を行うラベリング処理手段を備える。
【００２０】
上記のラベリング処理手段により、グループ化された黒ピクセル連続領域のグループ外接矩形の位置関係から行矩形情報を抽出する行抽出処理手段を備える。
【００２１】
上記の行抽出処理手段により抽出された行矩形情報と、上記のラベリング処理手段により、グループ化された黒ピクセル連続領域のグループ外接矩形情報から、行矩形に含まれる句読点、ピリオド、コンマと類推される黒ピクセル連続領域を識別する句読点識別手段を備える。
【００２２】
上記の行抽出処理手段により抽出された行矩形情報と、上記の句読点識別手段により識別された句読点、ピリオド、コンマと類推される黒ピクセル連続領域との相対位置の特徴によって、行の向きを判定する行方向判定手段を備える。
【００２３】
上記の行方向判定処理を、原稿に含まれる複数の行について実行し、統計的な処理により、最も多くの行で行の向きとして判定された方向を原稿の向きと判定する統計的判定処理手段を備える。
【００２４】
【発明の実施の形態】
この発明は、次に示す実施の形態を取った。
【００２５】
ＣＣＤなどの画像入力装置により読み取られた画像データが多値画像データの場合、これを二値化する手段を備える。
【００２６】
これにより、カラーやモノクロ多階調の画像読み取り装置において、読み込まれた画像データが多値データの場合、これを白と黒のモノクロ二値画像に変換することで、以後の画像処理を単純化することができる。
【００２７】
二値化された白黒画像データから、黒のピクセルのつながりを判定することで連続している領域をグループ化し、グループ化された黒ピクセル連続領域のグループ外接矩形情報を抽出するラベリング処理手段を備える。
【００２８】
これにより、原稿画像に書かれた文字の向きを判定するための基礎となる、点や線などの文字構成要素の輪郭情報を得ることができる。
【００２９】
上記のラベリング処理手段により抽出された、グループ外接矩形の位置情報から、原稿に書かれた文字の行矩形情報を抽出する行抽出処理手段を備える。
【００３０】
これにより、行の向きの判定の際に、句読点、ピリオド、コンマと類推される黒ピクセル連続領域との相対位置を求める基礎となる行矩形の輪郭データを得ることができる。
【００３１】
上記の手段により抽出された行矩形情報の中に含まれる、ラベリング処理により抽出された黒ピクセル連続領域グループの中から、句読点、ピリオド、コンマと類推されるグループ外接矩形を識別する句読点識別手段を備える。
【００３２】
上記の句読点識別手段により句読点、ピリオド、コンマと類推された黒ピクセル連続領域のグループ外接矩形の位置情報と、それが含まれる行矩形情報から、両矩形の相対位置を求め、この位置の特徴から行の向きを判定する行方向判定手段を備える。
【００３３】
これにより、ＯＣＲ機能を使用して文字認識を行うことなく、行の向きから、原稿の向きを容易に判定することができるので、安価で、しかもハードウェア化することで高速化でき、複数の言語が混在していた場合でも適用できるようになる。
【００３４】
また、上記の行方向判定手段による行方向判定処理を、原稿に含まれる複数の行について実行し、統計的な処理により、最も多くの行で行の向きとして判定された方向を原稿の向きとして判断する統計的判定処理手段を備える。
【００３５】
これにより、一つの行に含まれるデータの内容によって誤判定が発生した場合でも、複数行の向きの判定を行い、最も向きの確率の高い方向を原稿の向きとして判定を行うことで、最終的な原稿の向きの誤判定の発生を防ぐことができるようになる。
【００３６】
【実施例】
この発明による代表的な実施例を説明する。なお、以下において、同じ箇所は同一の符号を付してあり、詳細な説明を省略することがある。
【００３７】
本装置は、文字情報を含んだ画像データを読み込み、読み込まれた画像データの内容をもとに、自動的に原稿の向きを判定することができる画像読み取り装置である。
【００３８】
図１に示すように、画像読み取り装置には、ＣＣＤなどの画像入力装置１を備えており、原稿の画像を電子データとして取り込むことができるようになっている。
【００３９】
この画像入力装置１には、カラーのものやモノクロ多階調のものが使用される場合もあり、この場合、読み込まれる画像データは、１ピクセルあたりの情報を多値（８ビット、２４ビット等）で表したデータとなっている。
【００４０】
これを、白黒２階調の二値データに変換する二値化手段２を備えている。二値化には、多値で表現された画素の輝度を、所定の閾値以上を１、閾値以下を０とするなどの方法により行われる。
【００４１】
二値化手段２により、二値のモノクロ画像に変換された画像データは、黒ピクセルの連続領域をグループ化するラベリング処理を行うため、ラベリング処理手段３ラベリング処理手段３に送られる。
【００４２】
ラベリング処理とは、図２（ａ）に示すように、黒ピクセルのつながりを判定し、図２（ａ）の斜線で囲んだ範囲に示すように、黒ピクセルの連続領域を一つの単位としてグループ化し、図２（ｂ）に示すように、グループ化された黒ピクセルの連続領域ごとのグループ外接矩形情報を求める処理である。
【００４３】
このラベリング処理により求められた、グループ外接矩形の位置情報から、図３に示すように、Ｘ方向に直線上に文字が配列されているのか、図４に示すように、Ｙ方向に直線上に文字が配列されているのかを判別し、この直線上に配列されたグループ外接矩形の集まりを行として、行矩形情報を行抽出処理手段４により抽出する。
【００４４】
抽出された行矩形に含まれる、黒ピクセル連続領域のグループ外接矩形の中から、図５に示すように、他のグループ外接矩形に比べて著しく小さな正方形領域で、他のグループ外接矩形と孤立したグループ外接矩形を句読点、ピリオド、コンマと類推し、識別する句読点識別手段５を備えるよう構成する。
【００４５】
行矩形の位置情報とこの句読点、ピリオド、コンマと類推された黒ピクセル連続領域のグループ外接矩形の位置情報から、行の中における、句読点、ピリオド、コンマの相対位置を求め、これにより、以下のように原稿の向きを判別する。
【００４６】
行矩形がＸ方向に長い長方形の場合、原稿に書かれている文字が横書きの場合は、図６（ａ）に示すように、句読点の位置は右下または左上になるが、原稿に書かれている文字が縦書きの場合は、図７（ｂ）に示すように、句読点の位置は右上または左下となる。
【００４７】
行矩形がＹ方向に長い長方形の場合、原稿に書かれている文字が横書きの場合は、図６（ｂ）に示すように、句読点の位置は右上または左下になるが、原稿に書かれている文字が縦書きの場合は、図７（ａ）に示すように、句読点の位置は左上または右下となる。
【００４８】
このように、行矩形の縦横比率の情報と句読点の相対位置により、原稿に書かれている文字の横書き、縦書きの識別および、その行の向きを判定することができることとなる。
【００４９】
具体的には、図８に示すフローチャートに従って、文字の縦書き、横書き、原稿の向きの判別を行う。
【００５０】
行方向判定手段６では、ステップ０で、行矩形情報および句読点と識別されたグループ外接矩形の情報を取得し、ステップ１で、行矩形の縦横比率から、行が横長か縦長か判定を行う。
【００５１】
判定の結果、行が横長の場合はステップ２に進み、行が縦長の場合はステップ７に進む。
【００５２】
行が横長の場合、ステップ２では、行矩形と、句読点と識別されたグループ外接矩形の相対位置を求め、相対位置が右下の場合は、図６（ａ）に示すように、その行は横書き行で、向きは０度と判定する。
【００５３】
ステップ３では、行矩形と、句読点と識別されたグループ外接矩形の相対位置を求め、相対位置が左上の場合は、図６（ａ）に示すように、その行は横書き行で、向きは１８０度と判定する。
【００５４】
ステップ４では、行矩形と、句読点と識別されたグループ外接矩形の相対位置を求め、相対位置が左下の場合は、図７（ｂ）に示すように、その行は縦書き行で、向きは９０度と判定する。
【００５５】
ステップ５では、行矩形と、句読点と識別されたグループ外接矩形の相対位置を求め、相対位置が右上の場合は、図７（ｂ）に示すように、その行は縦書き行で、向きは２７０度と判定する。
【００５６】
ステップ６では、上記のいずれでもない場合、その行は向きの判定不能の行として判定している。
【００５７】
ステップ１で行が縦長と判定された場合は、ステップ７に進み、同様に行矩形とそれに含まれる句読点と認識されたグループ外接矩形との相対位置を求め、その相対位置から行の横書き、縦書きの別およびその行の向きを判定する。
【００５８】
以上のようにして、行の向きの自動判定を行うが、行内の文字データの内容によって誤判定が発生する場合もあり得るので、原稿ページ中の複数の行矩形について、当該判定処理を実行し、統計的な処理により、最も多くの行で行の向きとして判定された方向を最終的な原稿の向きとして判定する統計的判定処理手段を備えるように構成してもよい。
【００５９】
なお、行矩形内に複数の句読点と識別されたグループ外接矩形が存在する場合には、図９（ａ）に示すように、行矩形の先頭に句読点と識別されたグループ外接矩形がない場合は、句読点と識別されたグループ外接矩形の終わりまでを一つの行矩形として、複数の行矩形に分割し、図９（ｂ）に示すように、行矩形の先頭に句読点と識別されたグループ外接矩形がある場合は、次の句読点と識別されたグループ外接矩形の手前までを一つの行矩形として、複数の行矩形に分割し、分割された行矩形ごとに向きの判定処理を実施し、統計的な処理により行の向きを判定してもよいし、複数の句読点と認識されたグループ外接矩形のうち、最も句読点である確率の高いグループ外接矩形を使用して、行方向の判定処理を行ってもよい。
【００６０】
画像の読み取りにおいて、このように原稿の向きを自動判定することで、あらかじめ読み取る画像データの向きを決めておいた場合は、読み取った画像データをその方向に合わせるように回転する手段を備え、すべての原稿を同一の方向に合わせて画像データを読み取れるように構成してもよい。
【００６１】
【発明の効果】
この発明により、以下に示すような効果が期待できる。
【００６２】
従来、文字情報を含んだ画像の読み取りを画像読み取り装置で行う場合、原稿の向きが異なるものが混在していた場合、この向きの設定を使用者が手動で行っており、非常に使いにくいものとなっていた。
【００６３】
この問題を解決するため、ＯＣＲ機能を搭載し、文字認識を行うことで、最も認識判定の確度の高い向きを原稿の向きとして自動判定する画像読み取り装置が考案されている。
【００６４】
しかし、このような装置では、ＯＣＲ機能を搭載することが必要となり、装置が高価となり、また、原稿の向きを判定するために、方向を変えて何度も文字認識する必要があり、かなりの処理時間を要するため、画像読み取りの速度が落ちるという問題点があった。
【００６５】
読み取り速度を早めるために、このような前処理はハードウェア化して処理することが有効であるが、ＯＣＲ機能をハードウェア化することは困難という問題があった。
【００６６】
また、ＯＣＲ機能により文字認識するためには、原稿に含まれる文字の言語を設定する必要があり、複数の言語の混在している原稿を認識するのは困難であるという問題もあった。
【００６７】
本発明を利用することにより、文字情報を含む原稿の画像読み取りにおいて、ＯＣＲなどの文字認識を行うことなく、容易に複数の言語の混在している原稿の向きを自動判定して読み取ることができるようになる。
【００６８】
また、仕組みが単純であるので、ハードウェア化して高速化することも可能である。
【図面の簡単な説明】
【図１】本発明の全体構成図である。
【図２】ラベリング処理の説明図である。
【図３】Ｘ方向に直線的にグループ外接矩形が並んでいる場合の説明図である。
【図４】Ｙ方向に直線的にグループ外接矩形が並んでいる場合の説明図である。。
【図５】句読点識別処理の説明図である。
【図６】原稿に書かれている文字が横書きの場合の説明図である。
【図７】原稿に書かれている文字が縦書きの場合の説明図である。
【図８】行の向きの判定処理説明図である。
【図９】行矩形内に複数の句読点がある場合の処理説明図である。
【図１０】従来の原稿向き自動判定処理の説明図である。
【符号の説明】
１：画像入力装置
２：二値化処理手段
３：ラベリング処理手段
４：行抽出処理手段
５：句読点識別手段
６：行方向判定手段
７：統計的判定処理手段

Claims

文字情報を含んだ画像の読み取りを行う画像読み取り装置において、
読み込まれた白黒２階調のモノクロ画像に含まれる、文字を構成する連続した黒ピクセルの領域をグループ化し、グループ化した黒ピクセル連続領域のグループ外接矩形情報を抽出するラベリング処理手段と、
ラベリング処理手段により抽出されたグループ化された黒ピクセル連続領域のグループ外接矩形の位置情報から行矩形情報を抽出する行抽出処理手段と、
ラベリング処理手段によりグループ化された黒ピクセル連続領域の位置、サイズから、句読点、ピリオド、コンマを識別する句読点識別手段と、
画像に含まれる文字の行矩形に対する、句読点、ピリオド、コンマの位置関係から行の向きを判定する行方向判定手段と、
を備えることを特徴とする画像読み取り装置。
文字情報を含んだ画像の読み取りを行う画像読み取り装置において、
画像入力装置により多値画像の画像データが読み取られた場合、多値画像データを二値化する手段を、
備えることを特徴とする請求項１記載の画像読み取り装置。
文字情報を含んだ画像の読み取りを行う画像読み取り装置において、
原稿画像に含まれる、複数の行について前記行方向判定手段による行の向きの判定処理を行い、統計的な処理により、行の向きとして確率の高い向きを原稿の向きと判定する統計的判定処理手段を、
備えることを特徴とする請求項１または請求項２記載の画像読み取り装置。