JP2004272798A - 画像読み取り装置 - Google Patents
画像読み取り装置 Download PDFInfo
- Publication number
- JP2004272798A JP2004272798A JP2003065467A JP2003065467A JP2004272798A JP 2004272798 A JP2004272798 A JP 2004272798A JP 2003065467 A JP2003065467 A JP 2003065467A JP 2003065467 A JP2003065467 A JP 2003065467A JP 2004272798 A JP2004272798 A JP 2004272798A
- Authority
- JP
- Japan
- Prior art keywords
- image
- line
- document
- information
- image reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】文書画像を読み取る画像入力装置において、OCRなどの文字認識機能を使用しないで、原稿画像の向きを自動判定することができる画像入力装置を実現する。
【解決手段】画像入力装置1により読み取られた二値画像データから、黒ピクセルのつながりを判定することで、黒ピクセルの連続領域を一つのグループとしてグループ化し、グループ化された各黒ピクセル連続領域の外接矩形情報を抽出する、ラベリング処理手段3を備える。ラベリング処理手段3により抽出されたグループ外接矩形情報から、原稿画像に含まれる行矩形情報を抽出する行抽出処理手段4と、この行抽出処理手段4により抽出された行矩形に含まれる句読点を識別する句読点識別手段5を備え、これらにより、抽出された行矩形情報と、句読点のグループ外接矩形情報から、行内における句読点の相対位置を調べることで、行の向きを自動判別する。
【選択図】 図1
【解決手段】画像入力装置1により読み取られた二値画像データから、黒ピクセルのつながりを判定することで、黒ピクセルの連続領域を一つのグループとしてグループ化し、グループ化された各黒ピクセル連続領域の外接矩形情報を抽出する、ラベリング処理手段3を備える。ラベリング処理手段3により抽出されたグループ外接矩形情報から、原稿画像に含まれる行矩形情報を抽出する行抽出処理手段4と、この行抽出処理手段4により抽出された行矩形に含まれる句読点を識別する句読点識別手段5を備え、これらにより、抽出された行矩形情報と、句読点のグループ外接矩形情報から、行内における句読点の相対位置を調べることで、行の向きを自動判別する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
この発明は、文字情報を含んだ文書画像の読み取りに関し、画像読み取り装置の使用者が原稿の向きを設定することなく、自動で原稿の向きを判定し、回転補正し読み取りした画像を出力することができる画像読み取り装置を実現するものである。
【0002】
【従来の技術】
文字情報を含んだ文書画像の読み取りにおいて、読み取り対象となる原稿に、向きの異なるものが混在している場合、従来は、原稿ごとに使用者が原稿の向きを手動で設定し、この設定情報をもとに画像読み取りを行っていた。
【0003】
このような装置では、原稿が大量にある場合、原稿ごとに手動の設定処理が入るため、読み取りに時間がかかり、非常に使いにくいものであった。
【0004】
この問題を解決するため、画像読み取り装置にOCR(Optical Character Reader)機能を搭載し、原稿に書かれた文字を認識することで、原稿の向きを判定する装置が考案されている。(例えば、特許文献1を参照。)
【0005】
これは、図10に示すような処理を行うことで実現されている。画像入力装置50により原稿に書かれた文字画像を画像データとして読み取り、これを画像データの回転処理部51において、0度、90度、180度、270度に回転した画像データを作成する。
【0006】
回転された画像データごとに文字認識処理部52において認識辞書53に格納された文字データとパターンマッチングを行うことで文字認識を行い、それぞれの回転した画像ごとに認識の確かさを示す判定確率を求める。
【0007】
これによって、求められた文字認識の判定確率情報を受けた向き判定部54では、この中で最も判定確率の高い向きを原稿の向きと判定するものである。
【0008】
また、誤判定を防ぐため、上記の処理を原稿に書かれた複数の文字について行い、統計的処理により、原稿の向きの確率の高い向きを選択するなどの処理も行われている。
【0009】
しかし、このようなOCRの文字認識技術を使用した原稿の向きの判定は、画像読み取り装置にOCR機能が搭載されていることが必要であること、OCR機能で文字認識を行うためには、原稿に書かれた文字の言語ごとに専用のOCRエンジンが必要なため、向きの判定を行うためには、その前に言語を手動で設定させることが必要であること、また、数種類の言語が混在した原稿に対応できない場合があることといった問題があった。
【0010】
また、上記の通り、原稿の向きを判定するためには、何度も文字認識を行う必要があり、原稿の向きの判定処理に時間がかかり、画像の読み取り速度が遅くなってしまうという問題があった。
【0011】
また、原稿の向きの判定は、画像読み取りの際、毎回行うものであるので、なるべく短時間に処理を行う必要があり、ハードウェア機能として実現することが望ましいが、OCR機能をハードウェア機能として実現することは非常に困難であり、複数の言語に対応したOCR機能をハードウェア化して画像読み取り装置に組み込むことは現実的には不可能であるという問題があった。
【0012】
【特許文献1】
実開平5−12960号公報
【発明が解決しようとする課題】
前記のごとく、従来の技術では次のような問題点がある。
【0013】
文字情報を含んだ画像の画像読み取りを行う画像読み取り装置において、読み取り対象である原稿の向きが、原稿ごとに異なったものが混在している場合、原稿の読み取り時に、使用者によって手動で向きの設定を行わせるようにしており、非常に使いにくいという問題があった。
【0014】
この問題の解決方法として、画像読み取り装置にOCR機能を持たせ、文字認識を行うことで、最も認識確度の高い向きを原稿の向きとして自動判定する装置が考案されている。
【0015】
しかし、この方法では画像読み取り装置にOCR機能を搭載することが必要であり装置が高価となることや、OCRの文字認識を利用した方法では時間がかかり、処理の短時間化のためのハードウェア化もできないという問題や、複数の言語の混在した原稿に対応できないという問題があった。
【0016】
この発明の課題は、原稿の画像を電子データとして読み取る画像読み取り装置において、文字情報を含む画像を読み取る場合、OCRなどの複雑で高価な文字認識機能を使用せずに、原稿画像の向きを自動判定することができる画像読み取り装置を実現することにある。
【0017】
【課題を解決するための手段】
前記の問題点を解決するために、この発明では次に示す手段を取った。
【0018】
画像入力装置により読み取られた画像データが多値データの場合は、二値化する手段を備える。
【0019】
上記の二値化手段により、白と黒のモノクロ画像データに変換された画像データから、黒ピクセルのつながりを判定することで黒ピクセルの連続領域を抽出し、グループ化を行い、グループ化された黒ピクセル連続領域のグループ外接矩形情報を抽出するラベリングと呼ばれる処理を行うラベリング処理手段を備える。
【0020】
上記のラベリング処理手段により、グループ化された黒ピクセル連続領域のグループ外接矩形の位置関係から行矩形情報を抽出する行抽出処理手段を備える。
【0021】
上記の行抽出処理手段により抽出された行矩形情報と、上記のラベリング処理手段により、グループ化された黒ピクセル連続領域のグループ外接矩形情報から、行矩形に含まれる句読点、ピリオド、コンマと類推される黒ピクセル連続領域を識別する句読点識別手段を備える。
【0022】
上記の行抽出処理手段により抽出された行矩形情報と、上記の句読点識別手段により識別された句読点、ピリオド、コンマと類推される黒ピクセル連続領域との相対位置の特徴によって、行の向きを判定する行方向判定手段を備える。
【0023】
上記の行方向判定処理を、原稿に含まれる複数の行について実行し、統計的な処理により、最も多くの行で行の向きとして判定された方向を原稿の向きと判定する統計的判定処理手段を備える。
【0024】
【発明の実施の形態】
この発明は、次に示す実施の形態を取った。
【0025】
CCDなどの画像入力装置により読み取られた画像データが多値画像データの場合、これを二値化する手段を備える。
【0026】
これにより、カラーやモノクロ多階調の画像読み取り装置において、読み込まれた画像データが多値データの場合、これを白と黒のモノクロ二値画像に変換することで、以後の画像処理を単純化することができる。
【0027】
二値化された白黒画像データから、黒のピクセルのつながりを判定することで連続している領域をグループ化し、グループ化された黒ピクセル連続領域のグループ外接矩形情報を抽出するラベリング処理手段を備える。
【0028】
これにより、原稿画像に書かれた文字の向きを判定するための基礎となる、点や線などの文字構成要素の輪郭情報を得ることができる。
【0029】
上記のラベリング処理手段により抽出された、グループ外接矩形の位置情報から、原稿に書かれた文字の行矩形情報を抽出する行抽出処理手段を備える。
【0030】
これにより、行の向きの判定の際に、句読点、ピリオド、コンマと類推される黒ピクセル連続領域との相対位置を求める基礎となる行矩形の輪郭データを得ることができる。
【0031】
上記の手段により抽出された行矩形情報の中に含まれる、ラベリング処理により抽出された黒ピクセル連続領域グループの中から、句読点、ピリオド、コンマと類推されるグループ外接矩形を識別する句読点識別手段を備える。
【0032】
上記の句読点識別手段により句読点、ピリオド、コンマと類推された黒ピクセル連続領域のグループ外接矩形の位置情報と、それが含まれる行矩形情報から、両矩形の相対位置を求め、この位置の特徴から行の向きを判定する行方向判定手段を備える。
【0033】
これにより、OCR機能を使用して文字認識を行うことなく、行の向きから、原稿の向きを容易に判定することができるので、安価で、しかもハードウェア化することで高速化でき、複数の言語が混在していた場合でも適用できるようになる。
【0034】
また、上記の行方向判定手段による行方向判定処理を、原稿に含まれる複数の行について実行し、統計的な処理により、最も多くの行で行の向きとして判定された方向を原稿の向きとして判断する統計的判定処理手段を備える。
【0035】
これにより、一つの行に含まれるデータの内容によって誤判定が発生した場合でも、複数行の向きの判定を行い、最も向きの確率の高い方向を原稿の向きとして判定を行うことで、最終的な原稿の向きの誤判定の発生を防ぐことができるようになる。
【0036】
【実施例】
この発明による代表的な実施例を説明する。なお、以下において、同じ箇所は同一の符号を付してあり、詳細な説明を省略することがある。
【0037】
本装置は、文字情報を含んだ画像データを読み込み、読み込まれた画像データの内容をもとに、自動的に原稿の向きを判定することができる画像読み取り装置である。
【0038】
図1に示すように、画像読み取り装置には、CCDなどの画像入力装置1を備えており、原稿の画像を電子データとして取り込むことができるようになっている。
【0039】
この画像入力装置1には、カラーのものやモノクロ多階調のものが使用される場合もあり、この場合、読み込まれる画像データは、1ピクセルあたりの情報を多値(8ビット、24ビット等)で表したデータとなっている。
【0040】
これを、白黒2階調の二値データに変換する二値化手段2を備えている。二値化には、多値で表現された画素の輝度を、所定の閾値以上を1、閾値以下を0とするなどの方法により行われる。
【0041】
二値化手段2により、二値のモノクロ画像に変換された画像データは、黒ピクセルの連続領域をグループ化するラベリング処理を行うため、ラベリング処理手段3ラベリング処理手段3に送られる。
【0042】
ラベリング処理とは、図2(a)に示すように、黒ピクセルのつながりを判定し、図2(a)の斜線で囲んだ範囲に示すように、黒ピクセルの連続領域を一つの単位としてグループ化し、図2(b)に示すように、グループ化された黒ピクセルの連続領域ごとのグループ外接矩形情報を求める処理である。
【0043】
このラベリング処理により求められた、グループ外接矩形の位置情報から、図3に示すように、X方向に直線上に文字が配列されているのか、図4に示すように、Y方向に直線上に文字が配列されているのかを判別し、この直線上に配列されたグループ外接矩形の集まりを行として、行矩形情報を行抽出処理手段4により抽出する。
【0044】
抽出された行矩形に含まれる、黒ピクセル連続領域のグループ外接矩形の中から、図5に示すように、他のグループ外接矩形に比べて著しく小さな正方形領域で、他のグループ外接矩形と孤立したグループ外接矩形を句読点、ピリオド、コンマと類推し、識別する句読点識別手段5を備えるよう構成する。
【0045】
行矩形の位置情報とこの句読点、ピリオド、コンマと類推された黒ピクセル連続領域のグループ外接矩形の位置情報から、行の中における、句読点、ピリオド、コンマの相対位置を求め、これにより、以下のように原稿の向きを判別する。
【0046】
行矩形がX方向に長い長方形の場合、原稿に書かれている文字が横書きの場合は、図6(a)に示すように、句読点の位置は右下または左上になるが、原稿に書かれている文字が縦書きの場合は、図7(b)に示すように、句読点の位置は右上または左下となる。
【0047】
行矩形がY方向に長い長方形の場合、原稿に書かれている文字が横書きの場合は、図6(b)に示すように、句読点の位置は右上または左下になるが、原稿に書かれている文字が縦書きの場合は、図7(a)に示すように、句読点の位置は左上または右下となる。
【0048】
このように、行矩形の縦横比率の情報と句読点の相対位置により、原稿に書かれている文字の横書き、縦書きの識別および、その行の向きを判定することができることとなる。
【0049】
具体的には、図8に示すフローチャートに従って、文字の縦書き、横書き、原稿の向きの判別を行う。
【0050】
行方向判定手段6では、ステップ0で、行矩形情報および句読点と識別されたグループ外接矩形の情報を取得し、ステップ1で、行矩形の縦横比率から、行が横長か縦長か判定を行う。
【0051】
判定の結果、行が横長の場合はステップ2に進み、行が縦長の場合はステップ7に進む。
【0052】
行が横長の場合、ステップ2では、行矩形と、句読点と識別されたグループ外接矩形の相対位置を求め、相対位置が右下の場合は、図6(a)に示すように、その行は横書き行で、向きは0度と判定する。
【0053】
ステップ3では、行矩形と、句読点と識別されたグループ外接矩形の相対位置を求め、相対位置が左上の場合は、図6(a)に示すように、その行は横書き行で、向きは180度と判定する。
【0054】
ステップ4では、行矩形と、句読点と識別されたグループ外接矩形の相対位置を求め、相対位置が左下の場合は、図7(b)に示すように、その行は縦書き行で、向きは90度と判定する。
【0055】
ステップ5では、行矩形と、句読点と識別されたグループ外接矩形の相対位置を求め、相対位置が右上の場合は、図7(b)に示すように、その行は縦書き行で、向きは270度と判定する。
【0056】
ステップ6では、上記のいずれでもない場合、その行は向きの判定不能の行として判定している。
【0057】
ステップ1で行が縦長と判定された場合は、ステップ7に進み、同様に行矩形とそれに含まれる句読点と認識されたグループ外接矩形との相対位置を求め、その相対位置から行の横書き、縦書きの別およびその行の向きを判定する。
【0058】
以上のようにして、行の向きの自動判定を行うが、行内の文字データの内容によって誤判定が発生する場合もあり得るので、原稿ページ中の複数の行矩形について、当該判定処理を実行し、統計的な処理により、最も多くの行で行の向きとして判定された方向を最終的な原稿の向きとして判定する統計的判定処理手段を備えるように構成してもよい。
【0059】
なお、行矩形内に複数の句読点と識別されたグループ外接矩形が存在する場合には、図9(a)に示すように、行矩形の先頭に句読点と識別されたグループ外接矩形がない場合は、句読点と識別されたグループ外接矩形の終わりまでを一つの行矩形として、複数の行矩形に分割し、図9(b)に示すように、行矩形の先頭に句読点と識別されたグループ外接矩形がある場合は、次の句読点と識別されたグループ外接矩形の手前までを一つの行矩形として、複数の行矩形に分割し、分割された行矩形ごとに向きの判定処理を実施し、統計的な処理により行の向きを判定してもよいし、複数の句読点と認識されたグループ外接矩形のうち、最も句読点である確率の高いグループ外接矩形を使用して、行方向の判定処理を行ってもよい。
【0060】
画像の読み取りにおいて、このように原稿の向きを自動判定することで、あらかじめ読み取る画像データの向きを決めておいた場合は、読み取った画像データをその方向に合わせるように回転する手段を備え、すべての原稿を同一の方向に合わせて画像データを読み取れるように構成してもよい。
【0061】
【発明の効果】
この発明により、以下に示すような効果が期待できる。
【0062】
従来、文字情報を含んだ画像の読み取りを画像読み取り装置で行う場合、原稿の向きが異なるものが混在していた場合、この向きの設定を使用者が手動で行っており、非常に使いにくいものとなっていた。
【0063】
この問題を解決するため、OCR機能を搭載し、文字認識を行うことで、最も認識判定の確度の高い向きを原稿の向きとして自動判定する画像読み取り装置が考案されている。
【0064】
しかし、このような装置では、OCR機能を搭載することが必要となり、装置が高価となり、また、原稿の向きを判定するために、方向を変えて何度も文字認識する必要があり、かなりの処理時間を要するため、画像読み取りの速度が落ちるという問題点があった。
【0065】
読み取り速度を早めるために、このような前処理はハードウェア化して処理することが有効であるが、OCR機能をハードウェア化することは困難という問題があった。
【0066】
また、OCR機能により文字認識するためには、原稿に含まれる文字の言語を設定する必要があり、複数の言語の混在している原稿を認識するのは困難であるという問題もあった。
【0067】
本発明を利用することにより、文字情報を含む原稿の画像読み取りにおいて、OCRなどの文字認識を行うことなく、容易に複数の言語の混在している原稿の向きを自動判定して読み取ることができるようになる。
【0068】
また、仕組みが単純であるので、ハードウェア化して高速化することも可能である。
【図面の簡単な説明】
【図1】本発明の全体構成図である。
【図2】ラベリング処理の説明図である。
【図3】X方向に直線的にグループ外接矩形が並んでいる場合の説明図である。
【図4】Y方向に直線的にグループ外接矩形が並んでいる場合の説明図である。。
【図5】句読点識別処理の説明図である。
【図6】原稿に書かれている文字が横書きの場合の説明図である。
【図7】原稿に書かれている文字が縦書きの場合の説明図である。
【図8】行の向きの判定処理説明図である。
【図9】行矩形内に複数の句読点がある場合の処理説明図である。
【図10】従来の原稿向き自動判定処理の説明図である。
【符号の説明】
1:画像入力装置
2:二値化処理手段
3:ラベリング処理手段
4:行抽出処理手段
5:句読点識別手段
6:行方向判定手段
7:統計的判定処理手段
【発明の属する技術分野】
この発明は、文字情報を含んだ文書画像の読み取りに関し、画像読み取り装置の使用者が原稿の向きを設定することなく、自動で原稿の向きを判定し、回転補正し読み取りした画像を出力することができる画像読み取り装置を実現するものである。
【0002】
【従来の技術】
文字情報を含んだ文書画像の読み取りにおいて、読み取り対象となる原稿に、向きの異なるものが混在している場合、従来は、原稿ごとに使用者が原稿の向きを手動で設定し、この設定情報をもとに画像読み取りを行っていた。
【0003】
このような装置では、原稿が大量にある場合、原稿ごとに手動の設定処理が入るため、読み取りに時間がかかり、非常に使いにくいものであった。
【0004】
この問題を解決するため、画像読み取り装置にOCR(Optical Character Reader)機能を搭載し、原稿に書かれた文字を認識することで、原稿の向きを判定する装置が考案されている。(例えば、特許文献1を参照。)
【0005】
これは、図10に示すような処理を行うことで実現されている。画像入力装置50により原稿に書かれた文字画像を画像データとして読み取り、これを画像データの回転処理部51において、0度、90度、180度、270度に回転した画像データを作成する。
【0006】
回転された画像データごとに文字認識処理部52において認識辞書53に格納された文字データとパターンマッチングを行うことで文字認識を行い、それぞれの回転した画像ごとに認識の確かさを示す判定確率を求める。
【0007】
これによって、求められた文字認識の判定確率情報を受けた向き判定部54では、この中で最も判定確率の高い向きを原稿の向きと判定するものである。
【0008】
また、誤判定を防ぐため、上記の処理を原稿に書かれた複数の文字について行い、統計的処理により、原稿の向きの確率の高い向きを選択するなどの処理も行われている。
【0009】
しかし、このようなOCRの文字認識技術を使用した原稿の向きの判定は、画像読み取り装置にOCR機能が搭載されていることが必要であること、OCR機能で文字認識を行うためには、原稿に書かれた文字の言語ごとに専用のOCRエンジンが必要なため、向きの判定を行うためには、その前に言語を手動で設定させることが必要であること、また、数種類の言語が混在した原稿に対応できない場合があることといった問題があった。
【0010】
また、上記の通り、原稿の向きを判定するためには、何度も文字認識を行う必要があり、原稿の向きの判定処理に時間がかかり、画像の読み取り速度が遅くなってしまうという問題があった。
【0011】
また、原稿の向きの判定は、画像読み取りの際、毎回行うものであるので、なるべく短時間に処理を行う必要があり、ハードウェア機能として実現することが望ましいが、OCR機能をハードウェア機能として実現することは非常に困難であり、複数の言語に対応したOCR機能をハードウェア化して画像読み取り装置に組み込むことは現実的には不可能であるという問題があった。
【0012】
【特許文献1】
実開平5−12960号公報
【発明が解決しようとする課題】
前記のごとく、従来の技術では次のような問題点がある。
【0013】
文字情報を含んだ画像の画像読み取りを行う画像読み取り装置において、読み取り対象である原稿の向きが、原稿ごとに異なったものが混在している場合、原稿の読み取り時に、使用者によって手動で向きの設定を行わせるようにしており、非常に使いにくいという問題があった。
【0014】
この問題の解決方法として、画像読み取り装置にOCR機能を持たせ、文字認識を行うことで、最も認識確度の高い向きを原稿の向きとして自動判定する装置が考案されている。
【0015】
しかし、この方法では画像読み取り装置にOCR機能を搭載することが必要であり装置が高価となることや、OCRの文字認識を利用した方法では時間がかかり、処理の短時間化のためのハードウェア化もできないという問題や、複数の言語の混在した原稿に対応できないという問題があった。
【0016】
この発明の課題は、原稿の画像を電子データとして読み取る画像読み取り装置において、文字情報を含む画像を読み取る場合、OCRなどの複雑で高価な文字認識機能を使用せずに、原稿画像の向きを自動判定することができる画像読み取り装置を実現することにある。
【0017】
【課題を解決するための手段】
前記の問題点を解決するために、この発明では次に示す手段を取った。
【0018】
画像入力装置により読み取られた画像データが多値データの場合は、二値化する手段を備える。
【0019】
上記の二値化手段により、白と黒のモノクロ画像データに変換された画像データから、黒ピクセルのつながりを判定することで黒ピクセルの連続領域を抽出し、グループ化を行い、グループ化された黒ピクセル連続領域のグループ外接矩形情報を抽出するラベリングと呼ばれる処理を行うラベリング処理手段を備える。
【0020】
上記のラベリング処理手段により、グループ化された黒ピクセル連続領域のグループ外接矩形の位置関係から行矩形情報を抽出する行抽出処理手段を備える。
【0021】
上記の行抽出処理手段により抽出された行矩形情報と、上記のラベリング処理手段により、グループ化された黒ピクセル連続領域のグループ外接矩形情報から、行矩形に含まれる句読点、ピリオド、コンマと類推される黒ピクセル連続領域を識別する句読点識別手段を備える。
【0022】
上記の行抽出処理手段により抽出された行矩形情報と、上記の句読点識別手段により識別された句読点、ピリオド、コンマと類推される黒ピクセル連続領域との相対位置の特徴によって、行の向きを判定する行方向判定手段を備える。
【0023】
上記の行方向判定処理を、原稿に含まれる複数の行について実行し、統計的な処理により、最も多くの行で行の向きとして判定された方向を原稿の向きと判定する統計的判定処理手段を備える。
【0024】
【発明の実施の形態】
この発明は、次に示す実施の形態を取った。
【0025】
CCDなどの画像入力装置により読み取られた画像データが多値画像データの場合、これを二値化する手段を備える。
【0026】
これにより、カラーやモノクロ多階調の画像読み取り装置において、読み込まれた画像データが多値データの場合、これを白と黒のモノクロ二値画像に変換することで、以後の画像処理を単純化することができる。
【0027】
二値化された白黒画像データから、黒のピクセルのつながりを判定することで連続している領域をグループ化し、グループ化された黒ピクセル連続領域のグループ外接矩形情報を抽出するラベリング処理手段を備える。
【0028】
これにより、原稿画像に書かれた文字の向きを判定するための基礎となる、点や線などの文字構成要素の輪郭情報を得ることができる。
【0029】
上記のラベリング処理手段により抽出された、グループ外接矩形の位置情報から、原稿に書かれた文字の行矩形情報を抽出する行抽出処理手段を備える。
【0030】
これにより、行の向きの判定の際に、句読点、ピリオド、コンマと類推される黒ピクセル連続領域との相対位置を求める基礎となる行矩形の輪郭データを得ることができる。
【0031】
上記の手段により抽出された行矩形情報の中に含まれる、ラベリング処理により抽出された黒ピクセル連続領域グループの中から、句読点、ピリオド、コンマと類推されるグループ外接矩形を識別する句読点識別手段を備える。
【0032】
上記の句読点識別手段により句読点、ピリオド、コンマと類推された黒ピクセル連続領域のグループ外接矩形の位置情報と、それが含まれる行矩形情報から、両矩形の相対位置を求め、この位置の特徴から行の向きを判定する行方向判定手段を備える。
【0033】
これにより、OCR機能を使用して文字認識を行うことなく、行の向きから、原稿の向きを容易に判定することができるので、安価で、しかもハードウェア化することで高速化でき、複数の言語が混在していた場合でも適用できるようになる。
【0034】
また、上記の行方向判定手段による行方向判定処理を、原稿に含まれる複数の行について実行し、統計的な処理により、最も多くの行で行の向きとして判定された方向を原稿の向きとして判断する統計的判定処理手段を備える。
【0035】
これにより、一つの行に含まれるデータの内容によって誤判定が発生した場合でも、複数行の向きの判定を行い、最も向きの確率の高い方向を原稿の向きとして判定を行うことで、最終的な原稿の向きの誤判定の発生を防ぐことができるようになる。
【0036】
【実施例】
この発明による代表的な実施例を説明する。なお、以下において、同じ箇所は同一の符号を付してあり、詳細な説明を省略することがある。
【0037】
本装置は、文字情報を含んだ画像データを読み込み、読み込まれた画像データの内容をもとに、自動的に原稿の向きを判定することができる画像読み取り装置である。
【0038】
図1に示すように、画像読み取り装置には、CCDなどの画像入力装置1を備えており、原稿の画像を電子データとして取り込むことができるようになっている。
【0039】
この画像入力装置1には、カラーのものやモノクロ多階調のものが使用される場合もあり、この場合、読み込まれる画像データは、1ピクセルあたりの情報を多値(8ビット、24ビット等)で表したデータとなっている。
【0040】
これを、白黒2階調の二値データに変換する二値化手段2を備えている。二値化には、多値で表現された画素の輝度を、所定の閾値以上を1、閾値以下を0とするなどの方法により行われる。
【0041】
二値化手段2により、二値のモノクロ画像に変換された画像データは、黒ピクセルの連続領域をグループ化するラベリング処理を行うため、ラベリング処理手段3ラベリング処理手段3に送られる。
【0042】
ラベリング処理とは、図2(a)に示すように、黒ピクセルのつながりを判定し、図2(a)の斜線で囲んだ範囲に示すように、黒ピクセルの連続領域を一つの単位としてグループ化し、図2(b)に示すように、グループ化された黒ピクセルの連続領域ごとのグループ外接矩形情報を求める処理である。
【0043】
このラベリング処理により求められた、グループ外接矩形の位置情報から、図3に示すように、X方向に直線上に文字が配列されているのか、図4に示すように、Y方向に直線上に文字が配列されているのかを判別し、この直線上に配列されたグループ外接矩形の集まりを行として、行矩形情報を行抽出処理手段4により抽出する。
【0044】
抽出された行矩形に含まれる、黒ピクセル連続領域のグループ外接矩形の中から、図5に示すように、他のグループ外接矩形に比べて著しく小さな正方形領域で、他のグループ外接矩形と孤立したグループ外接矩形を句読点、ピリオド、コンマと類推し、識別する句読点識別手段5を備えるよう構成する。
【0045】
行矩形の位置情報とこの句読点、ピリオド、コンマと類推された黒ピクセル連続領域のグループ外接矩形の位置情報から、行の中における、句読点、ピリオド、コンマの相対位置を求め、これにより、以下のように原稿の向きを判別する。
【0046】
行矩形がX方向に長い長方形の場合、原稿に書かれている文字が横書きの場合は、図6(a)に示すように、句読点の位置は右下または左上になるが、原稿に書かれている文字が縦書きの場合は、図7(b)に示すように、句読点の位置は右上または左下となる。
【0047】
行矩形がY方向に長い長方形の場合、原稿に書かれている文字が横書きの場合は、図6(b)に示すように、句読点の位置は右上または左下になるが、原稿に書かれている文字が縦書きの場合は、図7(a)に示すように、句読点の位置は左上または右下となる。
【0048】
このように、行矩形の縦横比率の情報と句読点の相対位置により、原稿に書かれている文字の横書き、縦書きの識別および、その行の向きを判定することができることとなる。
【0049】
具体的には、図8に示すフローチャートに従って、文字の縦書き、横書き、原稿の向きの判別を行う。
【0050】
行方向判定手段6では、ステップ0で、行矩形情報および句読点と識別されたグループ外接矩形の情報を取得し、ステップ1で、行矩形の縦横比率から、行が横長か縦長か判定を行う。
【0051】
判定の結果、行が横長の場合はステップ2に進み、行が縦長の場合はステップ7に進む。
【0052】
行が横長の場合、ステップ2では、行矩形と、句読点と識別されたグループ外接矩形の相対位置を求め、相対位置が右下の場合は、図6(a)に示すように、その行は横書き行で、向きは0度と判定する。
【0053】
ステップ3では、行矩形と、句読点と識別されたグループ外接矩形の相対位置を求め、相対位置が左上の場合は、図6(a)に示すように、その行は横書き行で、向きは180度と判定する。
【0054】
ステップ4では、行矩形と、句読点と識別されたグループ外接矩形の相対位置を求め、相対位置が左下の場合は、図7(b)に示すように、その行は縦書き行で、向きは90度と判定する。
【0055】
ステップ5では、行矩形と、句読点と識別されたグループ外接矩形の相対位置を求め、相対位置が右上の場合は、図7(b)に示すように、その行は縦書き行で、向きは270度と判定する。
【0056】
ステップ6では、上記のいずれでもない場合、その行は向きの判定不能の行として判定している。
【0057】
ステップ1で行が縦長と判定された場合は、ステップ7に進み、同様に行矩形とそれに含まれる句読点と認識されたグループ外接矩形との相対位置を求め、その相対位置から行の横書き、縦書きの別およびその行の向きを判定する。
【0058】
以上のようにして、行の向きの自動判定を行うが、行内の文字データの内容によって誤判定が発生する場合もあり得るので、原稿ページ中の複数の行矩形について、当該判定処理を実行し、統計的な処理により、最も多くの行で行の向きとして判定された方向を最終的な原稿の向きとして判定する統計的判定処理手段を備えるように構成してもよい。
【0059】
なお、行矩形内に複数の句読点と識別されたグループ外接矩形が存在する場合には、図9(a)に示すように、行矩形の先頭に句読点と識別されたグループ外接矩形がない場合は、句読点と識別されたグループ外接矩形の終わりまでを一つの行矩形として、複数の行矩形に分割し、図9(b)に示すように、行矩形の先頭に句読点と識別されたグループ外接矩形がある場合は、次の句読点と識別されたグループ外接矩形の手前までを一つの行矩形として、複数の行矩形に分割し、分割された行矩形ごとに向きの判定処理を実施し、統計的な処理により行の向きを判定してもよいし、複数の句読点と認識されたグループ外接矩形のうち、最も句読点である確率の高いグループ外接矩形を使用して、行方向の判定処理を行ってもよい。
【0060】
画像の読み取りにおいて、このように原稿の向きを自動判定することで、あらかじめ読み取る画像データの向きを決めておいた場合は、読み取った画像データをその方向に合わせるように回転する手段を備え、すべての原稿を同一の方向に合わせて画像データを読み取れるように構成してもよい。
【0061】
【発明の効果】
この発明により、以下に示すような効果が期待できる。
【0062】
従来、文字情報を含んだ画像の読み取りを画像読み取り装置で行う場合、原稿の向きが異なるものが混在していた場合、この向きの設定を使用者が手動で行っており、非常に使いにくいものとなっていた。
【0063】
この問題を解決するため、OCR機能を搭載し、文字認識を行うことで、最も認識判定の確度の高い向きを原稿の向きとして自動判定する画像読み取り装置が考案されている。
【0064】
しかし、このような装置では、OCR機能を搭載することが必要となり、装置が高価となり、また、原稿の向きを判定するために、方向を変えて何度も文字認識する必要があり、かなりの処理時間を要するため、画像読み取りの速度が落ちるという問題点があった。
【0065】
読み取り速度を早めるために、このような前処理はハードウェア化して処理することが有効であるが、OCR機能をハードウェア化することは困難という問題があった。
【0066】
また、OCR機能により文字認識するためには、原稿に含まれる文字の言語を設定する必要があり、複数の言語の混在している原稿を認識するのは困難であるという問題もあった。
【0067】
本発明を利用することにより、文字情報を含む原稿の画像読み取りにおいて、OCRなどの文字認識を行うことなく、容易に複数の言語の混在している原稿の向きを自動判定して読み取ることができるようになる。
【0068】
また、仕組みが単純であるので、ハードウェア化して高速化することも可能である。
【図面の簡単な説明】
【図1】本発明の全体構成図である。
【図2】ラベリング処理の説明図である。
【図3】X方向に直線的にグループ外接矩形が並んでいる場合の説明図である。
【図4】Y方向に直線的にグループ外接矩形が並んでいる場合の説明図である。。
【図5】句読点識別処理の説明図である。
【図6】原稿に書かれている文字が横書きの場合の説明図である。
【図7】原稿に書かれている文字が縦書きの場合の説明図である。
【図8】行の向きの判定処理説明図である。
【図9】行矩形内に複数の句読点がある場合の処理説明図である。
【図10】従来の原稿向き自動判定処理の説明図である。
【符号の説明】
1:画像入力装置
2:二値化処理手段
3:ラベリング処理手段
4:行抽出処理手段
5:句読点識別手段
6:行方向判定手段
7:統計的判定処理手段
Claims (3)
- 文字情報を含んだ画像の読み取りを行う画像読み取り装置において、
読み込まれた白黒2階調のモノクロ画像に含まれる、文字を構成する連続した黒ピクセルの領域をグループ化し、グループ化した黒ピクセル連続領域のグループ外接矩形情報を抽出するラベリング処理手段と、
ラベリング処理手段により抽出されたグループ化された黒ピクセル連続領域のグループ外接矩形の位置情報から行矩形情報を抽出する行抽出処理手段と、
ラベリング処理手段によりグループ化された黒ピクセル連続領域の位置、サイズから、句読点、ピリオド、コンマを識別する句読点識別手段と、
画像に含まれる文字の行矩形に対する、句読点、ピリオド、コンマの位置関係から行の向きを判定する行方向判定手段と、
を備えることを特徴とする画像読み取り装置。 - 文字情報を含んだ画像の読み取りを行う画像読み取り装置において、
画像入力装置により多値画像の画像データが読み取られた場合、多値画像データを二値化する手段を、
備えることを特徴とする請求項1記載の画像読み取り装置。 - 文字情報を含んだ画像の読み取りを行う画像読み取り装置において、
原稿画像に含まれる、複数の行について前記行方向判定手段による行の向きの判定処理を行い、統計的な処理により、行の向きとして確率の高い向きを原稿の向きと判定する統計的判定処理手段を、
備えることを特徴とする請求項1または請求項2記載の画像読み取り装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003065467A JP2004272798A (ja) | 2003-03-11 | 2003-03-11 | 画像読み取り装置 |
US10/791,796 US20040179733A1 (en) | 2003-03-11 | 2004-03-04 | Image reading apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003065467A JP2004272798A (ja) | 2003-03-11 | 2003-03-11 | 画像読み取り装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004272798A true JP2004272798A (ja) | 2004-09-30 |
Family
ID=32959183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003065467A Pending JP2004272798A (ja) | 2003-03-11 | 2003-03-11 | 画像読み取り装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040179733A1 (ja) |
JP (1) | JP2004272798A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011188465A (ja) * | 2010-03-05 | 2011-09-22 | Kyocera Mita Corp | 原稿レイアウトの方向検出方法及び装置 |
JP2016038821A (ja) * | 2014-08-08 | 2016-03-22 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
JP2018116647A (ja) * | 2017-01-20 | 2018-07-26 | リード テクノロジーズ,インコーポレイティド | テキストの回転角を決定する装置、方法及びコンピュータ可読記憶媒体 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090046953A1 (en) * | 2004-04-29 | 2009-02-19 | Koninklijke Philips Electronics N V | Image Processing Apparatus And Method |
IL162878A0 (en) * | 2004-07-06 | 2005-11-20 | Hi Tech Solutions Ltd | Multi-level neural network based characters identification method and system |
JP4607633B2 (ja) * | 2005-03-17 | 2011-01-05 | 株式会社リコー | 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法 |
JP4849883B2 (ja) * | 2005-12-16 | 2012-01-11 | 富士通株式会社 | 行方向判定プログラム、方法及び装置 |
US8144989B2 (en) * | 2007-06-21 | 2012-03-27 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying text orientation in a digital image |
US8208725B2 (en) * | 2007-06-21 | 2012-06-26 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying text orientation in a digital image |
US8340430B2 (en) * | 2007-07-10 | 2012-12-25 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
US8200043B2 (en) * | 2008-05-01 | 2012-06-12 | Xerox Corporation | Page orientation detection based on selective character recognition |
US8023741B2 (en) * | 2008-05-23 | 2011-09-20 | Sharp Laboratories Of America, Inc. | Methods and systems for detecting numerals in a digital image |
US8023770B2 (en) | 2008-05-23 | 2011-09-20 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying the orientation of a digital image |
US8160365B2 (en) * | 2008-06-30 | 2012-04-17 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
CN102890783B (zh) * | 2011-07-20 | 2015-07-29 | 富士通株式会社 | 识别图像块中文字的方向的方法和装置 |
CN102890784B (zh) * | 2011-07-20 | 2016-03-30 | 富士通株式会社 | 识别图像块中文字的方向的方法和装置 |
US9076058B2 (en) | 2013-01-29 | 2015-07-07 | Sharp Laboratories Of America, Inc. | Methods, systems and apparatus for determining orientation in a document image |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57101986A (en) * | 1980-12-17 | 1982-06-24 | Toshiba Corp | Character detecting and cutting method |
US5048113A (en) * | 1989-02-23 | 1991-09-10 | Ricoh Company, Ltd. | Character recognition post-processing method |
US6212299B1 (en) * | 1992-12-11 | 2001-04-03 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for recognizing a character |
JP3050007B2 (ja) * | 1993-08-26 | 2000-06-05 | ミノルタ株式会社 | 画像読取装置およびこれを備えた画像形成装置 |
JP3534128B2 (ja) * | 1995-01-24 | 2004-06-07 | オムロン株式会社 | 書類の上下方向検知方法及び装置 |
JPH099040A (ja) * | 1995-06-21 | 1997-01-10 | Minolta Co Ltd | 画像処理装置 |
US5552787A (en) * | 1995-10-10 | 1996-09-03 | The United States Of America As Represented By The Secretary Of The Navy | Measurement of topography using polarimetric synthetic aperture radar (SAR) |
US6370269B1 (en) * | 1997-01-21 | 2002-04-09 | International Business Machines Corporation | Optical character recognition of handwritten or cursive text in multiple languages |
JP2003230001A (ja) * | 2002-02-01 | 2003-08-15 | Canon Inc | 文書用電子透かし埋め込み装置及び文書用電子透かし抽出装置並びにそれらの制御方法 |
-
2003
- 2003-03-11 JP JP2003065467A patent/JP2004272798A/ja active Pending
-
2004
- 2004-03-04 US US10/791,796 patent/US20040179733A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011188465A (ja) * | 2010-03-05 | 2011-09-22 | Kyocera Mita Corp | 原稿レイアウトの方向検出方法及び装置 |
JP2016038821A (ja) * | 2014-08-08 | 2016-03-22 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
JP2018116647A (ja) * | 2017-01-20 | 2018-07-26 | リード テクノロジーズ,インコーポレイティド | テキストの回転角を決定する装置、方法及びコンピュータ可読記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20040179733A1 (en) | 2004-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004272798A (ja) | 画像読み取り装置 | |
US8947736B2 (en) | Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern | |
US8306325B2 (en) | Text character identification system and method thereof | |
Dongre et al. | Devnagari document segmentation using histogram approach | |
US20040096121A1 (en) | Image processing method and apparatus | |
US7327881B2 (en) | Image reading apparatus | |
CN111931769A (zh) | 结合rpa及ai的发票处理、装置、计算设备及存储介质 | |
CN103530625A (zh) | 一种基于数字图像处理的光学字符识别方法 | |
Dhandra et al. | Script identification based on morphological reconstruction in document images | |
JP2000207489A (ja) | 文字抽出方法、装置および記録媒体 | |
CN114463770A (zh) | 一种用于普遍试卷题目的智能切题方法 | |
JP4049560B2 (ja) | 網点除去方法及びシステム | |
CN108388898A (zh) | 基于连接体和模板的字符识别方法 | |
Dongre et al. | Segmentation of printed Devnagari documents | |
JP2871590B2 (ja) | 画像抽出方式 | |
JPH06187489A (ja) | 文字認識装置 | |
CN115690806B (zh) | 一种基于图像数据处理的非结构化文档格式识别方法 | |
Vasin et al. | An intelligent information technology for symbol-extraction from weakly formalized graphic documents | |
JPH0916713A (ja) | 画像領域分割方法 | |
Seki et al. | Color drop-out binarization method for document images with color shift | |
JPS6254380A (ja) | 文字認識装置 | |
JP2000331118A (ja) | 画像処理装置及び記録媒体 | |
JPH11282959A (ja) | 文字列照合装置、方法及び記録媒体、並びに文書分類装置、文字読み取り装置及び真贋判定装置 | |
JP3756660B2 (ja) | 画像認識方法、装置および記録媒体 | |
CN117649670A (zh) | 文档版面分析模型训练方法、应用方法、计算机装置及计算机可读存储介质 |