JP2004280334A

JP2004280334A - 画像読み取り装置

Info

Publication number: JP2004280334A
Application number: JP2003069272A
Authority: JP
Inventors: Nobuyuki Okubo; 伸幸大窪
Original assignee: PFU Ltd
Current assignee: PFU Ltd
Priority date: 2003-03-14
Filing date: 2003-03-14
Publication date: 2004-10-07
Also published as: US7327881B2; US20040179734A1

Abstract

【課題】文書画像の読み取りを行う画像読み取り装置において、原稿に書かれた文字の言語を自動判定することができる画像読み取り装置を実現する。
【解決手段】画像入力装置１により読み込まれた二値画像データの中から、黒ピクセル連続領域を一つのグループとしてグループ化し、グループの外接矩形情報を抽出するラベリング処理手段３を備える。抽出されたグループ外接矩形の位置情報から、行矩形情報を抽出する行抽出処理手段４を備え、抽出された行矩形内に含まれるグループ外接矩形どうしの重なりを判定し、重なり合ったグループを一つのグループに統合する重なり統合処理を行う重なり統合処理手段５を備える。この重なり統合処理前の行矩形に含まれるグループ外接矩形の数と、重なり統合処理後の行矩形内に含まれるグループ外接矩形の比率を求め、この比率の違いから原稿に書かれた文字の言語を判断する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、文字情報を含んだ画像の読み取りに際し、原稿の画像情報の特徴から容易に原稿の言語を判定することができる、画像読み取り装置を実現するものである。
【０００２】
【従来の技術】
画像読み取り装置において、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）などの文字認識を行う場合には、読み取り対象となる原稿に含まれる文字の言語ごとに、その言語用のＯＣＲエンジンを使用して文字認識を行う必要があり、そのため、あらかじめ読み取り対象となる原稿の文字の言語を、装置の使用者に読み取り前に手動で設定させており、使いにくいという問題があった。
【０００３】
この問題を解決するため、ＯＣＲに複数の言語用のＯＣＲエンジンを搭載し、各言語用のＯＣＲエンジンで実際に原稿の文字認識を実行し、最も判定確度の高い言語を選択することで、自動で言語判定を行う装置が考案されている。
【０００４】
これは、図７に示すように、原稿に書かれた文字を画像入力装置５０により画像データとして取り込み、これを文字認識処理部５１に送る。
【０００５】
文字認識処理部５１では、文字認識を行うため、複数の言語用のＯＣＲエンジンを備えており、例えば、図に示すように、受けた画像データを日本語ＯＣＲエンジン５２により、日本語文字パターン辞書５３中の文字パターンとパターンマッチングを行うことで、認識を試みる。
【０００６】
その後に、同じ画像データに対し、英語ＯＣＲエンジン５４により、英語文字パターン辞書５５中の文字パターンとパターンマッチングを行うことで、認識を試みる。
【０００７】
それぞれの言語用のＯＣＲエンジンでの文字認識の結果から、その認識の確からしさをしめす判定確度を求め、これを言語判定処理部５６に送る。
【０００８】
言語判定処理部５６では、複数の言語用のＯＣＲエンジンから送られてきた判定確度をもとに、最も判定確度の高い言語を原稿に含まれる文字の言語として判定する。
【０００９】
また、誤判定を防ぐため、原稿に含まれる複数の文字について同様の判定処理を行い、統計的な処理により、最も原稿に含まれる文字の言語である確率の高い言語を原稿に含まれる文字の言語として判定することも行われている。
【００１０】
しかし、このような装置では、複数の言語用のＯＣＲエンジンで何度も文字認識を繰り返し、判定を行うため、その処理に時間がかかるという問題があった。
【００１１】
また、このような言語の判定処理は、文字認識を行う前処理として行うものであり、なるべく短時間で処理するためハードウェアで機能を実現することが望ましいが、複数の言語用のＯＣＲエンジンおよびその言語用の文字パターン辞書をハードウェア機能で実現することは困難であった。
【００１２】
【特許文献１】
特開平６−１５００６１号公報
【発明が解決しようとする課題】
前記のごとく、従来の技術では次のような問題点がある。
【００１３】
画像読み取り装置で、ＯＣＲなどにより文字認識を行う場合、原稿に含まれる言語にあわせて、その言語用のＯＣＲエンジンを使用する必要があり、そのため、画像の読み取りの際に使用者が手動で原稿の言語の設定を行うことが行われており、非常に使いにくいものとなっていた。
【００１４】
この問題を解決するため、複数の言語用のＯＣＲエンジンを搭載し、それぞれの言語用のＯＣＲエンジンにより文字認識を行ってみて、判定の確度の高い言語を選択することで、原稿に含まれる文字の言語を自動判別する装置が考案されている。
【００１５】
しかし、このような装置では、原稿の読み取りごとに複数の言語用のＯＣＲエンジンで実際に文字認識を行う必要があり、時間がかかるという問題があった。
【００１６】
また、処理時間の短縮化のためには、ハードウェアで機能を実現できることが望ましいが、ＯＣＲ機能をハードウェアで実現することは困難という問題があった。
【００１７】
この発明の課題は、原稿に含まれる文字の言語を、ＯＣＲなどの文字認識を行うことなく、容易に自動判別することができる画像読み取り装置を提供することにある。
【００１８】
【課題を解決するための手段】
前記の問題点を解決するために、この発明では次に示す手段を取った。
【００１９】
ＣＣＤなどの画像入力装置により入力された画像データが、多値画像データの場合は、これを白黒２階調の二値画像データに変換する二値化処理手段を備える。
【００２０】
二値化されたモノクロ画像の中から、黒ピクセルの連続領域をグループ化し、各グループごとに、グループ化された黒ピクセル連続領域を内包するグループ外接矩形情報を抽出するラベリング処理手段を備える。
【００２１】
読み取り対象の文書に、図や写真などが含まれている場合、前記グループ外接矩形の位置関係から、原稿内に書かれている文字の並びを類推し、行を検出し、行矩形情報を抽出する行抽出処理手段を備える。
【００２２】
行矩形内に含まれる前記グループ外接矩形どうしの重なりを判定し、重なっているグループ外接矩形を一つのグループ外接矩形に統合する重なり統合手段を備える。
【００２３】
重なり統合を行う前の行矩形に含まれるグループ外接矩形の数と、重なり統合を行った後の行矩形に含まれるグループ外接矩形の数の比率を求め、この比率により言語を判定する言語判定処理手段を備える。
【００２４】
原稿に含まれるすべての行において上記判定処理を行い、統計的な処理を行い、最も多くの行で行内に含まれる文字の言語として判定された言語を、原稿に含まれる文字の言語として選択する統計的判定処理手段を備える。
【００２５】
読み取り対象の文書が文字のみを含んでいる場合、原稿全体について前記ラベリング処理、重なり統合処理、言語判定処理を行うようにしてもよい。
【００２６】
【発明の実施の形態】
この発明は、次に示す実施の形態を取った。
【００２７】
ＣＣＤなどの画像入力装置により入力された画像データが、多値画像データの場合、これをモノクロ二値画像に変換する二値化処理手段を備えるよう構成する。
【００２８】
これにより、画像入力装置により読み取られた画像データが、カラー画像やモノクロ多階調の画像データの場合でも、ラベリング処理などの以降の画像処理を単純化することができる。
【００２９】
二値化されたモノクロ画像の中から、黒ピクセルつながりを判定することで黒ピクセルの連続領域をグループ化し、グループ化された黒ピクセル連続領域を内包するグループ外接矩形情報を抽出するラベリング処理手段を備えるように構成する。
【００３０】
これにより、文字を構成する線や点などの文字構成要素ごとの連続した領域のグループ分けを行うことができ、グループごとのグループ外接矩形情報を得ることができる。
【００３１】
読み取り対象の文書に図や写真が含まれていた場合、前記ラベリング手段により抽出された、グループ外接矩形情報をもとに、各グループ外接矩形の位置関係から判断して、行矩形情報を抽出する行抽出処理手段を備える。
【００３２】
これにより、読み取り対象の文書に含まれる図や写真を文字と同様に言語判定の対象にしてしまい、誤判定が発生することを防ぎ、文字のみを言語判定の対象として使用することができるようになる。
【００３３】
行矩形内に含まれる、グループ外接矩形の重なりを判定し、グループ外接矩形の重なりを検出した場合、重なっているグループを一つのグループに統合し、一つのグループ外接矩形を抽出する重なり統合処理手段を備える。
【００３４】
これにより、文字を構成する線や点が分離している場合があるという、日本語の特性から、日本語の場合、英語などに比べて多くのグループが統合されることとなるので、この統合処理により言語を識別するための言語の特徴を抽出する効果が得られる。
【００３５】
重なり統合処理を行う前の行矩形に含まれるグループ外接矩形の数と、重なり統合処理を行った後の行矩形に含まれるグループ外接矩形の数の比率を求め、この重なり統合比率により行内に含まれる文字の言語を判定する言語判定処理手段を備える。
【００３６】
これにより、言語によって、当該重なり統合比率が違うことを利用した、言語の判定を行うことができる。
【００３７】
原稿に含まれる複数の行において上記言語判定処理を行い、統計的処理により、最も多くの行で行内に含まれる文字の言語として判定された言語を、原稿に含まれる文字の言語として選択する統計的判定処理手段を備える。
【００３８】
これにより、原稿に含まれる行内の文字データによって、誤判定が発生した場合でも、複数の行で言語判定処理を行うことで、最終的な言語の自動判定ミスが発生することを防ぎ、より高い確率で正しい言語の自動判定が行えるようになる。
【００３９】
読み取り対象の文書が文字のみを含むものであった場合は、前記ラベリング処理、重なり統合処理、言語判定処理を原稿全体を対象として行うようにしてもよい。
【００４０】
【実施例】
この発明による代表的な実施例を説明する。なお、以下において、同じ箇所は同一の符号を付してあり、詳細な説明を省略することがある。
【００４１】
本装置は、ＣＣＤなどの画像入力装置により読み込まれた文書画像データに含まれる文字の言語を、自動的に判別することができる画像読み取り装置である。
【００４２】
図１に示すように、画像読み取り装置には、ＣＣＤなどの画像入力装置１を備えており、原稿の画像を画像データとして電子的に取り込むことができるようになっている。
【００４３】
この画像入力装置１には、カラーのものやモノクロ多階調のものが使用される場合もあり、この場合、読み込まれる画像データは、１ピクセルあたりの情報を多値（８ビット、２４ビット等）で表したデータとなっている。
【００４４】
この多値画像データを、モノクロ画像である二値画像データに変換する二値化手段２を備えている。二値化処理は、多値で表現された画素の輝度を、所定の閾値以上を１、閾値以下を０とするなどの方法により行われる。
【００４５】
二値に変換された、モノクロ画像データは、黒ピクセルの連続領域をグループ化して抽出するラベリング処理を行うためラベリング処理手段３に送られる。
【００４６】
ラベリング処理とは、図２（ａ）に示すように、黒ピクセルのつながりを判定し、図２（ａ）の斜線で囲んだ範囲に示すように、黒ピクセルの連続領域を一つの単位としてグループ化し、図２（ｂ）に示すように、グループ化された黒ピクセルの連続領域ごとのグループ外接矩形情報を求める処理である。
【００４７】
読み取り対象の文書に図や写真などが含まれている場合は、言語判定の対象となるグループ外接矩形を文字のもののみを使用することが望ましいため、ラベリング処理により抽出されたグループ外接矩形の位置情報から、文字で構成された行を抽出する行抽出処理手段４を備えている。
【００４８】
行抽出処理手段４では、文字が一定間隔の行間ごとに、図３に示すように、Ｘ方向に直線上に配列されるか、または、図４に示すように、Ｙ方向に直線上に文字が配列されるという特徴を持っていることにもとづいて、ラベリング処理で抽出されたグループ外接矩形の位置情報から、図３に示すように、Ｘ方向に直線上に文字が配列されているのか、図４に示すように、Ｙ方向に直線上に文字が配列されているのかを判別し、この直線上に配列されたグループ外接矩形の列を行として、行矩形情報を抽出する。
【００４９】
これにより抽出された行矩形内に含まれる、グループ外接矩形どうしの重なりを判定し、重なりの検出されたグループは、一つのグループとして統合し、新たにその統合された一つのグループのグループ外接矩形を抽出する重なり統合処理手段５を備えるように構成している。
【００５０】
この重なり統合処理は、図５に示すように処理される。この図に示すように、「重なり」の文字をラベリング処理により、グループ外接矩形を抽出し、それぞれのグループ外接矩形どうしの位置情報から重なり合いを判定する。
【００５１】
図５（ａ）に示すように、「重」の文字をラベリングしても、すべての黒ピクセルが連続しているので、一つのグループ外接矩形だけが抽出される。
【００５２】
これに対し、「な」および「り」の文字をラベリングすると、「な」は図に示すように、グループａ、グループｂ、グループｃという３つのグループに分けられ、そのうちグループａとグループｃが重なり合っており、「り」はグループｄ、グループｅという２つのグループに分けられ、そのグループｄとグループｅが重なり合っている。
【００５３】
この重なり合っているグループを、図５（ｂ）に示すように、統合するが、「り」の方は一つのグループｇに統合されるが、「な」の方は、統合されたグループｆともう一つのグループｂがさらに重なり合っている。
【００５４】
重なり統合処理手段は、このグループが統合された後のグループがさらに別のグループと重なっていた場合も、図５（ｃ）に示すように、それらを一つのグループｈに統合する。このように、重なり統合処理手段では、行矩形内に含まれるグループ外接矩形どうしが重なり合わなくなるまでグループを統合していく。
【００５５】
このようにして求められた、行矩形内に含まれる重なり統合後のグループ外接矩形の数をＢとし、重なり統合処理前に行矩形内に含まれていたグループ外接矩形の数をＡとすると、この重なり統合処理前と後のグループ外接矩形の数の比率であるＸは、Ｘ＝Ｂ／Ａで求められるが、この重なり統合比率Ｘの値により言語の判定が行える。
【００５６】
図６（ａ）に示すように、英語文字の行の場合は、ほとんど重なり統合されるグループ外接矩形が存在せず、重なり統合比率Ｘは１．０に近くなることが統計的に判明している。
【００５７】
これに対し、図６（ｂ）に示すように、日本語文字の行の場合は、重なり統合されるグループ外接矩形が多く、重なり統合比率Ｘは０．５３と英語文字の場合に比べてかなり低い値となっている。
【００５８】
そこで、統計的に日本語の場合の重なり統合比率と判断できる範囲の上限の閾値を求めておき、この閾値以上であれば英語、閾値以下であれば日本語と判断することで、行矩形に含まれる文字の言語の判定を行う言語判定処理手段６を備えている。
【００５９】
単一の行のみについてこの判定を行う場合、行内の文字内容によっては誤判定を生じることがあるので、原稿に含まれる複数の行について上記の言語判定処理を実施し、統計的な処理を行うことによって、最も多くの行で行内に含まれる文字の言語として判定された言語を、原稿に含まれる文字の言語として判定する統計的判定処理手段７を備えるように構成してもよい。
【００６０】
これにより、原稿内の文字の内容による一部の行の言語の誤判定により、原稿に含まれる文字の言語の最終的な誤判定の発生を防ぐことができるようになり、より正確な言語の自動判定を実現することができる。
【００６１】
また、読み取り対象の文書に文字のみが含まれている場合は、原稿全体についてラベリング処理、重なり統合処理、言語判定処理を行うようにしてもよい。
【００６２】
【発明の効果】
この発明により、以下に示すような効果が期待できる。
【００６３】
文字情報を含んだ文書画像を読み取る画像読み取り装置において、ＯＣＲなどの文字認識を行う場合には、認識対象となる文字の言語にあわせたＯＣＲエンジンで認識を行う必要があるため、読み取り前に、装置の使用者に手動で原稿の言語の設定を行わせており、非常に使いにくいという問題があった。
【００６４】
このような問題を解決するため、複数のＯＣＲエンジンを搭載した装置において、複数のＯＣＲエンジンで文字認識を実際に実行し、認識の確度の高い言語を原稿に含まれる文字の言語として自動判定する画像読み取り装置が考案されている。
【００６５】
しかし、このような装置においては、ＯＣＲによる認識に時間がかかり、言語の自動判定という、画像の読み取りの前処理に時間がかかりすぎ、画像読み取りが遅くなってしまうという問題があった。また、処理時間の短縮のためには、ハードウェアで機能を実現することが望ましいが、複数の言語に対応したＯＣＲなどの文字認識機能をハードウェア化することは不可能という問題もあった。
【００６６】
本発明を利用することにより、ＯＣＲなどの高価で複雑な文字認識機能を利用することなく、原稿に含まれる文字の言語を容易に自動判別することができるようになる。また、機能が複雑なものではないので、ハードウェアにより実現することもできるようになり、処理の高速化も実現できる。
【図面の簡単な説明】
【図１】本発明の全体構成図である。
【図２】ラベリング処理の説明図である。
【図３】Ｘ方向に直線的にグループ外接矩形が並んでいる場合の説明図である。
【図４】Ｙ方向に直線的にグループ外接矩形が並んでいる場合の説明図である。
【図５】重なり統合処理の説明図である。
【図６】重なり統合比率を求める処理の説明図である。
【図７】従来の原稿に含まれる文字の言語の自動判定処理説明図である。
【符号の説明】
１：画像入力装置
２：二値化手段
３：ラベリング処理手段
４：行抽出処理手段
５：重なり統合処理手段
６：言語判定処理手段
７：統計的判定処理手段

Claims

文字情報を含んだ原稿画像の読み取りを行う画像読み取り装置において、
読み込まれた白黒２階調のモノクロ画像に含まれる、文字を構成する連続した黒ピクセルの領域をグループ化し、グループ化した黒ピクセル連続領域のグループ外接矩形情報を抽出するラベリング処理手段と、
グループ化されたグループ外接矩形どうしの重なりを判定し、重なり合ったグループ外接矩形を統合する重なり統合処理手段と、
重なり統合処理により統合されたグループ外接矩形数と、重なり統合前のグループ外接矩形数の比率を求め、この重なり統合比率の特性から、言語を判定する言語判定処理手段と、を有することを特徴とする画像読み取り装置。
文字情報を含んだ原稿画像の読み取りを行う画像読み取り装置において、
文書に図や写真が含まれている場合、前記ラベリング処理手段により抽出されたグループ化された黒ピクセル連続領域のグループ外接矩形の位置情報から行矩形情報を抽出する行抽出処理手段を備え、
前記重なり統合処理および前記言語判定処理を、行抽出処理手段により抽出した行矩形に含まれるグループ外接矩形を対象として実行する、ことを特徴とする請求項１記載の画像読み取り装置。
文字情報を含んだ原稿画像の読み取りを行う画像読み取り装置において、
画像入力装置で読み取った画像が、カラーやモノクロ多階調などの多値画像データの読み取りの場合、多値画像データを二値化する手段を、備えることを特徴とする請求項１または請求項２記載の画像読み取り装置。
文字情報を含んだ原稿画像の読み取りを行う画像読み取り装置において、
前記重なり統合比率から言語を判定する言語判定処理を、原稿に含まれる複数の行について実行し、統計的処理により、最も多くの行で行に含まれる文字の言語として判定された言語を原稿に含まれる文字の言語として判定する統計的判定処理手段を、備えることを特徴とする請求項２または請求項３記載の画像読み取り装置。