JP2004280334A - 画像読み取り装置 - Google Patents
画像読み取り装置 Download PDFInfo
- Publication number
- JP2004280334A JP2004280334A JP2003069272A JP2003069272A JP2004280334A JP 2004280334 A JP2004280334 A JP 2004280334A JP 2003069272 A JP2003069272 A JP 2003069272A JP 2003069272 A JP2003069272 A JP 2003069272A JP 2004280334 A JP2004280334 A JP 2004280334A
- Authority
- JP
- Japan
- Prior art keywords
- language
- group
- image
- image reading
- overlap
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/2445—Alphabet recognition, e.g. Latin, Kanji or Katakana
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】文書画像の読み取りを行う画像読み取り装置において、原稿に書かれた文字の言語を自動判定することができる画像読み取り装置を実現する。
【解決手段】画像入力装置1により読み込まれた二値画像データの中から、黒ピクセル連続領域を一つのグループとしてグループ化し、グループの外接矩形情報を抽出するラベリング処理手段3を備える。抽出されたグループ外接矩形の位置情報から、行矩形情報を抽出する行抽出処理手段4を備え、抽出された行矩形内に含まれるグループ外接矩形どうしの重なりを判定し、重なり合ったグループを一つのグループに統合する重なり統合処理を行う重なり統合処理手段5を備える。この重なり統合処理前の行矩形に含まれるグループ外接矩形の数と、重なり統合処理後の行矩形内に含まれるグループ外接矩形の比率を求め、この比率の違いから原稿に書かれた文字の言語を判断する。
【選択図】 図1
【解決手段】画像入力装置1により読み込まれた二値画像データの中から、黒ピクセル連続領域を一つのグループとしてグループ化し、グループの外接矩形情報を抽出するラベリング処理手段3を備える。抽出されたグループ外接矩形の位置情報から、行矩形情報を抽出する行抽出処理手段4を備え、抽出された行矩形内に含まれるグループ外接矩形どうしの重なりを判定し、重なり合ったグループを一つのグループに統合する重なり統合処理を行う重なり統合処理手段5を備える。この重なり統合処理前の行矩形に含まれるグループ外接矩形の数と、重なり統合処理後の行矩形内に含まれるグループ外接矩形の比率を求め、この比率の違いから原稿に書かれた文字の言語を判断する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
この発明は、文字情報を含んだ画像の読み取りに際し、原稿の画像情報の特徴から容易に原稿の言語を判定することができる、画像読み取り装置を実現するものである。
【0002】
【従来の技術】
画像読み取り装置において、OCR(Optical Character Reader)などの文字認識を行う場合には、読み取り対象となる原稿に含まれる文字の言語ごとに、その言語用のOCRエンジンを使用して文字認識を行う必要があり、そのため、あらかじめ読み取り対象となる原稿の文字の言語を、装置の使用者に読み取り前に手動で設定させており、使いにくいという問題があった。
【0003】
この問題を解決するため、OCRに複数の言語用のOCRエンジンを搭載し、各言語用のOCRエンジンで実際に原稿の文字認識を実行し、最も判定確度の高い言語を選択することで、自動で言語判定を行う装置が考案されている。
【0004】
これは、図7に示すように、原稿に書かれた文字を画像入力装置50により画像データとして取り込み、これを文字認識処理部51に送る。
【0005】
文字認識処理部51では、文字認識を行うため、複数の言語用のOCRエンジンを備えており、例えば、図に示すように、受けた画像データを日本語OCRエンジン52により、日本語文字パターン辞書53中の文字パターンとパターンマッチングを行うことで、認識を試みる。
【0006】
その後に、同じ画像データに対し、英語OCRエンジン54により、英語文字パターン辞書55中の文字パターンとパターンマッチングを行うことで、認識を試みる。
【0007】
それぞれの言語用のOCRエンジンでの文字認識の結果から、その認識の確からしさをしめす判定確度を求め、これを言語判定処理部56に送る。
【0008】
言語判定処理部56では、複数の言語用のOCRエンジンから送られてきた判定確度をもとに、最も判定確度の高い言語を原稿に含まれる文字の言語として判定する。
【0009】
また、誤判定を防ぐため、原稿に含まれる複数の文字について同様の判定処理を行い、統計的な処理により、最も原稿に含まれる文字の言語である確率の高い言語を原稿に含まれる文字の言語として判定することも行われている。
【0010】
しかし、このような装置では、複数の言語用のOCRエンジンで何度も文字認識を繰り返し、判定を行うため、その処理に時間がかかるという問題があった。
【0011】
また、このような言語の判定処理は、文字認識を行う前処理として行うものであり、なるべく短時間で処理するためハードウェアで機能を実現することが望ましいが、複数の言語用のOCRエンジンおよびその言語用の文字パターン辞書をハードウェア機能で実現することは困難であった。
【0012】
【特許文献1】
特開平6−150061号公報
【発明が解決しようとする課題】
前記のごとく、従来の技術では次のような問題点がある。
【0013】
画像読み取り装置で、OCRなどにより文字認識を行う場合、原稿に含まれる言語にあわせて、その言語用のOCRエンジンを使用する必要があり、そのため、画像の読み取りの際に使用者が手動で原稿の言語の設定を行うことが行われており、非常に使いにくいものとなっていた。
【0014】
この問題を解決するため、複数の言語用のOCRエンジンを搭載し、それぞれの言語用のOCRエンジンにより文字認識を行ってみて、判定の確度の高い言語を選択することで、原稿に含まれる文字の言語を自動判別する装置が考案されている。
【0015】
しかし、このような装置では、原稿の読み取りごとに複数の言語用のOCRエンジンで実際に文字認識を行う必要があり、時間がかかるという問題があった。
【0016】
また、処理時間の短縮化のためには、ハードウェアで機能を実現できることが望ましいが、OCR機能をハードウェアで実現することは困難という問題があった。
【0017】
この発明の課題は、原稿に含まれる文字の言語を、OCRなどの文字認識を行うことなく、容易に自動判別することができる画像読み取り装置を提供することにある。
【0018】
【課題を解決するための手段】
前記の問題点を解決するために、この発明では次に示す手段を取った。
【0019】
CCDなどの画像入力装置により入力された画像データが、多値画像データの場合は、これを白黒2階調の二値画像データに変換する二値化処理手段を備える。
【0020】
二値化されたモノクロ画像の中から、黒ピクセルの連続領域をグループ化し、各グループごとに、グループ化された黒ピクセル連続領域を内包するグループ外接矩形情報を抽出するラベリング処理手段を備える。
【0021】
読み取り対象の文書に、図や写真などが含まれている場合、前記グループ外接矩形の位置関係から、原稿内に書かれている文字の並びを類推し、行を検出し、行矩形情報を抽出する行抽出処理手段を備える。
【0022】
行矩形内に含まれる前記グループ外接矩形どうしの重なりを判定し、重なっているグループ外接矩形を一つのグループ外接矩形に統合する重なり統合手段を備える。
【0023】
重なり統合を行う前の行矩形に含まれるグループ外接矩形の数と、重なり統合を行った後の行矩形に含まれるグループ外接矩形の数の比率を求め、この比率により言語を判定する言語判定処理手段を備える。
【0024】
原稿に含まれるすべての行において上記判定処理を行い、統計的な処理を行い、最も多くの行で行内に含まれる文字の言語として判定された言語を、原稿に含まれる文字の言語として選択する統計的判定処理手段を備える。
【0025】
読み取り対象の文書が文字のみを含んでいる場合、原稿全体について前記ラベリング処理、重なり統合処理、言語判定処理を行うようにしてもよい。
【0026】
【発明の実施の形態】
この発明は、次に示す実施の形態を取った。
【0027】
CCDなどの画像入力装置により入力された画像データが、多値画像データの場合、これをモノクロ二値画像に変換する二値化処理手段を備えるよう構成する。
【0028】
これにより、画像入力装置により読み取られた画像データが、カラー画像やモノクロ多階調の画像データの場合でも、ラベリング処理などの以降の画像処理を単純化することができる。
【0029】
二値化されたモノクロ画像の中から、黒ピクセルつながりを判定することで黒ピクセルの連続領域をグループ化し、グループ化された黒ピクセル連続領域を内包するグループ外接矩形情報を抽出するラベリング処理手段を備えるように構成する。
【0030】
これにより、文字を構成する線や点などの文字構成要素ごとの連続した領域のグループ分けを行うことができ、グループごとのグループ外接矩形情報を得ることができる。
【0031】
読み取り対象の文書に図や写真が含まれていた場合、前記ラベリング手段により抽出された、グループ外接矩形情報をもとに、各グループ外接矩形の位置関係から判断して、行矩形情報を抽出する行抽出処理手段を備える。
【0032】
これにより、読み取り対象の文書に含まれる図や写真を文字と同様に言語判定の対象にしてしまい、誤判定が発生することを防ぎ、文字のみを言語判定の対象として使用することができるようになる。
【0033】
行矩形内に含まれる、グループ外接矩形の重なりを判定し、グループ外接矩形の重なりを検出した場合、重なっているグループを一つのグループに統合し、一つのグループ外接矩形を抽出する重なり統合処理手段を備える。
【0034】
これにより、文字を構成する線や点が分離している場合があるという、日本語の特性から、日本語の場合、英語などに比べて多くのグループが統合されることとなるので、この統合処理により言語を識別するための言語の特徴を抽出する効果が得られる。
【0035】
重なり統合処理を行う前の行矩形に含まれるグループ外接矩形の数と、重なり統合処理を行った後の行矩形に含まれるグループ外接矩形の数の比率を求め、この重なり統合比率により行内に含まれる文字の言語を判定する言語判定処理手段を備える。
【0036】
これにより、言語によって、当該重なり統合比率が違うことを利用した、言語の判定を行うことができる。
【0037】
原稿に含まれる複数の行において上記言語判定処理を行い、統計的処理により、最も多くの行で行内に含まれる文字の言語として判定された言語を、原稿に含まれる文字の言語として選択する統計的判定処理手段を備える。
【0038】
これにより、原稿に含まれる行内の文字データによって、誤判定が発生した場合でも、複数の行で言語判定処理を行うことで、最終的な言語の自動判定ミスが発生することを防ぎ、より高い確率で正しい言語の自動判定が行えるようになる。
【0039】
読み取り対象の文書が文字のみを含むものであった場合は、前記ラベリング処理、重なり統合処理、言語判定処理を原稿全体を対象として行うようにしてもよい。
【0040】
【実施例】
この発明による代表的な実施例を説明する。なお、以下において、同じ箇所は同一の符号を付してあり、詳細な説明を省略することがある。
【0041】
本装置は、CCDなどの画像入力装置により読み込まれた文書画像データに含まれる文字の言語を、自動的に判別することができる画像読み取り装置である。
【0042】
図1に示すように、画像読み取り装置には、CCDなどの画像入力装置1を備えており、原稿の画像を画像データとして電子的に取り込むことができるようになっている。
【0043】
この画像入力装置1には、カラーのものやモノクロ多階調のものが使用される場合もあり、この場合、読み込まれる画像データは、1ピクセルあたりの情報を多値(8ビット、24ビット等)で表したデータとなっている。
【0044】
この多値画像データを、モノクロ画像である二値画像データに変換する二値化手段2を備えている。二値化処理は、多値で表現された画素の輝度を、所定の閾値以上を1、閾値以下を0とするなどの方法により行われる。
【0045】
二値に変換された、モノクロ画像データは、黒ピクセルの連続領域をグループ化して抽出するラベリング処理を行うためラベリング処理手段3に送られる。
【0046】
ラベリング処理とは、図2(a)に示すように、黒ピクセルのつながりを判定し、図2(a)の斜線で囲んだ範囲に示すように、黒ピクセルの連続領域を一つの単位としてグループ化し、図2(b)に示すように、グループ化された黒ピクセルの連続領域ごとのグループ外接矩形情報を求める処理である。
【0047】
読み取り対象の文書に図や写真などが含まれている場合は、言語判定の対象となるグループ外接矩形を文字のもののみを使用することが望ましいため、ラベリング処理により抽出されたグループ外接矩形の位置情報から、文字で構成された行を抽出する行抽出処理手段4を備えている。
【0048】
行抽出処理手段4では、文字が一定間隔の行間ごとに、図3に示すように、X方向に直線上に配列されるか、または、図4に示すように、Y方向に直線上に文字が配列されるという特徴を持っていることにもとづいて、ラベリング処理で抽出されたグループ外接矩形の位置情報から、図3に示すように、X方向に直線上に文字が配列されているのか、図4に示すように、Y方向に直線上に文字が配列されているのかを判別し、この直線上に配列されたグループ外接矩形の列を行として、行矩形情報を抽出する。
【0049】
これにより抽出された行矩形内に含まれる、グループ外接矩形どうしの重なりを判定し、重なりの検出されたグループは、一つのグループとして統合し、新たにその統合された一つのグループのグループ外接矩形を抽出する重なり統合処理手段5を備えるように構成している。
【0050】
この重なり統合処理は、図5に示すように処理される。この図に示すように、「重なり」の文字をラベリング処理により、グループ外接矩形を抽出し、それぞれのグループ外接矩形どうしの位置情報から重なり合いを判定する。
【0051】
図5(a)に示すように、「重」の文字をラベリングしても、すべての黒ピクセルが連続しているので、一つのグループ外接矩形だけが抽出される。
【0052】
これに対し、「な」および「り」の文字をラベリングすると、「な」は図に示すように、グループa、グループb、グループcという3つのグループに分けられ、そのうちグループaとグループcが重なり合っており、「り」はグループd、グループeという2つのグループに分けられ、そのグループdとグループeが重なり合っている。
【0053】
この重なり合っているグループを、図5(b)に示すように、統合するが、「り」の方は一つのグループgに統合されるが、「な」の方は、統合されたグループfともう一つのグループbがさらに重なり合っている。
【0054】
重なり統合処理手段は、このグループが統合された後のグループがさらに別のグループと重なっていた場合も、図5(c)に示すように、それらを一つのグループhに統合する。このように、重なり統合処理手段では、行矩形内に含まれるグループ外接矩形どうしが重なり合わなくなるまでグループを統合していく。
【0055】
このようにして求められた、行矩形内に含まれる重なり統合後のグループ外接矩形の数をBとし、重なり統合処理前に行矩形内に含まれていたグループ外接矩形の数をAとすると、この重なり統合処理前と後のグループ外接矩形の数の比率であるXは、X=B/Aで求められるが、この重なり統合比率Xの値により言語の判定が行える。
【0056】
図6(a)に示すように、英語文字の行の場合は、ほとんど重なり統合されるグループ外接矩形が存在せず、重なり統合比率Xは1.0に近くなることが統計的に判明している。
【0057】
これに対し、図6(b)に示すように、日本語文字の行の場合は、重なり統合されるグループ外接矩形が多く、重なり統合比率Xは0.53と英語文字の場合に比べてかなり低い値となっている。
【0058】
そこで、統計的に日本語の場合の重なり統合比率と判断できる範囲の上限の閾値を求めておき、この閾値以上であれば英語、閾値以下であれば日本語と判断することで、行矩形に含まれる文字の言語の判定を行う言語判定処理手段6を備えている。
【0059】
単一の行のみについてこの判定を行う場合、行内の文字内容によっては誤判定を生じることがあるので、原稿に含まれる複数の行について上記の言語判定処理を実施し、統計的な処理を行うことによって、最も多くの行で行内に含まれる文字の言語として判定された言語を、原稿に含まれる文字の言語として判定する統計的判定処理手段7を備えるように構成してもよい。
【0060】
これにより、原稿内の文字の内容による一部の行の言語の誤判定により、原稿に含まれる文字の言語の最終的な誤判定の発生を防ぐことができるようになり、より正確な言語の自動判定を実現することができる。
【0061】
また、読み取り対象の文書に文字のみが含まれている場合は、原稿全体についてラベリング処理、重なり統合処理、言語判定処理を行うようにしてもよい。
【0062】
【発明の効果】
この発明により、以下に示すような効果が期待できる。
【0063】
文字情報を含んだ文書画像を読み取る画像読み取り装置において、OCRなどの文字認識を行う場合には、認識対象となる文字の言語にあわせたOCRエンジンで認識を行う必要があるため、読み取り前に、装置の使用者に手動で原稿の言語の設定を行わせており、非常に使いにくいという問題があった。
【0064】
このような問題を解決するため、複数のOCRエンジンを搭載した装置において、複数のOCRエンジンで文字認識を実際に実行し、認識の確度の高い言語を原稿に含まれる文字の言語として自動判定する画像読み取り装置が考案されている。
【0065】
しかし、このような装置においては、OCRによる認識に時間がかかり、言語の自動判定という、画像の読み取りの前処理に時間がかかりすぎ、画像読み取りが遅くなってしまうという問題があった。また、処理時間の短縮のためには、ハードウェアで機能を実現することが望ましいが、複数の言語に対応したOCRなどの文字認識機能をハードウェア化することは不可能という問題もあった。
【0066】
本発明を利用することにより、OCRなどの高価で複雑な文字認識機能を利用することなく、原稿に含まれる文字の言語を容易に自動判別することができるようになる。また、機能が複雑なものではないので、ハードウェアにより実現することもできるようになり、処理の高速化も実現できる。
【図面の簡単な説明】
【図1】本発明の全体構成図である。
【図2】ラベリング処理の説明図である。
【図3】X方向に直線的にグループ外接矩形が並んでいる場合の説明図である。
【図4】Y方向に直線的にグループ外接矩形が並んでいる場合の説明図である。
【図5】重なり統合処理の説明図である。
【図6】重なり統合比率を求める処理の説明図である。
【図7】従来の原稿に含まれる文字の言語の自動判定処理説明図である。
【符号の説明】
1:画像入力装置
2:二値化手段
3:ラベリング処理手段
4:行抽出処理手段
5:重なり統合処理手段
6:言語判定処理手段
7:統計的判定処理手段
【発明の属する技術分野】
この発明は、文字情報を含んだ画像の読み取りに際し、原稿の画像情報の特徴から容易に原稿の言語を判定することができる、画像読み取り装置を実現するものである。
【0002】
【従来の技術】
画像読み取り装置において、OCR(Optical Character Reader)などの文字認識を行う場合には、読み取り対象となる原稿に含まれる文字の言語ごとに、その言語用のOCRエンジンを使用して文字認識を行う必要があり、そのため、あらかじめ読み取り対象となる原稿の文字の言語を、装置の使用者に読み取り前に手動で設定させており、使いにくいという問題があった。
【0003】
この問題を解決するため、OCRに複数の言語用のOCRエンジンを搭載し、各言語用のOCRエンジンで実際に原稿の文字認識を実行し、最も判定確度の高い言語を選択することで、自動で言語判定を行う装置が考案されている。
【0004】
これは、図7に示すように、原稿に書かれた文字を画像入力装置50により画像データとして取り込み、これを文字認識処理部51に送る。
【0005】
文字認識処理部51では、文字認識を行うため、複数の言語用のOCRエンジンを備えており、例えば、図に示すように、受けた画像データを日本語OCRエンジン52により、日本語文字パターン辞書53中の文字パターンとパターンマッチングを行うことで、認識を試みる。
【0006】
その後に、同じ画像データに対し、英語OCRエンジン54により、英語文字パターン辞書55中の文字パターンとパターンマッチングを行うことで、認識を試みる。
【0007】
それぞれの言語用のOCRエンジンでの文字認識の結果から、その認識の確からしさをしめす判定確度を求め、これを言語判定処理部56に送る。
【0008】
言語判定処理部56では、複数の言語用のOCRエンジンから送られてきた判定確度をもとに、最も判定確度の高い言語を原稿に含まれる文字の言語として判定する。
【0009】
また、誤判定を防ぐため、原稿に含まれる複数の文字について同様の判定処理を行い、統計的な処理により、最も原稿に含まれる文字の言語である確率の高い言語を原稿に含まれる文字の言語として判定することも行われている。
【0010】
しかし、このような装置では、複数の言語用のOCRエンジンで何度も文字認識を繰り返し、判定を行うため、その処理に時間がかかるという問題があった。
【0011】
また、このような言語の判定処理は、文字認識を行う前処理として行うものであり、なるべく短時間で処理するためハードウェアで機能を実現することが望ましいが、複数の言語用のOCRエンジンおよびその言語用の文字パターン辞書をハードウェア機能で実現することは困難であった。
【0012】
【特許文献1】
特開平6−150061号公報
【発明が解決しようとする課題】
前記のごとく、従来の技術では次のような問題点がある。
【0013】
画像読み取り装置で、OCRなどにより文字認識を行う場合、原稿に含まれる言語にあわせて、その言語用のOCRエンジンを使用する必要があり、そのため、画像の読み取りの際に使用者が手動で原稿の言語の設定を行うことが行われており、非常に使いにくいものとなっていた。
【0014】
この問題を解決するため、複数の言語用のOCRエンジンを搭載し、それぞれの言語用のOCRエンジンにより文字認識を行ってみて、判定の確度の高い言語を選択することで、原稿に含まれる文字の言語を自動判別する装置が考案されている。
【0015】
しかし、このような装置では、原稿の読み取りごとに複数の言語用のOCRエンジンで実際に文字認識を行う必要があり、時間がかかるという問題があった。
【0016】
また、処理時間の短縮化のためには、ハードウェアで機能を実現できることが望ましいが、OCR機能をハードウェアで実現することは困難という問題があった。
【0017】
この発明の課題は、原稿に含まれる文字の言語を、OCRなどの文字認識を行うことなく、容易に自動判別することができる画像読み取り装置を提供することにある。
【0018】
【課題を解決するための手段】
前記の問題点を解決するために、この発明では次に示す手段を取った。
【0019】
CCDなどの画像入力装置により入力された画像データが、多値画像データの場合は、これを白黒2階調の二値画像データに変換する二値化処理手段を備える。
【0020】
二値化されたモノクロ画像の中から、黒ピクセルの連続領域をグループ化し、各グループごとに、グループ化された黒ピクセル連続領域を内包するグループ外接矩形情報を抽出するラベリング処理手段を備える。
【0021】
読み取り対象の文書に、図や写真などが含まれている場合、前記グループ外接矩形の位置関係から、原稿内に書かれている文字の並びを類推し、行を検出し、行矩形情報を抽出する行抽出処理手段を備える。
【0022】
行矩形内に含まれる前記グループ外接矩形どうしの重なりを判定し、重なっているグループ外接矩形を一つのグループ外接矩形に統合する重なり統合手段を備える。
【0023】
重なり統合を行う前の行矩形に含まれるグループ外接矩形の数と、重なり統合を行った後の行矩形に含まれるグループ外接矩形の数の比率を求め、この比率により言語を判定する言語判定処理手段を備える。
【0024】
原稿に含まれるすべての行において上記判定処理を行い、統計的な処理を行い、最も多くの行で行内に含まれる文字の言語として判定された言語を、原稿に含まれる文字の言語として選択する統計的判定処理手段を備える。
【0025】
読み取り対象の文書が文字のみを含んでいる場合、原稿全体について前記ラベリング処理、重なり統合処理、言語判定処理を行うようにしてもよい。
【0026】
【発明の実施の形態】
この発明は、次に示す実施の形態を取った。
【0027】
CCDなどの画像入力装置により入力された画像データが、多値画像データの場合、これをモノクロ二値画像に変換する二値化処理手段を備えるよう構成する。
【0028】
これにより、画像入力装置により読み取られた画像データが、カラー画像やモノクロ多階調の画像データの場合でも、ラベリング処理などの以降の画像処理を単純化することができる。
【0029】
二値化されたモノクロ画像の中から、黒ピクセルつながりを判定することで黒ピクセルの連続領域をグループ化し、グループ化された黒ピクセル連続領域を内包するグループ外接矩形情報を抽出するラベリング処理手段を備えるように構成する。
【0030】
これにより、文字を構成する線や点などの文字構成要素ごとの連続した領域のグループ分けを行うことができ、グループごとのグループ外接矩形情報を得ることができる。
【0031】
読み取り対象の文書に図や写真が含まれていた場合、前記ラベリング手段により抽出された、グループ外接矩形情報をもとに、各グループ外接矩形の位置関係から判断して、行矩形情報を抽出する行抽出処理手段を備える。
【0032】
これにより、読み取り対象の文書に含まれる図や写真を文字と同様に言語判定の対象にしてしまい、誤判定が発生することを防ぎ、文字のみを言語判定の対象として使用することができるようになる。
【0033】
行矩形内に含まれる、グループ外接矩形の重なりを判定し、グループ外接矩形の重なりを検出した場合、重なっているグループを一つのグループに統合し、一つのグループ外接矩形を抽出する重なり統合処理手段を備える。
【0034】
これにより、文字を構成する線や点が分離している場合があるという、日本語の特性から、日本語の場合、英語などに比べて多くのグループが統合されることとなるので、この統合処理により言語を識別するための言語の特徴を抽出する効果が得られる。
【0035】
重なり統合処理を行う前の行矩形に含まれるグループ外接矩形の数と、重なり統合処理を行った後の行矩形に含まれるグループ外接矩形の数の比率を求め、この重なり統合比率により行内に含まれる文字の言語を判定する言語判定処理手段を備える。
【0036】
これにより、言語によって、当該重なり統合比率が違うことを利用した、言語の判定を行うことができる。
【0037】
原稿に含まれる複数の行において上記言語判定処理を行い、統計的処理により、最も多くの行で行内に含まれる文字の言語として判定された言語を、原稿に含まれる文字の言語として選択する統計的判定処理手段を備える。
【0038】
これにより、原稿に含まれる行内の文字データによって、誤判定が発生した場合でも、複数の行で言語判定処理を行うことで、最終的な言語の自動判定ミスが発生することを防ぎ、より高い確率で正しい言語の自動判定が行えるようになる。
【0039】
読み取り対象の文書が文字のみを含むものであった場合は、前記ラベリング処理、重なり統合処理、言語判定処理を原稿全体を対象として行うようにしてもよい。
【0040】
【実施例】
この発明による代表的な実施例を説明する。なお、以下において、同じ箇所は同一の符号を付してあり、詳細な説明を省略することがある。
【0041】
本装置は、CCDなどの画像入力装置により読み込まれた文書画像データに含まれる文字の言語を、自動的に判別することができる画像読み取り装置である。
【0042】
図1に示すように、画像読み取り装置には、CCDなどの画像入力装置1を備えており、原稿の画像を画像データとして電子的に取り込むことができるようになっている。
【0043】
この画像入力装置1には、カラーのものやモノクロ多階調のものが使用される場合もあり、この場合、読み込まれる画像データは、1ピクセルあたりの情報を多値(8ビット、24ビット等)で表したデータとなっている。
【0044】
この多値画像データを、モノクロ画像である二値画像データに変換する二値化手段2を備えている。二値化処理は、多値で表現された画素の輝度を、所定の閾値以上を1、閾値以下を0とするなどの方法により行われる。
【0045】
二値に変換された、モノクロ画像データは、黒ピクセルの連続領域をグループ化して抽出するラベリング処理を行うためラベリング処理手段3に送られる。
【0046】
ラベリング処理とは、図2(a)に示すように、黒ピクセルのつながりを判定し、図2(a)の斜線で囲んだ範囲に示すように、黒ピクセルの連続領域を一つの単位としてグループ化し、図2(b)に示すように、グループ化された黒ピクセルの連続領域ごとのグループ外接矩形情報を求める処理である。
【0047】
読み取り対象の文書に図や写真などが含まれている場合は、言語判定の対象となるグループ外接矩形を文字のもののみを使用することが望ましいため、ラベリング処理により抽出されたグループ外接矩形の位置情報から、文字で構成された行を抽出する行抽出処理手段4を備えている。
【0048】
行抽出処理手段4では、文字が一定間隔の行間ごとに、図3に示すように、X方向に直線上に配列されるか、または、図4に示すように、Y方向に直線上に文字が配列されるという特徴を持っていることにもとづいて、ラベリング処理で抽出されたグループ外接矩形の位置情報から、図3に示すように、X方向に直線上に文字が配列されているのか、図4に示すように、Y方向に直線上に文字が配列されているのかを判別し、この直線上に配列されたグループ外接矩形の列を行として、行矩形情報を抽出する。
【0049】
これにより抽出された行矩形内に含まれる、グループ外接矩形どうしの重なりを判定し、重なりの検出されたグループは、一つのグループとして統合し、新たにその統合された一つのグループのグループ外接矩形を抽出する重なり統合処理手段5を備えるように構成している。
【0050】
この重なり統合処理は、図5に示すように処理される。この図に示すように、「重なり」の文字をラベリング処理により、グループ外接矩形を抽出し、それぞれのグループ外接矩形どうしの位置情報から重なり合いを判定する。
【0051】
図5(a)に示すように、「重」の文字をラベリングしても、すべての黒ピクセルが連続しているので、一つのグループ外接矩形だけが抽出される。
【0052】
これに対し、「な」および「り」の文字をラベリングすると、「な」は図に示すように、グループa、グループb、グループcという3つのグループに分けられ、そのうちグループaとグループcが重なり合っており、「り」はグループd、グループeという2つのグループに分けられ、そのグループdとグループeが重なり合っている。
【0053】
この重なり合っているグループを、図5(b)に示すように、統合するが、「り」の方は一つのグループgに統合されるが、「な」の方は、統合されたグループfともう一つのグループbがさらに重なり合っている。
【0054】
重なり統合処理手段は、このグループが統合された後のグループがさらに別のグループと重なっていた場合も、図5(c)に示すように、それらを一つのグループhに統合する。このように、重なり統合処理手段では、行矩形内に含まれるグループ外接矩形どうしが重なり合わなくなるまでグループを統合していく。
【0055】
このようにして求められた、行矩形内に含まれる重なり統合後のグループ外接矩形の数をBとし、重なり統合処理前に行矩形内に含まれていたグループ外接矩形の数をAとすると、この重なり統合処理前と後のグループ外接矩形の数の比率であるXは、X=B/Aで求められるが、この重なり統合比率Xの値により言語の判定が行える。
【0056】
図6(a)に示すように、英語文字の行の場合は、ほとんど重なり統合されるグループ外接矩形が存在せず、重なり統合比率Xは1.0に近くなることが統計的に判明している。
【0057】
これに対し、図6(b)に示すように、日本語文字の行の場合は、重なり統合されるグループ外接矩形が多く、重なり統合比率Xは0.53と英語文字の場合に比べてかなり低い値となっている。
【0058】
そこで、統計的に日本語の場合の重なり統合比率と判断できる範囲の上限の閾値を求めておき、この閾値以上であれば英語、閾値以下であれば日本語と判断することで、行矩形に含まれる文字の言語の判定を行う言語判定処理手段6を備えている。
【0059】
単一の行のみについてこの判定を行う場合、行内の文字内容によっては誤判定を生じることがあるので、原稿に含まれる複数の行について上記の言語判定処理を実施し、統計的な処理を行うことによって、最も多くの行で行内に含まれる文字の言語として判定された言語を、原稿に含まれる文字の言語として判定する統計的判定処理手段7を備えるように構成してもよい。
【0060】
これにより、原稿内の文字の内容による一部の行の言語の誤判定により、原稿に含まれる文字の言語の最終的な誤判定の発生を防ぐことができるようになり、より正確な言語の自動判定を実現することができる。
【0061】
また、読み取り対象の文書に文字のみが含まれている場合は、原稿全体についてラベリング処理、重なり統合処理、言語判定処理を行うようにしてもよい。
【0062】
【発明の効果】
この発明により、以下に示すような効果が期待できる。
【0063】
文字情報を含んだ文書画像を読み取る画像読み取り装置において、OCRなどの文字認識を行う場合には、認識対象となる文字の言語にあわせたOCRエンジンで認識を行う必要があるため、読み取り前に、装置の使用者に手動で原稿の言語の設定を行わせており、非常に使いにくいという問題があった。
【0064】
このような問題を解決するため、複数のOCRエンジンを搭載した装置において、複数のOCRエンジンで文字認識を実際に実行し、認識の確度の高い言語を原稿に含まれる文字の言語として自動判定する画像読み取り装置が考案されている。
【0065】
しかし、このような装置においては、OCRによる認識に時間がかかり、言語の自動判定という、画像の読み取りの前処理に時間がかかりすぎ、画像読み取りが遅くなってしまうという問題があった。また、処理時間の短縮のためには、ハードウェアで機能を実現することが望ましいが、複数の言語に対応したOCRなどの文字認識機能をハードウェア化することは不可能という問題もあった。
【0066】
本発明を利用することにより、OCRなどの高価で複雑な文字認識機能を利用することなく、原稿に含まれる文字の言語を容易に自動判別することができるようになる。また、機能が複雑なものではないので、ハードウェアにより実現することもできるようになり、処理の高速化も実現できる。
【図面の簡単な説明】
【図1】本発明の全体構成図である。
【図2】ラベリング処理の説明図である。
【図3】X方向に直線的にグループ外接矩形が並んでいる場合の説明図である。
【図4】Y方向に直線的にグループ外接矩形が並んでいる場合の説明図である。
【図5】重なり統合処理の説明図である。
【図6】重なり統合比率を求める処理の説明図である。
【図7】従来の原稿に含まれる文字の言語の自動判定処理説明図である。
【符号の説明】
1:画像入力装置
2:二値化手段
3:ラベリング処理手段
4:行抽出処理手段
5:重なり統合処理手段
6:言語判定処理手段
7:統計的判定処理手段
Claims (4)
- 文字情報を含んだ原稿画像の読み取りを行う画像読み取り装置において、
読み込まれた白黒2階調のモノクロ画像に含まれる、文字を構成する連続した黒ピクセルの領域をグループ化し、グループ化した黒ピクセル連続領域のグループ外接矩形情報を抽出するラベリング処理手段と、
グループ化されたグループ外接矩形どうしの重なりを判定し、重なり合ったグループ外接矩形を統合する重なり統合処理手段と、
重なり統合処理により統合されたグループ外接矩形数と、重なり統合前のグループ外接矩形数の比率を求め、この重なり統合比率の特性から、言語を判定する言語判定処理手段と、を有することを特徴とする画像読み取り装置。 - 文字情報を含んだ原稿画像の読み取りを行う画像読み取り装置において、
文書に図や写真が含まれている場合、前記ラベリング処理手段により抽出されたグループ化された黒ピクセル連続領域のグループ外接矩形の位置情報から行矩形情報を抽出する行抽出処理手段を備え、
前記重なり統合処理および前記言語判定処理を、行抽出処理手段により抽出した行矩形に含まれるグループ外接矩形を対象として実行する、ことを特徴とする請求項1記載の画像読み取り装置。 - 文字情報を含んだ原稿画像の読み取りを行う画像読み取り装置において、
画像入力装置で読み取った画像が、カラーやモノクロ多階調などの多値画像データの読み取りの場合、多値画像データを二値化する手段を、備えることを特徴とする請求項1または請求項2記載の画像読み取り装置。 - 文字情報を含んだ原稿画像の読み取りを行う画像読み取り装置において、
前記重なり統合比率から言語を判定する言語判定処理を、原稿に含まれる複数の行について実行し、統計的処理により、最も多くの行で行に含まれる文字の言語として判定された言語を原稿に含まれる文字の言語として判定する統計的判定処理手段を、備えることを特徴とする請求項2または請求項3記載の画像読み取り装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003069272A JP2004280334A (ja) | 2003-03-14 | 2003-03-14 | 画像読み取り装置 |
US10/791,797 US7327881B2 (en) | 2003-03-14 | 2004-03-04 | Image reading apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003069272A JP2004280334A (ja) | 2003-03-14 | 2003-03-14 | 画像読み取り装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004280334A true JP2004280334A (ja) | 2004-10-07 |
Family
ID=32959380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003069272A Pending JP2004280334A (ja) | 2003-03-14 | 2003-03-14 | 画像読み取り装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7327881B2 (ja) |
JP (1) | JP2004280334A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8306320B2 (en) | 2008-03-07 | 2012-11-06 | Samsung Electro-Mechanics Co., Ltd. | 2D image segmentation apparatus and method, and apparatus and method for removing red-eye in the image |
JP2014029396A (ja) * | 2012-07-31 | 2014-02-13 | Ricoh Co Ltd | 画像表示装置 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7130646B2 (en) * | 2003-02-14 | 2006-10-31 | Atheros Communications, Inc. | Positioning with wireless local area networks and WLAN-aided global positioning systems |
US7487438B1 (en) * | 2005-03-08 | 2009-02-03 | Pegasus Imaging Corporation | Method and apparatus for recognizing a digitized form, extracting information from a filled-in form, and generating a corrected filled-in form |
US8423908B2 (en) * | 2006-09-08 | 2013-04-16 | Research In Motion Limited | Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same |
JP4420295B2 (ja) * | 2007-02-07 | 2010-02-24 | 株式会社沖データ | 画像読取装置 |
US9064191B2 (en) | 2012-01-26 | 2015-06-23 | Qualcomm Incorporated | Lower modifier detection and extraction from devanagari text images to improve OCR performance |
US20130194448A1 (en) | 2012-01-26 | 2013-08-01 | Qualcomm Incorporated | Rules for merging blocks of connected components in natural images |
US9076242B2 (en) | 2012-07-19 | 2015-07-07 | Qualcomm Incorporated | Automatic correction of skew in natural images and video |
US9047540B2 (en) | 2012-07-19 | 2015-06-02 | Qualcomm Incorporated | Trellis based word decoder with reverse pass |
US9262699B2 (en) | 2012-07-19 | 2016-02-16 | Qualcomm Incorporated | Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR |
US9183458B2 (en) | 2012-07-19 | 2015-11-10 | Qualcomm Incorporated | Parameter selection and coarse localization of interest regions for MSER processing |
US9141874B2 (en) | 2012-07-19 | 2015-09-22 | Qualcomm Incorporated | Feature extraction and use with a probability density function (PDF) divergence metric |
US10282814B2 (en) * | 2016-01-07 | 2019-05-07 | Mediatek Inc. | Method and apparatus of image formation and compression of cubic images for 360 degree panorama display |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6212299B1 (en) * | 1992-12-11 | 2001-04-03 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for recognizing a character |
JP3534128B2 (ja) * | 1995-01-24 | 2004-06-07 | オムロン株式会社 | 書類の上下方向検知方法及び装置 |
US6226403B1 (en) * | 1998-02-09 | 2001-05-01 | Motorola, Inc. | Handwritten character recognition using multi-resolution models |
-
2003
- 2003-03-14 JP JP2003069272A patent/JP2004280334A/ja active Pending
-
2004
- 2004-03-04 US US10/791,797 patent/US7327881B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8306320B2 (en) | 2008-03-07 | 2012-11-06 | Samsung Electro-Mechanics Co., Ltd. | 2D image segmentation apparatus and method, and apparatus and method for removing red-eye in the image |
US8515169B2 (en) | 2008-03-07 | 2013-08-20 | Samsung Electro-Mechanics Co., Ltd. | Apparatus and method for removing red-eye in a two-dimensional (2D) image |
JP2014029396A (ja) * | 2012-07-31 | 2014-02-13 | Ricoh Co Ltd | 画像表示装置 |
Also Published As
Publication number | Publication date |
---|---|
US7327881B2 (en) | 2008-02-05 |
US20040179734A1 (en) | 2004-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8059868B2 (en) | License plate recognition apparatus, license plate recognition method, and computer-readable storage medium | |
US8947736B2 (en) | Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern | |
US8306325B2 (en) | Text character identification system and method thereof | |
JP4208918B2 (ja) | 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体 | |
JP2004280334A (ja) | 画像読み取り装置 | |
US9171224B2 (en) | Method of improving contrast for text extraction and recognition applications | |
JP2004272798A (ja) | 画像読み取り装置 | |
CN110298353B (zh) | 一种字符识别方法及系统 | |
CN111461126B (zh) | 文本行中的空格识别方法、装置、电子设备及存储介质 | |
KR100383858B1 (ko) | 문자인식장치의 문자추출방법 및 장치 | |
JP2014107685A (ja) | 画像処理装置 | |
JP5601027B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2005250786A (ja) | 画像認識方法 | |
JP2009200794A (ja) | 文書の改竄検出プログラム及び改竄検出装置 | |
JP2001022883A (ja) | 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体 | |
JPH0916713A (ja) | 画像領域分割方法 | |
JPH09305707A (ja) | 画像抽出方式 | |
JP4254008B2 (ja) | パターン検出装置及び方法 | |
JP3756660B2 (ja) | 画像認識方法、装置および記録媒体 | |
CN108073927B (zh) | 一种字符识别方法及装置 | |
CN112163581A (zh) | 一种车牌字母识别方法、系统、装置及存储介质 | |
JP2789647B2 (ja) | 線画像認識方法 | |
JP2606498B2 (ja) | 指紋画像入力装置 | |
JPH0660220A (ja) | 文書画像の領域抽出方法 | |
JP2023034823A (ja) | 画像処理装置、画像処理装置の制御方法およびプログラム |