JP6075190B2 - 画像処理方法及び装置 - Google Patents

画像処理方法及び装置 Download PDF

Info

Publication number
JP6075190B2
JP6075190B2 JP2013095555A JP2013095555A JP6075190B2 JP 6075190 B2 JP6075190 B2 JP 6075190B2 JP 2013095555 A JP2013095555 A JP 2013095555A JP 2013095555 A JP2013095555 A JP 2013095555A JP 6075190 B2 JP6075190 B2 JP 6075190B2
Authority
JP
Japan
Prior art keywords
scale
inclination
image
character string
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013095555A
Other languages
English (en)
Other versions
JP2013235581A (ja
Inventor
俊 孫
俊 孫
屹峰 潘
屹峰 潘
直井 聡
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2013235581A publication Critical patent/JP2013235581A/ja
Application granted granted Critical
Publication of JP6075190B2 publication Critical patent/JP6075190B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Description

本発明は、一般的に画像処理に関し、特に文書画像の向きを識別する方法及び装置に関する。
文書画像を処理する(例えば、紙をスキャンする)際に,例えば、スキャナー、カメラなどの画像入力装置によって読み取った文書画像の傾きはその実際の傾きに対して変化した(例えば,90度、180度、270度回転した)可能性がある。従って、文書画像の傾きを識別する必要がある。下記の文献には文書画像の傾きを識別する方法が開示されている。
万しん(3つの「金」からなる),“文書画像の補正方法”,CN 101833648 A; Zhigang Fan, “Page orientation detection based on selective character recognition”,US 2009/0274392 A1。
従来、比較対象として主に標準の文書画像と対比する。しかし、もし処理する文書画像が絵と文書を交えたもの,又は絵をメインとするものである場合,前記従来の方法による処理効果が好ましくない。
本発明は、文書画像全体の傾きを迅速且つ正確に判断することができる文書画像の傾き識別方法と装置を提供するものである。
本発明の一実施例によれば、画像処理方法は、画像のオリジナル尺度より小さい第一尺度の2値画像を生成するステップと、第一尺度の2値画像に基づいて画像中の少なくとも1文字列を検出するステップと、第一尺度より大きい第二尺度の2値画像を生成するステップと、各文字列に対して、第一尺度の2値画像における対応部分と第二尺度の2値画像における対応部分との間の類似度を計算し類似度が所定の水準より低い文字列をノイズとして除去するステップと、文字列中の除去されていない1つ又は複数の文字列に対しその第二尺度の2値画像における対応部分に対して光学文字識別を行い、対応する文字列の文字の傾きを決定するステップと、決定した文字の傾きに基づいて画像の傾きを決定するステップと、を含む。
本発明の別の実施例によれば、画像処理装置は、画像のオリジナル尺度より小さい第一尺度の2値画像を生成する第一尺度2値画像生成部と、第一尺度の2値画像に基づいて画像中の少なくとも1文字列を検出する文字列検出部と、第一尺度より大きい第二尺度の2値画像を生成する第二尺度2値画像生成部と、各文字列に対して、第一尺度の2値画像における対応部分と第二尺度の2値画像における対応部分との間の類似度を計算し類似度が所定の水準より低い文字列をノイズとして除去するノイズ除去部と、文字列中の除去されていない1つ又は複数の文字列に対しその第二尺度の2値画像における対応部分に対して光学文字識別を行い、対応する文字列の文字の傾きを決定する光学文字識別部と、決定した文字の傾きに基づいて画像の傾きを決定する画像傾き決定部と、を備える。
以下に、付属の図面を参照して本発明の実施例を説明すると、本発明の上記及びその他の目的や特徴及び優れた点をより理解しやすいことになる。また、不必要な詳細な説明により本発明をぼかしてしまうのを防ぐために図面には本発明に密接な関係を持つ装置の構造及び/又は処理ステップのみを示し、本発明と密接な関係を有さない他の詳細が省略されている。
本発明の実施例に係る画像処理方法を示すフローチャートである。 a及びbは、文字列を検出する例を示す図である。 a乃至cは、水平文字列と垂直文字列が重なる場合に重なる部分のテキストブロックの傾きに基づいてノイズ文字列を決定する例を示す図である。 a及びbは、それぞれ2値画像の画素投影と筆画投影に基づいてノイズ文字列を識別する例を示す図である。 第一尺度の2値画像と第二尺度の2値画像の比較に基づいてノイズ文字列を決定する例を示す図である。 本発明の実施例に係る画像処理装置の構成例を示すブロック図である。 本発明の方法と装置を実現するためのコンピューターの例示的な構造を示すブロック図である。
以下に、本発明の実施例について、付属の図面を参照しつつ説明する。注意すべきなのは、明瞭に説明するために図面及び説明において、本発明と関係ない、且つ当業者にとって知られている装置と処理の表示及び説明が省略されている。
以下に、図1のフローチャートを参照して本発明の実施例に係る画像処理方法の処理過程を説明する。
ステップS110において画像のオリジナル尺度より小さい第一尺度の2値画像を生成する。
ここでいう画像の尺度とは、画素を単位とする画像のサイズのことを指す。尺度の大きいものは高解像度に対応し、尺度の小さいものは低解像度に対応する。処理対象となる画像のグレースケール画像に対してダウンサンプリングと2値化を行うことにより第一尺度の2値画像を生成することができる。また、多種の方式により画像をダウンサンプリングすることができる。例えば、画像をそのオリジナル尺度の1/Nに縮小する、又は画像を或る指定の尺度まで縮小する。また、各種の方法により画像の2値化処理を行うことができる。例えば、Otsu方法(http://en.wikipedia.org/wiki/Otsu's_method);又はJ. Sauvola, M. Pietikainen, “Adaptive document image binarization”, Pattern Recognition 33, 2000, pp. 225―236の中に記載の方法。
次に、ステップS120において第一尺度の2値画像に基づいて画像中の少なくとも1文字列を検出する。
小尺度の2値画像に基づいて文字列の検出を行う目的の1つは、文字列検出の速度を上げるためである。
当該技術分野の公知の各種の方法を用いて2値画像に基づいて画像中の文字列を検出することができる。以下に、図2を参照して例示的な方法を説明する。
まず、連結部分(CC)を通じて2値画像中の連結部分を分析し見つける。連結部分の大きさを用いて明らかに文字に属さない一部の連結部分をフィルタすることができる。その後、フィルタ後の連結部分に基づいて可能な水平文字列と垂直文字列を検出する。水平文字列の検出を例として図2に示されたように、或る連結部分を最初の連結部分として選択することが可能であり、最初の連結部分の大きさを最初の文字列の大きさとして、それぞれ左と右へ向かって捜索を行う。捜索の範囲は当該文字列の高さによって决定することができる。例えば、捜索高さを最初の連結部分の高さtl_hに設定することができる。捜索の幅は2×tl_hに設定することができる。もし当該捜索範囲内に目標連結部分が存在すれば、当該目標連結部分と当該文字列との水平方向に沿う投影の一致度(例えば、図2b中のtl_hとcc_hとの水平方向に沿う投影の重なる部分の割合)を比較する。もし当該一致度が所定の範囲内にあれば、候補の連結部分を当該文字列の中に入れ、文字列の範囲を更新し、続けて左又は右へ向かって捜索し、捜索範囲内に要件を満す連結部分がなくなるまで操作を続ける。また、垂直方向の文字列の検出も同じ方法で実現できる。
また、本発明の方法と装置に採用可能な文字列検出方法は上記具体的な方式に限らず,当該技術分野の公知のその他の方法も採用できる。例えば、投影に基づく検出方法や、テクスチャに基づく検出方法など。
また、第一尺度の2値画像に基づいてそれぞれ水平文字列と垂直文字列を検出する際に、次の状況が起きる可能性がある。或る領域内の連結部分が水平文字列の部分として検出され、且つ、垂直文字列の部分としても検出される、即ち、検出された一部の水平文字列と垂直文字列が互いに重なる状態にある。この場合、その中の1つの文字列がノイズ文字列である可能性が高い。
このような状況に対して、本発明の一実施例に係る画像処理方法は、第一尺度の2値画像において重なる領域のテキストブロックの傾きを検出し、さらにテキストブロックの傾きと一致しない文字列をノイズとして除去するステップを備える。例えば,図3a〜図3cに示されたように、同じ領域において、水平文字列の検出と垂直文字列の検出を通じてそれぞれ水平文字列H-1〜H-4(図3aを参照する。)及び垂直文字列V-1とV-2(図3bを参照する。)を獲得した。この場合、公知の方法を用いて、例えば、投影に基づく方法又はCN102375988Aに記載の方法によって重なる領域(例えば図3cを参照する。)のテキストブロックの傾き(即ち、水平傾き又は垂直傾き)を決定できる。さらに、当該テキストブロックの傾きと一致しない文字列をノイズとして除去する。図示の例において、図3cのテキストブロックが水平傾きと決定した場合、図3bに示された垂直文字列V-1とV-2をノイズとして識別する。
また、上記水平文字列と垂直文字列が重なる場合のほか、背景ノイズなどの原因で、他のノイズ文字列が存在する可能性がある。従って、本発明の一実施例によれば、第一尺度の2値画像に基づいて文字列を検出するステップには、第一尺度の2値画像において、テクスチャに基づく方法及び/又は2値投影法を用いて文字列の信頼度を推定し、信頼度が所定の水準より低い文字列をノイズとして除去するステップを備えることができる。
また、テクスチャに基づく方法に基づく例として、例えば、Xiangrong Chen, Alan L. Yuille: Detecting and Reading Text in Natural Scenes. CVPR (2) 2004: 366−373の中に記載のグレースケール画像に基づくノイズテキスト除去方法を用いることができる。当該方法はグレースケール画像中のテクスチャの特征を用いて画像ブロックが文字か背景ノイズかを判断する。また、その他の方法を使うこともできる。例えば、K. I. Kim, et, al. "Texture−Based Approach for Text Detection in Images Using Support Vector Machines and Continuously Adaptive Mean Shift Algorithm", IEEE Transaction on Pattern Analysis and Machine Intelligence, v25, n12, 2003, pp1631−1639又はY. F. Pan, et, al. "Text Localization in Natural Scene Images based on Conditional Random Field", International Conference on Document Analysis and Recognition, pp.6−10の中に記載の方法を用いて、テクスチャの特征に基づいて文字列の信頼度を推定する。
また、2値投影法は2値画像に基づいて行うもので、当該方法は水平方向又は垂直方向の画素投影及び/又は筆画投影を用いてノイズ文字列を決定する。図4aと図4bはそれぞれ2値画像の画素投影と筆画投影を用いてノイズ文字列を識別する例を示す図である。そのうち、図4aに示されたノイズ文字列HF−1が1つの文字列に誤認されたが、実際2行の文字を備える。この場合、文字列HF−1に対して水平方向に沿う黒画素投影を行い、且つ黒画素の分布特性(例えば、HF−1に実際に含まれた2行文字の間に黒画素分布が明確に谷になる。)によってノイズ文字列であるかどうかを判断する。また、図4bに示されたノイズ文字列HF−2が1つの水平文字列に誤認されたが、実際に複数の垂直文字列が含まれ、各垂直文字列が1つの文字と誤認された。この場合、垂直方向に沿う筆画投影を用いて平均的な画数を統計することができる。垂直文字列の画数が1文字の画数よりはるかに多いため、筆画投影によって得た画数に基づいて文字列の傾きの判断ミスによって生じたノイズ文字列を除去できる。
また、テクスチャに基づく方法及び/又は2値投影法に基づいてノイズ文字列を決める方法は上記の具体的な方法に限らないことは当業者に理解されるところである。
また、処理速度をさらに上げるために、検出したすべての文字列に対して後続の処理を行う必要はない。一部の文字列を選んで候補文字列とし、これらの候補文字列だけに対して後続の処理を行うことができる。本発明の一実施例によれば、高さと幅の比が所定の閾値より大きい文字列の中からサイズが最も大きいN個の文字列だけに対して次に説明する、第二尺度の2値画像に基づくステップを実施する。ここにN≧1である。具体的な実施例によれば、高さと幅の比の閾値は、例えば、3:1である。また、水平文字列の高さ又は垂直文字列の幅を文字列のサイズとすることができる。
以下に、図1に戻って説明する。ステップS130において、画像の第二尺度の2値画像を生成する。また、第二尺度は第一尺度より大きい。一実施例によれば、第二尺度は画像のオリジナル尺度である。第二尺度の2値画像を生成する時に用いる2値化方法は、第一尺度の2値画像を生成する方法と同じか、又は異なる方法であってもよい。
また、第二尺度の2値画像を生成した後、第二尺度の2値画像に基づいて前に検出した文字列に対してさらにノイズ除去処理を行うことができる。また、第二尺度の2値画像に基づくノイズ除去処理もテクスチャ特徴に基づく方法及び/又は2値投影法を採用できる。ただし、テクスチャ特徴に基づく方法の場合、計算量が大きいため処理速度をさらに上げるために第二尺度の2値画像に対して2値投影法だけを用いてノイズ文字列除去を行うことができる。従って、一実施例によれば,第二尺度の2値画像を生成するステップの後に、さらに、第二尺度の2値画像に対して2値投影法により前記文字列の信頼度を推定し、信頼度が所定の水準より低い文字列をノイズとして除去するステップを備えることができる。
以下に、ステップS140において、各文字列それぞれ第一尺度の2値画像と第二尺度の2値画像における対応部分の類似度を計算し、類似度が所定の水準より低い文字列をノイズとして除去する。
このステップは主に以下の事実に対する認識に基づくものである。即ち、真の文字列の場合、小尺度と大尺度による2値化画像は高い類似度を有することに対しノイズ文字列の場合、異なる尺度又は異なる2値化方法によって得た2値画像の区別は通常大きいである。
例えば,図5に示されたように、文字列の場合、その第一尺度の2値画像と第二尺度の2値画像における対応部分(例えば、図に示された文字列2値画像1と文字列2値画像2)の尺度が異なるが、類似度(即ち、形状の一致度)が高い。しかし、背景画像部分の場合、2つの2値画像における対応部分(例えば、図に示された背景2値画像1と背景2値画像2)の間の類似度が低い。
従って、2つの2値化画像の類似度によって一文字列がノイズ文字列であるかどうかを判断することができる。
当業者にとって知られているように、各種の具体的な方法を用いて類似度、即ち形状の一致度を表すことができる。例えば、以下の参考文献の記載によるもの。
K. Siddiqi, A. Shokoufandeh, "Shock graphs and shape matching", International Journal of Computer Vision, 30, 1, 1999;
S. Belongie, J. Malik, J. Puzicha, "Shape context: a new descriptor for shape matching and object recognition", Neural Information Processing Systems (NISP), pp831―837, 2000。
以下に、具体的な実施例を通じて、第一尺度の2値画像と第二尺度の2値画像における対応部分間の類似度を計算し、さらに計算した類似度によって対応する文字列がノイズ文字列であるかどうかを判断する実施形態を説明する。いうまでもなく、ステップS140の実施形態はこれに限定されない。
NSが第一尺度の2値画像における黒画素点の数を表し、第一尺度の2値画像における黒画素の各点に対し、第二尺度の2値画像における対応点を見つけ出し、もしこの対応点も黒画素であれば、又はこの対応点の上下左右の4つの点のうちの一点が黒画素であれば、カウンターMSの数字に1を加える。MSは第一尺度の2値画像における黒画素点の中、第二尺度の2値画像に基づいてもマッチポイントとして見つけた黒画素点の数である。
同じく、NLが第二尺度の2値画像における黒画素点の数を表し、第二尺度の2値画像における黒画素の各点に対し、第一尺度の2値画像における対応点を見つけ出し、もしこの対応点も黒画素であれば、又はこの対応点の上下左右の4つの点のうちの一点が黒画素であれば、カウンターMLの数字に1を加える。MLは第二尺度の2値画像における黒画素点の中、第一尺度の2値画像においてもマッチポイントとして見つけた黒画素点の数である。
もしMS > r×NS且つML > r×NLであれば、対象文字列は真であり、そうでなければノイズとして除去する。例えば、r=r=0.9である。
図1に戻って説明する。ステップS150において、ノイズとして除去されなかった文字列の中から1つ又は複数の文字列に対し、その第二尺度の2値画像における対応部分に対して光学文字識別(OCR)を行い対応する文字列の文字の傾きを決定する。
次に、ステップS160において,決定した文字の傾きに基づいて画像の傾きを決定する。
処理速度を上げるために、すべての文字列の文字の傾きではなく、一部の文字列の文字の傾きに基づいて画像全体の傾きを決定する。また、傾き識別の精度を上げるために、信頼性の高い光学文字識別結果を得られるのに最も有利な文字列を選ぶべきである。これらの文字列の文字の傾きに基づいて画像の傾きを決定する。従って、一実施例によれば、文字の傾きを決定するステップの前に、第二尺度の2値画像に基づいて、文字列のサイズや、テクスチャによって決定した文字列の信頼度、又は、文字列のグレイレベル分散、のうちの1つ又は複数に基づいて前記文字列の優先度を決める、というステップを有することができる。
ここでいう文字列のサイズとは、水平文字列の高さ又は垂直文字列の幅であってもよい。文字列のサイズが大きいほど、光学文字識別に有利である。従って、サイズの大きい文字列に高い優先度を与える;
また、テクスチャによって決定した文字列の信頼度は、上記のノイズ文字列を除去するための参考とされ、テクスチャに基づく方法によって推定した文字列信頼度であってもよい。当該信頼度は通常(-1,1)範囲内の数字である。例えば,当該信頼度が大きいほど文字列である可能性が高い。当該信頼度が小さいほど背景ノイズである可能性が高い。従って、文字列信頼度の高い文字列に高い優先度を与える。
また、文字列のグレイレベル分散が大きいほど、文字列における文字の鮮明度が高く、光学文字識別に有利である。従って、グレイレベル分散が大きい文字列に高い優先度を与える。
これらの要素の1つ又は複数を足し算又は相乗などの方法で結合させ、総合的に文字列の優先度を決める。
これによって文字の傾きを決定するステップにおいて、決定した優先度の順番によって順次に文字列の文字の傾きを決定することができる。
また、本発明の一実施例によれば、文字列の文字の傾きに基づいて画像の傾きを決定するステップにおいて、以下の方法によって画像の傾きを決定することができる。優先度の順番に基づいて順次に決定した文字の傾きに基づいて投票を行う。得票数が最も多い傾きの票数と得票数第二位の傾きの票数との差が所定の閾値に達した場合、得票数が最も多い傾きを画像の傾きとする。投票の結果、票数の差が当該所定の閾値に達したものが検出されなかった場合、最終的に得票数の最も多い傾きを画像の傾きとする。
例えば、優先度に基づいて配列した文字列に対して、第二尺度の2値画像に基づいて文字列画像を4方向(0度、90度、180度、270度)に回転させた後の画像に対してそれぞれ光学文字識別を行う。投票テーブルを作って各傾きの投票数を累計することができる。各文字列に対して、光学文字識別の中、平均識別信頼度が最も高い傾きを当該文字列の傾きとし、その傾きに一票を投じる。得票数が最も多い傾きを画像全体の傾きと識別する。また、処理速度をさらに上げるために、票数が最も多い傾きの票数と票数が二番目である傾きの票数との差をリアルタイムに監視することができる。当該差が所定の数値(例えば、2)より大きい場合、その後の文字列識別は続けなくてもよい。また、票数の最も多い傾きを文書画像全体の傾き識別の結果とする。もしすべての文字列の傾きに基づいて投票を行った結果、上記票数の差が所定の数値より大きいことが検出されなかった場合、最後に得票が最も多い傾きを文書画像全体の傾きとする。
最後に、上記のステップを経て文字列が検出されなかった場合、画像に対して白黒反転処理を行い、且つ同様な処理過程を行うことができる。
図6は本発明の実施例に係る画像処理装置600の構成例を示すブロック図である。
画像処理装置600は、第一尺度2値画像生成部610と、文字列検出部620と、第二尺度2値画像生成部630と、ノイズ除去部640と、光学文字識別部650及び画像傾き決定部660を備える。
第一尺度2値画像生成部610は、画像のオリジナル尺度より小さい第一尺度の2値画像を生成する。
文字列検出部620は第一尺度の2値画像に基づいて画像中の少なくとも1文字列を検出する。
第二尺度2値画像生成部630は第一尺度より大きい第二尺度の2値画像を生成する。
ノイズ除去部640は、各文字列に対して、第一尺度の2値画像における対応部分と第二尺度の2値画像における対応部分との間の類似度を計算し類似度が所定の水準より低い文字列をノイズとして除去する。
光学文字識別部650は、その第二尺度の2値画像における対応部分に対して光学文字識別を行い、対応する文字列の文字の傾きを決定する。
画像傾き決定部660は、文字の傾きに基づいて上記画像の傾きを決定する。
本発明の一実施例によれば、画像処理装置は、第二尺度の2値画像に基づいて
文字列のサイズと、
テクスチャによって決定した文字列の信頼度と、
文字列のグレイレベル分散と、
のうちの1つ又は複数に基づいて前記文字列の優先度を決める優先度決定部をさらに備え、光学文字識別部が決定した優先度の順番で順次に文字列の文字の傾きを決定する。
本発明の一実施例によれば、画像傾き決定部は、優先度の順番に基づいて順次に決定した文字の傾きに基づいて投票を行う投票ユニットを備え、得票数が最も多い傾きの票数と得票数第二位の傾きの票数との差が所定の閾値に達した場合、得票数が最も多い傾きを画像の傾きとする。投票の結果、票数の差が当該所定の閾値に達したものが検出されなかった場合、最終的に得票数の最も多い傾きを画像の傾きとする。
本発明の一実施例によれば,ノイズ除去部が第一尺度の2値画像に対してテクスチャ特徴による方法及び/又は2値投影法を用いて文字列の信頼度を推定し、信頼度が所定の水準より低い文字列をノイズとして除去する。
本発明の一実施例によれば、ノイズ除去部は、第二尺度の2値画像に対して2値投影法を用いて文字列の信頼度を推定し、信頼度が所定の水準より低い文字列をノイズとして除去する。
本発明の一実施例の画像処理装置は、高さと幅の比が所定の閾値より大きい文字列の中からサイズが最も大きいN個の文字列だけを選択する文字列選別部をさらに備え、文字列選別部で選択された文字列だけに対して第二尺度の2値画像と関連する部分の処理を行う。
本発明の一実施例に関る画像処理装置は、文字列検出部が水平文字列と垂直文字列が重なることを検出した場合に、第一尺度の2値画像において重なる領域のテキストブロックの傾きを検出するテキストブロックの傾き検出部をさらに備え、ノイズ除去部は重なる水平文字列と垂直文字列の中からテキストブロックの傾きと一致しない文字列をノイズとして除去する。
本発明の実施例に係る画像処理方法と装置は、小尺度の2値画像に基づいて文字列の検出を行い、文字列検出に必要な計算量を著しく減らすことができるため、処理速度を上げることができる。また、小尺度の2値画像と大尺度の2値画像を比較してノイズ文字列を除去するため、文字列の検出精度を上げることができる。よって、文書画像全体の傾きをより高い精度で識別することができる。
また、優先度の順番に基づいて識別された文字列に対して光学文字識別を行い,且つ投票を通じて文字列の傾きにより画像の傾きを決定することで、識別精度を保証しながら画像の傾きの識別速度をさらに上げることができる。
当業者に理解されるように、本発明は装置、方法又はコンピューターソフトウェアなどによって実現される。従って,本発明は具体的にハードウェアのみ、ソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを備える)のみ、又はそれらの組合せによっていろいろな形で実現できる。また、本発明は有形媒体に記録されるコンピューターソフトウェアによって実現でき、その有形媒体にはコンピューターに使用可能なプログラムコードを備える。
1つ又は複数のコンピューター読み取り可能な記録媒体の任意の組合せを用いることができる。コンピューター読み取り可能な記録媒体はコンピューター読み取り可能な信号媒体又はコンピューター読み取り可能な記録媒体であってもよい。コンピューター読み取り可能な記録媒体は、例えば、電気、磁気、光学、電磁気、紫外線、又は半導体などのシステム、装置、機器又は伝搬媒体、又は前記各項の任意適当な組み合わせであってもよいが、これらに限定されない。コンピューター読み取り可能な記録媒体の更なる例(非網羅的なリスト)として、1つ又は複数の導線の電気的接続、携帯式コンピューターディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM 又はフラッシュメモリ)、光ファイバ、読み取り専用コンパクトディスク(CD-ROM)、光学記憶装置、磁気記憶装置、又は前記各項の任意の適切な組み合わせを備える。本文にいうコンピューター読み取り可能な記録媒体は、命令実行システム、装置又は機器に用いる又は命令実行システム、装置又は機器と関連するプログラムを具備又は保存する有形媒体など、を備える。
本発明の動作を実行するためのコンピューターソフトウェアコードは、1つ又は複数のプログラム言語の任意の組み合わせによって構成することができる。前記プログラム言語は、オブジェクト指向プログラミング言語−例えばJava(登録商標)、Smalltalk、C++などのほか、手続き型言語、例えば、”C”プログラム言語又はそれに類似するプログラム言語などをも備える。プログラムコードは、完全にユーザのコンピューターで実行できるものと、部分的にユーザのコンピューターで実行できるもの、1つ独立したパッケージとして実行できるもの、部分的にユーザのコンピューターで実行し部分的にリモートコンピューターで実行でき、又は完全にリモートコンピューター又はサーバーで実行できるものを備える。最後の形態の場合、リモートコンピューターは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を備えるあらゆる種類のネットを介して、ユーザのコンピューターに連結し、又は、外部コンピューター(例えば、インターネットサービスプロバイダーを通じてインターネットを利用する)に連結することができる。
図7は本発明の方法と装置を実現するためのコンピューター700の例示的な構造を示すブロック図である。
図7においてセントラル・プロセッシング・ユニット(CPU)701は、読み取り専用メモリ(ROM)702に保存されたプログラム又は記憶部708からランダム・アクセス・メモリ(RAM)703にロードされたプログラムに従って各処理を実行する。RAM703においても、必要に応じてCPU701が各処理を実行するときなどに必要なデータを保存する。
CPU701、ROM702とRAM703はバス704を介して互い連結する。入力/出力インタフェース705もバス704に接続される。
入力/出力インタフェース705には、キーボードやマウスなどを備える入力部706と、ブラウン管(CRT)や液晶ディスプレイ(LCD)などのモニターやスピーカーなどを備える出力部707と、ハードディスクなどを備える記憶部708と、LANカードやモデムなどのネットインタフェースカードを備える通信部709が接続される。通信部709は、例えば、インターネットなどのネットワークを介して通信処理を実行する。
必要に応じて、ドライブ710をも入力/出力インタフェース705に接続することができる。また、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどの取り外し可能な媒体711が必要に応じてドライブ710に取り付けされ、その中から読み出されるコンピューターソフトウェアが必要に応じて記憶部708に保存される。
ソフトウェアを通じて上記ステップと処理を実行する場合、ネットワーク、例えば、インターネットや、又は記録媒体、例えば、取り外し可能な媒体711よりソフトウェアを構成するプログラムをインストールする。
当業者には理解されるように、この記録媒体は、中にプログラムが保存され、方法と分離して配布しユーザにプログラムを提供する、図7に示されたような取り外し可能な媒体711に限らない。取り外し可能な媒体711の例として磁気ディスク、光ディスク(光ディスク読み取り専用メモリ(CD-ROM)とデジタル多用途ディスク(DVD)を備える)、磁気ディスク(ミニディスク(MD)を備える)と半導体メモリを備える。また、記録媒体はROM 702や記憶部708の中にあるハードディスクなどである。当該ハードディスクにはプログラムが保存されており、且つそれを備える方法と一緒にユーザに配布される。
請求項にある構造、操作及び機能的に表現したすべての装置又はステップ等の均等代替は、請求項に具体的に記載されるその他のユニットと組み合わせて当該機能を実現するために用いるあらゆる構造又は操作を備える。本発明に対する記載は、例示であり、網羅的ではなく、また、本発明を記載の形態に限定するものではない。実施の形態には、本発明の範囲と思想を逸脱しない範囲において、多くの変形例や配置の変更が可能であることは当業者には理解されるところである。また、実施例の選定と説明は、本発明の思想とその実際の応用を最もよく説明できるためのものであり、本発明が特定の用途に適合する様々な実施形態を有することを当業者に理解してもらうためのものである。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
画像のオリジナル尺度より小さい第一尺度の2値画像を生成するステップと、
前記第一尺度の2値画像に基づいて前記画像中の少なくとも1文字列を検出するステップと、
前記画像の、前記第一尺度より大きい第二尺度の2値画像を生成するステップと、
前記各文字列に対して、前記第一尺度の2値画像における対応部分と前記第二尺度の2値画像における対応部分との間の類似度を計算し類似度が所定の水準より低い文字列をノイズとして除去するステップと、
前記文字列中の除去されていない1つ又は複数の文字列に対しその前記第二尺度の2値画像における対応部分に対して光学文字識別を行い、対応する文字列の文字の傾きを決定するステップと、
前記文字の傾きに基づいて前記画像の傾きを決定するステップと、
を含む画像処理方法。
(付記2)
前記文字の傾きを決定するステップの前に、
前記第二尺度の2値画像に基づいて、以下の要素、
文字列のサイズと、
テクスチャによって決定した文字列の信頼度と、
文字列のグレイレベル分散と、
のうちの1つ又は複数に基づいて前記文字列の優先度を決めるステップをさらに含み、且つ、
前記文字の傾きを確定するステップにおいて、前記優先度の順番に従って順次に前記文字列の文字の傾きを決定する、
付記1記載の方法。
(付記3)
前記文字の傾きに基づいて前記画像の傾きを決定するステップにおいて、
前記優先度の順番に従って順次に決定した前記文字の傾きに基づいて投票を行い、且つ
得票数が最も多い傾きの票数と得票数第二位の傾きの票数との差が所定の閾値に達した場合、得票数が最も多い傾きを前記画像の傾きとし、
投票の結果、前記票数の差が前記所定の閾値に達したものが検出されなかった場合、最終的に得票数の最も多い傾きを前記画像の傾きとする、
ことによって前記画像の傾きを決定する、
付記2記載の方法。
(付記4)
前記第一尺度の2値画像に基づいて文字列を検出するステップは、
前記第一尺度の2値画像に対し、テクスチャに基づく方法及び/又は2値投影法を用いて前記文字列の信頼度を推定し、且つ信頼度が所定の水準より低い文字列をノイズとして除去することをさらに含む、
付記1記載の方法。
(付記5)
前記第二尺度の2値画像を生成するステップの後に、
前記第二尺度の2値画像に基づいて、2値投影法を利用して前記文字列の信頼度を推定し、且つ信頼度が所定の水準より低い文字列をノイズとして除去するステップをさらに含む、
付記1記載の方法。
(付記6)
高さと幅の比が所定の閾値より大きい文字列の中からサイズが最も大きいN個の文字列だけに対して前記第二尺度の2値画像に基づくステップを実施し、N≧1である、
付記1乃至5のいずれか記載の方法。
(付記7)
前記第一尺度の2値画像に基づいて文字列を検出するステップは、
前記第一尺度の2値画像に基づいて水平文字列と垂直文字列を検出し、及び、
検出された水平文字列と垂直文字列が重なる場合に前記第一尺度の2値画像に基づいて重なる領域のテキストブロックの傾きを検出し、前記テキストブロックの傾きと一致しない文字列をノイズとして除去する、
付記1乃至5のいずれか記載の方法。
(付記8)
画像のオリジナル尺度より小さい第一尺度の2値画像を生成する第一尺度2値画像生成部と、
前記第一尺度の2値画像に基づいて前記画像中の少なくとも1文字列を検出する文字列検出部と、
前記第一尺度より大きい第二尺度の2値画像を生成する第二尺度2値画像生成部と、
前記各文字列に対して、前記第一尺度の2値画像における対応部分と前記第二尺度の2値画像における対応部分との間の類似度を計算し類似度が所定の水準より低い文字列をノイズとして除去するノイズ除去部と、
前記文字列中の除去されていない1つ又は複数の文字列に対しその前記第二尺度の2値画像における対応部分に対して光学文字識別を行い、対応する文字列の文字の傾きを決定する光学文字識別部と、
前記文字の傾きに基づいて前記画像の傾きを決定する画像傾き決定部と、
を備える画像処理装置。
(付記9)
前記第二尺度の2値画像に基づいて、
文字列のサイズと、
テクスチャによって決定した文字列の信頼度と、
文字列のグレイレベル分散と、
のうちの1つ又は複数の要素に基づいて前記文字列の優先度を決める優先度決定部をさらに備え、且つ、
前記光学文字識別部が前記優先度の順番に従って順次に前記文字列の文字の傾きを決定する、
付記8記載の装置。
(付記10)
前記画像傾き決定部は、前記光学文字識別部で順次に決定した前記文字の傾きに基づいて投票を行う投票ユニットをさらに備え、且つ、
前記画像傾き決定部は、得票数が最も多い傾きの票数と得票数第二位の傾きの票数との差が所定の閾値に達した場合、前記得票数が最も多い傾きを前記画像の傾きとし、投票の結果、前記票数の差が前記所定の閾値に達したものが検出されなかった場合、最終的に得票数の最も多い傾きを前記画像の傾きとする、
付記9記載の装置。
(付記11)
前記ノイズ除去部は、前記第一尺度の2値画像に基づいてテクスチャに基づく方法及び/又は2値投影法を用いて前記文字列の信頼度を推定し、信頼度が所定の水準より低い文字列をノイズとして除去する、
付記8記載の装置。
(付記12)
前記ノイズ除去部は、前記第二尺度の2値画像に基づいて2値投影法を用いて前記文字列の信頼度を推定し、信頼度が所定の水準より低い文字列をノイズとして除去する、
付記8記載の装置。
(付記13)
高さと幅の比が所定の閾値より大きい文字列の中からサイズが最も大きいN個の文字列を選ぶ文字列選別部をさらに備え、N≧1であり、且つ
前記画像処理装置は、前記文字列選別部が選出した文字列だけに対して前記第二尺度の2値画像に基づく処理を行う、
付記8〜12のいずれか記載の装置。
(付記14)
前記文字列検出部が水平文字列と垂直文字列が重なることを検出した場合に、前記第一尺度の2値画像に基づいて重なる領域のテキストブロックの傾きを検出するテキストブロックの傾き検出部をさらに備え、
前記ノイズ除去部は、重なる水平文字列と垂直文字列との中の、前記テキストブロックの傾きと一致しない文字列をノイズとして除去する、
付記8〜12のいずれか記載の装置。

Claims (10)

  1. 画像のオリジナル尺度より小さい第一尺度の2値画像を生成するステップと、
    前記第一尺度の2値画像に基づいて前記画像中の少なくとも1文字列を検出するステップと、
    前記画像の、前記第一尺度より大きい第二尺度の2値画像を生成するステップと、
    前記各文字列に対して、前記第一尺度の2値画像における対応部分と前記第二尺度の2値画像における対応部分との間の類似度を計算し類似度が所定の水準より低い文字列をノイズとして除去するステップと、
    前記文字列中の除去されていない1つ又は複数の文字列に対しその前記第二尺度の2値画像における対応部分に対して光学文字識別を行い、対応する文字列の文字の傾きを決定するステップと、
    前記文字の傾きに基づいて前記画像の傾きを決定するステップと、
    を含む画像処理方法。
  2. 前記文字の傾きを決定するステップの前に、
    前記第二尺度の2値画像に基づいて、以下の要素、
    文字列のサイズと、
    テクスチャによって決定した文字列の信頼度と、
    文字列のグレイレベル分散と、
    のうちの1つ又は複数に基づいて前記文字列の優先度を決めるステップをさらに含み、且つ、
    前記文字の傾きを確定するステップにおいて、前記優先度の順番に従って順次に前記文字列の文字の傾きを決定する、
    請求項1記載の方法。
  3. 前記文字の傾きに基づいて前記画像の傾きを決定するステップにおいて、
    前記優先度の順番に従って順次に決定した前記文字の傾きに基づいて投票を行い、且つ
    得票数が最も多い傾きの票数と得票数第二位の傾きの票数との差が所定の閾値に達した場合、得票数が最も多い傾きを前記画像の傾きとし、
    投票の結果、前記票数の差が前記所定の閾値に達したものが検出されなかった場合、最終的に得票数の最も多い傾きを前記画像の傾きとする、
    ことによって前記画像の傾きを決定する、
    請求項2記載の方法。
  4. 前記第一尺度の2値画像に基づいて文字列を検出するステップは、
    前記第一尺度の2値画像に対し、テクスチャに基づく方法及び/又は2値投影法を用いて前記文字列の信頼度を推定し、且つ信頼度が所定の水準より低い文字列をノイズとして除去することをさらに含む、
    請求項1記載の方法。
  5. 前記第二尺度の2値画像を生成するステップの後に、
    前記第二尺度の2値画像に基づいて、2値投影法を利用して前記文字列の信頼度を推定し、且つ信頼度が所定の水準より低い文字列をノイズとして除去するステップをさらに含む、
    請求項1記載の方法。
  6. 高さと幅の比が所定の閾値より大きい文字列の中からサイズが最も大きいN個の文字列だけに対して前記第二尺度の2値画像に基づくステップを実施し、N≧1である、
    請求項1乃至5のいずれか記載の方法。
  7. 前記第一尺度の2値画像に基づいて文字列を検出するステップは、
    前記第一尺度の2値画像に基づいて水平文字列と垂直文字列を検出し、及び、
    検出された水平文字列と垂直文字列が重なる場合に前記第一尺度の2値画像に基づいて重なる領域のテキストブロックの傾きを検出し、前記テキストブロックの傾きと一致しない文字列をノイズとして除去する、
    請求項1乃至5のいずれか記載の方法。
  8. 画像のオリジナル尺度より小さい第一尺度の2値画像を生成する第一尺度2値画像生成部と、
    前記第一尺度の2値画像に基づいて前記画像中の少なくとも1文字列を検出する文字列検出部と、
    前記第一尺度より大きい第二尺度の2値画像を生成する第二尺度2値画像生成部と、
    前記各文字列に対して、前記第一尺度の2値画像における対応部分と前記第二尺度の2値画像における対応部分との間の類似度を計算し類似度が所定の水準より低い文字列をノイズとして除去するノイズ除去部と、
    前記文字列中の除去されていない1つ又は複数の文字列に対しその前記第二尺度の2値画像における対応部分に対して光学文字識別を行い、対応する文字列の文字の傾きを決定する光学文字識別部と、
    前記文字の傾きに基づいて前記画像の傾きを決定する画像傾き決定部と、
    を備える画像処理装置。
  9. 前記第二尺度の2値画像に基づいて、
    文字列のサイズと、
    テクスチャによって決定した文字列の信頼度と
    文字列のグレイレベル分散と、
    のうちの1つ又は複数の要素に基づいて前記文字列の優先度を決める優先度決定部をさらに備え、且つ、
    前記光学文字識別部が前記優先度の順番に従って順次に前記文字列の文字の傾きを決定する、
    請求項8記載の装置。
  10. 前記画像傾き決定部は、前記光学文字識別部で順次に決定した前記文字の傾きに基づいて投票を行う投票ユニットをさらに備え、且つ、
    前記画像傾き決定部は、得票数が最も多い傾きの票数と得票数第二位の傾きの票数との差が所定の閾値に達した場合、前記得票数が最も多い傾きを前記画像の傾きとし、投票の結果、前記票数の差が前記所定の閾値に達したものが検出されなかった場合、最終的に得票数の最も多い傾きを前記画像の傾きとする、
    請求項9記載の装置。
JP2013095555A 2012-05-04 2013-04-30 画像処理方法及び装置 Active JP6075190B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210137925.1 2012-05-04
CN201210137925.1A CN103383732B (zh) 2012-05-04 2012-05-04 图像处理方法和装置

Publications (2)

Publication Number Publication Date
JP2013235581A JP2013235581A (ja) 2013-11-21
JP6075190B2 true JP6075190B2 (ja) 2017-02-08

Family

ID=48044555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013095555A Active JP6075190B2 (ja) 2012-05-04 2013-04-30 画像処理方法及び装置

Country Status (4)

Country Link
US (1) US9082181B2 (ja)
EP (1) EP2660753B1 (ja)
JP (1) JP6075190B2 (ja)
CN (1) CN103383732B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9355313B2 (en) * 2014-03-11 2016-05-31 Microsoft Technology Licensing, Llc Detecting and extracting image document components to create flow document
CN105678207A (zh) * 2014-11-19 2016-06-15 富士通株式会社 用于从给定图像中识别目标铭板图像的内容的装置和方法
US9524445B2 (en) * 2015-02-27 2016-12-20 Sharp Laboratories Of America, Inc. Methods and systems for suppressing non-document-boundary contours in an image
CN106485193A (zh) * 2015-09-02 2017-03-08 富士通株式会社 文档图像的方向检测装置及方法
CN105657252B (zh) * 2015-12-25 2018-01-02 青岛海信移动通信技术股份有限公司 一种移动终端中的图像处理方法和移动终端
CN106296682B (zh) * 2016-08-09 2019-05-21 北京好运到信息科技有限公司 用于医学图像中文本区域检测的方法及装置
CN108345827B (zh) * 2017-01-24 2021-11-30 富士通株式会社 识别文档方向的方法、系统和神经网络
CN109712132B (zh) * 2018-12-28 2021-03-19 中国科学院长春光学精密机械与物理研究所 一种使用电子器件计数装置自动筛选计数的方法
CN110648340B (zh) * 2019-09-29 2023-03-17 惠州学院 一种基于二进制及水平集处理图像的方法及装置
US11551461B2 (en) * 2020-04-10 2023-01-10 I.R.I.S. Text classification
CN112749694A (zh) * 2021-01-20 2021-05-04 中科云谷科技有限公司 用于识别图像方向、识别铭牌文字的方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056461A (ja) * 1991-06-28 1993-01-14 Sanyo Electric Co Ltd ノイズ除去方式
JPH08293000A (ja) * 1995-04-21 1996-11-05 Canon Inc 画像処理装置及び方法
US6151423A (en) * 1998-03-04 2000-11-21 Canon Kabushiki Kaisha Character recognition with document orientation determination
US7136082B2 (en) * 2002-01-25 2006-11-14 Xerox Corporation Method and apparatus to convert digital ink images for use in a structured text/graphics editor
US8200043B2 (en) 2008-05-01 2012-06-12 Xerox Corporation Page orientation detection based on selective character recognition
CN101727583B (zh) * 2008-10-22 2013-03-20 富士通株式会社 用于文档图像的自适应二值化方法和设备
CN101833648B (zh) 2009-03-13 2012-05-02 汉王科技股份有限公司 文本图像的校正方法
JP4707751B2 (ja) * 2009-05-21 2011-06-22 シャープ株式会社 画像圧縮方法、画像圧縮装置、画像形成装置、コンピュータプログラム及び記録媒体
CN102375988B (zh) 2010-08-17 2013-12-25 富士通株式会社 文件图像处理方法和设备
EP2774110A4 (en) * 2011-11-02 2015-07-29 Michael Theodor Hoffman SYSTEMS AND METHODS FOR DYNAMIC SYNTHESIS, TRADE AND DISTRIBUTION OF DIGITAL PRODUCTS

Also Published As

Publication number Publication date
EP2660753B1 (en) 2019-10-16
EP2660753A3 (en) 2014-09-24
JP2013235581A (ja) 2013-11-21
CN103383732B (zh) 2016-12-14
US20130294696A1 (en) 2013-11-07
US9082181B2 (en) 2015-07-14
CN103383732A (zh) 2013-11-06
EP2660753A2 (en) 2013-11-06

Similar Documents

Publication Publication Date Title
JP6075190B2 (ja) 画像処理方法及び装置
US9036905B2 (en) Training classifiers for deblurring images
JP4533836B2 (ja) 変動領域検出装置及びその方法
TW201447775A (zh) 資訊識別方法、設備和系統
US10748023B2 (en) Region-of-interest detection apparatus, region-of-interest detection method, and recording medium
JP5500024B2 (ja) 画像認識方法及び装置並びにプログラム
US8254690B2 (en) Information processing apparatus, information processing method, and program
JP5939056B2 (ja) 画像におけるテキスト領域を位置決めする方法及び装置
JP6277750B2 (ja) 画像処理装置及び方法
JP5706647B2 (ja) 情報処理装置、およびその処理方法
US8660302B2 (en) Apparatus and method for tracking target
JP6171167B2 (ja) 文字認識装置、文字認識方法、及び文字認識プログラム
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
JP5958101B2 (ja) 画像処理方法及び画像処理装置
CN111563505A (zh) 一种基于像素分割合并的文字检测方法及装置
US10643097B2 (en) Image processing apparatuses and non-transitory computer readable medium
JP2008011484A (ja) 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
JPWO2018025336A1 (ja) 劣化検出装置、劣化検出方法、及びプログラム
CN111259680A (zh) 二维码图像二值化处理方法及装置
US11647152B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JP6686460B2 (ja) 文書画像におけるマークの除去方法及び除去装置
JP5283267B2 (ja) コンテンツ識別方法及び装置
JP7473186B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP5691281B2 (ja) 文字認識装置、文字認識プログラム及び文字認識方法
KR20220168787A (ko) 만주어의 글자 추출 방법 및 이를 수행하는 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161226

R150 Certificate of patent or registration of utility model

Ref document number: 6075190

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350