JP4764903B2 - テキストマップの中からライン構造を検出する方法および画像処理装置 - Google Patents

テキストマップの中からライン構造を検出する方法および画像処理装置 Download PDF

Info

Publication number
JP4764903B2
JP4764903B2 JP2008159585A JP2008159585A JP4764903B2 JP 4764903 B2 JP4764903 B2 JP 4764903B2 JP 2008159585 A JP2008159585 A JP 2008159585A JP 2008159585 A JP2008159585 A JP 2008159585A JP 4764903 B2 JP4764903 B2 JP 4764903B2
Authority
JP
Japan
Prior art keywords
pixel
text
color
line
target pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008159585A
Other languages
English (en)
Other versions
JP2008310817A (ja
Inventor
マシュー スピーグル ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2008310817A publication Critical patent/JP2008310817A/ja
Application granted granted Critical
Publication of JP4764903B2 publication Critical patent/JP4764903B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本発明は、テキスト区分結果を修正する方法およびシステムに関するものである。
デジタル画像の内容は、当該デジタル画像の圧縮に対して、圧縮率及び圧縮による副作用(compression artifacts:アーチファクト)の点で大きな影響を与えるものである。画像の写真領域は、文字領域用に設計された圧縮アルゴリズムを用いて圧縮された場合、効率的に圧縮されない。同様に、文字画像は、写真領域用に設計され最適化された圧縮アルゴリズムを用いて圧縮された場合、効率的に圧縮されない。画像の特定の種別用に設計された圧縮アルゴリズムを他の種別の画像に用いた場合、圧縮率に悪影響があるだけでなく、伸張後の画像に圧縮による副作用(アーチファクト)が視認可能な状態で表れることがある。
さらに、文字をくっきりさせるために設計された画像強調アルゴリズムを写真画像に適用した場合、写真画像の中に、視認を悪化させるような作用を生じさせることもある。特に、文字に似たはっきりとしたエッジを含む写真領域がよりくっきりとなるように処理されることで、視覚的に悪い画像になってしまうことがある。スムージング処理は、自然画像を強調するものであり、文字領域に対して行われることはほとんどない。
デジタル画像において特定の種別の領域を検知し、当該特定の種別の領域に適した圧縮アルゴリズムや画像強調アルゴリズムを適宜組み合わせて用いることにより、圧縮率の改善、圧縮による副作用の低減、画像品質の向上を図ることができる。
特許文献1には、罫線と文字部分とが混在する画像から罫線を除去する方法において、次のような処理を行うことが記載されている。画像領域から黒ラン(横方向に黒画素が連続している部分)を検出し、検出した黒ランの位置を、縦方向の位置毎に横方向の始点と始点からの長さとからなるランレングステーブルを作成し、作成されたたランレングステーブルの中から、しきい値以上の長さの黒ランを選択し、これらの黒ランを画像上から除去する。次に、スキャナで読み取られた罫線部分の画像は、必ずしも直線的ではなく、エッジに凹凸部分が含まれるため、3×3のマスク処理を行うことでエッジ部の凹凸を消去する。
特開2000−322510
しかしながら、上記従来の構成では、 反転文字が含まれる原稿の場合、背景領域がラインと判定されて削除され、文字が消えるおそれがある。また、白黒2値画像を対象としているので、カラーの多値画像を2値化した場合(色地上にラインがあり、色は異なるがラインと下地の色の輝度がほぼ同じ場合)、ラインが消失するおそれがある。さらに、縦の罫線を消去する際、画像を回転させる必要がある。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、テキストマップからライン画素を精度よく検出することで、テキストマップがテキスト画素をより正確に示すことができる方法および画像処理装置を実現することにある。
本発明に係る方法は、上記課題を解決するために、テキストであると推定されるテキスト画素のマップを示すテキストマップの中からライン構造を検出する方法であって、a)上記テキストマップの中においてテキスト画素として示されている注目画素を特定する第1ステップと、b)上記注目画素に対応する色値である対象画素色値を取得する第2ステップと、c)上記対象画素色値が所定の色の制約条件を満たし、かつ、上記注目画素を含む第1領域におけるテキスト画素の特定方向の連続性が所定の連続条件を満たす場合に、上記注目画素をライン画素として特定する第3ステップと、を含むことを特徴とする。
また、本発明に係る画像処理装置は、テキストであると推定されるテキスト画素のマップを示すテキストマップの中からライン構造を検出する画像処理装置であって、a)上記テキストマップの中においてテキスト画素として示されている注目画素を特定する注目画素特定部と、b)上記注目画素に対応する色値である対象画素色値を取得する対象画素色値取得部と、c)上記対象画素色値が所定の色の制約条件を満たし、かつ、上記注目画素を含む第1領域におけるテキスト画素の特定方向の連続性が所定の連続条件を満たす場合に、上記注目画素をライン画素として特定するライン画素特定部と、を備えることを特徴とする。
上記の構成によれば、注目画素を含む第1領域におけるテキスト画素の特定方向の連続性が所定の連続条件を満たす場合だけでなく、対象画素色値が所定の色の制約条件を満たす場合に、上記注目画素をライン画素と特定する。つまり、色の情報を考慮してライン画素を特定している。これにより、ライン画素を精度良く検出することができる。その結果、ライン画素をテキストマップから除去することで、テキストマップがテキスト画素をより正確に示すことができる。
上記色の制約条件とは、例えば、上記対象画素色値および上記注目画素の周囲の背景の色値である背景色値に基づいた背景色に関する制約条件である。
そして、上記背景色の制約条件は、上記対象画素色値と上記背景色値との類似度に関する制約条件であることが好ましい。
より具体的には、上記第3ステップは、上記背景色値と上記対象画素色値との間の色の距離である第1距離を算出するステップと、上記第1距離が第1閾値より大きい場合に、上記背景色の制約条件を満たすと判断するステップと、を含むことが好ましい。
また、上記ライン画素特定部は、上記背景色値と上記対象画素色値との間の色の距離である第1距離を算出し、上記第1距離が第1閾値より大きい場合に、上記背景色の制約条件を満たすと判断することが好ましい。
背景色値と上記対象画素色値との間の色の距離である第1距離が第1閾値以下である場合とは、背景色と注目画素の色とが似ていることを意味し、注目画素が背景である可能性が高いことを示している。そのため、この注目画素はライン画素である可能性が低い。そこで、第1距離が第1閾値より大きい場合に、上記背景色の制約条件を満たすと判断することにより、背景である可能性が高い注目画素を誤ってライン画素として判断することを防止できる。
なお、上記第1距離は、L1ノルム、L2ノルム、ユークリッド距離、市街地距離、重み付けされた市街地距離、重み付けされたユークリッド距離の何れかであることが好ましい。
ここで、重み付けされた市街地距離とは、通常の市街地距離演算の軸毎に重み付けをして求めた距離である。例えば、通常の市街地距離は3次元の軸の場合ではD1=X+Y+Zと求めるが、重み付けされた市街地距離はD2=X*a+Y*b+Z*cと計算すればよい(a,b,cは重み係数)。同様に、重み付けされたユークリッド距離は、通常のユークリッド距離演算の軸毎に重み付けをして求めた距離である。
また、上記色の制約条件は、例えば、上記注目画素に近接する画素を含む第2領域における、特定方向での色の連続性に関する方向制約条件である。
そして、上記方向制約条件は、上記特定方向に配列された画素間の色の類似度に関する制約条件であることが好ましい。
より具体的には、上記第2領域は、上記注目画素に近接する複数の画素ペアを含み、各画素ペアは、上記特定方向に配列しており、上記第3ステップは、上記画素ペアの各々の画素の色値の間の色差を画素ペア色差として算出するステップと、少なくとも一つの画素ペア色差が第2閾値以下である場合に、上記方向制約条件を満たすと判断するステップと、を含むことが好ましい。
また、上記第2領域は、上記注目画素に近接する複数の画素ペアを含み、各画素ペアは、上記特定方向に配列しており、上記ライン画素特定部は、上記画素ペアの各々の画素の色値の間の色差を画素ペア色差として算出し、少なくとも一つの画素ペア色差が第2閾値以下である場合に、上記方向制約条件を満たすと判断することが好ましい。
例えば、縦方向のラインが存在する場合、当該ライン上では縦方向に沿って同じ色が連続することになる。そのため、第2領域内の特定方向に配列した画素ペア間の色差が第2閾値以下である場合、当該画素ペア間は似た色であることを意味している。そのため、特定方向に沿ってラインが存在している可能性が高い。よって、上記の構成によれば、ライン画素を精度よく検出することができる。
なお、上記画素ペア色差は、L1ノルム、L2ノルム、ユークリッド距離、市街地距離、重み付けされた市街地距離、重み付けされたユークリッド距離の何れかで表されることが好ましい。
なお、上記色の制約は、上記対象画素色値および上記注目画素の周囲の背景の色値である背景色値に基づいた背景色に関する制約条件、および、上記注目画素に近接する画素を含む第2領域における、特定方向での色の連続性に関する方向制約条件、の両方を含むことが好ましい。これにより、ライン画素を精度良く検出できる。
また、本発明の方法は、注目画素がライン画素として特定されると、テキストマップにおいて当該注目画素をテキストクラスに分類しないように変更するステップを含むことが好ましい。
また、本発明の画像処理装置は、注目画素がライン画素として特定されると、テキストマップにおいて当該注目画素をテキストクラスに分類しないように変更するテキストマップ補正部を備えることが好ましい。
これにより、テキストマップからライン画素が除去されることになり、テキストマップがテキスト画素を示す精度を向上させることができる。
なお、注目画素がライン画素として特定されると上記注目画素に対応するラインマップ上の画素を第1の値に設定することが好ましい。
これにより、精度の高いラインマップを作成することができる。
また、本発明の方法において、上記第3ステップは、上記第1領域から、テキスト画素が特定方向に連続している複数の画素である連続画素を抽出するステップと、上記連続画素の画素数が第3閾値以上である場合に、上記所定の連続条件を満たすと判断するステップと、を含むことが好ましい。
また、本発明の画像処理装置において、上記ライン画素特定部は、上記第1領域から、テキスト画素が特定方向に連続している複数の画素である連続画素を抽出し、上記連続画素の画素数が第3閾値以上である場合に、上記所定の連続条件を満たすと判断することが好ましい。
ここで、第3閾値として、テキストの長さよりも大きい長さを設定することができる。これにより、第3閾値以上の連続画素をライン画素として検出することができる。
本発明の構成によれば、テキストマップからライン画素を精度よく検出することで、テキストマップがテキスト画素をより正確に示すことができる方法および画像処理装置を実現することができる。
本発明は、テキストマップにおける非テキスト画像であるライン画素を検出し、当該非テキスト画素をテキストマップから除去する方法およびシステムに関するものである。本発明は、背景色に関する制限、方向に関する色の制限、および連続性に関する制限に基づいて、テキストマップにおけるライン画素を特定するものである。
本発明の実施形態は、図面を参照することでより理解されるであろう。図面では、同じ部材については同じ符号をつけている。
ここで、図に示されるように、本発明の構成は、様々な異なる形態に変形および設計されることができることが容易にわかるであろう。このように、以下に述べる、本発明の方法およびシステムの実施形態についてのより詳細な説明は、本発明の範囲を限定するものではなく、本発明の最良の形態を示したものにすぎない。
本発明の実施形態の構成は、ハードウェア、ファームウェアおよび/またはソフトウェアによって実現されてもよい。ここで述べる一実施形態はこれらの形態の1つについてのみ説明するものであり、本発明の範囲内において、各構成をこれらの形態の何れかで実現可能であることは、当業者にとって自明である。
本発明に係る、テキスト区分マップ(text segmentation map:以下、単にテキストマップとする)からライン画素および他の非テキスト画素を消去するための方法およびシステムの一実施形態について図1を参照しながら説明する。本実施形態では、まず、対応する画像データ4と背景色6とを用いて、テキストマップ2のラインを検出する(S10)。ライン検出処理の結果、ラインマップ12が出力される。そして、当該ラインマップ12、テキストマップ2、画像データ4および背景色6を用いて、テキストマップ2から非テキスト画素を除去した補正済テキストマップ16を生成する(S14)。
本実施形態では、テキストマップ2は、2値画像、配列、その他のデータ構造をとる。テキストマップにおける各画素の2値は、画像データ4の対応する画素がテキスト画素であるか否かを示す。テキストマップ2は、テキストのエッジ、テキストの内部、背景の変化、図形のエッジ、図形の内部、ラインのようなテキストと判断されるような形状のものや、画像データ4の高周波数のコンテンツの領域をテキスト画素として含めている場合がある。そのため、テキストマップ2から非テキスト画素を除去する必要がある。
なお、テキストマップ2は、多値画像、配列、または他のデータ構造をとってもよい。この場合、テキストマップ2の各画素の値は、デジタル画像データ4の対応する画素に対する確信度測定を示す値にすることができる。ここで、確信度測定は、対象となる画素がテキスト画素である確信度(信頼性)である。
なお、テキストマップ2と画像データ4とは、同じ空間解像度を有していてもよいし、異なる空間解像度を有していてもよい。
本実施形態では、画像データ4は、マルチチャンネルのカラー画像データである。典型的なマルチチャンネルの色空間には、RGB、CMYK、Yuv、L、Lab、XYZ、YIQ、その他のluma-chroma-chroma色空間など、公知の色空間がある。なお、画像データは、シングルチャンネルデータ(例えば、輝度データ)、結合マルチチャンネルデータ、マルチチャンネル表記からのシングルチャンネル(a single channel from a multi-channel representation)、公知のシングルチャンネル色空間であってもよい。
本実施形態では、ラインマップ12は、2値画像、配列、その他のデータ構造をとる。ラインマップにおける各画素の2値は、画像データ4の対応する画素がラインの一部である否かを示す。ラインマップ12は、縦ラインおよび横ラインのいずれのラインの一部であるかを示す情報を含んでいてもよい。
なお、ラインマップ12は、多値画像、配列、または他のデータ構造をとってもよい。この場合、ラインマップの各画素の値は、デジタル画像データ4の対応する画素に対する確信度測定を示す値にすることができる。確信度測定は、対象となる画素がライン画素である確信度(信頼性)である。
本実施形態について、図2を参照しながら説明する。テキストマップ2を確認することにより、当該テキストマップ2においてテキストとして特定された画素(テキスト画素)の縦方向のラン(テキスト画素が連続している部分)を特定する。これらの画素は、ラインマップ12においてライン画素として設定される。
本実施形態では、一組の縦方向ランカウンターが使用される。まず、縦方向ランカウンターは初期化される(S20)。例えば、各縦方向ランカウンターは0に初期化される。さらに、縦方向ランリセットカウンターが使用される。縦方向リセットカウンターは初期化される(S21)。例えば、縦方向ランリセットカウンターは0に初期化される。
ここで、一組の縦方向ランカウンターは、テキストマップ2の各列(カラム)に対応する複数のカウンターからなる。例えば、5100画素の巾のテキストマップ2の場合、5100個の縦方向ランカウンターを備える。列iに対応する縦方向ランカウンターをrunV[i]とする。一組の縦方向ランリセットカウンターは、テキストマップ2の各列に対応する複数のカウンターからなる。例えば、5100画素の巾のテキストマップ2の場合、5100個の縦方向ランリセットカウンターを備える。列iに対応する縦方向ランカウンターをrunV_reset[i]とする。
本実施形態では、閾値THRESH_V以上のランレングスを有する縦方向の連続テキスト画素群の一部に含まれる画素を、ラインマップ4においてライン画素としてラベル付けする。例えば、300dpi(dots per inch)の画像には、ランレングス0.5インチの連続テキスト画素群に対応する150画素が閾値THRESH_Vとして使用される。縦方向ランカウンターと縦方向ランリセットカウンターとを初期化した後(S20およびS21)、縦方向ランカウンターと縦方向ランリセットカウンターとは、テキストマップ2における最初のTHRESH_V行分について更新される(S22)。
本実施形態では、テキストマップ2のある列(例えば列k)の次の画素がテキスト画素である場合、当該列に対応する縦方向ランカウンターrunV[k]に1を加算する。また、注目画素がテキスト画素ではない場合、縦方向ランリセットカウンターrunV_reset[k]に縦方向ランカウンターの値runV[k]を設定し、縦方向ランカウンターrunV[k]を0にリセットする。なお、縦方向ランリセットカウンターは、積算値が最初のTHRESH_V個の行になったとき、更新されなくてもよい。
なお、ある列における縦方向ランカウンターは、当該列の行画素がテキスト画素である場合、もしくは、次のNGAPV個の画素のいずれかがテキスト画素である場合に、1加算されてもよい。ここで、NGAPVは整数である。この場合、縦方向のラインにおいて小さなギャップがある場合であっても、縦方向ランカウンターは1加算されることとなる。
縦方向ランカウンターおよび縦方向ランリセットカウンターは、テキストマップ2における最初のTHRESH_V個の行について更新された後(S22)、テキストマップ2の各行の画素について順次処理する(S23)。まずは、最初の行について処理される。S23の処理の詳細を、図3に基づいて説明する。
テキストマップ2の調査対象行の画素は、当該画素がテキスト画素か否かを判断するために調査される(S30)。テキストマップ2における画素値がテキスト画素でないことを示している場合(符号31の場合)、現在の調査対象行の次の画素が調査される(S32)。テキストマップ2の現在の調査対象行の画素値がテキスト画素であることを示している場合(符号33の場合)、当該画素位置に対応する縦方向ランカウンターが調査される。具体的には、縦方向ランカウンターの値がランレングス閾値THRESH_V以上であるか否かが判定される(S34)。縦方向ランカウンターの値がランレングス閾値THRESH_V以上である場合(符号35の場合)、対応する画素はラインマップ上でライン画素として設定される(S36)。縦方向ランカウンターの値がランレングス閾値THRESH_Vよりも小さい場合(符号38の場合)、当該画素位置における縦方向ランリセットカウンターが調査される。具体的には、縦方向ランリセットカウンターの値がランレングス閾値THRESH_V以上であるか否かが判定される(S39)。縦方向ランリセットカウンターの値がランレングス閾値THRESH_V以上である場合(符号40の場合)、対応する画素はラインマップ上でライン画素として設定される(S41)。そして、縦方向ランリセットカウンターの値は1だけ減算される(S42)。その後、現在の調査対象行の次の画素が調査される(S43)。縦方向ランリセットカウンターの値がランレングス閾値THRESH_Vよりも小さい場合(符号44の場合)、現在の調査対象行の次の画素が調査される(S45)。
現在の調査対象行での全ての画素について調査されると、縦方向ランカウンターおよび縦方向ランリセットカウンターへの積算対象となる、利用可能な調査対象行がさらに存在するかどうか判定される(S24)。対象となる調査対象行がさらに存在する場合(符号25の場合)、縦方向ランカウンターおよび縦方向ランリセットカウンターは次のTHRESH_V個分の行について更新される(S26)。
本実施形態では、更なる行について、ある列(例えば列k)の画素がテキスト画素である場合、当該列に対応する縦方向カウンターrunV[k]に1を加算する。また、注目画素がテキスト画素ではない場合、縦方向ランリセットカウンターrunV_reset[k]に縦方向ランカウンターの値runV[k]をセットし、縦方向ランカウンターrunV[k]を0にリセットする。
また、ある列における縦方向ランカウンターは、当該列の行画素がテキスト画素である場合、もしくは、次のNGAPV個の画素がテキスト画素である場合に、1加算されてもよい。ここで、NGAPVは整数である。この場合、縦方向のラインにおいて小さなギャップがある場合であっても、縦方向ランカウンターは1加算されることとなる。
そして、現在の調査対象行が1加算され(S27)、当該新たな調査対象行の画素について処理を行う(S23)。一方、利用可能な調査対象行が存在しない場合(符号28の場合)、残りの行について処理を行う。残りの各行についての処理は、上述した図3の処理に従って行われる。
このように、本実施形態の方法では、THRESH_V以上の連続した画素があれば、垂直ラインとみなすという処理を行う。そのために、連続した画素数をrunV[i]でカウントしている。
まず、最初の行からTHRESH_V行までは、絶対にラインが検出されないので、THRESH_V行まではカウントのみ行う。それ以降は、1行カウント処理を行う毎にTHRESH_Vに達しているかどうかを判定する。これを次の行がなくなるまで(つまり、最終行まで)行う。最初の行からTHRESH_V行まではカウントのみを行うことで、必要のない判定処理を省くことができる。
このような処理の場合、図12に示されるように、ライン検出とラインマップの生成の間にはTHRESH_V行分のディレイがある。そこで、ランリセットカウンターを用いて、THRESH_V以上連続した垂直画素があった場合、ラインマップにおけるその列のTHRESH_V行手前の行の位置に画素をライン画素として設定し、そこからrunV_reset[i]画素分だけ画素をライン画素として設定する。そしてrunV_reset[i]を1ずつ減算することで、検出された画素分の画素がライン画素として設定されたラインマップを生成することができる。
本実施形態では、テキストマップ2を確認することにより、当該テキストマップ2においてテキストとして特定された画素(テキスト画素)の横方向のラン(テキスト画素が連続している部分)を特定する。これらの画素は、ラインマップ12においてライン画素として設定される。テキストマップの各行の画素は、図4に示した流れに従って処理される。まず、横方向ランカウンターrunHが初期化される(S50)。例えば、横方向ランカウンターは0に初期化される。次に、横方向ランリセットカウンターrunH_resetが初期化される(S51)。例えば、横方向ランリセットカウンターは0に初期化される。
本実施形態では、閾値THRESH_H以上のランレングスを有する横方向の連続テキスト画素群の一部に含まれる画素を、ラインマップ4においてライン画素としてラベル付けする。例えば、300dpi(dots per inch)の画像には、0.5インチの長さの連続テキスト画素群に対応する150画素が閾値として使用される。横方向カウンターと横方向リセットカウンターとを初期化した後(S50およびS51)、横方向カウンターと横方向リセットカウンターとは、テキストマップ2の行における最初のTHRESH_H個の列分の画素について更新される(S52)。
本実施形態では、テキストマップ2のある行の次の画素がテキスト画素である場合、横方向カウンターrunH[k]に1を加算する。また、注目画素がテキスト画素ではない場合、横方向ランリセットカウンターrunH_reset[k]に横方向ランカウンターの値runH[k]をセットし、横方向ランカウンターrunH[k]を0にリセットする。なお、横方向ランリセットカウンターは、積算値が最初のTHRESH_H個の画素になったとき、更新されなくてもよい。
なお、ある行における横方向ランカウンターは、当該行の列画素がテキスト画素である場合、もしくは、次のNGAPV個の画素のいずれかがテキスト画素である場合に、1加算されてもよい。ここで、NGAPVは整数である。この場合、横方向のラインにおいて小さなギャップがある場合であっても、横方向ランカウンターは1加算されることとなる。
横方向カウンターおよび横方向リセットカウンターは、テキストマップ2における行の最初のTHRESH_V個の画素について更新された後(S52)、テキストマップ2の当該画素について順次処理する(S53)。まずは、最初の画素について処理される。S53の処理の詳細を、図5に基づいて説明する。
テキストマップ2の当該画素は、当該画素がテキスト画素か否かを判断するために調査される。テキストマップ2における画素値がテキスト画素でないことを示している場合(符号61の場合)、画素の処理を終了する(S62)。テキストマップ2の現在の調査対象列の画素値がテキスト画素であることを示している場合(符号63の場合)、当該画素位置に対応する横方向ランカウンターが調査される。具体的には、横方向ランカウンターの値がランレングス閾値THRESH_H以上であるか否かが判定される(S64)。横方向ランカウンターの値がランレングス閾値THRESH_H以上である場合(符号65の場合)、対応する画素がラインマップにおいてライン画素として設定される(S66)。そして、現在の画素の処理を終了する(S67)。横方向ランカウンターの値がランレングス閾値THRESH_Hよりも小さい場合(S68の場合)、横方向ランリセットカウンターが調査される。具体的には、横方向ランリセットカウンターの値がランレングス閾値THRESH_H以上であるか否かが判定される(S69)。横方向ランリセットカウンターの値がランレングス閾値THRESH_H以上である場合(符号70の場合)、対応する画素がラインマップにおいてライン画素として設定される(S71)。そして、横方向ランリセットカウンターの値を1減算し(S72)、この画素に対する処理を終了する(S73)。横方向ランリセットカウンターの値がランレングス閾値THRESH_Hよりも小さい場合(符号74の場合)も、この画素に対する処理を終了する(S75)。
現在の画素の処理が終了すると、横方向ランカウンターおよび横方向ランリセットカウンターに積算していない利用可能な別の画素がないか判断する(S54)。別の画素がある場合、横方向ランカウンターおよび横方向ランリセットカウンターを、当該画素について更新する(S56)。
本実施形態では、行の次の利用可能な画素がテキスト画素である場合、横方向ランカウンターに1加算する。テキスト画素でない場合、横方向ランリセットカウンターの値を横方向ランカウンターの値にセットする。その後、横方向ランカウンターの値を0にリセットする。
なお、横方向ランカウンターは、当該行の次の画素がテキスト画素である場合、もしくは、次のNGAPV個の画素のいずれかがテキスト画素である場合に、1加算されてもよい。ここで、NGAPVは整数である。この場合、横方向のラインにおいて小さなギャップがある場合であっても、横方向ランカウンターは1加算されることとなる。
現在の画素が1加算され(S57)、現在の画素が処理される(S53)。更なる利用可能な画素が存在しない場合(符号58の場合)、残りの画素が処理される(S59)。テキストマップ2の次の行について図4に従って処理される。
本実施形態では、図6に示されるように、上述したようなライン検出方法およびライン検出システムでの検出において、ラインであるのにラインではないと誤判別される数を低減するために、色情報の制約を適用する。
まず最初に、背景色の制約がテキストマップ2の注目画素に適用される(S80)。注目画素がテキスト画素であると特定されると、画像データ4において当該画素に対応する色値が、背景色6と比較される。
ここで、背景色は、各画素位置に対して推定されるものである。具体的には、画素位置での背景色の推定値として、当該画素位置を囲む領域内の非テキスト画素の色の代表値を求める。非テキスト画素は、テキストマップ2を用いることで特定される。複数の画素の色の代表値を求める具体的な方法としては、平均値、中央値、トリム平均値、重み平均値などを算出すればよい。
注目画素の色値が背景色6とほぼ同じである場合、注目画素がテキストマップ2から除去される。すなわち、注目画素がテキスト画素ではないとしてテキストマップ2を更新する。本実施形態において、注目画素の色値と背景色との比較は、色の距離(色差)を求めることにより判断される。典型的な色差は、L1ノルム(L1 norm)(L1基準)、L2ノルム(L2 norm)(L2基準)、luma-chroma-chroma色空間における色成分間の2次元市街地距離、3次元色空間の成分間の3次元市街地距離、ユークリッド距離、luma-chroma-chroma色空間における色成分間で重み付けされた2次元市街地距離、3次元色空間の成分間で重み付けされた3次元市街地距離、ユークリッド測定、Minkowski距離など公知の距離が含まれる。
ここでは、画像データ4における注目画素の色値と背景色6の色値との間の距離(第1距離)が所定の第1閾値以下である場合、注目画素の色と背景色6とがほぼ同じであると判断する。一方、注目画素の色値と背景色6の色値との間の距離が第1閾値よりも大きい場合、注目画素は背景ではないと判断する。
更新されたテキストマップ2においてテキスト画素として特定されると、方向に対する制約を加える(S84)。方向に対する制約とは、同じ色であると判定されているライン画素に制約を課す。縦方向の色の制約は、2×3のウィンドウを用いて実行される。このウィンドウの各列について、行に亘った色差が計算される。すなわち、2×3ウィンドウの各々上の画素と下の画素の色差を求める。横方向の色の制約は、3×2のウィンドウを用いて実行される。このウィンドウの各行について、列に亘った色差が計算される。すなわち、3×2ウィンドウの各々左の画素と右の画素の色差を求める。何れかの色差が閾値以下であるときはいつでも、注目画素の色は、ライン画素の色と同じであるとしてラベル付けされる。色の制約が満たされると、つまり、いずれかの色差が所定の第2閾値以下であるという条件を満たすと、更新されたテキストマップの画素が、ライン検知カウンターでカウントされる。
本実施形態では、テキストマップが事前処理され、色の制約を満たすテキストマップ画素を判定する。この場合、中間テキストマップが、縦方向および/または横方向のライン検出のために使用される。カウンターによってテキスト画素を積算する際、および、テキスト画素の連続性を検査する際に、色の制約を満たすか否かが判定される。
本実施形態では、縦方向のラインと横方向のラインとが別々の処理で検出される。なお、縦方向のラインと横方向のラインとは、横方向ラインの検出過程での1回の処理で検出されてもよい。
図7を参照して本実施形態について説明する。テキストマップ90の注目画素に、背景色の制約を加える(S93)。背景色の制約は、対応する画素の色値(カラーデータ)91と背景色92との間の距離に基づいている。具体的には、画素の色値91と背景色92との色差が所定閾値以下であるか否かを判定する。縦方向の色の制約は、注目画素の周囲の領域の画像の色値(カラーデータ)91に基づいて加えられる(S95)。同様に、横方向の色の制約は、注目画素の周囲の領域の画像の色値(カラーデータ)91に基づいて加えられる(S96)。縦方向のライン検出のために使用される縦方向カウンターは、色の制約結果に基づいて更新される(S97)。横方向ライン検出は、縦方向ライン検出閾値に基づいて遅れて行われる(S98)。これにより、与えられた画素でのライン検出処理(S99)は、横方向および縦方向の両方同時に行われる。結果のラインマップ100は、テキストマップ90からライン画素を除去するために使用される。
本実施形態では、ラインマップにおいてライン画素として特定された画素は、テキストマップから除去される。または、ラインマップから広げられたラインをテキストマップから除去してもよい。さらには、別の分類結果がテキストマップを補正するために使用されてもよい。
図8は、複数の分類結果がテキストマップを補正するために使用される典型的な例を示す。まず、テキストマップの画素は、テキスト画素としてラベル付けされるか否かを判定するために調査される(S110)。テキスト画素ではない場合(符号111の場合)、出力は非テキストラベルとなる(S112)。テキストマップにおいて画素がテキスト画素としてラベル付けされていると(符号113の場合)、補助テキストマップでの対応する画素が調査される(S114)。
ここで、補助テキストマップとは、例えば、エリア検出によって検出された低解像度(例えば、75dpi)のテキストマップである。この低解像度のテキストマップは、入力画像データからエッジ情報を抽出した後、抽出したエッジ情報を低解像度変換して、エッジにはさまれた間を埋めることで生成される。低解像度化を行うことに関しては、特開2008−67387に開示されているように公知の技術を用いればよい。具体的には、互いに重ならないn×nのブロックに分ける。そして、当該n×nのブロックを、当該n×nブロックに含まれる画素のビット値の合計で置き換えることで解像度の低減化が行われる。例えば、入力された600dpi(dots-per-inch)の1ビットマップについて、8×8の低減化処理(合計操作)を行うことにより、各合計値を示すための、6ビットを要求する0〜64の範囲のエントリーが可能な75dpiのマップが作り出される。
補助テキストマップにおいて画素が非テキスト画素としてラベル付けされていると(符号115の場合)、非テキスト画素のラベルを出力する。補助テキストマップにおいてテキスト画素としてラベル付けされていると(符号116の場合)、ラインマップでの対応する画素が調査される(S117)。ラインマップでの画素がライン画素としてラベル付けされていると(符号117の場合)、非テキストラベルを出力する。ラインマップでの画素が非ライン画素である場合(符号119の場合)、背景マップでの対応する画素が調査される(S120)。画素が背景画素ではない場合(符号121の場合)、テキストラベルが出力される(S122)。画素が背景画素である場合(符号123の場合)、ラインに近接しているかいなかが判断される(S124)。これは、当該画素と当該画素に最も近いライン画素との距離が所定閾値以下であるか否かにより判断される。つまり、所定閾値以下である場合、ラインに近いと判断され、所定閾値より大きい場合、ラインに近くないと判断される。ライン画素はラインマップにより特定できる。背景画素がラインに近い場合(符号125の場合)、非テキストラベルが出力される。背景画素がラインに近くない場合(符号126の場合)、テキストラベルが出力される。
本実施形態では、ラインマップに基づいてテキストマップからラインを除去した後、テキストマップの更なるフィルタリング処理を実行してもよい。更なるフィルタリング処理は、最初の処理の後に残るラインを除去する。本実施形態では、シングル画素幅のライン除去処理が使用される。
図9は、典型的な除去処理を示している。この実施形態では、注目画素を中心とする調査ウィンドウの中のテキスト画素の数がカウントされる(S130)。典型的な調査ウィンドウは、正方形ウィンドウ、長方形ウィンドウ、その他の形状の様々なサイズを有するウィンドウを含む。調査ウィンドウの中のテキスト画素の数(cnt)は、閾値と比較される(S131)。本実施形態では、閾値は例えば3である。テキスト画素の数が十分に大きい場合(例えば、閾値よりも大きい場合)(符号132の場合)、注目画素がテキスト画素としてラベル付けされる(S133)。テキスト画素の数が十分に大きくない場合(例えば、閾値以下である場合)(符号134の場合)、テキスト画素の数が閾値と比較される(S135)。テキスト画素の数が閾値と等しくない場合(符号136の場合)、注目画素は非テキスト画素としてラベル付けされる(S137)。テキスト画素の数が閾値と等しい場合(符号138の場合)、調査ウィンドウが少なくとも一つのパターンと比較される。サイズ3×3の正方形調査ウィンドウに対するパターン例を図10(A)−(D)に示す。これらのパターンでは、1で示される画素が一致し、xで示された画素のうちの1つだけが一致している場合に、パターンと一致していることになる。(A)−(D)の各々に3つのパターンが存在することになり、全部で12パターンと比較していることになる。いずれかのパターンが一致している場合(符号140の場合)、注目画素は非テキスト画素としてラベル付けされる(S137)。いずれのパターンも一致しない場合(符号141の場合)、注目画素はテキスト画素としてラベル付けされる(S133)。
図9に示されるようなウィンドウ操作が実行され、各ノイズパターンが明確に示されるバイナリーフィルターへのルックアップ操作として実行される。
なお、初期のラインマップのシーズ画素に接続した全ての4方向または8方向の画素を除去してもよい。初期のテキストマップの膨張特性を調整することで、積極的なフィルタリングのレベルを決定することができる。
本実施形態において、テキストマップおよびラインマップは同じ解像度であってもよいし、テキストマップよりもラインマップの解像度を小さくしてもよい。これにより計算の負荷を軽減できる。例えば、300dpiのテキストマップに対して75dpiのラインマップに基づいた除去処理は、5×5の構造要素を用いて300dpiのラインマップを膨張させるのと同じ結果を生じる。
なお、上記のテキストマップの補正処理、つまり、ライン画素のような非テキスト画素を除去する処理は、画像処理装置で実行される。図11は、本実施形態に係る画像処理装置の構成を示すブロック図である。
図11に示されるように、画像処理装置1000は、注目画素特定部1001と、対象画素色値取得部1002と、ライン画素特定部1003と、テキストマップ補正部1004とを備える。
注目画素特定部1001は、テキストマップを取得し、当該テキストマップの中から注目画素を選択するものである。注目画素特定部1001は、外部の装置からテキストマップを取得してもよい、画像処理装置1000内の図示しないテキストマップ生成部から取得してもよい。
テキストマップは、テキストの特徴構成(例えばエッジなど)を抽出し、抽出した特徴構成を含む画素をテキスト画素として示されたマップである。このようなテキストマップは従来の方法により生成される。ただし、このようなテキストマップにおいてテキスト画素として特定されている画素であっても、実際にはテキストではない場合がある。例えば、ラインや、変化を有する背景なども誤ってテキスト画素として抽出されている場合がある。本発明は、このような誤った画素をなるべく減らし、精度の高いテキストマップを生成することにより、テキストの再現性を向上させることを目的としている。
注目画素特定部1001は、テキストマップの中から、テキスト画素として特定されている画素を順番に選択していく。
対象画素色値取得部1002は、オリジナルの画像データを取得し、当該画像データの中から注目画素特定部1001によって特定された注目画素に対応する色値を対象画素色値として読み出すものである。画像データは、例えば、スキャナで読まれた画像データや、外部の情報処理装置から送信された画像データである。
ライン画素特定部1003は、対象画素色値が所定の色の制約条件を満たし、かつ、注目画素を含む第1領域におけるテキスト画素の特定方向の連続性が所定の連続条件を満たす場合に、上記注目画素をライン画素として特定するものである。
所定の色の制約条件としては、背景色の制約条件および方向に関する色の制約である方向制約条件があり、これら両方、または、少なくとも一方を満たす場合に、上記所定の色の制約条件を満たすと判断する。
具体的には、ライン画素特定部1003は、対象画素色値と注目画素の周囲の背景色値との間の距離である第1距離を算出し、上記第1距離が第1閾値より大きい場合に、上記背景色の制約条件を満たすと判断する。
また、注目画素を含む第2領域であって、特定方向(縦または横方向)に配列した画素ペアを複数含む第2領域を設定する。そして、ライン画素特定部1003は、画素ペアの各々の画素の色値の間の色差を画素ペア色差として算出し、少なくとも一つの画素ペア色差が第2閾値以下である場合に、上記方向制約条件を満たすと判断する。
また、テキスト画素が特定方向(縦または横方向)に連続している複数の画素である連続画素を抽出し、上記連続画素の画素数が第3閾値以上である場合に、上記所定の連続条件を満たすとする。なお、わずかなギャップを挟んでテキスト画素が連続している場合であっても、上記所定の連続条件を満たすと判断してもよい。
テキストマップ補正部1004は、ライン画素と特定された画素をテキストマップから除去し、補正後テキストマップを出力するものである。
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
最後に、画像処理装置の各ブロック、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、画像処理装置は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである画像処理装置の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記画像処理装置に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、画像処理装置を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
テキストマップから非テキスト画素を除去する処理の流れを示すフローチャートである。 テキストマップにおいて縦方向のラインを検出する処理の流れを示すフローチャートである。 ランカウンターとランリセットカウンターをと用いた縦方向ランの検出処理の流れを示すフローチャートである。 テキストマップにおいて横方向のラインを検出する処理の流れを示すフローチャートである。 ランカウンターとランリセットカウンターをと用いた横方向ランの検出処理の流れを示すフローチャートである。 ライン検出の前に背景色の制約および方向に関する制約を加えたときの処理の流れを示すフローチャートである。 色の制約を加えたライン検出の処理の流れを示すフローチャートである。 テキストマップから非テキスト画素を除去する処理の流れを示すフローチャートである。 ノイズ除去の処理の流れを示すフローチャートである。 (A)〜(D)は、ノイズ除去のためのパターンを示す図である。 画像処理装置の構成を示すブロック図である。 ラインマップの作成を示す説明図である。
符号の説明
1000 画像処理装置
1001 注目画素特定部
1002 対象画素色値取得部
1003 ライン画素特定部
1004 テキストマップ補正部

Claims (18)

  1. テキストであると推定されるテキスト画素のマップを示すテキストマップの中からライン構造を検出する方法であって、
    a)上記テキストマップの中においてテキスト画素として示されている注目画素を特定する第1ステップと、
    b)上記注目画素に対応する色値である対象画素色値を取得する第2ステップと、
    c)上記対象画素色値が所定の色の制約条件を満たし、かつ、上記注目画素を含む第1領域におけるテキスト画素の特定方向の連続性が所定の連続条件を満たす場合に、上記注目画素をライン画素として特定する第3ステップとを含み、
    上記色の制約条件は、上記注目画素に近接する画素を含む第2領域における、特定方向での色の連続性に関する方向制約条件であり、
    上記方向制約条件は、上記特定方向に配列された画素間の色の類似度に関する制約条件であり、
    上記第2領域は、上記注目画素に近接する複数の画素ペアを含み、各画素ペアは、上記特定方向に配列しており、
    上記第3ステップは、上記画素ペアの各々の画素の色値の間の色差を画素ペア色差として算出するステップと、少なくとも一つの画素ペア色差が第2閾値以下である場合に上記方向制約条件を満たすと判断するステップとを含むことを特徴とする方法。
  2. 上記色の制約条件は、上記方向制約条件と、上記対象画素色値および上記注目画素の周囲の背景の色値である背景色値に基づいた背景色に関する制約条件との両方を含むことを特徴とする請求項1に記載の方法。
  3. 上記背景色に関する制約条件は、上記対象画素色値と上記背景色値との類似度に関する制約条件であることを特徴とする請求項2に記載の方法。
  4. 上記第3ステップは、
    上記背景色値と上記対象画素色値との間の色の距離である第1距離を算出するステップと、
    上記第1距離が第1閾値より大きい場合に、上記背景色に関する制約条件を満たすと判断するステップと、
    を含むことを特徴とする請求項3に記載の方法。
  5. 上記第1距離は、L1ノルム、L2ノルム、ユークリッド距離、市街地距離、重み付けされた市街地距離、重み付けされたユークリッド距離の何れかであることを特徴とする請求項4に記載の方法。
  6. 上記画素ペア色差は、L1ノルム、L2ノルム、ユークリッド距離、市街地距離、重み付けされた市街地距離、重み付けされたユークリッド距離の何れかで表されることを特徴とする請求項1に記載の方法。
  7. 注目画素がライン画素として特定されると、テキストマップにおいて当該注目画素をテキストクラスに分類しないように変更するステップを含むことを特徴とする請求項1からの何れか1項に記載の方法。
  8. 上記第3ステップにおいて、注目画素がライン画素として特定されると、上記注目画素に対応するラインマップ上の画素を第1の値に設定することを特徴とする請求項1に記載の方法。
  9. 上記第3ステップは、
    上記第1領域から、テキスト画素が特定方向に連続している複数の画素である連続画素を抽出するステップと、
    上記連続画素の画素数が第3閾値以上である場合に、上記所定の連続条件を満たすと判断するステップと、
    を含むことを特徴とする請求項1に記載の方法。
  10. テキストであると推定されるテキスト画素のマップを示すテキストマップの中からライン構造を検出する画像処理装置であって、
    a)上記テキストマップの中においてテキスト画素として示されている注目画素を特定する注目画素特定部と、
    b)上記注目画素に対応する色値である対象画素色値を取得する対象画素色値取得部と、
    c)上記対象画素色値が所定の色の制約条件を満たし、かつ、上記注目画素を含む第1領域におけるテキスト画素の特定方向の連続性が所定の連続条件を満たす場合に、上記注目画素をライン画素として特定するライン画素特定部とを備え、
    上記色の制約条件は、上記注目画素に近接する画素を含む第2領域における、特定方向での色の連続性に関する方向制約条件であり、
    上記方向制約条件は、上記特定方向に配列された画素間の色の類似度に関する制約条件であり、
    上記第2領域は、上記注目画素に近接する複数の画素ペアを含み、各画素ペアは、上記特定方向に配列しており、
    上記ライン画素特定部は、上記画素ペアの各々の画素の色値の間の色差を画素ペア色差として算出し、少なくとも一つの画素ペア色差が第2閾値以下である場合に、上記方向制約条件を満たすと判断することを特徴とする画像処理装置。
  11. 上記色の制約条件は、上記方向制約条件と、上記対象画素色値および上記注目画素の周囲の背景の色値である背景色値に基づいた背景色に関する制約条件との両方を含むことを特徴とする請求項10に記載の画像処理装置。
  12. 上記背景色に関する制約条件は、上記対象画素色値と上記背景色値との類似度に関する制約条件であることを特徴とする請求項11に記載の画像処理装置。
  13. 上記ライン画素特定部は、上記背景色値と上記対象画素色値との間の色の距離である第1距離を算出し、上記第1距離が第1閾値より大きい場合に、上記背景色の制約条件を満たすと判断することを特徴とする請求項12に記載の画像処理装置。
  14. 上記第1距離は、L1ノルム、L2ノルム、ユークリッド距離、市街地距離、重み付けされた市街地距離、重み付けされたユークリッド距離の何れかであることを特徴とする請求項13に記載の画像処理装置。
  15. 上記画素ペア色差は、L1ノルム、L2ノルム、ユークリッド距離、市街地距離、重み付けされた市街地距離、重み付けされたユークリッド距離の何れかで表されることを特徴とする請求項10に記載の画像処理装置。
  16. 注目画素がライン画素として特定されると、テキストマップにおいて当該注目画素をテキストクラスに分類しないように変更するテキストマップ補正部を備えることを特徴とする請求項10から15の何れか1項に記載の画像処理装置。
  17. 上記ライン画素特定部は、注目画素をライン画素として特定すると、上記注目画素に対応するラインマップ上の画素を第1の値に設定することを特徴とする請求項10に記載の画像処理装置。
  18. 上記ライン画素特定部は、上記第1領域から、テキスト画素が特定方向に連続している複数の画素である連続画素を抽出し、上記連続画素の画素数が第3閾値以上である場合に、上記所定の連続条件を満たすと判断することを特徴とする請求項10に記載の画像処理装置。
JP2008159585A 2007-06-18 2008-06-18 テキストマップの中からライン構造を検出する方法および画像処理装置 Active JP4764903B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/764,733 2007-06-18
US11/764,733 US8000535B2 (en) 2007-06-18 2007-06-18 Methods and systems for refining text segmentation results

Publications (2)

Publication Number Publication Date
JP2008310817A JP2008310817A (ja) 2008-12-25
JP4764903B2 true JP4764903B2 (ja) 2011-09-07

Family

ID=40132365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008159585A Active JP4764903B2 (ja) 2007-06-18 2008-06-18 テキストマップの中からライン構造を検出する方法および画像処理装置

Country Status (2)

Country Link
US (1) US8000535B2 (ja)
JP (1) JP4764903B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129409B2 (en) * 2009-07-29 2015-09-08 Qualcomm Incorporated System and method of compressing video content
JP5036844B2 (ja) * 2010-04-15 2012-09-26 シャープ株式会社 画像圧縮装置、画像出力装置、画像読取装置、画像圧縮方法、コンピュータプログラム及び記録媒体
US9520102B2 (en) * 2013-04-29 2016-12-13 International Business Machines Corporation Text extraction from graphical user interface content
CN107292302B (zh) * 2016-03-31 2021-05-14 阿里巴巴(中国)有限公司 检测图片中兴趣点的方法和系统
US10068132B2 (en) 2016-05-25 2018-09-04 Ebay Inc. Document optical character recognition
US9993385B2 (en) 2016-09-21 2018-06-12 International Business Machines Corporation Visual health maintenance and improvement
CN108470350B (zh) * 2018-02-26 2021-08-24 阿博茨德(北京)科技有限公司 折线图中的折线分割方法及装置
CN116701637B (zh) * 2023-06-29 2024-03-08 中南大学 一种基于clip的零样本文本分类方法、系统及介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4020462A (en) 1975-12-08 1977-04-26 International Business Machines Corporation Method and apparatus for form removal from contour compressed image data
JPS5534790A (en) 1978-09-05 1980-03-11 Fuji Photo Film Co Ltd Ruled line generation method
US4292622A (en) 1980-02-21 1981-09-29 Hendrix Electronics, Inc. System and method for processing horizontal line characteristics in an image
JPS57150075A (en) 1981-03-12 1982-09-16 Fuji Xerox Co Ltd Square figure recognizing device
JPS6115284A (ja) 1984-06-29 1986-01-23 Toshiba Corp 光学的文字読取装置
JPS63155386A (ja) 1986-12-19 1988-06-28 Ricoh Co Ltd 帳票デ−タ読取装置
US4949392A (en) 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US4901365A (en) 1988-12-19 1990-02-13 Ncr Corporation Method of searching binary images to find search regions in which straight lines may be found
JP2940936B2 (ja) 1989-06-06 1999-08-25 株式会社リコー 表領域識別方法
JPH0316377A (ja) 1989-06-14 1991-01-24 Kokusai Denshin Denwa Co Ltd <Kdd> 2値画像の縮小方法及び装置
US5048096A (en) 1989-12-01 1991-09-10 Eastman Kodak Company Bi-tonal image non-text matter removal with run length and connected component analysis
JPH03204245A (ja) * 1989-12-29 1991-09-05 Matsushita Electric Ind Co Ltd 双方向音声連絡通信装置
US5191612A (en) 1990-03-13 1993-03-02 Fujitsu Limited Character recognition system
JPH0772861B2 (ja) 1990-08-24 1995-08-02 富士ゼロックス株式会社 プログラム作成装置
JP3427554B2 (ja) 1995-03-01 2003-07-22 オムロン株式会社 画像処理装置及び方法
JP3345224B2 (ja) 1995-03-06 2002-11-18 富士通株式会社 パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
US6056480A (en) * 1995-04-20 2000-05-02 Kolk; Theodor Support for underground mining and tunnel construction
JPH0997309A (ja) 1995-09-28 1997-04-08 Glory Ltd 文字抽出装置
US5898795A (en) 1995-12-08 1999-04-27 Ricoh Company, Ltd. Character recognition method using a method for deleting ruled lines
JP3830998B2 (ja) 1995-12-28 2006-10-11 株式会社東芝 罫線除去方法及びこれを用いた文字認識装置
JP3615333B2 (ja) 1996-12-05 2005-02-02 株式会社リコー 罫線消去装置
JP3411472B2 (ja) 1997-05-30 2003-06-03 富士通株式会社 パターン抽出装置
JP3204245B2 (ja) 1999-04-27 2001-09-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 罫線除去方法および装置
JP2001060247A (ja) * 1999-06-14 2001-03-06 Fuji Xerox Co Ltd 画像処理装置および画像処理方法
JP4228515B2 (ja) 2000-04-25 2009-02-25 沖電気工業株式会社 画像処理装置
NL1015943C2 (nl) * 2000-08-16 2002-02-19 Ocu Technologies B V Interpretatie van gekleurde documenten.
US6873436B1 (en) 2000-09-05 2005-03-29 Fuji Xerox Co., Ltd. Image processing device and recording medium
JP2002175532A (ja) 2000-12-08 2002-06-21 Fuji Xerox Co Ltd 画像処理装置、画像処理方法および画像処理プログラムを記録した記憶媒体
JP2004145634A (ja) 2002-10-24 2004-05-20 Toshiba Tec Corp 画像処理装置及び画像処理方法
JP4603807B2 (ja) * 2004-03-10 2010-12-22 富士通株式会社 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体
US7856142B2 (en) * 2007-01-26 2010-12-21 Sharp Laboratories Of America, Inc. Methods and systems for detecting character content in a digital image
US8280157B2 (en) * 2007-02-27 2012-10-02 Sharp Laboratories Of America, Inc. Methods and systems for refining text detection in a digital image

Also Published As

Publication number Publication date
JP2008310817A (ja) 2008-12-25
US8000535B2 (en) 2011-08-16
US20080310685A1 (en) 2008-12-18

Similar Documents

Publication Publication Date Title
JP4764903B2 (ja) テキストマップの中からライン構造を検出する方法および画像処理装置
US10455117B2 (en) Image processing apparatus, method, and storage medium
JP4568460B2 (ja) 画像処理装置及び記録媒体
JP4498422B2 (ja) 画素の分類方法および画像処理装置
JP4745296B2 (ja) デジタル画像の領域分離方法および領域分離システム
JP4568459B2 (ja) 画像処理装置及び記録媒体
US7411699B2 (en) Method and apparatus to enhance digital image quality
JP2009535899A (ja) 走査されたカラー画像からの複調画像の生成
US20130058569A1 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
JP4522468B2 (ja) 画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体
JP3576810B2 (ja) 画像処理装置
JP5337563B2 (ja) 帳票認識方法および装置
KR20080006112A (ko) 경계 영역의 선명도를 개선하는 하프토닝 방법 및 장치
JP5870745B2 (ja) 画像処理装置、二値化閾値算出方法及びコンピュータプログラム
JP2008211802A (ja) デジタル画像の画素を分類する方法およびシステム
JP4140519B2 (ja) 画像処理装置、プログラムおよび記録媒体
JP4649498B2 (ja) 画像データの色補正方法及びシステム
KR100513784B1 (ko) 영상 개선 방법 및 장치
JP6370080B2 (ja) 画像処理装置、画像処理方法及びプログラム。
JP4771428B2 (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP4132766B2 (ja) 画像処理装置および方法
JP4010440B2 (ja) 影検出を伴う画像処理装置
JP4545165B2 (ja) 画像処理装置、画像形成装置、万線領域特定方法、原稿種別判別方法、コンピュータプログラム及び記録媒体
JP3966448B2 (ja) 画像処理装置、画像処理方法、該方法を実行するプログラムおよび該プログラムを記録した記録媒体
JPH05284356A (ja) 画像情報2値化方法および画像情報2値化

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110517

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110613

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4764903

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150