JP2008263575A - グラフィックと文字を分離する方法並び文字を強化する方法 - Google Patents
グラフィックと文字を分離する方法並び文字を強化する方法 Download PDFInfo
- Publication number
- JP2008263575A JP2008263575A JP2007158915A JP2007158915A JP2008263575A JP 2008263575 A JP2008263575 A JP 2008263575A JP 2007158915 A JP2007158915 A JP 2007158915A JP 2007158915 A JP2007158915 A JP 2007158915A JP 2008263575 A JP2008263575 A JP 2008263575A
- Authority
- JP
- Japan
- Prior art keywords
- segment
- graphic
- pixel
- character
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Facsimile Image Signal Circuits (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
【課題】グラフィックと文字を分離する方法並び文字を強化する方法を提供する。
【解決手段】グラフィックと文字の分離方法はイメージにおけるグラフィック部と文字部を分離するのに用いられ、それは初期分類工程、中階段の分類工程、グラフィックでの文字の検知工程を含む。同時に、前記グラフィックと文字の分離方法に対して文字部に輝度調整を行い、前記文字部のイメージを強化する。
【選択図】図2A
【解決手段】グラフィックと文字の分離方法はイメージにおけるグラフィック部と文字部を分離するのに用いられ、それは初期分類工程、中階段の分類工程、グラフィックでの文字の検知工程を含む。同時に、前記グラフィックと文字の分離方法に対して文字部に輝度調整を行い、前記文字部のイメージを強化する。
【選択図】図2A
Description
本発明はグラフィックと文字を分離する方法並び文字を強化する方法に関するものである。
マルチ機能事務機は現在常用されているデジタルイメージ処理装置で、イメージスキャン及びプリント等の機能を提供している。マルチ機能事務機において、グラフィックと文字の分離及び文字の強化処理はよく使用されているイメージ処理技術である。
一般の文書イメージの多くはグラフィックと文字の二つの部分を含み、グラフィックと文字を分離する技術は更なる処理をするためにイメージにおけるグラフィックと文字を識別することができる。例えば、グラフィックと文字の分離処理を行なっていない状況において、文書をプリントする場合、プリンターは多種類のカラーで構成されたカラーインクカートリッジで文書イメージ全体をプリントする。即ち、たとえ文字部分であってもカラーインクカートリッジを使用するので、インクの使用効率から言えば、多種類のカラーで構成されたカラーインクカートリッジで黒色の文字をプリントするとインクの浪費を招くこととなる。しかし、グラフィックと文字の分離処理を行なっている状況では、プリンターはカラーインクカートリッジでグラフィック部分をプリントし、黒色のインクカートリッジで文字部分をプリントするので、インクの浪費となることはない。
従来のグラフィックと文字の分離処理は色調の調整方法、エッジ検知方法及び色度と輝度の検知方法等を含む。これら従来のグラフィックと文字の分離方法は文書イメージに対して分類を行なっておらず、単一の処理方法で文書全体に処理を行なっている。イメージに対して分類処理を行なっていない状況で行なったグラフィックと文字の分離処理では良好な効果をもたらすことができない。例えば、色調の調整方法は文書全体の色調を調整することで、文書全体の明るいイメージを更に明るく調整し、黒のイメージをさらに黒く調整するようにして、グラフィックと文字の分離目的を果たす。しかし同一の色調でグラフィック部分と文字部分を処理するので文書全体の色調に良くない影響を及ぼし勝ちになる。
このほか、エッジ検知方法は文書イメージのノイズとグラフィックを文字と認識し易いので、誤った検知結果を導いてしまう。また、色度と輝度で行なったグラフィックと文字の分離方法は低色度若しくは無彩色度のグラフィックに対して間違った判断状況を招きやすくなる。
文字を強化する目的は文字のイメージをさらに鮮明にすることである。従来の文字を強化する方法は文書におけるグラフィックと文字を分離しておらず、文書全体のイメージ輝度を調整することで文字イメージを浮き上がらせる目的を果たす。しかしこの様な調整方法では文書におけるグラフィックが元々の色調を失ってしまう。
本発明の主な目的は、文書イメージゾーンを複数のイメージセグメントに分けると共に、各セグメントのタイプを判断することにより精確なグラフィックと文字の分離結果を達成するためのグラフィックと文字を分離する方法を提供することにある。
本発明の別の目的は、まずグラフィックと文字の分離処理をして、グラフィックと文字を識別し、良好な文字強化の効果を達成するために文字部分に対して強化処理をするための文字を強化する方法を提供することにある。
本発明はイメージに含まれるグラフィック部と文字部を分離するためのグラフィックと文字を分離する方法を提供し、それには
a1 前記イメージを複数列に分けると共に、各前記列を複数セグメントに分け、各前記セグメントは複数の画素を含む工程と、
a2 前記複数セグメントをグラフィックセグメント、白色セグメント、黒色セグメント、メッシュドットセグメント、セミメッシュドットセグメント及び未定義セグメントに分ける工程と、
a3 各前記セグメントの輝度の転移数を演算し、前記セグメントが転移セグメントかグラフィックでの文字セグメントかを判断する工程を含む(a)初期分類工程と、
b1 前記未定義タイプセグメントが文字セグメントか否かを判断する工程と、
b2 前記複数セグメントを複数ブロックに分割し、各前記ブロックはさらにJ×K個のセグメントを含み、各前記ブロックに含まれたセグメントタイプの数により各前記ブロックがグラフィックブロック、背景ブロックまたは非グラフィックブロックであることを決める工程と、
b3 各前記ブロック内のセグメント属性を補正する工程と、
b4 非グラフィックブロックの両側に隣接するブロックの属性によって前記非グラフィックブロックをグラフィックブロックに補正するか否かを判断する工程を含む(b)中階段の分類工程と、
グラフィックでの文字セグメントを主として他のブロック範囲を決め、前記他のブロック範囲はL×M個のセグメントを含むと共に前記他のブロック範囲に含まれたグラフィックでの文字セグメントの数によって前記他のブロック範囲内の転移セグメントをグラフィックでの文字セグメントに、又は前記他のブロック範囲内のグラフィックでの文字セグメントをグラフィックセグメントに補正する否かを判断する(c)グラフィックでの文字の検知工程を含む。
a1 前記イメージを複数列に分けると共に、各前記列を複数セグメントに分け、各前記セグメントは複数の画素を含む工程と、
a2 前記複数セグメントをグラフィックセグメント、白色セグメント、黒色セグメント、メッシュドットセグメント、セミメッシュドットセグメント及び未定義セグメントに分ける工程と、
a3 各前記セグメントの輝度の転移数を演算し、前記セグメントが転移セグメントかグラフィックでの文字セグメントかを判断する工程を含む(a)初期分類工程と、
b1 前記未定義タイプセグメントが文字セグメントか否かを判断する工程と、
b2 前記複数セグメントを複数ブロックに分割し、各前記ブロックはさらにJ×K個のセグメントを含み、各前記ブロックに含まれたセグメントタイプの数により各前記ブロックがグラフィックブロック、背景ブロックまたは非グラフィックブロックであることを決める工程と、
b3 各前記ブロック内のセグメント属性を補正する工程と、
b4 非グラフィックブロックの両側に隣接するブロックの属性によって前記非グラフィックブロックをグラフィックブロックに補正するか否かを判断する工程を含む(b)中階段の分類工程と、
グラフィックでの文字セグメントを主として他のブロック範囲を決め、前記他のブロック範囲はL×M個のセグメントを含むと共に前記他のブロック範囲に含まれたグラフィックでの文字セグメントの数によって前記他のブロック範囲内の転移セグメントをグラフィックでの文字セグメントに、又は前記他のブロック範囲内のグラフィックでの文字セグメントをグラフィックセグメントに補正する否かを判断する(c)グラフィックでの文字の検知工程を含む。
最適例として、前記a2工程において色度統計、輝度統計、メッシュドット検知及びエッジ検知により前記セグメントが属するタイプを決める。
最適例として、前記色度統計は前記各セグメントの各画素を高度色度画素、中度色度画素或いは低度色度画素に分類する工程と前記画素がグラフィック画素であるか否かを決める工程を含む。
最適例として、前記イメージにおける各画素は以下の方法により高度色度画素、中度色度画素或いは低度色度画素に区分される。それは前記画素を主として、前記画素のM×Nマトリックスからなる周辺範囲内に含まれた複数画素の各画素の色度と輝度を演算する工程と、前記色度と輝度によって前記周辺範囲内の前記複数画素を高度色度画素、中度色度画素或いは低度色度画素に分類する工程と、前記周辺範囲内の画素に含まれた高度色度画素数或いは中度色度画素数によって前記画素が前記グラフィック画素に属するか否かを決める工程である。
最適例として、各前記セグメントに含まれた前記イメージ画素数によって前記セグメントがグラフィックセグメントであるか否かを決める。
最適例として、前記輝度統計は前記イメージ画素の輝度データにより前記イメージの各画素を白色画素、グレー画素或いは黒色画素に分類することを含む。
最適例として、前記画素は以下の方法により白色画素、グレー画素或いは黒色画素に分類される。それは前記画素を主として、前記画素の前記周辺範囲内に含まれた複数画素の各画素の輝度を演算する工程と、前記輝度によって前記周辺範囲内の前記複数画素を白色画素、グレー画素或いは黒色画素に分類する工程と、前記周辺範囲内の画素に含まれた白色画素、グレー画素或いは黒色画素の数によって前記画素が白色画素、グレー画素或いは黒色画素に属するかを決める工程である。
最適例として、本発明は各セグメントに含まれた背景画素数によって前記セグメントが白色セグメントであるか否かを決め、また、各セグメントに含まれたグレー画素数によって前記セグメントがグラフィックセグメントであるか否かを決め、さらに、各セグメントが含まれた黒色画素数によって前記セグメントが黒色セグメントであるか否かを決める。
最適例として、前記エッジ検知は前記イメージの各画素のエッジ数値を演算する工程と、前記エッジ数値の絶対値によって前記画素が有効エッジであるか否かを判断する工程と、有効エッジに属する画素の勾配値を演算する工程と、前記勾配値がゼロより大きい画素を文字画素に分類し、前記勾配値がゼロより小さい画素を白色画素に分類する工程を含む。
最適例として、本発明は各前記セグメントに含まれた前記メッシュドットタイプ画素数によって前記セグメントがメッシュドットセグメント或いはセミメッシュドットセグメントであるか否かを決める。
最適例として、前記画素は以下の方法によりメッシュドット画素であるか否かを判断する。それは前記画素を主として、ラプラス勾配演算子により前記画素の前記周辺範囲内に含まれた複数画素がメッシュドットゾーンにあるか否かを演算する工程と、前記周辺範囲内の前記メッシュドットゾーンにある画素数によって前記画素がメッシュドット画素であるか否かを決める工程である。
最適例として、前記輝度転移の計算は、各前記セグメントの画素の輝度分布によって各前記セグメントの輝度転移の数を計算する工程と、少なくとも一つの輝度転移を有するセグメントを転移セグメントに設定する工程と、3個の隣接する転移セグメントに含まれた輝度転移数によって前記複数の転移セグメントが少なくとも一つの転移セグメントがグラフィックでの文字セグメントであると認められるか否かを判断し、前記3個の隣接する転移セグメントの輝度転移数が数字範囲内で、且つ前記3個の隣接する転移セグメントの中間セグメントがグラフィックセグメントにある場合は、前記3個の隣接する転移セグメントの中間セグメントがグラフィックでの文字セグメントであると判断する工程を含む。
最適例として、前記b2工程は前記ブロックが含まれたメッシュドットセグメントの数とグラフィックセグメントの数によって前記ブロックが非グラフィックブロックであるか否かを判断する工程と、前記ブロックに含まれたグラフィックセグメントの数、メッシュドットセグメントの数及びセミメッシュドットセグメントの数との総計によって前記ブロックがグラフィックブロックであるか否かを判断する工程と、前記ブロックに含まれたグラフィックセグメントの数とメッシュドットセグメントの数の総計及び黒色セグメントの数によって前記ブロックがグラフィックブロックであるか否かを判断する工程と、前記ブロックに含まれたグラフィックセグメントの数によって前記ブロックがグラフィックブロックであるか否かを判断する工程と、前記ブロックに含まれた背景セグメントの数によって前記ブロックが背景ブロックであるか否かを判断する工程を含む。
最適例として、b4工程において、非グラフィックブロックの両側に隣接する少なくとも一つブロックが共にグラフィックブロックとなる場合は、前記非グラフィックブロックをグラフィックブロックに補正し、グラフィックブロックに含まれたメッシュドットセグメントと黒色セグメントをグラフィックセグメントに補正する。
本発明はまたグラフィック部と文字部のイメージにおける前記文字部を強化するための文字を強化する方法を提供する。それは
a、前記グラフィック部と前記文字部を分離するためのグラフィックと文字を分離する工程であって、さらに前記グラフィックを複数列に分けると共に各前記列を複数セグメントに分ける工程と、前記セグメントをグラフィックセグメントと黒文字セグメント或いは白文字セグメントである文字セグメントに分ける工程を含み、
b、文字を強化する工程であって、前記文字セグメントが黒文字セグメントである場合は、前記黒文字セグメントの輝度値を0に設定し、或いは前記文字セグメントが白文字セグメントである場合は前記白文字セグメントの輝度値を255に設定することを含む。
a、前記グラフィック部と前記文字部を分離するためのグラフィックと文字を分離する工程であって、さらに前記グラフィックを複数列に分けると共に各前記列を複数セグメントに分ける工程と、前記セグメントをグラフィックセグメントと黒文字セグメント或いは白文字セグメントである文字セグメントに分ける工程を含み、
b、文字を強化する工程であって、前記文字セグメントが黒文字セグメントである場合は、前記黒文字セグメントの輝度値を0に設定し、或いは前記文字セグメントが白文字セグメントである場合は前記白文字セグメントの輝度値を255に設定することを含む。
本発明の別の文字を強化する方法において、下記の工程を含む。
a、前記グラフィック部と前記文字部を分離するためのグラフィックと文字を分離する工程であって、さらに前記グラフィックを複数列に分けると共に各前記列を複数セグメントに分ける工程と、前記これらのセグメントをグラフィックセグメントと文字セグメントに分ける工程と、
b、シャープ処理を前記文字セグメントに行い、前記文字セグメントのコントラストを強化する工程である。
a、前記グラフィック部と前記文字部を分離するためのグラフィックと文字を分離する工程であって、さらに前記グラフィックを複数列に分けると共に各前記列を複数セグメントに分ける工程と、前記これらのセグメントをグラフィックセグメントと文字セグメントに分ける工程と、
b、シャープ処理を前記文字セグメントに行い、前記文字セグメントのコントラストを強化する工程である。
本発明を次に図面により詳細に説明する。
図1はグラフィックと文字を含む文書10を表示している。図1で示すように、文書10はグラフィック部100と文字部200を含む。グラフィック部100は図案及び図案上の文字「WELCOME」を含み、文字部200は多数の記号Tで構成されている。
本発明のグラフィックと文字を分離する方法は文書10のグラフィック部100と文字部200を識別するためのものである。また本発明の文字を強化する方法はグラフィックと文字の分離が完了した後、文字部200のイメージを強化して文字部200とグラフィック部100内の文字を一層鮮明にさせるものである。
以下本発明のグラフィックと文字を分離する方法の細部を説明する。図2A、Bで、図2Aが示すように、本発明のグラフィックと文字を分離する方法は、主に文書10のイメージを複数列L1−Lnに分け、各列はさらに複数のセグメント300に分けられる。図2Bで示すように、各セグメント300は複数の画素から構成されており、図2BではN個の画素を例に取る。
文書10のイメージは複数のセグメントに分割された後、さらに多種のルールに基いて各セグメントがグラフィック部又は文字部に属するかを判断することで、グラフィック部100と文字部200をはっきりと区分することができる。
本発明のグラフィックと文字を分離する方法は主に(1)初期分類工程と(2)中段階の分類工程の二つの工程を含み、必要と有らばグラフィックでの文字を検知する工程をさらに加えることができる。下記に説明する。
初期分類工程
初期分類工程
初期分類工程において、色度統計、輝度統計、エッジ検知、及びメッシュドット検知を使用して文書10に含まれるセグメントをグラフィックセグメント、白色セグメント、黒色セグメント、未定義セグメント、メッシュドットセグメント及びセミメッシュドットセグメントに分類する。このほか、更に輝度転移検知で転移セグメント及びグラフィックでの文字セグメントを探し出す。
(1)色度統計
(1)色度統計
文書におけるグラフィック部は一般に高色度特性を有しているので、色度でグラフィック部を探すことができる。所謂色度統計は画素の色差値a、bが生じる色度を使用し、また画素の輝度値Lは画素を低度色度画素、中度色度画素或いは高度色度画素に分類する。画素の色度値及び輝度値の演算は従来の分野に属するのでここでは贅言しないこととする。
下表に示すように、各画素の色度及び輝度値に基いて前記画素が低度色度画素、中度色度画素或いは高度色度画素に属するかを判断することができる。
例えば、画素の色度がB1より大きいか等しく且つその輝度値がA1−A2の間に有る場合、この画素は高度色度画素に分類される。また、画素の色度がB1より小さく且つB2より大きく、その輝度値がA1−A2の間に有る場合、この画素は中度色度画素に分類され、以下このように類推する。
イメージセグメントがグラフィックセグメントであるか否かを判断するために、まず各セグメントに含まれる画素がグラフィック画素であるか否かを判断しなければならない。図3では、画素P6がグラフィック画素であるか否かを判断しなければならない。まず画素P6を中心とした周辺範囲内の画素に含まれる低度色度画素、中度色度画素及び高度色度画素の数の統計を取る。図3ではM×Mマトリックスを統計の範囲とする。さらに前記M×Mマトリックスの範囲内に含まれる低度色度画素、中度色度画素及び高度色度画素の数に基いて、中心画素P6がグラフィック画素であるか否かを決定する。例えば、M×Mマトリックスの範囲内にc1個を超える中度色度画素又はc2個を超える高度色度画素を含んでいれば、画素P6はグラフィック画素に分類される。
この方法により、セグメント300に含まれる画素P1−Pnに幾つのグラフィック画素があるかを統計に取ることができ、セグメント300に含まれるイメージ画素の数によってセグメント300がグラフィックセグメントであるか否かを決定する。例えば、セグメント300が含むグラフィック画素がc3個より多い場合、セグメント300をグラフィックセグメントに分類する。
(2)輝度統計
(2)輝度統計
輝度統計は主にイメージセグメントを白色セグメント(文書中の背景部分を指すか又は背景セグメントと称する)、グレーセグメント及び黒色セグメントに分類する。
異なる輝度値範囲に基いて下表に示すように、イメージゾーンを背景、グレー及び黒色に分ける。
色度統計方法と同様に、イメージセグメントが背景セグメント、グレーセグメント又は黒色セグメントであるか否かを決定する前に、まず各イメージセグメントに含まれる画素が背景画素、グレー画素若しくは黒色画素に属することを判断しなければならない。
図3で示すように、判断される画素P6を中心として、M×Mマトリックスのような画素P6周辺範囲内の画素が背景画素、グレー画素又は黒色画素に属することを判断しなければならない。M×Mマトリックス範囲内に含まれる背景画素、グレー画素又は黒色画素の数によって中心画素P6がどの種類の画素であるかを判断する。
例えば、マトリックス中にd1個以上の画素が「極めて明るい」に分類される場合、中心画素P6は背景画素である。また、マトリックス中にd2個以上の画素が「グレー/ライトグレー」分類に属する場合、中心画素P6はグレー画素である。そして、マトリックス中にd3個以上の画素が「ダークグレー」分類に属する場合、中心画素P6は黒色画素である。
各セグメントの画素の属性が決まると、続いて各セグメントに含まれる背景画素、グレー画素又は黒色画素の数によってイメージセグメントの分類が決まる。例えば、単一イメージセグメントがd4個を超える画素を含むものは背景画素であり、このセグメントは背景セグメントとなる。また、単一イメージセグメントがd5個を超える画素を含むものはグレー画素であり、このセグメントはグレーセグメントとなる。さらに、単一イメージセグメントがd6個を超える画素を含むものは黒色画素であり、このセグメントは黒色セグメントとなる。そのうち、「背景セグメント」が一般に代表するグラフィックの背景の大部分は白色である。文書グラフィックは一般にグレー色調を有するので、「グレーセグメント」もグラフィックセグメントと看做される。このほか、「黒色セグメント」が指すのは文書中の黒めの部分である。
(3)メッシュドット検知
(3)メッシュドット検知
画素の輝度統計もイメージ中のメッシュドットゾーンを判断するのに用いられる。本発明において、前述したセグメントタイプの他に、さらに輝度統計を使用してメッシュドットセグメント及びセミメッシュドットセグメントを定義する。
一般の印刷原稿の特性について言えば、メッシュドットがあるゾーンは殆どカラーゾーンである。
メッシュドットセグメント及びセミメッシュドットセグメントは各セグメントに含まれる画素に幾つのメッシュドット画素があるかによって決まる。例えば、セグメントがf1個のメッシュドット画素を含む場合、このセグメントをメッシュドットセグメントと称する。また、セグメント中のメッシュドット画素数がf2より多いがf1より少ない場合、このセグメントはセミメッシュドットセグメントと称される。
セグメント中の画素は以下の原則よりメッシュドット画素であるか否かが判定される。
画素を中心として、ラプラス勾配演算子を使用して前記画素のM×Mマトリックスの周辺範囲内に含まれる複数の画素がメッシュドットゾーンにあるか否かを演算する。
前記周辺範囲内の前記メッシュドットゾーン内にある画素数によって、前記画素がメッシュドットタイプの画素であるか否かを決定する。M×M範囲内にf4個を超える画素がメッシュドットゾーン内にあると、その中心画素はメッシュドット画素である。
これらのメッシュドットセグメント若しくはセミメッシュドットセグメントはさらにグラフィックセグメント若しくはグラフィックでの文字セグメントに補正される。
(4)エッジ検知
(4)エッジ検知
エッジ検知の主な目的は文字のエッジを探すことにあり、本発明において、グラフィックセグメント、背景セグメント若しくはグレーセグメントに属さない「未定義」セグメントは文書の文字部の可能性がある。
エッジ検知は下記の工程を含む。
1、各画素のエッジ数値を演算する。
2、各画素のエッジ数値の絶対値に基いて前記画素が有効エッジであるか否かを判断する。例えば、エッジ数値がe1より大きい場合、この画素は有効エッジであり、反対であれば無効エッジである。
3、有効エッジの画素の勾配値を演算する。画素の勾配値が0より大きい場合、この画素は低輝度エッジである。また、画素の勾配値が0より小さい場合、この画素は高輝度エッジである。
4、前記勾配値がゼロより大きい画素は文字画素に分類し、また前記勾配値がゼロより小さい画素は背景画素に分類する。
1、各画素のエッジ数値を演算する。
2、各画素のエッジ数値の絶対値に基いて前記画素が有効エッジであるか否かを判断する。例えば、エッジ数値がe1より大きい場合、この画素は有効エッジであり、反対であれば無効エッジである。
3、有効エッジの画素の勾配値を演算する。画素の勾配値が0より大きい場合、この画素は低輝度エッジである。また、画素の勾配値が0より小さい場合、この画素は高輝度エッジである。
4、前記勾配値がゼロより大きい画素は文字画素に分類し、また前記勾配値がゼロより小さい画素は背景画素に分類する。
画素のエッジ数値及び勾配値の演算は当業者の熟知するところにつき、本文ではこれ以上詳述しないこととする。
(5)輝度転移検知
(5)輝度転移検知
輝度転移検知は、輝度が次元的又は時間的に瞬時に激しい変化をする位置を探すのに用いられ、特に突然の黒色変化或いは突然の白色変化といった状況である。本発明では各セグメントの輝度転移の数を演算してどのセグメントが輝度転移セグメント若しくはグラフィックでの文字セグメントに属するかを判断する。
図4はセグメントに現れた輝度転移を示している。図4ではセグメントの全ての画素の輝度曲線図を示しており、図4では画素輝度の激しい変化Tが現われており(高輝度から突然低輝度に変化しており、即ち隣接する2個の画素の輝度の差が大きい)、Tは輝度転移と呼ばれる。
輝度転移検知は下記の工程を含む。各セグメントの画素の輝度分布に基いて前記セグメントが輝度転移を有するか否かを決定する。次に、前記輝度転移を有するセグメントは転移セグメントであると設定する。さらに、複数の隣接する転移セグメントに含まれる輝度転移の数により前記複数の輝度転移が少なくとも一つの転移セグメントがグラフィックでの文字セグメントであると認められるか否かを決定する。例を挙げると、3個の位置が隣接する転移セグメントに含まれる転移の数の総和を演算し、転移数の総和がg1個より多く且つg2個より少ない場合、中間位置にある転移セグメント(この転移セグメントは色度統計でグラフィックセグメントであると判定されるか又はメッシュドットがメッシュドットセグメントであると検知されなければならない。)はグラフィックでの文字セグメントに属する。しかし、転移数の総和が前述の標準のセグメントに合致しないものはやはり転移セグメントと看做される。
中段階分類工程
中段階分類工程
前述した色度統計と輝度統計の工程を経た後、文書イメージをグラフィックセグメント、白色セグメント、黒色セグメント、未定義セグメント、メッシュドットセグメント及びセミメッシュドットセグメントの6種類のセグメントに分けて、中段階の分類工程で使用する。中段階の分類工程における最終目標は全てのセグメントをグラフィックセグメント、白色セグメント、黒色セグメント及び文字セグメント(中段階の分類後、全ての未定義セグメントは文字セグメントと看做される。)に分類することにある。このほか、中段階の分類後、さらにグラフィックでの文字セグメントを検知する工程を加える。グラフィックでの文字セグメントを検知するために、前述の輝度転移検知で求めた転移セグメント及びグラフィックでの文字セグメントを使用する。
中段階の分類では、さらに未定義セグメントが属するタイプを判断し、続いて複数のセグメントをブロックに構成して、ブロックを単位として各ブロックがグラフィックブロックタイプ、背景ブロックタイプ或いは非グラフィックブロックタイプに属するかを判断し、最後に非グラフィックタイプブロックをグラフィックブロックに補正するか否かを判断する。換言すると、中段階の分類では、二次元概念でもって、隣接するセグメント間のタイプを利用して初期分類工程で求めたセグメントのタイプの細部補正を施す。続いて、多数のセグメントで構成されたブロックを単位として各ブロックのタイプを判断して、ブロックのタイプが決められ次第、ブロック中に定義できないセグメントがあれば前記ブロックと同様のタイプに分類されることができる。以下まず本発明におけるセグメントを単位として実行する分類補正について説明する。
グラフィックタイプのセグメントは通常文書のグラフィック部に位置しており、白色タイプのセグメントは通常文書の地色部分にあり、黒色セグメントは文書の黒色部分であり、そして未定義セグメントはまだ明確に定義されていないセグメントを指し、これらの未定義セグメントは文書中の文字部である可能性がある。然しながら、未定義セグメントはまたグラフィックセグメントである可能性もある。このため中段階の分類でこれらの未定義セグメントが文字部に属するか否かを確認する必要がある。
続いてブロックを単位としてタイプ補正を実行する方法について説明する。あるブロックにJ×K個のセグメントを含ませることが出来る。各ブロックのJ×K個のセグメントに含まれるセグメントのタイプによりブロックのタイプを判断する。判断方法は下表で表示する。
上表に基いて、ブロックを非グラフィックブロック、グラフィックブロック及び背景ブロックに分類した後、現在の分類結果により、まずブロック中にグラフィックとなり得るセグメント(例えば、メッシュドットセグメント、セミメッシュドットセグメント及び黒色セグメント)をグラフィックセグメントに補正するか若しくはセミメッシュドットセグメントを未定義(文字)セグメントに変更する。続いて隣接するブロック間の相関性を利用してさらにブロックタイプの補正を行なう。
図5で示すように、非グラフィックタイプブロックnについて言えば、その両側の隣接する各m個のブロックが何れもグラフィックブロックであるなら、ブロックnをグラフィックタイプブロックに補正する。
グラフィックタイプブロックに含まれるメッシュドットセグメント及び黒色セグメントは共にグラフィックセグメントに補正される。このほか、中段階の分類工程が完了すると、まだ補正されていないセミメッシュドットセグメントは未定義セグメントと看做される。その他未処理の未定義セグメントの中の画素がエッジ特性を具えていれば(前述のエッジ検知工程に基く)、この未定義セグメントは文字セグメントに分類される。このほか、単一の未定義セグメントがオール黒若しくはオール白の画素で構成されているなら、この未定義セグメントは文字セグメントと看做される。
中段階の分類工程が完了した後、全ての未定義セグメントは文字セグメントと看做される。
グラフィックでの文字セグメントの検知工程
グラフィックでの文字セグメントの検知工程
このほか、グラフィックでの文字を検知するために、別のブロック範囲に含まれるグラフィックでの文字セグメントの数によって決めることが出来る。このブロック範囲は通常は長方形で、即ち水平方向の範囲が長くまた垂直方向の範囲が短い形状である。このブロック範囲の選択は通常目標字体のサイズと関連がある(所謂目標字体のサイズとは、検知された文字にスキャンされた後の前記文字の字体イメージが占める画素数を指す)。例えば、ブロックに含まれるグラフィックでの文字セグメントの数が某数値よりも大きい場合、前記ブロックが文字ゾーンにあると認定され、この場合ブロック中の転移セグメントはグラフィックでの文字セグメントに補正され、またグラフィックでの文字セグメントの数が前記某数値より小さい場合、グラフィックでの文字セグメントはグラフィックセグメントに補正される。
文字の強化
文字の強化
グラフィックと文字を分離処理した後、このグラフィックと文字の分離結果を利用して文字の強化処理を実行することができる。文書中のグラフィックと文字が既に代表文書グラフィック部(グラフィックセグメント)、背景部(白色セグメント)及び文字部(黒色セグメント)に分類されているので、各種のセグメントに対して容易く処理を実行することができ、文字の強化の効果を効率的に達成できるが、文書中のグラフィック部に不適当な色調変化が現われることはない。代表グラフィックのグラフィックセグメントは処理する必要がない。また代表文字のセグメント(背景にある文字及びグラフィックにある文字を含む)に対して、輝度値を変更する方法で文字を一層鮮明にさせることができる。詳細に述べると、文字セグメントはそれに含まれる画素の輝度によって白色文字セグメント若しくは黒色文字セグメントに分けられる。文字セグメントにN1個以上ある画素の輝度がT1より大きい場合、この文字セグメントは白文字セグメントであると看做される。また文字セグメントにN2個以上ある画素の輝度がT1より小さい合、この文字セグメントは黒文字セグメントであると看做される。黒文字セグメントの輝度値を0に設定し、また白文字セグメントの輝度値を255に設定することもできる。つまり、黒色部分をさらに黒く、白色部分をさらに白くするのである。或いは文字セグメントの全てのデータにシャープ演算子処理を実行して、文字セグメント内容のコントラストを強化する。
上記内容は本発明の最適な実施例に過ぎず、本発明の特許申請範囲を限定するものではないため、本発明で開示した趣旨を逸脱しないで完成された等価変更若しくは補正は、全て本案における特許申請の範囲内に含まれるものとする。
10 文字
100 グラフィック
200 文字部
L1〜Ln イメージ列
300 イメージ部分
P1〜PN 画素
100 グラフィック
200 文字部
L1〜Ln イメージ列
300 イメージ部分
P1〜PN 画素
Claims (16)
- グラフィック部と文字部からなるイメージグラフィックと文字を分離する方法であって、
a1、前記イメージを複数列に分けると共に各前記列を複数セグメントに分け、各前記セグメントは複数の画素からなる工程と、
a2、前記複数セグメントをグラフィックセグメント、白色セグメント、黒色セグメント、メッシュドットセグメント、セミメッシュドットセグメント及び未定義セグメントに分ける工程と、
a3、各前記セグメントの輝度の転移数を演算し前記セグメントが転移セグメントかグラフィックでの文字セグメントかを判断する工程を含む(a)初期分類工程と、
b1、前記未定義タイプセグメントが文字セグメントか否かを判断する工程と、
b2、前記複数セグメントを複数ブロックに分け、各前記ブロックはさらにJ×K個セグメントを含み、各前記ブロックに含まれたセグメントタイプの数により各前記ブロックがグラフィックブロック、背景ブロックまたは非グラフィックブロックであることを決める工程と、
b3、各前記ブロックのセグメント属性を補正する工程と、
b4、非グラフィックブロックの両側に隣接するブロックの属性によって前記非グラフィックブロックをグラフィックブロックに補正するか否かを判断する工程を含む(b)中階段の分類工程と、
グラフィックでの文字セグメントを主として他のブロック範囲を決め、前記他のブロック範囲はL×M個セグメントを含むと共に前記他のブロック範囲に含まれたグラフィックでの文字セグメントの数によって他のブロック範囲内の転移セグメントをグラフィックでの文字に、又は前記他のブロック範囲内のグラフィックでの文字セグメントをグラフィックセグメントに補正する否かを判断する(c)グラフィックでの文字の検知工程
を含むことを特徴とするグラフィックと文字を分離する方法。 - 前記a2工程は色度統計、輝度統計、メッシュドット検知とエッジ検知により前記セグメントが属するタイプを決めることを特徴とする請求項1に記載するグラフィックと文字を分離する方法。
- 前記色度統計は前記各セグメントの各画素を高度色度画素、中度色度画素或いは低度色度画素に分類する工程と前記画素がグラフィック画素であるか否かを決める工程を含むことを特徴とする請求項2に記載するグラフィックと文字を分離する方法。
- 前記イメージにおける各画素は
前記画素を主として前記画素のM×Nマトリックスからなる周辺範囲内に含まれた複数画素の各画素の色度と輝度を演算する工程と、
前記色度と輝度によって前記周辺範囲内の前記複数画素を高度色度画素、中度色度画素或いは低度色度画素に分類する工程と、
前記周辺範囲内の画素に含まれた高度色度画素数或いは中度色度画素数によって前記画素が前記グラフィック画素に属するか否かを決める工程によって高度色度画素、中度色度画素或いは低度色度画素に分類することを特徴とする請求項3に記載するグラフィックと文字を分離する方法。 - 各前記セグメントに含まれた前記イメージ画素数によって前記セグメントがグラフィックセグメントであるか否かを決めることを特徴とする請求項4に記載するグラフィックと文字を分離する方法。
- 前記輝度統計は前記イメージ画素の輝度データにより前記イメージの各画素を白色画素、グレー画素或いは黒色画素に分類することを特徴とする請求項5に記載するグラフィックと文字を分離する方法。
- 前記画素は前記画素を主として前記画素の前記周辺範囲内に含まれた複数画素の各画素の輝度を演算する工程と、
前記輝度によって前記周辺範囲内の前記複数画素を白色画素、グレー画素或いは黒色画素に分類する工程と、
前記周辺範囲内の画素に含まれた白色画素、グレー画素或いは黒色画素の数によって前記画素が白色画素、グレー画素或いは黒色画素に属するかを決める工程によって白色画素、グレー画素或いは黒色画素に分類することを特徴とする請求項6に記載するグラフィックと文字を分離する方法。 - 各セグメントに含まれた背景画素数によって前記セグメントが白色セグメントであるか否かを決め、各セグメントに含まれたグレー画素数によって前記セグメントがグラフィックセグメントであるか否かを決め、各セグメントに含まれた黒色画素数によって前記セグメントが黒色セグメントであるか否かを決めることを特徴とする請求項7に記載するグラフィックと文字を分離する方法。
- 前記エッジ検知は
前記イメージの各画素のエッジ数値を演算する工程と、
前記エッジ数値の絶対値によって前記画素が有効エッジであるか否かを判断する工程と、
有効エッジに属する画素の勾配値を演算する工程と、
前記勾配値がゼロより大きい画素を文字画素に分類し、前記勾配値がゼロより小さい画素を白い画素に分類する工程を含む
ことを特徴とする請求項8に記載するグラフィックと文字を分離する方法。 - 各前記セグメントに含まれた前記メッシュドットタイプ画素数によって前記セグメントがメッシュドットセグメント或いはセミメッシュドットセグメントであるか否かを決めることを特徴とする請求項9に記載するグラフィックと文字を分離する方法。
- 前記画素は
前記画素を主としてラプラス勾配演算子により前記画素の前記周辺範囲内に含まれた複数画素がメッシュドット領域にあるか否かを演算する工程と、
前記周辺範囲内の前記メッシュドット領域にある画素数によって前記画素がメッシュドット画素であるか否かを決める工程によってメッシュドット画素であるか否かを判断することを特徴とする請求項9に記載するグラフィックと文字を分離する方法。 - 前記輝度転移の計算は
各前記画素の輝度分布によって各前記セグメントの輝度転移の数を計算する工程と、
少なくとも一つ輝度転移セグメントを有するセグメントを転移セグメントに設定する工程と、
3個の隣接する転移セグメントに含まれた輝度転移数によって前記複数の転移セグメントが少なくとも一つの転移セグメントがグラフィックでの文字セグメントであると認められるか否かを判断し、前記3個の隣接する転移セグメントの輝度転移数が数字範囲内で、且つ前記3個の隣接する転移セグメントの中間セグメントがグラフィックセグメントにある場合は、前記3個の隣接する転移セグメントの中間セグメントが文字セグメントと判断する工程を含むことを特徴とする請求項11に記載するグラフィックと文字を分離する方法。 - 前記b2工程は
前記ブロックに含まれたメッシュドットセグメントの数とグラフィックセグメントの数によって前記ブロックが非グラフィックブロックであるか否かを判断する工程と、
前記ブロックに含まれたグラフィックセグメントの数、メッシュドットセグメントの数とセミメッシュドットセグメントの数との総計によって前記ブロックがグラフィックブロックであるか否かを判断する工程と、
前記ブロックに含まれたグラフィックセグメントの数とメッシュドットセグメントの数の総計及び黒色セグメントの数によって前記ブロックがグラフィックブロックであるか否かを判断する工程と、
前記ブロックに含まれたグラフィックセグメントの数によって前記ブロックがグラフィックブロックであるか否かを判断する工程と、
前記ブロックに含まれた背景セグメントの数によって前記ブロックが背景ブロックであるか否かを判断する工程を含むことを特徴とする請求項12に記載するグラフィックと文字を分離する方法。 - b4工程において、非グラフィックブロックの両側に隣接する少なくとも一つブロックが共にグラフィックブロックとなる場合は、前記非グラフィックブロックをグラフィックブロックに補正する工程と、
グラフィックブロックに含まれたメッシュドットセグメントと黒色セグメントをグラフィックセグメントに補正する工程を有することを特徴とする請求項13に記載するグラフィックと文字を分離する方法。 - グラフィック部と文字部からなるイメージを強化するための前記文字部である文字を強化する方法であって、
前記グラフィック部と前記文字部を分離するためのグラフィックと文字を分離する工程であって、さらに
前記グラフィックを複数列に分けると共に各前記列を複数セグメントに分ける工程と、
前記セグメントをグラフィックセグメントと黒文字セグメント或いは白文字セグメントである文字セグメントに分ける工程を含むことと、
b、文字を強化する工程であって、前記文字セグメントが黒文字セグメントである場合は前記黒文字セグメントの輝度値を0に設定し、或いは前記文字セグメントが白文字セグメントである場合は前記白文字セグメントの輝度値を255に設定することを含むことを特徴とする文字を強化する方法。 - グラフィック部と文字部からなるイメージを強化するための前記文字部である文字を強化する方法であって、
前記グラフィック部と前記文字部を分離するためのグラフィックと文字を分離する工程であって、さらに
前記グラフィックを複数列に分けると共に各前記列を複数セグメントに分ける工程と、
前記セグメントをグラフィックセグメントと文字セグメントに分ける工程を含むことと、
b、シャープ処理を前記文字セグメントにを行い、前記文字セグメントのコントラストを強化する工程を含むことを特徴とする請求項1に記載するグラフィックと文字を分離する方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW096112964A TWI344623B (en) | 2007-04-13 | 2007-04-13 | Method for text and graphic separation and text enhancement |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008263575A true JP2008263575A (ja) | 2008-10-30 |
Family
ID=39853762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007158915A Pending JP2008263575A (ja) | 2007-04-13 | 2007-06-15 | グラフィックと文字を分離する方法並び文字を強化する方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8068669B2 (ja) |
JP (1) | JP2008263575A (ja) |
TW (1) | TWI344623B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101441307B1 (ko) * | 2008-10-10 | 2014-09-17 | 삼성전자주식회사 | 전력 소모 절감을 위한 영상 처리 방법 및 그 장치 |
TW201705742A (zh) * | 2015-07-17 | 2017-02-01 | 連穎科技股份有限公司 | 電子文件上擷圖之方法及系統 |
KR102552747B1 (ko) * | 2016-06-28 | 2023-07-11 | 주식회사 엘엑스세미콘 | 역 톤 매핑 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7672022B1 (en) * | 2000-04-07 | 2010-03-02 | Hewlett-Packard Development Company, L.P. | Methods and apparatus for analyzing an image |
US7079687B2 (en) * | 2003-03-06 | 2006-07-18 | Seiko Epson Corporation | Method and apparatus for segmentation of compound documents |
JP4172584B2 (ja) * | 2004-04-19 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文字認識結果出力装置、文字認識装置、その方法及びプログラム |
FR2906053A1 (fr) * | 2006-09-15 | 2008-03-21 | St Microelectronics Sa | Desentrelacement d'images. |
-
2007
- 2007-04-13 TW TW096112964A patent/TWI344623B/zh not_active IP Right Cessation
- 2007-06-15 JP JP2007158915A patent/JP2008263575A/ja active Pending
- 2007-11-14 US US11/940,183 patent/US8068669B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20080253655A1 (en) | 2008-10-16 |
TW200841275A (en) | 2008-10-16 |
US8068669B2 (en) | 2011-11-29 |
TWI344623B (en) | 2011-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5455038B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP4684959B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP5337563B2 (ja) | 帳票認識方法および装置 | |
JP5974589B2 (ja) | 画像処理装置およびプログラム | |
JP2018121226A (ja) | 画像処理装置、画像処理方法およびプログラム | |
US20200106925A1 (en) | Image processing apparatus identifying pixel which satisfies specific condition and performing replacement process on pixel value of identified pixel | |
US7856140B2 (en) | Method, computer program, computer and printing system for trapping image data | |
JP2008263575A (ja) | グラフィックと文字を分離する方法並び文字を強化する方法 | |
CN101291384B (zh) | 图文分离及文字增强方法 | |
CN112215781B (zh) | 一种改进的局部二值化方法 | |
JP5151708B2 (ja) | 画像処理装置および画像処理プログラム | |
US9781308B2 (en) | Non-transitory computer-readable medium | |
JP2005159576A (ja) | 画像処理方法及び画像処理装置並びに画像形成装置、プログラム、記録媒体 | |
JP4189654B2 (ja) | 画像処理装置 | |
US11399119B2 (en) | Information processing apparatus and non-transitory computer readable medium storing program for color conversion | |
JP5535138B2 (ja) | 画像処理装置および画像形成装置 | |
JPH0654180A (ja) | 画像領域分離装置及び画像領域分離方法 | |
CN107852445A (zh) | 图像处理装置 | |
JP2005033527A (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 | |
JP2004134910A (ja) | 画像処理装置 | |
JP4973603B2 (ja) | 画像処理装置および画像処理プログラム | |
CN111491069B (zh) | 一种文档图像的色彩模式自动设定方法 | |
CN100366046C (zh) | 影像文字增强的方法 | |
US9098768B2 (en) | Character detection apparatus, character detection method, and computer-readable storage medium | |
JP2016178467A (ja) | 画像処理装置および画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090609 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100126 |