JP3833993B2 - カラー文書画像を二値化する方法及び装置 - Google Patents
カラー文書画像を二値化する方法及び装置 Download PDFInfo
- Publication number
- JP3833993B2 JP3833993B2 JP2002336964A JP2002336964A JP3833993B2 JP 3833993 B2 JP3833993 B2 JP 3833993B2 JP 2002336964 A JP2002336964 A JP 2002336964A JP 2002336964 A JP2002336964 A JP 2002336964A JP 3833993 B2 JP3833993 B2 JP 3833993B2
- Authority
- JP
- Japan
- Prior art keywords
- low
- yiq
- variable
- image
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/40—Picture signal circuits
- H04N1/403—Discrimination between the two tones in the picture signal of a two-tone original
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/01—Solutions for problems related to non-uniform document background
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
- Facsimile Image Signal Circuits (AREA)
- Color Image Communication Systems (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、画像二値化法及び装置に関するものであり、特に具体的には、複雑な背景(バックグランド)のもとでのカラー又はグレイスケール画像の二値化法及び装置に関するものである。
【0002】
【従来の技術及び発明が解決しようとする課題】
白黒画像の光学式文字読取装置(OCR)は公知である。しかしながら、カラー文書の人気で、複雑な背景を伴うグレー階調及び/又はカラー文字のテキスト認識の必要性が生じている。例えば、この種の背景を有するテキストはよく広告及び雑誌で目にする。時々、複雑な模様の背景にテキストが描かれ、又は、背景が一の色から他の色へ徐々に変化するものがある。この種の背景は従来のグローバルスレショルド(全域しきい値)法によって処理することは困難である。
【0003】
より具体的には、グローバルスレショルド法は、少なくとも一の最新の光学式文字読取装置(OCR)のソフトウェアパッケージで利用されている。全画像についての単一グローバルスレショルドの生成は高速で簡単である。しかしながら、グローバルスレショルドは、画像の均一性が高い背景を有するときにだけ、満足した結果を提供する。ユーザーの介入がある場合、グローバルスレショルドを有するOCRソフトウェアは、均一でない照明を有する画像又は複雑な模様の背景のような複雑な背景を有する画像を処理することはできない。
【0004】
【課題を解決するための手段】
従って、本発明の一の構成は、第1行が画像の第1の端を形成し、最終行が第1の端と反対側に画像の第2の端を形成し、画像の第1列が画像の第3の端を形成し、画像の最終列が第3の端の反対側に第4の端を形成しているN行M列の画素を有する画像を二値化する方法を提供するものである。二値化された画素列を形成する方法が:
【0005】
(a)画像の各行については、行の局所的(ローカル)に低い画素値を表す第1の変数と、行の局所的に高い画素値を表す第2の変数と、画像の各列については、列の局所的に低い画素値を表す第3の変数と、列の局所的に高い画素値を表す第4の変数と、を初期設定する段階と;
【0006】
(b)第1行から最終行まで、画像の各行について段階(c)から段階(f)を反復して繰り返す段階と;
【0007】
(c)第1列から最終列まで、画像の各列について段階(d)から段階(f)を反復して繰り返す段階と;
【0008】
(d)位置指標(ロケーション指標)の行における第1の変数及び第2の変数と、位置指標の列における第3の変数及び第4の変数とに依存するスレショルド値を決定する段階であって、位置指標が繰り返される行と繰り返される列とに依存する段階と;
【0009】
(e)位置指標での画像画素を表す値を決定されたスレショルド値と比較する段階と;
【0010】
(f)比較結果によって、位置指標についての二値化画素を第1の値又は第2の値のいずれかに設定し、かつ、比較結果によって、第1の変数および第3の変数か第2の変数および第4の変数かのいずれかの値を調整する段階と;
を備えている。
【0011】
本発明の他の構成は、N行M列の画素であって、第1行は画像の第1の端を形成し、最終行は第1の端と反対側に画像の第2の端を形成し、画像の第1列が画像の第3の端を形成し、画像の最終列が第4の端を形成している画像を二値化する計算装置である。計算装置は、メモリと値を読みかつ格納するためにメモリに動作可能に結合されたプロセッサとを含み、計算装置は;
【0012】
(a)画像の各行については、局所的に低い第1の方向画素値を表す第1の変数と、局所的に高い第1の方向画素値を表す第2の変数と、画像の各列については、局所的に低い第2の方向画素値を表す第3の変数と、局所的に高い第2の方向画素値を表す第4の変数とをメモリに初期設定し;
【0013】
(b)第1行から最終行まで、画像の各行について段階(c)から段階(f)を反復して繰り返し;
【0014】
(c)第1列から最終列まで、画像の各列について段階(d)から段階(f)を反復して繰り返し;
【0015】
(d)位置指標の行において第1の変数及び第2の変数と、位置指標の列において第3の変数及び第4の変数とに依存するスレショルド値を決定し、ここで、位置指標は繰り返される行と繰り返される列とに依存するものであり;
【0016】
(e)位置指標での画像画素を表す値を決定されたスレショルド値と比較し;
【0017】
(f)メモリにおいて、比較結果に依存して、位置指標についての二値化画素を第1の値又は第2の値のいずれかに格納し、また、比較結果に依存して、第1の変数および第3の変数か第2の変数および第4の変数かのいずれかの格納された値に調整するように;構成され、
【0018】
ここで、(b)及び(c)の繰り返しがメモリで格納された二値化画素のアレイを形成する。
【0019】
本発明のさらに他の構成は、メモリと値を読込みかつ格納するためにメモリに動作可能に結合されたプロセッサとを有する計算装置に命令するように構成された命令を記録して有する機械可読媒体を提供するものであって、
【0020】
(a)第1行が画像の第1の端を形成し、最終行が第1の端と反対側に画像の第2の端を形成し、画像の第1列が画像の第3の端を形成し、画像の最終列が第3の端の反対側に第4の端を形成しているN行M列の画素を有する画像において、各カラムについて、局所的に低い第1の方向画素値を表す第1の変数と局所的に高い第1の方向画素値を表す第2の変数と、画像の各列については、局所的に低い第2の方向画素値を表す第3の変数と局所的に高い第2の方向画素値を表す第4の変数とをメモリにおいて初期設定し;
【0021】
(b)第1行から最終行まで、画像の各行について段階(c)から段階(f)を反復して繰り返し;
【0022】
(c)第1列から最終列まで、画像の各列について段階(d)から段階(f)を反復して繰り返し;
【0023】
(d)位置指標の行において第1の変数及び第2の変数と、位置指標の列において第3の変数及び第4の変数とに依存するスレショルド値を決定し、ここで、位置指標は繰り返される行と繰り返される列とに依存するものであり;
【0024】
(e)位置指標での画素を表す値を決定されたスレショルド値と比較し;
【0025】
(f)メモリにおいて、比較結果に依存して、位置指標についての二値化画素を第1の値又は第2の値のいずれかに格納し、また、比較結果に依存して、第1の変数および第3の変数か第2の変数および第4の変数かのいずれかの格納された値を調整するように;構成され、
【0026】
ここで、(b)及び(c)の繰り返しがメモリで格納された二値化画素のアレイを形成する。
【0027】
本発明のその他の応用用途は以下に示す詳細な説明から明らかである。詳細な説明及び特別の実施形態は本発明の好適な実施形態を示すものであるが、例示だけの目的であり、本発明の範囲を限定する意図ではないことは理解されたい。
【0028】
本発明は、詳細な説明及び添付図面によってさらによく理解できるだろう。
【0029】
図1は、カラー画像を二値化する方法の一の構成を示す流れ図である。
【0030】
図2は、図1で示した方法に入力として用いられるような、画像における画素の配列を示す図である。
【0031】
図3は、図1の方法を実施するのに適した計算システムの一の構成を示すブロック図である。
【0032】
【発明の実施の形態】
好適な実施形態の以下の説明は単に例示だけのものであり、本発明、その用途あるいは使用について限定する意図ではない。
【0033】
図1に示したように、本発明の一の構成10は、種々の複雑な背景のもとでカラー又はグレイスケール画像の二値化においてセルフラーニング(自己学習)法を具体化するものである。
【0034】
複雑な背景を有する多くの文書について、文書の背景は、テキストから裏のテキストへの移行及びその逆の移行を除いて、通常、走査の際に徐々に変化することがわかっている。画素が暗い領域ならば、周囲の領域のカラー背景の相関の結果として次の画素が暗い領域である確率が比較的高い。この仮定を用いると、走査が低コントラスト領域を通ると、次の隣接画素についてのスレショルドは同様に低く調整される。
【0035】
一の構成において図1に示したように、カラーで走査された書類をグレイスケール像に変換する(12)。例えば、RGB像(すなわち、各画素がR(赤)値、G(緑)値及びB(青)値を表す)をYIQ形式に変換する。輝度又はグレイスケール値を表すYIQ_Y値を二値化に用いる。(YIQ形式はNTSCカラーテレビ標準から公知のものであり、ここで、“Y”は知覚された輝度信号であり、“I”はR−Yから導出された色差信号であり、“Q”はB−Yから導出された色差信号である。ここで、“R”は赤信号であり、“B”は青色信号である。ここで用いたように、輝度信号又はグレイスケール信号がYIQ_Yと表示される。)
【0036】
カラー画像ではなくグレイスケールを用いた構成では、YIQへの変換12は必要なく、画素のグレイ値を直接用いる。
【0037】
第1の方向にN画素×第2の直交方向にM画素の画像について、以下の変数のメモリ所在を割当てて初期設定する(14):
【数28】
ここで、
iは、0からN−1の範囲の画像に行の指標(インデックス)であり、
jは、0からM−1の範囲の画像に列の指標であり、
Xlow(i)は局所的に低い行の値
Xhigh(i)は局所的に高い行の値
Ylow(j)は局所的に低い列の値
Yhigh(j)は局所的に高い列の値
である。
【0038】
図2は、画像100の第1の端102を形成する第1行(行番号0)と、第1の端102の反対側の第2の端104を示す最終行(行番号N−1)とを示した矩形画像の方位を示す図である。同様に、第1列(列番号0)は画像100の第3の端106を示し、最終列(列番号M−1)は端106の反対側の第4の端108を形成する。このマッピングはいくらか任意であり、できたマッピングが方法を通して首尾一貫して使用される限り、列及び/又は行を反対の順番で番号付けしてもよいし、画像をいずれかの方向に90度回転してもよい(すなわち、列と行の役割を交換してもよい)。しかしながら、例として、ここでは図2に示したマッピングを仮定する。
【0039】
一の構成では、ローカル変数の初期設定(14)は、走査された画像のYIQ表示から輝度YIQ_Yの最小値及び最大値を用いて実施する。そして、ローカル変数の初期設定(14)は、以下で示した関係を用いて決定する:
【数29】
ここで、
【数30】
すなわち、YIQ_YminはNxM画像における最小輝度であり、YIQ_YmaxはNxM画像における最大輝度であり、YIQ_Y(i,j)は指数i及び指数jでの画像の画素の強度である。
【0040】
繰り返しが完成するとき、走査された画像のYIQ表示の位置指標(i,j)で各画素にわたって繰り返し、二値化された画像を戻すために(20)、入れ子ループのセットを用いる。図1で示した構成では、変数i及びjはゼロに設定し(16)、iが画像の全幅にわたって繰り返されたか否かを決定するためにテストを行う(18)。繰り返されていたならば、繰り返しが完成(終了)し、二値化画像が戻る(20)。さもなければ、jが現在の指数iでの画像高さ全体にわたってjが繰り返されたか否かを決定するテストを行う。繰り返されたならば、i指数が増加し(24)、iが画像の全幅にわたって繰り返されていないならば、j全体の他のループが実施される。
【0041】
位置(i,j)では、以下に記載された関係を用いて、ローカルスレショルドT(i,j)を決定する(26):
【数31】
対応する位置(i,j)でのY値YIQ_Y(i,j)を、この局所スレショルドと比較する(28)。もしも、
【数32】
ならば、符号30に進み、
【数33】
さもなければ、符号32に進む:
【数34】
ここで、
*(アスタリスク)は掛け算を意味し、
B(i,j)は、メモリに格納された位置指標(i,j)での決定された二値化された画像画素であり、
wはパラメータである。
【0042】
一の構成では、0のB(i,j)は黒にマッピングされ、1の値は白にマッピングされる。しかしながら、他の構成では、異なるが対応するマッピングが適用される。
【0043】
Xlow(i)及びYlow(j)、又は、Xhigh(i)及びYhigh(j)のいずれかにおける変化を観察することによって評価されるように、各スレショルドの比較(28)の結果(30,32)に依存して、スレショルドT(i,j)は画像が走査されるときに適用できるように変化する。また、画像の二値化中、Xlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)になされる更新のために、特定の(i,j)画素位置での値は、実際の最小及び最大、輝度の値を全域的(グローバル)に又は局所的(ローカル)に表示する必要はない。
【0044】
一の構成におけるパラメータwは、Xlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)についての“局在化領域”を規定するものと考えてもよいユーザー調整可能なパラメータである。しかしながら、パラメータwは、本発明の全構成において調整可能である必要でない。一の構成では、パラメータwは画像解像度に依存して設定される。当業者であれば、Xlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)に対する変化が、計算カーネルを利用して一の演算を表すことが理解できる。上述の式によって示されたカーネルは、i及びjの現在の位置指標値にだけ依存するが、他の構成では、隣接する列及び行のような付加的な列又は行でのXlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)の重み付きの値についての依存性を含む他のカーネルを用いる。
【0045】
処理される画素が多いほど、スレショルドT(i,j)の二値化について信頼性は向上する。T(i,j)の各値を決定するためのXlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)の値の信頼性も向上する。
【0046】
本発明の一の構成におけるパフォーマンスをさらに向上するために、一の構成では、ローカル変数の初期設定(14)の後でかつループ繰り返しの前(例えば、図1の段階14と段階16の間)に、プレトレーニング(予め教え込む)工程を変数Xlow(i)及びXhigh(i)と変数Ylow(j)及びYhigh(j)に適用する。以下の擬コードは、4つの分離したプレトレーニング処理を示す。ここで、A_1,A_2,A_3,A_4は各手続についてのラベルである:
A_1: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
とする。
A_2: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
とする。
A_3: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
とする。
A_4: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
とする。
【0047】
本発明の一の構成では、プレトレーニングは、A_1,A_2,A_3,A_4の全4つのプレトレーニング処理を行うことによって実施する。他の構成では、2つのプレトレーニング処理、すなわち、A_1及びA_2から一の処理をかつA_3及びA_4から他の処理を選択して行う。(例えば、一のこのような構成では、プレトレーニング処理A_1及びA_3を実施する。)このような構成であってもよいが、そうでなくてもよく、プレトレーニング処理の4つの異なる組合せのうちから選択してもよい。他の構成では、4つのプレトレーニング処理のいずれも実施しない。
【0048】
M_1,N_1,M_2,N_2は、初期トレーニングを実施する領域(エリア)のサイズを規定する:
【数35】
である。
(通常、境界M_1及びM_2又はN_1及びN_2が等しいループでは、ループを一度実施する。)
【0049】
プレトレーニング処理A_1,A_2,A_3,A_4のうちのいずれかを用いる構成でも、画像(全画像であってもよい)の矩形サブセット全体でプレトレーニングを実施する。サブセットが大きいときは、パラメータXlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)についてさらにトレーニング又は学習を実行する。本発明の一の構成におけるM_1,N_1,M_2,N_2の値を所望の計算速度に対応して選択される。というのは、大きなプレトレーニング領域にはより長い計算時間がかかるからである。
【0050】
本発明の一の構成は、図3に示したように、本明細書で開示した方法を実施するのに適した計算装置200を備える。計算装置200は、プロセッサとプロセッサに動作可能に結合されたメモリとを備える。図3にはプロセッサもメモリも示していないが、いずれもプロセッサをメモリに動作可能に結合する技術とともに、当業者には周知である。プロセッサは、メモリにおける画像及び変数(または変数群)に関して動作し、メモリに変数(または変数群)を格納し又はメモリから変数(または変数群)を読み込むことができる。計算装置200はさらに、外部の装置読取可能な媒体206からの指示を読むように構成された装置と、画像を走査するためのスキャナー204とを備える。一の構成では、本明細書で開示した方法の一又は二以上の構成を実施するために計算装置200に指示を与えるように構成された指示を媒体206に記録する。
【0051】
所定のスレショルドを有する方法とは異なり、本発明の構成は、画像の背景が変化するときに自己学習を利用する。自己学習工程の範囲では、既存の知識を蓄積し、反復して用いる。工程が画素化された画像の列及び行を介して進行しながら、スレシュルドは一の構成において自己調整される。従って、本発明の構成は、均一でない背景又はテクスチャー背景と共によく作用する。一の構成では、方法は、すでに横断された画像の画素を利用してそれ自身で学習する。できた二値化画像は、光学式文字読取(OCR)の目的に特に適し、本発明の少なくとも一の構成でOCRを用いて処理される。
【0052】
本発明の他の構成では、二値化は、“リアルタイムで”すなわち画像の操作中に実施される。この構成は、上述の式(2)及び(3)のようにXlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)を初期設定することを除いて、図1に示したかつ上述した構成と同様であり、Xlow(i)及びYlow(j)を最小可能画素輝度値に初期設定しかつXhigh(i)及びYhigh(j)を最大可能画素輝度値に初期設定にする。(例えば、8ビット整数値内の全輝度値が可能である一の構成が、最小可能輝度値0及び最大可能輝度値255を有する。)また、画像の各走査線を得るときに図1の段階18で始まる変数j全体のループを実施する。しかしながら、画像は二値化が生ずるまではプレトレーニングに適していないので、プレトレーニングは実施しない。
【0053】
上述の本発明の構成では、二値化に際しては各画像画素の輝度又はグレー値を利用する。しかしながら、他の値(例えば、画素のRGB表示からR値又は画素のYIQ表示からQ値)を特定目的のために仕立てられた構成における輝度又はグレイ値につじつまが合うように置換することも可能である。
【0054】
本発明の記載は単なる例示であり、本発明の要旨から逸脱しない変更は本発明の範囲内になるように意図されている。このような変更は、本発明の精神及び範囲から逸脱するとはみなされない。
【図面の簡単な説明】
【図1】 カラー画像を二値化する方法の一の構成を示す流れ図である。
【図2】 図1で示した方法に入力として用いられるような、画像における画素の配列を示す図である。
【図3】 図1の方法を実施するのに適した計算システムの一の構成を示すブロック図である。
【符号の説明】
100 画像
102 第1の端
104 第2の端
106 第3の端
108 第4の端
200 計算装置
204 読取可能な媒体
206 スキャナー
【発明の属する技術分野】
本発明は、画像二値化法及び装置に関するものであり、特に具体的には、複雑な背景(バックグランド)のもとでのカラー又はグレイスケール画像の二値化法及び装置に関するものである。
【0002】
【従来の技術及び発明が解決しようとする課題】
白黒画像の光学式文字読取装置(OCR)は公知である。しかしながら、カラー文書の人気で、複雑な背景を伴うグレー階調及び/又はカラー文字のテキスト認識の必要性が生じている。例えば、この種の背景を有するテキストはよく広告及び雑誌で目にする。時々、複雑な模様の背景にテキストが描かれ、又は、背景が一の色から他の色へ徐々に変化するものがある。この種の背景は従来のグローバルスレショルド(全域しきい値)法によって処理することは困難である。
【0003】
より具体的には、グローバルスレショルド法は、少なくとも一の最新の光学式文字読取装置(OCR)のソフトウェアパッケージで利用されている。全画像についての単一グローバルスレショルドの生成は高速で簡単である。しかしながら、グローバルスレショルドは、画像の均一性が高い背景を有するときにだけ、満足した結果を提供する。ユーザーの介入がある場合、グローバルスレショルドを有するOCRソフトウェアは、均一でない照明を有する画像又は複雑な模様の背景のような複雑な背景を有する画像を処理することはできない。
【0004】
【課題を解決するための手段】
従って、本発明の一の構成は、第1行が画像の第1の端を形成し、最終行が第1の端と反対側に画像の第2の端を形成し、画像の第1列が画像の第3の端を形成し、画像の最終列が第3の端の反対側に第4の端を形成しているN行M列の画素を有する画像を二値化する方法を提供するものである。二値化された画素列を形成する方法が:
【0005】
(a)画像の各行については、行の局所的(ローカル)に低い画素値を表す第1の変数と、行の局所的に高い画素値を表す第2の変数と、画像の各列については、列の局所的に低い画素値を表す第3の変数と、列の局所的に高い画素値を表す第4の変数と、を初期設定する段階と;
【0006】
(b)第1行から最終行まで、画像の各行について段階(c)から段階(f)を反復して繰り返す段階と;
【0007】
(c)第1列から最終列まで、画像の各列について段階(d)から段階(f)を反復して繰り返す段階と;
【0008】
(d)位置指標(ロケーション指標)の行における第1の変数及び第2の変数と、位置指標の列における第3の変数及び第4の変数とに依存するスレショルド値を決定する段階であって、位置指標が繰り返される行と繰り返される列とに依存する段階と;
【0009】
(e)位置指標での画像画素を表す値を決定されたスレショルド値と比較する段階と;
【0010】
(f)比較結果によって、位置指標についての二値化画素を第1の値又は第2の値のいずれかに設定し、かつ、比較結果によって、第1の変数および第3の変数か第2の変数および第4の変数かのいずれかの値を調整する段階と;
を備えている。
【0011】
本発明の他の構成は、N行M列の画素であって、第1行は画像の第1の端を形成し、最終行は第1の端と反対側に画像の第2の端を形成し、画像の第1列が画像の第3の端を形成し、画像の最終列が第4の端を形成している画像を二値化する計算装置である。計算装置は、メモリと値を読みかつ格納するためにメモリに動作可能に結合されたプロセッサとを含み、計算装置は;
【0012】
(a)画像の各行については、局所的に低い第1の方向画素値を表す第1の変数と、局所的に高い第1の方向画素値を表す第2の変数と、画像の各列については、局所的に低い第2の方向画素値を表す第3の変数と、局所的に高い第2の方向画素値を表す第4の変数とをメモリに初期設定し;
【0013】
(b)第1行から最終行まで、画像の各行について段階(c)から段階(f)を反復して繰り返し;
【0014】
(c)第1列から最終列まで、画像の各列について段階(d)から段階(f)を反復して繰り返し;
【0015】
(d)位置指標の行において第1の変数及び第2の変数と、位置指標の列において第3の変数及び第4の変数とに依存するスレショルド値を決定し、ここで、位置指標は繰り返される行と繰り返される列とに依存するものであり;
【0016】
(e)位置指標での画像画素を表す値を決定されたスレショルド値と比較し;
【0017】
(f)メモリにおいて、比較結果に依存して、位置指標についての二値化画素を第1の値又は第2の値のいずれかに格納し、また、比較結果に依存して、第1の変数および第3の変数か第2の変数および第4の変数かのいずれかの格納された値に調整するように;構成され、
【0018】
ここで、(b)及び(c)の繰り返しがメモリで格納された二値化画素のアレイを形成する。
【0019】
本発明のさらに他の構成は、メモリと値を読込みかつ格納するためにメモリに動作可能に結合されたプロセッサとを有する計算装置に命令するように構成された命令を記録して有する機械可読媒体を提供するものであって、
【0020】
(a)第1行が画像の第1の端を形成し、最終行が第1の端と反対側に画像の第2の端を形成し、画像の第1列が画像の第3の端を形成し、画像の最終列が第3の端の反対側に第4の端を形成しているN行M列の画素を有する画像において、各カラムについて、局所的に低い第1の方向画素値を表す第1の変数と局所的に高い第1の方向画素値を表す第2の変数と、画像の各列については、局所的に低い第2の方向画素値を表す第3の変数と局所的に高い第2の方向画素値を表す第4の変数とをメモリにおいて初期設定し;
【0021】
(b)第1行から最終行まで、画像の各行について段階(c)から段階(f)を反復して繰り返し;
【0022】
(c)第1列から最終列まで、画像の各列について段階(d)から段階(f)を反復して繰り返し;
【0023】
(d)位置指標の行において第1の変数及び第2の変数と、位置指標の列において第3の変数及び第4の変数とに依存するスレショルド値を決定し、ここで、位置指標は繰り返される行と繰り返される列とに依存するものであり;
【0024】
(e)位置指標での画素を表す値を決定されたスレショルド値と比較し;
【0025】
(f)メモリにおいて、比較結果に依存して、位置指標についての二値化画素を第1の値又は第2の値のいずれかに格納し、また、比較結果に依存して、第1の変数および第3の変数か第2の変数および第4の変数かのいずれかの格納された値を調整するように;構成され、
【0026】
ここで、(b)及び(c)の繰り返しがメモリで格納された二値化画素のアレイを形成する。
【0027】
本発明のその他の応用用途は以下に示す詳細な説明から明らかである。詳細な説明及び特別の実施形態は本発明の好適な実施形態を示すものであるが、例示だけの目的であり、本発明の範囲を限定する意図ではないことは理解されたい。
【0028】
本発明は、詳細な説明及び添付図面によってさらによく理解できるだろう。
【0029】
図1は、カラー画像を二値化する方法の一の構成を示す流れ図である。
【0030】
図2は、図1で示した方法に入力として用いられるような、画像における画素の配列を示す図である。
【0031】
図3は、図1の方法を実施するのに適した計算システムの一の構成を示すブロック図である。
【0032】
【発明の実施の形態】
好適な実施形態の以下の説明は単に例示だけのものであり、本発明、その用途あるいは使用について限定する意図ではない。
【0033】
図1に示したように、本発明の一の構成10は、種々の複雑な背景のもとでカラー又はグレイスケール画像の二値化においてセルフラーニング(自己学習)法を具体化するものである。
【0034】
複雑な背景を有する多くの文書について、文書の背景は、テキストから裏のテキストへの移行及びその逆の移行を除いて、通常、走査の際に徐々に変化することがわかっている。画素が暗い領域ならば、周囲の領域のカラー背景の相関の結果として次の画素が暗い領域である確率が比較的高い。この仮定を用いると、走査が低コントラスト領域を通ると、次の隣接画素についてのスレショルドは同様に低く調整される。
【0035】
一の構成において図1に示したように、カラーで走査された書類をグレイスケール像に変換する(12)。例えば、RGB像(すなわち、各画素がR(赤)値、G(緑)値及びB(青)値を表す)をYIQ形式に変換する。輝度又はグレイスケール値を表すYIQ_Y値を二値化に用いる。(YIQ形式はNTSCカラーテレビ標準から公知のものであり、ここで、“Y”は知覚された輝度信号であり、“I”はR−Yから導出された色差信号であり、“Q”はB−Yから導出された色差信号である。ここで、“R”は赤信号であり、“B”は青色信号である。ここで用いたように、輝度信号又はグレイスケール信号がYIQ_Yと表示される。)
【0036】
カラー画像ではなくグレイスケールを用いた構成では、YIQへの変換12は必要なく、画素のグレイ値を直接用いる。
【0037】
第1の方向にN画素×第2の直交方向にM画素の画像について、以下の変数のメモリ所在を割当てて初期設定する(14):
【数28】
ここで、
iは、0からN−1の範囲の画像に行の指標(インデックス)であり、
jは、0からM−1の範囲の画像に列の指標であり、
Xlow(i)は局所的に低い行の値
Xhigh(i)は局所的に高い行の値
Ylow(j)は局所的に低い列の値
Yhigh(j)は局所的に高い列の値
である。
【0038】
図2は、画像100の第1の端102を形成する第1行(行番号0)と、第1の端102の反対側の第2の端104を示す最終行(行番号N−1)とを示した矩形画像の方位を示す図である。同様に、第1列(列番号0)は画像100の第3の端106を示し、最終列(列番号M−1)は端106の反対側の第4の端108を形成する。このマッピングはいくらか任意であり、できたマッピングが方法を通して首尾一貫して使用される限り、列及び/又は行を反対の順番で番号付けしてもよいし、画像をいずれかの方向に90度回転してもよい(すなわち、列と行の役割を交換してもよい)。しかしながら、例として、ここでは図2に示したマッピングを仮定する。
【0039】
一の構成では、ローカル変数の初期設定(14)は、走査された画像のYIQ表示から輝度YIQ_Yの最小値及び最大値を用いて実施する。そして、ローカル変数の初期設定(14)は、以下で示した関係を用いて決定する:
【数29】
ここで、
【数30】
すなわち、YIQ_YminはNxM画像における最小輝度であり、YIQ_YmaxはNxM画像における最大輝度であり、YIQ_Y(i,j)は指数i及び指数jでの画像の画素の強度である。
【0040】
繰り返しが完成するとき、走査された画像のYIQ表示の位置指標(i,j)で各画素にわたって繰り返し、二値化された画像を戻すために(20)、入れ子ループのセットを用いる。図1で示した構成では、変数i及びjはゼロに設定し(16)、iが画像の全幅にわたって繰り返されたか否かを決定するためにテストを行う(18)。繰り返されていたならば、繰り返しが完成(終了)し、二値化画像が戻る(20)。さもなければ、jが現在の指数iでの画像高さ全体にわたってjが繰り返されたか否かを決定するテストを行う。繰り返されたならば、i指数が増加し(24)、iが画像の全幅にわたって繰り返されていないならば、j全体の他のループが実施される。
【0041】
位置(i,j)では、以下に記載された関係を用いて、ローカルスレショルドT(i,j)を決定する(26):
【数31】
対応する位置(i,j)でのY値YIQ_Y(i,j)を、この局所スレショルドと比較する(28)。もしも、
【数32】
ならば、符号30に進み、
【数33】
さもなければ、符号32に進む:
【数34】
ここで、
*(アスタリスク)は掛け算を意味し、
B(i,j)は、メモリに格納された位置指標(i,j)での決定された二値化された画像画素であり、
wはパラメータである。
【0042】
一の構成では、0のB(i,j)は黒にマッピングされ、1の値は白にマッピングされる。しかしながら、他の構成では、異なるが対応するマッピングが適用される。
【0043】
Xlow(i)及びYlow(j)、又は、Xhigh(i)及びYhigh(j)のいずれかにおける変化を観察することによって評価されるように、各スレショルドの比較(28)の結果(30,32)に依存して、スレショルドT(i,j)は画像が走査されるときに適用できるように変化する。また、画像の二値化中、Xlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)になされる更新のために、特定の(i,j)画素位置での値は、実際の最小及び最大、輝度の値を全域的(グローバル)に又は局所的(ローカル)に表示する必要はない。
【0044】
一の構成におけるパラメータwは、Xlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)についての“局在化領域”を規定するものと考えてもよいユーザー調整可能なパラメータである。しかしながら、パラメータwは、本発明の全構成において調整可能である必要でない。一の構成では、パラメータwは画像解像度に依存して設定される。当業者であれば、Xlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)に対する変化が、計算カーネルを利用して一の演算を表すことが理解できる。上述の式によって示されたカーネルは、i及びjの現在の位置指標値にだけ依存するが、他の構成では、隣接する列及び行のような付加的な列又は行でのXlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)の重み付きの値についての依存性を含む他のカーネルを用いる。
【0045】
処理される画素が多いほど、スレショルドT(i,j)の二値化について信頼性は向上する。T(i,j)の各値を決定するためのXlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)の値の信頼性も向上する。
【0046】
本発明の一の構成におけるパフォーマンスをさらに向上するために、一の構成では、ローカル変数の初期設定(14)の後でかつループ繰り返しの前(例えば、図1の段階14と段階16の間)に、プレトレーニング(予め教え込む)工程を変数Xlow(i)及びXhigh(i)と変数Ylow(j)及びYhigh(j)に適用する。以下の擬コードは、4つの分離したプレトレーニング処理を示す。ここで、A_1,A_2,A_3,A_4は各手続についてのラベルである:
A_1: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
とする。
A_2: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
とする。
A_3: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
とする。
A_4: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
とする。
【0047】
本発明の一の構成では、プレトレーニングは、A_1,A_2,A_3,A_4の全4つのプレトレーニング処理を行うことによって実施する。他の構成では、2つのプレトレーニング処理、すなわち、A_1及びA_2から一の処理をかつA_3及びA_4から他の処理を選択して行う。(例えば、一のこのような構成では、プレトレーニング処理A_1及びA_3を実施する。)このような構成であってもよいが、そうでなくてもよく、プレトレーニング処理の4つの異なる組合せのうちから選択してもよい。他の構成では、4つのプレトレーニング処理のいずれも実施しない。
【0048】
M_1,N_1,M_2,N_2は、初期トレーニングを実施する領域(エリア)のサイズを規定する:
【数35】
である。
(通常、境界M_1及びM_2又はN_1及びN_2が等しいループでは、ループを一度実施する。)
【0049】
プレトレーニング処理A_1,A_2,A_3,A_4のうちのいずれかを用いる構成でも、画像(全画像であってもよい)の矩形サブセット全体でプレトレーニングを実施する。サブセットが大きいときは、パラメータXlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)についてさらにトレーニング又は学習を実行する。本発明の一の構成におけるM_1,N_1,M_2,N_2の値を所望の計算速度に対応して選択される。というのは、大きなプレトレーニング領域にはより長い計算時間がかかるからである。
【0050】
本発明の一の構成は、図3に示したように、本明細書で開示した方法を実施するのに適した計算装置200を備える。計算装置200は、プロセッサとプロセッサに動作可能に結合されたメモリとを備える。図3にはプロセッサもメモリも示していないが、いずれもプロセッサをメモリに動作可能に結合する技術とともに、当業者には周知である。プロセッサは、メモリにおける画像及び変数(または変数群)に関して動作し、メモリに変数(または変数群)を格納し又はメモリから変数(または変数群)を読み込むことができる。計算装置200はさらに、外部の装置読取可能な媒体206からの指示を読むように構成された装置と、画像を走査するためのスキャナー204とを備える。一の構成では、本明細書で開示した方法の一又は二以上の構成を実施するために計算装置200に指示を与えるように構成された指示を媒体206に記録する。
【0051】
所定のスレショルドを有する方法とは異なり、本発明の構成は、画像の背景が変化するときに自己学習を利用する。自己学習工程の範囲では、既存の知識を蓄積し、反復して用いる。工程が画素化された画像の列及び行を介して進行しながら、スレシュルドは一の構成において自己調整される。従って、本発明の構成は、均一でない背景又はテクスチャー背景と共によく作用する。一の構成では、方法は、すでに横断された画像の画素を利用してそれ自身で学習する。できた二値化画像は、光学式文字読取(OCR)の目的に特に適し、本発明の少なくとも一の構成でOCRを用いて処理される。
【0052】
本発明の他の構成では、二値化は、“リアルタイムで”すなわち画像の操作中に実施される。この構成は、上述の式(2)及び(3)のようにXlow(i)、Ylow(j)、Xhigh(i)及びYhigh(j)を初期設定することを除いて、図1に示したかつ上述した構成と同様であり、Xlow(i)及びYlow(j)を最小可能画素輝度値に初期設定しかつXhigh(i)及びYhigh(j)を最大可能画素輝度値に初期設定にする。(例えば、8ビット整数値内の全輝度値が可能である一の構成が、最小可能輝度値0及び最大可能輝度値255を有する。)また、画像の各走査線を得るときに図1の段階18で始まる変数j全体のループを実施する。しかしながら、画像は二値化が生ずるまではプレトレーニングに適していないので、プレトレーニングは実施しない。
【0053】
上述の本発明の構成では、二値化に際しては各画像画素の輝度又はグレー値を利用する。しかしながら、他の値(例えば、画素のRGB表示からR値又は画素のYIQ表示からQ値)を特定目的のために仕立てられた構成における輝度又はグレイ値につじつまが合うように置換することも可能である。
【0054】
本発明の記載は単なる例示であり、本発明の要旨から逸脱しない変更は本発明の範囲内になるように意図されている。このような変更は、本発明の精神及び範囲から逸脱するとはみなされない。
【図面の簡単な説明】
【図1】 カラー画像を二値化する方法の一の構成を示す流れ図である。
【図2】 図1で示した方法に入力として用いられるような、画像における画素の配列を示す図である。
【図3】 図1の方法を実施するのに適した計算システムの一の構成を示すブロック図である。
【符号の説明】
100 画像
102 第1の端
104 第2の端
106 第3の端
108 第4の端
200 計算装置
204 読取可能な媒体
206 スキャナー
Claims (24)
- 第1行が画像の第1の端を形成し、最終行が第1の端と反対側に画像の第2の端を形成し、画像の第1列が画像の第3の端を形成し、画像の最終列が第3の端の反対側に第4の端を形成しているN行M列の画素を有する画像を二値化する方法であって、二値化された画素のアレイを形成する方法が:
(a)行の局所的に低い画素値を表す第1の変数と、行の局所的に高い画素値を表す第2の変数と、列の局所的に低い画素値を表す第3の変数と、列の局所的に高い画素値を表す第4の変数と、を初期設定する段階と;
(b)第1行から最終行まで、画像の各行について段階(c)から段階(f)を反復して繰り返す段階と;
(c)第1列から最終列まで、画像の各列について段階(d)から段階(f)を反復して繰り返す段階と;
(d)位置指標の行における第1の変数及び第2の変数と位置指標の列における第3の変数及び第4の変数とに依存するスレショルド値を決定する段階であって、位置指標は、段階(b)によって決定される行と段階(c)によって決定される列とを示す段階と;
(e)位置指標での画像画素を表す値を決定されたスレショルド値と比較する段階と;
(f)比較結果によって、位置指標についての二値化画素を黒画素を示す値又は白画素を示す値のいずれかに設定し、かつ、比較結果によって、第1の変数および第3の変数か第2の変数および第4の変数かのいずれかの値を調整する段階と;
を備え、
i=0,…,N−1についての前記第1の変数をX low (i)と記述し、i=0,…,N−1についての前記第2の変数をX high (i)と記述し、j=0からM−1についての前記第3の変数をY low (j)と記述し、j=0からM−1についての前記第4の変数をY high (j)と記述すると、比較結果によって第1の変数および第3の変数か第2の変数および第4の変数かのいずれかの値を調整する段階が、前記スレショルド値の方が大きい場合には、
ここで、
wはパラメータを示し、
*(アスタリスク)は掛け算を示し、
iは行の位置指数を示し、
jは列の位置指数を示し、
YIQ_Y(i,j)は位置指数での画像の画素の輝度値を示し、
スレショルドが以下の式で表される方法。
- 画像がカラー画像であり、画像画素を表す前記の値が画像画素を表すグレイスケール値であり、さらに、段階(a)の前に、カラー画像をグレイスケール画像に変換する段階を備えた請求項1に記載の方法。
- カラー画像をグレイスケール画像に変換する段階が、RGB表示によって表された画像をYIQ表示で表された画像に変換する段階を備え、前記グレイスケール値がYIQ_Y(輝度)値である請求項2に記載の方法。
- さらに、N行M列の画素を得るために、カラー画像を走査する段階を備えた請求項2に記載の方法。
- さらに、二値化された画素のアレイについて光学式文字読取を実施する段階を備えた請求項1に記載の方法。
- さらに、段階(a)と段階(b)との間に、プレトレーニング処理A_1とプレトレーニング処理A_2とから選択された第1のプレトレーニング処理とプレトレーニング処理A_3とプレトレーニング処理A_4とから選択された第2のプレトレーニング処理とを用いて、Xlow(i)、Xhigh(i)、Ylow(j)及びYhigh(j)の値をプレトレーニングする段階を備えた請求項6に記載の方法:
ここで、プレトレーニング処理A_1は、
A_1: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_2は、
A_2: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_3は、
A_3: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_4は、
A_4: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
ここで、
- さらに、段階(a)と段階(b)との間に、A_1とA_2とA_3とA_4の4つのプレトレーニング処理を用いて、Xlow(i)、Xhigh(i)、Ylow(j)及びYhigh(j)の値をプレトレーニングする段階を備えた請求項6に記載の方法:
ここで、プレトレーニング処理A_1は、
A_1: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_2は、
A_2: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_3は、
A_3: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_4は、
A_4: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
ここで、
- N行M列の画素であって、第1行は画像の第1の端を形成し、最終行は第1の端と反対側に画像の第2の端を形成し、画像の第1列が画像の第3の端を形成し、画像の最終列が第4の端を形成している画像を二値化する計算装置であって、メモリと値を読みかつ格納するためにメモリに動作可能に結合されたプロセッサとを含む計算装置は;
(a)局所的に低い第1の方向画素値を表す第1の変数と、局所的に高い第1の方向画素値を表す第2の変数と、局所的に低い第2の方向画素値を表す第3の変数と、局所的に高い第2の方向画素値を表す第4の変数とをメモリに初期設定し;
(b)第1行から最終行まで、画像の各行について(c)から(f)を反復して繰り返し;
(c)第1列から最終列まで、画像の各列について(d)から(f)を反復して繰り返し;
(d)段階(b)によって決定される行と段階(c)によって決定される列とを示す位置指標の行における第1の変数及び第2の変数と位置指標の列における第3の変数及び第4の変数とに依存するスレショルド値を決定し;
(e)位置指標での画像画素を表す値を決定されたスレショルド値と比較し;
(f)前記メモリにおいて、比較結果に依存して、位置指標についての二値化画素を黒画素を示す値又は白画素を示す値のいずれかに格納し、かつ、比較結果に依存して、第1の変数および第3の変数か第2の変数および第4の変数かのいずれかの格納された値を調整するように;構成され、
(b)及び(c)の繰り返しが前記メモリで格納された二値化画素のアレイを形成し、
i=0,…,N−1についての前記第1の変数をX low (i)と記述し、i=0,…,N−1についての前記第2の変数をX high (i)と記述し、j=0からM−1についての前記第3の変数をY low (j)と記述し、j=0からM−1についての前記第4の変数をY high (j)と記述すると、比較結果によって第1の変数および第3の変数か第2の変数および第4の変数かのいずれかの値を調整するために、前記スレショルド値が大きい場合には、
ここで、
wはパラメータを示し、
*(アスタリスク)は掛け算を示し、
iは行の位置指数を示し、
jは列の位置指数を示し、
YIQ_Y(i,j)は位置指数での画像の画素の輝度値を示し、
スレショルドが以下の式で表される装置。
- 画像がカラー画像であり、画像画素を表す前記の値が画像画素を表すグレイスケール値であり、さらに、段落(a)の前に、カラー画像をグレイスケール画像に変換するように構成された請求項9に記載の装置。
- カラー画像をグレイスケール画像に変換するために、さらに、RGB表示によって表された画像をYIQ表示で表された画像に変換するように構成され、前記グレイスケール値がYIQ_Y(輝度)値である請求項10に記載の装置。
- さらにスキャナーを備え、さらに、N行M列のカラー画像を得るために、カラー画像を走査するように構成された請求項10に記載の装置。
- さらに、二値化された画素の前記アレイについて光学式文字読取を実施するように構成された請求項9に記載の装置。
- さらに、段階(a)と段階(b)との間に、プレトレーニング処理A_1とプレトレーニング処理A_2とから選択された第1のプレトレーニング処理とプレトレーニング処理A_3とプレトレーニング処理A_4とから選択された第2のプレトレーニング処理とを用いて、前記メモリに格納されたXlow(i)、Xhigh(i)、Ylow(j)及びYhigh(j)の値をプレトレーニングするように構成された請求項14に記載の装置:
ここで、プレトレーニング処理A_1は、
A_1: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_2は、
A_2: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_3は、
A_3: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_4は、
A_4: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
ここで、
- さらに、段階(a)と段階(b)との間に、A_1とA_2とA_3とA_4の4つのプレトレーニング処理を用いて、前記メモリに格納されたXlow(i)、Xhigh(i)、Ylow(j)及びYhigh(j)の値をプレトレーニングするように構成された請求項14に記載の装置:
ここで、プレトレーニング処理A_1は、
A_1: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_2は、
A_2: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_3は、
A_3: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_4は、
A_4: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
ここで、
- メモリと値を読込みかつ格納するためにメモリに動作可能に結合されたプロセッサとを有する計算装置に指示するための命令を記録して有する機械読込可能媒体であって:
(a)第1行が画像の第1の端を形成し、最終行が第1の端と反対側に画像の第2の端を形成し、画像の第1列が画像の第3の端を形成し、画像の最終列が第3の端の反対側に第4の端を形成しているN行M列の画素を有する画像において、局所的に低い第1の方向画素値を表す第1の変数と局所的に高い第1の方向画素値を表す第2の変数と、局所的に低い第2の方向画素値を表す第3の変数と局所的に高い第2の方向画素値を表す第4の変数とをメモリにおいて初期設定し;
(b)第1行から最終行まで、画像の各行について(c)から(f)を反復して繰り返し;
(c)第1列から最終列まで、画像の各列について(d)から(f)を反復して繰り返し;
(d)段階(b)によって決定される行と段階(c)によって決定される列とを示す位置指標の行における第1の変数及び第2の変数と位置指標の列における第3の変数及び第4の変数とに依存するスレショルド値を決定し;
(e)位置指標での画素を表す値を決定されたスレショルド値と比較し;
(f)比較結果に依存して、位置指標についての二値化画素を黒画素を示す値又は白画素 を示す値のいずれかをメモリに格納し、かつ、比較結果に依存して、第1の変数および第3の変数か第2の変数および第4の変数かのいずれかについての格納された値を調整するように;構成され、
(b)及び(c)の繰り返しがメモリで格納された二値化画素のアレイを形成し、
i=0,…,N−1についての前記第1の変数をX low (i)と記述し、i=0,…,N−1についての前記第2の変数をX high (i)と記述し、j=0からM−1についての前記第3の変数をY low (j)と記述し、j=0からM−1についての前記第4の変数をY high (j)と記述すると、比較結果によって第1の変数および第3の変数か第2の変数および第4の変数かのいずれかの値を調整するために、前記スレショルド値が大きい場合には、
ここで、
wはパラメータを示し、
*(アスタリスク)は掛け算を示し、
iは行の位置指数を示し、
jは列の位置指数を示し、
YIQ_Y(i,j)は位置指数での画像の画素の輝度値を示し、
スレショルドが以下の式で表される機械読取可能媒体。
- 画像がカラー画像であり、画像画素を表す前記の値が画像画素を表すグレイスケール値であり、さらに、段落(a)の前に、カラー画像をグレイスケール画像に変換するように計算装置に指示する命令を記録して有するように構成された請求項17に記載の媒体。
- カラー画像をグレイスケール画像に変換するために、さらに、RGB表示によって表された画像をYIQ表示で表された画像に変換するように計算装置に指示する命令を記録して有するように構成され、前記グレイスケール値がYIQ_Y(輝度)値である請求項18に記載の媒体。
- さらにスキャナーを備え、さらに、N行M列のカラー画像を得るためにスキャナーを用いて、カラー画像を走査するという命令を記録して有するように構成され請求項18に記載の媒体。
- さらに、二値化された画素の前記アレイについて光学式文字読取を実施するように計算装置に指示する命令を記録して有するように構成された請求項17に記載の媒体。
- さらに、段階(a)と段階(b)との間に、プレトレーニング処理A_1とプレトレーニング処理A_2とから選択された第1のプレトレーニング処理とプレトレーニング処理A_3とプレトレーニング処理A_4とから選択された第2のプレトレーニング処理とを用いて、前記メモリに格納されたXlow(i)、Xhigh(i)、Ylow(j)及びYhigh(j)の値をプレトレーニングするように計算装置に指示する命令を記録して有するように構成された請求項22に記載の媒体:
ここで、プレトレーニング処理A_1は、
A_1: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_2は、
A_2: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_3は、
A_3: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_4は、
A_4: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
ここで、
- さらに、段階(a)と段階(b)との間に、A_1とA_2とA_3とA_4の4つのプレトレーニング処理を用いて、前記メモリに格納されたXlow(i)、Xhigh(i)、Ylow(j)及びYhigh(j)の値をプレトレーニングするように計算装置に指示する命令を記録して有するように構成された請求項22に記載の媒体:
ここで、プレトレーニング処理A_1は、
A_1: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_2は、
A_2: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Xlow(i)+Xhigh(i))/2ならば、
Xlow(i)=(Xlow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Xhigh(i)=(Xhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_3は、
A_3: i=N_1からi=N_2について、
j=M_1からj=M_2について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
プレトレーニング処理A_4は、
A_4: i=N_2からi=N_1について、
j=M_2からj=M_1について、
YIQ_Y(i,j)<(Ylow(i)+Yhigh(i))/2ならば、
Ylow(i)=(Ylow(i)*YIQ_Y(i,j))/(w+1)とし、
さもなければ、Yhigh(i)=(Yhigh(i)*YIQ_Y(i,j))/(w+1)
と記述され、
ここで、
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/990,096 US6950210B2 (en) | 2001-11-21 | 2001-11-21 | Method and apparatus for adaptively binarizing color document images |
US09/990,096 | 2001-11-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003198861A JP2003198861A (ja) | 2003-07-11 |
JP3833993B2 true JP3833993B2 (ja) | 2006-10-18 |
Family
ID=25535754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002336964A Expired - Fee Related JP3833993B2 (ja) | 2001-11-21 | 2002-11-20 | カラー文書画像を二値化する方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6950210B2 (ja) |
JP (1) | JP3833993B2 (ja) |
CN (1) | CN1237475C (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042735B (zh) * | 2006-03-23 | 2010-11-17 | 株式会社理光 | 图像二值化方法和装置 |
JP4834603B2 (ja) * | 2007-05-09 | 2011-12-14 | 京セラミタ株式会社 | 画像処理装置、画像形成装置 |
CN101727583B (zh) * | 2008-10-22 | 2013-03-20 | 富士通株式会社 | 用于文档图像的自适应二值化方法和设备 |
US8761511B2 (en) * | 2009-09-30 | 2014-06-24 | F. Scott Deaver | Preprocessing of grayscale images for optical character recognition |
CN102270340B (zh) * | 2011-09-05 | 2014-09-17 | 上海盛轩网络科技有限公司 | 基于笔画算子的文本图像增强方法及系统 |
KR101996917B1 (ko) * | 2012-07-20 | 2019-10-02 | 삼성디스플레이 주식회사 | 평판 검사 방법 및 장치 |
US9542736B2 (en) * | 2013-06-04 | 2017-01-10 | Paypal, Inc. | Evaluating image sharpness |
US9652817B2 (en) * | 2015-03-12 | 2017-05-16 | Samsung Electronics Co., Ltd. | Automated compute kernel fusion, resizing, and interleave |
CN105180732B (zh) * | 2015-07-24 | 2018-07-27 | 成都市计量检定测试院 | 钢卷尺刻度误差测量方法 |
CN105809715B (zh) * | 2016-03-07 | 2018-07-27 | 南京航空航天大学 | 一种基于帧间累计变化矩阵的视觉运动目标检测方法 |
US20180122079A1 (en) * | 2016-10-27 | 2018-05-03 | Qualcomm Incorporated | Systems and methods for determining histograms |
US10922801B2 (en) | 2017-07-19 | 2021-02-16 | Lockheed Martin Corporation | Channel-based binarization of color |
US11508172B2 (en) * | 2017-12-28 | 2022-11-22 | Dst Technologies, Inc. | Identifying location of shreds on an imaged form |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4823194A (en) * | 1986-08-01 | 1989-04-18 | Hitachi, Ltd. | Method for processing gray scale images and an apparatus thereof |
US5184213A (en) * | 1989-09-20 | 1993-02-02 | Toyo Ink Mfg. Co., Ltd. | Binarizing method for color image using modified error diffusion method |
JPH07104921B2 (ja) * | 1989-11-17 | 1995-11-13 | 松下電器産業株式会社 | 画像閾値決定方法 |
US5268773A (en) * | 1990-03-30 | 1993-12-07 | Samsung Electronics Co., Ltd. | Document image signal processor having an adaptive threshold |
US5200841A (en) * | 1990-05-25 | 1993-04-06 | Nikon Corporation | Apparatus for binarizing images |
JPH04227581A (ja) * | 1990-06-08 | 1992-08-17 | Omron Corp | 画像の2値化閾値算出装置 |
US5915049A (en) * | 1992-02-25 | 1999-06-22 | Pfu Limited | Binarization system for an image scanner |
JP3313447B2 (ja) * | 1993-03-19 | 2002-08-12 | 株式会社リコー | 画像処理装置 |
KR0136067B1 (ko) * | 1994-08-12 | 1998-04-27 | 김광호 | 이치화상 프로세서 |
US5621815A (en) * | 1994-09-23 | 1997-04-15 | The Research Foundation Of State University Of New York | Global threshold method and apparatus |
JPH096957A (ja) * | 1995-06-23 | 1997-01-10 | Toshiba Corp | 濃度画像の2値化方法および画像2値化装置 |
US5949901A (en) * | 1996-03-21 | 1999-09-07 | Nichani; Sanjay | Semiconductor device image inspection utilizing image subtraction and threshold imaging |
US6192163B1 (en) * | 1996-10-29 | 2001-02-20 | Seiko Epson Corporation | Image processing method and image processing apparatus |
US6055336A (en) * | 1996-11-18 | 2000-04-25 | Canon Kabushiki Kaisha | Image processing system which converts multi-value image data into binary image data |
GB9711024D0 (en) * | 1997-05-28 | 1997-07-23 | Rank Xerox Ltd | Image enhancement and thresholding of images |
US6061476A (en) * | 1997-11-24 | 2000-05-09 | Cognex Corporation | Method and apparatus using image subtraction and dynamic thresholding |
US6195467B1 (en) * | 1999-03-25 | 2001-02-27 | Image Processing Technologies, Inc. | Method and apparatus for sharpening a grayscale image |
US6498660B2 (en) * | 2001-02-16 | 2002-12-24 | Oak Technology, Inc. | System and method for the dynamic thresholding of grayscale image data |
-
2001
- 2001-11-21 US US09/990,096 patent/US6950210B2/en not_active Expired - Fee Related
-
2002
- 2002-11-20 CN CNB021513988A patent/CN1237475C/zh not_active Expired - Fee Related
- 2002-11-20 JP JP2002336964A patent/JP3833993B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1237475C (zh) | 2006-01-18 |
US6950210B2 (en) | 2005-09-27 |
CN1420472A (zh) | 2003-05-28 |
JP2003198861A (ja) | 2003-07-11 |
US20030095270A1 (en) | 2003-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6985631B2 (en) | Systems and methods for automatically detecting a corner in a digitally captured image | |
CN1954339B (zh) | 用于将图像从低动态范围转换为高动态范围的方法和系统 | |
KR101376701B1 (ko) | 화상처리장치, 촬상장치, 화상출력장치, 이들 장치에있어서의 방법 및 프로그램 | |
US6577762B1 (en) | Background surface thresholding | |
US8090218B2 (en) | Imaging system performance measurement | |
JP3833993B2 (ja) | カラー文書画像を二値化する方法及び装置 | |
JP2818448B2 (ja) | 自動文書セグメンテーションのためのシステム及び方法 | |
RU2726185C1 (ru) | Детектирование и идентификация объектов на изображениях | |
JP5768590B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
US5796410A (en) | Generation and use of defective images in image analysis | |
CN101228550A (zh) | 图像的二值化 | |
JP4123356B2 (ja) | 画像処理装置、画像処理プログラム、記憶媒体 | |
CN112801904B (zh) | 一种基于卷积神经网络的混合退化图像增强方法 | |
US7885486B2 (en) | Image processing system, method for processing image and computer readable medium | |
JP5870745B2 (ja) | 画像処理装置、二値化閾値算出方法及びコンピュータプログラム | |
CN107220934A (zh) | 图像重建方法及装置 | |
JP4441300B2 (ja) | 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体 | |
JPH04213774A (ja) | イメージ処理の方法及びシステム | |
CN108133205B (zh) | 复制图像中文本内容的方法及装置 | |
JP4756436B2 (ja) | パターン認識装置とそのパターン認識方法、及びパターン認識プログラム | |
CN115909378A (zh) | 单据文本检测模型的训练方法及单据文本检测方法 | |
KR20180061496A (ko) | 초해상화 방법 | |
JP4355305B2 (ja) | 画像処理装置、コンピュータプログラム、及び記録媒体 | |
JP5337844B2 (ja) | 領域検出装置、領域検出方法及びプログラム | |
JP4890351B2 (ja) | 画像処理装置、画像処理プログラムおよび該画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060720 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |