JP5900208B2 - 画像処理装置及び画像処理方法 - Google Patents

画像処理装置及び画像処理方法 Download PDF

Info

Publication number
JP5900208B2
JP5900208B2 JP2012156686A JP2012156686A JP5900208B2 JP 5900208 B2 JP5900208 B2 JP 5900208B2 JP 2012156686 A JP2012156686 A JP 2012156686A JP 2012156686 A JP2012156686 A JP 2012156686A JP 5900208 B2 JP5900208 B2 JP 5900208B2
Authority
JP
Japan
Prior art keywords
gradation
region
diagram
image
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012156686A
Other languages
English (en)
Other versions
JP2013025807A (ja
Inventor
ジォン・ダニエヌ
スヌ・ジュヌ
直井 聡
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2013025807A publication Critical patent/JP2013025807A/ja
Application granted granted Critical
Publication of JP5900208B2 publication Critical patent/JP5900208B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40062Discrimination between different image types, e.g. two-tone, continuous tone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、画像処理装置及び画像処理方法に関し、具他的には、画像中の文字及び線を認識するための画像処理装置及び画像処理方法に関する。
文書から文字及び図面を分離する技術は有用であり、文書の分布に対する分析、文書画像の各層ごとで圧縮することなどに利用することができる。商業化された製品に含まれる文書画像の圧縮技術としては、例えばカラーモードにおいて300DPIでサンプリングする場合は、典型的な雑誌ページを40〜60KBまで圧縮することができる。このような圧縮率はJPEG圧縮率の略5〜10倍であり、主観的な近似画像の品質も維持される。典型的な画像圧縮技術は、先ず二次元の隠れマルコフモデル(HMM:Hidden Markov Model)により前景(文字)と背景(図及び文書背景)とを分ける。しかし、このような技術では、前景を分離する初期段階にしばしば分割過ぎてしまい、大量の明らかなエラーを各種の周波数フィルタを用いて削除する必要がある。
本発明は、上述の従来技術の問題点に鑑み、画像における文字及び/又は線を識別できる画像処理装置及び画像処理方法を提供することを目的とする。
本発明の一の態様は、処理される画像の局部平均値図を生成する局部平均値図生成部と、前記画像の二値化図を生成する二値化図生成部であって、前記二値化図において、前記画像における高周波数領域に対応する画素が第1の階調を有し、前記画像における低周波数領域に対応する画素が第2の階調を有する、二値化図生成部と、前記画像と前記局部平均値図とを比較して、前記二値化図における前記第1の階調を有する領域を、前記第1の階調を有する領域と第3の階調を有する領域とに区分することで、三値化図を生成する三値化図生成部と、前記三値化図において前記第2の階調を有する連続領域を識別し、前記連続領域の境界において前記第1の階調を有する画素の前記第3の階調を有する画素に対する数の比率が所定の閾値を超えた場合は、前記連続領域を前記第1の階調で充填し、前記連続領域の境界において前記第3の階調を有する画素の前記第1の階調を有する画素に対する数の比率が前記所定の閾値を超えた場合は、前記連続領域を前記第3の階調で充填する充填部と、前記充填された三値化図における対象境界の階調の一致度に基づいて、前記画像における文字及び/又は線を識別する識別部と、を含む画像処理装置を提供する。
また、本発明の他の態様は、処理される画像の局部平均値図を生成するステップと、前記画像の二値化図を生成するステップであって、前記二値化図において、前記画像における高周波数領域に対応する画素が第1の階調を有し、前記画像における低周波数領域に対応する画素が第2の階調を有する、ステップと、前記画像と前記局部平均値図とを比較して、前記二値化図における前記第1の階調を有する領域を、前記第1の階調を有する領域と第3の階調を有する領域とに区分することで、三値化図を生成するステップと、前記三値化図において前記第2の階調を有する連続領域を識別し、前記連続領域の境界において前記第1の階調を有する画素の前記第3の階調を有する画素に対する数の比率が所定の閾値を超えた場合は、前記連続領域を前記第1の階調で充填し、前記連続領域の境界において前記第3の階調を有する画素の前記第1の階調を有する画素に対する数の比率が前記所定の閾値を超えた場合は、前記連続領域を前記第3の階調で充填するステップと、前記充填された三値化図における対象境界の階調の一致度に基づいて、前記画像における文字及び/又は線を識別するステップと、を含む画像処理方法を提供する。
本発明によれば、画像における文字及び/又は線を識別できる画像処理装置及び画像処理方法を提供することができる。
本発明の実施例に係る画像処理装置の構成例を示す図である。 画像処理の対象の例を示す図である。 図2Aに示す画像の局部平均値図である。 図2Aに示す画像の局部バリオグラム(variogram)である。 図2Aに示す画像及びその局部平均値図に基づいて生成された三値化図である。 充填された図2Dの三値化図である。 図2Eの充填された三値化図から識別された対象を示す図である。 明るい色の背景における濃い色の文字を識別する具体例を示す図である。 濃い色の背景における明るい色の文字を識別する具体例を示す図である。 文字及び線を含まない画像部分に対する処理結果の例を示す図である。 本発明の他の実施例に係る画像処理装置の構成例を示すブロック図である。 四値化図に対して指向性を有する拡張を行う例を示す図である。 四値化図に対して指向性を有する拡張を行う例を示す図である。 四値化図に対して指向性を有する拡張を行う例を示す図である。 A及びBは、四値化図から分離された文字の例を示す図である。。 本発明の実施例に係る画像処理装置による図形、文字及び線を含む画像の処理結果の例を示す図である。 本発明の実施例に係る画像処理装置による図形、文字及び線を含む画像の処理結果の例を示す図である。 本発明の実施例に係る画像処理方法を示すフローチャートである。 本発明の他の実施例に係る画像処理方法を示すフローチャートである。 本発明に係る画像処理装置及び画像処理方法を実現するためのコンピュータの構成例を示すブロック図である。
本発明の上述の及びその他の目的、特徴及び効果は、図面を参照しながら、好適な実施形態の詳細な説明に示されるように、明らかである。
次に、本発明を実施するための形態を図面に基づいて説明する。
図1は、本発明の実施例に係る画像処理装置の構成例を示している。画像処理装置100は、局部平均値図生成部110、二値化図生成部120、三値化図生成部130、充填部140、及び識別部150を含む。
画像処理装置100の処理対象としての画像は、グレースケール画像又はカラー画像(カラー画像の場合は、本発明の技術分野における通常の方法でカラー画像をグレースケール画像に変換してもよい)であってもよい。この画像は、図形、文字及び線などの内容を含んでもよい。画像処理装置100は、入力画像が高度に圧縮された画像である場合は、低域フィルター(例えばガウスフィルター)を用いて、画像を平滑化し、圧縮によるノイズを抑制してもよい。
例えば、図2Aに画像処理装置100の処理対象としての入力画像の例を示す。この画像は、左上部の比較的大きな文字、左下部の比較的小さな文字、及び右側の図形を含む。
入力画像は局部平均値図生成部110に供給され、局部平均値図生成部110は入力された画像に基づいて局部平均値図を計算(生成)する。具体的には、局部平均値図生成部110は、局部ウインドウ(5ピクセル×5ピクセル、又は7ピクセル×7ピクセルのウインドウ)を用いて、局部平均値を画素毎に計算して局部平均値図を生成する。本発明の実施例では、処理対象の画像内の文字(文字の字画)及び/又は線の太さに基づいて、局部平均値図生成部110に用いられる局部ウインドウのサイズを設定してもよい。
例えば、図2Bは、局部平均値図生成部110が図2Aに例示される入力画像に基づいて生成された局部平均値図を示している。
入力画像は二値化図生成部120にも供給される。二値化図生成部120は、入力画像に基づいて二値化図を生成する。二値化図においては、入力画像における高周波数領域に対応する位置にある画素が第1の階調を有し、入力画像における低周波数領域に対応する位置にある画素が第2の階調を有する。例えば、局部バリオグラム(variogram)又はグラデーション(gradient)図であってもよく、二値化図生成部120は局部ウインドウ(例えば5ピクセル×5ピクセル、又は7ピクセル×7ピクセルのウインドウ)を用いて、局部の平方偏差(variance)又は階調度(gradient)を画素毎に計算して二値化図を生成してもよい。本発明の実施例では、処理対象の画像における文字及び/又は線の太さに基づいて、二値化図生成部120に用いられる局部ウインドウのサイズを設定してもよい。
本発明の一つの具他的な実施例では、8ビット(合計256階調)のグレースケール画像を用いる場合は、第1の階調を0(黒)に設定し、第2の階調を255(白)に設定する。
例えば、図2Cは、二値化図生成部120が図2Aに示す入力画像に基づいて生成した局部バリオグラムを示している。この局部バリオグラムにおいて、入力画像における高周波数領域(高平方偏差を有する領域)に対応する領域は階調0(黒い部分)を有し、入力画像における低周波数領域(低平方偏差を有する領域)に対応する領域は階調255(白い部分)を有する。
二値化図生成部120は、入力画像に基づいて生成した二値化図を三値化図生成部130に供給する。三値化図生成部130は、入力画像と局部平均値図とを比較して、二値化図生成部120から供給された二値化図内の第1の階調を有する領域を、第1の階調を有する領域と第3の階調を有する領域とに区分することで、三値化図を生成する。
本発明の一つの実施例では、三値化図生成部130は、以下の規則に従って、二値化図を区部して三値化図を生成する。
V(i,j)=0且つI(i,j)≦M(i,j)の場合は、T(i,j)=0;
V(i,j)=0且つI(i,j)>M(i,j)の場合は、T(i,j)=128;
V(i,j)=255の場合は、T(i,j)=255。
式中、V(i,j)は二値化図における画素(i,j)の階調値を表し、I(i,j)は入力画像における画素(i,j)の階調値を表し、M(i,j)は局部平均値図における画素(i,j)の階調値を表し、T(i,j)は三値化図における画素(i,j)の階調値を表す。本実施例では、第3の階調を128に設定する。
言い換えれば、入力画像と局部平均値図とを比較することで、二値化図における第1の階調領域の一部を第3の階調に変換し、この一部に対応する画素は、入力画像の階調値が局部平均値図の階調値よりも大きい。
例えば、図2Dは、図2Aに示す入力画像と図2Bの局部平均値図とを比較することで、図2Cの二値化図から生成された三値化図を示している。図2Dにおける濃い灰色の領域(第3階調、即ち階調が128の画素領域)は、図2Aの入力画像における階調値が図2Bの局部平均値図における対応画素の階調値よりも大きい画素領域に対応している。
三値化図生成部130は、生成した三値化図を充填部140に供給する。充填部140は、三値化図内の第2の階調を有する連続領域を識別し、所定の規則に従って、第2の階調を有する充填領域を第1の階調又は第3の階調で充填する。具体的には、連続領域の境界において第1の階調を有する画素と第3の階調を有する画素に対する数の比率が所定の閾値を超えた場合は、連続領域を第1の階調で充填し、連続領域の境界において第3の階調を有する画素と第1の階調を有する画素に対する数の比率が所定の閾値を超えた場合は、連続領域を第3の階調で充填する。充填部140が行った充填プロセスは、三値化図における比較的太い文字(文字の字画)又は線の内部に存在し得る第2の階調領域を充填するためのものであり、この充填プロセスは、三値化図において対象である文字又は線の境界の階調が一般に比較的高い一致度を有するという特徴を利用している。
本発明の一つの実施例では、階調255(第2の階調)の連続領域の境界において隣接する画素がN/(N+N128)>Tratioを満たした場合は、連続領域を階調0(第1の階調)で充填し、連続領域の境界においてN128/(N+N128)>Tratioを満たした場合は、連続領域を階調128(第3の階調)で充填する。ここで、N及びN128は、それぞれ連続領域において隣接する階調0又は階調128を有する画素の数を表し、Nratioは画素数の比率の閾値を表す。本発明の一つの実施例では、Nratio=95%となっている。なお、異なる入力画像、並びに局部平均値図生成部110及び二値化図生成部120が用いる局部ウインドウのサイズに基づいて閾値を設定してもよい。
図2Eは、充填された図2Dの三値化図を示している。図2Eに示すように、図2Dの左上部の比較的大きな文字内の白色の連続領域は、第1の階調の充填要件を満たしたため、図2Eにおいて黒色が充填され、図2Dの左下部の比較的小さな文字内の白色の連続領域は、第3の階調の充填要件を満たしたため、図2Eにおいて濃い灰色が充填され、図2Dの右側の図形部分における、充填要件を満たした一部の白色の連続領域は、図2Eにおいて黒色又は濃い灰色がそれぞれ充填されている。
また、充填部140が文字又は線内の第2の階調領域のみを充填することを保証するため、充填部140は、上述した境界画素の数の比率の他にも、以下の基準の一つ又は全てに従って、三値化図における第2の階調の連続領域を充填するか否かを決定してもよい。
(a)連続領域の面積が所定の閾値よりも小さいこと、及び
(b)連続領域内の階調の一致度が所定の基準に達したこと、即ちその領域内の画素の階調変化の範囲が所定の閾値よりも小さいこと。
充填部140は、充填した三値化図を識別部150に供給する。識別部150は、充填された三値化図における対象の境界の階調の一致度に基づいて、画像における文字(文字の字画)及び/又は線を識別する。具体的には、識別部150は、充填された三値化図における第1の階調及び第3の階調が共同で構成する連続領域(対象)の境界にある、第1の階調を有する画素の第3の階調を有する画素に対する数の比率に基づいて、文字及び/又は線を識別する。例えば、境界の画素数の比率がN128/(N+N128)>Tratioを満たした場合は、該対象における階調が0の部分を文字及び/又は線と識別し、境界のN/(N+N128)>Tratioを満たした場合は、該対象における階調が128の部分を文字及び/又は線と識別する。本発明の一つの具体的な実施例では、Nratio=95%となっている。なお、異なる入力画像、並びに局部平均値図生成部110及び二値化図生成部120が用いる局部ウインドウのサイズに基づいて閾値を設定してもよい。
図2Fは、識別部150により図2Eの充填された三値化図から識別された文字及び/又は線を示している。そのうち、左上部の比較的大きな文字及び左下部の比較的小さな文字は共に識別された。また、右側の図形部分における、充填要件を満たした部分も文字及び/又は線として識別された。
図3Aは、明るい色の背景における濃い色の文字を識別する具体例を示し、図3Bは、濃い色の背景における明るい色の文字を識別する具体例を示している。図3A及び図3Bにおける1、2、3、4は、それぞれ入力画像、三値化図、充填された三値化図、及び識別された文字を指す。
図3Aの1における入力画像には、明るい色の背景における濃い色の文字「m」が存在する。図3Aの2において、第2の階調(白)の連続領域の境界における隣接する画素が殆ど第1の階調(黒)画素であるため、図3Aの3では、該連続領域を第1の階調で充填する。また、充填された対象の境界における画素が殆ど第3の階調(濃い灰色)の画素であるため、図3Aの4では、第1の階調の画素領域を文字と識別する。
図3Bの1における入力画像には、濃い色の背景における明るい色の文字「K」が存在する。図3Bの2において、第2の階調(白)の連続領域の境界における隣接する画素が殆ど第3の階調(濃い灰色)画素であるため、図3Bの3では、該連続領域を第3の階調で充填する。また、充填された対象の境界における画素が殆ど第1の階調(黒)の画素であるため、図3Bの4では、第3の階調の画素領域を文字と識別する。
従って、本発明に係る画像処理装置は、濃い色の背景における明るい色の文字を識別できると共に、明るい色の背景における濃い色の文字も識別できる。
また、本発明に係る画像処理装置は、各種の文字サイズを有する文字を同時に識別できると共に、各種の文字(文字の字画)の太さを有する文字(文字の字画)を同時に識別できる。また、本発明に係る画像処理装置は、文字の言語の種類に限らず、文字を識別できる。さらにまた、本発明に係る画像処理装置は、表又は線を識別できる。
図4は、本発明の実施例に係る画像処理装置による、文字及び線を含まない画像部分に対する処理結果の例を示している。図4の左側は充填された三値化図であり、該三値化図内の対象の境界には、多くの第1の階調画素を有すると共に、多くの第3の階調画素を有するため、該対象は識別要件を満たしていないものであり、文字又は線が識別されなかった。
次に、図5を参照しながら、本発明の他の実施例に係る画像処理装置200の構成例を説明する。
画像処理装置200は、局部平均値図生成部210、二値化図生成部220、三値化図生成部230、充填部240、四値化部250、指向性拡張部260、及び対象分離部270を含む。局部平均値生成部210、二値化図生成部220、三値化図生成部230及び充填部240は、図1に示されている局部平均値生成部110、二値化図生成部120、三値化図生成部130及び充填部140と類似し、ここでその説明を適宜省略することとする。
充填部240は、充填された三値化図を四値化部250に供給する。四値化部250は、入力画像の対応領域における画素の階調値に基づいて、充填された三値化図における第2の階調を有する領域を背景領域と図形領域とに区分することで、四値化図を生成する。該背景領域は第2の階調を有し、該図形領域は第4の階調を有する。本発明の一つの実施例では、四値化部250は、階調の閾値に基づいて、入力画像における、充填された三値化図における第2の階調を有する領域に対応する領域を区分し、階調値の高い部分を背景部分として区分し、階調値の低い部分を図形部分として区分する。
なお、四値化部250は、入力画像における対応領域の階調の一致度、即ち該領域内の画素の階調変化の範囲に基づいて、背景部分又は図形部分とに区分してもよい。例えば、階調変化の小さい領域を背景部分として区分し、階調変化の大きい領域を図形部分として区分する。本発明の一つの具体的な実施例では、8ビットのグレースケール画像を用いる場合は、第4の階調を192(明るい灰色)に設定する。
四値化図250は、四値化図を指向性拡張部260に供給する。指向性拡張部260は、指向性を有する拡張処理により四値化図の背景領域及び図形領域の境界における第1の階調を有する部分及び第3の階調を有する部分を除去することで、背景領域及び図形領域の境界における余計な線を除去する。
一つの具体的な実施例では、指向性拡張部260は以下の規則に従って、指向性を有する拡張処理を行う。
(a)背景領域及び図形領域の境界における第3の階調の画素領域が第2の階調の画素領域と相接している場合は、該第3の階調の画素領域を第2の階調に変更し(128→255)、
(b)背景領域及び図形領域の境界における第1の階調の画素領域が第4の階調の画素領域と相接している場合は、該第1の階調の画素領域を第4の階調に変更し(0→192)、
(c)背景領域及び図形領域の境界における第3の階調の画素領域が第4の階調の画素領域と相接している場合は、該第3の階調の画素領域を第4の階調に変更する(128→192)。
図6A乃至図6Cは、上述した規則に従って、四値化図に対して指向性を有する拡張処理を行う例を示している。図6Aは入力画像であり、図6Bは四値化画像である。図6B中、白色部分は背景領域と識別された部分であり、明るい灰色部分は図形領域と識別された部分である。なお、図6B中の矢印a、b及びcは、それぞれ上述した規則に従って指向性を有する拡張処理を行う部分を示している。図6Cは指向性を有する拡張処理が行われた画像を示し、図6Cにおいては、背景領域及び図形領域の境界における第1の階調(黒)を有する部分及び第3の階調(濃い灰色)を有する部分が除去された。
指向性拡張部260は、指向性を有する拡張処理が行われた四値化図を対象分離部270に供給する。対象分離部270は、指向性を有する拡張処理が行われた四値化図から、第1の階調を有する領域及び/又は第3の階調を有する領域を文字及び/又は線として分離する。
図7Aは、四値化図から分離された文字及び線の例を示している。
図7Aに示すように、分離された第1又は第3の階調の文字部分には、第3又は第1の階調の画素部分が入り混じることがある。従って、一つの実施例では、対象分離部270は、以下の規則に従って、指向性を有する拡張処理が行われた四値化図における第1の階調画素と第3の階調画素が共同で構成する連続領域(対象)を処理してもよい。
(1)対象に隣接する第2の階調画素の第4の階調画素に対する数の比率が所定の閾値よりも大きい(N255/(N192+N255)>Tratio)場合は、対象における第3の階調画素を第2の階調に変換し(128→255)(背景領域の黒色文字の場合)、一方、
(2)対象に隣接する第1の階調画素の第3の階調画素に対する数の比率が所定の閾値よりも大きい(N/(N+N128)>Tratio)場合は、対象における第3の階調画素を第4の階調に変換し(128→192)(図形領域の黒色文字の場合)、
(3)対象に隣接する第3の階調画素の第1の階調画素に対する数の比率が所定の閾値よりも大きい(N128/(N+N128)>Tratio)場合は、対象における第1の階調画素を第4の階調に変換する(0→192)(図形領域の濃い灰色文字の場合)。
図7Bは、図7Aにおける対象に対して上述した処理を行った結果を示している。
本発明の一つの具体的な実施例では、Nratio=95%となっている。なお、異なる入力画像、並びに局部平均値図生成部210及び二値化図生成部220が用いる局部ウインドウのサイズに基づいて閾値を設定してもよい。
図8A及び図8Bは、本発明の実施例に係る画像処理装置200による図形、文字及び線を含む画像の処理結果の例を示している。
図8Aに示すように、入力画像は背景、背景上の文字(「董事長……01年7月)」)、図形(写真)、図形領域における文字(「富士通……開業儀式」)、及び線などを含む。
図8Bに示すように、出力画像は一つの四値画像であり、画素は四種類、即ち濃い色の文字又は線(黒色、階調0)、明るい色の文字又は線(濃い灰色、階調128)、図形領域(明るい灰色、階調192)、及び背景領域(白色、階調255)に分けられている。
図8に示すように、本発明の実施例に係る画像処理装置200によれば、背景領域の文字及び線、並びに図形領域の文字及び線を分離することができ、また、明るい色の背景における濃い色の文字を分離できると共に、濃い色の背景における明るい色の文字を分離できる。
図9は、本発明の実施例に係る画像処理方法を示すフローチャートを示している。
ステップS110において、処理される画像の局部平均値図を生成する。
ステップS120において、該画像の二値化図を生成する。二値化図において、画像における高周波数領域に対応する画素が第1の階調を有し、画像における低周波数領域に対応する画素が第2の階調を有する。
ステップS120において、画像と局部平均値図とを比較して、二値化図における第1の階調を有する領域を、第1の階調を有する領域と第3の階調を有する領域とに区分することで、三値化図を生成する。
ステップS140において、三値化図の第2の階調を有する連続領域を識別し、連続領域の境界において第1の階調を有する画素の第3の階調を有する画素に対する数の比率が所定の閾値を超えた場合は、連続領域を第1の階調で充填し、連続領域の境界において第3の階調を有する画素の第1の階調を有する画素に対する数の比率が所定の閾値を超えた場合は、連続領域を第3の階調で充填する。
ステップS150において、充填された三値化図における対象境界の階調の一致度に基づいて、画像における文字及び/又は線を識別する。
図10は、本発明の他の実施例に係る画像処理方法を示している。
ステップS210において、処理される画像の局部平均値図を生成する。
ステップS220において、画像の二値化図を生成する。二値化図において、画像における高周波数領域に対応する画素が第1の階調を有し、画像における低周波数領域に対応する画素が第2の階調を有する。
ステップS230において、画像と局部平均値図とを比較して、二値化図における第1の階調を有する領域を、第1の階調を有する領域と第3の階調を有する領域とに区分することで、三値化図を生成する。
ステップS240において、三値化図の第2の階調を有する連続領域を識別し、連続領域の境界において第1の階調を有する画素の第3の階調を有する画素に対する数の比率が所定の閾値を超えた場合は、連続領域を第1の階調で充填し、連続領域の境界において第3の階調を有する画素の第1の階調を有する画素に対する数の比率が所定の閾値を超えた場合は、連続領域を第3の階調で充填する。
ステップS250において、画像の対応領域における画素の階調値に基づいて、充填された三値化図における第2の階調を有する領域を、第2の階調を有する背景領域と第4の階調を有する図形領域とに区分することで、四値化図を生成する。
ステップS260において、指向性を有する拡張処理により、四値化図の背景領域及び図形領域の境界における第1の階調を有する部分及び第3の階調を有する部分を除去する。
ステップS270において、指向性を有する拡張処理が行われた四値化図から、第1の階調を有する領域及び/又は第3の階調を有する領域を文字及び/又は線として分離する。
本発明は装置、方法又はコンピュータプログラムのプロダクトであってもよいことは、当業者にとって理解される。このため、本発明は以下の具体的な形式で実現されてもよく、例えば、完全なハードウェア、完全なソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又はソフトウェア部とハードウェア部との組み合わせであってもよい。また、本発明は如何なる有形の表現媒体におけるコンピュータソフトウェアのプロダクトを用いてもよく、該媒体にはコンピュータが使用可能なプログラムコードを含む。
本発明は、一つ又は複数のコンピュータが読取可能な媒体の如何なる組み合わせを用いてもよい。コンピュータ読取可能な媒体は、コンピュータが読取可能な信号媒体又は記憶媒体であってもよく、コンピュータが読取可能な記憶媒体は電気的、磁気的、光学的、電磁的、赤外線の、又は半導体のシステム、装置、機器の部分品、伝播媒体、或いはそれらの適当な組み合わせであってもよいが、ここに例示されるものに限定されない。コンピュータが読取可能な記憶媒体は、より具体的な例として、一つ又は複数の導線間の電気接続、携帯可能なコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去及びプログラム可能読取り専用記憶装置(EPROM又はフラッシュメモリ)、光ファイバー、コンパクトディスク(CD−ROM)、光学記憶装置、磁気記憶装置、又はそれらの適当な組みあわせを含む。本明細書では、コンピュータが読取可能な記憶媒体は、指令実行システム、装置若しくは機器に適用される、又は指令実行システム、装置若しくは機器に関するプログラムを含む或いは記憶する、如何なる有形媒体であってもよい。
本発明を実行するための操作のコンピュータプログラムコードは、一つのプログラミング言語又は複数のプログラミング言語の如何なる組み合わせで開発してもよく、プログラミング言語は、例えばJava(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語を含み、例えば「C」プログラミング言語又は類似なプログラミング言語などの通常の手続き型プログラミング言語をさらに含む。プログラムコードは完全にユーザのコンピュータで実行してもよいし、部分的にユーザのコンピュータで実行してもよいし、独立のソフトウェアパッケージとして実行してもよいし、一部がユーザのコンピュータで実行し一部がリモートコンピュータで実行してもよいし、完全にリモートコンピュータ又はサーバで実行してもよい。後者の場合は、リモートコンピュータは、例えば地域ネットワーク(LAN)又は広域ネットワーク(WAN)などの如何なるネットワークを介してユーザのコンピュータに接続されてもよいし、或いは(インターネットのプロバイダによるインターネットを介して)外部コンピュータに接続されてもよい。
図11は、本発明に係る画像処理装置及び画像処理方法を実現するためのコンピュータの構成例を示すブロック図を示している。
図11に示すように、中央処理ユニット(CPU)1101が、リードオンリーメモリ(ROM)1102に記憶されているプログラム、又は記憶部1108からランダムアクセスメモリ(RAM)1103にロードされているプログラムに基づいて各種の処理を行う。RAM1103は、必要に応じてCPU1101が各種の処理などを実行するときに必要なデータを記憶してもよい。
CPU1101、ROM1102及びRAM1103は、バス1104を介して互いに接続される。また、入力/出力インターフェース1105もバス1104に接続される。
入力/出力インターフェース1105には、入力部1106(キーボード、マウスなどを含む)、出力部分1107(例えばCRTなどの表示器、LCD、スピーカーなどを含む)、記憶部1108(ハードディスクなどを含む)、及び通信部1109(例えばLANカードなどのネットワーク接続カード、モデムなどを含む)が接続される。通信部1109は、ネットワーク例えばインターネットを介して通信処理を行う。
駆動装置(ドライブ)1110は、必要に応じて入力/出力インターフェース1105に接続されてもよい。また、必要に応じて、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどの取り外し可能な媒体1111を駆動装置1110にセットすることにより、その中から読み出したコンピュータプログラムを記憶部1108にインストールしてもよい。
ソフトウェアにより上述の一連の処理を実現する場合は、ネットワーク例えばインターネット、又は記憶媒体例えば取り外し可能な媒体1111から、このソフトウェアを構成するプログラムをインストールしてもよい。
なお、当業者が理解すべきこととしては、このような記憶媒体は、中にプログラムが記憶されており、ユーザにプログラムを提供するよう装置と独立して配られる図11に示すような取り外し可能な媒体1111に限定されないということである。取り外し可能な媒体1111の例としては、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD−ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体メモリを含む。或いは、記憶媒体はROM1102、記憶部1108に含まれるハードディスクなどであってもよく、それらにはプログラムが記憶されており、且つそれらを含む装置とともにユーザに配られてもよい。
上記の説明は、本発明の好適な実施例に過ぎず、本発明の実施の範囲がこれらに限定されず、本発明の特許請求の範囲及び明細書の内容に基づいて、当業者によって任意の変更及び変形が可能であり、本発明の保護範囲は特許請求の範囲を基準とする。また、本発明の実施例又は特許請求の範囲は何れも本発明により開示された目的又は利点又は特徴の全てを必ずしも実現する必要はない。さらにまた、本明細書及び特許請求の範囲に言及される「第1の」、「第2の」等の用語は、単なる構成要素を命名する、或いは異なる実施例又は範囲を区別するものであり、構成要素の数の上限又は下限を限定するものではない。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
処理される画像の局部平均値図を生成する局部平均値図生成部と、
前記画像の二値化図を生成する二値化図生成部であって、前記二値化図において、前記画像における高周波数領域に対応する画素が第1の階調を有し、前記画像における低周波数領域に対応する画素が第2の階調を有する、二値化図生成部と、
前記画像と前記局部平均値図とを比較して、前記二値化図における前記第1の階調を有する領域を、前記第1の階調を有する領域と第3の階調を有する領域とに区分することで、三値化図を生成する三値化図生成部と、
前記三値化図において前記第2の階調を有する連続領域を識別し、前記連続領域の境界において前記第1の階調を有する画素の前記第3の階調を有する画素に対する数の比率が所定の閾値を超えた場合は、前記連続領域を前記第1の階調で充填し、前記連続領域の境界において前記第3の階調を有する画素の前記第1の階調を有する画素に対する数の比率が前記所定の閾値を超えた場合は、前記連続領域を前記第3の階調で充填する充填部と、
前記充填された三値化図における対象境界の階調の一致度に基づいて、前記画像における文字及び/又は線を識別する識別部と、を含む画像処理装置。
(付記2)
前記充填部は、前記連続領域の面積が所定の閾値未満である、及び/又は前記連続領域の階調の一致度が所定の基準に達した場合は、前記充填を行う付記1に記載の画像処理装置。
(付記3)
前記画像の対応領域における画素の階調値に基づいて、前記充填された三値化図における前記第2の階調を有する領域を、前記第2の階調を有する背景領域と第4の階調を有する図形領域とに区分することで、四値化図を生成する四値化部をさらに含む付記1又は2に記載の画像処理装置。
(付記4)
指向性を有する拡張処理により、前記四値化図の前記背景領域及び前記図形領域の境界における前記第1の階調を有する部分及び前記第3の階調を有する部分を除去する指向性拡張部をさらに含む付記3に記載の画像処理装置。
(付記5)
前記指向性を有する拡張処理が行われた四値化図から、前記第1の階調を有する領域及び/又は前記第3の階調を有する領域を前記文字及び/又は線として分離する対象分離部をさらに含む付記4に記載の画像処理装置。
(付記6)
処理される画像の局部平均値図を生成するステップと、
前記画像の二値化図を生成するステップであって、前記二値化図において、前記画像における高周波数領域に対応する画素が第1の階調を有し、前記画像における低周波数領域に対応する画素が第2の階調を有する、ステップと、
前記画像と前記局部平均値図とを比較して、前記二値化図における前記第1の階調を有する領域を、前記第1の階調を有する領域と第3の階調を有する領域とに区分することで、三値化図を生成するステップと、
前記三値化図において前記第2の階調を有する連続領域を識別し、前記連続領域の境界において前記第1の階調を有する画素の前記第3の階調を有する画素に対する数の比率が所定の閾値を超えた場合は、前記連続領域を前記第1の階調で充填し、前記連続領域の境界において前記第3の階調を有する画素の前記第1の階調を有する画素に対する数の比率が前記所定の閾値を超えた場合は、前記連続領域を前記第3の階調で充填するステップと、
前記充填された三値化図における対象境界の階調の一致度に基づいて、前記画像における文字及び/又は線を識別するステップと、を含む画像処理方法。
(付記7)
前記連続領域を充填するステップにおいては、前記連続領域の面積が所定の閾値未満である、及び/又は前記連続領域の階調の一致度が所定の基準に達した場合は、前記充填を行う付記6に記載の画像処理方法。
(付記8)
前記画像の対応領域における画素の階調値に基づいて、前記充填された三値化図における前記第2の階調を有する領域を、前記第2の階調を有する背景領域と第4の階調を有する図形領域とに区分することで、四値化図を生成するステップをさらに含む付記6又は7に記載の画像処理方法。
(付記9)
指向性を有する拡張処理により、前記四値化図の前記背景領域及び前記図形領域の境界における前記第1の階調を有する部分及び前記第3の階調を有する部分を除去するステップをさらに含む付記8に記載の画像処理方法。
(付記10)
前記指向性を有する拡張処理が行われた四値化図から、前記第1の階調を有する領域及び/又は前記第3の階調を有する領域を前記文字及び/又は線として分離するステップをさらに含む付記9に記載の画像処理方法。
100、200 画像処理装置
110、210 局部平均値図生成部
120、220 二値化図生成部
130、230 三値化図生成部
140、240 充填部
150 識別部
250 四値化部
260 指向性拡張部
270 対象分離部

Claims (10)

  1. 処理される画像の局部平均値図を生成する局部平均値図生成部と、
    前記画像の二値化図を生成する二値化図生成部であって、前記二値化図において、前記画像における高周波数領域に対応する画素が第1の階調を有し、前記画像における低周波数領域に対応する画素が第2の階調を有する、二値化図生成部と、
    前記画像と前記局部平均値図とを比較して、前記二値化図における前記第1の階調を有する領域を、前記第1の階調を有する領域と第3の階調を有する領域とに区分することで、三値化図を生成する三値化図生成部と、
    前記三値化図において前記第2の階調を有する連続領域を識別し、前記連続領域の境界において前記第1の階調を有する画素の前記第3の階調を有する画素に対する数の比率が所定の閾値を超えた場合は、前記連続領域を前記第1の階調で充填し、前記連続領域の境界において前記第3の階調を有する画素の前記第1の階調を有する画素に対する数の比率が前記所定の閾値を超えた場合は、前記連続領域を前記第3の階調で充填する充填部と、
    前記充填された三値化図における対象境界の階調の一致度に基づいて、前記画像における文字及び/又は線を識別する識別部と、を含む画像処理装置。
  2. 前記充填部は、前記連続領域の面積が所定の閾値未満である、及び/又は前記連続領域の階調の一致度が所定の基準に達した場合は、前記充填を行う請求項1に記載の画像処理装置。
  3. 前記画像の対応領域における画素の階調値に基づいて、前記充填された三値化図における前記第2の階調を有する領域を、前記第2の階調を有する背景領域と第4の階調を有する図形領域とに区分することで、四値化図を生成する四値化部をさらに含む請求項1又は2に記載の画像処理装置。
  4. 指向性を有する拡張処理により、前記四値化図の前記背景領域及び前記図形領域の境界における前記第1の階調を有する部分及び前記第3の階調を有する部分を除去する指向性拡張部をさらに含む請求項3に記載の画像処理装置。
  5. 前記指向性を有する拡張処理が行われた四値化図から、前記第1の階調を有する領域及び/又は前記第3の階調を有する領域を前記文字及び/又は線として分離する対象分離部をさらに含む請求項4に記載の画像処理装置。
  6. 処理される画像の局部平均値図を生成するステップと、
    前記画像の二値化図を生成するステップであって、前記二値化図において、前記画像における高周波数領域に対応する画素が第1の階調を有し、前記画像における低周波数領域に対応する画素が第2の階調を有する、ステップと、
    前記画像と前記局部平均値図とを比較して、前記二値化図における前記第1の階調を有する領域を、前記第1の階調を有する領域と第3の階調を有する領域とに区分することで、三値化図を生成するステップと、
    前記三値化図において前記第2の階調を有する連続領域を識別し、前記連続領域の境界において前記第1の階調を有する画素の前記第3の階調を有する画素に対する数の比率が所定の閾値を超えた場合は、前記連続領域を前記第1の階調で充填し、前記連続領域の境界において前記第3の階調を有する画素の前記第1の階調を有する画素に対する数の比率が前記所定の閾値を超えた場合は、前記連続領域を前記第3の階調で充填するステップと、
    前記充填された三値化図における対象境界の階調の一致度に基づいて、前記画像における文字及び/又は線を識別するステップと、を含む画像処理方法。
  7. 前記連続領域を充填するステップにおいては、前記連続領域の面積が所定の閾値未満である、及び/又は前記連続領域の階調の一致度が所定の基準に達した場合は、前記充填を行う請求項6に記載の画像処理方法。
  8. 前記画像の対応領域における画素の階調値に基づいて、前記充填された三値化図における前記第2の階調を有する領域を、前記第2の階調を有する背景領域と第4の階調を有する図形領域とに区分することで、四値化図を生成するステップをさらに含む請求項6又は7に記載の画像処理方法。
  9. 指向性を有する拡張処理により、前記四値化図の前記背景領域及び前記図形領域の境界における前記第1の階調を有する部分及び前記第3の階調を有する部分を除去するステップをさらに含む請求項8に記載の画像処理方法。
  10. 前記指向性を有する拡張処理が行われた四値化図から、前記第1の階調を有する領域及び/又は前記第3の階調を有する領域を前記文字及び/又は線として分離するステップをさらに含む請求項9に記載の画像処理方法。
JP2012156686A 2011-07-19 2012-07-12 画像処理装置及び画像処理方法 Expired - Fee Related JP5900208B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110209866.XA CN102890780B (zh) 2011-07-19 2011-07-19 图像处理装置和方法
CN201110209866.X 2011-07-19

Publications (2)

Publication Number Publication Date
JP2013025807A JP2013025807A (ja) 2013-02-04
JP5900208B2 true JP5900208B2 (ja) 2016-04-06

Family

ID=46640535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012156686A Expired - Fee Related JP5900208B2 (ja) 2011-07-19 2012-07-12 画像処理装置及び画像処理方法

Country Status (5)

Country Link
US (1) US8907972B2 (ja)
EP (1) EP2549736B1 (ja)
JP (1) JP5900208B2 (ja)
KR (1) KR101402442B1 (ja)
CN (1) CN102890780B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473785B (zh) * 2013-09-29 2016-04-20 哈尔滨工业大学 一种基于三值化图像聚类的快速多目标分割方法
CN106611406B (zh) * 2015-10-27 2019-08-16 富士通株式会社 图像校正方法和图像校正设备
US10909406B2 (en) * 2018-01-08 2021-02-02 Newgen Software Technologies Limited Image processing system and method
JP6434180B1 (ja) * 2018-04-20 2018-12-05 株式会社ノエビア 弾性線維形成促進剤
CN109993761B (zh) * 2018-06-29 2021-04-09 长城汽车股份有限公司 一种三值图像获取方法、装置及车辆
CN112037124B (zh) * 2019-06-04 2024-07-09 中国石油化工股份有限公司 基于图像纹理合成的特征可调控的数字岩心重构方法
CN110390698B (zh) * 2019-06-21 2021-09-17 深圳市优必选科技股份有限公司 一种灰度传感器模组及其数据处理方法和机器人
CN111063029B (zh) * 2019-12-11 2023-06-09 深圳市优必选科技股份有限公司 地图构建方法、装置、计算机可读存储介质及机器人
CN112150385B (zh) * 2020-09-29 2023-05-12 四川虹美智能科技有限公司 红外图像滤波方法及装置
KR102561360B1 (ko) * 2021-06-04 2023-08-01 한국과학기술연구원 보정을 사용하지 않고 파이버스코프 이미지를 처리하는 방법 및 이를 수행하는 파이버스코프 시스템
GB2627324A (en) * 2022-09-15 2024-08-21 Univ Qingdao Technology Intelligent new energy rural house temperature regulation and control system integrating tunnel air and solar energy

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4118749B2 (ja) * 2002-09-05 2008-07-16 株式会社リコー 画像処理装置、画像処理プログラムおよび記憶媒体
KR100977713B1 (ko) * 2003-03-15 2010-08-24 삼성전자주식회사 영상신호의 글자 인식을 위한 전처리 장치 및 방법
CN100416597C (zh) * 2004-12-23 2008-09-03 佳能株式会社 用于文档的自适应二值化的方法和设备
JP2006309650A (ja) * 2005-05-02 2006-11-09 Calsonic Kansei Corp ナンバー認識装置及方法
JP4596174B2 (ja) 2005-09-16 2010-12-08 富士フイルム株式会社 画像処理方法及び画像記録装置
CN100517374C (zh) * 2005-12-29 2009-07-22 佳能株式会社 从复杂背景文档图像提取文本的装置、方法
JP4986976B2 (ja) 2007-12-20 2012-07-25 キヤノン株式会社 画像処理装置、画像形成装置および画像処理方法
JP4902569B2 (ja) 2008-02-19 2012-03-21 キヤノン株式会社 画像符号化装置及びその制御方法
JP5045619B2 (ja) 2008-09-08 2012-10-10 ソニー株式会社 画像処理装置および方法、並びにプログラム
CN101888469B (zh) * 2009-05-13 2013-03-13 富士通株式会社 图像处理方法和图像处理设备

Also Published As

Publication number Publication date
CN102890780A (zh) 2013-01-23
KR20130010841A (ko) 2013-01-29
EP2549736A2 (en) 2013-01-23
KR101402442B1 (ko) 2014-06-03
CN102890780B (zh) 2015-07-22
US20130027419A1 (en) 2013-01-31
EP2549736B1 (en) 2015-11-18
US8907972B2 (en) 2014-12-09
JP2013025807A (ja) 2013-02-04
EP2549736A3 (en) 2013-11-06

Similar Documents

Publication Publication Date Title
JP5900208B2 (ja) 画像処理装置及び画像処理方法
KR102146560B1 (ko) 영상 보정 방법 및 장치
JP4745297B2 (ja) デジタル画像における均一な色の領域を特定する方法およびシステム
US8406554B1 (en) Image binarization based on grey membership parameters of pixels
US9443287B2 (en) Image processing method and apparatus using trained dictionary
JP2007336562A (ja) デジタル画像の領域分離方法および領域分離システム、ならびに、ラベル付けの方法
CN110390643B (zh) 一种车牌增强方法、装置及电子设备
CN102855478B (zh) 图像中文本区域定位方法和装置
US10810462B2 (en) Object detection with adaptive channel features
JP2015226112A (ja) 画像処理装置及び画像処理方法、プログラム
KR101441307B1 (ko) 전력 소모 절감을 위한 영상 처리 방법 및 그 장치
JP2018206252A (ja) 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム
JP2008210387A (ja) 文書画像の2値化性能を改善するノイズ除去装置及びノイズ除去プログラム
JP2018206260A (ja) 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム
CN111340044A (zh) 图像处理方法、装置、电子设备及存储介质
KR101571681B1 (ko) 동질 영역을 이용한 문서 구조의 분석 방법
JP2004199622A (ja) 画像処理装置、画像処理方法、記録媒体およびプログラム
KR101592087B1 (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
US9154671B2 (en) Image processing apparatus, image processing method, and program
JP6091400B2 (ja) 画像処理装置
JP6486082B2 (ja) 画像処理装置及び画像処理方法、プログラム
CN103679684B (zh) 用于检测图像中的云的装置、方法以及电子设备
Subramanian et al. Fuzzy logic based content protection for image resizing by seam carving
JP4829757B2 (ja) 罫線抽出装置および方法
JP6442846B2 (ja) 画像処理装置、画像処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150406

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160222

R150 Certificate of patent or registration of utility model

Ref document number: 5900208

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees