JP3165004B2 - 文書画像の孤立点除去方法 - Google Patents

文書画像の孤立点除去方法

Info

Publication number
JP3165004B2
JP3165004B2 JP15636295A JP15636295A JP3165004B2 JP 3165004 B2 JP3165004 B2 JP 3165004B2 JP 15636295 A JP15636295 A JP 15636295A JP 15636295 A JP15636295 A JP 15636295A JP 3165004 B2 JP3165004 B2 JP 3165004B2
Authority
JP
Japan
Prior art keywords
pixel
black
section
pixel section
isolated point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP15636295A
Other languages
English (en)
Other versions
JPH096917A (ja
Inventor
俊夫 藤根
芳史 前野
佳孝 濱口
真 鳥越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP15636295A priority Critical patent/JP3165004B2/ja
Publication of JPH096917A publication Critical patent/JPH096917A/ja
Application granted granted Critical
Publication of JP3165004B2 publication Critical patent/JP3165004B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、例えば画像読取り装
置によって読み込まれた文書画像に設定された文字領域
枠中に正規の文書画像以外の孤立点が含まれる場合に、
この孤立点を識別して除去する方法に関する。
【0002】
【従来の技術】従来の文書画像の孤立点の除去方法の一
例が、文献:「特開平5−233879号公報」に記載
されている。この文献に記載の方法によれば、読み込ん
だ画像データ中の画素集団が除去すべき孤立点か否かを
識別するために、その画素集団の輪郭長を利用する。そ
して、画素集団の輪郭長が、設定された孤立画素輪郭長
よりも短い場合に、その画素集団を孤立点として除去す
る。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た文献に記載の方法では、画素集団の輪郭長を求めるた
めに、画素集団中の着目画素からいずれに向って輪郭が
繋がっているかを判定しなければならない。このため、
着目画素に隣接する周囲8方向の全ての画素について画
素の白黒の調査を行なうことが必要である。更に、孤立
画素の輪郭を順次に追跡して、輪郭が繋がっている全て
の画素について逐一同様の調査を行なう必要がある。
【0004】また、文字画像のかすれ等により、本来文
字の一部分を構成する画素集団がその文字の本体から離
れた個別の画素集団として読み込まれた場合に、輪郭長
で孤立点の判定を行なうと、この画素集団が孤立点とし
て除去されてしまう可能性がある。
【0005】このため、孤立点を効率的に識別して除去
できる方法の実現が望まれていた。
【0006】
【課題を解決するための手段】この出願に係る文書画像
の孤立点除去方法によれば、文書画像中に、文字画像を
囲む文字領域枠を設定し、この文字領域枠中の画素列毎
に、当該画素列中の黒画素の数を度数としたヒストグラ
ムを作成し、このヒストグラムの度数が0である画素列
が1つ以上連続する白画素区間の画素列の数と、この度
数が1以上である画素列が1つ以上連続する黒画素区間
の画素列の数とを各白画素区間毎および各黒画素区間毎
にそれぞれ計数し、文字領域枠の一辺の画素列を基準端
とし、黒画素区間の画素列の数についての閾値1は、孤
立点の画素集団が小さく、正規の文字の画素列の数に比
べて孤立点の画素列の数が短いことを利用するために設
定し、白画素区間の画素列の数についての閾値2は、正
規の文書画像の直近の孤立点は、文字本体の一部である
可能性が高いことを利用し、除去すべきでない孤立点を
残すために設定し、基準端からの画素列数についての閾
値3は、離間文字の離間した各黒画素を合わせた画素列
の数と、離間文字の黒画素区間の間の白画素区間の画素
列の数との合計の画素列の数は、一定以上の長さになる
ことを利用し、離間文字を残すために設定し、黒画素区
間の画素列数が閾値1以下で、基準端から見て当該黒画
素区間の向こう側で当該黒画素区間に隣接する白画素区
間の画素列数が閾値2未満、または、当該黒画素区間の
画素列数と基準端から当該黒画素区間までの間の画素列
数との和が閾値3より大きい値である場合は、当該黒画
素区間は除去すべきでない孤立点として判定し、引き続
き隣接する黒画素区間について判定を行い、黒画素区間
の画素列数が閾値1以下で、基準端から見て当該黒画素
区間の向こう側で当該黒画素区間に隣接する白画素区間
の画素列数が閾値2以上で、かつ、当該黒画素区間の画
素列数と基準端から当該黒画素区間までの間の画素列数
との和が閾値3以下である場合に、当該黒画素区間およ
び基準端から当該黒画素区間までの間の黒画素区間を除
去すべき孤立点として判定し、この孤立点と判定された
黒画素区間を文字領域枠中から除く位置に基準端を変更
することにより、当該孤立点を除去することを特徴とす
る。尚、この発明において、文書画像の文字には、記号
も含まれる。
【0007】
【作用】この出願に係る文書画像の孤立点除去方法によ
れば、設定された文字領域中の黒画素のヒストグラムを
作成し、このヒストグラムに基づいて、白画素区間の画
素列の数と黒画素区間の画素列の数とを各白画素区間毎
および各黒画素区間毎にそれぞれ計数する。そして、こ
れら画素列の数と閾値1〜閾値3を比較することにより
除去すべき孤立点を識別する。
【0008】閾値1は、一般に、孤立点は画素集団が小
さく、正規の文字の画素列の数に比べて孤立点の画素列
の数が短いことを利用するために設定する。この閾値1
の画素列の数は、例えば文字幅の最小値を基準とすると
よい。そして、黒画素区間の画素列の数が閾値1よりも
短いことを、当該黒画素を孤立点として識別するための
要件とする。
【0009】ところで、画素列の数が短いものを孤立点
として一律に除去すると、本来文書画像の一部分であり
ながら、かすれ等のために、文字の本体から離れてしま
った孤立点、あるいは、ひらがなの「か」のように文字
を構成する画でありながら当該文字の他の画から離れて
いる孤立点(1画)を除去すべき孤立点として除去して
しまうおそれがある。
【0010】そこで、この発明では、除去すべきでない
孤立点を残すために、白画素区間の画素列の数の長さに
関する閾値2を設定する。閾値2は、一般に、正規の文
書画像の直近の孤立点は、文字本体の一部である可能性
が高いことを利用する。このため、閾値2の画素列の数
は、例えば、正規の文字同士の間の間隔の最大値を基準
にするとよい。そして、基準端から見て孤立点の向こう
側で孤立点に隣接する白画素区間の画素列の数が閾値2
よりも長いことを、その孤立点を除去すべき孤立点とし
て識別するための1つの要件とする。
【0011】ところで、例えば「い」や「ハ」のよう
に、1文字でありながら文字を構成する各画が互いに離
間して存在する文字がある。以下、このような文字を離
間文字と称する。離間文字の各画の画素列の数は、通
常、閾値1よりも短い。その上、離間文字と次の文字と
の間の白画素区間の画素列の数は、通常、閾値2よりも
長い。このため、閾値1と閾値2のみを用いて孤立点を
判定すると、このような離間文字は、除去すべき孤立点
が複数個互いに近接したものとして識別されるおそれが
高い。
【0012】そこで、この発明では、離間文字を残すた
めに、基準端からの画素列数(合計の画素列の数)に関
する閾値3を設定する。閾値3は、離間文字の、離間し
た各黒画素区間を合わせた画素列の数と離間文字の黒画
素区間の間の白画素区間の画素列の数との合計の画素列
の数は、一定以上(通常1文字程度以上)の長さになる
ことを利用する。このため、閾値3の画素列の数は、例
えば、文字幅の最小値を基準として設定するとよい。ま
た、閾値3の画素列の数は、閾値1の画素列の数よりも
長いことが必要である。そして、この合計の画素列の数
を、着目する黒画素区間の画素列の数と基準端から着目
する黒画素区間までの間に含まれる黒画素区間および白
画素区間の画素列の数との合計の画素列の数として表
す。そして、この合計の画素列の数が閾値3よりも短い
ことを、基準端から当該黒画素区間までの間の全黒画素
区間を除去すべき孤立点として識別するための1つの要
件とする。
【0013】従って、この発明の孤立点除去方法によれ
ば、閾値1〜3の3つの閾値と画素列の数とを比較して
除去すべき孤立点を容易に識別することができる。ま
た、閾値2を設定することにより、かすれ等によって生
じた除去すべきでない孤立点を残すことができる。ま
た、閾値3を設定することにより、「ハ」といった離間
文字を誤って除去する恐れを少なくすることができる。
従って、除去すべき孤立点の効率よい識別、除去を図る
ことができ、特に、文字領域枠で囲まれた文字領域の周
辺部にある孤立点の除去に用いて好適である。
【0014】
【実施例】以下、図面を参照して、この出願に係る発明
の文書画像の孤立点除去方法の実施例について説明す
る。尚、参照する図面は、これらの発明が理解できる程
度に、各手順を概略的に示したものにすぎない。従っ
て、この発明は図示例にのみ限定されるものではない。
【0015】(実施例1)実施例1では、横書きの文書
画像の孤立点除去方法の一例について説明する。図1
に、実施例1における、孤立点除去方法の概略的な手順
のフローチャートを示す。
【0016】先ず、図1の(a)に示す文字領域枠設定
の手順について説明する。この実施例では、例えばイメ
ージリーダを用いて2値化した文書画像を読み込む。そ
して、従来周知の方法を用いて、文書画像中に、文字画
像を囲む文字領域枠を設定する。
【0017】そして、従来周知の表解析の手法を用いて
文字領域枠を設定する。このため、先ず、文書画像を複
数の表状の長方形部分に分割し、各画素の座標をx、y
軸直交座標系で表す。尚、長方形部分の各辺は、xまた
はy座標と平行になっている。そして、各長方形部分内
の白画素同士の連結成分を求める。次に、その白画素の
連結成分の内部に存在する黒画素を文字領域(セル)と
判定する。次に、セルと判定した黒画素の、xおよびy
がそれぞれ最大値の組および最小値の組の(x、y)座
標をそれぞれ求め、xおよびyの最小値の組の座標と最
大値の組の座標とを対角点とする長方形の文字領域枠1
0を設定する。この文字領域枠10に囲まれた領域が文
字領域12となる。
【0018】このようにして文書画像中に文字領域枠1
0を設定した様子を図2の(A)に示す。この実施例で
は、「車両費」という横書きの文字画像14を囲む文字
領域枠10を設定しているが、文字領域枠中の左端に不
要な孤立点16が誤って含まれている。
【0019】次に、図1の(b)に示すヒストグラム作
成の手順について説明する。文字領域枠が設定された
後、この文字領域枠中の画素列毎に、当該画素列中の黒
画素の数を度数としたヒストグラムを作成する。この実
施例では、横書きの行に対して垂直な縦方向に並んだ画
素を1つの画素列とする。従って、1つの画素列中の画
素の数は、行の高さの画素の数となる。
【0020】図2の(B)に、実施例1で作成した黒画
素のヒストグラムを示す。各文字画像に対応するヒスト
グラムの他に、文字画像領域12の左端の孤立点16に
対応するヒストグラムが作成される。
【0021】次に、図1の(c)に示す画素列の数作成
の手順および(d)に示す基準端の設定について説明す
る。
【0022】画素列の数の作成にあたっては、ヒストグ
ラムの度数が0である画素列が1つ以上連続する白画素
区間の画素列の数と、この度数が1以上である画素列が
1つ以上連続する黒画素区間の画素列の数とを各白画素
区間毎および各黒画素区間毎にそれぞれ計数する。
【0023】この実施例で用いた文字領域枠の設定方法
では、文字領域枠の両端は黒画素区間となる。そして、
黒画素区間と白画素区間とは原則交互に並ぶ。但し、文
書画像が1文字のみ又は1つの孤立点のみの場合は、1
つの黒画素区間だけになることもある。
【0024】また、この実施例では、文字領域枠10の
左端の一辺の画素列を基準端18とする。尚、基準端1
8を決めるのは画素列の数を設定した後である必要はな
く、文字領域枠を設定後に決めることもできる。従っ
て、図1のフローチャートにおいては、(d)の基準端
設定の処理は、(b)の後から(f)の前のどの段階で
あってもよい。そして、この実施例では、この基準端1
8に近い側から、各黒画素区間および白画素区間毎にそ
れぞれ順次に番号をつける。
【0025】ここでは、便宜上、黒画素区間を「black
n」または「black n(m)」と表記する。ここで、n
は、その黒画素区間が基準端18側からn番目であるこ
とを示す自然数であり、mは、その黒画素区間の画素列
の数、即ち、その黒画素区間中に含まれる画素列の数を
示す自然数である。例えば、black 1(8)は、基準端
に1番近い黒画素区間の画素列の数が8画素列分である
ことを表す。同様にして、white 1は172、black 2
は49、white 2は155、black 3は47、white 3
は154、black 4は48画素列分である。
【0026】次に、図1の(e)に示す閾値設定につい
て説明する。孤立点の判定の基準となる閾値として、黒
画素区間の画素列の数についての閾値1、白画素区間の
画素列の数についての閾値2、および、基準端からの画
素列数についての閾値3をそれぞれ設定する。この実施
例では、閾値1を文字の幅を基準にして、18(画素)
と設定する。また、閾値2を文字間隔を基準にして、1
2(画素)と設定する。また、閾値3を、文字の幅を基
準にしかつ閾値1よりも大きな値である24(画素)と
設定する。
【0027】次に、図1の(f)に示す孤立点判定およ
び(g)に示す孤立点除去について、図3を参照して、
説明する。図3は、実施例1における、孤立点の判定お
よび除去のフローチャートを示す。
【0028】この発明では、文字領域枠中の基準端18
とこの基準端18に直近の文字画像との間にある孤立点
を識別する。従って、文字画像が識別されれば、孤立点
の判定は終了し、文字画像が検出されなければ、孤立点
の判定・除去を原則続ける。このため、この実施例で
は、孤立点の判定・除去の処理の終了を判断するため
に、次の〜のいずれかの条件に該当した段階で処理
を終了する。先ず、文字領域枠中の全ての黒画素につ
いて判定を行なった場合(例えば、文字領域枠中に孤立
点しか含まれない場合に該当する。)は終了する。ま
た、孤立点か否か判定しようとする黒画素区間中に、
黒画素の度数が、行の1/2以上のものが含まれている
場合は終了する。この場合、その黒画素区間の画素列の
数の長さにかかわらず、その黒画素区間を文字画像と識
別する。また、判定しようとする黒画素区間の画素列
の数が閾値1の値よりも大きい場合もその黒画素区間を
文字画像と識別して処理を終了する。
【0029】次に、図3のフローチャートに沿って、判
定・除去の手順について説明する。尚、図3のフローチ
ャート中においては、基準端側からi番目の黒画素区間
のおよびその画素列の数を「black [i] 」と表記し、ま
た、基準端からi番目の白画素区間の画素列の数を「wh
ite [i] 」と表記する。
【0030】この実施例では、先ず、(イ)において引
数i等の初期設定を行なう。この初期設定においては、
「first=1」,「end=black[i]の個数」,
「i=1」を設定する。例えば、図2の(c)に示すよ
うに、黒画素区間がblack 1〜black 4までの4区間あ
る場合は、end=black[i]の個数=4となる。
【0031】次に、(ロ)において、上記の終了条件
に該当するか否かを判定する。即ち「i=end?」で
i=4の場合に処理を終了する。一方、i≠4(実際に
はi=1〜3)の場合は、次の(ハ)の手順へ進む。
【0032】(ハ)においては、上記の終了条件に該
当するか否かを判定する。即ち、判定しようとする黒画
素区間black[i]に含まれる画素列(単に列とも称する)
で黒画素の度数が行の高さの1/2以上の列が存在する
場合は処理を終了する。一方存在しない場合は、次に
(ニ)の手順へ進む。
【0033】(ニ)においては、上記の終了条件に該
当するか否かを判定する。即ち、判定しようとする黒画
素区間が、文字画像なのか孤立点であるのかを判定す
る。
【0034】図2に示すblack 1(8)について判定を
行なうと、閾値1=18であるので、8<18である。
従って、black 1は、終了条件には該当せず、画素列
の数が閾値1以下で孤立点であるとして(但し、除去す
べき孤立点とは限らない)、次の(ホ)の手順へ進む。
【0035】(ホ)においては、閾値2および閾値3を
用いて、この孤立点が除去すべき孤立点か否かを判定す
る。
【0036】先ず、基準端から見て当該黒画素区間の向
こう側で当該黒画素区間に隣接する白画素区間の画素列
の数が閾値2以上であるか否かを判定する。
【0037】図2に示すblack 1(8)について判定を
行なうと、black 1の次のwhite 1(172)の画素列
の数が閾値2以上であるかを判断することになる。この
場合、white 1(172)、閾値2=12であるので、
172>12である。
【0038】そして、当該黒画素区間の画素列数と基準
端18から当該黒画素区間までの間の画素列数との和が
閾値3以下であるか否かの判定をする。
【0039】図2に示すblack 1(8)について判定を
行なうと、black 1(8)<閾値3(=24)である。
【0040】従って、判定しようとする黒画素区間およ
び基準端18から当該黒画素区間までの間の黒画素区間
を除去すべき孤立点として判定する。この場合は、blac
k 1と基準端18との間に他の黒画素が存在しないので
black 1(8)のみが除去すべき孤立点と判定され、次
の(ヘ)の手順へ進む。
【0041】尚、white 1<閾値2、または、black 1
>閾値3の場合は、black 1は単独で除去すべき孤立点
ではないと判定して、次のblack 2について判定を行な
うために、(ト)において引数iを1増じてから(ロ)
の手順へ戻る。
【0042】(ヘ)の手順において、この孤立点と判定
された黒画素区間を文字領域枠中から除く位置に基準端
18を変更することにより、当該孤立点を除去する。こ
こでは、black 2のうちの初めの基準端18に最も近い
画素列に、新しい基準端18aを設定する。その結果、
初めの基準端18からwhite 1のうちの初めの基準端1
8から最も遠い画素列まで即ち、black 1およびwhite
1が除去される。孤立点を除去して設定した文字領域枠
10aを図2の(D)に示す。
【0043】以下、黒画素区間または白画素区間中の画
素列のうち、基準端に最も近い画素列を「頭端」と称
し、基準端から最も遠い画素列を「尾端」と称す。
【0044】次に、black 2以降の黒画素列の判定を行
なうため、(チ)においてfirstに引数iを1増じ
た値を代入し、更に(ト)において引数iを1増じてか
ら(ロ)の手順へ戻る。
【0045】このようにして、最初に設定された文字領
域枠10の基準端18と、文字領域枠10中であって基
準端18に直近の正規の文字画像(ここでは「車」)と
の間に存在する除去すべき孤立点16を除去することが
できる。尚、例えば、実施例1において「費」の文字画
像の右側に孤立点が存在する場合は、文字領域枠10の
右側の一辺の画素列を基準端として、実施例1と同様の
手順により孤立点を除去することができる。従って、横
書きの文字画像の場合、基準端を文字領域枠の左右両側
にそれぞれ設定して、それぞれ孤立点を除去することが
望ましい。
【0046】(実施例2)実施例2では、横書きの文書
画像の孤立点除去方法の一例について説明する。実施例
2においても実施例1と同様にして文字領域枠20を設
定する。ここでは、図4の(A)に示すように「合計」
という横書きの文字画像24を囲む文字領域枠20を設
定しているが、「計」の文字の第8画目の横棒の右端
が、かすれのために文字の本体から離間して孤立点26
となっている。
【0047】次に、実施例1の場合と同様にして、図4
の(B)に示すヒストグラムを作成する。
【0048】そして、このヒストグラムに基づいて図4
の(C)に示す画素列の数を作成する。実施例2では、
文字領域枠の右端の画素列を基準端28とする。そし
て、この基準端28に近い側から、各黒画素区間および
白画素区間毎にそれぞれ順次に番号をつける。ここで
は、black 1(6)、white 1(3)、black 2
(7)、white 2(11)、black 3(19)、white
3(356)およびblack 4(45)の画素列の数を作
成する。
【0049】次に、実施例1で参照した図3のフローチ
ャートに従って、孤立点の判定・除去の処理を行なう。
実施例2においても、実施例1と同一の閾値1〜閾値3
を使用する。
【0050】図3の「開始」から(イ)、(ロ)および
(ハ)における手順は図1と同様であるので説明を省略
する。
【0051】(ニ)においては、black 1(6)につい
て判定すると、black 1(6)<閾値1(=18)であ
る。従って、black 1(6)は、孤立点(但し、除去す
べき孤立点とは限らない)と判断される。そして、次の
(ホ)の手順へ進む。
【0052】(ホ)においては、閾値2および閾値3を
用いて、この孤立点が除去すべき孤立点か否かを判定す
る。
【0053】先ず、基準端28から見てblack 1(6)
の向こう側で当該黒画素区間に隣接するwhite 1の画素
列の数が閾値2以上であるか否かを判定する。white 1
(3)<閾値2(=12)であるので、black 1(6)
は、除去すべき孤立点ではないと判定される。
【0054】次のblack 2について判定を行なうため
に、(ト)において引数iを1増じてから(ロ)の手順
へ戻る。そして、この段階ではi=2≠4=endであ
るので、(ロ)の判定で終了とはならずに次の(ハ)の
手順へ進む。
【0055】black 2に含まれる画素列には、黒画素の
度数が行の高さの1/2以上の列が存在する。従って、
(ハ)において、black 2は、文字画像と判定される。
そして、black 2以降の黒画素区間も文字画像として、
処理を終了する。従って、実施例2では、文字領域枠2
0は変更されず、かすれによって生じた孤立点を残すこ
とができる。
【0056】(実施例3)実施例3では、横書きの文書
画像の孤立点除去方法の一例について説明する。実施例
3においても実施例1と同様にして文字領域枠30を設
定する。ここでは、図5の(A)に示すように「31
0,465」という横書きの文字画像34を囲む文字領
域枠30を設定しているが、文字領域枠30の左端付近
に、互いに近接した第1孤立点36aおよび第2孤立点
36bが存在している。
【0057】次に、実施例1の場合と同様にして、図5
の(B)に示すヒストグラムを作成する。
【0058】そして、このヒストグラムに基づいて図5
の(C)に示す画素列の数を作成する。実施例3では、
文字領域枠30の左端の画素列を(初めの)基準端38
とする。そして、この基準端38に近い側から、各黒画
素区間および白画素区間毎にそれぞれ順次に番号をつけ
る。ここでは、black 1(8)、white 1(5)、blac
k 2(9)、white 2(125)、black 3(21)な
どの画素列の数を作成する。
【0059】次に、実施例1で参照した図3のフローチ
ャートに従って、孤立点の判定・除去の処理を行なう。
実施例3においても、実施例1と同一の閾値1〜閾値3
を使用する。
【0060】図3の「開始」から(イ)、(ロ)および
(ハ)における手順は図1と同様であるので説明を省略
する。
【0061】次に、(ニ)において、第1孤立点16a
のblack 1(8)について判定すると、black 1(8)
<閾値1(=18)である。従って、black 1(6)
は、孤立点(但し、除去すべき孤立点とは限らない)と
判断される。そして、次の(ホ)の手順へ進む。
【0062】(ホ)においては、閾値2および閾値3を
用いて、この孤立点が除去すべき孤立点か否かを判定す
る。
【0063】先ず、基準端38から見てblack 1(6)
の向こう側で当該黒画素区間に隣接するwhite 1の画素
列の数が閾値2以上であるか否かを判定する。white 1
(5)<閾値2(=12)であるので、black 1(6)
は、除去すべき孤立点ではないと判定される。
【0064】次のblack 2について判定を行なうため
に、(ト)において引数iを1増じてから(ロ)の手順
へ戻る。そして、この段階ではi=2≠9=endであ
るので、(ロ)の判定で終了とはならずに次の(ハ)の
手順へ進む。
【0065】(ハ)において、第2孤立点16bのblac
k 2の度数は行の高さの1/2以下であるので、次の
(ニ)の手順に進む。
【0066】(ニ)においては、第2孤立点16bにつ
いて判定すると、black 2(9)<閾値1(=18)で
ある。従って、black 2(9)は、孤立点(但し、除去
すべき孤立点とは限らない)と判断される。そして、次
の(ホ)の手順へ進む。
【0067】(ホ)においては、閾値2および閾値3を
用いて、この孤立点が除去すべき孤立点か否かを判定す
る。
【0068】先ず、基準端38から見てblack 2(9)
の向こう側で当該黒画素区間に隣接するwhite 2の画素
列の数が閾値2以上であるか否かを判定する。white 2
(125)>閾値2(=12)であるので、black 2
(9)は、除去すべき孤立点であるための要件の1を満
たす。
【0069】更に、基準点38からblack 2の尾端まで
の画素列の数が、閾値3以下であるか否かを判定する。
black 1、white 1およびblack 2のそれぞれの画素列
の数の和である8+5+9=22<閾値3(=24)で
ある。従って、閾値1〜閾値3についての判定結果か
ら、判定しようとする黒画素区間(black 2)および基
準端38から当該黒画素区間(black 2)までの間の黒
画素区間(black 1)を除去すべき孤立点として判定す
る。そして、次の(ヘ)の手順へ進む。
【0070】(ヘ)の手順において、この孤立点と判定
された黒画素区間を文字領域枠30中から除く位置に基
準端38を変更することにより、当該孤立点を除去す
る。ここでは、新しい基準端38aをblack 3の頭端の
位置に設定する。その結果、初めの基準端38からwhit
e 2の尾端まで、即ち、black 1、white 1、black 2
およびwhite 2が除去される。第1および第2孤立点3
6aおよび36bを除去して設定した新しい文字領域枠
30aを図5の(D)に示す。
【0071】次に、black 3以降の黒画素列の判定を行
なうために、(チ)においてfirstに引数iを1増
じた値を代入し、更に(ト)において引数iを1増じて
から(ロ)の手順へ戻る。
【0072】この段階でi=3となる。従って(ロ)の
判定で終了とはならずに次の(ハ)の手順へ進む。
【0073】(ハ)において、black 3の度数はいずれ
も行の高さの1/2以下であるので、次の(ニ)の手順
に進む。
【0074】(ニ)において、black 3(21)につい
て判定すると、black 3(21)>閾値1(=18)で
ある。従って、black 3(18)は、文字画像と判定さ
れるので、処理を終了する。
【0075】(実施例4)実施例4では、縦書きの文書
画像の孤立点除去方法の一例について説明する。実施例
4においても実施例1と同様にして文字領域枠40を設
定する。ここでは、図6の(A)に示すように「はじめ
に」という縦書きの文字画像44を囲む文字領域枠40
を設定しているが、文字領域枠40の上端付近に、孤立
点46が存在している。
【0076】次に、実施例1と同様にして、図6の
(B)に示す黒画素のヒストグラムを作成する。
【0077】そして、このヒストグラムに基づいて図6
の(C)に示す画素列の数を作成する。実施例4では、
文字領域枠40の上端の画素列を基準端48とする。そ
して、この基準端48に近い側から、各黒画素区間およ
び白画素区間毎にそれぞれ順次に番号をつける。ここで
は、black 1(9)、white 1(36)、black 2(4
0)、white 2(8)、black 3(42)、white 3
(7)、black 4(41)、white 4(8)およびblac
k 5(38)の画素列の数を作成する。
【0078】次に、実施例1で参照した図3のフローチ
ャートに従って、孤立点の判定・除去の処理を行なう。
実施例4においても、実施例1と同一の閾値1、閾値2
および閾値3を使用する。
【0079】図3の「開始」から(イ)、(ロ)および
(ハ)における手順は図1と同様であるので説明を省略
する。
【0080】次に、(ニ)において、孤立点46のblac
k 1(8)について判定すると、black 1(8)<閾値
1(=18)である。従って、black 1(6)は、孤立
点(但し、除去すべき孤立点とは限らない)と判断され
る。そして、次の(ホ)の手順へ進む。
【0081】(ホ)においては、閾値2および閾値3を
用いて、この孤立点46が除去すべき孤立点か否かを判
定する。
【0082】先ず、基準端48から見てblack 1(9)
の向こう側で当該black 1に隣接するwhite 2の画素列
の数が閾値2以上であるか否かを判定する。white 2
(36)>閾値2(=12)であるので、black 1
(9)は、閾値2に関して除去すべき孤立点であるため
の要件の1つを満たす。
【0083】更に、基準点48からblack 1の尾端まで
の画素列の数が、閾値3以下であるか否かを判定する。
black 1(9)<閾値3(=24)であるので、black
1は、閾値3に関して除去すべき孤立点であるための要
件の1つを満たす。従って、閾値1〜閾値3についての
判定結果から、判定しようとする黒画素区間(black
1)および基準端48から当該黒画素区間(black 1)
までの間の黒画素区間(この場合はなし)を除去すべき
孤立点として判定する。そして、次の(ヘ)の手順へ進
む。
【0084】(ヘ)の手順において、この孤立点と判定
された黒画素区間を文字領域枠40中から除く位置に新
しい基準端48aを設定することにより、当該孤立点4
6を除去する。ここでは、基準端48aをblack 2の頭
端に移動する。その結果、初めの基準端48からwhite
1の尾端まで、即ち、black 1およびwhite 1が除去さ
れる。孤立点を除去して設定した文字領域枠40aを図
6の(D)に示す。
【0085】次に、black 2以降の黒画素列の判定を行
なうため、(チ)においてfirstに引数iを1増じ
た値を代入し、更に(ト)において引数iを1増じてか
ら(ロ)の手順へ戻る。
【0086】この段階でi=2となる。従って(ロ)の
判定で終了とはならずに次の(ハ)の手順へ進む。
【0087】(ハ)において、black 2の度数はいずれ
も行の高さの1/2以下であるので、次の(ニ)の手順
に進む。
【0088】(ニ)において、black 2(40)につい
て判定すると、black 3(40)>閾値1(=18)で
ある。従って、black 2(40)は、文字画像と判定さ
れるので、処理を終了する。
【0089】上述した実施例では、この発明は特定の条
件で構成した例について説明したが、この発明は多くの
変更および変形を行なうことができる。例えば、上述し
た実施例1では、横書きの文書画像の孤立点を除去する
にあたり、正規文書画像の左右両側の孤立点を除去した
が、この発明では、横書き文書画像の正規の文書画像の
上下の孤立点を除去することも可能である。その場合
は、縦書きの場合のように、横方向に延在した列を設定
して、この列毎にヒストグラムを作成して、以下実施例
1と同様に孤立点を識別するとよい。
【0090】また、実施例4の縦書きの文書画像におい
て、正規の文書画像の左右の孤立点を除去することも可
能である。
【0091】また、上述した実施例では、閾値1〜3の
画素列の数をそれぞれ一定の値に固定した例について説
明したが、この発明では、各閾値は、任意に変更するこ
とも可能である。
【0092】また、上述した実施例では、文字領域枠を
設定するのに表解析の手法を用いたが、この発明では、
文字領域枠を設定する方法はこれに限定する必要はな
く、周知の任意の手法を用いることができる。
【0093】また、上述した実施例では、文字画像の行
に垂直方向に並んだ画素からなる画素列についてヒスト
グラムを作成して孤立点を除去したが、この発明では、
例えば行方向に並んだ画素からなる画素列についてヒス
トグラムを作成して孤立点を除去してもよい。この場
合、横書きの場合は行の上下であって文字領域枠中にあ
るにある孤立点を除去することができる。また、縦書き
の場合は行の左右であって文字領域中にあるにある孤立
点を除去することができる。
【0094】また、上述した実施例では、文字領域枠の
両端の区間が黒画素区間となるように文字領域枠を設定
したが、この両端の区間は白画素区間であってもよい。
【0095】また、上述した実施例では、孤立点の削除
を行なうにあたって、処理を終了させる判定の下になっ
た黒画素区間の頭端の位置に新しい基準端を設定した
が、この発明では、例えば、除去前の基準点から見て除
去すべき孤立点の向こう側であって、当該孤立点に隣接
する白画素区間中に新しい基準点を設定してもよい。
【0096】
【発明の効果】この発明の孤立点除去方法によれば、閾
値1〜3の3つの閾値と画素列の数とを比較して除去す
べき孤立点を容易に識別することができる。また、閾値
2を設定することにより、かすれ等によって生じた除去
すべきでない孤立点を残すことができる。また、閾値3
を設定することにより、「ハ」といった離間文字を誤っ
て除去する恐れが少ない。このように、この発明の孤立
点除去方法によれば、除去すべき孤立点の効率よい識
別、除去を図ることができ、特に、文字領域枠で囲まれ
た文字領域の周辺部にある孤立点の除去に用いて好適で
ある。
【図面の簡単な説明】
【図1】実施例1のフローチャートである。
【図2】実施例1の説明に供する図である。
【図3】実施例1における孤立点の判定および除去のフ
ローチャートである。
【図4】実施例2の説明に供する図である。
【図5】実施例3の説明に供する図である。
【図6】実施例4の説明に供する図である。
【符号の説明】
10、20、30、40:(初めの)文字領域枠 10a、30a、40a:(新しい)文字領域枠 12、22、32、42:文字領域 14、24、34、44:文字画像 16、26、46:孤立点 18、28、38、48:(初めの)基準端 18a、38a、48a:(新しい)基準端 36a:第1孤立点 36b:第2孤立点
フロントページの続き (72)発明者 鳥越 真 東京都港区虎ノ門1丁目7番12号 沖電 気工業株式会社内 (56)参考文献 特開 平5−258106(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/40

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書画像中に、文字画像を囲む文字領域
    枠を設定し、該文字領域枠の基準端と、該基準端に直近
    の文字画像との間にある孤立点を識別し、除去する文書
    画像の孤立点除去方法において、 該文字領域枠中の画素列毎に、当該画素列中の黒画素の
    数を度数としたヒストグラムを作成し、 該ヒストグラムの度数が0である画素列が1つ以上連続
    する白画素区間の画素列の数と、該度数が1以上である
    画素列が1つ以上連続する黒画素区間の画素列の数とを
    各白画素区間毎および各黒画素区間毎にそれぞれ計数
    し、 前記文字領域枠の一辺の画素列を基準端とし、 黒画素区間の画素列の数についての閾値1は、孤立点の
    画素集団が小さく、正規の文字の画素列の数に比べて孤
    立点の画素列の数が短いことを利用するために設定し、 白画素区間の画素列の数についての閾値2は、正規の文
    書画像の直近の孤立点は、文字本体の一部である可能性
    が高いことを利用し、除去すべきでない孤立点を残すた
    めに設定し、 前記基準端からの画素列数についての閾値3は、離間文
    字の離間した各黒画素を合わせた画素列の数と、離間文
    字の黒画素区間の間の白画素区間の画素列の数との合計
    の画素列の数は、一定以上の長さになることを利用し、
    離間文字を残すために設定し、 黒画素区間の画素列数が前記閾値1以下で、基準端から
    見て当該黒画素区間の向こう側で当該黒画素区間に隣接
    する白画素区間の画素列数が前記閾値2未満、または、
    当該黒画素区間の画素列数と前記基準端から当該黒画素
    区間までの間の画素列数との和が前記閾値3より大きい
    値である場合は、当該黒画素区間は除去すべきでない孤
    立点として判定し、引き続き隣接する黒画素区間につい
    て判定を行い、 一方、黒画素区間の画素列数が前記閾値1以下で、基準
    端から見て当該黒画素区間の向こう側で当該黒画素区間
    に隣接する白画素区間の画素列数が前記閾値2以上で、
    かつ、当該黒画素区間の画素列数と前記基準端から当該
    黒画素区間までの間の画素列数との和が前記閾値3以下
    である場合に、当該黒画素区間および前記基準端から当
    該黒画素区間までの間の黒画素区間を除去すべき孤立点
    として判定し、 該孤立点と判定された黒画素区間を前記文字領域枠中か
    ら除く位置に前記基準端を変更することにより、当該孤
    立点を除去することを特徴とする文書画像の孤立点除去
    方法。
JP15636295A 1995-06-22 1995-06-22 文書画像の孤立点除去方法 Expired - Fee Related JP3165004B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15636295A JP3165004B2 (ja) 1995-06-22 1995-06-22 文書画像の孤立点除去方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15636295A JP3165004B2 (ja) 1995-06-22 1995-06-22 文書画像の孤立点除去方法

Publications (2)

Publication Number Publication Date
JPH096917A JPH096917A (ja) 1997-01-10
JP3165004B2 true JP3165004B2 (ja) 2001-05-14

Family

ID=15626102

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15636295A Expired - Fee Related JP3165004B2 (ja) 1995-06-22 1995-06-22 文書画像の孤立点除去方法

Country Status (1)

Country Link
JP (1) JP3165004B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764908B (zh) * 2008-12-08 2012-02-01 新奥特(北京)视频技术有限公司 一种有效去除灰度图像中噪点的方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6847469B1 (en) 1998-12-24 2005-01-25 Ricoh Company, Ltd. Image processing apparatus for removing an isolated point
JP2006072839A (ja) * 2004-09-03 2006-03-16 Ricoh Co Ltd 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体
JP4281807B2 (ja) 2007-02-07 2009-06-17 セイコーエプソン株式会社 画像処理装置、複写装置、画像処理方法及びそのプログラム
CN109945955B (zh) * 2019-04-10 2020-10-09 郑州楷源仪表有限公司 一种水表视觉在线检测方法及其系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764908B (zh) * 2008-12-08 2012-02-01 新奥特(北京)视频技术有限公司 一种有效去除灰度图像中噪点的方法

Also Published As

Publication number Publication date
JPH096917A (ja) 1997-01-10

Similar Documents

Publication Publication Date Title
JP2822189B2 (ja) 文字認識装置及び方法
JP2974061B2 (ja) パタン抽出装置
US4527283A (en) Character information separating apparatus for printed character reading systems
GB2190778A (en) Character recognition with variable subdivision of a character region
JPS62145380A (ja) 白黒ペル像の雑音を除去する方法
US5033098A (en) Method of processing character blocks with optical character reader
JP3165004B2 (ja) 文書画像の孤立点除去方法
JP2971344B2 (ja) 画像サイズ削減方法
JP3837193B2 (ja) 文字行抽出方法および装置
JP2005174323A (ja) 文書画像強調方法、装置及びそのための記憶媒体、並びに文字認識方法、装置及びそのための記憶媒体
JP2003067738A (ja) 網点除去方法及びシステム
JP3904397B2 (ja) 表認識方法
JP2569103B2 (ja) 文字検出方法
JP2918666B2 (ja) 文字画像切出し方法
JPS615383A (ja) 文字パタ−ン分離装置
JP3033501B2 (ja) ドットプリンタ
JP3545227B2 (ja) 画像処理方法及び装置、光学式文字読取装置
JPH0713994A (ja) 文字認識装置
JPH11316797A (ja) 文書画像の領域識別方法および装置
JPH04311283A (ja) 行方向判定装置
JP4320868B2 (ja) 文字読取装置
JP2000316091A (ja) ノイズ除去装置、方法及び記録媒体
JPH01217583A (ja) 罫線認識装置
JPS62171380A (ja) 画像処理方式
JPH08115380A (ja) 画像処理装置及び方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010220

LAPS Cancellation because of no payment of annual fees