JP2021013124A - 画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP2021013124A
JP2021013124A JP2019127180A JP2019127180A JP2021013124A JP 2021013124 A JP2021013124 A JP 2021013124A JP 2019127180 A JP2019127180 A JP 2019127180A JP 2019127180 A JP2019127180 A JP 2019127180A JP 2021013124 A JP2021013124 A JP 2021013124A
Authority
JP
Japan
Prior art keywords
image
edge
binary
valued
generation means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019127180A
Other languages
English (en)
Other versions
JP2021013124A5 (ja
JP7341758B2 (ja
Inventor
泰輔 石黒
Taisuke Ishiguro
泰輔 石黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019127180A priority Critical patent/JP7341758B2/ja
Priority to US16/920,996 priority patent/US11570331B2/en
Publication of JP2021013124A publication Critical patent/JP2021013124A/ja
Publication of JP2021013124A5 publication Critical patent/JP2021013124A5/ja
Application granted granted Critical
Publication of JP7341758B2 publication Critical patent/JP7341758B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/405Halftoning, i.e. converting the picture signal of a continuous-tone original into a corresponding signal showing only two levels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/409Edge or detail enhancement; Noise or error suppression
    • H04N1/4092Edge or detail enhancement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20192Edge enhancement; Edge preservation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Processing (AREA)
  • Character Input (AREA)

Abstract

【課題】文字画素を過不足なく二値画像として有効化できるようにすることを課題とする。【解決手段】画像処理装置は、第一の画像生成手段(S400)と、エッジ生成手段(S410)と、第二の画像生成手段(S430)とを有する。第一の画像生成手段(S400)は、多値画像から閾値を基に二値画像を生成する。エッジ生成手段(S410)は、多値画像からエッジ画像を生成する。第二の画像生成手段(S430)は、エッジ画像と二値画像とを合成して合成二値画像を生成する。ここでエッジ生成手段(S410)は、多値画像から抽出したエッジの位置を、多値画像に基づいて補正してエッジ画像を生成する。【選択図】図4

Description

本発明は、スキャン等にて得られた多値画像から二値画像を生成する画像処理技術に関する。
印字された文字がかすれてしまっている文書をカメラやスキャナにより読込んだ画像(スキャン画像)に対して文字認識処理(OCR処理)を行う際、かすれ文字部の文字線(文字画素)等のOCR精度を向上させる技術として、特許文献1に記載の技術がある。特許文献1には、多値データを二値化する際の閾値をコントロールすることで、画像を濃度補正する技術が開示されている。特許文献1に記載の技術によれば、階調値が高く、薄れてしまっている文字画素も、閾値を高くすることで、文字線として有効な画素として二値化することができる。
特開2000−348138号公報
しかしながら、上述の先行技術では、本来文字画素として有効にしたくない画素も有効にしてしまうことがある。例えば、薄れた文字画素を有効化できるように閾値を上げた結果、文字画素ではない画素も有効化してしまい、文字における文字線と文字線の間に存在する画素(文字内の非文字画素)が文字画素化され、文字形状が失われることがある。文字内の非文字画素は、スキャナ読み取り時に生じるノイズやスキャン画像生成時に生じるデータ圧縮などの影響で階調値が低くなることがあるため、単に閾値を用いるだけでは、文字画素のみを過不足なく二値画像として有効化することが困難である。
そこで、本発明は、文字画素を過不足なく二値画像として有効化できるようにすることを目的とする。
本発明の画像処理装置は、多値画像から閾値を基に二値画像を生成する第一の画像生成手段と、前記多値画像からエッジ画像を生成するエッジ生成手段と、前記エッジ画像と前記二値画像とを合成して合成二値画像を生成する第二の画像生成手段と、を有し、前記エッジ生成手段は、前記多値画像から抽出したエッジの位置を、前記多値画像に基づいて補正して前記エッジ画像を生成することを特徴とする。
本発明によれば、文字画素を過不足なく二値画像として有効化することができる。
実施形態の情報処理システムの構成例を示す図である。 実施形態の画像生成処理の大まかな流れを示すフローチャートである。 スキャン画像および文字列領域の検出結果の一例を示す図である。 第一の実施形態のかすれ文字補間二値化処理のフローチャートである。 スキャン画像および二値画像、エッジ画像の一例を示す図である。 ぼかし処理を用いた補間処理のフローチャートである。 補間処理とその結果の一例を示す図である。 ノイズ判定に基づく画像合成処理のフローチャートである。 ノイズ判定に基づく画像合成処理とその結果の一例を示す図である。 ノイズ判定テーブルの一例を示す図である。 第四の実施形態のかすれ文字補間二値化処理のフローチャートである。 かすれ文字判定処理のフローチャートである。 文字候補領域の一例を示す図である。
以下、本発明の実施形態を、添付の図面に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例にすぎず、本発明は図示された構成に限定されるものではない。
<システム構成例>
図1は、本実施形態の画像処理装置が適用される情報処理システムの概略構成例を示す図である。情報処理システムは、読み取り装置100と、本実施形態の画像処理装置の一例である情報処理装置110とを有している。読み取り装置100は、スキャナ101と、通信部102とを有している。スキャナ101は、文書の読み取りを行い、スキャン画像を生成する。スキャン画像のデータは多値画像データである。通信部102は、ネットワークを介して外部装置と通信を行う。
情報処理装置110は、システム制御部111と、ROM112と、RAM113と、HDD114と、表示部115と、入力部116と、通信部117とを有している。システム制御部111は、ROM112に記憶された制御プログラムを読み出して各種処理を実行する。RAM113は、システム制御部111の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD114は、スキャン画像のデータを含む各種データや各種プログラム等を記憶する。なお、情報処理装置110の後述する機能や処理は、システム制御部111がROM112又はHDD114に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。
通信部117は、ネットワークを介して外部装置との通信処理を行う。表示部115は、各種情報を表示する。入力部116は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。なお、表示部115と入力部116は、タッチパネルのように一体に設けられてもよい。また、表示部115は、プロジェクタによる投影を行うものであってもよく、入力部116は、投影された画像に対する指先の位置を、カメラで認識するものであってもよい。
本実施形態においては、読み取り装置100のスキャナ101が帳票等の紙文書を読み取り、スキャン画像を生成する。スキャン画像のデータは、通信部102により情報処理装置110に送信される。情報処理装置110では、通信部117がスキャン画像のデータを受信し、当該画像データをHDD114などの記憶装置に記憶する。
<第一の実施形態>
図2は、情報処理装置110において行われる第一の実施形態に係る画像生成処理の大まかな流れを示したフローチャートの一例である。本フローチャートの処理は、ROM112に格納されたプログラムに従って情報処理装置110のシステム制御部111が実行することによって実現される。
まずステップS200において、システム制御部111は、スキャナ101がユーザによる指示に従い紙文書をスキャンして送信してきたスキャン画像のデータを、通信部117を介して受信する。そして、システム制御部111は、受信したスキャン画像のデータを、HDD114などの記憶部に格納させる。図3(a)は、当該処理により得られたスキャン画像301の一例を示した図である。
次にステップS210において、システム制御部111は、HDD114などの記憶部に格納したスキャン画像を読み出し、そのスキャン画像に対して文字列領域検出処理を行う。そして、システム制御部111は、文字列領域検出処理による検出結果の情報をRAM113に格納する。文字列領域検出処理は、スキャン画像中から文字認識の対象となる文字列を含む領域を検出する処理であり、画像全体をx軸方向に射影をとり、階調値が閾値以下の領域を文字列として検出することで実現される。検出された文字列領域は、文字列領域を包含する矩形領域座標(文字列領域の四隅を示す位置座標)として表現される。図3(b)は、スキャン画像301に対する文字列領域の検出結果の一例であり、破線で囲まれた文字列領域302は、検出された文字列領域である。なお、上記の文字列領域検出処理は一例であって、文字列の領域を検出できれば他の手法でもよく、具体的な手法は問わない。
次にステップS220において、システム制御部111は、文字列領域毎のスキャン画像に対して、かすれ文字画素に対する補間処理を行った上で閾値を用いて再二値化処理を行い、その二値化処理で再生成した二値画像のデータをRAM113に格納する。ステップS220で行われる、かすれ文字補間二値化処理の詳細については、図4を用いて後述する。
当該処理により、かすれた文字を含むスキャン画像も文字画素の過不足がない状態で、二値化できるため、当該二値画像に対して文字認識処理を実施することで、図1のシステムにおけるOCRの文字認識精度を向上させることが可能になる。
続いて、図2のステップS220におけるかすれ文字補間二値化処理について、図4を用いて説明する。図4は、本実施形態における、かすれ文字補間二値化処理のフローチャートの一例である。
まずステップS400において、システム制御部111は、RAM113を参照し、スキャン画像および処理対象の文字列領域を示す矩形領域座標を取得する。さらにシステム制御部111は、それら取得した情報を用いて、スキャン画像内の矩形領域座標が示す領域に対して、所定の閾値を用いた二値化処理を実施して二値画像を生成するような画像生成処理を行い、その二値画像のデータをRAM113に格納する。
二値化処理は、所定の閾値以上の階調値を持つ画素を白画素とし、所定の閾値よりも小さな階調値を持つ画素を黒画素として、二階調の画像データに変換するような画像生成処理である。
図5(a)は、二値化処理結果の一例の説明に用いる図である。二値化対象画像501は、スキャン画像301から処理対象領域として抜き出された画像(図3(b)の文字列領域302)である。元画像503は、二値化対象画像501のなかの着目領域502を拡大した画像である。元画像503に対する閾値二値化の結果が、閾値二値画像504である。
なお、本実施形態において、所定の閾値は、予め定めた規定の値を用いてもよく、様々な閾値算出手法によって適応的に算出した閾値を用いてもよい。閾値算出手法としては、例えば画像内の階調値分布を用いて適応的に閾値を算出する方法等を挙げることができる。
次にステップS410において、システム制御部111は、ステップS400で取得したスキャン画像および文字列領域を対象に、エッジ抽出処理を行い、そのエッジ抽出結果を基にエッジ画像を生成するエッジ生成処理を行う。そして、システム制御部111は、その生成したエッジ画像のデータをRAM113に格納する。
ここで、エッジ抽出処理は、隣接する画素間で階調値の勾配が生じている部分をエッジ候補として抽出する処理である。階調値の勾配は、画像のx軸およびy軸のそれぞれに対して、画素階調値の変化量を一次微分することで求められる。そしてシステム制御部111は、その画素階調値の変化量の極大点の画素をエッジ候補の画素として特定し、当該エッジ候補の画素を黒画素化する。
図5(b)は、x軸のエッジ候補として抽出された画素とy軸のエッジ候補として抽出された画素とを合成した結果の一例を示した図である。エッジ抽出結果画像505は、元画像503に対するエッジ抽出結果である。抽出されたエッジ候補の各画素が、黒画素化されることでエッジ部506が得られる。
なお、本実施形態では、一次微分を用いてエッジ抽出を行ったが、エッジを特定することができれば、エッジ抽出の方法は問わない。
次にステップS420において、システム制御部111は、RAM113を参照し、エッジ候補の画像と当該エッジ候補の画像に対応する領域のスキャン画像とを取得する。さらに、システム制御部111は、取得したスキャン画像の階調値とエッジ候補の画像とを基に、エッジ候補の画像の位置を補正し、その補正後の画像をエッジ画像のデータとしてRAM113に格納する。具体的に説明すると、システム制御部111は、エッジ候補の画素(エッジ候補とされた黒画素)に対応した位置のスキャン画像の画素に隣接した画素を参照し、階調値が小さな方の画素に対して、エッジ候補の画素値をシフトさせることでエッジ画素とする。シフトの実施は、x軸のエッジ候補の画像と、y軸のエッジ候補の画像との、それぞれに対して行う。すなわちx軸のエッジ候補の画像とスキャン画像とを用いたエッジシフトの場合、システム制御部111は、x軸のエッジ候補の画素に対応した位置のスキャン画像内の画素の左右の階調値を参照する。そして、システム制御部111は、階調値が小さな方の画素に対してエッジ候補の画素値をx軸方向に1画素分シフトしてエッジ画素とする。同様に、y軸のエッジ候補の画像とスキャン画像とを用いたエッジシフトの場合、システム制御部111は、y軸のエッジ候補の画素に対応するスキャン画像内の画素の上下の階調値を参照する。そして、システム制御部111は、階調値が小さな方の画素に対してエッジ候補の画素をy軸方向に1画素分シフトしてエッジ画素とする。
図5(c)は、エッジシフトが行われた結果の一例を示した図である。エッジ抽出結果画像505に対して、元画像503に基づきエッジシフトを行った結果のエッジ画像が、エッジシフト結果画像507である。すなわち、このエッジシフト結果画像507が、次のステップS430において、ステップS400の閾値二値化結果画像と合成されるエッジ画像である。
次にステップS430において、システム制御部111は、RAM113からエッジシフト結果画像と閾値二値化結果画像とを取得し、これら二つの画像を合成処理して合成二値画像を生成する。ここで行われる画像の合成処理は、黒画素を1、白画素を0として、OR演算(論理和演算)を行う処理である。すなわち、エッジシフト画像もしくは閾値二値化結果画像のいずれかにおいて黒画素であった画素が、合成結果においても黒画素として設定されて合成二値画像が生成される。図5(d)は、画像の合成処理により生成された合成二値画像508の一例を示した図である。図5(d)によれば、エッジ画像(エッジシフト結果画像)とエッジと閾値二値画像とが合成されていることで、閾値二値画像だけでは欠落していた文字画素が黒画像となって有効化できていることがわかる。
以上説明したように、本実施形態によれば、エッジ画像と閾値二値画像とを合成することで、閾値のみを用いた処理では文字画素を過不足なく二値化できない画像に対しても、文字画素の欠落や非文字画素の有効化を解消した二値化画像を生成可能である。さらに、本実施形態によれば、スキャン画像の階調値に基づき、エッジ画像の画素位置をシフトさせることで、文字画素を過不足なく有効化した二値画像を再生成することができる。なお、公知のエッジ抽出処理では、文字線に対して外側にエッジ画素が生成される傾向がある。したがって、エッジシフト処理を適用しないエッジ画像と閾値二値画像を単に結合しただけでは、文字画素の外側に存在する文字画素が有効となった二値画像が生成されることとなり、結果として、文字認識処理の精度に悪影響を与える。これに対し、本実施形態では、エッジシフト処理を適用することで、文字画素の外側に存在する文字画素が誤って有効となるような問題を回避することができる。
<第二の実施形態(画素抜け補間)>
第一の実施形態では、エッジシフト後のエッジ画像と閾値二値画像とを合成することで、二値化画像を生成したが、例えば文字線が太い場合には、エッジ画像と閾値二値画像の間に隙間が生じることがある。第二の実施形態では、エッジ画像と閾値二値画像の間に隙間が生じた場合も、文字画素の過不足が生じないように二値画像を生成する処理について説明する。なお、制御の流れなど第一の実施形態と共通する内容については説明を省略し、第一の実施形態との差分となる画像合成処理(第一の実施形態におけるステップS430の画像合成処理に相当)について説明する。第一の実施形態におけるステップS430の処理と第二の実施形態における図6の処理とは、いずれか一方の処理のみ行われてもよいし、両方の処理が行われてもよい。本実施形態では両方の処理が行われるが、以下の説明では第一の実施形態のステップS430に係る処理の記載は省略する。
図6はステップS430の画像合成処理の第二の実施形態における処理を示すフローチャートの一例である。
ステップS600は前述のステップS430と同一の処理であるため、説明を省略する。図7(a)は、ステップS600の画像合成処理を実施した結果の一例である。図7(a)に示すように、画像合成処理結果の画像は、文字線が太く、文字画素抜け701が生じているとする。
次にステップS610において、システム制御部111は、RAM113を参照し、画像合成処理の結果の画像データを取得する。さらに、システム制御部111は、当該画像に対して、ガウシアンフィルタ処理と呼ばれる公知のぼかし処理を用いた補間処理を行い、そのぼかし処理後のデータをRAM113に格納する。
図7(b)は、本処理結果の一例であり、図7(a)の画像にぼかし処理を適用した結果の画像である。ガウシアンフィルタを適用することで、画素間の距離に応じて処理後の階調値が求められる。したがって、エッジ画像と閾値二値画像との間の隙間のように距離が短い空き領域つまり文字画素抜け領域がある場合、その文字画素抜け領域に対してはぼかし処理が強く適用される。一方、実際の文字線(文字画素)と文字線の間のように距離が長い空き領域に対しては、ぼかし処理が弱く適用される。その結果として、文字画素抜けが生じている領域は、文字画素に近い階調値(図7(b)の例では黒に近い階調値)に補間される。一方、実際の文字線と文字線との間のように文字画素抜け領域ではない領域は、文字画素とは異なる階調値(図7(b)の例では白に近い階調値)に補間される。
次にステップS620において、システム制御部111は、ぼかし処理後の画像に対し、第二の閾値二値化処理を実施し、その処理結果のデータをRAM113に格納する。第二の閾値二値化処理は、図4のステップS400における処理と同様である。図7(c)は、図7(b)に対して本処理を適用した結果の一例を示した図である。
以上説明したように、第二の実施形態によれば、エッジ画像と閾値二値画像とを合成しただけでは、文字画素が欠落してしまう場合でも、ぼかし処理による欠落画素の補間を行うことで、文字画素欠落がない二値画像を生成することができる。文字線中の文字画素欠落は、文字認識処理の精度を低下させる要因となるが、本実施形態の処理を適用することで、当該文字画素欠落の問題を回避することが可能になる。
<第三の実施形態(ノイズ除去)>
第一の実施形態および第二の実施形態では、エッジ画像を閾値二値画像と合成することで、二値化処理を行ったが、エッジ画像には文字線以外のエッジ、すなわち例えばノイズが含まれる可能性がある。第三の実施形態では、エッジ画像にノイズが含まれる場合でも、ノイズ部分が文字画素として扱われないように二値画像を生成する処理について説明する。なお、制御の流れなど、前述の各実施形態と共通する内容については説明を省略し、説明済みの実施形態に対する差分となる画像合成処理(第一の実施形態におけるステップS430画像合成処理に相当)について説明する。第三の実施形態における処理も前述した第一の実施形態または第二の実施形態の処理とともに行われるが、いずれかの処理のみ行われてもよい。
図8はステップS430の画像合成処理の第三の実施形態における処理を示すフローチャートの一例である。このフローチャートの処理は、エッジ画像の連結画素塊(CC:Connected Component)を抽出し、その抽出したCCの位置関係に基づいて文字候補の領域を生成し、その文字候補の領域に対してかすれ文字の判定を行う処理となっている。
まずステップS800において、システム制御部111は、RAM113からエッジ画像を取得して、エッジ画像の連結画素塊(CC:Connected Component)を抽出し、その抽出した情報をRAM113に格納する。CCは、エッジ画像内で連結する黒画素(エッジ画素)を抽出したものであり、同一のCCとなる画素に同一ラベルを付与した情報を持つ。図9(b)は、本処理結果の一例を示した図である。図9(b)は、図9(a)に示したスキャン画像に対してエッジ抽出した画像の一例を示した図である。図9(b)に示した画像では、三つのCC(エッジCC901、エッジCC902、エッジCC903)が抽出されている。
次にステップS810において、システム制御部111は、RAM113を参照し、エッジCCの情報を取得し、各エッジCCについて、ノイズ判定処理を実施する。ノイズ判定処理では、エッジCCがノイズであるか否かが判定される。システム制御部111は、ノイズではないと判定した場合にはステップS820の処理へ移行し、一方、ノイズであると判定した場合には閾値二値画像とエッジ画像の合成処理を実施せず、処理を終了する。
ノイズ判定処理は、図10に示すノイズ判定テーブルを参照することにより行われる。システム制御部111は、ノイズ判定テーブルに記載される条件を満たす場合にはノイズと判定する。
例えばシステム制御部111は、条件1として、閾値に対して、エッジCCの高さが大きいか否かを判定する。そして、システム制御部111は、閾値よりもエッジCCの高さが大きい場合にはノイズであると判定する。閾値は、ステップS400において取得した文字列領域の高さの最頻値に対して、所定の係数を乗算したものを用いる。ここで文字列領域の高さは文書中の文字高さに近似されることが期待できる。文書中の文字高さに対して、エッジCCの高さが大きな場合は、文字画素から抽出されたエッジではない、すなわちノイズである可能性が高いためと判断できるので、文字高さが閾値算出の基となされる。
また例えばシステム制御部111は、条件2として、閾値よりもエッジCCの高さが小さく、かつ、エッジCCと閾値二値画像とを合成した結果、エッジCCと閾値二値画像の画素が連続しない場合にノイズであると判定する。具体的には、システム制御部111は、エッジCCの高さが文字高さと近似された閾値を超えない場合には、エッジCCと閾値二値画像を合成する。そして、システム制御部111は、合成した結果、エッジCCの画素と閾値二値画像の画素が連続しない場合にはノイズであると判定する。すなわち、エッジCCが小さく、閾値二値画像と合成しても、画素が連続しない場合は、文字画素に対して孤立した微小なエッジであり、ノイズであると想定できる。
図9(b)に示したエッジの例では、三つのエッジCCは、いずれも条件1を満たさないが、エッジCC903については、条件2を満たすことになる。したがって、エッジCC903については、条件2によりノイズであると判定される。
なお、本実施形態では、文字列領域の高さを用いてスキャン画像に含まれる文字高さを推定したが、異なる方法を用いてもよい。例えば、文字列領域に対して文字認識処理を実施し、文字認識処理結果から文字高さを算出してもよい。かすれた文字が含まれる場合は、文字認識処理の精度が問題になる可能性もあるが、かすれた文字よりも非かすれ文字が多ければ、統計的に多数を占める文字高さは有効な値となることが期待できる。
次のステップS820は、図4におけるステップS430と同様の処理である。システム制御部111は、ノイズではないと判定されたエッジ画像と閾値二値画像とを合成する。
以上説明したように、第三の実施形態によれば、エッジ画像のノイズ判定を行うことで、エッジ画像と閾値二値画像の合成結果において文字画素ではないノイズが混入されることを避けることができる。
<第四の実施形態(かすれ文字判定)>
前述の実施形態では、すべての閾値二値画像に対してエッジ画像の合成を実施する処理を行ったが、エッジ画像の合成処理を閾値二値画像の状態に応じて適応的に実施してもよい。例えば、閾値二値画像が文字画素を過不足なく二値画像に変換できているのであれば、エッジ画像の合成処理を適用しても文字認識処理の精度向上にはつながらない。このようにエッジ画像の合成処理が不要な場合に、エッジ画像の抽出や合成処理を実施しないことで処理の負荷低減と高速化が期待できる。第四の実施形態では、閾値二値画像の状態を判定し、エッジ画像合成の実施有無を制御する処理について説明する。なお、制御の流れなど前述の実施形態と共通する内容については説明を省略し、前述の実施形態との差分となる処理について説明する。第四の実施形態における処理も前述した第一〜第三の実施形態の処理とともに行われるが、いずれかの処理のみ行われてもよい。
図11は、第四の実施形態における、かすれ文字補間二値化処理の流れを示すフローチャートの一例である。本フローチャートは、ROM112に格納されたプログラムに従って情報処理装置110のシステム制御部111が実行することによって実現される。
本フローチャートにおいて、一部の処理は図4を用いて説明済みである。具体的には、ステップS1100はステップS400、ステップS1130はステップS420、そしてステップS1140はステップS430と同様の処理である。これら同様の処理の説明は省略し、図4との差分が生じる処理ステップに限定して説明を行う。
ステップS1110において、システム制御部111は、RAM113を参照し、閾値二値画像を取得し、閾値二値画像の画像状態を判定して、文字のかすれが生じている領域(かすれ文字領域)を特定する。特定された、かすれ文字領域は、文字領域の位置と大きさを示す矩形情報としてRAM113に格納される。このステップS1110の処理の詳細は、図12を用いて後述する。
ステップS1120において、システム制御部111は、RAM113を参照し、スキャン画像および、かすれ文字領域の矩形情報を取得する。さらに、システム制御部111は、取得したスキャン画像内のかすれ文字領域に限定し、エッジ抽出処理を実施する。エッジ処理の内容はステップS410に記載の処理と同様である。
続くステップS1130以降の処理は、上述のように、図4で説明済みの処理と同様である。かすれ文字領域と判定された部分のみ、エッジ画像のシフト処理が実施された後に、閾値二値画像とエッジ画像が合成されることで、最終的な二値画像が生成される。かすれ文字領域以外の領域は、エッジ画像が生成されていないため、閾値二値画像との合成処理は実施されない。結果として、閾値二値画像が最終的な二値画像として採用されることになる。
続いて、図11のステップS1110かすれ文字領域の特定処理について、図12を用いて、詳細を説明する。図12は、本実施形態における、かすれ文字領域の特定処理を示すフローチャートの一例である。
ステップS1200において、システム制御部111は、RAM113を参照し、閾値二値画像を取得する。さらに、システム制御部111は、当該閾値二値画像の連結画素塊(CC)を抽出し、その抽出した情報をRAM113に格納する。CC抽出の処理については、ステップS800の処理と同様である。
次にステップS1210において、システム制御部111は、RAM113を参照し、CC情報を取得する。さらに、システム制御部111は、取得したCC情報から各CCの外接矩形情報を取得する。続いて、システム制御部111は、規定の距離内に存在し、かつ、統合後の領域が規定のアスペクト比を満たす関係となるCC外接矩形を単一の文字候補領域として統合し、RAM113に統合結果の矩形領域を格納する。CCの外接矩形の統合は、前述した条件(規定の距離内に存在する、かつ、統合後領域のアスペクト比が規定以内)を満たすCCの外接矩形を全て包含する外接矩形とすることで実現する。ここで、CCの外接矩形間の距離は、外接矩形端の距離を示す。
図13(a)と図13(b)は、文字候補領域の一例を示した図である。CCの外接矩形1300、1301、および1302を用いて統合された文字候補領域は、文字候補領域1303および1304である。CCの外接矩形1300は、他のCC外接矩形1301と1302と規定の距離を満たさないため、他のCC外接矩形とは統合されず、文字候補領域1303と設定される。一方、CC外接矩形1301と1302は規定の距離内であるという条件を満たすため、これら二つのCC外接矩形は統合され、文字候補領域としてはCC外接矩形1301および1302を包含する新たな矩形領域1304として生成される。
次にステップS1220において、システム制御部111は、RAM113を参照し、文字候補領域の情報を取得し、当該情報に存在する文字画素にかすれが生じているか判定する。かすれ判定は、文字候補領域に存在するCC外接矩形の位置関係に基づいて行う。具体的には、システム制御部111は、文字候補領域に複数のCC外接矩形が存在し、当該複数のCC外接矩形が包含関係にない場合には、かすれが生じていると判定する。そして、システム制御部111は、かすれていると判定した場合にはステップS1330の処理に移行し、一方、かすれていないと判定した場合には処理を終了する。
ステップS1230に進むと、システム制御部111は、ステップS1220にて、かすれていると判定された文字候補領域を、かすれ文字の領域として、領域の外接矩形情報をRAM113に格納する。
以上説明したように、第四の実施形態によれば、かすれ文字領域を特定することで、かすれ文字でない領域のエッジ抽出や合成処理を不要にすることで、処理速度の向上と使用する記憶装置の削減が可能となる。
また、本実施形態では、ステップS1140の処理をステップS430と同様と説明したが、第二の実施形態もしくは第三の実施形態で説明した処理を適用することも可能である。この場合、ステップS1130までの処理は本実施形態として説明した処理を適用する。その後、ステップS1140(S430)に相当する処理が、図6を用いて説明した処理(第二の実施形態)もしくは図8を用いて説明した処理(第三の実施形態)に置き換わることになる。当該処理を実施することで、第二の実施形態もしくは第三の実施形態で説明した効果を、かすれ文字に限定して適用することが可能となり、第二の実施形態および第三の実施形態の処理実行時にも処理効率化を実現できる。
本発明に係る信号処理における1以上の機能を実現するプログラムは、ネットワーク又は記憶媒体を介してシステム又は装置に供給可能であり、そのシステム又は装置のコンピュータの1つ以上のプロセッサにより読また出し実行されることで実現可能である。
前述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
110:情報処理装置、111:システム制御部、S400:閾値二値化処理、S410:エッジ抽出処理、S420:エッジシフト処理、S430:画像合成処理

Claims (17)

  1. 多値画像から閾値を基に二値画像を生成する第一の画像生成手段と、
    前記多値画像からエッジ画像を生成するエッジ生成手段と、
    前記エッジ画像と前記二値画像とを合成して合成二値画像を生成する第二の画像生成手段と、を有し、
    前記エッジ生成手段は、前記多値画像から抽出したエッジの位置を、前記多値画像に基づいて補正して前記エッジ画像を生成することを特徴とする画像処理装置。
  2. 多値画像から閾値を基に二値画像を生成する第一の画像生成手段と、
    前記多値画像からエッジ画像を生成するエッジ生成手段と、
    前記エッジ画像と前記二値画像とを合成して合成二値画像を生成する第二の画像生成手段と、を有し、
    前記第二の画像生成手段は、前記合成二値画像に対して補間処理を行うことを特徴とする画像処理装置。
  3. 多値画像から閾値を基に二値画像を生成する第一の画像生成手段と、
    前記多値画像からエッジ画像を生成するエッジ生成手段と、
    前記エッジ画像と前記二値画像とを合成して合成二値画像を生成する第二の画像生成手段と、を有し、
    前記エッジ生成手段は、前記多値画像から抽出したエッジの位置を、前記多値画像の階調値に基づいて補正し、
    前記第二の画像生成手段は、前記合成二値画像に対して補間処理を行うことを特徴とする画像処理装置。
  4. 前記エッジ生成手段は、前記多値画像の階調値の勾配を基にエッジ候補の画素を生成し、さらに前記多値画像の階調値の勾配に基づいて前記エッジ候補の画素の位置を補正して前記エッジ画像を生成することを特徴とする請求項1または3に記載の画像処理装置。
  5. 前記エッジ生成手段は、前記エッジ候補の画素に対応する前記多値画像の画素に隣接した画素の階調値が小さい方に、前記エッジ候補の画素の位置を補正して前記エッジ画像を生成することを特徴とする請求項4に記載の画像処理装置。
  6. 前記第二の画像生成手段は、前記合成二値画像に対して画素を補間する補間処理を行うことを特徴とする請求項2または3に記載の画像処理装置。
  7. 前記第二の画像生成手段は、前記補間処理として、前記合成二値画像に対してぼかし処理を行い、さらに前記ぼかし処理を行った画像から合成二値画像を再生成することを特徴とする請求項6に記載の画像処理装置。
  8. 前記第二の画像生成手段は、前記エッジ画像に対してノイズ判定を行い、前記ノイズ判定の結果に基づいて前記二値画像と前記エッジ画像とを合成することを特徴とする請求項1から7のいずれか1項に記載の画像処理装置。
  9. 前記第二の画像生成手段は、前記ノイズではないと判定された前記エッジ画像と前記二値画像とを合成することを特徴とする請求項8に記載の画像処理装置。
  10. 前記第二の画像生成手段は、前記エッジ画像から連結画素塊を抽出し、前記抽出した連結画素塊の高さが閾値より大きき場合と、前記抽出した連結画素塊の高さが閾値より小さくかつ前記連結画素塊と前記二値画像とを合成した結果、前記連結画素塊と前記二値画像の画素が連続しない場合との、少なくともいずれかである場合に、ノイズであると判定することを特徴とする請求項8または9に記載の画像処理装置。
  11. 前記多値画像は文字をスキャンして得られた画像であることを特徴とする請求項1から10のいずれか1項に記載の画像処理装置。
  12. 前記多値画像からかすれ文字領域を特定する特定手段を有し、
    前記第二の画像生成手段は、前記特定された前記かすれ文字領域に対してのみ、前記二値画像と前記エッジ画像との合成を行うことを特徴とする請求項11に記載の画像処理装置。
  13. 前記特定手段は、前記多値画像から連結画素塊を抽出し、前記抽出した連結画素塊の位置に基づいて文字の候補の領域を生成し、前記生成した文字の候補の領域に対してかすれ文字領域の判定を行うことを特徴とする請求項12に記載の画像処理装置。
  14. 画像処理装置が実行する画像処理方法であって、
    多値画像から閾値を基に二値画像を生成する第一の画像生成工程と、
    前記多値画像からエッジ画像を生成するエッジ生成工程と、
    前記エッジ画像と前記二値画像とを合成して合成二値画像を生成する第二の画像生成工程と、を有し、
    前記エッジ生成工程では、前記多値画像から抽出したエッジの位置を、前記多値画像に基づいて補正して前記エッジ画像を生成することを特徴とする画像処理方法。
  15. 画像処理装置が実行する画像処理方法であって、
    多値画像から閾値を基に二値画像を生成する第一の画像生成工程と、
    前記多値画像からエッジ画像を生成するエッジ生成工程と、
    前記エッジ画像と前記二値画像とを合成して合成二値画像を生成する第二の画像生成工程と、を有し、
    前記第二の画像生成工程では、前記合成二値画像に対して補間処理を行うことを特徴とする画像処理方法。
  16. 画像処理装置が実行する画像処理方法であって、
    多値画像から閾値を基に二値画像を生成する第一の画像生成工程と、
    前記多値画像からエッジ画像を生成するエッジ生成工程と、
    前記エッジ画像と前記二値画像とを合成して合成二値画像を生成する第二の画像生成工程と、を有し、
    前記エッジ生成工程では、前記多値画像から抽出したエッジの位置を、前記多値画像の階調値に基づいて補正し、
    前記第二の画像生成工程では、前記合成二値画像に対して補間処理を行うことを特徴とする画像処理方法。
  17. コンピュータを、請求項1から13のいずれか1項に記載の画像処理装置が有する各手段として機能させるためのプログラム。
JP2019127180A 2019-07-08 2019-07-08 画像処理装置、画像処理方法、及びプログラム Active JP7341758B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019127180A JP7341758B2 (ja) 2019-07-08 2019-07-08 画像処理装置、画像処理方法、及びプログラム
US16/920,996 US11570331B2 (en) 2019-07-08 2020-07-06 Image processing apparatus, image processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019127180A JP7341758B2 (ja) 2019-07-08 2019-07-08 画像処理装置、画像処理方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2021013124A true JP2021013124A (ja) 2021-02-04
JP2021013124A5 JP2021013124A5 (ja) 2022-07-12
JP7341758B2 JP7341758B2 (ja) 2023-09-11

Family

ID=74103360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019127180A Active JP7341758B2 (ja) 2019-07-08 2019-07-08 画像処理装置、画像処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US11570331B2 (ja)
JP (1) JP7341758B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022018518A (ja) * 2020-07-15 2022-01-27 キヤノン株式会社 画像処理装置、画像処理方法、プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000348138A (ja) * 1999-06-02 2000-12-15 Pfu Ltd かすれ補正装置、かすれ補正方法および記録媒体
JP2002271611A (ja) * 2001-03-14 2002-09-20 Fujitsu Ltd 画像処理装置
JP2003115031A (ja) * 2001-10-03 2003-04-18 Ricoh Co Ltd 画像処理装置および方法
JP2005285006A (ja) * 2004-03-30 2005-10-13 Toshiba Solutions Corp 画像処理装置および画像処理方法
JP2008010980A (ja) * 2006-06-27 2008-01-17 Fujitsu Ltd 文字画像処理装置及び文字画像処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101023946B1 (ko) * 2007-11-02 2011-03-28 주식회사 코아로직 객체 추적을 이용한 디지털 영상의 손떨림 보정 장치 및방법
US9694598B2 (en) * 2010-05-24 2017-07-04 Canon Kabushiki Kaisha Image processing apparatus, ink jet printing apparatus, and image processing method
JP7050599B2 (ja) * 2018-07-06 2022-04-08 シャープ株式会社 画像処理装置及び画像処理方法
US11676244B2 (en) * 2018-10-19 2023-06-13 Mineral Earth Sciences Llc Crop yield prediction at field-level and pixel-level

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000348138A (ja) * 1999-06-02 2000-12-15 Pfu Ltd かすれ補正装置、かすれ補正方法および記録媒体
JP2002271611A (ja) * 2001-03-14 2002-09-20 Fujitsu Ltd 画像処理装置
JP2003115031A (ja) * 2001-10-03 2003-04-18 Ricoh Co Ltd 画像処理装置および方法
JP2005285006A (ja) * 2004-03-30 2005-10-13 Toshiba Solutions Corp 画像処理装置および画像処理方法
JP2008010980A (ja) * 2006-06-27 2008-01-17 Fujitsu Ltd 文字画像処理装置及び文字画像処理方法

Also Published As

Publication number Publication date
US20210014383A1 (en) 2021-01-14
JP7341758B2 (ja) 2023-09-11
US11570331B2 (en) 2023-01-31

Similar Documents

Publication Publication Date Title
US7292375B2 (en) Method and apparatus for color image processing, and a computer product
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US9965695B1 (en) Document image binarization method based on content type separation
JP5455038B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US7411699B2 (en) Method and apparatus to enhance digital image quality
US20050047660A1 (en) Image processing apparatus, image processing method, program, and storage medium
JP6743092B2 (ja) 画像処理装置、画像処理の制御方法、及びプログラム
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
JP5005732B2 (ja) 画像形成装置及び画像処理方法
JP2021013124A (ja) 画像処理装置、画像処理方法、及びプログラム
JP4771428B2 (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP5725276B2 (ja) 二値化処理装置、画像処理装置、二値化処理プログラム、画像処理プログラム
JP2009152901A (ja) 画像処理装置および画像処理方法
JP4420440B2 (ja) 画像処理装置、画像処理方法、文字認識装置、プログラムおよび記録媒体
JP2002342710A (ja) 文字切出し装置及びそれに用いる文字切出し方法並びにそのプログラム
JPH06231253A (ja) 画像修正装置及び図面入力装置
JP5146199B2 (ja) 差分抽出装置及び差分抽出プログラム
JP2000259759A (ja) バーコード読取装置、方法及びプログラムを記憶した記憶媒体
JP4209804B2 (ja) 画像処理装置および画像処理方法ならびに記憶媒体、プログラム
JP2000040153A (ja) 画像処理方法、画像処理プログラムを記録した媒体及び画像処理装置
JP2007328652A (ja) 画像処理装置および画像処理プログラム
JP6561891B2 (ja) バーコード領域検知装置、バーコード読み取りシステム、バーコード領域検知方法及びプログラム
JP2000331118A (ja) 画像処理装置及び記録媒体
JPH02254574A (ja) ノイズ除去方式
JP2853141B2 (ja) 画像領域識別装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220704

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230830

R151 Written notification of patent or utility model registration

Ref document number: 7341758

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151