JP4821869B2 - 文字認識装置、画像読取装置、およびプログラム - Google Patents

文字認識装置、画像読取装置、およびプログラム Download PDF

Info

Publication number
JP4821869B2
JP4821869B2 JP2009066635A JP2009066635A JP4821869B2 JP 4821869 B2 JP4821869 B2 JP 4821869B2 JP 2009066635 A JP2009066635 A JP 2009066635A JP 2009066635 A JP2009066635 A JP 2009066635A JP 4821869 B2 JP4821869 B2 JP 4821869B2
Authority
JP
Japan
Prior art keywords
image
character recognition
image data
pixel
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009066635A
Other languages
English (en)
Other versions
JP2010218420A (ja
Inventor
臻瑞 張
あゆみ 大西
裕義 上條
和宏 大谷
勝也 小柳
博 新名
ちひろ 松隈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2009066635A priority Critical patent/JP4821869B2/ja
Priority to US12/566,072 priority patent/US8385651B2/en
Publication of JP2010218420A publication Critical patent/JP2010218420A/ja
Application granted granted Critical
Publication of JP4821869B2 publication Critical patent/JP4821869B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Description

本発明は、文字認識装置、画像読取装置、およびプログラムに関する。
用紙などの記録媒体に描かれた画像を光学読取装置などで読み取り、読み取った画像から文字が描かれた領域を抽出してその文字を認識する文字認識技術がある。記録媒体に文字を描く態様には様々なものが考えられ、これら多様な態様で描かれた文字をそれぞれ認識しうる技術が求められている。特許文献1には、文字領域を、エッジ抽出による領域識別処理と二値画像による領域識別処理で特定してから、さらに部分二値化処理で文字を抽出する技術が開示されている。
特開2005−71088号公報
本発明の目的は、記録媒体の色と異なる単一の色によりその記録媒体上に描かれる文字以外の文字であっても、文字認識の対象として指定する技術を提供することである。
上述した課題を解決するため、本願の請求項1に記載の文字認識装置は、画像を構成する各画素の色を表す画素値が記述された画像データを取得する取得手段と、前記取得手段により取得された画像データに記述された画素値を二値化する二値化手段と、前記取得手段により取得された画像データが表す画像において色の境界線を抽出する抽出手段と、前記取得手段により取得された画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切る区切り手段と、前記区切り手段により区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記規則に従って配列されてない画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段と、前記指定手段により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段とを具備することを特徴とする。
また、本願の請求項2に記載の文字認識装置は、請求項1に記載の文字認識装置において、前記指定手段は、前記区切り手段により区切られた複数の画像領域のうち、当該画像領域に含まれる各画素の色数または隣接する画素間にて色の切替る回数のいずれかが閾値を超える画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素の数が閾値を超えるときに、当該領域内の画素群を文字認識の対象として指定することを特徴とする。
また、本願の請求項3に記載の文字認識装置は、請求項1に記載の文字認識装置において、前記取得手段により取得された画像データが表す画像を、当該画像データよりも低い解像度で表した低解像度画像データを生成する低解像度画像データ生成手段を具備し、前記区切り手段は、前記低解像度画像データ生成手段により生成された前記低解像度画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切り、前記二値化手段は、前記低解像度画像データ生成手段により生成された前記低解像度画像データに記述された画素値を二値化し、前記指定手段は、前記規則に従って配列されている画像領域のうち、閾値を超える大きさの画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記閾値以内の大きさの画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定することを特徴とする。
また、本願の請求項4に記載の画像読取装置は、記録媒体に描かれた画像を読み取る読取手段と、前記読取手段により読み取られた画像を構成する各画素の色を表す画素値が記述された画像データを生成する生成手段と、前記生成手段により生成された画像データに記述された画素値を二値化する二値化手段と、前記生成手段により生成された画像データが表す画像において色の境界線を抽出する抽出手段と、前記生成手段により生成された画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切る区切り手段と、前記区切り手段により区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記規則に従って配列されてない画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段と、前記指定手段により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段とを具備することを特徴とする。
また、本願の請求項5に記載のプログラムは、コンピュータを、画像を構成する各画素の色を表す画素値が記述された画像データを取得する取得手段と、前記取得手段により取得された画像データに記述された画素値を二値化する二値化手段と、前記取得手段により取得された画像データが表す画像において色の境界線を抽出する抽出手段と、前記取得手段により取得された画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切る区切り手段と、前記区切り手段により区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記規則に従って配列されてない画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段と、前記指定手段により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段として実現させるためのプログラムである。
本発明の請求項1に係る文字認識装置によれば、記録媒体の色と異なる単一の色によりその記録媒体上に描かれる文字以外の文字であっても、文字認識の対象として指定することができる。
本発明の請求項2に係る文字認識装置によれば、抽出手段が抽出した境界線によって閉じられた領域のうち、文字認識の対象ではないものを除外することができる。
本発明の請求項3に係る文字認識装置によれば、低解像度画像データに記述された画素値を二値化した画素群を文字認識の対象として指定しない場合と比較して、文字認識の対象を指定するまでの処理が早い。
本発明の請求項4に係る画像読取装置によれば、記録媒体の色と異なる単一の色によりその記録媒体上に描かれる文字以外の文字であっても、文字認識の対象として指定することができる。
本発明の請求項5に係るプログラムによれば、記録媒体の色と異なる単一の色によりその記録媒体上に描かれる文字以外の文字であっても、文字認識の対象として指定することができる。
画像読取装置のハードウェア構成を説明するためのブロック図である。 第1実施形態に係る情報処理部の機能的構成を示すブロック図である。 第2実施形態に係る情報処理部の機能的構成を示すブロック図である。 第3実施形態に係る情報処理部の機能的構成を示すブロック図である。 色の境界線について説明するための図である。 決められた規則に従った配列を説明するための図である。 画像読取装置により読み取られる画像の例を示した図である。 ノイズ境界線を説明するための図である。
1.定義
以下の実施形態において、「画像領域」とは、画像のうち、画が描かれている領域である。
「ラスター方式」とは、格子状に配列された画素と呼ばれる単位に画像を分割し、各画素によってそれぞれ表される色情報(色調や階調)をその画素ごとに記述する方式である。
「ラスター画像」とは、ラスター方式で表現された画像である。
「解像度」とは、ラスター画像において、単位長さ当たりに配列される画素の数を示す値である。ここで、単位長さとは例えばインチであり、解像度の単位としては1インチ当たりの画素の数を示す「dpi」がある。
「ベクトル情報」とは、描画対象である線・面領域・文字等の各要素を抽象空間上に定義し、各要素を描画する処理を数値又は数式によって記述した情報である。このベクトル情報の記述には、例えばベジエ曲線のパラメータなどが用いられる。
「ベクトル方式」とは、ベクトル情報により定義された要素をその要素ごとに描画する方式である。具体的には、ベクトル方式とは、線の起終点の座標、色、太さ、曲がり方や、線に囲まれた面の色、文字コードと文字属性(サイズやフォント)等を、数値や数式で表す方式である。
「ベクトル画像」とは、ベクトル方式で表現された画像である。
「ベクトル化」とは、ラスター画像をベクトル画像に変換することをいう。
「描画色」とは、画像のうち、描画対象が描かれる色である。
「非描画色」とは、描画色ではない色である。
「描画画素」とは、画像領域において、描画対象を描いた画素である。
「下地画素」とは、画像領域において、描画画素以外の画素であり、画像が形成された記録媒体における、その記録媒体の色に相当する。
「写真画像」とは、主に自然物を光学的手法により撮影して得られるラスター画像、および、これに準ずるラスター画像であって、ベクトル化が困難なものをいう。
「圧縮処理」とは、データ量を低減した状態で対象を表現するデータに変換する処理である。
2.第1実施形態
本発明の第1実施形態である画像読取装置10の構成を説明する。
図1は、画像読取装置10のハードウェア構成を説明するためのブロック図である。図1に示すように、画像読取装置10は、情報処理部1、スキャナ2、および画像形成部3を含む。図1の二点鎖線で囲んだ内側は、情報処理部1を示している。CPU11は、ROM12に記憶されているコンピュータプログラム(以下、単にプログラムという)を読み出して実行することにより情報処理部1の各部を制御する。例えば、CPU11は、後述する画像領域区切手段や文字認識手段として機能する。ROM12は半導体素子等で構成された読み出し専用の不揮発性記憶装置である。このROM12には、種々のプログラムやBIOS(Basic Input/Output System)が記憶されている。RAM13はCPU11がプログラムを実行する際のワークエリアとして利用される。また、RAM13は、ベクトル画像を表すデータ(以下、ベクトル画像データという)やラスター画像を表すデータ(以下、ラスター画像データという)を記憶する領域を有している。なお、画像を表すこれらのデータには、圧縮処理が施されていてもよい。VRAM(Video RAM)14は、ラスター画像データを記憶するRAMである。入力部15は、スキャナやコンピュータなどの外部入力装置とのインターフェースであり、CPU11の制御の下、画像データを受け付ける。ここでは、入力部15は、スキャナ2から入力されるラスター画像データを受け付ける。出力部16は、CPU11の制御の下、画像データを、画像形成部や液晶表示媒体などの外部装置へ出力する。ここでは、出力部16は、画像データを画像形成部3へ出力する。情報処理部1の各部はバスを介して接続されている。
図2は、本発明の第1実施形態に係る情報処理部1の機能的構成を示すブロック図である。図2の二点鎖線の枠11Aで囲まれた各手段は、情報処理部1のCPU11がプログラムを実行することにより実現される。取得手段110は、CPU11がスキャナ2からラスター画像データG0を取得する手段である。具体的には、CPU11は、用紙などの記録媒体に描かれた画像をスキャナ2が備える光学読取装置に読み取らせ、この画像に対応するラスター画像データG0を、入力部15およびバスを介して取得してRAM13やVRAM14に記憶する。そして、取得したラスター画像データG0は、画像領域区切手段111、二値化手段112、および、境界線抽出手段113に供給される。
画像領域区切手段111は、供給されたラスター画像データG0が表す画像を、ラベリング処理によって何らかの画が描かれている複数の画像領域に区切る区切り手段である。具体的には、CPU11がRAM13やVRAM14に記憶したラスター画像データG0の各画素の濃度や明度に基づいて、ラベリング処理をすることにより、連結した同じ画素、または、連結しており、かつ、その差が予め定めた範囲内に収まる画素を描画画素として抽出し、この描画画素に外接する矩形を画像領域として区切る。画像領域区切手段111によって区切られた各画像領域は、第1判定手段114に供給される。
二値化手段112は、供給されたラスター画像データG0に記述された画素値を二値化する二値化手段である。具体的には、CPU11が、ラスター画像データG0の各画素の色を閾値と比較することで、二種類の画素からなる二値画像を生成し、RAM13やVRAM14に記憶する。この閾値は、描画画素と下地画素を区別することができる色であればよく、例えば、非描画色そのものであってもよい。
境界線抽出手段113は、供給されたラスター画像データG0が表す画像において色の境界線を抽出する抽出手段である。具体的には、CPU11が、ラスター画像データG0の各画素のうち、連結した同じ色の画素群を特定し、その画素群と、その画素群の周囲にあって、その画素群と異なる色の画素との境界線を抽出する。そして、CPU11は、この境界線が、上記の画像において閉じた領域を形成している場合に、この境界線をRAM13に記憶する。
図5は、色の境界線について説明するための図である。図5において、格子状に区切られた領域はそれぞれ1つの画素を示している。図5(a)において、内側が白く塗りつぶされている画素は、周囲に同じ色の画素が並べられていない画素を示しており、内側に斜線が描かれている画素は、共通する或る色の画素を示している。図5(b)は、この図5(a)に示す画素群に対して、境界線抽出手段113により境界線を抽出した様子を表している。例えば、図5(a)に示す画素R2および画素R3は、共通する色を有するが、互いが連結していないため、画素R2および画素R3の周囲には、境界線は抽出されない。一方、図5(a)に示す画素群R1は、共通する色を有し、かつ、互いに連結しているので、境界線抽出手段113は、図5(b)に示す境界線B1を抽出する。
第1判定手段114は、供給された各画像領域のうち、決められた規則に従って配列されている複数の画像領域を特定し、特定したその複数の画像領域をそれぞれ文書領域(第1の画像領域)と判定する判定手段である。具体的には、CPU11は、供給された画像領域の大きさや縦横各方向の間隔について、相加平均値や最頻値を算出する。そして、CPU11は、この算出した数値をROM12などに予め記憶された数値と比較して、決められた規則に従って配列されている複数の画像領域を特定する。ここで、決められた規則に従った配列とは、例えば、画像領域が縦方向または横方向に一定の間隔で並べられた配列や、画像領域どうしの間隔が、それらの画像領域の大きさの相加平均値に対して、一定の割合の大きさである配列などである。
図6は、決められた規則に従った配列を説明するための図である。同図に示される複数の矩形は、画像領域区切手段111によって区切られた画像領域である。図6(a)に示すように、複数の画像領域が、乱雑に配列されている場合には、互いに隣接する画像領域どうしの大きさや間隔は異なっていて規則性がない。一方、図6(b)に示すように、一定の大きさの画像領域が縦横に格子状に配列されている場合には、互いに隣接する画像領域どうしの大きさや間隔は一定であったり、ある範囲内に収まったり、比例関係が成立したりするので、規則性がある。第1判定手段114は、このような画像領域の配列に規則性があるか否かを、隣接する画像領域どうしの大きさや間隔に基づいて判定する。
そして、第1判定手段114は、この複数の画像領域を、文書が記述されている領域である文書領域と判定し、「文書領域」を示す領域信号を指定手段115へ供給する。ここで、後述する指定手段115はCPU11により実現されるため、第1判定手段114は、具体的には、CPU11が各画像領域と上述の領域信号とを関連付けてRAM13に記憶することで実現される。
指定手段115は、第1判定手段114により文書領域と判定された画像領域に対しては、二値化手段112によって二値化された画素群を文字認識の対象として指定し、第1判定手段114によって文書領域と判定された画像領域以外の画像領域に対しては、境界線抽出手段113が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段である。言い換えると、指定手段115は、画像領域区切手段111によって区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、二値化手段112によって二値化された画素群を文字認識の対象として指定し、この規則に従って配列されてない画像領域に対しては、境界線抽出手段113が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段である。具体的には、第1判定手段114において各画像領域に関連付けられた領域信号をRAM13から読み出し、この領域信号が「文書領域」を示す領域信号である場合に、CPU11は、文字認識の対象として、二値化手段112によって二値化された画素群のうち、この画像領域に対応する画素群を、文字認識の対象として指定する。一方、領域信号が「文書領域」を示す領域信号ではない場合に、CPU11は、文字認識の対象として、境界線抽出手段113が抽出した境界線によって閉じられた領域内の画素群のうち、この画像領域に対応する画素群を、文字認識の対象として指定する。
文字認識手段116は、指定手段115により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段である。具体的には、指定手段115によって、その画像領域における文字認識の対象として指定された画素群に対して、CPU11が、予め記憶された文字パターンと比較するパターンマッチング処理を行い、この画素群によって表されている文字を認識する。そして、文字認識手段116は、認識した文字を基に、画像のどの領域にどの文字が描かれているかを記述したデータとして、文字認識画像データG1を出力する。具体的には、CPU11は、認識した文字の文字コード、その文字が描かれる画像領域の座標の組み合わせをラスター画像データG0に付し、文字認識画像データG1としてRAM13に記憶する。
以上により、画像領域区切手段111によって区切られた画像領域ごとに、第1判定手段114の判定結果に応じて、二値化手段112によって二値化された画素群、または、境界線抽出手段113が抽出した境界線によって閉じられた領域内の画素群のいずれかを文字認識の対象とした文字認識処理が行われる。第1判定手段114により文書領域と判定された複数の画像領域は、決められた規則に沿った配列で描かれているため、段落を構成している文字がそれぞれに描かれている可能性が高い。従って、この文書領域では描画画素は文字だけを描いている可能性が高く、描画画素と下地画素とを区別することで、文字認識され得る。一方、第1判定手段114により文書領域と判定されなかった画像領域は、少なくとも描画画素からなる文字が下地画素に直接描かれている可能性は低い。従って、この画像領域では描画画素は文字と文字の背景を描いている可能性が高く、描画画素と下地画素とを区別することでは文字認識できない可能性がある。このように、この情報処理部1は、画像領域の属性に応じて適宜、文字認識の対象となる画素群を指定する文字認識装置として機能する。
図7は、用紙などの記録媒体に描かれ、上述した画像読取装置10により読み取られる画像の例を示した図である。画像領域Z1は、縦横に4本ずつ描かれた線分が交差して表を構成している画像領域である。この表のそれぞれの枠内にも描画画素が下地画素に囲まれて描かれているが、これらの描画画素は、枠内に描かれているので、決められた規則に沿って配列された画像領域を構成していると判定されない。また、画像領域Z1そのものは決められた規則に沿って配列されていないので文書領域と判定されない。したがって、画像領域Z1では、境界線抽出手段113が抽出した境界線によって閉じられた領域内の画素群が文字認識の対象として指定される。
画像領域Z2や画像領域Z3は、大きさや隣接した画像領域との間隔に規則性が認められるため、文書領域と判定される。したがって、画像領域Z2や画像領域Z3では、二値化手段112によって二値化された画素群が文字認識の対象として指定される。
特に、画像領域Z2のように比較的大きな活字で文字が描かれている場合には、文字の色が目立つように工夫されている場合が多い。例えば、文字の色が位置に応じて連続的に変化する、いわゆるグラデーションがかけられた文字が画像領域Z2に描かれているとすると、文字の色が位置に応じて連続的に変化しているため、境界線抽出手段113では境界線を抽出することができないことがある。しかし、グラデーションがかけられた文字であっても、描画画素からなる文字が下地画素に直接描かれているという点には変わりがないので、二値化手段112によって二値化することによって、この文字が描かれた画像領域は文字認識の対象として指定される。
画像領域Z4は、写真が描かれており、破線で示した矩形の内側は、図示しない複数種類の描画色が塗られている。この画像領域Z4には「複写機」という文字列が、ある描画色で描かれているが、写真部分を描く他の描画色に重ねて描かれているので、文字列を構成する文字は画像領域として区切られることはない。また、画像領域Z4そのものは、決められた規則に沿って配列されていないので文書領域と判定されない。したがって、画像領域Z4では、境界線抽出手段113が抽出した境界線によって閉じられた領域内の画素群が文字認識の対象として指定される。
画像領域Z5には、用紙の色(非描画色)Cx以外の描画色Cbで塗りつぶされた楕円形状の中に、描画色Cbとは異なる描画色Cfで描かれた「技術的な課題」という文字列を配置したものが描かれている。この楕円形状は用紙の色Cxに囲まれているため、画像領域Z5は、この楕円形状に外接する矩形となる。描画色Cfで描かれたこの文字列は描画色Cbに重ねて描かれているので、文字列を構成する文字は画像領域として区切られることはない。また、画像領域Z5そのものは、決められた規則に沿って配列されていないので文書領域と判定されない。したがって、画像領域Z5では、境界線抽出手段113が抽出した境界線によって閉じられた領域内の画素群が文字認識の対象として指定される。
3.第2実施形態
次に、本発明の第2実施形態について説明する。本発明の第2実施形態である画像読取装置10の全体構成は、第1実施形態と共通するため説明を省略する。
図3は、本発明の第2実施形態に係る情報処理部1の機能的構成を示すブロック図である。図3において、第1実施形態と共通する機能的構成については、図2と同一の符号を付し、説明を省略する。図3の二点鎖線の枠11Bで囲まれた各手段は、情報処理部1のCPU11により実現される機能である。第2実施形態の情報処理部1では、画像領域区切手段111によって区切られた各画像領域は、第1判定手段114のほか、第2判定手段117に供給される。また、指定手段115に替えて、指定手段115Bが設けられる。
第2判定手段117は、供給された各画像領域において、当該画像領域に含まれる各画素の色数または色の切替る回数のいずれかが閾値を超える場合に、当該画像領域を写真領域(第2の画像領域)と判定する判定手段である。この第2判定手段117は、CPU11が以下の3つの処理を行うことで実現される。
第1の処理は、画像領域区切手段111によって区切られた画像領域に対応するラスター画像データG0のヒストグラムをCPU11が生成し、ヒストグラムが示す階級の数に基づいて、この画像領域を構成する色(以下、構成色という)の数を数える処理である。
第2の処理は、この画像領域内の連続した画素の色が切替る回数(以下、色替り回数という)をCPU11が数える処理である。ここで、「画像領域内の連続した画素の色が切替る」とは、以下の事象を示す。すなわち、まず、CPU11が画像領域内のある画素に注目し、次に、その注目画素の色と、その注目画素から予め定められた範囲内(例えば注目画素からその隣に1画素の範囲内)に位置する少なくとも一つの画素の色との差を算出する。さらに、この算出された差と、予め定めた閾値とをCPU11が比較し、「差」が「閾値」以上である場合に「色が切替る」と判断する。この「色が切替る」回数を画像領域内の全ての画素についてCPU11が数えることにより、「色替り回数」が数えられる。
第3の処理は、第1の処理で数えた構成色の数と予め定めた第1の閾値とを比較するとともに、第2の処理で数えた色替り回数と予め定めた第2の閾値とを比較して、いずれかが閾値を超える場合に、当該画像領域を写真領域と判定する処理である。なお、第2判定手段117は、第3の処理に加えて、第1の処理および第2の処理のいずれか一方のみを備えるようにしてもよい。
指定手段115Bは、第2判定手段117により写真領域と判定された画像領域に対しては、境界線抽出手段113が抽出した境界線によって閉じられた領域内の画素の数を数え、この数が予め定めた第3の閾値を超えるときに、この領域内の画素群を文字認識の対象として指定する以外は、指定手段115と同じである。言い換えると、指定手段115Bは、画像領域区切手段111により区切られた複数の画像領域のうち、当該画像領域に含まれる各画素の色数または隣接する画素間にて色の切替る回数のいずれかが閾値を超える画像領域に対しては、境界線抽出手段113が抽出した境界線によって閉じられた領域内の画素の数が閾値を超えるときに、当該領域内の画素群を文字認識の対象として指定する指定手段である。
構成色数や色替り回数が多い画像領域は写真画像である可能性が高い。このような写真画像においては、二値化手段112では文字と文字の背景との区別がつきにくく、境界線抽出手段113による境界線により、両者の区別をすることが効果的である。しかし、写真画像においては、文字が描かれていない場所にも、対象物の配置などの関係により色の境界線が抽出されやすい(以下、このように抽出された境界線をノイズ境界線という)。
図8は、このノイズ境界線を説明するための図である。図8(a)に示す画像領域Z4は、「複写機」という文字列が重ねて描かれた写真画像である。境界線抽出手段113により、この画像領域Z4から境界線を抽出すると、「複写機」という文字列を囲んだ境界線B2が抽出されるが、境界線B3〜B8のように文字が描かれていない部分にも、連結した同じ色の画素群とその周囲の異なる色の画素群との境界線であって、閉じた領域を形成しているノイズ境界線が抽出される。これらのノイズ境界線の内側の領域は、文字列が占める領域よりも小さい場合が多い。そこで指定手段115Bは、上述のように、写真領域と判定された画像領域に対しては、抽出された境界線の内側の領域に含まれる画素数が閾値を超えるか否かを判断することにより、ノイズ境界線によって閉じられた領域内の画素群を文字認識の対象から除外し、文字の境界線によって閉じられた領域内の画素群を文字認識の対象として指定する。
4.第3実施形態
次に、本発明の第3実施形態について説明する。本発明の第3実施形態である画像読取装置10の全体構成は、第1実施形態と共通するため説明を省略する。
図4は、本発明の第3実施形態に係る情報処理部1の機能的構成を示すブロック図である。図4において、第1実施形態および第2実施形態と共通する機能的構成については、図2または図3と同一の符号を付し、説明を省略する。図4の二点鎖線の枠11Cで囲まれた各手段は、情報処理部1のCPU11により実現される機能である。第3実施形態の情報処理部1は、第2実施形態の第2判定手段117を有していない代わりに、第1判定手段114の後に第3判定手段118を有しており、第1実施形態の指定手段115に替えて指定手段115Cを有している。また、第3実施形態の情報処理部1は、二値化手段112に替えて、低解像度画像データ生成手段112Cを画像領域区切手段111の内部に有している。
なお、第3実施形態において情報処理部1は、第2実施形態の第2判定手段117を有していないものとして説明するが、本発明の情報処理部1は、第3実施形態の情報処理部1に加えて、第2実施形態の第2判定手段117を備えていてもよい。
低解像度画像データ生成手段112Cは、取得手段110により取得されたラスター画像データG0が表す画像を、ラスター画像データG0よりも低い解像度で表した低解像度のラスター画像データ(以下、低解像度ラスター画像データG2という)を生成する手段である。具体的には、例えば、CPU11が、ラスター画像データG0から、走査線を一本置きに走査して解像度を低下させたり、縦横に連続する4画素や9画素の相加平均を算出して、1画素の画素値を生成したりして、低解像度ラスター画像データG2を生成する。そして、生成した低解像度ラスター画像データG2の各画素の色を閾値と比較することで、二種類の画素からなる二値画像を生成する。すなわち、低解像度画像データ生成手段112Cは、生成された低解像度ラスター画像データG2に記述された画素値を二値化する二値化手段としても機能する。
画像領域区切手段111は、生成された二値化画像をラベリング処理することにより、ラスター画像データG0が表す画像を複数の画像領域に区切る。すなわち、画像領域区切手段111は、低解像度ラスター画像データG2に基づいて、ラスター画像データG0が表す画像を複数の画像領域に区切る。
第3判定手段118は、第1判定手段114により、画像領域が文書領域(第1の画像領域)と判定された場合に、文書領域の大きさが閾値を超えるときは、この画像領域を大活字文書領域(第3の画像領域)と判定する判定手段である。第1判定手段114において、CPU11は、各画像領域の大きさや縦横各方向の間隔について、相加平均値や最頻値を算出し、算出したこれらの数値に基づいて決められた規則に従って配列されている複数の画像領域を特定して、特定したこの複数の画像領域を、文書が記述されている領域である文書領域と判定していた。ここで、第3判定手段118においてCPU11は、さらにその文書領域の大きさを閾値と比較することにより、この画像領域が活字(フォント)の大きさが比較的大きい「大活字」により描かれた大活字文書領域であるか否かを判定する。
指定手段115Cは、第3判定手段118により大活字文書領域と判定された画像領域に対しては、低解像度画像データ生成手段112Cによって二値化された画素群を文字認識の対象として指定し、第3判定手段118により大活字文書領域と判定された画像領域以外の画像領域に対しては、境界線抽出手段113が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する。言い換えると、指定手段115Cは、
決められた規則に従って配列されている画像領域のうち、閾値を超える大きさの画像領域に対しては、低解像度画像データ生成手段112Cによって二値化された画素群を文字認識の対象として指定し、閾値以内の大きさの画像領域に対しては、境界線抽出手段113が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段である。
文書領域の大きさが閾値を超えるということは、描かれている文字が比較的大きな活字である可能性が高い。このような大きな活字で描かれている文書領域は、低解像度のラスター画像データにおいても、文字が潰れておらず、文字認識処理が十分に行える可能性がある。一方、文書領域の大きさが閾値を超えない場合には、描かれている文字は小さな活字である可能性が高く、低解像度画像データを二値化した画素群では文字が潰れてしまい、文字認識処理に利用できないことがある。第3実施形態において、情報処理部1は、文書領域に描かれる文字の大きさに応じて、高解像度のラスター画像データG0を用いるか、低解像度ラスター画像データG2を用いるかを適宜選択するので、このような構成を用いない場合に比べて処理時間が短縮される。
5.変形例
以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例を組み合わせてもよい。
(1)上述した実施形態において、情報処理部1は、画像読取装置10に内蔵されたものであったが、情報処理部1は、パーソナルコンピュータで実現してもよい。
また、図2の二点鎖線で囲んだ各手段は、情報処理部1のCPU11により実現される機能であったが、これら各手段は、CPU11以外によって実現されてもよい。例えば、これら各手段は専用の画像処理プロセッサによって実現されてもよい。
(2)上述した第2実施形態において、第2判定手段117は、画像領域に含まれる各画素の色数または色の切替る回数のいずれかが閾値を超える場合に、当該画像領域を写真領域(第2の画像領域)と判定していたが、この第2判定手段117が画像領域を写真領域と判定した場合に、この画像領域の描画色を減色する減色手段を設けてもよい。減色する処理のアルゴリズムとしては、例えば、以下のステップS401〜ステップS407に示すアルゴリズムなどが挙げられる。
ステップS401:計算したヒストグラムに基づき、頻度の低い色を、その色に近い色でその色の頻度よりも頻度が多い色に併合する。
ステップS402:構成色が描画色の目標色数以下であれば処理を終了する。
ステップS403:全体を一つの色グループとして、最大色差のペアを探す。
ステップS404:注目しているグループを色差優先で、2つに分ける。
ステップS405:グループ数が目標色数以下であれば処理を終了する。
ステップS406:全てのグループの中から、最大色差ペアを持つグループを探す。
ステップS407:ステップS404へ戻る。
(3)上述した第2実施形態において、指定手段115Bは、写真領域と判定された画像領域に対しては、抽出された境界線の内側の領域に含まれる画素数が閾値を超えるか否かを判断することにより、ノイズ境界線によって閉じられた領域内の画素群を文字認識の対象から除外していたが、抽出された境界線によって閉じられた領域の縦横比を算出し、算出された縦横比が予め定めた範囲内にあるか否かを判断して、その判断結果に応じてその領域内の画素群を文字認識の対象から除外するようにしてもよい。具体的には、CPU11は、境界線抽出手段113が抽出した境界線に外接する矩形を特定し、その矩形の縦方向の長さと横方向の長さの比を領域の縦横比として算出する。ROM12には、領域の縦横比を1:xとした場合の閾値xについて、上限値および下限値が予め定められている。CPU11は、ROM12からこれらの上限値および下限値を読み出して、算出した縦横比と比較し、算出した縦横比が、閾値xが示す縦横比の範囲の外にある場合には、その境界線の内側の画素群について、文字認識の対象から除外するようにすればよい。例えば、図8(b)に示した境界線Bによって閉じられた領域は、縦横比が1:6〜8程度である。したがって、縦横比の閾値xを1:xとして定義し、xの下限を0.2、上限を5として予め定めておくことにより、この境界線Bは、閾値xが示す範囲の外にあると判断される。この場合、CPU11は、境界線Bの内側の画素群を文字認識の対象から除外するようにすればよい。
1…情報処理部、10…画像読取装置、11…CPU、110…取得手段、111…画像領域区切手段、112…二値化手段、112C…低解像度画像データ生成手段、113…境界線抽出手段、114…第1判定手段、115,115B,115C…指定手段、116…文字認識手段、117…第2判定手段、118…第3判定手段、12…ROM、13…RAM、14…VRAM、15…入力部、16…出力部、2…スキャナ、3…画像形成部、G0…ラスター画像データ、G1…文字認識画像データ。

Claims (5)

  1. 画像を構成する各画素の色を表す画素値が記述された画像データを取得する取得手段と、
    前記取得手段により取得された画像データに記述された画素値を二値化する二値化手段と、
    前記取得手段により取得された画像データが表す画像において色の境界線を抽出する抽出手段と、
    前記取得手段により取得された画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切る区切り手段と、
    前記区切り手段により区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記規則に従って配列されてない画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段と、
    前記指定手段により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段と
    を具備することを特徴とする文字認識装置。
  2. 前記指定手段は、前記区切り手段により区切られた複数の画像領域のうち、当該画像領域に含まれる各画素の色数または隣接する画素間にて色の切替る回数のいずれかが閾値を超える画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素の数が閾値を超えるときに、当該領域内の画素群を文字認識の対象として指定する
    ことを特徴とする請求項1に記載の文字認識装置。
  3. 前記取得手段により取得された画像データが表す画像を、当該画像データよりも低い解像度で表した低解像度画像データを生成する低解像度画像データ生成手段を具備し、
    前記区切り手段は、前記低解像度画像データ生成手段により生成された前記低解像度画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切り、
    前記二値化手段は、前記低解像度画像データ生成手段により生成された前記低解像度画像データに記述された画素値を二値化し、
    前記指定手段は、前記規則に従って配列されている画像領域のうち、閾値を超える大きさの画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記閾値以内の大きさの画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する
    ことを特徴とする請求項1に記載の文字認識装置。
  4. 記録媒体に描かれた画像を読み取る読取手段と、
    前記読取手段により読み取られた画像を構成する各画素の色を表す画素値が記述された画像データを生成する生成手段と、
    前記生成手段により生成された画像データに記述された画素値を二値化する二値化手段と、
    前記生成手段により生成された画像データが表す画像において色の境界線を抽出する抽出手段と、
    前記生成手段により生成された画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切る区切り手段と、
    前記区切り手段により区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記規則に従って配列されてない画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段と、
    前記指定手段により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段と
    を具備することを特徴とする画像読取装置。
  5. コンピュータを、
    画像を構成する各画素の色を表す画素値が記述された画像データを取得する取得手段と、
    前記取得手段により取得された画像データに記述された画素値を二値化する二値化手段と、
    前記取得手段により取得された画像データが表す画像において色の境界線を抽出する抽出手段と、
    前記取得手段により取得された画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切る区切り手段と、
    前記区切り手段により区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記規則に従って配列されてない画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段と、
    前記指定手段により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段と
    して実現させるためのプログラム。
JP2009066635A 2009-03-18 2009-03-18 文字認識装置、画像読取装置、およびプログラム Expired - Fee Related JP4821869B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009066635A JP4821869B2 (ja) 2009-03-18 2009-03-18 文字認識装置、画像読取装置、およびプログラム
US12/566,072 US8385651B2 (en) 2009-03-18 2009-09-24 Character recognition device, image-reading device, computer readable medium, and character recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009066635A JP4821869B2 (ja) 2009-03-18 2009-03-18 文字認識装置、画像読取装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2010218420A JP2010218420A (ja) 2010-09-30
JP4821869B2 true JP4821869B2 (ja) 2011-11-24

Family

ID=42737668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009066635A Expired - Fee Related JP4821869B2 (ja) 2009-03-18 2009-03-18 文字認識装置、画像読取装置、およびプログラム

Country Status (2)

Country Link
US (1) US8385651B2 (ja)
JP (1) JP4821869B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8634645B2 (en) * 2008-03-28 2014-01-21 Smart Technologies Ulc Method and tool for recognizing a hand-drawn table
KR101296681B1 (ko) * 2008-09-24 2013-08-16 삼성전자주식회사 영상 처리 방법 및 이를 이용한 화상형성장치
JP5948866B2 (ja) * 2011-12-27 2016-07-06 富士ゼロックス株式会社 画像処理装置及びプログラム
US8347391B1 (en) * 2012-05-23 2013-01-01 TrustPipe LLC System and method for detecting network activity of interest
CN103679164A (zh) 2012-09-21 2014-03-26 阿里巴巴集团控股有限公司 一种基于移动终端的标志识别处理方法和系统
US8856324B2 (en) 2013-01-28 2014-10-07 TrustPipe LLC System and method for detecting a compromised computing system
JP2015122618A (ja) * 2013-12-24 2015-07-02 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム
CN105095889B (zh) * 2014-04-22 2018-12-07 阿里巴巴集团控股有限公司 特征提取、字符识别、引擎生成、信息确定方法及装置
JP6390501B2 (ja) * 2015-04-15 2018-09-19 京セラドキュメントソリューションズ株式会社 学習支援装置および学習支援方法
US10796422B1 (en) * 2017-05-31 2020-10-06 Charles Schwab & Co., Inc. System and method for capturing by a device an image of a light colored object on a light colored background for uploading to a remote server
CN107481238A (zh) * 2017-09-20 2017-12-15 众安信息技术服务有限公司 图像质量评估方法及装置
CN107958531B (zh) * 2017-12-06 2020-08-18 深圳怡化电脑股份有限公司 纸币识别方法和装置以及设备
JP6878739B1 (ja) * 2020-03-16 2021-06-02 株式会社アイエスピー シリアルナンバー等文字列抽出サーバ、方法及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06111060A (ja) * 1992-09-25 1994-04-22 Toshiba Corp 光学的文字読取装置
JP3748164B2 (ja) 1998-02-06 2006-02-22 富士通株式会社 パターン抽出装置
JP4275866B2 (ja) * 2000-01-27 2009-06-10 富士通株式会社 カラー画像から文字列パターンを抽出する装置および方法
JP4558232B2 (ja) * 2001-03-26 2010-10-06 株式会社リコー 画像処理方法、画像処理装置および画像処理方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4116377B2 (ja) * 2002-09-18 2008-07-09 株式会社リコー 画像処理方法および画像処理装置
JP4250483B2 (ja) 2003-08-25 2009-04-08 キヤノン株式会社 画像処理装置、画像処理方法ならびにプログラム、記憶媒体
JP4598426B2 (ja) * 2004-03-30 2010-12-15 富士通株式会社 境界抽出方法、プログラムおよびこれを用いた装置
US7831107B2 (en) * 2005-10-17 2010-11-09 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and program
JP4745830B2 (ja) * 2006-01-05 2011-08-10 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP4764231B2 (ja) * 2006-03-31 2011-08-31 キヤノン株式会社 画像処理装置、制御方法、コンピュータプログラム
JP2007304864A (ja) * 2006-05-11 2007-11-22 Fuji Xerox Co Ltd 文字認識処理システムおよび文字認識処理プログラム
JP2008299780A (ja) * 2007-06-04 2008-12-11 Fuji Xerox Co Ltd 画像処理装置、及び画像処理プログラム
JP4569622B2 (ja) * 2007-12-18 2010-10-27 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4960897B2 (ja) * 2008-01-30 2012-06-27 株式会社リコー 画像処理装置、画像処理方法、プログラム、記憶媒体

Also Published As

Publication number Publication date
JP2010218420A (ja) 2010-09-30
US20100239166A1 (en) 2010-09-23
US8385651B2 (en) 2013-02-26

Similar Documents

Publication Publication Date Title
JP4821869B2 (ja) 文字認識装置、画像読取装置、およびプログラム
US8027550B2 (en) Image-document retrieving apparatus, method of retrieving image document, program, and recording medium
US8611658B2 (en) Image processing apparatus and image processing method
JP4189506B2 (ja) 画像処理のための装置、方法及び記録媒体
EP2645332B1 (en) Image processing device that separates image into plural regions
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
US11151402B2 (en) Method of character recognition in written document
JPH05233873A (ja) 領域分割方法
JP4748234B2 (ja) 画像処理装置および画像形成装置
EP2782065B1 (en) Image-processing device removing encircling lines for identifying sub-regions of image
JP6122988B1 (ja) 画像処理装置、画像処理方法、および、プログラム
JP2011248702A (ja) 画像処理装置、画像処理方法、画像処理プログラム及びプログラム記憶媒体
US8229214B2 (en) Image processing apparatus and image processing method
US9438767B2 (en) Image processing apparatus, image processing method, and storage medium
JP5335581B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6546385B2 (ja) 画像処理装置及びその制御方法、プログラム
JP7301529B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US8660354B2 (en) Image processing apparatus including an obtaining unit, an isolating unit, a classifying unit, information processing apparatus, and image reading apparatus
JP2010244472A (ja) 画像処理装置及び方法
JP5245949B2 (ja) 画像処理装置および画像読取装置
JP5648340B2 (ja) 画像処理装置およびプログラム
JP4631371B2 (ja) 画像処理装置
JPH0916713A (ja) 画像領域分割方法
JP4409678B2 (ja) 罫線抽出方式
JP4439054B2 (ja) 文字認識装置及び文字枠線の検出方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110809

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110822

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees