JP4821869B2

JP4821869B2 - 文字認識装置、画像読取装置、およびプログラム

Info

Publication number: JP4821869B2
Application number: JP2009066635A
Authority: JP
Inventors: 臻瑞張; あゆみ大西; 裕義上條; 和宏大谷; 勝也小柳; 博新名; ちひろ松隈
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2009-03-18
Filing date: 2009-03-18
Publication date: 2011-11-24
Anticipated expiration: 2029-03-18
Also published as: JP2010218420A; US20100239166A1; US8385651B2

Description

本発明は、文字認識装置、画像読取装置、およびプログラムに関する。

用紙などの記録媒体に描かれた画像を光学読取装置などで読み取り、読み取った画像から文字が描かれた領域を抽出してその文字を認識する文字認識技術がある。記録媒体に文字を描く態様には様々なものが考えられ、これら多様な態様で描かれた文字をそれぞれ認識しうる技術が求められている。特許文献１には、文字領域を、エッジ抽出による領域識別処理と二値画像による領域識別処理で特定してから、さらに部分二値化処理で文字を抽出する技術が開示されている。

特開２００５−７１０８８号公報

本発明の目的は、記録媒体の色と異なる単一の色によりその記録媒体上に描かれる文字以外の文字であっても、文字認識の対象として指定する技術を提供することである。

上述した課題を解決するため、本願の請求項１に記載の文字認識装置は、画像を構成する各画素の色を表す画素値が記述された画像データを取得する取得手段と、前記取得手段により取得された画像データに記述された画素値を二値化する二値化手段と、前記取得手段により取得された画像データが表す画像において色の境界線を抽出する抽出手段と、前記取得手段により取得された画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切る区切り手段と、前記区切り手段により区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記規則に従って配列されてない画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段と、前記指定手段により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段とを具備することを特徴とする。

また、本願の請求項２に記載の文字認識装置は、請求項１に記載の文字認識装置において、前記指定手段は、前記区切り手段により区切られた複数の画像領域のうち、当該画像領域に含まれる各画素の色数または隣接する画素間にて色の切替る回数のいずれかが閾値を超える画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素の数が閾値を超えるときに、当該領域内の画素群を文字認識の対象として指定することを特徴とする。

また、本願の請求項３に記載の文字認識装置は、請求項１に記載の文字認識装置において、前記取得手段により取得された画像データが表す画像を、当該画像データよりも低い解像度で表した低解像度画像データを生成する低解像度画像データ生成手段を具備し、前記区切り手段は、前記低解像度画像データ生成手段により生成された前記低解像度画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切り、前記二値化手段は、前記低解像度画像データ生成手段により生成された前記低解像度画像データに記述された画素値を二値化し、前記指定手段は、前記規則に従って配列されている画像領域のうち、閾値を超える大きさの画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記閾値以内の大きさの画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定することを特徴とする。

また、本願の請求項４に記載の画像読取装置は、記録媒体に描かれた画像を読み取る読取手段と、前記読取手段により読み取られた画像を構成する各画素の色を表す画素値が記述された画像データを生成する生成手段と、前記生成手段により生成された画像データに記述された画素値を二値化する二値化手段と、前記生成手段により生成された画像データが表す画像において色の境界線を抽出する抽出手段と、前記生成手段により生成された画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切る区切り手段と、前記区切り手段により区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記規則に従って配列されてない画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段と、前記指定手段により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段とを具備することを特徴とする。

また、本願の請求項５に記載のプログラムは、コンピュータを、画像を構成する各画素の色を表す画素値が記述された画像データを取得する取得手段と、前記取得手段により取得された画像データに記述された画素値を二値化する二値化手段と、前記取得手段により取得された画像データが表す画像において色の境界線を抽出する抽出手段と、前記取得手段により取得された画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切る区切り手段と、前記区切り手段により区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記規則に従って配列されてない画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段と、前記指定手段により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段として実現させるためのプログラムである。

本発明の請求項１に係る文字認識装置によれば、記録媒体の色と異なる単一の色によりその記録媒体上に描かれる文字以外の文字であっても、文字認識の対象として指定することができる。
本発明の請求項２に係る文字認識装置によれば、抽出手段が抽出した境界線によって閉じられた領域のうち、文字認識の対象ではないものを除外することができる。
本発明の請求項３に係る文字認識装置によれば、低解像度画像データに記述された画素値を二値化した画素群を文字認識の対象として指定しない場合と比較して、文字認識の対象を指定するまでの処理が早い。
本発明の請求項４に係る画像読取装置によれば、記録媒体の色と異なる単一の色によりその記録媒体上に描かれる文字以外の文字であっても、文字認識の対象として指定することができる。
本発明の請求項５に係るプログラムによれば、記録媒体の色と異なる単一の色によりその記録媒体上に描かれる文字以外の文字であっても、文字認識の対象として指定することができる。

画像読取装置のハードウェア構成を説明するためのブロック図である。第１実施形態に係る情報処理部の機能的構成を示すブロック図である。第２実施形態に係る情報処理部の機能的構成を示すブロック図である。第３実施形態に係る情報処理部の機能的構成を示すブロック図である。色の境界線について説明するための図である。決められた規則に従った配列を説明するための図である。画像読取装置により読み取られる画像の例を示した図である。ノイズ境界線を説明するための図である。

１．定義
以下の実施形態において、「画像領域」とは、画像のうち、画が描かれている領域である。
「ラスター方式」とは、格子状に配列された画素と呼ばれる単位に画像を分割し、各画素によってそれぞれ表される色情報（色調や階調）をその画素ごとに記述する方式である。
「ラスター画像」とは、ラスター方式で表現された画像である。
「解像度」とは、ラスター画像において、単位長さ当たりに配列される画素の数を示す値である。ここで、単位長さとは例えばインチであり、解像度の単位としては１インチ当たりの画素の数を示す「ｄｐｉ」がある。
「ベクトル情報」とは、描画対象である線・面領域・文字等の各要素を抽象空間上に定義し、各要素を描画する処理を数値又は数式によって記述した情報である。このベクトル情報の記述には、例えばベジエ曲線のパラメータなどが用いられる。
「ベクトル方式」とは、ベクトル情報により定義された要素をその要素ごとに描画する方式である。具体的には、ベクトル方式とは、線の起終点の座標、色、太さ、曲がり方や、線に囲まれた面の色、文字コードと文字属性（サイズやフォント）等を、数値や数式で表す方式である。
「ベクトル画像」とは、ベクトル方式で表現された画像である。
「ベクトル化」とは、ラスター画像をベクトル画像に変換することをいう。
「描画色」とは、画像のうち、描画対象が描かれる色である。
「非描画色」とは、描画色ではない色である。
「描画画素」とは、画像領域において、描画対象を描いた画素である。
「下地画素」とは、画像領域において、描画画素以外の画素であり、画像が形成された記録媒体における、その記録媒体の色に相当する。
「写真画像」とは、主に自然物を光学的手法により撮影して得られるラスター画像、および、これに準ずるラスター画像であって、ベクトル化が困難なものをいう。
「圧縮処理」とは、データ量を低減した状態で対象を表現するデータに変換する処理である。

２．第１実施形態
本発明の第１実施形態である画像読取装置１０の構成を説明する。
図１は、画像読取装置１０のハードウェア構成を説明するためのブロック図である。図１に示すように、画像読取装置１０は、情報処理部１、スキャナ２、および画像形成部３を含む。図１の二点鎖線で囲んだ内側は、情報処理部１を示している。ＣＰＵ１１は、ＲＯＭ１２に記憶されているコンピュータプログラム（以下、単にプログラムという）を読み出して実行することにより情報処理部１の各部を制御する。例えば、ＣＰＵ１１は、後述する画像領域区切手段や文字認識手段として機能する。ＲＯＭ１２は半導体素子等で構成された読み出し専用の不揮発性記憶装置である。このＲＯＭ１２には、種々のプログラムやＢＩＯＳ（Basic Input/Output System）が記憶されている。ＲＡＭ１３はＣＰＵ１１がプログラムを実行する際のワークエリアとして利用される。また、ＲＡＭ１３は、ベクトル画像を表すデータ（以下、ベクトル画像データという）やラスター画像を表すデータ（以下、ラスター画像データという）を記憶する領域を有している。なお、画像を表すこれらのデータには、圧縮処理が施されていてもよい。ＶＲＡＭ（ＶｉｄｅｏＲＡＭ）１４は、ラスター画像データを記憶するＲＡＭである。入力部１５は、スキャナやコンピュータなどの外部入力装置とのインターフェースであり、ＣＰＵ１１の制御の下、画像データを受け付ける。ここでは、入力部１５は、スキャナ２から入力されるラスター画像データを受け付ける。出力部１６は、ＣＰＵ１１の制御の下、画像データを、画像形成部や液晶表示媒体などの外部装置へ出力する。ここでは、出力部１６は、画像データを画像形成部３へ出力する。情報処理部１の各部はバスを介して接続されている。

図２は、本発明の第１実施形態に係る情報処理部１の機能的構成を示すブロック図である。図２の二点鎖線の枠１１Ａで囲まれた各手段は、情報処理部１のＣＰＵ１１がプログラムを実行することにより実現される。取得手段１１０は、ＣＰＵ１１がスキャナ２からラスター画像データＧ０を取得する手段である。具体的には、ＣＰＵ１１は、用紙などの記録媒体に描かれた画像をスキャナ２が備える光学読取装置に読み取らせ、この画像に対応するラスター画像データＧ０を、入力部１５およびバスを介して取得してＲＡＭ１３やＶＲＡＭ１４に記憶する。そして、取得したラスター画像データＧ０は、画像領域区切手段１１１、二値化手段１１２、および、境界線抽出手段１１３に供給される。

画像領域区切手段１１１は、供給されたラスター画像データＧ０が表す画像を、ラベリング処理によって何らかの画が描かれている複数の画像領域に区切る区切り手段である。具体的には、ＣＰＵ１１がＲＡＭ１３やＶＲＡＭ１４に記憶したラスター画像データＧ０の各画素の濃度や明度に基づいて、ラベリング処理をすることにより、連結した同じ画素、または、連結しており、かつ、その差が予め定めた範囲内に収まる画素を描画画素として抽出し、この描画画素に外接する矩形を画像領域として区切る。画像領域区切手段１１１によって区切られた各画像領域は、第１判定手段１１４に供給される。

二値化手段１１２は、供給されたラスター画像データＧ０に記述された画素値を二値化する二値化手段である。具体的には、ＣＰＵ１１が、ラスター画像データＧ０の各画素の色を閾値と比較することで、二種類の画素からなる二値画像を生成し、ＲＡＭ１３やＶＲＡＭ１４に記憶する。この閾値は、描画画素と下地画素を区別することができる色であればよく、例えば、非描画色そのものであってもよい。

境界線抽出手段１１３は、供給されたラスター画像データＧ０が表す画像において色の境界線を抽出する抽出手段である。具体的には、ＣＰＵ１１が、ラスター画像データＧ０の各画素のうち、連結した同じ色の画素群を特定し、その画素群と、その画素群の周囲にあって、その画素群と異なる色の画素との境界線を抽出する。そして、ＣＰＵ１１は、この境界線が、上記の画像において閉じた領域を形成している場合に、この境界線をＲＡＭ１３に記憶する。

図５は、色の境界線について説明するための図である。図５において、格子状に区切られた領域はそれぞれ１つの画素を示している。図５（ａ）において、内側が白く塗りつぶされている画素は、周囲に同じ色の画素が並べられていない画素を示しており、内側に斜線が描かれている画素は、共通する或る色の画素を示している。図５（ｂ）は、この図５（ａ）に示す画素群に対して、境界線抽出手段１１３により境界線を抽出した様子を表している。例えば、図５（ａ）に示す画素Ｒ２および画素Ｒ３は、共通する色を有するが、互いが連結していないため、画素Ｒ２および画素Ｒ３の周囲には、境界線は抽出されない。一方、図５（ａ）に示す画素群Ｒ１は、共通する色を有し、かつ、互いに連結しているので、境界線抽出手段１１３は、図５（ｂ）に示す境界線Ｂ１を抽出する。

第１判定手段１１４は、供給された各画像領域のうち、決められた規則に従って配列されている複数の画像領域を特定し、特定したその複数の画像領域をそれぞれ文書領域（第１の画像領域）と判定する判定手段である。具体的には、ＣＰＵ１１は、供給された画像領域の大きさや縦横各方向の間隔について、相加平均値や最頻値を算出する。そして、ＣＰＵ１１は、この算出した数値をＲＯＭ１２などに予め記憶された数値と比較して、決められた規則に従って配列されている複数の画像領域を特定する。ここで、決められた規則に従った配列とは、例えば、画像領域が縦方向または横方向に一定の間隔で並べられた配列や、画像領域どうしの間隔が、それらの画像領域の大きさの相加平均値に対して、一定の割合の大きさである配列などである。

図６は、決められた規則に従った配列を説明するための図である。同図に示される複数の矩形は、画像領域区切手段１１１によって区切られた画像領域である。図６（ａ）に示すように、複数の画像領域が、乱雑に配列されている場合には、互いに隣接する画像領域どうしの大きさや間隔は異なっていて規則性がない。一方、図６（ｂ）に示すように、一定の大きさの画像領域が縦横に格子状に配列されている場合には、互いに隣接する画像領域どうしの大きさや間隔は一定であったり、ある範囲内に収まったり、比例関係が成立したりするので、規則性がある。第１判定手段１１４は、このような画像領域の配列に規則性があるか否かを、隣接する画像領域どうしの大きさや間隔に基づいて判定する。

そして、第１判定手段１１４は、この複数の画像領域を、文書が記述されている領域である文書領域と判定し、「文書領域」を示す領域信号を指定手段１１５へ供給する。ここで、後述する指定手段１１５はＣＰＵ１１により実現されるため、第１判定手段１１４は、具体的には、ＣＰＵ１１が各画像領域と上述の領域信号とを関連付けてＲＡＭ１３に記憶することで実現される。

指定手段１１５は、第１判定手段１１４により文書領域と判定された画像領域に対しては、二値化手段１１２によって二値化された画素群を文字認識の対象として指定し、第１判定手段１１４によって文書領域と判定された画像領域以外の画像領域に対しては、境界線抽出手段１１３が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段である。言い換えると、指定手段１１５は、画像領域区切手段１１１によって区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、二値化手段１１２によって二値化された画素群を文字認識の対象として指定し、この規則に従って配列されてない画像領域に対しては、境界線抽出手段１１３が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段である。具体的には、第１判定手段１１４において各画像領域に関連付けられた領域信号をＲＡＭ１３から読み出し、この領域信号が「文書領域」を示す領域信号である場合に、ＣＰＵ１１は、文字認識の対象として、二値化手段１１２によって二値化された画素群のうち、この画像領域に対応する画素群を、文字認識の対象として指定する。一方、領域信号が「文書領域」を示す領域信号ではない場合に、ＣＰＵ１１は、文字認識の対象として、境界線抽出手段１１３が抽出した境界線によって閉じられた領域内の画素群のうち、この画像領域に対応する画素群を、文字認識の対象として指定する。

文字認識手段１１６は、指定手段１１５により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段である。具体的には、指定手段１１５によって、その画像領域における文字認識の対象として指定された画素群に対して、ＣＰＵ１１が、予め記憶された文字パターンと比較するパターンマッチング処理を行い、この画素群によって表されている文字を認識する。そして、文字認識手段１１６は、認識した文字を基に、画像のどの領域にどの文字が描かれているかを記述したデータとして、文字認識画像データＧ１を出力する。具体的には、ＣＰＵ１１は、認識した文字の文字コード、その文字が描かれる画像領域の座標の組み合わせをラスター画像データＧ０に付し、文字認識画像データＧ１としてＲＡＭ１３に記憶する。

以上により、画像領域区切手段１１１によって区切られた画像領域ごとに、第１判定手段１１４の判定結果に応じて、二値化手段１１２によって二値化された画素群、または、境界線抽出手段１１３が抽出した境界線によって閉じられた領域内の画素群のいずれかを文字認識の対象とした文字認識処理が行われる。第１判定手段１１４により文書領域と判定された複数の画像領域は、決められた規則に沿った配列で描かれているため、段落を構成している文字がそれぞれに描かれている可能性が高い。従って、この文書領域では描画画素は文字だけを描いている可能性が高く、描画画素と下地画素とを区別することで、文字認識され得る。一方、第１判定手段１１４により文書領域と判定されなかった画像領域は、少なくとも描画画素からなる文字が下地画素に直接描かれている可能性は低い。従って、この画像領域では描画画素は文字と文字の背景を描いている可能性が高く、描画画素と下地画素とを区別することでは文字認識できない可能性がある。このように、この情報処理部１は、画像領域の属性に応じて適宜、文字認識の対象となる画素群を指定する文字認識装置として機能する。

図７は、用紙などの記録媒体に描かれ、上述した画像読取装置１０により読み取られる画像の例を示した図である。画像領域Ｚ１は、縦横に４本ずつ描かれた線分が交差して表を構成している画像領域である。この表のそれぞれの枠内にも描画画素が下地画素に囲まれて描かれているが、これらの描画画素は、枠内に描かれているので、決められた規則に沿って配列された画像領域を構成していると判定されない。また、画像領域Ｚ１そのものは決められた規則に沿って配列されていないので文書領域と判定されない。したがって、画像領域Ｚ１では、境界線抽出手段１１３が抽出した境界線によって閉じられた領域内の画素群が文字認識の対象として指定される。

画像領域Ｚ２や画像領域Ｚ３は、大きさや隣接した画像領域との間隔に規則性が認められるため、文書領域と判定される。したがって、画像領域Ｚ２や画像領域Ｚ３では、二値化手段１１２によって二値化された画素群が文字認識の対象として指定される。
特に、画像領域Ｚ２のように比較的大きな活字で文字が描かれている場合には、文字の色が目立つように工夫されている場合が多い。例えば、文字の色が位置に応じて連続的に変化する、いわゆるグラデーションがかけられた文字が画像領域Ｚ２に描かれているとすると、文字の色が位置に応じて連続的に変化しているため、境界線抽出手段１１３では境界線を抽出することができないことがある。しかし、グラデーションがかけられた文字であっても、描画画素からなる文字が下地画素に直接描かれているという点には変わりがないので、二値化手段１１２によって二値化することによって、この文字が描かれた画像領域は文字認識の対象として指定される。

画像領域Ｚ４は、写真が描かれており、破線で示した矩形の内側は、図示しない複数種類の描画色が塗られている。この画像領域Ｚ４には「複写機」という文字列が、ある描画色で描かれているが、写真部分を描く他の描画色に重ねて描かれているので、文字列を構成する文字は画像領域として区切られることはない。また、画像領域Ｚ４そのものは、決められた規則に沿って配列されていないので文書領域と判定されない。したがって、画像領域Ｚ４では、境界線抽出手段１１３が抽出した境界線によって閉じられた領域内の画素群が文字認識の対象として指定される。

画像領域Ｚ５には、用紙の色（非描画色）Ｃｘ以外の描画色Ｃｂで塗りつぶされた楕円形状の中に、描画色Ｃｂとは異なる描画色Ｃｆで描かれた「技術的な課題」という文字列を配置したものが描かれている。この楕円形状は用紙の色Ｃｘに囲まれているため、画像領域Ｚ５は、この楕円形状に外接する矩形となる。描画色Ｃｆで描かれたこの文字列は描画色Ｃｂに重ねて描かれているので、文字列を構成する文字は画像領域として区切られることはない。また、画像領域Ｚ５そのものは、決められた規則に沿って配列されていないので文書領域と判定されない。したがって、画像領域Ｚ５では、境界線抽出手段１１３が抽出した境界線によって閉じられた領域内の画素群が文字認識の対象として指定される。

３．第２実施形態
次に、本発明の第２実施形態について説明する。本発明の第２実施形態である画像読取装置１０の全体構成は、第１実施形態と共通するため説明を省略する。
図３は、本発明の第２実施形態に係る情報処理部１の機能的構成を示すブロック図である。図３において、第１実施形態と共通する機能的構成については、図２と同一の符号を付し、説明を省略する。図３の二点鎖線の枠１１Ｂで囲まれた各手段は、情報処理部１のＣＰＵ１１により実現される機能である。第２実施形態の情報処理部１では、画像領域区切手段１１１によって区切られた各画像領域は、第１判定手段１１４のほか、第２判定手段１１７に供給される。また、指定手段１１５に替えて、指定手段１１５Ｂが設けられる。

第２判定手段１１７は、供給された各画像領域において、当該画像領域に含まれる各画素の色数または色の切替る回数のいずれかが閾値を超える場合に、当該画像領域を写真領域（第２の画像領域）と判定する判定手段である。この第２判定手段１１７は、ＣＰＵ１１が以下の３つの処理を行うことで実現される。

第１の処理は、画像領域区切手段１１１によって区切られた画像領域に対応するラスター画像データＧ０のヒストグラムをＣＰＵ１１が生成し、ヒストグラムが示す階級の数に基づいて、この画像領域を構成する色（以下、構成色という）の数を数える処理である。
第２の処理は、この画像領域内の連続した画素の色が切替る回数（以下、色替り回数という）をＣＰＵ１１が数える処理である。ここで、「画像領域内の連続した画素の色が切替る」とは、以下の事象を示す。すなわち、まず、ＣＰＵ１１が画像領域内のある画素に注目し、次に、その注目画素の色と、その注目画素から予め定められた範囲内（例えば注目画素からその隣に１画素の範囲内）に位置する少なくとも一つの画素の色との差を算出する。さらに、この算出された差と、予め定めた閾値とをＣＰＵ１１が比較し、「差」が「閾値」以上である場合に「色が切替る」と判断する。この「色が切替る」回数を画像領域内の全ての画素についてＣＰＵ１１が数えることにより、「色替り回数」が数えられる。
第３の処理は、第１の処理で数えた構成色の数と予め定めた第１の閾値とを比較するとともに、第２の処理で数えた色替り回数と予め定めた第２の閾値とを比較して、いずれかが閾値を超える場合に、当該画像領域を写真領域と判定する処理である。なお、第２判定手段１１７は、第３の処理に加えて、第１の処理および第２の処理のいずれか一方のみを備えるようにしてもよい。

指定手段１１５Ｂは、第２判定手段１１７により写真領域と判定された画像領域に対しては、境界線抽出手段１１３が抽出した境界線によって閉じられた領域内の画素の数を数え、この数が予め定めた第３の閾値を超えるときに、この領域内の画素群を文字認識の対象として指定する以外は、指定手段１１５と同じである。言い換えると、指定手段１１５Ｂは、画像領域区切手段１１１により区切られた複数の画像領域のうち、当該画像領域に含まれる各画素の色数または隣接する画素間にて色の切替る回数のいずれかが閾値を超える画像領域に対しては、境界線抽出手段１１３が抽出した境界線によって閉じられた領域内の画素の数が閾値を超えるときに、当該領域内の画素群を文字認識の対象として指定する指定手段である。

構成色数や色替り回数が多い画像領域は写真画像である可能性が高い。このような写真画像においては、二値化手段１１２では文字と文字の背景との区別がつきにくく、境界線抽出手段１１３による境界線により、両者の区別をすることが効果的である。しかし、写真画像においては、文字が描かれていない場所にも、対象物の配置などの関係により色の境界線が抽出されやすい（以下、このように抽出された境界線をノイズ境界線という）。

図８は、このノイズ境界線を説明するための図である。図８（ａ）に示す画像領域Ｚ４は、「複写機」という文字列が重ねて描かれた写真画像である。境界線抽出手段１１３により、この画像領域Ｚ４から境界線を抽出すると、「複写機」という文字列を囲んだ境界線Ｂ２が抽出されるが、境界線Ｂ３〜Ｂ８のように文字が描かれていない部分にも、連結した同じ色の画素群とその周囲の異なる色の画素群との境界線であって、閉じた領域を形成しているノイズ境界線が抽出される。これらのノイズ境界線の内側の領域は、文字列が占める領域よりも小さい場合が多い。そこで指定手段１１５Ｂは、上述のように、写真領域と判定された画像領域に対しては、抽出された境界線の内側の領域に含まれる画素数が閾値を超えるか否かを判断することにより、ノイズ境界線によって閉じられた領域内の画素群を文字認識の対象から除外し、文字の境界線によって閉じられた領域内の画素群を文字認識の対象として指定する。

４．第３実施形態
次に、本発明の第３実施形態について説明する。本発明の第３実施形態である画像読取装置１０の全体構成は、第１実施形態と共通するため説明を省略する。
図４は、本発明の第３実施形態に係る情報処理部１の機能的構成を示すブロック図である。図４において、第１実施形態および第２実施形態と共通する機能的構成については、図２または図３と同一の符号を付し、説明を省略する。図４の二点鎖線の枠１１Ｃで囲まれた各手段は、情報処理部１のＣＰＵ１１により実現される機能である。第３実施形態の情報処理部１は、第２実施形態の第２判定手段１１７を有していない代わりに、第１判定手段１１４の後に第３判定手段１１８を有しており、第１実施形態の指定手段１１５に替えて指定手段１１５Ｃを有している。また、第３実施形態の情報処理部１は、二値化手段１１２に替えて、低解像度画像データ生成手段１１２Ｃを画像領域区切手段１１１の内部に有している。
なお、第３実施形態において情報処理部１は、第２実施形態の第２判定手段１１７を有していないものとして説明するが、本発明の情報処理部１は、第３実施形態の情報処理部１に加えて、第２実施形態の第２判定手段１１７を備えていてもよい。

低解像度画像データ生成手段１１２Ｃは、取得手段１１０により取得されたラスター画像データＧ０が表す画像を、ラスター画像データＧ０よりも低い解像度で表した低解像度のラスター画像データ（以下、低解像度ラスター画像データＧ２という）を生成する手段である。具体的には、例えば、ＣＰＵ１１が、ラスター画像データＧ０から、走査線を一本置きに走査して解像度を低下させたり、縦横に連続する４画素や９画素の相加平均を算出して、１画素の画素値を生成したりして、低解像度ラスター画像データＧ２を生成する。そして、生成した低解像度ラスター画像データＧ２の各画素の色を閾値と比較することで、二種類の画素からなる二値画像を生成する。すなわち、低解像度画像データ生成手段１１２Ｃは、生成された低解像度ラスター画像データＧ２に記述された画素値を二値化する二値化手段としても機能する。

画像領域区切手段１１１は、生成された二値化画像をラベリング処理することにより、ラスター画像データＧ０が表す画像を複数の画像領域に区切る。すなわち、画像領域区切手段１１１は、低解像度ラスター画像データＧ２に基づいて、ラスター画像データＧ０が表す画像を複数の画像領域に区切る。

第３判定手段１１８は、第１判定手段１１４により、画像領域が文書領域（第１の画像領域）と判定された場合に、文書領域の大きさが閾値を超えるときは、この画像領域を大活字文書領域（第３の画像領域）と判定する判定手段である。第１判定手段１１４において、ＣＰＵ１１は、各画像領域の大きさや縦横各方向の間隔について、相加平均値や最頻値を算出し、算出したこれらの数値に基づいて決められた規則に従って配列されている複数の画像領域を特定して、特定したこの複数の画像領域を、文書が記述されている領域である文書領域と判定していた。ここで、第３判定手段１１８においてＣＰＵ１１は、さらにその文書領域の大きさを閾値と比較することにより、この画像領域が活字（フォント）の大きさが比較的大きい「大活字」により描かれた大活字文書領域であるか否かを判定する。

指定手段１１５Ｃは、第３判定手段１１８により大活字文書領域と判定された画像領域に対しては、低解像度画像データ生成手段１１２Ｃによって二値化された画素群を文字認識の対象として指定し、第３判定手段１１８により大活字文書領域と判定された画像領域以外の画像領域に対しては、境界線抽出手段１１３が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する。言い換えると、指定手段１１５Ｃは、
決められた規則に従って配列されている画像領域のうち、閾値を超える大きさの画像領域に対しては、低解像度画像データ生成手段１１２Ｃによって二値化された画素群を文字認識の対象として指定し、閾値以内の大きさの画像領域に対しては、境界線抽出手段１１３が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段である。

文書領域の大きさが閾値を超えるということは、描かれている文字が比較的大きな活字である可能性が高い。このような大きな活字で描かれている文書領域は、低解像度のラスター画像データにおいても、文字が潰れておらず、文字認識処理が十分に行える可能性がある。一方、文書領域の大きさが閾値を超えない場合には、描かれている文字は小さな活字である可能性が高く、低解像度画像データを二値化した画素群では文字が潰れてしまい、文字認識処理に利用できないことがある。第３実施形態において、情報処理部１は、文書領域に描かれる文字の大きさに応じて、高解像度のラスター画像データＧ０を用いるか、低解像度ラスター画像データＧ２を用いるかを適宜選択するので、このような構成を用いない場合に比べて処理時間が短縮される。

５．変形例
以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例を組み合わせてもよい。
（１）上述した実施形態において、情報処理部１は、画像読取装置１０に内蔵されたものであったが、情報処理部１は、パーソナルコンピュータで実現してもよい。
また、図２の二点鎖線で囲んだ各手段は、情報処理部１のＣＰＵ１１により実現される機能であったが、これら各手段は、ＣＰＵ１１以外によって実現されてもよい。例えば、これら各手段は専用の画像処理プロセッサによって実現されてもよい。

（２）上述した第２実施形態において、第２判定手段１１７は、画像領域に含まれる各画素の色数または色の切替る回数のいずれかが閾値を超える場合に、当該画像領域を写真領域（第２の画像領域）と判定していたが、この第２判定手段１１７が画像領域を写真領域と判定した場合に、この画像領域の描画色を減色する減色手段を設けてもよい。減色する処理のアルゴリズムとしては、例えば、以下のステップＳ４０１〜ステップＳ４０７に示すアルゴリズムなどが挙げられる。

ステップＳ４０１：計算したヒストグラムに基づき、頻度の低い色を、その色に近い色でその色の頻度よりも頻度が多い色に併合する。
ステップＳ４０２：構成色が描画色の目標色数以下であれば処理を終了する。
ステップＳ４０３：全体を一つの色グループとして、最大色差のペアを探す。
ステップＳ４０４：注目しているグループを色差優先で、２つに分ける。
ステップＳ４０５：グループ数が目標色数以下であれば処理を終了する。
ステップＳ４０６：全てのグループの中から、最大色差ペアを持つグループを探す。
ステップＳ４０７：ステップＳ４０４へ戻る。

（３）上述した第２実施形態において、指定手段１１５Ｂは、写真領域と判定された画像領域に対しては、抽出された境界線の内側の領域に含まれる画素数が閾値を超えるか否かを判断することにより、ノイズ境界線によって閉じられた領域内の画素群を文字認識の対象から除外していたが、抽出された境界線によって閉じられた領域の縦横比を算出し、算出された縦横比が予め定めた範囲内にあるか否かを判断して、その判断結果に応じてその領域内の画素群を文字認識の対象から除外するようにしてもよい。具体的には、ＣＰＵ１１は、境界線抽出手段１１３が抽出した境界線に外接する矩形を特定し、その矩形の縦方向の長さと横方向の長さの比を領域の縦横比として算出する。ＲＯＭ１２には、領域の縦横比を１：ｘとした場合の閾値ｘについて、上限値および下限値が予め定められている。ＣＰＵ１１は、ＲＯＭ１２からこれらの上限値および下限値を読み出して、算出した縦横比と比較し、算出した縦横比が、閾値ｘが示す縦横比の範囲の外にある場合には、その境界線の内側の画素群について、文字認識の対象から除外するようにすればよい。例えば、図８（ｂ）に示した境界線Ｂ６によって閉じられた領域は、縦横比が１：６〜８程度である。したがって、縦横比の閾値ｘを１：ｘとして定義し、ｘの下限を０．２、上限を５として予め定めておくことにより、この境界線Ｂ６は、閾値ｘが示す範囲の外にあると判断される。この場合、ＣＰＵ１１は、境界線Ｂ６の内側の画素群を文字認識の対象から除外するようにすればよい。

１…情報処理部、１０…画像読取装置、１１…ＣＰＵ、１１０…取得手段、１１１…画像領域区切手段、１１２…二値化手段、１１２Ｃ…低解像度画像データ生成手段、１１３…境界線抽出手段、１１４…第１判定手段、１１５，１１５Ｂ，１１５Ｃ…指定手段、１１６…文字認識手段、１１７…第２判定手段、１１８…第３判定手段、１２…ＲＯＭ、１３…ＲＡＭ、１４…ＶＲＡＭ、１５…入力部、１６…出力部、２…スキャナ、３…画像形成部、Ｇ０…ラスター画像データ、Ｇ１…文字認識画像データ。

Claims

画像を構成する各画素の色を表す画素値が記述された画像データを取得する取得手段と、
前記取得手段により取得された画像データに記述された画素値を二値化する二値化手段と、
前記取得手段により取得された画像データが表す画像において色の境界線を抽出する抽出手段と、
前記取得手段により取得された画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切る区切り手段と、
前記区切り手段により区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記規則に従って配列されてない画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段と、
前記指定手段により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段と
を具備することを特徴とする文字認識装置。
前記指定手段は、前記区切り手段により区切られた複数の画像領域のうち、当該画像領域に含まれる各画素の色数または隣接する画素間にて色の切替る回数のいずれかが閾値を超える画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素の数が閾値を超えるときに、当該領域内の画素群を文字認識の対象として指定する
ことを特徴とする請求項１に記載の文字認識装置。
前記取得手段により取得された画像データが表す画像を、当該画像データよりも低い解像度で表した低解像度画像データを生成する低解像度画像データ生成手段を具備し、
前記区切り手段は、前記低解像度画像データ生成手段により生成された前記低解像度画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切り、
前記二値化手段は、前記低解像度画像データ生成手段により生成された前記低解像度画像データに記述された画素値を二値化し、
前記指定手段は、前記規則に従って配列されている画像領域のうち、閾値を超える大きさの画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記閾値以内の大きさの画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する
ことを特徴とする請求項１に記載の文字認識装置。
記録媒体に描かれた画像を読み取る読取手段と、
前記読取手段により読み取られた画像を構成する各画素の色を表す画素値が記述された画像データを生成する生成手段と、
前記生成手段により生成された画像データに記述された画素値を二値化する二値化手段と、
前記生成手段により生成された画像データが表す画像において色の境界線を抽出する抽出手段と、
前記生成手段により生成された画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切る区切り手段と、
前記区切り手段により区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記規則に従って配列されてない画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段と、
前記指定手段により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段と
を具備することを特徴とする画像読取装置。
コンピュータを、
画像を構成する各画素の色を表す画素値が記述された画像データを取得する取得手段と、
前記取得手段により取得された画像データに記述された画素値を二値化する二値化手段と、
前記取得手段により取得された画像データが表す画像において色の境界線を抽出する抽出手段と、
前記取得手段により取得された画像データが表す画像に対してラベリング処理を施し、当該画像を構成する画素のうち、互いに連結しており、かつ、その濃度差が予め定められた範囲内に収まる画素群を複数抽出し、その複数の画素群それぞれについて外接する矩形を画像領域として区切る区切り手段と、
前記区切り手段により区切られた複数の画像領域のうち、決められた規則に従って配列されている複数の画像領域に対しては、前記二値化手段によって二値化された画素群を文字認識の対象として指定し、前記規則に従って配列されてない画像領域に対しては、前記抽出手段が抽出した境界線によって閉じられた領域内の画素群を文字認識の対象として指定する指定手段と、
前記指定手段により文字認識の対象として指定された画素群により表される文字を認識する文字認識手段と
して実現させるためのプログラム。