JP2018005397A

JP2018005397A - 画像処理装置、画像読取装置およびプログラム

Info

Publication number: JP2018005397A
Application number: JP2016128939A
Authority: JP
Inventors: 吉田　淳; Atsushi Yoshida; 淳吉田; 石井　博; Hiroshi Ishii; 石井　　博; 歩橋本; Ayumi Hashimoto; 雅征薮内; Masayuki Yabuuchi; 長瀬　将城; Masashiro Nagase; 将城長瀬; 橋本　英樹; Hideki Hashimoto; 英樹橋本; 直喜麻場; Naoki Asaba; 木崎　修; Osamu Kizaki
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2018-01-11

Abstract

【課題】文字の認識精度を維持しつつ、画像の読み取り、文字認識、照明光源の調整という処理の頻繁な切り替えを防ぎ、処理効率を向上させる。
【解決手段】複数の照明条件下における読取画像から文字領域を抽出する文字領域抽出部２８１と、前記文字領域抽出部２８１で抽出された前記複数の照明条件下における前記文字領域毎に含まれている文字の濃度に応じて、前記複数の照明条件下における前記読取画像のうち文字認識に用いる読取画像を決定する文字認識画像決定部２８４と、を備える。
【選択図】図６

Description

本発明は、画像処理装置、画像読取装置およびプログラムに関する。

従来、原稿台等の上に製本された原稿の見開きを上向きに載置し、原稿の読取面を上方から照明して、原稿を撮像することにより、原稿画像を読み取る画像読取装置が知られている。また、読取画像に含まれる文字を認識しテキストとして抽出する光学文字認識（ＯＣＲ（Optical Character Recognition））も知られている。

特許文献１には、読取画像に含まれる文字の認識精度を上げる目的で、例えば筆記具や筆圧などに起因して所定の濃度に達していない文字が存在する場合に、照明光源を調整することで読み取り濃度を変更する技術が開示されている。

しかしながら、特許文献１に開示の技術によれば、所定の濃度に達していない文字が存在する際に、照明光源を調整していたことが原因で、画像の読み取り、文字認識、照明光源の調整という処理の切り替えが頻繁に起こり、処理効率が悪いという問題がある。

本発明は、上記に鑑みてなされたものであって、文字の認識精度を維持しつつ、画像の読み取り、文字認識、照明光源の調整という処理の頻繁な切り替えを防ぎ、処理効率を向上させることができる画像処理装置、画像読取装置およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、複数の照明条件下における読取画像から文字領域を抽出する文字領域抽出部と、前記文字領域抽出部で抽出された前記複数の照明条件下における前記文字領域毎に含まれている文字の濃度に応じて、前記複数の照明条件下における前記読取画像のうち文字認識に用いる読取画像を決定する文字認識画像決定部と、を備えることを特徴とする。

本発明によれば、文字の認識精度を維持しつつ、画像の読み取り、文字認識、照明光源の調整という処理の頻繁な切り替えを防ぎ、処理効率を向上させることができる、という効果を奏する。

図１は、第１の実施の形態にかかる画像読取装置の概要を例示する図である。図２は、画像読取装置におけるエリアセンサ及びその周辺の詳細を示す図である。図３は、画像読取装置のハードウェア構成を示すブロック図である。図４は、照明制御の方法について説明する図である。図５は、照明制御テーブルの一例を示す図である。図６は、画像処理デバイスの機能を示す機能ブロック図である。図７は、読取画像出力処理の流れを概略的に示すフローチャートである。図８は、各種の照明条件で読み取った画像の例を示す図である。図９は、文字領域抽出結果の例について説明する図である。図１０は、文字領域の情報の例について説明する図である。図１１は、文字類似度算出部における文字の類似判定の処理の流れを示すフローチャートである。図１２は、文字類似度算出部における文字の色・サイズ判定の処理の流れを示すフローチャートである。図１３は、文字サイズの算出例を示す図である。図１４は、文字サイズ一覧表の例を示す図である。図１５は、文字画素の判定の一例を示す図である。図１６は、文字類似度算出部における文字位置判定の処理の流れを示すフローチャートである。図１７は、文字領域抽出結果の一例を示す図である。図１８は、文字認識画像決定部における文字認識を適用する画像の決定処理の流れを示すフローチャートである。図１９は、結合領域のヒストグラム生成例を示す図である。図２０は、高濃度文字のコントラスト算出例を示す図である。図２１は、低濃度文字の画素数カウント例を示す図である。図２２は、第２の実施の形態にかかる画像形成装置の構成例を示す構成図である。

以下に添付図面を参照して、画像処理装置、画像読取装置およびプログラムの実施の形態を詳細に説明する。

（第１の実施の形態）
図１は、第１の実施の形態にかかる画像読取装置２０の概要を例示する図である。図１に示すように、画像読取装置２０は、二次元画像を撮像するエリアセンサ（カメラ）２１と、原稿を載置する原稿台２２と、原稿台２２に載置された原稿を照らす複数の照明ランプ２３と、エリアセンサ（カメラ）２１および照明ランプ２３を原稿台２２の上方で支持する支持部２４と、を備えている。

複数の照明ランプ２３は、エリアセンサ（カメラ）２１による上方からの読取画像に対する室内照明の写り込みの発生や、撮像者自身の影の写り込み（以後、外来影響）の発生を抑制する。

複数の照明ランプ２３は、ユーザのスキャン指示にあわせて点灯・消灯を行う。複数の照明ランプ２３は、点灯時、原稿台２２に上向きに置かれた原稿（例えば、製本された原稿）に対し、上方から順次に光を照射する。

エリアセンサ（カメラ）２１は、ＣＣＤ又はＣＭＯＳセンサなどの撮像素子である。エリアセンサ（カメラ）２１は、複数の照明ランプ２３による光の照射の際に、二次元画像を撮像する。

図２は、画像読取装置２０におけるエリアセンサ２１及びその周辺の詳細を示す図である。なお、図２は、図１に示したエリアセンサ２１などを下方から見た図となっている。エリアセンサ２１の周囲には、光源部２５が配置されている。

光源部２５は、２つの照明ブロック２５ａ〜２５ｂによって構成されている。照明ブロック２５ａ〜２５ｂは、それぞれ複数の照明ランプ２３を直線状に並設する。照明ブロック２５ａ〜２５ｂは、エリアセンサ２１を挟んで対向して配置されている。照明ブロック２５ａ〜２５ｂは、第１照射位置〜第２照射位置となっている。

照明ランプ２３は、例えばＬＥＤと導光レンズなどによって構成される。照明ランプ２３は、複数のＬＥＤなどによって構成されてもよい。

照明ブロック２５ａ〜２５ｂは、少なくとも撮像対象が製本された原稿である場合に、原稿の綴じ部の方向に対して略直交する第１照射位置及び第２照射位置それぞれから原稿に光を順次に照射する。

原稿台２２は、原稿をセット可能な範囲である原稿配置領域をユーザに対して明示する。ユーザは、原稿配置領域内に原稿をセットする。原稿台２２は、直交する２方向にそれぞれスライドして原稿を所定の方向に向ける２つのガイドなどが設けられてもよい。

画像読取装置２０は、ユーザが原稿台２２に上向きに置いた原稿（例えば、製本された原稿）に対し、スタートボタンの押下をトリガーとして、複数の照明ランプ２３によって上方から順次に光を照射する。そして、画像読取装置２０は、複数の照明ランプ２３によって光を照射する毎にエリアセンサ２１によって二次元画像を読み取る。

その後、ユーザが原稿のページを捲るとともにスタートボタンの押下動作を繰り返すことにより、画像読取装置２０は、連続して各ページの二次元画像を読み取る連続スキャンを実現する。

また、画像読取装置２０は、ページ毎に撮像された複数の二次元画像を合成することにより、１つの原稿画像を生成する。

さらに、画像読取装置２０は、読み取った画像データ（読取画像）をＰＣ４０などの外部デバイス（図３参照）へ送信したり、読み取った画像データ（読取画像）をＵＳＢメモリなどの記憶装置へ出力したりするように構成されてもよい。

ＰＣ４０は、文字認識部４１と、文書ファイル作成部４２と、を有している（図６参照）。文字認識部４１は、画像読取装置２０から送信された画像データ（読取画像）から文字を認識する。文書ファイル作成部４２は、画像読取装置２０から送信された画像データ（読取画像）に文字認識結果を埋め込んで文書ファイルを作成する。

図３は、画像読取装置２０のハードウェア構成を示すブロック図である。

図３に示すように、画像読取装置２０は、撮像部３１、光源部２５、記憶装置２６、制御部である制御デバイス２７、画像処理装置である画像処理デバイス２８、画像インターフェース（Ｉ／Ｆ）２９及び制御インターフェース（Ｉ／Ｆ）３０を有する。

撮像部３１は、上述したエリアセンサ２１を有する画像読取部である。撮像部３１は、制御デバイス２７の制御に応じて、露光時間、信号ゲインなどの撮像条件が設定され、シャッターＯＮ信号、動作モード（動画モード及び静止画モード）が設定される。

エリアセンサ２１が読取った読取画像データは、例えば撮像部３１内部に設けられたＡ／Ｄ変換回路によりデジタル信号に変換され、γ変換処理、デモザイク処理などが施されて分解色（ＲＧＢ）単位で制御デバイス２７へ出力される。エリアセンサ２１は、ＲＧＢではなく、ＹＵＶやＹＣｂＣｒのデータを出力するように構成されてもよい。このように、撮像部３１は、撮像対象を対向する位置から撮像し、二次元の画像として出力する。

また、エリアセンサ２１は、設定された動作モードに応じて出力する画像データを切り替える。例えば、エリアセンサ２１は、画像読取装置２０が待機状態である場合には、動画モードで動作し、予め設定されたフレームレート毎に撮像画像を外部に連続出力する。なお、動画モードでの撮像画像は、エリアセンサ２１の全有効画素から間引いて出力され、１撮像画像当たりのデータ容量が少なくされている。

画像読取装置２０が原稿の画像を読取る場合には、エリアセンサ２１は静止画モードで動作する。つまり、エリアセンサ２１は、シャッターＯＮ信号に同期して、設定された動作モードで読取画像を取得する。静止画モードでは、エリアセンサ２１の全有効画素データが出力される。静止画モードでの読取画像は、記憶装置２６に蓄積される。

制御デバイス２７は、画像読取装置２０を構成する各部の制御を行う。制御デバイス２７は、記憶装置２６における画像データの蓄積開始タイミング、読出しタイミング、ライトアドレス及びリードアドレスなどを制御する。制御デバイス２７は、エリアセンサ２１が静止画モードで撮像したＲＧＢの読取画像データを記憶装置２６に対して書き込む（又は読み出す）。

記憶装置２６は、画像データやパラメータを記憶する。記憶装置２６は、画像読取装置２０が複数の照明ランプ２３の点灯状態を切り替えて、１つの原稿読み取りに対して複数回の読取画像の取得を行うために設けられている。

制御デバイス２７は、光源部２５の各照明ランプ２３が点灯及び消灯するタイミング、撮像部３１が撮像するタイミング、及び画像読取装置２０に対する設定などを制御する。具体的には、制御デバイス２７は、光源部２５の照明ブロック２５ａが第１照射位置から原稿に光を照射し、原稿により光を正反射させた場合に、撮像部３１が撮像するように制御する。また、制御デバイス２７は、光源部２５の照明ブロック２５ｂが第２照射位置から原稿に光を照射し、原稿により光を正反射させた場合に、撮像部３１が撮像するように制御する。

加えて、制御デバイス２７は、光源部２５の各照明ランプ２３の照明強度を制御する。ここで、図４は照明制御の方法について説明する図である。ここでは、照明強度（明るさ）を制御する方法の１つであるＰＷＭ（Pulse Width Modulation）について説明する。図４に示すように、ＰＷＭは、光源部２５の各照明ランプ２３の点灯と消灯を高速で切り替え、その時間を調整することで明るさを制御する方式である。光源部２５の各照明ランプ２３の点灯／消灯の１サイクルのうち、点灯している時間の比をＤｕｔｙ比と呼ぶ。

図４（ａ）は、光源部２５の各照明ランプ２３の点灯周期を表したものである。図４（ａ）中の横軸は時間、縦軸はＯＮ／ＯＦＦを表している。図４（ｂ）は、図４（ａ）に示す点灯周期で点灯した場合の見た目の明るさを表したものである。図４（ｂ）に示すように、Ｄｕｔｙ比が高くなるほど見た目の明るさが明るくなることが分かる。

本実施形態において制御デバイス２７は、光源部２５の各照明ランプ２３の照明の明るさを制御するために、照明制御テーブルを用いる。ここで、図５は照明制御テーブルＴ１の一例を示す図である。図５に示すように、照明制御テーブルＴ１は、照明条件ＩＤに対応付けて、画像を読み取る点灯パターンを予め記憶する。図５に示すように、点灯パターンは、１サイクルの間の時間をビット数で区切って表している。点灯パターンは、“１”が設定されたタイミングで点灯することを表し、“０”が設定されたタイミングで消灯することを表している。つまり、全てのビットが“０”であった場合にＤｕｔｙ比が「０」で最も暗くなる。一方、全てのビットが“１”であった場合にＤｕｔｙ比が「１．０」で最も明るくなる。

なお、図５に示す照明制御テーブルＴ１において規定される照明条件は、想定される文字の態様について、それぞれ最適に読み取ることができるように決定される。例えば、想定される文字の態様は、図５に示す照明制御テーブルＴ１においては、「照明条件１」が蛍光ペン、「照明条件２」が鉛筆などの薄い手書き文字、「照明条件３」がボールペンなどの濃い手書き文字、「照明条件４」が通常サイズの印刷文字、「照明条件５」が太文字である。

なお、ＰＣ４０における文字認識の精度を上げたい場合は、ＰＷＭ制御の分解能を上げ、照明条件のパターンを増やせば良い。これにより、様々な種類の文字に対応した最適な読取画像を取得することが可能となる。

画像処理デバイス２８は、複数回に分けて撮像された複数の画像を合成する合成部３２を有する。また、画像処理デバイス２８は、複数回に分けて撮像された複数の画像の明暗差の補正なども行う。画像処理デバイス２８は、例えばＪＰＥＧなどの圧縮方式により、画像データをエンコードする。

画像Ｉ／Ｆ２９は、所定のデータ形式で画像データをＰＣ４０などの外部デバイスに対して出力する。制御Ｉ／Ｆ３０は、ＰＣ４０などの外部デバイスから受入れた指示等を、制御デバイス２７に対して出力する。

例えば、画像読取装置２０は、ＰＣ４０などの外部デバイスからユーザが入力する画像の読み取りの実行、動作設定等の指示を制御Ｉ／Ｆ３０を介して受入れる。

上述した制御デバイス２７や画像処理デバイス２８は、ＣＰＵ（Central Processing Unit）にソフトウェア（プログラム）を実行させること、すなわち、ソフトウェア（プログラム）により実現してもよいし、ＩＣ（Integrated Circuit）などハードウェアにより実現してもよいし、ソフトウェア（プログラム）およびハードウェアを併用して実現してもよい。

制御デバイス２７や画像処理デバイス２８の一部または全部をソフトウェア（プログラム）により実現する場合、本実施の形態の画像読取装置２０は、ＣＰＵなどの制御装置と、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）などの記憶装置と、ＨＤＤ（Hard Disk Drive）や媒体ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。

本実施形態の画像読取装置２０で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、本実施形態の画像読取装置２０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の画像読取装置２０で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

また、本実施形態の画像読取装置２０で実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

本実施の形態の画像読取装置２０で実行されるプログラムは、上述した各部（制御デバイス２７、画像処理デバイス２８）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、制御デバイス２７、画像処理デバイス２８が主記憶装置上に生成されるようになっている。

次に、画像処理デバイス２８が発揮する機能のうち、特徴的な機能について説明する。

ここで、図６は画像処理デバイス２８の機能を示す機能ブロック図である。図６に示すように、画像処理デバイス２８は、文字領域抽出部２８１と、文字類似度算出部２８２と、文字領域結合部２８３と、文字認識画像決定部２８４と、を備えている。

文字領域抽出部２８１は、合成部３２で合成された複数の照明条件での読取画像から文字の領域を抽出する。

文字類似度算出部２８２は、文字領域抽出部２８１で抽出された各文字領域を表す矩形サイズ、文字領域の平均画素値、文字領域を表す矩形内の文字画素比の少なくとも何れか一つに基づいて、文字色および文字サイズについての類似度を算出する。このように類似度を算出することにより、各文字領域に含まれる文字が類似文字かどうかを判定することができる。

また、文字類似度算出部２８２は、文字領域抽出部２８１で抽出された各文字領域の端部座標（右端座標、左端座標）の距離と文字領域の中心座標の距離との少なくとも何れか一つに基づいて、文字位置についての類似度を算出する。このように類似度を算出することにより、各文字領域の段組みが類似しているかどうかを判定することができる。

文字領域結合部２８３は、文字領域抽出部２８１で抽出された各文字領域に含まれる文字について、文字類似度算出部２８２で算出した類似度に応じて同一種類の文字同士を結合する。

文字認識画像決定部２８４は、文字領域結合部２８３で結合した複数の照明条件下における各結合文字領域毎に含まれている文字の濃度に応じて、複数の照明条件での読取画像のうち文字認識に最適な画像を決定する。

次に、画像読取装置２０による読取画像出力処理について説明する。

ここで、図７は画像読取装置２０による読取画像出力処理の流れを概略的に示すフローチャートである。例えばスタートボタンの押下をトリガーとして、図７に示すように、画像読取装置２０の制御デバイス２７は、照明制御テーブルＴ１の照明条件を取得して光源部２５の照明ブロック２５ａを点灯制御するとともに、撮像部３１を制御して二次元画像を読み取る（ステップＳ１）。これにより、画像読取装置２０は、ユーザが原稿台２２に上向きに置いた原稿（例えば、製本された原稿）に対して、照明ブロック２５ａの照明ランプ２３によって照明条件に従った明るさの光を照射して、画像を読み取る。

また、制御デバイス２７は、照明制御テーブルＴ１の照明条件を取得して光源部２５の照明ブロック２５ｂを点灯制御するとともに、撮像部３１を制御して二次元画像を読み取る（ステップＳ２）。これにより、画像読取装置２０は、ユーザが原稿台２２に上向きに置いた原稿（例えば、製本された原稿）に対して、照明ブロック２５ｂの照明ランプ２３によって照明条件に従った明るさの光を照射して、画像を読み取る。

次いで、画像処理デバイス２８の合成部３２は、２回に分けて撮像された複数の二次元画像を合成することにより、１つの原稿画像を生成して記憶装置２６に記憶する（ステップＳ３）。

次いで、制御デバイス２７は、照明制御テーブルＴ１の全ての照明条件で撮像が完了しているかを判定する（ステップＳ４）。

制御デバイス２７は、照明制御テーブルＴ１の全ての照明条件で撮像が完了していないと判定した場合（ステップＳ４のＮｏ）、ステップＳ１に戻り、次の照明条件を設定・点灯、画像の読み取りを行う。

一方、制御デバイス２７は、照明制御テーブルＴ１の全ての照明条件で撮像が完了していると判定した場合（ステップＳ４のＹｅｓ）、ステップＳ５に進む。

ここで、図８は各種の照明条件で読み取った画像の例を示す図である。図８（ａ）に示すように暗い照明で読み取った画像においては、文字の途切れが防げるため、低濃度の文字や線幅の細い文字の認識に優れている。逆に、図８（ｅ）に示すように明るい照明で読み取った画像においては、コントラストが高く、文字の潰れも防げるため、高濃度の文字や線幅の太い文字の認識に有利である。

続いて、画像処理デバイス２８（文字領域抽出部２８１）は、標準照明条件で読み取った画像より文字領域を抽出する（ステップＳ５）。標準照明条件とは、通常の印刷、表示向けの画像を読み取る時の照明条件である。ここでは、標準照明条件を照明制御テーブルＴ１の「照明条件３」とする。

なお、文字領域抽出部２８１における文字領域の抽出には、二値画像の黒画素の連結成分を用いる方法（特開２０００−０６７１８５号公報参照）や、文字色や文字同士の位置関係を用いてさらに高精度に抽出する方法（特開２００５−００４３３４号公報参照）など種々の既知の技術を用いることができる。

図９は、文字領域抽出結果の例について説明する図である。図９に示すように、文字領域は、矩形ａ−ｇとして抽出される。

図１０は、文字領域の情報の例について説明する図である。抽出された文字領域に関する情報は、各文字領域の矩形の原点、幅、高さである。また、領域判定フラグ、比較領域フラグも有している。図１０に示すように、文字領域に関する情報は、各文字領域を識別するＩＤが付与されて記憶される。領域判定フラグは、各文字領域が含まれる結合文字領域のＩＤを表し、文字が類似している領域には同じＩＤが割り当てられる。比較領域フラグは、現在設定されている基準領域に対して比較領域として文字類似の判定が行われたかどうかを表し、処理が完了した文字領域には“１”が設定される。

次いで、画像処理デバイス２８（文字類似度算出部２８２）は、抽出した各文字領域に含まれる文字の色やサイズ、位置に基づき文字の類似かどうかを判定する（ステップＳ６）。

ここで、図１１は文字類似度算出部２８２における文字の類似判定の処理の流れを示すフローチャートである。図１１に示すように、文字類似度算出部２８２は、まず、ステップＳ５で抽出された文字領域の中から１つを基準領域として取得する（ステップＳ２１）。例えば、基準領域の文字領域のＩＤを“３”とする。

次に、文字類似度算出部２８２は、取得した文字領域に対して領域判定フラグを設定する（ステップＳ２２）。具体的には、最初に取得した文字領域に対しては、初期値として“１”を設定する。以降、取得した文字領域に対して、既存の値に対してインクリメントした値を設定する。

次に、文字類似度算出部２８２は、基準領域として取得した文字領域以外の１つを比較領域として取得する（ステップＳ２３）。

次に、文字類似度算出部２８２は、基準領域と比較領域に含まれる文字の色・サイズが類似しているかを判定する（ステップＳ２４）。

ここで、図１２は文字類似度算出部２８２における文字の色・サイズ判定の処理の流れを示すフローチャートである。図１２に示すように、文字類似度算出部２８２は、基準領域と比較領域の矩形の幅と高さをそれぞれ取得する（ステップＳ４１）。図１０に示したように各文字領域の矩形の幅と高さは記憶されているので、これを取得してくれば良い。

次に、文字類似度算出部２８２は、取得した幅と高さのうち小さい方を文字サイズとして設定する（ステップＳ４２）。

ここで、図１３は文字サイズの算出例を示す図である。図１３に示すように、ｗは抽出された文字領域の幅、ｈは文字領域の高さを示している。図１３（ａ）に示す横書きの例では、
ｈ＜ｗ
となるため、高さが選択される。この高さは、１文字分のサイズとなっている。一方、図１３（ｂ）に示す横書きの例では、
ｗ＜ｈ
となるため、幅が選択される。この幅は、１文字分のサイズとなっている。このように行単位で文字領域が抽出されている場合、基本的に幅、高さのうち小さい方を文字サイズ相当とみなすことができる。

次に、文字類似度算出部２８２は、基準領域と比較領域の文字サイズの差が閾値以下かどうか判定する（ステップＳ４３）。ここで、図１４は文字サイズ一覧表の例を示す図である。図１４に示すように、一般的に使用される文字のサイズを一覧として記憶しておき、ステップＳ４２で設定した文字サイズに近いものを選択する。同様に、比較領域の文字サイズに近いものも選択し、同じサイズが選択されたかどうかで判定する。なお、読取解像度によっては誤差が発生するため、上下１つまではずれることを許容するように閾値を設定しても良い。

文字類似度算出部２８２は、基準領域と比較領域の文字サイズの差が閾値以下であると判定した場合（ステップＳ４３のＹｅｓ）、ステップＳ４４に進む。

次に、文字類似度算出部２８２は、基準領域と比較領域の文字画素を取得する（ステップＳ４４）。ここで、図１５は文字画素の判定の一例を示す図である。図１５に示すように、任意の文字領域に対し、ヒストグラムを生成する。横軸ｓｉｇは信号値、縦軸ｐｎはその信号値を取る画素数を表している。このヒストグラムと原稿の地肌レベルｔとから、信号値がｔ以上の画素は背景、信号値がｔ未満の画素は文字として判定する。

次に、文字類似度算出部２８２は、文字画素の平均画素値を求める（ステップＳ４５）。

次に、文字類似度算出部２８２は、基準領域と比較領域の平均画素値の比が閾値以下かどうか判定する（ステップＳ４６）。閾値は読み取りむらを考慮して、１０％までは許容するなど適宜設定して良い。

文字類似度算出部２８２は、基準領域と比較領域の平均画素値の比が閾値以下と判定した場合（ステップＳ４６のＹｅｓ）、ステップＳ４７に進む。

次に、文字類似度算出部２８２は、基準領域と比較領域の矩形領域内における文字画素数比を算出する（ステップＳ４７）。文字画素数比ｒは、二値化閾値以下の画素数Ｐｃをカウントし、その画素数と矩形の幅ｗ、高さｈから、下記式により算出することができる。
ｒ＝Ｐｃ／（ｗ×ｈ）

次に、文字類似度算出部２８２は、基準領域と比較領域の画素数比の差が閾値以下かどうか判定する（ステップＳ４８）。文字画素数は文字の線幅によって変わり、これにより文字の線幅同等か判定できる。なお、線幅同じでも行内に含まれる文字によって差が出るため、閾値は、差分０．１までは許容するなど適宜設定して良い。

文字類似度算出部２８２は、基準領域と比較領域の画素数比の差が閾値以下と判定した場合（ステップＳ４８のＹｅｓ）、ステップＳ４９に進む。

次に、文字類似度算出部２８２は、全ての条件を満たす場合、文字条件が一致と判定し、文字の色・サイズが類似しているとする（ステップＳ４９）。

一方、文字類似度算出部２８２は、基準領域と比較領域の文字サイズの差が閾値以下でないと判定した場合（ステップＳ４３のＮｏ）、基準領域と比較領域の平均画素値の比が閾値以下でないと判定した場合（ステップＳ４６のＮｏ）、基準領域と比較領域の画素数比の差が閾値以下でないと判定した場合（ステップＳ４８のＮｏ）、文字条件が不一致と判定し、文字の色・サイズが類似していないとする（ステップＳ５０）。

以上により、文字類似度算出部２８２は、ステップＳ２４において基準領域と比較領域に含まれる文字の色・サイズが類似しているかを判定することができる。

図１１に戻り、文字類似度算出部２８２は、基準領域と比較領域に含まれる文字の色・サイズが類似していると判定した場合（ステップＳ２５のＹｅｓ）、ステップＳ２６に進む。

一方、文字類似度算出部２８２は、基準領域と比較領域に含まれる文字の色・サイズが類似していないと判定した場合（ステップＳ２５のＮｏ）、ステップＳ３２に進む。

次に、文字類似度算出部２８２は、基準領域と比較領域に含まれる文字位置が類似する位置かどうか判定を行う（ステップＳ２６）。

ここで、図１６は文字類似度算出部２８２における文字位置判定の処理の流れを示すフローチャートである。図１６に示すように、文字類似度算出部２８２は、基準領域と比較領域の中心画素の位置を取得する（ステップＳ６１）。中心画素の位置｛Ｘｃ，Ｙｃ｝は、図１０に示した文字領域情報の原点｛Ｘｏｒｉ，Ｙｏｒｉ｝、幅ｗ、高さｈから下記式により求めることができる。
Ｘｃ＝Ｘｏｒｉ＋ｗ／２
Ｙｃ＝Ｙｏｒｉ＋ｈ／２

次に、文字類似度算出部２８２は、基準領域と比較領域の中心画素のＹ座標の差が行判定閾値以下か判定する（ステップＳ６２）。ここで、図１７は文字領域抽出結果の一例を示す図である。図１７に示す例で説明すると、同一行である文字領域ｈと文字領域ｊとのＹｃを比較することとなる。この条件によって、同一行に並んだ同一種類の文字を同じ結合文字領域として判定することができる。行判定閾値は、本来は同一Ｙ座標に並ぶので０となるはずだが、読み取りムラや設置時の傾きによりずれる可能性も考慮して、文字サイズの５％まで許容するなどと設定しても良い。

文字類似度算出部２８２は、判定の結果、行判定閾値以下である場合（ステップＳ６２のＹｅｓ）、ステップＳ６６に進む。

一方、文字類似度算出部２８２は、判定の結果、行判定閾値以下でない場合（ステップＳ６２のＮｏ）、ステップＳ６３に進む。

次に、文字類似度算出部２８２は、基準領域と比較領域の中心画素のＹ座標の差が行間判定閾値以下か判定する（ステップＳ６３）。図１７に示す例で説明すると、並列に並んだ連続した行である文字領域ｈと文字領域ｋとのＹｃを比較することとなる。この条件によって、連続した行の同一種類の文字を同じ結合文字領域として判定することができる。行間判定閾値は［許容する行数］×［文字サイズ］として、本来は２行程度に設定するのが一般的だが、対象となりうる原稿を考慮して適宜設定すればよい。

文字類似度算出部２８２は、判定の結果、行間判定閾値以下である場合（ステップＳ６３のＹｅｓ）、ステップＳ６４に進む。

一方、文字類似度算出部２８２は、判定の結果、行間判定閾値以下でない場合（ステップＳ６３のＮｏ）、ステップＳ６７に進む。

次に、文字類似度算出部２８２は、基準領域と比較領域の左右位置を算出する（ステップＳ６４）。左位置ＸＬ、右位置ＸＲは、下記式により求めることができる。
ＸＬ＝Ｘｏｒｉ
Ｘｒ＝Ｘｏｒｉ＋ｗ

次に、文字類似度算出部２８２は、基準領域と比較領域の左、右、中心の座標の差が閾値以下か判定する（ステップＳ６５）。図１７に示す例で説明すると、文字領域ｈと文字領域ｋとのＸＬ、ＸＲ、Ｘｃを比較することとなる。この条件を満たせば、同じＸ座標の基準位置での同一種類の文字を同じ結合文字領域として判定することができる。閾値はインデントを考慮して［１．５文字］×［文字サイズ］に設定するのが一般的だが、文字数は適宜設定して良い。

文字類似度算出部２８２は、判定の結果、閾値以下である場合（ステップＳ６５のＹｅｓ）、ステップＳ６６に進み、位置条件を満たすと判定する。

一方、文字類似度算出部２８２は、判定の結果、閾値以下でない場合（ステップＳ６５のＮｏ）、ステップＳ６７に進み、位置条件を満たさないと判定する。

以上により、文字類似度算出部２８２は、ステップＳ２６において基準領域と比較領域に含まれる文字位置が類似する位置かどうか判定することができる。

図１１に戻り、文字類似度算出部２８２は、文字位置が類似する位置でないと判定した場合（ステップＳ２７のＮｏ）、ステップＳ３２に進む。

一方、文字類似度算出部２８２は、文字位置が類似する位置であると判定した場合（ステップＳ２７のＹｅｓ）、ステップＳ２８に進む。

次に、文字類似度算出部２８２は、比較領域の領域判定フラグを取得する（ステップＳ２８）。

次に、文字類似度算出部２８２は、ステップＳ２８で取得した領域判定フラグが初期値“０”の場合、領域判定フラグが未設定として（ステップＳ２９のＹｅｓ）、ステップ３０に進み、比較領域に基準領域の領域判定フラグを設定する。

次に、文字類似度算出部２８２は、ステップＳ２８で取得した領域判定フラグが初期値“０”以外の場合、設定済みとして（ステップＳ２９のＮｏ）、ステップ３１へ進み、基準領域に比較領域の領域判定フラグを設定する。

次に、文字類似度算出部２８２は、全文字領域を比較対象領域として処理済みかの判定を行う（ステップＳ３２）。具体的には、文字類似度算出部２８２は、図１０に示す比較領域フラグを確認する。

文字類似度算出部２８２は、フラグが０の処理済みでない文字領域があった場合は（ステップＳ３２のＮｏ）、ステップＳ２３に戻り、新たな文字領域を比較対象領域として取得し、ステップＳ２４−Ｓ３１の処理を行う。

一方、文字類似度算出部２８２は、全ての文字領域が処理済みと判定した場合（ステップＳ３２のＹｅｓ）、ステップＳ３３に進む。

次に、文字類似度算出部２８２は、全文字領域で領域判定フラグが設定済みかどうかの判定を行う（ステップＳ３３）。

文字類似度算出部２８２は、全ての文字領域の領域判定フラグを確認し、判定済みの場合（ステップＳ３３のＹｅｓ）、文字の類似判定処理を終了する。

一方、文字類似度算出部２８２は、判定済みでない場合（ステップＳ３３のＮｏ）、ステップＳ３４に進み、領域判定フラグが未設定の文字領域を基準領域に設定する。

その後、文字類似度算出部２８２は、ステップＳ２２に戻り、設定済みの領域判定フラグにインクリメントした値を設定し、ステップＳ２３−Ｓ３３の処理を行う。

以上により、文字類似度算出部２８２は、ステップＳ６において抽出した各文字領域に含まれる文字の色やサイズ、位置に基づき文字の類似かどうかを判定することができる。

図７に戻り、画像処理デバイス２８（文字領域結合部２８３）は、ステップＳ６で類似していると判定された文字領域同士を結合する（ステップＳ７）。文字領域結合部２８３は、文字類似度算出部２８２で算出した類似度に応じて同一種類の文字同士を結合する。

次に、画像処理デバイス２８（文字認識画像決定部２８４）は、複数の照明条件の読取画像を全て取得する（ステップＳ８）。

次に、文字認識画像決定部２８４は、結合した文字領域のうち１つの結合文字領域を取得する（ステップＳ９）。

次に、文字認識画像決定部２８４は、複数の照明条件の読取画像から、現在の結合文字領域の文字認識を適用する画像を決定する（ステップＳ１０）。

ここで、図１８は文字認識画像決定部２８４における文字認識を適用する画像の決定処理の流れを示すフローチャートである。図１８に示すように、文字認識画像決定部２８４は、標準照明条件の読取画像を取得する（ステップＳ７１）。

次に、文字認識画像決定部２８４は、図７におけるステップＳ９で取得した１つの結合文字領域内の画素値よりヒストグラムを生成する（ステップＳ７２）。ここで、図１９は結合領域のヒストグラム生成例を示す図である。図１９（ａ）に示すように、読取画像内に４つの結合文字領域ａ，ｂ，ｋ，ｘが含まれている。それぞれの領域において生成されるヒストグラムは、図１９（ｂ）に示される。

次に、文字認識画像決定部２８４は、各結合文字領域内に含まれている文字が、高濃度か低濃度かを判定する（ステップＳ７３）。例えば、文字認識画像決定部２８４は、高濃度か低濃度かについて、ヒストグラムが地肌レベルｔ以下で極大値を持つかどうかで判定する。すなわち、文字認識画像決定部２８４は、極大値を持つ場合は高濃度文字、持たない場合は低濃度文字と判定する。このように高濃度と低濃度とを判定して、文字認識用画像の決定方法を変えることで、より最適な画像を選択できる。

次に、文字認識画像決定部２８４は、複数の照明条件で読み取られた読取画像のうち１つの画像を取得する（ステップＳ７４）。

文字認識画像決定部２８４は、ステップＳ７３の文字濃度判定で高濃度文字と判定された結合文字領域の場合（ステップＳ７５のＹｅｓ）、ステップＳ７６へ進む。

一方、文字認識画像決定部２８４は、ステップＳ７３の文字濃度判定で低濃度文字と判定された結合文字領域の場合（ステップＳ７５のＮｏ）、ステップＳ７８へ進む。

次に、文字認識画像決定部２８４は、取得した読取画像の結合文字領域内のヒストグラムを生成する（ステップＳ７６）。

次に、文字認識画像決定部２８４は、背景部最頻値と文字部最頻値とのコントラストを算出する（ステップＳ７７）。ここで、図２０は高濃度文字のコントラスト算出例を示す図である。図２０に示すように、各読取画像の地肌レベルｔ以上の領域が背景部となり、その最頻値はｂとなる。一方、地肌レベルｔ未満の領域が文字部となり、その最頻値はｃとなる。このｂとｃの値を用いたコントラストｃｏｎは、以下の式で算出される。
ｃｏｎ＝（ｂ−c）／（ｂ＋ｃ）

次に、文字認識画像決定部２８４は、地肌レベルｔ未満の画素値の画素数をカウントする（ステップＳ７８）。ここで、図２１は低濃度文字の画素数カウント例を示す図である。図２１に示すように、各読取画像の地肌レベルｔと最少画素値ｍとを各画素の画素値と比較して、範囲内の画素をカウントしていく。

次に、文字認識画像決定部２８４は、全読取画像に対しての算出処理が完了していれば（ステップＳ７９のＹｅｓ）、ステップＳ８０に進み、各読取画像のうち、高濃度文字であればコントラスト最大となった画像を、低濃度文字であれば地肌レベルｔ未満の画素数が最大の画像を、対象の結合文字領域の文字認識適用画像に決定する。図２０の例では上から２番目の画像が、図２１の例では上から３番目の画像がそれぞれ選ばれる。

一方、文字認識画像決定部２８４は、全読取画像に対しての算出処理が完了していなければ（ステップＳ７９のＮｏ）、ステップＳ７４に戻って次の読取画像を取得し、ステップＳ７５−Ｓ７８の処理を繰り返す。

以上により、文字認識画像決定部２８４は、ステップＳ１０において複数の照明条件の読取画像から、現在の結合文字領域の文字認識を適用する画像を決定することができる。

図７に戻り、文字認識画像決定部２８４は、全結合文字領域に対して文字認識適用画像を決定したかを判定する（ステップＳ１１）。

文字認識画像決定部２８４は、全結合文字領域に対して文字認識適用画像を決定したと判定した場合（ステップＳ１１のＹｅｓ）、処理を終了する。

一方、文字認識画像決定部２８４は、全結合文字領域に対して文字認識適用画像を決定していないと判定した場合（ステップＳ１１のＮｏ）、ステップＳ９に戻り次の結合文字領域を取得し、ステップＳ１０の処理を実行する。

したがって、ＰＣ４０の文字認識部４１は、ステップＳ１０で決定された文字認識適用画像を用いて文字認識を実行する。そして、ＰＣ４０の文書ファイル作成部４２は、文字認識の結果を読取画像に埋め込み文書ファイルを作成する。

このように本実施の形態によれば、複数の照明条件下における読取画像から文字領域を抽出し、抽出された複数の照明条件下における文字領域毎に含まれている文字の濃度に応じて、複数の照明条件下における読取画像のうち文字認識に用いる読取画像を決定することにより、文字の認識精度を維持しつつ、画像の読み取り、文字認識、照明光源の調整という処理の頻繁な切り替えを防ぎ、処理効率を向上させることができる。

また、本実施の形態によれば、類似度に応じて同一種類の文字同士を予め結合してから、結合した結合文字領域を処理対象である文字領域とすることにより、処理効率を向上させることができる。

（第２の実施の形態）
次に、第２の実施の形態について説明する。なお、前述した第１の実施の形態と同じ部分は同じ符号で示し説明も省略する。

本実施形態は、画像読取装置２０を有する画像形成装置４００について説明するものである。

ここで、図２２は、第２の実施の形態にかかる画像形成装置４００の構成例を示す構成図である。図２２に示すように、画像形成装置４００は、給紙部４０３及び画像形成装置本体４０４を有し、上部に例えば画像読取装置２０が搭載されたデジタル複写機である。

画像形成装置本体４０４内には、タンデム方式の作像部４０５と、給紙部４０３から搬送路４０７を介して供給される記録紙を作像部（画像形成部）４０５に搬送するレジストローラ４０８と、光書き込み装置４０９と、定着搬送部４１０と、両面トレイ４１１とが設けられている。

作像部４０５には、Ｙ，Ｍ，Ｃ，Ｋの４色のトナーに対応して４本の感光体ドラム４１２が並設されている。各感光体ドラム４１２の回りには、帯電器、現像器４０６、転写器、クリーナ、及び除電器を含む作像要素が配置されている。

また、転写器と感光体ドラム４１２との間には両者のニップに挟持された状態で駆動ローラと従動ローラとの間に張架された中間転写ベルト４１３が配置されている。

このように構成されたタンデム方式の画像形成装置４００は、Ｙ，Ｍ，Ｃ，Ｋの色毎に各色に対応する感光体ドラム４１２に光書き込みを行い、現像器４０６で各色のトナー毎に現像し、中間転写ベルト４１３上に例えばＹ，Ｍ，Ｃ，Ｋの順に１次転写を行う。

そして、画像形成装置４００は、１次転写により４色重畳されたフルカラーの画像を記録紙に２次転写した後、定着して排紙することによりフルカラーの画像を記録紙上に形成する。また、画像形成装置４００は、画像読取装置２０が読取った画像を記録紙上に形成する。

以上、各実施形態について説明したが、それらの各部の具体的な構成、処理の内容、データの形式等は、実施形態で説明したものに限るものではない。また、以上説明してきた実施形態の構成は、相互に矛盾しない限り任意に組み合わせて実施可能であることは勿論である。

２０画像読取装置
２５光源部
２７制御部
２８画像処理装置
３１画像読取部
２８１文字領域抽出部
２８２文字類似度算出部
２８３文字領域結合部
２８４文字認識画像決定部

特開平７−１２９７１９号公報

Claims

複数の照明条件下における読取画像から文字領域を抽出する文字領域抽出部と、
前記文字領域抽出部で抽出された前記複数の照明条件下における前記文字領域毎に含まれている文字の濃度に応じて、前記複数の照明条件下における前記読取画像のうち文字認識に用いる読取画像を決定する文字認識画像決定部と、
を備えることを特徴とする画像処理装置。
前記文字領域抽出部で抽出された前記文字領域に含まれる文字の類似度を算出する文字類似度算出部と、
前記文字領域抽出部で抽出された前記文字領域に含まれる文字について、前記文字類似度算出部で算出した類似度に応じて同一種類の文字同士を結合した結合文字領域を生成する文字領域結合部と、
を備え、
前記文字認識画像決定部は、前記文字領域結合部で結合した前記結合文字領域を処理対象である前記文字領域とする、
ことを特徴とする請求項１に記載の画像処理装置。
前記文字類似度算出部は、前記文字領域を表す矩形サイズと前記文字領域の平均画素値と前記文字領域を表す矩形内の文字画素比とに基づいて、文字色および文字サイズについての類似度を算出する、
ことを特徴とする請求項２に記載の画像処理装置。
前記文字類似度算出部は、前記文字領域の端部座標の距離と前記文字領域の中心座標の距離とに基づいて、文字位置についての類似度を算出する、
ことを特徴とする請求項２または３に記載の画像処理装置。
前記文字認識画像決定部は、前記文字領域のヒストグラムが前記読取画像の地肌レベル未満で極大値を持つ場合は高濃度文字、前記地肌レベル未満で極大値を持たない場合は低濃度文字とする、
ことを特徴とする請求項１ないし４の何れか一項に記載の画像処理装置。
前記文字認識画像決定部は、前記高濃度文字と判定された文字領域において前記地肌レベル以上の領域と前記地肌レベル未満の領域とのコントラストが最大の読取画像を、文字認識に用いる読取画像として決定する、
ことを特徴とする請求項５に記載の画像処理装置。
前記文字認識画像決定部は、前記低濃度文字と判定された文字領域において前記地肌レベル未満の領域の画素数が最大となる画像を、文字認識に用いる読取画像として決定する、
ことを特徴とする請求項５または６に記載の画像処理装置。
文字原稿に光を照射する光源部と、
前記光源部の照明強度を制御し、複数の照明条件を実現する制御部と、
前記制御部の制御による前記複数の照明条件毎に、前記光源部から光を照射された前記文字原稿を読み取った読取画像を得る画像読取部と、
請求項１ないし７の何れか一項に記載の画像処理装置と、
を備えることを特徴とする画像読取装置。
コンピュータを、
複数の照明条件下における読取画像から文字領域を抽出する文字領域抽出部と、
前記文字領域抽出部で抽出された前記複数の照明条件下における前記文字領域毎に含まれている文字の濃度に応じて、前記複数の照明条件下における前記読取画像のうち文字認識に用いる読取画像を決定する文字認識画像決定部と、
として機能させるためのプログラム。