JP2018005397A - 画像処理装置、画像読取装置およびプログラム - Google Patents

画像処理装置、画像読取装置およびプログラム Download PDF

Info

Publication number
JP2018005397A
JP2018005397A JP2016128939A JP2016128939A JP2018005397A JP 2018005397 A JP2018005397 A JP 2018005397A JP 2016128939 A JP2016128939 A JP 2016128939A JP 2016128939 A JP2016128939 A JP 2016128939A JP 2018005397 A JP2018005397 A JP 2018005397A
Authority
JP
Japan
Prior art keywords
character
image
unit
region
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016128939A
Other languages
English (en)
Inventor
吉田 淳
Atsushi Yoshida
淳 吉田
石井 博
Hiroshi Ishii
石井  博
歩 橋本
Ayumi Hashimoto
歩 橋本
雅征 薮内
Masayuki Yabuuchi
雅征 薮内
長瀬 将城
Masashiro Nagase
将城 長瀬
橋本 英樹
Hideki Hashimoto
英樹 橋本
直喜 麻場
Naoki Asaba
直喜 麻場
木崎 修
Osamu Kizaki
修 木崎
直輝 郷
Naoteru Go
直輝 郷
雅文 岸
Masafumi Kishi
雅文 岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2016128939A priority Critical patent/JP2018005397A/ja
Publication of JP2018005397A publication Critical patent/JP2018005397A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】文字の認識精度を維持しつつ、画像の読み取り、文字認識、照明光源の調整という処理の頻繁な切り替えを防ぎ、処理効率を向上させる。
【解決手段】複数の照明条件下における読取画像から文字領域を抽出する文字領域抽出部281と、前記文字領域抽出部281で抽出された前記複数の照明条件下における前記文字領域毎に含まれている文字の濃度に応じて、前記複数の照明条件下における前記読取画像のうち文字認識に用いる読取画像を決定する文字認識画像決定部284と、を備える。
【選択図】図6

Description

本発明は、画像処理装置、画像読取装置およびプログラムに関する。
従来、原稿台等の上に製本された原稿の見開きを上向きに載置し、原稿の読取面を上方から照明して、原稿を撮像することにより、原稿画像を読み取る画像読取装置が知られている。また、読取画像に含まれる文字を認識しテキストとして抽出する光学文字認識(OCR(Optical Character Recognition))も知られている。
特許文献1には、読取画像に含まれる文字の認識精度を上げる目的で、例えば筆記具や筆圧などに起因して所定の濃度に達していない文字が存在する場合に、照明光源を調整することで読み取り濃度を変更する技術が開示されている。
しかしながら、特許文献1に開示の技術によれば、所定の濃度に達していない文字が存在する際に、照明光源を調整していたことが原因で、画像の読み取り、文字認識、照明光源の調整という処理の切り替えが頻繁に起こり、処理効率が悪いという問題がある。
本発明は、上記に鑑みてなされたものであって、文字の認識精度を維持しつつ、画像の読み取り、文字認識、照明光源の調整という処理の頻繁な切り替えを防ぎ、処理効率を向上させることができる画像処理装置、画像読取装置およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、複数の照明条件下における読取画像から文字領域を抽出する文字領域抽出部と、前記文字領域抽出部で抽出された前記複数の照明条件下における前記文字領域毎に含まれている文字の濃度に応じて、前記複数の照明条件下における前記読取画像のうち文字認識に用いる読取画像を決定する文字認識画像決定部と、を備えることを特徴とする。
本発明によれば、文字の認識精度を維持しつつ、画像の読み取り、文字認識、照明光源の調整という処理の頻繁な切り替えを防ぎ、処理効率を向上させることができる、という効果を奏する。
図1は、第1の実施の形態にかかる画像読取装置の概要を例示する図である。 図2は、画像読取装置におけるエリアセンサ及びその周辺の詳細を示す図である。 図3は、画像読取装置のハードウェア構成を示すブロック図である。 図4は、照明制御の方法について説明する図である。 図5は、照明制御テーブルの一例を示す図である。 図6は、画像処理デバイスの機能を示す機能ブロック図である。 図7は、読取画像出力処理の流れを概略的に示すフローチャートである。 図8は、各種の照明条件で読み取った画像の例を示す図である。 図9は、文字領域抽出結果の例について説明する図である。 図10は、文字領域の情報の例について説明する図である。 図11は、文字類似度算出部における文字の類似判定の処理の流れを示すフローチャートである。 図12は、文字類似度算出部における文字の色・サイズ判定の処理の流れを示すフローチャートである。 図13は、文字サイズの算出例を示す図である。 図14は、文字サイズ一覧表の例を示す図である。 図15は、文字画素の判定の一例を示す図である。 図16は、文字類似度算出部における文字位置判定の処理の流れを示すフローチャートである。 図17は、文字領域抽出結果の一例を示す図である。 図18は、文字認識画像決定部における文字認識を適用する画像の決定処理の流れを示すフローチャートである。 図19は、結合領域のヒストグラム生成例を示す図である。 図20は、高濃度文字のコントラスト算出例を示す図である。 図21は、低濃度文字の画素数カウント例を示す図である。 図22は、第2の実施の形態にかかる画像形成装置の構成例を示す構成図である。
以下に添付図面を参照して、画像処理装置、画像読取装置およびプログラムの実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、第1の実施の形態にかかる画像読取装置20の概要を例示する図である。図1に示すように、画像読取装置20は、二次元画像を撮像するエリアセンサ(カメラ)21と、原稿を載置する原稿台22と、原稿台22に載置された原稿を照らす複数の照明ランプ23と、エリアセンサ(カメラ)21および照明ランプ23を原稿台22の上方で支持する支持部24と、を備えている。
複数の照明ランプ23は、エリアセンサ(カメラ)21による上方からの読取画像に対する室内照明の写り込みの発生や、撮像者自身の影の写り込み(以後、外来影響)の発生を抑制する。
複数の照明ランプ23は、ユーザのスキャン指示にあわせて点灯・消灯を行う。複数の照明ランプ23は、点灯時、原稿台22に上向きに置かれた原稿(例えば、製本された原稿)に対し、上方から順次に光を照射する。
エリアセンサ(カメラ)21は、CCD又はCMOSセンサなどの撮像素子である。エリアセンサ(カメラ)21は、複数の照明ランプ23による光の照射の際に、二次元画像を撮像する。
図2は、画像読取装置20におけるエリアセンサ21及びその周辺の詳細を示す図である。なお、図2は、図1に示したエリアセンサ21などを下方から見た図となっている。エリアセンサ21の周囲には、光源部25が配置されている。
光源部25は、2つの照明ブロック25a〜25bによって構成されている。照明ブロック25a〜25bは、それぞれ複数の照明ランプ23を直線状に並設する。照明ブロック25a〜25bは、エリアセンサ21を挟んで対向して配置されている。照明ブロック25a〜25bは、第1照射位置〜第2照射位置となっている。
照明ランプ23は、例えばLEDと導光レンズなどによって構成される。照明ランプ23は、複数のLEDなどによって構成されてもよい。
照明ブロック25a〜25bは、少なくとも撮像対象が製本された原稿である場合に、原稿の綴じ部の方向に対して略直交する第1照射位置及び第2照射位置それぞれから原稿に光を順次に照射する。
原稿台22は、原稿をセット可能な範囲である原稿配置領域をユーザに対して明示する。ユーザは、原稿配置領域内に原稿をセットする。原稿台22は、直交する2方向にそれぞれスライドして原稿を所定の方向に向ける2つのガイドなどが設けられてもよい。
画像読取装置20は、ユーザが原稿台22に上向きに置いた原稿(例えば、製本された原稿)に対し、スタートボタンの押下をトリガーとして、複数の照明ランプ23によって上方から順次に光を照射する。そして、画像読取装置20は、複数の照明ランプ23によって光を照射する毎にエリアセンサ21によって二次元画像を読み取る。
その後、ユーザが原稿のページを捲るとともにスタートボタンの押下動作を繰り返すことにより、画像読取装置20は、連続して各ページの二次元画像を読み取る連続スキャンを実現する。
また、画像読取装置20は、ページ毎に撮像された複数の二次元画像を合成することにより、1つの原稿画像を生成する。
さらに、画像読取装置20は、読み取った画像データ(読取画像)をPC40などの外部デバイス(図3参照)へ送信したり、読み取った画像データ(読取画像)をUSBメモリなどの記憶装置へ出力したりするように構成されてもよい。
PC40は、文字認識部41と、文書ファイル作成部42と、を有している(図6参照)。文字認識部41は、画像読取装置20から送信された画像データ(読取画像)から文字を認識する。文書ファイル作成部42は、画像読取装置20から送信された画像データ(読取画像)に文字認識結果を埋め込んで文書ファイルを作成する。
図3は、画像読取装置20のハードウェア構成を示すブロック図である。
図3に示すように、画像読取装置20は、撮像部31、光源部25、記憶装置26、制御部である制御デバイス27、画像処理装置である画像処理デバイス28、画像インターフェース(I/F)29及び制御インターフェース(I/F)30を有する。
撮像部31は、上述したエリアセンサ21を有する画像読取部である。撮像部31は、制御デバイス27の制御に応じて、露光時間、信号ゲインなどの撮像条件が設定され、シャッターON信号、動作モード(動画モード及び静止画モード)が設定される。
エリアセンサ21が読取った読取画像データは、例えば撮像部31内部に設けられたA/D変換回路によりデジタル信号に変換され、γ変換処理、デモザイク処理などが施されて分解色(RGB)単位で制御デバイス27へ出力される。エリアセンサ21は、RGBではなく、YUVやYCbCrのデータを出力するように構成されてもよい。このように、撮像部31は、撮像対象を対向する位置から撮像し、二次元の画像として出力する。
また、エリアセンサ21は、設定された動作モードに応じて出力する画像データを切り替える。例えば、エリアセンサ21は、画像読取装置20が待機状態である場合には、動画モードで動作し、予め設定されたフレームレート毎に撮像画像を外部に連続出力する。なお、動画モードでの撮像画像は、エリアセンサ21の全有効画素から間引いて出力され、1撮像画像当たりのデータ容量が少なくされている。
画像読取装置20が原稿の画像を読取る場合には、エリアセンサ21は静止画モードで動作する。つまり、エリアセンサ21は、シャッターON信号に同期して、設定された動作モードで読取画像を取得する。静止画モードでは、エリアセンサ21の全有効画素データが出力される。静止画モードでの読取画像は、記憶装置26に蓄積される。
制御デバイス27は、画像読取装置20を構成する各部の制御を行う。制御デバイス27は、記憶装置26における画像データの蓄積開始タイミング、読出しタイミング、ライトアドレス及びリードアドレスなどを制御する。制御デバイス27は、エリアセンサ21が静止画モードで撮像したRGBの読取画像データを記憶装置26に対して書き込む(又は読み出す)。
記憶装置26は、画像データやパラメータを記憶する。記憶装置26は、画像読取装置20が複数の照明ランプ23の点灯状態を切り替えて、1つの原稿読み取りに対して複数回の読取画像の取得を行うために設けられている。
制御デバイス27は、光源部25の各照明ランプ23が点灯及び消灯するタイミング、撮像部31が撮像するタイミング、及び画像読取装置20に対する設定などを制御する。具体的には、制御デバイス27は、光源部25の照明ブロック25aが第1照射位置から原稿に光を照射し、原稿により光を正反射させた場合に、撮像部31が撮像するように制御する。また、制御デバイス27は、光源部25の照明ブロック25bが第2照射位置から原稿に光を照射し、原稿により光を正反射させた場合に、撮像部31が撮像するように制御する。
加えて、制御デバイス27は、光源部25の各照明ランプ23の照明強度を制御する。ここで、図4は照明制御の方法について説明する図である。ここでは、照明強度(明るさ)を制御する方法の1つであるPWM(Pulse Width Modulation)について説明する。図4に示すように、PWMは、光源部25の各照明ランプ23の点灯と消灯を高速で切り替え、その時間を調整することで明るさを制御する方式である。光源部25の各照明ランプ23の点灯/消灯の1サイクルのうち、点灯している時間の比をDuty比と呼ぶ。
図4(a)は、光源部25の各照明ランプ23の点灯周期を表したものである。図4(a)中の横軸は時間、縦軸はON/OFFを表している。図4(b)は、図4(a)に示す点灯周期で点灯した場合の見た目の明るさを表したものである。図4(b)に示すように、Duty比が高くなるほど見た目の明るさが明るくなることが分かる。
本実施形態において制御デバイス27は、光源部25の各照明ランプ23の照明の明るさを制御するために、照明制御テーブルを用いる。ここで、図5は照明制御テーブルT1の一例を示す図である。図5に示すように、照明制御テーブルT1は、照明条件IDに対応付けて、画像を読み取る点灯パターンを予め記憶する。図5に示すように、点灯パターンは、1サイクルの間の時間をビット数で区切って表している。点灯パターンは、“1”が設定されたタイミングで点灯することを表し、“0”が設定されたタイミングで消灯することを表している。つまり、全てのビットが“0”であった場合にDuty比が「0」で最も暗くなる。一方、全てのビットが“1”であった場合にDuty比が「1.0」で最も明るくなる。
なお、図5に示す照明制御テーブルT1において規定される照明条件は、想定される文字の態様について、それぞれ最適に読み取ることができるように決定される。例えば、想定される文字の態様は、図5に示す照明制御テーブルT1においては、「照明条件1」が蛍光ペン、「照明条件2」が鉛筆などの薄い手書き文字、「照明条件3」がボールペンなどの濃い手書き文字、「照明条件4」が通常サイズの印刷文字、「照明条件5」が太文字である。
なお、PC40における文字認識の精度を上げたい場合は、PWM制御の分解能を上げ、照明条件のパターンを増やせば良い。これにより、様々な種類の文字に対応した最適な読取画像を取得することが可能となる。
画像処理デバイス28は、複数回に分けて撮像された複数の画像を合成する合成部32を有する。また、画像処理デバイス28は、複数回に分けて撮像された複数の画像の明暗差の補正なども行う。画像処理デバイス28は、例えばJPEGなどの圧縮方式により、画像データをエンコードする。
画像I/F29は、所定のデータ形式で画像データをPC40などの外部デバイスに対して出力する。制御I/F30は、PC40などの外部デバイスから受入れた指示等を、制御デバイス27に対して出力する。
例えば、画像読取装置20は、PC40などの外部デバイスからユーザが入力する画像の読み取りの実行、動作設定等の指示を制御I/F30を介して受入れる。
上述した制御デバイス27や画像処理デバイス28は、CPU(Central Processing Unit)にソフトウェア(プログラム)を実行させること、すなわち、ソフトウェア(プログラム)により実現してもよいし、IC(Integrated Circuit)などハードウェアにより実現してもよいし、ソフトウェア(プログラム)およびハードウェアを併用して実現してもよい。
制御デバイス27や画像処理デバイス28の一部または全部をソフトウェア(プログラム)により実現する場合、本実施の形態の画像読取装置20は、CPUなどの制御装置と、ROM(Read Only Memory)やRAM(Random Access Memory)などの記憶装置と、HDD(Hard Disk Drive)や媒体ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施形態の画像読取装置20で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の画像読取装置20で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の画像読取装置20で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態の画像読取装置20で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施の形態の画像読取装置20で実行されるプログラムは、上述した各部(制御デバイス27、画像処理デバイス28)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、制御デバイス27、画像処理デバイス28が主記憶装置上に生成されるようになっている。
次に、画像処理デバイス28が発揮する機能のうち、特徴的な機能について説明する。
ここで、図6は画像処理デバイス28の機能を示す機能ブロック図である。図6に示すように、画像処理デバイス28は、文字領域抽出部281と、文字類似度算出部282と、文字領域結合部283と、文字認識画像決定部284と、を備えている。
文字領域抽出部281は、合成部32で合成された複数の照明条件での読取画像から文字の領域を抽出する。
文字類似度算出部282は、文字領域抽出部281で抽出された各文字領域を表す矩形サイズ、文字領域の平均画素値、文字領域を表す矩形内の文字画素比の少なくとも何れか一つに基づいて、文字色および文字サイズについての類似度を算出する。このように類似度を算出することにより、各文字領域に含まれる文字が類似文字かどうかを判定することができる。
また、文字類似度算出部282は、文字領域抽出部281で抽出された各文字領域の端部座標(右端座標、左端座標)の距離と文字領域の中心座標の距離との少なくとも何れか一つに基づいて、文字位置についての類似度を算出する。このように類似度を算出することにより、各文字領域の段組みが類似しているかどうかを判定することができる。
文字領域結合部283は、文字領域抽出部281で抽出された各文字領域に含まれる文字について、文字類似度算出部282で算出した類似度に応じて同一種類の文字同士を結合する。
文字認識画像決定部284は、文字領域結合部283で結合した複数の照明条件下における各結合文字領域毎に含まれている文字の濃度に応じて、複数の照明条件での読取画像のうち文字認識に最適な画像を決定する。
次に、画像読取装置20による読取画像出力処理について説明する。
ここで、図7は画像読取装置20による読取画像出力処理の流れを概略的に示すフローチャートである。例えばスタートボタンの押下をトリガーとして、図7に示すように、画像読取装置20の制御デバイス27は、照明制御テーブルT1の照明条件を取得して光源部25の照明ブロック25aを点灯制御するとともに、撮像部31を制御して二次元画像を読み取る(ステップS1)。これにより、画像読取装置20は、ユーザが原稿台22に上向きに置いた原稿(例えば、製本された原稿)に対して、照明ブロック25aの照明ランプ23によって照明条件に従った明るさの光を照射して、画像を読み取る。
また、制御デバイス27は、照明制御テーブルT1の照明条件を取得して光源部25の照明ブロック25bを点灯制御するとともに、撮像部31を制御して二次元画像を読み取る(ステップS2)。これにより、画像読取装置20は、ユーザが原稿台22に上向きに置いた原稿(例えば、製本された原稿)に対して、照明ブロック25bの照明ランプ23によって照明条件に従った明るさの光を照射して、画像を読み取る。
次いで、画像処理デバイス28の合成部32は、2回に分けて撮像された複数の二次元画像を合成することにより、1つの原稿画像を生成して記憶装置26に記憶する(ステップS3)。
次いで、制御デバイス27は、照明制御テーブルT1の全ての照明条件で撮像が完了しているかを判定する(ステップS4)。
制御デバイス27は、照明制御テーブルT1の全ての照明条件で撮像が完了していないと判定した場合(ステップS4のNo)、ステップS1に戻り、次の照明条件を設定・点灯、画像の読み取りを行う。
一方、制御デバイス27は、照明制御テーブルT1の全ての照明条件で撮像が完了していると判定した場合(ステップS4のYes)、ステップS5に進む。
ここで、図8は各種の照明条件で読み取った画像の例を示す図である。図8(a)に示すように暗い照明で読み取った画像においては、文字の途切れが防げるため、低濃度の文字や線幅の細い文字の認識に優れている。逆に、図8(e)に示すように明るい照明で読み取った画像においては、コントラストが高く、文字の潰れも防げるため、高濃度の文字や線幅の太い文字の認識に有利である。
続いて、画像処理デバイス28(文字領域抽出部281)は、標準照明条件で読み取った画像より文字領域を抽出する(ステップS5)。標準照明条件とは、通常の印刷、表示向けの画像を読み取る時の照明条件である。ここでは、標準照明条件を照明制御テーブルT1の「照明条件3」とする。
なお、文字領域抽出部281における文字領域の抽出には、二値画像の黒画素の連結成分を用いる方法(特開2000−067185号公報参照)や、文字色や文字同士の位置関係を用いてさらに高精度に抽出する方法(特開2005−004334号公報参照)など種々の既知の技術を用いることができる。
図9は、文字領域抽出結果の例について説明する図である。図9に示すように、文字領域は、矩形a−gとして抽出される。
図10は、文字領域の情報の例について説明する図である。抽出された文字領域に関する情報は、各文字領域の矩形の原点、幅、高さである。また、領域判定フラグ、比較領域フラグも有している。図10に示すように、文字領域に関する情報は、各文字領域を識別するIDが付与されて記憶される。領域判定フラグは、各文字領域が含まれる結合文字領域のIDを表し、文字が類似している領域には同じIDが割り当てられる。比較領域フラグは、現在設定されている基準領域に対して比較領域として文字類似の判定が行われたかどうかを表し、処理が完了した文字領域には“1”が設定される。
次いで、画像処理デバイス28(文字類似度算出部282)は、抽出した各文字領域に含まれる文字の色やサイズ、位置に基づき文字の類似かどうかを判定する(ステップS6)。
ここで、図11は文字類似度算出部282における文字の類似判定の処理の流れを示すフローチャートである。図11に示すように、文字類似度算出部282は、まず、ステップS5で抽出された文字領域の中から1つを基準領域として取得する(ステップS21)。例えば、基準領域の文字領域のIDを“3”とする。
次に、文字類似度算出部282は、取得した文字領域に対して領域判定フラグを設定する(ステップS22)。具体的には、最初に取得した文字領域に対しては、初期値として“1”を設定する。以降、取得した文字領域に対して、既存の値に対してインクリメントした値を設定する。
次に、文字類似度算出部282は、基準領域として取得した文字領域以外の1つを比較領域として取得する(ステップS23)。
次に、文字類似度算出部282は、基準領域と比較領域に含まれる文字の色・サイズが類似しているかを判定する(ステップS24)。
ここで、図12は文字類似度算出部282における文字の色・サイズ判定の処理の流れを示すフローチャートである。図12に示すように、文字類似度算出部282は、基準領域と比較領域の矩形の幅と高さをそれぞれ取得する(ステップS41)。図10に示したように各文字領域の矩形の幅と高さは記憶されているので、これを取得してくれば良い。
次に、文字類似度算出部282は、取得した幅と高さのうち小さい方を文字サイズとして設定する(ステップS42)。
ここで、図13は文字サイズの算出例を示す図である。図13に示すように、wは抽出された文字領域の幅、hは文字領域の高さを示している。図13(a)に示す横書きの例では、
h<w
となるため、高さが選択される。この高さは、1文字分のサイズとなっている。一方、図13(b)に示す横書きの例では、
w<h
となるため、幅が選択される。この幅は、1文字分のサイズとなっている。このように行単位で文字領域が抽出されている場合、基本的に幅、高さのうち小さい方を文字サイズ相当とみなすことができる。
次に、文字類似度算出部282は、基準領域と比較領域の文字サイズの差が閾値以下かどうか判定する(ステップS43)。ここで、図14は文字サイズ一覧表の例を示す図である。図14に示すように、一般的に使用される文字のサイズを一覧として記憶しておき、ステップS42で設定した文字サイズに近いものを選択する。同様に、比較領域の文字サイズに近いものも選択し、同じサイズが選択されたかどうかで判定する。なお、読取解像度によっては誤差が発生するため、上下1つまではずれることを許容するように閾値を設定しても良い。
文字類似度算出部282は、基準領域と比較領域の文字サイズの差が閾値以下であると判定した場合(ステップS43のYes)、ステップS44に進む。
次に、文字類似度算出部282は、基準領域と比較領域の文字画素を取得する(ステップS44)。ここで、図15は文字画素の判定の一例を示す図である。図15に示すように、任意の文字領域に対し、ヒストグラムを生成する。横軸sigは信号値、縦軸pnはその信号値を取る画素数を表している。このヒストグラムと原稿の地肌レベルtとから、信号値がt以上の画素は背景、信号値がt未満の画素は文字として判定する。
次に、文字類似度算出部282は、文字画素の平均画素値を求める(ステップS45)。
次に、文字類似度算出部282は、基準領域と比較領域の平均画素値の比が閾値以下かどうか判定する(ステップS46)。閾値は読み取りむらを考慮して、10%までは許容するなど適宜設定して良い。
文字類似度算出部282は、基準領域と比較領域の平均画素値の比が閾値以下と判定した場合(ステップS46のYes)、ステップS47に進む。
次に、文字類似度算出部282は、基準領域と比較領域の矩形領域内における文字画素数比を算出する(ステップS47)。文字画素数比rは、二値化閾値以下の画素数Pcをカウントし、その画素数と矩形の幅w、高さhから、下記式により算出することができる。
r=Pc/(w×h)
次に、文字類似度算出部282は、基準領域と比較領域の画素数比の差が閾値以下かどうか判定する(ステップS48)。文字画素数は文字の線幅によって変わり、これにより文字の線幅同等か判定できる。なお、線幅同じでも行内に含まれる文字によって差が出るため、閾値は、差分0.1までは許容するなど適宜設定して良い。
文字類似度算出部282は、基準領域と比較領域の画素数比の差が閾値以下と判定した場合(ステップS48のYes)、ステップS49に進む。
次に、文字類似度算出部282は、全ての条件を満たす場合、文字条件が一致と判定し、文字の色・サイズが類似しているとする(ステップS49)。
一方、文字類似度算出部282は、基準領域と比較領域の文字サイズの差が閾値以下でないと判定した場合(ステップS43のNo)、基準領域と比較領域の平均画素値の比が閾値以下でないと判定した場合(ステップS46のNo)、基準領域と比較領域の画素数比の差が閾値以下でないと判定した場合(ステップS48のNo)、文字条件が不一致と判定し、文字の色・サイズが類似していないとする(ステップS50)。
以上により、文字類似度算出部282は、ステップS24において基準領域と比較領域に含まれる文字の色・サイズが類似しているかを判定することができる。
図11に戻り、文字類似度算出部282は、基準領域と比較領域に含まれる文字の色・サイズが類似していると判定した場合(ステップS25のYes)、ステップS26に進む。
一方、文字類似度算出部282は、基準領域と比較領域に含まれる文字の色・サイズが類似していないと判定した場合(ステップS25のNo)、ステップS32に進む。
次に、文字類似度算出部282は、基準領域と比較領域に含まれる文字位置が類似する位置かどうか判定を行う(ステップS26)。
ここで、図16は文字類似度算出部282における文字位置判定の処理の流れを示すフローチャートである。図16に示すように、文字類似度算出部282は、基準領域と比較領域の中心画素の位置を取得する(ステップS61)。中心画素の位置{Xc,Yc}は、図10に示した文字領域情報の原点{Xori,Yori}、幅w、高さhから下記式により求めることができる。
Xc=Xori+w/2
Yc=Yori+h/2
次に、文字類似度算出部282は、基準領域と比較領域の中心画素のY座標の差が行判定閾値以下か判定する(ステップS62)。ここで、図17は文字領域抽出結果の一例を示す図である。図17に示す例で説明すると、同一行である文字領域hと文字領域jとのYcを比較することとなる。この条件によって、同一行に並んだ同一種類の文字を同じ結合文字領域として判定することができる。行判定閾値は、本来は同一Y座標に並ぶので0となるはずだが、読み取りムラや設置時の傾きによりずれる可能性も考慮して、文字サイズの5%まで許容するなどと設定しても良い。
文字類似度算出部282は、判定の結果、行判定閾値以下である場合(ステップS62のYes)、ステップS66に進む。
一方、文字類似度算出部282は、判定の結果、行判定閾値以下でない場合(ステップS62のNo)、ステップS63に進む。
次に、文字類似度算出部282は、基準領域と比較領域の中心画素のY座標の差が行間判定閾値以下か判定する(ステップS63)。図17に示す例で説明すると、並列に並んだ連続した行である文字領域hと文字領域kとのYcを比較することとなる。この条件によって、連続した行の同一種類の文字を同じ結合文字領域として判定することができる。行間判定閾値は[許容する行数]×[文字サイズ]として、本来は2行程度に設定するのが一般的だが、対象となりうる原稿を考慮して適宜設定すればよい。
文字類似度算出部282は、判定の結果、行間判定閾値以下である場合(ステップS63のYes)、ステップS64に進む。
一方、文字類似度算出部282は、判定の結果、行間判定閾値以下でない場合(ステップS63のNo)、ステップS67に進む。
次に、文字類似度算出部282は、基準領域と比較領域の左右位置を算出する(ステップS64)。左位置XL、右位置XRは、下記式により求めることができる。
XL=Xori
Xr=Xori+w
次に、文字類似度算出部282は、基準領域と比較領域の左、右、中心の座標の差が閾値以下か判定する(ステップS65)。図17に示す例で説明すると、文字領域hと文字領域kとのXL、XR、Xcを比較することとなる。この条件を満たせば、同じX座標の基準位置での同一種類の文字を同じ結合文字領域として判定することができる。閾値はインデントを考慮して[1.5文字]×[文字サイズ]に設定するのが一般的だが、文字数は適宜設定して良い。
文字類似度算出部282は、判定の結果、閾値以下である場合(ステップS65のYes)、ステップS66に進み、位置条件を満たすと判定する。
一方、文字類似度算出部282は、判定の結果、閾値以下でない場合(ステップS65のNo)、ステップS67に進み、位置条件を満たさないと判定する。
以上により、文字類似度算出部282は、ステップS26において基準領域と比較領域に含まれる文字位置が類似する位置かどうか判定することができる。
図11に戻り、文字類似度算出部282は、文字位置が類似する位置でないと判定した場合(ステップS27のNo)、ステップS32に進む。
一方、文字類似度算出部282は、文字位置が類似する位置であると判定した場合(ステップS27のYes)、ステップS28に進む。
次に、文字類似度算出部282は、比較領域の領域判定フラグを取得する(ステップS28)。
次に、文字類似度算出部282は、ステップS28で取得した領域判定フラグが初期値“0”の場合、領域判定フラグが未設定として(ステップS29のYes)、ステップ30に進み、比較領域に基準領域の領域判定フラグを設定する。
次に、文字類似度算出部282は、ステップS28で取得した領域判定フラグが初期値“0”以外の場合、設定済みとして(ステップS29のNo)、ステップ31へ進み、基準領域に比較領域の領域判定フラグを設定する。
次に、文字類似度算出部282は、全文字領域を比較対象領域として処理済みかの判定を行う(ステップS32)。具体的には、文字類似度算出部282は、図10に示す比較領域フラグを確認する。
文字類似度算出部282は、フラグが0の処理済みでない文字領域があった場合は(ステップS32のNo)、ステップS23に戻り、新たな文字領域を比較対象領域として取得し、ステップS24−S31の処理を行う。
一方、文字類似度算出部282は、全ての文字領域が処理済みと判定した場合(ステップS32のYes)、ステップS33に進む。
次に、文字類似度算出部282は、全文字領域で領域判定フラグが設定済みかどうかの判定を行う(ステップS33)。
文字類似度算出部282は、全ての文字領域の領域判定フラグを確認し、判定済みの場合(ステップS33のYes)、文字の類似判定処理を終了する。
一方、文字類似度算出部282は、判定済みでない場合(ステップS33のNo)、ステップS34に進み、領域判定フラグが未設定の文字領域を基準領域に設定する。
その後、文字類似度算出部282は、ステップS22に戻り、設定済みの領域判定フラグにインクリメントした値を設定し、ステップS23−S33の処理を行う。
以上により、文字類似度算出部282は、ステップS6において抽出した各文字領域に含まれる文字の色やサイズ、位置に基づき文字の類似かどうかを判定することができる。
図7に戻り、画像処理デバイス28(文字領域結合部283)は、ステップS6で類似していると判定された文字領域同士を結合する(ステップS7)。文字領域結合部283は、文字類似度算出部282で算出した類似度に応じて同一種類の文字同士を結合する。
次に、画像処理デバイス28(文字認識画像決定部284)は、複数の照明条件の読取画像を全て取得する(ステップS8)。
次に、文字認識画像決定部284は、結合した文字領域のうち1つの結合文字領域を取得する(ステップS9)。
次に、文字認識画像決定部284は、複数の照明条件の読取画像から、現在の結合文字領域の文字認識を適用する画像を決定する(ステップS10)。
ここで、図18は文字認識画像決定部284における文字認識を適用する画像の決定処理の流れを示すフローチャートである。図18に示すように、文字認識画像決定部284は、標準照明条件の読取画像を取得する(ステップS71)。
次に、文字認識画像決定部284は、図7におけるステップS9で取得した1つの結合文字領域内の画素値よりヒストグラムを生成する(ステップS72)。ここで、図19は結合領域のヒストグラム生成例を示す図である。図19(a)に示すように、読取画像内に4つの結合文字領域a,b,k,xが含まれている。それぞれの領域において生成されるヒストグラムは、図19(b)に示される。
次に、文字認識画像決定部284は、各結合文字領域内に含まれている文字が、高濃度か低濃度かを判定する(ステップS73)。例えば、文字認識画像決定部284は、高濃度か低濃度かについて、ヒストグラムが地肌レベルt以下で極大値を持つかどうかで判定する。すなわち、文字認識画像決定部284は、極大値を持つ場合は高濃度文字、持たない場合は低濃度文字と判定する。このように高濃度と低濃度とを判定して、文字認識用画像の決定方法を変えることで、より最適な画像を選択できる。
次に、文字認識画像決定部284は、複数の照明条件で読み取られた読取画像のうち1つの画像を取得する(ステップS74)。
文字認識画像決定部284は、ステップS73の文字濃度判定で高濃度文字と判定された結合文字領域の場合(ステップS75のYes)、ステップS76へ進む。
一方、文字認識画像決定部284は、ステップS73の文字濃度判定で低濃度文字と判定された結合文字領域の場合(ステップS75のNo)、ステップS78へ進む。
次に、文字認識画像決定部284は、取得した読取画像の結合文字領域内のヒストグラムを生成する(ステップS76)。
次に、文字認識画像決定部284は、背景部最頻値と文字部最頻値とのコントラストを算出する(ステップS77)。ここで、図20は高濃度文字のコントラスト算出例を示す図である。図20に示すように、各読取画像の地肌レベルt以上の領域が背景部となり、その最頻値はbとなる。一方、地肌レベルt未満の領域が文字部となり、その最頻値はcとなる。このbとcの値を用いたコントラストconは、以下の式で算出される。
con=(b−c)/(b+c)
次に、文字認識画像決定部284は、地肌レベルt未満の画素値の画素数をカウントする(ステップS78)。ここで、図21は低濃度文字の画素数カウント例を示す図である。図21に示すように、各読取画像の地肌レベルtと最少画素値mとを各画素の画素値と比較して、範囲内の画素をカウントしていく。
次に、文字認識画像決定部284は、全読取画像に対しての算出処理が完了していれば(ステップS79のYes)、ステップS80に進み、各読取画像のうち、高濃度文字であればコントラスト最大となった画像を、低濃度文字であれば地肌レベルt未満の画素数が最大の画像を、対象の結合文字領域の文字認識適用画像に決定する。図20の例では上から2番目の画像が、図21の例では上から3番目の画像がそれぞれ選ばれる。
一方、文字認識画像決定部284は、全読取画像に対しての算出処理が完了していなければ(ステップS79のNo)、ステップS74に戻って次の読取画像を取得し、ステップS75−S78の処理を繰り返す。
以上により、文字認識画像決定部284は、ステップS10において複数の照明条件の読取画像から、現在の結合文字領域の文字認識を適用する画像を決定することができる。
図7に戻り、文字認識画像決定部284は、全結合文字領域に対して文字認識適用画像を決定したかを判定する(ステップS11)。
文字認識画像決定部284は、全結合文字領域に対して文字認識適用画像を決定したと判定した場合(ステップS11のYes)、処理を終了する。
一方、文字認識画像決定部284は、全結合文字領域に対して文字認識適用画像を決定していないと判定した場合(ステップS11のNo)、ステップS9に戻り次の結合文字領域を取得し、ステップS10の処理を実行する。
したがって、PC40の文字認識部41は、ステップS10で決定された文字認識適用画像を用いて文字認識を実行する。そして、PC40の文書ファイル作成部42は、文字認識の結果を読取画像に埋め込み文書ファイルを作成する。
このように本実施の形態によれば、複数の照明条件下における読取画像から文字領域を抽出し、抽出された複数の照明条件下における文字領域毎に含まれている文字の濃度に応じて、複数の照明条件下における読取画像のうち文字認識に用いる読取画像を決定することにより、文字の認識精度を維持しつつ、画像の読み取り、文字認識、照明光源の調整という処理の頻繁な切り替えを防ぎ、処理効率を向上させることができる。
また、本実施の形態によれば、類似度に応じて同一種類の文字同士を予め結合してから、結合した結合文字領域を処理対象である文字領域とすることにより、処理効率を向上させることができる。
(第2の実施の形態)
次に、第2の実施の形態について説明する。なお、前述した第1の実施の形態と同じ部分は同じ符号で示し説明も省略する。
本実施形態は、画像読取装置20を有する画像形成装置400について説明するものである。
ここで、図22は、第2の実施の形態にかかる画像形成装置400の構成例を示す構成図である。図22に示すように、画像形成装置400は、給紙部403及び画像形成装置本体404を有し、上部に例えば画像読取装置20が搭載されたデジタル複写機である。
画像形成装置本体404内には、タンデム方式の作像部405と、給紙部403から搬送路407を介して供給される記録紙を作像部(画像形成部)405に搬送するレジストローラ408と、光書き込み装置409と、定着搬送部410と、両面トレイ411とが設けられている。
作像部405には、Y,M,C,Kの4色のトナーに対応して4本の感光体ドラム412が並設されている。各感光体ドラム412の回りには、帯電器、現像器406、転写器、クリーナ、及び除電器を含む作像要素が配置されている。
また、転写器と感光体ドラム412との間には両者のニップに挟持された状態で駆動ローラと従動ローラとの間に張架された中間転写ベルト413が配置されている。
このように構成されたタンデム方式の画像形成装置400は、Y,M,C,Kの色毎に各色に対応する感光体ドラム412に光書き込みを行い、現像器406で各色のトナー毎に現像し、中間転写ベルト413上に例えばY,M,C,Kの順に1次転写を行う。
そして、画像形成装置400は、1次転写により4色重畳されたフルカラーの画像を記録紙に2次転写した後、定着して排紙することによりフルカラーの画像を記録紙上に形成する。また、画像形成装置400は、画像読取装置20が読取った画像を記録紙上に形成する。
以上、各実施形態について説明したが、それらの各部の具体的な構成、処理の内容、データの形式等は、実施形態で説明したものに限るものではない。また、以上説明してきた実施形態の構成は、相互に矛盾しない限り任意に組み合わせて実施可能であることは勿論である。
20 画像読取装置
25 光源部
27 制御部
28 画像処理装置
31 画像読取部
281 文字領域抽出部
282 文字類似度算出部
283 文字領域結合部
284 文字認識画像決定部
特開平7−129719号公報

Claims (9)

  1. 複数の照明条件下における読取画像から文字領域を抽出する文字領域抽出部と、
    前記文字領域抽出部で抽出された前記複数の照明条件下における前記文字領域毎に含まれている文字の濃度に応じて、前記複数の照明条件下における前記読取画像のうち文字認識に用いる読取画像を決定する文字認識画像決定部と、
    を備えることを特徴とする画像処理装置。
  2. 前記文字領域抽出部で抽出された前記文字領域に含まれる文字の類似度を算出する文字類似度算出部と、
    前記文字領域抽出部で抽出された前記文字領域に含まれる文字について、前記文字類似度算出部で算出した類似度に応じて同一種類の文字同士を結合した結合文字領域を生成する文字領域結合部と、
    を備え、
    前記文字認識画像決定部は、前記文字領域結合部で結合した前記結合文字領域を処理対象である前記文字領域とする、
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記文字類似度算出部は、前記文字領域を表す矩形サイズと前記文字領域の平均画素値と前記文字領域を表す矩形内の文字画素比とに基づいて、文字色および文字サイズについての類似度を算出する、
    ことを特徴とする請求項2に記載の画像処理装置。
  4. 前記文字類似度算出部は、前記文字領域の端部座標の距離と前記文字領域の中心座標の距離とに基づいて、文字位置についての類似度を算出する、
    ことを特徴とする請求項2または3に記載の画像処理装置。
  5. 前記文字認識画像決定部は、前記文字領域のヒストグラムが前記読取画像の地肌レベル未満で極大値を持つ場合は高濃度文字、前記地肌レベル未満で極大値を持たない場合は低濃度文字とする、
    ことを特徴とする請求項1ないし4の何れか一項に記載の画像処理装置。
  6. 前記文字認識画像決定部は、前記高濃度文字と判定された文字領域において前記地肌レベル以上の領域と前記地肌レベル未満の領域とのコントラストが最大の読取画像を、文字認識に用いる読取画像として決定する、
    ことを特徴とする請求項5に記載の画像処理装置。
  7. 前記文字認識画像決定部は、前記低濃度文字と判定された文字領域において前記地肌レベル未満の領域の画素数が最大となる画像を、文字認識に用いる読取画像として決定する、
    ことを特徴とする請求項5または6に記載の画像処理装置。
  8. 文字原稿に光を照射する光源部と、
    前記光源部の照明強度を制御し、複数の照明条件を実現する制御部と、
    前記制御部の制御による前記複数の照明条件毎に、前記光源部から光を照射された前記文字原稿を読み取った読取画像を得る画像読取部と、
    請求項1ないし7の何れか一項に記載の画像処理装置と、
    を備えることを特徴とする画像読取装置。
  9. コンピュータを、
    複数の照明条件下における読取画像から文字領域を抽出する文字領域抽出部と、
    前記文字領域抽出部で抽出された前記複数の照明条件下における前記文字領域毎に含まれている文字の濃度に応じて、前記複数の照明条件下における前記読取画像のうち文字認識に用いる読取画像を決定する文字認識画像決定部と、
    として機能させるためのプログラム。
JP2016128939A 2016-06-29 2016-06-29 画像処理装置、画像読取装置およびプログラム Pending JP2018005397A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016128939A JP2018005397A (ja) 2016-06-29 2016-06-29 画像処理装置、画像読取装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016128939A JP2018005397A (ja) 2016-06-29 2016-06-29 画像処理装置、画像読取装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2018005397A true JP2018005397A (ja) 2018-01-11

Family

ID=60949386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016128939A Pending JP2018005397A (ja) 2016-06-29 2016-06-29 画像処理装置、画像読取装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2018005397A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269199A (zh) * 2021-03-16 2021-08-17 贵州财经大学 用于水族文字提取识别方法及水族文字提取装置
JP7485866B2 (ja) 2018-05-18 2024-05-17 スタッツ エルエルシー 埋め込まれた情報カードコンテンツを認識および解釈するための機械学習

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7485866B2 (ja) 2018-05-18 2024-05-17 スタッツ エルエルシー 埋め込まれた情報カードコンテンツを認識および解釈するための機械学習
CN113269199A (zh) * 2021-03-16 2021-08-17 贵州财经大学 用于水族文字提取识别方法及水族文字提取装置
CN113269199B (zh) * 2021-03-16 2024-02-13 贵州财经大学 用于水族文字提取识别方法及水族文字提取装置

Similar Documents

Publication Publication Date Title
JP6451344B2 (ja) 画像読取装置、画像処理装置及び画像読取方法
JP2007306078A (ja) 画像読取装置、画像読取方法
US7830543B2 (en) Photographic image region extracting apparatus and copying apparatus
JP6932559B2 (ja) 画像読取装置及びその制御方法及びプログラム
JP2009223527A (ja) 画像処理装置、画像処理方法、画像処理のためのコンピュータプログラム
JP2018005397A (ja) 画像処理装置、画像読取装置およびプログラム
JP2016032219A (ja) 画像読取装置、画像形成装置及び画像読取方法
US20170187919A1 (en) Image acquisition apparatus, image forming apparatus and method for controlling the same
JP2009223524A (ja) 画像処理装置、画像処理方法、画像処理のためのコンピュータプログラム
US20100165417A1 (en) Image processing method, image processing apparatus, and computer-readable storage medium
JP2010021830A (ja) 画像読取装置、画像読取装置の制御方法、および画像読取装置の制御プログラム
JP6939069B2 (ja) 画像読取装置、画像形成装置、画像読取方法、及び画像読取プログラム
JP5020777B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US10897554B2 (en) System and method for correctly detecting a printing area
JP2019192949A (ja) 画像処理システム、及び、画像処理方法
US8422785B2 (en) Image processing apparatus, image processing method, and program
JP6772598B2 (ja) 画像読取装置、画像形成装置およびプログラム
JP2019193004A (ja) 画像形成装置
US20230060035A1 (en) Multifunction peripheral with exterior member different from input unit
JP5550309B2 (ja) 画像処理装置及び表示制御方法
JP2005122319A (ja) 撮影装置、その画像処理方法及びプログラム
JP2006115461A (ja) 画像形成装置、画像合成方法及びそのプログラム
JP6688675B2 (ja) 画像処理装置および画像形成装置
JP6711224B2 (ja) 原稿読取装置、原稿読取方法および原稿読取プログラム
JP2019114917A (ja) 画像処理装置及びプログラム