JP2010287178A - 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体 - Google Patents

画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体 Download PDF

Info

Publication number
JP2010287178A
JP2010287178A JP2009142553A JP2009142553A JP2010287178A JP 2010287178 A JP2010287178 A JP 2010287178A JP 2009142553 A JP2009142553 A JP 2009142553A JP 2009142553 A JP2009142553 A JP 2009142553A JP 2010287178 A JP2010287178 A JP 2010287178A
Authority
JP
Japan
Prior art keywords
image
document
data
unit
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009142553A
Other languages
English (en)
Inventor
Hiroshi Kawamura
洋志 川村
Tetsuya Shibata
哲也 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2009142553A priority Critical patent/JP2010287178A/ja
Publication of JP2010287178A publication Critical patent/JP2010287178A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】文字認識処理において、文字認識精度を維持しつつ、処理速度を向上させる。
【解決手段】画像処理装置1は文字認識部13を有し、文字認識部13は第1認識処理部32、第2認識処理部33、辞書選択部34を有している。第1認識処理部32は、画像データから抽出された文書原稿のタイトル部に対して日本語の辞書データおよび外国語の辞書データを用いて第1文字認識処理を行う。第2認識処理部33は、画像データ全体に対して第2文字認識処理を行う。また、辞書選択部34は、第1文字認識処理の処理結果に基づいて、第2認識処理部33にて使用される辞書データを選択する。
【選択図】図5

Description

本発明は、画像データに対して文字認識を行う画像処理装置、画像処理方法、複合機、プログラム、当該プログラムを記録した記録媒体に関するものである。
従来から、紙媒体の原稿に記載されている情報をスキャナで読み取って画像データを取得し、当該画像データに対して文字認識処理(OCR:Optical character recognition)を施して当該画像データに含まれる文字に関するテキストデータを作成し、上記画像データと上記テキストデータとを対応付けた画像ファイルを作成する技術がある。
また、日本語の他に外国語がアルファベット等のまま記載されている文書がある。そこで、通常、文字認識においては、日本語の辞書データ(認識辞書)の他に外国語の辞書データも使用し、これら辞書データに示される文字パターンまたは単語と文書中の文字または単語とのマッチングを行って、文書中の文字や単語を認識している。
さらに、日本語の辞書データおよび外国語の辞書データを用いる文字認識処理において、文書の示された画像に対して、行単位で日本語からなる行か外国語からなる行かを判定し、行毎に辞書データを切り替えるようにする技術が知られている。例えば、下記の特許文献1には、紙媒体に記載されている情報をスキャナで読み取ってビットマップ画像データを取得し、当該ビットマップ画像データに対して領域分離を行って文字を含む領域を行単位に分け、行と行との間のスペース数と行の幅とに基づいて日本語の行かアルファベット使用言語の行かを判定することが記載されている。
特開平10−21336号公報(1998年1月23日公開)
しかしながら、文書の示された画像に対して行単位で言語の種別の判定処理を行う文字認識処理によれば、言語の種別の判定処理に時間を要するため、文字認識処理の速度が遅いという問題が生じていた。
これに対し、言語の種別の判定処理を行わずに、日本語(第1言語)の辞書データおよび外国語(第2言語)の辞書データの両方を用いて文字認識を行う場合も処理が遅いという問題が生じる。これは、例えば、日本語のみからなる文書に対しても日本語の辞書データのみならず外国語の辞書データを用いてマッチングを行うため、無駄な処理が発生してしまうためである。
本発明の目的は、第1言語の辞書データおよび第2言語の辞書データを用いる文字認識処理において処理速度を向上させることにある。
文書原稿におけるタイトル部、または、文書原稿において文字サイズが相対的に大きな領域である大文字領域には、前記文書原稿のエッセンスとなる語句が含まれている事が多い。それゆえ、例えば、前記タイトル部(または前記大文字領域)が第1言語の文字のみからなるような場合、前記文書原稿における前記タイトル部(または前記大文字領域)以外の箇所も第1言語のみからなる傾向にある。したがって、前記タイトル部(または前記大文字領域)が第1言語の文字のみからなるような場合、前記文書原稿全体に対する文字認識処理において、第1言語の辞書のみを選択して使用するようにすれば、文字認識精度を維持しつつ、処理速度を向上させることができる。
そこで、本発明は、前記の問題を解決するために、文書原稿を示す原稿画像の画像データに対して、文字認識処理を行う画像処理装置において、前記画像データより、前記文書原稿におけるタイトル部、または、前記文書原稿を複数の領域に分離した場合に文字サイズの平均値が最も大きな領域となる大文字領域を抽出するレイアウト解析部と、前記レイアウト解析部にて抽出された前記タイトル部または前記大文字領域に含まれる文字に対し、少なくとも第1言語の辞書データおよび第2言語の辞書データを用いて第1文字認識処理を行う第1処理部と、前記画像データに対して第2文字認識処理を行う第2処理部と、第2文字認識処理にて第2処理部に使用させる辞書データとして、第1文字認識処理の処理結果に応じた言語の辞書データを選択する辞書選択部とを含むことを特徴とする。これにより、文字認識精度を維持しつつ、処理速度を向上させることができる。
例えば、第1言語が画像処理装置の利用者の母国語で、第2言語が外国語であるような場合、第1文字認識処理において母国語のみ認識されると、第2文字認識処理に用いる辞書データとして母国語の辞書データのみを選択し、第1文字認識処理において外国語のみ認識されると、第2文字認識処理に用いる辞書データとして外国語の辞書データのみを選択する形態が考えられる。
また、第1文字認識処理において母国語のみ認識されると、第2文字認識処理に用いる辞書データとして母国語の辞書データのみを選択する一方、第1文字認識処理において外国語のみ認識されると、第2文字認識処理に用いる辞書データとして外国語の辞書データのみを選択するのではなく、外国語の辞書データと母国語の辞書データとを選択するような形態であってもよい。これは、タイトル部が外国語のみであっても、文書全体では母国語も含まれている可能性があるためである。
また、前記タイトル部(または前記大文字領域)が平仮名および/または漢字のみからなる場合、前記文書原稿は日本語のみからなる傾向にある。そこで、本発明の画像処理装置において、前記第1言語が日本語であって前記第2言語が日本語以外の言語である場合、前記辞書選択部は、第1文字認識処理において、平仮名のみ或いは漢字のみ或いは平仮名および漢字のみが認識された場合、第2文字認識処理に用いられる辞書データとして第1言語の辞書データのみを選択することが好ましい。これにより、文字認識精度を維持しつつ、処理速度を向上させることができる。
また、片仮名は外来語もしくは外国語の発音をそのまま表記したものであることが多く、前記タイトル部(または前記大文字領域)に片仮名があるということは、文書原稿において外国語の文字が使用されている可能性がある。そこで、本発明の画像処理装置において、前記辞書選択部は、第1文字認識処理において片仮名が認識された場合、第2文字認識処理に用いられる辞書データとして第1言語の辞書データと第2言語の辞書データとを選択することが好ましい。これにより、文字認識精度の劣化を抑制できる。
さらに、複数の頁からなる文書原稿において、単一の頁から前記タイトル部または前記大文字領域を検出した場合であっても、当該タイトル部(または大文字領域)には前記文書原稿全体のエッセンスとなる語句が含まれている事が多い。そこで、本発明の画像処理装置において、前記画像データが複数の頁からなる文書原稿を示したデータである場合、前記レイアウト解析部は、前記文書原稿に含まれる複数の頁のうちの単一の頁から前記タイトル部または前記大文字領域を抽出することが好ましい。これにより、複数の頁の各々からタイトル部(または大文字領域)を検出せずに、第2文字認識処理にて用いる辞書データを適切に選択でき、処理の遅延を抑制できるという効果を奏する。
また、本発明の画像処理装置は、前記構成に加えて、前記第2処理部は、第2文字認識処理にて認識した単語に対する略語が辞書データに登録されている場合、前記単語および略語を認識結果として出力し、前記第2処理部の認識結果に基づいて、前記画像データに重畳するための透明テキストを生成するテキスト生成部を有していてもよい。この構成によれば、略語をキーワードとしてサーチした場合に当該略語に対応する正式単語をヒットさせる事の可能なサーチャブル画像ファイル(透明テキストの埋め込まれたPDFファイル)を生成できるという効果を奏する。
本発明の画像読取装置は、前記画像処理装置と、前記文書原稿を読み取って前記画像データを取得する画像入力装置とを備えている。本発明の複合機は、前記画像処理装置と、前記文書原稿を読み取って前記画像データを取得する画像入力装置とを備えている。本発明は、文書原稿を示す原稿画像の画像データに対して、文字認識処理を行う画像処理方法において、前記画像データより、前記文書原稿におけるタイトル部、または、前記文書原稿を複数の領域に分離した場合に文字サイズの平均値が最も大きな領域となる大文字領域を抽出する第1工程と、前記第1工程にて抽出された前記タイトル部または前記大文字領域に含まれる文字に対し、少なくとも第1言語の辞書データおよび第2言語の辞書データを用いて第1文字認識処理を行う第2工程と、前記画像データに対して第2文字認識処理を行う第3工程とを含み、第2文字認識処理にて使用する辞書データとして、第1文字認識処理の処理結果に応じた言語の辞書データを選択することを特徴とする。
なお、上記画像処理装置は、コンピュータによって実現されてもよく、この場合には、コンピュータを上記各部として動作させることにより、上記画像処理装置をコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。
本発明の画像処理装置は、以上にて示したように、第2文字認識処理にて第2処理部に使用させる辞書データとして、第1文字認識処理の処理結果に応じた言語の辞書データを選択することを特徴とする。これにより、文字認識精度を維持しつつ、処理速度を向上させることができる。
本発明の一実施形態に係る画像処理装置の構成を示したブロック図である。 図1の画像処理装置に含まれている原稿検知部の構成を示したブロック図である。 画像データに示される文書原稿の文字の外接矩形を示した説明図である。 (a)は、図1の画像処理装置に処理される画像データに示される文書原稿の一例を示した図である。(b)は、(a)の文書原稿の各行に設定される外接矩形を示した図である。(c)は、(a)の文書原稿に設定される外接矩形を文字のない状態で示した図である。(d)は、(c)に示される文書の右上領域を拡大した図である。 図1の画像処理装置に含まれている文字認識部の構成を示したブロック図である。 本発明の一実施形態に係る画像処理装置の処理内容を示したフローチャートである。 本発明の別の実施形態に係る画像処理装置を有する画像形成装置を示したブロック図である。 図7に示される画像形成装置と同一の画像形成装置を示した図であって、画像ファイルを送受信装置204に出力する際のデータの流れを示したブロック図である。 原稿自動判別部を備える画像処理装置を有する画像形成装置を示したブロック図である。 本発明のさらに別の実施形態に係る画像処理装置を有する画像読取装置を示したブロック図である。 (a)は、画像表示装置の表示特性に応じたガンマ曲線の一例を示した図である。(b)は、文字をくっきりと表示させるためのガンマ曲線の一例を実線で示した図である。
〔実施の形態1〕
本発明の一実施形態を図面に基づいて以下に説明する。図1は、本発明の実施形態の画像処理装置1の概略構成を示すブロック図である。画像処理装置1は、画像読取装置(スキャナ専用機)または複合機に備えられるものである。画像読取装置または複合機は、CCD(Charge Coupled Device)ラインセンサを備えた画像入力装置を有しており、この画像入力装置によって原稿を読み取り、原稿画像を示したR,G,Bの画像データを取得する。画像処理装置1は、上記画像データに対して画像処理を行う装置(集積回路またはコンピュータ)である。なお、Rは赤色成分、Gは緑色成分、Bは青色成分を示す。
図1に示すように、画像処理装置1は記憶装置2および送受信装置3に接続されている。記憶装置2としては、一般的なハードディスク装置を用いることができる。送受信装置3は、通信ネットワークに接続されており、当該通信ネットワークに接続されている他の装置と通信するための装置である。
画像入力装置によって取得された画像データは記憶装置2に一旦保存される。画像処理装置1は、記憶装置2から読み出した画像データに原稿傾き補正等の画像処理を施す。また、画像処理装置1は、この画像データに示される原稿画像(文書原稿)の各文字に対して文字認識処理を施して透明テキスト(テキストデータ)を取得する。さらに、画像処理装置1は、原稿傾き補正の施された画像データと、上記の透明テキストとを含む画像ファイルを作成し、この画像ファイルを送受信装置3に送るようになっている。そして、送受信装置3は、通信ネットワークを介して上記画像ファイルを他の装置(例えば、パーソナルコンピュータ、サーバ装置、表示装置等)に送信するようになっている。
画像処理装置1は、図1に示すように、原稿検知部11、原稿補正部12、文字認識部13、描画コマンド生成部14、フォーマット化処理部15を有している。
原稿検知部11は、記憶装置2から読み出された画像データに基づき、原稿画像(文書原稿)の傾き角度を検出し、さらに、原稿画像のレイアウトの解析を行うブロックである。以下では原稿検知部11について詳細に説明する。原稿検知部11は、図2に示すように、信号変換部21、2値化処理部22、解像度変換部23、原稿傾き検知部24、レイアウト解析部25を有している。
信号変換部21は、記憶装置2から読み出されたR,G,Bの画像データを受け取ると、下記の式aを用いて、R,G,Bの画像データを輝度信号に変換するものである。この輝度信号は2値化処理部22に送られる。
Yi=0.30Ri+0.59Gi+0.11Bi 式a
Y:各画素の輝度信号(輝度値)
R,G,B:各画素の各色成分の値
i:画素毎に付与される値(iは1以上の整数)
2値化処理部22は、信号変換部21から送られてきた輝度信号に対して2値化処理を行って2値化データを作成する。2値化処理に用いられる閾値は、例えば、画像データが8ビットの場合は128に設定される。また、画像データにおいて複数の画素からなるブロック(例えば5×5画素)を設定し、このブロックにおける輝度値の平均値を求め、求めた平均値を当該ブロック内の画素についての閾値としてもよい。
なお、輝度信号を2値化するのではなく、RGBの画像データからL値を求め、L値を2値化することによって2値化データを生成してもよい。L値は、CIE1976L表色系(CIE:Commission Internationale de l'Eclairage)における明度を示す値であり、a値およびb値は前記L表色系における色度を示す値である。また、G信号の値を2値化して2値化データを生成してもよい。
解像度変換部23は、2値化処理部22にて生成された2値化データを低解像度化する。具体的に、解像度変換部23は、1200dpiないし600dpiで読み取られ且つ信号変換部21および2値化処理部22にて処理された2値化データから、300dpiの2値化データと75dpiの2値化データとを生成する。そして、解像度変換部23は、300dpiの2値化データを原稿傾き検知部24に入力し、75dpiの2値化データをレイアウト解析部25に入力する。なお、レイアウト解析に利用される2値化データは、原稿画像の傾き角度の検知に利用される2値化データほど解像度が高くなくてもよいため、レイアウト解析部25に入力する2値化データの解像度を、原稿傾き検知部24に入力する2値化データの解像度よりも低くしている。また、解像度変換は、公知のニアレストネイバー法、バイリニア法、バイキュービック法等を用いて行われる。
原稿傾き検知部24は、画像データに示される原稿画像の傾き角度を検知する。この傾き角度とは、原稿画像の一辺と基準方向とのなす角度である。検知された傾き角度は、原稿像の傾き補正に用いられる。なお、基準方向とは主走査方向または副走査方向に対応する方向である。
傾き角度を検知する方法としては従来から知られている様々な手法を用いることができるが、本実施形態の原稿傾き検知部24は、特開平7−192086に記載の方法を利用して傾き角度を検出する。以下、原稿傾き検知部24の処理について説明する。
(c1)解像度変換部23から送られてきた2値化データから、黒画素と白画素との境界点を複数個抽出し、各境界点の点列の座標データを求める。この場合、黒画素と白画素の境界点は、例えば各文字の上端における白/黒境界点の座標であり、この座標を求めてメモリ(不図示)に格納する。
(c2)上記(c1)の処理によって得られた多数の境界点の座標からなる点列座標データを参照して、この点列座標から回帰直線を求め、その回帰係数bを計算してメモリに格納する(下記式(1))。
Figure 2010287178
なお、Sx,Syはそれぞれ変量xとyの残差平方和で、Sxyはxの残差とyの残差の積の和である。すなわち、次の式(2)〜式(4)で表わされる。
Figure 2010287178
回帰係数bより傾き角度(θ°)を下記の式(5)によって算出する。
Figure 2010287178
そして、原稿傾き検知部24は、以上のようにして求めた傾き角度を、図1の原稿補正部12に伝達するようになっている。
図1の原稿補正部12は、原稿傾き検知部24にて求められた傾き角度が閾値以上であれば、傾き補正が必要と判定し、記憶装置2に記憶されている画像データに対して傾き補正を施し、傾き補正後の画像データを記憶装置2に書き込むようになっている。また、原稿補正部12は、傾き角度が閾値未満であれば、傾き補正が不要と判定し、記憶装置2に記憶されている画像データに対して傾き補正を施さない。
なお、傾き補正の手法としては従来から知られている様々な手法を用いることができるが、例えば、アフィン変換によって画像データをθ°回転させて原稿画像の傾きを補正する手法を用いることができる。
つぎに、図2に示されるレイアウト解析部25について説明する。レイアウト解析部25は、解像度変換部23から入力される2値化データに基づいて、記憶装置2に記憶されている画像データに示される原稿画像のレイアウト解析を行う。なお、本実施形態におけるレイアウト解析とは、(a)原稿画像が縦書き文書か横書き文書のいずれの文書を示すものであるかを判定する縦横判定処理、および、(b)原稿画像に示される各行のうち、タイトルの記載されている行をタイトル部として抽出するタイトル特定処理を意味する。
以下では、まず、縦横判定処理の内容について説明する。レイアウト解析部25は、2値化データにおける副走査方向に延伸する最初のラインに含まれる各画素が黒画素であるか否かを画素毎に判断し、黒画素であると判断した画素に所定のラベルを割り付ける。
その後、レイアウト解析部25は、上記の最初のラインに対して主走査方向に隣接する第2のラインに含まれる各画素が黒画素であるか否かを画素毎に判断し、黒画素であると判断した画素に対し、上記の最初のラインで用いたラベルとは異なるラベルを割り付ける。
レイアウト解析部25は、第2のラインの黒画素のうち、最初のラインの黒画素と連結している画素を検出し、検出した画素のラベルを最初のラインにて用いたラベルと同じラベルに変更する。その後、レイアウト解析部25は、上記の処理を主走査方向に並ぶ各ラインについて繰り返し、最初のラインで用いたラベルと同じラベルが付された画素を抽出することにより、文字の抽出を行う。
そして、レイアウト解析部25は、図3に示すように、抽出した各文字の外接矩形を検出する。なお、各文字および各外接矩形の座標値は、例えば画像データに示される画像の上端かつ左端の位置を原点として算出する。
さらに、レイアウト解析部25は、隣接する外接矩形間の距離を算出し、得られた外接矩形間の距離に基づいて画像データに示される原稿像が縦書き文書であるか横書き文書であるかを判定する。
例えば、レイアウト解析部25は、原稿画像の縦方向の外接矩形間の距離の平均値が横方向の外接矩形間の距離の平均値よりも大きく、両平均値の差の絶対値が所定値以上の場合、横書き文書であると判定する。また、レイアウト解析部25は、原稿画像の縦方向の外接矩形間の距離の平均値が横方向の外接矩形間の距離の平均値よりも小さく、両平均値の差の絶対値が所定値以上の場合、縦書きの文書であると判定する。
つぎに、タイトルの記載されている行を特定するタイトル特定処理について説明する。レイアウト解析部25は、文書原稿を示す原稿画像の各行の外接矩形を設定し、設定した外接矩形の座標値を求める。つまり、原稿画像が縦書き文書および横書き文書のうちのいずれを示す画像であるかが判明すれば、文書の各行を特定できるため、各行の外接矩形を設定できることになる。
例えば、図4(a)に示すように、原稿画像が横書き文書である場合、図4(b)および図4(c)に示すように、文書の各行に対して横方向を長辺とした外接矩形が設定され、各行の外接矩形の座標値が求められる。なお、座標値の単位は、画素数でもよいし、長さ(例えばmm)であってもよい。長さは画素数と画像データの解像度とから求めることが可能である。
さらに、レイアウト解析部25は、原稿画像の行毎に、一方の側の行間の長さ(外接矩形間の最短距離)と他方の側の行間の長さとの和を求め、この和が最も大きい行をタイトル部として特定する。但し、横書き文書の場合の最下段の行と、縦書き文書の場合の左から1番目の行とは、タイトル部として扱わない。また、横書き文書の場合の最上段の行については、紙面の上辺から最上段の行までの最短距離を一方の側の行間の長さとし、最上段の行と上から2つ目の行との最短距離を他方の側の行間の長さとする。さらに、縦書きの場合の右から1番目の行については、右から1番目の行と紙面の右辺との間の最短距離を一方の側の行間の長さとし、右から1番目の行と右から2番目の行との間の最短距離を他方の側の行間の長さとする。
以下、タイトル特定処理をより具体的に説明する。図4(d)は、図4(c)に示される原稿画像の右上領域を拡大した図である。図4(d)に示されるように、行A〜行Eについての行間の長さをa〜fとする。つまり、行Aについては、一方の行間の長さはaとなり、他方の行間の長さはbとなり、行Bについては、一方の行間の長さはbであり、他方の行間の長さはcとなり、行Cについては、一方の行間の長さはcとなり、他方の行間の長さはdとなる。行Dについては、一方の行間の長さはdとなり、他方の行間の長さはeとなり、行Eについては、一方の行間の長さはeとなり、他方の行間の長さはfとなる。なお、行Aは最上段の行であり、行Aの一方の行間の長さaとは、紙面の上辺から行Aまでの最短距離を意味する。
そして、図4(c)および(d)の例において、行A〜行Eの各々について、一方の行間の長さと他方の行間の長さとの和を求めると下記のようになる。
行A:a+b=20
行B:b+c=16
行C:c+d=5
行D:d+e=2
行E:e+f=2
また、横書き文書の場合の最下段の行はタイトル部として扱わないため、図4(c)に示される行Pはタイトル部として扱わない。そして、説明は省略したが、図4(c)の行E〜行Pの間の各行についての一方の行間の長さと他方の行間の長さとの和は、各々2となる。それゆえ、図4(c)および(d)の例において、各行について、一方の行間の距離と他方の行間の距離との和を比較すると、行P以外では、行Aについての値が一番大きくなる。したがって、レイアウト解析部25は、図4(c)(d)に示される行Aを文書のタイトル部として抽出する。
以上示した縦横判定処理およびタイトル特定処理を含むレイアウト解析処理が終了すると、レイアウト解析部25は、レイアウト解析処理の結果であるレイアウト解析結果を文字認識部13へ伝達する。
つぎに、図1の文字認識部13について説明する。図5は、図1の文字認識部13の構成を示すブロック図である。図5に示すように、文字認識部13は、前処理部31、第1認識処理部32、第2認識処理部33、辞書選択部34を有している。また、画像処理装置1は辞書メモリ35を有しており、図5に示すように文字認識部13は辞書メモリ35に接続されている。
辞書メモリ35は、文字認識処理用の辞書データ(認識辞書)を格納する情報記憶装置である。辞書メモリ35には、字形パターンを示す字形辞書データ、単語を示す単語辞書データ等が格納されている。また、字形辞書データ、単語辞書データの各々には、日本語(第1言語)のものの他に、外国語(第2言語)のものが用意されている。つまり、辞書メモリ35には、日本語の辞書データの他に、外国語の辞書データも格納されている。
なお、外国語には、英語、ドイツ語、スペイン語、アラビア語等の様々な言語があり、可能な限り多種類の言語の辞書データを辞書メモリ35に格納してもよいが、記憶容量やコンピュータのリソースとの関係上、必要性の高い言語の辞書データのみを辞書メモリ35に格納する形態であってもよい。例えば、画像処理装置1を備える複合機のユーザ登録情報に示されるユーザが日本人である場合、もしくは、前記複合機にて使用されている言語が日本語である場合、日本語の辞書データと英語の辞書データとを辞書メモリ35に格納しておけばよい。また、画像処理装置1を備える複合機が観光案内のような文書を扱うオフィスにて用いられている場合、日本語の辞書データおよび英語の辞書データの他に、中国語の辞書データやハングルの辞書データも辞書メモリ35に格納されていることが好ましい。
さらに、画像処理装置1にて使用される辞書データの全てが辞書メモリ35に保存される形態であってもよいし、使用頻度が高い言語の辞書データ若しくはユーザが予め指定しておいた言語の辞書データのみを記憶装置2から読み出して辞書メモリ35に格納して使用する形態であってもよい。
また、最新版の辞書データを用いれば文字認識の精度を高めることができるため、常に最新版の辞書データを保持するサーバ(不図示)と画像処理装置1とをネットワークを介して接続させておき、例えばユーザが指定した辞書データやプログラムの処理によって指定された辞書データをサーバから読み出して辞書メモリ35に格納して使用する形態であってもよい。
さらに、コンピュータや医療等の各種専門分野の辞書データを上記のサーバに保存しておき、ユーザに指定された辞書データまたはプログラムの処理によって指定された辞書データをサーバから読み出して辞書メモリ35に格納して使用する形態であってもよい。また、単一の辞書データのデータ量が極めて多すぎる場合、辞書データ全体のうち、利用者に指定された一部分のみまたはプログラムの処理によって指定された一部分のみをサーバから読み出して辞書メモリ35に書き込んで使用する形態であってもよい。例えば、医療分野の辞書データの場合、利用者の指示に応じて、眼科に関連する部分のみを読み出して辞書メモリ35に格納する形態や、心臓や肝臓など内臓に関する部分のみを読み出して辞書メモリ35に格納する形態が考えられる。
前処理部31は、(a)記憶装置2に保存されている傾き補正後の画像データを読み出す読出処理、(b)上記読出処理にて読み出した画像データを輝度信号に変換する信号変換処理、(c)上記輝度信号を2値化して2値化データを生成する2値化処理、(d)上記2値化データの解像度を300dpiにまで低下させる解像度変換処理を行う。そして、前処理部31は、解像度変換処理後の2値化データを第1認識処理部32および第2認識処理部33に入力する。なお、前処理部31の信号変換処理は図2の信号変換部21にて実行される処理と同様であり、前処理部31の2値化処理は図2の2値化処理部22の処理と同様であり、前処理部31の解像度変換処理は図2の解像度変換部23にて実行される処理と同様である。
また、原稿補正部12による傾き補正が行われない場合、前処理部31は、傾き補正のなされていない画像データを記憶装置2から読み出し、この画像データに対して、上記の信号変換処理、2値化処理、解像度変換処理を行い、この解像度変換処理にて得られる2値化データを第1認識処理部32および第2認識処理部33に入力するようになっている。なお、解像度変換部23から出力される2値化データを記憶装置2に保存しておき、原稿補正部12による傾き補正が行われない場合、記憶装置2に保存されている2値化データを第1認識処理部32および第2認識処理部33に入力するようになっていてもよい。このようにすれば、前処理部31による処理を省略できる。
第1認識処理部32は、レイアウト解析部25から送られてくるレイアウト解析結果に基づいて、2値化データにおいて原稿画像(文書原稿)のタイトル部を認識し、このタイトル部の文字に対して文字認識処理を行う。
ここで、文字認識処理は下記のようにして行われる。2値化データに示される原稿画像の文字の特徴量を抽出し、字形辞書データに含まれる各文字の特徴量と比較する。そして、文字認識処理にて用いられる全ての字形辞書データの全ての文字のうち、原稿画像の文字の特徴量に最も近い特徴量を有する文字の文字コードを特定する。これにより、原稿画像の文字の文字コードを認識できる。また、レイアウト解析部25から送られてくるレイアウト解析結果に基づいて縦書き文書および横書き文書のいずれであるかを検知すると、隣接する文字によって構成される文字群を特定できる。そして、文字認識処理にて用いられる全ての単語辞書データの全ての単語と、原稿画像における文字群との比較を行うことにより、原稿画像に記載されている単語を認識できる。
なお、第1認識処理部32は、日本語(画像処理装置1が用いられるオフィスの母国語)の辞書データだけでなく、外国語の辞書データも使用してタイトル部に対する文字認識処理を行う。そして、第1認識処理部32は、タイトル部に対する文字認識処理の結果を辞書選択部34に伝達するようになっている。
辞書選択部34は、第1認識処理部32による文字認識の結果が下記の(D1)〜(D3)である場合、日本語の辞書データのみを用いる指示を示したコマンドを第2認識処理部33に送信する。
(D1)タイトル部が漢字のみからなる。
(D2)タイトル部が平仮名のみからなる。
(D3)タイトル部が漢字および平仮名のみからなる。
また、辞書選択部34は、タイトル部に日本語以外の言語の文字が含まれていると判定した場合、タイトル部における日本語の有無に拘わらず、上記コマンドに日本語の辞書データを用いる指示のみならず当該言語の辞書データを用いる指示を含ませる。つまり、この場合、少なくとも日本語の辞書データと当該言語の辞書データとを用いる指示を示したコマンドが第2認識処理部33に送信される。例えば、タイトル部にハングル文字が含まれる場合、韓国語の辞書データと日本語の辞書データとを用いる指示を示したコマンドを第2認識処理部33に送信する。
なお、辞書選択部34は、複数の言語にて使用される文字(例えば、アルファベット)を認識した場合、下記の(A1)のように処理を行う形態であってもよいし、下記の(A2)のように処理を行う形態であってもよい。
(A1)複数の言語にて使用される文字を認識した場合、当該複数の言語の各々の辞書データの使用指示と日本語の辞書データの使用指示とを示したコマンドを生成する。
(A2)複数の言語にて使用される文字を認識した場合、当該複数の言語の中から優先度の高い言語または使用頻度の高い言語を1つ選択し、当該選択した言語の辞書データの使用指示と日本語の辞書データの使用指示とを示したコマンドを生成する。例えば、アルファベットが使用される言語として英語,ドイツ語,スペイン語等があるが、通常、優先度の高い言語または使用頻度の高い言語は英語であるため、第1認識処理部32は、アルファベットを認識した場合、英語の辞書データと日本語の辞書データとを用いる指示を示したコマンドを生成する。
また、辞書選択部34は、タイトル部に片仮名が含まれる場合、日本語以外の文字の有無に拘わらず、前記したコマンドに英語の辞書データを用いる指示を含ませる。例えば、タイトル部が漢字と片仮名とからなる場合、日本語の辞書データと英語の辞書データとを用いる指示を示したコマンドが第2認識処理部33に送信される。これは、片仮名は外来語もしくは外国語の発音をそのまま表記したものであることが多く、タイトル部分に片仮名があるということは、原稿画像に示される文書原稿において外国語の文字が使用されている可能性があり、使用される可能性が最も高いのが英語だからである。但し、タイトル部に片仮名が含まれる場合、日本語の辞書データと英語の辞書データとを用いる指示を示したコマンドを生成する形態に限定されるものではなく、日本語の辞書データと英語以外の外国語の辞書データとを用いる指示を示したコマンドを生成する形態であっても構わない。
第2認識処理部33は、前処理部31から入力される2値化データに基づき、原稿画像(文書原稿)の全体に対して文字認識処理を行う。ここで、第2認識処理部33にて行われる文字認識処理は第1認識処理部32にて行われる文字認識処理と同様である。つまり、原稿画像の文字の特徴量と字形辞書データに含まれる各文字の特徴量との比較により、原稿画像の文字の文字コードを特定する。また、レイアウト解析部25から送られてくるレイアウト解析結果に基づいて縦書き文書および横書き文書のいずれであるかを検知することによって、隣接する文字によって構成される文字群を特定し、当該文字群と単語辞書データとを比較して単語を認識する。
但し、第2認識処理部33は、辞書メモリ35に格納されている全ての辞書データを用いて文字認識処理を行うのではなく、辞書選択部34から送られてきたコマンドに示される辞書データのみを用いて文字認識処理を行うようになっている。つまり、第2認識処理部33は、日本語の辞書データのみを用いる指示を示したコマンドを受け取った場合、外国語の辞書データを一切用いず、日本語の辞書データのみを用いて、原稿画像に対して文字認識処理を行う。また、第2認識処理部33は、日本語の辞書データと英語の辞書データとを用いる指示を示したコマンドを受け取った場合、日本語の辞書データのみならず英語の辞書データを用いて、原稿画像に対して文字認識処理を行う。
そして、第2認識処理部33は、認識した各文字コードおよび単語を文字認識結果として描画コマンド生成部14に出力するようになっている。また、第2認識処理部33は、単語辞書データによって単語の認識を行っている際、その単語自体のみならずその単語の略語が単語辞書データに登録されていれば、その単語の略語をも文字認識結果として描画コマンド生成部14に出力する。
つぎに、図1の描画コマンド生成部14およびフォーマット化処理部15について説明する。
描画コマンド生成部14は、第2認識処理部33による文字認識結果に基づく透明テキストを画像ファイル内に配置するための命令を生成する。ここで、透明テキストとは、第2認識処理部33にて認識された文字コードや単語をテキスト情報として見かけ上は見えない形で画像データに重ね合わせる(あるいは埋め込む)ためのデータである。つまり、上記の画像ファイルとは、画像データと透明テキストとを対応付けたデータであり、例えば透明テキストを埋め込んだPDFファイルがあげられる。
また、描画コマンド生成部14は、第2認識処理部33にて単語と共に当該単語の略語が認識された場合、当該略語の透明テキストを前記画像データに重ね合わせるための命令を生成する。つまり、上記の画像ファイルにおいては、画像データの文字群と、当該文字群の単語とその単語の略語とを含むテキスト情報とが対応付けられる。
フォーマット化処理部15は、描画コマンド生成部14から入力された命令に応じて透明テキストを生成する。さらに、フォーマット化処理部15は、記憶装置2から読み出した画像データに上記の透明テキストを埋め込み、所定のフォーマットの画像ファイルを生成する。そして、生成した画像ファイルを送受信装置3に出力する。本実施形態では、フォーマット化処理部15はサーチャブルのPDFファイルを生成するようになっている。
なお、原稿補正部12にて傾き補正が施された場合、フォーマット化処理部15は、傾き補正の施された画像データを記憶装置2から読み出し、この画像データに透明テキストを埋め込むようになっている。これに対し、原稿補正部12にて傾き補正が実行されない場合、フォーマット化処理部15は、傾き補正の施されていない画像データを記憶装置2から読み出し、この画像データに透明テキストを埋め込むようになっている。
つぎに、画像処理装置1の処理の流れを図6のフローチャートに基づいて説明する。図6は、画像処理装置1の処理の流れを示したフローチャートである。
画像入力装置に文書原稿が読み取られることによって画像データが生成されると、この画像データが記憶装置2に記憶される。そして、原稿検知部11は、前記画像データに基づいて原稿の傾き角度を検出し(S1)、さらにレイアウト解析を行う(S2)。このレイアウト解析によって、原稿画像において文書原稿のタイトル部が抽出されることになる。
S2の後、原稿補正部12が、記憶装置2に記憶されている画像データに対して傾き補正を行う(S3)。S3の後、第1認識処理部32は、S2のレイアウト解析の結果を参照して、原稿画像に示される文書原稿のタイトル部を検知する。そして、第1認識処理部32は、タイトル部のみに対して文字認識処理を行い、辞書選択部34は、タイトル部が平仮名および/または漢字のみからなるか否かを判定する(S4)。
辞書選択部34は、タイトル部が平仮名および/または漢字のみからなると判定した場合(S4にてYES)、日本語の辞書データのみを用いる指示を示したコマンドを第2認識処理部33に送信する(S5)。これに対し、辞書選択部34は、タイトル部が平仮名および漢字以外の文字を含むと判定した場合(S4にてNO)、その文字の属する言語(外国語)の辞書データと日本語の辞書データとを用いる指示を示したコマンドを第2認識処理部33に送信する(S6)。なお、タイトル部に記述されている平仮名および漢字以外の文字が片仮名である場合、辞書選択部34は、日本語の辞書データと英語の辞書データとを用いる指示を示したコマンドを第2認識処理部33に送信するようになっている。
S5またはS6の後、第2認識処理部33は、辞書選択部34から送られてきたコマンドに示される辞書データのみを用いて、文書原稿を示す画像データに文字認識処理を行う(S7)。そして、第2認識処理部33は、文書原稿に記述されている全ての文字に対して文字認識処理が行われるまでS7を繰り返し(S7においてNO)、全ての文字に対して文字認識処理が行われると(S7においてYES)、処理を終了する。
以上示したように、本実施の形態の画像処理装置1によれば、文書原稿におけるタイトル部を検出している。ここで、文書原稿におけるタイトル部には、前記文書原稿のエッセンスとなる語句が含まれている事が多い。それゆえ、例えば、前記タイトル部が漢字および/または平仮名のみからなるような場合、前記文書原稿における前記タイトル部以外の箇所は日本語のみからなる傾向にある。したがって、例えば、前記タイトル部が漢字および/または平仮名のみからなるような場合、前記文書原稿を示す画像データ全体に対する文字認識処理において、日本語の辞書のみを選択して使用するようにすれば、文字認識精度を維持しつつ、処理速度を向上させることができる。
そこで、本実施の形態の画像処理装置1においては、第1認識処理部(第1処理部)32が、前記タイトル部に対して、日本語(母国語,第1言語)の辞書データおよび日本語以外の外国語(第2言語)の辞書データを用いて第1文字認識処理を行い、第2認識処理部(第2処理部)33が、文書原稿を示す画像データ全体に対して第2文字認識処理を行うようになっている。そして、辞書選択部34が、第1文字認識処理の処理結果に応じた言語の辞書データを、第2文字認識処理にて第2認識処理部33に使用させる辞書データとして選択するようになっている。これにより、文字認識処理において、文字認識精度を維持しつつ、処理速度を向上させることができる。
また、本実施形態では、第2認識処理部33は、文字認識処理にて使用する辞書データにおいて、文字認識処理にて認識した単語に対する略語(例えばデジタルカメラに対するデジカメ)が登録されている場合、前記単語および略語を認識結果として出力するようになっている。そして、フォーマット化処理部(画像ファイル生成部)15は、第2認識処理部33の認識結果に基づいて透明テキストを生成し、この透明テキストと画像データとを対応付けたサーチャブルPDFファイルを作成するようになっている。これにより、略語をキーワードとしてサーチした場合に当該略語に対応する正式単語をヒットさせる事の可能なサーチャブルPDFファイルを生成できる。
また、複数の頁からなる文書原稿において、単一の頁から前記タイトル部または前記大文字領域を検出した場合であっても、当該タイトル部には前記文書原稿全体のエッセンスとなる語句が含まれている事が多い。そこで、画像データが複数頁の文書原稿を示した原稿画像のデータである場合、第1認識処理部32、辞書選択部34、第2認識処理部33は以下のように動作することが好ましい。
画像データが複数頁の文書原稿を示した原稿画像のデータである場合、第1認識処理部32は、複数頁のうちの単一の頁(例えば最初の頁)からタイトル部分を1つだけ検出し、このタイトル部のみに対して文字認識処理を行う。辞書選択部34は、この文字認識処理の結果に応じて、使用する辞書データを示したコマンドを生成する。そして、第2認識処理部33は、全ての頁に対して、辞書選択部34から送られてきたコマンドに示される辞書データのみを用いて文字認識処理を行う。これにより、複数の頁の各々からタイトル部を検出せずに、第2認識処理部33にて用いる辞書データを適切に選択でき、処理の遅延を抑制できる。
また、本実施形態では、第1認識処理部32が、文書原像のタイトル部のみに対して文字認識処理を行い、辞書選択部34が、この文字認識処理の結果に応じて辞書データを選択している。しかし、第1認識処理部32によって文字認識処理の行われる箇所は文書原稿のタイトル部に限られるものではない。例えば、文書原稿を行(領域)毎に分離した場合において、文字サイズの平均値が最も大きな行(大文字領域)を特定し、この特定した行に対して文字認識処理を行い、この文字認識処理の結果に応じて辞書データを選択するような形態であってもよい。これは、文書原稿において文字サイズが相対的に大きな領域も、タイトル部と同様、前記文書原稿のエッセンスとなる語句が含まれている事が多いからである。以下、文字サイズの平均値が最も大きな行に対する文字認識の結果に基づいて辞書データを選択する形態について説明する。
まず、レイアウト解析部25は、原稿画像に示される文書原稿の各行を特定できると、行毎に文字サイズの平均値を算出する。なお、文字サイズは文字の外接矩形の座標値から特定できる。そして、レイアウト解析部25は、文字サイズの平均値の最も大きな行を特定し、特定した行を第1認識処理部32に伝達する。
第1認識処理部32は、レイアウト解析部25によって特定された行(文字サイズの平均値の最も大きな行)に対して文字認識処理を行う。そして、辞書選択部34は、文字サイズの平均値の最も大きな行が平仮名および/または漢字のみからなる場合、日本語の辞書データのみを用いる指示を示したコマンドを第2認識処理部33に送信する。また、辞書選択部34は、文字サイズの平均値の最も大きな行に片仮名が含まれる場合、第2認識処理部33に対して送信するコマンドに、日本語の辞書データを用いる指示の他、英語の辞書データを用いる指示を含ませる。さらに、辞書選択部34は、文字サイズの平均値の最も大きな行に日本語以外の言語の文字が含まれる場合、第2認識処理部33に対して送信するコマンドに、日本語の辞書データを用いる指示の他、当該言語の辞書データを用いる指示を含ませるようになっている。
また、本実施形態のレイアウト解析部25は、原稿傾き補正が施される前の画像データから得られた2値化データを用いてレイアウト解析を行う形態である。しかし、このような形態に限定されるものではなく、レイアウト解析部25は、原稿傾き補正が施された後の画像データに基づいてレイアウト解析を行うようになっていてもよい。但し、原稿傾き補正が施された後の画像データに基づいてレイアウト解析を行うためには、レイアウト解析部25は、解像度変換部23から2値化データを入力するのではなく、前処理部31から2値化データを入力し、前処理部31から入力した2値化データに基づいてレイアウト解析を行う必要がある。このようにすれば、原稿傾き補正後のデータに基づいてレイアウト解析(タイトル特定処理と縦横判定処理(縦書きおよび横書きの判定))を行うことができ、レイアウト解析の精度を高めることができる。なお、原稿傾き補正後のデータに基づいてレイアウト解析を行う形態の場合、図6のS2とS3との順序が逆になる。
なお、辞書選択部34は、タイトル部に片仮名が含まれる場合、日本語以外の文字が含まれていなくても、日本語の辞書データと英語の辞書データとを用いる指示を示したコマンドを生成する形態であるが、当該形態に限定されるものではない。つまり、第1認識処理部32は、タイトル部が日本語のみからなる場合、片仮名が含まれていても、日本語の辞書データのみを用いる指示を示したコマンドを生成するようになっていても構わない。
また、本実施形態の画像処理装置1は、画像入力装置によって原稿から読み取られた画像データを処理するのみならず、受信した電子メールに添付されている画像データ(文書原稿を示すデータ)をも処理可能になっている。つまり、画像処理装置1は、外部装置から電子メールを受信するメール処理部(不図示)を有し、このメール処理部は受信メールに画像データが添付されていると、当該画像データを記憶装置2に一旦保存するようになっている。そして、画像処理装置1は、当該画像データを読み出して、処理することが可能である。
また、画像処理装置1は、送受信装置3が外部装置から受信した画像データを処理することも可能になっている。つまり、送受信装置3は、通信ネットワークを介して外部装置から受信した画像データを記憶装置2に一旦保存するようになっている。そして、画像処理装置1は、当該画像データを読み出して、処理することが可能である。
〔実施の形態2〕
本発明の他の実施の形態を図面に基づいて以下に説明する。本実施の形態は、図1に示した画像処理装置1を複合機である画像形成装置に適用した例を示すものである。図7は画像形成装置200における印刷動作の状態を示すブロック図である。図8は画像形成装置200のイメージ送信状態を示すブロック図である。
本実施形態の画像形成装置200は、複写機能(複写モード)、プリンタ機能(プリントモード)、ファクシミリ送受信信機能(ファクシミリ送信モード、ファクシミリ受信モード)およびscan to e-mail機能(scan to e-mailモード)等を備えたデジタルカラー複合機である。
複写モードは、原稿の画像データを読み取り、その画像データの画像を用紙に印刷するモードである。プリントモードは、画像形成装置200に接続されている端末装置から送られてくる画像データの画像を用紙に印刷するモードである。ファクシミリ送信モードは、原稿の画像データを読み取り、その画像データを電話回線によって外部装置に送信するモードである。ファクシミリ受信モードは、外部装置から画像データをファクシミリにて受信し、受信した画像データの画像を用紙に印刷するモードである。scan to e-mailモードは、原稿を読み取って生成した画像データを電子メールに添付して指定されたアドレスへ送信するモードである。
画像形成装置200は、図7および図8に示すように、画像処理装置201、画像入力装置202、画像出力装置203、送受信装置204、記憶装置206および制御装置207を備えている。
画像入力装置202は、CCD(Charge Coupled Device)ラインセンサを備え、原稿の読取動作を行う。すなわち、原稿に対して光りを照射し、原稿から反射してきた光をR、G、B(R:赤・G:緑・B:青)に色分解された電気信号に変換する。画像処理装置201は、画像入力装置202から入力した画像データに対して画像処理を施す。画像出力装置203は、例えば電子写真方式プリンタやインクジェット方式のプリンタであり、画像処理装置201から入力した画像データの画像を用紙に印刷する。送受信装置204は、通信ネットワークに接続されており、画像データを電子メールに添付して送信する機能を有する。
記憶装置206は、図1に示した記憶装置2に対応する。制御装置207は、CPUを含むコンピュータであり、画像形成装置200が備える各種ハードウエアや各ハードウエア間のデータ転送等を統括的に制御する。また、制御部207は、画像処理装置201に備えられる各ブロックを制御する機能も有する。
画像処理装置201は、A/D(アナログ/デジタル)変換部221、シェーディング補正部222、入力処理部223、原稿検知部224、原稿補正部225、色補正部226、黒生成/下色除去部227、空間フィルタ部228、出力階調補正部229、中間調生成部230、領域分離部231、文字認識部233、描画コマンド生成部234およびフォーマット化処理部235を有している。
以下では、まず画像形成装置200が複写処理を行う際の画像処理装置201の処理内容について説明する。
(複写処理を行う場合)
図7に示すように、A/D変換部221は、画像入力装置202から入力されたアナログのRGBの画像信号をデジタルのRGBの画像データに変換する。シェーディング補正部222は、A/D変換部221から入力された画像データに対して、画像入力装置202の照明系、結像系、撮像系で生じる各種の歪みを取り除く処理を施す。入力処理部223は、シェーディング補正部222から入力されたRGBの画像データのそれぞれに対してγ補正処理などの階調変換処理を施す。入力処理部223は、入力処理部223にて処理された後の画像データを記憶装置206に書き込み、且つ、この画像データを原稿検知部224に送る。
原稿検知部224は、上記の画像データに基づいて原稿像の傾き検知処理を行う。また、原稿検知部224は、上記の画像データを原稿補正部225に送るようになっている。
原稿補正部225は、原稿検知部224での傾き検知の結果に基づいて画像データに対して傾き補正処理を行う。原稿補正部225は、傾き補正後の画像データを色補正部226および領域分離部231に送ると共に記憶装置206に保存するようになっている。
なお、原稿検知部224において原稿の天地方向の判定が行われ、原稿補正部225において、原稿の方向補正(天地方向の補正)が行われるようになっていてもよい。
また、原稿補正部225によって傾き補正処理が施された画像データをファイリングデータとして管理するようにしてもよい。この場合、上記画像データは、例えば、JPEG圧縮アルゴリズムに基づいてJPEGコードに圧縮されて記憶装置206に格納される。そして、この画像データに対するコピー出力動作やプリント出力動作が指示された場合には、記憶装置206からJPEGコードが引き出されて不図示のJPEG伸張部に引き渡され、復号化処理が施されてRGBデータに変換される。また、上記の画像データに対して送信動作が指示された場合には、記憶装置206からJPEGコードが引き出され、ネットワーク網や通信回線を介して送受信装置204から外部装置へ送信される。なお、ファイリングデータの管理やデータの引渡しの動作制御については制御装置207が行うものとする。
色補正部226は、原稿補正部225から入力したRGBの画像データをCMYの画像データに変換し、また当該画像データに対して色再現性を高める処理を施す。黒生成/下色除去部227は、色補正部226から入力したCMYの画像データから黒(K)の画像データを生成し、入力したCMYの画像データから黒(K)の画像データを差し引いて新たなCMYの画像データを生成する。
空間フィルタ部228は、黒生成/下色除去部227から入力したCMYKまたはCMYの画像データに対して、領域分離データを基にデジタルフィルタによる空間フィルタ処理(強調処理、平滑化処理等)を行う。
出力階調補正部229は、空間フィルタ部228から入力した画像データに対して、用紙等の記録媒体に出力するためのγ補正処理を行う。
中間調生成部230は、出力階調補正部229から入力した画像データに対し、誤差拡散法やディザ法を用いて、画像出力装置203において画像を印刷するために必要な階調再現処理(中間調生成処理)を行う。
領域分離部231は、原稿補正部225から入力したRGBの画像データについて、各画素が例えば黒文字領域、色文字領域あるいは網点領域のうちの何れの領域に属するかを判別し、その判別結果を示す領域分離データを生成する。生成した領域分離データは、黒生成/下色除去部227、空間フィルタ部228および中間調生成部230に出力される。黒生成/下色除去部227、空間フィルタ部228および中間調生成部230は、領域分離処理の結果に応じて、画像処理内容の変更を行う。
文字認識部233、描画コマンド生成部234、フォーマット化処理部235は、複写処理においては動作を行わない。上述した各処理が施された画像データは、一旦、図示しないメモリに記憶されたのち、所定のタイミングで読み出されて画像出力装置203に入力される。そして、画像出力装置203は、入力した画像データに基づいて、用紙に画像を印刷するようになっている。
次に、画像形成装置200がイメージ送信処理(外部への画像ファイルの送信)を行う際の画像処理装置201の処理内容について図8を用いて説明する。
(イメージ送信処理を行う場合)
イメージ送信処理時におけるA/D変換部221、シェーディング補正部222、入力処理部223、原稿補正部225、領域分離部231の処理は、複写処理時と同様である。なお、領域分離部231は、図8に示すように、領域分離データを空間フィルタ部228および出力階調補正部229に送信するようになっている。
原稿検知部224は、送信処理時においては、図1の原稿検知部11と同様の処理を行う。つまり、原稿検知部224は、入力処理部223から画像データを受け取り、この画像データに基づいて、原稿の傾き角度の検出処理と、レイアウト解析処理とを行う。なお、原稿検知部224は、図8に示すように、レイアウト解析結果を文字認識部233に伝達するようになっている。
色補正部226は、原稿補正部225から入力されたRGBの画像データを、一般に普及している表示装置の表示特性に適合したR’G’B’の画像データ(例えば、sRGBデータ)に変換し、黒生成/下色除去部227に出力する。黒生成/下色除去部227は、色補正部226から入力された画像データをそのまま空間フィルタ部228に出力(スルー)する。
空間フィルタ部228は、黒生成/下色除去部227より入力されるR’G’B’の画像データに対して、領域分離データを基にデジタルフィルタによる空間フィルタ処理(強調処理および/または平滑化処理)を行い、処理後の画像データを出力階調補正部229に出力する。出力階調補正部229は、画像データの文字領域に対して、文字をくっきりさせるガンマ曲線を用いた階調補正を行い、画像データの文字以外の領域に対して、ディスプレィの表示特性に応じたガンマ曲線を用いた階調補正を行う。なお、図11(a)は、ディスプレィの表示特性に応じたガンマ曲線の一例である。また、図11(b)は、文字をくっきりさせるガンマ曲線の一例を示したものである(図11(b)の破線は図11(a)のガンマ曲線である)。
中間調生成部230は、出力階調補正部229から入力されたR’G’B’の画像データに対して処理を施さず、そのままフォーマット化処理部235に出力する(スルーする)。
文字認識部233は、図1に示した文字認識部13と同様の処理と行うものである。つまり、文字認識部233は、傾き補正後の画像データを記憶装置206から読み出し、この画像データおよびレイアウト解析結果に基づき、画像データの原稿像に示される各文字に対して文字認識処理を行う。そして、図8のように、文字認識部233は、文字認識結果を描画コマンド生成部234に伝達するようになっている。
描画コマンド生成部234は、図1に示した描画コマンド生成部14と同様の処理と行う。つまり、描画コマンド生成部234は、認識処理部33による文字認識結果に基づく透明テキストを画像ファイル内に配置するための命令を生成し、この命令をフォーマット化処理部235に伝達する。
フォーマット化処理部235は、図1に示したフォーマット化処理部15と同様の処理と行う。つまり、フォーマット化処理部235は、中間調生成部230から入力した画像データに、描画コマンド生成部234から入力された命令に応じて透明テキストを埋め込み、所定のフォーマットの画像ファイルを生成する。そして、生成した画像ファイルを送受信装置204に出力する。
送受信装置204は、フォーマット化処理部235から入力された画像ファイルを電子メールに添付し、ネットワークを介して通信可能に接続された外部装置に上記電子メールを送信する。
なお、図9に示すように、入力処理部223の後段且つ原稿検知部224の前段に、R,G,Bの画像データに基づいて原稿の種類を判別する原稿自動判別部290が設けられていてもよい。この原稿自動判別部290は、文字原稿、文字印刷写真原稿、文字印画紙写真原稿、印刷写真原稿、印画紙写真原稿を判別できるものである。そして、原稿自動判別部290の判別結果を文字認識部233に入力し、文字原稿、文字印刷写真原稿、文字印画紙写真原稿の場合のみ、文字認識部233を動作するようにしてもよい。つまり、フォーマット化処理部235は、文字原稿、文字印刷写真原稿、文字印画紙写真原稿の場合、文字認識部233による認識結果に基づいて透明テキストが埋め込まれた画像ファイルを作成し、印刷写真原稿または印画紙写真原稿の場合、透明テキストの無い画像ファイルを作成することになる。
〔実施の形態3〕
本発明のさらに他の実施の形態を図面に基づいて以下に説明する。本実施の形態は、図1に示した画像処理装置1を画像読取装置(スキャナ専用機)に適用した例を示すものである。図10は画像読取装置300の構成を示すブロック図である。
画像読取装置300は画像入力装置202と画像処理装置301と記憶装置206と制御装置207とを備えている。画像処理装置301は、A/D変換部221、シェーディング補正部222、入力処理部223、原稿検知部224、原稿補正部225、色補正部226、文字認識部233、描画コマンド生成部234およびフォーマット化処理部235を備えている。画像処理装置301の各処理部の処理内容は、前述の画像形成装置200におけるイメージ送信処理の場合(図8の場合)と同様である。フォーマット化処理部235から出力される画像ファイル(例えばPDFファイル)はコンピュータ、サーバ、ハードディスク、ネットワークなどへ出力される。
また、以上の各実施形態に示した画像処理装置1,201,301の各部は、ハードウェアロジックによって構成してもよいし、コンピュータであってもよい。この場合、コンピュータに実行させるためのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)を記録したコンピュータ読み取り可能な記録媒体に、画像処理装置の各部にて実行される処理内容を記録するものとすることもできる。この結果、当該プログラムを記録した記録媒体を持ち運び自在に提供することができる。
なお、マイクロコンピュータで処理が行われる場合、図示していないメモリ(例えばROMのようなもの)をプログラムメディアとしてもよい。また、図示していないが外部記憶装置としてプログラム読み取り装置が設けられ、そこにプログラムメディアである記録媒体を挿入することで、プログラムが読み取り可能になっていてもよい。
いずれの場合においても、格納されているプログラムコードはマイクロプロセッサがアクセスして実行させる構成であってもよいし、あるいは、いずれの場合もプログラムコードを読み出し、読み出されたプログラムコードは、マイクロコンピュータの図示されていないプログラム記憶エリアにダウンロードされて、そのプログラムコードが実行される方式であってもよい。このダウンロード用のプログラムは予め本体装置に格納されているものとする。
ここで、上記プログラムメディアは、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュROM等による半導体メモリを含めた固定的にプログラムコードを担持する媒体であってもよい。
また、本実施の形態においては、インターネットを含む通信ネットワークを接続可能なシステム構成であることから、通信ネットワークからプログラムコードをダウンロードするように流動的にプログラムコードを担持する媒体であってもよい。なお、このように通信ネットワークからプログラムコードをダウンロードする場合には、そのダウンロード用のプログラムは予め本体装置に格納しておくか、あるいは別の記録媒体からインストールされるものであってもよい。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
デジタルカラー画像形成装置やコンピュータシステムに備えられるプログラム読み取り装置により、上記記録媒体のプログラムが読み取られることで、上述した画像処理装置の各部の処理が実行される。
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
本発明は、画像データに対して文字認識を行う画像処理装置、画像読取装置、複合機、プログラム、当該プログラムを記録した記録媒体に適用できる。
1 画像処理装置
11 原稿検知部
12 原稿補正部
13 文字認識部
14 描画コマンド生成部
15 フォーマット化処理部(テキスト生成部)
25 レイアウト解析部
31 前処理部
32 第1認識処理部(第1処理部)
33 第2認識処理部(第2処理部)
34 辞書選択部
35 辞書メモリ
200 画像形成装置
201 画像処理装置
202 画像入力装置

Claims (10)

  1. 文書原稿を示す原稿画像の画像データに対して、文字認識処理を行う画像処理装置において、
    前記画像データより、前記文書原稿におけるタイトル部、または、前記文書原稿を複数の領域に分離した場合に文字サイズの平均値が最も大きな領域となる大文字領域を抽出するレイアウト解析部と、
    前記レイアウト解析部にて抽出された前記タイトル部または前記大文字領域に含まれる文字に対し、少なくとも第1言語の辞書データおよび第2言語の辞書データを用いて第1文字認識処理を行う第1処理部と、
    前記画像データに対して第2文字認識処理を行う第2処理部と、
    第2文字認識処理にて第2処理部に使用させる辞書データとして、第1文字認識処理の処理結果に応じた言語の辞書データを選択する辞書選択部とを含むことを特徴とする画像処理装置。
  2. 前記第1言語が日本語であって前記第2言語が日本語以外の言語である場合、
    前記辞書選択部は、第1文字認識処理において、平仮名のみ或いは漢字のみ或いは平仮名および漢字のみが認識された場合、第2文字認識処理に用いられる辞書データとして第1言語の辞書データのみを選択することを特徴とする請求項1に記載の画像処理装置。
  3. 前記辞書選択部は、第1文字認識処理において片仮名が認識された場合、第2文字認識処理に用いられる辞書データとして第1言語の辞書データと第2言語の辞書データとを選択することを特徴とする請求項2に記載の画像処理装置。
  4. 前記画像データが複数の頁からなる文書原稿を示したデータである場合、前記レイアウト解析部は、前記文書原稿に含まれる複数の頁のうちの単一の頁から前記タイトル部または前記大文字領域を抽出することを特徴とする請求項1から3のいずれか1項に記載の画像処理装置。
  5. 前記第2処理部は、第2文字認識処理にて認識した単語に対する略語が辞書データに登録されている場合、前記単語および略語を認識結果として出力し、
    前記第2処理部の認識結果に基づいて、前記画像データに重畳するための透明テキストを生成するテキスト生成部を有することを特徴とする請求項1から4のいずれか1項に記載の画像処理装置。
  6. 請求項1から5のいずれか1項に記載の画像処理装置と、前記文書原稿を読み取って前記画像データを取得する画像入力装置とを備えることを特徴とする画像読取装置。
  7. 請求項1から5のいずれか1項に記載の画像処理装置と、前記文書原稿を読み取って前記画像データを取得する画像入力装置とを備えることを特徴とする複合機。
  8. 文書原稿を示す原稿画像の画像データに対して、文字認識処理を行う画像処理方法において、
    前記画像データより、前記文書原稿におけるタイトル部、または、前記文書原稿を複数の領域に分離した場合に文字サイズの平均値が最も大きな領域となる大文字領域を抽出する第1工程と、
    前記第1工程にて抽出された前記タイトル部または前記大文字領域に含まれる文字に対し、少なくとも第1言語の辞書データおよび第2言語の辞書データを用いて第1文字認識処理を行う第2工程と、
    前記画像データに対して第2文字認識処理を行う第3工程とを含み、
    第2文字認識処理にて使用する辞書データとして、第1文字認識処理の処理結果に応じた言語の辞書データを選択することを特徴とする画像処理方法。
  9. コンピュータを請求項1から5の何れかに1項に記載の画像処理装置の前記各部として機能させるためのプログラム。
  10. 請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2009142553A 2009-06-15 2009-06-15 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体 Pending JP2010287178A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009142553A JP2010287178A (ja) 2009-06-15 2009-06-15 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009142553A JP2010287178A (ja) 2009-06-15 2009-06-15 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体

Publications (1)

Publication Number Publication Date
JP2010287178A true JP2010287178A (ja) 2010-12-24

Family

ID=43542807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009142553A Pending JP2010287178A (ja) 2009-06-15 2009-06-15 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP2010287178A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013012163A (ja) * 2011-06-30 2013-01-17 Fujitsu Ltd 画像認識装置、画像認識方法及び画像認識用コンピュータプログラム
JP2014002493A (ja) * 2012-06-18 2014-01-09 Konica Minolta Inc 画像処理装置、画像処理方法およびプログラム
JP2014175000A (ja) * 2013-03-08 2014-09-22 Konicaminolta Laboratory Usa Inc ファイル変換方法及びシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013012163A (ja) * 2011-06-30 2013-01-17 Fujitsu Ltd 画像認識装置、画像認識方法及び画像認識用コンピュータプログラム
JP2014002493A (ja) * 2012-06-18 2014-01-09 Konica Minolta Inc 画像処理装置、画像処理方法およびプログラム
US9881001B2 (en) 2012-06-18 2018-01-30 Konica Minolta, Inc. Image processing device, image processing method and non-transitory computer readable recording medium
JP2014175000A (ja) * 2013-03-08 2014-09-22 Konicaminolta Laboratory Usa Inc ファイル変換方法及びシステム

Similar Documents

Publication Publication Date Title
JP5280425B2 (ja) 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
JP4772888B2 (ja) 画像処理装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
JP4927122B2 (ja) 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記録媒体
JP5972578B2 (ja) 画像処理装置、画像形成装置、プログラム、記録媒体
JP4631133B2 (ja) 文字認識処理のための装置、方法及び記録媒体
JP2011008549A (ja) 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体
JP4362538B2 (ja) 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
JP2010273324A (ja) 制御装置、画像読取装置、画像形成装置、画像読取装置の制御方法、プログラム、記録媒体
JP2010146185A (ja) 画像処理装置、画像読取装置、画像送信装置、画像処理方法、プログラムおよびその記録媒体
JP2007193750A (ja) 画像処理装置、文字判定プログラム、および文字判定方法
US8670623B2 (en) Image processing apparatus, image conversion method, and computer-readable storage medium for computer program based on calculated degree of complexity
US7986838B2 (en) Image processing apparatus and image processing method
JP2009015819A (ja) 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
JP2012118863A (ja) 画像読取装置、画像形成装置、画像読取方法、プログラムおよびその記録媒体
JP4582200B2 (ja) 画像処理装置、画像変換方法、およびコンピュータプログラム
JP2010287178A (ja) 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体
JP3899872B2 (ja) 画像処理装置、画像処理方法ならびに画像処理プログラムおよびこれを記録したコンピュータ読み取り可能な記録媒体
JP2015015599A (ja) 画像処理装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
JP4396710B2 (ja) 画像処理装置、画像処理装置の制御方法、および画像処理装置の制御プログラム
JP6860609B2 (ja) 画像処理装置、画像形成装置、コンピュータプログラム及び記録媒体
JP2010273119A (ja) 画像処理装置、画像形成装置、画像処理方法、コンピュータプログラム及び記録媒体
US20080043269A1 (en) Method and apparatus for processing image containing picture and characters
JP5197464B2 (ja) 画像処理方法、画像処理装置、画像形成装置、コンピュータプログラム及び記録媒体
JP3899800B2 (ja) 画像処理装置、画像処理方法および画像処理プログラムを記録したコンピュータ読取可能な記録媒体
JP2010286917A (ja) 画像処理装置、画像読取装置、複合機、画像処理方法、プログラムおよび記録媒体