JP2023133082A - 読取装置、画像形成装置、読取方法、および情報処理装置 - Google Patents
読取装置、画像形成装置、読取方法、および情報処理装置 Download PDFInfo
- Publication number
- JP2023133082A JP2023133082A JP2022146213A JP2022146213A JP2023133082A JP 2023133082 A JP2023133082 A JP 2023133082A JP 2022146213 A JP2022146213 A JP 2022146213A JP 2022146213 A JP2022146213 A JP 2022146213A JP 2023133082 A JP2023133082 A JP 2023133082A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- image
- character
- data
- character recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000010365 information processing Effects 0.000 title claims abstract description 10
- 239000000463 material Substances 0.000 claims abstract description 25
- 239000000284 extract Substances 0.000 claims abstract description 11
- 230000001678 irradiating effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 abstract description 20
- 238000012015 optical character recognition Methods 0.000 description 52
- 238000012545 processing Methods 0.000 description 47
- 238000010586 diagram Methods 0.000 description 18
- 238000012546 transfer Methods 0.000 description 18
- 238000004040 coloring Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 239000006229 carbon black Substances 0.000 description 6
- 108091008695 photoreceptors Proteins 0.000 description 5
- 229910052799 carbon Inorganic materials 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- CVOFKRWYWCSDMA-UHFFFAOYSA-N 2-chloro-n-(2,6-diethylphenyl)-n-(methoxymethyl)acetamide;2,6-dinitro-n,n-dipropyl-4-(trifluoromethyl)aniline Chemical compound CCC1=CC=CC(CC)=C1N(COC)C(=O)CCl.CCCN(CCC)C1=C([N+]([O-])=O)C=C(C(F)(F)F)C=C1[N+]([O-])=O CVOFKRWYWCSDMA-UHFFFAOYSA-N 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【課題】読取対象の文字に用いる色材の制限を抑えつつ、文字認識の精度を向上させる読取装置、画像形成装置、読取方法及び情報処理装置を提供する。【解決手段】コピー機能、プリンタ機能、スキャナ機能およびファクシミリ機能のうち少なくとも2つの機能を有する画像形成装置において、読取装置101は、異なる色材からなる読取対象に可視光及び不可視光を照射する光源2と、読取対象に対する不可視光の照射によって読み取られた第1の画像データ及び読取対象に対する可視光の照射によって読み取られた第2の画像データを生成する画像生成部21と、画像生成部21が生成した第1の画像データ及び第2の画像データの文字認識を行う画像認識部22と、を備える。画像認識部22は、第1の画像データから文字認識して抽出した文字データ中に読取対象の文字に対して抜けがあると判断すると、抜けている文字データを第2の画像データから文字認識して抽出する。【選択図】図4
Description
本発明は、読取装置、画像形成装置、読取方法、および情報処理装置に関する。
従来、画像データに含まれる文字画像を文字として認識するOCR(Optical Character Recognition:光学文字認識)処理を実行する読取装置が知られている。読取装置の読取対象である文書には、認識対象の文字(以下、「コンテンツ情報」ともいう)の他に、罫線、地紋、印影など(以下、「非コンテンツ情報」ともいう)が含まれている場合があり、それらと文字が重なっていると文字認識の際に文字と認識されないなどの問題が生じることがあった。
このような問題を解決するものとして、色材の不可視域での光学特性の違いを用いることで、非コンテンツ情報を除去した画像データを生成して文字認識の精度を向上させるものが提案されている(例えば、特許文献1)。この特許文献1のものは、コンテンツ情報と、非コンテンツ情報とが異なる色材で印字されていることを前提とし、近赤外光などの不可視光を読取り対象に照射して、コンテンツ情報と非コンテンツ情報とを区別するものである。
より詳細には、読取対象に不可視光を照射することによって、CYMトナーなどの色材で形成された罫線、地紋、印影などの非コンテンツ情報が除去され、カーボンを利用したKトナーなどの色材で形成された文字であるコンテンツ情報が残る画像データが得られるものである。特許文献1のものは、非コンテンツ情報を除去した画像データに基づいて、文字認識を行うことにより文字認識の精度を向上させるものである。
しかしながら、従来の非コンテンツ情報の除去方法では、例えばコンテンツ情報に非コンテンツ情報と同じ色材の文字が含まれていた場合、当該文字も除去してしまい正確な文字認識ができないという新たな問題が生じることがわかった。例えば、コンテンツ情報の一部に強調のための赤文字が含まれている場合、当該赤文字を赤い印影などとともに除去してしまい、文字認識できない場合があった。
本発明は、上記に鑑みてなされたものであって、読取対象の文字に用いる色材の制限を抑えつつ、文字認識の精度を向上させることを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、異なる色材からなる読取対象に可視光および不可視光を照射する光源と、前記読取対象に対する前記不可視光の照射によって読み取られた第1の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第2の画像データを生成する画像生成部と、前記画像生成部が生成した前記第1の画像データ、および前記第2の画像データの文字認識を行う文字認識部と、を備え、前記文字認識部は、前記第1の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第2の画像データから文字認識して抽出する、ことを特徴とする。
本発明によれば、読取対象の文字に用いる色材の制限を抑えつつ、文字認識の精度を向上させることができる、という効果を奏する。
以下に添付図面を参照して、読取装置、画像形成装置、読取方法、および情報処理装置の実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、第1の実施の形態にかかる画像形成装置100の一例の構成を示す図である。図1において、画像形成装置100は、コピー機能、プリンタ機能、スキャナ機能およびファクシミリ機能のうち少なくとも2つの機能を有する一般に複合機と称されるものである。
図1は、第1の実施の形態にかかる画像形成装置100の一例の構成を示す図である。図1において、画像形成装置100は、コピー機能、プリンタ機能、スキャナ機能およびファクシミリ機能のうち少なくとも2つの機能を有する一般に複合機と称されるものである。
画像形成装置100は、読取装置である画像読取部101およびADF(Automatic Document Feeder)102を有し、その下部に作像装置103を有する。作像装置103については、内部の構成を説明するために、外部カバーを外して内部の構成を示している。
ADF102は、原稿(読取対象)をコンタクトガラスである原稿支持部の読取位置に位置させる。より詳しくは、ADF102は、載置台に載置した原稿を読取位置に自動搬送する。画像読取部101は、ADF102により搬送された原稿を所定の読取位置で読み取る。また、画像読取部101は、原稿を載置する原稿支持部であるコンタクトガラスを上面に有し、読取位置であるコンタクトガラス上の原稿を読み取る。具体的に画像読取部101は、内部に光源や、光学系や、CCD(Charge Coupled Device)等のイメージセンサを有するスキャナであり、光源で照明した原稿の反射光を、光学系を通じてイメージセンサで読み取る。
作像装置103は、画像読取部101で原稿(読取対象)の画像を読み取った画像データや、PC(Personal Computer)等の外部装置から受信した画像データなどを画像として記録紙に印刷する。作像装置103は、記録紙を手差しする手差ローラ104や、記録紙を供給する記録紙供給ユニット107を有する。記録紙供給ユニット107は、多段の記録紙給紙カセット107aから記録紙を繰り出す機構を有する。供給された記録紙は、レジストローラ108を介して二次転写ベルト112に送られる。
二次転写ベルト112上を搬送する記録紙は、転写部114において中間転写ベルト113上のトナー画像が転写される。
また、作像装置103は、光書込装置109や、タンデム方式の作像ユニット(Y、M、C、K)105や、上記中間転写ベルト113や、上記二次転写ベルト112などを有する。さらに、作像装置103は、作像ユニット105を備える。作像ユニット105による作像プロセスにより、光書込装置109が書き込んだ感光体ドラム上の静電画像を中間転写ベルト113上にトナー画像として形成する。
具体的に、作像ユニット(Y、M、C、K)105は、4つの感光体ドラム(Y、M、C、K)を回転可能に有し、各感光体ドラムの周囲に、帯電ローラ、現像器、一次転写ローラ、クリーナーユニット、及び除電器を含む作像要素106をそれぞれ備える。各感光体ドラムにおいて作像要素106が機能し、感光体ドラム上のトナー画像が各一次転写ローラにより中間転写ベルト113上に転写される。
中間転写ベルト113は、各感光体ドラムと各一次転写ローラとの間のニップに、駆動ローラと従動ローラとにより張架して配置されている。中間転写ベルト113に一次転写されたトナー画像は、中間転写ベルト113の走行により、二次転写装置で二次転写ベルト112上の記録紙に二次転写される。その記録紙は、二次転写ベルト112の走行により、定着装置110に搬送され、記録紙上にトナー画像がカラー画像として定着する。その後、記録紙は、機外の排紙トレイへと排出される。なお、両面印刷の場合は、反転機構111により記録紙の表裏が反転されて、反転された記録紙が二次転写ベルト112上へと送られる。
なお、作像装置103は、上述したような電子写真方式によって印刷画像を形成するものに限るものではなく、インクジェット方式によって印刷画像を形成するものであってもよい。
図2は、画像形成装置100のハードウェア構成を示すブロック図である。画像形成装置100は、上述した画像読取部101、ADF102、作像装置103に加えて、操作パネル120、CPU(Central Processing Unit)121、メモリ122、および記憶装置123等を備える。
操作パネル120は、例えば、LCD(Liquid Crystal Display)等で構成される表示デバイスとその表面に設けられたタッチパネル等で構成される。操作パネル120は、画像形成装置100を利用するユーザに対して各種情報を表示する。また、操作パネル120は、ユーザの操作を受付けて操作信号をCPUに出力する。
CPU121は、画像形成装置100を統括的に制御する。メモリ122は、OS(Operating System)や各種アプリケーションプログラムを動作させるためのメモリである。記憶装置123は、画像形成装置100のOSや各種アプリケーションプログラムを記憶する。また、記憶装置123は、画像読取部101によって読み取られた読取画像データ、当該読取画像データから文字認識処理した文字認識データ、辞書データ等も記憶する。CPU121、メモリ122、および記憶装置123は、バス等を介して接続され、画像形成装置100の制御部を構成する。通信装置124は、PCやサーバ装置などの外部機器と通信を行うための装置である。
次に、画像読取部101について説明する。
図3は、画像読取部101の構造を例示的に示す断面図である。図3に示すように、画像読取部101は、本体11内に、撮像素子であるイメージセンサ9を備えたセンサ基板10、レンズユニット8、第1キャリッジ6及び第2キャリッジ7を有する。イメージセンサ9は、読取手段として機能するものであって、例えばCCDやCMOSイメージセンサなどである。第1キャリッジ6は、LED(Light Emitting Diode)である光源2及びミラー3を有する。第2キャリッジ7は、ミラー4、5を有する。また、画像読取部101は、上面にコンタクトガラス1及び基準白板13を設けている。
画像読取部101は、読取動作において、第1キャリッジ6及び第2キャリッジ7を待機位置(ホームポジション)から副走査方向(A方向)に移動させながら光源2から光を上方に向けて照射する。そして、第1キャリッジ6及び第2キャリッジ7は、原稿12からの反射光を、レンズユニット8を介してイメージセンサ9上に結像させる。
また、画像読取部101は、電源ON時などには、基準白板13からの反射光を読取って基準を設定する。即ち、画像読取部101は、第1キャリッジ6を基準白板13の直下に移動させ、光源2を点灯させて基準白板13からの反射光をイメージセンサ9の上に結像させることによりゲイン調整を行う。
図4は、画像読取部101を構成する各部の電気的接続を示すブロック図である。図4に示すように、画像読取部101は、上述したイメージセンサ9、光源2に加え、画像生成部21、文字認識部として機能する画像認識部22、画像読取部101の制御を行う制御部23、光源駆動部24を備えている。なお、画像生成部21や画像認識部22は、ハードウェア、ソフトウェアのどちらで実現されても良い。
光源2は、近赤外光などの不可視光、および可視光を発光する。光源駆動部24は、光源2を駆動する。
イメージセンサ9は、可視、不可視の波長域を撮像可能である。以下の説明において、異なる色材からなる原稿(読取対象)に近赤外光などの不可視光を照射してイメージセンサ9が撮像した読取画像データを不可視画像データと呼ぶ。また、原稿(読取対象)に可視光を照射してイメージセンサ9が撮像した読取画像データを可視画像データと呼ぶ。イメージセンサ9は、被写体からの反射光を読み取り、可視画像データとしての読取りの場合はRGB信号を、不可視画像データとしての読取りの場合はNIR信号を出力する。すなわち読取対象原稿(読取対象)の画像はイメージセンサ9で撮像することで画像データになる。一般のイメージセンサのカラーフィルタはNIR光を透過する特性を持っているため、不可視画像データの読取りの場合にはNIR信号がRGB各出力に現れることになる。本実施の形態においては、説明上、R出力のNIR信号を用いることとする。
なお、本実施形態においては、不可視波長領域として近赤外領域(800~1000nm)を想定しているが、他の波長域でもかまわない。ただし、シリコン半導体で構成されているイメージセンサ9は近赤外領域にも感度を持つことから、不可視波長領域として近赤外領域を用いることで既存のイメージセンサを流用することが可能となり、容易に不可視領域での読み取りを実現できる。そのため、不可視波長領域として近赤外領域を用いることが望ましい。
画像生成部21は、イメージセンサ9から出力される可視画像データ(R/G/B)と不可視画像データ(IR)を入力する。画像生成部21は、入力した画像データに対して画像処理を行って画像認識用の画像データを生成する。画像生成部21における画像処理には、例えば、解像度調整、倍率補正、スキュー補正などが含まれる。以下の説明において、不可視画像データに対して画像処理を行って生成された画像データを第1の画像データと呼ぶ。また、可視画像データに対して画像処理を行って生成された画像データを第2の画像データと呼ぶ。画像生成部21は、生成した画像データ(第1の画像データまたは第2の画像データ)を画像認識部22に出力する。
画像認識部22は、画像生成部21から出力された画像データを入力する。画像認識部22は、特定の情報を認識して、その認識結果を出力する。具体的には、本実施形態の画像認識部22は、文字を認識する文字認識部として機能し文字認識データとしての認識結果を出力する。
制御部23は、光源駆動部24、イメージセンサ9、画像生成部21、画像認識部22の各部を制御する。
ここで、図5は白紙に各トナーで印字した場合の分光反射率について説明する図である。図5は、例えば、作像装置103で用いられるKCMYのトナーを白紙(各波長において高い反射率を示す紙)に載せた場合における分光反射率を示している。
本実施形態では、白紙に異なる色材を載せた時の分光反射率の違いを利用して可視画像と不可視画像で異なる画像を得る。図5に示すように、Kトナーで印字した箇所は近赤外領域の光をほぼ吸収するが、CMYトナーのみで印字した箇所は近赤外領域の光をほとんど吸収しない。すなわち、不可視画像ではKトナーで印字された画像のみが現れるので、可視画像と不可視画像で差異が生じる。図5に示すような色材毎の近赤外領域の吸収特性の違いは、色材の一部にカーボンブラックを含むか否かによって決まる。そのため、作像装置103で用いられるトナーに限らず他の色材であってもカーボンブラックを含む色材とカーボンブラックを含まない色材を用いて印字を行えば、同様に可視画像と不可視画像で差異が生じる画像を得ることが可能である。また、カーボンブラックに限らずとも不可視領域で吸収特性を持つ物質を含む色材と含まない色材を用いることで同様の効果を得ることが可能である。
次に、図6を参照して、本実施形態の文字認識の概要について説明する。図6(a)は原稿(読取対象)の一例である。原稿の文字部は、「営業活動」の文字がカーボンブラックを含まないCMYトナー(以下、単に「CMYトナー」という)で印字される。また、他の文字はカーボンブラックを含むKトナー(以下、単に「Kトナー」という)で印字されている。また、「社外秘」の印影はCYMトナーで印字されている。上記原稿において、文字認識対象のコンテンツ情報は、印影の「社外秘」を除去した文字である。
原稿の文字認識を行うにあたり、画像読取部101は、原稿の不可視画像に基づく第1の画像データの生成および可視画像に基づく第2の画像データの生成を行う。このとき、画像読取時に原稿が斜めになっていて読取った画像が傾いている場合、画像読取部101は、OCR処理の結果に悪影響がでないようにOCR処理を行う前にスキュー補正を行う。
「社外秘」の印影を除去するために、原稿に不可視光を照射すると、不可視画像にはKトナーで印字された画像のみが現れるため、図6(b)に示すような不可視画像が得られる。この場合、コンテンツ情報である文字部の一部、すなわちCYMトナーで印字された「営業活動」の文字も除去されてしまう。
そこで、本実施形態の画像認識部22は、不可視画像データから文字認識を行って抽出した文字データ中に原稿(読取対象)の文字または文字列が抜けて除去されている文字データの抜けを判断、すなわち抜けて除去されている文字データの座標を特定し、特定した座標を用いて抜けて除去されてしまった文字データを図6(c)に示す可視画像データの第2の画像データから文字認識してその文字データを抽出する。そして、不可視画像データの第1の画像データの文字データの抜けと判断した文字認識処理結果と可視画像データの第2の画像データから抽出した文字認識処理結果とを統合することで、「営業活動」の文字も含めた文字認識データを得ることができるようにするものである。
具体的には、第1の画像データに対してOCR処理を実行して、文字データの位置座標を認識する。図7は、第1の画像データのOCR結果テーブルを示す。OCR結果テーブルは、文字データが存在する座標について、垂直方向座標、水平方向座標、および文字データを対応付けて記憶する。第1の画像データには、「営業活動」の文字データは含まれないため、OCR結果テーブルには「営業活動」の文字データは含まれない。なお、以下の説明において、垂直方向座標と水平方向座標との組み合わせを単に座標という場合がある。
また、画像認識部22は、OCR結果による文字座標と辞書データに登録された単語とから、原稿が横書き文書であるか縦書き文書であるか判断できるようになっている。例えば、文書に対して実行されたOCR結果で、水平方向に連続する文字によって形成される単語が所定数以上辞書データに登録されている場合、画像認識部22は当該文書を横書き文書であると判断する。また、文書に対して実行されたOCR結果で、垂直方向に連続する文字によって形成される単語が所定数以上辞書データに登録されている場合、画像認識部22は当該文書を縦書き文書であると判断する。画像認識部22は、図6に示す原稿について横書き文書であると判断する。また、画像認識部22は、辞書データに登録された単語を用いて不可視画像から抽出した文字データで原稿の文字列が誤認識した文字データを文字データの抜けと判断してもさらに追加してもよい。
図7に示すOCR結果テーブルにおいて、垂直方向座標が同じ値である文字データは、第1の画像データにおいて水平方向に並んでいる。例えば、座標が(1、7)の「報」の文字データ、座標(1、8)の「告」の文字データ、および座標が(1、9)の「書」の文字データは、第1の画像データにおいて水平方向に並んでいる。また、垂直方向座標が1の文字データは、上記のとおり水平方向座標が7、8、9と連続しており等間隔で並んでいる。
画像認識部22は、横書き文書の第1の画像データにおいて、水平方向(横方向)に複数の文字データが等間隔に並んでいる場合、これら文字データ間に抜けはないと判断する。通常の横書き文書では、文字は水平方向に等間隔で配置されるからである。
図7の例では、画像認識部22は、第1の画像データにおいて垂直方向座標が1である行に存在する「報」「告」「書」の文字データの間に文字データの抜けはないと判断する。垂直方向座標が3および4の文字データについても、水平方向座標が等間隔で並んでいるので、これらの文字データ間に文字データの抜けはないと判断する。
これに対し、垂直方向座標が6の文字データは、水平方向座標が1~3の間、8~15の間は連続しているが、3~8の間には存在しない。言い換えると、垂直方向座標が6である文字データは、水平方向に等間隔で並んでいないので、画像認識部22は、座標が(6、4)、(6、5)、(6、6)(6、7)の文字データが抜けている可能性があり抜けと判断する。つまり、画像認識部22は、(6、4)、(6、5)、(6、6)(6、7)を抜け座標と判断する。
なお、画像認識部22は、文字データが水平方向に等間隔で並んでいるか否かによって文字データに抜けがあるか否かを判断するので、例えば水平方向座標が1つおきで文字データが規則的に並んでいる場合、これら文字データの間に抜けはないと判断する。
そして、画像認識部22は、第1の画像データについて抜けと判断した座標に対応する第2の画像データの座標のみOCR処理を実行する。図8は、第2の画像データについて抜け座標をOCR処理した結果を示すOCR結果テーブルである。第2の画像データのOCR結果テーブルには、(6、4)の座標に「営」、(6、5)の座標に「業」、(6、6)の座標に「活」、(6、7)座標に「動」の文字データが記憶されている。
画像認識部22は、図7に示す第1の画像データのOCR結果と図8に示す第2の画像データのOCR結果とを統合して、図9に示す統合データ(文字認識データ)を生成し、最終的な文字認識処理結果として出力する。これにより、画像認識部22は、コンテンツ情報にCMYトナーで印字された文字が含まれている場合でも正しく文字認識処理を行うことができる。
なお、本実施形態において、可視画像データはユーザが利用するスキャン画像として記憶装置123に保存される。また、不可視画像データは、OCR処理の結果にのみ利用するため、原稿の文字認識処理が終了すると削除される。不可視画像データが生成および削除されたことはユーザには通知しないようになっている。
上記の文字認識により、画像認識部22は、CMYトナーで印字される非コンテンツ情報(印影の文字)を文字認識の対象から除外できるばかりでなく、当該CMYトナーで印字されるコンテンツ情報(文書の文字)については文字認識の対象とすることができる。したがって、画像認識部22による文書の文字認識の精度をより向上させることができる。しかも、第2の画像データのOCR処理については、可視画像データ全体でなく、抜け座標のみについて行えばよいので、処理時間を短くすることができる。したがって、効率的に文字認識を行うことができる。
ここで、画像認識部22が実行する特定処理について説明する。特定処理は、上述した第1の画像データにおける抜け座標を特定するための処理である。図10は、特定処理の流れを示すフローチャートである。なお、画像認識部22は、特定処理を実行する前に原稿の不可視画像に基づく第1の画像データ、および可視画像に基づく第2の画像データを取得しているものとする。
画像認識部22は、第1の画像データのOCR結果テーブルから先頭の垂直方向座標を抽出してセットする(ステップS1)。図7の例では、(1、7)、(1、8)、(1、9)の座標に係るデータが抽出される。画像認識部22は、同一垂直方向座標の行を検索する(ステップS2)。具体的には、ステップS1でセットされた垂直方向座標が1のデータについて検索を行う。
次いで、画像認識部22は、検索したデータの水平座標の値が等間隔に並んでいるか否か判断する(ステップS3)。言い換えると、第1の画像データの文字データが水平方向に等間隔で並んでいるか否か判断する。等間隔に並んでいると(ステップS3のYes)、画像認識部22は次の垂直方向座標があるか否か判断する(ステップS4)。等間隔に並んでいない場合(ステップS3のNo)、画像認識部22は間隔が空いている座標、すなわち抜けがあると判断し抜け座標と判断した座標を記憶し(ステップS5)、ステップS4の処理に移行する。
ステップS4の処理において、次の垂直方向座標がある場合(ステップS4のYes)、画像認識部22は、次の垂直方向座標のデータをセットし(ステップS6)、ステップS2の処理に移行する。次の垂直方向座標がない場合(ステップS4のNo)、画像認識部22は特定処理を終了する。
上記特定処理により、画像認識部22は、第1の画像データにおける抜け座標を特定することができる。
(第2の実施の形態)
次に第2の実施形態について説明する。第2の実施形態は、文書の先頭あるいは末尾にCYMトナーで印字された文字があっても、これを認識することができるようにした点において、第1の実施形態と相違する。なお、第1の実施形態と同様の構成および機能については説明を省略する場合がある。
次に第2の実施形態について説明する。第2の実施形態は、文書の先頭あるいは末尾にCYMトナーで印字された文字があっても、これを認識することができるようにした点において、第1の実施形態と相違する。なお、第1の実施形態と同様の構成および機能については説明を省略する場合がある。
まず、図11を参照して、本実施形態の文字認識の概要について説明する。図11(a)は原稿(読取対象)の一例である。この原稿は、左端1列および右端1列にスペースを有している。
原稿の文字部は、1行目の「先頭」の文字、および2行目の「末尾」の文字がCMYトナーで印字され、他の文字はKトナーで印字されている。なお、図示はしていないが、原稿の用紙にはCMYの色材を含む地紋が形成されているとする。
地紋を除去するために原稿に不可視光を照射すると、不可視画像にはKトナーで印字された画像のみが現れるため、図11(b)に示すような不可視画像が得られる。この場合、コンテンツ情報である文字部の一部、すなわちCYMトナーで印字された「先頭」および「末尾」の文字が除去されてしまう。本実施形態においても、画像認識部22は、除去されてしまった文字を図11(c)に示す可視画像に基づいて生成される第2の画像データから認識し、不可視画像に基づいて生成される第1の画像データの認識結果と統合することで、文字認識の精度を向上させるものである。
画像認識部22は、第1の実施形態と同様に、第1の画像データに対してOCR処理を実行して、文字データの位置座標を認識する。図12は、第1の画像データのOCR結果テーブルを示す。本実施形態におけるOCR結果テーブルは、第1の画像データにおいて文字データが位置していない座標には「空白」が登録される。
第1の画像データのOCR結果テーブルにおいて「空白」が登録される座標は、抜け座標あるいは原稿自体に文字がない座標のいずれかとなる。図11の例では、原稿自体に文字がない座標である(1、1)、(1、9)、(2、1)、(2、9)に「空白」が登録される。また、第1の画像データには、「先頭」および「末尾」の文字データは含まれないため、これらの文字データが位置する抜け座標である(1、2)、(1、3)、(2、7)、(2、8)に「空白」が登録されている。
画像認識部22は、「空白」が登録されている座標を抜け座標と推定し、第2の画像データについて抜け座標にのみOCR処理を実行する。図13は、第2の画像データについて抜け座標をOCR処理した結果を示すOCR結果テーブルである。
原稿自体に文字がない座標の(1、1)、(1、9)、(2、1)、(2、9)は、第2の画像データのOCR結果テーブルにおいても「空白」が登録される。一方、(1、2)の座標には「先」、(1、3)の座標には「頭」、(2、7)座標には「末」、(2、8)の座標には「尾」の文字データが登録される。
画像認識部22は、図12に示す第1の画像データのOCR結果と図13に示す第2の画像データのOCR結果とを統合して、図14に示す統合データを生成し、最終的な文字認識結果として出力する。これにより、画像認識部22は、コンテンツ情報にCMYトナーで印字された文字が行の先頭あるいは末尾に含まれている場合でも正しく文字認識を行うことができる。
上記の文字認識により、第1の実施形態と同様に、画像認識部22は、CMYトナーで印字される非コンテンツ情報の文字を文字認識の対象から除外できるばかりでなく、当該CMYトナーで印字されるコンテンツ情報の文字については文字認識の対象とすることができる。したがって、画像認識部22による文書の文字認識の精度をより向上させることができる。
また、画像認識部22は、文字データが存在しない座標に対応して空白を示す情報を登録したOCR結果テーブルに基づいて抜けがあると判断、すなわち抜け座標を判断する。このため、文書の先頭や末尾にCMYトナーで印字された文字が存在している場合であっても、確実に抜け座標を認識することができる。
なお、本実施形態においては、図13の第2の画像データのOCR結果テーブルで「空白」が登録されている座標、つまり原稿自体に文字が存在しない座標についてもOCR処理の処理対象となるが、これら座標には文字データが存在しないため文字認識処理は実行されない。このため、第2の画像データのOCR結果テーブルで「空白」が登録された座標のOCR処理の処理時間は実質的に無視できる。したがって、効率的に文字認識を行うことができる。
ここで、本実施形態において画像認識部22が実行する特定処理について説明する。図15は、特定処理の流れを示すフローチャートである。
画像認識部22は、第1の画像データのOCR結果テーブルから先頭の垂直方向座標をセットし(ステップS11)、同一垂直方向座標の行を検索する(ステップS12)。図12の第1の画像データのOCR結果テーブルの例においては、垂直方向座標が1の文字データについて検索を行う。
次いで、画像認識部22は、検索した垂直方向座標で「空白」でない文字データが登録されているか否か判断する(ステップS13)。言い換えると、画像認識部22は、第1の画像データの検索した行に文字データがあるか否か判断する。
検索した行に「空白」でない文字データが登録されていないと(ステップS13のNo)、画像認識部22は次の垂直方向座標があるか否か判断する(ステップS14)。検索した行に「空白」でない文字データが登録されていると(ステップS13のYes)、画像認識部22は、当該行の文字データに「空白」が登録されている座標を記憶し(ステップS15)、ステップS14の処理に移行する。
なお、画像認識部22は、ステップS15の処理において、検索した行の文字データに「空白」が登録されている座標がない場合、すなわち検索した行の座標全てに「空白」以外の文字データが登録されている場合、抜け座標がないと判断して座標の記憶は行わない。
ステップS14の処理において、次の垂直方向座標がある場合(ステップS14のYes)、画像認識部22は、次の垂直方向座標をセットし(ステップS16)、ステップS12の処理に移行する。次の垂直方向座標がない場合(ステップS14のNo)、画像認識部22は特定処理を終了する。
(第3の実施の形態)
次に第3の実施形態について説明する。第3の実施形態は、第1の実施形態および第2の実施形態において画像認識部22で実行される処理を、画像形成装置100と通信可能に接続されたサーバ装置200で実行するようにしたものである。
次に第3の実施形態について説明する。第3の実施形態は、第1の実施形態および第2の実施形態において画像認識部22で実行される処理を、画像形成装置100と通信可能に接続されたサーバ装置200で実行するようにしたものである。
図16は、読取システム300のハードウェア構成を示すブロック図である。読取システム300は、画像形成装置100とサーバ装置200とを含む。画像形成装置100とサーバ装置200はネットワークを介して通信可能に接続される。
画像形成装置100は、第1の実施形態および第2の実施形態と同様であるので、重複する説明を省略する。
サーバ装置200は、CPU201、メモリ202、記憶装置203、画像処理装置204、および通信装置205を備える。サーバ装置200は、情報処理装置の一例である。
CPU201は、サーバ装置200を統括的に制御する。メモリ202は、OSや各種アプリケーションプログラムを動作させるためのメモリである。記憶装置203は、OCR処理を実行するためのプログラムや、上述した特定処理を実行するためのプログラムなど、各種プログラムを記憶する。また、記憶装置203は、画像形成装置100から受信した第1の画像データおよび第2の画像データ、これら画像をOCR処理したOCR結果テーブル等を記憶する。CPU201、メモリ202、および記憶装置203は、バス等を介して接続され、サーバ装置200の制御部を構成する。
画像処理装置204は、画像形成装置100から受信した第1の画像データおよび第2の画像データに対して画像処理を行い、処理結果を外部装置に出力する。例えば、画像処理装置204は、第1の画像データおよび第2の画像データに対してOCR処理を実行し、文字認識した認識結果を画像形成装置100に送信する。通信装置205は、画像形成装置100などの外部機器と通信を行うための装置である。
上記構成の読取システム300において、画像形成装置100は、読取対象に対して不可視光を照射して不可視画像を読取り、当該不可視画像に基づく第1の画像データを生成する。また、画像形成装置100は、読取対象に対して可視光を照射して可視画像を読取り、当該不可視画像に基づく第2の画像データを生成する。画像形成装置100は、これら第1の画像データおよび第2の画像データをサーバ装置200に送信する。
サーバ装置200は、通信装置205を介して受信した第1の画像データおよび第2の画像データを記憶装置203に記憶する。サーバ装置200は、不可視画像および可視画像を取得する取得部の機能を備えている。
画像処理装置205は、記憶装置203に記憶された第1の画像データおよび第2の画像データの文字認識を行うための処理を実行する。画像処理装置205は、文字認識部として機能する。文字認識を行うための処理は、第1の実施形態や第2の実施形態において、画像認識部22が実行した処理と同様である。サーバ装置200は、画像処理装置205が文字認識した認識結果を画像形成装置100に送信する。なお、サーバ装置200は、他の外部装置に上記認識結果を送信してもよい。
本実施形態においても、上述した第1の実施形態および第2の実施形態で得られる効果と同様の効果を得ることができる。
なお、上記各実施形態においては、読取対象が横書きの文書で例について説明したが、縦書きの文書であっても同様に文字認識を行うことができる。具体的には、上述したとおり画像認識部22が、OCR結果による文字座標と辞書データに登録された単語とから、原稿が縦書き文書であることを判断する。そして、画像認識部22は、第1の実施形態および第2の実施形態で説明した垂直方向座標と水平方向座標とを入れ換えて処理することにより、縦書き文書についても確実に文字認識することができる。
以上説明したとおり、各実施形態によれば、非コンテンツ情報を除去した不可視画像に基づく第1の画像データにおいて文字データが抜けてしまった抜け座標を特定する。そして、第1の画像データのOCR結果と、可視画像に基づく第2の画像データにおける上記抜け座標のOCR結果とを統合した統合データを生成し、最終的な文字認識結果として出力する。
このため、CMYトナーで印字される非コンテンツ情報を文字認識の対象から除外できるばかりでなく、CMYトナーで印字されるコンテンツ情報については文字認識の対象とすることができる。言い換えれば、文字認識の対象となるコンテンツ情報に使用する色材の選択肢を広げることができる。したがって、各実施形態によれば、コンテンツ情報に使用される色材の制限を抑えつつ、画像認識部22による文書の文字認識の精度をより向上させることができる。しかも、第2の画像データのOCR処理については、第2の画像データ全体でなく、抜け座標についてのみ行えばよいので、OCR処理の処理時間を短くすることができる。したがって、効率的に文字認識を行うことができる。
なお、上記各実施形態では、本発明の読取装置を、コピー機能、プリンタ機能、スキャナ機能およびファクシミリ機能のうち少なくとも2つの機能を有する複合機に適用した例について説明したが、これに限らない。本発明は、画像から文字を認識する読取装置に広く適用することが可能である。
本発明の態様は、例えば、以下のとおりである。
<1>
異なる色材からなる読取対象に可視光および不可視光を照射する光源と、
前記読取対象に対する前記不可視光の照射によって読み取られた第1の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第2の画像データを生成する画像生成部と、
前記画像生成部が生成した前記第1の画像データ、および前記第2の画像データの文字認識を行う文字認識部と、を備え、
前記文字認識部は、前記第1の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第2の画像データから文字認識して抽出する、
読取装置。
<2>
前記文字認識部は、前記第1の画像データにおける文字データの座標に基づいて、前記読取対象から抜けた文字データがあるか否か判断する、
<1>に記載の読取装置。
<3>
前記文字認識部は、前記第1の画像データにおいて文字データが抜けた抜け座標を特定し、前記第2の画像データにおける当該抜け座標の文字データを抽出する、
<2>に記載の読取装置。
<4>
前記文字認識部は、前記第2の画像データに含まれる文字データのうち、前記抜け座標の文字データについて認識処理を行う、
<3>に記載の読取装置。
<5>
前記文字認識部は、前記第1の画像データが横書きの画像である場合、水平方向座標において文字データの間隔が他より広くなっている座標を前記抜け座標と特定する、
<4>に記載の読取装置。
<6>
前記文字認識部は、前記第1の画像データが縦書きの画像である場合、垂直方向座標において文字データの間隔が他より広くなっている座標を前記抜け座標と特定する、
<4>または<5>に記載の読取装置。
<7>
前記文字認識部は、前記第1の画像データが横書きの画像である場合、水平方向座標において空白の座標を前記抜け座標と特定する、
<4>に記載の読取装置。
<8>
前記文字認識部は、前記第1の画像データが縦書きの画像である場合、垂直方向座標において空白の座標を前記抜け座標と特定する、
<4>または<7>に記載の読取装置。
<9>
<1>ないし<8>のいずれか一項に記載の読取装置を備えた画像形成装置。
<10>
異なる色材からなる読取対象に可視光および不可視光を照射する光源を備えた読取装置が実行する読取方法であって、
前記読取対象に対する前記不可視光の照射によって読み取られた第1の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第2の画像データを生成する画像生成ステップと、
前記画像生成ステップで生成された前記第1の画像データ、および前記第2の画像データの文字認識を行う文字認識ステップと、を含み、
前記文字認識ステップは、前記第1の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第2の画像データから文字認識して抽出する、
読取方法。
<11>
異なる色材からなる読取対象に可視光および不可視光を照射する光源を備えた読取装置と通信可能に接続される情報処理装置であって、
前記読取対象に対する前記不可視光の照射によって読み取られた第1の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第2の画像データを取得する取得部と、
前記取得部が取得した前記第1の画像データ、および前記第2の画像データの文字認識を行う文字認識部と、を備え、
前記文字認識部は、前記第1の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第2の画像データから文字認識して抽出する、
情報処理装置。
<1>
異なる色材からなる読取対象に可視光および不可視光を照射する光源と、
前記読取対象に対する前記不可視光の照射によって読み取られた第1の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第2の画像データを生成する画像生成部と、
前記画像生成部が生成した前記第1の画像データ、および前記第2の画像データの文字認識を行う文字認識部と、を備え、
前記文字認識部は、前記第1の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第2の画像データから文字認識して抽出する、
読取装置。
<2>
前記文字認識部は、前記第1の画像データにおける文字データの座標に基づいて、前記読取対象から抜けた文字データがあるか否か判断する、
<1>に記載の読取装置。
<3>
前記文字認識部は、前記第1の画像データにおいて文字データが抜けた抜け座標を特定し、前記第2の画像データにおける当該抜け座標の文字データを抽出する、
<2>に記載の読取装置。
<4>
前記文字認識部は、前記第2の画像データに含まれる文字データのうち、前記抜け座標の文字データについて認識処理を行う、
<3>に記載の読取装置。
<5>
前記文字認識部は、前記第1の画像データが横書きの画像である場合、水平方向座標において文字データの間隔が他より広くなっている座標を前記抜け座標と特定する、
<4>に記載の読取装置。
<6>
前記文字認識部は、前記第1の画像データが縦書きの画像である場合、垂直方向座標において文字データの間隔が他より広くなっている座標を前記抜け座標と特定する、
<4>または<5>に記載の読取装置。
<7>
前記文字認識部は、前記第1の画像データが横書きの画像である場合、水平方向座標において空白の座標を前記抜け座標と特定する、
<4>に記載の読取装置。
<8>
前記文字認識部は、前記第1の画像データが縦書きの画像である場合、垂直方向座標において空白の座標を前記抜け座標と特定する、
<4>または<7>に記載の読取装置。
<9>
<1>ないし<8>のいずれか一項に記載の読取装置を備えた画像形成装置。
<10>
異なる色材からなる読取対象に可視光および不可視光を照射する光源を備えた読取装置が実行する読取方法であって、
前記読取対象に対する前記不可視光の照射によって読み取られた第1の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第2の画像データを生成する画像生成ステップと、
前記画像生成ステップで生成された前記第1の画像データ、および前記第2の画像データの文字認識を行う文字認識ステップと、を含み、
前記文字認識ステップは、前記第1の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第2の画像データから文字認識して抽出する、
読取方法。
<11>
異なる色材からなる読取対象に可視光および不可視光を照射する光源を備えた読取装置と通信可能に接続される情報処理装置であって、
前記読取対象に対する前記不可視光の照射によって読み取られた第1の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第2の画像データを取得する取得部と、
前記取得部が取得した前記第1の画像データ、および前記第2の画像データの文字認識を行う文字認識部と、を備え、
前記文字認識部は、前記第1の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第2の画像データから文字認識して抽出する、
情報処理装置。
2 光源
21 画像生成部
22 画像認識部(文字認識部)
100 画像形成装置
101 画像読取部(読取装置)
200 サーバ装置(情報処理装置)
21 画像生成部
22 画像認識部(文字認識部)
100 画像形成装置
101 画像読取部(読取装置)
200 サーバ装置(情報処理装置)
Claims (11)
- 異なる色材からなる読取対象に可視光および不可視光を照射する光源と、
前記読取対象に対する前記不可視光の照射によって読み取られた第1の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第2の画像データを生成する画像生成部と、
前記画像生成部が生成した前記第1の画像データ、および前記第2の画像データの文字認識を行う文字認識部と、を備え、
前記文字認識部は、前記第1の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第2の画像データから文字認識して抽出する、
読取装置。 - 前記文字認識部は、前記第1の画像データにおける文字データの座標に基づいて、前記読取対象から抜けた文字データがあるか否か判断する、
請求項1に記載の読取装置。 - 前記文字認識部は、前記第1の画像データにおいて文字データが抜けた抜け座標を特定し、前記第2の画像データにおける当該抜け座標の文字データを抽出する、
請求項2に記載の読取装置。 - 前記文字認識部は、前記第2の画像データに含まれる文字データのうち、前記抜け座標の文字データについて認識処理を行う、
請求項3に記載の読取装置。 - 前記文字認識部は、前記第1の画像データが横書きの画像である場合、水平方向座標において文字データの間隔が他より広くなっている座標を前記抜け座標と特定する、
請求項4に記載の読取装置。 - 前記文字認識部は、前記第1の画像データが縦書きの画像である場合、垂直方向座標において文字データの間隔が他より広くなっている座標を前記抜け座標と特定する、
請求項4に記載の読取装置。 - 前記文字認識部は、前記第1の画像データが横書きの画像である場合、水平方向座標において空白の座標を前記抜け座標と特定する、
請求項4に記載の読取装置。 - 前記文字認識部は、前記第1の画像データが縦書きの画像である場合、垂直方向座標において空白の座標を前記抜け座標と特定する、
請求項4に記載の読取装置。 - 請求項1ないし請求項8のいずれか一項に記載の読取装置を備えた画像形成装置。
- 異なる色材からなる読取対象に可視光および不可視光を照射する光源を備えた読取装置が実行する読取方法であって、
前記読取対象に対する前記不可視光の照射によって読み取られた第1の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第2の画像データを生成する画像生成ステップと、
前記画像生成ステップで生成された前記第1の画像データ、および前記第2の画像データの文字認識を行う文字認識ステップと、を含み、
前記文字認識ステップは、前記第1の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第2の画像データから文字認識して抽出する、
読取方法。 - 異なる色材からなる読取対象に可視光および不可視光を照射する光源を備えた読取装置と通信可能に接続される情報処理装置であって、
前記読取対象に対する前記不可視光の照射によって読み取られた第1の画像データ、および前記読取対象に対する前記可視光の照射によって読み取られた第2の画像データを取得する取得部と、
前記取得部が取得した前記第1の画像データ、および前記第2の画像データの文字認識を行う文字認識部と、を備え、
前記文字認識部は、前記第1の画像データから文字認識して抽出した文字データ中に前記読取対象の文字に対して抜けがあると判断すると、抜けている文字データを前記第2の画像データから文字認識して抽出する、
情報処理装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022037390 | 2022-03-10 | ||
JP2022037390 | 2022-03-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023133082A true JP2023133082A (ja) | 2023-09-22 |
Family
ID=88064845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022146213A Pending JP2023133082A (ja) | 2022-03-10 | 2022-09-14 | 読取装置、画像形成装置、読取方法、および情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023133082A (ja) |
-
2022
- 2022-09-14 JP JP2022146213A patent/JP2023133082A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7392302B2 (ja) | 画像処理装置、画像形成装置および画像処理方法 | |
US6587651B2 (en) | Image forming apparatus and method of controlling the apparatus | |
US20070285743A1 (en) | Image forming apparatus and image forming method | |
JP6060557B2 (ja) | 画像処理装置 | |
US7509065B2 (en) | Image forming apparatus and control method for the same | |
US11457116B2 (en) | Image processing apparatus and image reading method | |
CN111385429B (zh) | 原稿读取装置和图像形成装置 | |
US11825037B2 (en) | Multi-mode scanning device performing invisible light reflection | |
US11553108B2 (en) | Reading device, image forming apparatus, and method | |
JP2008311689A (ja) | 秘匿処理装置および画像形成装置 | |
US20170064137A1 (en) | Image formation apparatus | |
CN113835316B (zh) | 位置检测装置、位置检测方法、以及图像形成装置 | |
US10063742B2 (en) | Integrated circuit, image processing apparatus, and image forming apparatus that selects density conversion information according to a selected image processing method | |
US7777921B2 (en) | Digital scanning control method and system | |
US20110182599A1 (en) | Image forming apparatus, alignment correcting method, and alignment correcting program | |
JP2023133082A (ja) | 読取装置、画像形成装置、読取方法、および情報処理装置 | |
US7524010B2 (en) | Image recording apparatus | |
JP2007127790A (ja) | 画像形成装置 | |
US20210084188A1 (en) | Image forming apparatus and control method by the same | |
JP2022059534A (ja) | 読取装置、画像形成装置および補正方法 | |
US10432821B2 (en) | Detecting noise in image data that prevents an image processing apparatus from correctly detecting a printing area due to the noise in the image data | |
JP2023133084A (ja) | 画像生成装置、画像形成装置、画像形成方法、プログラム、及び画像生成システム | |
US10237431B2 (en) | Image forming apparatus that sorts sheets contained in sheet feed cassette to plurality of trays | |
JP2023143726A (ja) | 画像処理装置、読取装置、画像形成装置、データ管理システムおよび方法 | |
JP2009223141A (ja) | 画像形成装置 |